JPH11120206A - タグ付けされていないテキストの外観特徴を使用したテキストジャンルの自動決定方法及び装置 - Google Patents

タグ付けされていないテキストの外観特徴を使用したテキストジャンルの自動決定方法及び装置

Info

Publication number
JPH11120206A
JPH11120206A JP10223557A JP22355798A JPH11120206A JP H11120206 A JPH11120206 A JP H11120206A JP 10223557 A JP10223557 A JP 10223557A JP 22355798 A JP22355798 A JP 22355798A JP H11120206 A JPH11120206 A JP H11120206A
Authority
JP
Japan
Prior art keywords
text
genre
facet
processor
genres
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10223557A
Other languages
English (en)
Inventor
Geoffrey D Nunberg
ディー.ナンバーグ ジョフリー
Heinrich Schuetze
シェッツェ ハインリッチ
Jan O Pedersen
オー.ペダーセン ジャン
Brett L Kessler
エル.ケッセラー ブレット
Gregory Grefenstette
グレフェンステッテ グレゴリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH11120206A publication Critical patent/JPH11120206A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 マシン可読形式のタグ付されていないテキス
トのジャンルをプロセッサを用いて識別する方法を提供
する。 【解決手段】 この方法は、容易に計算可能である非構
造的な表面キューの第1セットがテキストにおいて発生
する回数を表すキューベクトルをテキストから生成する
ことによって開始する。この後プロセッサは、キューベ
クトルと、第1のテキストジャンルに関連する重み付け
ベクトルとを用いて、このテキストが第1のテキストジ
ャンルのインスタンスであるか否かを決定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は計算言語学に関す
る。
【0002】
【従来の技術及び発明が解決しようとする課題】「ジャ
ンル」という言葉は通常、「テキストの種類」の代わり
に用いる文学的な言葉として機能する。テキストジャン
ルは、テキストトピック(題目)及び文書ジャンルの関
連概念とは異なる。テキストジャンル及びテキストトピ
ックは、互いから完全に独立してはいない。新聞に記載
の話、小説及び科学的な記事などの顕著なテキストジャ
ンルは主に、異なる範囲のトピックを扱っている。しか
し、これらのテキストジャンルの各々におけるトピック
の共通性は非常に広く抽象的である。更に、単一のトピ
ックに関連する大量のテキストの集まりはどれも1つよ
り多くのテキストジャンルの作品を殆ど常に含み、よっ
てこれらの間の形式的な類似点は語彙アイテムの存在に
限られる。概念としてのテキストジャンルは文書ジャン
ルとは無関係であるが、これら2つのジャンルのタイプ
は濃密な機能的相互依存と歴史的に密接に関連して発達
している。例えば、単一のテキストジャンルはいくつか
の文書ジャンルと関連しうる。ショートストーリーを雑
誌又は選集に掲載したり、又は小説を複数部分に分けて
連続出版したり、小説をハードカバー、そして後にペー
パーバックとして再出版したりすることができる。同様
に、新聞のような文書ジャンルは、特集記事、コラム、
失恋した人へのアドバイス及びクロスワードパズルな
ど、いくつかのテキストジャンルを含むことができる。
これらのテキストジャンルは、「昨日」及び「ローカ
ル」のような文脈に依存する単語の使用を許容する新聞
に現れなければ、現在のように読まれていない可能性が
ある。これらが密接して関連しているために、文書ジャ
ンルの物質的な特徴がテキストジャンルを示すことが多
い。例えば、新聞はあるフォントを「ハードニュース
(政治・経済・国際関係などに関するニュース)」の見
出しに使用して別のフォントを分析の見出しに使用した
り、定期刊行物は用紙(paperstock)によっ
てそのトピック内容を示したり、ビジネスレター及び私
信をページのレイアウトに基づいて区別したりすること
ができる。異種のデジタルテキストの集まりから関連テ
キストを検索するのが難しいことが多いのは、デジタル
化によってテキスト及び文書ジャンルに関連するこれら
の物理的な手掛かりが取り除かれてしまうためである。
【0003】公と私、ジェネラリストとスペシャリス
ト、仕事と休養などのテキストジャンル間の境界は、社
会生活が別個の役割及び行動に分かれていることを反映
する。ジャンルは、文書を解釈可能にする情況を提供す
るため、ジャンルは内容に劣らずユーザの関連概念を形
成する。例えば、スーパーコライダー(超衝突装置:s
upercollider)又はナポレオンに関する情
報を求めている研究者は、内容と同じくらいテキストジ
ャンルに注意する。研究者は、出所の内容だけでなく、
その出所が学術雑誌に記載されているか又は一般雑誌に
記載されているかということも知りたいと思うであろ
う。
【0004】最近まで、情報検索及びテキスト分類の研
究は、テキストジャンルではなくトピックの識別に殆ど
独占的に焦点を当ててきた。テキストジャンルの識別が
殆ど研究されなかった理由は2つある。第1に、従来の
プリントベース文書の世界ではジャンル分類の必要性が
みられなかった。何故なら、この世界では、ジャンルは
本質的に、又は画一的な文脈上の特徴によって明確に示
されているからである。低温融合に関する記事を探しに
図書館を訪ねた科学者は、どうやって定期刊行雑誌の記
事に研究を制限するかを心配しなくてもよい。何故な
ら、定期刊行雑誌は一般的な科学雑誌と区別できるよう
に目録が作られ、書架に置かれているからである。第2
に、オンラインのテキストデータベースを用いた迅速な
情報検索作業は、百科事典又は新聞のデータベースのよ
うに、テキストジャンルが外的に統制される小さく比較
的同種のデータベースに焦点を当てていた。テキストジ
ャンル間の境界が示されていないことが多い大きな異種
のテキストデータベースによって、テキストのジャンル
分類の重要性が強調される。トピックベースの検索ツー
ルのみでは、大きな異種データベースを検索する際に読
者の興味の対象物の範囲を適切に選択することができな
い。
【0005】ジャンル分類のアプリケーション(用途)
は、情報検索の分野に限られていない。いくつかの言語
学技術も、このアプリケーションから利益を得ることが
できる。単語の意味の分布はジャンルによって大幅に異
なることが既知であるため、自動的な文(センテンス)
の部分のタガー(タグを付けるもの)及び意味のタガー
は共にジャンル分類から利益を得ることができる。
【0006】書籍の分類の論述はアリストテレスまでさ
かのぼる。ジャンルに関する文献は分類スキーム及びシ
ステムが豊富であり、そのうちのいくつかを単純な属性
システムとして分析することができる。これらの論述は
あいまいで、牧歌又は小説のような文学的形式や、これ
よりも程度が小さいが新聞の犯罪レポート又はラブレタ
ーのようなパラ文学的な(paraliterary)
形式に専ら焦点を当てる傾向にある。分類の論述は、年
次報告、Eメール通信及び科学的なアブストラクトな
ど、文学的ではないテキストのタイプを無視する傾向に
ある。更に、これらの論述のうちで、ジャンルを区別す
るアブストラクトディメンション(摘要の範囲)をテキ
ストのあらゆる形式的特徴に関連づける努力をしている
ものは1つもない。
【0007】テキストのジャンル分類の量化方法に具体
的に関連する唯一の言語学研究は、バイバー(Doug
las Biber)の研究である。彼の研究は、以下
を含む:″Spoken and Written T
extual Dimensions in Engl
ish: Resolving the Contra
dictory Findings″(Languag
e、62(2):384−413,1986);″Va
riation Across Speechand
Writing″(Cambridge Univer
sity Press、1988);″The Mul
tidimensional Approach to
Linguistic Analyses of G
enre Variation: An Overvi
ew of Methodology and Fin
ding″(Computers in the Hu
manities、26(5−6):331−347、
1992);″Using Register−Div
ersified Corpora for Gene
ral Language Studies″(Usi
ng LargeCorpora、第179−202頁
(Susan Armstrong 編集)(199
4));及びフィネガンEdward Finega
n)と共著の″Drift and the Evol
ution of EnglishStyle:A H
istory of Three Genres″(L
anguage、65(1):93−124、198
9)。バイバーの研究は記述的であり、各々が利用する
傾向にある言語学的特徴のタイプに従ってテキストジャ
ンルを機能的に区別することを目的としている。バイバ
ーは、「学究散文」及び「一般的なフィクション」な
ど、手作業によって多数の別個のジャンルに分けられた
コーパスから始めている。次に、通常は3つか5つであ
る、テキストのいくつかの「ディメンション」又は要素
に沿ってこれらのジャンルをランク付けする。バイバー
は、殆どが統語的又は語彙的なものである言語学的特徴
のセットにこの要素分析を適用することによって要素を
個性化している。これらの要素には、例えば過去時制の
動詞、過去分詞節及び″wh−”から始まる質問などが
含まれる。次にバイバーは、言語学者が各要素の個々の
構成部分に割り当てて用いてきた談話機能(例えば、
「情報を与えるvs関係のある」ディメンション、「説
話的vs非説話的」ディメンションなどとして)を抜粋
することにより、一般的な意味又は機能を要素に割り当
てている。ジャンルに従って個々のテキストを分類する
際に、これらの要素はその有用性に従って個性化される
のではないことに注意する。所与の要素又は要素のセッ
トに対してあらゆるテキストが受け取るスコアは、その
ジャンルほど多くの情報を与えるものではない場合があ
る。何故なら、あらゆる個々の要素に関連するジャンル
間に大幅な重複があるからである。
【0008】カールグレン(Jussi Karlgr
en)及びカッテイング(Douglass Cutt
ing)は、″Recognizing Text G
enres with Simple Metric
Using Discriminant Analys
is″(Proceedings of Colin
g’94、第II巻、第1071−1075頁、199
4年8月)において、バイバーの結果の一部をジャンル
の自動分類に適用するための努力を述べている。彼らも
また、手作業で分類したテキストのコーパス、即ちブラ
ウンコーパスから始めている。ブラウンコーパスをまと
めた人々はこの分類を総称的なものと述べているが、教
養のある読者が認識するテキストとジャンルとの間の適
合はおおよそにすぎない。カールグレン及びカッティン
グは、語彙特徴又は分布特徴のいずれかを用いる。語彙
特徴は第1人称代名詞の総数及び現在時制の動詞の総数
を含み、分布特徴は長い単語の総数及び単語当たりの平
均文字数を含む。彼らは、句読レベル又は文字レベルの
特徴を使用しない。この2人の著者は、判別分析を用い
てテキストを様々な数のカテゴリーに分類する。カール
グレン及びカッティングが手作業で割り当てたカテゴリ
ーの数に等しい数の機能を用いたとき、自動的に得たカ
テゴリーと手作業で分類したカテゴリーとの間の適合は
51.6%であった。機能の数を減少させ、コーパスの
カテゴリーを再構成することによって、彼らは実施を改
良した。カールグレン及びカッティングは、このような
方法が情報検索の目的に有用であるか定かではないと考
えており、以下のように述べている:「自動的に得たカ
テゴリーを使用する際の問題は、たとえこれらのカテゴ
リーがデータによって支持されているという意味で実質
的なものであっても、この技術を検索ツールにおいて使
用することが目的である場合、これらのカテゴリーは熱
心でない素人に対して説明することが難しくなりうる、
ということである。」更に、ブラウンコーパスの特有の
「ジャンル」が、ユーザが情報検索のタスクに関連して
見出すカテゴリーとどの程度一致するかが明らかではな
い。
【0009】ナンバーグ(Geoffrey Nunb
erg)及びヴィオリ(Patrizia Viol
i)は、″Text,Form and Genre″
(Proceedings of OED’92、第1
18−122頁、1992年10月)において、ジャン
ルの認識が、情報検索のタスク及び自然言語処理のタス
クに重要であることを示唆している。これらの著者は、
テキストのジャンルをクラスではなく属性として処理す
ることができると提案している。しかし、彼らは識別を
達成できる態様に関する具体的な提案を提供していな
い。
【0010】
【課題を解決するための手段】マシン可読でタグ付けさ
れていないテキストのジャンルを自動的に識別する本発
明の方法は、様々な利点を提供する。簡潔に説明する
と、プロセッサによって実施される本方法は、テキスト
からキューベクトルを生成することによって始まる。キ
ューベクトルは、容易に計算可能である非構造的な表面
キューの第1セットがテキストにおいて発生する回数を
表す。その後、プロセッサは、キューベクトルと、第1
のテキストジャンルに関連する重み付けベクトルとを用
いて、テキストが第1のテキストジャンルのインスタン
スであるか否かを決定する。
【0011】
【発明の実施の形態】図1は、命令100を実行するこ
とによって本発明の方法が行われるコンピュータシステ
ム100をブロック図で示している。本発明の方法はコ
ンピュータシステム10の動作を変え、マシン可読形式
でシステムに提供されるタグ付けされていないテキスト
のテキストジャンルを自動的に決定することができるよ
うにする。命令100によって、テキストの構造分析、
単語のステミング(語幹化:word stemmin
g)又は品詞のタグ付けを行わずにテキストジャンルの
分類を行うことができる。命令100は、構造ベースの
特徴よりもより迅速に計算することができる新しい表面
レベルのキュー又は特徴に依存する。簡潔に述べると、
命令100に従って、コンピュータシステム10はテキ
ストを分析し、このテキスト内の各表面キューの発生回
数を決定してキューベクトルを生成する。次にコンピュ
ータシステム10は、テキストが特定のテキストジャン
ル及び/又はファセットのインスタンスであるか否か
を、キューベクトルと、特定のテキストジャンル及び/
又はファセットに関連する重み付けベクトルとを用いて
決定する。命令100は、図4に関連して詳しく説明さ
れる。コンピュータシステム10は、学習(トレーニン
グ)命令50を用いて各テキストジャンル及び/又はフ
ァセットに適切な重み付けベクトルを決定する。これ
は、図3に関連して詳しく説明される。
【0012】A.テキストジャンルを自動的に決定する
コンピュータシステム 命令50及び100をより詳しく説明する前に、これら
の命令を実行するコンピュータシステム10について説
明する。図1に示されるように、コンピュータシステム
10は情報をコンピュータユーザに視覚的に表示するモ
ニタ12を含む。また、コンピュータシステム10はプ
リンタ13を介してコンピュータユーザに情報を出力す
る。コンピュータシステム10は、データを入力する複
数の経路をコンピュータユーザに提供する。キーボード
14を打つことによって、コンピュータユーザはコンピ
ュータシステム10に入力データを入力することができ
る。マウス16を動かすことによって、コンピュータユ
ーザはモニタ12に表示されたポインタを動かすことが
できる。また、コンピュータユーザは、スタイラス20
又はペンで電子タブレット18に書き込むことによって
コンピュータシステム10に情報を入力することもでき
る。あるいは、フロッピーディスクなどの磁気媒体をフ
ロッピーディスクドライブ22に挿入することにより、
コンピュータユーザは磁気媒体に記憶されたデータを入
力することができる。スキャナー24によって、コンピ
ュータユーザはハードコピー文書のマシン可読バージョ
ン、例えばASCIIを生成することができる。
【0013】プロセッサ11は、コンピュータシステム
10の動作の制御及び統制を行い、コンピュータユーザ
のコマンドを実行する。プロセッサ11は、メモリ28
又はディスクドライブ内のフロッピーディスクに電子的
に記憶された命令50及び100などの命令を実行する
ことにより、各ユーザのコマンドに応答する適切な動作
を判断し、これを行う。通常、プロセッサ11のための
動作命令は固体メモリに記憶され、これによって命令に
頻繁かつ迅速にアクセスすることができる。メモリの具
現に使用することができる半導体論理デバイスには、読
出し専用メモリ(ROM)、ランダムアクセスメモリ
(RAM)、ダイナミックRAM(DRAM)、プログ
ラマブルROM(PROM)、消去可能型PROM(E
PROM)及びフラッシュメモリなどの電気的書き込み
可能型ROM(EEPROM)が含まれる。
【0014】B.テキストのジャンル、ファセット及び
キュー コンピュータシステム10は命令50及び100に従っ
て、構造分析、ステミング、解析又は意味もしくは品詞
のタグ付けをまだ行っていないトークン化されたマシン
可読テキストのテキストジャンルを決定する。本明細書
中に使用されるように、「テキストジャンル」とは、テ
キストが示す直接のトピックによって直接に生じたもの
ではないいくつかの形式キュー又は共通属性に機能が関
係していることを条件として、いくつかの共通の通信目
的特徴又は他の機能的特徴(trait)によって定義
されるテキストの広く認識された任意のクラス(種類)
をいう。テキストのクラスが広く認識されていることに
より、一般の人々は解釈原理の特徴的なセットを用いて
クラスのテキストを解釈することができる。本明細書中
に使用されるように、テキストジャンルは文(センテン
ス)のジャンルのみに適用する。即ち、テキストジャン
ルは、句読及びパラグラフなどのテキストカテゴリーイ
ンジケータの十分なレパートリーを利用するストリング
のような文(単数及び複数)を主に介して伝わるジャン
ルのみに適用する。従って、本発明では、航空路のスケ
ジュール、株式の表及びコマ漫画はテキストジャンルと
して認識されない。また、本発明は会話のジャンルもテ
キストジャンルとして認識しない。テキストジャンルに
よって定義されるクラスは拡張可能であることが好まし
い。従って、本発明では、ジェーン・オースティン(J
ane Austen)によって書かれた小説のクラス
は拡張可能ではないため、好適なテキストジャンルでは
ない。
【0015】命令50及び100の方法は、テキストジ
ャンルをファセットの集まりとみなす。各ファセット
は、キュー又は特徴と呼ばれる計算可能な言語学特性の
特徴的なセットと関連しており、これらはテキストの形
式の表面レベル特徴から観察することができる。これら
のキューを使用して、各ファセットは一定の実用的な対
象物に応えるテキストのクラスを区別する。1つのファ
セットが複数のジャンルに関連する場合があるため、フ
ァセットはテキストジャンルを間接的に識別する傾向に
ある。どのテキストジャンルもファセットの特定のクラ
スタとして定義することができるため、本発明の方法
は、他のアプローチと同じ正確さであるが以前にはなか
った新規のテキストジャンルを容易に追加することがで
きるという利点を有してテキストジャンル及びスーパー
ジャンルを識別することができる。
【0016】ファセットの概念を更に定義しようとする
代わりに、例示的な具体例をいくつか説明する。読者
(audience)ファセットは、広範囲のテキスト
と、より限られた読者にむけられたテキストとを区別す
る。長さファセットは、短いテキストと長いテキストの
区別をする。組織又は匿名及び個人によって書かれたテ
キストの区別は、著者ファセットによって表される。下
記のリストは、これらの値が明確でないときの他のファ
セット及びその値である。ファセットは2値でなくても
よいことに注意する。 ファセット名 可能な値 1.日付 あり/なし 2.説話的 Yes/No 3.説得的(議論的)/記述的(教育的) 4.フィクション/ノンフィクション 5.法的 Yes/No 6.科学及び技術的 Yes/No 7.知的水準 平俗 Yes/No (Brow)中 Yes/No 高 Yes/No
【0017】他のファセットを定義して、本発明と矛盾
せず上記リストのファセットに追加することができる。
テキストジャンルを定義するのに全てのファセットを用
いる必要はなく、テキストジャンルを単一のファセット
で定義することができる。下記のリストは、前述のファ
セット及び値を用いて定義することができる、従来認識
されているテキストジャンルのいくつかの例にすぎな
い。 1. 新聞の報道 a.読者 広範囲 b.日付 あり c.説得的 記述的 d.説話的 Yes e.フィクション No f.知的水準 平俗 g.著者 記名なし h.法的 No 2. 論説の意見 a.読者 広範囲 b.日付 あり c.説得的 Yes d.説話的 Yes e.フィクション No f.知的水準 平俗 g.著者 記名あり h.科学及び技術的 No i.法的 No 3. 市場分析 a.読者 広範囲 b.日付 あり c.説得的 記述的 d.説話的 No e.フィクション No f.知的水準 高 g.著者 組織 h.科学及び技術的 Yes i.法的 No 4. Eメール a.読者 受取人 b.日付 あり c.フィクション No d.知的水準 平俗 e.著者 記名あり
【0018】テキストジャンルがファセットのグループ
に分解するように、ファセットも本方法に従った表面レ
ベルのキューに分解する。本発明の表面レベルキュー
は、単語のステミング、解析、又は意味もしくは品詞の
タグ付けなどの構造分析を全く行わずにトークン化され
たASCIIテキストを用いて計算することができるた
め、本発明の表面レベルキューは従来の特徴とは異な
る。本発明に関連するのは、大抵はテキスト内のこれら
の表面レベルキューの発生回数(頻度)である。表面レ
ベル又は形式キューのいくつかのタイプを下記に定義で
きるが、これらに限定されない:数/統計、句読、構
造、式文、語彙及び逸脱。方式タイプのキューは、従来
特定のテキストジャンルに関連するコロケーション又は
定着した表現である。例えば、おとぎ話は″Once
upon a time(むかしむかし)″で始まり、
聖母マリアの讃歌は「ヘイルメアリー(Hail Ma
ry :聖母マリアに捧げる祈り)」で始まる。他の式
文は、法律文書、認可承諾書などを示す。語彙タイプの
キューは、テキストジャンルを示すことができる一定の
語彙アイテムの回数に関連する。例えば、Mr.、Mr
s.及びMs.などの習慣的な敬称用語がニューヨーク
タイムズの記事に使用されており、「昨日」及び「ロー
カル」などの単語が新聞の報道に頻繁に使用されてい
る。更に、″it’spretty much a s
nap″などのフレーズを使用する場合、テキストが例
えば百科事典の記事の一部ではないことを示している。
いくつかの語彙アイテムの使用は、いくつかのテキスト
ジャンルのトピック及び修辞学的な共通属性によって保
証される。構造的な特徴は従来技術において既知である
が、その殆どの計算にはタグ付けされたか又は十分に解
析されたテキストが必要である。ストリング認識が可能
であるこれら2つの新しい表面レベル構造キューは、本
発明によって定義される。句読タイプのキューは、テキ
スト内の句読的特徴の総数である。このタイプのキュー
は以前に使用されていないが、これらは有意であり、非
常に多いため、テキストジャンルの有用なインジケータ
として機能することができる。例えば、クエスチョンマ
ークの総数が多ければ、テキストは読者を説得しようと
していることを示す可能性が高い。特定のテキスト内の
表面レベル特徴の回数を測定する殆どの他のキュータイ
プとは対照的に、逸脱タイプのキューは単位サイズ内の
逸脱に関連する。例えば、逸脱キューを使用して、テキ
ストジャンルによって変化しうる特徴である文及びパラ
グラフの長さの変化を追跡することができる。キューの
タイプは、テキストの特徴を示すために測定することが
できる表面レベルの特徴の種類を示唆するために説明し
たにすぎず、キューのタイプの特徴付けは本発明にとっ
て重要ではない。定義することができるキューの数は、
理論的に無制限である。使用可能なキューのほんのいく
つかを例示的な目的で下記に列挙する。 A.句読のキュー 1.ログ(コンマの総数(カウント)+1) 2.平均値(コンマ/文)/記事 3.平均値(ダッシュ/文)/記事 4.ログ(クエスチョンマークの総数+1) 5.平均値(クエスチョンマーク/文)/記事 6.ログ(ダッシュの総数+1) 7.ログ(セミコロンの総数+1) B.ストリング認識が可能な構造のキュー 1.″and″、″but″及び″so″で始まる文/
記事 2.副詞+コンマで始まる文/記事 C.式文のキュー 1.″Once upon a time...″ D.語彙のキュー(他の指示がない限りトークンの総数
のみを示す) 1.″Mr.、Mrs.″などの略称 2.頭文字語 3.法助動詞 4.動詞″be″の形式 5.暦−曜日、月 6、7.大文字−大文字で始まる文ではない初めの単語
のタイプ及びトークン数 8.文字数 9、10.短縮タイプ及びトークン数 11、12.″ed″で終わる単語のタイプ及びトーク
ン数 13.数式 14.動詞″have″の形式 15、16.ハイフン付きの単語のタイプ及びトークン
数 17、18.多音節語のタイプ及びトークン数 19.単語″it″ 20、21.ラテン語の接頭辞及び接尾辞のタイプ及び
トークン数 22、23.6文字よりも多い単語のタイプ及びトーク
ン数 24、25.10文字よりも多い単語のタイプ及びトー
クン数 26、27.3つより多い単語句(Three+wor
d phrases)のタイプ及びトークン数 28、29.″1y″で終わる多節語のタイプ及びトー
クン数 30.明白な否定語 31、32.少なくとも1つの数字を含む単語のタイプ
及びトークン数 33.左かっこ 34、35.前置詞のタイプ及びトークン数 36.第1人称単数の代名詞 37.第1人称複数の代名詞 38.引用符の対 39.ローマ数字 40.″that″のインスタンス 41.″which″のインスタンス 42.第2人称複数の代名詞 F.逸脱のキュー 1.文の標準の長さからの逸脱(単語数) 2.単語の標準の長さからの逸脱(文字数) 3.句読点間のテキストセグメントの標準の長さからの
逸脱(単語数) 4.平均値(文字/単語)/記事
【0019】約400のテキストのコーパスを用いた事
前試行の結果として、図2の表1はいくつかの表面レベ
ルのキューがファセット/テキストジャンルによって変
化しうる態様を示している。(この試行は、上記のよう
にテキストジャンルを分解せず、いくつかのテキストジ
ャンルを単一のファセットとみなした。双方のアプロー
チは本発明と矛盾しない。前述のように、テキストジャ
ンルを単一のファセットによって定義することができ
る。)例えば、このコーパス内で、新聞の報道は1つの
記事当たり1.2個のセミコロンしか含まなかったが、
法律文書は4.78個含んだ。同様に、テキスト当たり
のダッシュの数は、新聞の報道、論説の意見及びフィク
ションにおいて異なっていた。
【0020】異なるキュー値にどの位の重みを付けるべ
きか?換言すると、特定のファセット又はテキストジャ
ンルのキュー値又はキュー値のセットはどれだけ密接に
相関しているのか?人間が判断する事柄であるテキスト
ジャンルのファセット値への分解とは対照的に、この質
問に対する答えは人間が判断する事柄ではない。ファセ
ットに従って各キューに合った重みを決定するには、図
3に関連して後述する学習が必要である。
【0021】C.キューの重みを決定するための学習 図3は、各キュー毎にキューの重みを決定するための学
習方法30をフロー図で示している。学習方法30は完
全に自動ではなく、ステップ32、34及び36はマニ
ュアルで実行され、命令50のステップはプロセッサに
よって実行される。命令50は、固体メモリ又はフロッ
ピーディスクドライブ内に配置したフロッピーディスク
に記憶させることができ、LISP及びC++を含むあ
らゆるコンピュータ言語で実現させることができる。
【0022】学習方法30は1セットのキュー及び別の
1セットのファセットの選択で始まり、これらを使用し
て広く認識された1セットのテキストジャンルを定義す
ることができる。ステップ32において約50〜55個
の表面レベルキューを選択することが好ましいが、これ
よりも少ないか又は多い数を本発明と矛盾せず使用する
ことができる。また、語彙及び句読タイプの表面レベル
キューの数を選択することが好ましい。ユーザは定義さ
れる各ファセットに表面レベルキューを全て組み込むこ
とができるが、これは必須ではない。ステップ32にお
いて任意の数のファセットを定義し選択できるが、ユー
ザは何らかの数のファセットを定義しなければならな
い。反対に、後述するように、ファセットそのものが多
数のアプリケーションにおいて有用であるため、ユーザ
はこの時点ではテキストジャンルを定義しなくてよい。
この後、ステップ34においてユーザはテキストの異種
コーパスを選択する。テキストジャンルが定義されてい
ない場合、選択されるコーパスは、選択されるテキスト
ジャンル又はファセットの各々において約20個のイン
スタンスを含むことが好ましい。通常はASCIIであ
るデジタル又はマシン可読形式でない場合、命令50に
進む前にコーパスを変換してトークン化しなければなら
ない。ファセット、表面レベルキュー及び異種コーパス
の選択後、ユーザはステップ36においてマシン可読フ
ァセット値をコーパスのテキストの各々に関連づける。
この後に、ユーザは残りの学習タスクをコンピュータシ
ステム10に引き継ぐ。
【0023】命令50はステップ52から始まる。この
ステップにおいて、プロセッサ11はコーパスの各テキ
スト毎にキューベクトルXを生成する。キューベクトル
は、選択されたキューの各々に対して1つの値を有する
多次元のベクトルである。プロセッサ11は、特定のテ
キスト内にみられる関連した表面レベルの特徴に基づい
て、各キューの値を決定する。選択されたキューの定義
に基づいてキュー値を決定する方法は当業者には明らか
であるため、本明細書では詳しく説明しないことにす
る。これらの方法にはテキストの構造分析又はタグ付け
が必要ではないため、プロセッサ11はステップ52に
おいてキュー値を決定するために比較的わずかな計算を
行うだけでよい。
【0024】ステップ54において、プロセッサ11は
ファセット値に従って各キューに付けられるべき重みを
決定する。即ち、ステップ54において、プロセッサ1
1は各ファセットに対して重み付けベクトルβを生成す
る。キューベクトルXのように、重み付けベクトルβは
選択されたキューの各々に対して1つの値を有する多次
元ベクトルである。ロジスティック回帰を含む多数の数
学的アプローチを使用して、コーパスのキューベクトル
から重み付けベクトルを生成することができる。ロジス
ティック回帰を用いて、プロセッサ11はステップ52
で生成されたキューベクトルを同一のキューベクトルの
セットに分割する。次に、各2値ファセットに対して、
プロセッサ11は同一キューベクトルの各セットに対す
るログ奇関数を解く。ログ奇関数g(ψ)は、下記のよ
うに表される。 g(ψ)=log(ψ/1−ψ)=Xβ 式中、ψはファセット値が真であるベクトルの割合であ
り、1−ψはファセット値が偽であるセット内のベクト
ルの割合である。
【0025】ファセット値の先のタグ付けは、同一のキ
ューベクトルを有するテキストの各セット内に各ファセ
ット値を有するテキストの数を示すため、プロセッサ1
1はψ及び1−ψの値を決定することができる。従っ
て、プロセッサ11は、同一キューベクトルのセット、
既知のψ値のセット、1−ψ値のセット及びキューベク
トル値のセット全てによって定義される連立方程式のシ
ステムを解くことにより、各2値ファセットのための重
み付けベクトルβの値を決定することができる。ロジス
ティック回帰は公知であり、本明細書では詳しく説明し
ないことにする。ロジスティック回帰のより詳細な論述
に関しては、本明細書に援用されるマッカラー(McC
ullagh,P.)及びネルダー(Nelder,
J.A.)の″Generalized Linear
Models″(第2版、1989(Chapman
and Hall pub.)の第4章を参照のこ
と。
【0026】当業者には明白であるように、プロセッサ
11は前述の方法を使用し、知的水準ファセットのよう
な2値ではないファセットの各値を2値ファセットとみ
なすことによってこれらのファセットのための重み付け
ベクトルを生成することができる。即ち、非2値ファセ
ットの各値に対して重み付けベクトルを生成する。
【0027】好適な数(50〜55)のキューを用いた
ロジスティック回帰を使用すると、オーバーフィッティ
ング(overfitting)を生じる場合がある。
更に、ロジスティック回帰は可変の相互作用のモデルを
作らない。可変相互作用のモデリングを可能としてオー
バーフィッティングを避けるために、ニューラルネット
ワークをステップ54に使用して重み付けベクトルを生
成し、性能を改良することができる。しかし、どちらの
アプローチも本発明と矛盾せずステップ54で使用する
ことができる。
【0028】後のテキストジャンルの自動識別を可能に
するために、プロセッサ11は選択されたファセットの
各々に対する重み付けベクトルをメモリに記憶する。こ
れが終了すると、学習は完了する。
【0029】D.テキストジャンル及びファセットの自
動識別 図4は、命令100をフロー図で示している。命令10
0を実行することで、プロセッサ11は、表面レベルの
キュー、ファセットのセット及び重み付けベクトルを用
いてマシン可読でタグ付けされていないテキスト11の
テキストジャンルを自動的に識別する。簡潔に説明する
と、命令100に従って、プロセッサ11はまず、分類
されるべきトークン化マシン可読テキストのキューベク
トルを生成する。続いて、プロセッサ11はキューベク
トルとファセットに関連する重み付けベクトルとを使用
して、各ファセットのテキストとの関連性を決定する。
各ファセットのテキストとの関連性を決定した後、プロ
セッサ11はテキストのジャンル(単数又は複数)を識
別する。命令100は、固体メモリ又はフロッピーディ
スクドライブ内に配置したフロッピーディスクに記憶さ
せることができ、LISP及びC++を含むあらゆるコ
ンピュータ言語で実現させることができる。
【0030】選択されたトークン化マシン可読テキスト
のジャンルを識別するというユーザの要求に応答して、
プロセッサ11はステップ102に進む。このステップ
において、プロセッサ11はテキストのためのキューベ
クトルXを生成する。これは、選択されたテキスト内
の、先に定義した表面レベルキューの各々に対する観測
値を表している。前述したように、キューの定義に基づ
いてキュー値を決定する方法は当業者には明白であり、
本明細書に詳しく説明する必要はない。次に、プロセッ
サ11はステップ104に進み、選択されたテキストに
関連するファセットを識別するプロセスを開始する。
【0031】命令100に従って、関連ファセットの識
別は2値のファセットを用いて始まる。しかし、本発明
と矛盾せず、非2値の値のファセットを用いて識別を始
めてもよい。2値ファセットの評価は、プロセッサ11
がステップ104において1つのファセットを選択する
ことによって始まる。
【0032】次にプロセッサ11は選択されたファセッ
トに関連する重みベクトルβをメモリから検索し、ステ
ップ102において生成されたキューベクトルXと重み
ベクトルβとを組み合わせる。プロセッサ11は、これ
らの2つのベクトルを組み合わせ、選択されたファセッ
トの分類されるテキストとの関連性のインジケータを生
成するために多数の数学的アプローチを使用することが
でき、これらにはロジスティック回帰及びログ奇関数が
含まれる。学習の際の使用とは反対に、プロセッサ11
はステップ106においてログ奇関数を解いてψを得
る。ψは、ここでは選択されたファセットのテキストと
の関連性を表す。ログ奇関数の答が0よりも大きい値を
生じた場合、プロセッサ11はファセットをテキストと
関連性があるものとみなすが、本発明と矛盾せず関連性
のカットオフ値として他の値を選択してもよい。
【0033】1つの2値ファセットの関連性を決定した
後、プロセッサ11はステップ108に進み、他の2値
ファセットの評価が必要であるか否かを確認する。必要
であれば、プロセッサ11は分岐してステップ104に
戻り、全ての2値ファセットを処理するまでステップ1
04、106及び108のループを実行することによっ
て、1度に1つずつファセットの関連性の評価を続け
る。2値ファセットの処理が終わると、プロセッサ11
はステップ108から分岐してステップ110に進み、
非2値ファセットの関連性を決定するプロセスを始め
る。
【0034】ここでもまた、プロセッサ11はループを
実行して非2値ファセットの関連性を決定する。各ファ
セット値を別個に評価しなくてはならないという点で、
非2値ファセットの処理は2値ファセットのそれとは異
なっている。従って、ステップ114を繰り返し実行す
ることによって選択されたファセットの各値に対するロ
グ奇関数の値を生成した後、プロセッサ11はステップ
118においてどのファセット値が最も関連しているか
を決定しなくてはならない。プロセッサ11は、スコア
が最も高いファセット値を最も関連しているものとみな
す。非2値ファセットの各々に対して適切なファセット
値を決定した後、プロセッサ11はステップ120から
ステップ122に進む。
【0035】ステップ122において、プロセッサ11
は、関連性があると判断したファセットとファセット値
によるテキストジャンルの定義とを用いて、選択された
テキストがどのテキストジャンルを表すかを識別する。
これを実行する方法は当業者には明白であり、本明細書
に詳しく説明する必要はない。この後、プロセッサ11
は、選択されたテキストに関連性があると判断されたテ
キストジャンル及びファセットを選択されたテキストに
関連させる。ステップ122におけるテキストジャンル
の決定は好ましいものであるが、これは任意である。何
故なら、前述のように、ファセット分類はそのものが有
用であるためテキストジャンルを定義しなくてもよいか
らである。
【0036】E.テキストジャンル及びファセット分類
のアプリケーション 自然言語分野及び情報検索分野は共に、テキストジャン
ル及びファセットの自動分類の多数のアプリケーション
(用途)を提供する。自然言語では、自動テキスト分類
はタガー及び翻訳において有用である。情報検索分野で
は、テキストジャンル分類は、文書の書式(フォーマッ
ト)の改訂及び自動要約の強化の際に検索フィルタ及び
パラメータとして有用である。
【0037】現行の意味タガー及び品詞タガーは共に、
テキスト内のアイテムの頻度数に関する生統計を使用し
ている。テキストジャンルに従ってテキストを自動的に
分類し、テキストジャンルに従ってタガーに関連する確
率を計算することにより、これらのタガーの性能を改良
することができる。例えば、″sore″という単語が
「怒った」という意味を有する確率又は″cool″と
いう単語が「すばらしい」という意味を有する確率は、
批評家の伝記においてよりも新聞のショートストーリー
の映画の批評においてずっと高い。
【0038】言語翻訳システム及び言語生成システムは
共に、同義語のセット同士の区別をする。どの同義語の
セットを選択すべきかを示す条件は複雑であり、調節が
必要である。言語翻訳システムは、元の言語における単
語の意味を認識し、標的言語における適切な同義語を識
別しなくてはならない。これらの難点は、例えば同じ
「スラング」のフランス語の単語を英語の同等の「スラ
ング」に無条件に置き換えるなど、単に各言語のアイテ
ムをラベル付けして言語間で系統的に翻訳するだけでは
解決することができない。″Il cherche u
n boulot″というフランス語の文は、1つの文
脈では「彼は一夜興行(gig)を探している」と翻訳
され、別の文脈では「彼は仕事を探している」と翻訳さ
れうる。″Il(re)cherche un tra
vail″という文は、「彼は仕事を探している」又は
「彼は雇用を求めている」になる、などである。適切な
選択は、ソースアイテムが得られるテキストのジャンル
の分析に依存する。自動テキストジャンル分類は、言語
翻訳システム及び言語生成システム双方の性能を改良す
ることができる。何故ならば、この分類によって言語の
種々のテキストジャンル及び種々のレジスター、従って
多くの同義語セットのメンバ間の区別を認識することが
できるからである。このような同義語セットには以下が
含まれる:″dismiss/fire/can″、″
rather/pretty″、″want/wis
h″、″buy it/die/decease″、″
wheels/car/automobile″及び″
gig/job/position″。
【0039】多くの情報検索システムは同種のデータベ
ースを用いて発達しており、これらの異種のデータベー
スに対する実行が不十分な傾向にある。自動テキストジ
ャンル分類は、トピックベースの検索の出力に対するフ
ィルタ又は独立した検索パラメータとして動作すること
により、異種のデータベースを有する情報検索システム
の性能を改良することができる。例えば、検索者はスー
パーコライダーに関する新聞の論説を検索するが新聞の
記事を除いて検索したい場合や、専門誌ではなく大衆雑
誌においてLANSに関する記事を検索したい場合があ
る。同様に、検索者は特定のテキストを用いて検索を開
始し、そのテキストのジャンル及びトピックと類似する
他のテキストを検索するように検索システムに要求する
場合がある。情報検索システムは、トピックベースの検
索の結果をランク付け又はクラスタリングする1つの方
法として、ジャンル分類を使用することができる。
【0040】また、自動ジャンル分類は文書の書式に関
連する情報検索アプリケーション(用途)を有する。現
在、多数の文書データベースが、電子テキストの外観に
関する情報を含んでいる。例えば、マークアップ言語は
インターネット上のデジタルテキストの書式を指定する
ために頻繁に使用されている。ハードコピー文書のOC
Rも、大量の書式情報を含む電子文書を生成している。
しかし、書式特徴の意味は、異種のデータベース内でジ
ャンルによって様々でありうる。1つの例として、テキ
ストにおいてボールドフェース及び通常のタイプを交互
に使用することを考えてみる。雑誌の記事では、この書
式特徴は恐らくインタビューを示す。百科事典では、こ
の同一の特徴は見出しと後に続くテキストを示す。マニ
ュアルでは、この特徴は非常に重要であるか又はさほど
重要ではない情報を示すために使用されうる。しかし、
Wiredという雑誌では、この書式特徴は様々な記事
を区別するために使用されている。自動テキストジャン
ル分類を使用して書式特徴の意味を決定することは、多
数のアプリケーションにおいて有用である。このように
することで、ユーザは見出し、要約及びタイトルなどの
主な分野又は文書ドメインに検索を限定することができ
る。同様に、書式特徴の意味を決定することにより、自
動文書要約、トピックのクラスタリング及び他の情報検
索タスクの際に、非常に重要な文書ドメインとさほど重
要ではない文書ドメインとの間の区別をつけることがで
きる。また、書式特徴の意味を決定することにより、元
の書式を保存することができないか又は望まれないいく
つかの状況において、デジタル文書を新しい書式で表す
ことができる。例えば、いくつかの既存テキストを異な
る書式のスタイルと組み合わせることによって新しい文
書を生成する際は、均一な書式が望ましい。
【0041】同様に、自動ジャンル分類は、書式設定さ
れていないASCIIテキストの書式設定の態様を決定
する際に有用である。
【0042】テキストジャンルの自動分類は、自動文書
要約に対して多数のアプリケーションを有する。第1
に、いくつかの自動要約システムは、文を抽出すべきか
否かを決定する際の特徴として、パラグラフ内の文の相
対位置を使用している。しかし、文の特定の位置の有意
性はジャンルによって様々である。新聞の記事の冒頭付
近の文は、終わり付近の文よりも重要である可能性が高
い。これは、法的決定及び雑誌のストーリーのような他
のジャンルでは異なることが想定される。これらの相関
関係は、自動ジャンル分類を用いて経験的に決定するこ
とができる。第2に、ジャンル分類により、要約される
テキストのジャンルに適した要約を作成することができ
る。読者が適切であると考える要約はジャンルによって
異なるため、これは望ましいことである。自動要約シス
テムは、前置きの文があるためにどこからテキストが始
まるかを決定するのが困難である場合が多く、これは自
動ジャンル分類の第3のアプリケーションを生じる。テ
キストに関連する前置きの文は、テキストのジャンルに
よって異なることが多い。
【図面の簡単な説明】
【図1】マシン可読テキストのテキストジャンルを自動
的に決定するコンピュータシステムを示している。
【図2】ファセット値に従った表面キュー値の試行観察
の表である表1を示している。
【図3】学習コーパスから重み付けベクトル値を生成す
る学習のためのフロー形式の命令を示している。
【図4】テキストジャンル及びファセットのマシン可読
テキストとの関連を決定するフロー形式の命令を示して
いる。
【図5】テキストジャンル又はファセット値に基づいた
順序で検索結果をユーザに提示するためのフロー形式の
命令を示している。
【図6】検索結果をコンピュータユーザに提示するため
のフロー形式の命令を示している。
【符号の説明】
10 コンピュータシステム 11 プロセッサ 12 モニタ 13 プリンタ 14 キーボード 16 マウス 18 電子タブレット 20 スタイラス 22 フロッピーディスクドライブ 24 スキャナー 26 テキスト 28 固体メモリ 50、100 命令
フロントページの続き (72)発明者 ハインリッチ シェッツェ アメリカ合衆国 94305 カリフォルニア 州 スタンフォード ベンチュラー ホー ル シーエスエルアイ(番地なし) (72)発明者 ジャン オー.ペダーセン アメリカ合衆国 94555 カリフォルニア 州 フレモント ウェルマン テラス 34398 (72)発明者 ブレット エル.ケッセラー アメリカ合衆国 94025 カリフォルニア 州 メンロパーク サンアントニオ アベ ニュー 1508 アパートメント エヌ (72)発明者 グレゴリー グレフェンステッテ フランス国 デエレツ サン マルタン 38400 アベニュー デ ラ ガロチェレ 21

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 テキストの構造分析を行わずに、マシン
    可読形式のタグ付けされていないテキストのテキストジ
    ャンルをプロセッサを用いて識別する方法であって、 a)非構造的な表面キューの第1セットが前記テキスト
    において発生する回数を表すキューベクトルを前記テキ
    ストから生成するステップと、 b)前記キューベクトルと、第1のテキストジャンルに
    関連する重み付けベクトルを用いて、前記テキストが前
    記第1のテキストジャンルのインスタンスであるか否か
    を決定するステップと、 を含む、テキストジャンル識別方法。
JP10223557A 1997-07-02 1998-07-02 タグ付けされていないテキストの外観特徴を使用したテキストジャンルの自動決定方法及び装置 Pending JPH11120206A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US5155897P 1997-07-02 1997-07-02
US100189 1998-06-18
US051558 1998-06-18
US09/100,189 US6973423B1 (en) 1997-07-02 1998-06-18 Article and method of automatically determining text genre using surface features of untagged texts

Publications (1)

Publication Number Publication Date
JPH11120206A true JPH11120206A (ja) 1999-04-30

Family

ID=26729554

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10223557A Pending JPH11120206A (ja) 1997-07-02 1998-07-02 タグ付けされていないテキストの外観特徴を使用したテキストジャンルの自動決定方法及び装置

Country Status (2)

Country Link
US (1) US6973423B1 (ja)
JP (1) JPH11120206A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6505150B2 (en) * 1997-07-02 2003-01-07 Xerox Corporation Article and method of automatically filtering information retrieval results using test genre
US6973423B1 (en) * 1997-07-02 2005-12-06 Xerox Corporation Article and method of automatically determining text genre using surface features of untagged texts

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020082939A1 (en) * 2000-10-25 2002-06-27 Clark George Phillip Fulfilling a request for an electronic book
US7113904B2 (en) * 2001-03-30 2006-09-26 Park City Group System and method for providing dynamic multiple language support for application programs
US7594172B2 (en) * 2001-10-10 2009-09-22 Fish Robert D Data storage using spreadsheet and metatags
CN1618064B (zh) * 2002-01-29 2010-05-05 国际商业机器公司 翻译方法与计算机设备
US9165085B2 (en) * 2009-11-06 2015-10-20 Kipcast Corporation System and method for publishing aggregated content on mobile devices
GB2509773A (en) 2013-01-15 2014-07-16 Ibm Automatic genre determination of web content
CN109923948B (zh) 2016-10-28 2022-01-14 德州系统大学董事会 具有在软化聚合物上的电极的电气装置和其制造方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4773009A (en) * 1986-06-06 1988-09-20 Houghton Mifflin Company Method and apparatus for text analysis
US4930077A (en) * 1987-04-06 1990-05-29 Fan David P Information processing expert system for text analysis and predicting public opinion based information available to the public
EP0287713B1 (en) * 1987-04-23 1994-06-22 Océ-Nederland B.V. A text processing system and methods for checking in a text processing system the correct and consistent use of units or chemical formulae
US5111398A (en) * 1988-11-21 1992-05-05 Xerox Corporation Processing natural language text using autonomous punctuational structure
US5182708A (en) 1990-12-11 1993-01-26 Ricoh Corporation Method and apparatus for classifying text
US5371807A (en) 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
US5424945A (en) * 1993-08-31 1995-06-13 Xerox Corporation System for evaluating a psychological effect of a document
US6023670A (en) * 1996-08-19 2000-02-08 International Business Machines Corporation Natural language determination using correlation between common words
US5913185A (en) * 1996-08-19 1999-06-15 International Business Machines Corporation Determining a natural language shift in a computer document
US6973423B1 (en) * 1997-07-02 2005-12-06 Xerox Corporation Article and method of automatically determining text genre using surface features of untagged texts
US6505150B2 (en) * 1997-07-02 2003-01-07 Xerox Corporation Article and method of automatically filtering information retrieval results using test genre
US5999664A (en) * 1997-11-14 1999-12-07 Xerox Corporation System for searching a corpus of document images by user specified document layout components
US6823370B1 (en) * 1999-10-18 2004-11-23 Nortel Networks Limited System and method for retrieving select web content
US6766287B1 (en) * 1999-12-15 2004-07-20 Xerox Corporation System for genre-specific summarization of documents
US6578007B1 (en) * 2000-02-29 2003-06-10 Dictaphone Corporation Global document creation system including administrative server computer

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6505150B2 (en) * 1997-07-02 2003-01-07 Xerox Corporation Article and method of automatically filtering information retrieval results using test genre
US6973423B1 (en) * 1997-07-02 2005-12-06 Xerox Corporation Article and method of automatically determining text genre using surface features of untagged texts

Also Published As

Publication number Publication date
US6973423B1 (en) 2005-12-06

Similar Documents

Publication Publication Date Title
JPH1173417A (ja) テキストジャンル識別方法
Kowalski et al. Information storage and retrieval systems: theory and implementation
Al-Saleh et al. Automatic Arabic text summarization: a survey
Kowalski Information retrieval systems: theory and implementation
US6094652A (en) Hierarchical query feedback in an information retrieval system
Manning Introduction to information retrieval
US8346795B2 (en) System and method for guiding entity-based searching
US5694523A (en) Content processing system for discourse
Hatzigeorgiu et al. Design and Implementation of the Online ILSP Greek Corpus.
US20020078090A1 (en) Ontological concept-based, user-centric text summarization
Koppel et al. Feature instability as a criterion for selecting potential style markers
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
Berber Sardinha Dimensions of variation across Internet registers
Alami et al. Hybrid method for text summarization based on statistical and semantic treatment
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
Klochikhin et al. Text analysis
JPH11120206A (ja) タグ付けされていないテキストの外観特徴を使用したテキストジャンルの自動決定方法及び装置
Iwatsuki et al. Using formulaic expressions in writing assistance systems
McGillivray et al. Applying language technology in humanities research: Design, application, and the underlying logic
WO2002010985A2 (en) Method of and system for automatic document retrieval, categorization and processing
Hajbi et al. Natural Language Processing Based Approach to Overcome Arabizi and Code Switching in Social Media Moroccan Dialect
Ojokoh et al. Online question answering system
Schneider Text Analytics for Corpus Linguistics and Digital Humanities: Simple R Scripts and Tools
Theijssen et al. Evaluating automatic annotation: automatically detecting and enriching instances of the dative alternation
Abdelwahab et al. Arabic Text Summarization using Pre-Processing Methodologies and Techniques.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080624

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081021

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090113

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090428