JPH08305730A - 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法 - Google Patents

機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法

Info

Publication number
JPH08305730A
JPH08305730A JP8105786A JP10578696A JPH08305730A JP H08305730 A JPH08305730 A JP H08305730A JP 8105786 A JP8105786 A JP 8105786A JP 10578696 A JP10578696 A JP 10578696A JP H08305730 A JPH08305730 A JP H08305730A
Authority
JP
Japan
Prior art keywords
phrase
processor
word
candidate
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8105786A
Other languages
English (en)
Other versions
JP3653141B2 (ja
Inventor
Francine R Chen
フランシーヌ・アール・チェン
Steven B Putz
スティーブン・ビイ・パッツ
Daniel C Brotsky
ダニエル・シイ・ブロツキー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH08305730A publication Critical patent/JPH08305730A/ja
Application granted granted Critical
Publication of JP3653141B2 publication Critical patent/JP3653141B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 機械読取り可能な形式で示すあらゆる文書か
らキーフレーズを選択できるようにすること。 【解決手段】 コンピュータシステム10で機械読み取
り可能文書のテキストを複数語候補句に分割してキーフ
レーズを選択する。候補句は停止語を含まず、受容可能
な語で始まり終了するものである。最後に最も頻度の高
い候補句をキーフレーズとして選択する。

Description

【発明の詳細な説明】
【0001】
【従来の技術】キーワードリストにより読者は文書を読
まずにその文書の内容を判定することができる。文書の
キーワードリストは自動的にあるいは人間の知性と労力
を用いて文書を作成した後に作成することができる。し
かし人間の労力を用いてキーワードリストを作成するに
はコストが高くなる。これに対して、キーワードリスト
を生成する自動的手法を用いればコストは安くなる。
【0002】文書のキーワードリストを自動的に生成す
る際には自然言語処理手法と統計的手法の両方が利用さ
れてきた。自然言語処理は自然言語テキストを理解しよ
うとするものであるので計算が膨大となる。統計的手法
はテキストを理解する努力を行わないのでキーワードリ
ストを速く生成することができる。1969年にキャロ
ル(Carrol)及びロエロフ(Roeloffs)
は「語頻度分析を用いたキーワードのコンピュータ選
択」でキーワードを選択する方法を開示した。キャロル
及びロエロフは各々の文書内ならびに文書コーパスにわ
たって語の相対的頻度に基づいてキーワードを選択し
た。しかし文書コーパスにわたる語頻度を使用する故に
キャロル及びロエロフの方法は瞬時の結果を望む研究者
や関連文書のコーパスを持たない研究者に取っては前処
理無しには十分速いものとは言えない。
【0003】
【発明の実施の形態】図1は本方法を実施するコンピュ
ータシステム10をブロック図形式で示したものであ
る。本方法はコンピュータシステム10の動作を変更し
て機械読み取り可能な形式で示すあらゆる文書からキー
フレーズを選択できるようにするものである。要約する
と、コンピュータシステム10で機械読み取り可能文書
のテキストを複数語候補句に分割してキーフレーズを選
択する。候補句は停止語を含まず、受容可能な語で始ま
り終了するものである。最後に最も頻度の高い候補句を
キーフレーズとして選択する。以下にコンピュータシス
テム10を用いてキーフレーズを選択する2つの方法を
詳細に説明する。
【0004】A.キーフレーズ選択コンピュータシステ
ム 本方法の詳細な説明を行う前に、コンピュータシステム
10を考察する。コンピュータシステム10はコンピュ
ータユーザに対して情報を視覚的に表示するモニタ12
を有する。コンピュータシステム10は更にプリンタ1
3を通してコンピュータユーザに情報を出力する。コン
ピュータシステム10はコンピュータユーザに対して入
力データに対する複数のルートを提供する。即ちキーボ
ード14で入力することでコンピュータユーザはタイピ
ングによりデータをコンピュータシステム10に入力す
ることができる。またマウス16を動かすことで、モニ
タ12上に表示されたポインタを移動して表示されたア
イコンを選択することができる。コンピュータユーザは
更にスタイラスないしペン20でタブレット18に書き
込むことで情報をコンピュータシステム10に入力でき
る。代わりにコンピュータユーザはフロッピィディスク
などの磁気媒体上に機械読み取り可能形式で記憶したデ
ータをフロッピィディスクドライブ22にディスクを挿
入することで入力することができる。光学文字認識装置
(OCR装置)24によりコンピュータユーザはハード
コピー文書26をコンピュータシステムに入力すること
もでき、そのOCR装置24は一般に情報交換用米国標
準コード(ASCII)の符号化電子表示に変換する。
【0005】プロセッサ11はコンピュータシステム1
0の動作を制御、調整してコンピュータユーザのコマン
ドを実行する。プロセッサ11は電子的にメモリに記憶
した命令を実行することで各々のユーザコマンドに対応
して判定して適切な処理を行う。一般にプロセッサ11
の作動命令は固体メモリ28に記憶して命令に対する頻
繁かつ高速アクセスを可能にしている。メモリ28を実
現するのに利用できる半導体メモリには読み取り専用メ
モリ(ROM)、ランダムアクセスメモリ(RAM)、
ダイナミックランダムアクセスメモリ(DRAM)、プ
ログラマブル読み取り専用メモリ(PROM)、消去可
能なプログラマブル読み取り専用メモリ(EPRO
M),そしてフラッシュメモリなどの電気的に消去可能
なプログラマブル読み取り専用メモリ(EEPROM)
がある。
【0006】B.キーフレーズを選択する1つの方法 図2は機械読み取り可能文書からキーフレーズを選択す
るためプロセッサ11が実行する命令40を流れ図形式
で示したものである。命令40は固体メモリ28ないし
フロッピィディスクドライブ22に入れたフロッピィデ
ィスクに記憶することができる。命令40はLISPや
C++を始めとするどの様なコンピュータ言語でも実現
できる。命令40の実行は機械読み取り可能文書の選択
と入力で始める。所望により、命令40の実行前に、コ
ンピュータユーザはデフォルト数から「P」と示す選択
キーフレーズ数を変更することもできる。デフォルト数
はどの様な値にも設定できる。1実施例では、デフォル
ト値は5キーフレーズに設定している。
【0007】プロセッサ11はステップ42に分岐して
トークン化文書の選択に対応する。ここで用いるよう
に、トークン化文書は文章境界及び語トークンが識別し
たものである。ステップ42中、プロセッサ11はトー
クン化文書を検査して複数語句を生成する。即ちプロセ
ッサ11は各々の文章から2つ以上の語の非重複句を抽
出する。句の各々の語が文書の主題に関連する意味を伝
達するように、ステップ42中に生成される句から停止
語は好適に除外される。停止語は文書の主題に関連した
意味を殆ど伝えない代名詞、前置詞、限定詞、「to
be」動詞などの語である。句から停止語を除外するこ
とはコンパクトなキーフレーズを生成し、ステップ42
後のステップで必要な処理時間を削減できるという利点
がある。プロセッサ11は各々の文章の各々の語トーク
ンを停止リストの語と比較することで停止語を除外す
る。プロセッサ11は文章内で停止語が出て来ればいつ
でも1つの句を終了し、別のものを始める。その結果、
生成される句は隣接用語から構成される。ステップ42
中の作用の結果、句のリストが生成される。句リストが
完了すれば、プロセッサ11はステップ42からステッ
プ43へ分岐する。
【0008】ステップ43中、プロセッサ11は引き続
き使用するため、文書内の句リスト上の各々の語の頻度
を判定する。ステップ42中に使用したトークナイザに
より、プロセッサ11は、文書の各々の語をリストしそ
の語が出現する各々の文書を識別する用語リストを調べ
ることで句リスト上の各々の語の頻度を判定することが
できる。そのようなリストにより、プロセッサ11は句
リスト上の各々の語に付いて文章IDの数を数えるだけ
でよい。その後、プロセッサ11はステップ43からス
テップ44へ分岐する。
【0009】ステップ44中、プロセッサ11は句リス
ト上の句から候補句を生成する。プロセッサ11は候補
句を生成する間、要因の数を考察する。プロセッサ11
は句の開始語と終端語を検査して候補句に適切かどうか
を判定する。それにより後に選択するキーフレーズは妥
当なものとなる。どの様にプロセッサ11がそれらのタ
スクを行うかは図3に関して後に詳細に述べる。
【0010】ステップ44中、プロセッサ11は更に句
の各々の語を検討してその語の頻度が高いかどうかを判
定する。句内の語の頻度と句の頻度自身は、最も頻度の
高い句は文書の内容を最もよく示していると思われるの
で文書のキーワードを選択するのに使用する。プロセッ
サ11はある語が文章内で少なくとも最低回数出現すれ
ばそれを頻度の高いものと見なす。即ちプロセッサ11
は文書内の語の出現回数をしきい値に対して比較し、出
現回数がしきい値を超過すれば、その用語を頻度の高い
ものと見なす。頻度の低い用語は候補句から除外する。
短い文書に付いてはしきい値は好適には1に設定され
る。その結果、少なくとも2回出現する用語だけが頻度
の高いものと見なされる。長い文書に付いては、しきい
値は高いものが望ましいであろう。候補句のリストを備
え、プロセッサ11はステップ44からステップ46へ
進む。
【0011】ステップ46でプロセッサ11は候補句の
リストからP個のキーフレーズを選択するタスクを開始
する。プロセッサ11は各々の候補句の文書内の出現回
数に従って候補句リストを分類し始める。頻繁に出現す
る候補句は出現回数が少ない候補句よりも候補句の分類
リストで高く位置づけする。候補句間の連携は語数ない
し文字数に換算して測定した候補句長さ、どの句候補が
最も頻繁な語を含むかに従って、あるいは最高平均語頻
度に換算することを始め、いくつかの形で分類すること
ができる。ステップ46の結果、プロセッサ11は候補
句を格付けしたリストを保持することになる。その後、
プロセッサ11はステップ46からステップ48に進
む。
【0012】ステップ48中、プロセッサ11は選択キ
ーフレーズ数をゼロに設定して候補句リストからキーフ
レーズを選択する用意をする。それを行うとプロセッサ
11はステップ50に進み、P個のキーフレーズが選択
されたかどうかを判定する。選択数がPに等しくなけれ
ば、全てのキーフレーズがまだ選択されていないことに
なる。プロセッサ11はステップ50からステップ52
に進んでこの状況に対応する。
【0013】プロセッサ11はステップ52で分類候補
句の一番上の候補句を検査する。略してその句を「現在
句」と称することにする。プロセッサ11はステップ5
2で現在句が既に選択したキーフレーズの1つの変形で
あるかどうかを判定する。ここで用いるように、変形と
は別の句に関係しているが語順ないし語幹が異なるもの
である。例えば「テキスト分析システム」の可能な変形
には「システムでテキストを分析」、「文書分析システ
ム」及び「文書処理システム」がある。いくつかの自動
テキスト処理手法を用いて変形分析を行うことができる
ので、ここでは変形分析を詳細に述べない。
【0014】変形分析に基づいてプロセッサ11はステ
ップ52から2つの経路の1つを取る。分類候補句リス
トの一番上の候補句がキーフレーズの1つの変形でなけ
れば、プロセッサ11はステップ52からステップ54
に進む。ステップ54でプロセッサ11は現在候補句を
分類候補句リストから除去し、現在候補句をキーフレー
ズリストに載せる。その後、プロセッサ11はステップ
54からステップ56に進み、選択したキーフレーズの
数を1だけ増分する。それを行うとプロセッサ11はス
テップ50に戻る。
【0015】ステップ52の変形分析で現在候補句がキ
ーフレーズの1つの変形であることが分かればプロセッ
サ11の動作は異なったものとなる。それに対してプロ
セッサ11はステップ52からステップ58に分岐す
る。ステップ58中、プロセッサ11は現在候補句を分
類候補句リストから除去し、妥当ならばキーフレーズリ
ストを変更する。1実施例では、キーフレーズリストに
既にある句が分類候補句リストからちょうど選択した句
の部分句ならばそれを除去して置き換える。従って例え
ばプロセッサ11は、「南カリフォルニア海岸」よりも
部分句の「南カリフォルニア」を除外する。どの変形を
除外するかを判定する別の方法として句の最小頻度の変
形を除外することなどをステップ58中に使用すること
ができる。その後、プロセッサ11はステップ58から
ステップ50に戻る。
【0016】ステップ50に戻り、プロセッサ11はP
個のキーフレーズを選択したかどうかを判定する。P個
のキーフレーズを選択していなければ、プロセッサ11
は分類候補句リストからP個のキーフレーズが選択され
るまでステップ52、54、56、58を通して分岐す
る。P個のキーフレーズを選択していれば、プロセッサ
11はステップ50からステップ60に分岐し、文書の
キーフレーズの選択を完了する。
【0017】B1.候補句の生成 図3は句を最大長で受容可能に開始し終了する候補句に
分割するステップ44の動作を詳細に例示したものであ
る。要約すると、プロセッサ11は選択した句の各々の
語を一時に1語づつ検査してその語が頻度の高いものか
どうかを判定する。ステップ44で生成した候補句は隣
接し頻度の高い用語全体で構成されているので、句の長
さと句内の頻度の低い用語の位置により、1つの句は複
数の候補句を生成できたり全くできなかったりする。選
択した句の最初の頻度の高い語を識別すると、プロセッ
サ11はその語が候補句の受容可能な開始部分であるか
どうかを判定する。候補句の受容可能な開始語を識別し
た後、プロセッサ11は候補句の最終語を識別するまで
選択句の頻度の高い用語から候補句の構築を続ける。そ
してプロセッサ11は候補句の最終語を検討してそれが
候補句の受容可能な終端部分であるかどうかを判定す
る。そうでなければプロセッサ11は受容可能な終端語
が見つかるまで候補句の最後から語を除去する。次にプ
ロセッサ11は生じる候補句が十分長いものかどうかを
判定する。プロセッサ11は候補句が十分な語数を含ん
でいればそれを記憶する。
【0018】以上の前提を想定して、ここで命令44の
詳細な説明を助ける状況を考察する。第1に、ステップ
42で生成した句のリストが「南太平洋会社は大きな影
響を及ぼした」「4年後」「料金対無料」を含むものと
する。第2に、更に文書内で2回以上出現する語に
「南」「太平洋」「会社」「大きな」「影響力」「年」
「後」「対」「無料」があるとする。第3に、不良開始
リストに「対」が含まれるとする。最後に第4に、不良
終端リストに「対」「後」が含まれると想定する。候補
句の生成はステップ70で句リストから句の1つを選択
することで始める。プロセッサ11はステップ70を通
して第1の経路の「南太平洋会社が大きな影響力を及ぼ
した」を選択すると想定する。その後、プロセッサ11
はステップ70からステップ72に分岐する。
【0019】ステップ72中、プロセッサ11は検査の
ため、選択した句の1つの語を選択する。好適には、選
択した句の語の検査は左から右に順に進める。命令44
が受容可能な開始部分の検査前に受容可能な終端部分を
検査するように変更されていれば、選択句の検査は右か
ら左に順に進めることもできる。プロセッサ11は選択
句の語の検査を方向に関係なく進めるが、語は各々の生
成された候補句が隣接用語で確実に構成されるように順
に検査しなければならない。プロセッサ11は好適には
ステップ72を通してその最初の経路の「南」を選択す
る。選択句から語を選択した後、プロセッサ11はステ
ップ72からステップ74に分岐する。プロセッサ11
はステップ74で、選択した語が頻度の高いものかどう
かを判定する。プロセッサ11は選択した語の出現回数
をしきい値と比較することでそれを行う。しきい値の値
はキーフレーズが生成されている文書の長さに依存する
設計上の選択である。1実施例では、しきい値は、各々
の語の頻度が高いと見なすためには少なくとも2回出現
しなければならないように1に設定する。
【0020】ステップ74の結果、句は最大長の非重複
部分句に分割される。従って例えば「ニューメキシコ境
界線」という句は、「ニューメキシコ」「メキシコ境界
線」という部分句ではなく「ニューメキシコ境界線」と
いう候補句だけを生成する。最大長の候補句だけを使用
することで偽候補句を生成することがあるが、それらの
候補句はその出現頻度が低い故にキーフレーズとして選
択される可能性は低い。対照的に、最大長候補句から生
成される部分句は、その語数が少ない故に頻繁に出現す
る可能性が高く、キーフレーズとして除外される可能性
は低い。その結果、最大長候補句の部分句を用いて妥当
なキーフレーズを生成するには、本方法を変更する必要
がある。
【0021】「南」はここでの想定で頻度の高い語であ
るので、プロセッサ11はステップ74からステップ7
6に分岐して対応する。プロセッサ11は候補句の潜在
的な開始語が識別されればステップ76に入る。プロセ
ッサ11はステップ76で、選択語が候補句の受容可能
な開始部分かどうかを判定する。プロセッサ11は選択
語に付いて不良開始リストを探索することでそれを行
う。不良開始リストにはキーフレーズに関して受容でき
ない開始部分の語が含まれている。英語テキストの不良
開始リストは簡潔なものになろうが、偽ないし不適切と
思われるキーフレーズを生成する可能性を削減するため
疑わしいときは語を不良開始リストに含める傾向にあ
る。非英語文書に関しては、異なる語は不良開始リスト
に含めるべきである。例えば「of」に相当するフラン
ス語の「de」は、フランス語の名詞句は「noun
de adjective」の形であるので、停止語に
含めるべきではない。「de adjective」で
始まるキーフレーズの生成を避けるため、「de」はフ
ランス語不良開始リストに含めるべきである。
【0022】「南」という語はここで想定するキーフレ
ーズに関して受容可能な開始部分を為しているので、プ
ロセッサ11はステップ76からステップ78に分岐す
る。プロセッサ11はステップ78で新しい候補句を構
築する過程を始めるが、それを現在候補句と称すること
にする。ステップ78中、プロセッサ11は選択語を現
在候補句に追加する。それを行うと、プロセッサ11は
ステップ78からステップ80に進んで選択句から隣接
する頻度の高い用語を現在候補句に追加し始める。プロ
セッサ11はステップ80で選択句がまだ検討すべき追
加用語を含んでいるかどうかを判定する。プロセッサ1
1は選択句の全ての語をまだ検討していないのでステッ
プ80からステップ81に分岐する。ステップ81でプ
ロセッサ11は現在候補句に含める可能性のある選択句
の次の語を選択する。選択句を想定し、左から右に順に
進んで、プロセッサ11はステップ81で「太平洋」を
選択する。その後、ステップ82でプロセッサ11は選
択語は頻度の高いものであると判定する。それに対応し
て、プロセッサ11はステップ82からステップ78に
戻る。プロセッサ11は「太平洋」をステップ78で現
在候補句に追加し、その結果「南太平洋」となる。それ
を行うと、プロセッサ11はステップ80に進み、選択
句にまだ検討していない語が含まれることを見いだす。
【0023】プロセッサ11はステップ81で「会社」
を選択し、ステップ82に進む。プロセッサ11は選択
語は文書内で2回以上出現するのでそれは頻度の高いも
のであることが分かる。その結果、プロセッサ11はス
テップ82からステップ78に分岐し、選択語を現在候
補句に追加する。その結果、現在候補句は「南太平洋会
社」となる。その後、プロセッサ11はステップ78か
らステップ80に分岐する。
【0024】ステップ80中、プロセッサ11は選択句
にまだ検討していない語が含まれていることを見いだ
す。従ってステップ81でプロセッサ11は選択句の次
の語の「及ぼした」を選択する。プロセッサ11は次の
ステップで「及ぼした」は選択文章内で頻度の高い語で
はないことを見いだす。現在候補句の最も右側の語に隣
接する頻度の低い語の出現によりそれは終端する。その
結果、プロセッサ11は選択語やいずれのものも現在候
補句に追加しない。プロセッサ11はこの状況にステッ
プ82からステップ84に分岐することで対応する。
【0025】ステップ84でプロセッサ11は現在候補
句の最終語が受容可能な終端部分かどうかをその語に関
して不良終端リストを探索することで判定する。不良終
端リスト上の語はキーフレーズを偽ないし不適切なもの
にする可能性のあるものである。不良開始リストによ
り、不良終端リストに載せた語は分析している自然言語
の言語に依存して変化することがある。以前の想定で
は、「会社」は受容可能な終端部分となる。隣接し頻度
の高い用語全体で構成され、受容可能に終了し始まる候
補句を選択すると、プロセッサ11はステップ84から
ステップ88に進む。
【0026】プロセッサ11はステップ88で現在候補
句が2つ以上の語を含むかどうかを判定する。単一語の
句は、語に付いての言語的な情報なしにはキーフレーズ
リストで偽のものとして出現する可能性があるので、本
方法ではキーフレーズとして選択しない。そのような言
語的な情報を得るために時間を取るよりも、単一語の句
は句候補として受け入れない。現在候補句は2つ以上の
語を含んでいるので、プロセッサ11はステップ88か
らステップ90に進む。
【0027】プロセッサ11はステップ90で現在候補
句をいままでリストした句候補と比較する。現在候補句
は最初に生成されるので、ステップ90を通して第1の
経路で、プロセッサ11は現在候補句は候補句のリスト
にないことを見いだす。それに対応してプロセッサ11
はステップ94で現在候補句を候補句リストに追加し、
その候補句に関してカウントを1に設定する。後にプロ
セッサ11は候補句に関連したカウントをキーフレーズ
を選択するのに使用する。その後、プロセッサ11はス
テップ94からステップ96に分岐して別の候補句の構
築を始める。
【0028】別の候補句を構築する作業はステップ96
で選択句の全ての語が検討されたかどうかを判定するこ
とで始める。選択句の「大きな影響力」という語がまだ
検討されていないので、プロセッサ11はステップ96
からステップ72に戻って対応して選択句のその検討を
続行する。プロセッサ11はステップ72で「大きな」
を選択語として選択する。その後、プロセッサ11はス
テップ74、76、78、80、81、82、84、8
8を通してちょうど説明したように分岐して選択句から
「大きな影響力」という別の候補句を構築する。
【0029】最終的にプロセッサ11はステップ88か
らステップ90に分岐する。現在候補句が候補句のリス
トに既に含まれていれば、プロセッサ11はステップ9
0からステップ92に分岐する。ステップ92でプロセ
ッサ11は現在候補カウントのカウントを1だけ増分す
る。それを行えば、プロセッサ11はステップ92から
ステップ96に分岐する。
【0030】ステップ96に戻ると、プロセッサ11は
選択句の全ての語の検討がなされたことを見いだす。そ
の結果、プロセッサ11はステップ96からステップ7
0に進む。ステップ96でプロセッサ11は「4年後」
を選択句として選択する。引き続いてステップ72でプ
ロセッサ11は「4」を選択語として指定する。プロセ
ッサ11はステップ74中に「4」は選択した文書内で
頻度の高い語でないことが分かる。それに対応してプロ
セッサ11はステップ74からステップ96に進む。プ
ロセッサ11はステップ96で選択句にはまだ検討して
いない語が含まれていることを判定する。プロセッサ1
1はステップ96からステップ72に戻って選択句の次
に語を選択する。プロセッサ11は「年」を選択語とし
て選択して選択語は頻度の高いものであると判定する。
その結果、プロセッサ11はステップ76に進み、ステ
ップ76で「年」に関して不良開始リストを探索する
が、それが見つからないと「年」は受容可能な開始部分
であることになる。
【0031】プロセッサ11はステップ76からステッ
プ78に分岐して現在候補句の構築を続行する。選択語
はステップ78で現在候補句に追加する。次のステップ
のステップ80で、プロセッサ11は選択句にまだ検討
していない別の語が含まれているかどうかを判定する。
そうであればステップ81でプロセッサ11は「後」を
選択語として指定する。次にプロセッサ11はステップ
82で「後」は選択文書内で頻度の高い語であることを
見いだす。プロセッサ11はステップ78に分岐し選択
語を現在候補句に追加して対応する。この動作の結果、
現在候補句は「年後」になる。その後、プロセッサ11
はステップ78からステップ80に分岐する。
【0032】プロセッサ11はステップ80で選択句が
追加語を含むかどうかを判定することで追加語を現在候
補句に追加できるかどうかを判定する。プロセッサ11
は選択句の全ての語を検討し終ると、現在候補句に対し
て更に追加するものはなくなり、ステップ80からステ
ップ84に進んで対応する。プロセッサ11はステップ
84で「後」に関して不良終端リストを探索して現在候
補句が受容可能に終了するかどうかを判定する。プロセ
ッサ11はステップ84からステップ86に分岐して不
良終端リストに「後」が見つかることに対応する。その
ステップでプロセッサ11は現在候補句から最終語を除
去して現在候補句を「年」とする。その後、プロセッサ
11はステップ86からステップ84に戻り再び現在候
補句の最終語を検討する。不良終端リストに「年」はな
いので、プロセッサ11はステップ86からステップ8
8に分岐して対応する。ステップ88ではプロセッサ1
1は現在候補句が複数句であるかどうかを判定する。現
在候補句は1つの語しか含まないので、プロセッサ11
は現在候補句を捨ててステップ88からステップ96に
分岐する。
【0033】プロセッサ11はステップ96で現在候補
句の全ての語は既に検討してしまったので別の句を選択
して検討しなければならないことを見いだす。その結
果、プロセッサ11はステップ98に進んでまだ検討し
ていない別の句があることを見いだす。プロセッサ11
はステップ70に戻り、「料金対無料」を選択する。続
いてプロセッサ11は「料金」を選択して検討し、ステ
ップ72からステップ74へ分岐する。
【0034】プロセッサ11はステップ74で「料金」
は頻度の高い語ではないことを見いだす。それに対応し
てプロセッサ11はステップ72に戻って選択した句の
次の語の「対」を選択する。プロセッサ11は「対」は
選択文書内で2回以上出現するので頻度の高い語である
と見なす。それに従ってプロセッサ11はステップ74
からステップ76に分岐する。プロセッサ11はステッ
プ76で選択語に関して不良開始リストを探索してそれ
をそこで発見する。それに対応してプロセッサ11はス
テップ76からステップ96に分岐する。選択句の全て
の語をまだ検討していないので、プロセッサ11はステ
ップ96からステップ72に戻る。プロセッサ11はス
テップ72で別の語を選択してステップ74に進む。プ
ロセッサ11はステップ74で選択した語の「無料」は
選択文書内で頻度の高い用語であると判定する。更に次
のステップで、プロセッサ11は選択語は受容可能な開
始部分であると判定する。それに対応してプロセッサ1
1はステップ78へ分岐して前述したようにステップ7
8、80、94、88、96、98を実行する。プロセ
ッサ11は全ての句を検討したことをステップ98で見
いだすまで命令44の実行を続行する。それが為される
と、プロセッサ11はステップ98からステップ100
に分岐して句候補を生成するタスクを完了する。
【0035】C.キーフレーズを選択する別の方法 図4は機械読み取り可能な形の文書からキーフレーズを
選択する別の命令40aを流れ図形式で示したものであ
る。命令40aは固体メモリ28ないしフロッピィディ
スクドライブ22に入れたフロッピィディスクに記憶す
ることができる。命令40aはLISP及びC++を含
むどの様なコンピュータ言語でも実現することができ
る。
【0036】命令40aは命令40とは、プロセッサ1
1は命令40を用いて選択するように同一句をキーフレ
ーズとして必ずしも選択しなくてもよいという点で異な
る。命令40aは更にプロセッサ11がキーフレーズを
より速く選択できるようにする点で命令40と異なる。
命令40aによりプロセッサ11は文書から必要な情報
を、命令40では2回のパスを必要とするのに対して、
1回のパスで抽出できる。命令40aは命令40に比べ
てメモリの使用を増大してこの速度的な利点を達成す
る。それらの相違にも関わらず、命令40aは命令40
と非常に似ている。この類似故に、図4ではステップ4
4aと45だけを例示し、命令40aはステップ42な
いし46に相当するものは含んでいない。図4ではステ
ップ48ー60はキーフレーズを選択する両方法に関し
て本質的に同一であるのでそれらのステップを例示して
いない。その結果、ステップ48ー60は命令40aの
以下の説明では述べる必要がない。
【0037】プロセッサ11はステップ44aで命令4
0aの実行を開始する。ステップ44aでプロセッサ1
1は停止語及び受容可能な開始及び終端語を識別するこ
とで候補句表を生成する。ステップ44aでプロセッサ
11は候補句に含まれる語が頻度の高いものかどうかを
考察しない。
【0038】ステップ44aでどの様に候補句表が構築
されるかの説明を始める前に、まず句表の内容を考察す
る。句表は句カウント及び総称形式表示と表面形式表示
の各々の候補句の2つの表示方法を含む。それらの表示
が全く異なれば、候補句の語の大文字使用に関して異な
ることになる。候補句の総称形式表示は候補句の小文字
バージョンであるが、文書内ではそれは出現しない。プ
ロセッサ11は候補句に関して総称形式を判定し句表内
でその総称形式表示を探索することで、総称形式表示を
句表へのキーとして使用する。プロセッサ11が句表内
で候補句の総称形式表示に遭遇すると、その候補句を句
表に追加する必要はない。その代わり、プロセッサ11
は総称形式に関連した句カウントを増分する。表面形式
表示は実際に大文字にした候補句の出現の1つを示すも
のである。表面形式表示によりプロセッサ11は、コン
ピュータユーザに各々のキーフレーズを文書内で少なく
とも1回実際に大文字にされたものとして提示できる。
好適に表面形式表示は常に候補句の出現を最小の大文字
で示す。
【0039】プロセッサ11は総称及び表面形式の両方
の候補句を語ID列として表現する。各々の語IDは語
の1つのASCII表示に対して一意的な整数である。
その結果、同一語の異なる大文字化により、異なるAS
CII表示故に異なる語IDを有することになる。例え
ば「hate speech」及び「Hate spe
ech」という句は異なるASCII表示と異なる語I
Dを有する。プロセッサ11は語IDを語ID表から得
る。プロセッサ11は句表と同時にステップ44aで語
ID表を生成する。ステップ44aで語を選択して検討
する度に、プロセッサ11はその後のASCII表示に
関して語ID表を探索する。語ID表に語のASCII
表示が含まれなければ、プロセッサ11はその表示を語
ID表に加え、一意的な整数を指定して語IDとして機
能させる。プロセッサ11は他の有用な情報を語ID表
に格納して句表の生成速度を速める。文書の分析を始め
る前に、プロセッサ11は語を停止、不良開始及び不良
終端リストから表に追加し、その後に関連したフラグを
設定して語表を初期化する。従って例えば「the」と
いう停止語を語ID表に追加する場合には、「the」
に関連した停止語フラグが設定される。それらのリスト
の語を語ID表に追加する結果、プロセッサ11は特定
の語に関した全ての情報を検索する際は語ID表だけを
調べるだけでよい。
【0040】周知のハッシュ手法を用いてステップ44
aの実行中に語ID表内及び句表の情報を効率的に探索
できる。その結果、命令40aの実行中にそれらの表か
らどの様にプロセッサ11が情報を検索するかに付いて
の説明は行わない。
【0041】句表と語ID表の説明を備えて、候補句を
生成する命令40aの詳細を例示する図5を考察する。
命令40aは命令44に関して先述したのと実質的に同
様の方法で候補句を生成する。その結果、以下の説明で
はその先述の説明の知識を想定し、候補句を生成する2
つの方法間の相違に焦点を当てる。命令44と44aの
間の相違は、命令40aは候補句を停止語を含むトーク
ン化文書を文書内の語の頻度の先験的な知識なしに候補
句を生成するので生じる。その結果、命令40aは停止
語であるが希な用語でないものを探索する。語の頻度を
使用せずに候補句を終了することで、命令44を用いて
生成する候補句に比べて候補句の平均長と数の両方が増
大する。
【0042】命令40aの実行はステップ70aで始め
る。ステップ70aで、プロセッサ11はステップ70
のように句ではなく、ある文章を候補句の潜在的な源と
して選択する。その後ステップ72aで、プロセッサ1
1は選択語として選択文章の語の1つを指定する。ステ
ップ72aからプロセッサ11はステップ74aに進
む。ステップ74でプロセッサ11は語ID表内の適切
な項目を調べ、関連停止語フラグが設定されているかど
うかを判定することで、選択語が停止語かどうかを判定
する。そうであれば、選択語は句に関して受容可能な語
ではなく、プロセッサ11はステップ96に進む。ステ
ップ96、98の実行は、実質的に先述のものと同様に
進められる。他方、選択語が停止語でなければ、プロセ
ッサ11はステップ76に分岐する。
【0043】ステップ76から、候補句の生成は命令4
4に関して先述したものと実質的に同様の方法で3つの
小さい相違点を有して進められる。第1には、プロセッ
サ11はステップ76、82a、86中にリストそれ自
身を調べる代わりに、語ID表を調べて選択語が不良開
始、不良終端ないし停止リストのいずれかにあるかどう
かを判定する。プロセッサ11が語ID表内に選択語を
見つけることができなければ、ステップ76でプロセッ
サ11はその語の項目を表に加える。第2にステップ8
2a中に、プロセッサ11は図3のステップ82の場合
のように文書内のそれらの頻度よりも、それらが停止語
かどうかに基づいて現在句から語を排除する。
【0044】候補句の生成後、プロセッサ11はステッ
プ90に進んで、句表をどの様に変更するかを判定する
用意をする。プロセッサ11はこのタスクを語ID表を
用いて現在候補句の総称形式及び表面形式表示を生成
し、現在候補句の総称形式表示を句表に配置することで
開始する。句表に総称形式表示があれば、現在候補句が
句表内に既に含まれていることを示す。それに対してプ
ロセッサ11はステップ92に進んで候補句に関連した
カウントを増分する。ステップ92でプロセッサ11は
更に候補句の現在表面形式表示が候補句の表面形式より
もより多くの大文字を含んでいれば、それを変更するこ
とができる。好適に、現在句が現在表面形式表示よりも
多くの大文字を含んでいる場合には、表面形式表示の変
更は行わない。他方、プロセッサ11が現在候補の総称
形式表示を見つけることができなければ、プロセッサ1
1はステップ94に向けてステップ90を出る。ステッ
プ94では、プロセッサ11は現在句の総称形式表示と
表面形式表示の両方を句表に加え、関連句カウントを1
に設定する。
【0045】ステップ44aで全ての可能な候補句を生
成した後、プロセッサ11は図4に示すステップ45a
に進む。ステップ45aでは、句表から候補句の部分集
合を選択する。プロセッサ11はそれを文書内で最も頻
繁に出現する候補句の部分集合を選択することで行う。
ステップ45aで選択された句の数は出力するキーフレ
ーズの数のPを越えるはずであるが、さもなくば設計上
の選択となる。ステップ45aの実行後、キーフレーズ
の選択は先述のように進める。
【図面の簡単な説明】
【図1】 機械読み取り可能文書からキーフレーズを自
動的に選択するコンピュータシステムを示す。
【図2】 機械読み取り可能文書からキーフレーズを選
択する方法の流れ図である。
【図3】 句から候補句を生成する方法の流れ図であ
る。
【図4】 キーフレーズを選択する別の方法を流れ図形
式で示す。
【図5】 候補句を生成する別の方法を流れ図形式で示
す。
【符号の説明】
10 コンピュータシステム 11 プロセッサ 12 モニタ 13 プリンタ 14 キーボード 16 マウス 18 タブレット 20 スタイラスないしペン 22 フロッピィディスクドライブ 24 OCR装置 26 ハードコピー文書 28 固体メモリ
フロントページの続き (72)発明者 スティーブン・ビイ・パッツ アメリカ合衆国 カリフォルニア州 95051 サンタクララ ローズモントドラ イブ 351 (72)発明者 ダニエル・シイ・ブロツキー アメリカ合衆国 カリフォルニア州 94707 バークレイ コルサアベニュー 1162

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 機械読み取り可能形式の文書からプロセ
    ッサに対してキーフレーズを選択する自動的方法であっ
    て、文書は第1の多数の語と第2の多数の文章を含み、
    文章内のいくつかの語は句を形成し、前記プロセッサは
    前記プロセッサに接続した記憶装置に記憶した命令を実
    行することで前記方法を実施するものであり、前記方法
    が、 a) 前記文書から各々の候補句が2つ以上の語を含む
    多数の候補句を生成するステップと、 b) 候補句の部分集合をキーフレーズとして選択する
    ステップとからなる前記プロセッサで実施する方法。
  2. 【請求項2】 前記ステップa)が、 d) 前記第2の多数の文章の1つを現在文章として選
    択するステップと、 e) 前記選択文章のまだ検討していない語を選択語と
    して選択するステップと、 f) 前記選択語がキーフレーズについて受容可能な開
    始部分かどうかを判定するステップと、 g) 前記選択語がキーフレーズについて受容可能な開
    始部分でない場合には、 1) 前記選択文章の全ての語を検討したかどうかを判
    定するステップと、 2) 前記選択文章の全ての語を検討していなければス
    テップf)を繰り返すステップと、 3) 前記選択文章の全ての語を検討していればステッ
    プe)からステップf)を繰り返すステップと、 h) 選択語がキーフレーズについて受容可能な開始部
    分であるならば、 1) 前記選択語を現在句に加えるステップと、 2) 前記選択文書の全ての語を検討していなければ、
    前記選択文章のまだ検討していない語を選択語として選
    択してステップh1)を繰り返すステップとからなる前
    記プロセッサで実施する請求項1記載の方法。
  3. 【請求項3】 前記ステップh2)が、更に、 A)前記選択文書の全ての語を検討していれば、 i) 現在句の最終語がキーフレーズについて受容可能
    な終端かどうかを判定するステップと、 ii) 現在句の最終語がキーフレーズについて受容可
    能な終端でなければ、現在句の最終語を除去してステッ
    プh2Ai)を繰り返すステップと、 iii) 現在句の最終語がキーフレーズについて受容
    可能な終端であれば、現在句が2つ以上の語を含んでい
    るかどうかを判定するステップと、 iv) 現在句が2つ以上の語を含んでいれば、現在句
    を候補句リストに加えるステップとからなる請求項2記
    載の方法。
JP10578696A 1995-05-01 1996-04-25 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法 Expired - Lifetime JP3653141B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/432,383 US5745602A (en) 1995-05-01 1995-05-01 Automatic method of selecting multi-word key phrases from a document
US432383 1995-05-01

Publications (2)

Publication Number Publication Date
JPH08305730A true JPH08305730A (ja) 1996-11-22
JP3653141B2 JP3653141B2 (ja) 2005-05-25

Family

ID=23715929

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10578696A Expired - Lifetime JP3653141B2 (ja) 1995-05-01 1996-04-25 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法

Country Status (3)

Country Link
US (1) US5745602A (ja)
EP (1) EP0741364A1 (ja)
JP (1) JP3653141B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048683A (ja) * 2004-07-26 2006-02-16 Google Inc 情報検索システムにおけるフレーズ識別方法
JP2008251003A (ja) * 1999-04-09 2008-10-16 Semio Corp 文書をパージングするシステム及び方法
US8327265B1 (en) 1999-04-09 2012-12-04 Lucimedia Networks, Inc. System and method for parsing a document

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19526264A1 (de) * 1995-07-19 1997-04-10 Daimler Benz Ag Verfahren zur Erzeugung von Deskriptoren für die Klassifikation von Texten
US5819260A (en) * 1996-01-22 1998-10-06 Lexis-Nexis Phrase recognition method and apparatus
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
JP3427692B2 (ja) * 1996-11-20 2003-07-22 松下電器産業株式会社 文字認識方法および文字認識装置
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US6637032B1 (en) * 1997-01-06 2003-10-21 Microsoft Corporation System and method for synchronizing enhancing content with a video program using closed captioning
US6415250B1 (en) * 1997-06-18 2002-07-02 Novell, Inc. System and method for identifying language using morphologically-based techniques
US6470307B1 (en) * 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
NZ504304A (en) * 1997-11-24 2002-03-01 British Telecomm Information management and retrieval with means for identifying word sub-sets within word groups and outputting these
GB2333871A (en) * 1998-01-29 1999-08-04 Sharp Kk Ranking of text units
JP3429184B2 (ja) * 1998-03-19 2003-07-22 シャープ株式会社 テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US7447626B2 (en) * 1998-09-28 2008-11-04 Udico Holdings Method and apparatus for generating a language independent document abstract
US7162413B1 (en) * 1999-07-09 2007-01-09 International Business Machines Corporation Rule induction for summarizing documents in a classified document collection
BE1013153A3 (fr) * 1999-11-25 2001-10-02 Datastat S A Procede et systeme de prelevement d'information.
US6766287B1 (en) 1999-12-15 2004-07-20 Xerox Corporation System for genre-specific summarization of documents
US7503000B1 (en) * 2000-07-31 2009-03-10 International Business Machines Corporation Method for generation of an N-word phrase dictionary from a text corpus
DE10057634C2 (de) * 2000-11-21 2003-01-30 Bosch Gmbh Robert Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit
US20070156665A1 (en) * 2001-12-05 2007-07-05 Janusz Wnek Taxonomy discovery
US8370761B2 (en) * 2002-02-21 2013-02-05 Xerox Corporation Methods and systems for interactive classification of objects
US7228507B2 (en) 2002-02-21 2007-06-05 Xerox Corporation Methods and systems for navigating a workspace
US7650562B2 (en) * 2002-02-21 2010-01-19 Xerox Corporation Methods and systems for incrementally changing text representation
US7549114B2 (en) 2002-02-21 2009-06-16 Xerox Corporation Methods and systems for incrementally changing text representation
US7487462B2 (en) 2002-02-21 2009-02-03 Xerox Corporation Methods and systems for indicating invisible contents of workspace
US6886010B2 (en) * 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
US7376893B2 (en) * 2002-12-16 2008-05-20 Palo Alto Research Center Incorporated Systems and methods for sentence based interactive topic-based text summarization
US7451395B2 (en) * 2002-12-16 2008-11-11 Palo Alto Research Center Incorporated Systems and methods for interactive topic-based text summarization
US7117437B2 (en) * 2002-12-16 2006-10-03 Palo Alto Research Center Incorporated Systems and methods for displaying interactive topic-based text summaries
US20040230415A1 (en) * 2003-05-12 2004-11-18 Stefan Riezler Systems and methods for grammatical text condensation
US7567959B2 (en) * 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7752200B2 (en) * 2004-08-09 2010-07-06 Amazon Technologies, Inc. Method and system for identifying keywords for use in placing keyword-targeted advertisements
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
WO2006047654A2 (en) * 2004-10-25 2006-05-04 Yuanhua Tang Full text query and search systems and methods of use
US20060212443A1 (en) * 2005-03-18 2006-09-21 Oyarce Guillermo A Contextual interactive support system
US20060212421A1 (en) * 2005-03-18 2006-09-21 Oyarce Guillermo A Contextual phrase analyzer
US7844566B2 (en) * 2005-04-26 2010-11-30 Content Analyst Company, Llc Latent semantic clustering
US20060242190A1 (en) * 2005-04-26 2006-10-26 Content Analyst Comapny, Llc Latent semantic taxonomy generation
US20070112839A1 (en) * 2005-06-07 2007-05-17 Anna Bjarnestam Method and system for expansion of structured keyword vocabulary
US10445359B2 (en) * 2005-06-07 2019-10-15 Getty Images, Inc. Method and system for classifying media content
US7711737B2 (en) * 2005-09-12 2010-05-04 Microsoft Corporation Multi-document keyphrase extraction using partial mutual information
US7873640B2 (en) * 2007-03-27 2011-01-18 Adobe Systems Incorporated Semantic analysis documents to rank terms
WO2008120030A1 (en) * 2007-04-02 2008-10-09 Sobha Renaissance Information Latent metonymical analysis and indexing [lmai]
US8601393B2 (en) * 2008-01-28 2013-12-03 Fuji Xerox Co., Ltd. System and method for supporting document navigation on mobile devices using segmentation and keyphrase summarization
US8281250B2 (en) * 2008-01-28 2012-10-02 Fuji Xerox Co., Ltd. System and method for supporting document navigation on mobile devices using segmentation and keyphrase summarization
KR101434920B1 (ko) * 2008-02-29 2014-09-25 삼성전자 주식회사 자원 공유 방법 및 그를 수행하는 시스템
US7895205B2 (en) * 2008-03-04 2011-02-22 Microsoft Corporation Using core words to extract key phrases from documents
IN2013MU02217A (ja) * 2013-07-01 2015-06-12 Tata Consultancy Services Ltd
PL3065131T3 (pl) * 2015-03-06 2021-01-25 Zetes Industries S.A. Sposób i układ przetwarzania końcowego rezultatu rozpoznawania mowy
US10628496B2 (en) 2017-03-27 2020-04-21 Dell Products, L.P. Validating and correlating content
CN110032622B (zh) * 2018-11-28 2023-07-14 创新先进技术有限公司 关键词确定方法、装置、设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04673A (ja) * 1990-04-18 1992-01-06 Hitachi Ltd 連語登録方法および装置
JPH0561912A (ja) * 1991-09-02 1993-03-12 Toshiba Corp 情報フアイリング装置
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置
JPH0756937A (ja) * 1993-08-11 1995-03-03 Nec Corp 単語抽出システム
JPH0773200A (ja) * 1993-09-07 1995-03-17 Ricoh Co Ltd キーワード抽出方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61120275A (ja) * 1984-11-16 1986-06-07 Toshiba Corp 日本語ワ−ドプロセツサ
US5551026A (en) * 1987-05-26 1996-08-27 Xerox Corporation Stored mapping data with information for skipping branches while keeping count of suffix endings
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
JPH0743717B2 (ja) * 1989-02-06 1995-05-15 株式会社テレマティーク国際研究所 抄録文作成装置
JPH03105566A (ja) * 1989-09-20 1991-05-02 Hitachi Ltd 抄録作成方式
JPH03278270A (ja) * 1990-03-28 1991-12-09 Ricoh Co Ltd 抄録文作成装置
JP2895184B2 (ja) * 1990-08-22 1999-05-24 株式会社日立製作所 文書処理システム及び文書処理方法
US5251316A (en) * 1991-06-28 1993-10-05 Digital Equipment Corporation Method and apparatus for integrating a dynamic lexicon into a full-text information retrieval system
JPH0635961A (ja) * 1992-07-17 1994-02-10 Matsushita Electric Ind Co Ltd 文書要約装置
US5440481A (en) * 1992-10-28 1995-08-08 The United States Of America As Represented By The Secretary Of The Navy System and method for database tomography
JP3647518B2 (ja) * 1994-10-06 2005-05-11 ゼロックス コーポレイション コード化したワードトークンを使用して文書画像をハイライトで強調する装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04673A (ja) * 1990-04-18 1992-01-06 Hitachi Ltd 連語登録方法および装置
JPH0561912A (ja) * 1991-09-02 1993-03-12 Toshiba Corp 情報フアイリング装置
JPH06301722A (ja) * 1993-04-13 1994-10-28 Matsushita Electric Ind Co Ltd 形態素解析装置及びキーワード抽出装置
JPH0756937A (ja) * 1993-08-11 1995-03-03 Nec Corp 単語抽出システム
JPH0773200A (ja) * 1993-09-07 1995-03-17 Ricoh Co Ltd キーワード抽出方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008251003A (ja) * 1999-04-09 2008-10-16 Semio Corp 文書をパージングするシステム及び方法
US8327265B1 (en) 1999-04-09 2012-12-04 Lucimedia Networks, Inc. System and method for parsing a document
JP2006048683A (ja) * 2004-07-26 2006-02-16 Google Inc 情報検索システムにおけるフレーズ識別方法

Also Published As

Publication number Publication date
US5745602A (en) 1998-04-28
EP0741364A1 (en) 1996-11-06
JP3653141B2 (ja) 2005-05-25

Similar Documents

Publication Publication Date Title
JPH08305730A (ja) 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法
JP5169816B2 (ja) 質問回答装置、質問回答方法および質問回答用プログラム
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US9875254B2 (en) Method for searching for, recognizing and locating a term in ink, and a corresponding device, program and language
JPH0736896A (ja) 文書を要約する方法および装置
JPH11184855A (ja) 翻訳方法およびシステム
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002215619A (ja) 翻訳文書からの翻訳文抽出方法
US7099507B2 (en) Method and system for extracting title from document image
Xafopoulos et al. Language identification in web documents using discrete HMMs
JP2991178B2 (ja) 音声ワープロ
JP3831357B2 (ja) 対訳情報作成装置及び対訳情報検索装置
JP3198932B2 (ja) 文書検索装置
JPH0785080A (ja) 全文書検索システム
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
JP3939264B2 (ja) 形態素解析装置
JPH0652151A (ja) 共起学習装置及びこれを用いたかな漢字変換装置
JP2005189955A (ja) 文書処理方法、文書処理装置、制御プログラム及び記録媒体
JP2004326584A (ja) 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム
JP2730308B2 (ja) 自然言語解析方式
JP3656315B2 (ja) 英文要約装置
JPH0765018A (ja) キーワード自動抽出装置
JPH1040267A (ja) 文書要約ビューア
JPH11259487A (ja) 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041001

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050225

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080304

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090304

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100304

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110304

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110304

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120304

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130304

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140304

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term