JPH08305730A

JPH08305730A - 機械読み取り可能形式の文書からプロセッサに対してキーフレーズを選択する自動的方法

Info

Publication number: JPH08305730A
Application number: JP8105786A
Authority: JP
Inventors: Francine R Chen; フランシーヌ・アール・チェン; Steven B Putz; スティーブン・ビイ・パッツ; Daniel C Brotsky; ダニエル・シイ・ブロツキー
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1995-05-01
Filing date: 1996-04-25
Publication date: 1996-11-22
Anticipated expiration: 2016-04-25
Also published as: JP3653141B2; US5745602A; EP0741364A1

Abstract

(57)【要約】【課題】機械読取り可能な形式で示すあらゆる文書か
らキーフレーズを選択できるようにすること。【解決手段】コンピュータシステム１０で機械読み取
り可能文書のテキストを複数語候補句に分割してキーフ
レーズを選択する。候補句は停止語を含まず、受容可能
な語で始まり終了するものである。最後に最も頻度の高
い候補句をキーフレーズとして選択する。

Description

【発明の詳細な説明】

【０００１】

【従来の技術】キーワードリストにより読者は文書を読
まずにその文書の内容を判定することができる。文書の
キーワードリストは自動的にあるいは人間の知性と労力
を用いて文書を作成した後に作成することができる。し
かし人間の労力を用いてキーワードリストを作成するに
はコストが高くなる。これに対して、キーワードリスト
を生成する自動的手法を用いればコストは安くなる。

【０００２】文書のキーワードリストを自動的に生成す
る際には自然言語処理手法と統計的手法の両方が利用さ
れてきた。自然言語処理は自然言語テキストを理解しよ
うとするものであるので計算が膨大となる。統計的手法
はテキストを理解する努力を行わないのでキーワードリ
ストを速く生成することができる。１９６９年にキャロ
ル（Ｃａｒｒｏｌ）及びロエロフ（Ｒｏｅｌｏｆｆｓ）
は「語頻度分析を用いたキーワードのコンピュータ選
択」でキーワードを選択する方法を開示した。キャロル
及びロエロフは各々の文書内ならびに文書コーパスにわ
たって語の相対的頻度に基づいてキーワードを選択し
た。しかし文書コーパスにわたる語頻度を使用する故に
キャロル及びロエロフの方法は瞬時の結果を望む研究者
や関連文書のコーパスを持たない研究者に取っては前処
理無しには十分速いものとは言えない。

【０００３】

【発明の実施の形態】図１は本方法を実施するコンピュ
ータシステム１０をブロック図形式で示したものであ
る。本方法はコンピュータシステム１０の動作を変更し
て機械読み取り可能な形式で示すあらゆる文書からキー
フレーズを選択できるようにするものである。要約する
と、コンピュータシステム１０で機械読み取り可能文書
のテキストを複数語候補句に分割してキーフレーズを選
択する。候補句は停止語を含まず、受容可能な語で始ま
り終了するものである。最後に最も頻度の高い候補句を
キーフレーズとして選択する。以下にコンピュータシス
テム１０を用いてキーフレーズを選択する２つの方法を
詳細に説明する。

【０００４】Ａ．キーフレーズ選択コンピュータシステ
ム本方法の詳細な説明を行う前に、コンピュータシステム
１０を考察する。コンピュータシステム１０はコンピュ
ータユーザに対して情報を視覚的に表示するモニタ１２
を有する。コンピュータシステム１０は更にプリンタ１
３を通してコンピュータユーザに情報を出力する。コン
ピュータシステム１０はコンピュータユーザに対して入
力データに対する複数のルートを提供する。即ちキーボ
ード１４で入力することでコンピュータユーザはタイピ
ングによりデータをコンピュータシステム１０に入力す
ることができる。またマウス１６を動かすことで、モニ
タ１２上に表示されたポインタを移動して表示されたア
イコンを選択することができる。コンピュータユーザは
更にスタイラスないしペン２０でタブレット１８に書き
込むことで情報をコンピュータシステム１０に入力でき
る。代わりにコンピュータユーザはフロッピィディスク
などの磁気媒体上に機械読み取り可能形式で記憶したデ
ータをフロッピィディスクドライブ２２にディスクを挿
入することで入力することができる。光学文字認識装置
（ＯＣＲ装置）２４によりコンピュータユーザはハード
コピー文書２６をコンピュータシステムに入力すること
もでき、そのＯＣＲ装置２４は一般に情報交換用米国標
準コード（ＡＳＣＩＩ）の符号化電子表示に変換する。

【０００５】プロセッサ１１はコンピュータシステム１
０の動作を制御、調整してコンピュータユーザのコマン
ドを実行する。プロセッサ１１は電子的にメモリに記憶
した命令を実行することで各々のユーザコマンドに対応
して判定して適切な処理を行う。一般にプロセッサ１１
の作動命令は固体メモリ２８に記憶して命令に対する頻
繁かつ高速アクセスを可能にしている。メモリ２８を実
現するのに利用できる半導体メモリには読み取り専用メ
モリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、
ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、プ
ログラマブル読み取り専用メモリ（ＰＲＯＭ）、消去可
能なプログラマブル読み取り専用メモリ（ＥＰＲＯ
Ｍ），そしてフラッシュメモリなどの電気的に消去可能
なプログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）
がある。

【０００６】Ｂ．キーフレーズを選択する１つの方法図２は機械読み取り可能文書からキーフレーズを選択す
るためプロセッサ１１が実行する命令４０を流れ図形式
で示したものである。命令４０は固体メモリ２８ないし
フロッピィディスクドライブ２２に入れたフロッピィデ
ィスクに記憶することができる。命令４０はＬＩＳＰや
Ｃ＋＋を始めとするどの様なコンピュータ言語でも実現
できる。命令４０の実行は機械読み取り可能文書の選択
と入力で始める。所望により、命令４０の実行前に、コ
ンピュータユーザはデフォルト数から「Ｐ」と示す選択
キーフレーズ数を変更することもできる。デフォルト数
はどの様な値にも設定できる。１実施例では、デフォル
ト値は５キーフレーズに設定している。

【０００７】プロセッサ１１はステップ４２に分岐して
トークン化文書の選択に対応する。ここで用いるよう
に、トークン化文書は文章境界及び語トークンが識別し
たものである。ステップ４２中、プロセッサ１１はトー
クン化文書を検査して複数語句を生成する。即ちプロセ
ッサ１１は各々の文章から２つ以上の語の非重複句を抽
出する。句の各々の語が文書の主題に関連する意味を伝
達するように、ステップ４２中に生成される句から停止
語は好適に除外される。停止語は文書の主題に関連した
意味を殆ど伝えない代名詞、前置詞、限定詞、「ｔｏ
ｂｅ」動詞などの語である。句から停止語を除外するこ
とはコンパクトなキーフレーズを生成し、ステップ４２
後のステップで必要な処理時間を削減できるという利点
がある。プロセッサ１１は各々の文章の各々の語トーク
ンを停止リストの語と比較することで停止語を除外す
る。プロセッサ１１は文章内で停止語が出て来ればいつ
でも１つの句を終了し、別のものを始める。その結果、
生成される句は隣接用語から構成される。ステップ４２
中の作用の結果、句のリストが生成される。句リストが
完了すれば、プロセッサ１１はステップ４２からステッ
プ４３へ分岐する。

【０００８】ステップ４３中、プロセッサ１１は引き続
き使用するため、文書内の句リスト上の各々の語の頻度
を判定する。ステップ４２中に使用したトークナイザに
より、プロセッサ１１は、文書の各々の語をリストしそ
の語が出現する各々の文書を識別する用語リストを調べ
ることで句リスト上の各々の語の頻度を判定することが
できる。そのようなリストにより、プロセッサ１１は句
リスト上の各々の語に付いて文章ＩＤの数を数えるだけ
でよい。その後、プロセッサ１１はステップ４３からス
テップ４４へ分岐する。

【０００９】ステップ４４中、プロセッサ１１は句リス
ト上の句から候補句を生成する。プロセッサ１１は候補
句を生成する間、要因の数を考察する。プロセッサ１１
は句の開始語と終端語を検査して候補句に適切かどうか
を判定する。それにより後に選択するキーフレーズは妥
当なものとなる。どの様にプロセッサ１１がそれらのタ
スクを行うかは図３に関して後に詳細に述べる。

【００１０】ステップ４４中、プロセッサ１１は更に句
の各々の語を検討してその語の頻度が高いかどうかを判
定する。句内の語の頻度と句の頻度自身は、最も頻度の
高い句は文書の内容を最もよく示していると思われるの
で文書のキーワードを選択するのに使用する。プロセッ
サ１１はある語が文章内で少なくとも最低回数出現すれ
ばそれを頻度の高いものと見なす。即ちプロセッサ１１
は文書内の語の出現回数をしきい値に対して比較し、出
現回数がしきい値を超過すれば、その用語を頻度の高い
ものと見なす。頻度の低い用語は候補句から除外する。
短い文書に付いてはしきい値は好適には１に設定され
る。その結果、少なくとも２回出現する用語だけが頻度
の高いものと見なされる。長い文書に付いては、しきい
値は高いものが望ましいであろう。候補句のリストを備
え、プロセッサ１１はステップ４４からステップ４６へ
進む。

【００１１】ステップ４６でプロセッサ１１は候補句の
リストからＰ個のキーフレーズを選択するタスクを開始
する。プロセッサ１１は各々の候補句の文書内の出現回
数に従って候補句リストを分類し始める。頻繁に出現す
る候補句は出現回数が少ない候補句よりも候補句の分類
リストで高く位置づけする。候補句間の連携は語数ない
し文字数に換算して測定した候補句長さ、どの句候補が
最も頻繁な語を含むかに従って、あるいは最高平均語頻
度に換算することを始め、いくつかの形で分類すること
ができる。ステップ４６の結果、プロセッサ１１は候補
句を格付けしたリストを保持することになる。その後、
プロセッサ１１はステップ４６からステップ４８に進
む。

【００１２】ステップ４８中、プロセッサ１１は選択キ
ーフレーズ数をゼロに設定して候補句リストからキーフ
レーズを選択する用意をする。それを行うとプロセッサ
１１はステップ５０に進み、Ｐ個のキーフレーズが選択
されたかどうかを判定する。選択数がＰに等しくなけれ
ば、全てのキーフレーズがまだ選択されていないことに
なる。プロセッサ１１はステップ５０からステップ５２
に進んでこの状況に対応する。

【００１３】プロセッサ１１はステップ５２で分類候補
句の一番上の候補句を検査する。略してその句を「現在
句」と称することにする。プロセッサ１１はステップ５
２で現在句が既に選択したキーフレーズの１つの変形で
あるかどうかを判定する。ここで用いるように、変形と
は別の句に関係しているが語順ないし語幹が異なるもの
である。例えば「テキスト分析システム」の可能な変形
には「システムでテキストを分析」、「文書分析システ
ム」及び「文書処理システム」がある。いくつかの自動
テキスト処理手法を用いて変形分析を行うことができる
ので、ここでは変形分析を詳細に述べない。

【００１４】変形分析に基づいてプロセッサ１１はステ
ップ５２から２つの経路の１つを取る。分類候補句リス
トの一番上の候補句がキーフレーズの１つの変形でなけ
れば、プロセッサ１１はステップ５２からステップ５４
に進む。ステップ５４でプロセッサ１１は現在候補句を
分類候補句リストから除去し、現在候補句をキーフレー
ズリストに載せる。その後、プロセッサ１１はステップ
５４からステップ５６に進み、選択したキーフレーズの
数を１だけ増分する。それを行うとプロセッサ１１はス
テップ５０に戻る。

【００１５】ステップ５２の変形分析で現在候補句がキ
ーフレーズの１つの変形であることが分かればプロセッ
サ１１の動作は異なったものとなる。それに対してプロ
セッサ１１はステップ５２からステップ５８に分岐す
る。ステップ５８中、プロセッサ１１は現在候補句を分
類候補句リストから除去し、妥当ならばキーフレーズリ
ストを変更する。１実施例では、キーフレーズリストに
既にある句が分類候補句リストからちょうど選択した句
の部分句ならばそれを除去して置き換える。従って例え
ばプロセッサ１１は、「南カリフォルニア海岸」よりも
部分句の「南カリフォルニア」を除外する。どの変形を
除外するかを判定する別の方法として句の最小頻度の変
形を除外することなどをステップ５８中に使用すること
ができる。その後、プロセッサ１１はステップ５８から
ステップ５０に戻る。

【００１６】ステップ５０に戻り、プロセッサ１１はＰ
個のキーフレーズを選択したかどうかを判定する。Ｐ個
のキーフレーズを選択していなければ、プロセッサ１１
は分類候補句リストからＰ個のキーフレーズが選択され
るまでステップ５２、５４、５６、５８を通して分岐す
る。Ｐ個のキーフレーズを選択していれば、プロセッサ
１１はステップ５０からステップ６０に分岐し、文書の
キーフレーズの選択を完了する。

【００１７】Ｂ１．候補句の生成図３は句を最大長で受容可能に開始し終了する候補句に
分割するステップ４４の動作を詳細に例示したものであ
る。要約すると、プロセッサ１１は選択した句の各々の
語を一時に１語づつ検査してその語が頻度の高いものか
どうかを判定する。ステップ４４で生成した候補句は隣
接し頻度の高い用語全体で構成されているので、句の長
さと句内の頻度の低い用語の位置により、１つの句は複
数の候補句を生成できたり全くできなかったりする。選
択した句の最初の頻度の高い語を識別すると、プロセッ
サ１１はその語が候補句の受容可能な開始部分であるか
どうかを判定する。候補句の受容可能な開始語を識別し
た後、プロセッサ１１は候補句の最終語を識別するまで
選択句の頻度の高い用語から候補句の構築を続ける。そ
してプロセッサ１１は候補句の最終語を検討してそれが
候補句の受容可能な終端部分であるかどうかを判定す
る。そうでなければプロセッサ１１は受容可能な終端語
が見つかるまで候補句の最後から語を除去する。次にプ
ロセッサ１１は生じる候補句が十分長いものかどうかを
判定する。プロセッサ１１は候補句が十分な語数を含ん
でいればそれを記憶する。

【００１８】以上の前提を想定して、ここで命令４４の
詳細な説明を助ける状況を考察する。第１に、ステップ
４２で生成した句のリストが「南太平洋会社は大きな影
響を及ぼした」「４年後」「料金対無料」を含むものと
する。第２に、更に文書内で２回以上出現する語に
「南」「太平洋」「会社」「大きな」「影響力」「年」
「後」「対」「無料」があるとする。第３に、不良開始
リストに「対」が含まれるとする。最後に第４に、不良
終端リストに「対」「後」が含まれると想定する。候補
句の生成はステップ７０で句リストから句の１つを選択
することで始める。プロセッサ１１はステップ７０を通
して第１の経路の「南太平洋会社が大きな影響力を及ぼ
した」を選択すると想定する。その後、プロセッサ１１
はステップ７０からステップ７２に分岐する。

【００１９】ステップ７２中、プロセッサ１１は検査の
ため、選択した句の１つの語を選択する。好適には、選
択した句の語の検査は左から右に順に進める。命令４４
が受容可能な開始部分の検査前に受容可能な終端部分を
検査するように変更されていれば、選択句の検査は右か
ら左に順に進めることもできる。プロセッサ１１は選択
句の語の検査を方向に関係なく進めるが、語は各々の生
成された候補句が隣接用語で確実に構成されるように順
に検査しなければならない。プロセッサ１１は好適には
ステップ７２を通してその最初の経路の「南」を選択す
る。選択句から語を選択した後、プロセッサ１１はステ
ップ７２からステップ７４に分岐する。プロセッサ１１
はステップ７４で、選択した語が頻度の高いものかどう
かを判定する。プロセッサ１１は選択した語の出現回数
をしきい値と比較することでそれを行う。しきい値の値
はキーフレーズが生成されている文書の長さに依存する
設計上の選択である。１実施例では、しきい値は、各々
の語の頻度が高いと見なすためには少なくとも２回出現
しなければならないように１に設定する。

【００２０】ステップ７４の結果、句は最大長の非重複
部分句に分割される。従って例えば「ニューメキシコ境
界線」という句は、「ニューメキシコ」「メキシコ境界
線」という部分句ではなく「ニューメキシコ境界線」と
いう候補句だけを生成する。最大長の候補句だけを使用
することで偽候補句を生成することがあるが、それらの
候補句はその出現頻度が低い故にキーフレーズとして選
択される可能性は低い。対照的に、最大長候補句から生
成される部分句は、その語数が少ない故に頻繁に出現す
る可能性が高く、キーフレーズとして除外される可能性
は低い。その結果、最大長候補句の部分句を用いて妥当
なキーフレーズを生成するには、本方法を変更する必要
がある。

【００２１】「南」はここでの想定で頻度の高い語であ
るので、プロセッサ１１はステップ７４からステップ７
６に分岐して対応する。プロセッサ１１は候補句の潜在
的な開始語が識別されればステップ７６に入る。プロセ
ッサ１１はステップ７６で、選択語が候補句の受容可能
な開始部分かどうかを判定する。プロセッサ１１は選択
語に付いて不良開始リストを探索することでそれを行
う。不良開始リストにはキーフレーズに関して受容でき
ない開始部分の語が含まれている。英語テキストの不良
開始リストは簡潔なものになろうが、偽ないし不適切と
思われるキーフレーズを生成する可能性を削減するため
疑わしいときは語を不良開始リストに含める傾向にあ
る。非英語文書に関しては、異なる語は不良開始リスト
に含めるべきである。例えば「ｏｆ」に相当するフラン
ス語の「ｄｅ」は、フランス語の名詞句は「ｎｏｕｎ
ｄｅａｄｊｅｃｔｉｖｅ」の形であるので、停止語に
含めるべきではない。「ｄｅａｄｊｅｃｔｉｖｅ」で
始まるキーフレーズの生成を避けるため、「ｄｅ」はフ
ランス語不良開始リストに含めるべきである。

【００２２】「南」という語はここで想定するキーフレ
ーズに関して受容可能な開始部分を為しているので、プ
ロセッサ１１はステップ７６からステップ７８に分岐す
る。プロセッサ１１はステップ７８で新しい候補句を構
築する過程を始めるが、それを現在候補句と称すること
にする。ステップ７８中、プロセッサ１１は選択語を現
在候補句に追加する。それを行うと、プロセッサ１１は
ステップ７８からステップ８０に進んで選択句から隣接
する頻度の高い用語を現在候補句に追加し始める。プロ
セッサ１１はステップ８０で選択句がまだ検討すべき追
加用語を含んでいるかどうかを判定する。プロセッサ１
１は選択句の全ての語をまだ検討していないのでステッ
プ８０からステップ８１に分岐する。ステップ８１でプ
ロセッサ１１は現在候補句に含める可能性のある選択句
の次の語を選択する。選択句を想定し、左から右に順に
進んで、プロセッサ１１はステップ８１で「太平洋」を
選択する。その後、ステップ８２でプロセッサ１１は選
択語は頻度の高いものであると判定する。それに対応し
て、プロセッサ１１はステップ８２からステップ７８に
戻る。プロセッサ１１は「太平洋」をステップ７８で現
在候補句に追加し、その結果「南太平洋」となる。それ
を行うと、プロセッサ１１はステップ８０に進み、選択
句にまだ検討していない語が含まれることを見いだす。

【００２３】プロセッサ１１はステップ８１で「会社」
を選択し、ステップ８２に進む。プロセッサ１１は選択
語は文書内で２回以上出現するのでそれは頻度の高いも
のであることが分かる。その結果、プロセッサ１１はス
テップ８２からステップ７８に分岐し、選択語を現在候
補句に追加する。その結果、現在候補句は「南太平洋会
社」となる。その後、プロセッサ１１はステップ７８か
らステップ８０に分岐する。

【００２４】ステップ８０中、プロセッサ１１は選択句
にまだ検討していない語が含まれていることを見いだ
す。従ってステップ８１でプロセッサ１１は選択句の次
の語の「及ぼした」を選択する。プロセッサ１１は次の
ステップで「及ぼした」は選択文章内で頻度の高い語で
はないことを見いだす。現在候補句の最も右側の語に隣
接する頻度の低い語の出現によりそれは終端する。その
結果、プロセッサ１１は選択語やいずれのものも現在候
補句に追加しない。プロセッサ１１はこの状況にステッ
プ８２からステップ８４に分岐することで対応する。

【００２５】ステップ８４でプロセッサ１１は現在候補
句の最終語が受容可能な終端部分かどうかをその語に関
して不良終端リストを探索することで判定する。不良終
端リスト上の語はキーフレーズを偽ないし不適切なもの
にする可能性のあるものである。不良開始リストによ
り、不良終端リストに載せた語は分析している自然言語
の言語に依存して変化することがある。以前の想定で
は、「会社」は受容可能な終端部分となる。隣接し頻度
の高い用語全体で構成され、受容可能に終了し始まる候
補句を選択すると、プロセッサ１１はステップ８４から
ステップ８８に進む。

【００２６】プロセッサ１１はステップ８８で現在候補
句が２つ以上の語を含むかどうかを判定する。単一語の
句は、語に付いての言語的な情報なしにはキーフレーズ
リストで偽のものとして出現する可能性があるので、本
方法ではキーフレーズとして選択しない。そのような言
語的な情報を得るために時間を取るよりも、単一語の句
は句候補として受け入れない。現在候補句は２つ以上の
語を含んでいるので、プロセッサ１１はステップ８８か
らステップ９０に進む。

【００２７】プロセッサ１１はステップ９０で現在候補
句をいままでリストした句候補と比較する。現在候補句
は最初に生成されるので、ステップ９０を通して第１の
経路で、プロセッサ１１は現在候補句は候補句のリスト
にないことを見いだす。それに対応してプロセッサ１１
はステップ９４で現在候補句を候補句リストに追加し、
その候補句に関してカウントを１に設定する。後にプロ
セッサ１１は候補句に関連したカウントをキーフレーズ
を選択するのに使用する。その後、プロセッサ１１はス
テップ９４からステップ９６に分岐して別の候補句の構
築を始める。

【００２８】別の候補句を構築する作業はステップ９６
で選択句の全ての語が検討されたかどうかを判定するこ
とで始める。選択句の「大きな影響力」という語がまだ
検討されていないので、プロセッサ１１はステップ９６
からステップ７２に戻って対応して選択句のその検討を
続行する。プロセッサ１１はステップ７２で「大きな」
を選択語として選択する。その後、プロセッサ１１はス
テップ７４、７６、７８、８０、８１、８２、８４、８
８を通してちょうど説明したように分岐して選択句から
「大きな影響力」という別の候補句を構築する。

【００２９】最終的にプロセッサ１１はステップ８８か
らステップ９０に分岐する。現在候補句が候補句のリス
トに既に含まれていれば、プロセッサ１１はステップ９
０からステップ９２に分岐する。ステップ９２でプロセ
ッサ１１は現在候補カウントのカウントを１だけ増分す
る。それを行えば、プロセッサ１１はステップ９２から
ステップ９６に分岐する。

【００３０】ステップ９６に戻ると、プロセッサ１１は
選択句の全ての語の検討がなされたことを見いだす。そ
の結果、プロセッサ１１はステップ９６からステップ７
０に進む。ステップ９６でプロセッサ１１は「４年後」
を選択句として選択する。引き続いてステップ７２でプ
ロセッサ１１は「４」を選択語として指定する。プロセ
ッサ１１はステップ７４中に「４」は選択した文書内で
頻度の高い語でないことが分かる。それに対応してプロ
セッサ１１はステップ７４からステップ９６に進む。プ
ロセッサ１１はステップ９６で選択句にはまだ検討して
いない語が含まれていることを判定する。プロセッサ１
１はステップ９６からステップ７２に戻って選択句の次
に語を選択する。プロセッサ１１は「年」を選択語とし
て選択して選択語は頻度の高いものであると判定する。
その結果、プロセッサ１１はステップ７６に進み、ステ
ップ７６で「年」に関して不良開始リストを探索する
が、それが見つからないと「年」は受容可能な開始部分
であることになる。

【００３１】プロセッサ１１はステップ７６からステッ
プ７８に分岐して現在候補句の構築を続行する。選択語
はステップ７８で現在候補句に追加する。次のステップ
のステップ８０で、プロセッサ１１は選択句にまだ検討
していない別の語が含まれているかどうかを判定する。
そうであればステップ８１でプロセッサ１１は「後」を
選択語として指定する。次にプロセッサ１１はステップ
８２で「後」は選択文書内で頻度の高い語であることを
見いだす。プロセッサ１１はステップ７８に分岐し選択
語を現在候補句に追加して対応する。この動作の結果、
現在候補句は「年後」になる。その後、プロセッサ１１
はステップ７８からステップ８０に分岐する。

【００３２】プロセッサ１１はステップ８０で選択句が
追加語を含むかどうかを判定することで追加語を現在候
補句に追加できるかどうかを判定する。プロセッサ１１
は選択句の全ての語を検討し終ると、現在候補句に対し
て更に追加するものはなくなり、ステップ８０からステ
ップ８４に進んで対応する。プロセッサ１１はステップ
８４で「後」に関して不良終端リストを探索して現在候
補句が受容可能に終了するかどうかを判定する。プロセ
ッサ１１はステップ８４からステップ８６に分岐して不
良終端リストに「後」が見つかることに対応する。その
ステップでプロセッサ１１は現在候補句から最終語を除
去して現在候補句を「年」とする。その後、プロセッサ
１１はステップ８６からステップ８４に戻り再び現在候
補句の最終語を検討する。不良終端リストに「年」はな
いので、プロセッサ１１はステップ８６からステップ８
８に分岐して対応する。ステップ８８ではプロセッサ１
１は現在候補句が複数句であるかどうかを判定する。現
在候補句は１つの語しか含まないので、プロセッサ１１
は現在候補句を捨ててステップ８８からステップ９６に
分岐する。

【００３３】プロセッサ１１はステップ９６で現在候補
句の全ての語は既に検討してしまったので別の句を選択
して検討しなければならないことを見いだす。その結
果、プロセッサ１１はステップ９８に進んでまだ検討し
ていない別の句があることを見いだす。プロセッサ１１
はステップ７０に戻り、「料金対無料」を選択する。続
いてプロセッサ１１は「料金」を選択して検討し、ステ
ップ７２からステップ７４へ分岐する。

【００３４】プロセッサ１１はステップ７４で「料金」
は頻度の高い語ではないことを見いだす。それに対応し
てプロセッサ１１はステップ７２に戻って選択した句の
次の語の「対」を選択する。プロセッサ１１は「対」は
選択文書内で２回以上出現するので頻度の高い語である
と見なす。それに従ってプロセッサ１１はステップ７４
からステップ７６に分岐する。プロセッサ１１はステッ
プ７６で選択語に関して不良開始リストを探索してそれ
をそこで発見する。それに対応してプロセッサ１１はス
テップ７６からステップ９６に分岐する。選択句の全て
の語をまだ検討していないので、プロセッサ１１はステ
ップ９６からステップ７２に戻る。プロセッサ１１はス
テップ７２で別の語を選択してステップ７４に進む。プ
ロセッサ１１はステップ７４で選択した語の「無料」は
選択文書内で頻度の高い用語であると判定する。更に次
のステップで、プロセッサ１１は選択語は受容可能な開
始部分であると判定する。それに対応してプロセッサ１
１はステップ７８へ分岐して前述したようにステップ７
８、８０、９４、８８、９６、９８を実行する。プロセ
ッサ１１は全ての句を検討したことをステップ９８で見
いだすまで命令４４の実行を続行する。それが為される
と、プロセッサ１１はステップ９８からステップ１００
に分岐して句候補を生成するタスクを完了する。

【００３５】Ｃ．キーフレーズを選択する別の方法図４は機械読み取り可能な形の文書からキーフレーズを
選択する別の命令４０ａを流れ図形式で示したものであ
る。命令４０ａは固体メモリ２８ないしフロッピィディ
スクドライブ２２に入れたフロッピィディスクに記憶す
ることができる。命令４０ａはＬＩＳＰ及びＣ＋＋を含
むどの様なコンピュータ言語でも実現することができ
る。

【００３６】命令４０ａは命令４０とは、プロセッサ１
１は命令４０を用いて選択するように同一句をキーフレ
ーズとして必ずしも選択しなくてもよいという点で異な
る。命令４０ａは更にプロセッサ１１がキーフレーズを
より速く選択できるようにする点で命令４０と異なる。
命令４０ａによりプロセッサ１１は文書から必要な情報
を、命令４０では２回のパスを必要とするのに対して、
１回のパスで抽出できる。命令４０ａは命令４０に比べ
てメモリの使用を増大してこの速度的な利点を達成す
る。それらの相違にも関わらず、命令４０ａは命令４０
と非常に似ている。この類似故に、図４ではステップ４
４ａと４５だけを例示し、命令４０ａはステップ４２な
いし４６に相当するものは含んでいない。図４ではステ
ップ４８ー６０はキーフレーズを選択する両方法に関し
て本質的に同一であるのでそれらのステップを例示して
いない。その結果、ステップ４８ー６０は命令４０ａの
以下の説明では述べる必要がない。

【００３７】プロセッサ１１はステップ４４ａで命令４
０ａの実行を開始する。ステップ４４ａでプロセッサ１
１は停止語及び受容可能な開始及び終端語を識別するこ
とで候補句表を生成する。ステップ４４ａでプロセッサ
１１は候補句に含まれる語が頻度の高いものかどうかを
考察しない。

【００３８】ステップ４４ａでどの様に候補句表が構築
されるかの説明を始める前に、まず句表の内容を考察す
る。句表は句カウント及び総称形式表示と表面形式表示
の各々の候補句の２つの表示方法を含む。それらの表示
が全く異なれば、候補句の語の大文字使用に関して異な
ることになる。候補句の総称形式表示は候補句の小文字
バージョンであるが、文書内ではそれは出現しない。プ
ロセッサ１１は候補句に関して総称形式を判定し句表内
でその総称形式表示を探索することで、総称形式表示を
句表へのキーとして使用する。プロセッサ１１が句表内
で候補句の総称形式表示に遭遇すると、その候補句を句
表に追加する必要はない。その代わり、プロセッサ１１
は総称形式に関連した句カウントを増分する。表面形式
表示は実際に大文字にした候補句の出現の１つを示すも
のである。表面形式表示によりプロセッサ１１は、コン
ピュータユーザに各々のキーフレーズを文書内で少なく
とも１回実際に大文字にされたものとして提示できる。
好適に表面形式表示は常に候補句の出現を最小の大文字
で示す。

【００３９】プロセッサ１１は総称及び表面形式の両方
の候補句を語ＩＤ列として表現する。各々の語ＩＤは語
の１つのＡＳＣＩＩ表示に対して一意的な整数である。
その結果、同一語の異なる大文字化により、異なるＡＳ
ＣＩＩ表示故に異なる語ＩＤを有することになる。例え
ば「ｈａｔｅｓｐｅｅｃｈ」及び「Ｈａｔｅｓｐｅ
ｅｃｈ」という句は異なるＡＳＣＩＩ表示と異なる語Ｉ
Ｄを有する。プロセッサ１１は語ＩＤを語ＩＤ表から得
る。プロセッサ１１は句表と同時にステップ４４ａで語
ＩＤ表を生成する。ステップ４４ａで語を選択して検討
する度に、プロセッサ１１はその後のＡＳＣＩＩ表示に
関して語ＩＤ表を探索する。語ＩＤ表に語のＡＳＣＩＩ
表示が含まれなければ、プロセッサ１１はその表示を語
ＩＤ表に加え、一意的な整数を指定して語ＩＤとして機
能させる。プロセッサ１１は他の有用な情報を語ＩＤ表
に格納して句表の生成速度を速める。文書の分析を始め
る前に、プロセッサ１１は語を停止、不良開始及び不良
終端リストから表に追加し、その後に関連したフラグを
設定して語表を初期化する。従って例えば「ｔｈｅ」と
いう停止語を語ＩＤ表に追加する場合には、「ｔｈｅ」
に関連した停止語フラグが設定される。それらのリスト
の語を語ＩＤ表に追加する結果、プロセッサ１１は特定
の語に関した全ての情報を検索する際は語ＩＤ表だけを
調べるだけでよい。

【００４０】周知のハッシュ手法を用いてステップ４４
ａの実行中に語ＩＤ表内及び句表の情報を効率的に探索
できる。その結果、命令４０ａの実行中にそれらの表か
らどの様にプロセッサ１１が情報を検索するかに付いて
の説明は行わない。

【００４１】句表と語ＩＤ表の説明を備えて、候補句を
生成する命令４０ａの詳細を例示する図５を考察する。
命令４０ａは命令４４に関して先述したのと実質的に同
様の方法で候補句を生成する。その結果、以下の説明で
はその先述の説明の知識を想定し、候補句を生成する２
つの方法間の相違に焦点を当てる。命令４４と４４ａの
間の相違は、命令４０ａは候補句を停止語を含むトーク
ン化文書を文書内の語の頻度の先験的な知識なしに候補
句を生成するので生じる。その結果、命令４０ａは停止
語であるが希な用語でないものを探索する。語の頻度を
使用せずに候補句を終了することで、命令４４を用いて
生成する候補句に比べて候補句の平均長と数の両方が増
大する。

【００４２】命令４０ａの実行はステップ７０ａで始め
る。ステップ７０ａで、プロセッサ１１はステップ７０
のように句ではなく、ある文章を候補句の潜在的な源と
して選択する。その後ステップ７２ａで、プロセッサ１
１は選択語として選択文章の語の１つを指定する。ステ
ップ７２ａからプロセッサ１１はステップ７４ａに進
む。ステップ７４でプロセッサ１１は語ＩＤ表内の適切
な項目を調べ、関連停止語フラグが設定されているかど
うかを判定することで、選択語が停止語かどうかを判定
する。そうであれば、選択語は句に関して受容可能な語
ではなく、プロセッサ１１はステップ９６に進む。ステ
ップ９６、９８の実行は、実質的に先述のものと同様に
進められる。他方、選択語が停止語でなければ、プロセ
ッサ１１はステップ７６に分岐する。

【００４３】ステップ７６から、候補句の生成は命令４
４に関して先述したものと実質的に同様の方法で３つの
小さい相違点を有して進められる。第１には、プロセッ
サ１１はステップ７６、８２ａ、８６中にリストそれ自
身を調べる代わりに、語ＩＤ表を調べて選択語が不良開
始、不良終端ないし停止リストのいずれかにあるかどう
かを判定する。プロセッサ１１が語ＩＤ表内に選択語を
見つけることができなければ、ステップ７６でプロセッ
サ１１はその語の項目を表に加える。第２にステップ８
２ａ中に、プロセッサ１１は図３のステップ８２の場合
のように文書内のそれらの頻度よりも、それらが停止語
かどうかに基づいて現在句から語を排除する。

【００４４】候補句の生成後、プロセッサ１１はステッ
プ９０に進んで、句表をどの様に変更するかを判定する
用意をする。プロセッサ１１はこのタスクを語ＩＤ表を
用いて現在候補句の総称形式及び表面形式表示を生成
し、現在候補句の総称形式表示を句表に配置することで
開始する。句表に総称形式表示があれば、現在候補句が
句表内に既に含まれていることを示す。それに対してプ
ロセッサ１１はステップ９２に進んで候補句に関連した
カウントを増分する。ステップ９２でプロセッサ１１は
更に候補句の現在表面形式表示が候補句の表面形式より
もより多くの大文字を含んでいれば、それを変更するこ
とができる。好適に、現在句が現在表面形式表示よりも
多くの大文字を含んでいる場合には、表面形式表示の変
更は行わない。他方、プロセッサ１１が現在候補の総称
形式表示を見つけることができなければ、プロセッサ１
１はステップ９４に向けてステップ９０を出る。ステッ
プ９４では、プロセッサ１１は現在句の総称形式表示と
表面形式表示の両方を句表に加え、関連句カウントを１
に設定する。

【００４５】ステップ４４ａで全ての可能な候補句を生
成した後、プロセッサ１１は図４に示すステップ４５ａ
に進む。ステップ４５ａでは、句表から候補句の部分集
合を選択する。プロセッサ１１はそれを文書内で最も頻
繁に出現する候補句の部分集合を選択することで行う。
ステップ４５ａで選択された句の数は出力するキーフレ
ーズの数のＰを越えるはずであるが、さもなくば設計上
の選択となる。ステップ４５ａの実行後、キーフレーズ
の選択は先述のように進める。

【図面の簡単な説明】

【図１】機械読み取り可能文書からキーフレーズを自
動的に選択するコンピュータシステムを示す。

【図２】機械読み取り可能文書からキーフレーズを選
択する方法の流れ図である。

【図３】句から候補句を生成する方法の流れ図であ
る。

【図４】キーフレーズを選択する別の方法を流れ図形
式で示す。

【図５】候補句を生成する別の方法を流れ図形式で示
す。

【符号の説明】

１０コンピュータシステム１１プロセッサ１２モニタ１３プリンタ１４キーボード１６マウス１８タブレット２０スタイラスないしペン２２フロッピィディスクドライブ２４ＯＣＲ装置２６ハードコピー文書２８固体メモリ

フロントページの続き (72)発明者スティーブン・ビイ・パッツアメリカ合衆国カリフォルニア州 95051 サンタクララローズモントドライブ 351 (72)発明者ダニエル・シイ・ブロツキーアメリカ合衆国カリフォルニア州 94707 バークレイコルサアベニュー 1162

Claims

【特許請求の範囲】

【請求項１】機械読み取り可能形式の文書からプロセ
ッサに対してキーフレーズを選択する自動的方法であっ
て、文書は第１の多数の語と第２の多数の文章を含み、
文章内のいくつかの語は句を形成し、前記プロセッサは
前記プロセッサに接続した記憶装置に記憶した命令を実
行することで前記方法を実施するものであり、前記方法
が、ａ）前記文書から各々の候補句が２つ以上の語を含む
多数の候補句を生成するステップと、ｂ）候補句の部分集合をキーフレーズとして選択する
ステップとからなる前記プロセッサで実施する方法。
【請求項２】前記ステップａ）が、ｄ）前記第２の多数の文章の１つを現在文章として選
択するステップと、ｅ）前記選択文章のまだ検討していない語を選択語と
して選択するステップと、ｆ）前記選択語がキーフレーズについて受容可能な開
始部分かどうかを判定するステップと、ｇ）前記選択語がキーフレーズについて受容可能な開
始部分でない場合には、１）前記選択文章の全ての語を検討したかどうかを判
定するステップと、２）前記選択文章の全ての語を検討していなければス
テップｆ）を繰り返すステップと、３）前記選択文章の全ての語を検討していればステッ
プｅ）からステップｆ）を繰り返すステップと、ｈ）選択語がキーフレーズについて受容可能な開始部
分であるならば、１）前記選択語を現在句に加えるステップと、２）前記選択文書の全ての語を検討していなければ、
前記選択文章のまだ検討していない語を選択語として選
択してステップｈ１）を繰り返すステップとからなる前
記プロセッサで実施する請求項１記載の方法。
【請求項３】前記ステップｈ２）が、更に、Ａ）前記選択文書の全ての語を検討していれば、ｉ）現在句の最終語がキーフレーズについて受容可能
な終端かどうかを判定するステップと、ｉｉ）現在句の最終語がキーフレーズについて受容可
能な終端でなければ、現在句の最終語を除去してステッ
プｈ２Ａｉ）を繰り返すステップと、ｉｉｉ）現在句の最終語がキーフレーズについて受容
可能な終端であれば、現在句が２つ以上の語を含んでい
るかどうかを判定するステップと、ｉｖ）現在句が２つ以上の語を含んでいれば、現在句
を候補句リストに加えるステップとからなる請求項２記
載の方法。