JPH0721197A - キーワード付与装置 - Google Patents

キーワード付与装置

Info

Publication number
JPH0721197A
JPH0721197A JP5143915A JP14391593A JPH0721197A JP H0721197 A JPH0721197 A JP H0721197A JP 5143915 A JP5143915 A JP 5143915A JP 14391593 A JP14391593 A JP 14391593A JP H0721197 A JPH0721197 A JP H0721197A
Authority
JP
Japan
Prior art keywords
notation
word
keyword
condition
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5143915A
Other languages
English (en)
Inventor
Toshinori Iwadera
俊哲 巖寺
Haruo Kimoto
晴夫 木本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP5143915A priority Critical patent/JPH0721197A/ja
Publication of JPH0721197A publication Critical patent/JPH0721197A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 キーワード付与装置を、キーワードとなる表
記列あるいは表記の組み合わせの登録数を削減できるよ
うにする。 【構成】 キーワード付与装置10は、解析結果記憶部
14から取り出した単語の表記およびその単語の属性値
から検出した、付与処理駆動条件記憶部15に格納され
ている付与処理駆動条件を満たす単語の並びである付与
処理駆動表記を検出して、この付与処理駆動条件に対応
するキーワード付与規則をキーワード付与規則記憶部1
6から取り出す付与処理駆動表記検出部17と、付与処
理駆動表記検出部17で検出された付与処理駆動表記と
この付与処理駆動表記の前後の単語の並びが、キーワー
ド付与規則記憶部16に格納されている複数の「キーワ
ード付与規則」のいずれかに適合するか否かを判定し、
適合した「キーワード付与規則」に従ってキーワードを
付与するキーワード付与処理部18とを有する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文章にキーワードを自
動的に付与するキーワード付与装置に関するもので、特
に、文章中の特定の条件を満たす表記とその前後の表記
とを解析し、その解析結果と予め用意した規則とを参照
することにより、当該文章に関連するキーワードを生成
して付与するキーワード付与装置に関するものである。
【0002】
【従来の技術】従来、文章にキーワードを自動的に付与
するキーワード付与装置としては、文章中に存在する表
記を抽出し、抽出した表記をキーワードとして付与する
方式ものと、ある特定の表記または特定の表記の組み合
わせが文章中から抽出されたときに、予め登録した表記
をキーワードとして付与する、文章中にないキーワード
を付与する方式のものとがある。
【0003】文章中に存在する表記を抽出し、抽出した
表記をキーワードとして付与する方式には、以下に示す
3つの方式がある。
【0004】(1)登録キーワード方式 登録キーワード方式は、予めキーワードとなる表記をキ
ーワードリストに登録しておき、キーワード抽出の対象
となる文章中からキーワードリストに登録されている表
記を抽出する方式である。
【0005】(2)不要語除去方式 不要語除去方式は、助詞や接続詞のような機能語などの
キーワードにならない表記を不要語辞書に登録してお
き、キーワード抽出の対象の文章から不要語辞書に登録
されている表記を削除し、残りの表記をキーワードとす
る方式である。
【0006】(3)定型パターン照合方式 定型パターン照合方式は、特定の表記の種類(たとえ
ば、文字と数字)が定型的に組み合わされた表記をキー
ワードとして抽出するとき、特定の表記列と表記を構成
する文字種の組み合わせのパターンだけを登録してお
き、文章中にこのパターンに合致する表記が含まれてい
るときの表記をキーワードとして抽出する方式である。
この方式では、たとえば、『平成○年×月』のような表
記をキーワードとする場合に、『平成+<数字>+年+
<数字>+月』のような定型パターンを予め登録してお
くことによって、キーワードを抽出する。
【0007】一方、文章中にないキーワードを付与する
方式は、一つの文章中から予め登録されたある特定の表
記または特定の表記の組み合わせが、上記(1)〜
(3)のいずれかの方式により抽出された場合に、それ
らの表記の組み合わせと対応づけて予め登録されている
表記をキーワードとして付与する方式である。この方式
は、たとえば、文章中に『常滑焼』という表記が出現し
たときには、『常滑市』と『陶磁器』とをキーワードと
して付与し、また、文章中に『東京』と『ニューヨー
ク』との2つの表記が出現したときには、『大都会』を
キーワードとして付与し、さらに、文章中に表記『パソ
コン』が出現したときには、『パソコン』を『コンピュ
ータ』に置き換えて、『コンピュータ』をキーワードと
して付与する方式である。
【0008】
【発明が解決しようとする課題】しかしながら、上述し
た従来のキーワード付与装置には、以下に示す問題があ
る。
【0009】(1)登録キーワード方式 登録キーワード方式は、キーワード抽出の対象となる文
章からキーワードリストに登録されている表記を抽出す
る方式であるため、キーワードリストに登録された表記
しかキーワードとして文章から抽出できない。その結
果、キーワードリストの整備,維持および管理に多大な
労力を必要とするほか、新しい言葉がキーワード抽出の
対象となる文章中に出現したときに、その言葉をキーワ
ードとして抽出することができない。
【0010】(2)不要語除去方式 不要語除去方式は、キーワード抽出の対象となる文章か
ら助詞や接続詞のような機能語など予め指定されたキー
ワードとはなり得ない表記を削除し、残りの表記をキー
ワードとするため、たとえば、『エリツン・ロシア大統
領』のような表記から『エリツン大統領』および『ロシ
ア』のような分割,再結合したキーワードを得ることが
できない。また、『エリツン』のような不要語を除去し
たのちの表記の一部をキーワードとして得ることができ
ない。さらに、『こんにゃくの日』のような機能語を含
むキーワードを抽出することもできない。
【0011】(3)定型パターン照合方式 定型パターン照合方式は、特定の表記と文字の種類(た
とえば、特定の文字列と数字)とが定型的に組み合わさ
れた表記をキーワードとして抽出するとき、特定の表記
列と表記を構成する文字種の組み合わせのパターンだけ
を登録しておき、文章中にこのパターンに合致する表記
が含まれているときに、その表記をキーワードとして抽
出する。すなわち、たとえば『ケネディ大統領』のよう
な『○○大統領』という表記をキーワードとするとき、
『<カタカナ>+大統領』のように表記『大統領』の前
にカタカナ列が出現するパターンを予め登録しておき、
キーワード抽出の対象となる文章中に該当するパターン
があればキーワードとして抽出するため、たとえば当該
文章中に『ロシア大統領』という言葉がある場合には、
『ケネディ大統領』のほか『ロシア大統領』も抽出され
てしまう。
【0012】なお、登録キーワード方式,不要語除去方
式および定型パターン照合方式はいずれも、文章中の表
記をキーワードとして付与する方式であるため、文章中
に存在しない言葉をキーワードとして付与することはで
きない。
【0013】一方、文章中にないキーワードを付与する
方式は、ルール,テーブル,シソーラスなどに予め登録
されたある特定の表記または特定の表記の組み合わせ
が、文章中から上記(1)〜(3)のいずれかの方式に
より抽出された場合に、それらの表記の組み合わせと対
応づけられて予め登録されている表記をキーワードとし
て付与する方式であるため、予め登録してあるキーワー
ドがキーワード付与の対象となる文章中に出現したとき
に、予め登録してあるが文章中にはないキーワードを付
与する結果、新しいキーワードの組み合わせからキーワ
ードを付与したり、新たなキーワードを付与することが
できない。
【0014】上記の各事項は、従来のキーワードの抽出
方式あるいはキーワード付与方式が、文章中での特定の
表記の存在,表記を構成する文字の種類およびそれらの
組み合わせのみを手がかりにしてキーワードの抽出また
は付与を行っていることによって生じる問題である。
【0015】本発明は、このような従来の問題を解決す
るために、キーワード付与装置の一機能として、キーワ
ード抽出の対象となる文章が特定の条件の組み合わせを
満たすときに特定のキーワードを文章に付与する場合
に、その条件を単語の属性値の組み合わせとして登録
し、さらに、付与するキーワードの表記を登録するので
はなく、付与するキーワードの生成規則を登録すること
によって、キーワードの付与を行う。このことにより、
キーワードとなる表記列あるいは表記の組み合わせの登
録数を削減し、また、登録に伴う作業量の削減に寄与
し、さらに、新たにキーワードを抽出することと文章中
に現れない表記をキーワードとして生成して付与するこ
ととができるキーワード付与装置を提供することを目的
とする。
【0016】
【課題を解決するための手段】本発明のキーワード付与
装置は、文中の単語と単語の属性値の組み合わせを使用
して文にキーワードを付与するキーワード付与装置であ
って、キーワード付与の対象となる対象文章を入力する
ための文入力手段と、複数個の単語の表記と単語ごとの
属性値とが網羅的に格納されている解析用情報記憶手段
と、前記文入力手段から送られてくる前記対象文章を単
語単位に分割し、該分割した単語の表記に基づいて前記
解析用情報記憶手段をアクセスして、該分割した単語の
属性値を該分割した単語の表記ごとに付与する文解析手
段と、該文解析手段で得られた単語の表記,該得られた
単語の属性値および該得られた単語の前記対象文章にお
ける出現順序が単語ごとに格納される解析結果記憶手段
と、複数の付与処理駆動条件がキーワード付与規則ID
と対応づけられて格納されている付与処理駆動条件記憶
手段と、キーワード付与処理の動作を規定した複数のキ
ーワード付与規則が格納されているキーワード付与規則
記憶手段と、前記解析結果記憶手段に格納された単語の
表記および属性値を一組ずつ取り出し、該取り出した単
語の表記および属性値から、前記付与処理駆動条件記憶
手段に格納されている付与処理駆動条件を検出して、該
検出した付与処理駆動条件を満たす単語の並びである付
与処理駆動表記を検出するとともに、前記検出した付与
処理駆動条件に対応するキーワード付与規則を前記キー
ワード付与規則記憶手段から取り出す付与処理駆動表記
検出手段と、前記解析結果記憶手段に格納された単語の
表記および属性値を参照して、前記付与処理駆動表記検
出手段で検出された付与処理駆動表記と該付与処理駆動
表記の前後の単語の並びが、前記キーワード付与規則記
憶手段に格納されている前記複数のキーワード付与規則
のいずれかに適合するか否かを判定し、適合する場合に
は、適合したキーワード付与規則に従ってキーワードを
付与するキーワード付与処理手段と、該キーワード付与
処理手段から送られてくる前記付与されたキーワードを
外部に出力するキーワード出力手段とを備えたことを特
徴とする。
【0017】
【作用】本発明のキーワード付与装置では、複数の付与
処理駆動条件をキーワード付与規則IDと対応づけて付
与処理駆動条件記憶手段に格納しておくとともに、キー
ワード付与処理の動作を規定した複数のキーワード付与
規則をキーワード付与規則記憶手段に格納しておき、付
与処理駆動表記検出手段で、解析結果記憶手段に格納さ
れた単語の表記および属性値を一組ずつ取り出し、この
取り出した単語の表記および属性値から、付与処理駆動
条件記憶手段に格納されている付与処理駆動条件を検出
して、この検出した付与処理駆動条件を満たす単語の並
びである付与処理駆動表記を検出するとともに、この検
出した付与処理駆動条件に対応するキーワード付与規則
をキーワード付与規則記憶手段から取り出したのち、キ
ーワード付与処理手段で、解析結果記憶手段に格納され
た単語の表記および属性値を参照して、付与処理駆動表
記検出手段で検出された付与処理駆動表記とこの付与処
理駆動表記の前後の単語の並びが、キーワード付与規則
記憶手段に格納されている複数のキーワード付与規則の
いずれかに適合するか否かを判定し、適合する場合に
は、適合したキーワード付与規則に従ってキーワードを
付与することにより、少数の記述で多様なキーワードの
付与が可能となり、また、キーワードとなる表記または
表記の組み合わせを登録しておいてキーワードを付与す
る方式におけるキーワード表記およびパターンなどの登
録に伴う作業量の削減が図れ、さらに、新たなキーワー
ドを抽出することと文章中に現れない表記をキーワード
として生成して付与することとができる。
【0018】
【実施例】以下、本発明の実施例について、図面を参照
して説明する。
【0019】図1は、本発明のキーワード付与装置の一
実施例の構成を示すブロック図である。
【0020】キーワード付与装置10は、文入力部11
と、解析用情報記憶部12と、文解析部13と、解析結
果記憶部14と、付与処理駆動条件記憶部15と、キー
ワード付与規則記憶部16と、付与処理駆動表記検出部
17と、キーワード付与処理部18と、キーワード出力
部19とから構成されている。キーワード付与装置10
の各構成要素について、以下に、詳細に説明する。
【0021】(1)文入力部11 文入力部11は、キーワード付与の対象となる一文の文
章(以下、「対象文章」と称する。)を入力するととも
に、入力された対象文章を文解析部13に転送するもの
である。
【0022】(2)解析用情報記憶部12 解析用情報記憶部12は、複数個の単語の表記と単語ご
との属性値とが網羅的に格納されているものである。す
なわち、図2にその一部を示すように、解析用情報記憶
部12には、たとえば句読点や人名などの単語の表記が
「表記」の欄に格納されており、各単語の属性値とし
て、たとえば「記号」や「アルファベット」などの単語
の文字種が「文字種」の欄に格納されており、たとえば
「句点」や「固有名詞」などの単語の品詞をコード化し
た品詞コードが「品詞コード」の欄に格納されており、
たとえば「病気類」や「人間 姓」などの単語の意味属
性が「意味属性」の欄に格納されている。なお、各単語
の文字種は必ずしも属性値として格納されている必要は
なく、文字種が必要になった時点でその単語を構成して
いる文字を調べて、その単語の文字種を求めてもよい。
【0023】(3)文解析部13 文解析部13は、文入力部11から送られてくる対象文
章を単語単位に分割し、分割した単語の表記に基づいて
解析用情報記憶部12をアクセスして、その単語の属性
値(文字種,品詞コードおよび意味属性)を分割した単
語の表記ごとに付与するものである。
【0024】(4)解析結果記憶部14 解析結果記憶部14は、文解析部13で得られた単語の
表記と、その単語の属性値(文字種,品詞コードおよび
意味属性)と、その単語の対象文章における出現順序と
が、単語ごとに格納されるものである。すなわち、図3
に示すように、たとえば、文入力部11から文解析部1
3に入力されてきた対象文章が『その会には、佐藤AB
C社長と平井発明団体会長と小林XXX所長が出席し
た。』という文章であった場合には、解析結果記憶部1
4には、各単語の対象文章における出現順序が通し番号
で「単語位置」の欄に格納され、たとえば『その』や
『会』などの文解析部13で得られた各単語の表記が
「表記」の欄に格納され、各単語の属性値として、たと
えば「ひらがな」や「漢字」などの各単語の文字種が
「文字種」の欄に格納され、たとえば「4200」(連体詞
を示す品詞コード)や「1100」(一般名詞を示す品詞コ
ード)などの各単語の品詞コードが「品詞コード」の欄
に格納され、たとえば「会 集会」などの各単語の意味
属性が「意味属性」の欄に格納される。
【0025】(5)付与処理駆動条件記憶部15 付与処理駆動条件記憶部15は、複数の「付与処理駆動
条件」が「キーワード付与規則ID」と対応づけられて
格納されているものである。ここで、「付与処理駆動条
件」は、キーワード付与処理部18を起動する単語の並
びである付与処理駆動表記の条件を記述するものであ
る。なお、「付与処理駆動条件」の記述中で規定される
単語の並びである付与処理駆動表記において各単語の満
たす必要がある条件は、単語の「表記」,「文字種」,
「品詞コード」および「意味属性」のいずれかまたはそ
れらの組み合わせで記述される。また、「付与処理駆動
条件」を満たすためには、各単語が「付与処理駆動条
件」中の属性値を満たすだけではなく、対象文章におけ
る単語の並びが「付与処理駆動条件」中の並びと同じで
なければならない。「キーワード付与規則ID」は、
「付与処理駆動条件」を満たしたときに使用するキーワ
ード付与規則を示すIDである。
【0026】具体的には、付与処理駆動条件記憶部15
には、図4に示すように、通し番号で表わされる条件I
Dごとに、「付与処理駆動条件」が複数の単語条件の欄
(「第1単語条件」の欄,「第2単語条件」の欄および
「第3単語条件」の欄など)にそれぞれ格納されてお
り、また、「キーワード付与規則ID」を示す「規則
1」,「規則2」および「規則3」などが「駆動規則I
D」の欄に格納されている。
【0027】(6)キーワード付与規則記憶部16 キーワード付与規則記憶部16は、キーワード付与処理
の動作を規定した複数の「キーワード付与規則」が格納
されているものである。ここで、「キーワード付与規
則」は、図5に一例を示すように、条件部とテンプレー
ト部との2つの部分から構成されている。条件部は、そ
のキーワード付与規則が適用可能である条件を規定して
おり、対象文章において、前述した付与処理駆動表記の
前方の単語の並びを規定した前方条件部と、この付与処
理駆動表記の後方の単語の並びを規定した後方条件部と
から構成されている。なお、前方条件部は前方条件と前
方判定終了条件とから構成されており、後方条件部は後
方条件と後方判定終了条件とから構成されている。ま
た、前方条件,前方判定終了条件,後方条件および後方
判定終了条件はいずれも、単語がもつ必要のある属性値
を使用して記述されている。
【0028】テンプレート部には、規則適用時に付与す
るキーワードの生成規則であるテンプレートが記述され
ている。各テンプレート中では、付与するキーワードの
原形は、「表記」と「付与処理駆動表記ポインタ(*TRRI
GER)」と「前方判定終了表記ポインタ(*PRESTOPEXP)」
と「前方表記ポインタ(*PREEXP)」と「後方判定終了表
記ポインタ(*POSTSTOPEXP)」と「後方表記ポインタ(*PO
STEXP)」とを組み合わせて記述されている。なお、「付
与処理駆動表記ポインタ(*TRRIGER)」は付与処理駆動表
記を示し、「前方判定終了表記ポインタ(*PRESTOPEX
P)」は前方判定終了条件を充足した表記を示し、「前方
表記ポインタ(*PREEXP)」は前方判定条件を充足した表
記を示し、「後方判定終了表記ポインタ(*POSTSTOPEX
P)」は後方判定終了条件を充足した表記を示し、「後方
表記ポインタ(*POSTEXP)」は後方判定条件を充足した表
記を示している。また、これらの各ポインタは、テンプ
レート使用時に、各ポインタが示す「表記」で置き換え
られる。
【0029】(7)付与処理駆動表記検出部17 付与処理駆動表記検出部17は、解析結果記憶部14に
格納された単語の表記とその単語の属性値(文字種,品
詞コードおよび意味属性)とを一組ずつ取り出し、取り
出した単語の表記およびその単語の属性値から、付与処
理駆動条件記憶部15に格納されている付与処理駆動条
件を検出して、検出した付与処理駆動条件を満たす単語
の並びである付与処理駆動表記を検出するとともに、検
出した付与処理駆動条件に対応するキーワード付与規則
をキーワード付与規則記憶部16から取り出すものであ
る。
【0030】すなわち、付与処理駆動表記検出部17で
は、図6のフローチャートに示すように、単語の表記と
その単語の属性値(文字種,品詞コードおよび意味属
性)とが解析結果記憶部14から一組ずつ取り出された
のち(ステップS11)、取り出された単語の属性値
が、付与処理駆動条件記憶部15に格納されている各付
与処理駆動条件のうちの第1単語条件(図4参照)と照
合される(ステップS12)。このとき、取り出された
単語の属性値がいずれかの第1単語条件を充足する場合
には、対象文章の第1単語条件を充足した単語に続く各
単語が、この第1単語条件を含む付与処理駆動条件中の
対応する順序関係の条件と照合される(ステップS1
3,S14)。各単語がこの付与処理駆動条件のすべて
の条件を充足する場合には、この付与処理駆動条件に対
応して付与処理駆動条件記憶部15に格納されている駆
動規則ID(図4参照)が、付与処理駆動条件記憶部1
5から付与処理駆動表記検出部17へ取り出される(ス
テップS15,S16)。これにより、キーワード付与
処理部18を起動する単語の並びである付与処理駆動表
記が、付与処理駆動表記検出部17で検出される。続い
て、キーワード付与処理部18が付与処理駆動表記検出
部17により起動されたのち、検出された付与処理駆動
表記と取り出された駆動規則IDとが、付与処理駆動表
記検出部17からキーワード付与処理部18へ出力され
る(ステップS17)。
【0031】なお、ステップS12における照合で、取
り出された単語の属性値がいずれの第1単語条件も充足
しない場合、および、ステップS14における照合で、
各単語がすべての条件を充足しない場合には、付与処理
駆動表記検出部17における動作は終了される(ステッ
プS13,S15)。
【0032】(8)キーワード付与処理部18 キーワード付与処理部18は、解析結果記憶部14に格
納された単語の表記とその単語の属性値(文字種,品詞
コードおよび意味属性)とを参照して、付与処理駆動表
記検出部17で検出された付与処理駆動表記とこの付与
処理駆動表記の前後の単語の並びが、キーワード付与規
則記憶部16に格納されている複数の「キーワード付与
規則」のいずれかに適合するか否かを判定し、適合する
場合には、適合した「キーワード付与規則」に従ってキ
ーワードを付与するものである。なお、キーワード付与
処理部18は、前方表記が格納される前方表記バッファ
と、前方判定終了表記が格納される前方判定終了表記バ
ッファと、後方表記が格納される後方表記バッファと、
後方判定終了表記が格納される後方判定終了表記バッフ
ァとを有する。
【0033】キーワード付与処理部18における処理
は、以下に示すキーワード付与規則前方条件部充足判定
処理とキーワード付与規則後方条件部充足判定処理との
2つの処理からなる。
【0034】(a)キーワード付与規則前方条件部充足
判定処理 キーワード付与処理部18におけるキーワード付与規則
前方条件部充足判定処理では、図7乃至図9のフローチ
ャートにそれぞれ示すように、解析結果記憶部14に格
納された各単語の表記のうち、付与処理駆動表記検出部
17で検出された付与処理駆動表記の直前の単語の表記
が判定対象語とされるとともに、前方表記バッファおよ
び前方判定終了表記バッファがそれぞれ、空文字列で初
期化される(図7のステップS21)。続いて、前方判
定終了条件の記述があるか否かの判定が行われ(ステッ
プS22)、前方判定終了条件の記述がある場合には、
判定対象語の属性値が前方判定終了条件を充足するか否
かの判定が行われる(ステップS23)。判定対象語の
属性値が前方判定終了条件を充足する場合には、前方判
定終了表記バッファに格納されている空文字列が判定対
象語とされることにより、前方判定終了表記バッファの
内容が更新される(図9のステップS24)。
【0035】一方、ステップS23において判定対象語
の属性値が前方判定終了条件を充足しない場合には、判
定対象語が文頭語か否かの判定が行われ(ステップS2
5)、判定対象語が文頭語でない場合には、前方条件の
記述があるか否かの判定が行われる(ステップS2
6)。前方条件の記述がある場合には、判定対象語の属
性値が前方条件を充足するか否かの判定が行われる(ス
テップS27)。ステップS26において前方条件の記
述がない場合およびステップS27において判定対象語
の属性値が前方条件を充足する場合には、前方表記バッ
ファに格納されている表記の前方に判定対象語が結合さ
れることにより、前方表記バッファの内容が更新された
のち(ステップS28)、解析結果記憶部14に格納さ
れた各単語の表記のうちの判定対象語の直前の単語の表
記が新たな判定対象語とされて、ステップS23へ戻る
(ステップS29)。
【0036】また、ステップS22において前方判定終
了条件の記述がない場合には、前方条件の記述があるか
否かの判定が行われる(図8のステップS30)。前方
条件の記述がある場合には、判定対象語の属性値が前方
条件を充足するか否かの判定が行われる(ステップS3
1)。判定対象語の属性値が前方条件を充足する場合に
は、前方表記バッファに格納されている表記の前方に判
定対象語が結合されることにより、前方表記バッファの
内容が更新される(ステップS32)。続いて、判定対
象語が文頭語か否かの判定が行われ(ステップS3
3)、判定対象語が文頭語でない場合には、解析結果記
憶部14に格納された各単語の表記のうちの判定対象語
の直前の単語の表記が新たな判定対象語とされたのち、
ステップS31へ戻る(ステップS34)。一方、ステ
ップS31において、判定対象語が前方条件を充足しな
い場合には、前方表記バッファの内容が空文字列か否か
の判定が行われる(図9のステップS35)。
【0037】さらに、キーワード付与規則前方条件部充
足判定処理における前方条件部を充足したか否かの判定
は、次のようにして行われる。
【0038】図9のステップS24において前方判定終
了表記バッファの内容が更新された場合,図8のステッ
プS30において前方条件の記述がない場合,図8のス
テップS33において判定対象語が文頭語である場合お
よび図9のステップS35において前方表記バッファの
内容が空文字列でない場合には、前方条件部を充足した
と判定され、前方表記バッファに格納されている表記が
新たな前方表記とされるとともに、前方判定終了表記バ
ッファに格納されている表記が新たな前方判定終了表記
とされる(図9のステップS40)。一方、図7のステ
ップS25において判定対象語が文頭語である場合,図
7のステップS27において判定対象語の属性値が前方
条件を充足しない場合,図8のステップS31において
判定対象語の属性値が前方条件を充足しない場合および
図9のステップS35において前方表記バッファの内容
が空文字列である場合には、前方条件部を充足しないと
判定される(図9のステップS41)。
【0039】(b)キーワード付与規則後方条件部充足
判定処理 キーワード付与処理部18におけるキーワード付与規則
後方条件部充足判定処理では、図10乃至図12のフロ
ーチャートにそれぞれ示すように、解析結果記憶部14
に格納された各単語の表記のうち、付与処理駆動表記検
出部17で検出された付与処理駆動表記の直後の単語の
表記が判定対象語とされるとともに、後方表記バッファ
および後方判定終了表記バッファがそれぞれ、空文字列
で初期化される(ステップS51)。続いて、後方判定
終了条件の記述があるか否かの判定が行われ(ステップ
S52)、後方判定終了条件の記述がある場合には、判
定対象語の属性値が後方判定終了条件を充足するか否か
の判定が行われる(ステップS53)。判定対象語の属
性値が後方判定終了条件を充足する場合には、後方判定
終了表記バッファに格納されている空文字列が判定対象
語とされることにより、後方判定終了表記バッファの内
容が更新される(図12のステップS54)。
【0040】一方、ステップS53において判定対象語
の属性値が後方判定終了条件を充足しない場合には、判
定対象語が文末語か否かの判定が行われ(ステップS5
5)、判定対象語が文末語でない場合には、後方条件の
記述があるか否かの判定が行われる(ステップS5
6)。後方条件の記述がある場合には、判定対象語の属
性値が後方条件を充足するか否かの判定が行われる(ス
テップS57)。ステップS56において後方条件の記
述がない場合およびステップS57において判定対象語
の属性値が後方条件を充足する場合には、後方表記バッ
ファに格納されている表記の後方に判定対象語が結合さ
れることにより、後方表記バッファの内容が更新された
のち(ステップS58)、解析結果記憶部14に格納さ
れた各単語の表記のうちの判定対象語の直後の単語の表
記が新たな判定対象語とされて、ステップS53へ戻る
(ステップS59)。
【0041】また、ステップS52において後方判定終
了条件の記述がない場合には、後方条件の記述があるか
否かの判定が行われる(図11のステップS60)。後
方条件の記述がある場合には、判定対象語の属性値が後
方条件を充足するか否かの判定が行われる(ステップS
61)。判定対象語の属性値が後方条件を充足する場合
には、後方表記バッファに格納されている表記の後方に
判定対象語が結合されることにより、後方表記バッファ
の内容が更新される(ステップS62)。続いて、判定
対象語が文末語か否かの判定が行われ(ステップS6
3)、判定対象語が文末語でない場合には、解析結果記
憶部14に格納された各単語の表記のうちの判定対象語
の直後の単語の表記が新たな判定対象語とされたのち、
ステップS36へ戻る(ステップS64)。一方、ステ
ップS61において、判定対象語が後方条件を充足しな
い場合には、後方表記バッファの内容が空文字列か否か
の判定が行われる(図12のステップS65)。
【0042】さらに、キーワード付与規則後方条件部充
足判定処理における後方条件部を充足したか否かの判定
は、次のようにして行われる。
【0043】図12のステップS54において後方判定
終了表記バッファの内容が更新された場合,図11のス
テップS60において後方条件の記述がない場合,図1
1のステップS63において判定対象語が文末語である
場合および図12のステップS65において後方表記バ
ッファの内容が空文字列でない場合には、後方条件部を
充足したと判定され、後方表記バッファに格納されてい
る表記が新たな後方表記とされるとともに、後方判定終
了表記バッファに格納されている表記が新たな後方判定
終了表記とされる(図12のステップS70)。一方、
図10のステップS55において判定対象語が文末語で
ある場合,図10のステップS57において判定対象語
の属性値が後方条件を充足しない場合,図11のステッ
プS61において判定対象語の属性値が後方条件を充足
しない場合および図12のステップS65において後方
表記バッファの内容が空文字列である場合には、後方条
件部を充足しないと判定される(図12のステップS7
1)。
【0044】(9)キーワード出力部19 キーワード出力部19は、キーワード付与処理部18か
ら送られてくる付与されたキーワードを外部に出力す
る。
【0045】次に、キーワード付与装置10におけるキ
ーワード付与動作の具体例について説明する。なお、図
1に示した付与処理駆動条件記憶部15に格納されてい
る内容およびキーワード付与規則記憶部16に記憶され
ている内容はそれぞれ、図4および図5に示したものと
するとともに、キーワード付与の対象となる文章(対象
文章)は、以下に示す4つのものとする。
【0046】(1)キーワード付与装置10が「登録数
が少なくて済む」という利点を有することを示すための
文章の一例として、『その会には、佐藤ABC社長と平
井発明団体会長と小林XXX所長が出席した。』という
文章 (2)キーワード付与装置10が「キーワードを付与し
分けることができる」という利点を有することを示すた
めの文章の一例として、『ビル・クリトン大統領とエリ
ツン・ロシア大統領が会談した。』という文章 (3)キーワード付与装置10が「文中での表記を書き
換えたのちキーワードとするとともに文中にない語をキ
ーワードとすることができる」という利点を有すること
を示すための文章の一例として、『山田太郎横須賀大教
授が、所得税法違反で逮捕された。』という文章 (4)キーワード付与装置10が「表記そのものが登録
されていなくてもよい」という利点を有することを示す
ための文章の一例として、『AIDSの日にちなんでA
IDS110番が設置された。』という文章 まず、上記(1)の文章の場合について、説明する。
【0047】『その会には、佐藤ABC社長と平井発明
団体会長と小林XXX所長が出席した。』という文章が
文入力部11により入力されると、文入力部11から文
解析部13に転送される。文解析部13では、解析用情
報記憶部12の内容が参照されながら、文入力部11か
ら転送されてきた上記の文章が解析される。この解析結
果は、解析結果記憶部14に格納される。なお、このと
き解析結果記憶部14に格納される内容は、図3に示し
たものとなる。文解析部13における処理が終了する
と、付与処理駆動表記検出部17が起動される。
【0048】付与処理駆動条件検出部17では、解析結
果記憶部14に格納された解析結果が参照されながら、
その中から付与処理駆動条件記憶部15に格納されてい
る付与処理駆動条件を満たす付与処理駆動表記が検出さ
れる。この処理は、図6に示した付与処理駆動表記検出
処理のフローチャートに従って行われる。
【0049】まず、解析結果記憶部14に格納された単
語の表記とその単語の属性値とが解析結果記憶部14か
ら一組ずつ取り出されたのち(図6のステップS1
1)、取り出された単語の属性値が、図4に示した各第
1単語条件と照合される(図6のステップS12)。そ
の結果、この場合には、図4に“1”と“3”で示した
条件IDの第1単語条件がそれぞれ充足される。すなわ
ち、図4に“1”で示した条件IDの第1単語条件は、
単語が意味属性『長』および意味属性『管理職』の少な
くとも一方を属性値としてもつ必要があることを示して
おり、『その会には、佐藤ABC社長と平井発明団体会
長と小林XXX所長が出席した。』という文章中には、
この第1単語条件を満たす単語として、単語『社長』,
単語『会長』および単語『所長』の3つの単語が存在す
る(図3参照)。また、図4に“3”で示した条件ID
の第1単語条件は、単語が“1910”の品詞コード
(すなわち、固有名詞(姓)を示す品詞コード)を属性
値としてもつ必要があることを示しており、上記の文章
中には、この第1単語条件を満たす単語として、単語
『佐藤』,単語『平井』および単語『小林』の3つの単
語が存在する(図3参照)。
【0050】続いて、図4に“1”と“3”で示した条
件IDの第1単語条件を満たす単語である単語『社
長』,単語『会長』,単語『所長』,単語『佐藤』,単
語『平井』および単語『小林』の各単語と順序関係の条
件との照合を行うため(図6のステップS13,S1
4)、図4に“1”と“3”で示した条件IDの第2単
語条件と上述した各単語の直後に続く単語の属性値と
が、それぞれ照合される。すなわち、図4に“1”で示
した条件IDには第2単語条件の記述がないので、この
条件IDの第1単語条件を充足した単語『社長』,単語
『会長』および単語『所長』はいずれもこの第2単語条
件を充足したこととされる結果、表記『社長』,表記
『会長』および表記『所長』が付与処理駆動表記として
それぞれ検出される。一方、図4に“3”で示した条件
IDの第2単語条件は、単語が“1920”の品詞コー
ド(すなわち、固有名詞(名)を示す品詞コード)を属
性値としてもつ必要があることを示しているが、『その
会には、佐藤ABC社長と平井発明団体会長と小林XX
X所長が出席した。』という文章中の単語『佐藤』,単
語『平井』および単語『小林』の3つの単語の直後に、
固有名詞(名)を示す単語は存在しない。その結果、表
記『佐藤』,表記『平井』および表記『小林』はいずれ
も付与処理駆動表記として検出されない。
【0051】したがって、この場合には、表記『社
長』,表記『会長』および表記『所長』のみが付与処理
駆動表記として検出されるため、キーワード付与処理部
18が起動されたのち、図4に“1”で示した条件ID
に対応づけられている駆動規則IDの『規則1』が、検
出された付与処理駆動表記(表記『社長』,表記『会
長』および表記『所長』)とともに、付与処理駆動表記
検出部17からキーワード付与処理部18へ転送され
る。
【0052】キーワード付与処理部18では、付与処理
駆動表記検出部17から送られてきた駆動規則IDの
『規則1』に対応するキーワード付与規則が、キーワー
ド付与規則記憶部16から取り出される(図6のステッ
プS15〜S17)。ここで、図5に示したように、
『規則1』(“1”で示す規則ID)の条件部には、前
方判定終了条件として、“1910”の品詞コード(す
なわち、固有名詞(姓)を示す品詞コード)が記述され
ているが、前方条件,後方条件および後方判定終了条件
としては、何も記述されていない。
【0053】続いて、『その会には、佐藤ABC社長と
平井発明団体会長と小林XXX所長が出席した。』とい
う文章中の単語『社長』,単語『会長』および単語『所
長』の前後にある単語の並びが、『規則1』の条件部と
それぞれ照合される。この照合は、図7乃至図9に示し
たフローチャートおよび図10乃至図12に示したフロ
ーチャートに従って行われる。
【0054】最初に、『その会には、佐藤ABC社長と
平井発明団体会長と小林XXX所長が出席した。』とい
う文章中の単語『社長』の前にある単語の並びと『規則
1』の前方条件部(前方条件および前方終了判定条件)
との照合を行うため、まず、上記の文章中の単語『社
長』の直前の単語である単語『ABC』が判定対象語と
される(図7のステップS21)。続いて、『規則1』
には、図5に示したように、前方判定終了条件として、
“1910”の品詞コード(すなわち、固有名詞(姓)
を示す品詞コード)が記述されているため、判定対象語
とされた単語『ABC』の属性値とこの前方判定終了条
件とが照合される(図7のステップS22,S23)。
単語『ABC』の品詞コードは“1980”(すなわ
ち、固有名詞(組織名)を示す品詞コード)であるため
(図3参照)、“1910”の品詞コードをもつことと
いう前方判定終了条件は充足されず、また、単語『AB
C』は文頭語ではなく、かつ、図5に示したように『規
則1』には前方条件が記述されていないので、前方表記
バッファの内容が空文字列から表記『ABC』とされた
のち、上記の文章中の単語『ABC』の直前の単語であ
る単語『佐藤』が新たな判定対象語とされる(図7のス
テップS23〜S29)。
【0055】続いて、新たな判定対象語とされた単語
『佐藤』の属性値と前方判定終了条件とが照合される
が、単語『佐藤』の属性値の一つである品詞コードは
“1910”(すなわち、固有名詞(姓)を示す品詞コ
ード)であるため(図3参照)、“1910”の品詞コ
ードをもつことという前方判定終了条件が充足される。
その結果、前方判定終了表記バッファの内容が空文字列
から表記『佐藤』とされる(図7のステップS23,図
9のステップS24)。また、この時点で、『規則1』
の前方条件部が充足されたと判定される(図9のステッ
プS40)。
【0056】その後、『その会には、佐藤ABC社長と
平井発明団体会長と小林XXX所長が出席した。』とい
う文章中の単語『社長』の後ろにある単語の並びが『規
則1』の後方条件部(後方条件および後方終了判定条
件)と照合されるが、『規則1』の後方条件および後方
終了判定条件については、図5に示したように、何も記
述されていない。その結果、図10のステップS52,
図11のステップS60および図12のステップS70
より、『規則1』の後方条件部は充足されたと判定され
る。
【0057】したがって、付与処理駆動表記として検出
された表記『社長』について、『規則1』の前方条件部
および後方条件部がともに充足されたと判定される結
果、付与処理駆動表記として検出された表記『社長』に
関して『規則1』が適用可能であると判定され、テンプ
レートに従ったキーワードの付与が引き続き行われる。
なお、このとき、新たな前方判定終了表記は表記『佐
藤』とされ、新たな前方表記は『ABC』とされ、後方
表記および後方判定終了表記は空文字列のままとされて
いる。
【0058】『規則1』のテンプレートは、図5に示し
たように、前方判定終了表記および付与処理駆動表記を
結合してキーワードとして付与することを示す『前方判
定終了表記ポインタ(*PRESTOPEXP)+付与処理駆動表記
ポインタ(*TRRIGER)』と、前方表記をキーワードとして
付与することを示す『前方表記ポインタ(*PREEXP)』と
があるため、『その会には、佐藤ABC社長と平井発明
団体会長と小林XXX所長が出席した。』という文章に
は、新たな前方判定終了表記とされた表記『佐藤』およ
び付与処理駆動表記として検出された表記『社長』が結
合された表記『佐藤社長』と、新たな前方表記とされた
表記『ABC』とが、キーワードとして付与される。
【0059】次に、表記『会長』も付与処理駆動表記と
して検出されているため、『その会には、佐藤ABC社
長と平井発明団体会長と小林XXX所長が出席した。』
という文章中の単語『会長』の前後にある単語の並びと
『規則1』の前方条件部および後方条件部との照合が、
同様にして行われる。その結果、付与処理駆動表記とし
て検出された表記『会長』に関しても『規則1』は適用
可能と判定される。このとき、新たな前方判定終了表記
は表記『平井』とされ、新たな前方表記は表記『発明団
体』とされ、後方表記および後方判定終了表記は空文字
列のままとされているため、『その会には、佐藤ABC
社長と平井発明団体会長と小林XXX所長が出席し
た。』という文章には、表記『平井会長』および表記
『発明団体』が、キーワードとして、さらに付与され
る。
【0060】次に、表記『所長』も付与処理駆動表記と
して検出されているため、『その会には、佐藤ABC社
長と平井発明団体会長と小林XXX所長が出席した。』
という文章中の単語『所長』の前後にある単語の並びと
『規則1』の前方条件部および後方条件部との照合が、
同様にして行われる。その結果、付与処理駆動表記とし
て検出された表記『所長』に関しても『規則1』は適用
可能と判定される。このとき、新たな前方判定終了表記
は表記『小林』とされ、新たな前方表記は表記『XX
X』とされ、後方表記および後方判定終了表記は空文字
列のままとされているため、『その会には、佐藤ABC
社長と平井発明団体会長と小林XXX所長が出席し
た。』という文章には、表記『小林所長』および表記
『XXX』が、キーワードとして、さらに付与される。
【0061】以上の結果、『その会には、佐藤ABC社
長と平井発明団体会長と小林XXX所長が出席した。』
という文章には、表記『佐藤社長』,表記『ABC』,
表記『平井会長』,表記『発明団体』,表記『小林所
長』および表記『XXX』の6個のキーワードが、最終
的に付与される。したがって、本実施例のキーワード付
与装置10によれば、付与処理駆動条件やキーワード付
与規則の少数の登録数で、多様なキーワードを付与する
ことが可能となる。
【0062】上記(2)の文章の場合について、以下に
説明する。
【0063】『ビル・クリトン大統領とエリツン・ロシ
ア大統領が会談した。』という文章が文入力部11によ
り入力されると、文入力部11から文解析部13に転送
される。文解析部13では、解析用情報記憶部12の内
容が参照されながら、文入力部11から転送されてきた
上記の文章が解析される。この解析結果は、解析結果記
憶部14に格納される。このとき解析結果記憶部14に
格納される内容は、図13に示すものとなる。文解析部
13における処理が終了すると、付与処理駆動表記検出
部17が起動される。
【0064】付与処理駆動条件検出部17では、解析結
果記憶部14に格納された解析結果が参照されながら、
その中から付与処理駆動条件記憶部15に格納されてい
る付与処理駆動条件を満たす付与処理駆動表記が検出さ
れる。この処理は、図6に示した付与処理駆動表記検出
処理のフローチャートに従って行われる。
【0065】まず、解析結果記憶部14に格納された単
語の表記とその単語の属性値とが解析結果記憶部14か
ら一組ずつ取り出されたのち(図6のステップS1
1)、取り出された単語の属性値が、図4に示した各第
1単語条件と照合される(図6のステップS12)。そ
の結果、この場合には、図4に“2”と“3”で示した
条件IDの第1単語条件がそれぞれ充足される。すなわ
ち、図4に“2”で示した条件IDの第1単語条件は、
単語が表記『・』を属性値としてもつ必要があることを
示しており、『ビル・クリトン大統領とエリツン・ロシ
ア大統領が会談した。』という文章中には、この第1単
語条件を満たす単語として、第2単語位置の単語『・』
および第7単語位置の単語『・』の2つの単語が存在す
る。また、図4に“3”で示した条件IDの第1単語条
件は、単語が“1910”の品詞コード(すなわち、固
有名詞(姓)を示す品詞コード)を属性値としてもつ必
要があることを示しており、上記の文章中には、この条
件を満たす単語として、単語『クリトン』および単語
『エリツン』の2つの単語が存在する(図13参照)。
【0066】続いて、図4に“2”と“3”で示した条
件IDの第1単語条件を満たす単語である第2単語位置
の単語『・』,第7単語位置の単語『・』,単語『クリ
トン』および単語『エリツン』の各単語と順序関係の条
件との照合を行うため(図6のステップS13,S1
4)、図4に“2”と“3”で示した条件IDの第2単
語条件と上述した各単語の直後に続く単語の属性値と
が、それぞれ照合される。すなわち、図4に“2”で示
した条件IDには第2単語条件の記述がないので、この
条件IDの第1単語条件を充足した第2単語位置の単語
『・』および第7単語位置の単語『・』はいずれも、こ
の第2単語条件を充足したこととされる結果、2つの表
記『・』が付与処理駆動表記としてそれぞれ検出され
る。一方、図4に“3”で示した条件IDの第2単語条
件は、単語が“1920”の品詞コード(すなわち、固
有名詞(名)を示す品詞コード)を属性値としてもつ必
要があることを示しているが、『ビル・クリトン大統領
とエリツン・ロシア大統領が会談した。』という文章中
の単語『クリトン』および単語『エリツン』の2つの単
語の直後に、固有名詞(名)を示す単語は存在しない。
その結果、表記『クリトン』および表記『エリツン』は
ともに付与処理駆動表記として検出されない。
【0067】したがって、この場合には、2つの表記
『・』のみが付与処理駆動表記として検出されるため、
キーワード付与処理部18が起動されたのち、図4に
“2”で示した条件IDに対応づけられている駆動規則
IDの『規則2』および『規則6』が、検出された付与
処理駆動表記(2つの表記『・』)とともに、付与処理
駆動表記検出部17からキーワード付与処理部18へ転
送される。
【0068】キーワード付与処理部18では、まず、付
与処理駆動表記検出部17から送られてきた駆動規則I
Dの『規則2』に対応するキーワード付与規則が、キー
ワード付与規則記憶部16から取り出される(図6のス
テップS15〜S17)。ここで、図5に示したよう
に、『規則2』(“2”で示す規則ID)の条件部に
は、前方条件として、“1920”の品詞コード(すな
わち、固有名詞(名)を示す品詞コード)が記述されて
おり、後方条件として、“1910”の品詞コード(す
なわち、固有名詞(姓)を示す品詞コード)が記述され
ており、後方判定終了条件として、意味属性『長』が記
述されているが、前方判定終了条件としては、何も記述
されていない。
【0069】続いて、『ビル・クリトン大統領とエリツ
ン・ロシア大統領が会談した。』という文章中の2つの
単語『・』の前後にある単語の並びがそれぞれ、『規則
2』の条件部と照合される。この照合は、図7乃至図9
に示したフローチャートおよび図10乃至図12に示し
たフローチャートに従って行われる。
【0070】最初に、『ビル・クリトン大統領とエリツ
ン・ロシア大統領が会談した。』という文章中の第2単
語位置の単語『・』の前にある単語の並びと『規則2』
の前方条件部(前方条件および前方終了判定条件)との
照合を行うため、まず、上記の文章中の第2単語位置の
単語『・』の直前の単語である単語『ビル』が判定対象
語とされる(図7のステップS21)。『規則2』に
は、図5に示したように、前方判定終了条件として何も
記述されていないので、判定対象語とされた単語『ビ
ル』の属性値と『規則2』の前方条件である“192
0”の品詞コードとが照合される(図7のステップS2
2,図8のステップS30)。単語『ビル』の品詞コー
ドは“1920”であるため(図13参照)、“192
0”の品詞コードをもつことという前方条件が充足され
る。その結果、前方表記バッファの内容が空文字列から
表記『ビル』とされる(図8のステップS31,S3
2)。ここで、単語『ビル』は文頭語であるため、この
時点で、『規則2』の前方条件部は充足されたと判断さ
れる(図8のステップS33,図9のステップS4
0)。
【0071】続いて、『ビル・クリトン大統領とエリツ
ン・ロシア大統領が会談した。』という文章中の第2単
語位置の単語『・』の後ろにある単語の並びと『規則
2』の後方条件部(後方条件および後方終了判定条件)
との照合を行うため、まず、上記の文章中の第2単語位
置の単語『・』の直後の単語である単語『クリトン』が
判定対象語とされたのち、判定対象語とされた単語『ク
リトン』の属性値と後方判定終了条件である意味属性
『長』とが照合される(図10のステップS51,S5
2)。単語『クリトン』の属性値の一つである意味属性
は意味属性『人間』および意味属性『姓』であるため
(図13参照)、意味属性『長』をもつことという後方
判定終了条件が充足されず、また、単語『クリトン』は
文末語ではないため、判定対象語とされた単語『クリト
ン』の属性値と後方条件である“1910”の品詞コー
ドとが続いて照合される(図10のステップS52〜S
56)。単語『クリトン』の属性値の一つである品詞コ
ードは“1910”(すなわち、固有名詞(姓)を示す
品詞コード)であるため(図13参照)、“1910”
の品詞コードをもつことという後方条件が充足される。
その結果、後方表記バッファの内容が空文字列から表記
『クリトン』とされたのち、『ビル・クリトン大統領と
エリツン・ロシア大統領が会談した。』という文章中の
単語『クリトン』の直後の単語である単語『大統領』が
新たな判定対象語とされる(図10のステップS57〜
S59)。新たな判定対象語とされた単語『大統領』は
意味属性の一つとして意味属性『長』をもち(図13参
照)、意味属性『長』をもつこととという後方判定終了
条件を満たすため、後方判定終了表記バッファの内容が
空文字列から表記『大統領』とされる(図10のステッ
プS53,図12のステップS54)。また、この時点
で、『規則2』の後方条件部は充足されたと判定される
(図12のステップS70)。
【0072】したがって、付与処理駆動表記として検出
された最初の表記『・』について、『規則2』の前方条
件部および後方条件部はともに充足されたと判定される
結果、付与処理駆動表記として検出された最初の表記
『・』に関して『規則2』は適用可能であると判定さ
れ、テンプレートに従ったキーワードの付与が引き続き
行われる。なお、このとき、新たな前方表記は表記『ビ
ル』とされ、新たな後方表記は表記『クリトン』とさ
れ、新たな後方判定終了表記は表記『大統領』とされて
いるが、新たな前方判定終了表記は空文字列のままとさ
れている。
【0073】『規則2』のテンプレートは、図5に示し
たように、前方表記,付与処理駆動表記および後方表記
を結合してキーワードとして付与することを示す『前方
表記ポインタ(*PREEXP)+付与処理駆動表記ポインタ(*T
RRIGER)+後方表記ポインタ(*POSTEXP)』と、後方表記
および後方判定終了表記を結合してキーワードとして付
与することを示す『後方表記ポインタ(*POSTEXP)+後方
判定終了表記ポインタ(*POSTSTOPEXP)』とがあるため、
『ビル・クリトン大統領とエリツン・ロシア大統領が会
談した。』という文章には、新たな前方表記とされた表
記『ビル』,付与処理駆動表記として検出された表記
『・』および新たな後方表記とされた表記『クリトン』
が結合された表記『ビル・クリトン』と、新たな後方表
記とされた表記『クリトン』および新たな後方判定終了
表記とされた表記『大統領』が結合された表記『クリト
ン大統領』とが、キーワードとして付与される。
【0074】次に、二番目の表記『・』も付与処理駆動
表記として検出されているため、『ビル・クリトン大統
領とエリツン・ロシア大統領が会談した。』という文章
中の第7単語位置の単語『・』の前にある単語の並びと
『規則2』の前方条件部(前方条件および前方終了判定
条件)との照合を行うため、まず、上記の文章中の第7
単語位置の単語『・』の直前の単語である単語『エリツ
ン』が判定対象語とされる(図7のステップS21)。
ここで、『規則2』には、図5に示したように、前方判
定終了条件が記述されていないので、判定対象語とされ
た単語『エリツン』の属性値と前方条件である“192
0”の品詞コードとが照合される(図7のステップS2
2,図8のステップS30)。単語『エリツン』の品詞
コードは“1910”であるため(図13参照)、この
前方条件は充足されず、また、前方表記バッファの内容
も空文字列のままであるため、この時点で、『規則2』
の前方条件部は充足されないと判定される(図8のステ
ップS31,図9のステップS35,S41)。
【0075】したがって、処理駆動表記として検出され
た二番目の表記『・』に関して『規則2』は適用できな
いと判定される。
【0076】次に、駆動規則IDの『規則6』も付与処
理駆動表記検出部17からキーワード付与処理部18に
送られてきているので、キーワード付与処理部18で
は、付与処理駆動表記検出部17から入力された駆動規
則IDの『規則6』に対応するキーワード付与規則が、
キーワード付与規則記憶部16から取り出される。ここ
で、図5に示したように、『規則6』(“6”で示す規
則ID)の条件部には、前方条件として、“1910”
の品詞コード(すなわち、固有名詞(姓)を示す品詞コ
ード)が記述されており、後方条件として、意味属性
『独立国』,意味属性『行政機関』および意味属性『地
域』が記述されており、後方判定終了条件として、意味
属性『長』が記述されているが、前方判定終了条件とし
ては、何も記述されていない。
【0077】続いて、『ビル・クリトン大統領とエリツ
ン・ロシア大統領が会談した。』という文章中の第2単
語位置の単語『・』の前後にある単語の並びと第7単語
位置の単語『・』の前後にある単語の並びとがそれぞ
れ、同様にして、『規則6』の条件部と照合される。
【0078】最初に、上記の文章中の第2単語位置の単
語『・』の前にある単語の並びと『規則6』の前方条件
部(前方条件および前方終了判定条件)との照合を行う
ため、まず、上記文章中の第2単語位置の単語『・』の
直前の単語である単語『ビル』が判定対象語とされる
(図7のステップS21)。図5に示したように、『規
則6』の前方判定終了条件としては何も記述されておら
ず、また、単語『ビル』の品詞コードは“1920”で
あり(図13参照)、“1910”の品詞コードである
とする前方条件を充足せず、さらに、前方表記バッファ
の内容も空文字列のままであるため、この時点で、『規
則6』の前方条件部を充足しないと判定される(図7の
ステップS22,図8のステップS30,S31,図9
のステップS35,S41)。
【0079】その後、『ビル・クリトン大統領とエリツ
ン・ロシア大統領が会談した。』という文章中の第2単
語位置の単語『・』の後ろにある単語の並びと『規則
6』の後方条件部(後方条件および後方終了判定条件)
との照合を行うため、まず、上記文章中の第2単語位置
の単語『・』の直後の単語である単語『クリトン』が判
定対象語とされる(図10のステップS51)。単語
『クリトン』の意味属性は意味属性『人間』および意味
属性『姓』であり(図13参照)、意味属性『長』をも
つこととする後方判定終了条件は充足されず、また、単
語『クリトン』は文末語でもなく、さらに、意味属性
『独立国』,意味属性『行政機関』および意味属性『地
域』のいずれかをもつこととする後方条件も充足されな
い結果、この時点で、『規則6』の後方条件部を充足し
ないと判定される(図10のステップS52〜S57,
図12のステップS71)。
【0080】したがって、処理駆動表記として検出され
た最初の表記『・』に関して『規則6』は適用できない
と判定される。
【0081】次に、二番目の表記『・』も付与処理駆動
表記として検出されているため、『ビル・クリトン大統
領とエリツン・ロシア大統領が会談した。』という文章
中の第7単語位置の単語『・』の前にある単語の並びと
『規則6』の前方条件部(前方条件および前方終了判定
条件)との照合を行うため、まず、上記の文章中の第7
単語位置の単語『・』の直前の単語である単語『エリツ
ン』が判定対象語とされる(図7のステップS21)。
『規則6』の前方判定終了条件としては何も記述されて
おらず(図5参照)、また、単語『エリツン』の品詞コ
ードは“1910”であり(図13参照)、“191
0”の品詞コードであるとする前方条件を充足する結
果、前方表記バッファの内容が空文字列から表記『エリ
ツン』とされる(図7のステップS22,図8のステッ
プS30〜S32)。ここで、単語『エリツン』は文頭
語でないため、上記の文章中の単語『エリツン』の直前
の単語である単語『と』が新たな判定対象語とされる
(図8のステップS33,S34)。新たな判定対象語
とされた単語『と』の品詞コードは“7240”(すな
わち、格助詞を示す品詞コード)であるため(図13参
照)、“1910”の品詞コードであるとする前方条件
を充足しないが、この場合には、前方表記バッファの内
容が表記『エリツン』とされているため、この時点で、
『規則6』の前方条件部を充足したと判定される(図8
のステップS31,図9のステップS35,S40)。
【0082】その後、『ビル・クリトン大統領とエリツ
ン・ロシア大統領が会談した。』という文章中の第7単
語位置の単語『・』の後ろにある単語の並びと『規則
6』の後方条件部(後方条件および後方終了判定条件)
との照合を行うため、まず、上記の文章中の第7単語位
置の単語『・』の直後の単語である単語『ロシア』が判
定対象語とされる(図10のステップS51)。単語
『ロシア』の意味属性には、意味属性『長』はないため
(図13参照)、意味属性『長』をもつこととする後方
判定終了条件は充足されない。また、単語『ロシア』は
文末語ではないため、単語『ロシア』の属性値と前方条
件とが、引き続き照合される(図10のステップS52
〜S56)。単語『ロシア』は意味属性の一つとして意
味属性『独立国』をもつため(図13参照)、意味属性
『独立国』,意味属性『行政機関』および意味属性『地
域』のいずれかをもつこととする後方条件は充足され
る。その結果、後方表記バッファの内容が空文字列から
表記『ロシア』とされたのち(図10のステップS5
7,S58)、単語『ロシア』の直後の単語である単語
『大統領』が新たな判定対象語とされる(図10のステ
ップS59)。
【0083】新たな判定対象語とされた単語『大統領』
は、意味属性の一つとして意味属性『長』をもつため
(図13参照)、意味属性『長』をもつこととする後方
判定終了条件は充足される。その結果、後方判定終了バ
ッファの内容が空文字から表記『大統領』とされたの
ち、この時点で、『規則6』の後方条件部が充足された
と判定される(図10のステップS53,図12のステ
ップS54,S70)。
【0084】したがって、処理駆動表記として検出され
た二番目の表記『・』について、『規則6』の前方条件
および後方条件がともに充足されたと判定される結果、
処理駆動表記として検出された二番目の表記『・』に関
して『規則6』が適用可能であると判定され、テンプレ
ートに従ったキーワードの付与が引き続き行われる。こ
のとき、新たな前方判定終了表記は空文字列のままとさ
れ、新たな前方表記は表記『エリツン』とされ、新たな
後方表記は表記『ロシア』とされ、新たな後方判定終了
表記は表記『大統領』とされている。
【0085】『規則6』のテンプレートは、図5に示し
たように、前方表記および後方判定終了表記を結合して
キーワードとして付与することを示す『前方表記ポイン
タ(*PREEXP)+後方判定終了表記ポインタ(*POSTSTOPEX
P)』と、後方表記をキーワードとして付与することを示
す『後方表記ポインタ(*POSTEXP)』とがあるため、『ビ
ル・クリトン大統領とエリツン・ロシア大統領が会談し
た。』という文章には、新たな前方表記とされた表記
『エリツン』および新たな後方判定終了表記とされた表
記『大統領』が結合された表記『エリツン大統領』と、
新たな後方表記とされた表記『ロシア』とが、キーワー
ドとしてさらに付与される。
【0086】以上の結果、『ビル・クリトン大統領とエ
リツン・ロシア大統領が会談した。』という文章には、
表記『ビル・クリトン』,表記『クリントン大統領』,
表記『エリツン大統領』および表記『ロシア』の4個の
キーワードが、最終的に付与される。したがって、カタ
カナおよび数字のような文字の種類を用いてパターンを
登録しておくことによってキーワードを付与する従来の
キーワード付与装置では、上記のような『ビル・クリト
ン』と『エリツン・ロシア』のような表記をキーワード
として付与し分けることが不可能であるが、本実施例の
キーワード付与装置10によれば、単語の属性値を使用
することによって表記を適切に分割してキーワードとし
て付与することが可能になる。
【0087】上記(3)の文章の場合について、以下に
説明する。
【0088】『山田太郎横須賀大教授が、所得税法違反
で逮捕された。』という文章が文入力部11により入力
されると、文入力部11から文解析部13に転送され
る。文解析部13では、解析用情報記憶部12の内容が
参照されながら、文入力部11から転送されてきた上記
の文章が解析される。この解析結果は、解析結果記憶部
14に格納される。なお、このとき解析結果記憶部14
に格納される内容は、図14に示すものとなる。文解析
部13における処理が終了すると、付与処理駆動表記検
出部17が起動される。
【0089】付与処理駆動表記検出部17では、解析結
果記憶部14に格納された解析結果が参照されながら、
その中から付与処理駆動条件記憶部15に格納されてい
る付与処理駆動条件を満たす付与処理駆動表記が検出さ
れる。この処理は、図6に示した付与処理駆動表記検出
処理のフローチャートに従って行われる。
【0090】まず、解析結果記憶部14に格納された単
語の表記とその単語の属性値とが解析結果記憶部14か
ら一組ずつ取り出されたのち(図6のステップS1
1)、取り出された単語の属性値が、図4に示した各第
1単語条件と照合される(図6のステップS12)。そ
の結果、この場合には、図4に“3”と“4”で示した
条件IDの第1単語条件がそれぞれ充足される。すなわ
ち、図4に“3”で示した条件IDの第1単語条件は、
単語が“1910”の品詞コード(すなわち、固有名詞
(姓)を示す品詞コード)を属性値としてもつ必要があ
ることを示しており、『山田太郎横須賀大教授が、所得
税法違反で逮捕された。』という文章中には、この第1
単語条件を満たす単語『山田』が存在する。また、図4
に“4”で示した条件IDの第1単語条件は、単語が表
記『法』を属性値としてもつ必要があることを示してお
り、『山田太郎横須賀大教授が、所得税法違反で逮捕さ
れた。』という文章中には、この第1単語条件を満たす
単語『法』が存在する。
【0091】続いて、図4に“3”と“4”で示した条
件IDの第1単語条件を満たす単語である単語『山田』
および単語『法』の各単語と順序関係の条件との照合を
行うため(図6のステップS13,S14)、図4に
“3”と“4”で示した条件IDの第2単語条件と上述
した各単語の直後に続く単語の属性値とがそれぞれ照合
される。すなわち、図4に“3”で示した条件IDの第
2単語条件は、“1920”の品詞コード(すなわち、
固有名詞(名)を示す品詞コード)を属性値としてもつ
必要があることを示しているが、上記の文章中の単語
『山田』の直後に、“1920”の品詞コードを属性値
としてもつ単語『太郎』が存在する(図14参照)。ま
た、図4に“4”で示した条件IDの第2単語条件は、
表記『違反』を属性値としてもつ必要があることを示し
ているが、上記の文章中の単語『法』の直後に、表記
『違反』をもつ単語『違反』が存在する(図14参
照)。その結果、表記『山田太郎』と表記『法違反』と
が、付与処理駆動表記としてそれぞれ検出される。
【0092】続いて、キーワード付与処理部18が起動
され、図4に“3”および“4”で示した条件IDとそ
れぞれ対応づけられている駆動規則IDの『規則3』お
よび『規則4』が、検出された付与処理駆動表記(表記
『山田太郎』および表記『法違反』)とともに、付与処
理駆動表記検出部17からキーワード付与処理部18に
転送される。キーワード付与処理部18では、まず、付
与処理駆動表記検出部17から送られてきた『規則3』
に対応するキーワード付与規則が、キーワード付与規則
記憶部16から取り出される(図6のステップS15〜
S17)。ここで、図5に示したように、『規則3』の
条件部は、前方判定終了条件,前方条件および後方条件
については、何も記述されておらず、後方判定終了条件
については、意味属性『長』および意味属性『職員』が
記述されている。
【0093】続いて、『山田太郎横須賀大教授が、所得
税法違反で逮捕された。』という文章中の単語『山田太
郎』および単語『法違反』の前後の単語の並びがそれぞ
れ、『規則3』の条件部と照合される。この照合は、図
7乃至図9に示したフローチャートおよび図10乃至図
12に示したフローチャートに従って行われる。
【0094】最初に、『山田太郎横須賀大教授が、所得
税法違反で逮捕された。』という文章中の単語『山田太
郎』の前の単語の並びと『規則3』の前方条件部(前方
条件および前方判定終了条件)との照合を行うが、『規
則3』には、前方判定終了条件および前方条件の記述が
ないので、『規則3』の前方条件部は充足されたと判定
される(図7のステップS22,図8のステップS3
0,図9のステップS40)。
【0095】その後、上記の文章中の単語『山田太郎』
の後ろの単語の並びと『規則3』の後方条件部(後方条
件および後方判定終了条件)との照合を行うため、ま
ず、上記の文章中の単語『山田太郎』の直後の単語であ
る単語『横須賀大』が判定対象語とされたのち、判定対
象語とされた単語『横須賀大』の属性値と後方判定終了
条件との照合が行われる(図10のステップS51,S
52)。単語『横須賀大』の意味属性には、『規則3』
の後方判定終了条件として記述されている意味属性
『長』および意味属性『職員』はなく(図14参照)、
また、単語『横須賀大』は文末語でもなく、さらに、
『規則3』には後方判定条件の記述がないため、後方表
記バッファの内容が空文字列から表記『横須賀大』とさ
れたのち、上記の文章中の単語『横須賀大』の直後の単
語である単語『教授』が新たな判定対象語とされる(図
10のステップS53〜S59)。
【0096】続いて、新たな判定対象語とされた単語
『教授』の属性値と後方判定終了条件との照合が行われ
る。単語『教授』は意味属性『職員』をもつため(図1
4参照)、意味属性『長』および意味属性『職員』の少
なくとも一方をもつこととする後方判定終了条件が充足
される。その結果、後方判定終了表記バッファの内容が
空文字列から表記『教授』とされる(図10のステップ
S52,図12のステップS54)。また、この時点
で、『規則3』の後方条件部が充足されたと判定される
(図12のステップS70)。
【0097】したがって、付与処理駆動表記として検出
された表記『山田太郎』について、『規則3』の前方条
件部および後方条件部がともに充足されたと判定される
結果、付与処理駆動表記として検出された表記『山田太
郎』に関して『規則3』は適用可能であると判定され、
テンプレートに従ったキーワードの付与が引き続き行わ
れる。なお、このとき、新たな前方判定終了表記および
新たな前方表記は空文字列のままとされ、新たな後方表
記は表記『横須賀大』とされ、新たな後方判定終了表記
は表記『教授』とされている。
【0098】『規則3』のテンプレートは、図5に示し
たように、付与処理駆動表記をキーワードとして付与す
ることを示す『付与処理駆動表記ポインタ(*TRRIGER)』
と、後方表記をキーワードとして付与することを示す
『後方表記ポインタ(*POSTEXP)』と、付与処理駆動表記
および後方判定終了表記を結合してキーワードとして付
与することを示す『付与処理駆動表記ポインタ(*TRRIGE
R)+後方判定終了表記ポインタ(*POSTSTOPEXP)』とであ
る。したがって、『山田太郎横須賀大教授が、所得税法
違反で逮捕された。』という文章には、付与処理駆動表
記として検出された表記『山田太郎』と、新たな後方表
記とされた表記『横須賀大』と、付与処理駆動表記とし
て検出された表記『山田太郎』および新たな後方判定終
了表記とされた表記『教授』が結合された表記『山田太
郎教授』とが、キーワードとして付与される。
【0099】次に、表記『法違反』も付与処理駆動表記
として検出されているため、『山田太郎横須賀大教授
が、所得税法違反で逮捕された。』という文章中の単語
『法違反』の前の単語の並びと『規則4』の前方条件部
(前方条件および前方判定終了条件)との照合を行うた
め、まず、上記の文章中の単語『法違反』の直前の単語
である単語『所得税』が判定対象語とされる(図7のス
テップS21)。ここで、図5に示すように、『規則
4』の条件部は、前方判定終了条件,後方条件および後
方判定終了条件については、何も記述されておらず、前
方条件については、“1100”の品詞コード(すなわ
ち、一般名詞を示す品詞コード)が記述されている。い
ま、判定対象語とされた単語『所得税』は“1100”
の品詞コードをもつため(図14参照)、前方条件が充
足される結果、前方表記バッファの内容が空文字列から
表記『所得税』とされる(図7のステップS22,図8
のステップS30〜S32)。また、単語『所得税』は
文頭語ではないため、上記の文章中の単語『所得税』の
直前の単語である単語『、』が新たな判定対象語とされ
たのち、新たな判定対象語とされた単語『、』の属性値
と前方条件との照合が行われる(図8のステップS3
3,S34)。いま、単語『、』は“0210”の品詞
コード(すなわち、読点を示す品詞コード)をもつため
(図14参照)、“1100”の品詞コードをもつこと
とする前方条件は充足されないが、この場合、前方表記
バッファの内容は表記『所得税』とされているため、こ
の時点で、『規則4』の前方条件部は充足されたと判定
される(図8のステップS31,図8のステップS3
5,S40)。
【0100】一方、『規則4』の後方判定終了条件およ
び後方条件はともに記述がないので、『規則4』の後方
条件部は充足されたと判定される(図10のステップS
52,図11のステップS60,図12のステップS7
0)。
【0101】したがって、付与処理駆動表記として検出
された『法違反』について前方条件部および後方条件部
はともに充足されたと判定される結果、付与処理駆動表
記として検出された『法違反』に関して『規則4』は適
用可能であると判定され、テンプレートに従ったキーワ
ードの付与が引き続き行われる。このとき、新たな前方
判定終了表記,新たな後方表記および新たな後方判定終
了表記はいずれも空文字列のままとされ、新たな前方表
記は判定対象語『所得税』とされている。
【0102】『規則4』のテンプレートは、図5に示し
たように、前方表記および表記『法』を結合してキーワ
ードとして付与することを示す『前方表記ポインタ(*PR
EEXP)+法』と、表記『法律違反』をキーワードとして
付与することを示す『法律違反』とである。したがっ
て、他の付与処理駆動表記『法違反』から、『山田太郎
横須賀大教授が、所得税法違反で逮捕された。』という
文章には、新たな前方表記『所得税』および表記『法』
が結合された表記『所得税法』と、表記『法律違反』と
が、キーワードとして付与される。
【0103】以上の結果、『山田太郎横須賀大教授が、
所得税法違反で逮捕された。』という文章には、表記
『山田太郎』,表記『横須賀大』,表記『山田太郎教
授』,表記『所得税法』および表記『法律違反』の5個
のキーワードが、最終的に付与される。したがって、本
実施例のキーワード付与装置10によれば、キーワード
付与対象文中にある表記を書き換えたのちキーワードと
して付与したり、文中にない表記をキーワードとして付
与することが可能になる。
【0104】上記(4)の文章の場合について、以下に
説明する。
【0105】『AIDSの日にちなんでAIDS110
番が設置された。』という文章が文入力部11により入
力されると、文入力部11から文解析部13に転送され
る。文解析部13では、解析用情報記憶部12の内容が
参照されながら、文入力部11から転送されてきた文章
が解析される。この解析結果は、解析結果記憶部14に
格納される。なお、このとき解析結果記憶部14に格納
される内容は、図15に示すものとなる。文解析部13
における処理が終了すると、付与処理駆動表記検出部1
7が起動される。
【0106】付与処理駆動表記検出部17では、解析結
果記憶部14に格納された解析結果が参照されながら、
その中から付与処理駆動条件記憶部15に格納されてい
る付与処理駆動条件を満たす付与処理駆動表記が検出さ
れる。この処理は、図6に示した付与処理駆動表記検出
処理のフローチャートに従って行われる。
【0107】まず、解析結果記憶部14に格納された単
語の表記とその単語の属性値とが解析結果記憶部14か
ら一組ずつ取り出されたのち(図6のステップS1
1)、取り出された単語の属性値が、図4に示した各第
1単語条件と照合される(図6のステップS12)。そ
の結果、この場合には、図4に“5”と“6”で示した
条件IDの第1単語条件がそれぞれ充足される。すなわ
ち、図4に“5”で示した条件IDの第1単語条件は、
単語が表記『の』を属性値としてもつ必要があることを
示しており、『AIDSの日にちなんでAIDS110
番が設置された。』という文章中には、この第1単語条
件を満たす単語『の』が存在する。また、図4に“6”
で示した条件IDの第1単語条件は、単語が表記『11
0』を属性値としてもつ必要があることを示しており、
上記の文章中には、この第1単語条件を満たす単語『1
10』が存在する。
【0108】続いて、図4に“5”と“6”で示した条
件IDの第1単語条件を満たす単語『の』および単語
『110』の各単語と順序関係の条件との照合を行うた
め(図6のステップS13,S14)、図4に“5”と
“6”で示した条件IDの第2単語条件と上述した各単
語の直後に続く単語の属性値とが、それぞれ照合され
る。すなわち、図4に“5”で示した条件IDの第2単
語条件は、単語が表記『日』を属性値としてもつ必要が
あることを示しているが、『AIDSの日にちなんでA
IDS110番が設置された。』という文章中の単語
『の』の直後に、この第2単語条件を満たす単語『日』
が存在する。その結果、表記『の日』が付与処理駆動表
記として検出される。また、図4に“6”で示した条件
IDの第2単語条件は、単語が表記『番』を属性値とし
てもつ必要があることを示しているが、上記の文章中の
単語『100』の直後に、この第2単語条件を満たす単
語『番』が存在する。その結果、表記『100番』も付
与処理駆動表記として検出される。
【0109】続いて、キーワード付与処理部18が起動
され、図4に“5”および“6”で示した条件IDとそ
れぞれ対応づけられている駆動規則IDの『規則5』お
よび『規則6』が、検出された付与処理駆動表記(表記
『の日』および表記『100番』)とともに、付与処理
駆動表記検出部17からキーワード付与処理部18に転
送される。キーワード付与処理部18では、まず、付与
処理駆動表記検出部17から送られてきた『規則5』に
対応するキーワード付与規則が、キーワード付与規則記
憶部16から取り出される(図6のステップS15〜S
17)。ここで、図5に示したように、『規則5』の条
件部には、前方判定終了条件,後方条件および後方判定
終了条件については、何も記述されておらず、前方条件
については、“1100”の品詞コード(すなわち、一
般名詞を示す品詞コード)が記述されている。
【0110】続いて、『AIDSの日にちなんでAID
S110番が設置された。』という文章中の単語『の
日』および単語『100番』の前後の単語の並びがそれ
ぞれ、『規則5』の条件部と照合される。この照合は、
図7乃至図9に示したフローチャートおよび図10乃至
図11に示したフローチャートに従って行われる。
【0111】最初に、『AIDSの日にちなんでAID
S110番が設置された。』という文章中の単語『の
日』の前の単語の並びと『規則5』の前方条件部(前方
条件および前方判定終了条件)との照合を行うため、ま
ず、上記の文章中の単語『の日』の直前の単語である単
語『AIDS』が判定対象語とされる(図7のステップ
S21)。『規則5』には、図5に示すように、前方条
件として、“1100”の品詞コード(すなわち、一般
名詞を示す品詞コード)が記述され、前方判定終了条
件,後方条件および後方判定終了条件としては、何の記
述もない。したがって、まず、判定対象語とされた単語
『AIDS』の属性値と前方条件とが照合される(図7
のステップS22,図8のステップS30)。このと
き、判定対象語『AIDS』の品詞コードは“110
0”であるため(図15参照)、“1100”の品詞コ
ードをもつことという『規則5』の前方条件が充足され
る結果、前方表記バッファの内容が空文字列から表記
『AIDS』とされる(図8のステップS31,S3
2)。ここで、『AIDSの日にちなんでAIDS11
0番が設置された。』という文章中の単語『の日』の直
前の単語である単語『AIDS』は文頭語であるため、
この時点で、『規則5』の前方条件部は充足されたと判
定される(図8のステップS33,図8のステップS4
0)。
【0112】続いて、上記の文章中の単語『の日』の後
ろの単語の並びと『規則5』の後方条件部(後方条件お
よび後方判定終了条件)との照合を行うため、まず、上
記の文章中の単語『の日』の直後の単語である単語
『に』が判定対象語とされる(図10のステップS5
1)。しかし、『規則5』には、後方判定終了条件およ
び後方条件はともに記述がないので、『規則5』の後方
条件部は充足されたと判定される(図10のステップS
52,図11のステップS60,図12のステップS7
0)。
【0113】したがって、付与処理駆動表記として検出
された表記『の日』について、『規則5』の前方条件部
および後方条件部がともに充足されたと判定される結
果、付与処理駆動表記として検出された表記『の日』に
関して『規則5』が適用可能であると判定され、テンプ
レートに従ったキーワードの付与が引き続き行われる。
なお、このとき、新たな前方判定終了表記,新たな後方
表記および新たな後方判定終了表記はいずれも空文字列
のままとされ、新たな前方表記は表記『AIDS』とさ
れている。
【0114】『規則5』のテンプレートは、図5に示し
たように、前方表記および付与処理駆動表記を結合して
キーワードとして付与することを示す『前方表記ポイン
タ(*PREEXP)+付与処理駆動表記ポインタ(*TRRIGER)』
である。したがって、『AIDSの日にちなんでAID
S110番が設置された。』という文章には、新たな前
方表記とされた表記『AIDS』および付与処理駆動表
記として検出された表記『の日』が結合された表記『A
IDSの日』が、キーワードとして付与される。
【0115】なお、詳細は省略するが、同様にして、付
与処理駆動表記として検出された『110番』から、
『AIDSの日にちなんでAIDS110番が設置され
た。』という文章には、表記『AIDS110番』が、
キーワードとしてさらに付与される。
【0116】以上の結果、『AIDSの日にちなんでA
IDS110番が設置された。』という文章には、表記
『AIDSの日』および表記『AIDS110番』の2
個のキーワードが、最終的に付与される。したがって、
本実施例のキーワード付与装置によれば、キーワードの
表記そのものをすべて登録しておく必要がなく、少数の
登録数で、多くの表記をキーワードとして付与できる。
また、新たに創出された言葉をキーワードとして付与す
ることが可能になる。
【0117】
【発明の効果】本発明は、上述のとおり構成されている
ので、次の効果を奏する。
【0118】キーワード付与装置の一機能として、キー
ワード抽出の対象文章が特定の条件の組み合わせを満た
すときに特定のキーワードを文章に付与する場合に、そ
の条件を単語の属性値の組み合わせとして登録し、さら
に付与するキーワードの表記を登録するのではなく、付
与するキーワードの生成規則を登録することによりキー
ワード付与を行うことにより、キーワードとなる表記列
あるいは表記の組み合わせの登録数を削減し、登録に伴
う作業量の削減に寄与し、さらに、新たにキーワードを
抽出することと文章中に現れない表記をキーワードとし
て生成,付与することとができる。
【図面の簡単な説明】
【図1】本発明のキーワード付与装置の一実施例の構成
を示すブロック図である。
【図2】図1に示した解析用情報記憶部に格納されてい
る単語および単語ごとの属性値の一例を示す図である。
【図3】図1に示した解析結果記憶部に格納された内容
の一例を示す図である。
【図4】図1に示した付与処理駆動条件記憶部に格納さ
れている内容の一例を示す図である。
【図5】図1に示したキーワード付与規則記憶部に格納
されている内容の一例を示す図である。
【図6】図1に示した付与処理駆動表記検出部における
処理を示すフローチャートである。
【図7】図1に示したキーワード付与処理部におけるキ
ーワード付与規則前方条件部充足判定処理を示すフロー
チャートである。
【図8】図1に示したキーワード付与処理部におけるキ
ーワード付与規則前方条件部充足判定処理を示すフロー
チャートである。
【図9】図1に示したキーワード付与処理部におけるキ
ーワード付与規則前方条件部充足判定処理を示すフロー
チャートである。
【図10】図1に示したキーワード付与処理部における
キーワード付与規則後方条件部充足判定処理を示すフロ
ーチャートである。
【図11】図1に示したキーワード付与処理部における
キーワード付与規則後方条件部充足判定処理を示すフロ
ーチャートである。
【図12】図1に示したキーワード付与処理部における
キーワード付与規則後方条件部充足判定処理を示すフロ
ーチャートである。
【図13】『ビル・クリトン大統領とエリツン・ロシア
大統領が会談した。』という文章に対する図1に示した
文解析部における解析結果を示す図である。
【図14】『山田太郎横須賀大教授が、所得税法違反で
逮捕された。』という文章に対する図1に示した文解析
部における解析結果を示す図である。
【図15】『AIDSの日にちなんでAIDS110番
が設置された。』という文章に対する図1に示した文解
析部における解析結果を示す図である。
【符号の説明】
10 キーワード付与装置 11 文入力部 12 解析用情報記憶部 13 文解析部 14 解析結果記憶部 15 付与処理駆動条件記憶部 16 キーワード付与規則記憶部 17 付与処理駆動表記検出部 18 キーワード付与処理部 19 キーワード出力部
フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 7315−5L G06F 15/20 550 F

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 文中の単語と単語の属性値の組み合わせ
    を使用して文にキーワードを付与するキーワード付与装
    置であって、 キーワード付与の対象となる対象文章を入力するための
    文入力手段と、 複数個の単語の表記と単語ごとの属性値とが網羅的に格
    納されている解析用情報記憶手段と、 前記文入力手段から送られてくる前記対象文章を単語単
    位に分割し、該分割した単語の表記に基づいて前記解析
    用情報記憶手段をアクセスして、該分割した単語の属性
    値を該分割した単語の表記ごとに付与する文解析手段
    と、 該文解析手段で得られた単語の表記,該得られた単語の
    属性値および該得られた単語の前記対象文章における出
    現順序が単語ごとに格納される解析結果記憶手段と、 複数の付与処理駆動条件がキーワード付与規則IDと対
    応づけられて格納されている付与処理駆動条件記憶手段
    と、 キーワード付与処理の動作を規定した複数のキーワード
    付与規則が格納されているキーワード付与規則記憶手段
    と、 前記解析結果記憶手段に格納された単語の表記および属
    性値を一組ずつ取り出し、該取り出した単語の表記およ
    び属性値から、前記付与処理駆動条件記憶手段に格納さ
    れている付与処理駆動条件を検出して、該検出した付与
    処理駆動条件を満たす単語の並びである付与処理駆動表
    記を検出するとともに、前記検出した付与処理駆動条件
    に対応するキーワード付与規則を前記キーワード付与規
    則記憶手段から取り出す付与処理駆動表記検出手段と、 前記解析結果記憶手段に格納された単語の表記および属
    性値を参照して、前記付与処理駆動表記検出手段で検出
    された付与処理駆動表記と該付与処理駆動表記の前後の
    単語の並びが、前記キーワード付与規則記憶手段に格納
    されている前記複数のキーワード付与規則のいずれかに
    適合するか否かを判定し、適合する場合には、適合した
    キーワード付与規則に従ってキーワードを付与するキー
    ワード付与処理手段と、 該キーワード付与処理手段から送られてくる前記付与さ
    れたキーワードを外部に出力するキーワード出力手段と
    を備えたことを特徴とするキーワード付与装置。
JP5143915A 1993-06-15 1993-06-15 キーワード付与装置 Pending JPH0721197A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5143915A JPH0721197A (ja) 1993-06-15 1993-06-15 キーワード付与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5143915A JPH0721197A (ja) 1993-06-15 1993-06-15 キーワード付与装置

Publications (1)

Publication Number Publication Date
JPH0721197A true JPH0721197A (ja) 1995-01-24

Family

ID=15350059

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5143915A Pending JPH0721197A (ja) 1993-06-15 1993-06-15 キーワード付与装置

Country Status (1)

Country Link
JP (1) JPH0721197A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09245059A (ja) * 1996-03-12 1997-09-19 Sharp Corp キーワード抽出方法、概念抽出方法、キーワード抽出装置、及び概念抽出装置
JP2000112969A (ja) * 1998-10-02 2000-04-21 Oki Electric Ind Co Ltd 情報抽出装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09245059A (ja) * 1996-03-12 1997-09-19 Sharp Corp キーワード抽出方法、概念抽出方法、キーワード抽出装置、及び概念抽出装置
JP2000112969A (ja) * 1998-10-02 2000-04-21 Oki Electric Ind Co Ltd 情報抽出装置

Similar Documents

Publication Publication Date Title
US8433709B2 (en) Modular system and method for managing chinese, japanese and korean linguistic data in electronic form
JP2783558B2 (ja) 要約生成方法および要約生成装置
US7630880B2 (en) Japanese virtual dictionary
JP2016186805A5 (ja)
JP3363501B2 (ja) テキスト検索装置
JPH0721197A (ja) キーワード付与装置
KR100452024B1 (ko) 자연어 질의 응답 검색 엔진 및 검색 방법
JP2001060194A (ja) 企画支援装置、企画支援方法および企画支援プログラムを格納したコンピュータ読取り可能な記録媒体
JP3343941B2 (ja) 例文検索システム
JPH0944521A (ja) インデックス作成装置および文書検索装置
JP3416918B2 (ja) キーワード自動抽出方法および装置
JP2002073656A (ja) 異表記正規化処理・異表記展開処理方法および該処理方法による文書検索方法、該処理装置および文書検索装置並びにプログラム記録媒体
JPH06309364A (ja) データベースシステムとデータベースシステムで行われるオブジェクトの蓄積方法とデータベースシステム装置
JPH0410052A (ja) 外国語電子辞書検索方法及び装置
List Day1: From Cognates to Correspondences
JPH03177972A (ja) データベースシステム
JPH0785040A (ja) 表記不統一検出方法およびかな漢字変換方法
JPH0486948A (ja) 分野別辞書を利用したカナ振りデータベースの作成方法
JPH06332934A (ja) 電子辞書引き装置
JPH08249341A (ja) 文書データベースの文書格納・検索装置
JPH07110816A (ja) 翻訳用辞書登録装置
JPH08314977A (ja) イメージ検索装置
Yindeemak Computer processing with Thai text: Keyword in context indexing
JPH0721212A (ja) 文書処理装置
JPS62160534A (ja) 文字列照合方式