JP2713354B2 - 話題抽出装置 - Google Patents

話題抽出装置

Info

Publication number
JP2713354B2
JP2713354B2 JP4096035A JP9603592A JP2713354B2 JP 2713354 B2 JP2713354 B2 JP 2713354B2 JP 4096035 A JP4096035 A JP 4096035A JP 9603592 A JP9603592 A JP 9603592A JP 2713354 B2 JP2713354 B2 JP 2713354B2
Authority
JP
Japan
Prior art keywords
sentence
topic
expression
theme
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP4096035A
Other languages
English (en)
Other versions
JPH05266072A (ja
Inventor
一男 住田
顕司 小野
哲朗 知野
輝彦 浮田
Original Assignee
工業技術院長
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 工業技術院長 filed Critical 工業技術院長
Priority to JP4096035A priority Critical patent/JP2713354B2/ja
Publication of JPH05266072A publication Critical patent/JPH05266072A/ja
Application granted granted Critical
Publication of JP2713354B2 publication Critical patent/JP2713354B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、自然言語で書かれた文
章から話題情報を抽出する話題抽出装置に関するもので
ある。
【0002】
【従来の技術】近年、計算機システムにより自然言語を
処理する研究が進められているが、この場合の処理は、
形態素解析や構文解析などの文単位にとどまらず、文章
全体を把握しなければ処理できないようになっている。
【0003】例えば、自然語で書かれた文章中から重要
な文を抽出して抄録を作成するようなシステムを考えた
場合、重要な文を決定するため、文章全体の構造を把握
する必要がある。この場合、シテムとしては、重要な文
を単に取り出すだけで十分でなく、例えば、文が一体何
について述べているかが、その文自体に明示されていな
いような場合は、その文が何について述べているか解析
できなければ、その文を取り出しても完結した情報を担
ったことにならない。
【0004】ここで、ある文が与えられた場合、その文
が何について述べているかという点で、その述べた対象
を話題と呼ぶ。そして、文中に話題が省略されている場
合には、その話題を文章中の他の文から補う必要があ
る。
【0005】ところで、話題は、言語的デバイスで明示
的に提示される。すなわち、副助詞‘は’を初めとする
提題マーカにより提示される句(提題表現と呼ぶ)が、
通常話題として採用される。論説などの文章では、この
ような提題表現により話題を提示し、その話題を推移さ
せることにより、論旨を展開していく構造を持ってい
る。
【0006】
【発明が解決しようとする課題】しかし、現実には、文
章中に提題を含まない文が存在することがあり、また、
提題マーカで提示されているにも関わらず話題としてふ
さわしくない提題表現が存在する文もあり、これらが原
因で文章中の各文に対して高精度に話題を抽出すること
ができない問題点があった。
【0007】本発明は、上記事情に鑑みてなされたもの
で、提題表現を含まない文や話題としてふさわしくない
提題表現が存在する文があっても、これら文より高精度
に話題を抽出することができる話題抽出装置を提供する
ことを目的とする。
【0008】
【課題を解決するための手段】本発明は、自然語で書か
れた文章について該文章を構成する各文について話題を
抽出する話題抽出装置において、前記各文についてあら
かじめ登録された提題表現であることを示す句に基づき
提題表現を抽出する提題表現抽出手段と、この提題表現
抽出手段で抽出された提題表現についてあらかじめ登録
された不適提題表現に基づき不適提題表現を排除する不
適提題表現排除手段と、前記提題表現抽出手段および不
適提題表現排除手段により判断された適切な提題表現を
含まない文について、あらかじめ登録されている文末の
表現と話題として抽出する要素を示す助詞との対応情報
に基づき話題を抽出する文タイプ話題抽出手段とにより
構成されている。
【0009】また、本発明は、文章を構成する各文につ
いてあらかじめ登録された提題表現であることを示す句
に基づき提題表現を抽出する提題表現抽出手段、この提
題表現抽出手段で抽出された提題表現についてあらかじ
め登録された不適提題表現に基づき不適提題表現を排除
する不適提題表現排除手段、前記提題表現抽出手段およ
び不適提題表現排除手段により判断された適切な提題表
現を含まない文について該文と前記文章中に含まれる他
の文との相対関係を分析し該相対関係に基づいて前記正
当な提題表現を含まない文の話題を推定する話題推定手
段により構成されている。
【0010】さらに、本発明は、文章を構成する各文に
ついてあらかじめ登録された提題表現であることを示す
句に基づき提題表現を抽出する提題表現抽出手段、この
提題表現抽出手段で抽出された提題表現についてあらか
じめ登録された不適提題表現に基づき不適提題表現を排
除する不適提題表現排除手段、前記提題表現抽出手段お
よび不適提題表現排除手段により判断された適切な提題
表現を含まない文について文末の表現により規定される
文タイプに基づき話題を抽出する文タイプ話題抽出手
段、この文タイプ話題抽出手段により適切な話題を抽出
できない文について該文と前記文章中に含まれる他の文
との相対関係を分析し該相対関係に基づいて前記正当な
提題表現を含まない文の話題を推定する話題推定手段に
より構成されている。
【0011】
【作用】この結果、本発明によれば、自然言語で書かれ
た文章を構成する各文の話題抽出において、文章中に提
題を含まない文や、提題マーカで提示されているにも関
わらず話題としてふさわしくない提題表現が存在する文
があるような場合も、文末表現により規定される文タイ
プの情報を用いることで話題抽出を行うことができる。
【0012】
【0013】
【0014】
【実施例】以下、本発明の一実施例を図面に従い説明す
る。
【0015】図1は、同実施例の概略構成を示してい
る。図において、1は形態素解析部で、この形態素解析
部1は、自然語で書かれた文章の各文の単語毎に区切る
形態素解析処理を行うようにしている。そして、この形
態素解析部1での形態素解析の結果は、構文解析部2に
送られる。構文解析部2は形態素解析の結果より文節間
の係り受けを決定する構文解析処理を行うようにしてい
る。
【0016】この場合、これら形態素解析処理および構
文解析処理は、例えば、「自然言語処理の基礎技術」
野村浩郷 電子情報通信学会編)などで開示されている
技術を用いればよい。
【0017】構文解析部2での処理結果は、文脈構造解
析部3および文レベル話題抽出部4に送られる。文脈構
造解析部3は、入力文章中の各文で明示されている接続
詞、例えば“や”や“従って”などの情報を取り出し、
これら接続詞の情報に基づいて文脈構造を解析するよう
にしている。
【0018】文レベル話題抽出部4は、一文レベルで提
題表現および文タイプに基づいた話題の抽出処理を行う
ものである。この場合、文レベル話題抽出部4には、提
題マーカテーブル5、不適提題表現テーブル6、文タイ
プテーブル7およびワークメモリとして提題表現キュー
8、話題テーブル9を接続している。
【0019】提題マーカテーブル5は、提題表現である
ことを示す提題マーカーを登録したもので、一例として
図2に示すように、助詞“は”“も”“こそ”などが提
題マーカとして登録されている。これら提題マーカテー
ブル5に格納されている表現で終わる句が提題表現とな
る。
【0020】不適提題表現テーブル6は、話題とするに
は不適切な提題表現を登録したもので、一例は図3に示
すようになっている。このテーブル6に記述された提題
表現は、話題として抽出されない。
【0021】文タイプテーブル7は、文末の表現、主に
述語などにより話題を決定できる文を記述したもので、
その一例は、図4に示すようになっている。ある文がこ
のテーブル7に記述された文タイプと一致した場合に、
あらかじめ登録されている文末の表現と話題として抽出
する要素を示す助詞との対応情報に基づき話題を抽出す
る。
【0022】提題表現キュー8は、一文内で出現した提
題表現を出現順に格納するメモリである。また、話題テ
ーブル9は、抽出した話題を文に対応して格納しておく
メモリである。
【0023】一方、文脈構造解析部3での処理結果は、
文脈レベル話題抽出部10に送られる。この文脈レベル
話題抽出部10は、文脈構造の情報を用いて、文レベル
で抽出できない話題を推定するようにしている。この場
合、文脈レベル話題抽出部10には、話題推移規則1
1、話題文判定規則12およびワークメモリとして話題
テーブル9を接続している。
【0024】話題推移規則11は、話題が省略された場
合に、文章のどの部分の話題を継承すればよいかの規則
を記述するもので、一例として図5に示すようになって
いる。また、話題文判定規則12は、話題文を判定する
ための規則を記述するもので、一例として図6に示すよ
うになっている。
【0025】なお、13は話題抽出制御部で、話題抽出
のための全体制御を行うものである。
【0026】次に、以上のように構成した実施例の動作
を説明する。
【0027】この場合、本発明の要旨である各文の話題
の抽出処理について図8〜図12に従って説明する。
【0028】まず、入力文章中の文iに対して、図8に
示す文レベル話題抽出ルーチンを起動する。この場合、
提題表現抽出ルーチンを起動し(ステップ71)、文レ
ベル話題抽出部4により提題表現の抽出を行う。ここで
は、図9のステップ91〜ステップ93に示すように、
形態素解析および構文解析により求められた文iの各項
要素について文章中での出現順に次の処理を行う。すな
わち、最後尾の付属語と提題マーカーテーブル5に登録
された提題マーカとのマッチングを行い、一致すればそ
の項要素を提題表現として提題表現キュー8のBOTT
OMに格納し、提題表現が存在しなければ提題表現キュ
ー8は空のままである。
【0029】次に、不適話題排除ルーチンを起動する
(ステップ72)。ここでは、提題表現キュー8が空で
なければ以下の処理を行う。ここでは図10のステップ
101〜ステップ106に示すように提題表現キュー8
のTOPの提題表現を取り出し、不適提題表現テーブル
6に登録された各提題表現とのマッチングを行う。マッ
チングが成功すれば提題表現キュー8のTOPから次の
提題表現を取り出し、同様なマッチングを行う。不適提
題表現テーブル6に登録された全ての提題表現とのマッ
チングが失敗すれば、提題表現を文iの話題テーブルに
格納し不適話題排除ルーチンを終了する。この時点で文
iの話題テーブル9が、空でなければ文レベル話題抽出
ルーチンを終了し、空であれば文タイプ話題抽出ルーチ
ンを起動する(ステップ73、ステップ74、ステップ
75)。
【0030】文タイプ話題抽出ルーチンは、図11のス
テップ111〜ステップ113に示すように文iと文タ
イプテーブル7に登録された文タイプとのマッチングを
行い、マッチングが成功すれば文タイプごとに予め定め
られた項要素を文iの話題テーブル9に格納するように
なる。
【0031】この時点で文iの話題テーブル9が空でな
ければ話題抽出を終了する(ステップ76、ステップ7
7)。
【0032】一方、話題テーブル9が空の場合、文iに
対して文脈レベル抽出ルーチンを起動し、文脈レベル話
題抽出部10により文脈構造の情報と話題推移規則11
を利用して話題を決定する。
【0033】この場合、話題推移規則11は、一例とし
て図5に示すようになるが、これらの形式は、次のよう
になっている。
【0034】rule(<関係名>、<部分構造>、<文番
号>、<話題スコープ> ここで、“関係名”は文脈構造で定義されている接続関
係で、例えば、図7に示すように接続詞などの接続表現
との対応を有している。“部分構造”は、文脈構造と照
合する部分構造を表しており、“文番号”、“話題スコ
ープ”で記述する文番号情報と対応する変数部分を有し
ている。“文番号”は、話題推定を行う対象となる文の
番号と対応する引き数である。“話題スコープ”は、話
題推移規則に照合した場合に、継承すべき話題が存在す
る文番号のリストを表している。
【0035】しかして、図5に示す第1行目の規則にお
いて、B1、B2、Iはそれぞれ変数で、同じ変数名は
同じ値が設定されなければならないことを意味してい
る。例えば、 rule(順接,BK,文i,SP) のような表現と照合することを考えると、変数BKは
((B1,例示,B2),順接,文i)と、変数SPは
[B1]とそれぞれ等しくなければならないという情報
が得られることになる(話題推移規則の変数Iは文iに
設定される)。
【0036】また、図5の最後の行に示す話題推移規則
は、関係が何であっても直前の文を話題のスコープとす
るという規則を表している。ここでは、話題推移規則
は、先頭から順次取り出していくものとしている。
【0037】そして、与えられた文脈構造に上述の話題
推移規則で記述された部分構造が存在するかどうかの照
合処理を行うことにより、対応する話題スコープを得る
ようになる。
【0038】そして、このような考えに基づいた文脈レ
ベル抽出ルーチンでの動作は、図12のステップ121
〜ステップ123に示すようになる。すなわち、関係名
と文番号を推定し、それらと照合する話題推移規則を初
めに一つ取り出す。そして、与えられた文脈構造に変数
BKと照合する部分を検索し、照合に成功した場合、変
数SPに設定される話題スコープの文番号を取り出し、
文iの話題テーブル9に格納するようになる。一方、照
合に成功しない場合は、再度別の話題推移規則を取り出
し、照合に成功するまで繰り返す。ここで、構造を持つ
表現同士の照合や、同じ名前の変数が同じ値を持つとい
う制約処理は、prologで実現されているユニフィ
ケーションに相当する処理である。
【0039】なお、与えられる文脈構造によっては、話
題スコープに設定されるのは、文番号ではなく文脈構造
の部分構造となることがあり、このような場合には、部
分構造に含まれるどの話題を、文iの話題するかを決め
る必要がある。
【0040】しかして、話題スコープが構造体となる場
合は、話題文判定規則12を参照し、文番号が得られる
まで話題文判定規則を再帰的に適用し、これにより得ら
れた文番号を文iの話題として取り出すようにする。
【0041】話題文判定規則12の一例を図6に示して
いる。この場合、話題文判定規則12の形式は次のよう
になっている。
【0042】gr((<前接部分構造>,<関係名>,<
後接部分構造>),<話題文>) ここで、図6の一行目は、順接という関係させている部
分構造にあっては、前接する部分構造を話題文として取
り出すことを示している。
【0043】次に、具体的な例として図13に示すよう
な自然語で書かれた文章が入力された場合の話題抽出処
理を説明する。
【0044】この場合、提題マーカテーブル5として図
2、不適提題表現テーブル6として図3、文タイプテー
ブル7として図4、話題推移規則11として図5の内容
のものがそれぞれ用いられるとする。
【0045】いま、図13に示す文1〜文4から構成さ
れる文章が入力されると、形態素解析部1および構文解
析部2では、各文レベルで解析を行い、それぞれの文の
項要素を求める。ここで、項要素とは主動詞に直接かか
る句のことを言う。例えば、文1の場合、項要素に基づ
いて記述した構文は図14に示すようになり、“一般的
には”や“半導体”などの項要素が主動詞に直接かかる
ようになる。
【0046】また、構文解析部2の処理結果が与えられ
る文脈構造解析部3では、文脈の構造を解析するもの
で、図13に示す入力文章の場合には、図15に示すよ
うな文脈構造を出力するようにしている。
【0047】まず、入力文章の文1に対して、図8に示
す文レベル話題抽出ルーチンを起動し、文レベル話題抽
出部4により提題表現の抽出を行う。この場合、図9に
示す提題表現抽出ルーチンにより、文1について求めた
各項要素について、提題マーカーテーブル5に登録され
た図2に示す提題マーカとのマッチングを調べる。そし
て、ここでマッチングが取れればその項要素を提題表現
として提題表現キュー8に格納する。この場合、提題表
現として、“一般的には”“半導体は”“高温下では”
の3つが存在するので、これらは提題表現キュー8に図
16に示す順で格納されることになる。
【0048】次に、図10に示す不適話題排除ルーチン
を起動する。この場合、最初に、提題表現キュー8のT
OPより“一般的には”が取り出され、不適提題表現テ
ーブル6に登録された各提題表現とのマッチングが調べ
られる。この場合、提題表現“一般的には”は、図3に
示す不適提題表現“*+的+に+は”とマッチングす
る。次に、提題表現“半導体は”が提題表現キュー8よ
り取り出され、不適提題表現とのマッチングを調べる。
この場合、マッチングするものがないので、提題表現
“半導体は”が文1の話題テーブル9に格納され、不適
話題排除ルーチンを終了する。
【0049】この時点で、文1の話題テーブル9は空で
なくなるので、文レベル話題抽出ルーチンが終了し、文
1の話題として“半導体は”が得られることになる。
【0050】この場合は、図12に示す文脈レベル話題
抽出ルーチンは起動されない。
【0051】次に、文2に対して、図8に示す話題抽出
ルーチンを起動する。この場合も、文レベル話題抽出部
4により上述したと同様にして提題表現の抽出を行う。
ところが、文2の場合、提題表現が含まれていないの
で、提題表現キュー8は空となる。
【0052】次に、図10に示す不適話題排除ルーチン
を起動するが、この場合、提題表現キュー8が空なの
で、そのまま不適話題排除ルーチンを終了する。
【0053】この時点で、文2の話題テーブル9は空な
ので、図11に示す文タイプ話題抽出ルーチンを起動す
る。この場合、文2と文タイプテーブル7に登録された
図4に示す文タイプとのマッチングを調べ、マッチング
が成功すれば文タイプごとに予め定められた項要素を、
文2の話題テーブル9に格納する。この場合、文2で
は、文タイプ<図示文>とマッチングするので、文タイ
プ<図示文>に対応する項要素“半導体の動作安定性と
温度との関係を”が、文2の話題テーブル9に格納さ
れ、文レベル話題抽出ルーチンが終了する。
【0054】この場合、図12に示す文脈レベル話題抽
出ルーチンは起動されない。
【0055】次に、文3に対して、文レベル話題抽出ル
ーチンを起動する。この場合も、文レベル話題抽出部4
により上述したと同様にして提題表現の抽出を行う。と
ころが、文3の場合、提題表現が含まれていないので、
提題表現キュー8は空となる。
【0056】次に、図10に示す不適話題排除ルーチン
を起動するが、この場合、提題表現キュー8が空なの
で、そのまま不適話題排除ルーチンを終了する。
【0057】この時点で、文3の話題テーブル9は空な
ので、図11に示す文タイプ話題抽出ルーチンを起動す
る。この場合、文2の場合と同様に、文タイプ<図示文
>とマッチングするので、文タイプ<図示文>に対応す
る項要素“半導体の動作安定性と温度との関係を”が、
文3の話題テーブル9に格納され、文レベル話題抽出ル
ーチンを終了する。
【0058】この場合も、図12に示す文脈レベル話題
抽出ルーチンは起動されない。
【0059】次に、文4に対して、文レベル話題抽出ル
ーチンを起動する。この場合も、文レベル話題抽出部4
により上述したと同様にして提題表現の抽出を行う。と
ころが、文4の場合、提題表現が含まれていないので、
提題表現キュー8は空となる。
【0060】次に、図10に示す不適話題排除ルーチン
を起動するが、この場合、提題表現キュー8が空なの
で、そのまま不適話題排除ルーチンは終了する。
【0061】この時点で、文4の話題テーブル9は空な
ので、図11に示す文タイプ話題抽出ルーチンを起動す
る。この場合、文4は、どの文タイプともマッチングし
ないので、文4の話題テーブルは空のまま文タイプ話題
抽出ルーチンを終了する。
【0062】そして、文4の話題テーブル9が空のまま
あることで、図12に示す文脈レベル話題抽出ルーチン
を起動する。この場合、図8に示す話題推移規則とのマ
ッチングを調べるために、文4と前方の部分構造に対す
る接続関係“順接”と文4を次のように設定する。
【0063】rule(順接,BK,4,SP) この場合、次のような変数の制約が得られる。
【0064】 BK=((B1,例示,B2),順接,4) SP=[B1] そして、文脈構造解析部3より与えられる図15に示す
文脈構造と部分構造BKとのマッチングを調べ、文脈構
造の一部にBKとマッチングする部分があれば、マッチ
ング成功とする。
【0065】この場合、図15に示す文脈構造は、 ((1,例示,(2,並列,3),順接,4) であるので、変数BKとマッチングすることにより、変
数B1には1が設定されることになる。
【0066】これにより、変数SPは[1]となる。つ
まり、文4の話題として、文1の話題を採用することを
示し、この結果、文4の話題は“半導体”と推定される
ことになる。
【0067】以上述べた処理により、図13に示す文章
の文1〜4について、図17に示すように、文1につい
ては“半導体”、文2については“n型半導体の動作安
定性と温度との関係”文3については“p型半導体の動
作安定性と温度との関係”、そして、文4については文
1より推定された“半導体”が、それぞれ話題として得
られることになる。
【0068】なお、本発明は、上記実施例にのみ限定さ
れず、要旨を変更しない範囲で適宜変形して実施でき
る。例えば、上述した実施例では、提題表現を助詞
“は”“も”“こそ”で終わる名詞句としたが、これら
以外も提題表現にできることはいうまでもない。また、
1文中に複数の提題表現が存在する場合には、すべてを
話題とするようにすることも可能であり、また、文中で
の出現順序ではなく他の要因、例えば文章中でのその語
または句の出現頻度などにより、どれを話題とするかを
決定することもできる。また複数の提題表現を1文の話
題とすることも可能である。
【0069】また、不適話題排除において、単に提題表
現の形のみで話題として不適と判定するのでなく、構文
的なパターンでの判定、例えば“Aはともかく”という
ような表現の時は話題として不適と判定するようにする
ことも可能であり、また、提題表現を示す助詞を除いた
句が特定の品詞、例えば副詞などである時に話題として
不適と判定するようにすることも可能である。
【0070】また、不適話題排除、文タイプテーブルを
分野ごとに用意し、文章の分野に応じて使用するように
することも可能である。
【0071】また、話題推移規則と話題文判定規則とを
一つにまとめて表現することも可能である。
【0072】ここでは、話題抽出のために文脈解析を行
った後に、文レベル話題抽出処理や文脈レベル話題抽出
処理を行う場合について説明したが、文脈構造解析にあ
っては、あらかじめ、わかる範囲での話題情報が得られ
たほうがより高精度な処理が行える場合かある。従っ
て、文レベル話題抽出処理を行った後、その情報も用い
て文脈構造解析を行い、その後で文脈レベル話題抽出処
理を行うことも可能である。この場合、文レベル話題抽
出処理において、接続関係が得られず、しかも提題表現
が存在しないような場合、直前の文の話題を継承する処
理をつけ加えるという変形もできる。
【0073】また、上述した実施例では、適切な提題表
現を含まない文については、文タイプに基づき話題を抽
出する文タイプ話題抽出を行うようにしたが、この文タ
イプ話題抽出を省略して、直ちに文脈構造の情報を用い
た話題推定を行うようにしてもよい。
【0074】
【発明の効果】以上説明したように本発明によれば、自
然言語で書かれた文章を構成する各文についての話題抽
出において、文章中に提題表現を含まない文や話題とし
てふさわしくない提題表現が存在する文があっても、各
文について高精度で適正な話題抽出が可能になり、文章
の内容解析の精度を向上させることができる。
【0075】また、このような考えは、キーワード抽出
などへの応用も可能である。すなわち、話題として取り
出した句は、与えられた文で重要な語句を含んでいるの
であるから、これら話題から語句を取り出すことにより
重要なキーワードを得られるようにもなる。
【図面の簡単な説明】
【図1】本発明の一実施例の概略構成を示す図。
【図2】図1に示す実施例に用いられる提題マーカテー
ブルを示す図。
【図3】図1に示す実施例に用いられる不適提題表現テ
ーブルを示す図。
【図4】図1に示す実施例に用いられる文タイプテーブ
ルを示す図。
【図5】図1に示す実施例に用いられる話題推移規則を
示す図。
【図6】図1に示す実施例に用いられる話題文判定規則
を示す図。
【図7】文脈構造における接続関係を表す関係名と接続
表現との対応例を示す図。
【図8】図1に示す実施例における話題抽出処理を説明
するためのフローチャート。
【図9】図1に示す実施例における話題抽出処理を説明
するためのフローチャート。
【図10】図1に示す実施例における話題抽出処理を説
明するためのフローチャート。
【図11】図1に示す実施例における話題抽出処理を説
明するためのフローチャート。
【図12】図1に示す実施例における話題抽出処理を説
明するためのフローチャート。
【図13】図1に示す実施例の入力文章の例を示す図。
【図14】図13に示す入力文章の構文構造を示す図。
【図15】図13に示す入力文章の文脈構造を示す図。
【図16】図1に示す実施例における文1の提題表現キ
ューの状態を示す図。
【図17】図13に示す入力文章について抽出された話
題を示す図。
【符号の説明】
1…形態素解析部、2…構文解析部、3…文脈構造解析
部、4…文レベル話題抽出部、5…提題マーカテーブ
ル、6…不適提題表現テーブル、7…文タイプテーブ
ル、8…提題表現キュー、9…話題テーブル、10…文
脈レベル話題抽出部、11…話題推移規則、12…話題
文判定規則、13…話題抽出制御部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 浮田 輝彦 神奈川県川崎市幸区小向東芝町1番地 株式会社東芝総合研究所内 (56)参考文献 情報処理学会研究報告、Vol.91、 No.37(NL83−4)、竹下敦、「表 層的処理による話題抽出」、p.23− p.30、(1991)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 自然語で書かれた文章について該文章を
    構成する各文について話題を抽出する話題抽出装置にお
    いて、 前記各文についてあらかじめ登録された提題表現である
    ことを示す句に基づき提題表現を抽出する提題表現抽出
    手段と、 この提題表現抽出手段で抽出された提題表現についてあ
    らかじめ登録された不適提題表現に基づき不適提題表現
    を排除する不適提題表現排除手段と、 前記提題表現抽出手段および不適提題表現排除手段によ
    り判断された適切な提題表現を含まない文について、あ
    らかじめ登録されている文末の表現と話題として抽出す
    る要素を示す助詞との対応情報に基づき話題を抽出する
    文タイプ話題抽出手段とを具備したことを特徴とする話
    題抽出装置。
JP4096035A 1992-03-24 1992-03-24 話題抽出装置 Expired - Lifetime JP2713354B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4096035A JP2713354B2 (ja) 1992-03-24 1992-03-24 話題抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4096035A JP2713354B2 (ja) 1992-03-24 1992-03-24 話題抽出装置

Publications (2)

Publication Number Publication Date
JPH05266072A JPH05266072A (ja) 1993-10-15
JP2713354B2 true JP2713354B2 (ja) 1998-02-16

Family

ID=14154204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4096035A Expired - Lifetime JP2713354B2 (ja) 1992-03-24 1992-03-24 話題抽出装置

Country Status (1)

Country Link
JP (1) JP2713354B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4489994B2 (ja) 2001-05-11 2010-06-23 富士通株式会社 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
JP2004145753A (ja) * 2002-10-25 2004-05-20 Nippon Telegr & Teleph Corp <Ntt> 文書検索方法及び装置及び文書検索プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
情報処理学会研究報告、Vol.91、No.37(NL83−4)、竹下敦、「表層的処理による話題抽出」、p.23−p.30、(1991)

Also Published As

Publication number Publication date
JPH05266072A (ja) 1993-10-15

Similar Documents

Publication Publication Date Title
US10296584B2 (en) Semantic textual analysis
US7970600B2 (en) Using a first natural language parser to train a second parser
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
JP4024861B2 (ja) 辞書に基づく品詞確率による自然言語パーザ
US9430742B2 (en) Method and apparatus for extracting entity names and their relations
US7546235B2 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
US6658377B1 (en) Method and system for text analysis based on the tagging, processing, and/or reformatting of the input text
CN111460787A (zh) 一种话题提取方法、装置、终端设备及存储介质
US20060015324A1 (en) Method and apparatus for natural language generation
US20060106592A1 (en) Unsupervised learning of paraphrase/ translation alternations and selective application thereof
US20100275179A1 (en) Extracting a system modelling meta-model language model for a system from a natural language specification of the system
WO2003056450A1 (fr) Procede et appareil d&#39;analyse syntaxique
Umber et al. NL-based automated software requirements elicitation and specification
Argamon-Engelson et al. A memory-based approach to learning shallow natural language patterns
Prokopidis et al. A Neural NLP toolkit for Greek
JP2713354B2 (ja) 話題抽出装置
Bajwa et al. A rule based system for speech language context understanding
JP3300142B2 (ja) 自然言語処理装置
AbuZeina et al. Exploring the Performance of Tagging for the Classical and the Modern Standard Arabic
Cybulski et al. The use of templates and restricted english in structuring and analysis of informal requirements specifications
Radhakrishna Intent Based Utterance Segmentation for Multi IntentNLU
Fahmy et al. Towards Structuring an Arabic-English Machine-Readable Dictionary Using Parsing Expression Grammars
KR101450795B1 (ko) 대용어 복원 장치 및 방법
Nazri1&2 et al. An exploratory study of the Malay text processing tools in ontology learning
Nazri et al. An exploratory study on malay processing tool for acquisition of taxonomy using FCA

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term