JP2003256449A - 重要情報抽出システムおよび重要情報抽出方法 - Google Patents

重要情報抽出システムおよび重要情報抽出方法

Info

Publication number
JP2003256449A
JP2003256449A JP2002058977A JP2002058977A JP2003256449A JP 2003256449 A JP2003256449 A JP 2003256449A JP 2002058977 A JP2002058977 A JP 2002058977A JP 2002058977 A JP2002058977 A JP 2002058977A JP 2003256449 A JP2003256449 A JP 2003256449A
Authority
JP
Japan
Prior art keywords
sentence
extracting
extraction
important information
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002058977A
Other languages
English (en)
Inventor
Masako Bosu
雅子 望主
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2002058977A priority Critical patent/JP2003256449A/ja
Publication of JP2003256449A publication Critical patent/JP2003256449A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 文書中からパタン化された重要な情報とパタ
ン化されていない重要な情報の両方を抽出できるように
して、文書中から重要な情報をより高精度に抽出するこ
とができる重要情報抽出技術を提供する。 【解決手段】 文書中から重要情報を抽出する重要情報
抽出システムにおいて、形態素解析をおこなって対象と
する文を個々の単語に分ける形態素解析部1と、その形
態素解析部1により分けられた個々の単語の並びのなか
から特定のパタンに合致する単語の並びを抽出するパタ
ン抽出部3と、前記個々の単語の並びである文中から特
定の条件に合致する文を抽出する文抽出部4と、前記パ
タン抽出部3により抽出された前記単語の並びと前記文
抽出部4により抽出された前記文とを用いて重要情報を
判定し抽出する重要情報判定部2とを備えた。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、専用の文書処理装
置や汎用のパーソナルコンピュータなど情報処理装置な
どにおいて実現されている、文書分類や文書検索などに
用いることができる重要情報抽出技術に係わり、特に、
形態素解析技術を用いた重要情報抽出技術に関する。
【0002】
【従来の技術】文書中から特定の情報を抽出する情報抽
出技術が従来より提供されている。このような情報抽出
技術では、対象となる文書から、特定の語の並びや特定
の関係の語を、品詞や構文的な情報によって自動的に抽
出している。例えば特開平7−85041号公報に示さ
れた従来技術はそのような従来技術の一つであり、関係
付けられた語句のパタンから語句とその関係を抽出す
る。また、特開平7−85071号公報に示された従来
技術でも語句のパタンや語句の構文関係を用いて情報を
抽出する。確かに、このようなパタンに基づく情報抽出
は、パタンで記述されている定型的な表現や語の出現が
パタン化したものには有用である。しかし、そうでない
通常の文についてはあらかじめ用意したパタンが照合で
きないので、重要な情報があっても抽出できないという
問題がある。逆に、パタンにとらわれず、文章中から重
要な文を抽出する重要文抽出技術がある(例えば、「自
然言語処理」1996、岩波講座ソフトウェア科学15
p.441-443)。また、キーワードの出現回数などを使っ
て重要文を抽出する方法も多数提案されている。例えば
特開昭61−117658号公報に示された従来技術で
は、高頻度の語を多く含む文を重要文として抽出する。
【0003】しかし、このような重要文抽出では、文中
のキーワードの出現頻度などを用いるので、出現頻度の
低い語を含む文は重要であっても抽出されないことがあ
る。例えば日付などの定型的な情報は、それ自体にひと
つの構造や形式が意味をもち、文書の種類によっては重
要な場合があるにもかかわらず、頻度としては低い場合
もあることや、文で使用される表現の重要度をはかる尺
度と必ずしも一致しないので抽出されないことがあるの
である。それについて以下の例で説明する。 ------------------------------------------------------------ 研究所内清掃のお知らせ 総務課 担当 研究員各位 研究所の各フロアについて清掃業者による清掃を行いますのでお知らせします 。 ご不明な点はフロアマネジャーまで問い合わせください。 日時:6月20日10:00〜15:00 実施場所:4階、7階、8階 また、以下の点を周知徹底ください。 ・床の上に物を置かないようにしてください。 ・消毒が必要な引き出しはあけたままにしてください。 ・人体に害はありませんが、口につけるもの(食器類)は別の場所に保管してく ださい。 ・ごみ類を出さないでください。 以上 ------------------------------------------------------------ この例の場合、例えばパタン抽出技術では、日付や場所
などあらかじめパタンを想定できる情報を抽出でき、重
要文抽出では、文書中の出現頻度の高い「清掃」、「研
究所」など名詞類を抽出し、それらを含む文を抽出する
こともできる。しかし、重要度から言えば、両方の情報
が必要であるのに、従来の技術ではどちらかしか得るこ
とができない。
【0004】
【発明が解決しようとする課題】前記したように、従来
技術においては、文書中から重要情報を抽出する場合、
パタン化された重要な情報とパタン化されていない重要
な情報のいずれか一方しか抽出できないという問題があ
る。本発明の目的は、このような従来技術の問題を解決
することにあり、具体的には、文書中からパタン化され
た重要な情報とパタン化されていない重要な情報の両方
を抽出できるようにして、文書中から重要な情報をより
高精度に抽出することができる重要情報抽出技術を提供
することにある。
【0005】
【課題を解決するための手段】前記の課題を解決するた
めに、請求項1記載の発明では、文書中から重要情報を
抽出する重要情報抽出システムにおいて、形態素解析を
おこなって対象とする文を個々の単語に分ける形態素解
析手段と、その形態素解析手段により分けられた個々の
単語の並びのなかから特定のパタンに合致する単語の並
びを抽出するパタン抽出手段と、前記個々の単語の並び
である文中から特定の条件に合致する文を抽出する文抽
出手段と、前記パタン抽出手段により抽出された前記単
語の並びと前記文抽出手段により抽出された前記文とを
用いて重要情報を抽出する重要情報抽出手段とを備え
た。また、請求項2記載の発明では、文書中から重要情
報を抽出する重要情報抽出方法において、形態素解析を
おこなって文を個々の単語に分け、分けられた個々の単
語の並びのなかから特定のパタンに合致する単語の並び
を抽出するとともに、前記個々の単語の並びである文中
から特定の条件に合致する文を抽出し、抽出した前記特
定の単語の並びと前記合致する文とを用いて重要情報を
抽出する構成にした。また、請求項3記載の発明では、
請求項2記載の発明において、抽出した前記単語の並び
と前記合致する文とを関連づけて記憶する構成にした。
また、請求項4記載の発明では、請求項2記載の発明に
おいて、前記単語の並びを抽出する際の前記パタンを文
書のタイプによって変更する構成にした。
【0006】また、請求項5記載の発明では、請求項2
または請求項4記載の発明において、文書のタイプによ
って、さらに、前記文抽出時の前記特定の条件を変更す
る構成にした。また、請求項6記載の発明では、請求項
2記載の発明において、前記文抽出時に抽出された文を
対象に前記パタンに合致した単語の並びを抽出する構成
にした。また、請求項7記載の発明では、請求項2記載
の発明において、前記単語の並びに基づいて抽出した結
果を用いて、文抽出のために前記単語の並びに対して付
与する評価値を変更して文抽出をおこなう構成にした。
また、請求項8記載の発明では、請求項7記載の発明に
おいて、前記単語の並びに対して文抽出のために付与す
る評価値を変更して文抽出する構成にした。また、請求
項9記載の発明では、請求項7記載の発明において、前
記単語の並びの表現を別表現に置き換えて文抽出をおこ
なう構成にした。また、請求項10記載の発明では、情
報処理装置上で実行されるプログラムにおいて、請求項
2乃至請求項9のいずれか1項に記載の重要情報抽出方
法に従ってプログラミングした。また、請求項11記載
の発明では、プログラムを記憶した記憶媒体において、
請求項10記載のプログラムを記憶した。
【0007】
【発明の実施の形態】以下、図面により本発明の実施の
形態を詳細に説明する。図1は本発明の第1の実施例を
示す重要情報抽出システムの構成ブロック図である。図
示したように、この実施例の重要情報抽出システムは、
形態素解析部1、重要情報判定部2、パタン抽出部3、
および文抽出部4などを備えている。なお、この実施例
では、請求項1記載の形態素解析手段、重要情報抽出手
段、パタン抽出手段、および文抽出手段が、それぞれそ
の順に、形態素解析部1、重要情報判定部2、パタン抽
出部3、および文抽出部4により実現される。また、形
態素解析部1、重要情報判定部2、パタン抽出部3、お
よび文抽出部4は、プログラムを記憶するメモリ(例え
ばRAM)およびそのプログラムに従って動作するCP
Uなどにより実現される。前記各部のうち、形態素解析
部1は、表記(個々の単語そのもの)およびその品詞を
単語ごとに記述した単語辞書と、品詞間の接続の可否を
記述した接続表とを参照して形態素解析をおこない、文
をその構成要素である単語に分け、その品詞を明らかに
する。なお、この形態素解析自体は一般的な構成であ
る。また、パタン抽出部3は、形態素解析された文書中
の単語の並び(品詞を考慮した単語の並び)から、あら
かじめ記述したパタンと一致した個所を抽出する。な
お、パタンは例えばパタン辞書を用いてあらかじめ設定
しておく。また、文抽出部4は文書中から重要な情報を
文単位で抽出する。どのような文を重要とするかについ
てはいろいろな方法があり、例えば、文書中で多く出現
した自立語類を含む文を重要とするといった方法があ
る。また、重要情報判定部2は、形態素解析された文書
中から重要な情報を抽出する。パタン抽出部3により抽
出された単語の並びと、文抽出部4により抽出された文
とを用いて、文書中の重要な情報を判定し、最終的に抽
出結果を得るのである。
【0008】図2に、パタン抽出部3の処理フローの概
略を示す。この処理は、形態素解析された文書を入力と
し、文書中の単語すべてについてパタン辞書のパタンを
照合していく。そのため、パタン辞書の全パタンを照合
したかどうか調べ、未照合のパタンがあれば(S1で
「有り」)、文書の未照合部分の先頭位置(未照合位
置)の単語並びを取り出し、当該パタンと照合する(S
2)。そして、当該パタンとその単語並びが一致すれば
(S3で「有り」)それを抽出し(S4)、未照合の次
の単語並びがあれば(S5で「有り」)次の単語並びに
ついても同じことを繰り返す(S2〜S4)。こうし
て、パタン辞書のひとつのパタンについて未照合の単語
並びがなくなったならば(S5で「無し」)、次のパタ
ンについてステップS1から繰り返す。そして、未照合
のパタンがなくなったならば(S1で「無し」)、抽出
された単語並びを重要情報判定部2に渡す。
【0009】次に、図3に示した処理フローに従って文
抽出部4の動作を説明する。まず、文書中の各単語につ
いて出現頻度を算出し(S11)、特定条件(例えば所
定頻度以上とか上位N語など)に合致する単語を抽出す
る(S12)。そして、文書中のすべての文を走査し
て、その単語を特定条件以上(例えば頻度N以上とか、
異なり頻度N以上など)含む文を抽出する(S13、S
14)。図4に、パタン辞書の一例を示す。図示したよ
うに、パタンは、文書中に語句の出現する順序が記述さ
れ、出現した際の条件が記述される。図4は、表記(単
語の並び)、その品詞などで記述した例である。「抽
出」の欄は、パタンが一致した際に該当部分を抽出する
かどうかの指示が書かれており、「OK」の場合に抽出
を行う。「OK」の場合に、同パタン中の一致した表現
が、語句として1単位でない場合には「|」で区切って
つなぐ。また、図4において、( )*は0回以上の一致
(つまり省略あり)、[ ]は|で区切ったうちのどれかが
一致すればよいという意味である。また、+は一つ以上
の一致、?は0か1回の一致、[^]はその文字列以外が一
致するという意味である。また、全角「*」はどのよう
な表現でも合致したとみなすという意味である。例で
は、表記「日時」の後に、記号が一つあるいはなくても
よく、その後に品詞「数詞」が1回以上、表記「月」が
続き、さらに、品詞「数詞」が1回以上、表記「日」が
あり、品詞「数詞」または記号が一つ以上あり、表記
「〜」、品詞「数詞」または記号であるもの0回以上が
続くという意味である。表記「〜」とそのあとの品詞の
指定は省略が可能である。二つ目のパタンも、同様に解
釈し、表記「場所」以外の文字列が0個以上並んだ後
に、表記「場所」が位置し、さらに文字列が一つ以上後
ろに並ぶことを意味している。
【0010】次に、以下の例について第1の実施例を説
明する。 ―――――――――――――――――――――――――――――――――― 研究所内清掃のお知らせ 総務課 担当 研究員各位 研究所の各フロアについて清掃業者による清掃を行いますのでお知らせします 。 ご不明な点はフロアマネジャーまで問い合わせください。 日時:6月20日10:00〜15:00 実施場所:4階、7階、8階 また、以下の点を周知徹底ください。 ・床の上にものを置かないようにしてください。 ・消毒が必要な引き出しはあけたままにしてください。 ・人体に害はありませんが、口につけるもの(食器類)は別の場所に保管してく ださい。 ・ごみ類を出さないてください。 以上 ――――――――――――――――――――――――――――――――――
【0011】この実施例では、最初に、上記の対象文書
を形態素解析し、単語と品詞に分割する。そして、パタ
ン抽出部3により、図4に示したパタン辞書内のパタン
に合致する単語並びの抽出を行う。対象文書について、
例えば改行までを一単位として処理を行うのである。そ
のため、まず「研究所内清掃のお知らせ」が分割された
「研究所(名詞)/内(接尾辞)/清掃(名詞)/の(助詞)/お知
らせ(名詞)」を照合対象とする。なお、前記において、
括弧内は品詞を示している。この照合においては、ま
ず、パタン辞書の最初のパタンを照合するが、この例で
は一致するものがないので次のパタンに処理を移す。し
かし、次のパタンでも照合されず、結局この対象からは
何も抽出されない。同様に、順に各レコード(行)につ
いて処理を繰り返す。こうして、「日時:6月20日1
0:00〜15:00」の行に処理が移る。そして、こ
の行の形態素解析結果「日時(名詞)/:(記号)/6(数詞)
/月(接尾辞)/20(数詞)/日(接尾辞)/10(数詞)/:(記
号)/00(数詞)/〜(記号)/15(数詞)/:(記号)/00
(数詞)」をパタン辞書の最初の記述と照合する。その結
果、両者は一致するので、この単語並びが抽出される。
次の「実施場所:4階、7階、8階」は「実施(サ変名
詞)/場所(名詞)/:(記号)/4(数詞)/階(接尾辞)/、(読
点)/7(数詞)/階(接尾辞)/、(読点)/8(数詞)/階(接尾
辞)」と解析されている。これはパタン辞書の次の記述
である、「場所」以外の文字列が0以上あり、次に表記
「場所」があり、最後に文字列が一つ以上あるパタンと
一致するので、抽出される。こうして、文書から「日
時:6月20日10:00〜15:00」と「実施場
所:4階、7階、8階」が抽出され、パタン抽出の処理
を終了する。結果は重要情報判定部2へ渡す。
【0012】次に、文抽出部4が文抽出をおこなうに際
して、形態素解析された結果を用いて文書中の語の出現
頻度を算出する。例えば頻度を、自立語、自立語と接尾
辞、接頭辞と自立語について算出するのである。結果は
「清掃」と「階」が頻度3、「研究所」と「場所」が頻
度2、他の語はすべて1である。したがって、例えば特
定条件として「頻度2以上である」と規定した場合に
は、前記各語が抽出される。次に、対象中の各文につい
て抽出された語を例えば頻度2以上含むかどうかを調
べ、含む文を抽出する。すると、「研究所内清掃のお知
らせ」「研究所の各フロアについて清掃業者による清掃
を行いますのでお知らせします。」「実施場所:4階、
7階、8階」が得られるので、これらを文抽出結果とし
て重要情報判定部2に渡す。重要情報判定部2は、パタ
ン抽出部3および文抽出部4により得られた結果を対象
文書中における出現順に表示する。結果として以下が得
られる。 抽出例: ―――――――――――――――――――――――――――――――――― 研究所内清掃のお知らせ 研究所の各フロアについて清掃業者による清掃を行いますのでお知らせします。 日時:6月20日10:00〜15:00 実施場所:4階、7階、8階 ―――――――――――――――――――――――――――――――――― こうして、この実施例によれば、パタン抽出と文抽出を
組み合わせることにより、文書中のキーワードをもとに
した文抽出処理では抽出できない特定パタンに係わる情
報についても抽出でき、また、パタンでは抽出できない
重要文を抽出できるので、より高精度の重要情報抽出が
可能になる。
【0013】次に、本発明の第2の実施例について説明
する。システム構成は図1に示した第1の実施例と同じ
で、この実施例では、パタン抽出部3により抽出された
結果と、文抽出部4により抽出された結果とを関連づけ
て格納することが特徴である。関連づけて格納すること
により、この実施例の重要情報抽出方法では、格納後に
抽出結果の検索や閲覧をしやすくすることができる。図
5に、この実施例におけるパタン辞書の一例を示す。第
1の実施例と同じだが、パタンごとにパタン全体の意味
が記述されている。図示の例では、最初のパタンの場
合、「日時」が意味であり、次のパタンの場合、「場
所」が意味である。この実施例では関連づけをおこなう
とともに、意味情報として「日時」や「場所」というよ
うな語を格納し、検索や閲覧に用いるのである。動作
は、パタン抽出部3および文抽出部4により抽出をおこ
なうところまでは第1の実施例と同じで、抽出後、パタ
ンについては照合で合致したパタンに付与されている意
味情報と抽出結果とを格納し、文については、日時や場
所はパタン抽出のほうに任せて、日時や場所の係わる部
分を除いた部分を抽出し、その抽出部分に「内容」とい
う意味情報を付加して格納する。結果は以下のようにな
る。 ―――――――――――――――――――――――――――――――――― 日時 6月20日10:00〜15:00 場所 4階、7階、8階 内容 研究所内清掃のお知らせ 研究所の各フロアについて清掃業者による清掃を行いますのでお知らせします。 ――――――――――――――――――――――――――――――――――
【0014】また、例えば以下の文書の場合も、同様の
処理を行う。 ―――――――――――――――――――――――――――――――――― 朝礼のお知らせ 以下のように朝礼を行います。速やかにお集まりください。 日時 6月25日 10:00 場所 7階会議室 ―――――――――――――――――――――――――――――――――― 抽出結果として以下が得られる。 ―――――――――――――――――――――――――――――――――― 日時 6月25日 10:00 場所 7階会議室 内容 朝礼のお知らせ 以下のように朝礼を行います。 ―――――――――――――――――――――――――――――――――― 以上の2例の抽出結果を、パタンに付与された意味ごと
にまとめると、以下になる。 日時 場所 内容 6月20日10:00〜15:00 4階、7階、8階 研究所内清掃の お知らせ 研究所の各フロアに ついて清掃業者によ る清掃を行いますの でお知らせします。 ――――――――――――― 6月25日10:00 7階会議室 朝礼のお知らせ 以下のように朝礼 を行います。 このように、閲覧情報としては、日時や場所でまとめ、
例えば日時で並び替えることにより抽出結果を時系列で
閲覧できる。したがって、例えばスケジューラ的な使用
が可能となる。また、検索時にも内容以外に具体的な日
時や場所で検索することもできる。こうして、この実施
例によれば、パタン抽出部3の抽出結果と文抽出部4の
抽出結果とを意味情報の付与という観点から関連づけ、
一部はパタン抽出部3の抽出結果に意味情報を付与し、
一部は文抽出部4の抽出結果に意味情報を付与して格納
し、閲覧することにより、抽出結果を検索、閲覧しやす
くなり、情報の把握を短時間でおこなうことができる。
また、複数の文書の場合にも、同じ観点で表示できるの
で、特定の観点から見た閲覧が可能となり、短時間に複
数の文書の内容や概観を閲覧できる。
【0015】次に、第3の実施例について説明する。シ
ステム構成は図1に示した第1の実施例と同じで、異な
る点は、この実施例では、パタン抽出部3においてパタ
ン辞書が文書タイプと結びつけて格納されることであ
る。文書タイプについては、重要情報判定部2が、入力
された文書データから自動的に判定するか、または入力
文書とともに外部から指定するが、ここでは、パタン辞
書を使って自動的に判定する方法で説明する。図6はこ
の実施例で用いるパタン辞書の一例である。パタン記述
は図4に示した第1の実施例と同じだが、それぞれのパ
タンのかたまりに文書タイプを関係づけて格納している
点が異なる。なお、この例では、「文書タイプ:連絡、
通達」と「文書タイプ:特許」とから成っている。図7
に、重要情報判定部2の処理フローを示す。以下、図7
に従って、この実施例の動作を説明する。まず、パタン
抽出部3がパタンにもとづき合致する情報を抽出し、抽
出するごとにかつパタンごとに抽出語数を得る。そし
て、全パタン照合後、文書タイプごとに抽出語数を加え
て文書タイプごとの一致語数を求める(S21)。続い
て、最も一致語数の多い文書タイプを対象文書の文書タ
イプと判定し(S22)、その文書タイプの抽出結果を
当該対象文書についてのパタンによる抽出結果とする
(S23)。その後、当該対象文書から重要文を抽出し
(S24)、パタン抽出、文抽出から得られた結果を対
象文書での出現順に出力する(S25)。図8はパタン
抽出部3の処理フロー図である。図2に示した第1の実
施例との違いは、照合したパタンについて一致した語数
(抽出語数)をパタンごとに格納する(S35)点であ
り、文抽出は、第1の実施例と同じであるのでその説明
を省略する。
【0016】次に、以下の文書例を用いてこの実施例を
説明する。なお、以下において、<省略>は記述を省略
して説明したものである。 ―――――――――――――――――――――――――――――――――― 請求項1:形態素解析部と、形態素解析結果中の特定の単語の並びを抽出するパ タン抽出部と、形態素解析結果中から特定の条件に合致した文を抽出する文抽出 部と、パタン抽出部と文抽出部とを用いて重要情報を判定する重要情報判定部と を備えた重要情報抽出システム 目的:以上の点を鑑み、文書中からパタン化した重要な情報と、パタン化しない 重要な情報の両方を抽出することにより、より高精度に文書中から重要な情報を 抽出する技術を提供することにある。 また、対象文書のタイプに応じて適切な情報の抽出をおこなうことを目的とする 。 発明の説明、構成:図1は重要情報抽出システムの一構成例である。 形態素解析部、重要情報判定部、パタン抽出部、文抽出部とから成る。 形態素解析部は、表記と品詞を記述した単語辞書と、品詞間の接続の可否を記述 した接続表とを参照して形態素解析を行う。形態素解析自体は一般的な構成であ る。 <省略> 請求項1の効果:パタン抽出と文抽出を組み合わせることにより、文書中のキー ワードをベースにした文抽出処理では抽出できない特定のパタンの情報について も抽出でき、また、パタンでは抽出できない重要文を抽出できるので、より高精 度の重要情報抽出技術を提供することができる。 ――――――――――――――――――――――――――――――――――
【0017】パタン辞書については、まず、文書タイプ
「連絡、通達」のパタンを順に照合する。その結果、こ
の例の場合、該当するパタンがなく、したがって、抽出
結果がなく、文書タイプ「連絡、通達」においては一致
語数は0となる。次に、文書タイプ「特許」の各パタン
を照合する。すると、「請求項1:」「目的:」「効
果:」および後続の語句が一致し、一致語数はそれぞ
れ、70,56.73となる。したがって、重要情報判
定部2は、一致語数の多い文書タイプである「特許」を
当該文書タイプと判定する。さらに、文抽出部4が文抽
出を行い、結果は以下のようになる。文抽出では、例え
ば「形態素解析」「重要」「情報」「抽出」「パタン」
が高頻度語で、それらを含む文を次のように抽出する。 ―――――――――――――――――――――――――――――――――― 請求項1:形態素解析部と、形態素解析結果中の特定の単語の並びを抽出するパ タン抽出部と、形態素解析結果中から特定の条件に合致した文を抽出する文抽出 部と、パタン抽出部と文抽出部とを用いて重要情報を判定する重要情報判定部と を備えた重要情報抽出システム 目的:以上の点を鑑み、文書中からパタン化した重要な情報と、パタン化しない 重要な情報の両方を抽出することにより、より高精度に文書中から重要な情報を 抽出する技術を提供することにある。 発明の説明、構成:図1は重要情報抽出システムの一構成例である。 形態素解析部、重要情報判定部、パタン抽出部、文抽出部とから成る。 請求項1の効果:パタン抽出と文抽出を組み合わせることにより、文書中のキー ワードをベースにした文抽出処理では抽出できない特定のパタンの情報について も抽出でき、また、パタンでは抽出できない重要文を抽出できるので、より高精 度の重要情報抽出技術を提供することができる。 ―――――――――――――――――――――――――――――――――― こうして、この実施例によれば、文書タイプに合致した
パタン抽出をおこなうことにより、より精度のよいパタ
ン抽出を実現でき、したがって、より精度のよい重要情
報抽出をおこなうことができる。
【0018】次に、第4の実施例について説明する。こ
の実施例のシステム構成は図1に示した第1の実施例の
構成と同じで、文書タイプを判定したのち、文書タイプ
に応じて文抽出をおこなう。図9に、この実施例のパタ
ン辞書の一例、図10に、文書タイプに基づく文抽出方
法規定表の一例を示す。文抽出方法規定表は各文書タイ
プに対応づけてその文書タイプの場合の文抽出方法(特
定条件)を規定したものである。評価値を使って、その
評価値を重くする、あるいは軽くするといった内容を記
述してもよい。なお、この表は、文抽出部4内に設け
る。
【0019】以下、文書例で説明する。なお<省略>は
記述を省略して説明したものである。 ―――――――――――――――――――――――――――――――――― 請求項1:形態素解析部と、形態素解析結果中の特定の単語の並びを抽出するパ タン抽出部と、形態素解析結果中から特定の条件に合致した文を抽出する文抽出 部と、パタン抽出部と文抽出部とを用いて重要情報を判定する重要情報判定部を 備えた重要情報抽出システム 目的:以上の点を鑑み、文書中からパタン化した重要な情報と、パタン化しない 重要な情報の両方を抽出することにより、より高精度に文書中から重要な情報を 抽出する技術を提供することにある。 また、対象文書のタイプに応じて適切な情報の抽出をおこなうことを目的とする 。 発明の説明、構成:図1は重要情報抽出システムの一構成例である。 形態素解析部、重要情報判定部、パタン抽出部、文抽出部とから成る。 形態素解析部は、表記と品詞を記述した単語辞書と、品詞間の接続の可否を記述 した接続表とを参照して形態素解析を行う。形態素解析自体は一般的な構成であ る。 <省略> 請求項1の効果:パタン抽出と文抽出を組み合わせることにより、文書中のキー ワードをベースにした文抽出処理では抽出できない特定のパタンの情報について も抽出でき、また、パタンでは抽出できない重要文を抽出できるので、より高精 度の重要情報抽出技術を提供することができる。 ――――――――――――――――――――――――――――――――――
【0020】この実施例では、まず、パタン抽出を行
い、パタン抽出の結果から文書タイプを「特許」と判定
する(パタン辞書は第3の実施例において用いたものの
うち、文書タイプ「特許」については図9に示したよう
に変えたものを用いる)。したがって、図10の表に示
した、文書タイプ「特許」の文抽出方法に従い、「目
的」「効果」「請求項」から後ろの表現を次の項目
(「効果」「請求項」「発明の説明」「実施例」)まで
選択して、以下の抽出結果を得る。 抽出結果例: ―――――――――――――――――――――――――――――――――― 請求項1:形態素解析部と、形態素解析結果中の特定の単語の並びを抽出するパ タン抽出部と、形態素解析結果中から特定の条件に合致した文を抽出する文抽出 部と、パタン抽出部と文抽出部とを用いて重要情報を判定する重要情報判定部を 備えた重要情報抽出システム 目的:以上の点を鑑み、文書中からパタン化した重要な情報と、パタン化しない 重要な情報の両方を抽出することにより、より高精度に文書中から重要な情報を 抽出する技術を提供することにある。 また、対象文書のタイプに応じて適切な情報の抽出を行うことを目的とする。 請求項1の効果:パタン抽出と文抽出を組み合わせることにより、文書中のキー ワードをベースにした文抽出処理では抽出できない特定のパタンの情報について も抽出でき、また、パタンでは抽出できない重要文を抽出できるので、より高精 度の重要情報抽出技術を提供することができる。 ―――――――――――――――――――――――――――――――――― こうして、この実施例によれば、文書タイプごとに文抽
出の方法(特定条件)を変更することにより、より文書
タイプに合致した文の抽出をおこなうことができる。
【0021】次に、第5の実施例について説明する。こ
の実施例のシステム構成は図1に示した第1の実施例と
同じである。処理フローを図11に示す。図11に示し
たように、文抽出部4を先に駆動し、対象文書中から文
を抽出する(S41)。そののちパタン抽出部3を駆動
し、文抽出部4により得られた文を対象にパタン抽出を
行う(S42)。そして、パタン抽出の結果だけ、また
はパタン抽出の結果と文抽出の結果を出力する(S4
3)。以下、文書例で説明する。 文書例: ―――――――――――――――――――――――――――――――――― AA社は、6月15日に新製品であるパソコン「PC−M630」を発売すると 発表した。 AA社が新製品を発売するのは、1年ぶりであり、AA社の状況が改善されたこ とを示すといえる。 また、これに対応して、BB社は、AA社のパソコン向けの周辺機器群を発売す ると発表した。BB社の発売は6月30日としている。 競合のDD社は、好評のラインナップを増やす方向で、AA社の製品に対抗する かまえである。新製品は7月1日の予定。 ――――――――――――――――――――――――――――――――――
【0022】この実施例では、まず、対象文書について
文抽出を行う。そのため、形態素解析をおこない、単語
への分割と品詞付与をおこなう。そして、各単語の頻度
を集計すると、 AA社 4回 BB社 2回 発売 4回 新製品 3回 パソコン 2回 となっているので、頻度4以上の語を含む文を選択する
と、文抽出で得られる結果は以下となる。すなわち、単
語の並びに基づいて頻度を集計し、さらに頻度により文
抽出を行うと以下の通りとなる。 抽出例: ―――――――――――――――――――――――――――――――――― AA社は、6月15日に新製品であるパソコン「PC−M630」を発売すると 発表した。 AA社が新製品を発売するのは、1年ぶりであり、AA社の状況が改善されたこ とを示すといえる。 また、これに対応して、BB社は、AA社のパソコン向けの周辺機器群を発売す ると発表した。 ――――――――――――――――――――――――――――――――――
【0023】次に、図12に示したパタン辞書に基づ
き、文抽出結果からパタンによる情報抽出をおこない、
「AA社」「6月15日」「PC−M630」「発売」
を得る。そして、得られた語を含む文を抽出文中から抽
出する。これを例えばパタン抽出だけを駆動した場合に
は、日付に関して「6月30日」、「7月1日」を得る
が、これは、文書中で頻度が高く、主題に近い「AA
社」に関する日付かというと、そうではない。文抽出に
よって対象の内容の中心部分を取り出しておき、さらに
パタンによって抽出することで、対象の中心主題であ
り、かつ必要と思われる情報だけを取り出すことがで
き、より精度の高い重要情報を得ることができるのであ
る。例えばこれを文抽出結果と結び付けて格納すれば、
精度のよいキーワードとその重要情報として提示でき、
また、複数の文書に対しておこなった場合には、情報抽
出結果を同パタンから得られた情報(例えば日付など)
ごとに並べることで、複数文書の重要情報の閲覧も可能
である。このように、この実施例によれば、文抽出によ
って文書中の重要な個所を限定し、さらに、パタン抽出
によってより特定の情報を得られるので、文書中のより
重要な情報を抽出でき、かつ、短時間で特定の情報だけ
を得ることができる。また、文抽出結果と対応づけるこ
とにより、詳しい情報の閲覧も可能である。
【0024】次に、第6の実施例について説明する。こ
の実施例の重要文抽出システムは、システム構成が図1
に示した第1の実施例と同じで、文抽出時、選択した範
囲について合致する文を抽出する。例えばパタン抽出部
3により得られた抽出結果に基づいて範囲を選択し、文
抽出をおこなうのである。以下、図13に示した処理フ
ローに従って、この実施例における重要情報判定部2の
動作を説明する。まず、パタン抽出部3により対象文書
中からパタンを用いた抽出をおこなう(S51)。そし
て、パタン抽出によって得られた語について重みづけと
いうような処理をおこなう(S52)。続いて、重み付
けされた抽出語を用いて文抽出部4が文を抽出し(S5
3)、パタン抽出および文抽出で得られた結果を対象文
書中での出現順に出力する(S54)。
【0025】以下、文書例で説明する。 文書例: ―――――――――――――――――――――――――――――――――― AA社は、6月15日に新製品であるパソコン「PC−M630」を発売すると 発表した。 AA社の新製品は、1年ぶりであり、現在の状況が改善されたことを示すといえ る。 また、これに対応して、BB社は、AA社のパソコン向けの周辺機器群を発売す ると発表した。BB社の発売は6月30日としている。 競合のDD社は、好評のラインナップを増やす方向で、AA社の製品に対抗する かまえである。DD社は7月1日に新製品を発売する予定。 ―――――――――――――――――――――――――――――――――― まず、パタン辞書を用いてパタン抽出をおこなう。例え
ば図14のパタン辞書を使ってパタン抽出をおこなう
と、「6月15日」「6月30日」「7月1日」が抽出
される。この実施例では、パタン抽出で得られたこれら
の語句について、文抽出では、通常の頻度の集計に加え
て、評価値(重要度)を付与する。例えば、頻度2回以
上の語句は以下である。各頻度をそのまま評価値とす
る。 AA社 4回 →4 BB社 2回 →2 発売 4回 →4 新製品 3回 →3 パソコン 2回 →2 それに対して、パタン抽出で得られた語句については評
価値を5とする。 6月15日 1回→5 6月30日 1回→5 7月1日 1回→5
【0026】このような評価値で、出現した語句により
各文ごとに総計すると、先頭文から15、7、8、1
1、4、12となる。評価値11以上の文を抽出すると
以下となる。 ―――――――――――――――――――――――――――――――――― AA社は、6月15日に新製品であるパソコン「PC−M630」を発売すると 発表した。 BB社の発売は6月30日としている。 DD社は7月1日に新製品を発売する予定。 ―――――――――――――――――――――――――――――――――― 例えば日付などの数詞表現は、単語の頻度計算などで
は、頻度1などとなり、頻度をもとにした重要度計算で
は低い評価値になり、文抽出から漏れてしまうが、この
実施例では日付など重要文を抽出することができるので
ある。また、会社名について、例えば「AA社」が複合
語である場合には、頻度集計時には個々の構成語でしか
集計できないが、パタン抽出されると一概念を表わす単
位で集計し、その結果を反映できる。このように、この
実施例によれば、パタン抽出したのち、その結果が文抽
出時の評価値に加味されるので、パタンで抽出した事柄
に着目した文抽出をおこなうことができる。
【0027】次に、第7の実施例について説明する。こ
の実施例のシステム構成は図1に示した第1の実施例と
同じである。また、重要情報判定部2の機能は第6の実
施例と同じで、この実施例では、パタン抽出で得られた
表現を別表現に置き換えて文抽出する。例えば、パタン
辞書で規定された表現を各パタンの意味表現と置き換
え、そののち、文抽出するのである。図15に、パタン
と一致したパタンを意味表現に置き換えて格納する例を
示す。以下、文書例で説明する。 文書例: ―――――――――――――――――――――――――――――――――― AA社は、6月15日に新製品であるパソコン「PC−M630」を発売すると 発表した。 AA社の新製品は、1年ぶりであり、現在の状況が改善されたことを示すといえ る。 また、これに対応して、BB社は、AA社のパソコン向けの周辺機器群を発売す ると発表した。BB社の発売は6月30日としている。 競合のDD社は、好評のラインナップを増やす方向で、AA社の製品に対抗する かまえである。DD社は7月1日に新製品を発売する予定。 ―――――――――――――――――――――――――――――――――― この実施例では、図14のパタン辞書により、パタン抽
出をおこない、合致した表現について< >で囲まれた意
味表現に置き換える。結果は以下のようになる。 パタン抽出部処理後の例: ―――――――――――――――――――――――――――――――――― <企業名>は、<日付>に新製品であるパソコン「PC−M630」を発売すると発 表した。 <企業名>の新製品は、1年ぶりであり、現在の状況が改善されたことを示すとい える。 また、これに対応して、<企業名>は、<企業名>のパソコン向けの周辺機器群を発 売すると発表した。<企業名>の発売は<日付>としている。 競合の<企業名>は、好評のラインナップを増やす方向で、<企業名>の製品に対抗 するかまえである。<企業名>は<日付>に新製品を発売する予定。 ――――――――――――――――――――――――――――――――――
【0028】文抽出部4では、以上の結果に対して、各
語の頻度を算出する(頻度2以上)。 <企業名> 7回 <日付> 3回 発売 4回 新製品 3回 パソコン 2回 そして、例えば、これらの語を少なくとも3語以上含む
文を抽出すると、以下となる。 文抽出部処理後の例: ―――――――――――――――――――――――――――――――――― AA社は、6月15日に新製品であるパソコン「PC−M630」を発売すると 発表した。 また、これに対応して、BB社は、AA社のパソコン向けの周辺機器群を発売す ると発表した。BB社の発売は6月30日としている。 DD社は7月1日に新製品を発売する予定。 ―――――――――――――――――――――――――――――――――― 文抽出時に頻度を用いるとき、個々の表現ごとの頻度で
は、個々の細かい情報による区別ができるのに対して、
この実施例の方法では、日付や会社名と言ったより抽象
的な単位で集計したい場合に有効になるのである。
【0029】また、複数文書を対象とした例を、以下の
文書があった場合で説明する。 文書の例: ―――――――――――――――――――――――――――――――――― (社)AA電機は、2月15日に新製品Aシリーズを発売すると発表した。 AA電機は、好調なZシリーズにより業績は好調であり、加えて新シリーズを発 売することとした。AA電機は、業界4位だが、ここ数年の追い上げで上位グル ープに食い込んでいる。 また、この流れに対抗して、競合のCC社は、3月20日に従来の製品を改良し たパソコンを発売予定と発表している。 ―――――――――――――――――――――――――――――――――― パタン抽出部処理後の例: ―――――――――――――――――――――――――――――――――――― <企業名>は、<日付>に新製品Aシリーズを発売すると発表した。 <企業名>は、好調なZシリーズにより業績は好調であり、加えて新シリーズを発 売することとした。<企業名>は、業界4位だが、ここ数年の追い上げで上位グル ープに食い込んでいる。 また、この流れに対抗して、競合の<企業名>は、<日付>に従来の製品を改良した パソコンを発売予定と発表している。 ――――――――――――――――――――――――――――――――――
【0030】このような文書について頻度によって文抽
出すると、以下となる。 パタン抽出処理後の例: ―――――――――――――――――――――――――――――――――― <企業名>は、<日付>に新製品Aシリーズを発売すると発表した。 <企業名>は、好調なZシリーズにより業績は好調であり、加えて新シリーズを発 売することとした。また、この流れに対抗して、競合の<企業名>は、<日付>に従 来の製品を改良したパソコンを発売予定と発表している。 ―――――――――――――――――――――――――――――――――― また、先の文書については、同様に処理すると以下とな
る。 ―――――――――――――――――――――――――――――――――― <企業名>は、<日付>に新製品であるパソコン「PC−M630」を発売すると発 表した。 また、これに対応して、<企業名>は、<企業名>のパソコン向けの周辺機器群を発 売すると発表した。<企業名>の発売は<日付>としている。 <企業名>は<日付>に新製品を発売する予定。 ―――――――――――――――――――――――――――――――――― 以上から、二つの文書では、キーワードとしては、<企
業名>、<日付>、発売、新製品が共通に存在し、二文書
が内容的に類似していることが判定できる。このように
個々の単語や語句の頻度ではなく、パタン抽出によって
おきかえ、文抽出することにより、文書が類似している
かどうか判断でき、複数あるいは大量に文書があるとき
に文書の内容が把握しやすくなる。特に、詳細な内容で
はなく、文書の記述内容の概要やどんな類の文書かを知
りたい場合に有効である。また、複数の文書を対象にし
たときに、複数文書での類似や相違を見つける際に有効
である。類似の文書をまとめたり、他文書と区別したり
することが可能になるのである。こうして、この実施例
によれば、パタン抽出したのち、パタン抽出結果を他の
表現に置き換え、文抽出することにより、文書の概要や
どんな種類の文書かを短時間で把握しやすくなる。特
に、複数文書を対象にしたときには、類似文書を発見し
たり、他文書との区別を簡単におこなうことができる。
以上、図1に示した構成の重要文抽出システムを用いて
本発明の実施例を説明したが、説明したような本発明の
重要文抽出方法に従ってプログラミングしたプログラム
を着脱可能な記憶媒体に記憶し、その記憶媒体をこれま
で本発明によった重要文抽出をおこなえなかったパーソ
ナルコンピュータなど情報処理装置に装着することによ
り、または、そのようなプログラムをネットワークを介
してそのような情報処理装置へ転送することにより、そ
の情報処理装置においても本発明によった重要文抽出を
おこなうことができる。
【0031】
【発明の効果】以上説明したように、本発明によれば、
請求項1および請求項2記載の発明では、対象とする文
が個々の単語に分けられ、その個々の単語の並びのなか
から特定のパタンに合致する単語の並びが抽出され、個
々の単語の並びである文中から特定の条件に合致する文
が抽出され、抽出された単語の並びと抽出された文とを
用いて重要情報が抽出されるので、文書中のキーワード
をベースにした文抽出処理では抽出できない特定のパタ
ンの情報についても抽出でき、また、パタンでは抽出で
きない重要文を抽出でき、したがって、より高精度の重
要情報抽出が可能になる。また、請求項3記載の発明で
は、請求項2記載の発明において、抽出した単語の並び
と合致した文とに例えば意味情報などが付与され、その
意味情報を媒介に関連づけて記憶されるので、抽出結果
の検索や閲覧が容易になり、情報の把握を短時間でおこ
なうことができる。また、複数の文書の場合にも、意味
情報を用いて同じ観点から表示できるので、特定の観点
から見た閲覧が可能となり、短時間に複数の文書の内容
や概観を閲覧できる。また、請求項4記載の発明では、
請求項2記載の発明において、単語の並びを抽出する際
のパタンが文書のタイプによって変更されるので、より
精度のよいパタン抽出を実現でき、したがって、より精
度のよい重要情報抽出をおこなうことができる。また、
請求項5記載の発明では、請求項2または請求項4記載
の発明において、文書のタイプによって、さらに、文抽
出時の特定の条件が変更されるので、より文書タイプに
合致した文の抽出をおこなうことができる。
【0032】また、請求項6記載の発明では、請求項2
記載の発明において、文抽出によって文書中の重要な個
所が限定され、限定された文を対象にパタンに合致した
単語の並びが抽出されるので、文書中のより重要な情報
を抽出でき、かつ、短時間で特定の情報だけを得ること
ができる。また、文抽出結果と対応づけることにより、
詳しい情報の閲覧も可能になる。また、請求項7記載の
発明では、請求項2記載の発明において、単語の並びに
基づいてパタン抽出がおこなわれ、その結果が文抽出に
用いられるので、パタンで抽出した事柄に着目した文抽
出をおこなうことができる。また、請求項8記載の発明
では、請求項7記載の発明において、単語の並びに基づ
いて抽出された結果により、文抽出のために単語の並び
に対して付与される評価値が変更され、その評価値を用
いて文抽出がおこなわれるので、パタンで抽出した事柄
に着目した文抽出を効果的におこなうことができる。ま
た、請求項9記載の発明では、請求項7記載の発明にお
いて、単語の並びの表現が別表現に置き換えられ、その
別表現を用いて文抽出がおこなわれるので、文書の概要
やどんな種類の文書かを短時間で把握しやすくなる。特
に、複数文書を対象にしたときには、類似文書を発見し
たり、他文書との区別を簡単におこなうことができる。
また、請求項10記載の発明では、請求項2乃至請求項
9のいずれか1項に記載の重要情報抽出方法に従ってプ
ログラミングしたプログラムを情報処理装置上で実行す
ることができるので、情報処理装置を用いて請求項2乃
至請求項9のいずれか1項に記載の発明の効果を得るこ
とができる。また、請求項11記載の発明では、請求項
10記載のプログラムを着脱可能な記憶媒体に記憶する
ことができるので、その記憶媒体をこれまで請求項2乃
至請求項9のいずれか1項に記載の発明によった重要文
抽出をおこなえなかったパーソナルコンピュータなど情
報処理装置に装着することにより、その情報処理装置に
おいても請求項2乃至請求項9のいずれか1項に記載の
発明の効果を得ることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施例を示す重要情報抽出シス
テムの構成ブロック図である。
【図2】本発明の第1の実施例を示す重要情報抽出方法
の動作フロー図である。
【図3】本発明の第1の実施例を示す重要情報抽出方法
の他の動作フロー図である。
【図4】本発明の第1の実施例を示す重要情報抽出方法
の説明図である。
【図5】本発明の第2の実施例を示す重要情報抽出方法
の説明図である。
【図6】本発明の第3の実施例を示す重要情報抽出方法
の説明図である。
【図7】本発明の第3の実施例を示す重要情報抽出方法
の動作フロー図である。
【図8】本発明の第3の実施例を示す重要情報抽出方法
の他の動作フロー図である。
【図9】本発明の第4の実施例を示す重要情報抽出方法
の説明図である。
【図10】本発明の第4の実施例を示す重要情報抽出方
法の他の説明図である。
【図11】本発明の第5の実施例を示す重要情報抽出方
法の動作フロー図である。
【図12】本発明の第5の実施例を示す重要情報抽出方
法の説明図である。
【図13】本発明の第6の実施例を示す重要情報抽出方
法の動作フロー図である。
【図14】本発明の第6の実施例を示す重要情報抽出方
法の説明図である。
【図15】本発明の第7の実施例を示す重要情報抽出方
法の説明図である。
【符号の説明】
1 形態素解析部 2 重要情報判定部 3 パタン抽出部 4 文抽出部

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 文書中から重要情報を抽出する重要情報
    抽出システムにおいて、形態素解析をおこなって対象と
    する文を個々の単語に分ける形態素解析手段と、その形
    態素解析手段により分けられた個々の単語の並びのなか
    から特定のパタンに合致する単語の並びを抽出するパタ
    ン抽出手段と、前記個々の単語の並びである文中から特
    定の条件に合致する文を抽出する文抽出手段と、前記パ
    タン抽出手段により抽出された前記単語の並びと前記文
    抽出手段により抽出された前記文とを用いて重要情報を
    抽出する重要情報抽出手段とを備えたことを特徴とする
    重要情報抽出システム。
  2. 【請求項2】 文書中から重要情報を抽出する重要情報
    抽出方法において、形態素解析をおこなって文を個々の
    単語に分け、分けられた個々の単語の並びのなかから特
    定のパタンに合致する単語の並びを抽出するとともに、
    前記個々の単語の並びである文中から特定の条件に合致
    する文を抽出し、抽出した前記特定の単語の並びと前記
    合致する文とを用いて重要情報を抽出することを特徴と
    する重要情報抽出方法。
  3. 【請求項3】 請求項2記載の重要情報抽出方法におい
    て、抽出した前記単語の並びと前記合致する文とを関連
    づけて記憶することを特徴とする重要情報抽出方法。
  4. 【請求項4】 請求項2記載の重要情報抽出方法におい
    て、前記単語の並びを抽出する際の前記パタンを文書の
    タイプによって変更することを特徴とする重要情報抽出
    方法。
  5. 【請求項5】 請求項2または請求項4記載の重要情報
    抽出方法において、文書のタイプによって、さらに、前
    記文抽出時の前記特定の条件を変更することを特徴とす
    る重要情報抽出方法。
  6. 【請求項6】 請求項2記載の重要情報抽出方法におい
    て、前記文抽出時に抽出された文を対象に前記パタンに
    合致した単語の並びを抽出することを特徴とする重要情
    報抽出方法。
  7. 【請求項7】 請求項2記載の重要情報抽出方法におい
    て、前記単語の並びに基づいて抽出した結果を用いて文
    抽出をおこなうことを特徴とする重要情報抽出方法。
  8. 【請求項8】 請求項7記載の重要情報抽出方法におい
    て、前記単語の並びに基づいて抽出した結果を用いて、
    文抽出のために前記単語の並びに対して付与する評価値
    を変更して文抽出をおこなうことを特徴とする重要情報
    抽出方法。
  9. 【請求項9】 請求項7記載の重要情報抽出方法におい
    て、前記単語の並びの表現を別表現に置き換えて文抽出
    をおこなうことを特徴とする重要情報抽出方法。
  10. 【請求項10】 情報処理装置上で実行されるプログラ
    ムにおいて、請求項2乃至請求項9のいずれか1項に記
    載の重要情報抽出方法に従ってプログラミングしたこと
    を特徴とするプログラム。
  11. 【請求項11】 プログラムを記憶した記憶媒体におい
    て、請求項10記載のプログラムを記憶したことを特徴
    とする記憶媒体。
JP2002058977A 2002-03-05 2002-03-05 重要情報抽出システムおよび重要情報抽出方法 Pending JP2003256449A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002058977A JP2003256449A (ja) 2002-03-05 2002-03-05 重要情報抽出システムおよび重要情報抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002058977A JP2003256449A (ja) 2002-03-05 2002-03-05 重要情報抽出システムおよび重要情報抽出方法

Publications (1)

Publication Number Publication Date
JP2003256449A true JP2003256449A (ja) 2003-09-12

Family

ID=28668805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002058977A Pending JP2003256449A (ja) 2002-03-05 2002-03-05 重要情報抽出システムおよび重要情報抽出方法

Country Status (1)

Country Link
JP (1) JP2003256449A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8332208B2 (en) 2007-09-05 2012-12-11 Sony Corporation Information processing apparatus, information processing method, and program
JP5423904B2 (ja) * 2010-11-17 2014-02-19 富士通株式会社 情報処理装置、メッセージ抽出方法およびメッセージ抽出プログラム
JP2016095723A (ja) * 2014-11-14 2016-05-26 富士通株式会社 対応情報生成プログラム、対応情報生成装置及び対応情報生成方法
CN109426987A (zh) * 2017-09-05 2019-03-05 本田技研工业株式会社 评价装置、评价方法、噪声消除装置和程序存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8332208B2 (en) 2007-09-05 2012-12-11 Sony Corporation Information processing apparatus, information processing method, and program
JP5423904B2 (ja) * 2010-11-17 2014-02-19 富士通株式会社 情報処理装置、メッセージ抽出方法およびメッセージ抽出プログラム
JP2016095723A (ja) * 2014-11-14 2016-05-26 富士通株式会社 対応情報生成プログラム、対応情報生成装置及び対応情報生成方法
CN109426987A (zh) * 2017-09-05 2019-03-05 本田技研工业株式会社 评价装置、评价方法、噪声消除装置和程序存储介质
JP2019046289A (ja) * 2017-09-05 2019-03-22 本田技研工業株式会社 評価装置、評価方法、ノイズ除去装置、およびプログラム
US11132699B2 (en) 2017-09-05 2021-09-28 Honda Motor Co., Ltd. Apparatuses, method, and computer program for acquiring and evaluating information and noise removal

Similar Documents

Publication Publication Date Title
JP7028858B2 (ja) 電子記録の文脈検索のためのシステム及び方法
US7689411B2 (en) Concept matching
US7917519B2 (en) Categorized document bases
AU2010210014B2 (en) Systems, Methods and Apparatus for Relative Frequency Based Phrase Mining
US10552467B2 (en) System and method for language sensitive contextual searching
US20090070322A1 (en) Browsing knowledge on the basis of semantic relations
US20040098385A1 (en) Method for indentifying term importance to sample text using reference text
JP2012520527A (ja) ユーザ質問及びテキスト文書の意味ラベリングに基づく質問応答システム及び方法
JP2010055618A (ja) トピックを基にした検索を提供する方法及びシステム
JP2009104630A (ja) 大規模な電子的なドキュメントのコレクション(集まり)を探索するためのドキュメント関連性の決定に対する機械学習アプローチ
WO2000075809A1 (fr) Procede de triage d&#39;informations, trieur d&#39;informations, support enregistre sur lequel le programme de triage d&#39;informations est enregistre
JP2004287725A (ja) 検索処理方法及びプログラム
Harkema et al. Information extraction from clinical records
JP5224532B2 (ja) 評判情報分類装置及びプログラム
JP2005190284A (ja) 情報分類装置および情報分類方法
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JP2003256449A (ja) 重要情報抽出システムおよび重要情報抽出方法
JPH11296537A (ja) 情報検索システム、情報提供装置、情報検索端末装置、情報検索方法および記憶媒体
JP2006065366A (ja) キーワード分類装置およびその方法、端末装置ならびにプログラム
JP2002278982A (ja) 情報抽出方法および情報検索方法
JP7171352B2 (ja) ワークショップ支援システム及びワークショップ支援方法
Samuel et al. Mining online full-text literature for novel protein interaction discovery
JP2005092443A (ja) クラスター分析装置およびクラスター分析方法
Kanavos et al. Topic categorization of biomedical abstracts
WO2009035871A1 (en) Browsing knowledge on the basis of semantic relations

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041208

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070904

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080108