JP2000029894A - 主題文抽出方式 - Google Patents
主題文抽出方式Info
- Publication number
- JP2000029894A JP2000029894A JP10196918A JP19691898A JP2000029894A JP 2000029894 A JP2000029894 A JP 2000029894A JP 10196918 A JP10196918 A JP 10196918A JP 19691898 A JP19691898 A JP 19691898A JP 2000029894 A JP2000029894 A JP 2000029894A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- subject
- extraction method
- weight
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 予め抽出すべき情報が分かっていないときで
も、電子化テキストから主題文の抽出を行えるようにす
る。 【解決手段】 主題文の抽出対象である文章データ中の
固有名詞、普通名詞、サ変名詞等の各名詞にスコアを付
与した後(ステップS11)、これらのスコアを各文毎
に加算して各文毎のスコアを求める(ステップS1
2)。文章データ中のn番目(任意の順番)の文Lnに
おけるスコアSnを、Sn=Ln により求める。各文
の関数F(Ln)のうちから、その極大値を与える文L
mを文章データの主題文に決定する(ステップS1
4)。主題文の長さが所定の長さに制限されるときは、
主題文の文字数と原文章の文字数とを要素にして定義さ
れる要約率を用いて主題文の長さを調整し(ステップS
16)、一連の処理動作を終了する。要約率を変化させ
る必要がないと判断したときは(ステップS15)、直
ちに一連の処理動作を終了する。
も、電子化テキストから主題文の抽出を行えるようにす
る。 【解決手段】 主題文の抽出対象である文章データ中の
固有名詞、普通名詞、サ変名詞等の各名詞にスコアを付
与した後(ステップS11)、これらのスコアを各文毎
に加算して各文毎のスコアを求める(ステップS1
2)。文章データ中のn番目(任意の順番)の文Lnに
おけるスコアSnを、Sn=Ln により求める。各文
の関数F(Ln)のうちから、その極大値を与える文L
mを文章データの主題文に決定する(ステップS1
4)。主題文の長さが所定の長さに制限されるときは、
主題文の文字数と原文章の文字数とを要素にして定義さ
れる要約率を用いて主題文の長さを調整し(ステップS
16)、一連の処理動作を終了する。要約率を変化させ
る必要がないと判断したときは(ステップS15)、直
ちに一連の処理動作を終了する。
Description
【0001】
【発明の属する技術分野】本発明は、一般に主題文抽出
方式に関し、特にユーザによる電子化テキストの要否判
断や、その内容理解を支援するのに好適な主題文抽出方
式に関する。
方式に関し、特にユーザによる電子化テキストの要否判
断や、その内容理解を支援するのに好適な主題文抽出方
式に関する。
【0002】
【従来の技術】従来、電子化テキスト(文章データ)中
から主題文を抽出する手法の1つとして、図1に示すよ
うに、文章データ1中の特定の表現等に着目してテンプ
レート3を作成し、それを用いてパターンマッチング5
を行うことにより上記文章データ1中から主題文7を抽
出する手法が知られている。図1の例では、文章データ
作成者からの質問事項が予め分かっているために、問い
合わせ表現である「教えて下さい」31に着目し、この
表現を含む一文を主題文7として抽出している。上記手
法は、特開平9-198406号公報の発明や、ネットニュース
グループfj.wantedのダイジェスト自動生成(自然言語
処理Vol.3,No.2)にも使用されている。
から主題文を抽出する手法の1つとして、図1に示すよ
うに、文章データ1中の特定の表現等に着目してテンプ
レート3を作成し、それを用いてパターンマッチング5
を行うことにより上記文章データ1中から主題文7を抽
出する手法が知られている。図1の例では、文章データ
作成者からの質問事項が予め分かっているために、問い
合わせ表現である「教えて下さい」31に着目し、この
表現を含む一文を主題文7として抽出している。上記手
法は、特開平9-198406号公報の発明や、ネットニュース
グループfj.wantedのダイジェスト自動生成(自然言語
処理Vol.3,No.2)にも使用されている。
【0003】
【発明が解決しようとする課題】ところで、上述した主
題文抽出方法においては、予め抽出すべき情報、及びそ
の形式が分かっていなければテンプレート3を作成する
ことができないという問題や、全ての分野に通用する汎
用性のあるテンプレート3を作成することができないと
いう問題がある。また、ユーザが書く文章は、意味が同
じでも異なる表記で書かれていることもあるので、上記
テンプレート3を用いてユーザが書くであろう全ての表
記のパターンを網羅することは困難であるという問題も
ある。
題文抽出方法においては、予め抽出すべき情報、及びそ
の形式が分かっていなければテンプレート3を作成する
ことができないという問題や、全ての分野に通用する汎
用性のあるテンプレート3を作成することができないと
いう問題がある。また、ユーザが書く文章は、意味が同
じでも異なる表記で書かれていることもあるので、上記
テンプレート3を用いてユーザが書くであろう全ての表
記のパターンを網羅することは困難であるという問題も
ある。
【0004】更に、上述した方法では、例えば図2に示
すように、主題文として相応しくないにも拘わらず、上
記テンプレート3によるパターンマッチング5の結果、
文章データ1´中の上記テンプレート3にマッチすると
された文は全て主題文7´として出力するという不具合
が生じることになる。そのため、上記不具合が生じるの
を防ぐ対策として、さまざまなヒューリスティックス
(発見的情報或いは発見的関数)により、上記テンプレ
ート3にマッチする主題文となり得る表現パターンを定
義する方法も検討された。しかし、大規模な電子化テキ
ストデータに対し、その全てに有効となるヒューリステ
ィックスを見付け出すことは困難であったので、上記対
策は実用に供し得るものではなかった。
すように、主題文として相応しくないにも拘わらず、上
記テンプレート3によるパターンマッチング5の結果、
文章データ1´中の上記テンプレート3にマッチすると
された文は全て主題文7´として出力するという不具合
が生じることになる。そのため、上記不具合が生じるの
を防ぐ対策として、さまざまなヒューリスティックス
(発見的情報或いは発見的関数)により、上記テンプレ
ート3にマッチする主題文となり得る表現パターンを定
義する方法も検討された。しかし、大規模な電子化テキ
ストデータに対し、その全てに有効となるヒューリステ
ィックスを見付け出すことは困難であったので、上記対
策は実用に供し得るものではなかった。
【0005】従って本発明の目的は、予め抽出すべき情
報が分かっていないときでも、電子化テキストから主題
文の抽出を行えるようにすることにある。
報が分かっていないときでも、電子化テキストから主題
文の抽出を行えるようにすることにある。
【0006】
【課題を解決するための手段】本発明の第1の側面に従
う主題文抽出方式は、文章データに含まれる複数の単語
に夫々重み付けする手段と、各単語に付与された夫々の
重みに基づき、文章データを構成する各文毎の重みを求
める手段と、各文毎の重みの比較結果に基づき、文章デ
ータにおける主題文を決定する手段とを備える。
う主題文抽出方式は、文章データに含まれる複数の単語
に夫々重み付けする手段と、各単語に付与された夫々の
重みに基づき、文章データを構成する各文毎の重みを求
める手段と、各文毎の重みの比較結果に基づき、文章デ
ータにおける主題文を決定する手段とを備える。
【0007】上記構成によれば、各文毎の重みの比較結
果に基づき、文章データにおける主題文を決定すること
としたので、従来のテンプレートマッチング法に基づく
パターンマッチングを用いた場合とは異なり、予め抽出
すべき情報が分かっていないときでも、電子化テキスト
から主題文の抽出を行える。
果に基づき、文章データにおける主題文を決定すること
としたので、従来のテンプレートマッチング法に基づく
パターンマッチングを用いた場合とは異なり、予め抽出
すべき情報が分かっていないときでも、電子化テキスト
から主題文の抽出を行える。
【0008】本発明の第1の側面に係る好適な実施形態
では、文章データは、電子化されたテキストデータであ
り、各単語への重みの付与は、文章データ中から名詞、
動詞などの自立語を選択し、それらの自立語に対して行
われる。各単語は、文章データを形態素解析することに
より抽出される。また、単語の重み付けは、文章データ
を構成する文の数、文章データ中の任意の順番の文中に
含まれる単語の数、及びその文中に上述した単語が含ま
れているか否かから求められる。また、各文毎の重み
は、各単語に付与された夫々の重みを、各文毎に加算す
ることにより求められる。主題文決定手段は、各文毎の
重みを比較して、極大の重みを有する文を文章データに
おける主題文に決定する。
では、文章データは、電子化されたテキストデータであ
り、各単語への重みの付与は、文章データ中から名詞、
動詞などの自立語を選択し、それらの自立語に対して行
われる。各単語は、文章データを形態素解析することに
より抽出される。また、単語の重み付けは、文章データ
を構成する文の数、文章データ中の任意の順番の文中に
含まれる単語の数、及びその文中に上述した単語が含ま
れているか否かから求められる。また、各文毎の重み
は、各単語に付与された夫々の重みを、各文毎に加算す
ることにより求められる。主題文決定手段は、各文毎の
重みを比較して、極大の重みを有する文を文章データに
おける主題文に決定する。
【0009】主題文決定手段は、最初の文の重みが第2
番目の文の重みより大きいときには最初の文を、また、
最終の文の重みがその1つ前の文の重みより大きいとき
には最終の文を、夫々主題文に含める。更に、主題文の
決定は、文章データの文字数、及び主題文とされる文の
文字数を要素として定義される要約率を可変することに
より行われる。
番目の文の重みより大きいときには最初の文を、また、
最終の文の重みがその1つ前の文の重みより大きいとき
には最終の文を、夫々主題文に含める。更に、主題文の
決定は、文章データの文字数、及び主題文とされる文の
文字数を要素として定義される要約率を可変することに
より行われる。
【0010】本発明の第2の側面に従う主題文抽出方法
は、文章データに含まれる複数の単語に夫々重み付けす
る第1の過程と、各単語に付与された夫々の重みに基づ
き、文章データを構成する各文毎の重みを求める第2の
過程と、各文毎の重みの比較結果に基づき、文章データ
における主題文を決定する第3の過程とを備える。
は、文章データに含まれる複数の単語に夫々重み付けす
る第1の過程と、各単語に付与された夫々の重みに基づ
き、文章データを構成する各文毎の重みを求める第2の
過程と、各文毎の重みの比較結果に基づき、文章データ
における主題文を決定する第3の過程とを備える。
【0011】本発明の第3の側面に従うプログラム媒体
は、文章データに含まれる複数の単語に夫々重み付けす
る手段と、各単語に付与された夫々の重みに基づき、文
章データを構成する各文毎の重みを求める手段と、各文
毎の重みの比較結果に基づき、文章データにおける主題
文を決定する手段とを備える主題文抽出方式における上
記各手段としてコンピュータを動作させるためのコンピ
ュータプログラムをコンピュータ読取可能に担持する。
は、文章データに含まれる複数の単語に夫々重み付けす
る手段と、各単語に付与された夫々の重みに基づき、文
章データを構成する各文毎の重みを求める手段と、各文
毎の重みの比較結果に基づき、文章データにおける主題
文を決定する手段とを備える主題文抽出方式における上
記各手段としてコンピュータを動作させるためのコンピ
ュータプログラムをコンピュータ読取可能に担持する。
【0012】
【発明の実施の形態】以下、本発明の実施の形態を、図
面により詳細に説明する。
面により詳細に説明する。
【0013】図3は、本発明の一実施形態に係る主題文
抽出方式における処理流れを示す図である。
抽出方式における処理流れを示す図である。
【0014】上記方式は、パソコン(図示しない)等の
端末に構築されるもので、テンプレートマッチング法に
基づくパターンマッチングに頼るのではなく、電子化テ
キスト(文章データ)を構成する各文に含まれる名詞の
重み(スコア)の合計値を各文のスコアに定め、各文の
スコアに基づいて主題文を決定することとしている。こ
れにより、上記方式では、予めユーザが抽出したい情報
が分かっていないときでも文章データ中から主題文を抽
出することができるのである。
端末に構築されるもので、テンプレートマッチング法に
基づくパターンマッチングに頼るのではなく、電子化テ
キスト(文章データ)を構成する各文に含まれる名詞の
重み(スコア)の合計値を各文のスコアに定め、各文の
スコアに基づいて主題文を決定することとしている。こ
れにより、上記方式では、予めユーザが抽出したい情報
が分かっていないときでも文章データ中から主題文を抽
出することができるのである。
【0015】図3において、まず、主題文の抽出対象で
ある文章データ中の各単語、即ち、固有名詞、普通名詞
及びサ変名詞等の各名詞にスコアを付与した後(ステッ
プS11)、これらの付与されたスコアを各文毎に加算
することによって、各文毎のスコアを求める(ステップ
S12)。次に、このようにして文章データを構成する
全ての文についてスコアを求めた後、文章データ中のn
番目(任意の順番)の文LnにおけるスコアSnを、下
記の(1)式により求める(ステップS13)。
ある文章データ中の各単語、即ち、固有名詞、普通名詞
及びサ変名詞等の各名詞にスコアを付与した後(ステッ
プS11)、これらの付与されたスコアを各文毎に加算
することによって、各文毎のスコアを求める(ステップ
S12)。次に、このようにして文章データを構成する
全ての文についてスコアを求めた後、文章データ中のn
番目(任意の順番)の文LnにおけるスコアSnを、下
記の(1)式により求める(ステップS13)。
【0016】Sn=Ln……………………(1) (1)式により求めた各文の関数F(Ln)のうちか
ら、その極大値を与える文Lmを、上記文章データの主
題文に決定する(ステップS14)。
ら、その極大値を与える文Lmを、上記文章データの主
題文に決定する(ステップS14)。
【0017】ここで、上記方式におけるサービス上の要
件として、上記ステップS14で決定した主題文の長さ
が所定の長さに制限されることがある。その場合、指定
された長さに応じて上記主題文の長さを調整する必要が
生じる。本実施形態では、主題文の長さを調整するため
の手段として、下記の(2)式で定義される要約率を用
いる。
件として、上記ステップS14で決定した主題文の長さ
が所定の長さに制限されることがある。その場合、指定
された長さに応じて上記主題文の長さを調整する必要が
生じる。本実施形態では、主題文の長さを調整するため
の手段として、下記の(2)式で定義される要約率を用
いる。
【0018】 要約率=1−(主題文の文字数/原文章の文字数)…………(2) (2)式から『要約率が高い』とは限られた主題文のみ
を抽出することを意味しており、『要約率が低い』とは
多くの主題文を抽出することを意味していることが明ら
かである。
を抽出することを意味しており、『要約率が低い』とは
多くの主題文を抽出することを意味していることが明ら
かである。
【0019】次に、要約率を変化させる必要があると判
断したときは(ステップS15)、ステップS14で得
たLmに関して任意のjに対しLm−jからLm+jまでの
文を主題文にすることにより要約率を変化させる手法を
採用し(ステップS16)、一連の処理動作を終了す
る。一方、要約率を変化させる必要がないと判断したと
きは(ステップS15)、直ちに一連の処理動作を終了
する。
断したときは(ステップS15)、ステップS14で得
たLmに関して任意のjに対しLm−jからLm+jまでの
文を主題文にすることにより要約率を変化させる手法を
採用し(ステップS16)、一連の処理動作を終了す
る。一方、要約率を変化させる必要がないと判断したと
きは(ステップS15)、直ちに一連の処理動作を終了
する。
【0020】なお、上述した手法は、テンプレートマッ
チング法に基づくパターンマッチングによる主題文抽出
の手法と相反するものではない。予めユーザが抽出した
い情報及びその形式が分かっている場合に、そのパター
ンに適合する文については、その文のスコアを高く設定
することにより、その文の主題文としての重要度を増す
ことができる。
チング法に基づくパターンマッチングによる主題文抽出
の手法と相反するものではない。予めユーザが抽出した
い情報及びその形式が分かっている場合に、そのパター
ンに適合する文については、その文のスコアを高く設定
することにより、その文の主題文としての重要度を増す
ことができる。
【0021】図4は、本発明の一実施形態に係る主題文
抽出方式が適用される電子化テキスト(文章データ)の
一例を示す説明図、図5及び図6は、本発明の一実施形
態に係る主題文抽出方式により図4に示す電子化テキス
トから主題文を抽出するときの過程を示す説明図であ
る。
抽出方式が適用される電子化テキスト(文章データ)の
一例を示す説明図、図5及び図6は、本発明の一実施形
態に係る主題文抽出方式により図4に示す電子化テキス
トから主題文を抽出するときの過程を示す説明図であ
る。
【0022】図4及び図5において、まず、文番号
(1)〜(9)が夫々付与される9個の文から構成され
る文章データ11を形態素解析することにより(ステッ
プS21)、文章データ11中から「普通名詞」、「固
有名詞」、「サ変名詞」及び「未定義語」を取り出し、
これらの単語に重み付けを行う(ステップS22)。
(1)〜(9)が夫々付与される9個の文から構成され
る文章データ11を形態素解析することにより(ステッ
プS21)、文章データ11中から「普通名詞」、「固
有名詞」、「サ変名詞」及び「未定義語」を取り出し、
これらの単語に重み付けを行う(ステップS22)。
【0023】ここで、単語に重み付けを行う手法につい
て説明する。
て説明する。
【0024】上記手法については、さまざまなものが提
案されている(「出現頻度に基づく単語重み付けの原
理」Library and Information Science No.26,1988)
が、この例では、単語kの重み(スコア)Wkを下記の
(3)式により決定した(「テキストのフォーマットと
単語の範囲内重要度を利用したキーワード抽出」情報処
理学会論文誌 Vol.38,No.2)。
案されている(「出現頻度に基づく単語重み付けの原
理」Library and Information Science No.26,1988)
が、この例では、単語kの重み(スコア)Wkを下記の
(3)式により決定した(「テキストのフォーマットと
単語の範囲内重要度を利用したキーワード抽出」情報処
理学会論文誌 Vol.38,No.2)。
【0025】
【数1】 但し、Mは、テキスト(文章データ)中の文の数であ
り、Niは、i番目の文に含まれる単語数であり、αi
は、i番目の文に単語kが存在する場合は「1」、存在
しない場合は「0」である。
り、Niは、i番目の文に含まれる単語数であり、αi
は、i番目の文に単語kが存在する場合は「1」、存在
しない場合は「0」である。
【0026】次に、上記のようにして求めた各単語の重
み(スコア)を各文毎に加算することによって、各文毎
のスコアを求め(ステップS23)、図6に示すように
各文の番号Lnと、各文毎のスコアSn(即ち、F(L
n))との関係を関数に模擬することによってスコアS
nの極大値を求める(ステップS24)。
み(スコア)を各文毎に加算することによって、各文毎
のスコアを求め(ステップS23)、図6に示すように
各文の番号Lnと、各文毎のスコアSn(即ち、F(L
n))との関係を関数に模擬することによってスコアS
nの極大値を求める(ステップS24)。
【0027】この場合、極大値をとる文は、第5文であ
ることが図6より明らかである。なお、本実施形態で
は、第1文については、第2文のスコアが第1文のそれ
よりも小さい場合に極大とし、最終の文については、そ
の1つ前の文のスコアが最終の文のそれよりも小さい場
合に極大とするので、第1文についても極大値をとる文
であると見做す。よって、この例では、第5文に加えて
第1文も極大値をとるものとする。
ることが図6より明らかである。なお、本実施形態で
は、第1文については、第2文のスコアが第1文のそれ
よりも小さい場合に極大とし、最終の文については、そ
の1つ前の文のスコアが最終の文のそれよりも小さい場
合に極大とするので、第1文についても極大値をとる文
であると見做す。よって、この例では、第5文に加えて
第1文も極大値をとるものとする。
【0028】ここで、前述した要約率が0.697に設
定されていれば、主題文は上述した第1文及び第5文の
みであるから、図7に示すように第1文及び第5文が主
題文として端末から出力される。しかし、要約率が0.
397に設定されている場合には、図8に示すように上
述した第1文及び第5文に加えて、更に第2文、第4文
及び第6文も主題文として端末から出力されることにな
る。
定されていれば、主題文は上述した第1文及び第5文の
みであるから、図7に示すように第1文及び第5文が主
題文として端末から出力される。しかし、要約率が0.
397に設定されている場合には、図8に示すように上
述した第1文及び第5文に加えて、更に第2文、第4文
及び第6文も主題文として端末から出力されることにな
る。
【0029】以上説明したように、本発明の一実施形態
によれば、電子化テキストから主題文を抽出するに際し
て、テンプレートマッチング法に基づくパターンマッチ
ングの手法を利用することができない場合でも、主題文
の抽出が行える。これにより、幅広い分野において、テ
ンプレートを作成しなくても主題文の抽出が可能にな
る。また、図2に示したような主題文に相応しくない文
を主題文として抽出してしまうような不具合が生じ難く
なるので、主題文の抽出精度を向上させることができ
る。よって、ユーザは電子化テキストの全てに目を通さ
なくても電子化テキストより抽出された主題文に着目す
ることで上記電子化テキストの概要を把握することがで
きる。
によれば、電子化テキストから主題文を抽出するに際し
て、テンプレートマッチング法に基づくパターンマッチ
ングの手法を利用することができない場合でも、主題文
の抽出が行える。これにより、幅広い分野において、テ
ンプレートを作成しなくても主題文の抽出が可能にな
る。また、図2に示したような主題文に相応しくない文
を主題文として抽出してしまうような不具合が生じ難く
なるので、主題文の抽出精度を向上させることができ
る。よって、ユーザは電子化テキストの全てに目を通さ
なくても電子化テキストより抽出された主題文に着目す
ることで上記電子化テキストの概要を把握することがで
きる。
【0030】なお、上述した内容は、あくまで本発明の
一実施形態に関するものであって、本発明が上記内容の
みに限定されることを意味するものでないのは勿論であ
る。
一実施形態に関するものであって、本発明が上記内容の
みに限定されることを意味するものでないのは勿論であ
る。
【0031】
【発明の効果】以上説明したように、本発明によれば、
予め抽出すべき情報が分かっていないときでも、電子化
テキストから主題文の抽出を行えるようにすることがで
きる。
予め抽出すべき情報が分かっていないときでも、電子化
テキストから主題文の抽出を行えるようにすることがで
きる。
【図1】従来の主題文抽出方式を適用して得られる好適
な主題文の一例を示す説明図。
な主題文の一例を示す説明図。
【図2】従来の主題文抽出方式を適用して得られる相応
しくない主題文の一例を示す説明図。
しくない主題文の一例を示す説明図。
【図3】本発明の一実施形態に係る主題文抽出方式にお
ける処理流れを示す図。
ける処理流れを示す図。
【図4】本発明の一実施形態に係る主題文抽出方式が適
用される電子化テキスト(文章データ)の一例を示す説
明図。
用される電子化テキスト(文章データ)の一例を示す説
明図。
【図5】本発明の一実施形態に係る主題文抽出方式によ
り図4の電子化テキストから主題文を抽出するときの過
程を示す説明図。
り図4の電子化テキストから主題文を抽出するときの過
程を示す説明図。
【図6】本発明の一実施形態に係る主題文抽出方式によ
り図4の電子化テキストから主題文を抽出するときの過
程を示す説明図。
り図4の電子化テキストから主題文を抽出するときの過
程を示す説明図。
【図7】端末から出力される主題文を示す説明図。
【図8】端末から出力される主題文を示す説明図。
(1)〜(9) 文番号 (1)、(2)、(4)、(5)、(6) 主題文 11 文章データ
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 ND03 NS01 PP30 PQ00 PR10 QM10 QP10 UU05 UU11 UU40 5B091 AA15 BA02 BA03 CA02 CA22 CA24 CC02 DA04 DA13
Claims (11)
- 【請求項1】 文章データに含まれる複数の単語に夫々
重み付けする手段と、 前記各単語に付与された夫々の重みに基づき、前記文章
データを構成する各文毎の重みを求める手段と、 前記各文毎の重みの比較結果に基づき、前記文章データ
における主題文を決定する手段と、 を備える主題文抽出方式。 - 【請求項2】 請求項1記載の主題文抽出方式におい
て、 前記文章データが、電子化されたテキストデータである
ことを特徴とする主題文抽出方式。 - 【請求項3】 請求項1記載の主題文抽出方式におい
て、 前記各単語への重みの付与が、前記文章データ中から名
詞、動詞などの自立語を選択し、それらの自立語に対し
て行われることを特徴とする主題文抽出方式。 - 【請求項4】 請求項1記載の主題文抽出方式におい
て、 前記各単語が、前記文章データを形態素解析することに
より抽出されることを特徴とする主題文抽出方式。 - 【請求項5】 請求項1記載の主題文抽出方式におい
て、 前記単語の重み付けが、前記文章データを構成する文の
数、前記文章データ中の任意の順番の文中に含まれる単
語の数、及びその文中に前記単語が含まれているか否か
から求められることを特徴とする主題文抽出方式。 - 【請求項6】 請求項1記載の主題文抽出方式におい
て、 前記各文毎の重みが、前記各単語に付与された夫々の重
みを、各文毎に加算することにより求められることを特
徴とする主題文抽出方式。 - 【請求項7】 請求項1記載の主題文抽出方式におい
て、 前記主題文決定手段が、前記各文毎の重みを比較して、
極大の重みを有する文を前記文章データにおける主題文
に決定することを特徴とする主題文抽出方式。 - 【請求項8】 請求項1記載の主題文抽出方式におい
て、 前記主題文決定手段が、最初の文の重みが第2番目の文
の重みより大きいときには最初の文を、また、最終の文
の重みがその1つ前の文の重みより大きいときには最終
の文を、夫々主題文に含めることを特徴とする主題文抽
出方式。 - 【請求項9】 請求項1記載の主題文抽出方式におい
て、 前記主題文の決定が、文章データの文字数、及び主題文
とされる文の文字数を要素として定義される要約率を可
変することにより行われることを特徴とする主題文抽出
方式。 - 【請求項10】 文章データに含まれる複数の単語に夫
々重み付けする第1の過程と、 前記各単語に付与された夫々の重みに基づき、前記文章
データを構成する各文毎の重みを求める第2の過程と、 前記各文毎の重みの比較結果に基づき、前記文章データ
における主題文を決定する第3の過程と、 を備える主題文抽出方法。 - 【請求項11】 文章データに含まれる複数の単語に夫
々重み付けする手段と、 前記各単語に付与された夫々の重みに基づき、前記文章
データを構成する各文毎の重みを求める手段と、 前記各文毎の重みの比較結果に基づき、前記文章データ
における主題文を決定する手段と、 を備える主題文抽出方式における前記各手段としてコン
ピュータを動作させるためのコンピュータプログラムを
担持したコンピュータ読取可能なプログラム媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10196918A JP2000029894A (ja) | 1998-07-13 | 1998-07-13 | 主題文抽出方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10196918A JP2000029894A (ja) | 1998-07-13 | 1998-07-13 | 主題文抽出方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000029894A true JP2000029894A (ja) | 2000-01-28 |
Family
ID=16365840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10196918A Pending JP2000029894A (ja) | 1998-07-13 | 1998-07-13 | 主題文抽出方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000029894A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004524559A (ja) * | 2001-01-23 | 2004-08-12 | エデュケーショナル テスティング サービス | 論文の自動分析方法 |
US7769339B2 (en) | 2002-06-24 | 2010-08-03 | Educational Testing Service | Automated essay scoring |
US7796937B2 (en) | 2002-01-23 | 2010-09-14 | Educational Testing Service | Automated annotation |
JP2012141772A (ja) * | 2010-12-28 | 2012-07-26 | Yahoo Japan Corp | トピック作成支援装置、トピック作成支援方法およびトピック作成支援プログラム |
-
1998
- 1998-07-13 JP JP10196918A patent/JP2000029894A/ja active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004524559A (ja) * | 2001-01-23 | 2004-08-12 | エデュケーショナル テスティング サービス | 論文の自動分析方法 |
US7729655B2 (en) | 2001-01-23 | 2010-06-01 | Educational Testing Service | Methods for automated essay analysis |
US8452225B2 (en) | 2001-01-23 | 2013-05-28 | Educational Testing Service | Methods for automated essay analysis |
US7796937B2 (en) | 2002-01-23 | 2010-09-14 | Educational Testing Service | Automated annotation |
US8626054B2 (en) | 2002-01-23 | 2014-01-07 | Educational Testing Service | Automated annotation |
US7769339B2 (en) | 2002-06-24 | 2010-08-03 | Educational Testing Service | Automated essay scoring |
US8467716B2 (en) | 2002-06-24 | 2013-06-18 | Educational Testing Service | Automated essay scoring |
JP2012141772A (ja) * | 2010-12-28 | 2012-07-26 | Yahoo Japan Corp | トピック作成支援装置、トピック作成支援方法およびトピック作成支援プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6782505B1 (en) | Method and system for generating structured data from semi-structured data sources | |
Juola et al. | A prototype for authorship attribution studies | |
JP2000081892A (ja) | 効果音付加装置および効果音付加方法 | |
US20110029545A1 (en) | Syllabic search engines and related methods | |
JP4299963B2 (ja) | 意味的まとまりに基づいて文書を分割する装置および方法 | |
JP2008287406A (ja) | 情報処理装置および情報処理方法、プログラム、並びに、記録媒体 | |
Kharade et al. | Text summarization of an article extracted from Wikipedia Using NLTK Library | |
JP2000029894A (ja) | 主題文抽出方式 | |
JP3787310B2 (ja) | キーワード決定方法、装置、プログラム、および記録媒体 | |
JP3363501B2 (ja) | テキスト検索装置 | |
Tugwell et al. | Wasp-bench: a lexicographic tool supporting word sense disambiguation | |
JPH0877196A (ja) | 文書情報抽出装置 | |
Buerki | Frequency consolidation among word N-grams: a practical procedure | |
JP2004334699A (ja) | テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体 | |
JP6843689B2 (ja) | コンテキストに応じた対話シナリオを生成する装置、プログラム及び方法 | |
Maheshwari et al. | Towards language technology for Mi’kmaq | |
Pretorius et al. | Finite-state computational morphology-treatment of the zulu noun | |
JP3500698B2 (ja) | キーワード抽出装置及びキーワード抽出方法 | |
JP6695538B1 (ja) | 類似文章検索装置およびプログラム | |
JP3161660B2 (ja) | キーワード検索方法 | |
JP2003173335A (ja) | 自然言語対話装置及び方法並びに記憶媒体 | |
Abdelmounaim et al. | A Comparative Analysis of Sentence Embedding Techniques and LSTM Models in Web Page Classification | |
JPH1145255A (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2007299071A (ja) | 評判情報処理システム、評判情報処理方法及び評判情報処理プログラム | |
JP6996190B2 (ja) | 複合語生成装置、プログラム及び複合語生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD05 | Notification of revocation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7425 Effective date: 20040903 |