JP4462014B2 - 話題語結合方法及び装置及びプログラム - Google Patents
話題語結合方法及び装置及びプログラム Download PDFInfo
- Publication number
- JP4462014B2 JP4462014B2 JP2004331067A JP2004331067A JP4462014B2 JP 4462014 B2 JP4462014 B2 JP 4462014B2 JP 2004331067 A JP2004331067 A JP 2004331067A JP 2004331067 A JP2004331067 A JP 2004331067A JP 4462014 B2 JP4462014 B2 JP 4462014B2
- Authority
- JP
- Japan
- Prior art keywords
- topic
- word
- document
- words
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明(請求項1)は、話題語同士の関連性から話題語を結合する話題語結合方法において、
本文(ある事柄に関して記述されている、意味のある文章によって構成される)と日付(その文書の作成日付もしくは公開日付などを示す日付や時刻)を含んだ複数の文書と、該文書それぞれが関係している話題語(単語や句、品詞の連続で表される意味のある文字列)が入力されると(但し、話題語と文書は多対多の関係)、話題語結合記憶手段に格納されている話題語結合ルールにより、ある話題語が関係する文書と該話題語が関連する他の文書との文書共有度を算出する文書共有度算出ステップ(ステップ1)と、
文書共有度に基づいて、結合できる話題語を選定し、選定された話題語を結合する話題語結合ステップ(ステップ2)と、を有し、
文書共有度算出ステップ(ステップ1)において、
文書それぞれが持つ日付や時刻により、新しいほどに大きな値となる鮮度の重みを利用し、
ある2つの話題語間の文書共有度を各話題語が共有する文書の割合で判断し、
割合を、該当する2つの話題語が関連する鮮度の重み付き文書総数(1文書は、2重カウントしない)に対する話題語間で共有する鮮度の重み付き文書数とした、文書共有度で算出し、
文書共有度が閾値X(正の数)以上になった場合にその話題語同士を結合する話題語結合ルールを用いる。
代表語抽出記憶手段に格納されている代表語抽出ルールに基づいて、話題語結合ステップで結合した話題語グループの代表語を抽出する代表語抽出ステップを行う。
結合した話題語グループ全体に対する代表語を抽出する際に、
結合した話題語グループ全体が持つ文書を取得して、該文書から、最も話題度が高い語句(単語や句、品詞の連続で表される意味のある文字列)を代表語とし、
話題度は、文書それぞれが持つ日付や時刻から算出した鮮度の重みとその語句の出現文書数から算出し、
鮮度の重みは、文書が新しいほど大きくし、
鮮度の重みが大きく、語句の出現文書数が多いほど話題度を高くする代表語抽出ルールを用いる。
代表語を抽出する文書の対象を、
結合した話題語同士が共有する文書のみ、結合しない他の話題語に関連する文書の中でも、他の話題語同士で共有する文書のみ、の少なくともいずれか一方の文書とする。
本発明(請求項5)は、話題語同士の関連性から話題語を結合する話題語結合装置であって、
話題語結合ルール22を格納する話題語結合記憶手段620と、
本文(ある事柄に関して記述されている、意味のある文章によって構成される)と日付(その文書の作成日付もしくは公開日付などを示す日付や時刻)を含んだ複数の文書と、該文書それぞれが関係している話題語(単語や句、品詞の連続で表される意味のある文字列)が入力されると(但し、話題語と文書は多対多の関係)、話題語結合記憶手段620に格納されている話題語結合ルール22により、ある話題語が関係する文書と該話題語が関連する他の文書との文書共有度を算出する文書共有度算出手段502と、
文書共有度に基づいて、結合できる話題語を選定し、選定された話題語を結合する話題語結合手段503と、を有し、
文書共有度算出手段502は、
文書それぞれが持つ日付や時刻により、新しいほどに大きな値となる鮮度の重みを利用し、
ある2つの話題語間の文書共有度を各話題語が共有する文書の割合で判断し、
割合を、該当する2つの話題語が関連する鮮度の重み付き文書総数(1文書は、2重カウントしない)に対する話題語間で共有する鮮度の重み付き文書数とした、文書共有度で算出し、
文書共有度が閾値X(正の数)以上になった場合にその話題語同士を結合する話題語結合ルール22を用いる。
結合した話題語グループ全体に対する代表語を抽出する際に、
結合した話題語グループ全体が持つ文書を取得して、該文書から、最も話題度が高い語句(単語や句、品詞の連続で表される意味のある文字列)を代表語とし、
話題度は、文書それぞれが持つ日付や時刻から算出した鮮度の重みとその語句の出現文書数から算出し、
鮮度の重みは、文書が新しいほど大きくし、
鮮度の重みが大きく、語句の出現文書数が多いほど話題度を高くするルールとする。
代表語を抽出する文書の対象を、
結合した話題語同士が共有する文書のみ、結合しない他の話題語に関連する文書の中でも、他の話題語同士で共有する文書のみ、の少なくともいずれか一方の文書とする。
請求項5乃至8記載のいずれか1項に記載の話題語結合装置を実現するための処理をコンピュータに実行させる話題語結合プログラムである。
請求項4乃至9記載の話題語結合・代表語抽出方法を実現するための処理をコンピュータに実行させるプログラムである。
例){AとCで共有する文書数)/(Aの文書数)}を話題語Aの話題語Cに対する文書共有度とする(1/4=0.75)
タイプ2:ある2つの話題語間の文書共有度:
例){AとCで共有する文書数}/(AとCの持つオリジナルな文書数の合計)}を話題語AとCの文書共有度とする(1/7=0.14:小数点第3以降四捨五入)
上記のタイプ1に従った場合、ある2つの話題語間で算出された文書共有度が互いに閾値X以上になる、もしくは、どちらか片方の話題語のもう一方に対する文書共有度が閾値X以上になる場合に、2つの話題語を結合すると判断する。また、タイプ2に従った場合は、算出された文書共有度が閾値X以上になる場合、2つの話題語を結合すると判断する。
話題語が持つ文書を文書DB20から読み出して解析し、結合された話題語グループ(1つに結合した話題語の集まり)を表す代表語を生成する。
図7は、本発明の一実施例の話題語結合処理部の構成を示し、図8は、本発明の一実施例の話題語結合処理のフローチャートである。
例){(「帰省」と「自由課題」で共有する文書数)/(「帰省」の文書数)}を話題語「帰省」の話題語「自由課題」に対する文書共有度とする(2/4=0.5)
タイプ2:ある2つの話題語間の文書共有度
例){(「帰省」と「自由課題」で共有する文書数)/(「帰省」と「自由課題」の文書総数)}を話題語「帰省」と「自由課題」の文書共有度とする(2/6=0.33:小数点第3以降四捨五入)
ステップ602−2) 話題語結合判定部503において、ステップ602−1で算出された文書共有度が閾値X以上になる話題語同士を探し、それらを話題語結合対象とする。結合する話題語同士は1つの話題語グループとなる。
図9は、本発明の一実施例の代表語抽出処理部の構成を示し、図10は、本発明の一実施例の代表語抽出処理のフローチャートを示す。
2) (p?(n│N)s?){1,3}a(p?(n│N)s?{1,3}
3) N
形態素解析した結果を繋ぎ合わせ、上記のいずれかに該当する単語列の最長マッチングを代表語の候補として取得する。これ以外にも形容詞と名詞の組み合わせや形容動詞と名詞の組み合わせ等を採用した名詞句を利用し、情景のイメージしやすい語彙を抽出することも可能である。また、上記の方法以外に、名詞2語の繰り返しや名詞のみを代表語の候補とすることもできる。
ある語句Tの話題度=TW×log(TF/ATF)
ここでの出現頻度は、文書1つに対して1度でも語句Tが出現したら1とカウントする場合と、文書1つに対してY(0または正の整数)回出現したらYとカウントする場合などがある。
11 表示部
12 指示入力部
20 文書データベース(DB)
21 話題語データベース(DB)
22 話題語結合ルール
24 代表語抽出ルール
300 話題語結合手段
320 代表語抽出手段
500 話題語結合処理部
501,521 読み込み部
502 文書共有度算出手段、文書共有度算出部
503 話題語結合手段、話題語結合判定部
504,525 出力部
520 代表語抽出処理部
522 代表後候補抽出部
523 話題度計算部
524 代表語決定部
620 話題語結合記憶手段、話題語結合選定記憶部
640 代表語抽出記憶手段、代表語抽出記憶部
Claims (9)
- 話題語同士の関連性から話題語を結合する話題語結合方法において、
本文(ある事柄に関して記述されている、意味のある文章によって構成される)と日付(その文書の作成日付もしくは公開日付などを示す日付や時刻)を含んだ複数の文書と、該文書それぞれが関係している話題語(単語や句、品詞の連続で表される意味のある文字列)が入力されると(但し、話題語と文書は多対多の関係)、話題語結合記憶手段に格納されている話題語結合ルールにより、ある話題語が関係する文書と該話題語が関連する他の文書との文書共有度を算出する文書共有度算出ステップと、
前記文書共有度に基づいて、結合できる話題語を選定し、選定された話題語を結合する話題語結合ステップと、を有し、
前記文書共有度算出ステップにおいて、
文書それぞれが持つ日付や時刻により、新しいほどに大きな値となる鮮度の重みを利用し、
ある2つの話題語間の文書共有度を各話題語が共有する文書の割合で判断し、
前記割合を、該当する2つの話題語が関連する前記鮮度の重み付き文書総数(1文書は、2重カウントしない)に対する話題語間で共有する前記鮮度の重み付き文書数とした、文書共有度で算出し、
前記文書共有度が閾値X(正の数)以上になった場合にその話題語同士を結合する前記話題語結合ルールを用いることを特徴とする話題語結合方法。 - 前記話題語結合ステップの後、
代表語抽出記憶手段に格納されている代表語抽出ルールに基づいて、前記話題語結合ステップで結合した前記話題語グループの代表語を抽出する代表語抽出ステップを行うことを特徴とする請求項1に記載の話題語結合方法。 - 前記代表語抽出ステップにおいて、
結合した前記話題語グループ全体に対する代表語を抽出する際に、
結合した前記話題語グループ全体が持つ文書を取得して、該文書から、最も話題度が高い語句(単語や句、品詞の連続で表される意味のある文字列)を代表語とし、
前記話題度は、文書それぞれが持つ日付や時刻から算出した鮮度の重みとその語句の出現文書数から算出し、
前記鮮度の重みは、文書が新しいほど大きくし、
前記鮮度の重みが大きく、語句の出現文書数が多いほど話題度を高くする前記代表語抽出ルールを用いる請求項2記載の話題語結合方法。 - 前記代表語抽出ステップにおいて、
前記代表語を抽出する文書の対象を、
結合した話題語同士が共有する文書のみ、結合しない他の話題語に関連する文書の中でも、他の話題語同士で共有する文書のみ、の少なくともいずれか一方の文書とする請求項3記載の話題語結合方法。 - 話題語同士の関連性から話題語を結合する話題語結合装置であって、
話題語結合ルールを格納する話題語結合記憶手段と、
本文(ある事柄に関して記述されている、意味のある文章によって構成される)と日付(その文書の作成日付もしくは公開日付などを示す日付や時刻)を含んだ複数の文書と、該文書それぞれが関係している話題語(単語や句、品詞の連続で表される意味のある文字列)が入力されると(但し、話題語と文書は多対多の関係)、話題語結合記憶手段に格納されている話題語結合ルールにより、ある話題語が関係する文書と該話題語が関連する他の文書との文書共有度を算出する文書共有度算出手段と、
前記文書共有度に基づいて、結合できる話題語を選定し、選定された話題語を結合する話題語結合手段と、を有し、
前記文書共有度算出手段は、
文書それぞれが持つ日付や時刻により、新しいほどに大きな値となる鮮度の重みを利用し、
ある2つの話題語間の文書共有度を各話題語が共有する文書の割合で判断し、
前記割合を、該当する2つの話題語が関連する前記鮮度の重み付き文書総数(1文書は、2重カウントしない)に対する話題語間で共有する前記鮮度の重み付き文書数とした、文書共有度で算出し、
前記文書共有度が閾値X(正の数)以上になった場合にその話題語同士を結合する前記話題語結合ルールを用いることを特徴とする話題語結合装置。 - 代表語抽出記憶手段に格納されている代表語抽出ルールを参照して、前記話題語結合手段で結合した前記話題語グループの代表語を抽出する代表語抽出手段を更に有することを特徴とする請求項5記載の話題語結合装置。
- 前記代表語抽出ルールは、
結合した前記話題語グループ全体に対する代表語を抽出する際に、
結合した前記話題語グループ全体が持つ文書を取得して、該文書から、最も話題度が高い語句(単語や句、品詞の連続で表される意味のある文字列)を代表語とし、
前記話題度は、文書それぞれが持つ日付や時刻から算出した鮮度の重みとその語句の出現文書数から算出し、
前記鮮度の重みは、文書が新しいほど大きくし、
前記鮮度の重みが大きく、語句の出現文書数が多いほど話題度を高くするルールとする請求項6記載の話題語結合装置。 - 前記代表語抽出手段は、
前記代表語を抽出する文書の対象を、
結合した話題語同士が共有する文書のみ、結合しない他の話題語に関連する文書の中でも、他の話題語同士で共有する文書のみ、の少なくともいずれか一方の文書とすることを特徴とする請求項7記載の話題語結合装置。 - 関連する話題語を結合する話題語結合プログラムであって、
前記請求項5乃至8記載のいずれか1項に記載の話題語結合装置を実現するための処理をコンピュータに実行させることを特徴とする話題語結合プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004331067A JP4462014B2 (ja) | 2004-11-15 | 2004-11-15 | 話題語結合方法及び装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004331067A JP4462014B2 (ja) | 2004-11-15 | 2004-11-15 | 話題語結合方法及び装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006139718A JP2006139718A (ja) | 2006-06-01 |
JP4462014B2 true JP4462014B2 (ja) | 2010-05-12 |
Family
ID=36620491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004331067A Expired - Fee Related JP4462014B2 (ja) | 2004-11-15 | 2004-11-15 | 話題語結合方法及び装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4462014B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9262401B2 (en) | 2010-07-05 | 2016-02-16 | Nhn Corporation | Method and system for providing representative phrase |
US9479839B2 (en) | 2010-07-06 | 2016-10-25 | Nhn Corporation | Method and system for providing a representative phrase based on keyword searches |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2096585A4 (en) | 2006-12-11 | 2017-11-15 | NEC Corporation | Active studying system, active studying method and active studying program |
JP5435249B2 (ja) * | 2011-03-23 | 2014-03-05 | 日本電気株式会社 | イベント分析装置、イベント分析方法、およびプログラム |
CN111898366B (zh) * | 2020-07-29 | 2022-08-09 | 平安科技(深圳)有限公司 | 文献主题词聚合方法、装置、计算机设备及可读存储介质 |
-
2004
- 2004-11-15 JP JP2004331067A patent/JP4462014B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9262401B2 (en) | 2010-07-05 | 2016-02-16 | Nhn Corporation | Method and system for providing representative phrase |
US9479839B2 (en) | 2010-07-06 | 2016-10-25 | Nhn Corporation | Method and system for providing a representative phrase based on keyword searches |
Also Published As
Publication number | Publication date |
---|---|
JP2006139718A (ja) | 2006-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Biswas et al. | A graph based keyword extraction model using collective node weight | |
CN107193803B (zh) | 一种基于语义的特定任务文本关键词提取方法 | |
Song et al. | Overview of the NTCIR-9 INTENT Task. | |
Oliveira et al. | Assessing shallow sentence scoring techniques and combinations for single and multi-document summarization | |
US9152676B2 (en) | Identifying query aspects | |
US9323827B2 (en) | Identifying key terms related to similar passages | |
Thakkar et al. | Graph-based algorithms for text summarization | |
US9122680B2 (en) | Information processing apparatus, information processing method, and program | |
CN110083696B (zh) | 基于元结构技术的全局引文推荐方法、推荐系统 | |
CN106095949A (zh) | 一种基于混合推荐的数字化图书馆资源个性化推荐方法与系统 | |
Al-Taani et al. | An extractive graph-based Arabic text summarization approach | |
JP4466334B2 (ja) | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
Egger | Topic modelling: modelling hidden semantic structures in textual data | |
Sağlam et al. | Developing Turkish sentiment lexicon for sentiment analysis using online news media | |
JP4613346B2 (ja) | キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置 | |
JP5964149B2 (ja) | 共起語を特定する装置およびプログラム | |
JP2010092357A (ja) | 施設関連情報検索方法および施設関連情報検索システム | |
JP4462014B2 (ja) | 話題語結合方法及び装置及びプログラム | |
JP5661719B2 (ja) | 質問応答装置、方法、及びプログラム | |
Gupta et al. | Text analysis and information retrieval of text data | |
CN111259136A (zh) | 一种基于用户偏好自动生成主题评价摘要的方法 | |
Wang et al. | User intention-based document summarization on heterogeneous sentence networks | |
JP2004246491A (ja) | テキストマイニング装置及びテキストマイニングプログラム | |
JP2006293616A (ja) | 文書集約方法及び装置及びプログラム | |
JP5944809B2 (ja) | 文書解析装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091022 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091104 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100126 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100208 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130226 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |