JP2000259666A - Topic extraction device - Google Patents

Topic extraction device

Info

Publication number
JP2000259666A
JP2000259666A JP11065658A JP6565899A JP2000259666A JP 2000259666 A JP2000259666 A JP 2000259666A JP 11065658 A JP11065658 A JP 11065658A JP 6565899 A JP6565899 A JP 6565899A JP 2000259666 A JP2000259666 A JP 2000259666A
Authority
JP
Japan
Prior art keywords
article
topic
word
importance
articles
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11065658A
Other languages
Japanese (ja)
Inventor
Ichiro Yamada
一郎 山田
Enbai Kin
淵培 金
Masahiro Shibata
正啓 柴田
Noriyoshi Uratani
則好 浦谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP11065658A priority Critical patent/JP2000259666A/en
Publication of JP2000259666A publication Critical patent/JP2000259666A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a topic extraction device capable of highly accurately sorting articles included in a news original into clusters, extracting topics from a global viewpoint by extracting an important noun phrase from these clusters and extracting and presenting a topic to be intuitively understood. SOLUTION: The topic extraction device is provided with a word importance operating means 4 for finding out the appearance frequency of a word extracted from an article of an electronically processed news original within a prescribed period and finding out the importance of the word on the basis of the appearance frequency and article sorting means 5, 6 for sorting the articles of the new original into article groups having similar items by finding out the similarity of the article groups having similar items on the basis of the found importance of the word and the appearance frequency of the word in the article groups having similar items.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、電子化されたニュ
ース原稿から時間と共に変化する動的なジャンルである
トピックを抽出するトピック抽出装置に関する。
[0001] 1. Field of the Invention [0002] The present invention relates to a topic extracting apparatus for extracting a topic that is a dynamic genre that changes with time from an electronic news manuscript.

【0002】[発明の概要]本発明は、電子化されたニ
ュース原稿から話題となっているトピックを抽出する装
置であり、日々蓄えられるニュース記事からある時点の
単語の重要度を求め、これに基づきニュース原稿の記事
分類を行うことにより、高精度なニュース記事分類が実
現でき、この記事分類結果から重要な名詞句を抽出する
ことにより、各話題が重複しない分かりやすい名詞句と
して、効果的にトピックを抽出できるようにしたもので
ある。
[Summary of the Invention] [0002] The present invention is an apparatus for extracting a topic of interest from a digitized news manuscript, and obtains the importance of a word at a certain point in time from news articles stored every day. Based on article classification of news manuscripts, highly accurate news article classification can be realized. By extracting important noun phrases from this article classification result, each topic can be effectively converted into an easy-to-understand noun phrase that does not overlap The topic can be extracted.

【0003】[0003]

【従来の技術】ニュースには、政治、経済、社会、スポ
ーツなどの静的なジャンルの他、長野オリンピック、W
杯サッカー、不況、和歌山毒入りカレー事件など時間と
共に変化する動的なジャンル、つまりトピックが存在す
る。このようなトピックは、視聴者が番組を選択すると
きの重要な鍵となるので、ニュース原稿からトピックを
抽出することが行われている。
2. Description of the Related Art News includes static genres such as politics, economy, society and sports, as well as the Nagano Olympics and W
There are dynamic genres, or topics, that change over time, such as cup soccer, recession, and poisoned curry in Wakayama. Since such a topic is an important key when a viewer selects a program, a topic is extracted from a news manuscript.

【0004】このトピックの抽出では、従来、ニュース
放送原稿や新聞の1つの記事に含まれる単語を対象にし
て、単語の頻度、相互情報量、χ2 値のなどの1つを使
って単語の重要度を決定し、重要と評価された複数の単
語を形態素単位(日本語の最小意味単位)で提示する方
法が採用されている。
[0004] In the extraction of this topic, conventional, directed to the words that are included in one of the articles of news broadcasting manuscripts and newspaper, word of frequency, mutual information, words using one, such as the χ 2 value A method is adopted in which importance is determined, and a plurality of words evaluated as important are presented in morpheme units (minimum meaning units in Japanese).

【0005】[0005]

【発明が解決しようとする課題】しかし、従来では、記
事に含まれている単語の頻度を手がかりとしてニュース
原稿に含まれている記事を似た項目の記事群(以下「ク
ラスタ」という。)に分類しているが、自然言語処理で
は悪影響を及ぼす単語(頻度は多いが情報量が少ない単
語)が存在するため、含まれている全ての単語をそのま
ま使う従来の分類方法では、良好な分類結果が得られな
い。
Conventionally, however, articles included in news manuscripts are grouped into similar article groups (hereinafter referred to as "clusters") based on the frequency of words included in the articles. Although there are words that have an adverse effect in natural language processing (words that have a high frequency but a small amount of information), good classification results can be obtained with the conventional classification method that uses all the words that are included as they are. Can not be obtained.

【0006】また、従来のトピック抽出方法は、ローカ
ルな1つの記事から重要と考えられる幾つかの単語を抽
出するなどの抽出処理を行うだけであるので、今何が話
題になっているかというグローバルな視点からのトピッ
ク抽出ができない。即ち、従来のトピック抽出方法で
は、各々の記事からトピックとなる単語が抽出される、
つまり同じ話題からその話題を記した記事の数のトピッ
クが提示されることになり、全体として何が話題になっ
ているかを把握するのが困難である。
Further, the conventional topic extraction method only performs extraction processing such as extracting some words considered important from one local article, so that a global topic of what is currently being talked about is extracted. Topics cannot be extracted from a simple viewpoint. That is, in the conventional topic extraction method, a topic word is extracted from each article.
In other words, the same number of topics as the number of articles describing the topic are presented from the same topic, and it is difficult to grasp what is the topic as a whole.

【0007】さらに、従来のトピック抽出方法では、複
数の単語を形態素単位で抽出しているので、幾つの単語
を提示するかという問題があり、また複数の単語が出力
されるので話題を直感的に把握することが困難である。
Further, in the conventional topic extraction method, since a plurality of words are extracted in morpheme units, there is a problem of how many words are presented, and since a plurality of words are output, the topic is intuitively displayed. It is difficult to grasp.

【0008】本発明は上記事情に鑑み、ニュース原稿に
含まれている記事を高精度にクラスタに分類でき、その
クラスタから重要な1つの名詞句を抽出することによ
り、グローバルな視点からのトピック抽出ができ、話題
を直感的に把握できるトピックを抽出、提示できるトピ
ック抽出装置を提供することを目的としている。
According to the present invention, in view of the above information, articles included in a news manuscript can be classified into clusters with high accuracy, and one important noun phrase is extracted from the cluster to extract topics from a global viewpoint. It is an object of the present invention to provide a topic extraction device capable of extracting and presenting a topic that can intuitively grasp a topic.

【0009】[0009]

【課題を解決するための手段】上記の目的を達成するた
めに請求項1に記載のトピック抽出装置は、電子化され
たニュース原稿の記事から抽出した単語の所定期間内に
おける出現率を求め、その出現率に基づいて単語の重要
度を求める単語重要度演算手段と、前記求められた単語
の重要度及び似た項目を持つ記事群における前記単語の
出現率に基づいて前記似た項目を持つ記事群の類似度を
求めることにより、ニュース原稿の記事を似た項目を持
つ記事群に分類する記事分類手段とを備えることを特徴
としている。
In order to achieve the above object, a topic extracting apparatus according to claim 1 obtains an appearance rate of a word extracted from an article of an electronic news manuscript within a predetermined period, Word importance calculating means for calculating the importance of a word based on the appearance rate; and having the similar item based on the calculated importance of the word and the appearance rate of the word in a group of articles having similar items. An article classifying means is provided for classifying articles in a news manuscript into an article group having similar items by calculating the similarity between the article groups.

【0010】請求項1に記載の発明では、日々蓄えられ
るニュース記事から抽出したある時点の単語の重要度を
χ2 値を利用して求め、それに基づき似た項目を持つ記
事群の類似度を求めることにより、ニュース原稿の記事
を似た項目を持つ記事群に分類するので、高精度なニュ
ース記事の分類が実現できる。
[0010] In the invention according to claim 1, determined by using the importance degree chi 2 value of words some point extracted from news articles to be accumulated daily articles group similarity with items similar based thereon By obtaining, the articles of the news manuscript are classified into a group of articles having similar items, so that highly accurate classification of news articles can be realized.

【0011】請求項2に記載のトピック抽出装置は、請
求項1に記載のトピック抽出装置において、前記記事分
類手段によって分類された記事群における単語の寄与度
に基づいてその記事群から代表記事を抽出する代表記事
抽出手段と、前記抽出された代表記事の中で寄与度の大
きい名詞句を重要名詞句として抽出する重要名詞抽出手
段とを備えることを特徴としている。
According to a second aspect of the present invention, in the topic extracting apparatus according to the first aspect, a representative article is extracted from the article group based on a word contribution in the article group classified by the article classifying means. It is characterized by comprising a representative article extracting means for extracting, and an important noun extracting means for extracting a noun phrase having a large contribution from the extracted representative articles as an important noun phrase.

【0012】請求項2に記載の発明では、分類された記
事群のそれぞれにおける代表記事を寄与度に基づいて抽
出し、前記抽出された代表記事の中で寄与度の高い名詞
句を重要名詞句として抽出するので、各話題が重複しな
い分かり易い名詞句を抽出できる。
According to the second aspect of the present invention, representative articles in each of the classified article groups are extracted based on the degree of contribution, and a noun phrase having a high degree of contribution in the extracted representative articles is classified as an important noun phrase. , It is possible to extract an easy-to-understand noun phrase in which each topic does not overlap.

【0013】請求項3に記載のトピック抽出装置は、請
求項2に記載のトピック抽出装置において、前記記事分
類手段によって分類された各記事群それぞれのラベルと
して、前記重要名詞抽出手段が抽出した名詞句の対応す
るものを付与するラベル付与手段を備えることを特徴と
している。
According to a third aspect of the present invention, in the topic extracting apparatus according to the second aspect, the noun extracted by the important noun extracting means is used as a label of each article group classified by the article classifying means. It is characterized in that it comprises a label assigning means for assigning the corresponding phrase.

【0014】請求項3に記載の発明では、分類された各
記事群それぞれのラベルとして、重要名詞句として抽出
した名詞句の対応するものを付与するので、分類された
記事群のデータベース化ができる。
According to the third aspect of the present invention, a label corresponding to a noun phrase extracted as an important noun phrase is given as a label of each classified article group, so that the classified article group can be made into a database. .

【0015】請求項4に記載のトピック抽出装置は、請
求項3に記載のトピック抽出装置において、前記ラベル
付与手段がラベルを付与した各記事群の中で寄与度が大
きい代表記事を持つ記事群のラベルを順番にトピックの
候補として抽出するトピック抽出手段を備えることを特
徴としている。
According to a fourth aspect of the present invention, in the topic extracting apparatus according to the third aspect, a group of articles having a representative article having a large contribution degree among each group of articles to which the label assigning unit assigns a label. Topic extraction means for sequentially extracting the labels as topic candidates.

【0016】請求項4に記載の発明では、時間と共に変
化する動的なジャンルであるトピックを自動的に抽出、
提示できる。
According to the fourth aspect of the present invention, topics that are dynamic genres that change with time are automatically extracted,
Can be presented.

【0017】[0017]

【発明の実施の形態】図1は、請求項1乃至請求項4に
対応する実施形態のトピック抽出装置の構成例である。
本実施形態のトピック抽出装置は、ファイル装置1と、
形態素解析部2と、構文解析部3と、単語重要度演算部
4と、類似度比較部5と、ニュース記事分類部6と、代
表記事抽出部7と、重要名詞抽出部8と、記憶・ラベル
付与処理部9と、トピック抽出処理部10とを備える。
DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1 shows an example of the configuration of a topic extracting apparatus according to an embodiment corresponding to claims 1 to 4.
The topic extraction device according to the present embodiment includes a file device 1,
Morphological analysis unit 2, syntax analysis unit 3, word importance calculation unit 4, similarity comparison unit 5, news article classification unit 6, representative article extraction unit 7, important noun extraction unit 8, storage / The system includes a label assigning unit 9 and a topic extracting unit 10.

【0018】ファイル装置1の出力は、形態素解析部2
の入力に接続され、形態素解析部2の出力は、構文解析
部3の入力に接続される。構文解析部3の出力は、単語
重要度演算部4の入力に接続され、単語重要度演算部4
の出力は、類似度比較部5の入力に接続される。類似度
比較部5の出力は、ニュース記事分類部6の入力に接続
され、ニュース記事分類部6の出力は、代表記事抽出部
7の入力と記憶・ラベル付与処理部9の一方の入力とに
接続される。代表記事抽出部7の出力は、重要名詞抽出
部8の入力に接続され、重要名詞抽出部8の出力は、記
憶・ラベル付与処理部9の他方の入力に接続される。記
憶・ラベル付与処理部9の出力は、トピック抽出処理部
10の入力に接続され、トピック抽出処理部10の出力
には、抽出されたトピック、記事が順次提示される。
The output of the file device 1 is output to a morphological analyzer 2
, And the output of the morphological analysis unit 2 is connected to the input of the syntax analysis unit 3. The output of the syntax analyzer 3 is connected to the input of the word importance calculator 4,
Is connected to the input of the similarity comparison unit 5. The output of the similarity comparison unit 5 is connected to the input of the news article classification unit 6, and the output of the news article classification unit 6 is connected to the input of the representative article extraction unit 7 and one input of the storage / label assignment processing unit 9. Connected. The output of the representative article extraction unit 7 is connected to the input of the important noun extraction unit 8, and the output of the important noun extraction unit 8 is connected to the other input of the storage / label assignment processing unit 9. The output of the storage / labeling processing unit 9 is connected to the input of the topic extraction processing unit 10, and the extracted topic and article are sequentially presented to the output of the topic extraction processing unit 10.

【0019】以上の構成を請求項との関係は、次のよう
になっている。単語重要度演算手段には、単語重要度演
算部4が対応する。記事分類手段には、類似度比較部5
とニュース記事分類部6の全体が対応する。代表記事抽
出手段には、代表記事抽出部7が対応する。重要名詞抽
出手段には、重要名詞抽出部8が対応する。ラベル付与
手段には、記憶・ラベル付与処理部9が対応する。トピ
ック抽出手段には、トピック抽出処理部10が対応す
る。
The relationship between the above configuration and the claims is as follows. The word importance calculation means 4 corresponds to the word importance calculation means. The article classification means includes a similarity comparison unit 5
And the entirety of the news article classification unit 6. The representative article extracting unit 7 corresponds to the representative article extracting means. The important noun extraction unit corresponds to the important noun extraction means. The storage / label assignment processing unit 9 corresponds to the label assignment unit. The topic extraction unit corresponds to the topic extraction means.

【0020】次に、本実施形態の動作を図1〜図5を参
照して説明する。なお、図2は、記事分類処理の動作フ
ローチャートである。図3は、ニュース原稿に含まれる
記事の一例である。図4は、演算した単語の重要度の一
例である。図5は、ラベル付与・トピック抽出処理の動
作フローチャートである、図6は、出力されたトピック
と代表記事の一例である。
Next, the operation of this embodiment will be described with reference to FIGS. FIG. 2 is an operation flowchart of the article classification process. FIG. 3 is an example of an article included in a news manuscript. FIG. 4 is an example of the calculated importance of a word. FIG. 5 is an operation flowchart of the label assignment / topic extraction processing. FIG. 6 is an example of the output topic and representative article.

【0021】ニュース番組で実際に利用される1日分の
ニュース原稿には、例えば図3に示すような記事が約2
00記事が含まれるが、ファイル装置1には、そのよう
なニュース原稿の例えば1年分が電子化されて格納され
ている。ここに、各ニュース記事の第1文は、ニュース
内容の全貌を説明することが多いが、第2文以降は、ト
ピック抽出処理では不要が要素が多いので、本実施形態
では、ニュース記事の第1文のみを利用している。
A one-day news manuscript actually used in a news program includes, for example, about two articles as shown in FIG.
For example, one year's worth of such news manuscript is stored in the file device 1 in an electronic form. Here, the first sentence of each news article often explains the whole picture of the news content, but the second sentence and later have many unnecessary elements in the topic extraction processing. Uses only one sentence.

【0022】ファイル装置1から読み出された1つのニ
ュース記事は、形態素解析部2及び構文解析部3におい
て周知の形態素解析処理及び構文解析処理を受け、その
記事から抽出された単語が単語重要度演算部4に入力さ
れる。単語重要度演算部4、類似度比較部5及びニュー
ス記事分類部6では、図2に示す手順により、ニュース
記事の分類処理が行われる。
One news article read from the file device 1 is subjected to well-known morphological analysis processing and syntactic analysis processing in the morphological analysis section 2 and the syntax analysis section 3, and the words extracted from the article are assigned word importance. The data is input to the arithmetic unit 4. The word importance calculating section 4, the similarity comparing section 5, and the news article classifying section 6 perform a news article classifying process according to the procedure shown in FIG.

【0023】単語重要度演算部4では、1つのニュース
記事に含まれる単語が入力されると(ステップST
1)、χ2 値を利用して記事に含まれる単語の例えば月
単位の重要度を演算する(ステップST2)。具体的に
は、単語Wがある月に出現した頻度をn、期待値をeと
すると、それらを式(1)に代入して単語の重要度Weig
ht(W)を演算する。 図4に重要度の算出例を示してあ
る。
When the word contained in one news article is input to the word importance calculation section 4 (step ST)
1), it calculates the importance of the example monthly words included in the articles by using the chi 2 value (step ST2). Specifically, assuming that the frequency of occurrence of the word W in a certain month is n and the expected value is e, these are substituted into Expression (1) and the importance of the word Weig
ht (W) is calculated. FIG. 4 shows an example of calculating the importance.

【数1】 Weight(w)=(n−e)2/e ・・・n≧e =0 ・・・n<e ・・・(1)## EQU1 ## Weight (w) = (ne) 2 / e... N ≧ e = 0... N <e (1)

【0024】次に、類似度比較部5とニュース記事分類
部6では、似た項目に分類された記事の集まりであるク
ラスタを生成するクラスタリングを単語の重要度、出現
頻度を利用して行う。まず、以下のように定義した記事
ベクトルとクラスタベクトルとを利用して記事とクラス
タとの類似度を計算する(ステップST3)。
Next, the similarity comparing section 5 and the news article classifying section 6 perform clustering for generating a cluster, which is a collection of articles classified into similar items, using the importance and appearance frequency of words. First, a similarity between an article and a cluster is calculated using an article vector and a cluster vector defined as follows (step ST3).

【0025】記事を特徴づける記事ベクトルは、記事に
含まれる単語(例えば記事の第1文に含まれる単語)を
ベクトルの要素に、その単語の重要度を各ベクトル要素
の値として定義する。また、クラスタを特徴づけるクラ
スタベクトルは、そのクラスタに属する記事に含まれる
単語をベクトルの要素に、(各単語の重要度)と(クラ
スタ内での出現率)の積を各ベクトル要素の値として定
義する。なお、出現率は、出現した記事の頻度をクラス
タに含まれる全記事数で割った値である。そして、類似
度は、式(2)によって求められる。
An article vector characterizing an article defines a word included in the article (eg, a word included in the first sentence of the article) as a vector element, and defines the importance of the word as a value of each vector element. In addition, the cluster vector characterizing a cluster is obtained by defining a word included in an article belonging to the cluster as a vector element and a product of (importance of each word) and (occurrence rate in the cluster) as a value of each vector element. Define. The appearance rate is a value obtained by dividing the frequency of appearing articles by the total number of articles included in the cluster. Then, the similarity is obtained by Expression (2).

【数2】 類似度=(共通する要素ベクトルの和×2) /(記事、クラスタの要素ベクトルの値の和) ・・・(2)## EQU00002 ## Similarity = (sum of common element vectors.times.2) / (sum of element vector values of articles and clusters) (2)

【0026】例えば、記事「スペースシャトル「コロン
ビア」に乗り組んでいる土井隆雄さんは宇宙遊泳で衛星
の捕獲に成功しました。」において、要素「スペースシ
ャトル」の値(重要度)が210.8、要素「コロンビ
ア」の値(重要度)が221.5、要素「土井」の値
(重要度)が150.1、要素「隆雄さん」の値(重要
度)が286、要素「宇宙」の値(重要度)が213.
7、要素「遊泳」の値(重要度)が221.5、要素
「衛星」の値(重要度)が230.7、要素「捕獲」の
値(重要度)が13.5であれば、この記事の要素ベク
トルの値の和は、1575.1である。
For example, in the article "Mr. Takao Doi on the Space Shuttle" Columbia "succeeded in capturing a satellite by spacewalk. , The value (importance) of the element “Space Shuttle” is 210.8, the value (importance) of the element “Colombia” is 221.5, the value (importance) of the element “Doi” is 150.1, and the element The value (importance) of “Mr. Takao” is 286, and the value (importance) of the element “universe” is 213.
7. If the value (importance) of the element "swimming" is 221.5, the value (importance) of the element "satellite" is 230.7, and the value (importance) of the element "capture" is 13.5, The sum of the values of the element vectors in this article is 1575.1.

【0027】一方、クラスタに含まれる記事が「日本人
宇宙飛行士土井隆雄さんが乗り組んだスペースシャトル
「コロンビア」では、トラブルで延期した観測衛星の放
出を日本期間のあすに行い土井さんの宇宙遊泳は予定通
り今月二十五日に行われる事になりました。」、「日本
人として初めて宇宙遊泳を行う土井さんが乗り組んだス
ペースシャトル「コロンビア」は日本時間のけさ予定し
ていた観測衛星の放出がトラブルのため延期され、土井
さんは予定を変更して軌道上での実験を行っていま
す。」、・・・であり、要素「スペースシャトル」の値(重
要度と出現率の積)が196.9、要素「コロンビア
の値(重要度と出現率の積)が199.3、要素「
」の値(重要度と出現率の積)が150.1,要素
宇宙」の値(重要度と出現率の積)が213.7、要
素「遊泳」の値(重要度と出現率の積)が195.1,
要素「衛星」の値(重要度と出現率の積)が124.
8、要素「捕獲」の値(重要度と出現率の積)が0.
9、要素「トラブル」の値(重要度と出現率の積)が1
0.9、要素「宇宙飛行士」の値(重要度と出現率の
積)が2.6,要素「放出」の値(重要度と出現率の
積)が10.5、要素「アメリカ航空宇宙局」の値(重
要度と出現率の積)が8.2、要素「ケネディー」の値
(重要度と出現率の積)が21.8、要素「打ち上げ」
の値(重要度と出現率の積)が18.5であれば、この
クラスタの要素ベクトルの値の和は、1153.3であ
る。
On the other hand, the article included in the cluster is "The Space Shuttle" Colombia ", which Japanese Japanese astronaut Takao Doi has boarded, released the observation satellite postponed due to a trouble in the tomorrow of Japan period, and Doi's spacewalk Will be held on the 25th of this month as scheduled. "The space shuttle" Colombia ", which was the first Japanese to take a spacewalk in Japan, was postponed due to a problem with the release of the observation satellite scheduled for Japan time, Mr. Doi changed the schedule and changed the orbit I'm doing the experiment above. , ..., the value of the element " Space Shuttle " (product of importance and appearance rate) is 196.9, and the element " Colombia "
Value (the product of the importance and the appearance rate) is 199.3, the element "earth
The value of the " well " (product of importance and appearance rate) is 150.1, the value of the element "universe" (product of importance and appearance rate) is 213.7, and the value of the element " swimming " (importance and appearance rate) Is 195.1,
The value of the element “ satellite ” (product of importance and appearance rate) is 124.
8. The value of the element " capture " (product of importance and appearance rate) is 0.
9. The value of the element "trouble" (product of importance and appearance rate) is 1
0.9, the value of the element "astronaut" (product of importance and appearance rate) is 2.6, the value of the element "emission" (product of importance and appearance rate) is 10.5, and the element "American Airlines" Space Station value (product of importance and appearance rate) is 8.2, element "Kennedy" value (product of importance and appearance rate) is 21.8, element "launch"
Is 18.5 (product of importance and appearance rate), the sum of the values of the element vectors of this cluster is 1153.3.

【0028】この場合、「共通する要素ベクトル」は、
クラスタにおけるアンダーラインして示す「スペースシ
ャトル」〜「捕獲」であるので、類似度の式(2)の分
子は、1080.2×2となり、分母は、1575.1
+1153.3となる。したがって、この場合の類似度
は、0.792となる。
In this case, the “common element vector” is
Since “space shuttle” to “capture” shown as underlines in the cluster, the numerator of the similarity equation (2) is 1080.2 × 2, and the denominator is 1575.1.
The result is +1153.3. Therefore, the similarity in this case is 0.792.

【0029】このようにして、記事とクラスタとの類似
度を評価し(ステップST4)、クラスタとの類似度
が、ある閾値(例えば0.5)以上であれば、最も似て
いると評価されたクラスタに統合する(ステップST
5)。また、クラスタとの類似度が、閾値以下であれ
ば、全てのクラスタについて同様の評価を行う(ステッ
プST4→ステップST6→ステップST3→ステップ
ST4)。その結果、全てのクラスタとの類似度が閾値
以下であれば、その記事で新たなクラスタを構築する
(ステップST7)。以上の処理を繰り返すことにより
(ステップST8)、類似度の高いクラスタが得られ
る。つまり、ニュース原稿に含まれる記事が高精度に分
類される。
In this way, the similarity between the article and the cluster is evaluated (step ST4). If the similarity with the cluster is equal to or more than a certain threshold value (for example, 0.5), it is evaluated that the article is most similar. (Step ST
5). If the degree of similarity with the cluster is equal to or smaller than the threshold, the same evaluation is performed for all clusters (step ST4 → step ST6 → step ST3 → step ST4). As a result, if the similarities with all the clusters are equal to or smaller than the threshold, a new cluster is constructed with the article (step ST7). By repeating the above processing (step ST8), a cluster having a high degree of similarity is obtained. That is, the articles included in the news manuscript are classified with high accuracy.

【0030】このようにして得られた各クラスタは、代
表記事抽出部7に出力されるとともに、記憶・ラベル付
与処理部9に送られる。なお、比較の順番によっても結
果は異なるが、以上説明した処理では、比較は日付け順
に行っている。
Each of the clusters thus obtained is output to the representative article extracting unit 7 and sent to the storage / labeling processing unit 9. Although the result differs depending on the order of comparison, in the processing described above, the comparison is performed in order of date.

【0031】次いで、代表記事抽出部7、重要名詞抽出
部8,記憶・ラベル付与処理部9及びトピック抽出処理
部10では、図5に示す手順により、ラベル付与・トピ
ック抽出処理が行われる。
Next, the representative article extraction unit 7, important noun extraction unit 8, storage / label assignment processing unit 9, and topic extraction processing unit 10 perform label assignment / topic extraction processing according to the procedure shown in FIG.

【0032】代表記事抽出部7は、1つのクラスタが入
力すると(ステップST10)、そのクラスタに含まれ
る記事中の単語の寄与度を計算し(ステップST1
1)、求めた寄与度に基づき代表記事を抽出する(ステ
ップST12)。
When one cluster is input (step ST10), the representative article extractor 7 calculates the contribution of words in articles included in the cluster (step ST1).
1) A representative article is extracted based on the obtained contribution (step ST12).

【0033】クラスタにおける単語の寄与度は、(単語
の重要度)と(クラスタ内での単語の出現率)との積と
して定義してある。なお、クラスタ内での単語の出現率
は、(クラスタ内で単語が出現した記事数)を(クラス
タ全体記事数)で割った値である。そして、代表記事
は、そのクラスタに含まれる単語(例えば第1文に含ま
れる単語)の寄与度の合計が最も大きい記事である。
The degree of contribution of a word in a cluster is defined as the product of (word importance) and (word appearance rate in a cluster). Note that the word appearance rate in a cluster is a value obtained by dividing (the number of articles in which a word appears in a cluster) by (the number of articles in the entire cluster). The representative article is an article in which the total contribution of words included in the cluster (for example, words included in the first sentence) is the largest.

【0034】次に、重要名詞抽出部8は、得られた代表
記事に含まれる全ての名詞句を対象に、そこに含まれる
単語の寄与度の合計を計算し、寄与度が最も大きい名詞
句を重要名詞句として抽出し、記憶・ラベル付与処理部
9に出力する(ステップST13)。記憶・ラベル付与
処理部9は、ニュース記事分類部6から入力したクラス
タに重要名詞抽出部8から入力した名詞句をラベルとし
て付与し、記憶する(ステップST14)。
Next, the important noun extracting unit 8 calculates the sum of the contributions of the words included in all the noun phrases included in the obtained representative article, and determines the noun phrase having the largest contribution. Is extracted as an important noun phrase and output to the storage / labeling processing unit 9 (step ST13). The storage / label assignment processing section 9 assigns the noun phrase input from the important noun extraction section 8 to the cluster input from the news article classification section 6 as a label, and stores the label (step ST14).

【0035】例えば、代表記事「・・・日本人宇宙飛行士
の土井さんが宇宙遊泳をして回収するという計画案を・・
・」において、名詞句「日本人宇宙飛行士の土井さん」
の寄与度が154.9,名詞句「宇宙遊泳」の寄与度が
408.8,名詞句「回収」の寄与度が10.1,名詞
句「計画案」の寄与度が0である場合、「宇宙遊泳」が
抽出され、上記代表記事「・・・日本人宇宙飛行士の土井
さんが宇宙遊泳をして回収するという計画案を・・・」を
含むクラスタのラベルとなる。
For example, a representative article "... A Japanese astronaut, Mr. Doi, plans to take a spacewalk and collect ...
・ ”In the noun phrase“ Japanese astronaut Doi-san ”
Is 154.9, the noun phrase “space swimming” has a contribution of 408.8, the noun phrase “recovery” has a contribution of 10.1, and the noun phrase “plan” has a contribution of 0. “Space swimming” is extracted, and becomes a label of a cluster including the above representative article “... a plan for Japanese astronaut Mr. Doi to perform space swimming and collect ...”.

【0036】全てのクラスタについて同様な処理が行わ
れ、記憶・ラベル付与処理部9には、ラベルが付与され
たクラスタが逐一記憶される(ステップST15)。そ
して、トピック抽出処理部10は、記憶・ラベル付与処
理部9にデータベース化された、ラベル付きクラスタの
それぞれについて、代表記事に含まれる単語の寄与度の
合計が大きいクラスタを順番に検索し、それに付けられ
ているラベルを、順番にトピックの候補として抽出、提
示する。
The same processing is performed for all the clusters, and the storage and labeling processing unit 9 stores the clusters to which labels have been added one by one (step ST15). Then, the topic extraction processing unit 10 sequentially searches clusters having a large sum of the contribution degrees of the words included in the representative article for each of the labeled clusters created in the database in the storage / labeling processing unit 9, The attached labels are extracted and presented as topic candidates in order.

【0037】以上説明したクラスタリング、トピック抽
出の実験を、1995年3月〜1998年8月までのニ
ュース原稿を対象に行った。そのうち1997年11月
のトピック上位8項目と代表記事を図6に示してある。
この8項目に対して、クラスタリング結果を、人手によ
り抽出した結果と比較、評価したところ、適合率91.
8%、再現率75.5%であり、良好な結果が得られる
ことが実証された。
The clustering and topic extraction experiments described above were performed on news manuscripts from March 1995 to August 1998. FIG. 6 shows the top eight topics and the representative articles in November 1997.
For these eight items, the clustering results were compared and evaluated with the results extracted manually, and the relevance rate was 91.
It was 8% and the recall was 75.5%, demonstrating that good results were obtained.

【0038】[0038]

【発明の効果】以上説明したように、請求項1に記載の
発明では、ニュース原稿の記事を似た項目を持つ記事群
に高精度に分類できる。
As described above, according to the first aspect of the invention, news manuscript articles can be classified into article groups having similar items with high accuracy.

【0039】請求項2に記載の発明では、分類された記
事群のそれぞれから、各話題が重複しない分かり易い名
詞句を抽出できる。
According to the second aspect of the present invention, it is possible to extract an easy-to-understand noun phrase from which each topic does not overlap, from each of the classified article groups.

【0040】請求項3に記載の発明では、分類された記
事群のデータベース化ができる。
According to the third aspect of the present invention, a database of classified article groups can be created.

【0041】請求項4に記載の発明では、時間と共に変
化する動的なジャンルであるトピックを自動的に抽出、
提示できる。
According to the fourth aspect of the present invention, topics that are dynamic genres that change with time are automatically extracted,
Can be presented.

【0042】要するに、請求項1乃至請求項4に記載の
発明によれば、ニュース原稿の記事を似た項目を持つ記
事群であるクラスタに分類した後に、そのクラスタから
1つの名詞句を抽出しているので、同じ話題からは1つ
のトピックが抽出され、グローバルな視点からの話題抽
出が可能となる。
In short, according to the first to fourth aspects of the present invention, after a news manuscript article is classified into a cluster which is a group of articles having similar items, one noun phrase is extracted from the cluster. Therefore, one topic is extracted from the same topic, and the topic can be extracted from a global viewpoint.

【図面の簡単な説明】[Brief description of the drawings]

【図1】請求項1乃至請求項4に対応する実施形態のト
ピック抽出装置の構成ブロック図である。
FIG. 1 is a configuration block diagram of a topic extraction device according to an embodiment corresponding to claims 1 to 4;

【図2】記事分類処理動作のフローチャートである。FIG. 2 is a flowchart of an article classification processing operation.

【図3】入力するニュース原稿の例である。FIG. 3 is an example of a news manuscript to be input.

【図4】演算した単語の重要度の例である。FIG. 4 is an example of calculated importance of a word;

【図5】ラベル付与・トピック抽出処理動作のフローチ
ャートである。
FIG. 5 is a flowchart of a label assignment / topic extraction processing operation.

【図6】出力されたトピックと代表記事の例である。FIG. 6 is an example of output topics and representative articles.

【符号の説明】[Explanation of symbols]

1 ファイル装置 2 形態素解析部 3 構文解析部 4 単語重要度演算部 5 類似度比較部 6 ニュース記事分類部 7 代表記事抽出部 8 重要名詞抽出部 9 記憶・ラベル付与処理部 10 トピック抽出処理部 DESCRIPTION OF SYMBOLS 1 File device 2 Morphological analysis part 3 Syntax analysis part 4 Word importance calculation part 5 Similarity comparison part 6 News article classification part 7 Representative article extraction part 8 Important noun extraction part 9 Storage / label assignment processing part 10 Topic extraction processing part

───────────────────────────────────────────────────── フロントページの続き (72)発明者 柴田 正啓 東京都世田谷区砧一丁目10番11号 日本放 送協会放送技術研究所内 (72)発明者 浦谷 則好 東京都世田谷区砧一丁目10番11号 日本放 送協会放送技術研究所内 Fターム(参考) 5B075 ND03 ND23 NK32 NR12 PQ40 PQ75 PR04 PR06 QM08 QP05 ──────────────────────────────────────────────────の Continuing on the front page (72) Inventor Masahiro Shibata 1-10-11 Kinuta, Setagaya-ku, Tokyo Inside the Japan Broadcasting Research Institute (72) Inventor Noriyoshi Uraya 1-10 Kinuta, Setagaya-ku, Tokyo 11 Japan Broadcasting Corporation Broadcasting Research Institute F term (reference) 5B075 ND03 ND23 NK32 NR12 PQ40 PQ75 PR04 PR06 QM08 QP05

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 電子化されたニュース原稿の記事から抽
出した単語の所定期間内における出現率を求め、その出
現率に基づいて単語の重要度を求める単語重要度演算手
段と、 前記求められた単語の重要度及び似た項目を持つ記事群
における前記単語の出現率に基づいて前記似た項目を持
つ記事群の類似度を求めることにより、ニュース原稿の
記事を似た項目を持つ記事群に分類する記事分類手段
と、 を備えることを特徴とするトピック抽出装置。
1. A word importance calculating means for obtaining an appearance rate of a word extracted from an article of an electronic news manuscript within a predetermined period, and for obtaining an importance of the word based on the appearance rate; By calculating the similarity of the articles having the similar items based on the importance of the words and the appearance rate of the words in the articles having the similar items, the articles in the news manuscript can be converted into the articles having the similar items. A topic extraction device, comprising: article classification means for classifying;
【請求項2】 請求項1に記載のトピック抽出装置にお
いて、 前記記事分類手段によって分類された記事群における単
語の寄与度に基づいてその記事群から代表記事を抽出す
る代表記事抽出手段と、 前記抽出された代表記事の中で寄与度の大きい名詞句を
重要名詞句として抽出する重要名詞抽出手段と、 を備えることを特徴とするトピック抽出装置。
2. The topic extraction device according to claim 1, wherein the representative article extraction unit extracts a representative article from the article group based on a word contribution in the article group classified by the article classification unit; An important noun extracting means for extracting a noun phrase having a large contribution degree from the extracted representative articles as an important noun phrase.
【請求項3】 請求項2に記載のトピック抽出装置にお
いて、 前記記事分類手段によって分類された各記事群それぞれ
のラベルとして、前記重要名詞抽出手段が抽出した名詞
句の対応するものを付与するラベル付与手段、 を備えることを特徴とするトピック抽出装置。
3. The topic extracting apparatus according to claim 2, wherein a label corresponding to a noun phrase extracted by the important noun extracting means is assigned as a label of each article group classified by the article classifying means. A topic extracting device, comprising: an assigning unit.
【請求項4】 請求項3に記載のトピック抽出装置にお
いて、 前記ラベル付与手段がラベルを付与した各記事群の中で
寄与度が大きい代表記事を持つ記事群のラベルを順番に
トピックの候補として抽出するトピック抽出手段、 を備えることを特徴とするトピック抽出装置。
4. The topic extraction apparatus according to claim 3, wherein, in each of the article groups to which the labeling means has added a label, a label of an article group having a representative article having a large contribution is sequentially set as a topic candidate. A topic extraction device, comprising: a topic extraction unit for extracting.
JP11065658A 1999-03-11 1999-03-11 Topic extraction device Pending JP2000259666A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11065658A JP2000259666A (en) 1999-03-11 1999-03-11 Topic extraction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11065658A JP2000259666A (en) 1999-03-11 1999-03-11 Topic extraction device

Publications (1)

Publication Number Publication Date
JP2000259666A true JP2000259666A (en) 2000-09-22

Family

ID=13293329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11065658A Pending JP2000259666A (en) 1999-03-11 1999-03-11 Topic extraction device

Country Status (1)

Country Link
JP (1) JP2000259666A (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230035A (en) * 2001-01-05 2002-08-16 Internatl Business Mach Corp <Ibm> Information arranging method, information processor, information processing system, storage medium and program transmitting device
JP2004525458A (en) * 2001-03-16 2004-08-19 トムソン ライセンシング ソシエテ アノニム Navigation method by group calculation, receiver implementing this method, and graphic interface displaying this method
JP2010198278A (en) * 2009-02-25 2010-09-09 Nippon Telegr & Teleph Corp <Ntt> Apparatus, method, and program for classification of reputation information
JP2010205077A (en) * 2009-03-04 2010-09-16 Mitsubishi Electric Corp Device, and program for data integration and recording medium
JP2010271800A (en) * 2009-05-19 2010-12-02 Nippon Telegr & Teleph Corp <Ntt> Device, method, and program for classifying reply document
JP2010286997A (en) * 2009-06-10 2010-12-24 Yahoo Japan Corp Device and method for evaluating value of article, and program
KR101377114B1 (en) * 2012-10-11 2014-03-24 한양대학교 에리카산학협력단 News snippet generation system and method for generating news snippet
KR101544141B1 (en) 2013-10-07 2015-08-12 주식회사 솔트룩스 System for grouping articles based on subject thereof
JP2016081132A (en) * 2014-10-10 2016-05-16 富士通株式会社 Analysis program, analysis method and analyzer
CN111666749A (en) * 2020-06-03 2020-09-15 杭州凡闻科技有限公司 Hot article identification method
JP2020173774A (en) * 2019-04-08 2020-10-22 バイドゥ ドットコム タイムス テクノロジー (ベイジン) カンパニー リミテッド Method, device, server, computer-readable storage medium, and computer program for generating narration

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230035A (en) * 2001-01-05 2002-08-16 Internatl Business Mach Corp <Ibm> Information arranging method, information processor, information processing system, storage medium and program transmitting device
JP2004525458A (en) * 2001-03-16 2004-08-19 トムソン ライセンシング ソシエテ アノニム Navigation method by group calculation, receiver implementing this method, and graphic interface displaying this method
JP2010198278A (en) * 2009-02-25 2010-09-09 Nippon Telegr & Teleph Corp <Ntt> Apparatus, method, and program for classification of reputation information
JP2010205077A (en) * 2009-03-04 2010-09-16 Mitsubishi Electric Corp Device, and program for data integration and recording medium
JP2010271800A (en) * 2009-05-19 2010-12-02 Nippon Telegr & Teleph Corp <Ntt> Device, method, and program for classifying reply document
JP2010286997A (en) * 2009-06-10 2010-12-24 Yahoo Japan Corp Device and method for evaluating value of article, and program
KR101377114B1 (en) * 2012-10-11 2014-03-24 한양대학교 에리카산학협력단 News snippet generation system and method for generating news snippet
KR101544141B1 (en) 2013-10-07 2015-08-12 주식회사 솔트룩스 System for grouping articles based on subject thereof
JP2016081132A (en) * 2014-10-10 2016-05-16 富士通株式会社 Analysis program, analysis method and analyzer
JP2020173774A (en) * 2019-04-08 2020-10-22 バイドゥ ドットコム タイムス テクノロジー (ベイジン) カンパニー リミテッド Method, device, server, computer-readable storage medium, and computer program for generating narration
JP7030095B2 (en) 2019-04-08 2022-03-04 バイドゥ ドットコム タイムス テクノロジー (ベイジン) カンパニー リミテッド Methods, devices, servers, computer-readable storage media and computer programs for generating narration
US11687711B2 (en) 2019-04-08 2023-06-27 Baidu.Com Times Technology (Beijing) Co., Ltd. Method and apparatus for generating commentary
CN111666749A (en) * 2020-06-03 2020-09-15 杭州凡闻科技有限公司 Hot article identification method
CN111666749B (en) * 2020-06-03 2023-09-19 杭州凡闻科技有限公司 Hot article identification method

Similar Documents

Publication Publication Date Title
Hoffart et al. Discovering emerging entities with ambiguous names
CN106202561B (en) Digitlization contingency management case base construction method and device based on text big data
Marujo et al. Supervised topical key phrase extraction of news stories using crowdsourcing, light filtering and co-reference normalization
Harabagiu et al. Topic themes for multi-document summarization
Kadhim et al. Text document preprocessing and dimension reduction techniques for text document clustering
CN109885773B (en) Personalized article recommendation method, system, medium and equipment
US9665798B2 (en) Device and method for detecting specified objects in images using metadata
US7797710B2 (en) Content recommendation device
CN111506771B (en) Video retrieval method, device, equipment and storage medium
CN108519971B (en) Cross-language news topic similarity comparison method based on parallel corpus
CN107844493B (en) File association method and system
JP2000259666A (en) Topic extraction device
Rakholia et al. Classification of Gujarati Documents using Naï ve Bayes Classifier
US9652997B2 (en) Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme
CN110941702A (en) Retrieval method and device for laws and regulations and laws and readable storage medium
Leong et al. Enhancing Malay stemming algorithm with background knowledge
Jia et al. Measuring gender bias in news images
US8214310B2 (en) Cross descriptor learning system, method and program product therefor
Seker et al. Author attribution on streaming data
Kavila et al. An automatic legal document summarization and search using hybrid system
CN106372123B (en) Tag-based related content recommendation method and system
CN109902152B (en) Method and apparatus for retrieving information
ALQARALEH Turkish Sentiment Analysis System via Ensemble Learning
Di Castro et al. Automated extractions for machine generated mail
Zendah et al. Detecting Significant Events in Arabic Microblogs using Soft Frequent Pattern Mining.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060627

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070109