JP4326713B2 - ニュース話題解析装置 - Google Patents

ニュース話題解析装置 Download PDF

Info

Publication number
JP4326713B2
JP4326713B2 JP2001083170A JP2001083170A JP4326713B2 JP 4326713 B2 JP4326713 B2 JP 4326713B2 JP 2001083170 A JP2001083170 A JP 2001083170A JP 2001083170 A JP2001083170 A JP 2001083170A JP 4326713 B2 JP4326713 B2 JP 4326713B2
Authority
JP
Japan
Prior art keywords
news
topic
value
articles
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001083170A
Other languages
English (en)
Other versions
JP2002278962A (ja
Inventor
一郎 山田
正啓 柴田
則好 浦谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2001083170A priority Critical patent/JP4326713B2/ja
Publication of JP2002278962A publication Critical patent/JP2002278962A/ja
Application granted granted Critical
Publication of JP4326713B2 publication Critical patent/JP4326713B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、テキスト集合を対象とした、情報抽出、自然言語処理に係り、自然言語処理技術を利用することにより、ニュース記事集合から重要な情報のみを抽出して要約を生成することが可能な、ニュース話題解析装置に関する。
【0002】
【従来の技術】
従来、複数のニュース記事を分析して、その要約を行う研究では、そのニュース記事が属する分野の構成要素を分類したテンプレートを利用する手法が提案されている。
【0003】
しかし、この手法では、テンプレートを予め人手により生成しなければならず、大量に存在するニュースの分野ごとに的確なテンプレートを作成することは難しい。
【0004】
また、テンプレートの要素ごとにも、抽出ルールを生成しなければならない。この作業にも大変な労力が必要となる。
【0005】
これまでに、テンプレートを利用しないで複数のニュース記事を分析する手法として、出現する単語の統計的な変化に注目した手法が提案されている。この手法では、ニュースの時系列上での話題変化点を抽出し、変化点間のニュース記事集合を一つの話題構成要素を生成すると仮定する。そして、この変化点間から特徴的な名詞句を抽出し、すべての時系列上から抽出された名詞句を、そのニュース記事集合の要約結果として提示している。
【0006】
話題に大きな変化が起きた場合は良好な結果が得られるが、表層的には小さな変化の変化点を見つけることは難しい。例えば、「衆議院特別委員会で可決」と「衆議院本会議で可決」は、この手法では「衆議院〜で可決」が共通しているため、類似した内容と判断されてしまい、話題変化抽出が難しい。
【0007】
【発明が解決しようとする課題】
従来の課題には、大きく分けて以下の3つがある。
(a)テンプレートを利用しないニュース記事からの定型性抽出:
従来の手法では、ニュースの分野ごとのテンプレートを予め人手(ひとで)により生成することが大きな問題となっている。また、テンプレートを利用しない従来の手法では、表層的には小さな変化だが話題の基本となるような要素の抽出が困難である。
(b)行為、状態を表す動詞の確定・未確定を考慮した情報抽出:
従来の手法では、動詞の時制は考慮されなく、既に起きた「確定」事項か、これから起きる「未確定」事項か区別されていない。
(c)話題要素となる自然言語文生成:
従来の手法では、話題要素の抽出結果は「単語」または「名詞句」で提示しているため、直観的な把握が難しい。
【0008】
そこで、本発明の目的は、話題を構成するニュース記事集合の解析を効果的に行うことにより、話題の基本的な構成要素を、分かり易い自然言語文でかつ簡潔に表現することが可能な、ニュース話題解析装置およびその方法を提供することにある。
【0009】
【課題を解決するための手段】
本発明は、ニュース話題を抽出して解析する装置であって、入力により電子化されたニュース原稿を用いて、話題毎に分類されたニュース記事から構成される特定のニュース話題を抽出する抽出手段と、前記抽出された特定のニュース話題を構成する前記ニュース記事を用いて、該ニュース記事に含まれる、少なくとも係り元の単語と係り先の単語とから構成される組の係り受け関係を解析する解析手段と、前記解析されたニュース記事の組の係り受け関係の定型値を求める評価手段とを具え、前記評価手段は、前記組の出現頻度と期待値とがどの程度一致しているかを測る指標値を示す第1の演算値を算出する手段と、前記ニュース記事の総数と前記ニュース記事中に組が出現した記事数とから前記組の係り受け関係を制限する第2の演算値を算出する手段と、品詞の組み合わせによる制限値と、前記第1の演算値と、前記第2の演算値とを乗算することによって、前記ニュース記事の構成要素を抽出するための前記組の係り受け関係の定型値を求める乗算手段とを含み、前記係り元の単語をw 、助詞をw 、前記係り先の単語をw とし、3項組(w ,w ,w )の出現頻度をn(w ,w ,w )、その期待値をe(w ,w ,w )としたとき、
前記第1の演算値としてのχ (w ,w ,w )は、
【数4】
Figure 0004326713
であり、
前記ニュース記事の総数をN、前記ニュース記事中の3項組(w ,w ,w )が出現した記事数をDF(w ,w ,w )としたとき、
前記第2の演算値としてのIDF(w ,w ,w )は、
【数5】
Figure 0004326713
であり、
予め定めた品詞による制限値をC(w ,w ,w )としたとき、前記定型値weight(w,w,w)は、
【数6】
Figure 0004326713
によって算出されたことを特徴とする。
【0010】
前記評価手段から複数の組の係り受け関係の定型値が入力され、前記定型値の大きさに基づいて、所定の組の係り受け関係を抽出し、該抽出された所定の組の係り受け関係のある語句に共通する項が出現した場合に該共通する組を統合することにより、自然言語文を生成する自然言語文生成手段をさらに具えたことを特徴とする。
【0011】
ニュース記事から動詞を抽出し、該抽出された動詞が、既に起きた「確定」事項か、これから起きる「未確定」事項かを判定する確定・未確定判定手段をさらに具えたことを特徴とする。
【0016】
【発明の実施の形態】
以下、図面を参照して、本発明の実施の形態を詳細に説明する。
【0017】
(概要)
まず、本発明の概要について説明する。
【0018】
話題を構成する基本要素は、ニュース記事では、話題に特有の単語や統語構造を用いて表現されることが多い。
【0019】
そこで、ニュース記事中の単語や統語構造が、その記事に属する話題を特徴付ける性質を“定型性”と定義し、この単語や統語構造の定型性を評価することにより、話題を構成するニュース記事集合の解析を効果的に行う。
【0020】
すなわち、本発明は、ニュース原稿から特定のニュース話題を抽出し、該抽出された特定のニュース話題を構成するニュース記事の集合を解析し、いつ、何が起きたかという話題構成要素を抽出し、簡潔に自然言語の文を合成して提示する処理を行う。
【0021】
(具体例)
以下、具体的な例を挙げて説明する。
【0022】
(装置の構成)
図1は、ニュース話題解析装置1の全体的な構成の概略を示す。
【0023】
本装置は、ニュース話題抽出装置10と、構文解析装置20と、定型性評価装置30と、自然言語文生成装置40と、動詞の確定・未確定判定装置50と、話題構成要素抽出装置60とから構成される。
【0024】
ニュース話題抽出装置10は、例えば、電子化されたニュース原稿のニュース記事2から抽出した単語の所定期間内における出現率を求め、その出現率に基づいて単語の重要度を求め、その求められた単語の重要度および似た項目をもつ記事群における単語の出現率に基づいて、上記似た項目をもつ記事群の類似度を求めることにより、ニュース原稿のニュース記事を似た項目を持つ記事群に分類する機能をもつ。ここでいう記事群とは、話題毎に分類されたニュース記事11のことである。
【0025】
定型性評価装置30は、ニュース話題抽出装置10により抽出された話題を構成するニュース記事11を、周知技術である構文解析装置20によって係り受け解析を行い、その結果を入力として与え、話題に特有の単語や統語構造の定型性を評価する機能をもつ。
【0026】
自然言語文生成装置40は、話題に特有の単語や統語構造の定型性を利用することにより、ニュース記事11から、その1文の内容を要約した、わかりやすい定型自然言語文を生成する機能をもつ。
【0027】
動詞の確定・未確定判定装置50は、ニュース記事11から、行為、状態を表す動詞を抽出し、それらが、既に起きた「確定」事項か、これから起きる「未確定」事項かを判定する機能をもつ。
【0028】
課題構成要素抽出装置60は、自然言語文生成装置40と、動詞の確定・未確定判定装置50の出力結果とを利用することにより、特定の話題を構成する構成要素70を提示する機能をもつ。
【0029】
上記の構成において、テンプレートを利用しないニュース記事11からの定型性抽出を行うために、ニュース記事に含まれる単語間の係り受け関係の定型性に注目する。話題毎に、2つの単語と助詞との3項組の係り受け関係の統計値を利用して、話題を特徴付けることが可能な3項組を抽出し、その話題の定型表現とする。
【0030】
行為、状態を表す動詞の確定・未確定を考慮した情報抽出を行うために、動詞の時制を考慮し、曖昧性が大きい「未確定」事項を情報抽出の処理対象から除くようにする。
【0031】
話題要素となる自然言語文生成を行うために、話題の定型表現となる係り受け関係を利用して、話題とは無関係である不要な係り受けを除いて自然言語文を生成する。
【0032】
(装置の動作)
次に、本装置の動作について説明する。
【0033】
(定型性評価装置)
図2は、定型性評価装置30の処理手順を示す。
【0034】
定型性評価装置30に入力されるデータは、ニュース話題抽出装置10により抽出された話題毎に構成されるニュース記事11を、構文解析装置20により係り受け解析を行った結果データとする。
【0035】
定型性評価は、文全体を対象として処理を行うと、係り受け関係の組み合わせ数が大きくなりすぎる問題が生じる。このため、ここでは、2つの単語と助詞の3項組(助詞を用いず直接係る場合は2項組)の定型性を評価する。
【0036】
話題に特有の3項組を評価するため、観測値と期待値とがどの程度一致しているかを測る指標であるχ値を利用し、8年分のニュース記事集合(330,660文)と特定の話題が属する分野のニュース記事集合(9,227文)の比較を行った。ここでは、国会審議に関するニュース記事を対象としているが、対象とする母集団を変えることにより、他の分野へも適用可能である。
【0037】
構文解析結果の係り元の単語をw、助詞をw、係り先の単語をwとする。3項組(w,w,w)の出現頻度をn(w,w,w)、その期待値をe(w,w,w)としたとき、χ(w,w,w)は次の式とした。
【0038】
【数1】
Figure 0004326713
【0039】
このとき、単語の属性が人名、組織名、地名である場合は、抽象化した属性名を利用した。例えば「自民党の政策」と「社会党の政策」は、共に「“組織名”の政策」としてχ値を計算する。
【0040】
また、話題を構成する記事中に頻繁に出現する3項組は、その内容を特定するための分別能力に乏しい。例えば、衆議院総選挙の話題では、「衆議院の総選挙」という3項組は、ほとんどのニュース記事で出現するため、この話題を対象とした内容解析処理では不要な要素となる。
【0041】
そこで、そのような3項組の値を制限するために、IDF値を利用した。対象とする話題を構成するニュース記事の総数をN、ニュース記事中の3項組(w,w,w)が出現した記事数をDF(w,w,w)としたとき、IDF(w,w,w)は次の式で与えられる。
【0042】
【数2】
Figure 0004326713
【0043】
さらに、品詞の組み合わせにより、定型性評価の重み付けに制限を与える。品詞による制限値C(w,w,w)は、(名詞、助詞、動詞)の組み合わせを最重要とし、図3に示す値100とした。
【0044】
χ値、IDF値、さらに品詞による制限値を相乗的に利用することにより、話題の構成要素を抽出するための3項組の定型値weight(w,w,w)を以下のように定義した。
【0045】
【数3】
Figure 0004326713
【0046】
この値が大きいほど、対象とする特定の話題における決まった表現と考えられる。
【0047】
図4は、「ガイドライン関連法案の審議」に出現した3項組の定型性評価結果110の上位30組を示す。
【0048】
「賛成多数で可決される」「参議院に送られる」といった、国会審議に関するニュース記事の型にはまった表現が上位にあり、話題に特有の単語と統語構造を良好に評価できている。
【0049】
(自然言語文生成装置)
自然言語文生成装置40は、定型性評価装置30の出力を利用することにより、ニュース記事から、話題を特徴づける定型的な自然言語文を生成する処理を行う。
【0050】
図5は、自然言語文の生成処理を示すフローチャートである。
【0051】
ステップS1では、定型性評価装置30の出力であるニュース記事に含まれる3項組の定型性評価結果を入力する。
【0052】
ステップS2では、全ての3項組で処理したか否かを調べる。処理した場合にはステップS6に進み、統合された自然言語文を出力する。処理していない場合にはステップS3に進む。
【0053】
ステップS3では、定型値が0より大きいか否かを調べる。3項組が少しでもその分野に依存する場合は、3項組の定型値は0よりも大きな値をとる。
【0054】
そこで、この定型値が0よりも大きい場合、3項組を抽出し、ステップS4に進む。一方、定型値が0より小さい場合、ステップS2に戻る。
【0055】
ステップS4では、共通する項が出現したか否かを調べる。共通する項が出現した場合は、ステップS5に進む。一方、共通する項が出現しない場合は、ステップS2に戻る。
【0056】
ステップS5では、共通する項を持つ3項組を統合した文を生成する。このとき、3項組が持つ定型値の合計が、文の定型値となる。
【0057】
図6は、定型文の生成例を示す。
【0058】
ステップS11は、与えられたニュース記事の内容を示す。
【0059】
ステップS12では、そのニュース記事の内容から、4つの定型的な3項組を抽出し、共通項の「可決される」「送られる」を持つ3項組を順に統合していく。
【0060】
ステップS13では、「衆議院本会議で、賛成多数で可決され、衆議院に送られる」という文を生成する。
【0061】
(動詞の確定・未確定装置)
動詞の確定・未確定装置50は、ニュース記事11から、行為、状態を表す動詞を抽出し、これら抽出された値が、既に起きた「確定」事項か、これから起きる「未確定」事項かを判定する処理を行う。
【0062】
図7は、動詞の確定・未確定処理を示すフローチャートである。
【0063】
ステップS21でニュース記事11を入力した後、ステップS22では、ニュース記事11の文に含まれる動詞を全て抽出する。
【0064】
ステップS23では、全ての動詞を処理したか否かをチェックする。処理していない場合はステップS24に進み、一方、処理している場合はステップS23aに進んで処理を終了する。
【0065】
ステップS24では、名詞を修飾するか否かを調べる。例えば、事態の確実性を表す名詞(「こと」「考え」「方針」「意向」「見通し」)以外の名詞を修飾する動詞を、文の主題とは無関係と判断し、確定・未確定の判定処理の対象から除外する。一方、名詞を修飾しない場合は、ステップS23に戻る。
【0066】
ステップS25では、動詞の語尾が「タ形」か否かをチェックする。この確定・未確定の判定処理において、基本的には、動詞の時制を利用する。その結果、動詞の語尾が「過去」を表す「タ形」の場合は確定と判定し、「ル形」の場合と時制が不明確な場合には未確定と判定する。
【0067】
しかし、以下に述べるような例外も存在する。従って、動詞の語尾が「タ形」の場合はステップS26に進み、一方、動詞の語尾が「タ形」でない場合は、ステップS28に進む。
【0068】
ステップS26では、条件を表す名詞が存在するかを調べる。存在する場合はステップS30に進み、動詞が「タ形」でも、未確定と判定する。一方、存在しない場合はステップS27に進み、確定と判定する。
【0069】
ここで、1例として、条件を表す名詞が存在する場合、
動詞が「タ形」でも、未確定とする。
例:「日本に武力攻撃が加えられた場合は、・・・」
→「加えられた」は「未確定」と判定する。
【0070】
一方、ステップS28では、連用修飾節か否かを調べる。連用修飾節の動詞の場合、ステップS29に進み、係り先の動詞が確定事項か否かを調べる。確定事項であればステップS27に進み、確定と判定する。確定事項でなければステップS30に進み、未確定と判定する。
【0071】
ここで、1例として、連用修飾節の動詞の場合、
係り先の連用節と同じ時制として判定する。
例:「・・・と述べ、・・・ことを示しました。」
→「述べ」は「示しました」と同じ時制
「過去」として「確定」と判定する。
【0072】
ステップS28で連用修飾節でない場合は、ステップS30に進み、未確定と判定する。
【0073】
このような処理を話題「ガイドライン関連法案の審議」を構成する331個のニュース記事に対して行い、手作業による結果と比較検証した。
【0074】
図8は、その確定・未確定の判定結果200を示す。
【0075】
出現した929個の動詞中、810個(87.2%)の動詞に対して正解が与えられ、ある程度、良好な結果が得られている。
【0076】
(話題構成要素抽出装置)
話題構成要素抽出装置60は、自然言語文生成装置40と、動詞の確定・未確定判定装置50との出力結果を利用することにより、特定の話題を構成する要素を提示する処理を行う。
【0077】
図9は、話題構成要素の抽出処理を示すフローチャートである。
【0078】
入力データとして、自然言語文生成装置40からの出力結果として、話題を構成するニュース記事集合から生成された複数の自然言語文を入力する。また、動詞の確定・未確定判定装置50からの出力結果として、話題を構成するニュース記事集合に含まれる「確定」と判定された動詞を入力する。
【0079】
まず、ステップS31では、文末の動詞が確定か否かを調べる。確定の場合はステップS33に進み、一方、確定していない場合はステップS32に進んで除外する。
【0080】
ステップS33では、定型値が閾値よりも大きいか否かを調べ、大きい場合はステップS35に進み、一方、大きくない場合はステップS34に進んで除外する。
【0081】
ステップS35では、文末の動詞が「発表語」か否かを調べる。「発表語」の場合はステップS36に進み、「発表語」でない場合はステップS38に進む。
【0082】
ステップS36では、動詞の前は、「考え」、「方針」、「意向」、「見通し」の何れかであるか否かをチェックする。何れかである場合はステップS37に進み、何れかでない場合はステップS38に進む。
【0083】
ステップS37では、文末の動詞が「発表語」で、その前に「こと」以外の「事態の確実性を表す名詞(「考え」「方針」「意向」「見通し」)」がある場合は、その前に述べられた行為の確定性が低いことが判っているため、「考えを表明する」などが含まれる定型文は、抽出結果から除外する。
【0084】
ステップS38では、他の自然言語文と共通の3項組とが、閾値の定型値よりも大きいか否かを調べる。定型値よりも大きい場合はステップS39に進み、大きくない場合はステップS41に進む。
【0085】
ステップS39では、類似した複数の自然言語文に不整合が生じるか否かを調べる。不整合が生じない場合は、ステップS40に進み、定型値が最大の自然言語文のみを抽出する。抽出した場合、又は、不整合が生じた場合は、ステップS41に進む。
【0086】
ここで、ステップS38〜ステップS40までの具体的な処理について説明する。
【0087】
同一内容について述べたニュース記事も数多く存在するため、類似内容の定型文も複数抽出してしまう。そこで、重複する定型文を削除する処理を行う。
【0088】
この削除する処理では、以下の2つの条件(1)(2)を満たす場合に重複した定型文と判断し、定型値が低い文を削除する。
【0089】
(1)一定値(本例では0)より大きい定型値を持つ3項組の係り受け関係で、その内容に不整合(2項が同じで1項のみ異なる組み合わせ)が存在しない。
【0090】
(2)共通である3項組の定型値の合計が一定値以上(例えば、{min(2文の定型値)/2}以上)。
【0091】
例えば、抽出された定型文の「衆議院本会議で可決される(定型値2417.4)」と「衆議院本会議で、賛成多数で可決され、参議院に送られる(定型値12327.7)」とは、上記の条件が満たすため、文の定型値が低い「衆議院本会議で可決される」は削除される。
【0092】
確定と判定された動詞を文末に持つ定型文で、その定型値が一定の閾値(例えば、本例では500)以上の文から、行為の確定性が低い文と、重複した定型文とを削除することにより、話題要素文を抽出する。
【0093】
ステップS41では、抽出された話題要素文である、残った複数の自然言語文を時系列に掲示する。掲示方法としては各種の方法が考えられ、画面に表示したり、印刷出力してもよい。
【0094】
図10は、話題「ガイドライン関連法案の審議」に関する331文のニュース記事から話題要素文を自動抽出した抽出結果300を示す。
【0095】
衆議院本会議での趣旨説明、特別委員会の参考人質疑、衆議院本会議の可決、参議院特別委員会の可決、参議院本会議での可決成立など、主要と考えられる要素が、適切な短文で抽出されている。
【0096】
【発明の効果】
以上説明したように、本発明によれば、ニュース原稿から特定のニュース話題を抽出し、該抽出された特定のニュース話題を構成するニュース記事の係り受け関係を解析し、解析されたニュース記事の係り受け関係の定型性、例えば話題を特徴付ける単語や統語構造の定型性を評価するようにしたので、話題を構成するニュース記事集合を自動解析し、いつ、どのような事が起きたかという話題の基本的な構成要素を分かり易い自然言語文でかつ簡潔に提示することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の形態である、ニュース話題解析装置の構成例を示すブロック図である。
【図2】定型性評価装置の定型性評価処理の手順を示すフローチャートである。
【図3】品詞による制限値を示す説明図である。
【図4】「ガイドライン関連法案の審議」に出現した3項組の定型性評価結果の上位30組の例を示す説明図である。
【図5】自然言語文生成装置の自然言語文生成処理の手順を示すフローチャートである。
【図6】定型文の生成例を示す説明図である。
【図7】動詞の確定・未確定判定装置の確定・未確定判定処理の手順を示すフローチャートである。
【図8】確定・未確定の判定結果を示す説明図である。
【図9】話題構成要素抽出装置の抽出処理の手順を示すフローチャートである。
【図10】話題要素文を自動抽出した結果を示す説明図である。
【符号の説明】
1 ニュース話題解析装置
2 ニュース原稿のニュース記事
10 ニュース話題抽出装置
11 ニュース記事
20 構文解析装置
30 定型性評価装置
40 自然言語文生成装置
50 動詞の確定・未確定判定装置
60 話題構成要素抽出装置
70 構成要素
100 品詞による制限値
110 定型性評価結果
200 判定結果
300 抽出結果

Claims (3)

  1. ニュース話題を抽出して解析する装置であって、
    入力により電子化されたニュース原稿を用いて、話題毎に分類されたニュース記事から構成される特定のニュース話題を抽出する抽出手段と、
    前記抽出された特定のニュース話題を構成する前記ニュース記事を用いて、該ニュース記事に含まれる、少なくとも係り元の単語と係り先の単語とから構成される組の係り受け関係を解析する解析手段と、
    前記解析されたニュース記事の組の係り受け関係の定型値を求める評価手段と
    を具え、
    前記評価手段は、
    前記組の出現頻度と期待値とがどの程度一致しているかを測る指標値を示す第1の演算値を算出する手段と、
    前記ニュース記事の総数と前記ニュース記事中に組が出現した記事数とから前記組の係り受け関係を制限する第2の演算値を算出する手段と、
    品詞の組み合わせによる制限値と、前記第1の演算値と、前記第2の演算値とを乗算することによって、前記ニュース記事の構成要素を抽出するための前記組の係り受け関係の定型値を求める乗算手段と
    含み、
    前記係り元の単語をw 、助詞をw 、前記係り先の単語をw とし、3項組(w ,w ,w )の出現頻度をn(w ,w ,w )、その期待値をe(w ,w ,w )としたとき、
    前記第1の演算値としてのχ (w ,w ,w )は、
    Figure 0004326713
    であり、
    前記ニュース記事の総数をN、前記ニュース記事中の3項組(w ,w ,w )が出現した記事数をDF(w ,w ,w )としたとき、
    前記第2の演算値としてのIDF(w ,w ,w )は、
    Figure 0004326713
    であり、
    予め定めた品詞による制限値をC(w ,w ,w )としたとき、前記定型値weight(w,w,w)は、
    Figure 0004326713
    によって算出されたことを特徴とするニュース話題解析装置。
  2. 前記評価手段から複数の組の係り受け関係の定型値が入力され、
    前記定型値の大きさに基づいて、所定の組の係り受け関係を抽出し、該抽出された所定の組の係り受け関係のある語句に共通する項が出現した場合に該共通する組を統合することにより、自然言語文を生成する自然言語文生成手段
    をさらに具えたことを特徴とする請求項1記載のニュース話題解析装置。
  3. ニュース記事から動詞を抽出し、該抽出された動詞が、既に起きた「確定」事項か、これから起きる「未確定」事項かを判定する確定・未確定判定手段
    をさらに具えたことを特徴とする請求項1又は2記載のニュース話題解析装置。
JP2001083170A 2001-03-22 2001-03-22 ニュース話題解析装置 Expired - Fee Related JP4326713B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001083170A JP4326713B2 (ja) 2001-03-22 2001-03-22 ニュース話題解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001083170A JP4326713B2 (ja) 2001-03-22 2001-03-22 ニュース話題解析装置

Publications (2)

Publication Number Publication Date
JP2002278962A JP2002278962A (ja) 2002-09-27
JP4326713B2 true JP4326713B2 (ja) 2009-09-09

Family

ID=18939025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001083170A Expired - Fee Related JP4326713B2 (ja) 2001-03-22 2001-03-22 ニュース話題解析装置

Country Status (1)

Country Link
JP (1) JP4326713B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10699062B2 (en) 2017-08-01 2020-06-30 Samsung Electronics Co., Ltd. Apparatus and method for providing summarized information using an artificial intelligence model

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4859577B2 (ja) * 2006-07-27 2012-01-25 三菱電機ビルテクノサービス株式会社 ビル設備作業報告書作成システム
JP2009271796A (ja) * 2008-05-08 2009-11-19 Nomura Research Institute Ltd 文書データのノイズ除去システム
JP7090936B2 (ja) * 2017-11-23 2022-06-27 アイエスディー インコーポレーテッド Esg基盤の企業評価遂行装置及びその作動方法
JP7268220B2 (ja) * 2018-03-16 2023-05-02 株式会社日立製作所 文章処理装置および文章処理方法
CN110516067B (zh) * 2019-08-23 2022-02-11 北京工商大学 基于话题检测的舆情监控方法、系统及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10699062B2 (en) 2017-08-01 2020-06-30 Samsung Electronics Co., Ltd. Apparatus and method for providing summarized information using an artificial intelligence model
US11017156B2 (en) 2017-08-01 2021-05-25 Samsung Electronics Co., Ltd. Apparatus and method for providing summarized information using an artificial intelligence model
US11574116B2 (en) 2017-08-01 2023-02-07 Samsung Electronics Co., Ltd. Apparatus and method for providing summarized information using an artificial intelligence model

Also Published As

Publication number Publication date
JP2002278962A (ja) 2002-09-27

Similar Documents

Publication Publication Date Title
Stamatatos et al. Clustering by authorship within and across documents
US9558263B2 (en) Identifying and displaying relationships between candidate answers
CN105426360B (zh) 一种关键词抽取方法及装置
Murray et al. Generating and validating abstracts of meeting conversations: a user study
Kherwa et al. An approach towards comprehensive sentimental data analysis and opinion mining
CN102298587B (zh) 满意度调查方法及系统
JP2011134334A (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
Ginting et al. Hate speech detection on twitter using multinomial logistic regression classification method
JP2009134714A (ja) プライバシーポリシーを強化するためにコンピュータが実行する方法
CN111079029B (zh) 敏感账号的检测方法、存储介质和计算机设备
CN109101551B (zh) 一种问答知识库的构建方法及装置
Ali et al. Porter stemming algorithm for semantic checking
Khatri et al. Detecting offensive content in open-domain conversations using two stage semi-supervision
Wohlgenannt et al. Extracting social networks from literary text with word embedding tools
Clark et al. A classifier system for author recognition using synonym-based features
JP4326713B2 (ja) ニュース話題解析装置
Collantes et al. Simpatico: A text simplification system for senate and house bills
Macdonald et al. Searching for expertise: Experiments with the voting model
Sweeney et al. Multi-entity sentiment analysis using entity-level feature extraction and word embeddings approach.
KR20090126862A (ko) 자연어 처리를 이용한 감성 정보 분석 시스템 및 방법,자연어 처리를 이용한 감성 정보 분석 방법을 컴퓨터에서실행하기 위한 프로그램을 저장한 기록매체
CN105786929A (zh) 一种信息监测方法及装置
Yin et al. Research of integrated algorithm establishment of a spam detection system
JP6097707B2 (ja) データ更新装置、方法、及びプログラム
Kurniawan et al. Optimization of sentiment analysis using naive Bayes with features selection chi-square and information gain for Accuracy Improvement
JP2006190196A (ja) 人物評価装置、及び、人物評価方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080219

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080417

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081219

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20090114

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090119

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20090122

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090114

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090122

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20090327

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090529

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090610

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120619

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120619

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130619

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees