JP2009104296A - 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 - Google Patents

関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 Download PDF

Info

Publication number
JP2009104296A
JP2009104296A JP2007273817A JP2007273817A JP2009104296A JP 2009104296 A JP2009104296 A JP 2009104296A JP 2007273817 A JP2007273817 A JP 2007273817A JP 2007273817 A JP2007273817 A JP 2007273817A JP 2009104296 A JP2009104296 A JP 2009104296A
Authority
JP
Japan
Prior art keywords
phrase
related keyword
time variation
word
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007273817A
Other languages
English (en)
Inventor
Yuichiro Sekiguchi
裕一郎 関口
Tadashi Uchiyama
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007273817A priority Critical patent/JP2009104296A/ja
Publication of JP2009104296A publication Critical patent/JP2009104296A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ある一時期だけ話題になったような事柄の関連キーワードを精度よく抽出する。
【解決手段】本発明は、作成時刻情報を有する文書群が入力されると、該文書群を解析し、関連性評価の対象となる語句を該文書群中から切り出し、文書群の解析結果に含まれる語句について使用頻度の時間変動を集計し、外部から関連キーワード抽出処理の対象となる分析対象語句の情報を受け付け、語句毎の使用頻度の時間変動Aと、入力された該分析対象語句の使用頻度の時間変動Bとを比較することにより、各語句の分析対象語句との関連度を算出し、関連度に基づいて、分析対象語句の使用頻度の時間変動Bと文書群中での使用頻度の時間変動Aが似通っている語句を関連キーワードとして出力する。
【選択図】図1

Description

本発明は、関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に係り、特に、新しい情報を含む文書を次々と入手し得る状況において、ある出来事と関連して話題となっている語句を自動的に抽出するための関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体に関する。
インターネットをはじめとした情報メディアの発達により、誰であっても容易に情報発信を行えるようになり、様々な発信者によって文書が作成され、ネットワーク上に発信されるようになってきている。これらの文書はその作成時刻情報も付与された形で公開されることも多く、そのような文書群を解析し、文書群中に含まれる語句の出現回数の時間変動を抽出し、複数の語句の時間変動パターンの相似関係を分析することによって、複数の語句が関連した話題なのかどうかを自動判別することが可能になると考えられる。
従来の技術として、大量の文書中における語句の共起回数を分析することにより、より多く共起するような語句を、関連キーワードとして抽出する技術がある(例えば、特許文献1参照)。
特開平5−282367号公報
しかしながら、上記従来の技術は、ユーザの設定した分析対象語句との共起頻度を利用して関連キーワードを抽出するため、時事ニュースのようなある期間のみ話題になった事柄の関連キーワードを抽出する場合に、そのことが書かれた記事数が記事の全数に対して少なくなってしまうために、関連キーワードの抽出精度が落ちるという問題点があった。
本発明は、上記の点に鑑みなされたもので、語句の使用頻度の時間的な変動を考慮した関連キーワード抽出を行うことにより、ある一時期だけ話題になったような事柄の関連キーワードを精度よく抽出することが可能な関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体を提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、文書解析手段、語句集計手段、語句記憶手段、関連度算出手段、出力手段とを有する関連キーワード抽出装置において、入力された分析対象語句の関連キーワードを、多数の文書を解析することによって取得する関連キーワード抽出方法であって、
文書解析手段が、作成時刻情報を有する文書群が入力されると、該文書群を解析し、関連性評価の対象となる語句を該文書群中から切り出す文書解析ステップ(ステップ1)と、
語句集計手段が、文書解析ステップにより得られる文書群の解析結果に含まれる語句について使用頻度の時間変動を集計し、語句毎の使用頻度の時間変動を語句記憶手段に格納する語句集計ステップ(ステップ2)と、
関連度算出手段が、外部から関連キーワード抽出処理の対象となる分析対象語句の情報を受け付け(ステップ3)、語句記憶手段の語句毎の使用頻度の時間変動Aと、入力された該分析対象語句の使用頻度の時間変動Bとを比較することにより、各語句の分析対象語句との関連度を算出する(ステップ4)関連度算出ステップと、
出力手段が、関連度算出ステップにおいて算出された関連度に基づいて、分析対象語句の使用頻度の時間変動Bと文書群中での使用頻度の時間変動Aが似通っている語句を関連キーワードとして出力する出力ステップ(ステップ5)と、を行う。
また、本発明(請求項2)は、関連度算出ステップにおいて、
文書群中における分析対象語句wの使用頻度の時間変動を表す関数をDw(T)、該文書群に含まれるある語句wの使用頻度の時間変動を表す関数をDw(T)とした際に、該語句wの分析対象語句wに対する関連度スコアR(w)を、
Figure 2009104296
により求める。
また、本発明(請求項3)は、関連度算出ステップにおいて、
文書群中における分析対象語句wの使用頻度の時間変動を表す関数をDw(T)、該文書群に含まれるある語句wの使用頻度の時間変動を表す関数をDw(T)とした際に、外部から入力された処理対象期間の開始時刻tから終了時刻tまでの処理対象期間におけるある語句wの処理対象語句に対する関連度スコアR(w)を、
Figure 2009104296
により求める。
図2は、本発明の原理構成図である。
本発明(請求項4)は、入力された分析対象語句の関連キーワードを、多数の文書を解析することによって取得する関連キーワード抽出装置であって、
作成時刻情報を有する文書群が入力されると、該文書群を解析し、関連性評価の対象となる語句を該文書群中から切り出す文書解析手段220と、
文書解析手段により得られる文書群の解析結果に含まれる語句について使用頻度の時間変動を集計し、語句毎の使用頻度の時間変動を語句記憶手段240に格納する語句集計手段230と、
外部から関連キーワード抽出処理の対象となる分析対象語句の情報を受け付け、語句記憶手段240の語句毎の使用頻度の時間変動Aと、入力された該分析対象語句の使用頻度の時間変動Bとを比較することにより、各語句の分析対象語句との関連度を算出する関連度算出手段250と、
関連度算出手段250で算出された関連度に基づいて、分析対象語句の使用頻度の時間変動Bと文書群中での使用頻度の時間変動Aが似通っている語句を関連キーワードとして出力する関連キーワード出力手段260と、を有する。
また、本発明(請求項5)は、関連度算出手段250において、
文書群中における分析対象語句wの使用頻度の時間変動を表す関数をDw(T)、該文書群に含まれるある語句wの使用頻度の時間変動を表す関数をDw(T)とした際に、該語句wの分析対象語句wに対する関連度スコアR(w)を、
Figure 2009104296
により求める手段を含む。
また、本発明(請求項6)は、関連度算出手段において、
文書群中における分析対象語句wの使用頻度の時間変動を表す関数をDw(T)、該文書群に含まれるある語句wの使用頻度の時間変動を表す関数をDw(T)とした際に、外部から入力された処理対象期間の開始時刻tから終了時刻tまでの処理対象期間におけるある語句wの処理対象語句に対する関連度スコアR(w)を、
Figure 2009104296
により求める手段を含む。
本発明(請求項7)は、請求項4乃至6のいずれか1項に記載の関連キーワード抽出装置を構成する各手段としてコンピュータを機能させる関連キーワード抽出プログラムである。
本発明(請求項8)は、請求項7記載の関連キーワード抽出プログラムを格納したコンピュータ読取可能な記録媒体である。
上記のように本発明によれば、語句の使用頻度の時間変化を考慮した関連キーワードの算出を行うため、ある期間に特徴的に記事が発信される時事ニュース等に関連するキーワードを精度よく抽出することが可能となる。
以下、図面と共に本発明の実施の形態を説明する。
[第1の実施の形態]
図3は、本発明の第1の実施の形態における関連キーワード抽出装置の構成図である。
同図に示す関連キーワード抽出装置200には、本装置が分析対象とする文書データを蓄積する文書データベース210と、本装置が出力する関連キーワード情報を表示もしくは出力する出力装置270とが接続されている。
関連キーワード装置200は、文書解析部220、語句集計部230、語句データベース240、関連度算出部250、関連キーワード出力部260から構成される。
文書データベース210には、作成時刻が付加された文書群が蓄積されている。例えば、Web上に公開されている文書に「2007 4/25 13:55」といったような作成時刻と文書を一意に表す文書IDとを付加し、次々と入力として記録することにより、文書データベース210を構築することができる。インターネット上の日記サイトなど、新しい文書が逐次更新される情報源の場合には、サイト内の文書が更新された場合にも、新たな文書が作成されたと見做して収集してもよい。
図4は、本発明の第1の実施の形態における動作のフローチャートである。上記の関連キーワード抽出装置の動作を図4に沿って説明する。
ステップ110) 文書解析部220は、文書データベース210に蓄積されている文書を1文書ずつ取得し、形態素解析を行い、品詞毎に分解して抽出する。例えば、「おいしいチョコドーナツ」という文章を、「おいしい」「チョコ」「ドーナツ」と分解する。このようにして得られた語句それぞれについて、解析前に該語句が含まれていた文書の作成時刻と文書IDとを付加し、語句集計部230の語句バッファ231に蓄積する。このとき、処理の軽減のために分解された品詞群から名詞のみ選んで抽出してもよい。また、必要に応じて「チョコ」「ドーナツ」という連続する名詞を連結して「チョコドーナツ」という複合名詞とし、複合名詞を1個の名詞として扱ってもよい。以下の説明では、名詞と複合名詞とを総称して"語句"と呼ぶ。語句バッファ231に蓄積される情報は、「チョコドーナツ 2006/01/06 11:36 ID1035、バナナ 2006/01/06 11:36 ID1035、新製品 2006/01/06 12:06 ID1036、…」といった形式となる。
ステップ120) 関連度算出部250において、外部から関連キーワードを抽出する対象となる分析対象語句の入力を受け付ける。なお、当該処理は、次の語句集計部230の処理が終わってから行ってもよい。
ステップ130) 語句集計部230は、予め設定された一定期間毎に起動し、語句バッファ231中に含まれる全ての語句について語句の使用回数を集計する。集計の結果得られた、語句と語句の使用頻度との全ての組を、集計した時刻の情報と共に語句データベース240に記録する。語句データベース240に蓄積される情報の例を図5に示す。
語句集計部230において、データ量の削減のため、全文書中での語句の使用回数を集計する代わりに、当該語句が同一の文書IDで複数回使われている場合には、合わせて1回と集計することにより、語句の使用頻度を集計してもよい。
関連度算出部250は、ステップ120において外部から処理対象となる分析対象語句が入力されると、語句データベース240から、他の全ての語句の使用回数の時間変化を抽出し、当該分析対象語句の使用回数の時間変化と比較することにより、各語句の分析対象語句に対する関連度を算出し、関連キーワード出力部260の関連度バッファ261に出力する。
以下、分析対象語句をwと表記することとし、関連度算出部の動作を詳細に説明する。
図6は、本発明の第1の実施の形態における関連度算出部の処理のフローチャートである。
関連度算出部250は、処理が開始されると外部から処理対象となるwの入力を受け付ける(ステップ500)。
受け付けたwについて語句データベース240から該語句wの各集計期間毎の使用頻度情報を読み込み、集計期間毎のwの使用頻度の変動を表す関数Dw(T)を算出する。このとき、Dw(k)にはk期間前の語句wの使用頻度を表すこととする。また、処理を軽減するため最近N期間の使用文書数のみに限ってDw(T)を算出してもよい(ステップ510)。また、wが複数の形態素から構成される語句である場合など、wが語句データベース240に含まれない場合には、文書データベース210からwを含む文書情報の集合を取得し、得られた各文書の作成時刻情報を集計することによりDw(T)を算出してもよい。
次に、語句データベース240から未処理の語句を一つ選び出し、当該語句(以下、wと記す)の各集計期間毎の使用頻度情報をステップ510と同様に語句データベース230から取得し、当該の使用頻度の変動を表す関数Dw(T)をステップ510と同様に算出する(ステップ520)。
の時間変化関数Dw(T)とwの時間変化関数Dw(T)の相関を評価して、wに対するwの関連度スコアを得る。相関性の算出には一般的な波形の相関関数を用いるものとし、下記の式(1)によってwに対するwの関連度(R(w)と表記することとする)が得られる(ステップ530)。
Figure 2009104296
とステップ530で得られたwの関連度スコアR(w)を関連キーワード出力部260の関連度バッファ261に蓄積する(ステップ540)。
語句データベース240に含まれる全ての語句について、関連度算出処理がされたかを確認し、全ての語句が処理されている場合、関連度算出部250の処理を終了する。未処理の語句がある場合には、ステップ520に戻り処理を継続する(ステップ550)。
ステップ140) 関連キーワード出力部260は、関連度バッファ261中に含まれる全ての語句と関連との組を、その関連度の高い順に並べ替え、予め指定された閾値よりも高い関連度を持つ語句を分析対象語句の関連キーワードとして、出力装置270に出力する。この際、必要に応じて各語句の関連度の値と共に出力してもよい。
[第2の実施の形態]
上記の第1の実施の形態においては、全ての時間範囲における使用頻度の時間変異の相関を用いて関連度を算出していた。しかし、関連度を抽出する処理対象語句が多く使われていた期間が事前に分かっている場合においては、関連度の算出を行う時間範囲をその前後のみに絞ることにより、計算量を削減し抽出精度を上げることができる。本実施の形態では、そのような処理について説明する。
図7は、本発明の第2の実施の形態における関連キーワード抽出装置の構成図である。
同図に示す関連キーワード抽出装置200は、前述の第1の実施の形態と同様に、本装置が分析対象とする文書データを蓄積する文書データベース210と、本装置が出力する関連キーワード情報を表示もしくは出力する出力装置270とが接続されている。
関連キーワード抽出装置200は、第1の実施の形態の構成と同様であり、関連度算出部550の動作が異なるのみであるので、それ以外の構成要件に関する説明は省略する。
関連度算出部550は、外部から処理対象となる分析対象語句と処理を行う期間の情報が入力されると、語句データベース240から、他の全ての語句の処理対象期間における使用回数の時間変化を抽出し、当該分析対象語句の処理対象期間における使用回数の時間変化と比較することにより、各語句の分析対象語句に対する関連度を算出し、関連キーワード出力部260の関連度バッファ261に出力する。
以下、入力された分析対象語句をwと表記し、入力された処理対象期間をその開始時刻をt、終了時刻をtと記すものとする。
図8は、本発明の第2の実施の形態における関連度算出部の処理のフローチャートである。
関連度算出部250は、処理が開始されると外部から処理対象となるwと処理対象期間を表すtとtとの入力を受け付ける(ステップ600)。
受け付けたwについて、語句データベース240から時刻tからtの範囲における該語句の各集計期間毎の使用頻度情報を読み込み、集計期間毎のwの使用頻度の変更を表す関数Dw(T)を算出する。このときDw(T)の取り得る範囲はt<T<tとなる(ステップ610)。また、wが複数の形態素から構成される語句である場合など、wが語句データベース240に含まれない場合には、文書データベース210からwを含む文書情報の集合を取得し、得られた各文書の作成時刻情報を集計することにより、Dw(T)を算出してもよい。
次に、語句データベース240から未処理の語句をひとつ選び出し、当該語句(以下、wと記す)の時刻tからtの範囲における各集計期間毎の使用頻度情報をステップ610と同様に語句データベース240から取得し、当該wの使用頻度の変動を表す関数Dw(T)をステップ610と同様に算出する(ステップ620)。
の時間変化関数Dw(T)とwの時間変化関数Dw(T)との相関を評価して、wに対するwの関連度スコアを得る相関性の算出には一般的な波形の相関関数を用いるものとし、下記の式(2)によって、wに対するwの関連度スコア(R(w)と表記することとする)が得られる(ステップ630)。
Figure 2009104296
とステップ630で得られたwの関連度スコアR(w)を関連キーワード出力部260の関連度バッファ261に蓄積する(ステップ640)。
語句データベース240に含まれる全ての語句について、関連度の算出処理がされたかを確認し、全ての語句が処理されている場合は、関連度算出部550の処理を終了する。未処理の語句がある場合にはステップ620に戻り、処理を継続する(ステップ650)。
なお、上記の第1、第2の実施の形態における図3、図7に示す関連キーワード抽出装置の各構成要素の動作をプログラムとして構築し、関連キーワード抽出装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、文書解析技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の第1の実施の形態における関連キーワード抽出装置の構成図である。 本発明の第1の実施の形態における動作のフローチャートである。 本発明の第1の実施の形態における語句データベースに蓄積される情報の例である。 本発明の第1の実施の形態における関連度算出部の処理のフローチャートである。 本発明の第2の実施の形態における関連キーワード抽出装置の構成図である。 本発明の第2の実施の形態における関連度算出部の処理のフローチャートである。
符号の説明
200 関連キーワード抽出装置
210 文書データベース
220 文書解析手段、文書解析部
230 語句集計手段、語句集計部
231 語句バッファ
240 語句データベース
250 関連度算出手段、関連度算出部
260 関連キーワード出力手段、関連キーワード出力部
261 関連度バッファ
270 出力装置

Claims (8)

  1. 文書解析手段、語句集計手段、語句記憶手段、関連度算出手段、出力手段とを有する関連キーワード抽出装置において、入力された分析対象語句の関連キーワードを、多数の文書を解析することによって取得する関連キーワード抽出方法であって、
    前記文書解析手段が、作成時刻情報を有する文書群が入力されると、該文書群を解析し、関連性評価の対象となる語句を該文書群中から切り出す文書解析ステップと、
    前記語句集計手段が、前記文書解析ステップにより得られる文書群の解析結果に含まれる語句について使用頻度の時間変動を集計し、語句毎の使用頻度の時間変動を前記語句記憶手段に格納する語句集計ステップと、
    前記関連度算出手段が、外部から関連キーワード抽出処理の対象となる分析対象語句の情報を受け付け、前記語句記憶手段の前記語句毎の使用頻度の時間変動Aと、入力された該分析対象語句の使用頻度の時間変動Bとを比較することにより、各語句の分析対象語句との関連度を算出する関連度算出ステップと、
    前記出力手段が、前記関連度算出ステップにおいて算出された関連度に基づいて、前記分析対象語句の前記使用頻度の時間変動Bと前記文書群中での使用頻度の時間変動Aが似通っている語句を関連キーワードとして出力する出力ステップと、
    を行うことを特徴とする関連キーワード抽出方法。
  2. 前記関連度算出ステップにおいて、
    前記文書群中における分析対象語句wの使用頻度の時間変動を表す関数をDw(T)、該文書群に含まれるある語句wの使用頻度の時間変動を表す関数をDw(T)とした際に、該語句wの分析対象語句wに対する関連度スコアR(w)を、
    Figure 2009104296
    により求める
    請求項1記載の関連キーワード抽出方法。
  3. 前記関連度算出ステップにおいて、
    前記文書群中における分析対象語句wの使用頻度の時間変動を表す関数をDw(T)、該文書群に含まれるある語句wの使用頻度の時間変動を表す関数をDw(T)とした際に、外部から入力された処理対象期間の開始時刻tから終了時刻tまでの処理対象期間におけるある語句wの処理対象語句に対する関連度スコアR(w)を、
    Figure 2009104296
    により求める
    請求項1記載の関連キーワード抽出方法。
  4. 入力された分析対象語句の関連キーワードを、多数の文書を解析することによって取得する関連キーワード抽出装置であって、
    作成時刻情報を有する文書群が入力されると、該文書群を解析し、関連性評価の対象となる語句を該文書群中から切り出す文書解析手段と、
    前記文書解析手段により得られる文書群の解析結果に含まれる語句について使用頻度の時間変動を集計し、語句毎の使用頻度の時間変動を語句記憶手段に格納する語句集計手段と、
    外部から関連キーワード抽出処理の対象となる分析対象語句の情報を受け付け、前記語句記憶手段の前記語句毎の使用頻度の時間変動Aと、入力された該分析対象語句の使用頻度の時間変動Bとを比較することにより、各語句の分析対象語句との関連度を算出する関連度算出手段と、
    前記関連度算出手段で算出された関連度に基づいて、前記分析対象語句の前記使用頻度の時間変動Bと前記文書群中での使用頻度の時間変動Aが似通っている語句を関連キーワードとして出力する関連キーワード出力手段と、
    を有することを特徴とする関連キーワード抽出装置。
  5. 前記関連度算出手段は、
    前記文書群中における分析対象語句wの使用頻度の時間変動を表す関数をDw(T)、該文書群に含まれるある語句wの使用頻度の時間変動を表す関数をDw(T)とした際に、該語句wの分析対象語句wに対する関連度スコアR(w)を、
    Figure 2009104296
    により求める手段を含む
    請求項4記載の関連キーワード抽出装置。
  6. 前記関連度算出手段は、
    前記文書群中における分析対象語句wの使用頻度の時間変動を表す関数をDw(T)、該文書群に含まれるある語句wの使用頻度の時間変動を表す関数をDw(T)とした際に、外部から入力された処理対象期間の開始時刻tから終了時刻tまでの処理対象期間におけるある語句wの処理対象語句に対する関連度スコアR(w)を、
    Figure 2009104296
    により求める手段を含む
    請求項4記載の関連キーワード抽出装置。
  7. 請求項4乃至6のいずれか1項に記載の関連キーワード抽出装置を構成する各手段としてコンピュータを機能させる関連キーワード抽出プログラム。
  8. 請求項7記載の関連キーワード抽出プログラムを格納したコンピュータ読取可能な記録媒体。
JP2007273817A 2007-10-22 2007-10-22 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 Pending JP2009104296A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007273817A JP2009104296A (ja) 2007-10-22 2007-10-22 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007273817A JP2009104296A (ja) 2007-10-22 2007-10-22 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Publications (1)

Publication Number Publication Date
JP2009104296A true JP2009104296A (ja) 2009-05-14

Family

ID=40705920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007273817A Pending JP2009104296A (ja) 2007-10-22 2007-10-22 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Country Status (1)

Country Link
JP (1) JP2009104296A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982018A (zh) * 2011-06-13 2013-03-20 索尼公司 信息处理设备、信息处理方法和程序
CN105069143A (zh) * 2015-08-19 2015-11-18 百度在线网络技术(北京)有限公司 提取文档中关键词的方法及装置
JP2019144905A (ja) * 2018-02-21 2019-08-29 富士通株式会社 情報処理プログラム、メッセージ解析プログラム、情報処理装置及び情報処理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005190384A (ja) * 2003-12-26 2005-07-14 National Institute Of Information & Communication Technology イベント周期性の抽出方法及び装置
JP2007175225A (ja) * 2005-12-27 2007-07-12 Sumitomo Osaka Cement Co Ltd 状態解析装置及びソフトウエアプログラム
JP2007257390A (ja) * 2006-03-24 2007-10-04 Internatl Business Mach Corp <Ibm> 新たな複合語を抽出するシステム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005190384A (ja) * 2003-12-26 2005-07-14 National Institute Of Information & Communication Technology イベント周期性の抽出方法及び装置
JP2007175225A (ja) * 2005-12-27 2007-07-12 Sumitomo Osaka Cement Co Ltd 状態解析装置及びソフトウエアプログラム
JP2007257390A (ja) * 2006-03-24 2007-10-04 Internatl Business Mach Corp <Ibm> 新たな複合語を抽出するシステム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982018A (zh) * 2011-06-13 2013-03-20 索尼公司 信息处理设备、信息处理方法和程序
CN105069143A (zh) * 2015-08-19 2015-11-18 百度在线网络技术(北京)有限公司 提取文档中关键词的方法及装置
CN105069143B (zh) * 2015-08-19 2019-07-23 百度在线网络技术(北京)有限公司 提取文档中关键词的方法及装置
JP2019144905A (ja) * 2018-02-21 2019-08-29 富士通株式会社 情報処理プログラム、メッセージ解析プログラム、情報処理装置及び情報処理方法

Similar Documents

Publication Publication Date Title
JP5382651B2 (ja) 単語対取得装置、単語対取得方法、およびプログラム
US7783476B2 (en) Word extraction method and system for use in word-breaking using statistical information
US20160155058A1 (en) Non-factoid question-answering system and method
US9251248B2 (en) Using context to extract entities from a document collection
EP1542138A1 (en) Learning and using generalized string patterns for information extraction
JP5846959B2 (ja) 基本語彙抽出装置、及びプログラム
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5780633B2 (ja) 専門家検索装置、および専門家検索方法
JP2009104296A (ja) 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
CN115935977A (zh) 文本主题识别方法、装置及电子设备
JP5362651B2 (ja) 重要語句抽出装置及び方法及びプログラム
JP5180894B2 (ja) 属性表現獲得方法及び装置及びプログラム
JP4800846B2 (ja) 話題度算出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5269481B2 (ja) 関連キーワード抽出装置及びプログラム及びコンピュータ読取可能な記録媒体
JP4977004B2 (ja) 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP2008305127A (ja) キーワード抽出装置、キーワード抽出方法、プログラム及び記録媒体
Demir Context tailoring for text normalization
JP4424125B2 (ja) 予測型話題性評価装置及びプログラム
JP5409321B2 (ja) 情報評価装置、情報評価方法、及び情報評価プログラム
JP4592566B2 (ja) 話題抽出方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
KR102422844B1 (ko) 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법
Simeonova Gradient emotional analysis
Abdulrahman et al. Automated Analysis of Comments on Press Articles in Websites (Articles Literature as Case Study)
JP5123057B2 (ja) スパム判定方法及び装置及びプログラム
JP2010176285A (ja) 未知語登録方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120124

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120529