JP2006134183A - 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 - Google Patents
情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 Download PDFInfo
- Publication number
- JP2006134183A JP2006134183A JP2004324241A JP2004324241A JP2006134183A JP 2006134183 A JP2006134183 A JP 2006134183A JP 2004324241 A JP2004324241 A JP 2004324241A JP 2004324241 A JP2004324241 A JP 2004324241A JP 2006134183 A JP2006134183 A JP 2006134183A
- Authority
- JP
- Japan
- Prior art keywords
- topic word
- topic
- word
- document
- document data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 本発明は、話題語の候補を選択し、話題語の候補を集約し、話題語候補に対して、文書との適合度を求め、話題性のための時刻による重み付けを行って集計したものをその話題語候補のスコアとし、スコアが一定値以上、かつ、文書数が一定数以上であれば、残った話題語を文書の情報と共に提示する。
【選択図】 図1
Description
指定されたキーワードを検索キーワードとして、文書データとなる更新日付、検索結果出力順位、本文(文章)もしくは、該本文の一部を含む文を検索結果から取得し、該本文もしくは、その該本文の一部を取得できない場合は、該検索結果から得られる文書データの公開場所を基に本文を補足収集し、文書データベースに格納するデータ収集ステップと、(ステップ1)と、
文書データベースから文書データを読み出して、該文書データから、話題語ルール記憶手段に格納されている品詞の組み合わせを用いた話題語ルールを参照して、話題語候補を抽出し、話題語データベースに格納する話題語候補抽出ステップ(ステップ2)と、
話題語集約ルール記憶手段に格納された話題語集約ルールに格納された条件に基づいて、話題語データベースから読み出された話題語候補を集約する話題語集約ステップ(ステップ3)と、
話題語データベースの話題語候補のそれぞれにおいて、該話題語を含む文書データと検索キーワードとの関連の高さや文書データの更新時刻によって話題語スコアを計算する話題語スコア算出ステップ(ステップ5)と、
話題語データベースの話題語候補それぞれが持つ話題語スコアと話題語候補を含む文書データとの関係から話題語を選定し、文書データを話題語毎に分類する文書分類ステップ(ステップ6)と、を行う。
文書話題語スコアを、該当する話題語候補の文字列を含む1文書データの検索結果出力順位と検索結果から得られる文書データの更新日付から決定する。
話題語ルールによって予め定義された規則を満たすような品詞の組み合わせを用いた語句、
検索キーワードに包含されない語句、
話題語としてふさわしくない語句が格納されているNGワードリストに存在しない語句、
話題語集約ルールに基づいて同一の意味に取れるような語句同士を一つの話題語として集約・選定された語句、を抽出する。
話題語を抽出するため条件としての品詞の組み合わせを用いた話題語ルール22を格納した話題語ルール記憶手段620と、
品詞の組み合わせからなり、同一の意味に取れるような話題語同士を集約するための話題語集約ルール23を格納した話題語集約ルール記憶手段630と、
話題語としてふさわしくない語句が格納されているNGワードリスト24を格納したNGワードリスト記憶手段640と、
指定されたキーワードを検索キーワードとして、文書データとなる更新日付、検索結果出力順位、本文(文章)もしくは、該本文の一部を含む文を検索結果から取得し、該本文もしくは、その該本文の一部を取得できない場合は、該検索結果から得られる文書データの公開場所を基に本文を補足収集し、文書データベース20に格納するデータ収集手段300と、
文書データベース20から文書データを読み出して、該文書データから、話題語ルール記憶手段620に格納されている話題語ルール22を参照して、話題語候補を抽出し、話題語データベース21に格納する話題語候補抽出手段310と、
話題語集約ルール記憶手段630に格納された話題語集約ルール23に格納された条件に基づいて、話題語データベース21から読み出された話題語候補を集約する話題語集約手段320と、
話題語データベース21の話題語候補のそれぞれにおいて、該話題語を含む文書データと検索キーワードとの関連の高さや文書データの更新時刻によって話題語スコアを計算する話題語スコア算出手段340と、
話題語データベース21の話題語候補それぞれが持つ話題語スコアと話題語候補を含む文書データとの関係から話題語を選定し、文書データを話題語毎に分類する文書分類手段350と、を有する。
データ収集手段300は、
検索結果から取得した本文の中では、キーワードの前後に含まれる文もしくは文章のみを解析することで、検索キーワードとの関連性を高くする手段を含む。
話題語スコア算出手段340は、
話題語候補の話題語スコアを、該当する話題語候補の文字列を含む文書データから得られる文書話題語スコアで合計する手段と、
文書話題語スコアを、該当する話題語候補の文字列を含む1文書データの検索結果出力順位と検索結果から得られる文書データの更新日付から決定する手段と、を含む。
話題語集約手段320は、
話題語として、
話題語ルールによって予め定義された規則を満たすような品詞の組み合わせを用いた語句、
検索キーワードに包含されない語句、
話題語としてふさわしくない語句が格納されているNGワードリスト24に存在しない語句、
話題語集約ルールに基づいて同一の意味に取れるような語句同士を一つの話題語として集約・選定された語句、を抽出する手段を含む。
上記のデータ収集手段300では、外部入力、もしくは、事前に設定されたキーワードを基に、検索エンジンから対象文書データを収集する。そして、文書データベース20へ格納する。本文全体が得られないような場合、もしくは、長文が得られるような場合は、その文書の中でも検索キーワードの前後の文章を取得し、本文とする。文章の中で検索キーワードが複数出てくる場合は、それらの付近の文章全てをまとめて本文として扱う。
本発明の第1の実施の形態では、あるキーワードを基に取得したWebページ等からの文書から話題語を抽出し、その話題語毎にその文書をクラスタリングすることを目的とする。この文書は、話題語を抽出するという目的から、何らかの特徴を持っていた方が適する。例えば、Weblogやニュース、一般的なWebページの新着ページを基にするとその時々で盛り上がっている話題が抽出できる。また、ある特定の事柄について説明しているようなページ、例えば、フランスの歴史について複数ページにわたって説明している文書であればその歴史の主な話題を抽出することもできる。処理の詳細は以下に説明する。
図5は、本発明の第1の実施の形態におけるデータ収集処理のフローチャートである。
(a)抽出情報対象先:既存のDBや、インターネット上のWebページ全般、Weblog、ニュース記事等;
(b)関連キーワード:ユーザの得たい情報に関連するキーワードや特に関心のある話題等;
である。(a)は、(b)のキーワードを基に検索を行うので、検索できるデータ(DBもしくは検索エンジンを利用できるようなデータ)である必要がある。(a)でDBを利用しない場合、検索エンジンは一般に公開されている検索サイトを利用してもよいし、あるいは事前に検索サーバを構築し、設定しておくことで実現できる。
「http://blog.goo.ne.jp/search/serch.php?status=select&tg=all&ts=goo&st=time&dc=10&dp=all&ts=all&MT=検索キーワード&da=all」
のようなアドレスを送るだけで「検索キー」を検索キーワードとした検索結果(検索結果出力順位、ページのタイトル、更新日付、検索キーワードを含む前後の文章等)が返ってくる。但し、この検索キーワードは、URLエンコード(エスケープ)する必要がある。例えば、「サッカー」は「%A5%B5%A5%C3%A5%AB%A1%BC」となる。
図6は、本発明の第1の実施の形態における話題語候補抽出処理のフローチャートである。
2.(p?(n│N)s?){1,3}a(p?(n│N){1,3}
3.N
形態素解析した結果を繋ぎ合わせ、上記のいずれかに該当する単語列の最長マッチングを話題候補として取得する。これに従うと、例えば、「テロ組織の犯行声明」、「シフォンケーキ」「アメリカ大統領選挙」等が取得できる。これ以外にも形容詞と名詞の組み合わせや形容動詞と名詞の組み合わせ等を採用した名詞句を利用し、情景をイメージしやすい語彙を抽出することも可能である。
図7は、本発明の第1の実施の形態における話題語選定処理のフローチャートである。
1.[1] KD
[2] KaD
[3] D
としたとき、[1]と[2]の候補が共存した場合、[2]に集約する。
[2] DaK
[3] D
としたとき、[1][2]の候補が共存した場合、[2]に集約する。
a:格助詞の「の」
K:キーワード
D:(p?(n│N)s?){1,3}
であるとする。
図8は、本発明の第1の実施の形態における話題語スコア算出処理及び、文書分類処理のフローチャートであり、ステップ801〜ステップ804が、話題語スコア算出処理部540で行われる処理であり、ステップ805〜ステップ808が、後述する文書分類処理部550で行われる処理である。
図8のフローチャートを用いて文書分類処理部550の動作を説明する。
本発明の第2の実施の形態では、RSSフォーマットで提供されているニュースやWebBlogポータルから最新のRSSを取得し、そこから得られた情報から話題語を抽出し、その話題語毎に、コンテンツをクラスタリングすることを目的とする。RSSフォーマットで提供される情報は、随時更新されていることから、この情報を定期的に更新し、随時新着情報を取得し、新着の話題語とそのコンテンツをユーザに提供することができる。
図11に本発明の第2の実施の形態におけるデータ収集処理のフローチャートを示す。
http://blog.goo.ne.jp/search/search.php?status&tg=all&st=time&dc=50&dp=all&bu=&ts=all&MT=「検索キー」&da=all&rss=1&fr=1
のようなアドレスを送るだけで、「検索キー」を検索キーワードとした検索結果50件分がRSSフォーマットで返ってくる。但し、この検索キーは、URLエンコード(エスケープ)する必要がある。「サッカー」は、「%A5%B5%A5%C3%A5%AB%A1%BC」となる
これは、複数のサイト(URI)を事前に登録しておくことも可能である。複数のサイト(URI)が登録してある場合は、データ収集処理部500のフローを登録数分繰り返すことで実現できる。
図13に本発明の第2の実施の形態における話題語候補抽出処理のフローチャートを示す。
2. (p?(n│N)s?){1,3}a(p?(n│N)s?){1,3}
3. N
形態素解析した結果を繋ぎ合わせ、上記のいずれかに該当する単語列の最長のマッチングを話題語候補として取得する。これ以外にも形容詞と名詞の組み合わせや形容動詞と名詞の組み合わせ等を採用した名詞句を利用し、情景をイメージしやすい語彙を抽出することも可能である。
図14は、本発明の第2の実施の形態に置ける話題語集約処理のフローチャートである。
図15に本発明の第2の実施の形態における時刻経過検査処理のフローチャートを示す。
この処理は、第1の実施の形態における話題スコア算出処理部540及び文書分類処理部550と同じ処理を行うため、これらの処理部の説明は省略する。
11 表示部
12 指示入力部
20 文書DB
21 話題語DB
22 話題語ルール
23 話題語集約ルール
24 NGワードリスト
40 ネットワーク
300 データ収集手段
310 話題語候補抽出手段
320 話題語集約手段
330 時刻経過検査手段
340 話題語スコア算出手段
350 文書分類手段
500 データ収集処理部
510 話題語候補抽出処理部
520 話題語集約処理部
530 時刻経過検査処理部
540 話題語スコア算出処理部
550 文書分類処理部
620 話題語ルール記憶手段、話題語ルール記憶部
630 話題語集約ルール記憶手段、話題語集約ルール
640 NGワードリスト記憶手段、NGワードリスト記憶部
Claims (14)
- あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類方法において、
指定されたキーワードを検索キーワードとして、文書データとなる更新日付、検索結果出力順位、本文(文章)もしくは、該本文の一部を含む文を検索結果から取得し、該本文もしくは、その該本文の一部を取得できない場合は、該検索結果から得られる文書データの公開場所を基に本文を補足収集し、文書データベースに格納するデータ収集ステップと、
前記文書データベースから文書データを読み出して、該文書データから、話題語ルール記憶手段に格納されている品詞の組み合わせを用いた話題語ルールを参照して、話題語候補を抽出し、話題語データベースに格納する話題語候補抽出ステップと、
話題語集約ルール記憶手段に格納された話題語集約ルールに格納された条件に基づいて、前記話題語データベースから読み出された前記話題語候補を集約する話題語集約ステップと、
前記話題語データベースの前記話題語候補のそれぞれにおいて、該話題語を含む文書データと検索キーワードとの関連の高さや文書データの更新時刻によって話題語スコアを計算する話題語スコア算出ステップと、
前記話題語データベースの前記話題語候補それぞれが持つ話題語スコアと話題語候補を含む文書データとの関係から話題語を選定し、文書データを話題語毎に分類する文書分類ステップと、
を行うことを特徴とする情報分類方法。 - 前記データ収集ステップにおいて、
前記検索結果から取得した本文の中では、前記キーワードの前後に含まれる文もしくは文章のみを解析することで、検索キーワードとの関連性を高くする請求項1記載の情報分類方法。 - 前記話題語スコア算出ステップにおいて、
前記話題語候補の話題語スコアを、該当する話題語候補の文字列を含む文書データから得られる文書話題語スコアで合計し、
前記文書話題語スコアを、該当する話題語候補の文字列を含む1文書データの検索結果出力順位と検索結果から得られる文書データの更新日付から決定する、
請求項1記載の情報分類方法。 - 前記話題語集約ステップにおいて、
前記話題語として、
前記話題語ルールによって予め定義された規則を満たすような品詞の組み合わせを用いた語句、
前記検索キーワードに包含されない語句、
話題語としてふさわしくない語句が格納されている前記NGワードリストに存在しない語句、
前記話題語集約ルールに基づいて同一の意味に取れるような語句同士を一つの話題語として集約・選定された語句、
を抽出する請求項1記載の情報分類方法。 - 前記話題語による情報分類を繰り返し実行する場合に、一度抽出された話題語が、ある一定期間T(正の整数)の間、抽出され続けているようなときには、当該語句を話題語から除外する時刻経過検査ステップを更に行う
請求項1記載の情報分類方法。 - 前記話題語集約ステップにおいて、
NGワードリスト記憶手段に格納されたNGワードリストの条件に基づいて、前記話題語データベースから読み出された前記話題語候補を選別する請求項1記載の情報分類方法。 - あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類装置であって、
話題語を抽出するため条件としての品詞の組み合わせを用いた話題語ルールを格納した話題語ルール記憶手段と、
品詞の組み合わせからなり、同一の意味に取れるような話題語同士を集約するための話題語集約ルールを格納した話題語集約ルール記憶手段と、
話題語としてふさわしくない語句が格納されているNGワードリストを格納したNGワードリスト記憶手段と、
指定されたキーワードを検索キーワードとして、文書データとなる更新日付、検索結果出力順位、本文(文章)もしくは、該本文の一部を含む文を検索結果から取得し、該本文もしくは、その該本文の一部を取得できない場合は、該検索結果から得られる文書データの公開場所を基に本文を補足収集し、文書データベースに格納するデータ収集手段と、
前記文書データベースから文書データを読み出して、該文書データから、前記話題語ルール記憶手段に格納されている前記話題語ルールを参照して、話題語候補を抽出し、話題語データベースに格納する話題語候補抽出手段と、
前記話題語集約ルール記憶手段に格納された前記話題語集約ルールに格納された条件に基づいて、前記話題語データベースから読み出された前記話題語候補を集約する話題語集約手段と、
前記話題語データベースの前記話題語候補のそれぞれにおいて、該話題語を含む文書データと検索キーワードとの関連の高さや文書データの更新時刻によって話題語スコアを計算する話題語スコア算出手段と、
前記話題語データベースの前記話題語候補それぞれが持つ話題語スコアと話題語候補を含む文書データとの関係から話題語を選定し、話題語スコアが高い順に文書データを話題語毎に分類する文書分類手段と、
を有することを特徴とする情報分類装置。 - 前記データ収集手段は、
前記検索結果から取得した本文の中では、前記キーワードの前後に含まれる文もしくは文章のみを解析することで、検索キーワードとの関連性を高くする手段を含む請求項7記載の情報分類装置。 - 前記話題語スコア算出手段は、
前記話題語候補の話題語スコアを、該当する話題語候補の文字列を含む文書データから得られる文書話題語スコアで合計する手段と、
前記文書話題語スコアを、該当する話題語候補の文字列を含む1文書データの検索結果出力順位と検索結果から得られる文書データの更新日付から決定する手段と、
を含む請求項7記載の情報分類装置。 - 前記話題語集約手段は、
前記話題語として、
前記話題語ルールによって予め定義された規則を満たすような品詞の組み合わせを用いた語句、
前記検索キーワードに包含されない語句、
話題語としてふさわしくない語句が格納されている前記NGワードリストに存在しない語句、
前記話題語集約ルールに基づいて同一の意味に取れるような語句同士を一つの話題語として集約・選定された語句、
を抽出する手段を含む請求項7記載の情報分類装置。 - 前記話題語による情報分類を繰り返し実行する場合に、一度抽出された話題語が、ある一定期間T(正の整数)の間、抽出され続けているようなときには、当該語句を話題語から除外する時刻経過検査手段を更に有する請求項7記載の情報分類装置。
- 前記話題語集約手段は、
前記NGワードリスト記憶手段に格納された前記NGワードリストの条件に基づいて、前記話題語データベースから読み出された前記話題語候補を選別する手段を含む請求項7記載の情報分類装置。 - あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類プログラムであって、
前記請求項1乃至6記載の情報分類方法を実現するための処理をコンピュータに実行させることを特徴とする情報分類プログラム。 - あるキーワードに基づいて取得した文書データから、話題語を抽出し、該話題語によって該文書データに分類することで、より該キーワードに関わる特色のある分類を行うための情報分類プログラムを格納した記憶媒体であって、
前記請求項1乃至6記載の情報分類方法を実現するための処理をコンピュータに実行させるプログラムを格納したことを特徴とする情報分類プログラムを格納した記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004324241A JP4466334B2 (ja) | 2004-11-08 | 2004-11-08 | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004324241A JP4466334B2 (ja) | 2004-11-08 | 2004-11-08 | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006134183A true JP2006134183A (ja) | 2006-05-25 |
JP2006134183A5 JP2006134183A5 (ja) | 2007-04-05 |
JP4466334B2 JP4466334B2 (ja) | 2010-05-26 |
Family
ID=36727663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004324241A Expired - Fee Related JP4466334B2 (ja) | 2004-11-08 | 2004-11-08 | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4466334B2 (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006139470A (ja) * | 2004-11-11 | 2006-06-01 | Nippon Telegraph & Telephone East Corp | 情報提供装置および情報提供方法ならびにそのプログラム |
JP2008027104A (ja) * | 2006-07-20 | 2008-02-07 | Sharp Corp | 端末装置およびコンテンツ記録方法 |
JP2008234317A (ja) * | 2007-03-20 | 2008-10-02 | Dainippon Printing Co Ltd | テーマキーワードの関連キーワードを表示する方法、および、ウェブサーバ |
JP2010191710A (ja) * | 2009-02-18 | 2010-09-02 | Yahoo Japan Corp | ジャンル判定辞書作成装置、ジャンル判定装置及び方法 |
JP2011008420A (ja) * | 2009-06-24 | 2011-01-13 | Yahoo Japan Corp | カテゴリを対応付けする装置、方法、およびプログラム |
JP2011215950A (ja) * | 2010-03-31 | 2011-10-27 | Toshiba Corp | キーワード提示装置、方法及びプログラム |
JP2012033167A (ja) * | 2010-07-29 | 2012-02-16 | Nhn Corp | 文書順位決定システムおよび方法 |
JP2012243129A (ja) * | 2011-05-20 | 2012-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 話題語獲得装置、方法、及びプログラム |
US8612202B2 (en) | 2008-09-25 | 2013-12-17 | Nec Corporation | Correlation of linguistic expressions in electronic documents with time information |
JP2015511733A (ja) * | 2012-05-24 | 2015-04-20 | 三菱電機株式会社 | テキストを分類する方法 |
JP2015141323A (ja) * | 2014-01-29 | 2015-08-03 | トヨタ自動車株式会社 | 情報収集方法、対話システム及び情報収集装置 |
CN108961071A (zh) * | 2018-06-01 | 2018-12-07 | 中国平安人寿保险股份有限公司 | 自动预测组合业务收益的方法及终端设备 |
CN112052397A (zh) * | 2020-09-29 | 2020-12-08 | 北京百度网讯科技有限公司 | 用户特征生成方法、装置、电子设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107515854B (zh) * | 2017-07-27 | 2021-06-04 | 上海交通大学 | 基于带权时序文本网络的时序社区以及话题的检测方法 |
-
2004
- 2004-11-08 JP JP2004324241A patent/JP4466334B2/ja not_active Expired - Fee Related
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006139470A (ja) * | 2004-11-11 | 2006-06-01 | Nippon Telegraph & Telephone East Corp | 情報提供装置および情報提供方法ならびにそのプログラム |
JP2008027104A (ja) * | 2006-07-20 | 2008-02-07 | Sharp Corp | 端末装置およびコンテンツ記録方法 |
JP2008234317A (ja) * | 2007-03-20 | 2008-10-02 | Dainippon Printing Co Ltd | テーマキーワードの関連キーワードを表示する方法、および、ウェブサーバ |
US8612202B2 (en) | 2008-09-25 | 2013-12-17 | Nec Corporation | Correlation of linguistic expressions in electronic documents with time information |
JP2010191710A (ja) * | 2009-02-18 | 2010-09-02 | Yahoo Japan Corp | ジャンル判定辞書作成装置、ジャンル判定装置及び方法 |
JP2011008420A (ja) * | 2009-06-24 | 2011-01-13 | Yahoo Japan Corp | カテゴリを対応付けする装置、方法、およびプログラム |
JP2011215950A (ja) * | 2010-03-31 | 2011-10-27 | Toshiba Corp | キーワード提示装置、方法及びプログラム |
US8782049B2 (en) | 2010-03-31 | 2014-07-15 | Kabushiki Kaisha Toshiba | Keyword presenting device |
JP2012033167A (ja) * | 2010-07-29 | 2012-02-16 | Nhn Corp | 文書順位決定システムおよび方法 |
JP2012243129A (ja) * | 2011-05-20 | 2012-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 話題語獲得装置、方法、及びプログラム |
JP2015511733A (ja) * | 2012-05-24 | 2015-04-20 | 三菱電機株式会社 | テキストを分類する方法 |
JP2015141323A (ja) * | 2014-01-29 | 2015-08-03 | トヨタ自動車株式会社 | 情報収集方法、対話システム及び情報収集装置 |
CN108961071A (zh) * | 2018-06-01 | 2018-12-07 | 中国平安人寿保险股份有限公司 | 自动预测组合业务收益的方法及终端设备 |
CN108961071B (zh) * | 2018-06-01 | 2023-07-21 | 中国平安人寿保险股份有限公司 | 自动预测组合业务收益的方法及终端设备 |
CN112052397A (zh) * | 2020-09-29 | 2020-12-08 | 北京百度网讯科技有限公司 | 用户特征生成方法、装置、电子设备及存储介质 |
CN112052397B (zh) * | 2020-09-29 | 2024-05-03 | 北京百度网讯科技有限公司 | 用户特征生成方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4466334B2 (ja) | 2010-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110297988B (zh) | 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法 | |
CN105824959B (zh) | 舆情监控方法及系统 | |
El-Beltagy et al. | KP-Miner: A keyphrase extraction system for English and Arabic documents | |
Fukuhara et al. | Understanding Sentiment of People from News Articles: Temporal Sentiment Analysis of Social Events. | |
JP5359399B2 (ja) | テキスト分析装置および方法、並びにプログラム | |
JPWO2018097091A1 (ja) | モデル作成装置、テキスト検索装置、モデル作成方法、テキスト検索方法、データ構造、及びプログラム | |
JP4466334B2 (ja) | 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
EP2307951A1 (en) | Method and apparatus for relating datasets by using semantic vectors and keyword analyses | |
CA2774278A1 (en) | Methods and systems for extracting keyphrases from natural text for search engine indexing | |
KR20120108095A (ko) | 소셜 데이터 분석 시스템 | |
KR20090087269A (ko) | 컨텍스트 기반 정보 처리 방법 및 장치, 그리고 컴퓨터기록 매체 | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
CN114238573A (zh) | 基于文本对抗样例的信息推送方法及装置 | |
JP4613346B2 (ja) | キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置 | |
JP2014085862A (ja) | 予測対象コンテンツにおける将来的なコメント数を予測する予測サーバ、プログラム及び方法 | |
Darmawiguna et al. | The development of integrated Bali tourism information portal using web scrapping and clustering methods | |
JP2011070291A (ja) | トピックワード抽出装置、トピックワード抽出システム、トピックワード抽出方法、及びプログラム | |
JP2006318398A (ja) | ベクトル生成方法及び装置及び情報分類方法及び装置及びプログラム及びプログラムを格納したコンピュータ読み取り可能な記憶媒体 | |
JP3921837B2 (ja) | 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法 | |
JP2013168177A (ja) | 情報提供プログラム、情報提供装置および検索サービスの提供方法 | |
JP5661719B2 (ja) | 質問応答装置、方法、及びプログラム | |
JP5315726B2 (ja) | 情報提供方法、情報提供装置、および情報提供プログラム | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
JP4462014B2 (ja) | 話題語結合方法及び装置及びプログラム | |
JP2007293377A (ja) | 主観的ページと非主観的ページを分離する入出力装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070215 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091013 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100215 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130305 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |