JP4358804B2 - テキストマイニング装置及びテキストマイニングプログラム - Google Patents
テキストマイニング装置及びテキストマイニングプログラム Download PDFInfo
- Publication number
- JP4358804B2 JP4358804B2 JP2005263788A JP2005263788A JP4358804B2 JP 4358804 B2 JP4358804 B2 JP 4358804B2 JP 2005263788 A JP2005263788 A JP 2005263788A JP 2005263788 A JP2005263788 A JP 2005263788A JP 4358804 B2 JP4358804 B2 JP 4358804B2
- Authority
- JP
- Japan
- Prior art keywords
- concept
- unit
- attribute
- attribute information
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000005065 mining Methods 0.000 title claims description 67
- 238000003860 storage Methods 0.000 claims description 290
- 239000013598 vector Substances 0.000 claims description 250
- 238000000605 extraction Methods 0.000 claims description 152
- 238000000034 method Methods 0.000 claims description 90
- 238000009826 distribution Methods 0.000 claims description 26
- 239000000284 extract Substances 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 description 201
- 230000000875 corresponding effect Effects 0.000 description 45
- 230000004044 response Effects 0.000 description 28
- 238000013075 data extraction Methods 0.000 description 25
- 238000006243 chemical reaction Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 10
- 238000013500 data storage Methods 0.000 description 10
- 230000002596 correlated effect Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000007704 transition Effects 0.000 description 6
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 4
- 235000013305 food Nutrition 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 235000021438 curry Nutrition 0.000 description 2
- 238000013213 extrapolation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 229910052742 iron Inorganic materials 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 150000003839 salts Chemical class 0.000 description 2
- 241000519695 Ilex integra Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
テキストを含む文書と当該文書の第1の属性及び第2の属性を示す属性情報とを入力する入力部と、
前記入力部により入力された文書を記憶する文書記憶部と、
前記入力部により入力された属性情報を前記文書記憶部に記憶された文書と対応付けて記憶する属性情報記憶部と、
前記属性情報記憶部に記憶された属性情報が示す第1の属性ごとに、前記文書記憶部に記憶された文書に含まれるテキストから単語と単語の共起頻度を示す共起情報とを抽出する共起情報抽出部と、
前記共起情報抽出部により抽出された共起情報に基づいて、前記共起情報抽出部により抽出された単語の概念を数値化した概念ベクトルを計算する概念ベクトル計算部と、
前記概念ベクトル計算部により計算された概念ベクトルの集合を前記第1の属性ごとの概念辞書として記憶する概念辞書記憶部と、
前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書に含まれる単語と当該単語の概念を含むテキストとを対応させる対応情報を生成する対応情報生成部と、
前記対応情報生成部により生成された対応情報を記憶する対応情報記憶部と、
前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書に含まれる単語と前記第1の属性との相関を示す相関情報を生成する相関情報生成部と、
前記相関情報生成部により生成された相関情報を出力する出力部と、
前記出力部により出力された相関情報に基づいて、相関の有る単語と第1の属性との組み合わせを選択する選択部と、
前記対応情報記憶部に記憶された対応情報に基づいて、前記選択部により選択された単語に対応するテキストを含む文書であって当該文書の第1の属性が前記選択部により選択された第1の属性と一致する文書に対応付けて前記属性情報記憶部に記憶された属性情報を抽出し、抽出した属性情報が示す第2の属性を通知する属性情報抽出部とを備えることを特徴とする。
前記共起情報抽出部は、前記属性情報記憶部に記憶された属性情報が示す第1の属性と第3の属性との組み合わせごとに、前記文書記憶部に記憶された文書に含まれるテキストから単語と共起情報とを抽出し、
前記概念辞書記憶部は、前記概念ベクトル計算部により計算された概念ベクトルの集合を前記組み合わせごとの概念辞書として記憶し、
前記相関情報生成部は、前記概念辞書記憶部に記憶された組み合わせごとの概念辞書に含まれる単語と前記組み合わせとの相関を示す相関情報を生成することを特徴とする。
前記相関情報に含める単語の最大数を示す単語数閾値を記憶する単語数閾値記憶部を備え、
前記相関情報生成部は、前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書に含まれる単語のうち、重要度が高い順に、前記単語数閾値記憶部に記憶された単語数閾値以下の数の単語と前記第1の属性との相関を示す相関情報を生成することを特徴とする。
前記第1の属性は、前記テキストを作成したユーザの居住地域、性別、年齢のいずれかであり、
前記第2の属性は、前記テキストを作成したユーザの電子メールアドレスであり、
前記属性情報抽出部は、抽出した属性情報が示す電子メールアドレスを、メールマガジンを前記ユーザに配信するメールマガジン配信装置に通知することを特徴とする。
前記テキストマイニング装置は、さらに、
概念ベクトルを予測する予測時期を設定する予測時期設定部と、
前記属性情報記憶部に記憶された属性情報が示す作成時期ごとに、前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書に含まれる単語のうち、重要度が最も高い単語の概念ベクトルをそれぞれの概念辞書から抽出する概念ベクトル抽出部と、
前記属性情報記憶部に記憶された属性情報が示す第1の属性ごとに、前記概念ベクトル抽出部により抽出された作成時期ごとの概念ベクトルに基づいて、前記予測時期設定部により設定された予測時期の概念ベクトルを予測する概念ベクトル予測部と、
前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書から、前記概念ベクトル予測部により予測された概念ベクトルに近似する概念ベクトルを選択し、選択した概念ベクトルに該当する単語を抽出する単語予測部とを備え、
前記相関情報生成部は、前記単語予測部により抽出された単語と前記第1の属性との相関を示す相関情報を生成することを特徴とする。
2つの概念ベクトルが近似するかどうかを判断するための近似閾値を記憶する近似閾値記憶部を備え、
前記単語予測部は、前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書から、前記概念ベクトル予測部により予測された概念ベクトルとの差の絶対値が前記近似閾値記憶部に記憶された近似閾値以下の概念ベクトルを選択し、選択した概念ベクトルに該当する単語を抽出することを特徴とする。
前記選択部により選択された第1の属性と異なる第1の属性を示す他の属性情報を設定する属性情報設定部と、
前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書であって前記属性情報設定部により設定された他の属性情報が示す第1の属性の概念辞書に含まれる単語のうち、重要度が最も高い単語を抽出する単語抽出部とを備え、
前記属性情報抽出部は、さらに、前記対応情報記憶部に記憶された対応情報に基づいて、前記単語抽出部により抽出された単語に対応するテキストを含む文書であって当該文書の第1の属性が前記属性情報設定部により設定された他の属性情報が示す第1の属性と一致する文書に対応付けて前記属性情報記憶部に記憶された属性情報を抽出することを特徴とする。
前記第1の属性は、前記テキストを作成したユーザの年代と前記テキストが作成された期間との組み合わせであり、
前記他の属性情報は、前記第1の属性として、前記選択部により選択された年代と異なる年代と前記選択部により選択された期間と異なる期間との組み合わせを示し、
前記選択部は、さらに、選択した期間に選択した単語に対応するテキストを作成したユーザであって当該ユーザの年代が選択したユーザの年代と一致するユーザを識別するユーザ識別情報を取得し、
前記単語抽出部は、前記対応情報記憶部に記憶された対応情報に基づいて、前記選択部により取得されたユーザ識別情報で特定されるユーザにより作成されたテキストに対応する単語で、かつ、前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書であって前記属性情報設定部により設定された他の属性情報が示す第1の属性の概念辞書に含まれる単語のうち、重要度が最も高い単語を抽出することを特徴とする。
テキストを含む文書と当該文書の第1の属性及び第2の属性を示す属性情報とを入力する入力処理と、
前記入力処理により入力された文書を記憶装置に記憶する文書記憶処理と、
前記入力処理により入力された属性情報を前記記憶装置に記憶された文書と対応付けて前記記憶装置に記憶する属性情報記憶処理と、
前記記憶装置に記憶された属性情報が示す第1の属性ごとに、前記記憶装置に記憶された文書に含まれるテキストから単語と単語の共起頻度を示す共起情報とを抽出する共起情報抽出処理と、
前記共起情報抽出処理により抽出された共起情報に基づいて、前記共起情報抽出処理により抽出された単語の概念を数値化した概念ベクトルを計算する概念ベクトル計算処理と、
前記概念ベクトル計算処理により計算された概念ベクトルの集合を前記第1の属性ごとの概念辞書として前記記憶装置に記憶する概念辞書記憶処理と、
前記記憶装置に記憶された第1の属性ごとの概念辞書に含まれる単語と当該単語の概念を含むテキストとを対応させる対応情報を生成する対応情報生成処理と、
前記対応情報生成処理により生成された対応情報を前記記憶装置に記憶する対応情報記憶処理と、
前記記憶装置に記憶された第1の属性ごとの概念辞書に含まれる単語と前記第1の属性との相関を示す相関情報を生成する相関情報生成処理と、
前記相関情報生成処理により生成された相関情報を出力する出力処理と、
前記出力処理により出力された相関情報に基づいて、相関の有る単語と第1の属性との組み合わせを選択する選択処理と、
前記記憶装置に記憶された対応情報に基づいて、前記選択処理により選択された単語に対応するテキストを含む文書であって当該文書の第1の属性が前記選択処理により選択された第1の属性と一致する文書に対応付けて前記記憶装置に記憶された属性情報を抽出し、抽出した属性情報が示す第2の属性を通知する属性情報抽出処理とをコンピュータに実行させることを特徴とする。
前記テキストマイニングプログラムは、さらに、
概念ベクトルを予測する予測時期を設定する予測時期設定処理と、
前記記憶装置に記憶された属性情報が示す作成時期ごとに、前記記憶装置に記憶された第1の属性ごとの概念辞書に含まれる単語のうち、重要度が最も高い単語の概念ベクトルをそれぞれの概念辞書から抽出する概念ベクトル抽出処理と、
前記記憶装置に記憶された属性情報が示す第1の属性ごとに、前記概念ベクトル抽出処理により抽出された作成時期ごとの概念ベクトルに基づいて、前記予測時期設定処理により設定された予測時期の概念ベクトルを予測する概念ベクトル予測処理と、
前記記憶装置に記憶された第1の属性ごとの概念辞書から、前記概念ベクトル予測処理により予測された概念ベクトルに近似する概念ベクトルを選択し、選択した概念ベクトルに該当する単語を抽出する単語予測処理とをコンピュータに実行させ、
前記相関情報生成処理は、前記単語予測処理により抽出された単語と前記第1の属性との相関を示す相関情報を生成することを特徴とする。
前記選択処理により選択された第1の属性と異なる第1の属性を示す他の属性情報を設定する属性情報設定処理と、
前記記憶装置に記憶された第1の属性ごとの概念辞書であって前記属性情報設定処理により設定された他の属性情報が示す第1の属性の概念辞書に含まれる単語のうち、重要度が最も高い単語を抽出する単語抽出処理とをコンピュータに実行させ、
前記属性情報抽出処理は、さらに、前記記憶装置に記憶された対応情報に基づいて、前記単語抽出処理により抽出された単語に対応するテキストを含む文書であって当該文書の第1の属性が前記属性情報設定処理により設定された他の属性情報が示す第1の属性と一致する文書に対応付けて前記記憶装置に記憶された属性情報を抽出することを特徴とする。
図1は、本実施の形態に係るシステムの構成を示すブロック図である。
テキストを含む文書と当該文書の第1の属性及び第2の属性を示す属性情報とを入力する入力部と、
前記入力部により入力された文書を記憶する文書記憶部と、
前記入力部により入力された属性情報を前記文書記憶部に記憶された文書と対応付けて記憶する属性情報記憶部と、
前記属性情報記憶部に記憶された属性情報が示す第1の属性ごとに、前記文書記憶部に記憶された文書に含まれるテキストから単語と単語の共起頻度を示す共起情報とを抽出する共起情報抽出部と、
前記共起情報抽出部により抽出された共起情報に基づいて、前記共起情報抽出部により抽出された単語の概念を数値化した概念ベクトルを計算する概念ベクトル計算部と、
前記概念ベクトル計算部により計算された概念ベクトルの集合を前記第1の属性ごとの概念辞書として記憶する概念辞書記憶部と、
前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書に含まれる単語と当該単語の概念を含むテキストとを対応させる対応情報を生成する対応情報生成部と、
前記対応情報生成部により生成された対応情報を記憶する対応情報記憶部と、
前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書に含まれる単語と前記第1の属性との相関を示す相関情報を生成する相関情報生成部と、
前記相関情報生成部により生成された相関情報を出力する出力部と、
前記出力部により出力された相関情報に基づいて、相関の有る単語と第1の属性との組み合わせを選択する選択部と、
前記対応情報記憶部に記憶された対応情報に基づいて、前記選択部により選択された単語に対応するテキストを含む文書であって当該文書の第1の属性が前記選択部により選択された第1の属性と一致する文書に対応付けて前記属性情報記憶部に記憶された属性情報を抽出し、抽出した属性情報が示す第2の属性を通知する属性情報抽出部とを備えることを特徴とする。
前記相関情報に含める単語の最大数を示す単語数閾値を記憶する単語数閾値記憶部を備え、
前記相関情報生成部は、前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書に含まれる単語のうち、重要度が高い順に、前記単語数閾値記憶部に記憶された単語数閾値以下の数の単語と前記第1の属性との相関を示す相関情報を生成することを特徴とする。
前記第1の属性は、前記テキストを作成したユーザの居住地域、性別、年齢のいずれかであり、
前記第2の属性は、前記テキストを作成したユーザの電子メールアドレスであり、
前記属性情報抽出部は、抽出した属性情報が示す電子メールアドレスを、メールマガジンを前記ユーザに配信するメールマガジン配信装置に通知することを特徴とする。
テキストを含む文書と当該文書の第1の属性及び第2の属性を示す属性情報とを入力する入力処理と、
前記入力処理により入力された文書を記憶装置に記憶する文書記憶処理と、
前記入力処理により入力された属性情報を前記記憶装置に記憶された文書と対応付けて前記記憶装置に記憶する属性情報記憶処理と、
前記記憶装置に記憶された属性情報が示す第1の属性ごとに、前記記憶装置に記憶された文書に含まれるテキストから単語と単語の共起頻度を示す共起情報とを抽出する共起情報抽出処理と、
前記共起情報抽出処理により抽出された共起情報に基づいて、前記共起情報抽出処理により抽出された単語の概念を数値化した概念ベクトルを計算する概念ベクトル計算処理と、
前記概念ベクトル計算処理により計算された概念ベクトルの集合を前記第1の属性ごとの概念辞書として前記記憶装置に記憶する概念辞書記憶処理と、
前記記憶装置に記憶された第1の属性ごとの概念辞書に含まれる単語と当該単語の概念を含むテキストとを対応させる対応情報を生成する対応情報生成処理と、
前記対応情報生成処理により生成された対応情報を前記記憶装置に記憶する対応情報記憶処理と、
前記記憶装置に記憶された第1の属性ごとの概念辞書に含まれる単語と前記第1の属性との相関を示す相関情報を生成する相関情報生成処理と、
前記相関情報生成処理により生成された相関情報を出力する出力処理と、
前記出力処理により出力された相関情報に基づいて、相関の有る単語と第1の属性との組み合わせを選択する選択処理と、
前記記憶装置に記憶された対応情報に基づいて、前記選択処理により選択された単語に対応するテキストを含む文書であって当該文書の第1の属性が前記選択処理により選択された第1の属性と一致する文書に対応付けて前記記憶装置に記憶された属性情報を抽出し、抽出した属性情報が示す第2の属性を通知する属性情報抽出処理とをコンピュータに実行させることを特徴とする。
以下では、本実施の形態に係るシステムについて、主に実施の形態1で説明したシステムとの差異を説明する。
前記属性情報は、さらに、前記文書の第3の属性として前記テキストが作成された作成時期を示し、
前記テキストマイニング装置は、さらに、
概念ベクトルを予測する予測時期を設定する予測時期設定部と、
前記属性情報記憶部に記憶された属性情報が示す作成時期ごとに、前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書に含まれる単語のうち、重要度が最も高い単語の概念ベクトルをそれぞれの概念辞書から抽出する概念ベクトル抽出部と、
前記属性情報記憶部に記憶された属性情報が示す第1の属性ごとに、前記概念ベクトル抽出部により抽出された作成時期ごとの概念ベクトルに基づいて、前記予測時期設定部により設定された予測時期の概念ベクトルを予測する概念ベクトル予測部と、
前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書から、前記概念ベクトル予測部により予測された概念ベクトルに近似する概念ベクトルを選択し、選択した概念ベクトルに該当する単語を抽出する単語予測部とを備え、
前記相関情報生成部は、前記単語予測部により抽出された単語と前記第1の属性との相関を示す相関情報を生成することを特徴とする。
2つの概念ベクトルが近似するかどうかを判断するための近似閾値を記憶する近似閾値記憶部を備え、
前記単語予測部は、前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書から、前記概念ベクトル予測部により予測された概念ベクトルとの差の絶対値が前記近似閾値記憶部に記憶された近似閾値以下の概念ベクトルを選択し、選択した概念ベクトルに該当する単語を抽出することを特徴とする。
前記属性情報は、さらに、前記文書の第3の属性として前記テキストが作成された作成時期を示し、
前記テキストマイニングプログラムは、さらに、
概念ベクトルを予測する予測時期を設定する予測時期設定処理と、
前記記憶装置に記憶された属性情報が示す作成時期ごとに、前記記憶装置に記憶された第1の属性ごとの概念辞書に含まれる単語のうち、重要度が最も高い単語の概念ベクトルをそれぞれの概念辞書から抽出する概念ベクトル抽出処理と、
前記記憶装置に記憶された属性情報が示す第1の属性ごとに、前記概念ベクトル抽出処理により抽出された作成時期ごとの概念ベクトルに基づいて、前記予測時期設定処理により設定された予測時期の概念ベクトルを予測する概念ベクトル予測処理と、
前記記憶装置に記憶された第1の属性ごとの概念辞書から、前記概念ベクトル予測処理により予測された概念ベクトルに近似する概念ベクトルを選択し、選択した概念ベクトルに該当する単語を抽出する単語予測処理とをコンピュータに実行させ、
前記相関情報生成処理は、前記単語予測処理により抽出された単語と前記第1の属性との相関を示す相関情報を生成することを特徴とする。
以下では、本実施の形態に係るシステムについて、主に実施の形態1で説明したシステムとの差異を説明する。
前記属性情報は、さらに、前記文書の第3の属性を示し、
前記共起情報抽出部は、前記属性情報記憶部に記憶された属性情報が示す第1の属性と第3の属性との組み合わせごとに、前記文書記憶部に記憶された文書に含まれるテキストから単語と共起情報とを抽出し、
前記概念辞書記憶部は、前記概念ベクトル計算部により計算された概念ベクトルの集合を前記組み合わせごとの概念辞書として記憶し、
前記相関情報生成部は、前記概念辞書記憶部に記憶された組み合わせごとの概念辞書に含まれる単語と前記組み合わせとの相関を示す相関情報を生成することを特徴とする。
前記選択部により選択された第1の属性と異なる第1の属性を示す他の属性情報を設定する属性情報設定部と、
前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書であって前記属性情報設定部により設定された他の属性情報が示す第1の属性の概念辞書に含まれる単語のうち、重要度が最も高い単語を抽出する単語抽出部とを備え、
前記属性情報抽出部は、さらに、前記対応情報記憶部に記憶された対応情報に基づいて、前記単語抽出部により抽出された単語に対応するテキストを含む文書であって当該文書の第1の属性が前記属性情報設定部により設定された他の属性情報が示す第1の属性と一致する文書に対応付けて前記属性情報記憶部に記憶された属性情報を抽出することを特徴とする。
前記第1の属性は、前記テキストを作成したユーザの年代と前記テキストが作成された期間との組み合わせであり、
前記他の属性情報は、前記第1の属性として、前記選択部により選択された年代と異なる年代と前記選択部により選択された期間と異なる期間との組み合わせを示し、
前記選択部は、さらに、選択した期間に選択した単語に対応するテキストを作成したユーザであって当該ユーザの年代が選択したユーザの年代と一致するユーザを識別するユーザ識別情報を取得し、
前記単語抽出部は、前記対応情報記憶部に記憶された対応情報に基づいて、前記選択部により取得されたユーザ識別情報で特定されるユーザにより作成されたテキストに対応する単語で、かつ、前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書であって前記属性情報設定部により設定された他の属性情報が示す第1の属性の概念辞書に含まれる単語のうち、重要度が最も高い単語を抽出することを特徴とする。
前記テキストマイニングプログラムは、さらに、
前記選択処理により選択された第1の属性と異なる第1の属性を示す他の属性情報を設定する属性情報設定処理と、
前記記憶装置に記憶された第1の属性ごとの概念辞書であって前記属性情報設定処理により設定された他の属性情報が示す第1の属性の概念辞書に含まれる単語のうち、重要度が最も高い単語を抽出する単語抽出処理とをコンピュータに実行させ、
前記属性情報抽出処理は、さらに、前記記憶装置に記憶された対応情報に基づいて、前記単語抽出処理により抽出された単語に対応するテキストを含む文書であって当該文書の第1の属性が前記属性情報設定処理により設定された他の属性情報が示す第1の属性と一致する文書に対応付けて前記記憶装置に記憶された属性情報を抽出することを特徴とする。
Claims (6)
- 複数の作成時期に複数のユーザによってそれぞれ作成された複数のテキストと、各テキストを作成したユーザの属性と当該ユーザの連絡先と当該テキストが作成された作成時期とを示す属性情報とを入力する入力部と、
前記入力部により入力された複数のテキストを記憶する文書記憶部と、
前記入力部により入力された属性情報を前記文書記憶部に記憶された複数のテキストと対応付けて記憶する属性情報記憶部と、
前記属性情報記憶部に記憶された属性情報が示すユーザの属性と作成時期との組み合わせごとに、前記文書記憶部に記憶された複数のテキストから単語と単語の共起頻度を示す共起情報とを抽出する共起情報抽出部と、
前記属性情報記憶部に記憶された属性情報が示すユーザの属性と作成時期との組み合わせごとに、前記共起情報抽出部により抽出された共起情報に基づいて、前記共起情報抽出部により抽出された単語の概念を数値化した概念ベクトルを当該単語に該当する概念ベクトルとして計算する概念ベクトル計算部と、
前記属性情報記憶部に記憶された属性情報が示すユーザの属性ごとに、前記概念ベクトル計算部により計算された各作成時期の概念ベクトルの集合を概念辞書として記憶する概念辞書記憶部と、
概念ベクトルを予測する予測時期を設定する予測時期設定部と、
前記属性情報記憶部に記憶された属性情報が示すユーザの属性と作成時期との組み合わせごとに、前記概念辞書記憶部に記憶された概念辞書に含まれる概念ベクトルのうち、所定の単語に該当する概念ベクトルを抽出する概念ベクトル抽出部と、
前記属性情報記憶部に記憶された属性情報が示すユーザの属性ごとに、前記概念ベクトル抽出部により抽出された各作成時期の概念ベクトルに基づいて、前記予測時期設定部により設定された予測時期の概念ベクトルを予測する概念ベクトル予測部と、
前記属性情報記憶部に記憶された属性情報が示すユーザの属性ごとに、前記概念辞書記憶部に記憶された概念辞書から、前記概念ベクトル予測部により予測された概念ベクトルに近似する概念ベクトルを選択し、選択した概念ベクトルに該当する単語を抽出する単語予測部と、
任意のユーザの属性と当該ユーザの属性について前記単語予測部により抽出された単語との組み合わせを抽出範囲情報として選択する選択部と、
前記選択部により選択された抽出範囲情報に含まれるユーザの属性と一致する属性をもつユーザによって作成されたテキストに対応付けて前記属性情報記憶部に記憶された属性情報を抽出し、抽出した属性情報が示すユーザの連絡先と前記選択部により選択された抽出範囲情報とを通知する属性情報抽出部とを備えることを特徴とするテキストマイニング装置。 - 前記テキストマイニング装置は、単語ごとに、単語の出現頻度に当該単語の汎用性及び偏りを加味した値である重要度を定めており、
前記概念ベクトル抽出部は、前記属性情報記憶部に記憶された属性情報が示すユーザの属性と作成時期との組み合わせごとに、前記概念辞書記憶部に記憶された概念辞書に含まれる概念ベクトルのうち、前記所定の単語として重要度が最も高い単語に該当する概念ベクトルを抽出することを特徴とする請求項1に記載のテキストマイニング装置。 - 前記テキストマイニング装置は、さらに、
2つの概念ベクトルが近似するかどうかを判断するための近似閾値を記憶する近似閾値記憶部を備え、
前記単語予測部は、前記属性情報記憶部に記憶された属性情報が示すユーザの属性ごとに、前記概念辞書記憶部に記憶された概念辞書から、前記概念ベクトル予測部により予測された概念ベクトルとの差の絶対値が前記近似閾値記憶部に記憶された近似閾値以下の概念ベクトルを選択し、選択した概念ベクトルに該当する単語を抽出することを特徴とする請求項1又は2に記載のテキストマイニング装置。 - 前記ユーザの属性は、前記テキストを作成したユーザの居住地域、性別、年齢、職業のいずれかであり、
前記ユーザの連絡先は、前記テキストを作成したユーザの電子メールアドレスであり、
前記属性情報抽出部は、抽出した属性情報が示す電子メールアドレスと前記選択部により選択された抽出範囲情報とを、メールマガジンを前記ユーザに配信するメールマガジン配信装置に通知することを特徴とする請求項1から3までのいずれかに記載のテキストマイニング装置。 - 前記作成時期は、前記ユーザが前記テキストを作成した年、月、週、日のいずれかであることを特徴とする請求項1から4までのいずれかに記載のテキストマイニング装置。
- 複数の作成時期に複数のユーザによってそれぞれ作成された複数のテキストと、各テキストを作成したユーザの属性と当該ユーザの連絡先と当該テキストが作成された作成時期とを示す属性情報とを入力する入力処理と、
前記入力処理により入力された複数のテキストを記憶装置に記憶する文書記憶処理と、
前記入力処理により入力された属性情報を前記記憶装置に記憶された複数のテキストと対応付けて前記記憶装置に記憶する属性情報記憶処理と、
前記記憶装置に記憶された属性情報が示すユーザの属性と作成時期との組み合わせごとに、前記記憶装置に記憶された複数のテキストから単語と単語の共起頻度を示す共起情報とを抽出する共起情報抽出処理と、
前記記憶装置に記憶された属性情報が示すユーザの属性と作成時期との組み合わせごとに、前記共起情報抽出処理により抽出された共起情報に基づいて、前記共起情報抽出処理により抽出された単語の概念を数値化した概念ベクトルを当該単語に該当する概念ベクトルとして計算する概念ベクトル計算処理と、
前記記憶装置に記憶された属性情報が示すユーザの属性ごとに、前記概念ベクトル計算処理により計算された各作成時期の概念ベクトルの集合を概念辞書として前記記憶装置に記憶する概念辞書記憶処理と、
概念ベクトルを予測する予測時期を設定する予測時期設定処理と、
前記記憶装置に記憶された属性情報が示すユーザの属性と作成時期との組み合わせごとに、前記記憶装置に記憶された概念辞書に含まれる概念ベクトルのうち、所定の単語に該当する概念ベクトルを抽出する概念ベクトル抽出処理と、
前記記憶装置に記憶された属性情報が示すユーザの属性ごとに、前記概念ベクトル抽出処理により抽出された各作成時期の概念ベクトルに基づいて、前記予測時期設定処理により設定された予測時期の概念ベクトルを予測する概念ベクトル予測処理と、
前記記憶装置に記憶された属性情報が示すユーザの属性ごとに、前記記憶装置に記憶された概念辞書から、前記概念ベクトル予測処理により予測された概念ベクトルに近似する概念ベクトルを選択し、選択した概念ベクトルに該当する単語を抽出する単語予測処理と、
任意のユーザの属性と当該ユーザの属性について前記単語予測処理により抽出された単語との組み合わせを抽出範囲情報として選択する選択処理と、
前記選択処理により選択された抽出範囲情報に含まれるユーザの属性と一致する属性をもつユーザによって作成されたテキストに対応付けて前記記憶装置に記憶された属性情報を抽出し、抽出した属性情報が示すユーザの連絡先と前記選択処理により選択された抽出範囲情報とを通知する属性情報抽出処理とをコンピュータに実行させることを特徴とするテキストマイニングプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005263788A JP4358804B2 (ja) | 2005-09-12 | 2005-09-12 | テキストマイニング装置及びテキストマイニングプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005263788A JP4358804B2 (ja) | 2005-09-12 | 2005-09-12 | テキストマイニング装置及びテキストマイニングプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007079694A JP2007079694A (ja) | 2007-03-29 |
JP4358804B2 true JP4358804B2 (ja) | 2009-11-04 |
Family
ID=37939968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005263788A Expired - Fee Related JP4358804B2 (ja) | 2005-09-12 | 2005-09-12 | テキストマイニング装置及びテキストマイニングプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4358804B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010102296A1 (en) | 2009-03-06 | 2010-09-10 | Exactarget, Inc. | System and method for controlling access to aspects of an electronic messaging campaign |
-
2005
- 2005-09-12 JP JP2005263788A patent/JP4358804B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007079694A (ja) | 2007-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8156138B2 (en) | System and method for providing targeted content | |
JP6435426B1 (ja) | 情報分析装置、情報分析方法および情報分析プログラム | |
JP5581408B2 (ja) | 情報処理システム、情報処理装置、情報処理方法及びプログラム | |
US9639846B2 (en) | System and method for providing targeted content | |
JP4071805B2 (ja) | 広告送信サーバ、広告送信プログラム及びユーザ検索方法 | |
KR100970335B1 (ko) | 사용자의 관심 키워드를 업데이트 하는 방법과 그 방법을수행하기 위한 시스템 | |
JP5507607B2 (ja) | コンテンツ提供装置、低ランク近似行列生成装置、コンテンツ提供方法、低ランク近似行列生成方法およびプログラム | |
JP7166116B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN113032668A (zh) | 基于用户画像的产品推荐方法、装置、设备及存储介质 | |
JP2013033376A (ja) | 情報処理装置、情報処理方法、および、プログラム | |
CN118250516B (zh) | 一种针对用户的分级处理方法 | |
JP2016062275A (ja) | 抽出装置、抽出方法および抽出プログラム | |
JP6434954B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2004126975A (ja) | 選好傾向類似ユーザ抽出方法及び装置、並びに選好傾向類似ユーザ抽出プログラム及びそれを記録した記録媒体 | |
CN111625726A (zh) | 一种用户画像的处理方法和装置 | |
JP2019003610A (ja) | 抽出装置、抽出方法及び抽出プログラム | |
JP5138621B2 (ja) | 情報処理装置及び不満解決商品発見方法及びプログラム | |
CN113204699B (zh) | 信息推荐方法、装置、电子设备及存储介质 | |
JP2004280180A (ja) | 広告用キーワード抽出システム、広告文配信システム、広告用キーワード抽出プログラム及び広告文配信プログラム | |
JP4358804B2 (ja) | テキストマイニング装置及びテキストマイニングプログラム | |
JP6311052B1 (ja) | 抽出装置、抽出方法及び抽出プログラム | |
JP6921922B2 (ja) | 情報処理装置、情報処理方法、および情報処理プログラム | |
JP2023070618A (ja) | 情報処理システム、コンピュータプログラム、及び情報処理方法 | |
JP7335405B1 (ja) | 抽出装置、抽出方法及び抽出プログラム | |
CN113763107B (zh) | 一种对象信息推送方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090526 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090706 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090804 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090806 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120814 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4358804 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120814 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130814 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130814 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140814 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |