JP4358804B2 - テキストマイニング装置及びテキストマイニングプログラム - Google Patents

テキストマイニング装置及びテキストマイニングプログラム Download PDF

Info

Publication number
JP4358804B2
JP4358804B2 JP2005263788A JP2005263788A JP4358804B2 JP 4358804 B2 JP4358804 B2 JP 4358804B2 JP 2005263788 A JP2005263788 A JP 2005263788A JP 2005263788 A JP2005263788 A JP 2005263788A JP 4358804 B2 JP4358804 B2 JP 4358804B2
Authority
JP
Japan
Prior art keywords
concept
unit
attribute
attribute information
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005263788A
Other languages
English (en)
Other versions
JP2007079694A (ja
Inventor
裕美 吉田
徹明 磯西
靖宏 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Information Systems Corp
Original Assignee
Mitsubishi Electric Information Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Information Systems Corp filed Critical Mitsubishi Electric Information Systems Corp
Priority to JP2005263788A priority Critical patent/JP4358804B2/ja
Publication of JP2007079694A publication Critical patent/JP2007079694A/ja
Application granted granted Critical
Publication of JP4358804B2 publication Critical patent/JP4358804B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、テキストマイニング装置及びテキストマイニングプログラムに関するものである。特に、意見(自由文)の分析によるWebマーケティングを行うためのものに関する。
従来のシステムは、図47に示すように、アンケート作成/公開装置200と、顧客データ抽出装置500と、メールマガジン配信装置400から構成されており、アンケート作成/公開装置200で公開したアンケートから得られた顧客の個人情報とアンケートの質問に対する意見(自由文)を回答データ記憶部204に蓄積する。そして、回答データ記憶部204から、顧客データ抽出装置500により顧客データの属性情報(例えば、性別、年齢、選択肢を持った質問に対する回答など)を用いて顧客データの抽出をし、抽出された顧客へ向けてメールマガジン配信装置400により抽出した条件に合わせた情報を配信することでWebマーケティングを実施している。アンケート以外にも、ユーザによる電子掲示板への書き込み情報からコンセプトを抽出し、抽出されたコンセプトに一致するコンセプトの事例情報をユーザに送信するものがある(例えば、特許文献1参照。)。
また、自由文を分析する方法として、自由文に含まれる単語の出現傾向を学習し、類義関係を自動的に取得して概念辞書に格納し、概念辞書を参照して分析結果(相関度、重要度)を得るテキストマイニング方法がある(例えば、特許文献2参照。)。ここで、相関度とは、自由文中の単語と属性との相関度合を表す数値であり、「関連度」ともいう(例えば、特許文献3参照。)。また、重要度とは、指定された属性に係る自由文の中での単語の重要度を表す数値であり、「重み」ともいう(例えば、特許文献4参照。)。
特開2003−141152号公報 特開2005−115468号公報 特開2004−246491号公報 特開2001−101194号公報
従来の方法では、図48に示すように属性情報を元にした抽出でしか情報配信の対象とする顧客を絞り込むことができず、顧客の興味や嗜好、ニーズに即した情報配信ができないという課題があった。
本発明は、例えば、顧客の興味や嗜好に即した情報配信を行うためのWebマーケティングを目的とする。また、例えば、顧客の興味や嗜好を先読みした情報配信を行うためのWebマーケティングを目的とする。
本発明のテキストマイニング装置は、
テキストを含む文書と当該文書の第1の属性及び第2の属性を示す属性情報とを入力する入力部と、
前記入力部により入力された文書を記憶する文書記憶部と、
前記入力部により入力された属性情報を前記文書記憶部に記憶された文書と対応付けて記憶する属性情報記憶部と、
前記属性情報記憶部に記憶された属性情報が示す第1の属性ごとに、前記文書記憶部に記憶された文書に含まれるテキストから単語と単語の共起頻度を示す共起情報とを抽出する共起情報抽出部と、
前記共起情報抽出部により抽出された共起情報に基づいて、前記共起情報抽出部により抽出された単語の概念を数値化した概念ベクトルを計算する概念ベクトル計算部と、
前記概念ベクトル計算部により計算された概念ベクトルの集合を前記第1の属性ごとの概念辞書として記憶する概念辞書記憶部と、
前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書に含まれる単語と当該単語の概念を含むテキストとを対応させる対応情報を生成する対応情報生成部と、
前記対応情報生成部により生成された対応情報を記憶する対応情報記憶部と、
前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書に含まれる単語と前記第1の属性との相関を示す相関情報を生成する相関情報生成部と、
前記相関情報生成部により生成された相関情報を出力する出力部と、
前記出力部により出力された相関情報に基づいて、相関の有る単語と第1の属性との組み合わせを選択する選択部と、
前記対応情報記憶部に記憶された対応情報に基づいて、前記選択部により選択された単語に対応するテキストを含む文書であって当該文書の第1の属性が前記選択部により選択された第1の属性と一致する文書に対応付けて前記属性情報記憶部に記憶された属性情報を抽出し、抽出した属性情報が示す第2の属性を通知する属性情報抽出部とを備えることを特徴とする。
前記属性情報は、さらに、前記文書の第3の属性を示し、
前記共起情報抽出部は、前記属性情報記憶部に記憶された属性情報が示す第1の属性と第3の属性との組み合わせごとに、前記文書記憶部に記憶された文書に含まれるテキストから単語と共起情報とを抽出し、
前記概念辞書記憶部は、前記概念ベクトル計算部により計算された概念ベクトルの集合を前記組み合わせごとの概念辞書として記憶し、
前記相関情報生成部は、前記概念辞書記憶部に記憶された組み合わせごとの概念辞書に含まれる単語と前記組み合わせとの相関を示す相関情報を生成することを特徴とする。
前記テキストマイニング装置は、さらに、
前記相関情報に含める単語の最大数を示す単語数閾値を記憶する単語数閾値記憶部を備え、
前記相関情報生成部は、前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書に含まれる単語のうち、重要度が高い順に、前記単語数閾値記憶部に記憶された単語数閾値以下の数の単語と前記第1の属性との相関を示す相関情報を生成することを特徴とする。
前記テキストは、ユーザにより作成されるものであり、
前記第1の属性は、前記テキストを作成したユーザの居住地域、性別、年齢のいずれかであり、
前記第2の属性は、前記テキストを作成したユーザの電子メールアドレスであり、
前記属性情報抽出部は、抽出した属性情報が示す電子メールアドレスを、メールマガジンを前記ユーザに配信するメールマガジン配信装置に通知することを特徴とする。
前記属性情報は、さらに、前記文書の第3の属性として前記テキストが作成された作成時期を示し、
前記テキストマイニング装置は、さらに、
概念ベクトルを予測する予測時期を設定する予測時期設定部と、
前記属性情報記憶部に記憶された属性情報が示す作成時期ごとに、前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書に含まれる単語のうち、重要度が最も高い単語の概念ベクトルをそれぞれの概念辞書から抽出する概念ベクトル抽出部と、
前記属性情報記憶部に記憶された属性情報が示す第1の属性ごとに、前記概念ベクトル抽出部により抽出された作成時期ごとの概念ベクトルに基づいて、前記予測時期設定部により設定された予測時期の概念ベクトルを予測する概念ベクトル予測部と、
前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書から、前記概念ベクトル予測部により予測された概念ベクトルに近似する概念ベクトルを選択し、選択した概念ベクトルに該当する単語を抽出する単語予測部とを備え、
前記相関情報生成部は、前記単語予測部により抽出された単語と前記第1の属性との相関を示す相関情報を生成することを特徴とする。
前記テキストマイニング装置は、さらに、
2つの概念ベクトルが近似するかどうかを判断するための近似閾値を記憶する近似閾値記憶部を備え、
前記単語予測部は、前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書から、前記概念ベクトル予測部により予測された概念ベクトルとの差の絶対値が前記近似閾値記憶部に記憶された近似閾値以下の概念ベクトルを選択し、選択した概念ベクトルに該当する単語を抽出することを特徴とする。
前記テキストマイニング装置は、さらに、
前記選択部により選択された第1の属性と異なる第1の属性を示す他の属性情報を設定する属性情報設定部と、
前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書であって前記属性情報設定部により設定された他の属性情報が示す第1の属性の概念辞書に含まれる単語のうち、重要度が最も高い単語を抽出する単語抽出部とを備え、
前記属性情報抽出部は、さらに、前記対応情報記憶部に記憶された対応情報に基づいて、前記単語抽出部により抽出された単語に対応するテキストを含む文書であって当該文書の第1の属性が前記属性情報設定部により設定された他の属性情報が示す第1の属性と一致する文書に対応付けて前記属性情報記憶部に記憶された属性情報を抽出することを特徴とする。
前記テキストは、ユーザにより作成されるものであり、
前記第1の属性は、前記テキストを作成したユーザの年代と前記テキストが作成された期間との組み合わせであり、
前記他の属性情報は、前記第1の属性として、前記選択部により選択された年代と異なる年代と前記選択部により選択された期間と異なる期間との組み合わせを示し、
前記選択部は、さらに、選択した期間に選択した単語に対応するテキストを作成したユーザであって当該ユーザの年代が選択したユーザの年代と一致するユーザを識別するユーザ識別情報を取得し、
前記単語抽出部は、前記対応情報記憶部に記憶された対応情報に基づいて、前記選択部により取得されたユーザ識別情報で特定されるユーザにより作成されたテキストに対応する単語で、かつ、前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書であって前記属性情報設定部により設定された他の属性情報が示す第1の属性の概念辞書に含まれる単語のうち、重要度が最も高い単語を抽出することを特徴とする。
前記他の属性情報が示す年代と期間とは、前記選択部により選択された年代と期間とから同じ年数分遡ったものであることを特徴とする。
また、本発明のテキストマイニングプログラムは、
テキストを含む文書と当該文書の第1の属性及び第2の属性を示す属性情報とを入力する入力処理と、
前記入力処理により入力された文書を記憶装置に記憶する文書記憶処理と、
前記入力処理により入力された属性情報を前記記憶装置に記憶された文書と対応付けて前記記憶装置に記憶する属性情報記憶処理と、
前記記憶装置に記憶された属性情報が示す第1の属性ごとに、前記記憶装置に記憶された文書に含まれるテキストから単語と単語の共起頻度を示す共起情報とを抽出する共起情報抽出処理と、
前記共起情報抽出処理により抽出された共起情報に基づいて、前記共起情報抽出処理により抽出された単語の概念を数値化した概念ベクトルを計算する概念ベクトル計算処理と、
前記概念ベクトル計算処理により計算された概念ベクトルの集合を前記第1の属性ごとの概念辞書として前記記憶装置に記憶する概念辞書記憶処理と、
前記記憶装置に記憶された第1の属性ごとの概念辞書に含まれる単語と当該単語の概念を含むテキストとを対応させる対応情報を生成する対応情報生成処理と、
前記対応情報生成処理により生成された対応情報を前記記憶装置に記憶する対応情報記憶処理と、
前記記憶装置に記憶された第1の属性ごとの概念辞書に含まれる単語と前記第1の属性との相関を示す相関情報を生成する相関情報生成処理と、
前記相関情報生成処理により生成された相関情報を出力する出力処理と、
前記出力処理により出力された相関情報に基づいて、相関の有る単語と第1の属性との組み合わせを選択する選択処理と、
前記記憶装置に記憶された対応情報に基づいて、前記選択処理により選択された単語に対応するテキストを含む文書であって当該文書の第1の属性が前記選択処理により選択された第1の属性と一致する文書に対応付けて前記記憶装置に記憶された属性情報を抽出し、抽出した属性情報が示す第2の属性を通知する属性情報抽出処理とをコンピュータに実行させることを特徴とする。
前記属性情報は、さらに、前記文書の第3の属性として前記テキストが作成された作成時期を示し、
前記テキストマイニングプログラムは、さらに、
概念ベクトルを予測する予測時期を設定する予測時期設定処理と、
前記記憶装置に記憶された属性情報が示す作成時期ごとに、前記記憶装置に記憶された第1の属性ごとの概念辞書に含まれる単語のうち、重要度が最も高い単語の概念ベクトルをそれぞれの概念辞書から抽出する概念ベクトル抽出処理と、
前記記憶装置に記憶された属性情報が示す第1の属性ごとに、前記概念ベクトル抽出処理により抽出された作成時期ごとの概念ベクトルに基づいて、前記予測時期設定処理により設定された予測時期の概念ベクトルを予測する概念ベクトル予測処理と、
前記記憶装置に記憶された第1の属性ごとの概念辞書から、前記概念ベクトル予測処理により予測された概念ベクトルに近似する概念ベクトルを選択し、選択した概念ベクトルに該当する単語を抽出する単語予測処理とをコンピュータに実行させ、
前記相関情報生成処理は、前記単語予測処理により抽出された単語と前記第1の属性との相関を示す相関情報を生成することを特徴とする。
前記テキストマイニングプログラムは、さらに、
前記選択処理により選択された第1の属性と異なる第1の属性を示す他の属性情報を設定する属性情報設定処理と、
前記記憶装置に記憶された第1の属性ごとの概念辞書であって前記属性情報設定処理により設定された他の属性情報が示す第1の属性の概念辞書に含まれる単語のうち、重要度が最も高い単語を抽出する単語抽出処理とをコンピュータに実行させ、
前記属性情報抽出処理は、さらに、前記記憶装置に記憶された対応情報に基づいて、前記単語抽出処理により抽出された単語に対応するテキストを含む文書であって当該文書の第1の属性が前記属性情報設定処理により設定された他の属性情報が示す第1の属性と一致する文書に対応付けて前記記憶装置に記憶された属性情報を抽出することを特徴とする。
本発明では、テキストマイニング装置において、対応情報生成部が、概念辞書記憶部に記憶された第1の属性ごとの概念辞書に含まれる単語と当該単語の概念を含むテキストとを対応させる対応情報を生成し、選択部が、出力部により出力された相関情報に基づいて、相関の有る単語と第1の属性との組み合わせを選択し、属性情報抽出部が、対応情報記憶部に記憶された対応情報に基づいて、選択部により選択された単語に対応するテキストを含む文書であって当該文書の第1の属性が選択部により選択された第1の属性と一致する文書に対応付けて属性情報記憶部に記憶された属性情報を抽出し、抽出した属性情報が示す第2の属性を通知することにより、例えば、顧客の興味や嗜好に即した情報配信を行うためのWebマーケティングを実現することが可能となる。
以下、本発明の実施の形態について、図を用いて説明する。
実施の形態1.
図1は、本実施の形態に係るシステムの構成を示すブロック図である。
本実施の形態に係るシステムは、テキストマイニング装置100とアンケート作成/公開装置200とメールマガジン配信装置400とを備える。アンケート作成/公開装置200とメールマガジン配信装置400とはインターネット300に接続される。
アンケート作成/公開装置200は、アンケート作成部201、アンケート情報記憶部202、アンケート公開/回答受付部203、回答データ記憶部204、通信部205、アンケート回答データ抽出部206を備える。
アンケート作成部201では本システムのユーザ(例えばシステム管理者であって、アンケートを回答するユーザとは異なる。)がアンケートを作成し、アンケート公開/回答受付部203でインターネット300上に通信部205を介して公開する。アンケート内の質問内容情報はアンケート情報記憶部202に格納される(アンケートには、個人情報に関する質問も含まれている。)。
アンケート公開/回答受付部203では顧客(ユーザの一例)からのアンケートの回答(以下、アンケートの回答を単にアンケートということがある。アンケートは文書の一例である。)を受け付け、回答日時と合わせて回答データ記憶部204に格納する。
アンケート回答データ抽出部206では、回答データ記憶部204から格納されているアンケートの全回答データを抽出し、登録条件を付加してテキストマイニング装置へ送信する。登録条件は、回答データに含まれる属性情報が示す属性ごとに、その属性ごとの概念辞書を作成するかどうかを設定する情報である。属性情報とは、顧客の個人情報(例えば、氏名、メールアドレス)やアンケートの集まり(例えば、アンケートの実施期間ごとの集まり)を区別するアンケートIDなど、アンケートの属性を示す情報である。
テキストマイニング装置100は、アンケート作成/公開装置200のアンケート回答データ抽出部206より送信されたアンケートの全回答データ及び登録条件に基づいて顧客の興味・嗜好を分析し、特定の興味・嗜好を持つとみられる顧客を選択するための抽出範囲情報を元に顧客の個人情報を取得し、メールマガジン配信装置400に送信する。
メールマガジン配信装置400では、取得した顧客の個人情報を用いて、抽出範囲情報(顧客が興味を示すであろうと推測される分野、内容)に合わせた内容のメールマガジンを配信する。本実施の形態では、メールマガジン配信装置400は、アンケート作成/公開装置200の通信部205を利用してインターネット300上でメールマガジンを配信するが、独自の通信部を備え、これをメールマガジンの配信に利用してもよい。
図2は、本実施の形態に係るテキストマイニング装置100の構成を示すブロック図である。図2において、実線はデータの流れの一例を、破線は制御の関係の一例を示す。
テキストマイニング装置100は、文書登録受付部101(入力部の一例)、文書記憶部102、属性情報作成部103(対応情報生成部の一例)、属性情報記憶部104、テキスト解析部105(共起情報抽出部の一例)、テキスト解析結果記憶部106、概念辞書作成部107(概念ベクトル計算部の一例)、概念辞書記憶部108、文書索引作成部109、文書索引記憶部110、分析部111、分析結果表示部113(出力部の一例)、抽出範囲指定部114、抽出範囲受付部115(選択部の一例)、顧客データ抽出部116(属性情報抽出部の一例)、分析受付部117を備える。属性情報記憶部104は対応情報記憶部132を含み、分析部111は相関情報生成部112を含み、分析受付部117は単語数閾値記憶部118を含む。文書記憶部102、属性情報記憶部104、テキスト解析結果記憶部106、概念辞書記憶部108、文書索引記憶部110、単語数閾値記憶部118は、図示していない記憶装置に実装される。
文書登録受付部101はアンケート作成/公開装置200のアンケート回答データ抽出部206より送信されたアンケートの全回答データ及び登録条件129を受け付けて、回答データを文書記憶部102に格納する。そして、テキスト解析部105、概念辞書作成部107、文書索引作成部109、属性情報作成部103を制御し、かつ制御に係るデータを送受信することにより、登録条件129に従って、アンケートの全回答データから分析部111において分析に必要となる情報を作成する。作成した情報は、テキスト解析結果記憶部106、概念辞書記憶部108、文書索引記憶部110、属性情報記憶部104に格納する。
テキスト解析部105では、回答データの自由文(テキストの一例)に含まれる単語と、当該単語の共起情報(同一文書、同一段落、同一文など、所定範囲で共に出現する2つの単語の組み合わせがどれくらいの頻度で出現するか(共起頻度)を数値化した情報)とを抽出し、テキスト解析結果記憶部106へ格納する。なお、この処理はアンケートの全回答データに対してと登録条件129の中で概念辞書を「作成する」と指定した属性情報が取り得る属性値ごとのアンケートの回答データに対して行われる。
概念辞書作成部107は、テキスト解析部105で抽出された単語と、共起情報から算出した概念ベクトルとを関連付けて概念辞書を作成し、概念辞書記憶部108に格納する。
文書索引作成部109はテキスト解析結果記憶部106から各回答データの文書索引情報(文書索引ともいう。)を作成し、文書索引記憶部110に格納する。文書索引とは、文書記憶部102に記憶されたアンケートに含まれる自由文からテキスト解析部105により抽出された単語それぞれの概念ベクトルを合成した文書ベクトルであってもよいし、アンケート中に出現した単語とそのアンケートとを対応づける対照表であってもよい(例えば、特許文献2参照。)。本実施の形態では、文書索引の利用は必須ではなく、文書索引作成部109や文書索引記憶部110はなくてもよい。
属性情報作成部103は各回答データに付与されている属性を抽出して各アンケートと対応付けられた属性情報を作成し、属性情報記憶部104に格納する。
属性情報作成部103、概念辞書作成部107、文書索引作成部109は登録したアンケートの全回答データに対してと、概念辞書を作成すると指定した属性情報が取り得る属性値ごとのアンケートの回答データに対して属性情報、文書索引、概念辞書を作成し、各記憶部に格納する。
分析受付部117では、分析条件130(分析する属性情報及び分析結果出力閾値(単語数閾値の一例))を受け付け(特に、分析結果出力閾値は単語数閾値記憶部118に記憶される。)、分析部111に分析を依頼する。また、分析受付部117は分析部111を制御し、分析する属性情報及び分析結果出力閾値を分析部111に送信する。
分析部111では、概念辞書、文書索引、属性情報が作成され、概念辞書記憶部108、文書索引記憶部110、属性情報記憶部104にそれぞれ格納されたことを確認する。その後、概念辞書を用いて、重要度(前述したように、単語の単純な出現頻度に、その単語の汎用性や偏りを加味した値であり、汎用的な単語の順位が不必要に上がらないようにする。)の高い概念(単語)を抽出し、その概念について概念検索する。
分析結果表示部113では、分析条件130で指定した分析する属性情報が取り得る属性値ごとに、重要度が高い順に上位から分析条件130で設定した分析結果出力閾値分、各概念を分析部111で概念検索した結果をグラフに出力する。
抽出範囲指定部114で、本システムのユーザが分析結果表示部113に出力されたグラフ中の抽出したい範囲を抽出条件131として指定する(指定方法としては、例えば、出力されたグラフが折れ線グラフである場合には、グラフ中の節点の部分をクリックする方法などが用いられる。)。
抽出範囲受付部115では、抽出範囲指定部114で指定された範囲(抽出範囲情報)を受け付ける。受け付けた抽出範囲情報とその範囲に該当する顧客データリストを表示し、それらの情報を顧客データ抽出部116に送信する。抽出範囲情報には、その範囲に該当する属性情報(例えば、顧客を識別する回答者ID)も合わせて送信する。
顧客データ抽出部116では、受信した抽出範囲情報を元に属性情報記憶部104から属性情報(上記例では、回答者ID)に該当する顧客の個人情報を取得し、メールマガジン配信装置400に送信する。
ここからは、アンケートの一例として、図3に示す質問内容を含む食品製造業のアンケートが用いられた場合の本実施の形態に係るシステムの動作について説明する。
アンケート作成/公開装置200のアンケート作成部201は、例えば図4に示すようなアンケートページを作成する。
アンケートページ作成後、アンケート公開/回答受付部203は、アンケートページをインターネット300上に公開し、顧客からのアンケート回答を受け付ける。そして、例えば図5、図6に示すような回答データを回答日時とともに回答データ記憶部204に格納する。図5、図6において、回答者ID、回答日時、氏名、メールアドレス(電子メールアドレス)、住所(都道府県など、居住地域を大まかに示す情報でもよい。)、生年(年齢や年代でもよい。)、性別、職業、アンケートID、開始日時及び終了日時(作成時期の一例)はアンケートの属性を表す。
アンケートは何回実施されていてもよく、アンケート回答データ抽出部206は回答データ記憶部204より回答データ全体を抽出して、テキストマイニング装置100の文書登録受付部101へ登録条件129とともに登録する。
図7、図10は、本実施の形態に係るテキストマイニング装置100の動作を示すフロー図である。
図7に示すように、文書登録受付部101は、自由文を含むアンケートとユーザが居住する地方及び電子メールアドレスを示す属性情報とを入力する(ステップS101:入力処理)。属性情報は同時に、図5、図6に示したように、ユーザの氏名など、他の属性を示すものであってもよい。属性の1つであるユーザが居住する地方(例えば、北海道、東北、関東、信越、北陸、東海、近畿、中国、四国、九州、沖縄)は、ユーザの住所によって決定される。
文書記憶部102は、文書登録受付部101により入力されたアンケートを記憶する(ステップS102:文書記憶処理)。これにより、回答データは文書記憶部102に格納される。この回答データは、属性情報を含んでもよいし、含んでいなくてもよい。
属性情報記憶部104は、文書登録受付部101により入力された属性情報を文書記憶部102に記憶されたアンケートと対応付けて記憶する(ステップS103:属性情報記憶処理)。属性情報とアンケートの対応付けは、属性情報作成部103により行われる。
テキスト解析部105は、属性情報記憶部104に記憶された属性情報が示す地方ごとに、文書記憶部102に記憶されたアンケートに含まれる自由文から単語と単語の共起頻度を示す共起情報とを抽出する(ステップS104:共起情報抽出処理)。これにより、図8に示すような登録条件129の概念辞書作成設定で「作成する」と設定した属性情報が取り得る属性値ごとのアンケートの回答データそれぞれが、テキスト解析部105で解析される。ここで、テキスト解析部105は同時に、アンケートの全回答データを解析してもよい。解析結果はテキスト解析結果記憶部106に格納される。
概念辞書作成部107は、テキスト解析部105により抽出された共起情報に基づいて、テキスト解析部105により抽出された単語の概念を数値化した概念ベクトルを計算する(ステップS105:概念ベクトル計算処理)。概念辞書記憶部108は、図9に示すように、概念辞書作成部107により計算された概念ベクトルの集合を地方ごとの概念辞書として記憶する(ステップS106:概念辞書記憶処理)。このように、概念辞書作成部107では解析結果を用いて、登録条件129の概念辞書作成設定で「作成する」と設定した属性情報が取り得る属性値ごとのアンケートの回答データそれぞれに対して概念辞書を作成し、概念辞書記憶部108に格納する。ここで、概念辞書作成部107は同時に、アンケートの全回答データに対して概念辞書を作成してもよい。
属性情報作成部103は、概念辞書記憶部108に記憶された地方ごとの概念辞書に含まれる単語と当該単語の概念を含む自由文(又はその自由文を含むアンケート)とを対応させる対応情報を生成する(ステップS107:対応情報生成処理)。属性情報記憶部104の対応情報記憶部132は、属性情報作成部103により生成された対応情報を記憶する(ステップS108:対応情報記憶処理)。
図10に示すように、分析受付部117の単語数閾値記憶部118は、相関情報に含める単語の最大数を示す単語数閾値(分析結果出力閾値)を記憶する(ステップS109:単語数閾値記憶処理)。このように、分析受付部117は、図11に示すような分析条件130を入力し、分析部111に分析依頼をする。そして、分析する属性情報及び分析結果出力閾値を分析部111に送信する。
分析部111の相関情報生成部112は、概念辞書記憶部108に記憶された地方ごとの概念辞書に含まれる単語のうち、重要度が高い順に、単語数閾値以下の数の単語と地方との相関(関連度)を示す相関情報を生成する(ステップS110:相関情報生成処理)。このように、分析部111は分析依頼を受け、分析条件130で指定した分析する属性情報が取り得る属性値のうち1つに対して、その属性値に該当する顧客が回答した自由文の集まりの中で、重要度の高い単語を重要度順に上から分析条件130で指定した分析結果出力閾値分抽出し、抽出した概念(単語)を分析結果表示部113へ送信する(抽出時には、分析条件130で指定した分析する属性情報が取り得る属性値ごとの概念辞書を用いる。)。分析部111はこれを分析条件130で指定した分析する属性情報が取り得る属性値の数分行う。このとき、例えば、図12、図13、図14に示すようなデータ(相関情報)が抽出され、分析結果表示部113に送信される。例えば、図14に示したデータは、それぞれの地域(地方)と料理名(単語)との相関度が数値化されたものである(値として、相関度の代わりに、地域ごとの回答者数の割合を用いてもよい。その場合、例えば、属性が「北海道」のアンケートの中で、「塩ラーメン」の重要度が高いアンケートが8割あれば、「北海道」と「塩ラーメン」の組み合わせの値を0.8と算出する。)。
分析結果表示部113は、相関情報生成部112により生成された相関情報をグラフに表示する(ステップS111:出力処理)。例えば、分析結果表示部113は分析部111から概念(単語)を受信し、図15に示すような分析結果をグラフに出力する。
抽出範囲受付部115は、分析結果表示部113によりグラフに表示された相関情報に基づいて、相関の有る単語と地方との組み合わせを選択する(ステップS112:選択処理)。このとき、ユーザは、抽出範囲指定部114で分析結果表示部113に出力されたグラフ中の抽出したい範囲を指定する(指定方法としては、例えば、出力されたグラフが折れ線グラフである場合には、節点の部分をクリックする方法などが用いられる。又は、出力されたグラフが散布図である場合には、プロット範囲をクリックアンドドラッグする方法などが用いられる。)。そして、抽出範囲受付部115は、抽出範囲指定部114で指定された範囲を受け付け、抽出範囲情報とそれに該当する顧客の回答者IDを顧客データ抽出部116に送信する。
顧客データ抽出部116は、対応情報記憶部132に記憶された対応情報に基づいて、抽出範囲受付部115により選択された単語に対応する自由文を含むアンケートであって当該アンケートに回答したユーザが居住する地方が抽出範囲受付部115により選択されたユーザが居住する地方と一致するアンケートに対応付けて属性情報記憶部104に記憶された属性情報を抽出し(ステップS113:属性情報抽出処理)、抽出した属性情報が示す電子メールアドレスをメールマガジン配信装置400に通知する(ステップS114:属性情報抽出処理)。このように、顧客データ抽出部116は、抽出範囲受付部115から抽出範囲情報を受信し、自ら対応情報を元に属性情報記憶部104から顧客の個人情報(例えば、氏名、メールアドレス)を取得し、抽出範囲情報と取得した顧客の個人情報をメールマガジン配信装置400に送信する。ここで、顧客データ抽出部116は、抽出範囲受付部115から抽出範囲に該当する顧客の回答者IDを受信し、回答者IDをキーにして属性情報記憶部104から顧客の個人情報を取得してもよいし、受信した回答者IDをメールマガジン配信装置400に送信してもよい。
メールマガジン配信装置400は抽出範囲情報と顧客の個人情報を受信し(回答者IDを受信した場合は、回答者IDをキーにして属性情報記憶部104から顧客の個人情報を取得し)、抽出範囲情報に合わせてメールマガジンの内容を選択し、顧客の個人情報を用いてメールマガジンを配信する(例えば、出力されたグラフが図15に示したものであり、抽出範囲指定部114で「小龍包」のグラフの「東海」に該当する節点をクリックした場合、「小龍包」に関する情報を住所が「東海」にある顧客に配信する。)。
以上のように、本実施の形態のテキストマイニング装置は、
テキストを含む文書と当該文書の第1の属性及び第2の属性を示す属性情報とを入力する入力部と、
前記入力部により入力された文書を記憶する文書記憶部と、
前記入力部により入力された属性情報を前記文書記憶部に記憶された文書と対応付けて記憶する属性情報記憶部と、
前記属性情報記憶部に記憶された属性情報が示す第1の属性ごとに、前記文書記憶部に記憶された文書に含まれるテキストから単語と単語の共起頻度を示す共起情報とを抽出する共起情報抽出部と、
前記共起情報抽出部により抽出された共起情報に基づいて、前記共起情報抽出部により抽出された単語の概念を数値化した概念ベクトルを計算する概念ベクトル計算部と、
前記概念ベクトル計算部により計算された概念ベクトルの集合を前記第1の属性ごとの概念辞書として記憶する概念辞書記憶部と、
前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書に含まれる単語と当該単語の概念を含むテキストとを対応させる対応情報を生成する対応情報生成部と、
前記対応情報生成部により生成された対応情報を記憶する対応情報記憶部と、
前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書に含まれる単語と前記第1の属性との相関を示す相関情報を生成する相関情報生成部と、
前記相関情報生成部により生成された相関情報を出力する出力部と、
前記出力部により出力された相関情報に基づいて、相関の有る単語と第1の属性との組み合わせを選択する選択部と、
前記対応情報記憶部に記憶された対応情報に基づいて、前記選択部により選択された単語に対応するテキストを含む文書であって当該文書の第1の属性が前記選択部により選択された第1の属性と一致する文書に対応付けて前記属性情報記憶部に記憶された属性情報を抽出し、抽出した属性情報が示す第2の属性を通知する属性情報抽出部とを備えることを特徴とする。
前記テキストマイニング装置は、さらに、
前記相関情報に含める単語の最大数を示す単語数閾値を記憶する単語数閾値記憶部を備え、
前記相関情報生成部は、前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書に含まれる単語のうち、重要度が高い順に、前記単語数閾値記憶部に記憶された単語数閾値以下の数の単語と前記第1の属性との相関を示す相関情報を生成することを特徴とする。
前記テキストは、ユーザにより作成されるものであり、
前記第1の属性は、前記テキストを作成したユーザの居住地域、性別、年齢のいずれかであり、
前記第2の属性は、前記テキストを作成したユーザの電子メールアドレスであり、
前記属性情報抽出部は、抽出した属性情報が示す電子メールアドレスを、メールマガジンを前記ユーザに配信するメールマガジン配信装置に通知することを特徴とする。
また、本実施の形態のテキストマイニングプログラムは、
テキストを含む文書と当該文書の第1の属性及び第2の属性を示す属性情報とを入力する入力処理と、
前記入力処理により入力された文書を記憶装置に記憶する文書記憶処理と、
前記入力処理により入力された属性情報を前記記憶装置に記憶された文書と対応付けて前記記憶装置に記憶する属性情報記憶処理と、
前記記憶装置に記憶された属性情報が示す第1の属性ごとに、前記記憶装置に記憶された文書に含まれるテキストから単語と単語の共起頻度を示す共起情報とを抽出する共起情報抽出処理と、
前記共起情報抽出処理により抽出された共起情報に基づいて、前記共起情報抽出処理により抽出された単語の概念を数値化した概念ベクトルを計算する概念ベクトル計算処理と、
前記概念ベクトル計算処理により計算された概念ベクトルの集合を前記第1の属性ごとの概念辞書として前記記憶装置に記憶する概念辞書記憶処理と、
前記記憶装置に記憶された第1の属性ごとの概念辞書に含まれる単語と当該単語の概念を含むテキストとを対応させる対応情報を生成する対応情報生成処理と、
前記対応情報生成処理により生成された対応情報を前記記憶装置に記憶する対応情報記憶処理と、
前記記憶装置に記憶された第1の属性ごとの概念辞書に含まれる単語と前記第1の属性との相関を示す相関情報を生成する相関情報生成処理と、
前記相関情報生成処理により生成された相関情報を出力する出力処理と、
前記出力処理により出力された相関情報に基づいて、相関の有る単語と第1の属性との組み合わせを選択する選択処理と、
前記記憶装置に記憶された対応情報に基づいて、前記選択処理により選択された単語に対応するテキストを含む文書であって当該文書の第1の属性が前記選択処理により選択された第1の属性と一致する文書に対応付けて前記記憶装置に記憶された属性情報を抽出し、抽出した属性情報が示す第2の属性を通知する属性情報抽出処理とをコンピュータに実行させることを特徴とする。
本実施の形態では、このような特徴により、例えば、顧客の興味や嗜好に即した情報配信を行うためのWebマーケティングを実現することが可能となる。
実施の形態2.
以下では、本実施の形態に係るシステムについて、主に実施の形態1で説明したシステムとの差異を説明する。
本実施の形態に係るシステムの構成は、図1に示した実施の形態1のものと同様である。
図16は、本実施の形態に係るテキストマイニング装置の構成を示すブロック図である。
テキストマイニング装置100は、図2に示した実施の形態1に係るテキストマイニング装置100の各部に加えて、概念ベクトル抽出部120、概念ベクトル記憶部121、概念ベクトル解析部122(概念ベクトル予測部の一例)、予測概念ベクトル記憶部123、予測概念ベクトル変換部124(単語予測部の一例)、予測概念記憶部125を備える。分析部111は相関情報生成部112を含み、分析受付部117は単語数閾値記憶部118、予測時期設定部119、近似閾値記憶部126を含む。概念ベクトル記憶部121、予測概念ベクトル記憶部123、予測概念記憶部125、近似閾値記憶部126は、図示していない記憶装置に実装される。
分析受付部117では、分析条件130(予測したい時期(予測時期)、分析する属性情報、予測概念変換閾値及び分析結果出力閾値)を受け付け、分析部111及び概念ベクトル抽出部120に分析を依頼する。また、分析受付部117は分析部111及び概念ベクトル抽出部120を制御し、予測したい時期を概念ベクトル解析部122に、予測概念変換閾値を予測概念ベクトル変換部124に、分析する属性情報及び分析結果出力閾値を分析部111に送信する。
概念ベクトル抽出部120では、図17に示すように、分析依頼を受けると分析部111を制御して(ステップS201)、分析条件130で指定した分析する属性情報が取り得る属性値と分析条件130で指定した予測したい時期以前のアンケートの実施期間との組み合わせのうち1つに対して、その属性値に該当する顧客がその期間に回答したアンケートごとの、自由文の集まりの中で、最も重要度の高い単語の概念ベクトルを実施したアンケートの数分抽出し(ステップS202)、概念ベクトル記憶部121に格納する(ステップS203)。これを分析条件130で指定した分析する属性情報が取り得る属性値と分析条件130で指定した予測したい時期以前のアンケートの実施期間との組み合わせの数分行う(ステップS204)。概念ベクトル抽出時には、分析条件130で指定した分析する属性情報が取り得る属性値ごとの、アンケートの回答データで作成した概念辞書を用いる。
概念ベクトル解析部122では、図18に示すように、概念ベクトル記憶部121に格納されている分析条件130で指定した分析する属性情報が取り得る属性値のうち1つにおける概念ベクトルを時系列に並べ(ステップS206)、属性値1つに対する概念ベクトルの時系列遷移を読み取る。その遷移から概念ベクトルの時系列遷移の近似関数f(t)を求め(ステップS207)、分析受付部117で受け付けた分析条件130の予測したい時期(年、年月など)における予測概念ベクトルを推測し(ステップS208)、それを予測概念ベクトル記憶部123に格納する(ステップS209)。これを属性情報が取り得る属性値の数分行う(ステップS210)。
予測概念ベクトル変換部124では、図19に示すように、概念ベクトル解析部122で推測した属性値ごとの予測概念ベクトルを当該属性値の概念辞書を用いて、予測概念ベクトルに近い概念ベクトルの概念(単語)に変換する(ステップS212)。変換の際には、予測概念ベクトルといくつかの近傍の概念ベクトルとの、差の絶対値をそれぞれ算出する。その絶対値が分析条件130の予測概念変換閾値(近似閾値の一例)以下である場合、予測概念ベクトルをその概念ベクトルに変換する(予測概念ベクトルは複数の概念ベクトルに変換される場合もある。)。そして、変換した概念ベクトルに該当する概念(単語)を当該属性値の概念辞書より取得し、予測概念として予測概念記憶部125に格納する(ステップS213)。予測概念ベクトルと近傍の概念ベクトルとの、差の絶対値が全て分析条件130の予測概念変換閾値より大きい場合、該当する概念ベクトルはないと判断する。それでも予測概念ベクトルを概念ベクトルに変換したい場合には、本システムのユーザが分析条件130を与える際に分析条件130の予測概念変換閾値を大きくするなどの調節をすることで対処可能である。
分析部111の相関情報生成部112では、図20に示すように、予測概念記憶部125から分析条件130で指定した分析する属性情報と予測概念を抽出し(ステップS214)、抽出した属性情報と予測概念から、属性値ごとの概念辞書を用いて、属性情報と予測概念の相関を示す相関情報を生成する。
ここからは、実施の形態1と同様に、図3に示す質問内容を含む食品製造業のアンケートが用いられた場合の本実施の形態に係るシステムの動作について説明する。
図21、図24は、本実施の形態に係るテキストマイニング装置100の動作を示すフロー図である。
図21に示すように、文書登録受付部101は、自由文を含むアンケートとユーザの性別、電子メールアドレス、及びアンケートの実施年を示す属性情報とを入力する(ステップS301:入力処理)。属性の1つであるアンケートの実施年(作成時期の一例)は、例えば、図5に示したような回答日時や図6に示したようなアンケートの開始日時及び終了日時から(自動的に)判定される。ここで、前提として、アンケートは複数回実施されたものとする。
文書記憶部102は、文書登録受付部101により入力されたアンケートを記憶する(ステップS302:文書記憶処理)。属性情報記憶部104は、文書登録受付部101により入力された属性情報を文書記憶部102に記憶されたアンケートと対応付けて記憶する(ステップS303:属性情報記憶処理)。属性情報とアンケートの対応付けは、属性情報作成部103により行われる。
テキスト解析部105は、属性情報記憶部104に記憶された属性情報が示すユーザの性別ごとに、文書記憶部102に記憶されたアンケートに含まれる自由文から単語と共起情報とを抽出する(ステップS304:共起情報抽出処理)。これにより、図22に示すような登録条件129の概念辞書作成設定で「作成する」と設定した属性情報が取り得る属性値ごとのアンケートの回答データそれぞれが、テキスト解析部105で解析される。解析結果はテキスト解析結果記憶部106に格納される。
概念辞書作成部107は、テキスト解析部105により抽出された共起情報に基づいて、概念ベクトルを計算する(ステップS305:概念ベクトル計算処理)。概念辞書記憶部108は、図23に示すように、概念辞書作成部107により計算された概念ベクトルの集合をユーザの性別ごとの概念辞書として記憶する(ステップS306:概念辞書記憶処理)。このように、概念辞書作成部107では解析結果を用いて、登録条件129の概念辞書作成設定で「作成する」と設定した属性情報が取り得る属性値ごとのアンケートの回答データそれぞれに対して概念辞書を作成し、概念辞書記憶部108に格納する。
属性情報作成部103は、概念辞書記憶部108に記憶されたユーザの性別ごとの概念辞書に含まれる単語と当該単語の概念を含む自由文とを対応させる対応情報を生成する(ステップS310:対応情報生成処理)。属性情報記憶部104の対応情報記憶部132は、属性情報作成部103により生成された対応情報を記憶する(ステップS311:対応情報記憶処理)。
図24に示すように、分析受付部117の予測時期設定部119は、概念ベクトルを予測する年(予測時期の一例)を設定する(ステップS314:予測時期設定処理)。分析受付部117の近似閾値記憶部126は、2つの概念ベクトルが近似するかどうかを判断するための近似閾値(予測概念変換閾値)を記憶する(ステップS315:近似閾値記憶処理)。分析受付部117の単語数閾値記憶部118は、相関情報に含める単語の最大数を示す単語数閾値(分析結果出力閾値)を記憶する(ステップS316:単語数閾値記憶処理)。このように、分析受付部117は、図25に示すような分析条件130を入力し、分析部111及び概念ベクトル抽出部120に分析依頼をする。その際、予測したい時期を概念ベクトル解析部122に、予測概念変換閾値を予測概念ベクトル変換部124に、分析する属性情報及び分析結果出力閾値を分析部111に送信する。
概念ベクトル抽出部120は、属性情報記憶部104に記憶された属性情報が示すアンケートの実施年ごとに、概念辞書記憶部108に記憶されたユーザの性別ごとの概念辞書に含まれる単語のうち、重要度が最も高い単語の概念ベクトルをそれぞれの概念辞書から抽出する(ステップS317:概念ベクトル抽出処理)。抽出された概念ベクトルは概念ベクトル記憶部121に記憶される。このとき、概念ベクトル記憶部121には、図26、図27に示すようなデータ(A、Aなどはそれぞれ単語を、e1、e2などは次元を、U11、U12、U13の組み合わせ、U21、U22、U23の組み合わせなどは概念ベクトルを表す。)が記憶される。このように、概念ベクトル抽出部120は分析依頼を受け、分析部111を制御して分析条件130で指定した分析する属性情報が取り得る属性値のうち1つに対して、その属性値に該当する顧客が回答したアンケートごと(アンケートIDごと、即ち、この例では期間ごと)の自由文の集まりの中で、重要度の高い単語の概念ベクトルを、実施したアンケートの数分抽出し、概念ベクトル記憶部121に格納する(抽出時には、分析条件130で指定した分析する属性情報が取り得る属性値ごとの概念辞書を用いる。)。このとき、概念ベクトル抽出部120はこれを分析条件130で指定した分析する属性情報が取り得る属性値の数分行う。
概念ベクトル解析部122は、ユーザの性別ごとに、概念ベクトル抽出部120により抽出されたアンケートの実施年ごとの概念ベクトルに基づいて、予測時期設定部119により設定された年の概念ベクトルを予測する(ステップS318:概念ベクトル予測処理)。このとき、概念ベクトル解析部122は、概念ベクトル抽出部120の処理が完了したことを確認し、分析条件130で指定した分析する属性情報が取り得る属性値のうち1つにおけるアンケートIDごとの概念ベクトルを時系列に並べ、概念ベクトルの時系列遷移を読み取って遷移の近似関数f(t)を求める。そして、分析受付部117から受信した予測したい時期(年、年月など)を用いて近似関数f(t)から予測概念ベクトルを推測し、図28、図29に示すように、それを予測概念ベクトル記憶部123に格納する。このとき、概念ベクトル解析部122はこれを分析条件130で指定した分析する属性情報が取り得る属性値の数分行う。
概念ベクトル解析部122において近似関数を求める方法としては、例えば数値積分による外挿法(http://grape.astron.s.u−tokyo.ac.jp/〜makino/kougi/system_suuri4_1999/note6/node1.html参照。)を用いることができる。
概念ベクトル解析部122は、概念ベクトルがn個の次元を持つとき、n次元それぞれに対して数値積分による外挿法を用いて、時間tを変数としたn個の近似関数を求める(近似関数を求める方法はこれに限らない。)。そして、分析条件130で与えた予測したい時期を時間tに代入し、予測概念ベクトルを求める。例えば、図30(簡単に示すため、2次元で表現している。)に示した例では、2002年、2003年、2004年とアンケートを実施して得られた男性又は女性の顧客のアンケートの1つの質問に対する回答データから抽出された単語のうち、最も重要度が高い単語の概念ベクトルを用いて、2002年から2004年への推移を読み取り、2005年には、2002年、2003年、2004年に実施したアンケートと同様な質問に対してどのような回答をするか(回答から抽出される単語のうち、最も重要度が高くなる単語がどのような概念ベクトルを持つか)を推測している。
次に、予測概念ベクトル変換部124は、概念辞書記憶部108に記憶されたユーザの性別ごとの概念辞書から、概念ベクトル解析部122により予測された概念ベクトルとの差の絶対値が近似閾値以下の概念ベクトルを選択し、選択した概念ベクトルに該当する単語を抽出する(ステップS319:単語予測処理)。このように、予測概念ベクトル変換部124では概念ベクトル解析部122の処理が完了したことを確認し、予測概念ベクトル記憶部123内の予測概念ベクトルを、概念辞書記憶部108内に格納されている属性ごとの概念辞書を用いて近い概念ベクトルの概念(単語)に変換する。変換する際に、予測概念ベクトルと近傍の概念ベクトルとの差の絶対値をそれぞれ算出する。その絶対値が分析条件130で与えた予測概念変換閾値以下であるとき、それに該当する概念ベクトルを抽出し、その概念(単語)に変換する。そして、図31に示すように、得られた概念(単語)を予測概念として予測概念記憶部125に格納する。ここで、図31に示すように、抽出する単語は複数あってもよい。図31の例では、性別順に、かつ、予測概念ベクトルとの差の絶対値が小さい概念ベクトルの単語から順に予測概念を表示しており、差の絶対値が小さいものは、男性の場合はどれも丼の料理であり、女性の場合はどれも菓子であるというように似たもの(概念)が予測されている。
予測概念ベクトル変換部124において予測概念ベクトルを変換する方法としては、以下のような方法を用いることができる。
予測概念ベクトル変換部124は、概念ベクトル解析部122で求めた予測概念ベクトルを検索ベクトルとし、ユーザの性別ごとの概念辞書を用いて、予測概念ベクトルを概念(単語)に変換する。変換する際には予測概念ベクトルと近い概念ベクトルに変換する。例えば、図32(簡単に示すため、2次元で表現している。)のように変換したい予測概念ベクトルの近傍に概念A、概念B、2つの概念ベクトルが存在したとする。この際、予測概念ベクトルと概念A、概念Bそれぞれの予測概念ベクトルとの差の絶対値をΔa、Δbとすると、Δa<Δbであり、かつΔaの絶対値が分析条件130で与えた予測概念変換閾値より小さい場合、予測概念ベクトルを該当する予測概念として概念Aに変換する。
次に、分析部111の相関情報生成部112は、予測概念ベクトル変換部124により抽出された単語のうち、概念ベクトル解析部122により予測された概念ベクトルとの差の絶対値が小さい概念ベクトルの単語から順(差の絶対値が小さい順)に、単語数閾値以下の数の単語とユーザの性別との相関を示す相関情報を生成する(ステップS320:相関情報生成処理)。分析結果表示部113は、相関情報生成部112により生成された相関情報をグラフに表示する(ステップS321:出力処理)。例えば、分析結果表示部113は図33に示すような分析結果をグラフに出力する。抽出範囲受付部115は、分析結果表示部113によりグラフに表示された相関情報に基づいて、相関の有る単語とユーザの性別との組み合わせを選択する(ステップS322:選択処理)。
顧客データ抽出部116は、対応情報記憶部132に記憶された対応情報に基づいて、抽出範囲受付部115により選択された単語に対応する自由文を含むアンケートであって当該アンケートに回答したユーザの性別が抽出範囲受付部115により選択されたユーザの性別と一致するアンケートに対応付けて属性情報記憶部104に記憶された属性情報を抽出し(ステップS323:属性情報抽出処理)、抽出した属性情報が示す電子メールアドレスをメールマガジン配信装置400に通知する(ステップS324:属性情報抽出処理)。
メールマガジン配信装置400は抽出範囲情報と顧客の個人情報を受信し、抽出範囲情報に合わせてメールマガジンの内容を選択し、顧客の個人情報を用いてメールマガジンを配信する(例えば、出力されたグラフが図33に示したものであり、抽出範囲指定部114で「鉄火丼」のグラフの「男性」に該当する節点をクリックした場合、「鉄火丼」に関する情報を「男性」の顧客に配信する。)。
このように、本実施の形態では、アンケート作成/公開装置200と、テキストマイニング装置100と、メールマガジン配信装置400から構成されているWebマーケティングシステムにおいて、アンケート作成/公開装置200で作成・公開したアンケートから得られた顧客の個人情報とアンケートの質問に対する意見(自由文)を回答データ記憶部204に蓄積する。そして、回答データ記憶部204に蓄積した情報からテキストマイニング装置100により顧客一人一人の意見(例えば、好きな商品など)の傾向を導出し、その傾向から近い未来に顧客がどのような意見を持つか(例えば、どのような商品を気に入るか)を予測する。その予測結果を用いて顧客データを分類し、分類内容に合わせた情報を顧客に対して配信することで、顧客の意見・嗜好を予測したマーケティングが実施できる。また、この流れを繰り返し(例えば、年ごとに)行うことでアンケートから得られる顧客の個人情報とアンケートの質問に対する意見(自由文)が蓄積されていき、図30にて説明した近似関数の精度が増し、顧客の意見の傾向が大きく変化してもそれに合わせた予測を行うため、先を読むマーケティングサイクルが実現できる。
本実施の形態では、予測時期及びアンケートの実施期間(実施年)の期間の単位を「年」としているが、例えば、「月」、「週」、「日」など、他の期間を単位としてもよい。
以上のように、本実施の形態のテキストマイニング装置において、
前記属性情報は、さらに、前記文書の第3の属性として前記テキストが作成された作成時期を示し、
前記テキストマイニング装置は、さらに、
概念ベクトルを予測する予測時期を設定する予測時期設定部と、
前記属性情報記憶部に記憶された属性情報が示す作成時期ごとに、前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書に含まれる単語のうち、重要度が最も高い単語の概念ベクトルをそれぞれの概念辞書から抽出する概念ベクトル抽出部と、
前記属性情報記憶部に記憶された属性情報が示す第1の属性ごとに、前記概念ベクトル抽出部により抽出された作成時期ごとの概念ベクトルに基づいて、前記予測時期設定部により設定された予測時期の概念ベクトルを予測する概念ベクトル予測部と、
前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書から、前記概念ベクトル予測部により予測された概念ベクトルに近似する概念ベクトルを選択し、選択した概念ベクトルに該当する単語を抽出する単語予測部とを備え、
前記相関情報生成部は、前記単語予測部により抽出された単語と前記第1の属性との相関を示す相関情報を生成することを特徴とする。
前記テキストマイニング装置は、さらに、
2つの概念ベクトルが近似するかどうかを判断するための近似閾値を記憶する近似閾値記憶部を備え、
前記単語予測部は、前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書から、前記概念ベクトル予測部により予測された概念ベクトルとの差の絶対値が前記近似閾値記憶部に記憶された近似閾値以下の概念ベクトルを選択し、選択した概念ベクトルに該当する単語を抽出することを特徴とする。
また、本実施の形態のテキストマイニングプログラムにおいて、
前記属性情報は、さらに、前記文書の第3の属性として前記テキストが作成された作成時期を示し、
前記テキストマイニングプログラムは、さらに、
概念ベクトルを予測する予測時期を設定する予測時期設定処理と、
前記記憶装置に記憶された属性情報が示す作成時期ごとに、前記記憶装置に記憶された第1の属性ごとの概念辞書に含まれる単語のうち、重要度が最も高い単語の概念ベクトルをそれぞれの概念辞書から抽出する概念ベクトル抽出処理と、
前記記憶装置に記憶された属性情報が示す第1の属性ごとに、前記概念ベクトル抽出処理により抽出された作成時期ごとの概念ベクトルに基づいて、前記予測時期設定処理により設定された予測時期の概念ベクトルを予測する概念ベクトル予測処理と、
前記記憶装置に記憶された第1の属性ごとの概念辞書から、前記概念ベクトル予測処理により予測された概念ベクトルに近似する概念ベクトルを選択し、選択した概念ベクトルに該当する単語を抽出する単語予測処理とをコンピュータに実行させ、
前記相関情報生成処理は、前記単語予測処理により抽出された単語と前記第1の属性との相関を示す相関情報を生成することを特徴とする。
本実施の形態では、このような特徴により、例えば、顧客の興味や嗜好を先読みした情報配信を行うためのWebマーケティングを実現することが可能となる。
実施の形態3.
以下では、本実施の形態に係るシステムについて、主に実施の形態1で説明したシステムとの差異を説明する。
本実施の形態に係るシステムの構成は、図1に示した実施の形態1のものと同様である。
図34は、本実施の形態に係るテキストマイニング装置の構成を示すブロック図である。
分析部111は相関情報生成部112、単語抽出部128を含み、分析受付部117は単語数閾値記憶部118、属性情報設定部127を含む。
ここからは、実施の形態1と同様に、図3に示す質問内容を含む食品製造業のアンケートが用いられた場合の本実施の形態に係るシステムの動作について説明する。
図35、図38、図44は、本実施の形態に係るテキストマイニング装置100の動作を示すフロー図である。
図35に示すように、文書登録受付部101は、自由文を含むアンケートとユーザの年代、電子メールアドレス、及びアンケートの実施期間を示す属性情報とを入力する(ステップS401:入力処理)。属性の1つであるユーザの年代は、例えば、図5に示したようなユーザの生年から(自動的に)判定され、アンケートの実施期間は、例えば、図5に示したような回答日時や図6に示したようなアンケートIDから定まるアンケートの開始日時及び終了日時などから(自動的に)判定される。これらの属性は、図3に示したようなアンケートページに顧客が直接入力してもよい。ここで、前提として、アンケートは複数回実施されたものとする。
文書記憶部102は、文書登録受付部101により入力されたアンケートを記憶する(ステップS402:文書記憶処理)。属性情報記憶部104は、文書登録受付部101により入力された属性情報を文書記憶部102に記憶されたアンケートと対応付けて記憶する(ステップS403:属性情報記憶処理)。属性情報とアンケートの対応付けは、属性情報作成部103により行われる。
テキスト解析部105は、属性情報記憶部104に記憶された属性情報が示すユーザの年代及びアンケートの実施期間の組み合わせごとに、文書記憶部102に記憶されたアンケートに含まれる自由文から単語と共起情報とを抽出する(ステップS404:共起情報抽出処理)。これにより、図36に示すような登録条件129の概念辞書作成設定で「作成する」と設定した属性情報が取り得る属性値(ここでは、属性値や属性値から導かれる他の属性値の組み合わせ)ごとのアンケートの回答データそれぞれが、テキスト解析部105で解析される。解析結果はテキスト解析結果記憶部106に格納される。
概念辞書作成部107は、テキスト解析部105により抽出された共起情報に基づいて、概念ベクトルを計算する(ステップS405:概念ベクトル計算処理)。概念辞書記憶部108は、図37に示すように、概念辞書作成部107により計算された概念ベクトルの集合をユーザの年代及びアンケートの実施期間の組み合わせごとの概念辞書として記憶する(ステップS406:概念辞書記憶処理)。このように、概念辞書作成部107では解析結果を用いて、登録条件129の概念辞書作成設定で「作成する」と設定した属性情報が取り得る属性値ごとのアンケートの回答データそれぞれに対して概念辞書を作成し、概念辞書記憶部108に格納する。
属性情報作成部103は、概念辞書記憶部108に記憶されたユーザの年代及びアンケートの実施期間の組み合わせごとの概念辞書に含まれる単語と当該単語の概念を含む自由文とを対応させる対応情報を生成する(ステップS407:対応情報生成処理)。属性情報記憶部104の対応情報記憶部132は、属性情報作成部103により生成された対応情報を記憶する(ステップS408:対応情報記憶処理)。
図38に示すように、分析受付部117の単語数閾値記憶部118は、相関情報に含める単語の最大数を示す単語数閾値(分析結果出力閾値)を記憶する(ステップS409:単語数閾値記憶処理)。このように、分析受付部117は、図39に示すような分析条件130を入力し、分析部111に分析依頼をする。そして、分析する属性情報及び分析結果出力閾値を分析部111に送信する。
分析部111の相関情報生成部112は、概念辞書記憶部108に記憶されたユーザの年代及びアンケートの実施期間の組み合わせごとの概念辞書に含まれる単語のうち、重要度が高い順に、単語数閾値以下の数の単語とユーザの年代及びアンケートの実施期間の組み合わせとの相関を示す相関情報を生成する(ステップS410:相関情報生成処理)。このように、分析部111は分析依頼を受け、分析条件130で指定した分析する2種類の属性情報が取り得る属性値の組み合わせのうち1つに対して、その属性値に該当する顧客が回答した自由文の集まりの中で、重要度の高い単語を重要度順に上から分析条件130で指定した分析結果出力閾値分抽出し、抽出した概念(単語)を分析結果表示部113へ送信する(抽出時には、分析条件130で指定した分析する属性情報が取り得る属性値の組み合わせごとの概念辞書を用いる。)。分析部111はこれを分析条件130で指定した分析する属性情報が取り得る属性値の数分行う。このとき、例えば、図40、図41、図42に示すようなデータ(相関情報)が抽出され、分析結果表示部113に送信される。
分析結果表示部113は、相関情報生成部112により生成された相関情報をグラフに表示する(ステップS411:出力処理)。例えば、分析結果表示部113は分析部111から概念(単語)を受信し、図43に示すような分析結果をグラフに出力する。
抽出範囲受付部115は、分析結果表示部113によりグラフに表示された相関情報に基づいて、相関の有る単語とユーザの年代及びアンケートの実施期間の組み合わせとの組み合わせを選択し(ステップS412:選択処理)、選択したアンケートの実施期間に、選択した単語に対応するテキストを作成したユーザであって、当該ユーザの年代が選択したユーザの年代と一致するユーザを識別する回答者ID(ユーザ識別情報の一例)を取得する(ステップS413:選択処理)。このとき、ユーザは、抽出範囲指定部114で分析結果表示部113に出力されたグラフ中の抽出したい範囲を指定する(指定方法としては、例えば、出力されたグラフが折れ線グラフである場合には、節点の部分をクリックする方法などが用いられる。又は、出力されたグラフが散布図である場合には、プロット範囲をクリックアンドドラッグする方法などが用いられる。)。ここでは、例として、「プルコギ」の属性値「40代・2001〜2010」における節点をクリックしたとする。そして、抽出範囲受付部115は、抽出範囲指定部114で指定された範囲を受け付け、抽出範囲情報とそれに該当する顧客の回答者IDを顧客データ抽出部116に送信する。
図44に示したように、分析受付部117の属性情報設定部127は、抽出範囲受付部115により選択されたユーザの年代及びアンケートの実施期間から同じ年数分(ここでは例として、30年(3期間)とするが、10年(1期間)、20年(2期間)などとしてもよい。この設定は、予め記憶装置などを用いて設定されていてもよいし、分析条件130に含めて入力されてもよい。)遡った年代及び期間の組み合わせ(抽出範囲受付部115により選択されたユーザの年代及びアンケートの実施期間の組み合わせと異なるユーザの年代及びアンケートの実施期間の組み合わせ)を示す他の属性情報を設定する(ステップS414:属性情報設定処理)。
分析部111の単語抽出部128は、抽出範囲受付部115により取得された回答者IDで特定されるユーザにより作成された自由文に対応する単語で、かつ、概念辞書記憶部108に記憶されたユーザの年代及びアンケートの実施期間の組み合わせごとの概念辞書であって属性情報設定部127により設定された他の属性情報が示すユーザの年代及びアンケートの実施期間の組み合わせの概念辞書に含まれる単語のうち、重要度が最も高い単語を抽出する(重要度が高い単語を複数抽出してもよい。)(ステップS415:単語抽出処理)。上記例では、分析部111が、図43に示したグラフにおいて、「プルコギ」と回答し、属性値「40代・2001〜2010」(抽出範囲受付部115により選択されたユーザの年代及びアンケートの実施期間の組み合わせの一例)に該当する顧客の中で、属性値「10代・1971〜1980」(属性情報設定部127により設定された他の属性情報が示すユーザの年代及びアンケートの実施期間の組み合わせの一例)にも該当する顧客を概念(単語)と属性を合わせて検索して絞り込む。そして、絞り込んだ顧客により1971年〜1980年の間に回答された自由文の集まりから重要度が高い概念(単語)を抽出する。
顧客データ抽出部116は、対応情報記憶部132に記憶された対応情報に基づいて、単語抽出部128により抽出された単語に対応する自由文を含むアンケート(このアンケートに回答したユーザの年代とアンケートの実施期間との組み合わせは、属性情報設定部127により設定された他の属性情報が示すユーザの年代とアンケートの実施期間との組み合わせと一致する。つまり、上記例では、属性値が「10代・1971〜1980」であるアンケートで、単語抽出部128により抽出された単語(概念)を含むものとなる。)に対応付けて属性情報記憶部104に記憶された属性情報を抽出し(ステップS416:属性情報抽出処理)、抽出した属性情報が示す電子メールアドレスをメールマガジン配信装置に通知する(ここでは、抽出した属性情報が示す電子メールアドレスは最新のものに更新されていることを前提としている。)(ステップS417:属性情報抽出処理)。上記例では、1971年〜1980年に10代であった顧客は、2001年〜2010年には40代になっているはずであり、2001年〜2010年にアンケートに回答していなくても、1971年〜1980年に重要度が最も高かった単語である「カレー」と回答した顧客は「プルコギ」と回答する傾向があるとみなし、マーケティングの対象顧客とするのである(本実施の形態では、同じ回答者が、各期間・年代の組み合わせの中で、多数存在していることを前提としている。例えば、期間(2001〜2010)に40代で回答した人の多くが、期間(1971〜1980)に10代で回答している。)。
ここで、顧客データ抽出部116は自動的に属性情報を抽出するのではなく、ユーザによる操作に基づいて属性情報を抽出してもよい。この場合、分析結果表示部113は、分析部111が属性値「10代・1971〜1980」に該当する顧客を検索して絞込み、抽出した概念(単語)を概念検索した検索の結果を図45に示すようなグラフに出力する。ユーザは、抽出範囲指定部114で分析結果表示部113に出力されたグラフ中の抽出したい範囲を指定する(図45の例においては、表示されている点を指定する。)。抽出範囲受付部115は、抽出範囲指定部114で指定された範囲を受け付け、抽出範囲情報とそれに該当する顧客の回答者IDを顧客データ抽出部116に送信する。顧客データ抽出部116は、抽出範囲情報とそれに該当する顧客の回答者IDを受信し、回答者IDをキーにして属性情報記憶部104から顧客の個人情報(例えば、氏名、メールアドレス)を取得する。そして、抽出範囲情報と取得した顧客の個人情報をメールマガジン配信装置400に送信する。
メールマガジン配信装置400は抽出範囲情報と顧客の個人情報を受信し、抽出範囲情報に合わせてメールマガジンの内容を選択し、顧客の個人情報を用いてメールマガジンを配信する(上記例では、結果として、属性値「40代・2001〜2010」で「プルコギ」と回答した顧客と、2001年〜2010年にアンケートに回答しておらず、属性値「10代・1971〜1980」かつ「カレー」と回答した顧客に対して、メールマガジンを配信することになる。)。
本実施の形態では、ユーザの年代及びアンケートの実施期間の単位を10年としているが、例えば、1年、5年など、他の期間を単位としてもよい。
以上のように、本実施の形態のテキストマイニング装置において、
前記属性情報は、さらに、前記文書の第3の属性を示し、
前記共起情報抽出部は、前記属性情報記憶部に記憶された属性情報が示す第1の属性と第3の属性との組み合わせごとに、前記文書記憶部に記憶された文書に含まれるテキストから単語と共起情報とを抽出し、
前記概念辞書記憶部は、前記概念ベクトル計算部により計算された概念ベクトルの集合を前記組み合わせごとの概念辞書として記憶し、
前記相関情報生成部は、前記概念辞書記憶部に記憶された組み合わせごとの概念辞書に含まれる単語と前記組み合わせとの相関を示す相関情報を生成することを特徴とする。
前記テキストマイニング装置は、さらに、
前記選択部により選択された第1の属性と異なる第1の属性を示す他の属性情報を設定する属性情報設定部と、
前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書であって前記属性情報設定部により設定された他の属性情報が示す第1の属性の概念辞書に含まれる単語のうち、重要度が最も高い単語を抽出する単語抽出部とを備え、
前記属性情報抽出部は、さらに、前記対応情報記憶部に記憶された対応情報に基づいて、前記単語抽出部により抽出された単語に対応するテキストを含む文書であって当該文書の第1の属性が前記属性情報設定部により設定された他の属性情報が示す第1の属性と一致する文書に対応付けて前記属性情報記憶部に記憶された属性情報を抽出することを特徴とする。
前記テキストは、ユーザにより作成されるものであり、
前記第1の属性は、前記テキストを作成したユーザの年代と前記テキストが作成された期間との組み合わせであり、
前記他の属性情報は、前記第1の属性として、前記選択部により選択された年代と異なる年代と前記選択部により選択された期間と異なる期間との組み合わせを示し、
前記選択部は、さらに、選択した期間に選択した単語に対応するテキストを作成したユーザであって当該ユーザの年代が選択したユーザの年代と一致するユーザを識別するユーザ識別情報を取得し、
前記単語抽出部は、前記対応情報記憶部に記憶された対応情報に基づいて、前記選択部により取得されたユーザ識別情報で特定されるユーザにより作成されたテキストに対応する単語で、かつ、前記概念辞書記憶部に記憶された第1の属性ごとの概念辞書であって前記属性情報設定部により設定された他の属性情報が示す第1の属性の概念辞書に含まれる単語のうち、重要度が最も高い単語を抽出することを特徴とする。
前記他の属性情報が示す年代と期間とは、前記選択部により選択された年代と期間とから同じ年数分遡ったものであることを特徴とする。
また、本実施の形態のテキストマイニングプログラムにおいて、
前記テキストマイニングプログラムは、さらに、
前記選択処理により選択された第1の属性と異なる第1の属性を示す他の属性情報を設定する属性情報設定処理と、
前記記憶装置に記憶された第1の属性ごとの概念辞書であって前記属性情報設定処理により設定された他の属性情報が示す第1の属性の概念辞書に含まれる単語のうち、重要度が最も高い単語を抽出する単語抽出処理とをコンピュータに実行させ、
前記属性情報抽出処理は、さらに、前記記憶装置に記憶された対応情報に基づいて、前記単語抽出処理により抽出された単語に対応するテキストを含む文書であって当該文書の第1の属性が前記属性情報設定処理により設定された他の属性情報が示す第1の属性と一致する文書に対応付けて前記記憶装置に記憶された属性情報を抽出することを特徴とする。
本実施の形態では、このような特徴により、例えば、アンケートに回答した顧客の興味や嗜好を分析した結果を利用して、アンケートに回答していない他の顧客の興味や嗜好をより高い確率で予想し、顧客の興味や嗜好に即した情報配信を行うためのWebマーケティングを実現することが可能となる。
図46は、上記実施の形態におけるテキストマイニング装置のハードウェア構成の一例を示す図である。
図46において、テキストマイニング装置100は、プログラムを実行するCPU(Central Processing Unit)911を備えている。CPU911は、バス912を介してROM913、RAM914、通信ボード915、CRT表示装置901、K/B902、マウス903、FDD(Flexible Disk Drive)904、磁気ディスク装置920、CDD905、プリンタ装置906、スキャナ装置907と接続されている。
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920は、不揮発性メモリの一例である。これらは、記憶装置あるいは「〜記憶部」の一例である。
通信ボード915は、LAN(ローカルエリアネットワーク)などに接続されている。通信ボード915は、入力部、出力部の一例である。
例えば、K/B902、スキャナ装置907、FDD904などは、入力部の一例である。また、例えば、CRT表示装置901などは、出力部の一例である。
ここで、通信ボード915は、LANに限らず、直接、インターネット300、あるいはISDN(Integrated Services Digital Network)などのWAN(ワイドエリアネットワーク)に接続されていても構わない。直接、インターネット300、あるいはISDNなどのWANに接続されていない場合、テキストマイニング装置100は、ゲートウェイなどを介してインターネット300、あるいはISDNなどのWANに接続される。
磁気ディスク装置920には、オペレーティングシステム(OS)921、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。プログラム群923は、CPU911、OS921、ウィンドウシステム922により実行される。
上記プログラム群923には、上述した実施の形態の説明において「〜部」として説明する機能を実行するプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。
例えば、CPU911などは、制御部あるいは制御装置の一例である。
ファイル群924には、上述した実施の形態の説明において、「〜情報」、「〜結果」、「〜条件」として説明するものが、ファイル又はその一部として記憶されている。
また、上述した実施の形態の説明において説明するフローチャートの矢印の部分は主としてデータの入出力を示し、そのデータの入出力のためにデータは、磁気ディスク装置920、FD(Flexible Disk)、光ディスク、CD(コンパクトディスク)、MD(ミニディスク)、DVD(Digital Versatile Disk)などのその他の記録媒体に記録される。あるいは、信号線やその他の伝送媒体により伝送される。
また、上述した実施の形態の説明において「〜部」として説明するものは、ROM913に記憶されたファームウェアで実現されていても構わない。あるいは、ソフトウェアのみ、あるいは、ハードウェアのみ、あるいは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。
また、上述した実施の形態を実施するプログラムは、磁気ディスク装置920、FD、光ディスク、CD、MD、DVDなどのその他の記録媒体による記録装置を用いて記憶されても構わない。
実施の形態1に係るシステムの構成を示すブロック図である。 実施の形態1に係るテキストマイニング装置の構成を示すブロック図である。 アンケートの質問内容の一例を示す表である。 アンケートページの一例を示す図である。 アンケート作成/公開装置の回答データ記憶部に記憶される回答データの一例を示す表である。 アンケート作成/公開装置の回答データ記憶部に記憶される回答データの一例を示す表である。 実施の形態1に係るテキストマイニング装置の動作を示すフロー図である。 実施の形態1における登録条件の一例を示す表である。 実施の形態1における概念辞書の作成のイメージを示す図である。 実施の形態1に係るテキストマイニング装置の動作を示すフロー図である。 実施の形態1における分析条件の一例を示す表である。 実施の形態1に係るテキストマイニング装置の分析部により抽出されるデータの一例を示す表である。 実施の形態1に係るテキストマイニング装置の分析部により抽出されるデータの一例を示す表である。 実施の形態1に係るテキストマイニング装置の分析部により抽出されるデータの一例を示す表である。 実施の形態1に係るテキストマイニング装置の分析結果表示部により表示されるグラフの一例を示す図である。 実施の形態2に係るテキストマイニング装置の構成を示すブロック図である。 実施の形態2における概念ベクトル抽出部の動作を示すフロー図である。 実施の形態2における概念ベクトル解析部の動作を示すフロー図である。 実施の形態2における予測概念ベクトル変換部の動作を示すフロー図である。 実施の形態2における相関情報生成部の動作を示すフロー図である。 実施の形態2に係るテキストマイニング装置の動作を示すフロー図である。 実施の形態2における登録条件の一例を示す表である。 実施の形態2における概念辞書の作成のイメージを示す図である。 実施の形態2に係るテキストマイニング装置の動作を示すフロー図である。 実施の形態2における分析条件の一例を示す表である。 実施の形態2に係るテキストマイニング装置の概念ベクトル記憶部に記憶されるデータの一例を示す表である。 実施の形態2に係るテキストマイニング装置の概念ベクトル記憶部に記憶されるデータの一例を示す表である。 実施の形態2に係るテキストマイニング装置の予測概念ベクトル記憶部に記憶されるデータの一例を示す表である。 実施の形態2に係るテキストマイニング装置の予測概念ベクトル記憶部に記憶されるデータの一例を示す表である。 実施の形態2における予測概念ベクトルの求め方のイメージを示す図である。 実施の形態2に係るテキストマイニング装置の予測概念記憶部に記憶されるデータの一例を示す表である。 実施の形態2における予測概念ベクトルの変換のイメージを示す図である。 実施の形態2に係るテキストマイニング装置の分析結果表示部により表示されるグラフの一例を示す図である。 実施の形態3に係るテキストマイニング装置の構成を示すブロック図である。 実施の形態3に係るテキストマイニング装置の動作を示すフロー図である。 実施の形態3における登録条件の一例を示す表である。 実施の形態3における概念辞書の作成のイメージを示す図である。 実施の形態3に係るテキストマイニング装置の動作を示すフロー図である。 実施の形態3における分析条件の一例を示す表である。 実施の形態3に係るテキストマイニング装置の分析部により抽出されるデータの一例を示す表である。 実施の形態3に係るテキストマイニング装置の分析部により抽出されるデータの一例を示す表である。 実施の形態3に係るテキストマイニング装置の分析部により抽出されるデータの一例を示す表である。 実施の形態3に係るテキストマイニング装置の分析結果表示部により表示されるグラフの一例を示す図である。 実施の形態3に係るテキストマイニング装置の動作を示すフロー図である。 実施の形態3に係るテキストマイニング装置の分析結果表示部により表示されるグラフの一例を示す図である。 各実施の形態におけるテキストマイニング装置のハードウェア構成の一例を示す図である。 従来のシステムの構成を示すブロック図である。 従来の属性情報による顧客データ抽出の例を示す図である。
符号の説明
100 テキストマイニング装置、101 文書登録受付部、102 文書記憶部、103 属性情報作成部、104 属性情報記憶部、105 テキスト解析部、106 テキスト解析結果記憶部、107 概念辞書作成部、108 概念辞書記憶部、109 文書索引作成部、110 文書索引記憶部、111 分析部、112 相関情報生成部、113 分析結果表示部、114 抽出範囲指定部、115 抽出範囲受付部、116 顧客データ抽出部、117 分析受付部、118 単語数閾値記憶部、119 予測時期設定部、120 概念ベクトル抽出部、121 概念ベクトル記憶部、122 概念ベクトル解析部、123 予測概念ベクトル記憶部、124 予測概念ベクトル変換部、125 予測概念記憶部、126 近似閾値記憶部、127 属性情報設定部、128 単語抽出部、129 登録条件、130 分析条件、131 抽出条件、132 対応情報記憶部、200 アンケート作成/公開装置、201 アンケート作成部、202 アンケート情報記憶部、203 アンケート公開/回答受付部、204 回答データ記憶部、205 通信部、206 アンケート回答データ抽出部、300 インターネット、400 メールマガジン配信装置、500 顧客データ抽出装置、501 抽出条件受付部、502 顧客データ抽出部、503 顧客データ表示部、901 CRT表示装置、902 K/B、903 マウス、904 FDD、905 CDD、906 プリンタ装置、907 スキャナ装置、911 CPU、912 バス、913 ROM、914 RAM、915 通信ボード、920 磁気ディスク装置、921 OS、922 ウィンドウシステム、923 プログラム群、924 ファイル群。

Claims (6)

  1. 複数の作成時期に複数のユーザによってそれぞれ作成された複数のテキストと、各テキストを作成したユーザの属性と当該ユーザ連絡先と当該テキストが作成された作成時期とを示す属性情報とを入力する入力部と、
    前記入力部により入力された複数のテキストを記憶する文書記憶部と、
    前記入力部により入力された属性情報を前記文書記憶部に記憶された複数のテキストと対応付けて記憶する属性情報記憶部と、
    前記属性情報記憶部に記憶された属性情報が示すユーザの属性と作成時期との組み合わせごとに、前記文書記憶部に記憶された複数のテキストから単語と単語の共起頻度を示す共起情報とを抽出する共起情報抽出部と、
    前記属性情報記憶部に記憶された属性情報が示すユーザの属性と作成時期との組み合わせごとに、前記共起情報抽出部により抽出された共起情報に基づいて、前記共起情報抽出部により抽出された単語の概念を数値化した概念ベクトルを当該単語に該当する概念ベクトルとして計算する概念ベクトル計算部と、
    前記属性情報記憶部に記憶された属性情報が示すユーザの属性ごとに、前記概念ベクトル計算部により計算された各作成時期の概念ベクトルの集合を概念辞書として記憶する概念辞書記憶部と、
    概念ベクトルを予測する予測時期を設定する予測時期設定部と、
    前記属性情報記憶部に記憶された属性情報が示すユーザの属性と作成時期との組み合わせごとに、前記概念辞書記憶部に記憶された概念辞書に含まれる概念ベクトルのうち、所定の単語に該当する概念ベクトルを抽出する概念ベクトル抽出部と、
    前記属性情報記憶部に記憶された属性情報が示すユーザの属性ごとに、前記概念ベクトル抽出部により抽出された各作成時期の概念ベクトルに基づいて、前記予測時期設定部により設定された予測時期の概念ベクトルを予測する概念ベクトル予測部と、
    前記属性情報記憶部に記憶された属性情報が示すユーザの属性ごとに、前記概念辞書記憶部に記憶された概念辞書から、前記概念ベクトル予測部により予測された概念ベクトルに近似する概念ベクトルを選択し、選択した概念ベクトルに該当する単語を抽出する単語予測部と、
    任意のユーザの属性と当該ユーザの属性について前記単語予測部により抽出された単語との組み合わせを抽出範囲情報として選択する選択部と、
    記選択部により選択された抽出範囲情報に含まれるユーザの属性と一致する属性をもつユーザによって作成されたテキストに対応付けて前記属性情報記憶部に記憶された属性情報を抽出し、抽出した属性情報が示すユーザ連絡先と前記選択部により選択された抽出範囲情報とを通知する属性情報抽出部とを備えることを特徴とするテキストマイニング装置。
  2. 前記テキストマイニング装置は、単語ごとに、単語の出現頻度に当該単語の汎用性及び偏りを加味した値である重要度を定めており、
    前記概念ベクトル抽出部は、前記属性情報記憶部に記憶された属性情報が示すユーザの属性と作成時期との組み合わせごとに、前記概念辞書記憶部に記憶された概念辞書に含まれる概念ベクトルのうち、前記所定の単語として重要度が最も高い単語に該当する概念ベクトルを抽出することを特徴とする請求項1に記載のテキストマイニング装置。
  3. 前記テキストマイニング装置は、さらに、
    2つの概念ベクトルが近似するかどうかを判断するための近似閾値を記憶する近似閾値記憶部を備え、
    前記単語予測部は、前記属性情報記憶部に記憶された属性情報が示すユーザの属性ごとに、前記概念辞書記憶部に記憶された概念辞書から、前記概念ベクトル予測部により予測された概念ベクトルとの差の絶対値が前記近似閾値記憶部に記憶された近似閾値以下の概念ベクトルを選択し、選択した概念ベクトルに該当する単語を抽出することを特徴とする請求項1又は2に記載のテキストマイニング装置。
  4. ユーザの属性は、前記テキストを作成したユーザの居住地域、性別、年齢、職業のいずれかであり、
    前記ユーザ連絡先は、前記テキストを作成したユーザの電子メールアドレスであり、
    前記属性情報抽出部は、抽出した属性情報が示す電子メールアドレスと前記選択部により選択された抽出範囲情報とを、メールマガジンを前記ユーザに配信するメールマガジン配信装置に通知することを特徴とする請求項1から3までのいずれかに記載のテキストマイニング装置。
  5. 前記作成時期は、前記ユーザが前記テキストを作成した年、月、週、日のいずれかであることを特徴とする請求項1から4までのいずれかに記載のテキストマイニング装置。
  6. 複数の作成時期に複数のユーザによってそれぞれ作成された複数のテキストと、各テキストを作成したユーザの属性と当該ユーザ連絡先と当該テキストが作成された作成時期とを示す属性情報とを入力する入力処理と、
    前記入力処理により入力された複数のテキストを記憶装置に記憶する文書記憶処理と、
    前記入力処理により入力された属性情報を前記記憶装置に記憶された複数のテキストと対応付けて前記記憶装置に記憶する属性情報記憶処理と、
    前記記憶装置に記憶された属性情報が示すユーザの属性と作成時期との組み合わせごとに、前記記憶装置に記憶された複数のテキストから単語と単語の共起頻度を示す共起情報とを抽出する共起情報抽出処理と、
    前記記憶装置に記憶された属性情報が示すユーザの属性と作成時期との組み合わせごとに、前記共起情報抽出処理により抽出された共起情報に基づいて、前記共起情報抽出処理により抽出された単語の概念を数値化した概念ベクトルを当該単語に該当する概念ベクトルとして計算する概念ベクトル計算処理と、
    前記記憶装置に記憶された属性情報が示すユーザの属性ごとに、前記概念ベクトル計算処理により計算された各作成時期の概念ベクトルの集合を概念辞書として前記記憶装置に記憶する概念辞書記憶処理と、
    概念ベクトルを予測する予測時期を設定する予測時期設定処理と、
    前記記憶装置に記憶された属性情報が示すユーザの属性と作成時期との組み合わせごとに、前記記憶装置に記憶された概念辞書に含まれる概念ベクトルのうち、所定の単語に該当する概念ベクトルを抽出する概念ベクトル抽出処理と、
    前記記憶装置に記憶された属性情報が示すユーザの属性ごとに、前記概念ベクトル抽出処理により抽出された各作成時期の概念ベクトルに基づいて、前記予測時期設定処理により設定された予測時期の概念ベクトルを予測する概念ベクトル予測処理と、
    前記記憶装置に記憶された属性情報が示すユーザの属性ごとに、前記記憶装置に記憶された概念辞書から、前記概念ベクトル予測処理により予測された概念ベクトルに近似する概念ベクトルを選択し、選択した概念ベクトルに該当する単語を抽出する単語予測処理と、
    任意のユーザの属性と当該ユーザの属性について前記単語予測処理により抽出された単語との組み合わせを抽出範囲情報として選択する選択処理と、
    記選択処理により選択された抽出範囲情報に含まれるユーザの属性と一致する属性をもつユーザによって作成されたテキストに対応付けて前記記憶装置に記憶された属性情報を抽出し、抽出した属性情報が示すユーザ連絡先と前記選択処理により選択された抽出範囲情報とを通知する属性情報抽出処理とをコンピュータに実行させることを特徴とするテキストマイニングプログラム。
JP2005263788A 2005-09-12 2005-09-12 テキストマイニング装置及びテキストマイニングプログラム Expired - Fee Related JP4358804B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005263788A JP4358804B2 (ja) 2005-09-12 2005-09-12 テキストマイニング装置及びテキストマイニングプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005263788A JP4358804B2 (ja) 2005-09-12 2005-09-12 テキストマイニング装置及びテキストマイニングプログラム

Publications (2)

Publication Number Publication Date
JP2007079694A JP2007079694A (ja) 2007-03-29
JP4358804B2 true JP4358804B2 (ja) 2009-11-04

Family

ID=37939968

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005263788A Expired - Fee Related JP4358804B2 (ja) 2005-09-12 2005-09-12 テキストマイニング装置及びテキストマイニングプログラム

Country Status (1)

Country Link
JP (1) JP4358804B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010102296A1 (en) 2009-03-06 2010-09-10 Exactarget, Inc. System and method for controlling access to aspects of an electronic messaging campaign

Also Published As

Publication number Publication date
JP2007079694A (ja) 2007-03-29

Similar Documents

Publication Publication Date Title
US8156138B2 (en) System and method for providing targeted content
JP6435426B1 (ja) 情報分析装置、情報分析方法および情報分析プログラム
JP5581408B2 (ja) 情報処理システム、情報処理装置、情報処理方法及びプログラム
US9639846B2 (en) System and method for providing targeted content
JP4071805B2 (ja) 広告送信サーバ、広告送信プログラム及びユーザ検索方法
KR100970335B1 (ko) 사용자의 관심 키워드를 업데이트 하는 방법과 그 방법을수행하기 위한 시스템
JP5507607B2 (ja) コンテンツ提供装置、低ランク近似行列生成装置、コンテンツ提供方法、低ランク近似行列生成方法およびプログラム
JP7166116B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN113032668A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
JP2013033376A (ja) 情報処理装置、情報処理方法、および、プログラム
CN118250516B (zh) 一种针对用户的分级处理方法
JP2016062275A (ja) 抽出装置、抽出方法および抽出プログラム
JP6434954B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2004126975A (ja) 選好傾向類似ユーザ抽出方法及び装置、並びに選好傾向類似ユーザ抽出プログラム及びそれを記録した記録媒体
CN111625726A (zh) 一种用户画像的处理方法和装置
JP2019003610A (ja) 抽出装置、抽出方法及び抽出プログラム
JP5138621B2 (ja) 情報処理装置及び不満解決商品発見方法及びプログラム
CN113204699B (zh) 信息推荐方法、装置、电子设备及存储介质
JP2004280180A (ja) 広告用キーワード抽出システム、広告文配信システム、広告用キーワード抽出プログラム及び広告文配信プログラム
JP4358804B2 (ja) テキストマイニング装置及びテキストマイニングプログラム
JP6311052B1 (ja) 抽出装置、抽出方法及び抽出プログラム
JP6921922B2 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP2023070618A (ja) 情報処理システム、コンピュータプログラム、及び情報処理方法
JP7335405B1 (ja) 抽出装置、抽出方法及び抽出プログラム
CN113763107B (zh) 一种对象信息推送方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090706

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090804

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090806

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120814

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4358804

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120814

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130814

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130814

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140814

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees