以下に、本願の開示する新奇性分析装置、新奇性分析システム、新奇性分析プログラムおよび新奇性分析方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
以下の説明で用いる用語の定義を行う。
新奇性:文章表現の目新しさ・珍しさを示すものであり、心理学の論文(桜井、内発的動機づけに及ぼす言語的報酬と物質的報酬の影響の比較、教育心理学研究、1984)などで使用される用語である。
文章表現:1フレーズ程度のテキストを示す。「CPU周波数は2GHz」は、文章表現の一例である。
表現:文章表現の略であり、文章表現と同じ意味である。
文書:文章表現が集まったものである。「本日より、春モデルPCが発売されます。CPU周波数は2GHz、色はホワイトです。とても軽く持ち運びに便利で、様々なところでお使い頂けます。・・・」は、文書の一例である。
実施例1の説明を行う前に、発明者が想定する、表現の新奇性を判定する参考技術について説明する。この参考技術は、従来技術ではない。この参考技術は、ニュース記事など、世間一般の読者が閲覧済みの文書のデータに出現する表現の出現頻度を基にして、表現の新奇性の有無を判定する。たとえば、参考技術は、出現頻度が多い表現について、読者はたびたび目にしているため、新奇性がないと判定する。一方、参考技術は、出現頻度が少ない表現について、読者はほとんど目にしていないため、新奇性があると判定する。
図1は、参考技術を説明するための図である。図1に示すように、参考技術は、頻度DB(Data Base)10aと判定部10bとを有する。
頻度DB10aは、表現と、この表現に対する読者の出現頻度とを対応づけたDBである。
判定部10bは、判定対象の表現の入力を受け付けた場合に、頻度DB10aを基にして、表現の新奇性の有無を判定し、判定結果を出力する処理部である。判定対象の表現は、たとえば、広告文をつくりたい商品に関する記事本文をフレーズ毎に分割した1フレーズのテキストである。
判定部10bは、判定対象の表現と、頻度DB10aとのマッチングにより、表現の出現頻度を特定する。判定部10bは、判定対象の表現が「防水対応PC」である場合には、この表現に完全一致する頻度DBの表現「防水対応PC」の出現頻度「0.01」を、判定対象の表現の出現頻度として特定する。
判定部10bは、特定した出現頻度が閾値以上である場合には、判定対象の表現に新奇性がないと判定する。判定部10bは、特定した出現頻度が閾値未満である場合には、判定対象の表現に新奇性があると判定する。
ここで、参考技術は、完全一致表現の出現頻度に基づき、表現の新奇性を判定している。このため、表現に数値や色が含まれるような場合、実質的に新奇性が無くても、新奇性があると誤判定する場合がある。
たとえば、読者が閲覧済みの表現を、下記の様に、表現A1、表現B1、表現C1とし、判定対象の表現を表現X1とする。
表現A1:CPU周波数1.6GHzのPC
表現B1:CPU周波数1.2GHzのPC
表現C1:CPU周波数1.3GHzのPC
表現X1:CPU周波数1.5GHzのPC
参考技術が、表現X1の新奇性を判定する場合に、表現X1と完全一致する表現の出現頻度を用いることになる。しかし、表現X1と完全一致する表現が、閲覧済みの表現A1〜C1に存在しないため、参考技術は、表現X1を新奇性のある表現と誤判定する。表現A1〜X1は、概ね同じ数値を示しているため、表現X1は新奇性を有していないと言える。
読者が閲覧済みの表現を、下記の様に、表現A2、表現B2とし、判定対象の表現を表現X2とする。
表現A2:ねずみ色のPC
表現B2:グレーのPC
表現X2:灰色のPC
参考技術が、表現X2の新奇性を判定する場合に、表現X2と完全一致する表現の出現頻度を用いることになる。しかし、表現X2と完全一致する表現が、閲覧済みの表現A2、B2に存在しないため、参考技術は、表現X2を新奇性のある表現と誤判定する。表現A2〜X2は、概ね同じ色を示しているため、表現X2は新奇性を有していないと言える。
上記のように、参考技術では、完全一致表現に基づく頻度により、表現の新奇性の有無を判定しているため、表現に数値や色が含まれるような場合、実質的に新奇性がない場合でも、新奇性があると誤判定されてしまうと言う問題がある。
次に、本実施例1について説明する。図2は、本実施例1に係る新奇性分析システムの一例を示す図である。図2に示すように、この新奇性分析システムは、凡庸分布DB生成装置100と、新奇性分析装置200とを有する。凡庸分布DB生成部100および新奇性分析装置200は、相互に接続される。また、凡庸分布DB生成部100および新奇性分析装置200は、Web(World Wide Web)20に接続される。
図3は、本実施例1に係る凡庸分布DB生成装置の構成を示す機能ブロック図である。図3に示すように、この凡庸分布DB生成装置100は、通信部110と、入力部120と、表示部130と、記憶部140と、制御部150とを有する。凡庸分布DB生成装置100は、凡庸分布生成装置の一例である。
通信部110は、新奇性分析装置200またはWeb20上の外部装置とデータ通信を行う処理部である。通信部110は、通信装置の一例である。後述する制御部150は、通信部110を介して、新奇性分析装置200またはWeb20上の外部装置とデータをやり取りする。
入力部120は、凡庸分布DB生成装置100に各種のデータを入力するための入力装置である。入力部120は、キーボードやマウス、タッチパネルなどに対応する。
表示部130は、制御部150から出力されるデータを表示する表示装置である。表示部130は、液晶ディスプレイやタッチパネルなどに対応する。
記憶部140は、文書DB141、表現テンプレートDB142、表現変換DB143、凡庸分布DB144を有する。記憶部140は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。
文書DB141は、世間一般の読者が閲覧済みの文書のデータを格納するデータベースである。文書は、複数の文章表現が集まったものである。たとえば、文書は、ニュースサイトのテキスト記事が集まったものである。以下の説明では、文書のデータを、文書データと表記する。
表現テンプレートDB142は、商品の特徴を表す表現の対応部分と、対応部分周辺の表現についての情報を有するものである。図4は、本実施例1に係る表現テンプレートDBのデータ構造の一例を示す図である。図4に示すように、この表現テンプレートDB142は、特徴の種類と、表現テンプレートとを対応づける。たとえば、ユーザは、入力部120を操作して、表現テンプレートDB142を作成する。
表現変換DB143は、特徴の種類、および、表現の対応部分を物理量に変換する規則を表す表現変換パターンを格納するものである。図5は、本実施例1に係る表現変換DBのデータ構造の一例を示す図である。図5に示すように、この表現変換DB143は、特徴の種類と、表現変換パターンとを対応づける。たとえば、ユーザは、入力部120を操作して、表現変換DB143を作成する。
表現変換DB143は、特徴の種類がCPU周波数などの数値で表現されるものであるとき、数値を表す表現(漢数字を含む)から、数値に変換する規則を表現変換パターンで示す。たとえば、数値を表す表現が「1.6」である場合には、この表現「1.6」は、物理量「1.6」に変換される。
表現変換DB143は、特徴の種類が色に関するものであるとき、色を表す表現から、色空間の多次元ベクトル(RGBなど)に変換する規則を表現変換パターンで示す。たとえば、色を表す表現が「灰色」である場合には、この表現「灰色」は、物理量「121,121,121」に変換される。
凡庸分布DB144は、文書データに含まれる複数の表現の物理量に基づく確率密度を格納するものである。図6は、本実施例1に係る凡庸分布DBのデータ構造の一例を示す図である。図6に示すように、この凡庸分布DB144は、特徴の種類と、物理量と、凡庸分布とを対応づける。
図3の説明に戻る。制御部150は、受付部151、特徴表現抽出部152、特徴表現変換部153、凡庸分布算出部154、通知部155を有する。制御部150は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって実現できる。また、制御部150は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。
受付部151は、Web20上の外部装置から、世間一般の読者が閲覧済みの文書データを受け付けた場合に、受け付けた文書データを、文書DB141に格納する。受付部151は、入力部120から、表現テンプレートDB142を受け付けた場合に、受け付けた表現テンプレートDB142を、記憶部140に格納する。受付部151は、入力部120から、表現変換DB143を受け付けた場合に、受け付けた表現変換DB143を、記憶部140に格納する。
特徴表現抽出部152は、文書DB141に格納された文書データをフレーズ毎に分割することで、複数の表現データを生成する。特徴表現抽出部152は、各表現データについて、下記の処理を実行する。
特徴表現抽出部152は、表現データと、表現テンプレートDB142の表現テンプレートとをマッチングさせることにより、特徴の種類毎に、表現データに出現した、商品の特徴を表す表現を抽出する。特徴表現抽出部152は、特徴の種類と、商品の特徴を表す表現とを対応づけて、特徴表現変換部153に出力する。
たとえば、各表現データ「CPU周波数は1.6GHz」、「CPU周波数は2.0GHz」、「CPU周波数は1.3GHz」、・・・は、表現テンプレートDB142の表現テンプレート「CPU周波数は○○GHz」にヒットする。このため、特徴表現抽出部152は、各表現データから、特徴の種類「CPU周波数」、商品の特徴を表す表現「1.6,2.0,1.3,・・・」を抽出する。
各表現データ「色は灰色」、「色は鉛色」、・・・は、表現テンプレートDB142の表現テンプレート「色は○○」にヒットする。このため、特徴表現抽出部152は、各表現データから、特徴の種類「色」、商品の特徴を表す表現「灰色、鉛色、・・・」を抽出する。
特徴表現変換部153は、特徴の種類に対応する表現変換DB143の表現変換パターンを基にして、商品の特徴を表す表現を、物理量に変換する処理部である。特徴表現変換部153は、特徴の種類と、変換した物理量とを対応づけて、凡庸分布算出部154に出力する。
特徴表現変換部153が、特徴の種類「CPU周波数」に対応する、商品の特徴を表す表現「1.6,2.0,1.3,・・・」を物理量に変換する処理について説明する。特徴の種別が「CPU周波数」である場合には、表現変換DB143の表現変換パターンは「そのまま」となる。このため、特徴表現変換部153は、商品の特徴を表す表現「1.6,2.0,1.3,・・・」を物理量「1.6,2.0,1.3,・・・」に変換する。
特徴量変換部153が、特徴の種類「色」に対応する、商品の特徴を表す表現「灰色、鉛色、・・・」を物理量に変換する処理について説明する。特徴の種類が「色」である場合には、表現変換DB143の表現変換パターンは「色に対応するRGB値」となる。このため、特徴表現変換部153は、商品の特徴を表す表現「灰色、鉛色、・・・」を物理量「121,121,121,120,119,13、・・・」に変換する。
凡庸分布算出部154は、特徴表現変換部153から受け付ける特徴の種類と、物理量とを凡庸分布DB144に格納する処理部である。
また、凡庸分布算出部154は、特徴の種類毎に、物理量の確率密度を推定することにより、商品の特徴分布を表す確率密度を算出してもよい。たとえば、凡庸分布算出部154は、カーネル密度推定を使うことで、物理量を確率変数とする確率密度を算出する。確率変数と確率密度との関係を、凡庸分布と表記する。凡庸分布算出部154は、特徴の種類に対応づけて、凡庸分布を、凡庸分布DB144に格納する。
凡庸分布において、確率密度が高いところは、新奇性が高いと言え、確率密度が低いところは、新奇性が高いと言える。たとえば、図6において、特徴の種類「CPU周波数」に対応する凡庸分布を、凡庸分布144aとする。凡庸分布144aにおいて、物理量1a付近の確率密度が高いため、係る物理量1a付近のものは、新奇性が低い(新奇性がない)。これに対して、物理量1a付近から離れるほど確率密度が低いため、係る物理量1aから離れたものは、新奇性が高い(新奇性がある)。
特徴の種類「色」に対応する凡庸分布を、凡庸分布144bとする。凡庸分布144bにおいて、物理量1b付近の確率密度が高いため、係る物理量1b付近のものは、新奇性が低い(新奇性がない)。これに対して、物理量1b付近から離れるほど確率密度が低いため、係る物理量1bから離れたものは、新奇性が高い(新奇性がある)。
通知部155は、凡庸分布DB144を、新奇性分析装置200に通知する処理部である。
図7は、本実施例1に係る新奇性分析装置の構成を示す機能ブロック図である。図7に示すように、この新奇性分析装置200は、通信部210と、入力部220と、表示部230と、記憶部240と、制御部250とを有する。
通信部210は、凡庸分布DB生成装置100またはWeb20上の外部装置とデータ通信を行う処理部である。通信部210は、通信装置の一例である。後述する制御部250は、通信部210を介して、凡庸分布DB生成装置100またはWeb20上の外部装置とデータをやり取りする。
入力部220は、新奇性分析装置200に各種のデータを入力するための入力装置である。入力部220は、キーボードやマウス、タッチパネルなどに対応する。
表示部230は、制御部250から出力されるデータを表示する表示装置である。表示部230は、液晶ディスプレイやタッチパネルなどに対応する。
記憶部240は、文書データ241、表現テンプレートDB142、表現変換DB143、凡庸分布DB144を有する。記憶部240は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
文書データ241は、商品に関する文書のデータである。
表現テンプレートDB142、表現変換DB143、凡庸分布DB144に関する説明は、図3で説明した表現テンプレートDB142、表現変換DB143、凡庸分布DB144に関する説明と同様である。
制御部250は、受付部251、表現分割部252、特徴表現抽出部253、特徴表現変換部254、新奇性表現判定部255、提示部256を有する。制御部250は、CPUやMPUなどによって実現できる。また、制御部250は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。
受付部251は、入力部220またはWeb20上の外部装置から、文書データ241を受け付ける処理部である。受付部251は、文書データ241を、記憶部240に格納する。また、受付部251は、凡庸分布DB生成装置100から、凡庸分布DB144を受け付けた場合に、凡庸分布DB144を、記憶部240に格納する。また、受付部251は、表現テンプレートDB142、表現変換DB143を受け付けた場合には、表現テンプレートDB142、表現変換DB143を記憶部240に格納する。
表現分割部252は、文書データ241をフレーズ毎に分割することで、複数の表現データを生成する処理部である。表現分割部252は、分割した複数の表現データを、特徴表現抽出部253に出力する。
たとえば、文書データ241を「CPU周波数は、10.0GHzです。このPCの色は灰色です。」とする。この場合には、表現分割部252は、文書データ241を、表現データ「CPU周波数は、10.0GHzです。」、「このPCの色は灰色です。」に分割する。
特徴表現抽出部253は、表現データと、表現テンプレートDB142の表現テンプレートとをマッチングさせることにより、特徴の種類毎に、表現データに含まれる、商品の特徴を表す表現を抽出する。特徴表現抽出部152は、特徴の種類と、商品の特徴を表す表現とを対応づけて、特徴表現変換部254に出力する。
たとえば、表現データ「CPU周波数は、10.0GHzです。」は、表現テンプレートDB142の表現テンプレート「CPU周波数は○○GHz」にヒットする。このため、特徴表現抽出部253は、表現データから、特徴の種類「CPU周波数」、商品の特徴を表す表現「10.0」を抽出する。
表現データ「このPCの色は灰色です。」は、表現テンプレートDB142の表現テンプレート「色は○○」にヒットする。このため、特徴表現抽出部253は、表現データから、特徴の種類「色」、商品の特徴を表す表現「灰色」を抽出する。
特徴表現変換部254は、特徴の種類に対応する表現変換DB143の表現変換パターンを基にして、商品の特徴を表す表現を、物理量に変換する処理部である。特徴表現変換部254は、特徴の種類と、変換した物理量とを対応づけて、新奇性表現判定部255に出力する。
特徴表現変換部254が、特徴の種類「CPU周波数」に対応する、商品の特徴を表す表現「10.0」を物理量に変換する処理について説明する。特徴の種別が「CPU周波数」である場合には、表現変換DB143の表現変換パターンは「そのまま」となる。このため、特徴表現変換部254は、商品の特徴を表す表現「10.0」を物理量「10.0」に変換する。
特徴表現変換部254が、特徴の種類「色」に対応する、商品の特徴を表す表現「灰色」を物理量に変換する処理について説明する。特徴の種類が「色」である場合には、表現変換DB143の表現変換パターンは「色に対応するRGB値」となる。このため、特徴表現変換部254は、商品の特徴を表す表現「灰色」を物理量「121,121,121」に変換する。
新奇性表現判定部255は、特徴の種類に対応する凡庸分布DB144の凡庸分布と、物理量とを基にして、文書データ241の表現データの新奇性の有無を判定する処理部である。新奇性表現判定部255は、判定結果を提示部256に出力する。ここでは、特徴表現変換部254から受け付けた特徴の種類および物理量を、判定対象の特徴の種類、判定対象の物理量と表記する。
新奇性表現判定部255は、判定対象の特徴の種類に対応する凡庸分布DB144の凡庸分布と、判定対象の物理量とを照合して、判定対象の物理量に対応する確率密度の値を特定する。新奇性表現判定部255は、確率密度の値の逆数を逸脱度として特定する。なお、新奇性表現判定部255は、確率密度関数を用いて、判定対象の物理量の確率密度の値を算出しても良い。
新奇性表現判定部255は、逸脱度が閾値q以上である場合に、該当する表現データに新奇性がある(新奇性が高い)と判定する。新奇性表現判定部255は、逸脱度が閾値q未満である場合に、該当する表現データに新奇性がない(新奇性が低い)と判定する。なお、閾値qは、事前にアンケートに基づき決定される値である。また、閾値qは、特徴の種類に応じて、異なる閾値qを用いてもよい。たとえば、特徴の種類「CPU周波数」に対応する閾値qを閾値qAとする。特徴の種類「色」に対応する閾値qを閾値qBとする。
たとえば、表現データ「CPU周波数は、10.0GHzです。」の特徴の種類は、「CPU周波数」であり、判定対象の物理量は「10.0」である。新奇性表現判定部255は、物理量「10.0」と、図6の凡庸分布144aとを照合して、物理量「10.0」の確率密度の値を特定し、この値の逆数から、逸脱度を特定する。新奇性表現判定部255は、特定した逸脱度が閾値qA以上である場合、表現データ「CPU周波数は、10.0GHzです。」には新奇性がある(新奇性が高い)と判定する。
一方、新奇性表現判定部255は、特定した逸脱度が閾値qA未満である場合、表現データ「CPU周波数は、10.0GHzです。」には新奇性がない(新奇性が低い)と判定する。
たとえば、表現データ「このPCの色は灰色です。」の特徴の種類は、「色」であり、判定対象の物理量は「121,121,121」である。新奇性表現判定部255は、物理量「121,121,121」と、図6の凡庸分布144bとを照合して、物理量「121,121,121」の確率密度の値を特定し、この値の逆数から、逸脱度を特定する。新奇性表現判定部255は、特定した逸脱度が閾値qB以上である場合、表現データ「このPCの色は灰色です。」には新奇性がある(新奇性が高い)と判定する。
一方、新奇性表現判定部255は、特定した逸脱度が閾値qB未満である場合、表現データ「このPCの色は灰色です。」には新奇性がない(新奇性が低い)と判定する。
提示部256は、新奇性表現判定部255の判定結果を基にして、新奇性のある表現データを、表示部230に提示する処理部である。
図8は、本実施例1に係るUIの一例を示す図である。ユーザは、表示部230の画面230aを参照し、入力部220を操作して、入力領域30aに文書データを入力する。ユーザは、文書データを入力した後に、実行ボタン31を押下する。新奇性分析装置200は、実行ボタン31の押下を受け付けると、文書データに含まれる各表現データについて、新奇性の有無を判定する。
新奇性分析装置200は、新奇性の判定結果を、表示領域30bに表示する。たとえば、新奇性分析装置200は、新奇性ありと判定した表現データを、表示領域30bに提示しても良いし、各表現データと新奇性スコアとを対応づけて、表示領域30bに提示しても良い。新奇性スコアは、逸脱度を示すものである。
次に、本実施例1に係る凡庸分布DB生成装置100の処理手順の一例について説明する。図9は、本実施例1に係る凡庸分布DB生成装置の処理手順を示すフローチャートである。図9に示すように、凡庸分布DB生成装置100の受付部151は、表現テンプレートDB142を取得し、記憶部140に格納する(ステップS101)。受付部151は、表現変換DB143を取得し、記憶部140に格納する(ステップS102)。
凡庸分布DB生成装置100の特徴表現抽出部152は、文書DB141の文書データと、表現テンプレートDB142の表現テンプレートとマッチングする。特徴表現抽出部152は、特徴の種類毎に、文書データに出現した、商品の特徴を表す表現を抽出する(ステップS103)。
凡庸分布DB生成装置100の特徴表現変換部153は、表現変換DB143に基づいて、商品の特徴を表す表現を、物理量に変換する(ステップS104)。凡庸分布DB生成装置100の凡庸分布算出部154は、商品の特徴を表す各表現の物理量を、凡庸分布DB144に格納する(ステップS105)。ステップS105において、凡庸分布算出部154は、物理量の確率密度を推定することで、凡庸分布を算出し、凡庸分布DB144に格納しても良い。
次に、本実施例1に係る新奇性分析装置200の処理手順の一例について説明する。図10は、本実施例1に係る新奇性分析装置の処理手順を示すフローチャートである。図10に示すように、新奇性分析装置200の受付部251は、商品に関する文書データ241を受け付ける(ステップS201)。
新奇性分析装置200の表現分割部252は、商品に関する文書データ241を表現データに分割する(ステップS202)。新奇性分析装置200の特徴表現抽出部253は、分割した各表現データのうち、未選択の表現データを選択する(ステップS203)。
特徴表現抽出部253は、選択した表現データと表現テンプレートDB142の表現テンプレートとマッチングし、商品の特徴を表す表現を抽出する(ステップS204)。新奇性分析装置200の特徴表現変換部254は、表現変換DB143に基づいて、商品の特徴を表す表現を、物理量に変換する(ステップS205)。
新奇性分析装置200の新奇性表現判定部255は、物理量と、凡庸分布DB144とを基にして、逸脱度を算出する(ステップS206)。新奇性表現判定部255は、逸脱度が閾値q以上である場合に、選択した表現データの新奇性が高い(新奇性有り)と判定する(ステップS207)。
新奇性分析装置200は、全ての表現データを選択していない場合には(ステップS208,No)、ステップS203に移行する。新奇性分析装置200は、全ての表現データを選択した場合には(ステップS208,Yes)、ステップS209に移行する。
新奇性分析装置200の提示部256は、新奇性が高いと判定された表現データを、表示部230に提示する(ステップS209)。
次に、本実施例1に係る新奇性分析装置200の効果について説明する。新奇性分析装置200は、表現データが表す商品の特徴に対応する物理量が、ユーザがこれまで閲覧してきた表現データが表す商品の特徴に対応する物理量に比べて逸脱しているときに、新奇性がある(新奇性が高い)と判定する。これにより、表現データが表す商品の特徴が物理量で表せる場合に、表現データの新奇性の有無を高精度に判定することができる。
図11は、本実施例1に係る新奇性分析装置の効果の根拠を説明する図である。図11のグラフ32Aは、CPU周波数の値と、出現頻度との関係を示すものである。グラフ32Bは、本実施例1で説明した特徴の種類「CPU周波数」に対応する凡庸分布である。
たとえば、参考技術に基づき、表現データ「CPU周波数は3.1GHzです。」の新奇性の有無を判定すると、グラフ32Aに示すように、「3.1」は出現頻度が低いため、新奇性があると判断する。グラフ32Aに示すように、「3.1」自体の出現頻度は低いものの、周辺の出現頻度は高いため、「CPU周波数は3.1GHzです。」という表現は珍しいものではなく、新奇性はない。このため、参考技術に基づく新奇性有無の判定では、高精度に判定できているとは言えない。
これに対して、本実施例1に係る新奇性分析装置200が、表現データ「CPU周波数は3.1GHzです。」の新奇性の有無を判定すると、この表現データは、新奇性が無いと判定する。たとえば、グラフ32Bを用いると、表現データ「CPU周波数は3.1GHzです。」に基づき変換される物理量「3.1」に対応する確率密度が高くなるため、逸脱度が低くなり、表現データ「CPU周波数は3.1GHzです。」は新奇性が無いと判定できる。したがって、新奇性分析装置200によれば、表現データが表す商品の特徴が物理量で表せる場合に、表現データの新奇性の有無を高精度に判定することができる。
実施例1について補足を行う。本実施例1では一例として、文書DB141は、世間一般の読者が閲覧済みの文書のデータを格納する場合について説明したが、これに限定されるものではない。たとえば、文書DB141は、特定読者層の多くが閲覧済みの文書を使用しても良い。特定読者層が閲覧した文書は、Webの閲覧履歴などから判別する。これにより、凡庸分布DB生成装置100は、特定読者層専用の凡庸分布DB144を生成し、広告担当者は、広告ターゲット毎に、凡庸分布DB144を使い分けるようにしても良い。また、新奇性表現判定部は、逸脱度と閾値qにより、新奇性の有無を判定するのではなく、逸脱度を新奇性の大きさとして出力するように構成してもよい。
新奇性表現判定部255は、新奇性表現抽出部253により、1つの表現データに対して複数の特徴の種類を検出された場合には、それぞれについて凡庸分布から逸脱度を算出する。新奇性表現判定部255は、各逸脱度の合計、もしくは重み付き合計、もしくは重み付き平均、もしくは最大、もしくは重み付き最大を、上記1つの表現データの逸脱度として算出する。
表現テンプレートDB142のデータ構造は、図4に示したものに限定されない。図12および図13は、本実施例1に係る表現テンプレートDBのその他のデータ構造を示す図である。
図12に示すように、表現テンプレートDB142aは、1つの特徴の種類に対して、複数の表現テンプレートを格納する。特徴表現抽出部152、253が、表現テンプレートDB142aを用いることで、表現データに存在し得る表記揺れに対応することができる。
図13に示すように、表現テンプレートDB142bは、表現テンプレートにHTML(HyperText Markup Language)のTableタグなどを格納する。たとえば、表現テンプレート「<table><tr><th>色</th><th>○○</th></th></table>」は、Webブラウザ上で、表示例35のように表示される。特徴表現抽出部152、253が、表現テンプレートDB142bを用いることで、表現データに構造データが含まれる場合でも、新奇性の有無を判定することができる。
また、ここでは、凡庸分布DB生成装置100と新奇性分析装置200とに分けて、事前処理と、新奇性判定の処理とを実行する場合について説明したがこれに限定されるものではない。新奇性分析装置200が、凡庸分布DB生成装置100の機能部を有し、新奇性分析装置200が、事前処理および新奇性判定の処理を実行しても良い。凡庸分布DB生成装置100の機能部は、たとえば、制御部150に対応する。
図14は、本実施例2に係る新奇性分析システムの一例を示す図である。図14に示すように、この新奇性分析システムは、凡庸分布DB生成装置300と、新奇性分析装置400とを有する。凡庸分布DB生成部300および新奇性分析装置400は、相互に接続される。また、凡庸分布DB生成部300および新奇性分析装置400は、Web20に接続される。
図15は、本実施例2に係る凡庸分布DB生成装置の構成を示す機能ブロック図である。図15に示すように、この凡庸分布DB生成装置300は、通信部310と、入力部320と、表示部330と、記憶部340と、制御部350とを有する。
通信部310は、新奇性分析装置400またはWeb20上の外部装置とデータ通信を行う処理部である。通信部310は、通信装置の一例である。後述する制御部350は、通信部310を介して、新奇性分析装置400またはWeb20上の外部装置とデータをやり取りする。
入力部320は、凡庸分布DB生成装置300に各種のデータを入力するための入力装置である。入力部320は、キーボードやマウス、タッチパネルなどに対応する。
表示部330は、制御部350から出力されるデータを表示する表示装置である。表示部330は、液晶ディスプレイやタッチパネルなどに対応する。
記憶部340は、文書DB341、商品カテゴリ判定テーブル342、表現テンプレートDB343、表現変換DB344、凡庸分布DB345を有する。記憶部340は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
文書DB341は、世間一般の読者が閲覧済みの文書データを格納するデータベースである。文書データは、複数の文章表現が集まったものである。
商品カテゴリ判定テーブル342は、文書データの商品カテゴリを判定する場合に用いられるものである。図16は、本実施例2に係る商品カテゴリ判定テーブルのデータ構造の一例を示す図である。図16に示すように、この商品カテゴリ判定テーブル342は、商品カテゴリと、頻出単語とを対応づける。頻出単語は、該当する商品カテゴリの文書データに頻出する単語を示すものである。各頻出単語には数値(文書中に当該単語が表れたときに、当該商品カテゴリである確率値)が対応づけられており、後述する商品カテゴリ判定部352が文書データの商品カテゴリを判定する場合に使用する。たとえば、ユーザは、入力部320を操作して、商品カテゴリ判定テーブル342を作成する。
表現テンプレートDB343は、商品の特徴を表す表現の対応部分と、対応部分周辺の表現についての情報を有するものである。表現テンプレートDB343のデータ構造は、図4に示した表現テンプレートDB142のデータ構造と同様である。
表現変換DB344は、特徴の種類、および、表現の対応部分を物理量に変換する規則を表す表現変換パターンを格納するものである。表現変換DB344のデータ構造は、図5に示した表現変換DB143のデータ構造と同様である。
凡庸分布DB345は、文書データに含まれる複数の表現の物理量に基づく確率密度を格納するものである。図17は、本実施例2に係る凡庸分布DBのデータ構造の一例を示す図である。図17に示すように、この凡庸分布DB346は、商品カテゴリと、特徴の種類と、物理量と、凡庸分布とを対応づける。
図15の説明に戻る。制御部350は、受付部351、商品カテゴリ判定部352、特徴表現抽出部353、特徴表現変換部354、凡庸分布算出部355、通知部356を有する。制御部350は、CPUやMPUなどによって実現できる。また、制御部350は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。
受付部351は、Web20上の外部装置から、世間一般の読者が閲覧済みの文書データを受け付けた場合に、受け付けた文書データを、文書DB341に格納する。受付部351は、入力部320から、商品カテゴリ判定テーブル342を受け付けた場合に、商品カテゴリ判定テーブル342を、記憶部340に格納する。受付部351は、入力部320から、表現テンプレートDB343を受け付けた場合に、受け付けた表現テンプレートDB343を、記憶部340に格納する。受付部351は、入力部320から、表現変換DB344を受け付けた場合に、受け付けた表現変換DB344を、記憶部340に格納する。
商品カテゴリ判定部352は、商品カテゴリ判定テーブル342を基にして、文書DB341に格納された文書データの商品カテゴリを判定する処理部である。ここでは一例として、図18に示す文書データ40を用いて、商品カテゴリ判定部352の説明を行う。図18は、判定対象となる文書データの一例を示す図である。
商品カテゴリ判定部352は、商品カテゴリ判定テーブル342の頻出単語と、文書データ40に含まれる単語とのマッチングを行い、ヒットした頻出単語に対応づけられた値を基にして、商品カテゴリの確率値を算出する。
商品カテゴリ判定部352が、商品カテゴリ「PC」の確率値を算出する処理について説明する。商品カテゴリ判定部352は、文書データ40と、商品カテゴリ「PC」に対応する頻出単語とを比較すると、「長持ち(0.02)」がヒットする。この場合には、商品カテゴリ判定部352は、商品カテゴリ「PC」に対する確率値「PC」を下記のように算出する。
確率値「PC」=1−{(1−0.02)}=0.02
商品カテゴリ判定部352が、商品カテゴリ「口紅」の確率値を算出する処理について説明する。商品カテゴリ判定部352は、文書データ40と、商品カテゴリ「口紅」に対応する頻出単語とを比較すると、「口紅(0.6)、おしゃれ(0.5)、長持ち(0.01)」がヒットする。この場合には、商品カテゴリ判定部352は、商品カテゴリ「口紅」に対する確率値「口紅」を下記のように算出する。
確率値「口紅」=1−{(1−0.6)×(1−0.5)×(1−0.01)}=0.802
商品カテゴリ判定部352は、各商品カテゴリの確率値のうち、最大の確率値となる商品カテゴリを、文書データの商品カテゴリとして判定する。たとえば、上記の例では、確率値「口紅」の確率値が最大となるため、商品カテゴリ判定部352は、文書データ40の商品カテゴリを、「口紅」と判定する。
商品カテゴリ判定部352は、判定した商品カテゴリと対応づけて、文書データを、特徴表現抽出部353に出力する。
特徴表現抽出部353は、文書データをフレーズ毎に分割することで、複数の表現データを生成する。また、特徴表現抽出部353は、表現データと、表現テンプレートDB343の表現テンプレートとをマッチングさせることにより、特徴の種類毎に、表現データに出現した、商品の特徴を表す表現を抽出する。特徴表現抽出部353が、商品の特徴を表す表現を抽出する処理は、実施例1で説明した特徴表現抽出部152の処理と同様である。
特徴表現抽出部353は、商品カテゴリと、特徴の種類と、商品の特徴を表す表現とを対応づけて、特徴表現変換部354に出力する。
特徴表現変換部354は、特徴の種類に対応する表現変換DB344の表現変換パターンを基にして、商品の特徴を表す表現を、物理量に変換する処理部である。特徴表現変換部354が、商品の特徴を表す表現を、物理量に変換する処理は、実施例1で説明した特徴表現変換部153の処理と同様である。特徴表現変換部354は、商品カテゴリと、特徴の種類と、変換した物理量とを対応づけて、凡庸分布算出部355に出力する。
凡庸分布算出部355は、特徴表現変換部354から受け付ける特徴の種類と、物理量とを商品カテゴリ毎に、凡庸分布DB345に格納する処理部である。
また、凡庸分布算出部355は、各商品カテゴリについて、特徴の種類毎に、物理量の確率密度を推定することにより、商品の特徴分布を表す確率密度を算出してもよい。凡庸分布算出部355が、確率密度を算出する処理は、実施例1で説明した凡庸分布算出部154の処理と同様である。
通知部356は、凡庸分布DB345を、新奇性分析装置400に通知する処理部である。
図19は、本実施例2に係る新奇性分析装置の構成を示す機能ブロック図である。図19に示すように、この新奇性分析装置400は、通信部410と、入力部420と、表示部430と、記憶部440と、制御部450とを有する。
通信部410は、凡庸分布DB生成装置300またはWeb20上の外部装置とデータ通信を行う処理部である。通信部410は、通信装置の一例である。後述する制御部450は、通信部410を介して、凡庸分布DB生成装置300またはWeb20上の外部装置とデータをやり取りする。
入力部420は、新奇性分析装置400に各種のデータを入力するための入力装置である。入力部420は、キーボードやマウス、タッチパネルなどに対応する。
表示部430は、制御部450から出力されるデータを表示する表示装置である。表示部430は、液晶ディスプレイやタッチパネルなどに対応する。
記憶部440は、文書データ441、商品カテゴリ判定テーブル342、表現テンプレートDB343、表現変換DB344、凡庸分布DB345を有する。記憶部440は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
文書データ441は、商品に関する文書のデータである。
商品カテゴリ判定テーブル342、表現テンプレートDB343、表現変換DB344、凡庸分布DB345に関する説明は、図19で説明した商品カテゴリ判定テーブル342、表現テンプレートDB343、表現変換DB344、凡庸分布DB345に関する説明と同様である。
制御部450は、受付部451、商品カテゴリ判定部452、表現分割部453、特徴表現抽出部454、特徴表現変換部455、新奇性表現判定部456、提示部457を有する。制御部450は、CPUやMPUなどによって実現できる。また、制御部450は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。
受付部451は、入力部420またはWeb20上の外部装置から、文書データ441を受け付ける処理部である。受付部451は、文書データ441を、記憶部440に格納する。また、受付部451は、凡庸分布DB生成装置300から、凡庸分布DB345を受け付けた場合に、凡庸分布DB345を、記憶部440に格納する。また、受付部451は、商品カテゴリ判定テーブル342、表現テンプレートDB343、表現変換DB344を受け付けた場合には、商品カテゴリ判定テーブル342、表現テンプレートDB343、表現変換DB344を記憶部440に格納する。
商品カテゴリ判定部452は、商品カテゴリ判定テーブル342を基にして、文書データ441の商品カテゴリを判定する処理部である。商品カテゴリ判定部452が、文書データの商品カテゴリを判定する処理は、図15に示した商品カテゴリ判定部352の処理と同様である。商品カテゴリ判定部452は、判定した商品カテゴリと対応づけて、文書データ441を、表現分割部453に出力する。
表現分割部453は、文書データ441をフレーズ毎に分割することで、複数の表現データを生成する処理部である。表現分割部453は、商品カテゴリと、分割した複数の表現データとを、特徴表現抽出部454に出力する。表現分割部453が、表現データを生成する処理は、実施例1で説明した表現分割部252の処理と同様である。
特徴表現抽出部454は、表現データと、表現テンプレートDB343の表現テンプレートとをマッチングさせることにより、特徴の種類毎に、表現データに含まれる、商品の特徴を表す表現を抽出する。特徴表現抽出部454は、商品カテゴリと、特徴の種類と、商品の特徴を表す表現とを対応づけて、特徴表現変換部455に出力する。特徴表現抽出部453が、商品の特徴を表す表現を抽出する処理は、実施例1で説明した特徴表現抽出部253の処理と同様である。
特徴表現変換部455は、特徴の種類に対応する表現変換DB344の表現変換パターンを基にして、商品の特徴を表す表現を、物理量に変換する処理部である。特徴表現変換部455は、商品カテゴリと、特徴の種類と、変換した物理量とを対応づけて、新奇性表現判定部456に出力する。特徴表現変換部455が、商品の特徴を表す表現を、物理量に変換する処理は、実施例1で説明した特徴表現変換部254の処理と同様である。
新奇性表現判定部456は、商品カテゴリおよび特徴の種類に対応する凡庸分布DB345の凡庸分布と、物理量とを基にして、文書データ441の表現データの新奇性の有無を判定する処理部である。新奇性表現判定部456は、判定結果を提示部457に出力する。ここでは、特徴表現変換部455から受け付けた商品カテゴリ、特徴の種類、物理量を、判定対象の商品カテゴリ、判定対象の特徴の種類、判定対象の物理量と表記する。
新奇性表現判定部456は、判定対象の商品カテゴリおよび特徴の種類に対応する凡庸分布DB345の凡庸分布と、判定対象の物理量とを照合して、判定対象の物理量に対応する確率密度の値を特定する。
たとえば、図17に示すように、判定対象の商品カテゴリが「PC」、特徴の種類が「CPU周波数」である場合には、新奇性表現判定部456は、凡庸分布345aと、判定対象の物理量とを照合する。判定対象の商品カテゴリが「PC」、特徴の種類が「色」である場合には、新奇性表現判定部456は、凡庸分布345bと、判定対象の物理量とを照合する。判定対象の商品カテゴリが「口紅」、特徴の種類が「色」である場合には、新奇性表現判定部456は、凡庸分布345cと、判定対象の物理量とを照合する。
新奇性表現判定部456は、確率密度の値の逆数を逸脱度として特定する。その他の、新奇性表現判定部456の処理は、実施例1で説明した新奇性表現判定部255の処理と同様である。
提示部457は、新奇性表現判定部456の判定結果を基にして、新奇性のある表現データを、表示部430に提示する処理部である。
次に、本実施例2に係る凡庸分布DB生成装置300の処理手順の一例について説明する。図20は、本実施例2に係る凡庸分布DB生成装置の処理手順を示すフローチャートである。図20に示すように、凡庸分布DB生成装置300の受付部351は、表現テンプレートDB343を取得し、記憶部340に格納する(ステップS301)。受付部151は、表現変換DB344を取得し、記憶部340に格納する(ステップS302)。
凡庸分布DB生成装置300の商品カテゴリ判定部352は、商品カテゴリ判定テーブル342を基にして、文書データ毎に、商品カテゴリを判定する(ステップS303)。特徴表現抽出部353は、文書データと、表現テンプレートDB343の表現テンプレートとマッチングする。特徴表現抽出部353は、特徴の種類毎に、文書データに出現した、商品の特徴を表す表現を抽出する(ステップS304)。
凡庸分布DB生成装置300の特徴表現変換部354は、表現変換DB344に基づいて、商品の特徴を表す表現を、物理量に変換する(ステップS305)。凡庸分布DB生成装置300の凡庸分布算出部355は、該当する商品カテゴリと対応づけて、商品の特徴を表す各表現の物理量を、凡庸分布DB345に格納する(ステップS306)。ステップS306において、凡庸分布算出部356は、物理量の確率密度を推定することで、凡庸分布を算出し、凡庸分布DB345に格納しても良い。
次に、本実施例2に係る新奇性分析装置400の処理手順の一例について説明する。図21は、本実施例2に係る新奇性分析装置の処理手順を示すフローチャートである。図21に示すように、新奇性分析装置400の受付部451は、商品に関する文書データ441を受け付ける(ステップS401)。
新奇性分析装置400の商品カテゴリ判定部452は、商品カテゴリ判定テーブル342を基にして、文書データ441に対応する商品カテゴリを判定する(ステップS402)。新奇性分析装置400の表現分割部453は、商品に関する文書データ441を表現データに分割する(ステップS403)。新奇性分析装置400の特徴表現抽出部454は、分割した各表現データのうち、未選択の表現データを選択する(ステップS404)。
特徴表現抽出部453は、選択した表現データと表現テンプレートDB343の表現テンプレートとマッチングし、商品の特徴を表す表現を抽出する(ステップS405)。新奇性分析装置400の特徴表現変換部455は、表現変換DB344に基づいて、商品の特徴を表す表現を、物理量に変換する(ステップS406)。
新奇性分析装置400の新奇性表現判定部456は、物理量と、凡庸分布DB345とを基にして、逸脱度を算出する(ステップS407)。新奇性表現判定部456は、逸脱度が閾値q以上である場合に、選択した表現データの新奇性が高い(新奇性有り)と判定する(ステップS408)。
新奇性分析装置400は、全ての表現データを選択していない場合には(ステップS409,No)、ステップS404に移行する。新奇性分析装置400は、全ての表現データを選択した場合には(ステップS409,Yes)、ステップS410に移行する。
新奇性分析装置400の提示部457は、新奇性が高いと判定された表現データを、表示部430に提示する(ステップS410)。
次に、本実施例1に係る新奇性分析装置200の効果について説明する。商品カテゴリに応じて、新奇性のある表現は変わるものである。たとえば、商品カテゴリ「PC」では、ピンクは新奇性が高いと言えるが、商品カテゴリ「口紅」では、ピンクは新奇性が高いとは言えない。新奇性分析装置400は、文書データ441の商品カテゴリを判定し、判定した商品カテゴリに対応する特徴の種類の凡庸分布を基にして、文書データ441の表現データに新奇性があるか否かを判定するため、商品カテゴリに鑑みた新奇性の有無を高精度に判定することができる。
実施例2について補足を行う。本実施例2では、商品カテゴリ判定部352が、文書データと、商品カテゴリ判定テーブル342とを比較することで、文書データの商品カテゴリを判定していたが、これに限定されるものではない。商品カテゴリ判定部352は、文書データに直接的に商品カテゴリのタグが記載されている場合には、この商品カテゴリのタグを活用して、商品カテゴリを判定してもよい。商品カテゴリ判定部452についても同様である。
また、ここでは、凡庸分布DB生成装置300と新奇性分析装置400とに分けて、事前処理と、新奇性判定の処理とを実行する場合について説明したがこれに限定されるものではない。新奇性分析装置400が、凡庸分布DB生成装置300の機能部を有し、新奇性分析装置400が、事前処理および新奇性判定の処理を実行しても良い。
図22は、本実施例3に係る新奇性分析システムの一例を示す図である。図22に示すように、この新奇性分析システムは、凡庸分布DB生成装置500と、新奇性分析装置600とを有する。凡庸分布DB生成部500および新奇性分析装置600は、相互に接続される。また、凡庸分布DB生成部500および新奇性分析装置600は、Web20に接続される。
図23は、本実施例3に係る凡庸分布DB生成装置の構成を示す機能ブロック図である。図23に示すように、この凡庸分布DB生成装置500は、通信部510と、入力部520と、表示部530と、記憶部540と、制御部550とを有する。
通信部510は、新奇性分析装置600またはWeb20上の外部装置とデータ通信を行う処理部である。通信部510は、通信装置の一例である。後述する制御部550は、通信部510を介して、新奇性分析装置600またはWeb20上の外部装置とデータをやり取りする。
入力部520は、凡庸分布DB生成装置500に各種のデータを入力するための入力装置である。入力部520は、キーボードやマウス、タッチパネルなどに対応する。
表示部530は、制御部550から出力されるデータを表示する表示装置である。表示部530は、液晶ディスプレイやタッチパネルなどに対応する。
記憶部540は、文書DB541、表現テンプレートDB542、表現変換DB543、凡庸分布DB544、凡庸表現DB545を有する。記憶部540は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
文書DB541は、世間一般の読者が閲覧済みの文書データを格納するデータベースである。文書データは、複数の文章表現が集まったものである。
表現テンプレートDB542は、商品の特徴を表す表現の対応部分と、対応部分周辺の表現についての情報を有するものである。表現テンプレートDB542のデータ構造は、図4に示した表現テンプレートDB142のデータ構造と同様である。
表現変換DB543は、特徴の種類、および、表現の対応部分を物理量に変換する規則を表す表現変換パターンを格納するものである。表現変換DB543のデータ構造は、図5に示した表現変換DB143のデータ構造と同様である。
凡庸分布DB544は、文書データに含まれる複数の表現の物理量に基づく確率密度を格納するものである。凡庸分布DB544のデータ構造は、図6に示した凡庸分布DB144のデータ構造と同様である。
凡庸表現DB545は、特徴の種類と、文書データに含まれる凡庸表現の出現頻度とを対応づけるものである。図24は、本実施例3に係る凡庸表現DBのデータ構造の一例を示す図である。図24に示すように、凡庸表現DB545は、特徴の種類と、凡庸表現と、出現頻度とを対応づける。
図23の説明に戻る。制御部550は、受付部551、特徴表現抽出部552、特徴表現変換部553、凡庸分布算出部554、出現頻度算出部555、通知部556を有する。制御部550は、CPUやMPUなどによって実現できる。また、制御部550は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。
受付部551は、Web20上の外部装置から、世間一般の読者が閲覧済みの文書データを受け付けた場合に、受け付けた文書データを、文書DB541に格納する。受付部551は、入力部520から、表現テンプレートDB542を受け付けた場合に、受け付けた表現テンプレートDB542を、記憶部540に格納する。受付部551は、入力部520から、表現変換DB543を受け付けた場合に、受け付けた表現変換DB543を、記憶部540に格納する。
特徴表現抽出部552は、文書DB541に格納された文書データをフレーズ毎に分割することで、複数の表現データを生成する。また、特徴表現抽出部552は、表現データと、表現テンプレートDB542の表現テンプレートとをマッチングさせることにより、特徴の種類毎に、表現データに出現した、商品の特徴を表す表現を抽出する。特徴表現抽出部552が、商品の特徴を表す表現を抽出する処理は、実施例1で説明した特徴表現抽出部152の処理と同様である。
特徴表現抽出部552は、特徴の種類と、商品の特徴を表す表現とを対応づけて、特徴表現変換部553に出力する。また、特徴表現抽出部552は、特徴の種類と、商品の特徴を表す表現とを対応づけて、出現頻度算出部555に出力する。
特徴表現変換部553は、特徴の種類に対応する表現変換DB543の表現変換パターンを基にして、商品の特徴を表す表現を、物理量に変換する処理部である。特徴表現変換部553が、商品の特徴を表す表現を、物理量に変換する処理は、実施例1で説明した特徴表現変換部153の処理と同様である。特徴表現変換部553は、特徴の種類と、変換した物理量とを対応づけて、凡庸分布算出部554に出力する。
凡庸分布算出部554は、特徴表現変換部553から受け付ける特徴の種類と、物理量とを凡庸分布DB544に格納する処理部である。凡庸分布算出部554の処理は、実施例1で説明した凡庸分布算出部154の処理と同様である。
出現頻度算出部555は、特徴表現抽出部552から受け付ける特徴の種類毎に、凡庸表現の出現頻度を算出する処理部である。凡庸表現は、商品の特徴を表す表現に対応する。出現頻度算出部555は、特徴の種類と、凡庸表現と、出現頻度とを対応づけて、凡庸表現DB545に格納する。
通知部556は、凡庸分布DB544および凡庸表現DB545を、新奇性分析装置600に通知する処理部である。
図25は、本実施例3に係る新奇性分析装置の構成を示す機能ブロック図である。図25に示すように、この新奇性分析装置600は、通信部610と、入力部620と、表示部630と、記憶部640と、制御部650とを有する。
通信部610は、凡庸分布DB生成装置500またはWeb20上の外部装置とデータ通信を行う処理部である。通信部610は、通信装置の一例である。後述する制御部650は、通信部610を介して、凡庸分布DB生成装置500またはWeb20上の外部装置とデータをやり取りする。
入力部620は、新奇性分析装置600に各種のデータを入力するための入力装置である。入力部620は、キーボードやマウス、タッチパネルなどに対応する。
表示部630は、制御部650から出力されるデータを表示する表示装置である。表示部630は、液晶ディスプレイやタッチパネルなどに対応する。
記憶部640は、文書データ641、表現テンプレートDB542、表現変換DB543、凡庸分布DB544、凡庸表現DB545を有する。記憶部640は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
文書データ641は、商品に関する文書のデータである。
表現テンプレートDB542、表現変換DB543、凡庸分布DB544、凡庸表現DB545に関する説明は、図23で説明した表現テンプレートDB542、表現変換DB543、凡庸分布DB544、凡庸表現DB545に関する説明と同様である。
制御部650は、受付部651、表現分割部652、特徴表現抽出部653、特徴表現変換部654、新奇性表現判定部655、提示部656を有する。制御部650は、CPUやMPUなどによって実現できる。また、制御部650は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。
受付部651は、入力部620またはWeb20上の外部装置から、文書データ641を受け付ける処理部である。受付部651は、文書データ641を、記憶部640に格納する。また、受付部651は、表現テンプレートDB542、表現変換DB543を受け付けた場合には、表現テンプレートDB542、表現変換DB543を記憶部640に格納する。また、受付部651は、凡庸分布DB生成装置500から、凡庸分布DB544、凡庸表現DB545を受け付けた場合に、凡庸分布DB544、凡庸表現DB545を、記憶部640に格納する。
表現分割部652は、文書データ641をフレーズ毎に分割することで、複数の表現データを生成する処理部である。表現分割部652は、分割した複数の表現データを、特徴表現抽出部653に出力する。
特徴表現抽出部653は、表現データと、表現テンプレートDB542の表現テンプレートとをマッチングさせることにより、特徴の種類毎に、表現データに含まれる、商品の特徴を表す表現を抽出する。特徴表現抽出部653は、特徴の種類と、商品の特徴を表す表現とを対応づけて、特徴表現変換部654に出力する。また、特徴表現抽出部653は、特徴の種類と、商品の特徴を表す表現とを対応づけて、新奇性表現判定部655に出力する。
特徴表現変換部654は、特徴の種類に対応する表現変換DB543の表現変換パターンを基にして、商品の特徴を表す表現を、物理量に変換する処理部である。特徴表現変換部654は、特徴の種類と、変換した物理量とを対応づけて、新奇性表現判定部655に出力する。
新奇性表現判定部655は、特徴の種類に対応する凡庸分布DB544の凡庸分布と、特徴の種類に対応する凡庸表現DB545の出現頻度とを基にして、文書データ641の表現データの新奇性の有無を判定する処理部である。新奇性表現判定部655は、判定結果を提示部656に出力する。新奇性表現判定部655は、実施例1で説明した新奇性表現判定部255と同様にして逸脱度を算出する。
新奇性表現判定部655は、特徴の種類に対応する凡庸表現DB545の凡庸表現のうち、商品の特徴を表す表現に対応する出現頻度を特定する。
新奇性表現判定部655は、逸脱度と、出現頻度の逆数とを基にして、表現データのスコアを算出する。たとえば、新奇性表現判定部655は、逸脱度と、出現頻度の逆数との合計、もしく重み付き合計、もしくは平均、もしくは重み付き平均、もしくは最大、もしくは重み付き最大を、スコアとして算出する。
新奇性表現判定部655は、スコアが閾値Q以上である場合に、該当する表現データに新奇性がある(新奇性が高い)と判定する。新奇性表現判定部655は、スコアが閾値Q未満である場合に、該当する表現データに新奇性がない(新奇性が低い)と判定する。なお、閾値Qは、事前にアンケートに基づき決定される値である。また、実施例1と同様にして、閾値Aは、特徴の種類に応じて、異なる閾値Qを用いてもよい。
提示部656は、新奇性表現判定部655の判定結果を基にして、新奇性のある表現データを、表示部630に提示する処理部である。
次に、本実施例3に係る凡庸分布DB生成装置500の処理手順の一例について説明する。図26は、本実施例3に係る凡庸分布DB生成装置の処理手順を示すフローチャートである。なお、凡庸分布DB生成装置500が、凡庸分布DB544を生成する処理手順は、図9に示した処理と同様であるため、説明を省略する。
図26に示すように、凡庸分布DB生成装置500の特徴表現抽出部653は、文書データと、表現テンプレートDB542とマッチングする。特徴表現抽出部653は、特徴の種類毎に、閲覧済みWebサイトに出現した、商品の特徴を表す表現(凡庸表現)を抽出する。
凡庸分布DB生成装置500の出現頻度算出部555は、表現の出現頻度を算出する(ステップS502)。具体的には、特徴の種類ごとに、次を実施する。まず、特徴表現抽出部により抽出された凡庸表現ごとに、出現回数をカウントする。そして、全ての凡庸表現の出現回数に対する割合を、当該凡庸表現の出現頻度として算出する。出現頻度算出部555は、特徴の種類と、凡庸表現と、出現頻度とを対応づけて、凡庸表現DB545に格納する(ステップS503)。
次に、本実施例3に係る新奇性分析装置600の処理手順の一例について説明する。図27は、本実施例3に係る新奇性分析装置の処理手順を示すフローチャートである。図27に示すように、新奇性分析装置600の受付部651は、商品に関する文書データ641を受け付ける(ステップS601)。
新奇性分析装置600の表現分割部652は、商品に関する文書データ641を表現データに分割する(ステップS602)。新奇性分析装置600の特徴表現抽出部653は、分割した各表現データのうち、未選択の表現データを選択する(ステップS603)。
特徴表現抽出部653は、選択した表現データと表現テンプレートD542の表現テンプレートとマッチングし、商品の特徴を表す表現を抽出する(ステップS604)。新奇性分析装置600の特徴表現変換部654は、表現変換DB543に基づいて、商品の特徴を表す表現を、物理量に変換する(ステップS605)。
新奇性分析装置600の新奇性表現判定部655は、物理量と、凡庸分布DB544とを基にして、逸脱度を算出する(ステップS606)。新奇性表現判定部655は、凡庸表現DB545を基にして、表現に対応する凡庸表現の出現頻度を特定する(ステップS607)。
新奇性表現判定部655は、表現の逸脱度と、出現頻度とを基にして、スコアを算出する(ステップS608)。新奇性表現判定部655は、スコアが閾値Q以上である場合に、選択した表現データの新奇性が高いと判定する(ステップS609)。
新奇性分析装置600は、全ての表現データを選択していない場合には(ステップS610,No)、ステップS603に移行する。新奇性分析装置600は、全ての表現データを選択した場合には(ステップS610,Yes)、ステップS611に移行する。
新奇性分析装置600の提示部656は、新奇性が高いと判定された表現データを、表示部630に提示する(ステップS611)。
次に、本実施例3に係る新奇性分析装置600の効果について説明する。新奇性分析装置600は、逸脱度に加えて、表現自体の出現頻度も考慮して、新奇性に関するスコアを算出し、新奇性の有無を判定する。これにより、新奇性の有無を高精度に判定することができる。たとえば、「ペールピンク」という表現に関する新奇性判定において、その表現に対応する物理量「RGB値」の他に、その表現自体について、新奇性があるかを判定することができる。
また、ここでは、凡庸分布DB生成装置500と新奇性分析装置600とに分けて、事前処理と、新奇性判定の処理とを実行する場合について説明したがこれに限定されるものではない。新奇性分析装置600が、凡庸分布DB生成装置500の機能部を有し、新奇性分析装置600が、事前処理および新奇性判定の処理を実行しても良い。
図28は、本実施例4に係る新奇性分析システムの一例を示す図である。図28に示すように、この新奇性分析システムは、凡庸分布DB生成装置700と、新奇性分析装置800とを有する。凡庸分布DB生成部700および新奇性分析装置800は、相互に接続される。また、凡庸分布DB生成部700および新奇性分析装置800は、Web20に接続される。
本実施例4では、ユーザが商品カテゴリを新奇性分析装置800に入力すると、新奇性分析装置800は、入力された商品カテゴリに分類される文書データのうち、新奇性の高い商品の記事を含む文書データを、ユーザに提示する。
図29は、本実施例4に係る凡庸分布DB生成装置の構成を示す機能ブロック図である。図29に示すように、この凡庸分布DB生成装置700は、通信部710と、入力部720と、表示部730と、記憶部740と、制御部750とを有する。
通信部710は、新奇性分析装置800またはWeb20上の外部装置とデータ通信を行う処理部である。通信部710は、通信装置の一例である。後述する制御部750は、通信部710を介して、新奇性分析装置800またはWeb20上の外部装置とデータをやり取りする。
入力部720は、凡庸分布DB生成装置700に各種のデータを入力するための入力装置である。入力部720は、キーボードやマウス、タッチパネルなどに対応する。
表示部730は、制御部750から出力されるデータを表示する表示装置である。表示部730は、液晶ディスプレイやタッチパネルなどに対応する。
記憶部740は、文書DB741、商品カテゴリ判定テーブル742、表現テンプレートDB743、表現変換DB744、凡庸分布DB745を有する。記憶部740は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
文書DB741は、ニュース記事等の読者が閲覧済みの文書データを格納するデータベースである。文書データは、複数の文章表現が集まったものである。
商品カテゴリ判定テーブル742は、文書データの商品カテゴリを判定する場合に用いられるものである。商品カテゴリ判定テーブル742のデータ構造は、図16に示した商品カテゴリ判定テーブル342のデータ構造と同様である。
表現テンプレートDB743は、商品の特徴を表す表現の対応部分と、対応部分周辺の表現についての情報を有するものである。表現テンプレートDB743のデータ構造は、図4に示した表現テンプレートDB142のデータ構造と同様である。
表現変換DB744は、特徴の種類、および、表現の対応部分を物理量に変換する規則を表す表現変換パターンを格納するものである。表現変換DB744のデータ構造は、図5に示した表現変換DB143のデータ構造と同様である。
凡庸分布DB745は、商品カテゴリ毎に、文書データに含まれる複数の表現の物理量に基づく確率密度を格納するものである。凡庸分布DB745のデータ構造は、図17に示した凡庸分布DB345のデータ構造と同様である。
制御部750は、文書収集部751、商品カテゴリ判定部752、特徴表現抽出部753、特徴表現変換部754、凡庸分布算出部755、通知部756を有する。制御部750は、CPUやMPUなどによって実現できる。また、制御部750は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。
文書収集部751は、Web20から、ニュース記事等の文書データを収集する処理部である。文書収集部751は、収集した文書データを、文書DB741に格納する。
商品カテゴリ判定部752は、商品カテゴリ判定テーブル742を基にして、文書DB741に格納された文書データの商品カテゴリを判定する処理部である。商品カテゴリ判定部752は、判定した商品カテゴリと対応づけて、文書データを、特徴表現抽出部753に出力する。商品カテゴリ判定部752が文書データの商品カテゴリを判定する処理は、実施例2で説明した商品カテゴリ判定部352の処理と同様である。
特徴表現抽出部753は、文書データをフレーズ毎に分割することで、複数の表現データを生成する。また、特徴表現抽出部753は、表現データと、表現テンプレートDB743の表現テンプレートとをマッチングさせることにより、特徴の種類毎に、表現データに出現した、商品の特徴を表す表現を抽出する。特徴表現抽出部753が、商品の特徴を表す表現を抽出する処理は、実施例1で説明した特徴表現抽出部152の処理と同様である。
特徴表現抽出部753は、商品カテゴリと、特徴の種類と、商品の特徴を表す表現とを対応づけて、特徴表現変換部754に出力する。
特徴表現変換部754は、特徴の種類に対応する表現変換DB744の表現変換パターンを基にして、商品の特徴を表す表現を、物理量に変換する処理部である。特徴表現変換部754が、商品の特徴を表す表現を、物理量に変換する処理は、実施例1で説明した特徴表現変換部153の処理と同様である。特徴表現変換部754は、商品カテゴリと、特徴の種類と、変換した物理量とを対応づけて、凡庸分布算出部755に出力する。
凡庸分布算出部755は、特徴表現変換部754から受け付ける特徴の種類と、物理量とを商品カテゴリ毎に、凡庸分布DB745に格納する処理部である。
また、凡庸分布算出部755は、各商品カテゴリについて、特徴の種類毎に、物理量の確率密度を推定することにより、商品の特徴分布を表す確率密度を算出してもよい。凡庸分布算出部755が、確率密度を算出する処理は、実施例1で説明した凡庸分布算出部154の処理と同様である。
通知部756は、凡庸分布DB745を、新奇性分析装置400に通知する処理部である。
図30は、本実施例4に係る新奇性分析装置の構成を示す機能ブロック図である。図30に示すように、この新奇性分析装置800は、通信部810と、入力部820と、表示部830と、記憶部840と、制御部850とを有する。
通信部810は、凡庸分布DB生成装置700またはWeb20上の外部装置とデータ通信を行う処理部である。通信部810は、通信装置の一例である。後述する制御部850は、通信部810を介して、凡庸分布DB生成装置700またはWeb20上の外部装置とデータをやり取りする。
入力部820は、新奇性分析装置800に各種のデータを入力するための入力装置である。入力部820は、キーボードやマウス、タッチパネルなどに対応する。
表示部830は、制御部850から出力されるデータを表示する表示装置である。表示部830は、液晶ディスプレイやタッチパネルなどに対応する。
記憶部840は、文書DB841、商品カテゴリ判定テーブル742、表現テンプレートDB743、表現変換DB744、凡庸分布DB745を有する。記憶部840は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
文書DB841は、後述する受付部851が、ユーザから商品カテゴリを受け付けたタイミングで、文書収集部852により収集される文書データを格納するデータベースである。文書DB841の文書データは、Web20上のニュース記事などに対応する。
商品カテゴリ判定テーブル742、表現テンプレートDB743、表現変換DB744、凡庸分布DB745に関する説明は、図29で説明した、商品カテゴリ判定テーブル742、表現テンプレートDB743、表現変換DB744、凡庸分布DB745に関する説明と同様である。説明を省略するが、商品カテゴリ判定テーブル742、表現テンプレートDB743、表現変換DB744、凡庸分布DB745は、凡庸分布DB生成装置700から通知され、記憶部840に格納される。
制御部850は、受付部851、文書収集部852と、商品カテゴリ判定部853、表現分割部854、特徴表現抽出部855、特徴表現変換部856、新奇性表現判定部857、提示部858を有する。制御部850は、CPUやMPUなどによって実現できる。また、制御部850は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。
受付部851は、入力部820から、商品カテゴリの指定を受け付ける処理部である。以下の説明では、入力部820から受け付けた商品カテゴリを「指定商品カテゴリ」と表記する。受付部851は、指定商品カテゴリのデータを、商品カテゴリ判定部853に出力する。また、受付部851は、商品カテゴリの指定を受け付けた旨を、文書収集部852に出力する。
文書収集部852は、受付部851が商品カテゴリの指定を受けたタイミングで、Web20から、ニュース記事等の文書データを収集する処理部である。文書収集部852は、収集した文書データを、文書DB841に格納する。
商品カテゴリ判定部853は、文書DB841に格納された文書データのうち、指定商品カテゴリと同一の商品カテゴリに分類される文書データを取得する処理部である。商品カテゴリ判定部853は、指定商品カテゴリと同一の商品カテゴリに分類される文書データを、表現分割部854に出力する。
商品カテゴリ判定部853は、文書データと、商品カテゴリ判定テーブル742とを基にして、文書データの商品カテゴリを判定する。商品カテゴリ判定部853が、文書データの商品カテゴリを判定する処理は、実施例2で説明した商品カテゴリ判定部352の処理と同様である。
表現分割部854は、文書データをフレーズ毎に分割することで、複数の表現データを生成する処理部である。表現分割部854は、商品カテゴリと、分割した複数の表現データとを、特徴表現抽出部855に出力する。表現分割部854が、表現データを生成する処理は、実施例1で説明した表現分割部252の処理と同様である。
特徴表現抽出部855は、表現データと、表現テンプレートDB743の表現テンプレートとをマッチングさせることにより、特徴の種類毎に、表現データに含まれる、商品の特徴を表す表現を抽出する。特徴表現抽出部855は、指定商品カテゴリと、特徴の種類と、商品の特徴を表す表現とを対応づけて、特徴表現変換部856に出力する。特徴表現抽出部855が、商品の特徴を表す表現を抽出する処理は、実施例1で説明した特徴表現抽出部253の処理と同様である。
特徴表現変換部856は、特徴の種類に対応する表現変換DB744の表現変換パターンを基にして、商品の特徴を表す表現を、物理量に変換する処理部である。特徴表現変換部856は、指定商品カテゴリと、特徴の種類と、変換した物理量とを対応づけて、新奇性表現判定部857に出力する。特徴表現変換部856が、商品の特徴を表す表現を、物理量に変換する処理は、実施例1で説明した特徴表現変換部254の処理と同様である。
新奇性表現判定部857は、指定商品カテゴリおよび特徴の種類に対応する凡庸分布DB745の凡庸分布と、物理量とを基にして、文書データの表現データの新奇性の有無を判定する処理部である。たとえば、新奇性表現判定部456は、文書データに含まれる複数の表現データのうち、所定数以上の表現データに新奇性があると判定した場合には、係る文書データを、提示部457に出力する。新奇性表現判定部456が、表現データの新奇性の有無を判定する処理は、実施例2で説明した新奇性表現判定部456の処理と同様である。
提示部858は、新奇性表現判定部857から受け付ける、新奇性のある文書データを、表示部830に提示する処理部である。
次に、本実施例4に係る凡庸分布DB生成装置700の処理手順の一例について説明する。図31は、本実施例4に係る凡庸分布DB生成装置の処理手順を示すフローチャートである。図31に示すように、凡庸分布DB生成装置700の文書収集部751は、Web20からニュース記事などの文書データを収集する(ステップS701)。なお、商品カテゴリ判定テーブル742、表現テンプレートDB743、表現変換DB744は、予め、記憶部740に記憶される。
凡庸分布DB生成装置700の商品カテゴリ判定部752は、商品カテゴリ判定テーブル742を基にして、文書データ毎に、商品カテゴリを判定する(ステップS702)。特徴表現抽出部753は、文書データと、表現テンプレートDB743の表現テンプレートとマッチングする。特徴表現抽出部753は、特徴の種類毎に、文書データに出現した、商品の特徴を表す表現を抽出する(ステップS703)。
凡庸分布DB生成装置700の特徴表現変換部754は、表現変換DB744に基づいて、商品の特徴を表す表現を、物理量に変換する(ステップS704)。凡庸分布DB生成装置700の凡庸分布算出部755は、該当する商品カテゴリと対応づけて、商品の特徴を表す各表現の物理量を、凡庸分布DB745に格納する(ステップS705)。ステップS705において、凡庸分布算出部755は、物理量の確率密度を推定することで、凡庸分布を算出し、凡庸分布DB745に格納しても良い。
次に、本実施例4に係る新奇性分析装置800の処理手順の一例について説明する。図32は、本実施例4に係る新奇性分析装置の処理手順を示すフローチャートである。図32に示すように、新奇性分析装置800の受付部851は、指定商品カテゴリを受け付ける(ステップS801)。
新奇性分析装置800の文書収集部852は、Web20からニュース記事等の文書データを収集する(ステップS802)。新奇性分析装置800の商品カテゴリ判定部853は、指定商品カテゴリと同一の商品カテゴリとなる文書データを判定する(ステップS803)。
新奇性分析装置800の表現分割部854は、指定商品カテゴリに対応する文書データを表現データに分割する(ステップS804)。新奇性分析装置800の特徴表現抽出部855は、分割した各表現データのうち、未選択の表現データを選択する(ステップS805)。
特徴表現抽出部855は、選択した表現データと表現テンプレートDB743の表現テンプレートとマッチングし、商品の特徴を表す表現を抽出する(ステップS806)。新奇性分析装置800の特徴表現変換部856は、表現変換DB744に基づいて、商品の特徴を表す表現を、物理量に変換する(ステップS807)。
新奇性分析装置800の新奇性表現判定部857は、物理量と、凡庸分布DB745とを基にして、逸脱度を算出する(ステップS808)。新奇性表現判定部857は、逸脱度が閾値q以上である場合に、選択した表現データの新奇性が高い(新奇性有り)と判定する(ステップS809)。
新奇性分析装置800は、全ての表現データを選択していない場合には(ステップS810,No)、ステップS805に移行する。新奇性分析装置800は、全ての表現データを選択した場合には(ステップS810,Yes)、ステップS811に移行する。
新奇性分析装置800の提示部858は、指定商品カテゴリの文書データのうち、新奇性が高いと判定された表現データの数が閾値以上となる文書データを提示する(ステップS811)。
図33は、本実施例4に係るUIの一例を示す図である。ユーザは、表示部830の画面830aを参照し、入力部820を操作して、入力領域40aに指定商品カテゴリを入力する。ユーザは、指定商品カテゴリを入力した後に、実行ボタン41を押下する。新奇性分析装置800は、実行ボタン41の押下を受け付けると、Web20から文書データを収集する。新奇性分析装置800は、収集した文書データのうち、指定商品カテゴリに分類され、新奇性の高い表現データを有する文書データを抽出し、表示領域40bに表示する。新奇性分析装置800は、Web20上の文書データの位置を示すURL(Uniform Resource Locator)を、表示領域40bに表示させても良い。
次に、本実施例4に係る新奇性分析装置800の効果について説明する。新奇性分析装置800は、ユーザから指定商品カテゴリを受け付けると、この指定商品カテゴリに分類される文書データから、新奇性の表現を有する文書データを抽出して提示する。これにより、ユーザは、提示された文書データ(記事)を読むことで、商品の最新動向を把握することができる。
実施例4について補足を行う。新奇性分析装置800の文書収集部852は、ユーザの操作なしに、定期的に文書データを収集して、文書DB841に格納しても良い。また、文書収集部852は、文書データを予め収集しておき、作成日時を基にして、過去文書データと、現在文書データとに分類しても良い。各処理部853〜858は、現在文書データに対して、処理を実行する。
また、ここでは、凡庸分布DB生成装置700と新奇性分析装置800とに分けて、事前処理と、新奇性判定の処理とを実行する場合について説明したがこれに限定されるものではない。新奇性分析装置800が、凡庸分布DB生成装置700の機能部を有し、新奇性分析装置800が、事前処理および新奇性判定の処理を実行しても良い。
次に、上記実施例に示した凡庸分布DB生成装置100(300,500,700)と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図34は、凡庸分布生成装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
図34に示すように、コンピュータ60は、各種演算処理を実行するCPU61と、ユーザからのデータの入力を受け付ける入力装置62と、ディスプレイ63とを有する。また、コンピュータ60は、記憶媒体からプログラム等を読み取る読み取り装置64と、有線または無線ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置65とを有する。また、コンピュータ60は、各種情報を一時記憶するRAM66と、ハードディスク装置67とを有する。そして、各装置61〜67は、バス68に接続される。
ハードディスク装置67は、受付プログラム67a、文書収集プログラム67b、商品カテゴリ判定プログラム67c、特徴表現抽出プログラム67dを有する。ハードディスク装置67は、特徴表現変換プログラム67e、凡庸分布算出プログラム67f、通知プログラム67gを有する。CPU61は、各プログラム67a〜67gを読み出して、RAM66に展開する。
受付プログラム67aは、受付プロセス66aとして機能する。文書収集プログラム67bは、文書収集プロセス66bとして機能する。商品カテゴリ判定プログラム67cは、商品カテゴリ判定プロセス66cとして機能する。特徴表現抽出プログラム67dは、特徴表現抽出プロセス66dとして機能する。特徴表現変換プログラム67eは、特徴表現変換プロセス66eとして機能する。凡庸分布算出プログラム67fは、凡庸分布算出プロセス66fとして機能する。通知プログラム67gは、通知プロセス66gとして機能する。
受付プロセス66aの処理は、受付部151,351,551の処理に対応する。文書収集プロセス66bの処理は、文書収集部751の処理に対応する。商品カテゴリ判定プロセス66cの処理は、商品カテゴリ判定部352,752の処理に対応する。特徴表現抽出プロセス66dの処理は、特徴表現抽出部152,353,552,753の処理に対応する。特徴表現変換プロセス66eの処理は、特徴表現変換部153,354,553,754の処理に対応する。凡庸分布算出プロセス66fの処理は、凡庸分布算出部154,355,554,755の処理に対応する。また、凡庸分布算出プロセス66fは、出現頻度算出部555に対応する処理を実行する。通知プロセス66gの処理は、通知部155,356,556,756の処理に対応する。
なお、各プログラム67a〜67gについては、必ずしも最初からハードディスク装置67に記憶させておかなくても良い。例えば、コンピュータ60に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ60が各プログラム67a〜67gを読み出して実行するようにしても良い。
次に、上記実施例に示した新奇性分析装置200(400,600,800)と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図35は、新奇性分析装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
図35に示すように、コンピュータ70は、各種演算処理を実行するCPU71と、ユーザからのデータの入力を受け付ける入力装置72と、ディスプレイ73とを有する。また、コンピュータ70は、記憶媒体からプログラム等を読み取る読み取り装置74と、有線または無線ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置75とを有する。また、コンピュータ70は、各種情報を一時記憶するRAM76と、ハードディスク装置77とを有する。そして、各装置71〜77は、バス78に接続される。
ハードディスク装置77は、受付プログラム77a、文書収集プログラム77b、商品カテゴリ判定プログラム77c、表現分割プログラム77d、特徴表現抽出プログラム77eを有する。ハードディスク装置77は、特徴表現変換プログラム77f、新奇性表現判定プログラム77g、提示プログラム77hを有する。CPU71は、各プログラム77a〜77hを読み出して、RAM76に展開する。
受付プログラム77aは、受付プロセス76aとして機能する。文書収集プログラム77bは、文書収集プロセス76bとして機能する。商品カテゴリ判定プログラム77cは、商品カテゴリ判定プロセス76cとして機能する。表現分割プログラム77dは、表現分割プロセス76dとして機能する。特徴表現抽出プログラム77eは、特徴表現抽出プロセス76eとして機能する。特徴表現変換プログラム77fは、特徴表現変換プロセス76eとして機能する。凡庸分布算出プログラム77fは、凡庸分布算出プロセス76fとして機能する。新奇性表現判定プログラム77gは、新奇性表現判定プロセス76gとして機能する。提示プログラム77hは、提示プロセス76hとして機能する。
受付プロセス76aの処理は、受付部251,451,651,851の処理に対応する。文書収集プロセス76bの処理は、文書収集部853の処理に対応する。商品カテゴリ判定プロセス76cの処理は、商品カテゴリ判定部452,853の処理に対応する。表現分割プロセス76dの処理は、表現分割部252,453,652,854の処理に対応する。特徴表現抽出プロセス76eの処理は、特徴表現抽出部253,454,653,855の処理に対応する。特徴表現変換プロセス76fの処理は、特徴表現変換部254,455,654,856の処理に対応する。新奇性表現判定プロセス76gの処理は、新奇性表現判定部255,456,655,857の処理に対応する。提示プロセス76hの処理は、提示部256,457,656,858の処理に対応する。
なお、各プログラム77a〜77hについては、必ずしも最初からハードディスク装置77に記憶させておかなくても良い。例えば、コンピュータ70に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ70が各プログラム77a〜77hを読み出して実行するようにしても良い。
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)処理対象とする文書データの中から抽出された表現データを取得し、所定の表現データの特徴および物理量を対応づけた表現変換テーブルと、前記表現データの特徴とを基にして、前記表現データを物理量に変換する特徴表現変換部と、
特徴の種類と、前記特徴の物理量を確率変数とする確率密度とを対応づけた凡庸分布テーブルを基にして、前記表現データの特徴の種類に対する前記表現データの物理量の逸脱度を特定し、特定した逸脱度を基にして、前記表現データの新奇性の有無もしくは大きさを判定する新奇性表現判定部と
を有することを特徴とする新奇性分析装置。
(付記2)前記文書データの商品カテゴリを判定する商品カテゴリ判定部を更に有し、前記凡庸分布テーブルは、商品カテゴリ毎に、前記特徴の種類と前記確率密度とを対応付け、
前記新奇性表現判定部は、前記商品カテゴリ判定部の判定結果となる商品カテゴリに対応する前記特徴の種類と前記確率密度とを基にして、前記表現データの特徴に対応する前記表現データの物理量の逸脱度を特定することを特徴とする付記1に記載の新奇性分析装置。
(付記3)前記特徴の種類と、前記所定の表現データの出現頻度とを対応づけた凡庸頻度テーブルを更に有し、前記新奇性表現判定部は、前記凡庸頻度テーブルを基にして、前記表現データの特徴の種類に対する前記表現データの出現頻度を特定し、特定した出現頻度と、前記逸脱度とを基にして、前記表現データの新奇性の有無もしくは大きさを判定することを特徴とする付記1または2に記載の新奇性分析装置。
(付記4)商品カテゴリの指定を受け付ける受付部と、ネットワークを介して複数の文書データを収集する文書収集部とを更に有し、
前記商品カテゴリ判定部は、前記複数の文書データのうち、指定された商品カテゴリに対応する文書データを選択し、前記特徴表現変換部は、選択された文書データを複数の表現データに分割し、前記新奇性表現判定部は、新奇性を有する表現データを所定数以上有する文書データを、前記複数の文書データの中から判定することを特徴とする付記2に記載の新奇性分析装置。
(付記5)前記文書収集部により収集された複数の文書データに対する前記特徴表現変換部の処理結果を基にして、前記文書収集部により収集された複数の文書データに含まれる複数の表現データに関する、特徴の種類と、前記特徴の物理量を確率変数とする確率密度とを商品カテゴリ毎に対応づけることで、前記凡庸分布テーブルを生成する凡庸分布算出部を更に有することを特徴とする付記4に記載の新奇性分析装置。
(付記6)新奇性分析装置および凡庸分布生成装置を有する新奇性分析システムであって、
前記凡庸分布生成装置は、
表現データの特徴の種類と、前記特徴の物理量を確率変数とする確率密度とを対応づけた凡庸分布テーブルを生成し、
前記新奇性分析装置は、
処理対象とする文書データの中から抽出された表現データを取得し、所定の表現データの特徴および物理量を対応づけた表現変換テーブルと、前記表現データの特徴とを基にして、前記表現データを物理量に変換する特徴表現変換部と、
前記凡庸分布テーブルを基にして、前記表現データの特徴の種類に対する前記表現データの物理量の逸脱度を特定し、特定した逸脱度を基にして、前記表現データの新奇性の有無もしくは大きさを判定する新奇性表現判定部と
を有することを特徴とする新奇性分析システム。
(付記7)コンピュータに、
処理対象とする文書データの中から抽出された表現データを取得し、所定の表現データの特徴および物理量を対応づけた表現変換テーブルと、前記表現データの特徴とを基にして、前記表現データを物理量に変換し、
特徴の種類と、前記特徴の物理量を確率変数とする確率密度とを対応づけた凡庸分布テーブルを基にして、前記表現データの特徴の種類に対する前記表現データの物理量の逸脱度を特定し、特定した逸脱度を基にして、前記表現データの新奇性の有無もしくは大きさを判定する
処理を実行させることを特徴とする新奇性分析プログラム。
(付記8)コンピュータに、前記文書データの商品カテゴリを判定する処理を更に実行させ、前記凡庸分布テーブルは、商品カテゴリ毎に、前記特徴の種類と前記確率密度とを対応付け、
前記逸脱度を特定する処理は、前記商品カテゴリ判定部の判定結果となる商品カテゴリに対応する前記特徴の種類と前記確率密度とを基にして、前記表現データの特徴に対応する前記表現データの物理量の逸脱度を特定することを特徴とする付記7に記載の新奇性分析プログラム。
(付記9)コンピュータは、前記特徴の種類と、前記所定の表現データの出現頻度とを対応づけた凡庸頻度テーブルを更に有し、前記新奇性の有無もしくは大きさを判定する処理は、前記凡庸頻度テーブルを基にして、前記表現データの特徴の種類に対する前記表現データの出現頻度を特定し、特定した出現頻度と、前記逸脱度とを基にして、前記表現データの新奇性の有無もしくは大きさを判定することを特徴とする付記7または8に記載の新奇性分析プログラム。
(付記10)コンピュータに、商品カテゴリの指定を受け付ける処理と、ネットワークを介して複数の文書データを収集する処理とを更に実行させ、
前記商品カテゴリを判定する処理は、前記複数の文書データのうち、指定された商品カテゴリに対応する文書データを選択し、選択された文書データを複数の表現データに分割し、前記新奇性を判定する処理は、新奇性を有する表現データを所定数以上有する文書データを、前記複数の文書データの中から判定することを特徴とする付記9に記載の新奇性分析プログラム。
(付記11)コンピュータに、収集された複数の文書データに含まれる複数の表現データに関する、特徴の種類と、前記特徴の物理量を確率変数とする確率密度とを商品カテゴリ毎に対応づけることで、前記凡庸分布テーブルを生成する処理を更に実行させることを特徴とする付記10に記載の新奇性分析プログラム。
(付記12)コンピュータが実行する新奇性分析方法であって、
処理対象とする文書データの中から抽出された表現データを取得し、所定の表現データの特徴および物理量を対応づけた表現変換テーブルと、前記表現データの特徴とを基にして、前記表現データを物理量に変換し、
特徴の種類と、前記特徴の物理量を確率変数とする確率密度とを対応づけた凡庸分布テーブルを基にして、前記表現データの特徴の種類に対する前記表現データの物理量の逸脱度を特定し、特定した逸脱度を基にして、前記表現データの新奇性の有無もしくは大きさを判定する
処理を実行することを特徴とする新奇性分析方法。
(付記13)コンピュータは、前記文書データの商品カテゴリを判定する処理を更に実行し、前記凡庸分布テーブルは、商品カテゴリ毎に、前記特徴の種類と前記確率密度とを対応付け、
前記逸脱度を特定する処理は、前記商品カテゴリ判定部の判定結果となる商品カテゴリに対応する前記特徴の種類と前記確率密度とを基にして、前記表現データの特徴に対応する前記表現データの物理量の逸脱度を特定することを特徴とする付記12に記載の新奇性分析方法。
(付記14)コンピュータは、前記特徴の種類と、前記所定の表現データの出現頻度とを対応づけた凡庸頻度テーブルを更に有し、前記新奇性の有無もしくは大きさを判定する処理は、前記凡庸頻度テーブルを基にして、前記表現データの特徴の種類に対する前記表現データの出現頻度を特定し、特定した出現頻度と、前記逸脱度とを基にして、前記表現データの新奇性の有無もしくは大きさを判定することを特徴とする付記12または13に記載の新奇性分析方法。
(付記15)コンピュータは、商品カテゴリの指定を受け付ける処理と、ネットワークを介して複数の文書データを収集する処理とを更に実行し、
前記商品カテゴリを判定する処理は、前記複数の文書データのうち、指定された商品カテゴリに対応する文書データを選択し、選択された文書データを複数の表現データに分割し、前記新奇性を判定する処理は、新奇性を有する表現データを所定数以上有する文書データを、前記複数の文書データの中から判定することを特徴とする付記12に記載の新奇性分析方法。
(付記16)コンピュータは、収集された複数の文書データに含まれる複数の表現データに関する、特徴の種類と、前記特徴の物理量を確率変数とする確率密度とを商品カテゴリ毎に対応づけることで、前記凡庸分布テーブルを生成する処理を更に実行することを特徴とする付記15に記載の新奇性分析方法。