JP2018194975A

JP2018194975A - 新奇性分析装置、新奇性分析システム、新奇性分析プログラムおよび新奇性分析方法

Info

Publication number: JP2018194975A
Application number: JP2017096815A
Authority: JP
Inventors: 淳哉斎藤; Junya Saito; 村瀬　健太郎; Kentaro Murase; 健太郎村瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-05-15
Filing date: 2017-05-15
Publication date: 2018-12-06
Anticipated expiration: 2037-05-15
Also published as: JP6841154B2

Abstract

【課題】文章表現の新奇性を高精度に判定する分析装置、システム、プログラムおよび方法を提供する。【解決手段】新奇性分析装置２００は、処理対象とする文書データの中から抽出された表現データを取得し、所定の表現データの特徴および物理量を対応づけた表現変換テーブルと、表現データの特徴とを基にして、表現データを物理量に変換する。特徴の種類と、特徴の物理量を確率変数とする確率密度とを対応づけた凡庸分布テーブルを基にして、表現データの特徴の種類に対する表現データの物理量の逸脱度を特定する。また、特定した逸脱度を基にして、表現データの新奇性の有無もしくは大きさを判定する。【選択図】図７

Description

本発明は、新奇性分析装置等に関する。

近年、デジタルマーケティング市場が拡大しており、広告文作成の材料となる、効果的な商品に対する文章表現を提示する技術に需要が高まっている。たとえば、商品に対する文章表現は、商品を説明するためのフレーズである。

一方で、広告文は、好奇心を刺激することで効果を高められると言われている。したがって、好奇心を刺激する、商品に対する文章表現を提示する技術が求められている。ここで、好奇心とは、「珍しいことや未知のことなどに興味を持つ心」とされているので、文章表現の新奇性を判定することで、好奇心を刺激する文章表現であるかを判定できると考えられる。

以下の説明では、好奇心を刺激する、商品に対する文章表現を「新奇性」の高い文章表現とする。新奇性とは、目新しさや珍しさを示す用語であり、心理学の論文（桜井、内発的動機づけに及ぼす言語的報酬と物質的報酬の影響の比較、教育心理学研究、1984）で使用されている。

特開２０１６−３８５９６号公報特開２００２−２９７６５９号公報特開２０１４−５９８１６号公報

しかしながら、従来技術では、文章表現の新奇性を高精度に判定することができないという問題がある。

１つの側面では、本発明は、文章表現の新奇性を高精度に判定することができる新奇性分析装置、新奇性分析システム、新奇性分析プログラムおよび新奇性分析方法を提供することを目的とする。

第１の案では、新奇性分析装置は、特徴表現変換部と、新奇性表現判定部とを有する。特徴表現変換部は、処理対象とする文書データの中から抽出された表現データを取得し、所定の表現データの特徴および物理量を対応づけた表現変換テーブルと、表現データの特徴とを基にして、表現データを物理量に変換する。新奇性表現判定部は、特徴の種類と、特徴の物理量を確率変数とする確率密度とを対応づけた凡庸分布テーブルを基にして、表現データの特徴の種類に対する表現データの物理量の逸脱度を特定する。また、新奇性表現判定部は、特定した逸脱度を基にして、表現データの新奇性の有無もしくは大きさを判定する。

文章表現の新奇性を高精度に判定することができる。

図１は、参考技術を説明するための図である。図２は、本実施例１に係る新奇性分析システムの一例を示す図である。図３は、本実施例１に係る凡庸分布ＤＢ生成装置の構成を示す機能ブロック図である。図４は、本実施例１に係る表現テンプレートＤＢのデータ構造の一例を示す図である。図５は、本実施例１に係る表現変換ＤＢのデータ構造の一例を示す図である。図６は、本実施例１に係る凡庸分布ＤＢのデータ構造の一例を示す図である。図７は、本実施例１に係る新奇性分析装置の構成を示す機能ブロック図である。図８は、本実施例１に係るＵＩの一例を示す図である。図９は、本実施例１に係る凡庸分布ＤＢ生成装置の処理手順を示すフローチャートである。図１０は、本実施例１に係る新奇性分析装置の処理手順を示すフローチャートである。図１１は、本実施例１に係る新奇性分析装置の効果の根拠を説明する図である。図１２は、本実施例１に係る表現テンプレートＤＢのその他のデータ構造を示す図（１）である。図１３は、本実施例１に係る表現テンプレートＤＢのその他のデータ構造を示す図（２）である。図１４は、本実施例２に係る新奇性分析システムの一例を示す図である。図１５は、本実施例２に係る凡庸分布ＤＢ生成装置の構成を示す機能ブロック図である。図１６は、本実施例２に係る商品カテゴリ判定テーブルのデータ構造の一例を示す図である。図１７は、本実施例２に係る凡庸分布ＤＢのデータ構造の一例を示す図である。図１８は、判定対象となる文書データの一例を示す図である。図１９は、本実施例２に係る新奇性分析装置の構成を示す機能ブロック図である。図２０は、本実施例２に係る凡庸分布ＤＢ生成装置の処理手順を示すフローチャートである。図２１は、本実施例２に係る新奇性分析装置の処理手順を示すフローチャートである。図２２は、本実施例３に係る新奇性分析システムの一例を示す図である。図２３は、本実施例３に係る凡庸分布ＤＢ生成装置の構成を示す機能ブロック図である。図２４は、本実施例３に係る凡庸表現ＤＢのデータ構造の一例を示す図である。図２５は、本実施例３に係る新奇性分析装置の構成を示す機能ブロック図である。図２６は、本実施例３に係る凡庸分布ＤＢ生成装置の処理手順を示すフローチャートである。図２７は、本実施例３に係る新奇性分析装置の処理手順を示すフローチャートである。図２８は、本実施例４に係る新奇性分析システムの一例を示す図である。図２９は、本実施例４に係る凡庸分布ＤＢ生成装置の構成を示す機能ブロック図である。図３０は、本実施例４に係る新奇性分析装置の構成を示す機能ブロック図である。図３１は、本実施例４に係る凡庸分布ＤＢ生成装置の処理手順を示すフローチャートである。図３２は、本実施例４に係る新奇性分析装置の処理手順を示すフローチャートである。図３３は、本実施例４に係るＵＩの一例を示す図である。図３４は、凡庸分布生成装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。図３５は、新奇性分析装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

以下に、本願の開示する新奇性分析装置、新奇性分析システム、新奇性分析プログラムおよび新奇性分析方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

以下の説明で用いる用語の定義を行う。
新奇性：文章表現の目新しさ・珍しさを示すものであり、心理学の論文（桜井、内発的動機づけに及ぼす言語的報酬と物質的報酬の影響の比較、教育心理学研究、1984）などで使用される用語である。
文章表現：１フレーズ程度のテキストを示す。「ＣＰＵ周波数は２ＧＨｚ」は、文章表現の一例である。
表現：文章表現の略であり、文章表現と同じ意味である。
文書：文章表現が集まったものである。「本日より、春モデルＰＣが発売されます。ＣＰＵ周波数は２ＧＨｚ、色はホワイトです。とても軽く持ち運びに便利で、様々なところでお使い頂けます。・・・」は、文書の一例である。

実施例１の説明を行う前に、発明者が想定する、表現の新奇性を判定する参考技術について説明する。この参考技術は、従来技術ではない。この参考技術は、ニュース記事など、世間一般の読者が閲覧済みの文書のデータに出現する表現の出現頻度を基にして、表現の新奇性の有無を判定する。たとえば、参考技術は、出現頻度が多い表現について、読者はたびたび目にしているため、新奇性がないと判定する。一方、参考技術は、出現頻度が少ない表現について、読者はほとんど目にしていないため、新奇性があると判定する。

図１は、参考技術を説明するための図である。図１に示すように、参考技術は、頻度ＤＢ（Data Base）１０ａと判定部１０ｂとを有する。

頻度ＤＢ１０ａは、表現と、この表現に対する読者の出現頻度とを対応づけたＤＢである。

判定部１０ｂは、判定対象の表現の入力を受け付けた場合に、頻度ＤＢ１０ａを基にして、表現の新奇性の有無を判定し、判定結果を出力する処理部である。判定対象の表現は、たとえば、広告文をつくりたい商品に関する記事本文をフレーズ毎に分割した１フレーズのテキストである。

判定部１０ｂは、判定対象の表現と、頻度ＤＢ１０ａとのマッチングにより、表現の出現頻度を特定する。判定部１０ｂは、判定対象の表現が「防水対応ＰＣ」である場合には、この表現に完全一致する頻度ＤＢの表現「防水対応ＰＣ」の出現頻度「０．０１」を、判定対象の表現の出現頻度として特定する。

判定部１０ｂは、特定した出現頻度が閾値以上である場合には、判定対象の表現に新奇性がないと判定する。判定部１０ｂは、特定した出現頻度が閾値未満である場合には、判定対象の表現に新奇性があると判定する。

ここで、参考技術は、完全一致表現の出現頻度に基づき、表現の新奇性を判定している。このため、表現に数値や色が含まれるような場合、実質的に新奇性が無くても、新奇性があると誤判定する場合がある。

たとえば、読者が閲覧済みの表現を、下記の様に、表現Ａ１、表現Ｂ１、表現Ｃ１とし、判定対象の表現を表現Ｘ１とする。
表現Ａ１：ＣＰＵ周波数１．６ＧＨｚのＰＣ
表現Ｂ１：ＣＰＵ周波数１．２ＧＨｚのＰＣ
表現Ｃ１：ＣＰＵ周波数１．３ＧＨｚのＰＣ
表現Ｘ１：ＣＰＵ周波数１．５ＧＨｚのＰＣ

参考技術が、表現Ｘ１の新奇性を判定する場合に、表現Ｘ１と完全一致する表現の出現頻度を用いることになる。しかし、表現Ｘ１と完全一致する表現が、閲覧済みの表現Ａ１〜Ｃ１に存在しないため、参考技術は、表現Ｘ１を新奇性のある表現と誤判定する。表現Ａ１〜Ｘ１は、概ね同じ数値を示しているため、表現Ｘ１は新奇性を有していないと言える。

読者が閲覧済みの表現を、下記の様に、表現Ａ２、表現Ｂ２とし、判定対象の表現を表現Ｘ２とする。
表現Ａ２：ねずみ色のＰＣ
表現Ｂ２：グレーのＰＣ
表現Ｘ２：灰色のＰＣ

参考技術が、表現Ｘ２の新奇性を判定する場合に、表現Ｘ２と完全一致する表現の出現頻度を用いることになる。しかし、表現Ｘ２と完全一致する表現が、閲覧済みの表現Ａ２、Ｂ２に存在しないため、参考技術は、表現Ｘ２を新奇性のある表現と誤判定する。表現Ａ２〜Ｘ２は、概ね同じ色を示しているため、表現Ｘ２は新奇性を有していないと言える。

上記のように、参考技術では、完全一致表現に基づく頻度により、表現の新奇性の有無を判定しているため、表現に数値や色が含まれるような場合、実質的に新奇性がない場合でも、新奇性があると誤判定されてしまうと言う問題がある。

次に、本実施例１について説明する。図２は、本実施例１に係る新奇性分析システムの一例を示す図である。図２に示すように、この新奇性分析システムは、凡庸分布ＤＢ生成装置１００と、新奇性分析装置２００とを有する。凡庸分布ＤＢ生成部１００および新奇性分析装置２００は、相互に接続される。また、凡庸分布ＤＢ生成部１００および新奇性分析装置２００は、Ｗｅｂ（World Wide Web）２０に接続される。

図３は、本実施例１に係る凡庸分布ＤＢ生成装置の構成を示す機能ブロック図である。図３に示すように、この凡庸分布ＤＢ生成装置１００は、通信部１１０と、入力部１２０と、表示部１３０と、記憶部１４０と、制御部１５０とを有する。凡庸分布ＤＢ生成装置１００は、凡庸分布生成装置の一例である。

通信部１１０は、新奇性分析装置２００またはＷｅｂ２０上の外部装置とデータ通信を行う処理部である。通信部１１０は、通信装置の一例である。後述する制御部１５０は、通信部１１０を介して、新奇性分析装置２００またはＷｅｂ２０上の外部装置とデータをやり取りする。

入力部１２０は、凡庸分布ＤＢ生成装置１００に各種のデータを入力するための入力装置である。入力部１２０は、キーボードやマウス、タッチパネルなどに対応する。

表示部１３０は、制御部１５０から出力されるデータを表示する表示装置である。表示部１３０は、液晶ディスプレイやタッチパネルなどに対応する。

記憶部１４０は、文書ＤＢ１４１、表現テンプレートＤＢ１４２、表現変換ＤＢ１４３、凡庸分布ＤＢ１４４を有する。記憶部１４０は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子や、ＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

文書ＤＢ１４１は、世間一般の読者が閲覧済みの文書のデータを格納するデータベースである。文書は、複数の文章表現が集まったものである。たとえば、文書は、ニュースサイトのテキスト記事が集まったものである。以下の説明では、文書のデータを、文書データと表記する。

表現テンプレートＤＢ１４２は、商品の特徴を表す表現の対応部分と、対応部分周辺の表現についての情報を有するものである。図４は、本実施例１に係る表現テンプレートＤＢのデータ構造の一例を示す図である。図４に示すように、この表現テンプレートＤＢ１４２は、特徴の種類と、表現テンプレートとを対応づける。たとえば、ユーザは、入力部１２０を操作して、表現テンプレートＤＢ１４２を作成する。

表現変換ＤＢ１４３は、特徴の種類、および、表現の対応部分を物理量に変換する規則を表す表現変換パターンを格納するものである。図５は、本実施例１に係る表現変換ＤＢのデータ構造の一例を示す図である。図５に示すように、この表現変換ＤＢ１４３は、特徴の種類と、表現変換パターンとを対応づける。たとえば、ユーザは、入力部１２０を操作して、表現変換ＤＢ１４３を作成する。

表現変換ＤＢ１４３は、特徴の種類がＣＰＵ周波数などの数値で表現されるものであるとき、数値を表す表現（漢数字を含む）から、数値に変換する規則を表現変換パターンで示す。たとえば、数値を表す表現が「１．６」である場合には、この表現「１．６」は、物理量「１．６」に変換される。

表現変換ＤＢ１４３は、特徴の種類が色に関するものであるとき、色を表す表現から、色空間の多次元ベクトル（ＲＧＢなど）に変換する規則を表現変換パターンで示す。たとえば、色を表す表現が「灰色」である場合には、この表現「灰色」は、物理量「１２１，１２１，１２１」に変換される。

凡庸分布ＤＢ１４４は、文書データに含まれる複数の表現の物理量に基づく確率密度を格納するものである。図６は、本実施例１に係る凡庸分布ＤＢのデータ構造の一例を示す図である。図６に示すように、この凡庸分布ＤＢ１４４は、特徴の種類と、物理量と、凡庸分布とを対応づける。

図３の説明に戻る。制御部１５０は、受付部１５１、特徴表現抽出部１５２、特徴表現変換部１５３、凡庸分布算出部１５４、通知部１５５を有する。制御部１５０は、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などによって実現できる。また、制御部１５０は、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などのハードワイヤードロジックによっても実現できる。

受付部１５１は、Ｗｅｂ２０上の外部装置から、世間一般の読者が閲覧済みの文書データを受け付けた場合に、受け付けた文書データを、文書ＤＢ１４１に格納する。受付部１５１は、入力部１２０から、表現テンプレートＤＢ１４２を受け付けた場合に、受け付けた表現テンプレートＤＢ１４２を、記憶部１４０に格納する。受付部１５１は、入力部１２０から、表現変換ＤＢ１４３を受け付けた場合に、受け付けた表現変換ＤＢ１４３を、記憶部１４０に格納する。

特徴表現抽出部１５２は、文書ＤＢ１４１に格納された文書データをフレーズ毎に分割することで、複数の表現データを生成する。特徴表現抽出部１５２は、各表現データについて、下記の処理を実行する。

特徴表現抽出部１５２は、表現データと、表現テンプレートＤＢ１４２の表現テンプレートとをマッチングさせることにより、特徴の種類毎に、表現データに出現した、商品の特徴を表す表現を抽出する。特徴表現抽出部１５２は、特徴の種類と、商品の特徴を表す表現とを対応づけて、特徴表現変換部１５３に出力する。

たとえば、各表現データ「ＣＰＵ周波数は１．６ＧＨｚ」、「ＣＰＵ周波数は２．０ＧＨｚ」、「ＣＰＵ周波数は１．３ＧＨｚ」、・・・は、表現テンプレートＤＢ１４２の表現テンプレート「ＣＰＵ周波数は○○ＧＨｚ」にヒットする。このため、特徴表現抽出部１５２は、各表現データから、特徴の種類「ＣＰＵ周波数」、商品の特徴を表す表現「１．６，２．０，１．３，・・・」を抽出する。

各表現データ「色は灰色」、「色は鉛色」、・・・は、表現テンプレートＤＢ１４２の表現テンプレート「色は○○」にヒットする。このため、特徴表現抽出部１５２は、各表現データから、特徴の種類「色」、商品の特徴を表す表現「灰色、鉛色、・・・」を抽出する。

特徴表現変換部１５３は、特徴の種類に対応する表現変換ＤＢ１４３の表現変換パターンを基にして、商品の特徴を表す表現を、物理量に変換する処理部である。特徴表現変換部１５３は、特徴の種類と、変換した物理量とを対応づけて、凡庸分布算出部１５４に出力する。

特徴表現変換部１５３が、特徴の種類「ＣＰＵ周波数」に対応する、商品の特徴を表す表現「１．６，２．０，１．３，・・・」を物理量に変換する処理について説明する。特徴の種別が「ＣＰＵ周波数」である場合には、表現変換ＤＢ１４３の表現変換パターンは「そのまま」となる。このため、特徴表現変換部１５３は、商品の特徴を表す表現「１．６，２．０，１．３，・・・」を物理量「１．６，２．０，１．３，・・・」に変換する。

特徴量変換部１５３が、特徴の種類「色」に対応する、商品の特徴を表す表現「灰色、鉛色、・・・」を物理量に変換する処理について説明する。特徴の種類が「色」である場合には、表現変換ＤＢ１４３の表現変換パターンは「色に対応するＲＧＢ値」となる。このため、特徴表現変換部１５３は、商品の特徴を表す表現「灰色、鉛色、・・・」を物理量「１２１，１２１，１２１，１２０，１１９，１３、・・・」に変換する。

凡庸分布算出部１５４は、特徴表現変換部１５３から受け付ける特徴の種類と、物理量とを凡庸分布ＤＢ１４４に格納する処理部である。

また、凡庸分布算出部１５４は、特徴の種類毎に、物理量の確率密度を推定することにより、商品の特徴分布を表す確率密度を算出してもよい。たとえば、凡庸分布算出部１５４は、カーネル密度推定を使うことで、物理量を確率変数とする確率密度を算出する。確率変数と確率密度との関係を、凡庸分布と表記する。凡庸分布算出部１５４は、特徴の種類に対応づけて、凡庸分布を、凡庸分布ＤＢ１４４に格納する。

凡庸分布において、確率密度が高いところは、新奇性が高いと言え、確率密度が低いところは、新奇性が高いと言える。たとえば、図６において、特徴の種類「ＣＰＵ周波数」に対応する凡庸分布を、凡庸分布１４４ａとする。凡庸分布１４４ａにおいて、物理量１ａ付近の確率密度が高いため、係る物理量１ａ付近のものは、新奇性が低い（新奇性がない）。これに対して、物理量１ａ付近から離れるほど確率密度が低いため、係る物理量１ａから離れたものは、新奇性が高い（新奇性がある）。

特徴の種類「色」に対応する凡庸分布を、凡庸分布１４４ｂとする。凡庸分布１４４ｂにおいて、物理量１ｂ付近の確率密度が高いため、係る物理量１ｂ付近のものは、新奇性が低い（新奇性がない）。これに対して、物理量１ｂ付近から離れるほど確率密度が低いため、係る物理量１ｂから離れたものは、新奇性が高い（新奇性がある）。

通知部１５５は、凡庸分布ＤＢ１４４を、新奇性分析装置２００に通知する処理部である。

図７は、本実施例１に係る新奇性分析装置の構成を示す機能ブロック図である。図７に示すように、この新奇性分析装置２００は、通信部２１０と、入力部２２０と、表示部２３０と、記憶部２４０と、制御部２５０とを有する。

通信部２１０は、凡庸分布ＤＢ生成装置１００またはＷｅｂ２０上の外部装置とデータ通信を行う処理部である。通信部２１０は、通信装置の一例である。後述する制御部２５０は、通信部２１０を介して、凡庸分布ＤＢ生成装置１００またはＷｅｂ２０上の外部装置とデータをやり取りする。

入力部２２０は、新奇性分析装置２００に各種のデータを入力するための入力装置である。入力部２２０は、キーボードやマウス、タッチパネルなどに対応する。

表示部２３０は、制御部２５０から出力されるデータを表示する表示装置である。表示部２３０は、液晶ディスプレイやタッチパネルなどに対応する。

記憶部２４０は、文書データ２４１、表現テンプレートＤＢ１４２、表現変換ＤＢ１４３、凡庸分布ＤＢ１４４を有する。記憶部２４０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

文書データ２４１は、商品に関する文書のデータである。

表現テンプレートＤＢ１４２、表現変換ＤＢ１４３、凡庸分布ＤＢ１４４に関する説明は、図３で説明した表現テンプレートＤＢ１４２、表現変換ＤＢ１４３、凡庸分布ＤＢ１４４に関する説明と同様である。

制御部２５０は、受付部２５１、表現分割部２５２、特徴表現抽出部２５３、特徴表現変換部２５４、新奇性表現判定部２５５、提示部２５６を有する。制御部２５０は、ＣＰＵやＭＰＵなどによって実現できる。また、制御部２５０は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

受付部２５１は、入力部２２０またはＷｅｂ２０上の外部装置から、文書データ２４１を受け付ける処理部である。受付部２５１は、文書データ２４１を、記憶部２４０に格納する。また、受付部２５１は、凡庸分布ＤＢ生成装置１００から、凡庸分布ＤＢ１４４を受け付けた場合に、凡庸分布ＤＢ１４４を、記憶部２４０に格納する。また、受付部２５１は、表現テンプレートＤＢ１４２、表現変換ＤＢ１４３を受け付けた場合には、表現テンプレートＤＢ１４２、表現変換ＤＢ１４３を記憶部２４０に格納する。

表現分割部２５２は、文書データ２４１をフレーズ毎に分割することで、複数の表現データを生成する処理部である。表現分割部２５２は、分割した複数の表現データを、特徴表現抽出部２５３に出力する。

たとえば、文書データ２４１を「ＣＰＵ周波数は、１０．０ＧＨｚです。このＰＣの色は灰色です。」とする。この場合には、表現分割部２５２は、文書データ２４１を、表現データ「ＣＰＵ周波数は、１０．０ＧＨｚです。」、「このＰＣの色は灰色です。」に分割する。

特徴表現抽出部２５３は、表現データと、表現テンプレートＤＢ１４２の表現テンプレートとをマッチングさせることにより、特徴の種類毎に、表現データに含まれる、商品の特徴を表す表現を抽出する。特徴表現抽出部１５２は、特徴の種類と、商品の特徴を表す表現とを対応づけて、特徴表現変換部２５４に出力する。

たとえば、表現データ「ＣＰＵ周波数は、１０．０ＧＨｚです。」は、表現テンプレートＤＢ１４２の表現テンプレート「ＣＰＵ周波数は○○ＧＨｚ」にヒットする。このため、特徴表現抽出部２５３は、表現データから、特徴の種類「ＣＰＵ周波数」、商品の特徴を表す表現「１０．０」を抽出する。

表現データ「このＰＣの色は灰色です。」は、表現テンプレートＤＢ１４２の表現テンプレート「色は○○」にヒットする。このため、特徴表現抽出部２５３は、表現データから、特徴の種類「色」、商品の特徴を表す表現「灰色」を抽出する。

特徴表現変換部２５４は、特徴の種類に対応する表現変換ＤＢ１４３の表現変換パターンを基にして、商品の特徴を表す表現を、物理量に変換する処理部である。特徴表現変換部２５４は、特徴の種類と、変換した物理量とを対応づけて、新奇性表現判定部２５５に出力する。

特徴表現変換部２５４が、特徴の種類「ＣＰＵ周波数」に対応する、商品の特徴を表す表現「１０．０」を物理量に変換する処理について説明する。特徴の種別が「ＣＰＵ周波数」である場合には、表現変換ＤＢ１４３の表現変換パターンは「そのまま」となる。このため、特徴表現変換部２５４は、商品の特徴を表す表現「１０．０」を物理量「１０．０」に変換する。

特徴表現変換部２５４が、特徴の種類「色」に対応する、商品の特徴を表す表現「灰色」を物理量に変換する処理について説明する。特徴の種類が「色」である場合には、表現変換ＤＢ１４３の表現変換パターンは「色に対応するＲＧＢ値」となる。このため、特徴表現変換部２５４は、商品の特徴を表す表現「灰色」を物理量「１２１，１２１，１２１」に変換する。

新奇性表現判定部２５５は、特徴の種類に対応する凡庸分布ＤＢ１４４の凡庸分布と、物理量とを基にして、文書データ２４１の表現データの新奇性の有無を判定する処理部である。新奇性表現判定部２５５は、判定結果を提示部２５６に出力する。ここでは、特徴表現変換部２５４から受け付けた特徴の種類および物理量を、判定対象の特徴の種類、判定対象の物理量と表記する。

新奇性表現判定部２５５は、判定対象の特徴の種類に対応する凡庸分布ＤＢ１４４の凡庸分布と、判定対象の物理量とを照合して、判定対象の物理量に対応する確率密度の値を特定する。新奇性表現判定部２５５は、確率密度の値の逆数を逸脱度として特定する。なお、新奇性表現判定部２５５は、確率密度関数を用いて、判定対象の物理量の確率密度の値を算出しても良い。

新奇性表現判定部２５５は、逸脱度が閾値ｑ以上である場合に、該当する表現データに新奇性がある（新奇性が高い）と判定する。新奇性表現判定部２５５は、逸脱度が閾値ｑ未満である場合に、該当する表現データに新奇性がない（新奇性が低い）と判定する。なお、閾値ｑは、事前にアンケートに基づき決定される値である。また、閾値ｑは、特徴の種類に応じて、異なる閾値ｑを用いてもよい。たとえば、特徴の種類「ＣＰＵ周波数」に対応する閾値ｑを閾値ｑＡとする。特徴の種類「色」に対応する閾値ｑを閾値ｑＢとする。

たとえば、表現データ「ＣＰＵ周波数は、１０．０ＧＨｚです。」の特徴の種類は、「ＣＰＵ周波数」であり、判定対象の物理量は「１０．０」である。新奇性表現判定部２５５は、物理量「１０．０」と、図６の凡庸分布１４４ａとを照合して、物理量「１０．０」の確率密度の値を特定し、この値の逆数から、逸脱度を特定する。新奇性表現判定部２５５は、特定した逸脱度が閾値ｑＡ以上である場合、表現データ「ＣＰＵ周波数は、１０．０ＧＨｚです。」には新奇性がある（新奇性が高い）と判定する。

一方、新奇性表現判定部２５５は、特定した逸脱度が閾値ｑＡ未満である場合、表現データ「ＣＰＵ周波数は、１０．０ＧＨｚです。」には新奇性がない（新奇性が低い）と判定する。

たとえば、表現データ「このＰＣの色は灰色です。」の特徴の種類は、「色」であり、判定対象の物理量は「１２１，１２１，１２１」である。新奇性表現判定部２５５は、物理量「１２１，１２１，１２１」と、図６の凡庸分布１４４ｂとを照合して、物理量「１２１，１２１，１２１」の確率密度の値を特定し、この値の逆数から、逸脱度を特定する。新奇性表現判定部２５５は、特定した逸脱度が閾値ｑＢ以上である場合、表現データ「このＰＣの色は灰色です。」には新奇性がある（新奇性が高い）と判定する。

一方、新奇性表現判定部２５５は、特定した逸脱度が閾値ｑＢ未満である場合、表現データ「このＰＣの色は灰色です。」には新奇性がない（新奇性が低い）と判定する。

提示部２５６は、新奇性表現判定部２５５の判定結果を基にして、新奇性のある表現データを、表示部２３０に提示する処理部である。

図８は、本実施例１に係るＵＩの一例を示す図である。ユーザは、表示部２３０の画面２３０ａを参照し、入力部２２０を操作して、入力領域３０ａに文書データを入力する。ユーザは、文書データを入力した後に、実行ボタン３１を押下する。新奇性分析装置２００は、実行ボタン３１の押下を受け付けると、文書データに含まれる各表現データについて、新奇性の有無を判定する。

新奇性分析装置２００は、新奇性の判定結果を、表示領域３０ｂに表示する。たとえば、新奇性分析装置２００は、新奇性ありと判定した表現データを、表示領域３０ｂに提示しても良いし、各表現データと新奇性スコアとを対応づけて、表示領域３０ｂに提示しても良い。新奇性スコアは、逸脱度を示すものである。

次に、本実施例１に係る凡庸分布ＤＢ生成装置１００の処理手順の一例について説明する。図９は、本実施例１に係る凡庸分布ＤＢ生成装置の処理手順を示すフローチャートである。図９に示すように、凡庸分布ＤＢ生成装置１００の受付部１５１は、表現テンプレートＤＢ１４２を取得し、記憶部１４０に格納する（ステップＳ１０１）。受付部１５１は、表現変換ＤＢ１４３を取得し、記憶部１４０に格納する（ステップＳ１０２）。

凡庸分布ＤＢ生成装置１００の特徴表現抽出部１５２は、文書ＤＢ１４１の文書データと、表現テンプレートＤＢ１４２の表現テンプレートとマッチングする。特徴表現抽出部１５２は、特徴の種類毎に、文書データに出現した、商品の特徴を表す表現を抽出する（ステップＳ１０３）。

凡庸分布ＤＢ生成装置１００の特徴表現変換部１５３は、表現変換ＤＢ１４３に基づいて、商品の特徴を表す表現を、物理量に変換する（ステップＳ１０４）。凡庸分布ＤＢ生成装置１００の凡庸分布算出部１５４は、商品の特徴を表す各表現の物理量を、凡庸分布ＤＢ１４４に格納する（ステップＳ１０５）。ステップＳ１０５において、凡庸分布算出部１５４は、物理量の確率密度を推定することで、凡庸分布を算出し、凡庸分布ＤＢ１４４に格納しても良い。

次に、本実施例１に係る新奇性分析装置２００の処理手順の一例について説明する。図１０は、本実施例１に係る新奇性分析装置の処理手順を示すフローチャートである。図１０に示すように、新奇性分析装置２００の受付部２５１は、商品に関する文書データ２４１を受け付ける（ステップＳ２０１）。

新奇性分析装置２００の表現分割部２５２は、商品に関する文書データ２４１を表現データに分割する（ステップＳ２０２）。新奇性分析装置２００の特徴表現抽出部２５３は、分割した各表現データのうち、未選択の表現データを選択する（ステップＳ２０３）。

特徴表現抽出部２５３は、選択した表現データと表現テンプレートＤＢ１４２の表現テンプレートとマッチングし、商品の特徴を表す表現を抽出する（ステップＳ２０４）。新奇性分析装置２００の特徴表現変換部２５４は、表現変換ＤＢ１４３に基づいて、商品の特徴を表す表現を、物理量に変換する（ステップＳ２０５）。

新奇性分析装置２００の新奇性表現判定部２５５は、物理量と、凡庸分布ＤＢ１４４とを基にして、逸脱度を算出する（ステップＳ２０６）。新奇性表現判定部２５５は、逸脱度が閾値ｑ以上である場合に、選択した表現データの新奇性が高い（新奇性有り）と判定する（ステップＳ２０７）。

新奇性分析装置２００は、全ての表現データを選択していない場合には（ステップＳ２０８，Ｎｏ）、ステップＳ２０３に移行する。新奇性分析装置２００は、全ての表現データを選択した場合には（ステップＳ２０８，Ｙｅｓ）、ステップＳ２０９に移行する。

新奇性分析装置２００の提示部２５６は、新奇性が高いと判定された表現データを、表示部２３０に提示する（ステップＳ２０９）。

次に、本実施例１に係る新奇性分析装置２００の効果について説明する。新奇性分析装置２００は、表現データが表す商品の特徴に対応する物理量が、ユーザがこれまで閲覧してきた表現データが表す商品の特徴に対応する物理量に比べて逸脱しているときに、新奇性がある（新奇性が高い）と判定する。これにより、表現データが表す商品の特徴が物理量で表せる場合に、表現データの新奇性の有無を高精度に判定することができる。

図１１は、本実施例１に係る新奇性分析装置の効果の根拠を説明する図である。図１１のグラフ３２Ａは、ＣＰＵ周波数の値と、出現頻度との関係を示すものである。グラフ３２Ｂは、本実施例１で説明した特徴の種類「ＣＰＵ周波数」に対応する凡庸分布である。

たとえば、参考技術に基づき、表現データ「ＣＰＵ周波数は３．１ＧＨｚです。」の新奇性の有無を判定すると、グラフ３２Ａに示すように、「３．１」は出現頻度が低いため、新奇性があると判断する。グラフ３２Ａに示すように、「３．１」自体の出現頻度は低いものの、周辺の出現頻度は高いため、「ＣＰＵ周波数は３．１ＧＨｚです。」という表現は珍しいものではなく、新奇性はない。このため、参考技術に基づく新奇性有無の判定では、高精度に判定できているとは言えない。

これに対して、本実施例１に係る新奇性分析装置２００が、表現データ「ＣＰＵ周波数は３．１ＧＨｚです。」の新奇性の有無を判定すると、この表現データは、新奇性が無いと判定する。たとえば、グラフ３２Ｂを用いると、表現データ「ＣＰＵ周波数は３．１ＧＨｚです。」に基づき変換される物理量「３．１」に対応する確率密度が高くなるため、逸脱度が低くなり、表現データ「ＣＰＵ周波数は３．１ＧＨｚです。」は新奇性が無いと判定できる。したがって、新奇性分析装置２００によれば、表現データが表す商品の特徴が物理量で表せる場合に、表現データの新奇性の有無を高精度に判定することができる。

実施例１について補足を行う。本実施例１では一例として、文書ＤＢ１４１は、世間一般の読者が閲覧済みの文書のデータを格納する場合について説明したが、これに限定されるものではない。たとえば、文書ＤＢ１４１は、特定読者層の多くが閲覧済みの文書を使用しても良い。特定読者層が閲覧した文書は、Ｗｅｂの閲覧履歴などから判別する。これにより、凡庸分布ＤＢ生成装置１００は、特定読者層専用の凡庸分布ＤＢ１４４を生成し、広告担当者は、広告ターゲット毎に、凡庸分布ＤＢ１４４を使い分けるようにしても良い。また、新奇性表現判定部は、逸脱度と閾値ｑにより、新奇性の有無を判定するのではなく、逸脱度を新奇性の大きさとして出力するように構成してもよい。

新奇性表現判定部２５５は、新奇性表現抽出部２５３により、１つの表現データに対して複数の特徴の種類を検出された場合には、それぞれについて凡庸分布から逸脱度を算出する。新奇性表現判定部２５５は、各逸脱度の合計、もしくは重み付き合計、もしくは重み付き平均、もしくは最大、もしくは重み付き最大を、上記１つの表現データの逸脱度として算出する。

表現テンプレートＤＢ１４２のデータ構造は、図４に示したものに限定されない。図１２および図１３は、本実施例１に係る表現テンプレートＤＢのその他のデータ構造を示す図である。

図１２に示すように、表現テンプレートＤＢ１４２ａは、１つの特徴の種類に対して、複数の表現テンプレートを格納する。特徴表現抽出部１５２、２５３が、表現テンプレートＤＢ１４２ａを用いることで、表現データに存在し得る表記揺れに対応することができる。

図１３に示すように、表現テンプレートＤＢ１４２ｂは、表現テンプレートにＨＴＭＬ（HyperText Markup Language）のTableタグなどを格納する。たとえば、表現テンプレート「<table><tr><th>色</th><th>○○</th></th></table>」は、Ｗｅｂブラウザ上で、表示例３５のように表示される。特徴表現抽出部１５２、２５３が、表現テンプレートＤＢ１４２ｂを用いることで、表現データに構造データが含まれる場合でも、新奇性の有無を判定することができる。

また、ここでは、凡庸分布ＤＢ生成装置１００と新奇性分析装置２００とに分けて、事前処理と、新奇性判定の処理とを実行する場合について説明したがこれに限定されるものではない。新奇性分析装置２００が、凡庸分布ＤＢ生成装置１００の機能部を有し、新奇性分析装置２００が、事前処理および新奇性判定の処理を実行しても良い。凡庸分布ＤＢ生成装置１００の機能部は、たとえば、制御部１５０に対応する。

図１４は、本実施例２に係る新奇性分析システムの一例を示す図である。図１４に示すように、この新奇性分析システムは、凡庸分布ＤＢ生成装置３００と、新奇性分析装置４００とを有する。凡庸分布ＤＢ生成部３００および新奇性分析装置４００は、相互に接続される。また、凡庸分布ＤＢ生成部３００および新奇性分析装置４００は、Ｗｅｂ２０に接続される。

図１５は、本実施例２に係る凡庸分布ＤＢ生成装置の構成を示す機能ブロック図である。図１５に示すように、この凡庸分布ＤＢ生成装置３００は、通信部３１０と、入力部３２０と、表示部３３０と、記憶部３４０と、制御部３５０とを有する。

通信部３１０は、新奇性分析装置４００またはＷｅｂ２０上の外部装置とデータ通信を行う処理部である。通信部３１０は、通信装置の一例である。後述する制御部３５０は、通信部３１０を介して、新奇性分析装置４００またはＷｅｂ２０上の外部装置とデータをやり取りする。

入力部３２０は、凡庸分布ＤＢ生成装置３００に各種のデータを入力するための入力装置である。入力部３２０は、キーボードやマウス、タッチパネルなどに対応する。

表示部３３０は、制御部３５０から出力されるデータを表示する表示装置である。表示部３３０は、液晶ディスプレイやタッチパネルなどに対応する。

記憶部３４０は、文書ＤＢ３４１、商品カテゴリ判定テーブル３４２、表現テンプレートＤＢ３４３、表現変換ＤＢ３４４、凡庸分布ＤＢ３４５を有する。記憶部３４０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

文書ＤＢ３４１は、世間一般の読者が閲覧済みの文書データを格納するデータベースである。文書データは、複数の文章表現が集まったものである。

商品カテゴリ判定テーブル３４２は、文書データの商品カテゴリを判定する場合に用いられるものである。図１６は、本実施例２に係る商品カテゴリ判定テーブルのデータ構造の一例を示す図である。図１６に示すように、この商品カテゴリ判定テーブル３４２は、商品カテゴリと、頻出単語とを対応づける。頻出単語は、該当する商品カテゴリの文書データに頻出する単語を示すものである。各頻出単語には数値（文書中に当該単語が表れたときに、当該商品カテゴリである確率値）が対応づけられており、後述する商品カテゴリ判定部３５２が文書データの商品カテゴリを判定する場合に使用する。たとえば、ユーザは、入力部３２０を操作して、商品カテゴリ判定テーブル３４２を作成する。

表現テンプレートＤＢ３４３は、商品の特徴を表す表現の対応部分と、対応部分周辺の表現についての情報を有するものである。表現テンプレートＤＢ３４３のデータ構造は、図４に示した表現テンプレートＤＢ１４２のデータ構造と同様である。

表現変換ＤＢ３４４は、特徴の種類、および、表現の対応部分を物理量に変換する規則を表す表現変換パターンを格納するものである。表現変換ＤＢ３４４のデータ構造は、図５に示した表現変換ＤＢ１４３のデータ構造と同様である。

凡庸分布ＤＢ３４５は、文書データに含まれる複数の表現の物理量に基づく確率密度を格納するものである。図１７は、本実施例２に係る凡庸分布ＤＢのデータ構造の一例を示す図である。図１７に示すように、この凡庸分布ＤＢ３４６は、商品カテゴリと、特徴の種類と、物理量と、凡庸分布とを対応づける。

図１５の説明に戻る。制御部３５０は、受付部３５１、商品カテゴリ判定部３５２、特徴表現抽出部３５３、特徴表現変換部３５４、凡庸分布算出部３５５、通知部３５６を有する。制御部３５０は、ＣＰＵやＭＰＵなどによって実現できる。また、制御部３５０は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

受付部３５１は、Ｗｅｂ２０上の外部装置から、世間一般の読者が閲覧済みの文書データを受け付けた場合に、受け付けた文書データを、文書ＤＢ３４１に格納する。受付部３５１は、入力部３２０から、商品カテゴリ判定テーブル３４２を受け付けた場合に、商品カテゴリ判定テーブル３４２を、記憶部３４０に格納する。受付部３５１は、入力部３２０から、表現テンプレートＤＢ３４３を受け付けた場合に、受け付けた表現テンプレートＤＢ３４３を、記憶部３４０に格納する。受付部３５１は、入力部３２０から、表現変換ＤＢ３４４を受け付けた場合に、受け付けた表現変換ＤＢ３４４を、記憶部３４０に格納する。

商品カテゴリ判定部３５２は、商品カテゴリ判定テーブル３４２を基にして、文書ＤＢ３４１に格納された文書データの商品カテゴリを判定する処理部である。ここでは一例として、図１８に示す文書データ４０を用いて、商品カテゴリ判定部３５２の説明を行う。図１８は、判定対象となる文書データの一例を示す図である。

商品カテゴリ判定部３５２は、商品カテゴリ判定テーブル３４２の頻出単語と、文書データ４０に含まれる単語とのマッチングを行い、ヒットした頻出単語に対応づけられた値を基にして、商品カテゴリの確率値を算出する。

商品カテゴリ判定部３５２が、商品カテゴリ「ＰＣ」の確率値を算出する処理について説明する。商品カテゴリ判定部３５２は、文書データ４０と、商品カテゴリ「ＰＣ」に対応する頻出単語とを比較すると、「長持ち（０．０２）」がヒットする。この場合には、商品カテゴリ判定部３５２は、商品カテゴリ「ＰＣ」に対する確率値「ＰＣ」を下記のように算出する。
確率値「ＰＣ」＝１−｛（１−０．０２）｝＝０．０２

商品カテゴリ判定部３５２が、商品カテゴリ「口紅」の確率値を算出する処理について説明する。商品カテゴリ判定部３５２は、文書データ４０と、商品カテゴリ「口紅」に対応する頻出単語とを比較すると、「口紅（０．６）、おしゃれ（０．５）、長持ち（０．０１）」がヒットする。この場合には、商品カテゴリ判定部３５２は、商品カテゴリ「口紅」に対する確率値「口紅」を下記のように算出する。
確率値「口紅」＝１−｛（１−０．６）×（１−０．５）×（１−０．０１）｝＝０．８０２

商品カテゴリ判定部３５２は、各商品カテゴリの確率値のうち、最大の確率値となる商品カテゴリを、文書データの商品カテゴリとして判定する。たとえば、上記の例では、確率値「口紅」の確率値が最大となるため、商品カテゴリ判定部３５２は、文書データ４０の商品カテゴリを、「口紅」と判定する。

商品カテゴリ判定部３５２は、判定した商品カテゴリと対応づけて、文書データを、特徴表現抽出部３５３に出力する。

特徴表現抽出部３５３は、文書データをフレーズ毎に分割することで、複数の表現データを生成する。また、特徴表現抽出部３５３は、表現データと、表現テンプレートＤＢ３４３の表現テンプレートとをマッチングさせることにより、特徴の種類毎に、表現データに出現した、商品の特徴を表す表現を抽出する。特徴表現抽出部３５３が、商品の特徴を表す表現を抽出する処理は、実施例１で説明した特徴表現抽出部１５２の処理と同様である。

特徴表現抽出部３５３は、商品カテゴリと、特徴の種類と、商品の特徴を表す表現とを対応づけて、特徴表現変換部３５４に出力する。

特徴表現変換部３５４は、特徴の種類に対応する表現変換ＤＢ３４４の表現変換パターンを基にして、商品の特徴を表す表現を、物理量に変換する処理部である。特徴表現変換部３５４が、商品の特徴を表す表現を、物理量に変換する処理は、実施例１で説明した特徴表現変換部１５３の処理と同様である。特徴表現変換部３５４は、商品カテゴリと、特徴の種類と、変換した物理量とを対応づけて、凡庸分布算出部３５５に出力する。

凡庸分布算出部３５５は、特徴表現変換部３５４から受け付ける特徴の種類と、物理量とを商品カテゴリ毎に、凡庸分布ＤＢ３４５に格納する処理部である。

また、凡庸分布算出部３５５は、各商品カテゴリについて、特徴の種類毎に、物理量の確率密度を推定することにより、商品の特徴分布を表す確率密度を算出してもよい。凡庸分布算出部３５５が、確率密度を算出する処理は、実施例１で説明した凡庸分布算出部１５４の処理と同様である。

通知部３５６は、凡庸分布ＤＢ３４５を、新奇性分析装置４００に通知する処理部である。

図１９は、本実施例２に係る新奇性分析装置の構成を示す機能ブロック図である。図１９に示すように、この新奇性分析装置４００は、通信部４１０と、入力部４２０と、表示部４３０と、記憶部４４０と、制御部４５０とを有する。

通信部４１０は、凡庸分布ＤＢ生成装置３００またはＷｅｂ２０上の外部装置とデータ通信を行う処理部である。通信部４１０は、通信装置の一例である。後述する制御部４５０は、通信部４１０を介して、凡庸分布ＤＢ生成装置３００またはＷｅｂ２０上の外部装置とデータをやり取りする。

入力部４２０は、新奇性分析装置４００に各種のデータを入力するための入力装置である。入力部４２０は、キーボードやマウス、タッチパネルなどに対応する。

表示部４３０は、制御部４５０から出力されるデータを表示する表示装置である。表示部４３０は、液晶ディスプレイやタッチパネルなどに対応する。

記憶部４４０は、文書データ４４１、商品カテゴリ判定テーブル３４２、表現テンプレートＤＢ３４３、表現変換ＤＢ３４４、凡庸分布ＤＢ３４５を有する。記憶部４４０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

文書データ４４１は、商品に関する文書のデータである。

商品カテゴリ判定テーブル３４２、表現テンプレートＤＢ３４３、表現変換ＤＢ３４４、凡庸分布ＤＢ３４５に関する説明は、図１９で説明した商品カテゴリ判定テーブル３４２、表現テンプレートＤＢ３４３、表現変換ＤＢ３４４、凡庸分布ＤＢ３４５に関する説明と同様である。

制御部４５０は、受付部４５１、商品カテゴリ判定部４５２、表現分割部４５３、特徴表現抽出部４５４、特徴表現変換部４５５、新奇性表現判定部４５６、提示部４５７を有する。制御部４５０は、ＣＰＵやＭＰＵなどによって実現できる。また、制御部４５０は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

受付部４５１は、入力部４２０またはＷｅｂ２０上の外部装置から、文書データ４４１を受け付ける処理部である。受付部４５１は、文書データ４４１を、記憶部４４０に格納する。また、受付部４５１は、凡庸分布ＤＢ生成装置３００から、凡庸分布ＤＢ３４５を受け付けた場合に、凡庸分布ＤＢ３４５を、記憶部４４０に格納する。また、受付部４５１は、商品カテゴリ判定テーブル３４２、表現テンプレートＤＢ３４３、表現変換ＤＢ３４４を受け付けた場合には、商品カテゴリ判定テーブル３４２、表現テンプレートＤＢ３４３、表現変換ＤＢ３４４を記憶部４４０に格納する。

商品カテゴリ判定部４５２は、商品カテゴリ判定テーブル３４２を基にして、文書データ４４１の商品カテゴリを判定する処理部である。商品カテゴリ判定部４５２が、文書データの商品カテゴリを判定する処理は、図１５に示した商品カテゴリ判定部３５２の処理と同様である。商品カテゴリ判定部４５２は、判定した商品カテゴリと対応づけて、文書データ４４１を、表現分割部４５３に出力する。

表現分割部４５３は、文書データ４４１をフレーズ毎に分割することで、複数の表現データを生成する処理部である。表現分割部４５３は、商品カテゴリと、分割した複数の表現データとを、特徴表現抽出部４５４に出力する。表現分割部４５３が、表現データを生成する処理は、実施例１で説明した表現分割部２５２の処理と同様である。

特徴表現抽出部４５４は、表現データと、表現テンプレートＤＢ３４３の表現テンプレートとをマッチングさせることにより、特徴の種類毎に、表現データに含まれる、商品の特徴を表す表現を抽出する。特徴表現抽出部４５４は、商品カテゴリと、特徴の種類と、商品の特徴を表す表現とを対応づけて、特徴表現変換部４５５に出力する。特徴表現抽出部４５３が、商品の特徴を表す表現を抽出する処理は、実施例１で説明した特徴表現抽出部２５３の処理と同様である。

特徴表現変換部４５５は、特徴の種類に対応する表現変換ＤＢ３４４の表現変換パターンを基にして、商品の特徴を表す表現を、物理量に変換する処理部である。特徴表現変換部４５５は、商品カテゴリと、特徴の種類と、変換した物理量とを対応づけて、新奇性表現判定部４５６に出力する。特徴表現変換部４５５が、商品の特徴を表す表現を、物理量に変換する処理は、実施例１で説明した特徴表現変換部２５４の処理と同様である。

新奇性表現判定部４５６は、商品カテゴリおよび特徴の種類に対応する凡庸分布ＤＢ３４５の凡庸分布と、物理量とを基にして、文書データ４４１の表現データの新奇性の有無を判定する処理部である。新奇性表現判定部４５６は、判定結果を提示部４５７に出力する。ここでは、特徴表現変換部４５５から受け付けた商品カテゴリ、特徴の種類、物理量を、判定対象の商品カテゴリ、判定対象の特徴の種類、判定対象の物理量と表記する。

新奇性表現判定部４５６は、判定対象の商品カテゴリおよび特徴の種類に対応する凡庸分布ＤＢ３４５の凡庸分布と、判定対象の物理量とを照合して、判定対象の物理量に対応する確率密度の値を特定する。

たとえば、図１７に示すように、判定対象の商品カテゴリが「ＰＣ」、特徴の種類が「ＣＰＵ周波数」である場合には、新奇性表現判定部４５６は、凡庸分布３４５ａと、判定対象の物理量とを照合する。判定対象の商品カテゴリが「ＰＣ」、特徴の種類が「色」である場合には、新奇性表現判定部４５６は、凡庸分布３４５ｂと、判定対象の物理量とを照合する。判定対象の商品カテゴリが「口紅」、特徴の種類が「色」である場合には、新奇性表現判定部４５６は、凡庸分布３４５ｃと、判定対象の物理量とを照合する。

新奇性表現判定部４５６は、確率密度の値の逆数を逸脱度として特定する。その他の、新奇性表現判定部４５６の処理は、実施例１で説明した新奇性表現判定部２５５の処理と同様である。

提示部４５７は、新奇性表現判定部４５６の判定結果を基にして、新奇性のある表現データを、表示部４３０に提示する処理部である。

次に、本実施例２に係る凡庸分布ＤＢ生成装置３００の処理手順の一例について説明する。図２０は、本実施例２に係る凡庸分布ＤＢ生成装置の処理手順を示すフローチャートである。図２０に示すように、凡庸分布ＤＢ生成装置３００の受付部３５１は、表現テンプレートＤＢ３４３を取得し、記憶部３４０に格納する（ステップＳ３０１）。受付部１５１は、表現変換ＤＢ３４４を取得し、記憶部３４０に格納する（ステップＳ３０２）。

凡庸分布ＤＢ生成装置３００の商品カテゴリ判定部３５２は、商品カテゴリ判定テーブル３４２を基にして、文書データ毎に、商品カテゴリを判定する（ステップＳ３０３）。特徴表現抽出部３５３は、文書データと、表現テンプレートＤＢ３４３の表現テンプレートとマッチングする。特徴表現抽出部３５３は、特徴の種類毎に、文書データに出現した、商品の特徴を表す表現を抽出する（ステップＳ３０４）。

凡庸分布ＤＢ生成装置３００の特徴表現変換部３５４は、表現変換ＤＢ３４４に基づいて、商品の特徴を表す表現を、物理量に変換する（ステップＳ３０５）。凡庸分布ＤＢ生成装置３００の凡庸分布算出部３５５は、該当する商品カテゴリと対応づけて、商品の特徴を表す各表現の物理量を、凡庸分布ＤＢ３４５に格納する（ステップＳ３０６）。ステップＳ３０６において、凡庸分布算出部３５６は、物理量の確率密度を推定することで、凡庸分布を算出し、凡庸分布ＤＢ３４５に格納しても良い。

次に、本実施例２に係る新奇性分析装置４００の処理手順の一例について説明する。図２１は、本実施例２に係る新奇性分析装置の処理手順を示すフローチャートである。図２１に示すように、新奇性分析装置４００の受付部４５１は、商品に関する文書データ４４１を受け付ける（ステップＳ４０１）。

新奇性分析装置４００の商品カテゴリ判定部４５２は、商品カテゴリ判定テーブル３４２を基にして、文書データ４４１に対応する商品カテゴリを判定する（ステップＳ４０２）。新奇性分析装置４００の表現分割部４５３は、商品に関する文書データ４４１を表現データに分割する（ステップＳ４０３）。新奇性分析装置４００の特徴表現抽出部４５４は、分割した各表現データのうち、未選択の表現データを選択する（ステップＳ４０４）。

特徴表現抽出部４５３は、選択した表現データと表現テンプレートＤＢ３４３の表現テンプレートとマッチングし、商品の特徴を表す表現を抽出する（ステップＳ４０５）。新奇性分析装置４００の特徴表現変換部４５５は、表現変換ＤＢ３４４に基づいて、商品の特徴を表す表現を、物理量に変換する（ステップＳ４０６）。

新奇性分析装置４００の新奇性表現判定部４５６は、物理量と、凡庸分布ＤＢ３４５とを基にして、逸脱度を算出する（ステップＳ４０７）。新奇性表現判定部４５６は、逸脱度が閾値ｑ以上である場合に、選択した表現データの新奇性が高い（新奇性有り）と判定する（ステップＳ４０８）。

新奇性分析装置４００は、全ての表現データを選択していない場合には（ステップＳ４０９，Ｎｏ）、ステップＳ４０４に移行する。新奇性分析装置４００は、全ての表現データを選択した場合には（ステップＳ４０９，Ｙｅｓ）、ステップＳ４１０に移行する。

新奇性分析装置４００の提示部４５７は、新奇性が高いと判定された表現データを、表示部４３０に提示する（ステップＳ４１０）。

次に、本実施例１に係る新奇性分析装置２００の効果について説明する。商品カテゴリに応じて、新奇性のある表現は変わるものである。たとえば、商品カテゴリ「ＰＣ」では、ピンクは新奇性が高いと言えるが、商品カテゴリ「口紅」では、ピンクは新奇性が高いとは言えない。新奇性分析装置４００は、文書データ４４１の商品カテゴリを判定し、判定した商品カテゴリに対応する特徴の種類の凡庸分布を基にして、文書データ４４１の表現データに新奇性があるか否かを判定するため、商品カテゴリに鑑みた新奇性の有無を高精度に判定することができる。

実施例２について補足を行う。本実施例２では、商品カテゴリ判定部３５２が、文書データと、商品カテゴリ判定テーブル３４２とを比較することで、文書データの商品カテゴリを判定していたが、これに限定されるものではない。商品カテゴリ判定部３５２は、文書データに直接的に商品カテゴリのタグが記載されている場合には、この商品カテゴリのタグを活用して、商品カテゴリを判定してもよい。商品カテゴリ判定部４５２についても同様である。

また、ここでは、凡庸分布ＤＢ生成装置３００と新奇性分析装置４００とに分けて、事前処理と、新奇性判定の処理とを実行する場合について説明したがこれに限定されるものではない。新奇性分析装置４００が、凡庸分布ＤＢ生成装置３００の機能部を有し、新奇性分析装置４００が、事前処理および新奇性判定の処理を実行しても良い。

図２２は、本実施例３に係る新奇性分析システムの一例を示す図である。図２２に示すように、この新奇性分析システムは、凡庸分布ＤＢ生成装置５００と、新奇性分析装置６００とを有する。凡庸分布ＤＢ生成部５００および新奇性分析装置６００は、相互に接続される。また、凡庸分布ＤＢ生成部５００および新奇性分析装置６００は、Ｗｅｂ２０に接続される。

図２３は、本実施例３に係る凡庸分布ＤＢ生成装置の構成を示す機能ブロック図である。図２３に示すように、この凡庸分布ＤＢ生成装置５００は、通信部５１０と、入力部５２０と、表示部５３０と、記憶部５４０と、制御部５５０とを有する。

通信部５１０は、新奇性分析装置６００またはＷｅｂ２０上の外部装置とデータ通信を行う処理部である。通信部５１０は、通信装置の一例である。後述する制御部５５０は、通信部５１０を介して、新奇性分析装置６００またはＷｅｂ２０上の外部装置とデータをやり取りする。

入力部５２０は、凡庸分布ＤＢ生成装置５００に各種のデータを入力するための入力装置である。入力部５２０は、キーボードやマウス、タッチパネルなどに対応する。

表示部５３０は、制御部５５０から出力されるデータを表示する表示装置である。表示部５３０は、液晶ディスプレイやタッチパネルなどに対応する。

記憶部５４０は、文書ＤＢ５４１、表現テンプレートＤＢ５４２、表現変換ＤＢ５４３、凡庸分布ＤＢ５４４、凡庸表現ＤＢ５４５を有する。記憶部５４０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

文書ＤＢ５４１は、世間一般の読者が閲覧済みの文書データを格納するデータベースである。文書データは、複数の文章表現が集まったものである。

表現テンプレートＤＢ５４２は、商品の特徴を表す表現の対応部分と、対応部分周辺の表現についての情報を有するものである。表現テンプレートＤＢ５４２のデータ構造は、図４に示した表現テンプレートＤＢ１４２のデータ構造と同様である。

表現変換ＤＢ５４３は、特徴の種類、および、表現の対応部分を物理量に変換する規則を表す表現変換パターンを格納するものである。表現変換ＤＢ５４３のデータ構造は、図５に示した表現変換ＤＢ１４３のデータ構造と同様である。

凡庸分布ＤＢ５４４は、文書データに含まれる複数の表現の物理量に基づく確率密度を格納するものである。凡庸分布ＤＢ５４４のデータ構造は、図６に示した凡庸分布ＤＢ１４４のデータ構造と同様である。

凡庸表現ＤＢ５４５は、特徴の種類と、文書データに含まれる凡庸表現の出現頻度とを対応づけるものである。図２４は、本実施例３に係る凡庸表現ＤＢのデータ構造の一例を示す図である。図２４に示すように、凡庸表現ＤＢ５４５は、特徴の種類と、凡庸表現と、出現頻度とを対応づける。

図２３の説明に戻る。制御部５５０は、受付部５５１、特徴表現抽出部５５２、特徴表現変換部５５３、凡庸分布算出部５５４、出現頻度算出部５５５、通知部５５６を有する。制御部５５０は、ＣＰＵやＭＰＵなどによって実現できる。また、制御部５５０は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

受付部５５１は、Ｗｅｂ２０上の外部装置から、世間一般の読者が閲覧済みの文書データを受け付けた場合に、受け付けた文書データを、文書ＤＢ５４１に格納する。受付部５５１は、入力部５２０から、表現テンプレートＤＢ５４２を受け付けた場合に、受け付けた表現テンプレートＤＢ５４２を、記憶部５４０に格納する。受付部５５１は、入力部５２０から、表現変換ＤＢ５４３を受け付けた場合に、受け付けた表現変換ＤＢ５４３を、記憶部５４０に格納する。

特徴表現抽出部５５２は、文書ＤＢ５４１に格納された文書データをフレーズ毎に分割することで、複数の表現データを生成する。また、特徴表現抽出部５５２は、表現データと、表現テンプレートＤＢ５４２の表現テンプレートとをマッチングさせることにより、特徴の種類毎に、表現データに出現した、商品の特徴を表す表現を抽出する。特徴表現抽出部５５２が、商品の特徴を表す表現を抽出する処理は、実施例１で説明した特徴表現抽出部１５２の処理と同様である。

特徴表現抽出部５５２は、特徴の種類と、商品の特徴を表す表現とを対応づけて、特徴表現変換部５５３に出力する。また、特徴表現抽出部５５２は、特徴の種類と、商品の特徴を表す表現とを対応づけて、出現頻度算出部５５５に出力する。

特徴表現変換部５５３は、特徴の種類に対応する表現変換ＤＢ５４３の表現変換パターンを基にして、商品の特徴を表す表現を、物理量に変換する処理部である。特徴表現変換部５５３が、商品の特徴を表す表現を、物理量に変換する処理は、実施例１で説明した特徴表現変換部１５３の処理と同様である。特徴表現変換部５５３は、特徴の種類と、変換した物理量とを対応づけて、凡庸分布算出部５５４に出力する。

凡庸分布算出部５５４は、特徴表現変換部５５３から受け付ける特徴の種類と、物理量とを凡庸分布ＤＢ５４４に格納する処理部である。凡庸分布算出部５５４の処理は、実施例１で説明した凡庸分布算出部１５４の処理と同様である。

出現頻度算出部５５５は、特徴表現抽出部５５２から受け付ける特徴の種類毎に、凡庸表現の出現頻度を算出する処理部である。凡庸表現は、商品の特徴を表す表現に対応する。出現頻度算出部５５５は、特徴の種類と、凡庸表現と、出現頻度とを対応づけて、凡庸表現ＤＢ５４５に格納する。

通知部５５６は、凡庸分布ＤＢ５４４および凡庸表現ＤＢ５４５を、新奇性分析装置６００に通知する処理部である。

図２５は、本実施例３に係る新奇性分析装置の構成を示す機能ブロック図である。図２５に示すように、この新奇性分析装置６００は、通信部６１０と、入力部６２０と、表示部６３０と、記憶部６４０と、制御部６５０とを有する。

通信部６１０は、凡庸分布ＤＢ生成装置５００またはＷｅｂ２０上の外部装置とデータ通信を行う処理部である。通信部６１０は、通信装置の一例である。後述する制御部６５０は、通信部６１０を介して、凡庸分布ＤＢ生成装置５００またはＷｅｂ２０上の外部装置とデータをやり取りする。

入力部６２０は、新奇性分析装置６００に各種のデータを入力するための入力装置である。入力部６２０は、キーボードやマウス、タッチパネルなどに対応する。

表示部６３０は、制御部６５０から出力されるデータを表示する表示装置である。表示部６３０は、液晶ディスプレイやタッチパネルなどに対応する。

記憶部６４０は、文書データ６４１、表現テンプレートＤＢ５４２、表現変換ＤＢ５４３、凡庸分布ＤＢ５４４、凡庸表現ＤＢ５４５を有する。記憶部６４０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

文書データ６４１は、商品に関する文書のデータである。

表現テンプレートＤＢ５４２、表現変換ＤＢ５４３、凡庸分布ＤＢ５４４、凡庸表現ＤＢ５４５に関する説明は、図２３で説明した表現テンプレートＤＢ５４２、表現変換ＤＢ５４３、凡庸分布ＤＢ５４４、凡庸表現ＤＢ５４５に関する説明と同様である。

制御部６５０は、受付部６５１、表現分割部６５２、特徴表現抽出部６５３、特徴表現変換部６５４、新奇性表現判定部６５５、提示部６５６を有する。制御部６５０は、ＣＰＵやＭＰＵなどによって実現できる。また、制御部６５０は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

受付部６５１は、入力部６２０またはＷｅｂ２０上の外部装置から、文書データ６４１を受け付ける処理部である。受付部６５１は、文書データ６４１を、記憶部６４０に格納する。また、受付部６５１は、表現テンプレートＤＢ５４２、表現変換ＤＢ５４３を受け付けた場合には、表現テンプレートＤＢ５４２、表現変換ＤＢ５４３を記憶部６４０に格納する。また、受付部６５１は、凡庸分布ＤＢ生成装置５００から、凡庸分布ＤＢ５４４、凡庸表現ＤＢ５４５を受け付けた場合に、凡庸分布ＤＢ５４４、凡庸表現ＤＢ５４５を、記憶部６４０に格納する。

表現分割部６５２は、文書データ６４１をフレーズ毎に分割することで、複数の表現データを生成する処理部である。表現分割部６５２は、分割した複数の表現データを、特徴表現抽出部６５３に出力する。

特徴表現抽出部６５３は、表現データと、表現テンプレートＤＢ５４２の表現テンプレートとをマッチングさせることにより、特徴の種類毎に、表現データに含まれる、商品の特徴を表す表現を抽出する。特徴表現抽出部６５３は、特徴の種類と、商品の特徴を表す表現とを対応づけて、特徴表現変換部６５４に出力する。また、特徴表現抽出部６５３は、特徴の種類と、商品の特徴を表す表現とを対応づけて、新奇性表現判定部６５５に出力する。

特徴表現変換部６５４は、特徴の種類に対応する表現変換ＤＢ５４３の表現変換パターンを基にして、商品の特徴を表す表現を、物理量に変換する処理部である。特徴表現変換部６５４は、特徴の種類と、変換した物理量とを対応づけて、新奇性表現判定部６５５に出力する。

新奇性表現判定部６５５は、特徴の種類に対応する凡庸分布ＤＢ５４４の凡庸分布と、特徴の種類に対応する凡庸表現ＤＢ５４５の出現頻度とを基にして、文書データ６４１の表現データの新奇性の有無を判定する処理部である。新奇性表現判定部６５５は、判定結果を提示部６５６に出力する。新奇性表現判定部６５５は、実施例１で説明した新奇性表現判定部２５５と同様にして逸脱度を算出する。

新奇性表現判定部６５５は、特徴の種類に対応する凡庸表現ＤＢ５４５の凡庸表現のうち、商品の特徴を表す表現に対応する出現頻度を特定する。

新奇性表現判定部６５５は、逸脱度と、出現頻度の逆数とを基にして、表現データのスコアを算出する。たとえば、新奇性表現判定部６５５は、逸脱度と、出現頻度の逆数との合計、もしく重み付き合計、もしくは平均、もしくは重み付き平均、もしくは最大、もしくは重み付き最大を、スコアとして算出する。

新奇性表現判定部６５５は、スコアが閾値Ｑ以上である場合に、該当する表現データに新奇性がある（新奇性が高い）と判定する。新奇性表現判定部６５５は、スコアが閾値Ｑ未満である場合に、該当する表現データに新奇性がない（新奇性が低い）と判定する。なお、閾値Ｑは、事前にアンケートに基づき決定される値である。また、実施例１と同様にして、閾値Ａは、特徴の種類に応じて、異なる閾値Ｑを用いてもよい。

提示部６５６は、新奇性表現判定部６５５の判定結果を基にして、新奇性のある表現データを、表示部６３０に提示する処理部である。

次に、本実施例３に係る凡庸分布ＤＢ生成装置５００の処理手順の一例について説明する。図２６は、本実施例３に係る凡庸分布ＤＢ生成装置の処理手順を示すフローチャートである。なお、凡庸分布ＤＢ生成装置５００が、凡庸分布ＤＢ５４４を生成する処理手順は、図９に示した処理と同様であるため、説明を省略する。

図２６に示すように、凡庸分布ＤＢ生成装置５００の特徴表現抽出部６５３は、文書データと、表現テンプレートＤＢ５４２とマッチングする。特徴表現抽出部６５３は、特徴の種類毎に、閲覧済みＷｅｂサイトに出現した、商品の特徴を表す表現（凡庸表現）を抽出する。

凡庸分布ＤＢ生成装置５００の出現頻度算出部５５５は、表現の出現頻度を算出する（ステップＳ５０２）。具体的には、特徴の種類ごとに、次を実施する。まず、特徴表現抽出部により抽出された凡庸表現ごとに、出現回数をカウントする。そして、全ての凡庸表現の出現回数に対する割合を、当該凡庸表現の出現頻度として算出する。出現頻度算出部５５５は、特徴の種類と、凡庸表現と、出現頻度とを対応づけて、凡庸表現ＤＢ５４５に格納する（ステップＳ５０３）。

次に、本実施例３に係る新奇性分析装置６００の処理手順の一例について説明する。図２７は、本実施例３に係る新奇性分析装置の処理手順を示すフローチャートである。図２７に示すように、新奇性分析装置６００の受付部６５１は、商品に関する文書データ６４１を受け付ける（ステップＳ６０１）。

新奇性分析装置６００の表現分割部６５２は、商品に関する文書データ６４１を表現データに分割する（ステップＳ６０２）。新奇性分析装置６００の特徴表現抽出部６５３は、分割した各表現データのうち、未選択の表現データを選択する（ステップＳ６０３）。

特徴表現抽出部６５３は、選択した表現データと表現テンプレートＤ５４２の表現テンプレートとマッチングし、商品の特徴を表す表現を抽出する（ステップＳ６０４）。新奇性分析装置６００の特徴表現変換部６５４は、表現変換ＤＢ５４３に基づいて、商品の特徴を表す表現を、物理量に変換する（ステップＳ６０５）。

新奇性分析装置６００の新奇性表現判定部６５５は、物理量と、凡庸分布ＤＢ５４４とを基にして、逸脱度を算出する（ステップＳ６０６）。新奇性表現判定部６５５は、凡庸表現ＤＢ５４５を基にして、表現に対応する凡庸表現の出現頻度を特定する（ステップＳ６０７）。

新奇性表現判定部６５５は、表現の逸脱度と、出現頻度とを基にして、スコアを算出する（ステップＳ６０８）。新奇性表現判定部６５５は、スコアが閾値Ｑ以上である場合に、選択した表現データの新奇性が高いと判定する（ステップＳ６０９）。

新奇性分析装置６００は、全ての表現データを選択していない場合には（ステップＳ６１０，Ｎｏ）、ステップＳ６０３に移行する。新奇性分析装置６００は、全ての表現データを選択した場合には（ステップＳ６１０，Ｙｅｓ）、ステップＳ６１１に移行する。

新奇性分析装置６００の提示部６５６は、新奇性が高いと判定された表現データを、表示部６３０に提示する（ステップＳ６１１）。

次に、本実施例３に係る新奇性分析装置６００の効果について説明する。新奇性分析装置６００は、逸脱度に加えて、表現自体の出現頻度も考慮して、新奇性に関するスコアを算出し、新奇性の有無を判定する。これにより、新奇性の有無を高精度に判定することができる。たとえば、「ペールピンク」という表現に関する新奇性判定において、その表現に対応する物理量「ＲＧＢ値」の他に、その表現自体について、新奇性があるかを判定することができる。

また、ここでは、凡庸分布ＤＢ生成装置５００と新奇性分析装置６００とに分けて、事前処理と、新奇性判定の処理とを実行する場合について説明したがこれに限定されるものではない。新奇性分析装置６００が、凡庸分布ＤＢ生成装置５００の機能部を有し、新奇性分析装置６００が、事前処理および新奇性判定の処理を実行しても良い。

図２８は、本実施例４に係る新奇性分析システムの一例を示す図である。図２８に示すように、この新奇性分析システムは、凡庸分布ＤＢ生成装置７００と、新奇性分析装置８００とを有する。凡庸分布ＤＢ生成部７００および新奇性分析装置８００は、相互に接続される。また、凡庸分布ＤＢ生成部７００および新奇性分析装置８００は、Ｗｅｂ２０に接続される。

本実施例４では、ユーザが商品カテゴリを新奇性分析装置８００に入力すると、新奇性分析装置８００は、入力された商品カテゴリに分類される文書データのうち、新奇性の高い商品の記事を含む文書データを、ユーザに提示する。

図２９は、本実施例４に係る凡庸分布ＤＢ生成装置の構成を示す機能ブロック図である。図２９に示すように、この凡庸分布ＤＢ生成装置７００は、通信部７１０と、入力部７２０と、表示部７３０と、記憶部７４０と、制御部７５０とを有する。

通信部７１０は、新奇性分析装置８００またはＷｅｂ２０上の外部装置とデータ通信を行う処理部である。通信部７１０は、通信装置の一例である。後述する制御部７５０は、通信部７１０を介して、新奇性分析装置８００またはＷｅｂ２０上の外部装置とデータをやり取りする。

入力部７２０は、凡庸分布ＤＢ生成装置７００に各種のデータを入力するための入力装置である。入力部７２０は、キーボードやマウス、タッチパネルなどに対応する。

表示部７３０は、制御部７５０から出力されるデータを表示する表示装置である。表示部７３０は、液晶ディスプレイやタッチパネルなどに対応する。

記憶部７４０は、文書ＤＢ７４１、商品カテゴリ判定テーブル７４２、表現テンプレートＤＢ７４３、表現変換ＤＢ７４４、凡庸分布ＤＢ７４５を有する。記憶部７４０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

文書ＤＢ７４１は、ニュース記事等の読者が閲覧済みの文書データを格納するデータベースである。文書データは、複数の文章表現が集まったものである。

商品カテゴリ判定テーブル７４２は、文書データの商品カテゴリを判定する場合に用いられるものである。商品カテゴリ判定テーブル７４２のデータ構造は、図１６に示した商品カテゴリ判定テーブル３４２のデータ構造と同様である。

表現テンプレートＤＢ７４３は、商品の特徴を表す表現の対応部分と、対応部分周辺の表現についての情報を有するものである。表現テンプレートＤＢ７４３のデータ構造は、図４に示した表現テンプレートＤＢ１４２のデータ構造と同様である。

表現変換ＤＢ７４４は、特徴の種類、および、表現の対応部分を物理量に変換する規則を表す表現変換パターンを格納するものである。表現変換ＤＢ７４４のデータ構造は、図５に示した表現変換ＤＢ１４３のデータ構造と同様である。

凡庸分布ＤＢ７４５は、商品カテゴリ毎に、文書データに含まれる複数の表現の物理量に基づく確率密度を格納するものである。凡庸分布ＤＢ７４５のデータ構造は、図１７に示した凡庸分布ＤＢ３４５のデータ構造と同様である。

制御部７５０は、文書収集部７５１、商品カテゴリ判定部７５２、特徴表現抽出部７５３、特徴表現変換部７５４、凡庸分布算出部７５５、通知部７５６を有する。制御部７５０は、ＣＰＵやＭＰＵなどによって実現できる。また、制御部７５０は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

文書収集部７５１は、Ｗｅｂ２０から、ニュース記事等の文書データを収集する処理部である。文書収集部７５１は、収集した文書データを、文書ＤＢ７４１に格納する。

商品カテゴリ判定部７５２は、商品カテゴリ判定テーブル７４２を基にして、文書ＤＢ７４１に格納された文書データの商品カテゴリを判定する処理部である。商品カテゴリ判定部７５２は、判定した商品カテゴリと対応づけて、文書データを、特徴表現抽出部７５３に出力する。商品カテゴリ判定部７５２が文書データの商品カテゴリを判定する処理は、実施例２で説明した商品カテゴリ判定部３５２の処理と同様である。

特徴表現抽出部７５３は、文書データをフレーズ毎に分割することで、複数の表現データを生成する。また、特徴表現抽出部７５３は、表現データと、表現テンプレートＤＢ７４３の表現テンプレートとをマッチングさせることにより、特徴の種類毎に、表現データに出現した、商品の特徴を表す表現を抽出する。特徴表現抽出部７５３が、商品の特徴を表す表現を抽出する処理は、実施例１で説明した特徴表現抽出部１５２の処理と同様である。

特徴表現抽出部７５３は、商品カテゴリと、特徴の種類と、商品の特徴を表す表現とを対応づけて、特徴表現変換部７５４に出力する。

特徴表現変換部７５４は、特徴の種類に対応する表現変換ＤＢ７４４の表現変換パターンを基にして、商品の特徴を表す表現を、物理量に変換する処理部である。特徴表現変換部７５４が、商品の特徴を表す表現を、物理量に変換する処理は、実施例１で説明した特徴表現変換部１５３の処理と同様である。特徴表現変換部７５４は、商品カテゴリと、特徴の種類と、変換した物理量とを対応づけて、凡庸分布算出部７５５に出力する。

凡庸分布算出部７５５は、特徴表現変換部７５４から受け付ける特徴の種類と、物理量とを商品カテゴリ毎に、凡庸分布ＤＢ７４５に格納する処理部である。

また、凡庸分布算出部７５５は、各商品カテゴリについて、特徴の種類毎に、物理量の確率密度を推定することにより、商品の特徴分布を表す確率密度を算出してもよい。凡庸分布算出部７５５が、確率密度を算出する処理は、実施例１で説明した凡庸分布算出部１５４の処理と同様である。

通知部７５６は、凡庸分布ＤＢ７４５を、新奇性分析装置４００に通知する処理部である。

図３０は、本実施例４に係る新奇性分析装置の構成を示す機能ブロック図である。図３０に示すように、この新奇性分析装置８００は、通信部８１０と、入力部８２０と、表示部８３０と、記憶部８４０と、制御部８５０とを有する。

通信部８１０は、凡庸分布ＤＢ生成装置７００またはＷｅｂ２０上の外部装置とデータ通信を行う処理部である。通信部８１０は、通信装置の一例である。後述する制御部８５０は、通信部８１０を介して、凡庸分布ＤＢ生成装置７００またはＷｅｂ２０上の外部装置とデータをやり取りする。

入力部８２０は、新奇性分析装置８００に各種のデータを入力するための入力装置である。入力部８２０は、キーボードやマウス、タッチパネルなどに対応する。

表示部８３０は、制御部８５０から出力されるデータを表示する表示装置である。表示部８３０は、液晶ディスプレイやタッチパネルなどに対応する。

記憶部８４０は、文書ＤＢ８４１、商品カテゴリ判定テーブル７４２、表現テンプレートＤＢ７４３、表現変換ＤＢ７４４、凡庸分布ＤＢ７４５を有する。記憶部８４０は、ＲＡＭ、ＲＯＭ、フラッシュメモリなどの半導体メモリ素子や、ＨＤＤなどの記憶装置に対応する。

文書ＤＢ８４１は、後述する受付部８５１が、ユーザから商品カテゴリを受け付けたタイミングで、文書収集部８５２により収集される文書データを格納するデータベースである。文書ＤＢ８４１の文書データは、Ｗｅｂ２０上のニュース記事などに対応する。

商品カテゴリ判定テーブル７４２、表現テンプレートＤＢ７４３、表現変換ＤＢ７４４、凡庸分布ＤＢ７４５に関する説明は、図２９で説明した、商品カテゴリ判定テーブル７４２、表現テンプレートＤＢ７４３、表現変換ＤＢ７４４、凡庸分布ＤＢ７４５に関する説明と同様である。説明を省略するが、商品カテゴリ判定テーブル７４２、表現テンプレートＤＢ７４３、表現変換ＤＢ７４４、凡庸分布ＤＢ７４５は、凡庸分布ＤＢ生成装置７００から通知され、記憶部８４０に格納される。

制御部８５０は、受付部８５１、文書収集部８５２と、商品カテゴリ判定部８５３、表現分割部８５４、特徴表現抽出部８５５、特徴表現変換部８５６、新奇性表現判定部８５７、提示部８５８を有する。制御部８５０は、ＣＰＵやＭＰＵなどによって実現できる。また、制御部８５０は、ＡＳＩＣやＦＰＧＡなどのハードワイヤードロジックによっても実現できる。

受付部８５１は、入力部８２０から、商品カテゴリの指定を受け付ける処理部である。以下の説明では、入力部８２０から受け付けた商品カテゴリを「指定商品カテゴリ」と表記する。受付部８５１は、指定商品カテゴリのデータを、商品カテゴリ判定部８５３に出力する。また、受付部８５１は、商品カテゴリの指定を受け付けた旨を、文書収集部８５２に出力する。

文書収集部８５２は、受付部８５１が商品カテゴリの指定を受けたタイミングで、Ｗｅｂ２０から、ニュース記事等の文書データを収集する処理部である。文書収集部８５２は、収集した文書データを、文書ＤＢ８４１に格納する。

商品カテゴリ判定部８５３は、文書ＤＢ８４１に格納された文書データのうち、指定商品カテゴリと同一の商品カテゴリに分類される文書データを取得する処理部である。商品カテゴリ判定部８５３は、指定商品カテゴリと同一の商品カテゴリに分類される文書データを、表現分割部８５４に出力する。

商品カテゴリ判定部８５３は、文書データと、商品カテゴリ判定テーブル７４２とを基にして、文書データの商品カテゴリを判定する。商品カテゴリ判定部８５３が、文書データの商品カテゴリを判定する処理は、実施例２で説明した商品カテゴリ判定部３５２の処理と同様である。

表現分割部８５４は、文書データをフレーズ毎に分割することで、複数の表現データを生成する処理部である。表現分割部８５４は、商品カテゴリと、分割した複数の表現データとを、特徴表現抽出部８５５に出力する。表現分割部８５４が、表現データを生成する処理は、実施例１で説明した表現分割部２５２の処理と同様である。

特徴表現抽出部８５５は、表現データと、表現テンプレートＤＢ７４３の表現テンプレートとをマッチングさせることにより、特徴の種類毎に、表現データに含まれる、商品の特徴を表す表現を抽出する。特徴表現抽出部８５５は、指定商品カテゴリと、特徴の種類と、商品の特徴を表す表現とを対応づけて、特徴表現変換部８５６に出力する。特徴表現抽出部８５５が、商品の特徴を表す表現を抽出する処理は、実施例１で説明した特徴表現抽出部２５３の処理と同様である。

特徴表現変換部８５６は、特徴の種類に対応する表現変換ＤＢ７４４の表現変換パターンを基にして、商品の特徴を表す表現を、物理量に変換する処理部である。特徴表現変換部８５６は、指定商品カテゴリと、特徴の種類と、変換した物理量とを対応づけて、新奇性表現判定部８５７に出力する。特徴表現変換部８５６が、商品の特徴を表す表現を、物理量に変換する処理は、実施例１で説明した特徴表現変換部２５４の処理と同様である。

新奇性表現判定部８５７は、指定商品カテゴリおよび特徴の種類に対応する凡庸分布ＤＢ７４５の凡庸分布と、物理量とを基にして、文書データの表現データの新奇性の有無を判定する処理部である。たとえば、新奇性表現判定部４５６は、文書データに含まれる複数の表現データのうち、所定数以上の表現データに新奇性があると判定した場合には、係る文書データを、提示部４５７に出力する。新奇性表現判定部４５６が、表現データの新奇性の有無を判定する処理は、実施例２で説明した新奇性表現判定部４５６の処理と同様である。

提示部８５８は、新奇性表現判定部８５７から受け付ける、新奇性のある文書データを、表示部８３０に提示する処理部である。

次に、本実施例４に係る凡庸分布ＤＢ生成装置７００の処理手順の一例について説明する。図３１は、本実施例４に係る凡庸分布ＤＢ生成装置の処理手順を示すフローチャートである。図３１に示すように、凡庸分布ＤＢ生成装置７００の文書収集部７５１は、Ｗｅｂ２０からニュース記事などの文書データを収集する（ステップＳ７０１）。なお、商品カテゴリ判定テーブル７４２、表現テンプレートＤＢ７４３、表現変換ＤＢ７４４は、予め、記憶部７４０に記憶される。

凡庸分布ＤＢ生成装置７００の商品カテゴリ判定部７５２は、商品カテゴリ判定テーブル７４２を基にして、文書データ毎に、商品カテゴリを判定する（ステップＳ７０２）。特徴表現抽出部７５３は、文書データと、表現テンプレートＤＢ７４３の表現テンプレートとマッチングする。特徴表現抽出部７５３は、特徴の種類毎に、文書データに出現した、商品の特徴を表す表現を抽出する（ステップＳ７０３）。

凡庸分布ＤＢ生成装置７００の特徴表現変換部７５４は、表現変換ＤＢ７４４に基づいて、商品の特徴を表す表現を、物理量に変換する（ステップＳ７０４）。凡庸分布ＤＢ生成装置７００の凡庸分布算出部７５５は、該当する商品カテゴリと対応づけて、商品の特徴を表す各表現の物理量を、凡庸分布ＤＢ７４５に格納する（ステップＳ７０５）。ステップＳ７０５において、凡庸分布算出部７５５は、物理量の確率密度を推定することで、凡庸分布を算出し、凡庸分布ＤＢ７４５に格納しても良い。

次に、本実施例４に係る新奇性分析装置８００の処理手順の一例について説明する。図３２は、本実施例４に係る新奇性分析装置の処理手順を示すフローチャートである。図３２に示すように、新奇性分析装置８００の受付部８５１は、指定商品カテゴリを受け付ける（ステップＳ８０１）。

新奇性分析装置８００の文書収集部８５２は、Ｗｅｂ２０からニュース記事等の文書データを収集する（ステップＳ８０２）。新奇性分析装置８００の商品カテゴリ判定部８５３は、指定商品カテゴリと同一の商品カテゴリとなる文書データを判定する（ステップＳ８０３）。

新奇性分析装置８００の表現分割部８５４は、指定商品カテゴリに対応する文書データを表現データに分割する（ステップＳ８０４）。新奇性分析装置８００の特徴表現抽出部８５５は、分割した各表現データのうち、未選択の表現データを選択する（ステップＳ８０５）。

特徴表現抽出部８５５は、選択した表現データと表現テンプレートＤＢ７４３の表現テンプレートとマッチングし、商品の特徴を表す表現を抽出する（ステップＳ８０６）。新奇性分析装置８００の特徴表現変換部８５６は、表現変換ＤＢ７４４に基づいて、商品の特徴を表す表現を、物理量に変換する（ステップＳ８０７）。

新奇性分析装置８００の新奇性表現判定部８５７は、物理量と、凡庸分布ＤＢ７４５とを基にして、逸脱度を算出する（ステップＳ８０８）。新奇性表現判定部８５７は、逸脱度が閾値ｑ以上である場合に、選択した表現データの新奇性が高い（新奇性有り）と判定する（ステップＳ８０９）。

新奇性分析装置８００は、全ての表現データを選択していない場合には（ステップＳ８１０，Ｎｏ）、ステップＳ８０５に移行する。新奇性分析装置８００は、全ての表現データを選択した場合には（ステップＳ８１０，Ｙｅｓ）、ステップＳ８１１に移行する。

新奇性分析装置８００の提示部８５８は、指定商品カテゴリの文書データのうち、新奇性が高いと判定された表現データの数が閾値以上となる文書データを提示する（ステップＳ８１１）。

図３３は、本実施例４に係るＵＩの一例を示す図である。ユーザは、表示部８３０の画面８３０ａを参照し、入力部８２０を操作して、入力領域４０ａに指定商品カテゴリを入力する。ユーザは、指定商品カテゴリを入力した後に、実行ボタン４１を押下する。新奇性分析装置８００は、実行ボタン４１の押下を受け付けると、Ｗｅｂ２０から文書データを収集する。新奇性分析装置８００は、収集した文書データのうち、指定商品カテゴリに分類され、新奇性の高い表現データを有する文書データを抽出し、表示領域４０ｂに表示する。新奇性分析装置８００は、Ｗｅｂ２０上の文書データの位置を示すＵＲＬ（Uniform Resource Locator）を、表示領域４０ｂに表示させても良い。

次に、本実施例４に係る新奇性分析装置８００の効果について説明する。新奇性分析装置８００は、ユーザから指定商品カテゴリを受け付けると、この指定商品カテゴリに分類される文書データから、新奇性の表現を有する文書データを抽出して提示する。これにより、ユーザは、提示された文書データ（記事）を読むことで、商品の最新動向を把握することができる。

実施例４について補足を行う。新奇性分析装置８００の文書収集部８５２は、ユーザの操作なしに、定期的に文書データを収集して、文書ＤＢ８４１に格納しても良い。また、文書収集部８５２は、文書データを予め収集しておき、作成日時を基にして、過去文書データと、現在文書データとに分類しても良い。各処理部８５３〜８５８は、現在文書データに対して、処理を実行する。

また、ここでは、凡庸分布ＤＢ生成装置７００と新奇性分析装置８００とに分けて、事前処理と、新奇性判定の処理とを実行する場合について説明したがこれに限定されるものではない。新奇性分析装置８００が、凡庸分布ＤＢ生成装置７００の機能部を有し、新奇性分析装置８００が、事前処理および新奇性判定の処理を実行しても良い。

次に、上記実施例に示した凡庸分布ＤＢ生成装置１００（３００，５００，７００）と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図３４は、凡庸分布生成装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図３４に示すように、コンピュータ６０は、各種演算処理を実行するＣＰＵ６１と、ユーザからのデータの入力を受け付ける入力装置６２と、ディスプレイ６３とを有する。また、コンピュータ６０は、記憶媒体からプログラム等を読み取る読み取り装置６４と、有線または無線ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置６５とを有する。また、コンピュータ６０は、各種情報を一時記憶するＲＡＭ６６と、ハードディスク装置６７とを有する。そして、各装置６１〜６７は、バス６８に接続される。

ハードディスク装置６７は、受付プログラム６７ａ、文書収集プログラム６７ｂ、商品カテゴリ判定プログラム６７ｃ、特徴表現抽出プログラム６７ｄを有する。ハードディスク装置６７は、特徴表現変換プログラム６７ｅ、凡庸分布算出プログラム６７ｆ、通知プログラム６７ｇを有する。ＣＰＵ６１は、各プログラム６７ａ〜６７ｇを読み出して、ＲＡＭ６６に展開する。

受付プログラム６７ａは、受付プロセス６６ａとして機能する。文書収集プログラム６７ｂは、文書収集プロセス６６ｂとして機能する。商品カテゴリ判定プログラム６７ｃは、商品カテゴリ判定プロセス６６ｃとして機能する。特徴表現抽出プログラム６７ｄは、特徴表現抽出プロセス６６ｄとして機能する。特徴表現変換プログラム６７ｅは、特徴表現変換プロセス６６ｅとして機能する。凡庸分布算出プログラム６７ｆは、凡庸分布算出プロセス６６ｆとして機能する。通知プログラム６７ｇは、通知プロセス６６ｇとして機能する。

受付プロセス６６ａの処理は、受付部１５１，３５１，５５１の処理に対応する。文書収集プロセス６６ｂの処理は、文書収集部７５１の処理に対応する。商品カテゴリ判定プロセス６６ｃの処理は、商品カテゴリ判定部３５２，７５２の処理に対応する。特徴表現抽出プロセス６６ｄの処理は、特徴表現抽出部１５２，３５３，５５２，７５３の処理に対応する。特徴表現変換プロセス６６ｅの処理は、特徴表現変換部１５３，３５４，５５３，７５４の処理に対応する。凡庸分布算出プロセス６６ｆの処理は、凡庸分布算出部１５４，３５５，５５４，７５５の処理に対応する。また、凡庸分布算出プロセス６６ｆは、出現頻度算出部５５５に対応する処理を実行する。通知プロセス６６ｇの処理は、通知部１５５，３５６，５５６，７５６の処理に対応する。

なお、各プログラム６７ａ〜６７ｇについては、必ずしも最初からハードディスク装置６７に記憶させておかなくても良い。例えば、コンピュータ６０に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ６０が各プログラム６７ａ〜６７ｇを読み出して実行するようにしても良い。

次に、上記実施例に示した新奇性分析装置２００（４００，６００，８００）と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図３５は、新奇性分析装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。

図３５に示すように、コンピュータ７０は、各種演算処理を実行するＣＰＵ７１と、ユーザからのデータの入力を受け付ける入力装置７２と、ディスプレイ７３とを有する。また、コンピュータ７０は、記憶媒体からプログラム等を読み取る読み取り装置７４と、有線または無線ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置７５とを有する。また、コンピュータ７０は、各種情報を一時記憶するＲＡＭ７６と、ハードディスク装置７７とを有する。そして、各装置７１〜７７は、バス７８に接続される。

ハードディスク装置７７は、受付プログラム７７ａ、文書収集プログラム７７ｂ、商品カテゴリ判定プログラム７７ｃ、表現分割プログラム７７ｄ、特徴表現抽出プログラム７７ｅを有する。ハードディスク装置７７は、特徴表現変換プログラム７７ｆ、新奇性表現判定プログラム７７ｇ、提示プログラム７７ｈを有する。ＣＰＵ７１は、各プログラム７７ａ〜７７ｈを読み出して、ＲＡＭ７６に展開する。

受付プログラム７７ａは、受付プロセス７６ａとして機能する。文書収集プログラム７７ｂは、文書収集プロセス７６ｂとして機能する。商品カテゴリ判定プログラム７７ｃは、商品カテゴリ判定プロセス７６ｃとして機能する。表現分割プログラム７７ｄは、表現分割プロセス７６ｄとして機能する。特徴表現抽出プログラム７７ｅは、特徴表現抽出プロセス７６ｅとして機能する。特徴表現変換プログラム７７ｆは、特徴表現変換プロセス７６ｅとして機能する。凡庸分布算出プログラム７７ｆは、凡庸分布算出プロセス７６ｆとして機能する。新奇性表現判定プログラム７７ｇは、新奇性表現判定プロセス７６ｇとして機能する。提示プログラム７７ｈは、提示プロセス７６ｈとして機能する。

受付プロセス７６ａの処理は、受付部２５１，４５１，６５１，８５１の処理に対応する。文書収集プロセス７６ｂの処理は、文書収集部８５３の処理に対応する。商品カテゴリ判定プロセス７６ｃの処理は、商品カテゴリ判定部４５２，８５３の処理に対応する。表現分割プロセス７６ｄの処理は、表現分割部２５２，４５３，６５２，８５４の処理に対応する。特徴表現抽出プロセス７６ｅの処理は、特徴表現抽出部２５３，４５４，６５３，８５５の処理に対応する。特徴表現変換プロセス７６ｆの処理は、特徴表現変換部２５４，４５５，６５４，８５６の処理に対応する。新奇性表現判定プロセス７６ｇの処理は、新奇性表現判定部２５５，４５６，６５５，８５７の処理に対応する。提示プロセス７６ｈの処理は、提示部２５６，４５７，６５６，８５８の処理に対応する。

なお、各プログラム７７ａ〜７７ｈについては、必ずしも最初からハードディスク装置７７に記憶させておかなくても良い。例えば、コンピュータ７０に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ７０が各プログラム７７ａ〜７７ｈを読み出して実行するようにしても良い。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）処理対象とする文書データの中から抽出された表現データを取得し、所定の表現データの特徴および物理量を対応づけた表現変換テーブルと、前記表現データの特徴とを基にして、前記表現データを物理量に変換する特徴表現変換部と、
特徴の種類と、前記特徴の物理量を確率変数とする確率密度とを対応づけた凡庸分布テーブルを基にして、前記表現データの特徴の種類に対する前記表現データの物理量の逸脱度を特定し、特定した逸脱度を基にして、前記表現データの新奇性の有無もしくは大きさを判定する新奇性表現判定部と
を有することを特徴とする新奇性分析装置。

（付記２）前記文書データの商品カテゴリを判定する商品カテゴリ判定部を更に有し、前記凡庸分布テーブルは、商品カテゴリ毎に、前記特徴の種類と前記確率密度とを対応付け、
前記新奇性表現判定部は、前記商品カテゴリ判定部の判定結果となる商品カテゴリに対応する前記特徴の種類と前記確率密度とを基にして、前記表現データの特徴に対応する前記表現データの物理量の逸脱度を特定することを特徴とする付記１に記載の新奇性分析装置。

（付記３）前記特徴の種類と、前記所定の表現データの出現頻度とを対応づけた凡庸頻度テーブルを更に有し、前記新奇性表現判定部は、前記凡庸頻度テーブルを基にして、前記表現データの特徴の種類に対する前記表現データの出現頻度を特定し、特定した出現頻度と、前記逸脱度とを基にして、前記表現データの新奇性の有無もしくは大きさを判定することを特徴とする付記１または２に記載の新奇性分析装置。

（付記４）商品カテゴリの指定を受け付ける受付部と、ネットワークを介して複数の文書データを収集する文書収集部とを更に有し、
前記商品カテゴリ判定部は、前記複数の文書データのうち、指定された商品カテゴリに対応する文書データを選択し、前記特徴表現変換部は、選択された文書データを複数の表現データに分割し、前記新奇性表現判定部は、新奇性を有する表現データを所定数以上有する文書データを、前記複数の文書データの中から判定することを特徴とする付記２に記載の新奇性分析装置。

（付記５）前記文書収集部により収集された複数の文書データに対する前記特徴表現変換部の処理結果を基にして、前記文書収集部により収集された複数の文書データに含まれる複数の表現データに関する、特徴の種類と、前記特徴の物理量を確率変数とする確率密度とを商品カテゴリ毎に対応づけることで、前記凡庸分布テーブルを生成する凡庸分布算出部を更に有することを特徴とする付記４に記載の新奇性分析装置。

（付記６）新奇性分析装置および凡庸分布生成装置を有する新奇性分析システムであって、
前記凡庸分布生成装置は、
表現データの特徴の種類と、前記特徴の物理量を確率変数とする確率密度とを対応づけた凡庸分布テーブルを生成し、
前記新奇性分析装置は、
処理対象とする文書データの中から抽出された表現データを取得し、所定の表現データの特徴および物理量を対応づけた表現変換テーブルと、前記表現データの特徴とを基にして、前記表現データを物理量に変換する特徴表現変換部と、
前記凡庸分布テーブルを基にして、前記表現データの特徴の種類に対する前記表現データの物理量の逸脱度を特定し、特定した逸脱度を基にして、前記表現データの新奇性の有無もしくは大きさを判定する新奇性表現判定部と
を有することを特徴とする新奇性分析システム。

（付記７）コンピュータに、
処理対象とする文書データの中から抽出された表現データを取得し、所定の表現データの特徴および物理量を対応づけた表現変換テーブルと、前記表現データの特徴とを基にして、前記表現データを物理量に変換し、
特徴の種類と、前記特徴の物理量を確率変数とする確率密度とを対応づけた凡庸分布テーブルを基にして、前記表現データの特徴の種類に対する前記表現データの物理量の逸脱度を特定し、特定した逸脱度を基にして、前記表現データの新奇性の有無もしくは大きさを判定する
処理を実行させることを特徴とする新奇性分析プログラム。

（付記８）コンピュータに、前記文書データの商品カテゴリを判定する処理を更に実行させ、前記凡庸分布テーブルは、商品カテゴリ毎に、前記特徴の種類と前記確率密度とを対応付け、
前記逸脱度を特定する処理は、前記商品カテゴリ判定部の判定結果となる商品カテゴリに対応する前記特徴の種類と前記確率密度とを基にして、前記表現データの特徴に対応する前記表現データの物理量の逸脱度を特定することを特徴とする付記７に記載の新奇性分析プログラム。

（付記９）コンピュータは、前記特徴の種類と、前記所定の表現データの出現頻度とを対応づけた凡庸頻度テーブルを更に有し、前記新奇性の有無もしくは大きさを判定する処理は、前記凡庸頻度テーブルを基にして、前記表現データの特徴の種類に対する前記表現データの出現頻度を特定し、特定した出現頻度と、前記逸脱度とを基にして、前記表現データの新奇性の有無もしくは大きさを判定することを特徴とする付記７または８に記載の新奇性分析プログラム。

（付記１０）コンピュータに、商品カテゴリの指定を受け付ける処理と、ネットワークを介して複数の文書データを収集する処理とを更に実行させ、
前記商品カテゴリを判定する処理は、前記複数の文書データのうち、指定された商品カテゴリに対応する文書データを選択し、選択された文書データを複数の表現データに分割し、前記新奇性を判定する処理は、新奇性を有する表現データを所定数以上有する文書データを、前記複数の文書データの中から判定することを特徴とする付記９に記載の新奇性分析プログラム。

（付記１１）コンピュータに、収集された複数の文書データに含まれる複数の表現データに関する、特徴の種類と、前記特徴の物理量を確率変数とする確率密度とを商品カテゴリ毎に対応づけることで、前記凡庸分布テーブルを生成する処理を更に実行させることを特徴とする付記１０に記載の新奇性分析プログラム。

（付記１２）コンピュータが実行する新奇性分析方法であって、
処理対象とする文書データの中から抽出された表現データを取得し、所定の表現データの特徴および物理量を対応づけた表現変換テーブルと、前記表現データの特徴とを基にして、前記表現データを物理量に変換し、
特徴の種類と、前記特徴の物理量を確率変数とする確率密度とを対応づけた凡庸分布テーブルを基にして、前記表現データの特徴の種類に対する前記表現データの物理量の逸脱度を特定し、特定した逸脱度を基にして、前記表現データの新奇性の有無もしくは大きさを判定する
処理を実行することを特徴とする新奇性分析方法。

（付記１３）コンピュータは、前記文書データの商品カテゴリを判定する処理を更に実行し、前記凡庸分布テーブルは、商品カテゴリ毎に、前記特徴の種類と前記確率密度とを対応付け、
前記逸脱度を特定する処理は、前記商品カテゴリ判定部の判定結果となる商品カテゴリに対応する前記特徴の種類と前記確率密度とを基にして、前記表現データの特徴に対応する前記表現データの物理量の逸脱度を特定することを特徴とする付記１２に記載の新奇性分析方法。

（付記１４）コンピュータは、前記特徴の種類と、前記所定の表現データの出現頻度とを対応づけた凡庸頻度テーブルを更に有し、前記新奇性の有無もしくは大きさを判定する処理は、前記凡庸頻度テーブルを基にして、前記表現データの特徴の種類に対する前記表現データの出現頻度を特定し、特定した出現頻度と、前記逸脱度とを基にして、前記表現データの新奇性の有無もしくは大きさを判定することを特徴とする付記１２または１３に記載の新奇性分析方法。

（付記１５）コンピュータは、商品カテゴリの指定を受け付ける処理と、ネットワークを介して複数の文書データを収集する処理とを更に実行し、
前記商品カテゴリを判定する処理は、前記複数の文書データのうち、指定された商品カテゴリに対応する文書データを選択し、選択された文書データを複数の表現データに分割し、前記新奇性を判定する処理は、新奇性を有する表現データを所定数以上有する文書データを、前記複数の文書データの中から判定することを特徴とする付記１２に記載の新奇性分析方法。

（付記１６）コンピュータは、収集された複数の文書データに含まれる複数の表現データに関する、特徴の種類と、前記特徴の物理量を確率変数とする確率密度とを商品カテゴリ毎に対応づけることで、前記凡庸分布テーブルを生成する処理を更に実行することを特徴とする付記１５に記載の新奇性分析方法。

２０Ｗｅｂ
１００，３００，５００，７００凡庸分布ＤＢ生成装置
２００，４００，６００，８００新奇性分析装置

Claims

処理対象とする文書データの中から抽出された表現データを取得し、所定の表現データの特徴および物理量を対応づけた表現変換テーブルと、前記表現データの特徴とを基にして、前記表現データを物理量に変換する特徴表現変換部と、
特徴の種類と、前記特徴の物理量を確率変数とする確率密度とを対応づけた凡庸分布テーブルを基にして、前記表現データの特徴の種類に対する前記表現データの物理量の逸脱度を特定し、特定した逸脱度を基にして、前記表現データの新奇性の有無もしくは大きさを判定する新奇性表現判定部と
を有することを特徴とする新奇性分析装置。
前記文書データの商品カテゴリを判定する商品カテゴリ判定部を更に有し、前記凡庸分布テーブルは、商品カテゴリ毎に、前記特徴の種類と前記確率密度とを対応付け、
前記新奇性表現判定部は、前記商品カテゴリ判定部の判定結果となる商品カテゴリに対応する前記特徴の種類と前記確率密度とを基にして、前記表現データの特徴に対応する前記表現データの物理量の逸脱度を特定することを特徴とする請求項１に記載の新奇性分析装置。
前記特徴の種類と、前記所定の表現データの出現頻度とを対応づけた凡庸頻度テーブルを更に有し、前記新奇性表現判定部は、前記凡庸頻度テーブルを基にして、前記表現データの特徴の種類に対する前記表現データの出現頻度を特定し、特定した出現頻度と、前記逸脱度とを基にして、前記表現データの新奇性の有無もしくは大きさを判定することを特徴とする請求項１または２に記載の新奇性分析装置。
商品カテゴリの指定を受け付ける受付部と、ネットワークを介して複数の文書データを収集する文書収集部とを更に有し、
前記商品カテゴリ判定部は、前記複数の文書データのうち、指定された商品カテゴリに対応する文書データを選択し、前記特徴表現変換部は、選択された文書データを複数の表現データに分割し、前記新奇性表現判定部は、新奇性を有する表現データを所定数以上有する文書データを、前記複数の文書データの中から判定することを特徴とする請求項２に記載の新奇性分析装置。
前記文書収集部により収集された複数の文書データに対する前記特徴表現変換部の処理結果を基にして、前記文書収集部により収集された複数の文書データに含まれる複数の表現データに関する、特徴の種類と、前記特徴の物理量を確率変数とする確率密度とを商品カテゴリ毎に対応づけることで、前記凡庸分布テーブルを生成する凡庸分布生成部を更に有することを特徴とする請求項４に記載の新奇性分析装置。
新奇性分析装置および凡庸分布生成装置を有する新奇性分析システムであって、
前記凡庸分布生成装置は、
表現データの特徴の種類と、前記特徴の物理量を確率変数とする確率密度とを対応づけた凡庸分布テーブルを生成し、
前記新奇性分析装置は、
処理対象とする文書データの中から抽出された表現データを取得し、所定の表現データの特徴および物理量を対応づけた表現変換テーブルと、前記表現データの特徴とを基にして、前記表現データを物理量に変換する特徴表現変換部と、
前記凡庸分布テーブルを基にして、前記表現データの特徴の種類に対する前記表現データの物理量の逸脱度を特定し、特定した逸脱度を基にして、前記表現データの新奇性の有無もしくは大きさを判定する新奇性表現判定部と
を有することを特徴とする新奇性分析システム。
コンピュータに、
処理対象とする文書データの中から抽出された表現データを取得し、所定の表現データの特徴および物理量を対応づけた表現変換テーブルと、前記表現データの特徴とを基にして、前記表現データを物理量に変換し、
特徴の種類と、前記特徴の物理量を確率変数とする確率密度とを対応づけた凡庸分布テーブルを基にして、前記表現データの特徴の種類に対する前記表現データの物理量の逸脱度を特定し、特定した逸脱度を基にして、前記表現データの新奇性の有無もしくは大きさを判定する
処理を実行させることを特徴とする新奇性分析プログラム。
コンピュータが実行する新奇性分析方法であって、
処理対象とする文書データの中から抽出された表現データを取得し、所定の表現データの特徴および物理量を対応づけた表現変換テーブルと、前記表現データの特徴とを基にして、前記表現データを物理量に変換し、
特徴の種類と、前記特徴の物理量を確率変数とする確率密度とを対応づけた凡庸分布テーブルを基にして、前記表現データの特徴の種類に対する前記表現データの物理量の逸脱度を特定し、特定した逸脱度を基にして、前記表現データの新奇性の有無もしくは大きさを判定する
処理を実行することを特徴とする新奇性分析方法。