属性リストの生成のためには、ウェブデータにおけるリストから取得された属性値だけでは網羅性に欠け、十分ではない。商品ページの説明文から属性値を取得して属性リストを自動生成するためには、属性値に属性を識別する情報を付与した商品の説明文をコーパスデータとして大量に準備し、そのコーパスデータを機械学習した解析装置を用いることが好ましい。しかしながら、そのようなコーパスデータを大量に作成するのには、非常に多くの手間が必要であった。
そこで本発明は、属性値に属性を識別する情報が付与されたコーパスデータの生成の手間を低減することを目的とする。
上記課題を解決するために、本発明の一形態に係るコーパス生成装置は、ウェブページにおいて提示される提示対象に関する説明文データ及び該提示対象に関する属性名と属性値とを対応付けた属性リストを含むウェブページデータを取得する取得手段と、取得手段により取得されたウェブページデータに含まれる属性リストにおける属性値が、該ウェブページデータに含まれる説明文データに含まれている場合に、該説明文データに含まれる属性値に、属性リストにおいて該属性値が対応付けられている属性名を識別する属性タグを付与する付与手段と、付与手段により属性タグが付与された説明文データを、コーパスデータとして出力する出力手段と、を備える。
本発明の一形態に係るコーパス生成方法は、コーパスデータを生成するコーパス生成装置におけるコーパス生成方法であって、ウェブページにおいて提示される提示対象に関する説明文データ及び該提示対象に関する属性名と属性値とを対応付けた属性リストを含むウェブページデータを取得する取得ステップと、取得ステップにおいて取得されたウェブページデータに含まれる属性リストにおける属性値が、該ウェブページデータに含まれる説明文データに含まれている場合に、該説明文データに含まれる属性値に、属性リストにおいて該属性値が対応付けられている属性名を識別する属性タグを付与する付与ステップと、付与ステップにおいて属性タグが付与された説明文データを、コーパスデータとして出力する出力ステップと、を有する。
本発明の一形態に係るコーパス生成プログラムは、コンピュータを、コーパスデータを生成するコーパス生成装置として機能させるためのコーパス生成プログラムであって、コンピュータに、ウェブページにおいて提示される提示対象に関する説明文データ及び該提示対象に関する属性名と属性値とを対応付けた属性リストを含むウェブページデータを取得する取得機能と、取得機能により取得されたウェブページデータに含まれる属性リストにおける属性値が、該ウェブページデータに含まれる説明文データに含まれている場合に、該説明文データに含まれる属性値に、属性リストにおいて該属性値が対応付けられている属性名を識別する属性タグを付与する付与機能と、付与機能により属性タグが付与された説明文データを、コーパスデータとして出力する出力機能と、を実現させる。
上記形態によれば、属性リストに含まれる属性値が説明文データに含まれている場合に、その属性値が属性リストにおいて対応付けられている属性名を識別する属性タグが、当該属性名に付されるので、当該提示対象の特徴を示した属性値に適切に属性タグを付与することが可能となる。そして、適切に属性タグが付与された説明文データがコーパスデータとして出力されるので、例えば機械学習器に供されるためのコーパスデータの生成の手間を低減できる。
別の形態に係るコーパス生成装置では、提示対象に関する属性名と属性値とが対応付けられた属性ペアデータを複数含むと共に一の属性名に類義の類義属性名を該一の属性名に対応付けて含むペア集合データを参照し、ペア集合データに含まれる属性ペアデータにおける属性値を前記ウェブページデータに含まれる説明文データから抽出し、抽出された該属性値が、属性ペアデータにおいて対応付けられている一の属性名又は該一の属性名の類義属性名の属性値として当該ウェブページデータの属性リストに含まれている場合に、一の属性名を識別する属性タグを該属性値に付与する。
この形態によれば、ペア集合データに基づき商品に関する説明文データから抽出された属性値が、属性ペアデータにおいて対応付けられている属性名の属性値として、当該商品の属性リストに含まれている場合にその属性値に属性タグが付されるので、当該提示対象の特徴を示した属性値に適切に属性タグを付与できる。また、属性値が属性リストにおいて対応付けられている属性名が類義属性名に該当する場合であっても、その属性値に対する属性タグの付与が実施されるので、出力されるコーパスデータの量を増やすことができる。さらに、属性名が類義属性名に該当する場合に、類義属性名に代えて一の属性名を識別する属性タグが付されるので、属性名の表記揺れに起因するコーパスデータの品質低下が防止される。
さらに別の形態に係るコーパス生成装置では、付与手段は、ペア集合データに含まれる属性ペアデータにおける属性値を説明文データから抽出し、抽出された該属性値が、属性ペアデータにおいて対応付けられている属性名の属性値として当該ウェブページデータの属性リストに含まれておらず、該属性名に抽出された属性値とは異なる他の属性値が対応付けられて属性リストに含まれている場合に、抽出された属性値に、その属性値が提示対象の属性を表さないことを示す非属性タグを付与する。
この形態によれば、説明文データから抽出された属性値が、属性ペアデータにおいて対応付けられている属性名の属性値として属性リストに含まれておらず、且つその属性名に抽出された属性値とは異なる他の属性値が対応付けられている場合に、抽出された属性値に非属性タグが付される。これにより、説明文データから抽出された属性値がその提示対象の特徴を示す属性値として適切ではないことを表す情報を含むコーパスデータが生成される。従って、機械学習等に供するコーパスデータとしてより有用なコーパスデータを生成できる。
さらに別の形態に係るコーパス生成装置では、出力手段は、取得手段により取得されたウェブページデータの説明文データが複数の段落を含む場合に、付与された属性タグの数が所定数以上の段落の説明文データを、コーパスデータとして出力する。
説明文データが複数の段落を含む場合に、属性タグが多く付与された段落は、その提示対象の特徴を適切に説明する文章が含まれている可能性が高い。この形態によれば、所定数以上の属性タグが付された段落の説明文データがコーパスデータとして出力されるので、品質の高いコーパスデータを提供できる。
さらに別の形態に係るコーパス生成装置では、出力手段は、取得手段により取得されたウェブページデータの説明文データが複数の段落を含む場合に、付与された属性タグの数が最も多い段落の説明文データを、コーパスデータとして出力する。
説明文データが複数の段落を含む場合に、属性タグが多く付与された段落は、その提示対象の特徴を適切に説明する文章が含まれている可能性が高い。この形態によれば、付与された属性タグの数が最も多い段落の説明文データがコーパスデータとして出力されるので、品質の高いコーパスデータを提供できる。
さらに別の形態に係るコーパス生成装置では、出力手段は、属性タグが付与された説明文データに含まれる複数の部分を所定のルールに基づき複数のグループに分別し、属性タグが付与された各グループの部分を該グループごとのコーパスデータとして出力する。
商品に関する説明文データは、その提示対象のタイトルの部分及び提示対象の特徴を説明した文章の部分等を共に含む場合があり、これらの部分のそれぞれに含まれる属性値は、その現れ方が相違する。かかる場合であっても、この形態によれば、所定のルールに基づき文が複数のグループに分別され、グループごとにコーパスデータが出力されるので、機械学習等に供するためのコーパスデータとしての品質が維持される。
さらに別の形態に係るコーパス生成装置では、出力手段は、属性タグが付与された説明文データに含まれる複数の部分に形態素解析を実施し、複数の部分を所定の形態素解析結果に応じて複数のグループに分別する。
この形態によれば、説明文データに含まれる複数の部分が、その部分が有する特徴に応じて適切に分別されるので、出力されるコーパスデータの品質が維持される。
さらに別の形態に係るコーパス生成装置では、付与手段は、説明文データに含まれる複数の部分毎に形態素解析を実施し、所定の形態素解析結果を有する部分に対して属性タグの付与を行う。
この形態によれば、提示対象に関する説明文データは、その提示対象のタイトルの部分及び提示対象の特徴を説明した文章の部分等を共に含む場合があり、これらの部分のそれぞれに含まれる属性値は、その現れ方が相違する。かかる場合であっても、この形態によれば、説明文データの文に対する形態素解析において所定の特徴を有する部分のみに属性タグが付され、属性タグが付された部分からなる説明文データがコーパスデータとして出力されるので、コーパスデータとしての品質が維持される。
さらに別の形態に係るコーパス生成装置では、出力手段は、ウェブページデータの説明文データに含まれる属性値が、当該ウェブページデータの属性リストにおいて異なる属性名に対応付けられて複数含まれている場合に、当該説明文データをコーパスデータとして出力しない。
この形態では、抽出された属性値が複数の異なる属性名に対応付けられている場合には、当該属性値に対応付けるべき属性名が不明であるので、そのような属性値を含む説明文データがコーパスデータとして出力されないことにより、コーパスデータの品質の低下が防止される。
さらに別の形態に係るコーパス生成装置では、付与手段は、取得手段により取得されたウェブページデータに、複数の提示対象の各々に関する属性リストが複数含まれる場合に、説明文データに対する属性タグの付与を実施しない。
この形態では、抽出された属性値がウェブページデータに含まれる複数の提示対象のいずれに関するものであるのかが不明であるので、説明文データに対する属性タグの付与を実施しない。これにより、コーパスデータの品質の低下が防止される。
さらに別の形態に係るコーパス生成装置では、付与手段は、取得手段により取得されたウェブページデータに、複数の提示対象の各々に関する属性リストが複数含まれる場合に、ウェブページデータを表示するための記述情報に基づき、該ウェブページデータにおける提示対象毎の属性リスト及び説明文データが含まれる領域を検出し、同領域に含まれる属性リスト及び説明文データを一の提示対象に関する属性リスト及び説明文データとして対応付けて参照し、説明文データに含まれる属性値に対する属性タグの付与を実施する。
この形態によれば、複数の提示対象の情報を含むウェブページデータから、提示対象ごとの属性リスト及び説明文データが含まれる領域が検出され、同領域に含まれる属性リスト及び説明文データが一の提示対象に関する情報として扱われるので、説明文データから抽出された属性値に対する属性タグの付与に際して、適切な属性リストが参照される。従って、一のウェブページデータに商品に関する属性リストが複数含まれる場合であっても、コーパスデータの品質の低下が防止される。
さらに別の形態に係るコーパス生成装置では、付与手段は、取得手段により取得されたウェブページデータに、複数の提示対象の各々に関する属性リストが複数含まれる場合に、ウェブページデータに含まれる説明文データのうち、一の属性リストに含まれる属性値が所定以上の頻度で現れる説明文データの部分を特定し、該一の属性リスト及び該説明文データの部分を一の提示対象に関する属性リスト及び説明文データとして対応付けて参照し、説明文データに含まれる属性値に対する属性タグの付与を実施する。
この形態によれば、複数の提示対象の情報を含むウェブページデータにおいて、属性リストに含まれる属性値が所定以上の頻度で現れる説明文データの部分が特定されることにより、当該属性リストと説明文データにおける当該部分とが同じ提示対象に関する情報として対応付けられる。そして、説明文データにおける当該部分から抽出された属性値に対する属性タグの付与に際して、同じ商品に関する情報として対応付けられた属性リストが参照される。従って、一のウェブページデータに提示対象に関する属性リストが複数含まれる場合であっても、コーパスデータの品質の低下が防止される。
さらに別の形態に係るコーパス生成装置では、提示対象に関する属性名と属性値とを対応付けた属性リストを含むウェブページデータを複数取得し、取得したウェブページデータのうちの第1のウェブページデータに含まれる第1の属性リストにおける第1の属性値と、取得したウェブページデータのうちの第2のウェブページデータに含まれる第2の属性リストにおける第2の属性値とが等しく、第1の属性値に対応付けられた第1の属性名及び第2の属性値に対応付けられた第2の属性名が一の属性リストに共に含まれるウェブページデータが、複数のウェブページデータのなかに存在しない場合に、第1の属性名と第2の属性名とを互いに対応付けたシノニム属性名情報を生成する生成手段を更に備え、出力手段は、生成手段により生成されたシノニム属性名情報を用いて、互いに対応付けられた複数の属性名のうちから所定の条件に基づき一の代表属性名及び該代表属性名以外の属性名からなる類義属性名を設定し、付与手段により属性タグが付与された説明文データにおける類義属性名を識別する属性タグを、代表属性名を識別する属性タグに置換し、該説明文データをコーパスデータとして出力する。
この形態によれば、提示対象に関する同一の属性を指し示す複数の異なる属性名が対応付けられ、対応付けられた複数の属性名の中から代表属性名及び類義属性名が設定され、説明文データにおける属性値に類義属性名を識別する属性タグが付されていた場合には、その属性タグが代表属性名を識別する属性タグに置換される。これにより、属性名の表記揺れに起因するコーパスデータの品質低下が防止される。
さらに別の形態に係るコーパス生成装置では、取得手段により取得された複数のウェブページデータに含まれる属性リストにおいて所定頻度以上現れる属性名と属性値との複数のペアにおいて、同一の属性値に対応付けられた第1の属性名及び第2の属性名が、一の属性リストに含まれていない場合に、第1の属性名と第2の属性名とを互いに対応付けたシノニム属性名情報を生成する生成手段を更に備え、出力手段は、生成手段により生成されたシノニム属性名情報を用いて、互いに対応付けられた複数の属性名のうちから所定の条件に基づき一の代表属性名及び該代表属性名以外の属性名からなる類義属性名を設定し、付与手段により属性タグが付与された説明文データにおける類義属性名を識別する属性タグを、代表属性名を識別する属性タグに置換し、該説明文データをコーパスデータとして出力する。
この形態によれば、提示対象に関する同一の属性を指し示す複数の異なる属性名が対応付けられ、対応付けられた複数の属性名の中から代表属性名及び類義属性名が設定され、説明文データにおける属性値に類義属性名を識別する属性タグが付されていた場合には、その属性タグが代表属性名を識別する属性タグに置換される。これにより、属性名の表記揺れに起因するコーパスデータの品質低下が防止される。
さらに別の形態に係るコーパス生成装置では、出力手段は、取得手段により取得された複数のウェブページデータに含まれる属性リストに一の属性値が含まれる頻度を示す値に対する、複数のウェブページデータに含まれる説明文データに一の属性値が含まれる頻度を示す値の割合が所定値以上である一の属性値が属性タグを伴って含まれる説明文データをコーパスデータとして出力しないこととしてもよい。
この形態によれば、誤って属性タグが付された可能性の高い属性値が適切に判定され、そのような属性タグを伴う属性値を含む説明文データがコーパスデータとして出力されることが防止される。これにより、コーパスデータの品質の低下が防止される。
さらに別の形態に係るコーパス生成装置では、複数のウェブページデータから抽出された複数の属性値を解析して、属性値が有する書式パターンを抽出する解析手段をさらに備え、出力手段は、書式パターンに合致する属性値であって付与部により属性タグが付されていない属性値を含む説明文データをコーパスデータとして出力しないこととしてもよい。
この形態によれば、属性タグが付されるべき属性値が適切に判定され、そのような属性値に属性タグが付されていない説明文データがコーパスデータとして出力されることが防止される。これにより、コーパスデータの品質の低下が防止される。
本発明の一側面によれば、属性値に属性を識別する情報が付与されたコーパスデータの生成の手間を低減することが可能となる。
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。
図1は、本実施形態に係るコーパス生成装置1の機能的構成を示すブロック図である。コーパス生成装置1は、ウェブページデータにおいて提示される提示対象に関する説明文データからコーパスデータを生成する装置である。本実施形態のコーパス生成装置1は、電子商取引サイトにおいて販売される商品を提示する商品ページに含まれる説明文データからコーパスデータを生成する。具体的には、コーパス生成装置1は、説明文データに含まれる商品の属性値にその属性値の属性名を識別する属性タグが付されたコーパスデータを生成する。なお、コーパス生成装置1がコーパスデータの生成に用いるウェブページデータは、商取引サイトにおける商品ページデータに限定されない。また、コーパス生成装置1がコーパスデータの生成に用いるウェブページデータにおける提示対象は、商品に限定されない。コーパスデータの生成には、商品に関する属性名と属性値とが対応付けられた属性ペアデータを複数含むペア集合データが利用されてもよい。ペア集合データ及び属性ペアデータについては後述する。
商取引サイトでは、販売される商品に関する情報が商品ページに掲載される。商品ページは、商品の特徴等を説明した説明文を含む。また、商品の特徴をより分かりやすくユーザに提示するために、商品ページは、その商品の属性名と属性値とを対応付けた属性リストを含むことが好ましい。しかしながら、全ての商品ページに属性リストが設けられているわけではないので、商品ページの説明文から属性値を取得して属性リストを自動生成する要請がある。
本実施形態のコーパス生成装置1により出力されるコーパスデータは、例えば、説明文データからの属性リストの自動生成に利用される。即ち、大量のコーパスデータを機械学習した解析装置により、説明文データからの属性リストの自動生成が可能となる。なお、本実施形態は、ワインを商品とする電子商取引サイトの例により説明されているが、商品は、ワインに限定されない。また、本実施形態は、日本語のウェブサイトの例により説明されているが、本実施形態のコーパス装置が扱う言語は、日本語に限定されない。
本実施形態のコーパス生成装置1は、図1に示すように、機能的には、属性ペアデータ生成部11、取得部12(取得手段)、付与部13(付与手段)及び出力部14(出力手段)を含む。また、コーパス生成装置1の各機能部11〜14は、商品ページデータ記憶部21、ペア集合データ記憶部22、コーパスデータ記憶部23といった記憶手段にアクセス可能である。
図2は、コーパス生成装置1のハードウェア構成図である。コーパス生成装置1は、物理的には、図2に示すように、CPU101、RAM及びROMといったメモリにより構成される主記憶装置102、ハードディスク等で構成される補助記憶装置103、ネットワークカード等で構成される通信制御装置104、入力デバイスであるキーボード、マウス等の入力装置105、ディスプレイ等の出力装置106などを含むコンピュータシステムとして構成されている。
図1に示した各機能は、図2に示すCPU101、主記憶装置102等のハードウェア上に所定のコンピュータソフトウェア(コーパス生成プログラム)を読み込ませることにより、CPU101の制御のもとで通信制御装置104、入力装置105、出力装置106を動作させるとともに、主記憶装置102や補助記憶装置103におけるデータの読み出し及び書き込みを行うことで実現される。処理に必要なデータやデータベースは主記憶装置102や補助記憶装置103内に格納される。
まず、コーパス生成装置1の機能部の説明に先立って、商品ページデータ及び商品ページデータ記憶部21を説明する。商品ページデータ記憶部21は、電子商取引サイトにおいて販売される商品を示す商品ページデータを複数記憶している記憶手段である。図3は、商品ページデータを模式的に示す図である。即ち、図3は、商品ページデータに基づいて表示される商品ページを示す。
図3に示す例では、商品ページデータM1は、商品画像B1、説明文データD1及び属性リストL1を含む。説明文データD1は、当該商品ページにより示される商品の特徴等を説明した文章のデータである。属性リストL1は、商品に関する属性名A1と属性値V1とを対応付けたものである。図3に示す例では、商品ページデータM1は、説明文データD1及び属性リストL1を含むが、商品ページデータが属性リストを含まない場合もある。
続いて、コーパス生成装置1の機能部を説明する。属性ペアデータ生成部11は、商品に関する属性名と属性値とが対応付けられた属性ペアデータを生成する部分である。属性ペアデータ生成部11は、例えば、商品ページデータ記憶部21を参照して、属性リストL1を含む商品ページデータM1を取得し、属性リストL1から属性名A1と属性値V1とが対応付けられた属性ペアデータを生成する。そして、属性ペアデータ生成部11は、生成した属性ペアデータをペア集合データ記憶部22に記憶させる。なお、属性リストに基づく属性ペアデータの生成は、従来技術により実現可能である。
ペア集合データ記憶部22は、ペア集合データを記憶している記憶手段である。ペア集合データは、複数の属性ペアデータを含む。図4は、ペア集合データ記憶部22の構成及び記憶されているデータの例を示す図である。図4に示すように、ペア集合データ記憶部22は、属性名と属性値とを対応付けた属性ペアデータを複数記憶している。図4に示す例では、同一の属性名を有する属性ペアデータは、一行にまとめられており、例えば、「産地,ボルドー」、「産地,ブルゴーニュ」といった属性ペアデータが一行にまとめられて記憶されている。
また、ペア集合データは、属性名に類義属性名を対応付けて記憶することができる。属性名に対応付けられる属性名類義属性名は、例えば、予め設定により対応付けられていることとしてもよい。従って、ペア集合データは、「生産地,ローヌ」といった属性ペアデータもまとめて一行目に含むことができる。
取得部12は、説明文データ及び属性リストを含む商品ページデータを商品ページデータ記憶部21から取得する部分である。
付与部13は、取得部12により取得された商品ページデータの説明文データに含まれる属性値に属性タグを付与する部分である。また、出力部14は、付与部13により属性タグが付与された説明文データを、コーパスデータとして出力する部分である。
図5を参照して、付与部13による属性タグの付与及び出力部14によるコーパスデータの出力の例を具体的に説明する。
付与部13は、ペア集合データに含まれる属性ペアデータにおける属性値を説明文データから抽出し、抽出した属性値が、属性ペアデータにおいて対応付けられている属性名の属性値として当該商品ページデータの属性リストに含まれている場合に、属性名を識別する属性タグを該属性値に付与する。
図5(a)は、商品ページデータに含まれる説明文データD2を示す図である。付与部13は、図4に示すペア集合データに「ブルゴーニュ」が属性値として含まれているので、説明文データD2から、属性値「ブルゴーニュ」を抽出する。
図5(b)は、説明文データD2と同じ商品ページデータに含まれる属性リストL2を示す図である。属性リストL2は、属性名A2及び属性値V2を対応付けて含んでいる。付与部13は、抽出した属性値「ブルゴーニュ」が、属性ペアデータ(図4参照)において対応付けられている属性名「産地」の属性値V2として属性リストL2に含まれていることを検出すると、属性名「産地」を識別する属性タグを属性値「ブルゴーニュ」に付与する。
なお、説明文データから抽出された属性値が属性ペアデータにおいて対応付けられ且つ属性リストにおいて対応付けられるものとして検出された属性名が、ペア集合データにおける類義属性名に該当する場合には、付与部13は、ペア集合データにおいてその類義属性名に対応付けられている属性名を識別する属性タグを当該属性値に付与する。
そして、出力部14は、属性タグが付された説明文データD2をコーパスデータとしてコーパスデータ記憶部23に出力する。図5(c)は、出力部14により出力されたコーパスデータC2を示す図である。図5(c)に示すように、コーパスデータC2では、属性名「産地」を識別する属性タグ「<産地>・・・</産地>」が属性値「ブルゴーニュ」に付されている。
以上、図5を参照して説明したように、説明文データにおいて商品の特徴を示した属性値に適切に属性タグを付与することが可能となる。そして、適切に属性タグが付与された説明文データがコーパスデータとして出力されるので、コーパスデータの生成の手間を低減できる。
なお、以上の説明では、付与部13は、属性ペアデータを利用して属性タグの付与を行ったが、属性ペアデータを利用しないで属性タグの付与を行うことも可能である。この場合には、付与部13は、取得部12により取得された商品ページデータに含まれる属性リストから属性値を抽出する。そして、付与部13は、抽出した属性値が、その商品ページデータにおける説明文データに含まれている場合に、その説明文データに含まれる属性値に、属性リストにおいて当該属性値が対応付けられている属性名を識別する属性タグを付与することができる。
コーパスデータ記憶部23は、出力部14により出力されたコーパスデータを記憶する記憶手段である。コーパスデータ記憶部23に記憶されたコーパスデータは、例えば、属性リストを含まない商品ページデータの説明文データを用いて属性リストを自動生成する解析装置における機械学習に利用されることができる。例えば、図6(a)に示されるようなコーパスデータCXが機械学習されると、解析装置は、文脈の中で「産地」の属性値が現れる箇所を認識できるようになる。
このようなコーパスデータCXが機械学習された後に、解析装置が図6(b)に示されるような説明文データD3の解析を実施すると、解析装置は、その文の構造及び文脈等から「チリ」が「産地」を表す属性値であることを検出し、図6(c)に示すように、「チリ」の部分にタグ「<産地>・・・</産地>」が付された出力データC3を生成できる。そして、解析装置は、出力データC3に基づき、属性名「産地」と属性値「チリ」を対応付けた属性リストを生成できる。これにより、説明文データD3が含まれていた商品ページデータが属性リストを有していなくとも、属性名「産地」と属性値「チリ」を対応付けた属性リストを当該商品ページデータに含ませることが可能となる。
続いて、図7以降を参照して、付与部13による属性タグの付与処理及び出力部14によるコーパスデータの出力処理のバリエーションについて説明する。
付与部13は、ペア集合データに含まれる属性ペアデータにおける属性値を説明文データから抽出し、抽出された属性値が、属性ペアデータにおいて対応付けられている属性名の属性値として当該商品ページデータの属性リストに含まれておらず、属性名に抽出された属性値とは異なる他の属性値が対応付けられて属性リストに含まれている場合に、抽出された属性値に、その属性値が商品の属性を表さないことを示す非属性タグを付与することができる。非属性タグを付与する処理の例について、図7を参照して具体的に説明する。
図7(a)は、説明文データの例を示す図である。図7(a)に示す説明文データD4は、ペア集合データに含まれる属性ペアデータ(図4参照)における属性値「ブルゴーニュ」、「ボルドー」を含む。従って、付与部13は、説明文データD4から、属性値「ブルゴーニュ」及び属性値「ボルドー」を抽出する。属性値「ブルゴーニュ」及び属性値「ボルドー」は、属性ペアデータにおいて属性名「産地」に対応付けられている。
図7(b)は、説明文データD4が含まれていた商品ページデータが有する属性リストL4を示す図である。属性リストL4は、属性名「産地」と属性値「ブルゴーニュ」とを対応付けた属性リストを含む。この場合に、説明文データD4から抽出した属性値「ブルゴーニュ」が、属性ペアデータにおいて対応付けられている属性名「産地」の属性値として属性リストL4に含まれているので、付与部13は、図7(c)に示されるコーパスデータC4のように、抽出した属性値「ブルゴーニュ」に、属性名「産地」を識別する属性タグ「<産地>・・・</産地>」を付与する。
一方、説明文データD4から抽出した属性値「ボルドー」が、属性ペアデータにおいて対応付けられている属性名「産地」の属性値として属性リストL4に含まれておらず、属性名「産地」に属性値「ボルドー」とは異なる他の属性値「ブルゴーニュ」が対応付けられて属性リストL4に含まれているので、付与部13は、図7(c)に示されるコーパスデータC4のように、抽出された属性値「ボルドー」に、その属性値が商品の属性を表さないことを示す非属性タグ「<NG>・・・</NG>」を付与する。
これにより、説明文データから抽出された属性値がその商品の特徴を示す属性値として適切ではないことを表す情報を含むコーパスデータを生成できる。従って、機械学習等に供するコーパスデータとしてより有用なコーパスデータを生成できる。
図8は、商品ページデータの説明文データが複数の段落を含む場合における、出力部14によるコーパスデータの出力を説明する図である。
出力部14は、取得部12により取得された商品ページデータの説明文データが複数の段落を含む場合に、付与部13により付与された属性タグの数が所定数以上の段落の説明文データを、コーパスデータとして出力することができる。
図8に示すように、説明文データD5が段落P1,P2,P3を含む場合に、出力部14は、段落ごとの属性タグtを計数する。図8に示す例では、段落P1は属性タグtを3個含み、段落P2は属性タグtを5個含み、段落P3は属性タグtを含まないので、例えば、属性タグの数に関する閾値が「3個」に予め設定されていた場合には、出力部14は、段落P1及び段落P2の説明文データをコーパスデータとして出力する。
また、出力部14は、取得部12により取得された商品ページデータの説明文データが複数の段落を含む場合に、付与された属性タグの数が最も多い段落の説明文データを、コーパスデータとして出力することとしてもよい。図8に示す例では、段落P1,P2,P3のうち、段落P2が最も多くの属性タグtを含むので、出力部14は、段落P2の説明文データをコーパスデータとして出力する。
説明文データが複数の段落を含む場合に、属性タグが多く付与された段落は、その商品の特徴を適切に説明する文章が含まれている可能性が高いので、このようにコーパスデータが出力されることにより、品質の高いコーパスデータを提供できる。
図9は、商品ページデータの説明文データが複数の異なるセクション(部分)を含む場合における、出力部14によるコーパスデータの出力を説明する図である。
出力部14は、属性タグが付与された説明文データに含まれる複数の部分を所定のルールに基づき複数のグループに分別し、属性タグが付与された各グループの文を該グループごとのコーパスデータとして出力することができる。
図9に示される説明文データD6は、部分Pt及び部分Pdを含む。このような場合に、出力部14は、説明文データD6に含まれる複数の部分を所定のルールに基づき分別する。具体的には、例えば、出力部14は、説明文データD6に含まれる各部分に対して形態素解析を実施し、その結果に応じて各部分を分別する。さらに具体的には、出力部14は、説明文データD6に含まれる各部分を、例えば助詞といった特定の品詞を含むか否かにより分別する。図9に示す例では、出力部14は、商品のタイトルを示す部分Ptには助詞が含まれないので、部分Ptを助詞を含まない部分のグループに分別し、商品の説明を含む部分Pdには助詞が含まれるので、部分Pdを助詞を含む部分のグループに分別する。そして、出力部14は、各グループにおける、属性タグが付された説明文データの部分を、各グループ毎のコーパスデータとして出力する。
このように、形態素解析の結果といった所定のルールに基づき説明文データの部分(文)が複数のグループに分別され、グループごとにコーパスデータが出力されるので、機械学習等に供するためのコーパスデータとしての品質が維持される。即ち、コーパスデータを機械学習して文章の解析を行うような解析装置において、解析対象に応じたコーパスデータのグループを利用することによって、解析の精度が向上される。
なお、上記説明した例では、助詞を含むか否かにより説明文データD6の部分を分別することとしているが、説明文データが例えば英語で記述されている場合等には、動詞または前置詞を含むか否かにより分類することとしてもよい。
また、付与部13は、図9に示すように説明文データD6が複数の部分(文)を含む場合に、説明文データに含まれる複数の部分毎に形態素解析を実施し、所定の形態素解析結果を有する部分に対して属性タグの付与を行うこととしてもよい。例えば、付与部13は、助詞を含む部分Pdのみに属性タグの付与を行うこととすることができる。この場合には、出力部14は、属性タグが付与された説明文データの部分Pdをコーパスデータとして出力する。
このように、商品に関する説明文データは、その商品のタイトルの部分及び商品の特徴を説明した文章の部分等を共に含む場合があり、これらの部分のそれぞれに含まれる属性値は、その現れ方が相違する。かかる場合であっても、上記説明したように、説明文データの文に対する形態素解析において所定の特徴を有する文のみに属性タグが付され、属性タグが付された文からなる説明文データがコーパスデータとして出力されるので、コーパスデータとしての品質が維持される。
図10は、出力部14がコーパスデータの出力を避ける場合を説明する図である。出力部14は、商品ページデータの説明文データに含まれる属性値が、その商品ページデータの属性リストにおいて異なる属性名に対応付けられて複数含まれている場合に、その説明文データをコーパスデータとして出力しない。
図10(a)は、取得部12により取得された説明文データの例を示す図である。付与部13は、説明文データD7から、属性値「12度」を抽出する。図10(b)は、説明文データD7が含まれる商品ページデータが有する属性リストを示す図である。属性リストL7は、属性名A7として、「度数」、「飲み頃温度」等を含み、各属性名に属性値V7として「12度」、「12度」をそれぞれ対応付けて有している。ここで、説明文データD7から抽出された属性値「12度」が、属性リストL7において異なる属性名「度数」及び「飲み頃温度」に対応付けられて複数含まれている。この場合には、出力部14は、説明文データD7をコーパスデータとして出力しない。
説明文データから抽出された属性値が属性リストにおいて複数の異なる属性名に対応付けられている場合には、当該属性値に対応付けるべき属性名が不明であるので、当該属性名に対する属性タグが付与しないようにすることにより、コーパスデータの品質の低下が防止される。
図11は、一の商品ページデータに複数の商品の情報が含まれる場合における属性タグの付与処理を説明する図である。図11に示される商品ページデータM2は、2つの商品の情報を含み、各商品に関する説明文データD21,D22及び属性リストL21,L22を有する。
このように、商品ページデータM2に、複数の商品の各々に関する属性リストL21,L22が複数含まれる場合に、付与部13は、説明文データに対する属性タグの付与を実施しないこととすることができる。このような場合には、抽出された属性値が商品ページに含まれる複数の商品のいずれに関するものであって、属性タグの付与のためにいずれの属性リストを参照すべきか判定することが容易ではないので、説明文データに対する属性タグの付与を実施ことにより、コーパスデータの品質の低下が防止される。なお、一の商品ページデータに属性リストが複数含まれか否かの判定は、例えば、所定の表形式データが複数含まれるか否かを検出することにより可能であり、係る検出処理は従来技術により実現可能なものである。
また、付与部13は、商品ページデータに、複数の商品の各々に関する属性リストが複数含まれる場合に、商品ページデータを表示するための記述情報に基づき、商品ページデータにおける商品毎の属性リスト及び説明文データが含まれる領域を検出し、同領域に含まれる属性リスト及び説明文データを一の商品に関する属性リスト及び説明文データとして対応付けて参照し、説明文データに含まれる属性値に対する属性タグの付与を実施することとしてもよい。
具体的に図11の例で説明すると、付与部13は、商品ページデータM2を表示するための、例えばhtml等により記述された記述情報を解析し、商品間の境界を表す情報を抽出する。ここでは、付与部13は、商品ページデータM2の記述情報から境界線Eを表示するための情報を抽出し、商品ページデータM2における境界線Eの位置を示す情報を取得する。これにより、付与部13は、商品ページデータM2における、境界線Eにより隔てられた領域R21及び領域R22を検出できる。そして、付与部13は、説明文データD21及び属性リストL21が同じ領域R21に含まれることを認識できるので、属性リストL21を参照して、説明文データD21から抽出された属性値に対する属性タグの付与を実施できる。また、付与部13は、説明文データD22及び属性リストL22が同じ領域R22に含まれることを認識できるので、属性リストL22を参照して、説明文データD22から抽出された属性値に対する属性タグの付与を実施できる。
このように、一の商品ページに複数の商品に関する情報が含まれる場合であっても、説明文データから抽出された属性値に対する属性タグの付与に際して、適切な属性リストが参照されるので、コーパスデータの品質の低下が防止される。なお、図11の例では、商品ページデータM2における境界線Eの検出により、複数の商品の各々情報が含まれる領域の検出を行うこととしたが、例えば、商品ページデータM2における空白領域の検出により、複数の商品の各々情報が隔てられる位置を認識することとしてもよい。また、商品ページデータM2を表示するための例えばhtmlといった記述情報のタグツリー構造を解析して、同様のパターンを有する記述部分を一の商品に関する情報が表された領域として検出することとしてもよい。
図12は、一の商品ページデータに複数の商品の情報が含まれる場合における属性タグの付与処理の他の例を説明する図である。図12に示される商品ページデータM3は、2つの商品の情報を含み、各商品に関する説明文データD81,D82及び属性リストL81,L82を有する。なお、説明文データD81,D82における「V」は、例えば、ペア集合データ(図4参照)を利用して検出された属性値を表す。
このように、商品ページデータに、複数の商品の各々に関する属性リストが複数含まれる場合に、付与部13は、商品ページデータに含まれる説明文データのうち、一の属性リストに含まれる属性値が所定以上の頻度で現れる説明文データの部分(例えば、段落及び文等)を特定し、一の属性リスト及び特定した説明文データの部分を一の商品に関する属性リスト及び説明文データとして対応付けて参照し、説明文データに含まれる属性値に対する属性タグの付与を実施することができる。
図12を参照して具体的に説明すると、付与部13は、商品ページデータM3から一の属性リストL81を抽出し、属性リストL81に含まれる属性値V81が現れる説明文データの検出を試みる。属性リストL81に含まれる属性値「VA1」〜「VA6」は、説明文データD82には1つも含まれていない。一方、属性値「VA1」〜「VA6」は、説明文データD81には、「VA1」、「VA6」、「VA3」、「VA5」の4つが含まれている。例えば、属性値が説明文データの部分に現れる頻度の閾値が予め「3」に設定されているとすると、付与部13は、属性リストL81に含まれる6つの属性値「VA1」〜「VA6」のうち4つの属性値が含まれている説明文データD81を属性リストL81に対応付けて参照する。
また、付与部13は、商品ページデータM3から一の属性リストL82を抽出し、属性リストL82に含まれる属性値V82が現れる説明文データの検出を試みる。属性リストL82に含まれる属性値「VB1」〜「VB5」は、説明文データD81には1つも含まれていない。一方、属性値「VB1」〜「VB5」は、説明文データD82には、「VB1」、「VB3」、「VB5」の3つが含まれている。付与部13は、属性リストL82に含まれる5つの属性値「VB1」〜「VB5」のうち3つの属性値が含まれている説明文データD82を属性リストL82に対応付けて参照する。
属性値に対する属性タグの付与に際して、このように対応付けられた属性リスト及び説明文データが併せて参照される。従って、一の商品ページデータに商品に関する属性リストが複数含まれる場合であっても、コーパスデータの品質の低下が防止される。
次に、図13及び図14を参照して、コーパス生成装置に係る他の実施形態を説明する。図13は、他の実施形態に係るコーパス生成装置1Aの機能的構成を示すブロック図である。コーパス生成装置1Aは、図1に示されるコーパス生成装置1が有する機能部11〜14に加えて、生成部15(生成手段)をさらに備える。また、出力部14及び生成部15は、シノニム属性名情報記憶部24にアクセス可能である。シノニム属性名情報記憶部24は、シノニム属性名情報を記憶する記憶手段である。
生成部15は、属性リストを含む商品ページデータを複数取得し、取得した商品ページデータのうちの第1の商品ページデータに含まれる第1の属性リストにおける第1の属性値と、取得した商品ページデータのうちの第2の商品ページデータに含まれる第2の属性リストにおける第2の属性値とが等しく、第1の属性値に対応付けられた第1の属性名及び第2の属性値に対応付けられた第2の属性名が一の属性リストに共に含まれる商品ページデータが、複数の商品ページデータのなかに存在しない場合に、第1の属性名と第2の属性名とを互いに対応付けたシノニム属性名情報を生成する部分である。
シノニム属性名情報の生成処理について、図14を参照して具体的に説明する。生成部15は、商品に関する属性名と属性値とを対応付けた属性リストを含む商品ページデータを、商品ページデータ記憶部21から複数取得する。図14(a)は、取得した商品ページデータのうちの、第1の商品ページデータに含まれる第1の属性リストL91及び第2の商品ページデータに含まれる第2の属性リストL92を示す図である。図14(b)は、商品ページデータ記憶部21に記憶されている商品ページデータであって、第1及び第2の商品ページデータ以外の複数の商品ページデータのうちの一の商品ページデータに含まれる属性リストの一例を示す図である。
属性リストL91に含まれる第1の属性値「ブルゴーニュ」と属性リストL92に含まれる第2の属性値「ブルゴーニュ」とが等しく、第1の属性値に対応付けられた属性名「産地」及び第2の属性値に対応付けられた属性名「生産地」が一の属性リストに共に含まれる商品ページデータが、複数の商品ページデータのなかに存在しない場合に、生成部15は、属性名「産地」と属性名「生産地」とを互いに対応付けたシノニム属性名情報を生成する。図14(c)は、シノニム属性名情報Nの例を示す図である。シノニム属性名情報Nは、フィールドnYに、属性名「産地」と属性名「生産地」とを対応付けて有する。生成部15は、シノニム属性名情報Nをシノニム属性名情報記憶部24に記憶させる。
これに対して、属性リストL91及び属性リストL92は共に、同じ属性値「13度」を含んでいるが、属性リストL91において属性値「13度」に対応付けられた属性名「度数」及び属性リストL92において属性値「13度」に対応付けられた属性名「飲み頃温度」が、共に属性リストL93に含まれるので、生成部15は、属性名「度数」と属性名「飲み頃温度」とを対応付けた情報を生成しない。即ち、属性名「度数」及び属性名「飲み頃温度」には、同じ属性値が対応付けられる場合があるが、これらの属性名は同義語でも類義でもない。従って、生成部15は、これらの属性名を対応付けたシノニム属性名情報を生成しない。
出力部14は、シノニム属性名情報として互いに対応付けられた複数の属性値のうちの一の属性名を代表属性名に設定できる。代表属性名の設定は、ユーザからの指定により設定されてもよいし、商品ページデータ記憶部21に記憶された商品ページデータの属性リストにおいて最も多く現れた属性名が設定されることとしてもよい。図14(c)に示す例では、出力部14は、属性名「産地」を代表属性名としてフィールドnXに設定する。そして、出力部14は、シノニム属性名情報として互いに対応付けられた複数の属性値のうちの代表属性名以外の属性名を類義属性名に設定する。図14(c)に示す例では、属性名「生産地」及び属性値「地域」が類義属性名に設定される。
出力部14は、シノニム属性名情報を利用して、付与部13により属性タグが付与された説明文データにおける類義属性名を識別する属性タグを、代表属性名を識別する属性タグに置換し、その説明文データをコーパスデータとして出力する。例えば、出力部14は、付与部13により属性タグが付された説明文データを参照し、属性名「生産地」を識別する属性タグが属性値に付されていた場合に、その属性タグを、属性名「産地」を識別する属性タグに置換する。そして、出力部14は、属性タグが置換された説明文データをコーパスデータとして出力する。このようにコーパスデータを出力することにより、属性名の表記揺れに起因するコーパスデータの品質低下が防止される。
次に、図15を参照して、シノニム属性名情報の生成処理の他の実施形態を説明する。この実施形態では、生成部15は、複数の商品ページデータに含まれる属性リストにおいて所定頻度以上現れる、属性名と属性値との複数のペアにおいて、同一の属性値に対応付けられた第1の属性名及び第2の属性名が、商品ページデータの一の属性リストに含まれていない場合に、第1の属性名と第2の属性名とを互いに対応付けたシノニム属性名情報を生成する。
具体的には、生成部15は、ペア集合データ記憶部22に記憶されている属性ペアデータのうち、所定頻度N以上の頻度で商品ページデータの属性リストに出現する属性ペアデータを抽出する。所定頻度Nは、例えば、N=max(2,MS/100)といった式により与えられる。この式におけるMSは、当該商品のカテゴリにおいて、属性リストを商品ページデータに含めて提供している店舗数とすることができる。
図15(a)に示すように、生成部15は、ペア集合データ記憶部22に記憶されている属性ペアデータ(産地、ブルゴーニュ)が、取得した商品ページデータに含まれる属性リストのうちの属性リストLS11〜LS1nに出現し、出現頻度n1が所定頻度N以上である場合に、属性ペアデータ(産地、ブルゴーニュ)を抽出する。同様に、生成部15は、属性ペアデータ(地域、ブルゴーニュ)が、取得した商品ページデータに含まれる属性リストのうちの属性リストLS21〜LS2nに出現し、出現頻度n2が所定頻度N以上である場合に、属性ペアデータ(地域、ブルゴーニュ)を抽出する。
続いて、生成部15は、抽出された属性ペアデータにおいて、同一の属性値に対応付けられた属性名が一の属性リストに含まれているか否かを判定する。具体的には、図15(a)に示すように、属性ペアデータ(産地、ブルゴーニュ)及び属性ペアデータ(地域、ブルゴーニュ)が抽出されると、生成部15は、同一の属性値「ブルゴーニュ」に対応付けられている属性名「産地」及び属性名「地域」が、一の属性リストに含まれているか否かを判定する。生成部15は、例えば、図15(b)に示すような、取得した商品ページデータの属性リストLSX1,LSX2,・・・において、属性名「産地」及び属性名「地域」が共に含まれることがあるか否かを判定する。そして、生成部15は、属性名「産地」及び属性名「地域」が一の属性リストに共に含まれることがない場合に、属性名「産地」と属性名「地域」とを互いに対応付けたシノニム属性名情報を生成する。図15(c)は、シノニム属性名情報の例を示す図である。図15(c)に示すシノニム属性名情報の例では、属性名「産地」及び属性名「地域」、属性名「地域」及び属性名「生産地」が互いに対応付けられている。
また、出力部14は、複数のシノニム属性名情報をマージすることができる。具体的には、属性名「産地」は属性名「地域」に同義であり、属性名「地域」は属性名「生産地」に同義であるので、出力部14は、属性名「産地」及び属性名「地域」を対応付けたシノニム属性名情報と、属性名「地域」及び属性名「生産地」を対応付けたシノニム属性名情報とをマージし、これらの属性名が同義である旨の情報を生成する。
さらに具体的には、出力部14は、シノニム属性名情報を、抽出された全ての属性名の数を次元数とし、それらの属性名を各次元に割り当てたベクトルにより表し、ベクトル間の類似度を算出することにより、シノニム属性名情報をマージするか否かを判定できる。即ち、出力部14は、シノニム属性名情報i,jを表したベクトルをvi,vjとすると、ベクトル間の類似度をコサイン尺度sim(vi、vj)=vi・vj/|vi||vj|により求め、求められた値が0.5以上となるようなシノニム属性名情報をマージする。
図15(d)は、このようにマージされたシノニム属性名情報を示しており、産地、生産地、地域といった属性名情報のうちから、属性名「産地」が代表属性名に設定されている。即ち、出力部14は、マージされたシノニム属性名情報において、互いに対応付けられた複数の属性名のうちから所定の条件に基づき一の代表属性名「産地」及び代表属性名以外の属性名からなる類義属性名「生産地」、「地域」を設定する。そして、出力部14は、付与部13により属性タグが付与された説明文データにおける類義属性名を識別する属性タグを、代表属性名を識別する属性タグに置換し、説明文データをコーパスデータとして出力することができる。このようにコーパスデータを出力することにより、属性名の表記揺れに起因するコーパスデータの品質低下が防止される。
次に、出力部14が、属性タグが付された属性値を含む商品ページデータをコーパスデータとして出力することを避ける場合の例を説明する。この例では、商品ページデータの属性リストに含まれている頻度が低いような属性ペアデータに基づいて付された属性タグは、誤りである可能性が高いことに鑑みて、そのような属性ペアデータに基づき付された属性タグを含む説明文データをコーパスデータとして出力しないように制御する。この制御は、属性リストに含まれる頻度が低い属性値は、説明文データにおいて含まれる頻度が低い、といった見識に基づく。
このような制御のために、出力部14は、取得部12により取得された複数のウェブページデータに含まれる属性リストに一の属性値が含まれる頻度を示す値に対する、複数のウェブページデータに含まれる説明文データに前記一の属性値が含まれる頻度を示す値の割合が所定値以上である一の属性値が属性タグを伴って含まれる説明文データをコーパスデータとして出力しない。ここで、取得部12が取得する複数のウェブページデータは、所定の商品のカテゴリに属する全てのウェブページデータであってもよいし、商品ページデータ記憶部21に記憶された全てのウェブページデータであってもよい。
具体的には、出力部14は、取得された商品ページデータの説明文データに属性値vが含まれるような商品ページデータの数をMFD(v)として、MFD(v)/NMを複数のウェブページデータに含まれる説明文データに前記一の属性値が含まれる頻度として算出する。ここで、NMは当該商品のカテゴリにおける商品を販売している店舗数である。
また、出力部14は、取得された商品ページデータの属性リストに属性値vが含まれるような商品ページデータの数をMFS(v)として、MFS(v)/MSを取得された複数のウェブページデータに含まれる属性リストに一の属性値が含まれる頻度として算出する。ここで、MSは、当該商品のカテゴリにおいて、属性リストを商品ページデータに含めて提供している店舗数であって、コーパス生成のための解析対象とした商品ページデータのうち、属性リストを含む商品ページデータの数として捉えてもよい。
そして、出力部14は、以下の式によりScore(v)を算出する。
Score(v)=(MFD(v)/NM)/(MFS(v)/MS)
出力部14は、このように算出したScore(v)が所定値以上である属性値vが属性タグを伴って含まれる説明文データをコーパスデータとして出力しないように制御する。この制御におけるScore(v)に関する所定値は、例えば30とすることができる。
このように制御することにより、誤って属性タグが付された可能性の高い属性値が適切に判定され、そのような属性タグを伴う属性値を含む説明文データがコーパスデータとして出力されることが防止される。これにより、コーパスデータの品質の低下が防止される。
次に、出力部14が、商品ページデータをコーパスデータとして出力することを避ける場合の他の例を説明する。この例では、属性タグが付されるべきでありながら属性タグが付されていない属性値を含む商品ページデータをコーパスデータとして出力しないように制御する。
この例におけるコーパス生成装置1Bのブロック図を図16に示す。図16に示すように、コーパス生成装置1Bは、図1に示したコーパス生成装置1に対して、解析部16(解析手段)をさらに備える。
解析部16は、複数のウェブページデータから抽出された複数の属性値を解析して、属性値が有する書式パターンを抽出する。具体的には、解析部16は、ペア集合データ記憶部に記憶された属性ペアデータにおける属性値を解析して、形態素パターンを抽出する。頻出するパターンを抽出する際、得られた形態素列に対して、品詞が地名の単語は[LOCATION]に、数詞の単語は[NUMBER]に置き換えて汎化してから、パターンの抽出を行う。頻出パターンの抽出は、例えば、PrefixSpanアルゴリズムといった周知の技術を用いることで効率的に行うことができる。図17(a)は、形態素パターンの抽出の例を示す図である。図17(a)に示すように、解析部16は、「シャトー・AAA」、「シャトー・BBB」、「シャトー・DDD」といった属性値に基づき、「[シャトー・][ANY]」といった形態素パターンを抽出する。図17(b)は、形態素パターンの例である。これらの形態素パターンにおける[ANY]は任意の形態素列を表す。「[カベルネ][ANY][%]」のように[ANY]がパターン内部に含まれることもある。解析部16は、抽出した形態素パターンを形態素パターン記憶部25に記憶させる。
出力部14は、付与部13により属性タグが付された説明文データのうち、形態素パターン記憶部25に記憶された形態素パターンに合致する属性値であって属性タグが付されていない属性値を含む説明文データをコーパスデータとして出力しない。
これにより、属性タグが付されるべき属性値が適切に判定され、そのような属性値に属性タグが付されていない説明文データがコーパスデータとして出力されることが防止されるので、コーパスデータの品質の低下が防止される。
次に、図18を参照して、本実施形態のコーパス生成方法について説明する。図18は、図1に示したコーパス生成装置1におけるコーパス生成方法の処理内容の例を示すフローチャートである。
まず、取得部12は、説明文データ及び属性リストを含む商品ページデータを商品ページデータ記憶部21から取得する(S1)。次に、付与部13は、ペア集合データ(図4参照)に含まれる属性ペアデータにおける属性値を説明文データから抽出する(S2)。
続いて、付与部13は、ステップS2において抽出した属性値が、属性ペアデータにおいて対応付けられている属性名の属性値として当該商品ページデータの属性リストに含まれているか否かを判定する。抽出した属性値が属性リストに含まれていると判定された場合には、処理手順はステップS4に進められる。一方、抽出した属性値が属性リストに含まれていると判定されなかった場合には、処理手順はステップS5に進められる。
ステップS4において、付与部13は、当該属性値が対応づけられていた属性名を識別する属性タグを当該属性値に付与する(S4)。そして、説明部データから全ての属性値が抽出されたか否かが判定され、抽出済みである場合には処理手順は終了する。一方、抽出済みでない場合には、処理手順はステップS2に戻る。
次に、図19を参照して、コンピュータをコーパス生成装置1として機能させるためのコーパス生成プログラムを説明する。コーパス生成プログラムp1は、メインモジュールP10、属性ペアデータ生成モジュールP11、取得モジュールP12、付与モジュールP13及び出力モジュールP14を備える。
メインモジュールP10は、コーパス生成処理を統括的に制御する部分である。属性ペアデータ生成モジュールP11、取得モジュールP12、付与モジュールP13及び出力モジュールP14を実行することにより実現される機能はそれぞれ、図1に示されるコーパス生成装置1の属性ペアデータ生成部11、取得部12、付与部13及び出力部14の機能と同様である。
コーパス生成プログラムp1は、例えば、CD−ROMやDVD、ROM等の記憶媒体d1または半導体メモリによって提供される。また、コーパス生成プログラムp1は、搬送波に重畳されたコンピュータデータ信号として通信ネットワークを介して提供されてもよい。
以上説明した本実施形態のコーパス生成装置1、コーパス生成方法、コーパス生成プログラムP1によれば、ペア集合データに基づき商品に関する説明文データから抽出された属性値が、属性ペアデータにおいて対応付けられている属性名の属性値として、当該商品の属性リストに含まれている場合にその属性値に属性タグが付されるので、当該商品の特徴を示した属性値に適切に属性タグを付与することが可能となる。そして、適切に属性タグが付与された説明文データがコーパスデータとして出力されるので、例えば機械学習器に供されるためのコーパスデータの生成の手間を低減できる。
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。