JP2018041297A - 生成装置、生成方法、及び生成プログラム - Google Patents

生成装置、生成方法、及び生成プログラム Download PDF

Info

Publication number
JP2018041297A
JP2018041297A JP2016175297A JP2016175297A JP2018041297A JP 2018041297 A JP2018041297 A JP 2018041297A JP 2016175297 A JP2016175297 A JP 2016175297A JP 2016175297 A JP2016175297 A JP 2016175297A JP 2018041297 A JP2018041297 A JP 2018041297A
Authority
JP
Japan
Prior art keywords
document
model
index value
generation
calculation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016175297A
Other languages
English (en)
Other versions
JP6373320B2 (ja
Inventor
山田 寛
Hiroshi Yamada
寛 山田
山本 浩司
Koji Yamamoto
浩司 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2016175297A priority Critical patent/JP6373320B2/ja
Publication of JP2018041297A publication Critical patent/JP2018041297A/ja
Application granted granted Critical
Publication of JP6373320B2 publication Critical patent/JP6373320B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】サービスを不適切に利用するユーザを検出すること。【解決手段】本願に係る生成装置は、算出部と、生成部とを有する。算出部は、電子商取引における商材を説明するためのドキュメントを構成する語句が、ドキュメントのうち所定の判定要素における正例か負例かのいずれに出現し易いかという傾向を示す指標値を算出する。生成部は、算出部によって算出された指標値に基づいて、処理対象とするドキュメントが正例であるか負例であるかを判定するためのモデルを生成する。【選択図】図1

Description

本発明は、生成装置、生成方法、及び生成プログラムに関する。
近年、インターネットの飛躍的な普及に伴い、様々なサービスがインターネットを介してユーザに提供されている。例えば、インターネット上では、オークションサービスやショッピングサービスが提供されている。
インターネットを利用したオークションサービスに関する技術として、例えば、落札された商品を出品者が落札者に送付する際の送料など、落札額相当の代金以外に要する各種付帯費用を管理するための技術が知られている。
特開2004−362063号公報
しかしながら、上記の従来技術では、サービスを不適切に利用するユーザを検出することができるとは限らない。例えば、オークションやショッピングサービスでは、出品者(売り手)が商品説明を自由に記載することができる場合が多い。このとき、出品者が、サービス側が認めていないような高い送料を落札者(買い手)に負担させるような内容の説明を記載したり、梱包料金などサービス側が認めていない料金を負担させるような説明を記載したりする場合がある。このようなサービスの規約に沿わない商品説明を伴う出品は排除されることが望ましいが、商品説明の記載内容から不適切な出品を判定することは難しい。また、ネット上の出品は膨大な数になるため、すべての出品を人為的に判定することも現実的ではない。
本願は、上記に鑑みてなされたものであって、サービスを不適切に利用するユーザを検出することができる生成装置、生成方法、及び生成プログラムを提供することを目的とする。
本願に係る生成装置は、電子商取引における商材を説明するためのドキュメントを構成する語句が、前記ドキュメントのうち所定の判定要素における正例か負例かのいずれに出現し易いかという傾向を示す指標値を算出する算出部と、前記算出部によって算出された指標値に基づいて、処理対象とするドキュメントが正例であるか負例であるかを判定するためのモデルを生成する生成部と、を備えたことを特徴とする。
実施形態の一態様によれば、サービスを不適切に利用するユーザを検出することができるという効果を奏する。
図1は、実施形態に係る生成処理の一例を示す図である。 図2は、実施形態に係る生成処理システムの構成例を示す図である。 図3は、実施形態に係る生成装置の構成例を示す図である。 図4は、実施形態に係るドキュメント記憶部の一例を示す図である。 図5は、実施形態に係る素性情報記憶部の一例を示す図である。 図6は、実施形態に係るモデル記憶部の一例を示す図である。 図7は、実施形態に係る処理手順を示すフローチャート(1)である。 図8は、実施形態に係る処理手順を示すフローチャート(2)である。 図9は、生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る生成装置、生成方法及び生成プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る生成装置、生成方法及び生成プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.生成処理の一例〕
まず、図1を用いて、実施形態に係る生成処理の一例について説明する。図1は、実施形態に係る生成処理の一例を示す図である。図1では、本願に係る生成装置100によって、電子商取引における商材を説明するためのドキュメントがサービスの規約に沿ったものであるか否か、言い換えれば、当該ドキュメントがサービスにとって不適切なドキュメントであるか否かを判定するためのモデルが生成される処理の一例を示す。なお、実施形態では、サービスとして、ユーザ間で商品が取引されるオークションサービスを例に挙げて説明する。また、実施形態では、ドキュメントとして、オークションサービスに出品された商品を説明するための説明文を例に挙げて説明する。また、図1の例では、生成装置100が生成するモデルは、オークションサービスにとって不適切な説明文であると判定した場合を正例として、オークションサービスにとって不適切な説明文でないと判定した場合を負例と判定するモデルであるものとする。
図1に示す生成装置100は、処理対象とする説明文が正例であるか負例であるかを判定するためのモデルを生成するサーバ装置である。
図1に示すユーザ端末10、10及び10は、オークションサービスに出品するユーザによって利用される情報処理端末である。図1の例では、ユーザ端末10はユーザU01によって利用され、ユーザ端末10はユーザU02によって利用され、ユーザ端末10はユーザU03によって利用される。例えば、ユーザU01は、商品をオークションサービスに出品することを所望した場合、ユーザ端末10を介して、商品の画像や商品の説明文などを、オークションサービスを管理するサービスサーバにアップロードする。
なお、以下では、ユーザ端末10、10及び10を区別する必要のないときは、単に「ユーザ端末10」と表記する。また、ユーザU01、U02及びU03を区別する必要のないときは、単に「ユーザ」と表記する。また、以下では、ユーザをユーザ端末10と読み替える場合がある。例えば、「ユーザU01が説明文をアップロードする」という記載は、実際には、「ユーザU01が利用するユーザ端末10が説明文をアップロードする」という状況を示す場合がある。
図1において、生成装置100は、予め正例か負例であるかが判定された説明文を取得し、説明文に含まれる特徴情報を解析することにより、新たに処理対象とする説明文が正例に該当するか負例に該当するかを判定するモデルを生成する。
より具体的には、実施形態に係る生成装置100は、取引が成立した場合に出品者から落札者へ商品を送る際の送料に関する不正な利用を検出するためのモデルを生成する。例えば、実施形態に係るオークションサービスでは、取引が成立した際の落札金額のうち所定の割合を手数料として徴収しているものとする。そして、出品者が、商品の出品額を極端に低くし(例えば10円など)、送料を極端に高く(例えば5000円など)して、商品を出品していたとする。この場合、実際の取引額は同程度の金額ながらも、サービス側で徴収する金額が減少することになる。あるいは、出品者が商品の代金及び商品の送料以外の金額を落札者に要求することをオークションサービス側が禁じているにも関わらず、出品者が商品の落札額以上の儲けを得ようとして、梱包料金や、不当に高い金額の送料を落札者に要求する場合がある。
オークションサービスにおいて、このような出品者からの種々の要求は、商品の説明文に記載される。しかしながら、オークションサービスにおける説明文の全体数のうち、大半は正当な送料のみを記載したものであり、不正な説明文である確率は低いことが想定される。このため、サービス側は、不正な説明文をサンプルとし、そのサンプルの特徴情報を抽出してモデルを生成しようとしても、サンプルの数が少ない場合には、適切なモデルを生成することが難しい場合がある。また、処理対象とする説明文に対して、人為的に正例か負例かを判定することも可能であるが、ネット上のオークションサービスでは出品が膨大な数となるため、すべてを人為的に判定することは現実的ではない。そこで、実施形態に係る生成装置100は、以下に説明する処理により、説明文を精度よく正例もしくは負例に判定するためのモデルを生成する。以下、図1を用いて、生成装置100によって行われる生成処理の一例を流れに沿って説明する。
まず、生成装置100は、予め正例と判定されている説明文であって、ユーザU01が出品する商品の説明文である説明文T01を取得する(ステップS11)。例えば、ユーザU01が出品する商品の説明文T01は、オークションサービスの管理者により、不正な送料が記載された説明文であると判定された説明文であるものとする。オークションサービスの管理者は、例えば、説明文T01内に、送料が「5000円」のような不当に高い金額が記載されていたり、オークションサービスの規約で禁じられている梱包料を徴収する旨の記載があったりすることを判定要素として、説明文T01が正例(サービスの規約に沿わない不適切な説明文)であると判定する。
また、生成装置100は、予め負例と判定されている説明文であって、ユーザU02が出品する商品の説明文である説明文T02も取得する(ステップS12)。例えば、ユーザU02が出品する商品の説明文T02は、オークションサービスの管理者により、不正な送料が記載されていない説明文であると予め判定された説明文であるものとする。例えば、オークションサービスの管理者は、説明文T02内に、不当に高い送料が記載されていなかったり、梱包料を徴収する旨の記載がなかったりすることを判定要素として、説明文T02が負例(サービスの規約に沿った説明文)であると判定する。
生成装置100は、取得した説明文T01や説明文T02をドキュメント記憶部121に格納する。このとき、生成装置100は、説明文T01や説明文T02を形態素解析し、説明文T01や説明文T02が単語に分解されたデータをドキュメント記憶部121に格納する。そして、生成装置100は、ドキュメント記憶部121に格納した説明文をサンプルとし、さらに、キーワードの指定を受け付けて、判定に用いるモデルを生成する(ステップS13)。ここで、キーワードとは、説明文における特徴情報を生成装置100が抽出するために利用する語句である。例えば、キーワードは、オークションサービスの管理者や、サービスにおける不正な利用を監視している監視者等から指定される。すなわち、キーワードの指定には、人為的な不正の検出によって得られた経験知が利用される。
例えば、生成装置100が、ある事象に関する不正を検出するためのモデルを生成する場合には、当該事象を示す語句をキーワードとして指定されることにより、後述する処理を円滑に進めることができる。例えば、送料に関する不正を検出するためのモデルを生成する場合には、生成装置100は、「送料」をキーワードにして、生成処理を進める。
具体的には、生成装置100は、例えばオークションサービスの管理者等から、商品を説明するための説明文に含まれるキーワードとして、「送料」というキーワードの指定を受け付ける。そして、生成装置100は、説明文において、受け付けられたキーワード付近に存在する所定の語句を抽出する。
例えば、生成装置100は、説明文T01において、「送料」というキーワードの付近に存在する語句として、「配送」や、「支払額」や、「落札額」や、「一律」や、「5000円」や、「離島」や、「除く」や、「梱包料」や、「1000円」等の語句を抽出する。生成装置100は、これらをモデル生成のための素性として、素性情報記憶部122に記憶する。この場合、生成装置100は、これらの語句が、正例である説明文T01において出現したことについても、各語句と対応付けて記憶する。
また、生成装置100は、説明文T02において、「送料」というキーワードの付近に存在する語句として、「配送」や、「A運送会社」や、「料金表」や、「B運送会社」等の語句を抽出する。なお、生成装置100は、これらの語句が、負例である説明文T01において出現したことについても、各語句と対応付けて素性情報記憶部122に記憶する。
なお、生成装置100は、キーワード付近の語句を抽出する場合には、既知の抽出手法を利用してもよい。例えば、生成装置100は、ドキュメント記憶部121に記憶されている説明文全体におけるDF値(Document Frequency Value)等を参照し、正例と負例の全ての説明文に頻出するような語句については、素性として抽出しないようにしてもよい。
続いて、生成装置100は、受け付けられたキーワード付近に存在する語句が、説明文のうち所定の判定要素における正例か負例かのいずれに出現し易いかという傾向を示す指標値を算出する。図1の例では、所定の判定要素とは、説明文の内容がオークションサービスにおける規約に反しているか否かが該当する。例えば、内容がオークションサービスにおける規約に反している説明文が正例(すなわち、モデルにおける検出対象)であり、内容がオークションサービスにおける規約に反していない説明文が負例である。
すなわち、生成装置100は、キーワード付近に存在する語句ごとに、その語句が、正例である説明文に出現し易いか負例である説明文に出現し易いか、を示す指標値を算出する。例えば、生成装置100は、キーワード付近に存在する各語句について、正例に出現し易い傾向を有する場合には「1」に近付き、負例に出現し易い傾向を有する場合には「−1」に近付くように指標値を算出する。
例えば、生成装置100は、ドキュメント記憶部121に記憶された全ての説明文に含まれる語句であって、キーワード付近に存在する語句について、正例のみに含まれる語句の出現回数と、負例のみに含まれる語句の出現回数と、正例にも負例にも含まれる語句の出現回数と、正例にも負例にも含まれない語句の出現回数とのそれぞれに基づいて、指標値を算出する。より具体的には、生成装置100は、キーワード付近に存在する各語句を素性として、線形SVM(Support Vector Machine)に掛けることで、素性における出力値を指標値とする。すなわち、生成装置100は、素性を線形SVMに掛けることで、素性が正例のパターンとして認識されるか、負例のパターンとして認識されるかを、出力値に基づいて判定できる。この場合、生成装置100は、出力値が正側又は負側に大きいN件(Nは任意の数値)を抽出して、抽出した素性のみをモデル生成に用いる素性としてもよい。なお、指標値の算出においては、上記の手法に限られず、例えば回帰分析等の既存の手法を用いてもよい。生成装置100は、算出した指標値と素性(語句)とを対応付けて、素性情報記憶部122に記憶する。
図1に示す例では、「無料」という素性の指標値は、「−0.3」と算出されたことを示している。すなわち、図1に示す例では、「無料」という素性は、比較的「負例」の説明文に出現し易い素性であることを示している。同様に、「一律」という素性の指標値は、「0.67」と算出されたことを示している。すなわち、「一律」という素性は、比較的「正例」の説明文に出現し易い素性であることを示している。これは、送料というキーワード付近に「一律」という語句が存在する場合、その説明文は「正例」、すなわち、不正な送料を設定している可能性が高く、オークションサービスにとって不適切な説明文である可能性が高いことを示している。このことは、オークションで販売した商品が全国一律の送料で対応されることは想定されにくく、「送料一律で対応する」のような文が含まれる説明文に係る出品は、上述したような不正な出品者による出品である可能性が高いことによる。
このように、生成装置100は、取得した正例の説明文及び負例の説明文における、キーワード付近に存在する語句を素性として、素性ごとの指標値を算出する。すなわち、生成装置100は、モデルで判定する正例のみならず、負例についてもサンプルとして取扱い、モデルを生成するための素性を抽出する。言い換えれば、生成装置100は、サンプルとして取得できる数が限られることが想定される正例のみならず、正例に比べてサンプル数が多くなる負例を含めて、モデル生成のための素性を抽出することができる。
そして、生成装置100は、算出された指標値に基づいて、処理対象とする説明文が正例であるか負例であるかを判定するためのモデルを生成する。例えば、生成装置100は、処理対象とする説明文のキーワード付近に存在する語句を入力とし、入力された語句が正例に出現する語句の集合であるか否かを出力するモデルを生成する。生成装置100は、キーワードと生成したモデルとを対応付けて、モデル記憶部123に記憶する。これにより、生成装置100は、処理対象とする説明文が正例であるか負例であるかを判定することができる。
例えば、生成装置100は、正例か負例かが不明な説明文である、ユーザU03が出品する商品の説明文T03を処理対象として取得する(ステップS14)。そして、生成装置100は、説明文T03をモデルに入力する。すなわち、生成装置100は、ステップS13において生成したモデルを用いて、説明文T03が正例であるか負例であるかを判定する(ステップS15)。
図1の例では、生成装置100は、説明文T03のキーワード付近に存在する語句として、「一律」や、「10円」や、「諸費用」や、「梱包材」といった語句が比較的多く含まれる場合には、説明文T03を正例と判定する。一方、生成装置100は、説明文T03のキーワード付近に存在する語句として、「無料」や、「A運送会社」や、「B運送会社」や、「離島」といった語句が比較的多く含まれる場合には、説明文T03を負例と判定する。
このように、実施形態に係る生成装置100は、電子商取引における商材を説明するための説明文に含まれるキーワードの指定を受け付ける。さらに、生成装置100は、説明文において受け付けられたキーワード付近に存在する語句が、説明文のうち所定の判定要素における正例か負例かのいずれに出現し易いかという傾向を示す指標値を算出する。そして、生成装置100は、算出された指標値に基づいて、処理対象とする説明文が正例であるか負例であるかを判定するためのモデルを生成する。
すなわち、実施形態に係る生成装置100は、サービスの規約に反している説明文T01など、正例として判定されるべき説明文をサンプルとするのみならず、サービスの規約に反していない説明文T02など、負例として判定されるべき説明文をサンプルとして、モデルを生成する。これにより、生成装置100は、サービスの規約に反している説明文など、通常であれば負例に比べてサンプル数が非常に少ないと想定される事象に関しても、正例負例を判定するためのモデルを生成することができる。言い換えれば、生成装置100によれば、正例であるデータ、いわゆる教師ありデータ(ラベル付きデータ)が少ない状況であっても、違反検知等に効果を発揮するモデルを生成することができる。このため、生成装置100は、オークションサービスにおける不正な出品など、人為的に確認しないと不正か否かを判定することが難しい事象においても、サービスを不適切に利用するユーザを検出することができる。以下、このような処理を行う生成装置100、及び、生成装置100を含む生成処理システム1の構成等について、詳細に説明する。
〔2.生成処理システムの構成〕
図2を用いて、実施形態に係る生成装置100が含まれる生成処理システム1の構成について説明する。図2は、実施形態に係る生成処理システム1の構成例を示す図である。図2に例示するように、実施形態に係る生成処理システム1には、ユーザ端末10と、サービスサーバ30と、生成装置100とが含まれる。これらの各種装置は、ネットワークNを介して、有線又は無線により通信可能に接続される。なお、図2に示した生成処理システム1には、複数台のユーザ端末10や、複数台のサービスサーバ30が含まれてもよい。
ユーザ端末10は、例えば、スマートフォンや、デスクトップ型PC(Personal Computer)や、ノート型PCや、タブレット型端末や、携帯電話機、PDA(Personal Digital Assistant)、ウェアラブルデバイス(Wearable Device)等の情報処理装置である。ユーザ端末10は、ユーザによる操作に従って、サービスサーバ30にアクセスすることで、サービスサーバ30から提供されるサービスを利用する。
サービスサーバ30は、ユーザ端末10からアクセスされた場合に、各種サービスを提供するサーバ装置である。サービスサーバ30は、例えば、オークションサイト、ショッピングサイト、ニュースサイト、天気予報サイト、ファイナンス(株価)サイト、路線検索サイト、地図提供サイト、旅行サイト、飲食店紹介サイト、ウェブブログなどに関する各種ウェブページをサービスとして提供する。
生成装置100は、所定の事象に関して正例か負例かを判定するモデルを生成するサーバ装置である。また、生成装置100は、生成したモデルを用いて、処理対象が正例に該当するか負例に該当するかを判定する処理を行う。
〔3.生成装置の構成〕
次に、図3を用いて、実施形態に係る生成装置100の構成について説明する。図3は、実施形態に係る生成装置100の構成例を示す図である。図3に示すように、生成装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、生成装置100は、生成装置100を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
(通信部110について)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。かかる通信部110は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、ユーザ端末10や、サービスサーバ30との間で情報の送受信を行う。
(記憶部120について)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、ドキュメント記憶部121と、素性情報記憶部122と、モデル記憶部123とを有する。
(ドキュメント記憶部121について)
ドキュメント記憶部121は、電子商取引における商材を説明するためのドキュメント(例えば、オークションサービスの商品に関する説明文)に関する情報を記憶する。ここで、図4に、実施形態に係るドキュメント記憶部121の一例を示す。図4は、実施形態に係るドキュメント記憶部121の一例を示す図である。図4に示した例では、ドキュメント記憶部121は、「ドキュメントID」、「形態素データ」、「正解情報」といった項目を有する。
「ドキュメントID」は、ドキュメントを識別するための識別情報を示す。「形態素データ」は、ドキュメントを形態素に解析したデータを示す。図4に示した例では、形態素データを「A01」等の概念で示しているが、実際には、形態素データには、ドキュメントを構成する形態素(単語)が含まれる。
「正解情報」は、ドキュメントにラベル付けされた正解情報を示す。実施形態において、正解情報は、所定の事象において正例であるか否かを示す情報である。正解情報は、例えば、サービス側の管理者等によって予めラベル付けされる。なお、ドキュメント記憶部121には、正解情報とともに、所定の事象を特徴付けるキーワードや、正解情報に関する説明(例えば、「送料違反」であるドキュメントを「正例」としていることなどを説明した情報)が記憶されてもよい。
すなわち、図4に示したデータの一例は、ドキュメントID「T01」によって識別されるドキュメントの形態素データは「A01」であり、ドキュメントID「T01」によって識別されるドキュメントは「正例」であることを示す。
(素性情報記憶部122について)
素性情報記憶部122は、モデルの生成における素性に関する情報を記憶する。ここで、図5に、実施形態に係る素性情報記憶部122の一例を示す。図5は、実施形態に係る素性情報記憶部122の一例を示す図である。図5に示した例では、素性情報記憶部122は、「素性情報ID」、「キーワード」、「素性」、「指標値」といった項目を有する。
「素性情報ID」は、モデル生成に用いられる一群の素性を識別するための識別情報を示す。「キーワード」は、素性を特定するために用いられたキーワードを示す。「素性」は、説明文においてキーワード近傍に存在する各語句を示す。「指標値」は、説明文のうち所定の判定要素における正例か負例かのいずれに出現し易いかという傾向を示す数値を示す。
すなわち、図5に示したデータの一例は、素性情報ID「B01」で識別される一群の素性は、キーワード「送料」によって特定されたことを示している。また、素性情報ID「B01」で識別される一群の素性には、「無料」、「一律」、「A運送会社」、「10円」、「諸費用」、「B運送会社」、「梱包材」、「離島」といった素性が含まれており、各々の指標値は、「−0.3」、「0.67」、「−0.69」、「0.23」、「0.53」、「−0.21」、「0.51」、「−0.0023」であることを示している。
(モデル記憶部123について)
モデル記憶部123は、生成されたモデルに関する情報を記憶する。ここで、図6に、実施形態に係るモデル記憶部123の一例を示す。図6は、実施形態に係るモデル記憶部123の一例を示す図である。図6に示した例では、モデル記憶部123は、「モデルID」、「キーワード」、「正例」といった項目を有する。
「モデルID」は、モデルを識別するための識別情報を示す。「キーワード」は、モデルの生成に用いられたキーワードを示す。「正例」は、モデルにおいて正例と判定する説明文の内容を示す。
すなわち、図6に示したデータの一例は、モデルID「M01」で識別されるモデルは、キーワード「送料」に基づいて生成されたモデルであり、「送料の規則違反」であるドキュメント(説明文)を正例として判定するモデルであることを示している。
(制御部130について)
制御部130は、例えば、コントローラ(controller)であり、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、生成装置100内部の記憶装置に記憶されている各種プログラム(生成プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、コントローラであり、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図3に示すように、制御部130は、取得部131と、受付部132と、算出部133と、生成部134と、判定部135と、送信部136とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図3に示した接続関係に限られず、他の接続関係であってもよい。
(取得部131について)
取得部131は、各種情報を取得する。例えば、取得部131は、電子商取引における商材を説明するためのドキュメントに関する情報を取得する。具体的には、取得部131は、オークションサービスにおける商品を説明するための説明文が含むテキストデータを取得する。
取得部131は、モデルの生成のために説明文を取得する場合には、説明文が正例に属するか負例に属するかが判定されている説明文を取得する。例えば、取得部131は、予めサービスの管理者等によって正例または負例という情報が与えられた説明文を取得する。
そして、取得部131は、取得した説明文、説明文を形態素解析したデータ群、及び、説明文に関する正解情報(正例であるか負例であるか)を対応付けて、ドキュメント記憶部121に格納する。なお、取得部131は、説明文を形態素解析した場合に、説明文に含まれる単語(語句)の出現数等に基づいて、単語の出現頻度や、複数の説明文における各単語の重要度を算出してもよい。例えば、取得部131は、取得した説明文に関する単語のDF値を算出してもよい。また、取得部131は、取得した説明文に関するDF値に関して、所定の外部装置によって算出されたDF値を取得するようにしてもよい。また、取得部131は、DF値に限らず、tf−idf(Term Frequency−Inverse Document Frequency)等の指標値を取得してもよい。
なお、取得部131は、後述する生成部133によって生成されたモデルを用いて、処理対象とする説明文が正例か負例かを判定する処理にあたっては、正例であるか負例であるかが不明な説明文を取得する。後述する判定部135は、取得部131によって取得された説明文をモデルに入力することにより、所定の出力値を得る。
(受付部132について)
受付部132は、電子商取引における商材を説明するためのドキュメントに含まれるキーワードの指定を受け付ける。具体的には、受付部132は、オークションサービスにおける商品を説明するための説明文に対して、モデルを生成するための素性を特定するために用いるキーワードの指定を受け付ける。
例えば、受付部132は、オークションサービスやショッピングサービスの管理者等から、経験知に基づいてキーワードの指定を受け付ける。なお、受付部132は、生成する1つのモデルに対して、複数のキーワードの指定を受け付けてもよい。受付部132は、受け付けたキーワードを算出部133に送る。
(算出部133について)
算出部133は、電子商取引における商材を説明するためのドキュメントを構成する語句が、ドキュメントのうち所定の判定要素における正例か負例かのいずれに出現し易いかという傾向を示す指標値を算出する。具体的には、算出部133は、ドキュメントにおいて、受付部132によって受け付けられたキーワード付近に存在する所定の語句が、ドキュメントのうち所定の判定要素における正例か負例かのいずれに出現し易いかという傾向を示す指標値を算出する。例えば、算出部133は、所定の判定要素が「オークションサービスにおける送料の規則違反」である場合には、オークションサービスにおける送料の規則違反に該当する説明文を正例、オークションサービスにおける送料の規則違反に該当しない説明文を負例として、素性の指標値を算出する。
算出部133は、キーワード付近に存在する所定の語句として、例えば、形態素解析された単語を抽出する。この場合、算出部133は、取得された説明文に含まれる単語の出現頻度に基づいて、素性となる単語を抽出してもよい。すなわち、算出部133は、キーワード付近に存在する所定の語句のうち、複数のドキュメントにおける出現頻度に基づいて特定される語句に対応する指標値を算出する。具体的には、算出部133は、モデルの生成に用いる複数の説明文における各単語の出現頻度(例えば、DF値など)に基づいて、素性となる単語を抽出する。これにより、算出部133は、正例、負例のどちらにも頻繁に出現する一般的な単語ではなく、出現頻度に特徴を有する単語を選択的に抽出する。
なお、算出部133は、キーワード付近に存在する所定の語句として、例えば、キーワードからどれくらいの範囲の単語を抽出するかといった設定に基づいて、素性となる単語を抽出するようにしてもよい。例えば、算出部133は、キーワードの前後所定数の単語を候補として素性となる単語を抽出するようにしてもよい。
そして、算出部133は、素性となる単語の候補について、線形SVMを利用することにより、正例に出現する傾向にあるか、あるいは負例に出現する傾向にあるか、といったパターン認識処理を行う。これにより、算出部133は、各素性について、説明文のうち正例か負例かのいずれに出現し易いかという傾向を示す指標値を算出することができる。
さらに、算出部133は、算出した指標値のうち、出力値の高いN件をモデル生成に用いる素性として抽出する。この時点で、特徴を有しない素性、すなわち、正例にも負例にも出現するような素性については、モデル生成に用いる素性の候補から外されることとなる。なお、算出部133は、モデル生成に用いる素性の候補のN件については、学習処理等を経て最適化するようにしてもよい。
そして、算出部133は、素性と、各素性について算出された指標値とを対応付けて、素性情報記憶部122に適宜記憶する。
(生成部134について)
生成部134は、算出部133によって算出された指標値に基づいて、処理対象とするドキュメントが正例であるか負例であるかを判定するためのモデルを生成する。具体的には、生成部134は、オークションサービスにおいて商品を説明するために付された説明文において、サービスの規約に違反した説明文であるか否かを判定するためのモデルを生成する。
生成部134は、算出部133によって指標値が算出された語句のうち、指標値の絶対値が大きい所定数の語句を素性として、モデルを生成するようにしてもよい。すなわち、生成部134は、算出部133によって算出された指標値のうち絶対値の高い指標値に対応するN個の語句を素性としてモデルを生成する。
生成部134は、例えば、算出部133によって算出された指標値に対応する素性を説明変数とするモデルを生成する。具体的には、生成部134は、処理対象とする説明文を形態素解析して得られる各単語(素性)を入力とし、その説明文が正例であるか負例であるかの傾向を示す値を出力として得るようなモデルを生成する。
生成部134が生成するモデルの一例は、例えば、下記式(1)のように表すことが可能である。
(T03) = ω・x + ω・x + ω・x ・・・+ ω・x ・・・(1)(Nは任意の数)
上記式(1)は、例えば、説明文T03がモデルに入力された状態を示す。すなわち、上記式(1)において、「y(T03)」は、説明文T03が正例であるか負例であるかの傾向を示す値を示す。また、上記式(1)において、「x」は、説明文T03が含む素性(説明変数)に対応する。すなわち、上記式(1)の右辺は、説明文T03を特徴付ける単語であり、説明文T03における特徴情報と言い換えることもできる。
また、上記式(1)において、「ω」は、「x」の係数であり、所定の重み値を示す。具体的には、「ω」は、「x」の重み値であり、「ω」は、「x」の重み値であり、「ω」は、「x」の重み値である。実施形態において、所定の重み値は、算出部133によって算出された指標値が該当する。このように、上記式(1)の右辺は、説明文T03における素性「x」と、素性に対応する指標値「ω」とを含む変数(例えば、「ω・x」)を組合せることで示される。なお、上記式(1)は、説明のためモデルを例示したものに過ぎず、生成部133は、上記式(1)とは異なる形式のモデルを生成してもよい。
生成部134は、生成したモデルに識別情報を付し、キーワードや、モデルを説明するための情報(どのような条件に該当した説明文を正例として取り扱うかといった情報)と対応付けて、モデル記憶部123に登録する。
(判定部135について)
判定部135は、生成部134によって生成されたモデルに基づいて、処理対象とするドキュメントが、所定の判定要素における正例か負例かのいずれの傾向を示すかを判定する。具体的には、判定部135は、生成部134が生成したモデルに、処理対象とする説明文を入力し、出力される値に基づいて、当該説明文が正例か負例かのいずれの傾向を示すかを判定する。
例えば、判定部135は、モデルから出力される値が所定の閾値を超えている場合に、モデルに対応する所定の判定要素において、説明文が正例であると判定する。具体的には、所定の判定要素が「オークションサービスにおける送料の規則違反」である場合には、判定部135は、モデルから出力される値が所定の閾値を超える説明文について、オークションサービスにおける送料の規則違反に該当する説明文と判定する。一方、判定部135は、モデルから出力される値が所定の閾値を超えない説明文について、オークションサービスにおける送料の規則違反に該当しない説明文と判定する。
(送信部136について)
送信部136は、各種情報を送信する。例えば、送信部136は、判定部135によって判定された結果をサービスサーバ30に送信する。すなわち、送信部136は、判定部135によって判定された説明文が、正例であるか負例であるかといった情報をサービスサーバ30に送信する。
〔4.処理手順〕
次に、図7及び図8を用いて、実施形態に係る生成装置100による処理の手順について説明する。まず、図7を用いて、モデルの生成に関する処理手順を説明する。図7は、実施形態に係る処理手順を示すフローチャート(1)である。
図7に示すように、生成装置100は、正解情報を有する説明文を取得したか否かを判定する(ステップS101)。説明文を取得していない場合(ステップS101;No)、生成装置100は、説明文を取得するまで待機する。
一方、説明文を取得している場合(ステップS101;Yes)、生成装置100は、モデルの生成に用いる素性を特定するためのキーワードを受け付けたか否かを判定する(ステップS102)。キーワードを受け付けていない場合(ステップS102;No)、生成装置100は、キーワードを受け付けるまで待機する。なお、生成装置100は、キーワードを受け付けるまで説明文を取得する処理を繰り返し、サンプルとなる説明文を蓄積し続けてもよい。
キーワードを受け付けた場合(ステップS102;Yes)、生成装置100は、説明文においてキーワード付近に存在する所定の語句を素性として、素性の指標値を算出する(ステップS103)。
そして、生成装置100は、算出された指標値に基づいてモデルを生成する(ステップS104)。続いて、生成装置100は、生成したモデルをモデル記憶部123に登録する。なお、生成装置100は、生成した後のモデルについても、サンプルとなる説明文を加えること等による学習処理を経て、更新するようにしてもよい。
次に、図8を用いて、モデルを用いた判定処理に関する処理手順を説明する。図8は、実施形態に係る処理手順を示すフローチャート(2)である。
図8に示すように、生成装置100は、未判定の説明文を取得したか否かを判定する(ステップS201)。生成装置100は、未判定の説明文を取得していない場合(ステップS201;No)、取得するまで待機する。
一方、未判定の説明文を取得した場合(ステップS201;Yes)、生成装置100は、取得した説明文をモデルに入力する(ステップS202)。そして、生成装置100は、モデルの出力値に基づいて、説明文が正例に該当するか負例に該当するかを判定する(ステップS203)。
〔5.変形例〕
上述した生成装置100は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、生成装置100の他の実施形態について説明する。
〔5−1.モデルの適用例〕
上記実施形態では、生成装置100が生成するモデルは、オークションサービスの商品における説明文の規約違反であるか否かの判定に用いられる例を示した。ここで、生成装置100が生成するモデルは、オークションサービスに限られず、他の電子商取引に関するサービスに用いられてもよい。すなわち、モデルは、テキストデータを形態素解析して素性が得られるデータを処理対象とするのであれば、様々な対象に応用可能である。
例えば、モデルは、ショッピングサイトやレビューサイトなどにおける、不適切なメッセージや評価レビューの判定に用いられてもよい。具体的には、生成装置100は、サービスにとって不適切なレビュー(例えば、他人に対する誹謗中傷や、スパムレビューなど)を判定し、自動的に検出するモデルを生成してもよい。
この場合、生成装置100は、予めサービス側が不適切と判定したレビューを正例とし、かつ、不適切でないと判定したレビューを負例として、各レビューを形態素解析して素性を得る。そして、生成装置100は、実施形態と同様、各素性に関して指標値を算出し、モデルを生成する。生成装置100は、新たにユーザから投稿されたレビューをモデルに入力することにより、当該レビューがサービスにとって不適切であるか否かを判定することができる。
また、生成装置100は、取得するドキュメントの正解情報に応じて、種々のモデルを生成することが可能である。例えば、オークションサービスでは、中古品を新品と偽って出品が行われる場合がある。この場合、人為的に商品の説明を精査すれば中古品であることが判明する場合があるものの、対象となる商品が中古品であることを機械的に検出することは困難である場合が多い。
このような場合、生成装置100は、中古品の商品の説明文を正例とし、中古品でない商品の説明文を負例として、モデルを生成する。この場合、生成装置100は、一見すると新品であるが実は中古品である商品の説明文において、説明文に特徴的に用いられる素性に関して指標値を高く算出していることが想定されるため、処理対象となる説明文が、中古品を対象としているものであるか否かを精度よく判定するモデルを生成することができる。
このように、生成装置100は、形態素解析が可能なデータであって、人為的には判別することが可能であるが機械的に判別することが困難なデータに関して、正例か負例かを適切に判定することのできるモデルを生成することができる。
〔5−2.素性の組合せ〕
上記実施形態では、生成装置100が生成するモデルは、素性として一つの単語を用いる例を示した。ここで、生成装置100が生成するモデルは、素性として一つの単語を用いるのではなく、2以上の単語を組み合わせた語句としての素性を用いて生成されてもよい。
例えば、実施形態の例では、「梱包材は1000円です」といった説明文を形態素解析した場合、生成装置100は、素性の候補として、「梱包材」を抽出することが想定される。ここで、「梱包材は無料です」といった説明文を形態素解析した場合にも、生成装置100は、「梱包材」という素性を抽出するものの、両者の意味合いは異なる場合がある。すなわち、実施形態の例において、ともに「梱包材」という素性を抽出するにもかかわらず、前者の例は正例(送料以外の料金を要求するという、サービスの規約に違反する説明文)に該当し、後者の例は負例に該当する。
このため、生成装置100は、素性として一つの単語を用いるのではなく、2以上の単語を組み合わせた語句としての素性を用いて、モデルを生成するようにしてもよい。例えば、生成装置100は、「梱包材+1000円」を1つの素性とし、「梱包材+無料」を1つの素性とするような処理を行ってもよい。この場合、「梱包材+1000円」は、正例に多く出現し、「梱包材+無料」は負例に多く出現することが想定される。このため、生成装置100が生成するモデルには、これらの素性が有する指標値が自ずと反映されることとなる。
すなわち、生成装置100は、キーワード付近に存在する所定の語句として、複数の単語を組み合わせた語句に対応する指標値を算出し、指標値が算出された複数の単語を組み合わせた語句を素性として、モデルを生成してもよい。これにより、生成装置100は、例えば、同じ「梱包材」という単語が用いられる説明文であっても、その説明文が正例であるか負例であるかを適切に判定することができるモデルを生成することができる。
なお、上記のように2以上の単語を組み合わせる場合、生成装置100は、2以上の単語の距離に基づいて、組み合わせる単語を判定するようにしてもよい。例えば、「1000円」という単語が、説明文のいずれかの位置に存在しても、「1000円」という単語自体がモデルに与える影響は比較的小さいことが想定される。しかし、「1000円」という単語が、「梱包材」という単語の直後に用いられる場合には、「梱包材+1000円」という語句が正例に関する特徴情報になりうることから、モデルに与える影響は比較的大きくなることが想定される。
このように、生成装置100は、各単語における距離情報に基づいて組み合わせた単語を素性として、素性の指標値を算出するようにしてもよい。これにより、生成装置100は、生成したモデルにおける判定処理の精度をより向上させることができる。
〔5−3.出品者の履歴情報の利用〕
上記実施形態では、生成装置100が生成するモデルは、オークションサービスの商品における説明文を形態素解析したデータに基づいて生成される例を示した。ここで、生成装置100は、上記の情報に加えて、例えば説明文を投稿したユーザに関する情報を追加して、モデルを生成するようにしてもよい。
例えば、オークションサービスやショッピングサービス等においては、商品を出品したユーザに関する情報が蓄積される。これにより、生成装置100は、当該ユーザが、サービスの規約に沿って正当な取引を行うユーザか否かを判定することが可能である。例えば、生成装置100は、所定数以上の取引をサービスの規約に沿って行っているユーザを、信頼性のあるユーザ(優良ユーザ)として判定する。
そして、生成装置100は、処理対象とする説明文が優良ユーザから投稿されたものである場合、所定の判定要素を追加して、モデルによる判定を行ってもよい。例えば、生成装置100は、処理対象とする説明文が優良ユーザから投稿されたものである場合、モデルの出力値における閾値を調整し、やや正例と判定されにくい閾値に設定するなどの調整を行ってもよい。これにより、生成装置100は、優良ユーザから投稿される説明文は正例として判定されにくくするなど、実情に沿った判定処理を行うことができる。
〔6.ハードウェア構成〕
上述してきた実施形態に係る生成装置100やユーザ端末10やサービスサーバ30は、例えば図9に示すような構成のコンピュータ1000によって実現される。以下、生成装置100を例に挙げて説明する。図9は、生成装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300又はHDD1400に記憶されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を記憶する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス1500は、通信網500(図2に示したネットワークNに対応)を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを、通信網500を介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、入出力インターフェイス1600を介して生成したデータを出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に記憶されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る生成装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、HDD1400には、記憶部120内のデータが記憶される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から通信網500を介してこれらのプログラムを取得してもよい。
〔7.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図3に示した取得部131と、受付部132とは統合されてもよい。また、例えば、記憶部120に記憶される情報は、ネットワークNを介して、外部に備えられた所定の記憶装置に記憶されてもよい。
また、上記実施形態では、生成装置100が、例えば、ドキュメントを取得する取得処理と、モデルを生成する生成処理と、モデルを用いて判定を行う判定処理とを行う例を示した。しかし、上述した生成装置100は、取得処理を行う取得装置と、生成処理を行う生成装置と、判定処理を行う判定装置とに分離されてもよい。この場合、取得装置は、少なくとも取得部131を有する。生成装置は、少なくとも生成部134を有する。判定装置は、少なくとも判定部135を有する。そして、上記の生成装置100による処理は、取得装置と、生成装置と、判定装置との各装置を有する生成処理システム1によって実現される。
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔8.効果〕
上述してきたように、実施形態に係る生成装置100は、算出部133と、生成部134とを有する。算出部133は、電子商取引における商材を説明するためのドキュメントを構成する語句が、ドキュメントのうち所定の判定要素における正例か負例かのいずれに出現し易いかという傾向を示す指標値を算出する。生成部134は、算出部133によって算出された指標値に基づいて、処理対象とするドキュメントが正例であるか負例であるかを判定するためのモデルを生成する。
このように、実施形態に係る生成装置100は、ドキュメントを判定するためのモデルにおいて、正例の特徴情報のみならず、負例の特徴情報もサンプルとしてモデルを生成する。例えば、生成装置100は、ドキュメントを形態素解析することにより、ドキュメントを構成する語句が正例に出現するか負例に出現するかという傾向を示す指標値に基づいてモデルを生成する。これにより、生成装置100は、サービスにおける違反の検出のような、ラベル付きデータ(正解データ、正例)が少ない状況であっても、正例か負例かを適切に判定することのできるモデルを生成することができる。このため、生成装置100は、オークションサービスにおける不正な出品など、人為的に確認しないと不正か否かを判定することが難しい事象においても、サービスを不適切に利用するユーザを検出することができる。
また、実施形態に係る生成装置100は、ドキュメントに含まれるキーワードの指定を受け付ける受付部132をさらに備える。算出部133は、受付部132によって受け付けられたキーワード付近に存在する所定の語句が、ドキュメントのうち所定の判定要素における正例か負例かのいずれに出現し易いかという傾向を示す指標値を算出する。
このように、実施形態に係る生成装置100は、受け付けたキーワードに基づいて、モデル生成に用いる語句を特定する。例えば、生成装置100は、経験知に基づいたキーワードを受け付けることにより、ドキュメントにおいて特徴を示す語句(素性)を的確に特定することができる。これにより、生成装置100は、生成されるモデルの精度を向上させることができる。
また、算出部133は、キーワード付近に存在する所定の語句のうち、複数のドキュメントにおける出現頻度に基づいて特定される語句に対応する指標値を算出する。生成部134は、算出部133によって指標値が算出された語句を素性として、モデルを生成する。
このように、実施形態に係る生成装置100は、モデル生成に用いる複数のドキュメントにおける語句の出現頻度に基づいて、モデルに用いる語句を抽出し、抽出した語句を用いてモデルを生成する。例えば、生成装置100は、モデル生成に用いる複数のドキュメントに含まれる単語のDF値に基づいて、モデルの生成に用いる語句を抽出する。これにより、生成装置100は、一般的なありふれた単語を除外しつつ、ドキュメントの特徴を示す単語を利用してモデルを生成できるため、モデルの精度を向上させることができる。
また、生成部134は、算出部133によって指標値が算出された語句のうち、指標値の絶対値が大きい所定数の語句を素性としてモデルを生成する。
このように、実施形態に係る生成装置100は、指標値の絶対値に基づいてモデルに用いる素性を抽出することができる。これにより、生成装置100は、指標値が0に近い素性、すなわち、正例や負例の判別に寄与しない語句を除外してモデルを生成するため、より的確にドキュメントの判別を行うことができるモデルを生成することができる。
また、算出部133は、キーワード付近に存在する所定の語句として、複数の単語を組み合わせた語句に対応する指標値を算出する。生成部134は、算出部133によって指標値が算出された複数の単語を組み合わせた語句を素性としてモデルを生成する。
このように、実施形態に係る生成装置100は、一つの単語のみならず、複数の単語を組み合わせた語句を素性としてモデルを生成してもよい。これにより、生成装置100は、一つの単語では正例や負例の判別に寄与しない素性であっても、複数の単語が組み合わされた場合には正例や負例の判別に寄与するような素性を利用して、モデルを生成することができる。このため、生成装置100は、正例や負例の判別をより的確に行うことのできるモデルを生成することができる。
また、実施形態に係る生成装置100は、生成部134によって生成されたモデルに基づいて、処理対象とするドキュメントが、所定の判定要素における正例か負例かのいずれの傾向を示すかを判定する判定部135をさらに備える。
このように、実施形態に係る生成装置100は、モデルを用いて判定を行う判定部135を備えてもよい。これにより、生成装置100は、例えばサービスの管理者の要望に応え、サービスに関するドキュメントの判別を行うことができるため、実状のモデルの活用に寄与することができる。
また、算出部133は、電子商取引のサービスにおいて規約違反であるか否かを所定の判定要素として指標値を算出する。
このように、実施形態に係る生成装置100は、例えばサービスの管理者の要望に応え、電子商取引のサービスにおいて規約違反であるか否かを判定するようなモデルを生成することができる。これにより、生成装置100は、説明文がサービスの規約に違反しているか否かなど、人為的でなければ判定の困難な対象に関して、的確に判定することが可能なモデルを生成することができる。
また、算出部133は、電子商取引のサービスにおける規約として、送料に関する規約に違反するか否かを所定の判定要素として指標値を算出する。生成部134は、処理対象とするドキュメントが、送料に関する規約に違反するドキュメントか否かを判定するためのモデルを生成する。
このように、実施形態に係る生成装置100は、サービスにおける送料に関する規約に基づいて、規約に違反するドキュメントを判定するためのモデルを生成する。これにより、生成装置100は、ユーザが任意に記載することのできる説明文等のドキュメントにおいても、精度よくサービスの規約に違反するドキュメントを判定できる。
また、算出部133は、送料に関する規約として、商材の料金又は商材の送料以外の料金がドキュメントに記載されているか否かを所定の判定要素として指標値を算出する。
このように、実施形態に係る生成装置100は、例えば梱包料や包装料など、商材の料金か商材の送料以外の料金がドキュメントに記載されていることを判定するためのモデルを生成することができる。すなわち、生成装置100は、判定する正例(この例では、商材の料金又は商材の送料以外の料金が記載されるドキュメント)を詳細に指定することができるため、所望するドキュメントを的確に検出することができる。
また、算出部133は、送料に関する規約として、所定の閾値を超える送料がドキュメントに記載されているか否かを所定の判定要素として前記指標値を算出する。
このように、実施形態に係る生成装置100は、例えば10円や5000円など、商材に対して一般的に設定される送料の範囲を超えるような送料がドキュメントに記載されていることを判定するためのモデルを生成することができる。かかる構成によっても、生成装置100は、判定する正例を詳細に指定することができるため、所望するドキュメントを的確に検出することができる。なお、この場合の閾値は、例えば商材の大きさや重さごと、また運送会社の設定料金等に基づいて、適宜、生成装置100の管理者等によって設定されてよい。
以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
1 生成処理システム
10 ユーザ端末
30 サービスサーバ
100 生成装置
110 通信部
120 記憶部
121 ドキュメント記憶部
122 素性情報記憶部
123 モデル記憶部
130 制御部
131 取得部
132 受付部
133 算出部
134 生成部
135 判定部
136 送信部

Claims (12)

  1. 電子商取引における商材を説明するためのドキュメントを構成する語句が、前記ドキュメントのうち所定の判定要素における正例か負例かのいずれに出現し易いかという傾向を示す指標値を算出する算出部と、
    前記算出部によって算出された指標値に基づいて、処理対象とするドキュメントが正例であるか負例であるかを判定するためのモデルを生成する生成部と、
    を備えたことを特徴とする生成装置。
  2. 前記ドキュメントに含まれるキーワードの指定を受け付ける受付部、
    をさらに備え、
    前記算出部は、
    前記受付部によって受け付けられたキーワード付近に存在する所定の語句が、前記ドキュメントのうち所定の判定要素における正例か負例かのいずれに出現し易いかという傾向を示す指標値を算出する、
    ことを特徴とする請求項1に記載の生成装置。
  3. 前記算出部は、
    前記キーワード付近に存在する所定の語句のうち、複数のドキュメントにおける出現頻度に基づいて特定される語句に対応する前記指標値を算出し、
    前記生成部は、
    前記算出部によって指標値が算出された語句を素性として前記モデルを生成する、
    ことを特徴とする請求項2に記載の生成装置。
  4. 前記生成部は、
    前記算出部によって指標値が算出された語句のうち、当該指標値の絶対値が大きい所定数の語句を素性として前記モデルを生成する、
    ことを特徴とする請求項2又は3に記載の生成装置。
  5. 前記算出部は、
    前記キーワード付近に存在する所定の語句として、複数の単語を組み合わせた語句に対応する前記指標値を算出し、
    前記生成部は、
    前記算出部によって指標値が算出された前記複数の単語を組み合わせた語句を素性として前記モデルを生成する、
    ことを特徴とする請求項2〜4のいずれか一つに記載の生成装置。
  6. 前記生成部によって生成されたモデルに基づいて、処理対象とするドキュメントが、所定の判定要素における正例か負例かのいずれの傾向を示すかを判定する判定部、
    をさらに備えたことを特徴とする請求項1〜5のいずれか一つに記載の生成装置。
  7. 前記算出部は、
    電子商取引のサービスにおいて規約違反であるか否かを前記所定の判定要素として前記指標値を算出する、
    ことを特徴とする請求項1〜6のいずれか一つに記載の生成装置。
  8. 前記算出部は、
    前記電子商取引のサービスにおける規約として、送料に関する規約に違反するか否かを前記所定の判定要素として前記指標値を算出し、
    前記生成部は、
    前記処理対象とするドキュメントが、前記送料に関する規約に違反するドキュメントか否かを判定するためのモデルを生成する、
    ことを特徴とする請求項7に記載の生成装置。
  9. 前記算出部は、
    前記送料に関する規約として、商材の料金又は商材の送料以外の料金がドキュメントに記載されているか否かを前記所定の判定要素として前記指標値を算出する、
    ことを特徴とする請求項8に記載の生成装置。
  10. 前記算出部は、
    前記送料に関する規約として、所定の閾値を超える送料がドキュメントに記載されているか否かを前記所定の判定要素として前記指標値を算出する、
    ことを特徴とする請求項8又は9に記載の生成装置。
  11. コンピュータが実行する生成方法であって、
    電子商取引における商材を説明するためのドキュメントを構成する語句が、前記ドキュメントのうち所定の判定要素における正例か負例かのいずれに出現し易いかという傾向を示す指標値を算出する算出工程と、
    前記算出工程によって算出された指標値に基づいて、処理対象とするドキュメントが正例であるか負例であるかを判定するためのモデルを生成する生成工程と、
    を含んだことを特徴とする生成方法。
  12. 電子商取引における商材を説明するためのドキュメントを構成する語句が、前記ドキュメントのうち所定の判定要素における正例か負例かのいずれに出現し易いかという傾向を示す指標値を算出する算出手順と、
    前記算出手順によって算出された指標値に基づいて、処理対象とするドキュメントが正例であるか負例であるかを判定するためのモデルを生成する生成手順と、
    をコンピュータに実行させることを特徴とする生成プログラム。
JP2016175297A 2016-09-08 2016-09-08 生成装置、生成方法、及び生成プログラム Active JP6373320B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016175297A JP6373320B2 (ja) 2016-09-08 2016-09-08 生成装置、生成方法、及び生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016175297A JP6373320B2 (ja) 2016-09-08 2016-09-08 生成装置、生成方法、及び生成プログラム

Publications (2)

Publication Number Publication Date
JP2018041297A true JP2018041297A (ja) 2018-03-15
JP6373320B2 JP6373320B2 (ja) 2018-08-15

Family

ID=61626045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016175297A Active JP6373320B2 (ja) 2016-09-08 2016-09-08 生成装置、生成方法、及び生成プログラム

Country Status (1)

Country Link
JP (1) JP6373320B2 (ja)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006190229A (ja) * 2005-01-07 2006-07-20 Nec Corp 意見抽出用学習装置及び意見抽出用分類装置
JP2007172249A (ja) * 2005-12-21 2007-07-05 Fujitsu Ltd 文書分類プログラム、文書分類装置、および文書分類方法
JP2007323475A (ja) * 2006-06-02 2007-12-13 Advanced Telecommunication Research Institute International 自然言語における多義解消装置及びコンピュータプログラム
JP2011170578A (ja) * 2010-02-18 2011-09-01 Kddi R & D Laboratories Inc 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法
WO2012095971A1 (ja) * 2011-01-13 2012-07-19 三菱電機株式会社 分類ルール生成装置、分類ルール生成方法、分類ルール生成プログラム及び記録媒体
WO2012132388A1 (ja) * 2011-03-28 2012-10-04 日本電気株式会社 テキスト分析装置、問題言動抽出方法および問題言動抽出プログラム
JP2013012071A (ja) * 2011-06-29 2013-01-17 Yahoo Japan Corp 投稿情報評価装置及び投稿情報評価方法
JP2013131075A (ja) * 2011-12-21 2013-07-04 Nippon Telegr & Teleph Corp <Ntt> 分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法
JP2013168021A (ja) * 2012-02-15 2013-08-29 Nifty Corp イベント検出装置
US20160055424A1 (en) * 2014-08-22 2016-02-25 International Business Machines Corporation Intelligent horizon scanning
JP2016062275A (ja) * 2014-09-17 2016-04-25 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006190229A (ja) * 2005-01-07 2006-07-20 Nec Corp 意見抽出用学習装置及び意見抽出用分類装置
JP2007172249A (ja) * 2005-12-21 2007-07-05 Fujitsu Ltd 文書分類プログラム、文書分類装置、および文書分類方法
JP2007323475A (ja) * 2006-06-02 2007-12-13 Advanced Telecommunication Research Institute International 自然言語における多義解消装置及びコンピュータプログラム
JP2011170578A (ja) * 2010-02-18 2011-09-01 Kddi R & D Laboratories Inc 検索キーワード辞書に対する非検索キーワード辞書を用いた文章検索プログラム、サーバ及び方法
WO2012095971A1 (ja) * 2011-01-13 2012-07-19 三菱電機株式会社 分類ルール生成装置、分類ルール生成方法、分類ルール生成プログラム及び記録媒体
WO2012132388A1 (ja) * 2011-03-28 2012-10-04 日本電気株式会社 テキスト分析装置、問題言動抽出方法および問題言動抽出プログラム
JP2013012071A (ja) * 2011-06-29 2013-01-17 Yahoo Japan Corp 投稿情報評価装置及び投稿情報評価方法
JP2013131075A (ja) * 2011-12-21 2013-07-04 Nippon Telegr & Teleph Corp <Ntt> 分類モデル学習方法、装置、プログラム、及びレビュー文書分類方法
JP2013168021A (ja) * 2012-02-15 2013-08-29 Nifty Corp イベント検出装置
US20160055424A1 (en) * 2014-08-22 2016-02-25 International Business Machines Corporation Intelligent horizon scanning
JP2016062275A (ja) * 2014-09-17 2016-04-25 ヤフー株式会社 抽出装置、抽出方法および抽出プログラム

Also Published As

Publication number Publication date
JP6373320B2 (ja) 2018-08-15

Similar Documents

Publication Publication Date Title
CN108133013B (zh) 信息处理方法、装置、计算机设备和存储介质
US8170958B1 (en) Internet reputation manager
JP5960887B1 (ja) 算出装置、算出方法及び算出プログラム
US8756178B1 (en) Automatic event categorization for event ticket network systems
EP3168795A1 (en) Method and apparatus for evaluating relevance of keyword to asset price
KR20150145261A (ko) 수취인에게 관심 있는 선물의 크라우드-소싱을 위한 상황적 관련성 정보에 기초한 사용자 정보의 선택적 공유
JP6373462B1 (ja) 予測装置、予測方法及び予測プログラム
JP6417002B1 (ja) 生成装置、生成方法及び生成プログラム
JP2019101959A (ja) 抽出装置、抽出方法、抽出プログラム及びモデル
JP6560323B2 (ja) 判定装置、判定方法及び判定プログラム
JP6679648B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム、判定装置、判定方法及び判定プログラム
JP2018101260A (ja) 情報処理システム、情報処理方法、および情報処理プログラム
JP2018041421A (ja) クレジットカードの不正使用判定支援装置、不正使用判定装置及び不正使用判定の支援方法
US20140101293A1 (en) Apparatus and method for providing issue record, and generating issue record
WO2022007798A1 (zh) 数据显示方法、装置、终端设备及存储介质
US20170193539A1 (en) Time-value estimation method and system for sharing environment
JP7170689B2 (ja) 出力装置、出力方法及び出力プログラム
JP6962839B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6373320B2 (ja) 生成装置、生成方法、及び生成プログラム
CN107357847B (zh) 数据处理方法及其装置
JP6100741B2 (ja) 抽出装置、抽出方法および抽出プログラム
CN107273346A (zh) 从文本中对热门见解的可扩展挖掘
JP2017076376A (ja) 算出装置、算出方法および算出プログラム
US20160104173A1 (en) Real-time economic indicator
JP2019032827A (ja) 生成装置、生成方法及び生成プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180619

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180717

R150 Certificate of patent or registration of utility model

Ref document number: 6373320

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350