JP5567749B2 - 辞書生成装置、辞書生成方法、辞書生成プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体 - Google Patents

辞書生成装置、辞書生成方法、辞書生成プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体 Download PDF

Info

Publication number
JP5567749B2
JP5567749B2 JP2013558750A JP2013558750A JP5567749B2 JP 5567749 B2 JP5567749 B2 JP 5567749B2 JP 2013558750 A JP2013558750 A JP 2013558750A JP 2013558750 A JP2013558750 A JP 2013558750A JP 5567749 B2 JP5567749 B2 JP 5567749B2
Authority
JP
Japan
Prior art keywords
product
category
dictionary
noun
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013558750A
Other languages
English (en)
Other versions
JPWO2013122205A1 (ja
Inventor
浩司 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Inc filed Critical Rakuten Inc
Application granted granted Critical
Publication of JP5567749B2 publication Critical patent/JP5567749B2/ja
Publication of JPWO2013122205A1 publication Critical patent/JPWO2013122205A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Description

本発明の一形態は、商品カテゴリの判定に用いる辞書を生成するための装置、方法、プログラム、及び記録媒体に関する。
インターネットを介して多くの仮想店舗が出店する、いわゆる仮想商店街では、各店舗で取引される商品に商品カテゴリ(以下では単に「カテゴリ」ともいう)が付与されることが多い。商品カテゴリを用いて商品を分類することで、仮想商店街の管理者は、各店舗が独自の販売計画に基づき仕入れるなどした膨大な商品を体系的に管理することができ、また、ユーザはカテゴリを用いて異なる店舗の商品を一度に検索し、比較することができる。例えば、下記特許文献1に記載の商品取引システムは、商品の種類を表す複数のカテゴリに対応する複数の検索データベースを有している。このシステムでは、各カテゴリに対応する検索データベース毎に、そのカテゴリの商品の仕様情報と商品の特徴を現す日常的な生活語とが対応付けられている。
特開2007−264747号公報
商品とカテゴリとの関連付けは店舗により行われることが多いが、店舗の担当者が間違ったカテゴリを商品に割り当ててしまうことがある。すると、商品情報が誤りを含んでしまい、ユーザがカテゴリから或る商品を検索する際に本来抽出されるべき商品が抽出されなくなってしまうなど、検索精度が低下することとなる。これは店舗が販売の機会を失ってしまうばかりでなく、間違ったカテゴリ登録が重なることにより仮想商店街全体における商品情報の使い勝手が著しく悪くなってしまうおそれがあることを意味する。
このような状況を改善するために、正しい商品カテゴリ、すなわち商品に登録されるべき商品カテゴリに関する辞書を予め用意して、この辞書を参照しながら登録済の商品カテゴリの正否を判定し、必要に応じてそのカテゴリを修正することが考えられる。しかし、商品や商品カテゴリの種類は多岐にわたるので、その辞書を人手で作成するのは容易ではない。
そこで、商品カテゴリの判定に用いる辞書を容易に生成することが要請されている。
本発明の一形態に係る辞書生成装置は、(A)名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び/又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの商品名及び/又は商品説明に含まれる名詞連続が商品カテゴリと対応して設定されているか否かを判定し、(B)商品カテゴリと対応して設定されている名詞連続を含むレコード中の取扱店舗の数をその商品カテゴリごとに計数して、商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、計数した取扱店舗の数に基づいて算出し、(C)各商品カテゴリについての店舗の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、(D)該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、強制語と一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部とを備える。
本発明の一形態に係る辞書生成方法は、(A)名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び/又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの商品名及び/又は商品説明に含まれる名詞連続が商品カテゴリと対応して設定されているか否かを判定し、(B)商品カテゴリと対応して設定されている名詞連続を含むレコード中の取扱店舗の数をその商品カテゴリごとに計数して、商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、計数した取扱店舗の数に基づいて算出し、(C)各商品カテゴリについての店舗の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、(D)該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定ステップと、強制語と一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録ステップとを含む。
本発明の一形態に係る辞書生成プログラムは、(A)名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び/又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの商品名及び/又は商品説明に含まれる名詞連続が商品カテゴリと対応して設定されているか否かを判定し、(B)商品カテゴリと対応して設定されている名詞連続を含むレコード中の取扱店舗の数をその商品カテゴリごとに計数して、商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、計数した取扱店舗の数に基づいて算出し、(C)各商品カテゴリについての店舗の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、(D)該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、強制語と一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部とをコンピュータに実行させる。
本発明の一形態に係るコンピュータ読取可能な記録媒体は、(A)名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び/又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの商品名及び/又は商品説明に含まれる名詞連続が商品カテゴリと対応して設定されているか否かを判定し、(B)商品カテゴリと対応して設定されている名詞連続を含むレコード中の取扱店舗の数をその商品カテゴリごとに計数して、商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、計数した取扱店舗の数に基づいて算出し、(C)各商品カテゴリについての店舗の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、(D)該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、強制語と一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部とをコンピュータに実行させる辞書生成プログラムを記憶する。
このような形態によれば、名詞、名詞句又はそれらの連続する名詞連続を含む商品名及び/又は商品説明から1以上の商品カテゴリが特定され、その商品カテゴリのそれぞれについて店舗数が算出される。続いて、各商品カテゴリについて、どのくらい多くの店舗がその商品カテゴリを登録したかを示す指数、すなわち店舗の集約度が各カテゴリの店舗数に基づいて算出される。そして、この集約度に基づいて、一の商品カテゴリを一意に導く強制語が判定され、その強制語及び商品カテゴリが辞書情報として辞書データベースに登録される。このように、ある一つの語句(名詞、名詞句又はそれらの連続する名詞連続、以下、単に「名詞連続」と記す)に関する商品情報に対して、どのくらいの数の店舗がどの商品カテゴリを登録したかという点(店舗の集約度)に着目して辞書情報を生成することで、商品カテゴリの判定に用いる辞書情報を容易に生成することができる。
別の形態に係る辞書生成装置では、判定部が、特定した各商品カテゴリについて名詞連続の出現回数を算出し、各商品カテゴリについての名詞連続の集約度を出現回数に基づいて算出し、各商品カテゴリについての店舗の集約度及び名詞連続の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定してもよい。この場合には、各商品カテゴリについての名詞連続の集約度にも着目することで、辞書情報の精度をより向上させることができる。
更に別の形態に係る辞書生成装置では、判定部が、特定した各商品カテゴリについて、該商品カテゴリに対応する商品数を算出し、各商品カテゴリについての商品の集約度を商品数に基づいて算出し、各商品カテゴリについての店舗の集約度及び商品の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定してもよい。この場合には、各商品カテゴリについての商品の集約度にも着目することで、辞書情報の精度をより向上させることができる。
更に別の形態に係る辞書生成装置では、判定部が、商品名に名詞連続を含む商品情報を登録した総店舗数を算出し、総店舗数が所定の閾値以下である場合には、名詞連続を強制語として判定しなくてもよい。これにより、名詞連続がある程度多くの店舗により用いられている場合に限ってその名詞連続が強制語になり得るので、辞書情報の精度をより向上させることができる。
更に別の形態に係る辞書生成装置では、判定部が、不要語を記憶する不要語辞書を参照して、名詞連続が不要語と一致する場合には、名詞連続を強制語として判定しなくてもよい。このように、強制語として登録する必要がない名詞連続を除くことで、辞書情報の精度をより向上させることができる。
更に別の形態に係る辞書生成装置では、判定部が、店舗の集約度が最も高い商品カテゴリを多数派カテゴリとして特定するとともに該集約度が該多数派カテゴリよりも低い商品カテゴリを少数派カテゴリとして特定し、該少数派カテゴリの商品名と該多数派カテゴリの商品名との間の語句の重複度を算出し、該重複度が所定の閾値以上である場合に、該多数派カテゴリが名詞連続から一意に導かれる商品カテゴリであると判定してもよい。このように、多数派カテゴリと少数派カテゴリとの間の語句の重複度に着目して、当該多数派カテゴリが強制語と関連付けられるか否かを判定することで、辞書情報の精度をより向上させることができる。
更に別の形態に係る辞書生成装置では、判定部が、多数派カテゴリ及び少数派カテゴリの第N階層において重複度が所定の閾値以上である場合には、該多数派カテゴリの第N階層が名詞連続から一意に導かれると判定して、該多数派カテゴリの第(N+1)階層において、多数派カテゴリ及び少数派カテゴリの特定と、重複度の算出と、該重複度に基づく判定とを繰り返してもよい。ここで、Nは1以上である。この場合には、カテゴリ・ツリーの最上位階層から順に1階層ずつ多数派カテゴリを確定させながら、強制語と関連付けられるべき商品カテゴリが探索されるので、当該商品カテゴリを的確に特定することができる。
更に別の形態に係る辞書生成装置では、辞書情報で示される強制語を商品名に含む商品情報の商品カテゴリを、該辞書情報で示される商品カテゴリに更新する更新部を更に備え、更新部により商品情報が更新された後に、判定部、登録部、及び更新部による処理が繰り返し実行され、判定部が、店舗の集約度に関する閾値を前回の判定処理で用いられた値よりも小さく設定した上で、店舗の集約度に基づいて、名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定してもよい。この場合には、店舗の集約度に関する閾値を徐々に下げながら、生成された辞書情報を用いて商品情報の商品カテゴリを正しいものに更新する処理が繰り返される。このように、確度の高い強制語から順に、辞書情報を生成して商品情報を整理するという一連の処理を繰り返すことで、辞書情報の精度をより向上させることができる。
更に別の形態に係る辞書生成装置では、判定部が、形態素解析により商品名から名詞連続を抽出してもよい。これにより、特別なルールや辞書を用意することなく名詞連続を抽出することができる。
更に別の形態に係る辞書生成装置では、判定部が、名詞連続の抽出範囲を示す商品名の記載ルールを記憶するルール辞書を参照して、商品名から名詞連続を抽出してもよい。このようにルール辞書を用いることで、名詞連続を容易に抽出することができる。
更に別の形態に係る辞書生成装置では、判定部が、不要語を記憶する不要語辞書を参照して、商品名から不要語以外の語句を抽出し、抽出された語句から名詞連続を抽出してもよい。このように不要語辞書を用いることで、名詞連続を容易に抽出することができる。
更に別の形態に係る辞書生成装置では、登録部が、名詞連続と、商品カテゴリのうち一意に導かれる商品カテゴリ以外の商品カテゴリとが関連付けられた推薦情報を別の辞書データベースに格納してもよい。このように、名詞連続と関連する可能性がある商品カテゴリを辞書情報とは別に推薦情報として登録することで、商品カテゴリの選択の幅を広げることができる。
更に別の形態に係る辞書生成装置では、判定部が、各商品カテゴリについての店舗の集約度に基づいて、名詞連続と店舗又は店舗カテゴリとの組から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定し、登録部が、強制語と、店舗又は店舗カテゴリと、一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納してもよい。これにより、店舗の特性を考慮して辞書情報を設定することができる。
更に別の形態に係る辞書生成装置では、判定部が、表記の揺れに関する情報を記憶する表記辞書を参照して商品名から名詞連続を抽出してもよい。これにより、表記揺れを吸収して辞書情報を生成することができる。
更に別の形態に係る辞書生成装置では、判定部が、店舗の集約度が第1閾値より大きい商品カテゴリが一つのみ存在する場合には、名詞連続から一意に導かれる一の商品カテゴリが存在すると判定して、該名詞連続を該商品カテゴリの第1種強制語として判定し、店舗の集約度が第1閾値より大きい商品カテゴリが複数存在する場合には、該複数の商品カテゴリのそれぞれについて、該名詞連続が、第1種強制語よりも商品カテゴリの強制力が弱い第2種強制語、又は第2種強制語よりも商品カテゴリの強制力が弱い参考語であると判定し、登録部が、第1種強制語、第2種強制語又は参考語と商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納してもよい。この場合には、名詞連続を第1種及び第2種の強制語と、参考語とに分類することができるので、より細かい辞書情報を生成することができる。
更に別の形態に係る辞書生成装置では、判定部が、店舗の集約度が第1閾値より大きい商品カテゴリの個数が1でない場合に、該商品カテゴリを除いた残りのカテゴリにおける名詞連続の登録店舗数が第2閾値より大きいか否かを判定し、登録店舗数が第2閾値より大きい場合には、名詞連続が不要語であると判定し、登録部が不要語を所定のデータベースに格納してもよい。この場合には、名詞連続を不要語としても登録することができる。
更に別の形態に係る辞書生成装置では、登録部が、表記の揺れに関する情報を記憶する表記辞書を参照して強制語に対応する語句を抽出し、該強制語と、該対応する語句と、一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納してもよい。これにより、表記揺れを吸収して辞書情報を生成することができる。
本発明の一側面によれば、商品カテゴリの判定に用いる辞書情報を容易に生成することができる。
実施形態に係る電子商取引(EC)システムの全体構成を示す図である。 店舗情報の例を示す図である。 商品情報の例を示す図である。 辞書情報(強制語辞書)の例を示す図である。 実施形態に係る辞書生成サーバのハードウェア構成を示す図である。 第1及び第2実施形態に係る辞書生成サーバの機能構成を示すブロック図である。 第1実施形態における辞書生成サーバの動作を示すフローチャートである。 第1及び第2実施形態に係る辞書生成プログラムの構成を示す図である。 (a),(b)は、辞書情報(強制語辞書)の別の例を示す図である。 第2実施形態における辞書生成サーバの動作を示すフローチャートである。 第3実施形態に係る辞書生成サーバの機能構成を示すブロック図である。 第3実施形態に係る辞書生成プログラムの構成を示す図である。 第4及び第5実施形態に係る辞書生成サーバの機能構成を示すブロック図である。 第4実施形態における辞書生成サーバの動作を示すフローチャートである。 図14における、名詞連続の重複度に基づく処理の詳細を示すフローチャートである。 第4及び第5実施形態に係る辞書生成プログラムの構成を示す図である。 第5実施形態における、名詞連続の重複度に基づく処理の詳細を示すフローチャートである。 第6実施形態に係る辞書生成サーバの機能構成を示すブロック図である。 第6実施形態に係る辞書生成プログラムの構成を示す図である。 第7実施形態に係る辞書生成サーバの機能構成を示すブロック図である。 第7実施形態に係る辞書生成サーバの動作を示すフローチャートである。 第7実施形態に係る辞書情報(強制語辞書)の例を示す図である。
以下、添付図面を参照しながら本発明の実施形態を詳細に説明する。なお、図面の説明において同一又は同等の要素には同一の符号を付し、重複する説明を省略する。
(第1実施形態)
まず、図1〜6を用いて、第1実施形態に係る辞書生成サーバ(辞書生成装置)10の機能及び構成を説明する。辞書生成サーバ10は、電子商取引(EC)システム1で用いられる辞書データベース23を管理するコンピュータである。
ECシステム1は、ユーザ(一般消費者)に、複数の仮想店舗が出店する仮想商店街のウェブサイト(ECサイト)を提供するコンピュータシステムである。ユーザはそのサイトを介して商品を検索したり、購入手続を行ったりすることができる。店舗運営者は販売する商品を仮想商店街の仮想店舗に登録し、ユーザが購入した商品をそのユーザに配送する。なお、商品の種類は限定されず、任意の有体物でもよいし、サービスなどの無体物でもよい。ECシステム1は、辞書生成サーバ10の他にECサーバ90、データベース群20、各店舗運営者の端末、即ち店舗端末Ts、及び多数のユーザ端末Tuを備えている。これらの装置は通信ネットワークNを介して互いに接続されている。
ECサーバ90は、ECサイトを管理するコンピュータシステムである。ECサーバ90は、ユーザ端末Tuからのリクエストに応じて、メインページや商品ページなどの各種ウェブページの提供、商品検索、購入処理の補助(店舗端末Tsからの入力に基づく登録商品の追加や削除、決済手段の提供、ユーザへのポイント付与などを含む)などを実行する。また、ECサーバ90は、店舗端末Tsからのリクエストに応じて、商品情報更新の処理(商品の登録や削除、在庫の追加など)を実行する。
データベース群20は、ECシステム1で必要な各種データベースの集まりである。
店舗端末Tsは、仮想商店街に参加している店舗の運営者が所有するコンピュータである。店舗端末Tsの種類は限定されず、例えば据置型又は携帯型のパーソナルコンピュータでもよいし、高機能携帯電話機(スマートフォン)や携帯電話機、携帯情報端末(PDA)などの携帯端末でもよい。ECシステム1内に存在する店舗端末Tsの台数は限定されない。
ユーザ端末Tuは、ユーザ(一般消費者)が所有するコンピュータである。店舗端末Tsと同様に、ユーザ端末Tuの種類も限定されず、例えば据置型又は携帯型のパーソナルコンピュータでもよいし、高機能携帯電話機(スマートフォン)や携帯電話機、携帯情報端末(PDA)などの携帯端末でもよい。ECシステム1内に存在するユーザ端末Tuの台数も限定されない。
以上を前提として、辞書生成サーバ10の詳細を説明する。まず、この辞書生成サーバ10によりアクセスされる各種データベースについて詳しく説明する。
店舗データベース21は、仮想商店街内の各仮想店舗に関する店舗情報を記憶する手段である。店舗情報は、店舗を一意に特定するための店舗IDと、その店舗の各種属性を示す属性情報とを含んでいる。属性情報は店舗の名称や住所、カテゴリ、URLを含んでいるが、属性情報に含める情報は限定されない。店舗情報の例を図2に示す。この図から例えば、店舗IDが「S001」である店舗が「ABショップ」であり、この店舗のカテゴリが「酒類」であることが分かる。なお、店舗カテゴリはツリー構造により体系的に管理されていてもよい。
商品データベース22は、各仮想店舗が販売する商品に関する商品情報を記憶する手段である。商品情報は、商品を提供する店舗(取扱店舗)の店舗IDと、商品を一意に特定する商品IDと、その商品の各種属性を示す属性情報とを含んでいる。属性情報は店舗の名称や価格、URL、在庫数、カテゴリを含んでいるが、属性情報に含める情報は限定されない。ここで、商品カテゴリとは商品の分類を示す概念である。商品情報は、店舗端末Tsから送信された指示に基づいて新規登録、更新、あるいは削除される。ここで、商品名とは、商品の固有名称又は一般名称そのものというよりは、商品ページ(商品情報が掲載されたウェブページ)の商品名欄に表示されるタイトルであり、複数種類の商品に共通する語句(例えば、ブランド名やメーカ名、「送料無料」などの宣伝文句)も含むものである。
商品情報の例を図3に示す。商品カテゴリとは、店舗により入力及び登録された商品カテゴリのことである。この例では、店舗IDが「S001」に対して、商品IDが「T002」である商品「BBビール」が関連付けられており、この商品の商品カテゴリが「食品>日本酒・焼酎」と指定されている。なお、商品カテゴリはツリー構造により体系的に管理されており、例えば「食品>日本酒・焼酎>」は、第1階層「食品」の下に位置する第2階層「日本酒・焼酎」を示している。
本実施形態では、各店舗が商品の価格だけでなく商品ID及び登録カテゴリも独自に設定するので、同じ商品に対して店舗間で異なる商品ID及び登録カテゴリが割り当てられ得る。図3の例では、商品「AA酒」の商品IDが、店舗「S001」では「T001」であるのに対して、店舗「S002」では「T101」に設定されている。また、商品「CC水」について見ると、商品ID及び登録カテゴリの双方が店舗「S001」及び「S002」の間で異なっている。
このように、全店舗が共通の商品ID及び商品カテゴリの使用を強制されない状況下では、後述する強制語辞書を用いて正しい商品カテゴリを判定することでECサイト内の商品カテゴリの整合性を取ることが有効である。仮に商品IDが全店舗共通であっても(例えば、JANコードなどのバーコードに基づいて店舗共通の商品IDを設定した場合でも)、各店舗が商品カテゴリを自由に設定できるのであれば、やはり強制語辞書を用いたカテゴリ判定は有効である。
辞書データベース23は、商品カテゴリの登録等に用いることが可能な強制語辞書を記憶する手段である。強制語辞書とは、強制語(Definitive Category Words (DCW))と商品カテゴリとが関連付けられた辞書情報の集合であり、強制語とは、一の商品カテゴリを一意に特定する語句である。例えば、商品の固有名詞、メーカ名と商品の固有名詞との組合せ、物の一般名詞、一般名詞の連続などを強制語として設定することが考えられる。辞書生成サーバ10はこの強制語辞書を生成する。
強制語辞書の例を図4に示す。この例から、強制語「AA酒」には一つの商品カテゴリ「食品>日本酒・焼酎」のみが関連付けられており、強制語「BBビール」には一つの商品カテゴリ「食品>ビール・洋酒」のみが関連付けられていることが分かる。なお、強制語に関連付けられる商品カテゴリは、カテゴリ・ツリーの末端に位置するリーフ・カテゴリ(leaf category)であってもよいし、最上位又は中位のカテゴリであってもよい。
店舗データベース21(店舗情報)、商品データベース22(商品情報)、及び辞書データベース23(辞書情報)の構成は図2〜4に示すものに限定されず、各データベースに対して任意の正規化又は冗長化を行ってよい。
なお、データベース群20は、ユーザ情報(会員情報)を記憶するユーザデータベースや、各ユーザの購入履歴を記憶する購入履歴データベースなども含むが、強制語辞書の生成に直接関連しないこれらのデータベースについては、詳細な説明を省略する。
次に、辞書生成サーバ10の機能及び構成を説明する。辞書生成サーバ10のハードウェア構成を図5に示す。この図に示すように、辞書生成サーバ10は、オペレーティングシステムやアプリケーション・プログラムなどを実行するCPU101と、ROM及びRAMで構成される主記憶部102と、ハードディスクなどで構成される補助記憶部103と、ネットワークカードなどで構成される通信制御部104と、キーボードやマウスなどの入力装置105と、ディスプレイなどの出力装置106とを備えている。
後述する辞書生成サーバ10の各機能的構成要素は、CPU101や主記憶部102の上に所定のソフトウェアを読み込ませ、CPU101の制御の下で通信制御部104や入力装置105、出力装置106などを動作させ、主記憶部102や補助記憶部103におけるデータの読み出し及び書き込みを行うことで実現される。処理に必要なデータやデータベースは主記憶部102や補助記憶部103内に格納される。なお、図5では辞書生成サーバ10が1台のコンピュータで構成されているように示しているが、辞書生成サーバ10の機能を複数台のコンピュータに分散させてもよい。
図6に示すように、辞書生成サーバ10は機能的構成要素として抽出部11、算出部12、判定部13、及び登録部14を備えている。
抽出部11は、商品データベース22に記憶されている商品情報の商品名から、一の名詞、一つの名詞句、又は連続して並んでいる複数の名詞又は名詞句(名詞又は名詞句の連続)を「名詞連続」として抽出する手段である。名詞連続は強制語の候補である。なお、以下では商品名から名詞連続を抽出することを前提とするが、抽出部11は商品情報の商品名以外の項目(例えば商品説明)から名詞連続を抽出してもよい。
名詞連続の抽出方法は限定されない。例えば、抽出部11は形態素解析等を用いて商品名から名詞連続を抽出してもよい。これにより、特別なルールや辞書を用意することなく名詞連続を抽出することができる。商品名を構成する語句に、抽出すべき名詞連続として適さない宣伝文句などの販売情報がメタ情報として関連付けられているのであれば、抽出部11はそのメタ情報を除去して名詞連続のみを選択してもよい。例えば、「送料無料」などのような宣伝文句は様々なカテゴリの様々な商品名に含まれるので強制語として適さないが、そのような宣伝文句をメタ情報により区別可能であれば、抽出部11は宣伝文句以外の名詞連続のみを抽出する。
更に別の手法として、抽出部11は、商品名が所定のルールの下で記載されていることを前提として、そのルールに沿って名詞連続を抽出してもよい。この場合には、抽出部11はそのルールを示す情報をルール辞書として予め保持している。例えば、商品名の記載ルール(あるいは抽出ルール)が「(ブランド名)+(抽出対象の文字列)+(除外すべき他の文字列)」であったとして、処理対象の商品名が「ブランドX BBビール 送料無料」であれば、抽出部11はこのルールに基づいて商品名から「BBビール」を名詞連続として抽出する。このようにルール辞書を用いることで、名詞連続を容易に抽出することができる。
抽出部11は抽出したすべての名詞連続のデータを算出部12に出力する。
算出部12は、名詞連続が商品名に含まれる商品情報を商品データベース22から読み出し、その商品情報に基づいて、辞書情報を生成する処理に必要な統計値を算出する手段である。算出部12は入力された名詞連続のそれぞれについて以下の処理を実行する。
まず、算出部12は一の名詞連続が商品名に含まれる商品情報を商品データベース22から読み出し、その商品情報に基づいて、TF(Term Frequency),CTF(Term Frequency in the category),DF(Document frequency),CDF(Document frequency in the category),MF(Merchant frequency),CMF(Merchant frequency in the category)という各種の統計値を算出する。各統計値の定義を以下に示す。
TFは、読み出した商品情報(1以上のレコード)の商品名において(すなわち、読み出した全商品において)名詞連続が現われる回数である。CTFは、読み出した商品情報で示される商品カテゴリ毎に算出される値であって、ある1カテゴリに対応する商品名において名詞連続が現われる回数である。
DFは、商品名に名詞連続が含まれている商品を含む「カテゴリの数」である。CDFは、読み出した商品情報で示される商品カテゴリ毎に算出される値であって、ある1カテゴリに対応する商品数(レコード数)である。
MFは、読み出した商品情報を登録した店舗の数(すなわち、読み出した全商品に基づいてカウントされる店舗の数)である。CMFは、読み出した商品情報で示される商品カテゴリ毎に算出される値であって、ある1カテゴリに属する商品情報を登録した店舗の数である。
算出部12は名詞連続のそれぞれについて上記統計値を得ると、その統計データを判定部13に出力する。
判定部13は、算出部12により特定された各商品カテゴリについての統計値に基づいて、一の商品カテゴリを一意に導く名詞連続を強制語として判定する手段である。判定部13は抽出された名詞連続のそれぞれについて以下の処理を実行する。
判定部13は、処理対象の名詞連続に対して、下記の五つの条件を満たす商品カテゴリを特定する。下記条件1〜3は閾値を用いたフィルタリングであり、条件4は名詞連続そのものに関するフィルタリングであり、条件5は商品カテゴリそのものに関するフィルタリングであると言える。
(条件1)MF>閾値THa
(条件2)CMF/MF>閾値THb
(条件3)CTF/TF>閾値THc
(条件4)名詞連続が所定の語句(例えば、「〜用」などの接尾辞や、型番などの数値表現)を含まないこと。
(条件5)名詞連続に対応する商品カテゴリ(リーフ・カテゴリ(leaf category))の末尾が「その他」でないこと。
条件1は、ある程度多くの店舗により用いられている名詞連続に限って強制語として扱うことを意図している。条件2は、どのくらい多くの店舗が名詞連続に対応する商品を特定の商品カテゴリに関連付けているかという点に着目して設けられた条件であり、店舗の集約度によるフィルタリングであると言える。条件3は、名詞連続が特定の商品カテゴリにどのくらい多く出現しているかという点に着目して設けられた条件であり、名詞連続の集約度によるフィルタリングであると言える。
条件1〜3における閾値THa,THb,THcの値は任意に定めてよい。例えば、THaを10又は1と設定し、THbを0.9又は0.8と設定し、THcを0.8又は0.7と設定してもよい。また、条件3についてはCTF,TFに代えてCDF,DFを用いてもよく、この場合には、条件3はCDF/DF>閾値THdである。この条件は、名詞連続に対応する商品がどのくらい多く特定の商品カテゴリに含まれているかという点に着目して設けられたものであり、商品の集約度によるフィルタリングであると言える。なお、条件1,3を省略してもよい。
条件4で示される除外対象の語句は、不要語データとして辞書生成サーバ10内に予め記憶されている。この条件4は名詞連続そのものに関する条件であるので、この処理は上記の抽出部11において行われてもよい。いずれにしろ、このような不要語辞書を用いることで、処理に必要な名詞連続のみを容易に抽出することができる。条件5は、様々な種類の商品が含まれ得る「その他」カテゴリを除くための条件である。なお、条件4,5も省略可能である。
特定した商品カテゴリが一つのみであれば、判定部13はその商品カテゴリが名詞連続から一意に導き出されるものである、言い換えれば、当該名詞連続を強制語として扱えると判定し、この名詞連続及び商品カテゴリのペアを登録部14に出力する。一方、特定した商品カテゴリが複数であれば、判定部13は名詞連続から一つの商品カテゴリを一意に導けない、すなわち、名詞連続を強制語として扱えないと判定して、登録部14へデータを出力することなく処理を終了する。当然ながら、商品カテゴリを一つも特定できなかった場合にも、判定部13は名詞連続を強制語として扱えないと判定する。
登録部14は、辞書情報を生成して辞書データベース23(強制語辞書)に登録する手段である。登録部14は判定部13から入力された名詞連続(強制語)及び商品カテゴリのペアを辞書情報として辞書データベース23に格納する。
次に、図7を用いて、辞書生成サーバ10の動作を説明するとともに本実施形態に係る辞書生成方法について説明する。
まず、抽出部11が商品データベース22から読み出した商品情報から名詞連続を抽出する(ステップS11、抽出ステップ)。上述したように、抽出部11は様々な方法により名詞連続を抽出し得る。続いて、算出部12が抽出された名詞連続のそれぞれについて統計値TF,CTF,DF,CDF,MF,CMFを算出する(ステップS12、算出ステップ)。
続いて、判定部13が名詞連続のそれぞれについて上記の条件1〜5によるフィルタリングを行って、名詞連続を強制語として認定するか否かを判定する(判定ステップ)。具体的には、ステップS13におけるフィルタリングの結果、商品カテゴリが一つだけ存在する場合には(ステップS14;「1」)、判定部13はその名詞連続を強制語として認定する(ステップS15)。この場合には、登録部14がその名詞連続及び一の商品カテゴリを辞書情報として辞書データベース23に格納する(ステップS16、登録ステップ)。
一方、フィルタリングの結果、商品カテゴリを一つも特定できなかった場合、あるいは商品カテゴリが複数残った場合には(ステップS14;「0又は複数」)、判定部13はその名詞連続を強制語して認定することなく、その時点で処理を終了する。
判定部13及び登録部14によるステップS13〜S16の処理は、一の商品情報から抽出されたすべての名詞連続に対して実行される(ステップS17参照)。
次に、図8を用いて、コンピュータを辞書生成サーバ10として機能させるための辞書生成プログラムP1を説明する。
辞書生成プログラムP1は、メインモジュールP10、抽出モジュールP11、算出モジュールP12、判定モジュールP13、及び登録モジュールP14を備えている。
メインモジュールP10は、辞書生成機能を統括的に制御する部分である。抽出モジュールP11、算出モジュールP12、判定モジュールP13、及び登録モジュールP14を実行することにより実現される機能はそれぞれ、上記の抽出部11、算出部12、判定部13、及び登録部14の機能と同様である。
辞書生成プログラムP1は、例えば、CD−ROMやDVD−ROM、半導体メモリ等の有形の記録媒体に固定的に記録された上で提供される。また、辞書生成プログラムP1は、搬送波に重畳されたデータ信号として通信ネットワークを介して提供されてもよい。
以上説明したように、本実施形態によれば、名詞連続を商品名に含む商品情報から1以上の商品カテゴリが特定され、名詞連続に関する統計値と、特定された商品カテゴリのそれぞれについての統計値とが算出される。これらの統計値には、少なくとも店舗数に関する値が含まれる。続いて、各商品カテゴリについて、どのくらい多くの店舗がその商品カテゴリを登録したかを示す指数、すなわち店舗の集約度がその統計値に基づいて算出される。そして、この集約度に基づいて、一の商品カテゴリを一意に導く強制語が判定され、その強制語及び商品カテゴリが辞書情報として辞書データベース23に登録される。このように、ある一つの語句(名詞連続)に関する商品情報に対して、どのくらいの数の店舗がどの商品カテゴリを登録したかという点(店舗の集約度。CMF/MF)に着目して、精度の良い辞書情報を容易に生成することができる。
本実施形態において、各商品カテゴリについての名詞連続の集約度(CTF/TF)又は商品の集約度(CDF/CF)にも着目して強制語を判定すれば、辞書情報の精度をより向上させることができる。また、商品名に名詞連続を含む商品情報を登録した総店舗数(MF)が所定の閾値を超える場合に限ってその名詞連続が強制語になり得るので、辞書情報の精度をより向上させることができる。さらに、上記条件4を用いて、強制語として登録する必要がない名詞連続を除くことで、辞書情報の精度をより向上させることができる。
このように自動的に生成された辞書情報を用いて、商品データベース22内の商品情報を整理することができる。例えば、辞書情報を参照して商品情報の商品カテゴリを正しい値に更新することができる。また、店舗端末Tsにおける商品情報の登録の際に強制語辞書を用いれば、店舗の管理者は自ら考えることなく正しい商品カテゴリを設定することができる。その結果、カテゴリ検索により本来抽出されるべき商品が検索されるようになり、店舗は販売機会をより確実に得ることができる。
(第2実施形態)
次に、図9,10を用いて第2実施形態を説明する。本実施形態では、辞書生成サーバ10は、店舗又は店舗カテゴリも考慮して強制語を特定する。以下では、第1実施形態と同一又は同様の事項については説明を省略し、本実施形態特有の事項について特に説明する。
本実施形態では、同じ名詞連続でも店舗又は店舗カテゴリにより異なる商品カテゴリに関連し得る点を考慮して、辞書データベース23(辞書情報)が図9に示すように構成される。図9(a)の例は店舗カテゴリ毎に強制語辞書を用意した場合であり、各レコードは店舗カテゴリ、強制語、及び商品カテゴリを含んでいる。図9(b)の例は店舗毎に強制語辞書を用意した場合であり、各レコードは店舗ID、強制語、及び商品カテゴリを含んでいる。
例えば、図9(a),(b)の例では、長靴がファッションに関する商品にも、DIY(日曜大工)に関する商品にもなり得ることを考慮して、強制語「長靴」に対しては、店舗カテゴリ又は店舗毎に異なる商品カテゴリが関連付けられている。すなわち、図9(a)では、日用品を扱う店舗の商品のカテゴリを判定する場合には、強制語「長靴」に対して一つの商品カテゴリ「DIY>ガーデン・DIY」が対応し、ファッションを扱う店舗の商品のカテゴリを判定する場合には、強制語「長靴」に対して一つの商品カテゴリ「ファッション>靴」が対応する。図9(b)についても、図9(a)の場合と同様に、店舗ID「S101」の店舗と店舗ID「S201」の店舗とで、強制語「長靴」に対応する商品カテゴリが異なっている。
このような辞書データベース23を前提とした辞書生成サーバ10の機能(図6参照)について説明する。以下では、第1実施形態と異なる判定部13の機能について特に説明する。
第1実施形態と同様に、判定部13は処理対象の名詞連続に対して、上記の条件1〜5を用いて商品カテゴリを特定する。そして、特定した商品カテゴリが一つのみであれば、判定部13は各店舗IDあるいは各店舗カテゴリにおいてその商品カテゴリが名詞連続から一意に導き出されるものであると判定する。そして、判定部13はその名詞連続と、その商品カテゴリと、店舗ID又は店舗カテゴリとのペアを登録部14に出力する。ここで、名詞連続及び特定した商品カテゴリに対応する店舗ID又は店舗カテゴリは、商品データベース22及び/又は店舗データベース21から取得すればよい。
一方、特定した商品カテゴリが複数であれば、判定部13は店舗データベース21及び商品データベース22を参照して、各商品カテゴリに対応する店舗ID又は店舗カテゴリを取得する。そして、判定部13は各商品カテゴリについて、名詞連続と、該商品カテゴリと、対応する店舗ID又は店舗カテゴリとのペアを登録部14に出力する。
次に、図10を用いて、本実施形態における辞書生成サーバ10の動作及び辞書生成方法について説明する。第1実施形態と異なる点は、ステップS14において、フィルタリングにより残った名詞連続及び商品カテゴリのペアが1以上見つかった場合の処理である。そのペアが1以上見つかった場合には(ステップS14;「1又は複数」)、判定部13はその名詞連続を強制語として認定する(ステップS15)。そして、登録部14が強制語と、一の商品カテゴリと、対応する店舗ID又は店舗カテゴリとのペアを辞書情報として辞書データベースに格納する(ステップS16)。本実施形態では、登録部14は一つの名詞連続について複数個の辞書情報を生成し得る。一方、商品カテゴリを一つも特定できなかった場合には(ステップS14;「0」)、判定部13はその名詞連続についての処理を終了する。
以上説明した第2実施形態によっても、第1実施形態と同様の効果を得ることができる。また、本実施形態では店舗の特性を考慮して辞書情報を設定することができる。
なお、一つの店舗が複数の店舗カテゴリを有している場合(一つの店舗IDで特定される一つの店舗情報が複数の店舗カテゴリを含んでいる場合)にも本実施形態を適用できる。例えば、図9に示す二つの店舗カテゴリ「日用品」「ファッション」を有する店舗があり、名詞連続「長靴」についての処理が行われたとする。この場合にも、上記条件1〜5のフィルタリングの結果次第で、強制語「長靴」に関する辞書情報がそれら二つの店舗カテゴリの双方について生成されるかもしれないし、それらの店舗カテゴリのどちらか一方についてのみ生成されるかもしれない。
(第3実施形態)
次に、図11,12を用いて第3実施形態を説明する。本実施形態では、辞書生成サーバ10は生成した辞書情報に基づいて商品情報の商品カテゴリを更新する。そして、辞書生成サーバ10は、更新後の商品データベース22を用いて更なる辞書情報の生成を試みる。すなわち、辞書生成サーバ10は、商品情報の商品カテゴリを正しいものに更新しながら、辞書情報を徐々に蓄積する。以下では、第1実施形態と同一又は同様の事項については説明を省略し、本実施形態特有の事項について特に説明する。
図11に示すように、辞書生成サーバ10は更に更新部15を備えている。更新部15は、生成された辞書情報に基づいて商品データベース22の商品情報を更新する手段である。更新部15は、今回生成された1以上の辞書情報のそれぞれについて、以下の処理を行う。
まず、更新部15は辞書情報で示される強制語を商品名に含み、且つ商品カテゴリがその辞書情報で示されるものと異なる商品情報を特定する。続いて、更新部15は特定した商品情報の商品カテゴリ(誤り又はノイズと推定される商品カテゴリ)を、その辞書情報で示されている商品カテゴリ(本来登録されるべき商品カテゴリ)で更新する。今回生成された辞書情報のすべてについての更新処理が完了すると、更新後の商品データベース22に基づいて、抽出部11から始まる一連の処理(辞書情報の生成及び商品データベースの更新)が繰り返される。
当該一連の処理が実行される度に、判定部13は、上記の条件2で用いられる閾値THb、すなわち店舗の集約度に関する閾値を徐々に下げて行く。例えば、判定部13は1巡目の処理ではTHb=1.0とし、2巡目以降はThbを所定の値ずつ(例えば、0.1ずつ、0.05ずつ)下げる。
コンピュータを本実施形態の辞書生成サーバ10として機能させるための辞書生成プログラムP1は図12の通りである。本実施形態では、辞書生成プログラムP1は更新モジュールP15を更に備える。更新モジュールP15を実行することにより実現される機能は上記更新部15の機能と同様である。
以上説明した第3実施形態によっても、第1実施形態と同様の効果を得ることができる。更に本実施形態では、店舗の集約度(CMF/MF)に関する閾値を徐々に下げながら、生成された辞書情報を用いて商品情報の商品カテゴリを正しいものに更新する処理が繰り返される。このように、確度の高い強制語から順に、辞書情報を生成して商品情報を整理するという一連の処理を繰り返すことで、辞書情報の精度をより向上させることができる。
繰り返し処理により辞書情報を生成する手法は第2実施形態にも同様に適用できる。この場合には、更新部15は一の辞書情報で示される強制語を商品名に含み、店舗IDがその辞書情報で示される店舗ID又は店舗カテゴリに対応し、且つ商品カテゴリがその辞書情報で示されるものと異なる商品情報について、商品カテゴリの更新を実行する。したがって、更新部15はこの特定処理において店舗データベース21を必要に応じて参照する。
(第4実施形態)
次に、図13〜16を用いて第4実施形態を説明する。本実施形態に係る辞書生成サーバ30は、商品名の一部として使われている語句がカテゴリ間でどのくらい重複するかという点も考慮して強制語を特定する。以下では、第1実施形態と同一又は同様の事項については説明を省略し、本実施形態特有の事項について特に説明する。
辞書生成サーバ30のハードウェア構成は図5に示すものと同じである。図13に示すように、辞書生成サーバ30は機能的構成要素として抽出部31、算出部32、第1判定部33、第2判定部34、及び登録部35を備えている。抽出部31、算出部32、及び登録部35の機能は第1実施形態における抽出部11、算出部12、及び登録部14の機能と同様であるので、以下では第1判定部33及び第2判定部34について特に説明する。
第1判定部33は、算出部32により特定された各商品カテゴリについての統計値に基づいて、一の商品カテゴリを一意に導く可能性がある名詞連続を候補語として判定する手段である。第1判定部33は名詞連続のそれぞれについて以下の処理を実行する。
第1判定部33は、上記の判定部13と同様に上記条件1〜5によるフィルタリングを行い、処理対象の名詞連続に対応する商品カテゴリを特定する。そして、特定した商品カテゴリが一つのみであれば、第1判定部33はその名詞連続を「候補語」とし、その商品カテゴリを「多数派カテゴリ」として認定する。そして、第1判定部33はその候補語及び多数派カテゴリのペアを第2判定部34に出力する。一方、特定した商品カテゴリが複数であれば、第1判定部33は名詞連続から一つの商品カテゴリを一意に導けない、すなわち、名詞連続を強制語として扱えないと判定して、第2判定部34へデータを出力することなく処理を終了する。商品カテゴリを一つも特定できなかった場合にも、第1判定部33は名詞連続を強制語として扱えないと判定する。
第2判定部34は、商品カテゴリ間の語句の重複度に基づいて、候補語を最終的に強制語とするか否かを判定する手段である。第2判定部34は各候補語について以下の処理を実行する。
まず、第2判定部34は候補語が商品名に含まれる商品情報を商品データベース22から読み出し、その商品情報で示されている1以上の商品カテゴリを特定する。特定した商品カテゴリには、多数派カテゴリ以外の商品カテゴリが含まれるが、第2判定部34は当該他の商品カテゴリを「少数派カテゴリ」と認定する。
続いて、第2判定部34は商品カテゴリのカテゴリ・ツリーの最上位(第1階層)から順に1階層ずつ下がりながら、多数派カテゴリと各少数派カテゴリとの間で名詞連続(候補語及びそれ以外の名詞連続)がどのくらい重複するかを判定する。すなわち、第2判定部は名詞連続の重複度を判定する。以下では、商品カテゴリの第N階層を「商品カテゴリ[N]」ともいう。
第1階層に対する第2判定部34の処理を説明する。例えば、候補語に対応する多数派カテゴリ[1]が「日本酒・焼酎」である一方で、「ビール・洋酒」、「レディス・ファッション」、「メンズ・ファッション」が少数派カテゴリ[1]として存在すると仮定する。
この場合に、第2判定部34は、多数派カテゴリ[1]に含まれるすべての商品の名詞連続の群と、少数派カテゴリ[1]に含まれる個々の商品の名詞連続の群とが重複する程度(重複度又は重複率)D=(A∩B)/|A|を算出する。なお、重複度Dを得るための式はこれに限定されない。この重複度Dは各少数派カテゴリ[1]の各商品について算出される。変数Aは、少数派カテゴリ[1]に属し且つ候補語が商品名に含まれる1商品の商品名から抽出した名詞連続の群を示す。変数Bは、多数派カテゴリ[1]に属し且つ候補語が商品名に含まれる全商品の商品名から抽出した名詞連続の群を示す。(A∩B)は、二つの群A,Bの双方に現われる名詞の個数である。|A|は、群Aを構成する名詞の個数である。
重複度Dが所定の閾値THf(例えばTHf=0.7)以上であれば、第2判定部34は、少数派カテゴリ[1]に属するその商品が当該少数派カテゴリ[1]ではなく多数派カテゴリ[1]に属するべきであると判定し、候補語をそのまま保持する。一方、重複度Dが閾値THf未満であれば、第2判定部34は、その商品が少数派カテゴリ[1]に属するべきである(すなわち、その商品について正しい商品カテゴリが設定されている)と判定する。この判定は、候補語が多数派カテゴリ[1]だけでなくその少数派カテゴリ[1]にも関連し得ることを意味する。したがって、第2判定部34は候補語を強制語として認定することなく、この候補語に関する処理を終了する。
ここで、重複度の計算例を示す。例えば、候補語をCWとして、群Aには候補語CWと、他の名詞連続w1,w2とが含まれているとする。一方、群Bには、候補語CWと、他の名詞連続w1,w2,w3,w4,w5,w6,w7,w8,w9とが含まれているとする。この場合には|A|=3である。一方、群Aに含まれる語句CW,w1,w2はすべて群Bにも存在するので、(A∩B)=3である。したがって、この場合の重複度Dは3/3=1.0である。閾値THfを0.7とすればD≧THfであるので、第2判定部34は、群Aに対応する商品が多数派カテゴリに属するべきであると判定し、候補語CWを保持し続ける。
これに対して、群Aには候補語CWと他の名詞連続w1,w10とが含まれており、群Bには候補語CWと他の名詞連続w1,w2,w3,w4,w5,w6,w7,w8,w9とが含まれているとする。この場合も|A|=3である。一方、群A,Bの双方に含まれる語句は二つ(CW及びw1)なので、(A∩B)=2である。したがって、この場合の重複度Dは2/3=0.66である。閾値THfを0.7とすればD<THfであるので、第2判定部34は、群Aに対応する商品がそのまま少数派カテゴリに属するべきであり、候補語CWは強制語ではないと判定する。
第2判定部34は各少数派カテゴリ[1]の各商品について重複度Dに基づく判定を行い、候補語を最後まで保持し続けることができていれば、第2判定部34は次に多数派カテゴリの第2階層について名詞連続の重複度を判定する。ここでは、候補語に対応する多数派カテゴリ[2]が「日本酒・焼酎>日本酒」である一方で、「日本酒・焼酎>焼酎」、「日本酒・焼酎>梅酒」、「日本酒・焼酎>その他」が少数派カテゴリ[2]として存在すると仮定する。
この場合に、第2判定部34は第1階層における処理と同様に、商品名に含まれている名詞連続が多数派カテゴリ[2]と少数派カテゴリ[2]との間で重複して用いられている程度(重複度)D=(A∩B)/|A|を算出する。この場合には、変数Aは、少数派カテゴリ[2]に属し且つ候補語が商品名に含まれる1商品の商品名から抽出した名詞連続の群である。また、変数Bは、多数派カテゴリ[2]に属し且つ候補語が商品名に含まれる全商品の商品名から抽出した名詞連続の群である。
第2判定部34は各少数派カテゴリ[2]の各商品について重複度D及び閾値THfに基づく判定を行う。そして、候補語を最後まで保持し続けることができていれば、第2判定部34は次に多数派カテゴリの第3階層について名詞連続の重複度を判定する。
一方、第2階層における判定処理の途中で、D<THfである商品が見つかった場合には、第2判定部34は、第2階層以下を考慮すると候補語を強制語として認定することはできない。しかし、第1階層においては候補語から多数派カテゴリ[1]を一意に特定できるので、第2判定部34は、その候補語を強制語として認定し、当該強制語と当該多数派カテゴリ[1]とのペアを登録部14に出力する。この場合には、第2判定部34は、リーフ・カテゴリに至るまでの途中のカテゴリ(上位又は中位のカテゴリ)を一意に導き出せる強制語を認定したことになる。
このように、少数派カテゴリには、ノイズであって多数派カテゴリに変更すべきものと、ノイズではなく多数派カテゴリに変えるべきでないものとがあり、第2判定部34は、処理している少数派カテゴリがどちらの場合に該当するかを個々の商品毎に比較する。第2判定部34は上述した処理を、場合によっては最下層の商品カテゴリ(リーフ・カテゴリ)まで繰り返し行うことで、候補語を強制語として扱えるか否かを判定する。第2判定部34の処理は以下のようにまとめることができる。
・多数派カテゴリ[N]に含まれるすべての商品の名詞連続の群と、各少数派カテゴリ[N]の各商品の名詞連続の群との間で名詞連続の重複度が高ければ、第2判定部34は多数派カテゴリ[N+1]での処理を行う。ただし、この場合に第N階層がリーフ・カテゴリであれば、第2判定部34は候補語をリーフ・カテゴリに対する強制語として認定する。
・第N階層において多数派カテゴリとの間で名詞連続の重複度が低い少数派カテゴリが存在すれば、第2判定部34は候補語を多数派カテゴリ[N−1]に対する強制語として認定する。ただし、この場合にN=1であれば、第2判定部34はその候補語を棄却する。あるいは、N=1である場合に第2判定部34はその候補語を不要語辞書に登録してもよい。
次に、図14,15を用いて、辞書生成サーバ30の動作を説明するとともに本実施形態に係る辞書生成方法について説明する。ただし、ステップS21〜24,S27の処理は第1実施形態(図7)におけるステップ11〜14,S17の処理と同様であるので、以下では、第1実施形態と異なるステップS25,S26の処理についてのみ説明する。
フィルタリングの結果、名詞連続に対して一の商品カテゴリのみを特定できた場合には(ステップS24;「1」)、判定部13はその名詞連続及び商品カテゴリをそれぞれ候補語及び多数派カテゴリとして認定する(ステップS25)。この場合には、多数派カテゴリと少数派カテゴリとの間の名詞連続の重複度を更に考慮して、強制語の判定と辞書情報の登録とが行われる(ステップS26)。
ステップS26の詳細は図15に示す通りである。まず、第2判定部34は候補語に対応する商品情報に基づいて少数派カテゴリ[N]を特定する(ステップS261)。なお、Nの初期値は1である。続いて、第2判定部34は多数派カテゴリ[N]に含まれるすべての商品の名詞連続の群と一の少数派カテゴリ[N]の一の商品との重複度D=(A∩B)/|A|を算出し(ステップS262)、その重複度が所定の閾値以上であれば(ステップS263;YES)、その候補語をそのまま保持しつつ(ステップS264)、比較対象となる更なる商品についてステップS262〜S264の処理を実行する(ステップS265参照)。各少数派カテゴリ[N]の各商品について処理した結果、候補語を保持し続けることができた場合には、第2判定部34は多数派カテゴリ[N]がリーフ・カテゴリであるか否かを判定する(ステップS266)。
多数派カテゴリ[N]がリーフ・カテゴリでなければ(ステップS266;NO)、第2判定部34は次の第(N+1)階層において上記ステップS261〜S265の処理を実行する(ステップS267)。多数派カテゴリ[N]がリーフ・カテゴリであれば(ステップS266;YES)、第2判定部34は候補語を強制語として認定し(ステップS268)、登録部35が該強制語と多数派カテゴリ[N]とのペアを辞書情報として辞書データベースに格納する(ステップS269)。
以上に対して、重複度が閾値未満である場合には(ステップS263;NO)、現在処理している階層に応じて処理が実行される。具体的には、第2階層若しくはそれ以下の階層において重複度を判定していたのであれば(ステップS270;YES)、第2判定部34は候補語を強制語として認定し(ステップS271)、登録部35が該候補語と多数派カテゴリ[N−1](すなわち、一つ上の階層のカテゴリ)とのペアを辞書情報として辞書データベースに格納する(ステップS272)。一方、第1階層において重複度を判定していたのであれば(ステップS270;NO)、第2判定部34は辞書情報を生成することなく処理を終了する。
次に、図16を用いて、コンピュータを辞書生成サーバ30として機能させるための辞書生成プログラムP2を説明する。
辞書生成プログラムP2は、メインモジュールP20、抽出モジュールP21、算出モジュールP22、第1判定モジュールP23、第2判定モジュールP24、及び登録モジュールP25を備えている。
メインモジュールP20は、辞書生成機能を統括的に制御する部分である。抽出モジュールP21、算出モジュールP22、第1判定モジュールP23、第2判定モジュールP24、及び登録モジュールP25を実行することにより実現される機能はそれぞれ、上記の抽出部31、算出部32、第1判定部33、第2判定部34、及び登録部35の機能と同様である。
辞書生成プログラムP2も、上記の辞書生成プログラムP1と同様に様々な方法で配布しうる。
以上説明した第4実施形態によっても、第1実施形態と同様の効果を得ることができる。加えて、本実施形態では、多数派カテゴリと少数派カテゴリとの間の語句の重複度に着目して、当該多数派カテゴリが強制語と関連付けられるか否かを判定することで、辞書情報の精度をより向上させることができる。より具体的には、カテゴリ・ツリーの最上位階層から順に1階層ずつ多数派カテゴリを確定させながら、強制語と関連付けられるべき商品カテゴリを探索されるので、当該商品カテゴリを的確に特定することができる。
(第5実施形態)
次に、図17を用いて第5実施形態を説明する。本実施形態は第4実施形態に第2実施形態の技術思想を取り込んだものであり、辞書生成サーバ30は、店舗又は店舗カテゴリも考慮して強制語を特定する。以下では、第4実施形態と同一又は同様の事項については説明を省略し、本実施形態特有の事項について特に説明する。
本実施形態では、同じ語句でも店舗又は店舗カテゴリにより異なる商品カテゴリに関連し得る点を考慮して、辞書データベース23(辞書情報)が第2実施形態(図9)と同様に構成される。
このような辞書データベース23を前提とした辞書生成サーバ30の機能について説明する。以下では、第3実施形態と異なる第2判定部34の機能について特に説明する。
まず、第2判定部34は候補語が商品名に含まれる商品情報を商品データベース22から読み出して少数派カテゴリを特定する。続いて、第2判定部34は商品カテゴリのカテゴリ・ツリーの最上位(第1階層)から順に1階層ずつ下がりながら、多数派カテゴリに含まれるすべての商品の名詞連続の群と、各少数派カテゴリの各商品との間で名詞連続の重複度を判定する。重複度Dが所定の閾値THf(例えばTHf=0.7)以上であれば、第2判定部34は、少数派カテゴリ[1]に属するその商品が当該少数派カテゴリ[1]ではなく多数派カテゴリ[1]に属するべきであると判定し、候補語をそのまま保持する。そして、第2判定部34は、この多数派カテゴリ[1]について以降の処理を更に進める。ここまでは第3実施形態と同様である。
一方、重複度Dが閾値THf未満であれば、第2判定部34は、その商品が少数派カテゴリ[1]に属するべきであると判定し、この少数派カテゴリ[1]の下位の階層において、多数派カテゴリについての処理と同様に、重複度に基づく判定を行う。
第2判定部34の処理は以下のようにまとめることができる。
・多数派カテゴリ[N]に含まれるすべての商品の名詞連続の群と、各少数派カテゴリ[N]の各商品の名詞連続の群との間で名詞連続の重複度が高ければ、第2判定部34は多数派カテゴリ[N+1]での処理を行う。ただし、この場合に第N階層がリーフ・カテゴリであれば、第2判定部34は候補語をリーフ・カテゴリに対する強制語として認定する(第4実施形態と同じ)。
・第N階層において多数派カテゴリとの間で名詞連続の重複度が低い少数派カテゴリが存在すれば、第2判定部34は候補語が当該少数派カテゴリの第N階層以下のいずれかに対する強制語にもなり得ると認定する。そして、第2判定部34は多数派カテゴリ及びその少数派カテゴリのそれぞれについて第(N+1)階層での処理を行う。
本実施形態における辞書生成サーバ10の動作及び辞書生成方法を図17に示す。第4実施形態と異なる点としてステップS269の処理、及びステップS263において重複度が閾値未満である場合の処理が挙げられる。
ステップS269では、第2判定部34は、ペアに対応する店舗ID又は店舗カテゴリを商品データベース22及び/又は店舗データベース21から取得して辞書情報を生成し、その辞書情報を辞書データベース23に格納する。
重複度が閾値未満である場合には(ステップS263;NO)、第2判定部34は多数派カテゴリ[N]及び少数派カテゴリ[N]のそれぞれについて、一つ下の階層において重複度に基づく判定を行い、登録部14が辞書情報を登録する(ステップS280)。
以上説明した第5実施形態によっても、第4実施形態と同様の効果を得ることができる。また、本実施形態では店舗の特性を考慮して辞書情報を設定することができる。
(第6実施形態)
次に、図18,19を用いて第6実施形態を説明する。本実施形態では、辞書生成サーバ30は商品情報の商品カテゴリを正しいと思われるものに更新しながら辞書情報を徐々に蓄積する。以下では、第4実施形態と同一又は同様の事項については説明を省略し、本実施形態特有の事項について特に説明する。
本実施形態では、辞書生成サーバ30は更に更新部36を備えている。更新部36は、生成された辞書情報に基づいて商品データベース22の商品情報を更新する手段である。更新部36は、今回生成された1以上の辞書情報のそれぞれについて以下の処理を行う。
まず、更新部36は一の辞書情報で示される強制語を商品名に含み、且つ商品カテゴリがその辞書情報で示されるものと異なる商品情報を商品データベース22内で特定する。続いて、更新部36は特定した商品情報の商品カテゴリ(誤り又はノイズと推定される商品カテゴリ)を、その辞書情報で示されている商品カテゴリ(本来登録されるべき正しい商品カテゴリ)で更新する。今回生成された辞書情報のすべてについての更新処理が完了すると、更新後の商品データベース22に基づいて、抽出部31から始まる一連の処理(辞書情報の生成及び商品データベースの更新)が繰り返される。このように、更新部36の機能は第3実施形態における更新部15の機能と同様である。
当該一連の処理が実行される度に、第1判定部33は、上記の条件2で用いられる閾値THb、すなわち店舗の集約度に関する閾値を徐々に下げて行く。例えば、第1判定部33は1巡目の処理ではTHb=1.0とし、2巡目以降はThbを所定の値ずつ(例えば、0.1ずつ、0.05ずつ)下げる。
コンピュータを本実施形態の辞書生成サーバ30として機能させるための辞書生成プログラムP2は図19の通りである。本実施形態では、辞書生成プログラムP2は更新モジュールP26を更に備える。更新モジュールP26を実行することにより実現される機能は上記更新部36の機能と同様である。
以上説明した第6実施形態によっても、第4実施形態と同様の効果を得ることができる。更に本実施形態では、店舗の集約度(CMF/MF)に関する閾値を徐々に下げながら、生成された辞書情報を用いて商品情報の商品カテゴリを正しいものに更新する処理が繰り返される。このように、確度の高い強制語から順に、辞書情報を生成して商品情報を整理するという一連の処理を繰り返すことで、辞書情報の精度をより向上させることができる。
商品データベース22を用いた繰り返し処理により辞書情報を生成する手法は、第5実施形態についても同様に適用できる。この場合には、更新部36は一の辞書情報で示される強制語を商品名に含み、店舗IDがその辞書情報で示される店舗ID又は店舗カテゴリに対応し、且つ商品カテゴリがその辞書情報で示されるものと異なる商品情報を商品データベース22内で特定する。したがって、更新部36はこの特定処理において店舗データベース21を必要に応じて参照する。
(第7実施形態)
次に、図20〜22を用いて第7実施形態を説明する。本実施形態では、辞書生成サーバ10Aが名詞連続を第1種強制語、第2種強制語、参考語、又は不要語のいずれかに設定する。以下では、第1実施形態と同一又は同様の事項については説明を省略し、本実施形態特有の事項について特に説明する。
第1種強制語は、一の商品カテゴリを一意に特定する語句であり、上記第1〜第6実施形態における「強制語」に相当する。第2種強制語は、第1種強制語よりも商品カテゴリの強制力が弱い語句である。参考語は、第2種強制語よりも商品カテゴリの強制力が弱い語句である。
本実施形態で生成される辞書情報を用いる場合には、商品カテゴリは以下のように設定され得る。ある商品が、第1種強制語に対応する商品カテゴリに属すると判定された場合には、その商品は必ずその商品カテゴリに関連付けられ、店舗側でこの関連付けを変更することはできない。ある商品が、第2種強制語に対応する商品カテゴリに属すると判定された場合には、店舗は条件付きで(例えば、ECサイトの管理者の承認を得ることを条件に)、判定されたものとは別の商品カテゴリにその商品を関連付けることができる。ある商品が、参考語に対応する商品カテゴリに属すると判定された場合には、店舗は無条件で、判定されたものとは別の商品カテゴリにその商品を関連付けることができる。もちろん、各店舗は商品を第2種強制語又は参考語に対応する商品カテゴリと関連付けることもできる。
一つの語句が複数の商品カテゴリにおいて第2種強制語になる場合もあるし、一つの語句が複数の商品カテゴリにおいて参考語になる場合もある。また、一つの語句がある商品カテゴリにおいて第2種強制語となり且つ別の商品カテゴリにおいて参考語となる場合もある。しかし、一つの第1種強制語が他の商品カテゴリにおいて第1種強制語、第2種強制語、及び参考語になることは無い。不要語は上記条件4で示される除外対象の語句であり、一つの不要語が第1種強制語、第2種強制語、又は参考語を兼ねることは無い。
辞書生成サーバ10Aのハードウェア構成は第1実施形態におけるものと同様である(図5参照)。図20に示すように、辞書生成サーバ10Aは、判定部13に代えて判定部13Aを備える点で、第1実施形態における辞書生成サーバ10と異なる。
判定部13Aは、算出部12により特定された各商品カテゴリについての統計値に基づいて、その名詞連続が第1種強制語、第2種強制語、参考語、及び不要語のいずれに該当するかを判定する手段である。
本実施形態では、判定部13Aは第1実施形態における下記条件1,2を用いる。第1閾値THb及び第2閾値THaの値が任意に設定可能であることは第1実施形態と同様である。本実施形態では、名詞連続が条件1を満たす場合にはその名詞連続は全体でピーク(peak)に達していると定義する。また、ある一つの商品カテゴリについて名詞連続が条件2を満たす場合にはその名詞連続は該商品カテゴリにおいてピークに達していると定義する。
(条件1)MF>THa
(条件2)CMF/MF>THb
図21を用いて判定部13Aの機能及び動作を説明する。第1実施形態と同様にステップS11,S12の処理が実行された後、判定部13Aは各名詞連続について処理を実行する。
判定部13Aは条件2を用いて、一の名詞連続が一以上の商品カテゴリにおいてピークに達しているか否かを判定する(ステップS31)。その名詞連続が一つの商品カテゴリにおいてのみピークに達していれば(ステップS31;1)、判定部13Aはその名詞連続がその商品カテゴリにおける第1種強制語であると判定する(ステップS32)。そして、登録部14がその名詞連続、商品カテゴリ、及び種別を関連付けて辞書情報を生成し、その辞書情報を辞書データベース23に格納する(ステップS32)。なお、種別とは、第1種強制語、第2種強制語、参考語、及び不要語のうちのいずれかである。
名詞連続が複数の商品カテゴリにおいてピークに達していれば(ステップS31;複数)、判定部13Aは、該複数の商品カテゴリをピークカテゴリとして判定し、その名詞連続がピークカテゴリを除いた残りのカテゴリの全体でピークか否かを更に判定する(ステップS33)。この判定のために、判定部13Aは追加の条件「MpF>閾値THx」を用いる。ここで、Mpfは下記式で求まる。THx(第2閾値)は任意の基準により定めてよい。
MpF=MF−(各ピークカテゴリのCMFの総和)
その名詞連続が残りのカテゴリ全体でピークでない(すなわち、MpF≦THx)場合には(ステップS33;NO)、判定部13Aはその名詞連続がピークである商品カテゴリ(以下では「ピークカテゴリ」とも言う)の個数と各ピークカテゴリでの店舗集約度(CMF/MF)とに基づいて種別を設定する(ステップS34)。このステップS34では、名詞連続は第2種強制語又は参考語に分類される。そして、登録部14がその名詞連続、商品カテゴリ、及び種別を関連付けて辞書情報を生成し、その辞書情報を辞書データベース23に格納する(ステップS34)。
種別の決定方法は限定されない。例えば、判定部13Aは、ピークカテゴリの個数が閾値(例えば3や5など)未満であり且つ各ピークカテゴリでの店舗集約度が等しければ、その名詞連続が各ピークカテゴリにおいて第2種強制語であると判定してもよい。また、ピークカテゴリの個数がその閾値以上であり且つ各ピークカテゴリでの店舗集約度(CMF/MF)が等しければ、その名詞連続が各ピークカテゴリにおいて参考語であると判定してもよい。
あるいは、判定部13Aは店舗集約度(CMF/MF)が最も高いピークカテゴリではその名詞連続が第2種強制語であり、他のピークカテゴリではその名詞連続が参考語であると判定してもよい。
あるいは、判定部13Aは第2種強制語と参考語とを区分けするための更なる閾値THy(THy>THb)を用いる。そして判定部13Aは、あるピークカテゴリでの店舗集約度(CMF/MF)がその閾値THyより大きければ名詞連続がそのピークカテゴリにおいて第2種強制語であり、その店舗集約度が閾値THy以下であれば名詞連続がそのピークカテゴリにおいて参考語であると判定してもよい。
名詞連続が残りのカテゴリ全体でピークである(すなわち、MpF>THx)場合には(ステップS33;YES)、判定部13Aはその名詞連続が不要語であると判定する(ステップS35)。そして、登録部14がその名詞連続、商品カテゴリ、及び種別を関連付けて辞書情報を生成し、その辞書情報を辞書データベース23に格納する(ステップS35)。
名詞連続がどの商品カテゴリにおいてもピークに達していなければ(ステップS31;0)、判定部13Aはその名詞連続が全体でピークであるか否かを判定する(ステップS36)。そして、その名詞連続が全体でピークであれば(ステップS36;YES)、判定部13Aはその名詞連続が不要語であると判定し、登録部14がその名詞連続を不要語として辞書データベース23に格納する(ステップS35)。一方、その名詞連続が全体でピークでなければ(ステップS36;NO)、判定部13Aはその名詞連続を辞書情報生成の対象外とする(ステップS37)。
判定部13A及び登録部14によるステップS31〜S37の処理は、一の商品情報から抽出されたすべての名詞連続に対して実行される(ステップS38参照)。
このように、ある名詞連続が一部のカテゴリでのみピークであれば、その名詞連続はそのカテゴリにおける第1種強制語、第2種強制語又は参考語として登録される。一方、ある名詞連続が商品カテゴリ全体においてピークであると判定された場合には、その名詞連続は第1種強制語、第2種強制語又は参考語として登録されない。
本実施形態において辞書データベース23に格納される辞書情報は、各語句(名詞連続)がどの商品カテゴリにおいて第1種強制語、第2種強制語、参考語、又は不要語として設定されているかを示す情報である。その辞書情報の例を図22に示す。
この第7実施形態においても第1実施形態と同様の効果を得ることができる。加えて、本実施形態では名詞連続を第1種及び第2種の強制語と、参考語と、不要語という4種類に分類することができるので、より細かい辞書情報を生成することができる。
本実施形態において、不要語は辞書データベース23とは別の不要語辞書に格納してもよい。また、不要語の登録は省略可能であり、その場合には、上記ステップS33,S35,S36の処理が省略される。
以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
言葉の表記揺れ(一つの言葉に対して複数の表記が存在すること)を吸収するために、表記の揺れに関する情報を記憶するデータベース(表記辞書)を用いてもよい。例えば、英単語「interface」を日本語表記すると「インタフェース(intafe-su)」「インターフェイス(inta-feisu)」といった表記揺れが生じ得る。そこで、抽出部、算出部、(第1及び第2)判定部は表記辞書を参照して名詞連続の表記揺れを吸収した上で処理を行ってもよい。また、登録部は強制語として認定された名詞連続だけでなく、当該名詞連続の表記揺れも含む辞書情報を辞書データベース23に登録してもよい。これにより表記揺れを吸収できる。
上記第1及び第4実施形態では強制語として認定されない名詞連続は棄却されたが、登録部14は、この名詞連続に対応する複数の商品カテゴリを推薦カテゴリとして、強制語辞書とは別のデータベース(推薦辞書)に登録してもよい。この場合には、推薦情報は当該名詞連続及び商品カテゴリが関連付けられた情報であり、一の名詞連続に対して複数のレコードが生成される。このような推薦情報により商品カテゴリの選択の幅を広げることができる。例えば、店舗での商品登録時にこの推薦辞書を提示することで、店舗における商品カテゴリの選択の手間をいくらか減らすことができる。
上記各実施形態では辞書生成サーバをECサーバとは別に設けたが、これら二つのサーバを統合してもよい。
以上の説明から、本発明を以下のように規定することができる。
商品データベースから読み出した商品情報の商品名から名詞又は名詞の連続を名詞連続として抽出する抽出部であって、前記商品情報が、前記商品名と、商品カテゴリと、商品の取扱店舗とを含む、該抽出部と、
前記商品データベースを参照して、前記名詞連続が前記商品名に含まれる商品情報で指定されている1以上の商品カテゴリを特定し、特定した各商品カテゴリについて、該商品カテゴリを指定した店舗数を算出する算出部と、
前記特定された各商品カテゴリについての店舗の集約度を前記店舗数に基づいて算出し、各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、
前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部と
を備える辞書生成装置。
前記算出部が、前記特定した各商品カテゴリについて前記名詞連続の出現回数を算出し、
前記判定部が、前記特定された各商品カテゴリについての名詞連続の集約度を前記出現回数に基づいて算出し、各商品カテゴリについての前記店舗の集約度及び前記名詞連続の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定する、
項1に記載の辞書生成装置。
前記算出部が、前記特定した各商品カテゴリについて、該商品カテゴリに対応する商品数を算出し、
前記判定部が、前記特定された各商品カテゴリについての商品の集約度を前記商品数に基づいて算出し、各商品カテゴリについての前記店舗の集約度及び前記商品の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定する、
項1に記載の辞書生成装置。
前記算出部が、前記商品名に前記名詞連続を含む商品情報を登録した総店舗数を算出し、
前記判定部が、前記総店舗数が所定の閾値以下である場合には、前記名詞連続を前記強制語として判定しない、
項1〜3のいずれか一項に記載の辞書生成装置。
前記判定部が、不要語を記憶する不要語辞書を参照して、前記名詞連続が前記不要語と一致する場合には、前記名詞連続を前記強制語として判定しない、
項1〜4のいずれか一項に記載の辞書生成装置。
前記判定部が、前記店舗の集約度が最も高い商品カテゴリを多数派カテゴリとして特定するとともに該集約度が該多数派カテゴリよりも低い商品カテゴリを少数派カテゴリとして特定し、該少数派カテゴリの商品名と該多数派カテゴリの商品名との間の語句の重複度を算出し、該重複度が所定の閾値以上である場合に、該多数派カテゴリが前記名詞連続から一意に導かれる商品カテゴリであると判定する、
項1〜5のいずれか一項に記載の辞書生成装置。
前記判定部が、前記多数派カテゴリ及び前記少数派カテゴリの第N階層において前記重複度が前記所定の閾値以上である場合には、該多数派カテゴリの第N階層が前記名詞連続から一意に導かれると判定して、該多数派カテゴリの第(N+1)階層において、前記多数派カテゴリ及び少数派カテゴリの特定と、前記重複度の算出と、該重複度に基づく判定とを繰り返し、ここで、Nは1以上である、
項6に記載の辞書生成装置。
前記辞書情報で示される前記強制語を商品名に含む前記商品情報の商品カテゴリを、該辞書情報で示される商品カテゴリに更新する更新部を更に備え、
前記更新部により前記商品情報が更新された後に、前記抽出部、前記算出部、前記判定部、前記登録部、及び前記更新部による処理が繰り返し実行され、
前記判定部が、前記店舗の集約度に関する閾値を前回の判定処理で用いられた値よりも小さく設定した上で、前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定する、
項1〜7のいずれか一項に記載の辞書生成装置。
前記抽出部が、形態素解析により前記商品名から前記名詞連続を抽出する、
項1〜8のいずれか一項に記載の辞書生成装置。
前記抽出部が、前記名詞連続の抽出範囲を示す商品名の記載ルールを記憶するルール辞書を参照して、前記商品名から前記名詞連続を抽出する、
項1〜8のいずれか一項に記載の辞書生成装置。
前記抽出部が、不要語を記憶する不要語辞書を参照して、前記商品名から前記不要語以外の語句を抽出し、抽出された語句から前記名詞連続を抽出する、
項1〜8のいずれか一項に記載の辞書生成装置。
前記登録部が、前記名詞連続と、前記特定された商品カテゴリのうち前記一意に導かれる商品カテゴリ以外の商品カテゴリとが関連付けられた推薦情報を別の辞書データベースに格納する、
項1〜11のいずれか一項に記載の辞書生成装置。
前記判定部が、前記各商品カテゴリについての店舗の集約度に基づいて、前記名詞連続と店舗又は店舗カテゴリとの組から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定し、
前記登録部が、前記強制語と、前記店舗又は店舗カテゴリと、前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を前記辞書データベースに格納する、
項1〜12のいずれか一項に記載の辞書生成装置。
前記抽出部が、表記の揺れに関する情報を記憶する表記辞書を参照して前記商品名から前記名詞連続を抽出する、
項1〜13のいずれか一項に記載の辞書生成装置。
前記登録部が、表記の揺れに関する情報を記憶する表記辞書を参照して前記強制語に対応する語句を抽出し、該強制語と、該対応する語句と、前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を前記辞書データベースに格納する、
項1〜14のいずれか一項に記載の辞書生成装置。
前記判定部が、
前記店舗の集約度が第1閾値より大きい商品カテゴリが一つのみ存在する場合には、前記名詞連続から一意に導かれる一の商品カテゴリが存在すると判定して、該名詞連続を該商品カテゴリの第1種強制語として判定し、
前記店舗の集約度が前記第1閾値より大きい商品カテゴリが複数存在する場合には、該複数の商品カテゴリのそれぞれについて、該名詞連続が、前記第1種強制語よりも商品カテゴリの強制力が弱い第2種強制語、又は前記第2種強制語よりも商品カテゴリの強制力が弱い参考語であると判定し、
前記登録部が、前記第1種強制語、前記第2種強制語又は前記参考語と前記商品カテゴリとが関連付けられた辞書情報を前記辞書データベースに格納する、
項1に記載の辞書生成装置。
前記判定部が、
前記店舗の集約度が前記第1閾値より大きい商品カテゴリの個数が1でない場合に、該商品カテゴリを除いた残りのカテゴリにおける前記名詞連続の登録店舗数が第2閾値より大きいか否かを判定し、
前記登録店舗数が前記第2閾値より大きい場合には、前記名詞連続が不要語であると判定し、
前記登録部が前記不要語を所定のデータベースに格納する、
項16に記載の辞書生成装置。
辞書生成装置により実行される辞書生成方法であって、
商品データベースから読み出した商品情報の商品名から名詞又は名詞の連続を名詞連続として抽出する抽出ステップであって、前記商品情報が、前記商品名と、商品カテゴリと、商品の取扱店舗とを含む、該抽出ステップと、
前記商品データベースを参照して、前記名詞連続が前記商品名に含まれる商品情報で指定されている1以上の商品カテゴリを特定し、特定した各商品カテゴリについて、該商品カテゴリを指定した店舗数を算出する算出ステップと、
前記特定された各商品カテゴリについての店舗の集約度を前記店舗数に基づいて算出し、各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定ステップと、
前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録ステップと
を含む辞書生成方法。
商品データベースから読み出した商品情報の商品名から名詞又は名詞の連続を名詞連続として抽出する抽出部であって、前記商品情報が、前記商品名と、商品カテゴリと、商品の取扱店舗とを含む、該抽出部と、
前記商品データベースを参照して、前記名詞連続が前記商品名に含まれる商品情報で指定されている1以上の商品カテゴリを特定し、特定した各商品カテゴリについて、該商品カテゴリを指定した店舗数を算出する算出部と、
前記特定された各商品カテゴリについての店舗の集約度を前記店舗数に基づいて算出し、各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、
前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部と
をコンピュータに実行させる辞書生成プログラム。
商品データベースから読み出した商品情報の商品名から名詞又は名詞の連続を名詞連続として抽出する抽出部であって、前記商品情報が、前記商品名と、商品カテゴリと、商品の取扱店舗とを含む、該抽出部と、
前記商品データベースを参照して、前記名詞連続が前記商品名に含まれる商品情報で指定されている1以上の商品カテゴリを特定し、特定した各商品カテゴリについて、該商品カテゴリを指定した店舗数を算出する算出部と、
前記特定された各商品カテゴリについての店舗の集約度を前記店舗数に基づいて算出し、各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、
前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部と
をコンピュータに実行させる辞書生成プログラムを記憶するコンピュータ読取可能な記録媒体。
10,10A…辞書生成サーバ、11…抽出部、12…算出部、13,13A…判定部、14…登録部、15…更新部、20…データベース群、21…店舗データベース、22…商品データベース、23…辞書データベース、30…辞書生成サーバ、31…抽出部、32…算出部、33…第1判定部、34…第2判定部、35…登録部、36…更新部、90…ECサーバ、P1…辞書生成プログラム、P10…メインモジュール、P11…抽出モジュール、P12…算出モジュール、P13…判定モジュール、P14…登録モジュール、P15…更新モジュール、P2…辞書生成プログラム、P20…メインモジュール、P21…抽出モジュール、P22…算出モジュール、P23…判定モジュール、P24…判定モジュール、P25…登録モジュール、P26…更新モジュール、Ts…店舗端末、Tu…ユーザ端末。

Claims (20)

  1. (A)名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び/又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの前記商品名及び/又は商品説明に含まれる前記名詞連続が前記商品カテゴリと対応して設定されているか否かを判定し、(B)前記商品カテゴリと対応して設定されている前記名詞連続を含むレコード中の前記取扱店舗の数をその商品カテゴリごとに計数して、前記商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、前記計数した取扱店舗の数に基づいて算出し、(C)各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、(D)該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、
    前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部と
    を備える辞書生成装置。
  2. 前記判定部が、各商品カテゴリについて前記名詞連続の出現回数を算出し、各商品カテゴリについての名詞連続の集約度を前記出現回数に基づいて算出し、各商品カテゴリについての前記店舗の集約度及び前記名詞連続の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定する、
    請求項1に記載の辞書生成装置。
  3. 前記判定部が、各商品カテゴリについて、該商品カテゴリに対応する商品数を算出し、各商品カテゴリについての商品の集約度を前記商品数に基づいて算出し、各商品カテゴリについての前記店舗の集約度及び前記商品の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定する、
    請求項1に記載の辞書生成装置。
  4. 前記判定部が、前記商品名に前記名詞連続を含む商品情報を登録した総店舗数を算出し、前記総店舗数が所定の閾値以下である場合には、前記名詞連続を前記強制語として判定しない、
    請求項1〜3のいずれか一項に記載の辞書生成装置。
  5. 前記判定部が、不要語を記憶する不要語辞書を参照して、前記名詞連続が前記不要語と一致する場合には、前記名詞連続を前記強制語として判定しない、
    請求項1〜4のいずれか一項に記載の辞書生成装置。
  6. 前記判定部が、前記店舗の集約度が最も高い商品カテゴリを多数派カテゴリとして特定するとともに該集約度が該多数派カテゴリよりも低い商品カテゴリを少数派カテゴリとして特定し、該少数派カテゴリの商品名と該多数派カテゴリの商品名との間の語句の重複度を算出し、該重複度が所定の閾値以上である場合に、該多数派カテゴリが前記名詞連続から一意に導かれる商品カテゴリであると判定する、
    請求項1〜5のいずれか一項に記載の辞書生成装置。
  7. 前記判定部が、前記多数派カテゴリ及び前記少数派カテゴリの第N階層において前記重複度が前記所定の閾値以上である場合には、該多数派カテゴリの第N階層が前記名詞連続から一意に導かれると判定して、該多数派カテゴリの第(N+1)階層において、前記多数派カテゴリ及び少数派カテゴリの特定と、前記重複度の算出と、該重複度に基づく判定とを繰り返し、ここで、Nは1以上である、
    請求項6に記載の辞書生成装置。
  8. 前記辞書情報で示される前記強制語を商品名に含む商品情報の商品カテゴリを、該辞書情報で示される商品カテゴリに更新する更新部を更に備え、
    前記更新部により前記商品情報が更新された後に、前記判定部、前記登録部、及び前記更新部による処理が繰り返し実行され、
    前記判定部が、前記店舗の集約度に関する閾値を前回の判定処理で用いられた値よりも小さく設定した上で、前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定する、
    請求項1〜7のいずれか一項に記載の辞書生成装置。
  9. 前記判定部が、形態素解析により前記商品名から前記名詞連続を抽出する、
    請求項1〜8のいずれか一項に記載の辞書生成装置。
  10. 前記判定部が、前記名詞連続の抽出範囲を示す商品名の記載ルールを記憶するルール辞書を参照して、前記商品名から前記名詞連続を抽出する、
    請求項1〜8のいずれか一項に記載の辞書生成装置。
  11. 前記判定部が、不要語を記憶する不要語辞書を参照して、前記商品名から前記不要語以外の語句を抽出し、抽出された語句から前記名詞連続を抽出する、
    請求項1〜8のいずれか一項に記載の辞書生成装置。
  12. 前記登録部が、前記名詞連続と、前記商品カテゴリのうち前記一意に導かれる商品カテゴリ以外の商品カテゴリとが関連付けられた推薦情報を別の辞書データベースに格納する、
    請求項1〜11のいずれか一項に記載の辞書生成装置。
  13. 前記判定部が、前記各商品カテゴリについての店舗の集約度に基づいて、前記名詞連続と店舗又は店舗カテゴリとの組から一意に導かれる一の商品カテゴリが存在するか否かを判定し、該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定し、
    前記登録部が、前記強制語と、前記店舗又は店舗カテゴリと、前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を前記辞書データベースに格納する、
    請求項1〜12のいずれか一項に記載の辞書生成装置。
  14. 前記判定部が、表記の揺れに関する情報を記憶する表記辞書を参照して前記商品名から前記名詞連続を抽出する、
    請求項1〜13のいずれか一項に記載の辞書生成装置。
  15. 前記登録部が、表記の揺れに関する情報を記憶する表記辞書を参照して前記強制語に対応する語句を抽出し、該強制語と、該対応する語句と、前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を前記辞書データベースに格納する、
    請求項1〜14のいずれか一項に記載の辞書生成装置。
  16. 前記判定部が、
    前記店舗の集約度が第1閾値より大きい商品カテゴリが一つのみ存在する場合には、前記名詞連続から一意に導かれる一の商品カテゴリが存在すると判定して、該名詞連続を該商品カテゴリの第1種強制語として判定し、
    前記店舗の集約度が前記第1閾値より大きい商品カテゴリが複数存在する場合には、該複数の商品カテゴリのそれぞれについて、該名詞連続が、前記第1種強制語よりも商品カテゴリの強制力が弱い第2種強制語、又は前記第2種強制語よりも商品カテゴリの強制力が弱い参考語であると判定し、
    前記登録部が、前記第1種強制語、前記第2種強制語又は前記参考語と前記商品カテゴリとが関連付けられた辞書情報を前記辞書データベースに格納する、
    請求項1に記載の辞書生成装置。
  17. 前記判定部が、
    前記店舗の集約度が前記第1閾値より大きい商品カテゴリの個数が1でない場合に、該商品カテゴリを除いた残りのカテゴリにおける前記名詞連続の登録店舗数が第2閾値より大きいか否かを判定し、
    前記登録店舗数が前記第2閾値より大きい場合には、前記名詞連続が不要語であると判定し、
    前記登録部が前記不要語を所定のデータベースに格納する、
    請求項16に記載の辞書生成装置。
  18. 辞書生成装置により実行される辞書生成方法であって、
    (A)名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び/又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの前記商品名及び/又は商品説明に含まれる前記名詞連続が前記商品カテゴリと対応して設定されているか否かを判定し、(B)前記商品カテゴリと対応して設定されている前記名詞連続を含むレコード中の前記取扱店舗の数をその商品カテゴリごとに計数して、前記商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、前記計数した取扱店舗の数に基づいて算出し、(C)各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、(D)該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定ステップと、
    前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録ステップと
    を含む辞書生成方法。
  19. (A)名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び/又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの前記商品名及び/又は商品説明に含まれる前記名詞連続が前記商品カテゴリと対応して設定されているか否かを判定し、(B)前記商品カテゴリと対応して設定されている前記名詞連続を含むレコード中の前記取扱店舗の数をその商品カテゴリごとに計数して、前記商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、前記計数した取扱店舗の数に基づいて算出し、(C)各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、(D)該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、
    前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部と
    をコンピュータに実行させる辞書生成プログラム。
  20. (A)名詞、名詞句又はそれらの連続である名詞連続を含む商品名及び/又は商品説明と、商品カテゴリと、当該商品の取扱店舗とをフィールドとして含む複数のレコードを記憶する商品データベースを参照して、各レコードの前記商品名及び/又は商品説明に含まれる前記名詞連続が前記商品カテゴリと対応して設定されているか否かを判定し、(B)前記商品カテゴリと対応して設定されている前記名詞連続を含むレコード中の前記取扱店舗の数をその商品カテゴリごとに計数して、前記商品カテゴリと対応して設定されている各名詞連続の店舗の集約度を、前記計数した取扱店舗の数に基づいて算出し、(C)各商品カテゴリについての前記店舗の集約度に基づいて、前記名詞連続から一意に導かれる一の商品カテゴリが存在するか否かを判定し、(D)該一の商品カテゴリが存在する場合に該名詞連続を強制語として判定する判定部と、
    前記強制語と前記一意に導かれる商品カテゴリとが関連付けられた辞書情報を辞書データベースに格納する登録部と
    をコンピュータに実行させる辞書生成プログラムを記憶するコンピュータ読取可能な記録媒体。
JP2013558750A 2012-02-15 2013-02-15 辞書生成装置、辞書生成方法、辞書生成プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体 Active JP5567749B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261598976P 2012-02-15 2012-02-15
US61/598976 2012-02-15
PCT/JP2013/053695 WO2013122205A1 (ja) 2012-02-15 2013-02-15 辞書生成装置、辞書生成方法、辞書生成プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体

Publications (2)

Publication Number Publication Date
JP5567749B2 true JP5567749B2 (ja) 2014-08-06
JPWO2013122205A1 JPWO2013122205A1 (ja) 2015-05-18

Family

ID=48984314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013558750A Active JP5567749B2 (ja) 2012-02-15 2013-02-15 辞書生成装置、辞書生成方法、辞書生成プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体

Country Status (4)

Country Link
US (1) US9430793B2 (ja)
EP (1) EP2816491A4 (ja)
JP (1) JP5567749B2 (ja)
WO (1) WO2013122205A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016186475A1 (ko) * 2015-05-21 2016-11-24 홍성민 사전 데이터 관리 방법 및 그 방법을 수행하는 장치

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150088493A1 (en) * 2013-09-20 2015-03-26 Amazon Technologies, Inc. Providing descriptive information associated with objects
DE102018133449A1 (de) 2018-12-21 2020-06-25 Tracoe Medical Gmbh Einführhilfe für Tracheostomiekanülen
CN110032663B (zh) * 2019-03-28 2021-01-01 广州越秀金融科技有限公司 信息配置方法、装置,存储介质和处理器
CN111192128B (zh) * 2019-12-30 2023-06-02 航天信息股份有限公司 识别异常纳税行为的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005190284A (ja) * 2003-12-26 2005-07-14 Nec Corp 情報分類装置および情報分類方法
WO2011105606A1 (ja) * 2010-02-26 2011-09-01 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用のプログラム、および、記録媒体

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794050A (en) * 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6260008B1 (en) * 1998-01-08 2001-07-10 Sharp Kabushiki Kaisha Method of and system for disambiguating syntactic word multiples
US6446061B1 (en) * 1998-07-31 2002-09-03 International Business Machines Corporation Taxonomy generation for document collections
AU2001271891A1 (en) * 2000-07-07 2002-01-21 Criticalpoint Software Corporation Methods and system for generating and searching ontology databases
US7376620B2 (en) * 2001-07-23 2008-05-20 Consona Crm Inc. System and method for measuring the quality of information retrieval
US7526425B2 (en) * 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
US20030061028A1 (en) * 2001-09-21 2003-03-27 Knumi Inc. Tool for automatically mapping multimedia annotations to ontologies
US20030084066A1 (en) * 2001-10-31 2003-05-01 Waterman Scott A. Device and method for assisting knowledge engineer in associating intelligence with content
US7085771B2 (en) * 2002-05-17 2006-08-01 Verity, Inc System and method for automatically discovering a hierarchy of concepts from a corpus of documents
JP3891909B2 (ja) * 2002-09-03 2007-03-14 日本アイ・ビー・エム株式会社 情報検索支援システム、アプリケーションサーバ、情報検索方法、およびプログラム
US7676462B2 (en) * 2002-12-19 2010-03-09 International Business Machines Corporation Method, apparatus, and program for refining search criteria through focusing word definition
CN1290036C (zh) * 2002-12-30 2006-12-13 国际商业机器公司 根据机器可读词典建立概念知识的计算机系统及方法
AU2003278975A1 (en) * 2003-09-26 2005-05-11 Catherine V. Gardner Virtual shopping system
US8868405B2 (en) * 2004-01-27 2014-10-21 Hewlett-Packard Development Company, L. P. System and method for comparative analysis of textual documents
US20050198026A1 (en) * 2004-02-03 2005-09-08 Dehlinger Peter J. Code, system, and method for generating concepts
WO2005111860A1 (en) * 2004-05-13 2005-11-24 Robert John Rogers A system and method for retrieving information and a system and method for storing information
US20060074632A1 (en) * 2004-09-30 2006-04-06 Nanavati Amit A Ontology-based term disambiguation
US8126890B2 (en) * 2004-12-21 2012-02-28 Make Sence, Inc. Techniques for knowledge discovery by constructing knowledge correlations using concepts or terms
US7272597B2 (en) * 2004-12-29 2007-09-18 Aol Llc Domain expert search
US20070106499A1 (en) * 2005-08-09 2007-05-10 Kathleen Dahlgren Natural language search system
JP2007264747A (ja) 2006-03-27 2007-10-11 Casio Comput Co Ltd 商品取引システムおよび商品検索方法
US7752243B2 (en) * 2006-06-06 2010-07-06 University Of Regina Method and apparatus for construction and use of concept knowledge base
US20100076979A1 (en) * 2008-09-05 2010-03-25 Xuejun Wang Performing search query dimensional analysis on heterogeneous structured data based on relative density
CA2760624C (en) 2010-12-07 2015-04-07 Rakuten, Inc. Server, dictionary creation method, dictionary creation program, and computer-readable recording medium recording the program
JP4828653B1 (ja) * 2010-12-07 2011-11-30 楽天株式会社 サーバ、辞書生成方法、辞書生成プログラム、及びそのプログラムを記録するコンピュータ読み取り可能な記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005190284A (ja) * 2003-12-26 2005-07-14 Nec Corp 情報分類装置および情報分類方法
WO2011105606A1 (ja) * 2010-02-26 2011-09-01 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用のプログラム、および、記録媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016186475A1 (ko) * 2015-05-21 2016-11-24 홍성민 사전 데이터 관리 방법 및 그 방법을 수행하는 장치

Also Published As

Publication number Publication date
EP2816491A1 (en) 2014-12-24
EP2816491A4 (en) 2015-10-14
JPWO2013122205A1 (ja) 2015-05-18
WO2013122205A1 (ja) 2013-08-22
US9430793B2 (en) 2016-08-30
US20150012264A1 (en) 2015-01-08

Similar Documents

Publication Publication Date Title
CN103377190B (zh) 一种基于交易平台的供应商信息搜索方法和装置
US7813965B1 (en) Method, system, and computer readable medium for ranking and displaying a pool of links identified and aggregated from multiple customer reviews pertaining to an item in an electronic catalog
JP5567749B2 (ja) 辞書生成装置、辞書生成方法、辞書生成プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
JP6022056B2 (ja) 検索結果の生成
CN107369075A (zh) 商品的展示方法、装置和电子设备
US20200134689A1 (en) Product and content association
KR101998400B1 (ko) 빅데이터를 이용한 모바일 커머스 정보 추천 시스템 및 방법
KR101565957B1 (ko) 제품 피드 유사성을 사용하는 스팸 상인 발견
WO2017013770A1 (ja) 検索装置、検索方法、記録媒体、および、プログラム
JP2024042023A (ja) データ変形システムおよび方法
WO2012077423A1 (ja) 検索装置、検索システム、検索方法、検索プログラム、及び検索プログラムを記憶するコンピュータ読取可能な記録媒体
CN110647679A (zh) 一种o2o场景下的搜索结果综合排序方法
TWI507902B (zh) A retrieval system, a retrieval condition setting device, a control method of a search condition setting device, a computer program product, and an information memory medium
CN110968670B (zh) 一种流行商品的属性获取方法、装置、设备及存储介质
KR20230170879A (ko) 노출지수를 이용한 검색어 추천 방법 및 이를 위한 장치
CN110647504A (zh) 司法文书的检索方法及装置
WO2014174558A1 (ja) サプライヤ検索装置およびサプライヤ検索プログラム
WO2014061285A1 (ja) コーパス生成装置、コーパス生成方法及びコーパス生成プログラム
JP5530047B1 (ja) カテゴリ名抽出装置、カテゴリ名抽出方法及びカテゴリ名抽出プログラム
CN108009726B (zh) 一种结合用户评论的事物评价系统
JP5670490B2 (ja) カテゴリ判定装置、検索装置、カテゴリ判定方法、カテゴリ判定プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
CN108182608B (zh) 电子装置、产品推荐方法和计算机可读存储介质
CN113781180A (zh) 一种物品推荐方法、装置、电子设备及存储介质
JP5467096B2 (ja) 商品情報補完方法,商品情報補完装置,および商品情報補完プログラム
CN104050174B (zh) 一种个性化页面生成方法及装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20140611

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140617

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140619

R150 Certificate of patent or registration of utility model

Ref document number: 5567749

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250