JP6335898B2 - 製品認識に基づく情報分類 - Google Patents

製品認識に基づく情報分類 Download PDF

Info

Publication number
JP6335898B2
JP6335898B2 JP2015525462A JP2015525462A JP6335898B2 JP 6335898 B2 JP6335898 B2 JP 6335898B2 JP 2015525462 A JP2015525462 A JP 2015525462A JP 2015525462 A JP2015525462 A JP 2015525462A JP 6335898 B2 JP6335898 B2 JP 6335898B2
Authority
JP
Japan
Prior art keywords
product
word
profile information
recognition
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015525462A
Other languages
English (en)
Other versions
JP2015529901A (ja
Inventor
ジン ホワシン
ジン ホワシン
チェン ジン
チェン ジン
リン フォン
リン フォン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2015529901A publication Critical patent/JP2015529901A/ja
Application granted granted Critical
Publication of JP6335898B2 publication Critical patent/JP6335898B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Description

(関連出願の相互参照)
本出願は、「Information Classification Method and System Based on Product Recognition」と題される、2012年7月30日に出願された中国特許出願第201210266047.3号に対する外国優先権を主張し、その全体が参照により本明細書に組み込まれる。
本開示は、通信技術の分野に関し、より具体的には、製品認識に基づく情報分類方法および装置に関する。
電子商取引のウェブサイトでは、売り手によって公開された製品プロファイル情報は、製品名、製品属性、売り手情報、広告等の様々な情報を含むことが多い。コンピューティングシステムが売り手によって公開された製品を自動的に認識し、製品プロファイル情報をさらに正確かつ自動的に分類することは困難である。
従来の技術の下では、コンピューティングシステムは、共通の文として売り手によって公開された製品プロファイル情報に含まれるタイトルを処理し、タイトルおよび全製品情報のコアとして文から最も中心的テーマのワード(またはコアワード)を抽出することが多い。コンピューティングシステムは、コアワードに基づいて製品プロファイル情報を認識する。
従来の技術は、製品プロファイル情報を認識するために製品プロファイル情報のタイトル情報に依存する。タイトルは、約10文字のみを含むことが多く、制限された情報量を有する。さらに、タイトルに使用される様々な記述方法がある。したがって、タイトルのコアワードに基づく製品認識の正確性は低い。加えて、タイトルのコアワードは、1文字のみを含むことが多い。したがって、単にコアワードに基づいて製品を認識することは不正確であることが多い。例えば、タイトル「table tennis bat」では、tableおよびtennisというワードは、それらのそれぞれの特定の意味を有するが、batは、広い意味を有する。どちらのワードも製品を正確に表さず、製品プロファイル情報を正確かつ自動的に分類しないことが明らかである。
本概要は、発明を実施するための形態でさらに後述される簡略された形態で概念の選択を紹介するために提供される。本概要は、特許請求される主題のすべての重要な特徴または本質的な特徴を識別するものではなく、また特許請求される主題の範囲を決定する支援として単独で使用されるものでもない。用語「技術」は、例えば、上記の文脈によって、および本開示にわたって許されるような装置(複数可)、システム(複数可)、方法(複数可)、および/またはコンピュータ可読命令を指すことができる。
本開示は、製品プロファイル情報を自動的に分類する製品認識に基づく情報分類方法およびシステムを提供し、製品分類の効率を高める。
本開示は、製品認識に基づく例示的な情報分類方法を提供する。製品認識システムは、1つ以上の製品を認識する1つ以上の学習サブモデルと、1つ以上の学習サブモデルからなる総合的学習モデルとを含む。製品認識に対する要求が受信されると、認識のための製品プロファイル情報の1つ以上の候補製品ワードが決定される。製品プロファイル情報の1つ以上の特性は、決定された候補製品ワードにそれぞれ基づいて抽出される。候補製品ワードおよびそれらの対応する特性に基づいて、学習サブモデルおよび総合的学習モデルは、製品プロファイル情報に対応する製品ワードを決定し、製品ワードに基づいて製品プロファイル情報を分類する。
本開示はまた、製品認識に基づく例示的な情報分類システムを提供する。例示的な情報分類システムは、記憶モジュールと、第1の決定モジュールと、特性抽出モジュールと、第2の決定モジュールと、分類モジュールとを含む。
記憶モジュールは、1つ以上の製品を認識する1つ以上の学習サブモデル、および1つ以上の学習サブモデルからなる総合的学習モデルを記憶する。第1の決定モジュールは、例示的な情報分類システムが製品認識に対する要求を受信すると、認識のための製品プロファイル情報の1つ以上の候補製品ワードを決定する。特性抽出モジュールは、決定された候補製品ワードにそれぞれ基づいて、製品プロファイル情報の1つ以上の特性を抽出する。候補製品ワードおよびそれらの対応する特性に基づく第2の決定モジュールは、学習サブモデルおよび総合的学習モデルを使用して、製品プロファイル情報に対応する製品ワードを決定する。分類モジュールは、第2の決定モジュールによって決定された製品ワードに基づいて、製品プロファイル情報を分類する。
本技術の下では、製品認識に対する要求が受信されると、認識のための製品プロファイル情報の1つ以上の候補製品ワードが決定される。製品プロファイル情報の1つ以上の特性は、それぞれの決定された候補製品ワードに基づいて抽出される。候補製品ワードおよびそれらの対応する特性に基づいて、学習サブモデルおよび総合的学習モデルは、製品プロファイル情報に対応する製品ワードを決定し、製品ワードに基づいて製品プロファイル情報を分類する。したがって、本技術は、製品プロファイル情報の自動分類を実装し、情報分類の効率を高める。
本開示の実施形態をより良く図解するために、以下は、実施形態の説明に使用される図の簡単な紹介である。以下の図は、本開示のいくつかの実施形態にのみ関することが明らかである。当業者であれば、創造的な努力なしに本開示における図に従って他の図を取得することができる。
本開示に従う製品認識に基づく例示的な情報分類方法のフローチャートを示す。 本開示に従う製品認識に基づく例示的な情報分類システムの略図を示す。
本開示は、製品認識に基づく情報分類技術を提供する。本技術の下では、主な流れプロセスは、3つの段階、すなわち、学習段階、製品認識段階、および情報分類段階に分割され得る。
学習段階は、学習モデルを後続の製品認識段階に主に提供することである。例えば、学習のための製品プロファイル情報が得られる。1つ以上の製品ワードは、学習のための製品プロファイル情報から抽出される。製品プロファイル情報の特性は、製品ワードの抽出の結果に基づいて抽出される。学習サブモデルは、特性および製品プロファイル情報に基づいて決定される。学習モデルは、学習サブモデルに基づいて決定される。
製品認識段階は、認識のための製品プロファイル情報を認識するために学習段階から決定された学習モデルに主に基づいている。例えば、製品認識に対する要求が受信されると、製品プロファイル情報に対応する製品ワードは、学習モデルおよび製品認識に対する要求に含まれる製品プロファイル情報に基づいて決定される。
情報分類段階は、決定された製品ワードに基づいて、製品プロファイル情報を主に分類することである。例えば、製品ワードは、1つ以上のプリセット分類キーワードに基づいてマッチングさせられ、製品ワードの分類は、マッチングの結果に基づいて決定される。
以下の説明は、図およびいくつかの例示的な実施形態を参照することにより記載される。本明細書の例示的な実施形態は、単に本開示を示すために使用され、本開示を限定するために使用されないものとする。例示的な実施形態または例示的な実施形態の特徴は、不一致がないとき、互いに組み合わせられ、または参照され得る。本明細書に記載される例示的な実施形態は、本開示に従う実施形態のすべての代わりに、本開示に従う実施形態の一部分のみであることが明らかである。本開示の例示的な実施形態に基づいて創造的な努力をすることなく当業者によって得られる任意の他の実施形態が本開示によってさらに保護されるものとする。
図1は、本開示に従う製品認識に基づく例示的な情報分類方法のフローチャートを示す。
102では、学習のための製品プロファイル情報が取得され、1つ以上の製品ワードが製品プロファイル情報から抽出される。
例えば、いくつかの製品プロファイル情報は、学習サンプル(または学習のための製品プロファイル情報)としてシステムの入力データから抽出されてもよく、製品ワードを抽出するために1つ以上のプリセット規則が使用される。
例えば、プリセット規則が製品ワードを抽出するために使用される動作は、以下を含むことができる。製品プロファイル情報のタイトルフィールドおよび複数のフィールドからの1つ以上のフィールドが、製品プロファイル情報に基づいて取得される。複数のフィールドは、製品プロファイル情報からの製品プロファイルと関連する売り手プロファイルの供給された製品フィールド、製品プロファイルの属性フィールド、製品プロファイルのキーワードフィールドなどを含む。フィールドが取得された後、フィールドは、フィールドにそれぞれ含まれるワードおよび/またはフレーズを取得するためにそれぞれ処理されてもよい。1つ以上のプリセット条件を満たす1つ以上のワードおよび/またはフレーズは、製品プロファイル情報の製品ワードとして決定される。
プリセット条件は、次のうちの少なくとも1つを含むことができる。ワードまたはフレーズは、製品プロファイルのタイトルフィールドに、および複数のフィールドのうちの少なくとも別のフィールドに現れる。あるいは、ワードまたはフレーズは、製品プロファイルのタイトルフィールドに現れ、すべてのフィールドにおけるワードまたはフレーズの出現の総回数は、閾値以上である。閾値は、4など予め設定されてもよい。
例えば、プリセット条件を満たす1つ以上のワードおよび/またはフレーズからの最長の長さを有するワードまたはフレーズは、決定された製品ワードの正確さを高めるために対応する製品プロファイル情報の製品ワードとして選択されてもよい。
例えば、次のワードおよび/またはフレーズ「MP3 Player」、「MP3」、「Player」は、プリセット条件をすべて満たすことができる。しかしながら、製品ワードとしてフレーズ「MP3 Player」を使用することがより正確であることが明らかである。
104では、学習のための製品プロファイル情報の1つ以上の特性は、製品ワードの抽出の結果に基づいて抽出される。
例えば、製品ワードが製品プロファイル情報から抽出された後、製品プロファイルのタイトルフィールド、製品プロファイルと関連する売り手プロファイルの供給された製品フィールド、製品プロファイル内の属性フィールド、および/または製品プロファイルのキーワードフィールドは、製品プロファイル情報から取得されてもよい。
一方、各フィールドに含まれるワードおよび/またはフレーズが取得され、各ワードまたはフレーズのハッシュ値が取得される。タイトルフィールド内のワードまたはフレーズのハッシュ値は、対応する製品プロファイルの主題特性(subject_candidate_feature)として使用される。供給された製品フィールド内のワードまたはフレーズのハッシュ値は、対応する製品プロファイルの供給された製品特性(provide_products_feature)として使用される。属性フィールド内のワードまたはフレーズのハッシュ値は、対応する製品プロファイルの属性特性(attr_desc_feature)として使用される。キーワードフィールド内のワードまたはフレーズのハッシュ値は、製品プロファイルのキーワード特性(keywords_feature)として使用される。
一方、製品ワードが成功裏に抽出される製品プロファイル情報およびそれらの対応する製品ワードに基づいて、対応する製品プロファイルの正ラベル特性(positive_label_feature)および負ラベル特性(negative_label_feature)が決定される。例えば、以下の動作が実装され得る。
1.provide_products_feature
製品プロファイルと関連する売り手プロファイルの供給された製品フィールドは前処理される。前処理としては、例えば、セグメント化、大文字と小文字の変換、および/またはステム抽出が挙げられ得る。ハッシュ値は、対応する特性として各ワードまたはフレーズに対して計算される。
2.keywords_feature
製品プロファイルのキーワードフィールドは前処理される。前処理としては、例えば、セグメント化、大文字と小文字の変換、および/またはステム抽出が挙げられ得る。ハッシュ値は、対応する特性として各ワードまたはフレーズに対して計算される。
3.attr_desc_feature
製品プロファイルの属性フィールドは前処理される。前処理としては、例えば、セグメント化、大文字と小文字の変換、および/またはステム抽出が挙げられ得る。ハッシュ値は、対応する特性として各ワードまたはフレーズに対して計算される。
4.subject_candidate_feature
製品プロファイルのタイトルフィールドは前処理される。前処理としては、例えば、セグメント化、チャンクからの部分文字列の抽出、大文字と小文字の変換、および/またはステム抽出が挙げられ得る。ハッシュ値は、候補ワードの対応する特性として各ワードまたはフレーズに対して計算される。例えば、語彙的カテゴリ分類がタイトルフィールドに適用されてもよく、タイトル内の接続詞、前置詞、および/または句読点によって別のフレーズから分離される短いフレーズがチャンクと称される。
5.positive_label_feature
以下の特性は、製品プロファイル情報から抽出され得る。
(1)次のうちの少なくとも1つ以上を含み得るタイプ特性
本技術は、それぞれの製品ワードがすべて大文字にされているかどうかを決定することができる。すべて大文字にされている文字は通常、省略形を指す。決定の結果が正である、すなわち、製品ワードがすべて大文字にされている場合、その対応する特性値は1であり、そうでなければ、その対応する特性値は0である。例えば、このような特性値の決定方法は、特に指定されない限り以下のタイプ特性に適用することができる。
本技術は、それぞれの製品ワードが数字を含むかどうかを決定することができる。
本技術は、それぞれの製品ワードが句読点を含むかどうかを決定することができる。句読点は、候補製品ワードが生成されたときにセグメント化ラベルとして使用される。しかしながら、いくつかの特別な句読点は、セグメント化ラベルと見なされなくてもよく、これは、適用されたワードのセグメント化ツールに依存する。
本技術は、それぞれの製品ワードに含まれるワードまたはフレーズが同じ語彙的カテゴリ分類を共有するかどうかを決定することができる。
本技術は、それぞれの製品ワードの語彙的カテゴリ(またはそれぞれの製品ワードに含まれる大多数のワードの語彙的カテゴリ)を決定することができる。例えば、動詞の特性値は、10として設定されてもよい。名詞の特性値は、11として設定されてもよい。形容詞の特性値は、12として設定されてもよい。例えば、このような特性値の決定方法は、特に指定されない限り以下の特性に適用することができる。
(2)普遍的特性が次のうちの少なくとも1つ以上を含むことができる。
本技術は、それぞれの製品ワードに含まれる特定のワードがタイトル内に複数回現れるかどうかを決定することができる。
(3)チャンク内の文脈特性は、次のうちの少なくとも1つ以上を含むことができる。
本技術は、それぞれの製品ワードがチャンクの始まりであるかどうかを決定することができる。
本技術は、それぞれの製品ワードがチャンクの終わりであるかどうかを決定することができる。
本技術は、それぞれの製品ワードに先行するワードまたはフレーズの語彙的カテゴリを決定することができる。
本技術は、それぞれの製品ワードに先行するワードまたはフレーズがすべて大文字にされているかどうかを決定することができる。
本技術は、それぞれの製品ワードに先行するワードまたはフレーズが数字を含むかどうかを決定することができる。
本技術は、それぞれの製品ワードの後のワードまたはフレーズの語彙的カテゴリを決定することができる。
本技術は、それぞれの製品ワードの後のワードまたはフレーズがすべて大文字にされているかどうかを決定することができる。
本技術は、製品ワードの後のワードまたはフレーズが数字を含むかどうかを決定することができる。
(4)チャンク外の文脈特性が次のうちの少なくとも1つ以上を含むことができる。
本技術は、それぞれの製品ワードを含むチャンクがタイトルの終わりであるかどうかを決定することができる。
本技術は、それぞれの製品ワードを含むチャンクがタイトルの始まりであるかどうかを決定することができる。
本技術は、チャンクの前のセグメント化ラベルに先行するワードまたはフレーズの語彙的カテゴリを決定することができる。
本技術は、チャンクの後のセグメント化ラベルの後のワードまたはフレーズの語彙的カテゴリを決定することができる。
6.negative_label_feature
この特性の抽出は、製品ワードが成功裏に抽出される製品プロファイル情報に適用することができる。正のサンプルからのそれぞれの製品ワード内のワードおよび/またはフレーズとは異なる、予め設定された個数(2など)のワードおよび/またはフレーズは、負のサンプルとして使用される。1つ以上の特性は次に、負のサンプルから抽出される。この動作は、正のサンプルからの抽出特性と同じまたは類似であり、これは、簡潔さのために本明細書に詳述されない。例えば、製品プロファイル情報に関して、102で抽出されたそれぞれの製品ワードは、初期設定で正のサンプルと見なされる。それぞれの製品ワードとは異なるタイトル内のワードおよび/またはフレーズは、負のサンプルとして使用され得る。一例としてタイトル「4GB MP3 Player」を使用すると、正のサンプルの製品ワード(または製品ワード)は、「MP3 Player」であるが、負のサンプルは、「MP3」、「Player」、「4GB」等であり得る。
106では、1つ以上の学習サブモデルは、抽出された特性および学習のための製品プロファイル情報に基づいて決定され、総合的学習モデルは、学習サブモデルに基づいて決定される。
例えば、1つ以上の学習サブモデルとしては、これらに限定されないが、事前確率モデルP(Y)、キーワード条件付き確率モデルP(K|Y)、属性条件付き確率モデルP(A|Y)、分類条件付き確率モデルP(Ca|Y)、企業条件付き確率モデルP(Co|Y)、およびタイトル条件付き確率モデルP(T|Y)が挙げられ得る。学習サブモデルの各々が以下に示される。
特性を抽出する動作が完了した後、製品ワードが成功裏に抽出される製品プロファイル情報は、2つの部分に分割される。製品プロファイル情報の一部分は、タイトル条件付き確率モデルP(T|Y)のための学習サンプルとして使用される。すなわち、P(T|Y)は、製品プロファイル情報のこのような部分に基づいて決定される。他の部分は、各学習サブモデルおよび総合的学習モデルの正確さを試験するために学習サブモデルおよび総合的学習モデルのための試験サンプルとして使用される。例えば、各部分におけるいくつかの製品プロファイル情報が類似してもよい。
(1)事前確率モデルP(Y)
104で取得された特性provide_products_featureに従う各ワードまたはフレーズに対応する特性の頻度(または出現回数)は、統計から計算される。閾値よりも高い特性の頻度は、対数を取られてもよい。事前確率モデルP(Y)を取得するために正規化がさらに行われる。例えば、対数を行うときに底の数に制限がなく、これは、2、10、または自然対数であり得る。
(2)キーワード条件付き確率モデルP(K|Y)
104で取得された特性subject_candidate_featureおよびkeyword_featureは、二部グラフの2つの頂点集合を形成するために使用され得る。キーワードフィールド内のワードまたはフレーズが同じ製品プロファイル内のタイトルフィールド内のワードまたはフレーズと同時に現れる場合、辺がこのような2つの頂点間に確立される。辺の重み値は、2つの頂点が同じ製品プロファイルで同時に現れる回数である。製品ワードが成功裏に抽出されるすべての製品プロファイル情報を検討した後、重み付けされた二部グラフが取得される。キーワード条件付き確率モデルP(K|Y)を決定するために重み付けされた二部グラフにランダムウォーキングが行われる。
(3)条件付き確率モデルP(A|Y)
104で取得された特性subject_candidate_featureおよびattr_desc_featureは、二部グラフの2つの頂点集合を形成するために使用され得る。属性フィールド内のワードまたはフレーズが同じ製品プロファイル内のタイトルフィールド内のワードまたはフレーズと同時に現れる場合、このような2つの頂点間に辺が確立される。辺の重み値は、2つの頂点が同じ製品プロファイルで同時に現れる回数である。製品ワードが成功裏に抽出されるすべての製品プロファイル情報を検討した後、重み付けされた二部グラフが取得される。キーワード条件付き確率モデルP(A|Y)を決定するために重み付けされた二部グラフにランダムウォーキングが行われる。
(4)分類条件付き確率モデルP(Ca|Y)
104で取得された特性subject_candidate_featureが候補製品ワードとして使用されてもよく、分類条件付き確率モデルP(Ca|Y)を決定するために候補製品ワードの統計から分類分布が計算されてもよい。
(5)企業確率モデルP(Co|Y)
104で取得された特性subject_candidate_featureは、候補製品ワードとして使用されてもよく、企業条件付き確率モデルP(Co|Y)を決定するために候補製品ワードの統計から企業分布が計算されてもよい。
(6)タイトル条件付き確率モデルP(T|Y)
抽出されたワードまたはフレーズの確率を決定するタイトルモデルは、タイトルに基づく製品ワードである。このような質問は、二分割の質問としてモデル化されてもよく、共通の二項分類モデルが選択されてもよい。対応する特性は、104で抽出されたpositive_label_featureおよびnegative_label_featureである。
学習サブモデルが決定された後、学習サブモデルに基づく対応する総合的学習モデルは、以下の式によって実装されてもよい。
P(Y|O)=P(T|Y)P(K|Y)P(A|Y)P(S|Y)P(Ca|Y)P(Co|Y)P(Y)
総合的学習モデルが取得された後、上記決定された試験サンプルは、各モデルを試験するために使用されてもよく、総合的学習モデルは、テキストサンプルに含まれる製品プロファイル情報からの製品を認識するために使用されてもよい。正確度が統計から計算され、各モデルが統計の結果に基づいて修正または改善されてもよい。
108では、製品認識に対する要求が受信されると、認識のための製品プロファイル情報に対応する製品ワードは、製品認識に対する要求に含まれる総合的学習モデルおよび認識のための製品プロファイル情報に基づいて決定される。
例えば、製品認識に対する要求が受信されると、1つ以上の候補製品ワードは、製品認識に対する要求に含まれる認識のための製品プロファイル情報に基づいて決定される。それぞれの候補製品ワードに対するそれぞれの確率は、認識のための製品プロファイル情報、それぞれの候補製品ワード、および総合的学習モデルに基づいて決定される。最高確率を有する候補製品ワードは、認識のための製品プロファイル情報の製品ワードとして決定される。例えば、詳細な実装は、次の通りであってもよい。
第1のステップでは、候補製品ワードが決定される。例えば、語彙的カテゴリ認識は、認識のための製品プロファイル情報に含まれるタイトルに適用されてもよい。認識のための製品プロファイル情報のタイトルからの接続詞、前置詞、または句読点によってセグメント化された1つ以上の文字列に含まれるそれぞれのワードまたはフレーズは、それぞれの候補製品ワードとして使用されてもよい。
第2のステップでは、1つ以上の特性が抽出される。特性抽出の実装は、学習段階における特性抽出の実装と同じであってもよく、これは、簡潔さのために本明細書に詳述されない。
第3のステップでは、製品が認識される。候補製品ワードおよびそれらの対応する特性は、第1のステップおよび第2のステップの後、認識のための製品プロファイル情報から得られ、1つ以上の確率モデルに入力されて、製品プロファイル情報にそれぞれ対応する製品ワードとして候補製品ワードの確率を取得する。最高確率を有する候補製品ワードは、製品プロファイル情報に対応する製品ワードとして使用される。いくつかの例では、製品プロファイル情報に対応する製品ワードとしてのそれぞれの候補製品ワードのそれぞれの確率もまた記憶されてもよい。
110では、認識のための製品プロファイル情報は、製品ワードに基づいて分類される。
例えば、1つ以上の分類キーワードは、製品プロファイル情報を分類するために予め設定されてもよい。認識のための製品プロファイル情報の製品ワードが決定されると、製品ワードは、プリセット分類キーワードに従ってマッチングされ、認識のための製品プロファイル情報の分類は、マッチングの結果に基づいて決定される。
例示的な方法の実施形態に記載されるような技術に基づいて、本開示はまた、例示的な情報分類システムを提供し、これは、上記方法の例示的な実施形態を適用することもできる。
図2は、本開示に従う例示的な情報分類システム200の略図を示す。情報分類システム200は、1つ以上のプロセッサ(複数可)202と、メモリ204とを含むことができる。メモリ204は、コンピュータ可読媒体の一例である。本明細書に使用されるとき、「コンピュータ可読媒体」は、コンピュータ記憶媒体および通信媒体を含む。
コンピュータ記憶媒体としては、コンピュータで実行される命令、データ構造、プログラムモジュール、または他のデータ等の情報の記憶のための任意の方法または技術に実装される揮発性および不揮発性、取り外し可能および取り外し可能ではない媒体が挙げられる。それに対して、通信媒体は、搬送波等の変調されたデータ信号でコンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを具体化することができる。本明細書に定義されるとき、コンピュータ記憶媒体は、通信媒体を含まない。メモリ204は、プログラム単位またはモジュールおよびプログラムデータをその中に記憶することができる。
図2の例では、メモリ204は、記憶モジュール206、第1の決定モジュール208、特性抽出モジュール210、第2の決定モジュール212、および分類モジュール214をその中に記憶することができる。
記憶モジュール206は、1つ以上の製品を認識する1つ以上の学習サブモデルおよび1つ以上の学習サブモデルからなる総合的学習モデルを記憶する。第1の決定モジュール208は、情報分類システム200が製品認識に対する要求を受信すると、認識のための製品プロファイル情報の1つ以上の候補製品ワードを決定する。特性抽出モジュール210は、それぞれの決定された候補製品ワードに基づいて、製品プロファイル情報から1つ以上の特性を抽出する。第2の決定モジュール212は、候補製品ワード、それらの対応する特性、学習サブモデル、および総合的学習モデルに基づいて、製品プロファイル情報に対応する製品ワードを決定する。分類モジュール214は、第2の決定モジュール212によって決定された製品ワードに基づいて製品プロファイル情報を分類する。
例えば、第1の決定モジュール208はまた、語彙的カテゴリ分類を認識のための製品プロファイル情報のタイトルに適用することができ、それぞれの候補製品ワードとして接続詞、前置詞、および/または句読点によって互いに分離された1つ以上の文字列に含まれるそれぞれのワードまたはフレーズを使用する。
例えば、特性抽出モジュール210は、製品プロファイルのタイトルフィールド、製品プロファイルと関連する売り手プロファイルの供給された製品フィールド、製品プロファイルの属性フィールド、および認識のための製品プロファイル情報に従う製品プロファイルのキーワードフィールドを取得することができる。特性抽出モジュール210はまた、各フィールドに含まれるワードおよび/またはフレーズを抽出し、各ワードまたはフレーズのハッシュ値を決定することができる。例えば、特性抽出モジュール210は、対応する製品プロファイルの主題特性としてタイトルフィールド内のワードまたはフレーズのハッシュ値を使用し、対応する製品プロファイルの供給された製品特性として供給された製品フィールド内のワードまたはフレーズのハッシュ値を使用し、対応する製品プロファイルの属性特性として属性フィールド内のワードまたはフレーズのハッシュ値を使用し、かつ製品プロファイルのキーワード特性としてキーワードフィールド内のワードまたはフレーズのハッシュ値を使用することができる。
例えば、特性抽出モジュール210はまた、各候補製品ワードに基づく認識のための製品プロファイル情報の正ラベル特性および負ラベル特性を決定することができる。
例えば、第2の決定モジュール212は、学習サブモデルおよび総合的学習モデルを使用することによって、それぞれの候補製品ワードおよびその対応する特性に基づいて、それぞれの候補製品ワードに対するそれぞれの確率を決定し、認識のための製品プロファイル情報の製品ワードとして最高確率を有する候補製品ワードを決定することができる。
例えば、分類モジュール214は、1つ以上のプリセット分類キーワードに基づいて決定された製品ワードをマッチングさせ、マッチングの結果に基づいて、認識のための製品プロファイル情報の分類を決定することができる。
別の例では、製品認識システム200はまた、生成モジュール216を含むことができる。生成モジュール216は、製品認識のための学習サブモデルおよび総合的学習モデルを生成する。例えば、生成モジュール216は、学習のための製品プロファイル情報を取得し、学習のための製品プロファイル情報から1つ以上の製品ワードを抽出し、製品ワードの抽出の結果の結果に基づいて、学習のための製品プロファイル情報から特性を抽出し、学習のための特性および製品プロファイル情報に基づいて、学習サブモデルを決定し、かつ学習サブモデルに基づいて、総合的学習モデルを決定することができる。
例えば、生成モジュール216は、以下の方法を使用することによって学習のための製品プロファイル情報から製品ワードを抽出することができる。生成モジュール216は、学習のための製品プロファイル情報のタイトルフィールドを抽出し、次のフィールドからの1つ以上のフィールドは、学習のための製品プロファイル情報に基づいて取得される。次のフィールドは、製品プロファイル情報からの製品プロファイル、製品プロファイルの属性フィールド、製品プロファイルのキーワードフィールドなどと関連する売り手プロファイルの供給された製品フィールドを含む。生成モジュール216は、学習のための製品プロファイル情報の製品ワードとして、プリセット条件を満たす1つ以上のワードおよび/またはフレーズを決定する。
プリセット条件は、次のうちの少なくとも1つを含むことができる。ワードまたはフレーズは、製品プロファイルのタイトルフィールドおよび上記フィールドのうちの少なくとも別のフィールドに現れる。あるいは、ワードまたはフレーズは、製品プロファイルのタイトルフィールドに現れ、すべてのフィールド内のワードまたはフレーズの出現の総回数は、閾値以上である。
別の例では、生成モジュール216はまた、以下の方法による製品ワードに基づいて、学習のための製品プロファイル情報から特性を抽出することができる。生成モジュール216は、製品プロファイルのタイトルフィールド、製品プロファイルと関連する売り手プロファイルの供給された製品フィールド、製品プロファイルの属性フィールド、および学習のための製品プロファイル情報に従う製品プロファイルのキーワードフィールドを取得する。生成モジュール216はまた、各フィールドに含まれるワードおよび/またはフレーズを抽出し、各ワードまたはフレーズのハッシュ値を決定することができる。
例えば、生成モジュール216は、対応する製品プロファイルの主題特性としてタイトルフィールド内のワードまたはフレーズのハッシュ値を使用し、対応する製品プロファイルの供給された製品特性として供給された製品フィールド内のワードまたはフレーズのハッシュ値を使用し、対応する製品プロファイルの属性特性として属性フィールド内のワードまたはフレーズのハッシュ値を使用し、かつ製品プロファイルのキーワード特性としてキーワードフィールド内のワードまたはフレーズのハッシュ値を使用することができる。
例えば、生成モジュール216はまた、各候補製品ワードに基づいて、学習のための製品プロファイル情報の正ラベル特性および負ラベル特性を決定することができる。
当業者であれば、例示的な装置内のモジュールが本開示に記載されるような装置に位置付けするか、対応する変化を有し、本開示に記載されるものとは異なる1つ以上の装置に位置付けすることを理解するであろう。例示的な実施形態内のモジュールは、1つのモジュールに組み込まれるか、または複数のサブモジュールにさらにセグメント化されてもよい。
当業者であれば、本開示の実施形態がハードウェア、ソフトウェア、またはソフトウェアと必要なハードウェアとの組み合わせを実装され得ることを理解するであろう。加えて、本技術の実装は、コンピュータ記憶媒体(ディスク、CD−ROM、光ディスク等を含むがこれらに限定されない)内に含まれ、または記憶され、デバイス(携帯電話、パーソナルコンピュータ、サーバ、またはネットワークデバイス等)に本開示に従う方法を実施させ得るコンピュータで実行されるコードまたは命令を含む1つ以上のコンピュータソフトウェア製品の形態であってもよい。
上記の説明は、本開示の例示的な実施形態を示す。実施形態は、単に例示的な実施形態を示すためであり、本開示の範囲を限定するものではない。ある特定の修正、置換、および改良がなされてもよく、本開示の原理から逸脱することなく本開示の保護下でさらに考慮されるべきであることを当業者によって理解されるべきである。

Claims (20)

  1. コンピュータによって実行される方法であって、
    製品認識に対する要求を受信することであって、製品認識に対する前記要求が、製品に関連する情報を表す認識のための製品プロファイル情報を含む、受信することと、
    認識のための前記製品プロファイル情報のタイトルに基づいて、認識のための前記製品プロファイル情報の1つ以上の候補製品ワードを決定することと、
    前記決定された1つ以上の候補製品ワードそれぞれのハッシュ値を計算し、前記ハッシュ値を、1つ以上のそれぞれの特性として抽出することと、
    前記決定された1つ以上の候補製品ワードおよび対応する前記抽出されたそれぞれの特性を総合的学習モデルに入力することによって、認識のための前記製品プロファイル情報に対応する製品ワードを決定することと、
    前記決定された製品ワードに従って、認識のための前記製品プロファイル情報を分類することと、を含む、方法。
  2. 前記1つ以上の候補製品ワードを前記決定することは、
    認識のための前記製品プロファイル情報の前記タイトルを接続詞、前置詞、または句読点によってセグメント化することと、
    それぞれの候補製品ワードとして、前記セグメント化された1つ以上の文字列に含まれるワードまたはフレーズを使用することと、を含む、請求項1に記載の方法。
  3. 前記決定された1つ以上の候補製品ワードそれぞれのハッシュ値を計算し、前記ハッシュ値を、前記1つ以上のそれぞれの特性として前記抽出することは、
    認識のための前記製品プロファイル情報のタイトルフィールドを取得することと、
    前記タイトルフィールドに含まれるワードまたはフレーズのハッシュ値を決定することと、
    認識のための前記製品プロファイル情報のタイトル特性として前記タイトルフィールドに含まれる前記ワードまたはフレーズの前記ハッシュ値を使用することと、を含む、請求項1に記載の方法。
  4. 前記決定された1つ以上の候補製品ワードそれぞれのハッシュ値を計算し、前記ハッシュ値を、前記1つ以上のそれぞれの特性として前記抽出することは、
    認識のための前記製品プロファイル情報に関する売り手プロファイルの供給された製品フィールドを取得することと、
    前記供給された製品フィールドに含まれるワードまたはフレーズのハッシュ値を決定することと、
    認識のための前記製品プロファイル情報の供給された製品特性として前記供給された製品フィールドに含まれる前記ワードまたはフレーズの前記ハッシュ値を使用することと、を含む、請求項1に記載の方法。
  5. 前記決定された1つ以上の候補製品ワードそれぞれのハッシュ値を計算し、前記ハッシュ値を、前記1つ以上のそれぞれの特性として前記抽出することは、
    認識のための前記製品プロファイル情報の属性フィールドを取得することと、
    前記属性フィールドに含まれるワードまたはフレーズのハッシュ値を決定することと、
    認識のための前記製品プロファイル情報の属性特性として前記属性フィールドに含まれる前記ワードまたはフレーズの前記ハッシュ値を使用することと、を含む、請求項1に記載の方法。
  6. 前記決定された1つ以上の候補製品ワードそれぞれのハッシュ値を計算し、前記ハッシュ値を、前記1つ以上のそれぞれの特性として前記抽出することは、
    認識のための前記製品プロファイル情報のキーワードフィールドを取得することと、
    前記キーワードフィールドに含まれるワードまたはフレーズのハッシュ値を決定することと、
    認識のための前記製品プロファイル情報のキーワード特性として前記キーワードフィールドに含まれる前記ワードまたはフレーズの前記ハッシュ値を使用することと、を含む、請求項1に記載の方法。
  7. 前記決定された1つ以上の候補製品ワードそれぞれのハッシュ値を計算し、前記ハッシュ値を、前記1つ以上のそれぞれの特性として前記抽出することに代えて
    前記1つ以上の候補製品ワードのそれぞれ、または前記1つ以上の候補製品ワードのそれぞれに関連する1つ以上のワード、フレーズ、またはチャンクがあらかじめ定められた条件を満たすかどうかを示す、認識のための前記製品プロファイル情報の正ラベル特性を決定することを含む、請求項1に記載の方法。
  8. 前記決定された1つ以上の候補製品ワードそれぞれのハッシュ値を計算し、前記ハッシュ値を、前記1つ以上のそれぞれの特性として前記抽出することに代えて
    前記1つ以上の候補製品ワードとは異なる、認識のための前記製品プロファイル情報中の1つ以上のワード、フレーズ、またはチャンクがあらかじめ定められた条件を満たすかどうかを示す、認識のための前記製品プロファイル情報の負ラベル特性を決定することを含む、請求項1に記載の方法。
  9. 前記総合的学習モデルを生成することをさらに有する、請求項1に記載の方法。
  10. 前記総合的学習モデルを生成することは、
    製品に関連する情報を表す、学習のための製品プロファイル情報を取得することと、
    学習のための前記製品プロファイル情報におけるワードまたはフレーズの条件を指定するプリセット条件に基づいて、学習のための前記製品プロファイル情報から1つ以上の製品ワードを抽出することと、
    前記抽出された1つ以上の製品ワードそれぞれのハッシュ値を計算し前記ハッシュ値を、1つ以上の特性として抽出することと、
    抽出された特性および学習のための前記製品プロファイル情報に基づく事前確率モデルまたは条件付き確率モデルを、1つ以上の学習サブモデルとして決定することと、
    前記1つ以上の学習サブモデルに基づいて、前記総合的学習モデルを決定することと、を含む、請求項9に記載の方法。
  11. 学習のための前記製品プロファイル情報から1つ以上の製品ワードを前記抽出することは、
    学習のための前記製品プロファイル情報からタイトルフィールド、および複数のフィールドのうちの少なくとも1つを取得することであって、前記複数のフィールドが、製品プロファイルに関する売り手プロファイルの供給された製品フィールド、前記製品プロファイルの属性フィールド、および前記製品プロファイルのキーワードフィールドを含む、取得することと、
    前記製品プロファイル情報に対応する前記製品ワードとして、前記プリセット条件のうちの少なくとも1つを満たすワードまたはフレーズを決定することと、を含む、請求項10に記載の方法。
  12. 前記プリセット条件は、
    前記ワードまたはフレーズが、前記製品プロファイルの前記タイトルフィールド、および前記複数のフィールドのうちの少なくとも1つのフィールドに現れることと、
    前記ワードまたはフレーズが、前記製品プロファイルの前記タイトルフィールドに現れ、前記ワードまたはフレーズが前記複数のフィールドに現れる回数が、閾値よりも高いことと、を含む、請求項11に記載の方法。
  13. 識のための前記製品プロファイル情報に対応する前記製品ワードを前記決定することは、
    前記それぞれの候補製品ワードおよび前記それぞれの候補製品ワードに対応する1つ以上の特性を前記総合的学習モデルに入力することによって、前記製品ワードとしてのそれぞれの候補製品ワードのそれぞれの確率を決定することと、
    最高確率を有する候補製品ワードを、認識のための前記製品プロファイル情報に対応する前記製品ワードとして選択することと、を含む、請求項1に記載の方法。
  14. 前記決定された製品ワードに従って、認識のための前記製品プロファイル情報を前記分類することは、
    1つ以上のプリセット分類キーワードに基づいて、前記製品ワードを前記プリセット分類キーワードにマッチングさせることと、
    前記マッチングの結果に基づいて、製品認識のための前記製品プロファイル情報の分類を決定することと、を含む、請求項1に記載の方法。
  15. コンピュータによって実行される方法であって、
    製品に関連する情報を表す、学習のための製品プロファイル情報を取得することと、
    学習のための前記製品プロファイル情報におけるワードまたはフレーズの条件を指定するプリセット条件に基づいて、学習のための前記製品プロファイル情報から1つ以上の製品ワードを抽出することと、
    前記抽出された1つ以上の製品ワードそれぞれのハッシュ値を計算し前記ハッシュ値を、1つ以上の特性として抽出することと、
    記抽出された特性および学習のための前記製品プロファイル情報に基づく事前確率モデルまたは条件付き確率モデルを、1つ以上の学習サブモデルとして決定することと、
    前記1つ以上の学習サブモデルに基づいて、総合的学習モデルを決定することと、を含む、方法。
  16. 製品認識に対する要求を受信することであって、製品認識に対する前記要求が、製品に関連する情報を表す認識のための製品プロファイル情報を含む、受信することと、
    前記総合的学習モデルおよび認識のための前記製品プロファイル情報に基づいて、認識のための前記製品プロファイル情報に対応する製品ワードを決定することと、さらに含
    前記製品ワードを決定することは、
    前記認識のための前記製品プロファイル情報のタイトルから1つ以上の候補製品ワードを決定し、
    前記1つ以上の候補製品ワードのそれぞれのハッシュ値を計算することで、1つ以上のそれぞれの特性を決定し、
    前記決定された1つ以上の候補製品ワードと、対応する前記決定されたそれぞれの特性と、を前記総合的学習モデルに入力することによって、認識のための前記製品プロファイル情報に対応する製品ワードを決定することを含む、請求項15に記載の方法。
  17. 前記決定された製品ワードに基づいて、認識のための前記製品プロファイル情報を分類することをさらに含む、請求項16に記載の方法。
  18. プロセッサと、メモリと、を備えるシステムであって、前記メモリは、
    製品認識のための1つ以上の学習サブモデルおよび前記1つ以上の学習サブモデルに基づく総合的学習モデルを記憶する、記憶モジュールと、
    前記システムが、製品に関連する情報を表す認識のための製品プロファイル情報を含む製品認識に対する要求を受信すると、認識のための前記製品プロファイル情報のタイトルに基づいて、認識のための前記製品プロファイル情報の1つ以上の候補製品ワードを決定する、第1の決定モジュールと、
    前記決定された候補製品ワードそれぞれのハッシュ値を計算し前記ハッシュ値を、1つ以上の特性として抽出する、特性抽出モジュールと、
    記候補製品ワードと、対応する前記抽出された特性とを前記総合的学習モデルに入力することによって、前記製品プロファイル情報に対応する製品ワードを決定する、第2の決定モジュールと、
    前記決定された製品ワードに基づいて、製品認識のための前記製品プロファイル情報を分類する、分類モジュールと、を備え、
    前記プロセッサが前記各モジュールを実行するシステム。
  19. 前記メモリが、前記1つ以上の学習サブモデルおよび総合的学習モジュールを生成して、前記記憶モジュールに前記1つ以上の学習サブモデルおよび前記総合的学習モジュールを記憶させる、生成モジュールをさらに備える、請求項18に記載のシステム。
  20. 前記生成モジュールは、
    学習のための前記製品プロファイル情報からタイトルフィールド、および複数のフィールドのうちの少なくとも1つを取得することであって、前記複数のフィールドが、製品プロファイルに関する売り手プロファイルの供給された製品フィールド、前記製品プロファイルの属性フィールド、および前記製品プロファイルのキーワードフィールドを含む、取得することと、
    前記製品プロファイル情報に対応する前記製品ワードとして、プリセット条件のうちの少なくとも1つを満たすワードまたはフレーズを決定することと、をさらに行い、
    前記プリセット条件は、
    前記ワードまたはフレーズが、前記製品プロファイルの前記タイトルフィールド、および前記複数のフィールドのうちの少なくとも1つのフィールドに現れることと、
    前記ワードまたはフレーズが、前記製品プロファイルの前記タイトルフィールドに現れ、前記ワードまたはフレーズが前記複数のフィールドに現れる回数が、閾値よりも高いことと、を含む、請求項19に記載のシステム。
JP2015525462A 2012-07-30 2013-07-24 製品認識に基づく情報分類 Expired - Fee Related JP6335898B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210266047.3 2012-07-30
CN201210266047.3A CN103577989B (zh) 2012-07-30 2012-07-30 一种基于产品识别的信息分类方法及信息分类系统
PCT/US2013/051865 WO2014022172A2 (en) 2012-07-30 2013-07-24 Information classification based on product recognition

Publications (2)

Publication Number Publication Date
JP2015529901A JP2015529901A (ja) 2015-10-08
JP6335898B2 true JP6335898B2 (ja) 2018-05-30

Family

ID=48980277

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015525462A Expired - Fee Related JP6335898B2 (ja) 2012-07-30 2013-07-24 製品認識に基づく情報分類

Country Status (6)

Country Link
US (1) US20140032207A1 (ja)
JP (1) JP6335898B2 (ja)
KR (1) KR20150037924A (ja)
CN (1) CN103577989B (ja)
TW (1) TWI554896B (ja)
WO (1) WO2014022172A2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102469758B1 (ko) 2015-09-02 2022-11-22 삼성전자주식회사 서버 장치, 사용자 단말 장치, 그 제어 방법 및 전자 시스템
CN106557505B (zh) * 2015-09-28 2021-04-27 北京国双科技有限公司 一种信息分类方法及装置
CN105354597B (zh) * 2015-11-10 2019-03-19 网易(杭州)网络有限公司 一种游戏物品的分类方法及装置
US11580589B2 (en) 2016-10-11 2023-02-14 Ebay Inc. System, method, and medium to select a product title
TWI621084B (zh) * 2016-12-01 2018-04-11 財團法人資訊工業策進會 跨區域商品對應方法、系統及非暫態電腦可讀取記錄媒體
CN107133287B (zh) * 2017-04-19 2021-02-02 上海筑网信息科技有限公司 建筑安装行业工程清单归类解析方法及系统
JP7162417B2 (ja) * 2017-07-14 2022-10-28 ヤフー株式会社 推定装置、推定方法、及び推定プログラム
CN107977794B (zh) * 2017-12-14 2021-09-17 方物语(深圳)科技文化有限公司 工业产品的数据处理方法、装置、计算机设备及存储介质
JP7100797B2 (ja) * 2017-12-28 2022-07-14 コニカミノルタ株式会社 文書スコアリング装置、プログラム
CN110968887B (zh) * 2018-09-28 2022-04-05 第四范式(北京)技术有限公司 在数据隐私保护下执行机器学习的方法和系统
US10956487B2 (en) 2018-12-26 2021-03-23 Industrial Technology Research Institute Method for establishing and processing cross-language information and cross-language information system
CN112182448A (zh) * 2019-07-05 2021-01-05 百度在线网络技术(北京)有限公司 页面信息处理方法、装置及设备
CN113220980A (zh) * 2020-02-06 2021-08-06 北京沃东天骏信息技术有限公司 物品属性词识别方法、装置、设备及存储介质
US20210304121A1 (en) * 2020-03-30 2021-09-30 Coupang, Corp. Computerized systems and methods for product integration and deduplication using artificial intelligence

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7082426B2 (en) * 1993-06-18 2006-07-25 Cnet Networks, Inc. Content aggregation method and apparatus for an on-line product catalog
US5983170A (en) * 1996-06-25 1999-11-09 Continuum Software, Inc System and method for generating semantic analysis of textual information
WO2004088479A2 (en) * 2003-03-26 2004-10-14 Victor Hsieh Online intelligent multilingual comparison-shop agents for wireless networks
WO2004107237A1 (en) * 2003-05-29 2004-12-09 Rtm Technologies Raffle-based collaborative product selling and buying system
US7505969B2 (en) * 2003-08-05 2009-03-17 Cbs Interactive, Inc. Product placement engine and method
US7587309B1 (en) * 2003-12-01 2009-09-08 Google, Inc. System and method for providing text summarization for use in web-based content
US7870039B1 (en) * 2004-02-27 2011-01-11 Yahoo! Inc. Automatic product categorization
US20070005649A1 (en) * 2005-07-01 2007-01-04 Microsoft Corporation Contextual title extraction
JP4368336B2 (ja) * 2005-07-13 2009-11-18 富士通株式会社 カテゴリ設定支援方法及び装置
EP1924922A4 (en) * 2005-08-19 2010-11-03 Fourthwall Media Inc SYSTEM AND METHOD FOR RECOMMENDING ITEMS OF INTEREST TO A USER
US7885859B2 (en) * 2006-03-10 2011-02-08 Yahoo! Inc. Assigning into one set of categories information that has been assigned to other sets of categories
US8326890B2 (en) * 2006-04-28 2012-12-04 Choicebot, Inc. System and method for assisting computer users to search for and evaluate products and services, typically in a database
US7996440B2 (en) * 2006-06-05 2011-08-09 Accenture Global Services Limited Extraction of attributes and values from natural language documents
US7979459B2 (en) * 2007-06-15 2011-07-12 Microsoft Corporation Scalable model-based product matching
JP2009026195A (ja) * 2007-07-23 2009-02-05 Yokohama National Univ 商品分類装置、商品分類方法及びプログラム
US8346534B2 (en) * 2008-11-06 2013-01-01 University of North Texas System Method, system and apparatus for automatic keyword extraction
US8386519B2 (en) * 2008-12-30 2013-02-26 Expanse Networks, Inc. Pangenetic web item recommendation system
CN101576910A (zh) * 2009-05-31 2009-11-11 北京学之途网络科技有限公司 一种自动识别产品命名实体的方法及装置
CN102081865A (zh) * 2009-11-27 2011-06-01 英业达股份有限公司 应用行动装置进行互动学习及监控的系统及其方法
US8775160B1 (en) * 2009-12-17 2014-07-08 Shopzilla, Inc. Usage based query response
TWI483129B (zh) * 2010-03-09 2015-05-01 Alibaba Group Holding Ltd Retrieval method and device
CN102193936B (zh) * 2010-03-09 2013-09-18 阿里巴巴集团控股有限公司 一种数据分类的方法及装置
WO2011146527A2 (en) * 2010-05-17 2011-11-24 Zirus, Inc. Mammalian genes involved in infection
US8417651B2 (en) * 2010-05-20 2013-04-09 Microsoft Corporation Matching offers to known products
US20110302167A1 (en) * 2010-06-03 2011-12-08 Retrevo Inc. Systems, Methods and Computer Program Products for Processing Accessory Information
TWI518613B (zh) * 2010-08-13 2016-01-21 Alibaba Group Holding Ltd How to publish product information and website server
WO2012064893A2 (en) * 2010-11-10 2012-05-18 Google Inc. Automated product attribute selection
US20120123863A1 (en) * 2010-11-13 2012-05-17 Rohit Kaul Keyword publication for use in online advertising
CN102033950A (zh) * 2010-12-23 2011-04-27 哈尔滨工业大学 电子产品命名实体自动识别系统的构建方法及识别方法
US8650136B2 (en) * 2011-02-24 2014-02-11 Ketera Technologies, Inc. Text classification with confidence grading
CN102332025B (zh) * 2011-09-29 2014-08-27 奇智软件(北京)有限公司 一种智能垂直搜索方法和系统

Also Published As

Publication number Publication date
JP2015529901A (ja) 2015-10-08
WO2014022172A3 (en) 2014-06-26
KR20150037924A (ko) 2015-04-08
US20140032207A1 (en) 2014-01-30
CN103577989A (zh) 2014-02-12
TW201405341A (zh) 2014-02-01
CN103577989B (zh) 2017-11-14
TWI554896B (zh) 2016-10-21
WO2014022172A2 (en) 2014-02-06

Similar Documents

Publication Publication Date Title
JP6335898B2 (ja) 製品認識に基づく情報分類
US10838997B2 (en) Method and device for generating text tag
WO2020244073A1 (zh) 基于语音的用户分类方法、装置、计算机设备及存储介质
US9092420B2 (en) Apparatus and method for automatically generating grammar for use in processing natural language
US8983826B2 (en) Method and system for extracting shadow entities from emails
US10713298B2 (en) Video retrieval methods and apparatuses
US20150112664A1 (en) System and method for generating a tractable semantic network for a concept
CN104881458B (zh) 一种网页主题的标注方法和装置
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
JP5137567B2 (ja) 検索フィルタリング装置及び検索フィルタリングプログラム
CN110008309B (zh) 一种短语挖掘方法及装置
CN115630640B (zh) 一种智能写作方法、装置、设备及介质
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
CN109829151B (zh) 一种基于分层狄利克雷模型的文本分割方法
CN112347241A (zh) 一种摘要提取方法、装置、设备及存储介质
US8463591B1 (en) Efficient polynomial mapping of data for use with linear support vector machines
CN107239455B (zh) 核心词识别方法及装置
CN109753646B (zh) 一种文章属性识别方法以及电子设备
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Li et al. Confidence estimation and reputation analysis in aspect extraction
CN116029280A (zh) 一种文档关键信息抽取方法、装置、计算设备和存储介质
JP5342574B2 (ja) トピックモデリング装置、トピックモデリング方法、及びプログラム
CN111209752A (zh) 一种基于辅助信息的中文抽取性集成无监督摘要的方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170801

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180403

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180501

R150 Certificate of patent or registration of utility model

Ref document number: 6335898

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees