JP2019502995A - 類似用語集約方法及び装置 - Google Patents

類似用語集約方法及び装置 Download PDF

Info

Publication number
JP2019502995A
JP2019502995A JP2018531515A JP2018531515A JP2019502995A JP 2019502995 A JP2019502995 A JP 2019502995A JP 2018531515 A JP2018531515 A JP 2018531515A JP 2018531515 A JP2018531515 A JP 2018531515A JP 2019502995 A JP2019502995 A JP 2019502995A
Authority
JP
Japan
Prior art keywords
nodes
term
terms
candidate
candidate terms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018531515A
Other languages
English (en)
Inventor
ホアン グアンユエン
ホアン グアンユエン
ラン ジンホー
ラン ジンホー
マイ ガンリン
マイ ガンリン
シー シアオジン
シー シアオジン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2019502995A publication Critical patent/JP2019502995A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0282Rating or review of business operators or products
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Abstract

類似用語を集約する方法及び装置が本出願の実施形態によって提供される。方法は、同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出することと、候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を履歴的ラベル付けデータから別々に抽出することと、関連付け用語の類似度に基づいて複数の候補用語を集約し、それらを同義語としてラベル付けすることと、を含む。本出願の実施形態に基づいて、候補用語の間の類似関係を引き出すことができ、電子商取引に関連する構造化されておらず、標準化されていないレビュー用語について同義語の分類を効果的に行うことができる。

Description

本出願は、その全体が参照することによって以下に組み込まれる、「Similar Term Aggregation Method and Apparatus」と題する2015年12月18日に出願された中国特許出願第201510960651.X号の優先権を主張する。
本出願は、インターネットの技術分野に関し、特に、類似用語集約方法及び装置に関する。
人々にとって電子商取引プラットフォームのウェブサイトを通じてショッピングを行うことが非常に一般的となった。一般的に、購入を行った後、ユーザは、製品についてのレビューを行い、製品の品質、関連する商人のサービス、及び速達物流などの様々な態様についてレビューする。ユーザの真のショッピング経験をより良く理解するために、それらのレビューについて分析を行うことができる。
異なる特性についてのユーザの関心が異なり、異なるユーザのレビューのスタイルは全て異なるので、電子商取引に関連するテキストレビューは、構造化されておらず、標準化されたデータではなく、よって、分析の困難性を高める。更に、製品の同一の特性についてレビューが行われる場合でさえ、ユーザによって使用されるフレーズ、例えば、「電力消費」、「耐久性」は著しく異なる。既存のテキストの分析方法を使用することは、それらを同義語として文字の意味の分析から特定することができない。しかしながら、それらは両方、携帯電話製品の同一の特性を記述し、電子商取引の範囲における同義語として分類されることができる。
従って、既存のテキストの分析方法において電子商取引に関連するレビューについての同義語の分類を行うことができない課題が存在する。
上記課題に鑑みて本出願の実施形態は、上記課題または上記課題の少なくとも一部を解決するために類似用語集約方法及び対応する類似用語集約装置を提供するように提案される。
上記課題を解決するために、本開示は、類似用語集約方法を開示し、方法は、同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出することと、候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を履歴的ラベル付けデータから別々に抽出することと、関連付け用語の類似度に基づいて複数の候補用語を集約し、それらを同義語としてラベル付けすることと、を含む。
任意選択で、同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出することは、予め設定された用語区分化ルールに従って履歴的ラベル付けデータを複数の基本用語単位に区分けすることと、同一の用語特質を有する複数の候補用語を複数の基本用語単位から抽出することと、を含む。
任意選択で、同一の用語特質を有する複数の候補用語を抽出する前に、方法は更に、複数の基本用語単位の用語頻度−逆文献頻度を計算することと、予め設定された範囲を満たすそれぞれの用語頻度−逆文献頻度を有する基本用語単位を選択することを含む。
任意選択で、関連付け用語の類似度に基づいて複数の候補用語を集約する前に、方法は更に、候補用語をノードとして使用し、関連付け用語をノードの隣接ノードとして抽出して、候補用語と関連付け用語との間の用語特質関連付け関係を記録するノードのネットワークグラフを生成することを含む。
任意選択で、関連付け用語の類似度に基づいて複数の候補用語を集約することは、ノードの隣接ノードの類似度を計算し、候補用語の間の類似性を表すノードの間の接続リンクの存在の確率予測値を計算することと、予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、ノードのネットワークグラフを更新し、接続リンクを有するノードに対応する候補用語を集約することと、を含む。
任意選択で、予め設定された閾値は、第1の予め設定された閾値、及び第1の予め設定された閾値よりも小さい第2の予め設定された閾値を含む。予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、ノードのネットワークグラフを更新し、接続リンクを有するノードに対応する候補用語を集約することは、第1の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、未接続ノード及び接続ノードについての更新されたノードのネットワークグラフにおいて複数の独立した接続グラフを作成し、同一の接続グラフに含まれるノードを抽出し、ノードに対応する候補用語を集約することと、第2の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、予め設定された閾値よりも大きい接続リンク密度を有する領域について、領域に含まれるノードを抽出し、ノードに対応する候補用語を集約することと、を含む。
任意選択で、ノードのネットワークグラフを更新する前に、方法は更に、隣接ノードの間で前に存在していた接続リンクを削除することを含む。
任意選択で、同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出する前に、方法は更に、ネットワークアイテムが属するアイテムカテゴリについての対応する履歴的ラベル付けデータ区分のアイテムカテゴリをラベル付けし、異なるカテゴリの履歴的ラベル付けデータ区分を区分けすることと、同一のカテゴリの履歴的ラベル付けデータ区分を収集し、履歴的ラベル付けデータを生成することと、を含む。
任意選択で、候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を履歴的ラベル付けデータから別々に抽出することは、候補用語に隣接し、候補用語を記述するために使用される関連付け用語を履歴的ラベル付けデータから抽出することを含む。
任意選択で、同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出した後、方法は更に、予め設定された特質範囲を満たす用語特質を有する候補用語を選択することを含む。
任意選択で、ネットワークアイテムの履歴的ラベル付けデータは、予め設定された閾値よりも小さい量の文字データを有し、ネットワークアイテムをレビューするために使用される用語データである。
上記課題を解決するために、本出願は更に、類似用語集約装置を提供し、装置は、同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出するために使用される候補用語抽出モジュールと、候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を履歴的ラベル付けデータから別々に抽出するために使用される関連付け用語抽出モジュールと、関連付け用語の類似度に基づいて複数の候補用語を集約し、それらを同義語としてラベル付けするために使用される候補集約モジュールと、を含む。
任意選択で、候補用語抽出モジュールは、予め設定された用語区分化ルールに従って履歴的ラベル付けデータを複数の基本用語単位に区分けするために使用される基本用語単位区分けサブモジュールと、同一の用語特質を有する複数の候補用語を複数の基本用語単位から抽出するために使用される候補用語抽出サブモジュールと、を含む。
任意選択で、装置は更に、複数の基本用語単位の用語頻度−逆文献頻度を計算するために使用される用語頻度−重要度計算モジュールと、予め設定された範囲を満たすそれぞれの用語頻度−逆文献頻度を有する基本用語単位を選択するために使用される基本用語選択モジュールと、を含む。
任意選択で、装置は更に、候補用語をノードとして使用し、関連付け用語をノードの隣接ノードとして抽出して、候補用語と関連付け用語との間の用語特質関連付け関係を記録するノードのネットワークグラフを生成するために使用されるノードのネットワークグラフ生成モジュールを含む。
任意選択で、候補用語集約モジュールは、ノードの隣接ノードの類似度を計算し、候補用語の間の類似性を表すノードの間の接続リンクの存在の確率予測値を計算するために使用される類似度計算サブモジュールと、予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、ノードのネットワークグラフを更新し、接続リンクを有するノードに対応する候補用語を集約するために使用される接続リンク追加サブモジュールと、を含む。
任意選択で、予め設定された閾値は、第1の予め設定された閾値、及び第1の予め設定された閾値よりも小さい第2の予め設定された閾値を含む。接続リンク追加サブモジュールは、第1の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、未接続ノード及び接続ノードについての更新されたノードのネットワークグラフにおいて複数の独立した接続グラフを作成し、同一の接続グラフに含まれるノードを抽出し、ノードに対応する候補用語を集約するために使用される接続グラフ集約サブユニットと、第2の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、予め設定された閾値よりも大きい接続リンク密度を有する領域について、領域に含まれるノードを抽出し、ノードに対応する候補用語を集約するために使用される領域集約サブユニットと、を含む。
任意選択で、装置は更に、隣接ノードの間で存在した接続リンクを削除するために使用される接続リンク削除モジュールを含む。
任意選択で、装置は更に、ネットワークアイテムが属するアイテムカテゴリについての対応する履歴的ラベル付けデータ区分のアイテムカテゴリをラベル付けし、異なるカテゴリの履歴的ラベル付けデータ区分を区分けするために使用されるアイテムカテゴリ区分けモジュールと、同一のカテゴリの履歴的ラベル付けデータ区分を収集し、履歴的ラベル付けデータを生成するために使用される履歴的ラベル付けデータ生成モジュールと、を含む。
任意選択で、関連付け用語抽出モジュールは、候補用語に隣接し、候補用語を記述するために使用される関連付け用語を履歴的ラベル付けデータから抽出するために使用される関連付け用語抽出サブモジュールを含む。
任意選択で、装置は更に、予め設定された特質範囲を満たす用語特質を有する候補用語を選択するために使用される候補用語選択モジュールを含む。
任意選択で、ネットワークアイテムの履歴的ラベル付けデータは、予め設定された閾値よりも小さい量の文字データを有し、ネットワークアイテムをレビューするために使用される用語データである。
本出願の実施形態は、以下の利点を含む。
同義語を候補用語の文字の意味から特定する既存のテキストの分析方法と比較して、本出願の実施形態は、候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を抽出し、候補用語の間の類似度に基づいて候補用語を集約することによって、候補用語の間の類似性関係を発見する。電子商取引に関連するレビューの構造化されておらず、標準化されていない用語について同義語を効果的に分類することができる。
更に、類似の候補用語に対して集約を行うことは、レビューの重要な用語を履歴的ラベル付けデータの複雑な内容から改良することができ、ユーザがネットワークアイテムの全体的なレビュー状況を迅速に理解することを支援し、ユーザが情報を取得する利便性を改善する。
本出願の類似用語集約方法の第1の実施形態のフローチャートである。 本出願の類似用語集約方法の第2の実施形態のフローチャートである。 本出願の類似用語集約装置の第1の実施形態の構造的な図である。 本出願の類似用語集約装置の第2の実施形態の構造的な図である。 本出願のリンク予測アルゴリズムを使用して同義語を集約するフローチャートである。
本出願の上記目標、特徴及び利点をより良い方式で理解することを可能にするために、本出願は、添付図面及び特定の実施態様と共に更に詳細に説明される。
図1は、以下の動作を含むことができる、本出願の類似用語集約方法の第1の実施形態のフローチャートを示す。
動作101:同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出する。
用語を短いテキストとして理解することができ、短いテキストは、単語、フレーズ、及び複数の用語によって形成される短文として明示されてもよく、または、文字(複数可)、数字(複数可)、及び記号(複数可)などによって形成される文であってもよいことに留意するべきである。中国語の文字、英語のアルファベット、ローマ字など、文字について様々な言語が使用されてもよい。
ネットワークアイテムは、製品、ソフトウェア、ビデオ、音声などのネットワークアイテムであってもよい。ユーザは通常、ネットワークアイテムについてのレビューを行う。履歴的ラベル付けデータは、ネットワークアイテムについてユーザによって行われるテキストレビューを含む。履歴的ラベル付けデータのテキストについて、同一の用語特質を有するテキストは、候補用語を取得するために抽出される。用語特質は、「名詞」、「副詞」、「形容詞」、及び「前置詞」などの様々な特質の用語を含むことができる。
実際の適用では、「携帯電話」及び「ハンドバッグ」、「ソックス」などのテキストの用語特質は、「名詞」の用語特質を有する候補用語として抽出することができる「名詞」である。「非常に速い」及び「迅速な」などのテキストの用語特質は、「形容詞」の用語特質を有する候補用語として抽出することができる「形容詞」である。
本出願の実施形態の好ましい実施例として、ネットワークアイテムの履歴的ラベル付けデータは、予め設定された閾値よりも少ない量の文字データを有し、ネットワークアイテムをレビューするために使用される用語データである。
電子商取引プラットフォームのウェブサイト上でのネットワークアイテムについてのレビューは通常、短いテキストであり、それらに含まれる文字は相対的に少ない。従って、ネットワークアイテムの履歴的ラベル付けデータは、予め設定された閾値よりも少ない量の文字データを有する用語データであってもよい。用語データは、ネットワークアイテムをレビューするために使用され、レビューの説明の方法は、多種多様であってもよい。word2vecなどの一般的な自然言語処理方法が使用される場合、大量のテキストの素材が訓練サンプルとして入力される必要があり、従って、これは、説明の方法で著しい相違を有する短いテキストを処理するのに適切ではない。
動作102:候補用語に隣接し、候補用語と関連付けられたそれぞれの用語特質を有する関連付け用語を履歴的ラベル付けデータから別々に抽出する。
用語特質の関連付けは、文法的意味に従った関連付けであることに留意するべきである。例えば、一般的な文法的ルールでは、形容詞の後に「柔らかい」「布素材」などのように名詞が続いて隣接し、または名詞の後に「物質が流れる」「非常に速く」などのように副詞が続いて隣接する。文法的ルール(複数可)を使用することは、候補用語に隣接し、候補用語と相互に関連付けられた用語特質を有する関連付け用語を履歴的ラベル付けデータから特定することができる。特定された関連付け用語は抽出される。
動作103:関連付け用語の類似度に基づいて複数の候補用語を集約し、それらを類似用語としてラベル付けする。
候補用語は、複数の関連付け用語を有することができる。いずれか2つの候補用語の関連付け用語が比較されてもよい。2つの間の同一または類似の関連付け用語の数がそれよりも大きい場合、それらの2つの候補用語が同義語である可能性はより高い。名詞が例として使用される。候補用語「布素材」と一致する形容詞は、「滑らか」、「柔らかい」、及び「優しい」などを含む。別の候補用語「表地」と一致する形容詞は、「滑らか」及び「優しい」などを含む。2つの関連付け用語の間の類似度は相対的に高く、それらの2つの候補用語は、集約され、同義語としてラベル付けされてもよい。
例えば、関連付け用語のJaccard係数を計算し、それらを類似度として使用することによって、関連付け用語の間の類似度を判定するいくつかの方法が存在してもよい。更に、PAアルゴリズム(Preferential Attachment Index)、AAアルゴリズム(Adamic−Adar Index)などの方法も、関連付け用語の間の類似度を計算するために使用されてもよい。
候補用語を集約するいくつかの方法が存在してもよい。例えば、テキストのノードのネットワークグラフは、候補用語の間で、並びに候補用語及び関連付け用語の間で構築されてもよい。特に、候補用語及び関連付け用語を記録するノードのネットワークグラフを生成するために、候補用語がノードとして、関連付け用語が隣接ノードとして取り扱われてもよい。次いで、リンク予測アルゴリズムが、2つのノードに共通する隣接ノードの数を計算するために使用される。より多い数の共通の隣接ノードは、関連付け用語の類似度がより高いことを示し、ノードの間の接続リンクがより高い可能性を示す。言い換えると、それらのノードに対応する候補用語が相互に同義語である可能性がより高い。接続リンクが存在する可能性が相対的に高いノードが集約され、それによって、相互に同義語である可能性が相対的に高い候補用語が集約される。
同義語を候補用語の文字の意味から特定する既存のテキストの分析方法と比較して、本出願の実施形態は、候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を抽出し、候補用語の間の類似度に基づいて候補用語を集約することによって、候補用語の間の類似性関係を発見する。電子商取引に関連するレビューの構造化されておらず、標準化されていない用語について同義語を効果的に分類することができる。
更に、類似の候補用語に対して集約を行うことは、レビューの重要な用語を履歴的ラベル付けデータの複雑な内容から改良することができ、ユーザがネットワークアイテムの全体的なレビュー状況を迅速に理解することを支援し、ユーザが情報を取得する利便性を改善する。
図2は、以下の動作を含むことができる、本出願の類似用語集約方法の第2の実施形態のフローチャートを示す。
動作201:ネットワークアイテムが属するアイテムカテゴリについての対応する履歴的ラベル付けデータ区分のアイテムカテゴリをラベル付けし、異なるアイテムカテゴリの履歴的ラベル付けデータ区分を区分けする。
動作202:同一のアイテムカテゴリの履歴的ラベル付けデータを収集し、履歴的ラベル付けデータを生成する。
電子商取引に関連するレビューの間で、ネットワークアイテムが属するアイテムカテゴリについて使用されるレビュー及び用語の説明の方法において著しい差異が存在するので、対応する履歴的ラベル付けデータ区分は、異なるアイテムカテゴリについてラベル付けされてもよく、異なるカテゴリの履歴的ラベル付けデータ区分が区分けされる。同一のアイテムカテゴリの履歴的ラベル付けデータ区分が収集され、履歴的ラベル付けデータが生成される。そのようにして、同一のカテゴリの全てのテキストレビューが共に組み合わされる。
動作203:予め設定された用語区分化ルール(複数可)に従って履歴的ラベル付けデータを複数の基本用語単位に区分けする。
用語区分化ルール(複数可)は、中国語の構文論理に従って予め設定されてもよく、基本用語単位の区分けが履歴的ラベル付けデータに対して行われる。なぜならば、同一のネットワークアイテムの異なる態様を1つのテキストレビューで記述することができるからである。例は、ネットワークアイテムの2つの態様(「品質」及び「配送」)を同時に記述する、「品質が良く、配送が非常に速い」である。分割することは。コンマ及びピリオドなどの句読点に基づいて行われてもよく、よってそれらを「品質が良い」及び「配送が非常に速い」に区分けする。次いで、テキストレビューは、名詞及び副詞の一致ルールに従って、「品質」、「良い」、「配送」、及び「非常に速い」などの基本用語単位に区分けされる。
動作204:基本用語単位の用語頻度−逆文献頻度を計算する。
動作205:予め設定された範囲を満たすそれぞれの用語頻度−逆文献頻度を有する基本用語単位を選択する。
用語頻度−逆文献頻度(TF−IDF)は、情報検索及びデータマイニングに使用される一般的な重みづけ技術であり、テキストにおける情報の量及び或る用語の重要度を反映することができることに留意するべきである。より大きな値は、テキストにおける用語の情報の量がより大きく、その重要度がより高いことを示す。
基本用語単位の用語頻度−逆文献頻度を計算する計算の式の詳細は、以下のように与えられてもよい。
TFの値は、用語が文書に現れる頻度を表し、その分子は、用語が全ての文書に現れる回数を表し、分母は、全ての用語が現れる回数を表す。IDFの値は、文書の組における用語の重要度を表し、分子は、文書の総数を表し、分母は、用語が現れる文書の数を表す。
予め設定された範囲を満たすそれぞれの用語頻度−逆文献頻度を有する基本用語単位が選択される。それによって、テキスト集約の効率性は、重要なテキストについて分類を行うことによって改善される。
動作206:同一の用語特質を有する複数の候補用語を基本用語単位から抽出する。
動作207:予め設定された特質範囲を満たすそれぞれの用語特質を有する候補用語を選択する。
予め設定された範囲を満たすそれぞれの用語頻度−逆文献頻度を有する基本用語単位について、同一の用語特質を有する候補用語が抽出されてもよく、予め設定された特質範囲を満たすそれぞれの用語特質を有する候補用語が選択される。なぜならば、特定の用語特質(例えば、名詞、形容詞、副詞などの用語特質)を有する候補用語の間の類似性関係のみが実際の適用において引き出される必要があるからである。
動作208:候補用語に隣接し、候補用語と関連付けられた用語特質を有する関連付け用語を履歴的ラベル付けデータから別々に抽出する。
本出願の実施形態の好ましい実施例として、動作208は、以下の下位動作を含むことができる。
下位動作S11:候補用語に隣接し、候補用語を記述するために使用される関連付け用語を履歴的ラベル付けデータから抽出する。
用語特質の関連付けは、文法的意味に従った関連付けである。例えば、一般的な文法的ルールでは、名詞は、「柔らかい布素材」などの名詞を記述する形容詞に隣接する。関連付け用語「柔らかい」は、候補用語「布素材」を記述するために使用され、関連付け用語は、履歴的ラベル付けデータにおいて候補用語に隣接する。
動作209:候補用語をノードとして、及び抽出された関連付け用語をノードの隣接ノードとして取り扱い、候補用語と関連付け用語との間の用語特質の関連付け関係を記録するノードのネットワークグラフを生成する。
候補用語がノードとして取り扱われてもよく、関連付け用語がノードとの境界を有する隣接ノードとして取り扱われてもよい。それによって、候補用語と関連付け用語との間の用語特質の関連付け関係を反映及び記録することができるノードのネットワークグラフが生成される。
動作210:ノードの隣接ノードの類似度を計算し、候補用語の間の類似性を表す接続リンクがノードの間で存在する確率予測値を計算する。
ノードに共通する隣接ノードを仮定すると、生成されたノードのネットワークグラフに基づいて、候補用語の間の類似性関係を引き出すためにリンク予測アルゴリズムが使用されてもよい。リンク予測アルゴリズムは、既存のネットワークトポロジ構造に基づいて2つの未接続ノードを接続するリンクが存在するかを予測することができる。本出願の実施形態において適用することによって、2つのノードに共通する隣接ノードの数がより多い場合、これは、それらのノードが非常に近い関係を有することができ、それらの間の接続リンクの存在の確立がより高くなることを示す。
特に、ノードの隣接ノードの類似度が計算されてもよく、ノードの間の接続リンクの存在を表す確率予測値として使用される。例えば、ノードA及びノードBについて、隣接ノードの類似度を取得するためにJaccard計算式、J(A,B)=|N(A)∩N(B)|/|N(A)∪N(B)|が使用され、式中、N(A)及びN(B)は、ノードA及びノードBそれぞれの隣接ノードの組である。
2つのノードの共通の隣接のノード数がより多いと、計算される類似度がより高く取得され、接続リンクがそれらの2つのノードの間で存在する確率予測値がより高い。
動作211:予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、ノードのネットワークグラフを更新し、接続リンクを有するノードに対応する候補用語を集約し、類似用語としてラベル付けする。
接続リンクは、予め設定された閾値よりも大きい確率予測値を有するノードの間で追加されてもよく、追加された接続リンクを有するノードのネットワークグラフが対応して更新される。接続リンクを有するノードに対応する候補用語は集約され、類似用語としてラベル付けされる。
異なる予め設定された閾値は、ノードのネットワークグラフのネットワーク構造に影響を与えることがある。当業者は、実際の必要性に従って予め設定された閾値を設定することができる。例えば、予め設定された閾値は、ゼロとして設定することができ、それは、ノードが隣接ノードの同一の組を有するときのみ接続リンクがノードの間で追加されることを示し、それによって、相対的に高い密度の接続リンクを有するノードのネットワークグラフを形成する。代わりに、予め設定された閾値は、相対的に高い値として設定されてもよく、それによって、相対的にまばらな密度の接続リンクを有するノードのネットワークグラフを形成する。対応する集約方法は、異なるネットワーク構造に基づいて適合されてもよい。
本出願の実施形態の好ましい実施例として、予め設定された閾値は、第1の予め設定された閾値、及び第1の予め設定された閾値よりも小さい第2の予め設定された閾値を含む。予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、ノードのネットワークグラフを更新し、接続リンクを有するノードに対応する候補用語を集約し、類似用語としてラベル付けすることとは、以下の下位動作を含んでもよい。
下位動作S21:第1の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、未接続ノード及び接続ノードについての更新されたノードのネットワークグラフにおいて複数の独立した接続グラフを作成し、同一の接続グラフに含まれるノードを抽出し、ノードに対応する候補用語を集約する。
いずれかの2つのノードが、リンクがその間にある接続を有する場合、接続グラフは通常、無指向性グラフにおいて接続グラフと称されることに留意するべきである。
実際の適用では、大きな第1の予め設定された閾値が設定されてもよく、すなわち、候補用語が2つのノードに対応する確率が非常に高い。従って、接続リンクは、相対的に高い確率予測値を有するノードの間でのみ追加され、相対的に低い確率予測値を有するノードの間で接続リンクは追加されない。未接続ノード及び接続ノードが作成され、それによって、複数の相対的に独立した接続グラフを形成する。同一の接続グラフに含まれるノードが抽出されてもよく、ノードに対応する候補用語が集約される。
下位動作S22:第2の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、予め設定された閾値よりも大きい接続リンク密度を有する領域について、領域に含まれるノードを抽出し、ノードに対応する候補用語を集約する。
実際の適用では、より小さい第2の予め設定された閾値が設定されてもよく、すなわち、候補用語が2つのノードに対応する確率が非常に低い。従って、接続されたリンクは、接続リンクの相対的に密な領域を形成するためにいくつかのノードの間で追加される。様々な領域に含まれるそれぞれのノードが別々に抽出され、ノードに対応する候補用語が別々に抽出される。
領域を形成することに関して、コミュニティ発見アルゴリズムも領域を区分けするために使用されてもよい。コミュニティ発見アルゴリズムは、グラフのトポロジ構造に基づいて、ノードのネットワークグラフを複数のコミュニティに区分けすることができる。相対的に強い接続関係を保有するために同一のコミュニティの内部でノードを有効にする試みができるだけ行われ、それによって、コミュニティにおいてノードに対応する候補用語を集約する。
本出願の実施形態の好ましい実施例として、ノードのネットワークグラフを更新する前に、方法は更に、隣接ノードの間に存在した接続リンクを削除することを含む。
ユーザは通常、実際の適用では1つの名詞を記述するために2つよりも多い同義の形容詞を使用しないので、隣接ノードの間に存在した接続リンクは、ノードのネットワークグラフが更新される前に削除される。
当業者が本出願の実施形態を理解することを促進するために、図5は、リンク予測アルゴリズムを使用して同義語を集約するフローチャートを示す。図から把握することができるように、用語の区分けは、電子商取引に関連するレビューについて最初に行われ、高い頻度のリストがTF−IDFを使用して取得される。それによって、高い頻度の用語のノードのネットワークグラフが構築される。次いで、電子商取引の分野において同義関係を発見するためにリンク予測方法が使用され、判定された同義語が集約される。
本出願の実施形態に従って、異なるアイテムカテゴリの履歴的ラベル付けデータ区分がカテゴリ化される。同一のアイテムカテゴリの履歴的ラベル付けデータ区分が集約され、履歴的ラベル付けデータとして生成される。従って、履歴的ラベル付けデータにおけるテキストレビューは、特定のネットワークアイテムカテゴリをターゲットとするように行われてもよく、よって、産業及び/またはカテゴリに従って区分けを有する電子商取引に関連するレビューについて類似用語の集約をより適切に行わせる。
更に、ノードのネットワークグラフは、候補用語及び関連付け用語に基づいて構築される。確率予測値は、ノードのネットワークグラフにおけるノードの間の接続リンクを有する可能性について推測され、接続リンクは、更新されたノードのネットワークグラフを形成するために確率予測値と予め設定された閾値との間の比較の結果に基づいて追加される。接続リンクを有するノードに対応する候補用語が集約され、それから候補用語の間の類似性関係が発見される。
更に、本出願の実施形態は、異なる予め設定された閾値についての対応する集約方法を採用し、よって、実際の状況に従って類似用語の集約を行い、よって、類似用語の集約の柔軟性を改善する。
方法の実施形態が説明のために一連のアクションの組み合わせとして説明されることに留意するべきである。しかしながら、当業者は、或る動作が本出願の実施形態に従って他の順序または並列して実行されてもよいことを理由に、本出願の実施形態がアクションの説明される順序に限定されないことを理解するべきである。また、当業者は、本明細書で説明される実施形態が好ましい実施形態であり、それに含まれるアクションが必ずしも本出願の実施形態について必須でないことを理解するべきである。
図3は、以下のモジュールを含むことができる、本出願の類似用語集約装置の第1の実施形態の構造的な図を示す。
候補用語抽出モジュール301は、同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出するために使用される。
関連付け用語抽出モジュール302は、候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を履歴的ラベル付けデータから別々に抽出するために使用される。
候補集約モジュール303は、関連付け用語の類似度に基づいて複数の候補用語を集約し、それらを同義語としてラベル付けするために使用される。
同義語を候補用語の文字の意味から特定する既存のテキストの分析装置と比較して、本出願の実施形態は、候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を抽出し、候補用語の間の類似度に基づいて候補用語を集約することによって、候補用語の間の類似性関係を発見する。電子商取引に関連するレビューの構造化されておらず、標準化されていない用語について同義語を効果的に分類することができる。
更に、類似の候補用語に対して集約を行うことは、レビューの重要な用語を履歴的ラベル付けデータの複雑な内容から改良することができ、ユーザがネットワークアイテムの全体的なレビュー状況を迅速に理解することを支援し、ユーザが情報を取得する利便性を改善する。
図4は、以下のモジュールを含むことができる、本出願の類似用語集約装置の第2の実施形態の構造的な図を示す。
アイテムカテゴリ区分けモジュール401は、ネットワークアイテムが属するアイテムカテゴリについての対応する履歴的ラベル付けデータ区分のアイテムカテゴリをラベル付けし、異なるカテゴリの履歴的ラベル付けデータ区分を区分けするために使用される。
履歴的ラベル付けデータ生成モジュール402は、同一のカテゴリの履歴的ラベル付けデータ区分を収集し、履歴的ラベル付けデータを生成するために使用される。
用語頻度−重要度計算モジュール403は、複数の基本用語単位の用語頻度−逆文献頻度を計算するために使用される。
基本用語選択モジュール404は、予め設定された範囲を満たすそれぞれの用語頻度−逆文献頻度を有する基本用語単位を選択するために使用される。
候補用語選択モジュール405は、予め設定された特質範囲を満たす用語特質を有する候補用語を選択するために使用される。
候補用語抽出モジュール406は、同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出するために使用される。
関連付け用語抽出モジュール407は、候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を履歴的ラベル付けデータから別々に抽出するために使用される。
ノードのネットワークグラフ生成モジュール408は、候補用語をノードとして使用し、関連付け用語をノードの隣接ノードとして抽出し、候補用語と関連付け用語との間の用語特質関連付け関係を記録するノードのネットワークグラフを生成するために使用される。
候補集約モジュール409は、関連付け用語の類似度に基づいて複数の候補用語を集約し、それらを同義語としてラベル付けするために使用される。
接続リンク削除モジュール410は、隣接ノードの間で存在した接続リンクを削除するために使用される。
本出願の実施形態の好ましい実施例として、候補用語集約モジュール409は、以下のサブモジュールを含んでもよい:
ノードの隣接ノードの類似度を計算し、候補用語の間の類似性を表すノードの間の接続リンクの存在の確率予測値を計算するために使用される類似度計算サブモジュール、及び
予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、ノードのネットワークグラフを更新し、接続リンクを有するノードに対応する候補用語を集約するために使用される接続リンク追加サブモジュール。
本出願の実施形態の好ましい実施例として、予め設定された閾値は、第1の予め設定された閾値、及び第1の予め設定された閾値よりも小さい第2の予め設定された閾値を含む。接続リンク追加サブモジュールは、以下のサブユニットを含んでもよい:
第1の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、未接続ノード及び接続ノードについての更新されたノードのネットワークグラフにおいて複数の独立した接続グラフを作成し、同一の接続グラフに含まれるノードを抽出し、ノードに対応する候補用語を集約するために使用される接続グラフ集約サブユニット、及び
第2の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、予め設定された閾値よりも大きい接続リンク密度を有する領域について、領域に含まれるノードを抽出し、ノードに対応する候補用語を集約するために使用される領域集約サブユニット。
本出願の実施形態の好ましい実施例として、関連付け用語抽出モジュール407は、以下のサブモジュールを含んでもよい:
候補用語に隣接し、候補用語を記述するために使用される関連付け用語を履歴的ラベル付けデータから抽出するために使用される関連付け用語抽出サブモジュール。
本出願の実施形態に従って、異なるアイテムカテゴリの履歴的ラベル付けデータ区分がカテゴリ化される。同一のアイテムカテゴリの履歴的ラベル付けデータ区分が集約され、履歴的ラベル付けデータとして生成される。従って、履歴的ラベル付けデータにおけるテキストレビューは、特定のネットワークアイテムカテゴリをターゲットとするように行われてもよく、よって、産業及び/またはカテゴリに従って区分けを有する電子商取引に関連するレビューについて類似用語の集約をより適切に行わせる。
更に、ノードのネットワークグラフは、候補用語及び関連付け用語に基づいて構築される。確率予測値は、ノードのネットワークグラフにおけるノードの間の接続リンクを有する可能性について推測され、接続リンクは、更新されたノードのネットワークグラフを形成するために確率予測値と予め設定された閾値との間の比較の結果に基づいて追加される。接続リンクを有するノードに対応する候補用語が集約され、それから候補用語の間の類似性関係が発見される。
更に、本出願の実施形態は、異なる予め設定された閾値についての対応する集約方法を採用し、よって、実際の状況に従って類似用語の集約を行い、よって、類似用語の集約の柔軟性を改善する。
方法の実施形態へのそれらの基本的な類似性に起因して、装置の実施形態の説明は相対的に単純である。それの関連する部分は、方法の実施形態のそれぞれの部分を参照してもよい。
本出願の明細書における様々な実施形態は、進歩的な方式で説明される。各々の実施形態の焦点は、他の実施形態の焦点とは異なる。実施形態の間の同一及び類似の部分は、相互に参照されてもよい。
当業者は、本開示の実施形態が、方法、装置、またはコンピュータソフトウェア製品としてであってもよいことを明確に理解することができる。従って、本出願の実施形態は、完全なハードウェアの実施形態、完全なソフトウェアの実施形態、またはソフトウェア及びハードウェアの実施形態の組み合わせの形式で使用されてもよい。更に、本出願の実施形態は、コンピュータ使用可能プログラムコードを含む1つ以上のコンピュータ使用可能記憶媒体(磁気記憶装置、CD−ROM、光学式記憶装置などを含むがそれらに限定されない)の形式で実装されるコンピュータソフトウェア製品を使用することができる。
典型的な構成では、コンピューティングデバイスは、1つ以上のプロセッサ(CPU)、出力/入力インタフェース、ネットワークインタフェース、及びメモリを含む。メモリは、揮発性メモリ、ランダムアクセスメモリ(RAM)及び/または不揮発性メモリ、例えば、リードオンリメモリ(ROM)またはフラッシュRAMなどのコンピュータ可読媒体の形式を含んでもよい。メモリは、コンピュータ可読媒体の例である。コンピュータ可読媒体は、いずれかの方法または技術を使用して情報の記憶を実現することができる、揮発性または不揮発性タイプ、着脱可能または着脱不能媒体を含んでもよい。情報は、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータを含んでもよい。コンピュータ記憶媒体の例は、相変化メモリ(PRAM)、スタティックランダムアクセスメモリ(SRAM)、ダイナミックランダムアクセスメモリ(DRAM)、他のタイプのランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電子的消去可能プログラマブルリードオンリメモリ(EEPROM)、クイックフラッシュメモリ若しくは他の内部記憶技術、コンパクトディスクリードオンリメモリ(CD−ROM)、デジタル多用途ディスク(DVD)若しくは他の光学式記憶装置、磁気カセットテープ、磁気ディスク記憶装置若しくは他の磁気記憶装置、またはコンピューティングデバイスによってアクセスすることができる情報を記憶するために使用することができるいずれかの他の非伝送媒体を含むが、それらに限定されない。本明細書で定義されるように、コンピュータ可読媒体は、変調データ信号及び搬送波などの一時的媒体を含まない。
本開示は、本開示の実施形態に従った方法、端末デバイス(システム)、及びコンピュータプログラム製品のフローチャート及び/またはブロック図を参照して説明される。コンピュータプログラム命令は、フローチャート及び/またはブロック図における各々の処理及び/またはブロック、並びにフローチャート及び/またはブロック図における処理(複数可)及び/またはブロック(複数可)の組み合わせを実装するために使用されてもよいことを理解するべきである。それらのコンピュータプログラム命令は、コンピュータまたは別のプログラマブルデータ処理端末デバイスのプロセッサによって実行される命令がフローチャートにおける1つ以上の処理及び/またはブロック図における1つ以上のブロックで指定される機能(複数可)を実装するための装置を生成するように、汎用コンピュータ、特殊目的コンピュータ、組み込み型プロセッサ、またはマシンを生成する別のプログラマブルデータ処理端末デバイスのプロセッサに提供されてもよい。
それらのコンピュータプログラム命令はまた、コンピュータ可読記憶装置に記憶された命令が命令装置を含む製品を生成するように、特定の方式で動作を実行するようにコンピュータまたは別のプログラマブルデータ処理端末デバイスに指示することができるコンピュータ可読記憶装置に記憶されてもよい。命令装置は、フローチャートにおける1つ以上の処理及び/またはブロック図における1つ以上のブロックで指定される機能(複数可)を実装する。
それらのコンピュータプログラム命令はまた、一連の動作がコンピュータまたは他のプログラマブル端末デバイス上で実行され、それによって、コンピュータ実施処理を生成するように、コンピュータまたは別のプログラマブルデータ処理端末デバイスにロードされてもよい。従って、コンピュータまたは他のプログラマブル端末デバイス上で実行される命令は、フローチャートにおける1つ以上の処理及び/またはブロック図における1つ以上のブロックで指定される機能(複数可)を実装するための手順を提供する。
本出願の実施形態における好ましい実施形態が説明されてきたが、当業者は、基本的な発明概念を知った後にそれらの実施形態に対して他の変更及び修正を行うことができる。従って、添付の特許請求の範囲は、好ましい実施形態、並びに本出願の実施形態の範囲内にある全ての変更及び修正を含むものとして解釈されることが意図される。
最後に、「第1の」及び「第2の」などの関係用語は、1つのエンティティまたは動作を別のエンティティまたは動作と区別するためのみに使用され、必ずしも実際のそれらのエンティティまたは動作の間のそれらの関係または順序のいずれも必要とせず、示唆するものでもない。更に、「含む」、「包含する」またはそれらの他の変形は、一連の要素を含む処理、方法、物品若しくは端末デバイスがその要素を含むのみでなく、特に記載されていない他の要素をも含み、または処理、方法、物品若しくは端末デバイスの本来の要素を更に含むように、包括的な包含をカバーすることが意図される。更なる限定なしに、フレーズ「〜を含む」によって定義される要素は、当該要素を含む処理、方法、物品、または端末デバイスに存在する他の同一の要素を排除しない。
本出願で提供される類似用語集約方法及び類似用語集約装置が上記詳細に説明された。特定の実施例は、本出願の原理及び実施態様を示すために本明細書で使用され、上記実施形態の説明は、本出願の方法及びその核となる概念を理解することを支援するために使用されるにすぎない。更に、当業者は、本出願の概念に基づいて出願の特定の実施態様及び範囲を変更することができる。要するに、本明細書の内容は、本出願の限定として解釈されるべきではない。

Claims (22)

  1. 同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出することと、
    前記候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を前記履歴的ラベル付けデータから別々に抽出することと、
    前記関連付け用語の類似度に基づいて前記複数の候補用語を集約し、それらを同義語をとしてラベル付けすることと、
    を含む、類似用語集約方法。
  2. 前記同一の用語特質を有する前記複数の候補用語を前記ネットワークアイテムの前記履歴的ラベル付けデータから抽出することは、
    予め設定された用語区分化ルールに従って前記履歴的ラベル付けデータを複数の基本用語単位に区分けすることと、
    前記同一の用語特質を有する前記複数の候補用語を前記複数の基本用語単位から抽出することと、
    を含む、請求項1に記載の方法。
  3. 前記同一の用語特質を有する前記複数の候補用語を抽出する前に、前記方法は更に、
    前記複数の基本用語単位の用語頻度−逆文献頻度を計算することと、
    予め設定された範囲を満たすそれぞれの用語頻度−逆文献頻度を有する基本用語単位を選択することと、
    を含む、請求項2に記載の方法。
  4. 前記関連付け用語の前記類似度に基づいて前記複数の候補用語を集約する前に、前記方法は更に、前記候補用語をノードとして使用し、前記関連付け用語を前記ノードの隣接ノードとして抽出して、前記候補用語と前記関連付け用語との間の用語特質関連付け関係を記録するノードのネットワークグラフを生成することを含む、請求項1に記載の方法。
  5. 前記関連付け用語の前記類似度に基づいて前記複数の候補用語を集約することは、
    前記ノードの前記隣接ノードの類似度を計算し、前記候補用語の間の類似性を表す前記ノードの間の接続リンクの存在の確率予測値を計算することと、
    予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、前記ノードのネットワークグラフを更新し、接続リンクを有するノードに対応する候補用語を集約することと、
    を含む、請求項4に記載の方法。
  6. 前記予め設定された閾値は、第1の予め設定された閾値、及び前記第1の予め設定された閾値よりも小さい第2の予め設定された閾値を含み、前記予め設定された閾値よりも大きい前記確率予測値を有する前記ノードの間で前記接続リンクを追加し、前記ノードのネットワークグラフを更新し、接続リンクを有する前記ノードに対応する前記候補用語を集約することは、
    前記第1の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、未接続ノード及び接続ノードについての前記更新されたノードのネットワークグラフにおいて複数の独立した接続グラフを作成し、同一の接続グラフに含まれるノードを抽出し、前記ノードに対応する候補用語を集約することと、
    前記第2の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、予め設定された閾値よりも大きい接続リンク密度を有する領域について、前記領域に含まれるノードを抽出し、前記ノードに対応する候補用語を集約することと、
    を含む、請求項5に記載の方法。
  7. 前記ノードのネットワークグラフを更新する前に、前記方法は更に、前記隣接ノードの間で前に存在していた接続リンクを削除することを含む、請求項5に記載の方法。
  8. 前記同一の用語特質を有する前記複数の候補用語を前記ネットワークアイテムの前記履歴的ラベル付けデータから抽出する前に、前記方法は更に、
    前記ネットワークアイテムが属するアイテムカテゴリについての対応する履歴的ラベル付けデータ区分のアイテムカテゴリをラベル付けし、異なるカテゴリの履歴的ラベル付けデータ区分を区分けすることと、
    同一のカテゴリの履歴的ラベル付けデータ区分を収集し、前記履歴的ラベル付けデータを生成することと、
    を含む、請求項1に記載の方法。
  9. 前記候補用語に隣接し、それらと関連付けられた前記用語特質を有する前記関連付け用語を前記履歴的ラベル付けデータから別々に抽出することは、前記候補用語に隣接し、前記候補用語を記述するために使用される関連付け用語を前記履歴的ラベル付けデータから抽出することを含む、請求項1に記載の方法。
  10. 前記同一の用語特質を有する前記複数の候補用語を前記ネットワークアイテムの前記履歴的ラベル付けデータから抽出した後、前記方法は更に、予め設定された特質範囲を満たす前記用語特質を有する候補用語を選択することを含む、請求項1に記載の方法。
  11. 前記ネットワークアイテムの前記履歴的ラベル付けデータは、予め設定された閾値よりも少ない量の文字データを有し、前記ネットワークアイテムをレビューするために使用される用語データである、請求項1に記載の方法。
  12. 同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出するために使用される候補用語抽出モジュールと、
    前記候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を前記履歴的ラベル付けデータから別々に抽出するために使用される関連付け用語抽出モジュールと、
    前記関連付け用語の類似度に基づいて前記複数の候補用語を集約し、それらを同義語としてラベル付けするために使用される候補集約モジュールと、
    を含む、類似用語集約装置。
  13. 前記候補用語抽出モジュールは、
    予め設定された用語区分化ルールに従って前記履歴的ラベル付けデータを複数の基本用語単位に区分けするために使用される基本用語単位区分けサブモジュールと、
    前記同一の用語特質を有する前記複数の候補用語を前記複数の基本用語単位から抽出するために使用される候補用語抽出サブモジュールと、
    を含む、請求項12に記載の装置。
  14. 前記複数の基本用語単位の用語頻度−逆文献頻度を計算するために使用される用語頻度−重要度計算モジュールと、
    予め設定された範囲を満たすそれぞれの用語頻度−逆文献頻度を有する基本用語単位を選択するために使用される基本用語選択モジュールと、
    を更に含む、請求項13に記載の装置。
  15. 前記候補用語をノードとして使用し、前記関連付け用語を前記ノードの隣接ノードとして抽出して、前記候補用語と前記関連付け用語との間の用語特質関連付け関係を記録するノードのネットワークグラフを生成するために使用されるノードのネットワークグラフ生成モジュールを更に含む、請求項12に記載の装置。
  16. 前記候補用語集約モジュールは、
    前記ノードの前記隣接ノードの類似度を計算し、前記候補用語の間の類似性を表す前記ノードの間の接続リンクの存在の確率予測値を計算するために使用される類似度計算サブモジュールと、
    予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、前記ノードのネットワークグラフを更新し、接続リンクを有するノードに対応する候補用語を集約するために使用される接続リンク追加サブモジュールと、
    を含む、請求項15に記載の装置。
  17. 前記予め設定された閾値は、第1の予め設定された閾値、及び前記第1の予め設定された閾値よりも小さい第2の予め設定された閾値を含み、前記接続リンク追加サブモジュールは、
    前記第1の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、未接続ノード及び接続ノードについての前記更新されたノードのネットワークグラフにおいて複数の独立した接続グラフを作成し、同一の接続グラフに含まれるノードを抽出し、前記ノードに対応する候補用語を集約するために使用される接続グラフ集約サブユニットと、
    前記第2の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、予め設定された閾値よりも大きい接続リンク密度を有する領域について、前記領域に含まれるノードを抽出し、前記ノードに対応する候補用語を集約するために使用される領域集約サブユニットと、
    を含む、請求項16に記載の装置。
  18. 前記隣接ノードの間で存在した接続リンクを削除するために使用される接続リンク削除モジュールを更に含む、請求項16に記載の装置。
  19. 前記ネットワークアイテムが属するアイテムカテゴリについての対応する履歴的ラベル付けデータ区分のアイテムカテゴリをラベル付けし、異なるカテゴリの履歴的ラベル付けデータ区分を区分けするために使用されるアイテムカテゴリ区分けモジュールと、
    同一のカテゴリの履歴的ラベル付けデータ区分を収集し、前記履歴的ラベル付けデータを生成するために使用される履歴的ラベル付けデータ生成モジュールと、
    を更に含む、請求項12に記載の装置。
  20. 前記関連付け用語抽出モジュールは、前記候補用語に隣接し、前記候補用語を記述するために使用される関連付け用語を前記履歴的ラベル付けデータから抽出するために使用される関連付け用語抽出サブモジュールを含む、請求項12に記載の装置。
  21. 予め設定された特質範囲を満たす前記用語特質を有する候補用語を選択するために使用される候補用語選択モジュールを更に含む、請求項12に記載の装置。
  22. 前記ネットワークアイテムの前記履歴的ラベル付けデータは、予め設定された閾値よりも少ない量の文字データを有し、前記ネットワークアイテムをレビューするために使用される用語データである、請求項12に記載の装置。
JP2018531515A 2015-12-18 2016-12-08 類似用語集約方法及び装置 Pending JP2019502995A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510960651.XA CN106897309B (zh) 2015-12-18 2015-12-18 一种相似词的聚合方法和装置
CN201510960651.X 2015-12-18
PCT/CN2016/108980 WO2017101728A1 (zh) 2015-12-18 2016-12-08 一种相似词的聚合方法和装置

Publications (1)

Publication Number Publication Date
JP2019502995A true JP2019502995A (ja) 2019-01-31

Family

ID=59055821

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018531515A Pending JP2019502995A (ja) 2015-12-18 2016-12-08 類似用語集約方法及び装置

Country Status (5)

Country Link
US (1) US20180293294A1 (ja)
EP (1) EP3392783A4 (ja)
JP (1) JP2019502995A (ja)
CN (1) CN106897309B (ja)
WO (1) WO2017101728A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021124525A1 (ja) * 2019-12-19 2021-06-24

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107516176B (zh) * 2016-06-17 2021-03-19 菜鸟智能物流控股有限公司 物流信息处理方法及装置
CN109298796B (zh) * 2018-07-24 2022-05-24 北京捷通华声科技股份有限公司 一种词联想方法及装置
CN109656970A (zh) * 2018-11-20 2019-04-19 北京松鼠山科技有限公司 面向异构数据的数据关联方法和装置
CN111523315B (zh) * 2019-01-16 2023-04-18 阿里巴巴集团控股有限公司 数据处理方法、文本识别方法、装置及计算机设备
CN111507789A (zh) * 2019-01-31 2020-08-07 阿里巴巴集团控股有限公司 商品属性词的确定方法、装置及计算设备
CN112711587B (zh) * 2019-10-24 2022-10-28 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及存储介质
US11163805B2 (en) * 2019-11-25 2021-11-02 The Nielsen Company (Us), Llc Methods, systems, articles of manufacture, and apparatus to map client specifications with standardized characteristics
CN111177403B (zh) * 2019-12-16 2023-06-23 恩亿科(北京)数据科技有限公司 样本数据的处理方法和装置
CN111310419B (zh) * 2020-02-26 2023-04-28 支付宝(杭州)信息技术有限公司 对词语改写候选集进行更新的方法及装置
US11301503B2 (en) * 2020-07-10 2022-04-12 Servicenow, Inc. Autonomous content orchestration

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9177248B2 (en) * 2005-03-30 2015-11-03 Primal Fusion Inc. Knowledge representation systems and methods incorporating customization
EP2122506A4 (en) * 2007-01-10 2011-11-30 Sysomos Inc METHOD AND SYSTEM FOR INFORMATION DISCOVERY AND TEXT ANALYSIS
US8577924B2 (en) * 2008-12-15 2013-11-05 Raytheon Company Determining base attributes for terms
US8589399B1 (en) * 2011-03-25 2013-11-19 Google Inc. Assigning terms of interest to an entity
US8538984B1 (en) * 2012-04-03 2013-09-17 Google Inc. Synonym identification based on co-occurring terms
US20140358904A1 (en) * 2012-05-22 2014-12-04 Google Inc. Synonym identification based on selected search result
US9658824B1 (en) * 2012-07-02 2017-05-23 Amazon Technologies, Inc. Extracting topics from customer review search queries
CN103258000B (zh) * 2013-03-29 2017-02-08 北界无限(北京)软件有限公司 对网页中高频关键词进行聚类的方法及装置
EP3039578A1 (en) * 2013-08-30 2016-07-06 Unsilo A/S Method and system for identifying and evaluating semantic patterns in written language
CN104090890B (zh) * 2013-12-12 2016-05-04 深圳市腾讯计算机系统有限公司 关键词相似度获取方法、装置及服务器
CN103886053A (zh) * 2014-03-13 2014-06-25 电子科技大学 一种基于短文本评论的知识库构建方法
CN104657514B (zh) * 2015-03-24 2018-05-25 成都知数科技有限公司 基于电商用户行为数据的近义词识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021124525A1 (ja) * 2019-12-19 2021-06-24
WO2021124525A1 (ja) * 2019-12-19 2021-06-24 日本電信電話株式会社 名称データ対応付け装置、名称データ対応付け方法及びプログラム
JP7276509B2 (ja) 2019-12-19 2023-05-18 日本電信電話株式会社 名称データ対応付け装置、名称データ対応付け方法及びプログラム

Also Published As

Publication number Publication date
WO2017101728A1 (zh) 2017-06-22
EP3392783A1 (en) 2018-10-24
CN106897309B (zh) 2018-12-21
EP3392783A4 (en) 2019-07-24
CN106897309A (zh) 2017-06-27
US20180293294A1 (en) 2018-10-11

Similar Documents

Publication Publication Date Title
JP2019502995A (ja) 類似用語集約方法及び装置
Venugopalan et al. Exploring sentiment analysis on twitter data
US20140172652A1 (en) Automated categorization of products in a merchant catalog
WO2016162879A1 (en) Text mining system and tool
Huang et al. Large-scale heterogeneous feature embedding
Sadhana et al. Mining target opinions from online reviews using semi-supervised word alignment model
Nithish et al. An Ontology based Sentiment Analysis for mobile products using tweets
Singh et al. Sentiment analysis of Twitter data using TF-IDF and machine learning techniques
Arif et al. A machine learning based approach for opinion mining on social network data
Rani et al. Study and comparision of vectorization techniques used in text classification
Vaish et al. Machine learning techniques for sentiment analysis of hotel reviews
Sharma et al. Intelligent data analysis using optimized support vector machine based data mining approach for tourism industry
Sulthana et al. An improvised ontology based K-means clustering approach for classification of customer reviews
Fernandes et al. Analysis of product Twitter data though opinion mining
Al-Dyani et al. Binary Bat Algorithm for text feature selection in news events detection model using Markov clustering
Tanaka et al. Comparison of centrality indexes in network Japanese text analysis
Annam et al. Entropy based informative content density approach for efficient web content extraction
Hamdi et al. BERT and word embedding for interest mining of instagram users
Hosseini et al. Implicit entity linking through ad-hoc retrieval
Altinel et al. Identifying topic-based opinion leaders in social networks by content and user information
Bellar et al. Application of machine learning to sentiment analysis
Patel et al. Selecting best features using combined approach in pos tagging for sentiment analysis
Chidananda et al. Sentiment analysis using n-gram technique
Pang Performance Evaluation of Text Embeddings with Online Consumer Reviews in Retail Sectors
Aich et al. Enhancing personalized response to product queries using product reviews incorporating semantic information

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180816

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210105

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210928