JP2019502995A

JP2019502995A - 類似用語集約方法及び装置

Info

Publication number: JP2019502995A
Application number: JP2018531515A
Authority: JP
Inventors: ホアングアンユエン; ランジンホー; マイガンリン; シーシアオジン
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-12-18
Filing date: 2016-12-08
Publication date: 2019-01-31
Also published as: WO2017101728A1; EP3392783A1; CN106897309B; EP3392783A4; CN106897309A; US20180293294A1

Abstract

類似用語を集約する方法及び装置が本出願の実施形態によって提供される。方法は、同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出することと、候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を履歴的ラベル付けデータから別々に抽出することと、関連付け用語の類似度に基づいて複数の候補用語を集約し、それらを同義語としてラベル付けすることと、を含む。本出願の実施形態に基づいて、候補用語の間の類似関係を引き出すことができ、電子商取引に関連する構造化されておらず、標準化されていないレビュー用語について同義語の分類を効果的に行うことができる。

Description

本出願は、その全体が参照することによって以下に組み込まれる、「ＳｉｍｉｌａｒＴｅｒｍＡｇｇｒｅｇａｔｉｏｎＭｅｔｈｏｄａｎｄＡｐｐａｒａｔｕｓ」と題する２０１５年１２月１８日に出願された中国特許出願第２０１５１０９６０６５１．Ｘ号の優先権を主張する。

本出願は、インターネットの技術分野に関し、特に、類似用語集約方法及び装置に関する。

人々にとって電子商取引プラットフォームのウェブサイトを通じてショッピングを行うことが非常に一般的となった。一般的に、購入を行った後、ユーザは、製品についてのレビューを行い、製品の品質、関連する商人のサービス、及び速達物流などの様々な態様についてレビューする。ユーザの真のショッピング経験をより良く理解するために、それらのレビューについて分析を行うことができる。

異なる特性についてのユーザの関心が異なり、異なるユーザのレビューのスタイルは全て異なるので、電子商取引に関連するテキストレビューは、構造化されておらず、標準化されたデータではなく、よって、分析の困難性を高める。更に、製品の同一の特性についてレビューが行われる場合でさえ、ユーザによって使用されるフレーズ、例えば、「電力消費」、「耐久性」は著しく異なる。既存のテキストの分析方法を使用することは、それらを同義語として文字の意味の分析から特定することができない。しかしながら、それらは両方、携帯電話製品の同一の特性を記述し、電子商取引の範囲における同義語として分類されることができる。

従って、既存のテキストの分析方法において電子商取引に関連するレビューについての同義語の分類を行うことができない課題が存在する。

上記課題に鑑みて本出願の実施形態は、上記課題または上記課題の少なくとも一部を解決するために類似用語集約方法及び対応する類似用語集約装置を提供するように提案される。

上記課題を解決するために、本開示は、類似用語集約方法を開示し、方法は、同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出することと、候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を履歴的ラベル付けデータから別々に抽出することと、関連付け用語の類似度に基づいて複数の候補用語を集約し、それらを同義語としてラベル付けすることと、を含む。

任意選択で、同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出することは、予め設定された用語区分化ルールに従って履歴的ラベル付けデータを複数の基本用語単位に区分けすることと、同一の用語特質を有する複数の候補用語を複数の基本用語単位から抽出することと、を含む。

任意選択で、同一の用語特質を有する複数の候補用語を抽出する前に、方法は更に、複数の基本用語単位の用語頻度−逆文献頻度を計算することと、予め設定された範囲を満たすそれぞれの用語頻度−逆文献頻度を有する基本用語単位を選択することを含む。

任意選択で、関連付け用語の類似度に基づいて複数の候補用語を集約する前に、方法は更に、候補用語をノードとして使用し、関連付け用語をノードの隣接ノードとして抽出して、候補用語と関連付け用語との間の用語特質関連付け関係を記録するノードのネットワークグラフを生成することを含む。

任意選択で、関連付け用語の類似度に基づいて複数の候補用語を集約することは、ノードの隣接ノードの類似度を計算し、候補用語の間の類似性を表すノードの間の接続リンクの存在の確率予測値を計算することと、予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、ノードのネットワークグラフを更新し、接続リンクを有するノードに対応する候補用語を集約することと、を含む。

任意選択で、予め設定された閾値は、第１の予め設定された閾値、及び第１の予め設定された閾値よりも小さい第２の予め設定された閾値を含む。予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、ノードのネットワークグラフを更新し、接続リンクを有するノードに対応する候補用語を集約することは、第１の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、未接続ノード及び接続ノードについての更新されたノードのネットワークグラフにおいて複数の独立した接続グラフを作成し、同一の接続グラフに含まれるノードを抽出し、ノードに対応する候補用語を集約することと、第２の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、予め設定された閾値よりも大きい接続リンク密度を有する領域について、領域に含まれるノードを抽出し、ノードに対応する候補用語を集約することと、を含む。

任意選択で、ノードのネットワークグラフを更新する前に、方法は更に、隣接ノードの間で前に存在していた接続リンクを削除することを含む。

任意選択で、同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出する前に、方法は更に、ネットワークアイテムが属するアイテムカテゴリについての対応する履歴的ラベル付けデータ区分のアイテムカテゴリをラベル付けし、異なるカテゴリの履歴的ラベル付けデータ区分を区分けすることと、同一のカテゴリの履歴的ラベル付けデータ区分を収集し、履歴的ラベル付けデータを生成することと、を含む。

任意選択で、候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を履歴的ラベル付けデータから別々に抽出することは、候補用語に隣接し、候補用語を記述するために使用される関連付け用語を履歴的ラベル付けデータから抽出することを含む。

任意選択で、同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出した後、方法は更に、予め設定された特質範囲を満たす用語特質を有する候補用語を選択することを含む。

任意選択で、ネットワークアイテムの履歴的ラベル付けデータは、予め設定された閾値よりも小さい量の文字データを有し、ネットワークアイテムをレビューするために使用される用語データである。

上記課題を解決するために、本出願は更に、類似用語集約装置を提供し、装置は、同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出するために使用される候補用語抽出モジュールと、候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を履歴的ラベル付けデータから別々に抽出するために使用される関連付け用語抽出モジュールと、関連付け用語の類似度に基づいて複数の候補用語を集約し、それらを同義語としてラベル付けするために使用される候補集約モジュールと、を含む。

任意選択で、候補用語抽出モジュールは、予め設定された用語区分化ルールに従って履歴的ラベル付けデータを複数の基本用語単位に区分けするために使用される基本用語単位区分けサブモジュールと、同一の用語特質を有する複数の候補用語を複数の基本用語単位から抽出するために使用される候補用語抽出サブモジュールと、を含む。

任意選択で、装置は更に、複数の基本用語単位の用語頻度−逆文献頻度を計算するために使用される用語頻度−重要度計算モジュールと、予め設定された範囲を満たすそれぞれの用語頻度−逆文献頻度を有する基本用語単位を選択するために使用される基本用語選択モジュールと、を含む。

任意選択で、装置は更に、候補用語をノードとして使用し、関連付け用語をノードの隣接ノードとして抽出して、候補用語と関連付け用語との間の用語特質関連付け関係を記録するノードのネットワークグラフを生成するために使用されるノードのネットワークグラフ生成モジュールを含む。

任意選択で、候補用語集約モジュールは、ノードの隣接ノードの類似度を計算し、候補用語の間の類似性を表すノードの間の接続リンクの存在の確率予測値を計算するために使用される類似度計算サブモジュールと、予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、ノードのネットワークグラフを更新し、接続リンクを有するノードに対応する候補用語を集約するために使用される接続リンク追加サブモジュールと、を含む。

任意選択で、予め設定された閾値は、第１の予め設定された閾値、及び第１の予め設定された閾値よりも小さい第２の予め設定された閾値を含む。接続リンク追加サブモジュールは、第１の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、未接続ノード及び接続ノードについての更新されたノードのネットワークグラフにおいて複数の独立した接続グラフを作成し、同一の接続グラフに含まれるノードを抽出し、ノードに対応する候補用語を集約するために使用される接続グラフ集約サブユニットと、第２の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、予め設定された閾値よりも大きい接続リンク密度を有する領域について、領域に含まれるノードを抽出し、ノードに対応する候補用語を集約するために使用される領域集約サブユニットと、を含む。

任意選択で、装置は更に、隣接ノードの間で存在した接続リンクを削除するために使用される接続リンク削除モジュールを含む。

任意選択で、装置は更に、ネットワークアイテムが属するアイテムカテゴリについての対応する履歴的ラベル付けデータ区分のアイテムカテゴリをラベル付けし、異なるカテゴリの履歴的ラベル付けデータ区分を区分けするために使用されるアイテムカテゴリ区分けモジュールと、同一のカテゴリの履歴的ラベル付けデータ区分を収集し、履歴的ラベル付けデータを生成するために使用される履歴的ラベル付けデータ生成モジュールと、を含む。

任意選択で、関連付け用語抽出モジュールは、候補用語に隣接し、候補用語を記述するために使用される関連付け用語を履歴的ラベル付けデータから抽出するために使用される関連付け用語抽出サブモジュールを含む。

任意選択で、装置は更に、予め設定された特質範囲を満たす用語特質を有する候補用語を選択するために使用される候補用語選択モジュールを含む。

本出願の実施形態は、以下の利点を含む。

同義語を候補用語の文字の意味から特定する既存のテキストの分析方法と比較して、本出願の実施形態は、候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を抽出し、候補用語の間の類似度に基づいて候補用語を集約することによって、候補用語の間の類似性関係を発見する。電子商取引に関連するレビューの構造化されておらず、標準化されていない用語について同義語を効果的に分類することができる。

更に、類似の候補用語に対して集約を行うことは、レビューの重要な用語を履歴的ラベル付けデータの複雑な内容から改良することができ、ユーザがネットワークアイテムの全体的なレビュー状況を迅速に理解することを支援し、ユーザが情報を取得する利便性を改善する。

本出願の類似用語集約方法の第１の実施形態のフローチャートである。本出願の類似用語集約方法の第２の実施形態のフローチャートである。本出願の類似用語集約装置の第１の実施形態の構造的な図である。本出願の類似用語集約装置の第２の実施形態の構造的な図である。本出願のリンク予測アルゴリズムを使用して同義語を集約するフローチャートである。

本出願の上記目標、特徴及び利点をより良い方式で理解することを可能にするために、本出願は、添付図面及び特定の実施態様と共に更に詳細に説明される。

図１は、以下の動作を含むことができる、本出願の類似用語集約方法の第１の実施形態のフローチャートを示す。

動作１０１：同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出する。

用語を短いテキストとして理解することができ、短いテキストは、単語、フレーズ、及び複数の用語によって形成される短文として明示されてもよく、または、文字（複数可）、数字（複数可）、及び記号（複数可）などによって形成される文であってもよいことに留意するべきである。中国語の文字、英語のアルファベット、ローマ字など、文字について様々な言語が使用されてもよい。

ネットワークアイテムは、製品、ソフトウェア、ビデオ、音声などのネットワークアイテムであってもよい。ユーザは通常、ネットワークアイテムについてのレビューを行う。履歴的ラベル付けデータは、ネットワークアイテムについてユーザによって行われるテキストレビューを含む。履歴的ラベル付けデータのテキストについて、同一の用語特質を有するテキストは、候補用語を取得するために抽出される。用語特質は、「名詞」、「副詞」、「形容詞」、及び「前置詞」などの様々な特質の用語を含むことができる。

実際の適用では、「携帯電話」及び「ハンドバッグ」、「ソックス」などのテキストの用語特質は、「名詞」の用語特質を有する候補用語として抽出することができる「名詞」である。「非常に速い」及び「迅速な」などのテキストの用語特質は、「形容詞」の用語特質を有する候補用語として抽出することができる「形容詞」である。

本出願の実施形態の好ましい実施例として、ネットワークアイテムの履歴的ラベル付けデータは、予め設定された閾値よりも少ない量の文字データを有し、ネットワークアイテムをレビューするために使用される用語データである。

電子商取引プラットフォームのウェブサイト上でのネットワークアイテムについてのレビューは通常、短いテキストであり、それらに含まれる文字は相対的に少ない。従って、ネットワークアイテムの履歴的ラベル付けデータは、予め設定された閾値よりも少ない量の文字データを有する用語データであってもよい。用語データは、ネットワークアイテムをレビューするために使用され、レビューの説明の方法は、多種多様であってもよい。ｗｏｒｄ２ｖｅｃなどの一般的な自然言語処理方法が使用される場合、大量のテキストの素材が訓練サンプルとして入力される必要があり、従って、これは、説明の方法で著しい相違を有する短いテキストを処理するのに適切ではない。

動作１０２：候補用語に隣接し、候補用語と関連付けられたそれぞれの用語特質を有する関連付け用語を履歴的ラベル付けデータから別々に抽出する。

用語特質の関連付けは、文法的意味に従った関連付けであることに留意するべきである。例えば、一般的な文法的ルールでは、形容詞の後に「柔らかい」「布素材」などのように名詞が続いて隣接し、または名詞の後に「物質が流れる」「非常に速く」などのように副詞が続いて隣接する。文法的ルール（複数可）を使用することは、候補用語に隣接し、候補用語と相互に関連付けられた用語特質を有する関連付け用語を履歴的ラベル付けデータから特定することができる。特定された関連付け用語は抽出される。

動作１０３：関連付け用語の類似度に基づいて複数の候補用語を集約し、それらを類似用語としてラベル付けする。

候補用語は、複数の関連付け用語を有することができる。いずれか２つの候補用語の関連付け用語が比較されてもよい。２つの間の同一または類似の関連付け用語の数がそれよりも大きい場合、それらの２つの候補用語が同義語である可能性はより高い。名詞が例として使用される。候補用語「布素材」と一致する形容詞は、「滑らか」、「柔らかい」、及び「優しい」などを含む。別の候補用語「表地」と一致する形容詞は、「滑らか」及び「優しい」などを含む。２つの関連付け用語の間の類似度は相対的に高く、それらの２つの候補用語は、集約され、同義語としてラベル付けされてもよい。

例えば、関連付け用語のＪａｃｃａｒｄ係数を計算し、それらを類似度として使用することによって、関連付け用語の間の類似度を判定するいくつかの方法が存在してもよい。更に、ＰＡアルゴリズム（ＰｒｅｆｅｒｅｎｔｉａｌＡｔｔａｃｈｍｅｎｔＩｎｄｅｘ）、ＡＡアルゴリズム（Ａｄａｍｉｃ−ＡｄａｒＩｎｄｅｘ）などの方法も、関連付け用語の間の類似度を計算するために使用されてもよい。

候補用語を集約するいくつかの方法が存在してもよい。例えば、テキストのノードのネットワークグラフは、候補用語の間で、並びに候補用語及び関連付け用語の間で構築されてもよい。特に、候補用語及び関連付け用語を記録するノードのネットワークグラフを生成するために、候補用語がノードとして、関連付け用語が隣接ノードとして取り扱われてもよい。次いで、リンク予測アルゴリズムが、２つのノードに共通する隣接ノードの数を計算するために使用される。より多い数の共通の隣接ノードは、関連付け用語の類似度がより高いことを示し、ノードの間の接続リンクがより高い可能性を示す。言い換えると、それらのノードに対応する候補用語が相互に同義語である可能性がより高い。接続リンクが存在する可能性が相対的に高いノードが集約され、それによって、相互に同義語である可能性が相対的に高い候補用語が集約される。

図２は、以下の動作を含むことができる、本出願の類似用語集約方法の第２の実施形態のフローチャートを示す。

動作２０１：ネットワークアイテムが属するアイテムカテゴリについての対応する履歴的ラベル付けデータ区分のアイテムカテゴリをラベル付けし、異なるアイテムカテゴリの履歴的ラベル付けデータ区分を区分けする。

動作２０２：同一のアイテムカテゴリの履歴的ラベル付けデータを収集し、履歴的ラベル付けデータを生成する。

電子商取引に関連するレビューの間で、ネットワークアイテムが属するアイテムカテゴリについて使用されるレビュー及び用語の説明の方法において著しい差異が存在するので、対応する履歴的ラベル付けデータ区分は、異なるアイテムカテゴリについてラベル付けされてもよく、異なるカテゴリの履歴的ラベル付けデータ区分が区分けされる。同一のアイテムカテゴリの履歴的ラベル付けデータ区分が収集され、履歴的ラベル付けデータが生成される。そのようにして、同一のカテゴリの全てのテキストレビューが共に組み合わされる。

動作２０３：予め設定された用語区分化ルール（複数可）に従って履歴的ラベル付けデータを複数の基本用語単位に区分けする。

用語区分化ルール（複数可）は、中国語の構文論理に従って予め設定されてもよく、基本用語単位の区分けが履歴的ラベル付けデータに対して行われる。なぜならば、同一のネットワークアイテムの異なる態様を１つのテキストレビューで記述することができるからである。例は、ネットワークアイテムの２つの態様（「品質」及び「配送」）を同時に記述する、「品質が良く、配送が非常に速い」である。分割することは。コンマ及びピリオドなどの句読点に基づいて行われてもよく、よってそれらを「品質が良い」及び「配送が非常に速い」に区分けする。次いで、テキストレビューは、名詞及び副詞の一致ルールに従って、「品質」、「良い」、「配送」、及び「非常に速い」などの基本用語単位に区分けされる。

動作２０４：基本用語単位の用語頻度−逆文献頻度を計算する。

動作２０５：予め設定された範囲を満たすそれぞれの用語頻度−逆文献頻度を有する基本用語単位を選択する。

用語頻度−逆文献頻度（ＴＦ−ＩＤＦ）は、情報検索及びデータマイニングに使用される一般的な重みづけ技術であり、テキストにおける情報の量及び或る用語の重要度を反映することができることに留意するべきである。より大きな値は、テキストにおける用語の情報の量がより大きく、その重要度がより高いことを示す。

基本用語単位の用語頻度−逆文献頻度を計算する計算の式の詳細は、以下のように与えられてもよい。

ＴＦの値は、用語が文書に現れる頻度を表し、その分子は、用語が全ての文書に現れる回数を表し、分母は、全ての用語が現れる回数を表す。ＩＤＦの値は、文書の組における用語の重要度を表し、分子は、文書の総数を表し、分母は、用語が現れる文書の数を表す。

予め設定された範囲を満たすそれぞれの用語頻度−逆文献頻度を有する基本用語単位が選択される。それによって、テキスト集約の効率性は、重要なテキストについて分類を行うことによって改善される。

動作２０６：同一の用語特質を有する複数の候補用語を基本用語単位から抽出する。

動作２０７：予め設定された特質範囲を満たすそれぞれの用語特質を有する候補用語を選択する。

予め設定された範囲を満たすそれぞれの用語頻度−逆文献頻度を有する基本用語単位について、同一の用語特質を有する候補用語が抽出されてもよく、予め設定された特質範囲を満たすそれぞれの用語特質を有する候補用語が選択される。なぜならば、特定の用語特質（例えば、名詞、形容詞、副詞などの用語特質）を有する候補用語の間の類似性関係のみが実際の適用において引き出される必要があるからである。

動作２０８：候補用語に隣接し、候補用語と関連付けられた用語特質を有する関連付け用語を履歴的ラベル付けデータから別々に抽出する。

本出願の実施形態の好ましい実施例として、動作２０８は、以下の下位動作を含むことができる。

下位動作Ｓ１１：候補用語に隣接し、候補用語を記述するために使用される関連付け用語を履歴的ラベル付けデータから抽出する。

用語特質の関連付けは、文法的意味に従った関連付けである。例えば、一般的な文法的ルールでは、名詞は、「柔らかい布素材」などの名詞を記述する形容詞に隣接する。関連付け用語「柔らかい」は、候補用語「布素材」を記述するために使用され、関連付け用語は、履歴的ラベル付けデータにおいて候補用語に隣接する。

動作２０９：候補用語をノードとして、及び抽出された関連付け用語をノードの隣接ノードとして取り扱い、候補用語と関連付け用語との間の用語特質の関連付け関係を記録するノードのネットワークグラフを生成する。

候補用語がノードとして取り扱われてもよく、関連付け用語がノードとの境界を有する隣接ノードとして取り扱われてもよい。それによって、候補用語と関連付け用語との間の用語特質の関連付け関係を反映及び記録することができるノードのネットワークグラフが生成される。

動作２１０：ノードの隣接ノードの類似度を計算し、候補用語の間の類似性を表す接続リンクがノードの間で存在する確率予測値を計算する。

ノードに共通する隣接ノードを仮定すると、生成されたノードのネットワークグラフに基づいて、候補用語の間の類似性関係を引き出すためにリンク予測アルゴリズムが使用されてもよい。リンク予測アルゴリズムは、既存のネットワークトポロジ構造に基づいて２つの未接続ノードを接続するリンクが存在するかを予測することができる。本出願の実施形態において適用することによって、２つのノードに共通する隣接ノードの数がより多い場合、これは、それらのノードが非常に近い関係を有することができ、それらの間の接続リンクの存在の確立がより高くなることを示す。

特に、ノードの隣接ノードの類似度が計算されてもよく、ノードの間の接続リンクの存在を表す確率予測値として使用される。例えば、ノードＡ及びノードＢについて、隣接ノードの類似度を取得するためにＪａｃｃａｒｄ計算式、Ｊ（Ａ，Ｂ）＝｜Ｎ（Ａ）∩Ｎ（Ｂ）｜／｜Ｎ（Ａ）∪Ｎ（Ｂ）｜が使用され、式中、Ｎ（Ａ）及びＮ（Ｂ）は、ノードＡ及びノードＢそれぞれの隣接ノードの組である。

２つのノードの共通の隣接のノード数がより多いと、計算される類似度がより高く取得され、接続リンクがそれらの２つのノードの間で存在する確率予測値がより高い。

動作２１１：予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、ノードのネットワークグラフを更新し、接続リンクを有するノードに対応する候補用語を集約し、類似用語としてラベル付けする。

接続リンクは、予め設定された閾値よりも大きい確率予測値を有するノードの間で追加されてもよく、追加された接続リンクを有するノードのネットワークグラフが対応して更新される。接続リンクを有するノードに対応する候補用語は集約され、類似用語としてラベル付けされる。

異なる予め設定された閾値は、ノードのネットワークグラフのネットワーク構造に影響を与えることがある。当業者は、実際の必要性に従って予め設定された閾値を設定することができる。例えば、予め設定された閾値は、ゼロとして設定することができ、それは、ノードが隣接ノードの同一の組を有するときのみ接続リンクがノードの間で追加されることを示し、それによって、相対的に高い密度の接続リンクを有するノードのネットワークグラフを形成する。代わりに、予め設定された閾値は、相対的に高い値として設定されてもよく、それによって、相対的にまばらな密度の接続リンクを有するノードのネットワークグラフを形成する。対応する集約方法は、異なるネットワーク構造に基づいて適合されてもよい。

本出願の実施形態の好ましい実施例として、予め設定された閾値は、第１の予め設定された閾値、及び第１の予め設定された閾値よりも小さい第２の予め設定された閾値を含む。予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、ノードのネットワークグラフを更新し、接続リンクを有するノードに対応する候補用語を集約し、類似用語としてラベル付けすることとは、以下の下位動作を含んでもよい。

下位動作Ｓ２１：第１の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、未接続ノード及び接続ノードについての更新されたノードのネットワークグラフにおいて複数の独立した接続グラフを作成し、同一の接続グラフに含まれるノードを抽出し、ノードに対応する候補用語を集約する。

いずれかの２つのノードが、リンクがその間にある接続を有する場合、接続グラフは通常、無指向性グラフにおいて接続グラフと称されることに留意するべきである。

実際の適用では、大きな第１の予め設定された閾値が設定されてもよく、すなわち、候補用語が２つのノードに対応する確率が非常に高い。従って、接続リンクは、相対的に高い確率予測値を有するノードの間でのみ追加され、相対的に低い確率予測値を有するノードの間で接続リンクは追加されない。未接続ノード及び接続ノードが作成され、それによって、複数の相対的に独立した接続グラフを形成する。同一の接続グラフに含まれるノードが抽出されてもよく、ノードに対応する候補用語が集約される。

下位動作Ｓ２２：第２の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、予め設定された閾値よりも大きい接続リンク密度を有する領域について、領域に含まれるノードを抽出し、ノードに対応する候補用語を集約する。

実際の適用では、より小さい第２の予め設定された閾値が設定されてもよく、すなわち、候補用語が２つのノードに対応する確率が非常に低い。従って、接続されたリンクは、接続リンクの相対的に密な領域を形成するためにいくつかのノードの間で追加される。様々な領域に含まれるそれぞれのノードが別々に抽出され、ノードに対応する候補用語が別々に抽出される。

領域を形成することに関して、コミュニティ発見アルゴリズムも領域を区分けするために使用されてもよい。コミュニティ発見アルゴリズムは、グラフのトポロジ構造に基づいて、ノードのネットワークグラフを複数のコミュニティに区分けすることができる。相対的に強い接続関係を保有するために同一のコミュニティの内部でノードを有効にする試みができるだけ行われ、それによって、コミュニティにおいてノードに対応する候補用語を集約する。

本出願の実施形態の好ましい実施例として、ノードのネットワークグラフを更新する前に、方法は更に、隣接ノードの間に存在した接続リンクを削除することを含む。

ユーザは通常、実際の適用では１つの名詞を記述するために２つよりも多い同義の形容詞を使用しないので、隣接ノードの間に存在した接続リンクは、ノードのネットワークグラフが更新される前に削除される。

当業者が本出願の実施形態を理解することを促進するために、図５は、リンク予測アルゴリズムを使用して同義語を集約するフローチャートを示す。図から把握することができるように、用語の区分けは、電子商取引に関連するレビューについて最初に行われ、高い頻度のリストがＴＦ−ＩＤＦを使用して取得される。それによって、高い頻度の用語のノードのネットワークグラフが構築される。次いで、電子商取引の分野において同義関係を発見するためにリンク予測方法が使用され、判定された同義語が集約される。

本出願の実施形態に従って、異なるアイテムカテゴリの履歴的ラベル付けデータ区分がカテゴリ化される。同一のアイテムカテゴリの履歴的ラベル付けデータ区分が集約され、履歴的ラベル付けデータとして生成される。従って、履歴的ラベル付けデータにおけるテキストレビューは、特定のネットワークアイテムカテゴリをターゲットとするように行われてもよく、よって、産業及び／またはカテゴリに従って区分けを有する電子商取引に関連するレビューについて類似用語の集約をより適切に行わせる。

更に、ノードのネットワークグラフは、候補用語及び関連付け用語に基づいて構築される。確率予測値は、ノードのネットワークグラフにおけるノードの間の接続リンクを有する可能性について推測され、接続リンクは、更新されたノードのネットワークグラフを形成するために確率予測値と予め設定された閾値との間の比較の結果に基づいて追加される。接続リンクを有するノードに対応する候補用語が集約され、それから候補用語の間の類似性関係が発見される。

更に、本出願の実施形態は、異なる予め設定された閾値についての対応する集約方法を採用し、よって、実際の状況に従って類似用語の集約を行い、よって、類似用語の集約の柔軟性を改善する。

方法の実施形態が説明のために一連のアクションの組み合わせとして説明されることに留意するべきである。しかしながら、当業者は、或る動作が本出願の実施形態に従って他の順序または並列して実行されてもよいことを理由に、本出願の実施形態がアクションの説明される順序に限定されないことを理解するべきである。また、当業者は、本明細書で説明される実施形態が好ましい実施形態であり、それに含まれるアクションが必ずしも本出願の実施形態について必須でないことを理解するべきである。

図３は、以下のモジュールを含むことができる、本出願の類似用語集約装置の第１の実施形態の構造的な図を示す。

候補用語抽出モジュール３０１は、同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出するために使用される。

関連付け用語抽出モジュール３０２は、候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を履歴的ラベル付けデータから別々に抽出するために使用される。

候補集約モジュール３０３は、関連付け用語の類似度に基づいて複数の候補用語を集約し、それらを同義語としてラベル付けするために使用される。

同義語を候補用語の文字の意味から特定する既存のテキストの分析装置と比較して、本出願の実施形態は、候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を抽出し、候補用語の間の類似度に基づいて候補用語を集約することによって、候補用語の間の類似性関係を発見する。電子商取引に関連するレビューの構造化されておらず、標準化されていない用語について同義語を効果的に分類することができる。

図４は、以下のモジュールを含むことができる、本出願の類似用語集約装置の第２の実施形態の構造的な図を示す。

アイテムカテゴリ区分けモジュール４０１は、ネットワークアイテムが属するアイテムカテゴリについての対応する履歴的ラベル付けデータ区分のアイテムカテゴリをラベル付けし、異なるカテゴリの履歴的ラベル付けデータ区分を区分けするために使用される。

履歴的ラベル付けデータ生成モジュール４０２は、同一のカテゴリの履歴的ラベル付けデータ区分を収集し、履歴的ラベル付けデータを生成するために使用される。

用語頻度−重要度計算モジュール４０３は、複数の基本用語単位の用語頻度−逆文献頻度を計算するために使用される。

基本用語選択モジュール４０４は、予め設定された範囲を満たすそれぞれの用語頻度−逆文献頻度を有する基本用語単位を選択するために使用される。

候補用語選択モジュール４０５は、予め設定された特質範囲を満たす用語特質を有する候補用語を選択するために使用される。

候補用語抽出モジュール４０６は、同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出するために使用される。

関連付け用語抽出モジュール４０７は、候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を履歴的ラベル付けデータから別々に抽出するために使用される。

ノードのネットワークグラフ生成モジュール４０８は、候補用語をノードとして使用し、関連付け用語をノードの隣接ノードとして抽出し、候補用語と関連付け用語との間の用語特質関連付け関係を記録するノードのネットワークグラフを生成するために使用される。

候補集約モジュール４０９は、関連付け用語の類似度に基づいて複数の候補用語を集約し、それらを同義語としてラベル付けするために使用される。

接続リンク削除モジュール４１０は、隣接ノードの間で存在した接続リンクを削除するために使用される。

本出願の実施形態の好ましい実施例として、候補用語集約モジュール４０９は、以下のサブモジュールを含んでもよい：
ノードの隣接ノードの類似度を計算し、候補用語の間の類似性を表すノードの間の接続リンクの存在の確率予測値を計算するために使用される類似度計算サブモジュール、及び
予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、ノードのネットワークグラフを更新し、接続リンクを有するノードに対応する候補用語を集約するために使用される接続リンク追加サブモジュール。

本出願の実施形態の好ましい実施例として、予め設定された閾値は、第１の予め設定された閾値、及び第１の予め設定された閾値よりも小さい第２の予め設定された閾値を含む。接続リンク追加サブモジュールは、以下のサブユニットを含んでもよい：
第１の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、未接続ノード及び接続ノードについての更新されたノードのネットワークグラフにおいて複数の独立した接続グラフを作成し、同一の接続グラフに含まれるノードを抽出し、ノードに対応する候補用語を集約するために使用される接続グラフ集約サブユニット、及び
第２の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、予め設定された閾値よりも大きい接続リンク密度を有する領域について、領域に含まれるノードを抽出し、ノードに対応する候補用語を集約するために使用される領域集約サブユニット。

本出願の実施形態の好ましい実施例として、関連付け用語抽出モジュール４０７は、以下のサブモジュールを含んでもよい：
候補用語に隣接し、候補用語を記述するために使用される関連付け用語を履歴的ラベル付けデータから抽出するために使用される関連付け用語抽出サブモジュール。

方法の実施形態へのそれらの基本的な類似性に起因して、装置の実施形態の説明は相対的に単純である。それの関連する部分は、方法の実施形態のそれぞれの部分を参照してもよい。

本出願の明細書における様々な実施形態は、進歩的な方式で説明される。各々の実施形態の焦点は、他の実施形態の焦点とは異なる。実施形態の間の同一及び類似の部分は、相互に参照されてもよい。

当業者は、本開示の実施形態が、方法、装置、またはコンピュータソフトウェア製品としてであってもよいことを明確に理解することができる。従って、本出願の実施形態は、完全なハードウェアの実施形態、完全なソフトウェアの実施形態、またはソフトウェア及びハードウェアの実施形態の組み合わせの形式で使用されてもよい。更に、本出願の実施形態は、コンピュータ使用可能プログラムコードを含む１つ以上のコンピュータ使用可能記憶媒体（磁気記憶装置、ＣＤ−ＲＯＭ、光学式記憶装置などを含むがそれらに限定されない）の形式で実装されるコンピュータソフトウェア製品を使用することができる。

典型的な構成では、コンピューティングデバイスは、１つ以上のプロセッサ（ＣＰＵ）、出力／入力インタフェース、ネットワークインタフェース、及びメモリを含む。メモリは、揮発性メモリ、ランダムアクセスメモリ（ＲＡＭ）及び／または不揮発性メモリ、例えば、リードオンリメモリ（ＲＯＭ）またはフラッシュＲＡＭなどのコンピュータ可読媒体の形式を含んでもよい。メモリは、コンピュータ可読媒体の例である。コンピュータ可読媒体は、いずれかの方法または技術を使用して情報の記憶を実現することができる、揮発性または不揮発性タイプ、着脱可能または着脱不能媒体を含んでもよい。情報は、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータを含んでもよい。コンピュータ記憶媒体の例は、相変化メモリ（ＰＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、他のタイプのランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、電子的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、クイックフラッシュメモリ若しくは他の内部記憶技術、コンパクトディスクリードオンリメモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）若しくは他の光学式記憶装置、磁気カセットテープ、磁気ディスク記憶装置若しくは他の磁気記憶装置、またはコンピューティングデバイスによってアクセスすることができる情報を記憶するために使用することができるいずれかの他の非伝送媒体を含むが、それらに限定されない。本明細書で定義されるように、コンピュータ可読媒体は、変調データ信号及び搬送波などの一時的媒体を含まない。

本開示は、本開示の実施形態に従った方法、端末デバイス（システム）、及びコンピュータプログラム製品のフローチャート及び／またはブロック図を参照して説明される。コンピュータプログラム命令は、フローチャート及び／またはブロック図における各々の処理及び／またはブロック、並びにフローチャート及び／またはブロック図における処理（複数可）及び／またはブロック（複数可）の組み合わせを実装するために使用されてもよいことを理解するべきである。それらのコンピュータプログラム命令は、コンピュータまたは別のプログラマブルデータ処理端末デバイスのプロセッサによって実行される命令がフローチャートにおける１つ以上の処理及び／またはブロック図における１つ以上のブロックで指定される機能（複数可）を実装するための装置を生成するように、汎用コンピュータ、特殊目的コンピュータ、組み込み型プロセッサ、またはマシンを生成する別のプログラマブルデータ処理端末デバイスのプロセッサに提供されてもよい。

それらのコンピュータプログラム命令はまた、コンピュータ可読記憶装置に記憶された命令が命令装置を含む製品を生成するように、特定の方式で動作を実行するようにコンピュータまたは別のプログラマブルデータ処理端末デバイスに指示することができるコンピュータ可読記憶装置に記憶されてもよい。命令装置は、フローチャートにおける１つ以上の処理及び／またはブロック図における１つ以上のブロックで指定される機能（複数可）を実装する。

それらのコンピュータプログラム命令はまた、一連の動作がコンピュータまたは他のプログラマブル端末デバイス上で実行され、それによって、コンピュータ実施処理を生成するように、コンピュータまたは別のプログラマブルデータ処理端末デバイスにロードされてもよい。従って、コンピュータまたは他のプログラマブル端末デバイス上で実行される命令は、フローチャートにおける１つ以上の処理及び／またはブロック図における１つ以上のブロックで指定される機能（複数可）を実装するための手順を提供する。

本出願の実施形態における好ましい実施形態が説明されてきたが、当業者は、基本的な発明概念を知った後にそれらの実施形態に対して他の変更及び修正を行うことができる。従って、添付の特許請求の範囲は、好ましい実施形態、並びに本出願の実施形態の範囲内にある全ての変更及び修正を含むものとして解釈されることが意図される。

最後に、「第１の」及び「第２の」などの関係用語は、１つのエンティティまたは動作を別のエンティティまたは動作と区別するためのみに使用され、必ずしも実際のそれらのエンティティまたは動作の間のそれらの関係または順序のいずれも必要とせず、示唆するものでもない。更に、「含む」、「包含する」またはそれらの他の変形は、一連の要素を含む処理、方法、物品若しくは端末デバイスがその要素を含むのみでなく、特に記載されていない他の要素をも含み、または処理、方法、物品若しくは端末デバイスの本来の要素を更に含むように、包括的な包含をカバーすることが意図される。更なる限定なしに、フレーズ「〜を含む」によって定義される要素は、当該要素を含む処理、方法、物品、または端末デバイスに存在する他の同一の要素を排除しない。

本出願で提供される類似用語集約方法及び類似用語集約装置が上記詳細に説明された。特定の実施例は、本出願の原理及び実施態様を示すために本明細書で使用され、上記実施形態の説明は、本出願の方法及びその核となる概念を理解することを支援するために使用されるにすぎない。更に、当業者は、本出願の概念に基づいて出願の特定の実施態様及び範囲を変更することができる。要するに、本明細書の内容は、本出願の限定として解釈されるべきではない。

Claims

同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出することと、
前記候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を前記履歴的ラベル付けデータから別々に抽出することと、
前記関連付け用語の類似度に基づいて前記複数の候補用語を集約し、それらを同義語をとしてラベル付けすることと、
を含む、類似用語集約方法。
前記同一の用語特質を有する前記複数の候補用語を前記ネットワークアイテムの前記履歴的ラベル付けデータから抽出することは、
予め設定された用語区分化ルールに従って前記履歴的ラベル付けデータを複数の基本用語単位に区分けすることと、
前記同一の用語特質を有する前記複数の候補用語を前記複数の基本用語単位から抽出することと、
を含む、請求項１に記載の方法。
前記同一の用語特質を有する前記複数の候補用語を抽出する前に、前記方法は更に、
前記複数の基本用語単位の用語頻度−逆文献頻度を計算することと、
予め設定された範囲を満たすそれぞれの用語頻度−逆文献頻度を有する基本用語単位を選択することと、
を含む、請求項２に記載の方法。
前記関連付け用語の前記類似度に基づいて前記複数の候補用語を集約する前に、前記方法は更に、前記候補用語をノードとして使用し、前記関連付け用語を前記ノードの隣接ノードとして抽出して、前記候補用語と前記関連付け用語との間の用語特質関連付け関係を記録するノードのネットワークグラフを生成することを含む、請求項１に記載の方法。
前記関連付け用語の前記類似度に基づいて前記複数の候補用語を集約することは、
前記ノードの前記隣接ノードの類似度を計算し、前記候補用語の間の類似性を表す前記ノードの間の接続リンクの存在の確率予測値を計算することと、
予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、前記ノードのネットワークグラフを更新し、接続リンクを有するノードに対応する候補用語を集約することと、
を含む、請求項４に記載の方法。
前記予め設定された閾値は、第１の予め設定された閾値、及び前記第１の予め設定された閾値よりも小さい第２の予め設定された閾値を含み、前記予め設定された閾値よりも大きい前記確率予測値を有する前記ノードの間で前記接続リンクを追加し、前記ノードのネットワークグラフを更新し、接続リンクを有する前記ノードに対応する前記候補用語を集約することは、
前記第１の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、未接続ノード及び接続ノードについての前記更新されたノードのネットワークグラフにおいて複数の独立した接続グラフを作成し、同一の接続グラフに含まれるノードを抽出し、前記ノードに対応する候補用語を集約することと、
前記第２の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、予め設定された閾値よりも大きい接続リンク密度を有する領域について、前記領域に含まれるノードを抽出し、前記ノードに対応する候補用語を集約することと、
を含む、請求項５に記載の方法。
前記ノードのネットワークグラフを更新する前に、前記方法は更に、前記隣接ノードの間で前に存在していた接続リンクを削除することを含む、請求項５に記載の方法。
前記同一の用語特質を有する前記複数の候補用語を前記ネットワークアイテムの前記履歴的ラベル付けデータから抽出する前に、前記方法は更に、
前記ネットワークアイテムが属するアイテムカテゴリについての対応する履歴的ラベル付けデータ区分のアイテムカテゴリをラベル付けし、異なるカテゴリの履歴的ラベル付けデータ区分を区分けすることと、
同一のカテゴリの履歴的ラベル付けデータ区分を収集し、前記履歴的ラベル付けデータを生成することと、
を含む、請求項１に記載の方法。
前記候補用語に隣接し、それらと関連付けられた前記用語特質を有する前記関連付け用語を前記履歴的ラベル付けデータから別々に抽出することは、前記候補用語に隣接し、前記候補用語を記述するために使用される関連付け用語を前記履歴的ラベル付けデータから抽出することを含む、請求項１に記載の方法。
前記同一の用語特質を有する前記複数の候補用語を前記ネットワークアイテムの前記履歴的ラベル付けデータから抽出した後、前記方法は更に、予め設定された特質範囲を満たす前記用語特質を有する候補用語を選択することを含む、請求項１に記載の方法。
前記ネットワークアイテムの前記履歴的ラベル付けデータは、予め設定された閾値よりも少ない量の文字データを有し、前記ネットワークアイテムをレビューするために使用される用語データである、請求項１に記載の方法。
同一の用語特質を有する複数の候補用語をネットワークアイテムの履歴的ラベル付けデータから抽出するために使用される候補用語抽出モジュールと、
前記候補用語に隣接し、それらと関連付けられた用語特質を有する関連付け用語を前記履歴的ラベル付けデータから別々に抽出するために使用される関連付け用語抽出モジュールと、
前記関連付け用語の類似度に基づいて前記複数の候補用語を集約し、それらを同義語としてラベル付けするために使用される候補集約モジュールと、
を含む、類似用語集約装置。
前記候補用語抽出モジュールは、
予め設定された用語区分化ルールに従って前記履歴的ラベル付けデータを複数の基本用語単位に区分けするために使用される基本用語単位区分けサブモジュールと、
前記同一の用語特質を有する前記複数の候補用語を前記複数の基本用語単位から抽出するために使用される候補用語抽出サブモジュールと、
を含む、請求項１２に記載の装置。
前記複数の基本用語単位の用語頻度−逆文献頻度を計算するために使用される用語頻度−重要度計算モジュールと、
予め設定された範囲を満たすそれぞれの用語頻度−逆文献頻度を有する基本用語単位を選択するために使用される基本用語選択モジュールと、
を更に含む、請求項１３に記載の装置。
前記候補用語をノードとして使用し、前記関連付け用語を前記ノードの隣接ノードとして抽出して、前記候補用語と前記関連付け用語との間の用語特質関連付け関係を記録するノードのネットワークグラフを生成するために使用されるノードのネットワークグラフ生成モジュールを更に含む、請求項１２に記載の装置。
前記候補用語集約モジュールは、
前記ノードの前記隣接ノードの類似度を計算し、前記候補用語の間の類似性を表す前記ノードの間の接続リンクの存在の確率予測値を計算するために使用される類似度計算サブモジュールと、
予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、前記ノードのネットワークグラフを更新し、接続リンクを有するノードに対応する候補用語を集約するために使用される接続リンク追加サブモジュールと、
を含む、請求項１５に記載の装置。
前記予め設定された閾値は、第１の予め設定された閾値、及び前記第１の予め設定された閾値よりも小さい第２の予め設定された閾値を含み、前記接続リンク追加サブモジュールは、
前記第１の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、未接続ノード及び接続ノードについての前記更新されたノードのネットワークグラフにおいて複数の独立した接続グラフを作成し、同一の接続グラフに含まれるノードを抽出し、前記ノードに対応する候補用語を集約するために使用される接続グラフ集約サブユニットと、
前記第２の予め設定された閾値よりも大きい確率予測値を有するノードの間で接続リンクを追加し、予め設定された閾値よりも大きい接続リンク密度を有する領域について、前記領域に含まれるノードを抽出し、前記ノードに対応する候補用語を集約するために使用される領域集約サブユニットと、
を含む、請求項１６に記載の装置。
前記隣接ノードの間で存在した接続リンクを削除するために使用される接続リンク削除モジュールを更に含む、請求項１６に記載の装置。
前記ネットワークアイテムが属するアイテムカテゴリについての対応する履歴的ラベル付けデータ区分のアイテムカテゴリをラベル付けし、異なるカテゴリの履歴的ラベル付けデータ区分を区分けするために使用されるアイテムカテゴリ区分けモジュールと、
同一のカテゴリの履歴的ラベル付けデータ区分を収集し、前記履歴的ラベル付けデータを生成するために使用される履歴的ラベル付けデータ生成モジュールと、
を更に含む、請求項１２に記載の装置。
前記関連付け用語抽出モジュールは、前記候補用語に隣接し、前記候補用語を記述するために使用される関連付け用語を前記履歴的ラベル付けデータから抽出するために使用される関連付け用語抽出サブモジュールを含む、請求項１２に記載の装置。
予め設定された特質範囲を満たす前記用語特質を有する候補用語を選択するために使用される候補用語選択モジュールを更に含む、請求項１２に記載の装置。
前記ネットワークアイテムの前記履歴的ラベル付けデータは、予め設定された閾値よりも少ない量の文字データを有し、前記ネットワークアイテムをレビューするために使用される用語データである、請求項１２に記載の装置。