JP6846469B2

JP6846469B2 - インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置

Info

Publication number: JP6846469B2
Application number: JP2019125750A
Authority: JP
Inventors: ホアン、チーチョウ; スン、ヤーミン
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド
Priority date: 2018-09-10
Filing date: 2019-07-05
Publication date: 2021-03-24
Anticipated expiration: 2039-07-05
Also published as: US11347782B2; JP2020042779A; CN109145219B; EP3623762B1; US20200081908A1; KR20200029342A; CN109145219A; EP3623762A1; KR102302367B1

Description

本発明の実施例は、インターネット分野に関し、詳しくはインターネットテキストマイニング分野、特にインターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置に関する。

ＰＯＩ（ＰｏｉｎｔｏｆＩｎｔｅｒｅｓｔ，関心地点）とは、商店、病院、ガソリンスタンド、駅、レストランなど地図上の非地理的な意味を持つ任意の点を指す。１つのＰＯＩには、名称、カテゴリ、座標など複数の情報が含まれ得る。例えば、ＰＯＩのカテゴリには美食、ホテル、ショッピング、生活サービスなどが含まれ得る。１つのカテゴリにはさらに複数のサブカテゴリが含まれ得る。例えば、「美食」というカテゴリにはさらに中華料理店、外国料理レストラン、スナックバー、ケーキデザートショップ、カフェ、茶屋、バーなどのサブカテゴリが含まれ得る。

現在、地図のような製品（例えば、地図アプリケーション、ナビゲーションアプリケーションなど）では、無効なＰＯＩの発見は主にユーザのフィードバックに依存している。例えば、ユーザはナビゲーションアプリケーションを使用して特定のＰＯＩ位置に到達し、該ＰＯＩが移転したと気づいた場合、該ナビゲーションアプリケーションを操作することで、該ＰＯＩの無効を示す情報を、ナビゲーションサービスを提供するサーバにフィードバックすることができる。

本発明の実施例は、インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置を提供する。

第１態様では、本発明の実施例は、インターネットテキストマイニングに基づく関心地点の有効性の判断方法であって、検出すべき関心地点を示すための検索ワード集合を確定するステップと、確定された検索ワードを検索キーワードとして検索し、検出すべき関心地点を記述するための記述情報集合を取得するステップと、検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得するステップと、を含む方法を提供する。

いくつかの実施例では、検出すべき関心地点を示すための検索ワード集合を確定するステップは、検出すべき関心地点の名称と検出すべき関心地点の名称の同義語を検索ワード集合における検索ワードとすることを含む。

いくつかの実施例では、事前構築された有効性判別モデルは注意モデルであり、有効性判別モデルは、サンプル関心地点の名称、サンプル関心地点の記述情報を入力とし、サンプル関心地点のステータスタグを目標とし、初期注意モデルを訓練して、有効性判別モデルを取得する訓練ステップにより取得される。

いくつかの実施例では、注意モデルは意味認識サブモデルと特徴抽出サブモデルを含み、訓練ステップはさらに、１つのサンプル関心地点について、該サンプル関心地点の名称と該サンプル関心地点の記述情報の１つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点を記述するための該記述情報の特徴ベクトルを取得することと、該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定することと、加重総和に基づいて該サンプル関心地点のステータスタグに属する確率値を確定することと、事前設定された損失関数に基づいて、実際のタグにおける各サンプル関心地点の確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整して、有効性判別モデルを取得することと、を含む。

いくつかの実施例では、サンプル関心地点の記述情報は、サンプル関心地点の名称とサンプル関心地点の名称の同義語とからなる第１同義語集合を確定することと、サンプル関心地点のステータスタグとサンプル関心地点のステータスタグの同義語とからなる第２同義語集合を確定することと、第１同義語集合から確定された第１同義語と第２同義語集合から確定された第２同義語を検索ワードとして検索し、検索結果のうち、第１同義語と第２同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とすることと、によって取得される。

いくつかの実施例では、サンプル関心地点のステータスタグの同義語は、事前設定された同義語データベースから、サンプル関心地点のステータスタグの同義語を確定することと、サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語を、サンプル関心地点のステータスタグの同義語とすることと、の少なくとも一方に基づいて確定される。

いくつかの実施例では、関心地点の名称の同義語は、事前設定された百科データベースから、関心地点の名称の同義語を確定することと、関心地点の名称を検索ワードとして検索し、かつ検索によりマッチングされた実体を関心地点の名称の同義語とすることであって、マッチングされた実体は、事前設定された数の検索結果に含まれる実体のうち、関心地点の名称との最長共通サブストリングの、その名称に占める比率が、事前設定された比率の閾値を超えた実体であることと、関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果から関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することと、のうちの少なくとも１つに基づいて確定され、ここでは、関心地点は、検出すべき関心地点およびサンプル関心地点のうちの一方である。

第２の態様では、本発明の実施例は、インターネットテキストマイニングに基づく関心地点の有効性の判断装置であって、検出すべき関心地点を示すための検索ワード集合を確定するように構成される検索ワード確定ユニットと、確定された検索ワードを検索キーワードとして検索し、検出すべき関心地点を記述するための記述情報集合を取得するように構成される記述情報確定ユニットと、検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得するように構成される有効性判断ユニットと、を備える装置を提供する。

いくつかの実施例では、検索ワード確定ユニットはさらに、検出すべき関心地点の名称と検出すべき関心地点の名称の同義語を、検索ワード集合における検索ワードとするように構成される。

いくつかの実施例では、事前構築された有効性判別モデルは注意モデルであり、装置はさらに訓練ユニットを含み、訓練ユニットはさらに、サンプル関心地点の名称、サンプル関心地点の記述情報を入力とし、サンプル関心地点のステータスタグを目標とし、初期注意モデルを訓練して、有効性判別モデルを取得するように構成される。

いくつかの実施例では、注意モデルは意味認識サブモデルと特徴抽出サブモデルを含み、訓練ユニットはさらに、１つのサンプル関心地点について、該サンプル関心地点の名称と該サンプル関心地点の記述情報の１つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点を記述するための該記述情報の特徴ベクトルを取得し、該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定し、加重総和に基づいて該サンプル関心地点のステータスタグに属する確率値を確定し、事前設定された損失関数に基づいて、各サンプル関心地点の実際のタグにおける確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整して、有効性判別モデルを取得するように構成される。

いくつかの実施例では、サンプル関心地点のステータスタグの同義語は、事前設定された同義語データベースから、サンプル関心地点のステータスタグの同義語を確定することと、サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語をサンプル関心地点のステータスタグの同義語とすることと、の少なくとも一方に基づいて確定される。

いくつかの実施例では、装置は、同義語確定ユニットをさらに含み、同義語確定ユニットは、事前設定された百科データベースから、関心地点の名称の同義語を確定することと、関心地点の名称を検索ワードとして検索し、かつ検索によりマッチングされた実体を関心地点の名称の同義語とすることであって、マッチングされた実体は事前設定された数の検索結果に含まれる実体のうち、関心地点の名称との最長共通サブストリングの、その名称に占める比率が、事前設定された比率の閾値を超えた実体であることと、関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果から関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することと、のうちの少なくとも１つに基づいて関心地点の名称の同義語を確定するように構成され、ここでは、関心地点は、検出すべき関心地点およびサンプル関心地点のうちの一方である。

第３の態様では、本発明の実施例は、１つまたは複数のプロセッサと、１つまたは複数のプログラムを格納するための記憶装置と、を含む電子機器であって、１つまたは複数のプログラムが１つまたは複数のプロセッサにより実行されると、１つまたは複数のプロセッサに第１の態様に記載の方法を実行させる電子機器を提供する。

第４の態様では、本発明の実施例は、コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、プログラムは、プロセッサにより実行されると、第１の態様に記載の方法を実行するコンピュータ可読記憶媒体を提供する。

本発明の実施例により提供されたインターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置によれば、まず、検出すべき関心地点を示すための検索ワード集合を確定し、そして、確定された検索ワードを検索キーワードとして検索し、検索集合における検索ワードを記述するための記述情報集合を取得し、さらに、検出すべき関心地点の名称と記述情報集合における記述情報を構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得し、インターネットテキストに対するマイニングを通じて、かつモデルに基づいてＰＯＩの有効性を確定することで、無効なＰＯＩ情報（例えば、地図アプリケーションまたはナビゲーションアプリケーションに存在する無効なＰＯＩ情報）を適時に発見することができ、ユーザに正確な情報を提供することができ、ユーザのニーズを満たし、ユーザーエクスペリエンスを高めることができる。

本発明のその他の特徴、目的及び利点は、以下の図面を参照してなされる非限定的な実施例に係る詳細な説明を読むことにより、より明らかになるであろう。
図１は、本発明の一実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法が適用できる例示的なシステムアーキテクチャを示す図である。図２は、本発明に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法の一実施例を示すフローチャートである。図３は、本発明に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法の適用シナリオの一例を示す概略図である。図４は、本発明に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法のもう１つの実施例を示すフローチャートである。図５は、本発明に係る有効性判別モデルの１つの任意選択実施形態を示す概略的構成図である。図６は、本発明に係る有効性判別モデルの訓練方法の１つの任意選択実施形態を示す概略的フローチャートである。図７は、本発明に係る有効性判別モデルにおける、意味認識サブモデルの１つの任意選択実施形態を示す概略的構成図である。図８は、本発明に係るインターネットテキストマイニングに基づく関心地点の有効性の判断装置の一実施例を示す構成図である。図９は、本発明の実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法を達成するための電子機器に適用されるコンピュータシステムの構成概略図である。

以下、図面と実施例を参照しつつ、本発明をより詳細に説明する。ここに記載する具体的な実施形態が単に関連する発明を説明するためのものに過ぎず、当該発明への限定ではないことは、言うまでもない。また、注意すべきは、理解し易くするために、図面においては発明に関連する部分しか示されていない。

注意すべきは、矛盾を生じない限り、本発明における実施例と実施形態における特徴は相互に組み合わせることができる。以下、図面を参照しつつ、実施例を踏まえて、本発明を詳しく説明する。

図１は本発明のインターネットテキストマイニングに基づく関心地点の有効性の判断方法またはインターネットテキストマイニングに基づく関心地点の有効性の判断装置を適用できる実施例の例示的なシステムアーキテクチャ１００を示している。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１，１０２，１０３、ネットワーク１０４及びサーバ１０５を含み得る。ネットワーク１０４は、端末装置１０１，１０２，１０３とサーバ１０５の間で通信リンクの媒体を提供する。ネットワーク１０４は、有線、無線通信リンク、光ファイバケーブルなどの様々な種類の接続を含み得る。

端末装置１０１，１０２，１０３は、ハードウェアでも、ソフトウェアであってもよい。端末装置１０１，１０２，１０３は、ハードウェアである場合、ディスプレイを備える様々な電子機器であってもよく、スマートフォン、タブレット、電子書籍リーダー、ＭＰ３（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ，ムービングピクチャーエクスパーツグループオーディオレイヤー３）プレーヤ、ＭＰ４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ，ムービングピクチャーエクスパーツグループオーディオレイヤー４）プレーヤ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、それらに限定されない。端末装置１０１，１０２，１０３はソフトウェアである場合、上記の電子機器にインストールすることができる。それは、複数のソフトウェアまたはソフトウェアモジュール（例えば、分散型サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール）となってもよく、単一のソフトウェアまたはソフトウェアモジュールとなってもよい。ここでは具体的に限定しない。

サーバ１０５は、様々なサービスを提供するサーバ、例えば、端末装置１０１，１０２，１０３を使用するユーザにナビゲーションサービスを提供可能なナビゲーションサーバであり得る。ナビゲーションサーバは、受信したユーザのナビゲーション先などのデータを解析し、処理結果（例えば、解析結果に基づいて確定された該ナビゲーション先が示すＰＯＩが有効であるか否かを示す情報）を端末装置にフィードバックすることができる。

なお、本発明の実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法は、サーバ１０４によって実行されてもよい。したがって、インターネットテキストマイニングに基づく関心地点の有効性の判断装置は、サーバ１０４に設けられてもよい。

図１の端末装置１０１，１０２，１０３、ネットワーク１０４、およびサーバ１０５の数は単なる例示であることを理解されたい。必要に応じて、端末装置、ネットワーク、およびサーバの数を任意に加減してもよい。

引き続き図２を参照すると、本発明の実施形態に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法の一実施形態のフロー２００が示されている。該インターネットテキストマイニングに基づく関心地点の有効性の判断方法は、以下のステップを含む。

ステップ２０１：検出すべき関心地点を示すための検索ワード集合を確定する。

検出すべきＰＯＩは、地図アプリケーションまたはナビゲーションアプリケーションにおける任意のＰＯＩであり得る。

いくつかの任意選択実施形態では、地図アプリケーションまたはナビゲーションアプリケーションのサービスプロバイダは、地図および／またはナビゲーションサービスを提供できるＰＯＩの名称および関連情報を格納できるＰＯＩデータベースを維持することができる。

これらの任意選択実施形態のいくつかの適用シナリオでは、地図アプリケーションまたはナビゲーションアプリケーションのサービスプロバイダは、それによって提供されるＰＯＩの正確度を向上させるために、定期的に（例えば、所定の時間間隔で）または不定期的にＰＯＩデータベース内のＰＯＩステータスを更新することができる。

これらの適用シナリオでは、検出すべき関心地点は、ＰＯＩデータベース内の現在更新され確認される必要がある任意のＰＯＩであり得る。

または、他の適用シナリオでは、地図アプリケーションまたはナビゲーションアプリケーションを使用するユーザは、自分が行きたい行き先として特定のＰＯＩの名称を入力する。そして、サービスプロバイダは、このＰＯＩを検出すべき関心地点とすることができる。

本実施例では、インターネットテキストマイニングに基づく関心地点の有効性の判断方法の実行主体（例えば、図１に示すサーバ１０５）は、検出すべき関心地点を示すための検索ワード集合を様々な実施可能な方法で確定することができる。

例えば、いくつかの任意選択実施形態として、検出すべきＰＯＩの名称は、検索ワード集合における検索ワードとして直接使用されてもよい。

または、他のいくつかの任意選択実施形態では、複数種の言語による検出すべきＰＯＩの名称を検索ワード集合の検索ワードとすることができる。例えば、検出すべきＰＯＩが「北京首都国際空港」である場合、この検出すべきＰＯＩの中国語名称「北京首都国際空港」および対応する英語名称「ＢｅｉｊｉｎｇＣａｐｉｔａｌＩｎｔｅｒｎａｔｉｏｎａｌＡｉｒｐｏｒｔ」を検索ワード集合の検索ワードとすることができる。

または、さらなる他のいくつかの任意選択実施形態では、検出すべきＰＯＩの略称を検索ワード集合の検索ワードとすることができる。例えば、検出すべきＰＯＩが「北京首都国際空港」である場合、「北京首都国際空港」の略称である「首都国際空港」または「首都空港」などを検索ワード集合の検索ワードとすることができる。

ステップ２０２：確定された検索ワードを検索キーワードとして検索し、検出すべき関心地点を記述するための記述情報集合を取得する。

ここで、例えば、検索ワード集合の検索ワードは、検索結果を得るためのクエリ（ｑｕｅｒｙ）として使用することができる。

言うまでもなく、検索ワード集合における検索ワードのそれぞれについて、それをクエリとして検索すると、一連の検索結果を得られる。これらの検索結果は、例えば、検索結果ページに提示されているリンクの形式であり得る。

いくつかの任意選択実施形態では、検索結果ページ上に表示された、事前設定された数の検索結果リンクによってリンクされているページにおける、検索ワードを記述するための語句を、検出すべき関心地点を記述するための記述情報とすることができる。

詳しくは、これらの任意選択実施形態のいくつかの適用シナリオでは、検出すべきＰＯＩの名称が「北京首都国際空港」であり、かつ「首都空港」が検索ワード集合における検索ワードの１つである場合、「首都空港」をクエリとして検索を行い、一連の検索結果を取得することができる。例えば、「最近の首都空港はより厳格な保安検査措置を講じていますので、乗客の皆様は早めに空港に到着し、チェックインおよびチェックアップの手続きを行ってください。」という語句を含む検索結果リンクの１つをクリックした場合、この語句は「北京首都国際空港」という検出すべきＰＯＩの記述情報の１つとすることができる。

ステップ２０３：検出すべき関心地点の名称と記述情報集合における記述情報を事前設定された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すステータスタグを取得する。

このステップにおける有効性判別モデルは、検出すべき関心地点の名称および記述情報集合における記述情報に従って、この検出すべき関心地点のステータスタグを確定することができる。ここで、「有効性」とは、検出すべき関心地点が現在有効な状態にあるか否かと理解することができる。

例えば、検出すべき関心地点はＡモールである場合、Ａモールの有効性を示すステータスタグには、「営業」、「休業」、「閉店」、「移転」などがあり得る。言うまでもなく、これらのステータスタグのうち、「営業」はＡモールが有効な状態にあることを示すためのステータスタグであり得るが、「休業」、「閉店」、「移転」はＡモールが無効な状態にあることを示すためのステータスタグであり得る。

いくつかの任意選択実施形態では、例えば、ＰＯＩの有効性を示すためのステータスタグのステータスタグ集合を事前設定することができる。

これらの任意選択実施形態では、ステータスタグ集合におけるステータスタグのそれぞれを、記述情報集合における記述情報にマッチングすることができる。例えば、記述情報とステータスタグとの間の意味類似度を確定し、ステータスタグ集合における、記述情報集合の記述情報との意味類似度が最も高いステータスタグを、この検出すべき関心地点の有効性を示すためのステータスタグとする。

本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法によれば、まず、検出すべき関心地点を示すための検索ワード集合を確定し、そして、確定された検索ワードを検索キーワードとして検索し、検索集合における検索ワードを記述するための記述情報集合を取得し、さらに、検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得し、インターネットテキストに対するマイニングを通じて、かつモデルに基づいてＰＯＩの有効性を確定することで、地図における無効なＰＯＩ情報を適時に発見することができ、ユーザに正確な情報を提供することができ、ユーザのニーズを満たし、ユーザーエクスペリエンスを高めることができる。

次に図３を参照する。図３は、本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法の適用シナリオの一例を示す概略図３００である。

図３に示す適用シナリオでは、地図またはナビゲーションサービスのサービスプロバイダは、ＰＯＩを格納するデータベース３０１から、検出すべきＰＯＩである「ＸＸＸ衣料品卸売市場」を取得する。

そして、符号３０２に示すように、検出すべきＰＯＩの検索ワード集合を確定することができる。検索ワード集合には、検索ワードである「ＸＸＸ衣料品卸売市場」、「ＸＸＸ衣料品市場」および「ＸＸＸ卸売市場」が含まれる。

そして、符号３０３に示すように、検索ワード「ＸＸＸ衣料品卸売市場」、「ＸＸＸ衣料品市場」および「ＸＸＸ卸売市場」をそれぞれ検索キーワードとして検索し、一連の検索結果を得られる。検索結果から、検索ワードを記述するための語句を抽出し、「ＸＸＸ衣料品卸売市場」という検出すべきＰＯＩの記述情報として、記述情報集合を形成することができる。

そして、符号３０３に示すように、検出すべきＰＯＩである「ＸＸＸ衣料品卸売市場」と記述情報集合を事前構築された有効性判別モデルに入力することで、「ＸＸＸ衣料品卸売市場」が有効か否かを示すためのステータスタグ（例えば、「移転」）を取得する。このように、本実施例に係る方法によれば、検出すべきＰＯＩが有効の状態にあるか否かを判定することができるので、該地図やナビゲーションアプリケーションを利用するユーザは、ＰＯＩ検索および／またはナビゲーションを行う際に、適時に該ＰＯＩの正確な状態を取得し、より正確な地図および／またはナビゲーション情報を取得することができる。

本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法のいくつかの任意選択実施形態では、検出すべき関心地点を示すための検索ワード集合を確定するステップ２０１は、検出すべき関心地点の名称と検出すべき関心地点の名称の同義語を確定し、検索ワード集合における検索ワードとすることを含み得る。

通常、あるＰＯＩの正式なかつ正確な名称は、最も公衆に知られるかまたは使われている名称ではない。この場合、検出すべきＰＯＩの記述情報をできるだけ包括的かつ正確に収集するために、そして収集された記述情報の多様性不足によるステータスタグの誤判定を防止するために、検出すべきＰＯＩの検索ワード集合を確定するに当たっては、検出すべきＰＯＩの名称を検索ワード集合における検索ワードとするほか、この検出すべきＰＯＩの同義語を検索ワード集合における検索ワードとすることもできる。

これらの任意選択実施形態のいくつかの適用シナリオでは、事前設定された百科データベースから、検出すべきＰＯＩの名称の同義語を確定することができる。通常には、百科データベースは、格納されるデータの範囲が広く正確性が高いという特徴を有する。また、百科データベースの各エントリーのデータには、通常、そのエントリーの同義語が含まれている。

これらの任意選択実施形態の他の適用シナリオでは、検出すべきＰＯＩの名称を検索ワードとして検索し、検索によるマッチング実体を関心地点の名称の同義語とすることもできる。ここで、マッチング実体は、事前設定された数の検索結果に含まれる実体のうち、検出すべき関心地点の名称との最長共通サブストリングのその名称に占める比率が事前設定された比率の閾値を超えた実体であってもよい。

これらの適用シナリオでは、例えば、検出すべきＰＯＩは「ＡＡＡ衣料品市場」である場合、「ＡＡＡ衣料品市場」を検索ワードとして検索することができる。検索結果ページに表示された検索結果から、最初のＮ件（例えば、上位１０件）の検索結果を選択する。これらのＮ件の検索結果から、固有表現抽出（ＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ，ＮＥＲ）アルゴリズムによって候補実体を決定する。候補実体のうち、検出すべきＰＯＩとの最長共通サブストリングのその名称に占める比率が事前設定された比率の閾値（例えば、５０％）を超えた候補実体を、マッチング実体とする。

最長共通サブストリングは、最大共通サブストリングとも呼ばれ、２つまたは複数の文字列に含まれる共通サブストリングのうちの最も長いサブストリングを指すことができる。例えば、ある候補実体は「ＡＡＡ衣料品卸売市場」である場合、この候補実体と検出すべきＰＯＩの名称との間の最大共通サブストリングは「ＡＡＡ衣料品」である。ここで、最大共通サブストリングである「ＡＡＡ衣料品」が「ＡＡＡ衣料品卸売市場」という実体名称に占める比率（５／９）は５０％を超えているので、「ＡＡＡ衣料品卸売市場」を検出すべきＰＯＩである「ＡＡＡ衣料品市場」の同義語とすることができる。

これらの任意選択実施形態の別のいくつかの適用シナリオでは、検出すべきＰＯＩの名称を検索ワードとして検索し、事前設定された数の検索結果からこの検出すべきＰＯＩの名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することもできる。

実際の生活の中では、人々は重複を避けるために往々にして代詞、呼称および略語をもって、前に言及した実体の正式名称を示す。共参照解析（ｃｏｒｅｆｅｒｅｎｃｅｒｅｓｏｌｕｔｉｏｎ）とは、同一の実体を特徴付けるためのすべての代名詞をテキストから確定するための技術である。

共参照解析ツールを利用すれば、検出すべきＰＯＩを検索ワードとして検索した所定数の検索結果（例えば、上位Ｎ件の検索結果）から、この検出すべきＰＯＩを示すための代名詞を確定し、かつ確定された単語を検出すべきＰＯＩの名称の同義語とすることができる。

共参照解析アルゴリズムは、現在広く研究されている技術である。当業者は、既存または将来開発予定の共参照解析アルゴリズムを利用して、検出すべきＰＯＩを検索ワードとして検索した所定数の検索結果から、この検出すべきＰＯＩを示すための代名詞を確定することができる。

言うまでもなく、確定された検索ワード集合に含まれている検出すべきＰＯＩの同義語がより全面的なものになるように、上記の検出すべきＰＯＩの同義語を確定する方式における任意の少なくとも二者の組み合わせを採用して、検出すべきＰＯＩの同義語を確定することもできる。

さらに図４を参照すると、インターネットテキストマイニングに基づく関心地点の有効性の判断方法のもう１つの実施例のフロー４００が示されている。このインターネットテキストマイニングに基づく関心地点の有効性の判断方法のフロー４００は、以下のステップを含む。

ステップ４０１：検出すべき関心地点を示すための検索ワード集合を確定する。

ステップ４０２：確定された検索ワードを検索キーワードとして検索し、検出すべき関心地点を記述するための記述情報集合を取得する。

ステップ４０３：検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得する。

前述のステップ４０１〜４０３は、図２に示す実施例のステップ２０１〜２０３と同様に実行することができ、詳細はここで省略する。

図２に示した実施例との相違点は、本実施例では、事前構築された有効性判別モデルが注意モデルである。

注意モデル（ＡｔｔｅｎｔｉｏｎＭｏｄｅｌ）は、人間の脳の注意モデルを模擬している。例えば、私たちは、絵を観察するとき、絵全体を見ることができるが、注意深くそして細かく観察する場合、実際、目が焦点を合わせているのはとても小さな部分に過ぎない。この場合、人間の脳は主にこの小さな部分の画像に注目している。つまり、全体像に対する人間の脳による注目は、バランスがとれておらず、ある程度の重みのかたよりがある。これこそ、ディープラーニングにおけるＡｔｔｅｎｔｉｏｎＭｏｄｅｌの中核的な構想である。

本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法を適用するに当たって、注意モデルは、入力された記述情報ごとにそれぞれ重みを決定し、かつ検出すべきＰＯＩの各記述情報の加重総和に従って、確率が最も高いステータスタグを確定し、この検出すべきＰＯＩの有効性を示すためのステータスタグとすることができる。

図４をあわせると、本実施例では、注意モデルは以下のステップを通じて訓練して得ることができる。

ステップ４０４：サンプル関心地点の名称、サンプル関心地点の記述情報を入力とし、サンプル関心地点のステータスタグを目標とし、初期注意モデルを訓練して、有効性判別モデルを取得する。

初期の注意モデルのために初期のパラメータを設定し、サンプル関心地点の実際のステータスタグの確率を取得することができる。モデルから出力されるサンプル関心地点の実際のステータスタグの確率ができるだけ１００％に近づくように、モデルにおけるパラメータを連続的に調整する。

いくつかの適用シナリオでは、サンプル関心地点の記述情報は以下の方式で取得することができる。

まず、サンプル関心地点の名称とサンプル関心地点の名称の同義語とからなる第１同義語集合を確定する。例えば、サンプル関心地点の名称がＡであり、サンプル関心地点の同義語にＡ_１，…，Ａ_Ｍがある場合、第１同義語集合はＳｅｔ＿ｎａｍｅ＝｛Ａ，Ａ_１，…，Ａ_Ｍ｝となる。

言うまでもなく、本実施例では、サンプル関心地点の名称の同義語は、図２に示す実施例における検出すべき関心地点の確定方式と類似する方式で行うことができる。例えば、事前設定された百科データベースから、サンプル関心地点の名称の同義語を確定することができる。および／または、サンプル関心地点の名称を検索ワードとして検索し、かつ検索して取得したマッチング実体をサンプル関心地点の名称の同義語とすることもできる。なお、マッチング実体は、事前設定された数の検索結果に含まれている実体のうち、サンプル関心地点の名称との最長共通サブストリングのその名称に占める比率が事前設定された比率の閾値を超えた実体である。および／または、サンプル関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果からサンプル関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句からサンプル関心地点の名称を示すための単語を同義語として確定することもできる。

そして、サンプル関心地点のステータスタグとサンプル関心地点のステータスタグの同義語とからなる第２同義語集合を確定する。例えば、関心地点のステータスタグはＢであり、ステータスタグの同義語にＢ_１，…，Ｂ_Ｎがある場合、第２同義語集合はＳｅｔ＿ｌａｂｌｅ＝｛Ｂ，Ｂ_１，…，Ｂ_Ｎ｝となる。

任意選択的に、ステータスタグの同義語は、以下の少なくとも１つに基づいて確定することができる。

事前設定された同義語データベースから、サンプル関心地点のステータスタグの同義語を確定する。および／または、サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語を、サンプル関心地点のステータスタグの同義語とすることができる。

最後に、第１同義語集合から確定された第１同義語と第２同義語集合から確定された第２同義語を検索ワードとして検索し、かつ検索結果において第１同義語と第２同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とする。

例えば、第１同義語集合がＳｅｔ＿ｎａｍｅ＝｛Ａ，Ａ_１，…，Ａ_Ｍ｝であり、第２同義語集合がＳｅｔ＿ｌａｂｌｅ＝｛Ｂ，Ｂ_１，…，Ｂ_Ｎ｝である場合、検索ワード集合Ｌ＝｛ＡＢ，ＡＢ_１，…，ＡＢ_Ｎ，Ａ_１Ｂ，Ａ_１Ｂ_１…，Ａ_１Ｂ_Ｎ，…，Ａ_ＭＢ_Ｎ｝を取得することができる。検索ワード集合における要素それぞれを検索ワードとして検索し、検索結果において第１同義語と第２同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とする。

言うまでもなく、サンプル関心地点並びにその記述情報およびステータスタグを収集するプロセスにおいて、最終的に訓練して取得するモデルの予測正確率をより高めるために、訓練サンプルには、正のサンプルが含まれてもよく、負のサンプルが含まれてもよい。すなわち、訓練サンプルには、ステータスタグが該サンプル関心地点が有効な状態にあることを示すサンプルもあれば、ステータスタグが該サンプル関心地点が無効な状態にあることを示すサンプルもあることが可能である。

以下、さらに図５と図６を参照しながら、本実施例のいくつかの任意選択実施形態における注意モデルの構成とその訓練方式を説明する。

詳しくは、図５は本実施例のいくつかの任意選択実施形態における注意モデルの具体的な構成を示し、図６はこれらの任意選択実施形態における注意モデルの訓練ステップの具体的な実施プロセスを示す。

図５に示すように、注意モデル５００は、意味認識サブモデル５０１、特徴抽出サブモデル５０２、加重総和ユニット５０３、線形化ユニット５０４および分類器５０５などの構成を含み得る。

意味認識サブモデル５０１は、入力されたサンプルＰＯＩの名称と特定の記述情報ｓ_ｉ（ｉ＝１，２，…，ｎ）の意味特徴を抽出し、意味特徴ベクトルを取得することに使用できる。

特徴抽出サブモデル５０２は、サンプルＰＯＩの名称および１つの記述情報ｓ_ｉ（ｉ＝１，２，…，ｎ）から、１つまたは複数の事前設定されたルールに従って特徴抽出を行うことで、該サンプルＰＯＩの該記述情報を特徴付ける記述特徴ベクトルを取得することに使用できる。

いくつかの適用シナリオでは、特徴抽出サブモデル５０２は、事前設定されたルールに従って、記述情報に含まれるサンプル関心地点のステータスタグまたはサンプル関心地点のステータスタグの同義語の個数を示す特徴、および記述情報にはタグワードが含まれているか否かを示す特徴のうちの少なくとも一方を抽出することができる。言うまでもなく、ここで、タグワードはステータスタグそのものを含むほか、さらにステータスタグの同義語も含み得る。

言うまでもなく、注意モデル５００における意味認識サブモデル５０１と特徴抽出サブモデル５０２の具体的な個数は限定されない。

詳しくは、注意モデルは１つの意味認識サブモデルと１つの特徴抽出サブモデルを含み得る。このようにして、意味認識サブモデルと特徴抽出サブモデルはサンプルＰＯＩの名称並びに記述情報の意味特徴および記述特徴をそれぞれシリアルに抽出し、かつ該サンプルＰＯＩに対する各記述情報の意味特徴ベクトルおよび記述特徴ベクトルをそれぞれ取得することができる。

または、図５に示すように、注意モデル５００は複数の意味認識サブモデル５０１と複数の特徴抽出サブモデル５０２を含むこともできる。このようにして、各意味認識サブモデルと各特徴抽出サブモデルは意味特徴抽出および記述特徴抽出をパラレルに行うことができる。

なお、注意モデルはさらに加重総和ユニット５０３を含み得る。加重総和ユニット５０３は、サンプルＰＯＩの記述情報のそれぞれを意味認識サブモデルで識別して得られた意味特徴ベクトルと特徴抽出サブモデルで抽出して得られた記述特徴ベクトルを繋ぎ合わせて繋ぎ合わせ特徴ベクトルを取得し、加重総和を求め、そして加重総和を線形化ユニット５０４で線形化し、最後に線形化の結果を分類器５０５で分類し、サンプルＰＯＩがその実際のサンプルタグ（ｇｒｏｕｎｄｔｒｕｔｈ）を有する確率を取得することができる。

このように、注意モデルのモデルパラメータを連続的に調整することによって、それ相応に加重総和ユニット５０３の加重係数を調整することができるので、注意モデルから出力されるサンプルＰＯＩがその実際のサンプルタグに属する確率が連続的に増加する。

図６を参照すると、注意モデルの訓練プロセスがさらに具体的に示されている。

ステップ６０１では、サンプル関心地点の１つについて、該サンプル関心地点の名称と該サンプル関心地点の記述情報の１つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点の記述情報を記述するための特徴ベクトルを取得する。

いくつかの任意選択実施形態では、意味認識サブモデルは注意モデルであってもよい。図７を参照すると、注意モデルに基づく意味認識サブモデルの一実施例を示す例示的な構成図である。

意味認識サブモデルは、名称特徴抽出サブモデル７０１、少なくとも１つの単語特徴抽出サブモデル７０２、および加重総和ユニット７０３を含む。名称特徴抽出サブモデル７０１および単語特徴抽出サブモデル７０２は両方とも、双方向ＬＳＴＭ（長・短期記憶、ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ）に基づいてモデリングされて得られる。ｍ個の単語を含む語句について、各単語ｘ_１〜ｘ_ｍを単語特徴抽出サブモデル７０２に入力し、一連の隠れベクトルｈ_１，ｈ_２，…，ｈ_ｍを得られる。さらに、名称特徴抽出サブモデルを使用してＰＯＩ名称について特徴抽出を行い、名称ベクトルｖ_ＰＯＩを得られる。注意メカニズムを通じて、名称ベクトルｖ_ＰＯＩおよび各隠れベクトルを使用してそれぞれ重みβ_ｉ（ｉ＝１，２，…，ｍ）を算出する。算出された重みβ_１，β_２，…，βｍに基づき、加重総和ユニット７０３を使用して、記述情報の意味ベクトル表現ｖ_ｓを算出する。

詳しくは、次の通りである。

そして、意味認識サブモデルから得られた意味特徴ベクトルｖ_ｓと、特徴抽出サブモデルから抽出された記述特徴ベクトルとを繋ぎ合わせることで、各記述情報のベクトル表現Ｖ_ｓｅｎを得られる。

ステップ６０２では、該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定する。

詳しくは、注意メカニズムを使用して、該サンプル関心地点の各繋ぎ合わせ特徴ベクトルの加重総和ｖ_ｃを算出する。

式中、ｖ_ａはモデルパラメータであり、訓練中に連続的に調整されることが可能である。

ステップ６０３では、加重総和に基づき、該サンプル関心地点のステータスタグに属する確率値を確定する。

詳しくは、ステップ６０２に基づいて取得された加重総和ｖ_ｃについて線形変換を行い、かつ分類器に入力してタグ確率分布の予測を行う。ここで、最も確率の高いタグが該サンプルＰＯＩのステータスタグとして予測される。

ステップ６０４では、事前設定された損失関数に基づき、実際のタグにある各サンプル関心地点の確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整することで、有効性判別モデルを取得する。

例えば、損失関数は正確なタグの負の対数尤度（ｎｅｇａｔｉｖｅｌｏｇｌｉｋｅｌｉｈｏｏｄ）であってもよい。

式中、公式（３）においては、ｊは訓練サンプル集合におけるｉ番目のサンプルＰＯＩの正確なタグである。このようにして、上記の公式（３）を使用して、訓練サンプルの損失値を算出することができる。また、損失値のモデルにおけるバックプロパゲーション（例えば、確率的勾配降下法に基づくアルゴリズム）により、モデルパラメータを調整し、注意モデルを訓練することができる。

図４〜図７から分かるように、図２に係る実施例と比較して、本実施例のインターネットテキストマイニングに基づく関心地点の有効性の判断方法のフロー４００では、注意モデルに基づく有効性判別モデルを利用して、検出すべき関心地点のステータスタグを識別するので、有効性判別モデルは、ＰＯＩ状態の判定に重要な情報を記述情報から識別することができ、最終的に予測して得られたステータスタグがより正確になる。

さらに図８を参照すると、上記の各図に示された方法の実施形態として、本発明は、インターネットテキストマイニングに基づく関心地点の有効性の判断装置の一実施例を提供している。この装置の実施例は、図２に示された方法の実施例に対応している。詳しくは、この装置は様々な電子機器に適用することができる。

図８に示すように、本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断装置は、検索ワード確定ユニット８０１、記述情報確定ユニット８０２および有効性判断ユニット８０３を含む。

検索ワード確定ユニット８０１は、検出すべき関心地点を示すための検索ワード集合を確定するように構成され得る。

記述情報確定ユニット８０２は、確定された検索ワードを検索キーワードとして検索し、検出すべき関心地点を示すための記述情報集合を取得するように構成され得る。

有効性判断ユニット８０３は、検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得するように構成され得る。

いくつかの任意選択実施形態では、検索ワード確定ユニット８０１はさらに、検出すべき関心地点の名称と検出すべき関心地点の名称の同義語を検索ワード集合における検索ワードとするように構成され得る。

いくつかの任意選択実施形態では、事前構築された有効性判別モデルは、注意モデルであってもよい。

これらの任意選択実施形態では、装置はさらに訓練ユニット（図示せず）を含み得る。訓練ユニットはさらに、サンプル関心地点の名称、サンプル関心地点の記述情報を入力とし、サンプル関心地点のステータスタグを目標とし、初期注意モデルを訓練して、有効性判別モデルを取得するように構成され得る。

いくつかの任意選択実施形態では、注意モデルは、意味認識サブモデルと特徴抽出サブモデルを含み得る。

これらの任意選択実施形態では、訓練ユニットはさらに、１つのサンプル関心地点について、該サンプル関心地点の名称と該サンプル関心地点の記述情報の１つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点の該記述情報を記述するための特徴ベクトルを取得し、該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定し、加重総和に基づいて該サンプル関心地点のステータスタグに属する確率値を確定し、事前設定された損失関数に基づいて、実際のタグにある各サンプル関心地点の確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整して、有効性判別モデルを取得するように構成され得る。

いくつかの任意選択実施形態では、サンプル関心地点の記述情報は、サンプル関心地点の名称とサンプル関心地点の名称の同義語とからなる第１同義語集合を確定し、サンプル関心地点のステータスタグとサンプル関心地点のステータスタグの同義語とからなる第２同義語集合を確定し、第１同義語集合から確定された第１同義語と第２同義語集合から確定された第２同義語を検索ワードとして検索し、検索結果において第１同義語と第２同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とする方式によって取得することができる。

いくつかの任意選択実施形態では、サンプル関心地点のステータスタグの同義語は、事前設定された同義語データベースから、サンプル関心地点のステータスタグの同義語を確定することと、サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語を、サンプル関心地点のステータスタグの同義語とすることと、の少なくとも一方に基づいて確定されることができる。

いくつかの任意選択実施形態では、装置はさらに同義語確定ユニットを含み得る。

同義語確定ユニットは、事前設定された百科データベースから、関心地点の名称の同義語を確定することと、関心地点の名称を検索ワードとして検索し、かつ検索により取得されたマッチング実体を関心地点の名称の同義語とすることであって、マッチング実体は、事前設定された数の検索結果に含まれる実体のうち、関心地点の名称との最長共通サブストリングの、その名称に占める比率が、事前設定された比率の閾値を超えた実体であることと、関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果から関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することと、のうちの少なくとも１つに基づいて関心地点の名称の同義語を確定するように構成され得る。ここで、関心地点は、検出すべき関心地点とサンプル関心地点の一方であってよい。

以下、本発明の実施形態のインターネットテキストマイニングに基づく関心地点の有効性の判断方法を実施するための電子機器に適用されるコンピュータシステム９００の概略構成図を示す図９を参照する。図９に示す電子機器はあくまでも一例であり、本発明の実施例の機能や使用範囲を限定するものではない。

図９に示すように、コンピュータシステム９００は、読み取り専用メモリ（ＲＯＭ）９０２に格納されているプログラムまたは記憶部９０６からランダムアクセスメモリ（ＲＡＭ）９０３にロードされたプログラムに従って様々な適切な動作と処理を行うことができる中央処理装置（ＣＰＵ）９０１を含む。ＲＡＭ９０３にはさらにシステム９００の動作に必要な様々なプログラムやデータが格納されている。ＣＰＵ９０１、ＲＯＭ９０２、およびＲＡＭ９０３は、バス９０４を介して相互に接続されている。入出力（Ｉ／Ｏ）インターフェース９０５もバス９０４に接続されている。

Ｉ／Ｏインターフェース９０５には、ハードディスクなどを含む記憶部９０６、ＬＡＮカードやモデムなどのネットワークインタフェースカードを含む通信部９０７が接続されている。通信部９０７は、インターネットなどのネットワークを介して、通信処理を行う。ドライバ９０８も必要に応じて、Ｉ／Ｏインターフェース９０５に接続される。ドライバ９０８には、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア９０９が必要に応じて装着され、そこから読み出されるコンピュータプログラムが所望により記憶部９０６にインストールされる。

特に、本発明の実施例によれば、上述したフローチャートを参照しながら記載されたプロセスは、コンピュータソフトウェアプログラムとして実施することができる。例えば、本発明の実施例は、コンピュータ可読媒体上に具現化されているコンピュータプログラムを含むコンピュータプログラム製品を含み、該コンピュータプログラムは、フローチャートに示された方法を実行するためのプログラムコードを含む。このような実施例では、該コンピュータプログラムは、通信部９０７を介してネットワークからダウンロードおよびインストールされることができ、および／またはリムーバブルメディア９０９からインストールされることができる。該コンピュータプログラムが中央処理装置（ＣＰＵ）９０１によって実行されると、本発明の方法で定義された上述の機能が実行される。注意すべきは、本明細書に記載するコンピュータ可読媒体は、コンピュータ可読信号媒体もしくはコンピュータ可読記憶媒体、またはその２つの任意の組み合わせであってよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光学、電磁気、赤外線、または半導体のシステム、装置もしくはデバイス、またはそれらの任意の組み合わせであってよいが、それらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、１本以上の導線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ?ＲＯＭ）、光メモリ、磁気メモリ、またはこれらの任意の適切な組み合わせを含むが、それらに限られない。本発明において、コンピュータ可読媒体は、プログラムを含むかまたは格納している任意の有形の媒体であってもよい。当該プログラムは、命令実行システム、装置またはデバイスに使用されるか、またはそれらと組み合わせて使用されることができる。本発明において、コンピュータ可読信号媒体は、ベースバンド内に含まれるか、またはキャリアの一部としてデータ信号を伝送することができ、その中には、コンピュータ読み取り可能なプログラムコードが担持されている。かかる伝送されるデータ信号は複数の形式を採用することができ、電磁信号、光信号または上記の任意の適切な組み合わせを含むが、それらに限られない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。当該コンピュータ可読媒体は、命令実行システム、装置またはデバイスに使用されまたはそれらと組み合わせて使用されるプログラムを発信、伝送または転送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適切な媒体を使用して転送することができる。当該任意の適切な媒体とは、無線、有線、光ケーブル、ＲＦなど、または上記の任意の適切な組み合わせを含むが、それらに限られない。

本発明の動作を実行するためのコンピュータプログラムコードは１つまたは複数のプログラミング言語、またはそれらの組み合わせで作成されることができる。該プログラミング言語は、オブジェクト指向プログラミング言語（Ｊａｖａ（登録商標）、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋など）のほか、従来の手続き型プログラミング言語（「Ｃ」言語など）およびそれに類似するプログラミング言語をも含む。プログラムコードは、完全にユーザのコンピュータで実行されることも、部分的にユーザのコンピュータで実行されることも、単独のソフトウェアパッケージとして実行されることも、部分的にユーザのコンピュータで実行されながら部分的にリモートコンピュータで実行されることも、または完全にリモートコンピュータもしくはサーバで実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続することができ、または（例えば、インターネットサービスプロバイダによるインターネットサービスを介して）外部のコンピュータに接続することができる。

図面のうちのフローチャートおよびブロック図は、本発明の様々な実施例に係るシステム、方法およびコンピュータプログラム製品によって実施できるアーキテクチャ、機能および動作を示している。これについては、フローチャートまたはブロック図の各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。当該モジュール、プログラムセグメント、またはコードの一部には、所定のロジック機能を実施するための１つまたは複数の実行可能な命令が含まれている。さらに注意すべきは、いくつかの代替となる実施態様においては、ブロックに示されている機能は図面に示されているものとは異なる順序で実行されてもよい。例えば、連続して表された２つのブロックは、実際には関連する機能に応じて、ほぼ並行して実行されてもよく、時には、逆の順序で実行されてもよい。なお、ブロック図および／またはフローチャートにおけるすべてのブロック、ならびにブロック図および／またはフローチャートにおけるブロックの組み合わせは、所定の機能または操作を実行する専用のハードウェアベースのシステムで実施されてもよく、専用のハードウェアとコンピュータ命令との組み合わせで実施されてもよい。

本発明の実施例に記載されたユニットは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。記載されたユニットは、プロセッサに設けられてもよく、例えば「検索ワード確定ユニット、記述情報確定ユニットおよび有効性判断ユニットを含むプロセッサ」と記載されてもよい。なお、これらのユニットの名称は、ユニットそのものを限定するものではない場合がある。例えば、検索ワード確定ユニットは、「検出すべき関心地点を示すための検索ワード集合を確定するためのユニット」と記載することもできる。

別の態様では、本発明はまた、コンピュータ可読媒体を提供する。該コンピュータ可読媒体は、上記の実施例で説明された装置に含まれてもよく、または別々に存在して装置に組み込まれなくてもよい。上記のコンピュータ可読媒体には、１つまたは複数のプログラムは格納されている。かかる１つまたは複数のプログラムが該装置によって実行されると、該装置は、検出すべき関心地点を示すための検索ワード集合を確定し、確定された検索ワードを検索キーワードとして検索して検出すべき関心地点を記述するための記述情報集合を取得し、検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効判別モデルに入力して、検出すべき関心地点の有効性を示すためのステータスタグを取得する。

上記の説明はあくまでも本発明の好適な実施例および応用している技術の原理に対する説明に過ぎない。当業者であれば、本発明に言及された発明の範囲は、上記の技術的特徴の特定の組み合わせからなる技術的解決手段に限定されず、上記の発明構想から逸脱しない範囲内で上記の技術的特徴またはそれらの同等の特徴を任意に組み合わせてなる他の技術的解決手段をも含むことが理解できる。例えば、上記の特徴と本発明が開示した類似する機能を有する技術的特徴（それらに限られない）とが相互に置き換えてなる技術的解決手段をも含む。

Claims

サーバにより実行されるインターネットテキストマイニングに基づく関心地点の有効性の判断方法であって、
検出すべき関心地点を示すための検索ワード集合を確定するステップと、
確定された検索ワードを検索キーワードとして検索し、前記検出すべき関心地点を記述するための記述情報集合を取得するステップと、
前記検出すべき関心地点の名称と前記記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、前記検出すべき関心地点の有効性を示すためのステータスタグを取得するステップと、を含み、
前記有効性判別モデルは、サンプル関心地点の名称、前記サンプル関心地点の記述情報を入力とし、前記サンプル関心地点のステータスタグを目標とし、初期モデルを訓練して、前記有効性判別モデルを取得する訓練ステップにより取得される方法。
前記検出すべき関心地点を示すための検索ワード集合を確定するステップは、
前記検出すべき関心地点の名称と前記検出すべき関心地点の名称の同義語を前記検索ワード集合における検索ワードとすることを含む請求項１に記載の方法。
前記事前構築された有効性判別モデルは注意モデルである請求項１に記載の方法。
前記注意モデルは、意味認識サブモデルと特徴抽出サブモデルを含み、
前記訓練ステップは、さらに、
１つのサンプル関心地点について、該サンプル関心地点の名称と該サンプル関心地点の記述情報の１つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点を記述するための該記述情報の特徴ベクトルを取得することと、
該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定することと、
前記加重総和に基づいて該サンプル関心地点のステータスタグに属する確率値を確定することと、
事前設定された損失関数に基づいて、実際のタグにおける各サンプル関心地点の確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整して、前記有効性判別モデルを取得することと、を含む請求項３に記載の方法。
前記サンプル関心地点の記述情報は、
サンプル関心地点の名称とサンプル関心地点の名称の同義語とからなる第１同義語集合を確定することと、
サンプル関心地点のステータスタグとサンプル関心地点のステータスタグの同義語とからなる第２同義語集合を確定することと、
前記第１同義語集合から確定された第１同義語と前記第２同義語集合から確定された第２同義語を検索ワードとして検索し、検索結果のうち、第１同義語と第２同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とすることと、
によって取得される請求項３に記載の方法。
前記サンプル関心地点のステータスタグの同義語は、
事前設定された同義語データベースから、前記サンプル関心地点のステータスタグの同義語を確定すること、および
前記サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、前記サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語を、前記サンプル関心地点のステータスタグの同義語とすること、
の少なくとも一方に基づいて確定される請求項５に記載の方法。
関心地点の名称の同義語は、
事前設定された百科データベースから、関心地点の名称の同義語を確定することと、
関心地点の名称を検索ワードとして検索し、かつ検索によるマッチング実体を関心地点の名称の同義語とすることであって、前記マッチング実体は、事前設定された数の検索結果に含まれる実体のうち、関心地点の名称との最長共通サブストリングの、その名称に占める比率が、事前設定された比率の閾値を超えた実体であることと、
関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果から関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することと、
のうちの少なくとも１つに基づいて確定され、
前記関心地点は、前記検出すべき関心地点および前記サンプル関心地点のうちの一方である請求項２または請求項５に記載の方法。
インターネットテキストマイニングに基づく関心地点の有効性の判断装置であって、
検出すべき関心地点を示すための検索ワード集合を確定するように構成される検索ワード確定ユニットと、
確定された検索ワードを検索キーワードとして検索し、前記検出すべき関心地点を記述するための記述情報集合を取得するように構成される記述情報確定ユニットと、
前記検出すべき関心地点の名称と前記記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、前記検出すべき関心地点の有効性を示すためのステータスタグを取得するように構成される有効性判断ユニットと、
サンプル関心地点の名称、前記サンプル関心地点の記述情報を入力とし、前記サンプル関心地点のステータスタグを目標とし、初期注意モデルを訓練して、前記有効性判別モデルを取得するように構成される訓練ユニットと、を備える装置。
前記検索ワード確定ユニットはさらに、
前記検出すべき関心地点の名称と前記検出すべき関心地点の名称の同義語を、前記検索ワード集合における検索ワードとするように構成される請求項８に記載の装置。
前記事前構築された有効性判別モデルは注意モデルである請求項８に記載の装置。
前記注意モデルは意味認識サブモデルと特徴抽出サブモデルを含み、前記訓練ユニットはさらに、
１つのサンプル関心地点について、該サンプル関心地点の名称と該サンプル関心地点の記述情報の１つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点を記述するための該記述情報の特徴ベクトルを取得し、
該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定し、
前記加重総和に基づいて該サンプル関心地点のステータスタグに属する確率値を確定し、
事前設定された損失関数に基づいて、各サンプル関心地点の実際のタグにおける確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整して、前記有効性判別モデルを取得するように構成される請求項１０に記載の装置。
前記サンプル関心地点の記述情報は、
サンプル関心地点の名称とサンプル関心地点の名称の同義語とからなる第１同義語集合を確定することと、
サンプル関心地点のステータスタグとサンプル関心地点のステータスタグの同義語とからなる第２同義語集合を確定することと、
前記第１同義語集合から確定された第１同義語と前記第２同義語集合から確定された第２同義語を検索ワードとして検索し、検索結果のうち、第１同義語と第２同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とすることと、
によって取得される請求項１０に記載の装置。
前記サンプル関心地点のステータスタグの同義語は、
事前設定された同義語データベースから、前記サンプル関心地点のステータスタグの同義語を確定することと、
前記サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、前記サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語を前記サンプル関心地点のステータスタグの同義語とすることと、
の少なくとも一方に基づいて確定される請求項１２に記載の装置。
前記装置は、同義語確定ユニットをさらに含み、
前記同義語確定ユニットは、
事前設定された百科データベースから、関心地点の名称の同義語を確定することと、
関心地点の名称を検索ワードとして検索し、かつ検索によりマッチングされた実体を関心地点の名称の同義語とすることであって、前記マッチングされた実体は、事前設定された数の検索結果に含まれる実体のうち、関心地点の名称との最長共通サブストリングの、その名称に占める比率が、事前設定された比率の閾値を超えた実体であることと、
関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果から関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することと、
のうちの少なくとも１つに基づいて関心地点の名称の同義語を確定するように構成され、
前記関心地点は、前記検出すべき関心地点および前記サンプル関心地点のうちの一方である請求項９または請求項１２に記載の装置。
１つまたは複数のプロセッサと、
１つまたは複数のプログラムを格納するための記憶装置と、を含む電子機器であって、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサにより実行されると、前記１つまたは複数のプロセッサに請求項１〜７のいずれか一項に記載の方法を実行させる電子機器。
コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、
前記プログラムは、プロセッサにより実行されると、請求項１〜７のいずれか一項に記載の方法を実行するコンピュータ可読記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項１〜７のいずれか一項に記載の方法を実現する、コンピュータプログラム。