JP6846469B2 - インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置 - Google Patents

インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置 Download PDF

Info

Publication number
JP6846469B2
JP6846469B2 JP2019125750A JP2019125750A JP6846469B2 JP 6846469 B2 JP6846469 B2 JP 6846469B2 JP 2019125750 A JP2019125750 A JP 2019125750A JP 2019125750 A JP2019125750 A JP 2019125750A JP 6846469 B2 JP6846469 B2 JP 6846469B2
Authority
JP
Japan
Prior art keywords
interest
point
sample
name
synonym
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019125750A
Other languages
English (en)
Other versions
JP2020042779A (ja
Inventor
ホアン、チーチョウ
スン、ヤーミン
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド, バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド
Publication of JP2020042779A publication Critical patent/JP2020042779A/ja
Application granted granted Critical
Publication of JP6846469B2 publication Critical patent/JP6846469B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/38Electronic maps specially adapted for navigation; Updating thereof
    • G01C21/3804Creation or updating of map data
    • G01C21/3807Creation or updating of map data characterised by the type of data
    • G01C21/3811Point data, e.g. Point of Interest [POI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明の実施例は、インターネット分野に関し、詳しくはインターネットテキストマイニング分野、特にインターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置に関する。
POI(Point of Interest,関心地点)とは、商店、病院、ガソリンスタンド、駅、レストランなど地図上の非地理的な意味を持つ任意の点を指す。1つのPOIには、名称、カテゴリ、座標など複数の情報が含まれ得る。例えば、POIのカテゴリには美食、ホテル、ショッピング、生活サービスなどが含まれ得る。1つのカテゴリにはさらに複数のサブカテゴリが含まれ得る。例えば、「美食」というカテゴリにはさらに中華料理店、外国料理レストラン、スナックバー、ケーキデザートショップ、カフェ、茶屋、バーなどのサブカテゴリが含まれ得る。
現在、地図のような製品(例えば、地図アプリケーション、ナビゲーションアプリケーションなど)では、無効なPOIの発見は主にユーザのフィードバックに依存している。例えば、ユーザはナビゲーションアプリケーションを使用して特定のPOI位置に到達し、該POIが移転したと気づいた場合、該ナビゲーションアプリケーションを操作することで、該POIの無効を示す情報を、ナビゲーションサービスを提供するサーバにフィードバックすることができる。
本発明の実施例は、インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置を提供する。
第1態様では、本発明の実施例は、インターネットテキストマイニングに基づく関心地点の有効性の判断方法であって、検出すべき関心地点を示すための検索ワード集合を確定するステップと、確定された検索ワードを検索キーワードとして検索し、検出すべき関心地点を記述するための記述情報集合を取得するステップと、検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得するステップと、を含む方法を提供する。
いくつかの実施例では、検出すべき関心地点を示すための検索ワード集合を確定するステップは、検出すべき関心地点の名称と検出すべき関心地点の名称の同義語を検索ワード集合における検索ワードとすることを含む。
いくつかの実施例では、事前構築された有効性判別モデルは注意モデルであり、有効性判別モデルは、サンプル関心地点の名称、サンプル関心地点の記述情報を入力とし、サンプル関心地点のステータスタグを目標とし、初期注意モデルを訓練して、有効性判別モデルを取得する訓練ステップにより取得される。
いくつかの実施例では、注意モデルは意味認識サブモデルと特徴抽出サブモデルを含み、訓練ステップはさらに、1つのサンプル関心地点について、該サンプル関心地点の名称と該サンプル関心地点の記述情報の1つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点を記述するための該記述情報の特徴ベクトルを取得することと、該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定することと、加重総和に基づいて該サンプル関心地点のステータスタグに属する確率値を確定することと、事前設定された損失関数に基づいて、実際のタグにおける各サンプル関心地点の確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整して、有効性判別モデルを取得することと、を含む。
いくつかの実施例では、サンプル関心地点の記述情報は、サンプル関心地点の名称とサンプル関心地点の名称の同義語とからなる第1同義語集合を確定することと、サンプル関心地点のステータスタグとサンプル関心地点のステータスタグの同義語とからなる第2同義語集合を確定することと、第1同義語集合から確定された第1同義語と第2同義語集合から確定された第2同義語を検索ワードとして検索し、検索結果のうち、第1同義語と第2同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とすることと、によって取得される。
いくつかの実施例では、サンプル関心地点のステータスタグの同義語は、事前設定された同義語データベースから、サンプル関心地点のステータスタグの同義語を確定することと、サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語を、サンプル関心地点のステータスタグの同義語とすることと、の少なくとも一方に基づいて確定される。
いくつかの実施例では、関心地点の名称の同義語は、事前設定された百科データベースから、関心地点の名称の同義語を確定することと、関心地点の名称を検索ワードとして検索し、かつ検索によりマッチングされた実体を関心地点の名称の同義語とすることであって、マッチングされた実体は、事前設定された数の検索結果に含まれる実体のうち、関心地点の名称との最長共通サブストリングの、その名称に占める比率が、事前設定された比率の閾値を超えた実体であることと、関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果から関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することと、のうちの少なくとも1つに基づいて確定され、ここでは、関心地点は、検出すべき関心地点およびサンプル関心地点のうちの一方である。
第2の態様では、本発明の実施例は、インターネットテキストマイニングに基づく関心地点の有効性の判断装置であって、検出すべき関心地点を示すための検索ワード集合を確定するように構成される検索ワード確定ユニットと、確定された検索ワードを検索キーワードとして検索し、検出すべき関心地点を記述するための記述情報集合を取得するように構成される記述情報確定ユニットと、検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得するように構成される有効性判断ユニットと、を備える装置を提供する。
いくつかの実施例では、検索ワード確定ユニットはさらに、検出すべき関心地点の名称と検出すべき関心地点の名称の同義語を、検索ワード集合における検索ワードとするように構成される。
いくつかの実施例では、事前構築された有効性判別モデルは注意モデルであり、装置はさらに訓練ユニットを含み、訓練ユニットはさらに、サンプル関心地点の名称、サンプル関心地点の記述情報を入力とし、サンプル関心地点のステータスタグを目標とし、初期注意モデルを訓練して、有効性判別モデルを取得するように構成される。
いくつかの実施例では、注意モデルは意味認識サブモデルと特徴抽出サブモデルを含み、訓練ユニットはさらに、1つのサンプル関心地点について、該サンプル関心地点の名称と該サンプル関心地点の記述情報の1つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点を記述するための該記述情報の特徴ベクトルを取得し、該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定し、加重総和に基づいて該サンプル関心地点のステータスタグに属する確率値を確定し、事前設定された損失関数に基づいて、各サンプル関心地点の実際のタグにおける確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整して、有効性判別モデルを取得するように構成される。
いくつかの実施例では、サンプル関心地点の記述情報は、サンプル関心地点の名称とサンプル関心地点の名称の同義語とからなる第1同義語集合を確定することと、サンプル関心地点のステータスタグとサンプル関心地点のステータスタグの同義語とからなる第2同義語集合を確定することと、第1同義語集合から確定された第1同義語と第2同義語集合から確定された第2同義語を検索ワードとして検索し、検索結果のうち、第1同義語と第2同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とすることと、によって取得される。
いくつかの実施例では、サンプル関心地点のステータスタグの同義語は、事前設定された同義語データベースから、サンプル関心地点のステータスタグの同義語を確定することと、サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語をサンプル関心地点のステータスタグの同義語とすることと、の少なくとも一方に基づいて確定される。
いくつかの実施例では、装置は、同義語確定ユニットをさらに含み、同義語確定ユニットは、事前設定された百科データベースから、関心地点の名称の同義語を確定することと、関心地点の名称を検索ワードとして検索し、かつ検索によりマッチングされた実体を関心地点の名称の同義語とすることであって、マッチングされた実体は事前設定された数の検索結果に含まれる実体のうち、関心地点の名称との最長共通サブストリングの、その名称に占める比率が、事前設定された比率の閾値を超えた実体であることと、関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果から関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することと、のうちの少なくとも1つに基づいて関心地点の名称の同義語を確定するように構成され、ここでは、関心地点は、検出すべき関心地点およびサンプル関心地点のうちの一方である。
第3の態様では、本発明の実施例は、1つまたは複数のプロセッサと、1つまたは複数のプログラムを格納するための記憶装置と、を含む電子機器であって、1つまたは複数のプログラムが1つまたは複数のプロセッサにより実行されると、1つまたは複数のプロセッサに第1の態様に記載の方法を実行させる電子機器を提供する。
第4の態様では、本発明の実施例は、コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、プログラムは、プロセッサにより実行されると、第1の態様に記載の方法を実行するコンピュータ可読記憶媒体を提供する。
本発明の実施例により提供されたインターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置によれば、まず、検出すべき関心地点を示すための検索ワード集合を確定し、そして、確定された検索ワードを検索キーワードとして検索し、検索集合における検索ワードを記述するための記述情報集合を取得し、さらに、検出すべき関心地点の名称と記述情報集合における記述情報を構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得し、インターネットテキストに対するマイニングを通じて、かつモデルに基づいてPOIの有効性を確定することで、無効なPOI情報(例えば、地図アプリケーションまたはナビゲーションアプリケーションに存在する無効なPOI情報)を適時に発見することができ、ユーザに正確な情報を提供することができ、ユーザのニーズを満たし、ユーザーエクスペリエンスを高めることができる。
本発明のその他の特徴、目的及び利点は、以下の図面を参照してなされる非限定的な実施例に係る詳細な説明を読むことにより、より明らかになるであろう。
図1は、本発明の一実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法が適用できる例示的なシステムアーキテクチャを示す図である。 図2は、本発明に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法の一実施例を示すフローチャートである。 図3は、本発明に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法の適用シナリオの一例を示す概略図である。 図4は、本発明に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法のもう1つの実施例を示すフローチャートである。 図5は、本発明に係る有効性判別モデルの1つの任意選択実施形態を示す概略的構成図である。 図6は、本発明に係る有効性判別モデルの訓練方法の1つの任意選択実施形態を示す概略的フローチャートである。 図7は、本発明に係る有効性判別モデルにおける、意味認識サブモデルの1つの任意選択実施形態を示す概略的構成図である。 図8は、本発明に係るインターネットテキストマイニングに基づく関心地点の有効性の判断装置の一実施例を示す構成図である。 図9は、本発明の実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法を達成するための電子機器に適用されるコンピュータシステムの構成概略図である。
以下、図面と実施例を参照しつつ、本発明をより詳細に説明する。ここに記載する具体的な実施形態が単に関連する発明を説明するためのものに過ぎず、当該発明への限定ではないことは、言うまでもない。また、注意すべきは、理解し易くするために、図面においては発明に関連する部分しか示されていない。
注意すべきは、矛盾を生じない限り、本発明における実施例と実施形態における特徴は相互に組み合わせることができる。以下、図面を参照しつつ、実施例を踏まえて、本発明を詳しく説明する。
図1は本発明のインターネットテキストマイニングに基づく関心地点の有効性の判断方法またはインターネットテキストマイニングに基づく関心地点の有効性の判断装置を適用できる実施例の例示的なシステムアーキテクチャ100を示している。
図1に示すように、システムアーキテクチャ100は、端末装置101,102,103、ネットワーク104及びサーバ105を含み得る。ネットワーク104は、端末装置101,102,103とサーバ105の間で通信リンクの媒体を提供する。ネットワーク104は、有線、無線通信リンク、光ファイバケーブルなどの様々な種類の接続を含み得る。
端末装置101,102,103は、ハードウェアでも、ソフトウェアであってもよい。端末装置101,102,103は、ハードウェアである場合、ディスプレイを備える様々な電子機器であってもよく、スマートフォン、タブレット、電子書籍リーダー、MP3(Moving Picture Experts Group Audio Layer III,ムービングピクチャーエクスパーツグループオーディオレイヤー3)プレーヤ、MP4(Moving Picture Experts Group Audio Layer IV,ムービングピクチャーエクスパーツグループオーディオレイヤー4)プレーヤ、ラップトップコンピュータおよびデスクトップコンピュータなどを含むが、それらに限定されない。端末装置101,102,103はソフトウェアである場合、上記の電子機器にインストールすることができる。それは、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散型サービスを提供するための複数のソフトウェアまたはソフトウェアモジュール)となってもよく、単一のソフトウェアまたはソフトウェアモジュールとなってもよい。ここでは具体的に限定しない。
サーバ105は、様々なサービスを提供するサーバ、例えば、端末装置101,102,103を使用するユーザにナビゲーションサービスを提供可能なナビゲーションサーバであり得る。ナビゲーションサーバは、受信したユーザのナビゲーション先などのデータを解析し、処理結果(例えば、解析結果に基づいて確定された該ナビゲーション先が示すPOIが有効であるか否かを示す情報)を端末装置にフィードバックすることができる。
なお、本発明の実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法は、サーバ104によって実行されてもよい。したがって、インターネットテキストマイニングに基づく関心地点の有効性の判断装置は、サーバ104に設けられてもよい。
図1の端末装置101,102,103、ネットワーク104、およびサーバ105の数は単なる例示であることを理解されたい。必要に応じて、端末装置、ネットワーク、およびサーバの数を任意に加減してもよい。
引き続き図2を参照すると、本発明の実施形態に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法の一実施形態のフロー200が示されている。該インターネットテキストマイニングに基づく関心地点の有効性の判断方法は、以下のステップを含む。
ステップ201:検出すべき関心地点を示すための検索ワード集合を確定する。
検出すべきPOIは、地図アプリケーションまたはナビゲーションアプリケーションにおける任意のPOIであり得る。
いくつかの任意選択実施形態では、地図アプリケーションまたはナビゲーションアプリケーションのサービスプロバイダは、地図および/またはナビゲーションサービスを提供できるPOIの名称および関連情報を格納できるPOIデータベースを維持することができる。
これらの任意選択実施形態のいくつかの適用シナリオでは、地図アプリケーションまたはナビゲーションアプリケーションのサービスプロバイダは、それによって提供されるPOIの正確度を向上させるために、定期的に(例えば、所定の時間間隔で)または不定期的にPOIデータベース内のPOIステータスを更新することができる。
これらの適用シナリオでは、検出すべき関心地点は、POIデータベース内の現在更新され確認される必要がある任意のPOIであり得る。
または、他の適用シナリオでは、地図アプリケーションまたはナビゲーションアプリケーションを使用するユーザは、自分が行きたい行き先として特定のPOIの名称を入力する。そして、サービスプロバイダは、このPOIを検出すべき関心地点とすることができる。
本実施例では、インターネットテキストマイニングに基づく関心地点の有効性の判断方法の実行主体(例えば、図1に示すサーバ105)は、検出すべき関心地点を示すための検索ワード集合を様々な実施可能な方法で確定することができる。
例えば、いくつかの任意選択実施形態として、検出すべきPOIの名称は、検索ワード集合における検索ワードとして直接使用されてもよい。
または、他のいくつかの任意選択実施形態では、複数種の言語による検出すべきPOIの名称を検索ワード集合の検索ワードとすることができる。例えば、検出すべきPOIが「北京首都国際空港」である場合、この検出すべきPOIの中国語名称「北京首都国際空港」および対応する英語名称「Beijing Capital International Airport」を検索ワード集合の検索ワードとすることができる。
または、さらなる他のいくつかの任意選択実施形態では、検出すべきPOIの略称を検索ワード集合の検索ワードとすることができる。例えば、検出すべきPOIが「北京首都国際空港」である場合、「北京首都国際空港」の略称である「首都国際空港」または「首都空港」などを検索ワード集合の検索ワードとすることができる。
ステップ202:確定された検索ワードを検索キーワードとして検索し、検出すべき関心地点を記述するための記述情報集合を取得する。
ここで、例えば、検索ワード集合の検索ワードは、検索結果を得るためのクエリ(query)として使用することができる。
言うまでもなく、検索ワード集合における検索ワードのそれぞれについて、それをクエリとして検索すると、一連の検索結果を得られる。これらの検索結果は、例えば、検索結果ページに提示されているリンクの形式であり得る。
いくつかの任意選択実施形態では、検索結果ページ上に表示された、事前設定された数の検索結果リンクによってリンクされているページにおける、検索ワードを記述するための語句を、検出すべき関心地点を記述するための記述情報とすることができる。
詳しくは、これらの任意選択実施形態のいくつかの適用シナリオでは、検出すべきPOIの名称が「北京首都国際空港」であり、かつ「首都空港」が検索ワード集合における検索ワードの1つである場合、「首都空港」をクエリとして検索を行い、一連の検索結果を取得することができる。例えば、「最近の首都空港はより厳格な保安検査措置を講じていますので、乗客の皆様は早めに空港に到着し、チェックインおよびチェックアップの手続きを行ってください。」という語句を含む検索結果リンクの1つをクリックした場合、この語句は「北京首都国際空港」という検出すべきPOIの記述情報の1つとすることができる。
ステップ203:検出すべき関心地点の名称と記述情報集合における記述情報を事前設定された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すステータスタグを取得する。
このステップにおける有効性判別モデルは、検出すべき関心地点の名称および記述情報集合における記述情報に従って、この検出すべき関心地点のステータスタグを確定することができる。ここで、「有効性」とは、検出すべき関心地点が現在有効な状態にあるか否かと理解することができる。
例えば、検出すべき関心地点はAモールである場合、Aモールの有効性を示すステータスタグには、「営業」、「休業」、「閉店」、「移転」などがあり得る。言うまでもなく、これらのステータスタグのうち、「営業」はAモールが有効な状態にあることを示すためのステータスタグであり得るが、「休業」、「閉店」、「移転」はAモールが無効な状態にあることを示すためのステータスタグであり得る。
いくつかの任意選択実施形態では、例えば、POIの有効性を示すためのステータスタグのステータスタグ集合を事前設定することができる。
これらの任意選択実施形態では、ステータスタグ集合におけるステータスタグのそれぞれを、記述情報集合における記述情報にマッチングすることができる。例えば、記述情報とステータスタグとの間の意味類似度を確定し、ステータスタグ集合における、記述情報集合の記述情報との意味類似度が最も高いステータスタグを、この検出すべき関心地点の有効性を示すためのステータスタグとする。
本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法によれば、まず、検出すべき関心地点を示すための検索ワード集合を確定し、そして、確定された検索ワードを検索キーワードとして検索し、検索集合における検索ワードを記述するための記述情報集合を取得し、さらに、検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得し、インターネットテキストに対するマイニングを通じて、かつモデルに基づいてPOIの有効性を確定することで、地図における無効なPOI情報を適時に発見することができ、ユーザに正確な情報を提供することができ、ユーザのニーズを満たし、ユーザーエクスペリエンスを高めることができる。
次に図3を参照する。図3は、本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法の適用シナリオの一例を示す概略図300である。
図3に示す適用シナリオでは、地図またはナビゲーションサービスのサービスプロバイダは、POIを格納するデータベース301から、検出すべきPOIである「XXX衣料品卸売市場」を取得する。
そして、符号302に示すように、検出すべきPOIの検索ワード集合を確定することができる。検索ワード集合には、検索ワードである「XXX衣料品卸売市場」、「XXX衣料品市場」および「XXX卸売市場」が含まれる。
そして、符号303に示すように、検索ワード「XXX衣料品卸売市場」、「XXX衣料品市場」および「XXX卸売市場」をそれぞれ検索キーワードとして検索し、一連の検索結果を得られる。検索結果から、検索ワードを記述するための語句を抽出し、「XXX衣料品卸売市場」という検出すべきPOIの記述情報として、記述情報集合を形成することができる。
そして、符号303に示すように、検出すべきPOIである「XXX衣料品卸売市場」と記述情報集合を事前構築された有効性判別モデルに入力することで、「XXX衣料品卸売市場」が有効か否かを示すためのステータスタグ(例えば、「移転」)を取得する。このように、本実施例に係る方法によれば、検出すべきPOIが有効の状態にあるか否かを判定することができるので、該地図やナビゲーションアプリケーションを利用するユーザは、POI検索および/またはナビゲーションを行う際に、適時に該POIの正確な状態を取得し、より正確な地図および/またはナビゲーション情報を取得することができる。
本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法のいくつかの任意選択実施形態では、検出すべき関心地点を示すための検索ワード集合を確定するステップ201は、検出すべき関心地点の名称と検出すべき関心地点の名称の同義語を確定し、検索ワード集合における検索ワードとすることを含み得る。
通常、あるPOIの正式なかつ正確な名称は、最も公衆に知られるかまたは使われている名称ではない。この場合、検出すべきPOIの記述情報をできるだけ包括的かつ正確に収集するために、そして収集された記述情報の多様性不足によるステータスタグの誤判定を防止するために、検出すべきPOIの検索ワード集合を確定するに当たっては、検出すべきPOIの名称を検索ワード集合における検索ワードとするほか、この検出すべきPOIの同義語を検索ワード集合における検索ワードとすることもできる。
これらの任意選択実施形態のいくつかの適用シナリオでは、事前設定された百科データベースから、検出すべきPOIの名称の同義語を確定することができる。通常には、百科データベースは、格納されるデータの範囲が広く正確性が高いという特徴を有する。また、百科データベースの各エントリーのデータには、通常、そのエントリーの同義語が含まれている。
これらの任意選択実施形態の他の適用シナリオでは、検出すべきPOIの名称を検索ワードとして検索し、検索によるマッチング実体を関心地点の名称の同義語とすることもできる。ここで、マッチング実体は、事前設定された数の検索結果に含まれる実体のうち、検出すべき関心地点の名称との最長共通サブストリングのその名称に占める比率が事前設定された比率の閾値を超えた実体であってもよい。
これらの適用シナリオでは、例えば、検出すべきPOIは「AAA衣料品市場」である場合、「AAA衣料品市場」を検索ワードとして検索することができる。検索結果ページに表示された検索結果から、最初のN件(例えば、上位10件)の検索結果を選択する。これらのN件の検索結果から、固有表現抽出(Named Entity Recognition,NER)アルゴリズムによって候補実体を決定する。候補実体のうち、検出すべきPOIとの最長共通サブストリングのその名称に占める比率が事前設定された比率の閾値(例えば、50%)を超えた候補実体を、マッチング実体とする。
最長共通サブストリングは、最大共通サブストリングとも呼ばれ、2つまたは複数の文字列に含まれる共通サブストリングのうちの最も長いサブストリングを指すことができる。例えば、ある候補実体は「AAA衣料品卸売市場」である場合、この候補実体と検出すべきPOIの名称との間の最大共通サブストリングは「AAA衣料品」である。ここで、最大共通サブストリングである「AAA衣料品」が「AAA衣料品卸売市場」という実体名称に占める比率(5/9)は50%を超えているので、「AAA衣料品卸売市場」を検出すべきPOIである「AAA衣料品市場」の同義語とすることができる。
これらの任意選択実施形態の別のいくつかの適用シナリオでは、検出すべきPOIの名称を検索ワードとして検索し、事前設定された数の検索結果からこの検出すべきPOIの名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することもできる。
実際の生活の中では、人々は重複を避けるために往々にして代詞、呼称および略語をもって、前に言及した実体の正式名称を示す。共参照解析(coreference resolution)とは、同一の実体を特徴付けるためのすべての代名詞をテキストから確定するための技術である。
共参照解析ツールを利用すれば、検出すべきPOIを検索ワードとして検索した所定数の検索結果(例えば、上位N件の検索結果)から、この検出すべきPOIを示すための代名詞を確定し、かつ確定された単語を検出すべきPOIの名称の同義語とすることができる。
共参照解析アルゴリズムは、現在広く研究されている技術である。当業者は、既存または将来開発予定の共参照解析アルゴリズムを利用して、検出すべきPOIを検索ワードとして検索した所定数の検索結果から、この検出すべきPOIを示すための代名詞を確定することができる。
言うまでもなく、確定された検索ワード集合に含まれている検出すべきPOIの同義語がより全面的なものになるように、上記の検出すべきPOIの同義語を確定する方式における任意の少なくとも二者の組み合わせを採用して、検出すべきPOIの同義語を確定することもできる。
さらに図4を参照すると、インターネットテキストマイニングに基づく関心地点の有効性の判断方法のもう1つの実施例のフロー400が示されている。このインターネットテキストマイニングに基づく関心地点の有効性の判断方法のフロー400は、以下のステップを含む。
ステップ401:検出すべき関心地点を示すための検索ワード集合を確定する。
ステップ402:確定された検索ワードを検索キーワードとして検索し、検出すべき関心地点を記述するための記述情報集合を取得する。
ステップ403:検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得する。
前述のステップ401〜403は、図2に示す実施例のステップ201〜203と同様に実行することができ、詳細はここで省略する。
図2に示した実施例との相違点は、本実施例では、事前構築された有効性判別モデルが注意モデルである。
注意モデル(Attention Model)は、人間の脳の注意モデルを模擬している。例えば、私たちは、絵を観察するとき、絵全体を見ることができるが、注意深くそして細かく観察する場合、実際、目が焦点を合わせているのはとても小さな部分に過ぎない。この場合、人間の脳は主にこの小さな部分の画像に注目している。つまり、全体像に対する人間の脳による注目は、バランスがとれておらず、ある程度の重みのかたよりがある。これこそ、ディープラーニングにおけるAttention Modelの中核的な構想である。
本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断方法を適用するに当たって、注意モデルは、入力された記述情報ごとにそれぞれ重みを決定し、かつ検出すべきPOIの各記述情報の加重総和に従って、確率が最も高いステータスタグを確定し、この検出すべきPOIの有効性を示すためのステータスタグとすることができる。
図4をあわせると、本実施例では、注意モデルは以下のステップを通じて訓練して得ることができる。
ステップ404:サンプル関心地点の名称、サンプル関心地点の記述情報を入力とし、サンプル関心地点のステータスタグを目標とし、初期注意モデルを訓練して、有効性判別モデルを取得する。
初期の注意モデルのために初期のパラメータを設定し、サンプル関心地点の実際のステータスタグの確率を取得することができる。モデルから出力されるサンプル関心地点の実際のステータスタグの確率ができるだけ100%に近づくように、モデルにおけるパラメータを連続的に調整する。
いくつかの適用シナリオでは、サンプル関心地点の記述情報は以下の方式で取得することができる。
まず、サンプル関心地点の名称とサンプル関心地点の名称の同義語とからなる第1同義語集合を確定する。例えば、サンプル関心地点の名称がAであり、サンプル関心地点の同義語にA,…,Aがある場合、第1同義語集合はSet_name={A,A,…,A}となる。
言うまでもなく、本実施例では、サンプル関心地点の名称の同義語は、図2に示す実施例における検出すべき関心地点の確定方式と類似する方式で行うことができる。例えば、事前設定された百科データベースから、サンプル関心地点の名称の同義語を確定することができる。および/または、サンプル関心地点の名称を検索ワードとして検索し、かつ検索して取得したマッチング実体をサンプル関心地点の名称の同義語とすることもできる。なお、マッチング実体は、事前設定された数の検索結果に含まれている実体のうち、サンプル関心地点の名称との最長共通サブストリングのその名称に占める比率が事前設定された比率の閾値を超えた実体である。および/または、サンプル関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果からサンプル関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句からサンプル関心地点の名称を示すための単語を同義語として確定することもできる。
そして、サンプル関心地点のステータスタグとサンプル関心地点のステータスタグの同義語とからなる第2同義語集合を確定する。例えば、関心地点のステータスタグはBであり、ステータスタグの同義語にB,…,Bがある場合、第2同義語集合はSet_lable={B,B,…,B}となる。
任意選択的に、ステータスタグの同義語は、以下の少なくとも1つに基づいて確定することができる。
事前設定された同義語データベースから、サンプル関心地点のステータスタグの同義語を確定する。および/または、サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語を、サンプル関心地点のステータスタグの同義語とすることができる。
最後に、第1同義語集合から確定された第1同義語と第2同義語集合から確定された第2同義語を検索ワードとして検索し、かつ検索結果において第1同義語と第2同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とする。
例えば、第1同義語集合がSet_name={A,A,…,A}であり、第2同義語集合がSet_lable={B,B,…,B}である場合、検索ワード集合L={AB,AB,…,AB,AB,A…,A,…,A}を取得することができる。検索ワード集合における要素それぞれを検索ワードとして検索し、検索結果において第1同義語と第2同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とする。
言うまでもなく、サンプル関心地点並びにその記述情報およびステータスタグを収集するプロセスにおいて、最終的に訓練して取得するモデルの予測正確率をより高めるために、訓練サンプルには、正のサンプルが含まれてもよく、負のサンプルが含まれてもよい。すなわち、訓練サンプルには、ステータスタグが該サンプル関心地点が有効な状態にあることを示すサンプルもあれば、ステータスタグが該サンプル関心地点が無効な状態にあることを示すサンプルもあることが可能である。
以下、さらに図5と図6を参照しながら、本実施例のいくつかの任意選択実施形態における注意モデルの構成とその訓練方式を説明する。
詳しくは、図5は本実施例のいくつかの任意選択実施形態における注意モデルの具体的な構成を示し、図6はこれらの任意選択実施形態における注意モデルの訓練ステップの具体的な実施プロセスを示す。
図5に示すように、注意モデル500は、意味認識サブモデル501、特徴抽出サブモデル502、加重総和ユニット503、線形化ユニット504および分類器505などの構成を含み得る。
意味認識サブモデル501は、入力されたサンプルPOIの名称と特定の記述情報s(i=1,2,…,n)の意味特徴を抽出し、意味特徴ベクトルを取得することに使用できる。
特徴抽出サブモデル502は、サンプルPOIの名称および1つの記述情報s(i=1,2,…,n)から、1つまたは複数の事前設定されたルールに従って特徴抽出を行うことで、該サンプルPOIの該記述情報を特徴付ける記述特徴ベクトルを取得することに使用できる。
いくつかの適用シナリオでは、特徴抽出サブモデル502は、事前設定されたルールに従って、記述情報に含まれるサンプル関心地点のステータスタグまたはサンプル関心地点のステータスタグの同義語の個数を示す特徴、および記述情報にはタグワードが含まれているか否かを示す特徴のうちの少なくとも一方を抽出することができる。言うまでもなく、ここで、タグワードはステータスタグそのものを含むほか、さらにステータスタグの同義語も含み得る。
言うまでもなく、注意モデル500における意味認識サブモデル501と特徴抽出サブモデル502の具体的な個数は限定されない。
詳しくは、注意モデルは1つの意味認識サブモデルと1つの特徴抽出サブモデルを含み得る。このようにして、意味認識サブモデルと特徴抽出サブモデルはサンプルPOIの名称並びに記述情報の意味特徴および記述特徴をそれぞれシリアルに抽出し、かつ該サンプルPOIに対する各記述情報の意味特徴ベクトルおよび記述特徴ベクトルをそれぞれ取得することができる。
または、図5に示すように、注意モデル500は複数の意味認識サブモデル501と複数の特徴抽出サブモデル502を含むこともできる。このようにして、各意味認識サブモデルと各特徴抽出サブモデルは意味特徴抽出および記述特徴抽出をパラレルに行うことができる。
なお、注意モデルはさらに加重総和ユニット503を含み得る。加重総和ユニット503は、サンプルPOIの記述情報のそれぞれを意味認識サブモデルで識別して得られた意味特徴ベクトルと特徴抽出サブモデルで抽出して得られた記述特徴ベクトルを繋ぎ合わせて繋ぎ合わせ特徴ベクトルを取得し、加重総和を求め、そして加重総和を線形化ユニット504で線形化し、最後に線形化の結果を分類器505で分類し、サンプルPOIがその実際のサンプルタグ(ground truth)を有する確率を取得することができる。
このように、注意モデルのモデルパラメータを連続的に調整することによって、それ相応に加重総和ユニット503の加重係数を調整することができるので、注意モデルから出力されるサンプルPOIがその実際のサンプルタグに属する確率が連続的に増加する。
図6を参照すると、注意モデルの訓練プロセスがさらに具体的に示されている。
ステップ601では、サンプル関心地点の1つについて、該サンプル関心地点の名称と該サンプル関心地点の記述情報の1つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点の記述情報を記述するための特徴ベクトルを取得する。
いくつかの任意選択実施形態では、意味認識サブモデルは注意モデルであってもよい。図7を参照すると、注意モデルに基づく意味認識サブモデルの一実施例を示す例示的な構成図である。
意味認識サブモデルは、名称特徴抽出サブモデル701、少なくとも1つの単語特徴抽出サブモデル702、および加重総和ユニット703を含む。名称特徴抽出サブモデル701および単語特徴抽出サブモデル702は両方とも、双方向LSTM(長・短期記憶、Long Short−Term Memory)に基づいてモデリングされて得られる。m個の単語を含む語句について、各単語x〜xを単語特徴抽出サブモデル702に入力し、一連の隠れベクトルh,h,…,hを得られる。さらに、名称特徴抽出サブモデルを使用してPOI名称について特徴抽出を行い、名称ベクトルvPOIを得られる。注意メカニズムを通じて、名称ベクトルvPOIおよび各隠れベクトルを使用してそれぞれ重みβ(i=1,2,…,m)を算出する。算出された重みβ,β,…,βmに基づき、加重総和ユニット703を使用して、記述情報の意味ベクトル表現vを算出する。
詳しくは、次の通りである。
Figure 0006846469
そして、意味認識サブモデルから得られた意味特徴ベクトルvと、特徴抽出サブモデルから抽出された記述特徴ベクトルとを繋ぎ合わせることで、各記述情報のベクトル表現Vsenを得られる。
ステップ602では、該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定する。
詳しくは、注意メカニズムを使用して、該サンプル関心地点の各繋ぎ合わせ特徴ベクトルの加重総和vを算出する。
Figure 0006846469
式中、vはモデルパラメータであり、訓練中に連続的に調整されることが可能である。
ステップ603では、加重総和に基づき、該サンプル関心地点のステータスタグに属する確率値を確定する。
詳しくは、ステップ602に基づいて取得された加重総和vについて線形変換を行い、かつ分類器に入力してタグ確率分布の予測を行う。ここで、最も確率の高いタグが該サンプルPOIのステータスタグとして予測される。
ステップ604では、事前設定された損失関数に基づき、実際のタグにある各サンプル関心地点の確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整することで、有効性判別モデルを取得する。
例えば、損失関数は正確なタグの負の対数尤度(negative log likelihood)であってもよい。
Figure 0006846469
式中、公式(3)においては、jは訓練サンプル集合におけるi番目のサンプルPOIの正確なタグである。このようにして、上記の公式(3)を使用して、訓練サンプルの損失値を算出することができる。また、損失値のモデルにおけるバックプロパゲーション(例えば、確率的勾配降下法に基づくアルゴリズム)により、モデルパラメータを調整し、注意モデルを訓練することができる。
図4〜図7から分かるように、図2に係る実施例と比較して、本実施例のインターネットテキストマイニングに基づく関心地点の有効性の判断方法のフロー400では、注意モデルに基づく有効性判別モデルを利用して、検出すべき関心地点のステータスタグを識別するので、有効性判別モデルは、POI状態の判定に重要な情報を記述情報から識別することができ、最終的に予測して得られたステータスタグがより正確になる。
さらに図8を参照すると、上記の各図に示された方法の実施形態として、本発明は、インターネットテキストマイニングに基づく関心地点の有効性の判断装置の一実施例を提供している。この装置の実施例は、図2に示された方法の実施例に対応している。詳しくは、この装置は様々な電子機器に適用することができる。
図8に示すように、本実施例に係るインターネットテキストマイニングに基づく関心地点の有効性の判断装置は、検索ワード確定ユニット801、記述情報確定ユニット802および有効性判断ユニット803を含む。
検索ワード確定ユニット801は、検出すべき関心地点を示すための検索ワード集合を確定するように構成され得る。
記述情報確定ユニット802は、確定された検索ワードを検索キーワードとして検索し、検出すべき関心地点を示すための記述情報集合を取得するように構成され得る。
有効性判断ユニット803は、検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、検出すべき関心地点の有効性を示すためのステータスタグを取得するように構成され得る。
いくつかの任意選択実施形態では、検索ワード確定ユニット801はさらに、検出すべき関心地点の名称と検出すべき関心地点の名称の同義語を検索ワード集合における検索ワードとするように構成され得る。
いくつかの任意選択実施形態では、事前構築された有効性判別モデルは、注意モデルであってもよい。
これらの任意選択実施形態では、装置はさらに訓練ユニット(図示せず)を含み得る。訓練ユニットはさらに、サンプル関心地点の名称、サンプル関心地点の記述情報を入力とし、サンプル関心地点のステータスタグを目標とし、初期注意モデルを訓練して、有効性判別モデルを取得するように構成され得る。
いくつかの任意選択実施形態では、注意モデルは、意味認識サブモデルと特徴抽出サブモデルを含み得る。
これらの任意選択実施形態では、訓練ユニットはさらに、1つのサンプル関心地点について、該サンプル関心地点の名称と該サンプル関心地点の記述情報の1つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点の該記述情報を記述するための特徴ベクトルを取得し、該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定し、加重総和に基づいて該サンプル関心地点のステータスタグに属する確率値を確定し、事前設定された損失関数に基づいて、実際のタグにある各サンプル関心地点の確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整して、有効性判別モデルを取得するように構成され得る。
いくつかの任意選択実施形態では、サンプル関心地点の記述情報は、サンプル関心地点の名称とサンプル関心地点の名称の同義語とからなる第1同義語集合を確定し、サンプル関心地点のステータスタグとサンプル関心地点のステータスタグの同義語とからなる第2同義語集合を確定し、第1同義語集合から確定された第1同義語と第2同義語集合から確定された第2同義語を検索ワードとして検索し、検索結果において第1同義語と第2同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とする方式によって取得することができる。
いくつかの任意選択実施形態では、サンプル関心地点のステータスタグの同義語は、事前設定された同義語データベースから、サンプル関心地点のステータスタグの同義語を確定することと、サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語を、サンプル関心地点のステータスタグの同義語とすることと、の少なくとも一方に基づいて確定されることができる。
いくつかの任意選択実施形態では、装置はさらに同義語確定ユニットを含み得る。
同義語確定ユニットは、事前設定された百科データベースから、関心地点の名称の同義語を確定することと、関心地点の名称を検索ワードとして検索し、かつ検索により取得されたマッチング実体を関心地点の名称の同義語とすることであって、マッチング実体は、事前設定された数の検索結果に含まれる実体のうち、関心地点の名称との最長共通サブストリングの、その名称に占める比率が、事前設定された比率の閾値を超えた実体であることと、関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果から関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することと、のうちの少なくとも1つに基づいて関心地点の名称の同義語を確定するように構成され得る。ここで、関心地点は、検出すべき関心地点とサンプル関心地点の一方であってよい。
以下、本発明の実施形態のインターネットテキストマイニングに基づく関心地点の有効性の判断方法を実施するための電子機器に適用されるコンピュータシステム900の概略構成図を示す図9を参照する。図9に示す電子機器はあくまでも一例であり、本発明の実施例の機能や使用範囲を限定するものではない。
図9に示すように、コンピュータシステム900は、読み取り専用メモリ(ROM)902に格納されているプログラムまたは記憶部906からランダムアクセスメモリ(RAM)903にロードされたプログラムに従って様々な適切な動作と処理を行うことができる中央処理装置(CPU)901を含む。RAM903にはさらにシステム900の動作に必要な様々なプログラムやデータが格納されている。CPU901、ROM902、およびRAM903は、バス904を介して相互に接続されている。入出力(I/O)インターフェース905もバス904に接続されている。
I/Oインターフェース905には、ハードディスクなどを含む記憶部906、LANカードやモデムなどのネットワークインタフェースカードを含む通信部907が接続されている。通信部907は、インターネットなどのネットワークを介して、通信処理を行う。ドライバ908も必要に応じて、I/Oインターフェース905に接続される。ドライバ908には、磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア909が必要に応じて装着され、そこから読み出されるコンピュータプログラムが所望により記憶部906にインストールされる。
特に、本発明の実施例によれば、上述したフローチャートを参照しながら記載されたプロセスは、コンピュータソフトウェアプログラムとして実施することができる。例えば、本発明の実施例は、コンピュータ可読媒体上に具現化されているコンピュータプログラムを含むコンピュータプログラム製品を含み、該コンピュータプログラムは、フローチャートに示された方法を実行するためのプログラムコードを含む。このような実施例では、該コンピュータプログラムは、通信部907を介してネットワークからダウンロードおよびインストールされることができ、および/またはリムーバブルメディア909からインストールされることができる。該コンピュータプログラムが中央処理装置(CPU)901によって実行されると、本発明の方法で定義された上述の機能が実行される。注意すべきは、本明細書に記載するコンピュータ可読媒体は、コンピュータ可読信号媒体もしくはコンピュータ可読記憶媒体、またはその2つの任意の組み合わせであってよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光学、電磁気、赤外線、または半導体のシステム、装置もしくはデバイス、またはそれらの任意の組み合わせであってよいが、それらに限定されない。コンピュータ可読記憶媒体のより具体的な例は、1本以上の導線による電気的接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスク読み出し専用メモリ(CD?ROM)、光メモリ、磁気メモリ、またはこれらの任意の適切な組み合わせを含むが、それらに限られない。本発明において、コンピュータ可読媒体は、プログラムを含むかまたは格納している任意の有形の媒体であってもよい。当該プログラムは、命令実行システム、装置またはデバイスに使用されるか、またはそれらと組み合わせて使用されることができる。本発明において、コンピュータ可読信号媒体は、ベースバンド内に含まれるか、またはキャリアの一部としてデータ信号を伝送することができ、その中には、コンピュータ読み取り可能なプログラムコードが担持されている。かかる伝送されるデータ信号は複数の形式を採用することができ、電磁信号、光信号または上記の任意の適切な組み合わせを含むが、それらに限られない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよい。当該コンピュータ可読媒体は、命令実行システム、装置またはデバイスに使用されまたはそれらと組み合わせて使用されるプログラムを発信、伝送または転送することができる。コンピュータ可読媒体に含まれるプログラムコードは、任意の適切な媒体を使用して転送することができる。当該任意の適切な媒体とは、無線、有線、光ケーブル、RFなど、または上記の任意の適切な組み合わせを含むが、それらに限られない。
本発明の動作を実行するためのコンピュータプログラムコードは1つまたは複数のプログラミング言語、またはそれらの組み合わせで作成されることができる。該プログラミング言語は、オブジェクト指向プログラミング言語(Java(登録商標)、Smalltalk、C++など)のほか、従来の手続き型プログラミング言語(「C」言語など)およびそれに類似するプログラミング言語をも含む。プログラムコードは、完全にユーザのコンピュータで実行されることも、部分的にユーザのコンピュータで実行されることも、単独のソフトウェアパッケージとして実行されることも、部分的にユーザのコンピュータで実行されながら部分的にリモートコンピュータで実行されることも、または完全にリモートコンピュータもしくはサーバで実行されることも可能である。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続することができ、または(例えば、インターネットサービスプロバイダによるインターネットサービスを介して)外部のコンピュータに接続することができる。
図面のうちのフローチャートおよびブロック図は、本発明の様々な実施例に係るシステム、方法およびコンピュータプログラム製品によって実施できるアーキテクチャ、機能および動作を示している。これについては、フローチャートまたはブロック図の各ブロックは、モジュール、プログラムセグメント、またはコードの一部を表すことができる。当該モジュール、プログラムセグメント、またはコードの一部には、所定のロジック機能を実施するための1つまたは複数の実行可能な命令が含まれている。さらに注意すべきは、いくつかの代替となる実施態様においては、ブロックに示されている機能は図面に示されているものとは異なる順序で実行されてもよい。例えば、連続して表された2つのブロックは、実際には関連する機能に応じて、ほぼ並行して実行されてもよく、時には、逆の順序で実行されてもよい。なお、ブロック図および/またはフローチャートにおけるすべてのブロック、ならびにブロック図および/またはフローチャートにおけるブロックの組み合わせは、所定の機能または操作を実行する専用のハードウェアベースのシステムで実施されてもよく、専用のハードウェアとコンピュータ命令との組み合わせで実施されてもよい。
本発明の実施例に記載されたユニットは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。記載されたユニットは、プロセッサに設けられてもよく、例えば「検索ワード確定ユニット、記述情報確定ユニットおよび有効性判断ユニットを含むプロセッサ」と記載されてもよい。なお、これらのユニットの名称は、ユニットそのものを限定するものではない場合がある。例えば、検索ワード確定ユニットは、「検出すべき関心地点を示すための検索ワード集合を確定するためのユニット」と記載することもできる。
別の態様では、本発明はまた、コンピュータ可読媒体を提供する。該コンピュータ可読媒体は、上記の実施例で説明された装置に含まれてもよく、または別々に存在して装置に組み込まれなくてもよい。上記のコンピュータ可読媒体には、1つまたは複数のプログラムは格納されている。かかる1つまたは複数のプログラムが該装置によって実行されると、該装置は、検出すべき関心地点を示すための検索ワード集合を確定し、確定された検索ワードを検索キーワードとして検索して検出すべき関心地点を記述するための記述情報集合を取得し、検出すべき関心地点の名称と記述情報集合における記述情報を事前構築された有効判別モデルに入力して、検出すべき関心地点の有効性を示すためのステータスタグを取得する。
上記の説明はあくまでも本発明の好適な実施例および応用している技術の原理に対する説明に過ぎない。当業者であれば、本発明に言及された発明の範囲は、上記の技術的特徴の特定の組み合わせからなる技術的解決手段に限定されず、上記の発明構想から逸脱しない範囲内で上記の技術的特徴またはそれらの同等の特徴を任意に組み合わせてなる他の技術的解決手段をも含むことが理解できる。例えば、上記の特徴と本発明が開示した類似する機能を有する技術的特徴(それらに限られない)とが相互に置き換えてなる技術的解決手段をも含む。

Claims (17)

  1. サーバにより実行されるインターネットテキストマイニングに基づく関心地点の有効性の判断方法であって、
    検出すべき関心地点を示すための検索ワード集合を確定するステップと、
    確定された検索ワードを検索キーワードとして検索し、前記検出すべき関心地点を記述するための記述情報集合を取得するステップと、
    前記検出すべき関心地点の名称と前記記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、前記検出すべき関心地点の有効性を示すためのステータスタグを取得するステップと、を含み、
    前記有効性判別モデルは、サンプル関心地点の名称、前記サンプル関心地点の記述情報を入力とし、前記サンプル関心地点のステータスタグを目標とし、初期モデルを訓練して、前記有効性判別モデルを取得する訓練ステップにより取得される方法。
  2. 前記検出すべき関心地点を示すための検索ワード集合を確定するステップは、
    前記検出すべき関心地点の名称と前記検出すべき関心地点の名称の同義語を前記検索ワード集合における検索ワードとすることを含む請求項1に記載の方法。
  3. 前記事前構築された有効性判別モデルは注意モデルである請求項1に記載の方法。
  4. 前記注意モデルは、意味認識サブモデルと特徴抽出サブモデルを含み、
    前記訓練ステップは、さらに、
    1つのサンプル関心地点について、該サンプル関心地点の名称と該サンプル関心地点の記述情報の1つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点を記述するための該記述情報の特徴ベクトルを取得することと、
    該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定することと、
    前記加重総和に基づいて該サンプル関心地点のステータスタグに属する確率値を確定することと、
    事前設定された損失関数に基づいて、実際のタグにおける各サンプル関心地点の確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整して、前記有効性判別モデルを取得することと、を含む請求項3に記載の方法。
  5. 前記サンプル関心地点の記述情報は、
    サンプル関心地点の名称とサンプル関心地点の名称の同義語とからなる第1同義語集合を確定することと、
    サンプル関心地点のステータスタグとサンプル関心地点のステータスタグの同義語とからなる第2同義語集合を確定することと、
    前記第1同義語集合から確定された第1同義語と前記第2同義語集合から確定された第2同義語を検索ワードとして検索し、検索結果のうち、第1同義語と第2同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とすることと、
    によって取得される請求項3に記載の方法。
  6. 前記サンプル関心地点のステータスタグの同義語は、
    事前設定された同義語データベースから、前記サンプル関心地点のステータスタグの同義語を確定すること、および
    前記サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、前記サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語を、前記サンプル関心地点のステータスタグの同義語とすること、
    の少なくとも一方に基づいて確定される請求項5に記載の方法。
  7. 関心地点の名称の同義語は、
    事前設定された百科データベースから、関心地点の名称の同義語を確定することと、
    関心地点の名称を検索ワードとして検索し、かつ検索によるマッチング実体を関心地点の名称の同義語とすることであって、前記マッチング実体は、事前設定された数の検索結果に含まれる実体のうち、関心地点の名称との最長共通サブストリングの、その名称に占める比率が、事前設定された比率の閾値を超えた実体であることと、
    関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果から関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することと、
    のうちの少なくとも1つに基づいて確定され、
    前記関心地点は、前記検出すべき関心地点および前記サンプル関心地点のうちの一方である請求項2または請求項5に記載の方法。
  8. インターネットテキストマイニングに基づく関心地点の有効性の判断装置であって、
    検出すべき関心地点を示すための検索ワード集合を確定するように構成される検索ワード確定ユニットと、
    確定された検索ワードを検索キーワードとして検索し、前記検出すべき関心地点を記述するための記述情報集合を取得するように構成される記述情報確定ユニットと、
    前記検出すべき関心地点の名称と前記記述情報集合における記述情報を事前構築された有効性判別モデルに入力し、前記検出すべき関心地点の有効性を示すためのステータスタグを取得するように構成される有効性判断ユニットと、
    サンプル関心地点の名称、前記サンプル関心地点の記述情報を入力とし、前記サンプル関心地点のステータスタグを目標とし、初期注意モデルを訓練して、前記有効性判別モデルを取得するように構成される訓練ユニットと、を備える装置。
  9. 前記検索ワード確定ユニットはさらに、
    前記検出すべき関心地点の名称と前記検出すべき関心地点の名称の同義語を、前記検索ワード集合における検索ワードとするように構成される請求項8に記載の装置。
  10. 前記事前構築された有効性判別モデルは注意モデルである請求項8に記載の装置。
  11. 前記注意モデルは意味認識サブモデルと特徴抽出サブモデルを含み、前記訓練ユニットはさらに、
    1つのサンプル関心地点について、該サンプル関心地点の名称と該サンプル関心地点の記述情報の1つを意味認識サブモデルに入力し、該記述情報を特徴抽出サブモデルに入力し、意味認識サブモデルと特徴抽出サブモデルから出力された特徴ベクトルを繋ぎ合わせて、該サンプル関心地点を記述するための該記述情報の特徴ベクトルを取得し、
    該サンプル関心地点の各記述情報の特徴ベクトルの加重総和を確定し、
    前記加重総和に基づいて該サンプル関心地点のステータスタグに属する確率値を確定し、
    事前設定された損失関数に基づいて、各サンプル関心地点の実際のタグにおける確率値の損失値を確定し、確定された損失値を注意モデルにおいてバックプロパゲーションし、注意モデルのモデルパラメータを調整して、前記有効性判別モデルを取得するように構成される請求項10に記載の装置。
  12. 前記サンプル関心地点の記述情報は、
    サンプル関心地点の名称とサンプル関心地点の名称の同義語とからなる第1同義語集合を確定することと、
    サンプル関心地点のステータスタグとサンプル関心地点のステータスタグの同義語とからなる第2同義語集合を確定することと、
    前記第1同義語集合から確定された第1同義語と前記第2同義語集合から確定された第2同義語を検索ワードとして検索し、検索結果のうち、第1同義語と第2同義語の両方が共にヒットされた語句をサンプル関心地点の記述情報とすることと、
    によって取得される請求項10に記載の装置。
  13. 前記サンプル関心地点のステータスタグの同義語は、
    事前設定された同義語データベースから、前記サンプル関心地点のステータスタグの同義語を確定することと、
    前記サンプル関心地点の名称を含む検索語句履歴から、事前設定された数の目標検索語句を確定し、かつ確定された目標検索語句から確定された、前記サンプル関心地点のステータスタグの意味との類似度が事前設定された類似度の閾値を超えた単語を前記サンプル関心地点のステータスタグの同義語とすることと、
    の少なくとも一方に基づいて確定される請求項12に記載の装置。
  14. 前記装置は、同義語確定ユニットをさらに含み、
    前記同義語確定ユニットは、
    事前設定された百科データベースから、関心地点の名称の同義語を確定することと、
    関心地点の名称を検索ワードとして検索し、かつ検索によりマッチングされた実体を関心地点の名称の同義語とすることであって、前記マッチングされた実体は、事前設定された数の検索結果に含まれる実体のうち、関心地点の名称との最長共通サブストリングの、その名称に占める比率が、事前設定された比率の閾値を超えた実体であることと、
    関心地点の名称を検索ワードとして検索し、事前設定された数の検索結果から関心地点の名称を含む語句を抽出し、共参照解析ツールを利用して、抽出された語句から関心地点の名称を示すための単語を同義語として確定することと、
    のうちの少なくとも1つに基づいて関心地点の名称の同義語を確定するように構成され、
    前記関心地点は、前記検出すべき関心地点および前記サンプル関心地点のうちの一方である請求項9または請求項12に記載の装置。
  15. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムを格納するための記憶装置と、を含む電子機器であって、
    前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサにより実行されると、前記1つまたは複数のプロセッサに請求項1〜7のいずれか一項に記載の方法を実行させる電子機器。
  16. コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、
    前記プログラムは、プロセッサにより実行されると、請求項1〜7のいずれか一項に記載の方法を実行するコンピュータ可読記憶媒体。
  17. コンピュータプログラムであって、
    前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜7のいずれか一項に記載の方法を実現する、コンピュータプログラム。
JP2019125750A 2018-09-10 2019-07-05 インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置 Active JP6846469B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811053052.XA CN109145219B (zh) 2018-09-10 2018-09-10 基于互联网文本挖掘的兴趣点有效性判断方法和装置
CN201811053052.X 2018-09-10

Publications (2)

Publication Number Publication Date
JP2020042779A JP2020042779A (ja) 2020-03-19
JP6846469B2 true JP6846469B2 (ja) 2021-03-24

Family

ID=64824340

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019125750A Active JP6846469B2 (ja) 2018-09-10 2019-07-05 インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置

Country Status (5)

Country Link
US (1) US11347782B2 (ja)
EP (1) EP3623762B1 (ja)
JP (1) JP6846469B2 (ja)
KR (1) KR102302367B1 (ja)
CN (1) CN109145219B (ja)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6832322B2 (ja) * 2018-11-02 2021-02-24 株式会社トヨタマップマスター 探索装置、探索方法、探索プログラムおよび記録媒体
CN111460056B (zh) * 2019-01-22 2023-06-20 阿里巴巴集团控股有限公司 一种过期poi的挖掘方法及装置
CN112015888B (zh) * 2019-05-31 2023-08-18 百度在线网络技术(北京)有限公司 摘要信息提取方法和摘要信息提取系统
CN110232160B (zh) * 2019-06-20 2021-12-07 北京百度网讯科技有限公司 兴趣点变迁事件检测方法、装置及存储介质
CN110795515B (zh) * 2019-08-26 2022-04-12 腾讯科技(深圳)有限公司 兴趣点poi的处理方法、装置、电子设备及计算机存储介质
CN110781413B (zh) * 2019-08-28 2024-01-30 腾讯大地通途(北京)科技有限公司 兴趣点确定方法及装置、存储介质、电子设备
CN111858787B (zh) * 2019-09-24 2024-07-30 北京嘀嘀无限科技发展有限公司 一种poi信息获取的方法及装置
CN110851738B (zh) * 2019-10-28 2021-03-19 百度在线网络技术(北京)有限公司 获取poi状态信息的方法、装置、设备和计算机存储介质
CN112781604B (zh) * 2019-11-08 2024-02-09 逸驾智能科技有限公司 用于导航的方法、装置、设备和计算机可读存储介质
CN111026937B (zh) 2019-11-13 2021-02-19 百度在线网络技术(北京)有限公司 提取poi名称的方法、装置、设备和计算机存储介质
CN111259018B (zh) * 2020-01-08 2023-03-21 北京百度网讯科技有限公司 生效验证方法、装置、电子设备及存储介质
CN111309834B (zh) * 2020-01-20 2023-05-12 腾讯云计算(北京)有限责任公司 一种无线热点与兴趣点的匹配方法及装置
CN111256571A (zh) 2020-01-20 2020-06-09 腾讯科技(深圳)有限公司 柔性电容触觉传感器及其制备方法和触觉传感系统
CN113449754B (zh) * 2020-03-26 2023-09-22 百度在线网络技术(北京)有限公司 标签的匹配模型训练和展示方法、装置、设备及介质
CN111583907B (zh) * 2020-04-15 2023-08-15 北京小米松果电子有限公司 信息处理方法、装置及存储介质
CN111506835B (zh) * 2020-04-17 2022-12-23 北京理工大学 一种融合用户时间特征和个性特征的数据特征提取方法
CN111522888B (zh) 2020-04-22 2023-06-20 北京百度网讯科技有限公司 挖掘兴趣点之间的竞争关系的方法和装置
CN111797183B (zh) * 2020-05-29 2024-08-20 汉海信息技术(上海)有限公司 挖掘信息点的道路属性的方法、装置及电子设备
CN111782741A (zh) * 2020-06-04 2020-10-16 汉海信息技术(上海)有限公司 兴趣点挖掘方法、装置、电子设备及存储介质
CN111753195B (zh) * 2020-06-17 2024-01-09 百度在线网络技术(北京)有限公司 标签体系构建方法、装置、设备以及存储介质
CN111767477B (zh) * 2020-06-19 2023-07-28 北京百度网讯科技有限公司 一种检索方法、装置、电子设备和存储介质
CN111832483B (zh) * 2020-07-14 2024-03-08 北京百度网讯科技有限公司 一种兴趣点有效性识别方法、装置、设备以及存储介质
CN111860503A (zh) * 2020-07-16 2020-10-30 北京奇虎科技有限公司 信息点有效性识别方法、装置、设备及存储介质
CN112100440B (zh) * 2020-08-21 2023-12-12 深圳市雅阅科技有限公司 视频推送方法、设备及介质
CN114579735A (zh) * 2020-12-01 2022-06-03 汉海信息技术(上海)有限公司 信息点状态确定方法、装置、电子设备及可读存储介质
CN112417322B (zh) * 2020-12-10 2024-03-22 长春理工大学 一种面向兴趣点名称文本的类型判别方法及系统
CN112818972B (zh) * 2020-12-25 2024-03-22 北京百度网讯科技有限公司 兴趣点图像的检测方法、装置、电子设备及存储介质
CN112597755B (zh) * 2020-12-29 2024-06-11 杭州拼便宜网络科技有限公司 一种地理位置信息生成方法、装置、电子设备及存储介质
CN112966192B (zh) * 2021-02-09 2023-10-27 北京百度网讯科技有限公司 区域地址命名方法、装置、电子设备及可读存储介质
CN112925995B (zh) * 2021-02-22 2022-01-28 北京百度网讯科技有限公司 获取poi状态信息的方法及装置
CN113011920B (zh) * 2021-03-15 2024-02-13 北京百度网讯科技有限公司 转化率预估模型的训练方法、装置及电子设备
CN113515944A (zh) * 2021-03-23 2021-10-19 汉海信息技术(上海)有限公司 兴趣点的别名挖掘方法、装置、设备及存储介质
CN113204697A (zh) * 2021-04-29 2021-08-03 五八有限公司 一种搜索方法、装置、电子设备及存储介质
CN113407610B (zh) * 2021-06-30 2023-10-24 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备和可读存储介质
CN113792129B (zh) * 2021-09-16 2024-06-14 联通在线信息科技有限公司 一种智能会话方法、装置、计算机设备及介质
CN114003724B (zh) * 2021-12-30 2022-03-25 北京云迹科技股份有限公司 一种样本筛选方法、装置及电子设备
CN114416954B (zh) * 2022-01-21 2024-07-05 平安国际智慧城市科技股份有限公司 文本检索方法、装置、设备及存储介质
CN114417192B (zh) * 2022-03-28 2022-07-12 北京百度网讯科技有限公司 更新兴趣点poi状态的方法、装置、设备、介质及产品
CN114625984B (zh) * 2022-03-31 2023-07-25 北京百度网讯科技有限公司 兴趣点验证方法、装置、电子设备及存储介质
CN115002675A (zh) * 2022-05-23 2022-09-02 北京字节跳动科技有限公司 数据匹配方法、装置、可读介质及电子设备
CN114860836B (zh) * 2022-05-24 2023-03-10 北京百度网讯科技有限公司 失效兴趣点的挖掘方法及装置、设备和介质
CN114925680A (zh) * 2022-05-26 2022-08-19 北京京东振世信息技术有限公司 物流兴趣点信息生成方法、装置、设备和计算机可读介质
CN116341567B (zh) * 2023-05-29 2023-08-29 山东省工业技术研究院 基于空间与语义邻居信息的兴趣点语义标注方法及系统
CN117076810A (zh) * 2023-10-12 2023-11-17 睿至科技集团有限公司 一种基于人工智能的互联网大数据处理系统及方法
CN117725324B (zh) * 2024-02-08 2024-05-24 腾讯科技(深圳)有限公司 地图搜索方法及装置、电子设备、存储介质、程序产品

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4682660B2 (ja) * 2005-03-23 2011-05-11 株式会社デンソー 地図データ検査装置及び地図データの検査方法
CN101221562A (zh) * 2007-01-08 2008-07-16 华硕电脑股份有限公司 网络地图服务平台的数据更新方法及其系统
WO2008142791A1 (ja) * 2007-05-24 2008-11-27 Fujitsu Limited 差分算出プログラム、差分算出装置および差分算出方法
JP5414284B2 (ja) * 2009-01-14 2014-02-12 株式会社 ミックウェア 地図情報処理装置、ナビゲーション装置、地図情報処理方法、およびプログラム
US20100179754A1 (en) * 2009-01-15 2010-07-15 Robert Bosch Gmbh Location based system utilizing geographical information from documents in natural language
US8589069B1 (en) * 2009-11-12 2013-11-19 Google Inc. Enhanced identification of interesting points-of-interest
US8892355B2 (en) * 2011-12-21 2014-11-18 Telenav, Inc. Navigation system with point of interest validation mechanism and method of operation thereof
US8521539B1 (en) * 2012-03-26 2013-08-27 Nuance Communications, Inc. Method for chinese point-of-interest search
US20140006408A1 (en) * 2012-06-29 2014-01-02 Yahoo! Inc. Identifying points of interest via social media
WO2015007945A1 (en) * 2013-07-18 2015-01-22 Nokia Corporation Method and apparatus for updating points of interest information via crowdsourcing
WO2015119371A1 (ko) * 2014-02-05 2015-08-13 에스케이플래닛 주식회사 Poi 그룹화를 이용한 poi 정보 제공 장치 및 방법
CN105138523A (zh) * 2014-05-30 2015-12-09 富士通株式会社 在文本中确定语义关键词的方法和装置
US9843893B2 (en) * 2014-09-09 2017-12-12 Here Global B.V. Method and apparatus for providing point-of-interest detection via feature analysis and mobile device position information
CN105718470B (zh) * 2014-12-03 2019-08-20 高德软件有限公司 一种poi数据处理方法和装置
US20170053037A1 (en) * 2015-08-18 2017-02-23 Lenovo (Singapore) Pte. Ltd. Validation of internet address input to a device
CN105279249B (zh) * 2015-09-30 2019-06-21 北京奇虎科技有限公司 一种网站中兴趣点数据的置信度的判定方法和装置
CN105302794B (zh) * 2015-10-30 2018-08-07 苏州大学 一种中文同指事件识别方法及系统
CN105468679B (zh) * 2015-11-13 2019-04-12 中国人民解放军国防科学技术大学 一种旅游信息处理与方案提供方法
CN106844571B (zh) * 2017-01-03 2020-04-07 北京齐尔布莱特科技有限公司 识别同义词的方法、装置和计算设备
CN107784125A (zh) * 2017-11-24 2018-03-09 中国银行股份有限公司 一种实体关系抽取方法及装置
WO2019236588A1 (en) * 2018-06-04 2019-12-12 The Research Foundation For The State University Of New York System and method associated with expedient determination of location of one or more object(s) within a bounded perimeter of 3d space based on mapping and navigation to a precise poi destination using a smart laser pointer device

Also Published As

Publication number Publication date
US11347782B2 (en) 2022-05-31
JP2020042779A (ja) 2020-03-19
CN109145219B (zh) 2020-12-25
EP3623762B1 (en) 2021-10-06
US20200081908A1 (en) 2020-03-12
KR20200029342A (ko) 2020-03-18
CN109145219A (zh) 2019-01-04
EP3623762A1 (en) 2020-03-18
KR102302367B1 (ko) 2021-09-15

Similar Documents

Publication Publication Date Title
JP6846469B2 (ja) インターネットテキストマイニングに基づく関心地点の有効性の判断方法および装置
WO2020232861A1 (zh) 命名实体识别方法、电子装置及存储介质
WO2021159613A1 (zh) 文本语义相似度的分析方法、装置及计算机设备
CN107679039B (zh) 用于确定语句意图的方法和装置
Ji et al. Joint recognition and linking of fine-grained locations from tweets
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN107315759A (zh) 归类关键字的方法、装置和处理系统、分类模型生成方法
CN107193796B (zh) 一种舆情事件检测方法及装置
CN109783812B (zh) 基于自注意力机制的中文命名实体识别方法、系统、装置
US20170243112A1 (en) Deep learning approach to identify comparative reference incidents
US11977574B2 (en) Method and apparatus for acquiring POI state information
CN112805715A (zh) 识别实体属性关系
JPWO2019106965A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN109977292A (zh) 搜索方法、装置、计算设备和计算机可读存储介质
CN113806582A (zh) 图像检索方法、装置、电子设备和存储介质
Alsudais Quantifying the offline interactions between hosts and guests of Airbnb
Sharma et al. StudieMe: college recommendation system
CN111797204A (zh) 文本匹配方法、装置、计算机设备及存储介质
CN113076758B (zh) 一种面向任务型对话的多域请求式意图识别方法
US12056184B2 (en) Method and apparatus for generating description information of an image, electronic device, and computer readable storage medium
CN117172235A (zh) 基于相似度度量的类案判别方法及系统
CN113515687A (zh) 物流信息的获取方法和装置
CN113988085B (zh) 文本语义相似度匹配方法、装置、电子设备及存储介质
CN113807102B (zh) 建立语义表示模型的方法、装置、设备和计算机存储介质
Wang Construction of Alumni Information Analysis Model Based on Big Data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190705

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190705

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200805

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210301

R150 Certificate of patent or registration of utility model

Ref document number: 6846469

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250