JP2019533205A - ユーザキーワード抽出装置、方法、及びコンピュータ読み取り可能な記憶媒体 - Google Patents
ユーザキーワード抽出装置、方法、及びコンピュータ読み取り可能な記憶媒体 Download PDFInfo
- Publication number
- JP2019533205A JP2019533205A JP2018538141A JP2018538141A JP2019533205A JP 2019533205 A JP2019533205 A JP 2019533205A JP 2018538141 A JP2018538141 A JP 2018538141A JP 2018538141 A JP2018538141 A JP 2018538141A JP 2019533205 A JP2019533205 A JP 2019533205A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- word
- blog post
- predetermined
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Abstract
Description
本願は、パリ条約に基づいて2017年08月29日に中国国家知識産権局に出願された、中国特許出願第201710754314.4号の「ユーザキーワード抽出装置、方法、及びコンピュータ読み取り可能な記憶媒体」と題する中国特許出願の優先権を主張し、当該出願の全体が参照によりここに組み込まれる。
ターゲットユーザが所定の時間間隔内に発表したブログポストを取得し、所定の単語分割ツールを使用して取得されたブログポストに対して単語分割の処理を実行し、各ブログポストに対応する単語リストをそれぞれ取得するステップと、
取得された各ブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得するステップと、
キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出し、前記ターゲットユーザが前記所定の時間間隔内に発表したブログポストに蓄積されたキーワードにより、前記ターゲットユーザのキーワード候補集合を構成し、かつ前記単語ベクトルモデルに基づいて、前記キーワード候補集合内の各キーワードの単語ベクトルを計算するステップと、
前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築するステップと、
前記セマンティック類似度グラフでPagerankアルゴリズムを実行して各キーワードをスコアリングし、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとするステップと、を実現する。
前記キーワード候補集合内のキーワードを単語ノードとし、ただし、1つのキーワードが1つの単語ノードに対応し、
全ての単語ノードを巡回し、対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算し、2つの単語ノード間の文脈類似度が所定の閾値より大きい場合、前記2つの単語ノードの間にエッジを作成し、
全ての単語ノード及び作成されたエッジで前記セマンティック類似度グラフを構成する。
2つの単語ノードの単語ベクトルを取得し、かつこの2つの単語ベクトル間のコサイン類似度を計算し、前記コサイン類似度を前記2つの単語ノード間の文脈類似度とする。
それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出し、
前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする。
スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、
又は、スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、ただし、スコアが所定のスコアより高いキーワードの数が第一所定数より大きい場合、前記第一所定数のキーワードにおける第二所定数のキーワードを前記ターゲットユーザの興味キーワードとし、前記第一所定数は前記第二所定数より大きい。
ターゲットユーザが所定の時間間隔内に発表したブログポストを取得し、所定の単語分割ツールを使用して取得されたブログポストに対して単語分割の処理を実行し、各ブログポストに対応する単語リストをそれぞれ取得し、
取得された各ブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得し、
キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出し、前記ターゲットユーザが前記所定の時間間隔内に発表したブログポストに蓄積されたキーワードにより、前記ターゲットユーザのキーワード候補集合を構成し、かつ前記単語ベクトルモデルに基づいて、前記キーワード候補集合内の各キーワードの単語ベクトルを計算し、
前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築し、
前記セマンティック類似度グラフでPagerankアルゴリズムを実行して各キーワードをスコアリングし、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとする。
前記キーワード候補集合内のキーワードを単語ノードとし、ただし、1つのキーワードが1つの単語ノードに対応し、
全ての単語ノードを巡回し、対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算し、2つの単語ノード間の文脈類似度が所定の閾値より大きい場合、前記2つの単語ノードの間にエッジを作成し、
全ての単語ノード及び作成されたエッジで前記セマンティック類似度グラフを構成する。
2つの単語ノードの単語ベクトルを取得し、かつこの2つの単語ベクトル間のコサイン類似度を計算し、前記コサイン類似度を前記2つの単語ノード間の文脈類似度とする。
それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出し、
前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする。
ターゲットユーザが所定の時間間隔内に発表したブログポストを取得し、所定の単語分割ツールを使用して取得されたブログポストに対して単語分割の処理を実行し、各ブログポストに対応する単語リストをそれぞれ取得するステップと、
取得された各ブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得するステップと、
キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出し、前記ターゲットユーザが前記所定の時間間隔内に発表したブログポストに蓄積されたキーワードにより、前記ターゲットユーザのキーワード候補集合を構成し、かつ前記単語ベクトルモデルに基づいて、前記キーワード候補集合内の各キーワードの単語ベクトルを計算するステップと、
前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築するステップと、
前記セマンティック類似度グラフでPagerankアルゴリズムを実行して各キーワードをスコアリングし、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとするステップと、を実現する。
スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、
又は、スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、ただし、スコアが所定のスコアより高いキーワードの数が第一所定数より大きい場合、前記第一所定数のキーワードにおける第二所定数のキーワードを前記ターゲットユーザの興味キーワードとし、前記第一所定数は前記第二所定数より大きい。
取得モジュール10は、ターゲットユーザが所定の時間間隔内に発表したブログポストを取得し、所定の単語分割ツールを使用して取得されたブログポストに対して単語分割の処理を実行し、各ブログポストに対応する単語リストをそれぞれ取得するために用いられ、
トレーニングモジュール20は、取得された各ブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得するために用いられ、
抽出モジュール30は、キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出し、前記ターゲットユーザが前記所定の時間間隔内に発表したブログポストに蓄積されたキーワードにより、前記ターゲットユーザのキーワード候補集合を構成し、かつ前記単語ベクトルモデルに基づいて、前記キーワード候補集合内の各キーワードの単語ベクトルを計算するために用いられ、
グラフ構築モジュール40は、前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築するために用いられ、
スコアリングモジュール50は、前記セマンティック類似度グラフでPagerankアルゴリズムを実行して各キーワードをスコアリングし、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとするために用いられる。
スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、
又は、スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、ただし、スコアが所定のスコアより高いキーワードの数が第一所定数より大きい場合、前記第一所定数のキーワードにおける第二所定数のキーワードを前記ターゲットユーザの興味キーワードとし、前記第一所定数は前記第二所定数より大きい。
ターゲットユーザが所定の時間間隔内に発表したブログポストを取得し、所定の単語分割ツールを使用して取得されたブログポストに対して単語分割の処理を実行し、各ブログポストに対応する単語リストをそれぞれ取得する操作と、
取得された各ブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得する操作と、
キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出し、前記ターゲットユーザが前記所定の時間間隔内に発表したブログポストに蓄積されたキーワードにより、前記ターゲットユーザのキーワード候補集合を構成し、かつ前記単語ベクトルモデルに基づいて、前記キーワード候補集合内の各キーワードの単語ベクトルを計算する操作と、
前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築する操作と、
前記セマンティック類似度グラフでPagerankアルゴリズムを実行して各キーワードをスコアリングし、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとする操作と、を実現する。
前記キーワード候補集合内のキーワードを単語ノードとし、ただし、1つのキーワードが1つの単語ノードに対応する操作と、
全ての単語ノードを巡回し、対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算し、2つの単語ノード間の文脈類似度が所定の閾値より大きい場合、前記2つの単語ノードの間にエッジを作成する操作と、
全ての単語ノード及び作成されたエッジで前記セマンティック類似度グラフを構成する操作と、を実現する。
2つの単語ノードの単語ベクトルを取得し、かつこの2つの単語ベクトル間のコサイン類似度を計算し、前記コサイン類似度を前記2つの単語ノード間の文脈類似度とする操作を実現する。
それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出する操作と、
前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする操作と、を実現する。
Claims (20)
- ソーシャルネットワークに基づくユーザキーワード抽出装置であって、プロセッサで実行可能なユーザキーワード抽出プログラムが記憶されているメモリと、プロセッサと、を含み、前記ユーザキーワード抽出プログラムが前記プロセッサによって実行される時、
ターゲットユーザが所定の時間間隔内に発表したブログポストを取得し、所定の単語分割ツールを使用して取得されたブログポストに対して単語分割の処理を実行し、各ブログポストに対応する単語リストをそれぞれ取得するステップと、
取得された各ブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得するステップと、
キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出し、前記ターゲットユーザが前記所定の時間間隔内に発表したブログポストに蓄積されたキーワードにより、前記ターゲットユーザのキーワード候補集合を構成し、かつ前記単語ベクトルモデルに基づいて、前記キーワード候補集合内の各キーワードの単語ベクトルを計算するステップと、
前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築するステップと、
前記セマンティック類似度グラフでPagerankアルゴリズムを実行して各キーワードをスコアリングし、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとするステップと、を実現する
ことを特徴とするソーシャルネットワークに基づくユーザキーワード抽出装置。 - 前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築する前記ステップにおいて、
前記キーワード候補集合内のキーワードを単語ノードとし、ただし、1つのキーワードが1つの単語ノードに対応し、
全ての単語ノードを巡回し、対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算し、2つの単語ノード間の文脈類似度が所定の閾値より大きい場合、前記2つの単語ノードの間にエッジを作成し、
全ての単語ノード及び作成されたエッジで前記セマンティック類似度グラフを構成する
ことを特徴とする請求項1に記載のソーシャルネットワークに基づくユーザキーワード抽出装置。 - 対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算する前記ステップにおいて、
2つの単語ノードの単語ベクトルを取得し、かつこの2つの単語ベクトル間のコサイン類似度を計算し、前記コサイン類似度を前記2つの単語ノード間の文脈類似度とする
ことを特徴とする請求項2に記載のソーシャルネットワークに基づくユーザキーワード抽出装置。 - 前記ブログポストに含まれる単語の数が所定の単語数以上である場合、キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出する前記ステップにおいて、
それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出し、
前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする
ことを特徴とする請求項1に記載のソーシャルネットワークに基づくユーザキーワード抽出装置。 - 前記ブログポストに含まれる単語の数が所定の単語数以上である場合、キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出する前記ステップにおいて、
それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出し、
前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする
ことを特徴とする請求項2に記載のソーシャルネットワークに基づくユーザキーワード抽出装置。 - スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとする前記ステップにおいて、
スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、
又は、スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、ただし、スコアが所定のスコアより高いキーワードの数が第一所定数より大きい場合、前記第一所定数のキーワードにおける第二所定数のキーワードを前記ターゲットユーザの興味キーワードとし、前記第一所定数が前記第二所定数より大きい
ことを特徴とする請求項1に記載のソーシャルネットワークに基づくユーザキーワード抽出装置。 - スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとする前記ステップにおいて、
スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、
又は、スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、ただし、スコアが所定のスコアより高いキーワードの数が第一所定数より大きい場合、前記第一所定数のキーワードにおける第二所定数のキーワードを前記ターゲットユーザの興味キーワードとし、前記第一所定数が前記第二所定数より大きい
ことを特徴とする請求項2に記載のソーシャルネットワークに基づくユーザキーワード抽出装置。 - ソーシャルネットワークに基づくユーザキーワード抽出方法において、
ターゲットユーザが所定の時間間隔内に発表したブログポストを取得し、所定の単語分割ツールを使用して取得されたブログポストに対して単語分割の処理を実行し、各ブログポストに対応する単語リストをそれぞれ取得し、
取得された各ブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得し、
キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出し、前記ターゲットユーザが前記所定の時間間隔内に発表したブログポストに蓄積されたキーワードにより、前記ターゲットユーザのキーワード候補集合を構成し、かつ前記単語ベクトルモデルに基づいて、前記キーワード候補集合内の各キーワードの単語ベクトルを計算し、
前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築し、
前記セマンティック類似度グラフでPagerankアルゴリズムを実行して各キーワードをスコアリングし、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとする
ことを特徴とするソーシャルネットワークに基づくユーザキーワード抽出方法。 - 前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築する前記ステップにおいて、
前記キーワード候補集合内のキーワードを単語ノードとし、ただし、1つのキーワードが1つの単語ノードに対応し、
全ての単語ノードを巡回し、対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算し、2つの単語ノード間の文脈類似度が所定の閾値より大きい場合、前記2つの単語ノードの間にエッジを作成し、
全ての単語ノード及び作成されたエッジで前記セマンティック類似度グラフを構成する
ことを特徴とする請求項8に記載のソーシャルネットワークに基づくユーザキーワード抽出方法。 - 対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算する前記ステップにおいて、
2つの単語ノードの単語ベクトルを取得し、かつこの2つの単語ベクトル間のコサイン類似度を計算し、前記コサイン類似度を前記2つの単語ノード間の文脈類似度とする
ことを特徴とする請求項9に記載のソーシャルネットワークに基づくユーザキーワード抽出方法。 - 前記ブログポストに含まれる単語の数が所定の単語数以上である場合、キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出する前記ステップにおいて、
それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出し、
前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする
ことを特徴とする請求項8に記載のソーシャルネットワークに基づくユーザキーワード抽出方法。 - 前記ブログポストに含まれる単語の数が所定の単語数以上である場合、キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出する前記ステップにおいて、
それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出し、
前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする
ことを特徴とする請求項9に記載のソーシャルネットワークに基づくユーザキーワード抽出方法。 - スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとする前記ステップにおいて、
スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、
又は、スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、ただし、スコアが所定のスコアより高いキーワードの数が第一所定数より大きい場合、前記第一所定数のキーワードにおける第二所定数のキーワードを前記ターゲットユーザの興味キーワードとし、前記第一所定数が前記第二所定数より大きい
ことを特徴とする請求項8に記載のソーシャルネットワークに基づくユーザキーワード抽出装置。 - スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとする前記ステップにおいて、
スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、
又は、スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、ただし、スコアが所定のスコアより高いキーワードの数が第一所定数より大きい場合、前記第一所定数のキーワードにおける第二所定数のキーワードを前記ターゲットユーザの興味キーワードとし、前記第一所定数が前記第二所定数より大きい
ことを特徴とする請求項9に記載のソーシャルネットワークに基づくユーザキーワード抽出装置。 - コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にユーザキーワード抽出プログラムが記憶されており、前記ユーザキーワード抽出プログラムが少なくとも1つのプロセッサによって実行されることにより、
ターゲットユーザが所定の時間間隔内に発表したブログポストを取得し、所定の単語分割ツールを使用して取得されたブログポストに対して単語分割の処理を実行し、各ブログポストに対応する単語リストをそれぞれ取得するステップと、
取得された各ブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得するステップと、
キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出し、前記ターゲットユーザが前記所定の時間間隔内に発表したブログポストに蓄積されたキーワードにより、前記ターゲットユーザのキーワード候補集合を構成し、かつ前記単語ベクトルモデルに基づいて、前記キーワード候補集合内の各キーワードの単語ベクトルを計算するステップと、
前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築するステップと、
前記セマンティック類似度グラフでPagerankアルゴリズムを実行して各キーワードをスコアリングし、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとするステップと、を実現する
ことを特徴とするコンピュータ読み取り可能な記憶媒体。 - 前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築する前記ステップにおいて、
前記キーワード候補集合内のキーワードを単語ノードとし、ただし、1つのキーワードが1つの単語ノードに対応し、
全ての単語ノードを巡回し、対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算し、2つの単語ノード間の文脈類似度が所定の閾値より大きい場合、前記2つの単語ノードの間にエッジを作成し、
全ての単語ノード及び作成されたエッジで前記セマンティック類似度グラフを構成する
ことを特徴とする請求項15に記載のコンピュータ読み取り可能な記憶媒体。 - 対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算する前記ステップにおいて、
2つの単語ノードの単語ベクトルを取得し、かつこの2つの単語ベクトル間のコサイン類似度を計算し、前記コサイン類似度を前記2つの単語ノード間の文脈類似度とする
ことを特徴とする請求項16に記載のコンピュータ読み取り可能な記憶媒体。 - 前記ブログポストに含まれる単語の数が所定の単語数以上である場合、キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出する前記ステップにおいて、
それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出し、
前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする
ことを特徴とする請求項15に記載のコンピュータ読み取り可能な記憶媒体。 - 前記ブログポストに含まれる単語の数が所定の単語数以上である場合、キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出する前記ステップにおいて、
それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出し、
前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする
ことを特徴とする請求項16に記載のコンピュータ読み取り可能な記憶媒体。 - スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとする前記ステップにおいて、
スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、
又は、スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、ただし、スコアが所定のスコアより高いキーワードの数が第一所定数より大きい場合、前記第一所定数のキーワードにおける第二所定数のキーワードを前記ターゲットユーザの興味キーワードとし、前記第一所定数が前記第二所定数より大きい
ことを特徴とする請求項15に記載のコンピュータ読み取り可能な記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710754314.4 | 2017-08-29 | ||
CN201710754314.4A CN107704503A (zh) | 2017-08-29 | 2017-08-29 | 用户关键词提取装置、方法及计算机可读存储介质 |
PCT/CN2017/108797 WO2019041521A1 (zh) | 2017-08-29 | 2017-10-31 | 用户关键词提取装置、方法及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019533205A true JP2019533205A (ja) | 2019-11-14 |
Family
ID=61169937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018538141A Pending JP2019533205A (ja) | 2017-08-29 | 2017-10-31 | ユーザキーワード抽出装置、方法、及びコンピュータ読み取り可能な記憶媒体 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20210097238A1 (ja) |
EP (1) | EP3477495A4 (ja) |
JP (1) | JP2019533205A (ja) |
KR (1) | KR102170929B1 (ja) |
CN (1) | CN107704503A (ja) |
AU (1) | AU2017408801B2 (ja) |
WO (1) | WO2019041521A1 (ja) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108596789B (zh) * | 2018-03-29 | 2022-08-30 | 时时同云科技(成都)有限责任公司 | 一种菜品标准化的方法 |
CN108573134A (zh) * | 2018-04-04 | 2018-09-25 | 阿里巴巴集团控股有限公司 | 一种识别身份的方法、装置及电子设备 |
CN109635273B (zh) * | 2018-10-25 | 2023-04-25 | 平安科技(深圳)有限公司 | 文本关键词提取方法、装置、设备及存储介质 |
CN109408826A (zh) * | 2018-11-07 | 2019-03-01 | 北京锐安科技有限公司 | 一种文本信息提取方法、装置、服务器及存储介质 |
CN111259656A (zh) * | 2018-11-15 | 2020-06-09 | 武汉斗鱼网络科技有限公司 | 短语相似度计算方法、存储介质、电子设备及系统 |
CN109508423A (zh) * | 2018-12-14 | 2019-03-22 | 平安科技(深圳)有限公司 | 基于语义识别的房源推荐方法、装置、设备及存储介质 |
CN110298029B (zh) * | 2019-05-22 | 2022-07-12 | 平安科技(深圳)有限公司 | 基于用户语料的好友推荐方法、装置、设备及介质 |
CN110489758B (zh) * | 2019-09-10 | 2023-04-18 | 深圳市和讯华谷信息技术有限公司 | 应用程序的价值观计算方法及装置 |
JP7451917B2 (ja) * | 2019-09-26 | 2024-03-19 | 株式会社Jvcケンウッド | 情報提供装置、情報提供方法及びプログラム |
KR102326744B1 (ko) * | 2019-11-21 | 2021-11-16 | 강원오픈마켓 주식회사 | 사용자 참여형 키워드 선정 시스템의 제어 방법, 장치 및 프로그램 |
CN111191119B (zh) * | 2019-12-16 | 2023-12-12 | 绍兴市上虞区理工高等研究院 | 一种基于神经网络的科技成果自学习方法及装置 |
CN111274428B (zh) * | 2019-12-19 | 2023-06-30 | 北京创鑫旅程网络技术有限公司 | 一种关键词的提取方法及装置、电子设备、存储介质 |
CN111160193B (zh) * | 2019-12-20 | 2024-02-09 | 中国平安财产保险股份有限公司 | 关键信息提取方法、装置及存储介质 |
CN112800771B (zh) * | 2020-02-17 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 文章识别方法、装置、计算机可读存储介质和计算机设备 |
CN111460099B (zh) * | 2020-03-30 | 2023-04-07 | 招商局金融科技有限公司 | 关键词提取方法、装置及存储介质 |
CN111581492B (zh) * | 2020-04-01 | 2024-02-23 | 车智互联(北京)科技有限公司 | 一种内容推荐方法、计算设备及可读存储介质 |
KR102476334B1 (ko) * | 2020-04-22 | 2022-12-09 | 인하대학교 산학협력단 | 딥러닝 기반 일기 생성 방법 및 장치 |
CN111737523B (zh) * | 2020-04-22 | 2023-11-14 | 聚好看科技股份有限公司 | 一种视频标签、搜索内容的生成方法及服务器 |
CN111724196A (zh) * | 2020-05-14 | 2020-09-29 | 天津大学 | 一种基于用户体验的提高汽车产品质量的方法 |
CN111858834B (zh) * | 2020-07-30 | 2023-12-01 | 平安国际智慧城市科技股份有限公司 | 基于ai的案件争议焦点确定方法、装置、设备及介质 |
CN112069232B (zh) * | 2020-09-08 | 2023-08-01 | 中国移动通信集团河北有限公司 | 宽带业务覆盖范围的查询方法及装置 |
CN112347778B (zh) * | 2020-11-06 | 2023-06-20 | 平安科技(深圳)有限公司 | 关键词抽取方法、装置、终端设备及存储介质 |
CN112329462B (zh) * | 2020-11-26 | 2024-02-20 | 北京五八信息技术有限公司 | 一种数据排序方法、装置、电子设备及存储介质 |
CN112988971A (zh) * | 2021-03-15 | 2021-06-18 | 平安科技(深圳)有限公司 | 基于词向量的搜索方法、终端、服务器及存储介质 |
CN113919342A (zh) * | 2021-09-18 | 2022-01-11 | 暨南大学 | 一种会计术语共现网络图构建的方法 |
CN115080718B (zh) * | 2022-06-21 | 2024-04-09 | 浙江极氪智能科技有限公司 | 一种文本关键短语的抽取方法、系统、设备及存储介质 |
CN115344679A (zh) * | 2022-08-16 | 2022-11-15 | 中国平安财产保险股份有限公司 | 问题数据的处理方法、装置、计算机设备及存储介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002175331A (ja) * | 2000-12-07 | 2002-06-21 | Patent Mall:Kk | 特許分類表示方法、装置、記録媒体およびプログラム |
JP5088096B2 (ja) * | 2007-11-02 | 2012-12-05 | 富士通株式会社 | 情報抽出プログラムおよび情報抽出装置 |
CN103201718A (zh) * | 2010-11-05 | 2013-07-10 | 乐天株式会社 | 关于关键词提取的系统和方法 |
CN104778161B (zh) * | 2015-04-30 | 2017-07-07 | 车智互联(北京)科技有限公司 | 基于Word2Vec和Query log抽取关键词方法 |
US9798818B2 (en) * | 2015-09-22 | 2017-10-24 | International Business Machines Corporation | Analyzing concepts over time |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
US20170139899A1 (en) | 2015-11-18 | 2017-05-18 | Le Holdings (Beijing) Co., Ltd. | Keyword extraction method and electronic device |
CN105447179B (zh) * | 2015-12-14 | 2019-02-05 | 清华大学 | 基于微博社交网络的话题自动推荐方法及其系统 |
CN105912524B (zh) * | 2016-04-09 | 2019-08-20 | 北京交通大学 | 基于低秩矩阵分解的文章话题关键词提取方法和装置 |
CN106372064B (zh) * | 2016-11-18 | 2019-04-19 | 北京工业大学 | 一种文本挖掘的特征词权重计算方法 |
CN106997382B (zh) * | 2017-03-22 | 2020-12-01 | 山东大学 | 基于大数据的创新创意标签自动标注方法及系统 |
CN106970910B (zh) * | 2017-03-31 | 2020-03-27 | 北京奇艺世纪科技有限公司 | 一种基于图模型的关键词提取方法及装置 |
-
2017
- 2017-08-29 CN CN201710754314.4A patent/CN107704503A/zh active Pending
- 2017-10-31 US US16/084,988 patent/US20210097238A1/en not_active Abandoned
- 2017-10-31 KR KR1020187024862A patent/KR102170929B1/ko active IP Right Grant
- 2017-10-31 EP EP17904351.8A patent/EP3477495A4/en not_active Withdrawn
- 2017-10-31 JP JP2018538141A patent/JP2019533205A/ja active Pending
- 2017-10-31 WO PCT/CN2017/108797 patent/WO2019041521A1/zh unknown
- 2017-10-31 AU AU2017408801A patent/AU2017408801B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20210097238A1 (en) | 2021-04-01 |
KR102170929B1 (ko) | 2020-10-29 |
EP3477495A4 (en) | 2019-12-11 |
CN107704503A (zh) | 2018-02-16 |
AU2017408801B2 (en) | 2020-04-02 |
AU2017408801A1 (en) | 2019-03-14 |
EP3477495A1 (en) | 2019-05-01 |
WO2019041521A1 (zh) | 2019-03-07 |
KR20190038751A (ko) | 2019-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019533205A (ja) | ユーザキーワード抽出装置、方法、及びコンピュータ読み取り可能な記憶媒体 | |
US10282606B2 (en) | Organizational logo enrichment | |
CA2916856C (en) | Automatic generation of headlines | |
JP2022505237A (ja) | コンテンツアイテム推奨をランク付けするための技術 | |
WO2021042515A1 (zh) | 图数据存储和查询方法、装置及计算机可读存储介质 | |
WO2020237856A1 (zh) | 基于知识图谱的智能问答方法、装置及计算机存储介质 | |
CN110276456B (zh) | 一种机器学习模型辅助构建方法、系统、设备及介质 | |
JP2017157192A (ja) | キーワードに基づいて画像とコンテンツアイテムをマッチングする方法 | |
CN111753198A (zh) | 信息推荐方法和装置、以及电子设备和可读存储介质 | |
JP2017142796A (ja) | 情報の特定及び抽出 | |
WO2017075017A1 (en) | Automatic conversation creator for news | |
JP6363682B2 (ja) | 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法 | |
US9754015B2 (en) | Feature rich view of an entity subgraph | |
WO2019205373A9 (zh) | 相似用户查找装置、方法及计算机可读存储介质 | |
US9183598B2 (en) | Identifying event-specific social discussion threads | |
US20140379719A1 (en) | System and method for tagging and searching documents | |
US20230076387A1 (en) | Systems and methods for providing a comment-centered news reader | |
WO2014206151A1 (en) | System and method for tagging and searching documents | |
JP2015135668A (ja) | コンテント及び関係距離に基づいて人々をつなげるコンピューティング装置及び方法 | |
JP6932360B2 (ja) | オブジェクト検索方法、装置およびサーバ | |
WO2020258481A1 (zh) | 个性化文本智能推荐方法、装置及计算机可读存储介质 | |
CN110275962B (zh) | 用于输出信息的方法和装置 | |
WO2019205374A1 (zh) | 模型的在线训练方法、服务器及存储介质 | |
CN103886016A (zh) | 一种用于确定页面中的垃圾文本信息的方法与设备 | |
JP6419969B2 (ja) | 画像の提示情報を提供するための方法及び機器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180919 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180919 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191113 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200203 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200512 |