JP2019533205A - ユーザキーワード抽出装置、方法、及びコンピュータ読み取り可能な記憶媒体 - Google Patents

ユーザキーワード抽出装置、方法、及びコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP2019533205A
JP2019533205A JP2018538141A JP2018538141A JP2019533205A JP 2019533205 A JP2019533205 A JP 2019533205A JP 2018538141 A JP2018538141 A JP 2018538141A JP 2018538141 A JP2018538141 A JP 2018538141A JP 2019533205 A JP2019533205 A JP 2019533205A
Authority
JP
Japan
Prior art keywords
keyword
word
blog post
predetermined
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018538141A
Other languages
English (en)
Inventor
振宇 呉
振宇 呉
睿▲かい▼ 劉
睿▲かい▼ 劉
建明 王
建明 王
肖京
京 肖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Publication of JP2019533205A publication Critical patent/JP2019533205A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

従来技術ではユーザのブログポストに基づいてユーザの興味を効果的に表現できるキーワードを抽出することが困難であるという技術的課題を解決するために、ソーシャルネットワークに基づくユーザキーワード抽出装置、方法、及びコンピュータ読み取り可能な記憶媒体を提供する。本願はソーシャルネットワークに基づくユーザキーワード抽出方法を開示し、ターゲットユーザが所定の時間間隔内に発表したブログポストを取得し、かつ単語分割の処理を実行し、各ブログポストの単語リストを取得すること、取得された各ブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで単語ベクトルモデルを取得すること、キーワード抽出アルゴリズムに基づいてブログポストに対応するキーワードを抽出してターゲットユーザのキーワード候補集合を構成し、かつ単語ベクトルモデルに基づいてキーワード候補集合内の各キーワードの単語ベクトルを計算し、かつセマンティック類似度グラフを構築すること、セマンティック類似度グラフでPagerankアルゴリズムを実行してキーワードをスコアリングすることでユーザの興味キーワードを取得することを含む。本願はさらにソーシャルネットワークに基づくユーザキーワード抽出装置及びコンピュータ読み取り可能な記憶媒体を提供する。

Description

「関連出願の相互参照」
本願は、パリ条約に基づいて2017年08月29日に中国国家知識産権局に出願された、中国特許出願第201710754314.4号の「ユーザキーワード抽出装置、方法、及びコンピュータ読み取り可能な記憶媒体」と題する中国特許出願の優先権を主張し、当該出願の全体が参照によりここに組み込まれる。
本願は、コンピュータ技術分野に関し、詳しく言えば、ソーシャルネットワークに基づくユーザキーワード抽出装置、方法、及びコンピュータ読み取り可能な記憶媒体に関する。
現在、ソーシャルネットワークの普及に伴い、ユーザのブログポストに対するパーソナライズされた推薦事項など、マイクロブログなどのソーシャルネットワークに基づくアプリケーションがますます増えている。現在の推薦方法は、主に同じタグ情報に基づく友人の推薦、共通の関心に基づく友人の推薦、話題の人気に基づくマイクロブログトピックの推薦などがあるが、このタイプの推薦は限られており、ユーザの興味や嗜好に基づいてターゲットを絞った推薦を行うことは困難である。従って、大量のブログポストデータからユーザの興味を効果的に表現できるキーワードを抽出し、ユーザの真の興味を分析して決定することは、解決すべき緊急の課題である。
本願は、ソーシャルネットワークに基づくユーザキーワード抽出装置、方法、及びコンピュータ読み取り可能な記憶媒体を提供し、従来技術ではユーザのブログポストに基づいてユーザの興味を効果的に表現できるキーワードを抽出することが困難であるという技術的課題を解決することを主な目的とする。
上記の目的を達成するために、本願は、ソーシャルネットワークに基づくユーザキーワード抽出装置を提供し、該装置は、プロセッサで実行可能なユーザキーワード抽出プログラムが記憶されているメモリと、プロセッサと、を含み、前記ユーザキーワード抽出プログラムが前記プロセッサによって実行される時、
ターゲットユーザが所定の時間間隔内に発表したブログポストを取得し、所定の単語分割ツールを使用して取得されたブログポストに対して単語分割の処理を実行し、各ブログポストに対応する単語リストをそれぞれ取得するステップと、
取得された各ブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得するステップと、
キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出し、前記ターゲットユーザが前記所定の時間間隔内に発表したブログポストに蓄積されたキーワードにより、前記ターゲットユーザのキーワード候補集合を構成し、かつ前記単語ベクトルモデルに基づいて、前記キーワード候補集合内の各キーワードの単語ベクトルを計算するステップと、
前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築するステップと、
前記セマンティック類似度グラフでPagerankアルゴリズムを実行して各キーワードをスコアリングし、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとするステップと、を実現する。
場合によっては、前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築する前記ステップにおいて、
前記キーワード候補集合内のキーワードを単語ノードとし、ただし、1つのキーワードが1つの単語ノードに対応し、
全ての単語ノードを巡回し、対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算し、2つの単語ノード間の文脈類似度が所定の閾値より大きい場合、前記2つの単語ノードの間にエッジを作成し、
全ての単語ノード及び作成されたエッジで前記セマンティック類似度グラフを構成する。
場合によっては、対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算する前記ステップにおいて、
2つの単語ノードの単語ベクトルを取得し、かつこの2つの単語ベクトル間のコサイン類似度を計算し、前記コサイン類似度を前記2つの単語ノード間の文脈類似度とする。
場合によっては、前記ブログポストに含まれる単語の数が所定の単語数以上である場合、キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出する前記ステップにおいて、
それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出し、
前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする。
場合によっては、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとする前記ステップにおいて、
スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、
又は、スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、ただし、スコアが所定のスコアより高いキーワードの数が第一所定数より大きい場合、前記第一所定数のキーワードにおける第二所定数のキーワードを前記ターゲットユーザの興味キーワードとし、前記第一所定数は前記第二所定数より大きい。
また、上記の目的を達成するために、本願は、ソーシャルネットワークに基づくユーザキーワード抽出方法を提供し、該方法において、
ターゲットユーザが所定の時間間隔内に発表したブログポストを取得し、所定の単語分割ツールを使用して取得されたブログポストに対して単語分割の処理を実行し、各ブログポストに対応する単語リストをそれぞれ取得し、
取得された各ブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得し、
キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出し、前記ターゲットユーザが前記所定の時間間隔内に発表したブログポストに蓄積されたキーワードにより、前記ターゲットユーザのキーワード候補集合を構成し、かつ前記単語ベクトルモデルに基づいて、前記キーワード候補集合内の各キーワードの単語ベクトルを計算し、
前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築し、
前記セマンティック類似度グラフでPagerankアルゴリズムを実行して各キーワードをスコアリングし、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとする。
場合によっては、前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築する前記ステップにおいて、
前記キーワード候補集合内のキーワードを単語ノードとし、ただし、1つのキーワードが1つの単語ノードに対応し、
全ての単語ノードを巡回し、対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算し、2つの単語ノード間の文脈類似度が所定の閾値より大きい場合、前記2つの単語ノードの間にエッジを作成し、
全ての単語ノード及び作成されたエッジで前記セマンティック類似度グラフを構成する。
場合によっては、対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算する前記ステップにおいて、
2つの単語ノードの単語ベクトルを取得し、かつこの2つの単語ベクトル間のコサイン類似度を計算し、前記コサイン類似度を前記2つの単語ノード間の文脈類似度とする。
場合によっては、前記ブログポストに含まれる単語の数が所定の単語数以上である場合、キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出する前記ステップにおいて、
それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出し、
前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする。
また、上記の目的を達成するために、本願は、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体にユーザキーワード抽出プログラムが記憶されており、前記ユーザキーワード抽出プログラムが少なくとも1つのプロセッサによって実行されることにより、
ターゲットユーザが所定の時間間隔内に発表したブログポストを取得し、所定の単語分割ツールを使用して取得されたブログポストに対して単語分割の処理を実行し、各ブログポストに対応する単語リストをそれぞれ取得するステップと、
取得された各ブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得するステップと、
キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出し、前記ターゲットユーザが前記所定の時間間隔内に発表したブログポストに蓄積されたキーワードにより、前記ターゲットユーザのキーワード候補集合を構成し、かつ前記単語ベクトルモデルに基づいて、前記キーワード候補集合内の各キーワードの単語ベクトルを計算するステップと、
前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築するステップと、
前記セマンティック類似度グラフでPagerankアルゴリズムを実行して各キーワードをスコアリングし、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとするステップと、を実現する。
本願の提供するソーシャルネットワークに基づくユーザキーワード抽出装置、方法、及びコンピュータ読み取り可能な記憶媒体は、ターゲットユーザが所定の時間間隔内に発表した各ブログポストに対して単語分割の処理を実行することで、各ブログポストに対応する単語リストを取得し、Word2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得し、キーワード抽出アルゴリズムに基づいてブログポストの単語リストから対応するキーワードを抽出してキーワード候補集合を構成し、上記単語ベクトルモデルに基づいて集合内の各キーワードの単語ベクトルを計算し、キーワード集合内のキーワード及び単語ベクトルに基づいてセマンティック類似度グラフを構築し、セマンティック類似度グラフでPagerankアルゴリズムを実行してキーワードをスコアリングし、スコアが所定の条件を満たすキーワードを該ユーザの興味キーワードとする。本願は、上記形態でユーザが発表したブログポストをまとめて単語分割の処理を実行することで、ユーザの興味を効果的に表現できるキーワードを抽出する。
本願のソーシャルネットワークに基づくユーザキーワード抽出装置の好適な実施例の概略図である。 本願のソーシャルネットワークに基づくユーザキーワード抽出装置の一実施例におけるユーザキーワード抽出プログラムのプログラムモジュールの概略図である。 本願のソーシャルネットワークに基づくユーザキーワード抽出方法の好適な実施例のフローチャートである。
図面と実施例を組み合わせて本願の目的の実現、機能及び利点をさらに説明する。本明細書に記載された具体的な実施例は、単に本願を説明するためのものであり、本願を限定するためのものではないことが理解される。
本願は、ソーシャルネットワークに基づくユーザキーワード抽出装置を提供する。図1に示すように、本願のソーシャルネットワークに基づくユーザキーワード抽出装置の好適な実施例の概略図である。
本実施例において、ソーシャルネットワークに基づくユーザキーワード抽出装置は、PC(Personal Computer、パーソナルコンピュータ)であってもよいし、またスマートフォン、タブレットコンピュータ、電子ブックリーダー、ポータブルコンピュータなどの端末装置であってもよい。
該ソーシャルネットワークに基づくユーザキーワード抽出装置は、メモリ11、プロセッサ12、通信バス13、及びネットワークインタフェース14を含む。
ただし、メモリ11は、フラッシュメモリ、ハードディスク、マルチメディアカード、カード型メモリ(例えば、SD又はDXメモリなど)、磁気メモリ、磁気ディスク、光ディスクなどを含む少なくとも1つのタイプの読み取り可能な記憶媒体を含む。メモリ11は、いくつかの実施例では、ソーシャルネットワークに基づくユーザキーワード抽出装置のハードディスクなど、ソーシャルネットワークに基づくユーザキーワード抽出装置の内部記憶装置であってもよい。メモリ11は、他の実施例では、ソーシャルネットワークに基づくユーザキーワード抽出装置に搭載されたプラグインハードディスク、スマートメモリカード(Smart Media(登録商標) Card、SMC)、セキュアデジタル(Secure Digital、SD)カード、フラッシュカード(Flash Card)など、ソーシャルネットワークに基づくユーザキーワード抽出装置の外部記憶装置であってもよい。さらに、メモリ11は、ソーシャルネットワークに基づくユーザキーワード抽出装置の内部記憶装置と外部記憶装置の両方を含むこともできる。メモリ11は、ユーザキーワード抽出プログラムなどのソーシャルネットワークに基づくユーザキーワード抽出装置にインストールされたアプリケーションソフトウェアや各種データを記憶するために用いられるだけでなく、出力されたデータや出力されるデータを一時的に記憶するためにも使用できる。
プロセッサ12は、いくつかの実施例では、中央処理装置(Central Processing Unit、CPU)、コントローラ、マイクロコントローラ、マイクロプロセッサ、又は他のデータ処理チップであってもよく、メモリ11に記憶されたプログラムコード又は処理データを実行するために用いられ、例えばユーザキーワード抽出プログラムの実行などである。
通信バス13は、これらの構成要素間の接続通信を実現するために用いられる。
ネットワークインタフェース14は、標準的な有線インタフェース、無線インタフェース(例えば、WI−FIインタフェース)を任意に含んでもよく、一般的に、該装置と他の電子デバイスとの間の通信接続を確立するために用いられる。
図1は、構成要素11−14及びユーザキーワード抽出プログラムを有するソーシャルネットワークに基づくユーザキーワード抽出装置のみを示しているが、理解されるように、示された全ての構成要素を実施する必要はなく、より多くの又はより少ない構成要素を実施することも可能である。
場合によっては、該装置はまたユーザインタフェースを含むことができ、ユーザインタフェースはディスプレイ(Display)、キーボード(Keyboard)などの入力ユニットを含むことができ、選択可能なユーザインタフェースはまた、標準的な有線インタフェース及び無線インタフェースを含むことができる。場合によっては、いくつかの実施例では、ディスプレイは、LEDディスプレイ、液晶ディスプレイ、タッチ液晶ディスプレイ及びOLED(Organic Light−Emitting Diode、有機発光ダイオード)タッチセンサなどであってもよい。ただし、ディスプレイは、ソーシャルネットワークに基づくユーザキーワード抽出装置で処理された情報及び視覚化されたユーザインタフェースを表示するための表示画面又は表示ユニットと適宜呼ばれてもよい。
図1に示す装置の実施例では、メモリ11にユーザキーワード抽出プログラムが記憶されている。プロセッサ12がメモリ11に記憶されたユーザキーワード抽出プログラムを実行する時、ステップA、ステップB、ステップC、ステップD、ステップEを実現する。
ステップA、ターゲットユーザが所定の時間間隔内に発表したブログポストを取得し、所定の単語分割ツールを使用して取得されたブログポストに対して単語分割の処理を実行し、各ブログポストに対応する単語リストをそれぞれ取得する。
ステップB、取得された各ブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得する。
ステップC、キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出し、前記ターゲットユーザが前記所定の時間間隔内に発表したブログポストに蓄積されたキーワードにより、前記ターゲットユーザのキーワード候補集合を構成し、かつ前記単語ベクトルモデルに基づいて、前記キーワード候補集合内の各キーワードの単語ベクトルを計算する。
本実施例では、マイクロブログを例に挙げて本願の解決手段を説明する。ターゲットユーザが発表したマイクロブログのコンテンツに基づいて、該ユーザの興味や嗜好を効果的に表現できるキーワードを取得する必要がある場合、ユーザが発表したブログポストを取得して単語分割の処理を実行する。理解されるように、時間の経過とともに、ユーザの興味や嗜好が変化する可能性があるため、キーワード抽出の精度を向上させるために、発表したブログポストを時間次元でフィルタリングし、所定の時間間隔を設定し、この期間に発表したブログポストのみを分析し、例えば、過去1年間に発表したブログポストのみを分析する。当然ながら、他の実施例では、ユーザが所定の時間間隔内に発表したブログポストの数が少ない場合、過去に該ユーザが発表した全てのブログポストを分析することもできる。
ターゲットユーザのブログポストを取得した後、単語分割ツールを使用して、取得された各ブログポストに対して単語分割の処理を1つずつ実行する。例えば、Stanford中国語単語分割ツール、jieba単語分割などの単語分割ツールを使用して単語分割の処理を実行する。例えば、「昨日夕方、映画を見に行った」というブログポストのコンテンツに対して単語分割を実行すると、「昨日|夕方|行く|見る|た|映画」の結果を得る。単語分割の処理後に単語分割結果を残し、さらに、キーワードの有効性をさらに向上させるために、単語分割結果の動詞及び/又は名詞のみを残し、副詞や形容詞などのユーザの興味を表現できない単語を削除する。例えば、上記の例では、「映画」という単語のみを残してもよい。理解されるように、単語分割の処理後に得られた結果が空の場合、対応するブログポストをフィルタリングし、単語分割結果が空でないブログポストごとに対応する単語リストを取得し、上記時間間隔内の全てのブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得し、該単語ベクトルモデルはキーワードを1つの単語ベクトルに変換するために用いられる。Word2Vecモデルは、単語ベクトルを計算するためのツールであり、該モデルをトレーニングしてそれを使用して単語の単語ベクトルを計算するための成熟した計算方法があるが、ここでは説明しない。
次いで、キーワード抽出アルゴリズムを使用して各ブログポストについてキーワードを抽出し、例えば、TF−IDF(Term Frequency−Inverse Document Frequency、単語出現頻度−逆文書頻度)アルゴリズム、LSA(Latent Semantic Analysis、潜在意味解析)アルゴリズム、PLSA(Probabilistic Latent Semantic Analysis、確率的潜在意味解析)アルゴリズムなどのキーワード抽出アルゴリズムのいずれか1つを利用して各ブログポストの単語リストに対して計算し、スコアが最も高い1つ又は複数の単語を該ブログポストに対応するキーワードとし、上記単語ベクトルモデルを使用して各キーワードを対応する単語ベクトルに変換する。或いは、1つの実施形態として、複数のキーワード抽出アルゴリズムを組み合わせてキーワードの抽出を実行し、具体的には、キーワード抽出アルゴリズムに基づいてブログポストの単語リストから該ブログポストに対応するキーワードを抽出するステップにおいて、それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出し、前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする。例えば、それぞれ上記TF−IDFアルゴリズム、LSAアルゴリズム又はPLSAアルゴリズムに従って1回のキーワード抽出を実行し、そして重複するキーワードを該ブログポストに対応するキーワードとする。
ブログポストのコンテンツは一般的に比較的短いため、上記キーワード抽出アルゴリズムをブログポストのキーワード抽出に適用する場合、一般的に、抽出されたキーワードのノイズが大きく、かつあまりにも広範であり、ユーザの興味を正確に反映しにくいため、本実施例では、多数のブログポストに対して、上記キーワード抽出アルゴリズムを適用してキーワードを抽出してキーワード候補とし、キーワード候補集合を作成し、さらに後続のアルゴリズムに従って該キーワード集合を処理してユーザの興味を反映できるキーワードを取得する。
ステップD、前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築する。
ターゲットユーザが上記所定の時間間隔内に発表した各ブログポストに対応するキーワードにより、該ターゲットユーザのキーワード候補集合を構成し、かつ上記単語ベクトルモデルを使用して集合内の各キーワードの単語ベクトルを計算する。上記キーワード候補集合及び単語ベクトルに基づいて、セマンティック類似度グラフを構築する。
前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築するステップにおいて、具体的には、前記キーワード候補集合内のキーワードを単語ノードとし、ただし、1つのキーワードが1つの単語ノードに対応するステップと、全ての単語ノードを巡回し、対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算し、2つの単語ノード間の文脈類似度が所定の閾値より大きい場合、前記2つの単語ノードの間にエッジを作成するステップと、全ての単語ノード及び作成されたエッジで前記セマンティック類似度グラフを構成するステップと、を含んでもよい。
ただし、文脈類似度を計算する時に、2つの単語ノードの単語ベクトルを取得し、かつこの2つの単語ベクトル間のコサイン類似度を計算し、前記コサイン類似度を前記2つの単語ノード間の文脈類似度とする。ただし、単語ノード間に作成されたエッジは、有向エッジであってもよいし、また無向エッジであってもよく、ただし、有向エッジの方向は、早く出現する単語ノードから遅く出現する単語ノードを指す方向であってもよい。それらは異なる利点を備え、有向エッジの特徴として、Pagerankアルゴリズムの実行時に反復計算を実行する必要があり、計算量がわずかに大きく、その利点として、ノイズ除去効果が良好である。例えば、あるユーザを分析した後、取得されたキーワードは、ロナウド、レアルマドリード、ラリガ、サッカー、抽選であり、最初の4つの単語がセマンティック類似度グラフでどれを指しても、Pagerankアルゴリズムのスコアリングで相互補強的役割を形成する。そのため、おやつなどの単語と他の単語が有向エッジを作成しても、反復計算において促進を形成できず、それによって「抽選」という単語に対するスコアが低くなり、この単語を除外することができる。無向エッジの場合、Pagerankアルゴリズムの実行時に計算速度が速く、反復計算が不要であるが、ノイズ除去効果が不良であり、例えば、上記の例では、「抽選」という単語を除外しない場合がある。他の実施例では、他の形態によって2つの単語間のセマンティック類似度を計算してもよく、例えば、大規模コーパスに基づいてセマンティック類似度を計算する方法などであり、大規模コーパスに基づいてセマンティック類似度を計算する方法が成熟した単語間のセマンティック類似度の計算方法であるため、その具体的な原理はここでは説明しない。
ステップE、前記セマンティック類似度グラフでPagerankアルゴリズムを実行して各キーワードをスコアリングし、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとする。
セマンティック類似度グラフでPagerankアルゴリズムを実行して各単語ノードをスコアリングし、単語ノードのPagerank値が大きいほど、グラフで該単語ノードを指す他の単語ノード(有向エッジの場合)又は該単語ノードに接続される他の単語ノード(無向エッジの場合)が多いことを示し、さらにグラフで該単語ノードとの類似度が高い他の単語ノードが多いことを示し、該単語ノードに対応するキーワードがユーザの興味をよりよく表現できる。よって、スコアが高いキーワードをターゲットユーザの興味キーワードとする。具体的には、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとするステップにおいて、
スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、
又は、スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、ただし、スコアが所定のスコアより高いキーワードの数が第一所定数より大きい場合、前記第一所定数のキーワードにおける第二所定数のキーワードを前記ターゲットユーザの興味キーワードとし、前記第一所定数は前記第二所定数より大きい。
理解されるように、上記各実施例に係る所定の閾値、所定の単語数、第一所定数、第二所定数などの予め設定する必要があるパラメータは、ユーザにより実際の状況に応じて設定することができる。
上記実施例の提供するソーシャルネットワークに基づくユーザキーワード抽出装置は、ターゲットユーザが所定の時間間隔内に発表した各ブログポストに対して単語分割の処理を実行することで、各ブログポストに対応する単語リストを取得し、Word2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得し、キーワード抽出アルゴリズムに基づいてブログポストの単語リストから対応するキーワードを抽出してキーワード候補集合を構成し、上記単語ベクトルモデルに基づいて集合内の各キーワードの単語ベクトルを計算し、キーワード集合内のキーワード及び単語ベクトルに基づいてセマンティック類似度グラフを構築し、セマンティック類似度グラフでPagerankアルゴリズムを実行してキーワードをスコアリングし、スコアが所定の条件を満たすキーワードを該ユーザの興味キーワードとする。本願は、上記形態でユーザが発表したブログポストをまとめて単語分割の処理を実行することで、ユーザの興味を効果的に表現できるキーワードを抽出する。
場合によっては、他の実施例では、ユーザキーワード抽出プログラムは1つ又は複数のモジュールに分割されてもよく、1つ又は複数のモジュールはメモリ11に記憶されており、かつ1つ又は複数のプロセッサ(本実施例ではプロセッサ12)によって実行されることにより、本願を完成させる。本願で言及されるモジュールとは、特定の機能を実行できる一連のコンピュータプログラム命令セグメントを指す。例えば、図2に示すように、本願のソーシャルネットワークに基づくユーザキーワード抽出装置の一実施例におけるユーザキーワード抽出プログラムのプログラムモジュールの概略図であり、該実施例において、ユーザキーワード抽出プログラムは、取得モジュール10、トレーニングモジュール20、抽出モジュール30、グラフ構築モジュール40及びスコアリングモジュール50に分割されてもよく、例えば、
取得モジュール10は、ターゲットユーザが所定の時間間隔内に発表したブログポストを取得し、所定の単語分割ツールを使用して取得されたブログポストに対して単語分割の処理を実行し、各ブログポストに対応する単語リストをそれぞれ取得するために用いられ、
トレーニングモジュール20は、取得された各ブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得するために用いられ、
抽出モジュール30は、キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出し、前記ターゲットユーザが前記所定の時間間隔内に発表したブログポストに蓄積されたキーワードにより、前記ターゲットユーザのキーワード候補集合を構成し、かつ前記単語ベクトルモデルに基づいて、前記キーワード候補集合内の各キーワードの単語ベクトルを計算するために用いられ、
グラフ構築モジュール40は、前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築するために用いられ、
スコアリングモジュール50は、前記セマンティック類似度グラフでPagerankアルゴリズムを実行して各キーワードをスコアリングし、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとするために用いられる。
取得モジュール10、トレーニングモジュール20、抽出モジュール30、グラフ構築モジュール40及びスコアリングモジュール50が実行されることにより実現される機能又は操作ステップは、上記実施例とほぼ同じであり、ここでは説明しない。
さらに、本願は、ソーシャルネットワークに基づくユーザキーワード抽出方法を提供する。図3に示すように、本願のソーシャルネットワークに基づくユーザキーワード抽出方法の好適な実施例のフローチャートである。該方法は、1つの装置によって実行されてもよく、該装置は、ソフトウェア及び/又はハードウェアによって実現されてもよい。
本実施例では、ソーシャルネットワークに基づくユーザキーワード抽出方法は、ステップS10、ステップS20、ステップS30、ステップS40、ステップS50を含む。
ステップS10、ターゲットユーザが所定の時間間隔内に発表したブログポストを取得し、所定の単語分割ツールを使用して取得されたブログポストに対して単語分割の処理を実行し、各ブログポストに対応する単語リストをそれぞれ取得する。
ステップS20、取得された各ブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得する。
ステップS30、キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出し、前記ターゲットユーザが前記所定の時間間隔内に発表したブログポストに蓄積されたキーワードにより、前記ターゲットユーザのキーワード候補集合を構成し、かつ前記単語ベクトルモデルに基づいて、前記キーワード候補集合内の各キーワードの単語ベクトルを計算する。本実施例では、マイクロブログを例に挙げて本願の解決手段を説明する。ターゲットユーザが発表したマイクロブログのコンテンツに基づいて、該ユーザの興味や嗜好を効果的に表現できるキーワードを取得する必要がある場合、ユーザが発表したブログポストを取得して単語分割の処理を実行する。理解されるように、時間の経過とともに、ユーザの興味や嗜好が変化する可能性があるため、キーワード抽出の精度を向上させるために、発表したブログポストを時間次元でフィルタリングし、所定の時間間隔を設定し、この期間に発表したブログポストのみを分析し、例えば、過去1年間に発表したブログポストのみを分析する。当然ながら、他の実施例では、ユーザが所定の時間間隔内に発表したブログポストの数が少ない場合、過去に該ユーザが発表した全てのブログポストを分析することもできる。
ターゲットユーザのブログポストを取得した後、単語分割ツールを使用して、取得された各ブログポストに対して単語分割の処理を1つずつ実行する。例えば、Stanford中国語単語分割ツール、jieba単語分割などの単語分割ツールを使用して単語分割の処理を実行する。例えば、「昨日夕方、映画を見に行った」というブログポストのコンテンツに対して単語分割を実行すると、「昨日|夕方|行く|見る|た|映画」の結果を得る。単語分割の処理後に単語分割結果を残し、さらに、キーワードの有効性をさらに向上させるために、単語分割結果の動詞及び/又は名詞のみを残し、副詞や形容詞などのユーザの興味を表現できない単語を削除する。例えば、上記の例では、「映画」という単語のみを残してもよい。理解されるように、単語分割の処理後に得られた結果が空の場合、対応するブログポストをフィルタリングし、単語分割結果が空でないブログポストごとに対応する単語リストを取得し、上記時間間隔内の全てのブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得し、該単語ベクトルモデルはキーワードを1つの単語ベクトルに変換するために用いられる。Word2Vecモデルは、単語ベクトルを計算するためのツールであり、該モデルをトレーニングしてそれを使用して単語の単語ベクトルを計算するための成熟した計算方法があるが、ここでは説明しない。
次いで、キーワード抽出アルゴリズムを使用して各ブログポストについてキーワードを抽出し、例えば、TF−IDF(Term Frequency−Inverse Document Frequency、単語出現頻度−逆文書頻度)アルゴリズム、LSA(Latent Semantic Analysis、潜在意味解析)アルゴリズム、PLSA(Probabilistic Latent Semantic Analysis、確率的潜在意味解析)アルゴリズムなどのキーワード抽出アルゴリズムのいずれか1つを利用して各ブログポストの単語リストに対して計算し、スコアが最も高い1つ又は複数の単語を該ブログポストに対応するキーワードとし、上記単語ベクトルモデルを使用して各キーワードを対応する単語ベクトルに変換する。或いは、1つの実施形態として、複数のキーワード抽出アルゴリズムを組み合わせてキーワードの抽出を実行し、具体的には、キーワード抽出アルゴリズムに基づいてブログポストの単語リストから該ブログポストに対応するキーワードを抽出するステップにおいて、それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出し、前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする。例えば、それぞれ上記TF−IDFアルゴリズム、LSAアルゴリズム又はPLSAアルゴリズムに従って1回のキーワード抽出を実行し、そして重複するキーワードを該ブログポストに対応するキーワードとする。
ブログポストのコンテンツは一般的に比較的短いため、上記キーワード抽出アルゴリズムをブログポストのキーワード抽出に適用する場合、一般的に、抽出されたキーワードのノイズが大きく、かつあまりにも広範であり、ユーザの興味を正確に反映しにくいため、本実施例では、多数のブログポストに対して、上記キーワード抽出アルゴリズムを適用してキーワードを抽出してキーワード候補とし、キーワード候補集合を作成し、さらに後続のアルゴリズムに従って該キーワード集合を処理してユーザの興味を反映できるキーワードを取得する。
ステップS40、前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築する。
ターゲットユーザが上記所定の時間間隔内に発表した各ブログポストに対応するキーワードにより、該ターゲットユーザのキーワード候補集合を構成し、かつ上記単語ベクトルモデルを使用して集合内の各キーワードの単語ベクトルを計算する。上記キーワード候補集合及び単語ベクトルに基づいて、セマンティック類似度グラフを構築する。
前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築するステップにおいて、具体的には、前記キーワード候補集合内のキーワードを単語ノードとし、ただし、1つのキーワードが1つの単語ノードに対応するステップと、全ての単語ノードを巡回し、対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算し、2つの単語ノード間の文脈類似度が所定の閾値より大きい場合、前記2つの単語ノードの間にエッジを作成するステップと、全ての単語ノード及び作成されたエッジで前記セマンティック類似度グラフを構成するステップと、を含んでもよい。
ただし、文脈類似度を計算する時に、2つの単語ノードの単語ベクトルを取得し、かつこの2つの単語ベクトル間のコサイン類似度を計算し、前記コサイン類似度を前記2つの単語ノード間の文脈類似度とする。ただし、単語ノード間に作成されたエッジは、有向エッジであってもよいし、また無向エッジであってもよく、ただし、有向エッジの方向は、早く出現する単語ノードから遅く出現する単語ノードを指す方向であってもよい。それらは異なる利点を備え、有向エッジの特徴として、Pagerankアルゴリズムの実行時に反復計算を実行する必要があり、計算量がわずかに大きく、その利点として、ノイズ除去効果が良好である。例えば、あるユーザを分析した後、取得されたキーワードは、ロナウド、レアルマドリード、ラリガ、サッカー、抽選であり、最初の4つの単語がセマンティック類似度グラフでどれを指しても、Pagerankアルゴリズムのスコアリングで相互補強的役割を形成する。そのため、おやつなどの単語と他の単語が有向エッジを作成しても、反復計算において促進を形成できず、それによって「抽選」という単語に対するスコアが低くなり、この単語を除外することができる。無向エッジの場合、Pagerankアルゴリズムの実行時に計算速度が速く、反復計算が不要であるが、ノイズ除去効果が不良であり、例えば、上記の例では、「抽選」という単語を除外しない場合がある。他の実施例では、他の形態によって2つの単語間のセマンティック類似度を計算してもよく、例えば、大規模コーパスに基づいてセマンティック類似度を計算する方法などであり、大規模コーパスに基づいてセマンティック類似度を計算する方法が成熟した単語間のセマンティック類似度の計算方法であるため、その具体的な原理はここでは説明しない。
ステップS50、前記セマンティック類似度グラフでPagerankアルゴリズムを実行して各キーワードをスコアリングし、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとする。
セマンティック類似度グラフでPagerankアルゴリズムを実行して各単語ノードをスコアリングし、単語ノードのPagerank値が大きいほど、グラフで該単語ノードを指す他の単語ノード(有向エッジの場合)又は該単語ノードに接続される他の単語ノード(無向エッジの場合)が多いことを示し、さらにグラフで該単語ノードとの類似度が高い他の単語ノードが多いことを示し、該単語ノードに対応するキーワードがユーザの興味をよりよく表現できる。よって、スコアが高いキーワードをターゲットユーザの興味キーワードとする。具体的には、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとするステップにおいて、
スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、
又は、スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、ただし、スコアが所定のスコアより高いキーワードの数が第一所定数より大きい場合、前記第一所定数のキーワードにおける第二所定数のキーワードを前記ターゲットユーザの興味キーワードとし、前記第一所定数は前記第二所定数より大きい。
理解されるように、上記各実施例に係る所定の閾値、所定の単語数、第一所定数、第二所定数などの予め設定する必要があるパラメータは、ユーザにより実際の状況に応じて設定することができる。
上記実施例の提供するソーシャルネットワークに基づくユーザキーワード抽出方法は、ターゲットユーザが所定の時間間隔内に発表した各ブログポストに対して単語分割の処理を実行することで、各ブログポストに対応する単語リストを取得し、Word2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得し、キーワード抽出アルゴリズムに基づいてブログポストの単語リストから対応するキーワードを抽出してキーワード候補集合を構成し、上記単語ベクトルモデルに基づいて集合内の各キーワードの単語ベクトルを計算し、キーワード集合内のキーワード及び単語ベクトルに基づいてセマンティック類似度グラフを構築し、セマンティック類似度グラフでPagerankアルゴリズムを実行してキーワードをスコアリングし、スコアが所定の条件を満たすキーワードを該ユーザの興味キーワードとする。本願は、上記形態でユーザが発表したブログポストをまとめて単語分割の処理を実行することで、ユーザの興味を効果的に表現できるキーワードを抽出する。
さらに、本願の実施例は、コンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータ読み取り可能な記憶媒体にユーザキーワード抽出プログラムが記憶されており、前記ユーザキーワード抽出プログラムが1つ又は複数のプロセッサによって実行されることにより、
ターゲットユーザが所定の時間間隔内に発表したブログポストを取得し、所定の単語分割ツールを使用して取得されたブログポストに対して単語分割の処理を実行し、各ブログポストに対応する単語リストをそれぞれ取得する操作と、
取得された各ブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得する操作と、
キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出し、前記ターゲットユーザが前記所定の時間間隔内に発表したブログポストに蓄積されたキーワードにより、前記ターゲットユーザのキーワード候補集合を構成し、かつ前記単語ベクトルモデルに基づいて、前記キーワード候補集合内の各キーワードの単語ベクトルを計算する操作と、
前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築する操作と、
前記セマンティック類似度グラフでPagerankアルゴリズムを実行して各キーワードをスコアリングし、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとする操作と、を実現する。
さらに、前記ユーザキーワード抽出プログラムがプロセッサによって実行される時に、
前記キーワード候補集合内のキーワードを単語ノードとし、ただし、1つのキーワードが1つの単語ノードに対応する操作と、
全ての単語ノードを巡回し、対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算し、2つの単語ノード間の文脈類似度が所定の閾値より大きい場合、前記2つの単語ノードの間にエッジを作成する操作と、
全ての単語ノード及び作成されたエッジで前記セマンティック類似度グラフを構成する操作と、を実現する。
さらに、前記ユーザキーワード抽出プログラムがプロセッサによって実行される時に、
2つの単語ノードの単語ベクトルを取得し、かつこの2つの単語ベクトル間のコサイン類似度を計算し、前記コサイン類似度を前記2つの単語ノード間の文脈類似度とする操作を実現する。
さらに、前記ユーザキーワード抽出プログラムがプロセッサによって実行される時に、
それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出する操作と、
前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする操作と、を実現する。
本願のコンピュータ読み取り可能な記憶媒体の具体的な実施形態は上記ソーシャルネットワークに基づくユーザキーワード抽出装置と方法の各実施例とほぼ同じであり、ここでは説明しない。
なお、上記の本願の実施例の番号は、単に説明のためのものであり、実施例の優劣を表すものではない。本明細書において、用語「含む」、「含有する」又はそれらの任意の他の変型は、非排他的に含むことを意図し、それにより一連の要素を含むプロセス、方法、品物や装置はそれらの要素を含むだけでなく、かつ明確に列挙された他の要素を含み、又はこのようなプロセス、方法、品物や装置に固有の要素をさらに含む。より多くの制限がない場合に、語句「1つの...を含む」に限定される要素は、前記要素を含むプロセス、方法、品物や装置の中に他の同じ要素がさらに存在する場合は除外されない。
上記実施形態の説明によって、当業者であれば、上記実施例の方法がソフトウェアと必要な汎用ハードウェアプラットフォームの方式によって実現することができ、当然のことながら、ハードウェアによって実現することもできるが、多くの場合では、前者がより好適な実施形態であることは、明らかに理解されるものである。このような理解に基づき、本願の技術的解決手段は、本質的に又は、従来技術に寄与する部分がソフトウェア製品の形で具体化することができ、該コンピュータソフトウェア製品は、上述したように記憶媒体(例えば、ROM/RAM、磁気ディスク、光ディスク)に記憶され、複数の命令を含み、それにより1台の端末装置(携帯電話、コンピュータ、サーバ、又はネットワーク装置など)で本願の各実施例に記載の方法を実行する。
以上は、本願の好適な実施例にすぎず、本願の特許請求の範囲を限定するものではなく、本明細書及び図面の記載を利用して行う同等の構造又は同等のプロセスの変換、又は他の関連技術分野における直接的又は間接的な利用の全てが、いずれも本願に属することを理解されたい。

Claims (20)

  1. ソーシャルネットワークに基づくユーザキーワード抽出装置であって、プロセッサで実行可能なユーザキーワード抽出プログラムが記憶されているメモリと、プロセッサと、を含み、前記ユーザキーワード抽出プログラムが前記プロセッサによって実行される時、
    ターゲットユーザが所定の時間間隔内に発表したブログポストを取得し、所定の単語分割ツールを使用して取得されたブログポストに対して単語分割の処理を実行し、各ブログポストに対応する単語リストをそれぞれ取得するステップと、
    取得された各ブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得するステップと、
    キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出し、前記ターゲットユーザが前記所定の時間間隔内に発表したブログポストに蓄積されたキーワードにより、前記ターゲットユーザのキーワード候補集合を構成し、かつ前記単語ベクトルモデルに基づいて、前記キーワード候補集合内の各キーワードの単語ベクトルを計算するステップと、
    前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築するステップと、
    前記セマンティック類似度グラフでPagerankアルゴリズムを実行して各キーワードをスコアリングし、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとするステップと、を実現する
    ことを特徴とするソーシャルネットワークに基づくユーザキーワード抽出装置。
  2. 前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築する前記ステップにおいて、
    前記キーワード候補集合内のキーワードを単語ノードとし、ただし、1つのキーワードが1つの単語ノードに対応し、
    全ての単語ノードを巡回し、対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算し、2つの単語ノード間の文脈類似度が所定の閾値より大きい場合、前記2つの単語ノードの間にエッジを作成し、
    全ての単語ノード及び作成されたエッジで前記セマンティック類似度グラフを構成する
    ことを特徴とする請求項1に記載のソーシャルネットワークに基づくユーザキーワード抽出装置。
  3. 対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算する前記ステップにおいて、
    2つの単語ノードの単語ベクトルを取得し、かつこの2つの単語ベクトル間のコサイン類似度を計算し、前記コサイン類似度を前記2つの単語ノード間の文脈類似度とする
    ことを特徴とする請求項2に記載のソーシャルネットワークに基づくユーザキーワード抽出装置。
  4. 前記ブログポストに含まれる単語の数が所定の単語数以上である場合、キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出する前記ステップにおいて、
    それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出し、
    前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする
    ことを特徴とする請求項1に記載のソーシャルネットワークに基づくユーザキーワード抽出装置。
  5. 前記ブログポストに含まれる単語の数が所定の単語数以上である場合、キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出する前記ステップにおいて、
    それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出し、
    前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする
    ことを特徴とする請求項2に記載のソーシャルネットワークに基づくユーザキーワード抽出装置。
  6. スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとする前記ステップにおいて、
    スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、
    又は、スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、ただし、スコアが所定のスコアより高いキーワードの数が第一所定数より大きい場合、前記第一所定数のキーワードにおける第二所定数のキーワードを前記ターゲットユーザの興味キーワードとし、前記第一所定数が前記第二所定数より大きい
    ことを特徴とする請求項1に記載のソーシャルネットワークに基づくユーザキーワード抽出装置。
  7. スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとする前記ステップにおいて、
    スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、
    又は、スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、ただし、スコアが所定のスコアより高いキーワードの数が第一所定数より大きい場合、前記第一所定数のキーワードにおける第二所定数のキーワードを前記ターゲットユーザの興味キーワードとし、前記第一所定数が前記第二所定数より大きい
    ことを特徴とする請求項2に記載のソーシャルネットワークに基づくユーザキーワード抽出装置。
  8. ソーシャルネットワークに基づくユーザキーワード抽出方法において、
    ターゲットユーザが所定の時間間隔内に発表したブログポストを取得し、所定の単語分割ツールを使用して取得されたブログポストに対して単語分割の処理を実行し、各ブログポストに対応する単語リストをそれぞれ取得し、
    取得された各ブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得し、
    キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出し、前記ターゲットユーザが前記所定の時間間隔内に発表したブログポストに蓄積されたキーワードにより、前記ターゲットユーザのキーワード候補集合を構成し、かつ前記単語ベクトルモデルに基づいて、前記キーワード候補集合内の各キーワードの単語ベクトルを計算し、
    前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築し、
    前記セマンティック類似度グラフでPagerankアルゴリズムを実行して各キーワードをスコアリングし、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとする
    ことを特徴とするソーシャルネットワークに基づくユーザキーワード抽出方法。
  9. 前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築する前記ステップにおいて、
    前記キーワード候補集合内のキーワードを単語ノードとし、ただし、1つのキーワードが1つの単語ノードに対応し、
    全ての単語ノードを巡回し、対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算し、2つの単語ノード間の文脈類似度が所定の閾値より大きい場合、前記2つの単語ノードの間にエッジを作成し、
    全ての単語ノード及び作成されたエッジで前記セマンティック類似度グラフを構成する
    ことを特徴とする請求項8に記載のソーシャルネットワークに基づくユーザキーワード抽出方法。
  10. 対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算する前記ステップにおいて、
    2つの単語ノードの単語ベクトルを取得し、かつこの2つの単語ベクトル間のコサイン類似度を計算し、前記コサイン類似度を前記2つの単語ノード間の文脈類似度とする
    ことを特徴とする請求項9に記載のソーシャルネットワークに基づくユーザキーワード抽出方法。
  11. 前記ブログポストに含まれる単語の数が所定の単語数以上である場合、キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出する前記ステップにおいて、
    それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出し、
    前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする
    ことを特徴とする請求項8に記載のソーシャルネットワークに基づくユーザキーワード抽出方法。
  12. 前記ブログポストに含まれる単語の数が所定の単語数以上である場合、キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出する前記ステップにおいて、
    それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出し、
    前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする
    ことを特徴とする請求項9に記載のソーシャルネットワークに基づくユーザキーワード抽出方法。
  13. スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとする前記ステップにおいて、
    スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、
    又は、スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、ただし、スコアが所定のスコアより高いキーワードの数が第一所定数より大きい場合、前記第一所定数のキーワードにおける第二所定数のキーワードを前記ターゲットユーザの興味キーワードとし、前記第一所定数が前記第二所定数より大きい
    ことを特徴とする請求項8に記載のソーシャルネットワークに基づくユーザキーワード抽出装置。
  14. スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとする前記ステップにおいて、
    スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、
    又は、スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、ただし、スコアが所定のスコアより高いキーワードの数が第一所定数より大きい場合、前記第一所定数のキーワードにおける第二所定数のキーワードを前記ターゲットユーザの興味キーワードとし、前記第一所定数が前記第二所定数より大きい
    ことを特徴とする請求項9に記載のソーシャルネットワークに基づくユーザキーワード抽出装置。
  15. コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体にユーザキーワード抽出プログラムが記憶されており、前記ユーザキーワード抽出プログラムが少なくとも1つのプロセッサによって実行されることにより、
    ターゲットユーザが所定の時間間隔内に発表したブログポストを取得し、所定の単語分割ツールを使用して取得されたブログポストに対して単語分割の処理を実行し、各ブログポストに対応する単語リストをそれぞれ取得するステップと、
    取得された各ブログポストに対応する単語リストをWord2Vecモデルに入力してトレーニングすることで、単語ベクトルモデルを取得するステップと、
    キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出し、前記ターゲットユーザが前記所定の時間間隔内に発表したブログポストに蓄積されたキーワードにより、前記ターゲットユーザのキーワード候補集合を構成し、かつ前記単語ベクトルモデルに基づいて、前記キーワード候補集合内の各キーワードの単語ベクトルを計算するステップと、
    前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築するステップと、
    前記セマンティック類似度グラフでPagerankアルゴリズムを実行して各キーワードをスコアリングし、スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとするステップと、を実現する
    ことを特徴とするコンピュータ読み取り可能な記憶媒体。
  16. 前記キーワード候補集合及び前記キーワード候補集合内の各キーワードに対応する単語ベクトルに基づいて、セマンティック類似度グラフを構築する前記ステップにおいて、
    前記キーワード候補集合内のキーワードを単語ノードとし、ただし、1つのキーワードが1つの単語ノードに対応し、
    全ての単語ノードを巡回し、対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算し、2つの単語ノード間の文脈類似度が所定の閾値より大きい場合、前記2つの単語ノードの間にエッジを作成し、
    全ての単語ノード及び作成されたエッジで前記セマンティック類似度グラフを構成する
    ことを特徴とする請求項15に記載のコンピュータ読み取り可能な記憶媒体。
  17. 対応する単語ベクトルに基づいて、2つずつの単語ノード間の文脈類似度を計算する前記ステップにおいて、
    2つの単語ノードの単語ベクトルを取得し、かつこの2つの単語ベクトル間のコサイン類似度を計算し、前記コサイン類似度を前記2つの単語ノード間の文脈類似度とする
    ことを特徴とする請求項16に記載のコンピュータ読み取り可能な記憶媒体。
  18. 前記ブログポストに含まれる単語の数が所定の単語数以上である場合、キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出する前記ステップにおいて、
    それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出し、
    前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする
    ことを特徴とする請求項15に記載のコンピュータ読み取り可能な記憶媒体。
  19. 前記ブログポストに含まれる単語の数が所定の単語数以上である場合、キーワード抽出アルゴリズムに基づいて、ブログポストの単語リストから該ブログポストに対応するキーワードを抽出する前記ステップにおいて、
    それぞれ所定の複数のキーワード抽出アルゴリズムに従ってブログポストの単語リストからキーワードを抽出し、
    前記複数のキーワード抽出アルゴリズムによって抽出されたキーワードにおいて重複するキーワードを該ブログポストに対応するキーワードとする
    ことを特徴とする請求項16に記載のコンピュータ読み取り可能な記憶媒体。
  20. スコアが所定の条件を満たすキーワードを前記ターゲットユーザの興味キーワードとする前記ステップにおいて、
    スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、
    又は、スコアが所定のスコアより高いキーワードを前記ターゲットユーザの興味キーワードとし、ただし、スコアが所定のスコアより高いキーワードの数が第一所定数より大きい場合、前記第一所定数のキーワードにおける第二所定数のキーワードを前記ターゲットユーザの興味キーワードとし、前記第一所定数が前記第二所定数より大きい
    ことを特徴とする請求項15に記載のコンピュータ読み取り可能な記憶媒体。
JP2018538141A 2017-08-29 2017-10-31 ユーザキーワード抽出装置、方法、及びコンピュータ読み取り可能な記憶媒体 Pending JP2019533205A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710754314.4 2017-08-29
CN201710754314.4A CN107704503A (zh) 2017-08-29 2017-08-29 用户关键词提取装置、方法及计算机可读存储介质
PCT/CN2017/108797 WO2019041521A1 (zh) 2017-08-29 2017-10-31 用户关键词提取装置、方法及计算机可读存储介质

Publications (1)

Publication Number Publication Date
JP2019533205A true JP2019533205A (ja) 2019-11-14

Family

ID=61169937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018538141A Pending JP2019533205A (ja) 2017-08-29 2017-10-31 ユーザキーワード抽出装置、方法、及びコンピュータ読み取り可能な記憶媒体

Country Status (7)

Country Link
US (1) US20210097238A1 (ja)
EP (1) EP3477495A4 (ja)
JP (1) JP2019533205A (ja)
KR (1) KR102170929B1 (ja)
CN (1) CN107704503A (ja)
AU (1) AU2017408801B2 (ja)
WO (1) WO2019041521A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596789B (zh) * 2018-03-29 2022-08-30 时时同云科技(成都)有限责任公司 一种菜品标准化的方法
CN108573134A (zh) * 2018-04-04 2018-09-25 阿里巴巴集团控股有限公司 一种识别身份的方法、装置及电子设备
CN109635273B (zh) * 2018-10-25 2023-04-25 平安科技(深圳)有限公司 文本关键词提取方法、装置、设备及存储介质
CN109408826A (zh) * 2018-11-07 2019-03-01 北京锐安科技有限公司 一种文本信息提取方法、装置、服务器及存储介质
CN111259656A (zh) * 2018-11-15 2020-06-09 武汉斗鱼网络科技有限公司 短语相似度计算方法、存储介质、电子设备及系统
CN109508423A (zh) * 2018-12-14 2019-03-22 平安科技(深圳)有限公司 基于语义识别的房源推荐方法、装置、设备及存储介质
CN110298029B (zh) * 2019-05-22 2022-07-12 平安科技(深圳)有限公司 基于用户语料的好友推荐方法、装置、设备及介质
CN110489758B (zh) * 2019-09-10 2023-04-18 深圳市和讯华谷信息技术有限公司 应用程序的价值观计算方法及装置
JP7451917B2 (ja) * 2019-09-26 2024-03-19 株式会社Jvcケンウッド 情報提供装置、情報提供方法及びプログラム
KR102326744B1 (ko) * 2019-11-21 2021-11-16 강원오픈마켓 주식회사 사용자 참여형 키워드 선정 시스템의 제어 방법, 장치 및 프로그램
CN111191119B (zh) * 2019-12-16 2023-12-12 绍兴市上虞区理工高等研究院 一种基于神经网络的科技成果自学习方法及装置
CN111274428B (zh) * 2019-12-19 2023-06-30 北京创鑫旅程网络技术有限公司 一种关键词的提取方法及装置、电子设备、存储介质
CN111160193B (zh) * 2019-12-20 2024-02-09 中国平安财产保险股份有限公司 关键信息提取方法、装置及存储介质
CN112800771B (zh) * 2020-02-17 2023-11-07 腾讯科技(深圳)有限公司 文章识别方法、装置、计算机可读存储介质和计算机设备
CN111460099B (zh) * 2020-03-30 2023-04-07 招商局金融科技有限公司 关键词提取方法、装置及存储介质
CN111581492B (zh) * 2020-04-01 2024-02-23 车智互联(北京)科技有限公司 一种内容推荐方法、计算设备及可读存储介质
KR102476334B1 (ko) * 2020-04-22 2022-12-09 인하대학교 산학협력단 딥러닝 기반 일기 생성 방법 및 장치
CN111737523B (zh) * 2020-04-22 2023-11-14 聚好看科技股份有限公司 一种视频标签、搜索内容的生成方法及服务器
CN111724196A (zh) * 2020-05-14 2020-09-29 天津大学 一种基于用户体验的提高汽车产品质量的方法
CN111858834B (zh) * 2020-07-30 2023-12-01 平安国际智慧城市科技股份有限公司 基于ai的案件争议焦点确定方法、装置、设备及介质
CN112069232B (zh) * 2020-09-08 2023-08-01 中国移动通信集团河北有限公司 宽带业务覆盖范围的查询方法及装置
CN112347778B (zh) * 2020-11-06 2023-06-20 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
CN112329462B (zh) * 2020-11-26 2024-02-20 北京五八信息技术有限公司 一种数据排序方法、装置、电子设备及存储介质
CN112988971A (zh) * 2021-03-15 2021-06-18 平安科技(深圳)有限公司 基于词向量的搜索方法、终端、服务器及存储介质
CN113919342A (zh) * 2021-09-18 2022-01-11 暨南大学 一种会计术语共现网络图构建的方法
CN115080718B (zh) * 2022-06-21 2024-04-09 浙江极氪智能科技有限公司 一种文本关键短语的抽取方法、系统、设备及存储介质
CN115344679A (zh) * 2022-08-16 2022-11-15 中国平安财产保险股份有限公司 问题数据的处理方法、装置、计算机设备及存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175331A (ja) * 2000-12-07 2002-06-21 Patent Mall:Kk 特許分類表示方法、装置、記録媒体およびプログラム
JP5088096B2 (ja) * 2007-11-02 2012-12-05 富士通株式会社 情報抽出プログラムおよび情報抽出装置
CN103201718A (zh) * 2010-11-05 2013-07-10 乐天株式会社 关于关键词提取的系统和方法
CN104778161B (zh) * 2015-04-30 2017-07-07 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
US9798818B2 (en) * 2015-09-22 2017-10-24 International Business Machines Corporation Analyzing concepts over time
CN105893410A (zh) * 2015-11-18 2016-08-24 乐视网信息技术(北京)股份有限公司 一种关键词提取方法和装置
US20170139899A1 (en) 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device
CN105447179B (zh) * 2015-12-14 2019-02-05 清华大学 基于微博社交网络的话题自动推荐方法及其系统
CN105912524B (zh) * 2016-04-09 2019-08-20 北京交通大学 基于低秩矩阵分解的文章话题关键词提取方法和装置
CN106372064B (zh) * 2016-11-18 2019-04-19 北京工业大学 一种文本挖掘的特征词权重计算方法
CN106997382B (zh) * 2017-03-22 2020-12-01 山东大学 基于大数据的创新创意标签自动标注方法及系统
CN106970910B (zh) * 2017-03-31 2020-03-27 北京奇艺世纪科技有限公司 一种基于图模型的关键词提取方法及装置

Also Published As

Publication number Publication date
US20210097238A1 (en) 2021-04-01
KR102170929B1 (ko) 2020-10-29
EP3477495A4 (en) 2019-12-11
CN107704503A (zh) 2018-02-16
AU2017408801B2 (en) 2020-04-02
AU2017408801A1 (en) 2019-03-14
EP3477495A1 (en) 2019-05-01
WO2019041521A1 (zh) 2019-03-07
KR20190038751A (ko) 2019-04-09

Similar Documents

Publication Publication Date Title
JP2019533205A (ja) ユーザキーワード抽出装置、方法、及びコンピュータ読み取り可能な記憶媒体
US10282606B2 (en) Organizational logo enrichment
CA2916856C (en) Automatic generation of headlines
JP2022505237A (ja) コンテンツアイテム推奨をランク付けするための技術
WO2021042515A1 (zh) 图数据存储和查询方法、装置及计算机可读存储介质
WO2020237856A1 (zh) 基于知识图谱的智能问答方法、装置及计算机存储介质
CN110276456B (zh) 一种机器学习模型辅助构建方法、系统、设备及介质
JP2017157192A (ja) キーワードに基づいて画像とコンテンツアイテムをマッチングする方法
CN111753198A (zh) 信息推荐方法和装置、以及电子设备和可读存储介质
JP2017142796A (ja) 情報の特定及び抽出
WO2017075017A1 (en) Automatic conversation creator for news
JP6363682B2 (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
US9754015B2 (en) Feature rich view of an entity subgraph
WO2019205373A9 (zh) 相似用户查找装置、方法及计算机可读存储介质
US9183598B2 (en) Identifying event-specific social discussion threads
US20140379719A1 (en) System and method for tagging and searching documents
US20230076387A1 (en) Systems and methods for providing a comment-centered news reader
WO2014206151A1 (en) System and method for tagging and searching documents
JP2015135668A (ja) コンテント及び関係距離に基づいて人々をつなげるコンピューティング装置及び方法
JP6932360B2 (ja) オブジェクト検索方法、装置およびサーバ
WO2020258481A1 (zh) 个性化文本智能推荐方法、装置及计算机可读存储介质
CN110275962B (zh) 用于输出信息的方法和装置
WO2019205374A1 (zh) 模型的在线训练方法、服务器及存储介质
CN103886016A (zh) 一种用于确定页面中的垃圾文本信息的方法与设备
JP6419969B2 (ja) 画像の提示情報を提供するための方法及び機器

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180919

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200203

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200512