JP7498129B2 - 情報をプッシュするための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム - Google Patents

情報をプッシュするための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP7498129B2
JP7498129B2 JP2021028846A JP2021028846A JP7498129B2 JP 7498129 B2 JP7498129 B2 JP 7498129B2 JP 2021028846 A JP2021028846 A JP 2021028846A JP 2021028846 A JP2021028846 A JP 2021028846A JP 7498129 B2 JP7498129 B2 JP 7498129B2
Authority
JP
Japan
Prior art keywords
consensus
comment
information
sentences
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021028846A
Other languages
English (en)
Other versions
JP2021163473A (ja
Inventor
▲ミャオ▼ 范
桐 周
際洲 黄
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Publication of JP2021163473A publication Critical patent/JP2021163473A/ja
Application granted granted Critical
Publication of JP7498129B2 publication Critical patent/JP7498129B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本開示の実施形態はコンピュータ技術分野に関し、具体的にインテリジェント検索技術分野に関し、特に情報をプッシュするための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムに関する。
関心地点推奨理由の生成に関する従来の主流となる技術的実現手段としては、手動レビューと自動生成の2種類がある。
手動レビュー方法は、一般的に、ある関心地点の下でのすべてのコメントを評価し、基準に従ってコメントをスコア付けするステップと、スコアに応じてより詳細にソートし、最高品質のコメントを見つけるステップと、を含む。その後、最高品質のコメントをもとに、画像の選択、テキストの変更及びトピックのインターセプト(topic interception)を行う。手動レビューの方法は、大勢のオペレーターに頼り、一般的に、すべてのコメントを閲覧し、使えるコメントを見つけ、かつ見つかったコメントに対してテキストを詳細に読んで人を引き付ける推奨理由のインターセプトが必要になる。異なるオペレーターによる異なる基準は、コメントをスクリーニングし、及びトピックのインターセプトの時に独自の主観的な判断をもたらす可能性があり、選択結果の品質に変動を引き起こすことがある。この種の方法は、時間がかかり、コストが高く、効果が不安定である。
自動生成方法は、ニューラルネットワークの恩恵を受け、手動によるインターセプトまたは作成した推奨理由を教師ありトレーニングデータ(supervised training data)として使用する。具体的に、まず、すべてのコメントテキストを前処理し、保留された高品質のコメントフラグメントをリコール候補セットとし、ニューラルネットワークに基づいたテキスト符号化分類モデルによって各候補テキストがターゲット推奨理由であるか否かのターゲット予測をし、同時に、オンラインクリックデータを通じてモデルのソート結果をさらに最適化できる。
本開示の実施形態では、情報をプッシュするための方法及び装置を提供する。
第1態様において、本開示の実施形態は、コンセンサスフレーズセットに基づいて、すべてのユーザコメント文を情報化処理し、候補推奨情報セットを取得し、前記候補推奨情報セットは少なくとも1つのコンセンサスコメント文(consensus comment sentence)を含み、コンセンサスフレーズセットは少なくとも2つのユーザコメント文に現れるコンセンサスフレーズを含み、候補推奨情報セットにおける各コンセンサスコメント文の表現ベクトルを確定することと、各コンセンサスコメント文の表現ベクトルに基づいて、候補推奨情報セットにおける各コンセンサスコメント文の吸引力(attractiveness、人の注目を引き付ける力)ランキングを確定し、吸引力ランキングに基づいて情報をプッシュすることと、を含む情報をプッシュするための方法を提供する。
第2態様において、本開示の実施形態は、コンセンサスフレーズセットに基づいて、すべてのユーザコメント文を情報化処理し、候補推奨情報セットを取得するように構成される前処理モジュールと、候補推奨情報セットは少なくとも1つのコンセンサスコメント文を含み、コンセンサスフレーズセットは少なくとも2つのユーザコメント文に現れるコンセンサスフレーズを含み、候補推奨情報セットにおける各コンセンサスコメント文の表現ベクトルを確定するように構成されるベクトルモジュールと、各コンセンサスコメント文の表現ベクトルに基づいて、候補推奨情報セットにおける各コンセンサスコメント文の吸引力ランキングを確定し、吸引力ランキングに基づいて情報をプッシュするように構成されるプッシュモジュールと、を備える情報をプッシュするための装置を提供する。
第3態様において、本開示の実施形態は、1つまたは複数のプロセッサと、1つまたは複数のプログラムが記憶される記憶装置と、を備え、1つまたは複数のプログラムは1つまたは複数のプロセッサによって実行されると、1つまたは複数のプロセッサに第1態様のいずれかの実施形態に記載の方法が実現される電子機器を提供する。
第4態様において、本開示の実施形態は、プロセッサによって実行されると、第1態様のいずれかの実施形態に記載の方法を実現するコンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体を提供する。
第5態様において、本開示の実施形態は、プロセッサにより実行されると、第1態様のいずれかの実施形態に記載の方法が実現されるコンピュータプログラムを提供する。
本開示の実施態様による情報をプッシュするための方法及び装置は、まず、コンセンサスフレーズセットに基づいて、すべてのユーザコメント文を情報化処理し、候補推奨情報セットを取得し、候補推奨情報セットは少なくとも1つのコンセンサスコメント文を含み、コンセンサスフレーズセットは、少なくとも2つのユーザコメント文に現れるコンセンサスフレーズを含む。次に、候補推奨情報セットにおける各コンセンサスコメント文の表現ベクトルを確定する。最後に、各コンセンサスコメント文の表現ベクトルに基づいて、候補推奨情報セットにおける各コンセンサスコメント文の吸引力ランキングを確定し、且つ吸引力ランキングにより情報をプッシュする。それにより、既存のユーザコメント文に基づいて処理した後、教師ありトレーニングのための大量のトレーニングデータが不要でプッシュ情報を自動的に抽出できるため、データのトレーニングのためのコストが節約でき、手動レビューのコストが低減され、プッシュ効率が高く、ユーザ体験が向上される。
以下の図面を参照して非限定的な実施形態の詳細な説明を読むことにより、本開示の他の特徴、目的及び利点がより明らかになる。
本開示の一実施形態を適用できる例示的なシステムアーキテクチャである。 本開示の情報をプッシュするための方法による一実施形態を示すフローチャートである。 本開示の実施形態によるコンセンサスフレーズセットを構成する1つの適用シナリオ(シーン)の模式図である。 本開示の情報をプッシュするための方法による他の実施形態を示すフローチャートである。 本開示の実施形態によるコンセンサスフレーズセットに基づいて候補推奨情報セットを取得する例示的なフローチャートである。 本開示の実施形態によるトレーニング済み推奨情報モデルの構造模式図である。 本開示の実施形態による吸引力ランキングにより情報をプッシュする例示的なフローチャートである。 本開示の情報をプッシュするための方法による別の実施形態を示すフローチャートである。 本開示による情報をプッシュするための装置の一実施形態を示す構造模式図である。 本開示による情報をプッシュするための装置の他の実施形態を示す構造模式図である。 本開示の実施形態を実現するのに適する電子機器の構造模式図である。
以下、図面と実施形態を参照して、本開示をより詳細に説明する。ここで述べている具体的な実施形態は関連発明を説明するためのものにすぎず、当該発明を限定するものではないことを理解すべきである。また、説明する必要があるのは、説明の便宜上、図面には関連発明に関連する部分のみを示す。
なお、矛盾しない限り、本開示における実施形態及び実施形態における特徴を互いに組み合わせることができる。以下、図面を参照しながら実施形態と組み合わせて本開示を詳細に説明する。
図1は、本開示による情報をプッシュするための方法または情報をプッシュするための装置を適用することができる例示的なアーキテクチャ100である。
図1に示すように、システムアーキテクチャ100は端末装置101、102、103、ネットワーク104及びサーバ105を備えてもよい。ネットワーク104は、端末装置101、102、103及びサーバ105の間に通信リンクを提供するための媒体である。ネットワーク104は、さまざまな接続タイプを含んでもよく、一般的に、無線通信リンク等を含み得る。
端末装置101、102、103はネットワーク104を介してサーバ105とやりとりをして、メッセージなどを受信または送信するようにする。端末装置101、102、103にはさまざまな通信クライアントアプリケーション、例えばインスタントメッセージングツール、電子メールクライアントなどがインストールされてもよい。
端末装置101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末装置101、102、103はハードウェアである場合、通信と制御機能を備えるクライアント端末であってもよい。端末装置101、102、103はソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば分散サービスを提供するために使用されるソフトウェアまたはソフトウェアモジュール)として実装されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定をしない。
サーバ105は、さまざまなサービスを提供するサーバ、例えば端末装置101、102、103におけるマップAPP(Application、アプリケーション)のためにサポートを提供するアプリケーションサーバであってもよい。アプリケーションサーバはネットワークにおける各端末装置の関連情報を解析処理して、且つ処理結果(例えばマップ検索ポリシー)を端末装置にフィードバックしてもよい。
なお、サーバは、ハードウェアであってもよくソフトウェアであってもよい。サーバがハードウェアである場合、複数のサーバからなる分散サーバークラスターとして実装されてもよく、単一のサーバとして実装されてもよい。サーバがソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール(例えば分散サービスを提供するために使用されるソフトウェアまたはソフトウェアモジュール)として実装されてもよいし、単一のソフトウェアまたはソフトウェアモジュールとして実装されてもよい。ここでは具体的な限定をしない。
なお、本開示の実施形態による情報をプッシュするための方法は一般的にサーバ105により実行され、対応して、情報をプッシュするための装置は一般的にサーバ105に設けられる。
図1中の端末装置、ネットワーク及びサーバの数は例示的なものにすぎないことを理解すべきである。実装の必要性に応じて、任意の数の端末装置、ネットワーク及びサーバを備えることができる。
次に、図2を参照し、本開示の情報をプッシュするための方法による一実施形態を示すフロー200を示している。該情報をプッシュするための方法は、以下のステップを含む。
ステップ201:コンセンサスフレーズセットに基づいて、すべてのユーザコメント文を情報化処理し、候補推奨情報セットを取得し、候補推奨情報セットは少なくとも1つのコンセンサスコメント文を含み、コンセンサスフレーズセットは少なくとも2つのユーザコメント文に現れるコンセンサスフレーズを含む。
本実施形態において、ユーザコメント文は、ユーザが製品を使用し、記事の読み、物を使用し、サービスを受けたなどの後、製品、記事、物、サービスを評価する文であり、ユーザコメント文には使用効果、記事の所感、サービスの所感などの評価言語が含まれ、本実施形態におけるユーザコメント文の媒体はテキスト、音声、画像などであってもよい。
具体的な例示において、異なる種類の関心地点(Point-Of-Interest、POIと略称)、例えばマップ上の関心地点について、複数のユーザは複数の異なるユーザ体験を有する可能性があるが、大部分のユーザが興味を持つ関心地点は、大部分のユーザを引き付ける特性を有する可能性があり、そのため、ユーザがその特徴を評価するとき、複数のユーザからの当該関心地点に対するユーザコメント文を取得することができる。
本実施形態において、複数のユーザコンセンサスコメント特徴を含むフレーズをコンセンサスフレーズといい、複数のユーザコメント文のコメント内容が同一または類似する部分を抽出して吸引力のあるコメント文を形成するために、コンセンサスフレーズを抽出することから始め、それからコンセンサスフレーズに基づいてコンセンサス文を取得する。さらに、同一の関心地点について、コンセンサスフレーズは、複数のユーザコメント文において同時に言及された関心地点の特色の項目及び特色の項目を記述するフレーズであってもよく、例えばAPPのグルメカテゴリのユーザの見ることができる項目は特色料理、サービス、環境などを含むが、これらに限定されることはない。図3に示すように、「花聚宴(西二旗店)」という関心地点に対し、その特色項目である「山椒チキン」は、異なるユーザからの複数のユーザコメント文で同時に言及され、言及されたコンテンツには、その特色項目に対する記述である「美味しい」が含まれるため、同じ関心地点の下での多くのユーザコメントしている特色項目と特色項目に対する記述を発掘することによって、当該関心地点のコンセンサスフレーズを取得することができる。
本実施形態において、ユーザコメント文に含まれるすべてのコンセンサスフレーズをできるだけ集めるために、コンセンサスフレーズセットの概念を提案し、コンセンサスフレーズセットは1つまたは複数のコンセンサスフレーズによって構成でき、コンセンサスフレーズセットは次の方法で取得することができ、1)予め1つまたは複数のコンセンサスフレーズを設定することによりコンセンサスフレーズセットを構成する。2)少なくとも2つのユーザコメント文から1つまたは複数のコンセンサスフレーズを抽出してコンセンサスフレーズセットを構成する。3)すべてのユーザコメント文から少なくとも2つのコンセンサスフレーズを抽出し、且つ抽出されたコンセンサスフレーズが出現する頻度に応じてソートし、出現頻度の多い上位の所定数のコンセンサスフレーズをコンセンサスフレーズセットに構成し、所定数は必要に応じて設定してもよく、例えば、所定数が5である。それにより、異なるユーザコメント文とユーザが注目する異なる関心地点に対して、コンセンサスフレーズセットから対応するコンセンサスフレーズを見つけることができ、ユーザコメント文におけるコンセンサス文を発掘するのに便利になる。
本実施形態において、コンセンサスコメント文、即ちコンセンサス文は、単語、単語グループまたはフレーズによって構成でき、且つ少なくとも1つのコンセンサスフレーズを含むことができる。コンセンサスコメント文は完全な意味を表現することができる。例えば、人に何かを言うとか、一つ質問をするとか、要求または停止を表現するとか、ある種の感慨を示すとか、パッセージの継続または省略を示すなどである。関心地点に対するコンセンサスコメント文は、現在の関心地点の特性を表現できる完全な文であってもよく、例えば、図3中で、「花聚宴」(西二旗店)という関心地点に対して、コンセンサスフレーズに「山椒チキン」、「美味しい」が含まれており、「山椒チキン」、「美味しい」を含む1つのコンセンサスコメント文は「この店の山椒チキン鍋がおいしい」である。
本実施形態において、すべてのユーザコメント文に対する情報化処理とは、すべてのユーザコメント文からコンセンサスコメント文を発見し、発見したすべてのコンセンサスコメント文を組み合わせて候補推奨情報セットを構成する過程を指し、情報化処理には、文の分割処理、文の情報のフィルタリング、文の感情のフィルタリングなどが含まれるが、これらに限定されるものではない。例えば、その処理過程において、まずユーザコメント文を分割してコンセンサスフレーズが含まれるコンセンサスコメント文を取得し、コンセンサスコメント文を処理しやすくするように短くする。次に、コンセンサスコメント文の情報をフィルタリングし、実用的な価値を有するコンセンサスコメント文のみを残し、引き続き実用的な価値を有するコンセンサスコメント文に対して感情傾向のフィルタリングを行い、ポジティブでアクティブな感情傾向があるコンセンサスコメント文を残す。最後に、すべてのポジティブでアクティブな感情傾向のあるコンセンサスコメント文を組み合わせて候補推奨情報セットを取得する。この時、候補推奨情報セットにおけるコンセンサスコメント文はすべて後続する情報をプッシュする候補文として使用できる。ユーザコメント文を情報化処理することによってコンセンサスコメント文を迅速に取得することができ、ユーザへの情報プッシュが便利になる。
ステップ202:候補推奨情報セットにおける各コンセンサスコメント文の表現ベクトルを確定する。
具体的に、文の表現を意味空間でのベクトル表現に変換することは、現時点の意味を定量化および比較するための一般的な方法であり、さらに、文を文ベクトルに変換することは、基本的に大きく次ぎの二つに分けることができる。1、直接にトレーニング済みの文ベクトルモデルを介して、文をトレーニング済みの文ベクトルモデルに入力し、文の表現ベクトルを取得する。2、単語レベルから出発し、文中の単語ベクトルを加算して平均し、文ベクトルを取得する。単語ベクトルの学習には意味情報を有するため、トレーニング済みの文ベクトルモデルよりも安定性が高い。本実施形態において、各コンセンサスコメント文の表現ベクトルを確定することにより、意味及び文法的属性が一致するコンセンサスコメント文が同様なベクトル表現にマッピングされ、それにより、コンセンサスコメント文の情報量の識別が便利になる。
ステップ203:各コンセンサスコメント文の表現ベクトルに基づいて、候補推奨情報セットにおける各コンセンサスコメント文の吸引力ランキングを確定し、且つ吸引力ランキングに基づいて情報をプッシュする。
本実施形態において、情報をプッシュするための方法の実行主体(図1に示すようなサーバ105)は、クライアント端末(図1に示すような端末装置101、102、103)に情報をプッシュすることができる。
本実施形態において、吸引力ランキングメカニズムを使用して情報をプッシュし、該吸引力ランキングは、人を引き付ける力つまり吸引力を有するフレーズの表現ベクトルと候補推奨情報セットにおいて各コンセンサスコメント文の表現ベクトルのマッチングスコアに基づいて、上記の実行主体がランキングしてもよく、吸引力のあるフレーズの表現ベクトルは、手動でレビューされた大量のプッシュ情報によって符号化され、平均を求めて得たものであってもよい。オプション的に、吸引力のあるフレーズの表現ベクトルは、ニューラルネットワークのテキスト符号化分類モデルにより大量の候補テキストに対してターゲット予測を行うことによって得られたものであってもよい。
本開示の実施形態による情報をプッシュするための方法は、まず、コンセンサスフレーズセットに基づいて、すべてのユーザコメント文を情報化処理し、候補推奨情報セットを取得し、候補推奨情報セットは少なくとも1つのコンセンサスコメント文を含み、コンセンサスフレーズセットは少なくとも2つのユーザコメント文に現れたコンセンサスフレーズを含む。次に、候補推奨情報セットにおける各コンセンサスコメント文の表現ベクトルを確定する。最後に、各コンセンサスコメント文の表現ベクトルに基づいて、候補推奨情報セットにおける各コンセンサスコメント文の吸引力ランキングを確定し、且つ吸引力ランキングに基づいて情報をプッシュする。それにより、既存のユーザコメント文に基づいて処理した後、教師ありトレーニングのための大量のトレーニングデータが不要でプッシュ情報を自動的に抽出できるため、データのトレーニングのためのコストが節約でき、手動レビューのコストが低減され、プッシュ効率が高く、ユーザ体験が向上される。
上記の実施形態のいくつかのオプション的な実施形態において、プッシュ情報はハイパーリンクのタイトルを含み得る。ユーザは該ハイパーリンクのタイトルをクリックすれば、現在のタイトルの下にある詳細ページにアクセスすることができる。オプション的に、プッシュ情報はテキストがあることを示すラベルも含み得る。ユーザはラベルをクリックすれば、現在のラベルに対応する詳細ページにアクセスすることができるようになる。
さらに、本開示の情報をプッシュするための方法による他の実施形態を示すフロー400である図4を参照する。該情報をプッシュするための方法は、以下のステップを含む。
ステップ401:少なくとも2つのユーザコメント文に現れるコンセンサスフレーズから連続フレーズセット(consecutive phrase set)を構成する。
具体的に、少なくとも2つのユーザコメント文に現れる連続した文字(または漢字)列をコンセンサスフレーズとして使用でき、複数のコンセンサスフレーズから連続フレーズセットを構成することができる。連続フレーズセットは、単語の品詞を限定しない複数のコンセンサスフレーズの組み合わせであり、連続フレーズセットにおけるコンセンサスフレーズは、「とても良い」や「とても素晴らしい」などのいくつかの実用的な価値がないフレーズを含む場合があるため、コンセンサスフレーズセットにおけるコンセンサスフレーズと比較して、連続フレーズセットにおけるコンセンサスフレーズをリファインする必要がある。異なる関心地点に対して、連続フレーズセットにおけるコンセンサスフレーズは、様々なコンテンツをカバーでき、例えば、グルメカテゴリの関心地点では、連続フレーズセットにおけるコンセンサスフレーズは特色料理の名称、特色サービス項目、目立つ環境レイアウト、人々が共感できるものなどを含み得る。
ステップ402:連続フレーズセットにおけるコンセンサスフレーズの逆文書頻度スコアを計算して、且つすべての逆文書頻度スコアをランキングする。
具体的に、連続フレーズセットにおけるコンセンサスフレーズは、現在の関心地点の特色情報をカバーすると同時に、例えば、「料理がおいしい」や「サービスが良い」などの他の関心地点でも出てくる文字の記載も含まれる場合があり、後続のプッシュ情報が現在の関心地点の特色情報を反映して、現在の関心地点を表すことを確保するために、連続フレーズセットにおけるコンセンサスフレーズの逆文書頻度スコアを計算し、且つすべての逆文書頻度スコアをランキングすることができ、ランキングはソート方法により行うことができ、例えば、昇順または降順でランキングすることができる。
ステップ403:逆文書頻度スコアのランキングに基づいて高い方から低い方への順で、連続フレーズセットより所定数のコンセンサスフレーズを取得し、コンセンサスフレーズセットを構成する。
このステップにおいて、所定数の値は、手動レビューによってプッシュされた情報の関心地点を含む一部のコンセンサスフレーズを調べることによって実現することができる。調査によると、手動レビューによってプッシュされた情報に含まれたコンセンサスフレーズは、該関心地点の下でのすべてのコンセンサスフレーズにおける逆文書頻度スコアのランキングから上位65%を取ると、90%のリコール率に達成することができる。このため、現在の関心地点の下にある連続フレーズセットに対して、連続フレーズセットにおけるコンセンサスフレーズの逆文書頻度が最も高い35%を削除して最終的なコンセンサスフレーズセットを構成することができる。本実施形態のコンセンサスフレーズセットを構成する方法は、少数の極端なコメントの干渉を回避すると同時に、注目に値する特色情報を効果的に抽出することができる。
ステップ404:コンセンサスフレーズセットに基づいて、すべてのユーザコメント文を情報化処理して候補推奨情報セットを取得し、候補推奨情報セットは少なくとも1つのコンセンサスコメント文を含み、コンセンサスフレーズセットは少なくとも2つのユーザコメント文に現れるコンセンサスフレーズを含む。
ステップ405:候補推奨情報セットにおける各コンセンサスコメント文の表現ベクトルを確定する。
ステップ406:各コンセンサスコメント文の表現ベクトルに基づいて、候補推奨情報セットにおけるそれぞれコンセンサスコメント文の吸引力ランキングを確定し、且つ吸引力ランキングに基づいて情報をプッシュする。
図4に示すような実施形態では、少なくとも2つのユーザコメント文に現れるコンセンサスフレーズを連続フレーズセットに構成し、連続フレーズセットにおけるコンセンサスフレーズの逆文書頻度スコアを計算して、且つすべての逆文書頻度スコアをランキングし、逆文書頻度スコアのランキングの高い方から低い方への順で、連続フレーズセット内の所定数のコンセンサスフレーズを取得してコンセンサスフレーズセットを構成することにより、連続フレーズセットのリファインを実現し、特色情報を有する信頼性が高いコンセンサスフレーズセットを取得することを確保する。
信頼性がより高い候補推奨情報セットを取得するために、本実施形態のいくつかのオプション的な実施形態において、更に図5を参照し、上記のコンセンサスフレーズセットに基づいて、すべてのユーザコメント文を情報化処理し、候補推奨情報セットを取得することは、以下のフローで実行できる。
ステップ501:コンセンサスフレーズセットに基づいて、すべてのユーザコメント文を前処理して、少なくとも1つのコンセンサスコメント文を含むコンセンサスコメント文セットを取得する。
本実施形態において、ユーザコメント文の前処理は、ユーザコメント文を顧客が要求する文の形式に従って少なくとも1つのコンセンサスコメント文を含むコンセンサスコメント文セットに構成でき、顧客によって、顧客が要求する文の形式も異なり、例えば、コンセンサスコメント文セットにおけるコンセンサスコメント文の顧客が要求する文の形式は、コンセンサスコメント文に少なくとも1つの数字、5つの漢字などがあることである。
オプション的に、前処理には、単語の分割、文の分割、テキストのクリーニング、テキストの分類、標準化などの処理方法が含まれ、言語の特殊性により、異なる言語の文の単語の分割の形式が異なり、単語の分割は、英文の場合、直接スペースを使用すれば英文の単語を分割することができ、中国語の場合、文法がより複雑であるため、トークナイザーを使用して単語の分割との動作を行うことができる。文の分割と単語の分割の原理は類似している。一般的なユーザコメント文には、例えば不要な句読点やストップワードなどのような役に立たない部分が多くあり、段階的にクリーニングする必要がある。いくつか一般的に使用されるテキストのクリーニング方法としては、句読点の除去、英文の小文字への変換、数値の正規化、ストップワードシソーラス/低頻度ワードシソーラスの利用が含まれている。ストップワードシソーラス/低頻度ワードシソーラスを取得した後、ユーザコメント文内のワードシソーラスと交差する単語を削除する。
本実施形態のいくつかのオプション的な実施形態において、上記のコンセンサスフレーズセットに基づいて、すべてのユーザコメント文を前処理して、少なくとも1つのコンセンサスコメント文を含むコンセンサスコメント文セットを取得することは、すべてのユーザコメント文を文の分割処理をして、文の分割されたコメント文を取得し、文の分割されたコメント文の長さが所定の漢字数の範囲内であることと、文の分割されたコメント文の内の少なくとも1つのコンセンサスコメント文を確定することと、コンセンサスコメント文にはコンセンサスフレーズセットにおけるコンセンサスフレーズが含まれ、すべてのコンセンサスコメント文に対して感情傾向フィルタリングを行い、コンセンサスコメント文セットを取得することと、を含む。
このオプション的な実施形態において、所定の数は顧客の要求に応じて設定できる。例えば、グルメカテゴリの特定の関心地点に関する複数のユーザコメントについては、まず、すべてのユーザコメント文を文の分割処理をして、文の分割されたコメント文の長さが20個の漢字内にする。次に、コンセンサスフレーズセットにおけるコンセンサスフレーズを全く含まない文の分割後のコメント文を除去し、保留された文の分割後のコメント文には1つのコンセンサスフレーズが少なくとも含まれるようにする。
このオプション的な実施形態において、すべてのユーザコメント文に対して文の分割処理を実行することにより、ユーザコメント文を短くすることができるため、ユーザにプッシュされる配信情報が短くなり、ユーザ体験を向上させることができる。さらに、保留されたすべてのコンセンサスコメント文に対して感情傾向フィルタリングを行う必要があり、ポジティブな感情を有するコンセンサスコメント文を見つける。コンセンサスコメント文に対して感情傾向フィルタリングを行うには、感情分析言語処理ライブラリを使用してコンセンサスコメント文の感情解析を実行し、推奨シーンに符合しないネガティブな感情を有するテキストの出現を防止するように、ポジティブな感情を有するコンセンサスコメント文を取得することができ、プッシュ情報により多くのポジティブな感情要因を持たせ、ユーザにポジティブなインタレストガイドを提供することができる。
ステップ502:コンセンサスコメント文セットの情報をフィルタリングして候補推奨情報セットを取得する。
本実施形態において、コンセンサスコメント文セットに対して情報フィルタリングを実行することは、ユーザの情報要求に応じて、一定の基準と技術を利用して、コンセンサスコメント文セットからユーザに関係のない情報を除去し、ユーザの要求を満たす情報をユーザに提供するようにしてもよい。それにより、ユーザの認知的負担が軽減され、ユーザの情報取得効率を向上させる。
本実施形態のいくつかのオプション的な実施形態において、上記のコンセンサスコメント文セットに対して情報フィルタリングを実行し、候補推奨情報セットを取得することは、コンセンサスコメント文セット内の単語と予め設定されたフィルタリング用語彙リストのネガティブサンプルセット内の単語を逐一対比することと、比較結果に基づいて、予め設定されたフィルタリング用語彙リストによってフィルタリングされたすべてのコンセンサスコメント文を確定することと、予め設定されたフィルタリング用語彙リストによってフィルタリングされたすべてのコンセンサスコメント文に基づいて、候補推奨情報セットを取得することと、を含む。このオプション的な実施形態は、予め設定されたフィルタリング用語彙リストには大量の簡単な記述が含まれ、関心地点の特性に対して簡単過ぎる記述は人を引き付けるのに十分ではないため、予め設定されたフィルタリング用語彙リストによってコンセンサスコメント文セット内の簡単過ぎる記述を排除でき、即ち、コンセンサスコメント文セットを構成する単語と予め設定されたフィルタリング用語彙リストとが交差していれば、文の情報量が少なすぎて、人を引き付けるほどのプッシュ情報は構成できなくなるため、文がフィルタリングされることにより、情報フィルタリングの信頼性が向上される。
オプション的に、予め設定されたフィルタリング表によってフィルタリングされたすべてのコンセンサスコメント文に基づいて、候補推奨情報セットを取得することは、予め設定されたフィルタリング表によってフィルタリングされた、予め設定されたフィルタリング用語彙リストのネガティブサンプルセット内の単語を含まないすべてのコンセンサスコメント文を候補推奨情報セットに構成することを含む。
本実施形態のいくつかのオプション的な実施形態において、上記の予め設定されたフィルタリング用語彙リストによってフィルタリングされたすべてのコンセンサスコメント文に基づいて、候補推奨情報セットを取得することは、
予め設定されたフィルタリング用語彙リストによってフィルタリングされたすべてのコンセンサスコメント文セットをトレーニング済み推奨情報モデルに入力し、トレーニング済み推奨情報モデルによって出力された候補推奨情報セットを取得することを含み、トレーニング済み推奨情報モデルは予め設定されたフィルタリング用語彙リスト内のポジティブサンプルとネガティブサンプルセットによりトレーニングされたものである。
具体的に、まず、1つの予め設定されたフィルタリング用語彙リストを手動で作成し、語彙内の単語を含む文を情報量が不十分なネガティブサンプルとしてマークし、残りをポジティブサンプルとする。このように作成されたトレーニングデータをトレーニングに使用し、特定の複数の文により、どの文が情報量の要件を満たしているか、どの文が情報要件を満たさないかを判断することができるようにモデルに学習させる。予め設定されたフィルタリング用語彙リスト内のポジティブサンプルとネガティブサンプルセットによりトレーニングすることによってトレーニング済み推奨情報モデルを取得する過程は、以下の通りである。予め設定されたフィルタリング用語彙リスト内のポジティブサンプルセットとネガティブサンプルセットを分離させ、ポジティブサンプルセット、ネガティブサンプルセットを入力とし、ポジティブサンプルセットでマクされた候補推奨情報セットを所望の出力とし、初期推奨情報モデルをトレーニングし、トレーニング済み推奨情報モデルを取得し、トレーニング済み推奨情報モデルはニューラルネットワークモデルであってもよい。
図6に示すように、本開示の実施形態によるトレーニング済み推奨情報モデルの1つの構造模式図であり、このトレーニング済み推奨情報モデルは、現在の関心地点の下での複数の文の情報量の識別問題を複数の文のシーケンスラベリングタスクに変換することができる。具体的に、モデルの入力には、ある関心地点の下でのn(n>1)個のインターセプトされた文が含まれ、文ごとに文エンコーダBを通過し、エンコーダBはBERT(Bidirectional Encoder Representation from Transformers,Transformerからの双方向エンコーダ)を使用し、次元がdの符号化表現ベクトルVn(n>1)を取得することができる。ある文が情報量の基準を満たすのに十分であるか否かの判断は、該文の意味情報のほかに、他のコメント情報を踏まえて総合的に考慮する必要があると考えられる。このため、n個の符号化表現ベクトルは、シーケンスとして多層双方向シーケンスインタラクティブエンコーダ(multi-layer bidirectional sequence interactive encoder)Tに送信される。最終的に、多層双方向シーケンスインタラクティブエンコーダTは、タイムステップごとに1つのラベルを出力し、それぞれのラベルは対応する位置にある文に情報量があるか否かを表し、それにより、トレーニング済み推奨情報モデルによる文の情報量の判断が実現される。
この実施形態において、文エンコーダBは、候補推奨情報セットにおけるコンセンサスコメント文の意味を高密度ベクトル、即ちコンセンサスコメント文の表現ベクトルに符号化するために使用でき、例えばERNIEモデル(Enhanced Representation from Knowledge Integration,知識強化の意味表現モデル)などの他のコーディングモデルによって代替することもでき、BERTに対して、ERNIEモデルはマッシブデータ(massive data)における実体的概念などの先験的意味知識をモデル化することによって、完全な概念の意味表現を学習する。即ち、単語や実体的概念などの意味ユニットをマスクしてモデルを事前トレーニングすることにより、モデルによる意味知識ユニットの表示を実世界により近くなるようにする。
このオプション的な実施形態において、手動で作成された予め設定されたフィルタリング用語彙リストに限界があるという問題に対して、予め設定されたフィルタリング用語彙リストによってフィルタリングされた後に構成されたポジティブサンプルとネガティブサンプルでトレーニングしたトレーニング済み推奨情報モデルを使用して、候補推奨情報セットを取得することにより、情報量の識別のロバスト性を向上させた。
本実施形態のいくつかのオプション的な実施形態において、上記のコンセンサスコメント文セットに対して情報フィルタリングを実行し、候補推奨情報セットを取得することは、コンセンサスコメント文セットをトレーニング済み推奨情報モデルに入力し、トレーニング済み推奨情報モデルから出力される候補推奨情報セットを取得することを含み、トレーニング済み推奨情報モデルは予め設定されたフィルタリング用語彙リスト内のポジティブサンプルとネガティブサンプルセットによるトレーニングで得られたものである。
このオプション的な実施形態において、コンセンサスコメント文セットを予め設定されたフィルタリング用語彙リストによってフィルタリングされた後に構成されたポジティブサンプルとネガティブサンプルを利用して直接トレーニングしたニューラルネットワークモデルに入力し、候補推奨情報セットを取得することにより、情報量の識別の信頼性を向上させ、コンセンサスコメント文セットの情報フィルタリングのためにオプション的な形態を提供する。
本実施形態のいくつかのオプション的な実施形態において、さらに図7を参照し、上記の各コンセンサスコメント文の表現ベクトルに基づいて、候補推奨情報セットにおける各コンセンサスコメント文の吸引力ランキングを確定し、且つ吸引力ランキングに基づいて情報をプッシュすることは、以下のようなフローにより実行できる。
ステップ701:各コンセンサスコメント文の表現ベクトルと予め設定された文の表現ベクトルの内積をそれぞれ求め、すべての内積結果をランキングする。
本実施形態において、上記の予め設定された文の表現ベクトルの取得過程は次ぎの通りになる。すなわち、1000件の手動でレビューされたプッシュ情報を選択し、この1000件のプッシュ情報を事前トレーニングされたテキスト表現モデルを用いて符号化して1000個の文表現ベクトルを取得し、取得した1000個の文表現ベクトルの平均を求め、予め設定された文の表現ベクトルを取得する。勿論、プッシュ情報は1000に限定されることはなく、選択された手動でレビューされたプッシュ情報が多いほど、予め設定された文の表現ベクトルの正確性が高くなる。このような平均方法は、手動でレビューされたプッシュ情報に反映された具体的な関心地点の情報が希釈化され、人を引き付ける意味情報とプッシュ情報との共通性が維持される。
ステップ702:すべての内積結果のランキングに基づいて、それぞれのコンセンサスコメント文の吸引力ランキングを確定する。
本実施形態において、ベクトルの内積はベクトルの数の積として定義され、2つのベクトル内積結果は1つのスカラーであり、スカラーは「非ベクトル」とも呼ばれ、数値の大きさしかなく、方向の区別はなく、予め設定された文の表現ベクトルと現在の関心地点の下での候補推奨情報セットにおけるコンセンサスコメント文の表現ベクトルごとの内積を求め、得られた積が高いほど、候補プッシュ情報は吸引力の高いものになることを意味する。
ステップ703:各コンセンサスコメント文の吸引力ランキングが高い方から低い方への順に基づいて、吸引力ランキングの最も高いコンセンサスコメント文をプッシュする。
本実施形態において、内積結果が高いほど、候補プッシュ情報はより人を引き付けるようになることを意味し、それと同時に、内積結果に対応するコンセンサスコメント文がより人を引き付けることを意味し、最後に内積結果の最も高いコンセンサスコメント文を選択して表示する。
吸引力のある推奨情報は、言語上共通性があるので、このオプション的な実施形態は、大量の手動でレビューされた推奨情報を符号化して平均値を求めることにより、最も正確で推奨理由として適するベクトル表現を取得することができる。次に、リコールされた候補文のベクトル表現と比較することで、顧客のニーズに最も適合する候補文を取得することができ、それにより、吸引力の高いプッシュ情報を得るために基礎付けた。
さらに図8を参照し、情報をプッシュするための方法の他の実施形態を示すフローチャート800であり、該情報をプッシュするための方法は以下のステップを含む。
ステップ801:コンセンサスフレーズセットに基づいて、すべてのユーザコメント文を情報化処理し、候補推奨情報セットを取得し、候補推奨情報セットは少なくとも1つのコンセンサスコメント文を含み、コンセンサスフレーズセットは少なくとも2つのユーザコメント文に現れるコンセンサスフレーズを含む。
ステップ802:候補推奨情報セットにおける各コンセンサスコメント文の表現ベクトルを確定する。
ステップ803:各コンセンサスコメント文の表現ベクトルに基づいて、候補推奨情報セットにおける各コンセンサスコメント文の吸引力ランキングを確定し、且つ吸引力ランキングに基づいて情報をプッシュする。
ステップ804:ユーザのクエリ情報を受信する。
本実施形態において、ユーザのクエリ情報は、ユーザがユーザコメント文にアクセスする重要な情報であり、実行主体は一旦クエリ情報を取得すると、当該クエリ情報に対して情報プッシュを行うことができ、具体的に、クエリ情報はユーザがクライアントに作用する動作情報であってもよく、例えば、ユーザは任意の時間と位置で、マップAPP「厳選グルメ」機能の下で、下にスクロールして推薦されたグルメカテゴリの関心地点を確認することができ、オプション的に、クエリ情報はユーザからのクライアントによって入力された関心地点情報であってもよく、例えば、ユーザがマップAPP「厳選グルメ」機能の下で、「花聚宴(西二旗店)」を入力する。
ステップ805:クエリ情報に基づいて、確定されたプッシュ情報からクエリ情報に関連するプッシュ情報を確定する。
本実施形態において、確定されたプッシュ情報はステップ803で確定されたすべてのプッシュ情報である。
上記ステップ801~ステップ803はいずれも実行主体がオフラインの下で実行されてもよく、ステップ804~ステップ805は、オンラインでユーザのクエリ情報に基づいて、生成されたプッシュ情報からクエリ情報に関連するすべてのプッシュ情報を確定している。
本実施形態による情報をプッシュするための方法は、ユーザのクエリ情報を受信した後、クエリ情報に関連するすべてのプッシュ情報を確定することにより、顧客が必要とするプッシュ情報を遅滞なく提供することが便利になり、ユーザ体験が向上された。
本実施形態のいくつかのオプション的な実施形態において、ユーザのクエリ情報を受信した後に、実行主体は、好ましくはクエリ情報に関連するすべてのユーザコメント文を確定してもよく、例えば、ユーザがクライアント上特定の関心地点に関して下へスクロールして確認するとの操作を実行すると、実行主体は現在の関心地点内のすべてのユーザコメント文を直接表示し、例えば、ユーザがあるとき、推奨されたグルメカテゴリに属する付近の「花聚宴(西二旗店)」という関心地点にアクセスした場合、実行主体によりクライアントに表示される結果には、「花聚宴(西二旗店)」という関心地点に関する57件のユーザコメントが含まれる。
次に、コンセンサスフレーズセットに基づいて、すべてのユーザコメント文を情報化処理し、候補推奨情報セットを取得し、候補推奨情報セットは少なくとも1つのコンセンサスコメント文を含み、コンセンサスフレーズセットは少なくとも2つのユーザコメント文に現れるコンセンサスフレーズを含む。
最後に、候補推奨情報セットにおける各コンセンサスコメント文の表現ベクトルを確定する。各コンセンサスコメント文の表現ベクトルに基づいて、候補推奨情報セットにおける各コンセンサスコメント文の吸引力ランキングを確定し、且つ吸引力ランキングに基づいてクエリ情報に関連するプッシュ情報をプッシュする。
本実施形態の一具体的な実施形態は、あるユーザは任意の時間と位置で、マップAPP「厳選グルメ」機能の下で、下にスクロールすることによって推薦されるグルメカテゴリの関心地点を確認できる。表示された結果には、1つの人を引き付けるタイトルと当該関心地点の代表的な画像が含まれる。タイトルは20文字を超えない。タイトルと画像の由来は高品質なユーザコメントである。ユーザが推奨理由または画像に引かれる場合は、表示結果をクリックすることによって高品質ユーザコメント由来の詳細コンテンツにアクセスすることができ、さらにクリックして関心地点の詳細ページにアクセスすることができる。
例えば、ユーザはあるとき推薦された近くの厳選グルメにおける「花聚宴(西二旗店)」という関心地点にアクセスしたとする。表示結果には、「花聚宴(西二旗店)」という関心地点に関する57件のユーザコメントに基づいてオフラインで生成された人を引き付けるプッシュ情報「この店の山椒チキン鍋の味がとても美味しい、手作り団子もぷ」が含まれ、当該プッシュ情報はハイパーリンクのタイトルとしてタイトルに対応する出所のコメントの高品質な画像とともに表示される。ユーザはこのタイトルをクリックすれば、現在のプッシュ情報のソースの詳細なコメント情報を見ることができ、さらに該関心地点の詳細ページにアクセスしてナビゲーションを完了する。
本開示の実施形態による情報をプッシュするための方法は、関心地点の下にあるコメント文に基づいて高い情報量、高い吸引力、ポジティブな感情、コンセンサス情報を有するプッシュ情報を自動的に生成することができる。このプッシュ情報は非常に短く、モバイル端末での表示に適する。関心地点の特色のある情報が反映されると同時に十分に人を引き付けることができ、ユーザ体験が向上された。同時に、プッシュ情報が自動的に生成されるため、手動作成の時間と費用のコストを節約でき、プッシュ情報の生成効率と品質が向上された。しかも、教師ありトレーニングデータによるトレーニングが不要なため、デプロイコストがさらに低減され、エンドツーエンドの教師ありトレーニング時におけるブラックボックスモデルの非確実性も低減された。
図9をさらに参照し、上記の各図に示す方法の実装として、本開示は情報をプッシュするための装置の一実施形態を提供し、該装置の実施形態は図2に示す方法の実施形態に対応し、該装置は具体的にさまざまな電子機器に適用できる。
図9に示すように、本実施形態による情報をプッシュするための装置900は、前処理モジュール901、ベクトルモジュール902、及びプッシュモジュール903を備える。上記前処理モジュール901は、コンセンサスフレーズセットに基づいて、すべてのユーザコメント文を情報化処理し、候補推奨情報セットを取得するように構成されてもよい。候補推奨情報セットは少なくとも1つのコンセンサスコメント文を含み、コンセンサスフレーズセットは少なくとも2つのユーザコメント文に現れるコンセンサスフレーズを含む。上記ベクトルモジュール902は、候補推奨情報セットにおける各コンセンサスコメント文の表現ベクトルを確定するように構成されてもよい。上記プッシュモジュール903は、各コンセンサスコメント文の表現ベクトルに基づいて、候補推奨情報セットにおける各コンセンサスコメント文の吸引力ランキングを確定し、且つ吸引力ランキングに応じて情報をプッシュするように構成されてもよい。
本実施形態において、情報をプッシュするための装置900では、前処理モジュール901、ベクトルモジュール902及びプッシュモジュール903の具体的な処理及びそれらによる技術的効果はそれぞれ図2の対応する実施形態におけるステップ201、ステップ202及びステップ203の関連説明を参照でき、ここでは省略する。
本実施形態のいくつかのオプション的な実施形態において、上記プッシュモジュールは、内積ランキングユニット(図示せず)、吸引力ランキングユニット(図示せず)、及びプッシュユニット(図示せず)を含んでもよい。上記内積ランキングユニットは、各コンセンサスコメント文の表現ベクトルと予め設定された文の表現ベクトルとの内積をそれぞれ求め、すべての内積結果をランキングするように構成されてもよい。上記吸引力ランキングユニットは、すべての内積結果のランキングに基づいて、それぞれのコンセンサスコメント文の吸引力ランキングを確定するように構成されてもよい。上記プッシュユニットは、各コンセンサスコメント文の吸引力ランキングの高い方から低い方への順に基づいて、吸引力ランキングが最上位のコンセンサスコメント文をプッシュするように構成されてもよい。
本実施形態のいくつかのオプション的な実施形態において、上記前処理モジュールは、前処理ユニット(図示せず)とフィルタリングユニット(図示せず)を含んでもよい。上記前処理ユニットは、コンセンサスフレーズセットに基づいて、すべてのユーザコメント文を前処理して、少なくとも1つのコンセンサスコメント文を含むコンセンサスコメント文セットを取得するように構成されてもよい。上記生成モジュールは、コンセンサスコメント文セットに対して情報フィルタリングを実行し、候補推奨情報セットを取得するように構成されてもよい。
本実施形態のいくつかのオプション的な実施形態において、上記フィルタリングユニットは、比較サブユニット(図示せず)、確定サブユニット(図示せず)、及び推奨サブユニット(図示せず)を含んでもよい。上記比較サブユニットは、コンセンサスコメント文セット内の単語と予め設定されたフィルタリング用語彙リストのネガティブサンプルセット内の単語を逐一対比するように構成されてもよい。上記確定サブユニットは、比較結果に基づいて、予め設定されたフィルタリング用語彙リストによってフィルタリングされたすべてのコンセンサスコメント文を確定するように構成されてもよい。上記推奨サブユニットは、予め設定されたフィルタリング用語彙リストによってフィルタリングされたすべてのコンセンサスコメント文に基づいて、候補推奨情報セットを取得するように構成されてもよい。
本実施形態のいくつかのオプション的な実施形態において、上記フィルタリングユニットは、入力サブユニット(図示せず)と出力サブユニット(図示せず)を含んでもよい。上記入力サブユニットは、コンセンサスコメント文セットをトレーニング済み推奨情報モデルに入力するように構成されてもよい。上記出力サブユニットは、予め設定されたフィルタリング用語彙リスト内のポジティブサンプルとネガティブサンプルセットによりトレーニングされるトレーニング済み推奨情報モデルから出力される候補推奨情報セットを取得するように構成されてもよい。
本実施形態のいくつかのオプション的な実施形態において、上記前処理ユニットは、文分割サブユニット(図示せず)、コンセンサスサブユニット(図示せず)、及びフィルタリングサブユニット(図示せず)を含む。上記文分割ユニットは、すべてのユーザコメント文を文の分割処理して、文の分割されたコメント文を取得するように構成されることができ、文の分割されたコメント文の長さは所定の漢字数の範囲内である。上記コンセンサスサブユニットは、文の分割されたコメント文内の少なくとも1つのコンセンサスコメント文を確定するように構成されることができ、コンセンサスコメント文にはコンセンサスフレーズセットにおけるコンセンサスフレーズが含まれる。上記フィルタリングサブユニットは、すべてのコンセンサスコメント文に対して感情傾向フィルタリングを行い、コンセンサスコメント文セットを取得するように構成されてもよい。
本開示の上記実施形態により提供される装置は、前処理モジュール901によってコンセンサスフレーズセットに基づいて、すべてのユーザコメント文を情報化処理し、候補推奨情報セットを取得し、候補推奨情報セットは少なくとも1つのコンセンサスコメント文を含み、コンセンサスフレーズセットは少なくとも2つのユーザコメント文に現れるコンセンサスフレーズを含む。ベクトルモジュール902は、候補推奨情報セットにおける各コンセンサスコメント文の表現ベクトルを確定する。プッシュモジュール903は、各コンセンサスコメント文の表現ベクトルに基づいて、候補推奨情報セットにおける各コンセンサスコメント文の吸引力ランキングを確定し、且つ吸引力ランキングに基づいて情報をプッシュする。それにより既存のユーザコメント文に基づいて処理した後、教師ありトレーニングのための大量の教師ありトレーニングデータ不要でプッシュ情報を自動的に抽出できるため、データ監視のコストが節約され、手動レビューのコストが低減され、プッシュ効率が高くなり、ユーザ体験が向上される。
本実施形態のいくつかのオプション的な実施形態において、上記情報をプッシュするための装置は、フレーズ構成モジュール(図示せず)、計算モジュール(図示せず)、単語頻度ランキングモジュール(図示せず)、及び取得モジュール(図示せず)をさらに備える。上記フレーズ構成モジュールは、少なくとも2つのユーザコメント文に現れるコンセンサスフレーズを連続フレーズセットに構成するように構成されてもよい。上記計算モジュールは、連続フレーズセットにおけるコンセンサスフレーズの逆文書頻度スコアを計算するように構成されてもよい。上記単語頻度ランキングモジュールは、すべての逆文書頻度スコアをランキングするように構成されてもよい。上記取得モジュールは、逆文書頻度スコアのランキングの高い方から低い方への順に従って、連続フレーズセット内の所定数のコンセンサスフレーズを取得し、コンセンサスフレーズセットを構成するように構成されてもよい。
このオプション的な実施形態において、まず、フレーズ構成モジュールは、少なくとも2つのユーザコメント文に現れるコンセンサスフレーズを連続フレーズセットに構成し、次に、計算モジュールは連続フレーズセットにおけるコンセンサスフレーズの逆文書頻度スコアを計算し、次に、単語頻度ランキングモジュールはすべての逆文書頻度スコアをランキングし、最後に、取得モジュールは逆文書頻度スコアのランキングの高い方から低い方への順に従って、連続フレーズセット内の所定数のコンセンサスフレーズを取得し、コンセンサスフレーズセットを構成し、連続フレーズセットのリファインが実現され、特色のある情報を有し信頼性の高いコンセンサスフレーズセットの取得が確保される。
図10をさらに参照し、図8に示す方法の実装として、本開示は情報をプッシュするための装置の他の実施形態を提供し、該装置の実施形態は図8に示す方法の実施形態に対応し、該装置は具体的にさまざまな電子機器に適用できる。
図10に示すように、本実施形態により提供される情報をプッシュするための装置1000は、前処理モジュール1001、ベクトルモジュール1002、プッシュモジュール1003、受信モジュール1004及び確定モジュール1005を備える。上記前処理モジュール1001は、コンセンサスフレーズセットに基づいて、すべてのユーザコメント文を情報化処理し、候補推奨情報セットを取得し、候補推奨情報セットは少なくとも1つのコンセンサスコメント文を含み、コンセンサスフレーズセットは少なくとも2つのユーザコメント文に現れるコンセンサスフレーズを含むように構成されてもよい。上記ベクトルモジュール1002は、候補推奨情報セットにおける各コンセンサスコメント文の表現ベクトルを確定するように構成されてもよい。上記プッシュモジュール1003は、各コンセンサスコメント文の表現ベクトルに基づいて、候補推奨情報セットにおける各コンセンサスコメント文の吸引力ランキングを確定し、且つ吸引力ランキングに従って情報をプッシュするように構成されてもよい。上記受信モジュール1004は、ユーザのクエリ情報を受信するように構成されてもよい。上記確定モジュール1005は、クエリ情報に基づいて、すべてのプッシュ情報から、クエリ情報に関連するプッシュ情報を確定するように構成されてもよい。上記プッシュ情報はハイパーリンクのタイトルを含む。
本願の上記実施形態により提供される情報をプッシュするための装置は、まず、前処理モジュール1001は、コンセンサスフレーズセットに基づいて、すべてのユーザコメント文を情報化処理し、候補推奨情報セットを取得し、候補推奨情報セットは少なくとも1つのコンセンサスコメント文を含み、コンセンサスフレーズセットは少なくとも2つのユーザコメント文に現れるコンセンサスフレーズを含む。次に、ベクトルモジュール1002は、候補推奨情報セットにおける各コンセンサスコメント文の表現ベクトルを確定する。次に、プッシュモジュール1003は、各コンセンサスコメント文の表現ベクトルに基づいて、候補推奨情報セットにおける各コンセンサスコメント文の吸引力ランキングを確定し、且つ吸引力ランキングに応じて情報をプッシュする。プッシュされた情報はハイパーリンクのタイトルを含む。さらに、受信モジュール1004はユーザのクエリ情報を受信する。最後に、確定モジュール1005は、クエリ情報に基づいて、クエリ情報に関連するプッシュ情報を確定する。それにより、関心地点の下にあるコメント文に基づいて高情報量、高吸引力、ポジティブな感情、コンセンサス情報を有するプッシュ情報を自動的に生成することができる。このプッシュ情報は非常に短く、モバイル端末での表示に適する。関心地点の特色の情報が表示されと同時に十分に人を引き付けることができ、ユーザ体験が向上された。同時に、自動的に生成されたプッシュ情報のため、手動作成の時間と費用のコストを節約でき、プッシュ情報の生成効率と品質が向上される。しかも、教師ありトレーニングデータによるトレーニングが不要なため、デプロイコストがさらに低減され、エンドツーエンドの教師ありトレーニング時におけるブラックボックスモデルの非確実性も低減される。
本願の実施形態によれば、本願は電子機器と読み取り可能な記憶媒体をさらに提供する。
図11に示すように、本願の実施形態による情報をプッシュするための方法の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレード型サーバ、大型コンピュータおよびその他の適切なコンピュータ等の様々な形態のデジタルコンピュータを示す。また、電子機器は、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置およびその他の類似するコンピューティングデバイス等の様々な形態のモバイルデバイスを示すことができる。なお、ここで示したコンポーネント、それらの接続関係、およびそれらの機能はあくまでも例示であり、ここで説明および/または要求した本願の実現を限定することを意図するものではない。
図11に示すように、該電子機器は、1つ又は複数のプロセッサ1101、メモリ1102、及び各コンポーネントを接続するためのインタフェース(高速インタフェース及び低速インタフェースを含む)を含む。各コンポーネントは、互いに異なるバスで接続され、共通のマザーボード上に実装されていてもよいし、必要に応じて他の方式で実装されていてもよい。プロセッサは電子機器内で実行される命令を処理することができ、インタフェースに結合された表示装置等の外部入出力装置に、グラフィカルユーザインタフェース(GUI,Graphical User Interface)のグラフィック情報を表示するための指令をメモリ内またはメモリ上に格納することを含む。他の実施形態では、必要に応じて、複数のプロセッサおよび/または複数のバスおよび複数のメモリを、複数のメモリとともに使用することができる。また、複数の電子機器が接続されていてもよく、各機器は、例えば、サーバアレイ、ブレードサーバ群またはマルチプロセッサシステムなど、一部の必要な動作を提供する。図11では、1つのプロセッサ1101を例としている。
メモリ1102は、本願により提供される非一時的コンピュータ可読記憶媒体である。ここで、前記メモリには、少なくとも1つのプロセッサにより実行され得る指令が格納され、それにより前記少なくとも1つのプロセッサに本願に係る情報をプッシュするための方法が実行される。本願の非一時的コンピュータ可読記憶媒体はコンピュータ指令を格納し、該コンピュータ指令は本願に係る情報をプッシュするための方法をコンピュータに実行させるために用いられる。
メモリ1102は、非一時的コンピュータ可読記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム及びモジュールを格納するのに用いることができ、例えば本願の実施形態における情報をプッシュするための方法に対応するプログラム指令/モジュール(例えば、図900に示す前処理モジュール901、ベクトルモジュール902及びプッシュモジュール903)が挙げられる。プロセッサ1101は、メモリ1102に格納された非一時的ソフトウェアプログラム、指令及びモジュールを実行することにより、サーバの各種機能アプリケーション及びデータ処理を実行し、すなわち上記方法の実施形態における情報をプッシュするための方法を実現する。
メモリ1102は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを格納可能なプログラム記憶領域と、情報をプッシュするための方法に係る電子機器の使用に応じて作成されたデータ等を格納可能なデータ記憶領域とを含んでもよい。また、メモリ1102は高速ランダムアクセスメモリを含むことができ、また非一時的メモリ(例えば、少なくとも1つの磁気ディスク記憶装置、フラッシュメモリデバイス又はその他の非一時的ソリッドステート記憶装置)を含むことができる。いくつかの実施形態において、メモリ1102は任意選択でプロセッサ1101と遠隔に設置されたメモリを含み、これらのリモートメモリはネットワークを介して情報をプッシュする電子機器に接続することができる。上記ネットワークとしては、例えば、インターネット、企業イントラネット、ローカルエリアネットワーク、移動体通信網及びこれらの組み合わせなどが挙げられるが、それらに限定されない。
情報をプッシュするための電子機器は、さらに入力装置1103及び出力装置1104を含むことができる。プロセッサ1101、メモリ1102、入力装置1103及び出力装置1104は、バス又はその他の方式で接続されていてもよく、図11ではバスで接続されている例を示している。
例えばタッチパネル、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングデバイス、1つまたは複数のマウスボタン、トラックボール、ジョイスティック等の入力装置1103は、入力された数字や文字情報を受信でき、情報をプッシュする電子機器のユーザ設定および機能制御に関するキー信号の入力を生成することができる。出力装置1104は表示装置、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、振動モータ)等を含むことができる。該表示装置は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態において、表示装置はタッチパネルであってもよい。
ここで説明するシステム及び技術の様々な実施形態はデジタル電子回路システム、集積回路システム、特定用途向け集積回路(Application Specific Integrated Circuit,ASIC)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムに実装され、該1つ又は複数のコンピュータプログラムは少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムにおいて実行及び/又は解釈することができ、該プログラマブルプロセッサは専用又は汎用プログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置及び少なくとも1つの出力装置からデータ及び命令を受信することができ、且つデータ及び命令を該記憶システム、該少なくとも1つの入力装置及び該少なくとも1つの出力装置に伝送することを含み得る。
これらのコンピュータプログラムは、プログラム、ソフトウェア、ソフトウェアアプリケーション又はコードとも呼ばれ、プログラマブルプロセッサの機械命令を含み、且つ高度プロセス及び/又はオブジェクト指向のプログラミング言語、及び/又はアセンブリ言語/機械語を利用して実現することができる。ここで、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械指令及び/又はデータをプログラマブルプロセッサに供給するための任意のコンピュータプログラム製品、装置、及び/又はデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を意味し、機械可読信号である機械指令を受信する機械可読媒体を含む。「機械可読信号」という用語は、機械指令および/またはデータをプログラマブルプロセッサに供給するための任意の信号を意味する。
ユーザとのインタラクションを提供するために、ここで説明するシステムと技術は、ユーザに情報を表示するための表示装置(例えば、陰極線管(Cathode Ray Tube,CRT)またはLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウスまたはトラックボール)とを備えるコンピュータ上で実現することができ、ユーザが該キーボード及び該ポインティングデバイスを介してコンピュータに入力を提供できる。他の種類の装置は、さらにユーザとのインタラクションを提供することに用いることができる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバックのような任意の形態のセンシングフィードバックであってもよく、且つ音の入力、音声入力又は、触覚入力を含む任意の形態でユーザからの入力を受信してもよい。
ここで説明したシステム及び技術は、バックグラウンドコンポーネントを含むコンピューティングシステム(例えば、データサーバ)に実施されてもよく、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)に実施されてもよく、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ)に実施されてもよく、ユーザは該グラフィカルユーザインタフェース又はウェブブラウザを介してここで説明したシステム及び技術の実施形態とインタラクションしてもよく、又はこのようなバックグラウンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネントのいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。また、システムの各構成要素間は、通信ネットワーク等の任意の形態または媒体を介してデジタルデータ通信により接続されていてもよい。通信ネットワークとしては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットなどを含む。
コンピュータシステムは、クライアントとサーバとを含んでもよい。クライアントとサーバは、通常、互いに離れており、通信ネットワークを介してインタラクションを行う。クライアントとサーバとの関係は、互いにクライアント-サーバの関係を有するコンピュータプログラムをそれぞれのコンピュータ上で動作することによって生成される。
本願の実施形態における技術方案によれば、関心地点の下にあるコメント文に応じて高情報量、高吸引力、ポジティブな感情、コンセンサス情報を有するプッシュ情報を自動的に生成することができる。このプッシュ情報は非常に短く、モバイル端末での表示に適する。関心地点の特色の情報が表示され、十分魅力的であり、ユーザ体験を向上させる。それと同時に、プッシュ情報を自動的に生成することで、手動による作成にかかる時間と費用のコストを節約でき、プッシュ情報の生成効率と品質が向上される。しかも、教師ありトレーニングデータによるトレーニングが不要なため、デプロイコストがさらに削減され、エンドツーエンドの教師ありトレーニング時におけるブラックボックスモデルの非確実性も低減される。
なお、上述した様々な形態のフローを用いて、ステップを並び替え、追加または削除を行うことができることを理解されるべきである。例えば、本願に記載された各ステップは、本願に開示された技術方案の所望の結果が達成できる限り、並行して実行されてもよく、順番に実行されてもよく、異なる順序で実行されてもよい。本明細書はここで制限はしない。
上記具体的な実施形態は、本願の保護範囲を限定するものではない。当業者であれば、設計要件および他の要因に応じて、様々な修正、組み合わせ、サブ組合、および代替を行うことができることは理解される。本願の精神および原理内で行われたあらゆる補正、均等な置換および改善などは、いずれも本願の保護範囲内に含まれるべきである。

Claims (14)

  1. サーバによって実行される情報をプッシュするための方法であって、
    1つ以上のを有するユーザコメント文を、文字数が所定の長さの範囲に入るように分割して、分割されたコメント文を取得するステップと、
    ある関心地点に関する前記分割されたコメント文をコンセンサスフレーズセットにおける1つ以上のコンセンサスフレーズと比較することにより、ある関心地点に関する前記分割されたコメント文から、前記コンセンサスフレーズと同一または類似のフレーズが含まれるコンセンサスコメント文を取得するステップであって、前記コンセンサスフレーズセットは、予め設定された1つ以上のコンセンサスフレーズによって構成され、または少なくとも2つのユーザコメント文から抽出されたものである、ステップと、
    取得した少なくとも1つの前記コンセンサスコメント文の集まりをコンセンサスコメント文セットとするステップと、
    前記コンセンサスコメント文セットから、情報をフィルタリング処理して得られたコンセンサスコメント文の集まりを候補推奨情報セットとするステップと、
    前記候補推奨情報セットにおける各コンセンサスコメント文の表現を意味空間でのベクトル表現に変換して表現ベクトルを取得するステップと、
    前記各コンセンサスコメント文の表現ベクトルに基づいて、前記候補推奨情報セットにおける各コンセンサスコメント文の吸引力ランキングを確定し、前記吸引力ランキングに基づいて、情報を端末装置にプッシュするステップと、を含み、
    前記情報を端末装置にプッシュするステップは、
    前記各コンセンサスコメント文の表現ベクトルと予め設定された文の表現ベクトルとの内積をそれぞれ求め、得られた内積結果をランキングするステップであって、前記予め設定された文の表現ベクトルは手動でレビューされた推奨情報を符号化して平均値を求めることによって取得するものである、ステップと、
    前記得られた内積結果をランキングする結果により、前記各コンセンサスコメント文の吸引力ランキングを決定することと、
    前記各コンセンサスコメント文の吸引力ランキングの高い方から低い方への順に従い、吸引力ランキングの最上位のコンセンサスコメント文をプッシュすることと、を含み、
    前記の、前記コンセンサスコメント文セットから、情報をフィルタリング処理して得られたコンセンサスコメント文の集まりを候補推奨情報セットとするステップは、
    前記コンセンサスコメント文セットにおける単語と予め設定されたフィルタリング用語彙リストのネガティブサンプルセットにおける単語とを、一つずつ比較をするステップであって、前記ネガティブサンプルセットは、前記予め設定されたフィルタリング用語彙リスト内の単語を含む文を情報量が不十分なものとしてマークされたものである、ことと、
    前記比較の結果から、前記予め設定されたフィルタリング用語彙リストによってフィルタリング処理してコンセンサスコメント文を取得することと、
    前記予め設定されたフィルタリング用語彙リストによってフィルタリング処理されたコンセンサスコメント文を、候補推奨情報セットとすることと、を含む情報をプッシュするための方法。
  2. 前記の、前記予め設定されたフィルタリング用語彙リストによってフィルタリング処理されたコンセンサスコメント文を、候補推奨情報セットとするステップは、
    前記予め設定されたフィルタリング用語彙リストによってフィルタリング処理されたコンセンサスコメント文セットを、ニューラルネットワークモデルであるトレーニング済み推奨情報モデルに入力し、前記トレーニング済み推奨情報モデルから出力される候補推奨情報セットを取得することを含み、
    前記トレーニング済み推奨情報モデルは、前記予め設定されたフィルタリング用語彙リストにおけるポジティブサンプルと前記ネガティブサンプルセットによりトレーニングされたものであり、前記ポジティブサンプルセットは情報量が十分なものとしてマークされたものである、請求項1に記載の方法。
  3. サーバによって実行される情報をプッシュするための方法であって、
    1つ以上のを有するユーザコメント文を、文字数が所定の長さの範囲に入るように分割して分割されたコメント文を取得するステップと、
    ある関心地点に関する前記分割されたコメント文をコンセンサスフレーズセットにおける1つ以上のコンセンサスフレーズと比較することにより、ある関心地点に関する前記分割されたコメント文から、前記コンセンサスフレーズと同一又は類似のフレーズが含まれるコンセンサスコメント文を取得するステップであって、前記コンセンサスフレーズセットは、予め設定された1つ以上のコンセンサスフレーズによって構成され、または少なくとも2つのユーザコメント文から抽出されたものである、ステップと、
    取得した少なくとも1つの前記コンセンサスコメント文の集まりをコンセンサスコメント文セットとするステップと、
    前記コンセンサスコメント文セットから、情報をフィルタリング処理して得られたコンセンサスコメント文の集まりを候補推奨情報セットとするステップと、
    前記候補推奨情報セットにおける各コンセンサスコメント文の表現を意味空間でのベクトル表現に変換して表現ベクトルを取得するステップと、
    前記各コンセンサスコメント文の前記表現ベクトルに基づいて、前記候補推奨情報セットにおける各コンセンサスコメント文の吸引力ランキングを確定し、前記吸引力ランキングに基づいて情報を、端末装置にプッシュするステップと、を含み、
    前記情報を端末装置にプッシュするステップは、
    前記各コンセンサスコメント文の表現ベクトルと予め設定された文の表現ベクトルとの内積をそれぞれ求め、得られた内積結果をランキングするステップであって、前記予め設定された文の表現ベクトルは手動でレビューされた推奨情報を符号化して平均値を求めることによって取得するものである、ステップと、
    前記得られた内積結果のランキングの結果により、前記各コンセンサスコメント文の吸引力ランキングを決定することと、
    前記各コンセンサスコメント文の吸引力ランキングの高い方から低い方への順に従い、吸引力ランキングの最上位のコンセンサスコメント文をプッシュすることと、を含み、
    前記の、前記コンセンサスコメント文セットから情報をフィルタリング処理して得られたコンセンサスコメント文の集まりを候補推奨情報セットとするステップは、
    前記コンセンサスコメント文セットを、ニューラルネットワークモデルであるトレーニング済み推奨情報モデルに入力して、前記トレーニング済み推奨情報モデルから出力される候補推奨情報セットを取得することを含み、
    前記トレーニング済み推奨情報モデルは、前記予め設定されたフィルタリング用語彙リストにおけるポジティブサンプルとネガティブサンプルセットによりトレーニングされたものであり、前記ネガティブサンプルセットは、前記予め設定されたフィルタリング用語彙リスト内の単語を含む文を情報量が不十分なものとしてマークされたものであり、前記ポジティブサンプルセットは情報量が十分なものとしてマークされたものである、情報をプッシュするための方法。
  4. 前記取得した少なくとも1つの前記コンセンサスコメント文の集まりをコンセンサスコメント文セットとするステップは、
    前記コンセンサスコメント文における意味情報に対して感情傾向分析を行い、前記少なくとも一つのコンセンサスコメント文から感情傾向がポジティブなコンセンサスコメント文を抽出することをさらに含む請求項1~3のいずれか1項に記載の情報をプッシュするための方法。
  5. 前記情報をプッシュするための方法は、前記分割されたコメント文を取得するステップの前に、
    少なくとも2つのユーザコメント文に現れるコンセンサスフレーズを連続フレーズセットとするステップと、
    前記連続フレーズセットにおけるコンセンサスフレーズの逆文書頻度スコアを計算し、すべての逆文書頻度スコアをランキングするステップと、
    逆文書頻度スコアのランキングの高い方から低い方への順に応じて、前記連続フレーズセットにおける所定数のコンセンサスフレーズを取得し、コンセンサスフレーズセットとするステップと、をさらに含む請求項1~3のいずれか1項に記載の情報をプッシュするための方法。
  6. 前記情報をプッシュするための方法は、
    ユーザのクエリ情報を受信するステップと、
    前記クエリ情報に基づいて、請求項1~5のいずれか1項に記載の情報をプッシュするための方法によって確定されたすべてのプッシュ情報から、前記クエリ情報に関連するプッシュ情報を確定するステップと、をさらに含む請求項1~3のいずれか1項に記載の情報をプッシュするための方法。
  7. 前処理モジュールと、ベクトルモジュールと、プッシュモジュールとを備える情報をプッシュするための装置であって、
    前記前処理モジュールは前処理ユニットとフィルタリングユニットとを備え、
    前記前処理ユニットは、
    1つ以上のを有するユーザコメント文を、文字数が所定の長さの範囲に入るように分割して、分割されたコメント文を取得し、
    ある関心地点に関する前記分割されたコメント文をコンセンサスフレーズセットにおける1つ以上のコンセンサスフレーズと比較することにより、ある関心地点に関する前記分割されたコメント文から、前記コンセンサスフレーズと同一又は類似のフレーズが含まれるコンセンサスコメント文を取得し、前記コンセンサスフレーズセットは、予め設定された1つ以上のコンセンサスフレーズによって構成され、または少なくとも2つのユーザコメント文から抽出されたものであり
    取得した少なくとも1つの前記コンセンサスコメント文の集まりをコンセンサスコメント文セットとするように構成され、
    前記フィルタリングユニットは、前記コンセンサスコメント文セットから、情報をフィルタリング処理して得られたコンセンサスコメント文の集まりを候補推奨情報セットとするように構成され、
    前記ベクトルモジュールは、前記候補推奨情報セットにおける各コンセンサスコメント文の表現を意味空間でのベクトル表現に変換して表現ベクトルを取得するように構成され、
    前記プッシュモジュールは、前記各コンセンサスコメント文の表現ベクトルに基づいて、前記候補推奨情報セットにおける各コンセンサスコメント文の吸引力ランキングを確定し、前記吸引力ランキングに応じて情報を、端末装置にプッシュするように構成され、
    前記プッシュモジュールは、
    前記各コンセンサスコメント文の表現ベクトルと予め設定された文の表現ベクトルの内積をそれぞれ求め、得られた内積結果をランキングするように構成され、前記予め設定された文の表現ベクトルは、手動でレビューされた推奨情報を符号化して平均値を求めることによって取得するものである内積ランキングユニットと、
    得られた内積結果のランキングの結果により、前記各コンセンサスコメント文の吸引力ランキングを決定するように構成される吸引力ランキングユニットと、
    前記各コンセンサスコメント文の吸引力ランキングの高い方から低い方への順に従い、吸引力ランキングの最上位のコンセンサスコメント文をプッシュするように構成されるプッシュユニットと、をさらに備え、
    前記フィルタリングユニットは、
    前記コンセンサスコメント文セットにおける単語と予め設定されたフィルタリング用語彙リストのネガティブサンプルセットにおける単語を、一つずつ比較をするように構成され、前記ネガティブサンプルセットは、前記予め設定されたフィルタリング用語彙リスト内の単語を含む文を情報量が不十分なものとしてマークされたものである比較サブユニットと、
    前記比較の結果から、前記予め設定されたフィルタリング用語彙リストによってフィルタリング処理してコンセンサスコメント文を取得するように構成される確定サブユニットと、
    前記予め設定されたフィルタリング用語彙リストによってフィルタリング処理されたコンセンサスコメント文を、候補推奨情報セットとするように構成される推奨サブユニットと、
    をさらに備える情報をプッシュするための装置。
  8. 前処理モジュールと、ベクトルモジュールと、プッシュモジュールとを備える情報をプッシュするための装置であって、
    前記前処理モジュールは前処理ユニットとフィルタリングユニットとを備え、
    前記前処理ユニットは、
    1つ以上のを有するユーザコメント文を、文字数が所定の長さの範囲に入るように分割して、分割されたコメント文を取得し、
    ある関心地点に関する前記分割されたコメント文をコンセンサスフレーズセットにおける1つ以上のコンセンサスフレーズと比較することにより、ある関心地点に関する前記分割されたコメント文から、前記コンセンサスフレーズと同一又は類似のフレーズが含まれるコンセンサスコメント文を取得し、前記コンセンサスフレーズセットは、予め設定された1つ以上のコンセンサスフレーズによって構成され、または少なくとも2つのユーザコメント文から抽出されたものであり
    取得した少なくとも1つの前記コンセンサスコメント文の集まりをコンセンサスコメント文セットとするように構成され、
    前記フィルタリングユニットは、前記コンセンサスコメント文セットから、情報をフィルタリング処理して得られたコンセンサスコメント文の集まりを候補推奨情報セットとするように構成され、
    前記ベクトルモジュールは、前記候補推奨情報セットにおける各コンセンサスコメント文の表現を意味空間でのベクトル表現に変換して表現ベクトルを取得するように構成され、
    前記プッシュモジュールは、前記各コンセンサスコメント文の表現ベクトルに基づいて、前記候補推奨情報セットにおける各コンセンサスコメント文の吸引力ランキングを確定し、前記吸引力ランキングに応じて情報を、端末装置にプッシュするように構成され、
    前記プッシュモジュールは、
    前記各コンセンサスコメント文の表現ベクトルと予め設定された文の表現ベクトルの内積をそれぞれ求め、得られた内積結果をランキングするように構成され、前記予め設定された文の表現ベクトルは手動でレビューされた推奨情報を符号化して平均値を求めることによって取得するものである内積ランキングユニットと、
    前記得られた内積結果のランキングの結果により、前記各コンセンサスコメント文の吸引力ランキングを決定するように構成される吸引力ランキングユニットと、
    前記各コンセンサスコメント文の吸引力ランキングの高い方から低い方への順に従い、吸引力ランキングの最上位のコンセンサスコメント文をプッシュするように構成されるプッシュユニットと、をさらに備え、
    前記フィルタリングユニットは、前記コンセンサスコメント文セットを、ニューラルネットワークモデルであるトレーニング済み推奨情報モデルに入力するように構成される入力サブユニットと、前記トレーニング済み推奨情報モデルから出力される候補推奨情報セットを取得するように構成される出力サブユニットと、を備え、
    前記トレーニング済み推奨情報モデルは、前記予め設定されたフィルタリング用語彙リストにおけるポジティブサンプルとネガティブサンプルセットによりトレーニングされたものであり、前記ネガティブサンプルセットは、前記予め設定されたフィルタリング用語彙リスト内の単語を含む文を情報量が不十分なものとしてマークされたものであり、前記ポジティブサンプルセットは情報量が十分なものとしてマークされたものである情報をプッシュするための装置。
  9. 前記前処理ユニットは、
    前記コンセンサスコメント文における意味情報に対して感情傾向分析を行い、前記少なくとも一つのコンセンサスコメント文から感情傾向がポジティブなコンセンサスコメント文を抽出するように構成されるフィルタリングサブユニットを備える請求項7または8に記載の情報をプッシュするための装置。
  10. 少なくとも2つのユーザコメント文に現れるコンセンサスフレーズを連続フレーズセットとするように構成されるフレーズ構成モジュールと、
    前記連続フレーズセットにおけるコンセンサスフレーズの逆文書頻度スコアを計算するように構成される計算モジュールと、
    すべての逆文書頻度スコアをランキングするように構成される単語頻度ランキングモジュールと、
    逆文書頻度スコアのランキングの高い方から低い方への順に従って、前記連続フレーズセットにおける所定数のコンセンサスフレーズを取得し、コンセンサスフレーズセットとするように構成される取得モジュールと、
    をさらに備える請求項7または8に記載の情報をプッシュするための装置。
  11. ユーザのクエリ情報を受信するように構成される受信モジュールと、
    前記クエリ情報に基づいて、請求項7~10のいずれか1項に記載の情報をプッシュするための装置によって確定されたすべてのプッシュ情報から、前記クエリ情報に関連するプッシュ情報を確定するように構成される確定モジュールと、をさらに備える請求項7または8に記載の情報をプッシュするための装置。
  12. 1つまたは複数のプロセッサと、
    1つまたは複数のプログラムが記憶される記憶装置と、を備え、
    前記1つまたは複数のプログラムは前記1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに請求項1~6のいずれか1項に記載の情報をプッシュするための方法を実現させる電子機器。
  13. プロセッサによって実行されると、請求項1~6のいずれか1項に記載の情報をプッシュするための方法を実現するコンピュータプログラムが記憶されたコンピュータ読み取り可能な記憶媒体。
  14. プロセッサにより実行されると、請求項1~6のいずれか一項に記載の情報をプッシュするための方法を実現する、コンピュータプログラム。
JP2021028846A 2020-04-01 2021-02-25 情報をプッシュするための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム Active JP7498129B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010249560.6 2020-04-01
CN202010249560.6A CN113495942B (zh) 2020-04-01 2020-04-01 推送信息的方法和装置

Publications (2)

Publication Number Publication Date
JP2021163473A JP2021163473A (ja) 2021-10-11
JP7498129B2 true JP7498129B2 (ja) 2024-06-11

Family

ID=75223082

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021028846A Active JP7498129B2 (ja) 2020-04-01 2021-02-25 情報をプッシュするための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム

Country Status (5)

Country Link
US (1) US20210311953A1 (ja)
EP (1) EP3825869A1 (ja)
JP (1) JP7498129B2 (ja)
KR (1) KR102606175B1 (ja)
CN (1) CN113495942B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113205427B (zh) * 2021-06-07 2022-09-16 广西师范大学 社交网络的下一个兴趣点的推荐方法
CN115080845A (zh) * 2022-05-27 2022-09-20 北京百度网讯科技有限公司 推荐理由的生成方法、装置、电子设备及可读存储介质
CN115103212B (zh) * 2022-06-10 2023-09-05 咪咕文化科技有限公司 弹幕展示方法、弹幕处理方法、装置及电子设备
KR102520248B1 (ko) * 2022-06-30 2023-04-10 주식회사 애자일소다 주요 구절 추출을 이용한 관련리뷰 필터링 장치 및 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258560A1 (en) 2010-04-14 2011-10-20 Microsoft Corporation Automatic gathering and distribution of testimonial content

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1272942A4 (en) * 2000-02-10 2008-09-10 Involve Technology Inc SYSTEM FOR PRODUCING AND LEADING A DATABASE OF INFORMATION USING USER REFERENCES
US7363214B2 (en) * 2003-08-08 2008-04-22 Cnet Networks, Inc. System and method for determining quality of written product reviews in an automated manner
US20050149851A1 (en) * 2003-12-31 2005-07-07 Google Inc. Generating hyperlinks and anchor text in HTML and non-HTML documents
US7853577B2 (en) * 2006-06-09 2010-12-14 Ebay Inc. Shopping context engine
US8862591B2 (en) * 2006-08-22 2014-10-14 Twitter, Inc. System and method for evaluating sentiment
US7921097B1 (en) * 2007-08-30 2011-04-05 Pranav Dandekar Systems and methods for generating a descriptive uniform resource locator (URL)
US8417713B1 (en) * 2007-12-05 2013-04-09 Google Inc. Sentiment detection as a ranking signal for reviewable entities
US8346754B2 (en) * 2008-08-19 2013-01-01 Yahoo! Inc. Generating succinct titles for web URLs
CN102411583B (zh) * 2010-09-20 2013-09-18 阿里巴巴集团控股有限公司 一种文本匹配方法及装置
US8429027B2 (en) * 2010-11-08 2013-04-23 Yahoo! Inc. Mobile-based real-time food-and-beverage recommendation system
US20140324624A1 (en) * 2011-07-12 2014-10-30 Richard Ward Wine recommendation system and method
US20130091013A1 (en) * 2011-10-07 2013-04-11 Microsoft Corporation Presenting Targeted Social Advertisements
US20130218914A1 (en) * 2012-02-20 2013-08-22 Xerox Corporation System and method for providing recommendations based on information extracted from reviewers' comments
US8515828B1 (en) * 2012-05-29 2013-08-20 Google Inc. Providing product recommendations through keyword extraction from negative reviews
US9658824B1 (en) * 2012-07-02 2017-05-23 Amazon Technologies, Inc. Extracting topics from customer review search queries
US10733194B2 (en) * 2013-03-08 2020-08-04 Warren Young Systems and methods for providing a review platform
US20140379516A1 (en) * 2013-06-19 2014-12-25 Thomson Licensing Context based recommender system
US20150186790A1 (en) * 2013-12-31 2015-07-02 Soshoma Inc. Systems and Methods for Automatic Understanding of Consumer Evaluations of Product Attributes from Consumer-Generated Reviews
US9978362B2 (en) * 2014-09-02 2018-05-22 Microsoft Technology Licensing, Llc Facet recommendations from sentiment-bearing content
CN105389329B (zh) * 2015-09-21 2019-02-12 中国人民解放军国防科学技术大学 一种基于群体评论的开源软件推荐方法
CN105488206B (zh) * 2015-12-09 2019-03-26 扬州大学 一种基于众包的安卓应用演化推荐方法
US10127619B2 (en) * 2016-03-08 2018-11-13 International Business Machines Corporation Determination of targeted food recommendation
JP7080609B2 (ja) * 2017-08-31 2022-06-06 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
CN108228867A (zh) * 2018-01-15 2018-06-29 武汉大学 一种基于观点增强的主题协同过滤推荐方法
KR102028356B1 (ko) * 2018-02-05 2019-10-04 대구대학교 산학협력단 코멘트 기반의 광고 추천 장치 및 방법
CN109360058A (zh) * 2018-10-12 2019-02-19 平安科技(深圳)有限公司 基于信任网络的推送方法、装置、计算机设备及存储介质
CN109325146B (zh) * 2018-11-12 2024-05-07 平安科技(深圳)有限公司 一种视频推荐方法、装置、存储介质和服务器
US10867338B2 (en) * 2019-01-22 2020-12-15 Capital One Services, Llc Offering automobile recommendations from generic features learned from natural language inputs
CN109885770B (zh) * 2019-02-20 2022-01-07 杭州威佩网络科技有限公司 一种信息推荐方法、装置、电子设备及存储介质
CN110334759B (zh) * 2019-06-28 2022-09-23 武汉大学 一种评论驱动的深度序列推荐方法
CN110532463A (zh) * 2019-08-06 2019-12-03 北京三快在线科技有限公司 推荐理由生成装置及方法、存储介质以及电子设备
CN110648163B (zh) * 2019-08-08 2024-03-22 中山大学 一种基于用户评论的推荐算法
CN110706064A (zh) * 2019-09-20 2020-01-17 汉海信息技术(上海)有限公司 菜品推荐信息的生成方法、装置、设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110258560A1 (en) 2010-04-14 2011-10-20 Microsoft Corporation Automatic gathering and distribution of testimonial content

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TSUR,Oren, RAPPOPORT,Ari, REVRANK:A Fully Unsupervised Algorithm for Selecting the Most Helpful Book Reviews,Proceedings of the Third International ICWSM Conference,2009年,p.154-161,[検索日:2022年6月9日],インターネット<URL:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.366.4837&rep=rep1&type=pdf>
河中 照平、井上 潮,閲覧者にとって有用性の高いWebユーザレビューランク付け手法の検討,第6回データ工学と情報マネジメントに関するフォーラム(第12回日本データベース学会年次大会)[online],日本,電子情報通信学会データ工学研究専門委員会 日本データベース学会 情報処理学会データベースシステム研究会,2014年05月03日,[検索日:2022年6月9日] インターネット<URL:http://db-event.jpn.org/deim2014/final/proceedings/B5-5.pdf>

Also Published As

Publication number Publication date
US20210311953A1 (en) 2021-10-07
CN113495942A (zh) 2021-10-12
CN113495942B (zh) 2022-07-05
KR20210046594A (ko) 2021-04-28
KR102606175B1 (ko) 2023-11-24
EP3825869A1 (en) 2021-05-26
JP2021163473A (ja) 2021-10-11

Similar Documents

Publication Publication Date Title
JP7127106B2 (ja) 質問応答処理、言語モデルの訓練方法、装置、機器および記憶媒体
JP7498129B2 (ja) 情報をプッシュするための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
US11521603B2 (en) Automatically generating conference minutes
US20210200813A1 (en) Human-machine interaction method, electronic device, and storage medium
CN116501960B (zh) 内容检索方法、装置、设备及介质
CN108009297B (zh) 基于自然语言处理的文本情感分析方法与系统
CN113051380B (zh) 信息生成方法、装置、电子设备和存储介质
CN111523019B (zh) 用于输出信息的方法、装置、设备以及存储介质
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
CN112560461A (zh) 新闻线索的生成方法、装置、电子设备及存储介质
CN115409039A (zh) 一种对标车型数据的分析方法、装置、电子设备及介质
CN111291184A (zh) 表情的推荐方法、装置、设备及存储介质
CN111385188A (zh) 对话元素的推荐方法、装置、电子设备和介质
CN113870998A (zh) 问诊方法、装置、电子设备和存储介质
CN117909560A (zh) 搜索方法、模型的训练方法、装置、设备、介质及程序产品
CN111144122A (zh) 评价处理方法、装置和计算机系统及介质
CN115577109A (zh) 文本分类方法、装置、电子设备及存储介质
CN113761111B (zh) 一种智能对话方法和装置
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN114036373B (zh) 搜索方法及装置、电子设备和存储介质
US11914844B2 (en) Automated processing and dynamic filtering of content for display
CN115374276A (zh) 情感极性确定方法、装置、设备、存储介质及程序产品
CN115080845A (zh) 推荐理由的生成方法、装置、电子设备及可读存储介质
CN115098730A (zh) 获取视频数据的方法、深度学习模型的训练方法和装置
CN117708655A (zh) 一种基于大语言模型的文化知识计算方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220909

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230315

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230315

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230324

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230328

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230824

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20230901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240318

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240530

R150 Certificate of patent or registration of utility model

Ref document number: 7498129

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150