JP2015503163A - ユーザ質問の処理方法及び処理システム - Google Patents

ユーザ質問の処理方法及び処理システム Download PDF

Info

Publication number
JP2015503163A
JP2015503163A JP2014545090A JP2014545090A JP2015503163A JP 2015503163 A JP2015503163 A JP 2015503163A JP 2014545090 A JP2014545090 A JP 2014545090A JP 2014545090 A JP2014545090 A JP 2014545090A JP 2015503163 A JP2015503163 A JP 2015503163A
Authority
JP
Japan
Prior art keywords
question
website
feature information
user
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014545090A
Other languages
English (en)
Other versions
JP5827416B2 (ja
Inventor
ワン,リャン
ヤン,ユエクィ
ヤオ,コンレイ
リゥ,チュンボ
ジャオ,フェン
グォ,シュィ
ジャン,ツゥミン
ワン,ユクゥェイ
ジョウ,ジェンシュン
Original Assignee
テンセント テクノロジー (シェンツェン) カンパニー リミテッド
テンセント テクノロジー (シェンツェン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント テクノロジー (シェンツェン) カンパニー リミテッド, テンセント テクノロジー (シェンツェン) カンパニー リミテッド filed Critical テンセント テクノロジー (シェンツェン) カンパニー リミテッド
Publication of JP2015503163A publication Critical patent/JP2015503163A/ja
Application granted granted Critical
Publication of JP5827416B2 publication Critical patent/JP5827416B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本発明実施例は、ユーザ質問の処理方法及び処理システムを提供する。当該方法は主に、ユーザの質問から第一特徴情報を抽出することと、前記第一特徴情報と、少なくとも二つのウェブサイトのうちの各ウェブサイトの第二特徴情報との間の類似度を計算することと、前記類似度に基づいて、前記質問を前記少なくとも二つのウェブサイトのうちの少なくとも一つのウェブサイトに発表することとを含む。以上の実施例の技術案は、問答サービスを提供するウェブサイトに適用でき、当該ウェブサイトは、受信したユーザ質問を、質問が関連する分野に係る他のウェブサイトに発表することで、ユーザ情報の交流範囲を拡大することができる。【選択図】図1

Description

本発明は、インターネット技術に関し、特にユーザ質問の処理方法及び処理システムに関する。
コンピュータ技術及びネットワーク技術の急速な発展に伴い、人々の的日常生活、勉強及び仕事においてインターネット(Internet)が果たす役割も大きくなってきている。人々は、インターネットを通じて情報を取得したり情報をシェアしたりすることに慣れている。例えば、多くのウェブサイトは、問答サービスを提供しており、ユーザが提出した問題を受信してこれらの問題を表示すると共に、当該問題に対する他のユーザの回答を受信する。これらウェブサイトのうち、問答サービスの提供を専門とするウェブサイトがその一部であり、総合性や専門性のフォーラムがその一部であり、一部の会社のウェブサイトがそのユーザに提供した、当該会社の製品の使用経験を交流するためのフォーラムがその一部である。
本発明実施形態の具体的な技術案は以下に示す通りである。
ユーザ質問の処理方法であって、ユーザの質問から第一特徴情報を抽出することと、前記第一特徴情報と、少なくとも二つのウェブサイトのうちの各ウェブサイトの第二特徴情報との間の類似度を計算することと、前記類似度に基づいて、前記質問を前記少なくとも二つのウェブサイトのうちの少なくとも一つのウェブサイトに発表することとを含む、ユーザ質問の処理方法。
ユーザ質問の処理システムであって、プラットフォームモジュールと拡張モジュールとを含み、そのうち、前記プラットフォームモジュールは、前記拡張モジュールを介して少なくとも二つのウェブサイトに接続され、ユーザの質問から第一特徴情報を抽出し、前記第一特徴情報と、少なくとも二つのウェブサイトのうちの各ウェブサイトの第二特徴情報との間の類似度を計算し、前記類似度に基づいて前記少なくとも二つのウェブサイトから少なくとも一つのウェブサイトを選択すると共に、前記質問を前記拡張モジュールに提供するために用いられ、前記拡張モジュールは、前記質問を前記少なくとも一つのウェブサイトに発表するために用いられる、ユーザ質問の処理システムである。
上記の技術案から分かるように、問答サービスを提供するウェブサイトに適用でき、当該ウェブサイトは、受信したユーザ質問を、質問が関連する分野に係る他のウェブサイトに発表することで、ユーザ情報の交流範囲を拡大することができる。
本発明実施例において提供された、ユーザ質問を処理する方法のフローチャートである。 本発明実施例において提供された、ユーザ質問を処理する方法のフローチャートである。 本発明実施例における、ユーザ質問を処理するシステムを示す模式的構成図である。 本発明実施形態に基づく質問質量判定方法のフローチャートである。 本発明実施形態に基づく質問質量判定システムを示す構成図である。
簡潔及び直観的に説明するため、以下、いくつかの代表的な実施例を説明することによって本発明の技術案を説明する。実施例中の大量な詳細は、本発明を理解するためのものにすぎない。本発明の技術案を実現する際、これらの詳細に限定されないことは明らかである。本発明の技術案を無駄にぼやかさないように、一部の実施形態については詳細に説明せず、枠組みのみを示した。以下の記載において、「含む」とは、「限らずに含む」をいう。「……に基づいて」とは、「……に限らずに少なくとも……に基づく」をいう。中国語の言語習慣に基づき、以下の記載において、一つの成分の数量について特に示していなかった場合、当該成分は一つであってもよく複数であってもよく、又は少なくとも一つであると理解できる。
本発明の目的、技術案及び利点をさらに明らかにするため、以下、図面を参照して本発明をさらに詳細に説明する。
図1は、本発明実施例において提供された、ユーザ質問を処理する方法のフローチャートである。当該方法は、主にステップ101、ステップ102及びステップ103を含む。
ステップ101では、ユーザの質問から第一特徴情報を抽出する。
例えば、前記質問から特徴テキスト情報と、キーワードなどのような、当該質問の属する分野、実質内容などを表せる特徴とを抽出する。
ステップ102では、前記第一特徴情報と、少なくとも二つのウェブサイトのうちの各ウェブサイトの第二特徴情報との間の類似度を計算する。
本ステップでは、主に前記質問内容と関連する他のウェブサイトを検索する。
当該ウェブサイトの第二特徴情報は、ウェブサイトの内容が属する分野などの特徴を表す情報であり、例えば、当該ウェブサイトの内容特徴情報を取得する。当該内容特徴情報は、当該ウェブサイトで発表された内容を取得し且つ処理することで得られたいくつかのキーワード、又は確定の分類であってもよく、又は、当該ウェブサイトによって設定されてもよく(上記方法を実行するウェブサイトは、約束の記憶位置から読み取り得る)、さらに、上記方法を実行するウェブサイトの管理者によって設定されてもよい。
一実施例によれば、上記類似度の計算は、前記特徴テキスト情報に基づいて、前記質問が少なくとも二つの内容分類のうちの各分類に属する確率を含む前記質問の第一モデルを取得することと、前記内容特徴情報に基づいて、前記ウェブサイトが前記少なくとも二つの内容分類のうちの各分類に属する確率を含む前記ウェブサイトの第二モデルを取得することと、前記第一モデルと前記第二モデルとの類似度を計算し、前記第一特徴情報と前記第二特徴情報との類似度とすることとを含む。
上記少なくとも二つの分類は、予め設定された分類であってもよく、当該ウェブサイトの内容から取得されたものであってもよい。例えば、前記ウェブサイトの内容特徴情報に基づいて前記少なくとも二つの分類を取得する。ここでの取得方法は色々あり、例えば、先ず当該ウェブサイトのサブフォーラム(ボード、ディスカッションエリアなどとも呼ばれる)の構成を取得し、そして各サブフォーラムの内容特徴を取得することで、各サブフォーラムの属する分類を取得する。
一実施例によれば、上記第一モデルは、以下の方法により取得することができる。すなわち、前記特徴テキスト情報に基づいて、前記質問が少なくとも二つの内容分類のうちの各分類に属する第一確率を計算し、得られた前記第一確率により第一確率ベクトルを構成して前記第一モデルとする。上記第二モデルは、以下の方法により取得することができる。すなわち、前記内容特徴情報に基づいて前記ウェブサイトが前記少なくとも二つの内容分類のうちの各分類に属する第二確率を計算し、得られた前記第二確率により第二確率ベクトルを構成して前記第二モデルとする。他の実施例では、他の方法により他の形の第一モデル、第二モデルを取得し得る。本発明は、これに対して限定せず、必要に応じて適切な実現方法を選択し得る。
ステップ103では、前記類似度に基づいて、前記質問を前記少なくとも二つのウェブサイトのうちの少なくとも一つのウェブサイトに発表する。
以上から分かるように、以上の実施例の方法は、問答サービスを提供するウェブサイトに適用することができ、当該ウェブサイトは、受信したユーザ質問を、質問が関連する分野に係る他のウェブサイトに発表することで、ユーザ情報の交流範囲を拡大することができる。
図2は、本発明実施例において提供された、ユーザ質問を処理する方法のフローチャートである。当該方法は、主にステップ201、ステップ202、ステップ203、ステップ204及びステップ205を含む。
ステップ201〜203は、上記ステップ101〜103と同様である。
ステップ204では、前記少なくとも一つのウェブサイトから、前記質問に対する回答を取得する。
ステップ205では、前記回答を前記ユーザに提供する。
当該実施例の方法によれば、ウェブサイトは、この前他のウェブサイトに発表した質問について受信した回答をローカルに読み取り、当該質問を提出したユーザに提供することができる。これにより、ユーザの質問が回答される確率が向上する。
本方法に対して色々な拡張を行うことができる。例えば、他の実施例によれば、ウェブサイトは、定期的に他のウェブサイトから、他のウェブサイトで発表された質問及びそれに対する回答をさらに読み取ることができ、このことにより、ユーザの新しい質問受信した際、先ずローカルに記憶された既存の質問−回答データから類似の質問を検索し、それに対する回答をユーザに提供することができる。ウェブサイトは、受信した、当該質問に対する回答を前記少なくとも一つのウェブサイトのうちの他のウェブサイトに発表することなどもできる。
各ウェブサイトの活発度、すなわちアクセス量、アクティブユーザ量などに差が存在することを考慮し、本発明の一実施例の方法は、前記少なくとも二つのウェブサイトのうちの各ウェブサイトでの、一定の期間内のユーザ行動総数を取得することをさらに含み、前記類似度に基づいて前記質問を前記少なくとも二つのウェブサイトのうちの少なくとも一つのウェブサイトに発表することは、前記類似度及び前記ユーザ行動総数に基づいて前記質問を前記少なくとも二つのウェブサイトのうちの少なくとも一つのウェブサイトに発表することを含む。
そのうち、ウェブサイトでの、一定の期間内のユーザ行動総数は、前記一定の期間内の当該ウェブサイトへのアクセス量、前記一定の期間内に当該ウェブサイトで発表されたユーザ質問の総数、前記期間内に当該ウェブサイトで発表されたユーザ回答の総数などであり得る。
各ウェブサイトのユーザ行動総数を取得した後、これらの値に対してさらに処理を行うことができ、例えば、後に行われる計算に使用するために、正規化処理を行う。
一実施例によれば、類似度及びユーザ行動総数基づいて、前記質問を前記少なくとも二つのウェブサイトのうちの少なくとも一つのウェブサイトに発表するステップは、前記各ウェブサイトのユーザ行動総数に対して処理を行って活発度ファクタを得ることと、各ウェブサイトの前記類似度及び前記活発度ファクタを予め設定された関数の入力パラメータとし、前記予め設定された関数の出力値を前記ウェブサイトの評価値とし、同一活発度ファクタに対して、前記類似度が高ければ、前記評価値が高くなり、同一類似度に対して、前記活発度ファクタが大きければ、前記評価値が大きくなることと、前記少なくとも二つのウェブサイトから、少なくとも一つのウェブサイトを選択し、前記少なくとも一つのウェブサイトの評価値が前記少なくとも二つのウェブサイトのうちの他のウェブサイトの評価値より高いこととを含む。
以上方法において具体的に使用される関数は、必要に応じて設定でき、例えば総和、積分、加重和などであり得る。
ユーザ質問のうちの一部が有効的な問題でない又はスパム情報であることを考慮して、本発明の一実施例において、前記第一特徴情報を抽出するステップを実行する前に、前記質問から第三特徴情報を抽出し、予め設定されたルール及び前記第三特徴情報に基づいて前記質問の質量パラメータを確定し、前記質量パラメータが予め設定されたルールを満たしているか否かを判定し、満たしている場合には、前記第一特徴情報を抽出するステップを実行し、満たしていない場合には、前記第一特徴情報を抽出するステップを実行し且つ前記質問に対する処理を終了する。
本発明の一実施例によれば、前記質問を前記少なくとも二つのウェブサイトのうちの少なくとも一つのウェブサイトに発表するステップは、前記少なくとも一つのウェブサイト中のディスカッションエリアにおいて話題を発表することを含み、そのうち、前記話題の内容は前記質問の内容である。
一実施例によれば、当該質問が発表されるディスカッションエリアを選択する方法は、前記質問から特徴テキスト情報を抽出することと、前記ウェブサイトの各ディスカッションエリアの内容の特徴情報を抽出することと、前記特徴テキスト情報及び前記特徴情報のマッチング度合に基づいて一つのディスカッションエリアを確定し、前記ディスカッションエリアにおいて前記話題を発表することとを含む。
他の実施例において、他のルールに基づいて当該質問が発表されるディスカッションエリアを選択してもよい。
図3は、本発明実施例における、ユーザ質問を処理するシステムを示す模式的構成図である。当該システム300は主に、プラットフォームモジュール301及び拡張モジュール302を含む。
前記プラットフォームモジュール301は、前記拡張モジュール302を介して少なくとも二つのウェブサイトに接続される。
前記拡張モジュールの数は一つであってもよく、複数であってもよい。図3に示すのは、複数の拡張モジュールを使用する場合であり、他の実施例では、一つの拡張モジュールを介して複数のウェブサイトに接続するようにしてもよい。
プラットフォームモジュール301、拡張モジュール302及びウェブサイトは、互いに情報を交換するように、有線又は無線の形式で各種の通信プロトコルにより接続される。
前記プラットフォームモジュール301は、ユーザの質問から第一特徴情報を抽出し、前記第一特徴情報と、少なくとも二つのウェブサイトのうちの各ウェブサイトの第二特徴情報との間の類似度を計算し、前記類似度に基づいて前記少なくとも二つのウェブサイトから少なくとも一つのウェブサイトを選択すると共に、前記質問を前記拡張モジュール302に提供するために用いられる。
前記拡張モジュール302は、前記質問を前記少なくとも一つのウェブサイトに発表するために用いられる。
一実施例によれば、前記プラットフォームモジュール301は、前記質問から特徴テキスト情報を抽出するために用いられる質問特徴抽出ユニットと、前記拡張モジュールを介して前記ウェブサイトから内容特徴情報を取得するために用いられるウェブサイト特徴抽出ユニットと、前記特徴テキスト情報に基づいて、前記質問が少なくとも二つの内容分類のうちの各分類に属する確率を含む前記質問の第一モデルを取得し、前記内容特徴情報に基づいて、前記ウェブサイトが前記少なくとも二つの内容分類のうちの各分類に属する確率を含む前記ウェブサイトの第二モデルを取得し、前記第一モデルと前記第二モデルとの類似度を計算し、前記第一特徴情報と前記第二特徴情報との類似度とするために用いられる類似度計算ユニットとを含む。
一実施例の類似度計算ユニットは、前記ウェブサイト特徴抽出ユニットにより抽出された内容特徴情報に基づいて前記少なくとも二つの分類を取得し、前記特徴テキスト情報に基づいて、前記質問が少なくとも二つの内容分類のうちの各分類に属する第一確率を計算し、得られた前記第一確率により第一確率ベクトルを構成して前記第一モデルとし、前記内容特徴情報に基づいて前記ウェブサイトが前記少なくとも二つの内容分類のうちの各分類に属する第二確率を計算し、得られた前記第一確率により第二確率ベクトルを構成して前記第二モデルとするために用いられる。
一実施例のプラットフォームモジュールは、前記少なくとも二つのウェブサイトのうちの各ウェブサイトでの、一定の期間内のユーザ行動総数を取得するために用いられるウェブサイト統計情報取得ユニットをさらに含み、この場合、前記類似度計算ユニットは、前記類似度及び前記ユーザ行動総数に基づいて前記質問を前記少なくとも二つのウェブサイトのうちの少なくとも一つのウェブサイトに発表するために用いられる。
そのうち、前記ウェブサイト統計情報取得ユニットは、第一取得ユニット、第二取得ユニット及び第三取得ユニットのうちの一つ又は複数を含む。
第一取得ユニットは、前記一定の期間内の各ウェブサイトへのアクセス量を取得するために用いられる。
第二取得ユニットは、前記一定の期間内に各ウェブサイトで発表されたユーザ質問の総数を取得するために用いられる。
第三取得ユニットは、前記期間内に各ウェブサイトで発表されたユーザ回答の総数を取得するために用いられる。
一実施例において、類似度計算ユニットは、前記各ウェブサイトのユーザ行動総数に対して処理を行って活発度ファクタを得て、各ウェブサイトの前記類似度及び前記活発度ファクタを予め設定された関数の入力パラメータとし、前記予め設定された関数の出力値を前記ウェブサイトの評価値とし、そのうち、同一活発度ファクタに対して、前記類似度が高ければ、前記評価値が高くなり、同一類似度に対して、前記活発度ファクタが大きければ、前記評価値が大きくなること、前記少なくとも二つのウェブサイトから、少なくとも一つのウェブサイトを選択し、そのうち、前記少なくとも一つのウェブサイトの評価値が前記少なくとも二つのウェブサイトのうちの他のウェブサイトの評価値より高いことのために用いられる。
一実施例の前記プラットフォームモジュールは、前記第一特徴情報を抽出するステップを実行する前に、前記質問から第三特徴情報を抽出し、予め設定されたルール及び前記第三特徴情報に基づいて前記質問の質量パラメータを確定し、前記質量パラメータが予め設定されたルールを満たしているか否かを判定し、満たしている場合には、前記質問を前記質問特徴抽出ユニットに提供し、満たしていない場合には、前記質問を前記質問特徴抽出ユニットに提供しないと共に、前記質問に対する処理を終了するために用いられる質問評価ユニットをさらに含む。
前記拡張モジュールは、独立の設備であってもよく、前記少なくとも二つのウェブサイトのハード設備に設置される装置であってもよく、前記ウェブサイトに設置されるブラグインであってもよい。
一実施例において、前記拡張モジュールは、前記少なくとも一つのウェブサイト中のディスカッションエリアにおいて話題を発表するために用いられ、そのうち、前記話題の内容は前記質問の内容である。
前記質問を発表する際、前記プラットフォームモジュールは、前記質問から特徴テキスト情報を抽出し、前記ウェブサイトの各ディスカッションエリアの内容の特徴情報を抽出し、前記特徴テキスト情報及び前記特徴情報のマッチング度合に基づいてディスカッションエリアを確定し、そして前記ディスカッションエリアにおいて前記話題を発表するように拡張モジュールに命令を送信する。
一実施例によれば、前記拡張モジュールは、前記少なくとも一つのウェブサイトから、前記質問に対する回答を取得すると共に、前記回答を前記プラットフォームモジュールに提供するためにさらに用いられ、前記プラットフォームモジュールは、前記回答を前記ユーザに提供するためにさらに用いられる。
一実施例においてシステムが提供され(オープンな通信インターフェースが提供される。よって、以下の記載においてオープンプラットフォームとも呼ばれる)、当該システムは、拡張モジュールを介して複数のウェブサイト(問答サービスを提供するウェブサイトのことであり、問答サイト、回答サイトとも呼ばれる)に接続される。当該システムに接続するサイトの間に区別が存在する特徴に応じて、質問に基づいた質問質量評価案が提供され、異なるサイトに対して、質問及びウェブサイトに質量採点を行うことが実現される。ここでの質量とは、当該質問が(あるウェブサイトにおいて)回答される確率をいう。
一実施形態は、質問の質問質量評価案を提供し、当該質問質量評価案では、特定ユーザ特徴(例えばユーザに対する描写、質問するユーザの個人ファイルなどの情報)を使用する必要がない、又は使用することをなるべく控える。
図4は、本発明実施形態に基づく質問質量判定方法のフローチャートである。図4に示すように、当該方法はステップ401、ステップ402及びステップ403を含む。
ステップ401では、ユーザ質問からユーザ質問特徴を抽取すると共に、ユーザ質問特徴から当該ユーザ質問の基礎質量指数を確定する。
ここでは、ユーザ質問特徴から当該ユーザ質問の基礎質量指数を確定することは、具体的に、タグされたコーパスを収集し、コーパス用特徴(特徴値又は特徴ベクトルなど)を表してトレーニングモデルを作成することと、ユーザ質問特徴を当該トレーニングモデルに適用して当該ユーザ質問の基礎質量指数を確定することとを含む。
ステップ402では、システム中のウェブサイトの特徴を確定すると共に、ユーザ質問特徴及び前記ウェブサイト特徴のマッチング度合に基づいてユーザ質問と各ウェブサイトとのマッチング指数を取得する。
一実施形態では、先ずユーザ質問特徴に基づいてユーザ質問モデルを確定し、ウェブサイト特徴に基づいてウェブサイトモデルを確定し、そしてユーザ質問モデルとウェブサイトモデルとの間のコサイン距離を計算し、さらに当該コサイン距離と当該ウェブサイトの活発度とを相乘させ、ユーザ質問と当該ウェブサイトとのマッチング指数とする。
ステップ403では、当該ユーザ質問の基礎質量指数、及び当該ユーザ質問と各ウェブサイトとのマッチング指数から、当該ユーザ質問に対して各ウェブサイトの質量指数を確定する。
一実施例では、当該ユーザ質問の基礎質量指数、及び当該ユーザ質問と各ウェブサイトとのマッチング指数に対して線形加重をかけることで、当該ユーザ質問に対して各ウェブサイトの質量指数を確定する。
一実施例において、当該方法は、当該ユーザ質問に対して質量指数が最も高いウェブサイトに当該ユーザ質問をさらに配布することを更に含む。
以下、具体的な実施例を参照して本発明実施形態をさらに詳細に説明する。
上記システムの特徴について、本発明実施形態では、ある質問の質問質量を当該質問が回答される確率であると定義する。実際に、具体的な質問質量採点は二部分から構成され、一つは質問自体の基礎質量採点(すなわち当該ユーザ質問の基礎質量指数)であり、もう一つは具体的な質問問題と異なるウェブサイトとのマッチング度合得点(すなわちユーザ質問と各ウェブサイトとのマッチング指数)であり、最終的な得点は、二つの採点の線形加重である(すなわち当該ユーザ質問に対して各ウェブサイトの質量指数である)。
質問に対する基礎質量採点では、主に問題自体の明瞭性などの基礎特性を判断する。当該得点により、伝統的な自動分類方法を用いて質問を「よい」及び「悪い」の二つの種類に分類することができる。
自動分類方法は、一般にトレーニングと予測との二つの過程に分かれる。トレーニング過程では、先ずは分類系統に対応する大規模のタグ付きコーパスを収集し、そして特徴方法により表してモデルを作成し、分類器を形成する。予測過程では、新しい質問を特徴により表して分類器に入力し、最終的に類別を出力する。
コーパスのタグに関しては、予め設定された基準に基づいて、質問が高質量質問であるか否かを判定する必要がある。質量が高い問題は、説明が明確であり、ニュアンスが比較的丁寧であり、且つ好ましくない内容を含まないというものである。評価する過程において、質問はすべての基本ルールと、少なくとも一つ以上の誘引力ルールを満たさなければならない。
例えば、基本ルールは、意味のない内容を含まない、言語が明確である、誤字がないなどである。誘引力ルールは、ニーズが明確である、内容が広大な民衆に適用できる、類似の質問の数が多いなどである。
反例として予想される特徴は、問題として成り立たない、あまりにも主観的である、範囲が広すぎる、誤字がある、理解しにくい符号があるなどである。
ひとまとまりの特徴を作って質問を描写ことができる。質問のテキストタイトルしかないため、例えば長さ、ホットワードであるか否かなどの特性のような、テキスト自体の色々な性質を利用する。具体的な特徴設定は下記表1に示す通りである。
表1は、質問質量基礎採点において使用される特徴表である。
表1
伝統的な自動分類方法を用いて、データをトレーニングしてモデルを生成する。生成された自動分類器をその他のタグされていないデータに適用すれば、質問データを「よい」及び「悪い」の二つの類別に分類することができる。
一実施例において、最終的な質問基礎質量採点は、分類状況に基づいて行われ、例えば「よい」である問題を0.8点とし、「悪い」である問題を0.2点とする。
すなわち、質問(question)の基礎質量採点は以下に示す通りである。
questionが「悪い」に分類された問題の場合、QuestionScore(question)=0.2。
questionが「よい」に分類された問題の場合、QuestionScore(question)=0.8。
上記において質問自体の基礎質量採点(すなわち当該ユーザ質問の基礎質量指数)を計算する方法を詳細に説明した。以下、具体的な質問問題と異なるウェブサイトとのマッチング度合得点(すなわちユーザ質問と各ウェブサイトとのマッチング指数)を計算する方法を説明する。
具体地には、質問とウェブサイトとのマッチング度合を判断するために、質問及びウェブサイトに同一のモデル描写を与える必要がある。本発明実施形態は、分類の方法により質問及びウェブサイトモデルを構成する。n個の分類があれば、語句及びサイトのモデルはn次元のベクトルであり、そのベクトルの各エレメントは質問又はウェブサイトが各分類に属する確率である。
質問のモデルは以下に示す通りである。P(question)= P (x1,x2,…,xn)。そのうちx1,x2,…,xnのそれぞれは、当該質問がサイト中の既存性質分類に属する確率である。
サイトのモデルは以下に示す通りである。P(site)= P (y1,y2,…,yn)。そのうちy1,y2,…,ynのそれぞれは、サイト中の既存投稿の確率分類である。
質問モデルの計算方法は、主にテキスト自動分類の方法を利用し、例えばナイブベイズ又はロジスティック回帰などの方法によってテキストの自動分類を行って分類確率を得る。
ウェブサイトモデルの計算方法は、主にサイト中の問題分類比に基づいて、サイトの分類確率ベクトルを計算する。例えばスポーツとデジタルテクノロジとの二つの類別を設置し、サイト中において、スポーツ類質問が20個あり、提出されたデジタルテクノロジ類質問が80個ある場合、サイトモデルは、(pスポーツ,pデジタルテクノロジ)=(0.2,0.8)となる。ある質問の分類判定は具体的にテキスト自動分類の方法によって行われる。
質問とサイトとのマッチング度合に関しては、質問の分類確率モデルとサイトの分類確率モデルとの間の類似度を計算すればよく、類似度(Similarity)の計算は、一般にコサイン距離を用いることができる。具体的には、以下のように表される。
Similarity = sim(P(question),P(site))=cos<P(question),P(site)>
以下、簡単な例を挙げてマッチング度合得点の計算方法を説明する。
例えば、あるサイトがsite1と標記され、このサイトは主にノートパソコンの性能に関するフォーラムであり、質問投稿が100個あってそのうちノートパソコンの製品に関する質問投稿が90個あり、ゲーム問題に関する投稿が10個ある場合、サイトモデルは以下に示す通りである。
P(site1)=P(ノートパソコン,ゲーム)=(90/100,10/100)=(0.9,0.1)
質問が三つあるとして、それぞれがquestion1、question2及びquestion3である。
question1=「最近、レノボ(Lenovo)に何かいいノートパソコン製品がありますか?」。
question2=「レノボY470Nでワールド オブ ウォークラフト(World of Warcraft)を実行する際にはなぜこんなにもラグが起きるのか?」。
question3=「今日の北京の天気はどうですか?」。
テキストの自動分類状況に基づいて、以下のように各質問のモデルが得られる。
P(question1)=P(ノートパソコン,ゲーム)=(1,0)。
P(question2)=P(ノートパソコン,ゲーム)=(0.5,0.5)。
P(question3)=P(ノートパソコン,ゲーム)= (0,0)。
そして、三つの問題のそれぞれとサイトとのマッチング度合を計算することができる。ここでは、コサイン距離(類似度)を用いて計算する。
question1とsite1とのマッチング度合は以下に示す通りである。
sim(P(question1),P(site1))=cos<(1,0),(0.9,0.1)>=
[(1*0.9)+(0*0.1)]/[sqrt(1*1+0*0)*sqrt(0.9*0.9+0.1*0.1)]=0.9939
そのうちsqrtは、乗根を求める計算を示す。
同じように、question2とsite1とのマッチング度合として0.7809が得られ、question3とsite1とのマッチング度合として0が得られる。
規模が比較的大きいサイトでは、毎日に回答される問題は数十万個にも及ぶかもしれないが、いくつか小さなサイトでは、毎日に回答される問題は数十個しかないかもしれない。したがって、ある問題とあるサイトのマッチング度合が非常に高くても、サイトがあまりにも小さい場合では、当該サイトに提出された問題が回答される可能性は依然として非常に低い。
このため、一実施形態では、サイトの活発度指数を導入し、主にサイトの活発度を判断する。当該指数は、主にサイトにおいて毎日に提出された問題数から判定され、そして、当該数値に対して正規化処理を行う。具体的な方法は以下に示す通りである。
システムに接続されるすべてのサイトの毎日の質問量をMとし、あるサイトの質問量をNとする場合、当該サイトの活発度指数をN/Mであると定義する。
Liveness=N/M
質問とサイトとの最終的なマッチング得点は、マッチング度合と活発度との相乗積であり、すなわち以下に示す通りである。
SiteScore(question,site)= Similarity* Liveness
質問の最終的な得点は、質問の基礎質量得点とサイトマッチング得点との加重である。本発明実施形態では、線形加重の形を用いることが好ましく、すなわち一つのサイト(site)において一つの質問(question)の最終的な得点は、以下に示す通りである。
FinalScore(question,site)=a*QuestionScore(question)+(-a)*SiteScore(question,site)。
そのうちaは、0<a<1とし、主に質問の基礎質量採点とサイトマッチング得点との加重の判断に用いられ、例えば経験に基づいて0.6とすることができる。
一つの問題に対して、最終的に得られたのは、異なるサイトにおける当該問題の「質量得点」リストである。最後には、当該ユーザの質問を、当該ユーザ質問に対して質量指数がもっとも高いサイトに配布する。
上記の実現方法において、もっと詳しい質問情報(例えば問題の描写などの情報)があれば、質問基礎質量の点数の計算において使用される特徴の数を拡充することで、採点の精度をさらに高めることができる。上記本発明実施形態において、サイトの描写については分類確率モデルが用いられる。実際には、本発明実施形態において他の形でサイトを描写してもよく、例えば多層分類の形により、サイトをさらに細かい類別に分類してもよい。他の形を用いる場合、問題とサイトとのマッチング度合を計算するために、質問は同様な描写を有する必要がある。
上記詳細な分析に基づいて、一つの実施形態では、質問質量判定システムをさらに提供する。
図5に示すように、当該システムは、基礎質量指数確定ユニット501、マッチング指数確定ユニット502及び質量指数確定ユニット503を含む。
基礎質量指数確定ユニット501は、ユーザ質問からユーザ質問特徴を抽取すると共に、前記ユーザ質問特徴から当該ユーザ質問の基礎質量指数を確定するために用いられる。
マッチング指数確定ユニット502は、各サイトの特徴を確定すると共に、ユーザ質問特徴及び前記サイト特徴のマッチング度合に基づいてユーザ質問と各サイトとのマッチング指数を取得するために用いられる。
質量指数確定ユニット503は、当該ユーザ質問の基礎質量指数、及び当該ユーザ質問と各サイトとのマッチング指数から、当該ユーザ質問に対して各サイトの質量指数を確定するために用いられる。
一実施形態において、当該システムは、当該ユーザ質問に対して質量指数が最も高いサイトに当該ユーザ質問を配布するために用いられるユーザ質問配布ユニット504をさらに含む。
具体的には、基礎質量指数確定ユニット501は、タグ付きコーパスを収集し、前記タグ付きコーパス用特徴を表してトレーニングモデルを作成し、そして前記ユーザ質問特徴を当該トレーニングモデルに適用して当該ユーザ質問の基礎質量指数を確定するために用いられる。マッチング指数確定ユニット502は、ユーザ質問特徴に基づいてユーザ質問モデルを確定し、サイト特徴に基づいてサイトモデルを確定し、そしてユーザ質問モデルとサイトモデルとの間のコサイン距離を計算し、且つ当該コサイン距離と当該サイトの活発度とを相乘させ、ユーザ質問と当該ウェブサイトとのマッチング指数とするために用いられる。
一実施形態において、マッチング指数確定ユニット502は、ナイブベイズ又はロジスティック回帰方法に基づいてユーザ質問モデルを計算する。
上記実施形態において、先ずユーザ質問からユーザ質問特徴を抽取すると共に、ユーザ質問特徴から当該ユーザ質問の基礎質量指数を確定、そしてサイトの特徴を確定すると共に、ユーザ質問特徴及びサイト特徴のマッチング度合に基づいてユーザ質問と各サイトとのマッチング指数を取得し、その後、当該ユーザ質問の基礎質量指数、及び当該ユーザ質問と各サイトとのマッチング指数から、当該ユーザ質問に対して各サイトの質量指数を確定する。このことから分かるように、本発明実施形態によれば、サイトの違いに基づいて、各質問及びサイトに対して正確な質量採点を行うことができる。サイトが厳密に区分され、質問は適切なサイトに正確に配布されるため、質問質量の判定正確率が向上し、質問が回答される確率が明らかに向上する。
各実施例におけるハードウェアモジュールを機械式又は電子式的に実現することができる。例えば、特定の操作を行うために、一つのハードウェアモジュールには、専用的に設計された永久的な回路又はロジックユニット(例えばFPGAやASICのような専用プロセッサ)が含まれてもよい。ハードウェアモジュールには、特定の操作を実行するために、ソフトウェアにより仮配置したプログラマブルロジックユニットや回路が含まれてもよい(例えば汎用プロセッサやその他プログラマブルプロセッサが含まれる)。ハードウェアモジュールを実現するのに機械式を用いるか、専用の永久的な回路を用いるか、又は仮配置した回路(例えばソフトウェアによる配置)を用いるかは、コスト及び時間を考慮して決定し得る。
本発明は、本明細書上記のユーザ質問の処理方法を機器に実行させるための命令が記憶された機械読み取り可能な記憶媒体をさらに提供する。具体的には、記憶媒体が配置されたシステム又は装置を提供し、当該記憶媒体には、上述した実施例のうちいずれの実施例の機能を実現するソフトウェアプログラムコードが記憶され、当該システム又は装置のコンピュータ(又はCPU、MPU)により、記憶媒体に記憶されたプログラムコードを読み出して実行する。
この場合では、記憶媒体から読み出されたプログラムコード自体は、上述した実施例のうちいずれの実施例の機能を実現できるため、プログラムコード及びプログラムコードを記憶する記憶媒体により本発明の一部が構成される。
プログラムコードの提供に用いられる記憶媒体の実施例として、磁気ディスク、ハードディスク、光磁気ディスク、光ディスク(例えばCD―ROM、CD―R、CD―RW、DVD―ROM、DVD―RAM、DVD―RW、DVD+RW)、磁気テープ、不揮発性メモリーカード及びROMなどがある。選択的に、通信ネットワークを介してサーバーコンピュータからプログラムコードをダウンロードしてもよい。
また、コンピュータが読み出したプログラムコードを実行するのみならず、プログラムコードの命令に基づいて、コンピュータで操作される操作システムなどに一部又は全部の実際の操作を完成させることにより、上述した実施例のうちいずれの実施例の機能を実現できることは明らかである。
また、記憶媒体から読み出したプログラムコードを、コンピュータ内に挿入された拡張ボードに設置された記憶装置に書き込み、又はコンピュータに接続された拡張ユニットに設置された記憶装置に書き込み、その後プログラムコードの命令に基づいて、拡張ボード又は拡張ユニットに設置されたCPUなどに一部又は全部の実際の操作を実行させることで、上述した実施例のうちいずれの実施例の機能を実現できることは理解される。
上述したように、請求の範囲は、以上説明した例のうちの実施形態に限らず、明細書を一体的に考慮し且つ最も広い解釈を与えるべきである。

Claims (20)

  1. ユーザ質問の処理方法であって、
    ユーザの質問から第一特徴情報を抽出することと、
    前記第一特徴情報と、少なくとも二つのウェブサイトのうちの各ウェブサイトの第二特徴情報との間の類似度を計算することと、
    前記類似度に基づいて、前記質問を前記少なくとも二つのウェブサイトのうちの少なくとも一つのウェブサイトに発表することとを含む、ユーザ質問の処理方法。
  2. 前記ユーザの質問から第一特徴情報を抽出することは、
    前記質問から特徴テキスト情報を抽出することを含み、
    前記第一特徴情報と各ウェブサイトの第二特徴情報との間の類似度を計算することは、
    前記ウェブサイトの内容特徴情報を取得することと、
    前記特徴テキスト情報に基づいて、前記質問が少なくとも二つの内容分類のうちの各分類に属する確率を含む前記質問の第一モデルを取得することと、
    前記内容特徴情報に基づいて、前記ウェブサイトが前記少なくとも二つの内容分類のうちの各分類に属する確率を含む前記ウェブサイトの第二モデルを取得することと、
    前記第一モデルと前記第二モデルとの類似度を計算し、前記第一特徴情報と前記第二特徴情報との類似度とすることとを含む、請求項1に記載の方法。
  3. 前記特徴テキスト情報に基づいて前記質問の第一モデルを取得すること、及び前記内容特徴情報に基づいて前記ウェブサイトの第二モデルを取得することは、
    前記内容特徴情報に基づいて前記少なくとも二つの分類を取得することと、
    前記特徴テキスト情報に基づいて、前記質問が少なくとも二つの内容分類のうちの各分類に属する第一確率を計算し、得られた前記第一確率により第一確率ベクトルを構成して前記第一モデルとすることと、
    前記内容特徴情報に基づいて前記ウェブサイトが前記少なくとも二つの内容分類のうちの各分類に属する第二確率を計算し、得られた前記第一確率により第二確率ベクトルを構成して前記第二モデルとすることとを含む、請求項2に記載の方法。
  4. 前記少なくとも二つのウェブサイトのうちの各ウェブサイトでの、一定の期間内のユーザ行動総数を取得することをさらに含み、
    前記類似度に基づいて前記質問を前記少なくとも二つのウェブサイトのうちの少なくとも一つのウェブサイトに発表することは、
    前記類似度及び前記ユーザ行動総数に基づいて前記質問を前記少なくとも二つのウェブサイトのうちの少なくとも一つのウェブサイトに発表することを含む、請求項1に記載の方法。
  5. 前記少なくとも二つのウェブサイトのうちの各ウェブサイトでの、一定の期間内のユーザ行動総数を取得することは、
    前記一定の期間内の各ウェブサイトへのアクセス量を取得すること、
    前記一定の期間内に各ウェブサイトで発表されたユーザ質問の総数を取得すること、及び
    前記期間内に各ウェブサイトで発表されたユーザ回答の総数を取得することのうちの一つを含む、請求項4に記載の方法。
  6. 前記類似度及びユーザ行動総数に基づいて前記質問を前記少なくとも二つのウェブサイトのうちの少なくとも一つのウェブサイトに発表することは、
    前記各ウェブサイトのユーザ行動総数に対して処理を行って活発度ファクタを得ることと、
    各ウェブサイトの前記類似度及び前記活発度ファクタを予め設定された関数の入力パラメータとし、前記予め設定された関数の出力値を前記ウェブサイトの評価値とし、そのうち、同一活発度ファクタに対して、前記類似度が高ければ、前記評価値が高くなり、同一類似度に対して、前記活発度ファクタが大きければ、前記評価値が大きくなることと、
    前記少なくとも二つのウェブサイトから、少なくとも一つのウェブサイトを選択し、そのうち、前記少なくとも一つのウェブサイトの評価値が前記少なくとも二つのウェブサイトのうちの他のウェブサイトの評価値より高いこととを含む、請求項4に記載の方法。
  7. 前記第一特徴情報を抽出するステップを実行する前に、前記質問から第三特徴情報を抽出することと、
    予め設定されたルール及び前記第三特徴情報に基づいて前記質問の質量パラメータを確定することと、
    前記質量パラメータが予め設定されたルールを満たしているか否かを判定し、満たしている場合には、前記第一特徴情報を抽出するステップを実行し、満たしていない場合には、前記第一特徴情報を抽出するステップを実行し且つ前記質問に対する処理を終了することとを含む、請求項1に記載の方法。
  8. 前記質問を前記少なくとも二つのウェブサイトのうちの少なくとも一つのウェブサイトに発表することは、
    前記少なくとも一つのウェブサイト中のディスカッションエリアにおいて話題を発表することを含み、そのうち、前記話題の内容は前記質問の内容である、請求項1に記載の方法。
  9. 前記少なくとも一つのウェブサイト中のディスカッションエリアにおいて話題を発表することは、
    前記質問から特徴テキスト情報を抽出することと、
    前記ウェブサイトの各ディスカッションエリアの内容の特徴情報を抽出することと、
    前記特徴テキスト情報及び前記特徴情報のマッチング度合に基づいて一つのディスカッションエリアを確定し、前記ディスカッションエリアにおいて前記話題を発表することとを含む、請求項1に記載の方法。
  10. 前記少なくとも一つのウェブサイトから、前記質問に対する回答を取得することと、
    前記回答を前記ユーザに提供することとをさらに含む、請求項1に記載の方法。
  11. ユーザ質問の処理システムであって、プラットフォームモジュールと拡張モジュールとを含み、そのうち、
    前記プラットフォームモジュールは、前記拡張モジュールを介して少なくとも二つのウェブサイトに接続され、ユーザの質問から第一特徴情報を抽出し、前記第一特徴情報と、少なくとも二つのウェブサイトのうちの各ウェブサイトの第二特徴情報との間の類似度を計算し、前記類似度に基づいて前記少なくとも二つのウェブサイトから少なくとも一つのウェブサイトを選択すると共に、前記質問を前記拡張モジュールに提供するために用いられ、
    前記拡張モジュールは、前記質問を前記少なくとも一つのウェブサイトに発表するために用いられる、ユーザ質問の処理システムである。
  12. 前記プラットフォームモジュールは、
    前記質問から特徴テキスト情報を抽出するために用いられる質問特徴抽出ユニットと、
    前記拡張モジュールを介して前記ウェブサイトの内容特徴情報を取得するために用いられるウェブサイト特徴抽出ユニットと、
    前記特徴テキスト情報に基づいて、前記質問が少なくとも二つの内容分類のうちの各分類に属する確率を含む前記質問の第一モデルを取得し、前記内容特徴情報に基づいて、前記ウェブサイトが前記少なくとも二つの内容分類のうちの各分類に属する確率を含む前記ウェブサイトの第二モデルを取得し、前記第一モデルと前記第二モデルとの類似度を計算し、前記第一特徴情報と前記第二特徴情報との類似度とするために用いられる類似度計算ユニットとを含む、請求項11に記載のシステム。
  13. 前記類似度計算ユニットは、前記ウェブサイト特徴抽出ユニットにより抽出された内容特徴情報に基づいて前記少なくとも二つの分類を取得し、前記特徴テキスト情報に基づいて、前記質問が少なくとも二つの内容分類のうちの各分類に属する第一確率を計算し、得られた前記第一確率により第一確率ベクトルを構成して前記第一モデルとし、前記内容特徴情報に基づいて前記ウェブサイトが前記少なくとも二つの内容分類のうちの各分類に属する第二確率を計算し、得られた前記第一確率により第二確率ベクトルを構成して前記第二モデルとするために用いられる、請求項12に記載のシステム。
  14. 前記プラットフォームモジュールは、
    前記少なくとも二つのウェブサイトのうちの各ウェブサイトでの、一定の期間内のユーザ行動総数を取得するためにさらに用いられ、
    前記類似度に基づいて前記質問を前記少なくとも二つのウェブサイトのうちの少なくとも一つのウェブサイトに発表することは、
    前記類似度及び前記ユーザ行動総数に基づいて前記質問を前記少なくとも二つのウェブサイトのうちの少なくとも一つのウェブサイトに発表することを含む、請求項11に記載のシステム。
  15. 前記プラットフォームモジュールは、
    前記一定の期間内の各ウェブサイトへのアクセス量を取得するために用いられる第一取得ユニット、
    前記一定の期間内に各ウェブサイトで発表されたユーザ質問の総数を取得するために用いられる第二取得ユニット、及び
    前記一定の期間内に各ウェブサイトで発表されたユーザ回答の総数を取得するために用いられる第三取得ユニットのうちの一つを含む、請求項14に記載のシステム。
  16. 前記プラットフォームモジュールは、
    前記各ウェブサイトのユーザ行動総数に対して処理を行って活発度ファクタを得て、
    各ウェブサイトの前記類似度及び前記活発度ファクタを予め設定された関数の入力パラメータとし、前記予め設定された関数の出力値を前記ウェブサイトの評価値とし、そのうち、同一活発度ファクタに対して、前記類似度が高ければ、前記評価値が高くなり、同一類似度に対して、前記活発度ファクタが大きければ、前記評価値が大きくなること、
    前記少なくとも二つのウェブサイトから、少なくとも一つのウェブサイトを選択し、そのうち、前記少なくとも一つのウェブサイトの評価値が前記少なくとも二つのウェブサイトのうちの他のウェブサイトの評価値より高いことのために用いられる、請求項14に記載のシステム。
  17. 前記プラットフォームモジュールは、
    前記第一特徴情報を抽出するステップを実行する前に、前記質問から第三特徴情報を抽出し、
    予め設定されたルール及び前記第三特徴情報に基づいて前記質問の質量パラメータを確定し、
    前記質量パラメータが予め設定されたルールを満たしているか否かを判定し、満たしている場合には、前記第一特徴情報を抽出するステップを実行し、満たしていない場合には、前記第一特徴情報を抽出するステップを実行し且つ前記質問に対する処理を終了するためにさらに用いられる、請求項11に記載のシステム。
  18. 前記拡張モジュールは、
    前記少なくとも一つのウェブサイト中のディスカッションエリアにおいて話題を発表するために用いられ、そのうち、前記話題の内容は前記質問の内容である、請求項11に記載のシステム。
  19. 前記プラットフォームモジュールは、
    前記質問から特徴テキスト情報を抽出し、
    前記ウェブサイトの各ディスカッションエリアの内容の特徴情報を抽出し、
    前記特徴テキスト情報及び前記特徴情報のマッチング度合に基づいて一つのディスカッションエリアを確定し、
    前記ディスカッションエリアにおいて前記話題を発表するように前記拡張モジュールに命令を送信する、請求項11に記載のシステム。
  20. 前記拡張モジュールは、前記少なくとも一つのウェブサイトから、前記質問に対する回答を取得すると共に、前記回答を前記プラットフォームモジュールに提供するためにさらに用いられ、
    前記プラットフォームモジュールは、前記回答を前記ユーザに提供するためにさらに用いられる、請求項11に記載のシステム。
JP2014545090A 2012-01-18 2013-01-16 ユーザ質問の処理方法及び処理システム Active JP5827416B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210015745.6A CN103218356B (zh) 2012-01-18 2012-01-18 一种面向开放平台的提问质量判定方法和系统
CN201210015745.6 2012-01-18
PCT/CN2013/070537 WO2013107345A1 (zh) 2012-01-18 2013-01-16 一种处理用户提问的方法和系统

Publications (2)

Publication Number Publication Date
JP2015503163A true JP2015503163A (ja) 2015-01-29
JP5827416B2 JP5827416B2 (ja) 2015-12-02

Family

ID=48798630

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014545090A Active JP5827416B2 (ja) 2012-01-18 2013-01-16 ユーザ質問の処理方法及び処理システム

Country Status (5)

Country Link
US (1) US9223775B2 (ja)
JP (1) JP5827416B2 (ja)
KR (1) KR101623052B1 (ja)
CN (1) CN103218356B (ja)
WO (1) WO2013107345A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744881B (zh) 2013-12-20 2018-09-04 百度在线网络技术(北京)有限公司 一种问答平台的问题分发方法和问题分发系统
CN103714488A (zh) * 2014-01-03 2014-04-09 无锡清华信息科学与技术国家实验室物联网技术中心 社会网络中问答平台的优化方法
US9633309B2 (en) * 2014-06-19 2017-04-25 International Business Machines Corporation Displaying quality of question being asked a question answering system
US20160103861A1 (en) * 2014-10-10 2016-04-14 OnPage.org GmbH Method and system for establishing a performance index of websites
CN106469169A (zh) 2015-08-19 2017-03-01 阿里巴巴集团控股有限公司 信息处理方法及装置
US9858336B2 (en) * 2016-01-05 2018-01-02 International Business Machines Corporation Readability awareness in natural language processing systems
US9910912B2 (en) 2016-01-05 2018-03-06 International Business Machines Corporation Readability awareness in natural language processing systems
CN106888201A (zh) 2016-08-31 2017-06-23 阿里巴巴集团控股有限公司 一种校验方法及装置
CN106484664B (zh) * 2016-10-21 2019-03-01 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
CN106991084B (zh) * 2017-03-28 2020-10-13 中国长城科技集团股份有限公司 一种文档评估方法及装置
CN108733712B (zh) * 2017-04-21 2021-03-30 北京京东尚科信息技术有限公司 一种问答系统评价方法和装置
US10467640B2 (en) 2017-11-29 2019-11-05 Qualtrics, Llc Collecting and analyzing electronic survey responses including user-composed text
CN109446310B (zh) * 2018-10-30 2020-11-03 腾讯科技(武汉)有限公司 一种问句模板的质量评估方法、装置及存储介质
KR102100214B1 (ko) * 2019-07-16 2020-04-13 주식회사 제이케이엘컴퍼니 음성 인식 기반의 세일즈 대화 분석 방법 및 장치
CN112309398B (zh) * 2020-09-30 2024-07-05 音数汇元(上海)智能科技有限公司 工作时长监控方法、装置、电子设备和存储介质
CN114117022B (zh) * 2022-01-26 2022-05-06 杭州远传新业科技有限公司 一种faq相似问题生成方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188802A (ja) * 1999-11-22 2001-07-10 Nec Corp 情報検索装置及び情報検索方法
JP2006331070A (ja) * 2005-05-26 2006-12-07 Ntt Docomo Inc コミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法
JP2012003589A (ja) * 2010-06-18 2012-01-05 Konica Minolta Business Technologies Inc コンテンツ収集装置、コンテンツ収集方法およびコンテンツ収集プログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6941321B2 (en) * 1999-01-26 2005-09-06 Xerox Corporation System and method for identifying similarities among objects in a collection
US7873624B2 (en) * 2005-10-21 2011-01-18 Microsoft Corporation Question answering over structured content on the web
US7571145B2 (en) * 2006-10-18 2009-08-04 Yahoo! Inc. Social knowledge system content quality
CN101169842A (zh) * 2007-08-11 2008-04-30 腾讯科技(深圳)有限公司 广告管理方法、广告计费方法及广告系统
CN101414296B (zh) 2007-10-15 2012-07-25 日电(中国)有限公司 自适应服务推荐设备及方法、自适应服务推荐系统及方法
CN101232468A (zh) * 2008-02-28 2008-07-30 黄伟才 问答方法及问答系统
CN101639837B (zh) * 2008-07-29 2012-10-24 日电(中国)有限公司 用于自动分类对象的方法和系统
US8407042B2 (en) * 2008-12-09 2013-03-26 Xerox Corporation Cross language tool for question answering
CN101441660A (zh) * 2008-12-16 2009-05-27 腾讯科技(深圳)有限公司 问答社区内知识评价系统及方法
US8346701B2 (en) * 2009-01-23 2013-01-01 Microsoft Corporation Answer ranking in community question-answering sites
US20100235343A1 (en) * 2009-03-13 2010-09-16 Microsoft Corporation Predicting Interestingness of Questions in Community Question Answering
CN101520802A (zh) * 2009-04-13 2009-09-02 腾讯科技(深圳)有限公司 一种问答对的质量评价方法和系统
CN101582086A (zh) * 2009-06-11 2009-11-18 腾讯科技(深圳)有限公司 获取博客质量信息的方法和装置
CN102096680A (zh) * 2009-12-15 2011-06-15 北京大学 信息有效性分析的方法和装置
CN102118431A (zh) * 2010-12-30 2011-07-06 百度在线网络技术(北京)有限公司 知识信息交互服务方法、平台及站点
CN102243661B (zh) * 2011-07-21 2014-04-23 中国科学院计算机网络信息中心 网站内容质量评估方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001188802A (ja) * 1999-11-22 2001-07-10 Nec Corp 情報検索装置及び情報検索方法
JP2006331070A (ja) * 2005-05-26 2006-12-07 Ntt Docomo Inc コミュニティ制御ノード装置、コミュニティ情報探索システム、コミュニティ情報探索方法
JP2012003589A (ja) * 2010-06-18 2012-01-05 Konica Minolta Business Technologies Inc コンテンツ収集装置、コンテンツ収集方法およびコンテンツ収集プログラム

Also Published As

Publication number Publication date
US20150006156A1 (en) 2015-01-01
KR20140111307A (ko) 2014-09-18
JP5827416B2 (ja) 2015-12-02
US9223775B2 (en) 2015-12-29
WO2013107345A1 (zh) 2013-07-25
CN103218356B (zh) 2017-12-08
KR101623052B1 (ko) 2016-05-20
CN103218356A (zh) 2013-07-24

Similar Documents

Publication Publication Date Title
JP5827416B2 (ja) ユーザ質問の処理方法及び処理システム
Liu et al. Utilitarianism and knowledge growth during status seeking: Evidence from text mining of online reviews
CN107025509B (zh) 基于业务模型的决策系统和方法
CN104281622B (zh) 一种社交媒体中的信息推荐方法和装置
US20140172415A1 (en) Apparatus, system, and method of providing sentiment analysis result based on text
CN106126524B (zh) 信息推送方法和装置
CN106126582A (zh) 推荐方法及装置
US20110258054A1 (en) Automatic Generation of Bid Phrases for Online Advertising
CN104471568A (zh) 对自然语言问题的基于学习的处理
CN109582875A (zh) 一种在线医疗教育资源的个性化推荐方法及系统
CN103455411B (zh) 日志分类模型的建立、行为日志分类方法及装置
JP2018077615A (ja) 広告画像生成装置、広告画像生成方法、広告画像生成装置用プログラム
CN106294363A (zh) 一种论坛帖子评价方法、装置及系统
CN109977313A (zh) 学习者模型构建方法、学习资源的推荐方法及系统
WO2019242453A1 (zh) 信息处理方法及装置、存储介质、电子装置
EP2613275A1 (en) Search device, search method, search program, and computer-readable memory medium for recording search program
CN111192170A (zh) 题目推送方法、装置、设备和计算机可读存储介质
Liu et al. [Retracted] Application of Artificial Intelligence Combined with 5G Technology in the Reform of English Teaching in Universities
JP6942759B2 (ja) 情報処理装置、プログラム及び情報処理方法
CN108733672A (zh) 实现网络信息质量评估的方法和装置
He et al. A data-driven innovation model of big data digital learning and its empirical study
KR20210052746A (ko) 제품화 대상 콘텐츠의 예상 판매량 추정 방법, 장치 및 컴퓨터프로그램
CN111046293A (zh) 一种根据测评结果推荐内容的方法及其系统
CN110297939A (zh) 一种融合用户行为和文化元数据的音乐个性化系统
CN115660695A (zh) 客服人员标签画像构建方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151013

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151015

R150 Certificate of patent or registration of utility model

Ref document number: 5827416

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250