JP2020126587A - コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体 - Google Patents

コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体 Download PDF

Info

Publication number
JP2020126587A
JP2020126587A JP2019211256A JP2019211256A JP2020126587A JP 2020126587 A JP2020126587 A JP 2020126587A JP 2019211256 A JP2019211256 A JP 2019211256A JP 2019211256 A JP2019211256 A JP 2019211256A JP 2020126587 A JP2020126587 A JP 2020126587A
Authority
JP
Japan
Prior art keywords
authority
data
response
question
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019211256A
Other languages
English (en)
Other versions
JP7153004B2 (ja
Inventor
ミャオ ユー,
Miao Yu
ミャオ ユー,
シンウェイ フォン,
Xinwei Feng
シンウェイ フォン,
ファンユー ヂョウ,
Huanyu Zhou
ファンユー ヂョウ,
シュンチャオ ソン,
Xunchao Song
シュンチャオ ソン,
ソンタイ ダイ,
Songtai Dai
ソンタイ ダイ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2020126587A publication Critical patent/JP2020126587A/ja
Application granted granted Critical
Publication of JP7153004B2 publication Critical patent/JP7153004B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Operations Research (AREA)

Abstract

【課題】大量の質問応答データに対して迅速にオーソリティレベル検証を行い、応答の権威性、客観性及び正確性を効果的に確保することができる、コミュニティ質問応答データの検証方法、検証装置、コンピュータ機器及びコンピュータ可読記憶媒体を提供する。【解決手段】方法は、コミュニティ質問応答データセットを取得し、前記コミュニティ質問応答データセットに基づいて、質問及び質問に対応する検証対象応答を含む複数の質問応答ペアを生成しS110、少なくとも1つの信頼ソースサイトに保存されているデータに基づいて、オーソリティデータセットを生成しS120、少なくとも1つの次元における各前記検証対象応答と前記オーソリティデータセットのオーソリティデータとの類似性スコアに基づいて、各前記検証対象応答に対しオーソリティレベル検証を行うS130。【選択図】図1

Description

本出願の実施形態はデータ処理技術に関し、特に、コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体に関する。
科学技術の発展及びインターネット技術の継続的な成長に伴って、検索ベースの対話型コミュニティ質問応答プラットフォームは人々の生活及び仕事において知識を獲得及び共有する重要な方法となっている。コミュニティ質問応答(Community Question Answering,CQA)は、オープンな知識を組み合わせた共有Webサイト(例:Baidu Zhidao、Yahoo!Answers、Tencent Wenwen、Sina iAskなど)であり、ユーザの参加を通じて、ネットワークユーザの集合的な知恵を使用して、質問に対する応答を直接提供する。同時に、これらの質問に対する応答は、同じ又は類似の質問を持つ他のユーザに対しても検索結果として提供可能となり、知識共有の効果が達成され、正確な検索結果を求めるユーザのニーズがある程度満たされている。
しかし、CQAデータは、応答の品質が大きく異なり、有用な応答が提供されると同時に様々な無関係、低品質、さらには悪意のある情報も含まれる恐れがある。このような応答を判断及びフィルタリングし、高品質の質問と応答のペアを選択することにより、コミュニティベースの自動質問応答システムにおいて関連する質問に対する応答を再利用して、質問応答システムのサービス品質を向上させることができる。
現段階の高品質で高精度なCQAデータスクリーニングは、主に人間審査、多次元明示的特徴スクリーニング及び意味検索モデルフィルタリングによって行われる。インターネットデータインデックスのアップグレードに伴い、人間審査には特に限界が感じられる。多次元明示的特徴スクリーニングは、現在ユーザの行動(例えば、賛成又は反対票を投じるなど)に比較的依存し、これらの情報は、応答が意味を持つか否かを判定するのに一定の指向性を有するが、ユーザの賛成又は反対の行動はある程度主観的感情に影響され、低品質の応答又は悪意のある応答が発生しやすい。また、これらの情報は不完全で、公開度が高くない質問応答データに対しては十分なユーザ情報がない。
現在の意味検索モデルは、通常、意味レベルからCQAの質問と応答の関連性を計算するが、応答が客観的で権威的であるかどうかも保証できない。例えば、「ユーザAの妻は誰ですか」という質問に対して、「ユーザAの妻はユーザBではありません」とユーザが応答したが、実際にはユーザAの妻がユーザBである場合、外部支援情報によるサポートがなければ、当該意味検索モデルはこの応答が正しいと誤認することがある。
本出願の実施形態は、大量の質問応答データに対して迅速にオーソリティレベル検証を行い、応答の権威性、客観性及び正確性を効果的に確保することができる、コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体を提供する。
第1の態様では、本出願の実施形態は、コミュニティ質問応答データの検証方法を提供し、該方法は、
コミュニティ質問応答データセットを取得し、前記コミュニティ質問応答データセットに基づいて、質問及び質問に対応する検証対象応答を含む複数の質問応答ペアを生成するステップと、
少なくとも1つの信頼ソースサイトに保存されているデータに基づいて、オーソリティデータセットを生成するステップと、
少なくとも1つの次元における各前記検証対象応答と前記オーソリティデータセットのオーソリティデータとの類似性スコアに基づいて、各前記検証対象応答に対してオーソリティレベル検証を行うステップとを含む。
第2の態様では、本出願の実施形態は、コミュニティ質問応答データの検証装置を提供し、該装置は、
コミュニティ質問応答データセットを取得し、前記コミュニティ質問応答データセットに基づいて、質問及び質問に対応する検証対象応答を含む複数の質問応答ペアを生成するための質問応答ペア生成モジュールと、
少なくとも1つの信頼ソースサイトに保存されているデータに基づいて、オーソリティデータセットを生成するためのオーソリティデータセット生成モジュールと、
少なくとも1つの次元における各前記検証対象応答と前記オーソリティデータセットのオーソリティデータとの類似性スコアに基づいて、各前記検証対象応答に対してオーソリティレベル検証を行うためのオーソリティレベル検証モジュールとを備える。
第3の態様では、本出願の実施形態はさらに、メモリと、プロセッサと、メモリに格納されてプロセッサ上で実行可能なコンピュータプログラムとを備えるコンピュータ機器であって、前記プロセッサが前記プログラムを実行すると、本出願の実施形態のいずれかに記載のコミュニティ質問応答データの検証方法が実行される、コンピュータ機器を提供する。
第4の態様では、本出願の実施形態はさらに、コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、該プログラムがプロセッサにより実行されると、本出願の実施形態のいずれかに記載のコミュニティ質問応答データの検証方法が実行される、コンピュータ可読記憶媒体を提供する。
本出願の実施形態は、コミュニティ質問応答データセットからデータをスクリーニングして質問応答ペアを生成し、同時に信頼ソースサイトからオーソリティデータセットを取得し、各々の質問応答ペアにおける検証対象応答とオーソリティデータセットにおけるオーソリティデータとの類似性スコアを計算し、類似性スコアに基づいて各質問応答ペアにおける検証対象応答のオーソリティレベルを確定する技術的手段を用いて、ユーザによって提供された応答とオーソリティデータとの類似度を検証する方法を巧みに使用し、該応答のオーソリティレベルを簡単且つ迅速に検証することで、従来技術におけるコミュニティ質問応答データに対する人間スクリーニングの効率が低いという問題、及びユーザの行動に依存して応答を評価することで評価結果に主観性が高いという問題を解決して、大量のコミュニティ質問応答データに対し迅速にオーソリティレベル検証を行うことができ、検証効率が向上し、さらに、検証対象応答とオーソリティデータとの類似性スコアを計算して検証対象応答のオーソリティレベルを確定することで、ユーザ表示特徴によるスクリーニング処理を回避することができ、質問応答データにおける応答のオーソリティ、客観性及び正確性を効果的に確保することができる。
本出願の実施例1によるコミュニティ質問応答データの検証方法を示すフローチャートである。 図2aは、本出願の実施例2によるコミュニティ質問応答データの検証方法を示すフローチャートである。図2bは、本出願の実施例2によるコミュニティ質問応答データの検証方法を示す具体的な応用シナリオの模式図である。 本出願の実施例3によるコミュニティ質問応答データの検証装置を示す構造模式図である。 本出願の実施例4によるコンピュータ機器を示す構造模式図である。
以下、添付図面及び実施形態を参照して本出願をさらに詳細に説明する。本明細書に記載された具体的な実施形態は本出願を解釈するためのものであり、本出願を限定するためのものではないことを理解されたい。なお、説明の便宜を図って、図面には全部の構造ではなく本出願に関わる部分のみ示されていることを理解されたい。
実施例1
図1は、本出願の実施例1によるコミュニティ質問応答データの検証方法のフローチャートであり、本実施例は、コミュニティ質問応答プラットフォームの質問応答データにおける応答の権威性度合いを検証する場合に適用できる。該方法は、本出願の実施形態によるコミュニティ質問応答データの検証装置により実行することができ、該装置はソフトウェア及び/又はハードウェアで実装されてもよく、一般的には、クライアント又はサーバなどのようなコミュニティ質問応答データの検証サービスを提供するコンピュータ機器に組み込まれてもよい。図1に示すように、本実施例の方法は、具体的にステップS110、S120及びS130を含む。
S110では、コミュニティ質問応答データセットを取得し、前記コミュニティ質問応答データセットに基づいて、複数の質問応答ペアを生成し、前記質問応答ペアは、質問と、質問に対応する検証対象応答とを含む。
具体的には、コミュニティ質問応答データセットとは、ネットワーク上の各コミュニティ質問応答プラットフォームから収集した質問応答データのセットであってもよい。質問応答ペアは、一つの質問とその質問に対する一つの検証対象応答との組み合わせでもよく、この場合、コミュニティ質問応答データセットの一つの質問に対して複数の検証対象応答が存在し、各々の検証対象応答に対して質問応答ペアをそれぞれ生成してもよい。
例示的に、コミュニティ質問応答プラットフォームは、Baidu Zhidao、Sina iAsk、又はTencent Wenwenなどのオープン型コミュニティ質問応答プラットフォームであってもよい。うち、コミュニティ質問応答プラットフォームの質問応答データは、中国語であってもよく、英語などの他の外国語であってもよい。
S120では、少なくとも1つの信頼ソースサイトに格納されているデータに基づいて、オーソリティデータセットを生成する。
具体的には、信頼ソースサイトは予め設定されたオーソリティデータのウェブサイト、例えば、Baidu Encyclopedia、Wikipedia、Douding.com又はBaidu Wenkuなどのオーソリティデータソースであってもよい。この場合、信頼ソースサイトはユーザにより選択されてもよい。
オーソリティデータセットは、エンティティセマンティクスを有するデータなど、信頼ソースサイトに格納された有効なデータであってもよい。例示的に、「ハハ、AはBのサブセットである」という文では、文の前半は語気助詞であり、文の後半はエンティティセマンティクスを持つデータであり、語気助詞を削除して、文の後半のみに基づいてオーソリティデータセットを生成してもよい。
任意選択で、前記少なくとも1つの信頼ソースサイトに格納されているデータに基づいて、オーソリティデータセットを生成することは、少なくとも1つの信頼ソースサイトを選択し、各前記信頼ソースサイトのサイトデータを取得してデータクレンジングを行い、構造化解析を行った後、前記オーソリティデータセットを生成することを含んでもよい。
ここで、データクレンジングとは、サイトデータに対する重複排除、無効化排除、エラー排除、衝突排除等の少なくとも一つを行うデータ操作を指してもよく、構造化解析とは、サイトデータにおけるデータ構造の解析、例えば、サイトデータにおける文に含まれる各エンティティ、及び文の文法構造の取得を指してもよい。サイトデータをデータクレンジングして構造化解析を行い、解析結果に基づいて、サイトデータを統合形式(例えば、2次元論理表で表現)のデータに構成し、構成されたデータに基づいて形成されたセットをオーソリティデータセットとすることができる。信頼ソースサイトのサイトデータをデータ前処理して、オーソリティデータセットを生成することにより、オーソリティデータを迅速に構造化処理することができ、迅速に閲覧及び理解しやすく、並びに正確な意味検索が容易になり、それにより後続の検証対象応答とオーソリティデータとの類似性スコアの計算効率が向上する。
S130では、少なくとも1つの次元における各前記検証対象応答と前記オーソリティデータセットのオーソリティデータとの類似性スコアに基づいて、各前記検証対象応答に対してオーソリティレベル検証を行う。
具体的には、類似性スコアは、検証対象応答とオーソリティデータとの類似度合いの評価結果であってもよい。次元は、類似度合いを評価する特徴タイプを指してもよく、具体的には、キーワード特徴、構文特徴及び意味特徴などのうちの少なくとも1種の特徴を含んでもよい。
通常、ユーザが質問に応答するとき、「経典中の語句を引用して議論の根拠にする」応答は他のユーザの応答に比べて客観性や正確性がはるかに高い。本実施例においては、オーソリティレベル検証とは、検証対象応答が信頼ソースサイト(オーソリティウェブサイトなど)に格納されているデータに含まれているか否かを判断することを指してもよい。具体的には、オーソリティデータセットにおいて当該検証対象応答が原文の形式で提示される場合、当該検証対象応答はオーソリティレベルが高いとみなされ、当該オーソリティデータセットに検証対象応答と類似するデータがある場合、当該検証対象応答はオーソリティレベルが中程度とみなされ、なお、オーソリティデータセットの全データに対して該検証対象応答の類似度が低い場合、当該検証対象応答はオーソリティレベルが低いとみなされる。
したがって、上記類似性スコアによって得られたオーソリティレベルの低い検証対象応答にマーク付けして、リマインド又はスクリーニングすることで、コミュニティ質問応答データにおけるユーザ応答の正確性及び権威性を確保することができる。
本出願の実施形態は、コミュニティ質問応答データセットからデータをスクリーニングして質問応答ペアを生成し、同時に信頼ソースサイトからオーソリティデータセットを取得し、各々の質問応答ペアにおける検証対象応答とオーソリティデータセットにおけるオーソリティデータとの類似性スコアを計算し、類似性スコアに基づいて各質問応答ペアにおける検証対象応答のオーソリティレベルを確定する技術的手段によって、ユーザによって提供された応答とオーソリティデータとの類似度を検証する方法を巧みに使用し、当該応答のオーソリティレベルを簡単且つ迅速に検証することで、従来技術におけるコミュニティ質問応答データの人間スクリーニングの効率が低いという問題を解決し、同時に、ユーザの行動に依存して応答を評価することで評価結果に主観性が高いという問題を解決し、大量のコミュニティ質問応答データに対し迅速にオーソリティレベル検証を行うことができ、検証効率が向上し、さらに、検証対象応答とオーソリティデータの類似性スコアを計算して検証対象応答のオーソリティレベルを確定することで、ユーザの明示的特徴によるスクリーニング処理を回避することができ、質問応答データにおける応答の権威性、客観性及び正確性を効果的に確保することができる。
実施例2
図2aは、本出願の実施例2によるコミュニティ質問応答データの検証方法のフローチャートであり、本実施例は、本出願の実施例1に基づいて具現化している。即ち、前記少なくとも1つの次元における各前記検証対象応答と前記オーソリティデータセットにおけるオーソリティデータとの類似性スコアに基づいて、各前記検証対象応答に対してオーソリティレベル検証を行うステップは、具体的に、前記検証対象応答を前記オーソリティデータセットにおいて検索し、相関性条件を満たすターゲットオーソリティデータを所定数スクリーニングするステップと、少なくとも1つのターゲット次元において、前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアをそれぞれ計算するステップと、前記類似性スコアに基づいて、前記検証対象応答に対してオーソリティレベル検証を行うステップとを含む。
図2aに示すように、該方法は具体的にステップS210、S220、S230、S240及びS250を含む。
S210では、コミュニティ質問応答データセットを取得し、前記コミュニティ質問応答データセットに基づいて、複数の質問応答ペアを生成し、前記質問応答ペアは、質問と、質問に対応する検証対象応答とを含む。
本実施例におけるコミュニティ質問応答データセット、質問応答ペア、信頼ソースサイト、オーソリティデータセット、類似性スコア、及びオーソリティレベル検証等は、上記実施例の説明を参照することができる。
S220では、少なくとも1つの信頼ソースサイトに格納されているデータに基づいて、オーソリティデータセットを生成する。
S230では、前記オーソリティデータセットにおいて前記検証対象応答を検索し、相関性条件を満たすターゲットオーソリティデータを所定数スクリーニングする。
ここで、相関性条件を満たすターゲットオーソリティデータとは、検証対象応答との相関程度が所定の閾値を超えたオーソリティデータを指してもよい。設定数は1以上の整数を指してもよく、必要に応じてユーザによって設定されてもよく、例示的には、設定数は10本である。
あるいは、検証対象応答におけるキーワードを取得し、検証対象応答におけるキーワードによってオーソリティデータセットにおいて検索し、キーワードとオーソリティデータとの相関性に基づいてオーソリティデータセットにおけるオーソリティデータをソートし、ソート結果において上位N個のオーソリティデータを相関性条件を満たすターゲットオーソリティデータとする。Nは正の整数であり、具体的には必要に応じて設定することができる。
ここで、検証対象応答に対しテキスト抽出、単語分割、ノイズ除去、重複除去及びキーワード抽出を行うことで検証対象応答におけるキーワードを取得することができ、キーワードの抽出は予めトレーニングされた機械学習モデルによって検証対象応答から抽出することができ、例えば、機械学習モデルは、教師あり学習方法、シーケンスラベリング方法又は教師なし学習方法によってトレーニングすることができる。
検証対象応答から抽出された少なくとも1つのキーワードに基づいてオーソリティデータセットにおいて検索し、各々のオーソリティデータにおける少なくとも1つのキーワードの発生回数、頻度、位置及びフォーマット等の情報を取得する。さらに、各キーワード自体の常用度(例えば、「私たち」の常用度が「星座」の常用度よりも高い)、各キーワードがオーソリティデータにおいて発生する回数、頻度、位置及びフォーマット、各キーワードの重み、並びに各キーワードの間の距離に基づいて、該検証対象応答と該オーソリティデータとの相関性を計算することができる。これにより、オーソリティデータセットにおける各オーソリティデータと検証対象応答との相関程度を計算することで、相関性条件を満たすターゲットオーソリティデータをN個確定して、スクリーニングすることができる。
S240では、少なくとも1つのターゲット次元において、前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアをそれぞれ計算する。
具体的には、ターゲット次元はキーワード次元、文次元又は意味次元を含むことができる。キーワード次元は、検証対象応答から抽出されたキーワードと、各ターゲットオーソリティデータから抽出されたキーワードとの類似性比較を指してもよく、文次元は、検証対象応答に含まれる文と、各ターゲットオーソリティデータに含まれる文との類似性比較を指してもよく、意味次元は、検証対象応答の意味と各ターゲットオーソリティデータの意味との類似性比較を指してもよい。
ここで、各々のターゲット次元は、予めトレーニングされた機械学習モデルによって類似性スコアの計算を実行することができる。あるいは、他の方法で類似性スコアを計算してもよい。
実際のアプリケーション計算の際、上記1つ、2つ、又は3つの次元の全てにおける、各々の前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアに基づいて、各検証対象応答に対してオーソリティレベル検証を行うことができる。
任意選択で、キーワード次元において、前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアをそれぞれ計算するステップは、前記検証対象応答に含まれる第1キーワードセットと、各前記ターゲットオーソリティデータに含まれる第2キーワードセットとをそれぞれ取得するステップと、各前記第2キーワードセットにヒットした前記第1キーワードセットのキーワード数を取得するステップと、前記キーワード数と各前記第2キーワードセットに含まれるキーワード総数とに基づいて、前記キーワード次元における前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアを計算するステップとを含む。
具体的には、第1キーワードセット及び第2キーワードセットは、いずれも予めトレーニングされたキーワード抽出用の機械学習モデルによって生成されてもよい。第2キーワードセットにヒットした第1キーワードセットのキーワード数は、第1キーワードセット及び第2キーワードセットにおける同じキーワードの数であってもよい。第1類似性スコアは、具体的にはキーワード総数に対するキーワード数の割合であってもよい。例示的に、第2キーワードセットにヒットした第1キーワードセットのキーワード数が6であり、第2キーワードセットに含まれるキーワード総数が10であり、該第1キーワードセット及び第2キーワードセットに基づいて、キーワード次元において計算された前記検証対象応答と対応するターゲットオーソリティデータとの類似性スコアは6/10=60%である。
任意選択で、文次元において、前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアを計算するステップは、前記検証対象応答が各前記ターゲットオーソリティデータに含まれる文にヒットしたか否かをそれぞれ検証するステップと、ヒット結果に基づいて、前記文次元における前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアを計算するステップとを含むことができる。
具体的には、検証対象応答がターゲットオーソリティデータに含まれる文にヒットしたか否かは、検証対象応答に含まれる1つ又は複数の文がターゲットオーソリティデータに含まれる文セットに属するか否かを指してもよい。ここで、ヒット結果は0と1を含み、ヒット結果0に対応する類似性スコアは0であり、ヒット結果1に対応する類似性スコアは1である。
ここで、ターゲットオーソリティデータに検証対象応答の1つ又は複数の文が含まれている場合、ヒット結果は1であり、ターゲットオーソリティデータには検証対象応答に含まれる文がいずれも含まれていない場合、ヒット結果は0である。例示的に、検証対象応答が1つの文であり、同時に、ターゲットオーソリティデータに含まれる文に該検証対象応答と同じ文が存在すれば、ヒット結果は1であり、文次元で計算された、前記検証対象応答と対応するターゲットオーソリティデータとの類似性スコアも1である。
任意選択で、意味次元において、前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアをそれぞれ計算するステップは、前記検証対象応答及び各前記ターゲットオーソリティデータをそれぞれ入力データとして組み合わせるステップと、各々の前記入力データを予めトレーニングされた意味類似度認識モデルにそれぞれ入力するステップと、各前記入力データに対する前記意味類似度認識モデルの出力結果を、前記意味次元における前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアとして取得するステップとを含む。
具体的には、予めトレーニングされた意味類似度認識モデルは、機械学習モデルがサンプルを通してトレーニングされたモデルであってもよい。具体的には、意味類似度認識モデルは、深層構造化意味モデル(Deep Structured Semantic Models,DSSM)であってもよく、畳み込みニューラルネットワーク(Convolutional Neural Networks,CNN)の深層構造化意味モデルであってもよく、又は、長短期記憶(Long−Short Term Memory,LSTM)の深層構造化意味モデルであってもよく、これに対して本出願の実施形態は特に限定されない。検証対象応答と各々のターゲットオーソリティデータとをそれぞれ組み合わせて複数の入力データを形成し、各入力データを予めトレーニングされた意味類似度認識モデルに入力して、意味類似度認識モデルによって出力された類似性スコアを、意味次元における前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアとして得る。
検証対象応答とターゲットオーソリティデータとの類似性スコアの計算を、キーワード次元、文次元及び意味次元のそれぞれにおいて行うことで、検証対象応答とオーソリティデータとの類似度合いを複数の側面から評価して、検証対象応答が権威性を有するか否かを正確に評価することができ、また、ターゲット次元はいずれも検証対象応答の特徴情報に準じて類似度を計算するので、ユーザ行動に関与しておらず、検証対象応答の権威性に対する評価がユーザの主観的な意思に影響されることを防止でき、検証対象応答の評価結果の客観性を確保することができる。
S250では、前記類似性スコアに基づいて、前記検証対象応答に対しオーソリティレベル検証を行う。
任意選択で、前記類似性スコアに基づいて、前記検証対象応答に対しオーソリティレベル検証を行うステップは以下を含むことができる。
式:
Figure 2020126587
により、前記検証対象応答のオーソリティレベルスコアを計算する。式中、Nは、前記オーソリティデータセットからスクリーニングされた相関性条件を満たすターゲットオーソリティデータの個数であり、Word(Ans,P)は、キーワード次元における前記検証対象応答Ansとi番目のターゲットオーソリティデータPとの類似性スコアであり、Sent(Ans,P)は、文次元におけるAnsとPとの類似性スコアであり、Sim(Ans,P)は、意味次元におけるAnsとPとの類似性スコアであり、α、β及びγは予め設定された比例係数である。前記オーソリティレベルスコアが所定のオーソリティレベル閾値よりも小さい場合、前記検証対象応答は前記コミュニティ質問応答データセットから除外される。
ここで、Word(Ans,P)は、キーワード次元における検証対象応答とi番目のターゲットオーソリティデータとの一致度を示すために使用され、Sent(Ans,P)は、文次元における検証対象応答とi番目のターゲットオーソリティデータとの一致度を示すために使用され、Sim(Ans,P)は、意味次元における検証対象応答とi番目のターゲットオーソリティデータとの一致度を表すために使用され、α、β及びγは予め設定された比例係数であって必要に応じてユーザによって設定されてもよく、それぞれ第1類似性スコアの重み値、第2類似性スコアの重み値、及び第3類似性スコアの重み値を表すためのものである。オーソリティレベル閾値は必要に応じてユーザによって設定されてもよく、また、その後、該オーソリティレベル閾値の大きさを制御し、オーソリティ検証対象応答に対する効果的なスクリーニングを実現できる。
検証対象応答とi番目のターゲットオーソリティデータとの類似度合いを具体的な式及び関数で定量化することにより、検証対象応答とi番目のターゲットオーソリティデータとの類似性スコアをそれぞれ正確に計算するとともに、各類似性スコアの加重和の平均を計算することにより、各ターゲットオーソリティデータを総合的に考慮して、検証対象応答のオーソリティレベルを正確に評価することができる。
なお、いずれか1つ又はいずれか2つの上記次元における類似性スコアに基づいて、類似性スコアの加重和の平均値を検証対象応答のオーソリティレベルスコアとして計算することで、各検証対象応答に対しオーソリティレベル検証を行うことができる。
一つの具体的な例では、図2bに示すように、Baidu Zhidao、Sina iAsk、Tencent Wenwen、及び他のコミュニティ質問応答プラットフォームから質問応答データを収集してコミュニティ質問応答データセットを生成すると同時に、Baidu Encyclopedia、Douding.com、Wikipedia及びその他の信頼ソースサイトなどのウェブサイトからオーソリティデータを収集してオーソリティデータセットを生成する。オーソリティデータセットにおいてインデックスデータベースを構築し、コミュニティ質問応答データセットから抽出された質問応答ペアに基づいて検索を行い、各々の質問応答ペアにおける検証対象応答のN個のターゲットオーソリティデータを取得する。各々の検証対象応答の特徴情報と、マッチングされたN個のターゲットオーソリティデータの特徴情報とをそれぞれ取得し、キーワード次元、文次元及び意味次元のそれぞれにおいて、検証対象応答の特徴情報と各々のターゲットオーソリティデータとの類似性スコアをそれぞれ計算する。最後に、検証対象応答の特徴情報と各ターゲットオーソリティデータとの類似性スコアに基づいて、該検証対象応答のオーソリティレベル検証を行う。
本出願の実施形態は、検証対象応答に基づいてオーソリティデータセットを検索し、関連する少なくとも1つのターゲットオーソリティデータをスクリーニングし、各々のターゲットオーソリティデータに対し、検証対象応答とターゲットオーソリティデータとの類似性スコアをそれぞれ計算し、得られた少なくとも1つの類似性スコアに基づいて検証対象応答に対してオーソリティレベル検証を行うことにより、検証対象応答とオーソリティデータとの類似度合いを複数の次元から評価し、検証対象応答が権威性を有するか否かを正確に評価することができる。
実施例3
図3は、本出願の実施例3によるコミュニティ質問応答データの検証装置を示す構造模式図であり、図3に示すように、前記装置は具体的には、
コミュニティ質問応答データセットを取得し、前記コミュニティ質問応答データセットに基づいて、質問と質問に対応する検証対象応答とを含む複数の質問応答ペアを生成するための質問応答ペア生成モジュール310と、
少なくとも1つの信頼ソースサイトに格納されているデータに基づいて、オーソリティデータセットを生成するためのオーソリティデータセット生成モジュール320と、
少なくとも1つの次元における各前記検証対象応答と前記オーソリティデータセットのオーソリティデータとの類似性スコアに基づいて、各前記検証対象応答に対してオーソリティレベル検証を行うためのオーソリティレベル検証モジュール330とを備える。
本出願の実施形態は、コミュニティ質問応答データセットからデータをスクリーニングして質問応答ペアを生成し、同時に信頼ソースサイトからオーソリティデータセットを取得し、各々の質問応答ペアにおける検証対象応答とオーソリティデータセットにおけるオーソリティデータとの類似性スコアを計算し、類似性スコアに基づいて各質問応答ペアにおける検証対象応答のオーソリティレベルを確定する技術的手段によって、ユーザによって提供された応答とオーソリティデータとの類似度を検証する方法を巧みに使用し、該応答のオーソリティレベルを簡単且つ迅速に検証して、従来技術におけるコミュニティ質問応答データの人間スクリーニングの効率が低いという問題を解決し、同時に、ユーザの行動に依存して応答を評価することで、評価結果に主観性が高いという問題を解決し、大量のコミュニティ質問応答データに対し迅速にオーソリティレベル検証を行うことができ、検証効率が向上し、さらに、検証対象応答とオーソリティデータの類似性スコアを計算して検証対象応答のオーソリティレベルを確定することで、ユーザの明示的特徴によるスクリーニング処理を回避することができ、質問応答データにおける応答の権威性、客観性及び正確性を効果的に確保することができる。
さらに、前記オーソリティレベル検証モジュール330は、具体的には、前記オーソリティデータセットにおいて前記検証対象応答を検索し、相関性条件を満たすターゲットオーソリティデータを所定数スクリーニングし、少なくとも1つのターゲット次元において、前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアをそれぞれ計算し、前記類似性スコアに基づいて、前記検証対象応答に対してオーソリティレベル検証を行う。
さらに、前記ターゲット次元はキーワード次元、文次元、又は意味次元を含む。
さらに、前記オーソリティレベル検証モジュール330は、具体的に、前記検証対象応答に含まれる第1キーワードセットと、各前記ターゲットオーソリティデータに含まれる第2キーワードセットとをそれぞれ取得し、各前記第2キーワードセットにヒットした前記第1キーワードセットのキーワード数を取得し、前記キーワード数と各前記第2キーワードセットに含まれるキーワード総数とに基づいて、前記キーワード次元における前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアを計算する。
さらに、前記オーソリティレベル検証モジュール330は、具体的に、前記検証対象応答が各前記ターゲットオーソリティデータに含まれる文にヒットしたか否かをそれぞれ検証し、ヒット結果に基づいて、前記文次元における前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアを計算する。
さらに、前記オーソリティレベル検証モジュール330は、具体的に、前記検証対象応答及び各前記ターゲットオーソリティデータをそれぞれ入力データとして組み合わせ、各々の前記入力データを予めトレーニングされた意味類似度認識モデルにそれぞれ入力し、各前記入力データに対する前記意味類似度認識モデルの出力結果を、前記意味次元における前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアとして取得する。
さらに、前記オーソリティレベル検証モジュール330は、具体的に、式:
Figure 2020126587
により、前記検証対象応答のオーソリティレベルスコアを計算する。式中、Nは、前記オーソリティデータセットからスクリーニングされた相関性条件を満たすターゲットオーソリティデータの個数であり、Word(Ans,P)は、キーワード次元における前記検証対象応答Ansとi番目のターゲットオーソリティデータPとの類似性スコアであり、Sent(Ans,P)は、文次元におけるAnsとPとの類似性スコアであり、Sim(Ans,P)は、意味次元におけるAnsとPとの類似性スコアであり、α、β及びγは予め設定された比例係数である。
前記オーソリティレベルスコアが所定のオーソリティレベル閾値よりも小さい場合、前記コミュニティ質問応答データセットから前記検証対象応答を除外する。
さらに、前記オーソリティデータセット生成モジュール320は、具体的に、少なくとも1つの信頼ソースサイトを選択し、各前記信頼ソースサイトのサイトデータを取得してデータクレンジングを行い、構造化解析を行った後、前記オーソリティデータセットを生成する。
上記コミュニティ質問応答データの検証装置は、本出願の任意の実施形態によるコミュニティ質問応答データの検証方法を実行することができ、実行されるコミュニティ質問応答データの検証方法に応じた機能モジュール及び有益な効果を有する。
実施例4
図4は、本出願の実施例4による機器を示す構造模式図である。図4は、本出願の実施形態を実施するのに適した例示的なコンピュータ機器412のブロック図を示す。図4に示されるコンピュータ機器412は単なる一例であり、本出願の実施形態の機能及び使用範囲に何ら制限を課すものではない。
図4に示されるように、コンピュータ機器412は、汎用コンピュータ機器の形態で表現される。コンピュータ機器412の構成要素は、限定されるものではないが、1つ以上のプロセッサ又は処理ユニット416、システムメモリ428、異なるシステムコンポーネント(システムメモリ428及び処理ユニット416を含む)を接続するバス418を含むことができる。コンピュータ機器412は車載装置であってもよい。
バス418は、メモリバス又はメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、プロセッサ又は多様なバス構造のうち任意のバス構造を使用するローカルバスを含む、複数種のバス構造のうち一つ又は複数のものを表す。限定するわけではないが、例として、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ(Industry Standard Architecture,ISA)バス、マイクロチャネルアーキテクチャ(Micro Channel Architecture,MCA)バス、エンハンストISAバス、ビデオエレクトロニクススタンダーズアソシエーション(Video Electronics Standards Association,VESA)ローカルバス、ペリフェラルコンポーネントインターコネクト(Peripheral Component Interconnection,PCI)バスを含む。
コンピュータ機器412は、典型的には多様なコンピュータシステム可読媒体を備える。これらの媒体は、コンピュータ機器412がアクセスできる任意の可用媒体であってもよく、揮発性媒体及び不揮発性媒体、並びにリムーバブル媒体及びノンリムーバブル媒体が挙げられる。
システムメモリ428は、ランダムアクセスメモリ(RAM)430及び/又はキャッシュメモリ432などの揮発性メモリの形態を取るコンピュータシステム可読媒体を含んでもよい。コンピュータ機器412は、他のリムーバブル/ノンリムーバブル、揮発性/不揮発性コンピュータシステム記憶媒体をさらに含んでもよい。例示でしかないが、ストレージシステム444は、ノンリムーバブル、不揮発性磁気媒体(図4に示されていないが、通常「ハードドライブ」と称される)に対する読み書きに用いることができる。図4には示されていないが、リムーバブル不揮発性磁気ディスク(例えば、「フロッピーディスク」)に対して読み書きするための磁気ディスクドライブ、及びリムーバブル不揮発性光学ディスク(例えば、シーディーロム(Compact Disc Read Only Memory、CD−ROM)、ディーブイディーロム(Digital Video Disc Read Only Memory、DVD−ROM)又は他の光学媒体)に対して読み書きするための光学ディスクドライブを提供することができる。そのような場合、各ドライブは、1つ又は複数のデータメディアインターフェイスを介してバス418に接続されてもよい。メモリ428は、本出願の各実施例の機能を実行するように構成されているプログラムモジュールのセット(例えば、少なくとも1つ)を有する少なくとも1つのプログラム製品を含んでもよい。
プログラムモジュール442のセット(少なくとも1つのプログラムモジュール)を有するプログラム/ユーティリティーツール440は、例えば、メモリ428に記憶されてもよく、限定されないが、このようなプログラムモジュール442は、オペレーティングシステム、1つ又は複数のアプリケーション、他のプログラムモジュール及びプログラムデータを含み、これらの例のそれぞれ又は何らかの組み合わせには、ネットワーキング環境の実装が含まれてもよい。プログラムモジュール442は、通常、本出願に記載の実施例における機能及び/又は方法を実行する。
コンピュータ機器412は、1つ又は複数の外部デバイス414(例えば、キーボード、ポインティングデバイス、ディスプレイ424など)と通信してもよいし、ユーザがコンピュータ機器412とインタラクションすることを可能にする1つ又は複数のデバイスと通信してもよく、及び/又は該コンピュータ機器412が1つ又は複数の他のコンピューティングデバイスと通信することを可能にする任意のデバイス(例えば、ネットワークカード、モデムなど)と通信してもよい。そのような通信は、入力/出力(Input/Output、I/O)インターフェイス422を介して行うことができる。また、コンピュータ機器412は、ネットワークアダプタ420を介して、1つ又は複数のネットワーク(例えば、ローカルエリアネットワーク(Local Area Network、LAN)、ワイドエリアネットワーク(Wide Area Network、WAN)と通信できる。図に示すように、ネットワークアダプタ420は、バス418を介して、コンピュータ機器412の他のモジュールと通信する。なお、図4には示されていないが、他のハードウェア及び/又はソフトウェアモジュールをコンピュータ機器412と組み合わせて使用することができ、限定されないが、マイクロコードやデバイスドライバ、冗長化処理ユニット、外部ディスクドライブアレイ、RAID(Redundant Arrays of Inexpensive Disks)システム、テープドライバ、データバックアップストレージシステムなどが挙げられる。
処理ユニット416は、システムメモリ428に記憶されるプログラムを実行することにより、多様な機能アプリケーション及びデータ処理を実行し、例えば、本出願の実施形態によるコミュニティ質問応答データの検証方法を実行する。
つまり、前記処理ユニットは前記プログラムを実行するとき、コミュニティ質問応答データセットを取得し、前記コミュニティ質問応答データセットに基づいて、質問及び質問に対応する検証対象応答を含む複数の質問応答ペアを生成するステップと、少なくとも1つの信頼ソースサイトに保存されているデータに基づいて、オーソリティデータセットを生成するステップと、少なくとも1つの次元における各前記検証対象応答と前記オーソリティデータセットのオーソリティデータとの類似性スコアに基づいて、各前記検証対象応答に対してオーソリティレベル検証を行うステップとを行う。
実施例5
本出願の実施例5は、コンピュータプログラムが格納されているコンピュータ可読記憶媒体を提供し、該プログラムがプロセッサによって実行されると、コミュニティ質問応答データセットを取得し、前記コミュニティ質問応答データセットに基づいて、質問及び質問に対応する検証対象応答を含む複数の質問応答ペアを生成するステップと、少なくとも1つの信頼ソースサイトに保存されているデータに基づいて、オーソリティデータセットを生成するステップと、少なくとも1つの次元における各前記検証対象応答と前記オーソリティデータセットのオーソリティデータとの類似性スコアに基づいて、各前記検証対象応答に対してオーソリティレベル検証を行うステップとを含む本出願のすべての実施形態によるコミュニティ質問応答データの検証方法が実行される。
本出願の実施形態のコンピュータ記憶媒体は、1つ又は複数のコンピュータ可読媒体の任意の組み合わせを使用してもよい。コンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体であってもよい。コンピュータ可読記憶媒体は、例えば、電気、磁気、光、電磁気、赤外線、或いは半導体のシステム、装置又はデバイス、或いはこれらの任意の組み合わせであってもよいが、それらに限定されない。コンピュータ可読記憶媒体についてのより具体的な例(非網羅的リスト)には、1本又は複数の導線を含む電気的な接続、携帯可能なコンピュータ磁気ディスク、ハードディスク、RAM、読取専用メモリ(Read Only Memory,ROM)、消去可能プログラマブル読み取り専用メモリ(Erasable Programmable Read Only Memory,EPROM)、フラッシュメモリ、光ファイバ、携帯可能なCD−ROM、光学記憶素子、磁気記憶素子、或いは前記任意の適当な組み合わせが含まれる。本明細書において、コンピュータ可読記憶媒体は、プログラムを含むか、或いは記憶する任意の有形の媒体であってもよく、該プログラムは、命令実行システム、装置又はデバイスによって使用されるか、或いはそれらと組み合わせて使用されてもよい。
コンピュータ可読信号媒体は、ベースバンドに伝送されるか、或いはキャリアの一部として伝送され、コンピュータ読み取り可能なプログラムコードがロードされるデータ信号を含んでもよい。このような伝送されるデータ信号は、様々な形式を採用してもよく、電磁気信号、光信号又はこれらの任意の適当な組み合わせが挙げられるが、それらに限定されない。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体以外の任意のコンピュータ可読媒体であってもよく、該コンピュータ可読媒体は、命令実行システム、装置又はデバイスによって使用されるか、或いはそれらと組み合わせて使用されるプログラムを送信、伝播又は伝送することができる。
コンピュータ可読媒体に含まれるプログラムコードは、任意の適当な媒体で伝送されてもよく、無線、電線、光ケーブル、無線周波数(Radio Frequency,RF)などや、これらの任意の適当な組み合わせが挙げられるが、それらに限定されない。
1種又は複数種のプログラミング言語又はそれらの組み合わせで、本出願の操作を実行するためのコンピュータプログラムコードを編集することができ、前記プログラミング言語には、例えばJava、Smalltalk、C++などのオブジェクト指向プログラミング言語、例えば「C」言語又は類似しているプログラミング言語などの従来の手続き型プログラミング言語も含まれる。プログラムコードは、完全にユーザコンピュータにて実行されてもよく、部分的にユーザコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザコンピュータにおいて実行され且つ部分的にリモートコンピュータにおいて実行されてもよく、又は完全にリモートコンピュータ又はサーバにおいて実行されてもよい。リモートコンピュータに係る場合、リモートコンピュータは、LAN又はWANを含む任意の種類のネットワークを介してユーザコンピュータ又は外部コンピュータに接続できる(例えば、インターネットサービスプロバイダーによるインターネットを介して接続できる)。
上記は本出願の好ましい実施形態及び適用される技術原理の説明にすぎないことに留意されたい。本出願は本明細書に記載の特定の実施形態に限定されず、本出願の範囲から逸脱することなく、様々な明らかな変更、新たな調整及び置き換えを行うことができることを当業者は理解されたい。したがって、本出願を上記実施形態を通じて詳細に説明したが、本出願は上記実施形態に限定されるものではなく、本出願の概念から逸脱することなく他の同等の実施形態を含むことができ、本出願の範囲は添付された特許請求の範囲によって定められる。

Claims (11)

  1. コミュニティ質問応答データセットを取得し、前記コミュニティ質問応答データセットに基づいて、質問及び質問に対応する検証対象応答を含む複数の質問応答ペアを生成するステップと、
    少なくとも1つの信頼ソースサイトに保存されているデータに基づいて、オーソリティデータセットを生成するステップと、
    少なくとも1つの次元における各前記検証対象応答と前記オーソリティデータセットのオーソリティデータとの類似性スコアに基づいて、各前記検証対象応答に対してオーソリティレベル検証を行うステップと
    を含むことを特徴とするコミュニティ質問応答データの検証方法。
  2. 前記少なくとも1つの次元における各前記検証対象応答と前記オーソリティデータセットのオーソリティデータとの類似性スコアに基づいて、各前記検証対象応答に対してオーソリティレベル検証を行うステップは、
    前記検証対象応答を前記オーソリティデータセット内で検索し、相関条件を満たすターゲットオーソリティデータを所定数スクリーニングするステップと、
    少なくとも1つのターゲット次元において、前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアをそれぞれ計算するステップと、
    前記類似性スコアに基づいて、前記検証対象応答に対してオーソリティレベル検証を行うステップと
    を含むことを特徴とする請求項1に記載の方法。
  3. 前記ターゲット次元がキーワード次元、文次元又は意味次元を含むことを特徴とする請求項2に記載の方法。
  4. キーワード次元において、前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアをそれぞれ計算するステップは、
    前記検証対象応答に含まれる第1キーワードセット、及び各前記ターゲットオーソリティデータに含まれる第2キーワードセットをそれぞれ取得するステップと、
    各前記第2キーワードセットにヒットした前記第1キーワードセットのキーワード数を取得するステップと、
    前記キーワード数と、各前記第2キーワードセットに含まれるキーワード総数とに基づいて、前記キーワード次元における前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアを計算するステップと
    を含むことを特徴とする請求項3に記載の方法。
  5. 文次元において、前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアをそれぞれ計算するステップは、
    各前記ターゲットオーソリティデータに含まれる文に前記検証対象応答がヒットしたかどうかをそれぞれ検証するステップと、
    ヒット結果に基づいて、前記文次元における前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアを計算するステップと
    を含むことを特徴とする請求項3に記載の方法。
  6. 意味次元において、前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアをそれぞれ計算するステップは、
    前記検証対象応答及び各前記ターゲットオーソリティデータを入力データとして組み合わせるステップと、
    各々の前記入力データを予めトレーニングされた意味類似度認識モデルにそれぞれ入力するステップと、
    各前記入力データに対する前記意味類似度認識モデルの出力結果を、前記意味次元における前記検証対象応答と各前記ターゲットオーソリティデータとの類似性スコアとして取得するステップと
    を含むことを特徴とする請求項3に記載の方法。
  7. 前記類似性スコアに基づいて、前記検証対象応答に対してオーソリティレベル検証を行うステップは、
    式:
    Figure 2020126587
    (式中、Nは、前記オーソリティデータセットからスクリーニングされた相関性条件を満たすターゲットオーソリティデータの個数であり、Word(Ans,P)は、キーワード次元における前記検証対象応答Ansとi番目のターゲットオーソリティデータPとの類似性スコアであり、Sent(Ans,P)は、文次元におけるAnsとPとの類似性スコアであり、Sim(Ans,P)は、意味次元におけるAnsとPとの類似性スコアであり、α、β及びγは予め設定された比例係数である)により、前記検証対象応答のオーソリティレベルスコアを計算するステップであって、
    前記オーソリティレベルスコアが設定されたオーソリティ閾値よりも小さい場合、前記コミュニティ質問応答データセットから前記検証対象応答を除外するステップを含むことを特徴とする請求項3に記載の方法。
  8. 前記少なくとも1つの信頼ソースサイトに保存されているデータに基づいて、オーソリティデータセットを生成するステップは、
    少なくとも1つの信頼ソースサイトを選択し、各前記信頼ソースサイトのサイトデータを取得してデータクレンジングを行い、構造化解析を行った後、前記オーソリティデータセットを生成するステップを含むことを特徴とする請求項1に記載の方法。
  9. コミュニティ質問応答データセットを取得し、前記コミュニティ質問応答データセットに基づいて、質問及び質問に対応する検証対象応答を含む複数の質問応答ペアを生成するための質問応答ペア生成モジュールと、
    少なくとも1つの信頼ソースサイトに保存されているデータに基づいて、オーソリティデータセットを生成するためのオーソリティデータセット生成モジュールと、
    少なくとも1つの次元における各前記検証対象応答と前記オーソリティデータセットのオーソリティデータとの類似性スコアに基づいて、各前記検証対象応答に対してオーソリティレベル検証を行うためのオーソリティレベル検証モジュールと
    を備えることを特徴とするコミュニティ質問応答データの検証装置。
  10. 1つ又は複数のプロセッサと、1つ又は複数のプログラムを格納するための記憶装置とを備えるコンピュータ機器であって、
    前記1つ又は複数のプログラムが前記1つ又は複数のプロセッサによって実行されると、前記1つ又は複数のプロセッサが請求項1〜8のいずれか1項に記載のコミュニティ質問応答データの検証方法を実行することを特徴とするコンピュータ機器。
  11. コンピュータプログラムが格納されているコンピュータ可読記憶媒体であって、
    該プログラムがプロセッサにより実行されると、請求項1〜8のいずれか1項に記載のコミュニティ質問応答データの検証方法が実行されることを特徴とするコンピュータ可読記憶媒体。
JP2019211256A 2019-02-02 2019-11-22 コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体 Active JP7153004B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910107611.9A CN109783631B (zh) 2019-02-02 2019-02-02 社区问答数据的校验方法、装置、计算机设备和存储介质
CN201910107611.9 2019-02-02

Publications (2)

Publication Number Publication Date
JP2020126587A true JP2020126587A (ja) 2020-08-20
JP7153004B2 JP7153004B2 (ja) 2022-10-13

Family

ID=66504148

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019211256A Active JP7153004B2 (ja) 2019-02-02 2019-11-22 コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体

Country Status (5)

Country Link
US (1) US11372942B2 (ja)
EP (1) EP3690676A1 (ja)
JP (1) JP7153004B2 (ja)
KR (1) KR102324048B1 (ja)
CN (1) CN109783631B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297954B (zh) * 2019-06-14 2022-08-30 北京百度网讯科技有限公司 答案校验处理方法、装置、设备和存储介质
CN110287385A (zh) * 2019-06-18 2019-09-27 素朴网联(珠海)科技有限公司 一种语料数据采集方法、系统及存储介质
CN110362735B (zh) * 2019-07-15 2022-05-13 北京百度网讯科技有限公司 判断陈述真实性的方法和装置、电子设备、可读介质
CN111984775A (zh) * 2020-08-12 2020-11-24 北京百度网讯科技有限公司 问答质量确定方法、装置、设备和存储介质
CN112052320B (zh) * 2020-09-01 2023-09-29 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN112487495B (zh) * 2020-12-01 2021-07-02 厦门立马耀网络科技有限公司 基于大数据和云计算的数据处理方法及大数据服务器
CN112966081B (zh) * 2021-03-05 2024-03-08 北京百度网讯科技有限公司 处理问答信息的方法、装置、设备和存储介质
CN114490965B (zh) * 2021-12-23 2022-11-08 北京百度网讯科技有限公司 问题处理方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127508A (ja) * 2004-10-29 2006-05-18 Microsoft Corp 一般情報検索に信頼できる回答を提供するコンピュータ実行システムと方法
US20100191686A1 (en) * 2009-01-23 2010-07-29 Microsoft Corporation Answer Ranking In Community Question-Answering Sites
WO2016178337A1 (ja) * 2015-05-01 2016-11-10 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
JP2017097561A (ja) * 2015-11-20 2017-06-01 キヤノン株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP2017182457A (ja) * 2016-03-30 2017-10-05 株式会社アドバンスト・メディア 情報処理システム、サーバ、端末装置、情報処理方法及びプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7260568B2 (en) 2004-04-15 2007-08-21 Microsoft Corporation Verifying relevance between keywords and web site contents
US8423484B2 (en) 2009-01-23 2013-04-16 Oxfordian, Llc Prognostics and health management method for aging systems
CN103577556B (zh) * 2013-10-21 2017-01-18 北京奇虎科技有限公司 一种获取问答对的相关联程度的装置和方法
CN104573028B (zh) * 2015-01-14 2019-01-25 百度在线网络技术(北京)有限公司 实现智能问答的方法和系统
KR101772199B1 (ko) 2015-10-30 2017-09-01 (주)유미테크 크라우드 소싱 기반 지식 검증 시스템
CN106910083A (zh) * 2015-12-23 2017-06-30 阿里巴巴集团控股有限公司 提供商品对象信息的方法及装置
US10372743B2 (en) * 2016-07-20 2019-08-06 Baidu Usa Llc Systems and methods for homogeneous entity grouping
US20180144234A1 (en) * 2016-11-20 2018-05-24 Arturo Devesa Sentence Embedding for Sequence-To-Sequence Matching in a Question-Answer System
CN107220296B (zh) * 2017-04-28 2020-01-17 北京拓尔思信息技术股份有限公司 问答知识库的生成方法、神经网络的训练方法以及设备
CN109062973A (zh) * 2018-06-29 2018-12-21 北京百度网讯科技有限公司 一种问答资源的挖掘方法、装置、服务器及存储介质
CN109147934B (zh) * 2018-07-04 2023-04-11 平安科技(深圳)有限公司 问诊数据推荐方法、装置、计算机设备和存储介质
CN109101551B (zh) * 2018-07-10 2023-04-07 广州极天信息技术股份有限公司 一种问答知识库的构建方法及装置
CN108932349B (zh) * 2018-08-17 2019-03-26 齐鲁工业大学 医疗自动问答方法及装置、存储介质、电子设备
CN109213847A (zh) * 2018-09-14 2019-01-15 广州神马移动信息科技有限公司 答案的分层方法及其装置、电子设备、计算机可读介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006127508A (ja) * 2004-10-29 2006-05-18 Microsoft Corp 一般情報検索に信頼できる回答を提供するコンピュータ実行システムと方法
US20100191686A1 (en) * 2009-01-23 2010-07-29 Microsoft Corporation Answer Ranking In Community Question-Answering Sites
WO2016178337A1 (ja) * 2015-05-01 2016-11-10 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
JP2017097561A (ja) * 2015-11-20 2017-06-01 キヤノン株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP2017182457A (ja) * 2016-03-30 2017-10-05 株式会社アドバンスト・メディア 情報処理システム、サーバ、端末装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
US20200250248A1 (en) 2020-08-06
KR102324048B1 (ko) 2021-11-09
CN109783631A (zh) 2019-05-21
US11372942B2 (en) 2022-06-28
KR20200096402A (ko) 2020-08-12
JP7153004B2 (ja) 2022-10-13
EP3690676A1 (en) 2020-08-05
CN109783631B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
JP7153004B2 (ja) コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体
US9558264B2 (en) Identifying and displaying relationships between candidate answers
US10586155B2 (en) Clarification of submitted questions in a question and answer system
US10169706B2 (en) Corpus quality analysis
US9146987B2 (en) Clustering based question set generation for training and testing of a question and answer system
US9703860B2 (en) Returning related previously answered questions based on question affinity
US20140272884A1 (en) Reward Based Ranker Array for Question Answer System
US20160098444A1 (en) Corpus Management Based on Question Affinity
US10282678B2 (en) Automated similarity comparison of model answers versus question answering system output
US20180204106A1 (en) System and method for personalized deep text analysis
US10628749B2 (en) Automatically assessing question answering system performance across possible confidence values
US10783140B2 (en) System and method for augmenting answers from a QA system with additional temporal and geographic information
CN117573985A (zh) 一种应用于智能化在线教育系统的信息推送方法及系统
CN114238668B (zh) 行业信息展示方法、系统、计算机设备和存储介质
US20220269745A1 (en) System and Methods for Scrubbing Social Media Content
CN113656574B (zh) 用于搜索结果排序的方法、计算设备和存储介质
EP4298489A1 (en) System and methods for standardizing scoring of individual social media content

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200206

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210511

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220930

R150 Certificate of patent or registration of utility model

Ref document number: 7153004

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150