JP2021168107A - 質問分析方法、装置、知識ベース質問応答システム、電子機器、記憶媒体及びプログラム - Google Patents

質問分析方法、装置、知識ベース質問応答システム、電子機器、記憶媒体及びプログラム Download PDF

Info

Publication number
JP2021168107A
JP2021168107A JP2020191447A JP2020191447A JP2021168107A JP 2021168107 A JP2021168107 A JP 2021168107A JP 2020191447 A JP2020191447 A JP 2020191447A JP 2020191447 A JP2020191447 A JP 2020191447A JP 2021168107 A JP2021168107 A JP 2021168107A
Authority
JP
Japan
Prior art keywords
question
topology
semantic
topology map
representation vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020191447A
Other languages
English (en)
Other versions
JP7064554B2 (ja
Inventor
文斌 姜
Wenbin Jiang
環宇 周
Huanyu Zhou
孟 田
Meng Tian
盈 李
Ying Li
新偉 馮
Xinwei Feng
勲超 宋
Xunchao Song
鵬程 袁
Pengcheng Yuan
雅娟 呂
Yajuan Lyu
勇 朱
Yong Zhu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021168107A publication Critical patent/JP2021168107A/ja
Application granted granted Critical
Publication of JP7064554B2 publication Critical patent/JP7064554B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Testing And Monitoring For Control Systems (AREA)
  • Alarm Systems (AREA)

Abstract

【課題】ユーザが自然言語の形で提起した質問に直接答えることができる質問分析方法、装置、知識ベース質問応答システム及び電子機器を提供する。
【解決手段】質問分析方法は、質問を分析して1より大きい整数であるN個の線形シーケンスを得るステップと、N個の線形シーケンスをそれぞれN個のトポロジマップに変換するステップと、N個のトポロジマップの各トポロジマップと質問とのセマンティックマッチング度をそれぞれ算出するステップと、N個のトポロジマップから、質問とのセマンティックマッチング度が最も高いトポロジマップを質問のクエリグラフとして選択するステップと、を含む。
【選択図】図1

Description

本開示は、データ処理技術に関し、特に知識ベース質問応答技術分野に関し、具体的には、質問分析方法、装置、知識ベース質問応答システム及び電子機器に関する。
知識ベース質問応答(Knowledge Base Question Answering、KBQAと略称)は、知識グラフ(Knowledge Graph、KGと略称)を知識ベースと質問応答であって、ユーザが自然言語の形で提起した質問に直接答えることができる。
知識ベース質問応答技術では、通常、セマンティック分析技術を採用しているが、クエリグラフは、明瞭且つ簡潔なセマンティック表現特性を有するため、知識ベース質問応答技術でますます多く使用されている。然しながら、現在、質問クエリグラフを取得する方式としては、大体的に、質問の単語シーケンスを簡単に融合して質問のクエリグラフを得る。複雑な質問の場合、その単語シーケンスの融合方式が比較的多い可能性があるが、これにより、融合によって生成されるクエリグラフの正確性が比較的悪くなり得る。
本出願は、質問分析方法、装置、知識ベース質問応答システム及び電子機器を提供する。
第1の側面によれば、本出願は、質問分析方法を提供する。前記方法は、
質問を分析して1より大きい整数であるN個の線形シーケンスを得るステップと、
前記N個の線形シーケンスをそれぞれN個のトポロジマップに変換するステップと、
前記N個のトポロジマップの各トポロジマップと前記質問とのセマンティックマッチング度をそれぞれ算出するステップと、
前記N個のトポロジマップから、前記質問とのセマンティックマッチング度が最も高いトポロジマップを前記質問のクエリグラフとして選択するステップとを含む。
第2の側面によれば、本出願は、質問分析装置を提供する。前記質問分析装置は、
質問を分析して1より大きい整数であるN個の線形シーケンスを得るための分析モジュールと、
前記N個の線形シーケンスをそれぞれN個のトポロジマップに変換するための変換モジュールと、
前記N個のトポロジマップの各トポロジマップと前記質問とのセマンティックマッチング度をそれぞれ算出するための算出モジュールと、
前記N個のトポロジマップから、前記質問とのセマンティックマッチング度が最も高いトポロジマップを前記質問のクエリグラフとして選択するための選択モジュールとを含む。
第3の側面によれば、本出願は、質問分析装置を提供する。前記質問分析装置は、
質問を取得し、前記質問を分析して1より大きい整数であるN個の線形シーケンスを得る翻訳モデルと、
入力端が前記翻訳モデルの出力端に連結され、且つ前記N個の線形シーケンスを取得し、前記N個の線形シーケンスをそれぞれN個のトポロジマップに変換するシーケンス・ツー・グラフ(sequence−to−graph)変換モデルと、
入力端が前記シーケンス・ツー・グラフ変換モデルの出力端に連結され、且つ前記質問及び前記N個のトポロジマップを取得し、前記質問に対して第1エンコーディングを行って、前記質問のセマンティック表現ベクトルを得、さらに、前記N個のトポロジマップの各トポロジマップに対して第2エンコーディングを行って、各トポロジマップのセマンティック表現ベクトルを得るエンコーディングネットワークと、
入力端が前記エンコーディングネットワークの出力端に連結され、且つ前記質問のセマンティック表現ベクトル及び各トポロジマップのセマンティック表現ベクトルを取得し、前記質問のセマンティック表現ベクトル及び各トポロジマップのセマンティック表現ベクトルに基づいて、各トポロジマップと前記質問とのセマンティックマッチング度を算出するマッチングネットワークとを含む。
第4の側面によれば、本出願は、知識ベース質問応答システムを提供する。前記知識ベース質問応答システムは、第2の側面に係る質問分析装置を含むか、或いは、
前記知識ベース質問応答システムは、第3の側面に係る質問分析装置を含む。
第5の側面によれば、本出願は、電子機器を提供する。前記電子機器は、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されるメモリとを含み、
前記メモリに前記少なくとも一つのプロセッサによって実行可能な命令が格納されており、前記命令は、前記少なくとも一つのプロセッサによって実行されて、前記少なくとも一つのプロセッサが第1の側面に係る方法を実行可能にする。
第6の側面によれば、本出願は、コンピュータ命令が記憶されている非一時的コンピュータ読み取り可能記憶媒体を提供する。前記コンピュータ読み取り可能記憶媒体は、前記コンピュータ命令は、前記コンピュータに第1の側面に係る方法を実行させるために用いられることを特徴する。
本出願の技術によれば、質問のクエリグラフを比較的正確に得ることができ、質問・ツー・クエリグラフ(question to the query graph)の正確性を向上させ、したがって質問分析の正確性を向上させる。本出願は、従来技術における単語シーケンス融合方式に基づいて生成されるクエリグラフの正確性が比較的悪いという問題点を解決する。
このセクションで説明される内容は、本開示の実施例のクリティカル又は重要な特徴を識別することを意図するものでも、本開示の範囲を制限することを意図するものでもないことを理解されたい。本開示の他の特徴は以下の明細書により理解しやすくなるだろう。
図面は、本方案をよりよく理解するためのものであり、本出願を限定するものではない。
本出願の第1実施例に係る質問分析方法のフロー概略図である。 本出願の第1実施例に係るトポロジ概略図である。 本出願の第1実施例に係るトポロジ概略図である。 本出願の第1実施例に係るトポロジ概略図である。 本出願の第1実施例に係る質問・ツー・クエリグラフの全体的なフロー概略図である。 本出願の第1実施例に係る質問・ツー・候補クエリグラフの概略図である。 本出願の第1実施例に係る候補クエリグラフからクエリグラフを確定することを示す概略図である。 本出願の第1実施例に係る候補クエリグラフからクエリグラフを確定することを示す概略図である。 図8の二つの選択的な実施形態を示す概略図である。 図8の二つの選択的な実施形態を示す概略図である。 図9のアテンションメカニズムの導入を示す概略図である。 図10のテンションメカニズムの導入を示す概略図である。 本出願の第2実施例に係る質問分析装置の構造概略図である。 本出願の第3実施例に係る質問分析装置の構造概略図である。 本出願の実施例に係る質問分析方法を具現するための電子機器のブロック図である。
以下、図面を結び付けて、本出願の例示的な実施例を説明し、その中には、理解に役立つように、本出願の実施例の各種の詳細が含まれるが、これらの詳細は単に例示的なものとみなされるべきである。したがって、当業者は、本出願の範囲及び精神を逸脱することなく、本明細書で説明される実施例に対して様々な変更及び修正を実施し得ることを認識すべきである。同様に、明確さと簡潔さを期するために、以下の説明において、よく知られている機能及び構造についての説明は省略されている。
第1実施例
図1に示す如く、本出願は、質問分析方法を提供する。前記方法は、以下のステップを含む。
ステップ101:質問を分析して1より大きい整数であるN個の線形シーケンスを得る。
用語「質問」は、ユーザが自然言語の形で提起した質問として理解され得る。前記質問は、ユーザインターフェイスを介してユーザによって質問分析装置に入力され得る。質問分析装置にとって、前記質問は「情報」とも称され得る。
用語「線形(Linearized)シーケンス」は、質問の関連単語と補助シンボルとが線形化方式で順序付けられて形成されたシーケンスとして理解され得るが、線形シーケンスはシンボルシーケンスとも称され得る。
線形シーケンスの意味は、シンボルシーケンスの方式により、グラフ状の構造を表現するか、或いは、線形又は1次元表現方式で2次元の構造を表現することにある。例えば、線形シーケンス「(A(B、C))」は「Aを父親とし、B及びCを子とする有向グラフ構造」を示し得、A、B、Cはグラフにおけるノードを表し、括弧は補助シンボルであり、AからそれぞれB及びCを指す有向辺が出、辺の方向は血縁関係の伝承方向を表し、Aは線形シーケンスの応答ノードとして理解され得、B及びCは線形シーケンスのエンティティノードとして理解され得る。線形シーケンスのエンティティノードは、質問の関連単語として理解され得る。
ユーザが自然言語の形で提起した質問において、最も小さいセマンティックユニットは、単語(又は文字)である。該ステップで、質問を分析して線形シーケンスを得る過程は、質問から質問への単語シーケンス(又は文字シーケンス)、それから質問の単語シーケンスから線形シーケンスへの過程として理解され得る。
質問を分析して線形シーケンスを得る過程で、質問の単語シーケンスから線形シーケンスへの変換ルールを学習することによって、質問からN個の線形シーケンスへの目的を達成し得る。例えば、適切なルールを通じて、特定の補助シンボルを追加して、質問の単語シーケンスを各種のシンボルシーケンスの線形化形態に表し得る。
本出願において、質問の単語シーケンス及び線形シーケンスは、いずれもシーケンスであり、即ち、ソース端は質問を構成する単語シーケンスであり、ターゲット端は線形化された後の単語及び補助シンボルシーケンスであるため、シーケンス・ツー・シーケンスニューラルネットワーク(sequence−to−sequence neural network)を採用して、機械翻訳の方式により質問から線形シーケンスへの変換を実現し得る。言い換えれば、シーケンス・ツー・シーケンスニューラルネットワークに翻訳モデルを構成して、翻訳モデルによって質問から線形シーケンスへの変換を実現できる。シーケンス・ツー・シーケンスニューラルネットワークは、大量の質問―線形シーケンスペアから構成されるトレーニングコーパスをトレーニングして得られる。
複雑な質問であるほど、関連される単語の数が多いが、単一質問の場合、機械によって複数の可能な単語シーケンスとして理解され得るため、シーケンス・ツー・シーケンスニューラルネットワークは、複数の可能な線形シーケンスを出力でき、即ち、シーケンス・ツー・シーケンスニューラルネットワークは、質問を分析してN個の線形シーケンス得ることができる。質問を分析してN個の線形シーケンスを得ることで、質問の分析がより全面的になることができる。また、質問を分析してN個の線形シーケンスを得る処理過程が比較的簡単で、速くて、処理時間が比較的短いため、質問を分析することで、質問の全ての可能な線形シーケンスを迅速かつ全面的に得ることができる。
ステップ102:前記N個の線形シーケンスをそれぞれN個のトポロジマップに変換する。
質問を分析してN個の線形シーケンスを得た後、該ステップでは、N個の線形シーケンスをN個のトポロジマップにそれぞれ変換させることを実現できる。
トポロジマップは、有向非循環グラフとも称される。前述したように、線形シーケンスの意味は、シンボルシーケンスの方式によりグラフ状の構造を表現するか、或いは、線形又は1次元の表現方式で2次元の構造を表現することにある。このことから分かるように、線形シーケンスは、実際、トポロジマップの一表現形態である。したがって、N個の線形シーケンスとN個のトポロジマップとは、一対一対応する関係であり、言い換えれば、各線形シーケンスは、いずれも唯一のトポロジマップに変換され得る。
簡単なルールを通じて線形シーケンスをトポロジマップに変換し得るか、或いは、簡単なルールを通じてトポロジマップを線形シーケンスに変換し得る。両者の変換過程は、大体下記の通りである。先ず、線形シーケンスの各有向辺に逆方向辺を追加し、辺の方向は反対であり、区別を示すように、辺のラベルに、例えば「reversed(反対)」のような特定の表記を加える。そして、線形シーケンスの応答ノードをルートノードとして、応答ノードをルートとし、線形シーケンスにおけるエンティティノードをリーフとし、線形シーケンスの全てのノードを包括する有向非循環連結グラフ(又は「スパニングツリー」と称される)を生成する。第一段階での逆方向辺を追加する操作は、第二段階でのスパニングツリーアルゴリズムにより多くの巡回経路を提供する。第二段階のスパニングツリーアルゴリズムは、古典的なデータ構造におけるスパニングツリーアルゴリズムにより改編されてできたものであり得るが、行われる改編操作は、オブジェクトを処理して無向グラフから有向グラフへ拡張させ、生成過程でルートノード及びリーフノードを固定しておくことを含む。一例として、線形シーケンス(A(B、C))は、図2に示されるようなトポロジマップに変換され得る。
本出願は、シーケンス・ツー・グラフ変換モデルを構成することで、シーケンス・ツー・グラフ変換モデルによって線形シーケンスからトポロジマップへの変換を実現することができる。
トポロジマップにおけるトポロジー情報は、質問のセマンティック表現を明確かつ簡潔で直感的に体現することができ、機械は、トポロジマップをより良く理解できる。前述されたクエリグラフは、トポロジマップに属する。
ここまで、ステップ101乃至ステップ102を通じて、質問に対応するN個のトポロジーマップを得たが、該N個のトポロジマップは、最終的なクエリグラフではなく、質問の候補クエリグラフとして理解され得る。
本出願において、質問に対応するN個のトポロジーマップが得られた場合、トポロジマップと質問の間のセマンティックマッチング度に基づいて、N個のトポロジマップから質問とのセマンティックマッチング度が最も高いトポロジマップが確定されて質問のクエリグラフとされ得るが、その過程は、ステップ103乃至ステップ104を通じて実現される。
説明すべきことは、N個の線形シーケンスをN個のトポロジマップに変換する処理過程が比較的簡単で、速くて、処理時間が比較的短いため、質問の全ての可能な候補クエリグラフを迅速かつ全面的に得ることができる。
ステップ103:前記N個のトポロジマップの各トポロジマップと前記質問とのセマンティックマッチング度をそれぞれ算出する。
セマンティックマッチング度は、セマンティック理解の面での質問とトポロジマップとのマッチング度合いを比較的上手く体現でき、質問とトポロジマップの間の関連度合いを比較的上手く特徴付けることができる。
本出願は、マッチングネットワークを構成することで、マッチングネットワークによってトポロジマップと質問とのセマンティックマッチング度の算出を実現することができる。
ステップ104:前記N個のトポロジマップから、前記質問とのセマンティックマッチング度が最も高いトポロジマップを前記質問のクエリグラフとして選択する。
N個のトポロジマップから質問とのセマンティックマッチング度が最も高いトポロジマップを選択することで、確定された質問のクエリグラフに比較的高い正確性を持たせる。
一例として、ユーザが入力した質問が「世界で最も長い川は何ですか?」であると仮定すると、該質問に対応する線形シーケンスは、「(A(長さ(順序1))(川である)(世界に位置する))」であり得、該線形シーケンスは、図3に示されるようなトポロジマップに変換され得るか、或いは、該質問に対応する線形シーケンスは、「A(時間(順序1))(川である)(世界に位置する))」でもあり得、該線形シーケンスは、図4に示されるようなトポロジマップに変換され得る。上記の図3乃至図4に示されるトポロジマップを得た後、図3及び図4に示されるトポロジマップと質問とのセマンティックマッチング度をそれぞれ算出し得る。図3に示されるトポロジマップと質問とのセマンティックマッチング度が図4に示されるトポロジマップと質問とのセマンティックマッチング度より高い場合、図3に示されるトポロジマップを質問のクエリグラフとする。
上記の質問・ツー・クエリグラフの過程全般にわたって、ラフからファインまでの二つの過程が含まれる。そのうち、第一過程は、質問・ツー・候補クエリグラフの変換を実現し、第二過程は、候補クエリグラフからクエリグラフを確定することを実現する。前者は、シーケンス・ツー・シーケンスの方式で質問の単語シーケンスから線形シーケンスへの変換を迅速かつ効率的に実現し、線形シーケンスからトポロジマップへの変換を迅速かつ効率的に実現し、したがって質問のために複数の候補クエリグラフを生成することを迅速かつ効率的に実現する。後者は、質問とクエリグラフの間の正確なマッチングを実現し、質問・ツー・クエリグラフの正確性を向上させ、したがって質問分析の正確性を向上させる。上記の技術手段を採用するため、従来技術における単語シーケンス融合方式に基づいて生成されたクエリグラフの正確性が比較的低いという問題点を上手く解決した。
上記の質問・ツー・クエリグラフの全過程をよりよく理解するために、本出願は、図5乃至図7を通じて質問・ツー・クエリグラフのフロー全般(図5を参照)、質問・ツー・候補クエリグラフの変換フロー(図6を参照)及び候補クエリグラフからクエリグラフを確定するフロー(図7を参照)をそれぞれ示している。図6において、トポロジマップ1、…、トポロジマップnは、いずれも候補クエリグラフである。
以下、トポロジマップと質問の間のセマンティックマッチング度を算出する関連実施形態を説明する。
選択的に、前記N個のトポロジマップの各トポロジマップと前記質問とのセマンティックマッチング度をそれぞれ算出するステップは、
前記質問のセマンティック表現ベクトルを取得するステップと、
前記N個のトポロジマップの各トポロジマップのセマンティック表現ベクトルを取得するステップと、
前記質問のセマンティック表現ベクトル及び各トポロジマップのセマンティック表現ベクトルに基づいて、各トポロジマップと前記質問とのセマンティックマッチング度をそれぞれ算出するステップとを含む。
本出願において、質問のセマンティック表現ベクトル及びトポロジマップのセマンティック表現ベクトルを取得するように、質問及びトポロジマップのセマンティック表現をそれぞれ算出してから、これら二つのセマンティック表現ベクトルの間のマッチング度合いを算出し得る。説明すべきことは、上記の前記質問のセマンティック表現ベクトルを取得するステップと上記の前記N個のトポロジマップの各トポロジマップのセマンティック表現ベクトルを取得するステップとは、実行の前後順序が限定されない。
図8に示す如く、本出願は、エンコーディングネットワークを構成することで、エンコーディングネットワークによって質問及びトポロジマップのセマンティック表現の算出を実現することができる。図8において、第1セマンティック表現ベクトルは、質問のセマンティック表現ベクトルであり、第2セマンティック表現ベクトルはトポロジマップのセマンティック表現ベクトルである。
本出願は、統一的なエンコーディングネットワークを構成することで、エンコーディングネットワークによって質問及びトポロジマップのセマンティック表現の算出を統一的に実現して、質問及びトポロジマップのセマンティック表現ベクトルを得ても良く、異なるエンコーディングネットワークを構成することで、異なるエンコーディングネットワークによって質問及びトポロジマップのセマンティック表現の算出をそれぞれ実現して、質問及びトポロジマップのセマンティック表現ベクトルを得ても良い。
該実施形態において、セマンティック表現ベクトルは、質問又はトポロジマップのセマンティック表現を比較的正確に体現できるため、質問及びトポロジマップのセマンティック表現ベクトルを取得し、両者のセマンティック表現ベクトルに基づいて両者のセマンティックマッチング度を算出でき、質問とトポロジマップの間の関連度合いをより正確に特徴付けるのに有利である。
さらに、本出願は、コサイン方式により二つのセマンティック表現ベクトルの間のマッチング度合いを算出しても良く、ニューラルネットワークを採用して二つのセマンティック表現ベクトルの間のマッチング度合いを算出しても良く、本出願は、これに対して限定しないことにする。
トポロジマップのセマンティック表現に対して、本出願はグラフニューラルネットワーク(又は、グラフニューラルネットワークエンコーダと称される)を採用してトポロジマップのセマンティック表現を算出し得、即ち、グラフニューラルネットワークを介してトポロジマップのためにそのセマンティック表現ベクトルを生成し得る。
質問のセマンティック表現に対して、本出願は、二つの方式により処理を行うことができる。一つ目は、シーケンスニューラルネットワーク、例えばRNN(Recurrent Neural Network、循環ニューラルネットワーク)、BERT(Bidirectional Encoder Representations from Transformers、トランスフォーマーからの双方向エンコーダ表現)、ERNIE(Enhanced Representation from kNowledge IntEgration、知識統合による拡張表現)等を採用して質問のセマンティック表現を算出し、即ち、シーケンスニューラルネットワーク(又は、シリアル化エンコーダと称される)を介して質問のためにそのセマンティック表現ベクトルを生成する。二つ目は、質問の単語シーケンスもグラフ構造と見なし、グラフニューラルネットワークを利用してそのセマンティック表現を算出し、即ち、グラフニューラルネットワークを介して質問のためにセマンティック表現ベクトルを生成する。以下では、この二つの方式をそれぞれ説明する。
選択的に、前記質問のセマンティック表現ベクトルを取得するステップは、
前記質問の単語シーケンスに対応するセマンティック表現ベクトルを取得するステップ、又は
前記質問の単語シーケンスをグラフ構造に変換させ、前記グラフ構造のセマンティック表現ベクトルを取得するステップを含む。
一実施形態として、図9に示す如く、シーケンスニューラルネットワーク(又は、シリアル化エンコーダと称される)を介して質問の単語シーケンスを一つのセマンティック表現ベクトルに表し得る。
該実施形態において、質問の単語シーケンスに対応するセマンティック表現ベクトルを取得することにおいて、その処理が比較的簡単で、直接的かつ迅速であるため、質問の単語シーケンスに対応するセマンティック表現ベクトルを取得するにあたって、効率が比較的高いという特徴を有する。
別の実施形態として、図10に示す如く、質問の単語シーケンスを先ずグラフ構造に表現してから、グラフニューラルネットワーク(又は、グラフニューラルネットワークエンコーダと称される)を介してグラフ構造のセマンティック表現ベクトルを取得し得る。
該実施形態において、下記のような方式により質問の単語シーケンスをグラフ構造に表現し得る。単語シーケンス内の任意の2つの単語の間に一つの辺があると仮定し、質問における単語の間のセマンティック関連を説明するように、質問の単語シーケンスを一つの完全連結グラフに変換する。即ち、前記グラフ構造は完全連結グラフであり、前記完全連結グラフにおいて、前記質問の単語シーケンス内の任意の単語はノードとされ、任意の2つのノードは互いに連結される。
該実施形態において、自然言語処理依存分析の結果によって質問の単語シーケンスをグラフ構造に表現しても良い。該方式において、依存分析によって得られたツリー構造を質問単語シーケンスを表すグラフ構造とする。
説明すべきことは、グラフニューラルネットワークを介して質問のセマンティック表現ベクトルを取得し、グラフニューラルネットワークを介してトポロジマップのセマンティック表現ベクトルを取得する実施形態において、統一的なグラフニューラルネットワークを構成することで、グラフニューラルネットワークによって質問及びトポロジマップのセマンティック表現の算出を統一的に実現して、質問及びトポロジマップのセマンティック表現ベクトルを得ても良く、異なるグラフニューラルネットワークを構成することで、異なるグラフニューラルネットワークによって質問及びトポロジマップのセマンティック表現の算出をそれぞれ実現して、質問及びトポロジマップのセマンティック表現ベクトルを得ても良い。
上記の実施形態のいずれかを問わず、質問に対応するセマンティック表現ベクトルを効果的に取得することができる。実際の応用では、実際の必要に応じて、いずれか適切な方式を選択して実施し得る。
本出願において、質問及びトポロジマップのセマンティック表現ベクトルを取得する過程で、アテンションメカニズムを導入して取得過程を改善し得る。次は、アテンションメカニズムの導入に関連する説明である。
選択的に、前記方法は、
前記質問のセマンティック表現ベクトル及び前記トポロジマップのセマンティック表現ベクトルを取得する過程で、アテンションメカニズムに基づいて前記質問と前記トポロジマップの間で情報インタラクションを行って、前記質問のセマンティック表現ベクトル及び前記トポロジマップのセマンティック表現ベクトルを生成するステップを更に含む。
該実施形態において、質問及びトポロジマップのセマンティック表現学習過程で、アテンションメカニズムを導入することで、質問とトポロジマップの間のより十分な情報インタラクションを実現することができる。
具体的には、上記の質問の単語シーケンスに対応するセマンティック表現ベクトルを取得する実施形態は、質問の単語シーケンス内の各単語からいずれもトポロジマップにおける各ノードを注目することができ、トポロジマップにおける各ノードからも質問の単語シーケンス内の各単語を注目することができる。
上記の質問の単語シーケンスをグラフ構造に変換し、グラフ構造のセマンティック表現ベクトルを取得する実施形態は、質問グラフ構造にける各ノードからいずれもトポロジマップにおける各ノードを注目することができ、トポロジーマップにおける各ノードからも質問グラフ構造における各単語を注目することができる。
図11乃至図12は、それぞれ図9乃至図10のアテンションメカニズムの導入を示す概略図である。
このように、アテンションメカニズムを導入することで、質問のセマンティック表現学習過程でトポロジマップからのセマンティック表現情報を利用でき、それに相応して、トポロジマップのセマンティック表現学習過程でも質問からのセマンティック表現情報を利用して、それぞれのセマンティック表現学習効果の向上を補助することができる。
したがって、アテンションメカニズムを導入することで、より広範囲で十分な情報インタラクションは、質問とトポロジマップの間のセマンティックマッチング効果を向上させることができ、これにより、質問・ツー・クエリグラフの正確性をさらに向上させ、質問分析の正確性をさらに向上させることができる。
説明すべきことは、本出願に係る質問分析方法における様々な選択的な実施形態は、互いに結合されて具現されても良く、個別に具現されても良く、本出願はこれに対して限定しないことにする。
本出願の上記の実施例は、少なくとも下記のような利点又は有益な効果を有する。
本出願において、質問分析過程には、ラフからファインまでの二つの過程が含まれる。そのうち、第一過程は、質問・ツー・候補クエリグラフの変換を実現し、第二過程は、候補クエリグラフからクエリグラフを確定することを実現する。前者は、シーケンス・ツー・シーケンスの方式で質問の単語シーケンスから線形シーケンスへの変換を迅速かつ効率的に実現し、線形シーケンスからトポロジマップへの変換を迅速かつ効率的実現し、したがって質問のために複数の候補クエリグラフを生成することを迅速かつ効率的に実現する。後者は、質問とクエリグラフの間の正確なマッチングを実現し、質問・ツー・クエリグラフの正確性を向上させ、したがって質問分析の正確性を向上させる。上記の技術手段を採用するため、従来技術における単語シーケンス融合方式に基づいて生成されたクエリグラフの正確性が比較的低いという問題点を上手く解決する。
第2実施例
図13に示す如く、本出願は、質問分析装置200を提供する。前記質問分析装置200は、
質問を分析して1より大きい整数であるN個の線形シーケンスを得るための分析モジュール201と、
前記N個の線形シーケンスをそれぞれN個のトポロジマップに変換するための変換モジュール202と、
前記N個のトポロジマップの各トポロジマップと前記質問とのセマンティックマッチング度をそれぞれ算出するための算出モジュール203と、
前記N個のトポロジマップから、前記質問とのセマンティックマッチング度が最も高いトポロジマップを前記質問のクエリグラフとして選択するための選択モジュール204とを含む。
選択的に、算出モジュール203は、
前記質問のセマンティック表現ベクトルを取得するための第1取得サブモジュールと、
前記N個のトポロジマップの各トポロジマップのセマンティック表現ベクトルを取得するための第2取得サブモジュールと、
前記質問のセマンティック表現ベクトル及び各トポロジマップのセマンティック表現ベクトルに基づいて、各トポロジマップと前記質問とのセマンティックマッチング度をそれぞれ算出するための算出サブモジュールとを含む。
選択的に、前記第1取得サブモジュールは、具体的に、
前記質問の単語シーケンスに対応するセマンティック表現ベクトルを取得するか、或いは、
前記質問の単語シーケンスをグラフ構造に変換させ、前記グラフ構造のセマンティック表現ベクトルを取得するために用いられる。
選択的に、前記グラフ構造は完全連結グラフであり、前記完全連結グラフにおいて、前記質問的単語シーケンス内の任意の単語はノードとされ、任意の2つのノードは互いに連結される。
選択的に、質問分析装置200は、
前記質問のセマンティック表現ベクトル及び前記トポロジマップのセマンティック表現ベクトルを取得する過程で、アテンションメカニズムに基づいて前記質問と前記トポロジマップの間で情報インタラクションを行って、前記質問のセマンティック表現ベクトル及び前記トポロジマップのセマンティック表現ベクトルを生成するためのインタラクションモジュールを更に含む。
本出願に係る質問分析装置200は、上記の質問分析方法実施例における質問分析装置によって具現される各々の過程を具現でき、かつ同じ有益な効果を達成できるが、重複を避けるために、ここでは繰り返し説明しないことにする。
第3実施例
図14に示す如く、本出願は、質問分析装置300を提供する。前記質問分析装置300は、
質問を取得し、前記質問を分析して1より大きい整数であるN個の線形シーケンスを得る翻訳モデル301と、
入力端が翻訳モデル301の出力端に連結され、且つ前記N個の線形シーケンスを取得し、前記N個の線形シーケンスをそれぞれN個のトポロジマップに変換するシーケンス・ツー・グラフ変換モデル302と、
入力端がシーケンス・ツー・グラフ変換モデル302の出力端に連結され、且つ前記質問及び前記N個のトポロジマップを取得し、前記質問に対して第1エンコーディングを行って、前記質問のセマンティック表現ベクトルを得、さらに、前記N個のトポロジマップの各トポロジマップに対して第2エンコーディングを行って、各トポロジマップのセマンティック表現ベクトルを得るエンコーディングネットワーク303と、
入力端がエンコーディングネットワーク303の出力端に連結され、且つ前記質問のセマンティック表現ベクトル及び各トポロジマップのセマンティック表現ベクトルを取得し、前記質問のセマンティック表現ベクトル及び各トポロジマップのセマンティック表現ベクトルに基づいて、各トポロジマップと前記質問とのセマンティックマッチング度を算出するマッチングネットワーク304とを含む。
選択的に、図14に示す如く、エンコーディングネットワーク303は、
前記質問を取得し、前記質問に対してエンコーディングを行って、前記質問のセマンティック表現ベクトルを得る第1エンコーダ3031と、
入力端がシーケンス・ツー・グラフ変換モデル302の出力端に連結され、且つ前記N個のトポロジマップを取得し、前記N個のトポロジマップの各トポロジマップに対してエンコーディングを行って、各トポロジマップのセマンティック表現ベクトルを得る第2エンコーダ3032とを含み、
第1エンコーダ3031の出力端及び第2エンコーダ3032の出力端は、いずれもマッチングネットワーク304の入力端に連結される。
選択的に、第1エンコーダ3031はシリアル化エンコーダであり、第2エンコーダ3032は第1グラフニューラルネットワークエンコーダであるか、或いは、
第1エンコーダ3031は第2グラフニューラルネットワークエンコーダであり、第2エンコーダ3032は第3グラフニューラルネットワークエンコーダである。
選択的に、第1エンコーダ3031と第2エンコーダ3032とは、アテンションメカニズムに基づいて情報インタラクションを行う。
本出願に係る質問分析装置300は、上記の質問分析方法実施例における質問分析装置によって具現される各々の過程を具現でき、かつ同じ有益な効果を達成できるが、重複を避けるために、ここでは繰り返し説明しないことにする。
第4実施例
本出願は、知識ベース質問応答システムを更に提供する。前記知識ベース質問応答システムは、第2実施例に係る質問分析装置を含むか、或いは、
前記知識ベース質問応答システムは、第3実施例に係る質問分析装置を含む。
本出願に係る知識ベース質問応答システムは、上記の質問分析方法実施例における各々の過程を具現でき、かつ同じ有益な効果を達成できるが、重複を避けるために、ここでは繰り返し説明しないことにする。
本出願の実施例によれば、本出願は、電子機器及び読み取り可能記憶媒体を更に提供する。
図15に示す如く、本出願の実施例に係る質問分析方法の電子機器のブロック図を図示している。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、大型コンピュータのような各種の形のデジタルコンピュータ及びその他の適切なコンピュータを表すことを意図している。電子機器は、例えば、パーソナルデジタルプロセッサ、セルラーフォン、スマートフォン、ウェアラブル機器及びその他の類似のコンピューティング装置のような様々な形のモバイル装置も表し得る。本明細書に示されたコンポーネント、それらの接続及び関係、並びにそれらの機能は単なる例示的なものに過ぎず、本明細書で説明及び/又は要求される本出願の具現を制限することを意図していない。
図15に示す如く、該電子機器は、一つ又は複数のプロセッサ501と、メモリ502と、高速インタフェース及び低速インタフェースを含む各コンポーネントを接続させるためのインタフェースとを含む。各コンポーネントは、異なるバスを利用して相互に連結され、共通マザーボードに装着されるか、又は必要に応じて他の方式で装着され得る。プロセッサは、メモリ内に又はメモリ上に格納されて外部入力/出力装置(例えば、インターフェースにカップリングされた表示機器)にGUIのグラフィック情報を表示するための命令を含む電子機器内で実行される命令を処理し得る。その他の実施形態において、必要な場合、複数のプロセッサ及び/又は複数のバスが複数のメモリとともに使用され得る。同様に、複数の電子機器が連結されて、各機器によって一部の必要な操作を提供し得る(例えば、サーバアレイ、一グループのブレードサーバ、又はマルチプロセッサシステムとして)。図15では、1つのプロセッサ501を例としている。
メモリ502は、本出願に係る非一時的コンピュータ読み取り可能記憶媒体である。前記メモリは、少なくとも一つのプロセッサによって実行可能な命令が格納されていて、前記少なくとも一つのプロセッサに本出願に係る質問分析方法を実行させる。本出願の非一時的コンピュータ読み取り可能記憶媒体はコンピュータ命令を格納し、該コンピュータ命令は、コンピュータに本出願に係る質問分析方法を実行させるために用いられる。
メモリ502は、非一時的コンピュータ読み取り可能記憶媒体として、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能プログラム及びモジュール、例えば、本出願の実施例に係る質問分析方法に対応するプログラム命令/モジュール(例えば、図13に示される分析モジュール201、変換モジュール202、算出モジュール203及び選択モジュール204)を格納するために用いられ得る。プロセッサ501は、メモリ502に格納されている非一時的ソフトウェアプログラム、命令及びモジュールを実行することで、質問分析装置の各種の機能アプリケーション及びデータ処理を実行して、上記の方法実施例に係る質問分析方法を具現する。
メモリ502は、プログラム格納領域と、データ格納領域とを含み得る。プログラム格納領域は、オペレーティングシステム及び少なくとも一つの機能に必要なアプリケーションを格納し得る。データ格納領域は、質問分析方法の電子機器の使用によって作成されたデータ等を格納し得る。なお、メモリ502は、高速ランダムアクセスメモリを含み得、非一時的メモリ、例えば少なくとも一つの磁気ディスク記憶装置、フラッシュ記憶装置、又はその他の非一時的ソリッドステート記憶装置を更に含み得る。いくつかの実施例において、メモリ502は、選択的に、プロセッサ501に対してリモートに設置されたメモリを含み、これらのリモートメモリはネットワークを介して質問分析方法の電子機器に連結され得る。上記のネットワークの例として、インターネット、企業イントラネット、ローカルエリアネットワーク(LAN)、移動通信ネットワーク及びこれらの組み合わせを含むがこれらに限定されない。
質問分析方法の電子機器は、入力装置503と、出力装置504とを更に含み得る。プロセッサ501、メモリ502、入力装置503及び出力装置504は、バス又は他の方式により連結され得るが、図15では、バスによる連結を例としている。
入力装置503は、入力された数字又は文字情報を受信し、質問分析方法の電子機器のユーザ設定及び機能制御に関するキー信号入力、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、一つ又は複数のマウスボタン、トラックボール、ジョイスティック等の入力装置の入力を生成し得る。出力装置504は、表示機器、補助照明装置(例えば、LED)及び触覚フィードバック装置(例えば、振動モータ)等を含み得る。該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを含み得るがこれらに限定されない。いくつかの実施形態において、表示機器は、タッチスクリーンであり得る。
ここで説明されるシステム及び技術の各種の実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(特定用途向け専用の集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はこれらの組み合わせにおいて具現され得る。これらの各種の実施形態は、一つ又は複数のコンピュータプログラムで実施される実施形態を含み得る。該一つ又は複数のコンピュータプログラムは、少なくとも一つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈され得る。該プログラマブルプロセッサは、専用又は汎用プログラマブルプロセッサであり得、格納システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を該格納システム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送し得る。
これらのコンピューティングプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも称される)は、プログラマブルプロセッサのマシン命令を含み、高度プロセス及び/又はオブジェクト指向プログラミング言語、及び/又はアセンブリ/機械語を利用してこれらのコンピューティングプログラムを実行し得る。本明細書で使用されたような用語「機械読み取り可能媒体」及び「コンピュータ読み取り可能媒体」は、機械読み取り可能信号として機械命令を受信する機械読み取り可能媒体を含む機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置(PLD))を指す。用語「機械読み取り可能信号」は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明されるシステム及び技術をコンピュータ上で実施し得る。該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)、並びにキーボード及びポインティング装置(例えば、マウス又はトラックボール)を有する。ユーザは、該キーボード及び該ポインティング装置により入力をコンピュータに提供し得る。その他のタイプの装置をユーザとのインタラクションを提供するために使用しても良い。例えば、ユーザに提供されるフィードバックは、任意の形のセンシングフィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、又は触覚的フィードバック)であり得、任意の形(音の入力、音声入力、又は触覚入力を含む)でユーザからの入力を受信し得る。
ここで説明されるシステム及び技術は、バックグラウンドのコンポーネントを含むコンピューティングシステム(例えば、データサーバとして)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、フロントエンドコンポーネントを含むコンピューティングシステム(例えば、ユーザーがここで説明されるシステム及び技術の実施形態とインタラクション可能なグラフィカル・ユーザー・インターフェース又はウェブブラウザを有するユーザコンピュータ)、或いは、これらのバックグラウンドコンポーネント、ミドルウェアコンポーネント又はフロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施され得る。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に連結させ得る。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアントと、サーバとを含み得る。クライアントとサーバとは一般的に互いに遠く離れており、通常、通信ネットワークを介してインタラクションを行う。相応するコンピュータ上で実行され且つ互いにクライアント―サーバ関係を持つコンピュータプログラムによってクライアントとサーバの関係を生成する。
本出願の実施例に係る技術方案によれば、質問分析過程には、ラフからファインまでの二つの過程が含まれる。そのうち、第一過程は、質問・ツー・候補クエリグラフの変換を実現し、第二過程は、候補クエリグラフからクエリグラフを確定することを実現する。前者は、シーケンス・ツー・シーケンスの方式で質問の単語シーケンスから線形シーケンスへの変換を迅速かつ効率的に実現し、線形シーケンスからトポロジマップへの変換を迅速かつ効率的実現し、したがって質問のために複数の候補クエリグラフを生成することを迅速かつ効率的に実現する。後者は、質問とクエリグラフの間の正確なマッチングを実現し、質問・ツー・クエリグラフの正確性を向上させ、したがって質問分析の正確性を向上させる。上記の技術手段を採用するため、従来技術における単語シーケンス融合方式に基づいて生成されたクエリグラフの正確性が比較的低いという問題点を上手く解決する。
上記の各種の形のフローを使用して、ステップを並べ替え、追加又は削除し得ることを理解すべきである。例えば、本出願に記載された各ステップは、並行して行われても良く、順次に行われても良く、異なる順番で行われても良く、本出願に開示される技術方案の所望の結果を実現できる限り、本明細書はここで限定しないことにする。
上記の具体的な実施形態は、本出願の保護範囲に対する制限を構成しない。当業者は、設計要求及びその他の要因に応じて各種の修正、組み合わせ、サブ組み合わせ及び代替が行われ得ることを理解すべきである。本出願の精神及び原則内で行われる全ての修正、均等物による置換及び改良は、いずれも本出願の保護範囲内に含まれるべきである。

Claims (14)

  1. 質問分析方法であって、
    質問を分析して1より大きい整数であるN個の線形シーケンスを得るステップと、
    前記N個の線形シーケンスをそれぞれN個のトポロジマップに変換するステップと、
    前記N個のトポロジマップの各トポロジマップと前記質問とのセマンティックマッチング度をそれぞれ算出するステップと、
    前記N個のトポロジマップから、前記質問とのセマンティックマッチング度が最も高いトポロジマップを前記質問のクエリグラフとして選択するステップとを含むことを特徴とする方法。
  2. 前記N個のトポロジマップの各トポロジマップと前記質問とのセマンティックマッチング度をそれぞれ算出するステップは、
    前記質問のセマンティック表現ベクトルを取得するステップと、
    前記N個のトポロジマップの各トポロジマップのセマンティック表現ベクトルを取得するステップと、
    前記質問のセマンティック表現ベクトル及び各トポロジマップのセマンティック表現ベクトルに基づいて、各トポロジマップと前記質問とのセマンティックマッチング度をそれぞれ算出するステップとを含むことを特徴とする請求項1に記載の方法。
  3. 前記質問のセマンティック表現ベクトルを取得するステップは、
    前記質問の単語シーケンスに対応するセマンティック表現ベクトルを取得するステップ、又は
    前記質問の単語シーケンスをグラフ構造に変換させ、前記グラフ構造のセマンティック表現ベクトルを取得するステップを含むことを特徴とする請求項2に記載の方法。
  4. 前記グラフ構造は完全連結グラフであり、前記完全連結グラフにおいて、前記質問的単語シーケンス内の任意の単語はノードとされ、任意の2つのノードは互いに連結されることを特徴とする請求項3に記載の方法。
  5. 前記質問のセマンティック表現ベクトル及び前記トポロジマップのセマンティック表現ベクトルを取得する過程で、アテンションメカニズムに基づいて前記質問と前記トポロジマップの間で情報インタラクションを行って、前記質問のセマンティック表現ベクトル及び前記トポロジマップのセマンティック表現ベクトルを生成するステップを更に含むことを特徴とする請求項2に記載の方法。
  6. 質問分析装置であって、
    質問を分析して1より大きい整数であるN個の線形シーケンスを得るための分析モジュールと、
    前記N個の線形シーケンスをそれぞれN個のトポロジマップに変換するための変換モジュールと、
    前記N個のトポロジマップの各トポロジマップと前記質問とのセマンティックマッチング度をそれぞれ算出するための算出モジュールと、
    前記N個のトポロジマップから、前記質問とのセマンティックマッチング度が最も高いトポロジマップを前記質問のクエリグラフとして選択するための選択モジュールとを含むことを特徴とする質問分析装置。
  7. 質問分析装置であって、
    質問を取得し、前記質問を分析して1より大きい整数であるN個の線形シーケンスを得る翻訳モデルと、
    入力端が前記翻訳モデルの出力端に連結され、且つ前記N個の線形シーケンスを取得し、前記N個の線形シーケンスをそれぞれN個のトポロジマップに変換するシーケンス・ツー・グラフ変換モデルと、
    入力端が前記シーケンス・ツー・グラフ変換モデルの出力端に連結され、且つ前記質問及び前記N個のトポロジマップを取得し、前記質問に対して第1エンコーディングを行って、前記質問のセマンティック表現ベクトルを得、さらに、前記N個のトポロジマップの各トポロジマップに対して第2エンコーディングを行って、各トポロジマップのセマンティック表現ベクトルを得るエンコーディングネットワークと、
    入力端が前記エンコーディングネットワークの出力端に連結され、且つ前記質問のセマンティック表現ベクトル及び各トポロジマップのセマンティック表現ベクトルを取得し、前記質問のセマンティック表現ベクトル及び各トポロジマップのセマンティック表現ベクトルに基づいて、各トポロジマップと前記質問とのセマンティックマッチング度を算出するマッチングネットワークとを含むことを特徴とする質問分析装置。
  8. 前記エンコーディングネットワークは、
    前記質問を取得し、前記質問に対してエンコーディングを行って、前記質問のセマンティック表現ベクトルを得る第1エンコーダと、
    入力端が前記シーケンス・ツー・グラフ変換モデルの出力端に連結され、且つ前記N個のトポロジマップを取得し、前記N個のトポロジマップの各トポロジマップに対してエンコーディングを行って、各トポロジマップのセマンティック表現ベクトルを得る第2エンコーダとを含み、
    前記第1エンコーダの出力端及び前記第2エンコーダの出力端は、いずれも前記マッチングネットワークの入力端に連結されることを特徴とする請求項7に記載の質問分析装置。
  9. 前記第1エンコーダは、シリアル化エンコーダであり、前記第2エンコーダは、第1グラフニューラルネットワークエンコーダであるか、或いは、
    前記第1エンコーダは、第2グラフニューラルネットワークエンコーダであり、前記第2エンコーダは、第3グラフニューラルネットワークエンコーダであることを特徴とする請求項8に記載の質問分析装置。
  10. 前記第1エンコーダと前記第2エンコーダとは、アテンションメカニズムに基づいて情報インタラクションを行うことを特徴とする請求項8に記載の質問分析装置。
  11. 知識ベース質問応答システムであって、
    請求項6に記載の質問分析装置を含むか、或いは、
    前記知識ベース質問応答システムは、請求項7から10のいずれか一項に記載の質問分析装置を含むことを特徴とする知識ベース質問応答システム。
  12. 電子機器であって、
    少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサと通信接続されるメモリとを含み、
    前記メモリに前記少なくとも一つのプロセッサによって実行可能な命令が格納されており、前記命令は、前記少なくとも一つのプロセッサによって実行されて、前記少なくとも一つのプロセッサが請求項1から5のいずれか一項に記載の方法を実行可能にすることを特徴とする電子機器。
  13. コンピュータ命令が記憶されている非一時的コンピュータ読み取り可能記憶媒体であって、
    前記コンピュータ命令は、前記コンピュータに請求項1から5のいずれか一項に記載の方法を実行させるために用いられることを特徴とする非一時的コンピュータ読み取り可能記憶媒体。
  14. コンピュータ命令からなるプログラムであって、
    前記コンピュータ命令は、コンピュータに請求項1から5のいずれか一項に記載の方法を実行させるために用いられることを特徴とするプログラム。
JP2020191447A 2020-04-08 2020-11-18 質問分析方法、装置、知識ベース質問応答システム、電子機器、記憶媒体及びプログラム Active JP7064554B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010267909.9A CN111488441B (zh) 2020-04-08 2020-04-08 问题解析方法、装置、知识图谱问答系统和电子设备
CN202010267909.9 2020-04-08

Publications (2)

Publication Number Publication Date
JP2021168107A true JP2021168107A (ja) 2021-10-21
JP7064554B2 JP7064554B2 (ja) 2022-05-10

Family

ID=71794813

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020191447A Active JP7064554B2 (ja) 2020-04-08 2020-11-18 質問分析方法、装置、知識ベース質問応答システム、電子機器、記憶媒体及びプログラム

Country Status (5)

Country Link
US (1) US20210319335A1 (ja)
EP (1) EP3893142A1 (ja)
JP (1) JP7064554B2 (ja)
KR (1) KR102441475B1 (ja)
CN (1) CN111488441B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022166260A (ja) * 2022-03-02 2022-11-01 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド マルチシステムに基づくインテリジェントな質問応答方法、装置及び機器
JP2023012541A (ja) * 2021-12-29 2023-01-25 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テーブルに基づく質問応答方法、装置及び電子機器

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220108188A1 (en) * 2020-10-01 2022-04-07 International Business Machines Corporation Querying knowledge graphs with sub-graph matching networks
CN112417170B (zh) * 2020-11-23 2023-11-14 南京大学 面向不完备知识图谱的关系链接方法
CN112989004B (zh) * 2021-04-09 2022-03-11 苏州爱语认知智能科技有限公司 面向知识图谱问答的查询图排序方法及系统
US20230009946A1 (en) * 2021-07-12 2023-01-12 International Business Machines Corporation Generative relation linking for question answering
US11775973B2 (en) * 2021-07-28 2023-10-03 Capital One Services, Llc User authentication based on account transaction information in text field
CN114547273B (zh) * 2022-03-18 2022-08-16 科大讯飞(苏州)科技有限公司 问题回答方法及相关装置、电子设备、存储介质
US20230376537A1 (en) * 2022-05-23 2023-11-23 International Business Machines Corporation Multi-chunk relationship extraction and maximization of query answer coherence
CN115203366B (zh) * 2022-06-30 2024-09-13 中国电信股份有限公司 一种结果获取的方法、装置、电子设备及存储介质
CN116226478B (zh) * 2022-12-27 2024-03-19 北京百度网讯科技有限公司 信息处理方法、模型训练方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003533827A (ja) * 2000-05-17 2003-11-11 マイクロソフト コーポレイション テキスト入力を語彙知識ベースに照合しその照合の結果を利用するシステムおよび方法
JP2013080476A (ja) * 2011-09-30 2013-05-02 Apple Inc バーチャルアシスタントのコマンド処理を容易にするためのコンテクスト情報の使用
US20160328467A1 (en) * 2014-03-10 2016-11-10 Tencent Technology (Shenzhen) Company Limited Natural language question answering method and apparatus

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
CN101201818A (zh) * 2006-12-13 2008-06-18 李萍 用hmm计算语言结构、进行分词、机器翻译和语音识别的方法
CN101655783B (zh) * 2009-05-08 2012-05-16 上海大学 前瞻多线程划分方法
CN103885969B (zh) * 2012-12-20 2017-03-01 国际商业机器公司 提供软件问题解决方案的方法和装置
CN104657439B (zh) * 2015-01-30 2019-12-13 欧阳江 用于自然语言精准检索的结构化查询语句生成系统及方法
WO2018081633A1 (en) * 2016-10-28 2018-05-03 Roam Analytics, Inc. Semantic parsing engine
CN106815071A (zh) * 2017-01-12 2017-06-09 上海轻维软件有限公司 基于有向无环图的大数据作业调度系统
CN107038262B (zh) * 2017-05-30 2019-07-23 海南大学 一种关联频度计算的基于数据图谱、信息图谱和知识图谱框架的语义建模方法
CN107357849B (zh) * 2017-06-27 2020-11-03 北京百度网讯科技有限公司 基于测试类应用的交互方法和装置
CN108256070B (zh) * 2018-01-17 2022-07-15 北京百度网讯科技有限公司 用于生成信息的方法和装置
US11544605B2 (en) * 2018-03-07 2023-01-03 International Business Machines Corporation Unit conversion in a synonym-sensitive framework for question answering
CN108509519B (zh) * 2018-03-09 2021-03-09 北京邮电大学 基于深度学习的通用知识图谱增强问答交互系统及方法
CN108491381B (zh) * 2018-03-13 2021-05-14 山西大学 一种汉语二分结构的句法分析方法
CN108399163B (zh) * 2018-03-21 2021-01-12 北京理工大学 结合词聚合与词组合语义特征的文本相似性度量方法
CN108804521B (zh) * 2018-04-27 2021-05-14 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN108804633B (zh) * 2018-06-01 2021-10-08 腾讯科技(深圳)有限公司 基于行为语义知识网络的内容推荐方法
CN109033374B (zh) * 2018-07-27 2022-03-15 四川长虹电器股份有限公司 基于贝叶斯分类器的知识图谱检索方法
CN109271505B (zh) * 2018-11-12 2021-04-30 深圳智能思创科技有限公司 一种基于问题答案对的问答系统实现方法
CN109885660B (zh) * 2019-02-22 2020-10-02 上海乐言信息科技有限公司 一种知识图谱赋能的基于信息检索的问答系统和方法
CN110188176B (zh) * 2019-04-30 2022-12-23 深圳大学 深度学习神经网络及训练、预测方法、系统、设备、介质
CN110390050B (zh) * 2019-07-10 2021-12-07 北京航空航天大学 一种基于深度语义理解的软件开发问答信息自动获取方法
CN110704600B (zh) * 2019-09-30 2022-05-13 北京百度网讯科技有限公司 问答动态匹配方法、装置和电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003533827A (ja) * 2000-05-17 2003-11-11 マイクロソフト コーポレイション テキスト入力を語彙知識ベースに照合しその照合の結果を利用するシステムおよび方法
JP2013080476A (ja) * 2011-09-30 2013-05-02 Apple Inc バーチャルアシスタントのコマンド処理を容易にするためのコンテクスト情報の使用
US20160328467A1 (en) * 2014-03-10 2016-11-10 Tencent Technology (Shenzhen) Company Limited Natural language question answering method and apparatus

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023012541A (ja) * 2021-12-29 2023-01-25 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テーブルに基づく質問応答方法、装置及び電子機器
JP2022166260A (ja) * 2022-03-02 2022-11-01 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド マルチシステムに基づくインテリジェントな質問応答方法、装置及び機器
JP7548967B2 (ja) 2022-03-02 2024-09-10 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド マルチシステムに基づくインテリジェントな質問応答方法、装置及び機器

Also Published As

Publication number Publication date
KR20210125405A (ko) 2021-10-18
JP7064554B2 (ja) 2022-05-10
US20210319335A1 (en) 2021-10-14
KR102441475B1 (ko) 2022-09-06
CN111488441B (zh) 2023-08-01
EP3893142A1 (en) 2021-10-13
CN111488441A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
JP7064554B2 (ja) 質問分析方法、装置、知識ベース質問応答システム、電子機器、記憶媒体及びプログラム
KR102514434B1 (ko) 지식 표현 학습 방법, 장치, 전자 기기, 저장 매체 및 프로그램
JP7058304B2 (ja) 異種グラフにおけるノード表現の生成方法、装置及び電子機器
JP7113097B2 (ja) テキストエンティティの語義記述処理方法、装置及び機器
US20210397947A1 (en) Method and apparatus for generating model for representing heterogeneous graph node
KR102565659B1 (ko) 정보 생성 방법 및 장치
KR102538467B1 (ko) 모델의 증류 방법, 장치, 전자기기 및 저장매체
JP2022013602A (ja) テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体
JP2022180519A (ja) 画像処理方法、画像処理モデルのトレーニング方法、装置及び記憶媒体
KR102521765B1 (ko) 인과 관계의 판별 방법, 장치, 전자 기기 및 저장 매체
CN111967256B (zh) 事件关系的生成方法、装置、电子设备和存储介质
JP2022505015A (ja) 知識グラフのベクトル表現生成方法、装置及び電子機器
JP2023007367A (ja) 語義表現モデルの訓練方法、装置、デバイス及び記憶媒体
KR20210056961A (ko) 의미 처리 방법, 장치, 전자 기기 및 매체
JP2021193595A (ja) 会話推薦方法、装置及び機器
KR20220039576A (ko) 요약 생성 방법, 장치, 전자 기기 및 기록 매체
JP2021111334A (ja) 検索データに基づくヒューマンコンピュータ対話型インタラクションの方法、装置及び電子機器
JP2021099798A (ja) 構造化処理方法、装置、コンピュータ機器及び媒体
KR102606514B1 (ko) 유사도 처리 방법, 장치, 서버, 저장 매체 및 컴퓨터 프로그램
KR102682781B1 (ko) 대화 생성 방법, 장치, 전자 기기 및 기록 매체
JP2021197156A (ja) 事前トレーニングのセマンティックモデルに基づくモデル改良方法及び装置
JP2022028897A (ja) 文章翻訳方法、装置、電子機器及び記憶媒体
KR20220003444A (ko) 옵티마이저 학습 방법, 장치, 전자 기기 및 판독 가능 기록 매체
CN115510203A (zh) 问题答案确定方法、装置、设备、存储介质及程序产品
JP2021193619A (ja) 対話生成方法、装置、電子機器及び記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220422

R150 Certificate of patent or registration of utility model

Ref document number: 7064554

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150