JP2021157842A

JP2021157842A - 質問の答えの決定方法、装置、機器及び記憶媒体

Info

Publication number: JP2021157842A
Application number: JP2021106452A
Authority: JP
Inventors: ユーグワーン・チェン; Yuguang Chen; シヤオジン・ジョウ; Xiaojin Zhou
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-01
Filing date: 2021-06-28
Publication date: 2021-10-07
Anticipated expiration: 2041-06-28
Also published as: US20210312308A1; KR20210082399A; CN112541052A; EP3869382A3; EP3869382A2; CN112541052B; JP7262519B2

Abstract

【課題】人工知能、深層学習、機械の質問応答、知識グラフ及びイベントグラフの分野における、質問の答えの決定方法、装置、機器、記憶媒体及びコンピュータプログラム製品を提供する。【解決手段】質問の答えの決定方法は、第１テキスト及び第１テキストに関連する質問セットを含む、質問セット内の複数の質問を区切る第１区切り識別子を有する第１入力を取得することと、第１区切り識別子の第１入力での位置を指示する質問インデックス及び質問セットに対する、第１入力内の質問セットを選別するための質問マスクを決定することと、質問インデックス、質問マスク及び読解モデルに基づいて、複数の質問にそれぞれ対応する複数の答えを生成するために、第１入力に対応する第１出力を決定することと、を含む。【効果】この方式によれば、質問に対する機械読解モデルの処理効率を改善することができる。【選択図】図２

Description

本開示は、データ処理の分野に関し、特に、人工知能、深層学習、機械の質問応答、知識グラフ及びイベントグラフの分野に関し、且つより具体的には、質問の答えの決定方法、装置、機器、記憶媒体及びコンピュータプログラム製品に関する。

コンピュータ技術の発展に伴って、現在、人工知能技術に基づいて様々なデータを処理することができる技術的解決策がある。例えば、機械読解技術を利用して回答対象質問の答えを与えることができる。機械読解（本明細書において、読解質問応答又は読解と呼ばれる場合もある）は、機械に自然言語テキストを理解させ、質問とドキュメントが与えられた場合に、対応する答えを回答する技術である。該技術は、テキスト質問応答、知識グラフ及びイベントグラフの情報抽出、対話システム等の様々な分野に適用することができ、近年の研究のホットスポットとなっている。いくつかの解決策では、読解モデルは、回答対象質問の答えとして、ドキュメントのテキストから１つの断片を決定することができる。しかしながら、読解モデルは、通常、一度に１つのテキスト及び対応する１つの質問しか処理できず、同じテキストに対して、複数の回答対象質問がある場合、該読解モデルによって複数回で処理し、毎回１つの質問に対する答えのみを決定する必要がある。従って、複数の回答対象質問を効率よく処理することができる解決策が求められている。

本開示は、質問の答えの決定方法、装置、機器、記憶媒体及びコンピュータプログラム製品を提供する。
本開示の第１態様によれば、質問の答えの決定方法を提供する。該方法は、第１テキスト、及び第１テキストに関連する質問セットを含む、質問セット内の複数の質問を区切る第１区切り識別子を有する第１入力を取得することと、第１区切り識別子の第１入力での位置を指示する質問インデックス、及び質問セットに対する、第１入力内の質問セットを選別するための質問マスクを決定することと、質問インデックス、質問マスク及び読解モデルに基づいて、複数の質問にそれぞれ対応する複数の答えを生成するために、第１入力に対応する第１出力を決定することとを含む。

本開示の第２態様によれば、読解モデルのトレーニング方法を提供する。該方法は、第１テキスト、及び前記第１テキストに関連する質問セットを含むトレーニングデータを取得することと、本開示の第１態様に係る方法を利用して、前記複数の答えを生成することと、前記複数の答えと対応する複数の正解の答えとの間の差異に基づいて、前記読解モデルのパラメータを更新して、前記読解モデルをトレーニングすることとを含む。

本開示の第３態様によれば、質問の答えの決定装置を提供する。該装置は、第１テキスト、及び第１テキストに関連する質問セットを含む、質問セット内の複数の質問を区切る第１区切り識別子を有する第１入力を取得するように構成される入力取得モジュールと、第１区切り識別子の第１入力での位置を指示する質問インデックス、及び質問セットに対する、第１入力内の質問セットを選別するための質問マスクを決定するように構成される質問セット前処理モジュールと、質問インデックス、質問マスク及び読解モデルに基づいて、複数の質問にそれぞれ対応する複数の答えを生成するために、第１入力に対応する第１出力を決定するように構成される出力決定モジュールと、を備える。

本開示の第４態様によれば、第１テキスト、及び第１テキストに関連する質問セットを含むトレーニングデータを取得するように構成されるデータ取得モジュールと、本開示の第１態様に係る方法を利用して、複数の答えを生成するように構成される第２答え生成モジュールと、複数の答えと対応する複数の正解の答えとの間の差異に基づいて、読解モデルのパラメータを更新して、読解モデルをトレーニングするように構成されるトレーニングモジュールと、を備える読解モデルのトレーニング装置を提供する。

本開示の第５態様によれば、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと通信可能に接続されたメモリとを備え、該メモリは、少なくとも１つのプロセッサによって実行されると、少なくとも１つのプロセッサに本開示の第１態様及び／又は第２態様に係る方法を実行させるための、少なくとも１つのプロセッサによって実行可能な命令が記憶される電子機器を提供する。

本開示の第６態様によれば、コンピュータに本開示の第１態様及び／又は第２態様に係る方法を実行させるためのコンピュータ命令が記憶される非一時的なコンピュータ読み取り可能な記憶媒体を提供する。

本開示の第７態様によれば、コンピュータプログラム命令を含み、該コンピュータプログラム命令がプロセッサによって実行されると本開示の第１態様及び／又は第２態様に係る方法を実現させるコンピュータプログラム製品を提供する。

本願の技術によれば、質問に対する機械読解モデルの処理効率を改善することができる。
理解すべきなのは、本部分で説明された内容は、本開示の実施例の主要な又は重要な特徴を特定することを意図するものではなく、また、本開示の範囲を限定するためのものでもない。本開示の他の特徴は、以下の明細書を通して容易に理解できるようになる。

図面及び以下の詳細な説明を参照することにより、本開示の各実施例の上記及び他の特徴、利点及び態様はより明瞭になる。図面では、同じ又は類似する図面記号は、同じ又は類似する要素を表す。
本開示の複数の実施例を実現できる例示的な環境の概略図を示す。本開示の実施例に係る質問の答えの決定方法のフローチャートを示す。本開示の実施例に係る第１出力の決定方法の概略図を示す。本開示の実施例に係る第１出力に基づいて答えを決定する方法の概略図を示す。本開示の実施例に係る質問マスク行列の一例の概略図を示す。本開示の実施例に係る質問の答えの決定装置の概略ブロック図を示す。本開示の実施例に係る読解モデルのトレーニング方法のフローチャートを示す。本開示の実施例に係る読解モデルのトレーニング装置の概略ブロック図を示す。本開示の複数の実施例を実施できる電子機器のブロック図を示す。

以下、図面を参照しながら本願の実施例を説明する。それには、理解しやすくするために、本願の実施例の各種の細部が含まれるが、これらが例示的なものに過ぎないと考えられるべきである。従って、当業者は、本願の範囲及び精神を逸脱することなく、ここで説明される実施例に対して様々な変更や修正を行うことができる。同様に、明確かつ簡潔にするために、以下の説明には公知の機能や構造についての説明は省略される。

本開示の実施例の説明において、「含む」という用語及びそれに類似する用語は、「含むが、これらに限定されない」という非限定の表現として理解されるべきである。「基づく」という用語は、「少なくとも部分的に基づく」と理解されるべきである。「一実施例」又は「該実施例」という用語は、「少なくとも１つの実施例」と理解されるべきである。「第１」、「第２」等の用語は異なる又は同一な対象を指してもよい。以下、他の明示的な定義及び暗示的な定義をさらに含む可能性がある。

上記で検討されたように、通常の解決策では、同じテキストに関連する複数の回答対象質問に対して、コンピューティング機器は複数回で読解モデルを利用して操作する必要があり、その結果、計算のオーバーヘッドが大きく、処理が遅いため、効率が高くない。

上記の問題及び他の潜在的な問題のうちの１つ又は複数を少なくとも部分的に解決するために、本開示の実施例は、質問の答えの決定の技術的解決策を提案する。該解決策では、テキスト及び該テキストに関連する複数の質問が、読解モデルが読み取り可能な方式で同時に読解モデルに入力され、出力の特徴表現を取得し、複数の質問に対するインデックスを使用して複数の質問の位置を指示し、これにより、出力の特徴表現から各質問に対する部分を決定することができ、且つ複数の質問を決定するためのマスクを使用して複数の質問の間のテキストの相互な干渉をシールドし、従って、各質問に対する特徴表現はテキストの特徴表現と相互作用して、各質問の答えを決定することができる。この方式で、読解モデルは、同じドキュメントに対する複数の質問を一回で処理することができ、これにより、質問に対する読解モデルの処理効率を向上させる。

以下、図面を参照しながら、本開示の実施例を具体的に説明する。
図１は、本開示の複数の実施例を実現できる例示的な環境１００の概略図を示す。理解すべきなのは、環境１００の構造及び機能は、本開示の範囲に対するいかなる制限を意味することなく、例示的な目的のみで説明されている。本開示の実施例は異なる構造及び／又は機能を有する環境にさらに適用することができる。

例示的な環境１００はコンピューティング機器１０５を含んでもよい。コンピューティング機器１０５は、読解モデル１２０をトレーニングして、配置し、及び該読解モデル１２０を使用して予測するように構成されてもよい。いくつかの実施例では、読解モデル１２０は、自然言語処理（ＮＬＯ）のための各種のモデルを使用して実現することができ、ＣＮＮ（畳み込みニューラルネットワーク）に基づくモデル、ＲＮＮ（再帰型ニューラルネットワーク）に基づくモデル、ＬＳＴＭ（長短期記憶人工ニューラルネットワーク）に基づくモデル、注意メカニズムに基づくモデル、例えば、ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）のトランスフォーマー（Ｔｒａｎｓｆｏｒｍｅｒ）に基づくモデルを含むが、これらに限定されない。

読解モデル１２０は、第１入力１１０に基づいて第１出力１３０を決定するように構成され、第１出力１３０は、第１入力１１０の特徴を指示することができ、すなわち、第１入力１１０の特徴表現を含む。例えば、第１入力１１０は識別子（ｔｏｋｅｎと呼ばれる場合もある）シーケンスの形式を採用することができ、第１出力１３０はベクトルの形を採用することができる。

第１入力１１０は第１テキスト１１２を含む。第１テキスト１１２は、一文、一段落、一文章、一ドキュメント、又はテキストを運び可能な他の任意の形であってもよい。いくつかの実施例では、第１テキスト１１２は、知識グラフにおける１つのエンティティエントリの説明テキストであってもよい。いくつかの実施例では、第１テキスト１１２は、イベントグラフにおける１つの情報イベントの説明テキストであってもよい。

第１入力１１０は第１テキスト１１２に関連する質問セット１１１をさらに含み、該質問セット１１１内の少なくとも１つの質問は、第１テキスト１１２の一部によって回答することができる。理解できるのは、質問セット１１１内のすべての質問がいずれも第１テキスト１１２の一部によって回答できるわけではない。第１入力１１０において、質問セット１１１内の複数の質問は一体に結合されて、第１テキスト１１２と共に読解モデル１２０によって処理される。いくつかの実施例では、質問セット１１１内の複数の質問の間は第１区切り識別子によって区切られ、質問セット１１１と第１テキスト１１２は第２区切り識別子によって区切られる。従って、第１入力１１０を介して、複数の質問は対応する第１テキスト１１２と同時に読解モデル１２０に入力されて、更なる処理を行うことができる。

第１出力１３０は第１テキスト１１２の特徴表現、及び質問セット１１１の特徴表現を含んでもよい。質問セット１１１の特徴表現は、質問セット１１１内の各質問の特徴表現を含んでもよい。本明細書において、特徴表現は、ベクトル又は行列の形で実現できるが、本願はこれに限定されない。

第１テキスト１１２の特徴、及び質問セット１１１内の各質問の特徴を指示できる第１出力１３０に基づいて、コンピューティング機器１０５は、質問セット１１１内の各質問に対する答え１４０を同時に決定することができる。

明瞭に説明するために、以下、図１の環境１００を参照して本開示の実施例を説明する。理解すべきなのは、本開示の実施例は、図示されない付加的な動作をさらに含んでもよく、及び／又は、図示される動作を省略してもよい。本開示の範囲はこの点では限定されない。容易に理解するために、以下の説明に言及される具体的なデータは全て例示的なものであり、本開示の保護範囲を限定するためのものではない。

図２は、本開示のいくつかの実施例に係る質問の答えの決定方法２００のフローチャートを示す。例えば、方法２００は図１に示されるコンピューティング機器１０５によって実行されてもよい。以下、図３を参照しながら方法２００の各動作を詳細に説明する。

ブロック２０２において、コンピューティング機器１０５は、第１テキスト、及び第１テキストに関連する質問セットを含む、質問セット内の複数の質問を区切る第１区切り識別子を有する第１入力を取得することができる。

具体的には、読解モデルによって処理する前に、該モデルが識別可能な第１入力を構築する必要があり、これは、質問セット内の複数の質問を一体に結合する方式で実現できる。複数の質問を区切り、それを単独で識別して対応する答えを得るために、各質問のテキストの先頭に、第１区切り識別子を設定することができる。

以下、図３を参照して、図３は、本開示のいくつかの実施例に係る第１出力の決定方法３００の概略図を示す。
第１入力３１０は質問セット３１１を含み、質問セット３１１は順に並べられた第１質問３１１１〜第ｎ質問３１１ｎ（ｎは１より大きい整数である）を含む。第１質問３１１１の前の位置に、第１区切り識別子３１１Ａがある。理解できるのは、図示されないが、第１質問に従った第２質問の前の位置に、同様に第１区切り識別子がある。類似に、第ｎ質問３１１ｎの前の位置に、第１区切り識別子３１１Ｂがある。この方式で、複数の質問のテキストは一連の第１識別子によって区切られる。

いくつかの実施例では、結合された質問セットをさらに第１テキストと結合して、第１入力３１０を生成する必要がある。この場合に、第１入力３１０は、第１区切り識別子と異なり、第１テキスト３１２を質問セット３１１と区切る第２区切り識別子３１２Ａをさらに含む。いくつかの実施例では、第１テキストは、単語分割によって複数のフレーズ、すなわち、第１フレーズ３１２１〜第ｍフレーズ３１２ｍ（ｍは１より大きい整数である）に分割することができる。各フレーズは、明確な意味を有する文字又は単語であってもよい。

例えば、１つの具体例では、テキストは、「Ａ社はレイオフの新しいラウンドで職員３５０名を解雇すると宣言した」であり、且つ該テキストに関連する質問セットに２つの質問があり、その第１質問が「解雇方が誰ですか？」、第２質問が「被解雇者が何人ですか？」であり、この場合に、第１入力は、「［第１区切り識別子］解雇方が誰ですか？［第１区切り識別子］被解雇者が何人ですか？［第２区切り識別子］Ａ社はレイオフの新しいラウンドで職員３５０名を解雇すると宣言した」のを含むことを決定することできる。一例では、読解モデルがＢＥＲＴ事前トレーニングモデルに基づいて構築されると、第１区切り識別子は、分類器識別子ＣＬＳ（ｃｌａｓｓｉｆｅｒｔｏｋｅｎ）として定義されることができ、第２区切り識別子は文区切り識別子ＳＥＰ（ｓｅｎｔｅｎｃｅｓｅｐａｒａｔｏｒ）として定義されることができ、この場合に、読解モデルは、第１入力を、「［ＣＬＳ］解雇方が誰ですか？［ＣＬＳ］被解雇者が何人ですか？」及び「［ＳＥＰ］Ａ社はレイオフの新しいラウンドで職員３５０名を解雇すると宣言した」の２つの文に分割して処理することができる。

理解できるのは、読解モデルが自然言語処理用の他のモデルに基づいて構築されると、第１区切り識別子と第２区切り識別子は、該他のモデルが識別可能な他の識別子としてさらに定義されることができる。

図２に戻ると、ブロック２０４において、コンピューティング機器１０５は、第１区切り識別子の第１入力での位置を指示する質問インデックス、及び質問セットに対する、第１入力内の質問セットを選別するための質問マスクを決定することができる。

読解モデルが構築された第１入力を正確に処理できるために、質問セットの各質問の位置を指示できる（これは第１区切り識別子の位置によって指示できる）質問インデックスを構築し、第１入力内の質問セットを選別するための質問マスクを構築する必要があり、読解モデルが第１入力を処理する時に、質問セット内の複数の質問のテキストが互いに干渉しないようにする。

図３に示すように、いくつかの実施例では、コンピューティング機器１０５は、質問セット３１１に関連する質問インデックスベクトルを構築することができ、質問インデックスベクトル３１２内の１セットの第１要素は、質問セット３１１に含まれる各文字及び第１区切り識別子３１１Ａ、３１１Ｂに対応して、質問セット３１１に含まれる各文字及び第１区切り識別子の位置を指示する。次に、コンピューティング機器１０５は、第１区切り識別子３１１Ａ、３１１Ｂに対応する第１要素を第１値として設定することにより質問インデックス３２１を決定することができる。

また、上記第１入力が、「［第１区切り識別子］解雇方が誰ですか？［第１区切り識別子］被解雇者が何人ですか？［第２区切り識別子］Ａ社はレイオフの新しいラウンドで職員３５０名を解雇すると宣言した」のを含むという具体的な例を使用して説明し、質問インデックスは第１区切り識別子の第１入力での位置、より具体的には、質問セットに対応するテキストでの位置を指示するために用いられる。質問インデックスはベクトルで表すことができ、該ベクトルにおいて、質問セットに対応する各文字、及び各区切り識別子は一つの位置を占め、すなわち、該ベクトル内の１つの要素（第１要素）である。従って、上記の具体的な例に対応する質問インデックスはベクトル［１００００００１０００００００００］で表すことができ、第１値１は区切り識別子を識別するために用いられてもよい。

いくつかの実施例では、コンピューティング機器１０５は、質問セット３１１に関連する第１データ項目を構築することができ、第１データ項目は行と列で表される１セットの第２要素を含み、１セットの第２要素は質問セット３１１に含まれる各文字及び第１区切り識別子３１１Ａ、３１１Ｂに対応して、質問セットに含まれる各文字及び第１区切り識別子３１１Ａ、３１１Ｂの位置を指示する。次に、コンピューティング機器１０５は、１セットの第２要素内の複数の第２要素を決定することができ、該複数の第２要素は質問セット３１１内のマスクされる複数の文字に対応し、且つコンピューティング機器１０５は、決定された複数の第２要素を第２値として設定することにより質問マスク３２２を決定することができる。

いくつかの実施例では、質問マスクは図５に示される質問マスク行列５００の方式で実現でき、図５は、本開示のいくつかの実施例に係る質問マスク行列の１つの具体的な例の概略図を示す。

質問マスク行列５００は、行と列の方式で配布される複数の要素（第２要素）を含む。いくつかの実施例では、行数と列数は同じであってもよい。
質問マスク行列５００に対応する具体的な例では、質問セットは３つの質問を含み、第１質問が２つの文字を含み、第２質問が３つの文字を含み、第３質問が２つの文字を含み、質問セットに関連する第１テキストが４つの文字を含む。各質問の前に全て第１区切り識別子が設定され、且つ質問セットと第１テキストとの間に第２区切り識別子が設定されている。理解できるのは、第１テキスト及び質問セットに含まれる文字数に基づき、コンピューティング機器１０５により生成された質問マスク行列５００は、より多くの又はより少ない要素を含んでもよい。

例えば、第１質問に対して、質問マスク行列の要素領域５２２内の要素の値を第２値（例えば、０）として設定することにより、読解モデルは要素領域５２３及び要素領域５２１のみを処理することができる。要素領域５２３は、例えば、２つの文字を有する第１質問、及びこれに関連する１つの第１区切り識別子に対応することができ、要素５２３１が第１区切り識別子を指示し、要素５２３２が第１質問に含まれる文字を指示する。要素領域５２１は、例えば、４つの文字を有する第１質問、及びこれに関連する１つの第２区切り識別子に対応することができる。

同様な方式で、さらに質問マスク行列を設定することにより、質問マスク行列５００の要素領域５２４（第２質問に対応する）及び要素領域５２５（第３質問に対応する）に対応する質問内の文字は読解モデルにより処理されることができる。いくつかの実施例では、要素領域５２３、５２４及び５２５のそれぞれは上三角行列として設定することができる。

いくつかの実施例では、コンピューティング機器１０５はさらに、複数の質問の間の類似度を決定し、且つ該類似度（例えば、所定の閾値より大きい）に基づいて、マスクする必要がある複数の要素を決定することができる。例えば、第１質問と第２質問がそれぞれ時間及び日期に関連する場合、その答えは同じ又は類似する。これにより、コンピューティング機器１０５は、これらの質問の文字をマスクしないように選択することができる。

この方式で、コンピューティング機器１０５は例えば読解モデルによって質問セット内の第１質問、及び第１テキストを処理する時に、質問マスクを設定することにより、質問セット内の他の質問のテキストが読解モデルに対して不可視になり、従って、複数の質問が一体に結合された後、他の質問に含まれる文字による第１質問への影響を解消することができる。

図２に戻ると、ブロック２０６において、質問インデックス、質問マスク及び読解モデルに基づいて、複数の質問にそれぞれ対応する複数の答えを生成するために、第１入力に対応する第１出力を決定する。

図３に示すように、第１出力３３０は、読解モデル３２０により決定される第１入力に対する特徴表現であり、従って、それは質問セット３１１内の各質問３１１１〜３１１ｎに対する特徴表現、及び第１テキスト３１２に対する特徴表現を含んでもよい。

上記特徴表現は相互作用層３３５の処理を介して、複数の質問にそれぞれ対応する複数の答え３４０を決定することができる。相互作用層３３５によって実行される操作の１つの具体的な実現は以下で図４を参照しながら説明し、また、図４の説明と異なる方法で、上記特徴表現を処理して、テキストの形式で表される複数の答えを決定することができることを理解できる。

この方式で、読解モデルは、同じドキュメントに対する複数の質問を一回で処理することができ、これにより、質問に対する読解モデルの処理効率を向上させる。
図４は、本開示のいくつかの実施例に係る第１出力に基づいて答えを決定する方法の概略図を示す。

コンピューティング機器１０５は、第１出力４３０に基づいて、第１テキストに関連する第１テキスト特徴表現４３２、及び質問セットに関連する質問セット特徴表現４３１を決定することができる。読解モデルが複数の質問を一回で処理するため、その出力された質問セット特徴表現は複数の質問の特徴表現を含む。従って、コンピューティング機器１０５は、質問インデックス（それが複数の質問の所在位置を指示することができる）に基づいて、質問セット特徴表現４３１内のそれぞれ質問セットの各質問に関連する質問特徴表現（例えば、第１質問特徴表現４３１１〜第ｎ質問特徴表現４３１ｎ）を決定する（例えば、それを分割する）ことができる。次に、コンピューティング機器１０５は、第１テキスト特徴表現４３２、及び質問セット内の各質問に関連する質問特徴表現に基づいて、例えば、処理４３５を介して複数の答え４４０を生成することができる。

いくつかの実施例では、コンピューティング機器１０５は、質問セット内の各質問に関連する質問特徴表現４３１１〜４３１ｎに基づいて、行と列で表される第２データ項目４３３を構築することができ、第２データ項目４３３内の一行が質問セット内の１つの質問に関連する質問特徴表現に対応する。いくつかの実施例では、第１質問特徴表現４３１１〜第ｎ質問特徴表現４３１ｎは、第２データ項目内の行に順に対応することができる。

次に、コンピューティング機器１０５は、第２データ項目４３３及び第１テキスト特徴表現４３２（例えば、第１フレーズ特徴表現４３２１〜第ｍフレーズ特徴表現４３２０ｍを含む）に対して、例えば、第１操作を行う処理４３５により、行と列で表され、質問セットに関連する開始識別子要素Ｓ及び終止識別子要素Ｅを含む第３データ項目４５０を決定することができる。いくつかの実施例では、開始識別子要素Ｓと終止識別子要素Ｅは全て第１値（例えば、１）を有する。いくつかの実施例では、第１操作は、例えば、第２データ項目４３３及び第１テキスト特徴表現４３２に対して要素乗算を実行し、得られる結果を例えば多層パーセプトロン（ＭＬＰ）のニューラルネットワークに送って処理４３５を実行して、第３データ項目４５０を取得することを含んでもよい。第３データ項目４５０はポインタとして、答えと第１テキストとの間の位置関係を指示することができる。

次に、コンピューティング機器１０５は、第３データ項目４５０に含まれる開始識別子要素及び終止識別子要素に基づき、第１テキストを利用して複数の答えを生成することができる。例えば、コンピューティング機器１０５は、第３データ項目内の、第１質問に関連する二行の要素４５１内の開始識別子Ｓ及び終止識別子Ｅに対応する要素の位置を識別して、第１テキスト内の、開始識別子Ｓ及び終止識別子Ｅの位置に対応する２つの位置を見つけ、これ（例えば、該２つの位置の間のテキストを利用する）により、第１答えを生成することができる。同様な方式で、コンピューティング機器１０５は、第３データ項目内の、第ｎ質問に関連する二行の要素４５２内の開始識別子Ｓ及び終止識別子Ｅに対応する要素の位置を識別して、第１テキスト内の、開始識別子Ｓ及び終止識別子Ｅの位置に対応する２つの位置を見つけ、これにより、第ｎ答えを生成することができる。

図６は、本開示の実施例に係る質問の答えの決定装置６００の概略ブロック図を示す。図６に示すように、装置６００は、第１テキスト、及び第１テキストに関連する質問セットを含む、質問セット内の複数の質問を区切る第１区切り識別子を有する第１入力を取得するように構成される入力取得モジュール６０２を備えてもよい。装置６００は、第１区切り識別子の第１入力での位置を指示する質問インデックス、及び質問セットに対する、第１入力内の質問セットを選別するための質問マスクを決定するように構成される質問セット前処理モジュール６０４をさらに備えてもよい。装置６００は、質問インデックス、質問マスク及び読解モデルに基づいて、複数の質問にそれぞれ対応する複数の答えを生成するために、第１入力に対応する第１出力を決定するように構成される出力決定モジュール６０６をさらに備えてもよい。

いくつかの実施例では、第１入力は、第１区切り識別子と異なり、第１テキストを質問セットと区切る第２区切り識別子をさらに含む。
いくつかの実施例では、質問セット前処理モジュール６０４は、質問セットに関連する質問インデックスベクトルを構築するように構成され、質問インデックスベクトル内の１セットの第１要素は質問セットに含まれる各文字及び第１区切り識別子に対応して、質問セットに含まれる各文字及び第１区切り識別子の位置を指示する質問インデックス構築モジュールと、第１区切り識別子に対応する第１要素を第１値として設定することにより、質問インデックスを決定するように構成される質問インデックス決定モジュールとをさらに備える。

いくつかの実施例では、質問セット前処理モジュール６０４は、質問セットに関連する第１データ項目を構築するように構成され、第１データ項目は行と列で表される１セットの第２要素を含み、１セットの第２要素が質問セットに含まれる各文字及び第１区切り識別子に対応して、質問セットに含まれる各文字及び第１区切り識別子の位置を指示する第１データ項目構築モジュールと、１セットの第２要素内の、質問セットに含まれる各文字に対応する複数の第２要素を決定するように構成される第２要素決定モジュールと、複数の第２要素を第１値として設定することにより、質問マスクを決定するように構成される質問マスク決定モジュールとをさらに備える。

いくつかの実施例では、装置６００は、第１出力に基づいて、第１テキストに関連する第１テキスト特徴表現、及び質問セットに関連する質問セット特徴表現を決定するように構成される第１特徴表現決定モジュールと、質問インデックスに基づいて、質問セット特徴表現内の、それぞれ質問セット内の各質問に関連する質問特徴表現を決定するように構成される第２特徴表現決定モジュールと、第１テキスト特徴表現、及び質問セット内の各質問に関連する質問特徴表現に基づいて、複数の答えを生成するように構成される第１答え生成モジュールとをさらに備える。

いくつかの実施例では、答え生成モジュールは、質問セット内の各質問に関連する質問特徴表現に基づいて、行と列で表され、その一行が質問セット内の１つの質問に関連する質問特徴表現に対応する第２データ項目を構築するように構成される第２データ項目構築モジュールと、第２データ項目及び第１テキスト特徴表現に対して第１操作を行うことにより、行と列で表され、質問セットに関連する開始識別子要素及び終止識別子要素を含む第３データ項目を決定するように構成される第３データ項目決定モジュールとをさらに備え、答え生成モジュールは、開始識別子要素及び終止識別子要素に基づき、第１テキストを利用して複数の答えを生成するようにさらに構成される。

図７は、本開示の実施例に係る読解モデルのトレーニング方法のフローチャートを示す。
ブロック７０２において、コンピューティング機器１０５は、第１テキスト、及び第１テキストに関連する質問セットを含むトレーニングデータを取得することができる。

理解できるのは、読解モデルが読み取って正確に処理できるように、トレーニングデータは、図２のブロック２０２及び２０４に説明される方法で用意され得る。
ブロック７０４において、コンピューティング機器１０５は、前の図２〜図５に説明される方法を利用して、複数の答えを生成することができる。

ブロック７０６において、コンピューティング機器１０５は、複数の答えと対応する複数の正解の答えとの間の差異に基づいて、読解モデルのパラメータを更新して、読解モデルをトレーニングすることができる。

この方式で、読解モデルのトレーニングプロセスで、同じドキュメントに基づく複数の質問は、読解モデルのパラメータを更新するために複数の結果を一回で取得することができ、これにより、トレーニングに必要なデータ量を消減して、トレーニングの効率を改善することができる。

図８は、本開示の実施例に係る読解モデルのトレーニング装置の概略ブロック図を示し、図８に示すように、装置８００は、第１テキスト、及び第１テキストに関連する質問セットを含むトレーニングデータを取得するように構成されるデータ取得モジュール８０２を備えてもよい。装置８００は、前の図２〜図５に説明される方法を利用して、複数の答えを生成するように構成される第２答え生成モジュール８０４をさらに備えてもよい。装置８００は、複数の答えと対応する複数の正解の答えとの間の差異に基づいて、読解モデルのパラメータを更新して、読解モデルをトレーニングするように構成されるトレーニングモジュール８０６をさらに備えてもよい。

本願の実施例によれば、本願は、電子機器、コンピュータ読み取り可能な記憶媒体及びコンピュータプログラム製品をさらに提供する。
図９は、本願の実施例に係る質問の答えの決定方法の電子機器９００のブロック図である。電子機器は様々な形態のデジタルコンピュータを表すことを目的とし、例えば、ラップトップコンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータである。電子機器は様々な形態のモバイル装置を表すこともでき、例えば、パーソナルデジタルアシスタント、セルラーホン、スマートフォン、ウェアラブル端末及び他の類似するコンピューティング装置である。本明細書に示される部材、それらの接続及び関係、並びにそれらの機能は例示的なものに過ぎず、本明細書に説明される、及び／又は、求められる本願の実現を制限することを意図するものではない。

図９に示すように、該電子機器は、１つ又は複数のプロセッサ９０１と、メモリ９０２と、高速インタフェースと低速インタフェースを含んで各部材を接続するためのインタフェースとを備える。各部材は、異なるバスで互いに接続され、且つ共通のマザーボードに取り付けられて又は必要に応じて他の方式で取り付けられてもよい。プロセッサは、電子機器内に実行される命令を処理することができ、メモリ内又はメモリ上に記憶されて外部入力／出力装置（例えば、インタフェースに結合された表示機器）上にＧＵＩのグラフィック情報を表示する命令を含む。他の実施形態では、必要な場合、複数のプロセッサ及び／又は複数本のバスを複数のメモリと共に使用することができる。同様に、複数の電子機器を接続してもよく、各機器は必要な操作の一部を提供する（例えば、サーバシーケンス、１セットのブレードサーバ、又はマルチプロセッサシステムとする）。図９では、１つのプロセッサ９０１を例とする。

メモリ９０２は、本願に係る非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリは、前記少なくとも１つのプロセッサに本願に係る質問の答えの決定方法を実行させるための、少なくとも１つのプロセッサによって実行可能な命令を記憶する。本願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータに本願に係る質問の答えの決定方法を実行させるためのコンピュータ命令を記憶する。

メモリ９０２は非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュール、例えば、本願の実施例の質問の答えの決定方法に対応するプログラム命令／モジュール（例えば、図６に示される入力取得モジュール６０２、質問セット前処理モジュール６０４及び出力決定モジュール６０６、図８に示されるデータ取得モジュール８０２、第２答え生成モジュール８０４及びトレーニングモジュール８０６）を記憶するために用いられてもよい。プロセッサ９０１は、メモリ９０２内に記憶される非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記の方法実施例の質問の答えの決定方法を実現する。

メモリ９０２は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができるプログラム記憶領域と、質問の答えを決定する電子機器の使用に応じて作成されたデータ等を記憶することができるデータ記憶領域とを含んでもよい。また、メモリ９０２は、高速ランダムアクセスメモリを含んでもよく、例えば、少なくとも１つの磁気ディスクメモリ、フラッシュメモリデバイス、又は、他の非一時的なソリッドステートストレージデバイスのような非一時的なメモリをさらに含んでもよい。いくつかの実施例では、メモリ９０２は、プロセッサ９０１に対して遠隔的に設置されたメモリを選択的に含んでもよく、これらの遠隔メモリは質問の答えを決定する電子機器にネットワークを介して接続されることができる。上記ネットワークの実例は、インターネット、企業イントラネット、ローカルエリアネットワーク、移動通信ネットワーク及びその組み合わせを含むが、これらに限定されない。

質問の答えを決定する電子機器は、入力装置９０３と出力装置９０４をさらに備えてもよい。プロセッサ９０１、メモリ９０２、入力装置９０３及び出力装置９０４は、バス又は他の方式で接続されることができ、図９ではバスによる接続を例とする。

入力装置９０３は、入力された数字又は文字情報を受信し、キーフレーズ識別モデルをトレーニングする電子機器のユーザ設定及び機能制御に関するキー信号入力を発生させてもよく、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、操作レバー等の入力装置である。出力装置９０４は、表示機器、補助照明装置（例えば、ＬＥＤ）及び触覚フィードバック装置（例えば、振動モーター）等を含んでもよい。該表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むが、これらに限定されない。いくつかの実施形態では、表示機器はタッチスクリーンであってもよい。

ここで説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステムにおいて実行可能及び／又は解釈可能な１つ又は複数のコンピュータプログラムにおける実現を含んでもよく、該プログラム可能なプロセッサは、専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、且つデータ及び命令を該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置に送信することができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラム可能なプロセッサの機械命令を含み、且つ高レベルのプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語を利用してこれらのコンピュータプログラムを実施することができる。本明細書で使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び／又はデータをプログラム可能なプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号としての機械命令を受信する機械読み取り可能な媒体を含む。「機器読み取り可能な信号」という用語は、機械命令及び／又はデータをプログラム可能なプロセッサに提供するための任意の信号を指す。

ユーザとの相互作用を提供するために、ここで説明されるシステム及び技術をコンピュータにおいて実施することができ、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニター）と、ユーザがそれを介して入力をコンピュータに提供できるキーボード及びポインティング装置（例えば、マウス又はトラックボール）とを有する。他の種類の装置はさらにユーザとの相互作用を提供するために用いられてもよく、例えば、ユーザに対して提供されるフィードバックは、任意の形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、且つ任意の形態（音響入力、音声入力又は、触覚入力を含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術を、バックグラウンド部材を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア部材を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部材を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はインターネットブラウザを有するユーザコンピュータであり、ユーザは該グラフィカルユーザインタフェース又は該インターネットブラウザによって、ここで説明されるシステム及び技術の実施形態と相互作用することができる）、又はこのようなバックグラウンド部材、ミドルウェア部材、又はフロントエンド部材の組み合わせのいずれかを含むコンピューティングシステムにおいて実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を介してシステムの部材を相互に接続することができる。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを含む。

コンピュータシステムはクライアント及びサーバを含んでもよい。クライアントとサーバは、一般的に互いに離れ、且つ通常、通信ネットワークを介して相互作用する。クライアントとサーバの関係は、対応するコンピュータにおいて実行され且つ互いにクライアント−サーバ関係を有するコンピュータプログラムによって発生される。

本願の実施例に係る技術的解決策によれば、コンピューティング機器は例えば読解モデルによって質問セット内の第１質問、及び第１テキストを処理する時に、質問マスクを設定することにより、質問セット内の他の質問のテキストが読解モデルに対して不可視になり、従って、複数の質問が一体に結合された後、他の質問に含まれる文字による第１質問への影響を解消することができる。

理解すべきなのは、上記に示される様々な形態のプロセスを使用して、ステップを再ソートし、追加し又は削除することができる。例えば、本願に記載の各ステップは、本願に開示されている技術的解決策の所望の結果を実現できる限り、並列的に実行されてもよく、順に実行されてもよく、又は異なる順序で実行されてもよく、本明細書は、これに対して限定しない。

上記具体的な実施形態は、本願の保護範囲を限定するものではない。当業者は、設計要件及び他の要因に基づき、様々な修正、組み合わせ、サブ組み合わせ及び代替を行うことができることを理解すべきである。本願の精神及び原則内に行った修正、同等置換及び改良等は、いずれも本願の保護範囲に属すべきである。

Claims

質問の答えの決定方法であって、
第１テキスト、及び前記第１テキストに関連する質問セットを含む、前記質問セット内の複数の質問を区切る第１区切り識別子を有する第１入力を取得することと、
前記第１区切り識別子の前記第１入力での位置を指示する質問インデックス、及び前記質問セットに対する、前記第１入力内の前記質問セットを選別するための質問マスクを決定することと、
前記質問インデックス、前記質問マスク及び読解モデルに基づいて、前記複数の質問にそれぞれ対応する複数の答えを生成するために、前記第１入力に対応する第１出力を決定することとを含む、質問の答えの決定方法。
前記第１入力は、前記第１区切り識別子と異なり、前記第１テキストを前記質問セットと区切る第２区切り識別子をさらに含む請求項１に記載の方法。
前記質問インデックスの決定は、
前記質問セットに関連する質問インデックスベクトルを構築することであって、前記質問インデックスベクトル内の１セットの第１要素は前記質問セットに含まれる各文字及び前記第１区切り識別子に対応して、前記質問セットに含まれる各文字及び前記第１区切り識別子の位置を指示することと、
前記第１区切り識別子に対応する第１要素を第１値として設定することにより、前記質問インデックスを決定することとを含む請求項１に記載の方法。
前記質問マスクの決定は、
前記質問セットに関連する第１データ項目を構築することであって、前記第１データ項目は行と列で表される１セットの第２要素を含み、前記１セットの第２要素が前記質問セットに含まれる各文字及び前記第１区切り識別子に対応して、前記質問セットに含まれる各文字及び前記第１区切り識別子の位置を指示することと、
前記１セットの第２要素内の、前記質問セット内のマスクされる複数の文字に対応する複数の第２要素を決定することと、
前記複数の第２要素を第２値として設定することにより、前記質問マスクを決定することとを含む、請求項１に記載の方法。
前記方法は、
前記第１出力に基づいて、前記第１テキストに関連する第１テキスト特徴表現、及び前記質問セットに関連する質問セット特徴表現を決定することと、
前記質問インデックスに基づいて、前記質問セット特徴表現内の、それぞれ前記質問セット内の各質問に関連する質問特徴表現を決定することと、
第１テキスト特徴表現、及び前記質問セット内の各質問に関連する質問特徴表現に基づいて、前記複数の答えを生成することとをさらに含む請求項１に記載の方法。
前記複数の答えを生成することは、
前記質問セット内の各質問に関連する前記質問特徴表現に基づいて、行と列で表され、その一行が前記質問セット内の１つの質問に関連する質問特徴表現に対応する第２データ項目を構築することと、
前記第２データ項目及び前記第１テキスト特徴表現に対して第１操作を行うことにより、行と列で表され、前記質問セットに関連する開始識別子要素及び終止識別子要素を含む第３データ項目を決定することと、
前記開始識別子要素及び前記終止識別子要素に基づき、前記第１テキストを利用して前記複数の答えを生成することとを含む請求項５に記載の方法。
読解モデルのトレーニング方法であって、
第１テキスト、及び前記第１テキストに関連する質問セットを含むトレーニングデータを取得することと、
請求項１〜６のいずれか１項に記載の方法を利用して、前記複数の答えを生成することと、
前記複数の答えと対応する複数の正解の答えとの間の差異に基づいて、前記読解モデルのパラメータを更新して、前記読解モデルをトレーニングすることとを含む読解モデルのトレーニング方法。
質問の答えの決定装置であって、
第１テキスト、及び前記第１テキストに関連する質問セットを含む、前記質問セット内の複数の質問を区切る第１区切り識別子を有する第１入力を取得するように構成される入力取得モジュールと、
前記第１区切り識別子の前記第１入力での位置を指示する質問インデックス、及び前記質問セットに対する、前記第１入力内の前記質問セットを選別するための質問マスクを決定するように構成される質問セット前処理モジュールと、
前記質問インデックス、前記質問マスク及び読解モデルに基づいて、前記複数の質問にそれぞれ対応する複数の答えを生成するために、前記第１入力に対応する第１出力を決定するように構成される出力決定モジュールとを備える、質問の答えの決定装置。
前記第１入力は、前記第１区切り識別子と異なり、前記第１テキストを前記質問セットと区切る第２区切り識別子をさらに含む請求項８に記載の装置。
前記質問セット前処理モジュールは、
前記質問セットに関連する質問インデックスベクトルを構築するように構成され、前記質問インデックスベクトル内の１セットの第１要素は前記質問セットに含まれる各文字及び前記第１区切り識別子に対応して、前記質問セットに含まれる各文字及び前記第１区切り識別子の位置を指示する質問インデックス構築モジュールと、
前記第１区切り識別子に対応する第１要素を第１値として設定することにより、前記質問インデックスを決定するように構成される質問インデックス決定モジュールとをさらに備える請求項８に記載の装置。
前記質問セット前処理モジュールは、
前記質問セットに関連する第１データ項目を構築するように構成され、前記第１データ項目は行と列で表される１セットの第２要素を含み、前記１セットの第２要素が前記質問セットに含まれる各文字及び前記第１区切り識別子に対応して、前記質問セットに含まれる各文字及び前記第１区切り識別子の位置を指示する第１データ項目構築モジュールと、
前記１セットの第２要素内の、前記質問セット内のマスクされる複数の文字に対応する複数の第２要素を決定するように構成される第２要素決定モジュールと、
前記複数の第２要素を第２値として設定することにより、前記質問マスクを決定するように構成される質問マスク決定モジュールとをさらに備える請求項８に記載の装置。
前記第１出力に基づいて、前記第１テキストに関連する第１テキスト特徴表現、及び前記質問セットに関連する質問セット特徴表現を決定するように構成される第１特徴表現決定モジュールと、
前記質問インデックスに基づいて、前記質問セット特徴表現内の、それぞれ前記質問セット内の各質問に関連する質問特徴表現を決定するように構成される第２特徴表現決定モジュールと、
第１テキスト特徴表現、及び前記質問セット内の各質問に関連する質問特徴表現に基づいて、前記複数の答えを生成するように構成される第１答え生成モジュールとをさらに備える請求項８に記載の装置。
前記答え生成モジュールは、
前記質問セット内の各質問に関連する前記質問特徴表現に基づいて、行と列で表され、その一行が前記質問セット内の１つの質問に関連する質問特徴表現に対応する第２データ項目を構築するように構成される第２データ項目構築モジュールと、
前記第２データ項目及び前記第１テキスト特徴表現に対して第１操作を行うことにより、行と列で表され、前記質問セットに関連する開始識別子要素及び終止識別子要素を含む第３データ項目を決定するように構成される第３データ項目決定モジュールとをさらに備え、且つ、
前記答え生成モジュールは、前記開始識別子要素及び前記終止識別子要素に基づき、前記第１テキストを利用して前記複数の答えを生成するようにさらに構成される請求項１２に記載の装置。
読解モデルのトレーニング装置であって、
第１テキスト、及び前記第１テキストに関連する質問セットを含むトレーニングデータを取得するように構成されるデータ取得モジュールと、
請求項１〜６のいずれか１項に記載の方法を利用して、前記複数の答えを生成するように構成される第２答え生成モジュールと、
前記複数の答えと対応する複数の正解の答えとの間の差異に基づいて、前記読解モデルのパラメータを更新して、前記読解モデルをトレーニングするように構成されるトレーニングモジュールとを備える読解モデルのトレーニング装置。
電子機器であって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されたメモリとを備え、
前記メモリは、前記少なくとも１つのプロセッサによって実行されると、前記少なくとも１つのプロセッサに請求項１〜７のいずれか１項に記載の方法を実行させるための、前記少なくとも１つのプロセッサによって実行可能な命令が記憶される電子機器。
コンピュータ命令を記憶する非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項１〜７のいずれか１項に記載の方法を実行させるための非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラム製品であって、コンピュータプログラム命令を含み、前記コンピュータプログラム命令がプロセッサによって実行されると請求項１〜７のいずれか１項に記載の方法を実現させるコンピュータプログラム製品。