JP2021111314A

JP2021111314A - 構造化クエリステートメントを出力する方法および装置

Info

Publication number: JP2021111314A
Application number: JP2020097333A
Authority: JP
Inventors: ワン，リジェ; Lijie Wang; ユ，ボ; Bo Yu; スン，ケ; Ke Sun; リ，ティンティン; Tingting Li
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-12-31
Filing date: 2020-06-04
Publication date: 2021-08-02
Anticipated expiration: 2040-06-04
Also published as: CN111125154B; CN111125154A; JP7096289B2; US20210200763A1; US11449500B2

Abstract

【課題】構造化クエリステートメントを出力する方法、装置、電子機器、コンピュータ可読媒体及びプログラムを提供する。【解決手段】方法は、変換する自然言語ステートメントを取得するステップ２０１と、変換する自然言語ステートメントを事前トレーニングされたＳｅｑ２Ｓｅｑモデルに入力して、変換する自然言語ステートメントに対応するアクションシーケンスを取得するステップ２０２と、アクションシーケンスにしたがって有向非循環グラフを生成するステップ２０３と、事前設置された有向非循環グラフと構造化クエリステートメントとの対応関係にしたがって、生成された有向非循環グラフに対応する構造化クエリステートメントを出力するステップ２０４と、を含み、構造化クエリステートメントを出力する精度を向上させる。【選択図】図２

Description

本出願の実施例は、コンピュータ技術分野に関し、特に、構造化クエリステートメントを出力する方法および装置に関する。

情報化時代において、データベースは情報のキャリアとしてますます広く使用されている。人々はデータベースからさまざまなデータをクエリする必要があり、標準の構造化クエリ言語（ＳｔｒｕｃｔｕｒｅｄＱｕｅｒｙＬａｎｇｕａｇｅ，ＳＱＬ）を習得する必要がある。しかし、多くの非専門家にとって、ＳＱＬの習得は困難であり、ＳＱＬのさまざまな文法を学習する必要があるため、非専門家がデータベースを使用するために自然言語を構造化クエリステートメントに変換する方法が急務である。

構造化クエリステートメントを生成する既存の方法は、通常、構造化クエリステートメントを手動で作成するか、事前トレーニング済みの機械学習モデルに自然言語クエリステートメントを直接入力して、構造化クエリステートメントを取得することである。

本出願の実施例は、構造化クエリステートメントを出力する方法および装置を提出する。

第１の態様では、本出願のいくつかの実施例は、変換する自然言語ステートメントを取得するステップと、変換する自然言語ステートメントを事前トレーニングされたＳｅｑ２Ｓｅｑモデルに入力して、変換する自然言語ステートメントに対応するアクションシーケンスを取得するステップと、アクションシーケンスにしたがって有向非循環グラフを生成するステップと、事前設置された有向非循環グラフと構造化クエリステートメントとの対応関係にしたがって、生成された有向非循環グラフに対応する構造化クエリステートメントを出力するステップとを含む、構造化クエリステートメントを出力する方法を提供する。

いくつかの実施例では、Ｓｅｑ２Ｓｅｑモデルは、以下のステップのトレーニングによって取得されるモデルを含み、サンプル自然言語ステートメントおよびサンプル自然言語ステートメントに対応するサンプル構造化クエリステートメントを含むサンプルセットを取得するステップと、事前設置された有向非循環グラフと構造化クエリステートメントの対応関係にしたがって、サンプルセット中のサンプル構造化クエリステートメントに対応するサンプル有向非循環グラフを確定するステップと、確定されたサンプル有向非循環グラフのサンプルアクションシーケンスを取得するステップと、サンプル自然言語ステートメントとサンプル自然言語ステートメントに対応するサンプルアクションシーケンスをそれぞれ、入力と出力として、トレーニングしてＳｅｑ２Ｓｅｑモデルを取得するステップである。

いくつかの実施例では、アクションシーケンスにしたがって有向非循環グラフを生成するステップは、Ｓｈｉｆｔ−ｒｅｄｕｃｅ法に基づいて、アクションシーケンスにしたがって有向非循環グラフを生成するステップを含む。

いくつかの実施例では、有向非循環グラフは、親ノード情報、子ノード情報および関係情報を含む少なくとも１つの情報アイテムの組み合わせを含む。

いくつかの実施例では、事前設置された有向非循環グラフと構造化クエリステートメントとの対応関係にしたがって、生成された有向非循環グラフに対応する構造化クエリステートメントを出力するステップは、有向非循環グラフのノードを構造化クエリステートメント中の第１の部分として確定するステップであって、第１の部分は、演算子、フィールド名、テーブル名、属性を含むステップと、有向非循環グラフ中のノード間の関係を構造化クエリステートメント中の第２の部分として確定するステップとを含む。

第２の態様では、本出願のいくつかの実施例は、変換する自然言語ステートメントを取得するように構成される取得ユニットと、変換する自然言語ステートメントを事前トレーニングされたＳｅｑ２Ｓｅｑモデルに入力して、変換する自然言語ステートメントに対応するアクションシーケンスを取得するように構成される入力ユニットと、アクションシーケンスにしたがって有向非循環グラフを生成するように構成される生成ユニットと、事前設置された有向非循環グラフと構造化クエリステートメントとの対応関係にしたがって、生成された有向非循環グラフに対応する構造化クエリステートメントを出力するように構成される出力ユニットとを含む、構造化クエリステートメントを出力する装置を提供する。

いくつかの実施例では、装置は、トレーニングユニットをさらに含み、トレーニングユニットは、サンプル自然言語ステートメントおよびサンプル自然言語ステートメントに対応するサンプル構造化クエリステートメントを含むサンプルセットを取得するように構成される取得サブユニットと、事前設置された有向非循環グラフと構造化クエリステートメントの対応関係にしたがって、サンプルセット中のサンプル構造化クエリステートメントに対応するサンプル有向非循環グラフを確定するように構成される第１の確定サブユニットと、確定されたサンプル有向非循環グラフのサンプルアクションシーケンスを取得するように構成される取得サブユニットと、サンプル自然言語ステートメントとサンプル自然言語ステートメントに対応するサンプルアクションシーケンスをそれぞれ、入力と出力として、トレーニングして前記Ｓｅｑ２Ｓｅｑモデルを取得するように構成されるトレーニングサブユニットとを含む。

いくつかの実施例では、生成ユニットはさらに、Ｓｈｉｆｔ−ｒｅｄｕｃｅ法に基づいて、アクションシーケンスにしたがって有向非循環グラフを生成するように構成される。

いくつかの実施例では、出力ユニットは、有向非循環グラフのノードを構造化クエリステートメント中の第１の部分として確定するように構成される第２の確定サブユニットであって、第１の部分は、演算子、フィールド名、テーブル名、属性を含む第２の確定サブユニットと、有向非循環グラフ中のノード間の関係を構造化クエリステートメント中の第２の部分として確定するように構成される第３の確定サブユニットとを含む。

第３の態様では、本出願のいくつかの実施例は、１つまたは複数のプロセッサと、および１つまたは複数のプログラムが記憶されている記憶装置とを含み、１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサは、第１の態様に記載の方法を実施する電子機器を提供する。

第４の態様では、本出願のいくつかの実施例は、プログラムがプロセッサによって実行されると、第１の態様に記載の方法が実施されるコンピュータ可読媒体を提供する。

本出願の実施例によって提供される構造化クエリステートメントを出力する方法および装置は、変換する自然言語ステートメントを取得するステップと、変換する自然言語ステートメントを事前トレーニングされたＳｅｑ２Ｓｅｑモデルに入力して、変換する自然言語ステートメントに対応するアクションシーケンスを取得するステップと、アクションシーケンスにしたがって有向非循環グラフを生成するステップと、事前設置された有向非循環グラフと構造化クエリステートメントとの対応関係にしたがって、生成された有向非循環グラフに対応する構造化クエリステートメントを出力するステップによって、構造化クエリステートメントを出力する精度を向上させる。

本出願のいくつかの実施例を適用することができる例示的なシステムアーキテクチャ図である。

本出願に係る構造化クエリステートメントを出力する方法の一実施例のフローチャートである。

本出願に係る構造化クエリステートメントを出力する方法の一アプリケーションシナリオの模式図である。

本出願に係る構造化クエリステートメントを出力する方法の別実施例のフローチャートである。

本出願に係る構造化クエリステートメントを出力する装置の一実施例の構造模式図である。

本出願のいくつかの実施例のサーバまたは端末を実現するのに適したコンピュータシステムの構造模式図である。

以下の図面を参照して行われる非限定的な実施例の詳細な説明を読むことにより、本出願の他の特徴、目的、および利点がより明らかになるであろう。

図面および実施例を結び付けて、本出願をさらに詳細に説明する。本明細書に記載される具体的な実施例は、関連する発明を説明するためだけに使用され、本発明を限定するためではないことが理解され得る。また、説明を簡単にするために、本発明に関連する部分のみが図面に示されていることにも留意されたい。

なお、矛盾しない場合、本願の実施例と実施例の特徴は、互いに組み合わせることができる。以下、図面を参照し、実施例と結び付けて、本出願を詳細に説明する。

図１は、本出願の構造化クエリステートメントを出力する方法または構造化クエリステートメントを出力する装置を適用できる実施例の例示的なシステムアーキテクチャ１００である。

図１に示すように、システムアーキテクチャ１００は、端末機器１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含むことができる。ネットワーク１０４は、端末機器１０１、１０２、１０３とサーバ１０５との間に通信リンクを提供するために使用される媒体である。ネットワーク１０４は、有線、無線通信リンクまたは光ファイバーケーブルなどの様々な接続タイプを含むことができる。

ユーザは、端末機器１０１、１０２、１０３を使用して、ネットワーク１０４と介してサーバ１０５とインタラクトして、メッセージなどを送信または受信することができる。端末機器１０１、１０２、１０３には、データベースアプリケーション、言語処理アプリケーション、電子商取引アプリケーション、および検索アプリケーションなど、さまざまなクライアントアプリケーションがインストールされることができる。

端末機器１０１、１０２、１０３は、ハードウェアまたはソフトウェアであり得る。端末機器１０１、１０２、１０３がハードウェアである場合、スマートフォン、タブレットコンピュータ、ラップトップポータブルコンピュータ、およびデスクトップコンピュータなどを含むがこれらに限定されず、ディスプレイ画面を備える様々な電子機器であることができる。端末機器１０１、１０２、１０３がソフトウェアである場合、上記の電子機器にインストールされることができる。それは、複数のソフトウェアまたはソフトウェアモジュールとして実現でき、単一のソフトウェアまたはソフトウェアモジュールとしても実現できる。ここでは具体的に制限しない。

サーバ１０５は、端末機器１０１、１０２、１０３にインストールされたアプリケーションにサポートを提供するバックグラウンドサーバなどの様々なサービスを提供するサーバであることができ、サーバ１０５は、変換する自然言語ステートメントを取得することができ、変換する自然言語ステートメントを事前トレーニングされたＳｅｑ２Ｓｅｑモデルに入力して、変換する自然言語ステートメントに対応するアクションシーケンスを取得することができ、アクションシーケンスにしたがって有向非循環グラフを生成することができ、事前設置された有向非循環グラフと構造化クエリステートメントとの対応関係にしたがって、生成された有向非循環グラフに対応する構造化クエリステートメントを出力することができる。

説明すべきなのは、本出願の実施例によって提供される構造化クエリステートメントを出力する方法は、サーバ１０５によって実行されることができ、端末機器１０１、１０２、１０３によって実行されることもでき、対応的に、構造化クエリステートメントを出力する装置は、サーバ１０５に設置されることができ、端末機器１０１、１０２、１０３に設置されることもできる。

説明すべきなのは、サーバは、ハードウェアまたはソフトウェアであり得る。サーバがハードウェアである場合、複数のサーバから構成される分散型サーバクラスタとして実現でき、単一のサーバとしても実現できる。サーバがソフトウェアである場合、複数のソフトウェアまたはソフトウェアモジュール（例えば、分散型サービスを提供するための）として実現でき、単一のソフトウェアまたはソフトウェアモジュールとしても実現できる。ここでは具体的に制限しない。

図１の端末機器、ネットワークおよびサーバの数は模式的にすぎないことを理解されたい。実現のニーズに応じて、任意の数の端末機器、ネットワーク、およびサーバを有することができる。

図２を引き続き参照すると、本出願による構造化クエリステートメントを出力する方法の一実施例のフロー２００を示している。前記構造化クエリステートメントを出力する方法は、以下のステップを含む。

ステップ２０１において、変換する自然言語ステートメントを取得する。

本実施例では、構造化クエリステートメントを出力する方法の実行本体（例えば、図１に示されたサーバまたは端末）は、まず変換する自然言語ステートメントを取得することができる。変換する自然言語ステートメントは、ユーザが入力したテキスト、画像または音声の形式の自然言語情報から由来することができる。

ステップ２０２において、変換する自然言語ステートメントを事前トレーニングされたＳｅｑ２Ｓｅｑモデルに入力して、変換する自然言語ステートメントに対応するアクションシーケンスを取得する。

本実施例では、前記実行本体は、ステップ２０１で取得された変換する自然言語ステートメントを事前トレーニングされたＳｅｑ２Ｓｅｑモデルに入力して、変換する自然言語ステートメントに対応するアクションシーケンスを取得することができる。Ｓｅｑ２Ｓｅｑモデルは、自然言語ステートメントとアクションシーケンスとの対応関係を特徴付けるために使用されることができる。Ｓｅｑ２Ｓｅｑモデル（ＳｅｑｕｅｎｃｅｔｏＳｅｑｕｅｎｃｅ，Ｓｅｑ２Ｓｅｑ）は、エンコーダー、デコーダー（Ｅｎｃｏｄｅｒ−Ｄｅｃｏｄｅｒ）モデルを含むことができ、１つまたは複数のニューラルネットワークモデルを含むこともでき、ニューラルネットワークモデルは、リカレントニューラルネットワークモデル（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）を使用することができ、リカレントニューラルネットワークモデルネットワーク構造中の隠れノード間の接続はリングを形成し、現在の情報を学習するだけでなく、以前のシーケンス情報にも依存する。特殊なネットワークモデル構造により、情報保存の問題を解決する。したがって、ＲＮＮは、時系列および言語テキストシーケンスの問題を処理するのに対して独特の利点がある。さらに、ＲＮＮバリアント（ｖａｒｉａｎｔ）の長期短期記憶ネットワーク（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙｎｅｔｗｏｒｋｓ，ＬＳＴＭ）およびゲーテッドリカレントユニット（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ，ＧＲＵ）の１つまたは複数からなるＳｅｑ２Ｓｅｑモデルを使用することができる。

本実施例のいくつかの選択可能な実現形態では、Ｓｅｑ２Ｓｅｑモデルは、以下のステップのトレーニングによって取得されるモデルを含み、サンプル自然言語ステートメントおよびサンプル自然言語ステートメントに対応するサンプル構造化クエリステートメントを含むサンプルセットを取得するステップと、事前設置された有向非循環グラフと構造化クエリステートメントの対応関係にしたがって、サンプルセット中のサンプル構造化クエリステートメントに対応するサンプル有向非循環グラフを確定するステップと、確定されたサンプル有向非循環グラフのサンプルアクションシーケンスを取得するステップと、サンプル自然言語ステートメントとサンプル自然言語ステートメントに対応するサンプルアクションシーケンスをそれぞれ、入力と出力として、トレーニングしてＳｅｑ２Ｓｅｑモデルを取得するステップである。

本実施例のいくつかの選択可能な実現形態では、Ｓｅｑ２Ｓｅｑモデルのデュアルモデル、すなわち、入力がアクションシーケンスであり、出力が自然言語ステートメントであるモデルをさらに構築することができ、その後、強化学習法に基づいて２つのモデルを共同でトレーニングして、Ｓｅｑ２Ｓｅｑモデルを取得する。

ステップ２０３において、アクションシーケンスにしたがって有向非循環グラフを生成する。

本実施例では、前記実行本体は、ステップ２０２で取得されたアクションシーケンスにしたがって有向非循環グラフを生成することができる。ここで、前記実行本体は、グラフベースの解析手法、転送ベースの解析手法またはアクションシーケンスと有向非循環グラフの対応関係を特徴付ける事前トレーニングされたモデルに基づいて、アクションシーケンスを有向非循環グラフに変換することができる。グラフベースの解析手法は、動的プログラミングに基づく復号化アルゴリズムを使用でき、転送ベースの分析方法は、一連のＳｈｉｆｔ−ｒｅｄｕｃｅなどの転送アクションを通じて有向非循環グラフを構築できる。

ステップ２０４において、事前設置された有向非循環グラフと構造化クエリステートメントとの対応関係にしたがって、生成された有向非循環グラフに対応する構造化クエリステートメントを出力する。

本実施例では、前記実行本体は、事前設置された有向非循環グラフと構造化クエリステートメントとの対応関係にしたがって、ステップ２０３で生成された有向非循環グラフに対応する構造化クエリステートメントを出力することができる。有向非循環グラフと構造化クエリステートメントとの対応関係は、有向非循環グラフの語義ブロックと構造化クエリステートメントとの対応関係、または有向非循環グラフ全体と構造化クエリステートメントとの対応関係を含むことができる。前記対応関係は、列挙によって得ることができる。

本実施例のいくつかの選択可能な実現形態では、事前設置された有向非循環グラフと構造化クエリステートメントとの対応関係にしたがって、生成された有向非循環グラフに対応する構造化クエリステートメントを出力するステップは、有向非循環グラフのノードを構造化クエリステートメント中の第１の部分として確定するステップであって、上記第１の部分は、演算子、フィールド名、テーブル名、属性を含むステップと、および有向非循環グラフ中のノード間の関係を構造化クエリステートメント中の第２の部分として確定するステップとを含む。

ＳＱＬクエリステートメントは、特定の文法にしたがったサブクエリステートメントによって組み合わされて取得され、例示として、ＳＱＬクエリステートメント「Ｓｅｌ＿Ｓ」に関連付けられたサブクエリステートメントは、「ＳＥＬＥＣＴ（Ａ＿Ｓ）＋ＦＲＯＭｔａｂｌｅＷＨＥＲＥ（Ｗ＿Ｓ）？」を含むことができ、ＳＱＬクエリステートメント「Ａ＿Ｓ」に関連付けられたサブクエリステートメントは、「（ＡＧＧ）？ｃｏｌｕｍｎ」を含むことができ、ＳＱＬクエリステートメント「Ｗ＿Ｓ」に関連付けられたサブクエリステートメントは、「Ｃ＿Ｓ（ｃｏｎｄｉｔｉｏｎ＿ｒｅｌａｔｉｏｎＣ＿Ｓ）＊」を含むことができ、ＳＱＬクエリステートメント「Ｃ＿Ｓ」に関連付けられたサブクエリステートメントは、「ＣｏｌｕｍｎＯＰｖａｌｕｅ」を含むことができる。ここで、「＊」は、０回または複数回を表すことができ、「＋」は、１回または複数回を表すことができ、「？」は、０回また１回を表すことができる。ＡＧＧは、ＳＱＬ中の演算子（ａｇｇｒｅｇａｔｏｒｓ）を表すことができ、ｍｉｎ（最小）、ｍａｘ（最大）、ｃｏｕｎｔ（総数）、ｓｕｍ（合計）、ａｖｇ（平均）を含むことができる。ＯＰは、ＳＱＬの演算子（ｏｐｅｒａｔｏｒｓ）の略称であり、＞（より大きい）、＞＝（以上）、＜（より小さい）、＜＝（以下）、＝＝（等しい）、！＝（等しくない）などを含むことができる。Ｃｏｌｕｍｎは、テーブル（ｔａｂｌｅ）のリスト名またはフィールド名を表すことができ、ｖａｌｕｅは、属性、すなわち具体的な値を表すことができる。ｃｏｎｄｉｔｏｎ＿ｒｅｌａｔｉｏｎは、ＳＱＬで定義された条件間の関係を表すことができ、ａｎｄ（および）およびｏｒ（または）を含む。

本実施例のいくつかの選択可能な実現形態では、有向非循環グラフは、親ノード情報、子ノード情報および関係情報を含む少なくとも１つの情報アイテムの組み合わせを含む。本実施形態では、有向非循環グラフは、アクションシーケンスとの相互変換を容易にするいくつかの情報アイテムの組み合わせとして表され、構造化クエリステートメントの出力効率をさらに向上させる。例示として、情報アイテムの組み合わせの形式は（親ノード情報、子ノード情報、関係情報）以下のとおりであり、関連するサブクエリステートメント「ＳＥＬＥＣＴ（Ａ＿Ｓ）＋ＦＲＯＭｔａｂｌｅＷＨＥＲＥ（Ｗ＿Ｓ）？」に対応するグラフは、「（ｒｏｏｔ，ｐａｒｅｎｔｏｆＡ＿Ｓ，ＳＥＬＥＣＴ）（ｒｏｏｔ，ｔａｂｌｅ，ＦＲＯＭ）（ｒｏｏｔ，ｐａｒｅｎｔｏｆＷ＿Ｓ，ＷＨＥＥＲ）」であることができ、関連するサブクエリステートメント「（ＡＧＧ）？ｃｏｌｕｍｎ」に対応するグラフは、「（ＡＧＧ，ｃｏｌｕｍｎ，ＡＲＧＳ）」であることができ、関連するサブクエリステートメント「Ｃ＿Ｓ（ｃｏｎｄｉｔｉｏｎ＿ｒｅｌａｔｉｏｎＣ＿Ｓ）＊」に対応するグラフは、「（ｐａｒｅｎｔｏｆｆｉｒｓｔＣ＿Ｓ，ｐａｒｅｎｔｏｆｓｅｃｏｎｄＣ＿Ｓ，ｃｏｎｄｉｔｉｏｎ＿ｒｅｌａｔｉｏｎ）」であることができ、関連するサブクエリステートメント「ＣｏｌｕｍｎＯＰｖａｌｕｅ」に対応するグラフは、「（ｃｏｌｕｍｎ，ｖａｌｕｅ，ＯＰ）」であることができ、ここで、ｒｏｏｔは、仮想ルートノードを表すことができ、ＡＲＧＳは所有権関係を表すことができ、「の」として理解することができる。ＳＱＬクエリステートメントの全体的な構文を列挙できるため、完全な対応関係を得ることができる。

図３を引き続き参照すると、図３は、本実施例に係る構造化クエリステートメントを出力する方法のアプリケーションシナリオの模式図である。図３のアプリケーションシナリオでは、取得された変換する自然言語ステートメントは、「Ｗｈａｔｉｓｔｈｅａｖｅｒａｇｅ，ｍｉｎｉｍｕｍ，ａｎｄｍａｘｉｍｕｍａｇｅｏｆａｌｌｓｉｎｇｅｒｓｆｒｏｍＦｒａｎｃｅ（フランス歌手の年齢の平均値、最大値、最小値は何ですか）？」であり、その後事前トレーニングされたＳｅｑ２Ｓｅｑモデルに入力して、対応するアクションシーケンスを取得し、アクションシーケンスにしたがって図３に示したような有向非循環グラフを生成し、最後に事前設置された有向非循環グラフと構造化クエリステートメントとの対応関係にしたがって、生成された有向非循環グラフに対応する構造化クエリステートメントを出力し、それは「ＳＥＬＥＣＴａｖｇ（ａｇｅ），ｍｉｎ（ａｇｅ），ｍａｘ（ａｇｅ）ＦＲＯＭｓｉｎｇｅｒＷＨＥＲＥｃｏｕｎｔｒｙ＝Ｆｒａｎｃｅ」であり、ここで、ｓｉｎｇｅｒ（歌手）は、テーブル名であり、ａｇｅ（年齢）、ｃｏｕｎｔｒｙ（国）は、テーブルｓｉｎｇｅｒのフィールドであり、Ｆｒａｎｃｅ（フランス）は、フィールドｃｏｕｎｔｒｙの属性値である。

本出願の前記実施例によって提供される方法は、変換する自然言語ステートメントを取得するステップと、変換する自然言語ステートメントを事前トレーニングされたＳｅｑ２Ｓｅｑモデルに入力して、変換する自然言語ステートメントに対応するアクションシーケンスを取得するステップと、アクションシーケンスにしたがって有向非循環グラフを生成するステップと、事前設置された有向非循環グラフと構造化クエリステートメントとの対応関係にしたがって、生成された有向非循環グラフに対応する構造化クエリステートメントを出力するステップとを介して、構造化クエリステートメントを出力する精度を向上させる。

図４をさらに参照すると、構造化クエリステートメントを出力する方法の別の実施例のフロー４００を示している。前記構造化クエリステートメントを出力する方法のフロー４００は、以下のステップを含む。

ステップ４０１において、変換する自然言語ステートメントを取得する。

本実施例では、構造化クエリステートメントを出力する方法の実行本体（例えば、図１に示されたサーバまたは端末）は、まず変換する自然言語ステートメントを取得することができる。

ステップ４０２において、変換する自然言語ステートメントを事前トレーニングされたＳｅｑ２Ｓｅｑモデルに入力して、変換する自然言語ステートメントに対応するアクションシーケンスを取得する。

本実施例では、前記実行本体は、ステップ４０１で取得された変換する自然言語ステートメントを事前トレーニングされたＳｅｑ２Ｓｅｑモデルに入力して、変換する自然言語ステートメントに対応するアクションシーケンスを取得することができる。

ステップ４０３において、Ｓｈｉｆｔ−ｒｅｄｕｃｅ法に基づいて、アクションシーケンスにしたがって有向非循環グラフを生成する。

本実施例では、前記実行本体は、ステップ４０２で取得されたアクションシーケンスにしたがって有向非循環グラフを生成することができる。

Ｓｈｉｆｔ−ｒｅｄｕｃｅ法は、構成ファイルとアクションセットによって完成されることができる。構成ファイルＣ＝（δ， η， β，Ｇ_ｐ）。ここで、δは、η由来し、再処理される（ｉｎｄｅｘ，ｎｏｄｅ）（インデックス、ノード）ペアを保存する１つのスタックを表す。βは、処理される入力情報を保存するために使用される。ηは、サイズを固定する１つのキャッシュである。Ｇ_ｐは、構成されたグラフである。構成ファイルの初期状態は、（［］，［＄_１， …，＄_ｍ］，［ｎ_１， …，ｎ_｜ｎ｜］， φ）であり、ここで、「［］」および「φ」は、スタックδおよびグラフＧ_ｐがすべて空であることを表し、［＄_１，…，＄_ｍ］は、キャッシュを表し、βは、全体の入力、すなわち、［ｎ_１，…，ｎ_｜ｎ｜］に等しく、βが空である場合、処理が完了したことを表し、グラフＧ_ｐは構築したグラフを表す。

アクションセットは、ＰｕｓｈＮｏｄｅ（ｎ_ｉ）を含むことができ、入力ｎ_ｉを入力βからキャッシュηに移動し、最後の位置に配置し、η中の１つの要素をスタックδに移動することを表す。Ｐｏｐは、（ｉ，ｖ）をスタックδからキャッシュηの第ｉの位置に移動し、キャッシュηの第ｉの位置以降の要素は順次に右に移動され、最後の要素はキャッシュを削除することを表す。ＡｒｃＧｅｎ（ｉ，ｄ，ｌ）は、入力βの最左端の要素とキャッシュη中の第ｉの要素を関係判断し、方向はｄであり、円弧上の関係はｌであることを表す。入力β中の最左端の要素がすべてのキャッシュη要素に順次に関係判断する際、関係が存在しない場合、円弧上の関係はＮｏｎｅである。

アクションセットはさらに、ｓｈｉｆｔ、ａｒｃ＿ｌｅｆｔ＿ｌ、ａｒｃ＿ｒｉｇｈｔ＿ｌ、ｐｏｐ＿ｒｏｏｔなどを含むことができ、具体的に、実際のニーズに応じて設定することができる。

例示として、表１は、Ｓｈｉｆｔ−ｒｅｄｕｃｅ法に基づく、自然言語ステートメント「ｗｈａｔｉｓｔｈｅｍａｘｉｍｕｍａｇｅｏｆａｌｌｓｉｎｇｅｒｓｆｒｏｍＦｒａｎｃｅ？」（すべてのフランス歌手の年齢の中、最大年齢はいくつですか？）に対応するアクションシーケンス「ｍａｘ（ｍａｘｉｍｕｍ）ａｇｅ（ａｇｅ）ｓｉｎｇｅｒ（ｓｉｎｇｅｒｓ）ｆｒａｎｃｅ（Ｆｒａｎｃｅ）」にしたがって有向非循環グラフを生成するプロセスを示した。

（表１）

ステップ４０４において、事前設置された有向非循環グラフと構造化クエリステートメントとの対応関係にしたがって、生成された有向非循環グラフに対応する構造化クエリステートメントを出力する。

本実施例では、前記実行本体は、事前設置された有向非循環グラフと構造化クエリステートメントとの対応関係にしたがって、ステップ４０３で生成された有向非循環グラフに対応する構造化クエリステートメントを出力することができる。

本実施例では、ステップ４０１、ステップ４０２、ステップ４０４の操作は、ステップ２０１、ステップ２０２、ステップ２０４の操作と基本的に同じであり、ここで繰り返して説明しない。

図４から分かるように、図２に対応する実施例と比較して、本実施例の構造化クエリステートメントを出力する方法のフロー４００では、Ｓｈｉｆｔ−ｒｅｄｕｃｅ法に基づいて、アクションシーケンスにしたがって有向非循環グラフを生成することにより、本実施例で説明された手段で生成された有向非循環グラフはより正確で、構造化クエリステートメントの精度をさらに向上させる。

さらに図５を参照すると、上記各図に示された方法の実現として、本出願は、構造化クエリステートメントを出力する装置の一実施例を提供し、前記装置の実施例は、図２に示された方法の実施例に対応し、前記装置は、具体的に様々な電子機器に適用することができる。

図５に示すように、本実施例の構造化クエリステートメントを出力する装置５００は、取得ユニット５０１、入力ユニット５０２、生成ユニット５０３、および出力ユニット５０４を含む。ここで、取得ユニットは、変換する自然言語ステートメントを取得するように構成され、入力ユニットは、変換する自然言語ステートメントを事前トレーニングされたＳｅｑ２Ｓｅｑモデルに入力して、変換する自然言語ステートメントに対応するアクションシーケンスを取得するように構成され、生成ユニットは、アクションシーケンスにしたがって有向非循環グラフを生成するように構成され、出力ユニットは、事前設置された有向非循環グラフと構造化クエリステートメントとの対応関係にしたがって、生成された有向非循環グラフに対応する構造化クエリステートメントを出力するように構成される。

本実施例では、構造化クエリステートメントを出力する装置５００の取得ユニット５０１、第１の確定ユニット５０２、第２の確定ユニット５０３、第１の生成ユニット５０４の具体的な処理は、図２に対応する実施例のステップ２０１、ステップ２０２、ステップ２０３およびステップ２０４を参照することができる。

本実施例のいくつかの選択可能な実現形態では、装置は、トレーニングユニットをさらに含み、トレーニングユニットは、サンプル自然言語ステートメントおよびサンプル自然言語ステートメントに対応するサンプル構造化クエリステートメントを含むサンプルセットを取得するように構成される取得サブユニットと、事前設置された有向非循環グラフと構造化クエリステートメントの対応関係にしたがって、サンプルセット中のサンプル構造化クエリステートメントに対応するサンプル有向非循環グラフを確定するように構成される第１の確定サブユニットと、確定されたサンプル有向非循環グラフのサンプルアクションシーケンスを取得するように構成される取得サブユニットと、およびサンプル自然言語ステートメントとサンプル自然言語ステートメントに対応するサンプルアクションシーケンスをそれぞれ、入力と出力として、トレーニングしてＳｅｑ２Ｓｅｑモデルを取得するように構成されるトレーニングサブユニットとを含む。

本実施例のいくつかの選択可能な実現形態では、生成ユニットはさらに、Ｓｈｉｆｔ−ｒｅｄｕｃｅ法に基づいて、アクションシーケンスにしたがって有向非循環グラフを生成するように構成される。

本実施例のいくつかの選択可能な実現形態では、有向非循環グラフは、親ノード情報、子ノード情報および関係情報を含む少なくとも１つの情報アイテムの組み合わせを含む。

本実施例のいくつかの選択可能な実現形態では、出力ユニットは、有向非循環グラフのノードを構造化クエリステートメント中の演算子、フィールド名、テーブル名、属性を含む第１の部分として確定するように構成される第２の確定サブユニットと、有向非循環グラフ中のノード間の関係を構造化クエリステートメント中の第２の部分として確定するように構成される第３の確定サブユニットとを含む。

本出願の前記実施例によって提供される装置は、変換する自然言語ステートメントを取得するステップと、変換する自然言語ステートメントを事前トレーニングされたＳｅｑ２Ｓｅｑモデルに入力して、変換する自然言語ステートメントに対応するアクションシーケンスを取得するステップと、アクションシーケンスにしたがって有向非循環グラフを生成するステップと、事前設置された有向非循環グラフと構造化クエリステートメントとの対応関係にしたがって、生成された有向非循環グラフに対応する構造化クエリステートメント出力するステップとを介して、構造化クエリステートメントを出力する精度を向上させる。

以下、図６を参照すると、本出願の実施例のサーバまたは端末を実現するのに適したコンピュータシステム６００の構造模式図である。図６に示されたサーバまたは端末は単なる例であり、本出願の実施例の機能および使用範囲にいかなる制限をももたらすべきではない。

図６に示すように、コンピュータシステム６００は、読み取り専用メモリ（ＲＯＭ）６０２に記憶されたプログラムに従って、または記憶部分６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードされて、さまざまな適切なアクションと処理を実行することができる中央処理装置（ＣＰＵ）６０１を含む。ＲＡＭ６０３では、システム６００の操作に必要な様々なプログラムとデータがさらに記憶されている。ＣＰＵ６０１、ＲＯＭ６０２およびＲＡＭ６０３は、バス６０４を介して相互に接続されている。入力／出力（Ｉ／Ｏ）インターフェース６０５もバス６０４に接続されている。

キーボード、マウスなどを含む入力部分６０６と、ブラウン管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）などおよびスピーカーなどを含む出力部分６０７と、ハードディスクなどを含む記憶部分６０８と、およびＬＡＮカード、モデムなどのネットワークインターフェースカードを含む通信部分６０９との部材は、Ｉ／Ｏインターフェース６０５に接続されることができる。通信部分６０９は、インターネットなどのネットワークを介して通信処理を行う。ドライバ６１０も、必要に応じてＩ／Ｏインターフェース６０５に接続されることができる。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブルメディア６１１は、必要に応じてドライバ６１０に装着されて、読み出されたコンピュータプログラムが必要に応じて記憶部分６０８にインストールされるようにする。

特に、本開示の実施例によれば、上記のフローチャートを参照して説明されたプロセスは、コンピュータソフトウェアプログラムとして実現されることができる。例えば、本開示の実施例は、コンピュータ可読媒体に搭載されるコンピュータプログラムを含むコンピュータプログラム製品を含み、前記コンピュータプログラムは、フローチャートに示された方法を実行するためのプログラムコードを含む。このような実施例では、前記コンピュータプログラムは、通信部分６０９を介してネットワークからダウンロードおよびインストールされ、および／またはリムーバブルメディア６１１からインストールされることができる。前記コンピュータプログラムが中央処理装置（ＣＰＵ）６０１によって実行されると、本開示の実施例の方法で限定された前記機能を実行する。説明すべきなのは、本出願で説明されるコンピュータ可読媒体は、コンピュータ可読信号媒体またはコンピュータ可読媒体、または前記２つの任意の組み合わせであってもよい。コンピュータ可読媒体は、電気、磁気、光学、電磁気、赤外線、または半導体のシステム、装置またはデバイス、あるいは上記の任意の組み合わせであることができるが、これらに限定されない。コンピュータ可読媒体のより具体的な例は、１つまたは複数のワイヤを有する電気接続、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバー、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、光ストレージデバイス、磁気ストレージデバイス、またはこれらの適切な組み合わせを含むが、これらに限定されない。本出願では、コンピュータ可読媒体は、プログラムを含むまたは記憶する任意の有形媒体であることができ、前記プログラムは、命令実行システム、装置、またはデバイスと組み合わせて使用することができる。本出願では、コンピュータ可読信号媒体は、コンピュータ可読プログラムコードを搭載する、ベースバンド中または搬送波の一部として伝播されるデータ信号を含むことができる。このような伝播されたデータ信号は、電磁信号、光信号、または上記の任意の適切な組み合わせを含むがこれらに限定されず、多くの形態をとることができる。コンピュータ可読信号媒体は、コンピュータ可読媒体以外の任意のコンピュータ可読媒体であってもよく、前記コンピュータ可読信号媒体は、命令実行システム、装置、またはデバイスによって、またはそれらと組み合わせて使用するプログラムを送信、伝播、または転送することができる。コンピュータ可読媒体に含まれるプログラムコードは、無線、電線、光ケーブル、ＲＦ（無線周波数）など、または前述の任意の適切な組み合わせを含むがこれらに限定されない任意の適切な媒体を使用して伝送されることができる。

本出願の実施例の操作を実行するためのコンピュータプログラムコードは、１つまたは複数のプログラミング言語またはそれらの組み合わせで作成されることができ、前記プログラミング言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などの対象指向プログラミング言語を含み、「Ｃ」言語または類似のプログラミング言語などの従来の手続き型プログラミング言語を含むことができる。プログラムコードは、完全にユーザのコンピュータで実行され、一部はユーザのコンピュータで実行され、独立したソフトウェアパッケージとして、一部はユーザのコンピュータで一部はリモートコンピュータで、または完全にリモートコンピュータまたはサーバで実行されることができる。リモートコンピュータが関係する状況では、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）またはワイドエリアネットワーク（ＷＡＮ）を含むあらゆる種類のネットワークを介してユーザのコンピュータに接続するか、または外部コンピュータに接続することができる（例えば、インターネットサービスプロバイダーを使用してインターネットを介して接続する）。

図面のフローチャートおよびブロック図は、本出願の様々な実施例によるシステム、方法、およびコンピュータプログラム製品の実現可能なアーキテクチャ、機能、および動作を示している。この点で、フローチャートまたはブロック図のそれぞれのブロックは、指定された論理関数を実現するための実行可能命令を含むモジュール、プログラムセグメント、またはコードの一部を表すことができる。この点で、フローチャートまたはブロック図のそれぞれのブロックは、指定された論理関数を実現するための実行可能命令を含むモジュール、プログラムセグメント、またはコードの一部を表すことができる。また、一部の代替実現では、ブロックでマークされた機能は、図面でマークされたものとは異なる順序で発生する場合もある。例えば、連続して示されている２つのブロックは、実際には並行して実行でき、関連する機能によっては、逆の順序で実行することもできる。また、ブロック図および／またはフローチャートのそれぞれのブロック、およびブロック図および／またはフローチャートのブロックの組み合わせは、指定された機能または操作を実行する専用のハードウェアベースのシステムで実現することができ、または、専用のハードウェアとコンピュータの命令を組み合わせて実現することもできる。

本出願の実施例で説明されるユニットは、ソフトウェアまたはハードウェアで実現されることができる。上記のユニットは、プロセッサに設置されることもでき、例えば、プロセッサは、取得ユニット、生成ユニット、入力ユニット、および出力ユニットを含むと記述することができる。ここで、これらのユニットの名称は、ある場合ではユニット自体を限定するものではなく、例えば、取得ユニットは、「変換する自然言語ステートメントを取得するように構成されるユニット」と表現することもできる。

別の態様として、本出願は、前述の実施例で説明された装置に含まれてもよく、または装置に組み込まれることなく単独で存在してもよい、コンピュータ可読媒体をさらに提供する。前記コンピュータ可読媒体は、１つまたは複数のプログラムを搭載し、１つまたは複数のプログラムが前記装置によって実行されると、前記装置は、以下を行う：変換する自然言語ステートメントを取得し、変換する自然言語ステートメントを事前トレーニングされたＳｅｑ２Ｓｅｑモデルに入力して、変換する自然言語ステートメントに対応するアクションシーケンスを取得し、アクションシーケンスにしたがって有向非循環グラフを生成し、および事前設置された有向非循環グラフと構造化クエリステートメントとの対応関係にしたがって、生成された有向非循環グラフに対応する構造化クエリステートメントを出力する。

上記の説明は、本出願の好ましい実施例および適用された技術原理の説明にすぎない。当業者は、本出願の実施例に関する本発明の範囲が、上記の技術的特徴の特定の組み合わせによって形成される技術的解決策に限定されず、同時に上記の発明の概念から逸脱することなく、上記の技術的特徴またはそれらの同等物の任意の組み合わせによって形成される他の技術的解決策も網羅すべきであることを理解できるだろう。例えば、上記の特徴を、類似の機能を有する本開示の実施例に開示される（しかし、これらに限定されない）技術的特徴で置き換えることによって形成される技術的解決策である。

Claims

構造化クエリステートメント（ｑｕｅｒｙｓｔａｔｅｍｅｎｔ）を出力する方法であって、
変換する自然言語ステートメントを取得するステップと、
前記変換する自然言語ステートメントを事前トレーニングされたＳｅｑ２Ｓｅｑモデルに入力して、前記変換する自然言語ステートメントに対応するアクションシーケンスを取得するステップと、
前記アクションシーケンスにしたがって有向非循環グラフを生成するステップと、
事前設置された有向非循環グラフと構造化クエリステートメントとの対応関係にしたがって、生成された有向非循環グラフに対応する構造化クエリステートメントを出力するステップとを含む、構造化クエリステートメントを出力する方法。
前記Ｓｅｑ２Ｓｅｑモデルは、以下のステップのトレーニングによって取得されるモデルを含み、
サンプル自然言語ステートメントおよびサンプル自然言語ステートメントに対応するサンプル構造化クエリステートメントを含むサンプルセットを取得するステップと、
事前設置された有向非循環グラフと構造化クエリステートメントの対応関係にしたがって、前記サンプルセット中のサンプル構造化クエリステートメントに対応するサンプル有向非循環グラフを確定するステップと、
確定されたサンプル有向非循環グラフのサンプルアクションシーケンスを取得するステップと、
サンプル自然言語ステートメントとサンプル自然言語ステートメントに対応するサンプルアクションシーケンスをそれぞれ、入力と出力として、トレーニングして前記Ｓｅｑ２Ｓｅｑモデルを取得するステップであることを特徴とする
請求項１に記載の方法。
前記アクションシーケンスにしたがって有向非循環グラフを生成するステップは、
Ｓｈｉｆｔ−ｒｅｄｕｃｅ法に基づいて、前記アクションシーケンスにしたがって有向非循環グラフを生成するステップを含むことを特徴とする
請求項１に記載の方法。
前記有向非循環グラフは、親ノード情報、子ノード情報および関係情報を含む少なくとも１つの情報アイテムの組み合わせを含むことを特徴とする
請求項１に記載の方法。
前記事前設置された有向非循環グラフと構造化クエリステートメントとの対応関係にしたがって、生成された有向非循環グラフに対応する構造化クエリステートメントを出力するステップは、
有向非循環グラフのノードを構造化クエリステートメント中の第１の部分として確定するステップであって、前記第１の部分は、演算子、フィールド名、テーブル名、属性を含むステップと、
有向非循環グラフ中のノード間の関係を構造化クエリステートメント中の第２の部分として確定するステップとを含むことを特徴とする
請求項１〜４のいずれか一項に記載の方法。
構造化クエリステートメントを出力する装置であって、
変換する自然言語ステートメントを取得するように構成される取得ユニットと、
前記変換する自然言語ステートメントを事前トレーニングされたＳｅｑ２Ｓｅｑモデルに入力して、前記変換する自然言語ステートメントに対応するアクションシーケンスを取得するように構成される入力ユニットと、
前記アクションシーケンスにしたがって有向非循環グラフを生成するように構成される生成ユニットと、
事前設置された有向非循環グラフと構造化クエリステートメントとの対応関係にしたがって、生成された有向非循環グラフに対応する構造化クエリステートメントを出力するように構成される出力ユニットとを含む、構造化クエリステートメントを出力する装置。
前記装置は、トレーニングユニットをさらに含み、前記トレーニングユニットは、
サンプル自然言語ステートメントおよびサンプル自然言語ステートメントに対応するサンプル構造化クエリステートメントを含むサンプルセットを取得するように構成される取得サブユニットと、
事前設置された有向非循環グラフと構造化クエリステートメントの対応関係にしたがって、前記サンプルセット中のサンプル構造化クエリステートメントに対応するサンプル有向非循環グラフを確定するように構成される第１の確定サブユニットと、
確定されたサンプル有向非循環グラフのサンプルアクションシーケンスを取得するように構成される取得サブユニットと、
サンプル自然言語ステートメントとサンプル自然言語ステートメントに対応するサンプルアクションシーケンスをそれぞれ、入力と出力として、トレーニングして前記Ｓｅｑ２Ｓｅｑモデルを取得するように構成されるトレーニングサブユニットとを含むことを特徴とする
請求項６に記載の装置。
前記生成ユニットは、Ｓｈｉｆｔ−ｒｅｄｕｃｅ法に基づいて、前記アクションシーケンスにしたがって有向非循環グラフを生成するようにさらに構成されることを特徴とする
請求項６に記載の装置。
前記有向非循環グラフは、親ノード情報、子ノード情報および関係情報を含む少なくとも１つの情報アイテムの組み合わせを含むことを特徴とする
請求項６に記載の装置。
前記出力ユニットは、
有向非循環グラフのノードを構造化クエリステートメント中の第１の部分として確定するように構成される第２の確定サブユニットであって、前記第１の部分は、演算子、フィールド名、テーブル名、属性を含む第２の確定サブユニットと、
有向非循環グラフ中のノード間の関係を構造化クエリステートメント中の第２の部分として確定するように構成される第３の確定サブユニットとを含むことを特徴とする
請求項５〜９のいずれか一項に記載の装置。
電子機器であって、
１つまたは複数のプロセッサと、および
１つまたは複数のプログラムが記憶されている記憶装置とを含み、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサが請求項１〜５のいずれか一項に記載の方法を実施する、電子機器。
コンピュータプログラムが記憶されているコンピュータ可読媒体であって、
前記プログラムがプロセッサによって実行されると、請求項１〜５のいずれか一項に記載の方法が実施される、コンピュータ可読媒体。