JP2023076413A

JP2023076413A - 言語モデルを利用してドメインに特化した対話を提供する方法、コンピュータ装置、およびコンピュータプログラム

Info

Publication number: JP2023076413A
Application number: JP2022185689A
Authority: JP
Inventors: 東賢郭; Donghyun Kwak; 相煥 ▲ぺ▼; Sanghwan Bae; 東勳咸; Dong-Hoon Ham; 宇明朴; Woomyoung Park
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2021-11-22
Filing date: 2022-11-21
Publication date: 2023-06-01
Also published as: KR20230075052A

Abstract

【課題】言語モデルを利用してドメインに特化して対話を提供する方法、コンピュータ装置およびコンピュータプログラムを提供する。【解決手段】方法は、与えられた文書３０１に対して、言語モデルを利用して前記文書で回答可能な少なくとも１つのクエリデータ３０２を生成する段階および特定のドメインに属する各前記文書と当該文書に対して生成された前記クエリデータとのペア（Ｄｏｃｕｍｅｎｔ、Ｑｕｅｒｙ）からなるデータを対話ボットのための検索モデル３２０の学習に利用する段階を含む。【選択図】図３

Description

以下の説明は、ユーザの質問に対して適切な文書を参照しながら回答を提供する技術に関する。

ＱＡ（ｑｕｅｓｔｉｏｎａｎｄａｎｓｗｅｒ）システムとは、ユーザが質問を入力すると、適切な文書を参照しながら回答を提供する対話システムである。

近年は、言語モデル（ｌａｎｇｕａｇｅｍｏｄｅｌ）の発展にともなって対話システムの性能も急速に高まっており、自然語だけでなくイメージや音声のようなマルチモーダル（ｍｕｌｔｉ－ｍｏｄａｌ）領域にまで広がっている。

一例として、特許文献１（公開日２００２年４月２５日）には、人工知能技術と自然語処理技術を利用して質問に対する回答を提供する技術が開示されている。

韓国公開特許第１０－２００２－００３０５４５号公報

与えられたドメインの文書に基づいて、大規模言語モデルを利用して当該ドメインに特化した対話ボットを生成する技術を提供する。

コンピュータを作動するための検索モデルであって、特定のドメインに属する各文書と、当該文書に対して生成されたクエリとのペア（Ｄｏｃｕｍｅｎｔ、Ｑｕｅｒｙ）からなるデータに基づき、入力されたユーザの質問に対して、回答内容が含まれ得る文書を選定し、前記ユーザの質問に対する回答を出力するように学習された、コンピュータを作動するための検索モデルを提供する。

一側面によると、前記ユーザの質問に対する各文書のスコアを利用することによってランク付けを実行し、回答内容が含まれ得る文書を選定するように、コンピュータを作動するための検索モデルを提供する。

他の側面によると、前記生成されたクエリは、前記文書に基づいて既に学習された言語モデルを利用して生成されたことを特徴とする、検索モデルを提供する。

コンピュータ装置で実行される方法であって、前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、当該方法は、前記少なくとも１つのプロセッサが、与えられた文書に対して、言語モデル（ｌａｎｇｕａｇｅｍｏｄｅｌ）を利用して前記文書で回答可能な少なくとも１つのクエリを生成する段階、および前記少なくとも１つのプロセッサが、前記文書と前記クエリを対話ボットのための検索モデル（ｒｅｔｒｉｅｖａｌｍｏｄｅｌ）の学習に利用する段階を含む、方法を提供する。

一側面によると、前記生成する段階は、ドメイン（ｄｏｍａｉｎ）に特化した検索モデルのために、前記ドメインに属するターゲット文書を対象にして前記クエリを生成してよい。

他の側面によると、前記生成する段階は、サンプル文書とサンプルクエリからなるサンプルデータを利用してターゲット文書に対するプロンプト（ｐｒｏｍｐｔ）を構成する段階、および前記プロンプトを前記言語モデルの入力とし、前記サンプルデータのパターンにそって前記ターゲット文書に対するクエリを生成する段階を含んでよい。

また他の側面によると、前記生成する段階は、第１サンプル文書と第１サンプルキーワードからなる第１サンプルデータを利用して、ターゲット文書に対する第１プロンプトを構成する段階、前記第１プロンプトを前記言語モデルの入力とし、前記第１サンプルデータのパターンにそって前記ターゲット文書に対するキーワードを生成する段階、第２サンプル文書、第２サンプルキーワード、およびサンプルクエリからなる第２サンプルデータを利用して、前記ターゲット文書のキーワードに対する第２プロンプトを構成する段階、および前記第２プロンプトを前記言語モデルの入力とし、前記ターゲット文書のキーワードに対して前記第２サンプルデータのパターンにそって前記ターゲット文書に対するクエリを生成する段階を含んでよい。

また他の側面によると、当該方法は、前記少なくとも１つのプロセッサが、ユーザが入力した質問に対して、前記検索モデルによって選定された文書を参照しながら前記質問に対する回答を提供する段階をさらに含んでよい。

さらに他の側面によると、前記提供する段階は、前記質問に対して、前記検索モデルによって計算された各文書のスコアを確率分布の形態に変換する段階、および前記確率分布のエントロピー（ｅｎｔｒｏｐｙ）によって前記質問に対する回答の類型を決定する段階を含んでよい。

上述した方法を前記コンピュータ装置に実行させるためにコンピュータ読み取り可能な記録媒体に記録される、コンピュータプログラムを提供する。

コンピュータ装置であって、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、与えられた文書に対して、言語モデルを利用して前記文書で回答可能な少なくとも１つのクエリを生成する過程、および前記文書と前記クエリを、対話ボットのための検索モデルの学習に利用する過程を実行する、コンピュータ装置を提供する。

本発明の実施形態によると、与えられたドメインの文書に基づいて、言語モデルを利用して当該ドメインに特化した大規模データを生成することにより、迅速かつ効率的に対話システムを生成することができる。

本発明の実施形態によると、大規模言語モデルによって生成されたデータを検索モデル（ｒｅｔｒｉｅｖａｌｍｏｄｅｌ）の学習に利用し、検索モデルを中心とした対話システムを構築することにより、推論（ｉｎｆｅｒｅｎｃｅ）速度が速くて高度な対話ボットを生成することができる。

本発明の一実施形態における、ネットワーク環境の例を示した図である。本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。本発明の一実施形態における、大規模言語モデルを利用した対話システムの生成体系を説明するための図である。本発明の一実施形態における、コンピュータ装置が実行することができる対話データ生成方法の例を示したフローチャートである。本発明の一実施形態における、プロンプトを利用したクエリデータ生成過程の一例を説明するためのフローチャートである。本発明の一実施形態における、クエリ生成方法の一例を説明するための図である。本発明の一実施形態における、クエリ生成方法の一例を説明するための図である。は本発明の一実施形態における、クエリ生成方法の他の例を説明するための図である。は本発明の一実施形態における、クエリ生成方法の他の例を説明するための図である。本発明の一実施形態における、ユーザの質問に対する回答を提供する過程の一例を説明するためのフローチャートである。本発明の一実施形態における、回答の類型を分類する過程の一例を説明するための図である。本発明の一実施形態における、回答の類型を分類する過程の一例を説明するための図である。本発明の一実施形態における、ユーザの質問と関連のある文章を区別する表示する過程の一例を説明するための図である。

以下、本発明の実施形態について、添付の図面を参照しながら詳しく説明する。

本発明の実施形態は、ユーザの質問に対して適切な文書を参照しながら回答を提供する技術に関する。

本明細書で具体的に開示される事項を含む実施形態は、ドメインに特化した対話システムを生成するために必要な対話データの収集過程を、大規模言語モデルを利用した自動化過程に置換することにより、対話システムを迅速かつ効率的に生成することができる。

本発明の実施形態に係る対話データ生成システムは、少なくとも１つのコンピュータ装置によって実現されてよく、本発明の実施形態に係る対話データ生成方法は、対話データ生成システムに含まれる少なくとも１つのコンピュータ装置によって実行されてよい。このとき、コンピュータ装置においては、本発明の一実施形態に係るコンピュータプログラムがインストールされて実行されてよく、コンピュータ装置は、実行されたコンピュータプログラムの制御に従って本発明の実施形態に係る対話データ生成方法を実行してよい。上述したコンピュータプログラムは、コンピュータ装置と結合して対話データ生成方法をコンピュータに実行させるためにコンピュータ読み取り可能な記録媒体に記録されてよい。

図１は、本発明の一実施形態における、ネットワーク環境の例を示した図である。図１のネットワーク環境は、複数の電子機器１１０、１２０、１３０、１４０、複数のサーバ１５０、１６０、およびネットワーク１７０を含む例を示している。このような図１は、発明の説明のための一例に過ぎず、電子機器の数やサーバの数が図１のように限定されることはない。また、図１のネットワーク環境は、本実施形態に適用可能な環境のうちの一例を説明したものに過ぎず、本実施形態に適用可能な環境が図１のネットワーク環境に限定されることはない。

複数の電子機器１１０、１２０、１３０、１４０は、コンピュータ装置によって実現される固定端末や移動端末であってよい。複数の電子機器１１０、１２０、１３０、１４０の例としては、スマートフォン、携帯電話、ナビゲーション、ＰＣ（ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）、ノート型ＰＣ、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレットなどがある。一例として、図１では、電子機器１１０の例としてスマートフォンを示しているが、本発明の実施形態において、電子機器１１０は、実質的に無線または有線通信方式を利用し、ネットワーク１７０を介して他の電子機器１２０、１３０、１４０および／またはサーバ１５０、１６０と通信することができる多様な物理的なコンピュータ装置のうちの１つを意味してよい。

通信方式が限定されることはなく、ネットワーク１７０が含むことのできる通信網（一例として、移動通信網、有線インターネット、無線インターネット、放送網）を利用する通信方式だけではなく、機器間の近距離無線通信が含まれてもよい。例えば、ネットワーク１７０は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうちの１つ以上の任意のネットワークを含んでよい。さらに、ネットワーク１７０は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター－バスネットワーク、ツリーまたは階層的ネットワークなどを含むネットワークトポロジのうちの任意の１つ以上を含んでもよいが、これらに限定されることはない。

サーバ１５０、１６０それぞれは、複数の電子機器１１０、１２０、１３０、１４０とネットワーク１７０を介して通信して命令、コード、ファイル、コンテンツ、サービスなどを提供する１つ以上のコンピュータ装置によって実現されてよい。例えば、サーバ１５０は、ネットワーク１７０を介して接続した複数の電子機器１１０、１２０、１３０、１４０にサービス（一例として、対話ボットサービス）を提供するシステムであってよい。

図２は、本発明の一実施形態における、コンピュータ装置の例を示したブロック図である。上述した複数の電子機器１１０、１２０、１３０、１４０それぞれやサーバ１５０、１６０それぞれは、図２に示したコンピュータ装置２００によって実現されてよい。例えば、本発明の実施形態に係る対話データ生成システムは、図２に示したコンピュータ装置２００によって実現されてよい。

このようなコンピュータ装置２００は、図２に示すように、メモリ２１０、プロセッサ２２０、通信インタフェース２３０、および入力／出力インタフェース２４０を含んでよい。メモリ２１０は、コンピュータ読み取り可能な記録媒体であって、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、およびディスクドライブのような永続的大容量記録装置を含んでよい。ここで、ＲＯＭやディスクドライブのような永続的大容量記録装置は、メモリ２１０とは区分される別の永続的記録装置としてコンピュータ装置２００に含まれてもよい。また、メモリ２１０には、オペレーティングシステムと、少なくとも１つのプログラムコードが記録されてよい。このようなソフトウェア構成要素は、メモリ２１０とは別のコンピュータ読み取り可能な記録媒体からメモリ２１０にロードされてよい。このような別のコンピュータ読み取り可能な記録媒体は、フロッピー（登録商標）ドライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、メモリカードなどのコンピュータ読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータ読み取り可能な記録媒体ではない通信インタフェース２３０を通じてメモリ２１０にロードされてもよい。例えば、ソフトウェア構成要素は、ネットワーク１７０を介して受信されるファイルによってインストールされるコンピュータプログラムに基づいてコンピュータ装置２００のメモリ２１０にロードされてよい。

プロセッサ２２０は、基本的な算術、ロジック、および入出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ２１０または通信インタフェース２３０によって、プロセッサ２２０に提供されてよい。例えば、プロセッサ２２０は、メモリ２１０のような記録装置に記録されたプログラムコードに従って受信される命令を実行するように構成されてよい。

通信インタフェース２３０は、ネットワーク１７０を介してコンピュータ装置２００が他の装置（一例として、上述した記録装置）と互いに通信するための機能を提供してよい。一例として、コンピュータ装置２００のプロセッサ２２０がメモリ２１０のような記録装置に記録されたプログラムコードに従って生成した要求や命令、データ、ファイルなどが、通信インタフェース２３０の制御に従ってネットワーク１７０を介して他の装置に伝達されてよい。これとは逆に、他の装置からの信号や命令、データ、ファイルなどが、ネットワーク１７０を経てコンピュータ装置２００の通信インタフェース２３０を通じてコンピュータ装置２００に受信されてよい。通信インタフェース２３０を通じて受信された信号や命令、データなどは、プロセッサ２２０やメモリ２１０に伝達されてよく、ファイルなどは、コンピュータ装置２００がさらに含むことのできる記録媒体（上述した永続的記録装置）に記録されてよい。

入力／出力インタフェース２４０は、入力／出力装置２５０とのインタフェースのための手段であってよい。例えば、入力装置は、マイク、キーボード、またはマウスなどの装置を含んでよく、出力装置は、ディスプレイ、スピーカのような装置を含んでよい。他の例として、入力／出力インタフェース２４０は、タッチスクリーンのように入力と出力のための機能が１つに統合された装置とのインタフェースのための手段であってもよい。入力／出力装置２５０は、コンピュータ装置２００と１つの装置で構成されてもよい。

また、他の実施形態において、コンピュータ装置２００は、図２の構成要素よりも少ないか多くの構成要素を含んでもよい。しかし、大部分の従来技術的構成要素を明確に図に示す必要はない。例えば、コンピュータ装置２００は、上述した入力／出力装置２５０のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、データベースなどのような他の構成要素をさらに含んでもよい。

本実施形態は、ドメインに特化した対話ボットを生成するために大規模言語モデルを活用することで、当該ドメインの膨大なデータ収集問題を解決することができる。

本発明で使用される大規模言語モデルとは、膨大なデータを学習した言語モデルであって、Ｆｅｗ－Ｓｈｏｔサンプル（ｓａｍｐｌｅ）が与えられるだけでタスクを適切に実行することができる自然語生成モデルを意味する。

言い換えれば、大規模言語モデルは自己回帰（ａｕｔｏｒｅｇｒｅｓｓｉｖｅ）モデルであり、Ｆｅｗ－Ｓｈｏｔ学習などのような方式を利用することでファインチューニング（ｆｉｎｅ－ｔｕｎｉｎｇ）を経なくても推論が可能な言語モデルであると言える。これは、既存の一般的な言語モデルに比べて１０倍以上の媒介変数（例えば、１０００億個以上の媒介変数など）を持つことができる。例えば、ＧＰＴ－３（ＧｅｎｅｒａｔｉｖｅＰｒｅ－ｔｒａｉｎｅｄＴｒａｎｓｆｏｒｍｅｒ３）やＨｙｐｅｒＣｌｏｖａ（登録商標）のような大規模言語モデルは、自然なプロンプト（ｐｒｏｍｐｔ）によって制御が可能な優れたＦｅｗ－Ｓｈｏｔ学習器であって、プロンプトによって少量のデータだけでもパターンを理解し、ＮＬＰ問題を解決する能力であるインコンテキスト学習（ｉｎ－ｃｏｎｔｅｘｔｌｅａｒｎｉｎｇ）が可能である。

本実施形態は、ドメインに特化した対話ボットを大規模言語モデルと検索モデルを中心にして設計する。言語モデル基盤の生成器（ｇｅｎｅｒａｔｏｒ）と検索モデルを用いた文書基盤の対話システムとして、推論速度が速くて高度な対話ボットを生成することができる。

図３は、本発明の一実施形態における、大規模言語モデルを利用した対話システムの生成体系を説明するための図である。

図３を参照すると、本実施形態において、大規模言語モデル３１０は、ドメインに特化した対話ボットの生成に必要なデータとして当該ドメインに適合するクエリデータ（ｑｕｅｒｙｄａｔａ）３０２を生成するためのバックボーンとして用いられる。

プロセッサ２２０は、特定のドメイン文書３０１、例えば、ホームページ内のウェプページが与えられた場合、当該文書内の内容に対して質疑回答（ＱＡ）が可能なチャットボットを生成するために大規模言語モデル３１０を用いることで、与えられた文書３０１から予想される質問を示すクエリデータ３０２を生成してよい。

プロセッサ２２０は、言語モデル３１０で生成されたクエリデータ３０２を学習データとし、対話ボットのための検索モデル３２０の学習に利用してよい。ドメインに適合するクエリデータ３０２を検索モデル３２０の学習に利用することにより、ドメインに特化したモデルを構成することができる。

プロセッサ２２０は、ユーザが質問を入力すると、検索モデル３２０によってユーザの質問に対応する文書を参照しながら回答を提供してよい。

図４は、本発明の一実施形態における、コンピュータ装置が実行することができる対話データ生成方法の例を示したフローチャートである。

本実施形態に係る対話データ生成方法は、上述したコンピュータ装置２００によって実行されてよい。この場合、コンピュータ装置２００のプロセッサ２２０は、メモリ２１０が含むオペレーティングシステムのコードと、少なくとも１つのプログラムのコードとによる制御命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行するように実現されてよい。ここで、プロセッサ２２０は、コンピュータ装置２００に記録されたコードが提供する制御命令に従ってコンピュータ装置２００が図４の対話データ生成方法に含まれる段階４１０～段階４３０を実行するようにコンピュータ装置２００を制御してよい。

図４を参照すると、段階４１０において、プロセッサ２２０は、大規模言語モデルを利用して、与えられたドメインのターゲット文書からクエリデータを生成してよい。プロセッサ２２０は、言語モデルの入力文となるプロンプトを利用して、ターゲット文書に対して予想される質問を生成してよい。プロセッサ２２０は、言語モデルの優れたデータ生成能力とインコンテキスト学習能力を利用して、モデル学習のためのデータを生成してよい。このように生成された質問と、当該質問を生成したターゲット文書（あるいは、ターゲット文書内に含まれる正解文句）とのペアが、ＱＡモデルに対する学習データとして利用されてよい。

段階４２０において、プロセッサ２２０は、ターゲット文書とクエリデータを学習データとして、ＱＡのための検索モデルの学習に利用してよい。プロセッサ２２０は、ドメインのターゲット文書と、当該ターゲット文書を対象とし、言語モデルで生成されたクエリデータとを、検索モデル３２０の学習に利用することにより、当該ドメインに対する対話モデルを構築してよい。

段階４３０において、プロセッサ２２０は、ユーザが質問を入力すると、検索モデル３２０を利用して、ユーザの質問に対応する文書を参照しながら回答を提供してよい。プロセッサ２２０は、ユーザの質問に対応する文書によって回答フォーマッティング（ｆｏｒｍａｔｔｉｎｇ）または回答生成（ｇｅｎｅｒａｔｉｏｎ）を実行してよい。言い換えれば、プロセッサ２２０は、ユーザの質問として検索された文書をフォーマッティングして回答として提供するか、当該文書を利用して回答を直接生成して提供してよい。

図５は、本発明の一実施形態における、プロンプトを利用したクエリデータ生成過程の一例を説明するためのフローチャートである。

図５を参照すると、段階５０１において、プロセッサ２２０は、プロンプトに使用する原本データを選定してよい。

プロセッサ２２０は、事前に定められた少なくとも１つ以上の文書（Ｄｏｃｕｍｅｎｔ）と当該文書で回答可能な質問（Ｑｕｅｒｙ）のペアを原本データとして利用してよい。予め定められた原本サンプルペアの他に別のデータセットが存在してもよく、実施形態によっては、データセット内から文書と質問からなる原本サンプルペアを選定してもよい。

このとき、プロンプトは、少なくとも１つ以上の文書、当該文書で回答可能な質問の原本サンプルペア、ターゲット文書で構成されてよい。プロンプト構成の詳しい方法については、図６を参照しながら説明する。

段階５０２において、プロセッサ２２０は、言語モデルの入力に該当するプロンプトを構成してよい。プロセッサ２２０は、段階５０１で選択された原本データを利用して言語モデルの入力プロンプトを構成してよい。プロセッサ２２０は、与えられたＮＬＰ問題の特性が適切に反映された専用プロンプトテンプレートを製作するようになるが、このとき、プロンプトテンプレートにはタスクの定義やメタ情報が含まれてよい。言い換えれば、プロセッサ２２０は、データセットから選択された原本データを利用して自然語形態のプロンプトを構成するが、このとき、プロンプトは、言語モデルの理解が可能な形式で製作されて言語モデルの入力として与えられる。プロセッサ２２０は、原本データがラベル付きデータである場合、ラベル情報とともに入力文が生成されるようにプロンプトを設計してよい。プロンプトの形式自体は多様に構成されてよいが、一例として、プロンプトは、文書（例えば、ウェプページなど）と当該文書で回答可能なクエリがサンプルとして構成されてよい。

プロセッサ２２０は、与えられたタスクＴに対して、データセットからサンプリングされた原本データである文書サンプルと、与えられたタスクＴの特性を考慮したプロンプトテンプレートを組み合わせて、言語モデルの入力プロンプトを構成してよい。

段階５０３において、プロセッサ２２０は、段階５０２で構成されたプロンプトを言語モデルに入力し、言語モデルから自然語形態のクエリデータを生成してよい。言い換えれば、プロセッサ２２０は、プロンプト入力文を言語モデルに入力した後、言語モデルの生成あるいは完成機能による言語生成結果としてクエリデータを取得してよい。プロセッサ２２０は、プロンプトを言語モデルに入力し、言語モデルでプロンプトに含まれたサンプルの自然語パターンを分析することで、当該パターンを有する新たな結果を取得することができる。

図６および図７は、本発明の一実施形態における、クエリ生成方法の一例を説明するための図である。

図６を参照すると、プロセッサ２２０は、原本データに選定された文書と当該文書の内容に回答可能な少なくとも１つのクエリからなるサンプルデータペアを利用してプロンプト入力文６１０を構成してよい。

プロセッサ２２０は、少なくとも１つのサンプルデータペアとターゲット文書で構成されたプロンプト入力文６１０を言語モデルの入力とし、言語モデルがターゲット文書に対する質問を生成するようにしてよい。すなわち、言語モデルの完成機能によって、ターゲット文書で回答可能な少なくとも１つのクエリを生成してよい。

一例として、プロセッサ２２０は、サンプルデータペアで構成されたプロンプト入力文６１０を利用したクエリ生成を繰り返すことにより、ターゲット文書に対して事前に定められた一定の件数のクエリを生成してよい。実施形態によっては、新しいクエリがこれ以上生成されない飽和状態に至るまで、ターゲット文書に対するクエリを生成してよい。

プロセッサ２２０は、［サンプル文書＋クエリ］形態のサンプルデータペアと［ターゲット文書］で構成されたプロンプト６１０を利用して、プロンプトに含まれるサンプルデータのパターンにそってターゲット文書に対するクエリを生成してよい。

例えば、図７に示すように、プロセッサ２２０は、ターゲット文書７０１が与えられる場合、プロンプト入力文６１０としてサンプルデータとターゲット文書７０１を言語モデルに入力し、サンプルデータのパターンにそってターゲット文書７０１から予想されるクエリデータ７０２を生成してよい。

言い換えれば、プロセッサ２２０は、文書と文書から導出されるクエリをサンプルとして提供し、サンプルのパターンにそってターゲット文書に対するクエリを生成してよい。

図８および図９は、本発明の一実施形態における、クエリ生成方法の他の例を説明するための図である。

プロセッサ２２０は、言語モデルで生成したクエリの品質を高めるために、キーワードに基づいてクエリを生成する方法を適用してよい。

一例として、プロセッサ２２０は、２つのプロンプトを段階的に利用することにより、最初の段階では文書から当該文書と関連するキーワードを抽出した後、次の段階では抽出したキーワードに対するクエリを生成するようにしてよい。追加でキーワードを利用する場合、文書からより多様なクエリを生成することができ、質問の範囲（ｃｏｖｅｒａｇｅ）が広がるようになる。

図８を参照すると、プロセッサ２２０は、原本データに選定された文書と当該文書に対するキーワードからなる第１サンプルデータペアを利用して、第１プロンプト入力文８１０を構成してよい。

プロセッサ２２０は、キーワード基盤の少なくとも１つの第１サンプルデータペアとターゲット文書で構成された第１プロンプト入力文８１０を言語モデルに入力し、言語モデルの生成機能によってターゲット文書に対する少なくても１つのキーワードを生成してよい。

次に、プロセッサ２２０は、原本データに選定された文書、当該文書から抽出したキーワード、さらに当該文書の内容に回答可能なクエリからなる第２サンプルデータペアを利用して、第２プロンプト入力文８２０を構成してよい。

このとき、第２プロンプト入力文８２０には、第１プロンプト入力文８１０を利用した言語モデルで生成された、ターゲット文書に対するキーワードが含まれてよい。

プロセッサ２２０は、キーワード基盤の少なくとも１つの第２サンプルデータペア、ターゲット文書、さらにターゲット文書に対するキーワードで構成された第２プロンプト入力文８２０を言語モデルに入力し、言語モデルの完成機能によってターゲット文書で回答可能な少なくとも１つのクエリを生成してよい。

プロセッサ２２０は、［サンプル文書＋キーワード］からなる第１サンプルデータペアと［ターゲット文書］で構成された一次プロンプトを利用して一次プロンプトのパターンにそってターゲット文書に対するキーワードを生成した後、各キーワードに対して、［サンプル文書＋キーワード＋クエリ］からなる第２サンプルデータペアと［ターゲット文書＋キーワード］で構成された二次プロンプトを利用して二次プロンプトのパターンにそってターゲット文書に対するクエリを生成してよい。

例えば、図９に示すように、プロセッサ２２０は、ターゲット文書９０１が与えられる場合、先ず、第１プロンプト入力文８１０を言語モデルに入力し、サンプルデータのパターンにそってターゲット文書９０１でクエリとして登場し得るキーワード９０を生成してよい。

この後、プロセッサ２２０は、キーワード９０が含まれた第２プロンプト入力文８２０を言語モデルに入力し、サンプルデータのパターンにそって、キーワード９０に基づいてターゲット文書９０１に対して予想されるクエリデータ９０２を生成してよい。

プロセッサ２２０は、ターゲット文書９０１に対して少なくとも１つのキーワード９０を抽出してよく、キーワード９０それぞれに該当するクエリデータ９０２を生成してよい。このように、キーワードを利用すれば、各キーワードと関連があり、キーワードに該当する意図を持つクエリデータが均一に生成されるようになる。このように、多様なデータを学習に利用する場合、検索モデルの性能は高まるであろう。

したがって、プロセッサ２２０は、文書、文書から抽出したキーワード、およびキーワードが含まれたクエリをサンプルとして提供し、サンプルのパターンにそって、ターゲット文書から抽出したキーワードに基づいてターゲット文書に対するクエリを生成することができる。

プロセッサ２２０は、ターゲット文書とターゲット文書に対して生成されたクエリからなるデータを対話ボットのためのモデル学習に利用してよい。

検索モデル３２０の場合、一例として、ポリエンコーダ（ｐｏｌｙｅｎｃｏｄｅｒ）構造を適用してよく、クエリから文書を探索して回答を提供してよい。検索モデル３２０は、クロスエンコーダ（ｃｒｏｓｓｅｎｃｏｄｅｒ）構造のリランカー（ｒｅｒａｎｋｅｒ）を含んでよく、これによってクエリに対応する文書をリランキング（ｒｅｒａｎｋｉｎｇ）して回答を提供してよい。

検索モデル３２０の学習には、該当するドメインに対する各文書と、当該文書に対して生成されたクエリとのペア（Ｄｏｃｕｍｅｎｔ、Ｑｕｅｒｙ）が利用されてよい。検索モデル３２０は、ラベリングされたデータセットを利用した事前トレーニング（ｐｒｅ－ｔｒａｉｎｉｎｇ）が適用されたモデルまたはラベリングされていない多様な言語特性のコーパス（ｃｏｒｐｕｓ）から教師なし（ｕｎｓｕｐｅｒｖｉｓｅｄ）検索モデル３２０によって事前に学習されたモデルを、本発明の実施形態を利用して生成されたデータを利用してファインチューニング（ｆｉｎｄ－ｔｕｎｉｎｇ）することによって生成してよい。

検索モデル３２０をファインチューニングする過程において、ターゲット文書が属するドメインに特化した類義語および同義語情報を利用したデータ拡張（ｄａｔａａｕｇｍｅｎｔａｔｉｏｎ）技法が使用されてよい。学習バッチの質問に対して一定の確率で各単語を類義語や同義語に置換して学習させることにより、一定のデータ拡張効果を期待することができる。例えば、「博士後の研究員」をポスドク、Ｐｏｓｔ－ｄｏｃ、ポストドクターなどに置換したり、「ＯＣＲ」を光学文字認識、オーシーアールなどに置換したりして学習させてよい。

検索モデル３２０の学習性能を改善するために、データ拡張技法の他にも、推論入力から単語をルール（ｒｕｌｅ）基盤に置換する方法を利用することも可能である。

図１０は、本発明の一実施形態における、ユーザの質問に対する回答を提供する過程の一例を説明するためのフローチャートである。

図１０を参照すると、段階１００１において、プロセッサ２２０は、検索モデル３２０によってユーザの質問に対する各文書のスコアを計算してよい。プロセッサ２２０は、検索モデル３２０を利用して、ユーザの質問に対して回答内容が含まれる文書を探索してランク付けを実行してよい。プロセッサ２２０は、ユーザの質問に該当する文章と文書の類似度を測定することによって各文書のスコアを計算してよい。

段階１００２において、プロセッサ２２０は、検索モデル３２０によって計算された文書のスコアを確率分布の形態に変換してよい。一例として、プロセッサ２２０は、ソフトマックス（ｓｏｆｔｍａｘ）関数を利用して、検索モデル３２０の文書スコアを確率分布の形態に変換してよい。

段階１００３において、プロセッサ２２０は、文書スコアの確率分布によってユーザの質問に対する回答の類型を決定してよい。プロセッサ２２０は、ユーザの質問に対して、検索モデル３２０によるランキングに基づいて選定された少なくとも１つの文書をフォーマッティングして回答として提供してよい。

回答として提供される文書の件数は質問によって異なってよく、回答の類型ごとに文書の件数が定義されてよい。文書スコアを確率分布の形態に変換したとき、質問に対する関連文書のうちで１位が確実なケースは、スコア確率分布のエントロピー（ｅｎｔｒｏｐｙ）が０に近く、関連文書が多いほどエントロピーが増加する。また、関連文書が探索されない質問の場合は、均一な（ｕｎｉｆｏｒｍ）分布を帯びた傾向性を有する。

このような傾向性により、スコア確率分布のエントロピーに基づいて閾値（ｔｈｒｅｓｈｏｌｄｉｎｇ）を設定して回答の類型を分類してよい。

例えば、図１１に示すように、スコア確率分布のエントロピーが０に近い特定の閾値以下（例えば、０．３以下）である場合は、１位（ｔｏｐ１）が確実なケース１に区分し、エントロピーが閾値よりも大きくて１よりも小さい場合（例えば０．４～１の場合）は、１位から３位の文書がすべて有用なケース２に区分し、エントロピーが２以上の場合は、関連文書が１つもないケース３に区分して、回答の類型を３つのケースに分類してよい。他の例として、回答の類型を分類するための閾値を０．１と１．７５を基準に設定してよい。スコア確率分布のエントロピー（Ｅ）が０≦Ｅ＜０．１の場合はケース１に区分し、０．１≦Ｅ＜１．７５の場合はケース２に区分し、Ｅ≧１．７５の場合はケース３に区分してよい。

図１２に示すように、プロセッサ２２０は、「ランプの色」に関する質問に対して、文書スコア確率分布のエントロピーがケース２と示される場合、文書スコアを基準にして上位３件の文書を選定して回答を提供してよい。ランプの色の内容が含まれる文書として、赤色、黄色、緑色についての詳細文書が類似スコアとして探索された場合、閾値によって３つの文書すべてを回答として活用してよい。このとき、ユーザの質問に対する回答として先ずは３つの文書に対するタイトルを示した後、ユーザが特定の文書を選択すれば、選択された文書の詳細内容が表示されるようにしてよい。一方、プロセッサ２２０は、「インターン優待条件」に関する質問に対して、文書スコア確率分布のエントロピーがケース１と示される場合、文書スコアを基準にして上位１件の文書を選定して回答を提供してよい。インターン優待条件の内容が含まれる最高スコアの文書１つを、当該質問に対する回答として示してよい。

プロセッサ２２０は、回答として提供された文書内のうちでユーザの質問と関連のある文章を、他の文章と区別して示してよい。例えば、図１３に示すように、回答結果として提供された文書１３１０の内容のうちのどの部分がユーザの質問に対する回答内容に該当するかを、ハイライティング（ｈｉｇｈｌｉｇｈｔｉｎｇ）１３０１によって表示してよい。

文書内のユーザの質問に該当する文章をハイライティングするためには、文書に含まれる各文章に対して、当該文章を回答とする質問を生成し、これを検索モデルの学習のためのデータとして活用してよい。言い換えれば、プロセッサ２２０は、ターゲット文書内の各文章に対して、［サンプル文章＋クエリ］と［ターゲット文章］で構成されたプロンプトを利用して、プロンプトのパターンにそってターゲット文章に対するクエリを生成してよく、［ターゲット文章＋クエリ］からなるデータペアを検索モデルの学習に利用し、文書内からユーザの質問に対する回答文章を探索してハイライティング表示してよい。

プロセッサ２２０は、文書内の回答文章のハイライティングのために、文章と当該文章を回答とするクエリをサンプルとしてターゲット文章に対するクエリを生成するにあたり、クエリ生成の品質を高めるために、クエリ生成に先立ってターゲット文章が回答可能な文章であるかをフィルタリングするロジックを適用してよい。例えば、ターゲット文書のタイトルや当該文書内の他の文章などを考慮して、ターゲット文章をフィルタリングしてよい。言い換えれば、文書のタイトルから外れた文章、文書内の他の文章とは形式が異なる文章などをクエリ生成対象から除外してよい。

本実施形態では、文書基盤の対話ボットにＴＯＤ（ＴａｓｋＯｒｉｅｎｔｅｄＤｉａｌｏｇ）を結合することで、問い返しや必要な情報クエリなどの能動的な会話はもちろん、ＡＰＩコールによる実際のユーザ要請の処理などのより高度なサービスを提供することができる。上述した対話システムがＴＯＤと結合するようになれば、適切な回答をユーザに提供できると同時に、ユーザの暗黙的な要求事項を把握し、これを先制的に問いて解決するという能動的な対話システムを構築することができる。

このように、本発明の実施形態によると、与えられたドメインの文書に基づいて、言語モデルを利用して当該ドメインに特化した大規模データを生成することにより、迅速かつ効率的に対話システムを生成することができる。本発明の実施形態によると、大規模言語モデルで生成されたデータを検索モデル（ｒｅｔｒｉｅｖａｌｍｏｄｅｌ）の学習に利用し、検索モデルを中心にした対話システムを構築することにより、推論（ｉｎｆｅｒｅｎｃｅ）速度が早くて高度な対話ボットを生成することができる。

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および／またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ、マイクロコンピュータ、ＦＰＧＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、１つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム（ＯＳ）およびＯＳ上で実行される１つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを記録、操作、処理、および生成してもよい。理解の便宜のために、１つの処理装置が使用されるとして説明される場合もあるが、当業者であれば、処理装置が複数個の処理要素および／または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは１つのプロセッサおよび１つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの１つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび／またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ記録媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で記録されても実行されてもよい。ソフトウェアおよびデータは、１つ以上のコンピュータ読み取り可能な記録媒体に記録されてよい。

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータ読み取り可能な媒体に記録されてよい。ここで、媒体は、コンピュータ実行可能なプログラムを継続して記録するものであっても、実行またはダウンロードのために一時記録するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接接続する媒体に限定されることはなく、ネットワーク上に分散して存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、および磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような光磁気媒体、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令が記録されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを配布するアプリケーションストアやその他の多様なソフトウェアを供給または配布するサイト、サーバなどで管理する記録媒体または格納媒体が挙げられる。

以上のように、実施形態を、限定された実施形態および図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ／あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって代替されたり置換されたとしても、適切な結果を達成することができる。

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付の特許請求の範囲に属する。

３０１：ドメイン文書
３０２：クエリデータ
３１０：大規模言語モデル
３２０：検索モデル

Claims

検索モデルであって、
特定のドメインに属する各文書と、当該文書に対して生成されたクエリとのペア（Ｄｏｃｕｍｅｎｔ、Ｑｕｅｒｙ）からなるデータに基づいて学習されたものであり、
当該検索モデルに入力されたユーザの質問に対して、前記データに基づいて、回答内容が含まれ得る文書を選定し、前記ユーザの質問に対する回答を出力するように、コンピュータを機能させるための検索モデル。
前記ユーザの質問に対する各文書のスコアを利用することによってランク付けを実行することによって、前記回答内容が含まれ得る文書を選定するように、コンピュータを機能させるための請求項１に記載の検索モデル。
前記生成されたクエリは、前記文書に基づいて既に学習された言語モデルを利用して生成されたことを特徴とする、請求項１に記載の検索モデル。
コンピュータ装置で実行される方法であって、
前記コンピュータ装置は、メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサを含み、
当該方法は、
前記少なくとも１つのプロセッサが、与えられた文書に対して、言語モデルを利用して前記文書で回答可能な少なくとも１つのクエリを生成する段階、および
前記少なくとも１つのプロセッサが、前記文書と前記クエリを対話ボットのための検索モデルの学習に利用する段階
を含む、方法。
前記生成する段階は、
ドメインに特化した検索モデルのために、前記ドメインに属するターゲット文書を対象にして前記クエリを生成すること
を特徴とする、請求項４に記載の方法。
前記生成する段階は、
サンプル文書とサンプルクエリからなるサンプルデータを利用して、ターゲット文書に対するプロンプトを構成する段階、および
前記プロンプトを前記言語モデルの入力とし、前記サンプルデータのパターンにそって前記ターゲット文書に対するクエリを生成する段階
を含む、請求項４に記載の方法。
前記生成する段階は、
第１サンプル文書と第１サンプルキーワードからなる第１サンプルデータを利用して、ターゲット文書に対する第１プロンプトを構成する段階、
前記第１プロンプトを前記言語モデルの入力とし、前記第１サンプルデータのパターンにそって前記ターゲット文書に対するキーワードを生成する段階、
第２サンプル文書、第２サンプルキーワード、およびサンプルクエリからなる第２サンプルデータを利用して、前記ターゲット文書のキーワードに対する第２プロンプトを構成する段階、および
前記第２プロンプトを前記言語モデルの入力とし、前記ターゲット文書のキーワードに対して前記第２サンプルデータのパターンにそって前記ターゲット文書に対するクエリを生成する段階
を含む、請求項４に記載の方法。
当該方法は、
前記少なくとも１つのプロセッサが、入力されたユーザの質問に対して、前記検索モデルによって選定された文書を参照しながら前記ユーザの質問に対する回答を提供する段階
をさらに含む、請求項４に記載の方法。
前記提供する段階は、
前記ユーザの質問に対して、前記検索モデルによって計算された各文書のスコアを確率分布の形態に変換する段階、および
前記確率分布のエントロピーによって前記ユーザの質問に対する回答の類型を決定する段階
を含む、請求項８に記載の方法。
請求項４乃至９のうちのいずれか一項に記載の方法を前記コンピュータ装置に実行させるためのコンピュータプログラム。
コンピュータ装置であって、
メモリに含まれるコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサ
を含み、
前記少なくとも１つのプロセッサは、
与えられた文書に対して、言語モデルを利用して前記文書で回答可能な少なくとも１つのクエリを生成する過程、および
前記文書と前記クエリを対話ボットのための検索モデルの学習に利用する過程
を実行する、コンピュータ装置。
前記少なくとも１つのプロセッサは、
ドメインに特化した検索モデルのために、前記ドメインに属するターゲット文書を対象にして前記クエリを生成すること
を特徴とする、請求項１１に記載のコンピュータ装置。
前記少なくとも１つのプロセッサは、
サンプル文書とサンプルクエリからなるサンプルデータを利用してターゲット文書に対するプロンプトを構成し、
前記プロンプトを前記言語モデルの入力とし、前記サンプルデータのパターンにそって前記ターゲット文書に対するクエリを生成すること
を特徴とする、請求項１１に記載のコンピュータ装置。
前記少なくとも１つのプロセッサは、
第１サンプル文書と第１サンプルキーワードからなる第１サンプルデータを利用して、ターゲット文書に対する第１プロンプトを構成し、
前記第１プロンプトを前記言語モデルの入力とし、前記第１サンプルデータのパターンにそって前記ターゲット文書に対するキーワードを生成し、
第２サンプル文書、第２サンプルキーワード、およびサンプルクエリからなる第２サンプルデータを利用して、前記ターゲット文書のキーワードに対する第２プロンプトを構成し、
前記第２プロンプトを前記言語モデルの入力とし、前記ターゲット文書のキーワードに対して前記第２サンプルデータのパターンにそって前記ターゲット文書に対するクエリを生成すること
を特徴とする、請求項１１に記載のコンピュータ装置。
前記少なくとも１つのプロセッサは、
入力されたユーザの質問に対して、前記検索モデルによって選定された文書を参照しながら前記ユーザの質問に対する回答を提供すること
を特徴とする、請求項１１に記載のコンピュータ装置。
前記少なくとも１つのプロセッサは、
前記ユーザの質問に対して、前記検索モデルによって計算された各文書のスコアを確率分布の形態に変換し、
前記確率分布のエントロピーによって前記ユーザの質問に対する回答の類型を決定すること
を特徴とする、請求項１５に記載のコンピュータ装置。