JP7329585B2

JP7329585B2 - ペルソナチャットボット制御方法及びシステム

Info

Publication number: JP7329585B2
Application number: JP2021210522A
Authority: JP
Inventors: ジェウクカン; ミンヨンイ; スミイ
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2021-05-24
Filing date: 2021-12-24
Publication date: 2023-08-18
Anticipated expiration: 2041-12-24
Also published as: JP2022180282A

Description

本開示は、ペルソナチャットボット制御方法及びシステムに関し、具体的には、一貫性した対話体及び対話の流れを維持するペルソナチャットボット制御方法及びシステムに関する。

特定のサービスに係る情報の提供を所望する場合、ユーザは、専門カウンセラーとの質問や答弁のやりとりにより、所望の情報が得られる。しかし、最近では、人件費の上昇や相談待機時間短縮のニーズなどの理由のため、専門カウンセラーの代わりに、ユーザの質問に対する答弁を提供する人工知能チャットボットサービスが増加しつつある。一方、まるで機械でない人間と対話するような経験を提供するために、ペルソナチャットボットサービス（persona chatbot service）を開発するための努力が継続されている。

韓国登録特許公報第１０－２０９６４５０号

前記のような問題を解決するために、本開示の多様な実施例は、ペルソナチャットボット制御方法、コンピュータプログラム及び装置（システム）を提供する。

本開示は、方法、装置（システム）、又はコンピュータプログラムを含む多様な方式により具現できる。

本開示の一実施例によれば、少なくとも一つのプロセッサにより遂行される、ペルソナチャットボット制御方法が提供される。ペルソナチャットボット制御方法は、ユーザ発話を受信するステップ、ユーザ発話をチャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加するステップ、プロンプトをエンコードするステップ、及び、エンコードしたプロンプトを言語モデルに入力して、ユーザ発話に応答するチャットボット発話を生成するステップを含む。

本開示の一実施例によれば、少なくとも一つのプロセッサにより遂行される、ペルソナチャットボット制御方法が提供される。ペルソナチャットボット制御方法は、ユーザ発話を受信するステップ、対話主題探知器を用いて、ユーザ発話と関連した対話主題を決定するステップ、対話シーン検索モデルを用いて、決定された対話主題と関連した少なくとも一つの対話シーンを得るステップ、ユーザ発話、対話主題及び少なくとも一つの対話シーンをチャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加するステップ、プロンプトをエンコードするステップ、エンコードしたプロンプトを言語モデルに入力して、ユーザ発話に応答するチャットボット発話を生成するステップ、及び、生成されたチャットボット発話をキャラクターペルソナ探知器に入力して、チャットボットのキャラクター対話体が維持されるか否かをモニタリングするステップ、を含む。

本開示の一実施例によれば、ペルソナチャットボット制御方法をコンピュータで実行するためのコンピュータプログラムが提供される。

本開示の一実施例によれば、ペルソナチャットボット制御システムが提供される。ペルソナチャットボット制御システムは、通信モジュール、メモリ、及び、メモリと連結され、メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサ、を含む。少なくとも一つのプログラムは、ユーザ発話を受信し、ユーザ発話をチャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加し、プロンプトをエンコードし、エンコードしたプロンプトを言語モデルに入力して、ユーザ発話に応答するチャットボット発話を生成するための命令語、等を含む。

本開示の多様な実施例によれば、ユーザとの対話が持続しても、チャットボットのペルソナを持つ対話体が維持できる。

本開示の多様な実施例によれば、ユーザとの対話が持続しても、主題のある対話と主題のない対話とを区分して、特定の主題を持つ対話と関連した対話シーンを検索することで、キャラクターの特性及び背景に対して一貫した答弁が提供できる。

本開示の多様な実施例によれば、チャットボットのペルソナの棄損を防止するために、ペルソナチャットボットの発話の言語的特徴をモニタリングして、ペルソナが維持されない場合、生成されるチャットボットの発話をキャラクター対話体に合うように修正できる。

本開示の多様な実施例によれば、ペルソナチャットボットは一貫した世界観を維持し、特定のクエリに対する一貫した答弁を行い、特定の主題に対する一貫した対話の流れが維持できる。

本開示の多様な実施例によれば、一貫したキャラクター対話体を維持するために、キャラクター対話体変換器を効率よく学習できる。

本開示の効果は、これに制限されず、言及されない他の効果等は、請求の範囲の記載から本開示が属する技術分野における通常の知識を有する者（“当業者”という）に明確に理解されるべきである。

本開示の一実施例により、ユーザがユーザ端末を用いてペルソナチャットボットサービスを利用する例を示す図である。本開示の一実施例によるペルソナチャットボットサービスを提供するために、情報処理システムが複数のユーザ端末と通信可能であるように連結された構成を示す概要図である。本開示の一実施例によるユーザ端末及び情報処理システムの内部構成及び超巨大言語モデルを示すブロック図である。本開示の一実施例による情報処理システムのプロセッサの内部構成を示す機能的なブロック図である。本開示の一実施例により、チャットボットのキャラクター対話体を維持しながら、ペルソナチャットボットサービスをユーザに提供する構成の例を示す図である。本開示の一実施例により、一貫したキャラクター対話体を維持するために、キャラクター対話体変換器がチャットボットの応答を修正する例を示す図である。本開示の一実施例により、一貫したキャラクター対話体を維持するために、キャラクター対話体変換器が学習される例を示す図である。本開示の一実施例により、キャラクター対話体変換器が学習される例を示す図である。本開示の一実施例により、超巨大言語モデルを用いて対話体変換器を学習する方法を示す図である。本開示の一実施例により、チャットボットの対話の流れを維持しながら、ペルソナチャットボットサービスをユーザに提供する構成の例を示す図である。本開示の一実施例により、プロンプトエンコーダの例を示す図である。本開示の一実施例により、チャットボットの対話体及び対話の流れを維持しながら、ペルソナチャットボットサービスを提供する構成の例を示す図である。本開示の一実施例により、ユーザに一貫したペルソナチャットボットサービスを制御するための方法を示すフローチャートである。

以下、本開示の実施のための具体的な内容を添付図面に基づいて詳細に説明する。ただし、以下の説明では、本開示の要旨を不要にぼやかす恐れがある場合、公知の機能や構成に関する具体的な説明は省略する。

添付図面において、同一又は対応する構成要素には同一の参照符号が付与される。また、以下の実施例の説明において、同一又は対応する構成要素の重複記述は省略され得る。しかしながら、構成要素に関する記述が省略されても、そのような構成要素が、ある実施例に含まれないものと意図してはならない。

開示の実施例の利点及び特徴、そしてそれらを達成する方法は、添付図面に基づいて後述する実施例を参照すれば明確になる。しかしながら、本開示は、以下で開示される実施例に限定されず、互いに異なる多様な形態で具現され得る。但し、本実施例は、本開示が完全になるようにし、本開示が当業者に発明のカテゴリを正確に認識させるために提供されるだけである。

本開示で使用される用語について簡略に説明し、開示の実施例について具体的に説明する。本明細書で使用される用語は、本開示での機能を考慮しつつ、可能な限り現在広く使用される一般的な用語を選択したが、これは関連分野に従事する技術者の意図又は判例、新技術の出現などにより変化し得る。また、特定の場合は出願人が任意で選定した用語もあり得るが、これらの意味は当該発明の説明の部分において詳細に記載する。よって、本開示で使用される用語は、単純な用語の名称ではなく、その用語が持つ意味と本開示の全般にわたった内容に基づいて定義されるべきである。

本開示において、文脈上において明確に特定しない限り、単数の表現は複数の表現を含み、複数の表現は単数の表現を含むことができる。本開示において、ある部分がある構成要素を「含む」とすれば、これは特に反対の記載がない限り、他の構成要素を除くものではなく、他の構成要素をさらに含むこともできることを意味する。

また、明細書で使用される「モジュール」又は「部」という用語は、ソフトウェアやハードウェア構成要素を意味し、「モジュール」又は「部」はある役割を遂行する。しかしながら、「モジュール」又は「部」はソフトウェアやハードウェアに限定される意味ではない。「モジュール」又は「部」は、アドレッシング可能な保存媒体にあるように構成してもよく、一つ又はそれ以上のプロセッサを再生させるように構成してもよい。したがって、一例として、「モジュール」又は「部」は、ソフトウェア構成要素、客体指向ソフトウェア構成要素、クラス構成要素、タスク構成要素のような構成要素、並びに、プロセス、関数、属性、プロシージャー、サブルーチン、プログラムコードのセグメント、ドライバー、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ、又は変数のうちで少なくとも一つを含むことができる。構成要素と「モジュール」又は「部」は、内部で提供される機能はさらに小さい数の構成要素及び「モジュール」又は「部」で結合されたり、追加的な構成要素と「モジュール」又は「部」にさらに分離されたりできる。

本開示の一実施例によれば、「モジュール」又は「部」は、プロセッサ及びメモリで具現され得る。「プロセッサ」は、汎用プロセッサ、中央処理装置（ＣＰＵ）、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、制御器、マイクロ制御器、状態マシンなどを含むように広く解釈されるべきである。いくつかの環境では、「プロセッサ」は、特定用途向け半導体（ＡＳＩＣ）、プログラム可能なロジックデバイス（ＰＬＤ）、フィールドプログラム可能なゲートアレイ（ＦＰＧＡ、）等を示すこともできる。「プロセッサ」は、例えば、ＤＳＰとマイクロプロセッサの組合せ、複数のマイクロプロセッサの組合せ、ＤＳＰコアと結合した一つ以上のマイクロプロセッサの組合せ、若しくは、任意の他のそのような構成等の組合せのような処理デバイスの組合せを示すこともできる。また、「メモリ」は、電子情報を保存可能な任意の電子コンポーネントを含むように広く解釈されるべきである。「メモリ」は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＮＶＲＡＭ（Non-Volatile Random Access Memory）、ＰＲＯＭ（Programmable Read-Only Memory）、ＥＰＲＯＭ（Erasable Programmable Read-Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Reda-Only Memory）、フラッシュメモリ、磁気又は光学データ保存装置、レジスタなどのようなプロセッサ－読み取り可能な媒体の多様な類型を示すこともできる。プロセッサがメモリから情報を読み取り／読み取ったメモリに情報を記録できる場合、メモリは、プロセッサと電子通信状態にあると言われる。プロセッサに集積されたメモリは、プロセッサと電子通信状態にある。

本開示において、「ペルソナ（persona）」は、特定語彙、掛け声（チュイムセ）、口振りなどの使用により固有の言語的な特徴が発現されることで、他のキャラクター又は人物と区別される特徴を持つキャラクターを示すことができる。一実施例において、ペルソナは、特定の年齢、性別、地域、言語的な性格（例：溌刺とした性格、丁重な性格、前向きな性格等）を反映するキャラクターを示すことができる。

本開示において、「チャットボット」は、特定のサービスに係る情報を提供したり、ユーザの発話に含まれた質問に対応する答弁を提供したりする人工知能（Artificial Intelligence、AI）基盤のコミュニケーションソフトウェアを示すことができる。

本開示において、「発話」は、言語を音声として発する言語行為又は当該言語行為を文字形態として記述するもの（例えば、テキスト）を示すことができる。

本開示において、「超巨大言語モデル」は、ｆｅｗ－ｓｈｏｔｌｅａｒｎｉｎｇなどのような方式を用いて、ファインチューニング（fine-tuning）なしに推論が可能な言語モデルを示すことができ、既存の一般言語モデルに比べて、１０倍以上多くの媒介変数（例えば、１０００億個以上の媒介変数等）を持つことができる。例えば、超巨大言語モデルは、ハイパークローバ（HyperCLOVA）やＧＰＴ３（Generative Pretrained Transformer 3）であり得る。

本開示において、「対話シーン（dialogue scene）」は、少なくとも一人以上の対話者が参加して、一つ以上の発話を構成とする対話場面を示すことができ、特定の質問又は文章に対応する一貫した対話体の答弁からなることができる。特定の質問又は文章に対応する一貫した対話体の答弁は、以前の対話又は対話の主題に影響を受けることができる。

図１は、本開示の一実施例により、ユーザ１１０がユーザ端末を用いてペルソナチャットボットサービスを利用する例を示す図である。図に示すように、ユーザ１１０は、ユーザ端末を用いてチャットボットに特定の情報を要請する質問又は対話を開始する発話が入力できる。チャットボットは、ユーザの発話に応じてペルソナを維持したキャラクター発話が提供できる。超巨大言語モデルに基づいたペルソナチャットボットの場合、ユーザの発話を累積学習することで、経時によりユーザの発話に含まれた言語的な特徴がペルソナチャットボットの言語的な特徴（或いは、キャラクター対話体）に影響を及ぼし、チャットボットの言語的な特徴の固有性が棄損する恐れがある。よって、チャットボットのペルソナの棄損を防止するために、ペルソナチャットボットの発話の言語的な特徴をモニタリングして、ペルソナが維持されない場合、生成されるチャットボットの発話をキャラクター対話体に合うように修正する必要がある。また、ペルソナチャットボットは、一貫した世界観を維持し、特定のクエリに対する一貫した答弁を行い、特定の主題に対する一貫した対話の流れを維持することが必要である。

図に示すように、ユーザ１１０は、ユーザ端末のユーザインタフェース１２０を介してユーザ発話を入力し、ペルソナチャットボットから一貫したキャラクター対話体の応答メッセージが受信できる。例えば、ユーザ１１０が「来月オンアンドオフがカムバするって!!」という発話を入力する場合、ペルソナチャットボットは、感嘆詞、語彙の子音の変形、語尾処理の変形及び特殊文字を用いて、溌刺とした性格のペルソナを持つ「キャア！！、叫んで～アンナ姫様、ちょっと気絶するかも～」というキャラクター発話が提供できる。次いで、ユーザ１１０が「１ケ月ぶりにカムバするじゃん。カムバタームやばいね。ビックニユースまたあるよ!」のユーザ発話を入力する場合、ペルソナチャットボットが「何？早く教えて！気になってまた気絶する前に!」というキャラクター発話を提供して、溌刺とした性格を持つチャットボットのペルソナを維持すると同時に、以前の対話の主題に対する一貫した対話の流れを維持することが確認できる。

図２は、本開示の一実施例によるペルソナチャットボットサービスを提供するために、情報処理システム２３０が複数のユーザ端末２１０＿１、２１０＿２、２１０＿３と通信可能であるように連結された構成を示す概要図である。情報処理システム２３０は、ペルソナチャットボットサービスが提供できるシステムを含むことができる。一実施例において、情報処理システム２３０は、ペルソナチャットボットサービスに係るコンピュータ実行可能なプログラム（例えば、ダウンロード可能なアプリケーション）や、データを保存、提供、及び実行できる一つ以上のサーバー装置及び／又はデータベースや、クラウドコンピューティング（cloud computing）サービス基盤の一つ以上の分散コンピュータ装置及び／又は分散データベースを含むことができる。例えば、情報処理システム２３０は、ペルソナチャットボットサービスのための別途のシステム（例えば、サーバー）を含むことができる。情報処理システム２３０により提供されるペルソナチャットボットサービスなどは、複数のユーザ端末２１０＿１、２１０＿２、２１０＿３の各々に設置されたインスタントメッセージングアプリケーション、人工知能基盤コミュニケーションソフトウェア、ウェブブラウザー、などを通してユーザに提供できる。一実施例において、情報処理システム２３０は、超巨大言語モデル２４０を用いてユーザ端末にペルソナチャットボットサービスが提供できる。

複数のユーザ端末２１０＿１、２１０＿２、２１０＿３は、ネットワーク２２０を介して情報処理システム２３０と通信できる。ネットワーク２２０は、複数のユーザ端末２１０＿１、２１０＿２、２１０＿３及び情報処理システム２３０間の通信が可能であるように構成できる。ネットワーク２２０は、設置環境に応じて、例えば、イーサネット（Ethernet）、ＰＬＣ（Power Line Communication）、電話線通信装置、及びＲＳ－ｓｅｒｉａｌ通信、などのような有線ネットワーク、移動通信網、ＷＬＡＮ（Wireless LAN）、Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ（登録商標）及びＺｉｇＢｅｅ（登録商標）、などのような無線ネットワーク、又はその組合せからなることができる。通信方式は制限されず、ネットワーク２２０を含むことができる通信網（例えば、移動通信網、有線インターネット、無線インターネット、放送網、衛星網、等）を活用する通信方式だけでなく、ユーザ端末２１０＿１、２１０＿２、２１０＿３間の近距離無線通信も含まれる。

図２において、携帯電話端末２１０＿１、タブレット端末２１０＿２、及びＰＣ端末２１０＿３をユーザ端末の例として示したが、これに限定されず、ユーザ端末２１０＿１、２１０＿２、２１０＿３は、有線及び／又は無線通信が可能な任意のコンピュータ装置であり得る。例えば、ユーザ端末は、スマートフォン、携帯電話、ナビゲーション、デスクトップコンピュータ、ラップトップコンピュータ、デジタル放送用端末、ＰＤＡ（Personal Digital Assistants）、ＰＭＰ（Portable Multimedia Player）、タブレットＰＣ、ゲームコンソール（game console）、ウェアラブルデバイス（wearable device）、ＩｏＴ（internet of things）デバイス、ＶＲ（virtual reality）デバイス、及びＡＲ（augmented reality）デバイス、などを含むことができる。また、図２では、３つのユーザ端末２１０＿１、２１０＿２、２１０＿３がネットワーク２２０を介して情報処理システム２３０と通信するものとして示したが、これに限定されず、異なる数のユーザ端末がネットワーク２２０を介して情報処理システム２３０と通信するように構成されることもできる。

一実施例において、情報処理システム２３０は、ユーザ端末２１０＿１、２１０＿２、２１０＿３からユーザ発話（例えば、テキストや音声等）が受信できる。このとき、情報処理システム２３０は、受信されたユーザ発話の情報に応答するチャットボットペルソナを維持したキャラクター発話が提供できる。図２においては、超巨大言語モデル２４０が情報処理システム２３０の外部に存在するものとして示したが、これに限定されず、情報処理システム２３０の内部に超巨大言語モデル２４０が保存されて使用することもできる。また、図２では、情報処理システム２３０がユーザ端末からユーザ発話を受信した後、キャラクター発話を生成してユーザ端末に提供するものとして示したが、これに限定されず、ペルソナチャットボットサービスを提供するためのハードウェア／ソフトウェアがユーザ端末に具備されることもできる。

図３は、本開示の一実施例によるユーザ端末２１０及び情報処理システム２３０の内部構成及び超巨大言語モデル２４０を示すブロック図である。ユーザ端末２１０は、インスタントメッセージングアプリケーション、人工知能基盤コミュニケーションソフトウェア、ウェブブラウザー、などが実行可能であり、有／無線通信が可能な任意のコンピュータ装置を示すことができ、例えば、図２の携帯電話端末２１０＿１、タブレット端末２１０＿２、ＰＣ端末２１０＿３などを含むことができる。図に示すように、ユーザ端末２１０は、メモリ３１２、プロセッサ３１４、通信モジュール３１６、及び入出力インタフェース３１８を含むことができる。これと同様に、情報処理システム２３０は、メモリ３３２、プロセッサ３３４、通信モジュール３３６、及び入出力インタフェース３３８を含むことができる。図３に示すように、ユーザ端末２１０及び情報処理システム２３０は、各々の通信モジュール３１６、３３６を用いて、ネットワーク２２０を介して、情報及び／又はデータが通信できるように構成できる。また、入出力装置３２０は、入出力インタフェース３１８を介して、ユーザ端末２１０に情報及び／又はデータを入力したり、ユーザ端末２１０から生成された情報及び／又はデータを出力したりするように構成できる。

メモリ３１２、３３２は、非一時的な任意のコンピュータ読み取り可能な記録媒体を含むことができる。一実施例によれば、メモリ３１２、３３２は、ＲＡＭ（random access memory）、ＲＯＭ（read only memory）、ディスクドライブ、ＳＳＤ（solid state drive）、及びフラッシュメモリ（flash memory）、などのような永久的な大容量記憶装置（permanent mass storage device）を含むことができる。他の例として、ＲＯＭ、ＳＳＤ、フラッシュメモリ、及びディスクドライブ、などのような永久的な大容量保存装置は、メモリとは区分される別途の永久保存装置としてユーザ端末２１０又は情報処理システム２３０に含まれ得る。また、メモリ３１２、３３２には、オペレーティングシステムと少なくとも一つのプログラムコードが保存され得る。

このようなソフトウェア構成要素は、メモリ３１２、３３２とは別途のコンピュータ読み取り可能な記録媒体からローディングできる。このような別途のコンピュータ読み取り可能な記録媒体は、このようなユーザ端末２１０及び情報処理システム２３０に直接連結可能な記録媒体を含むことができるが、例えば、フロッピードライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ、及びメモリカード、などのようなコンピュータ読み取り可能な記録媒体を含むことができる。他の例として、ソフトウェア構成要素等は、コンピュータ読み取り可能な記録媒体でなく、通信モジュール３１６、３３６を介してメモリ３１２、３３２にローディングされることもできる。例えば、少なくとも一つのプログラムは、開発者又はアプリケーションの設置ファイルを配信するファイル配信システムが、ネットワーク２２０を介して提供するファイルにより設置されるコンピュータプログラムに基づいて、メモリ３１２、３３２にローディングされ得る。

プロセッサ３１４、３３４は、基本的な算術、ロジック及び入出力演算を遂行することで、コンピュータプログラムの命令を処理するように構成できる。命令は、メモリ３１２、３３２又は通信モジュール３１６、３３６により、プロセッサ３１４、３３４に提供され得る。例えば、プロセッサ３１４、３３４は、メモリ３１２、３３２のような記録装置に保存されたプログラムコードによって受信される命令を実行するように構成できる。

通信モジュール３１６、３３６は、ネットワーク２２０を介して、ユーザ端末２１０と情報処理システム２３０とが互いに通信するための構成や機能を提供でき、ユーザ端末２１０及び／又は情報処理システム２３０が、他のユーザ端末又は他のシステム（例えば、別途のクラウドシステム等）と通信するための構成や機能を提供できる。例えば、ユーザ端末２１０のプロセッサ３１４がメモリ３１２などのような記録装置に保存されたプログラムコードによって生成した要請やデータ（例えば、テキスト又は音声などのユーザ発話が含まれたデータなど）は、通信モジュール３１６の制御により、ネットワーク２２０を介して情報処理システム２３０に伝達され得る。反対に、情報処理システム２３０のプロセッサ３３４の制御により提供される制御信号や命令が、通信モジュール３３６及びネットワーク２２０を経て、ユーザ端末２１０の通信モジュール３１６を介してユーザ端末２１０に受信され得る。例えば、ユーザ端末２１０は、情報処理システム２３０から、ユーザ発話に応答するキャラクター発話が受信できる。

入出力インタフェース３１８は、入出力装置３２０とのインタフェースのための手段であり得る。一例として、入力装置は、オーディオセンサ及び／又はイメージセンサを含むカメラ、キーボード、マイクロホン、マウス、などのような装置を含み、出力装置は、ディスプレイ、スピーカ、ハプティックフィードバックデバイス（haptic feedback device）、などのような装置を含むことができる。他の例として、入出力インタフェース３１８は、タッチスクリーンなどのように入力及び出力を遂行するための構成及び機能が一つで統合された装置とのインタフェースのための手段であり得る。図３では、入出力装置３２０がユーザ端末２１０に含まれないように示したが、これに限定されず、ユーザ端末２１０と一体に構成することもできる。また、情報処理システム２３０の入出力インタフェース３３８は、情報処理システム２３０と連結するか、又は、情報処理システム２３０が含むことができる入力や出力のための装置（図示せず）とのインタフェースのための手段であり得る。図３では、入出力インタフェース３１８、３３８がプロセッサ３１４、３３４と別途に構成された要素として示されるが、これに限定されず、入出力インタフェース３１８、３３８がプロセッサ３１４、３３４に含まれるように構成することもできる。

ユーザ端末２１０及び情報処理システム２３０は、図３に示す構成要素よりも多くの構成要素を含むことができる。しかしながら、大部分の従来技術的構成要素を明確に示す必要はない。一実施例によれば、ユーザ端末２１０は、前述した入出力装置３２０の少なくとも一部を含むように具現できる。また、ユーザ端末２１０は、トランシーバー（transceiver）、ＧＰＳ（Global Positioning system）モジュール、カメラ、各種センサ、及びデータベース、などのような他の構成要素をさらに含むことができる。例えば、ユーザ端末２１０がスマートフォンである場合、一般にスマートフォンが持つ構成要素を含むことができ、例えば、加速度センサ、ジャイロセンサ、マイクモジュール、カメラモジュール、各種物理的なボタン、タッチパネルを用いたボタン、入出力ポート及び振動のための振動器、などのような多様な構成要素が、ユーザ端末２１０にさらに含まれるように具現できる。

図４は、本開示の一実施例による情報処理システムのプロセッサ４００の内部構成を示す機能的なブロック図である。図に示すように、プロセッサ４００は、対話主題探知器４１０、対話シーン検索モデル４２０、プロンプトエンコーダ４３０、超巨大言語モデル４４０、キャラクターペルソナ探知器４５０、及びキャラクター対話体変換器４６０を含むことができる。図４では、一つのプロセッサを示したが、これに限定されず、情報処理システムは、複数のプロセッサを含んでプロセッサ４００と同一の機能を遂行するように構成できる。

一実施例によれば、対話主題探知器４１０は、ユーザ発話を受信してユーザ発話と関連した対話主題が決定／抽出できる。決定された対話主題は、対話シーン検索モデル４２０及びプロンプトエンコーダ４３０に入力できる。他の実施例において、対話主題探知器４１０は、ユーザ発話及び／又はチャットボット発話を受信して対話主題が決定できる。

一実施例によれば、対話シーン検索モデル４２０は、ユーザ発話及び／又は対話主題探知器４１０により決定された対話主題と関連した対話シーンが得られる。例えば、対話シーン検索モデル４２０は、対話保存データベース（図示せず）から特定の対話主題と関連した対話シーンが得られる。ここで、対話保存データベースは、対話シーン検索モデルの内部及び／又は外部の保存装置に含まれる。対話シーン検索モデル４２０により得られた対話主題と関連した対話シーンは、プロンプトエンコーダ４３０に入力できる。

一実施例によれば、プロンプトエンコーダ４３０は、指示文、キャラクター対話サンプル、ユーザ発話と関連した対話主題、対話主題と関連した対話シーン、及び、ユーザ発話、などを含むプロンプトが受信できる。ここで、指示文は、チャットボットのキャラクターに関する説明を含み、キャラクター対話サンプルは、質問及び質問に対応するキャラクター対話体の答弁を含むことができる。その後、プロンプトエンコーダ４３０は、プロンプトをエンコードし、エンコードしたプロンプトを超巨大言語モデル４４０に入力できる。

一実施例によれば、超巨大言語モデル４４０は、受信のエンコードしたプロンプトに基づき、ユーザ発話に応答するチャットボット発話が生成できる。超巨大言語モデル４４０により生成されたチャットボット発話は、キャラクターペルソナ探知器４５０に入力され、チャットボットのキャラクター対話体が維持されるか否かがモニタリングできる。ここで、キャラクター対話体は、キャラクター対話サンプル、指示文、及び対話シーン等に基づいて決定できる。チャットボットのキャラクター対話体が維持されるか否かに対する結果は、キャラクター対話体変換器４６０に提供できる。

一実施例によれば、キャラクター対話体が維持されないと判定される場合、キャラクター対話体変換器４６０が、チャットボット発話をキャラクター対話体と類似度が高くなるように修正できる。キャラクター対話体変換器４６０は、修正されたチャットボット発話をユーザに提供すると同時に、修正されたチャットボット発話をプロンプトに追加できる。一方、キャラクター対話体が維持されると判定される場合、キャラクター対話体変換器４６０は、チャットボット発話を修正なしにユーザに提供すると同時に、チャットボット発話をプロンプトに追加できる。

図５は、本開示の一実施例により、チャットボットのキャラクター対話体を維持しながら、ペルソナチャットボットサービスをユーザに提供する構成の例を示す図である。図に示すように、プロンプトエンコーダ５２０はユーザ発話５１０を受信できる。ここで、ユーザ発話は、ユーザ端末を介して入力されたテキスト、又は、入力の音声が音声認識器によって変換されたテキストなどであり得る。一実施例によれば、プロンプトエンコーダ５２０は、予め入力された指示文５２２、チャットボットの対話体を学習させるためのキャラクター対話サンプル５２４、及び、受信したユーザ発話５１０を含むプロンプトをエンコードすることができる。

エンコードしたプロンプトは、超巨大言語モデル５３０に入力され、ユーザ発話５１０に応答するチャットボット発話５３２が生成できる。超巨大言語モデル５３０により生成されたチャットボット発話５３２は、キャラクターペルソナ探知器５４０に入力され、チャットボットのペルソナ（すなわち、チャットボットのキャラクター対話体）が維持されるか否かがモニタリングできる。すなわち、チャットボットの対話体を一定に維持するために、チャットボットの答弁の対話体（すなわち、ペルソナ）をモニタリングする探知モデルを別途に訓練させて超巨大言語モデルを補助できる。

一実施例において、キャラクターペルソナ探知器５４０は、ニューラルネットワーク(neural network)基盤分流器などを用いて、チャットボットのペルソナが維持されるか否かをモニタリングできる。例えば、キャラクターペルソナ探知器５４０は、チャットボット発話５３２とチャットボットのキャラクター対話体とを比較して、チャットボット発話５３２及びキャラクター対話体間のマッチングスコア５４２が生成できる。その後、キャラクターペルソナ探知器５４０は、マッチングスコア５４２に基づき、チャットボットのキャラクター対話体が維持されるか否かが判定できる。キャラクターペルソナ探知器５４０が生成したマッチングスコア５４２は、キャラクター対話体変換器５５０に提供できる。

マッチングスコア５４２が既定の閾値以下である場合、キャラクター対話体が維持されないと判定して、キャラクター対話体変換器５５０は、チャットボット発話５３２をキャラクター対話体と類似度が高くなるように修正できる。後述するように、キャラクター対話体変換器５５０は、別途の人工知能モデルとして具現できる。一方、マッチングスコア５４２が既定の閾値を超過する場合、キャラクター対話体が維持されると判定して、キャラクター対話体変換器５５０は、チャットボット発話５３２を修正しなくてよい。その後、キャラクター対話体変換器５５０は、チャットボット発話５５２をユーザに提供すると同時に、プロンプトに追加できる。このように、キャラクターペルソナ探知器５４０がチャットボットのキャラクター対話体が維持されるか否かをモニタリングして、チャットボットのキャラクター対話体が維持されない場合、キャラクター対話体変換器５５０が応答をチャットボットのキャラクター対話対話体に合うように修正することで、超巨大言語モデル５３０を使用する場合にも一貫したキャラクター対話体が維持できる。

図６は、本開示の一実施例により、一貫したキャラクター対話体を維持するために、キャラクター対話体変換器（例えば、図５の５５０）がチャットボットの応答を修正する例を示す図である。図に示すように、プロンプト６００は、キャラクターに関する説明を含む指示文６１０、キャラクター対話サンプル６２０、及びユーザ発話６３０からなることができる。例えば、指示文６１０は、「アンナはいつも幸せで生気溌剌としている。共感力に優れ、前向きでリアクションが良いほうである。」というキャラクターに関する説明を含むことができる。また、キャラクター対話サンプル６２０は、「来月オンアンドオフがカムバするって！！」という質問、及び、「キャア！！、叫んで～アンナ姫様、ちょっと気絶するかも～」というキャラクター対話体の答弁などのような、質問－答弁ペアを複数含むことができる。

その後、プロセッサ（例えば、情報処理システムの少なくとも一つのプロセッサ）は、プロンプト６００をエンコードし、エンコードしたプロンプトを超巨大言語モデルに入力して、チャットボット発話６４０が生成できる。例えば、ユーザ発話６３０に応答した発話として、「そうなの?この頃、二ユースが多いね～」というチャットボット発話が生成できる。キャラクター対話体が維持されないと判定された場合、プロセッサは、チャットボット発話６４０をキャラクター発話６５０に修正できる。例えば、「そうなの?この頃、ニュースが多いね～」というチャットボット発話６４０を、「何?早く教えて！気になってまた気絶する前に!」というキャラクター発話６５０に修正できる。この場合、プロセッサは、修正されたキャラクター発話６５０をプロンプト６００に追加できる。

図７は、本開示の一実施例により、一貫したキャラクター対話体を維持するために、キャラクター対話体変換器（例えば、図５の５５０）が学習される例を示す図である。図に示すように、第１の対話体変換器７１０は、キャラクター発話を一般発話に変換するように学習されたモデルであり得る。これと同様に、第２の対話体変換器７２０は、一般発話をキャラクター発話に変換するように学習されたモデルであり得る。例えば、第１の対話体変換器７１０は、後述する精製（refinement）方式と同様に、一般発話初期データセット内の一般発話を示す単語等の集合Ｗ_Ｘを除去し、最も同一／類似の意味を持つキャラクター発話を示す単語等Ｗ_Ｙ ^(ｋ)（ｗ）に代えて初期対話体変換器を一時生成した後、繰り返してアップデートされ得る。第２の対話体変換器７２０も同様に、初期モデルを生成し、繰り返してアップデートされ得る。例えば、第１の対話体変換器７１０及び第２の対話体変換器７２０は、ＧＰＴ－２のような言語生成モデル（generative language model）が使用できる。

一実施例において、第１のセットのキャラクター発話７１２（Ｙ）を第１の対話体変換器７１０に入力して、第１のセットの一般発話７１４（Ｘ＾）が生成できる。そして、第１のセットの一般発話７１４（Ｘ＾）内にキャラクター発話を示す単語Ｗ_Ｙが存在する場合、Ｗ_Ｘ ^(ｋ)（ｗ）内においてランダム且つ均一に（uniformly at random）選択されたｗ’に代替／精製できる。ここで、Ｗ_Ｘ ^(ｋ)（ｗ）は、ｗと最も類似の一般発話を示す単語等の集合Ｗ_Ｘにある上位ｋ個の単語を示すことができる。その後、精製された第１のセットの一般発話７１４（Ｘ＾）及び第１のセットのキャラクター発話７１２（Ｙ）に基づき、第２の対話体変換器７２０を学習／アップデートできる。そして、第２のセットの一般発話７２２（Ｘ）を第２の対話体変換器７２０に入力して、第２のセットのキャラクター発話７２４（Ｙ＾）を生成し、同様に、第２のセットのキャラクター発話７２４（Ｙ＾）内に一般発話を示す単語Ｗ_Ｘが存在する場合、Ｗ_Ｘ ^(ｋ)（ｗ）内においてランダム且つ均一に選択されたｗ’に代替／精製できる。その後、精製された第２のセットのキャラクター発話７２４（Ｙ＾）及び第２のセットの一般発話７２２（Ｘ）に基づき、第１の対話体変換器７１０を学習／アップデートできる。第１のセットの新しいキャラクター発話データセットと、新しい一般発話データセットとに対して前記手順を複数回繰り返することで、第１の対話体変換器７１０と第２の対話体変換器７２０とを交差学習させることができる。これに関する詳細は後述する。

一実施例において、キャラクター対話体変換器は、教師なし学習（unsupervised learning）基盤の人工知能モデルであり得る。教師あり学習（supervised learning）基盤の人工知能モデルにおいて、文章を意訳、翻訳、スタイル変換（style transfer)などを行う場合、（Ｘ，Ｙ）で表示されるソース－ターゲット文章（source-target sentence）ペアの並列データセット（parallel data set）が必要になり得る。一方、教師なし学習基盤の人工知能モデルの場合、このような並列データセット（Ｘ，Ｙ）が提供されなくてよい。並列データセット（Ｘ，Ｙ）が提供されない場合、キャラクター対話体変換器は、第１の対話体変換器７１０及び／又は第２の対話体変換器７２０を用いて、自己教師あり学習（self-supervised learning）基盤の交差翻訳フレームワーク（Cross-paraphrase framework）を通して、既定のキャラクター対話体（又は文体）及び一般対話体（又は文体）を持つ文章間に両方向に対話体を変換するように学習できる。

具体的に、第１の対話体変換器７１０は、キャラクター対話体を一般対話体に変換するモデル（Θ）が意味でき、第２の対話体変換器７２０は、一般対話体をキャラクター対話体に変換するモデル（Φ）が意味できる。このとき、キャラクター対話体に該当する非平行データ集合である第１のセットのキャラクター発話７１２（Ｙ）が与えられた場合、第１の対話体変換器７１０（Θ）は、第１のセットの一般発話７１４（Ｘ＾）及び第１のセットのキャラクター発話７１２（Ｙ）を集合とする疑似並列（Pseudo parallel）データセット（Ｘ＾，Ｙ）を生成する役割を果たすことができる。一実施例において、第１のセットのキャラクター発話７１２（Ｙ）は、第２の対話体変換器７２０を訓練するのに使用される非平行（non-parallel）データ集合であり得る。これは、第１のセットのキャラクター発話７１２（Ｙ）及び第２のセットの一般発話７２２（Ｘ）は、並列データセットを構成しない独立的なデータセットであることが意味できる。

対話体変換モデルを学習する場合、損失関数（loss function）を考慮することができる。例えば、疑似並列（pseudo parallel）データセット（Ｘ＾，Ｙ）に対して損失関数（loss function）を考慮することができる。仮想一般発話である第１のセットの一般発話７１４（Ｘ＾）が与えられた場合、これから第１のセットキャラクター発話７１２（Ｙ）に変換するために発生する損失を次の数（１）によって算出できる。

ここで、仮想一般発話である第１のセットの一般発話７１４（Ｘ＾）は、次の数（２）のように相対モデルにより推論できる。

一実施例において、第１の対話体変換器７１０の学習及び第２の対話体変換器７２０の学習は交差発生できる。各対話体変換器７１０、７２０は、学習のための疑似並列データセットを構成するために、各対話体変換器７１０、７２０により推論された対話体を他の対話体変換器に提供できる。例えば、第１の対話体変換器７１０により推論された第１のセットの一般発話７１４は、第２の対話体変換器７２０で学習のためのデータセットの構成集合として提供できると同時に、第２の対話体変換器７２０により推論された第２のセットのキャラクター発話７２４は、第１の対話体変換器７１０で学習のためのデータセットの構成集合として提供できる。これにより、各対話体変換器７１０、７２０は、交差翻訳（Cross-paraphrase）を用いて、一般発話からキャラクター発話への対話体変換及びキャラクター発話から一般発話への対話体変換など、二つの対話体変換モデルが提供できる。これは、次の表１に示すアルゴリズムとして要約できる。

一実施例において、第２の対話体変換器７２０の学習前に、第１の対話体変換器７１０から生成された第１のセットの一般発話７１４（Ｘ＾）内にキャラクター対話体と関連した単語が含まれると判定する場合、これに応じてキャラクター対話体と関連した単語Ｗ_Ｙが一般対話体の単語Ｗ_Ｘに代替できる。一方、第１のセットの一般発話７１４（Ｘ＾）内にキャラクター対話体と関連した単語Ｗ_Ｙが含まれないと判定する場合、第１のセットの一般発話７１４（Ｘ＾）は修正されないことができる。具体的に、第１のセットのキャラクター発話７１２（Ｙ）を第１の対話体変換器７１０に入力して、第１のセットの一般発話７１４（Ｘ＾）を生成する場合、第１のセットの一般発話７１４（Ｘ＾）内にキャラクター対話体の言語的特徴を示す単語Ｗ_Ｙは一般対話体の単語Ｗ_Ｘに代替できる。一般対話体の単語Ｗ_Ｘの集合は、次の数（３）のように算出できる。

ここで、Ｖ_ＸはＸの語彙（vocabulary）、Ｗ_ＸはＸを示す単語（word）などの集合と言える。ｃｏｕｎｔ（ｗ，Ｘ）はＸでｗが示す個数、ｃは閾値（threshold）、λは平滑化因子（smoothing factor）を示すことができる。Ｗ_Ｙは数（３）においてＸとＹを互いに変えて定義できる。一実施例において、Ｗ_ＸとＷ_Ｙは最初１回生成できる。一実施例において、キャラクター対話体と関連した単語の集合Ｗ_Ｙに属する単語ｗに対し、Ｗ_Ｘ ^(ｋ)（ｗ）は、キャラクター対話体と関連した単語の集合Ｗ_Ｙに属する単語ｗと最も類似の一般対話体単語集合Ｗ_Ｘにある上位ｋ個の単語で示すことができる。好ましくはｋが１０であり得る。一実施例において、キャラクター対話体と関連した単語Ｗ_Ｙと類似の意味を持つ一般対話体の単語は、第１のセットのキャラクター発話７１２（Ｙ）及び第２のセットの一般発話７２２（Ｘ）に基づいて学習されたＷｏｒｄ２Ｖｅｃモデルを用いて決定できる。

図８は、本開示の一実施例により、キャラクター対話体変換器が学習される例を示す図である。図に示すように、キャラクター発話を一般発話に変換するように構成された第１の対話体変換器８１０に、キャラクター発話である「わう～お前はこの時代の本当の親孝行な息子？ご両親がすごく誇りに思うだろうｗｗ」８１２を入力して、仮想一般発話である「あなたは本当に親孝行な息子？ご両親が本当に誇りに思うだろう」８１４を生成し、仮想一般発話８１４及びキャラクター発話８１２に基づき、一般発話をキャラクター発話に変換するように構成された第２の対話体変換器８２０が学習できる。また、一般発話をキャラクター発話に変換するように構成された第２の対話体変換器８２０に、一般発話である「本当にビットコインの価値が上昇した？値段がだいぶ上がった!」８２２を入力して、仮想キャラクター発話である「おお、マジでビットコインが急上昇？値段めっちゃ上がった！超嬉しい！！」８２４を生成して、仮想キャラクター発話８２４及び一般発話８２２に基づき、キャラクター発話を一般発話に変換するように構成された第１の対話体変換器８１０が学習／アップデートできる。

図９は、本開示の一実施例により、超巨大言語モデル９１０を用いて対話体変換器９３０を学習する方法を示す図である。図に示すように、少なくとも一つのプロセッサは、キャラクター発話セット９２２を超巨大言語モデル９１０に入力して、一般発話セット９２４が生成できる。一実施例において、一般発話セット９２４内のキャラクター発話を示す単語等の集合Ｗ_Ｙを除去し、最も同一／類似の意味を持つ一般発話を示す単語等Ｗ_Ｘ ^(ｋ)（ｗ）に代替できる。その後、プロセッサは、一般発話セット９２４及びキャラクター発話セット９２２を学習データ９２０として対話体変換器９３０が学習できる。プロセッサは、新しいキャラクター発話データセットに対して前記学習を繰り返して遂行できる。

図７乃至図９を参照して説明した本開示の対話体変換器の学習方法に対する評価のために、４つのデータセットをテストデータセットとして使用した。データセットは、ＧＹＡＦＣのフォーマルスタイル変換（Formal style transfer）やインフォーマルスタイル変換（Informal style transfer）、及び、シェイクスピア（Shakespeare）のオリジナルスタイル変換（Original style transfer）やモダンスタイル変換（Modern style transfer）の４つのスタイル変換方向に分類できる。次の表２は、教師なし学習スタイルト変換（unsupervised style transfer）技術であるＵＮＭＴ、ＤＬＳＭ、及びＳＴＲＡＰと、本開示の対話体変換器の学習方法のスタイル正確度（ＡＣＣ）、コンテンツ類似度（ＳＩＭ）、流暢性（ＦＬ）の性能とを示す。ここで、ＳＴＲＡＰは、核心抽出（nucleus sampling）に関するｐ値に対して０．０、０．６、０．９の３つの値を適用して評価した。

本開示の対話体変換器の学習方法の場合、ＧＹＡＦＣのフォーマルスタイル変換（Formal style transfer）において、ＵＮＭＴ及びＤＬＳＭと比較した時、コンテンツ類似度（ＳＩＭ）及び流暢性（ＦＬ）の側面で良い性能を示し、ＳＴＲＡＰと比較した時、若干低下又は類似の性能を示す。また、本開示の対話体変換器の学習方法は、ＧＹＡＦＣのインフォーマルスタイル変換（Informal style transfer）において、ＵＮＭＴ及びＤＬＳＭと比較した時、コンテンツ類似度（ＳＩＭ）及び流暢性（ＦＬ）の側面で良い性能を示し、スタイル正確度（ＡＣＣ）の側面で一般的に低い性能を示し、シェイクスピアデータセットに対する評価において、ＧＹＡＦＣのデータセットに対する評価と類似の結果を示す。結果として、本開示の対話体変換器の学習方法は、ＡＣＣ点数を犠牲にして、４つの変換方向の全部に対してコンテンツ類似度（ＳＩＭ）及び流暢性（ＦＬ）の側面で良い性能を示す。これは、本開示の対話体変換器の学習方法を使用することが、意味論的に正確且つ流暢な文章を生成するのに効果的であることを示す。次の表３は、生成された文章の品質を評価するために、各データセットのＪ点数を示す。

本開示の対話体変換器の学習方法は、ＵＮＭＴ及びＤＬＳＭと比較した時、４つの変換方向の全部で良い性能を示す。これは、本開示の対話体変換器の学習方法が、自動エンコーダを使用する場合と比較して、效果的に高品質のスタイル変換が生成できることを示す。本開示の対話体変換器の学習方法をＳＴＲＡＰと比較した時、インフォーマルスタイル変換（Informal style transfer）及びシェイクスピアのオリジナルスタイル変換（Original style transfer）において類似のＪ点数を示したが、フォーマルスタイル変換（Formal style transfer）及びシェイクスピアのモダンスタイル変換（Modern style transfer）において低い性能を示す。ただし、本開示の対話体変換器の学習方法は、ＳＴＲＡＰ訓練と比較して、データセットが不充分な場合、対話体変換学習の単純さ及び効率性が提供できるという利点がある。

図１０は、本開示の一実施例により、チャットボットの対話の流れを維持しながら、ペルソナチャットボットサービスをユーザに提供する構成の例を示す図である。図に示すように、対話主題探知器１０２０はユーザ発話１０１０が受信できる。対話主題探知器１０２０は、受信したユーザ発話１０１０と関連した対話主題１０２２が決定／抽出できる。他の実施例において、対話主題探知器１０２０は、ユーザ発話及び／又はチャットボット発話を受信して対話主題が決定できる。一実施例において、対話主題探知器１０２０は、対話履歴から特定主題が決定できるように学習された人工知能モデルとして具現できる。決定された対話主題１０２２は、対話シーン検索モデル１０３０及びプロンプトエンコーダ１０４０に入力できる。

対話シーン検索モデル１０３０は、ユーザ発話１０１０及び／又は対話主題探知器１０２０により決定された対話主題１０２２に基づき、対話主題１０２２と関連した少なくとも一つの対話シーンが得られる。ここで、対話シーンは、対話主題１０２２と関連した複数の質問及びこれに対応する複数のキャラクター対話体の答弁を含むことができる。対話シーン検索モデル１０３０により得られた対話シーン１０３２は、プロンプトエンコーダ１０４０に入力できる。一実施例において、対話シーン検索モデル１０３０は、対話保存データベース（図示せず）から特定の対話主題と関連した対話シーンが得られ、人工知能モデルとして具現できる。

プロンプトエンコーダ１０４０は、指示文１０４２、ユーザ発話１０１０、対話主題１０２２、及び対話シーン１０３２を受信してプロンプトに追加できる。ここで、指示文は、チャットボットのキャラクターに関する説明を含み、キャラクター対話サンプルは、質問及び質問に対応するキャラクター対話体の答弁を含むことができる。その後、プロンプトエンコーダ１０４０は、プロンプトをエンコードすることができる。エンコードしたプロンプトは、超巨大言語モデル１０５０に入力されて、ユーザ発話１０１０に応答するチャットボット発話１０５２が生成できる。

図１１は、本開示の一実施例により、プロンプトエンコーダ１１６０の例を示す図である。プロンプトエンコーダ１１６０は、対話指示文エンコーダ１１６２、対話シーンエンコーダ１１６６、１１６８、及び結合部（concatenator）１１７０を含むことができる。図に示すように、プロンプトは、指示文１１１０、対話主題１１２０、１１４０、及び対話シーン１１３０、１１５０を含むことができる。ここで、指示文１１１０は、チャットボットのキャラクターに関する説明を含むことができる。

対話指示文エンコーダ１１６２は、チャットボットのキャラクターに関する説明を含む指示文１１１０をエンコードすることができる。対話主題埋め込み１１６４は、対話主題探知器により決定された対話主題（例えば、「ショーミーザマネー１０」及び「就業及び進路」）に対する埋め込み（embedding）であり得る。対話シーンエンコーダ１１６６、１１６８は、各対話主題と関連した対話シーンらをエンコードすることができる。例えば、第１の対話シーンエンコーダ１１６６は、第１の対話主題である「ショーミーザマネー１０」１１２０と関連した対話シーン１１３０をエンコードし、第２の対話シーンエンコーダ１１６８は、第２の対話主題である「就業及び進路」１１４０と関連した対話シーン１１５０をエンコードすることができる。結合部１１７０は、対話指示文エンコーダ１１６２の出力、対話主題埋め込み１１６４、及び対話シーンエンコーダ１１６６、１１６８の出力を結合し、これをデコーダ１１８０に提供できる。

図１２は、本開示の一実施例により、チャットボットの対話体及び対話の流れを維持しながら、ペルソナチャットボットサービスを提供する構成の例を示す図である。図に示すように、対話主題探知器１２２０は、ユーザ発話１２１０を受信して、ユーザ発話１２１０と関連した対話主題１２２２が決定／抽出できる。決定された対話主題１２２２は、対話シーン検索モデル１２３０及びプロンプトエンコーダ１２４０に入力できる。

対話シーン検索モデル１２３０は、ユーザ発話１２１０及び／又は対話主題１２２２に基づき、対話主題１２２２と関連した対話シーン１２３２が得られ、プロンプトエンコーダ１２４０に提供できる。プロンプトエンコーダ１２４０は、指示文１２４２、ｆｅｗ－ｓｈｏｔ例題（又はキャラクター対話サンプル）１２４４、ユーザ発話１２１０、対話主題１２２２、及び対話シーン１２３２を受信してエンコードすることができる。エンコードしたプロンプトは、超巨大言語モデル１２５０に入力され、ユーザ発話１２１０に応答するチャットボット発話１２５２が生成できる。

生成されたチャットボット発話１２５２は、キャラクターペルソナ探知器１２６０に入力されて、チャットボットのペルソナ（すなわち、チャットボットのキャラクター対話体）が維持されるか否かがモニタリングできる。例えば、キャラクターペルソナ探知器１２６０は、チャットボット発話１２５２とチャットボットのキャラクター対話体とを比較して、チャットボット発話１２５２及びキャラクター対話体間のマッチングスコア１２６２を生成し、キャラクター対話体変換器１２７０に提供できる。マッチングスコア１２６２が既定の閾値以下である場合、キャラクター対話体が維持されないと判定し、キャラクター対話体変換器１２７０は、チャットボット発話１２５２をキャラクター対話体と類似度が高くなるように修正できる。一方、マッチングスコア１２６２が既定の閾値を超過する場合、キャラクター対話体が維持されると判定して、キャラクター対話体変換器１２７０は、チャットボット発話１２５２を修正しなくてよい。その後、キャラクター対話体変換器１２７０は、チャットボット発話１２７２をユーザに提供すると同時に、プロンプトに追加できる。

図１３は、本開示の一実施例により、ユーザに一貫したペルソナチャットボットサービスを制御するための方法１３００を示すフローチャートである。一実施例において、ペルソナチャットボット制御方法１３００は、プロセッサ（例えば、ユーザ端末又は情報処理システムの少なくとも一つのプロセッサ）により遂行できる。他の実施例において、情報処理システム及びユーザ端末がペルソナチャットボット制御方法１３００のステップを分けて遂行できる。

一実施例において、ペルソナチャットボット制御方法１３００は、ユーザ発話を受信することにより開始することができる（Ｓ１３１０）。その後、プロセッサは、対話主題探知器を用いてユーザ発話と関連した対話主題が決定できる（Ｓ１３２０）。対話主題を決定した後、プロセッサは、対話シーン検索モデルを用いて、決定された対話主題と関連した少なくとも一つの対話シーンが得られる（Ｓ１３３０）。ここで、少なくとも一つの対話シーンは、対話主題と関連した複数の質問及び複数の質問の各々に対応する複数のキャラクター対話体の答弁を含むことができる。

プロセッサは、ユーザ発話、キャラクター対話サンプル、対話主題、及び少なくとも一つの対話シーンを、チャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加できる（Ｓ１３４０）。ここで、指示文は、チャットボットのキャラクターに関する説明を含み、キャラクター対話サンプルは、質問及び質問に対応するキャラクター対話体の答弁を含むことができる。その後、プロセッサは、プロンプトをエンコードし（Ｓ１３５０）、エンコードしたプロンプトを言語モデル（例えば、超巨大言語モデル）に入力して、ユーザ発話に応答するチャットボット発話が生成できる（Ｓ１３６０）。

プロセッサは、生成されたチャットボット発話をキャラクターペルソナ探知器に入力して、チャットボットのキャラクター対話体が維持されるか否かがモニタリングできる（Ｓ１３７０）。ここで、キャラクター対話体は、キャラクター対話サンプル、指示文、及び対話シーン等に基づいて決定できる。例えば、キャラクターペルソナ探知器は、チャットボット発話とチャットボットのキャラクター対話体とを比較して、チャットボット発話及びキャラクター対話体間のマッチングスコアを生成し、マッチングスコアが既定の閾値以下である場合、キャラクター対話体が維持されないと判定できる。キャラクターペルソナ探知器が、当該チャットボットのキャラクター対話体が維持されないと判定する場合、プロセッサは、キャラクター対話体変換器を用いて、チャットボット発話をチャットボットのキャラクター対話体に修正できる。その後、プロセッサは、修正されたチャットボット発話をプロンプトに追加できる。

前述した方法は、コンピュータで実行するために、コンピュータブラグラムとして提供され得る。媒体は、コンピュータで実行可能なプログラムを継続的に保存したり、実行又はダウンロードのために一時保存したりするものであり得る。また、媒体は、単一又は多数のハードウェアが結合された形態の多様な記録手段又は保存手段であり得るが、あるコンピュータシステムに直接的に接続される媒体に限定されず、ネットワーク上に分散存在するものであり得る。媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭやＤＶＤのような光記録媒体、フロプティカルディスク（floptical disk）のような磁気－光媒体（magneto-optical medium）、及び、ＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令語が保存されるように構成されたものが挙げられる。また、他の媒体の例としては、アプリケーションを流通するアプリストアやその他の多様なソフトウェアを供給乃至流通するサイト、サーバーなどで管理する記録媒体乃至保存媒体も挙げられる。

本開示の方法、動作、又は技法は、多様な手段により具現できる。例えば、このような技法は、ハードウェア、ファームウェア、ソフトウェア、若しくは、これらの組合せで具現できる。本願の開示により説明された多様な例示的な論理的ブロック、モジュール、回路、及びアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、若しくは、両方の組合せで具現できることを、当業者であれば理解できるはずである。ハードウェア及びソフトウェアのこのような相互の代替を明確に説明するために、多様な例示的な構成要素、ブロック、モジュール、回路、及びステップが、それらの機能的観点から一般的に前述された。そのような機能が、ハードウェアとして具現されるか、若しくは、ソフトウェアとして具現されるかは、特定アプリケーション及び全体システムに付加される設計要求事項によって変化する。当業者は、各々の特定アプリケーションのために多様な方式により説明された機能を具現することもできるが、そのような具現は、本開示の範囲から逸脱するものと解釈してはならない。

ハードウェアの具現において、技法の遂行に利用されるプロセッシングユニットは、一つ以上のＡＳＩＣ、ＤＳＰ、デジタル信号処理デバイス（digital signal processing devices；DSPD）、プログラム可能な論理デバイス（programmable logic devices；PLD）、フィールドプログラム可能なゲートアレイ（field programmable gate arrays；FPGA）、プロセッサ、制御器、マイクロ制御器、マイクロプロセッサ、電子デバイス、本開示に説明された機能を遂行するように設計された他の電子ユニット、コンピュータ、若しくは、これらの組合せ内で具現されることもできる。

したがって、本開示により説明された多様な例示的な論理ブロック、モジュール、及び回路は、汎用プロセッサ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡや他のプログラム可能な論理デバイス、離散ゲートやトランジスタロジック、離散ハードウェアコンポーネント、若しくは、本願に説明された機能を遂行するように設計されたもの、等の任意の組合せで具現又は遂行されることもできる。汎用プロセッサは、マイクロプロセッサであり得るが、代案として、プロセッサは、任意の従来のプロセッサ、制御器、マイクロ制御器、若しくは、状態マシンであり得る。プロセッサは、また、コンピューティングデバイスの組合せ、例えば、ＤＳＰとマイクロプロセッサ、複数のマイクロプロセッサ、ＤＳＰコアと関連する一つ以上のマイクロプロセッサ、若しくは、任意の他の構成の組合せで具現されることもできる。

ファームウェア及び／又はソフトウェアの具現において、技法は、ＲＡＭ（random access memory）、ＲＯＭ（read-only memory）、ＮＶＲＡＭ（non-volatile random access memory）、ＰＲＯＭ（programmable read-only memory）、ＥＰＲＯＭ（erasable programmable read-only memory）、ＥＥＰＲＯＭ（electrically erasable PROM）、フラッシュメモリ、ＣＤ（compact disc）、磁気又は光学データストレージデバイス、などのようなコンピュータ読み取り可能な媒体上に保存された命令で具現できる。命令は、一つ以上のプロセッサによって実行可能であってよく、プロセッサが本開示に説明された機能の特定様態を遂行するようにできる。

ソフトウェアで具現される場合、前記技法は、一つ以上の命令又はコードとしてコンピュータ読み取り可能な媒体上に保存されたり、コンピュータ読み取り可能な媒体を介して転送されたりできる。コンピュータ読み取り可能な媒体は、ある場所から他の場所にコンピュータプログラムの転送を容易にする任意の媒体を含み、コンピュータ保存媒体及び通信媒体の両方を含む。保存媒体は、コンピュータによってアクセスできる任意の利用可能な媒体であり得る。非制限的な例として、このようなコンピュータ読み取り可能な媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ－ＲＯＭや他の光学ディスクストレージ、磁気ディスクストレージや他の磁気ストレージデバイス、若しくは、所望のプログラムコードを命令又はデータ構造の形態に移送又は保存するために使用されることができ、コンピュータによってアクセスできる任意の他の媒体を含むことができる。また、任意の接続がコンピュータ読み取り可能な媒体として適切に示すことができる。

例えば、ソフトウェアが同軸ケーブル、光繊維ケーブル、鉛線、デジタル加入者回線（ＤＳＬ）、又は、赤外線、無線、及びマイクロ波のような無線技術を用いて、ウェブサイト、サーバー、又は他の遠隔ソースから転送される場合、同軸ケーブル、光繊維ケーブル、鉛線、デジタル加入者回線、又は、赤外線、無線及びマイクロ波のような無線技術は、媒体の定義内に含まれる。本願で使用されたディスク（disk）及びディスク（disc）は、ＣＤ、レーザーディスク、光ディスク、ＤＶＤ（digital versatile disc）、フロッピーディスク、及びブルーレイ（登録商標）ディスクを含み、ここで、通常、ディスク（disk）は磁気的にデータを再生するのに対し、ディスク（disc）はレーザーを用いて光学的にデータを再生する。前記組合せ等も、コンピュータ読み取り可能な媒体等の範囲内に含まれなければならない。

ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、移動式ディスク、ＣＤ－ＲＯＭ、又は、公知の任意の異なる形態の保存媒体内に常駐することもできる。例示的な保存媒体は、プロセッサが保存媒体から情報を読み取る、或いは、保存媒体に情報を書き込むように、プロセッサに連結することができる。代案として、保存媒体は、プロセッサに統合されることもできる。プロセッサ及び保存媒体は、ＡＳＩＣ内に存在することもできる。ＡＳＩＣは、ユーザ端末内に存在することもできる。代案として、プロセッサ及び保存媒体は、ユーザ端末で個別構成要素として存在することもできる。

前述した実施例は、一つ以上の独立型コンピュータシステムで現在開示された主題の様態を活用するものとして記述されているが、本開示は、これに限定されず、ネットワークや分散コンピューティング環境のような任意のコンピューティング環境によって具現できる。さらには、本開示における主題の様態は、複数のプロセッシングチップや装置で具現されることもでき、ストレージは、複数の装置にわたって類似に影響を受けることもできる。このような装置は、ＰＣ、ネットワークサーバー、及び携帯用装置を含むこともできる。

本明細書では、本開示が一部の実施例によって説明されたが、本開示の発明が属する技術分野における当業者が理解し得る本開示から逸脱しない範囲内で、多様な変形や変更が可能である。また、そのような変形や変更は、本明細書に添付された特許請求の範囲内に属するものと理解されるべきである。

１１０ユーザ
１２０ユーザインタフェース
２１０ユーザ端末
２２０ネットワーク
２３０情報処理システム
２４０超巨大言語モデル

Claims

少なくとも一つのプロセッサにより遂行される、ペルソナチャットボット制御方法であって、
ユーザ発話を受信するステップと、
前記ユーザ発話を、チャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加するステップと
前記プロンプトをエンコードするステップと、
前記エンコードしたプロンプトを言語モデルに入力して、前記ユーザ発話に応答するチャットボット発話を生成するステップと、
前記生成されたチャットボット発話をキャラクターペルソナ探知器に入力して、前記チャットボットのキャラクター対話体が維持されるか否かをモニタリングするステップと、
を含む、方法。
前記プロンプトは、キャラクター対話サンプルをさらに含み、
前記キャラクター対話サンプルは、少なくとも一つの質問及び前記少なくとも一つの質問に対応する少なくとも一つのキャラクター対話体の答弁を含み、
前記チャットボットのキャラクター対話体は、前記プロンプトに含まれた前記キャラクター対話サンプルに基づいて決定される、
請求項１に記載の方法。
前記プロンプトは、キャラクター対話サンプルをさらに含み、
前記キャラクター対話サンプルは、少なくとも一つの質問及び前記少なくとも一つの質問に対応する少なくとも一つのキャラクター対話体の答弁を含み、
前記チャットボットのキャラクター対話体は、前記プロンプトに含まれた前記指示文及び前記キャラクター対話サンプルに基づいて決定される、
請求項１に記載の方法。
前記チャットボットのキャラクター対話体が維持されるか否かをモニタリングするステップは、
前記生成されたチャットボット発話及び前記キャラクター対話体間のマッチングスコアを生成するステップと、
前記マッチングスコアが既定の閾値以下である場合、前記チャットボットのキャラクター対話体が維持されないと判定するステップと、
を含む、請求項２又は３に記載の方法。
前記方法は、さらに、
前記キャラクターペルソナ探知器が前記チャットボットのキャラクター対話体が維持されないと判定することに応じて、キャラクター対話体変換器を用いて、前記チャットボット発話を前記チャットボットのキャラクター対話体に修正するステップ、
を含む、
請求項１に記載の方法。
前記修正されたチャットボット発話を前記プロンプトに追加するステップを含む、
請求項５に記載の方法。
前記キャラクター対話体変換器は、
キャラクター発話を一般発話に変換するように構成された第１の対話体変換器に第１のセットのキャラクター発話を入力して、第１のセットの一般発話を生成し、
前記第１のセットの一般発話及び前記第１のセットのキャラクター発話に基づき、一般発話をキャラクター発話に変換するように構成された第２の対話体変換器を学習し、
第２のセットの一般発話を前記第２の対話体変換器に入力して、第２のセットのキャラクター発話を生成し、
前記第２のセットのキャラクター発話及び前記第２のセットの一般発話に基づき、前記第１の対話体変換器を学習して生成する、
請求項５又は６に記載の方法。
前記第２の対話体変換器の学習前に、前記生成された第１のセットの一般発話内に、前記キャラクター対話体と関連した単語を含むと判定することに応じて、前記キャラクター対話体と関連した単語が一般対話体の単語に代替される、
請求項７に記載の方法。
前記キャラクター対話体と関連した単語に対して類似の意味を持つ前記一般対話体の単語は、第１のセットのキャラクター発話及び第２のセットの一般発話に基づいて学習されたＷｏｒｄ２Ｖｅｃモデルを用いて決定する、
請求項８に記載の方法。
前記キャラクター対話体変換器は、
キャラクター発話セットを前記言語モデルに入力して一般発話セットを生成し、
前記一般発話セット及び前記キャラクター発話セットに基づいて学習されて、一般発話をキャラクター発話に変換するように構成される、
請求項５乃至９の何れか一項に記載の方法。
前記方法は、さらに、
対話主題探知器を用いて、前記ユーザ発話と関連した対話主題を決定するステップと、
対話シーン検索モデルを用いて、前記決定された対話主題と関連した少なくとも一つの対話シーンを得るステップであり、前記少なくとも一つの対話シーンは、前記対話主題と関連した複数の質問及び前記複数の質問の各々に対応する複数のキャラクター対話体の答弁を含む、ステップと、
前記対話主題及び前記少なくとも一つの対話シーンを前記プロンプトに追加するステップと、
を含む、請求項１乃至１０の何れか一項に記載の方法。
前記プロンプトは、プロンプトエンコーダを用いてエンコードされ、
前記プロンプトエンコーダは、指示文エンコーダ、複数の対話主題と関連した複数の対話シーンエンコーダ、及び結合部を含む、
請求項１１に記載の方法。
少なくとも一つのプロセッサにより遂行される、ペルソナチャットボット制御方法であって、
ユーザ発話を受信するステップと、
対話主題探知器を用いて、前記ユーザ発話と関連した対話主題を決定するステップと、
対話シーン検索モデルを用いて、前記決定された対話主題と関連した少なくとも一つの対話シーンを得るステップであり、前記少なくとも一つの対話シーンは、前記対話主題と関連した複数の質問及び前記複数の質問の各々に対応する複数のキャラクター対話体の答弁を含む、ステップと、
前記ユーザ発話、前記対話主題、及び前記少なくとも一つの対話シーンをチャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加するステップと、
前記プロンプトをエンコードするステップと、
前記エンコードしたプロンプトを言語モデルに入力して、前記ユーザ発話に応答するチャットボット発話を生成するステップと、
前記生成されたチャットボット発話をキャラクターペルソナ探知器に入力して、前記チャットボットのキャラクター対話体が維持されるか否かをモニタリングするステップと、
を含む、方法。
コンピュータで実行可能な複数の命令を含むコンピュータプログラムであって、
実行されると、前記コンピュータに、請求項１乃至１３の何れか一項に記載の方法を実施させる、
コンピュータプログラム。
ペルソナチャットボット制御システムであって、
通信モジュールと、
メモリと、
前記メモリと連結され、前記メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサと、を含み、
前記少なくとも一つのプログラムは、
ユーザ発話を受信し、
前記ユーザ発話をチャットボットのキャラクターに関する説明と関連した指示文を含むプロンプトに追加し、
前記プロンプトをエンコードし、
前記エンコードしたプロンプトを言語モデルに入力して、前記ユーザ発話に応答するチャットボット発話を生成し、
前記生成されたチャットボット発話をキャラクターペルソナ探知器に入力して、前記チャットボットのキャラクター対話体が維持されるか否かをモニタリングする、
ための命令語を含む、
システム。