JP2023053867A

JP2023053867A - 超巨大言語モデルを用いた文書要約方法及びシステム

Info

Publication number: JP2023053867A
Application number: JP2021195146A
Authority: JP
Inventors: デリョンソ; Dearyong Seo; ユジンチョン; Yu-Jin Jung; ジョンヒョクチェー; Jonghyeog Choi; チャンスイ; Chang Su Lee; ジュリョンチョン; Ju Ryong Cheon; ワンジンイ; Wangjin Lee; ユンヨンキム; Yung-Yong Kim; ドンヒョンジョン; Dong Hyun Jeong; インホカン; Inho Kang
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2021-10-01
Filing date: 2021-12-01
Publication date: 2023-04-13
Anticipated expiration: 2041-12-01
Also published as: JP7246458B1; KR20230047849A

Abstract

【課題】本開示は、少なくとも一つのプロセッサにより遂行される、文書要約方法に関するものである。【解決手段】文書要約方法は、第１の文章セットが含まれた文書を受信するステップ、第１の文章セットをカテゴリ分析器に入力して、第１のカテゴリに属する第２の文章セットを抽出するステップ、第１のカテゴリに属する第２の文章セットを第１のクラスタセットにクラスタリングするステップ、第１のクラスタセットから第３の文章セットを抽出するステップ、及び、第３の文章セットを言語モデルに入力して、文書の第１のカテゴリと関連した第１の要約文章を生成するステップを含み、ここで、第２の文章セットは第１の文章セットのサブセットであり、第３の文章セットは第２の文章セットのサブセットである。【選択図】図１

Description

特許法第３０条第２項適用申請有り２０２１年６月７日にＵＲＬアドレス＜ｈｔｔｐｓ：／／ｗｗｗ．ｄｄａｉｌｙ．ｃｏ．ｋｒ／ｎｅｗｓ／ａｒｔｉｃｌｅ／？ｎｏ＝２１５６３１＞のウェブサイトで「超巨大言語モデルを用いた文書要約方法及びシステム」について公開

特許法第３０条第２項適用申請有り２０２１年７月３０日にＵＲＬアドレス＜ｈｔｔｐｓ：／／ｗｗｗ．ｉｎｅｗｓ２４．ｃｏｍ／ｖｉｅｗ／１３９１１５１＞のウェブサイトで「超巨大言語モデルを用いた文書要約方法及びシステム」について公開

本開示は、超巨大言語モデルを用いた文書要約方法及びシステムに関し、具体的には、多数の文章からなる文書に対するカテゴリ別文書要約方法及びシステムに関する。

最近、モバイルやインターネットを用いた多様なサービスがユーザに提供されている。提供されたサービスに対するユーザレビューは、サービスに対する客観的な情報を含む場合が多い。そのため、ユーザは、サービスの利用を決定したり、サービスを通して製品を購入したりする場合、ユーザレビューに基づいて決定する場合が多い。しかしながら、多数のユーザが利用するサービス／製品の場合、ユーザレビューの量が膨大であり、不適切又は無意味なユーザレビューも多数含まれるという問題があり、全てのユーザレビューを確認し難いという問題がある。

これを解決するために、多数のユーザにより作成されたレビューのうちで一部を選別して提供するサービスが提供されている。しかしながら、この場合、多数のレビューのうちで一部を選択して提供するため、正書法又は分ち書きに合わない表現があっても修正なしに提供されるという問題がある。また、このような一部レビューは、一人の意見に過ぎず、全てのユーザの意見が反映出来ないという問題がある。

韓国登録特許第１０－１７８９０８８号公報

前記のような問題を解決するために、本開示の多様な実施例は、文書要約方法、コンピュータプログラム及び装置（システム）を提供する。

本開示は、方法、装置（システム）又はコンピュータプログラムを含む多様な方式により具現できる。

本開示の一実施例によれば、少なくとも一つのプロセッサにより遂行される、文書要約方法が提供される。文書要約方法は、第１の文章セットが含まれた文書を受信するステップ、第１の文章セットをカテゴリ分析器に入力して、第１のカテゴリに属する第２の文章セットを抽出するステップ、第１のカテゴリに属する第２の文章セットを、第１のクラスタセットにクラスタリングするステップ、第１のクラスタセットから第３の文章セットを抽出するステップ、及び、第３の文章セットを言語モデルに入力して、文書の第１のカテゴリと関連した第１の要約文章を生成するステップを含み、ここで、第２の文章セットは第１の文章セットのサブセットであり、第３の文章セットは第２の文章セットのサブセットである。

本開示の一実施例によれば、文書要約方法をコンピュータで実行するためのコンピュータプログラムが提供される。

本開示の一実施例によれば、文書要約システムが提供される。文書要約システムは、通信モジュール、メモリ、及び、メモリと連結され、メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサを含む。少なくとも一つのプログラムは、第１の文章セットが含まれた文書を受信し、第１の文章セットをカテゴリ分析器に入力して、第１のカテゴリに属する第２の文章セットを抽出し、第１のカテゴリに属する第２の文章セットを第１のクラスタセットにクラスタリングし、第１のクラスタセットから第３の文章セットを抽出し、第３の文章セットを言語モデルに入力して、文書の第１のカテゴリと関連した第１の要約文章を生成するための命令語を含む。ここで、第２の文章セットは第１の文章セットのサブセットであり、第３の文章セットは第２の文章セットのサブセットである。

本開示の多様な実施例によれば、多数の文章が含まれた文書を、一行要約してユーザに提供できる。

本開示の多様な実施例によれば、ユーザは、一つの主題に対して作成された文書から、特定カテゴリと関連した自然な要約文章を提供されることができる。

本開示の多様な実施例によれば、ユーザは、ショッピングモールの特定商品と関連したユーザレビューを全部読むことなく、カテゴリ別要約レビューのみを確認することで、当該商品に対するユーザらの評価を容易に確認できる。

本開示の多様な実施例によれば、要約対象の文書に含まれなければならない内容が要約文章に含まれるのを防止するために、要約文章の真偽可否を確認して要約文章を再生成することで、ユーザは信頼度の高い要約文章を提供されることができる。

本開示の効果は、これに制限されず、言及されない他の効果等は、請求の範囲の記載から本開示が属する技術分野における通常の知識を有した者（“通常の技術者”という）に明確に理解されるべきである。

本開示の一実施例により、ユーザがユーザ端末を用いて文書要約サービスを利用する例を示す図である。本開示の一実施例による文書要約サービスを提供するために、情報処理システムが複数のユーザ端末と通信可能であるように連結された構成を示す概要図である。本開示の一実施例によるユーザ端末及び情報処理システムの内部構成を示すブロック図である。本開示の一実施例による情報処理システムのプロセッサの内部構成を示す機能的なブロック図である。本開示の一実施例により、文書に対するカテゴリ別要約を生成する例を示す図である。本開示の一実施例により、超巨大言語モデルが要約サンプル及び要約対象に基づいて要約文章を生成する例を示す図である。本開示の一実施例により、要約文章を生成するために複数のクラスタから代表文章を抽出する例を示す図である。本開示の一実施例により、要約対象に含まれた代表文章等の整列によって生成される要約文章の例を示す図である。本開示の一実施例により、要約文章を生成するとき、カテゴリに対する情報をヒントとして超巨大言語モデルに共に提供する例を示す図である。本開示の一実施例により、要約文章の真偽可否を検証して要約文章を再生成する例を示す図である。本開示の一実施例により、要約文章を生成するための方法を示すフローチャートである。本開示の一実施例により、要約対象が含まれた要約文章を再生成するための方法を示すフローチャートである。

以下、本開示の実施のための具体的な内容を添付図面に基づいて詳細に説明する。ただし、以下の説明では、本開示の要旨を不要にぼやかす恐れがある場合、公知の機能や構成に関する具体的な説明は省略する。

添付図面において、同一又は対応する構成要素には同一の参照符号が付与される。また、以下の実施例の説明において、同一又は対応する構成要素の重複記述は省略され得る。しかしながら、構成要素に関する記述が省略されても、そのような構成要素が、ある実施例に含まれないものと意図してはならない。

開示の実施例の利点及び特徴、そしてそれらを達成する方法は、添付図面に基づいて後述する実施例を参照すれば明確になる。しかしながら、本開示は、以下で開示される実施例に限定されず、互いに異なる多様な形態で具現され得る。但し、本実施例は、本開示が完全になるようにし、本開示が通常の技術者に発明のカテゴリを正確に認識させるために提供されるだけである。

本開示で使用される用語について簡略に説明し、開示の実施例について具体的に説明する。本明細書で使用される用語は、本開示での機能を考慮しつつ、可能な限り現在広く使用される一般的な用語を選択したが、これは関連分野に従事する技術者の意図又は判例、新技術の出現などにより変化し得る。また、特定の場合は出願人が任意で選定した用語もあり得るが、これらの意味は当該発明の説明の部分において詳細に記載する。よって、本開示で使用される用語は、単純な用語の名称ではなく、その用語が持つ意味と本開示の全般にわたった内容に基づいて定義されるべきである。

本開示において、文脈上において明確に特定しない限り、単数の表現は複数の表現を含み、複数の表現は単数の表現を含むことができる。本開示において、ある部分がある構成要素を「含む」とすれば、これは特に反対の記載がない限り、他の構成要素を除くものではなく、他の構成要素をさらに含むこともできることを意味する。

また、明細書で使用される「モジュール」又は「部」という用語は、ソフトウェアやハードウェア構成要素を意味し、「モジュール」又は「部」はある役割を遂行する。しかしながら、「モジュール」又は「部」はソフトウェアやハードウェアに限定される意味ではない。「モジュール」又は「部」は、アドレッシング可能な保存媒体にあるように構成してもよく、一つ又はそれ以上のプロセッサを再生させるように構成してもよい。したがって、一例として、「モジュール」又は「部」は、ソフトウェア構成要素、客体指向ソフトウェア構成要素、クラス構成要素、タスク構成要素のような構成要素、並びに、プロセス、関数、属性、プロシーザー、サブルーチン、プログラムコードのセグメント、ドライバー、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ又は変数のうちで少なくとも一つを含むことができる。構成要素と「モジュール」又は「部」は、内部で提供される機能はさらに小さい数の構成要素及び「モジュール」又は「部」で結合されたり、追加的な構成要素と「モジュール」又は「部」にさらに分離されたりできる。

本開示の一実施例によれば、「モジュール」又は「部」はプロセッサ及びメモリで具現され得る。「プロセッサ」は汎用プロセッサ、中央処理装置（ＣＰＵ）、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、制御器、マイクロ制御器、状態マシンなどを含むように広く解釈されるべきである。いくつかの環境では、「プロセッサ」は特定用途向け半導体（ＡＳＩＣ）、プログラム可能なロジックデバイス（ＰＬＤ）、フィールドプログラム可能なゲートアレイ（ＦＰＧＡ）等を示すこともできる。「プロセッサ」は、例えば、ＤＳＰとマイクロプロセッサの組合せ、複数のマイクロプロセッサの組合せ、ＤＳＰコアと結合した一つ以上のマイクロプロセッサの組合せ、若しくは、任意の他のそのような構成等の組合せのような処理デバイスの組合せを示すこともできる。また、「メモリ」は電子情報を保存可能な任意の電子コンポーネントを含むように広く解釈されるべきである。「メモリ」は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＮＶＲＡＭ（Non-Volatile Random Access Memory）、ＰＲＯＭ（Programmable Read-Only Memory）、ＥＰＲＯＭ（Erasable Programmable Read-Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Reda-Only Memory）、フラッシュメモリ、磁気又は光学データ保存装置、レジスタなどのようなプロセッサ－読み取り可能な媒体の多様な類型を示すこともできる。プロセッサがメモリから情報を読み取り／読み取ったりメモリに情報を記録できる場合、メモリはプロセッサと電子通信状態にあると言われる。プロセッサに集積されたメモリはプロセッサと電子通信状態にある。

本開示において、「超巨大言語モデル(hyperscale language model)」は、ｆｅｗ－ｓｈｏｔｌｅａｒｎｉｎｇなどのような方式を用いて、ファインチューニング（fine-tuning）なしに推論が可能な言語モデルを示すことができ、既存の一般言語モデルに比べて、１０倍以上多くの媒介変数（例えば、１０００億個以上の媒介変数等）を持つことができる。例えば、超巨大言語モデルは、ハイパークローバ（HyperCLOVA）やＧＰＴ３（Generative Pretrained Transformer 3）であり得る。本開示における超巨大言語モデルは、言語モデルとして示すことができる。

本開示において、「要約サンプル」は、超巨大言語モデルに入力されて要約文章を生成するために作成された要約サンプル文章を示すことができる。一実施例によれば、要約サンプルは、文章要約サービス提供者により予め作成されて超巨大言語モデルに入力できる。例えば、要約サンプルは、製品名、複数のユーザレビュー文章及び複数のユーザレビュー文章を一つの文章として要約した要約文章などを含むことができる。

図１は、本開示の一実施例により、ユーザ１１０がユーザ端末を用いて文書要約サービスを利用する例を示す図である。図に示すように、ユーザ１１０は、ユーザ端末を用いて多様な購入者レビューをカテゴリ別に一行要約した結果１２２、１２４、１２６を提供されることができる。既存に多数のユーザにより作成されたレビューのうちで、カテゴリ別に一つの文章ずつ選別して提供するサービスが提供されたが、多数のレビューのうちで一つを選択して提供するため、正書法又は分か書きに合わない表現があっても修正なしに提供されるという問題がある。また、多数のユーザにより作成された文章のうちで一つを選別した文章は、一人の意見に過ぎず、全てのレビューの意見が反映出来ないという問題がある。このような問題を解決するために、多数のユーザが作成したレビューのうち、内容がない、或いは、役に立たない文章は除く必要があり、多数の意見を反映したカテゴリ別レビュー要約を提供する必要がある。一実施例において、文書要約サービス（例えば、特定商品のカテゴリ別レビュー要約サービス）は、超巨大言語モデルを用いて提供できる。すなわち、自ら推論して文章を作成できる超巨大言語モデルが、文書を分析して自然な要約文が生成できる。

図に示すように、ユーザ１１０は、ユーザ端末のユーザインターフェース１２０を通して特定商品と関連して既定のカテゴリ別レビュー要約１２２、１２４、１２６を提供されることができる。カテゴリは商品ごとに異なるように設定でき、図示した例において、商品と関連したカテゴリとして色相、デザイン及び性能が使用できる。例えば、ユーザ１１０は、特定製品の「色相」と関連したレビュー要約１２２、「デザイン」と関連したレビュー要約１２４及び「性能」と関連したレビュー要約１２６を提供されることができる。

図１には、ショッピングモールの特定商品と関連したユーザらのレビューに対する要約を提供するものと示したが、これに限定されるものではない。例えば、文章要約は、多数の文章からなる文書（例えば、小説、ニュース記事、論文等）に対するカテゴリ別要約を提供するために使用できる。このような構成により、ユーザらは、ショッピングモールの特定商品と関連したユーザレビューを全部読むことなく、カテゴリ別要約レビューのみを確認することで、当該商品に対するユーザらの評価を容易に確認できる。

図２は、本開示の一実施例による文書要約サービスを提供するために、情報処理システム２３０が複数のユーザ端末２１０＿１、２１０＿２、２１０＿３と通信可能であるように連結された構成を示す概要図である。情報処理システム２３０は、文書要約サービスが提供できるシステムを含むことができる。一実施例において、情報処理システム２３０は、文書要約サービスに係るコンピュータ実行可能なプログラム（例えば、ダウンロード可能なアプリケーション）や、データを保存、提供及び実行できる一つ以上のサーバー装置及び／又はデータベースや、クラウドコンピューティング（cloud computing）サービス基盤の一つ以上の分散コンピュータ装置及び／又は分散データベースを含むことができる。例えば、情報処理システム２３０は、文書要約サービスのための別途のシステム（例えば、サーバー）を含むことができる。情報処理システム２３０により提供される文書要約サービスなどは、複数のユーザ端末２１０＿１、２１０＿２、２１０＿３の各々に設置された文書要約アプリケーションやウェブブラウザーなどを通してユーザに提供できる。一実施例において、情報処理システム２３０は、超巨大言語モデル２４０を用いてユーザ端末に文書要約サービスが提供できる。

複数のユーザ端末２１０＿１、２１０＿２、２１０＿３は、ネットワーク２２０を介して情報処理システム２３０と通信できる。ネットワーク２２０は、複数のユーザ端末２１０＿１、２１０＿２、２１０＿３及び情報処理システム２３０間の通信が可能であるように構成できる。ネットワーク２２０は、設置環境に応じて、例えば、イーサネット（Ethernet）、ＰＬＣ（Power Line Communication）、電話線通信装置及びＲＳ－ｓｅｒｉａｌ通信などのような有線ネットワーク、移動通信網、ＷＬＡＮ（Wireless LAN）、Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ及びＺｉｇＢｅｅなどのような無線ネットワーク又はその組合せからなることができる。通信方式は制限されず、ネットワーク２２０を含むことができる通信網（例えば、移動通信網、有線インターネット、無線インターネット、放送網、衛星網等）を活用する通信方式だけでなく、ユーザ端末２１０＿１、２１０＿２、２１０＿３間の近距離無線通信も含まれる。

図２において、携帯電話端末２１０＿１、タブレット端末２１０＿２及びＰＣ端末２１０＿３をユーザ端末の例として示したが、これに限定されず、ユーザ端末２１０＿１、２１０＿２、２１０＿３は、有線及び／又は無線通信が可能な任意のコンピュータ装置であり得る。例えば、ユーザ端末は、スマートフォン、携帯電話、ナビゲーション、デスクトップコンピュータ、ラップトップコンピュータ、デジタル放送用端末、ＰＤＡ（Personal Digital Assistants）、ＰＭＰ（Portable Multimedia Player）、タブレットＰＣ、ゲームコンソール（game console）、ウェアラブルデバイス（wearable device）、ＩｏＴ（internet of things）デバイス、ＶＲ（virtual reality）デバイス及びＡＲ（augmented reality）デバイスなどを含むことができる。また、図２では、３つのユーザ端末２１０＿１、２１０＿２、２１０＿３がネットワーク２２０を介して情報処理システム２３０と通信するものと示したが、これに限定されず、異なる数のユーザ端末がネットワーク２２０を介して情報処理システム２３０と通信するように構成されることもできる。

一実施例において、情報処理システム２３０は、ユーザ端末２１０＿１、２１０＿２、２１０＿３から要約対象文書の全部又は一部、文書要約要請などが受信できる。情報処理システム２３０は、要約対象文書に対してカテゴリ別要約文章を生成し、要約結果をユーザ端末２１０＿１、２１０＿２、２１０＿３に提供できる。図２において、超巨大言語モデル２４０が情報処理システム２３０の外部に存在するものと示したが、これに限定されず、情報処理システム２３０の内部に超巨大言語モデル２４０が保存されて使用することもできる。また、図２では、情報処理システム２３０が、要約対象文書に対してカテゴリ別要約文章を生成して、ユーザ端末に提供するものと示したが、これに限定されず、文書要約サービスを提供するためのハードウェア／ソフトウェアがユーザ端末に具備されることもできる。

図３は、本開示の一実施例によるユーザ端末２１０及び情報処理システム２３０の内部構成を示すブロック図である。ユーザ端末２１０は、文書要約アプリケーションやウェブブラウザーなどが実行可能であり、有／無線通信が可能な任意のコンピュータ装置を示すことができ、例えば、図２の携帯電話端末２１０＿１、タブレット端末２１０＿２、ＰＣ端末２１０＿３などを含むことができる。図に示すように、ユーザ端末２１０は、メモリ３１２、プロセッサ３１４、通信モジュール３１６及び入出力インタフェース３１８を含むことができる。これと同様に、情報処理システム２３０は、メモリ３３２、プロセッサ３３４、通信モジュール３３６及び入出力インタフェース３３８を含むことができる。図３に示すように、ユーザ端末２１０及び情報処理システム２３０は、各々の通信モジュール３１６、３３６を用いて、ネットワーク２２０を介して情報及び／又はデータが通信できるように構成できる。また、入出力装置３２０は、入出力インタフェース３１８を介して、ユーザ端末２１０に情報及び／又はデータを入力したり、ユーザ端末２１０から生成された情報及び／又はデータを出力したりするように構成できる。

メモリ３１２、３３２は、非一時的な任意のコンピュータ読み取り可能な記録媒体を含むことができる。一実施例によれば、メモリ３１２、３３２は、ＲＡＭ（random access memory）、ＲＯＭ（read only memory）、ディスクドライブ、ＳＳＤ（solid state drive）及びフラッシュメモリ（flash memory）などのような永久的な大容量記憶装置（permanent mass storage device）を含むことができる。他の例として、ＲＯＭ、ＳＳＤ、フラッシュメモリ及びディスクドライブなどのような永久的な大容量保存装置は、メモリとは区分される別途の永久保存装置としてユーザ端末２１０又は情報処理システム２３０に含まれることができる。また、メモリ３１２、３３２には、運営体制と少なくとも一つのプログラムコードが保存され得る。

このようなソフトウェア構成要素は、メモリ３１２、３３２とは別途のコンピュータ読み取り可能な記録媒体からローディングできる。このような別途のコンピュータ読み取り可能な記録媒体は、このようなユーザ端末２１０及び情報処理システム２３０に直接連結可能な記録媒体を含むことのできるが、例えば、フロッピードライブ、ディスク、テープ、ＤＶＤ／ＣＤ－ＲＯＭドライブ及びメモリカードなどのようなコンピュータ読み取り可能な記録媒体を含むことができる。他の例として、ソフトウェア構成要素等は、コンピュータ読み取り可能な記録媒体でなく、通信モジュール３１６、３３６を介してメモリ３１２、３３２にローディングされることもできる。例えば、少なくとも一つのプログラムは、開発者又はアプリケーションの設置ファイルを配信するファイル配信システムが、ネットワーク２２０を介して提供するファイルにより設置されるコンピュータプログラムに基づいてメモリ３１２、３３２にローディングされることができる。

プロセッサ３１４、３３４は、基本的な算術、ロジック及び入出力演算を遂行することで、コンピュータプログラムの命令を処理するように構成できる。命令は、メモリ３１２、３３２又は通信モジュール３１６、３３６によりプロセッサ３１４、３３４に提供され得る。例えば、プロセッサ３１４、３３４は、メモリ３１２、３３２のような記録装置に保存されたプログラムコードによって受信される命令を実行するように構成できる。

通信モジュール３１６、３３６は、ネットワーク２２０を介して、ユーザ端末２１０と情報処理システム２３０とが互いに通信するための構成や機能が提供でき、ユーザ端末２１０及び／又は情報処理システム２３０が、他のユーザ端末又は他のシステム（例えば、別途のクラウドシステム等）と通信するための構成や機能が提供できる。例えば、ユーザ端末２１０のプロセッサ３１４がメモリ３１２などのような記録装置に保存されたプログラムコードによって生成した要請やデータ（例えば、文書要約要請など）は、通信モジュール３１６の制御により、ネットワーク２２０を介して情報処理システム２３０に伝達され得る。反対に、情報処理システム２３０のプロセッサ３３４の制御により提供される制御信号や命令が、通信モジュール３３６及びネットワーク２２０を経て、ユーザ端末２１０の通信モジュール３１６を介してユーザ端末２１０に受信され得る。例えば、ユーザ端末２１０は、情報処理システム２３０から、文書のカテゴリ別要約文章が受信できる。

入出力インタフェース３１８は、入出力装置３２０とのインタフェースのための手段であり得る。一例として、入力装置はオーディオセンサ及び／又はイメージセンサを含むカメラ、キーボード、マイクロホン、マウスなどのような装置を含み、出力装置はディスプレイ、スピーカ、ハプティックフィードバックデバイス（haptic feedback device）などのような装置を含むことができる。他の例として、入出力インタフェース３１８は、タッチスクリーンなどのように入力及び出力を遂行するための構成及び機能が一つで統合された装置とのインタフェースのための手段であり得る。図３では、入出力装置３２０がユーザ端末２１０に含まれないように示したが、これに限定されず、ユーザ端末２１０と一体に構成することもできる。また、情報処理システム２３０の入出力インタフェース３３８は、情報処理システム２３０と連結するか、又は、情報処理システム２３０が含むことができる入力や出力のための装置（図示せず）とのインタフェースのための手段であり得る。図３では、入出力インタフェース３１８、３３８がプロセッサ３１４、３３４と別途に構成された要素として示したが、これに限定されず、入出力インタフェース３１８、３３８がプロセッサ３１４、３３４に含まれるように構成することもできる。

ユーザ端末２１０及び情報処理システム２３０は、図３に示す構成要素よりも多くの構成要素を含むことができる。しかしながら、大部分の従来技術的構成要素を明確に示す必要はない。一実施例によれば、ユーザ端末２１０は、前述した入出力装置３２０の少なくとも一部を含むように具現できる。また、ユーザ端末２１０は、トランシーバー（transceiver）、ＧＰＳ（Global Positioning system）モジュール、カメラ、各種センサ及びデータベースなどのような他の構成要素をさらに含むことができる。例えば、ユーザ端末２１０がスマートフォンである場合、一般にスマートフォンが持つ構成要素を含むことができ、例えば、加速度センサ、ジャイロセンサ、マイクモジュール、カメラモジュール、各種物理的なボタン、タッチパネルを用いたボタン、入出力ポート及び振動のための振動器などのような多様な構成要素がユーザ端末２１０にさらに含まれるように具現できる。

図４は、本開示の一実施例による情報処理システムのプロセッサ４００の内部構成を示す機能的なブロック図である。図に示すように、プロセッサ４００は、カテゴリ分析部４１０、フィルタリング部４２０、クラスタリング部４３０、超巨大言語モデル４４０、ファクトチェック部４５０及び文章補正部４６０を含むことができる。図４では、一つのプロセッサを示したが、これに限定されず、情報処理システムは、複数のプロセッサを含んでプロセッサ４００と同一の機能を遂行するように構成できる。

一実施例によれば、カテゴリ分析部４１０は、複数の文章が含まれた文書を受信して、文章単位に分離し、特定カテゴリと関連したレビューを抽出するように構成できる。例えば、カテゴリ分析部４１０は、複数の文章が含まれた文書から第１のカテゴリに属する文章が抽出できる。これと同様に、カテゴリ分析部４１０は、複数の文章が含まれた文書から第２のカテゴリに属する文章が抽出できる。カテゴリ分析部４１０は、ＤＮＮ（Deep Neural Network）及び規則基盤のハイブリッドモデルであり得る。さらに、カテゴリ分析部４１０は、抽出した文章に対して肯定又は否定のフラグが付加できる。例えば、カテゴリ分析部４１０は、「味」カテゴリに属する「美味しかったです。」のような文章に肯定フラグが付加できる。

一実施例によれば、フィルタリング部４２０は、カテゴリ分析部４１０により抽出された文章等のスコアを判定して、短い文章又は無意味な文章をフィルタリングできる。具体的に、フィルタリング部４２０は、文章の長さ、文章内のカテゴリと関連した部分の長さ、重複形態素があるか否か、品詞又は記号を含むか否かのうちで少なくとも一つに基づいて文章の各々のスコアが判定できる。スコアは、文章に含まれた情報がどれくらい多いか判断するのに使用でき、フィルタリング部４２０は、スコアを用いて文章をフィルタリング及び整列できる。例えば、短い文章、カテゴリと関連した部分が少ない文章、無意味な表現を繰り返す文章などのような場合、フィルタリング部４２０は文章に低いスコアが付与できる。以後、フィルタリング部４２０は、既定の閾値以上のスコア（例えば、０．５５以上）を持つ文章をクラスタリング部４３０に提供できる。

一実施例によれば、クラスタリング部４３０は、一つのカテゴリに属する文章を複数のクラスタにクラスタリングできる。ここで、クラスタリングは、互いに関連した文章等（例えば、互いに類似する表現、意味を持つ文章等）同士を集めることを意味する。例えば、クラスタリング部４３０は、各文章をベクトルに変換して完全連結クラスタリング（complete linkage clustering)技法を用いてクラスタリングできる。ショッピングレビュー要約の場合、クラスタリングにより集められる文章が多いほど、当該内容が現在商品の主な内容として判断できる。

以後、クラスタリング部４３０は、クラスタを大きさに基づいて整列し、各クラスタ別に一つの文章ずつ抽出して、総ｎ個の文章が抽出できる。ｎは２以上の自然数であり、速度及び性能を考慮してｎ＝４であり得る。代案として、クラスタリング部４３０は、各クラスタから一つの文章ずつ抽出できる。クラスタリング部４３０は、全てのカテゴリに対して前述した動作を繰り返すことができる。

一実施例によれば、超巨大言語モデル４４０は、クラスタリング部４３０により抽出された各カテゴリ別代表文章等（例えば、カテゴリ別に４つの文章）を受信して、文書の各カテゴリ別要約文章が生成できる。例えば、超巨大言語モデル４４０は、第１のカテゴリと関連した４つの代表文章を受信して一つの文章に要約することで、第１のカテゴリと関連した要約文章が生成できる。これと同様に、超巨大言語モデル４４０は、第２のカテゴリと関連した４つの代表文章を受信して一つの文章に要約することで、第２のカテゴリと関連した要約文章が生成できる。

一実施例によれば、ファクトチェック部４５０は、超巨大言語モデル４４０により生成された要約文章の真偽可否を検証するように構成できる。超巨大言語モデル４４０の場合、直接推論が可能であり、膨大なデータに基づいて学習されるため、自然な文章を生成できるが、入力文章に含まれない内容を新しく作成する場合もある。すなわち、超巨大言語モデル４４０が入力文章に含まれない偽の文章を作成することもでき、関連研究によれば、超巨大言語モデル４４０は、約３０％程度の割合で偽の文章を生成し得ると知られている。したがって、超巨大言語モデル４４０が生成した文章（要約文章）が、入力された文章（カテゴリと関連した代表文章）の内容と一致する過程が必要である。

一実施例において、ファクトチェック部４５０は、自然言語推論（ＮＬＩ：Natural Language Inference）モデルを用いて入力された文章（カテゴリと関連した代表文章）と、超巨大言語モデル４４０が生成した文章（要約文章）との関係が判定できる。ここで、ＮＬＩモデルは一つの文章が他の文章と論理的に関連があるか否かを判定するためのモデルであり得、入力された文章と生成された文章との関係を中立（neutral）、含意（entailment）、矛盾（contradiction）の関係に分類して判定できる。具体的に、入力された文章と生成された文章とが含意の関係でないと判定する場合、ファクトチェック部４５０は、生成された要約文章を偽であると判定できる。例えば、ファクトチェック部４５０は、４つの代表文章のうち、任意の２つの文章と生成された要約文章との関係を判定して、一度でも含意の関係であると判定する場合、超巨大言語モデル４４０により生成された要約文章が真であると判定できる。代案として、ファクトチェック部４５０は、２つの文章の単語間の重複程度（overlap）を表現するＲＯＵＧＥスコアを判定して、生成された要約文章の真偽可否が検証できる。

超巨大言語モデル４４０により生成された要約文章が真であると判定された場合、ファクトチェック部４５０は、生成された要約文章を文章補正部４６０に提供できる。一方、超巨大言語モデル４４０により生成された要約文章が偽であると判定された場合、超巨大言語モデル４４０がｇｒｅｅｄｙオプションを用いて要約文章が再生成できる。ここで、ｇｒｅｅｄｙオプションは、超巨大言語モデル４４０が、出力文章を入力文章と類似するように作るためのオプションを示すことができる。以後、ファクトチェック部４５０は、再生成された要約文章の真偽可否を検証して真であると判定する場合、再生成された要約文章を文章補正部４６０に提供できる。

一実施例によれば、文章補正部４６０は、ファクトチェック部４５０により真であると判定された要約文章を受信して、正常な文章であるか否かを判定できる。例えば、要約文章が正書法から外れたり、悪口を含んだりする場合、正常でない文章であると判定できる。要約文章が正常でない文章と判定された場合、文章補正部４６０は、要約文章を超巨大言語モデル４４０に入力して正常な文章に補正できる。

図４に示すプロセッサ４００の内部構成は例示であるだけで、一部の実施例では、示した内部構成の以外の他の構成をさらに含んだり、一部の構成が省略されたり、一部の過程が他の構成又は外部システムにより遂行されたりできる。

図５は、本開示の一実施例により、文書に対するカテゴリ別要約を生成する例を示す図である。図に示すように、カテゴリ分析部４１０は、複数の文章が含まれた文書５１０が受信できる。例えば、文書５１０は、多数の文章からなる文書（例えば、ユーザレビュー、小説、ニュース記事、論文等）を示すことができる。以後、カテゴリ分析部４１０は、受信した文書５１０を文章単位に分離し、既定のカテゴリと関連した文章５２０＿１、５２０＿２を各々抽出できる。例えば、カテゴリ分析部４１０は、文書５１０を受信して、第１のカテゴリと関連した第１の文章セット５２０＿１と、第２のカテゴリと関連した第２の文章セット５２０＿２とを各々抽出できる。抽出された各カテゴリと関連した文章５２０＿１、５２０＿２は、各々クラスタリング部４３０に別に入力できる。

クラスタリング部４３０は、カテゴリと関連した文章５２０＿１、５２０＿２を複数のクラスタにクラスタリングし、各クラスタ別に一つの文章ずつ抽出して、総ｎ個の文章が抽出できる。クラスタは、大きさに基づいて上位ｎ個（ｎは２以上の自然数）のクラスタが選定できる。ｎは速度及び性能を考慮してｎ＝４であり得る。例えば、図に示すように、クラスタリング部４３０は、第１のカテゴリと関連した第１の文章セット５２０＿１を複数のクラスタにクラスタリングし、大きさに基づいて上位４つのクラスタから各々一つの文章ずつ抽出して、第１の文章乃至第４の文章５３０＿１、５３０＿２、５３０＿３、５３０＿４が抽出できる。これと同様に、クラスタリング部４３０は、第２のカテゴリと関連した第２の文章セット５２０＿２を複数のクラスタにクラスタリングし、大きさに基づいて上位４つのクラスタから第５の文章乃至第８の文章５３０＿５、５３０＿６、５３０＿７、５３０＿８が抽出できる。

各カテゴリ別代表文章（例：５３０＿１乃至５３０＿８）は、要約サンプル（例：５４０、５５０）と共に超巨大言語モデル４４０に入力されて、要約文章が生成できる。例えば、図に示すように、超巨大言語モデル４４０は、第１のカテゴリと関連した第１の文章乃至第４の文章５３０＿１乃至５３０＿４と、第１の要約サンプル５４０とを受信して、第１の要約文章５６０が生成できる。これと同様に、超巨大言語モデル４４０は、第２のカテゴリと関連した第５の文章乃至第８の文章５３０＿５乃至５３０＿８と、第２の要約サンプル５５０とを受信して、第２の要約文章５７０が生成できる。第１の要約文章５６０及び第２の要約文章５７０は、各々文書５１０に対する第１のカテゴリの要約文章及び第２のカテゴリの要約文章に提供できる。図５には、２つのカテゴリに対して各々一つの要約文章が出力されるものと示したが、これに限定されず、３つ以上のカテゴリに対して各々一つの要約文章を出力することができる。

図６は、本開示の一実施例により、超巨大言語モデルが、要約サンプル６１０及び要約対象６２０に基づいて要約文章６３０を生成する例を示す図である。要約文章６３０は、要約対象６２０及び要約サンプル６１０が共に超巨大言語モデルに入力されて生成できる。要約サンプル６１０は、文章要約サービス提供者により予め作成されて超巨大言語モデルに入力され得る。要約サンプル６１０は、複数のサンプル（例：６１２，６１４）を含むことができ、一つの要約サンプルは製品名、複数のユーザレビュー文章及び要約文章を含むことができる。例えば、図に示すように、第１の要約サンプル６１２及び第２の要約サンプル６１４は、製品名、４つのユーザレビュー文章及び４つのユーザレビュー文章を一つの文章に要約した文章からなることができる。一実施例において、要約サンプルは、サービス提供者によりカテゴリごとに予め作成されることができる。

要約対象６２０は、製品名６２２と、４つの上位クラスタから各々抽出された代表文章６２４とを含むことができる。また、要約対象６２０は、未作成の要約項目６２６をさらに含むことができる。要約サンプル６１０及び要約対象６２０が共に超巨大言語モデルに入力されて要約文章６３０が生成できる。例えば、図６に示すように、超巨大言語モデルは、要約対象６２０に含まれた代表文章６２４の要約文章６３０として、「コーヒー好きなら誰でも、好きな味や香りです。」を生成して出力できる。

図７は、本開示の一実施例により、要約文章７５０を生成するために、複数のクラスタ７１０、７２０、７３０、７４０から代表文章７１２、７２２、７３２、７４２を抽出する例を示す図である。プロセッサは、文書に含まれた文章らのうちで、特定カテゴリに分類された文章を複数のクラスタにクラスタリングできる。例えば、プロセッサは、特定製品に対するユーザレビューのうちで、「満足度」カテゴリと関連した文章を抽出し、当該文章を「サイズ関連満足度」７１０、「堅牢な品質に対する満足度」７２０、「透明材質に対する満足度」７３０、「価格関連満足度」７４０等のようなクラスタにクラスタリングできる。

その後、プロセッサは、クラスタの大きさに基づいて上位４つのクラスタから一つの文章ずつ抽出できる。このとき、プロセッサは、各クラスタから一つの文章を任意に抽出したり、最高のスコアを持つ文章を抽出したりできる。例えば、「サイズ関連満足度」クラスタ７１０から第１の文章７１２を抽出し、「堅牢な品質に対する満足度」クラスタ７２０から第２の文章７２２が抽出できる。これと同様に、「透明材質に対する満足度」クラスタ７３０から第３の文章７３２を抽出し、「価格関連満足度」クラスタ７４０から第４の文章７４２が抽出できる。このように抽出された文章は、当該製品に対するユーザレビューを代表する文章と見なすことができる。最終的に、プロセッサは、第１の文章乃至第４の文章７１２、７２２、７３２、７４２を超巨大言語モデルに入力して要約文章７５０が生成できる。

図８は、本開示の一実施例により、要約対象８１０、８２０に含まれた代表文章等の整列によって生成される要約文章８１２、８２２の例を示す図である。図に示すように、要約対象８１２、８２０に含まれた代表文章等の整列基準によって異なる要約文章８１２、８２２が生成できる。

第１の要約対象８１０は、複数のクラスタから抽出された代表文章等が、文章の長さに基づいて降順に整列された例示である。第１の要約対象８１０が超巨大言語モデルに入力されて、第１の要約文章８１２が生成できる。第２の要約対象８２０は、複数のクラスタから抽出された代表文章等が、文章の長さに基づいて昇順に整列された例示である。第２の要約対象８２０が超巨大言語モデルに入力されて、第２の要約文章８２２が生成できる。図に示すように、代表文章が昇順に整列された第２の要約対象８２０の方が、代表文章が降順に整列された第１の要約対象８１０よりも、多くの情報が含まれた要約文章を生成することが確認できる。これは、超巨大言語モデルが入力された複数の文章のうちで最後の文章に高い加重値を付与するからである。

図９は、本開示の一実施例により、要約文章を生成するとき、カテゴリに対する情報をヒントとして超巨大言語モデルに共に提供する例を示す図である。図に示すように、要約対象９１０は、製品名、代表文章及びカテゴリに対する情報９１２を含むことができる。この場合、超巨大言語モデルは、要約したいカテゴリと関連した要約文が生成できる。例えば、図に示すように、衣類製品に対して、カテゴリに対する情報として「素材」を製品名及び代表文章と共に超巨大言語モデルに入力する場合、「柔らかくて伸縮性のある素材だから良いです。」のような衣類製品の「素材」と関連した要約文章が生成できる。

一実施例によれば、カテゴリに対する情報９１２は、要約文に含まれるカテゴリに対する情報だけでなく、要約文に含まれないカテゴリに対する情報も含むことができる。例えば、カテゴリに対する情報９１２として、「素材、コスパ（cost performance）を除いて」を製品名及び代表文章と共に超巨大言語モデルに入力する場合、「素材」と関連したが、「コスパ」とは関連していない要約文章が生成できる。他の実施例において、カテゴリに対する情報９１２として、「星評価」を超巨大言語モデルに入力して要約文章を生成する場合、代表文章等に対する要約文章として「★★★★☆」のように星評価が生成できる。

図１０は、本開示の一実施例により、要約文章の真偽可否を検証して要約文章を再生成する例を示す図である。図に示すように、要約対象１０１０に基づいて生成された第１の要約文章１０２０が、要約対象１０１０に未記載の内容を含む偽であると判定される場合、プロセッサは、ｇｒｅｅｄｙオプションを用いて、要約対象１０３０に基づいて第２の要約文章１０３４が再生成できる。このとき、プロセッサは、ＮＬＩモデルを用いて、要約文章１０２０の真偽可否が判定できる。

一実施例によれば、プロセッサは、４つの代表文章１０１２、１０１４、１０１６、１０１８のうちで、任意の２つの文章及び第１の要約文章１０２０間の関係を判定し、一度でも含意の関係であると判定される場合、第１の要約文章１０２０が真であると判定できる。具体的に、プロセッサは、（ｉ）第１の文章１０１２と、第２の文章１０１４と、第１の要約文章１０２０との間の関係、（ｉｉ）第２の文章１０１４と、第３の文章１０１６と、第１の要約文章１０２０との間の関係、（ｉｉｉ）第３の文章１０１６と、第４の文章１０１８と、第１の要約文章１０２０との間の関係、（ｉｖ）第４の文章１０１８と、第１の文章１０１２と、第１の要約文章１０２０との間の関係、（ｖ）第１の文章１０１２と、第３の文章１０１６と、第１の要約文章１０２０との間の関係、（ｖｉ）第２の文章１０１４と、第４の文章１０１８と、第１の要約文章１０２０との間の関係が判定できる。前記６つのケースの一つでも含意の関係であると判定される場合、プロセッサは、第１の要約文章１０２０が真であると判定できる。反対に、前記６つのケースの全部が含意の関係でないと判定される場合、プロセッサは、第１の要約文章１０２０が偽であると判定できる。

図に示すように、ｇｒｅｅｄｙオプションを用いて再生成した第２の要約文章１０３４は、第１の要約文章１０２０と比較して、４つの代表文章１０１２、１０１４、１０１６、１０１８の少なくとも一つと類似するように生成され得る。具体的に、第２の要約文章１０３４は、第３の文章１０１６と類似するように生成され得、プロセッサは、第２の要約文章１０３４が真であると判定できる。このとき、プロセッサは、第２の要約文章１０３４を要約対象１０３０の要約として出力できる。一方、第２の要約文章１０３４が偽であると判定される場合、プロセッサは、第２の要約文章１０３４を出力しないことができる。

次の表１は、要約対象に含まれた代表文章の一つ及び要約文章間の関係を、ＮＬＩモデルを用いて判定した場合の信頼度を示す。

次の表２は、要約対象に含まれた代表文章のうちで、任意の２つの文章及び要約文章間の関係を、ＮＬＩモデルを用いて判定した場合の信頼度を示す。

前記表により確認できるように、要約対象に含まれた代表文章を２つずつ集めて、要約文章と比較して真偽可否を判定する場合、より高い信頼度が得られる。

図１１は、本開示の一実施例により、要約文章を生成するための方法１１００を示すフローチャートである。方法１１００は、情報処理システムの少なくとも一つのプロセッサ（又はユーザ端末の少なくとも一つのプロセッサ）により遂行できる。一実施例によれば、方法１１００は、プロセッサが第１の文章セットが含まれた文書の受信により開始することができる（Ｓ１１１０）。一実施例において、文書は特定製品と関連した複数のユーザレビューを含むことができる。他の実施例において、文書は多数の文章からなる文書（例えば、小説、ニュース記事、論文等）を含むことができる。

一実施例によれば、プロセッサは、第１の文章セットをカテゴリ分析器に入力して、第１のカテゴリに属する第２の文章セットが抽出できる（Ｓ１１２０）。ここで、第２の文章セットは第１の文章セットのサブセットであり得る。

その後、プロセッサは、第１のカテゴリに属する第２の文章セットを第１のクラスタセットにクラスタリングできる（Ｓ１１３０）。一実施例において、プロセッサは、文章の長さ、文章内の第１のカテゴリと関連した部分の長さ、重複形態素があるか否か、記号を含むか否かのうちで少なくとも一つに基づいて第２の文章セットの各々のスコアを判定し、第２の文章セットのうちで既定の閾値以上のスコアを持つ文章を第１のクラスタセットにクラスタリングできる。このような構成により、短い文章、カテゴリと関連した部分が少ない文章、無意味な表現を繰り返す文章がフィルタリングできる。

プロセッサは、第１のクラスタセットから第３の文章セットが抽出できる（Ｓ１１４０）。ここで、第３の文章セットは第２の文章セットのサブセットであり得る。例えば、プロセッサは、第１のクラスタセットの各々から一つの文章ずつ抽出できる。代案として、プロセッサは、クラスタの大きさに基づき、第１のクラスタセットのうちで上位ｎ個（ｎは２以上）のクラスタを選定し、選定された上位ｎ個のクラスタの各々から一つの文章ずつ抽出できる。速度及び性能を考慮してｎは４であり得る。

プロセッサは、第３の文章セットを言語モデルに入力して文書の第１のカテゴリと関連した第１の要約文章が生成できる（Ｓ１１５０）。ここで、第３の文章セットは、文章の長さに基づいて昇順に整列されて言語モデルに入力できる。例えば、プロセッサは、言語モデルに第３の文章セット及び第１のカテゴリと関連した要約サンプルを共に入力して、第１のカテゴリと関連した要約文章が生成できる。他の例として、プロセッサは、言語モデルに第１のカテゴリに対する情報をさらに入力して、第１のカテゴリと関連した要約文章が生成できる。

図１１に示すフローチャート及び前述した説明は、一つの例示であるだけで、一部の実施例では、一つ以上のステップが同時に遂行されたり、一つ以上のステップを数回繰り返して遂行されたりできる。例えば、プロセッサは、第１の文章セットをカテゴリ分析器に入力して、複数のカテゴリの各々に属する文章が抽出できる。具体的に、プロセッサは、第１の文章セットをカテゴリ分析器に入力して、第２のカテゴリに属する第４の文章セットが抽出できる。ここで、第４の文章セットは第１の文章セットのサブセットであり得る。その後、プロセッサは、第２のカテゴリに属する第４の文章セットを第２のクラスタセットにクラスタリングし、第２のクラスタセットから第５の文章セットが抽出できる。ここで、第５の文章セットは、第４の文章セットのサブセットであり得る。そして、プロセッサは、第５の文章セットを言語モデルに入力して、文書の第２のカテゴリと関連した第２の要約文章が生成できる。

図１２は、本開示の一実施例により、要約対象が含まれた要約文章を再生成するための方法１２００を示すフローチャートである。方法１２００は、情報処理システムの少なくとも一つのプロセッサ（又はユーザ端末の少なくとも一つのプロセッサ）により遂行できる。一実施例によれば、方法１２００は、プロセッサが要約文章の生成により開始することができる（Ｓ１２１０）。例えば、要約文章は、方法１１００により生成された第１の要約文章であり得る。

プロセッサは、第１の要約文章及び第３の文章セットをファクトチェック部に入力して、第１の要約文章の真偽可否が検証できる（Ｓ１２２０）。このとき、ファクトチェック部は、ＮＬＩモデルを用いて、第３の文章セット及び第１の要約文章間の関係が判定できる。具体的に、ファクトチェック部は、第３の文章セットのうちで２つの文章及び第１の要約文章間の関係が判定できる。ここで、第３の文章セット及び第１の要約文章が含意の関係でないと判定することに応じて、プロセッサは第１の要約文章を偽であると判定できる。

第１のカテゴリと関連した要約文章が偽であると判定された場合、プロセッサは、第３の文章セットを言語モデルに入力して、第１の要約文章が再生成できる（Ｓ１２６０）。このとき、再生成された第１の要約文章は、第１の要約文章と比較して、第３の文章セットの少なくとも一つと類似するように生成できる。例えば、プロセッサは、言語モデルのｇｒｅｅｄｙオプションを用いて要約文章が再生成できる。

その後、プロセッサは、再生成された第１の要約文章及び第３の文章セットをファクトチェック部に入力して、再生成された第１の要約文章の真偽可否が検証できる（Ｓ１２７０）。再生成された第１の要約文章が偽であると判定された場合、プロセッサは、再生成された第１の要約文章を出力しないことができる（Ｓ１２８０）。

Ｓ１２１０において最初に生成された第１の要約文章、或いは、Ｓ１２６０において再生成された第１の要約文章が真であると判定された場合、プロセッサは、第１の要約文章（又は再生成された第１の要約文章）が正常な文章であるか否かが判定できる（Ｓ１２３０）。第１の要約文章が正常でない文章であると判定された場合、プロセッサは、第１の要約文章を言語モデルに入力して補正し（１２４０)、補正された第１の要約文章が出力できる（Ｓ１２５０）。一方、第１の要約文章が正常な文章であると判定された場合、プロセッサは、最初に生成された第１の要約文章（又は再生成された第１の要約文章）が出力できる（Ｓ１２５０）。

図１２で示すフローチャート及び前述した説明は、一つの例示であるだけで、一部の実施例では、一つ以上のステップが同時に遂行されたり、一つ以上のステップを数回繰り返して遂行されたりできる。

前述した方法は、コンピュータで実行するためのコンピュータブラグラムとして提供され得る。媒体は、コンピュータで実行可能なプログラムを継続的に保存したり、実行又はダウンロードのために一時保存したりするものであり得る。また、媒体は、単一又は多数のハードウェアが結合された形態の多様な記録手段又は保存手段であり得るが、あるコンピュータシステムに直接的に接続される媒体に限定されず、ネットワーク上に分散存在するものであり得る。媒体の例としては、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭやＤＶＤのような光記録媒体、フロプティカルディスク（floptical disk）のような磁気－光媒体（magneto optical medium）、及び、ＲＯＭ、ＲＡＭ、フラッシュメモリなどを含み、プログラム命令語が保存されるように構成されたものが挙げられる。また、他の媒体の例としては、アプリケーションを流通するアプリストアやその他の多様なソフトウェアを供給乃至流通するサイト、サーバーなどで管理する記録媒体乃至保存媒体も挙げられる。

本開示の方法、動作又は技法は多様な手段により具現できる。例えば、このような技法は、ハードウェア、ファームウェア、ソフトウェア、若しくはこれらの組合せで具現できる。本願の開示により説明された多様な例示的な論理的ブロック、モジュール、回路及びアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、若しくは両方の組合せで具現できることを、通常の技術者であれば理解できるはずである。ハードウェア及びソフトウェアのこのような相互の代替を明確に説明するために、多様な例示的な構成要素、ブロック、モジュール、回路及びステップが、それらの機能的観点から一般的に前述された。そのような機能が、ハードウェアとして具現されるか、若しくは、ソフトウェアとして具現されるかは、特定アプリケーション及び全体システムに付加される設計要求事項によって変化する。通常の技術者は、各々の特定アプリケーションのために多様な方式により説明された機能を具現することもできるが、そのような具現は本開示の範囲から逸脱するものと解釈してはならない。

ハードウェアの具現において、技法の遂行に利用されるプロセッシングユニットは、一つ以上のＡＳＩＣ、ＤＳＰ、デジタル信号処理デバイス（digital signal processing devices;DSPD）、プログラム可能な論理デバイス（programmable logic devices;PLD）、フィールドプログラム可能なゲートアレイ（field programmable gate arrays;FPGA）、プロセッサ、制御器、マイクロ制御器、マイクロプロセッサ、電子デバイス、本開示に説明された機能を遂行するように設計された他の電子ユニット、コンピュータ、若しくはこれらの組合せ内で具現されることもできる。

したがって、本開示により説明された多様な例示的な論理ブロック、モジュール及び回路は、汎用プロセッサ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡや他のプログラム可能な論理デバイス、離散ゲートやトランジスタロジック、離散ハードウェアコンポーネント、若しくは、本願に説明された機能を遂行するように設計されたもの等の任意の組合せで具現又は遂行されることもできる。汎用プロセッサはマイクロプロセッサであり得るが、代案として、プロセッサは、任意の従来のプロセッサ、制御器、マイクロ制御器、若しくは状態マシンであり得る。プロセッサは、また、コンピューティングデバイスの組合せ、例えば、ＤＳＰとマイクロプロセッサ、複数のマイクロプロセッサ、ＤＳＰコアと関連する一つ以上のマイクロプロセッサ、若しくは任意の他の構成の組合せで具現されることもできる。

ファームウェア及び／又はソフトウェアの具現において、技法は、ＲＡＭ（random access memory）、ＲＯＭ（read-only memory）、ＮＶＲＡＭ（non-volatile random access memory）、ＰＲＯＭ（programmable read-only memory）、ＥＰＲＯＭ（erasable programmable read-only memory）、ＥＥＰＲＯＭ（electrically erasable PROM）、フラッシュメモリ、ＣＤ（compact disc）、磁気又は光学データストレージデバイスなどのようなコンピュータ読み取り可能な媒体上に保存された命令で具現できる。命令は、一つ以上のプロセッサによって実行可能であり得、プロセッサが本開示に説明された機能の特定様態を遂行するようにできる。

ソフトウェアで具現される場合、前記技法は、一つ以上の命令又はコードとしてコンピュータ読み取り可能な媒体上に保存されたり、コンピュータ読み取り可能な媒体を介して転送されたりできる。コンピュータ読み取り可能な媒体は、ある場所から他の場所にコンピュータプログラムの転送を容易にする任意の媒体を含み、コンピュータ保存媒体及び通信媒体の両方を含む。保存媒体は、コンピュータによってアクセスできる任意の利用可能な媒体であり得る。非制限的な例として、このようなコンピュータ読み取り可能な媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ－ＲＯＭや他の光学ディスクストレージ、磁気ディスクストレージや他の磁気ストレージデバイス、若しくは、所望のプログラムコードを命令又はデータ構造の形態に移送又は保存するために使用されることができ、コンピュータによってアクセスできる任意の他の媒体を含むことができる。また、任意の接続がコンピュータ読み取り可能な媒体として適切に示すことができる。

例えば、ソフトウェアが同軸ケーブル、光繊維ケーブル、鉛線、デジタル加入者回線（ＤＳＬ）、又は、赤外線、無線及びマイクロ波のような無線技術を用いて、ウェブサイト、サーバー又は他の遠隔ソースから転送される場合、同軸ケーブル、光繊維ケーブル、鉛線、デジタル加入者回線、又は、赤外線、無線及びマイクロ波のような無線技術は、媒体の定義内に含まれる。本願で使用されたディスク（disk）及びディスク（disc）は、ＣＤ、レーザーディスク、光ディスク、ＤＶＤ（digital versatile disc）、フロッピーディスク及びブルーレイディスクを含み、ここで、通常、ディスク（disk）は磁気的にデータを再生するのに対し、ディスク（disc）はレーザーを用いて光学的にデータを再生する。前記組合せ等も、コンピュータ読み取り可能な媒体等の範囲内に含まれなければならない。

ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、移動式ディスク、ＣＤ－ＲＯＭ、又は、公知の任意の異なる形態の保存媒体内に常駐することもできる。例示的な保存媒体は、プロセッサが保存媒体から情報を読み取る、或いは、保存媒体に情報を書き込むように、プロセッサに連結することができる。代案として、保存媒体はプロセッサに統合されることもできる。プロセッサ及び保存媒体はＡＳＩＣ内に存在することもできる。ＡＳＩＣはユーザ端末内に存在することもできる。代案として、プロセッサ及び保存媒体はユーザ端末で個別構成要素として存在することもできる。

前述した実施例が一つ以上の独立型コンピュータシステムで現在開示された主題の様態を活用するものとして記述しているが、本開示はこれに限定されず、ネットワークや分散コンピューティング環境のような任意のコンピューティング環境によって具現できる。さらには、本開示における主題の様態は複数のプロセッシングチップや装置で具現されることもでき、ストレージは複数の装置にわたって類似するように影響を受けることもできる。このような装置は、ＰＣ、ネットワークサーバー及び携帯用装置を含むこともできる。

本明細書では、本開示が一部の実施例によって説明されたが、本開示の発明が属する技術分野における通常の技術者が理解し得る本開示から逸脱しない範囲内で多様な変形や変更が可能である。また、そのような変形や変更は、本明細書に添付された特許請求の範囲内に属するものと理解されるべきである。

１１０ユーザ
１２０ユーザインターフェース
２１０ユーザ端末
２２０ネットワーク
２３０情報処理システム
２４０超巨大言語モデル

Claims

少なくとも一つのプロセッサにより遂行される、文書要約方法において、
第１の文章セットが含まれた文書を受信するステップ；
前記第１の文章セットをカテゴリ分析器に入力して、第１のカテゴリに属する第２の文章セットを抽出するステップであって、前記第２の文章セットは前記第１の文章セットのサブセットであるステップ；
前記第１のカテゴリに属する前記第２の文章セットを、第１のクラスタセットにクラスタリングするステップ；
前記第１のクラスタセットから第３の文章セットを抽出するステップであって、前記第３の文章セットは前記第２の文章セットのサブセットであるステップ；及び、
前記第３の文章セットを言語モデルに入力して、前記文書の第１のカテゴリと関連した第１の要約文章を生成するステップを含む、文書要約方法。
前記第１の文章セットをカテゴリ分析器に入力して、第２のカテゴリに属する第４の文章セットを抽出するステップであって、前記第４の文章セットは前記第１の文章セットのサブセットであるステップ；
前記第２のカテゴリに属する前記第４の文章セットを、第２のクラスタセットにクラスタリングするステップ；
前記第２のクラスタセットから第５の文章セットを抽出するステップであって、前記第５の文章セットは前記第４の文章セットのサブセットであるステップ；及び、
前記第５の文章セットを前記言語モデルに入力して、前記文書の第２のカテゴリと関連した第２の要約文章を生成するステップをさらに含む、請求項１に記載の文書要約方法。
前記第２の文章セットを第１のクラスタセットにクラスタリングするステップは、
文章の長さ、文章内の前記第１のカテゴリと関連した部分の長さ、重複形態素があるか否か、或いは、記号を含むか否かのうちで少なくとも一つに基づき、前記第２の文章セットの各々のスコアを判定するステップ；及び、
前記第２の文章セットのうちで既定の閾値以上のスコアを持つ文章を、第１のクラスタセットにクラスタリングするステップを含む、請求項１又は２に記載の文書要約方法。
前記第３の文章セットを抽出するステップは、前記第１のクラスタセットの各々から一つの文章ずつ抽出するステップを含む、請求項１乃至３の何れか一項に記載の文書要約方法。
前記第３の文章セットを抽出するステップは、
クラスタの大きさに基づき、前記第１のクラスタセットのうちで上位ｎ個（ｎは２以上）のクラスタを選定するステップ；及び、
前記選定された上位ｎ個のクラスタの各々から一つの文章ずつ抽出するステップを含む、請求項１乃至４の何れか一項に記載の文書要約方法。
前記第３の文章セットは、文章の長さに基づいて昇順に整列され、前記言語モデルに入力される、請求項１乃至５の何れか一項に記載の文書要約方法。
前記第１のカテゴリと関連した要約文章は、前記言語モデルに前記第３の文章セット及び前記第１のカテゴリと関連した要約サンプルを共に入力して生成される、請求項１乃至６の何れか一項に記載の文書要約方法。
前記第１のカテゴリと関連した要約文章は、前記言語モデルに前記第３の文章セット、前記第１のカテゴリと関連した要約サンプル及び前記第１のカテゴリに対する情報を入力して生成される、請求項１乃至７の何れか一項に記載の文書要約方法。
前記第１の要約文章及び前記第３の文章セットをファクトチェック部に入力して、前記第１の要約文章の真偽可否を検証するステップ；及び、
前記第１のカテゴリと関連した要約文章が偽であると判定されることに応じて、前記第３の文章セットを言語モデルに入力して前記第１の要約文章を再生成するステップをさらに含む、請求項１乃至８の何れか一項に記載の文書要約方法。
前記第１のカテゴリと関連した要約文章の真偽可否を検証するステップは、
自然言語推論（ＮＬＩ）モデルを用いて、前記第３の文章セット及び前記第１の要約文章間の関係を判定するステップ；及び、
前記第３の文章セット及び前記第１の要約文章が含意の関係でないと判定されることに応じて、前記第１の要約文章を偽であると判定するステップを含む、請求項９に記載の文書要約方法。
前記ファクトチェック部は、前記第３の文章セットのうちで２つの文章及び前記第１の要約文章間の関係を判定する、請求項１０に記載の文書要約方法。
前記再生成された第１の要約文章は、前記第１の要約文章と比較して、前記第３の文章セットのうちで少なくとも一つと類似するように生成される、請求項９乃至１１の何れか一項に記載の文書要約方法。
前記再生成された第１の要約文章及び前記第３の文章セットを前記ファクトチェック部に入力して、前記再生成された第１の要約文章の真偽可否を検証するステップ；及び、
前記第１の要約文章が真であると判定されることに応じて、前記再生成された第１の要約文章を出力するステップをさらに含む、請求項１２に記載の文書要約方法。
前記第１の要約文章が正常な文章であるか否か判定するステップ；及び、
前記第１の要約文章が正常でない文章であると判定することに応じて、前記第１の要約文章を前記言語モデルに入力して補正するステップをさらに含む、請求項１乃至１３の何れか一項に記載の文書要約方法。
前記文書は、特定製品と関連した複数のユーザレビューを含み、
前記第１の要約文章は、前記言語モデルに前記第３の文章セット、前記第１のカテゴリと関連した要約サンプル、前記第１のカテゴリに対する情報及び前記特定製品の名称を入力して生成される、請求項１乃至１４の何れか一項に記載の文書要約方法。
請求項１乃至１５の何れか一項に係る方法をコンピュータで実行するためのコンピュータプログラム。
文書要約システムであって、
通信モジュール；
メモリ；及び、
前記メモリと連結され、前記メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサを含み、
前記少なくとも一つのプログラムは、
第１の文章セットが含まれた文書を受信し、
前記第１の文章セットをカテゴリ分析器に入力して、第１のカテゴリに属する第２の文章セットを抽出し、ここで、前記第２の文章セットは、前記第１の文章セットのサブセットである、
前記第１のカテゴリに属する前記第２の文章セットを第１のクラスタセットにクラスタリングし、
前記第１のクラスタセットから第３の文章セットを抽出し、ここで、前記第３の文章セットは前記第２の文章セットのサブセットである、
前記第３の文章セットを言語モデルに入力して、前記文書の第１のカテゴリと関連した第１の要約文章を生成するための命令語を含む、文書要約システム。