JP7285308B1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP7285308B1 JP7285308B1 JP2021207423A JP2021207423A JP7285308B1 JP 7285308 B1 JP7285308 B1 JP 7285308B1 JP 2021207423 A JP2021207423 A JP 2021207423A JP 2021207423 A JP2021207423 A JP 2021207423A JP 7285308 B1 JP7285308 B1 JP 7285308B1
- Authority
- JP
- Japan
- Prior art keywords
- unit
- sentence
- information processing
- sentences
- generative model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
<情報処理装置100の概要>
本実施形態に係る情報処理装置100の具体的構成について説明する前に、情報処理装置100の概要について説明する。
以下では、情報処理装置100の構成について詳細に説明する。図1は、情報処理装置100を含む情報処理システムの構成を示すブロック図である。図1に示すように、情報処理装置100は、制御部101、通信部160、入力部170、出力部180、及び記憶部190を備えている。図1に示すように、情報処理装置100は、ネットワークNを介して外部のデータベース300と通信可能に接続されている。ここでネットワークNは、有線LAN(Local Area Network)、無線LAN、インターネット、公衆回線網、モバイルデータ通信網、またはこれらの組み合わせであるがこれらの例は本実施形態を限定するものではない。
制御部101は情報処理装置100の各構成要素の動作を制御する。図1に示すように、制御部101は、取得部110,学習部120,生成部130,選択部140および検索部150を備えている。取得部110は、原文と、当該原文に含まれる複数の構成要素の少なくとも何れかを削除することによって得られる要約文との組を複数含む第1の訓練データを取得する。第1の訓練データとしては、例えば、新聞記事の1行目の文章を原文とし、この原文と、当該新聞記事のタイトルに基づいて原文からいくつかの単語を削除して生成された要約文との組を用いてもよい。第1の訓練データは自動生成してもよいし、人手で生成してもよい。また、第1の訓練データは記憶部190から取得してもよいし、外部のデータベース300から取得してもよい。また、取得部110は、要約文を生成する対象である1又は複数の対象文を取得する構成としてもよい。
続いて、図2を参照して、情報処理装置100のユースケースを説明する。このユースケースでは、「xxxをyyyでzzzする方法」に関する論文を検索する。
続いて、情報処理装置100における原文テキストから要約文を生成する処理の流れについて、図3を参照して説明する。図3は、情報処理装置100による要約文生処理の流れを示すフローチャートである。
まず、ステップS101において、情報処理装置100の取得部110は、原文と、当該原文に含まれる複数の構成要素の少なくとも何れかを削除することによって得られる要約文との組を複数含む第1の訓練データを取得する。本実施形態では、要約文は自動で生成してもよいし、人手により生成し、取得部110に供給してもよい。一例として、本ステップでは特定のカテゴリに属する原文を用いる構成とすることができる。たとえば、取得部110は、原文としての新聞の記事とその要約文との組を複数含むデータを第1の訓練データとして取得する構成とすることができる。
続いて、ステップS102において、情報処理装置100の学習部120は、原文から要約文を生成する生成モデルを、上記第1の訓練データを用いて学習させる。
ステップS103では、生成部130は、学習部120によって学習された上記生成モデルを用いて、1又は複数の対象文の各々から要約文を生成する。ここで、上記対象文は、一例として、ステップS101における「原文」とは異なるカテゴリの文章が含まれ得る。例えば、ステップS101において原文として新聞記事を用いた場合、本ステップにおける対象文として、新聞の記事以外のテキスト、例えば、メール文、WEBテキスト、論文等を用いてもよい。
続いて、ステップS104において、生成部130が生成した複数の要約文から、選択部140が相対的に不自然さの小さい1又は複数の要約文を選択する。
ここで、上記「相対的に不自然さの大きい要約文」および「相対的に不自然さの小さい要約文」の例を下記に挙げる。
続いて、ステップS105において、学習部120は、選択部140が選択した要約文と、当該要約文に対応する対象文との組を複数含む第2の訓練データを用いて、上記生成モデルを再学習する。例えば、学習部120は、ステップS104で選択部140が選択した要約文とその対象文とを用いて上記生成モデルを再学習する。生成部130は、このようにして再学習した生成モデルを用いて要約文を生成してもよい。
次に、実施形態2について説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。
まず、ステップS201において、取得部110は論文等のテキストを取得する。テキストとなる論文は、記憶部190から取得してもよいし、外部のデータベース300から取得してもよし、入力部170から取得してもよい。また、本実施形態では検索対象を論文としたが、他のカテゴリの文書であってもよい。
続いて、ステップS202において、生成部130は、実施形態1で説明した生成モデルを用いて上記論文から要約文を生成する。一例として、実施形態1のステップS105にて再学習を行った生成モデルを用いて上記論文から要約文を生成する。
続いて、ステップS203において、記憶部190は、生成された要約文および要約文に対応する論文をデータベースに300登録する。
続いて、ステップS204において、取得部110は、一例として入力部170を介してユーザからクエリを取得する。クエリの例としては、例えば、「xxxをyyyでzzzする方法」に関する論文等が挙げられる。
続いて、ステップS205において、検索部150はユーザから取得したクエリに類似する要約文を記憶部190に記憶された要約文の中から検索する。当該検索には、任意のアルゴリズムを用いることができる。
続いて、ステップS206において、出力部180に、検索結果の論文を表示する。
上記のように、本実施形態では、論文を検索する際に、原文を用いて検索する替わりに、生成された要約文を用いて検索するため検索の精度を高めることができる。また、原文を用いて検索するよりも、上記のように生成された要約文を用いて検索する方が、検索の対象となるテキスト量が相対的に少なくなるため、検索に要する時間を短縮することができる。
情報処理装置100の制御ブロック(特に、取得部110、学習部120、生成部130、選択部140および検索部150)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。後者の場合、情報処理装置100は、例えば、コンピュータ(電子計算機)を用いて構成される。
図7は、情報処理装置100として用いられるコンピュータの物理的構成を例示したブロック図である。情報処理装置100は、図7に示すように、バス1010と、プロセッサ1001と、主メモリ1002と、補助メモリ1003と、通信インタフェース1004と、入出力インタフェース1005とを備えたコンピュータによって構成可能である。プロセッサ1001、主メモリ1002、補助メモリ1003、通信インタフェース1004、および入出力インタフェース1005は、バス1010を介して互いに接続されている。入出力インタフェース1005には、入力装置1006および出力装置1007が接続されている。
〔態様1〕
本発明の態様1に係る情報処理装置は、原文と、当該原文に含まれる複数の構成要素の少なくとも何れかを削除することによって得られる要約文との組を複数含む第1の訓練データを取得する取得部と、原文から要約文を生成する生成モデルを、前記第1の訓練データを用いて学習させる学習部とを備えている。
本発明の態様2に係る情報処理装置では、前記取得部は、1又は複数の対象文を取得し、当該情報処理装置は、前記学習部によって学習された前記生成モデルを用いて、前記1又は複数の対象文の各々から要約文を生成する生成部を更に備えていてもよい。
本発明の態様3に係る情報処理装置では、態様1または2において、前記生成部は、前記生成モデルが生成する要約文が、当該要約文に対応する対象文に含まれる構成要素のみを含むように、要約文を生成してもよい。
本発明の態様4に係る情報処理装置では、前記生成部が生成した複数の要約文から、相対的に不自然さの小さい1又は複数の要約文を選択する選択部を更に備えていてもよい。
本発明の態様5に係る情報処理装置では、前記学習部は、前記選択部が選択した要約文と、当該要約文に対応する対象文との組を複数含む第2の訓練データを用いて、前記生成モデルを再学習させてもよい。
本発明の態様6に係る情報処理装置では、前記再学習後の生成モデルが生成した要約文を検索対象とする検索処理を実行する検索部を更に備えていてもよい。
本発明の態様7に係る情報処理方法は、原文と、当該原文に含まれる複数の構成要素の少なくとも何れかを削除することによって得られる要約文との組を複数含む第1の訓練データを取得する取得ステップと、原文から要約文を生成する生成モデルを、前記第1の訓練データを用いて学習させる学習ステップとを含む。
101 制御部
110 取得部
120 学習部
130 生成部
140 選択部
150 検索部
160 通信部
170 入力部
180 出力部
190 記憶部
300 データベース
Claims (5)
- 原文と、当該原文に含まれる複数の構成要素の少なくとも何れかを削除することによって得られる要約文との組を複数含む第1の訓練データを取得する取得部と、
原文から要約文を生成する生成モデルを、前記第1の訓練データを用いて学習させる学習部と
前記学習部によって学習された前記生成モデルを用いて、前記取得部が取得する1又は複数の対象文の各々から要約文を生成する生成部と、
前記生成部が生成した複数の要約文から、相対的に不自然さの小さい1又は複数の要約文を選択する選択部と、を備え、
前記学習部は、前記選択部が選択した要約文と、当該要約文に対応する対象文との組を複数含む第2の訓練データを用いて、前記生成モデルを再学習させる
情報処理装置。 - 前記生成部は、前記生成モデルが生成する要約文が、当該要約文に対応する対象文に含まれる構成要素のみを含むように、要約文を生成する
請求項1に記載の情報処理装置。 - 前記再学習後の生成モデルが生成した要約文を検索対象とする検索処理を実行する検索部を更に備えている
請求項1又は2に記載の情報処理装置。 - 取得部、学習部、生成部および選択部を備える情報処理装置によって、情報処理を行う方法であって、
前記取得部が、原文と、当該原文に含まれる複数の構成要素の少なくとも何れかを削除することによって得られる要約文との組を複数含む第1の訓練データを取得する取得ステップと、
前記学習部が、原文から要約文を生成する生成モデルを、前記第1の訓練データを用いて学習させる学習ステップと、
前記生成部が、前記学習部によって学習された前記生成モデルを用いて、前記取得部が取得する1又は複数の対象文の各々から要約文を生成する生成ステップと、
前記選択部が、前記生成部が生成した複数の要約文から、相対的に不自然さの小さい1又は複数の要約文を選択する選択ステップと、を含み、
前記学習ステップにおいて、前記選択部が選択した要約文と、当該要約文に対応する対象文との組を複数含む第2の訓練データを用いて、前記生成モデルを再学習させる
情報処理方法。 - 請求項1に記載の情報処理装置としてコンピュータを機能させるためのプログラムであって、上記取得部、上記学習部、上記生成部および上記選択部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021207423A JP7285308B1 (ja) | 2021-12-21 | 2021-12-21 | 情報処理装置、情報処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021207423A JP7285308B1 (ja) | 2021-12-21 | 2021-12-21 | 情報処理装置、情報処理方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7285308B1 true JP7285308B1 (ja) | 2023-06-01 |
JP2023092278A JP2023092278A (ja) | 2023-07-03 |
Family
ID=86538361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021207423A Active JP7285308B1 (ja) | 2021-12-21 | 2021-12-21 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7285308B1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010056682A (ja) | 2008-08-26 | 2010-03-11 | National Institute Of Information & Communication Technology | 電子メール受信装置及び電子メール受信方法、電子メール送信装置及び電子メール送信方法、メール送信サーバ |
JP2017111190A (ja) | 2015-12-14 | 2017-06-22 | 株式会社日立製作所 | 対話テキスト要約装置及び方法 |
JP2020035272A (ja) | 2018-08-31 | 2020-03-05 | 株式会社日立ソリューションズ東日本 | 要約生成装置および要約生成方法 |
-
2021
- 2021-12-21 JP JP2021207423A patent/JP7285308B1/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010056682A (ja) | 2008-08-26 | 2010-03-11 | National Institute Of Information & Communication Technology | 電子メール受信装置及び電子メール受信方法、電子メール送信装置及び電子メール送信方法、メール送信サーバ |
JP2017111190A (ja) | 2015-12-14 | 2017-06-22 | 株式会社日立製作所 | 対話テキスト要約装置及び方法 |
JP2020035272A (ja) | 2018-08-31 | 2020-03-05 | 株式会社日立ソリューションズ東日本 | 要約生成装置および要約生成方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2023092278A (ja) | 2023-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804495B (zh) | 一种基于增强语义的自动文本摘要方法 | |
US11900056B2 (en) | Stylistic text rewriting for a target author | |
US11468239B2 (en) | Joint intent and entity recognition using transformer models | |
CN112464641A (zh) | 基于bert的机器阅读理解方法、装置、设备及存储介质 | |
US11636341B2 (en) | Processing sequential interaction data | |
JP7211045B2 (ja) | 要約文生成方法、要約文生成プログラム及び要約文生成装置 | |
CN110688857B (zh) | 一种文章生成的方法和装置 | |
CN110059163B (zh) | 生成模板的方法和装置、电子设备、计算机可读介质 | |
WO2009026850A1 (en) | Domain dictionary creation | |
JP7343566B2 (ja) | 言語モデルを利用したデータ生成方法、コンピュータ装置、およびコンピュータプログラム | |
CN111144093A (zh) | 一种智能文本处理方法、装置、电子设备及存储介质 | |
EP4222646A1 (en) | Dynamic cache management in beam search | |
JP2023501010A (ja) | TextRankに基づくアプリケーション選好テキストの分類方法 | |
CN113535912B (zh) | 基于图卷积网络和注意力机制的文本关联方法及相关设备 | |
CN112417155B (zh) | 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质 | |
JP6095487B2 (ja) | 質問応答装置、及び質問応答方法 | |
CN112527967A (zh) | 文本匹配方法、装置、终端和存储介质 | |
JP7285308B1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN112559725A (zh) | 文本匹配方法、装置、终端和存储介质 | |
CN110705310B (zh) | 一种文章生成的方法和装置 | |
WO2023132029A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US9195940B2 (en) | Jabba-type override for correcting or improving output of a model | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
JP7135730B2 (ja) | 要約生成方法及び要約生成プログラム | |
JP2019079087A (ja) | 学習装置、プログラムパラメータおよび学習方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221101 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20221101 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230522 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7285308 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |