JP2023053867A - 超巨大言語モデルを用いた文書要約方法及びシステム - Google Patents
超巨大言語モデルを用いた文書要約方法及びシステム Download PDFInfo
- Publication number
- JP2023053867A JP2023053867A JP2021195146A JP2021195146A JP2023053867A JP 2023053867 A JP2023053867 A JP 2023053867A JP 2021195146 A JP2021195146 A JP 2021195146A JP 2021195146 A JP2021195146 A JP 2021195146A JP 2023053867 A JP2023053867 A JP 2023053867A
- Authority
- JP
- Japan
- Prior art keywords
- sentences
- sentence
- category
- language model
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000015654 memory Effects 0.000 claims description 45
- 238000012552 review Methods 0.000 claims description 35
- 238000004891 communication Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 5
- 230000001174 ascending effect Effects 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000010365 information processing Effects 0.000 description 29
- 239000000284 extract Substances 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 238000004458 analytical method Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000012937 correction Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 7
- 230000005291 magnetic effect Effects 0.000 description 7
- 238000001914 filtration Methods 0.000 description 6
- 239000000463 material Substances 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000001172 regenerating effect Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- WABPQHHGFIMREM-UHFFFAOYSA-N lead(0) Chemical compound [Pb] WABPQHHGFIMREM-UHFFFAOYSA-N 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000012780 transparent material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90348—Query processing by searching ordered data, e.g. alpha-numerically ordered data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
120 ユーザインターフェース
210 ユーザ端末
220 ネットワーク
230 情報処理システム
240 超巨大言語モデル
Claims (17)
- 少なくとも一つのプロセッサにより遂行される、文書要約方法において、
第1の文章セットが含まれた文書を受信するステップ;
前記第1の文章セットをカテゴリ分析器に入力して、第1のカテゴリに属する第2の文章セットを抽出するステップであって、前記第2の文章セットは前記第1の文章セットのサブセットであるステップ;
前記第1のカテゴリに属する前記第2の文章セットを、第1のクラスタセットにクラスタリングするステップ;
前記第1のクラスタセットから第3の文章セットを抽出するステップであって、前記第3の文章セットは前記第2の文章セットのサブセットであるステップ;及び、
前記第3の文章セットを言語モデルに入力して、前記文書の第1のカテゴリと関連した第1の要約文章を生成するステップを含む、文書要約方法。 - 前記第1の文章セットをカテゴリ分析器に入力して、第2のカテゴリに属する第4の文章セットを抽出するステップであって、前記第4の文章セットは前記第1の文章セットのサブセットであるステップ;
前記第2のカテゴリに属する前記第4の文章セットを、第2のクラスタセットにクラスタリングするステップ;
前記第2のクラスタセットから第5の文章セットを抽出するステップであって、前記第5の文章セットは前記第4の文章セットのサブセットであるステップ;及び、
前記第5の文章セットを前記言語モデルに入力して、前記文書の第2のカテゴリと関連した第2の要約文章を生成するステップをさらに含む、請求項1に記載の文書要約方法。 - 前記第2の文章セットを第1のクラスタセットにクラスタリングするステップは、
文章の長さ、文章内の前記第1のカテゴリと関連した部分の長さ、重複形態素があるか否か、或いは、記号を含むか否かのうちで少なくとも一つに基づき、前記第2の文章セットの各々のスコアを判定するステップ;及び、
前記第2の文章セットのうちで既定の閾値以上のスコアを持つ文章を、第1のクラスタセットにクラスタリングするステップを含む、請求項1又は2に記載の文書要約方法。 - 前記第3の文章セットを抽出するステップは、前記第1のクラスタセットの各々から一つの文章ずつ抽出するステップを含む、請求項1乃至3の何れか一項に記載の文書要約方法。
- 前記第3の文章セットを抽出するステップは、
クラスタの大きさに基づき、前記第1のクラスタセットのうちで上位n個(nは2以上)のクラスタを選定するステップ;及び、
前記選定された上位n個のクラスタの各々から一つの文章ずつ抽出するステップを含む、請求項1乃至4の何れか一項に記載の文書要約方法。 - 前記第3の文章セットは、文章の長さに基づいて昇順に整列され、前記言語モデルに入力される、請求項1乃至5の何れか一項に記載の文書要約方法。
- 前記第1のカテゴリと関連した要約文章は、前記言語モデルに前記第3の文章セット及び前記第1のカテゴリと関連した要約サンプルを共に入力して生成される、請求項1乃至6の何れか一項に記載の文書要約方法。
- 前記第1のカテゴリと関連した要約文章は、前記言語モデルに前記第3の文章セット、前記第1のカテゴリと関連した要約サンプル及び前記第1のカテゴリに対する情報を入力して生成される、請求項1乃至7の何れか一項に記載の文書要約方法。
- 前記第1の要約文章及び前記第3の文章セットをファクトチェック部に入力して、前記第1の要約文章の真偽可否を検証するステップ;及び、
前記第1のカテゴリと関連した要約文章が偽であると判定されることに応じて、前記第3の文章セットを言語モデルに入力して前記第1の要約文章を再生成するステップをさらに含む、請求項1乃至8の何れか一項に記載の文書要約方法。 - 前記第1のカテゴリと関連した要約文章の真偽可否を検証するステップは、
自然言語推論(NLI)モデルを用いて、前記第3の文章セット及び前記第1の要約文章間の関係を判定するステップ;及び、
前記第3の文章セット及び前記第1の要約文章が含意の関係でないと判定されることに応じて、前記第1の要約文章を偽であると判定するステップを含む、請求項9に記載の文書要約方法。 - 前記ファクトチェック部は、前記第3の文章セットのうちで2つの文章及び前記第1の要約文章間の関係を判定する、請求項10に記載の文書要約方法。
- 前記再生成された第1の要約文章は、前記第1の要約文章と比較して、前記第3の文章セットのうちで少なくとも一つと類似するように生成される、請求項9乃至11の何れか一項に記載の文書要約方法。
- 前記再生成された第1の要約文章及び前記第3の文章セットを前記ファクトチェック部に入力して、前記再生成された第1の要約文章の真偽可否を検証するステップ;及び、
前記第1の要約文章が真であると判定されることに応じて、前記再生成された第1の要約文章を出力するステップをさらに含む、請求項12に記載の文書要約方法。 - 前記第1の要約文章が正常な文章であるか否か判定するステップ;及び、
前記第1の要約文章が正常でない文章であると判定することに応じて、前記第1の要約文章を前記言語モデルに入力して補正するステップをさらに含む、請求項1乃至13の何れか一項に記載の文書要約方法。 - 前記文書は、特定製品と関連した複数のユーザレビューを含み、
前記第1の要約文章は、前記言語モデルに前記第3の文章セット、前記第1のカテゴリと関連した要約サンプル、前記第1のカテゴリに対する情報及び前記特定製品の名称を入力して生成される、請求項1乃至14の何れか一項に記載の文書要約方法。 - 請求項1乃至15の何れか一項に係る方法をコンピュータで実行するためのコンピュータプログラム。
- 文書要約システムであって、
通信モジュール;
メモリ;及び、
前記メモリと連結され、前記メモリに含まれたコンピュータ読み取り可能な少なくとも一つのプログラムを実行するように構成された少なくとも一つのプロセッサを含み、
前記少なくとも一つのプログラムは、
第1の文章セットが含まれた文書を受信し、
前記第1の文章セットをカテゴリ分析器に入力して、第1のカテゴリに属する第2の文章セットを抽出し、ここで、前記第2の文章セットは、前記第1の文章セットのサブセットである、
前記第1のカテゴリに属する前記第2の文章セットを第1のクラスタセットにクラスタリングし、
前記第1のクラスタセットから第3の文章セットを抽出し、ここで、前記第3の文章セットは前記第2の文章セットのサブセットである、
前記第3の文章セットを言語モデルに入力して、前記文書の第1のカテゴリと関連した第1の要約文章を生成するための命令語を含む、文書要約システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2021-0131209 | 2021-10-01 | ||
KR1020210131209A KR20230047849A (ko) | 2021-10-01 | 2021-10-01 | 초대형 언어 모델을 이용한 문서 요약 방법 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7246458B1 JP7246458B1 (ja) | 2023-03-27 |
JP2023053867A true JP2023053867A (ja) | 2023-04-13 |
Family
ID=85716971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021195146A Active JP7246458B1 (ja) | 2021-10-01 | 2021-12-01 | 超巨大言語モデルを用いた文書要約方法及びシステム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7246458B1 (ja) |
KR (1) | KR20230047849A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102661438B1 (ko) | 2023-11-14 | 2024-04-29 | (주)미래융합정보기술 | 인터넷 기사 크롤링, 글로벌 가치 사슬에 영향을 주는 이슈 기사의 요약 서비스를 제공하는 웹크롤러 시스템 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005196572A (ja) * | 2004-01-08 | 2005-07-21 | Japan Science & Technology Agency | 複数文書の要約作成方法 |
JP2020126580A (ja) * | 2019-01-31 | 2020-08-20 | キヤノンメディカルシステムズ株式会社 | 医用情報処理装置及び医用情報表示システム |
CN112632228A (zh) * | 2020-12-30 | 2021-04-09 | 深圳供电局有限公司 | 一种基于文本挖掘的辅助评标方法及系统 |
CN113220964A (zh) * | 2021-04-01 | 2021-08-06 | 国家计算机网络与信息安全管理中心 | 一种基于网信领域短文本的观点挖掘方法 |
CN113392641A (zh) * | 2020-10-26 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、存储介质和设备 |
WO2021191938A1 (ja) * | 2020-03-23 | 2021-09-30 | 日本電信電話株式会社 | 要約生成装置、要約生成方法及びプログラム |
-
2021
- 2021-10-01 KR KR1020210131209A patent/KR20230047849A/ko not_active Application Discontinuation
- 2021-12-01 JP JP2021195146A patent/JP7246458B1/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005196572A (ja) * | 2004-01-08 | 2005-07-21 | Japan Science & Technology Agency | 複数文書の要約作成方法 |
JP2020126580A (ja) * | 2019-01-31 | 2020-08-20 | キヤノンメディカルシステムズ株式会社 | 医用情報処理装置及び医用情報表示システム |
WO2021191938A1 (ja) * | 2020-03-23 | 2021-09-30 | 日本電信電話株式会社 | 要約生成装置、要約生成方法及びプログラム |
CN113392641A (zh) * | 2020-10-26 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、存储介质和设备 |
CN112632228A (zh) * | 2020-12-30 | 2021-04-09 | 深圳供电局有限公司 | 一种基于文本挖掘的辅助评标方法及系统 |
CN113220964A (zh) * | 2021-04-01 | 2021-08-06 | 国家计算机网络与信息安全管理中心 | 一种基于网信领域短文本的观点挖掘方法 |
Non-Patent Citations (1)
Title |
---|
難波英嗣: "ここまで来たテキスト自動要約", 情報処理, vol. 第43巻,第12号, JPN6009008961, 15 December 2002 (2002-12-15), JP, pages 1287 - 1294, ISSN: 0004996069 * |
Also Published As
Publication number | Publication date |
---|---|
JP7246458B1 (ja) | 2023-03-27 |
KR20230047849A (ko) | 2023-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11455465B2 (en) | Book analysis and recommendation | |
US9613268B2 (en) | Processing of images during assessment of suitability of books for conversion to audio format | |
US20180052824A1 (en) | Task identification and completion based on natural language query | |
US9875245B2 (en) | Content item recommendations based on content attribute sequence | |
US20140351207A1 (en) | Content recommendation system, content recommendation method, content recommendation device, and information storage medium | |
CN103714063B (zh) | 数据分析方法及其系统 | |
US9720974B1 (en) | Modifying user experience using query fingerprints | |
US20140164371A1 (en) | Extraction of media portions in association with correlated input | |
JP7150090B2 (ja) | ショッピング検索のための商品属性抽出方法 | |
TW201329759A (zh) | 搜尋查詢上下文 | |
US8145727B2 (en) | Network accessible media object index | |
AU2016204573A1 (en) | Common data repository for improving transactional efficiencies of user interactions with a computing device | |
Lavid Ben Lulu et al. | Functionality-based clustering using short textual description: Helping users to find apps installed on their mobile device | |
JP7246458B1 (ja) | 超巨大言語モデルを用いた文書要約方法及びシステム | |
US10163144B1 (en) | Extracting data from a catalog | |
KR20180000166A (ko) | 관심사 및 콘텐츠를 제공하는 방법 및 시스템 | |
US20150278187A1 (en) | Summary-so-far feature for electronic books | |
WO2016191912A1 (en) | Comment-centered news reader | |
TWI609280B (zh) | 在電子閱讀器環境中基於內容及物件元資料的搜尋 | |
JP7108740B2 (ja) | ショッピング検索のための商品カテゴリ抽出方法 | |
US20050177434A1 (en) | Method for marketing and organization of creative content over an online medium | |
WO2024001548A1 (zh) | 歌单生成方法、装置、电子设备及存储介质 | |
KR20210006098A (ko) | 문서 검색 품질 향상을 위한 문서 일관성 판단 방법 및 시스템 | |
US11811709B2 (en) | Method and system for recommending content using chatbot | |
WO2016147219A1 (ja) | テキスト可視化システム、テキスト可視化方法、及び、記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211201 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20211222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230221 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230314 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7246458 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |