JP2019016181A - テキスト要約システム - Google Patents
テキスト要約システム Download PDFInfo
- Publication number
- JP2019016181A JP2019016181A JP2017133421A JP2017133421A JP2019016181A JP 2019016181 A JP2019016181 A JP 2019016181A JP 2017133421 A JP2017133421 A JP 2017133421A JP 2017133421 A JP2017133421 A JP 2017133421A JP 2019016181 A JP2019016181 A JP 2019016181A
- Authority
- JP
- Japan
- Prior art keywords
- text
- learning
- processing
- predetermined
- processing unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007781 pre-processing Methods 0.000 claims abstract description 62
- 238000012805 post-processing Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000010801 machine learning Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 description 40
- 230000008569 process Effects 0.000 description 24
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000007493 shaping process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241001122767 Theaceae Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
図1は、本発明の一実施の形態であるテキスト要約システムの構成例について概要を示した図である。本実施の形態のテキスト要約システム1は、機械学習により生成した学習モデルに基づいてニュース記事等のテキスト文章の要約を自動的に生成して出力する機能を有するサーバシステムである。
図2は、本実施の形態における事前の学習処理の流れの例について概要を示したフローチャートである。学習処理では、まず、学習用前処理部11により、ニュース記事等の学習用テキスト2を読み込み、全ての記事について形態素解析を行って品詞分解を行う(S01)。形態素解析は、例えば、ChaSen(茶筌)やMeCab(和布蕪)等の一般に入手可能なものも含む各種のプログラムやライブラリを適宜用いて行うことができる。品詞分解により分割した単語や語句の情報の保持方法については特に限定されないが、例えば、学習用テキスト2における対象の単語や語句の区切りの部分に空白を挿入する「分かち書き」により学習用テキスト2に反映させるようにしてもよい。
図3は、本実施の形態における要約作成処理の流れの例について概要を示したフローチャートである。要約作成処理では、まず、前処理部16により、ニュース記事等の要約対象テキスト3を読み込み、形態素解析を行って品詞分解を行う(S11)。この処理は、図2の学習処理におけるステップS01の処理と同様である。次に、単語等に分割された状態の要約対象テキスト3に対して、図2の学習処理におけるステップS02の処理と同様の前処理を行う(S12)。このとき、要約対象テキスト3に含まれる単語等に対して置換を行った場合、置換された単語等の内容や、文章内での出現順序、位置、桁数、単位等の情報を置換データ17として記録しておく。
図4は、本実施の形態における前処理および後処理の例について概要を示した図である。ここでは、学習用テキスト2や要約対象テキスト3に各種の数値が含まれている場合の例について示している。ニュース記事等の文章には、値も桁も異なる多くの種類の数値が含まれている場合があるが、これらの語句を全て異なる語句として取り扱うと、学習用テキスト2においてサンプルが発散して膨大な数となり、語彙データ13の件数も増えるため、学習モデル15の精度が低下するとともに学習処理の負荷も増大してしまう。
11…学習用前処理部、12…学習データ、13…語彙データ、14…学習モデル作成部、15…学習モデル、16…前処理部、17…置換データ、18…要約作成部、19…後処理部
Claims (5)
- テキスト文章から要約を作成するテキスト要約システムであって、
原文とその要約を含む複数の学習用テキストに対して、所定の前処理を行って学習データを作成する学習用前処理部と、
前記学習データに基づいて機械学習により要約に係る学習モデルを作成する学習モデル作成部と、
要約対象テキストに対して所定の前処理を行う前処理部と、
前記前処理部により前処理がなされた前記要約対象テキストに対して、前記学習モデルに基づいて要約テキストを作成する要約作成部と、
前記要約テキストに対して所定の後処理を行って出力する後処理部と、を有し、
前記学習用前処理部および前記前処理部における前記所定の前処理では、前記学習用テキストおよび前記要約対象テキストに含まれる語句に所定の加工を行い、
前記後処理部における前記所定の後処理では、前記要約テキストに対して前記前処理部により行われた前記所定の加工の内容を復元する、テキスト要約システム。 - 請求項1に記載のテキスト要約システムにおいて、
前記所定の加工は、前記学習用テキストおよび前記要約対象テキストに含まれる数値を所定の記号に置換するものであり、
前記前処理部では、前記置換の際に、前記置換の内容に係る情報を置換データとして記録し、
前記後処理部では、前記置換データの内容に基づいて、前記要約テキストにおける前記所定の記号を対応する前記数値に置換する、テキスト要約システム。 - 請求項1に記載のテキスト要約システムにおいて、
前記所定の加工は、前記学習用テキストおよび前記要約対象テキストに含まれる各語句に対して、それぞれ、当該語句の重要度を示す情報を付加するものであり、
前記後処理部では、前記要約テキストにおける前記重要度を示す情報を削除する、テキスト要約システム。 - 請求項1に記載のテキスト要約システムにおいて、
前記所定の加工は、前記学習用テキストおよび前記要約対象テキストに含まれる所定の品詞の語句を所定の文字列に置換するものであり、
前記前処理部では、前記置換の際に、前記置換の内容に係る情報を置換データとして記録し、
前記後処理部では、前記置換データの内容に基づいて、前記要約テキストにおける前記所定の文字列を対応する前記所定の品詞の語句に置換する、テキスト要約システム。 - 請求項1に記載のテキスト要約システムにおいて、
前記学習用前処理部は、前記学習用テキストにおける要約に含まれる語句のうち、所定の割合以上の語句が、前記学習用テキストにおける原文に含まれているもののみを前記学習データを作成する対象とする、テキスト要約システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017133421A JP6902945B2 (ja) | 2017-07-07 | 2017-07-07 | テキスト要約システム |
JP2021103281A JP7100747B2 (ja) | 2017-07-07 | 2021-06-22 | 学習データ生成方法および装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017133421A JP6902945B2 (ja) | 2017-07-07 | 2017-07-07 | テキスト要約システム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021103281A Division JP7100747B2 (ja) | 2017-07-07 | 2021-06-22 | 学習データ生成方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019016181A true JP2019016181A (ja) | 2019-01-31 |
JP6902945B2 JP6902945B2 (ja) | 2021-07-14 |
Family
ID=65358580
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017133421A Active JP6902945B2 (ja) | 2017-07-07 | 2017-07-07 | テキスト要約システム |
JP2021103281A Active JP7100747B2 (ja) | 2017-07-07 | 2021-06-22 | 学習データ生成方法および装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021103281A Active JP7100747B2 (ja) | 2017-07-07 | 2021-06-22 | 学習データ生成方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP6902945B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019046158A (ja) * | 2017-09-01 | 2019-03-22 | 国立研究開発法人産業技術総合研究所 | テキスト生成装置、テキスト生成方法及びテキスト生成プログラム |
CN110334334A (zh) * | 2019-06-19 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 一种摘要生成方法、装置及计算机设备 |
CN111460135A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 用于生成文本摘要的方法和装置 |
JP2020183989A (ja) * | 2019-05-03 | 2020-11-12 | 株式会社医療情報技術研究所 | スローリーディング学習システム |
CN112784585A (zh) * | 2021-02-07 | 2021-05-11 | 新华智云科技有限公司 | 金融公告的摘要提取方法与摘要提取终端 |
JP2021111056A (ja) * | 2020-01-08 | 2021-08-02 | トヨタ自動車株式会社 | エージェント装置、エージェントシステム、及びエージェントプログラム |
JP2021114166A (ja) * | 2020-01-20 | 2021-08-05 | トッパン・フォームズ株式会社 | 文書管理・閲覧システムとその注釈文生成表示方法 |
JP2021114167A (ja) * | 2020-01-20 | 2021-08-05 | トッパン・フォームズ株式会社 | 文書管理・閲覧システムとその注釈文表示方法 |
KR102520167B1 (ko) * | 2022-11-14 | 2023-04-14 | (주)액션파워 | 비-대화형 텍스트 정보를 활용하여 대화 요약을 위한 학습 데이터를 생성하는 방법 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102436549B1 (ko) * | 2022-07-20 | 2022-08-25 | (주) 유비커스 | 딥러닝을 이용한 자연어처리 기반의 faq 및 챗봇을 위한 학습데이터를 자동으로 생성하기 위한 방법 및 이를 위한 장치 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005292958A (ja) * | 2004-03-31 | 2005-10-20 | National Institute Of Information & Communication Technology | 教師データ作成装置およびプログラム、言語解析処理装置およびプログラム、ならびに要約処理装置およびプログラム |
JP2006178978A (ja) * | 2004-12-21 | 2006-07-06 | Palo Alto Research Center Inc | ユーザ関心反映型検索結果指示子使用及び作成システム及び方法 |
JP2008250887A (ja) * | 2007-03-30 | 2008-10-16 | Kyushu Institute Of Technology | 情報抽出装置、その方法及びプログラム |
JP2010237871A (ja) * | 2009-03-30 | 2010-10-21 | Nomura Research Institute Ltd | 年表自動作成システム、方法及びそのプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5388038B2 (ja) | 2009-12-28 | 2014-01-15 | 独立行政法人情報通信研究機構 | 文書要約装置、文書処理装置、及びプログラム |
JP2013167985A (ja) | 2012-02-15 | 2013-08-29 | Nomura Research Institute Ltd | 談話要約生成システムおよび談話要約生成プログラム |
US9317498B2 (en) | 2014-05-23 | 2016-04-19 | Codeq Llc | Systems and methods for generating summaries of documents |
-
2017
- 2017-07-07 JP JP2017133421A patent/JP6902945B2/ja active Active
-
2021
- 2021-06-22 JP JP2021103281A patent/JP7100747B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005292958A (ja) * | 2004-03-31 | 2005-10-20 | National Institute Of Information & Communication Technology | 教師データ作成装置およびプログラム、言語解析処理装置およびプログラム、ならびに要約処理装置およびプログラム |
JP2006178978A (ja) * | 2004-12-21 | 2006-07-06 | Palo Alto Research Center Inc | ユーザ関心反映型検索結果指示子使用及び作成システム及び方法 |
JP2008250887A (ja) * | 2007-03-30 | 2008-10-16 | Kyushu Institute Of Technology | 情報抽出装置、その方法及びプログラム |
JP2010237871A (ja) * | 2009-03-30 | 2010-10-21 | Nomura Research Institute Ltd | 年表自動作成システム、方法及びそのプログラム |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019046158A (ja) * | 2017-09-01 | 2019-03-22 | 国立研究開発法人産業技術総合研究所 | テキスト生成装置、テキスト生成方法及びテキスト生成プログラム |
JP2020183989A (ja) * | 2019-05-03 | 2020-11-12 | 株式会社医療情報技術研究所 | スローリーディング学習システム |
CN110334334A (zh) * | 2019-06-19 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 一种摘要生成方法、装置及计算机设备 |
CN110334334B (zh) * | 2019-06-19 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 一种摘要生成方法、装置及计算机设备 |
JP2021111056A (ja) * | 2020-01-08 | 2021-08-02 | トヨタ自動車株式会社 | エージェント装置、エージェントシステム、及びエージェントプログラム |
JP7276165B2 (ja) | 2020-01-08 | 2023-05-18 | トヨタ自動車株式会社 | エージェント装置、エージェントシステム、及びエージェントプログラム |
JP2021114166A (ja) * | 2020-01-20 | 2021-08-05 | トッパン・フォームズ株式会社 | 文書管理・閲覧システムとその注釈文生成表示方法 |
JP2021114167A (ja) * | 2020-01-20 | 2021-08-05 | トッパン・フォームズ株式会社 | 文書管理・閲覧システムとその注釈文表示方法 |
CN111460135A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 用于生成文本摘要的方法和装置 |
CN111460135B (zh) * | 2020-03-31 | 2023-11-07 | 北京百度网讯科技有限公司 | 用于生成文本摘要的方法和装置 |
CN112784585A (zh) * | 2021-02-07 | 2021-05-11 | 新华智云科技有限公司 | 金融公告的摘要提取方法与摘要提取终端 |
KR102520167B1 (ko) * | 2022-11-14 | 2023-04-14 | (주)액션파워 | 비-대화형 텍스트 정보를 활용하여 대화 요약을 위한 학습 데이터를 생성하는 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP7100747B2 (ja) | 2022-07-13 |
JP6902945B2 (ja) | 2021-07-14 |
JP2021180003A (ja) | 2021-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7100747B2 (ja) | 学習データ生成方法および装置 | |
US8484238B2 (en) | Automatically generating regular expressions for relaxed matching of text patterns | |
US9495358B2 (en) | Cross-language text clustering | |
EP3489837A1 (en) | Method and system for key phrase extraction and generation from text | |
US9588958B2 (en) | Cross-language text classification | |
US20070179932A1 (en) | Method for finding data, research engine and microprocessor therefor | |
US7398196B1 (en) | Method and apparatus for summarizing multiple documents using a subsumption model | |
JP7139728B2 (ja) | 分類方法、装置、及びプログラム | |
Ljubešić et al. | Corpus-based diacritic restoration for south slavic languages | |
US11227119B2 (en) | Cognitive word processing | |
JP2019121139A (ja) | 要約装置、要約方法、及び要約プログラム | |
Abdallah et al. | URL-based web page classification: With n-gram language models | |
EP1503295A1 (en) | Text generation method and text generation device | |
Pirovani et al. | Studying the adaptation of Portuguese NER for different textual genres | |
Polus et al. | Development for performance of Porter Stemmer algorithm | |
Sang | Improving part-of-speech tagging of historical text by first translating to modern text | |
Al-Badrashiny et al. | Split: Smart preprocessing (quasi) language independent tool | |
Jaf et al. | Machine‐Based Transliterate of Ottoman to Latin‐Based Script | |
Murauer et al. | Generating cross-domain text classification corpora from social media comments | |
Goweder et al. | Identifying broken plurals in unvowelised arabic tex | |
JP5500636B2 (ja) | 句テーブル生成器及びそのためのコンピュータプログラム | |
JP2006004366A (ja) | 機械翻訳システム及びそのためのコンピュータプログラム | |
JP7131130B2 (ja) | 分類方法、装置、及びプログラム | |
Rajdho et al. | Plugging Text Processing and Mining in a Cloud Computing Framework | |
US11783112B1 (en) | Framework agnostic summarization of multi-channel communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200330 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210323 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210514 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210601 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210622 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6902945 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |