JP2020181387A - 文書要約装置、文書要約システム、文書要約方法及びプログラム - Google Patents
文書要約装置、文書要約システム、文書要約方法及びプログラム Download PDFInfo
- Publication number
- JP2020181387A JP2020181387A JP2019084294A JP2019084294A JP2020181387A JP 2020181387 A JP2020181387 A JP 2020181387A JP 2019084294 A JP2019084294 A JP 2019084294A JP 2019084294 A JP2019084294 A JP 2019084294A JP 2020181387 A JP2020181387 A JP 2020181387A
- Authority
- JP
- Japan
- Prior art keywords
- document
- unit
- input
- misunderstanding
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 22
- 230000000877 morphologic effect Effects 0.000 claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 34
- 239000000284 extract Substances 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- 230000008520 organization Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 2
- 239000002344 surface layer Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
以下、実施形態1に係る文書要約システム1について図1を参照して説明する。図1は、文書要約システム1の構成を示すブロック図である。
文書要約システム1は、入力された文書から要約文を生成するシステムである。図1に示すように、文書要約システム1は、文書要約装置10、表示装置20、記事サーバ30、及びデータサーバ40を備えている。なお、記事サーバ30とデータサーバ40とは、別体のサーバとして実現されてもよいし、一体のサーバとして実現されていてもよい。以下の説明では、記事サーバ30とデータサーバ40とが、別体のサーバとして実現された構成を例に挙げて説明する。
図1に示すように、文書要約装置10は、通信部11、制御部12、及び記憶部13を備えている。文書要約装置10は、入力された文章の要約文を生成するものである。より具体的には、文書要約装置10は、通信部11を介してデータサーバ40から後述する入力文書を取得し、取得した入力文書に基づき要約文を生成する。文書要約装置10は生成した要約文をデータサーバ40に出力する。ここで、本実施形態に係る文書要約装置10は、要約文としてN語要約を生成する。Nは2以上の自然数であり、好ましくはNは2以上4以下の自然数である。
表示装置20は、データサーバ40から取得した記事情報及び要約文を、ユーザに対して出力するためのものである。表示装置20としては、例えば、携帯端末等が挙げられる。
記事サーバ30は、データサーバ40に対して記事情報を提供するサーバである。ここで、記事情報とは、データサーバ40において読み上げる文書であり、タイトル、見出し及び本文等の記事の文、記事のカテゴリ、並びに記事のキーワードなどが格納されている。また提供される記事情報としては、例えば、ニュース記事、商品及びサービスの紹介記事、時事ネタ、便利ネタ等の文書が挙げられる。
データサーバ40は、記事サーバ30から定期的に記事情報を取得する。データサーバ40は、取得した記事情報を入力文書として文書要約装置10へ出力する。また、データサーバ40は、文書要約装置10において提供した入力文書に基づいて生成した要約文を取得する。また、データサーバ40は、記事サーバ30から取得した記事情報及び文書要約装置10から取得した要約文を表示装置20へ出力する。ここで、データサーバ40としては、例えば、ニュースサイト、通販サイト、企業サイト、レシピ/トリビアサイト、掲示板等が挙げられる。
次に、実施形態1に係る制御部12について図2を参照して説明する。図2は、制御部12の構成を示すブロック図である。
次に、文書要約システム1の文章要約処理の動作を、図6を参照しながら説明する。図6は、文書要約システム1の動作を示したフローチャートである。
データサーバ40が、記事サーバ30から記事情報を取得する。
データサーバ40は、記事サーバ30から取得した記事情報を入力文書として文書要約装置10に出力する。換言すれば、制御部12の入出力部121は、通信部11を介してデータサーバ40から入力文書を取得する。
抽出部122は、入出力部121から入力文書を取得する。抽出部122は、取得した入力文書から入力文書の1又は複数の重要語及び1又は複数の重要語に関連する1又は複数の関連語を抽出する。抽出部122は、抽出した1又は複数の重要語及び1又は複数の関連語を出力情報生成部127に出力する。
形態素解析部124は、入出力部121から入力文書を取得する。形態素解析部124は、取得した入力文書を形態素解析し、入力文書の形態素リストを生成する。形態素解析部124は、生成した形態素リストを判定部126に出力する。
判定部126は、データベース125からデータベース125に格納されている判定パターンを取得する。
判定部126は、形態素解析部124から取得した形態素リストとデータベース125から取得した判定パターンとの一致判定を実行し、誤解リスクスコア(判定スコア)を算出する。
判定部126は、算出した判定スコアが予め設定していた所定の閾値以上であるか否かを判定する。
判定部126が、ステップS107においてYESと判定し、判定スコアが予め設定していた所定の閾値以上である場合、トピック解析部123は、入出力部121から取得した入力文書のトピック解析を実行し、入力文書のトピック語を生成する。トピック解析部123は、生成したトピック語を出力情報生成部127に出力する。
出力情報生成部127は、抽出部122から取得した1又は複数の重要語と、トピック解析部123から取得したトピック語を要約文として生成する。出力情報生成部127は、生成した要約文を入出力部121に出力する。
判定部126が、ステップS107においてNOと判定し、判定スコアが予め設定していた所定の閾値より小さい場合、出力情報生成部127は、抽出部122から取得した1又は複数の重要語と1又は複数の関連語とを要約文として生成する。出力情報生成部127は、生成した要約文を入出力部121に出力する。
入出力部121は、取得した要約文を通信部11を介してデータサーバ40に出力する。
データサーバ40は、取得した要約文を表示装置20(端末)に出力する。
表示装置20は、取得した要約文をユーザに対して出力する。
実施形態2に係る文書要約システムについて図7を参照して説明する。図7は、実施形態2に係る文書要約システムの制御部22の構成を示すブロック図である。本実施形態に係る制御部22は、実施形態1に係る制御部12よりトピック解析部123を除外した構成である。ここで、入出力部221、抽出部222、トピック解析部223、形態素解析部224、データベース225、判定部226、及び出力情報生成部227は、それぞれ入出力部121、抽出部122、形態素解析部124、データベース125、判定部126、及び出力情報生成部127に対応する構成である。以下の説明では、実施形態1に係る制御部12と異なる点について説明する。
次に、文書要約システム1の文章要約処理の動作を、図8を参照しながら説明する。図
は、文書要約システム1の動作を示したフローチャートである。
データサーバ40が、記事サーバ30から記事情報を取得する。
データサーバ40は、記事サーバ30から取得した記事情報を入力文書として文書要約装置10に出力する。換言すれば、制御部22の入出力部221は、通信部11を介してデータサーバ40から入力文書を取得する。
抽出部222は、入出力部221から入力文書を取得する。抽出部222は、取得した入力文書から入力文書の1又は複数の重要語及び1又は複数の重要語に関連する1又は複数の関連語を抽出する。抽出部222は、抽出した1又は複数の重要語及び1又は複数の関連語を出力情報生成部227に出力する。
形態素解析部224は、入出力部221から入力文書を取得する。形態素解析部224は、取得した入力文書を形態素解析し、入力文書の形態素リストを生成する。形態素解析部224は、生成した形態素リストを判定部226に出力する。
判定部226は、データベース225からデータベース225に格納されている判定パターンを取得する。
判定部226は、形態素解析部224から取得した形態素リストとデータベース225から取得した判定パターンとの一致判定を実行し、誤解リスクスコア(判定スコア)を算出する。
判定部226は、算出した判定スコアが予め設定していた所定の閾値以上であるか否かを判定する。
判定部226が、ステップS207においてYESと判定し、判定スコアが予め設定していた所定の閾値以上である場合、出力情報生成部227は、入力文書から要約文を生成することは不可能であるとして「要約なし」の情報を生成する。
判定部226が、ステップS207においてNOと判定し、判定スコアが予め設定していた所定の閾値より小さい場合、出力情報生成部227は、抽出部222から取得した1又は複数の重要語と関連語とを要約文として生成する。出力情報生成部227は、生成した要約文を入出力部221に出力する。
入出力部221は、取得した要約文又は取得した「要約なし」の情報を通信部11を介してデータサーバ40に出力する。
データサーバ40は、取得した要約文を表示装置20(端末)に出力する。
表示装置20は、取得した要約文をユーザに対して出力する。
上記各実施形態では、文書要約装置10とデータサーバ40とをそれぞれ個別のサーバにて実現される例について説明したが、文書要約装置10をデータサーバ40と同じサーバ上に実装する構成であってもよい。また、文書要約装置10の一部又は全ての構成を表示装置20に実装する構成であってもよい。
文書要約装置10およびデータサーバ40の各ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。後者の場合、文書要約装置10およびデータサーバ40のそれぞれを、図9に示すようなコンピュータ(電子計算機)を用いて構成することができる。
本発明の態様1に係る文書要約装置10は、入力文書を取得する文書取得部121と、前記文書取得部121が取得した入力文書から、1又は複数の重要語及び当該1又は複数の重要語に関連する1又は複数の関連語を抽出する抽出部122と、前記入力文書を形態素解析して得られる形態素リストを参照して、前記1又は複数の重要語と前記1又は複数の関連語とによる要約文に対する誤解リスクを判定する判定部126と、前記判定部126が、誤解リスクが所定の値以上であると判定した場合に判定結果に応じた情報を生成し、生成した情報を出力する出力情報生成部127とを備えている。
の少なくとも何れかが含まれている。
10 文書要約装置
20 表示装置
201 表示部
121、221 入出力部(文書取得部)
122、222 抽出部
126、226 判定部
127、227 出力情報生成部
Claims (10)
- 入力文書を取得する文書取得部と、
前記文書取得部が取得した入力文書から、1又は複数の重要語及び当該1又は複数の重要語に関連する1又は複数の関連語を抽出する抽出部と、
前記入力文書を形態素解析して得られる形態素リストを参照して、前記1又は複数の重要語と前記1又は複数の関連語とによる要約文に対する誤解リスクを判定する判定部と、
前記判定部が、誤解リスクが所定の値以上であると判定した場合に、判定結果に応じた情報を生成し、生成した情報を出力する出力情報生成部と
を備えていることを特徴とする文書要約装置。 - 前記出力情報生成部は、前記判定部が、誤解リスクが所定の値以上であると判定した場合に、前記入力文書をトピック解析して得られたトピック語と前記1又は複数の重要語とを用いて要約文を生成し、生成した要約文を出力することを特徴とする請求項1に記載の文書要約装置。
- 前記出力情報生成部は、前記判定部が、誤解リスクが所定の値以上であると判定した場合に、前記入力文書から要約文を生成することは不可能である旨の情報を出力することを特徴とする請求項1に記載の文書要約装置。
- 前記判定部は、誤解リスクスコアが設定された複数のカテゴリの各々について、当該カテゴリに前記入力文書が該当するか否かを判定する判定処理を実行し、該当すると判定したカテゴリの誤解リスクスコアの総計を用いて、前記誤解リスクを判定する
ことを特徴とする請求項1から3の何れか1項に記載の文書要約装置。 - 前記複数のカテゴリの各々は、複数のパターンを含んでおり、前記誤解リスクスコアはパターン毎に設定されており、
前記判定部は、前記判定処理を前記パターン毎に実行する
ことを特徴とする請求項4に記載の文書要約装置。 - 前記複数のカテゴリには、
否定的表現を含む文書のカテゴリ、
未遂的表現を含む文書のカテゴリ、及び
未来的表現を含む文書のカテゴリ
の少なくとも何れかが含まれている
ことを特徴とする請求項4又は5に記載の文書要約装置。 - 前記複数のカテゴリには、
同じ種類の固有名詞を複数含む文書のカテゴリ、及び、
ある人物と、他の人物とを含む文書のカテゴリ
の少なくとも何れかが含まれている
ことを特徴とする請求項4から6の何れか1項に記載の文書要約装置。 - 請求項1から7の何れか1項に記載の文書要約装置と表示装置とを含む文書要約システムであって、
前記表示装置は、
前記出力情報生成部が生成した情報を表示する表示部を備えている
ことを特徴とする文書要約システム。 - 入力文書を取得する文書取得ステップと、
前記文書取得ステップが取得した入力文書から、1又は複数の重要語及び当該1又は複数の重要語に関連する1又は複数の関連語を抽出する抽出ステップと、
前記入力文書を形態素解析して得られる形態素リストを参照して、前記1又は複数の重要語と前記1又は複数の関連語とによる要約文に対する誤解リスクを判定する判定ステップと、
前記判定ステップにおいて、誤解リスクが所定の値以上であると判定した場合に、判定結果に応じた情報を生成し、生成した情報を出力する出力情報生成ステップと
を備えていることを特徴とする文書要約方法。 - 請求項1から7の何れか1項に記載の文書要約装置としてコンピュータを機能させるためのプログラムであって、上記文書取得部、上記抽出部、上記判定部および上記出力情報生成部としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019084294A JP2020181387A (ja) | 2019-04-25 | 2019-04-25 | 文書要約装置、文書要約システム、文書要約方法及びプログラム |
US16/833,300 US20200342019A1 (en) | 2019-04-25 | 2020-03-27 | Document summarizing apparatus, document summarizing system, method of document summarization, and storing medium |
CN202010239304.9A CN111858910A (zh) | 2019-04-25 | 2020-03-30 | 文档概述装置、文档概述系统、文档概述方法及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019084294A JP2020181387A (ja) | 2019-04-25 | 2019-04-25 | 文書要約装置、文書要約システム、文書要約方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020181387A true JP2020181387A (ja) | 2020-11-05 |
Family
ID=72921692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019084294A Pending JP2020181387A (ja) | 2019-04-25 | 2019-04-25 | 文書要約装置、文書要約システム、文書要約方法及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200342019A1 (ja) |
JP (1) | JP2020181387A (ja) |
CN (1) | CN111858910A (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022098219A (ja) * | 2020-12-21 | 2022-07-01 | 富士通株式会社 | 学習プログラム、学習方法、および学習装置 |
US20220237373A1 (en) * | 2021-01-28 | 2022-07-28 | Accenture Global Solutions Limited | Automated categorization and summarization of documents using machine learning |
US11947916B1 (en) * | 2021-08-19 | 2024-04-02 | Wells Fargo Bank, N.A. | Dynamic topic definition generator |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080091634A1 (en) * | 2006-10-15 | 2008-04-17 | Lisa Seeman | Content enhancement system and method and applications thereof |
US20140172417A1 (en) * | 2012-12-16 | 2014-06-19 | Cloud 9, Llc | Vital text analytics system for the enhancement of requirements engineering documents and other documents |
JP2015170224A (ja) * | 2014-03-07 | 2015-09-28 | 日本電信電話株式会社 | 文書要約装置、方法、及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644269B (zh) * | 2017-09-11 | 2020-05-22 | 国网江西省电力公司南昌供电分公司 | 一种支持风险评估的电力舆情预测方法及装置 |
CN109636091B (zh) * | 2018-10-26 | 2023-06-06 | 创新先进技术有限公司 | 一种需求文档风险识别方法及装置 |
-
2019
- 2019-04-25 JP JP2019084294A patent/JP2020181387A/ja active Pending
-
2020
- 2020-03-27 US US16/833,300 patent/US20200342019A1/en not_active Abandoned
- 2020-03-30 CN CN202010239304.9A patent/CN111858910A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080091634A1 (en) * | 2006-10-15 | 2008-04-17 | Lisa Seeman | Content enhancement system and method and applications thereof |
US20140172417A1 (en) * | 2012-12-16 | 2014-06-19 | Cloud 9, Llc | Vital text analytics system for the enhancement of requirements engineering documents and other documents |
JP2015170224A (ja) * | 2014-03-07 | 2015-09-28 | 日本電信電話株式会社 | 文書要約装置、方法、及びプログラム |
Non-Patent Citations (1)
Title |
---|
稲垣 博人: "情報流通向けテキストコンテンツ要約手法について", 情報処理学会研究報告 VOL.98 NO.107, vol. 第98巻, JPN6012013844, 27 November 1998 (1998-11-27), JP, pages 17 - 24, ISSN: 0005026716 * |
Also Published As
Publication number | Publication date |
---|---|
US20200342019A1 (en) | 2020-10-29 |
CN111858910A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chauhan et al. | A comprehensive analysis of adverb types for mining user sentiments on amazon product reviews | |
US9152625B2 (en) | Microblog summarization | |
US20130018824A1 (en) | Sentiment classifiers based on feature extraction | |
JP4940399B2 (ja) | 広告配信装置およびプログラム | |
WO2017107805A1 (zh) | 确定商品对象标题文本的方法及装置 | |
US20110295650A1 (en) | Analyzing merchandise information for messiness | |
JP2020181387A (ja) | 文書要約装置、文書要約システム、文書要約方法及びプログラム | |
Hirst et al. | Changes in style in authors with Alzheimer's disease | |
JP2010537286A (ja) | 領域辞書の作成 | |
Coppersmith et al. | Dynamic wordclouds and vennclouds for exploratory data analysis | |
JP2014153744A (ja) | 情報検索装置及び情報検索プログラム | |
WO2016178337A1 (ja) | 情報処理装置、情報処理方法及びコンピュータプログラム | |
JP2004192398A (ja) | 情報処理装置および情報処理方法、並びに情報処理プログラム | |
JP5212204B2 (ja) | 応答生成装置及びプログラム | |
JP5905652B1 (ja) | データ評価システム、データ評価方法、およびデータ評価プログラム | |
EP3425531A1 (en) | System, method, electronic device, and storage medium for identifying risk event based on social information | |
Mankar et al. | Implicit sentiment identification using aspect based opinion mining | |
US9558269B2 (en) | Extracting and mining of quote data across multiple languages | |
JP2009265770A (ja) | 重要文提示システム | |
JP2009140048A (ja) | 評判関係抽出装置、その方法およびプログラム | |
JP5187187B2 (ja) | 体験情報検索システム | |
WO2012124213A1 (ja) | 要約作成装置、要約作成方法、およびコンピュータ読み取り可能な記録媒体 | |
JPS63175965A (ja) | 文書処理装置 | |
KR101409386B1 (ko) | 웹 페이지 분석 장치 및 방법 | |
Waber et al. | Web mediators for accessible browsing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220323 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230526 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230822 |