JP2020181387A - 文書要約装置、文書要約システム、文書要約方法及びプログラム - Google Patents

文書要約装置、文書要約システム、文書要約方法及びプログラム Download PDF

Info

Publication number
JP2020181387A
JP2020181387A JP2019084294A JP2019084294A JP2020181387A JP 2020181387 A JP2020181387 A JP 2020181387A JP 2019084294 A JP2019084294 A JP 2019084294A JP 2019084294 A JP2019084294 A JP 2019084294A JP 2020181387 A JP2020181387 A JP 2020181387A
Authority
JP
Japan
Prior art keywords
document
unit
input
misunderstanding
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019084294A
Other languages
English (en)
Inventor
修 萬羽
Osamu Manba
修 萬羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2019084294A priority Critical patent/JP2020181387A/ja
Priority to US16/833,300 priority patent/US20200342019A1/en
Priority to CN202010239304.9A priority patent/CN111858910A/zh
Publication of JP2020181387A publication Critical patent/JP2020181387A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】短い要約文であったとしても、入力文書の内容と異なる事実が表示されることを抑制する文書要約装置を実現する。【解決手段】文書要約装置の制御部は、入力文書を取得する入出力部121と、入出力部121が取得した入力文書から、1又は複数の重要語及び当該1又は複数の重要語に関連する1又は複数の関連語を抽出する抽出部122と、入力文書を形態素解析部124で形態素解析して得られる形態素リストを参照して、1又は複数の重要語と1又は複数の関連語とによる要約文に対する誤解リスクを判定する判定部126と、判定部126が、誤解リスクが所定の値以上であると判定した場合に、入力文書をトピック解析部123でトピック解析して得られたトピック語と1又は複数の重要語とを用いて要約文を生成し、生成した要約文を出力するか、入力文書から要約文を生成することは不可能である旨の情報を出力する出力情報生成部127とを備える。【選択図】図2

Description

本発明は、文書要約装置、文書要約システム、文書要約方法及びプログラムに関する。
近年、ニュース記事の読み上げ時間の短縮及びニュース記事の情報の整理のために、入力した文書の要約文を生成する技術が開発されている(特許文献1)。
特許文献1には、入力された文書から、重要な単語と、重要な単語同士の関係を抽出し、それらに基づいて文書の要約を生成する文書要約装置が開示されている。
特開平11−282881号公報(1999年10月15日公開)
しかしながら、特許文献1の文書要約装置では、入力文章の正確な内容の要約文を生成するために、要約文が冗長になりがちであるという問題がある。当該問題を解決するために、なるべく短い要約文を出力するよう構成することが望ましいが、要約文が短くなるほど、入力文章と異なる事実を要約文として表される恐れが高まる。
本発明の一態様は、上記の課題に鑑みてなされたものであり、その主たる目的は、短い要約文であったとしても、入力文書の内容と異なる事実が表示されることを抑制する文書要約装置を実現することを目的とする。
上記の課題を解決するために、本発明の一態様に係る文書要約装置は、入力文書を取得する文書取得部と、前記文書取得部が取得した入力文書から、1又は複数の重要語及び当該1又は複数の重要語に関連する1又は複数の関連語を抽出する抽出部と、前記入力文書を形態素解析して得られる形態素リストを参照して、前記1又は複数の重要語と前記1又は複数の関連語とによる要約文に対する誤解リスクを判定する判定部と、前記判定部が、誤解リスクが所定の値以上であると判定した場合に、判定結果に応じた情報を生成し、生成した情報を出力する出力情報生成部とを備えている。
上記の課題を解決するために、本発明の一態様に係る文書要約方法は、入力文書を取得する文書取得ステップと、前記文書取得ステップが取得した入力文書から、1又は複数の重要語及び当該1又は複数の重要語に関連する1又は複数の関連語を抽出する抽出ステップと、前記入力文書を形態素解析して得られる形態素リストを参照して、前記1又は複数の重要語と前記1又は複数の関連語とによる要約文に対する誤解リスクを判定する判定ステップと、前記判定ステップにおいて、誤解リスクが所定の値以上であると判定した場合に、判定結果に応じた情報を生成し、生成した情報を出力する出力情報生成ステップとを備えている。
本発明の一態様によれば、短い要約文であったとしても、入力文書の内容と異なる事実が表示されることを抑制する文書要約装置を実現することができる。
本発明の実施形態1に係る文書要約システムを示すブロック図である。 本発明の実施形態1に係る制御部の要部構成を示すブロック図である。 本発明の実施形態1に係る形態素解析部が形態素解析した形態素リストの例を示す。 本発明の実施形態1に係るデータベースに格納されている判定パターンの例を示す。 本発明の実施形態1に係る出力情報生成部が生成した2語要約の例を示す。 本発明の実施形態1に係る文書要約システム文章要約処理の流れを示すフローチャート図である。 本発明の実施形態2に係る制御部の要部構成を示すブロック図である。 本発明の実施形態2に係る文章要約処理の流れを示すフローチャート図である。 サーバまたは端末として利用可能なコンピュータの構成を例示したブロック図である。
[実施形態1]
以下、実施形態1に係る文書要約システム1について図1を参照して説明する。図1は、文書要約システム1の構成を示すブロック図である。
(文書要約システム1)
文書要約システム1は、入力された文書から要約文を生成するシステムである。図1に示すように、文書要約システム1は、文書要約装置10、表示装置20、記事サーバ30、及びデータサーバ40を備えている。なお、記事サーバ30とデータサーバ40とは、別体のサーバとして実現されてもよいし、一体のサーバとして実現されていてもよい。以下の説明では、記事サーバ30とデータサーバ40とが、別体のサーバとして実現された構成を例に挙げて説明する。
(文書要約装置10)
図1に示すように、文書要約装置10は、通信部11、制御部12、及び記憶部13を備えている。文書要約装置10は、入力された文章の要約文を生成するものである。より具体的には、文書要約装置10は、通信部11を介してデータサーバ40から後述する入力文書を取得し、取得した入力文書に基づき要約文を生成する。文書要約装置10は生成した要約文をデータサーバ40に出力する。ここで、本実施形態に係る文書要約装置10は、要約文としてN語要約を生成する。Nは2以上の自然数であり、好ましくはNは2以上4以下の自然数である。
通信部11は、ネットワーク上にあるサーバと通信を行うためのものである。通信部11としては、例えば、有線LAN、Wi−FI(登録商標)等の無線LAN、並びに3G、WiMAX、LET、及び4G等の公衆無線等を用いることができる。
制御部12は、記憶部13に記憶されているプログラムを実行するためのものである。制御部12は、当該プログラムを実行することによって、データサーバ40から取得した入力文書の要約文を生成する。制御部12の具体的な構成については後述する。
記憶部13には、OS,デバイスドライバ、ミドルウェア、及びアプリ等のプログラムが記憶されている。記憶部13としては、例えば、SRAM及びフラッシュROM等のメモリ、SDカード、並びにハードディスク等を用いることができる。
なお、本実施形態において、文書要約装置10は、データサーバ40とは異なるサーバに実装されている。文書要約装置10が実装されているサーバとデータサーバ40との各サーバは、同じ事業者によって管理されていてもよいし、異なる事業者によって管理されていてもよい。
(表示装置20)
表示装置20は、データサーバ40から取得した記事情報及び要約文を、ユーザに対して出力するためのものである。表示装置20としては、例えば、携帯端末等が挙げられる。
図1に示すように、表示装置20は、表示部201及び音声出力部202を備えている。表示部201は、データサーバ40から取得した記事情報及び要約文を表示する。音声出力部202は、データサーバ40から取得した記事情報及び要約文を音声出力する。なお、本実施形態に係る表示装置20は、ユーザに対する記事情報及び要約文の出力を、表示部201による画面表示及び音声出力部202による音声出力の何れかを用いて行ってもよく、画面表示および音声出力の両方を用いて行ってもよい。
(記事サーバ30)
記事サーバ30は、データサーバ40に対して記事情報を提供するサーバである。ここで、記事情報とは、データサーバ40において読み上げる文書であり、タイトル、見出し及び本文等の記事の文、記事のカテゴリ、並びに記事のキーワードなどが格納されている。また提供される記事情報としては、例えば、ニュース記事、商品及びサービスの紹介記事、時事ネタ、便利ネタ等の文書が挙げられる。
(データサーバ40)
データサーバ40は、記事サーバ30から定期的に記事情報を取得する。データサーバ40は、取得した記事情報を入力文書として文書要約装置10へ出力する。また、データサーバ40は、文書要約装置10において提供した入力文書に基づいて生成した要約文を取得する。また、データサーバ40は、記事サーバ30から取得した記事情報及び文書要約装置10から取得した要約文を表示装置20へ出力する。ここで、データサーバ40としては、例えば、ニュースサイト、通販サイト、企業サイト、レシピ/トリビアサイト、掲示板等が挙げられる。
(制御部12)
次に、実施形態1に係る制御部12について図2を参照して説明する。図2は、制御部12の構成を示すブロック図である。
図2に示すように、制御部12は、入出力部121(文書取得部)、抽出部122、トピック解析部123、形態素解析部124、データベース125、判定部126、及び出力情報生成部127を備えている。
入出力部121は、通信部11を介して、データサーバ40から入力文書を取得するものである。入出力部121は、取得した入力文書を抽出部122、トピック解析部123及び形態素解析部124に出力する。また、入出力部121は、出力情報生成部127において生成した要約文を取得し、通信部11を介してデータサーバ40に出力する。
抽出部122は、入出力部121から取得した入力文書をN語に要約するものである。具体的には、抽出部122は、入力文書から1又は複数の重要語及び1又は複数の重要語に関連する1又は複数の関連語を抽出する。例えば、「A高校に逆転勝利 B高校のC選手がサヨナラホームラン」という入力文書を2語要約する場合、抽出部122は、重要語として「A高校」、関連語として「逆転勝利」を抽出する。
また、例えば、「AさんがXX賞を辞退した」という入力文書を3語要約する場合、抽出部122は、重要語として「Aさん」、関連語として「辞退」及び「XX賞」を抽出する。なお、3語要約の例として、抽出部122が、重要語を1つ、関連語を2つ抽出する構成について説明したが、抽出部122が、重要語が2つ、関連語を1つ抽出する構成であってもよい。
なお、4語以上の要約についても、3語要約と同様に、抽出部122が、重要語と関連語とのどちらか一方を1つのみ抽出し、他方を複数抽出する構成であってもよい。また、4語以上の要約では、重要語と関連語とをそれぞれ複数抽出する構成であってもよい。
抽出部122は、抽出した重要語及び関連語を出力情報生成部127に出力する。
なお、抽出部122における入力文書から要約を抽出する技術は既存の技術を用いることができるため、ここでの説明を省略する。
トピック解析部123は、入出力部121から取得した入力文書をトピック解析してトピック語を得るものである。例えば、トピック解析部123は、「〇〇選手がホームランを打った」という入力文書をトピック解析した場合、「選手」及び「ホームラン」といった特徴的な用語から「野球」に関する記事であると推測し、「野球」というトピック語を出力する。
トピック解析部123は、トピック解析によって得られたトピック語を出力情報生成部127に出力する。
なお、トピック解析部123における入力文書をトピック解析する技術は既存の技術を用いることができるため、ここでの説明を省略する。既存の技術としては、例えば、LDA等が挙げられる。
また、トピック解析部123は、入力文書に格納されている記事のカテゴリ、及び記事のキーワード等をトピック語として出力する構成であってもよい。なお、入力文書に格納されている記事のキーワードが複数ある場合、トピック解析部123は、(1)一番先頭にあるキーワード、(2)形態素解析した結果、固有名詞だったキーワード、(3)○○ニュース/○○の話題など、特定のパターンに当てはまる・当てはまらないキーワード、の少なくとも何れか、又は、それらの組み合わせによって、トピック語を決定する構成であってもよい。
形態素解析部124は、入出力部121から取得した入力文書を形態素解析して形態素リストを生成するものである。ここで、本実施形態において、形態素リストは、表層形、原形、品詞1〜4によって構成されている。表層形には、解析した文に登場する形態素そのものが格納される。原形には、動詞などの現在形、過去形などの活用がある形態素の原形が格納される。品詞1〜4には、名詞、助詞、及び動詞等の形態素の品詞の詳細分類を含む品詞情報が格納される。ここで、本実施形態に係る形態素リストには、人名、地名、組織名及び品名等の固有表現が含まれており、品詞3及び4において、これらの固有表現の分類情報が格納される。
図3に、生成される形態素リストの例として、本実施形態に係る形態素解析部124が「A高校に逆転勝利 B高校のC選手がサヨナラホームラン」の入力文書を形態素解析した場合の形態素リストを示す。
形態素解析部124は、生成した形態素リストを判定部126に出力する。
なお、形態素解析部124における入力文書を形成素解析する技術は、既存の技術を用いることができるため、ここでの説明を省略する。既存の技術としては、例えば、MeCab及びJUMN++等のツールが挙げられる。
データベース125は、入力文書から抽出される重要語及び関連語から生成される要約文が、入力文書の内容と異なる事実を表示し誤解されるリスクを有しているか否かを判定するための判定パターンを格納するものである。以下の説明において、入力文書の内容と異なる事実を表示し誤解されるリスクを誤解リスクと記載する。
判定パターンは、判定部126で処理しやすいフォーマットであれば特に限定されない。判定パターンのフォーマットとしては、例えば、XML,JSON,リスト形式、及び連想配列等のフォーマットが挙げられる。
判定パターンは、誤解リスクスコアが設定された複数のカテゴリを含んでいる。複数のカテゴリは、否定的表現を含む文書である否定系のカテゴリを含んでいる。また、複数のカテゴリは、未遂的表現を含む文書である未遂系のカテゴリを含んでいる。また、複数のカテゴリは、未来的表現を含む文書である未来系のカテゴリを含んでいる。また、複数のカテゴリは、同じ種類の固有名詞を複数含む文書である複数系のカテゴリを含んでいる。また、複数のカテゴリは、ある人物と他の人物とを含む文書である他人系カテゴリを含んでいる。
各カテゴリは、複数のパターンを含んでおり、パターンごとに誤解リスクスコアが設定されている。各パターンは、複数の形態素からなる配列として構成されている。
図4に、本実施形態に係るデータベース125に格納されている判定パターンの例を示す。
データベース125は、判定パターンを判定部126に出力する。
判定部126は、形態素解析部124から取得した形態素リストとデータベース125から取得した判定パターンとを参照して、重要語と関連語とによる要約文に対する誤解リスクを判定するためのものである。
判定部126は、形態素リストと各カテゴリを比較することにより、入力文書がカテゴリに該当するか否かを判定する判定処理を実行する。より具体的には、判定部126は、各カテゴリのパターン毎に判定処理を実行し、形態素リストの原形と配列要素が一致するパターンの誤解リスクスコア(判定スコア)を加算する。
ここで、複数系のカテゴリの判定は、形態素リスト内の固有名詞の分析結果をもとに一致判定を行う。より具体的には、複数系のカテゴリの判定では、固有名詞を「人名」、「組織名」及び「地域名」の項目毎にそれぞれ該当する数をカウントし、カウント結果に2以上になる項目がある場合に誤解リスクスコアを加算する。カウント結果が2以上になる項目が複数ある場合は、カウント結果が2以上になった項目の数だけ誤解リスクスコアを加算する。
判定部126は、形態素リストと一致したパターンの誤解リスクスコアの総計が所定の閾値以上であると判定した場合、重要語と関連語とによる要約文に誤解リスクがあると判定し、態素リストと一致したパターンの誤解リスクスコアの総計が所定の閾値より小さいと判定した場合に、重要語と関連語とによる要約文に誤解リスクがないと判定する。ここで、判定部126における所定の閾値は、データベース125から取得した判定パターンに応じて設定される。
判定部126は、判定結果を出力情報生成部127に出力する。
出力情報生成部127は、抽出部122から重要語と関連語とを取得し、トピック解析部123からトピック語を取得する。また、出力情報生成部127は、判定部126から判定結果を取得し、取得した判定結果に基づき、入力文書の要約文としてN語要約を生成する。
より具体的には、出力情報生成部127は、判定結果が重要語と関連語とによる要約文に誤解リスクがないと判定された場合、1又は複数の重要語と1又は複数の関連語とからなるN語要約を要約文として生成する。また、出力情報生成部127は、判定結果が重要語と関連語とによる要約文に誤解リスクがあると判定された場合、1又は複数の重要語とトピック語とからなるN語要約を要約文として生成する。
出力情報生成部127が生成する要約文の例として、図5に、出力情報生成部127が生成した2語要約の具体例を示す。
出力情報生成部127は生成した要約文を入出力部121に出力する。
なお、データベース125に格納されている各カテゴリのパターン及びその誤解リスクスコアと、判定部126において予め設定されている所定の閾値とは、任意に設定する構成であってもよく、また、機械学習を用いて設定及び調整する構成であってもよい。
このように、本実施形態に係る文書要約装置10は、入力文書から抽出される重要語及び関連語から生成される要約文の誤解リスクの判定結果に応じて、要約文を生成することができるため、N語程度の極端に短い要約文であったとしても、入力文書の内容と異なる事実を表示することを抑制することができる。
また、本実施形態に係る文書要約装置10は、データベース125が、入力文書の記事のカテゴリ毎に判定パターンを格納しており、入力文書のカテゴリに対応する判定パターンを判定部126に出力する構成であってもよい。
例えば、入力文書が芸能・スポーツ関連のニュース記事である場合、人名の固有名詞が出現しやすい。また、入力文書がIT・経済関連のニュース記事である場合、組織名の固有名詞が出現しやすい。また、入力文書がグルメ・ファッション関連のニュース記事である場合、組織名の固有名詞が出現しやすい。このように、入力文書の記事のカテゴリによって固有名詞の出現傾向が異なっているため、入力文書の記事のカテゴリ毎に判定パターンを変えることが好ましい。
また、入力文書がスポーツ関連のニュース記事である場合、チーム名(組織名)及び地名の固有名詞が出現しやすい。また、入力文書がスポーツ関連のニュース記事である場合、地名がチーム名として出現することがある。そこで、入力文書がスポーツ関連のニュース記事である場合、判定部126は、チーム名と地名との固有名詞を同じ項目としてカウントする構成であってもよい。
このように、本実施形態に係る文書要約装置10は、判定部126が入力文書の記事のカテゴリに対応する判定パターンを用いて判定することにより、より適切に入力文書から抽出される重要語及び関連語から生成される要約文の誤解リスクを判定することができる。
(文章要約処理の動作)
次に、文書要約システム1の文章要約処理の動作を、図6を参照しながら説明する。図6は、文書要約システム1の動作を示したフローチャートである。
〔ステップS101〕
データサーバ40が、記事サーバ30から記事情報を取得する。
〔ステップS102〕
データサーバ40は、記事サーバ30から取得した記事情報を入力文書として文書要約装置10に出力する。換言すれば、制御部12の入出力部121は、通信部11を介してデータサーバ40から入力文書を取得する。
〔ステップS103〕
抽出部122は、入出力部121から入力文書を取得する。抽出部122は、取得した入力文書から入力文書の1又は複数の重要語及び1又は複数の重要語に関連する1又は複数の関連語を抽出する。抽出部122は、抽出した1又は複数の重要語及び1又は複数の関連語を出力情報生成部127に出力する。
〔ステップS104〕
形態素解析部124は、入出力部121から入力文書を取得する。形態素解析部124は、取得した入力文書を形態素解析し、入力文書の形態素リストを生成する。形態素解析部124は、生成した形態素リストを判定部126に出力する。
〔ステップS105〕
判定部126は、データベース125からデータベース125に格納されている判定パターンを取得する。
〔ステップS106〕
判定部126は、形態素解析部124から取得した形態素リストとデータベース125から取得した判定パターンとの一致判定を実行し、誤解リスクスコア(判定スコア)を算出する。
〔ステップS107〕
判定部126は、算出した判定スコアが予め設定していた所定の閾値以上であるか否かを判定する。
〔ステップS108〕
判定部126が、ステップS107においてYESと判定し、判定スコアが予め設定していた所定の閾値以上である場合、トピック解析部123は、入出力部121から取得した入力文書のトピック解析を実行し、入力文書のトピック語を生成する。トピック解析部123は、生成したトピック語を出力情報生成部127に出力する。
〔ステップS109〕
出力情報生成部127は、抽出部122から取得した1又は複数の重要語と、トピック解析部123から取得したトピック語を要約文として生成する。出力情報生成部127は、生成した要約文を入出力部121に出力する。
〔ステップS110〕
判定部126が、ステップS107においてNOと判定し、判定スコアが予め設定していた所定の閾値より小さい場合、出力情報生成部127は、抽出部122から取得した1又は複数の重要語と1又は複数の関連語とを要約文として生成する。出力情報生成部127は、生成した要約文を入出力部121に出力する。
〔ステップS111〕
入出力部121は、取得した要約文を通信部11を介してデータサーバ40に出力する。
〔ステップS112〕
データサーバ40は、取得した要約文を表示装置20(端末)に出力する。
〔ステップS113〕
表示装置20は、取得した要約文をユーザに対して出力する。
〔実施形態2〕
実施形態2に係る文書要約システムについて図7を参照して説明する。図7は、実施形態2に係る文書要約システムの制御部22の構成を示すブロック図である。本実施形態に係る制御部22は、実施形態1に係る制御部12よりトピック解析部123を除外した構成である。ここで、入出力部221、抽出部222、トピック解析部223、形態素解析部224、データベース225、判定部226、及び出力情報生成部227は、それぞれ入出力部121、抽出部122、形態素解析部124、データベース125、判定部126、及び出力情報生成部127に対応する構成である。以下の説明では、実施形態1に係る制御部12と異なる点について説明する。
出力情報生成部227は、抽出部222から抽出部222において抽出した重要語と関連語とを取得する。また、出力情報生成部227は、判定部226から判定結果を取得し、取得した判定結果に基づき、入力文書の要約文としてN語要約を生成する。
より具体的には、出力情報生成部227は、判定結果が重要語と関連語とによる要約文に誤解リスクがないと判定された場合、1又は複数の重要語と1又は複数の関連語とからなるN語要約を要約文として生成する。また、出力情報生成部227は、判定結果が重要語と関連語とによる要約文に誤解リスクがあると判定された場合、入力文書の要約文を生成することは不可能である旨の情報を生成する。
ここで、出力情報生成部227が要約文を生成した場合、表示装置20は、当該要約文をユーザに対して出力する。一方、出力情報生成部227が入力文書の要約文を生成することは不可能である旨の情報を生成した場合、データサーバ40は当該入力文書の要約文を表示装置20に出力しない。換言すれば、表示装置20は、ユーザに対して当該入力文書の要約文を出力しない。
(文章要約処理の動作)
次に、文書要約システム1の文章要約処理の動作を、図8を参照しながら説明する。図
は、文書要約システム1の動作を示したフローチャートである。
〔ステップS201〕
データサーバ40が、記事サーバ30から記事情報を取得する。
〔ステップS202〕
データサーバ40は、記事サーバ30から取得した記事情報を入力文書として文書要約装置10に出力する。換言すれば、制御部22の入出力部221は、通信部11を介してデータサーバ40から入力文書を取得する。
〔ステップS203〕
抽出部222は、入出力部221から入力文書を取得する。抽出部222は、取得した入力文書から入力文書の1又は複数の重要語及び1又は複数の重要語に関連する1又は複数の関連語を抽出する。抽出部222は、抽出した1又は複数の重要語及び1又は複数の関連語を出力情報生成部227に出力する。
〔ステップS204〕
形態素解析部224は、入出力部221から入力文書を取得する。形態素解析部224は、取得した入力文書を形態素解析し、入力文書の形態素リストを生成する。形態素解析部224は、生成した形態素リストを判定部226に出力する。
〔ステップS205〕
判定部226は、データベース225からデータベース225に格納されている判定パターンを取得する。
〔ステップS206〕
判定部226は、形態素解析部224から取得した形態素リストとデータベース225から取得した判定パターンとの一致判定を実行し、誤解リスクスコア(判定スコア)を算出する。
〔ステップS207〕
判定部226は、算出した判定スコアが予め設定していた所定の閾値以上であるか否かを判定する。
〔ステップS208〕
判定部226が、ステップS207においてYESと判定し、判定スコアが予め設定していた所定の閾値以上である場合、出力情報生成部227は、入力文書から要約文を生成することは不可能であるとして「要約なし」の情報を生成する。
〔ステップS209〕
判定部226が、ステップS207においてNOと判定し、判定スコアが予め設定していた所定の閾値より小さい場合、出力情報生成部227は、抽出部222から取得した1又は複数の重要語と関連語とを要約文として生成する。出力情報生成部227は、生成した要約文を入出力部221に出力する。
〔ステップS210〕
入出力部221は、取得した要約文又は取得した「要約なし」の情報を通信部11を介してデータサーバ40に出力する。
〔ステップS211〕
データサーバ40は、取得した要約文を表示装置20(端末)に出力する。
〔ステップS212〕
表示装置20は、取得した要約文をユーザに対して出力する。
〔実施形態3〕
上記各実施形態では、文書要約装置10とデータサーバ40とをそれぞれ個別のサーバにて実現される例について説明したが、文書要約装置10をデータサーバ40と同じサーバ上に実装する構成であってもよい。また、文書要約装置10の一部又は全ての構成を表示装置20に実装する構成であってもよい。
〔実施形態4〕
文書要約装置10およびデータサーバ40の各ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。後者の場合、文書要約装置10およびデータサーバ40のそれぞれを、図9に示すようなコンピュータ(電子計算機)を用いて構成することができる。
図9は、文書要約装置10およびデータサーバ40として利用可能なコンピュータ910の構成を例示したブロック図である。コンピュータ910は、バス911を介して互いに接続された演算装置912と、主記憶装置913と、補助記憶装置914と、入出力インターフェース915と、通信インターフェース916とを備えている。演算装置912、主記憶装置913、および補助記憶装置914は、それぞれ、例えばプロセッサ(例えばCPU:Central Processing Unit等)、RAM(random access memory)、ハードディスクドライブであってもよい。入出力インターフェース915には、ユーザがコンピュータ910に各種情報を入力するための入力装置920、および、コンピュータ910がユーザに各種情報を出力するための出力装置930が接続される。入力装置920および出力装置930は、コンピュータ910に内蔵されたものであってもよいし、コンピュータ910に接続された(外付けされた)ものであってもよい。例えば、入力装置920は、キーボード、マウス、タッチセンサなどであってもよく、出力装置930は、ディスプレイ、プリンタ、スピーカなどであってもよい。また、タッチセンサとディスプレイとが一体化されたタッチパネルのような、入力装置920および出力装置930の双方の機能を有する装置を適用してもよい。そして、通信インターフェース916は、コンピュータ910が外部の装置と通信するためのインターフェースである。
補助記憶装置914には、コンピュータ910を文書要約装置10またはデータサーバ40として動作させるための各種のプログラムが格納されている。そして、演算装置912は、補助記憶装置914に格納された上記プログラムを主記憶装置913上に展開して該プログラムに含まれる命令を実行することによって、コンピュータ910を、文書要約装置10またはデータサーバ40が備える各部として機能させる。なお、補助記憶装置914が備える、プログラム等の情報を記録する記録媒体は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などであってもよい。また、記録媒体に記録されているプログラムを、主記憶装置913上に展開することなく実行可能なコンピュータであれば、主記憶装置913を省略してもよい。なお、上記各装置(演算装置912、主記憶装置913、補助記憶装置914、入出力インターフェース915、通信インターフェース916、入力装置920、および出力装置930)は、それぞれ1つであってもよいし、複数であってもよい。
また、上記プログラムは、コンピュータ910の外部から取得してもよく、この場合、任意の伝送媒体(通信ネットワークや放送波等)を介して取得してもよい。そして、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る文書要約装置10は、入力文書を取得する文書取得部121と、前記文書取得部121が取得した入力文書から、1又は複数の重要語及び当該1又は複数の重要語に関連する1又は複数の関連語を抽出する抽出部122と、前記入力文書を形態素解析して得られる形態素リストを参照して、前記1又は複数の重要語と前記1又は複数の関連語とによる要約文に対する誤解リスクを判定する判定部126と、前記判定部126が、誤解リスクが所定の値以上であると判定した場合に判定結果に応じた情報を生成し、生成した情報を出力する出力情報生成部127とを備えている。
上記の構成によれば、1又は複数の重要語と1又は複数の関連語とから構成される要約文が、入力文書の内容と異なる事実になる可能性がある場合に、それに応じた情報を出力することができる。これにより、入力文書の内容と異なる事実を表示することを抑制することができる。
本発明の態様2に係る文書要約装置10は、上記態様1において、前記出力情報生成部は、前記判定部が、誤解リスクが所定の値以上であると判定した場合に、前記入力文書をトピック解析して得られたトピック語と前記1又は複数の重要語とを用いて要約文を生成し、生成した要約文を出力してもよい。
上記の構成によれば、1又は複数の重要語と1又は複数の関連語とから構成される要約文が、入力文書の内容と異なる事実になる可能性がある場合に、入力文書のトピック語と1又は複数の重要語とを用いて要約文を生成することができる。これにより、入力文書の内容と異なる事実を表示することを抑制することができる。
本発明の態様3に係る文書要約装置10は、上記態様1において、前記出力情報生成部は、前記判定部が、誤解リスクが所定の値以上であると判定した場合に、前記入力文書から要約文を生成することは不可能である旨の情報を出力してもよい。
上記の構成によれば、1又は複数の重要語と1又は複数の関連語とから構成される要約文が、入力文書の内容と異なる事実になる可能性がある場合に、入力文書から要約文を生成することは不可能である旨の情報を生成することができる。これにより、入力文書の内容と異なる事実を表示することを抑制することができる。
本発明の態様4に係る文書要約装置10は、上記態様1から3の何れかにおいて、前記判定部126は、誤解リスクスコアが設定された複数のカテゴリの各々について、当該カテゴリに前記入力文書が該当するか否かを判定する判定処理を実行し、該当すると判定したカテゴリの誤解リスクスコアの総計を用いて、前記誤解リスクを判定してもよい。
上記の構成によれば、1又は複数の重要語と1又は複数の関連語とから構成される要約文が、入力文書の内容と異なる事実になる可能性があるか否かを好適に判定することができる。
本発明の態様5に係る文書要約装置10は、上記態様4において、前記複数のカテゴリの各々は、複数のパターンを含んでおり、前記誤解リスクスコアはパターン毎に設定されており、前記判定部126は、前記判定処理を前記パターン毎に実行してもよい。
上記の構成によれば、1又は複数の重要語と1又は複数の関連語とから構成される要約文が、入力文書の内容と異なる事実になる可能性があるか否かを好適に判定することができる。
本発明の態様6に係る文書要約装置10は、上記態様4または5において、前記複数のカテゴリには、否定的表現を含む文書のカテゴリ、未遂的表現を含む文書のカテゴリ、及び未来的表現を含む文書のカテゴリの少なくとも何れかが含んでいてもよい。
上記の構成によれば、1又は複数の重要語と1又は複数の関連語とから構成される要約文が、入力文書の内容と異なる事実になる可能性があるか否かを好適に判定することができる。
本発明の態様7に係る文書要約装置10は、上記態様4から6の何れかにおいて、前記複数のカテゴリには、同じ種類の固有名詞を複数含む文書のカテゴリ、及び、ある人物と、他の人物とを含む文書のカテゴリ
の少なくとも何れかが含まれている。
上記の構成によれば、1又は複数の重要語と1又は複数の関連語とから構成される要約文が、入力文書の内容と異なる事実になる可能性があるか否かを好適に判定することができる。
本発明の態様8に係る文書要約システム1は、上記態様1から7の何れかの文書要約装置10と表示装置20とを含む文書要約システム1であって、前記表示装置20は、前記出力情報生成部127が生成した情報を表示する表示部201を備えている。
上記の構成によれば、1又は複数の重要語と1又は複数の関連語とから構成される要約文が、入力文書の内容と異なる事実になる可能性がある場合に、それに応じた情報を出力することができる。これにより、入力文書の内容と異なる事実を表示することを抑制することができる。
本発明の態様9に係る文書要約方法は、入力文書を取得する文書取得ステップと、前記文書取得ステップが取得した入力文書から、1又は複数の重要語及び当該1又は複数の重要語に関連する1又は複数の関連語を抽出する抽出ステップと、前記入力文書を形態素解析して得られる形態素リストを参照して、前記1又は複数の重要語と前記1又は複数の関連語とによる要約文に対する誤解リスクを判定する判定ステップと、前記判定ステップにおいて、誤解リスクが所定の値以上であると判定した場合に判定結果に応じた情報を生成し、生成した情報を出力する出力情報生成ステップとを備えている。
上記の構成によれば、1又は複数の重要語と1又は複数の関連語とから構成される要約文が、入力文書の内容と異なる事実になる可能性がある場合に、それに応じた情報を出力することができる。これにより、入力文書の内容と異なる事実を表示することを抑制することができる。
本発明の態様1から7に係るに係る文書要約装置10は、それぞれ、コンピュータによって実現してもよく、この場合には、コンピュータを上記文書要約装置10が備える各部(ソフトウェア要素)として動作させることにより、上記文書要約装置10をコンピュータにて実現させる制御プログラムも、本発明の範疇に入る。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
1 文書要約システム
10 文書要約装置
20 表示装置
201 表示部
121、221 入出力部(文書取得部)
122、222 抽出部
126、226 判定部
127、227 出力情報生成部

Claims (10)

  1. 入力文書を取得する文書取得部と、
    前記文書取得部が取得した入力文書から、1又は複数の重要語及び当該1又は複数の重要語に関連する1又は複数の関連語を抽出する抽出部と、
    前記入力文書を形態素解析して得られる形態素リストを参照して、前記1又は複数の重要語と前記1又は複数の関連語とによる要約文に対する誤解リスクを判定する判定部と、
    前記判定部が、誤解リスクが所定の値以上であると判定した場合に、判定結果に応じた情報を生成し、生成した情報を出力する出力情報生成部と
    を備えていることを特徴とする文書要約装置。
  2. 前記出力情報生成部は、前記判定部が、誤解リスクが所定の値以上であると判定した場合に、前記入力文書をトピック解析して得られたトピック語と前記1又は複数の重要語とを用いて要約文を生成し、生成した要約文を出力することを特徴とする請求項1に記載の文書要約装置。
  3. 前記出力情報生成部は、前記判定部が、誤解リスクが所定の値以上であると判定した場合に、前記入力文書から要約文を生成することは不可能である旨の情報を出力することを特徴とする請求項1に記載の文書要約装置。
  4. 前記判定部は、誤解リスクスコアが設定された複数のカテゴリの各々について、当該カテゴリに前記入力文書が該当するか否かを判定する判定処理を実行し、該当すると判定したカテゴリの誤解リスクスコアの総計を用いて、前記誤解リスクを判定する
    ことを特徴とする請求項1から3の何れか1項に記載の文書要約装置。
  5. 前記複数のカテゴリの各々は、複数のパターンを含んでおり、前記誤解リスクスコアはパターン毎に設定されており、
    前記判定部は、前記判定処理を前記パターン毎に実行する
    ことを特徴とする請求項4に記載の文書要約装置。
  6. 前記複数のカテゴリには、
    否定的表現を含む文書のカテゴリ、
    未遂的表現を含む文書のカテゴリ、及び
    未来的表現を含む文書のカテゴリ
    の少なくとも何れかが含まれている
    ことを特徴とする請求項4又は5に記載の文書要約装置。
  7. 前記複数のカテゴリには、
    同じ種類の固有名詞を複数含む文書のカテゴリ、及び、
    ある人物と、他の人物とを含む文書のカテゴリ
    の少なくとも何れかが含まれている
    ことを特徴とする請求項4から6の何れか1項に記載の文書要約装置。
  8. 請求項1から7の何れか1項に記載の文書要約装置と表示装置とを含む文書要約システムであって、
    前記表示装置は、
    前記出力情報生成部が生成した情報を表示する表示部を備えている
    ことを特徴とする文書要約システム。
  9. 入力文書を取得する文書取得ステップと、
    前記文書取得ステップが取得した入力文書から、1又は複数の重要語及び当該1又は複数の重要語に関連する1又は複数の関連語を抽出する抽出ステップと、
    前記入力文書を形態素解析して得られる形態素リストを参照して、前記1又は複数の重要語と前記1又は複数の関連語とによる要約文に対する誤解リスクを判定する判定ステップと、
    前記判定ステップにおいて、誤解リスクが所定の値以上であると判定した場合に、判定結果に応じた情報を生成し、生成した情報を出力する出力情報生成ステップと
    を備えていることを特徴とする文書要約方法。
  10. 請求項1から7の何れか1項に記載の文書要約装置としてコンピュータを機能させるためのプログラムであって、上記文書取得部、上記抽出部、上記判定部および上記出力情報生成部としてコンピュータを機能させるためのプログラム。
JP2019084294A 2019-04-25 2019-04-25 文書要約装置、文書要約システム、文書要約方法及びプログラム Pending JP2020181387A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019084294A JP2020181387A (ja) 2019-04-25 2019-04-25 文書要約装置、文書要約システム、文書要約方法及びプログラム
US16/833,300 US20200342019A1 (en) 2019-04-25 2020-03-27 Document summarizing apparatus, document summarizing system, method of document summarization, and storing medium
CN202010239304.9A CN111858910A (zh) 2019-04-25 2020-03-30 文档概述装置、文档概述系统、文档概述方法及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019084294A JP2020181387A (ja) 2019-04-25 2019-04-25 文書要約装置、文書要約システム、文書要約方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2020181387A true JP2020181387A (ja) 2020-11-05

Family

ID=72921692

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019084294A Pending JP2020181387A (ja) 2019-04-25 2019-04-25 文書要約装置、文書要約システム、文書要約方法及びプログラム

Country Status (3)

Country Link
US (1) US20200342019A1 (ja)
JP (1) JP2020181387A (ja)
CN (1) CN111858910A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022098219A (ja) * 2020-12-21 2022-07-01 富士通株式会社 学習プログラム、学習方法、および学習装置
US20220237373A1 (en) * 2021-01-28 2022-07-28 Accenture Global Solutions Limited Automated categorization and summarization of documents using machine learning
US11947916B1 (en) * 2021-08-19 2024-04-02 Wells Fargo Bank, N.A. Dynamic topic definition generator

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091634A1 (en) * 2006-10-15 2008-04-17 Lisa Seeman Content enhancement system and method and applications thereof
US20140172417A1 (en) * 2012-12-16 2014-06-19 Cloud 9, Llc Vital text analytics system for the enhancement of requirements engineering documents and other documents
JP2015170224A (ja) * 2014-03-07 2015-09-28 日本電信電話株式会社 文書要約装置、方法、及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644269B (zh) * 2017-09-11 2020-05-22 国网江西省电力公司南昌供电分公司 一种支持风险评估的电力舆情预测方法及装置
CN109636091B (zh) * 2018-10-26 2023-06-06 创新先进技术有限公司 一种需求文档风险识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080091634A1 (en) * 2006-10-15 2008-04-17 Lisa Seeman Content enhancement system and method and applications thereof
US20140172417A1 (en) * 2012-12-16 2014-06-19 Cloud 9, Llc Vital text analytics system for the enhancement of requirements engineering documents and other documents
JP2015170224A (ja) * 2014-03-07 2015-09-28 日本電信電話株式会社 文書要約装置、方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
稲垣 博人: "情報流通向けテキストコンテンツ要約手法について", 情報処理学会研究報告 VOL.98 NO.107, vol. 第98巻, JPN6012013844, 27 November 1998 (1998-11-27), JP, pages 17 - 24, ISSN: 0005026716 *

Also Published As

Publication number Publication date
US20200342019A1 (en) 2020-10-29
CN111858910A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
Chauhan et al. A comprehensive analysis of adverb types for mining user sentiments on amazon product reviews
US9152625B2 (en) Microblog summarization
US20130018824A1 (en) Sentiment classifiers based on feature extraction
JP4940399B2 (ja) 広告配信装置およびプログラム
WO2017107805A1 (zh) 确定商品对象标题文本的方法及装置
US20110295650A1 (en) Analyzing merchandise information for messiness
JP2020181387A (ja) 文書要約装置、文書要約システム、文書要約方法及びプログラム
Hirst et al. Changes in style in authors with Alzheimer's disease
JP2010537286A (ja) 領域辞書の作成
Coppersmith et al. Dynamic wordclouds and vennclouds for exploratory data analysis
JP2014153744A (ja) 情報検索装置及び情報検索プログラム
WO2016178337A1 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
JP2004192398A (ja) 情報処理装置および情報処理方法、並びに情報処理プログラム
JP5212204B2 (ja) 応答生成装置及びプログラム
JP5905652B1 (ja) データ評価システム、データ評価方法、およびデータ評価プログラム
EP3425531A1 (en) System, method, electronic device, and storage medium for identifying risk event based on social information
Mankar et al. Implicit sentiment identification using aspect based opinion mining
US9558269B2 (en) Extracting and mining of quote data across multiple languages
JP2009265770A (ja) 重要文提示システム
JP2009140048A (ja) 評判関係抽出装置、その方法およびプログラム
JP5187187B2 (ja) 体験情報検索システム
WO2012124213A1 (ja) 要約作成装置、要約作成方法、およびコンピュータ読み取り可能な記録媒体
JPS63175965A (ja) 文書処理装置
KR101409386B1 (ko) 웹 페이지 분석 장치 및 방법
Waber et al. Web mediators for accessible browsing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230324

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230404

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230526

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230822