JP7293322B1 - 文書作成システム、文書作成方法及び文書作成プログラム - Google Patents

文書作成システム、文書作成方法及び文書作成プログラム Download PDF

Info

Publication number
JP7293322B1
JP7293322B1 JP2021196125A JP2021196125A JP7293322B1 JP 7293322 B1 JP7293322 B1 JP 7293322B1 JP 2021196125 A JP2021196125 A JP 2021196125A JP 2021196125 A JP2021196125 A JP 2021196125A JP 7293322 B1 JP7293322 B1 JP 7293322B1
Authority
JP
Japan
Prior art keywords
abstract
event
sentence
document creation
events
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021196125A
Other languages
English (en)
Other versions
JP2023088336A (ja
Inventor
裕也 根本
正樹 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mizuho Research and Technologies Ltd
Original Assignee
Mizuho Research and Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mizuho Research and Technologies Ltd filed Critical Mizuho Research and Technologies Ltd
Priority to JP2021196125A priority Critical patent/JP7293322B1/ja
Application granted granted Critical
Publication of JP7293322B1 publication Critical patent/JP7293322B1/ja
Publication of JP2023088336A publication Critical patent/JP2023088336A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文章に含まれる抽象的事象と具体的事象とを組み合わせて要約文を作成する文書作成システム、文書作成方法及び文書作成プログラムを提供する。【解決手段】支援サーバ20は、制御部21と、教師情報を記録する教師情報記憶部22と、を備える。制御部21が、教師情報記憶部22に記録された文章に関連事象を関連付けた教師情報を用いて、文章から関連事象を分類する事象分類モデルを生成し、新たな文章を取得した場合、前記事象分類モデルを用いて関連事象を特定し、前記文章に含まれるキーワードに関連付けられた具体的事象を抽出し、前記関連事象及び前記具体的事象を用いて、要約文を作成する。【選択図】図1

Description

本開示は、文章の要約文を作成する文書作成システム、文書作成方法及び文書作成プログラムに関する。
文章を要約する技術が検討されている(例えば、特許文献1を参照。)。この特許文献に記載された文書要約装置は、入出力部が取得した入力文書から、重要語及び関連語を抽出する。そして、入力文書を形態素解析して得られる形態素リストを参照して、重要語又は関連語による要約文に対する誤解リスクを判定する。誤解リスクが所定の値以上であると判定した場合に、入力文書をトピック解析して得られたトピック語と重要語とを用いて要約文を生成し、生成した要約文を出力する。
特開2020-181387号公報
要約文を作成する場合、トピック語や重要語等、具体的なキーワードを抽出しただけでは、要約文の汎用性が低い場合がある。一方、抽象度が高い要約文の場合、汎用性があるが、具体的な内容をイメージしにくいことがある。また、文章には、所定のパターンにより構成される場合がある。例えば、報告文には、5W1Hを考慮したパターンで記載されることがある。このパターンを活かすことができなければ、的確で読みやすい要約文を作成することが困難である。
上記課題を解決する文書作成システムは、制御部と、教師情報を記録する教師情報記憶部と、を備える。そして、前記制御部が、前記教師情報記憶部に記録された文章に関連事象を関連付けた教師情報を用いて、前記文章から前記関連事象を分類する事象分類モデルを生成し、新たな文章を取得した場合、前記事象分類モデルを用いて関連事象を特定し、前記文章に含まれるキーワードに関連付けられた具体的事象を抽出し、前記関連事象及び前記具体的事象を用いて、要約文を作成する。
本開示によれば、文章に含まれる抽象的事象と具体的事象とを組み合わせて要約文を作成することができる。
本開示の文書作成システムの説明図である。 本開示のハードウェア構成の説明図である。 本開示の処理手順の説明図である。 本開示の報告文から要約文の生成手順の説明図である。
図1~図4に従って、文書作成システム、文書作成方法及び文書作成プログラムを具体化した一実施形態を説明する。本実施形態では、報告文から要約文を作成する場合を想定する。
ここでは、図4に示すように、報告文500から抽象的事象510と具体的事象520とを抽出する。抽象的事象510としては、報告文の関連事象として、利用機材・材料や動作・状況を分類する。また、具体的事象520としては、障害箇所や損傷箇所を特定する。そして、抽象的事象510と具体的事象520とを、要約文テンプレート530に挿入して、要約文540を生成する。
図1に示すように、本実施形態の文書作成システムは、ユーザ端末10、支援サーバ20を用いる。
(ハードウェア構成例)
図2は、ユーザ端末10、支援サーバ20等として機能する情報処理装置H10のハードウェア構成例である。
情報処理装置H10は、通信装置H11、入力装置H12、表示装置H13、記憶装置H14、プロセッサH15を有する。なお、このハードウェア構成は一例であり、他のハードウェアを有していてもよい。
通信装置H11は、他の装置との間で通信経路を確立して、データの送受信を実行するインタフェースであり、例えばネットワークインタフェースや無線インタフェース等である。
入力装置H12は、利用者等からの入力を受け付ける装置であり、例えばマウスやキーボード等である。表示装置H13は、各種情報を表示するディスプレイやタッチパネル等である。
記憶装置H14は、ユーザ端末10、支援サーバ20の各種機能を実行するためのデータや各種プログラムを格納する記憶装置である。記憶装置H14の一例としては、ROM、RAM、ハードディスク等がある。
プロセッサH15は、記憶装置H14に記憶されるプログラムやデータを用いて、ユーザ端末10、支援サーバ20における各処理(例えば、後述する制御部21における処理)を制御する。プロセッサH15の一例としては、例えばCPUやMPU等がある。このプロセッサH15は、ROM等に記憶されるプログラムをRAMに展開して、各種処理に対応する各種プロセスを実行する。例えば、プロセッサH15は、ユーザ端末10、支援サーバ20のアプリケーションプログラムが起動された場合、後述する各処理を実行するプロセスを動作させる。
プロセッサH15は、自身が実行するすべての処理についてソフトウェア処理を行なうものに限られない。例えば、プロセッサH15は、自身が実行する処理の少なくとも一部についてハードウェア処理を行なう専用のハードウェア回路(例えば、特定用途向け集積回路:ASIC)を備えてもよい。すなわち、プロセッサH15は、以下で構成し得る。
(1)コンピュータプログラム(ソフトウェア)に従って動作する1つ以上のプロセッサ
(2)各種処理のうち少なくとも一部の処理を実行する1つ以上の専用のハードウェア回路、或いは
(3)それらの組み合わせ、を含む回路(circuitry)
プロセッサは、CPU並びに、RAM及びROM等のメモリを含み、メモリは、処理をCPUに実行させるように構成されたプログラムコード又は指令を格納している。メモリすなわちコンピュータ可読媒体は、汎用又は専用のコンピュータでアクセスできるあらゆる利用可能な媒体を含む。
(各情報処理装置の機能)
図1を用いて、ユーザ端末10、支援サーバ20の機能を説明する。
ユーザ端末10は、本システムを利用するユーザが用いるコンピュータ端末である。
支援サーバ20は、報告文から要約文を生成するコンピュータシステムである。この支援サーバ20は、制御部21、教師情報記憶部22、学習結果記憶部23を備えている。
制御部21は、後述する処理(取得段階、学習段階、要約段階等を含む処理)を行なう。このための文書作成プログラムを実行することにより、制御部21は、取得部210、学習部211、要約部212等として機能する。
取得部210は、ユーザ端末10から教師情報や、要約対象の報告文を取得する処理を実行する。
学習部211は、報告文に含まれる抽象的事象を特定するための事象分類モデルを生成する処理を実行する。
要約部212は、報告文から抽象的事象と具体的事象とを抽出して要約文を作成する処理を実行する。
教師情報記憶部22には、学習に用いる教師情報が記録される。この教師情報は、教師情報の作成処理が行なわれた場合に記録される。教師情報には、報告文を構成する単語と、その報告文から抽出された抽象的事象に関するデータが記録される。この抽象事象は、報告文から、人手によって作成された要約文に含まれる抽象事象に対応する単語を用いる。
学習結果記憶部23には、報告文から抽象的事象を分類する事象分類モデルが記録される。この事象分類モデルは、学習処理の実行時に記録される。
(学習時処理及び作成時処理)
次に、図3を用いて、学習時処理及び作成時処理を説明する。
(学習時処理)
まず、抽象的事象を抽出するための事象分類モデルの学習時処理を説明する。
ここでは、支援サーバ20の制御部21は、形態素分析処理を実行する(ステップS11)。具体的には、制御部21の取得部210は、ユーザ端末10から、教師情報として「報告文、要約文の抽象的事象」のデータセットを取得する。次に、取得部210は、報告文を形態素分析により、品詞に分けて、報告文に含まれる名詞群を抽出する。次に、取得部210は、「報告文を構成する名詞群、要約文の抽象的事象」のデータセットを教師情報記憶部22に記録する。
次に、支援サーバ20の制御部21は、機械学習処理を実行する(ステップS12)。具体的には、制御部21の学習部211は、報告文に含まれる名詞群を入力して、要約文に用いる抽象的事象を出力する事象分類モデルを生成する。この場合、入力には、単語(名詞)そのものを用いてもよいし、単語の分散表現を用いてもよい。そして、学習部211は、生成した事象分類モデルを、学習結果記憶部23に記録する。
(作成時処理)
次に、要約文の作成時処理を説明する。
ここでは、支援サーバ20の制御部21は、形態素分析処理を実行する(ステップS21)。具体的には、制御部21の取得部210は、ユーザ端末10から、要約文を作成する報告文(対象文)を取得する。そして、取得部210は、報告文を形態素分析により、品詞に分けて、報告文に含まれる名詞群を抽出する。
次に、支援サーバ20の制御部21は、抽象的事象の特定処理を実行する(ステップS22)。具体的には、制御部21の要約部212は、学習結果記憶部23に記録された事象分類モデルに、報告文に含まれる名詞群を入力して、抽象的事象を抽出する。
次に、支援サーバ20の制御部21は、対象文の分割処理を実行する(ステップS23)。具体的には、制御部21の取得部210は、対象文を、読点を用いて、複数の文に分割する。
次に、支援サーバ20の制御部21は、キーワード検索処理を実行する(ステップS24)。具体的には、制御部21の要約部212は、分割した複数の文から、具体的事象を抽出するためのキーワードを検索する。例えば、障害箇所又は損傷箇所に関する記載を抽出する場合には、それぞれ「障害」又は「損傷」というキーワードが含まれる文を検索する。
次に、支援サーバ20の制御部21は、キーワード文があるかどうかについての判定処理を実行する(ステップS25)。具体的には、制御部21の要約部212は、「障害」又は「損傷」というキーワードが含まれる文を特定した場合には、キーワード文があると判定する。
キーワード文があると判定した場合(ステップS25において「YES」の場合)、支援サーバ20の制御部21は、キーワードに応じた具体的事象の特定処理を実行する(ステップS26)。具体的には、制御部21の要約部212は、キーワード文において、キーワードに関連する単語を具体的事象として特定する。例えば、キーワード文において、「障害」又は「損傷」に対して、利用機材・材料の部位を具体的事象として特定する。例えば、「障害した」又は「損傷した」の用言を説明(修飾)するための助詞(「に」や「を」)が付加された名詞を、具体的事象として特定する。
一方、キーワード文がないと判定した場合(ステップS25において「NO」の場合)、支援サーバ20の制御部21は、キーワードに応じた具体的事象の特定処理(ステップS26)をスキップする。
次に、支援サーバ20の制御部21は、テンプレートを用いて要約文生成処理を実行する(ステップS27)。具体的には、制御部21の要約部212は、抽出した抽象的事象を要約文テンプレートに組み込んで要約文を生成する。ここでは、「〔利用機材・材料〕での〔動作・状況〕によって」の〔利用機材・材料〕、〔動作・状況〕に、抽象的事象を組み込む。
更に、具体的事象を特定した場合には、要約部212は、特定した具体的事象を要約文テンプレートに組み込む。ここでは、「〔障害箇所・損傷箇所〕に障害・損傷が発生」の〔障害箇所・損傷箇所〕に、具体的事象を組み込む。
なお、具体的事象が特定しない場合には、具体的事象が含まれない要約文テンプレート「障害・損傷」を用いる。
本実施形態によれば、以下のような効果を得ることができる。
(1)本実施形態においては、支援サーバ20の制御部21は、機械学習処理を実行する(ステップS12)。そして、支援サーバ20の制御部21は、抽象的事象の特定処理を実行する(ステップS22)。これにより、報告文から、利用機材・材料や動作・状況等の抽象的事象を分類することができる。この抽象的事象により、汎用性がある要約文を作成することができる。
(2)本実施形態においては、支援サーバ20の制御部21は、対象文の分割処理(ステップS23)、キーワード検索処理(ステップS24)、キーワード文があるかどうかについての判定処理(ステップS25)を実行する。これにより、具体的事象を特定するための領域を抽出することができる。
(3)本実施形態においては、支援サーバ20の制御部21は、キーワードに応じた具体的事象の特定処理を実行する(ステップS26)。これにより、報告文から具体的事象を抽出することができる。
(4)本実施形態においては、支援サーバ20の制御部21は、テンプレートを用いて要約文生成処理を実行する(ステップS27)。これにより、抽象的事象と具体的事象とを組み合わせた要約文を作成することができる。従って、文章内容に応じて、抽象化して記載したい部分と、具体的に記載したい部分とを合わせて、汎用性があり、具体的なイメージが伝わる要約文を作成することができる。特に、5W1Hを考慮したテンプレートを用いることにより、文法に則って定型化されたパターン(構造文)の要約文を作成することができる。
本実施形態は、以下のように変更して実施することができる。本実施形態及び以下の変更例は、技術的に矛盾しない範囲で互いに組み合わせて実施することができる。
・上記実施形態では、支援サーバ20の制御部21は、対象文の分割処理(ステップS23)、キーワード検索処理(ステップS24)、キーワードに応じた具体的事象の特定処理(ステップS26)を実行する。これにより、具体的事象を特定する。具体的事象の特定方法は、これに限定されるものではない。例えば、抽象的事象に関連付けて、要約文テンプレートやキーワード文の特定方法を変更してもよい。この場合には、支援サーバ20に、抽象的事象に関連付けて、要約文テンプレートやキーワード文の特定方法を記憶させておく。例えば、要約文テンプレートやキーワード文の特定方法において、抽象的事象が「人」に関する報告文の場合には、「負傷」を用いる。そして、例えば、抽象的事象として、「利用物」、「事故発生時の動作」を特定し、具体的事象として「受傷した体の部位」を特定する。
・上記実施形態では、報告文から要約文を作成する場合を想定した。要約文の作成対象は、文章であれば、報告文に限定されるものではない。
・上記実施形態では、抽象的事象510としては、利用機材・材料や動作・状況を分類する。抽象的事象は、報告文に関連する事象であれば、これらに限定されるものではない。例えば、文章の背景、種類等であってもよい。
10…ユーザ端末、20…支援サーバ、21…制御部、210…取得部、211…学習部、212…要約部、22…教師情報記憶部、23…学習結果記憶部。

Claims (5)

  1. 制御部と、教師情報を記録する教師情報記憶部と、を備えた文書作成システムであって、
    前記制御部が、
    前記教師情報記憶部に記録された文章を構成する名詞群、及び要約文の抽象的事象を関連付けた教師情報を用いて、前記文章から前記抽象的事象を分類する事象分類モデルを生成し、
    新たな文章を取得した場合、前記文章に含まれる名詞群を抽出し、前記名詞群に対して前記事象分類モデルを用いて抽象的事象を特定し、
    前記文章に含まれるキーワードを検索し、前記キーワードに関連付けられた具体的事象を、前記文章から抽出し、
    前記抽象的事象及び前記具体的事象をテンプレートに挿入して、要約文を作成することを特徴とする文書作成システム。
  2. 前記制御部が、前記特定した抽象的事象により、前記要約文の作成に用いるテンプレートを特定することを特徴とする請求項に記載の文書作成システム。
  3. 前記制御部が、前記特定した抽象的事象により、前記具体的事象の特定方法を変更することを特徴とする請求項1又は2に記載の文書作成システム。
  4. 制御部と、教師情報を記録する教師情報記憶部と、を備えた文書作成システムを用いて、要約文を作成する方法であって、
    前記制御部が、
    前記教師情報記憶部に記録された文章を構成する名詞群、及び要約文の抽象的事象を関連付けた教師情報を用いて、前記文章から前記抽象的事象を分類する事象分類モデルを生成し、
    新たな文章を取得した場合、前記文章に含まれる名詞群を抽出し、前記名詞群に対して前記事象分類モデルを用いて抽象的事象を特定し、
    前記文章に含まれるキーワードを検索し、前記キーワードに関連付けられた具体的事象を、前記文章から抽出し、
    前記抽象的事象及び前記具体的事象をテンプレートに挿入して、要約文を作成することを特徴とする文書作成方法。
  5. 制御部と、教師情報を記録する教師情報記憶部と、を備えた文書作成システムを用いて、要約文を作成するためのプログラムであって、
    前記制御部を、
    前記教師情報記憶部に記録された文章を構成する名詞群、及び要約文の抽象的事象を関連付けた教師情報を用いて、前記文章から前記抽象的事象を分類する事象分類モデルを生成し、
    新たな文章を取得した場合、前記文章に含まれる名詞群を抽出し、前記名詞群に対して前記事象分類モデルを用いて抽象的事象を特定し、
    前記文章に含まれるキーワードを検索し、前記キーワードに関連付けられた具体的事象を、前記文章から抽出し、
    前記抽象的事象及び前記具体的事象をテンプレートに挿入して、要約文を作成する手段として機能させるための文書作成プログラム。
JP2021196125A 2021-12-02 2021-12-02 文書作成システム、文書作成方法及び文書作成プログラム Active JP7293322B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021196125A JP7293322B1 (ja) 2021-12-02 2021-12-02 文書作成システム、文書作成方法及び文書作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021196125A JP7293322B1 (ja) 2021-12-02 2021-12-02 文書作成システム、文書作成方法及び文書作成プログラム

Publications (2)

Publication Number Publication Date
JP7293322B1 true JP7293322B1 (ja) 2023-06-19
JP2023088336A JP2023088336A (ja) 2023-06-27

Family

ID=86772558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021196125A Active JP7293322B1 (ja) 2021-12-02 2021-12-02 文書作成システム、文書作成方法及び文書作成プログラム

Country Status (1)

Country Link
JP (1) JP7293322B1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002024144A (ja) 2000-07-05 2002-01-25 Nippon Telegr & Teleph Corp <Ntt> 電子メール転送方法及び装置及び電子メール転送プログラムを格納した記憶媒体
JP2011087005A (ja) 2009-10-13 2011-04-28 Neikusu:Kk 通話音声要約生成システム、その方法及び通話音声要約生成プログラム
JP2013050853A (ja) 2011-08-31 2013-03-14 Fuji Xerox Co Ltd 含意関係判定装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002024144A (ja) 2000-07-05 2002-01-25 Nippon Telegr & Teleph Corp <Ntt> 電子メール転送方法及び装置及び電子メール転送プログラムを格納した記憶媒体
JP2011087005A (ja) 2009-10-13 2011-04-28 Neikusu:Kk 通話音声要約生成システム、その方法及び通話音声要約生成プログラム
JP2013050853A (ja) 2011-08-31 2013-03-14 Fuji Xerox Co Ltd 含意関係判定装置及びプログラム

Also Published As

Publication number Publication date
JP2023088336A (ja) 2023-06-27

Similar Documents

Publication Publication Date Title
US9697477B2 (en) Non-factoid question-answering system and computer program
JP2007141090A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2007517338A (ja) サーチ品質の改善システムおよび改善方法
US20170011114A1 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
US20090112845A1 (en) System and method for language sensitive contextual searching
Avner et al. Identifying translationese at the word and sub-word level
JP7381052B2 (ja) 問合せ対応支援装置、問合せ対応支援方法、プログラム及び記録媒体
CN108776677B (zh) 平行语句库的创建方法、设备及计算机可读存储介质
De Felice et al. Automatically acquiring models of preposition use
Glass et al. A naive salience-based method for speaker identification in fiction books
JP2000331032A (ja) 文書処理装置、単語抽出装置及び単語抽出方法
CN109992651A (zh) 一种问题目标特征自动识别和抽取方法
JP2006323517A (ja) テキスト分類装置およびプログラム
JP7293322B1 (ja) 文書作成システム、文書作成方法及び文書作成プログラム
Ye et al. Towards Automatic Animated Storyboarding.
KR102395926B1 (ko) 복합명사 분석장치 및 방법, 컴퓨터 프로그램
JP3743204B2 (ja) データ分析支援方法および装置
JP2011123565A (ja) Faq候補抽出システムおよびfaq候補抽出プログラム
US20220334808A1 (en) Methods, systems, and computer readable media for creating and using minimum dictionary language (mdl) to access data in closed-domain data sets
KR102372629B1 (ko) 포인터 네트워크를 이용한 트리플 추출방법 및 그 추출장치
JP2008282328A (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
CA2363017C (en) Multi-document summarization system and method
Milidiú et al. Portuguese corpus-based learning using ETL
JP2011198051A (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム
WO2023112101A1 (ja) コンピュータ言語処理における文書抽出プログラムを記憶した非一時的記憶媒体、意味的に類似する文書抽出方法および言語処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230509

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230607

R150 Certificate of patent or registration of utility model

Ref document number: 7293322

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150