JP2021111242A - 要約文生成方法、要約文生成プログラムおよび要約文生成装置 - Google Patents

要約文生成方法、要約文生成プログラムおよび要約文生成装置 Download PDF

Info

Publication number
JP2021111242A
JP2021111242A JP2020004021A JP2020004021A JP2021111242A JP 2021111242 A JP2021111242 A JP 2021111242A JP 2020004021 A JP2020004021 A JP 2020004021A JP 2020004021 A JP2020004021 A JP 2020004021A JP 2021111242 A JP2021111242 A JP 2021111242A
Authority
JP
Japan
Prior art keywords
sentence
expression
parenthesis expression
word
parenthesis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020004021A
Other languages
English (en)
Inventor
伸之 片江
Nobuyuki Katae
伸之 片江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2020004021A priority Critical patent/JP2021111242A/ja
Publication of JP2021111242A publication Critical patent/JP2021111242A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】指定された要約長の制限内で、入力文書の重要な情報をできるだけ損なわない要約文書を生成することを課題とする。【解決手段】要約文書生成装置は、入力文に含まれる括弧表現を特定する。続いて、要約文書生成装置は、入力文の中で、括弧表現の直前の第1の単語および括弧表現に含まれる第2の単語を抽出する。そして、要約文書生成装置は、文書群の中で、抽出された第1の単語と第2の単語とを含む文書の数を示す共起数を算出する。そして、要約文書生成装置は、共起数に基づいて、入力文から括弧表現を削除した要約文を生成する。【選択図】図1

Description

本発明は、要約文生成技術に関する。
近年、様々な場面で文書要約のニーズが高まっている。例えば、新聞社のニュース配信では、紙媒体、Web、電光掲示板など多様なメディアごとに文字数の異なる要約記事を生成することが要求されており、その作業の効率化が進められている。
文書要約は、指定された要約文字数の制限内であること、入力文書の重要な情報をできるだけ損なわないこと、自然な文で構成されていることなどの要件があり、文書要約の手法は、適用場面に応じて使い分けられる。その手法の1つとして、入力文書に含まれる文、句、単語を抽出し、それらを組み合わせることで要約文書を生成する抽出型要約が利用されている。
一般的に、抽出型要約の手法では、入力文書から重要な文書を抽出する「重要文抽出」と抽出した文を要約する「文短縮」が実行される。なお、重要文抽出だけでは、文中の冗長な部分が含まれることにより入力文書の重要情報が欠落する場合があるので、文短縮を施す場合が多い。
文短縮には、構文木の枝刈りによる手法、単語間の連接確率に基づく手法、表層的特徴に基づく手法などが利用されるが、特に、非文や不自然な文を生成し難いという利点がある表層的特徴に基づく手法の一つである「括弧表現に基づく削除」が広く利用されている。括弧表現を削除するか否かは、構成する単語や品詞の種類の違いで括弧表現を分類し、その分類に基づくルールや統計値で判定される。括弧表現とは、例えば、開き括弧記号、閉じ括弧記号、およびそれらに囲まれた文字列を合わせた文字列を示す。また、さらに開き括弧記号の直前の単語を含めて括弧表現と称する場合もある。
特開2012−212329号公報 特開2003−271590号公報 特開平11−328205号公報
しかしながら、上記技術では、新聞記事の要約等において、括弧表現が直前の内容の補足などを記述している場合に、要約文書が入力文書の重要な情報を損なう場合がある。
具体的には、文書要約の適用先の1つである新聞記事要約において、括弧表現が直前の内容を補足する記述の場合、括弧表現を構成する単語や品詞のパターンの分類では、括弧表現を削除するか否かを正しく判定することが難しい。特に、同じ括弧表現を削除した要約事例が過去にある場合はそれを踏襲できるが、それがない場合には削除適否の判定が困難である。
例えば、括弧表現のパターンが「名称(ふりがな)」や「ランドマーク名(所在地)」などの場合、括弧表現を削除しても、元の文書の重要な情報も損なわずに、自然な文を維持できる。一方、「企業名(略語)」や「商品名(通称)」などの場合、略語や通称の浸透度により、削除することで重要な情報が損なわれることがある。
一つの側面では、指定された要約長の制限内で、入力文書の重要な情報をできるだけ損なわない要約文書を生成することができる要約文生成方法、要約文生成プログラムおよび要約文生成装置を提供することを目的とする。
第1の案では、要約文生成方法は、コンピュータが、入力文に含まれる括弧表現を特定し、前記入力文の中で、前記括弧表現の直前の第1の単語および前記括弧表現に含まれる第2の単語を抽出する処理を実行する。要約文生成方法は、コンピュータが、文書群の中で、抽出された前記第1の単語と前記第2の単語とを含む文書の数を示す共起数を算出し、前記共起数に基づいて、前記入力文から前記括弧表現を削除した要約文を生成する処理を実行する。
一実施形態によれば、指定された要約長の制限内で、入力文書の重要な情報をできるだけ損なわない要約文書を生成することができる。
図1は、実施例1にかかる要約文書生成装置を説明する図である。 図2は、括弧表現の削除判断が容易な例を説明する図である。 図3は、括弧表現の削除判断が難しい例を説明するための図である。 図4は、括弧表現の削除判断が難しい例を説明するための図である。 図5は、実施例1にかかる要約文書生成装置の機能構成を示す機能ブロック図である。 図6は、要約対象の記事の例を示す図である。 図7は、分類定義DBに記憶される括弧表現分類ルールを示す図である。 図8は、削除確率DBに記憶される情報の例を示す図である。 図9は、括弧表現の分類の特定例を説明する図である。 図10は、共起数に基づく判定例を説明する図である。 図11は、文書の要約結果例を説明する図である。 図12は、実施例1にかかる要約文書生成処理の流れを示すフローチャートである。 図13は、実施例2にかかる要約文書生成装置の機能構成を示す機能ブロック図である。 図14は、重要度の算出結果を示す図である。 図15は、文書全体の統一的な調整例(削除)を説明する図である。 図16は、文書全体の統一的な調整例(残留)を説明する図である。 図17は、文書全体の統一的な調整例(残留)を説明する図である。 図18は、要約文書生成の流れを説明する図である。 図19は、要約文書生成の流れを説明する図である。 図20は、要約文書生成の流れを説明する図である。 図21は、実施例2にかかる要約文書生成処理の流れを説明するフローチャートである。 図22は、実施例2にかかる削除判定処理の流れを説明するフローチャートである。 図23は、閾値の設定例を説明する図である。 図24は、ハードウェア構成例を説明する図である。
以下に、本願の開示する要約文生成方法、要約文生成プログラムおよび要約文生成装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
[要約文書生成装置の説明]
図1は、実施例1にかかる要約文書生成装置10を説明する図である。図1に示す要約文書生成装置10は、入力文書を自動的に短く簡潔な文書に変換する文書要約を実行して、入力文書を要約した要約文書(以下では、「要約書」と記載する場合がある)を生成するコンピュータ装置の一例である。
要約文書生成装置10は、入力文書から重要な文書を抽出する「重要文抽出」と、抽出した文を要約する「文短縮」とを含む「抽出型要約」を実行して、要約文書を生成する。また、要約文書生成装置10は、文短縮において、表層的特徴に基づく方法の一つである括弧表現に基づく削除を実行することで、入力文書の重要な情報をできるだけ損なわない要約文書を生成する。
ここで、括弧表現を削除するか否かは、構成する単語や品詞の種類の違いで括弧表現を分類し、その分類に基づくルールや統計値で判定することが一般的である。
図2は、括弧表現の削除判断が容易な例を説明する図である。図2では、「分類ルール,削除判断」として「名称(ふりがな),削除」や「ランドマーク(所在地),残留」などを予め定めておく。この結果、図2に示すように、入力文書に含まれる「×島(ばつしま)」と「姨捨駅(千曲市)」とについて、削除判定が実行される。具体的には、「×島(ばつしま)」は、「名称(ふりがな),削除」に該当するので、括弧表現が削除されて「×島」と要約される。また、「姨捨駅(千曲市)」は、「ランドマーク(所在地),残留」に該当するので、括弧表現は削除されずそのままの状態で維持される。
ところが、括弧表現が直前の内容を補足する記述の場合、括弧表現を構成する単語や品詞のパターンの分類では、括弧表現を削除するか否かを正しく判定することが難しいことがある。特に、同じ括弧表現を削除した要約事例が過去にある場合はそれを踏襲できるが、それがない場合には判定が困難である。
図3と図4は、括弧表現の削除判断が難しい例を説明するための図である。図3と図4では、入力文書に含まれる括弧表現を、上記分類ルールのように単語や品詞のパターンに当てはめることができない。
図3の例では、入力文書に「リニア〇〇新幹線(東京・品川−名古屋)」が存在する。削除判定対象である「リニア〇〇新幹線(東京・品川−名古屋)」に対しては、括弧表現である「(東京・品川−名古屋)」が「リニア〇〇新幹線」を補足説明するものである。
また、図4の例では、入力文書に「サッカーくじ(愛称〇〇)」が存在する。削除判定対象である「サッカーくじ(愛称〇〇)」に対しては、括弧表現である「(愛称〇〇)」が「サッカーくじ」を補足説明するものである。図3と図4の例はいずれも括弧表現が直前の単語を補足説明するものであるが、要約文書(正解)において、図3の例は括弧表現が削除され、図4の例は括弧表現が削除されていない。
このように、新聞記事の要約等で、括弧表現が直前の内容の補足などを記述している場合に、括弧表現を一律に削除すると要約文書が入力文書の重要な情報を損なう場合がある。そこで、図1に示す要約文書生成装置10は、括弧表現を構成する括弧表現の内容に関する認知度を考慮して判定する。
具体的には、図1に示すように、要約文書生成装置10は、入力文書から括弧表現を検出すると、上記分類ルールのように単語や品詞のパターンで削除判定を行う。ここで、要約文書生成装置10は、あらかじめ設定した分類パターンに該当する括弧表現については削除または残留を行う。一方、要約文書生成装置10は、あらかじめ設定した分類パターンに該当しない括弧表現については、括弧表現に関連する単語組の、当該記事の直前所定期間内の記事での共起数により、削除判定を行う。
このように、要約文書生成装置10は、括弧表現を構成する単語や品詞のパターンの分類では削除判定が難しい括弧表現について、括弧表現に関連する単語組の共起数により、削除可否を判定する。この結果、要約文書生成装置10は、指定された要約長の制限内で、入力文書の重要な情報をできるだけ損なわない要約文書を生成することができる。
[機能構成]
図5は、実施例1にかかる要約文書生成装置10の機能構成を示す機能ブロック図である。図5に示すように、要約文書生成装置10は、通信部11、記憶部12、制御部20を有する。
通信部11は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部11は、要約対象の文書を受信したり、生成された要約文書を送信したりする。
記憶部12は、データや制御部20が実行するプログラムなどを記憶する。なお、記憶部12は、例えばメモリやハードディスクなどにより実現される。この記憶部12は、記事DB13、分類定義DB14、削除確率DB15、要約文書DB16を記憶する。
記事DB13は、過去の記事や要約対象の記事などを記憶するデータベースである。例えば、記事DB13は、過去の新聞記事、過去の新聞記事の要約書、現在の要約対象の新聞記事等を記憶する。図6は、要約対象の記事の例を示す図である。図6に示す記事は、新聞等に記載された記事であり、複数の文から構成され、文には括弧表現などが含まれる。
具体的には、図6に示す要約対象の新聞記事は、「20××年の開業をめざすリニア〇〇新幹線(東京・品川―名古屋)の建設工事で、鉄道会社は13日、「東品川非常口」の工事現場を報道陣に公開した。」、「都市部の非常口の現場内部を公開するのは初めて。」、「公開されたのはリニア新幹線品川駅から南に約1・5キロ進んだ場所にある、リニア軌道用のトンネルを掘る大型掘削機を搬入するための巨大な縦穴(直径10メートル、深さ100メートル)。」などの複数の文などから構成される。
分類定義DB14は、削除対象となる括弧表現の分類パターンを記憶するデータベースである。図7は、分類定義DB14に記憶される括弧表現分類ルールを示す図である。図7に示すように、分類定義DB14は、「括弧表現分類、括弧表現分類ルール」を対応付けて記憶する。ここで記憶される「括弧表現分類」は、括弧表現の分類を示し、「括弧表現分類ルール」は、括弧表現分類を定義する情報である。
図7の例では、「[名詞−固有名詞−姓][名詞−固有名詞−名]?[名詞−接尾語]?[記号−括弧開][名詞−数詞]+[記号−括弧閉]」に該当する括弧表現が「人名(年齢)」に該当することを示す。なお、図7における「?」は直前の単語は省略可能であることを示し、「+」は直前の単語が1個以上繰り返しであることを示し、「(A|B)」はAまたはBであることを示す。
削除確率DB15は、分類定義DB14に記憶される各括弧表現分類の削除確率を記憶するデータベースである。図8は、削除確率DB15に記憶される情報の例を示す図である。図8に示すように、削除確率DB15は、「括弧表現分類、削除確率」を対応付けて記憶する。ここで記憶される「括弧表現分類」は、図7と同様であり、「削除確率」は、括弧表現分類に該当する括弧表現が削除された確率を示す。
図8の例では、「名称(ふりがな)」の(ふりがな)の削除確率が0.86であり、「人名(年齢)」の(年齢)の削除確率が0.03であることを示す。つまり、「名称(ふりがな)」の(ふりがな)は、過去に多く削除されており、「人名(年齢)」の(年齢)は、過去にあまり削除されていないことが示されている。なお、ここで記憶される情報は、管理者等により定期的に更新される。
要約文書DB16は、生成された要約文書を記憶するデータベースである。例えば、要約文書DB16は、要約対象の入力文書と、要約後の要約文書とを対応付けて記憶する。
制御部20は、要約文書生成装置10全体を司る処理部であり、例えばプロセッサなどで実現される。この制御部20は、記事抽出部21、形態素解析部22、要約部23を有する。なお、記事抽出部21、形態素解析部22、要約部23は、プロセッサが有する電子回路やプロセッサが実行するプロセスなどで実現することもできる。
記事抽出部21は、要約文書の生成対象となる入力文書を抽出する処理部である。具体的には、記事抽出部21は、記事DB13に記憶される記事を抽出し、記事に含まれる各文を抽出して形態素解析部22等に出力する。例えば、記事抽出部21は、図6に示す記事を抽出し、記事から「20××年の開業をめざすリニア〇〇新幹線(東京・品川―名古屋)の建設工事で、鉄道会社は13日、「東品川非常口」の工事現場を報道陣に公開した。」などの文を抽出する。
形態素解析部22は、記事抽出部21により抽出された文に対して形態素解析を実行して、形態素に分解する処理部である。例えば、形態素解析部22は、「20××年の開業をめざす・・・」を「2,0,×,×,年,の,開業,を,めざす,・・・」の形態素に分解し、要約部23に出力する。なお、形態素解析の手法は、公知の手法を用いることができる。
要約部23は、判定部24、確率的削除部25、共起的削除部26を有し、入力文書から要約文書を生成する処理部である。
判定部24は、入力文書に括弧表現が含まれるかを判定し、括弧表現が含まれる場合に、当該括弧表現が削除対象(または残留対象)となる分類パターンに該当するか否かを判定する処理部である。具体的には、判定部24は、形態素解析結果から「()」が検出できると、入力文書内に括弧表現が存在すると判定する。続いて、判定部24は、分類定義DB14の括弧表現分類ルールを参照し、入力文書内の括弧表現に該当する分類ルールが存在するか否かを判定する。
ここで、判定部24は、入力文書内の括弧表現が分類ルールに該当する場合は、確率的削除部25に括弧表現の削除判定を要求し、入力文書内の括弧表現が分類ルールに該当しない場合は、共起的削除部26に括弧表現の削除判定を要求する。
図9は、括弧表現の分類の特定例を説明する図である。図9に示すように判定部24は、入力文書「犯人隠避の罪に問われた元警部補特許太郎被告(35)の初公判は・・・」の形態素解析結果を取得する。そして、判定部24は、分類定義DB14を参照し、形態素結果に含まれる「特許,太郎,被告,(,3,5,)」が括弧表現分類ルール「[名詞−固有名詞−姓][名詞−固有名詞−名]?[名詞−接尾語]?[記号−括弧開][名詞−数詞]+[記号−括弧閉]」に該当することを検出する。この結果、判定部24は、括弧表現「特許,太郎,被告,(,3,5,)」が括弧表現分類「人名(年齢)」に該当すると判定する。そして、判定部24は、判定結果を確率的削除部25に出力する。
確率的削除部25は、判定部24から通知された括弧表現の削除確率に基づき、当該括弧表現の削除または残留を実行する処理部である。具体的には、確率的削除部25は、削除確率DB15を参照し、閾値A(例えば0.7)以上の削除確率である括弧表現を削除し、閾値B(例えば0.04)以下の削除確率である括弧表現を残留し、閾値Aから閾値Bの間の削除確率である括弧表現については共起的削除部26に削除判定を要求する。
共起的削除部26は、括弧表現に関連する単語組の、当該記事の直前所定期間内の記事での共起数に基づき、括弧表現の削除を実行する処理部である。具体的には、共起的削除部26は、括弧表現分類ルールに該当しない括弧表現や削除確率が閾値Aから閾値Bの間である括弧表現に対して、共起数に基づく削除判定を実行する。
例えば、共起的削除部26は、括弧直前の名詞連続と括弧内の内容語を抽出する。続いて、共起的削除部26は、抽出した単語組の、当該記事直前の所定期間内の記事での同一文書内の共起数を求める。そして、共起的削除部26は、共起数が所定個数以上の場合に当該括弧表現を削除と判定する。
図10は、共起数に基づく判定例を説明する図である。図10に示すように、共起的削除部26は、入力文書から括弧表現「××××団体(丸丸に改称)」を抽出し、括弧直前の名詞連続「××××団体」と括弧内の内容語「丸丸」と「改称」を抽出する(図10の(1)参照)。同様に、共起的削除部26は、入力文書から括弧表現「サッカーくじ(愛称〇〇)」を抽出し、括弧直前の名詞連続「サッカーくじ」と括弧内の内容語「愛称」と「〇〇」を抽出する。
続いて、共起的削除部26は、入力文書が含まれる記事の所定期間(例えば1年)内に発行された各記事において、同一文書内に「××××団体」と「丸丸」と「改称」との組が登場した文書の数「49件」を計数する(図10の(2)参照)。つまり、所定期間内に発行された文書群内に、「××××団体」と「丸丸」と「改称」のすべてが出現する文が49個あることを示している。同様に、共起的削除部26は、入力文書が含まれる記事の所定期間(例えば1年)内の各記事において、同一文書内に「サッカーくじ」と「愛称」と「〇〇」との組が登場した文書の数「0件」を計数する。
そして、共起的削除部26は、「単語ペア、共起数」として「(××××団体,丸丸,改称)、49」と「(サッカーくじ,愛称,〇〇)、0」を生成する。その後、共起的削除部26は、閾値C(例えば20)以上の共起数を有する単語ペアの括弧表現を削除可と判定して削除する。一方、共起的削除部26は、閾値C未満の共起数を有する単語ペアの括弧表現を削除不可と判定して残留させる。
上述した削除判定による結果を図11に示す。図11は、文書の要約結果例を説明する図である。図11に示すように、「××××団体(丸丸に改称)」の括弧表現である「(丸丸に改称)」は削除され、「サッカーくじ(愛称〇〇)」の括弧表現である「(愛称〇〇)」は残留する。そして、要約部23は、入力文書から生成した要約文書を要約文書DB16に格納したり、ディスプレイ等に表示したりする。
[処理の流れ]
図12は、実施例1にかかる要約文書生成処理の流れを示すフローチャートである。図12に示すように、形態素解析部22は、記事抽出部21により抽出された入力文書の形態素解析を実行する(S101)。
続いて、要約部23は、入力文書内のすべての括弧表現が処理済みか否かを判定し(S102)、未処理の括弧表現が存在する場合(S102:No)、未処理の括弧表現を抽出する(S103)。
そして、要約部23は、括弧表現を分類し(S104)、分類定義DB14において定義される分類に該当するか否かを判定する(S105)。
ここで、要約部23は、定義された分類に該当する場合(S105:No)、括弧表現の分類に基づき、分類定義DB14の括弧表現の削除確率を参照する(S106)。そして、要約部23は、削除確率が閾値A未満で(S107:No)、閾値Bより大きい場合(S108:No)、括弧内および括弧直前の単語組を抽出する(S109)。
続いて、要約部23は、所定期間内の抽出単語組の共起数を獲得する(S110)。そして、要約部23は、単語の共起数が閾値C未満である場合(S111:No)、括弧表現を削除不可と判定し(S112)、単語の共起数が閾値C以上である場合(S111:Yes)、括弧表現を削除可と判定する(S113)。
なお、S108において、要約部23は、括弧表現の削除確率が閾値B以下である場合(S108:Yes)、括弧表現を削除不可と判定する(S112)。また、S107において、要約部23は、括弧表現の削除確率が閾値A以上である場合(S107:Yes)、括弧表現を削除可と判定する(S113)。また、S105において、要約部23は、括弧表現が定義される分類に該当しない場合(S105:Yes)、S109を実行する。
[効果]
上述したように、要約文書生成装置10は、括弧表現を構成する単語や品詞のパターンの分類では、括弧表現の削除の可否を判定できない場合に、括弧表現を構成する括弧表現の内容に関する認知度を考慮して判定する。また、要約文書生成装置10は、認知度を、括弧表現に関連する単語組の、当該記事の直前所定期間内の記事での共起数によって求める。この結果、要約文書生成装置10は、入力文書の重要な情報をできるだけ損なわない要約文書を生成することができる。
ところで、要約文書の生成には、指定された要約長(文字数)の制限が設けられることが多い。その場合、1つの記事に含まれる各文を使用しつつ、要約長の範囲内で要約文書を生成することが要求される。そこで、実施例2では、要約長の範囲内で要約文書を生成する具体例について説明する。なお、実施例2では、図6に示した記事全体を要約する例で説明する。
[機能構成]
図13は、実施例2にかかる要約文書生成装置50の機能構成を示す機能ブロック図である。図13に示すように、要約文書生成装置50は、通信部51、記憶部52、制御部60を有する。
通信部51は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部51は、要約対象の入力文書を受信したり、生成された要約文書を送信したりする。
記憶部52は、データや制御部60が実行するプログラムなどを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部52は、記事DB53、分類定義DB54、削除確率DB55、要約文書DB56、一時格納DB57を記憶する。
なお、記事DB53、分類定義DB54、削除確率DB55、要約文書DB56は、実施例1で説明した記事DB13、分類定義DB14、削除確率DB15、要約文書DB16と同様の情報を記憶するので、詳細な説明は省略する。また、一時格納DB57は、要約文書の生成途中で生成や出力される各種情報を記憶するデータベースである。
制御部60は、要約文書生成装置50全体を司る処理部であり、例えばプロセッサなどである。この制御部60は、記事抽出部61、形態素解析部62、重要度算出部63、要約部64を有する。なお、記事抽出部61、形態素解析部62、重要度算出部63、要約部64は、プロセッサが有する電子回路の一例やプロセッサが実行するプロセスの一例などである。
記事抽出部61は、実施例1の記事抽出部21と同様、要約文書の生成対象となる入力文書を抽出する処理部である。また、形態素解析部62は、実施例1の形態素解析部22と同様、記事抽出部61により抽出された入力文書に対して形態素解析を実行して、形態素に分解する処理部である。
重要度算出部63は、要約対象の記事に含まれる各文の重要度を算出する処理部である。例えば、重要度算出部63は、文書内の位置や含まれる単語のtf(Term Frequency)−idf(Inverse Document Frequency)などにより、各文の重要度を算出する。また、重要度算出部63は、重要度を算出する際に、形態素結果などを用いて各文の文字数を計数する。
図14は、重要度の算出結果を示す図である。図14に示すように、図6に示す記事のうち、文書「20××年の開業をめざすリニア〇〇新幹線(東京・品川−名古屋)の建設工事で、鉄道会社は13日、「東品川非常口」の工事現場を報道陣に公開した。」の文字数が70文字で、重要度ランクが1位である。また、文「都市部の非常口の現場内部を公開するのは初めて。」の文字数が23文字で、重要度ランクが3位である。なお、重要度算出部63は、各文の重要度の算出結果を一時格納DB57に格納する。また、重要度ランク以外にも、各文が元の記事のどこに配置されていたかを示す位置情報などを対応付けることもできる。この結果、文を組み合わせるときに、元の記事と同様の位置関係で組み合わせることができる。
要約部64は、判定部65、確率的削除部66、共起的削除部67、調整部68を有し、入力文書から要約文書を生成する処理部である。
なお、判定部65は、実施例1で説明した判定部24と同様、入力文書に括弧表現が含まれるかを判定し、括弧表現が含まれる場合に、当該括弧表現が削除対象となる分類パターンに該当するか否かを判定する処理部である。
また、判定部65は、生成された要約文書がユーザの要件を満たすか否かを判定し、満たす場合には出力し、満たさない場合には、要約処理の継続を要求する。例えば、判定部65は、記事に含まれる文のうち未処理の文が存在する場合は、要約部64に要約処理の継続を要求し、次の重要度に対して括弧表現の判定処理を実行させる。また、判定部65は、記事に含まれる文のうち未処理の文が存在せず、ユーザが要求する文字数内の要約文書が生成された場合、生成された要約文書を要約文書DB56等に出力する。
確率的削除部66は、実施例1で説明した確率的削除部25と同様、括弧表現の削除確率に基づき、当該括弧表現の削除または残留を実行する処理部である。また、共起的削除部67は、実施例1で説明した共起的削除部36と同様、括弧表現に関連する単語組の、当該記事の直前所定期間内の記事での共起数に基づき、括弧表現の削除を実行する処理部である。
調整部68は、確率的削除部66や共起的削除部67による、ある文に対する括弧表現の削除結果を、当該のある文を含む記事全体で統一的に処理する処理部である。
具体的には、調整部68は、括弧表現の削除の仕方を文書全体で統一するために、括弧表現を削除した場合に、同一分類の括弧表現は文書全体にわたって同様に削除する。図15は、文書全体の統一的な調整例(削除)を説明する図である。
図15に示すように、第1文における括弧表現の削除判定では、「松本城(松本市)」が残留された状態で、その後の第2文における括弧表現の削除判定が実行される(図15の(a)参照)。そして、第2文の括弧表現の削除判定において、分類「ランドマーク(所在地)」に該当する「善光寺(長野県)」の(長野県)が削除されたとする(図15の(b)参照)。
この場合、調整部68は、第1文と第2文に含まれる、「善光寺(長野県)」に対応する分類「ランドマーク(所在地)」の(所在地)を削除する。例えば、調整部68は、第2文に含まれる(諏訪市)と(安曇野市)を削除するとともに、第1文に含まれる(松本市)も削除する。このように、調整部68は、すでに判定済みであっても、統一性を持たせるために、全体的な調整を実行する。
また、調整部68は、括弧表現内の単語が、重要語として他に選択された文に含まれる場合は、削除対象から除外する。図16は、文書全体の統一的な調整例(残留)を説明する図である。図16に示すように、調整部68は、括弧表現ではない「W杯」が第2文に含まれるので、参照元の欠落を回避するために、第1文の括弧表現「(W杯)」は削除しない。
また、調整部68は、削除した括弧表現を復帰(復元)させることもできる。図17は、文書全体の統一的な調整例(残留)を説明する図である。図17に示すように、調整部68は、第1文に含まれる括弧表現「(W杯)」を削除した後、第2文で括弧表現ではない「W杯」が重要単語として登場した場合、参照元の欠落を回避するために、削除した第1文の括弧表現「(W杯)」を復帰させる。なお、重要単語か否かの判定は、文書全体の登場数が閾値上である単語、予め指定される単語、強調表示された単語などにより判定することができる。
[具体例]
次に、図18から図20を用いて、図6に示した要約文書と図14に示した重要度ランクを例にして、要約文書生成の具体例を説明する。図18、図19、図20は、要約文書生成の流れを説明する図である。なお、ここでは、要約文書の文字数指定(指定要約長)を150文字とする。
まず、図18の(1)に示すように、判定部65は、重要度ランク1位の文「20××年の〜リニア〇〇新幹線(東京・品川−名古屋)〜公開した。」を取得して仮選択する。ここで、判定部65は、選択した文書の文字数が70文字であり、指定文字数(150文字)以内であることから、仮選択した文の選択を確定する。
次に、図18の(2)に示すように、判定部65は、重要度ランク2位の文「公開されたのは、〜巨大な縦穴(直径10メートル、深さ100メートル)。」を取得して仮選択する。
ここで、図18の(3)に示すように、判定部65は、選択確定+仮選択中の文の合計文字数が「70+87=157」であり、指定文字数(150文字)を超過することから、選択確定+仮選択中の文から括弧表現を探索する。この結果、判定部65は、括弧表現「リニア〇〇新幹線(東京・品川−名古屋)」を探索し、この括弧表現が括弧表現分類ルールに該当しないことから、共起的削除部67に処理を要求する。
続いて、図19の(4)に示すように、この要求を受けた共起的削除部67は、括弧表現「リニア〇〇新幹線(東京・品川−名古屋)」を単語「リニア〇〇新幹線,東京・品川,名古屋」に分割し、過去記事を参照して、共起数を計数する。そして、共起的削除部67は、共起数が閾値以上であることから括弧表現「リニア〇〇新幹線(東京・品川−名古屋)」の「(東京・品川−名古屋)」を削除する。この括弧表現の削除により、判定部65は、選択確定+仮選択中の文の文字数が「146」となったことから、仮選択していた重要度ランク2位の文の選択を確定する。
その後、図19の(5)に示すように、判定部65は、次の重要度ランク3位の文「都市部の非常口の現場内部を公開するのは初めて。」を取得して仮選択する。そして、判定部65は、選択確定+仮選択中の文の合計文字数が「146+23=169」であり、指定文字数(150文字)を超過することから、選択確定+仮選択中の文から括弧表現を探索する。
続いて、図20の(6)に示すように、判定部65は、括弧表現「縦穴(直径10メートル、深さ100メートル)」を探索し、この括弧表現が括弧表現分類ルールに該当しないことから、共起的削除部67に処理を要求する。そして、共起的削除部67は、括弧表現「縦穴(直径10メートル、深さ100メートル)」を単語に分割し、過去記事を参照して、共起数を計数する。ここで、共起的削除部67は、共起数が閾値未満であることから「(直径10メートル、深さ100メートル)」を削除不可と判定し、残留させる。
この結果、図20の(7)に示すように、判定部65は、重要度ランク3位の文「都市部の非常口の現場内部を公開するのは初めて。」を選択不可として、次の重要度ランク4の文を仮選択して上記処理を実行する。
このように、要約文書生成装置50は、入力文書内の重要度ランクの高い文から仮選択して、指定文字数と比較し、括弧表現の削除や残留を繰り返して、要約文書「20××年の開業をめざすリニア○○新幹線の建設工事で、鉄道会社は13日、「東品川非常口」の工事現場を報道陣に公開した公開されたのはリニア新幹線品川駅から南に約1・5キロ進んだ場所にある、リニア軌道用のトンネルを掘る大型掘削機を搬入するための巨大な縦穴直径10メートル、深さ100メートル)。」を生成することができる。
[処理の流れ]
図21は、実施例2にかかる要約文書生成処理の流れを説明するフローチャートである。図21に示すように、制御部60は入力文書および指定要約長(文字数)を受け付ける(S201)。続いて、重要度算出部63は、入力文書(記事)の各文の重要度を算出する(S202)。
そして、要約部64は、未選択の文の中で、最も重要度の高い文を仮選択する(S203)。ここで、要約部64は、仮選択の文を追加して指定要約長に収まる場合(S204:Yes)、仮選択文を選択確定にする(S205)。その後、S203以降が実行される。
一方、要約部64は、仮選択の文を追加して指定要約長に収まらない場合(S204:No)、括弧表現の削除判定処理を実行する(S206)。
その後、要約部64は、括弧表現の削除判定処理により、指定要約長に収まった場合(S207:Yes)、仮選択文を選択確定にする(S205)。その後、S203以降が実行される。
一方、要約部64は、括弧表現の削除判定処理でも、指定要約長に収まらない場合(S207:No)、選択確定した文の、削除可と判定した括弧表現を削除する(S208)。続いて、要約部64は、選択確定した文を出現順に並び替え(S209)、その結果を要約文書として出力する(S210)。
(削除判定処理)
次に、S206で実行される削除判定処理の流れを説明する。図22は、実施例2にかかる削除判定処理の流れを説明するフローチャートである。図22に示すように、要約部64は、仮選択文および選択確定した文の中に未判定の括弧表現が存在するかを判定する(S301)。
続いて、要約部64は、判定の括弧表現が存在する場合(S301:Yes)、仮選択文および選択確定した文の中から、未判定の括弧表現を1個探索する(S302)。そして、要約部64は、当該括弧表現内の単語が他の選択文に出現するかを判定する(S303)。
ここで、要約部64は、括弧表現内の単語が他の選択文に出現しない場合(S303:No)、当該括弧表現の分類に基づき、削除確率を参照し(S304)、定義した分類に該当するか否かを判定する(S305)。
そして、要約部64は、対象の括弧表現が定義した分類に該当し(S305:No)、当該括弧表現の削除確率が閾値Bより大きく(S306:No)、閾値A以上である場合(S307:Yes)、当該括弧表現を削除可と判定する(S308)。
続いて、要約部64は、仮選択文および選択確定した文の中に同じ分類の括弧表現があれば削除可と判定する(S309)。そして、要約部64は、指定要約長に収まった場合(S310:Yes)、括弧表現の削除可を返却し、図21のS207の処理を実行する。一方、要約部64は、指定要約長に収まらない場合(S310:No)、S301に戻って、以降の処理を実行する。
また、S303において、要約部64は、括弧表現内の単語が他の選択文に出現する場合(S303:Yes)、当該括弧表現を削除不可と判定し(S311)、S301に戻って、以降の処理を実行する。
同様に、S306において、要約部64は、該括弧表現の削除確率が閾値B以下の場合(S306:Yes)、当該括弧表現を削除不可と判定し(S311)、S301に戻って、以降の処理を実行する。
また、S307において、要約部64は、対象の括弧表現の削除確率が閾値A未満の場合(S307:No)、当該括弧表現の括弧内と括弧直前の単語を抽出する(S312)。
そして、要約部64は、所定期間内の単語共起数を獲得し(S313)、単語共起数が閾値C以上である場合(S314:Yes)、当該括弧表現を削除可と判定して(S315)、S310以降を実行する。
なお、要約部64は、所定期間内の単語共起数が閾値C未満である場合(S314:No)、当該括弧表現を削除不可と判定し(S311)、S301に戻って、以降の処理を実行する。
また、S305において、要約部64は、対象の括弧表現が定義した分類に該当しない場合(S305:Yes)、S312を実行する。また、S301において、要約部64は、仮選択文および選択確定した文の中に未判定の括弧表現が存在しない場合(S301:No)、当該括弧表現の削除不可を返却し(S316)、図21のS207の処理を実行する。
[効果]
上述した処理により、実施例2にかかる要約文書生成装置50は、指定された要約長の制限内で、入力文書の重要な情報をできるだけ損なわない要約文書を生成することができる。また、要約文書生成装置50は、文書全体で括弧表現の削除または残留を統一しつつ、要約文書を生成することができる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
[数値等]
また、上記実施例で用いた文書例、閾値、文字数などは、あくまで一例であり、任意に変更することができる。また、要約対象も記事に限らず、Webページ、電光掲示板に表示される掲示情報、緊急放送される災害情報など様々な文書を対象とすることができる。また、共起数だけを判断して削除することもできる。
また、上記実施例では、1つの文書を要約する例を説明したが、これに限定されるものではなく、1つの文を要約する場合も適用することができる。また、実施例2では、入力文書の各文を順次選択する例を説明したが、これに限定されるものではなく、重要度が閾値以上の文だけを選択対象とすることができる。また、削除確率の閾値を2つ設定する例を説明したが、1つの閾値を用いて判定することもできる。この場合、閾値未満の括弧表現に対して、共起数に基づく判定が実行される。
[閾値の設定]
例えば、削除または残留判定の閾値とする共起数は、訓練データの括弧削除の現象を最も多く再現できる値を導出して設定することができる。図23は、閾値の設定例を説明する図である。
図23に示すように、要約文書生成装置10は、訓練データの原文−要約文に含まれる括弧表現に対し、要約文における残留数と削除数を計数する(図23の(1)参照)。続いて、要約文書生成装置10は、訓練データの記事データにおける、当該単語組の共起数を計数する(図23の(2)参照)。
そして、要約文書生成装置10は、括弧表現ごとに残留数、削除数、共起数をテーブルにして共起数の降順にソートする(図23の(3)参照)。その後、要約文書生成装置10は、複数の共起数の閾値の候補を段階的に仮定し、閾値以上の削除数と、閾値未満の残留数の合計をスコアとして算出する(図23の(4)参照)。ここでスコアは当該の閾値候補を仮定したときに、訓練データで実施される削除・残留の合計数を示しており、このスコアが大きいほど訓練データの削除・残留を多く再現していることになる。そして、要約文書生成装置10は、スコアが最大になる共起数を閾値に確定(本例では25)する(図23の(5)参照)。
例えば、共起数の閾値を「30」と仮定すると、括弧表現は共起数30以上の場合に削除され、30未満の場合に残留することになるので、図23の例では、共起数が32の1行目の括弧表現Aは削除と判断され、それ以外は残留と判断することになる。つまり訓練データにおいて、括弧表現Aの削除40と、括弧表現Bの残留12、括弧表現Cの残留10、括弧表現Dの残留6が実施されることになる。よってスコアは40+12+10+6=68となる。
次に、共起数の閾値を「25」と仮定すると、括弧表現は共起数25以上の場合に削除され、25未満の場合に残留することになるので、図23の例では、共起数が32の括弧表現A、共起数が28の括弧表現Bは削除と判断され、それ以外は残留と判断することになる。つまり訓練データにおいて、括弧表現Aの削除40と、括弧表現Bの削除20、括弧表現Cの残留10、括弧表現Dの残留6が実施されることになる。よってスコアは40+20+10+6=76となる。これは、閾値を「30」と仮定した場合よりもスコアが高い、つまり、訓練データにおける括弧表現の削除・残留の現象をより再現できていることになる。
同様に、共起数の閾値を「20」、「15」のように仮定しスコアを算出すると、閾値を「25」に仮定した場合よりもスコアが低くなる。つまり、訓練データにおける括弧表現の削除・残留の現象をより再現できていないことになる。
以上から、この訓練データから導出される共起数の閾値は「25」となる。本例では共起数の閾値を5刻みに変えて計算したが、実際には1刻みに変えて計算することにより、より正確に閾値を求めることができる。
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア]
図24は、ハードウェア構成例を説明する図である。なお、要約文書生成装置10と50は、同様の構成を有するので、ここでは、要約文書生成装置100として説明する。図24に示すように、要約文書生成装置100は、通信装置100a、HDD(Hard Disk Drive)100b、メモリ100c、プロセッサ100dを有する。また、図24に示した各部は、バス等で相互に接続される。
通信装置100aは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。HDD100bは、図5に示した機能を動作させるプログラムやDBを記憶する。
プロセッサ100dは、図5に示した各処理部と同様の処理を実行するプログラムをHDD100b等から読み出してメモリ100cに展開することで、図5等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、要約文書生成装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ100dは、記事抽出部21、形態素解析部22、要約部23等と同様の機能を有するプログラムをHDD100b等から読み出す。そして、プロセッサ100dは、記事抽出部21、形態素解析部22、要約部23等と同様の処理を実行するプロセスを実行する。
このように、要約文書生成装置100は、プログラムを読み出して実行することで文書要約方法を実行する情報処理装置として動作する。また、要約文書生成装置100は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、要約文書生成装置100によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
10 要約文書生成装置
11 通信部
12 記憶部
13 記事DB
14 分類定義DB
15 削除確率DB
16 要約文書DB
20 制御部
21 記事抽出部
22 形態素解析部
23 要約部
24 判定部
25 確率的削除部
26 共起的削除部

Claims (8)

  1. コンピュータが、
    入力文に含まれる括弧表現を特定し、
    前記入力文の中で、前記括弧表現の直前の第1の単語および前記括弧表現に含まれる第2の単語を抽出し、
    文書群の中で、抽出された前記第1の単語と前記第2の単語とを含む文書の数を示す共起数を算出し、
    前記共起数に基づいて、前記入力文から前記括弧表現を削除した要約文を生成する
    処理を実行することを特徴とする要約文生成方法。
  2. 前記生成する処理は、過去の要約文の生成時に検出された各括弧表現が要約文の生成過程において削除された確率を示す削除確率を参照し、前記括弧表現の削除確率が閾値以上である場合に、実行される、
    ことを特徴とする請求項1に記載の要約文生成方法。
  3. 前記算出する処理は、過去の要約文の生成時に検出された各括弧表現が要約文の生成過程において削除された確率を示す削除確率を参照し、前記入力文から検出された前記括弧表現の削除確率が第1の閾値未満である場合に、実行され、
    前記生成する処理は、前記共起数が第2の閾値以上である場合に、実行される、
    ことを特徴とする請求項1に記載の要約文生成方法。
  4. 前記コンピュータが、
    入力文書に含まれる各入力文の重要度を算出し、
    前記重要度が高い順に複数の入力文を選択する、
    処理を実行し、
    前記特定する処理は、選択された前記複数の入力文の合計文字数が指定文字数を超える場合に、前複数の入力文から前記括弧表現を特定し、
    前記抽出する処理は、前記括弧表現の直前の第1の単語および前記括弧表現に含まれる第2の単語を抽出し、
    前記算出する処理は、前記共起数を算出し、
    前記生成する処理は、前記共起数が閾値以上である場合に、前記複数の入力文から前記括弧表現を削除した前記要約文を生成することを特徴とする請求項1に記載の要約文生成方法。
  5. 前記選択する処理は、最終的な要約文が生成されるまで、前記重要度が高い順に入力文を順次選択し、
    前記特定する処理は、前記入力文が選択されるたびに、選択された入力文と当該入力文が選択されるまでに生成された前記要約文とを合わせた対象文の合計文字数が指定文字数を超えるか否かを判定し、前記合計文字数が前記指定文字数を超える場合に、前記対象文から前記括弧表現を特定し、
    前記抽出する処理は、前記括弧表現が特定されるたびに、前記括弧表現の直前の第1の単語および前記括弧表現に含まれる第2の単語を抽出し、
    前記算出する処理は、前記第1の単語および前記第2の単語が抽出されるたびに、前記共起数を算出し、
    前記生成する処理は、前記共起数が閾値以上である場合に、前記対象文から前記括弧表現を削除した要約文を生成し、前記最終的な要約文の生成過程において、以前に選択された前記複数の入力文から削除された括弧表現と同類の括弧表現が、新たに選択された入力文に含まれる場合、前記共起数に関わらず、前記新たに選択された入力文から前記同類の括弧表現を削除することを特徴とする請求項4に記載の要約文生成方法。
  6. 前記選択する処理は、最終的な要約文が生成されるまで、前記重要度が高い順に入力文を順次選択し、
    前記特定する処理は、前記入力文が選択されるたびに、選択された入力文と当該入力文が選択されるまでに生成された前記要約文とを合わせた対象文の合計文字数が指定文字数を超えるか否かを判定し、前記合計文字数が前記指定文字数を超える場合に、前記対象文から前記括弧表現を特定し、
    前記抽出する処理は、前記括弧表現が特定されるたびに、前記括弧表現の直前の第1の単語および前記括弧表現に含まれる第2の単語を抽出し、
    前記算出する処理は、前記第1の単語および前記第2の単語が抽出されるたびに、前記共起数を算出し、
    前記生成する処理は、前記共起数が閾値以上である場合に、前記対象文から前記括弧表現を削除した要約文を生成し、前記最終的な要約文の生成過程において、以前に選択された前記複数の入力文から削除された前記括弧表現と同類の括弧表現が、新たに選択された入力文において重要語として含まれる場合、以前に選択された前記複数の入力文に前記括弧表現を復元することを特徴とする請求項4に記載の要約文生成方法。
  7. コンピュータに、
    入力文に含まれる括弧表現を特定し、
    前記入力文の中で、前記括弧表現の直前の第1の単語および前記括弧表現に含まれる第2の単語を抽出し、
    文書群の中で、抽出された前記第1の単語と前記第2の単語とを含む文書の数を示す共起数を算出し、
    前記共起数に基づいて、前記入力文から前記括弧表現を削除した要約文を生成する
    処理を実行させることを特徴とする要約文生成プログラム。
  8. 入力文に含まれる括弧表現を特定する特定部と、
    前記入力文の中で、前記括弧表現の直前の第1の単語および前記括弧表現に含まれる第2の単語を抽出する抽出部と、
    文書群の中で、抽出された前記第1の単語と前記第2の単語とを含む文書の数を示す共起数を算出する算出部と、
    前記共起数に基づいて、前記入力文から前記括弧表現を削除した要約文を生成する生成部と
    を有することを特徴とする要約文生成装置。
JP2020004021A 2020-01-14 2020-01-14 要約文生成方法、要約文生成プログラムおよび要約文生成装置 Pending JP2021111242A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020004021A JP2021111242A (ja) 2020-01-14 2020-01-14 要約文生成方法、要約文生成プログラムおよび要約文生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020004021A JP2021111242A (ja) 2020-01-14 2020-01-14 要約文生成方法、要約文生成プログラムおよび要約文生成装置

Publications (1)

Publication Number Publication Date
JP2021111242A true JP2021111242A (ja) 2021-08-02

Family

ID=77060013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020004021A Pending JP2021111242A (ja) 2020-01-14 2020-01-14 要約文生成方法、要約文生成プログラムおよび要約文生成装置

Country Status (1)

Country Link
JP (1) JP2021111242A (ja)

Similar Documents

Publication Publication Date Title
Liu et al. Unsupervised paraphrasing by simulated annealing
JP7251181B2 (ja) 対訳処理方法および対訳処理プログラム
TWI536181B (zh) 在多語文本中的語言識別
US7269544B2 (en) System and method for identifying special word usage in a document
CN100489841C (zh) 用于开发自然语言理解应用的方法和集成开发工具
CN109635270A (zh) 双向概率性的自然语言重写和选择
JP2005539283A (ja) 名前をハイパーリンクするためのシステム、方法、及びソフトウェア
Budi et al. Association rules mining for name entity recognition
WO2009026850A1 (en) Domain dictionary creation
Gulati et al. A novel technique for multidocument Hindi text summarization
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
US11520835B2 (en) Learning system, learning method, and program
Amarappa et al. Named entity recognition and classification in kannada language
Freihat et al. Towards an optimal solution to lemmatization in Arabic
EP1503295A1 (en) Text generation method and text generation device
EP2507722A1 (en) Weight-ordered enumeration of referents and cutting off lengthy enumerations
Sagcan et al. Toponym recognition in social media for estimating the location of events
Fatima et al. New graph-based text summarization method
CN110020429A (zh) 语义识别方法及设备
JP4856573B2 (ja) 要約文生成装置及び要約文生成プログラム
JP2008009671A (ja) データ表示装置、データ表示方法及びデータ表示プログラム
Gambäck et al. Named entity recognition for Amharic using deep learning
CN115335819A (zh) 用于搜索和检索信息的方法和系统
JP2021111242A (ja) 要約文生成方法、要約文生成プログラムおよび要約文生成装置
Hanser et al. NewsViz: emotional visualization of news stories