JP5362651B2 - 重要語句抽出装置及び方法及びプログラム - Google Patents

重要語句抽出装置及び方法及びプログラム Download PDF

Info

Publication number
JP5362651B2
JP5362651B2 JP2010130405A JP2010130405A JP5362651B2 JP 5362651 B2 JP5362651 B2 JP 5362651B2 JP 2010130405 A JP2010130405 A JP 2010130405A JP 2010130405 A JP2010130405 A JP 2010130405A JP 5362651 B2 JP5362651 B2 JP 5362651B2
Authority
JP
Japan
Prior art keywords
document
important
frequency
training
input document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010130405A
Other languages
English (en)
Other versions
JP2011257878A (ja
Inventor
京介 西田
考 藤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010130405A priority Critical patent/JP5362651B2/ja
Publication of JP2011257878A publication Critical patent/JP2011257878A/ja
Application granted granted Critical
Publication of JP5362651B2 publication Critical patent/JP5362651B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、重要語句抽出装置及び方法及びプログラムに係り、特に、複数のセクションから構成される訓練文書の集合を基に、複数のセクションから構成される入力文書から、概入力文書の重要な語句を抽出する重要語句抽出装置及び方法及びプログラムに関する。
近年では集合知の発展により、Q&Aコミュニティ上の質問回答や、ニュース本文とユーザによるコメントなど、複数ユーザによって記述された文書が爆発的に増加しており、情報検索や文書整理を目的とした重要語抽出手法の需要が高まっている。
前記文書では、複数ユーザが文章を記述し、校正などは一般的に行われないため、(1)タイプミス、(2)変換ミス、(3)一般的でない表現、(4)語句の誤用、などの非重要語が多く含まれる。
文書から重要な語句を抽出する技術として広く用いられている技術には、入力文書中の語句の出現頻度(Term Frequency;TF)と語句の訓練文書集合中の文書頻度の逆数(Inverse Document Frequency;IDF)を掛け合わせた値を語句の重要度とするTF-IDF法がある(例えば、非特許文献1参照)。
しかし、非特許文献1の従来技術(TF-IDF)によって獲得される語句は、IDFの影響が強く、前記非重要語(1)〜(4)のように、ごく僅かな文書にしか出現しない語句が抽出されやすい。
例えば、上記従来技術を用いると、
『質問タイトル:教えてください。質問本文:コンピュタ教育に携わっています。コンピュタを使った受業で良いアイデアはありますか?なお、当方コンピュタにはあまり詳しくありません。回答文: コンピュータによる英語の授業はどうでしょう』
という文書から「コンピュタ」「受業」が抽出される。「コンピュタ」は出現文書数(IDF値が高い)が少なく、概文書で多く出現するため(TF値が高い)、重要な語句として抽出されてしまう。次に、「受業」は変換ミスであり、重要語句には相応しくないが、IDF値が高いため、重要な語句として抽出されてしまう。文書内容を端的に表す「コンピュータ」や「授業」といった重要語句は、TF値・IDF値ともに低いため、重要語句には選出されない。
また、文書集合から重要語を抽出する従来技術として、語句の出現がポアソン分布に従っているかを利用する残差IDF(residual IDF; RIDF)がある(例えば、非特許文献2参照)。残差IDFでは、訓練集合で実際に観測されたIDF値と、訓練集合中のTF値の総和から予測したIDF値の差分を、語句の重要度とする。ポアソン分布は、「このほど」や「ほとんど」のような一般語に良くあてはまり、「捕鯨」や「チベット」など、同一文書内で繰り返し出現しやすい内容語に良くあてはまるため、前記非重要語(1)や(2)などのランダムに発生する語句については低い値を取る。
しかし、前記非重要語(3)や(4)は、文書内に繰り返し出現する傾向があるため、RIDFを用いても重要語として抽出されてしまう問題が残る。
そこで、本発明では、「タイトル」「本文」「コメント」など文書において異なる役割を持つ文章群を「セクション」として定義し、同一文書中の複数セクションにおいて、前記非重要語(1)〜(4)が同時に出現することは非常に少ないことに着目する。例えば、Q&Aコミュニティの質問回答文書において「質問タイトル」「質問本文」「回答文」をそれぞれセクションとすると、「コンピュタ」が質問本文と回答文の両方に登場する文書数に比べて、質問本文と回答文の両方に「コンピュータ」が登場する文書数は明らかに多い(質問タイトル・本文の記述者と、回答文の記述者が異なるため)。本発明では、この特性を鑑みて、語句が出現するセクション数を「セクション頻度」と定義して利用する。
徳永健伸、"情報検索と言語処理"、東京大学出版会、1999. 北研二、津田和彦、獅々堀正幹、"情報検索アルゴリズム"、共立出版、2002.
上記のように、現在は質問回答文書、ブログ記事など複数ユーザによって記述された文書を明示的に対象にした重要語抽出手法が存在せず、従来技術では、タイプミス・変換ミス・一般的でない表現、語句の誤用などの、ごく僅かな文書にしか出現しない非重要語を重要語として抽出してしまう問題があった。
本発明は、上記従来技術の問題点に鑑みて、「タイトル」「本文」「コメント」などの、文書において異なる役割を持つ文章群を「セクション」として定義し、複数のセクションから構成される訓練文書の集合を基に、入力文書から、前記入力文書中に語句が出現するセクション数と、前記訓練集合と前記入力文書から算出する残差逆文書頻度を用いて、前記入力文書の重要な語句を抽出することが可能な重要語句抽出装置及び方法及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明(請求項1)は、異なる役割を持つ文章群であるセクションが複数含まれる訓練文書の集合を基に、複数のセクションから構成される入力文書から、概入力文書の重要な語句を抽出する重要語句抽出装置であって、
前記訓練文書集合を記憶する訓練文書集合記憶手段と、
前記入力文書を語句の集合に分解する形態素解析手段と、
前記入力文書中に語句が出現するセクション数を集計するセクション頻度集計手段と、
前記訓練文書集合と前記入力文書から残差逆文書頻度を算出する残差逆文書頻度算出手段と、
前記セクション頻度集計手段の集計結果と前記残差逆文書頻度算出手段の算出結果を基に、前記入力文書に含まれる語句の重要度を算出する重要度算出手段と、
前記重要度算出手段の算出結果を基に、前記入力文書の重要語句を所定の個数出力する重要語句出力手段と、を有する。
また、本発明(請求項2)は、質問タイトル、質問本文、複数の回答文から構成される質問回答文書から、請求項1記載の重要語句抽出装置を使用して、前記質問回答文書の重要な語句を抽出する質問回答重要語句抽出装置である。
また、本発明(請求項3)は、異なる役割を持つ文章群であるセクションが複数含まれる訓練文書の集合を基に、複数のセクションから構成される入力文書から、概入力文書の重要な語句を抽出するための訓練文書集合を記憶する訓練文書集合記憶手段、形態素解析手段、セクション頻度集計手段、残差逆文書頻度算出手段、重要度算出手段、重要語句出力手段を有する装置における重要語句抽出方法であって、
前記形態素解析手段が、前記入力文書を語句の集合に分解する形態素解析ステップと、
前記セクション頻度集計手段が、前記入力文書中に語句が出現するセクション数を集計するセクション頻度集計ステップと、
前記残差逆文書頻度算出手段が、前記訓練文書集合記憶手段から読み出した訓練文書集合と前記入力文書から残差逆文書頻度を算出する残差逆文書頻度算出ステップと、
前記重要度算出手段が、前記セクション頻度集計ステップの集計結果と前記残差逆文書頻度算出手段の算出結果を基に、前記入力文書に含まれる語句の重要度を算出する重要度算出ステップと、
前記重要語句出力手段が、前記重要度算出ステップの重要度に基づいて、前記入力文書の重要語句を所定の個数出力する重要語句出力ステップと、を行う。
また、本発明(請求項4)は、請求項1記載の重要語句抽出装置を構成する各手段としてコンピュータを機能させるための重要語句抽出プログラムである。
上記のように本発明によれば、入力文書中の語句が出現するセクション数と、訓練集合と前記入力文書を基に多くのセクションに繰り返し出現する重要語を精度良く抽出できる残差逆文書頻度を利用するので、ランダムに出現するタイプミスや変換ミス、また、特定のセクションで繰り返し発生するような一般的でない表現・語句の誤用といった非重要語句を抽出することなく、前記入力文書の重要な語句を抽出できる。
本発明の一実施の形態における重要語句抽出装置の構成図である。 本発明の一実施の形態における重要語句抽出装置の処理のフローチャートである。 本発明の一実施の形態における重要語句抽出処理の例である。
以下図面と共に、本発明の実施の形態を説明する。
図1は、本発明の一実施の形態における重要語句抽出装置の構成を示す。
同図に示す重要語句抽出装置100は、形態素解析部110、訓練文書集合記憶手段セクション頻度集計部120、残差逆文書頻度算出部130、重要度算出部140、重要語句選出部150から構成され、形態素解析部110が複数のセクションから構成された文書を入力として受け取り、前記入力文書の重要語句を1つ以上抽出して重要語句出力部150から出力する。残差逆文書頻度算出部130には訓練文書集合DB210が接続されている。
訓練文書集合DB210には、語句に対する訓練文書集合中の文書頻度及びセクション頻度が格納されている。
上記の構成における一連の動作を以下に説明する。
図2は、本発明の一実施の形態における重要語句抽出装置の処理のフローチャートである。
ステップ1)形態素解析部110は、入力文書を受け取って語句に分割し、語句集合をセクション頻度集計部120と残差逆文書頻度算出部130に出力する。ここで、語句とは、1つ以上の形態素(名詞、形容詞、動詞)から構成される文字列を指す。
ステップ2)セクション頻度集計部120は、入力文書中に含まれる全ての語句に対して、各語句wが出現するセクション数の合計s(w)をセクション頻度として集計し、残差逆文書頻度算出部130と重要度算出部140に出力する。
ステップ3)残差逆文書頻度算出部130は、形態素解析部110から取得した語句wに基づいて訓練文書集合DB210から各語句wの訓練文書集合中の文書頻度D(w)と各語句wの訓練文書集合中のセクション頻度の合計S(w)と訓練文書集合の全文書数Dを取得する。
ステップ4)残差逆文書頻度算出部130は、訓練文書集合DB210から取得した文書頻度D(w)とセクション頻度の合計S(w)、全文書数Dと、セクション頻度集計部120から取得した入力文書中のセクション頻度s(w)を用いて、入力文書に含まれる全ての語句に対して、各語句wの残差逆文書頻度R(w)を以下の式で算出する。
Figure 0005362651
ステップ5)語句重要度算出部130は、入力文書に含まれる全ての語句に対して、各語句wの重要度I(w)をセクション頻度集計部120から取得した語句毎のセクション頻度s(w)と残差逆文書頻度算出部130から取得した残差逆文書頻度R(w)を用いて、以下の式で算出する。
Figure 0005362651
残差逆文書頻度算出部130は、上記で求められた各語句wの重要度I(w)を重要語句選択部140に出力する。
ステップ6)重要語句選出部140は、入力文書に含まれる全ての語句のうち、最もI(w)の値が高いK個の語句を選出する。
図3は、本発明の一実施の形態における重要語句抽出処理の例であり、質問タイトル・質問本文・全回答文の3セクションから構成される質問回答文書が入力文書として重要語句抽出装置100に与えられた際の重要語句抽出結果例を示す。
本発明の重要語句抽出装置は、「レンタルカー」や「37800円」といった、ごく僅かな文書にしか登場しない語句に対して低い重要度が付与されるため、重要語しては抽出されない。なお、全回答文ではなく、各回答文を1つのセクションと定義したり、質問タイトルと質問本文を1つのセクションにまとめても同様の結果が得られる。また、文書の段落を全てセクションとみなしてもよい。
なお、上記の重要語句抽出装置の各構成要素の図2に示す動作をプログラムとして構築し、重要語句抽出装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムを、ハードディスクやフレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。例えば、Q&Aコミュニティ上の質問回答文書、ブログエントリ、ニュース記事、動画ページなど、種々の複数ユーザによって記述され、異なる役割を持つセクションを複数持つ文書に対して適用可能である。
本発明は、Q&Aコミュニティ上の質問回答や、ニュース本文とユーザによるコメントなど、複数ユーザによって記述され、異なる役割を持つセクションを複数持つ文書に特化した重要語句抽出手法であり、情報整理と情報検索の支援に利用可能である。
また、本発明の重要語句抽出装置は、当該重要語句抽出装置を使用する質問回答重要語句抽出装置及びブログエントリ重要語句抽出装置及び動画ページ重要語句抽出装置及びニュース記事抽出装置に適用可能である。
100 重要語句抽出装置
110 形態素解析部
120 セクション頻度集計部
130 残差逆文書頻度算出部
140 重要度算出部
150 重要語句出力部
210 訓練文書集合データベース

Claims (4)

  1. 異なる役割を持つ文章群であるセクションが複数含まれる訓練文書の集合を基に、複数のセクションから構成される入力文書から、概入力文書の重要な語句を抽出する重要語句抽出装置であって、
    前記訓練文書集合を記憶する訓練文書集合記憶手段と、
    前記入力文書を語句の集合に分解する形態素解析手段と、
    前記入力文書中に語句が出現するセクション数を集計するセクション頻度集計手段と、
    前記訓練文書集合と前記入力文書から残差逆文書頻度を算出する残差逆文書頻度算出手段と、
    前記セクション頻度集計手段の集計結果と前記残差逆文書頻度算出手段の算出結果を基に、前記入力文書に含まれる語句の重要度を算出する重要度算出手段と、
    前記重要度算出手段の算出結果を基に、前記入力文書の重要語句を所定の個数出力する重要語句出力手段と、
    を有することを特徴とする重要語句抽出装置。
  2. 質問タイトル、質問本文、複数の回答文から構成される質問回答文書から、請求項1記載の重要語句抽出装置を使用して、前記質問回答文書の重要な語句を抽出する質問回答重要語句抽出装置。
  3. 異なる役割を持つ文章群であるセクションが複数含まれる訓練文書の集合を基に、複数のセクションから構成される入力文書から、概入力文書の重要な語句を抽出するための
    前記訓練文書集合を記憶する訓練文書集合記憶手段、形態素解析手段、セクション頻度集計手段、残差逆文書頻度算出手段、重要度算出手段、重要語句出力手段を有する装置における重要語句抽出方法であって、
    前記形態素解析手段が、前記入力文書を語句の集合に分解する形態素解析ステップと、
    前記セクション頻度集計手段が、前記入力文書中に語句が出現するセクション数を集計するセクション頻度集計ステップと、
    前記残差逆文書頻度算出手段が、前記訓練文書集合記憶手段から読み出した訓練文書集合と前記入力文書から残差逆文書頻度を算出する残差逆文書頻度算出ステップと、
    前記重要度算出手段が、前記セクション頻度集計ステップの集計結果と前記残差逆文書頻度算出手段の算出結果を基に、前記入力文書に含まれる語句の重要度を算出する重要度算出ステップと、
    前記重要語句出力手段が、前記重要度算出ステップの重要度に基づいて、前記入力文書の重要語句を所定の個数出力する重要語句出力ステップと、
    を行うことを特徴とする重要語句抽出方法。
  4. 請求項1記載の重要語句抽出装置を構成する各手段としてコンピュータを機能させるための重要語句抽出プログラム。
JP2010130405A 2010-06-07 2010-06-07 重要語句抽出装置及び方法及びプログラム Expired - Fee Related JP5362651B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010130405A JP5362651B2 (ja) 2010-06-07 2010-06-07 重要語句抽出装置及び方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010130405A JP5362651B2 (ja) 2010-06-07 2010-06-07 重要語句抽出装置及び方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2011257878A JP2011257878A (ja) 2011-12-22
JP5362651B2 true JP5362651B2 (ja) 2013-12-11

Family

ID=45474018

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010130405A Expired - Fee Related JP5362651B2 (ja) 2010-06-07 2010-06-07 重要語句抽出装置及び方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5362651B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3258390A1 (en) 2016-06-17 2017-12-20 Panasonic Intellectual Property Management Co., Ltd. Meaning generation method, meaning generation apparatus, and storage medium

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111061860A (zh) 2019-12-12 2020-04-24 北京百度网讯科技有限公司 摘要生成方法和装置
KR102446300B1 (ko) * 2020-10-22 2022-09-22 네이버 주식회사 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3607462B2 (ja) * 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
JP2002140357A (ja) * 2000-11-06 2002-05-17 Ricoh Co Ltd 文書検索装置及び文書検索方法
JP4226862B2 (ja) * 2002-08-29 2009-02-18 株式会社リコー 文書検索装置
JP2004145790A (ja) * 2002-10-28 2004-05-20 Advanced Telecommunication Research Institute International 文書のセグメント化方法およびそのためのコンピュータプログラム
JP5056133B2 (ja) * 2007-04-13 2012-10-24 日本電気株式会社 情報抽出システム、情報抽出方法および情報抽出用プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3258390A1 (en) 2016-06-17 2017-12-20 Panasonic Intellectual Property Management Co., Ltd. Meaning generation method, meaning generation apparatus, and storage medium

Also Published As

Publication number Publication date
JP2011257878A (ja) 2011-12-22

Similar Documents

Publication Publication Date Title
El-Masri et al. Successes and challenges of Arabic sentiment analysis research: a literature review
El-Masri et al. A web-based tool for Arabic sentiment analysis
US7983902B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
Korenek et al. Sentiment analysis on microblog utilizing appraisal theory
JP5379138B2 (ja) 領域辞書の作成
Burchardt et al. Machine translation quality in an audiovisual context
Ljubešić et al. Predicting the level of text standardness in user-generated content
Kaity et al. An automatic non-English sentiment lexicon builder using unannotated corpus
Padmaja et al. Evaluating sentiment analysis methods and identifying scope of negation in newspaper articles
Mustafa et al. Kurdish stemmer pre-processing steps for improving information retrieval
JP2013174995A (ja) 基本語彙抽出装置、及びプログラム
WO2023231331A1 (zh) 一种知识抽取方法、系统、设备及存储介质
Kochmar et al. Detecting learner errors in the choice of content words using compositional distributional semantics
Toral et al. Linguistically-augmented perplexity-based data selection for language models
Mahadzir Sentiment analysis of code-mixed text: a review
Wijeratne et al. Sinhala language corpora and stopwords from a decade of sri lankan facebook
JP2014219872A (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
JP5362651B2 (ja) 重要語句抽出装置及び方法及びプログラム
Khalil et al. Which configuration works best? an experimental study on supervised Arabic twitter sentiment analysis
KR101541170B1 (ko) 텍스트 요약 장치 및 방법
Tariku et al. Sentiment Mining and Aspect Based Summarization of Opinionated Afaan Oromoo News Text
Teodorescu et al. Evaluating emotion arcs across languages: Bridging the global divide in sentiment analysis
Dadoun et al. Sentiment Classification Techniques Applied to Swedish Tweets Investigating the Effects of translation on Sentiments from Swedish into English
Liebeskind et al. An algorithmic scheme for statistical thesaurus construction in a morphologically rich language
Fetic et al. Topic model robustness to automatic speech recognition errors in podcast transcripts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120830

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130814

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130904

R150 Certificate of patent or registration of utility model

Ref document number: 5362651

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees