JP5362651B2 - 重要語句抽出装置及び方法及びプログラム - Google Patents
重要語句抽出装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP5362651B2 JP5362651B2 JP2010130405A JP2010130405A JP5362651B2 JP 5362651 B2 JP5362651 B2 JP 5362651B2 JP 2010130405 A JP2010130405 A JP 2010130405A JP 2010130405 A JP2010130405 A JP 2010130405A JP 5362651 B2 JP5362651 B2 JP 5362651B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- important
- frequency
- training
- input document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
『質問タイトル:教えてください。質問本文:コンピュタ教育に携わっています。コンピュタを使った受業で良いアイデアはありますか?なお、当方コンピュタにはあまり詳しくありません。回答文: コンピュータによる英語の授業はどうでしょう』
という文書から「コンピュタ」「受業」が抽出される。「コンピュタ」は出現文書数(IDF値が高い)が少なく、概文書で多く出現するため(TF値が高い)、重要な語句として抽出されてしまう。次に、「受業」は変換ミスであり、重要語句には相応しくないが、IDF値が高いため、重要な語句として抽出されてしまう。文書内容を端的に表す「コンピュータ」や「授業」といった重要語句は、TF値・IDF値ともに低いため、重要語句には選出されない。
前記訓練文書集合を記憶する訓練文書集合記憶手段と、
前記入力文書を語句の集合に分解する形態素解析手段と、
前記入力文書中に語句が出現するセクション数を集計するセクション頻度集計手段と、
前記訓練文書集合と前記入力文書から残差逆文書頻度を算出する残差逆文書頻度算出手段と、
前記セクション頻度集計手段の集計結果と前記残差逆文書頻度算出手段の算出結果を基に、前記入力文書に含まれる語句の重要度を算出する重要度算出手段と、
前記重要度算出手段の算出結果を基に、前記入力文書の重要語句を所定の個数出力する重要語句出力手段と、を有する。
前記形態素解析手段が、前記入力文書を語句の集合に分解する形態素解析ステップと、
前記セクション頻度集計手段が、前記入力文書中に語句が出現するセクション数を集計するセクション頻度集計ステップと、
前記残差逆文書頻度算出手段が、前記訓練文書集合記憶手段から読み出した訓練文書集合と前記入力文書から残差逆文書頻度を算出する残差逆文書頻度算出ステップと、
前記重要度算出手段が、前記セクション頻度集計ステップの集計結果と前記残差逆文書頻度算出手段の算出結果を基に、前記入力文書に含まれる語句の重要度を算出する重要度算出ステップと、
前記重要語句出力手段が、前記重要度算出ステップの重要度に基づいて、前記入力文書の重要語句を所定の個数出力する重要語句出力ステップと、を行う。
ステップ6)重要語句選出部140は、入力文書に含まれる全ての語句のうち、最もI(w)の値が高いK個の語句を選出する。
110 形態素解析部
120 セクション頻度集計部
130 残差逆文書頻度算出部
140 重要度算出部
150 重要語句出力部
210 訓練文書集合データベース
Claims (4)
- 異なる役割を持つ文章群であるセクションが複数含まれる訓練文書の集合を基に、複数のセクションから構成される入力文書から、概入力文書の重要な語句を抽出する重要語句抽出装置であって、
前記訓練文書集合を記憶する訓練文書集合記憶手段と、
前記入力文書を語句の集合に分解する形態素解析手段と、
前記入力文書中に語句が出現するセクション数を集計するセクション頻度集計手段と、
前記訓練文書集合と前記入力文書から残差逆文書頻度を算出する残差逆文書頻度算出手段と、
前記セクション頻度集計手段の集計結果と前記残差逆文書頻度算出手段の算出結果を基に、前記入力文書に含まれる語句の重要度を算出する重要度算出手段と、
前記重要度算出手段の算出結果を基に、前記入力文書の重要語句を所定の個数出力する重要語句出力手段と、
を有することを特徴とする重要語句抽出装置。 - 質問タイトル、質問本文、複数の回答文から構成される質問回答文書から、請求項1記載の重要語句抽出装置を使用して、前記質問回答文書の重要な語句を抽出する質問回答重要語句抽出装置。
- 異なる役割を持つ文章群であるセクションが複数含まれる訓練文書の集合を基に、複数のセクションから構成される入力文書から、概入力文書の重要な語句を抽出するための
前記訓練文書集合を記憶する訓練文書集合記憶手段、形態素解析手段、セクション頻度集計手段、残差逆文書頻度算出手段、重要度算出手段、重要語句出力手段を有する装置における重要語句抽出方法であって、
前記形態素解析手段が、前記入力文書を語句の集合に分解する形態素解析ステップと、
前記セクション頻度集計手段が、前記入力文書中に語句が出現するセクション数を集計するセクション頻度集計ステップと、
前記残差逆文書頻度算出手段が、前記訓練文書集合記憶手段から読み出した訓練文書集合と前記入力文書から残差逆文書頻度を算出する残差逆文書頻度算出ステップと、
前記重要度算出手段が、前記セクション頻度集計ステップの集計結果と前記残差逆文書頻度算出手段の算出結果を基に、前記入力文書に含まれる語句の重要度を算出する重要度算出ステップと、
前記重要語句出力手段が、前記重要度算出ステップの重要度に基づいて、前記入力文書の重要語句を所定の個数出力する重要語句出力ステップと、
を行うことを特徴とする重要語句抽出方法。 - 請求項1記載の重要語句抽出装置を構成する各手段としてコンピュータを機能させるための重要語句抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010130405A JP5362651B2 (ja) | 2010-06-07 | 2010-06-07 | 重要語句抽出装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010130405A JP5362651B2 (ja) | 2010-06-07 | 2010-06-07 | 重要語句抽出装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011257878A JP2011257878A (ja) | 2011-12-22 |
JP5362651B2 true JP5362651B2 (ja) | 2013-12-11 |
Family
ID=45474018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010130405A Expired - Fee Related JP5362651B2 (ja) | 2010-06-07 | 2010-06-07 | 重要語句抽出装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5362651B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3258390A1 (en) | 2016-06-17 | 2017-12-20 | Panasonic Intellectual Property Management Co., Ltd. | Meaning generation method, meaning generation apparatus, and storage medium |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111061860A (zh) | 2019-12-12 | 2020-04-24 | 北京百度网讯科技有限公司 | 摘要生成方法和装置 |
KR102446300B1 (ko) * | 2020-10-22 | 2022-09-22 | 네이버 주식회사 | 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3607462B2 (ja) * | 1997-07-02 | 2005-01-05 | 松下電器産業株式会社 | 関連キーワード自動抽出装置及びこれを用いた文書検索システム |
JP2002140357A (ja) * | 2000-11-06 | 2002-05-17 | Ricoh Co Ltd | 文書検索装置及び文書検索方法 |
JP4226862B2 (ja) * | 2002-08-29 | 2009-02-18 | 株式会社リコー | 文書検索装置 |
JP2004145790A (ja) * | 2002-10-28 | 2004-05-20 | Advanced Telecommunication Research Institute International | 文書のセグメント化方法およびそのためのコンピュータプログラム |
JP5056133B2 (ja) * | 2007-04-13 | 2012-10-24 | 日本電気株式会社 | 情報抽出システム、情報抽出方法および情報抽出用プログラム |
-
2010
- 2010-06-07 JP JP2010130405A patent/JP5362651B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3258390A1 (en) | 2016-06-17 | 2017-12-20 | Panasonic Intellectual Property Management Co., Ltd. | Meaning generation method, meaning generation apparatus, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP2011257878A (ja) | 2011-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
El-Masri et al. | Successes and challenges of Arabic sentiment analysis research: a literature review | |
El-Masri et al. | A web-based tool for Arabic sentiment analysis | |
US7983902B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
Korenek et al. | Sentiment analysis on microblog utilizing appraisal theory | |
JP5379138B2 (ja) | 領域辞書の作成 | |
Burchardt et al. | Machine translation quality in an audiovisual context | |
Ljubešić et al. | Predicting the level of text standardness in user-generated content | |
Kaity et al. | An automatic non-English sentiment lexicon builder using unannotated corpus | |
Padmaja et al. | Evaluating sentiment analysis methods and identifying scope of negation in newspaper articles | |
Mustafa et al. | Kurdish stemmer pre-processing steps for improving information retrieval | |
JP2013174995A (ja) | 基本語彙抽出装置、及びプログラム | |
WO2023231331A1 (zh) | 一种知识抽取方法、系统、设备及存储介质 | |
Kochmar et al. | Detecting learner errors in the choice of content words using compositional distributional semantics | |
Toral et al. | Linguistically-augmented perplexity-based data selection for language models | |
Mahadzir | Sentiment analysis of code-mixed text: a review | |
Wijeratne et al. | Sinhala language corpora and stopwords from a decade of sri lankan facebook | |
JP2014219872A (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
JP5362651B2 (ja) | 重要語句抽出装置及び方法及びプログラム | |
Khalil et al. | Which configuration works best? an experimental study on supervised Arabic twitter sentiment analysis | |
KR101541170B1 (ko) | 텍스트 요약 장치 및 방법 | |
Tariku et al. | Sentiment Mining and Aspect Based Summarization of Opinionated Afaan Oromoo News Text | |
Teodorescu et al. | Evaluating emotion arcs across languages: Bridging the global divide in sentiment analysis | |
Dadoun et al. | Sentiment Classification Techniques Applied to Swedish Tweets Investigating the Effects of translation on Sentiments from Swedish into English | |
Liebeskind et al. | An algorithmic scheme for statistical thesaurus construction in a morphologically rich language | |
Fetic et al. | Topic model robustness to automatic speech recognition errors in podcast transcripts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120830 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130814 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130827 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130904 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5362651 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |