JP4525433B2 - 文書集約装置及びプログラム - Google Patents
文書集約装置及びプログラム Download PDFInfo
- Publication number
- JP4525433B2 JP4525433B2 JP2005112279A JP2005112279A JP4525433B2 JP 4525433 B2 JP4525433 B2 JP 4525433B2 JP 2005112279 A JP2005112279 A JP 2005112279A JP 2005112279 A JP2005112279 A JP 2005112279A JP 4525433 B2 JP4525433 B2 JP 4525433B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- keyword
- words
- general
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
尾上守夫監訳「パターン識別」新技術コミュニケーションズpp.528−529
入力文書を解析して文書中の語(以下、一般ワードと記す)及び該一般ワードの出現位置情報を獲得し、一般ワード記憶手段に格納する一般ワード抽出ステップ(ステップ1)と、
入力文書中において、話題の軸をなすキーワードの候補となるキーワード及び該キーワードの出現位置を取得してキーワード記憶手段に格納するキーワード抽出ステップ(ステップ2)と、
キーワード記憶手段からキーワードを読み出して、キーワードが出現する文書の数を集計し、該文書の数が多いキーワードを選別するキーワード選別ステップ(ステップ3)と、
一般ワード記憶手段を参照して、キーワード選別ステップで選別されたキーワードの周辺に出現する一般ワードについて、当該一般ワードが出現する文書数を集計し、一定割合以上の高頻度で出現する一般ワードの数に基づいて、選別されたキーワードを含む文書群が同一の話題を扱う文書群であるか否かを判定する集約判定ステップ(ステップ4)と、を行う。
文書中の語(以下、「一般ワード」と記す)及び該一般ワードの出現位置情報を格納する一般ワード記憶手段203と、
キーワード及び該キーワードの出現位置情報を格納するキーワード記憶手段205と、
入力文書を解析して文書中の一般ワード及び該一般ワードの出現位置情報を獲得し、一般ワード記憶手段に格納する文書解析手段202と、
入力文書中において、キーワード及び該キーワードの出現位置を取得して、キーワード記憶手段205に格納するキーワード抽出手段204と、
キーワード記憶手段205からキーワードを読み出して、キーワードが出現する文書の数を集計し、該文書の数が多いキーワードを選別するキーワード集計手段206と、
一般ワード記憶手段を203参照して、キーワード集計手段206で選別されたキーワードの周辺に出現する一般ワードについて、当該一般ワードが出現する文書数を集計し、一定割合以上の高頻度で出現する一般ワードの数に基づいて、選別されたキーワードを含む文書群が同一の話題を扱う文書群であるか否かを判定する集約判定手段207と、を有する。
各選別されたキーワードが出現する文書数Xについて、該X個の文書内で該選別されたキーワードの周辺に高い頻度Yで出現した一般ワードを取得する手段と、
YがXに占める割合が高い一般ワードの数が一定以上多い場合に、X個の文書群が選別されたキーワードを話題の軸とする同一話題文書群であると判定する手段と、を含む。
あるキーワードを話題の軸であると判定した場合に、該選別されたキーワードを含むX個の文書のうち、高い頻度Yを持つ一般ワードを一定以上含む文書のみを、該選別されたキーワードを軸とする同一話題文書群であると判定する手段を含む。
記憶装置に、抽出された文書中の語(以下、「一般ワード」と記す)及び該一般ワードの出現位置情報を格納する一般ワード記憶手段と、抽出されたキーワード及び該キーワードの出現位置情報を格納するキーワード記憶手段と、を有するコンピュータを、
請求項1乃至3のいずれか1項に記載の手段として機能させるプログラムである。
202 文書解析手段、文書解析部
203 一般ワード記憶手段、一般ワード格納部
204 キーワード抽出手段、キーワード抽出部
205 キーワード記憶手段、キーワード格納部
206 キーワード集計手段、キーワード集計部
207 集約判定手段、集約判定部
208 集約文書格納部
Claims (4)
- 多数の文書の中で、同一の話題について記述された文書を集約する文書集約装置であって、
文書中の語(以下、「一般ワード」と記す)及び該一般ワードの出現位置情報を格納する一般ワード記憶手段と、
キーワード及び該キーワードの出現位置情報を格納するキーワード記憶手段と、
入力文書を解析して文書中の一般ワード及び該一般ワードの出現位置情報を獲得し、前記一般ワード記憶手段に格納する文書解析手段と、
前記入力文書中において、キーワード及び該キーワードの出現位置を取得して、前記キーワード記憶手段に格納するキーワード抽出手段と、
前記キーワード記憶手段からキーワードを読み出して、キーワードが出現する文書の数を集計し、該文書の数が多いキーワードを選別するキーワード集計手段と、
前記一般ワード記憶手段を参照して、前記キーワード集計手段で選別されたキーワードの周辺に出現する一般ワードについて、当該一般ワードが出現する文書数を集計し、一定割合以上の高頻度で出現する一般ワードの数に基づいて、前記選別されたキーワードを含む文書群が同一の話題を扱う文書群であるか否かを判定する集約判定手段と、
を有することを特徴とする文書集約装置。 - 前記集約判定手段は、
各選別されたキーワードが出現する文書数Xについて、該X個の文書内で該選別されたキーワードの周辺に高い頻度Yで出現した一般ワードを取得する手段と、
前記Yが前記Xに占める割合が高い一般ワードの数が一定以上多い場合に、前記X個の文書群が前記選別されたキーワードを話題の軸とする同一話題文書群であると判定する手段と、を含む
請求項1記載の文書集約装置。 - 前記集約判定手段は、
あるキーワードを話題の軸であると判定した場合に、該選別されたキーワードを含むX個の文書のうち、高い頻度Yを持つ一般ワードを一定以上含む文書のみを、該選別されたキーワードを軸とする同一話題文書群であると判定する手段を含む、
請求項2記載の文書集約装置。 - 少なくとも、記憶装置とCPUを備えたコンピュータにおいて、多数の文書の中で、同一の話題について記述された文書を集約する文書集約プログラムであって、
前記記憶装置に、抽出された文書中の語(以下、「一般ワード」と記す)及び該一般ワードの出現位置情報を格納する一般ワード記憶手段と、抽出されたキーワード及び該キーワードの出現位置情報を格納するキーワード記憶手段と、を有するコンピュータを、
前記請求項1乃至3のいずれか1項に記載の手段として機能させることを特徴とする文書集約プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005112279A JP4525433B2 (ja) | 2005-04-08 | 2005-04-08 | 文書集約装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005112279A JP4525433B2 (ja) | 2005-04-08 | 2005-04-08 | 文書集約装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006293616A JP2006293616A (ja) | 2006-10-26 |
JP4525433B2 true JP4525433B2 (ja) | 2010-08-18 |
Family
ID=37414140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005112279A Expired - Fee Related JP4525433B2 (ja) | 2005-04-08 | 2005-04-08 | 文書集約装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4525433B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100835290B1 (ko) | 2006-11-07 | 2008-06-05 | 엔에이치엔(주) | 문서 분류 시스템 및 문서 분류 방법 |
JP4594992B2 (ja) * | 2008-03-03 | 2010-12-08 | 日本電信電話株式会社 | 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体 |
KR101083510B1 (ko) | 2009-04-16 | 2011-11-16 | 엔에이치엔(주) | 주파수 변환 기법을 이용한 시계열 클러스터링 시스템 및 방법 |
CN109614606B (zh) * | 2018-10-23 | 2023-02-03 | 中山大学 | 基于文档嵌入的长文本案件罚金范围分类预测方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1074210A (ja) * | 1996-07-05 | 1998-03-17 | Hitachi Ltd | 文献検索支援方法及び装置およびこれを用いた文献検索サービス |
JPH10340275A (ja) * | 1997-06-09 | 1998-12-22 | Fuji Xerox Co Ltd | 情報抽出装置 |
JP2000112949A (ja) * | 1998-09-30 | 2000-04-21 | Fuji Xerox Co Ltd | 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体 |
JP2000242647A (ja) * | 1999-02-12 | 2000-09-08 | Internatl Business Mach Corp <Ibm> | 関連情報検索方法およびシステム |
JP2001306596A (ja) * | 2000-04-17 | 2001-11-02 | Sharp Corp | ネットワーク情報の表示方法およびその方法をプログラムとして格納した記録媒体ならびにそのプログラムを実行するコンピュータ |
-
2005
- 2005-04-08 JP JP2005112279A patent/JP4525433B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1074210A (ja) * | 1996-07-05 | 1998-03-17 | Hitachi Ltd | 文献検索支援方法及び装置およびこれを用いた文献検索サービス |
JPH10340275A (ja) * | 1997-06-09 | 1998-12-22 | Fuji Xerox Co Ltd | 情報抽出装置 |
JP2000112949A (ja) * | 1998-09-30 | 2000-04-21 | Fuji Xerox Co Ltd | 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体 |
JP2000242647A (ja) * | 1999-02-12 | 2000-09-08 | Internatl Business Mach Corp <Ibm> | 関連情報検索方法およびシステム |
JP2001306596A (ja) * | 2000-04-17 | 2001-11-02 | Sharp Corp | ネットワーク情報の表示方法およびその方法をプログラムとして格納した記録媒体ならびにそのプログラムを実行するコンピュータ |
Also Published As
Publication number | Publication date |
---|---|
JP2006293616A (ja) | 2006-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ahmed et al. | Detection of online fake news using n-gram analysis and machine learning techniques | |
JP4595692B2 (ja) | 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
Mitra et al. | An automatic approach to identify word sense changes in text media across timescales | |
JP6150282B2 (ja) | ノン・ファクトイド型質問応答システム及びコンピュータプログラム | |
Mohammad et al. | Semantic role labeling of emotions in tweets | |
US8983963B2 (en) | Techniques for comparing and clustering documents | |
JP5106636B2 (ja) | テキストセグメントを有する文書から用語を抽出するためのシステム | |
US8886661B2 (en) | Information extraction system, information extraction method, information extraction program, and information service system | |
US9251248B2 (en) | Using context to extract entities from a document collection | |
Zhang et al. | Narrative text classification for automatic key phrase extraction in web document corpora | |
JP5273735B2 (ja) | テキスト要約方法、その装置およびプログラム | |
JP2010157178A (ja) | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム | |
JP2014106665A (ja) | 文書検索装置、文書検索方法 | |
Sardinha | An assessment of metaphor retrieval methods | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
Xu et al. | Using SVM to extract acronyms from text | |
JP2002132811A (ja) | 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体 | |
Simaki et al. | Identifying the Authors' National Variety of English in Social Media Texts. | |
JP4525433B2 (ja) | 文書集約装置及びプログラム | |
JP3735336B2 (ja) | 文書要約方法及びシステム | |
JP3921837B2 (ja) | 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法 | |
Nguyen et al. | Automatic classification of folk narrative genres | |
JP4428703B2 (ja) | 情報検索方法及びそのシステム並びにコンピュータプログラム | |
JP2007293377A (ja) | 主観的ページと非主観的ページを分離する入出力装置 | |
WO2010103916A1 (ja) | 文書の特徴語提示装置及び特徴語の優先度付与プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070815 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100223 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100331 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100511 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100524 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130611 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140611 Year of fee payment: 4 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |