JP2011242975A - 代表語抽出装置、代表語抽出方法および代表語抽出プログラム - Google Patents
代表語抽出装置、代表語抽出方法および代表語抽出プログラム Download PDFInfo
- Publication number
- JP2011242975A JP2011242975A JP2010114051A JP2010114051A JP2011242975A JP 2011242975 A JP2011242975 A JP 2011242975A JP 2010114051 A JP2010114051 A JP 2010114051A JP 2010114051 A JP2010114051 A JP 2010114051A JP 2011242975 A JP2011242975 A JP 2011242975A
- Authority
- JP
- Japan
- Prior art keywords
- word
- group
- document
- index
- representative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】前処理部11は、代表語の抽出対象となる対象文書群を含む文書群を収集し、基準語取得部13は、代表語を抽出する基準となる基準語を取得する。そして、基準文書特定部14は、前処理部11から入力される文書群から基準語を含む基準文書を特定し、単語群抽出部15は、基準文書から基準語と基準語以外の単語とを単語群として抽出する。そして、指標算出部16は、抽出された単語群の各単語に対して、基準語との共起回数の大小に応じて値が増減する指標を算出する。そして、指標補正部17は、抽出された単語群の各単語に対して、全文書群における希少度と対象文書群における希少度とを算出し、算出した2つの希少度を用いて指標算出部16によって算出された指標を補正する。
【選択図】図3
Description
1a 閲覧履歴取得部
1b 内部情報処理部
2 ウェブサーバ群
3 通信網
10 代表語抽出装置
11 前処理部
12 基準語DB
13 基準語取得部
14 基準文書特定部
15 単語群抽出部
16 指標算出部
17 指標補正部
Claims (7)
- 代表語の抽出対象となる対象文書群を含む文書群を収集する文書群収集手段と、
前記代表語を抽出する基準となる単語である基準語を取得する基準語取得手段と、
前記文書群収集手段によって収集された文書群から前記基準語取得手段によって取得された基準語を含む文書である基準文書を特定する基準文書特定手段と、
前記基準文書特定手段によって特定された基準文書から前記基準語と前記基準語以外の単語とを単語群として抽出する単語群抽出手段と、
前記単語群抽出手段によって抽出された単語群の各単語に対して、前記基準語との共起回数の大小に応じて値が増減する指標を算出する指標算出手段と、
前記単語群抽出手段によって抽出された単語群の各単語に対して、前記文書群における希少度と前記対象文書群における希少度とを算出し、算出した2つの希少度を用いて前記指標算出手段によって算出された指標を補正する指標補正手段と
を備えたことを特徴とする代表語抽出装置。 - 前記指標補正手段は、前記単語群抽出手段によって抽出された単語群の各単語に対して、前記文書群における希少度と前記対象文書群における希少度とを算出し、算出した2つの希少度の比を前記指標算出手段によって算出された指標に乗算することにより当該指標を補正することを特徴とする請求項1に記載の代表語抽出装置。
- 前記指標算出手段によって算出される指標は、共起頻度又はjaccard係数であることを特徴とする請求項1又は2に記載の代表語抽出装置。
- 前記文書群は、ユーザが所定の期間に渡って時系列に沿ってウェブ上で閲覧したウェブページに含まれる複数の文書であることを特徴とする請求項1〜3のいずれか一つに記載の代表語抽出装置。
- 前記文書群は、時系列の情報を有さない複数の文書であることを特徴とする請求項1〜3のいずれか一つに記載の代表語抽出装置。
- 代表語の抽出対象となる対象文書群を含む文書群を収集する文書群収集ステップと、
前記代表語を抽出する基準となる単語である基準語を取得する基準語取得ステップと、
前記文書群収集ステップによって収集された文書群から前記基準語取得ステップによって取得された基準語を含む文書である基準文書を特定する基準文書特定ステップと、
前記基準文書特定ステップによって前記文書群から特定された基準文書から前記基準語と前記基準語以外の単語とを単語群として抽出する単語群抽出ステップと、
前記単語群抽出ステップによって抽出された単語群の各単語に対して、前記基準語との共起回数の大小に応じて値が増減する指標を算出する指標算出ステップと、
前記単語群抽出ステップによって抽出された単語群の各単語に対して、前記文書群における希少度と前記対象文書群における希少度とを算出し、算出した2つの希少度を用いて前記指標算出ステップによって算出された指標を補正する指標補正ステップと
を含んだことを特徴とする代表語抽出方法。 - コンピュータを請求項1〜5のいずれか一つに記載の代表語抽出装置として機能させることを特徴とする代表語抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010114051A JP5411802B2 (ja) | 2010-05-18 | 2010-05-18 | 代表語抽出装置、代表語抽出方法および代表語抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010114051A JP5411802B2 (ja) | 2010-05-18 | 2010-05-18 | 代表語抽出装置、代表語抽出方法および代表語抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011242975A true JP2011242975A (ja) | 2011-12-01 |
JP5411802B2 JP5411802B2 (ja) | 2014-02-12 |
Family
ID=45409562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010114051A Expired - Fee Related JP5411802B2 (ja) | 2010-05-18 | 2010-05-18 | 代表語抽出装置、代表語抽出方法および代表語抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5411802B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180035477A (ko) * | 2016-09-29 | 2018-04-06 | (주)시지온 | 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 |
US20220374950A1 (en) * | 2019-10-15 | 2022-11-24 | Nec Corporation | Consideration calculation device, control method, and non-transitory storage medium |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006048998A1 (ja) * | 2004-11-05 | 2006-05-11 | Intellectual Property Bank Corp. | キーワード抽出装置 |
-
2010
- 2010-05-18 JP JP2010114051A patent/JP5411802B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006048998A1 (ja) * | 2004-11-05 | 2006-05-11 | Intellectual Property Bank Corp. | キーワード抽出装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180035477A (ko) * | 2016-09-29 | 2018-04-06 | (주)시지온 | 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 |
US20220374950A1 (en) * | 2019-10-15 | 2022-11-24 | Nec Corporation | Consideration calculation device, control method, and non-transitory storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP5411802B2 (ja) | 2014-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kotov et al. | Modeling and analysis of cross-session search tasks | |
US9183281B2 (en) | Context-based document unit recommendation for sensemaking tasks | |
US8108405B2 (en) | Refining a search space in response to user input | |
Ooi et al. | A survey of query expansion, query suggestion and query refinement techniques | |
CN103455487B (zh) | 一种搜索词的提取方法及装置 | |
US8271502B2 (en) | Presenting multiple document summarization with search results | |
US9785704B2 (en) | Extracting query dimensions from search results | |
US20130024448A1 (en) | Ranking search results using feature score distributions | |
WO2008106667A1 (en) | Searching heterogeneous interrelated entities | |
JP2008542951A (ja) | 関連性ネットワーク | |
Makvana et al. | A novel approach to personalize web search through user profiling and query reformulation | |
JP6165955B1 (ja) | 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム | |
JP2007241888A (ja) | 情報処理装置および方法、並びにプログラム | |
Fejer et al. | Automatic Arabic text summarization using clustering and keyphrase extraction | |
KR100954842B1 (ko) | 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체 | |
Grahl et al. | Conceptual Clustering of Social Bookmarking Sites. | |
JP2007334590A (ja) | 情報ランキング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP5411802B2 (ja) | 代表語抽出装置、代表語抽出方法および代表語抽出プログラム | |
JP5474455B2 (ja) | 文書群処理装置、文書群処理方法および文書群処理プログラム | |
JP6196200B2 (ja) | ラベル抽出装置、ラベル抽出方法およびプログラム | |
JP4796527B2 (ja) | ドキュメント絞り込み検索装置、方法及びプログラム | |
JP2006099753A (ja) | 名前及びキーワードのグループ化方法、そのプログラムおよび記録媒体並びに装置 | |
JP2013222418A (ja) | パッセージ分割方法、装置、及びプログラム | |
JP2012104051A (ja) | 文書インデックス作成装置 | |
Moumtzidou et al. | Discovery of environmental nodes in the web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120828 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130827 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130903 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131108 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5411802 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |