JP2012113716A - カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法 - Google Patents
カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法 Download PDFInfo
- Publication number
- JP2012113716A JP2012113716A JP2011254699A JP2011254699A JP2012113716A JP 2012113716 A JP2012113716 A JP 2012113716A JP 2011254699 A JP2011254699 A JP 2011254699A JP 2011254699 A JP2011254699 A JP 2011254699A JP 2012113716 A JP2012113716 A JP 2012113716A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- document
- category
- importance
- extraction system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/191—Automatic line break hyphenation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Chemical & Material Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】キーワード抽出システムは、文書から少なくとも1つのキーワードを抽出して文書でキーワードの重要度を算出する重要度算出部と、キーワードのカテゴリーに基づいて文書のカテゴリーを選択するカテゴリー選択部と、抽出された少なくとも1つのキーワードのうち文書のカテゴリーに属するキーワードに対して重要度を考慮して最終的なキーワードを決定するキーワード決定部とを備えることを特徴とする。
【選択図】図1
Description
101 重要度算出部
102 カテゴリー選択部
103 代表キーワード決定部
Claims (19)
- 文書に含まれた少なくとも1つのキーワードに対して前記文書内における前記キーワードの重要度を算出する重要度算出部と、
前記キーワードの前記カテゴリーに基づいて前記文書の前記カテゴリーを選択するカテゴリー選択部と、
前記文書の前記カテゴリーおよび前記キーワードの重要度を考慮して前記文書に関する少なくとも1つの代表キーワードを決定する代表キーワード決定部と、
を備えることを特徴とするキーワード抽出システム。 - 前記重要度算出部は、前記文書で前記キーワードの形態素タイプまたは前記文書内の出現情報のうち少なくとも1つを考慮して、前記キーワードの重要度を算出することを特徴とする請求項1に記載のキーワード抽出システム。
- 前記重要度算出部は、前記キーワードが複合名詞であるか否かに応じて、前記キーワードの重要度を差等的に算出することを特徴とする請求項2に記載のキーワード抽出システム。
- 前記重要度算出部は、前記文書で予め設定された頻度以上に出現した前記キーワードの重要度を算出することを特徴とする請求項2に記載のキーワード抽出システム。
- 前記重要度算出部は、前記キーワードの文書出現頻度および前記キーワードの前記文書内の出現位置を用いて前記文書内の出現情報を決定することを特徴とする請求項2に記載のキーワード抽出システム。
- 前記カテゴリー選択部は、前記文書から抽出された前記キーワードの前記カテゴリーごとの出現頻度を用いて、前記文書の前記カテゴリーを選択することを特徴とする請求項1に記載のキーワード抽出システム。
- 前記カテゴリー選択部は、前記文書から抽出された前記キーワードの前記カテゴリーごとの出現頻度に前記文書で前記キーワードの重要度を繰り返し適用して前記文書の前記カテゴリーを選択することを特徴とする請求項1に記載のキーワード抽出システム。
- 前記代表キーワード決定部は、前記文書のカテゴリースコアと前記文書内における前記キーワードの重要度を組み合わせたスコアを用いて代表キーワードを決定することを特徴とする請求項1に記載のキーワード抽出システム。
- 前記代表キーワード決定部は、前記文書の前記カテゴリースコアに対して前記文書に含まれた前記キーワードが寄与した寄与度を用いて前記代表キーワードを決定することを特徴とする請求項1に記載のキーワード抽出システム。
- キーワード抽出システムによって行われるキーワード抽出方法において、
前記キーワード抽出システムの重要度算出部が、文書に含まれた少なくとも1つのキーワードに対して前記文書内における重要度を算出し、
前記キーワード抽出システムのカテゴリー選択部が前記キーワードの前記カテゴリー情報に基づいて、前記文書のカテゴリーを選択し、
前記キーワード抽出システムの代表キーワード決定部が、前記文書の前記カテゴリーおよび前記文書内における前記キーワードの重要度を考慮して前記文書に関する少なくとも1つの代表キーワードを決定することを特徴とするキーワード抽出方法。 - 前記文書で前記キーワードの重要度を算出することは、前記文書で前記キーワードの形態素タイプまたは前記文書内の出現情報のうち少なくとも1つを考慮して前記キーワードの重要度を算出することを特徴とする請求項10に記載のキーワード抽出方法。
- 前記文書でキーワードの重要度を算出することは、前記キーワードが複合名詞であるか否かに応じて、前記キーワードの重要度を差等的に算出することを特徴とする請求項11に記載のキーワード抽出方法。
- 前記文書でキーワードの重要度を算出することは、前記文書で予め設定された頻度以上に出現した前記キーワードの重要度を算出することを特徴とする請求項11に記載のキーワード抽出方法。
- 前記文書でキーワードの重要度を算出することは、前記キーワードの文書出現頻度および前記キーワードの前記文書内の出現位置を用いて、前記文書内の出現情報を決定することを特徴とする請求項11に記載のキーワード抽出方法。
- 前記文書のカテゴリーを選択することは、前記文書から抽出された前記キーワードの前記カテゴリーごとの出現頻度を用いて、前記文書の前記カテゴリーを選択することを特徴とする請求項10に記載のキーワード抽出方法。
- 前記文書のカテゴリーを選択することは、前記文書から抽出された前記キーワードの前記カテゴリーごとの出現頻度に前記文書で前記キーワードの重要度を繰り返し適用して、前記文書の前記カテゴリーを選択することを特徴とする請求項10に記載のキーワード抽出方法。
- 前記代表キーワードを決定することは、前記文書のカテゴリースコアと前記文書内における前記キーワードの重要度を組み合わせたスコアを用いて代表キーワードを決定することを特徴とする請求項10に記載のキーワード抽出方法。
- 前記代表キーワードを決定することは、前記文書の前記カテゴリースコアに対して前記文書に含まれたキーワードが寄与した寄与度を用いて代表キーワードを決定することを特徴とする請求項10に記載のキーワード抽出方法。
- 請求項10〜19のいずれか1項に記載のキーワード抽出方法を実行するためのプログラムが記録されたコンピュータで読み出し可能な記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2010-0116811 | 2010-11-23 | ||
KR1020100116811A KR101614551B1 (ko) | 2010-11-23 | 2010-11-23 | 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012113716A true JP2012113716A (ja) | 2012-06-14 |
JP5832869B2 JP5832869B2 (ja) | 2015-12-16 |
Family
ID=46497792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011254699A Active JP5832869B2 (ja) | 2010-11-23 | 2011-11-22 | カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5832869B2 (ja) |
KR (1) | KR101614551B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020052595A (ja) * | 2018-09-26 | 2020-04-02 | Kddi株式会社 | 抽出装置及びプログラム |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101602855B1 (ko) * | 2014-04-04 | 2016-03-14 | 김윤환 | 설명서 검색 키워드를 활용한 애프터서비스 요청 방법 |
JP7142975B1 (ja) | 2021-10-13 | 2022-09-28 | ケージーパルテック株式会社 | 戸袋走行レールセット、戸袋走行レールセット設置方法、および戸袋走行レール調整方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11143892A (ja) * | 1997-11-07 | 1999-05-28 | Fujitsu Ltd | キーワード重み生成装置及び方法並びにプログラム記憶媒体 |
JP2003281159A (ja) * | 2002-03-19 | 2003-10-03 | Fuji Xerox Co Ltd | 文書処理装置及び文書処理方法、文書処理プログラム |
US20040059708A1 (en) * | 2002-09-24 | 2004-03-25 | Google, Inc. | Methods and apparatus for serving relevant advertisements |
JP2004185515A (ja) * | 2002-12-05 | 2004-07-02 | Ricoh Co Ltd | テキストデータ評価装置、その方法、そのプログラム、及びその記録媒体 |
US20090112844A1 (en) * | 2007-10-30 | 2009-04-30 | Yahoo! Inc. | Representative keyword selection |
JP2010044585A (ja) * | 2008-08-12 | 2010-02-25 | Yahoo Japan Corp | 広告配信装置、広告配信方法、及び広告配信制御プログラム |
US20100293062A1 (en) * | 2009-05-14 | 2010-11-18 | Rajan Lukose | Advertisement selection based on key words |
-
2010
- 2010-11-23 KR KR1020100116811A patent/KR101614551B1/ko active IP Right Grant
-
2011
- 2011-11-22 JP JP2011254699A patent/JP5832869B2/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11143892A (ja) * | 1997-11-07 | 1999-05-28 | Fujitsu Ltd | キーワード重み生成装置及び方法並びにプログラム記憶媒体 |
JP2003281159A (ja) * | 2002-03-19 | 2003-10-03 | Fuji Xerox Co Ltd | 文書処理装置及び文書処理方法、文書処理プログラム |
US20040059708A1 (en) * | 2002-09-24 | 2004-03-25 | Google, Inc. | Methods and apparatus for serving relevant advertisements |
JP2006500698A (ja) * | 2002-09-24 | 2006-01-05 | グーグル、インコーポレイテッド | 関連性のある広告を供給するための方法及び装置 |
JP2004185515A (ja) * | 2002-12-05 | 2004-07-02 | Ricoh Co Ltd | テキストデータ評価装置、その方法、そのプログラム、及びその記録媒体 |
US20090112844A1 (en) * | 2007-10-30 | 2009-04-30 | Yahoo! Inc. | Representative keyword selection |
JP2010044585A (ja) * | 2008-08-12 | 2010-02-25 | Yahoo Japan Corp | 広告配信装置、広告配信方法、及び広告配信制御プログラム |
US20100293062A1 (en) * | 2009-05-14 | 2010-11-18 | Rajan Lukose | Advertisement selection based on key words |
Non-Patent Citations (1)
Title |
---|
JPN6015020775; 内山 俊郎 他: '単語概念ベクトルを用いた文書群からの代表語抽出' 電子情報通信学会技術研究報告 Vol.108,No.93(DE2008-9), 20080612, pp.47-52., 社団法人電子情報通信学会 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020052595A (ja) * | 2018-09-26 | 2020-04-02 | Kddi株式会社 | 抽出装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
KR101614551B1 (ko) | 2016-04-22 |
JP5832869B2 (ja) | 2015-12-16 |
KR20120075553A (ko) | 2012-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10642938B2 (en) | Artificial intelligence based method and apparatus for constructing comment graph | |
CN109815308B (zh) | 意图识别模型的确定及检索意图识别方法、装置 | |
JP6657124B2 (ja) | 会話理解システムのためのセッションコンテキストモデリング | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
US9997157B2 (en) | Knowledge source personalization to improve language models | |
US11222310B2 (en) | Automatic tagging for online job listings | |
JP4726528B2 (ja) | マルチセンスクエリについての関連語提案 | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
US8782037B1 (en) | System and method for mark-up language document rank analysis | |
CN106663117B (zh) | 构造支持提供探索性建议的图 | |
US11461353B2 (en) | Identifying and extracting addresses within content | |
Grenager et al. | Unsupervised learning of field segmentation models for information extraction | |
US9519870B2 (en) | Weighting dictionary entities for language understanding models | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
CN101241512A (zh) | 一种重新定义查询词的搜索方法及装置 | |
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
KR20180126577A (ko) | 관련 엔티티 탐색 | |
AU2014228754C1 (en) | Non-deterministic disambiguation and matching of business locale data | |
KR20190128246A (ko) | 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체 | |
US20230111911A1 (en) | Generation and use of content briefs for network content authoring | |
KR100892847B1 (ko) | 광고 집행에 따른 반응정보 제공 방법 및 시스템 | |
JP5832869B2 (ja) | カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法 | |
CN107665442B (zh) | 获取目标用户的方法及装置 | |
Carver | E-fencing detection: mining online classified ad websites for stolen property. | |
Hong | A study on textual contents in online communities and social media using text mining approaches |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140602 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20141010 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150115 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150417 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150602 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150902 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150929 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151028 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5832869 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |