JP2013114586A - 特徴語抽出装置、特徴語抽出方法、及びプログラム - Google Patents
特徴語抽出装置、特徴語抽出方法、及びプログラム Download PDFInfo
- Publication number
- JP2013114586A JP2013114586A JP2011262395A JP2011262395A JP2013114586A JP 2013114586 A JP2013114586 A JP 2013114586A JP 2011262395 A JP2011262395 A JP 2011262395A JP 2011262395 A JP2011262395 A JP 2011262395A JP 2013114586 A JP2013114586 A JP 2013114586A
- Authority
- JP
- Japan
- Prior art keywords
- word
- feature
- feature word
- words
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】候補獲得部24によって、未知語であるカタカナ語が分割され、かつ、形態素解析済みのWebテキストの集合から、カテゴリ語リストと、カテゴリ語及び特徴語の出現パタンとに基づいて、特徴語の候補を獲得する。スコア計算部27によって、獲得された特徴語の候補の各々について、スコアを計算する。候補出力部28によって、計算されたスコアが閾値以上となる特徴語の候補を、特徴語として特徴語辞書データベース29に登録する。
【選択図】図1
Description
図1に示すように、本発明の実施の形態に係る特徴語抽出装置100は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、後述する特徴語抽出処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成され、機能的には次に示すように構成されている。特徴語抽出装置100は、入力部10と、演算部20とを備えている。
2.候補語xを形態素境界で分割し、分割数(length(x)に相当)を得る。
3.候補語xをキーとし、スコア計算部27の入力である候補語を検索し、キーである候補語xを含む候補語とそれに紐付く出現頻度を取得し、候補語xを含む候補語と出現頻度とのペアを表わす候補語リストペアを作成する。
4.候補語リストペア中の出現頻度を足しこみ、t(x)を求める。
5.候補語リストペア中の候補語の種類数(c(x)に相当)を求める。
6.求められたn(x)、sf(x)、length(x)、t(x)、c(x)から、上記(1)式に従い score(x)を算出する。
次に、本実施の形態に係る特徴語抽出装置100の作用について説明する。まず、特徴語抽出装置100に、商品の説明文を含むWebテキストの集合が入力されると、Webテキスト記憶部21に記憶される。そして、特徴語抽出装置100において、図5に示す特徴語抽出処理ルーチンが実行される。
20 演算部
21 Webテキスト記憶部
22 形態素解析部
23 カタカナ未知語分割部
24 候補獲得部
25 カテゴリ語リストデータベース
26 抽出パタンデータベース
27 スコア計算部
28 候補出力部
29 特徴語辞書データベース
100 特徴語抽出装置
Claims (7)
- 説明対象の説明文から前記説明対象に関する特徴語を抽出する特徴語抽出装置における特徴語抽出方法であって、
候補獲得手段によって、入力された、未知語であるカタカナ語が分割され、かつ、形態素解析済みの説明文の集合から、予め求められた前記説明対象のカテゴリ語のリストと、予め求められた前記カテゴリ語及び該カテゴリ語を修飾する特徴語の出現パタンとに基づいて、特徴語の候補を獲得するステップと、
スコア計算手段によって、前記獲得された特徴語の候補の各々について、前記説明文の集合における前記特徴語の候補の出現頻度、及び前記特徴語の候補が出現する説明文の数に基づいて、特徴語である度合いを示すスコアを計算するステップと、
候補出力手段によって、前記計算されたスコアが閾値以上となる特徴語の候補を、前記特徴語として出力するステップと、
を含む特徴語抽出方法。 - 前記前記カテゴリ語及び該カテゴリ語を修飾する特徴語の出現パタンは、
前記カテゴリ語、及び該カテゴリ語を修飾する形容詞、形容動詞、又は副詞としての特徴語が出現するパタン、
前記カテゴリ語及び前記特徴語を含む複合語として出現するパタン、あるいは
前記カテゴリ語及び該カテゴリ語に係る名詞句としての特徴語が出現するパタンを含む請求項1記載の特徴語抽出方法。 - 前記スコア計算手段によって前記スコアを計算するステップは、前記獲得された特徴語の候補の各々について、前記特徴語の候補の出現頻度、前記特徴語の候補が出現する説明文の数、前記特徴語の候補を構成する形態素の数、前記特徴語の候補を含む他の候補の出現頻度の総数、及び前記特徴語の候補を含む他の候補の種類数に基づいて、前記スコアを計算する請求項1又は2記載の特徴語抽出方法。
- カタカナ未知語分割手段によって、入力された、形態素解析済みの説明文の集合における、未知語であるカタカナ語を分割するステップを更に含み、
前記候補獲得手段によって前記特徴語の候補を獲得するステップは、前記カタカナ未知語分割手段によって未知語であるカタカナ語が分割され、かつ、形態素解析済みの説明文の集合から、前記特徴語の候補を獲得する請求項1〜3の何れか1項記載の特徴語抽出方法。 - 形態素解析手段によって、入力された説明文の集合に対して形態素解析を行うステップを更に含み、
前記カタカナ未知語分割手段によって前記未知語であるカタカナ語を分割するステップは、前記形態素解析手段による態素解析済みの説明文の集合における、未知語であるカタカナ語を分割する請求項4記載の特徴語抽出方法。 - 説明対象の説明文から前記説明対象に関する特徴語を抽出する特徴語抽出装置であって、
入力された、未知語であるカタカナ語が分割され、かつ、形態素解析済みの説明文の集合から、予め求められた前記説明対象のカテゴリ語のリストと、予め求められた前記カテゴリ語及び該カテゴリ語を修飾する特徴語の出現パタンとに基づいて、特徴語の候補を獲得する候補獲得手段と、
前記獲得された特徴語の候補の各々について、前記説明文の集合における前記特徴語の候補の出現頻度、及び前記特徴語の候補が出現する説明文の数に基づいて、特徴語である度合いを示すスコアを計算するスコア計算手段と、
前記計算されたスコアが閾値以上となる特徴語の候補を、前記特徴語として出力する候補出力手段と、
を含む特徴語抽出装置。 - コンピュータに、請求項1〜請求項5の何れか1項記載の特徴語抽出方法の各ステップを実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011262395A JP5705710B2 (ja) | 2011-11-30 | 2011-11-30 | 特徴語抽出装置、特徴語抽出方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011262395A JP5705710B2 (ja) | 2011-11-30 | 2011-11-30 | 特徴語抽出装置、特徴語抽出方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013114586A true JP2013114586A (ja) | 2013-06-10 |
JP5705710B2 JP5705710B2 (ja) | 2015-04-22 |
Family
ID=48710052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011262395A Expired - Fee Related JP5705710B2 (ja) | 2011-11-30 | 2011-11-30 | 特徴語抽出装置、特徴語抽出方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5705710B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018073947A1 (ja) * | 2016-10-20 | 2018-04-26 | 富士通株式会社 | 対応語出力プログラム、対応語出力装置及び対応語出力方法 |
US10585922B2 (en) | 2018-05-23 | 2020-03-10 | International Business Machines Corporation | Finding a resource in response to a query including unknown words |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007183927A (ja) * | 2005-12-05 | 2007-07-19 | Sony Corp | 情報処理装置および方法、並びにプログラム |
JP2009043189A (ja) * | 2007-08-10 | 2009-02-26 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2010146288A (ja) * | 2008-12-18 | 2010-07-01 | Dainippon Printing Co Ltd | 組合せ商品の情報提供と顧客の反応情報収集をする方法、装置、プログラム、記録媒体 |
-
2011
- 2011-11-30 JP JP2011262395A patent/JP5705710B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007183927A (ja) * | 2005-12-05 | 2007-07-19 | Sony Corp | 情報処理装置および方法、並びにプログラム |
JP2009043189A (ja) * | 2007-08-10 | 2009-02-26 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
JP2010146288A (ja) * | 2008-12-18 | 2010-07-01 | Dainippon Printing Co Ltd | 組合せ商品の情報提供と顧客の反応情報収集をする方法、装置、プログラム、記録媒体 |
Non-Patent Citations (6)
Title |
---|
CSNG200301565015; 湯本紘彰 他: '出現頻度と連接頻度に基づく専門用語抽出' 情報処理学会研究報告 Vol.2001,No.86, 20010911, p.111-118, 社団法人情報処理学会 * |
CSNG201000460141; 中澤敏明 他: '日本語辞書整備のための日本語カタカナ複合名詞の自動分割' 言語処理学会第11回 年次大会発表論文集 , 20050315, p.588-591, 言語処理学会 * |
CSNG201100237221; 鍛治伸裕 他: '翻字と言い換えを利用した片仮名複合語の分割' 言語処理学会第17回 年次大会発表論文集 , 20110307, p.995-998, 言語処理学会 * |
JPN6014028744; 鍛治伸裕 他: '翻字と言い換えを利用した片仮名複合語の分割' 言語処理学会第17回 年次大会発表論文集 , 20110307, p.995-998, 言語処理学会 * |
JPN6014028745; 中澤敏明 他: '日本語辞書整備のための日本語カタカナ複合名詞の自動分割' 言語処理学会第11回 年次大会発表論文集 , 20050315, p.588-591, 言語処理学会 * |
JPN6014028746; 湯本紘彰 他: '出現頻度と連接頻度に基づく専門用語抽出' 情報処理学会研究報告 Vol.2001,No.86, 20010911, p.111-118, 社団法人情報処理学会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018073947A1 (ja) * | 2016-10-20 | 2018-04-26 | 富士通株式会社 | 対応語出力プログラム、対応語出力装置及び対応語出力方法 |
US10585922B2 (en) | 2018-05-23 | 2020-03-10 | International Business Machines Corporation | Finding a resource in response to a query including unknown words |
US11308139B2 (en) | 2018-05-23 | 2022-04-19 | International Business Machines Corporation | Finding a resource in response to a query including unknown words |
Also Published As
Publication number | Publication date |
---|---|
JP5705710B2 (ja) | 2015-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104933027B (zh) | 一种利用依存分析的开放式中文实体关系抽取方法 | |
US8010342B2 (en) | Word usage analyzer | |
US9128907B2 (en) | Language model generating device, method thereof, and recording medium storing program thereof | |
Tanaka-Ishii et al. | Computational constancy measures of texts—Yule's K and Rényi's entropy | |
Gupta et al. | Text summarization of Hindi documents using rule based approach | |
Husain | An unsupervised approach to develop stemmer | |
Ramisch et al. | A broad evaluation of techniques for automatic acquisition of multiword expressions | |
CN108959630A (zh) | 一种面向英文无结构文本的人物属性抽取方法 | |
JP5705710B2 (ja) | 特徴語抽出装置、特徴語抽出方法、及びプログラム | |
Paul et al. | An affix removal stemmer for natural language text in nepali | |
JP2010224984A5 (ja) | ||
CN104331397B (zh) | 一种机器翻译方法及系统 | |
CN110705285A (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
JP2007164635A (ja) | 同義語彙獲得方法及び装置及びプログラム | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
Ljajić et al. | Sentiment analysis of textual comments in field of sport | |
Rofiq | Indonesian news extractive text summarization using latent semantic analysis | |
JP5977199B2 (ja) | 地域連想語抽出装置、地域連想語抽出方法及び地域連想語抽出プログラム | |
Noyunsan et al. | A Multi-Aspect Comparison and Evaluation on Thai Word Segmentation Programs. | |
Wang et al. | Cross-language and cross-encyclopedia article linking using mixed-language topic model and hypernym translation | |
Elghannam et al. | Keyphrase based evaluation of automatic text summarization | |
JP2012243129A (ja) | 話題語獲得装置、方法、及びプログラム | |
Tomás et al. | Mining wikipedia as a parallel and comparable corpus | |
Estiri et al. | Improvement of an abstractive summarization evaluation tool using lexical-semantic relations and weighted syntax tags in Farsi language | |
JP2008233963A (ja) | 単語間相関度計算装置および方法、プログラム並びに記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140708 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140904 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150127 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5705710 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |