JP2007079948A - 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム - Google Patents
専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム Download PDFInfo
- Publication number
- JP2007079948A JP2007079948A JP2005267079A JP2005267079A JP2007079948A JP 2007079948 A JP2007079948 A JP 2007079948A JP 2005267079 A JP2005267079 A JP 2005267079A JP 2005267079 A JP2005267079 A JP 2005267079A JP 2007079948 A JP2007079948 A JP 2007079948A
- Authority
- JP
- Japan
- Prior art keywords
- category
- appearance frequency
- word string
- technical term
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 カテゴリ別頻度計算手段12は、1つの文書に複数のカテゴリが付与されている場合でもそのうちの1つのカテゴリのみを用いるという条件に従って、専門用語候補である候補単語列のカテゴリ別出現頻度を求める。エントロピー計算手段13は、カテゴリ別頻度計算手段12が算出した各候補単語列のカテゴリ別出現頻度に基づいて各候補単語列のエントロピーを計算し、計算したエントロピーに基づいて各候補単語列が専門用語か否かを判定する。又は、カテゴリ別出現頻度に基づいて、カイ二乗値や、カテゴリ数の最小値や、出現頻度の最大値を求め、求めたそれらの値に基づいて専門用語か否かを判定してもよい。
【選択図】 図1
Description
以下、本発明の実施の形態を図面を参照して説明する。図1は、本発明による専門用語抽出装置の構成例を示すブロック図である。図1に示す専門用語抽出装置は、プログラムに従って動作するデータ処理装置1(例えば、CPU)と、情報を記憶する記憶装置2とを含む。専門用語抽出処理装置は、例えばパーソナルコンピュータである。データ処理装置1は、索引作成手段10と、専門用語候補作成手段11と、カテゴリ別頻度計算手段12と、エントロピー計算手段13とを備える。記憶装置2は、カテゴリ付文書記憶部20と、索引記憶部21と、専門用語候補記憶部22と、カテゴリ別頻度記憶部23と、専門用語記憶部24とを備える。
以下、本発明の第2の実施の形態を図面を参照して説明する。図10は、第2の実施の形態における専門用語抽出装置の構成例を示すブロック図である。図10に示す専門用語抽出装置は、第1の実施の形態と同様、プログラムに従って動作するデータ処理装置1(例えば、CPU)と、情報を記憶する記憶装置2とを含む。データ処理装置1は、索引作成手段10と、専門用語候補作成手段11と、カテゴリ別頻度計算手段12と、カイ二乗値計算手段14とを備える。記憶装置2は、カテゴリ付文書記憶部20と、索引記憶部21と、専門用語候補記憶部22と、カテゴリ別頻度記憶部23と、専門用語記憶部24とを備える。図1に示した第1の実施の形態と比べて、エントロピー計算手段13がカイ二乗値計算手段14に変わっている点が異なる。なお、カイ二乗値計算手段14以外は、第1の実施の形態と同様である。
以下、本発明の第3の実施の形態を図面を参照して説明する。図14は、第3の実施の形態における専門用語抽出装置の構成例を示すブロック図である。図14に示す専門用語抽出装置は、第1の実施の形態と同様、プログラムに従って動作するデータ処理装置1(例えば、CPU)と、情報を記憶する記憶装置2とを含む。データ処理装置1は、索引作成手段10と、専門用語候補作成手段11と、カテゴリ別頻度計算手段12と、カテゴリ数計算手段15とを備える。記憶装置2は、カテゴリ付文書記憶部20と、索引記憶部21と、専門用語候補記憶部22と、カテゴリ別頻度記憶部23と、専門用語記憶部24とを備える。図1に示した第1の実施の形態と比べて、エントロピー計算手段13がカテゴリ数計算手段15に変わっている点が異なる。なお、カテゴリ数計算手段15以外は、第1の実施の形態と同様である。
以下、本発明の第3の実施の形態を図面を参照して説明する。図17は、第4の実施の形態における専門用語抽出装置の構成例を示すブロック図である。図17に示す専門用語抽出装置は、第1の実施の形態と同様、プログラムに従って動作するデータ処理装置1(例えば、CPU)と、情報を記憶する記憶装置2とを含む。データ処理装置1は、索引作成手段10と、専門用語候補作成手段11と、カテゴリ別頻度計算手段12と、出現割合計算手段16とを備える。記憶装置2は、カテゴリ付文書記憶部20と、索引記憶部21と、専門用語候補記憶部22と、カテゴリ別頻度記憶部23と、専門用語記憶部24とを備える。図1に示した第1の実施の形態と比べて、エントロピー計算手段13が出現割合計算手段16に変わっている点が異なる。なお、出現割合計算手段16以外は、第1の実施の形態と同様である。
2 記憶装置
10 索引作成手段
11 専門用語候補作成手段
12 カテゴリ別頻度計算手段
13 エントロピー計算手段
14 カイ二乗値計算手段
15 カテゴリ数計算手段
16 出現割合計算手段
20 カテゴリ付文書記憶部
21 索引記憶部
22 専門用語候補記憶部
23 カテゴリ別頻度記憶部
24 専門用語記憶部
Claims (12)
- 1つの文書に対してカテゴリが付与されているカテゴリ付文書集合から専門用語を抽出する専門用語抽出装置であって、
前記文書集合に含まれる文書内に出現する用語の各カテゴリにおける出現確率であるカテゴリ別出現頻度を、その文書に付与されているカテゴリのうちのいずれか1つのカテゴリのみを用いるという条件に従って計算するカテゴリ別出現頻度計算手段を備えた
ことを特徴とする専門用語抽出装置。 - カテゴリ別出現頻度計算手段は、各文書に付与されている全てのカテゴリを用いて用語のカテゴリ毎の出現頻度を求め、前記カテゴリ毎の出現頻度が最大となる1つのカテゴリのみを用いるという条件に従ってカテゴリ別出現頻度を計算する
請求項1記載の専門用語抽出装置。 - カテゴリ別出現頻度計算手段が計算した用語のカテゴリ別出現頻度に基づいて、該用語が専門用語か否かを判定し、前記判定結果に基づいて専門用語を抽出する専門用語抽出手段を備えた
請求項1または請求項2記載の専門用語抽出装置。 - 専門用語抽出手段は、
カテゴリ別出現頻度計算手段が計算した用語のカテゴリ別出現頻度に基づいて、該用語と各カテゴリとの関連の度合いを示すカテゴリ関連指数を計算するカテゴリ関連指数計算手段と、
前記関連指数計算手段が計算したカテゴリ関連指数に基づいて、該用語が専門用語か否かを判定する専門用語判定手段とを有する
請求項3記載の専門用語抽出装置。 - カテゴリ別出現頻度計算手段は、専門用語の候補となる単語列である候補単語列のカテゴリ別出現頻度を計算し、
専門用語抽出手段は、
カテゴリ別出現頻度計算手段が計算した候補単語列のカテゴリ別出現頻度を記憶するカテゴリ別出現頻度記憶部と、
前記カテゴリ別出現頻度記憶部に記憶された候補単語列のカテゴリ別出現頻度に基づいて、候補単語列がどれくらい多くのカテゴリに分散しているかを示すエントロピーを計算し、前記エントロピーが所定のしきい値以下である場合に、該候補単語列を専門用語と判定するエントロピー計算手段とを有する
請求項3記載の専門用語抽出装置。 - カテゴリ別出現頻度計算手段は、専門用語の候補となる単語列である候補単語列のカテゴリ別出現頻度を計算し、
専門用語抽出手段は、
カテゴリ別出現頻度計算手段が計算した候補単語列のカテゴリ別出現頻度を記憶するカテゴリ別出現頻度記憶部と、
前記カテゴリ別出現頻度記憶部に記憶された候補単語列のカテゴリ別出現頻度に基づいて、候補単語列のカテゴリ別出現頻度が期待値からどの程度離れているかを示すカイ二乗値を計算し、前記カイ二乗値が所定のしきい値以上である場合に、該候補単語列を専門用語と判定するカイ二乗値計算手段を有する
請求項3記載の専門用語抽出装置。 - カテゴリ別出現頻度計算手段は、専門用語の候補となる単語列である候補単語列のカテゴリ別出現頻度を計算し、
専門用語抽出手段は、
カテゴリ別出現頻度計算手段が計算した候補単語列のカテゴリ別出現頻度を記憶するカテゴリ別出現頻度記憶部と、
前記カテゴリ別出現頻度記憶部に記憶された候補単語列のカテゴリ別出現頻度に基づいて、該候補単語列の総出現頻度に対する出現割合が所定のしきい値m1以上になるために必要な最小のカテゴリ数を示すカテゴリ数の最小値を計算し、前記カテゴリ数の最小値が所定のしきい値n1以下である場合に、該候補単語列を専門用語と判定するカテゴリ数計算手段を有する
請求項3記載の専門用語抽出装置。 - カテゴリ別出現頻度計算手段は、専門用語の候補となる単語列である候補単語列のカテゴリ別出現頻度を計算し、
専門用語抽出手段は、
カテゴリ別出現頻度計算手段が計算した候補単語列のカテゴリ別出現頻度を記憶するカテゴリ別出現頻度記憶部と、
前記カテゴリ別出現頻度記憶部に記憶された候補単語列のカテゴリ別出現頻度に基づいて、候補単語列のカテゴリ数が所定のしきい値m2以下となる総出現頻度に対する最大の出現割合を示す出現割合の最大値を計算し、前記出現割合の最大値が所定のしきい値n2以上である場合に、該候補単語列を専門用語と判定する出現割合計算手段を有する
請求項3記載の専門用語抽出装置。 - カテゴリ付文書集合から単語列を抽出し、抽出した各単語列に対する文書毎の出現頻度を単語列に対応づけて示す出現頻度索引と、各文書に付与されているカテゴリの種類を文書に対応づけて示すカテゴリ索引とを作成する索引作成手段と、
前記索引作成手段が抽出した単語列の中から、所定の条件に合致する単語列を専門用語の候補である候補単語列として選定する候補単語列選定手段とを備え、
カテゴリ別出現頻度算出手段は、前記候補単語列選定手段が選定した候補単語列それぞれについて、索引作成手段が作成した索引を用いてカテゴリ別出現頻度を算出する
請求項1から請求項8のうちのいずれか1項に記載の専門用語抽出装置。 - 専門用語として判定した単語列を保存する専門用語記憶手段を備えた
請求項5から請求項9のうちのいずれか1項に記載の専門用語抽出装置。 - 1つの文書に対してカテゴリが付与されているカテゴリ付文書集合から専門用語を抽出する専門用語抽出方法であって、
前記文書集合に含まれる文書内に出現する用語の各カテゴリにおける出現確率であるカテゴリ別出現頻度を、その文書に付与されているカテゴリのうちのいずれか1つのカテゴリのみを用いるという条件に従って計算する
ことを特徴とする専門用語抽出方法。 - 1つの文書に対してカテゴリが付与されているカテゴリ付文書集合から専門用語を抽出するための専門用語抽出プログラムであって、
コンピュータに、
前記文書集合に含まれる文書内に出現する用語の各カテゴリにおける出現確率であるカテゴリ別出現頻度を、その文書に付与されているカテゴリのうちのいずれか1つのカテゴリのみを用いるという条件に従って計算する処理
を実行させるための専門用語抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005267079A JP4747752B2 (ja) | 2005-09-14 | 2005-09-14 | 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005267079A JP4747752B2 (ja) | 2005-09-14 | 2005-09-14 | 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007079948A true JP2007079948A (ja) | 2007-03-29 |
JP4747752B2 JP4747752B2 (ja) | 2011-08-17 |
Family
ID=37940189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005267079A Expired - Fee Related JP4747752B2 (ja) | 2005-09-14 | 2005-09-14 | 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4747752B2 (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008257511A (ja) * | 2007-04-05 | 2008-10-23 | Yahoo Japan Corp | 専門用語抽出装置、方法及びプログラム |
JP2010157102A (ja) * | 2008-12-26 | 2010-07-15 | Ntt Data Corp | 単語抽出装置、単語抽出方法およびプログラム |
JP2011039985A (ja) * | 2009-08-18 | 2011-02-24 | Toshiba Corp | 文書処理装置およびプログラム |
JP2011043973A (ja) * | 2009-08-20 | 2011-03-03 | Yahoo Japan Corp | 情報アクセス支援装置および情報アクセス支援方法 |
WO2011042946A1 (ja) * | 2009-10-05 | 2011-04-14 | 株式会社 東芝 | 類似コンテンツ検索装置及びプログラム |
JP2011164791A (ja) * | 2010-02-05 | 2011-08-25 | Ntt Data Corp | 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム |
JP2012073804A (ja) * | 2010-09-28 | 2012-04-12 | Toshiba Corp | キーワード提示装置、方法及びプログラム |
JP2014215658A (ja) * | 2013-04-23 | 2014-11-17 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報の取得を支援する装置及び方法 |
US9268974B2 (en) | 2009-12-11 | 2016-02-23 | International Business Machines Corporation | High-frequency entropy extraction from timing jitter |
JP2016066376A (ja) * | 2011-01-25 | 2016-04-28 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 分類された誤配置の識別 |
CN115066679A (zh) * | 2020-03-25 | 2022-09-16 | 苏州七星天专利运营管理有限责任公司 | 一种提取专业领域内的自造术语的方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03116374A (ja) * | 1989-09-29 | 1991-05-17 | Ricoh Co Ltd | 専門用語抽出システム |
JPH08221447A (ja) * | 1995-02-10 | 1996-08-30 | Canon Inc | 文書自動分類装置 |
JPH11167581A (ja) * | 1997-12-04 | 1999-06-22 | Ntt Data Corp | 情報分類方法、装置及びシステム |
JP2004030202A (ja) * | 2002-06-25 | 2004-01-29 | Fujitsu Ltd | 特徴語抽出システム |
JP2005107952A (ja) * | 2003-09-30 | 2005-04-21 | Ricoh Co Ltd | 出品支援方法及び出品支援プログラム |
JP2005122477A (ja) * | 2003-10-16 | 2005-05-12 | Shinsedai Kk | 擬似メール方法、擬似メール装置、及び、擬似メールプログラム |
-
2005
- 2005-09-14 JP JP2005267079A patent/JP4747752B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03116374A (ja) * | 1989-09-29 | 1991-05-17 | Ricoh Co Ltd | 専門用語抽出システム |
JPH08221447A (ja) * | 1995-02-10 | 1996-08-30 | Canon Inc | 文書自動分類装置 |
JPH11167581A (ja) * | 1997-12-04 | 1999-06-22 | Ntt Data Corp | 情報分類方法、装置及びシステム |
JP2004030202A (ja) * | 2002-06-25 | 2004-01-29 | Fujitsu Ltd | 特徴語抽出システム |
JP2005107952A (ja) * | 2003-09-30 | 2005-04-21 | Ricoh Co Ltd | 出品支援方法及び出品支援プログラム |
JP2005122477A (ja) * | 2003-10-16 | 2005-05-12 | Shinsedai Kk | 擬似メール方法、擬似メール装置、及び、擬似メールプログラム |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008257511A (ja) * | 2007-04-05 | 2008-10-23 | Yahoo Japan Corp | 専門用語抽出装置、方法及びプログラム |
JP2010157102A (ja) * | 2008-12-26 | 2010-07-15 | Ntt Data Corp | 単語抽出装置、単語抽出方法およびプログラム |
JP2011039985A (ja) * | 2009-08-18 | 2011-02-24 | Toshiba Corp | 文書処理装置およびプログラム |
JP2011043973A (ja) * | 2009-08-20 | 2011-03-03 | Yahoo Japan Corp | 情報アクセス支援装置および情報アクセス支援方法 |
US8904437B2 (en) | 2009-10-05 | 2014-12-02 | Kabushiki Kaisha Toshiba | Similar content search device and computer-readable storage medium |
WO2011042946A1 (ja) * | 2009-10-05 | 2011-04-14 | 株式会社 東芝 | 類似コンテンツ検索装置及びプログラム |
JP5415550B2 (ja) * | 2009-10-05 | 2014-02-12 | 株式会社東芝 | 類似コンテンツ検索装置及びプログラム |
US9268974B2 (en) | 2009-12-11 | 2016-02-23 | International Business Machines Corporation | High-frequency entropy extraction from timing jitter |
JP2011164791A (ja) * | 2010-02-05 | 2011-08-25 | Ntt Data Corp | 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム |
US8812504B2 (en) | 2010-09-28 | 2014-08-19 | Kabushiki Kaisha Toshiba | Keyword presentation apparatus and method |
JP2012073804A (ja) * | 2010-09-28 | 2012-04-12 | Toshiba Corp | キーワード提示装置、方法及びプログラム |
JP2016066376A (ja) * | 2011-01-25 | 2016-04-28 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 分類された誤配置の識別 |
JP2014215658A (ja) * | 2013-04-23 | 2014-11-17 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報の取得を支援する装置及び方法 |
US9626433B2 (en) | 2013-04-23 | 2017-04-18 | International Business Machines Corporation | Supporting acquisition of information |
CN115066679A (zh) * | 2020-03-25 | 2022-09-16 | 苏州七星天专利运营管理有限责任公司 | 一种提取专业领域内的自造术语的方法及系统 |
CN115066679B (zh) * | 2020-03-25 | 2024-02-20 | 苏州七星天专利运营管理有限责任公司 | 一种提取专业领域内的自造术语的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
JP4747752B2 (ja) | 2011-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4747752B2 (ja) | 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム | |
KR101276602B1 (ko) | 표의문자적 내용을 가지는 데이터를 서치하고 매칭하기위한 시스템 및 방법 | |
US8527436B2 (en) | Automated parsing of e-mail messages | |
US8150827B2 (en) | Methods for enhancing efficiency and cost effectiveness of first pass review of documents | |
KR101511656B1 (ko) | 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙 | |
US8019758B2 (en) | Generation of a blended classification model | |
US20080189273A1 (en) | System and method for utilizing advanced search and highlighting techniques for isolating subsets of relevant content data | |
US8832126B2 (en) | Custodian suggestion for efficient legal e-discovery | |
US20060161531A1 (en) | Method and system for information extraction | |
CN101911069A (zh) | 用于数据聚类和同义词的发现和修改的方法和系统 | |
CA2836220A1 (en) | Methods and systems for matching records and normalizing names | |
JP2013502012A (ja) | 人的資本労働雇用の地位/職務を製品化するためのシステムおよび方法 | |
Wahyudi et al. | Topic modeling of online media news titles during COVID-19 emergency response in Indonesia using the latent dirichlet allocation (LDA) algorithm | |
JP5224532B2 (ja) | 評判情報分類装置及びプログラム | |
WO1999014690A1 (fr) | Procede d'addition d'un mot cle au moyen d'informations de liaison | |
CN110888977B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
WO2020080375A1 (ja) | 報告書作成装置、方法、および記録媒体 | |
US20110066622A1 (en) | Product line extraction | |
JP2012247948A (ja) | 辞書管理装置、辞書管理方法、辞書管理プログラム | |
JP2009205499A (ja) | ウェブページ特定装置、ウェブページ特定方法およびウェブページ特定用プログラム | |
KR101078978B1 (ko) | 문서 분류 시스템 | |
KR100659370B1 (ko) | 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법 | |
CN113672703A (zh) | 一种用户信息的更新方法、装置、设备及存储介质 | |
JP7060369B2 (ja) | 名寄せ支援装置、名寄せ支援方法及びプログラム | |
WO2015125088A1 (en) | Document characterization method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080711 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110118 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110315 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110419 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110502 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140527 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |