JP2005267397A - 語句分類システム、語句分類方法、および語句分類プログラム - Google Patents
語句分類システム、語句分類方法、および語句分類プログラム Download PDFInfo
- Publication number
- JP2005267397A JP2005267397A JP2004080818A JP2004080818A JP2005267397A JP 2005267397 A JP2005267397 A JP 2005267397A JP 2004080818 A JP2004080818 A JP 2004080818A JP 2004080818 A JP2004080818 A JP 2004080818A JP 2005267397 A JP2005267397 A JP 2005267397A
- Authority
- JP
- Japan
- Prior art keywords
- category
- phrase
- feature
- classification
- classified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 予め定めたカテゴリのあいだの包含、被包含の関係から、カテゴリ間に木構造にしたがった親子関係を設定した上で、与えられた分類対象語句をいずれかのカテゴリに分類することを少なくとも支援する語句分類システムにおいて、特徴情報計算部と、最下位カテゴリ特徴語句決定部と、最下位カテゴリも含め、子にあたるカテゴリに関するカテゴリ特徴語句を利用してその親にあたるカテゴリのカテゴリ特徴語句を決定する操作を順次繰り返し、木構造の上位の各節に対応するカテゴリについて1または複数のカテゴリ特徴語句を決定する上位カテゴリ特徴語句決定部と、出力処理部とを備える。
【選択図】 図1
Description
神山 淑朗、伊藤 晴美:「自律的語彙拡充を行う機械翻訳システム」,情報処理学会第65回全国大会,2003,pp.2−5〜2−6
以下、本発明にかかる語句分類システム、語句分類方法、および語句分類プログラムを、単語分類システムに提供した場合を例に、実施形態について説明する。
図1は、第1の実施形態の単語分類システム10の機能的構成を示すブロック図である。第1の実施形態の単語分類システム10は、例えば、入出力手段を備えるパソコン等の情報処理装置上に、単語分類プログラムをインストールすること等によって実現されるが、機能的には、図1で表すことができる。
ここで、Nは前記文書集合ST1内の文書数である。
tfを用いるのは、文書中で繰り返し出現する単語ほどその文書において重要な単語であると考えられるためである。また、idfは、その単語(ここでは、コアワード)が前記文書集合ST1内においてその文書を特定する能力を示している。文書集合ST1中で多くの文書に現れる一般的な単語の場合にはidfは小さくなり、逆に、特定の文書にしか現れない単語の場合にはidfは大きくなるからである。
当該分野関連度frを利用した判定を行う前記判定手段3と、前記文書処理手段2は、例えば、その機能を担う処理ルーチン及びその実行手段(CPU等)からなる。
上述したように、与えられた分類対象単語WD1を分類するためには、前提として、図2に示した最下位カテゴリに文書データベース5中の文書集合ST1に含まれるN個の文書DC1〜DCNのうちのいずれかが分類されている必要があるため、図5のステップS501では最初にステップS502を選択して文書格納処理を実行する。
本実施形態によれば、階層構造上の各カテゴリに前もってコアワードを作成しておくことによって、階層の深さに依存しない処理で単語を分類することができるので、計算量が少なく分類の効率が高い。
以下では、本実施形態が第1の実施形態と相違する点についてのみ説明する。
本実施形態にかかる単語分類システム20の全体構成例を図17に示す。
本実施形態によれば、第1の実施形態の効果と同等な効果を得ることができる。
なお、上記第1、第2の実施形態にかかわらず、分類対象単語WD1の分類までのすべての過程を完全に自動化するのではなく、一部にユーザU1の意思決定が介在するようにしてもよい。例えば、前記ステップS807やS908で決定したカテゴリの順位をユーザU1に提示して、前記ステップS808やS909に相当するカテゴリの判定は、提示された順位などに基づいてユーザU1が行うようにしてもよい。
…文書集合。
Claims (6)
- 予め定めたカテゴリのあいだの包含、被包含の関係から、カテゴリ間に木構造にしたがった親子関係を設定した上で、与えられた分類対象語句をいずれかのカテゴリに分類することを少なくとも支援する語句分類システムにおいて、
前記木構造で子を持たない最下位の節にあたる最下位カテゴリのいずれかに分類された文書の集合である分類済み文書集合に含まれる各文書中の語句について、各文書の内容の特徴を表現する度合いを示す所定の特徴情報を計算する特徴情報計算部と、
この特徴情報計算部によって計算された特徴情報の値に応じてその文書が属するカテゴリの内容を特徴的に表現する1または複数のカテゴリ特徴語句を決定する処理を、前記最下位カテゴリについて実行する最下位カテゴリ特徴語句決定部と、
当該最下位カテゴリも含め、子にあたるカテゴリに関するカテゴリ特徴語句を利用してその親にあたるカテゴリのカテゴリ特徴語句を決定する操作を順次繰り返し、前記木構造の上位の各節に対応するカテゴリについて1または複数のカテゴリ特徴語句を決定する上位カテゴリ特徴語句決定部と、
前記分類済み文書集合に含まれる文書中で、前記分類対象語句と共起するカテゴリ特徴語句を探索し、探索されたカテゴリ特徴語句に関する前記特徴情報を利用してその分類対象語句が分類されるカテゴリを決定するか、または、カテゴリの決定を支援する支援情報を生成した上で当該支援情報を出力する出力処理部とを備えたことを特徴とする語句分類システム。 - 請求項1の語句分類システムにおいて、
前記出力処理部は、
前記分類済み文書集合に含まれる文書中で、前記分類対象語句と共起するカテゴリ特徴語句を探索するとき、その文書中における当該分類対象語句とカテゴリ特徴語句の共起の頻度を求め、前記特徴情報の値には、その共起の頻度を反映した重みを付与する重み付け処理部を含むことを特徴とする語句分類システム。 - 請求項1の語句分類システムにおいて、
前記出力処理部は、
前記分類済み文書集合に含まれる文書中で分類対象語句と共起するカテゴリ特徴語句の特徴情報の値に応じて、そのカテゴリ特徴語句が対応するカテゴリを前記分類対象語句が属するカテゴリの候補である候補カテゴリとした上で候補カテゴリの順位を決定する候補カテゴリ決定部を備え、
当該候補カテゴリ決定部が決定した順位が最上位の候補カテゴリを、前記分類対象語句が属するカテゴリとし、そのカテゴリに当該分類対象語句を分類するか、または、当該候補カテゴリ決定部が決定した順位をユーザに提示し、ユーザが当該分類対象語句をいずれかのカテゴリに分類することを促すことを特徴とする語句分類システム。 - 請求項2の語句分類システムにおいて、
1つの前記カテゴリに関するカテゴリ特徴語句が複数ある場合、
前記出力処理部は、
所定数のカテゴリ特徴語句に関する前記重みを付与した特徴情報の値を合計し、その合計値に応じて、前記分類対象語句が分類されるカテゴリを決定するか、または、カテゴリの決定を支援する支援情報を生成した上で当該支援情報を出力することを特徴とする語句分類システム。 - 予め定めたカテゴリのあいだの包含、被包含の関係から、カテゴリ間に木構造にしたがった親子関係を設定した上で、与えられた分類対象語句をいずれかのカテゴリに分類することを少なくとも支援する語句分類方法において、
特徴情報計算部が、前記木構造で子を持たない最下位の節にあたる最下位カテゴリのいずれかに分類された文書の集合である分類済み文書集合に含まれる各文書中の語句について、各文書の内容の特徴を表現する度合いを示す所定の特徴情報を計算し、
最下位カテゴリ特徴語句決定部が、当該特徴情報計算部によって計算された特徴情報の値に応じてその文書が属するカテゴリの内容を特徴的に表現する1または複数のカテゴリ特徴語句を決定する処理を、前記最下位カテゴリについて実行し、
上位カテゴリ特徴語句決定部が、当該最下位カテゴリも含め、子にあたるカテゴリに関するカテゴリ特徴語句を利用してその親にあたるカテゴリのカテゴリ特徴語句を決定する操作を順次繰り返し、前記木構造の上位の各節に対応するカテゴリについて1または複数のカテゴリ特徴語句を決定し、
出力処理部が、前記分類済み文書集合に含まれる文書中で、前記分類対象語句と共起するカテゴリ特徴語句を探索し、探索されたカテゴリ特徴語句に関する前記特徴情報を利用してその分類対象語句が分類されるカテゴリを決定するか、または、カテゴリの決定を支援する支援情報を生成した上で当該支援情報を出力することを特徴とする語句分類方法。 - 予め定めたカテゴリのあいだの包含、被包含の関係から、カテゴリ間に木構造にしたがった親子関係を設定した上で、与えられた分類対象語句をいずれかのカテゴリに分類することを少なくとも支援する語句分類プログラムにおいて、コンピュータに、
前記木構造で子を持たない最下位の節にあたる最下位カテゴリのいずれかに分類された文書の集合である分類済み文書集合に含まれる各文書中の語句について、各文書の内容の特徴を表現する度合いを示す所定の特徴情報を計算する特徴情報計算機能と、
この特徴情報計算機能によって計算された特徴情報の値に応じてその文書が属するカテゴリの内容を特徴的に表現する1または複数のカテゴリ特徴語句を決定する処理を、前記最下位カテゴリについて実行する最下位カテゴリ特徴語句決定機能と、
当該最下位カテゴリも含め、子にあたるカテゴリに関するカテゴリ特徴語句を利用してその親にあたるカテゴリのカテゴリ特徴語句を決定する操作を順次繰り返し、前記木構造の上位の各節に対応するカテゴリについて1または複数のカテゴリ特徴語句を決定する上位カテゴリ特徴語句決定機能と、
前記分類済み文書集合に含まれる文書中で、前記分類対象語句と共起するカテゴリ特徴語句を探索し、探索されたカテゴリ特徴語句に関する前記特徴情報を利用してその分類対象語句が分類されるカテゴリを決定するか、または、カテゴリの決定を支援する支援情報を生成した上で当該支援情報を出力する出力処理機能とを実現させることを特徴とする語句分類プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004080818A JP3889010B2 (ja) | 2004-03-19 | 2004-03-19 | 語句分類システム、語句分類方法、および語句分類プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004080818A JP3889010B2 (ja) | 2004-03-19 | 2004-03-19 | 語句分類システム、語句分類方法、および語句分類プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005267397A true JP2005267397A (ja) | 2005-09-29 |
JP3889010B2 JP3889010B2 (ja) | 2007-03-07 |
Family
ID=35091866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004080818A Expired - Fee Related JP3889010B2 (ja) | 2004-03-19 | 2004-03-19 | 語句分類システム、語句分類方法、および語句分類プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3889010B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009301433A (ja) * | 2008-06-16 | 2009-12-24 | Nippon Telegr & Teleph Corp <Ntt> | カテゴリ関連度算出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 |
JP2012053605A (ja) * | 2010-08-31 | 2012-03-15 | Ricoh Co Ltd | 情報検索装置、情報検索方法及び情報検索プログラム |
CN103823809A (zh) * | 2012-11-16 | 2014-05-28 | 百度在线网络技术(北京)有限公司 | 一种对查询短语分类的方法、分类优化的方法及其装置 |
JP2016181277A (ja) * | 2011-04-14 | 2016-10-13 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 製品カテゴリ情報を判断する方法および装置 |
US9792274B2 (en) | 2014-02-12 | 2017-10-17 | International Business Machines Corporation | Categorizing keywords |
JP2021533477A (ja) * | 2018-08-03 | 2021-12-02 | ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングRobert Bosch Gmbh | テキスト分析のためのコンピュータ実装方法及び装置 |
-
2004
- 2004-03-19 JP JP2004080818A patent/JP3889010B2/ja not_active Expired - Fee Related
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009301433A (ja) * | 2008-06-16 | 2009-12-24 | Nippon Telegr & Teleph Corp <Ntt> | カテゴリ関連度算出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 |
JP2012053605A (ja) * | 2010-08-31 | 2012-03-15 | Ricoh Co Ltd | 情報検索装置、情報検索方法及び情報検索プログラム |
JP2016181277A (ja) * | 2011-04-14 | 2016-10-13 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 製品カテゴリ情報を判断する方法および装置 |
CN103823809A (zh) * | 2012-11-16 | 2014-05-28 | 百度在线网络技术(北京)有限公司 | 一种对查询短语分类的方法、分类优化的方法及其装置 |
CN103823809B (zh) * | 2012-11-16 | 2018-06-08 | 百度在线网络技术(北京)有限公司 | 一种对查询短语分类的方法、分类优化的方法及其装置 |
US9792274B2 (en) | 2014-02-12 | 2017-10-17 | International Business Machines Corporation | Categorizing keywords |
US10606944B2 (en) | 2014-02-12 | 2020-03-31 | International Business Machines Corporation | Categorizing keywords |
JP2021533477A (ja) * | 2018-08-03 | 2021-12-02 | ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングRobert Bosch Gmbh | テキスト分析のためのコンピュータ実装方法及び装置 |
JP7271652B2 (ja) | 2018-08-03 | 2023-05-11 | ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング | テキスト分析のためのコンピュータ実装方法及び装置 |
US11875265B2 (en) | 2018-08-03 | 2024-01-16 | Robert Bosch Gmbh | Computer-implemented method and device for text analysis |
Also Published As
Publication number | Publication date |
---|---|
JP3889010B2 (ja) | 2007-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Biemann | Structure discovery in natural language | |
Flati et al. | Multiwibi: The multilingual wikipedia bitaxonomy project | |
US8812504B2 (en) | Keyword presentation apparatus and method | |
CN107870901A (zh) | 从翻译源原文生成相似文的方法、程序、装置以及系统 | |
Lou et al. | Multilabel subject-based classification of poetry | |
JP6817556B2 (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
CN108829889A (zh) | 一种新闻文本分类方法以及装置 | |
CN103678318A (zh) | 多词单元提取方法和设备及人工神经网络训练方法和设备 | |
JP2007047974A (ja) | 情報抽出装置および情報抽出方法 | |
CN113761114A (zh) | 短语生成方法、装置和计算机可读存储介质 | |
JP3847273B2 (ja) | 単語分類装置、単語分類方法及び単語分類プログラム | |
Dlikman et al. | Using Machine Learning Methods and Linguistic Features in Single-Document Extractive Summarization. | |
JP3889010B2 (ja) | 語句分類システム、語句分類方法、および語句分類プログラム | |
JP2001331515A (ja) | 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品 | |
Sohail et al. | Methodologies and techniques for text summarization: a survey | |
Molino et al. | Distributed representations for semantic matching in non-factoid question answering. | |
Heidary et al. | Automatic Persian text summarization using linguistic features from text structure analysis | |
Kutuzov | Russian word sense induction by clustering averaged word embeddings | |
JP2004326479A (ja) | 単語間類似度計算プログラム及び装置 | |
JP5419906B2 (ja) | 主題抽出装置、方法、及びプログラム | |
Nejjari et al. | Overview of opinion detection approaches in Arabic | |
Forsati et al. | Cooperation of evolutionary and statistical PoS-tagging | |
JP2008282328A (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
JP3848014B2 (ja) | 文書検索方法および文書検索装置 | |
van Halteren | Cross-Domain Authorship Attribution with Federales. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060822 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061128 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061128 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091208 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101208 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101208 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111208 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111208 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121208 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |