JP3889010B2 - 語句分類システム、語句分類方法、および語句分類プログラム - Google Patents

語句分類システム、語句分類方法、および語句分類プログラム Download PDF

Info

Publication number
JP3889010B2
JP3889010B2 JP2004080818A JP2004080818A JP3889010B2 JP 3889010 B2 JP3889010 B2 JP 3889010B2 JP 2004080818 A JP2004080818 A JP 2004080818A JP 2004080818 A JP2004080818 A JP 2004080818A JP 3889010 B2 JP3889010 B2 JP 3889010B2
Authority
JP
Japan
Prior art keywords
category
phrase
feature
word
categories
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004080818A
Other languages
English (en)
Other versions
JP2005267397A (ja
Inventor
美樹 佐々木
美穂子 北村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2004080818A priority Critical patent/JP3889010B2/ja
Publication of JP2005267397A publication Critical patent/JP2005267397A/ja
Application granted granted Critical
Publication of JP3889010B2 publication Critical patent/JP3889010B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は語句分類システム、語句分類方法、および語句分類プログラムに関し、例えば、多段の階層からなる階層構造(木構造)を持つカテゴリ(分野)に、与えられた語句を分類する場合などに適用して好適なものである。
従来、フレーズを該当する分野に分類する技術として、下記の非特許文献1に記載されたものがある。
非特許文献1の技術は、日々生まれる新しい用語を機械翻訳システムで使用する辞書に適切に収めることで、辞書のメンテナンスを自動化し、メンテナンスのコストを下げようとするものである。そのために当該技術では、主分野、副分野と呼ぶ二段に階層化された分野別辞書を予め用意しておく。例えば、主分野辞書である「スポーツ」辞書には各種スポーツで共通の用語が収められており、この「スポーツ」辞書に対する副分野辞書である「サッカー」辞書や「ゴルフ」辞書などには、それぞれのスポーツ固有の用語を収めておく。
与えられたフレーズを、このように階層化された分野別辞書に分類する場合、前記非特許文献1では、次のような処理を行う。
まず最初に、全副分野(全副分野辞書)のなかでいずれかの分野に固有に出現し、かつ頻度が高い(この頻度は、その分野と与えられたフレーズとのベクトル的な類似度の高さに対応)フレーズほど上位にランクされるようにし、次に、上位にランクされたフレーズを取り除いた上で残ったフレーズに対し、全主分野(全主分野辞書)のなかでいずれかの分野に固有に出現し、かつ頻度が高いフレーズほど上位にランクされるようにする。
このようにして、それぞれの段階で上位にランクされたフレーズを該当する分野辞書(副分野辞書または主分野辞書)に収める方向で制御することによって、辞書のメンテナンスを自動化し、メンテナンスのコストを下げることができる。
なお、非特許文献1では、前記ベクトル的な類似度の高さを求めるとき、個々のフレーズは分野を要素としたベクトル空間中のベクトルとみなし、分野ごとにその分野だけが要素1を持つ単位ベクトルを想定する。
神山 淑朗、伊藤 晴美:「自律的語彙拡充を行う機械翻訳システム」,情報処理学会第65回全国大会,2003,pp.2−5〜2−6
ところで、上述した非特許文献1の技術では、二段に階層化された分野別辞書を想定しているが、機械翻訳の訳質の向上などのためには、現実の分野別辞書では二段より多くの階層を必要とすることが少なくない。多段に階層化された分野別辞書に非特許文献1の技術を適用した場合、計算量の多い同じ処理をすべての階層について実行しなければならないため、全体として必要な計算量は膨大なものとなり、効率が低くなる可能性が高い。
また、非特許文献1に記載されている分野ごとにその分野だけが要素1を持つ単位ベクトルとは、具体的に何を意味し、どのようにして得られる情報なのかについて必ずしも明確に説明されていないが、一般的にこのような情報を得るためには、各分野別辞書に登録されている語に応じた処理を行う必要があり、登録語数が多い場合には必要な計算量も多くなる。さらに、分野別辞書の登録語が充実していないと、前記単位ベクトルが得られないことや、得られたとしても適切なものではないことが起こり得るが、そのような場合、正しく判断できず、適切な分類を行うことができない可能性が高いので、分類の品質が低い。
かかる課題を解決するために、第1の本発明は、予め定めたカテゴリのあいだの包含、被包含の関係から、カテゴリ間に木構造にしたがった親子関係を設定した上で、与えられた分類対象語句をいずれかのカテゴリに分類することを少なくとも支援する語句分類システムにおいて、(1)前記木構造で子を持たない最下位の節にあたる最下位カテゴリのいずれかに分類された文書の集合である分類済み文書集合に含まれる各文書中の語句について、各文書の内容の特徴を表現する度合いを示す所定の第1の特徴情報を計算する特徴情報計算部と、(2)この特徴情報計算部によって計算された第1の特徴情報の値に応じてその文書が属するカテゴリの内容を特徴的に表現する1または複数のカテゴリ特徴語句を決定する処理を、全ての前記最下位カテゴリについて実行する最下位カテゴリ特徴語句決定部と、(3)前記各最下位カテゴリも含め、全ての子にあたるカテゴリに関するカテゴリ特徴語句及びそのカテゴリ特徴語句についての前記第1の特徴情報または第2の特徴情報を利用し、そのカテゴリ特徴語句が全ての子カテゴリに偏りなく表れているかを判断して、その親にあたるカテゴリのカテゴリ特徴語句及び前記第2の特徴情報を決定する操作を順次繰り返し、前記木構造の上位の各節に対応するカテゴリについて1または複数のカテゴリ特徴語句を前記第2の特徴情報と共に決定する上位カテゴリ特徴語句決定部と、(4)前記分類済み文書集合に含まれる文書中で、前記分類対象語句と共起するカテゴリ特徴語句を探索し、探索されたカテゴリ特徴語句に関する、各カテゴリでの前記第1または第2の特徴情報を利用してその分類対象語句が分類されるカテゴリを決定して出力するか、または、カテゴリの決定を支援する支援情報を生成した上で当該支援情報を出力する出力処理部とを備えたことを特徴とする。
また、第2の本発明では、予め定めたカテゴリのあいだの包含、被包含の関係から、カテゴリ間に木構造にしたがった親子関係を設定した上で、与えられた分類対象語句をいずれかのカテゴリに分類することを少なくとも支援する語句分類方法において、(1)特徴情報計算部が、前記木構造で子を持たない最下位の節にあたる最下位カテゴリのいずれかに分類された文書の集合である分類済み文書集合に含まれる各文書中の語句について、各文書の内容の特徴を表現する度合いを示す所定の第1の特徴情報を計算し、(2)最下位カテゴリ特徴語句決定部が、当該特徴情報計算部によって計算された第1の特徴情報の値に応じてその文書が属するカテゴリの内容を特徴的に表現する1または複数のカテゴリ特徴語句を決定する処理を、全ての前記最下位カテゴリについて実行し、(3)上位カテゴリ特徴語句決定部が、前記各最下位カテゴリも含め、全ての子にあたるカテゴリに関するカテゴリ特徴語句及びそのカテゴリ特徴語句についての前記第1の特徴情報または第2の特徴情報を利用し、そのカテゴリ特徴語句が全ての子カテゴリに偏りなく表れているかを判断して、その親にあたるカテゴリのカテゴリ特徴語句及び前記第2の特徴情報を決定する操作を順次繰り返し、前記木構造の上位の各節に対応するカテゴリについて1または複数のカテゴリ特徴語句を前記第2の特徴情報と共に決定し、(4)出力処理部が、前記分類済み文書集合に含まれる文書中で、前記分類対象語句と共起するカテゴリ特徴語句を探索し、探索されたカテゴリ特徴語句に関する、各カテゴリでの前記第1または第2の特徴情報を利用してその分類対象語句が分類されるカテゴリを決定して出力するか、または、カテゴリの決定を支援する支援情報を生成した上で当該支援情報を出力することを特徴とする。
さらに、第3の本発明では、予め定めたカテゴリのあいだの包含、被包含の関係から、カテゴリ間に木構造にしたがった親子関係を設定した上で、与えられた分類対象語句をいずれかのカテゴリに分類することを少なくとも支援する語句分類プログラムにおいて、コンピュータに、(1)前記木構造で子を持たない最下位の節にあたる最下位カテゴリのいずれかに分類された文書の集合である分類済み文書集合に含まれる各文書中の語句について、各文書の内容の特徴を表現する度合いを示す所定の第1の特徴情報を計算する特徴情報計算機能と、(2)この特徴情報計算機能によって計算された第1の特徴情報の値に応じてその文書が属するカテゴリの内容を特徴的に表現する1または複数のカテゴリ特徴語句を決定する処理を、全ての前記最下位カテゴリについて実行する最下位カテゴリ特徴語句決定機能と、(3)前記各最下位カテゴリも含め、全ての子にあたるカテゴリに関するカテゴリ特徴語句及びそのカテゴリ特徴語句についての前記第1の特徴情報または第2の特徴情報を利用し、そのカテゴリ特徴語句が全ての子カテゴリに偏りなく表れているかを判断して、その親にあたるカテゴリのカテゴリ特徴語句及び前記第2の特徴情報を決定する操作を順次繰り返し、前記木構造の上位の各節に対応するカテゴリについて1または複数のカテゴリ特徴語句を前記第2の特徴情報と共に決定する上位カテゴリ特徴語句決定機能と、(4)前記分類済み文書集合に含まれる文書中で、前記分類対象語句と共起するカテゴリ特徴語句を探索し、探索されたカテゴリ特徴語句に関する、各カテゴリでの前記第1または第2の特徴情報を利用してその分類対象語句が分類されるカテゴリを決定して出力するか、または、カテゴリの決定を支援する支援情報を生成した上で当該支援情報を出力する出力処理機能とを実現させることを特徴とする。
本発明によれば、分類の効率と品質を高めることができる。
(A)実施形態
以下、本発明にかかる語句分類システム、語句分類方法、および語句分類プログラムを、単語分類システムに適用した場合を例に、実施形態について説明する。
以下の説明において、カテゴリ(分野)に特有でかつ代表的な単語となる可能性を持つ単語をコアワードと定義する。コアワードには、カテゴリに属する度合い(そのカテゴリの特徴をよく表現する度合い)を示す値である分野関連度を付与する。分野関連度の値が大きいコアワードほどそのカテゴリに属する度合いが強く、そのカテゴリの特徴をよく表現する能力が高い。
また、複数の要素が、一定の範囲内(語、文、段落、文章など)に同時に現れることを共起といい、同時に現れる単語を共起関係にある単語という。
ただし第1、第2の実施形態の処理上は、改行までの一文内に同時に現れた単語から不要語を除いた単語を共起関係にある単語とする。名詞、動詞、形容詞、形容動詞、未知語以外を不要語とする。単語を抽出するには、分類したい語を含む文を検索して抽出して形態素解析することにする。
さらに、分類対象は、単語だけでなく、複合語や句であってもよいが、ここでは単語として説明する。
(A−1)第1の実施形態の構成
図1は、第1の実施形態の単語分類システム10の機能的構成を示すブロック図である。第1の実施形態の単語分類システム10は、例えば、入出力手段を備えるパソコン等の情報処理装置上に、単語分類プログラムをインストールすること等によって実現されるが、機能的には、図1で表すことができる。
図1において、当該単語分類システム10は、機能的には、入力手段1、文書処理手段2、判定手段3、出力手段4、文書データベース5、コアワード辞書6、カテゴリ辞書7、計算手段8およびカテゴリ関係辞書9を有する。
このうち入力手段1は、例えば、キーボード等の一般的な入力手段だけでなく、記録媒体のアクセス装置等のファイル読込装置や、文書をイメージデータとして読み込んでそれをテキストデータに置き換える文字認識装置等も該当し、要は、文書や分類対象の単語を入力する手段であり、また、適宜、動作モード等も指示するものである。
文書処理手段2は、文書や分類対象単語(ここでは、WD1とする)やコアワードを処理する手段で、文書を形態素解析し、分類対象単語WD1やコアワードを検索して抽出する。
判定手段3は分類対象単語WD1が属するカテゴリを判定し、当該分類対象単語WD1の分類を行う手段で、基本的に、コアワードとその分野関連度の値をもとに当該判定を実行する。
分野関連度は上述したように、コアワードがカテゴリに属する度合い(そのカテゴリの特徴をよく表現する度合い)を示すことのできる値であればよいため、様々な方法で分野関連度を定義することが可能であるが、ここでは、tf*idf法を用いるものとする。
tf*idf法では、文書集合(例えば、後述のST1)内のある文書dにおける単語t(ここでは、コアワード)の出現頻度tf(文書内語句頻度:term frequency)と、各単語tが1回以上出現する文書数df(文書頻度:document frequency)とを計算し、この文書数dfを次の式(1)で計算してidf(inverse document frequency)を求める。
idf(t)=log(N/df(t)) …(1)
ここで、Nは前記文書集合ST1内の文書数である。
前記分野関連度を決める成分w(t,d)は、このidfと、前記tfを用いて次の式(2)によって定義される。
w(t,d)=tf(d,t)*idf(t) …(2)
tfを用いるのは、文書中で繰り返し出現する単語ほどその文書において重要な単語であると考えられるためである。また、idfは、その単語(ここでは、コアワード)が前記文書集合ST1内においてその文書を特定する能力を示している。文書集合ST1中で多くの文書に現れる一般的な単語の場合にはidfは小さくなり、逆に、特定の文書にしか現れない単語の場合にはidfは大きくなるからである。
後述するように文書集合ST1内の各文書が各最下位カテゴリに対応付けられている(分類されている)以上、idfで示される能力は、上述したそのカテゴリの特徴を表現する能力に対応するが、tfを用いることによって重要さの小さい単語を排除することができる。
また本実施形態では、次の式(3)に示すように、前記式(2)で得られる成分w(t,d)の値をそのカテゴリのコアワード総数cで割って得られる値を分野関連度frとする。式(2)で算出される成分w(t,d)の値は、そのカテゴリの総単語数(総コアワード数)が多いほど大きくなるため、カテゴリ間の調整を行い、総単語数の相違の影響を解消する必要があるからである。
fr=w(t,d)/c …(3)
当該分野関連度frを利用した判定を行う前記判定手段3と、前記文書処理手段2は、例えば、その機能を担う処理ルーチン及びその実行手段(CPU等)からなる。
出力手段4は、判定手段3による判定の結果に応じた出力を実行する手段である。例えば、ディスプレイやプリンタ等の一般的な出力手段だけでなく、記録媒体へ格納する記録媒体アクセス装置等もこの出力手段4に該当し得る。本実施形態における出力は、主として、判定手段3による判定の結果に応じた分類の実行である。したがって、与えられた分類対象単語WD1は、この出力手段4によってカテゴリ辞書(分野別辞書に相当)内の該当するカテゴリテーブルに登録される。
文書データベース5は、入力された文書を格納するデータベースである。文書データベース5に格納されている複数の文書によって文書集合ST1が構成されるが、その文書集合ST1中の各文書は、いずれかの最下位カテゴリに予め分類され(対応付けられ)ている。ここでは、DC1〜DCNのN個の文書からなる文書集合ST1を想定する。本実施形態の構成上、すべての最下位カテゴリにはいずれかの文書が分類されていることが望ましい。1つの最下位カテゴリに対応付けられる文書の数は複数であってもかまわないが、ここでは、説明を簡単にするために、1つの最下位カテゴリには1つの文書が対応付けられているものとする。この場合、文書の数Nは最下位カテゴリの数に等しい。
なお、本実施形態が想定するカテゴリは、例えば図2に示すような階層構造(木構造)を持つ。
図2に示す「TOP」は、木の根にあたる最上位のカテゴリであり、その下の階層には「スポーツ」、「コンピュータ」などの各カテゴリが存在し、その下の階層には、「野球」、「サッカー」、「OS」、「プログラミング」などの各カテゴリが存在し、さらにその下の階層には「OS1」,「OS2」、「OS3」の具体的なOSの種類に対応するカテゴリが存在する。
これら各カテゴリのあいだにはカテゴリ間の包含、被包含の関係に応じた親子関係が存在し、「TOP」カテゴリの子にあたるのは、「スポーツ」カテゴリや「コンピュータ」カテゴリなどである。同様に、「コンピュータ」カテゴリの子にあたるのが「OS」カテゴリ、「プログラミング」カテゴリ、「周辺機器」カテゴリであり、「OS」カテゴリの子にあたるのが「OS1」カテゴリと、「OS2」カテゴリと、「OS3」カテゴリである。
このうち「TOP」カテゴリは最上位のカテゴリであるから親を持たず、反対に最下位のカテゴリである「野球」、「サッカー」、「OS1」、「OS2」、「OS3」、「プログラミング」などは子を持たない。また、中間の階層に位置する各カテゴリは、1つの親と1または複数の子を持っている。
例えば、「OS」カテゴリは親として「コンピュータ」カテゴリを持ち、子として、「OS1」カテゴリと、「OS2」カテゴリと、「OS3」カテゴリを持っている。
ここで、前記文書DC1〜DCNは、最下位のカテゴリである「野球」、「サッカー」、「OS1」、「OS2」、「OS3」、「プログラミング」のいずれかに分類されている。
コアワード辞書6は、カテゴリ毎に、そのカテゴリに対応するコアワードを格納し、コアワードに対応付けてその分野関連度の値も格納している辞書であり、判定手段3によって利用される。初期状態でこのコアワード辞書6に格納されているのは、最下位のカテゴリに関する情報のみである。
このコアワード辞書6はカテゴリ毎に、そのカテゴリに対応するコアワードを格納するため、カテゴリの数と同数のコアワードテーブル(例えば、図3に示すTL1,TL2など)を有する。例えば図3(B)に示すコアワードテーブルTL1は、前記最下位カテゴリの1つである「野球」カテゴリに関する各コアワードと、その分野関連度の値を対応付けて格納している。
図3(A)に示すコアワードテーブルTL2は中間の階層に位置するカテゴリの1つである「スポーツ」カテゴリについて、図3(B)のコアワードテーブルTL1と同様、各コアワードと、その分野関連度の値を対応付けて格納しているが、これは初期状態から存在するものではなく、図3(B)のコアワードテーブルTL1など、「スポーツ」カテゴリの子にあたる最下位カテゴリに関するコアワードテーブルの内容を用いた処理(コアワード作成処理の一部にあたる処理)によって後述する計算手段8が生成したものである。
カテゴリ辞書7は、カテゴリ毎に、そのカテゴリに属する単語を格納している辞書であり、カテゴリの数と同数のカテゴリテーブル(例えば、図9に示すTB1,TB2など)を有する。このカテゴリ辞書7は判定手段3によって利用される。本実施形態において、ある分類対象単語WD1に関する最終的な処理の結果としての分類は、カテゴリ辞書7内の該当するカテゴリテーブル(例えば、TB1)へその分類対象単語WD1を格納することによって終了する。
単語分類システム10が分類の対象となる単語を取得する方法には様々なものがあり得る。例えば、ユーザU1などが一つずつ分類対象単語WD1を入力するようにしてもよいし、ユーザU1が指定した文書に含まれる全単語のなかから、前記文書処理手段2が各分類対象単語(その1つがWD1)を自動的に抽出していくようにしてもよい。いずれにしても、単語分類システム10が単語分類処理を実行中のある時点に限定すると、ある1つの分類対象単語WD1を、いずれのカテゴリに分類するかを決めるための処理を実行しているものとみることができる。本実施形態の構成上、その分類対象単語WD1の単語分類処理するとき、すでにカテゴリ辞書7内の各カテゴリテーブル(例えば、TB1)に分類済みの単語が格納されている必要はない。この点で、本実施形態は、前記非特許文献1の技術と大きく相違する。
カテゴリ辞書7を構成する各カテゴリテーブル(例えば、TB1)はそれ自体、有用な情報であり、様々な用途に用いることができるが、例えば、機械翻訳のための上述した分野別辞書として利用できることは当然である。
計算手段8は、前記分野関連度に関する計算を行う手段で、子カテゴリに関する情報(各コアワードと、その分野関連度の値)を利用して親カテゴリの情報(各コアワードと、その分野関連度の値)を生成する。
カテゴリ関係辞書9は、上述したカテゴリ間の親子関係を格納する辞書である。例えば、図2に示したような階層構造を人間が定義した際に当該カテゴリ関係辞書9を作成しておくことができる。カテゴリ関係辞書9の内容は、そのカテゴリを一意に指定するカテゴリ名と、そのカテゴリの親カテゴリに関する情報と、そのカテゴリの子カテゴリに関する情報から構成される。したがってカテゴリ関係辞書9の構成には様々なものがあり得るが、親カテゴリに関する情報として親カテゴリのカテゴリ名を用い、子カテゴリに関する情報として子カテゴリの有無のみを示すものとし、図2の階層構造を前提とすると、カテゴリ関係辞書9の構成および内容は例えば図4に示すようになる。
図4において、「−」は空値、すなわち無いことを示し、「○」は有ることを示す。
以下、上記のような構成を有する本実施形態の動作について、図5〜図8,図10〜図12のフローチャートを参照しながら説明する。
このうち図5は全体動作を示し、S501〜S504の各ステップを備えている。図6は図5中のステップS501の詳細動作を示すフローチャートであり、S601,S602の各ステップを備えている。図7は図5中のステップS503の詳細動作を示すフローチャートであり、S701、S702の各ステップを備えている。図8は図5中のステップS504の詳細動作を示すフローチャートであり、S801〜S810の各ステップを備えている。
図7中のステップS701の動作をさらに詳細化したものが図10のフローチャートであり、S711〜S717の各ステップを備えている。また、図7中のステップS702の動作をさらに詳細化したものが図11のフローチャートであり、S721〜S727の各ステップを備えている。
この図11中のステップS726の動作をさらに詳細化したものが図12のフローチャートであり、S731〜S740の各ステップを備えている。
(A−2)第1の実施形態の動作
上述したように、与えられた分類対象単語WD1を分類するためには、前提として、図2に示した最下位カテゴリに文書データベース5中の文書集合ST1に含まれるN個の文書DC1〜DCNのうちのいずれかが分類されている必要があるため、図5のステップS501では最初にステップS502を選択して文書格納処理を実行する。
この文書格納処理では、図6に示すように、カテゴリを指定した文書(例えば、DC1)を入力し(S601)、カテゴリ別にその文書を文書データベース5へ格納することになる(S602)。もちろん、カテゴリの指定はユーザU1が個別に行ってもよく、自動的な処理で行うようにしてもよい。
1回のステップS502で1文書のみを処理するものとするなら、すべての最下位カテゴリに1つの文書を分類するためには、図5上で、前記最下位カテゴリの数と同じ数だけステップS502の実行を繰り返す必要がある。
次に、前記ステップS501でコアワード作成処理(S503)を選択したものとすると、図7にしたがい、まず最初に最下位カテゴリのコアワードを作成し(S701)、次に中間の階層に位置するカテゴリ(中間層のカテゴリ)のコアワードを作成する手順で処理を進める(S702)。詳細については後述するが、ステップS702では子のカテゴリのコアワードのなかから選択(子カテゴリ間に万遍なく出現するコアワードを選択)したものをその子カテゴリにとって親にあたるカテゴリのコアワードとする。
前記ステップS701の詳細を示す図10において、図4に示した内容を持つカテゴリ関係辞書9を検索して最下位カテゴリ(最下層のカテゴリ)のカテゴリ名を取り出すと(S711)、そのカテゴリ名を検索キーとしてコアワード辞書6を検索することによって、すべての最下位カテゴリに有効なコアワードが作成済みであるか否かを検査する(S712)。
すべての最下位カテゴリに有効なコアワードが作成済みである場合にはステップS712はY側に分岐してコアワード作成処理を終えるが、コアワードが作成されていない最下位カテゴリが存在する場合には、ステップS713以下の処理を実行してコアワードを作成する。
なお、すべての最下位カテゴリに有効なコアワードが作成済みであっても、コアワードを豊富化するために、例えば、作成済みのコアワードの数が所定値に達するまでコアワードの作成処理を繰り返すようにしてもよい。
前記ステップS713では前記文書集合ST1から、コアワードを作成しようとする最下位カテゴリに分類されている文書(例えば、DC1)を取り出す。そして、取り出した文書に対し形態素解析を実行し(S714)、形態素解析結果から前記不要語を除いた残りの単語をコアワードとして抽出して(S715)、前記計算手段8がその単語(コアワード)に関する上述した分野関連度frを計算する(S716)。
算出された分野関連度frは例えば図3(B)に示すテーブルTL1のようにそのコアワードと対応付けた形式で、前記コアワード辞書6に格納する(S717)。
このステップS712〜S717によって構成されるループは、すべての最下位カテゴリにコアワードが作成されるまで繰り返される。
すべての最下位カテゴリにコアワードが作成されると、そのコアワードを利用して、図11のフローチャートにしたがった処理を実行し、中間の階層に位置するカテゴリについて順次、コアワードを作成して行く。
図11において、前記計算手段8がカテゴリ関係辞書9からトップの(親カテゴリを持たない)カテゴリ名を取り出し(S721)、そのカテゴリを親カテゴリに持つ(親カテゴリ名がその親カテゴリのカテゴリ名である)カテゴリを探す(S722)。これらのカテゴリすべてにコアワードが作成済であれば処理を終える(S723)。「TOP」カテゴリを親カテゴリに持つということは、「TOP」カテゴリ以外で最も上位のカテゴリであり、そのような上位のカテゴリがコアワードを持っている(作成済み)ということは、より下位のすべてのカテゴリがコアワードを持っていることを意味する。本実施形態では、子カテゴリに関する情報(各コアワードと、その分野関連度の値)を利用して、順次、親カテゴリの情報を生成して行くからである。
一方、それらのカテゴリのいずれかにコアワードが作成済でないカテゴリがあれば前記ステップS723はN側に分岐して、ステップS724以降の処理を実行する。ステップS724では、コアワードが作成済でないカテゴリを親カテゴリに持つカテゴリを探す。そして、同じカテゴリ(親カテゴリ)を親に持つすべての子力テゴリでコアワードが作成済であれば(S725のY側)、そのすべての子カテゴリのコアワードから当該親カテゴリのコアワードを作成して分野関連度frを付与し(S726)、コアワード辞書6に格納する(S727)。
このステップS722〜S727によって構成されるループは、すべてのカテゴリにコアワードが作成されるまで繰り返される。
なお、注目している親カテゴリの子にあたるカテゴリのなかに、コアワードを持たないカテゴリが含まれていた場合、前記ステップS725がN側に分岐して、そのコアワードを持たないカテゴリを親とみて、その親のすべての子カテゴリがコアワードを持っているか否かを検査する操作を繰り返す。これにより、すべての子カテゴリがコアワードを持っていて、なおかつ、それらの子の親にあたるカテゴリがコアワードを持っていないという条件(中間層コアワード作成開始条件)に適合するカテゴリ(親カテゴリ)を見つけるまで、ステップS725のN側の分岐とステップS724の実行が繰り返され、図2に示した階層構造を下って探索を行う。
上述したように、最下位カテゴリには必ず図10の処理でコアワードが作成されているため、階層構造を最下位カテゴリまで下れば、必ず、中間層コアワード作成開始条件に適合する親カテゴリを見つけることができる。そのような親カテゴリが見つかると、まずその親カテゴリにコアワードを作成し、上述したように、そこから、上位に向かって、順次、各カテゴリにコアワードを作成していく。
前記ステップS726の詳細を示した図12において、前記中間層コアワード作成開始条件に適合する親カテゴリ(この親カテゴリをPCT1とする)のカテゴリ名をカテゴリ関係辞書9から検索し(S731)、さらに当該カテゴリ関係辞書9から、その親カテゴリPCT1を親に持つすべてのカテゴリ(そのカテゴリにとっての子カテゴリ)を検索する(S732)。親カテゴリPCT1の子にあたるカテゴリは1つのこともあり、複数のこともあるが、ここでは3つ存在することを仮定し、それぞれCCT1、CCT2,CCT3とする。
次に、ステップS732で検索された各カテゴリCCT1〜CCT3のコアワードをコアワード辞書6で検索し(S733)、すべてのコアワードに対して上限値が計算済みであるか否かを検査する(S734)。
ここで、すべてのコアワードとは、前記カテゴリCCT1〜CCT3のいずれか1つが持つ全コアワード(コアワード集合)GWのことを指す。あるコアワードは、複数のカテゴリ(例えば、CCT1とCCT2)に重複して作成されていることもあるし、あるカテゴリ(例えば、CCT2)に作成されているコアワードが他のカテゴリ(例えば、CCT3)では作成されていないこともあるが、ステップS734は、CCT1〜CCT3のいずれか1つのカテゴリで作成されているすべてのコアワードについての検査である。
また、上限値とは、中間層に位置するカテゴリのコアワードに分野関連度を設定するための概念である。上述したように、最下位カテゴリにはいずれかの文書(例えば、DC1)が対応付けられているため、最下位カテゴリのコアワードには、前記式(3)などに基づいて分野関連度を計算することができるが、中間層に位置するカテゴリには対応付けられた文書が存在しないため、この上限値をその分野関連度として利用する。上限値の詳細については後述する。
ステップS734がN側に分岐すると、前記コアワード集合GWに含まれるコアワードのなかで上限値が作成されていない1または複数のコアワードについて、ステップS735〜S739の処理を実行する。ここでは、1つのコアワードCW1についてステップS735〜S739の処理を実行するものとする。
ステップS735では、そのコアワードCW1の分野関連度の値を検索する。親カテゴリPCT1が前記中間層コアワード作成開始条件に適合した以上、子カテゴリCCT1〜CCT3ではすべて、コアワードが作成済みであり、そのコアワードには分野関連度も対応付けられているから、そのコアワードCW1を持つ限り、子カテゴリCCT1〜CCT3に対応するコアワードテーブル(コアワード辞書6)から有効な分野関連度が検索できる。
対応付けられている文書の内容が異なるなら、通常、同じコアワードCW1に対する各子カテゴリCCT1〜CCT3での分野関連度の値はすべて異なるので、ステップS735ではそのなかの最大値を求める。ある子カテゴリ(例えば、CCT1)がそのコアワードCW1を持たない場合には、分野関連度の値は0とみなす。
次に、ステップS737では、そのコアワードCW1に対する各子カテゴリCCT1〜CCT3での分野関連度の値の平均値(mean)と標準偏差(sd)を計算し、ステップS738では、所定の範囲の上限値を計算する。これは、上述した上限値である。
ここで、範囲とは、ばらつきの範囲のことである。ばらつきの範囲は様々な方法で定義することが可能であるが、ここでは、一例として、「平均値十標準偏差×3」(mean+3sd)を、ばらつきの範囲とする。前記子カテゴリCCT1〜CCT3全体で、コアワードCW1の分野関連度の平均値(mean)と標準偏差(sd)を、正規分布と仮定して計算する(ここでも、コアワードがないカテゴリの分野関連度は0とする)と、「平均値+標準偏差×3」(mean+3sd)の範囲内にデータが入る確率は99.73%である。範囲の計算は本来、平均値±プラスマイナスであるが、分野関連度に負の値はないため、マイナスの方は無視してよい。
また、前記コアワードCW1の子カテゴリCCT1における分野関連度の値をFRV1とし、前記コアワードCW1の子カテゴリCCT2における分野関連度の値をFRV2とし、前記コアワードCW1の子カテゴリCCT3における分野関連度の値をFRV3とすると、これらFRV1,FRV2,FRV3の平均値と標準偏差をステップS737で求めることになる。
ステップS737につづくステップS738で求める上限値は、前記ばらつきの範囲の上限値すなわち、「平均値十標準偏差×3」の値である。
次に、ステップS739では、前記ステップS736で求めた最大値が当該ステップS738で求めた上限値より小さいか否かを検査する。最大値が上限値より小さいということは、すべての分野関連度FRV1〜FRV3がばらつきの範囲内にあって、そのコアワードCW1が子カテゴリCCT1〜CCT3間に万遍なく出現していることを意味するため、そのコアワードCW1を親カテゴリPCT1のコアワードとして選択する(S740)。
反対に、最大値が上限値より大きければ、ステップS739はN側に分岐するので、当該コアワードCW1は親カテゴリPCT1のコアワードとして選択されない。これは、そのコアワードCW1が子カテゴリCCT1〜CCT3のいずれかに偏って出現していることを意味し、(親カテゴリのコアワードとはせず)子カテゴリのコアワードとしておいたほうが好ましいケースである。偏りが大きいほど、そのカテゴリの特徴を良好に表現するコアワードである可能性が高いとみることができるからである。ステップS734〜S739またはS740によって構成されるループは、前記コアワード集合GWに含まれるすべてのコアワード(その1つが、CW1)について処理が終わるまで繰り返される。
例えば、カテゴリ「スポーツ」のすべての子カテゴリにあるコアワード「選手」の分野関連度の平均値が0.001388、標準偏差が0.000516、最大値が0.00257の場合、ばらつきの範囲の上限値は0.00294になり、最大値が範囲内であるので、前記ステップS739はY側に分岐してコアワード「選手」はカテゴリ「スポーツ」のコアワードになる。この場合、カテゴリ「スポーツ」のコアワード「選手」の分野関連度は0.00294になる。
また、カテゴリ「スポーツ」のすべての子カテゴリにあるコアワード「試合」の分野関連度の平均値が0.001985、標準偏差が0.001821、最大値が0.00497の場合、ばらつきの範囲の上限値は0.00745になり、最大値が範囲内であるので、前記ステップS739はY側に分岐してコアワード「試合」はカテゴリ「スポーツ」のコアワードになる。この場合、カテゴリ「スポーツ」のコアワード「試合」の分野関連度は0.00745になる。 さらに、カテゴリ「スポーツ」のすべての子カテゴリにあるコアワード「投手」の分野関連度の平均値が0.000783、標準偏差が0.002565、最大値が0.00929の場合、ばらつきの範囲の上限値は0.00848になり、最大値が範囲を超えているので、前記ステップS739はN側に分岐してコアワード「投手」はカテゴリ「スポーツ」のコアワードにならない。
このようにして、各親カテゴリについて上述した図3(A)のコアワードテーブルTL2などが作成されて行く。そして、「TOP」カテゴリを親カテゴリに持つ、「TOP」カテゴリ以外で最も上位の各カテゴリまでコアワードの作成が終了すると、前記ステップS723がY側に分岐して、コアワードの作成処理が終了する。
なお、ある親カテゴリのコアワード作成は、前記中間層コアワード作成開始条件からも明らかなように、その子にあたるすべてのカテゴリにコアワードが作成されていれば実行可能であるから、例えば、必ずしも、図5に示したステップS502が完全に終了してすべての最下位カテゴリに文書が分類されていない状態でも、ステップS503を実行して親カテゴリのコアワードを作成できる場合があることは当然である。
これに対し、与えられた分類対象単語WD1の分類を適切に行うためには、図5に示すステップS504の単語分類処理は、基本的に、ステップS503のコアワード作成処理が完全に終了されたあとで実行される必要がある。その分類対象単語WD1がどのカテゴリに分類されるものであるかを事前に予測することは通常、不可能だからである。
当該ステップS504の詳細を示す図8において、前記入力手段1などを利用して分類対象単語WD1が入力されると(S801)、文書データベース5に格納されている前記文書集合ST1中の各文書DC1〜DCNを検索して(S802)、当該分類対象単語WD1と共起関係にある単語を抽出し(S803)、抽出した単語を検索キーとして前記コアワード辞書6(コアワードテーブルTL1,TL2など)を検索する(S804)。
この検索では、検索結果としてそのコアワードに対応付けられている分野関連度が得られるので(S805)、前記計算手段8が、得られた分野関連度に重み付けを施す(S806)。この重み付けは、前記分類対象単語WD1とそのコアワードとの共起関係の強さを示すことができればどのような情報を利用して行ってもかまわないが、一例として、その文書における当該分類対象単語WD1とコアワードとの共起の頻度を用いることも望ましい。ここでは、この共起の頻度で共起関係の強さを示すものとする。
任意の1カテゴリには多数のコアワードが対応するが、このステップS806の重み付けを施したあとの分野関連度(重み付け分野関連度)の値が大きい順にコアワードを整列することでコアワードの配列を得る。この配列の先頭付近にのみ注目するなら、各コアワードに対応付けられているカテゴリを得ることで、その分類対象単語WD1が分類されるべき性質の高さに応じた各カテゴリの順位を特定することができる(S807)。
ただしこのカテゴリの順位を決めるには、これ以外の方法を用いることもできる。例えば、前記配列全体において、あるカテゴリに対応付けられている多数のコアワードの重み付け分野関連度の順位について統計的な処理(例えば、平均値の算出など)を行い、その処理の結果に基づいて、最終的なカテゴリの順位を決めてもよい。
いずれにしても、カテゴリの順位が決まると、前記判定手段3はその順位をもとに前記分類対象単語WD1が分類されるカテゴリを判定する(S808)。ここでも、様々な処理を行うことが可能であるが、本実施形態では、単純に、前記ステップS807で順位が一位とされたカテゴリを当該分類対象単語WD1が分類されるカテゴリであると判定するものとする。
判定が完了すると、その判定結果に応じて、当該分類対象単語WD1を前記カテゴリ辞書7内の該当するカテゴリテーブル(例えば、図9(B)のTB2)に格納し(S809)、前記出力手段4から判定結果に応じた出力を実行する(S810)。この出力にも様々な変形例があり得るが、例えば、ユーザU1に分類対象単語WD1の分類が完了したことを伝えるための画面表示出力などを実行するものであってもよい。
このような単語分類処理の具体的な処理は例えば次のようになる。
入力手段1に分類対象単語WD1として例えば「防御率」を入力すると(S801)、文書処理手段2で文書データベース5の文書から「防御率」を検索し(S802)、この単語と共起関係にある語を抽出し(S803)、抽出した単語をコアワード辞書6から検索し(S804)、コアワード辞書6に存在した「投手」、「試合」などの分野関連度を取り出し(S805)、計算手段8で分野関連度に重み付けを行い(S806)、カテゴリの順位を決定する(S807)。この重み付け付近の具体的な動作は図13および図14に示す。
図13では、例えば、「野球」カテゴリに対応付けられているコアワード「投手」の場合、分野関連度が0.00929で、語数(共起の頻度)が480なので、重み付け分野関連度の値は4.46(≒0.00929×480)となっている。また、図13は重み付け分野関連度の値が大きい順に整列済みであるので、図14では、図13の配列の順番をそのままカテゴリの順位としている。
この場合、分類対象単語「防御率」は1位のカテゴリ「野球」に判定されて(S808)、カテゴリ辞書7内の該当するカテゴリテーブル(ここでは、図3(B)のTL1)に格納され(S809)、出力手段4で出力される(S810)。
また、分類対象単語が「公式戦」の場合、例えば、前記ステップ806の実行結果として図15のテーブルが得られ、前記ステップS807の実行結果として図16のテーブルが得られる。
(A−3)第1の実施形態の効果
本実施形態によれば、階層構造上の各カテゴリに前もってコアワードを作成しておくことによって、階層の深さに依存しない処理で単語を分類することができるので、計算量が少なく分類の効率が高い。
また、本実施形態では、最下位カテゴリのみに対応する文書(例えば、DC1など)を用意しておけばよいため、全てのカテゴリに対して対応する文書を用意する場合に比べて、処理量が少なく、消費する記憶資源も少ない。
さらに、本実施形態では、分類対象単語(例えば、WD1)を分類する過程で分野別辞書(カテゴリ辞書7に相当)を必要としないため、分野別辞書の内容によって分類の品質が変動することもなく、分類の品質を高く維持することが容易である。
なお、本実施形態で、分類を行う前に分野別辞書を用意しておく必要がない点は、記憶資源の節約にも寄与する。
また、本実施形態では分類対象単語(WD1)の分類を情報処理により自動的に実行することができるため、人間の負担を軽減することができる。
(B)第2の実施形態
以下では、本実施形態が第1の実施形態と相違する点についてのみ説明する。
本実施形態は、図8で示した単語分類処理の一部が第1の実施形態と相違するだけである。
これは、上述した統計的な処理の一例を示したものとみることもできる。
(B−1)第2の実施形態の構成および動作
本実施形態にかかる単語分類システム20の全体構成例を図17に示す。
図17において、図1と同じ符号1〜9を付与した各構成要素の機能は第1の実施形態と同じなので、その詳しい説明は省略する。
図17で、計算手段8と出力手段4のあいだに配置した総合判定手段10は、基本的に前記判定手段3と同じ機能を持つ手段であるが、前記ステップS800の判定で本来、重視されるべきコアワードが、偶然、重み付け分野関連度の値が小さくなってしまったために、与えられた分類対象単語WD1の分類先のカテゴリの決定にまったく反映されなくなる現象の発生を防ぐ機能を持つ。
第1の実施形態の判定手段3では、単純に、前記ステップS807の配列で順位が一位とされたカテゴリを当該分類対象単語WD1が分類されるカテゴリであると判定したが、本実施形態の総合判定手段10では、順位が1位からM位のものまで、当該配列の順位が示す値をカテゴリごとに合計し、その合計値が大きい順に再び整列を行って新たに合計値の配列を得る。そしてこの合計値の配列で先頭に配置された合計値に対応するカテゴリを、当該分類対象単語WD1の分類先と判定する。
前記M位を指定するMの値としては、必要に応じて、任意の正整数を用いることが可能であるが、実験を行ったところでは、M=7の場合が好ましいという結果が得られたので、ここでは、M=7を用いるものとする。
本実施形態の単語分類処理は図18のフローチャートに示す通りである。
このフローチャートは、第1の実施形態における図8のフローチャートに相当するもので、S901〜S911の各ステップを備えている。
このうちステップS901は前記ステップS801に対応し、ステップS902は前記ステップS802に対応し、ステップS903は前記ステップS803に対応し、ステップS904は前記ステップS804に対応し、ステップS905は前記ステップS805に対応し、ステップS906は前記ステップS806に対応し、ステップS908は前記ステップS807に対応し、ステップS909は前記ステップS808に対応し、ステップS910は前記ステップS809に対応し、ステップS911は前記ステップS810に対応するので、その詳しい説明は省略する。
図18中でステップS906につづいて実行されるステップ907では、カテゴリごとに総合する処理が行われているが、これは、カテゴリごとに、上述した1位〜M位までの合計値を得る処理にあたる。したがって、当該ステップS907につづいて実行されるステップS908では、前記合計値の大きさにしたがって合計値を整列することで、合計値の配列を得る処理を行うことになる。
与えられた分類対象単語WD1が、例えば、有名な女子マラソン選手の氏名である「○田×子」であるものとすると、前記ステップS906で得られた重み付け分野関連度などは、一例として図19のテーブルにまとめたような結果となる。図19のテーブルは、図15のテーブルに相当するものであるが、分野関連度と語数を省略している。
図20のテーブルは、前記ステップS907で実行する合計値を得る処理の内容を示すものである。例えば、図19中のカテゴリ名「陸上競技(スポーツ)」では、コアワード「マラソン」の重み付け分野関連度が1.174で、コアワード「女子」の重み付け分野関連度が0.774であるから、図20のテーブルでは、カテゴリ名「陸上競技(スポーツ)」の合計値が1.948(=1.174+0.774)となっている。
(B−2)第2の実施形態の効果
本実施形態によれば、第1の実施形態の効果と同等な効果を得ることができる。
加えて、本実施形態では、本来、重視されるべきコアワードを、ほぼ確実に最終的な分類先の判定結果に反映させることが可能となり、分類の品質をいっそう高めることができる。
(C)他の実施形態
なお、上記第1、第2の実施形態にかかわらず、分類対象単語WD1の分類までのすべての過程を完全に自動化するのではなく、一部にユーザU1の意思決定が介在するようにしてもよい。例えば、前記ステップS807やS908で決定したカテゴリの順位をユーザU1に提示して、前記ステップS808やS909に相当するカテゴリの判定は、提示された順位などに基づいてユーザU1が行うようにしてもよい。
また、上記第1の実施形態の冒頭で説明した各種の定義については、様々な変形が可能である。
例えば、コアワードや不要語の作成は品詞の種類を変更したりnグラムで切り出したりなどの別の方法で定義してもよいし、追加や削除ができるようにしてもよい。さらに共起関係は、修飾関係などの別の方法で定義してもよいし抽出する範囲を広くしたり狭くしたりしてもよい。また、分野関連度やその重み付けは、文書中の見出しに含まれる単語は高くしたり語間の距離を反映したりなどの別の方法で計算してもよいし、具体的な単語を指定して調整できるようにしてもよい。さらに、中間層の分野関連度の計算に関しては、(ばらつきの)範囲や範囲の上限値の定義を変更してもよい。
なお、上記第1、第2の実施形態における各構成要素(1〜7,10)は、1台の装置に実装せずに複数台の装置に分散して配置するようにしてもよい。
例えば、文書データベース5は、ネットワーク経由でアクセスできるWebサイトなどに置き換えることが可能である。
また、分類対象は、単語だけでなく、複合語や句であってもよい点はすでに説明した通りである。
さらに、上記第1、第2の実施形態で使用した各テーブルの内容および構成(ここで、構成は、データ項目の組み合わせを指す)は、必ずしも図示した通りでなくてもかまわない。
以上の説明でハードウエア的に実現した機能の大部分はソフトウエア的に実現することができ、ソフトウエア的に実現した機能のほとんど全てはハードウエア的に実現することが可能である。
第1の実施形態にかかる単語分類システムの機能的構成を示すブロック図である。 カテゴリの階層構造の例を示す概略図である。 コアワード辞書の構成例を示す概略図である。 カテゴリ関係辞書の構成例を示す概略図である。 第1の実施形態の動作説明図である。 第1の実施形態の動作説明図である。 第1の実施形態の動作説明図である。 第1の実施形態の動作説明図である。 第1および第2の実施形態で使用するカテゴリ辞書の構成例を示す概略図である。 第1の実施形態の動作説明図である。 第1の実施形態の動作説明図である。 第1の実施形態の動作説明図である。 第1の実施形態の動作説明図である。 第1の実施形態の動作説明図である。 第1の実施形態の動作説明図である。 第1の実施形態の動作説明図である。 第2の実施形態にかかる単語分類システムの機能的構成を示すブロック図である。 第2の実施形態の動作説明図である。 第2の実施形態の動作説明図である。 第2の実施形態の動作説明図である。 第2の実施形態の動作説明図である。
符号の説明
1…入力手段、2…文書処理手段、3…判定手段、4…計算手段、5…文書データベース、6…コアワード辞書、7…カテゴリ辞書、8…計算手段、9…カテゴリ関係辞書、10…単語分類システム、DC1〜DCN…文書、ST1
…文書集合。

Claims (7)

  1. 予め定めたカテゴリのあいだの包含、被包含の関係から、カテゴリ間に木構造にしたがった親子関係を設定した上で、与えられた分類対象語句をいずれかのカテゴリに分類することを少なくとも支援する語句分類システムにおいて、
    前記木構造で子を持たない最下位の節にあたる最下位カテゴリのいずれかに分類された文書の集合である分類済み文書集合に含まれる各文書中の語句について、各文書の内容の特徴を表現する度合いを示す所定の第1の特徴情報を計算する特徴情報計算部と、
    この特徴情報計算部によって計算された第1の特徴情報の値に応じてその文書が属するカテゴリの内容を特徴的に表現する1または複数のカテゴリ特徴語句を決定する処理を、全ての前記最下位カテゴリについて実行する最下位カテゴリ特徴語句決定部と、
    前記各最下位カテゴリも含め、全ての子にあたるカテゴリに関するカテゴリ特徴語句及びそのカテゴリ特徴語句についての前記第1の特徴情報または第2の特徴情報を利用し、そのカテゴリ特徴語句が全ての子カテゴリに偏りなく表れているかを判断して、その親にあたるカテゴリのカテゴリ特徴語句及び前記第2の特徴情報を決定する操作を順次繰り返し、前記木構造の上位の各節に対応するカテゴリについて1または複数のカテゴリ特徴語句を前記第2の特徴情報と共に決定する上位カテゴリ特徴語句決定部と、
    前記分類済み文書集合に含まれる文書中で、前記分類対象語句と共起するカテゴリ特徴語句を探索し、探索されたカテゴリ特徴語句に関する、各カテゴリでの前記第1または第2の特徴情報を利用してその分類対象語句が分類されるカテゴリを決定して出力するか、または、カテゴリの決定を支援する支援情報を生成した上で当該支援情報を出力する出力処理部とを備えたことを特徴とする語句分類システム。
  2. 請求項1の語句分類システムにおいて、
    前記出力処理部は、
    前記分類済み文書集合に含まれる文書中で、前記分類対象語句と共起するカテゴリ特徴語句を探索するとき、その文書中における当該分類対象語句とカテゴリ特徴語句の共起の頻度を求め、前記第1または第2の特徴情報の値には、その共起の頻度を反映した重みを付与しカテゴリの決定に利用させる重み付け処理部を含むことを特徴とする語句分類システム。
  3. 請求項1の語句分類システムにおいて、
    前記出力処理部は、
    前記分類済み文書集合に含まれる文書中で分類対象語句と共起するカテゴリ特徴語句の、各カテゴリでの前記第1または第2の特徴情報の値に応じて、そのカテゴリ特徴語句が対応するカテゴリを前記分類対象語句が属するカテゴリの候補である候補カテゴリとした上で候補カテゴリの順位を決定する候補カテゴリ決定部を備え、
    当該候補カテゴリ決定部が決定した順位が最上位の候補カテゴリを、前記分類対象語句が属するカテゴリとし、そのカテゴリに当該分類対象語句を分類するか、または、当該候補カテゴリ決定部が決定した順位をユーザに提示し、ユーザが当該分類対象語句をいずれかのカテゴリに分類することを促すことを特徴とする語句分類システム。
  4. 請求項2の語句分類システムにおいて、
    前記出力処理部は、1つの前記カテゴリに関するカテゴリ特徴語句が複数ある場合、所定数のカテゴリ特徴語句に関する前記重みを付与した特徴情報の値を合計し、その合計値に応じて、前記分類対象語句が分類されるカテゴリを決定するか、または、カテゴリの決定を支援する支援情報を生成した上で当該支援情報を出力することを特徴とする語句分類システム。
  5. 請求項1の語句分類システムにおいて、
    前記上位カテゴリ特徴語句決定部は、決定対象の親のカテゴリに対する全ての子のカテゴリに含まれているカテゴリ特徴語句のそれぞれを候補とし、一つの候補のカテゴリ特徴語句についてのそれぞれの子のカテゴリにおける第1または第2の特徴情報の値の最大値が、その候補のカテゴリ特徴語句についてのそれぞれの子のカテゴリにおける第1または第2の特徴情報の値の平均値及び標準偏差で定まる範囲の上限値より小さいときに、そのカテゴリ特徴語句を決定対象の親のカテゴリのカテゴリ特徴語句に決定すると共に、決定された親のカテゴリのカテゴリ特徴語句についての第2の特徴情報の値を前記上限値にすることを特徴とする語句分類システム。
  6. 予め定めたカテゴリのあいだの包含、被包含の関係から、カテゴリ間に木構造にしたがった親子関係を設定した上で、与えられた分類対象語句をいずれかのカテゴリに分類することを少なくとも支援する語句分類方法において、
    特徴情報計算部が、前記木構造で子を持たない最下位の節にあたる最下位カテゴリのいずれかに分類された文書の集合である分類済み文書集合に含まれる各文書中の語句について、各文書の内容の特徴を表現する度合いを示す所定の第1の特徴情報を計算し、
    最下位カテゴリ特徴語句決定部が、当該特徴情報計算部によって計算された第1の特徴情報の値に応じてその文書が属するカテゴリの内容を特徴的に表現する1または複数のカテゴリ特徴語句を決定する処理を、全ての前記最下位カテゴリについて実行し、
    上位カテゴリ特徴語句決定部が、前記各最下位カテゴリも含め、全ての子にあたるカテゴリに関するカテゴリ特徴語句及びそのカテゴリ特徴語句についての前記第1の特徴情報または第2の特徴情報を利用し、そのカテゴリ特徴語句が全ての子カテゴリに偏りなく表れているかを判断して、その親にあたるカテゴリのカテゴリ特徴語句及び前記第2の特徴情報を決定する操作を順次繰り返し、前記木構造の上位の各節に対応するカテゴリについて1または複数のカテゴリ特徴語句を前記第2の特徴情報と共に決定し、
    出力処理部が、前記分類済み文書集合に含まれる文書中で、前記分類対象語句と共起するカテゴリ特徴語句を探索し、探索されたカテゴリ特徴語句に関する、各カテゴリでの前記第1または第2の特徴情報を利用してその分類対象語句が分類されるカテゴリを決定して出力するか、または、カテゴリの決定を支援する支援情報を生成した上で当該支援情報を出力することを特徴とする語句分類方法。
  7. 予め定めたカテゴリのあいだの包含、被包含の関係から、カテゴリ間に木構造にしたがった親子関係を設定した上で、与えられた分類対象語句をいずれかのカテゴリに分類することを少なくとも支援する語句分類プログラムにおいて、コンピュータに、
    前記木構造で子を持たない最下位の節にあたる最下位カテゴリのいずれかに分類された文書の集合である分類済み文書集合に含まれる各文書中の語句について、各文書の内容の特徴を表現する度合いを示す所定の第1の特徴情報を計算する特徴情報計算機能と、
    この特徴情報計算機能によって計算された第1の特徴情報の値に応じてその文書が属するカテゴリの内容を特徴的に表現する1または複数のカテゴリ特徴語句を決定する処理を、全ての前記最下位カテゴリについて実行する最下位カテゴリ特徴語句決定機能と、
    前記各最下位カテゴリも含め、全ての子にあたるカテゴリに関するカテゴリ特徴語句及びそのカテゴリ特徴語句についての前記第1の特徴情報または第2の特徴情報を利用し、そのカテゴリ特徴語句が全ての子カテゴリに偏りなく表れているかを判断して、その親にあたるカテゴリのカテゴリ特徴語句及び前記第2の特徴情報を決定する操作を順次繰り返し、前記木構造の上位の各節に対応するカテゴリについて1または複数のカテゴリ特徴語句を前記第2の特徴情報と共に決定する上位カテゴリ特徴語句決定機能と、
    前記分類済み文書集合に含まれる文書中で、前記分類対象語句と共起するカテゴリ特徴語句を探索し、探索されたカテゴリ特徴語句に関する、各カテゴリでの前記第1または第2の特徴情報を利用してその分類対象語句が分類されるカテゴリを決定して出力するか、または、カテゴリの決定を支援する支援情報を生成した上で当該支援情報を出力する出力処理機能とを実現させることを特徴とする語句分類プログラム。
JP2004080818A 2004-03-19 2004-03-19 語句分類システム、語句分類方法、および語句分類プログラム Expired - Fee Related JP3889010B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004080818A JP3889010B2 (ja) 2004-03-19 2004-03-19 語句分類システム、語句分類方法、および語句分類プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004080818A JP3889010B2 (ja) 2004-03-19 2004-03-19 語句分類システム、語句分類方法、および語句分類プログラム

Publications (2)

Publication Number Publication Date
JP2005267397A JP2005267397A (ja) 2005-09-29
JP3889010B2 true JP3889010B2 (ja) 2007-03-07

Family

ID=35091866

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004080818A Expired - Fee Related JP3889010B2 (ja) 2004-03-19 2004-03-19 語句分類システム、語句分類方法、および語句分類プログラム

Country Status (1)

Country Link
JP (1) JP3889010B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4918067B2 (ja) * 2008-06-16 2012-04-18 日本電信電話株式会社 カテゴリ関連度算出装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5505207B2 (ja) * 2010-08-31 2014-05-28 株式会社リコー 情報検索装置、情報検索方法及び情報検索プログラム
CN102737057B (zh) * 2011-04-14 2015-04-01 阿里巴巴集团控股有限公司 一种商品类目信息的确定方法及装置
CN103823809B (zh) * 2012-11-16 2018-06-08 百度在线网络技术(北京)有限公司 一种对查询短语分类的方法、分类优化的方法及其装置
JP6044963B2 (ja) 2014-02-12 2016-12-14 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 情報処理装置、方法及びプログラム
DE102018213021A1 (de) * 2018-08-03 2020-02-06 Robert Bosch Gmbh Computerimplementiertes Verfahren und Vorrichtung für Textanalyse

Also Published As

Publication number Publication date
JP2005267397A (ja) 2005-09-29

Similar Documents

Publication Publication Date Title
CN107870901A (zh) 从翻译源原文生成相似文的方法、程序、装置以及系统
US8812504B2 (en) Keyword presentation apparatus and method
JP7139728B2 (ja) 分類方法、装置、及びプログラム
Flati et al. Multiwibi: The multilingual wikipedia bitaxonomy project
CN106997341A (zh) 一种创新方案匹配方法、装置、服务器及系统
CN108829889A (zh) 一种新闻文本分类方法以及装置
CN113761114A (zh) 短语生成方法、装置和计算机可读存储介质
JP2007047974A (ja) 情報抽出装置および情報抽出方法
JP3847273B2 (ja) 単語分類装置、単語分類方法及び単語分類プログラム
Dlikman et al. Using Machine Learning Methods and Linguistic Features in Single-Document Extractive Summarization.
JP3889010B2 (ja) 語句分類システム、語句分類方法、および語句分類プログラム
Chader et al. Sentiment Analysis for Arabizi: Application to Algerian Dialect.
JP2001331515A (ja) 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品
Sohail et al. Methodologies and techniques for text summarization: a survey
Ullah et al. Pattern and semantic analysis to improve unsupervised techniques for opinion target identification
Heidary et al. Automatic Persian text summarization using linguistic features from text structure analysis
Molino et al. Distributed representations for semantic matching in non-factoid question answering.
Bhargava et al. Catchphrase Extraction from Legal Documents Using LSTM Networks.
Nejjari et al. Overview of opinion detection approaches in Arabic
Forsati et al. Cooperation of evolutionary and statistical PoS-tagging
JP3848014B2 (ja) 文書検索方法および文書検索装置
JP2008282328A (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
Anjaneyulu et al. Sentence similarity using syntactic and semantic features for multi-document summarization
JP6451151B2 (ja) 質問応答装置、質問応答方法、プログラム
van Halteren Cross-Domain Authorship Attribution with Federales.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060822

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061128

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091208

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101208

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101208

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111208

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111208

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121208

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees