JP3847273B2 - 単語分類装置、単語分類方法及び単語分類プログラム - Google Patents
単語分類装置、単語分類方法及び単語分類プログラム Download PDFInfo
- Publication number
- JP3847273B2 JP3847273B2 JP2003133140A JP2003133140A JP3847273B2 JP 3847273 B2 JP3847273 B2 JP 3847273B2 JP 2003133140 A JP2003133140 A JP 2003133140A JP 2003133140 A JP2003133140 A JP 2003133140A JP 3847273 B2 JP3847273 B2 JP 3847273B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- category
- core
- core word
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、単語が属するカテゴリを決定する単語分類装置、単語分類方法及び単語分類プログラムに関し、例えば、自然言語処理システム用のカテゴリ辞書の拡充等に適用し得るものである。
【0002】
【従来の技術】
機械翻訳システム等での自然言語処理システムにおいては、専門分野等のカテゴリ別の辞書の充実度が、処理結果の精度におおきな影響を与える。単語をカテゴリ別に分類して辞書に登録する場合において、ユーザに分類先の辞書を適切に選択させるのは、ユーザに負担がかかる。また、人手では、そのカテゴリ辞書に登録された単語群の統一性を保つことが困難である。複数のユーザが共同で単語分類、辞書登録を行なう場合は統一性の保持はなおさらである。
【0003】
【特許文献1】
特開平11−143875号公報
特許文献1には、単語自動分類装置及び単語自動分類方法が開示されている。この特許文献1の方法は、名詞クラスタ及び動詞クラスタの集合を木構造に変換し、それぞれ名詞のシソーラス及び動詞のシソーラスとして出力している。
【0004】
【発明が解決しようとする課題】
特許文献1の記載方法は、入力文の格解析を行なってシソーラスまで作成しており、分類目的には詳細過ぎて効率的とは言い難い上に、任意のカテゴリ別に単語を分類することはできない。また、精度を高くするために名詞と動詞を組み合わせて分類を行なうので、他の品詞や句になる語には適用することができない。
【0005】
そのため、少ない工数で任意のカテゴリに語や句を分類することができる単語分類装置、単語分類方法及び単語分類プログラムが求められている。
【0006】
【課題を解決するための手段】
かかる課題を解決するため、第1の本発明は、分類対象単語を複数のカテゴリのいずれかのカテゴリに分類する単語分類装置であって、(1)各カテゴリについて、そのカテゴリを代表する単語であるコアワードと、そのコアワードがそのカテゴリに属する度合いを示すコアワード値の組を複数格納しているコアワード辞書と、(2)文書を格納している文書データベースと、(3)上記文書データベースに格納されている文書から、上記分類対象単語を検索し、分類対象単語が検索された文書部分から、その共起関係にある共起関係単語を抽出する文書処理手段と、(4)抽出された各共起関係単語が、上記コアワード辞書にコアワードとして格納されているかを検索し、検索されたコアワードのコアワード値から、カテゴリの順位付け判定値を形成して、上記分類対象単語が属するカテゴリを決定する判定手段とを有することを特徴とする。
【0007】
また、第2の本発明は、分類対象単語を複数のカテゴリのいずれかのカテゴリに分類する単語分類方法であって、(1)各カテゴリについて、そのカテゴリを代表する単語であるコアワードと、そのコアワードがそのカテゴリに属する度合いを示すコアワード値の組を複数格納しているコアワード辞書と、文書を格納している文書データベースとを用意しておき、(2)上記文書データベースに格納されている文書から、上記分類対象単語を検索し、分類対象単語が検索された文書部分から、その共起関係にある共起関係単語を抽出する文書処理工程と、(3)抽出された各共起関係単語が、上記コアワード辞書にコアワードとして格納されているかを検索し、検索されたコアワードのコアワード値から、カテゴリの順位付け判定値を形成して、上記分類対象単語が属するカテゴリを決定する判定工程とを有することを特徴とする。
【0008】
第3の本発明の単語分類プログラムは、分類対象単語を複数のカテゴリのいずれかのカテゴリに分類するプログラムであって、コンピュータを、各カテゴリについて、そのカテゴリを代表する単語であるコアワードと、そのコアワードがそのカテゴリに属する度合いを示すコアワード値の組を複数格納しているコアワード辞書と、文書を格納している文書データベースと、上記文書データベースに格納されている文書から、上記分類対象単語を検索し、分類対象単語が検索された文書部分から、その共起関係にある共起関係単語を抽出する文書処理手段と、抽出された各共起関係単語が、上記コアワード辞書にコアワードとして格納されているかを検索し、検索されたコアワードのコアワード値から、カテゴリの順位付け判定値を形成して、上記分類対象単語が属するカテゴリを決定する判定手段として機能させることを特徴とする。
【0009】
【発明の実施の形態】
(A)第1の実施形態
以下、本発明による単語分類装置、単語分類方法及び単語分類プログラムの第1の実施形態を図面を参照しながら説明する。
【0010】
なお、以下の説明において、分類したい分野をカテゴリと定義する。カテゴリに特有でかつ代表的な単語をコアワードと定義する。複数の要素が、一定の範囲内(語、文、段落、文章など)に同時に現れることを共起という。同時に現れる単語を共起関係にある単語という。ある単語と同じように共起関係にある他の単語は同じカテゴリになると定義する。コアワードには、カテゴリに属する度合いを示す値を付与する。値が大きいほどそのカテゴリに属する度合いが強い。コアワードとコアワードの値は前もって用意しておく。コアワードとコアワードの値によって、分類対象単語のカテゴリを判定する。分類対象は、単語だけでなく、句であっても良いが、以下の構成及び動作の説明では単語として説明する。
【0011】
(A−1)第1の実施形態の構成
図1は、第1の実施形態の単語分類装置の機能的構成を示すブロック図である。第1の実施形態の単語分類装置は、例えば、入出力手段を備えるパソコン等の情報処理装置上に、単語分類プログラムをインストールすることによって実現されるが、機能的には、図1で表すことができる。
【0012】
第1の実施形態の単語分類装置は、機能的には、入力手段1、文書処理手段2、判定手段3、出力手段4、文書データベース5、コアワード辞書6及びカテゴリ辞書7を有する。
【0013】
入力手段1は、例えば、キーボード等の一般的な入力手段だけでなく、記録媒体のアクセス装置等のファイル読込装置や、文書をイメージデータとして読み込んでそれをテキストデータに置き換える文字認識装置等も該当し、要は、文書や分類対象の単語を入力する手段であり、また、適宜、動作モード等も指示するものである。
【0014】
文書処理手段2は、文書や分類対象単語やコアワードを処理する手段である。文書処理手段2は、文書を形態素解析し、分類対象単語やコアワードを検索して抽出するものである。
【0015】
判定手段3は、分類対象単語と共起したコアワードとその値に基づいて、分類対象単語のカテゴリを判定する手段である。
【0016】
文書処理手段2及び判定手段3は、例えば、その機能を担う処理ルーチン及びその実行手段(CPU等)からなる。
【0017】
出力手段4は、分類対象単語の判定されたカテゴリを出力する手段であり、例えば、ディスプレイやプリンタ等の一般的な出力手段だけでなく、記録媒体へ格納する記録媒体アクセス装置等も該当する。
【0018】
文書データベース5は、入力された文書を格納するデータベースであり、複数の文書の格納も可能であり、格納された文書が、分類対象単語のカテゴリ判定のために利用される。
【0019】
コアワード辞書6は、カテゴリ毎に、コアワードとその値とを格納しており、判定手段3によって利用される。
【0020】
カテゴリ辞書7は、カテゴリ毎に、そのカテゴリに属する単語を格納しているものであり、判定手段3によって利用される。
【0021】
(A−2)第1の実施形態の動作
次に、第1の実施形態の単語分類装置の動作(第1の実施形態の単語分類方法)を説明する。
【0022】
第1の実施形態の単語分類装置は、文書データベースに文書を格納しておき、分類対象単語を文書データベースから検索し、分類対象単語と共起関係にある単語を文書から抽出し、抽出した共起関係にある単語をコアワード辞書から検索し、検索したコアワードの属するカテゴリを分類対象単語のカテゴリの候補とし、コアワードとコアワードの値によって、カテゴリの順位を決定し、カテゴリを判定する。
【0023】
以下では、具体例を適宜利用しながら、より具体的に、第1の実施形態の単語分類装置の動作を説明する。
【0024】
以下の例では、改行までの1文内に同時に現れた単語から不要語を除いた単語を、共起関係の判定対象の単語とする。名詞、動詞、形容詞、形容動詞、未知語(自立語)以外を不要語とする。共起関係の単語を抽出するには、分類対象単語を含む文を検索して抽出し、その文を形態素解析することにより行う。カテゴリの順位は、共起関係にある単語中にふくまれているコアワードの値を、その出現回数を反映させた合計値の大きい順にコアワードを並べ、コアワードを並べた順に、カテゴリ名を重複しないように取り、カテゴリ名を取った順とする。カテゴリの判定結果は、順位が1位のカテゴリとする。値の合計を取るのは、格納した文書の内容をカテゴリの順位に反映するためである。
【0025】
図2は、第1の実施形態の単語分類装置の全体動作を説明するフローチャートである。
【0026】
入力手段1によって文書格納処理か単語分類処理かを選択させ(201)、文書格納処理が選択されると文書格納処理を実行し(202)、単語分類処理が選択されると単語分類処理を実行して(203)、一連の処理を終了する。
【0027】
図3は、図2における文書格納処理(202)の詳細を示すフローチャートである。
【0028】
入力手段1から文書を入力させ(301)、文書処理手段2が入力された文書を文書データベース5に格納する(302)。ここで、入力文書は、新聞文書などの種々のカテゴリの内容が混在したものであっても良く、あるカテゴリを意図したものであっても良い。また、文書格納処理を複数回繰り返して、全種類のカテゴリに係る文章が含まれているようにしても良い。
【0029】
図4は、図2における単語分類処理(203)の詳細を示すフローチャートである。
【0030】
まず、入力手段1によって分類対象単語を入力させる(401)。以下では、「スターウォーズ」が分類対象単語として入力されたとして説明する。また、コアワード辞書6及びカテゴリ辞書7がそれぞれ、図5及び図6に示すようになっており、文書データベース5には図7に示す文章を含む文書が格納されているとして説明する。
【0031】
分類対象単語が入力されると、次に、文書処理手段2が、文書データベース5の格納文書から分類対象単語を検索し(402)、分類対象単語と共起関係にある単語を抽出する(403)。この際には、文書処理手段2によって形態素解析がなされるが、この形態素解析方法は一般的な方法を適用できる。従って、文書処理手段2は、形態素解析用の辞書を内蔵している。
【0032】
文書データベース5の格納文書に対する分類対象単語「スターウォーズ」の検索により(402)、図7に示す文章が検索され、その各文章の自立語が抽出され、その結果、共起関係にある単語(以下、共起関係語と呼ぶ)として、図8に示すものが抽出される(403)。なお、共起関係語の抽出では、同じ単語でも、異なる文章や位置にあるものは独立して抽出する。
【0033】
その後、判定手段3が、抽出された共起関係語をコアワード辞書6からカテゴリを区別して検索し(404)、コアワード辞書6に存在した共起関係語にコアワードの値を付与し、同一カテゴリの同一の共起関係語(コアワード)毎にコアワード値を合計する(405)。
【0034】
図9は、コアワード辞書6からの共起関係語(コアワード)の抽出結果を示している。なお、図9の2個の「映画」は、別個の文章から抽出されたものであり、図9の2個の「監督」は共起関係語としては1個抽出されたものであるが、コアワード辞書6のカテゴリ「芸術」及び「スポーツ」の双方に「監督」が存在していたため、コアワード辞書6に対する検索で、「監督」の情報が2個になったものである。図10は、同一カテゴリの同一の共起関係語の合計コアワード値を示している。
【0035】
その後、判定手段3が、コアワードと合計値とからカテゴリの順位を決定し(406)、分類対象単語のカテゴリを判定する(407)。
【0036】
上述したように、カテゴリの順位の決定は、合計値の大きい順にコアワードを並べ、コアワードを並べた順に、カテゴリ名を重複しないように取り、カテゴリ名を取った順としている。上述した図10は、合計値の大きい順に並べたものとなっているので、図11に示すように、「映画」のカテゴリ「芸術」が第1順位、「冷戦」のカテゴリ「政治」が第2順位、「監督」のカテゴリ「芸術」及び「スポーツ」のうち順位付けされていないカテゴリ「スポーツ」が第3順位となる。その結果、図12に示すように、分類対象単語「スターウォーズ」のカテゴリとして、第1順位の「芸術」が決定される。
【0037】
続いて、判定手段3は、分類対象単語を、カテゴリ辞書7の判定したカテゴリに格納し(408)、出力手段4は、判定されたカテゴリ名(及び分類対象単語)を出力する(409)。
【0038】
(A−3)第1の実施形態の効果
上記第1の実施形態によれば、以下の効果を奏することができる。
【0039】
前もってカテゴリ毎のコアワードを作成しておくことによって、類似度やクラスタリングといった複雑な計算を実行することなく、少ない工数で、任意のカテゴリに分類対象単語を分類することができる。
【0040】
また、分類対象を文書から検索して共起関係にある単語を抽出する手法で分類できるので、分類対象に関し、品詞が限定されず、また、句でも分類することができる。
【0041】
さらに、コアワードが固定であっても、格納した文書によって、文書の内容に合ったカテゴリに分類することができる。例えば、格納した文書に映画関係の内容が多い場合には、分類対象単語に対する候補カテゴリの順位付けで芸術のカテゴリの順位が高くなり易く、格納した文書に軍事関係の内容が多い場合には、分類対象単語に対する候補カテゴリの順位付けで政治のカテゴリの順位が高くなり易い。
【0042】
各共起関係単語(出現コアワード)の合計値だけでカテゴリの順位付けを行っているので、カテゴリ毎の合計値に基づいた順位付けより、コアワード1個1個が順位付けに影響を与えやすく、コアワードとして、そのカテゴリに代表的なものを選定しておけば適切に分類を行うことができる。仮に、カテゴリ毎の合計値に基づいた順位付けを行った場合は(この場合は、第1の実施形態の変形実施形態となっている)、コアワード値が小さいコアワードの影響も合計値に入って順位付けに影響を与えるが、第1の実施形態では、コアワード値が小さいコアワードは、それが多数共起しなければ順位付けに影響を与えない。
【0043】
(B)第2の実施形態
次に、本発明による単語分類装置、単語分類方法及び単語分類プログラムの第2の実施形態を図面を参照しながら説明する。
【0044】
第2の実施形態は、第1の実施形態に、コアワードを作成し、コアワードの値を計算する機能を追加したものである。
【0045】
(B−1)第2の実施形態の構成
図13は、第2の実施形態の単語分類装置の機能的構成を示すブロック図であり、第1の実施形態に係る図1との同一、対応部分には同一符号を付して示している。
【0046】
第2の実施形態の単語分類装置は、第1の実施形態の構成に加え、コアワード値処理手段8を有している。コアワード値処理手段8は、コアワードに付与する値やカテゴリ毎のコアワードの値やカテゴリ毎の重み付けや語毎の重み付けを計算する手段である。
【0047】
(B−2)第2の実施形態の動作
次に、第2の実施形態の単語分類装置の動作(第2の実施形態の単語分類方法)を、適宜、具体例をまぜながら説明する。
【0048】
図14は、第2の実施形態の単語分類装置の全体動作を示すフローチャートである。
【0049】
入力手段1によって処理を選択させ(501)、文書格納処理が選択されると文書格納処理を実行し(502)、コアワード作成処理が選択されるとコアワード作成処理を実行し(503)、単語分類処理が選択されると単語分類処理を実行して(504)、一連の終了する。
【0050】
図15は、図14における文書格納処理(502)の詳細を示すフローチャートである。
【0051】
入力手段1からカテゴリを指定した文書を入力させ(601)、文書処理手段2が文書データベース5にカテゴリ別に文書を格納する(602)。
【0052】
図16は、図14におけるコアワード作成処理(503)の詳細を示すフローチャートである。
【0053】
文書処理手段2が文書データベース5のカテゴリ別に文書を形態素解析し(701)、形態素解析結果から不要語を除いた単語を、そのカテゴリ別のコアワードとして抽出する(702)。この第2の実施形態においても、名詞、動詞、形容詞、形容動詞、未知語(自立語)以外を不要語とする。
【0054】
そして、コアワード値処理手段8がコアワード値を計算し(703)、抽出した単語(コアワード)にコアワード値を付与し(704)、コアワード辞書6に単語(コアワード)とコアワード値を格納する(705)。
【0055】
ここで、コアワードに付与するコアワード値はtf*idf(手法)で計算する。tf*idfは、文書の自動索引付けにおいて、索引語の重みを計算する手法である。
【0056】
tf(t,d)は、ある文書dにおける索引語tの生起頻度である(文書毎の文書中の単語数;Term Frequency)。df(t)は、索引語tが1回以上生起する文書の数であり(ある単語を含む文書の数;DocumentFrequency)、idf(t)は、(1)式に示すように、文書の数Nと、df(t)の逆数とをかけて対数をとったものである。そして、索引語tの文書dにおける重みw(t,d)は、(2)式で与えられる。
【0057】
idf(t)=log{N/df(t)} …(1)
w(t,d)=tf(t,d)*idf(t) …(2)
語がどのくらい特定性を持つかはidfによって反映されている。多くの文書中に現れる普遍的な語の場合には、idfは小さくなり、逆に、特定の文書にしか現れない語の場合にはidfは大きくなる。tfを用いるのは、文書中で繰り返し生起する語はその文書において重要な概念であると考えるためである。
【0058】
tf*idfそのものでは、総単語数が多いほど大きい値を取り得るので、単語分類では、コアワードの値(tf*idf)のカテゴリ間での調整が必要である。重み付けとしてカテゴリ毎のコアワード数を用い、カテゴリ毎のコアワード数でカテゴリが一致する各コアワードの値(tf*idf)を割ることで調整する。また、共起関係の強さを反映させるために、重み付けとして、抽出した共起関係にある語のカテゴリを超えて数えた数を、語が一致するコアワードの値にかけることにする。
【0059】
なお、カテゴリ毎のコアワード数は、コアワード値処理手段8がコアワード値tf*idfを計算する際に合わせて得ておく。
【0060】
図18は、以上のようにして作成されたコアワード辞書6の一例を示す説明図である。各コアワードの値として、計算されたtf*idfが格納されている。
【0061】
図17は、図14における単語分類処理(504)の詳細を示すフローチャートである。
【0062】
入力手段1によって分類対象単語を入力させると(801)、文書処理手段2で文書データベース5の文書から分類対象単語を検索し(802)、分類対象単語と共起関係にある単語を抽出する(503)。これらの処理は、第1の実施形態と同様である。
【0063】
例えば、「神経系」が分類対象単語として入力された場合において、文書データベース5の格納文書の中に、図20に示すような文章があると、共起関係単語として、図21に示すようなものが抽出される。
【0064】
その後、コアワード値処理手段8が、抽出された共起関係単語をコアワード辞書6から検索し(804)、コアワード辞書6に存在した共起関係単語(コアワード)の重みを計算し(805)、コアワードの値に重み付けをする(806)。
【0065】
共起関係単語として、図22に示すような単語が抽出されると、コアワード辞書6の検索により、各単語(コアワード)に対し、カテゴリ名とコアワード値が得られる。
【0066】
図23は、抽出されたコアワードの重み付け値の説明図である。カテゴリ「経済」に属するコアワード「市場」のカテゴリの重み付け値(a)は、そのカテゴリ「経済」のコアワードの総数である「32155」である。コアワード「市場」の語の重み付け値(b)は、この単語「市場」が、カテゴリを問わずに、分類対象単語「神経系」と共起した回数が1回であるので「1」である。また、カテゴリ「医学」に属するコアワード「神経」のカテゴリの重み付け値(a)は、そのカテゴリ「医学」のコアワードの総数である「4294」である。コアワード「神経」の語の重み付け値(b)は、この単語「神経」が、カテゴリを問わずに、分類対象単語「神経系」と共起した回数が30回であるので「30」である。
【0067】
図24は、各コアワードの値(tf*idf)に対し、重み付け値(a)及び(b)を用いて重み付けを行った後の値を示している。重み付け後の値は、(3)式に従って計算している。なお、(3)式における100は、重み付け後の値の大きさをある程度の大きさにするための定数である。また、図24では、重み付け後の値を、整数に四捨五入して示しているが、有効桁数は任意に設定しても良い。
【0068】
(tf*idf)×(b)×100÷(a) …(3)
その後、判定手段3は、抽出されたコアワードの重み付け語の値からカテゴリの順位を決定し(807)、分類対象単語のカテゴリを判定する(808)。
【0069】
重み付け語の値の大きい順に抽出されたコアワードを並び換えると、上述した図24に示すような結果が得られるので、大きい方から、カテゴリ名を重複しないように取り出すと、図25に示すように、「医学」、「経済」、「スポーツ」の順にカテゴリの候補が得られ、分類対象単語「神経系」のカテゴリとして「医学」が決定される。なお、同一コアワードの出現頻度は、既に重み付け語の値に反映されているので、順位付けでは、同一コアワードの出現頻度を改めて考慮することは行っていない。
【0070】
続いて、判定手段3は、分類対象単語をカテゴリ辞書7の判定したカテゴリに格納し(809)、また、出力手段4から判定したカテゴリを出力させる(810)。
【0071】
カテゴリ辞書7への格納により、分類対象単語「神経系」は、図18に示すように、「医学」のカテゴリに追加され(なお、このときに既に格納されているかいなかを確認し、格納されていない場合にのみ追加するようにしても良い)、また、図26に示すような形式で出力される。
【0072】
(B−3)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態と同様な効果を奏すると共に、さらに、以下の効果を奏することができる。
【0073】
カテゴリに特有な文書を処理することによって、単語分類に必要なコアワードと付与する値を自動的に作成することができる。
【0074】
また、カテゴリを指定した文書を格納することによって、分類するカテゴリを任意に決定することができる。すなわち、文書の入力時に指定されたカテゴリが、カテゴリ辞書やコアワード辞書に用意されていなければ新たなカテゴリとして準備される。
【0075】
(C)他の実施形態
なお、上記各実施形態では、分類対象単語を判定したカテゴリのカテゴリ辞書に格納するものを示したが、カテゴリ辞書に格納する前に、カテゴリの順位を出力して、操作者に格納するカテゴリの種類を選択させるようにしても良い。
【0076】
また、自動的にカテゴリ辞書に格納する場合においても、最高順位のカテゴリのカテゴリ辞書に格納するだけでなく、判定基準が閾値を超えている順位までの全てのカテゴリのカテゴリ辞書に格納するようにしても良い。また、順位の決定やカテゴリの判定は、下位でも多数ある方を優先する、などの別の方法を用いても良い。
【0077】
さらに、コアワードの品詞の種類を上記実施形態以外で定義しても良く、コアワードを追加や削除できるようにしても良い。第2の実施形態の場合、値tf*idf等が小さいものを、コアワードから除外するようにしても良い。
【0078】
さらにまた、コアワードを抽出したり、共起関係単語を抽出するための形態素解析として、Nグラムでの切り出しなどの別の方法を用いても良い。
【0079】
また、共起関係の定義も、他の方法を適用しても良い。例えば、修飾関係という条件を盛り込んでも良く、また、抽出する範囲を実施形態より広くしたり狭くしたりしても良い。
【0080】
さらに、コアワードの値や重み付けは、文書の見出しに含まれる語は高くしたり語間の距離を反映したりなどの別の方法で計算しても良く、語を指定して、操作者が手動で調整できるようにしても良い。
【0081】
さらにまた、上記各実施形態では、判定結果を格納するカテゴリ辞書を有するものを示したが、判定結果を直ちに出力し、カテゴリ辞書を省略するようにしても良い。
【0082】
上記各実施形態においては、カテゴリが同列である場合を示したが、カテゴリに階層構造がある場合(例えば、「野球」、「サッカー」の上位階層に「スポーツ」がある場合にも、本発明を適用することができる。この場合、例えば、以下のような措置を施すようにすれば良い。あるコアワードが複数の子カテゴリ及び親カテゴリにあるときには、子カテゴリからそのコアワードを削除する。また、カテゴリの順位を決定したときに、親カテゴリの順位より上位に、異なる子カテゴリが複数(例えば所定数以上)存在する場合には、親カテゴリの順位を上げる操作を行う。例えば、順位判定値を、存在する子カテゴリの数で定まる重み付け係数倍して順位決めをやり直す。また、所定番数以内に子カテゴリ及び親カテゴリが子カテゴリが上位で共に存在する場合、又は、子カテゴリ及び親カテゴリの順位差が所定差以内の場合には、操作者に、子カテゴリを優先するか、親カテゴリを優先させるかを確認させるようにしても良い。なお、親カテゴリの順位が高い場合には、何らの調整操作を実行しないようにしても良い。
【0083】
上記各実施形態の説明でも言及したように、カテゴリの分類対象は、単語に限定されず、句などでも良い。特許請求の範囲における「単語」の用語は、このような「句等」も含むものとする。これは、コアワードや共起関係単語についても同様とする。
【0084】
また、文書データベースは、ネットワークを介して参照するようなものであっても良い。
【0085】
本発明で作成されたカテゴリ辞書をベースに、機械翻訳等の自然言語処理用のカテゴリ辞書を作成、登録することができる。
【0086】
【発明の効果】
本発明によれば、少ない工数で任意のカテゴリに分類対象単語を分類できる単語分類装置、単語分類方法及び単語分類プログラムを提供できる。
【図面の簡単な説明】
【図1】第1の実施形態の単語分類装置の機能的構成を示すブロック図である。
【図2】第1の実施形態の単語分類装置の全体動作を示すフローチャートである。
【図3】図2の文書格納処理の詳細を示すフローチャートである。
【図4】図2の単語分類処理の詳細を示すフローチャートである。
【図5】第1の実施形態のコアワード辞書の構成例を示す説明図である。
【図6】第1の実施形態のカテゴリ辞書の構成例を示す説明図である。
【図7】第1の実施形態の文書データベースの格納文書例を示す説明図である。
【図8】第1の実施形態の抽出された共起関係単語例を示す説明図である。
【図9】第1の実施形態の抽出されたコアワード例を示す説明図である。
【図10】第1の実施形態の抽出されたコアワードの並換え例を示す説明図である。
【図11】第1の実施形態のカテゴリの順位付け結果を示す説明図である。
【図12】第1の実施形態の分類対象単語の判定結果例を示す説明図である。
【図13】第2の実施形態の単語分類装置の機能的構成を示すブロック図である。
【図14】第2の実施形態の単語分類装置の全体動作を示すフローチャートである。
【図15】図14の文書格納処理の詳細を示すフローチャートである。
【図16】図14のコアワード作成処理の詳細を示すフローチャートである。
【図17】図14の単語分類処理の詳細を示すフローチャートである。
【図18】第2の実施形態のコアワード辞書の構成例を示す説明図である。
【図19】第2の実施形態のカテゴリ辞書の構成例を示す説明図である。
【図20】第2の実施形態の文書データベースの格納文書例を示す説明図である。
【図21】第2の実施形態の抽出された共起関係単語例を示す説明図である。
【図22】第2の実施形態の抽出されたコアワード例を示す説明図である。
【図23】第2の実施形態のコアワード値に対する重み付けの説明図である。
【図24】第2の実施形態の重み付け後のコアワード値を示す説明図である。
【図25】第2の実施形態のカテゴリの順位付け結果を示す説明図である。
【図26】第2の実施形態の分類対象単語の判定結果例を示す説明図である。
【符号の説明】
1…入力手段、2…文書処理手段、3…判定手段、4…出力手段、5…文書データベース、6…コアワード辞書、7…カテゴリ辞書、8…コアワード値処理手段。
Claims (8)
- 分類対象単語を複数のカテゴリのいずれかのカテゴリに分類する単語分類装置であって、
各カテゴリについて、そのカテゴリを代表する単語であるコアワードと、そのコアワードがそのカテゴリに属する度合いを示すコアワード値の組を複数格納しているコアワード辞書と、
文書を格納している文書データベースと、
上記文書データベースに格納されている文書から、上記分類対象単語を検索し、分類対象単語が検索された文書部分から、その共起関係にある共起関係単語を抽出する文書処理手段と、
抽出された各共起関係単語が、上記コアワード辞書にコアワードとして格納されているかを検索し、検索されたコアワードのコアワード値から、カテゴリの順位付け判定値を形成して、上記分類対象単語が属するカテゴリを決定する判定手段と
を有することを特徴とする単語分類装置。 - 上記文書データベースがカテゴリが指定されたカテゴリ別の文書を格納していると共に、
カテゴリ別の文書を形態素解析して得た所定の品詞種類の単語の頻度情報、及び、その単語が含まれている文書の種類数に応じて、各カテゴリのコアワード及びコアワード値を作成して上記コアワード辞書に登録するコアワード作成手段を備えることを特徴とする請求項1に記載の単語分類装置。 - 上記判定手段は、共起関係単語に基づいた上記コアワード辞書の検索で抽出されたコアワードのコアワード値を、そのコアワード作成時におけるそのカテゴリの文書での所定の品詞種類の全ての単語の出現頻度と、上記共起関係単語の全ての文書での出現頻度とで修正したものを、順位付け判定値として、カテゴリの順位付けを行うことを特徴とする請求項2に記載の単語分類装置。
- カテゴリが決定された分類対象単語を格納する、カテゴリ別のカテゴリ辞書をさらに有することを特徴とする請求項1〜3のいずれかに記載の単語分類装置。
- 分類対象単語を複数のカテゴリのいずれかのカテゴリに分類する単語分類方法であって、
各カテゴリについて、そのカテゴリを代表する単語であるコアワードと、そのコアワードがそのカテゴリに属する度合いを示すコアワード値の組を複数格納しているコアワード辞書と、文書を格納している文書データベースとを用意しておき、
上記文書データベースに格納されている文書から、上記分類対象単語を検索し、分類対象単語が検索された文書部分から、その共起関係にある共起関係単語を抽出する文書処理工程と、
抽出された各共起関係単語が、上記コアワード辞書にコアワードとして格納されているかを検索し、検索されたコアワードのコアワード値から、カテゴリの順位付け判定値を形成して、上記分類対象単語が属するカテゴリを決定する判定工程と
を有することを特徴とする単語分類方法。 - 上記文書データベースにカテゴリが指定されたカテゴリ別の文書を格納しておくと共に、
カテゴリ別の文書を形態素解析して得た所定の品詞種類の単語の頻度情報、及び、その単語が含まれている文書の種類数に応じて、各カテゴリのコアワード及びコアワード値を作成して上記コアワード辞書に登録するコアワード作成工程を有することを特徴とする請求項5に記載の単語分類方法。 - 上記判定工程は、共起関係単語に基づいた上記コアワード辞書の検索で抽出されたコアワードのコアワード値を、そのコアワード作成時におけるそのカテゴリの文書での所定の品詞種類の全ての単語の出現頻度と、上記共起関係単語の全ての文書での出現頻度とで修正したものを、順位付け判定値として、カテゴリの順位付けを行うことを特徴とする請求項6に記載の単語分類方法。
- 分類対象単語を複数のカテゴリのいずれかのカテゴリに分類する単語分類プログラムであって、
コンピュータを、
各カテゴリについて、そのカテゴリを代表する単語であるコアワードと、そのコアワードがそのカテゴリに属する度合いを示すコアワード値の組を複数格納しているコアワード辞書と、
文書を格納している文書データベースと、
上記文書データベースに格納されている文書から、上記分類対象単語を検索し、分類対象単語が検索された文書部分から、その共起関係にある共起関係単語を抽出する文書処理手段と、
抽出された各共起関係単語が、上記コアワード辞書にコアワードとして格納されているかを検索し、検索されたコアワードのコアワード値から、カテゴリの順位付け判定値を形成して、上記分類対象単語が属するカテゴリを決定する判定手段と
して機能させることを特徴とする単語分類プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003133140A JP3847273B2 (ja) | 2003-05-12 | 2003-05-12 | 単語分類装置、単語分類方法及び単語分類プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003133140A JP3847273B2 (ja) | 2003-05-12 | 2003-05-12 | 単語分類装置、単語分類方法及び単語分類プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004334766A JP2004334766A (ja) | 2004-11-25 |
JP3847273B2 true JP3847273B2 (ja) | 2006-11-22 |
Family
ID=33507778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003133140A Expired - Fee Related JP3847273B2 (ja) | 2003-05-12 | 2003-05-12 | 単語分類装置、単語分類方法及び単語分類プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3847273B2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080031262A (ko) * | 2005-06-06 | 2008-04-08 | 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 | 관계 네트워크 |
JP2008077227A (ja) * | 2006-09-19 | 2008-04-03 | Access Co Ltd | リンク生成装置、ブラウザプログラム、リンク生成システム |
JP5117744B2 (ja) * | 2007-03-13 | 2013-01-16 | 日本電信電話株式会社 | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 |
JP4966162B2 (ja) * | 2007-10-31 | 2012-07-04 | 株式会社東芝 | データ処理装置 |
US8504356B2 (en) | 2008-04-03 | 2013-08-06 | Nec Corporation | Word classification system, method, and program |
JP5347334B2 (ja) * | 2008-05-29 | 2013-11-20 | 富士通株式会社 | まとめ上げ作業支援処理方法、装置及びプログラム |
JP5295818B2 (ja) * | 2009-02-23 | 2013-09-18 | 楽天株式会社 | 文書中に含まれる語句がカテゴリ別に配属されるデータベースの作成装置、データベースの作成方法、および、データベースの作成プログラム |
US9600468B2 (en) | 2009-12-11 | 2017-03-21 | Nec Corporation | Dictionary creation device, word gathering method and recording medium |
JP5409321B2 (ja) * | 2009-12-16 | 2014-02-05 | 株式会社エヌ・ティ・ティ・データ | 情報評価装置、情報評価方法、及び情報評価プログラム |
JP5307781B2 (ja) * | 2010-09-21 | 2013-10-02 | ヤフー株式会社 | 情報処理装置、方法及びプログラム |
JP5348699B2 (ja) * | 2010-11-15 | 2013-11-20 | Necシステムテクノロジー株式会社 | データ分類システム、データ分類方法およびプログラム |
JP5611173B2 (ja) * | 2011-11-10 | 2014-10-22 | 日本電信電話株式会社 | 単語属性推定装置及び方法及びプログラム |
CN110955772B (zh) * | 2018-09-26 | 2023-06-06 | 阿里巴巴集团控股有限公司 | 文本结构化模型组件部署方法、装置、设备及存储介质 |
CN109903854B (zh) * | 2019-01-25 | 2023-04-07 | 电子科技大学 | 一种基于中医药文献的核心药物识别方法 |
-
2003
- 2003-05-12 JP JP2003133140A patent/JP3847273B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004334766A (ja) | 2004-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gambhir et al. | Recent automatic text summarization techniques: a survey | |
US7296009B1 (en) | Search system | |
US8266077B2 (en) | Method of analyzing documents | |
US9400838B2 (en) | System and method for searching for a query | |
US8594998B2 (en) | Multilingual sentence extractor | |
WO2021076606A1 (en) | Conceptual, contextual, and semantic-based research system and method | |
US20040133560A1 (en) | Methods and systems for organizing electronic documents | |
JP3847273B2 (ja) | 単語分類装置、単語分類方法及び単語分類プログラム | |
US20110093257A1 (en) | Information retrieval through indentification of prominent notions | |
JP2011118689A (ja) | 検索方法及びシステム | |
Kruger et al. | DEADLINER: Building a new niche search engine | |
Rino et al. | A comparison of automatic summarizers of texts in Brazilian Portuguese | |
KR20030006201A (ko) | 홈페이지 자동 검색을 위한 통합형 자연어 질의-응답시스템 | |
JP3985483B2 (ja) | 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体 | |
Ababneh et al. | An efficient framework of utilizing the latent semantic analysis in text extraction | |
JP4074687B2 (ja) | 要約文作成支援システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH11195041A (ja) | 文書検索装置、方法及び記録媒体 | |
Chavula | Using language similarities in retrieval for resource scarce languages: a study of several southern Bantu languages | |
McKeon et al. | Automatic Linking of Podcast Segments to Topically Related Webpages | |
Oguntunde et al. | Towards An Automatic Text Analysis and Summarization In Yoruba Language Using Transfer Learning Approach In Natural Language Processing | |
Горохова et al. | On Semi-Automatic Creation of Dataset for Multi-Document Automatic Summarization of News Articles and Forum Threads | |
KR20230066798A (ko) | 사용자 검색어 설정 의도 파악에 따른 검색 결과 제공방법 및 이를 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체 | |
JP4336403B2 (ja) | 情報検索装置及びその方法、コンピュータ可読メモリ | |
JP4336404B2 (ja) | 情報検索装置及びその方法、コンピュータ可読メモリ | |
JP3998664B2 (ja) | 対訳語句分類システム、対訳語句分類方法及び対訳語句分類プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060502 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060703 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060822 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060822 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090901 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100901 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |