JP4737435B2 - ラベル付与システム、ラベリングサービスシステム、ラベル付与方法およびラベル付与プログラム - Google Patents

ラベル付与システム、ラベリングサービスシステム、ラベル付与方法およびラベル付与プログラム Download PDF

Info

Publication number
JP4737435B2
JP4737435B2 JP2006265877A JP2006265877A JP4737435B2 JP 4737435 B2 JP4737435 B2 JP 4737435B2 JP 2006265877 A JP2006265877 A JP 2006265877A JP 2006265877 A JP2006265877 A JP 2006265877A JP 4737435 B2 JP4737435 B2 JP 4737435B2
Authority
JP
Japan
Prior art keywords
label
cluster
words
word
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006265877A
Other languages
English (en)
Other versions
JP2008084203A (ja
Inventor
正明 土田
弘紀 水口
大 久寿居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006265877A priority Critical patent/JP4737435B2/ja
Publication of JP2008084203A publication Critical patent/JP2008084203A/ja
Application granted granted Critical
Publication of JP4737435B2 publication Critical patent/JP4737435B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明はテキスト情報群へのラベル付与システム、ラベル付与方法およびラベル付与プログラムに関し、特にテキスト情報群を良く表し、それぞれを識別できる語をテキスト情報群のラベルとして付与するラベル付与システム、ラベル付与方法、ラベル付与プログラムおよびラベル付与システムを適用したラベリングサービスシステムに関する。
近年、文書の電子化が進み、テキスト情報が増え続けている。それらテキスト情報(文書データや単語リストなど)を管理することや、分析することで情報の傾向や有用な知識を得ることは重要である。テキスト情報の管理や分析には、内容に基づいてテキストをグループ化しておくと便利である。例えば、図書館では内容に基づいて本を管理していることで、ユーザにとっては本を探しやすく、管理者にとっては返却された本を元の場所に戻すことが用意になる。また、分析的視点で見れば、それぞれのグループ内の情報の量から、どのような話題がどれくらい含まれているかがわかる。しかしながら、事前に内容がわかっていないテキスト情報では、グループ化の軸を決めることはできない。
一方、内容の類似性に基づいて、軸を決める必要なくグループ化を行うクラスタリングと呼ばれる技術がある。しかしながら、クラスタリングは、同じグループになった理由を人が解釈しなければならないという問題がある。そこで、クラスタリングなどによりグループ化されたテキスト情報に、それぞれのグループを表す語をラベルとして付与することが求められる。
従来、この種のラベル付与システムに特許文献1がある。特許文献1は、文書群(以下、クラスタと呼ぶ)に対して、クラスタにラベルと複数のキーワードを付与する技術が示されている。ここで、ラベルはクラスタを現す共通的な概念であり、キーワードは内容を表す具体的な語句とする。この従来のラベル付与システムは、語句抽出部と、語句重要度スコア計算部と、包含関係解析部と、ラベル抽出スコア計算部と、キーワード抽出スコア計算部と、ラベル選択部と、キーワード選択部と、表示出力部から構成されている。
このような構成を有する従来のラベル付与システムは次のように動作する。まず、語句抽出部によりクラスタから重要語句を抽出する。次に、語句重要度スコア計算部により抽出された重要語句の重要度を計算する。次に、包含関係解析部により抽出された重要語句の包含関係を解析する。語の包含関係とは、単語や文字列の包含や意味上の包含をさす。例えば「兵器」と「大量破壊兵器」では、「大量破壊兵器」の文字列が「兵器」の文字列を包含している。
次に、ラベル抽出スコア計算部により、語句重要度と語句の包含関係を用いて各重要語句のラベル抽出スコアを計算する。ラベル抽出スコアは、包含された語の重要度に包含した語の重要度を加えることで計算する。つまり、「兵器」のような、より上位の概念ほど下位の概念に比べてスコアが高くなる。そして、ラベル選択部により最もラベル抽出スコアの高い重要語句をクラスタのラベルとして選択する。
続いて、キーワード抽出スコア計算部により、重要度と包含関係を用いて、各重要語句のキーワード抽出スコアを計算する。キーワード抽出スコアは、対象単語と対象単語が包含する語を取得し、全ての語の中で最も高い重要度を対象単語のスコアとする。そして、キーワード選択部により、キーワード抽出スコアの上位のいくつかをクラスタのキーワードとして選択する。意味上の包含関係を用いる場合は、単語や文字列の包含関係と逆に考えて同様の方法で計算できる。最後に選択されたキーワードとラベルをクラスタとともに出力する。
特開2005-63298号公報(図1)
第1の問題点は、複数のクラスタがあった場合に、それらクラスタ間を識別するような語句をラベルにできないことである。その理由は、ラベルは複数のクラスタを識別する役割を持つべきであるとの考慮がされていないためである。複数のクラスタに共通の上位概念が存在する場合、それらのクラスタには同じラベルがついてしまい、ラベルに基づいた情報の管理や分析には効果が不十分である。例えば、「野球」に関するクラスタと「サッカー」に関するクラスタのラベルは、両方とも「スポーツ」というラベルが選択されてしまう。
第2の問題点は、クラスタを表す適切な語句をラベルにできるとは限らないことである。その理由は、より上位の概念ほどラベル抽出スコアが高くなるように計算しているだけで、適切な語句を選ぶという考慮がされていないためである。一般に、より上位概念の語句がクラスタを適切に表すとは言えない。例えば、「化学兵器」に関するクラスタで「兵器」がラベルとなっている場合、「兵器」は不必要に広い概念を表してしまっているため適切ではない。
そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、各クラスタを識別できる語句をラベルとして付与するラベル付与システム、その方法及びプログラムと、そのようなラベル付与システムを適用したラベリングサービスシステムとを提供することである。
また、他の本発明の目的は、クラスタを表す適切な語句をラベルとして付与するラベル付与システム、その方法及びプログラムと、そのようなラベル付与システムを適用したラベリングサービスシステムとを提供することである。
上記課題を解決する本発明は、クラスタを表す語を、前記クラスタのラベルとして1語以上付与するラベル付与システムであって、同義でない対等な関係にある語が、並立関係にある語として格納された並立関係記憶手段と、前記並立関係記憶手段に記憶されたデータと複数のクラスタのデータとに基づいて、各クラスタ内の語について、当該クラスタのラベル候補としてのスコアを示すラベルスコアを計算するラベルスコア計算手段と、前記ラベルスコアに基づいて、各クラスタのラベルとなる語を1語以上選択して付与するラベル選択手段とを備え、前記ラベルスコア計算手段は、前記並立関係記憶手段に格納されている並立関係の語がお互いに違うクラスタに出現した場合にそれらの語のラベルスコアを加算する手段を備えることを特徴とする。
上記課題を解決する本発明は、ラベリングサービスシステムであって、上記ラベル付与システムと、前記ラベル付与システムで参照される、同義でない対等な関係の語である並立関係の語とシソーラスのデータとを記憶するシステムデータベースと、サービス利用者の端末から受信した入力データを前記ラベル付与システムに入力し、当該入力に対して前記ラベル付与システムが出力したラベル付与結果を受信して前記サービス利用者の端末に送信し、当該ラベル付与処理に伴い授受されるサービス利用金額をサービス利用者毎に記録して管理するラベリングサービスシステムとを備え、前記ラベリングサービスシステムは、サービス利用者によって入力された並立関係にある語とシソーラスのデータとを前記システムデータベースに蓄積することを特徴とする。
上記課題を解決する本発明は、クラスタを表す語を、前記クラスタのラベルとして1語以上付与するラベル付与方法であって、データ処理装置が、同義でない対等な関係の語である並立関係ののデータと、複数のクラスタのデータとに基づいて、各クラスタ内の語について、当該クラスタのラベル候補としてのスコアを示すラベルスコアを計算するラベルスコア計算処理と、データ処理装置が、前記ラベルスコアに基づいて、各クラスタのラベルとなる語を1語以上選択して付与するラベルスコア選択処理とを備え、前記ラベルスコア計算処理は、前記並立関係にある語が、お互い違うクラスタに出現した場合にそれらの語のラベルスコアを加算することを特徴とする。
上記課題を解決する本発明は、クラスタを表す語を、前記クラスタのラベルとして1語以上付与するラベル付与プログラムあって、同義でない対等な関係の語である並立関係の語のデータと、複数のクラスタのデータとに基づいて、各クラスタ内の語について、当該クラスタのラベル候補としてのスコアを示すラベルスコアを計算するラベルスコア計算処理と、前記ラベルスコアに基づいて、各クラスタのラベルとなる語を1語以上選択して付与するラベルスコア選択処理とを情報処理装置に実行させ、前記ラベルスコア計算処理は、前記並立関係にある語が、お互いに違うクラスタに出現した場合にそれらの語のラベルスコアを加算することを特徴とする。
本発明は、異なるクラスタに同義でない対等な関係の語句(以下、並立関係と呼ぶ)が存在する場合に、並立関係の語句の双方のクラスタ内でのラベル候補としてのスコア(以下、ラベルスコアと呼ぶ)が加点されるよう計算するクラスタ間並立語ラベルスコア計算手段(図1の411)と、異なるクラスタに同じ語句が存在する場合に、その語句のラベルスコアが減点されるよう計算するクラスタ間同一語ラベルスコア計算手段(図1の412)と、ラベルスコアの高い語句をラベルとして選ぶラベル選択手段(図1の42)を有している。並立関係の例としては、「野球」と「サッカー」などがある。このような並立関係の語句が違うクラスタでお互いにラベルとなると、それぞれのクラスタをよく識別できるといえる。また、複数のクラスタで同じ語句がラベルとなるとクラスタを識別できない。
このような構成を採用することで、クラスタ間を良く識別できる並立関係の語句はラベルスコアが高くなる。また、クラスタを識別できない複数クラスタに存在する語句はラベルスコアが低くなる。そのため、クラスタ間を識別できる語句のラベルスコアが高くなり、ラベル選択手段によりラベルスコアが高い語句がラベルに選ばれるため、クラスタ間を識別できる語句をラベルとして付与でき、本発明の目的を達成することができる。
また、本発明では、1つのクラスタ内に並立関係の語句が存在する場合に、それら語句のラベルスコアが減点されるように計算するクラスタ内並立語ラベルスコア計算手段(図1の413)を有している。同一クラスタ内の並立関係の語句は、片方の語句がもう一方の語句を表すことができず、双方ともラベルにふさわしくない。
このような構成を採用することで、同一クラスタ内の並立関係の語句はラベルスコアが低くなり、ラベルに選ばれにくくなることから、よりクラスタを適切に表す語句をラベルとして付与でき、本発明の第2の目的を達成することができる。
第1の効果は、クラスタ間を識別できる語句をクラスタのラベルとして付与できることにある。並立関係は同義でない対等な関係の語句なので、双方がクラスタのラベルとなっていると識別しやすい。そのため、並立関係の語句が違うクラスタに存在する時に、それぞれのクラスタ内でのラベルスコアを加点し、ラベルとして選ばれやすくする。一方、同じ語句が違うクラスタに存在するときには、その語句がラベルとなるとクラスタ間を識別できないためラベルスコアを減点し、クラスタ間を識別できない語句のスコアが低くする。これらの処理により、クラスタ間を識別する語句のラベルスコアが高くなり、ラベル選択手段に選ばれやすくなるため、クラスタを識別できる語句をラベルとして付与できる。
第2の効果は、クラスタを適切に表す語句をラベルとして付与できることにある。並立関係の語句は、片方がもう一方の語句を表すことができない。そのため、同一クラスタ内に並立関係の語句がある場合には、双方ともレベルとしてふさわしくない。よって、同一クラスタ内にある並立関係の語句のラベルスコアを減点する。この処理により、クラスタを良く表せない語句のラベルスコアが低くなり、ラベル選択手段に選ばれにくくなるため、クラスタを適切に表す語句をラベルとして付与できる。
<第1の実施の形態>
本発明を実施するため第1の実施の形態について、図面を参照して詳細に説明する。
以下では、「並立関係の語」のことを「並立語」と省略する場合がある。尚、並立関係の語とは同義でないが対等な関係にある語句であり、例えば、「野球」、「サッカー」、「テニス」、「バレーボール」、「ラグビー」は、スポーツの種目を表現する語として並立関係にある語句である。また、「日本」、「アメリカ」、「イギリス」、「ドイツ」、「フランス」は、国名を表現する語として並立関係にある語句である。また、「飛行機」、「電車」、「自動車」、「船」は、乗り物の種別を表現する語として並立関係にある語句である。
また、以下の説明において、「語句」と「語」は同じものとする。
更に、以下の説明において、クラスタはテキスト群の意味で用い、テキスト群とは文書群が何らかの基準で集まった語句群をいう。
図1は、本発明を実施するための第1の実施の形態の構成を示すブロック図である。図1を参照すると、本発明の第一の実施の形態は、並立関係の語を入力する並立関係入力手段1と、クラスタを入力するクラスタ入力手段2と、並立関係の語やクラスタやラベルスコアの計算結果を記憶する記憶装置3と、プログラム制御により動作するデータ処理装置4と、クラスタのラベルを表示するラベル表示手段5を有する。
これらの手段のそれぞれについて以下に説明する。
ラベル表示手段5は、クラスタへのラベル付与結果を確認する際、ラベル選択手段42により選択された語句を各クラスタのラベルとして表示する。
並立関係入力手段1は、ラベルスコアを計算するために、並立関係の語をデータとして入力するためのものであり、入力された並立関係の語を並立関係記憶部31に記憶させる。並立関係は、並立関係にある語が同じidを持つように入力し、各idにより管理される並立関係に重要度をつける。重要度は0から1の間で設定する。このように記憶することで、並立関係の語の取得は、語のidを調べ、同じidを持つ語を取り出すことで実現できる。並立関係の重要度は全て同じ値でもよい。
クラスタ入力手段2は、ラベルを付与したいクラスタのラベルの候補となる語句を入力することを目的とし、入力された各クラスタの語句をクラスタ記憶部32に記憶させる。入力の形式は、ラベルを付与したいテキスト内のラベル候補の語句リストである。テキスト内の全語句をリストとしてもよい。前記リスト内の各語句には、ラベルスコアの初期値を与える。ラベルスコア初期値は正の値とする。ラベルスコア初期値は、全て同じ値でも、入力者のデータに対する前提知識にラベルらしい語に高い値を与えるように設定しても、何らかの手段でクラスタ内での語句のラベルらしさを計算した結果でもよい。ラベルスコア初期値は、各クラスタで最大値と最小値が一致するような正規化を行っておくとよい。例えば、全ての初期値を0から1に平滑化しておくことなどが考えられる。
記憶装置3は、並立関係記憶部31と、クラスタ記憶部32と、語句ラベルスコア記憶部33を備える。並立関係記憶部31には、並立関係入力手段1により入力された並立関係の語が記憶される。クラスタ記憶部32には、クラスタ入力手段2から入力されたクラスタが記憶される。語句ラベルスコア記憶部33には、ラベルスコア計算手段41により計算された各クラスタ内の語句のラベルスコアが記憶される。
データ処理装置4は、ラベルスコア計算手段41と、ラベル選択手段42を備える。
ラベルスコア計算手段41は、並立関係記憶部31とクラスタ記憶部32からデータそれぞれ読み出し、前記読み出した並立関係の語とクラスタから、クラスタ内の語句のラベルスコアを計算し、結果を語句ラベルスコア記憶部33に格納する。ラベルスコア計算手段41は、クラスタ内並立語ラベルスコア計算手段411と、クラスタ間同一語ラベルスコア計算手段412と、クラスタ間並立語ラベルスコア計算手段413とを備える。計算によりラベルスコアがマイナスになっても“0”とする。これらは単独で用いても組み合わせで用いてもよい。
クラスタ内並立語ラベルスコア計算手段411は、並立関係の語とクラスタを参照し、1つのクラスタ内で並立関係の語が存在するかどうか調べ、存在する場合にはそれら語句のラベルスコアを、相手のラベルルコアと並立関係の重要度に応じて減点するように計算する。このように計算することで、並立語が同じクラスタに存在する場合に、お互いのラベルスコアが低くなり、ラベルとして選ばれにくくなる。並立語のラベルスコアが一方だけ高い場合は、減点の影響が少ない。つまり、両方の並立語のラベルスコアが同程度の場合に、どちらもラベルとして選ばれないように計算している。
クラスタ間同一語ラベルスコア計算手段412は、クラスタ間で同じ語句が存在するかどうかを調べ、存在する場合にはそれら語句のラベルスコアを、その時点のラベルルコアに応じて減点するように計算する。このように計算することで、複数のクラスタに存在する語のラベルスコアが少なくなるため、複数のクラスタで同じラベルが付与されなくなる。計算前の語のラベルスコアが一方だけ高い場合は、ラベルスコアが低い方で選ばれにくくなる。一方、高い方では減点の影響が少ないため、ラベルとして選ばれにくくなることはない。つまり、複数のクラスタでラベルスコアが同程度の語は、ラベルとして選ばれないように計算している。
クラスタ間並立語ラベルスコア計算手段413は、クラスタ間で並立関係の語が存在するかどうかを調べ、存在する場合にはそれら語句のラベルスコアを、相手のラベルスコアと、並立関係の重要度に応じて加点するように計算する。このように計算することで、あるクラスタのある語が、他のクラスタ内に並立関係にある語を多くもち、それらそれぞれがそのクラスタでラベルスコアが高い語ほどラベルとして付与されやすくなる。並立関係の語は、同義でない対等な語であるので、概念の識別には適当な語である。例えば、「野球」と「サッカー」は対等な立場の語なため、概念の識別に適切であるが、「野球」と「スポーツ」のようにどちらかの抽象レベルが高い場合は適切でない。クラスタ間並立語ラベルスコア計算手段413は、あるクラスタ内の語が、他のクラスタ内に対等な語を多く持つほど、ラベルとして選ばれるように計算している。
このように、ラベルスコア計算手段41に含まれる3つの計算手段は、クラスタ内での各語のラベルスコアに応じて減点や加点をするため、各クラスタの語句のラベルスコア初期値が的確に設定されていると効果が増す。また、ラベルスコア計算手段41は、並立関係記憶部31の並立関係に基づき計算するので、並立関係が記憶されていない語では処理が行われず、入力されたクラスタの各語句の並立関係が多く記憶されているほど効果が増す。
ラベル選択手段42は、語句ラベルスコア記憶部33からデータを読み出し、各クラスタでラベルスコアの高い語句をラベルとして選択する。ラベルとして選択された語句はラベル表示手段5により表示され、各クラスタに付与されたラベルを確認することができる。
次に、図1の機能ブロック図及び図2のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。
まず、並立関係の語を並立関係入力手段1により並立関係記憶部31に、ラベルを付与したいクラスタをクラスタ入力手段2により図2のクラスタ記憶部32に記憶させる(図2のS1)。
図3は、並立関係記憶部31に記憶されるデータの例である。図3のデータには4つの並立関係が含まれる。この例では、並立関係毎にidの値を定めている。すなわち「野球」及び「サッカー」はidとして1の値を持つから、互いに並立関係にある。「ドイツ」、「日本」及び「アメリカ」はidとして2の値を持つから並立関係にある。「セリエA」及び「メジャーリーク」、「WBC」及びワールドカップ」についてもそれぞれidが3、4の値であるから、それぞれが並立関係にある。そして、idと重要度とが関連付けて記憶されている。ここでは、「野球」と「サッカー」や「日本」と「アメリカ」と「ドイツ」のように、対等でありよく比較される語の重要度を高く設定している。尚、この例では、これらを2つのテーブルに分けて記憶させているが、必ずしもこのように分けて記憶させることを要しない。
図4は、クラスタ記憶部32に記憶されるデータの例である。図4の(a)では、2つのクラスタが入力され、ラベルスコアの初期値は全て“1”としている。ラベルスコアの初期値を経験的知識や分析データの予備知識がある場合には、クラスタ内の語句のラベルスコア初期値を設定しておけばよい。例えば図4の(b)のように、各語句の初期値を設定されていてもよい。以下では特に断りにない限り図4の(a)をクラスタ記憶部32に入力したものとして説明していく。
次に、ラベルスコア計算手段41は、クラスタ記憶部32を参照し、クラスタに含まれる全ての語句を取り出し、計算対象の語のリストを作る(図2のS2)。図4のクラスタから生成された計算対象の語のリストを図5に示す。計算対象の語のリストは、図5のように全クラスタ内の語句を重複のないように整理し、計算済みであるかどうかをチェックするためのパラメータ(図4の“計算済み?”)を用意する。計算済みである語の“計算済み?”が“0”であれば未計算、“1”であれば計算済みであるとする。
次に、ラベルスコア計算手段41は、計算対象語リストから、未計算の語を1つ取得する(図2のS3)。以下では、図5のリストから「サッカー」を取得したものとして説明していく。
続いて、ラベルスコア計算手段41は、並立関係記憶部31を参照し、計算対象語の並立語を取得する(図2のS4)。図3の並立関係記憶部31のデータを参照することで、「サッカー」と同じidを持つ「野球」が取得される。
ラベルスコア計算手段41は、計算対象語と並立語のラベルスコアを計算し、その計算結果を語句ラベルスコア記憶部33に記憶させる。ラベルスコアの計算は、クラスタ内並立語ラベルスコア計算手段411と、クラスタ間同一語ラベルスコア計算手段412と、クラスタ間並立語ラベルスコア計算手段413により行われる。ここで、前記3つの計算手段は、単独でも組み合わせで利用してもよい。組み合わせて利用する場合、クラスタ内並立語ラベルスコア計算手段411は、クラスタ間同一語ラベルスコア計算手段412とクラスタ間並立語ラベルスコア計算手段413の前に行われるのがよい。それは、クラスタ間同一語ラベルスコア計算手段412とクラスタ間並立語ラベルスコア計算手段413は、各クラスタの語句のラベルスコアが適切についている状態のほうが効果を増すためである。クラスタ内並立語ラベルスコア計算手段411は、クラスタを表すことができない不適切な語句のラベルスコアが低くなるように計算する。(図2のS5)。
以下から、ラベルスコア計算手段41に含まれる計算手段をクラスタ内並立語ラベルスコア計算手段411、クラスタ間同一語ラベルスコア計算手段412、クラスタ間並立語ラベルスコア計算手段413の順に組み合わせて処理をした例を説明する。各計算手段は、そのとき計算対象となっている語とその並立語の計算が全ておわるまで、それらのラベルスコアは更新しない。これは、1つの計算手段の中で、語の計算順により計算結果が変わらないようにするためである。クラスタ内並立語ラベルスコア計算手段411は「サッカー」と「野球」が同じクラスタに存在しているかどうか調べる。本例では、存在していないため計算処理はない。次に、クラスタ間同一語ラベルスコア計算手段412は、複数のクラスタに「サッカー」や「野球」が存在していないかどうか調べる。本例では、存在していないため、計算処理はない。クラスタ間並立語ラベルスコア計算手段413は、別クラスタに「サッカー」と「野球」が存在しているかどうかを調べる。クラスタ間並立語ラベルスコア計算手段413は、クラスタ1に「サッカー」、クラスタ2に「野球」が存在しているので、お互いのラベルスコアである“1”と並立関係の重要度である“2”をかけたものをお互いに加算し、クラスタ1における「サッカー」のラベルスコアを“3”、クラスタ2における「野球」のラベルスコアを“3”と計算する。全ての計算処理が終了したら、ラベルスコア計算手段42は、計算対象語リスト内にある計算対象語とその並立語の“計算済み?”を“1”に更新する。そして、計算対象語と並立語のラベルスコアの計算結果を、語句ラベルスコア記憶部33に記憶させる。
S5の説明の補足のため、S1でクラスタ記憶部32にクラスタの初期値を設定したデータ(図4の(b))を記憶し、S3で計算対象語として「日本」を取得し、S4で「日本」の並立語として「アメリカ」と「ドイツ」を取得された場合について説明する。クラスタ1に「日本」と「ドイツ」があるので、クラスタ内並立語ラベルスコア計算手段411により、「日本」のクラスタ1のラベルスコアは“2(クラスタ1の「日本」のラベルスコア)−1(並立関係の重要度)×5(クラスタ1の「ドイツ」のラベルスコア)=−3”となり、計算結果がマイナスとなったため“0”に更新される。同様にクラスタ1の「ドイツ」も“5−1×2(日本のラベルスコア)=3”となる。クラスタ2に関しても、同様の計算法で「日本」のラベルスコアは“0”、「アメリカ」のラベルスコアは“3”となる。次に、「日本」がクラスタ1とクラスタ2にあるので、クラスタ間同一語ラベルスコア計算手段412は、クラスタ1の「日本」のラベルスコアを“0(クラスタ1の「日本」のラベルスコア)―0(クラスタ2の「日本」のラベルスコア)=0”とし、クラスタ2の「日本」のラベルスコアも同様に“0”となる。最後に、クラスタ1の「日本」についてクラスタ2の「アメリカ」、クラスタ1の「ドイツ」についてクラスタ2の「日本」と「アメリカ」、クラスタ2の「日本」についてクラスタ1の「ドイツ」が出現しているので、クラスタ間並立語ラベルスコア計算手段413によりそれぞれの出現関係で計算される。例として、クラスタ1の「ドイツ」のラベルスコアの計算を説明する。クラスタ1の「ドイツ」はクラスタ2に「日本」と「アメリカ」の2つの並立語を有しているので、前段階までに更新されたラベルスコアの値を用いて、“3(クラスタ1の「ドイツ」のラベルスコア)+1(並立関係の重要度)×(0(クラスタ2の「日本」のラベルスコア)+3(クラスタ2の「アメリカ」のラベルスコア)=6”と計算される。
次に、ラベルスコア計算手段41は、計算対象語リストの全語句についてラベルスコアを計算したかをチェックする。まだ計算していない語があれば、S3にもどる(図2のS6)。計算対象語リストの全語句の“計算済み?”が“1”となったら図2のS8へ進む。図6は、図3と図4の(a)を入力に計算が終了した後の語句ラベルスコア計算部33に記憶されているデータの例である。
続いて、ラベル選択手段42は、語句ラベルスコア記憶部33を参照し、ラベルスコアの高い数語をラベルとして選択する(図2のS7)。ラベルとして選択する語数はパラメータで設定できる。
最後に、ラベル選択手段42で選択された結果は、ラベル表示手段5により表示される。表示方法としては、様々な方法が考えられる。例えば、各クラスタでラベルスコアの高い順番にいくつかの語と、そのクラスタで選択されたラベルの組を表示する(図2のS8)。図7は、ラベル選択手段42により1つ語句をラベルとして選択し、ラベル表示手段5による出力例である。このように、システムの使用者は、図7の出力をみることで各クラスタのラベル付与結果を確認することができる。
本実施の形態の効果について説明する。
本実施の形態では、クラスタ内並立語ラベルスコア計算手段411により、1つのクラスタ内に並立語がある場合に、片方の語がもう片方の語を表せないために双方のラベルスコアが減点される。前述した処理の後のラベル選択手段42は、ラベルスコアの高い語をラベルとして選ぶように構成されているため、クラスタをうまくあらわせない語はラベルに選ばれにくくなる。
また、本実施の形態では、さらに、クラスタ間同一語ラベルスコア計算手段412により、クラスタ間に同じ語が現れた場合に、同じ語が複数のラベルについてもラベルにより識別することができないため、双方のラベルスコアが減点される。前述した処理の後のラベル選択手段42は、ラベルスコアの高い語をラベルとして選ぶように構成されているため、クラスタを識別できない語がラベルに選ばれにくくなる。
また、本実施の形態では、ららに、クラスタ間並立語ラベルスコア計算手段413により、クラスタ間に並立語が現れた場合に、並立語がラベルとなったときにお互いを識別しやすいため、双方のラベルスコアが加点される。前述した処理の後のラベル選択手段42は、ラベルスコアの高い語をラベルとして選ぶように構成されているため、クラスタを識別しやすい語がラベルに選ばれやすくなる。
<第2の実施の形態>
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。
図8を参照すると、本発明の第2の発明を実施するための最良の形態は、記憶装置7が、図1に示された第1の実施の形態における記憶装置3の構成に加え類語辞書記憶部71を有し、データ処理装置8が図1のデータ処理装置4に加え、並立関係抽出手段81を有し、図1に加え類義辞書入力手段6を有する点で異なる。
類語辞書入力手段6は、類語辞書のデータを類語辞書記憶部71に記憶させる。類語辞書は、同義と類義とが区別できる必要がある。
並立関係抽出手段81は、類語辞書記憶部71からデータを読み出し、同義でない類語関係を並立関係として抽出し、抽出された並立関係を並立関係記憶部31に記憶させる。
本発明を実施するための第2の実施の形態の動作を、図8の機能ブロック図及び図9のフローチャートを参照して説明する。
まず、並立関係の語を並立関係入力手段1により並立関係記憶部31に、ラベルを付与したいクラスタをクラスタ入力手段2によりクラスタ記憶部32に、類語辞書のデータを類語辞書入力手段6により類語辞書記憶部71に記憶させる(図9のS1)。図10は類義辞書記憶部71に記憶される類語辞書のデータの例である。図10では、例えば、見出し語「サッカー」に関して、同義語に「フットボール」、類語に、「野球」、「バレーボール」、「バスケットボール」などが登録されている。他の入力は、第1の実施の形態の動作例で説明したものと同様とする。
次に、並立関係抽出手段81は、類語辞書記憶部71を参照し、類語関係を並立関係として抽出し、並立関係記憶部31に記憶させる(図9のS2)。図11は、図10の類語辞書のデータから抽出され、並立関係記憶部31に記憶されたデータの例である。例えば、図10の見出し語「サッカー」の並立関係として、類語である「野球」、「バレーボール」、「バスケットボール」が抽出される。前記抽出された関係が図11のように同じidで登録される。図11の並立関係は辞書から自動抽出したものなので、全て一様な重要度を設定している。
図9のフローチャートのS3からS9は、第1の実施の形態の動作である図2のフローチャートのS2からS8と同じなので説明を省略する。
本発明を実施するための第2の実施の形態の効果について説明する。
本発明を実施するための最良の形態では、第1の実施の形態に加え、並立関係抽出手段81により、類語辞書より類語関係を並立関係として抽出し、並立関係記憶部31に記憶させるよう構成されているため、コスト無しに大量の並立関係を入力できる。これにより、ラベルスコア計算手段41の効果が高まる。よって、人的コストなしに、第1の実施の形態の効果がより発揮されるようになる。
<第3の実施の形態>
次に、本発明の第3の実施の形態するための最良の形態について図面を参照して詳細に説明する。
図12を参照すると、第3の実施の形態を実施するための最良の形態は、記憶装置10が、図1に示された第1の実施の形態における記憶装置3の構成に加えコーパス記憶部101を有し、データ処理装置11が図1のデータ処理装置4に加え、言語解析手段111と並立関係収集手段112を有し、図1に加えコーパス入力手段9を有する点で異なる。
コーパス入力手段9は、文書データをコーパス記憶部101に記憶させる。入力する文書データは、入力クラスタに関連した内容の文書が望ましい。本発明のシステムへ入力するクラスタは語句のリストであるが、元が文書である場合は、そのクラスタをそのまま入力してもよい。また、クラスタ内の語句を用いてウェブなどで検索し、文書を取得してもよい。
言語解析手段111は、コーパス記憶部101からデータを読み出し、データを言語解析して、並立関係収集手段112に結果を渡す。
並立関係収集手段112は、言語解析手段111の結果から、「名詞1や名詞2」や「名詞1と名詞2」のように、並立助詞をはさんでいる名詞を並立語として収集し並立関係記憶部31に記憶させる。また、並立助詞に限らず、「名詞1であったり、名詞2であったり」のような並立関係の抽出パターンを用意し並立関係を収集してもよい。収集した並立関係の重要度は、コーパスから抽出された頻度などを手がかりに、自動的に設定してもよい。
本発明を実施するための第3の実施の形態の動作を、図12の機能ブロック図及び図13のフローチャートを参照して説明する。
まず、並立関係の語を並立関係入力手段1により並立関係記憶部31に、ラベルを付与したいクラスタをクラスタ入力手段2によりクラスタ記憶部32に、コーパスのデータをコーパス入力手段9によりコーパス記憶部101に記憶させる(図13のS1)。図14は、コーパス記憶部101に記憶されたデータの例である。
次に、言語解析手段111は、コーパス記憶部101からデータを読み出し、コーパスを言語解析し、並立関係収集手段112に渡す(図13のS2)。
続いて、並立関係収集手段112は、言語解析手段111の結果から、あらかじめ指定した「や」や「と」といった、並立助詞をはさむ単名詞もしくは複合名詞を並立語として収集し、収集した並立語を並立関係記憶部31に記憶させる。(図13のS3)。図14のコーパスを言語解析し、並立関係を収集し、図15の並立関係を並立関係記憶部31に記憶させる。例えば、あらかじめ指定した並立助詞を「や」と「と」とする。図14のコーパスで、前記並立助詞をはさむ名詞の関係は、「WBCとワールドカップ」、「日本やアメリカ」、「メジャーリーグとセリエA」、「サッカーと野球」、「サッカーや野球」、などがあり、それらが収集される。並立関係の重要度は、全て同じ値でもよいし、抽出された各並立関係の頻度に基づき計算してもよい。例えば、頻度に基づく重要度の例として、最も抽出頻度が高かった並立関係の値でわることが考えられる。図15は、前記処理により抽出された並立関係とその重要度が登録されたデータ例である。
図13のフローチャートのS4からS10は、第1の実施の形態の動作である図2のフローチャートのS2からS8と同じなので説明を省略する。
本発明を実施するための第3の実施の形態の効果について説明する。
本発明を実施するための最良の形態では、第1の実施の形態に加え、コーパス記憶部101のデータを言語解析手段111により言語解析し、言語解析結果から並立関係収集手段112により並立関係を収集し、並立関係記憶部31に記憶されるように構成されているため、並立語を大量に自動入力できる。コーパスは人が記述した文書なので、辞書に記載されていない造語や新語のような並立関係に関しても収集できる。これにより、ラベルスコア計算手段41の効果が高まる。よって、人的コストなしに、第1の実施の形態の効果が高まる。
<第4の実施の形態>
次に、本発明の第4の実施の形態について図面を参照して詳細に説明する。
図16を参照すると、本発明の第4の実施の形態は、記憶装置13が、図1に示された第1の実施の形態における記憶装置3の構成に加えテキスト群記憶部131を有し、データ処理装置14が図1のデータ処理装置4に加え、ラベルスコア初期値計算手段141を有し、図1に加えテキスト群入力手段12を有する点で異なる。
テキスト群入力手段12は、各クラスタに関連する文書などのテキスト群をテキスト群記憶部131に記憶させる。文書群へラベルを付与する場合には、テキスト群として文書群をいれ、クラスタとして各文書群の中のラベル候補の語句リストを入力すればよい。また、入力した語句リストに共通的な概念をラベルとして付与する場合には、各クラスタの語句リストが全体的に含まれるような文書をクラスタに対応するテキスト群とすればよい。
ラベルスコア初期値計算手段141は、クラスタ記憶部32とテキスト群記憶部131からデータを読み出し、各クラスタとそれに対応するテキスト群から、各クラスタの語句のラベルスコア初期値を計算し、クラスタ記憶部32のラベルスコア初期値を更新させる。ラベルスコアの初期値の計算方法は、いくつか考えられ、目的に応じて変えればよい。各クラスタを特徴的にあらわす語をラベルとしたいならば、クラスタで語句がテキスト群間で特徴的に現れているほど高いスコアになるような計算すればよい。また、各クラスタ内の語句で共通的な概念の語をラベルとしたいならば、クラスタ内の全語句の文脈の情報を対応するテキスト群から集め、全語句の文脈の情報から擬似的に中心点の文脈情報を求め、中心の文脈情報に近い情報をもつ語ほど高いスコアになるように計算すればよい。
本発明を実施するための第4の実施の形態の動作を、図16の機能ブロック図及び図17のフローチャートを参照して説明する。
まず、並立関係の語を並立関係入力手段1により並立関係記憶部31に、ラベルを付与したいクラスタをクラスタ入力手段2によりクラスタ記憶部32に、テキスト群をテキスト群書入力手段12によりテキスト群記憶部131に記憶させる(図17のS1)。図18はテキスト群記憶部131に記憶されたデータ例である。本例ではこれらのテキスト群にラベルを付与することを目的にする。図18のテキスト群1は、「ドイツで行われたワールドカップ」、テキスト群2は「アメリカで行われたWBC」に関する文書群である。並立関係記憶部31へ記憶されたデータは図3、クラスタ記憶部32へ記憶されたデータは図4の(a)とする。
次に、ラベルスコア初期値計算手段141は、クラスタ記憶部32とテキスト群記憶部131からデータを読み出し、各クラスタの全語句に対してラベルスコアの初期値を計算し、クラスタ記憶部32のラベルスコア初期値を更新する。(図17のS2)。ラベルスコアの初期値の計算方法には、従来から利用されているTFIDF法などを使うことができるがこれに限定する必要はない。テキスト群記憶部131のデータを用いて、クラウタ記憶部32の図4の(a)の各ラベルスコアの初期値を計算すると、図4の(b)のように、ラベルスコア初期値が計算される。
図17のフローチャートのS3からS9は、第1の実施の形態の動作である図2のフローチャートのS2からS8と同じなので説明を省略する。
S3からS8までの処理が終わった後の各語句のラベルスコアは図19となる。一方、ラベルスコアの初期値を一様にした図4の(a)からの計算結果は図6となる。図19と図6を比較すると、図19ではクラスタ1で「ワールドカップ」、「ドイツ」、クラスタ2で「WBC」、「アメリカ」が高くなっていることがわかる。このように、テキスト群の情報を反映したラベルスコア初期値を自動計算することで、テキスト群を表し、テキスト群間を識別できる語のラベルスコアがより高くなり、テキスト群を表すラベルを付与できることがわかる。
本発明を実施するための第4の実施の形態の効果について説明する。
本発明を実施するための最良の形態では、第1の実施の形態に加え、テキスト群記憶部131とクラスタ記憶部32からデータを読み出し、ラベルスコア初期値計算手段141により、入力された各クラスタの全語句のラベルスコア初期値を対してテキスト群を元に計算し、入力された各クラスタの全語句のラベルスコア初期値を更新するよう構成されている。そのため、ラベルを付与したいテキスト群を保持しているときに、その内容がわからなくても、ラベルスコア初期値を設定でき、ラベルスコア計算手段41によりテキスト群に適切なラベルスコアを計算できる。また、語句リストに共通的な概念をラベルとして付与したい場合は、語句リストの語句を全体的に含むテキスト郡を用意することで、ラベルスコア初期値を設定でき、ラベルスコア計算手段41によりテキスト群に適切なラベルスコアを計算できる。
<第5の実施の形態>
次に、本発明の第5の発明を実施するための最良の形態について図面を参照して詳細に説明する。
図20を参照すると、本発明の第5の実施の形態は、記憶装置16が、図1に示された第1の実施の形態における記憶装置3の構成に加えシソーラス記憶部161を有し、データ処理装置17が図1のデータ処理装置4に加え、共通概念抽出手段171を有し、図1に加えシソーラス入力手段15を有する点で異なる。
シソーラス入力手段15は、収録語が概念の上位や下位で整理された辞書のデータをシソーラス記憶部161に記憶させる。
共通概念抽出手段171は、シソーラス記憶部161と、クラスタ記憶部32からデータを読み出し、各クラスタの語句の組み合わせで、シソーラスのデータを参照し共通の上位概念を抽出し、クラスタ内に存在しない語が抽出された場合は、その上位概念の語を当該クラスタに追加し、クラスタ記憶部32を更新する。追加した語のラベルスコア初期値は、そのクラスタの上位概念の下位にある語のラベルスコア初期値の平均や最大値や最小値などが考えられる。これは、ラベルとして付与したい抽象度に応じて決めればよい。例えば、できるだけ抽象的な語を付与して欲しいならば、最大値を採用する。
本発明を実施するための第5の実施の形態の動作を、図20の機能ブロック図及び図21のフローチャートを参照して説明する。
まず、並立関係の語を並立関係入力手段1により並立関係記憶部31に、ラベルを付与したいクラスタをクラスタ入力手段2によりクラスタ記憶部32に、シソーラスのデータをシソーラス入力手段15によりシソーラス記憶部161に記憶させる(図21のS1)。図22にシソーラスの例を示す。シソーラスは図22の例のように、語の情概念や下位概念を取得できるものとする。
次に、共通概念抽出手段171は、シソーラス記憶部161とクラスタ記憶部32からデータを読み出し、シソーラスのデータを参照し、クラスタ内の語句の組み合わせで共通の上位概念を共通概念として抽出し、クラスタ内に存在しない語ならばクラスタに追加するという処理を、全クラスタに対して行いクラスタ記憶部32を更新する(図21のS2)。例えば、「サッカー」や「野球」や「クロール」や「平泳ぎ」が一つのクラスタにあり「スポーツ」や「球技」や「水泳」がない場合を考える。本例では、共通概念抽出手段151で、シソーラスの何階層まで探すか決めるパラメータを“2”とする。つまり、語句の組み合わせで、お互いに2つ上の階層までに共通の上位語があれば抽出し、なければなにも抽出されない。「サッカー」と「野球」は、1つ上の上位概念が共に「球技」なので、「球技」が抽出される。同様に「クロール」と「平泳ぎ」からは「水泳」が抽出される。また、「サッカー」と「平泳ぎ」は、2つ上の上位概念が共に「スポーツ」なので「スポーツ」が抽出される。仮に、探しに行く階層のパラメータを“1”とすると、この組み合わせからは「スポーツ」は抽出されない。抽出された語の組み合わせでさらに共通概念を探しにいってもよい。
図21のフローチャートのS3からS9は、第1の実施の形態の動作である図2のフローチャートのS2からS8と同じなので説明を省略する。
次に、本発明を実施するための第5の実施の形態の効果について説明する。
本発明を実施するための最良の形態では、第1の実施の形態に加え、シソーラス記憶部161のデータを用いて、共通概念抽出手段171により、クラスタ記憶部32に記憶されている各クラスタ内の語句の共通の上位概念を抽出し追加してからラベルスコア計算手段41を行うように構成されているため、クラスタ内の語句よりも、より適切にクラスタを表している語句をラベルとして付与することができる。仮に、ラベルとして不適切な共通概念が追加されたとしても、本発明の第1の実施の形態の効果によりそれらのラベルスコアは低くなるので問題ない。
<第6の実施の形態>
次に、本発明の第6の発明を実施するための最良の形態について図面を参照して詳細に説明する。
図23を参照すると、本発明の第6の実施の形態は、記憶装置19が、図1に示された第1の実施の形態における記憶装置3の並立関係記憶部31の代わりに並立・同義関係記憶部191を有し、データ処理装置20が、図1のデータ処理装置4のラベル選択手段42の代わりに、優先度考慮ラベル選択手段201を有し、図1の並立関係入力手段1の代わりに、並立・同義関係入力手段18を有する点で異なる。
並立・同義関係入力手段18は、語の並立関係と同義関係を、並立・同義関係記憶部191に記憶させる。入力される並立関係は第1の実施の形態と同様である。同義関係は、同義語同士が同じ「同義id」を持つよう入力し、「同義id」により管理される同義関係の代表語を選定する。
優先度考慮ラベル選択手段201は、並立・同義関係記憶部191から同義関係とその関係の代表語を取得する。次に、語句ラベルスコア記憶部33に記憶されたクラスタ毎の各ラベルスコアを参照し、前記取得の同義関係のうちで、最も高いラベルスコアを持つ語のスコアを代表語のスコアにして、当該関係の代表語以外のラベルスコアを“0”として、語句ラベルスコア記憶部のデータを更新する。その後、ラベルスコアの高い数語をラベルとして選択する。
本発明を実施するための第6の実施の形態の動作を、図23の機能ブロック図及び図24のフローチャートを参照して説明する。
まず、並立・同義関係入力手段18により、語の並立関係と同義関係を並立・同義関係記憶部191に、ラベルを付与したいクラスタをクラスタ入力手段2によりクラスタ記憶部32に記憶させる(図24のS1)。図25は並立・同義関係記憶部191に記憶されるデータ例である。並立関係については、図3と同様である。同義関係は、1レコードが語句と同義idのテーブルと、同義idと代表語の2テーブルから構成されている。2つのテーブルは「同義id」で関係を持つ。例えば、「同義id=1」は、「サッカー」、「フットボール」、「蹴球」が同義で、その代表語が「サッカー」であること表している。
図24のフローチャートのS2からS6は、第1の実施の形態の動作である図2のフローチャートのS2からS6と同じなので説明を省略する。
次に、優先度考慮ラベル選択手段201は、並立・同義関係記憶部191から同義関係とその関係の代表語を取得する。次に、語句ラベルスコア記憶部33に記憶されたクラスタ毎の各ラベルスコアを参照し、前記取得の同義関係のうちで、最も高いラベルスコアを持つ語のスコアを代表語のスコアにして、当該関係の代表語以外のラベルスコアを“0”として、語句ラベルスコア記憶部33のデータを更新する。その後、ラベルスコアの高い数語をラベルとして選択する。(図24のS7)。図26の(a)にS6までの語句ラベルスコア記憶部33のデータ例、(b)に優先度考慮ラベル選択手段201により(a)のデータが更新された後の語句ラベルスコア記憶部33のデータ例を示す。更新の例として、クラスタ1の「日本」を対象に説明する。図25の同義関係を参照し、「日本」の同義語は「JAPAN」と「ジャパン」で、代表語が「日本」というデータを取得する。次に、クラスタ1内の同義関係と最大のラベルスコアを探す。「日本」の同義関係では、「JAPAN」のラベルスコア“5”が最高なので、語句ラベルスコア記憶部33のクラスタ1のデータのうち、代表語である「日本」のラベルスコアを5にして、代表語でない「JAPAN」を“0”に更新する。このようにして全ての語句に対して処理を行うと図26の(b)となる。最後に、ラベルスコアの高い順に数語をラベルとして選択する。
図24のフローチャートのS8は、図2のフローチャートのS8と同じなので説明を省略する。
次に、本発明を実施するための第6の実施の形態の効果について説明する。
本発明を実施するための最良の形態では、第1の実施の形態に加え、並立・同義関係記憶部191のデータを用いて、優先度考慮ラベル選択手段201に、語句ラベルスコア記憶部33のデータを同義関係に基づき、違う表記であるが同じ意味の語のスコアのうち、最も高いスコアを同義関係の代表語のラベルスコアとして、代表語以外のラベルスコアを“0”にするように構成されているため、同じ意味の代表的な語がラベルとして付与され、他の語はラベルとして付与されなくなる。そのため、最も代表的な語をラベルとすることができ、さらに冗長なラベルが選択されなくなる。
<第7の実施の形態>
以上、本発明の第1から第6の実施の形態を説明したが、本発明はコンピュータソフトウェアとしても実現可能である。
図27は、本発明によるラベル付与システムをインプリメントした情報処理システムの一般的ブロック構成図である。
図27に示す情報処理システムは、プロセッサ300、プログラムメモリ301、記憶媒体302からなる。記憶媒体としては、RAMや、ハードディスク等の磁気記憶媒体を用いることができる。
プログラムメモリ301には、実施の形態1から6のデータ処理装置が行う処理ステップを実行するプログラムが格納されており、このプログラムによってプロセッサ300は動作する。記憶媒体302,303は、実施の形態1から6の記憶装置として用いられる。
<第8の実施の形態>
次に、本発明の第8の実施の形態について説明する。図28は、本発明によるラベリングサービスシステムの構成例を示すブロック図である。本実施の形態のラベリングサービスシステムは、ラベル付与システム1000と、ラベリングサービスシステム2000と、システムデータベース3000とサービス利用者端末4000を備える。
ラベル付与システム1000は、第1の実施の形態から第6の実施の形態のうちのいずれかのシステムである。ただし、本実施の形態では、並立語入力手段1、クラスタ入力手段2、類語辞書入力手段6、コーパス入力手段9、テキスト群入力手段12、ラベル表示手段5(図28において図示せず。)および並立同義関係入力手段18は、ラベリングサービスシステム2000との通信インタフェースによって実現される。ラベル付与システム1000にはラベリングサービスシステム2000から並立関係、クラスタなど、ラベル付与システム1000に用いる第1の実施の形態から第6の実施の形態に合わせ、各種入力手段により入力され、入力クラスタへのラベル付与結果がラベリングサービスシステム2000に出力される。ラベル付与システム1000は、システムデータベース3000に記憶されている並立関係3000やシソーラス3002を用いることができる。
ラベリングサービスシステム2000には、サービス利用者により、サービス利用者端末4000から、ラベリング対象のクラスタと並立関係など、第1の実施の形態から第6の実施の形態に必要な入力がなされる。ラベリングサービスシステム2000はそれら入力を用いてラベル付与システム1000にラベル付与結果を出力させる。そして、ラベル付与結果をサービス提供者に提示する。ラベリングサービスシステム2000は、サービス利用者から受け取った並立関係と、入力された場合はシソーラスとを、システムデータベース3000に登録する。また、ラベリングサービスシステム2000は、ラベリングサービス運営者がサービス利用者から受け取るべき金額を記録する。
ラベリングサービスシステム2000は、制御部2001と金銭情報記憶手段2002とを備える。制御部2001は、ラベリングサービスシステム2000が備える記憶装置(図示せず。)に記憶されたプログラムに従って動作する。制御部2001は、サービス利用者端末4000、ラベル付与システム1000、システムデータベース3000との間で情報を授受する。なお、ラベリングサービスシステム2000は、サービス利用者端末4000、ラベル付与システム1000との通信を行う際に情報を送受信する通信インタフェースを備えるが、図28では、通信インタフェースの図示を省略している。また、ラベリングサービスシステム2000は、システムデータベース3000への情報の書き込みや読込みを行うためのインタフェースを備えるが、図28では、そのインタフェースの図示を省略している。制御部2001は、通信インタフェースを介して他の装置と情報を送受信したり、システムデータベース3000とのインタフェースを介して情報の読み書きを行う。
また、金銭情報記憶手段2002は、ラベリングサービス運営者が、サービス利用者から受け取る金額を記憶する。制御部2001は、これらの金額を金銭情報記憶手段2002に記憶させる。ラベリングサービス運営者は、ラベリングサービスシステム2000、ラベル付与システム1000、およびシステムデータベース3000の管理者である。
システムデータベース3000は、並立関係3001、シソーラス3002を記憶する記憶装置である。並立関係3001は、利用者端末4000により入力された並立関係のデータをラベリングサービスシステム2000の制御部2001により蓄積される。シソーラス3002も同様に、利用者端末4000から入力されたシソーラスのデータをラベリングサービスシステム2000の制御部2001により蓄積される。
次に、動作について説明する。サービス利用者端末4000は、ラベリングして欲しいテキストデータのクラスタと並立関係などの実施の形態1から6に必要な各種入力をラベリングサービスシステム2000に送信する。ラベリングサービスシステム2000の制御部2001は、その種類の情報を受信する。
制御部2001は、ラベル付与システム1000に必要な各種入力を受信すると、サービス利用者の識別番号とサービス利用料を対応付けて、その情報を金銭情報記憶手段2002に記憶させる。さらに、制御部2001は、サービス利用者端末4000から受信した各種入力を、ラベル付与システム1000に出力する。ラベル付与システム1000は、制御部2001から入力された各種入力と、システムデータベース3000の並立関係3001とシソーラス3002からデータを呼び出し、第1から第6のいずれかの実施の形態で説明した動作によって処理しクラスタにラベルを選択する。ラベル付与システム1000は、ラベリングサービスシステム2000にラベルの付与結果を出力し、制御部2001はこの出力を得る。ラベル付与システム1000が、実施の形態3や4の場合には、新たに抽出された並立関係を並立関係3001に記憶させる。
次に、制御部2001は、ラベル付与システム1000が出力したラベル付与結果を受信し、サービス利用者2002に送信することによって、ラベリングサービスをサービス利用者に提供する。次に、制御部2001は、ラベリングサービス運営者がサービス利用者から受け取る金額を、サービス利用者の識別情報と対応付けて、金銭情報記憶手段2002に記憶させる。
サービス運営者は、金銭情報記憶手段2002に記憶されたサービス利用者の識別情報および金額を確認し、サービス利用者に対価を請求する。
第8の実施の形態によれば、テキスト群に対するラベル付けをこれまでよりも安価に行うことができる。その理由は、ラベリングシステムによって自動的にテキスト群に対してラベルを付与できるためである。従来、テキスト群を管理するときには、人がテキスト群を表すラベルを付け、内容がわかるようにしておく必要があり、事前に内容を知らない場合は人的コストがかかった。また、何らかの方法で自動的にテキストデータをクラスタリングし、結果のテキスト群に対して、ラベリングサービスシステムを使うことで、元のテキストデータがどのような内容がどれくらい含まれていたかなどの分析ができる。つまり、本発明によるラベリングサービスシステムにより、サービス利用者は、テキスト群にラベルを付与しテキストデータの管理や分析などを安価に行うことができる。
本実施の形態では、サービス利用者による入力の並立関係やシソーラスのデータを蓄積し、ラベリングシステムにそれらデータを再利用させるよう構成しているため、サービスが利用されていくに従いラベリングシステムの性能が良くなる。ラベリングシステムの性能が良くなることで、サービス利用者が増えていくと考えられる。
本発明によれば、大量に蓄積されたテキスト文書群の管理装置や分析装置といった用途に適用できる。また、語のまとまりに対してラベルを付与することで語の階層関係を考慮した辞書を作成する、辞書生成装置にも適用可能である。
本発明を実施するための第1の実施の形態の構成を示すブロック図である。 第1の実施の形態におけるデータ処理装置のフローチャートである。 並立関係記憶部31に記憶されるデータの例である。 クラスタ記憶部32に記憶されるデータの例であり、(a)は各語句のラベルスコア初期値を設定していない例で、(b)は設定した例である。 計算対象語リストの一例を示す説明図である。 ラベルスコア計算結果の一例を示す説明図である。 ラベル出力手段の出力の一例を示す説明図である。 第2の実施の形態の構成を示すブロック図である。 第2の実施の形態におけるデータ処理装置のフローチャートである。 類義辞書記憶部71に記憶される類語辞書のデータの例である。 類語辞書から抽出された並立関係の一例を示す説明図である。 本発明の第3の実施の形態の構成を示すブロック図である。 第3の実施の形態におけるデータ処理装置のフローチャートである。 コーパス記憶部101に記憶されたデータの例である。 コーパスから並立関係を収集した例を示す説明図である。 本発明の第4の実施の形態の構成を示すブロック図である。 第4の実施の形態におけるデータ処理装置のフローチャートである。 入力するテキスト群の一例を示す説明図である。 ラベルスコア初期値の計算結果の一例を示す説明図である。 第5の実施の形態の構成を示すブロック図である。 第5の発明を実施におけるデータ処理装置のフローチャートである。 入力するシソーラスの一例を示す説明図である。 本発明の第6の実施の形態の構成を示すブロック図である。 第6の実施の形態におけるデータ処理装置のフローチャートである。 並立・同義関係記憶部191に記憶されるデータ例である。 優先度考慮ラベル選択手段の動作説明と動作結果の一例を示す説明図である。 本発明によるラベル付与システムをインプリメントした情報処理システムの一般的なブロック構成図である。 本発明の第8の実施の形態の構成を示すブロック図である。
符号の説明
1 並立関係入力手段
2 クラスタ入力手段
3 記憶装置
4 データ処理装置
5 ラベル表示手段
6 類語辞書入力手段
9 コーパス入力手段
12 テキスト群入力手段
15 シソーラス入力手段
18 並立・同義関係入力手段
31 並立関係記憶部
32 クラスタ記憶部
33 語句ラベルスコア記憶部
41 ラベルスコア計算手段
42 ラベル選択手段
71 類語辞書記憶部
81 並立関係抽出手段
101 コーパス記憶部
111 言語解析手段
112 並立関係収集手段
131 テキスト群記憶部
141 ラベルスコア初期値計算手段
161 シソーラス記憶部
171 共通概念抽出手段
191 並立・同義関係記憶部
201 優先度考慮ラベル選択手段
300 プロセッサ
301 プログラムメモリ
302 記憶媒体
411 クラスタ内並立語ラベルスコア計算手段
412 クラスタ間同一語ラベルスコア計算手段
413 クラスタ間並立語ラベルスコア計算手段

Claims (40)

  1. クラスタを表す語を、前記クラスタのラベルとして1語以上付与するラベル付与システムであって、
    同義でない対等な関係にある語が、並立関係にある語として格納された並立関係記憶手段と、
    前記並立関係記憶手段に記憶されたデータと複数のクラスタのデータとに基づいて、各クラスタ内の語について、当該クラスタのラベル候補としてのスコアを示すラベルスコアを計算するラベルスコア計算手段と、
    前記ラベルスコアに基づいて、各クラスタのラベルとなる語を1語以上選択して付与するラベル選択手段と
    を備え
    前記ラベルスコア計算手段は、前記並立関係記憶手段に格納されている並立関係の語がお互いに違うクラスタに出現した場合にそれらの語のラベルスコアを加算する手段を備える、
    ことを特徴とするラベル付与システム。
  2. 前記並立関係にある語のデータを、前記並立関係記憶手段に入力する並立関係入力手段と、
    ラベルを付与するクラスタを入力するクラスタ入力手段と
    を備えたことを特徴とする請求項1に記載のラベル付与システム。
  3. 前記ラベル選択手段は、各クラスタでラベルスコアの降順に1語以上選択して付与することを特徴とする請求項1又は請求項2に記載のラベル付与システム。
  4. 前記ラベルスコア計算手段は、並立関係の語が1つのクラスタに出現した場合にそれら語のラベルスコアを減算することを特徴とする請求項1から請求項のいずれかに記載のラベル付与システム。
  5. 前記ラベルスコア計算手段は、同じ語がお互いに違うクラスタに出現した場合、その語のラベルスコアを減算することを特徴とする請求項1から請求項のいずれかに記載のラベル付与システム。
  6. 語辞書のデータから並立関係の語を抽出する並立関係抽出手段を備えたことを特徴とする請求項1から請求項のいずれかに記載のラベル付与システム。
  7. 前記並立関係抽出手段は、類語辞書のデータから同義でない類義語を並立関係の語として抽出する請求項に記載のラベル付与システム。
  8. コーパスのデータが格納されたコーパス記憶手段と、
    前記コーパスのデータの言語解析を行う言語解析手段と、
    前記言語解析手段の結果から並立関係の語を収集する並立関係収集手段と
    を備えたことを特徴とする請求項1から請求項のいずれかに記載のラベル付与システム。
  9. 前記並立関係収集手段は、並立を示す助詞をはさむ語を抽出することで並立関係の語を収集することを特徴とする請求項に記載のラベル付与システム。
  10. クラスタに関連するテキストデータが格納されたテキストデータ記憶手段と、
    前記テキストデータを用いて、各クラスタの語のラベルスコア初期値を計算するラベルスコア初期値計算手段と
    を備えたことを特徴とする請求項1から請求項のいずれかに記載のラベル付与システム。
  11. 前記ラベルスコア初期値計算手段は、各クラスタと対応するテキストデータから、対応するテキストデータにおける語の重要度を各クラスタの語のラベルスコア初期値として計算することを特徴とする請求項10に記載のラベル付与システム。
  12. 前記ラベルスコア初期値計算手段は、各クラスタと対応するテキストデータから、クラスタ内における語の共通概念度を各クラスタの語のラベルスコア初期値として計算することを特徴とする請求項10に記載のラベル付与システム。
  13. シソーラスのデータが格納されたシソーラスデータ記憶手段と、
    前記シソーラスのデータを参照し、クラスタ内の語の共通概念を抽出しクラスタに追加する共通概念抽出手段と
    を備えたことを特徴とする請求項1から12のいずれかに記載のラベル付与システム。
  14. 前記共通概念抽出手段は、各クラスタの語の組み合わせでシソーラスのデータを参照し、共通の上位概念を共通概念として抽出することを特徴とする請求項13に記載のラベル付与システム。
  15. 前記共通概念抽出手段は、各クラスタの語の組み合わせでシソーラスのデータを参照し、それぞれの語から所定の閾値内の階層範囲で共通の上位概念を共通概念として抽出することを特徴とする請求項13に記載のラベル付与システム。
  16. 前記並立関係記憶手段は、並立関係にある語に加えて、同義関係にある語が格納され、
    前記ラベル選択手段は、前記並立関係記憶手段に格納されているデータを参照して、クラスタ内の同義関係にある語について、ラベルスコアに基づいて代表となる語を選択し、前記代表の語がクラスタ内のラベルの選択において前記同義関係にある語の中から優先されるようラベルスコアを計算することを特徴とする請求項1から請求項15のいずれかに記載のラベル付与システム。
  17. 請求項1から請求項16のうちのいずれか1項に記載のラベル付与システムと、前記ラベル付与システムで参照される、同義でない対等な関係の語である並立関係の語とシソーラスのデータとを記憶するシステムデータベースと、サービス利用者の端末から受信した入力データを前記ラベル付与システムに入力し、当該入力に対して前記ラベル付与システムが出力したラベル付与結果を受信して前記サービス利用者の端末に送信し、当該ラベル付与処理に伴い授受されるサービス利用金額をサービス利用者毎に記録して管理するラベリングサービスシステムとを備え、
    前記ラベリングサービスシステムは、サービス利用者によって入力された並立関係にある語とシソーラスのデータとを前記システムデータベースに蓄積することを特徴とするラベリングサービスシステム。
  18. クラスタを表す語を、前記クラスタのラベルとして1語以上付与するラベル付与方法であって、
    データ処理装置が、同義でない対等な関係の語である並立関係ののデータと、複数のクラスタのデータとに基づいて、各クラスタ内の語について、当該クラスタのラベル候補としてのスコアを示すラベルスコアを計算するラベルスコア計算処理と、
    データ処理装置が、前記ラベルスコアに基づいて、各クラスタのラベルとなる語を1語以上選択して付与するラベルスコア選択処理と
    を備え
    前記ラベルスコア計算処理は、前記並立関係にある語が、お互い違うクラスタに出現した場合にそれらの語のラベルスコアを加算する
    ことを特徴とするラベル付与方法。
  19. 前記ラベル選択処理は、各クラスタでラベルスコアの降順に1語以上選択して付与することを特徴とする請求項18に記載のラベル付与方法。
  20. 前記ラベルスコア計算処理は、計算対象語の並立関係にある語を取得し、並立関係の語が1つのクラスタに出現した場合にそれら語のラベルスコアを減算することを特徴とする請求項18又は請求項19に記載のラベル付与方法。
  21. 前記ラベルスコア計算処理は、計算対象語と同じ語が違うクラスタに出現した場合に、その語のラベルスコアを減算することを特徴とする請求項18から請求項20のいずれかに記載のラベル付与方法。
  22. データ処理装置が、類語辞書のデータから並立関係の語を抽出する並立関係抽出処理を備え、
    前記ラベルスコア計算処理は、前記抽出した並立関係の語を用いることを特徴とする請求項18から請求項21のいずれかに記載のラベル付与方法。
  23. 前記並立関係抽出処理は、類語辞書のデータから同義でない類義語を並立関係の語として抽出することを特徴とする請求項22に記載のラベル付与方法。
  24. データ処理装置が、コーパスのデータ言語解析する言語解析処理と、データ処理装置が、言語解析処理の結果と決められたパターンとに基づき並立関係の語を収集する並立関係収集処理とを備え、
    前記ラベルスコア計算処理は、前記収集した並立関係の語を用いることを特徴とする請求項18から請求項23のいずれかに記載のラベル付与方法。
  25. 前記並立関係収集処理は、コーパスの言語処理結果とあらかじめ決めておいた並立関係の語の出現パターンとに従って、コーパスから並立関係の語を収集することを特徴とする請求項24に記載のラベル付与方法
  26. 前記並立関係収集処理は、並立を示す助詞をはさむ語を抽出することで並立関係の語を収集することを特徴とする請求項24に記載のラベル付与方法
  27. データ処理装置が、クラスタに関連するテキストデータを用いて、各クラスタの語のラベルスコア初期値を計算するラベルスコア初期値計算処理を備えることを特徴とする請求項18から請求項26のいずれかに記載のラベル付与方法。
  28. 前記ラベルスコア初期値計算処理は、各クラスタと対応するテキストデータから、対応するテキストデータにおける語の重要度を各クラスタの語のラベルスコア初期値として計算することを特徴とする請求項27に記載のラベル付与方法。
  29. 前記ラベルスコア初期値計算処理は、各クラスタと対応するテキストデータから、クラスタ内における語の共通概念度を各クラスタの語のラベルスコア初期値として計算することを特徴とする請求項27に記載のラベル付与方法。
  30. データ処理装置が、シソーラスのデータを参照し、クラスタ内の語の共通概念を抽出し、クラスタに追加する共通概念抽出処理を備えたことを特徴とする請求項18から請求項29のいずれかに記載のラベル付与方法。
  31. 前記共通概念抽出処理は、各クラスタの語の組み合わせでシソーラスのデータを参照し、共通の上位概念を共通概念として抽出することを特徴とする請求項30に記載のラベル付与方法。
  32. 前記共通概念抽出処理は、各クラスタの語の組み合わせでシソーラスのデータを参照し、それぞれの語から所定の閾値内の階層範囲で共通の上位概念を共通概念として抽出する請求項30に記載のラベル付与方法。
  33. 前記ラベル選択処理は同義関係の語のデータを参照して、クラスタ内の同義関係にある語について、ラベルスコアに基づいて代表となる語を選択し、前記代表の語がクラスタ内のラベルの選択において前記同義関係にある語の中から優先されるようラベルスコアを計算することを特徴とする請求項18から請求項32のいずれかに記載のラベル付与方法。
  34. クラスタを表す語を、前記クラスタのラベルとして1語以上付与するラベル付与プログラムあって、
    同義でない対等な関係の語である並立関係の語のデータと、複数のクラスタのデータとに基づいて、各クラスタ内の語について、当該クラスタのラベル候補としてのスコアを示すラベルスコアを計算するラベルスコア計算処理と、
    前記ラベルスコアに基づいて、各クラスタのラベルとなる語を1語以上選択して付与するラベルスコア選択処理と
    を情報処理装置に実行させ、
    前記ラベルスコア計算処理は、前記並立関係にある語が、お互いに違うクラスタに出現した場合にそれらの語のラベルスコアを加算する
    ことを特徴とするラベル付与プログラム。
  35. 前記ラベル選択処理は、各クラスタでラベルスコアの降順に1語以上選択して付与することを特徴とする請求項34に記載のラベル付与プログラム。
  36. 前記ラベル選択処理は、同義関係の語のデータを参照して、クラスタ内の同義関係にある語について、ラベルスコアに基づいて代表となる語を選択し、前記代表の語がクラスタ内のラベルの選択において前記同義関係にある語の中から優先されるようラベルスコアを計算することを特徴とする請求項34又は請求項35に記載のラベル付与プログラム
  37. 類語辞書のデータから並立関係の語を抽出する並立関係抽出処理を情報処理装置に実行させ、
    前記ラベルスコア計算処理は、前記抽出した並立関係の語を用いること
    を特徴とする請求項34から請求項36のいずれかに記載のラベル付与プログラム。
  38. コーパスのデータ言語解析する言語解析処理と、言語解析処理の結果と決められたパターンとに基づき並立関係の語を収集する並立関係収集処理とを情報処理装置に実行させ、
    前記ラベルスコア計算処理は、前記収集した並立関係の語を用いること
    を特徴とする請求項34から請求項37のいずれかに記載のラベル付与プログラム。
  39. クラスタに関連するテキストデータを用いて、各クラスタの語のラベルスコア初期値を計算するラベルスコア初期値計算処理を情報処理装置に実行させることを特徴とする請求項34から請求項38のいずれかに記載のラベル付与プログラム。
  40. シソーラスのデータを参照し、クラスタ内の語の共通概念を抽出し、クラスタに追加する共通概念抽出処理を情報処理装置に実行させることを特徴とする請求項34から請求項39のいずれかに記載のラベル付与プログラム。
JP2006265877A 2006-09-28 2006-09-28 ラベル付与システム、ラベリングサービスシステム、ラベル付与方法およびラベル付与プログラム Expired - Fee Related JP4737435B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006265877A JP4737435B2 (ja) 2006-09-28 2006-09-28 ラベル付与システム、ラベリングサービスシステム、ラベル付与方法およびラベル付与プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006265877A JP4737435B2 (ja) 2006-09-28 2006-09-28 ラベル付与システム、ラベリングサービスシステム、ラベル付与方法およびラベル付与プログラム

Publications (2)

Publication Number Publication Date
JP2008084203A JP2008084203A (ja) 2008-04-10
JP4737435B2 true JP4737435B2 (ja) 2011-08-03

Family

ID=39354982

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006265877A Expired - Fee Related JP4737435B2 (ja) 2006-09-28 2006-09-28 ラベル付与システム、ラベリングサービスシステム、ラベル付与方法およびラベル付与プログラム

Country Status (1)

Country Link
JP (1) JP4737435B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10176253B2 (en) 2015-01-28 2019-01-08 International Business Machines Corporation Fusion of cluster labeling algorithms by analyzing sub-clusters

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510249B2 (en) 2008-10-10 2013-08-13 Nec Corporation Determining whether text information corresponds to target information
JP5834883B2 (ja) * 2011-12-20 2015-12-24 日本電気株式会社 因果関係要約方法、因果関係要約装置及び因果関係要約プログラム
JP5503632B2 (ja) * 2011-12-27 2014-05-28 日本電信電話株式会社 特徴語抽出方法、装置、及びプログラム
JP6008693B2 (ja) 2012-10-30 2016-10-19 キヤノン株式会社 情報処理装置及びその制御方法、プログラム
EP3144822A1 (en) 2015-09-21 2017-03-22 Tata Consultancy Services Limited Tagging text snippets
US10437837B2 (en) * 2015-10-09 2019-10-08 Fujitsu Limited Generating descriptive topic labels
US11580170B2 (en) 2018-11-01 2023-02-14 Google Llc Machine learning based automatic audience segment in ad targeting
WO2023166578A1 (ja) * 2022-03-02 2023-09-07 日本電気株式会社 ラベリング支援システム、ラベリング支援方法およびラベリング支援プログラム
WO2023166579A1 (ja) * 2022-03-02 2023-09-07 日本電気株式会社 ラベリング支援システム、ラベリング支援方法およびラベリング支援プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4552401B2 (ja) * 2003-08-19 2010-09-29 富士ゼロックス株式会社 文書処理装置および方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10176253B2 (en) 2015-01-28 2019-01-08 International Business Machines Corporation Fusion of cluster labeling algorithms by analyzing sub-clusters

Also Published As

Publication number Publication date
JP2008084203A (ja) 2008-04-10

Similar Documents

Publication Publication Date Title
JP4737435B2 (ja) ラベル付与システム、ラベリングサービスシステム、ラベル付与方法およびラベル付与プログラム
Singh et al. A systematic review of text stemming techniques
EP2211280B1 (en) System and method for providing default hierarchical training for social indexing
JP3918531B2 (ja) 類似文書検索方法およびシステム
US20060235843A1 (en) Method and system for semantic search and retrieval of electronic documents
US20040049499A1 (en) Document retrieval system and question answering system
US20130110839A1 (en) Constructing an analysis of a document
CN106940726B (zh) 一种基于知识网络的创意自动生成方法与终端
WO2009154570A1 (en) System and method for aligning and indexing multilingual documents
CN109299221A (zh) 实体抽取和排序方法与装置
CN103186556A (zh) 得到和搜索结构化语义知识的方法及对应装置
Roy et al. Discovering and understanding word level user intent in web search queries
JP2004178123A (ja) 情報処理装置、該情報処理装置を実現するためのプログラム
CN106951420A (zh) 文献搜索方法及设备、作者搜索方法及设备
CN107180087A (zh) 一种搜索方法及装置
CN112052397A (zh) 用户特征生成方法、装置、电子设备及存储介质
US20040193584A1 (en) Method and device for relevant document search
KR101543680B1 (ko) 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법
CN109165373A (zh) 一种数据处理方法及装置
JP3735336B2 (ja) 文書要約方法及びシステム
JP2007058706A (ja) 文書検索システム、文書検索方法及び文書検索プログラム
CN110990705B (zh) 一种新闻处理方法、装置、设备及介质
Balasubramanian et al. Topic pages: An alternative to the ten blue links
KR102497151B1 (ko) 출원인 정보 채우기 시스템 및 방법
CN103577498B (zh) 一种跨语言自动构建分类规则的方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110406

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110419

R150 Certificate of patent or registration of utility model

Ref document number: 4737435

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees