JP5708495B2 - 辞書作成装置、単語収集方法、及び、プログラム - Google Patents

辞書作成装置、単語収集方法、及び、プログラム Download PDF

Info

Publication number
JP5708495B2
JP5708495B2 JP2011545194A JP2011545194A JP5708495B2 JP 5708495 B2 JP5708495 B2 JP 5708495B2 JP 2011545194 A JP2011545194 A JP 2011545194A JP 2011545194 A JP2011545194 A JP 2011545194A JP 5708495 B2 JP5708495 B2 JP 5708495B2
Authority
JP
Japan
Prior art keywords
word
input
words
cluster
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011545194A
Other languages
English (en)
Other versions
JPWO2011070980A1 (ja
Inventor
弘紀 水口
弘紀 水口
大 久寿居
大 久寿居
幸貴 楠村
幸貴 楠村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011545194A priority Critical patent/JP5708495B2/ja
Publication of JPWO2011070980A1 publication Critical patent/JPWO2011070980A1/ja
Application granted granted Critical
Publication of JP5708495B2 publication Critical patent/JP5708495B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、辞書作成装置、単語収集方法、及び、プログラムに関する。
少数の同種の単語を入力に、文献データやWebページ等から多数の同種の単語を収集した辞書を作成する辞書作成の手法が知られている。なお、ここでいう辞書とは、共通の上位概念を持つ同種の単語の集合のことである。
上述した辞書作成の手法の一例が、非特許文献1に記載されている。この辞書作成の手法の概略を以下に示す。
まず、収集の元となる少量の単語を入力する。以下、はじめに入力した単語をシード単語と呼ぶ。次に、Web検索エンジンを利用し、シード単語を含むWebページを収集する。次に、収集したWebページからシード単語とそれ以外の語を区切るパターンを作成する。そして、このパターンを使ってWebページから単語を抽出し、シード単語に追加する。なお、シード単語を入力してから単語が抽出されるまでをターンと呼ぶ。そして、単語が追加されたシード単語を用いて、さらにWebページを収集する。これを数ターン繰り返した後、抽出された単語をシード単語と同種の単語の集合(辞書)として出力する。
このような辞書作成の手法では、新たにシード単語に追加される単語が、シード単語と異なる種類の単語である場合がある。例えば、レストラン名のシード単語を入力して、レストラン名の辞書を作成する際に、同じ文献に掲載されており、かつ、パターンが似ているラーメン店名やうどん店名などの単語が、新たにシード単語に追加されてしまう等の場合である。
このような場合、その異なる種類の単語から、さらに異なる種類の単語が次々にシード単語に追加されてしまい、シード単語と異なる種類の単語が多く収集されてしまい、辞書の精度が悪化することが知られている。
このような事態を回避するために、各ターンで抽出される単語の信頼度を求め、特定の信頼度以上の単語のみをシード単語に追加して、次のターンで採用することが行われている。なお、この信頼度は、例えば、パターンの出現回数に基づく統計量や、パターンから検出された単語数に基づく統計量等が用いられる。非特許文献1では、信頼度として、単語のパターンによって抽出できたWebページの数を採用しており、抽出できたWebページの数が所定数以下の単語はシード単語に追加しないことで、異なる種類の単語が収集されることを防止している。
水口弘紀、河合英紀、土田正明、久寿居大、Web知識を利用したブートストラップによる辞書増殖手法、DEWS2007、2007
上述した信頼度を用いて辞書を作成をした場合、信頼度が低い異なる種類の単語(異種単語)は、収集対象から除外されてシードに追加されない。従って、ユーザは、どのような異種単語がシード単語から収集されているのかを全く知ることができず、異種単語を再利用してさらに異なるグループの単語を収集するような活用ができない。
本発明は、上記実情に鑑みてなされたものであり、どのような異種単語が収集されているのかをユーザに好適に出力することを可能にした辞書作成装置、単語収集方法、及び、プログラムを提供することを目的とする。
上記目的を達成するため、本発明の第1の観点に係る辞書作成装置は、
単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録手段と、
前記入出力過程記録手段に記録された情報に基づいて、前記入出力の過程における前記入力単語及び前記出力単語の類似度を用いて、前記辞書増殖処理で収集された単語を複数のクラスタに分類するクラスタ分類手段と、
前記入出力過程記録手段に記録された情報を参照し、前記クラスタ分類手段が分類したクラスタ毎に、該クラスタ内の単語が最初に入力を受け付けた入力単語からクラスタ内の各単語を出力するまでに要したターン数及び当該クラスタ内の各単語が最初に入力を受け付けた入力単語を出力するまでに要したターン数に基づいて、クラスタ内の単語が入力単語と同じ種類の単語であるか否かを判別する同種判別手段と、
前記辞書増殖処理で収集された単語と、該単語が属するクラスタと、該クラスタを構成する単語が最初に入力を受け付けた入力単語と同じ種類の単語であるか否かを示す情報と、を関連付けて出力する収集単語出力手段と、
を備えることを特徴とする。
また、本発明の第2の観点に係る単語収集方法は、
コンピュータが、単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで単語を収集した辞書増殖処理における入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録ステップと、
コンピュータが、前記入出力過程記録ステップに記録された情報に基づいて、前記入出力の過程における前記入力単語及び前記出力単語の類似度を用いて、前記辞書増殖処理で収集された単語を複数のクラスタに分類するクラスタ分類ステップと、
コンピュータが、前記入出力過程記録ステップに記録された情報を参照し、前記クラスタ分類ステップが分類したクラスタ毎に、該クラスタ内の単語が最初に入力を受け付けた入力単語からクラスタ内の各単語を出力するまでに要したターン数及び当該クラスタ内の各単語が最初に入力を受け付けた入力単語を出力するまでに要したターン数に基づいて、クラスタ内の単語が入力単語と同じ種類の単語であるか否かを判別する同種判別ステップと、
コンピュータが、前記辞書増殖処理で収集された単語と、該単語が属するクラスタと、該クラスタを構成する単語が最初に入力を受け付けた入力単語と同じ種類の単語であるか否かを示す情報と、を関連付けて出力する収集単語出力ステップと、
を備えることを特徴とする。
また、本発明の第3の観点に係るプログラムは、
コンピュータを、
単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録手段、
前記入出力過程記録手段に記録された情報に基づいて、前記入出力の過程における前記入力単語及び前記出力単語の類似度を用いて、前記辞書増殖処理で収集された単語を複数のクラスタに分類するクラスタ分類手段、
前記入出力過程記録手段に記録された情報を参照し、前記クラスタ分類手段が分類したクラスタ毎に、該クラスタ内の単語が最初に入力を受け付けた入力単語からクラスタ内の各単語を出力するまでに要したターン数及び当該クラスタ内の各単語が最初に入力を受け付けた入力単語を出力するまでに要したターン数に基づいて、クラスタ内の単語が入力単語と同じ種類の単語であるか否かを判別する同種判別手段、
前記辞書増殖処理で収集された単語と、該単語が属するクラスタと、該クラスタを構成する単語が最初に入力を受け付けた入力単語と同じ種類の単語であるか否かを示す情報と、を関連付けて出力する収集単語出力手段、
として機能させるプログラムである。
本発明によれば、辞書構築において収集された単語をクラスタリングし、クラスタ毎に、最初に入力した単語と同じ種類の単語であるか否かが判別される。従って、どのような異種単語が収集されているのかをユーザに好適に出力することができる。
本発明の第1実施形態に係る辞書作成装置の構成を示す図である。 収集過程記憶部に記憶される情報の構成例を示す図である。 収集単語記憶部に記憶される情報の構成例を示す図である。 辞書作成処理の動作を説明するためのフローチャートである。 辞書増殖処理の動作を説明するためのフローチャートである。 クラスタリング処理の動作を説明するためのフローチャートである。 単語間の入出力の関係を示したグラフである。 同種判別処理の動作を説明するためのフローチャートである。 本発明の第2実施形態に係る辞書作成装置の構成を示す図である。 図10(A)及び図10(B)は、単語グループ記憶部に記憶される情報の構成例を示す図である。 辞書作成処理の動作を説明するためのフローチャートである。 単語グループ更新処理の動作を説明するためのフローチャートである。 本発明の第3実施形態に係る辞書作成装置の構成を示す図である。 収集単語記憶部に記憶される情報の構成例を示す図である。 各実施形態に係る辞書作成装置をコンピュータに実装する場合の、物理的な構成の一例を示すブロック図である。
以下、本発明の実施形態について、図面を参照しながら詳細に説明する。なお、本発明は下記の実施形態及び図面によって限定されるものではない。本発明の要旨を変更しない範囲で下記の実施形態及び図面に変更を加えることが出来るのはもちろんである。また、図中同一または相当部分には同一符号を付す。
また、本発明で辞書とは、共通の上位概念を持つ同種の単語の集合のことである。
(第1実施形態)
本発明の第1実施形態に係る辞書作成装置100について説明する。辞書作成装置100は、図1に示すように、入力部101と、辞書増殖部102と、クラスタリング部103と、種別判別部104と、出力部105と、文書記憶部106と、収集過程記憶部107と、収集単語記憶部108とを備える。
入力部101は、キーボードやマウスなどから構成される。ユーザは、入力部101を介して、辞書(同種の単語の集合)を作成するためのサンプルとなる単語(シード単語)を入力する。
辞書増殖部102は、非特許文献1に記載されているような従来の手法を用いて、シード単語と同種の単語を文書記憶部106に記憶されている文書内から収集する辞書増殖処理を行う。また、辞書増殖部102は、この辞書増殖処理において、どのような過程を経て単語が収集されたのかを示す情報を収集過程記憶部107に記録する。辞書増殖部102の行う辞書増殖処理の詳細については後述する。
クラスタリング部103は、収集過程記憶部107に記憶されている情報に基づいて、辞書増殖部102が収集した単語を複数のクラスタに分類(クラスタリング)する。クラスタリング部103の行う処理の詳細については後述する。
種別判別部104は、クラスタとそのクラスタに含まれる単語とを入力に、収集過程記憶部107に記憶されている情報を参照し、クラスタを構成する単語が、シード単語と同じ種類の単語であるか否かを判別する。種別判別部104の行う処理の詳細については後述する。
出力部105は、種々の情報を出力する。例えば、出力部105は、辞書増殖処理によって収集された単語を、分類されたクラスタ毎に、シード単語と異種か同種かを示す情報を付して出力(表示)する。
文書記憶部106は、辞書増殖部102による単語収集の対象となる各文書を定義するデータが記憶される。なお、各文書のデータにはID(文書ID)が付されている。
収集過程記憶部107には、辞書増殖処理において、どのような入出力の過程を経て単語が収集されたのかを示す情報が記録される。具体的には、図2に示すように、収集過程記憶部107には、辞書増殖処理におけるターン毎に、当該ターンのターン数と、当該ターンで入力された入力単語と、該入力単語から生成されたパターンによって出力された出力単語とが対応付けられて記録される。
例えば、図2の先頭のエントリから、辞書増殖処理の1ターン目に、「レストランS」から作成されたパターンにより「レストランX」が抽出されたことがわかる。
図1に戻り、収集単語記憶部108には、図3に示すように、収集された各単語と、各単語がどのクラスタに分類されているかを示すクラスタIDとが対応付けられて記憶される。また、各クラスタには、クラスタを構成する単語が、シード単語と同じ種類の単語であるのか(シード単語自体が当該クラスタに含まれる場合も同じ種類とする)、又は、異なる種類の単語であるのか、を示す情報が付与される。
例えば、図3から、「レストランA」と「レストランB」はクラスタ1に分類され、また、クラスタ1はシード単語と同じ種類の単語から構成されていることが分かる。同様に、「うどんC」と「うどんD」はクラスタ2に分類され、また、クラスタ2はシード単語と異なる種類の単語から構成されていることが分かる。
続いて、辞書作成装置100で実施される処理の動作について説明する。
まず、ユーザは、入力部101を操作して、辞書(同種の単語の集合)を作成するためのサンプルとなる1乃至複数の単語(シード単語)を入力する。そして、入力したシード単語を元に、辞書を作成することを指示する。この指示操作に応じて、辞書作成装置100は、図4に示す辞書作成処理を行う。
辞書作成処理が開始されると、まず、辞書増殖部102は、従来の手法で辞書増殖処理を行い、入力されたシード単語に関連する単語を収集する(ステップS100)。
辞書増殖処理(ステップS100)の詳細について、図5のフローチャートを参照して説明する。辞書増殖処理が開始されると、まず、辞書増殖部102は、ユーザによって入力されたシード単語を収集単語記憶部108に登録する(ステップS101)。そして、辞書増殖部102は、ターン数を示すカウンタi(初期値0)を1インクリメントする(ステップS102)。
続いて、辞書増殖部102は、収集単語記憶部108に記憶されている単語のなかから所定数の単語をランダムに選択する(ステップS103)。そして、辞書増殖部102は、文書記憶部106に記憶されている文書のなかから、選択したシード単語が含まれている文書を検出する(ステップS104)。なお、ここでは、選択したシード単語を全て含む文書のみを検出してもよいし、選択したシード単語のうち所定数のシード単語を含む文書を検出してもよい。
続いて、辞書増殖部102は、検出した文書内における、ステップS103で選択したシード単語が出現する位置を特定し、シード単語とそれ以外の部分とを区切るパターンを作成する(ステップS105)。例えば、文書内でシード単語が出現する部分の前後の所定数の文字列を、パターンとして採用すればよい。
続いて、辞書増殖部102は、作成したパターンに合致する単語を、文書記憶部106に記憶されている文書から抽出する(ステップS106)。そして、辞書増殖部102は、抽出した単語を収集単語記憶部108に追加する(ステップS107)。
続いて、辞書増殖部102は、今回のターン数を示す情報(即ち、カウンタiの値)と、ステップS103で選択した各単語(入力単語)と、入力単語から作成したパターンによりステップS106で抽出した単語(出力単語)とを対応付けて、収集過程記憶部107に記憶する(ステップS108)。
続いて、辞書増殖部102は、辞書増殖を終了させるための所定の終了条件を満たしているか否かを判別する(ステップS109)。終了条件としては、例えば、収集単語記憶部108に記憶した単語の数が所定数に達したか、又は、ターン数が所定数に達したか等の任意の条件を採用することが可能である。なお、後述するクラスタリング処理で収集した単語を適切にクラスタリングできるようにするために、ここでは、少なくとも2ターン以上は単語の収集を繰り返し実行するような終了条件を採用することが望ましい。
終了条件を満たしていないと判別した場合(ステップS109;No)、辞書増殖部102は、ステップS102〜ステップS108を繰り返し、新たに単語が追加されたシード単語から単語を収集する処理を引き続き行う。
終了条件を満たしていると判別した場合(ステップS109;Yes)、辞書増殖部102は、辞書増殖処理を終了し処理をクラスタリング部103に移す。
図4に戻り、続いて、クラスタリング部103は、辞書増殖処理によって収集された単語をクラスタに分類するクラスタリング処理を行う(ステップS200)。
図6は、クラスタリング処理(ステップS200)の詳細を示すフローチャートである。クラスタリング処理が開始されると、まず、クラスタリング部103は、収集単語記憶部108から、未だ単語間の結束度を算出していない2つの単語を選択する(ステップS201)。
続いて、クラスタリング部103は、選択した2つの単語間の結束度を、収集過程記憶部107に記憶されている情報に基づいて算出する(ステップS202)。
なお、単語間の結束度とは、上述した辞書増殖処理において、共通の単語を入力にする単語同士、又は共通の単語を出力する単語同士ほど、その値が大きくなる指標のことである。例えば、2つの単語それぞれに入力される単語のうち共通の単語から2つの単語に入力される単語の割合と、2つの単語それぞれが出力する単語のうち2つの単語が共通の単語を出力する単語の割合と、の和を2つの単語間の結束度として算出することができる。
より具体的には、2つの単語a,b間の結束度をSim(a,b)とすると、以下の式により、結束度を算出することができる。
Sim(a,b)=Sim_in(a,b)+sim_out(a,b)
上式において、Sim_in(a,b)は、単語a,bそれぞれに入力される単語のうち共通の単語から入力される単語の割合を示す値である。Sim_in(a,b)=(単語aと単語bの両方に入力される共通の単語の数)/((単語aに入力される単語の数)+(単語bに入力される単語の数))と求めることができる。
また、Sim_out(a,b)は、2つの単語a,bそれぞれが出力する単語のうち共通の単語を出力する単語の割合を示す値である。Sim_out(a,b)=(単語aと単語bの両方から主力された共通の単語の数)/((単語aが出力した単語の数)+(単語bが出力した単語の数))と求めることができる。
続いて、クラスタリング部103は、収集単語記憶部108に記憶されているシード単語の全ての組で、結束度を算出したか否かを判別する(ステップS203)。
シード単語の全ての組で結束度を算出していない場合(ステップS203;No)、クラスタリング部103は、結束度未算出の2つのシード単語を選択して結束度を算出する処理(ステップS201、ステップS202)を繰り返す。
シード単語の全ての組で結束度を算出した場合(ステップS203;Yes)、クラスタリング部103は、算出した結束度を類似度として、最短距離法、最長距離法、および、群平均法などの公知のクラスタリング手法を用いてクラスタリングを行い、収集単語記憶部108に記憶されているシード単語を複数のクラスタに分類する(ステップS204)。
そして、クラスタリング部103は、クラスタリングした結果を記録する(ステップS205)。具体的には、クラスタリング部103は、収集単語記憶部108に記憶されている単語に、クラスタに分類した結果が反映されるようにクラスタIDを付与する。以上でクラスタリング処理は終了する。
このように、クラスタリング処理により、収集された単語間の結束度が算出され、算出された結束度に基づいて、収集単語が複数のクラスタに分類される。
ここで、上述したクラスタリング処理について、具体例を挙げて説明する。図7は、図2に示すような情報が収集過程記憶部107に記憶されている場合の、辞書増殖処理のターン1からターン3の単語間の入出力の関係をグラフで示した図である。この図において、各単語はノードで表され、入力単語から出力単語の方向にアーク(矢印)で結ばれる。例えば、図7より、単語「レストランA」は、ターン2に「レストランX」と「レストランS」から作成されたパターンにより抽出されたことがわかる。また、ターン3では、単語「レストランA」から作成されたパターンにより「レストランE」と「レストランT」とが抽出されたことがわかる。
ここで、「レストランA」と「レストランB」との間の結束度Sim(A,B)を算出する場合を考える。
「レストランA」に入力される単語は「レストランX」と「レストランS」であり、「レストランB」に入力される単語は「レストランS」である。そして、このうち、「レストランS」が、「レストランA」と「レストランB」の両方に入力される。したがって、Sim_in(A,B)は、1/3となる。また、「レストランA」が出力する単語は「レストランE」と「レストランT」であり、「レストランB」が出力する単語は「レストランT」である。そして、このうち、「レストランT」が、「レストランA」と「レストランB」の両方から出力される。したがって、Sim_out(A,B)は、1/3となる。したがって、結束度Sim(A,B)=Sim_in(A,B)+Sim_out(A,B)=1/3+1/3=2/3と算出される。
同様に、他の単語間の結束度についても、以下のように算出される。
レストランAとうどんCとの間の結束度:Sim(A,C)=Sim_in(A,C)+Sim_out(A,C)=0+0=0
レストランAとうどんDとの間の結束度:Sim(A,D)=Sim_in(A,D)+Sim_out(A,D)=0+0=0
レストランBとうどんCとの間の結束度:Sim(B,C)=Sim_in(B,C)+Sim_out(B,C)=0+0=0
レストランBとうどんDとの間の結束度:Sim(B,D)=Sim_in(B,D)+Sim_out(B,D)=0+1/3=1/3
うどんCとうどんDとの間の結束度:Sim(C,D)=Sim_in(C,D)+Sim_out(C,D)=2/4+1/4=3/4
そして、これらの単語間の結束度を類似度として、公知のクラスタリングの手法を用いたクラスタリングがなされる。例えば、この結束度から、クラスタ1{レストランA,レストランB}、クラスタ2{うどんC,うどんD}の2つのクラスタが形成され、図3に示すように、収集単語記憶部108に記憶されている各単語に、クラスタIDが付与される。
図4に戻り、続いて、種別判別部104は、クラスタリング処理で分類したクラスタが、最初に入力された単語(シード単語)と同種の単語から構成されるか否かを判別する同種判別処理を行う(ステップS300)。
図8は、同種判別処理(ステップS300)の詳細を示すフローチャートである。同種判別処理が開始されると、まず、種別判別部104は、収集単語記憶部108から、同種判別を未だ行っていない1つのクラスタ、及び、当該クラスタに含まれる単語を選択する(ステップS301)。
続いて、種別判別部104は、収集過程記憶部107を参照して、選択したクラスタ内の単語が、最初に入力された単語(シード単語)と同種の単語であるか否かを判別する(ステップS302)。なお、この判別は、クラスタ内の各単語のシード単語までの近さに基づいて行えばよい。
具体的には、種別判別部104は、シード単語からクラスタ内の各単語を出力するまでに要したターン数や、クラスタ内の各単語がシード単語を出力するまでに要したターン数を算出し、算出したターン数に基づいて、同種か異種かの判別をすればよい。
続いて、種別判別部104は、判別結果を収集単語記憶部108に記録する(ステップS303)。
続いて、種別判別部104は、収集単語記憶部108に記憶されているクラスタ全てで、上述の同種判別を実施したか否かを判別する(ステップS304)。
同種判別未実施のクラスタがある場合(ステップS304;No)、種別判別部104は、そのクラスタを選択して同種判別をする処理(ステップS301〜ステップS303)を繰り返す。
同種判別を未実施のクラスタがない場合(ステップS304;Yes)、同種判別処理は終了する。
このように、同種判別処理が実施されることにより、クラスタ毎に、クラスタを構成する単語がシード単語と同じ種類の単語であるか異なる種類の単語であるかが判別される。
続いて、上述した同種判別処理について、具体例を挙げて説明する。
前提として、図7に示すような入出力関係が、図2に示す収集過程記憶部107に記憶されている情報から得られているものとする。また、「レストランA」と「レストランB」がクラスタ1、「うどんC」と「うどんD」がクラスタ2に分類されているものとする。また、同種判定に用いる閾値の値は0.6とする。なお、図7では、シード単語である「レストランS」と「レストランT」は、網掛けで示している。
まず、クラスタ1の同種判別について説明する。
クラスタ1内の単語「レストランA」は、「レストランS→レストランA」のルートにより、最短1ターンでシード単語「レストランS」から出力される。若しくは、「レストランA」は、「レストランA→レストランT」のルートにより、最短1ターンでシード単語「レストランT」を出力する。そのため、その最短のターン数1の逆数1を、「レストランA」のシード単語までの近さを表す値とする。
同様に、クラスタ1内の単語「レストランB」は、「レストランS→レストランB」のルートにより、最短1ターンでシード単語「レストランS」から出力される。若しくは、「レストランB」は、「レストランB→レストランT」のルートにより、最短1ターンでシード単語「レストランT」を出力する。そのため、その最短のターン数1の逆数1を、「レストランB」のシード単語までの近さを表す値とする。
したがって、クラスタ1全体でのシード単語までの近さは、「レストランA」と「レストランB」の近さの平均を取り1となる。この値は、閾値0.6以上であるため、クラスタ1は同種と判別され、その結果が収集単語記憶部108に記憶される。
続いて、クラスタ2の同種判別について説明する。
クラスタ2内の単語「うどんC」は、「レストランS→レストランZ→うどんC」又は「レストランT→レストランW→うどんC」等のルートにより、最短2ターンでシード単語「レストランS」又は「レストランT」から出力される。そのため、その最短のターン数2の逆数0.5を、「うどんC」のシード単語までの近さを表す値とする。
同様に、クラスタ2内の単語「うどんD」は、「レストランS→レストランZ→うどんD」又は「レストランT→レストランW→うどんD」等のルートにより、最短2ターンでシード単語「レストランS」又は「レストランT」から出力される。そのため、その最短のターン数2の逆数0.5を、「うどんD」のシード単語までの近さを表す値とする。
したがって、クラスタ2全体でのシード単語までの近さは、うどんCとうどんDの近さの平均を取り0.5となる。この値は、閾値0.6以下であるため、クラスタ2は異種と判別され、その結果が収集単語記憶部108に記憶される。
図4に戻り、続いて、出力部105は、収集単語記憶部108を参照して、収集され、クラスタに分類され、シード単語と同種か異種かを判別された単語を、それらの情報を関連付けて出力(表示)する(ステップS400)。例えば、出力部105は、「クラスタ1{レストランA、レストランB}:同種、クラスタ2{うどんC、うどんD}:異種」等と出力する。以上で、辞書作成処理は終了する。
このように、本実施形態では、辞書増殖処理によって収集された各単語は、クラスタに分類される。そして、各クラスタ毎に、シード単語と同じ種類の単語から構成されるか否かが判別されて出力される。従って、どのような異種の単語が収集されているのかをユーザに好適に出力することができる。
(第2実施形態)
第2実施形態に係る辞書作成装置200は、図9に示すように、第1実施形態の辞書作成装置100に、単語選択部201、再実行部202、および、単語グループ記憶部203が追加された構成である。なお、下記及び図面では、第1実施形態と同様のものについては、同一の符号を付す。また、第1実施形態と同様の構成要素の詳細な説明は、上記第1実施形態の説明に準じ、詳細な説明を省略する。
単語グループ記憶部203には、図10(A)、図10(B)に示すように、収集した単語と、該単語が属するグループの識別情報であるグループ名とが対応付けられて記憶される。
単語選択部201は、単語グループ記憶部203を参照して、未収集のグループを1つ選択し、選択したグループから所定数の単語を選択する。そして、単語選択部201は、選択した単語をシード単語とした辞書増殖処理の実行を辞書増殖部102に指示する。
再実行部202は、収集され、クラスタに分類され、シード単語と同種か異種かを判別された単語にグループ名を付して単語グループ記憶部203に追加する。そして、再実行部202は、未だ収集を行っていないグループがある場合には、そのグループから単語を選択することを単語選択部201に指示をする。
なお、その他の各部(入力部101、辞書増殖部102、クラスタリング部103、種別判別部104、出力部105、文書記憶部106、収集過程記憶部107、収集単語記憶部108)は、第1実施形態と同様の処理を行うため、ここでは説明を省略する。但し、辞書増殖部102が単語収集の起点とするシード単語は、単語選択部201が選択した単語である。
続いて、辞書作成装置200で実施される処理の動作について説明する。なお、予め、単語グループ記憶部203には、複数の単語が、グループ1として登録されている。また、このグループ1は、後述する収集未完グループであるとする。また、グループ1以外のグループは現時点では登録されていないものとする。
まず、ユーザは、入力部101を操作して、辞書を作成することを指示する。この指示操作に応じて、辞書作成装置200は、図11に示す辞書作成処理を行う。
辞書作成処理が開始されると、単語選択部201は、単語グループ記憶部203を参照して、未収集のグループ(即ちグループ1)に含まれる単語のなかから、予め設定されている数の単語をシード単語として選択する(ステップS50)。
続いて、辞書増殖部102は、第1実施形態と同様に辞書増殖処理を行い、シード単語と同種の単語を収集する(ステップS100)。但し、ここでは、ステップS50で選択された単語をシード単語とする。
続いて、クラスタリング部103は、第1実施形態と同様にクラスタリング処理を行い、辞書増殖処理によって収集された単語をクラスタに分類する(ステップS200)。
続いて、種別判別部104は、第1実施形態と同様に同種判別処理を行い、クラスタが、シード単語と同種の単語から構成されるか否かを判別する(ステップS300)。
続いて、再実行部202は、シード単語と同種か異種かを判別されたクラスタ毎に、該クラスタを構成する単語を単語グループ記憶部203に登録して、グルーピングする単語グループ更新処理を行う(ステップS330)。
図12に、単語グループ更新処理の詳細を示す。単語グループ更新処理が開始されると、まず、再実行部202は、上述のステップS200でクラスタリングしたクラスタのなかから未処理のクラスタを1つ選択する(ステップS331)。
続いて、再実行部202は、ステップS300の同種判別処理の結果を参照して、選択したクラスタがシード単語と同種の単語から構成されているか否かを判別する(ステップS332)。
シード単語と同種の場合(ステップS332;Yes)、再実行部202は、シード単語と同じグループ名を付して、選択したクラスタ内の単語を単語グループ記憶部203に登録する(ステップS333)。そして、ステップS337に処理を移す。
シード単語と異種の場合(ステップS332;No)、再実行部202は、単語グループ記憶部203を参照して、選択したクラスタ内の単語のなかに、既に単語グループ記憶部203に記憶されている単語(既存単語)があるか否かを判別する(ステップS334)。
既存単語があると判別された場合(ステップS334;Yes)、再実行部202は、その既存単語に付されているグループ名と同じグループ名を付して、選択したクラスタ内の単語を単語グループ記憶部203に登録する(ステップS335)。そして、ステップS337に処理を移す。
既存単語がないと判別された場合(ステップS334;No)、再実行部202は、新たに発行したグループ名を付して、選択したクラスタ内の単語を単語グループ記憶部203に登録する(ステップS336)。そして、ステップS337に処理を移す。
ステップS337では、再実行部202は、クラスタリングした全てのクラスタで、クラスタ内の単語を単語グループ記憶部203に登録する処理を行ったか否かを判別する。
未だ単語グループ記憶部203に登録する処理を行っていないクラスタがある場合(ステップS337;No)、再実行部202は、未処理のクラスタを選択して、クラスタ内の単語を単語グループ記憶部203に登録する一連の処理(ステップS331〜ステップS336)を繰り返す。
全てのクラスタで、単語を単語グループ記憶部203に登録する処理を行った場合(ステップS337;Yes)、単語グループ更新処理は終了する。
図11に戻り、続いて、再実行部202は、単語収集が未だ完了していないグループ(以下、収集未完グループという)があるか否かを判別する(ステップS360)。
例えば、以下に示すa)〜d)の何れかの条件を満たすグループを収集未完グループと判断すればよい。
a)グループ内の単語数が一定数以上に達していないグループ。
b)グループ内の単語をシード単語とした辞書増殖処理を所定回数以上行っていないグループ。
c)グループに新たに追加された単語が一定数以上あるグループ。
d)a)〜c)を所定の重み付けを付した割合で組み合わせた条件に合致するグループ。
収集未完グループが有る場合(ステップS360;Yes)、再実行部202は、収集未完グループの1つからシード単語を選択することを単語選択部201に指示する。そして、シード単語から単語を収集して、クラスタリングし、シード単語と同種か異種かの判定を行い、グルーピングする処理が繰り返される(ステップS50〜ステップS330)。
収集未完グループが無い場合(ステップS360;No)、出力部105は、収集した単語を出力する。但し、単語の属するクラスタ、および、そのクラスタがシード単語を同種であるか否かを示す情報に加えて、単語が属するグループ名を単語グループ記憶部203から取得する。そして、これらの情報を、収集した単語と関連付けて出力(表示)するものとする。以上で、辞書作成処理は終了する。
続いて、上述した辞書作成処理について、具体例を挙げて説明する。なお、前提として、図10(A)に示すように、収集未完グループであるグループ1のみが、単語グループ記憶部203には記憶されているものとする。
従って、この状態で辞書作成処理が開始されると、まず、グループ1内の単語「レストランS」と「レストランT」が選択される(ステップS50)。続いて、この「レストランS」と「レストランT」とをシード単語とした辞書増殖処理が実行されて、単語が収集される(ステップS100)。そして、収集された単語は、その結束度に基づいてクラスタリングされ(ステップS200)、クラスタ毎に、シード単語「レストランS」「レストランT」と同種であるか否かが判別される(ステップS300)。ここでは、以下に示すようなクラスタ1〜5が作成されたこととする。
・クラスタ1(同種):「レストランA」「レストランB」
・クラスタ2(異種):「うどんC」「うどんD」
・クラスタ3(同種):「レストランX」「レストランZ」「レストランW」
・クラスタ4(同種):「レストランS」「レストランT」
・クラスタ5(異種):「うどんG」「うどんH」
続いて、これらのクラスタ毎に、クラスタ内の単語をグループ化して単語グループ記憶部203に登録する単語グループ更新処理が実施される(ステップS330)。この場合、クラスタ1と、クラスタ3と、クラスタ4は、シード単語と同種と判定されているため、これらのクラスタ内の単語は、シード単語と同じグループ1の単語として単語グループ記憶部203に登録される(ステップS333)。
また、クラスタ2とクラスタ5は、シード単語と異種の単語であり、また、これらのクラスタ内の単語は未だ単語グループ記憶部203に記憶されていない。従って、クラスタ2とクラスタ5内の単語は、それぞれ、グループ2、グループ3の新規のグループ名を付されて、単語グループ記憶部203に登録される(ステップS336)。
そして、最終的には、図10(B)に示すように、クラスタ1〜5内の単語がグループ名を付されて単語グループ記憶部203に登録される。
続いて、収集未完のグループがある場合には、そのグループ(即ち、グループ2かグループ3)のうちの1つを選択して、選択したグループ内の単語を新たにシード単語とした単語収集を行う一連の処理が繰り返される。
このように、第2実施形態では、異種単語がどの程度含まれているかだけでなく、同じような異種単語を新たなグループとて登録する。そして、そのグループ内の単語をシード単語として、さらに単語を収集することができる。これにより、初期に与えたシード単語と似ている単語も別グループとした単語収集を行うことができる。
(第3実施形態)
第2実施形態では、グループ内の単語から、ランダムに選択した所定数の単語をシード単語として辞書増殖を行った。そのため、少ない収集回数で多くの単語を取得したい場合、収集回数が多くなっても収集される単語がシード単語と類似する精度を高くしたい場合、などといった種々の場面に応じた適切な単語の収集ができない。本実施形態では、種々の場面に応じた適切な単語の収集を可能とすることを特徴とする。
第3実施形態に係る辞書作成装置300は、図13に示すように、第2実施形態の辞書作成装置200の単語選択部201が第二単語選択部301に置き換えられている。また、単語間結束度記憶部302が新たに追加されている。なお、下記及び図面では、第1実施形態、および、第2実施形態と同様のものについては、同一の符号を付す。また、第1実施形態、および、第2実施形態と同様の構成要素の詳細な説明は、上記第1実施形態、第2実施形態の説明に準じ、詳細な説明を省略する。
第二単語選択部301は、単語グループ記憶部203を参照して、未収集のグループを1つ選択し、選択したグループに含まれる単語から複数の単語を選択する。この際、第二単語選択部301は、単語間結束度記憶部302を参照して、結束度が所定の条件を満たす単語を優先的に選択する。
ここで、上記の所定の条件とは、例えば、「グループ内の単語のうち結束度の高い順に75%、残りの25%は結束度が低いものから順に選択する」などの条件である。結束度の高い単語のみを選択すると、頻繁に出現する単語のみが収集されるため、シード単語と類似の単語が収集される精度は高くなるが、収集される単語の数は少なくなり収集効率は悪化する。したがって、収集精度よりも収集効率を重視した単語収集を行いたい場合には、上記のような条件を採用することが望ましい。
また、収集効率よりも収集精度を重視した単語収集を行いたい場合には、「グループ内の単語のうち結束度の高い順に選択する」などの条件を採用することが望ましい。
なお、このような単語選択の条件を定義する条件情報が、予め、辞書作成装置300の記憶部に記憶されているものとする。
単語間結束度記憶部302は、クラスタリング部103によって算出された単語間の結束度を記憶する。具体的には、図14に示すように、単語間結束度記憶部302には、2つの単語と、その2つの単語間の結束度とが対応付けられて記憶される。例えば、図14の先頭のエントリから、「レストランS」と「レストランT」との間の結束度は0.9とわかる。
なお、その他の各部(入力部101、辞書増殖部102、クラスタリング部103、種別判別部104、出力部105、文書記憶部106、収集過程記憶部107、収集単語記憶部108、再実行部202、単語グループ記憶部203)は、第2実施形態と同様の処理を行うため、ここでは説明を省略する。
続いて、辞書作成装置300で実施される処理の動作について説明する。
なお、予め、収集の際に採用する結束度に関するグループから単語を選択するための条件が設定されているものとする。また、グループからは4つの単語を選択するものとする。
ユーザは、入力部101を操作して、辞書を作成することを指示する。この指示操作に応じて、辞書作成装置300は、第2実施形態と同様の図11に示す辞書作成処理を行う。
まず、第二単語選択部301は、単語グループ記憶部203を参照して、未収集のグループを1つ選択し、単語間結束度記憶部302を参照して、所定の条件に基づいて、選択したグループ内の単語のうちから所定数(4つ)の単語をシード単語として選択する(ステップS50)。
例えば、「グループ内の単語のうち結束度の高い順に75%、残りの25%は結束度が低いものから順に選択する」条件が設定されている場合を考える。即ち、結束度の高い単語を3つ、結束度の低い単語を1つ選択することとなる。
この場合、第二単語選択部301は、まず、グループ内の単語のうち、単語間の結束度が最も高い2単語を選択する。次に、第二単語選択部301は、その2つの単語それぞれと結束度が最も高い単語を1つ選択する。そして、第二単語選択部301は、これら3つの単語それぞれと、結束度の低い単語を1つ選択する。
以降の処理は、第2実施形態と同様である。
即ち、辞書増殖部102は、第二単語選択部301によって選択された4つの単語をシード単語として、同種の単語を収集する辞書増殖処理を行う(ステップS100)。続いて、クラスタリング部103が、収集された単語をクラスタリングする(ステップS200)。なお、この際、クラスタリング部103は、クラスタリングするために算出した単語とその単語間の結束度とを、単語間結束度記憶部302に記録する。そして、種別判別部104が、クラスタ毎に、クラスタがシード単語と同種の単語から構成されるか否かを判別する(ステップS300)。そして、再実行部202が、収集した単語をグルーピングする(ステップS330)。そして、未収集のグループがある場合は(ステップS360;Yes)、未収集のグループからシード単語を選択して単語を収集する処理を繰り返し、未収集のグループがない場合は(ステップS360;No)、処理は終了する。
このように、本実施形態では、グループ内の単語をランダムに選択するのではなく、単語間の結束度を考慮して単語を選択する。従って、種々の場面に対応した単語収集が可能となる。
なお、本各実施形態は種々の変形、および、応用が可能である。
例えば、上記各実施形態では、文書記憶部106に記憶されている文書から単語を抽出したが、これに限らず、例えば、インターネット検索エンジンを用いて、インターネット上のWebページから、単語を抽出してもよい。
図15は、本発明の各実施形態に係る辞書作成装置100,200,300をコンピュータに実装する場合の、物理的な構成の一例を示すブロック図である。本発明の各実施形態に係る辞書作成装置100,200,300は、一般的なコンピュータ装置と同様のハードウェア構成によって実現することができる。辞書作成装置100,200,300は、制御部21、主記憶部22、外部記憶部23、操作部24、表示部25および入出力部26を備える。主記憶部22、外部記憶部23、操作部24、表示部25および入出力部26はいずれも内部バス20を介して制御部21に接続されている。
制御部21はCPU(Central Processing Unit)等から構成され、外部記憶部23に記憶されている制御プログラム30に従って、前述した各実施形態における辞書作成処理を実行する。
主記憶部22はRAM(Random-Access Memory)等から構成され、外部記憶部23に記憶されている制御プログラム30をロードし、制御部21の作業領域として用いられる。
外部記憶部23は、フラッシュメモリ、ハードディスク、DVD−RAM(Digital Versatile Disc Random-Access Memory)、DVD−RW(Digital Versatile Disc ReWritable)等の不揮発性メモリから構成され、上述の処理を制御部21に行わせるための制御プログラム30を予め記憶する。また、外部記憶部23は、制御部21の指示に従って、この制御プログラム30が記憶するデータを制御部21に供給し、制御部21から供給されたデータを記憶する。また、外部記憶部23は、上述した各実施形態における文書記憶部106、収集過程記憶部107、収集単語記憶部108、単語グループ記憶部203、および、単語間結束度記憶部302を物理的に実現する。
操作部24はキーボードおよびマウスなどのポインティングデバイス等と、キーボードおよびポインティングデバイス等を内部バス20に接続するインターフェース装置等から構成されている。操作部24を介して、シード単語や辞書作成処理の開始の指示が制御部21に供給される。
表示部25は、CRT(Cathode Ray Tube)またはLCD(Liquid Crystal Display)などから構成され、種々の情報を表示する。例えば、表示部25は、収集された各単語を、クラスタ毎に、シード単語と同種であるか異種であるかの情報を付して表示する。
入出力部26は、無線送受信機、無線モデムまたは網終端装置、およびそれらと接続するシリアルインタフェースまたはLAN(Local Area Network)インタフェース等から構成されている。例えば、入出力部26を介して、インターネット上のWebページから単語を収集してもよい。
図1、図9、および図13に示す辞書作成装置100,200,300の辞書増殖部102、クラスタリング部103、種別判別部104、出力部105、単語選択部201、再実行部202、および、第二単語選択部301の処理は、制御プログラム30が、制御部21、主記憶部22、外部記憶部23、操作部24、表示部25および入出力部26などを資源として用いて処理することによって実行する。
なお、前記のハードウエェア構成やフローチャートは一例であり、任意に変更および修正が可能である。
また、制御部21、主記憶部22、外部記憶部23、操作部24、入出力部26および内部バス20などから構成される辞書作成装置100,200,300の処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD−ROM、DVD−ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する辞書作成装置100,200,300を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで辞書作成装置100,200,300を構成してもよい。
また、辞書作成装置100,200,300の機能を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。
また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。
本発明は2009年12月11日に出願された日本国特許出願2009−282304号に基づく。本明細書中に日本国特許出願2009−282304号の明細書、特許請求の範囲、図面全体を参照として取り込むものとする。
100 辞書作成装置
101 入力部
102 辞書増殖部
103 クラスタリング部
104 種別判別部
105 出力部
106 文書記憶部
107 収集過程記憶部
108 収集単語記憶部

Claims (11)

  1. 単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録手段と、
    前記入出力過程記録手段に記録された情報に基づいて、前記入出力の過程における前記入力単語及び前記出力単語の類似度を用いて、前記辞書増殖処理で収集された単語を複数のクラスタに分類するクラスタ分類手段と、
    前記入出力過程記録手段に記録された情報を参照し、前記クラスタ分類手段が分類したクラスタ毎に、該クラスタ内の単語が最初に入力を受け付けた入力単語からクラスタ内の各単語を出力するまでに要したターン数及び当該クラスタ内の各単語が最初に入力を受け付けた入力単語を出力するまでに要したターン数に基づいて、クラスタ内の単語が入力単語と同じ種類の単語であるか否かを判別する同種判別手段と、
    前記辞書増殖処理で収集された単語と、該単語が属するクラスタと、該クラスタを構成する単語が最初に入力を受け付けた入力単語と同じ種類の単語であるか否かを示す情報と、を関連付けて出力する収集単語出力手段と、
    を備えることを特徴とする辞書作成装置。
  2. 単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで単語を収集する辞書増殖手段をさらに備える、
    ことを特徴とする請求項1に記載の辞書作成装置。
  3. 前記入出力過程記録手段は、複数回の入出力を繰り返した、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する、
    ことを特徴とする請求項1又は2に記載の辞書作成装置。
  4. 前記クラスタ分類手段は、前記入出力過程記録手段に記録されている情報から、前記辞書増殖処理で収集した単語のうち共通の単語を入力にする単語同士、又は共通の単語を出力する単語同士ほどその値が大きくなる値を示す単語間の結束度を算出し、算出した結束度に基づいて、単語をクラスタに分類する、
    ことを特徴とする請求項1乃至3の何れか1項に記載の辞書作成装置。
  5. 前記同種判別手段は、前記入出力過程記録手段に記録されている情報に基づいて、クラスタ毎に、最初に入力を受け付けた入力単語から当該クラスタ内の各単語を出力するまでに要したターン数、及び当該クラスタ内の各単語が最初に入力を受け付けた入力単語を出力するまでに要したターン数を算出し、算出したターン数の平均値を用いて、当該クラスタ内の単語が最初に入力を受け付けた入力単語と同種であるか異種であるかの判別をする、
    ことを特徴とする請求項1乃至4の何れか1項に記載の辞書作成装置。
  6. 前記辞書増殖処理で収集された単語を種類毎に、複数の単語グループに分類して記憶する、単語グループ記憶手段と、
    所定の条件を満たす一の単語グループのなかから所定数の単語を選択する単語選択手段と、をさらに備え、
    前記単語選択手段が選択した単語を入力単語とした前記辞書増殖処理を実行し、
    前記同種判別手段は、前記入出力過程記録手段に記録された情報に基づいて、前記クラスタ分類手段が分類したクラスタ毎に、該クラスタ内の単語が前記単語選択手段が選択した入力単語と同じ種類の単語であるか否かを判別する、
    ことを特徴とする請求項1乃至5の何れか1項に記載の辞書作成装置。
  7. 前記同種判別手段が判別した結果に基づいて、前記辞書増殖処理で収集された単語を前記単語グループ記憶手段に登録し、登録した単語グループのうち所定の条件を満たす単語グループがある場合に、前記単語選択手段に単語の選択を指示する再実行手段をさらに備え、
    前記再実行手段は、収集単語を前記単語グループ記憶手段に登録する際、収集単語の属するクラスタが前記単語選択手段が選択した単語と同種の単語である場合には当該選択した単語と同じ単語グループに当該収集単語を登録し、異種であり且つ既に前記単語グループ記憶手段に記憶されている単語である場合には該記憶されている単語と同じ単語グループに収集単語を登録し、異種であり且つ未だ前記単語グループ記憶手段が記憶していない単語である場合には収集単語を新規の単語グループに登録する、
    ことを特徴とする請求項6に記載の辞書作成装置。
  8. 前記入出力過程記録手段に記録されている情報から算出された、前記辞書増殖処理で収集した単語のうち共通の単語を入力にする単語同士、又は共通の単語を出力する単語同士ほどその値が大きくなる値を示す単語間の結束度を記憶する結束度記憶手段をさらに備え、
    前記単語選択手段は、前記一の単語グループ内の単語間の結束度に基づいて、所定数の単語を選択する、
    ことを特徴とする請求項6又は7に記載の辞書作成装置。
  9. 前記単語選択手段は、結束度の大きい順に単語を選択する割合、又は、結束度の小さい順に単語を選択する割合、が少なくとも予め設定されている条件情報に基づいて、所定数の単語を選択する、
    ことを特徴とする請求項8に記載の辞書作成装置。
  10. コンピュータが、単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで単語を収集した辞書増殖処理における入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録ステップと、
    コンピュータが、前記入出力過程記録ステップに記録された情報に基づいて、前記入出力の過程における前記入力単語及び前記出力単語の類似度を用いて、前記辞書増殖処理で収集された単語を複数のクラスタに分類するクラスタ分類ステップと、
    コンピュータが、前記入出力過程記録ステップに記録された情報を参照し、前記クラスタ分類ステップが分類したクラスタ毎に、該クラスタ内の単語が最初に入力を受け付けた入力単語からクラスタ内の各単語を出力するまでに要したターン数及び当該クラスタ内の各単語が最初に入力を受け付けた入力単語を出力するまでに要したターン数に基づいて、クラスタ内の単語が入力単語と同じ種類の単語であるか否かを判別する同種判別ステップと、
    コンピュータが、前記辞書増殖処理で収集された単語と、該単語が属するクラスタと、該クラスタを構成する単語が最初に入力を受け付けた入力単語と同じ種類の単語であるか否かを示す情報と、を関連付けて出力する収集単語出力ステップと、
    を備えることを特徴とする単語収集方法。
  11. コンピュータを、
    単語の入力を受け付け、入力された入力単語に関連する単語を文書データから出力し、以降は所定の条件に達するまで出力した単語を前記入力単語に追加し、該入力単語に関連する単語を文書データから出力することを繰り返していくことで単語を収集する辞書増殖処理における、入力単語と該入力単語によって出力された出力単語との入出力の過程を示す情報を記録する入出力過程記録手段、
    前記入出力過程記録手段に記録された情報に基づいて、前記入出力の過程における前記入力単語及び前記出力単語の類似度を用いて、前記辞書増殖処理で収集された単語を複数のクラスタに分類するクラスタ分類手段、
    前記入出力過程記録手段に記録された情報を参照し、前記クラスタ分類手段が分類したクラスタ毎に、該クラスタ内の単語が最初に入力を受け付けた入力単語からクラスタ内の各単語を出力するまでに要したターン数及び当該クラスタ内の各単語が最初に入力を受け付けた入力単語を出力するまでに要したターン数に基づいて、クラスタ内の単語が入力単語と同じ種類の単語であるか否かを判別する同種判別手段、
    前記辞書増殖処理で収集された単語と、該単語が属するクラスタと、該クラスタを構成する単語が最初に入力を受け付けた入力単語と同じ種類の単語であるか否かを示す情報と、を関連付けて出力する収集単語出力手段、
    として機能させるプログラム。
JP2011545194A 2009-12-11 2010-12-03 辞書作成装置、単語収集方法、及び、プログラム Active JP5708495B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011545194A JP5708495B2 (ja) 2009-12-11 2010-12-03 辞書作成装置、単語収集方法、及び、プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009282304 2009-12-11
JP2009282304 2009-12-11
PCT/JP2010/071696 WO2011070980A1 (ja) 2009-12-11 2010-12-03 辞書作成装置
JP2011545194A JP5708495B2 (ja) 2009-12-11 2010-12-03 辞書作成装置、単語収集方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JPWO2011070980A1 JPWO2011070980A1 (ja) 2013-04-22
JP5708495B2 true JP5708495B2 (ja) 2015-04-30

Family

ID=44145525

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011545194A Active JP5708495B2 (ja) 2009-12-11 2010-12-03 辞書作成装置、単語収集方法、及び、プログラム

Country Status (3)

Country Link
US (1) US20120303359A1 (ja)
JP (1) JP5708495B2 (ja)
WO (1) WO2011070980A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10133636B2 (en) 2013-03-12 2018-11-20 Formulus Black Corporation Data storage and retrieval mediation system and methods for using same
US9817728B2 (en) 2013-02-01 2017-11-14 Symbolic Io Corporation Fast system state cloning
US9628108B2 (en) 2013-02-01 2017-04-18 Symbolic Io Corporation Method and apparatus for dense hyper IO digital retention
US9304703B1 (en) * 2015-04-15 2016-04-05 Symbolic Io Corporation Method and apparatus for dense hyper IO digital retention
US10061514B2 (en) 2015-04-15 2018-08-28 Formulus Black Corporation Method and apparatus for dense hyper IO digital retention
US20170083013A1 (en) * 2015-09-23 2017-03-23 International Business Machines Corporation Conversion of a procedural process model to a hybrid process model
CN106649563B (zh) * 2016-11-10 2022-02-25 新华三技术有限公司 一种网站分类字典的构建方法及装置
WO2019126072A1 (en) 2017-12-18 2019-06-27 Formulus Black Corporation Random access memory (ram)-based computer systems, devices, and methods
US11163952B2 (en) * 2018-07-11 2021-11-02 International Business Machines Corporation Linked data seeded multi-lingual lexicon extraction
WO2020142431A1 (en) 2019-01-02 2020-07-09 Formulus Black Corporation Systems and methods for memory failure prevention, management, and mitigation
JP7384354B2 (ja) * 2020-02-04 2023-11-21 本田技研工業株式会社 情報処理装置、情報処理方法およびプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007207218A (ja) * 2006-01-06 2007-08-16 Sony Corp 情報処理装置および方法、並びにプログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311152B1 (en) * 1999-04-08 2001-10-30 Kent Ridge Digital Labs System for chinese tokenization and named entity recognition
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
AU5451800A (en) * 1999-05-28 2000-12-18 Sehda, Inc. Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces
US20020099730A1 (en) * 2000-05-12 2002-07-25 Applied Psychology Research Limited Automatic text classification system
GB2362238A (en) * 2000-05-12 2001-11-14 Applied Psychology Res Ltd Automatic text classification
US6941513B2 (en) * 2000-06-15 2005-09-06 Cognisphere, Inc. System and method for text structuring and text generation
US6892189B2 (en) * 2001-01-26 2005-05-10 Inxight Software, Inc. Method for learning and combining global and local regularities for information extraction and classification
US6970881B1 (en) * 2001-05-07 2005-11-29 Intelligenxia, Inc. Concept-based method and system for dynamically analyzing unstructured information
JP2003242176A (ja) * 2001-12-13 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
US7454430B1 (en) * 2004-06-18 2008-11-18 Glenbrook Networks System and method for facts extraction and domain knowledge repository creation from unstructured and semi-structured documents
US7624102B2 (en) * 2005-01-28 2009-11-24 Microsoft Corporation System and method for grouping by attribute
US20060188864A1 (en) * 2005-01-31 2006-08-24 Pankaj Shah Automated transfer of data from PC clients
WO2006121051A1 (ja) * 2005-05-09 2006-11-16 Justsystems Corporation 文書処理装置および文書処理方法
US8200695B2 (en) * 2006-04-13 2012-06-12 Lg Electronics Inc. Database for uploading, storing, and retrieving similar documents
US7822701B2 (en) * 2006-06-30 2010-10-26 Battelle Memorial Institute Lexicon generation methods, lexicon generation devices, and lexicon generation articles of manufacture
US8196039B2 (en) * 2006-07-07 2012-06-05 International Business Machines Corporation Relevant term extraction and classification for Wiki content
CN101136020A (zh) * 2006-08-31 2008-03-05 国际商业机器公司 自动扩展参考数据的系统和方法
JP5283208B2 (ja) * 2007-08-21 2013-09-04 国立大学法人 東京大学 情報検索システム及び方法及びプログラム並びに情報検索サービス提供方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007207218A (ja) * 2006-01-06 2007-08-16 Sony Corp 情報処理装置および方法、並びにプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6014024140; 水口 弘紀、河合 英紀、土田 正明、久寿居 大: 'Web知識を利用したブートストラップによる辞書増殖手法,電子情報通信学会 第18回データ工学ワークショ' [online] [検索日 2014.6.3],インターネット, 20070601, 電子情報通信学会 *
JPN6014024141; 大島 裕明、田中 克己: '正解語ペア漸増による関連語取得のための両方向構文パターン発見' 第1回データ工学と情報マネジメントに関するフォーラム -DEIMフォーラム- 論文集 ,[online] [検索日 2014.6.3],インターネット, 20090509, 電子情報通信学会 *

Also Published As

Publication number Publication date
WO2011070980A1 (ja) 2011-06-16
JPWO2011070980A1 (ja) 2013-04-22
US20120303359A1 (en) 2012-11-29

Similar Documents

Publication Publication Date Title
JP5708495B2 (ja) 辞書作成装置、単語収集方法、及び、プログラム
US20140298321A1 (en) Installation control method and installation control apparatus
CA3059929C (en) Text searching method, apparatus, and non-transitory computer-readable storage medium
WO2017067156A1 (zh) 一种歌单列表确定方法、装置、电子设备及存储介质
JP2014130489A (ja) データ格納プログラム、データ検索プログラム、データ検索装置、データ格納方法及びデータ検索方法
JP2010541092A5 (ja)
JP5761029B2 (ja) 辞書作成装置、単語収集方法、及び、プログラム
CN109241360B (zh) 组合字符串的匹配方法及装置和电子设备
JP5980520B2 (ja) 効率的にクエリを処理する方法及び装置
JP6705764B2 (ja) 生成装置、生成方法、及び生成プログラム
JP5600693B2 (ja) クラスタリング装置及び方法及びプログラム
JP5716966B2 (ja) データ分析装置、データ分析方法及びプログラム
JP5292247B2 (ja) コンテンツタグ収集方法、コンテンツタグ収集用プログラム、コンテンツタグ収集システム及びコンテンツ検索システム
JP2011100208A (ja) 行動推定装置、行動推定方法および行動推定プログラム
CN107402886B (zh) 堆栈分析方法及相关装置
JP2011175231A (ja) 地図データ
JP6536580B2 (ja) 文集合抽出システム、方法およびプログラム
CN112766288A (zh) 图像处理模型构建方法、装置、电子设备和可读存储介质
JPWO2016013175A1 (ja) テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
JP5494066B2 (ja) 検索装置、検索方法および検索プログラム
JP5188290B2 (ja) アノテーション装置、アノテーション方法およびプログラム
JP2020166443A (ja) データ加工方法レコメンドシステム、データ加工方法レコメンド方法、及びデータ加工方法レコメンドプログラム
KR20190139227A (ko) K-부정합 검색을 위한 필터를 생성하는 시스템 및 방법
JP5903372B2 (ja) キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム
JP6270702B2 (ja) ディジタルコンテンツ情報系列生成装置、方法、及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140610

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150216

R150 Certificate of patent or registration of utility model

Ref document number: 5708495

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150