JP6201702B2 - 意味情報分類プログラム及び情報処理装置 - Google Patents

意味情報分類プログラム及び情報処理装置 Download PDF

Info

Publication number
JP6201702B2
JP6201702B2 JP2013253301A JP2013253301A JP6201702B2 JP 6201702 B2 JP6201702 B2 JP 6201702B2 JP 2013253301 A JP2013253301 A JP 2013253301A JP 2013253301 A JP2013253301 A JP 2013253301A JP 6201702 B2 JP6201702 B2 JP 6201702B2
Authority
JP
Japan
Prior art keywords
label
token
semantic
cluster
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013253301A
Other languages
English (en)
Other versions
JP2015111350A (ja
Inventor
圭悟 服部
圭悟 服部
康秀 三浦
康秀 三浦
大熊 智子
智子 大熊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2013253301A priority Critical patent/JP6201702B2/ja
Publication of JP2015111350A publication Critical patent/JP2015111350A/ja
Application granted granted Critical
Publication of JP6201702B2 publication Critical patent/JP6201702B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、意味情報分類プログラム及び情報処理装置に関する。
従来の技術として、単語と単語の特定の文脈における共起頻度に基づいて単語の意味を分類する情報処理装置が提案されている(例えば、特許文献1参照)。
特許文献1に開示された情報処理装置は、単語と単語の特定の文脈における共起頻度に基づいてベクトルを作成して、クラスタリングを実施し、2つのクラスタを統合する前後でMDL(Minimum Description Length)基準における全体の記述長が減少する場合に当該2つのクラスタを統合する。つまり、同じクラスタに分類された単語は同一の意味を有する単語であるとして分類される。これは単語の共起語が類似する場合は単語の意味が類似するという前提に基づくものである。
特開平11−143875号公報
本発明の目的は、トークン(形態素又は文字列)の共起語が類似するが、用法によっては意味が類似しないトークンの意味を表す意味情報を分類する意味情報分類プログラム及び情報処理装置を提供することにある。
本発明の一態様は、上記目的を達成するため、以下の意味情報分類プログラム及び情報処理装置を提供する。
[1]コンピュータを、
複数の文のそれぞれに含まれるトークンに基づいて、前記複数の文のそれぞれに付与されるラベルを多値分類により推定するラベル推定手段と、
前記ラベルが付与された前記複数の文に含まれるトークンに基づいて、前記ラベルに共起する頻度の高いトークンを関連語とし、前記ラベルと当該関連語との組み合わせである意味情報を生成する意味情報生成手段と、
前記意味情報の関連語に基づいて前記ラベルをクラスタリングし、複数のラベルが所属する意味クラスタを生成するクラスタ生成手段と、
前記複数の文に含まれる一の文において、前記意味クラスタに所属する一のラベルの元となるトークンと、他のラベルの元となるトークンとを置換し、当該置換したトークンのラベルを推定し、確信度の高いラベルを推定ラベルとして当該推定ラベルが、置換前のトークンのラベルが所属する意味クラスタに所属しない場合に、前記他のラベルを削除して更新するクラスタ更新手段として機能させるための意味情報分類ブログラム。
[2]コンピュータを、
複数の文のそれぞれに含まれるトークンに基づいて、前記複数の文のそれぞれに付与されるラベルを多値分類により推定するラベル推定手段と、
前記ラベルが付与された前記複数の文に含まれるトークンに基づいて、前記ラベルに共起する頻度の高いトークンを関連語とし、前記ラベルと当該関連語との組み合わせである意味情報を生成する意味情報生成手段と、
前記意味情報の関連語に基づいて前記ラベルをクラスタリングし、複数のラベルが所属する意味クラスタを生成するクラスタ生成手段と、
前記複数の文に含まれる一の文において、前記意味クラスタに所属する一のラベルの元となるトークンと、他のラベルの元となるトークンとを置換し、当該置換したトークンのラベルを推定し、前記他のラベルの所属する意味クラスタのそれぞれから当該他のラベルを除くラベルを無作為に取得し、前記複数の文に含まれる一の文において、取得したラベルの元となるトークンで前記一のラベルの元となるトークンを置換し、置換したトークンのラベルを推定し、確信度の高いラベルを推定ラベルとして当該推定ラベルが、前記置換前のトークンの推定ラベルと一致する割合が予め定めた値以上である場合、異なる意味クラスタに属する前記他のラベルを前記意味クラスタに追加して更新するクラスタ更新手段として機能させるための意味情報分類ブログラム。
[3]複数の文のそれぞれに含まれるトークンに基づいて、前記複数の文のそれぞれに付与されるラベルを多値分類により推定するラベル推定手段と、
前記ラベルが付与された前記複数の文に含まれるトークンに基づいて、前記ラベルに共起する頻度の高いトークンを関連語とし、前記ラベルと当該関連語との組み合わせである意味情報を生成する意味情報生成手段と、
前記意味情報の関連語に基づいて前記ラベルをクラスタリングし、複数のラベルが所属する意味クラスタを生成するクラスタ生成手段と、
前記複数の文に含まれる一の文において、前記意味クラスタに所属する一のラベルの元となるトークンと、他のラベルの元となるトークンとを置換し、当該置換したトークンのラベルを推定し、確信度の高いラベルを推定ラベルとして当該推定ラベルが、置換前のトークンのラベルが所属する意味クラスタに所属しない場合に、前記他のラベルを削除して更新するクラスタ更新手段とを有する情報処理装置。
[4]複数の文のそれぞれに含まれるトークンに基づいて、前記複数の文のそれぞれに付与されるラベルを多値分類により推定するラベル推定手段と、
前記ラベルが付与された前記複数の文に含まれるトークンに基づいて、前記ラベルに共起する頻度の高いトークンを関連語とし、前記ラベルと当該関連語との組み合わせである意味情報を生成する意味情報生成手段と、
前記意味情報の関連語に基づいて前記ラベルをクラスタリングし、複数のラベルが所属する意味クラスタを生成するクラスタ生成手段と、
前記複数の文に含まれる一の文において、前記意味クラスタに所属する一のラベルの元となるトークンと、他のラベルの元となるトークンとを置換し、当該置換したトークンのラベルを推定し、前記他のラベルの所属する意味クラスタのそれぞれから当該他のラベルを除くラベルを無作為に取得し、前記複数の文に含まれる一の文において、取得したラベルの元となるトークンで前記一のラベルの元となるトークンを置換し、置換したトークンのラベルを推定し、確信度の高いラベルを推定ラベルとして当該推定ラベルが、前記置換前のトークンの推定ラベルと一致する割合が予め定めた値以上である場合、異なる意味クラスタに属する前記他のラベルを前記意味クラスタに追加して更新するクラスタ更新手段とを有する情報処理装置。
請求項1又は3に係る発明によれば、他のラベルの元となるトークンで一のラベルの元となるトークンを置換した場合に意味が類似しない場合、他のラベルを削除することができる。
請求項2又4に係る発明によれば、他のラベルの元となるトークンで一のラベルの元となるトークンを置換した場合に意味が類似する場合、他のラベルを追加することができる。
図1は、情報処理装置の構成の一例を示すブロック図である。 図2(a)及び(b)は、形態素解析手段の動作例を説明するための図である。 図3は、ラベル推定手段の動作例を説明するための図である。 図4Aは、ラベル推定手段の他の動作例を説明するための図である。 図4Bは、ラベル推定手段の動作の変形例を説明するための図である。 図5Aは、意味情報生成手段の動作例を説明するための図である。 図5Bは、意味情報生成手段の動作の変形例を説明するための図である。 図6(a)及び(b)は、意味クラスタ生成手段の動作例を説明するための図である。 図7は、意味クラスタの具体例を示す図である。 図8は、意味クラスタ更新手段の動作例を説明するための図である。 図9(a)及び(b)は、意味クラスタ更新動作を説明するための図である。 図10(a)及び(b)は、意味クラスタ更新動作を説明するための図である。 図11(a)及び(b)は意味クラスタ更新動作を説明するための図である。 図12(a)及び(b)は、ラベル削除動作の一例を説明するための図である。 図13(a)−(c)は、ラベル削除動作の一例を説明するための図である。 図14(a)−(c)は、ラベル削除動作の他の例を説明するための図である。 図15(a)−(c)は、ラベル削除動作の他の例を説明するための図である。 図16は、ラベル削除動作の試行結果を示す概略図である。 図17(a)及び(b)は、ラベル追加動作の一例を説明するための図である。 図18(a)−(c)は、ラベル追加動作の一例を説明するための図である。 図19(a)及び(b)は、ラベル追加動作の一例を説明するための図である。 図20は、ラベル追加動作の他の例を説明するための図である。 図21は、情報処理装置の動作の概要を説明するためのフローチャートである。 図22は、意味クラスタ更新手段の動作例を示すフローチャートである。
[実施の形態]
(情報処理装置の構成)
図1は、情報処理装置1の構成の一例を示すブロック図である。
この情報処理装置1は、複数の文を有する大規模データから抽出される形態素又は文字列(以下、「トークン」という。)について、当該トークンの共起語(関連語)に基づいてトークンの意味を表す意味情報を生成し、当該意味情報の共起語に基づいて意味が類似する意味情報を同一クラスタに分類し、さらに用法によっては意味が異なり互いに置換できないトークンの意味情報をクラスタから削除し、他のクラスタに所属していても互いに置換できるトークンの意味情報をクラスタに追加して分類するものである。
情報処理装置1は、CPU(Central Processing Unit)等から構成され各部を制御するとともに各種のプログラムを実行する制御部10と、HDD(Hard Disk Drive)やフラッシュメモリ等の記録媒体から構成され情報を記憶する記憶装置の一例としての記憶部11と、外部のデータベース等と図示しないネットワークを介して接続される通信部12とを備える。
制御部10は、後述する意味情報分類プログラム110を実行することで、形態素解析手段100、ラベル推定手段101、意味情報生成手段102、意味クラスタ生成手段103及び意味クラスタ更新手段104等として機能する。
形態素解析手段100は、大規模データ111に含まれるデータを、例えば、文を単位としてそれぞれ形態素解析して、文をトークンの組み合わせに置き換える。
ラベル推定手段101は、それぞれの文に含まれるトークンに基づいてそれぞれの文にラベルを付与し、各ラベルを多値分類する。
意味情報生成手段102は、ラベル推定手段101の多値分類の結果に基づいて各ラベルに対して共起するスコアの高いトークンを関連語とし、ラベルと関連語の組み合わせである意味情報データ112を生成する。
意味クラスタ生成手段103は、意味情報データ112に基づいて関連語が類似するラベル同士を、意味の類似するラベルの集合としてクラスタリングして意味クラスタ113を生成する。
意味クラスタ更新手段104は、同じクラスタに属するラベルであっても、用法によって置換できないラベルを削除するとともに、異なるクラスタに属するが用法によって置換できるラベルを追加して意味クラスタ113を更新する。
記憶部11は、意味情報分類プログラム110、大規模データ111、意味情報データ112及び意味クラスタ113等を格納する。
意味情報分類プログラム110は、制御部10で実行することにより制御部10を上記した各手段100〜104として機能させるプログラムである。
大規模データ111は、一例として、日本語であって文又は文書の集合である。文は、電子メールでやりとりされるテキスト情報や、複数の利用者によって文字情報が投稿されるマイクロブログ(Microblog)、音声をテキスト化した情報や、印刷された紙面を光学走査して得られる情報等である。なお、大規模データ111は、日本語に限らず他の言語を用いてもよい。なお、大規模データ111は、外部から取得する構成であってもよい。
なお、情報処理装置1は、例えば、サーバ装置やパーソナルコンピュータであり、携帯電話等や携帯情報処理端末を用いることができる。
(情報処理装置の動作)
次に、本実施の形態の作用を、(1)動作の概要、(2)意味クラスタ更新動作に分けて説明する。
(1)動作の概要
図21は、情報処理装置1の動作の概要を説明するためのフローチャートである。図2(a)及び(b)は、形態素解析手段100の動作例を説明するための図である。
まず、形態素解析手段100は、大規模データ111から文を順次取得する(S1)。図2(a)に示すように、「プログラムを走らせる」という文111aを取得した場合について説明する。
次に、取得した文111aをそれぞれ形態素解析して文をトークンの組み合わせに置き換える(S2)。図2(b)に示すように、「プログラム」というトークン100a、「を」というトークン100a、「走る」というトークン100a、「せる」というトークン100aの組み合わせ100aに置き換える。
図3は、ラベル推定手段101の動作例を説明するための図である。
次に、ラベル推定手段101は、それぞれの文に含まれるトークンに基づいてそれぞれのトークンの組み合わせにラベルを付与する(S3)。図3に示す例では、組み合わせ100aに含まれるトークン100aに基づいてラベル101a11、101a12…が付与され、トークン100aに基づいてラベル101a21が付与され、トークン100aに基づいてラベル101a31、101a32…が付与され、トークン100aに基づいてラベル101a41が付与される。ここで、特定の品詞(動詞、名詞、形容詞、副詞等)にはラベルを5つ付け、それ以外(助詞、助動詞等)にはラベルを1つ付けている。なお、以下においてラベル101a11、101a12…、ラベル101a21、ラベル101a31、101a32…等を「ラベル101a」と総称する場合もある。
なお、ラベル推定手段101は、特定の品詞(動詞、名詞、形容詞、副詞等)にのみラベル101aを付与して、その他には付与しないようにしてもよい。
図4Aは、ラベル推定手段101の多値分類の動作例を説明するための図である。
次に、ラベル推定手段101は、各ラベル101aを多値分類する(S4)。その結果として、図4Aに示すように各ラベル101aのそれぞれが文100a、100b…に関連付けられる。つまり、例えば「走る−1」というラベル101a31であれば、同様の意味で用いられていると考えられる文100a及び100bに関連付けられる。言い換えれば、ラベルはトークンが複数の意味を持つ場合に、その意味の1つの側面を示すものである。
なお、多値分類のモデルとして、PLSI(Probabilistic Latent Semantic Indexing)、LDA(Latent Dirichlet Allocation)、LLDA(Labeled Latent Dirichlet Allocation)、PLDA(Partially Labeled Latent Dirichlet Allocation)等を用いることができ、以降ではLLDAを採用した場合について説明する。また、クラスタリング手法や機械学習手法を用いてもよい。
図4Bは、ラベル推定手段101の多値分類の動作の変形例を説明するための図である。
ラベル推定手段101は、ラベル101aの多値分類の変形例として、すべての文に関連付けられる「BG−1」というラベル101aBGを設定してもよい。これにより、後述する意味情報生成手段102の動作の変形例において、すべての文において用いられる助詞、助動詞、代名詞等のノイズとなりうるトークンをラベル101aの関連語から排除できる(図5B参照)。
図5Aは、意味情報生成手段102の動作例を説明するための図である。
次に、意味情報生成手段102は、ラベル推定手段101の多値分類の結果に基づいて各ラベル101aに共起するスコアの高いトークンを関連語とし、ラベル101aと関連語の組み合わせである意味情報データ112を生成する(S5)。図5Aに示す意味情報データ102aは、意味情報データ112のうちラベル101a31〜101a35についての意味情報データである。例えば、「走る」というトークンが、「走る−1」というラベル101a31の意味で用いられる場合、当該ラベル101a31が関連づけられている文において出現するトークンを関連語の集合101b31とし、各関連語の出現頻度に基づいて「[]」で示されるスコアが算出される。
なお、「走る」というトークンのラベル101a31〜101a35において「走る」というトークンがスコア最上位で含まれるのは当然の結果であるため、関連語の集合101b31〜101b35から削除してもよい。
図5Bは、意味情報生成手段102の動作の変形例を説明するための図である。
なお、意味情報生成手段102は、意味情報データ112の生成の変形例として、図4Bで説明したラベル101aBGを用いることで、助詞、助動詞、代名詞等のすべての文で頻繁に用いられるトークン(例えば、「に」、「が」、「を」等)がスコア上位に現れるが、これらはノイズであるため、他のラベル101a31〜101a35の関連語から削除してもよい。
図6(a)及び(b)は、意味クラスタ生成手段103の動作例を説明するための図である。
次に、意味クラスタ生成手段103は、同義語や上位・下位語、反意語等の意味的に似ているトークンは同じような文脈で用いられることが多いため、意味情報データ112に基づいて関連語が類似するラベル101a同士を、意味の類似するラベルの集合としてクラスタリングして意味クラスタ113を生成する(S6)。クラスタリング手法は、関連語をベクトルに見立てることで行うことができるが、ユークリッド距離等と閾値とを用いて行ってもよいし、k−meansやウォード法を用いてもよい。
例えば、図6(a)に示すように、「プログラム−1」というラベル101a11、「カリキュラム−2」というラベル101a62、…は、関連語101b11、101b62、…が類似するため、「プログラム−i」という意味クラスタ103aが生成される。なお、意味クラスタ103aの関連語103bは、関連語101b11と101b62のスコアを単純に加算したもの又は加算平均をとったものの上位を選択してもよいし、ウォード法を用いてクラスタの距離に基づいて選択してもよい。
また、図6(b)に示すように、「プログラム−3」というラベル101a13、「スクリプト−4」というラベル101a74、「アップデート−1」というラベル101a81、…は、関連語101b13、101b74、101b81…が類似するため、「プログラム−iii」という意味クラスタ103aが生成される。なお、以下において意味クラスタ103a、103a…等を「意味クラスタ103a」と総称する場合もある。
なお、上記したようにラベルの集合全体でクラスタリングする前に、同じトークンのラベルでクラスタリングしてもよい。例えば、「プログラム」というトークン100aのラベル101a11〜101a15である「プログラム−1」〜「プログラム−5」でクラスタリングしてもよい。これは過剰に分割された同じトークンのラベル101aを統合することを目的とするものである。
図7は、意味クラスタ113の具体例を示す図である。
上記した意味クラスタ生成手段103の動作により、意味クラスタ103aと、ラベル101aとを関連付けた意味クラスタ113aが生成される。
図8は、意味クラスタ更新手段104の動作例を説明するための図である。
次に、意味クラスタ更新手段104は、同じクラスタに属するラベルであっても、用法によって意味が異なり置換できないラベルを削除し、異なるクラスタに属するが意味が同じで用法によって置換できるラベルを正しいクラスタに追加して意味クラスタ113を更新する(S7)。
例えば、図8に示す例では、関連語101b13、101b74、101b81、101b104は類似するものの、ラベル101a13の「プログラム−3」やラベル101a74の「スクリプト−4」はコンピュータに様々な命令を与えるという意味を持つものであるのに対し、ラベル101a81の「アップデート−1」はコンピュータに特定の命令のみを与えるという意味を持つものであって意味が異なる。
また、ラベル101a104の「コンピュータ−4」は「コンピュータプログラム」という複合語で用いられる場合はラベル101a13の「プログラム−3」やラベル101a74の「スクリプト−4」と意味的に類似するが、「コンピュータを実行する」という用いられ方はしないため、用法として置換できないものである。意味クラスタ更新手段104は、ラベル101a81の「アップデート−1」やラベル101a104の「コンピュータ−4」のようなラベル101aを意味クラスタ103aから削除して更新する。なお、削除したラベル101a81及びラベル101a104は他の意味クラスタ103aに追加してもよい。
以下に、意味クラスタ113を更新する動作について詳細に説明する。
(2)意味クラスタ更新動作
(2−1)更新判定動作
意味クラスタ更新動作では、後述する「(2−2)ラベル削除動作」又は「(2−3)ラベル追加動作」を実行するが、意味クラスタ更新手段104はいずれを実行するべきか、まず判定する。
図22は、意味クラスタ更新手段104の動作例を示すフローチャートである。
まず、意味クラスタ更新手段104は、大規模データ111から文を取得し(S10)、それぞれの文を形態素解析手段100によって形態素解析して、当該文に含まれるトークンのラベルをラベル推定手段101によって推定する(S11)。なお、大規模データ111から複数の文を取得するものとし、大規模データ111のすべての文を取得してもよいし、一部を取得するものであってもよい。
以降、意味クラスタ更新動作において推定されるラベルを特に「推定ラベル」と呼ぶ。また、「(1)動作の概要」において作成された意味情報データ112のラベルはトークンの意味の1つの側面を表すものであり、以降においても単純に「ラベル」と呼ぶ。
図9(a)及び(b)は、意味クラスタ更新動作を説明するための図である。
図9(a)に示すように、取得した複数の文に含まれる一の文として、例えば、文100cを取得した場合、当該文には「プログラム」、「を」、「走る」、「せる」が含まれ、「プログラム」というトークン100cに着目すると、文100cに含まれる他のトークンとの関係から当該トークン100cには「プログラム−3」という推定ラベル101a11、「コンピュータ−4」という推定ラベル101a104、…が推定される。
意味クラスタ更新手段104は、図9(a)に示す推定ラベルのうち確信度が高い推定ラベル101a11の所属する意味クラスタ103aである「プログラム−iii」と、トークン100cのラベル101a11〜101a15つまり「プログラム−1」〜「プログラム−5」のいずれかが所属する意味クラスタとが一致するか判定する(S12)。
なお、確信度が高い推定ラベルとは、確信度が最も高いものであってもよいし、予め定めた閾値(例えば、0.30)を超えるものであってもよい。また、例えば、確信度が閾値を超えないものであっても、上位複数の推定ラベルの確信度を加算して閾値を超える場合は、上位複数の推定ラベルが同じ意味クラスタに所属するラベルであればこれらをマージして意味クラスタに置き換えて用いてもよい。
図9(b)に示すように、ラベル101a13の所属する意味クラスタは「プログラム−iii」の意味クラスタ103aであり、一致する(S12;Yes)。この場合、「(2−2)ラベル削除動作」(ステップS13−S15)へと進む。
これは、トークンの共起語が共通であるために同じクラスタに所属するものの集合であることを示しており、共起語が共通であっても他の用法では互いに置換可能ではない場合があり、そのよう場合に後述する(2−2)ラベル削除動作」において当該ラベルを削除するためである。
なお、「プログラムを走らせる」という文100cにおいて「プログラム」というトークン100cについて考えたとき、共起するトークンの意味の変化を考慮してもよい。例えば、「プログラム」というトークン100cを「スクリプト」、「アップデート」、「コンピュータ」に置換した場合に「走る」というトークンの推定ラベルに変化がある場合は意味が異なるとして置換したトークンのラベルを意味クラスタから削除してもよい。これは、「プログラム」、「スクリプト」、「アップデート」について「走る」は「実行する」という意味であるが、「コンピュータ」について「走る」は「実行する」という意味以外の意味となることを利用している。
図10(a)及び(b)は、意味クラスタ更新動作を説明するための図である。
また同様に、図10(a)に示すように、取得した複数の文に含まれる一の文として、例えば、文100dを取得した場合、当該文には「スクリプト」、「を」、「走る」、「せる」が含まれ、「スクリプト」というトークン100dに着目すると、当該トークン100dには「プログラム−3」という推定ラベル101a11、「スクリプト−4」という推定ラベル101a74、…が推定される。
意味クラスタ更新手段104は、図10(a)に示す推定ラベルのうち確信度が高い推定ラベル101a11の所属する意味クラスタ103aである「プログラム−iii」と、トークン100dのラベル101a71〜101a75つまり「スクリプト−1」〜「スクリプト−5」のいずれかが所属する意味クラスタとが一致するか判定する(S12)。
図10(b)に示すように、ラベル101a74の所属する意味クラスタは「プログラム−iii」の意味クラスタ103aであり、一致する(S12;Yes)。この場合、「(2−2)ラベル削除動作」(ステップS13−S15)へと進む。
図11(a)及び(b)は意味クラスタ更新動作を説明するための図である。
一方、図11(a)に示すように、取得した複数の文に含まれる一の文として、例えば、文100eを取得した場合、当該文には「Java」(登録商標)、「を」、「書く」が含まれ、「Java」というトークン100eに着目すると、当該トークン100eには「プログラム−3」という推定ラベル101a11、「Java−1」という推定ラベル101a111、…が推定される。
意味クラスタ更新手段104は、図11(a)に示す推定ラベルのうち確信度が高い推定ラベル101a11の所属する意味クラスタ103aである「プログラム−iii」と、トークン100eのラベル101a111〜101a115つまり「Java−1」〜「Java−5」のいずれかが所属する意味クラスタとが一致するか判定する(S12)。
図11(b)に示すように、「プログラム−iii」の意味クラスタ103aにはラベル101a111は含まれておらず、一致しない(S12;No)。この場合、「(2−3)ラベル追加動作」(ステップS16−S19)へと進む。
これは、「Java」というトークンが自己の「Java−1」〜「Java−5」というラベルの意味ではなく「プログラム−3」というラベルの意味において使用されることが多い可能性があることを示しており、仮にそうであれば「プログラム−3」というラベルを「Java」というトークンから派生するクラスタに追加するべきであるからである。
なお、「プログラムを走らせる」という文100cにおいて「プログラム」というトークン100cについて考えたとき、共起するトークンの意味の変化を考慮してもよい。例えば、「プログラム」というトークン100cを「Java」に置換した場合に「走る」というトークンの推定ラベルに変化がない場合は意味が同一又は類似するとして置換したトークンのラベルを意味クラスタに追加してもよい。
(2−2)ラベル削除動作
以下、図9(a)に示した文100cを取得した例について説明する。
図12(a)及び(b)は、ラベル削除動作の一例を説明するための図である。
意味クラスタ更新手段104は、図12(a)に示すように、取得した複数の文に含まれる一の文としての文100cにおいて、「プログラム」のトークン101cが所属する意味クラスタ103aのラベル101a13、101a74、101a81、101a104(図12(b))の元のトークン100c、100d、100f、100gで文100cのトークン101cを置き換える(S13)。
図13(a)−(c)は、ラベル削除動作の一例を説明するための図である。
図13(a)は、意味クラスタ103aのラベル101a13「プログラム−3」のトークン101cを用いて置換した場合であり、当該置換した文100c’についてトークン101cのラベル推定を行った結果、図13(b)に示すように、確信度の高い推定ラベルは「プログラム−3」のラベル101a13であって、意味クラスタ103aに所属するものである(S14;Yes)。この場合、図13(c)に示すように、1回目の試行であるため試行回数を「1」に、所属したため所属回数を「1」とする。所属率は試行回数に対する所属回数の割合である。
図14(a)−(c)は、ラベル削除動作の他の例を説明するための図である。
図14(a)は、意味クラスタ103aのラベル101a74「スクリプト−4」のトークン101dを用いて置換した場合であり、当該置換した文100c”についてトークン101dのラベル推定を行った結果、図14(b)に示すように、確信度の高い推定ラベルは「スクリプト−4」のラベル101a74であって、意味クラスタ103aに所属するものである(S14;Yes)。この場合、図14(c)に示すように、所属したため所属回数を「1」とする。
図15(a)−(c)は、ラベル削除動作の他の例を説明するための図である。
図15(a)は、意味クラスタ103aのラベル101a104「コンピュータ−4」のトークン101gを用いて置換した場合であり、当該置換した文100c’”についてトークン101gのラベル推定を行った結果、図15(b)に示すように、確信度の高い推定ラベルは「コンピュータ−2」のラベル101a102であって、意味クラスタ103aに所属するものであって、意味クラスタ103aに所属するものではない(S14;No)。この場合、図15(c)に示すように、所属しないため所属回数を「0」とする。
以上に説明した動作を取得した複数の文に含まれる他の文においても試行し、以下に示す情報が得られる。
図16は、ラベル削除動作の試行結果を示す概略図である。
図16に示すように、上記動作を複数回試行することで各ラベル101a13、101a74、101a81、101a104の意味クラスタ103aに対する所属度が算出され、所属度が予め定めた閾値(例えば、0.8)以上である場合に意味クラスタ103aに所属するものとし(S14;Yes)、閾値より小さい場合に所属しないものとする(S14;No)。
次に、意味クラスタ更新手段104は、所属しないと判断されたラベル101a81、101a104を意味クラスタ103aから削除する(S15)。
(2−3)ラベル追加動作
以下、図11(a)に示した文100eを取得した例について説明する。
図17(a)及び(b)は、ラベル追加動作の一例を説明するための図である。
まず、意味クラスタ更新手段104は、図17(a)に示すように、トークン100eのラベル101a111−101a115について、図17(b)に示すラベル101a111−101a115が所属する意味クラスタ103e、103h、103e、103eのそれぞれからラベル101a111−101a115を除く1以上のラベルを無造作に取得する(S16)。ただし、取得するラベルは互いに異なるトークンのラベルとする。つまり、例えば意味クラスタ103h(「HTML−ii」)のラベル101a151と101a153(「Javascript−1」と「Javascript−3」)を同時に取得しないようにする。
図18(a)−(c)は、ラベル追加動作の一例を説明するための図である。
次に、意味クラスタ更新手段104は、上記ステップS16において意味クラスタ103eからラベル101a121と101a142を取得した場合と、意味クラスタ103hからラベル101a162と101a153を取得した場合のそれぞれについて、図18(a)に示す取得した複数の文に含まれる一の文として、文100eのトークン100eを、取得したラベル101a121と101a142及びラベル101a162と101a153の元のトークン100iと100j及びトークン100kと100lで置換して(S17)、図18(b)及び(c)のようにする。つまり、「Javaを書く」という文100eを「Pythonを書く」、「Rubyを書く」、「HTMLを書く」、「Javascriptを書く」という文にする。
次に、意味クラスタ更新手段104は、置換後の文のそれぞれのトークン100iと100j及びトークン100kと100lについてラベル推定を行い、推定されたラベルと図18(a)に示す元のラベル101a13である「プログラム−3」とが一致するか確認する(S18)。
図19(a)及び(b)は、ラベル追加動作の一例を説明するための図である。
図19(a)は図18(b)に対応するものであり、トークン100iと100jについてラベル推定を行った結果であり、推定ラベルはそれぞれ101a13の「プログラム−3」であって、元のトークン100e「Java」の推定ラベル101a13「プログラム−3」と一致している。なお、一致した際の確信度が予め定めた閾値(例えば0.2)以上である場合に一致すると判定するものとし、図19(a)に示す例では採用したトークン100iと100jの2つであるため「サンプル数」を「2」とし、推定ラベルが一致しているため「一致数」を「2」とする。「一致割合」はサンプル数に対する一致数の割合であり「1.00」となる。
一致数が予め定めた閾値(例えば0.80)以上である場合(S18;Yes)、意味クラスタ103eにトークン100e「Java」の推定ラベル101a13「プログラム−3」を追加する(S19)。
図20は、ラベル追加動作の他の例を説明するための図である。
図20は図18(c)に対応するものであり、トークン100kと100lについてラベル推定を行った結果であり、推定ラベルはそれぞれ101a13の「プログラム−3」であって、元のトークン100e「Java」の推定ラベル101a13「プログラム−3」と一致している。しかし、一致した際の確信度がトークン100k「HTML」については「0.051」であって予め定めた閾値(例えば0.2)より小さいため、推定ラベルの一致が1であって「一致数」を「1」とする。「一致割合」はサンプル数に対する一致数であり「0.50」となる。
従って、一致数が予め定めた閾値(例えば0.80)より小さい場合(S18;No)、意味クラスタ103eにトークン100e「Java」の推定ラベル101a13「プログラム−3」を追加しない。
(実施の形態の効果)
上記した実施の形態によると、意味クラスタ113に所属するラベルの元となるトークンが用法によって置換できない場合は意味クラスタ113からラベルを削除し、他の意味クラスタに所属するラベルであっても当該ラベルの元となるトークンが用法によって置換できる場合は意味クラスタ113にラベルを追加したため、トークンの共起語が類似するが、用法によっては意味が類似しないトークンの意味情報を分類することができる。つまり、意味的に類似した単語を適切にまとめることができる。
また、意味情報データ112及び意味クラスタ113を用いて、機械学習を用いた自然言語処理モジュールの精度を改善してもよい。
[他の実施の形態]
なお、本発明は、上記実施の形態に限定されず、本発明の趣旨を逸脱しない範囲で種々な変形が可能である。
上記実施の形態では制御部10内の各手段100−104の機能をプログラムで実現したが、各手段の全て又は一部をASIC等のハードウエアによって実現してもよい。また、上記実施の形態で用いたプログラムをCD−ROM等の記録媒体に記憶して提供することもできる。また、上記実施の形態で説明した上記ステップの入れ替え、削除、追加等は本発明の要旨を変更しない範囲内で可能である。
1 情報処理装置
10 制御部
11 記憶部
12 通信部
100 形態素解析手段
101 ラベル推定手段
102 意味情報生成手段
103 意味クラスタ生成手段
104 意味クラスタ更新手段
110 意味情報分類プログラム
111 大規模データ
112 意味情報データ
113 意味クラスタ

Claims (4)

  1. コンピュータを、
    複数の文のそれぞれに含まれるトークンに基づいて、前記複数の文のそれぞれに付与されるラベルを多値分類により推定するラベル推定手段と、
    前記ラベルが付与された前記複数の文に含まれるトークンに基づいて、前記ラベルに共起する頻度の高いトークンを関連語とし、前記ラベルと当該関連語との組み合わせである意味情報を生成する意味情報生成手段と、
    前記意味情報の関連語に基づいて前記ラベルをクラスタリングし、複数のラベルが所属する意味クラスタを生成するクラスタ生成手段と、
    前記複数の文に含まれる一の文において、前記意味クラスタに所属する一のラベルの元となるトークンと、他のラベルの元となるトークンとを置換し、当該置換したトークンのラベルを推定し、確信度の高いラベルを推定ラベルとして当該推定ラベルが、置換前のトークンのラベルが所属する意味クラスタに所属しない場合に、前記他のラベルを削除して更新するクラスタ更新手段として機能させるための意味情報分類ブログラム。
  2. コンピュータを、
    複数の文のそれぞれに含まれるトークンに基づいて、前記複数の文のそれぞれに付与されるラベルを多値分類により推定するラベル推定手段と、
    前記ラベルが付与された前記複数の文に含まれるトークンに基づいて、前記ラベルに共起する頻度の高いトークンを関連語とし、前記ラベルと当該関連語との組み合わせである意味情報を生成する意味情報生成手段と、
    前記意味情報の関連語に基づいて前記ラベルをクラスタリングし、複数のラベルが所属する意味クラスタを生成するクラスタ生成手段と、
    前記複数の文に含まれる一の文において、前記意味クラスタに所属する一のラベルの元となるトークンと、他のラベルの元となるトークンとを置換し、当該置換したトークンのラベルを推定し、前記他のラベルの所属する意味クラスタのそれぞれから当該他のラベルを除くラベルを無作為に取得し、前記複数の文に含まれる一の文において、取得したラベルの元となるトークンで前記一のラベルの元となるトークンを置換し、置換したトークンのラベルを推定し、確信度の高いラベルを推定ラベルとして当該推定ラベルが、前記置換前のトークンの推定ラベルと一致する割合が予め定めた値以上である場合、異なる意味クラスタに属する前記他のラベルを前記意味クラスタに追加して更新するクラスタ更新手段として機能させるための意味情報分類ブログラム。
  3. 複数の文のそれぞれに含まれるトークンに基づいて、前記複数の文のそれぞれに付与されるラベルを多値分類により推定するラベル推定手段と、
    前記ラベルが付与された前記複数の文に含まれるトークンに基づいて、前記ラベルに共起する頻度の高いトークンを関連語とし、前記ラベルと当該関連語との組み合わせである意味情報を生成する意味情報生成手段と、
    前記意味情報の関連語に基づいて前記ラベルをクラスタリングし、複数のラベルが所属する意味クラスタを生成するクラスタ生成手段と、
    前記複数の文に含まれる一の文において、前記意味クラスタに所属する一のラベルの元となるトークンと、他のラベルの元となるトークンとを置換し、当該置換したトークンのラベルを推定し、確信度の高いラベルを推定ラベルとして当該推定ラベルが、置換前のトークンのラベルが所属する意味クラスタに所属しない場合に、前記他のラベルを削除して更新するクラスタ更新手段とを有する情報処理装置。
  4. 複数の文のそれぞれに含まれるトークンに基づいて、前記複数の文のそれぞれに付与されるラベルを多値分類により推定するラベル推定手段と、
    前記ラベルが付与された前記複数の文に含まれるトークンに基づいて、前記ラベルに共起する頻度の高いトークンを関連語とし、前記ラベルと当該関連語との組み合わせである意味情報を生成する意味情報生成手段と、
    前記意味情報の関連語に基づいて前記ラベルをクラスタリングし、複数のラベルが所属する意味クラスタを生成するクラスタ生成手段と、
    前記複数の文に含まれる一の文において、前記意味クラスタに所属する一のラベルの元となるトークンと、他のラベルの元となるトークンとを置換し、当該置換したトークンのラベルを推定し、前記他のラベルの所属する意味クラスタのそれぞれから当該他のラベルを除くラベルを無作為に取得し、前記複数の文に含まれる一の文において、取得したラベルの元となるトークンで前記一のラベルの元となるトークンを置換し、置換したトークンのラベルを推定し、確信度の高いラベルを推定ラベルとして当該推定ラベルが、前記置換前のトークンの推定ラベルと一致する割合が予め定めた値以上である場合、異なる意味クラスタに属する前記他のラベルを前記意味クラスタに追加して更新するクラスタ更新手段とを有する情報処理装置。
JP2013253301A 2013-12-06 2013-12-06 意味情報分類プログラム及び情報処理装置 Active JP6201702B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013253301A JP6201702B2 (ja) 2013-12-06 2013-12-06 意味情報分類プログラム及び情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013253301A JP6201702B2 (ja) 2013-12-06 2013-12-06 意味情報分類プログラム及び情報処理装置

Publications (2)

Publication Number Publication Date
JP2015111350A JP2015111350A (ja) 2015-06-18
JP6201702B2 true JP6201702B2 (ja) 2017-09-27

Family

ID=53526124

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013253301A Active JP6201702B2 (ja) 2013-12-06 2013-12-06 意味情報分類プログラム及び情報処理装置

Country Status (1)

Country Link
JP (1) JP6201702B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768766A (zh) * 2020-06-29 2020-10-13 康佳集团股份有限公司 语音语义信息提取方法、装置、智能终端及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001344256A (ja) * 2000-06-01 2001-12-14 Matsushita Electric Ind Co Ltd 単語クラス自動決定装置、用例文検索装置、媒体及び情報集合体
US7031909B2 (en) * 2002-03-12 2006-04-18 Verity, Inc. Method and system for naming a cluster of words and phrases
JP5117744B2 (ja) * 2007-03-13 2013-01-16 日本電信電話株式会社 単語意味タグ付与装置および方法、プログラム並びに記録媒体
JP2009181408A (ja) * 2008-01-31 2009-08-13 Nippon Telegr & Teleph Corp <Ntt> 単語意味付与装置、単語意味付与方法、プログラムおよび記録媒体

Also Published As

Publication number Publication date
JP2015111350A (ja) 2015-06-18

Similar Documents

Publication Publication Date Title
Neal et al. Surveying stylometry techniques and applications
US10970487B2 (en) Templated rule-based data augmentation for intent extraction
US11150875B2 (en) Automated content editor
US10699080B2 (en) Capturing rich response relationships with small-data neural networks
US10380236B1 (en) Machine learning system for annotating unstructured text
US9477652B2 (en) Machine learning dialect identification
RU2571373C2 (ru) Метод анализа тональности текстовых данных
WO2020245754A1 (en) Machine-learning natural language processing classifier
US10445428B2 (en) Information object extraction using combination of classifiers
WO2022222300A1 (zh) 开放关系抽取方法、装置、电子设备及存储介质
US9588958B2 (en) Cross-language text classification
US10719668B2 (en) System for machine translation
WO2011118723A1 (ja) 意味抽出装置、意味抽出方法、および、記録媒体
US11379656B2 (en) System and method of automatic template generation
US20180157642A1 (en) Information extraction using alternative variants of syntactico-semantic parsing
US11030533B2 (en) Method and system for generating a transitory sentiment community
US20170228591A1 (en) Author identification based on functional summarization
JP2019121139A (ja) 要約装置、要約方法、及び要約プログラム
WO2022134779A1 (zh) 人物动作相关数据的提取方法、装置、设备及存储介质
Yu et al. Nbsl: A supervised classification model of pull request in github
Qian et al. Tri-Training for authorship attribution with limited training data: a comprehensive study
US20210201162A1 (en) Method and system for generating a transitory sentiment community
Nooralahzadeh et al. Part of speech tagging for french social media data
Makrynioti et al. PaloPro: a platform for knowledge extraction from big social data and the news
JP6201702B2 (ja) 意味情報分類プログラム及び情報処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160722

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170523

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170714

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20170714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170814

R150 Certificate of patent or registration of utility model

Ref document number: 6201702

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350