JP6549500B2 - 話題推定学習装置及び話題推定学習方法 - Google Patents

話題推定学習装置及び話題推定学習方法 Download PDF

Info

Publication number
JP6549500B2
JP6549500B2 JP2016035175A JP2016035175A JP6549500B2 JP 6549500 B2 JP6549500 B2 JP 6549500B2 JP 2016035175 A JP2016035175 A JP 2016035175A JP 2016035175 A JP2016035175 A JP 2016035175A JP 6549500 B2 JP6549500 B2 JP 6549500B2
Authority
JP
Japan
Prior art keywords
topic
vector
word
estimated
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016035175A
Other languages
English (en)
Other versions
JP2017151838A (ja
Inventor
智哉 高谷
智哉 高谷
整 山田
整 山田
佐々木 裕
裕 佐々木
誠 三輪
誠 三輪
丈亮 山根
丈亮 山根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota School Foundation
Toyota Motor Corp
Original Assignee
Toyota School Foundation
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota School Foundation, Toyota Motor Corp filed Critical Toyota School Foundation
Priority to JP2016035175A priority Critical patent/JP6549500B2/ja
Publication of JP2017151838A publication Critical patent/JP2017151838A/ja
Application granted granted Critical
Publication of JP6549500B2 publication Critical patent/JP6549500B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、話題推定学習装置及び話題推定学習方法に関し、特に、単語と話題とを関連付ける話題推定学習装置及び話題推定学習方法に関する。
近年、会話を行うことで人とコミュニケーションをとることが可能なロボットの研究が進められている。例えば、雑談により人とロボットとの間でコミュニケーションを行うためには、人の話に含まれる単語から話題を推定することが要求される。
関連する技術では、言語処理によって自動的に話題を推定するため、意味的階層情報が用いられている。意味的階層情報から上位概念語を取得することで、単語に関連した話題を推定することができる。関連する技術として、例えば非特許文献1が知られている。非特許文献1では、単語と話題との関係を射影変換する手法を提案している。この手法では、word embedding法を用いて単語を意味表現ベクトルに変換し、単語と話題間の階層関係(射影行列)を学習しておくことで、任意の単語から話題を推定する。
Ruiji Fu, Jiang Guo, Bing Qin, Wanxiang Che, Haifeng Wang, Ting Liu, "Learning Semantic Hierarchies: A Continuous Vector Space Approach", IEEE/ACM Transactions on Audio, Speech, and Language Processing, Vol. 23, No. 3, 2015年3月, p. 461-471
図6は、非特許文献1に基づいた関連技術の話題推定学習装置の概略構成を示している。図6に示すように、関連技術の話題推定学習装置900は、学習用データベース901、単語ベクトルデータベース902、単語ベクトル変換器903、話題ベクトル変換器904、オフセット算出器905、クラスタ分類器906、複数の射影行列算出器907(907_1、・・・907_c、・・・907_C)を備えている。
単語ベクトル変換器903及び話題ベクトル変換器904は、単語ベクトルデータベース902を参照し、学習用データベース901の単語x、話題yをそれぞれ単語ベクトルX、話題ベクトルYに変換する。オフセット算出器905は、話題ベクトルYと単語ベクトルXのオフセット(差分Y−X)を算出し、クラスタ分類器906は、このオフセットをもとにk−means法でクラスタリングを行う。
射影行列算出器907_1〜907Cは、分類されたクラスタごとに、単語ベクトルX及び話題ベクトルYから射影行列Φ(Φ1〜ΦC)を算出し、射影行列Φを学習する。具体的には、次の(1)式によってクラスタkの射影行列Φを学習しΦ を得る。
Figure 0006549500
(1)式において、Y,Xは話題・単語ベア(y,x)のそれぞれに対応するベクトルであり、Cはクラスタkに含まれる話題・単語ペアの集合である。(1)式では、予測した話題ベクトルと正解の話題ベクトルの距離の二乗が小さくなるように学習を行っている。学習された射影行列Φによって、入力される単語を変換することで話題の推定が可能となる。
図7は、関連技術の話題推定学習装置による学習動作の実験結果を示している。図7は、正解話題が出現した順位ごとの出現確率を示しており、関連技術の話題推定学習装置で学習した射影行列に単語を入力した際、正解話題が何番目の候補で出現するかを集計した結果である。より上位の順位で、正解話題が出現することが好ましいため、上位(例えば1位から3位)の出現確率が大きく、下位(例えば8位から10位)の出現確率が小さいことがよい。図7では、上位の出現確率がある程度大きいものの、さらに上位の出現確率を高めて、単語から話題を推定する精度の向上が望まれる。
関連技術を検討すると、図6に示すように、関連技術では、単語と話題のベクトル差に関してクラスタ分類(クラスタリング)を行った後、分類された各クラスタ内で単語ベクトルから話題を推定する射影行列の学習を行っている。このため、クラスタの分類精度が、射影行列の学習精度に大きく影響を与えてしまう。クラスタ分類に用いている素性は、単語と話題間のオフセットであり、これは平行移動変換行列の要素に相当する。したがって、関連技術では、クラスタ分類で平行移動変換行列の要素を素性として分類(類似度算出に相当)しており、この分類が射影行列の学習精度に影響を与えることになる。
また、関連技術では、単語と話題間が線形写像であることを仮定して射影行列を学習しているため、単語と話題の関係は平行移動変換、回転変換、拡大縮小変換の合成変換で定式化される。しかしながら、単語と話題の値は未知であるため、未知の値から容易に射影行列を得ることは困難である。さらに、関連技術では、学習用データベース内の話題・単語ベアのみしか学習しないため、単語を射影した先の近くに正解の話題が位置していても、不正解の話題がそれよりも近くにある場合、不正解の話題を推定してしまう。
そこで、本発明は、単語と話題の関係の学習精度を向上することが可能な話題推定学習装置及び話題推定学習方法を提供するものである。
本発明に係る話題推定学習装置は、話題と単語とを関連付けて格納する学習用データ格納部と、前記単語を単語空間における単語ベクトルに変換する単語ベクトル変換部と、前記話題を話題空間における話題ベクトルに変換する話題ベクトル変換部と、前記単語ベクトルをクラスタリングするクラスタに対応した複数の射影行列を用いて、前記単語ベクトルを前記話題空間における複数の推定話題ベクトルに変換する射影変換部と、前記話題ベクトルと前記複数の推定話題ベクトルとの前記話題空間における類似度を算出する類似度算出部と、前記類似度に基づいて、前記単語ベクトルが従属すべき従属クラスタを決定するクラスタ決定部と、前記推定話題ベクトルとの前記類似度が所定値よりも高い不正解の前記話題ベクトルと、前記推定話題ベクトルとの関係を負例関係として、前記従属クラスタに対応した前記射影行列を更新する射影行列更新部と、を備えるものである。例えば、前記射影行列更新部は、前記不正解の前記話題ベクトルと前記推定話題ベクトルとの前記話題空間における距離を遠ざけるように、前記射影行列を更新してもよい。これによれば、射影行列により推定される話題が誤った話題に近づかないように制約がかけられるため(話題ベクトルとの類似度が低い推定話題ベクトルを不正解だとして遠ざけるため)、射影行列(単語と話題の関係)の学習精度が高まり、話題の推定精度が向上することができる。
前記射影行列更新部は、正解の前記話題ベクトルと前記推定話題ベクトルとの関係を正例関係として、前記従属クラスタに対応した前記射影行列を更新し、例えば、前記正解の前記話題ベクトルと前記推定話題ベクトルとの前記話題空間における距離を近づけるように、前記射影行列を更新してもよい。これによれば、射影行列により推定される話題を正しい話題に近づけるため、さらに射影行列の学習精度を向上することができる。
また、前記クラスタ決定部は、前記類似度が所定の閾値より小さい場合、前記従属クラスタとして新たなクラスタを生成してもよい。これによれば、最適なクラスタリングを行うことができ、さらに射影行列の学習精度を向上することができる。
さらに、予め算出された前記単語に対応する数値ベクトルを格納するベクトル格納部を備え、前記単語ベクトル変換部及び前記話題ベクトル変換部は、前記格納された数値ベクトルに基づき、前記単語及び前記話題を前記単語ベクトル及び前記話題ベクトルに変換してもよく、前記数値ベクトルは、前記内積及びバイアス変数を含む関数により予め学習されており、前記類似度算出部は、前記内積及びバイアス変数を含む関数により前記類似度を算出してもよい。これによれば、数値ベクトル(単語ベクトル)の学習と類似度の算出に一貫性を持たせることができるため、さらに射影行列の学習精度を向上することができる。
本発明に係る話題推定学習方法は、学習用データ格納部に話題と単語とを関連付けて格納し、前記単語を単語空間における単語ベクトルに変換し、前記話題を話題空間における話題ベクトルに変換し、前記単語ベクトルをクラスタリングするクラスタに対応した複数の射影行列を用いて、前記単語ベクトルを前記話題空間における複数の推定話題ベクトルに変換し、前記話題ベクトルと前記複数の推定話題ベクトルとの前記話題空間における類似度を算出し、前記類似度に基づいて、前記単語ベクトルが従属する従属クラスタを決定し、前記推定話題ベクトルとの前記類似度が所定値よりも高い不正解の前記話題ベクトルと、前記推定話題ベクトルとの関係を負例関係として、前記従属クラスタに対応した前記射影行列を更新するものである。これによれば、射影行列により推定される話題が誤った話題に近づかないように制約がかけられるため、射影行列の学習精度が高まり、話題の推定精度が向上することができる。
本発明によれば、単語と話題の関係の学習精度を向上することが可能な話題推定学習装置及び話題推定学習方法を提供することができる。
実施の形態1に係る話題推定学習装置の概略構成を示す構成図である。 実施の形態1に係る話題推定学習装置で用いる演算式の概念を模式的に示す模式図である。 実施の形態1に係る学習用データベースの具体例を示す図である。 実施の形態1に係る話題推定学習方法の具体例を示す図である。 実施の形態1及び関連技術の実験結果を示すグラフである。 関連技術の話題推定学習装置の概略構成を示す構成図である。 関連技術の実験結果を示すグラフである。
(実施の形態1)
以下、図面を参照して実施の形態1について説明する。図1は、本実施の形態に係る話題推定学習装置の概略構成を示している。
図1に示すように、本実施の形態に係る話題推定学習装置100は、学習用データベース101、単語ベクトルデータベース102、単語ベクトル変換器103、話題ベクトル変換器104、射影変換モジュール105、複数の類似度算出器106(106_1、・・・106_c、・・・106_C)、判定器107、射影行列更新器108を備えている。
学習用データベース(学習用データ格納部)101は、単語と話題との対(話題・単語ペア)を関連付けて格納するデータベースである。なお、話題は、単語(下位概念語)に対する上位概念語でもある。例えば、Wikipediaの記事構造などから上位概念語を抽出し、上位概念語を話題として、話題・単語ペア(上位・下位概念語ペア)を生成し、学習用データベース101に格納してもよい。
単語ベクトルデータベース(数値ベクトル格納部)102は、予め算出された単語ベクトル(単語に対する数値ベクトル、Word Embedding:WE)を格納するデータベースである。例えば、Word2Vec、Glove等のWord Embedding法を用いて、単語から単語ベクトルを算出(学習)し単語ベクトルデータベース102に格納する。
単語ベクトル変換器103及び話題ベクトル変換器104は、文字列を数値列(ベクトル)に変換するモジュールであり、この変換に単語ベクトルデータベースを用いる。単語ベクトル変換器(単語ベクトル変換部)103は、単語ベクトルデータベース102を参照し、学習用データベース101から(もしくは外部から)入力される単語xを単語ベクトルXに変換する。単語ベクトル変換器103は、数値ベクトルによって単語xを単語空間に射影し、単語空間上の単語ベクトルXを生成していると言える。話題ベクトル変換器(話題ベクトル変換部)104は、単語ベクトルデータベース102を参照し、学習用データベース101から(もしくは外部から)入力される話題yを話題ベクトルYに変換する。話題ベクトル変換器104は、数値ベクトルによって話題yを話題空間に射影し、話題空間上の話題ベクトルYを生成していると言える。
射影変換モジュール(射影変換部)105は、単語から推定話題の候補を生成するためのモジュールであり、生成された単語ベクトルXを射影行列Φ(Φ1〜ΦC)により写像変換し、推定話題ベクトルYEを生成する。射影変換モジュール105は、単語ベクトルXをクラスタリングするクラスタに対応した複数の射影行列Φを用いて、単語ベクトルXを話題空間に射影し、話題空間上の複数の推定話題ベクトルYEを生成していると言える。
類似度算出器(類似度算出部)106は、生成された話題ベクトルYと複数の推定話題ベクトルYEとの話題空間における類似度を算出する。射影変換モジュール105の射影行列Φと類似度算出器106とが、クラスタのイメージ(概念)となる。類似度は、空間上のベクトル間の距離である。類似度算出器106は、次の(2)式のスコア関数によって類似度を算出する。
Figure 0006549500
(2)式において、sim(x,y)はクラスタkでの単語xと話題yの類似度関数であり、σ(x)はロジスティック関数、ΦXは単語xのクラスタkの推定話題ベクトル、bはクラスタkにおけるバイアスである。単語xを精度よく話題空間に射影できると(話題yとの距離が近いと)、(2)式の値は大きくなる。(2)式は、単語xをクラスタkの射影行列Φで写像したベクトルと話題yとを比較した距離を示す類似度関数である。なお、射影変換モジュール105における推定話題ベクトルの生成動作及び類似度算出器106における類似度の算出動作を、(2)式によりまとめて行ってもよい。
類似度の尺度として、関連技術の(1)式では二乗距離を用いていたが、本実施の形態では(2)式のように内積項とバイアス項を含む。例えば、単語ベクトルの学習する過程(単語ベクトルデータベースの生成過程)において、文脈内の単語間のスコア関数が内積項とバイアス項を含んでおり、モデル内で類似度尺度の一貫性を持たせることで学習精度を向上することができる。例えば、このような単語ベクトルの学習手法として、Inverse vector log-bilinear model(ivLBL)を用いてもよい。
判定器(クラスタ決定部)107は、算出された各クラスタの類似度に基づいて、単語が従属すべきクラスタ(従属クラスタ)を決定(閾値判定)する。所定のクラスタの類似度が閾値よりも大きい場合、当該クラスタに従属すべきと判断してもよいし、類似度が最も高いクラスタに従属すべきと判断してもよい。また、判定器107は、クラスタの類似度が閾値より小さい場合、既存クラスタへの従属ではなく、新規クラスタを生成し、生成したクラスタに従属させる。
本実施の形態では、判定器107でクラスタリングを行いながら、後述のように射影行列更新器108で射影行列を更新することにより、射影行列の学習とクラスタリングを同時に行う。これにより、関連技術よりも単語ベクトル・クラスタリングに整合した射影行列を得ることができる。クラスタリングには閾値λに合わせてクラスタ数を自動推定することができるDP−means法を適用してもよい。例えば、全ての類似度の最大値が閾値λよりも小さい場合、乱数行列により新たなクラスタの射影行列Φを生成し、この射影行列Φを更新し、また、全ての類似度の最大値が閾値λ以上の場合、最大の類似度のクラスタにおける射影行列Φを更新する。
射影行列更新器(射影行列更新部)108は、判定器107の判定結果に基づき射影行列Φを更新し、射影行列Φの学習を行う。射影行列更新器108は、以下の更新学習式にて学習後の射影行列Φ を得る。本実施の形態では、関連技術の(1)式に(2)式を適用する。
(1)式の右の項(類似度距離尺度)に(2)式を適用した目的関数を次の(3)式に示す。
Figure 0006549500
ここで、(3)式の右の項はbを大きくするほど大きくなるため、解くことができない。これを解決するため、次の(4)式のように負例の項(第2項)を追加する。
Figure 0006549500
(4)式において、yは「正解話題」、y’は「推定話題と類似度が高くて、正解話題ではない話題」、mは負例の数である。「正解話題」とは、単語に関連する正しい話題(学習用データベースで単語に関連付けられた話題)であり、推定話題と最も類似度が高い話題である。「推定話題と類似度が高くて、正解話題ではない話題」とは、類似度が所定値よりも高く、正解話題以外の話題(不正解の話題)である。(4)式により、類似度が最も高い「正解話題」を正例として推定話題が近づくように、かつ、「推定話題と類似度が高くて、正解話題ではない話題」を負例として推定話題が遠ざかるように、射影変換モジュール(射影行列Φ1〜ΦC)を更新する。図2は、(4)式の演算を模式的に示している。図2に示すように、(4)式の第1項により正解話題(y)に推定話題(ye)を近づけ、(4)式の第2項により「推定話題と類似度が高くて、正解話題ではない話題」(y1’、y2’)から推定話題(ye)を遠ざける。(4)式は、「推定話題と類似度が高くて、正解話題ではない話題」と「推定話題」との関係を負例として用いることにより、推定話題が誤った話題に近づかないように制約をかけている点を特徴としている。「推定話題と類似度が高くて、正解話題ではない話題」から「推定話題」を遠ざけることで学習精度が向上し、「正解話題」に「推定話題」を近づけることでさらに学習精度が向上する。
なお、本実施の形態に係る学習方法が実現できれば、その他のブロックで構成してもよい。図1の話題推定学習装置100における各機能(各処理)は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、1つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。話題推定学習装置100の各機能を、CPU(Central Processing Unit)やメモリ等を有するコンピュータにより実現してもよい。例えば、記憶装置に本実施の形態に係る学習方法を行うためのプログラムを格納し、話題推定学習装置100の各機能を、記憶装置に格納されたプログラムをCPUで実行することにより実現してもよい。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
次に、図3及び図4を用いて、本実施の形態に係る学習方法の具体例について説明する。図3は、学習用データベース101に格納されるデータ例のイメージを示し、図4は、この学習用データベース101を用いた動作例を示している。
図3の例では、学習用データベース101に、話題yA(自動車)と単語xa(タイヤ)、単語xb(エンジン)、単語xc(燃料)・・・が関連付けられたデータ、話題yB(飛行機)と単語xa(タイヤ)、単語xd(エアバス)、単語xe(CA)・・・が関連付けられたデータが格納されている。
図4に示すように、まず、単語ベクトル変換器103は、学習用データベース101から単語xが入力されると(S101)、入力された単語xを単語ベクトルXに変換する(S102)。この例では単語x(排気ガス)が入力され、単語ベクトルデータベース102に格納されているWord Embeddingに基づき単語ベクトルX(排気ガス)を生成する。
続いて、射影変換モジュール105は、生成された単語ベクトルXを複数の推定話題ベクトルYEに射影変換する(S103)。例えば、単語ベクトルX(排気ガス)を、クラスタごとの射影行列Φを用いて、推定話題ベクトルYE(工場、火力発電所、自動車、飛行機等)に変換する。
一方、話題ベクトル変換器104は、学習用データベース101から話題yが入力されると(S104)、入力された話題yを話題ベクトルYに変換する(S105)。例えば、話題yとして正解話題yA(自動車)が入力され、単語ベクトルデータベース102に格納されているWord Embeddingに基づき話題ベクトルY(自動車)を生成する。このとき、不正解の話題y(飛行機、工場、火力発電所等)を話題ベクトルYに変換してもよい。
続いて、類似度算出器106は、生成された推定話題ベクトルYEと話題ベクトルYの類似度を算出する(S106)。例えば、正解話題yA(自動車)の話題ベクトルYと、単語xのクラスタごとの推定話題ベクトルYE(工場、火力発電所、自動車、飛行機等)の類似度を、(2)式を用いて算出する。この例では、話題ベクトルY(自動車)と推定話題ベクトルYE(工場)の類似度は2、話題ベクトルY(自動車)と推定話題ベクトルYE(火力発電所)の類似度は2、話題ベクトルY(自動車)と推定話題ベクトルYE(自動車)の類似度は10、話題ベクトルY(自動車)と推定話題ベクトルYE(飛行機)の類似度は7である。このとき、不正解の話題y(飛行機、工場、火力発電所等)と推定話題ベクトルYEとの類似度を算出してもよい。
続いて、判定器107は、算出された類似度に基づき、単語xが従属すべきクラスタを判定する(S107)。この例では、推定話題ベクトルYE(自動車)の類似度が10であり最も高い(もしくは閾値よりも高い)ため、単語x(排気ガス)が従属すべきクラスタは「自動車」であると判定する。
続いて、射影行列更新器108は、判定された結果のクラスタに基づき射影行列Φを更新する(S108)。射影変換モジュール105における該当するクラスタの射影行列Φについて、単語xを変換した推定話題ベクトルYEが正解話題に近づくように、かつ、この推定話題ベクトルYEが「推定話題と類似度が高くて、正解話題ではない話題」から遠ざかるように、射影行列Φを更新する。この例では、正解話題を(自動車)とし、推定話題と類似度が高くて、正解話題ではない話題を(飛行機)とすると、単語x(排気ガス)の推定話題ベクトルYEを正解話題yA(自動車)の話題ベクトルYに近づけるようにクラスタ(自動車)の射影行列Φを更新し、かつ、単語x(排気ガス)の推定話題ベクトルYEを話題yB(飛行機)の話題ベクトルYから遠ざけるようにクラスタ(自動車)の射影行列Φを更新する。
図5は、関連技術及び本実施の形態の話題推定学習装置による学習動作の実験結果を示している。図5は、図7と同様に、関連技術及び本実施の形態の話題推定学習装置で学習した射影行列に単語を入力した際、正解の話題が何番目の候補で出現するかを集計した結果である。図5に示すように、本実施の形態では関連技術よりも上位において出現確率が高く(関連技術の1位が約0.3に対し本実施の形態の1位が約0.4)、下位では出現確率が低い。このため、関連技術よりも本実施の形態の推定精度が優れていると言える。
以上のように、本実施の形態では、「推定話題」と正解話題との関係を正例として射影変換モジュール(射影行列)を更新するだけでなく、「推定話題と類似度が高くて、正解話題ではない話題」と「推定話題」との関係を負例としても、射影変換モジュールを更新する。「推定話題」を正解話題に近づけるだけでなく、「推定話題と類似度が高くて、正解話題ではない話題」を不正解として遠ざける。これにより、誤った話題に近づかないように制約をかけることができ、関連技術よりも正確に単語・話題間の関係を学習することができる。また、クラスタリングを行いつつ、負例を用いた式により射影行列を更新することで、クラスタリングと射影行列の更新を同時に行うことができ、さらに学習精度を向上できる。したがって、この学習結果を利用することで、精度よく話題を推定することが可能となる。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
100 話題推定学習装置
101 学習用データベース
102 単語ベクトルデータベース
103 単語ベクトル変換器
104 話題ベクトル変換器
105 射影変換モジュール
106 類似度算出器
107 判定器
108 射影行列更新器

Claims (8)

  1. 話題と単語とを関連付けて格納する学習用データ格納部と、
    前記単語を単語空間における単語ベクトルに変換する単語ベクトル変換部と、
    前記話題を話題空間における話題ベクトルに変換する話題ベクトル変換部と、
    前記単語ベクトルをクラスタリングするクラスタに対応した複数の射影行列を用いて、前記単語ベクトルを前記話題空間における複数の推定話題ベクトルに変換する射影変換部と、
    前記話題ベクトルと前記複数の推定話題ベクトルとの前記話題空間における類似度を算出する類似度算出部と、
    前記類似度に基づいて、前記単語ベクトルが従属すべき従属クラスタを決定するクラスタ決定部と、
    前記推定話題ベクトルとの前記類似度が所定値よりも高い不正解の前記話題ベクトルと、前記推定話題ベクトルとの関係を負例関係として、前記従属クラスタに対応した前記射影行列を更新する射影行列更新部と、
    を備える、話題推定学習装置。
  2. 前記射影行列更新部は、前記不正解の前記話題ベクトルと前記推定話題ベクトルとの前記話題空間における距離を遠ざけるように、前記射影行列を更新する、
    請求項1に記載の話題推定学習装置。
  3. 前記射影行列更新部は、正解の前記話題ベクトルと前記推定話題ベクトルとの関係を正例関係として、前記従属クラスタに対応した前記射影行列を更新する、
    請求項1または2に記載の話題推定学習装置。
  4. 前記射影行列更新部は、前記正解の前記話題ベクトルと前記推定話題ベクトルとの前記話題空間における距離を近づけるように、前記射影行列を更新する、
    請求項3に記載の話題推定学習装置。
  5. 前記クラスタ決定部は、前記類似度が所定の閾値より小さい場合、前記従属クラスタとして新たなクラスタを生成する、
    請求項1乃至4のいずれか一項に記載の話題推定学習装置。
  6. 予め算出された前記単語に対応する数値ベクトルを格納する数値ベクトル格納部を備え、
    前記単語ベクトル変換部及び前記話題ベクトル変換部は、前記格納された数値ベクトルに基づき、前記単語及び前記話題を前記単語ベクトル及び前記話題ベクトルに変換する、
    請求項1乃至5のいずれか一項に記載の話題推定学習装置。
  7. 前記数値ベクトルは、内積項及びバイアス項を含む関数により予め学習されており、
    前記類似度算出部は、前記内積項及びバイアス項を含む関数により前記類似度を算出する、
    請求項6に記載の話題推定学習装置。
  8. 学習用データ格納部に話題と単語とを関連付けて格納し、
    前記単語を単語空間における単語ベクトルに変換し、
    前記話題を話題空間における話題ベクトルに変換し、
    前記単語ベクトルをクラスタリングするクラスタに対応した複数の射影行列を用いて、前記単語ベクトルを前記話題空間における複数の推定話題ベクトルに変換し、
    前記話題ベクトルと前記複数の推定話題ベクトルとの前記話題空間における類似度を算出し、
    前記類似度に基づいて、前記単語ベクトルが従属する従属クラスタを決定し、
    前記推定話題ベクトルとの前記類似度が所定値よりも高い不正解の前記話題ベクトルと、前記推定話題ベクトルとの関係を負例関係として、前記従属クラスタに対応した前記射影行列を更新する、
    話題推定学習方法。
JP2016035175A 2016-02-26 2016-02-26 話題推定学習装置及び話題推定学習方法 Expired - Fee Related JP6549500B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016035175A JP6549500B2 (ja) 2016-02-26 2016-02-26 話題推定学習装置及び話題推定学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016035175A JP6549500B2 (ja) 2016-02-26 2016-02-26 話題推定学習装置及び話題推定学習方法

Publications (2)

Publication Number Publication Date
JP2017151838A JP2017151838A (ja) 2017-08-31
JP6549500B2 true JP6549500B2 (ja) 2019-07-24

Family

ID=59739178

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016035175A Expired - Fee Related JP6549500B2 (ja) 2016-02-26 2016-02-26 話題推定学習装置及び話題推定学習方法

Country Status (1)

Country Link
JP (1) JP6549500B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6794921B2 (ja) 2017-05-01 2020-12-02 トヨタ自動車株式会社 興味判定装置、興味判定方法、及びプログラム
CN107590127B (zh) * 2017-09-21 2019-12-06 北京师范大学 一种题库知识点自动标注方法及系统
JP6501855B1 (ja) * 2017-12-07 2019-04-17 ヤフー株式会社 抽出装置、抽出方法、抽出プログラム及びモデル
JP7323308B2 (ja) * 2019-03-20 2023-08-08 株式会社Screenホールディングス 同義語判定方法、同義語判定プログラム、および、同義語判定装置
WO2021038639A1 (ja) * 2019-08-23 2021-03-04 日本電信電話株式会社 デバイス識別装置、デバイス識別方法およびデバイス識別プログラム
CN110795911B (zh) * 2019-09-16 2023-07-21 中国平安人寿保险股份有限公司 在线文本标签的实时添加方法、装置及相关设备
CN110851602A (zh) * 2019-11-13 2020-02-28 精硕科技(北京)股份有限公司 一种主题聚类的方法及装置
CN116523473B (zh) * 2023-06-29 2023-08-25 湖南省拾牛网络科技有限公司 基于相似企业的项目匹配方法、装置、设备及介质
JP7431379B1 (ja) 2023-10-10 2024-02-14 株式会社ポーラ・オルビスホールディングス データ処理装置及びデータ処理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4553300B2 (ja) * 2004-09-30 2010-09-29 Kddi株式会社 コンテンツ識別装置
JP5542732B2 (ja) * 2010-10-29 2014-07-09 日本電信電話株式会社 データ抽出装置、データ抽出方法、及びそのプログラム
JP2013050605A (ja) * 2011-08-31 2013-03-14 Nippon Hoso Kyokai <Nhk> 言語モデル切替装置およびそのプログラム

Also Published As

Publication number Publication date
JP2017151838A (ja) 2017-08-31

Similar Documents

Publication Publication Date Title
JP6549500B2 (ja) 話題推定学習装置及び話題推定学習方法
US20200372905A1 (en) Mixed speech recognition method and apparatus, and computer-readable storage medium
Cambria et al. Extreme learning machines [trends & controversies]
US20210326728A1 (en) Anomaly detection apparatus, anomaly detection method, and program
US10387768B2 (en) Enhanced restricted boltzmann machine with prognosibility regularization for prognostics and health assessment
Fang et al. Pattern-coupled sparse Bayesian learning for recovery of block-sparse signals
US9508019B2 (en) Object recognition system and an object recognition method
WO2019037700A1 (zh) 语音情感检测方法、装置、计算机设备及存储介质
Moon et al. Multimodal transfer deep learning with applications in audio-visual recognition
WO2019154210A1 (zh) 机器翻译的方法、设备以及计算机可读存储介质
US11380301B2 (en) Learning apparatus, speech recognition rank estimating apparatus, methods thereof, and program
Tiwari et al. Virtual home assistant for voice based controlling and scheduling with short speech speaker identification
EP3726435A1 (en) Deep neural network training method and apparatus, and computer device
Fang From dynamic time warping (DTW) to hidden markov model (HMM)
CN109858031B (zh) 神经网络模型训练、上下文预测方法及装置
JP2018041300A (ja) 機械学習用モデル生成装置及びプログラム。
Berberidis et al. Data-adaptive active sampling for efficient graph-cognizant classification
CN108021985B (zh) 一种模型参数训练方法及装置
US11501209B2 (en) Behavior identification method, behavior identification device, non-transitory computer-readable recording medium recording therein behavior identification program, machine learning method, machine learning device, and non-transitory computer-readable recording medium recording therein machine learning program
CN110705274B (zh) 基于实时学习的融合型词义嵌入方法
CN110991155B (zh) 文本修正方法、设备及介质
JP2015038709A (ja) モデルパラメータ推定方法、装置、及びプログラム
JP7006402B2 (ja) クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
WO2020183979A1 (ja) 学習装置、学習方法及び非一時的なコンピュータ可読媒体
JP6389776B2 (ja) 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180411

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190627

R151 Written notification of patent or utility model registration

Ref document number: 6549500

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees