JP2018045657A - 学習装置、プログラムパラメータおよび学習方法 - Google Patents

学習装置、プログラムパラメータおよび学習方法 Download PDF

Info

Publication number
JP2018045657A
JP2018045657A JP2016182362A JP2016182362A JP2018045657A JP 2018045657 A JP2018045657 A JP 2018045657A JP 2016182362 A JP2016182362 A JP 2016182362A JP 2016182362 A JP2016182362 A JP 2016182362A JP 2018045657 A JP2018045657 A JP 2018045657A
Authority
JP
Japan
Prior art keywords
sentence
vector
word
learning
concept
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016182362A
Other languages
English (en)
Other versions
JP6775366B2 (ja
Inventor
祐 宮崎
Yu Miyazaki
祐 宮崎
隼人 小林
Hayato Kobayashi
隼人 小林
香里 谷尾
Kaori Tanio
香里 谷尾
晃平 菅原
Kohei Sugawara
晃平 菅原
正樹 野口
Masaki Noguchi
正樹 野口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2016182362A priority Critical patent/JP6775366B2/ja
Publication of JP2018045657A publication Critical patent/JP2018045657A/ja
Application granted granted Critical
Publication of JP6775366B2 publication Critical patent/JP6775366B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】所定の概念の理解を援助する情報を出力する。【解決手段】学習装置10は、所定の構造を有する文章に含まれる単語群を抽出する抽出部41と、所定のベクトル空間上において単語群に含まれる所定の単語の概念を示すベクトルが示す位置に、単語群に含まれる他の単語のベクトルを含むベクトル空間を紐付けることで、文章が有する概念を示す概念空間を学習する学習部42と、入力装置100から受けつけた文章から単語群を抽出して文章ベクトルを生成し、抽出概念空間データベース32を参照して類似する文章ベクトルを検索し、検索した文章ベクトルと対応付けられた単語群を選択する選択部43と、選択した単語群を用いて、入力装置100から受け付けた文章と同様の構造を有する文章を生成する生成部44と、生成した文章を出力する出力部45と、を有する。【選択図】図2

Description

本発明は、学習装置、プログラムパラメータおよび学習方法に関する。
従来、入力された情報の解析結果に基づいて、入力された情報と関連する情報を検索もしくは生成し、検索もしくは生成した情報を応答として出力する技術が知られている。このような技術の一例として、入力されたテキストに含まれる単語、文章、文脈を多次元ベクトルに変換して解析し、解析結果に基づいて、入力されたテキストと類似するテキストや、入力されたテキストに続くテキストを類推し、類推結果を出力する自然言語処理の技術が知られている。
特開2000−353160号公報
"word2vecによる自然言語処理",西尾泰和,2014年05月発行,ISBN978-4-87311-683-9
しかしながら、上記の従来技術では、所定の概念の理解を援助する情報を出力することができない場合がある。
例えば、上記の従来技術では、入力されたテキストと類似するテキストや、入力されたテキストに続くテキスト等、利用者が予測しうる情報を出力しているに過ぎない。このため、例えば、たとえ話等、利用者の理解を援助する情報を出力することができない場合がある。
本願は、上記に鑑みてなされたものであって、所定の概念の理解を援助する情報を出力することを目的とする。
本願に係る学習装置は、所定の構造を有する文章に含まれる単語群を抽出する抽出部と、所定のベクトル空間上において前記単語群に含まれる所定の単語の概念を示すベクトルが示す位置に、前記単語群に含まれる他の単語のベクトルを含むベクトル空間を紐付けることで、前記文章が有する概念を示す概念空間を学習する学習部とを有することを特徴とする。
実施形態の一態様によれば、所定の概念の理解を援助する情報を出力することができる。
図1は、実施形態に係る学習装置が実行する学習処理の一例を示す図である。 図2は、実施形態に係る学習装置の構成例を示す図である。 図3は、実施形態に係る正解データデータベースに登録される情報の一例を示す図である。 図4は、実施形態に係る抽象概念空間データベースに登録される情報の一例を示す図である。 図5は、実施形態に係る学習装置が比較する構造の一例を示す図である。 図6は、実施形態に係る学習処理の流れの一例を説明するフローチャートである。 図7は、実施形態に係る測定処理の流れの一例を説明するフローチャートである。 図8は、ハードウェア構成の一例を示す図である。
以下に、本願に係る学習装置、プログラムパラメータおよび学習方法を実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る学習装置、プログラムパラメータおよび学習方法が限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
[実施形態]
〔1−1.学習装置の一例〕
まず、図1を用いて、学習装置が実行する処理の一例について説明する。図1は、実施形態に係る学習装置が実行する学習処理の一例を示す図である。図1では、学習装置10は、以下に説明する学習処理を実行する情報処理装置であり、例えば、サーバ装置やクラウドシステム等により実現される。
より具体的には、学習装置10は、インターネット等の所定のネットワークNを介して、入力装置100や情報処理装置200(例えば、図2を参照)といった任意の装置と通信が可能である。
ここで、入力装置100は、マイクなどの音声を取得する音声取得装置を用いて、利用者の発言を取得する。そして、入力装置100は、任意の音声認識技術を用いて、発言をテキストデータに変換し、変換後のテキストデータを学習装置10へと送信する。また、情報処理装置200は、スピーカ等の音声を出力する装置を用いて、学習装置10から受信したテキストデータの読み上げを行う。なお、情報処理装置200は、学習装置10から受信したテキストデータを所定の表示装置に表示してもよい。
なお、入力装置100や情報処理装置200は、スマートフォンやタブレット等のスマートデバイス、デスクトップPC(Personal Computer)やノートPC等、サーバ装置等の情報処理装置により実現される。なお、入力装置100および情報処理装置200は、例えば、同一の情報処理装置によって実現されてもよく、例えば、ロボット等の装置によって実現されてもよい。
〔1−2.学習装置の処理について〕
ここで、ある事柄についてたとえ話を生成することができるのであれば、その事柄の概念を理解しているとも考えられる。また、かかる事柄の抽象化度が高い程、事柄をより良く理解しているとも考えられる。このため、学習装置10が事柄をより高度に抽象化できるのであれば、その事柄の概念を理解している(事柄の概念を学習している)と言うことができる。また、学習装置10が、ある事柄の概念をたとえ話にすることができるのであれば、利用者にその事柄をより容易に理解させることができるとも考えられる。
そこで、学習装置10は、入力された事柄を精度良く抽出するために、以下の学習処理を実行する。まず、学習装置10は、所定の構造を有する文章に含まれる複数の単語(以下、「単語群」と記載する。)を抽出する。そして、学習装置10は、所定のベクトル空間上において単語群に含まれる所定の単語の概念を示すベクトルが示す位置に、単語群に含まれる他の単語のベクトルを含むベクトル空間を紐付けることで、文章が有する概念を示す概念空間を学習する。例えば、学習装置10は、構造が類似する文章から抽出された概念空間が類似するように、モデルの学習を行う。
例えば、学習装置10は、正解データとして入力された文章から第1単語、第2単語、および第3単語を抽出したものとする。このような場合、学習装置10は、word2vec等の技術を用いて、各単語を分散表現(ベクトル)へと変換する。そして、学習装置10は、第1単語のベクトルを含むベクトル空間(分散表現空間)において、第1単語のベクトルの先端に、第2単語のベクトルを含むベクトル空間を紐付ける。すなわち、学習装置10は、所定のベクトル空間上において第1単語のベクトルが示す位置に第2ベクトルを含むベクトル空間を紐付けることで、第1単語のベクトルの先端に第2単語のベクトルを埋め込む。
そして、学習装置10は、第1単語のベクトルの先端に埋め込んだ第2単語のベクトルの先端に、さらに第3単語のベクトルを埋め込む。すなわち、学習装置10は、第1単語のベクトルの先端に第2単語のベクトルを含むベクトル空間を紐付け、第2単語のベクトルの先端に第3単語のベクトルを含むベクトル空間を紐付ける。例えば、学習装置10は、第1単語、第2単語、および第3単語をn次元のベクトルに変換する。このような場合、学習装置10は、第1単語のベクトル「(a1、a2・・・・an)」、第2単語のベクトル「(b1、b2・・・・bn)」、および第3単語のベクトル「(c1、c2・・・・cn)」が得られた場合、第1単語、第2単語、および第3単語を含む文章の抽象化された概念を示すベクトルとして「(a1、a2・・・・an、b1、b2・・・・bn、c1、c2・・・・cn)」といった、各単語のベクトルの結合である3n次元のベクトルを生成する。なお、例えば、学習装置10は、上記したベクトルの結合の他に、ベクトル同士のテンソル積空間のいずれかを用いて、文章の抽象化された概念を示す空間(以下、「抽象概念空間」と記載する。)として生成する。
ここで、抽象概念空間で、各文章の分散表現を比較した場合には、文章の構造を考慮した上で、文章の抽象化された概念同士を比較することができる。例えば、「「月曜日」は「曜日」の「1つ目」である」という第1文章と「「1月1日」は「一年」の「初日」である」という第2文章とを考える。例えば、学習装置10は、「月曜日」を第1単語とし、「曜日」を第2単語とし「1つ目」を第3単語として、第1単語のベクトルの先端に第2単語を埋め込み、第2単語のベクトルの先端に第3単語を埋め込むことで、第1文章を抽象概念空間に落とし込む。また例えば、学習装置10は、「1月1日」を第1単語とし、「一年」を第2単語とし「初日」を第3単語として、第1単語のベクトルの先端に第2単語を埋め込み、第2単語のベクトルの先端に第3単語を埋め込むことで、第2文章を抽象概念空間に落とし込む。
ここで、抽象概念空間上においては、第1文章のベクトルと第2文章のベクトルとのユークリッド距離とが近くなるとは限らない。しかしながら、第1文章および第2文章においては、文章構造が類似している。例えば、第1文章および第2文章では、第1単語が日付に関連する単語であり、第2単語が日付を含む単語であり、第3単語が第2単語において第1単語が示す意味を示す単語である。このため、抽象概念空間上においては、第1文章のベクトルの構造と第2文章のベクトルの構造とが類似すると予測される。この結果、抽象概念空間上においては、第1文章のベクトルと第2文章のベクトルのコサイン距離が1に近い値や所定の範囲内に収まる値を取ると予測される。
このため、例えば、学習装置10は、正解データとなる様々な文章を抽象概念空間上に落とし込んでおき、抽象概念空間上において、処理対象となる文章のベクトルと類似するベクトル(例えば、コサイン距離が1に近いベクトル)が示す文章を出力した場合は、処理対象となる文章と構造が類似する文章、すなわち、処理対象となる文章のたとえ話を出力することができると考えられる。
そこで、学習装置10は、以下の測定処理を実行する。まず、学習装置10は、上述した学習処理によって学習が行われたモデルを用いて、利用者から受け付けた文章と抽象概念空間上における構造が類似する単語群を選択し、選択された単語群を用いて、受付けられた文章と同様の構造を有する文章を生成する。すなわち、学習装置10は、利用者から受付けた文章に含まれる単語群と関係性の連鎖が類似する他の単語群を含む文章を生成する。そして、学習装置10は、生成した文章を出力する。より具体的には、学習装置10は、利用者から受付けた文章が有する概念を示すたとえとして、生成した文章を出力する。
〔1−3.学習処理や測定処理の利用例について〕
ここで、学習装置10は、上述したたとえ話を出力する処理を任意の目的で実行してよい。例えば、学習装置10は、利用者に概念を教示するために、上述した学習処理や測定処理を利用してもよい。より具体的な例を挙げると、学習装置10は、利用者が知識を有する分野でのたとえ話を生成することで、効率的に人に概念を理解させてもよい。
例えば、学習装置10は、利用者から文章Aおよび分野Dの指定を受付ける。このような場合、学習装置10は、抽象概念空間上において、分野Dに属する文章のベクトルのうち、文章Aと類似するベクトルを抽出する。そして、学習装置10は、抽出したベクトルが示す文章Bを出力することで、利用者が指定した分野Dでのたとえ話を出力してもよい。より具体的には、学習装置10は、「文章Aに含まれる各単語の関係は、文章Bに含まれる各単語の関係みたいなもの」等といった応答を出力してもよい。
このように、学習装置10は、文章Aを構成する単語のみならず、文章Aの構造(各単語の関係性)を文章Aの概念の構成要素として学習し、構成要素が類似する概念(すなわち、文章Bの概念)を抽象概念空間上で抽出し、抽出した概念の構成要素を用いて、文章Aの概念のたとえ話を生成する。
なお、例えば、学習装置10は、利用者からたとえ話の条件を受付けてもよい。例えば、学習装置10は、文章Aおよび分野Dの指定と共に、たとえのベースとなる単語Cの指定を受付ける。このような場合、学習装置10は、分野Dに属する文章のベクトルのうち、文章Aと類似するベクトルであって、単語Cのベクトル(すなわち、単語Cの概念)を含むベクトルを選択し、選択したベクトルが示す文章を出力する。この結果、学習装置10は、文章Aに含まれる各単語の関係性を、単語Cを用いてたとえたたとえ話を出力することができるので、利用者の理解を促進させることができる。
一方、上述したようなたとえ話の精度は、入力された文章の理解度を図る指標となりえる。そこで、学習装置10は、上述した測定処理により利用者から受付けた文章と単語群の関係性の連鎖が類似する文章を応答として出力し、利用者との対話を通して効率的な学習を行ってもよい。
例えば、学習装置10は、利用者から文章Aおよび分野Dの指定を受付ける。このような場合、学習装置10は、抽象概念空間上において、分野Dに属する文章のベクトルのうち、文章Aのベクトルと構造が類似する複数のベクトルを候補として抽出する。そして、学習装置10は、抽出したベクトルのうち、正答である最も可能性が高いベクトルを用いてたとえ話を生成し、生成したたとえ話を出力する。この結果、利用者からたとえ話が正しい旨の入力を受付けた場合は、処理を終了する。一方、学習装置10は、利用者からたとえ話が間違っている旨の入力を受付けた場合は、そのベクトルを候補から除外するように、最も正答である可能性が高いベクトルを再選択し、他のベクトルからたとえ話を再生成する。そして、学習装置10は、再生成したたとえ話を出力する。このような処理を繰り替えす際に、正答である最も可能性が高いベクトルを選択する際のアルゴリズムを段階的に補正すればよい。
〔1−4.学習処理について〕
なお、学習装置10は、任意の数の単語を含む文章を抽象概念空間上に落とし込んでよい。例えば、学習装置10は、順次、ある単語のベクトルの先端に他の単語のベクトルを埋め込むことで、任意の数の単語を含む文章を抽象概念空間に落とし込むことができる。また、学習装置10は、各単語を任意の次元数の分散表現に変更して良い。
なお、学習装置10は、単語群が所定の構造を有する文章、すなわち、各単語が所定の関係性を有する文章であれば、任意の文章を正解データとし、上述した学習処理を実行すればよい。この際、学習装置10は、文章の内容が属する分野(例えば、医療分野や技術分野等)等に関わらず、任意の文章を正解データとして学習してよい。
〔1−5.学習装置10が実行する処理の一例〕
次に、図1を用いて、学習装置10が実行する学習処理および測定処理の一例について説明する。まず、学習装置10は、正解データとなる文章を用いた学習処理を実行する。より具体的には、学習装置10は、正解データとなる文章に含まれる単語群を抽出し、抽出した単語のベクトルの先端に、他の単語のベクトルを順次埋め込むことで、文章の概念を示す抽象概念空間を形成する(ステップS1)。
例えば、学習装置10は、文章#1から単語#1、単語#2、単語#3を抽出した場合は、各単語を分散表現に変換し、単語#1の分散表現であるベクトルの先端に、単語#2の分散表現であるベクトルを含むベクトル空間を紐付ける。さらに学習装置10は、単語#2の分散表現であるベクトルの先端に、単語#3の分散表現であるベクトルを含むベクトル空間を紐付ける。この結果、学習装置10は、文章#1に含まれる各単語の関係性の構造を投影した抽象概念空間を生成することができる。
また、学習装置10は、測定処理として、学習処理により学習が行われた抽象概念空間を用いて、入力された文章の単語群と、単語間の関係性の構造が類似する他の単語群を選択し、選択した単語群からなる文章、すなわち、入力された文章のたとえ話を出力する測定処理を実行する。まず、学習装置10は、利用者の発言Aを入力として受付ける(ステップS2)。このような場合、学習装置10は、抽象概念空間に、文章#2に含まれる単語群を落とし込む(ステップS3)。例えば、学習装置10は、学習処理と同様の処理を実行することで、文章#2から単語群#2を抽出し、単語群#2に含まれる各単語をベクトル化し、ある単語のベクトルの先端に他の単語のベクトルを埋め込むことで、抽象概念空間上における文章#2のベクトル#2を生成する。
続いて、学習装置10は、類似するベクトルを構成する単語群を抽象概念空間から選択する(ステップS4)。例えば、学習装置10は、ベクトル#2と類似するベクトル、すなわち、各単語間の関係性の構造が類似するベクトルを選択する。ここで、学習装置10は、抽象概念空間上にベクトル#1とベクトル#3とが存在するが、ベクトル#3がベクトル#2と類似する場合は、ベクトル#3を選択し、ベクトル#3を構成する単語群#3を選択する。
そして、学習装置10は、選択した単語群を用いて、入力された文章の概念のたとえ話を生成する(ステップS5)。例えば、学習装置10は、単語群#3から、文章#2のたとえ話となる文章#3を生成し、生成した文章#3をたとえ話として出力する(ステップS6)。この結果、例えば、ロボット等の情報処理装置200は、文章#3を発言Cとして音声出力することができる。
〔2.学習装置の構成〕
以下、上記した学習処理を実現する学習装置10が有する機能構成の一例について説明する。図2は、実施形態に係る学習装置の構成例を示す図である。図2に示すように、学習装置10は、通信部20、記憶部30、および制御部40を有する。
通信部20は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部20は、ネットワークNと有線または無線で接続され、入力装置100、および情報処理装置200との間で情報の送受信を行う。
記憶部30は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。また、記憶部30は、正解データデータベース31および抽象概念空間データベース32を記憶する。
正解データデータベース31には、正解データとなる文章が登録されている。例えば、図3は、実施形態に係る正解データデータベースに登録される情報の一例を示す図である。図3に示す例では、正解データデータベース31には、「文章ID(Identifier)」、「文章データ」、「第1単語」、「第2単語」等といった項目を有する情報が登録される。
ここで、「文章ID(Identifier)」は、正解データとなる文章を識別するための情報である。また、「文章データ」とは、文章のテキストデータである。また、「第1単語」とは、対応付けられた「文章データ」に含まれる単語群のうち、文章内に最初に出現する単語であり、「第2単語」とは、対応付けられた「文章データ」に含まれる単語群のうち、文章内に2番目に出現する単語である。なお、正解データデータベース31には、「第1単語」や「第2単語」以外にも、文章に含まれる単語が順に登録されているものとする。
例えば、図3に示す例では、文章ID「ID#1」、文章データ「文章データ#1」、第1単語「単語#1−1」、および第2単語「単語#1−2」が対応付けて登録されている。このような情報は、文章ID「ID#1」が示す文章が文章データ「文章データ#1」であり、かかる文章中に第1単語「単語#1−1」および第2単語「単語#1−2」が順に含まれている旨を示す。
なお、図3に示す例では、「文章データ#1」、「単語#1−1」、「単語#1−2」等といった概念的な値について記載したが、実際には文章のテキストデータや単語のテキストデータが登録されることとなる。
抽象概念空間データベース32には、抽象概念空間に投影された文章のベクトル、すなわち、正解データである文章のベクトルが登録されている。例えば、図4は、実施形態に係る抽象概念空間データベースに登録される情報の一例を示す図である。図4に示す例では、抽象概念空間データベース32には、「文章ID」、「文章データ」、「文章ベクトル」等といった項目を有する情報が登録される。
ここで、「文章ベクトル」とは、対応付けられた文章IDが示す文章を抽象概念空間上に投影した際のベクトルであり、対応付けられた文章IDが示す文章に含まれる単語群のうち、所定の単語のベクトルの先端に他の単語のベクトルを埋め込むことで生成されるベクトルである。例えば、「文章ベクトル」は、各単語のベクトルを順次連結することで生成されるベクトルである。
例えば、図4に示す例では、文章ID「ID#1」、文章データ「文章データ#1」、文章ベクトル「ベクトル#1」が対応付けて登録されている。このような情報は、文章ID「ID#1」が示す文章が文章データ「文章データ#1」であり、かかる文章を抽象概念空間上に落とし込んだ場合、文章ベクトル「ベクトル#1」となる旨を示す。なお、図4に示す例では、「ベクトル#1」等といった概念的な値について記載したが、実際にはベクトルを示す数値が登録されることとなる。
図2に戻り、説明を続ける。制御部40は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等のプロセッサによって、学習装置10内部の記憶装置に記憶されている各種プログラムがRAM等を作業領域として実行されることにより実現される。また、制御部40は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
図2に示すように、制御部40は、抽出部41、学習部42、選択部43、生成部44、および出力部45を有する。なお、抽出部41および学習部42は、上述した学習処理を実行し、選択部43〜出力部45は、上述した測定処理を実行する。
抽出部41は、所定の構造を有する文章に含まれる単語群を抽出する。例えば、抽出部41は、図示を省略した任意の装置から正解データとして文章を受信すると、形態素解析等により、文章に含まれる単語群を抽出する。そして、抽出部41は、受信した文章と、文章に含まれる単語群とを正解データデータベース31に登録する。例えば、抽出部41は、単語群に含まれる各単語を、文章中に出現する順に、正解データデータベース31に登録する。
学習部42は、所定のベクトル空間上において単語群に含まれる所定の単語の概念を示すベクトルが示す位置に、単語群に含まれる他の単語のベクトルを含むベクトル空間を紐付けることで、文章が有する概念を示す概念空間を学習する。すなわち、学習部42は、抽象概念空間データベース32を生成する。
例えば、学習部42は、正解データデータベース31に登録された各文章の各単語群を、w2v等の技術を用いて、それぞれ分散表現に変換する。そして、学習部42は、同一の文章に含まる各単語の分散表現、すなわちベクトルを連続させたベクトルを文章ベクトルとして生成する。すなわち、学習部42は、文章に含まれるある単語のベクトルの先端に、他の単語のベクトルを埋め込み、かかる他の単語のベクトルの先端に、さらに別の単語のベクトルを埋め込む。換言すると、学習部42は、文章に含まれる各単語のベクトルを多重化することで、文章ベクトルを生成する。そして、学習部42は、生成した文章ベクトルを抽象概念空間データベース32に登録する。
このような学習部42の学習処理により生成された抽象概念空間では、ベクトル同士の比較を行うことで、文章が有する単語間の関係性の構造を比較することができる。例えば、図5は、実施形態に係る学習装置が比較する構造の一例を示す図である。例えば、図5に示す例では、文章#1には、単語#1−1〜#1−3が含まれており、文章#2には、単語#2−1〜#2−3が含まれている。
ここで、文章#1では、単語#1−1が文章#1のベースとなる概念を示し、単語#1−2がベースのバリエーションを示すという構成#1−1を有する。また、文章#1では、単語#1−3が、単語#1−1および単語#1−2からなる概念を修飾するという構成#1−2を有するものとする。このような文章#1を学習部42が生成する抽象概念空間上に落とし込んだ場合、各単語を多重化した際に、各単語の概念のみならず、各単語間の関係性の構造、すなわち構成#1−1および構成#1−2も抽象概念空間上に落とし込むことができると考えられる。例えば、学習装置10は、単語#1−1のベクトルの先端に単語#1−2のベクトルを埋め込み、単語#1−2のベクトルの先端に単語#1−3のベクトルを埋め込んだ場合は、埋め込みの順序により構成#1−1および構成#1−2を再現することができる。
ここで、文章#2においても同様に、単語#2−1が文章#2のベースとなる概念を示し、単語#2−2がベースのバリエーションを示すという構成#2−1を有する。また、文章#2では、単語#2−3が、単語#2−1および単語#2−2からなる概念を修飾するという構成#2−2を有するものとする。このような文章#2を抽象概念空間上に落とし込んだ場合、個々の単語#2−1〜#2−3が単語#1−1〜#1−3と類似せずとも、構成#2−1および構成#2−2が構成#1−1および構成#1−2と類似する場合は、文章#2全体のベクトルが文章#1全体のベクトルと類似すると考えられる。
そこで、学習装置10は、文章#1のベクトルと文章#2のベクトルとが類似する場合には、文章#1と文章#2とが同一構造を有すると推定し、文章#1の構造が示す概念のたとえ話に文章#2が利用可能であると判定する。例えば、学習装置10は、以下に説明する測定処理を実行することで、文章#1のたとえ話を生成する。
図2に戻り、説明を続ける。選択部43は、入力装置100から受けつけた文章から単語群を抽出し、学習部42と同様の処理により、各単語のベクトルを連続させたベクトル、すなわち、入力された文章の文章ベクトルを生成する。そして、選択部43は、抽象概念空間データベース32を参照し、入力された文章の文章ベクトルと類似する文章ベクトルを検索する。例えば、選択部43は、入力された文章の文章ベクトルとのコサイン距離の値が最も小さくなる文章ベクトルを検索する。そして、選択部43は、検索した文章ベクトルと対応付けられた文章IDを特定し、特定した文章IDと対応付けられた単語群を正解データデータベース31から選択する。
生成部44は、選択された単語群を用いて、利用者から受付けた文章と同様の構造を有する文章を生成する。例えば、生成部44は、入力装置100から受付けた文章が有する構造と同様の構造を有する文章を選択部43が選択した単語群から生成する。
出力部45は、生成部44が生成した文章を、利用者から受付けた文章が有する概念を示すたとえとして出力する。例えば、出力部45は、生成部44が生成した文章を情報処理装置200へと出力し、入力装置100から受付けた文章のたとえとして、出力した文章を出力するように指示する。この結果、情報処理装置200は、たとえ話を出力することができる。
〔3.学習装置が実行する処理の流れの一例〕
次に、図6を用いて、学習装置10が実行する学習処理の流れの一例について説明する。図6は、実施形態に係る学習処理の流れの一例を説明するフローチャートである。まず、学習装置10は、正解データとなる文章を取得すると(ステップS101)、取得した文章から単語群を抽出する(ステップS102)。そして、学習装置10は、単語群の各単語をベクトル化し(ステップS103)、あるベクトルの先端に他のベクトルのベクトル空間を紐付ける処理を順次行うことで、文章を抽象概念空間に落とし込み(ステップS104)、処理を終了する。
次に、図7を用いて、学習装置10が実行する測定処理の流れの一例について説明する。図7は、実施形態に係る測定処理の流れの一例を説明するフローチャートである。まず、学習装置10は、利用者の発言等、利用者が入力した文章を取得すると(ステップS201)、文章に含まれる各単語群のベクトルを多重化することで、文章を抽象概念空間に落とし込む(ステップS202)。そして、学習装置10は、抽象概念空間上で、入力された文章のベクトルと類似するベクトルと対応する単語群を選択する(ステップS203)。すなわち、学習装置10は、入力された文章と単語間の関係性の構成が類似する文章のベクトルを抽象概念空間上で検索し、検索したベクトルを構成する単語群を選択する。そして、学習装置10は、選択した単語群を用いて、取得した文章のたとえ話を生成し(ステップS204)、生成したたとえ話を出力して(ステップS205)、処理を終了する。
〔4.変形例〕
上記では、学習装置10による学習処理および測定処理の一例について説明した。しかしながら、実施形態は、これに限定されるものではない。以下、学習装置10が実行する学習処理のバリエーションについて説明する。
〔4−1.学習処理について〕
上述した例では、学習装置10は、正解データとして受付けた文章の各単語をベクトル化し、ベクトルを順に多重化することで、抽象概念空間を学習した。ここで、学習装置10は、所定の構造を有する文章であれば、任意の文章を正解データとして採用してよい。
また、例えば、学習装置10は、文章に含まれる単語間の関係性の構造に応じて、ベクトルを多重化する順番を変化させてもよい。例えば、学習装置10は、第1の構造を有する文章を抽象概念空間に落とし込む場合は、各単語が文書中に出現する順序で、各単語のベクトルを多重化する。一方、学習装置10は、第1の構造とは逆の概念を形成する第2の構造を有する文章を抽象概念空間に落とし込む場合は、各単語が文書中に出現する順序とは逆の順序で、各単語のベクトルを多重化してもよい。
〔4−2.装置構成〕
上述した例では、学習装置10は、学習装置10内で学習処理および測定処理を実行した。しかしながら、実施形態は、これに限定されるものではない。例えば、学習装置10は、学習処理のみを実行し、測定処理については、他の装置が実行してもよい。例えば、学習装置10が上述した学習処理によって生成した抽象概念空間をプログラムパラメータとして用いるプログラムを実行することで、学習装置10以外の情報処理装置が、上述した測定処理を実現してもよい。また、学習装置10は、正解データデータベース31や抽象概念空間データベース32を外部のストレージサーバに記憶させてもよい。
〔4−3.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文章中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上記してきた各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔5.プログラム〕
また、上述してきた実施形態に係る学習装置10は、例えば図8に示すような構成のコンピュータ1000によって実現される。図8は、ハードウェア構成の一例を示す図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが登録される記憶装置であり、ROM(Read Only Memory)、HDD、フラッシュメモリ等により実現される。
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
例えば、コンピュータ1000が学習装置10として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、制御部40の機能を実現する。
〔6.効果〕
上述したように、学習装置10は、所定の構造を有する文章に含まれる単語群を抽出する。そして、学習装置10は、所定のベクトル空間上において単語群に含まれる所定の単語の概念を示すベクトルが示す位置に、単語群に含まれる他の単語のベクトルを含むベクトル空間を紐付けることで、文章が有する概念を示す抽象概念空間を学習する。このため、学習装置10は、文章に含まれる各単語の関係性の構造同士を比較可能な抽象概念空間を生成することができるので、例えば、たとえ話等、利用者の理解を援助する情報を出力することができる。
また、学習装置10は、学習された抽象概念空間を用いて、利用者から受け付けた文章と単語間の関係性の構造が類似する単語群を選択する。そして、学習装置10は、選択された単語群を用いて、利用者から受け付けた文章と同様の構造を有する文章を生成し、生成した文章を出力する。例えば、学習装置10は、利用者から受付けた文章が有する概念を示すたとえとして、生成した文章を出力する。このため、学習装置10は、利用者の理解を援助する情報を出力することができる。
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上記してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、生成部は、生成手段や生成回路に読み替えることができる。
20 通信部
30 記憶部
31 正解データデータベース
32 抽象概念空間データベース
40 制御部
41 抽出部
42 学習部
43 選択部
44 生成部
45 出力部
100 入力装置
200 情報処理装置

Claims (5)

  1. 所定の構造を有する文章に含まれる単語群を抽出する抽出部と、
    所定のベクトル空間上において前記単語群に含まれる所定の単語の概念を示すベクトルが示す位置に、前記単語群に含まれる他の単語のベクトルを含むベクトル空間を紐付けることで、前記文章が有する概念を示す概念空間を学習する学習部と
    を有することを特徴とする学習装置。
  2. 前記学習部により学習された概念空間を用いて、利用者から受け付けた文章と単語間の関係性の構造が類似する単語群を選択する選択部と、
    前記選択部により選択された単語群を用いて、利用者から受け付けた文章と同様の構造を有する文章を生成する生成部と、
    前記生成部が生成した文章を出力する出力部と
    を有することを特徴とする請求項1に記載の学習装置。
  3. 前記出力部は、前記利用者から受付けた文章が有する概念を示すたとえとして、前記生成部が生成した文章を出力する
    ことを特徴とする請求項2に記載の学習装置。
  4. 所定の構造を有する文章に含まれる単語群を抽出する抽出工程と、
    所定のベクトル空間上において前記単語群に含まれる所定の単語の概念を示すベクトルが示す位置に、前記単語群に含まれる他の単語のベクトルを含むベクトル空間を紐付けることで、前記文章が有する概念を示す概念空間を学習する学習工程と
    を含むことを特徴とする学習方法で学習される概念空間の情報を含むプログラムパラメータ。
  5. 学習装置が実行する学習方法であって、
    所定の構造を有する文章に含まれる単語群を抽出する抽出工程と、
    所定のベクトル空間上において前記単語群に含まれる所定の単語の概念を示すベクトルが示す位置に、前記単語群に含まれる他の単語のベクトルを含むベクトル空間を紐付けることで、前記文章が有する概念を示す概念空間を学習する学習工程と
    を含むことを特徴とする学習方法。
JP2016182362A 2016-09-16 2016-09-16 選択装置、および選択方法 Active JP6775366B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016182362A JP6775366B2 (ja) 2016-09-16 2016-09-16 選択装置、および選択方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016182362A JP6775366B2 (ja) 2016-09-16 2016-09-16 選択装置、および選択方法

Publications (2)

Publication Number Publication Date
JP2018045657A true JP2018045657A (ja) 2018-03-22
JP6775366B2 JP6775366B2 (ja) 2020-10-28

Family

ID=61695147

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016182362A Active JP6775366B2 (ja) 2016-09-16 2016-09-16 選択装置、および選択方法

Country Status (1)

Country Link
JP (1) JP6775366B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042131A (ja) * 2018-09-10 2020-03-19 Zホールディングス株式会社 情報処理装置、情報処理方法、およびプログラム
JP2020135153A (ja) * 2019-02-14 2020-08-31 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
WO2022003956A1 (ja) * 2020-07-03 2022-01-06 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042131A (ja) * 2018-09-10 2020-03-19 Zホールディングス株式会社 情報処理装置、情報処理方法、およびプログラム
JP2020135153A (ja) * 2019-02-14 2020-08-31 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
WO2022003956A1 (ja) * 2020-07-03 2022-01-06 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Also Published As

Publication number Publication date
JP6775366B2 (ja) 2020-10-28

Similar Documents

Publication Publication Date Title
EP3825895A1 (en) Method and apparatus with natural language processing
US10803850B2 (en) Voice generation with predetermined emotion type
WO2017127296A1 (en) Analyzing textual data
US20190228074A1 (en) System for machine translation
JP2007172523A (ja) 情報処理装置、情報処理方法、およびプログラム
US20190354533A1 (en) Information processing device, information processing method, and non-transitory computer-readable recording medium
JP6775366B2 (ja) 選択装置、および選択方法
JP6856557B2 (ja) 最適化装置及びハイパーパラメータの最適化方法
JP6429747B2 (ja) 情報提供装置、情報提供方法および情報提供プログラム
CN110008807A (zh) 一种合同内容识别模型的训练方法、装置及设备
JP5342760B2 (ja) 訳語学習のためのデータを作成する装置、方法、およびプログラム
JP6552353B2 (ja) 情報提供装置、情報提供方法および情報提供プログラム
JP2011227749A (ja) 略語完全語復元装置とその方法と、プログラム
CN109902162B (zh) 基于数字指纹的文本相似性的识别方法、存储介质及装置
JP6680655B2 (ja) 学習装置および学習方法
JP7265837B2 (ja) 学習装置および学習方法
JP6370281B2 (ja) 情報提供装置、情報提供方法および情報提供プログラム
JP6988715B2 (ja) 回答文選択装置、方法、およびプログラム
JP5784196B2 (ja) 文書マークアップ支援装置、方法、及びプログラム
JP2022185799A (ja) 情報処理プログラム、情報処理方法および情報処理装置
JP2019021218A (ja) 学習装置、プログラムパラメータ、学習方法およびモデル
JP6526607B2 (ja) 学習装置、学習方法、および学習プログラム
JP6963988B2 (ja) 提供装置、提供方法および提供プログラム
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP7113661B2 (ja) 情報処理装置、情報処理方法、および情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190325

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200427

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200915

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201006

R150 Certificate of patent or registration of utility model

Ref document number: 6775366

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350