JP6778654B2 - 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム - Google Patents

単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム Download PDF

Info

Publication number
JP6778654B2
JP6778654B2 JP2017113765A JP2017113765A JP6778654B2 JP 6778654 B2 JP6778654 B2 JP 6778654B2 JP 2017113765 A JP2017113765 A JP 2017113765A JP 2017113765 A JP2017113765 A JP 2017113765A JP 6778654 B2 JP6778654 B2 JP 6778654B2
Authority
JP
Japan
Prior art keywords
word
division
text
character
word division
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017113765A
Other languages
English (en)
Other versions
JP2018206261A (ja
Inventor
いつみ 斉藤
いつみ 斉藤
齋藤 邦子
邦子 齋藤
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017113765A priority Critical patent/JP6778654B2/ja
Publication of JP2018206261A publication Critical patent/JP2018206261A/ja
Application granted granted Critical
Publication of JP6778654B2 publication Critical patent/JP6778654B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、単語分割推定モデル学習装置、単語分割装置、方法、及びプログラムに係り、特に、テキストを単語に分割するための単語分割推定モデル学習装置、単語分割装置、方法、及びプログラムに関する。
従来より、リカレント型ニューラルネットワークを用いた日本語の単語分割の技術が知られている。従来の技術では、リカレント型ニューラルネットワークを用いた単語分割モデルにおいて辞書引き情報を単語レベルの情報として導入する手法が提案されている(非特許文献1参照)。
池田大志, 進藤裕之, 松本裕治, 辞書情報と単語分散表現を組み込んだリカレントニューラルネットワークによる日本語単語分割, 言語処理学会第23回年次大会講演論文集(2017).
しかし、従来の技術では、リカレント型ニューラルネットワークの入力として、単語の情報として辞書引きの結果のみが考慮されており、単語連接そのものの素性が考慮されていなかった。
本発明は、上記事情を鑑みて成されたものであり、精度よく、テキストを単語に分割するためのモデルを学習することができる単語分割推定モデル学習装置、方法、及びプログラムを提供することを目的とする。
また、精度よく、テキストを単語に分割できる単語分割装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る単語分割推定モデル学習装置は、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを学習する単語分割推定モデル学習装置であって、文字ごとに前記単語分割ラベルが付与されたテキストを受け付ける入力部と、前記テキストを所定の文字列単位に分割した結果を取得する既存解析器分割結果取得部と、前記テキストの文字ごとに付与された前記単語分割ラベルと、前記既存解析器分割結果取得部によって取得した前記テキストを所定の文字列単位に分割した結果とに基づいて、前記テキストの文字の各々、及び前記テキストを所定の文字列単位に分割した結果を入力として、前記テキストの各文字に付与する前記単語分割ラベルを出力とするニューラルネットワークである単語分割モデルを学習する単語分割モデル学習部と、を含んで構成されている。
また、第1の発明に係る単語分割推定モデル学習装置において、前記単語分割ラベルには、先頭、中間、及び末尾を表すラベルを用いるようにしてもよい。
また、第1の発明に係る単語分割推定モデル学習装置において、前記所定の文字列単位は単語であって、前記ニューラルネットワークは、文字ごとに隠れ層及び出力層を有し、前記テキストを単語ごとに分割した結果から得られる単語の末尾文字の隠れ層の入力として、前記単語又は単語分割境界の情報を含み、出力層の直前の隠れ層の入力として、前記テキストに付与された前記単語分割ラベルに基づいて得られた前記出力層に対応する文字までの部分の単語分割結果を用いて得られる単語連接情報を含むようにしてもよい。
第2の発明に係る単語分割装置は、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを用いて単語分割を行う単語分割装置であって、前記テキストを所定の文字列単位に分割した結果を取得する既存解析器分割結果取得部と、前記分割結果取得部によって取得した前記テキストを所定の文字列単位に分割した結果とに基づいて、前記テキストの文字の各々、及び前記テキストを所定の文字列単位に分割した結果を入力として、前記テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである予め学習された前記単語分割モデルを用いて、前記テキストの各文字に対して前記単語分割ラベルを付与する単語分割部と、を含んで構成されている。
第3の発明に係る単語分割推定モデル学習方法は、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを学習する単語分割推定モデル学習装置における単語分割推定モデル学習方法であって、入力部が、文字ごとに前記単語分割ラベルが付与されたテキストを受け付けるステップと、既存解析器分割結果取得部が、前記テキストを所定の文字列単位に分割した結果を取得するステップと、単語分割モデル学習部が、前記テキストの文字ごとに付与された前記単語分割ラベルと、前記分割結果取得部によって取得した前記テキストを所定の文字列単位に分割した結果とに基づいて、前記テキストの文字の各々、及び前記テキストを所定の文字列単位に分割した結果を入力として、前記テキストの各文字に付与する前記単語分割ラベルを出力とするニューラルネットワークである単語分割モデルを学習するステップと、を含んで実行することを特徴とする。
また、第3の発明に係る単語分割推定モデル学習方法において、前記単語分割ラベルには、先頭、中間、及び末尾を表すラベルを用いるようにしてもよい。
また、第4の発明に係る単語分割方法は、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを用いて単語分割を行う単語分割装置における単語分割方法であって、既存解析器分割結果取得部が、前記テキストを所定の文字列単位に分割した結果を取得するステップと、単語分割部が、前記分割結果取得部によって取得した前記テキストを所定の文字列単位に分割した結果とに基づいて、前記テキストの文字の各々、及び前記テキストを所定の文字列単位に分割した結果を入力として、前記テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである予め学習された前記単語分割モデルを用いて、前記テキストの各文字に対して前記単語分割ラベルを付与するステップと、を含んで実行することを特徴とする。
第5の発明に係るプログラムは、コンピュータを、上記の単語分割推定モデル学習装置、又は上記の単語分割装置の各部として機能させるためのプログラムである。
本発明の単語分割推定モデル学習装置、方法、及びプログラムによれば、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルが付与されたテキストを受け付け、テキストを所定の文字列単位に分割した結果を取得し、テキストの文字ごとに付与された単語分割ラベルと、取得したテキストを所定の文字列単位に分割した結果とに基づいて、テキストの文字の各々、及びテキストを所定の文字列単位に分割した結果を入力として、テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである単語分割モデルを学習することにより、精度よく、テキストを単語に分割するためのモデルを学習することができる、という効果が得られる。
また、本発明の単語分割装置、方法、及びプログラムによれば、テキストを所定の文字列単位に分割した結果を取得し、取得したテキストを所定の文字列単位に分割した結果とに基づいて、テキストの文字の各々、及びテキストを所定の文字列単位に分割した結果を入力として、テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである予め学習された単語分割モデルを用いて、テキストの各文字に対して単語分割ラベルを付与することにより、精度よく、テキストを単語に分割できる、という効果が得られる。
本発明の実施の形態に係る単語分割推定モデル学習装置の構成を示すブロック図である。 LSTMの基本構造の一例を示す図である。 LSTMにおいて、単語のembeddingを、分割した単語の末尾文字の隠れ層の入力に追加する場合の一例を示す図である。 LSTMの解析途中を想定した単語レベルのLSTMの隠れ層を、出力層の直前の隠れ層の入力とする場合の一例を示す図である。 LSTMの解析途中を想定した単語レベルのLSTMの更新手順の一例を示す図である。 本発明の実施の形態に係る単語分割推定モデル学習装置における単語分割推定モデル学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る単語分割装置の構成を示すブロック図である。 本発明の実施の形態に係る単語分割装置における単語分割処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
本発明の実施の形態では、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを学習する。単語分割モデルの学習には、リカレント型ニューラルネットワークを用いる。単語分割モデルの学習において、次の2点を導入して単語分割モデルを学習する。一つは、単語ベースの解析器によって得られた単語の分割結果を用いる。もう一つは、解析中の単語レベルのLSTMを導入する。
これらの2点を導入することにより、より多様で豊富な単語レベルの情報を用いて、リカレント型ニューラルネットワークによる単語分割モデルを学習することができる。
<本発明の実施の形態に係る単語分割推定モデル学習装置の構成>
次に、本発明の実施の形態に係る単語分割推定モデル学習装置の構成について説明する。図1に示すように、本発明の実施の形態に係る単語分割推定モデル学習装置100は、CPUと、RAMと、後述する単語分割推定モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この単語分割推定モデル学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。
入力部10は、文字ごとに単語分割ラベルが付与されたテキストを受け付ける。単語分割ラベルは、テキストの各文字の後ろに、単語分割境界が存在するか否かを示す(1/0)のラベルである。
例えば、対象のテキストが「今日は暑いです」であれば、単語分割ラベルは「0110101」と付与される。ただし、単語分割ラベルとして、単語の先頭、中間、及び末尾を表すBMEの3種ラベルを用いてもよい。本実施の形態では以降0/1の単語分割ラベルを用いる場合について説明する。
演算部20は、既存解析器分割結果取得部30と、単語分割モデル学習部32と、単語分割モデル40とを含んで構成されている。
既存解析器分割結果取得部30は、既存解析器により、入力部10で受け付けたテキストを単語ごとに分割し、単語ごとに分割した結果を取得する。ここでは、既存解析器でテキストを自動分割し、その結果を取得すればよい。例えば、入力されたテキストが「今日は暑いです」であれば、既存解析器による自動解析により「今日/は/暑い/です」というテキストを分割した結果が得られる。
単語分割モデル学習部32は、テキストの文字ごとに付与された単語分割ラベルと、既存解析器分割結果取得部30によって取得した、既存解析器によりテキストを単語ごとに分割した結果とに基づいて、テキストの文字の各々、及び既存解析器によりテキストを単語ごとに分割した結果を入力として、テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである単語分割モデルを学習する。ここで学習した単語分割モデルは単語分割モデル40として保持する。なお、単語ごとが所定の文字列単位の一例である。
ここでは、リカレント型ニューラルネットワークであるLSTMを用いて、単語分割モデルを学習する。LSTMは、文字ごとに隠れ層及び出力層を有する。ここで、LSTMの学習において、既存解析器によりテキストを単語ごとに分割した結果から得られる単語の末尾文字の隠れ層の入力として、当該単語の情報を含める。また、LSTMの学習において、出力層の直前の隠れ層の入力として、テキストに付与された単語分割ラベルに基づいて得られた当該出力層に対応する文字までの部分の単語分割結果を用いて得られる単語連接情報を含める。なお、単語の末尾文字の隠れ層の入力として、0又は1などで表した単語分割境界の情報を用いてもよい。
LSTMの基本構造を図2に示す。LSTMのforward隠れ層、及びbackward隠れ層のそれぞれの入力はEin=Wstr*estrとする。estrは文字のembedding、Wstrはestrに対する重みである。出力の直前の隠れ層はHout=Wf*hf+Wb*hbとする。hfは文字レベルのLSTMのforward隠れ層、Wfはhfに対する重み、hbは文字レベルのLSTMのbackward隠れ層、Wbはhbに対する重みである。LSTMの学習では、これらの重みのパラメータが学習される。なお、図2ではbackward隠れ層への入力としてのみ、Einが図示されているが、forward隠れ層への入力もEinであり、各backward隠れ層及び各forward隠れ層への入力の図示は省略されているものとする。以下図3、図4についても同様である。
また、図3に示すように、LSTMにおいて、既存解析器によりテキストを単語ごとに分割した結果の単語のembeddingを、分割した単語の末尾文字の隠れ層の入力に追加する。従って、forward隠れ層、及びbackward隠れ層のそれぞれの入力をEin=Wstr*estr+Wword*ewordとする。ewordは単語のembedding、Wwordはewordに対する重みである。
また、単語分割モデル学習部32は、図4に示すように、LSTMの解析途中を想定して、出力層毎に、当該出力層に対応する文字までの部分の単語連接情報を含む単語レベルのLSTMを構築し、単語レベルのLSTMの隠れ層の出力を当該出力層の直前の隠れ層の入力として、出力層における単語分割ラベルの予測に利用する。この場合、出力層の直前の隠れ層の出力はHout=Wf*hf+Wb*hb+Wword*hwordとなる。hwordは単語レベルのLSTMの隠れ層、Wwordはhwordに対する重みである。
上記LSTMの解析途中を想定した単語レベルのLSTMの更新手順について図5を参照して説明する。文字毎に先頭から順に解析するときに、まず、解析済みの文字で、単語分割ラベルに基づいて単語として確定している部分を解析済単語リストに追加する。次に、単語として確定していない文字は、未追加リストに追加し、未追加リストの文字と現時点の解析対象の文字とを結合したものを、次単語候補としてLSTMを計算する。次に、新たに解析済単語リストに単語を追加する場合(単語分割ラベルが1となった場合)には、単語レベルのLSTMを更新して、上記と同様にLSTMの計算を行う。
<本発明の実施の形態に係る単語分割推定モデル学習装置の作用>
次に、本発明の実施の形態に係る単語分割推定モデル学習装置100の作用について説明する。入力部10において文字ごとに単語分割ラベルが付与されたテキストを複数受け付けると、単語分割推定モデル学習装置100は、図6に示す単語分割推定モデル学習処理ルーチンを実行する。
まず、ステップS100では、既存解析器で、入力部10で受け付けた複数のテキストを単語ごとに分割した結果を取得する。
次に、ステップS102では、複数のテキストの文字ごとに付与された単語分割ラベルと、既存解析器分割結果取得部30によって取得した、既存解析器により複数のテキストを単語ごとに分割した結果とに基づいて、テキストの文字の各々、及び既存解析器によりテキストを単語ごとに分割した結果を入力とし、テキストの各文字に付与する単語分割ラベルを出力とするLSTMを単語分割モデルとして学習する。LSTMにおいて、上記図3に示すように、既存解析器によりテキストを単語ごとに分割した結果から得られる単語の末尾文字の隠れ層の入力として、当該単語の情報を含める。また、上記図4に示すように、出力層の直前の隠れ層の入力として、テキストに付与された単語分割ラベルに基づいて得られた当該出力層に対応する文字までの部分の単語分割結果を用いて得られる単語連接情報を含める。
以上説明したように、本発明の実施の形態に係る単語分割推定モデル学習装置によれば、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルが付与されたテキストを受け付け、既存解析器でテキストを単語ごとに分割した結果を取得し、テキストの文字ごとに付与された単語分割ラベルと、取得したテキストを単語ごとに分割した結果とに基づいて、テキストの文字の各々、及びテキストを単語ごとに分割した結果を入力として、テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである単語分割モデルを学習することにより、精度よく、テキストを単語に分割するためのモデルを学習することができる。
<本発明の実施の形態に係る単語分割装置の構成>
次に、本発明の実施の形態に係る単語分割装置の構成について説明する。図7に示すように、本発明の実施の形態に係る単語分割装置200は、CPUと、RAMと、後述する単語分割処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この単語分割装置200は、機能的には図7に示すように入力部210と、演算部220と、出力部250とを備えている。
入力部210は、分割対象のテキストを受け付ける。
演算部20は、既存解析器分割結果取得部230と、単語分割部232と、単語分割モデル240とを含んで構成されている。
単語分割モデル240は、上記単語分割推定モデル学習装置100により学習された、テキストの文字の各々、及びテキストを単語ごとに分割した結果を入力として、テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワーク(LSTM)である単語分割モデルである。
既存解析器分割結果取得部230は、既存解析器で、入力部210で受け付けたテキストを単語ごとに分割し、単語ごとに分割した結果を取得する。詳しい分割方法は上記単語分割推定モデル学習装置100の既存解析器分割結果取得部30と同様であり、例えば、既存解析器によりテキストを単語ごとに分割した結果を取得する。
単語分割部232は、既存解析器分割結果取得部230によって取得したテキストを単語ごとに分割した結果に基づいて、単語分割モデル240を用いて、テキストの各文字に対して単語分割ラベルを付与して出力部250に出力する。
具体的には、単語分割モデル240であるLSTMの計算において、既存解析器によりテキストを単語ごとに分割した結果から得られる単語の末尾文字の隠れ層の入力として、当該単語の情報を含める。
また、出力層の直前の隠れ層の入力として、単語分割モデル240により付与された単語分割ラベルに基づいて得られた当該出力層に対応する文字までの部分の単語分割結果を用いて得られる単語連接情報を含める。このとき、出力層毎に、当該出力層に対応する文字までの部分の単語連接情報を含む単語レベルのLSTMを構築し、単語レベルのLSTMの隠れ層の出力を当該出力層の直前の隠れ層の入力として、出力層における単語分割ラベルの予測に利用する。
単語レベルのLSTMの更新手順について上記図5を参照して説明する。単語分割部232が、文字毎に先頭から順に解析するときに、まず、解析済みの文字で、単語分割モデル240を用いて付与された単語分割ラベルに基づいて単語として確定している部分を解析済単語リストに追加する。次に、単語として確定していない文字は、未追加リストに追加し、未追加リストの文字と現時点の解析対象の文字とを結合したものを、次単語候補としてLSTMを計算する。次に、新たに解析済単語リストに単語を追加する場合(単語分割モデル240を用いて付与された単語分割ラベルが1となった場合)には、単語レベルのLSTMを更新して、上記と同様にLSTMの計算を行う。
<本発明の実施の形態に係る単語分割装置の作用>
次に、本発明の実施の形態に係る単語分割装置200の作用について説明する。入力部210において分割対象のテキストを受け付けると、単語分割装置200は、図8に示す単語分割処理ルーチンを実行する。
まず、ステップS200では、既存解析器で、入力部210で受け付けたテキストを単語ごとに分割した結果を取得する。
次に、ステップS202では、既存解析器分割結果取得部230によって取得したテキストを単語ごとに分割した結果に基づいて、単語分割モデル240を用いて、テキストの各文字に対して単語分割ラベルを付与して出力部250に出力し、処理を終了する。ここで、単語分割モデル240であるLSTMにおいて、上記図3に示すように、既存解析器によりテキストを単語ごとに分割した結果から得られる単語の末尾文字の隠れ層の入力として、当該単語の情報を含める。また、上記図4に示すように、出力層の直前の隠れ層の入力として、単語分割モデル240により付与された単語分割ラベルに基づいて得られた当該出力層に対応する文字までの部分の単語分割結果を用いて得られる単語連接情報を含める。
以上説明したように、本発明の実施の形態に係る単語分割装置によれば、既存解析器でテキストを単語ごとに分割した結果を取得し、取得したテキストを単語ごとに分割した結果とに基づいて、テキストの文字の各々、及びテキストを単語ごとに分割した結果を入力として、テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである予め学習された単語分割モデルを用いて、テキストの各文字に対して単語分割ラベルを付与することにより、精度よく、テキストを単語に分割できる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、LSTMの学習において、テキストを単語ごとに分割した結果から得られる単語の末尾文字の隠れ層の入力として、単語を含め、かつ、出力層の直前の隠れ層の入力として、文字ごとに付与された単語分割ラベルに基づいて得られた出力層に対応する文字までの部分の単語分割結果を用いて得られる単語連接情報を含める場合について説明したが、これに限定されるものではない。例えば、上記の単語と、単語連接情報とのいずれか一方のみをそれぞれの隠れ層の入力に用いてLSTMを学習するようにしてもよい。
また、上述した実施の形態では、既存解析器によりテキストを単語に分割して、単語又は単語分割境界の情報をLSTMの入力に用いる場合を例として説明したが、これに限定されるものではない。例えば、既存解析器により、テキストを所定の文字列単位(例えば、文節)に区切り、所定の文字列単位の情報を、LSTMの入力として用いるようにしてもよい。
また、既存解析器分割結果取得部30、230は、既存解析器によりテキストを単語ごとに分割する場合を例に説明したが、これに限定されるものではなく、入力部10から、既存解析器によりテキストを単語ごとに分割した結果を受け付けるようにしてもよく、この場合には既存解析器分割結果取得部30、230の処理を省略してもよい。
10、210 入力部
20、220 演算部
30、230 既存解析器分割結果取得部
32 単語分割モデル学習部
40、240 単語分割モデル
100 単語分割推定モデル学習装置
200 単語分割装置
232 単語分割部

Claims (8)

  1. テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを学習する単語分割推定モデル学習装置であって、
    文字ごとに前記単語分割ラベルが付与されたテキストを受け付ける入力部と、
    前記テキストを単語単位に分割した結果を取得する既存解析器分割結果取得部と、
    前記テキストの文字ごとに付与された前記単語分割ラベルを正解ラベルとして、文字ごとに対応した隠れ層を有するニューラルネットワークであって、前記テキストの文字の各々の埋め込みを文字ごとの隠れ層の入力として、かつ、前記分割した結果に基づいて各単語の埋め込みを取得し、前記単語の埋め込みを、前記分割した結果から得られる単語の末尾文字の隠れ層の入力として、前記テキストの各文字に付与する単語分割ラベルを出力するニューラルネットワークである単語分割モデルを学習する単語分割モデル学習部と、
    を含む単語分割推定モデル学習装置。
  2. 前記正解ラベルとしての前記単語分割ラベルには、先頭、中間、及び末尾を表すラベルを用いる請求項1に記載の単語分割推定モデル学習装置。
  3. テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを用いて単語分割を行う単語分割装置であって、
    前記テキストを単語単位に分割した結果を取得する既存解析器分割結果取得部と、
    記テキストの文字の各々、及び前記テキストを単語単位に分割した結果を入力として、文字ごとに対応した隠れ層を有するニューラルネットワークであって、前記テキストの文字の各々の埋め込みを文字ごとの隠れ層の入力として、かつ、前記分割した結果に基づいて各単語の埋め込みを取得し、前記単語の埋め込みを、前記分割した結果から得られる単語の末尾文字の隠れ層の入力として、前記テキストの各文字に付与する単語分割ラベルを出力するニューラルネットワークであるように予め学習された前記単語分割モデルの出力として、前記テキストの各文字に対して前記単語分割ラベルを付与する単語分割部と、
    を含む単語分割装置。
  4. テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを学習する単語分割推定モデル学習装置における単語分割推定モデル学習方法であって、
    入力部が、文字ごとに前記単語分割ラベルが付与されたテキストを受け付けるステップと、
    既存解析器分割結果取得部が、前記テキストを単語単位に分割した結果を取得するステップと、
    単語分割モデル学習部が、前記テキストの文字ごとに付与された前記単語分割ラベルを正解ラベルとして、文字ごとに対応した隠れ層を有するニューラルネットワークであって、前記テキストの文字の各々の埋め込みを文字ごとの隠れ層の入力として、かつ、前記分割した結果に基づいて各単語の埋め込みを取得し、前記単語の埋め込みを、前記分割した結果から得られる単語の末尾文字の隠れ層の入力として、前記テキストの各文字に付与する単語分割ラベルを出力するニューラルネットワークである単語分割モデルを学習するステップと、
    を含む単語分割推定モデル学習方法。
  5. 前記正解ラベルとしての前記単語分割ラベルには、先頭、中間、及び末尾を表すラベルを用いる請求項に記載の単語分割推定モデル学習方法。
  6. テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを用いて単語分割を行う単語分割装置における単語分割方法であって、
    既存解析器分割結果取得部が、前記テキストを単語単位に分割した結果を取得するステップと、
    単語分割部が、前記テキストの文字の各々、及び前記テキストを単語単位に分割した結果を入力として、文字ごとに対応した隠れ層を有するニューラルネットワークであって、前記テキストの文字の各々の埋め込みを文字ごとの隠れ層の入力として、かつ、前記分割した結果に基づいて各単語の埋め込みを取得し、前記単語の埋め込みを、前記分割した結果から得られる単語の末尾文字の隠れ層の入力として、前記テキストの各文字に付与する単語分割ラベルを出力するニューラルネットワークであるように予め学習された前記単語分割モデルの出力として、前記テキストの各文字に対して前記単語分割ラベルを付与するステップと、
    を含む単語分割方法。
  7. コンピュータを、請求項1又は請求項2に記載の単語分割推定モデル学習装置の各部として機能させるためのプログラム。
  8. コンピュータを、請求項3に記載の単語分割装置の各部として機能させるためのプログラム。
JP2017113765A 2017-06-08 2017-06-08 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム Active JP6778654B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017113765A JP6778654B2 (ja) 2017-06-08 2017-06-08 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017113765A JP6778654B2 (ja) 2017-06-08 2017-06-08 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018206261A JP2018206261A (ja) 2018-12-27
JP6778654B2 true JP6778654B2 (ja) 2020-11-04

Family

ID=64957913

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017113765A Active JP6778654B2 (ja) 2017-06-08 2017-06-08 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6778654B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102354898B1 (ko) * 2019-05-29 2022-01-24 경희대학교 산학협력단 한국어 기반 신경망 언어 모델을 위한 어휘 목록 생성 방법 및 장치
CN111062467B (zh) * 2019-12-18 2023-05-12 开放智能机器(上海)有限公司 一种应用于ai异构编译器的自动切分神经网络子图方法
CN111476022B (zh) * 2020-05-15 2023-07-07 湖南工商大学 实体特征的字符嵌入及混合lstm实体识别方法、系统及介质
CN112131866A (zh) * 2020-09-25 2020-12-25 马上消费金融股份有限公司 一种分词方法、装置、设备及可读存储介质
CN112949298B (zh) * 2021-02-26 2022-10-04 维沃移动通信有限公司 分词方法、装置、电子设备和可读存储介质
CN116226362B (zh) * 2023-05-06 2023-07-18 湖南德雅曼达科技有限公司 一种提升搜索医院名称准确度的分词方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101261623A (zh) * 2007-03-07 2008-09-10 国际商业机器公司 基于搜索的无词边界标记语言的分词方法以及装置
JP2010238043A (ja) * 2009-03-31 2010-10-21 Mitsubishi Electric Corp テキスト解析学習装置

Also Published As

Publication number Publication date
JP2018206261A (ja) 2018-12-27

Similar Documents

Publication Publication Date Title
JP6778654B2 (ja) 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム
US10664660B2 (en) Method and device for extracting entity relation based on deep learning, and server
Oda et al. Learning to generate pseudo-code from source code using statistical machine translation
US20190114300A1 (en) Reading Level Based Text Simplification
CN103678285A (zh) 机器翻译方法和机器翻译系统
JP6312467B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN104599680A (zh) 移动设备上的实时口语评价系统及方法
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
JP6946842B2 (ja) モデル学習装置、変換装置、方法、及びプログラム
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
US10936825B1 (en) Methods and apparatus to improve disambiguation and interpretation in automated text analysis using transducers applied on a structured language space
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
KR102204395B1 (ko) 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템
WO2019163752A1 (ja) 形態素解析学習装置、形態素解析装置、方法、及びプログラム
KR20120045906A (ko) 코퍼스 오류 교정 장치 및 그 방법
KR20200072593A (ko) 신경망 네트워크에 기반한 의존 구문 분석 제어 방법 및 그것을 이용하는 의존 구문 분석 장치
US20230028376A1 (en) Abstract learning method, abstract learning apparatus and program
JP2017041207A (ja) 構造解析装置、方法、及びプログラム
JP2021128421A (ja) トークン長変換装置、プログラム及び方法
JP6665029B2 (ja) 言語解析装置、言語解析方法、及びプログラム
JP6663881B2 (ja) 並列句解析装置、並列句解析モデル学習装置、方法、及びプログラム
JP2016133956A (ja) 形態素解析モデル生成装置、形態素解析モデル生成方法、及び、プログラム
KR102445497B1 (ko) 학습 예문 및 어휘 패턴 생성 장치와 이의 동작 방법
JP2016051367A (ja) データ解析装置、データ解析方法、および、プログラム。
CN115049899B (zh) 模型训练方法、指代表达式生成方法及相关设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190827

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200609

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200807

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201012

R150 Certificate of patent or registration of utility model

Ref document number: 6778654

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150