JP6778654B2

JP6778654B2 - 単語分割推定モデル学習装置、単語分割装置、方法、及びプログラム

Info

Publication number: JP6778654B2
Application number: JP2017113765A
Authority: JP
Inventors: いつみ斉藤; 齋藤　邦子; 邦子齋藤; 松尾　義博; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-06-08
Filing date: 2017-06-08
Publication date: 2020-11-04
Anticipated expiration: 2037-06-08
Also published as: JP2018206261A

Description

本発明は、単語分割推定モデル学習装置、単語分割装置、方法、及びプログラムに係り、特に、テキストを単語に分割するための単語分割推定モデル学習装置、単語分割装置、方法、及びプログラムに関する。

従来より、リカレント型ニューラルネットワークを用いた日本語の単語分割の技術が知られている。従来の技術では、リカレント型ニューラルネットワークを用いた単語分割モデルにおいて辞書引き情報を単語レベルの情報として導入する手法が提案されている（非特許文献１参照）。

池田大志, 進藤裕之, 松本裕治, 辞書情報と単語分散表現を組み込んだリカレントニューラルネットワークによる日本語単語分割, 言語処理学会第23回年次大会講演論文集(2017).

しかし、従来の技術では、リカレント型ニューラルネットワークの入力として、単語の情報として辞書引きの結果のみが考慮されており、単語連接そのものの素性が考慮されていなかった。

本発明は、上記事情を鑑みて成されたものであり、精度よく、テキストを単語に分割するためのモデルを学習することができる単語分割推定モデル学習装置、方法、及びプログラムを提供することを目的とする。

また、精度よく、テキストを単語に分割できる単語分割装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る単語分割推定モデル学習装置は、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを学習する単語分割推定モデル学習装置であって、文字ごとに前記単語分割ラベルが付与されたテキストを受け付ける入力部と、前記テキストを所定の文字列単位に分割した結果を取得する既存解析器分割結果取得部と、前記テキストの文字ごとに付与された前記単語分割ラベルと、前記既存解析器分割結果取得部によって取得した前記テキストを所定の文字列単位に分割した結果とに基づいて、前記テキストの文字の各々、及び前記テキストを所定の文字列単位に分割した結果を入力として、前記テキストの各文字に付与する前記単語分割ラベルを出力とするニューラルネットワークである単語分割モデルを学習する単語分割モデル学習部と、を含んで構成されている。

また、第１の発明に係る単語分割推定モデル学習装置において、前記単語分割ラベルには、先頭、中間、及び末尾を表すラベルを用いるようにしてもよい。

また、第１の発明に係る単語分割推定モデル学習装置において、前記所定の文字列単位は単語であって、前記ニューラルネットワークは、文字ごとに隠れ層及び出力層を有し、前記テキストを単語ごとに分割した結果から得られる単語の末尾文字の隠れ層の入力として、前記単語又は単語分割境界の情報を含み、出力層の直前の隠れ層の入力として、前記テキストに付与された前記単語分割ラベルに基づいて得られた前記出力層に対応する文字までの部分の単語分割結果を用いて得られる単語連接情報を含むようにしてもよい。

第２の発明に係る単語分割装置は、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを用いて単語分割を行う単語分割装置であって、前記テキストを所定の文字列単位に分割した結果を取得する既存解析器分割結果取得部と、前記分割結果取得部によって取得した前記テキストを所定の文字列単位に分割した結果とに基づいて、前記テキストの文字の各々、及び前記テキストを所定の文字列単位に分割した結果を入力として、前記テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである予め学習された前記単語分割モデルを用いて、前記テキストの各文字に対して前記単語分割ラベルを付与する単語分割部と、を含んで構成されている。

第３の発明に係る単語分割推定モデル学習方法は、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを学習する単語分割推定モデル学習装置における単語分割推定モデル学習方法であって、入力部が、文字ごとに前記単語分割ラベルが付与されたテキストを受け付けるステップと、既存解析器分割結果取得部が、前記テキストを所定の文字列単位に分割した結果を取得するステップと、単語分割モデル学習部が、前記テキストの文字ごとに付与された前記単語分割ラベルと、前記分割結果取得部によって取得した前記テキストを所定の文字列単位に分割した結果とに基づいて、前記テキストの文字の各々、及び前記テキストを所定の文字列単位に分割した結果を入力として、前記テキストの各文字に付与する前記単語分割ラベルを出力とするニューラルネットワークである単語分割モデルを学習するステップと、を含んで実行することを特徴とする。

また、第３の発明に係る単語分割推定モデル学習方法において、前記単語分割ラベルには、先頭、中間、及び末尾を表すラベルを用いるようにしてもよい。

また、第４の発明に係る単語分割方法は、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを用いて単語分割を行う単語分割装置における単語分割方法であって、既存解析器分割結果取得部が、前記テキストを所定の文字列単位に分割した結果を取得するステップと、単語分割部が、前記分割結果取得部によって取得した前記テキストを所定の文字列単位に分割した結果とに基づいて、前記テキストの文字の各々、及び前記テキストを所定の文字列単位に分割した結果を入力として、前記テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである予め学習された前記単語分割モデルを用いて、前記テキストの各文字に対して前記単語分割ラベルを付与するステップと、を含んで実行することを特徴とする。

第５の発明に係るプログラムは、コンピュータを、上記の単語分割推定モデル学習装置、又は上記の単語分割装置の各部として機能させるためのプログラムである。

本発明の単語分割推定モデル学習装置、方法、及びプログラムによれば、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルが付与されたテキストを受け付け、テキストを所定の文字列単位に分割した結果を取得し、テキストの文字ごとに付与された単語分割ラベルと、取得したテキストを所定の文字列単位に分割した結果とに基づいて、テキストの文字の各々、及びテキストを所定の文字列単位に分割した結果を入力として、テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである単語分割モデルを学習することにより、精度よく、テキストを単語に分割するためのモデルを学習することができる、という効果が得られる。

また、本発明の単語分割装置、方法、及びプログラムによれば、テキストを所定の文字列単位に分割した結果を取得し、取得したテキストを所定の文字列単位に分割した結果とに基づいて、テキストの文字の各々、及びテキストを所定の文字列単位に分割した結果を入力として、テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである予め学習された単語分割モデルを用いて、テキストの各文字に対して単語分割ラベルを付与することにより、精度よく、テキストを単語に分割できる、という効果が得られる。

本発明の実施の形態に係る単語分割推定モデル学習装置の構成を示すブロック図である。ＬＳＴＭの基本構造の一例を示す図である。ＬＳＴＭにおいて、単語のembeddingを、分割した単語の末尾文字の隠れ層の入力に追加する場合の一例を示す図である。ＬＳＴＭの解析途中を想定した単語レベルのＬＳＴＭの隠れ層を、出力層の直前の隠れ層の入力とする場合の一例を示す図である。ＬＳＴＭの解析途中を想定した単語レベルのＬＳＴＭの更新手順の一例を示す図である。本発明の実施の形態に係る単語分割推定モデル学習装置における単語分割推定モデル学習処理ルーチンを示すフローチャートである。本発明の実施の形態に係る単語分割装置の構成を示すブロック図である。本発明の実施の形態に係る単語分割装置における単語分割処理ルーチンを示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る概要＞

まず、本発明の実施の形態における概要を説明する。

本発明の実施の形態では、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを学習する。単語分割モデルの学習には、リカレント型ニューラルネットワークを用いる。単語分割モデルの学習において、次の２点を導入して単語分割モデルを学習する。一つは、単語ベースの解析器によって得られた単語の分割結果を用いる。もう一つは、解析中の単語レベルのＬＳＴＭを導入する。

これらの２点を導入することにより、より多様で豊富な単語レベルの情報を用いて、リカレント型ニューラルネットワークによる単語分割モデルを学習することができる。

＜本発明の実施の形態に係る単語分割推定モデル学習装置の構成＞

次に、本発明の実施の形態に係る単語分割推定モデル学習装置の構成について説明する。図１に示すように、本発明の実施の形態に係る単語分割推定モデル学習装置１００は、ＣＰＵと、ＲＡＭと、後述する単語分割推定モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この単語分割推定モデル学習装置１００は、機能的には図１に示すように入力部１０と、演算部２０とを備えている。

入力部１０は、文字ごとに単語分割ラベルが付与されたテキストを受け付ける。単語分割ラベルは、テキストの各文字の後ろに、単語分割境界が存在するか否かを示す（１/０）のラベルである。

例えば、対象のテキストが「今日は暑いです」であれば、単語分割ラベルは「０１１０１０１」と付与される。ただし、単語分割ラベルとして、単語の先頭、中間、及び末尾を表すＢＭＥの３種ラベルを用いてもよい。本実施の形態では以降０/１の単語分割ラベルを用いる場合について説明する。

演算部２０は、既存解析器分割結果取得部３０と、単語分割モデル学習部３２と、単語分割モデル４０とを含んで構成されている。

既存解析器分割結果取得部３０は、既存解析器により、入力部１０で受け付けたテキストを単語ごとに分割し、単語ごとに分割した結果を取得する。ここでは、既存解析器でテキストを自動分割し、その結果を取得すればよい。例えば、入力されたテキストが「今日は暑いです」であれば、既存解析器による自動解析により「今日/は/暑い/です」というテキストを分割した結果が得られる。

単語分割モデル学習部３２は、テキストの文字ごとに付与された単語分割ラベルと、既存解析器分割結果取得部３０によって取得した、既存解析器によりテキストを単語ごとに分割した結果とに基づいて、テキストの文字の各々、及び既存解析器によりテキストを単語ごとに分割した結果を入力として、テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである単語分割モデルを学習する。ここで学習した単語分割モデルは単語分割モデル４０として保持する。なお、単語ごとが所定の文字列単位の一例である。

ここでは、リカレント型ニューラルネットワークであるＬＳＴＭを用いて、単語分割モデルを学習する。ＬＳＴＭは、文字ごとに隠れ層及び出力層を有する。ここで、ＬＳＴＭの学習において、既存解析器によりテキストを単語ごとに分割した結果から得られる単語の末尾文字の隠れ層の入力として、当該単語の情報を含める。また、ＬＳＴＭの学習において、出力層の直前の隠れ層の入力として、テキストに付与された単語分割ラベルに基づいて得られた当該出力層に対応する文字までの部分の単語分割結果を用いて得られる単語連接情報を含める。なお、単語の末尾文字の隠れ層の入力として、０又は１などで表した単語分割境界の情報を用いてもよい。

ＬＳＴＭの基本構造を図２に示す。ＬＳＴＭのforward隠れ層、及びbackward隠れ層のそれぞれの入力はE_in=W_str*e_strとする。e_strは文字のembedding、W_strはe_strに対する重みである。出力の直前の隠れ層はH_out=W_f*h_f+W_b*h_bとする。h_fは文字レベルのＬＳＴＭのforward隠れ層、W_fはh_fに対する重み、h_bは文字レベルのＬＳＴＭのbackward隠れ層、W_bはh_bに対する重みである。ＬＳＴＭの学習では、これらの重みのパラメータが学習される。なお、図２ではbackward隠れ層への入力としてのみ、E_inが図示されているが、forward隠れ層への入力もE_inであり、各backward隠れ層及び各forward隠れ層への入力の図示は省略されているものとする。以下図３、図４についても同様である。

また、図３に示すように、ＬＳＴＭにおいて、既存解析器によりテキストを単語ごとに分割した結果の単語のembeddingを、分割した単語の末尾文字の隠れ層の入力に追加する。従って、forward隠れ層、及びbackward隠れ層のそれぞれの入力をE_in=W_str*e_str+W_word*e_wordとする。e_wordは単語のembedding、W_wordはe_wordに対する重みである。

また、単語分割モデル学習部３２は、図４に示すように、ＬＳＴＭの解析途中を想定して、出力層毎に、当該出力層に対応する文字までの部分の単語連接情報を含む単語レベルのＬＳＴＭを構築し、単語レベルのＬＳＴＭの隠れ層の出力を当該出力層の直前の隠れ層の入力として、出力層における単語分割ラベルの予測に利用する。この場合、出力層の直前の隠れ層の出力はH_out=W_f*h_f+W_b*h_b+W_word*h_wordとなる。h_wordは単語レベルのＬＳＴＭの隠れ層、W_wordはh_wordに対する重みである。

上記ＬＳＴＭの解析途中を想定した単語レベルのＬＳＴＭの更新手順について図５を参照して説明する。文字毎に先頭から順に解析するときに、まず、解析済みの文字で、単語分割ラベルに基づいて単語として確定している部分を解析済単語リストに追加する。次に、単語として確定していない文字は、未追加リストに追加し、未追加リストの文字と現時点の解析対象の文字とを結合したものを、次単語候補としてＬＳＴＭを計算する。次に、新たに解析済単語リストに単語を追加する場合（単語分割ラベルが１となった場合）には、単語レベルのＬＳＴＭを更新して、上記と同様にＬＳＴＭの計算を行う。

＜本発明の実施の形態に係る単語分割推定モデル学習装置の作用＞

次に、本発明の実施の形態に係る単語分割推定モデル学習装置１００の作用について説明する。入力部１０において文字ごとに単語分割ラベルが付与されたテキストを複数受け付けると、単語分割推定モデル学習装置１００は、図６に示す単語分割推定モデル学習処理ルーチンを実行する。

まず、ステップＳ１００では、既存解析器で、入力部１０で受け付けた複数のテキストを単語ごとに分割した結果を取得する。

次に、ステップＳ１０２では、複数のテキストの文字ごとに付与された単語分割ラベルと、既存解析器分割結果取得部３０によって取得した、既存解析器により複数のテキストを単語ごとに分割した結果とに基づいて、テキストの文字の各々、及び既存解析器によりテキストを単語ごとに分割した結果を入力とし、テキストの各文字に付与する単語分割ラベルを出力とするＬＳＴＭを単語分割モデルとして学習する。ＬＳＴＭにおいて、上記図３に示すように、既存解析器によりテキストを単語ごとに分割した結果から得られる単語の末尾文字の隠れ層の入力として、当該単語の情報を含める。また、上記図４に示すように、出力層の直前の隠れ層の入力として、テキストに付与された単語分割ラベルに基づいて得られた当該出力層に対応する文字までの部分の単語分割結果を用いて得られる単語連接情報を含める。

以上説明したように、本発明の実施の形態に係る単語分割推定モデル学習装置によれば、テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルが付与されたテキストを受け付け、既存解析器でテキストを単語ごとに分割した結果を取得し、テキストの文字ごとに付与された単語分割ラベルと、取得したテキストを単語ごとに分割した結果とに基づいて、テキストの文字の各々、及びテキストを単語ごとに分割した結果を入力として、テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである単語分割モデルを学習することにより、精度よく、テキストを単語に分割するためのモデルを学習することができる。

＜本発明の実施の形態に係る単語分割装置の構成＞

次に、本発明の実施の形態に係る単語分割装置の構成について説明する。図７に示すように、本発明の実施の形態に係る単語分割装置２００は、ＣＰＵと、ＲＡＭと、後述する単語分割処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この単語分割装置２００は、機能的には図７に示すように入力部２１０と、演算部２２０と、出力部２５０とを備えている。

入力部２１０は、分割対象のテキストを受け付ける。

演算部２０は、既存解析器分割結果取得部２３０と、単語分割部２３２と、単語分割モデル２４０とを含んで構成されている。

単語分割モデル２４０は、上記単語分割推定モデル学習装置１００により学習された、テキストの文字の各々、及びテキストを単語ごとに分割した結果を入力として、テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワーク（ＬＳＴＭ）である単語分割モデルである。

既存解析器分割結果取得部２３０は、既存解析器で、入力部２１０で受け付けたテキストを単語ごとに分割し、単語ごとに分割した結果を取得する。詳しい分割方法は上記単語分割推定モデル学習装置１００の既存解析器分割結果取得部３０と同様であり、例えば、既存解析器によりテキストを単語ごとに分割した結果を取得する。

単語分割部２３２は、既存解析器分割結果取得部２３０によって取得したテキストを単語ごとに分割した結果に基づいて、単語分割モデル２４０を用いて、テキストの各文字に対して単語分割ラベルを付与して出力部２５０に出力する。

具体的には、単語分割モデル２４０であるＬＳＴＭの計算において、既存解析器によりテキストを単語ごとに分割した結果から得られる単語の末尾文字の隠れ層の入力として、当該単語の情報を含める。

また、出力層の直前の隠れ層の入力として、単語分割モデル２４０により付与された単語分割ラベルに基づいて得られた当該出力層に対応する文字までの部分の単語分割結果を用いて得られる単語連接情報を含める。このとき、出力層毎に、当該出力層に対応する文字までの部分の単語連接情報を含む単語レベルのＬＳＴＭを構築し、単語レベルのＬＳＴＭの隠れ層の出力を当該出力層の直前の隠れ層の入力として、出力層における単語分割ラベルの予測に利用する。

単語レベルのＬＳＴＭの更新手順について上記図５を参照して説明する。単語分割部２３２が、文字毎に先頭から順に解析するときに、まず、解析済みの文字で、単語分割モデル２４０を用いて付与された単語分割ラベルに基づいて単語として確定している部分を解析済単語リストに追加する。次に、単語として確定していない文字は、未追加リストに追加し、未追加リストの文字と現時点の解析対象の文字とを結合したものを、次単語候補としてＬＳＴＭを計算する。次に、新たに解析済単語リストに単語を追加する場合（単語分割モデル２４０を用いて付与された単語分割ラベルが１となった場合）には、単語レベルのＬＳＴＭを更新して、上記と同様にＬＳＴＭの計算を行う。

＜本発明の実施の形態に係る単語分割装置の作用＞

次に、本発明の実施の形態に係る単語分割装置２００の作用について説明する。入力部２１０において分割対象のテキストを受け付けると、単語分割装置２００は、図８に示す単語分割処理ルーチンを実行する。

まず、ステップＳ２００では、既存解析器で、入力部２１０で受け付けたテキストを単語ごとに分割した結果を取得する。

次に、ステップＳ２０２では、既存解析器分割結果取得部２３０によって取得したテキストを単語ごとに分割した結果に基づいて、単語分割モデル２４０を用いて、テキストの各文字に対して単語分割ラベルを付与して出力部２５０に出力し、処理を終了する。ここで、単語分割モデル２４０であるＬＳＴＭにおいて、上記図３に示すように、既存解析器によりテキストを単語ごとに分割した結果から得られる単語の末尾文字の隠れ層の入力として、当該単語の情報を含める。また、上記図４に示すように、出力層の直前の隠れ層の入力として、単語分割モデル２４０により付与された単語分割ラベルに基づいて得られた当該出力層に対応する文字までの部分の単語分割結果を用いて得られる単語連接情報を含める。

以上説明したように、本発明の実施の形態に係る単語分割装置によれば、既存解析器でテキストを単語ごとに分割した結果を取得し、取得したテキストを単語ごとに分割した結果とに基づいて、テキストの文字の各々、及びテキストを単語ごとに分割した結果を入力として、テキストの各文字に付与する単語分割ラベルを出力とするニューラルネットワークである予め学習された単語分割モデルを用いて、テキストの各文字に対して単語分割ラベルを付与することにより、精度よく、テキストを単語に分割できる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施の形態では、ＬＳＴＭの学習において、テキストを単語ごとに分割した結果から得られる単語の末尾文字の隠れ層の入力として、単語を含め、かつ、出力層の直前の隠れ層の入力として、文字ごとに付与された単語分割ラベルに基づいて得られた出力層に対応する文字までの部分の単語分割結果を用いて得られる単語連接情報を含める場合について説明したが、これに限定されるものではない。例えば、上記の単語と、単語連接情報とのいずれか一方のみをそれぞれの隠れ層の入力に用いてＬＳＴＭを学習するようにしてもよい。

また、上述した実施の形態では、既存解析器によりテキストを単語に分割して、単語又は単語分割境界の情報をＬＳＴＭの入力に用いる場合を例として説明したが、これに限定されるものではない。例えば、既存解析器により、テキストを所定の文字列単位（例えば、文節）に区切り、所定の文字列単位の情報を、ＬＳＴＭの入力として用いるようにしてもよい。

また、既存解析器分割結果取得部３０、２３０は、既存解析器によりテキストを単語ごとに分割する場合を例に説明したが、これに限定されるものではなく、入力部１０から、既存解析器によりテキストを単語ごとに分割した結果を受け付けるようにしてもよく、この場合には既存解析器分割結果取得部３０、２３０の処理を省略してもよい。

１０、２１０入力部
２０、２２０演算部
３０、２３０既存解析器分割結果取得部
３２単語分割モデル学習部
４０、２４０単語分割モデル
１００単語分割推定モデル学習装置
２００単語分割装置
２３２単語分割部

Claims

テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを学習する単語分割推定モデル学習装置であって、
文字ごとに前記単語分割ラベルが付与されたテキストを受け付ける入力部と、
前記テキストを単語単位に分割した結果を取得する既存解析器分割結果取得部と、
前記テキストの文字ごとに付与された前記単語分割ラベルを正解ラベルとして、文字ごとに対応した隠れ層を有するニューラルネットワークであって、前記テキストの文字の各々の埋め込みを文字ごとの隠れ層の入力として、かつ、前記分割した結果に基づいて各単語の埋め込みを取得し、前記単語の埋め込みを、前記分割した結果から得られる単語の末尾文字の隠れ層の入力として、前記テキストの各文字に付与する単語分割ラベルを出力するニューラルネットワークである単語分割モデルを学習する単語分割モデル学習部と、
を含む単語分割推定モデル学習装置。
前記正解ラベルとしての前記単語分割ラベルには、先頭、中間、及び末尾を表すラベルを用いる請求項１に記載の単語分割推定モデル学習装置。
テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを用いて単語分割を行う単語分割装置であって、
前記テキストを単語単位に分割した結果を取得する既存解析器分割結果取得部と、
前記テキストの文字の各々、及び前記テキストを単語単位に分割した結果を入力として、文字ごとに対応した隠れ層を有するニューラルネットワークであって、前記テキストの文字の各々の埋め込みを文字ごとの隠れ層の入力として、かつ、前記分割した結果に基づいて各単語の埋め込みを取得し、前記単語の埋め込みを、前記分割した結果から得られる単語の末尾文字の隠れ層の入力として、前記テキストの各文字に付与する単語分割ラベルを出力するニューラルネットワークであるように予め学習された前記単語分割モデルの出力として、前記テキストの各文字に対して前記単語分割ラベルを付与する単語分割部と、
を含む単語分割装置。
テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを学習する単語分割推定モデル学習装置における単語分割推定モデル学習方法であって、
入力部が、文字ごとに前記単語分割ラベルが付与されたテキストを受け付けるステップと、
既存解析器分割結果取得部が、前記テキストを単語単位に分割した結果を取得するステップと、
単語分割モデル学習部が、前記テキストの文字ごとに付与された前記単語分割ラベルを正解ラベルとして、文字ごとに対応した隠れ層を有するニューラルネットワークであって、前記テキストの文字の各々の埋め込みを文字ごとの隠れ層の入力として、かつ、前記分割した結果に基づいて各単語の埋め込みを取得し、前記単語の埋め込みを、前記分割した結果から得られる単語の末尾文字の隠れ層の入力として、前記テキストの各文字に付与する単語分割ラベルを出力するニューラルネットワークである単語分割モデルを学習するステップと、
を含む単語分割推定モデル学習方法。
前記正解ラベルとしての前記単語分割ラベルには、先頭、中間、及び末尾を表すラベルを用いる請求項４に記載の単語分割推定モデル学習方法。
テキストの文字ごとに単語分割境界が存在するか否かを表す単語分割ラベルを付与するための単語分割モデルを用いて単語分割を行う単語分割装置における単語分割方法であって、
既存解析器分割結果取得部が、前記テキストを単語単位に分割した結果を取得するステップと、
単語分割部が、前記テキストの文字の各々、及び前記テキストを単語単位に分割した結果を入力として、文字ごとに対応した隠れ層を有するニューラルネットワークであって、前記テキストの文字の各々の埋め込みを文字ごとの隠れ層の入力として、かつ、前記分割した結果に基づいて各単語の埋め込みを取得し、前記単語の埋め込みを、前記分割した結果から得られる単語の末尾文字の隠れ層の入力として、前記テキストの各文字に付与する単語分割ラベルを出力するニューラルネットワークであるように予め学習された前記単語分割モデルの出力として、前記テキストの各文字に対して前記単語分割ラベルを付与するステップと、
を含む単語分割方法。
コンピュータを、請求項１又は請求項２に記載の単語分割推定モデル学習装置の各部として機能させるためのプログラム。
コンピュータを、請求項３に記載の単語分割装置の各部として機能させるためのプログラム。