JP2016224483A - モデル学習装置、方法、及びプログラム - Google Patents

モデル学習装置、方法、及びプログラム Download PDF

Info

Publication number
JP2016224483A
JP2016224483A JP2015106872A JP2015106872A JP2016224483A JP 2016224483 A JP2016224483 A JP 2016224483A JP 2015106872 A JP2015106872 A JP 2015106872A JP 2015106872 A JP2015106872 A JP 2015106872A JP 2016224483 A JP2016224483 A JP 2016224483A
Authority
JP
Japan
Prior art keywords
notation
word
collapsed
model
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015106872A
Other languages
English (en)
Inventor
いつみ 斉藤
Itsumi Saito
いつみ 斉藤
九月 貞光
Kugatsu Sadamitsu
九月 貞光
久子 浅野
Hisako Asano
久子 浅野
義博 松尾
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015106872A priority Critical patent/JP2016224483A/ja
Publication of JP2016224483A publication Critical patent/JP2016224483A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】表記正規化と形態素解析とを行うためのモデルを学習することができる。
【解決手段】ラティス生成部30で、ラティスを生成し、モデル学習部32で、生成されたラティスにおける、単語分割候補の各々に対する、当該単語分割候補と、当該単語分割候補に付与された正規化表記候補である正規表記語及び品詞とに基づく素性ベクトルであって、単語分割候補である崩れ表記語と正規化表記候補との間の意味類似度を素性として含む素性ベクトルと、形態素解析結果の正解データとに基づいて、テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるモデルを学習し、学習したモデルを用いたコーパス解析部34の解析結果に基づいて、意味類似度計算部36で、意味類似度を計算し、素性ベクトルに含まれる、計算された意味ベクトルを用いて、モデルを学習することを繰り返す。
【選択図】図1

Description

本発明は、モデル学習装置、方法、及びプログラムに係り、特に、表記正規化と形態素解析を行うためのモデルを学習するモデル学習装置、方法、及びプログラムに関する。
従来より、正規表記語に対して揺らいだ表記である崩れ表記語を獲得するためのモデルを学習する手法が提案されている。教師データを用いた手法としては、非特許文献1及び非特許文献2に記載されている識別学習に基づく表記正規化と形態素解析を用いた手法が挙げられる。
教師データを用いない手法としては、非特許文献3に記載されている識別学習に基づく表記正規化と形態素解析を用いた手法が挙げられる。
Nobuhiro Kaji and Masaru Kitsuregawa. Accurate word segmentation and pos tagging for japanese microblogs: Corpus annotation and joint modeling with lexical normalization. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 99{109,Doha, Qatar, October 2014 Association for Computational Linguistics. Itsumi Saito, Kugatsu Sadamitsu, Hisako Asano,and Yoshihiro Matsuo. Morphological analysis for japanese noisy text based on character-level and word-level normalization. In Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers, pp.1773{1782, Dublin, Ireland, August 2014. Dublin City University and Association for Computational Linguistics. 工藤拓, 市川宙, David Talbot, 賀沢秀人. web 上のひらがな交じり文に頑健な形態素解析. 自然言語処理会年次大会講演集, 2012
しかし、新たなドメインにおける形態素を用いた正解データは作成コストの制約があり、十分な量の正解データを用意することができず、正解データのみを用いた学習では、膨大な崩れ表記語候補に対して、適切なコストを付与することが難しいという課題がある。
また、正解なしデータのみを用いて崩れ表記語を大量に追加しモデル学習する場合、真の分布から大きくずれた分布が学習されてしまう場合がある。
本発明は、上記問題点を解決するために成されたものであり、正解データが少ない場合であっても、精度よく、形態素解析と表記正規化を行うためのモデルを学習することができるモデル学習装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係るモデル学習装置は、正規表記語に対する揺らいだ表記である崩れ表記語に対する正規化表記である正規表記語を含む形態素解析結果の正解データが付与されたテキストに対して、正規表記語、又は正規表記語に対する揺らいだ表記である崩れ表記語である単語分割候補であって、前記崩れ表記語に対する正規化表記候補である正規表記語及び品詞が付与された単語分割候補の各々に対応するノード及び連結される単語分割候補に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、前記ラティス生成部により生成された前記ラティスにおける、前記単語分割候補の各々に対する、前記単語分割候補と、前記単語分割候補に付与された正規化表記候補である正規表記語及び品詞とに基づく素性ベクトルであって、前記単語分割候補である崩れ表記語と前記正規化表記候補との間の意味類似度を素性として含む素性ベクトルと、前記形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルであって、かつ、前記テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるためのモデルを学習するモデル学習部と、を含んで構成されている。
また、第1の発明に係るモデル学習装置において、前記モデル学習部により学習された前記モデルに基づいて、テキスト集合に含まれるテキストの各々に対する形態素解析を行うと共に、前記テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるコーパス解析部と、前記コーパス解析部による解析結果に基づいて、崩れ表記語と正規表記語とのペアの各々について、前記意味類似度を計算する意味類似度計算部と、予め定めた繰り返し終了条件を満たすまで、前記モデル学習部による学習、前記コーパス解析部による解析、及び前記意味類似度計算部による計算を繰り返す繰り返し判定部と、を更に含み前記モデル学習部は、前記素性ベクトルに含まれる、前記単語分割候補である崩れ表記語と前記正規化表記候補との間の意味類似度として、前記意味類似度計算部によって計算された前記意味類似度を用いて、前記モデルを学習するようにしてもよい。
第2の発明に係るモデル学習方法は、ラティス生成部が、正規表記語に対する揺らいだ表記である崩れ表記語に対する正規化表記である正規表記語を含む形態素解析結果の正解データが付与されたテキストに対して、正規表記語、又は正規表記語に対する揺らいだ表記である崩れ表記語である単語分割候補であって、前記崩れ表記語に対する正規化表記候補である正規表記語及び品詞が付与された単語分割候補の各々に対応するノード及び連結される単語分割候補に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、モデル学習部が、前記ラティス生成部により生成された前記ラティスにおける、前記単語分割候補の各々に対する、前記単語分割候補と、前記単語分割候補に付与された正規化表記候補である正規表記語及び品詞とに基づく素性ベクトルであって、前記単語分割候補である崩れ表記語と前記正規化表記候補との間の意味類似度を素性として含む素性ベクトルと、前記形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルであって、かつ、前記テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるためのモデルを学習するステップと、を含んで実行することを特徴とする。
また、第2の発明に係るモデル学習方法において、コーパス解析部が、前記モデル学習部により学習された前記モデルに基づいて、テキスト集合に含まれるテキストの各々に対する形態素解析を行うと共に、前記テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるステップと、意味類似度計算部が、前記コーパス解析部による解析結果に基づいて、崩れ表記語と正規表記語とのペアの各々について、前記意味類似度を計算するステップと、繰り返し判定部が、予め定めた繰り返し終了条件を満たすまで、前記モデル学習部による学習、前記コーパス解析部による解析、及び前記意味類似度計算部による計算を繰り返すステップと、を更に含み前記モデル学習部が学習するステップは、前記素性ベクトルに含まれる、前記単語分割候補である崩れ表記語と前記正規化表記候補との間の意味類似度として、前記意味類似度計算部によって計算された前記意味類似度を用いて、前記モデルを学習するようにしてもよい。
第3の発明に係るプログラムは、コンピュータを、上記第1の発明に係るモデル学習装置の各部として機能させるためのプログラムである。
本発明のモデル学習装置、方法、及びプログラムによれば、形態素解析結果の正解データが付与されたテキストに対して、崩れ表記語に対する正規化表記候補である正規表記語及び品詞が付与された単語分割候補の各々に対応するノード及びノードを結んだエッジからなるグラフ構造であるラティスを生成し、生成されたラティスにおける、単語分割候補の各々に対する、単語分割候補と、単語分割候補に付与された正規化表記候補である正規表記語及び品詞とに基づく素性ベクトルであって、単語分割候補である崩れ表記語と正規化表記候補との間の意味類似度を素性として含む素性ベクトルと、形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルであって、かつ、テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるモデルを学習することにより、精度よく、表記正規化と形態素解析とを行うためのモデルを学習することができる、という効果が得られる。
本発明の実施の形態に係るモデル学習装置の構成を示すブロック図である。 生成されるラティスの一例を示す図である。 学習したモデルを用いた解析結果の一例を示す図である。 単語分割候補と正規表記語とのペアに対する意味類似度の計算結果の例を示す図である。 計算した意味類似度をラティスにおける素性ベクトルに反映した場合の一例を示す図である。 本発明の実施の形態に係るモデル学習装置におけるモデル学習処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係るモデル学習装置の構成>
次に、本発明の実施の形態に係るモデル学習装置の構成について説明する。図1に示すように、本発明の実施の形態に係るモデル学習装置100は、CPUと、RAMと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置100は、機能的には図1に示すように入力部10と、演算部20と、出力部50とを備えている。モデル学習装置100により学習したモデルは、形態素解析装置に適用し、任意のテキストに対して形態素解析を行うと共に正規化表記語を求めるために用いることができる。
入力部10は、正規表記語に対する揺らいだ表記である崩れ表記語に対する正規化表記である正規表記語を含む形態素解析結果の正解データが付与されたテキストからなるテキスト集合と、正解データが付与されていないテキストからなる大規模平文コーパスとを受け付ける。ここでは、テキスト集合のテキストに、任意のモデルで解析した形態素解析結果を正解データとして付与する。
演算部20は、辞書データベース28と、ラティス生成部30と、モデル学習部32と、コーパス解析部34と、意味類似度計算部36と、繰り返し判定部40とを含んで構成されている。
辞書データベース28には、辞書引きを行うために必要な辞書(読み、表記、品詞)が記憶されている。また、予め作成された正規表記語と崩れ表記語とのペアのリストが格納されている。
ラティス生成部30は、入力部10で受け付けたテキスト集合に含まれる、正解データが付与されたテキストに対して、正規表記語、又は崩れ表記語である単語分割候補であって、崩れ表記語に対する正規化表記候補である正規表記語及び品詞が付与された単語分割候補の各々に対応するノード及び連結される単語分割候補に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。ラティス生成部30においてラティスを生成する手法としては、通常の辞書引きの他、崩れ表記語の列挙に関しては、予め用意した辞書データベース28に格納された正規表記語と崩れ表記語とのペアのリストを参照する方法(上記非特許文献1参照)や、文字列展開に基づく方法(上記非特許文献2参照)などの方法を用いることができる。図2にラティス生成部30で生成されるラティスの一例を示す。
モデル学習部32は、ラティス生成部30により生成されたラティスにおける、単語分割候補の各々に対する、当該単語分割候補と、当該単語分割候補に付与された正規化表記候補である正規表記語及び品詞とに基づく素性ベクトルであって、単語分割候補である崩れ表記語と正規化表記候補との間の意味類似度を素性として含む素性ベクトルf(w,v,t)と、形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルであって、かつ、テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるためのモデルを学習する。また、モデル学習部32は、素性ベクトルに含まれる素性として、単語分割候補である崩れ表記語と正規化表記候補との間の意味類似度であって、後述する意味類似度計算部36によって計算された意味類似度を用いる。
モデル学習部32は、具体的には、以下(1)式で定義されるモデルの重みWを、後述する意味類似度計算部36により計算した意味類似度を素性として含む素性ベクトルと、形態素解析結果の正解データとに基づいて学習する。
ここで、(^w,^v,^t)は単語分割候補である表出表記(正規表記語又は崩れ表記語)w、正規表記語v、及び品詞tの最適系列を表し、L(s)は入力されたテキストsに対するラティスを表す。なお、1回目の学習においては、初期値として、任意のモデルで解析した結果から計算される意味類似度を用いる。
コーパス解析部34は、モデル学習部32により学習されたモデルに基づいて、大規模平文コーパスに含まれるテキストの各々に対する形態素解析を行うと共に、当該テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求める。そして、解析結果により得られた単語分割候補である崩れ表記語と、単語分割候補に対する正規化候補の正規表記語とのペアを得る。ここで解析するテキスト集合は、予め用意したものを用いても、インターネット上から取得してきたものを用いてもよい。図3に解析結果の一例を示す。なお、コーパス解析部34による解析結果として、n−best解などの複数の候補のうちの何れかを、その確率に従って出力するようにしてもよい。
意味類似度計算部36は、コーパス解析部34による解析結果に基づいて、崩れ表記語と正規表記語とのペアの各々について、意味類似度を計算する。
意味類似度計算部36は、具体的には、まずコーパス解析部34で解析された、大規模平文コーパスに含まれるテキストから得られた単語分割候補の各々について、非特許文献4に記載のword2vecの手法を用いて、単語の意味ベクトルを計算する。
[非特許文献4]:Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Efficient Estimation of Word Representations in Vector Space. In Proceedings of Workshop at ICLR, 2013.
次に、意味類似度計算部36は、コーパス解析部34により得られた崩れ表記語と正規表記語とのペアの各々について、単語分割候補の各々について計算した意味ベクトルに基づいて、単語分割候補である崩れ表記語wと正規化表記候補である正規表記語vとの間の意味類似度を計算する。意味類似度は、単語分割候補ごとに求められた意味ベクトルのコサイン類似度により計算する。ここでは、学習されたモデルを用いて大規模平文コーパスに対して形態素解析を行って得られる単語分割候補の分割結果は、繰り返しごとに異なる。そのため、繰り返しごとに意味類似度を計算し直すことになり、前回計算した意味類似度とは異なる結果が算出される。図4に、崩れ表記語と正規表記語(さむい)とのペアに対する意味類似度の計算結果の例を示す。また、図5に、計算した意味類似度をラティスにおける単語分割候補の素性に反映した場合の例を示す。
繰り返し判定部40は、繰り返し終了条件を満たすまで、モデル学習部32による学習、コーパス解析部34による解析、及び意味類似度計算部36による計算を繰り返す。繰り返し終了条件としては、繰り返しの回数などを用いることができ、所定の回数の更新を繰り返す。
そして、モデル学習装置100は、モデル学習部32により最終的に得られたモデルを出力部50に出力する。
<本発明の実施の形態に係るモデル学習装置の作用>
次に、本発明の実施の形態に係るモデル学習装置100の作用について説明する。入力部10において正解データが付与されたテキストからなるテキスト集合、及び正解データが付与されていないテキストからなる大規模平文コーパスを受け付けると、モデル学習装置100は、図6に示すモデル学習処理ルーチンを実行する。
まず、ステップS100では、入力部10で受け付けたテキスト集合に含まれる、正解データが付与されたテキストに対して、正規表記語及び品詞が付与された単語分割候補の各々に対応するノード及び連結される単語分割候補に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成する。
ステップS106では、ステップS100で生成されたラティスにおける単語分割候補の各々に対する素性ベクトルと、入力部10で受け付けたテキスト集合に付与された形態素解析結果の正解データとに基づいて、モデルを学習する。
ステップS108では、ステップS106又はステップS114で学習されたモデルに基づいて、大規模平文コーパスに含まれるテキストの各々に対する形態素解析を行うと共に、当該テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求める。
ステップS110では、ステップS108の解析結果に基づいて、解析結果の単語分割候補の各々について、単語の意味ベクトルを計算する。
ステップS112では、ステップS110で単語分割候補の各々について計算された意味ベクトルに基づいて、崩れ表記語と正規表記語とのペアの各々について、意味類似度を計算する。
ステップS114では、ラティスにおける単語分割候補の各々に対する素性ベクトルと、形態素解析結果の正解データとに基づいて、モデルを学習する。このとき、ラティスにおける単語分割候補の各々に対する素性ベクトルに含まれる、単語分割候補である崩れ表記語と正規化表記候補との間の意味類似度として、ステップS112で計算された意味類似度を用いる。
ステップS116では、繰り返し終了条件を満たしているかを判定し、満たしていないと判定される場合はステップS108〜ステップS114の処理を繰り返し、満たしていると判定される場合はステップS118へ移行する。
ステップS118では、ステップS106又はステップS114で学習されたモデルを出力部50により出力し処理を終了する。
以上説明したように、本発明の実施の形態に係るモデル学習装置によれば、ラティスを生成し、生成されたラティスにおける、単語分割候補の各々に対する、単語分割候補と、単語分割候補に付与された正規化表記候補である正規表記語及び品詞とに基づく素性ベクトルであって、単語分割候補である崩れ表記語と正規化表記候補との間の意味類似度を素性として含む素性ベクトルと、形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルであって、かつ、テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるモデルを学習し、学習したモデルを用いた解析結果に基づいて、意味類似度を計算し、素性ベクトルに含まれる、計算された意味ベクトルを用いて、モデルを学習することを繰り返すことにより、精度よく、表記正規化と形態素解析とを行うためのモデルを学習することができる。
また、正解データが付与されたテキストの小規模コーパスを用いて学習したモデルに対して、局所的な文脈からは考慮できない意味的な類似度を外部知識として導入することにより、多量の崩れ表記語候補を追加しても頑健に解析することが可能になる。
また、正解データが付与されたテキストと、正解データが付与されていないテキストからなる大規模平文コーパスにおける分布の両方を反映することにより、どちらか一方を用いた学習に比べ高精度な解析が可能になる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、モデル学習部32による学習、コーパス解析部34による解析、及び意味類似度計算部36による計算を繰り返す場合を例に説明したが、これに限定されるものではなく、繰り返しを行わずに、任意のモデルで解析した結果から計算される意味類似度を用いて、モデル学習部32による学習を1回だけ行うようにしてもよい。
10 入力部
20 演算部
28 辞書データベース
30 ラティス生成部
32 上記モデル学習部
32 モデル学習部
34 コーパス解析部
36 意味類似度計算部
40 判定部
50 出力部
100 モデル学習装置

Claims (5)

  1. 正規表記語に対する揺らいだ表記である崩れ表記語に対する正規化表記である正規表記語を含む形態素解析結果の正解データが付与されたテキストに対して、正規表記語、又は正規表記語に対する揺らいだ表記である崩れ表記語である単語分割候補であって、前記崩れ表記語に対する正規化表記候補である正規表記語及び品詞が付与された単語分割候補の各々に対応するノード及び連結される単語分割候補に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するラティス生成部と、
    前記ラティス生成部により生成された前記ラティスにおける、前記単語分割候補の各々に対する、前記単語分割候補と、前記単語分割候補に付与された正規化表記候補である正規表記語及び品詞とに基づく素性ベクトルであって、前記単語分割候補である崩れ表記語と前記正規化表記候補との間の意味類似度を素性として含む素性ベクトルと、前記形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルであって、かつ、前記テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるためのモデルを学習するモデル学習部と、
    を含むモデル学習装置。
  2. 前記モデル学習部により学習された前記モデルに基づいて、テキスト集合に含まれるテキストの各々に対する形態素解析を行うと共に、前記テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるコーパス解析部と、
    前記コーパス解析部による解析結果に基づいて、崩れ表記語と正規表記語とのペアの各々について、前記意味類似度を計算する意味類似度計算部と、
    予め定めた繰り返し終了条件を満たすまで、前記モデル学習部による学習、前記コーパス解析部による解析、及び前記意味類似度計算部による計算を繰り返す繰り返し判定部と、を更に含み
    前記モデル学習部は、前記素性ベクトルに含まれる、前記単語分割候補である崩れ表記語と前記正規化表記候補との間の意味類似度として、前記意味類似度計算部によって計算された前記意味類似度を用いて、前記モデルを学習する請求項1に記載のモデル学習装置。
  3. ラティス生成部が、正規表記語に対する揺らいだ表記である崩れ表記語に対する正規化表記である正規表記語を含む形態素解析結果の正解データが付与されたテキストに対して、正規表記語、又は正規表記語に対する揺らいだ表記である崩れ表記語である単語分割候補であって、前記崩れ表記語に対する正規化表記候補である正規表記語及び品詞が付与された単語分割候補の各々に対応するノード及び連結される単語分割候補に対応するノードを結んだエッジからなるグラフ構造であるラティスを生成するステップと、
    モデル学習部が、前記ラティス生成部により生成された前記ラティスにおける、前記単語分割候補の各々に対する、前記単語分割候補と、前記単語分割候補に付与された正規化表記候補である正規表記語及び品詞とに基づく素性ベクトルであって、前記単語分割候補である崩れ表記語と前記正規化表記候補との間の意味類似度を素性として含む素性ベクトルと、前記形態素解析結果の正解データとに基づいて、テキストに対する形態素解析を行うためのモデルであって、かつ、前記テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるためのモデルを学習するステップと、
    を含むモデル学習方法。
  4. コーパス解析部が、前記モデル学習部により学習された前記モデルに基づいて、テキスト集合に含まれるテキストの各々に対する形態素解析を行うと共に、前記テキストに含まれる崩れ表記語に対する正規化表記である正規表記語を求めるステップと、
    意味類似度計算部が、前記コーパス解析部による解析結果に基づいて、崩れ表記語と正規表記語とのペアの各々について、前記意味類似度を計算するステップと、
    繰り返し判定部が、予め定めた繰り返し終了条件を満たすまで、前記モデル学習部による学習、前記コーパス解析部による解析、及び前記意味類似度計算部による計算を繰り返すステップと、を更に含み
    前記モデル学習部が学習するステップは、前記素性ベクトルに含まれる、前記単語分割候補である崩れ表記語と前記正規化表記候補との間の意味類似度として、前記意味類似度計算部によって計算された前記意味類似度を用いて、前記モデルを学習する請求項3に記載のモデル学習方法。
  5. コンピュータを、請求項1又は請求項2に記載のモデル学習装置の各部として機能させるためのプログラム。
JP2015106872A 2015-05-26 2015-05-26 モデル学習装置、方法、及びプログラム Pending JP2016224483A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015106872A JP2016224483A (ja) 2015-05-26 2015-05-26 モデル学習装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015106872A JP2016224483A (ja) 2015-05-26 2015-05-26 モデル学習装置、方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2016224483A true JP2016224483A (ja) 2016-12-28

Family

ID=57748204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015106872A Pending JP2016224483A (ja) 2015-05-26 2015-05-26 モデル学習装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2016224483A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153735A (zh) * 2017-12-28 2018-06-12 北京奇艺世纪科技有限公司 一种近义词的获取方法及系统
CN109213992A (zh) * 2017-07-06 2019-01-15 富士通株式会社 词素分析装置和词素分析方法
CN110851559A (zh) * 2019-10-14 2020-02-28 中科曙光南京研究院有限公司 数据元自动识别方法和识别系统
CN111160026A (zh) * 2019-12-18 2020-05-15 北京明略软件系统有限公司 一种模型训练方法、装置、实现文本处理的方法及装置
KR20210073431A (ko) * 2019-12-10 2021-06-18 베이징 시아오미 모바일 소프트웨어 컴퍼니 리미티드 기계 번역 모델의 훈련 방법, 장치 및 시스템

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213992A (zh) * 2017-07-06 2019-01-15 富士通株式会社 词素分析装置和词素分析方法
CN108153735A (zh) * 2017-12-28 2018-06-12 北京奇艺世纪科技有限公司 一种近义词的获取方法及系统
CN108153735B (zh) * 2017-12-28 2021-05-18 北京奇艺世纪科技有限公司 一种近义词的获取方法及系统
CN110851559A (zh) * 2019-10-14 2020-02-28 中科曙光南京研究院有限公司 数据元自动识别方法和识别系统
KR20210073431A (ko) * 2019-12-10 2021-06-18 베이징 시아오미 모바일 소프트웨어 컴퍼니 리미티드 기계 번역 모델의 훈련 방법, 장치 및 시스템
KR102338918B1 (ko) 2019-12-10 2021-12-10 베이징 시아오미 모바일 소프트웨어 컴퍼니 리미티드 기계 번역 모델의 훈련 방법, 장치 및 시스템
CN111160026A (zh) * 2019-12-18 2020-05-15 北京明略软件系统有限公司 一种模型训练方法、装置、实现文本处理的方法及装置
CN111160026B (zh) * 2019-12-18 2023-09-26 北京明略软件系统有限公司 一种模型训练方法、装置、实现文本处理的方法及装置

Similar Documents

Publication Publication Date Title
US9176936B2 (en) Transliteration pair matching
US11669740B2 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
JP2004355483A (ja) 形態素解析装置、形態素解析方法及び形態素解析プログラム
Ljubešić et al. Standardizing tweets with character-level machine translation
JP6291443B2 (ja) 接続関係推定装置、方法、及びプログラム
JP6558863B2 (ja) モデル作成装置、推定装置、方法、及びプログラム
JP2016224483A (ja) モデル学習装置、方法、及びプログラム
US20200034465A1 (en) Increasing the accuracy of a statement by analyzing the relationships between entities in a knowledge graph
CN105550174A (zh) 基于样本重要性的自动机器翻译领域自适应方法
JP5441937B2 (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
Liu et al. Morphological segmentation for Seneca
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
JP6535607B2 (ja) 前処理モデル学習装置、方法、及びプログラム
JP6220762B2 (ja) 次発話候補スコアリング装置、方法、及びプログラム
KR102517971B1 (ko) 자동회귀 언어 모형을 이용한 문맥의존 철자오류 교정 장치 및 방법
KR101663038B1 (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
JP6558856B2 (ja) 形態素解析装置、モデル学習装置、及びプログラム
JP6586055B2 (ja) 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム
US11556783B2 (en) Confusion network distributed representation generation apparatus, confusion network classification apparatus, confusion network distributed representation generation method, confusion network classification method and program
JP2018077677A (ja) 文字列変換装置、モデル学習装置、方法、及びプログラム
Fix et al. Yarbus: Yet another rule based belief update system
JP2014215970A (ja) 誤り検出装置、方法、及びプログラム
JP5755698B2 (ja) 述語項構造解析方法、モデル学習方法、装置、及びプログラム
JP6220761B2 (ja) モデル学習装置、文字列変換装置、方法、及びプログラム