JP2018077677A - 文字列変換装置、モデル学習装置、方法、及びプログラム - Google Patents

文字列変換装置、モデル学習装置、方法、及びプログラム Download PDF

Info

Publication number
JP2018077677A
JP2018077677A JP2016218997A JP2016218997A JP2018077677A JP 2018077677 A JP2018077677 A JP 2018077677A JP 2016218997 A JP2016218997 A JP 2016218997A JP 2016218997 A JP2016218997 A JP 2016218997A JP 2018077677 A JP2018077677 A JP 2018077677A
Authority
JP
Japan
Prior art keywords
character string
word
character
partial
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016218997A
Other languages
English (en)
Other versions
JP6684693B2 (ja
Inventor
いつみ 斉藤
Itsumi Saito
いつみ 斉藤
鈴木 潤
Jun Suzuki
潤 鈴木
久子 浅野
Hisako Asano
久子 浅野
齋藤 邦子
Kuniko Saito
邦子 齋藤
松尾 義博
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016218997A priority Critical patent/JP6684693B2/ja
Publication of JP2018077677A publication Critical patent/JP2018077677A/ja
Application granted granted Critical
Publication of JP6684693B2 publication Critical patent/JP6684693B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】精度よく、崩れ語を含む文字列を変換することができる。【解決手段】部分文字列特定部230が、入力された文字列に対して、文字毎に、正規化された表現である正規語に対して揺らいだ表記である崩れ語の文字であるか否かを判定するための判定モデルに基づいて、崩れ語の文字であるか否かを判定し、崩れ語の文字であると判定された文字からなる部分文字列を特定する。文字列変換部232が、特定された部分文字列に対して、崩れ語を正規語に変換するための変換モデルに基づいて、部分文字列を変換することにより、文字列に含まれる崩れ語を正規語に変換した文字列を生成する。【選択図】図8

Description

本発明は、文字列変換装置、モデル学習装置、方法、及びプログラムに係り、特に、口語調などの正書法では現れない表記である崩れた表記を頑健に解析するための文字列変換装置、モデル学習装置、方法、及びプログラムに関する。
従来より、崩れた表記を正規化するための技術として、文字列正規化パタンに基づく正規化形態素解析を行う技術が知られている。例えば図14に示すように、事前に正規化文字列を設定し、その文字列を用いて辞書や入力文を拡張しながら解析するものである(非特許文献1、非特許文献2参照)。崩れ文字列から正規文字列への変換例としては、例えば「ー」→「null」、「ー」→「う」、「っ」→「null」、「しー」→「しい」といったものである。
また、Encoder-decoder型ニューラルネットワークにより、入力系列xをベクトル空間に射影し、そのベクトル空間を参照しながら出力系列yを予測する技術が知られている(非特許文献3)。同技術では、図15に示すようなEncoder-decoder型ニューラルネットワークモデルから、以下の式に従って位置tごとに出力される文字の各々の確率を計算し、最も確率の高い文字の系列を出力する。
ここで、cはaを重みとしたhの加重平均であり、入力ソース側(x)の位置ごとに次のように計算する。
勝木健太、笹野遼平、河原大輔、黒橋禎夫,「web上の多彩な言語バリエーションに対応した頑健な形態素解析」,(2011),言語処理学会,第17回年次大会発表論文集 斉藤,貞光,浅野,松尾,「正規-崩れ文字列アライメントと文字種変換を用いた崩れ表記正規化に基づく日本語形態素解析」 ,第20回言語処理学会全国大会,2014/3/10 Minh-Thang Luong, Hieu Pham, Christopher D. Manning,"Effective Approaches to Attention-based Neural Machine Translation" Computer Science Department, Stanford University, Stanford, CA 94305, 2015
従来の非特許文献1、及び非特許文献2の技術では、文字列レベルのパタンを設定して正規化を行う場合、事前に設定した文字列しか正規化することができないという課題があった。また、設定した文字列の限られた範囲の文脈情報しか考慮することができないという課題があった。
非特許文献3の技術では、文字列全体を考慮して変換を行うため、学習時間が長いという課題があった。また、特に学習データが少ない場合や入力文字列が長い場合、変換しなくてもよい文字も変換してしまうなどのデグレードが大きくなるという課題があった。
本発明は、上記問題点を解決するために成されたものであり、精度よく、崩れ語を含む文字列を変換することができる文字列変換装置、方法、及びプログラムを提供することを目的とする。
また、本発明は、精度よく崩れ語を含む文字列を変換できるモデルを学習することができるモデル学習装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る文字列変換装置は、入力された文字列に対して、文字毎に、正規化された表現である正規語に対して揺らいだ表記である崩れ語の文字であるか否かを判定するための判定モデルに基づいて、崩れ語の文字であるか否かを判定し、崩れ語の文字であると判定された文字からなる部分文字列を特定する部分文字列特定部と、前記部分文字列特定部によって特定された部分文字列に対して、前記崩れ語を前記正規語に変換するための変換モデルに基づいて、前記部分文字列を変換することにより、前記文字列に含まれる前記崩れ語を前記正規語に変換した文字列を生成する文字列変換部と、を含んで構成されている。
また、第1の発明に係る文字列変換装置において、前記変換モデルは、前記崩れ語より前の文脈及び前記崩れ語より後の文脈を考慮して、前記崩れ語を前記正規語に変換するための変換モデルであり、前記文字列変換部は、前記部分文字列特定部によって特定された部分文字列に対して、前記変換モデルと、前記文字列における前記部分文字列より前の文脈及び前記部分文字列より後の文脈とに基づいて、前記部分文字列を変換するようにしてもよい。
また、第1の発明に係る文字列変換装置において、前記判定モデルは、判定対象の文字、前記判定対象の文字より前の文字列、及び前記判定対象の文字より後の文字列を入力とし、前記判定対象の文字が崩れ語の文字である確率を出力するニューラルネットワークであり、前記変換モデルは、変換対象の部分文字列、前記変換対象の部分文字列より前の文字列、及び前記変換対象の部分文字列より後の文字列を入力とし、変換対象の部分文字列を変換した変換後の部分文字列の文字の各々について、各文字である確率を出力するニューラルネットワークであるようにしてもよい。
また、第2の発明に係るモデル学習装置において、入力された、正規化された表現である正規語からなる正規化文と、前記正規語に対して揺らいだ表記である崩れ語を含む崩れ文との複数のペアに基づいて、前記複数のペアの各々について、前記正規化文に含まれる各文字と、前記崩れ文に含まれる各文字との対応関係を求める文字列アライメント部と、前記文字列アライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れ語の文字であるか否かを判定するための判定モデルを学習する判定モデル学習部と、前記文字列アライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れ語を前記正規語に変換するための変換モデルを学習する変換モデル学習部と、を含んで構成されている。
第3の発明に係る文字列変換方法は、部分文字列特定部が、入力された文字列に対して、文字毎に、正規化された表現である正規語に対して揺らいだ表記である崩れ語の文字であるか否かを判定するための判定モデルに基づいて、崩れ語の文字であるか否かを判定し、崩れ語の文字であると判定された文字からなる部分文字列を特定するステップと、文字列変換部が、前記部分文字列特定部によって特定された部分文字列に対して、前記崩れ語を前記正規語に変換するための変換モデルに基づいて、前記部分文字列を変換することにより、前記文字列に含まれる前記崩れ語を前記正規語に変換した文字列を生成するステップと、を含んで実行することを特徴とする。
第4の発明に係る文字列変換方法は、文字列アライメント部が、入力された、正規化された表現である正規語からなる正規化文と、前記正規語に対して揺らいだ表記である崩れ語を含む崩れ文との複数のペアに基づいて、前記複数のペアの各々について、前記正規化文に含まれる各文字と、前記崩れ文に含まれる各文字との対応関係を求めるステップと、判定モデル学習部が、前記文字列アライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れ語の文字であるか否かを判定するための判定モデルを学習するステップと、変換モデル学習部が、前記文字列アライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れ語を前記正規語に変換するための変換モデルを学習するステップと、を含んで実行することを特徴とする。
第5の発明に係るプログラムは、コンピュータを、請求項1〜請求項3のいずれか1項に記載の文字列変換装置の各部として機能させるためのプログラムである。
第6の発明に係るプログラムは、コンピュータを、第2の発明に係るモデル学習装置の各部として機能させるためのプログラムである。
本発明の文字列変換装置、方法、及びプログラムによれば、入力された文字列に対して、文字毎に、正規化された表現である正規語に対して揺らいだ表記である崩れ語の文字であるか否かを判定するための判定モデルに基づいて、崩れ語の文字であるか否かを判定し、崩れ語の文字であると判定された文字からなる部分文字列を特定し、特定された部分文字列に対して、崩れ語を正規語に変換するための変換モデルに基づいて、部分文字列を変換することにより、文字列に含まれる崩れ語を正規語に変換した文字列を生成することにより、精度よく、崩れ語を含む文字列を変換することができる、という効果が得られる。
また、本発明のモデル学習装置、方法、及びプログラムによれば、入力された、正規化された表現である正規語からなる正規化文と、正規語に対して揺らいだ表記である崩れ語を含む崩れ文との複数のペアに基づいて、複数のペアの各々について、正規化文に含まれる各文字と、崩れ文に含まれる各文字との対応関係を求め、文字列アライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れ語の文字であるか否かを判定するための判定モデルを学習し、複数のペアの各々についての対応関係に基づいて、崩れ語を正規語に変換するための変換モデルを学習することにより、精度よく崩れ語を含む文字列を変換できるモデルを学習することができる、という効果が得られる。
本発明の実施の形態に係るモデル学習装置の構成を示すブロック図である。 崩れ文の文字の各々の変化ラベル(判定モデル学習用)と、部分変化文字列集合(変換モデル学習用)の対応関係の一例を示す図である。 正規化文と崩れ文とのペアから作成される正解データの一例を示す図である。 対応関係の変化ラベルによる判定モデルの学習の例を示す図である。 判定モデルにおいて用いるLSTM型のニューラルネットワークの一例を示す図である。 対応関係の部分変化文字列集合に基づく変換モデルの学習の例を示す図である。 変換モデルにおいて用いるencoder-decoder型のニューラルネットワークの一例を示す図である。 本発明の実施の形態に係る文字列変換装置の構成を示すブロック図である。 判定モデルによる崩れ語の文字であるか否かの判定の一例を示す図である。 変換モデルによる崩れ語の部分文字列の各々の正規語への変換の一例を示す図である。 文字列変換装置200の全体の処理の流れを表した概略図である。 本発明の実施の形態に係るモデル学習装置におけるモデル学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る文字列変換装置における文字列変換処理ルーチンを示すフローチャートである。 文字列正規化パタンに基づく正規化形態素解析の一例を示す図である。 Encoder-decoder型ニューラルネットワークモデルの一例を示す図である。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
まず、本発明の実施の形態における概要を説明する。
非特許文献1及び非特許文献2における課題に対しては、ニューラルネットワークをベースとした判定モデルを用いることで、文全体の情報を考慮しながら文字の変換候補を推定することで対応する。これにより、事前に考慮する文字列の長さを固定する必要がなくなり、より広い文脈を考慮することが可能となる。また、文字列そのものではなく抽象化された文脈を考慮するため、「表層が違うが意味的に類似している」などの類似性を考慮することが可能になる。
非特許文献3における課題に対しては、変換すべき部分文字列を特定し、特定された部分文字列のみを変換する仕組みを導入することで、変換箇所のみを効率よく、かつ精度よく正規化する。変換すべき部分文字列の特性と部分文字列の変換モデルを分けて学習することができ、モデル学習を効率的に行うことが可能となる。変換すべきと識別された文字のみを変換対象とするため、デグレードを抑えることができるとともに、入力文の文字長の影響をうけにくくなる。
<本発明の実施の形態に係るモデル学習装置の構成>
次に、本発明の実施の形態に係るモデル学習装置の構成について説明する。図1に示すように、本発明の実施の形態に係るモデル学習装置100は、CPUと、RAMと、後述するモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。
入力部10は、正解データとして、正規化された表現である正規語からなる正規化文と、正規化された表現である正規語に対して揺らいだ表記である崩れ語を含む崩れ文との複数のペアを受け付ける。
演算部20は、文字列アライメント部30と、判定モデル学習部32と、変換モデル学習部34と、判定モデル40と、変換モデル42とを含んで構成されている。
文字列アライメント部30は、入力部10で受け付けた、正規語からなる正規化文と、崩れ語を含む崩れ文との複数のペアに基づいて、複数のペアの各々について、正規化文に含まれる各文字と、崩れ文に含まれる各文字との対応関係を求める。対応関係として、図2に示すような、崩れ文の文字の各々の変化ラベル(判定モデル学習用)と、部分変化文字列集合(変換モデル学習用)を求める。
具体的には、正規化文と崩れ文とのペアについて、図3に示すように、点線で囲った部分を、変換すべき崩れ文字からなる崩れ文字列、それ以外を変換なしの文字列として正解データを作成する。判定モデル学習部32のモデル学習時には、崩れ文に含まれる文字が崩れ語か否か(変換すべき文字か否か)を判別するため、正解データの文字レベルの対応づけが必要になる。そこで、変化した文字に「1」の変化ラベルを付与し、変化していない文字については、「0」の変化ラベルを付与する。
正規化文に含まれる各文字と、崩れ文に含まれる各文字との対応関係を求める際には、崩れ文の崩れ文字列と、対応する正規化文の正規化文字列で文字列レベルのDPアライメントを行う。また、アライメントの結果から、正規化文において最小変化の単位で区切られた部分文字列を、変換すべき部分変化文字列の正解データとして作成する。
判定モデル学習部32は、文字列アライメント部30により求められた複数のペアの各々についての対応関係に基づいて、崩れ語の文字であるか否かを判定するための判定モデルを学習し、判定モデル40として保存する。
具体的には、図4に示すように、対応関係の変化ラベルに基づいて、崩れ文の文字毎の変化ラベルを推定する判定モデル40の重みパラメタを学習する。図5に本実施の形態の判定モデル40において用いるLSTM型のニューラルネットワークを示す。このニューラルネットワークは、以下(1)式における、各文字位置jのラベル出力確率p(j)を出力するものである。ここで、変化ラベルはラベル出力確率p(j)に基づき1又は0の2値で出力される。

・・・(1)
ここで、順方向LSTMの文字位置jでの隠れ層をhfj、逆方向LSTMの文字位置jでの隠れ層をhbj、文字位置jの文字のembeddingをeとする。Wfj、Wbj、Wはそれぞれの重みパラメタである。
変換モデル学習部34は、文字列アライメント部30により求められた複数のペアの各々についての対応関係に基づいて、崩れ語を正規語に変換するための変換モデルを学習し、変換モデル42として保存する。
具体的には、図6に示すように、対応関係の部分変化文字列集合に基づいて、崩れ文の崩れ語に対応する正規語を推定する変換モデル42の重みパラメタを学習する。図7に本実施の形態の変換モデル42において用いるencoder-decoder型のニューラルネットワークを示す。変換対象の崩れ語である部分変化文字列に関しては、変換後の文字毎の出力を、下記のように定式化する。

・・・(2)
既存のattention based encoder-decoderモデルをベースとするが、入力された部分変化文字列の単位で変換を行うこと、左文脈(前の文脈)、及び右文脈(後の文脈)を考慮している点が異なっている。ここで、右文脈LSTMの隠れ層をhcr、左文脈LSTMの隠れ層をhclとする。hは両方向LSTMの隠れ層を表しており、上記非特許文献3について説明したEncoder-decoder型ニューラルネットワークモデルにおけるcに相当する。hは現在のdecoder位置tにおける隠れ層を表す。Wht、W、Wcl、Wcrはそれぞれの重みパラメタである。
最終的に、以下(3)式でt番目の文字の確率ベクトルp(t)を推定する。この確率ベクトルp(t)により、変換後のt番目の文字が決定される。

・・・(3)
このように、変換モデル42は、変換モデルは、崩れ語より前の文脈及び崩れ語より後の文脈を考慮して、崩れ語を正規語に変換するための変換モデルである。
<本発明の実施の形態に係る文字列変換装置の構成>
次に、本発明の実施の形態に係る文字列変換装置の構成について説明する。図8に示すように、本発明の実施の形態に係る文字列変換装置200は、CPUと、RAMと、後述する文字列変換処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この文字列変換装置200は、機能的には図8に示すように入力部210と、演算部220と、出力部250とを備えている。
入力部210は、変換対象となる崩れ語を含む文字列を受け付ける。
演算部220は、部分文字列特定部230と、文字列変換部232と、判定モデル240と、変換モデル242とを含んで構成されている。
判定モデル240は、モデル学習装置100で学習された、崩れ語の文字であるか否かを判定するための判定モデル40と同じモデルである。また、判定モデル240は、判定対象の文字、判定対象の文字より前の文字列、及び判定対象の文字より後の文字列を入力とし、判定対象の文字が崩れ語の文字である確率を出力するニューラルネットワークである。
変換モデル242、モデル学習装置100で学習された、崩れ語を正規語に変換するための変換モデル42と同じモデルであり、変換モデル242は、変換対象の部分文字列、変換対象の部分文字列より前の文字列、及び変換対象の部分文字列より後の文字列を入力とし、変換対象の部分文字列を変換した変換後の部分文字列の文字の各々について、各文字である確率を出力するニューラルネットワークである。
部分文字列特定部230は、入力部210で受け付けた文字列に対して、文字毎に、判定モデル240に基づいて、崩れ語の文字であるか否かを判定し、崩れ語の文字であると判定された文字からなる部分文字列を特定する。
例えば、図9に示すように、文字列の文字の各々について、判定モデル240を用いて崩れ語の文字であるか否かの判定を行う。文字を判定モデル240のLSTM型のニューラルネットワークに入力し、上記(1)式に従って、文字位置jのラベル出力確率p(j)の出力を得て崩れ語の文字か否かを判定する。崩れ語の文字と判定された文字には変化ラベルの「1」を出力し、崩れ語の文字でないと判定された文字には変化ラベルの「0」を出力することで崩れ語の部分文字列を特定する。
文字列変換部232は、部分文字列特定部230によって特定された部分文字列の各々に対して、変換モデル242と、文字列における当該部分文字列より前の文脈及び当該部分文字列より後の文脈とに基づいて、当該部分文字列を変換することにより、文字列に含まれる崩れ語を正規語に変換した文字列を生成する。
例えば、図10に示すように、崩れ語の部分文字列の各々について、変換モデル242を用いて正規語に変換を行う。部分文字列の各文字と、当該部分文字列より前の文脈の各文字と、当該部分文字列より後の文脈の各文字とをencoder-decoder型のニューラルネットワークに入力し、上記(2)式に従って、当該部分文字列に対する前の文脈及び後の文脈を考慮して、部分文字列のt番目の文字に対して、~hを計算してoを計算する。そして上記(3)式に従って、文字tの確率ベクトルp(t)を推定し、最も確率の高い文字に変換する。部分文字列「きょー」であれば「今日」、文字「ー」であれば「null」に変換する。そして、元の文字列に変換された部分文字列を統合し、正規化された文字列として出力部250に出力する。図11に文字列変換装置200の全体の処理の流れを表した概略図を示す。
<本発明の実施の形態に係るモデル学習装置の作用>
次に、本発明の実施の形態に係るモデル学習装置100の作用について説明する。入力部10において正規語からなる正規文と、崩れ語を含む崩れ文との複数のペアを受け付けると、モデル学習装置100は、図12に示すモデル学習処理ルーチンを実行する。
まず、ステップS100では、入力部10で受け付けた、正規語からなる正規化文と、崩れ語を含む崩れ文との複数のペアに基づいて、複数のペアの各々について、正規化文に含まれる各文字と、崩れ文に含まれる各文字との対応関係を求める。
次に、ステップS102では、ステップS100で求められた複数のペアの各々についての対応関係に基づいて、LSTM型のニューラルネットワークを用いて、崩れ語の文字であるか否かを判定するための判定モデルを学習し、判定モデル40として保存する。
ステップS104では、文字列アライメント部30により求められた複数のペアの各々についての対応関係に基づいて、encoder-decoder型のニューラルネットワークを用いて、崩れ語を正規語に変換するための変換モデルを学習し、変換モデル42として保存する。
以上説明したように、本実施の形態に係るモデル学習装置によれば、入力された、正規化された表現である正規語からなる正規化文と、正規語に対して揺らいだ表記である崩れ語を含む崩れ文との複数のペアに基づいて、複数のペアの各々について、正規化文に含まれる各文字と、崩れ文に含まれる各文字との対応関係を求め、文字列アライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れ語の文字であるか否かを判定するための判定モデルを学習し、複数のペアの各々についての対応関係に基づいて、崩れ語を正規語に変換するための変換モデルを学習することにより、精度よく崩れ語を含む文字列を変換できるモデルを学習することができる。
<本発明の実施の形態に係る文字列変換装置の作用>
次に、本発明の実施の形態に係る文字列変換装置200の作用について説明する。入力部210において変換対象となる崩れ語を含む文字列を受け付けると、文字列変換装置200は、図13に示す文字列変換処理ルーチンを実行する。
まず、ステップS200では、入力部210で受け付けた文字列に対して、文字毎に、判定モデル240に基づいて、崩れ語の文字であるか否かを判定し、崩れ語の文字であると判定された文字からなる部分文字列を特定する。
次に、ステップS202では、部分文字列特定部230によって特定された部分文字列の各々に対して、変換モデル242と、文字列における当該部分文字列より前の文脈及び当該部分文字列より後の文脈とに基づいて、当該部分文字列を変換することにより、文字列に含まれる崩れ語を正規語に変換した文字列を生成して、出力部250に出力する。
以上説明したように、本発明の実施の形態に係る文字列変換装置によれば、入力された文字列に対して、文字毎に、正規化された表現である正規語に対して揺らいだ表記である崩れ語の文字であるか否かを判定するための判定モデルに基づいて、崩れ語の文字であるか否かを判定し、崩れ語の文字であると判定された文字からなる部分文字列を特定し、特定された部分文字列に対して、崩れ語を正規語に変換するための変換モデルに基づいて、部分文字列を変換することにより、文字列に含まれる崩れ語を正規語に変換した文字列を生成することにより、精度よく、崩れ語を含む文字列を変換することができる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、判定モデル40(240)、及び変換モデル42(242)にニューラルネットワークを用いる場合を例に説明したが、これに限定されるものではなく、入力系列に対する確率を出力できる手法であれば他の手法を適用した判定モデル及び変換モデルを用いるようにしてもよい。
10 入力部
20 演算部
30 文字列アライメント部
32 判定モデル学習部
34 変換モデル学習部
40,240 判定モデル
42,242 変換モデル
100 モデル学習装置
200 文字列変換装置
210 入力部
220 演算部
230 部分文字列特定部
232 文字列変換部
250 出力部

Claims (8)

  1. 入力された文字列に対して、文字毎に、正規化された表現である正規語に対して揺らいだ表記である崩れ語の文字であるか否かを判定するための判定モデルに基づいて、崩れ語の文字であるか否かを判定し、崩れ語の文字であると判定された文字からなる部分文字列を特定する部分文字列特定部と、
    前記部分文字列特定部によって特定された部分文字列に対して、前記崩れ語を前記正規語に変換するための変換モデルに基づいて、前記部分文字列を変換することにより、前記文字列に含まれる前記崩れ語を前記正規語に変換した文字列を生成する文字列変換部と、
    を含む文字列変換装置。
  2. 前記変換モデルは、前記崩れ語より前の文脈及び前記崩れ語より後の文脈を考慮して、前記崩れ語を前記正規語に変換するための変換モデルであり、
    前記文字列変換部は、前記部分文字列特定部によって特定された部分文字列に対して、前記変換モデルと、前記文字列における前記部分文字列より前の文脈及び前記部分文字列より後の文脈とに基づいて、前記部分文字列を変換する請求項1記載の文字列変換装置。
  3. 前記判定モデルは、判定対象の文字、前記判定対象の文字より前の文字列、及び前記判定対象の文字より後の文字列を入力とし、前記判定対象の文字が崩れ語の文字である確率を出力するニューラルネットワークであり、
    前記変換モデルは、変換対象の部分文字列、前記変換対象の部分文字列より前の文字列、及び前記変換対象の部分文字列より後の文字列を入力とし、変換対象の部分文字列を変換した変換後の部分文字列の文字の各々について、各文字である確率を出力するニューラルネットワークである請求項1又は2記載の文字列変換装置。
  4. 入力された、正規化された表現である正規語からなる正規化文と、前記正規語に対して揺らいだ表記である崩れ語を含む崩れ文との複数のペアに基づいて、前記複数のペアの各々について、前記正規化文に含まれる各文字と、前記崩れ文に含まれる各文字との対応関係を求める文字列アライメント部と、
    前記文字列アライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れ語の文字であるか否かを判定するための判定モデルを学習する判定モデル学習部と、
    前記文字列アライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れ語を前記正規語に変換するための変換モデルを学習する変換モデル学習部と、
    を含むモデル学習装置。
  5. 部分文字列特定部が、入力された文字列に対して、文字毎に、正規化された表現である正規語に対して揺らいだ表記である崩れ語の文字であるか否かを判定するための判定モデルに基づいて、崩れ語の文字であるか否かを判定し、崩れ語の文字であると判定された文字からなる部分文字列を特定するステップと、
    文字列変換部が、前記部分文字列特定部によって特定された部分文字列に対して、前記崩れ語を前記正規語に変換するための変換モデルに基づいて、前記部分文字列を変換することにより、前記文字列に含まれる前記崩れ語を前記正規語に変換した文字列を生成するステップと、
    を含む文字列変換方法。
  6. 文字列アライメント部が、入力された、正規化された表現である正規語からなる正規化文と、前記正規語に対して揺らいだ表記である崩れ語を含む崩れ文との複数のペアに基づいて、前記複数のペアの各々について、前記正規化文に含まれる各文字と、前記崩れ文に含まれる各文字との対応関係を求めるステップと、
    判定モデル学習部が、前記文字列アライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れ語の文字であるか否かを判定するための判定モデルを学習するステップと、
    変換モデル学習部が、前記文字列アライメント部により求められた前記複数のペアの各々についての前記対応関係に基づいて、前記崩れ語を前記正規語に変換するための変換モデルを学習するステップと、
    を含むモデル学習方法。
  7. コンピュータを、請求項1〜請求項3のいずれか1項に記載の文字列変換装置の各部として機能させるためのプログラム。
  8. コンピュータを、請求項4に記載のモデル学習装置の各部として機能させるためのプログラム。
JP2016218997A 2016-11-09 2016-11-09 文字列変換装置、モデル学習装置、方法、及びプログラム Active JP6684693B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016218997A JP6684693B2 (ja) 2016-11-09 2016-11-09 文字列変換装置、モデル学習装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016218997A JP6684693B2 (ja) 2016-11-09 2016-11-09 文字列変換装置、モデル学習装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018077677A true JP2018077677A (ja) 2018-05-17
JP6684693B2 JP6684693B2 (ja) 2020-04-22

Family

ID=62150499

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016218997A Active JP6684693B2 (ja) 2016-11-09 2016-11-09 文字列変換装置、モデル学習装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6684693B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020030367A (ja) * 2018-08-24 2020-02-27 日本放送協会 音声認識結果整形モデル学習装置およびそのプログラム
JP2020134557A (ja) * 2019-02-13 2020-08-31 株式会社ワコム 文字データ生成装置、方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015169947A (ja) * 2014-03-04 2015-09-28 日本電信電話株式会社 モデル学習装置、形態素解析装置、及び方法
JP2016081379A (ja) * 2014-10-20 2016-05-16 日本電信電話株式会社 モデル学習装置、文字列変換装置、方法、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015169947A (ja) * 2014-03-04 2015-09-28 日本電信電話株式会社 モデル学習装置、形態素解析装置、及び方法
JP2016081379A (ja) * 2014-10-20 2016-05-16 日本電信電話株式会社 モデル学習装置、文字列変換装置、方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
佐々木 彬 外3名: "機械学習に基づくマイクロブログ上のテキストの正規化", 第27回全国大会論文集 [CD−ROM] 2013年度 人工知能学会全国大会(第27回)論文集, JPN6019028894, 4 June 2013 (2013-06-04), JP, pages 1 - 4, ISSN: 0004084046 *
池田 大志 外2名: "Encoder−Decoderモデルを用いた日本語崩れ表記の正規化", 情報処理学会 研究報告 自然言語処理(NL) 2016−NL−228 [ONLINE], JPN6019028892, 22 September 2016 (2016-09-22), JP, pages 1 - 6, ISSN: 0004084045 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020030367A (ja) * 2018-08-24 2020-02-27 日本放送協会 音声認識結果整形モデル学習装置およびそのプログラム
JP7190283B2 (ja) 2018-08-24 2022-12-15 日本放送協会 音声認識結果整形モデル学習装置およびそのプログラム
JP2020134557A (ja) * 2019-02-13 2020-08-31 株式会社ワコム 文字データ生成装置、方法及びプログラム

Also Published As

Publication number Publication date
JP6684693B2 (ja) 2020-04-22

Similar Documents

Publication Publication Date Title
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
CN111401084B (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
CN111160041B (zh) 语义理解方法、装置、电子设备和存储介质
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
JP6558863B2 (ja) モデル作成装置、推定装置、方法、及びプログラム
JP7155625B2 (ja) 検査装置、検査方法、プログラム及び学習装置
CN113705196A (zh) 基于图神经网络的中文开放信息抽取方法和装置
JP5441937B2 (ja) 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム
JP2016224483A (ja) モデル学習装置、方法、及びプログラム
US10394960B2 (en) Transliteration decoding using a tree structure
CN110263321B (zh) 一种情感词典构建方法及系统
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
KR20220128397A (ko) 자동 음성 인식을 위한 영숫자 시퀀스 바이어싱
JP2018077677A (ja) 文字列変換装置、モデル学習装置、方法、及びプログラム
CN114912418A (zh) 一种基于多元语义特征和掩码策略的文本纠错方法和系统
US10402489B2 (en) Transliteration of text entry across scripts
CN113705207A (zh) 语法错误识别方法及装置
CN116187304A (zh) 一种基于改进bert的自动文本纠错算法及系统
JP6558856B2 (ja) 形態素解析装置、モデル学習装置、及びプログラム
CN114580391A (zh) 中文错误检测模型训练方法、装置、设备及存储介质
KR20230059524A (ko) 멀티 모달 데이터를 분석하기 위한 방법 및 장치
JP7107059B2 (ja) 文生成装置、モデル学習装置、文生成方法、モデル学習方法、及びプログラム
JP2018010481A (ja) 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム
KR100887726B1 (ko) 자동 띄어쓰기 방법 및 그 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190730

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190927

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191015

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200324

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200330

R150 Certificate of patent or registration of utility model

Ref document number: 6684693

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150