JP6778655B2 - 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム - Google Patents

単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム Download PDF

Info

Publication number
JP6778655B2
JP6778655B2 JP2017113768A JP2017113768A JP6778655B2 JP 6778655 B2 JP6778655 B2 JP 6778655B2 JP 2017113768 A JP2017113768 A JP 2017113768A JP 2017113768 A JP2017113768 A JP 2017113768A JP 6778655 B2 JP6778655 B2 JP 6778655B2
Authority
JP
Japan
Prior art keywords
word
concatenation
string
morphological analysis
example data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017113768A
Other languages
English (en)
Other versions
JP2018206262A (ja
Inventor
いつみ 斉藤
いつみ 斉藤
齋藤 邦子
邦子 齋藤
松尾 義博
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017113768A priority Critical patent/JP6778655B2/ja
Publication of JP2018206262A publication Critical patent/JP2018206262A/ja
Application granted granted Critical
Publication of JP6778655B2 publication Critical patent/JP6778655B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラムに係り、特に、単語連接が自然か否かを検出するための単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラムに関する。
従来より、単語連接の自然性をモデル化し、不自然な単語連接を検出する技術がある。不自然な単語連接を検出することで、形態素解析の誤り検出や、自動生成した文の不自然箇所の誤りの検出に用いることができる。
例えば、未知語の解析結果の誤り検出のケースでは、入力文が「りそにゃかわいい」であって、形態素解析結果が「り/そ/にゃ/かわいい」である場合に、「りそにゃ」が未知語であるため、誤った解析である「り/そ/にゃ」の形態素解析結果を不自然な単語連接として検出するものである。
また、例えば、述語項からの文生成の誤り検出では、入力が「音楽[ガ]いい+過去」であって、生成結果が「音楽/が/い/かった/」である場合に、「いかった」は生成誤りであるため、生成結果を不自然な単語連接として検出するものである。
このような技術の分野においては、自動で形態素解析した文に対し、新聞コーパスとTwitter(R)コーパスにおけるbigram出現頻度を用いて低頻度な出現箇所の検出を行っている(非特許文献1参照)。多くの教師なし形態素解析誤り検出がこの方法に基づいている。他に、教師ありで検出を行う場合は教師データを作成する必要がある。
宮里貴之, 白井清昭, マイクロブログを対象とした形態素解析誤りの自動検出と誤り分析, 言語処理学会全国大会,2016.
しかし、従来の技術では、教師データを作成して識別学習を行うか、教師なし学習の場合は単純な単語の連接頻度の情報などの統計情報しか用いられていなかった。また、教師なし学習であっても、より高精度な識別器を構築することが課題となっていた。
本発明は、上記事情を鑑みて成されたものであり、精度よく、単語の連接が自然であるか否かを識別できる単語連接識別モデルを学習することができる単語連接識別モデル学習装置、方法、及びプログラムを提供することを目的とする。
また、本発明は、精度よく、単語の連接が自然であるか否かを検出できる単語連接検出装置、方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る単語連接識別モデル学習装置は、所定のドメインのテキスト集合に対して形態素解析を行い、前記形態素解析の結果から、予め定められた閾値を用いて得られる単語列をシードとして抽出し、前記シードを正例データとするシード抽出部と、前記シードに含まれる単語を置き換えた置換文字列に対して形態素解析を行い、前記形態素解析の結果から、置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成する負例データ拡張部と、前記正例データと、生成した前記負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習する識別モデル学習部と、を含んで構成されている。
また、第1の発明に係る単語連接識別モデル学習装置において、前記シード抽出部は、前記形態素解析の結果から、前記シードとして、文字数が予め定めた閾値以下になる単語列、及び単語ngramの出現頻度が閾値以上となる単語ngramの少なくとも一方を抽出するようにしてもよい。
また、第1の発明に係る単語連接識別モデル学習装置において、前記シードに含まれる単語を、前記所定のドメインとは別のドメインのテキストに含まれる単語に置き換え、前記置き換えた結果として得られる単語列が、前記別のドメインのテキスト集合に予め定めた閾値以上出現する場合、前記置き換えた結果として得られる単語列を、正例データとして追加する正例データ拡張部を更に含むようにしてもよい。
第2の発明に係る単語連接検出装置は、テキストを入力として、形態素解析を行う解析部と、前記解析部によって得られた形態素解析の結果に基づいて、単語列における単語の連接が自然であるか否かを識別するための予め学習された単語連接識別モデルを用いて、前記形態素解析の結果から得られる前記単語列における単語の連接が自然であるか否かを検出する単語連接検出部と、を含んで構成されている。
第3の発明に係る単語連接識別モデル学習方法は、シード抽出部が、所定のドメインのテキスト集合に対して形態素解析を行い、前記形態素解析の結果から、予め定められた閾値を用いて得られる単語列をシードとして抽出し、前記シードを正例データとするステップと、負例データ拡張部が、前記シードに含まれる単語を置き換えた置換文字列に対して形態素解析を行い、前記形態素解析の結果から、置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成するステップと、識別モデル学習部が、前記正例データと、生成した前記負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習するステップと、を含んで実行することを特徴とする。
第4の発明に係る単語連接検出方法は、解析部が、テキストを入力として、形態素解析を行うステップと、単語連接検出部が、前記解析部によって得られた形態素解析の結果に基づいて、単語列における単語の連接が自然であるか否かを識別するための予め学習された単語連接識別モデルを用いて、前記形態素解析の結果から得られる前記単語列における単語の連接が自然であるか否かを検出するステップと、を含んで実行することを特徴とする。
第5の発明に係るプログラムは、コンピュータを、第1の発明に係る単語連接識別モデル学習装置の各部として機能させるためのプログラムである。
第6の発明に係るプログラムは、コンピュータを、第2の発明に係る単語連接検出装置の各部として機能させるためのプログラムである。
本発明の単語連接識別モデル学習装置、方法、及びプログラムによれば、所定のドメインのテキスト集合に対して形態素解析を行い、形態素解析の結果から、予め定められた閾値を用いて得られる単語列をシードとして抽出し、シードを正例データとし、シードに含まれる単語を置き換えた置換文字列に対して形態素解析を行い、形態素解析の結果から、置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成し、正例データと、生成した負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習することにより、精度よく、単語の連接が自然であるか否かを識別できる単語連接識別モデルを学習することができる、という効果が得られる。
また、本発明の単語連接検出装置、方法、及びプログラムによれば、テキストを入力として、形態素解析を行い、形態素解析の結果に基づいて、単語列における単語の連接が自然であるか否かを識別するための予め学習された単語連接識別モデルを用いて、形態素解析の結果から得られる単語列における単語の連接が自然であるか否かを検出することにより、精度よく、単語の連接が自然であるか否かを検出できる、という効果が得られる。
本発明の実施の形態に係る単語連接識別モデル学習装置の構成を示すブロック図である。 双方向LSTMの一例を示す図である。 本発明の実施の形態に係る単語連接識別モデル学習装置における単語連接識別モデル学習処理ルーチンを示すフローチャートである。 本発明の実施の形態に係る単語連接検出装置の構成を示すブロック図である。 本発明の実施の形態に係る単語連接検出装置における単語連接検出処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。
<本発明の実施の形態に係る概要>
本発明の実施の形態では、新聞テキストに頻出するngramをシードとして、自動的に正例データ、及び負例データを拡張する。これにより、人手作成した学習データなしに、自然な単語の連接と不自然な単語の連接とを高精度に識別する学習器が構築可能となる。
<本発明の実施の形態に係る単語連接識別モデル学習装置の構成>
次に、本発明の実施の形態に係る単語連接識別モデル学習装置の構成について説明する。図1に示すように、本発明の実施の形態に係る単語連接識別モデル学習装置100は、CPUと、RAMと、後述する単語連接識別モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この単語連接識別モデル学習装置100は、機能的には図1に示すように入力部10と、演算部20とを備えている。
入力部10は、新聞ドメインのテキスト集合を受け付け、新聞ドメインデータDB22に格納する。また、入力部10は、Twitter(R)ドメインのテキスト集合を受け付け、別ドメインデータDB24に格納する。なお、新聞ドメインが所定ドメインの一例であり、Twitter(R)ドメインが別のドメインの一例である。
演算部20は、新聞ドメインデータDB22と、別ドメインデータDB24と、シード抽出部30と、正例データ拡張部32と、負例データ拡張部34と、識別モデル学習部36と、単語連接識別モデル40とを含んで構成されている。
シード抽出部30は、新聞ドメインデータDB22に格納された新聞ドメインのテキスト集合に対して形態素解析を行い、形態素解析の結果から、シードとして、文字数が予め定めた閾値以下になる単語列、及び単語ngramの出現頻度が閾値以上となる単語ngramを抽出し、シードを正例データとする。なお、単語列、及び単語ngramの何れか一方を抽出してシードとするようにしてもよい。
ここでは、新聞の自動解析結果は約99%と高い精度であることが知られていることから、シードを新聞ドメインにおける解析結果から抽出する。入力が、「長期的に研究に取り組める環境の整備が求められるとしています」の場合、形態素解析の自動解析結果が「長期/的/に/研究/に/取り組める/環境/の/整備/が/求め/られ/る/と/し/て/いま/す」と得られる。上記自動解析結果の集合から、シードを抽出することができる。本実施の形態では、以下のように閾値を用いたシード抽出を行う。
閾値を単語ngramの出現頻度としたシード抽出を行う場合について説明する。
この場合のシード抽出では、上記解析結果において、例えば、ngram頻度(例えば3gram)が閾値以上となる単語ngram全てをシードとして抽出する。例えば、「長期/的/に」、「的/に/研究」などの単語ngram(n=3)が閾値以上で出現する場合には、これをシードとして抽出する。
次に、閾値を文字数としたシード抽出を行う場合について説明する。
この場合のシード抽出では、まず、新聞ドメインのテキストに対する構文解析の結果に基づいて、例えば、まずテキストを、文字数が予め定めた閾値以内になるように文節単位で分割する。閾値を15文字以下とする場合は次のように2文に分割する。分割結果は「長期的/に/研究に/取り組める/環境の」、「整備が/求められると/しています/」となる。そして、上記分割された2文を形態素解析してそれぞれシードとする。形態素解析結果はそれぞれ「長期/的/に/研究/に/取り組める/環境/の」、「整備/が/求め/られ/る/と/し/て/い/ます/」という単語列になる。これによりシードの長さを制御することができる。また、形態素解析結果について、ngram頻度による閾値を併用して、文中の単語ngram頻度が閾値以上の単語列をシードとするようにしてもよい。
正例データ拡張部32は、シード抽出部30で抽出されたシードに含まれる単語を、別ドメインデータDB24に格納されているTwitter(R)ドメインのテキストに含まれる単語に置き換え、置き換えた結果として得られる単語列が、Twitter(R)ドメインのテキスト集合に予め定めた閾値以上出現する場合、置き換えた結果として得られる単語列を、正例データとして追加する。Twitter(R)ドメインの置き換えに用いられる単語は、Twitter(R)ドメインでの頻出単語とする。
このように正例データを拡張するのは、新聞ドメインのデータから抽出したシード(正例)のみでは、ドメインに偏りが出てしまうからである。つまり、新聞ドメインの正例データだけでは、新聞に出現する単語に偏ってしまい、マイクロブログ等に出現する単語を適切に識別できない可能性があるからである。このため、ドメイン依存性を少なくするため、正例データの拡張を行う。
例えば、入力となるシードが「読み書き/だけ/で/なく/」であれば、置換対象を単語「読み書き/サ変名詞」とする。この場合に、Twitter(R)ドメインにおける、置換対象の単語と同一品詞となる頻出単語が「安定」、「練習」、「案内」であれば、「練習」に置換した結果として、「練習/だけ/で/なく/」が正例データの拡張候補として得られる。また、Twitter(R)ドメインのテキスト集合に対して形態素解析を行い、ngram判定して、各単語ngramの頻度を求めておき、上記の正例データの拡張候補について、Twitter(R)ドメインにおける単語ngram頻度が予め定めた閾値以上であれば、正例データとして採用するようにしてもよい。
識別学習を行うためには負例データが必要であるため、負例データ拡張部34において疑似的な負例データを生成する。
負例データ拡張部34は、シード抽出部30で抽出したシードである正例データ、及び正例データ拡張部32で追加された正例データに対する形態素解析の結果に基づいて、部分文字列を置換した置換文字列を生成し、置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成する。
負例データ拡張部34では、例えば、正例データに含まれる単語に対し、単語を読み(ひらがな)化した置換文字列や、予め定めたルールに基づいて部分文字列を置き換えた置換文字列を生成する。読みは、既存の辞書や既存の解析手法により自動的に取得したものを用いればよい。そして、負例データ拡張部34では、生成した置換文字列を形態素解析し、解析結果の品詞列が、置換前の品詞列と一致しない場合は一致しない部分が解析誤りを起こしていると判定して、置換文字列に対する単語列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データとする。
例えば、入力となる正例データが「練習/だけ/で/なく/(サ変名詞/助詞/助動詞/助動詞)」であり、読み化の対象を「練習/(読み:れんしゅー)」とした場合、置換結果の置換文字列は、「れんしゅーだけでなく」となる。この置換文字列を形態素解析すると、「れん/し/ゅ/ー/だけ/で/なく/(名詞/動詞/名詞/名詞/助詞/助動詞/助動詞)」という解析結果が得られる。これを入力の正例データの元の品詞列と比較すると不一致箇所は「(名詞/動詞/名詞/名詞)/助詞/助動詞/助動詞」の丸括弧内の箇所であることがわかる。よって、誤り及び正解箇所をラベリングし、「れん(1)/し(1)/ゅ(1)/ー(1)/だけ(0)/で(0)/なく(0)/」というように、1(誤り箇所)/0(正解箇所)の2値ラベルを付けることで単語の連接が元の品詞列と一致しない箇所を特定し、負例データとして出力する。
上記の例では、読み化したデータで置換する事例を記載したが、文字列ルールを用いた置換を行ってもよい。例えば、「っ」「ー」の追加や、小文字化、音が類似している文字への変換(じ->ぢ,さ→しゃ,な→にゃ)など、既知のルールを用いて同様の操作を行うことで、置換文字列を生成し、多様な負例データを生成することができる。
例えば、入力となる正例データが「れんしゅう/だけ/で/なく/(サ変名詞/助詞/助動詞/助動詞)」であり、置換対象を「れんしゅう」とし「う->ぅ:小文字化」というルールの置換を適用した場合、置換結果の置換文字列は「れんしゅぅだけでなく」となる。この置換文字列を形態素解析すると、「れん/し/ゅぅ/だけ/で/なく/(名詞/動詞/名詞/助詞/助動詞/助動詞)」という解析結果が得られる。これを入力の正例データの元の品詞列と比較すると不一致箇所は「(名詞/動詞/名詞)/助詞/助動詞/助動詞」の丸括弧内の箇所であることがわかる。よって、誤り及び正解箇所をラベリングし、「れん(1)/し(1)/ゅぅ(1)/だけ(0)/で(0)/なく(0)/」というように2値ラベルをつけたデータを負例データとして出力する。
識別モデル学習部36は、シード抽出部30で抽出された正例データ、及び正例データ拡張部32で拡張して追加された正例データと、負例データ拡張部34で生成した負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習する。正例データには、全ての形態素に正解ラベル0を付与すればよい。本実施の形態では、単語連接識別モデルとして、図2に示すような系列を考慮して単語ごとにラベルを付与できるニューラルネットワークモデルである双方向LSTMを用いてモデル化する。双方向LSTMでは、単語ごとに、forward隠れ層、及びbackward隠れ層、出力層の直前の隠れ層、及び出力層を有し、forward隠れ層及びbackward隠れ層の入力として、当該単語の情報を含み、出力層直前の隠れ層の入力として、当該単語のforward隠れ層及びbackward隠れ層の出力を含む。なお、CRFなどの既存モデルを用いてもよい。学習した単語連接識別モデルは単語連接識別モデル40として保持する。
<本発明の実施の形態に係る単語連接識別モデル学習装置の作用>
次に、本発明の実施の形態に係る単語連接識別モデル学習装置100の作用について説明する。入力部10において新聞ドメインのテキスト集合を受け付け、新聞ドメインデータDB22に格納し、Twitter(R)ドメインのテキスト集合を受け付け、別ドメインデータDB24に格納すると、単語連接識別モデル学習装置100は、図3に示す単語連接識別モデル学習処理ルーチンを実行する。
まず、ステップS100では、新聞ドメインデータDB22に格納された新聞ドメインのテキスト集合に対して形態素解析を行い、形態素解析の結果から、シードとして、文字数が予め定めた閾値以下になる単語列、及び単語ngramの出現頻度が閾値以上となる単語ngramを抽出し、シードを正例データとする。
次に、ステップS102では、ステップS100で抽出されたシードに含まれる単語を、別ドメインデータDB24に格納されているTwitter(R)ドメインのテキストに含まれる頻出の単語に置き換え、置き換えた結果として得られる単語列が、Twitter(R)ドメインのテキスト集合に予め定めた閾値以上出現する場合、置き換えた結果として得られる単語列を、正例データとして追加する。
ステップS104では、ステップS100で抽出したシードである正例データ、及びステップS102で追加された正例データに対する形態素解析の結果に基づいて、置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成する。
ステップS106では、ステップS100で抽出された正例データ、及びステップS102で拡張して追加された正例データと、ステップS104で生成した負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習し、単語連接識別モデル40として保持する。
以上説明したように、本発明の実施の形態に係る単語連接識別モデル学習装置によれば、所定のドメインのテキスト集合に対して形態素解析を行い、形態素解析の結果から、予め定められた閾値を用いて得られる単語列をシードとして抽出し、シードを正例データとし、シードに含まれる単語を置き換えた置換文字列に対して形態素解析を行い、形態素解析の結果から、置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成し、正例データと、生成した負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習することにより、精度よく、単語の連接が自然であるか否かを識別できる単語連接識別モデルを学習することができる。
<本発明の実施の形態に係る単語連接検出装置の構成>
次に、本発明の実施の形態に係る単語連接検出装置の構成について説明する。図4に示すように、本発明の実施の形態に係る単語連接検出装置200は、CPUと、RAMと、後述する単語連接検出処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この単語連接検出装置200は、機能的には図4に示すように入力部210と、演算部220と、出力部250とを備えている。
入力部210は、単語の連接の自然性を判定する対象とするテキストを受け付ける。
演算部220は、解析部230と、単語連接検出部232と、単語連接識別モデル240とを含んで構成されている。
単語連接識別モデル240は、上記単語連接識別モデル学習装置100によって学習された、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルである。
解析部230は、入力部210で受け付けたテキストを入力として、形態素解析を行う。
単語連接検出部232は、解析部230によって得られた形態素解析の結果に基づいて、単語連接識別モデル240を用いて、形態素解析の結果から得られる単語列における各単語について、単語の連接が自然であるか否かを示すラベルを付与することにより、単語の連接が自然であるか否かを検出し、検出結果を出力部250に出力する。
<本発明の実施の形態に係る単語連接検出装置の作用>
次に、本発明の実施の形態に係る単語連接検出装置200の作用について説明する。入力部210においてテキストを受け付けると、単語連接検出装置200は、図5に示す単語連接検出処理ルーチンを実行する。
まず、ステップS200では、入力部210において受け付けたテキストを入力として、形態素解析を行う。
次に、ステップS202では、ステップS200で得られた形態素解析の結果に基づいて、単語連接識別モデル240を用いて、形態素解析の結果から得られる単語列における各単語について、単語の連接が自然であるか否かを示すラベルを付与することにより、単語の連接が自然であるか否かを検出し、検出結果を出力部250に出力して処理を終了する。
以上説明したように、本発明の実施の形態に係る単語連接検出装置によれば、テキストを入力として、形態素解析を行い、形態素解析の結果に基づいて、単語列における単語の連接が自然であるか否かを識別するための予め学習された単語連接識別モデルを用いて、形態素解析の結果から得られる単語列における単語の連接が自然であるか否かを検出することにより、精度よく、単語の連接が自然であるか否かを識別できる。
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施の形態では、新聞ドメインを所定のドメイン、Twitter(R)ドメインを別のドメインとして用いる場合を例に説明したが、これに限定されるものではなく、所定のドメインや別のドメインに他のドメインを用いるようにしてもよい。
例えば、上述した実施の形態では、正例データ拡張部32によって、正例データを拡張する場合を例に説明したが、これに限定されるものではなく、正例データ拡張部32の処理(ステップS102)をスキップして省略してもよい。
10,210 入力部
20,220 演算部
30 シード抽出部
32 正例データ拡張部
34 負例データ拡張部
36 識別モデル学習部
40,240 単語連接識別モデル
100 単語連接識別モデル学習装置
200 単語連接検出装置
230 解析部
232 単語連接検出部
240 単語連接識別モデル
250 出力部

Claims (7)

  1. 所定のドメインのテキスト集合に対して形態素解析を行い、前記形態素解析の結果から、文字数が閾値以下になる単語列、及び単語ngramの出現頻度が閾値以上となる単語列の少なくとも一方をシードとして抽出し、前記シードを正例データとするシード抽出部と、
    前記シードに含まれる単語についての読みによる置換、又は所定の口語表現を表す文字の追加若しくは音の類似した文字への変換を含む文字列のルールにより置き換えた置換文字列に対して形態素解析を行い、前記形態素解析の結果から、前記置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成する負例データ拡張部と、
    前記正例データと、生成した前記負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習する識別モデル学習部と、
    を含む単語連接識別モデル学習装置。
  2. 前記シードに含まれる単語を、前記所定のドメインとは別のドメインのテキストに含まれる単語に置き換え、前記置き換えた結果として得られる単語列が、前記別のドメインのテキスト集合に予め定めた閾値以上出現する場合、前記置き換えた結果として得られる単語列を、正例データとして追加する正例データ拡張部を更に含む請求項1に記載の単語連接識別モデル学習装置。
  3. テキストを入力として、形態素解析を行う解析部と、
    前記解析部によって得られた形態素解析の結果に基づいて、単語列における単語の連接が自然であるか否かを識別するための予め請求項1又は請求項2に記載の単語連接識別モデル学習装置により学習された単語連接識別モデルを用いて、前記形態素解析の結果から得られる前記単語列における単語の連接が自然であるか否かを検出する単語連接検出部と、
    を含む単語連接検出装置。
  4. シード抽出部が、所定のドメインのテキスト集合に対して形態素解析を行い、前記形態素解析の結果から、文字数が閾値以下になる単語列、及び単語ngramの出現頻度が閾値以上となる単語列の少なくとも一方をシードとして抽出し、前記シードを正例データとするステップと、
    負例データ拡張部が、前記シードに含まれる単語についての読みによる置換、又は所定の口語表現を表す文字の追加若しくは音の類似した文字への変換を含む文字列のルールにより置き換えた置換文字列に対して形態素解析を行い、前記形態素解析の結果から、前記置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成するステップと、
    識別モデル学習部が、前記正例データと、生成した前記負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習するステップと、
    を含む単語連接識別モデル学習方法。
  5. 解析部が、テキストを入力として、形態素解析を行うステップと、
    単語連接検出部が、前記解析部によって得られた形態素解析の結果に基づいて、単語列における単語の連接が自然であるか否かを識別するための予め請求項4に記載の単語連接識別モデル学習方法により学習された単語連接識別モデルを用いて、前記形態素解析の結果から得られる前記単語列における単語の連接が自然であるか否かを検出するステップと、
    を含む単語連接検出方法。
  6. コンピュータを、請求項1又は請求項2に記載の単語連接識別モデル学習装置の各部として機能させるためのプログラム。
  7. コンピュータを、請求項に記載の単語連接検出装置の各部として機能させるためのプログラム。
JP2017113768A 2017-06-08 2017-06-08 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム Active JP6778655B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017113768A JP6778655B2 (ja) 2017-06-08 2017-06-08 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017113768A JP6778655B2 (ja) 2017-06-08 2017-06-08 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018206262A JP2018206262A (ja) 2018-12-27
JP6778655B2 true JP6778655B2 (ja) 2020-11-04

Family

ID=64957953

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017113768A Active JP6778655B2 (ja) 2017-06-08 2017-06-08 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6778655B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111538806B (zh) * 2019-01-21 2023-04-07 阿里巴巴集团控股有限公司 查询负例的泛化方法及装置
CN110851738B (zh) 2019-10-28 2021-03-19 百度在线网络技术(北京)有限公司 获取poi状态信息的方法、装置、设备和计算机存储介质
JP6843450B1 (ja) * 2019-11-08 2021-03-17 リーダー電子株式会社 教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置
WO2023148831A1 (ja) * 2022-02-01 2023-08-10 日本電信電話株式会社 疑似負例生成装置、疑似負例生成方法、及びプログラム

Also Published As

Publication number Publication date
JP2018206262A (ja) 2018-12-27

Similar Documents

Publication Publication Date Title
Roark et al. Processing South Asian languages written in the Latin script: the Dakshina dataset
Azmi et al. A survey of automatic Arabic diacritization techniques
JP6778655B2 (ja) 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム
Alkanhal et al. Automatic stochastic arabic spelling correction with emphasis on space insertions and deletions
Alharbi et al. Part-of-speech tagging for Arabic Gulf dialect using Bi-LSTM
CN111611810A (zh) 一种多音字读音消歧装置及方法
Gunasekara et al. Hybrid part of speech tagger for sinhala language
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
KR20090061158A (ko) 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정방법 및 장치
Chua et al. Text normalization infrastructure that scales to hundreds of language varieties
JP6145059B2 (ja) モデル学習装置、形態素解析装置、及び方法
Hassan et al. Arabic spelling correction using supervised learning
Tennage et al. Transliteration and byte pair encoding to improve tamil to sinhala neural machine translation
Uchimoto et al. Morphological analysis of the Corpus of Spontaneous Japanese
JP2011008784A (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
Etxeberria et al. Weighted finite-state transducers for normalization of historical texts
CN109977391B (zh) 一种文本数据的信息抽取方法及装置
KR102204395B1 (ko) 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템
Uchimoto et al. Morphological analysis of a large spontaneous speech corpus in Japanese
Murthy et al. Kannada spell checker with sandhi splitter
CN115034209A (zh) 文本分析方法、装置、电子设备以及存储介质
JP2009157888A (ja) 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム
Núñez et al. Phonetic normalization for machine translation of user generated content
WO2020012813A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
Deka et al. A study of t’nt and crf based approach for pos tagging in assamese language

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190827

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200602

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201012

R150 Certificate of patent or registration of utility model

Ref document number: 6778655

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150