JP6778655B2

JP6778655B2 - 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム

Info

Publication number: JP6778655B2
Application number: JP2017113768A
Authority: JP
Inventors: いつみ斉藤; 齋藤　邦子; 邦子齋藤; 松尾　義博; 義博松尾
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-06-08
Filing date: 2017-06-08
Publication date: 2020-11-04
Anticipated expiration: 2037-06-08
Also published as: JP2018206262A

Description

本発明は、単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラムに係り、特に、単語連接が自然か否かを検出するための単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラムに関する。

従来より、単語連接の自然性をモデル化し、不自然な単語連接を検出する技術がある。不自然な単語連接を検出することで、形態素解析の誤り検出や、自動生成した文の不自然箇所の誤りの検出に用いることができる。

例えば、未知語の解析結果の誤り検出のケースでは、入力文が「りそにゃかわいい」であって、形態素解析結果が「り/そ/にゃ/かわいい」である場合に、「りそにゃ」が未知語であるため、誤った解析である「り/そ/にゃ」の形態素解析結果を不自然な単語連接として検出するものである。

また、例えば、述語項からの文生成の誤り検出では、入力が「音楽[ガ]いい＋過去」であって、生成結果が「音楽/が/い/かった/」である場合に、「いかった」は生成誤りであるため、生成結果を不自然な単語連接として検出するものである。

このような技術の分野においては、自動で形態素解析した文に対し、新聞コーパスとＴｗｉｔｔｅｒ（Ｒ）コーパスにおけるｂｉｇｒａｍ出現頻度を用いて低頻度な出現箇所の検出を行っている（非特許文献１参照）。多くの教師なし形態素解析誤り検出がこの方法に基づいている。他に、教師ありで検出を行う場合は教師データを作成する必要がある。

宮里貴之, 白井清昭, マイクロブログを対象とした形態素解析誤りの自動検出と誤り分析, 言語処理学会全国大会，2016.

しかし、従来の技術では、教師データを作成して識別学習を行うか、教師なし学習の場合は単純な単語の連接頻度の情報などの統計情報しか用いられていなかった。また、教師なし学習であっても、より高精度な識別器を構築することが課題となっていた。

本発明は、上記事情を鑑みて成されたものであり、精度よく、単語の連接が自然であるか否かを識別できる単語連接識別モデルを学習することができる単語連接識別モデル学習装置、方法、及びプログラムを提供することを目的とする。

また、本発明は、精度よく、単語の連接が自然であるか否かを検出できる単語連接検出装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る単語連接識別モデル学習装置は、所定のドメインのテキスト集合に対して形態素解析を行い、前記形態素解析の結果から、予め定められた閾値を用いて得られる単語列をシードとして抽出し、前記シードを正例データとするシード抽出部と、前記シードに含まれる単語を置き換えた置換文字列に対して形態素解析を行い、前記形態素解析の結果から、置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成する負例データ拡張部と、前記正例データと、生成した前記負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習する識別モデル学習部と、を含んで構成されている。

また、第１の発明に係る単語連接識別モデル学習装置において、前記シード抽出部は、前記形態素解析の結果から、前記シードとして、文字数が予め定めた閾値以下になる単語列、及び単語ｎｇｒａｍの出現頻度が閾値以上となる単語ｎｇｒａｍの少なくとも一方を抽出するようにしてもよい。

また、第１の発明に係る単語連接識別モデル学習装置において、前記シードに含まれる単語を、前記所定のドメインとは別のドメインのテキストに含まれる単語に置き換え、前記置き換えた結果として得られる単語列が、前記別のドメインのテキスト集合に予め定めた閾値以上出現する場合、前記置き換えた結果として得られる単語列を、正例データとして追加する正例データ拡張部を更に含むようにしてもよい。

第２の発明に係る単語連接検出装置は、テキストを入力として、形態素解析を行う解析部と、前記解析部によって得られた形態素解析の結果に基づいて、単語列における単語の連接が自然であるか否かを識別するための予め学習された単語連接識別モデルを用いて、前記形態素解析の結果から得られる前記単語列における単語の連接が自然であるか否かを検出する単語連接検出部と、を含んで構成されている。

第３の発明に係る単語連接識別モデル学習方法は、シード抽出部が、所定のドメインのテキスト集合に対して形態素解析を行い、前記形態素解析の結果から、予め定められた閾値を用いて得られる単語列をシードとして抽出し、前記シードを正例データとするステップと、負例データ拡張部が、前記シードに含まれる単語を置き換えた置換文字列に対して形態素解析を行い、前記形態素解析の結果から、置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成するステップと、識別モデル学習部が、前記正例データと、生成した前記負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習するステップと、を含んで実行することを特徴とする。

第４の発明に係る単語連接検出方法は、解析部が、テキストを入力として、形態素解析を行うステップと、単語連接検出部が、前記解析部によって得られた形態素解析の結果に基づいて、単語列における単語の連接が自然であるか否かを識別するための予め学習された単語連接識別モデルを用いて、前記形態素解析の結果から得られる前記単語列における単語の連接が自然であるか否かを検出するステップと、を含んで実行することを特徴とする。

第５の発明に係るプログラムは、コンピュータを、第１の発明に係る単語連接識別モデル学習装置の各部として機能させるためのプログラムである。

第６の発明に係るプログラムは、コンピュータを、第２の発明に係る単語連接検出装置の各部として機能させるためのプログラムである。

本発明の単語連接識別モデル学習装置、方法、及びプログラムによれば、所定のドメインのテキスト集合に対して形態素解析を行い、形態素解析の結果から、予め定められた閾値を用いて得られる単語列をシードとして抽出し、シードを正例データとし、シードに含まれる単語を置き換えた置換文字列に対して形態素解析を行い、形態素解析の結果から、置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成し、正例データと、生成した負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習することにより、精度よく、単語の連接が自然であるか否かを識別できる単語連接識別モデルを学習することができる、という効果が得られる。

また、本発明の単語連接検出装置、方法、及びプログラムによれば、テキストを入力として、形態素解析を行い、形態素解析の結果に基づいて、単語列における単語の連接が自然であるか否かを識別するための予め学習された単語連接識別モデルを用いて、形態素解析の結果から得られる単語列における単語の連接が自然であるか否かを検出することにより、精度よく、単語の連接が自然であるか否かを検出できる、という効果が得られる。

本発明の実施の形態に係る単語連接識別モデル学習装置の構成を示すブロック図である。双方向ＬＳＴＭの一例を示す図である。本発明の実施の形態に係る単語連接識別モデル学習装置における単語連接識別モデル学習処理ルーチンを示すフローチャートである。本発明の実施の形態に係る単語連接検出装置の構成を示すブロック図である。本発明の実施の形態に係る単語連接検出装置における単語連接検出処理ルーチンを示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る概要＞

本発明の実施の形態では、新聞テキストに頻出するｎｇｒａｍをシードとして、自動的に正例データ、及び負例データを拡張する。これにより、人手作成した学習データなしに、自然な単語の連接と不自然な単語の連接とを高精度に識別する学習器が構築可能となる。

＜本発明の実施の形態に係る単語連接識別モデル学習装置の構成＞

次に、本発明の実施の形態に係る単語連接識別モデル学習装置の構成について説明する。図１に示すように、本発明の実施の形態に係る単語連接識別モデル学習装置１００は、ＣＰＵと、ＲＡＭと、後述する単語連接識別モデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この単語連接識別モデル学習装置１００は、機能的には図１に示すように入力部１０と、演算部２０とを備えている。

入力部１０は、新聞ドメインのテキスト集合を受け付け、新聞ドメインデータＤＢ２２に格納する。また、入力部１０は、Ｔｗｉｔｔｅｒ（Ｒ）ドメインのテキスト集合を受け付け、別ドメインデータＤＢ２４に格納する。なお、新聞ドメインが所定ドメインの一例であり、Ｔｗｉｔｔｅｒ（Ｒ）ドメインが別のドメインの一例である。

演算部２０は、新聞ドメインデータＤＢ２２と、別ドメインデータＤＢ２４と、シード抽出部３０と、正例データ拡張部３２と、負例データ拡張部３４と、識別モデル学習部３６と、単語連接識別モデル４０とを含んで構成されている。

シード抽出部３０は、新聞ドメインデータＤＢ２２に格納された新聞ドメインのテキスト集合に対して形態素解析を行い、形態素解析の結果から、シードとして、文字数が予め定めた閾値以下になる単語列、及び単語ｎｇｒａｍの出現頻度が閾値以上となる単語ｎｇｒａｍを抽出し、シードを正例データとする。なお、単語列、及び単語ｎｇｒａｍの何れか一方を抽出してシードとするようにしてもよい。

ここでは、新聞の自動解析結果は約９９％と高い精度であることが知られていることから、シードを新聞ドメインにおける解析結果から抽出する。入力が、「長期的に研究に取り組める環境の整備が求められるとしています」の場合、形態素解析の自動解析結果が「長期/的/に/研究/に/取り組める/環境/の/整備/が/求め/られ/る/と/し/て/いま/す」と得られる。上記自動解析結果の集合から、シードを抽出することができる。本実施の形態では、以下のように閾値を用いたシード抽出を行う。

閾値を単語ｎｇｒａｍの出現頻度としたシード抽出を行う場合について説明する。

この場合のシード抽出では、上記解析結果において、例えば、ｎｇｒａｍ頻度（例えば３ｇｒａｍ）が閾値以上となる単語ｎｇｒａｍ全てをシードとして抽出する。例えば、「長期/的/に」、「的/に/研究」などの単語ｎｇｒａｍ（ｎ＝３）が閾値以上で出現する場合には、これをシードとして抽出する。

次に、閾値を文字数としたシード抽出を行う場合について説明する。

この場合のシード抽出では、まず、新聞ドメインのテキストに対する構文解析の結果に基づいて、例えば、まずテキストを、文字数が予め定めた閾値以内になるように文節単位で分割する。閾値を１５文字以下とする場合は次のように２文に分割する。分割結果は「長期的/に/研究に/取り組める/環境の」、「整備が/求められると/しています/」となる。そして、上記分割された２文を形態素解析してそれぞれシードとする。形態素解析結果はそれぞれ「長期/的/に/研究/に/取り組める/環境/の」、「整備/が/求め/られ/る/と/し/て/い/ます/」という単語列になる。これによりシードの長さを制御することができる。また、形態素解析結果について、ｎｇｒａｍ頻度による閾値を併用して、文中の単語ｎｇｒａｍ頻度が閾値以上の単語列をシードとするようにしてもよい。

正例データ拡張部３２は、シード抽出部３０で抽出されたシードに含まれる単語を、別ドメインデータＤＢ２４に格納されているＴｗｉｔｔｅｒ（Ｒ）ドメインのテキストに含まれる単語に置き換え、置き換えた結果として得られる単語列が、Ｔｗｉｔｔｅｒ（Ｒ）ドメインのテキスト集合に予め定めた閾値以上出現する場合、置き換えた結果として得られる単語列を、正例データとして追加する。Ｔｗｉｔｔｅｒ（Ｒ）ドメインの置き換えに用いられる単語は、Ｔｗｉｔｔｅｒ（Ｒ）ドメインでの頻出単語とする。

このように正例データを拡張するのは、新聞ドメインのデータから抽出したシード（正例）のみでは、ドメインに偏りが出てしまうからである。つまり、新聞ドメインの正例データだけでは、新聞に出現する単語に偏ってしまい、マイクロブログ等に出現する単語を適切に識別できない可能性があるからである。このため、ドメイン依存性を少なくするため、正例データの拡張を行う。

例えば、入力となるシードが「読み書き/だけ/で/なく/」であれば、置換対象を単語「読み書き/サ変名詞」とする。この場合に、Ｔｗｉｔｔｅｒ（Ｒ）ドメインにおける、置換対象の単語と同一品詞となる頻出単語が「安定」、「練習」、「案内」であれば、「練習」に置換した結果として、「練習/だけ/で/なく/」が正例データの拡張候補として得られる。また、Ｔｗｉｔｔｅｒ（Ｒ）ドメインのテキスト集合に対して形態素解析を行い、ｎｇｒａｍ判定して、各単語ｎｇｒａｍの頻度を求めておき、上記の正例データの拡張候補について、Ｔｗｉｔｔｅｒ（Ｒ）ドメインにおける単語ｎｇｒａｍ頻度が予め定めた閾値以上であれば、正例データとして採用するようにしてもよい。

識別学習を行うためには負例データが必要であるため、負例データ拡張部３４において疑似的な負例データを生成する。

負例データ拡張部３４は、シード抽出部３０で抽出したシードである正例データ、及び正例データ拡張部３２で追加された正例データに対する形態素解析の結果に基づいて、部分文字列を置換した置換文字列を生成し、置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成する。

負例データ拡張部３４では、例えば、正例データに含まれる単語に対し、単語を読み（ひらがな）化した置換文字列や、予め定めたルールに基づいて部分文字列を置き換えた置換文字列を生成する。読みは、既存の辞書や既存の解析手法により自動的に取得したものを用いればよい。そして、負例データ拡張部３４では、生成した置換文字列を形態素解析し、解析結果の品詞列が、置換前の品詞列と一致しない場合は一致しない部分が解析誤りを起こしていると判定して、置換文字列に対する単語列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データとする。

例えば、入力となる正例データが「練習/だけ/で/なく/（サ変名詞/助詞/助動詞/助動詞）」であり、読み化の対象を「練習/（読み：れんしゅー）」とした場合、置換結果の置換文字列は、「れんしゅーだけでなく」となる。この置換文字列を形態素解析すると、「れん/し/ゅ/ー/だけ/で/なく/（名詞/動詞/名詞/名詞/助詞/助動詞/助動詞）」という解析結果が得られる。これを入力の正例データの元の品詞列と比較すると不一致箇所は「（名詞/動詞/名詞/名詞）/助詞/助動詞/助動詞」の丸括弧内の箇所であることがわかる。よって、誤り及び正解箇所をラベリングし、「れん(1)/し(1)/ゅ(1)/ー(1)/だけ(0)/で(0)/なく(0)/」というように、1（誤り箇所）/0（正解箇所）の２値ラベルを付けることで単語の連接が元の品詞列と一致しない箇所を特定し、負例データとして出力する。

上記の例では、読み化したデータで置換する事例を記載したが、文字列ルールを用いた置換を行ってもよい。例えば、「っ」「ー」の追加や、小文字化、音が類似している文字への変換（じ->ぢ，さ→しゃ，な→にゃ）など、既知のルールを用いて同様の操作を行うことで、置換文字列を生成し、多様な負例データを生成することができる。

例えば、入力となる正例データが「れんしゅう/だけ/で/なく/（サ変名詞/助詞/助動詞/助動詞）」であり、置換対象を「れんしゅう」とし「う->ぅ：小文字化」というルールの置換を適用した場合、置換結果の置換文字列は「れんしゅぅだけでなく」となる。この置換文字列を形態素解析すると、「れん/し/ゅぅ/だけ/で/なく/（名詞/動詞/名詞/助詞/助動詞/助動詞）」という解析結果が得られる。これを入力の正例データの元の品詞列と比較すると不一致箇所は「（名詞/動詞/名詞）/助詞/助動詞/助動詞」の丸括弧内の箇所であることがわかる。よって、誤り及び正解箇所をラベリングし、「れん(1)/し(1)/ゅぅ(1)/だけ(0)/で(0)/なく(0)/」というように２値ラベルをつけたデータを負例データとして出力する。

識別モデル学習部３６は、シード抽出部３０で抽出された正例データ、及び正例データ拡張部３２で拡張して追加された正例データと、負例データ拡張部３４で生成した負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習する。正例データには、全ての形態素に正解ラベル0を付与すればよい。本実施の形態では、単語連接識別モデルとして、図２に示すような系列を考慮して単語ごとにラベルを付与できるニューラルネットワークモデルである双方向ＬＳＴＭを用いてモデル化する。双方向ＬＳＴＭでは、単語ごとに、forward隠れ層、及びbackward隠れ層、出力層の直前の隠れ層、及び出力層を有し、forward隠れ層及びbackward隠れ層の入力として、当該単語の情報を含み、出力層直前の隠れ層の入力として、当該単語のforward隠れ層及びbackward隠れ層の出力を含む。なお、ＣＲＦなどの既存モデルを用いてもよい。学習した単語連接識別モデルは単語連接識別モデル４０として保持する。

＜本発明の実施の形態に係る単語連接識別モデル学習装置の作用＞

次に、本発明の実施の形態に係る単語連接識別モデル学習装置１００の作用について説明する。入力部１０において新聞ドメインのテキスト集合を受け付け、新聞ドメインデータＤＢ２２に格納し、Ｔｗｉｔｔｅｒ（Ｒ）ドメインのテキスト集合を受け付け、別ドメインデータＤＢ２４に格納すると、単語連接識別モデル学習装置１００は、図３に示す単語連接識別モデル学習処理ルーチンを実行する。

まず、ステップＳ１００では、新聞ドメインデータＤＢ２２に格納された新聞ドメインのテキスト集合に対して形態素解析を行い、形態素解析の結果から、シードとして、文字数が予め定めた閾値以下になる単語列、及び単語ｎｇｒａｍの出現頻度が閾値以上となる単語ｎｇｒａｍを抽出し、シードを正例データとする。

次に、ステップＳ１０２では、ステップＳ１００で抽出されたシードに含まれる単語を、別ドメインデータＤＢ２４に格納されているＴｗｉｔｔｅｒ（Ｒ）ドメインのテキストに含まれる頻出の単語に置き換え、置き換えた結果として得られる単語列が、Ｔｗｉｔｔｅｒ（Ｒ）ドメインのテキスト集合に予め定めた閾値以上出現する場合、置き換えた結果として得られる単語列を、正例データとして追加する。

ステップＳ１０４では、ステップＳ１００で抽出したシードである正例データ、及びステップＳ１０２で追加された正例データに対する形態素解析の結果に基づいて、置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成する。

ステップＳ１０６では、ステップＳ１００で抽出された正例データ、及びステップＳ１０２で拡張して追加された正例データと、ステップＳ１０４で生成した負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習し、単語連接識別モデル４０として保持する。

以上説明したように、本発明の実施の形態に係る単語連接識別モデル学習装置によれば、所定のドメインのテキスト集合に対して形態素解析を行い、形態素解析の結果から、予め定められた閾値を用いて得られる単語列をシードとして抽出し、シードを正例データとし、シードに含まれる単語を置き換えた置換文字列に対して形態素解析を行い、形態素解析の結果から、置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成し、正例データと、生成した負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習することにより、精度よく、単語の連接が自然であるか否かを識別できる単語連接識別モデルを学習することができる。

＜本発明の実施の形態に係る単語連接検出装置の構成＞

次に、本発明の実施の形態に係る単語連接検出装置の構成について説明する。図４に示すように、本発明の実施の形態に係る単語連接検出装置２００は、ＣＰＵと、ＲＡＭと、後述する単語連接検出処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この単語連接検出装置２００は、機能的には図４に示すように入力部２１０と、演算部２２０と、出力部２５０とを備えている。

入力部２１０は、単語の連接の自然性を判定する対象とするテキストを受け付ける。

演算部２２０は、解析部２３０と、単語連接検出部２３２と、単語連接識別モデル２４０とを含んで構成されている。

単語連接識別モデル２４０は、上記単語連接識別モデル学習装置１００によって学習された、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルである。

解析部２３０は、入力部２１０で受け付けたテキストを入力として、形態素解析を行う。

単語連接検出部２３２は、解析部２３０によって得られた形態素解析の結果に基づいて、単語連接識別モデル２４０を用いて、形態素解析の結果から得られる単語列における各単語について、単語の連接が自然であるか否かを示すラベルを付与することにより、単語の連接が自然であるか否かを検出し、検出結果を出力部２５０に出力する。

＜本発明の実施の形態に係る単語連接検出装置の作用＞

次に、本発明の実施の形態に係る単語連接検出装置２００の作用について説明する。入力部２１０においてテキストを受け付けると、単語連接検出装置２００は、図５に示す単語連接検出処理ルーチンを実行する。

まず、ステップＳ２００では、入力部２１０において受け付けたテキストを入力として、形態素解析を行う。

次に、ステップＳ２０２では、ステップＳ２００で得られた形態素解析の結果に基づいて、単語連接識別モデル２４０を用いて、形態素解析の結果から得られる単語列における各単語について、単語の連接が自然であるか否かを示すラベルを付与することにより、単語の連接が自然であるか否かを検出し、検出結果を出力部２５０に出力して処理を終了する。

以上説明したように、本発明の実施の形態に係る単語連接検出装置によれば、テキストを入力として、形態素解析を行い、形態素解析の結果に基づいて、単語列における単語の連接が自然であるか否かを識別するための予め学習された単語連接識別モデルを用いて、形態素解析の結果から得られる単語列における単語の連接が自然であるか否かを検出することにより、精度よく、単語の連接が自然であるか否かを識別できる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施の形態では、新聞ドメインを所定のドメイン、Ｔｗｉｔｔｅｒ（Ｒ）ドメインを別のドメインとして用いる場合を例に説明したが、これに限定されるものではなく、所定のドメインや別のドメインに他のドメインを用いるようにしてもよい。

例えば、上述した実施の形態では、正例データ拡張部３２によって、正例データを拡張する場合を例に説明したが、これに限定されるものではなく、正例データ拡張部３２の処理（ステップＳ１０２）をスキップして省略してもよい。

１０，２１０入力部
２０，２２０演算部
３０シード抽出部
３２正例データ拡張部
３４負例データ拡張部
３６識別モデル学習部
４０，２４０単語連接識別モデル
１００単語連接識別モデル学習装置
２００単語連接検出装置
２３０解析部
２３２単語連接検出部
２４０単語連接識別モデル
２５０出力部

Claims

所定のドメインのテキスト集合に対して形態素解析を行い、前記形態素解析の結果から、文字数が閾値以下になる単語列、及び単語ｎｇｒａｍの出現頻度が閾値以上となる単語列の少なくとも一方をシードとして抽出し、前記シードを正例データとするシード抽出部と、
前記シードに含まれる単語についての読みによる置換、又は所定の口語表現を表す文字の追加若しくは音の類似した文字への変換を含む文字列のルールにより置き換えた置換文字列に対して形態素解析を行い、前記形態素解析の結果から、前記置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成する負例データ拡張部と、
前記正例データと、生成した前記負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習する識別モデル学習部と、
を含む単語連接識別モデル学習装置。
前記シードに含まれる単語を、前記所定のドメインとは別のドメインのテキストに含まれる単語に置き換え、前記置き換えた結果として得られる単語列が、前記別のドメインのテキスト集合に予め定めた閾値以上出現する場合、前記置き換えた結果として得られる単語列を、正例データとして追加する正例データ拡張部を更に含む請求項１に記載の単語連接識別モデル学習装置。
テキストを入力として、形態素解析を行う解析部と、
前記解析部によって得られた形態素解析の結果に基づいて、単語列における単語の連接が自然であるか否かを識別するための予め請求項１又は請求項２に記載の単語連接識別モデル学習装置により学習された単語連接識別モデルを用いて、前記形態素解析の結果から得られる前記単語列における単語の連接が自然であるか否かを検出する単語連接検出部と、
を含む単語連接検出装置。
シード抽出部が、所定のドメインのテキスト集合に対して形態素解析を行い、前記形態素解析の結果から、文字数が閾値以下になる単語列、及び単語ｎｇｒａｍの出現頻度が閾値以上となる単語列の少なくとも一方をシードとして抽出し、前記シードを正例データとするステップと、
負例データ拡張部が、前記シードに含まれる単語についての読みによる置換、又は所定の口語表現を表す文字の追加若しくは音の類似した文字への変換を含む文字列のルールにより置き換えた置換文字列に対して形態素解析を行い、前記形態素解析の結果から、前記置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成するステップと、
識別モデル学習部が、前記正例データと、生成した前記負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習するステップと、
を含む単語連接識別モデル学習方法。
解析部が、テキストを入力として、形態素解析を行うステップと、
単語連接検出部が、前記解析部によって得られた形態素解析の結果に基づいて、単語列における単語の連接が自然であるか否かを識別するための予め請求項４に記載の単語連接識別モデル学習方法により学習された単語連接識別モデルを用いて、前記形態素解析の結果から得られる前記単語列における単語の連接が自然であるか否かを検出するステップと、
を含む単語連接検出方法。
コンピュータを、請求項１又は請求項２に記載の単語連接識別モデル学習装置の各部として機能させるためのプログラム。
コンピュータを、請求項３に記載の単語連接検出装置の各部として機能させるためのプログラム。