JP6558863B2 - Model creation device, estimation device, method, and program - Google Patents
Model creation device, estimation device, method, and program Download PDFInfo
- Publication number
- JP6558863B2 JP6558863B2 JP2016157059A JP2016157059A JP6558863B2 JP 6558863 B2 JP6558863 B2 JP 6558863B2 JP 2016157059 A JP2016157059 A JP 2016157059A JP 2016157059 A JP2016157059 A JP 2016157059A JP 6558863 B2 JP6558863 B2 JP 6558863B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- notation
- pair
- regular
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、モデル作成装置、推定装置、方法、及びプログラムに関する。 The present invention relates to a model creation device, an estimation device, a method, and a program.
従来より、正規表記語に対して揺らいだ表記である崩れ表記語を獲得するための手法が提案されている。教師データを用いた手法としては、非特許文献1及び非特許文献2に記載されている手法が挙げられる。非特許文献1では、略語ペアの獲得が行われる。また、非特許文献2では、特定単語の崩れ表記の獲得が行われる。 Conventionally, a method for acquiring a collapsed notation word, which is a distorted notation with respect to a regular notation word, has been proposed. Examples of the technique using the teacher data include techniques described in Non-Patent Document 1 and Non-Patent Document 2. In Non-Patent Document 1, an abbreviation pair is acquired. Further, in Non-Patent Document 2, acquisition of a collapsed notation of a specific word is performed.
教師データを用いない手法としては、非特許文献3及び非特許文献4に記載されている手法が挙げられる。非特許文献3では、カタカナ表記揺れの獲得が行われる。また、非特許文献4では、既存解析器の出力結果における未知語に着目した崩れ表記(正規化ルール)の獲得が行われる。非特許文献5に記載の技術では、意味類似度と音類似度に基づく同義語ペアの獲得が行われる。 Examples of methods that do not use teacher data include the methods described in Non-Patent Document 3 and Non-Patent Document 4. In Non-Patent Document 3, acquisition of katakana notation shaking is performed. Further, in Non-Patent Document 4, acquisition of a broken notation (normalization rule) focusing on an unknown word in an output result of an existing analyzer is performed. In the technique described in Non-Patent Document 5, a synonym pair is acquired based on a semantic similarity and a sound similarity.
上記非特許文献5に記載の技術では、正規表記語と崩れ表記語との複数候補が列挙された文書集合から単語分割候補を複数取得し、得られた単語分割候補中に出現した正規表記語(辞書に存在する表記)と分割候補中に現れた崩れ表記語(辞書に存在しない表記)との間の意味類似度と音類似度とを計算しフィルタリングを行う。この場合、下記(1)、(2)が満たされるようにフィルタリングが行われる。 In the technique described in Non-Patent Document 5, a plurality of word division candidates are acquired from a document set in which a plurality of candidates for regular notation words and collapsed notation words are listed, and regular notation words appearing in the obtained word division candidates Filtering is performed by calculating the semantic similarity and the sound similarity between the (notation existing in the dictionary) and the broken notation word (notation not existing in the dictionary) appearing in the division candidates. In this case, filtering is performed so that the following (1) and (2) are satisfied.
(1)正規表記語と崩れ表記語との意味類似度が予め定めた閾値以上であること
(2)正規表記語と崩れ表記語との音類似度が予め定めた閾値以上であること
(1) The semantic similarity between the regular notation word and the collapsed notation word is not less than a predetermined threshold. (2) The sound similarity between the regular notation word and the notation notation word is not less than a predetermined threshold.
なお、意味類似度は単語ごとの意味ベクトルのコサイン類似度を用いて計算される。また、音類似度距離は単語の読みに基づいて計算され、具体的には以下の(1)〜(3)に従って計算される。 The semantic similarity is calculated using the cosine similarity of the semantic vector for each word. The sound similarity distance is calculated based on the reading of the word, and specifically, is calculated according to the following (1) to (3).
(1)漢字表記は読み推定を行う
(2)カタカナ表記はひらがなに変換する
(3)コスト設定に基づいて音類似度が計算される。例えば、以下の(3−1)〜(3−4)に示すコスト設定例に応じて音類似度が計算される。
(1) Kanji notation is estimated by reading (2) Katakana notation is converted to hiragana (3) Sound similarity is calculated based on cost setting. For example, the sound similarity is calculated according to the cost setting examples shown in the following (3-1) to (3-4).
(3−1)同一文字の置換コストは0とする。
(3−2)母音、促音(っ)、撥音(ん)、長音の削除はコスト0とする。ただし、単語の先頭における削除はコスト1とする。
(3−3)同行・同列文字の置換、母音−促音間の置換、母音−長音間、母音−母音間の置換はコスト0とする。
(3−4)上記(3−1)〜(3−3)以外の変換はコスト1とする。
ただし、「母音」は、小文字も含む(ぁ,ぃ,ぅ,ぇ,ぉ)
また、「同行・同列」は、日本語ひらがな50音表の同行、同列を指す。濁音・半濁音は濁音・半濁音化する前の文字と同一の位置として考える(例えば、ぶ、ぷ→「ふ」と同行同列(はひふへほうくすつぬむゆる)の文字列をコスト0とする)。
(3-1) The replacement cost for the same character is assumed to be zero.
(3-2) Deletion of vowel, prompting sound (tsu), repellent sound (n), and long sound is assumed to have no cost. However, deletion at the beginning of a word is cost 1.
(3-3) Replacement of accompanying / same character, replacement between vowel and prompt sound, replacement between vowel and long sound, and replacement between vowel and vowel shall be zero.
(3-4) Conversions other than the above (3-1) to (3-3) are cost 1.
However, “vowels” include lowercase letters (Ah, I, H, E, H)
“Accompanying / same column” refers to the same column and column of the Japanese hiragana 50-syllabary table. The muddy sound / semi-turbid sound is considered to be the same position as the character before the muddy sound / semi-turbid sound is converted (for example, “bu”, “fu”) and the character string of the same line (hahifuhekutsutsumuyuru) cost 0).
しかし、上記説明した技術における、意味類似度及び音類似度の閾値を用いたフィルタ手法を用いる場合、多様な素性を用いて正規表記語と崩れ表記語とのペアの識別を行うことが難しく、略語やフレーズの高精度な識別が困難という問題がある。略語やフレーズの識別が困難である例を例1,2に示す。 However, in the above-described technique, when using a filter method using threshold values of semantic similarity and sound similarity, it is difficult to identify pairs of regular written words and broken written words using various features, There is a problem that it is difficult to identify abbreviations and phrases with high accuracy. Examples 1 and 2 show that it is difficult to identify abbreviations and phrases.
例1:セブン−セブンイレブン(正しいペア)
音類似度:0.57、意味類似度:0.76
例2:うれしい−嬉しいなあ(正しくないペア)
音類似度:0.8、意味類似度:0.80
Example 1: Seven-Eleven (correct pair)
Sound similarity: 0.57, semantic similarity: 0.76
Example 2: I'm happy-I'm happy (incorrect pair)
Sound similarity: 0.8, semantic similarity: 0.80
上記の例1、2に関しては、例2の方が音類似度、意味類似度がともに高いが、例1は正しいペア、例2は正しくないペアとして識別したい例である。 Regarding Examples 1 and 2 above, Example 2 is an example in which both sound similarity and semantic similarity are higher, but Example 1 is to be identified as a correct pair and Example 2 is identified as an incorrect pair.
この場合、音類似度と意味類似度との閾値以外のルールを導入しなければ両者を正しく識別することはできない。しかし、個別の事例を見ながらルールを設定するのは高コストである。 In this case, unless rules other than the threshold values of the sound similarity and the semantic similarity are introduced, the two cannot be correctly identified. However, it is expensive to set rules while looking at individual cases.
本発明は、上記問題点を解決するために成されたものであり、正規表記語と崩れ表記語との組み合わせであるか否かを精度よく推定することができるモデルを取得することができるモデル作成装置、方法、及びプログラムを提供することを目的とする。 The present invention has been made to solve the above-described problem, and is a model capable of acquiring a model capable of accurately estimating whether or not a combination of a regular notation word and a collapsed notation word. An object is to provide a creation device, a method, and a program.
また、本発明は、正規表記語と崩れ表記語との組み合わせであるか否かを精度よく推定することができる推定装置、方法、及びプログラムを提供することを目的とする。 It is another object of the present invention to provide an estimation device, method, and program capable of accurately estimating whether or not a combination of a regular notation word and a collapsed notation word.
上記目的を達成するために、第1の発明に係るモデル作成装置は、正規表記語に対して揺らいだ表記である崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成する単語分割部と、前記単語分割部によって生成された複数の前記分割候補に基づいて、各単語の意味ベクトルを計算する意味ベクトル計算部と、複数の正規表記語が格納された辞書に基づいて、前記正規表記語と該正規表記語に対応する前記崩れ表記語とは異なる語とのペアを表す負例データを生成する負例生成部と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々について、前記正例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記負例データの各々について、前記負例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成するモデル作成部と、を含んで構成されている。 In order to achieve the above object, the model creation device according to the first aspect of the present invention provides a word division candidate from the text for each of a plurality of texts including a collapsed notation word that is a fluctuation notation with respect to a regular notation word. A plurality of generated word dividing units; a semantic vector calculating unit that calculates a semantic vector of each word based on the plurality of division candidates generated by the word dividing unit; and a dictionary that stores a plurality of regular notation words A negative example generation unit that generates a negative example data representing a pair of the regular notation word and a word different from the collapsed notation word corresponding to the regular notation word, and corresponds to the normal notation word and the normal notation word For each of predetermined positive example data representing a pair with the collapsed notation word, the similarity of the meaning of the pair calculated based on each of the pair semantic vectors represented by the positive example data is On the basis of the features including the semantic similarity of the pair and the features including the semantic similarity of the pair calculated for each of the negative example data based on the semantic vectors of the pair represented by the negative example data. And a model creation unit that creates a model for estimating whether or not a combination of a regular notation word and a collapsed notation word corresponding to the regular notation word.
第2の発明に係るモデル作成方法は、単語分割部、意味ベクトル計算部、負例生成部、及びモデル作成部を含むモデル作成装置におけるモデル作成方法であって、前記単語分割部が、正規表記語に対して揺らいだ表記である崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成するステップと、前記意味ベクトル計算部が、前記単語分割部によって生成された複数の前記分割候補に基づいて、各単語の意味ベクトルを計算するステップと、前記負例生成部が、複数の正規表記語が格納された辞書に基づいて、前記正規表記語と該正規表記語に対応する前記崩れ表記語とは異なる語とのペアを表す負例データを生成するステップと、前記モデル作成部が、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々について、前記正例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記負例データの各々について、前記負例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成するステップと、を含む。 A model creation method according to a second aspect of the present invention is a model creation method in a model creation device including a word division unit, a semantic vector calculation unit, a negative example generation unit, and a model creation unit, wherein the word division unit includes a normal notation A step of generating a plurality of word division candidates from the text for each of a plurality of texts including a collapsed notation word that is a distorted notation for the word, and the semantic vector calculation unit is generated by the word division unit A step of calculating a semantic vector of each word based on the plurality of division candidates; and the negative example generation unit, based on a dictionary in which a plurality of regular notation words are stored, the regular notation word and the normal notation word Generating negative example data representing a pair of words different from the collapsed notation word corresponding to the normal notation word and the collapsed word corresponding to the regular notation word. Semantic similarity indicating the similarity of the meaning of the pair, calculated based on each of the semantic vectors of the pair represented by the positive example data, for each of the predetermined positive example data representing the pair with the word For each of the negative example data, and a feature including the semantic similarity of the pair calculated based on each of the pair semantic vectors represented by the negative example data. And creating a model for estimating whether or not the combination is a combination of the collapsed notation word corresponding to the regular notation word.
第3の発明に係る推定装置は、複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部と、正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成する単語分割部と、前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算する意味ベクトル計算部と、前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記モデル記憶部に記憶された前記モデルとに基づいて、前記分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する推定部と、を含んで構成されている。 The estimation apparatus according to the third invention represents a pair of a normal notation word and a word different from the corrupted notation word corresponding to the normal notation word, generated based on a dictionary storing a plurality of normal notation words. For each negative example data, a feature including a semantic similarity representing the similarity of the meaning of the pair calculated from each of the semantic vectors of the pair represented by the negative example data, a normal notation word, and the normal notation The semantic similarity of the pair calculated from each of the pair semantic vectors represented by the positive example data for each of the predetermined positive example data representing a pair with the collapsed notation word corresponding to a word. A model storage unit for storing a model for estimating whether or not a combination of a regular notation word and a collapsed notation word is created in advance from the features to be included, and a plurality including a collapsed notation word corresponding to the regular notation word Each of the text A word dividing unit that generates a plurality of word division candidates from the text, a semantic vector calculation unit that calculates a word semantic vector based on the plurality of division candidates generated by the word dividing unit, and the division For each of the candidate pairs, a feature including a semantic similarity representing the similarity of the meaning of the pair, calculated based on each of the semantic vectors of the pair of split candidates, and the feature stored in the model storage unit And an estimation unit that estimates whether or not the combination of the division candidates is a combination of a regular notation word and a collapsed notation word based on a model.
第4の発明に係る推定方法は、単語分割部、意味ベクトル計算部、推定部、及び複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部を含む推定装置における推定方法であって、前記単語分割部が、正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成するステップと、前記意味ベクトル計算部が、前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算するステップと、前記推定部が、前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記モデル記憶部に記憶された前記モデルとに基づいて、前記分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定するステップと、を含む。 The estimation method according to the fourth invention corresponds to a normal notation word and a normal notation word generated based on a word division unit, a semantic vector calculation unit, an estimation unit, and a dictionary storing a plurality of normal notation words. For each negative example data representing a pair with a word different from the collapsed notation word, the semantic similarity representing the similarity of the meaning of the pair calculated from each of the pair semantic vectors represented by the negative example data The meaning vector of the pair and the semantic vector of the pair represented by the positive example data for each of the predetermined positive example data representing a pair of a feature including a degree, a regular written word and the collapsed written word corresponding to the regular written word A model storage unit for storing a model for estimating whether or not a combination of a regular notation word and a collapse notation word is created in advance from the features including the semantic similarity of the pair calculated from each Including estimation equipment In this estimation method, the word dividing unit generates a plurality of word division candidates from the text for each of a plurality of texts including a corrupted written word corresponding to a regular written word; and the semantic vector calculating unit Calculating a semantic vector of a word based on the plurality of division candidates generated by the word division unit, and the estimation unit means the meaning of the pair of division candidates for each of the pair of division candidates Based on the features including the semantic similarity indicating the similarity of the meaning of the pair, calculated based on each of the vectors, and the model stored in the model storage unit, the combination of the division candidates is represented as a normal notation. Estimating whether it is a combination of a word and a broken notation word.
第5の発明に係る推定装置は、複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部と、正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成する単語分割部と、前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算する意味ベクトル計算部と、前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度に基づいて、前記分割候補の各々について、前記分割候補と類似する前記分割候補からなる近傍ノードリストを生成し、前記分割候補の各々について、各近傍ノードリストに対するランダムウォークを実施し、前記分割候補に対する隣接候補の集合を取得するランダムウォーク部と、前記分割候補と、前記ランダムウォーク部によって取得された前記隣接候補の集合に含まれる前記隣接候補との組み合わせについて、前記モデル記憶部に記憶された前記モデルと、前記組み合わせの意味ベクトルの各々に基づいて算出される、前記意味類似度を含む素性とに基づいて、前記組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する推定部と、を含んで構成されている。 An estimation device according to a fifth aspect of the present invention represents a pair of a normal notation word and a word different from the corrupted notation word corresponding to the normal notation word, generated based on a dictionary storing a plurality of normal notation words. For each negative example data, a feature including a semantic similarity representing the similarity of the meaning of the pair calculated from each of the semantic vectors of the pair represented by the negative example data, a normal notation word, and the normal notation The semantic similarity of the pair calculated from each of the pair semantic vectors represented by the positive example data for each of the predetermined positive example data representing a pair with the collapsed notation word corresponding to a word. A model storage unit for storing a model for estimating whether or not a combination of a regular notation word and a collapsed notation word is created in advance from the features to be included, and a plurality including a collapsed notation word corresponding to the regular notation word Each of the text A word dividing unit that generates a plurality of word division candidates from the text, a semantic vector calculation unit that calculates a word semantic vector based on the plurality of division candidates generated by the word dividing unit, and the division For each candidate pair, based on the semantic similarity representing the similarity of the meaning of the pair, calculated based on each of the semantic vectors of the split candidate pair, the split candidate for each of the split candidates Generating a neighboring node list composed of the division candidates similar to the above, performing a random walk on each of the neighboring node lists for each of the division candidates, and obtaining a set of adjacent candidates for the division candidates; and A division candidate and the adjacent candidate included in the set of adjacent candidates acquired by the random walk unit; For a combination, the combination is converted into a normal notation word and a collapsed notation based on the model stored in the model storage unit and a feature including the semantic similarity calculated based on each of the semantic vectors of the combination. And an estimation unit that estimates whether or not a combination with a word is included.
第6の発明に係る推定方法は、単語分割部、意味ベクトル計算部、ランダムウォーク部、推定部、及び複数の正規表記語が格納された辞書に基づいて生成された、正規表記語と該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データの各々についての、前記負例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々についての、前記正例データが表す前記ペアの意味ベクトルの各々から算出される、前記ペアの意味類似度を含む素性とから予め作成された、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを記憶するモデル記憶部を含む推定装置における推定方法であって、前記単語分割部が、正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成するステップと、前記意味ベクトル計算部が、前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算するステップと、前記ランダムウォーク部が、前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度に基づいて、前記分割候補の各々について、前記分割候補と類似する前記分割候補からなる近傍ノードリストを生成し、前記分割候補の各々について、各近傍ノードリストに対するランダムウォークを実施し、前記分割候補に対する隣接候補の集合を取得するステップと、前記推定部が、前記分割候補と、前記ランダムウォーク部によって取得された前記隣接候補の集合に含まれる前記隣接候補との組み合わせについて、前記モデル記憶部に記憶された前記モデルと、前記組み合わせの意味ベクトルの各々に基づいて算出される、前記意味類似度を含む素性とに基づいて、前記組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定するステップと、を含む。 An estimation method according to a sixth aspect of the present invention includes a word division unit, a semantic vector calculation unit, a random walk unit, an estimation unit, and a normal notation word generated based on a dictionary storing a plurality of normal notation words and the normal notation The similarity degree of the meaning of the pair calculated from each of the semantic vectors of the pair represented by the negative example data for each of the negative example data representing a pair with a word different from the collapsed written word corresponding to the written word The pair represented by the positive example data for each of predetermined positive example data representing a pair of a feature including a semantic similarity representing a normal notation word and the collapsed notation word corresponding to the normal notation word A model for estimating whether or not a combination of a regular notation word and a collapsed notation word is created from the features including the semantic similarity of the pair calculated from each of the meaning vectors of model An estimation method in an estimation device including a memory unit, wherein the word segmentation unit generates a plurality of word segmentation candidates from the text for each of a plurality of texts including a corrupted notation word corresponding to a regular notation word; The semantic vector calculation unit calculates a word semantic vector based on the plurality of division candidates generated by the word division unit; and Based on the semantic similarity representing the similarity of the meaning of the pair, calculated based on each semantic vector of the pair of division candidates, for each of the division candidates, from the division candidates similar to the division candidate A neighboring node list is generated, a random walk is performed on each of the neighboring candidates for each neighboring node list, and A step of acquiring a set of adjacent candidates for the candidate; and the model storage unit for a combination of the division candidate and the adjacent candidate included in the set of adjacent candidates acquired by the random walk unit Whether the combination is a combination of a regular notation word and a collapse notation word based on the model stored in the above and a feature including the meaning similarity calculated based on each of the semantic vectors of the combination Estimating whether or not.
また、前記負例データは、前記辞書に格納された正規表記語と、該正規表記語とは異なる正規表記語とのペア、前記辞書に格納された活用形をもつ正規表記語と、該正規表記語の活用形とは異なる活用形の正規表記語とのペア、及び前記辞書からランダムに選択された正規表記語と、該正規表記語の品詞に対して予め定められたサフィックスが該正規表記語に結合された語とのペアの少なくとも1つとして生成されるようにすることができる。 The negative example data includes a pair of a normal notation word stored in the dictionary and a normal notation word different from the normal notation word, a normal notation word having a utilization form stored in the dictionary, and the normal notation word. A pair of regular notation words different from the notation form of the notation word, a regular notation word randomly selected from the dictionary, and a suffix predetermined for the part of speech of the regular notation word are the normal notation. It can be generated as at least one of a pair of words combined with a word.
第7の発明に係るプログラムは、上記モデル作成装置又は上記推定装置の各部として機能させるためのプログラムである。 A program according to a seventh aspect is a program for causing each model to function as each part of the model creation device or the estimation device.
本発明のモデル作成装置、方法、及びプログラムによれば、複数の正規表記語が格納された辞書に基づいて負例データを生成し、正例データが表すペアの意味類似度を含む素性と、負例データが表すペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成することにより、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを取得することができる、という効果が得られる。 According to the model creation device, method, and program of the present invention, a negative example data is generated based on a dictionary in which a plurality of regular notation words are stored, and a feature including a semantic similarity of a pair represented by the positive example data; Creating a model for estimating whether a combination of a regular notation word and a collapsed notation word corresponding to the regular notation word based on the feature including the semantic similarity of the pair represented by the negative example data Thus, an effect is obtained that a model for estimating whether or not a combination of a regular notation word and a collapse notation word can be acquired.
本発明の推定装置、方法、及びプログラムによれば、単語の分割候補のペアの各々について、分割候補のペアの意味ベクトルの各々に基づいて算出される、ペアの意味類似度を含む素性と、モデル記憶部に記憶されたモデルとに基づいて、分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定することにより、正規表記語と崩れ表記語との組み合わせであるか否かを精度よく推定することができる、という効果が得られる。 According to the estimation apparatus, method, and program of the present invention, for each pair of word division candidates, a feature including a pair semantic similarity calculated based on each of the semantic vectors of the division candidate pairs; Based on the model stored in the model storage unit, by estimating whether the combination of division candidates is a combination of a regular notation word and a collapsed notation word, There is an effect that it can be accurately estimated whether or not there is.
<本発明の実施の形態の概要>
本実施の形態は、既存の辞書に存在しないweb上の崩れ表記語を自動的に獲得するための技術である。辞書に存在する語「すごい‐形容詞」に対応する崩れ表記語の自動獲得例を図1に示す。図1に示すように、「すごい」に対して「すげー」、「すげぇ」、「すげえ」、「すっごい」、及び「すーごい」等が崩れ表記語として獲得される。
<Outline of Embodiment of the Present Invention>
This embodiment is a technique for automatically acquiring a collapsed notation word on a web that does not exist in an existing dictionary. FIG. 1 shows an example of automatic acquisition of a collapsed notation word corresponding to the word “great-adjective” existing in the dictionary. As shown in FIG. 1, “great”, “great”, “great”, “great”, “great” and the like are acquired as collapsed notation words for “great”.
本実施の形態では、以下に示すように用語を定義する。 In the present embodiment, terms are defined as shown below.
正規表記語:辞書に存在する語
崩れ表記語:辞書に存在せず、正規表記語の異形として出現する表記の語
同義語ペア:同一の意味で表記が異なる単語のペア
正例データ:正規表記語と崩れ表記語との正解のペアデータ
負例データ:正規表記語と崩れ表記語との不正解のペアデータ
Regular notation word: Word break notation existing in the dictionary: Word synonym pair that does not exist in the dictionary and appears as a variant of the normal notation word: Pair of words that have the same meaning but different notation Positive data: Regular notation Pair data of correct answer between word and collapsed notation data Negative example data: Pair data of incorrect answer between regular notation and collapsed notation word
崩れ表記語は様々であり、例えば、図2に示すように、口語調、小書き文字、カタナカ化、及びひらがな化の崩れ表記語が存在する。 There are various collapse notation words. For example, as shown in FIG. 2, there are collapse notation words in colloquial style, small letters, katakana, and hiragana.
本実施の形態では、正規表記語と崩れ表記語との組み合わせを識別する際に、複数の素性を考慮しなければうまく識別できない例に関しても精度よく識別を行うために、正解データを用いたモデルを導入する。 In this embodiment, when identifying a combination of a regular notation word and a collapsed notation word, a model using correct data is used to accurately identify an example that cannot be well identified without considering a plurality of features. Is introduced.
以下、図面を参照して本発明の実施の形態を詳細に説明する。本発明を、正規表記語と当該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成するモデル作成装置と、作成されたモデルを用いて対応する正規表記語と崩れ表記語との組み合わせを推定する推定装置とに適用した場合を例に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. A model creation device for creating a model for estimating whether the present invention is a combination of a regular notation word and a collapsed notation word corresponding to the regular notation word, and a corresponding normality using the created model The case where it applies to the estimation apparatus which estimates the combination of a written word and a collapsed written word is demonstrated to an example.
<本発明の実施の形態に係るモデル作成装置の構成> <Configuration of Model Creation Device According to Embodiment of the Present Invention>
本発明の実施の形態に係るモデル作成装置の構成について説明する。図3に示すように、本発明の実施の形態に係るモデル作成装置100は、CPUと、RAMと、後述するモデル作成処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル作成装置100は、機能的には図3に示すように第1入力部10と、第2入力部12と、演算部20とを備えている。 The configuration of the model creation device according to the embodiment of the present invention will be described. As shown in FIG. 3, a model creation apparatus 100 according to an embodiment of the present invention includes a CPU, a RAM, and a ROM that stores a program for executing a model creation processing routine described later and various data. Can be configured with a computer. Functionally, the model creating apparatus 100 includes a first input unit 10, a second input unit 12, and a calculation unit 20, as shown in FIG.
第1入力部10は、正規表記語と該正規表記語に対応する崩れ表記語とのペアを表す予め定められた複数の正例データを受け付ける。第2入力部12は、正規表記語に対して揺らいだ表記である崩れ表記語を含む複数のテキストであるテキスト群を受け付ける。 The first input unit 10 receives a plurality of predetermined positive example data representing a pair of a regular written word and a broken written word corresponding to the regular written word. The second input unit 12 accepts a text group that is a plurality of texts including a collapsed notation word that is a fluctuating notation with respect to a regular notation word.
演算部20は、辞書21と、負例生成部22と、単語分割部24と、意味ベクトル計算部26と、類似度算出部28と、モデル作成部30と、モデル記憶部32とを含んで構成されている。 The calculation unit 20 includes a dictionary 21, a negative example generation unit 22, a word division unit 24, a semantic vector calculation unit 26, a similarity calculation unit 28, a model creation unit 30, and a model storage unit 32. It is configured.
辞書21には、複数の正規表記語が格納されている。辞書21としては、一般的な形態素解析辞書を想定する。辞書21には、正規表記語の表記、品詞、読みなどの情報が格納されている。ここで、辞書21に存在している語を全て「正規表記語」と定義する(崩れ表記語は辞書21に存在しない語)。例えばJtag辞書(出願人が整備している辞書)に格納されている情報の一例を以下に示す。 The dictionary 21 stores a plurality of regular notation words. As the dictionary 21, a general morphological analysis dictionary is assumed. The dictionary 21 stores information on regular notation words, parts of speech, readings, and the like. Here, all the words existing in the dictionary 21 are defined as “regular notation words” (the collapse notation words are words that do not exist in the dictionary 21). For example, an example of information stored in a Jtag dictionary (a dictionary maintained by the applicant) is shown below.
かっぱ-寿司,名詞:固有:組織,100,カッパ'-ズシ,,,,,374:428,88 Kappa-Sushi, Noun: Proper: Organization, 100, Kappa'-Zushi ,,,,, 374: 428,88
負例生成部22は、辞書21に格納された複数の正規表記語に基づいて、正規表記語と当該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データを生成する。 The negative example generation unit 22 generates negative example data representing a pair of a normal notation word and a word different from the corrupted notation word corresponding to the normal notation word based on a plurality of normal notation words stored in the dictionary 21. To do.
正規表記語と当該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成する際には、負例データがないと学習することができない。他の正例データを負例データとして利用する方法もあるが、人が作成する正例データは少ない傾向があり、負例データのバリエーションをカバーすることができない。 When a model for estimating whether or not a combination of a regular notation word and a collapse notation word corresponding to the regular notation word is created, learning cannot be performed without negative example data. Although there is a method of using other positive example data as negative example data, there is a tendency that the number of positive example data created by a person is small, and variations of negative example data cannot be covered.
そこで、本実施の形態では、辞書に格納された語である辞書語や活用形、高頻度な表記など使用することで正例データに出現しないバリエーションを生成するため、バリエーションが多い負例データの生成が可能となり、モデルによる推定の精度を高めることができる。負例であることが自明であるパターンのみを負例データとして生成する。 Therefore, in the present embodiment, variations that do not appear in the positive example data are generated by using dictionary words that are words stored in the dictionary, usage forms, high-frequency notation, etc. Generation is possible, and the accuracy of estimation by the model can be improved. Only patterns that are obvious to be negative examples are generated as negative example data.
例えば、負例生成部22は、下記の複数の条件(1)〜(3)に基づき、負例データを生成する。 For example, the negative example generation unit 22 generates negative example data based on the following plurality of conditions (1) to (3).
(1)辞書21に格納された特定の正規表記語に対して、特定の正規表記語とは異なる正規表記語をランダムに選択し、特定の正規表記語とランダムに選択された正規表記語とのペアを負例データとして生成する。例えば、「やばい−おはよう」等が負例データとして生成される。 (1) For a specific regular expression word stored in the dictionary 21, a regular expression word different from the specific regular expression word is randomly selected, and the specific regular expression word and the regular expression word randomly selected Are generated as negative example data. For example, “Yabai-Good morning” is generated as negative example data.
(2)辞書21に格納された活用形をもつ特定の正規表記語に対して、特定の正規表記語の活用形が異なる活用形の正規表記語を生成し、特定の正規表記語と異なる活用形の正規表記語とのペアを負例データとして生成する。例えば、「うれしい−うれしく」等が負例データとして生成される。 (2) For a specific regular expression word having a utilization form stored in the dictionary 21, a regular expression word having a utilization form different from the utilization form of the specific regular expression word is generated and utilized differently from the specific regular expression word. A pair with a regular expression word in the form is generated as negative example data. For example, “happy-happy” or the like is generated as negative example data.
(3)辞書21からランダムに選択された特定の正規表記語に対して、特定の正規表記語の品詞に対して予め定められたサフィックスが当該特定の正規表記語に結合された語を生成し、特定の正規表記語とサフィックスが当該特定の正規表記語に結合された語とのペアを負例データとして生成する。例えば、「私−私は」等が負例データとして生成される。なお、予め定められたサフィックスとしては、高頻度なひらがなサフィックスを用いることができる。高頻度なサフィックスの求め方としては、下記の非特許文献参6等を参考に品詞ごとにあらかじめ抽出しておく。 (3) For a specific regular expression word randomly selected from the dictionary 21, a word in which a suffix predetermined for the part of speech of the specific regular expression word is combined with the specific regular expression word is generated. A pair of a specific regular expression word and a word in which a suffix is combined with the specific regular expression word is generated as negative example data. For example, “I-I am” is generated as negative example data. As a predetermined suffix, a high-frequency hiragana suffix can be used. As a method for obtaining a high-frequency suffix, it is extracted in advance for each part of speech with reference to the following non-patent literature reference 6 and the like.
非特許文献6:村脇ら,“形態論制約を用いた未知語の自動獲得”,言語処理学会第14回年次大会発表論文集 Non-Patent Document 6: Murawaki et al., “Automatic Acquisition of Unknown Words Using Morphological Constraints”, Proc. Of the 14th Annual Conference of the Language Processing Society of Japan
正例データから生成された負例データの一例を図4に示す。図4に示すように、左側に示す予め収集した正例データから、右側に示すような負例データが生成される。なお、負例生成部22は、第1入力部10により受け付けた複数の正例データを用いて、生成された負例データと正例データとを比較し、負例データが正例データと合致する場合には、当該負例データを除外する処理を行っても良い。 An example of negative example data generated from positive example data is shown in FIG. As shown in FIG. 4, negative example data as shown on the right side is generated from previously collected positive example data shown on the left side. The negative example generation unit 22 compares the generated negative example data with the positive example data using a plurality of positive example data received by the first input unit 10, and the negative example data matches the positive example data. In this case, a process for excluding the negative example data may be performed.
単語分割部24は、第2入力部12により受け付けたテキスト群のテキストの各々について、テキストから単語の分割候補を複数生成し、分割済みコーパスを生成する。 The word dividing unit 24 generates a plurality of word division candidates from the text for each text in the text group received by the second input unit 12 and generates a divided corpus.
単語分割部24は、辞書21に存在しない崩れ表記語についても区切り候補として出力できるような手法を用いる。例えば、単語分割部24は、点推定を用いた単語分割手法、教師なし解析を用いた単語分割手法、又は形態素解析器のフリーソフトであるMecab等の解析結果を、予め定めたルールを元に一部結合させた候補を生成する手法のような、既存の単語分割手法を用いることができる。ここでMecab等の解析結果を予め定めたルールを元に一部結合させた候補を生成する手法では、未知語連続は結合する、名詞連続は結合するなどの予め定めたルールを用いることができる。 The word division unit 24 uses a technique that can output a broken notation word that does not exist in the dictionary 21 as a break candidate. For example, the word division unit 24 uses the word division method using point estimation, the word division method using unsupervised analysis, or the analysis result of Mecab, which is free software of the morphological analyzer, based on a predetermined rule. Existing word segmentation techniques, such as techniques for generating partially combined candidates, can be used. Here, in the method of generating a candidate that partially combines analysis results such as Mecab based on a predetermined rule, it is possible to use predetermined rules such as combining unknown word continuations and noun continuations. .
意味ベクトル計算部26は、単語分割部24によって生成された複数の分割候補に基づいて、各単語の意味ベクトルを計算する。 The semantic vector calculation unit 26 calculates the semantic vector of each word based on the plurality of division candidates generated by the word division unit 24.
意味ベクトル計算部26は、分割候補である各単語の意味ベクトルを求める手法として、下記の参考文献に記載のword2vec等、既存の手法を用いることができる。 The semantic vector calculation unit 26 can use an existing method such as word2vec described in the following reference as a method for obtaining the semantic vector of each word that is a division candidate.
参考文献:Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean., "Efficient Estimation of Word Representations in Vector Space.", In Proceedings of Workshop at ICLR, 2013. References: Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean., "Efficient Estimation of Word Representations in Vector Space.", In Proceedings of Workshop at ICLR, 2013.
類似度算出部28は、意味ベクトル計算部26によって計算された各単語の意味ベクトルに基づいて、単語のペアの各々に対し、単語のペアの意味の類似度を表す意味類似度を算出する。また、類似度算出部28は、単語の音の各々に基づいて、単語のペアの各々に対し、単語のペアの音の類似度を表す音類似度を算出する。なお、音類似度の算出方法としては、例えば上記非特許文献5の手法を用いることができる。 Based on the meaning vector of each word calculated by the semantic vector calculation unit 26, the similarity calculation unit 28 calculates a semantic similarity representing the similarity of the meaning of the word pair for each word pair. In addition, the similarity calculation unit 28 calculates a sound similarity representing the similarity of the sound of the word pair for each of the word pairs based on each of the sound of the words. As a method for calculating the sound similarity, for example, the method of Non-Patent Document 5 can be used.
モデル作成部30は、類似度算出部28によって算出された、第1入力部10により受け付けた正例データが表す正規表記語と崩れ表記語とのペアの各々についての意味類似度及び音類似度を含む素性と、負例生成部22によって生成された負例データが表す正規表記語と当該正規表記語に対応する崩れ表記語とは異なる語とのペアの各々についての意味類似度及び音類似度を含む素性とに基づいて、正規表記語と当該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成する。 The model creation unit 30 calculates the semantic similarity and the sound similarity for each pair of the regular written word and the broken written word represented by the positive example data received by the first input unit 10 calculated by the similarity calculating unit 28. , Meaning similarity and sound similarity for each of a pair of a normal notation word represented by the negative example data generated by the negative example generation unit 22 and a word different from the corrupted notation word corresponding to the normal notation word Based on the feature including the degree, a model for estimating whether or not the combination of the normal notation word and the collapsed notation word corresponding to the normal notation word is created.
なお、本実施の形態では、素性として意味類似度及び音類似度を用いる場合を例に説明するが、他の情報が素性に含まれていてもよい。例えば、先頭文字の変換有無、後続差分文字列、及び正規表記語候補の品詞等が素性に含まれていてもよい。なお、後続差分文字列の素性は、例えば上記非特許文献6に記載の方法を用いて作成することができる。 In this embodiment, a case where semantic similarity and sound similarity are used as features will be described as an example. However, other information may be included in the features. For example, the presence / absence of conversion of the first character, the subsequent difference character string, and the part of speech of the regular notation word candidate may be included in the feature. Note that the feature of the subsequent difference character string can be created using the method described in Non-Patent Document 6, for example.
モデル記憶部32には、モデル作成部30によって作成されたモデルが記憶される。 The model created by the model creation unit 30 is stored in the model storage unit 32.
図5に、モデル作成装置100の処理の流れを説明するための図を示す。図5に示すように、正例データ(例えば、W1−W5,W3−W7)が第1入力部10により入力されると、負例生成部22は、辞書21に格納された情報を用いて、負例データ(例えば、W1−W7)を生成する。 FIG. 5 is a diagram for explaining the flow of processing of the model creation apparatus 100. As shown in FIG. 5, when positive example data (for example, W1-W5, W3-W7) is input by the first input unit 10, the negative example generation unit 22 uses the information stored in the dictionary 21. , Negative example data (for example, W1-W7) is generated.
次に、テキスト群Aが第2入力部12により入力されると、単語分割部24は、処理1として、テキスト群のテキストから単語の分割候補B(W1,・・・,Wn)を生成する。また、単語分割部24は、処理1として、テキスト群Aから分割済みコーパスを生成する。そして、意味ベクトル計算部26は、処理2として、単語区切りが付与されたテキスト群である分割済みコーパスに対し、単語の分割候補として出現した各単語(W1,・・・,Wn)について、当該単語の意味ベクトルを計算する。 Next, when the text group A is input by the second input unit 12, the word dividing unit 24, as a process 1, extracts word division candidates B (W 1 ,..., W n ) from the text in the text group. Generate. Further, the word dividing unit 24 generates a divided corpus from the text group A as process 1. Then, as the processing 2, the semantic vector calculation unit 26 processes each word (W 1 ,..., W n ) that appears as a word division candidate with respect to the divided corpus that is a text group to which a word break is given. The semantic vector of the word is calculated.
次に、類似度算出部28は、単語の音の各々に基づいて、単語の組み合わせの各々に対し音類似度を算出する。なお、組み合わせの各々に対する音類似度は行列Cで表現され、単語(W1,・・・,Wn)の組み合わせに対して音類似度が行列Cの各要素に格納される。 Next, the similarity calculation unit 28 calculates the sound similarity for each word combination based on each word sound. Note that the sound similarity for each combination is represented by a matrix C, and the sound similarity is stored in each element of the matrix C for a combination of words (W 1 ,..., W n ).
また、類似度算出部28は、単語の意味ベクトルの各々に基づいて、分割候補の組み合わせの各々に対し意味類似度を算出する。なお、組み合わせの各々に対する意味類似度は行列Dで表現され、単語(W1,・・・,Wn)の組み合わせに対して意味類似度が行列Dの各要素に格納される。 Also, the similarity calculation unit 28 calculates the semantic similarity for each combination of division candidates based on each word semantic vector. The semantic similarity for each combination is represented by a matrix D, and the semantic similarity is stored in each element of the matrix D for the combination of words (W 1 ,..., W n ).
なお、音類似度の行列C及び意味類似度の行列Dに替えて、ランダムウォークが実施された類似度行列Rを用いてもよい。類似度行列Rについては後述する。 Instead of the sound similarity matrix C and the semantic similarity matrix D, a similarity matrix R subjected to random walk may be used. The similarity matrix R will be described later.
そして、モデル作成部30は、意味類似度の行列C及び音類似度の行列Dの各要素を含む素性と、負例データと、正例データとに基づいて、正規表記語と当該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成する。そして、作成されたモデルがモデル記憶部32に格納される。なお、図5に示すように、素性には、後続差分文字列、及び正規表記語候補の品詞等が素性に含まれていてもよい。また、後続差分文字列の素性は、例えば上記非特許文献6に記載の方法を用いて作成することができる。 Then, the model creation unit 30 calculates the regular notation word and the normal notation word based on the features including the elements of the semantic similarity matrix C and the sound similarity matrix D, the negative example data, and the positive example data. A model for estimating whether or not a combination with the collapsed notation word corresponding to is created. Then, the created model is stored in the model storage unit 32. As shown in FIG. 5, the feature may include a subsequent difference character string, a part of speech of a normal notation word candidate, and the like. Further, the feature of the subsequent difference character string can be created by using the method described in Non-Patent Document 6, for example.
<本発明の実施の形態に係る推定装置の構成> <Configuration of estimation apparatus according to embodiment of the present invention>
次に、本発明の実施の形態に係る推定装置の構成について説明する。図6に示すように、本発明の実施の形態に係る推定装置200は、CPUと、RAMと、後述する推定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この推定装置200は、機能的には図6に示すように入力部40と、演算部50と、出力部70を備えている。 Next, the configuration of the estimation apparatus according to the embodiment of the present invention will be described. As shown in FIG. 6, the estimation apparatus 200 according to the embodiment of the present invention is a computer including a CPU, a RAM, and a ROM that stores a program for executing an estimation processing routine described later and various data. Can be configured. Functionally, the estimation device 200 includes an input unit 40, a calculation unit 50, and an output unit 70 as shown in FIG.
入力部40は、第2入力部12と同様に、正規表記語に対して揺らいだ表記である崩れ表記語を含む複数のテキストであるテキスト群を受け付ける。 Similar to the second input unit 12, the input unit 40 accepts a text group that is a plurality of texts including a collapsed notation word that is a fluctuating notation with respect to a regular notation word.
演算部50は、単語分割部52と、意味ベクトル計算部54と、類似度算出部56と、ランダムウォーク部58と、モデル記憶部60と、推定部62とを含んで構成されている。 The calculation unit 50 includes a word division unit 52, a semantic vector calculation unit 54, a similarity calculation unit 56, a random walk unit 58, a model storage unit 60, and an estimation unit 62.
単語分割部52は、単語分割部24と同様に、入力部40により受け付けたテキスト群のテキストの各々について、テキストから単語の分割候補を複数生成し、分割済みコーパスを生成する。 Similar to the word division unit 24, the word division unit 52 generates a plurality of word division candidates from the text for each text in the text group received by the input unit 40, and generates a divided corpus.
意味ベクトル計算部54は、意味ベクトル計算部26と同様に、単語分割部52によって生成された複数の分割候補に基づいて、各単語の意味ベクトルを計算する。 Similar to the semantic vector calculation unit 26, the semantic vector calculation unit 54 calculates the semantic vector of each word based on the plurality of division candidates generated by the word division unit 52.
類似度算出部56は、類似度算出部28と同様に、意味ベクトル計算部54によって計算された各単語の意味ベクトルに基づいて、分割候補のペアの各々に対し、分割候補のペアの意味類似度を算出する。また、類似度算出部56は、類似度算出部28と同様に、分割候補の音の各々に基づいて、分割候補のペアの各々に対し、分割候補のペアの音類似度を算出する。 Similar to the similarity calculation unit 28, the similarity calculation unit 56 uses the semantic vector of each word calculated by the semantic vector calculation unit 54 to make the semantic similarity of the division candidate pair to each of the division candidate pairs. Calculate the degree. Similarly to the similarity calculation unit 28, the similarity calculation unit 56 calculates the sound similarity of the division candidate pair for each of the division candidate pairs based on each of the division candidate sounds.
ランダムウォーク部58は、類似度算出部56によって算出された、分割候補のペアの各々の意味類似度及び音類似度に基づいて、分割候補の各々について、当該分割候補と類似する分割候補からなる近傍ノードリストを生成する。そして、ランダムウォーク部58は、分割候補の各々について、各近傍ノードリストに対するランダムウォークを実施し、当該分割候補に対する隣接候補の集合を取得する。 The random walk unit 58 includes, for each of the division candidates, a division candidate similar to the division candidate based on the semantic similarity and the sound similarity of each of the division candidate pairs calculated by the similarity calculation unit 56. Generate a neighborhood node list. Then, the random walk unit 58 performs a random walk on each neighboring node list for each of the division candidates, and acquires a set of adjacent candidates for the division candidate.
具体的には、まず、ランダムウォーク部58は、類似度算出部56によって算出された分割候補のペアの各々の意味類似度及び音類似度に基づいて、分割候補のペアの各々に対する意味類似度を各要素とする行列と、分割候補のペアの各々に対する音類似度を各要素とする行列とを生成する。 Specifically, first, the random walk unit 58 uses the semantic similarity and sound similarity of each pair of division candidates calculated by the similarity calculation unit 56 to mean semantic similarity for each of the division candidate pairs. And a matrix having each element as a sound similarity with respect to each pair of candidates for division.
そして、ランダムウォーク部58は、意味類似度の行列の各要素と音類似度の行列の各要素とに基づいて、分割候補の各々について、意味類似度と音類似度とが基準値を満たす他の分割候補を抽出し、各分割候補に対応する近傍ノードリストを生成する。近傍ノードリストの各ノードは、意味類似度と音類似度とが基準値を満たす、分割候補のペアに対応する。後述するように、モデルを用いて正規表記語と崩れ表記語との組み合わせを推定する場合であっても、全ての分割候補のペア間で正負の識別を行うのは高コストである。そのため、まずは音類似度と意味類似度との緩い閾値である基準値で制約をかける。 Then, based on each element of the semantic similarity matrix and each element of the sound similarity matrix, the random walk unit 58 determines that the semantic similarity and the sound similarity satisfy the reference value for each of the division candidates. Are divided, and a neighborhood node list corresponding to each division candidate is generated. Each node in the neighborhood node list corresponds to a pair of division candidates whose semantic similarity and sound similarity satisfy the reference value. As will be described later, even when a combination of a regular notation word and a collapsed notation word is estimated using a model, it is costly to discriminate between positive and negative among all the division candidate pairs. Therefore, first, a restriction is applied with a reference value that is a loose threshold between the sound similarity and the semantic similarity.
図7に、ノード「うっせぇし」の近傍ノードリストの例を示す。図7の右側の数値は、意味類似度の値を表している。図7に示す例では、0.4を基準値として得られた近傍ノードリストである。 FIG. 7 shows an example of a neighborhood node list of the node “Usesse”. The numerical value on the right side of FIG. 7 represents the value of semantic similarity. In the example shown in FIG. 7, it is a neighborhood node list obtained with 0.4 as a reference value.
次に、ランダムウォーク部58は、分割候補の各々について生成した近傍ノードリストに対し、ランダムウォークを指定回数行い、分割候補のペアの各々の類似度を表す類似度行列を求め、ランダムウォークの結果得られた類似度行列に基づいて、分割候補の各々について、正規表記語の条件を満たす候補のみを隣接候補の集合として設定する。 Next, the random walk unit 58 performs a random walk on the neighborhood node list generated for each of the division candidates for a specified number of times, obtains a similarity matrix representing the degree of similarity of each pair of division candidates, and results of the random walk Based on the obtained similarity matrix, only candidates that satisfy the conditions of the regular notation word are set as a set of adjacent candidates for each of the division candidates.
なお、ランダムウォークとしては、例えば以下の非特許文献7に記載の方法を用いることができる。また、ランダムウォークの初期値の行列は、意味類似度の各要素を正規化した値を使うことができる。 In addition, as a random walk, the method of the following nonpatent literature 7 can be used, for example. In addition, the matrix of initial values of the random walk can use a value obtained by normalizing each element of the semantic similarity.
非特許文献7:Martin Szummer, Tommi Jaakkola,“Partially labeled classification with Markov random walks”,[平成28年6月24日検索]、インターネット< http://people.ee.duke.edu/~lcarin/SzummerJaakkola.pdf> Non-Patent Document 7: Martin Szummer, Tommi Jaakkola, “Partially labeled classification with Markov random walks”, [searched on June 24, 2016], Internet <http://people.ee.duke.edu/~lcarin/SzummerJaakkola .pdf>
図8に、ランダムウォークによって得られる結果の例を示す。図8に示す例では、正解のペアが「やっべぇ−やばい」である場合が示されている。図8に示すように、基準値に基づき生成された左側の近傍ノードリストでは、基準値によって1次のつながりしか考慮されない場合、正解の正規表記語「やばい」は存在しない。しかし、図8の右側に示すように、10回のランダムウォークを行うことにより、正解の正規表記語である「やばい」が出現するようになる。 FIG. 8 shows an example of the result obtained by the random walk. In the example shown in FIG. 8, a case where the correct answer pair is “Yabee-Yabai” is shown. As shown in FIG. 8, in the left-side neighboring node list generated based on the reference value, when only the primary connection is considered by the reference value, there is no correct regular expression word “Yabai”. However, as shown on the right side of FIG. 8, by performing 10 random walks, the correct regular expression word “Yabai” appears.
また、ランダムウォークの結果得られた類似度行列の値に基づいて、例えば、図9に示すように、正規表記語の条件を満たす候補のみが隣接候補の集合として設定される。正規表記語の条件としては、例えば上記非特許文献5などの方法を参考にして設定することができる。 Also, based on the value of the similarity matrix obtained as a result of the random walk, for example, as shown in FIG. 9, only candidates that satisfy the regular notation word condition are set as a set of adjacent candidates. The condition of the regular notation word can be set with reference to the method described in Non-Patent Document 5, for example.
モデル記憶部60には、モデル作成装置100によって作成されたモデルが記憶される。 The model created by the model creation device 100 is stored in the model storage unit 60.
推定部62は、複数の分割候補の各々について、当該分割候補と、ランダムウォーク部58によって取得された隣接候補の集合に含まれる隣接候補との組み合わせについて、モデル記憶部60に記憶されたモデルと、当該組み合わせの意味ベクトルの各々に基づいて類似度算出部56により算出された意味類似度、及び当該組み合わせの音の各々に基づいて類似度算出部56により算出された音類似度を含む素性とに基づいて、当該組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する。 For each of a plurality of division candidates, the estimation unit 62 uses a model stored in the model storage unit 60 for a combination of the division candidate and an adjacent candidate included in the set of adjacent candidates acquired by the random walk unit 58. A feature including the semantic similarity calculated by the similarity calculation unit 56 based on each of the semantic vectors of the combination, and the sound similarity calculated by the similarity calculation unit 56 based on each of the sounds of the combination; Based on the above, it is estimated whether or not the combination is a combination of a regular notation word and a collapse notation word.
具体的には、推定部62は、ランダムウォークによって取得された隣接候補の集合と、分割候補の各ペアに対する意味類似度及び音類似度を含む素性集合と、モデル記憶部60に記憶されたモデルとに基づいて、分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する。推定部62は、正規表記語と崩れ表記語との組み合わせであると推定された分割候補のペアを同義語ペアとして出力する。 Specifically, the estimation unit 62 includes a set of adjacent candidates acquired by random walk, a feature set including semantic similarity and sound similarity for each pair of division candidates, and a model stored in the model storage unit 60. Based on the above, it is estimated whether or not the combination of division candidates is a combination of a regular notation word and a collapsed notation word. The estimation unit 62 outputs a pair of division candidates estimated as a combination of a regular notation word and a collapsed notation word as a synonym pair.
図10に、正規表記語と崩れ表記語との組み合わせであるか否かが推定された分割候補の組み合わせの例を示す。図10に示す例では、「うっせぇし」に対して「うるさいし」が正解であると判定されている。 FIG. 10 shows an example of combinations of division candidates estimated as to whether the combination is a regular written word and a broken written word. In the example illustrated in FIG. 10, “noisy” is determined to be correct with respect to “Ususeshi”.
出力部70は、推定部62によって正規表記語と崩れ表記語との組み合わせであると推定された、分割候補の組み合わせを結果として出力する。 The output unit 70 outputs, as a result, a combination of division candidates estimated by the estimation unit 62 as a combination of a regular notation word and a collapsed notation word.
図11及び図12に、推定装置200の処理の流れを説明するための図を示す。図11に示すように、テキスト群Aが入力部40により入力されると、単語分割部52は、処理1として、テキスト群のテキストから単語の分割候補B(W1,・・・,Wn)を生成する。また、単語分割部52は、処理1として、テキスト群Aから分割済みコーパスを生成する。そして、意味ベクトル計算部54は、処理2として、単語区切りが付与されたテキスト群である分割済みコーパスに対し、単語の分割候補として出現した単語の各々(W1,・・・,Wn)について、当該単語の意味ベクトルを計算する。 11 and 12 are diagrams for explaining the processing flow of the estimation apparatus 200. FIG. As illustrated in FIG. 11, when the text group A is input by the input unit 40, the word dividing unit 52 performs processing 1 as word division candidates B (W 1 ,..., W n from the text group text. ) Is generated. In addition, as processing 1, the word dividing unit 52 generates a divided corpus from the text group A. Then, the semantic vector calculation unit 54 processes each word (W 1 ,..., W n ) that appears as word division candidates with respect to the divided corpus that is a group of texts to which word breaks are assigned. For, calculate the semantic vector of the word.
次に、類似度算出部56は、分割候補の音の各々に基づいて、分割候補のペアの各々に対し音類似度を算出する。なお、ペアの各々に対する音類似度は行列Cで表現され、分割候補(W1,・・・,Wn)のペアに対して音類似度が行列Cの各要素に格納される。 Next, the similarity calculation unit 56 calculates the sound similarity for each of the division candidate pairs based on each of the division candidate sounds. Note that the sound similarity for each of the pairs is expressed by a matrix C, and the sound similarity is stored in each element of the matrix C for the pair of division candidates (W 1 ,..., W n ).
また、類似度算出部56は、分割候補の意味ベクトルの各々に基づいて、分割候補のペアの各々に対し意味類似度を算出する。なお、ペアの各々に対する意味類似度は行列Dで表現され、分割候補(W1,・・・,Wn)のペアに対して意味類似度が行列Dの各要素に格納される。 Further, the similarity calculation unit 56 calculates the semantic similarity for each of the division candidate pairs based on each of the division candidate semantic vectors. The semantic similarity for each of the pairs is represented by a matrix D, and the semantic similarity is stored in each element of the matrix D for the pair of division candidates (W 1 ,..., W n ).
次に、ランダムウォーク部58は、意味類似度の行列Dの各要素と音類似度の行列Cの各要素とについて、意味類似度と音類似度とが基準値を満たす各要素を抽出し、各分割候補の近傍ノードリストEとして出力する。 Next, the random walk unit 58 extracts, for each element of the semantic similarity matrix D and each element of the sound similarity matrix C, each element whose semantic similarity and sound similarity satisfy the reference value, Output as a neighborhood node list E of each division candidate.
そして、ランダムウォーク部58は、図12に示すように、生成した近傍ノードリストEの各ノードに対し、ランダムウォークを指定回数行う。ランダムウォークの結果得られた類似度行列Rに基づいて、各分割候補について、正規表記語の条件を満たす候補のみを隣接候補の集合として出力する。なお、ランダムウォークで初期値として利用する行列としては、例えば上記非特許文献5の「3.3.2 類似度グラフの構築」に記載されている類似度グラフを利用することができる。 Then, as shown in FIG. 12, the random walk unit 58 performs a random walk for each node of the generated neighborhood node list E a specified number of times. Based on the similarity matrix R obtained as a result of the random walk, only candidates that satisfy the conditions of the regular notation word are output as a set of adjacent candidates for each division candidate. As a matrix used as an initial value in a random walk, for example, the similarity graph described in “3.3.2 Construction of similarity graph” of Non-Patent Document 5 can be used.
そして、推定部62は、モデル記憶部60に記憶されたモデルと、分割候補の組み合わせ各々についての意味類似度の行列C及び音類似度の行列Dを含む素性とに基づいて、分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する。なお、図12に示すように、素性には、後続差分文字列、及び正規表記語候補の品詞等が素性に含まれていてもよい。 The estimation unit 62 then combines the combinations of division candidates based on the model stored in the model storage unit 60 and the features including the semantic similarity matrix C and the sound similarity matrix D for each combination of division candidates. Is a combination of a regular notation word and a collapse notation word. Note that, as shown in FIG. 12, the feature may include a subsequent difference character string, a part of speech of a regular notation word candidate, and the like.
なお、意味的類似度の素性の行列Cに替えて、ランダムウォークで生成された類似度行列Rを用いてもよい。類似度行列Rを利用する場合には、まず、推定装置200による推定処理において、ランダムウォークにより対象となる分割候補を増加させ類似度行列Rを生成する。次に、モデル作成装置100によるモデル作成処理において類似度行列Rを用いてモデルを作成する。そして、推定装置200による推定処理において、作成されたモデルを用いて同義語ペアの推定という流れになる。 Instead of the semantic similarity feature matrix C, a similarity matrix R generated by random walk may be used. When using the similarity matrix R, first, in the estimation process by the estimation apparatus 200, the target division candidates are increased by random walk to generate the similarity matrix R. Next, a model is created using the similarity matrix R in the model creation process by the model creation device 100. Then, in the estimation process by the estimation apparatus 200, a synonym pair is estimated using the created model.
<本発明の実施の形態に係るモデル作成装置の作用> <Operation of Model Creation Device According to Embodiment of the Present Invention>
次に、本発明の実施の形態に係るモデル作成装置100の作用について説明する。なお、以下では、ランダムウォークによって生成された類似度行列を用いる場合を例に説明する。第1入力部10において複数の正例データを受け付け、第2入力部12においてテキスト群を受け付けると、モデル作成装置100は、図13に示すモデル作成処理ルーチンを実行する。 Next, the operation of the model creation device 100 according to the embodiment of the present invention will be described. Hereinafter, a case where a similarity matrix generated by random walk is used will be described as an example. When the first input unit 10 accepts a plurality of positive example data and the second input unit 12 accepts a text group, the model creation device 100 executes a model creation processing routine shown in FIG.
まず、ステップS100において、単語分割部24は、第2入力部12において受け付けたテキスト群を取得する。 First, in step S <b> 100, the word dividing unit 24 acquires the text group received by the second input unit 12.
次に、ステップS102において、負例生成部22は、辞書21に格納された複数の正規表記語に基づいて、正規表記語と当該正規表記語に対応する崩れ表記語とは異なる語とのペアを表す負例データを生成する。 Next, in step S102, the negative example generation unit 22 creates a pair of a normal notation word and a word different from the corrupted notation word corresponding to the normal notation word based on a plurality of normal notation words stored in the dictionary 21. To generate negative example data.
ステップS104では、単語分割部24は、上記ステップS100で取得したテキスト群のテキストの各々について、テキストから単語の分割候補を複数生成する。 In step S104, the word division unit 24 generates a plurality of word division candidates from the text for each text of the text group acquired in step S100.
ステップS106では、意味ベクトル計算部26は、上記ステップS104で生成された複数の分割候補に基づいて、各単語の意味ベクトルを計算する。 In step S106, the semantic vector calculation unit 26 calculates the semantic vector of each word based on the plurality of division candidates generated in step S104.
ステップS108では、類似度算出部28は、上記ステップS106で計算された各単語の意味ベクトルに基づいて、単語のペアの各々に対し、単語のペアの意味の類似度を表す意味類似度を算出する。また、類似度算出部28は、単語の音の各々に基づいて、単語のペアの各々に対し、単語のペアの音の類似度を表す音類似度を算出する。 In step S108, the similarity calculation unit 28 calculates a semantic similarity representing the similarity of the meaning of the word pair for each word pair based on the semantic vector of each word calculated in step S106. To do. In addition, the similarity calculation unit 28 calculates a sound similarity representing the similarity of the sound of the word pair for each of the word pairs based on each of the sound of the words.
ステップS109では、ランダムウォークの結果生成された類似度行列を取得する。そして、類似度行列に基づいて、各分割候補について、正規表記語の条件を満たす候補のみを隣接候補の集合として設定する。 In step S109, a similarity matrix generated as a result of the random walk is acquired. Then, based on the similarity matrix, for each division candidate, only candidates that satisfy the condition of the regular notation word are set as a set of adjacent candidates.
ステップS110では、モデル作成部30は、上記ステップS109で取得された隣接候補の集合と、上記ステップS108で算出された、正例データが表す正規表記語と崩れ表記語とのペアの各々についての意味類似度及び音類似度を含む素性と、上記ステップS102で生成された負例データが表す正規表記語と当該正規表記語に対応する崩れ表記語とは異なる語とのペアの各々についての意味類似度及び音類似度を含む素性とに基づいて、正規表記語と当該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成する。そして、モデル作成部30は、作成したモデルをモデル記憶部32に格納して処理を終了する。 In step S110, the model creation unit 30 calculates the adjacent candidate set acquired in step S109 and the pair of the normal notation word and the collapsed notation word represented by the positive example data calculated in step S108. Meaning for each of a pair of a feature including a semantic similarity and a sound similarity, and a normal notation word represented by the negative example data generated in step S102 and a word different from the corrupted notation word corresponding to the normal notation word Based on the features including the similarity and the sound similarity, a model for estimating whether or not a combination of a regular written word and a broken written word corresponding to the regular written word is created. Then, the model creation unit 30 stores the created model in the model storage unit 32 and ends the process.
<本発明の実施の形態に係る推定装置の作用> <Operation of Estimation Device according to Embodiment of the Present Invention>
次に、本発明の実施の形態に係る推定装置200の作用について説明する。モデル作成装置100によって作成されたモデルが推定装置200に入力されると、モデル記憶部60に格納される。そして、推定装置200の入力部40においてテキスト群を受け付けると、推定装置200は、図14に示す推定処理ルーチンを実行する。 Next, the operation of the estimation apparatus 200 according to the embodiment of the present invention will be described. When the model created by the model creation device 100 is input to the estimation device 200, it is stored in the model storage unit 60. And if the text group is received in the input part 40 of the estimation apparatus 200, the estimation apparatus 200 will perform the estimation process routine shown in FIG.
ステップS200において、単語分割部52は、入力部40において受け付けたテキスト群を取得する。 In step S <b> 200, the word dividing unit 52 acquires the text group accepted by the input unit 40.
ステップS202において、単語分割部52は、上記ステップS200で取得したテキスト群のテキストの各々について、テキストから単語の分割候補を複数生成する。 In step S202, the word dividing unit 52 generates a plurality of word division candidates from the text for each text in the text group acquired in step S200.
ステップS204において、意味ベクトル計算部54は、上記ステップS202で生成された複数の分割候補に基づいて、各単語の意味ベクトルを計算する。 In step S204, the semantic vector calculator 54 calculates the semantic vector of each word based on the plurality of division candidates generated in step S202.
ステップS205において、類似度算出部56は、上記ステップS204で計算された各単語の意味ベクトルに基づいて、分割候補のペアの各々に対し、分割候補のペアの意味の類似度を表す意味類似度を算出する。また、類似度算出部56は、分割候補の音の各々に基づいて、分割候補のペアの各々に対し、分割候補のペアの音の類似度を表す音類似度を算出する。 In step S <b> 205, the similarity calculation unit 56 represents the semantic similarity indicating the similarity of the meaning of the pair of division candidates for each of the pair of division candidates based on the semantic vector of each word calculated in step S <b> 204. Is calculated. Further, the similarity calculation unit 56 calculates a sound similarity representing the similarity of the sound of the pair of division candidates for each of the pair of division candidates based on each of the sounds of the division candidates.
ステップS206において、ランダムウォーク部58は、上記ステップS205から得られる、意味類似度の行列の各要素と音類似度の行列の各要素とに基づいて、分割候補の各々について、意味類似度と音類似度とが基準値を満たす他の分割候補を抽出し、各分割候補に対応する近傍ノードリストを生成する。 In step S206, the random walk unit 58 determines the semantic similarity and sound for each of the division candidates based on each element of the semantic similarity matrix and each element of the sound similarity matrix obtained from step S205. Other division candidates whose degree of similarity satisfies the reference value are extracted, and a neighborhood node list corresponding to each division candidate is generated.
ステップS208において、ランダムウォーク部58は、上記ステップS206で分割候補の各々について生成された近傍ノードリストに対し、ランダムウォークを指定回数行い、類似度行列を生成する。そして、ランダムウォーク部58は、ランダムウォークの結果得られた類似度行列に基づいて、各分割候補について、正規表記語の条件を満たす候補のみを隣接候補の集合として設定する。 In step S208, the random walk unit 58 performs a random walk on the neighborhood node list generated for each of the division candidates in step S206, and generates a similarity matrix. Then, based on the similarity matrix obtained as a result of the random walk, the random walk unit 58 sets only candidates that satisfy the condition of the regular notation word as a set of adjacent candidates for each division candidate.
ステップS210において、推定部62は、上記ステップS208で取得された隣接候補の集合と、分割候補の各ペアに対する意味類似度及び音類似度を含む素性集合と、モデル記憶部60に記憶されたモデルとに基づいて、分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する。そして、推定部62は、正規表記語と崩れ表記語との組み合わせであると推定された分割候補のペアを同義語ペアとして出力する。 In step S <b> 210, the estimation unit 62 includes a set of adjacent candidates acquired in step S <b> 208, a feature set including semantic similarity and sound similarity for each pair of division candidates, and a model stored in the model storage unit 60. Based on the above, it is estimated whether or not the combination of division candidates is a combination of a regular notation word and a collapsed notation word. And the estimation part 62 outputs the pair of the division | segmentation candidate estimated to be a combination of a regular notation word and a collapsed notation word as a synonym pair.
ステップS212において、出力部70は、上記ステップS210で出力された同義語ペアを出力して処理を終了する。 In step S212, the output unit 70 outputs the synonym pair output in step S210 and ends the process.
以上説明したように、本発明の実施の形態に係るモデル作成装置によれば、複数の正規表記語が格納された辞書に基づいて負例データを生成し、正例データが表すペアの意味類似度を含む素性と、負例データが表すペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成することにより、正規表記語と崩れ表記語との組み合わせであるか否かを推定するためのモデルを取得することができる。 As described above, according to the model creation device according to the embodiment of the present invention, negative example data is generated based on a dictionary in which a plurality of regular notation words are stored, and the semantic similarity of pairs represented by positive example data In order to estimate whether or not a combination of a regular notation word and a collapsed notation word corresponding to the regular notation word based on a feature including the degree and a feature including the semantic similarity of the pair represented by the negative example data By creating the model, it is possible to acquire a model for estimating whether or not a combination of a regular notation word and a collapse notation word.
また、本発明の実施の形態に係る推定装置によれば、単語の分割候補のペアの意味類似度に基づいて、分割候補と類似する分割候補からなる近傍ノードリストを生成し、各近傍ノードリストに対するランダムウォークを実施し、分割候補に対する隣接候補の集合を取得し、分割候補と取得された隣接候補の集合に含まれる隣接候補との組み合わせについて、予め作成されたモデルと、当該組み合わせの意味ベクトルの各々に基づいて算出される意味類似度を含む素性とに基づいて、当該組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定することにより、正規表記語と崩れ表記語との組み合わせであるか否かを精度よく推定することができる。 Further, according to the estimation apparatus according to the embodiment of the present invention, based on the semantic similarity of a pair of word division candidates, a neighborhood node list including division candidates similar to the division candidate is generated, and each neighborhood node list A random walk is performed, a set of adjacent candidates for the division candidate is acquired, a model created in advance for a combination of the division candidate and the adjacent candidate included in the acquired set of adjacent candidates, and a semantic vector of the combination Based on the features including semantic similarity calculated based on each of the above, by estimating whether the combination is a combination of a regular notation word and a collapsed notation word, a regular notation word and a collapsed notation word It is possible to accurately estimate whether or not the combination is.
また、単語の分割候補間の一次のつながりでは正規表記語が出現しないペアに対しても、ランダムウォークを用いることで効率良く候補を拡大することができる。これにより、複数次数のつながりで正規表記語が含まれる場合には、正規表記語の候補集合に正規表記語を含めることができる。 Moreover, candidates can be efficiently expanded by using a random walk even for a pair in which a regular notation word does not appear in a primary connection between word division candidates. As a result, when a regular notation word is included in a series of multiple orders, the regular notation word can be included in the candidate set of regular notation words.
また、本実施の形態では、正例データと負例データとに基づき作成されたモデルを用いて正規表記語と崩れ表記語とを推定する。この際、モデルとしてはSVMや最大エントロピーモデルなどの一般的なモデルを用いることができ、また正例データを用いて自明な負例データを生成することで、精度の向上を図ることができる。 In the present embodiment, regular notation words and collapsed notation words are estimated using a model created based on positive example data and negative example data. In this case, a general model such as an SVM or a maximum entropy model can be used as a model, and the accuracy can be improved by generating obvious negative example data using positive example data.
また、正例データと負例データとに基づきモデルを構築することにより、多様な素性を柔軟に取り込むことが可能となり、正規表記語と崩れ表記語との高精度な識別が可能になる。また、モデルの構築に際し、複数の方法で負例データを生成することにより、音や意味類似度で識別が難しい候補に対しても識別の性能を向上させることができる。 In addition, by constructing a model based on positive example data and negative example data, it is possible to flexibly incorporate various features, and it is possible to identify a regular notation word and a collapsed notation word with high accuracy. Further, when building a model, by generating negative example data by a plurality of methods, it is possible to improve identification performance even for candidates that are difficult to identify by sound or semantic similarity.
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made without departing from the gist of the present invention.
例えば、上記の実施の形態では、素性に意味類似度及び音類似度が含まれている場合を例に説明したが、これに限定されるものではない。例えば、意味類似度のみが素性に含まれていてもよいし、上述したように、後続差分文字列及び正規表記語候補の品詞等が素性に含まれていてもよい。 For example, in the above embodiment, the case where the feature includes the semantic similarity and the sound similarity is described as an example, but the present invention is not limited to this. For example, only the semantic similarity may be included in the feature, and as described above, the subsequent difference character string, the part of speech of the regular notation word candidate, and the like may be included in the feature.
また、上記の実施の形態では、モデル作成装置と推定装置とを別々の装置として構成する場合を例に説明したが、モデル作成装置と推定装置とを1つの装置として構成してもよい。 In the above embodiment, the case where the model creation device and the estimation device are configured as separate devices has been described as an example. However, the model creation device and the estimation device may be configured as one device.
上述のモデル作成装置100及び推定装置200は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。 The model creation device 100 and the estimation device 200 described above have a computer system inside. However, if the “computer system” uses a WWW system, a homepage providing environment (or display environment) is also available. Shall be included.
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。 In the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium.
10 第1入力部
12 第2入力部
20,50 演算部
21 辞書
22 負例生成部
24,52 単語分割部
26,54 意味ベクトル計算部
28,56 類似度算出部
30 モデル作成部
40 入力部
32,60 モデル記憶部
58 ランダムウォーク部
62 推定部
70 出力部
100 モデル作成装置
200 推定装置
DESCRIPTION OF SYMBOLS 10 1st input part 12 2nd input part 20,50 Operation part 21 Dictionary 22 Negative example production | generation part 24,52 Word division part 26,54 Semantic vector calculation part 28,56 Similarity calculation part 30 Model creation part 40 Input part 32 , 60 Model storage unit 58 Random walk unit 62 Estimation unit 70 Output unit 100 Model creation device 200 Estimation device
Claims (8)
前記単語分割部によって生成された複数の前記分割候補に基づいて、各単語の意味ベクトルを計算する意味ベクトル計算部と、
複数の正規表記語が格納された辞書に基づいて、前記正規表記語と該正規表記語に対応する前記崩れ表記語とは異なる語とのペアを表す負例データを生成する負例生成部と、
正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々について、前記正例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記負例データの各々について、前記負例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成するモデル作成部と、
を含むモデル作成装置。 A word dividing unit that generates a plurality of word division candidates from the text for each of a plurality of texts including a collapsed notation word that is a fluctuating notation with respect to a regular notation word;
A semantic vector calculation unit that calculates a semantic vector of each word based on the plurality of division candidates generated by the word division unit;
A negative example generation unit that generates negative example data representing a pair of a regular notation word and a word different from the collapsed notation word corresponding to the regular notation word based on a dictionary storing a plurality of regular notation words; ,
For each predetermined positive example data representing a pair of a regular written word and the collapsed written word corresponding to the regular written word, it is calculated based on each semantic vector of the pair represented by the positive data. The meaning of the pair calculated based on the feature including the semantic similarity indicating the similarity of the meaning of the pair and each of the negative example data based on each of the pair semantic vectors represented by the negative example data. A model creation unit that creates a model for estimating whether or not a combination of a regular notation word and a collapsed notation word corresponding to the regular notation word based on a feature including similarity;
Model creation device including
正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成する単語分割部と、
前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算する意味ベクトル計算部と、
前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記モデル記憶部に記憶された前記モデルとに基づいて、前記分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する推定部と、
を含む推定装置。 The negative data for each of the negative example data representing a pair of a normal notation word and a word different from the corrupted notation word corresponding to the normal notation word, generated based on a dictionary storing a plurality of normal notation words. Calculated from each of the semantic vectors of the pair represented by example data, a feature including a semantic similarity representing the similarity of the meaning of the pair, and a regular written word and the collapsed written word corresponding to the regular written word For each of predetermined positive example data representing a pair, a normal created from the features including the semantic similarity of the pair calculated from each of the pair semantic vectors represented by the positive example data, A model storage unit that stores a model for estimating whether or not a combination of a written word and a collapsed written word;
A word dividing unit that generates a plurality of word division candidates from the text for each of the plurality of texts including the collapsed notation word corresponding to the regular notation word;
A semantic vector calculation unit that calculates a semantic vector of a word based on the plurality of division candidates generated by the word division unit;
For each of the pair of division candidates, a feature including a semantic similarity representing the similarity of the meaning of the pair calculated based on each semantic vector of the pair of division candidates is stored in the model storage unit. Based on the model, an estimation unit that estimates whether or not the combination of the division candidates is a combination of a regular notation word and a collapsed notation word;
Including the estimation device.
正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成する単語分割部と、
前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算する意味ベクトル計算部と、
前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度に基づいて、前記分割候補の各々について、前記分割候補と類似する前記分割候補からなる近傍ノードリストを生成し、前記分割候補の各々について、各近傍ノードリストに対するランダムウォークを実施し、前記分割候補に対する隣接候補の集合を取得するランダムウォーク部と、
前記分割候補と、前記ランダムウォーク部によって取得された前記隣接候補の集合に含まれる前記隣接候補との組み合わせについて、前記モデル記憶部に記憶された前記モデルと、前記組み合わせの意味ベクトルの各々に基づいて算出される、前記意味類似度を含む素性とに基づいて、前記組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定する推定部と、
を含む推定装置。 The negative data for each of the negative example data representing a pair of a normal notation word and a word different from the corrupted notation word corresponding to the normal notation word, generated based on a dictionary storing a plurality of normal notation words. Calculated from each of the semantic vectors of the pair represented by example data, a feature including a semantic similarity representing the similarity of the meaning of the pair, and a regular written word and the collapsed written word corresponding to the regular written word For each of predetermined positive example data representing a pair, a normal created from the features including the semantic similarity of the pair calculated from each of the pair semantic vectors represented by the positive example data, A model storage unit that stores a model for estimating whether or not a combination of a written word and a collapsed written word;
A word dividing unit that generates a plurality of word division candidates from the text for each of the plurality of texts including the collapsed notation word corresponding to the regular notation word;
A semantic vector calculation unit that calculates a semantic vector of a word based on the plurality of division candidates generated by the word division unit;
For each of the division candidates, for each of the division candidates, based on a semantic similarity representing the similarity of the meaning of the pair, calculated based on each of the semantic vectors of the division candidate pairs. A random walk unit that generates a neighborhood node list composed of the division candidates similar to the division candidate, performs a random walk on each neighborhood node list for each of the division candidates, and acquires a set of adjacent candidates for the division candidates; ,
Based on each of the model stored in the model storage unit and the semantic vector of the combination for the combination of the division candidate and the adjacent candidate included in the set of adjacent candidates acquired by the random walk unit An estimation unit that estimates whether or not the combination is a combination of a regular notation word and a collapsed notation word based on the feature including the semantic similarity,
Including the estimation device.
前記辞書に格納された正規表記語と、該正規表記語とは異なる正規表記語とのペア、
前記辞書に格納された活用形をもつ正規表記語と、該正規表記語の活用形とは異なる活用形の正規表記語とのペア、及び
前記辞書からランダムに選択された正規表記語と、該正規表記語の品詞に対して予め定められたサフィックスが該正規表記語に結合された語とのペアの少なくとも1つとして生成される
請求項1に記載のモデル作成装置。 The negative example data is
A pair of a regular expression word stored in the dictionary and a regular expression word different from the regular expression word,
A pair of a regular expression word having a utilization form stored in the dictionary, a regular expression word having a utilization form different from the utilization form of the regular expression word, and a regular expression word randomly selected from the dictionary; and The model creation apparatus according to claim 1, wherein a suffix predetermined for a part of speech of a regular expression word is generated as at least one of a pair with a word combined with the regular expression word.
前記単語分割部が、正規表記語に対して揺らいだ表記である崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成するステップと、
前記意味ベクトル計算部が、前記単語分割部によって生成された複数の前記分割候補に基づいて、各単語の意味ベクトルを計算するステップと、
前記負例生成部が、複数の正規表記語が格納された辞書に基づいて、前記正規表記語と該正規表記語に対応する前記崩れ表記語とは異なる語とのペアを表す負例データを生成するステップと、
前記モデル作成部が、正規表記語と該正規表記語に対応する前記崩れ表記語とのペアを表す予め定められた正例データの各々について、前記正例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記負例データの各々について、前記負例データが表す前記ペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味類似度を含む素性とに基づいて、正規表記語と該正規表記語に対応する崩れ表記語との組み合わせであるか否かを推定するためのモデルを作成するステップと、
を含むモデル作成方法。 A model creation method in a model creation device including a word division unit, a semantic vector calculation unit, a negative example generation unit, and a model creation unit,
Generating a plurality of word division candidates from the text for each of a plurality of texts including a collapsed notation word that is a fluctuating notation with respect to a regular notation word;
The semantic vector calculation unit calculates a semantic vector of each word based on the plurality of division candidates generated by the word division unit;
The negative example generation unit, based on a dictionary storing a plurality of regular notation words, negative example data representing a pair of the regular notation word and a word different from the collapsed notation word corresponding to the regular notation word Generating step;
Each of the semantic vectors of the pair represented by the positive example data for each of the predetermined positive example data representing a pair of a regular written word and the collapsed written word corresponding to the regular written word. Calculated based on the feature including the semantic similarity representing the semantic similarity of the pair and each of the negative example data is calculated based on each of the pair semantic vectors represented by the negative example data. Creating a model for estimating whether or not a combination of a regular notation word and a collapsed notation word corresponding to the regular notation word based on the feature including the semantic similarity of the pair;
Model creation method including
前記単語分割部が、正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成するステップと、
前記意味ベクトル計算部が、前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算するステップと、
前記推定部が、前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度を含む素性と、前記モデル記憶部に記憶された前記モデルとに基づいて、前記分割候補の組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定するステップと、
を含む推定方法。 A word segmentation unit, a semantic vector calculation unit, an estimation unit, and a normal notation word generated based on a dictionary in which a plurality of regular notation words are stored, and a word different from the corrupted notation word corresponding to the normal notation word For each of the negative example data representing a pair, a feature including a semantic similarity representing the similarity of the meaning of the pair calculated from each of the semantic vectors of the pair represented by the negative example data, and a regular notation word; Meaning of the pair calculated from each of the semantic vectors of the pair represented by the positive example data for each of the predetermined positive example data representing a pair with the collapsed written word corresponding to the regular written word An estimation method in an estimation apparatus including a model storage unit that stores a model for estimating whether or not a combination of a regular notation word and a collapsed notation word, which is created in advance from features including similarity,
Generating a plurality of word division candidates from the text for each of a plurality of texts including a collapsed notation word corresponding to a regular notation word;
The semantic vector calculation unit calculates a word semantic vector based on the plurality of division candidates generated by the word division unit;
A feature including a semantic similarity indicating the similarity of the meaning of the pair calculated by the estimation unit based on each of the semantic vectors of the split candidate pair for each of the split candidate pairs; Based on the model stored in the storage unit, estimating whether the combination of the division candidates is a combination of a regular notation word and a collapsed notation word; and
An estimation method including:
前記単語分割部が、正規表記語に対応する崩れ表記語を含む複数のテキストの各々について、前記テキストから単語の分割候補を複数生成するステップと、
前記意味ベクトル計算部が、前記単語分割部によって生成された前記複数の分割候補に基づいて、単語の意味ベクトルを計算するステップと、
前記ランダムウォーク部が、前記分割候補のペアの各々について、前記分割候補のペアの意味ベクトルの各々に基づいて算出される、前記ペアの意味の類似度を表す意味類似度に基づいて、前記分割候補の各々について、前記分割候補と類似する前記分割候補からなる近傍ノードリストを生成し、前記分割候補の各々について、各近傍ノードリストに対するランダムウォークを実施し、前記分割候補に対する隣接候補の集合を取得するステップと、
前記推定部が、前記分割候補と、前記ランダムウォーク部によって取得された前記隣接候補の集合に含まれる前記隣接候補との組み合わせについて、前記モデル記憶部に記憶された前記モデルと、前記組み合わせの意味ベクトルの各々に基づいて算出される、前記意味類似度を含む素性とに基づいて、前記組み合わせが正規表記語と崩れ表記語との組み合わせであるか否かを推定するステップと、
を含む推定方法。 A normal notation word and a corrupted notation word corresponding to the normal notation word generated based on a word division part, a semantic vector calculation part, a random walk part, an estimation part, and a dictionary storing a plurality of normal notation words For each of the negative example data representing pairs with different words, a feature including a semantic similarity representing the similarity of the meaning of the pair calculated from each of the pair semantic vectors represented by the negative example data; For each predetermined positive example data representing a pair of a regular notation word and the collapsed notation word corresponding to the regular notation word, calculated from each of the pair of semantic vectors represented by the positive example data, In an estimation apparatus including a model storage unit that stores a model for estimating whether or not a combination of a regular notation word and a collapse notation word is created in advance from a feature including the semantic similarity of the pair. A constant way,
Generating a plurality of word division candidates from the text for each of a plurality of texts including a collapsed notation word corresponding to a regular notation word;
The semantic vector calculation unit calculates a word semantic vector based on the plurality of division candidates generated by the word division unit;
The random walk unit calculates, for each of the pair of division candidates, based on the semantic similarity representing the similarity of the meaning of the pair calculated based on each of the semantic vectors of the pair of division candidates. For each candidate, generate a neighborhood node list composed of the division candidates similar to the division candidate, perform a random walk on each neighborhood node list for each of the division candidates, and set a set of adjacent candidates for the division candidates. A step to obtain,
For the combination of the division candidate and the adjacent candidate included in the set of adjacent candidates acquired by the random walk unit, the estimation unit stores the model stored in the model storage unit and the meaning of the combination Estimating whether the combination is a combination of a regular notation word and a collapsed notation word based on a feature including the semantic similarity calculated based on each of the vectors;
An estimation method including:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016157059A JP6558863B2 (en) | 2016-08-09 | 2016-08-09 | Model creation device, estimation device, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016157059A JP6558863B2 (en) | 2016-08-09 | 2016-08-09 | Model creation device, estimation device, method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018025956A JP2018025956A (en) | 2018-02-15 |
JP6558863B2 true JP6558863B2 (en) | 2019-08-14 |
Family
ID=61193846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016157059A Active JP6558863B2 (en) | 2016-08-09 | 2016-08-09 | Model creation device, estimation device, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6558863B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020144736A1 (en) * | 2019-01-08 | 2020-07-16 | 三菱電機株式会社 | Semantic relation learning device, semantic relation learning method, and semantic relation learning program |
CN109918676B (en) * | 2019-03-18 | 2023-06-27 | 广东小天才科技有限公司 | Method and device for detecting intention regular expression and terminal equipment |
CN110046254B (en) * | 2019-04-18 | 2022-03-08 | 阿波罗智联(北京)科技有限公司 | Method and apparatus for generating a model |
CN111339768B (en) * | 2020-02-27 | 2024-03-05 | 携程旅游网络技术(上海)有限公司 | Sensitive text detection method, system, electronic equipment and medium |
CN112256849B (en) * | 2020-10-20 | 2024-02-13 | 深圳前海微众银行股份有限公司 | Model training method, text detection method, device, equipment and storage medium |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6098033A (en) * | 1997-07-31 | 2000-08-01 | Microsoft Corporation | Determining similarity between words |
JP5356197B2 (en) * | 2009-12-01 | 2013-12-04 | 株式会社日立製作所 | Word semantic relation extraction device |
JP5470620B2 (en) * | 2009-12-30 | 2014-04-16 | 独立行政法人情報通信研究機構 | Annotation acquisition device, annotation acquisition method, and program |
-
2016
- 2016-08-09 JP JP2016157059A patent/JP6558863B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018025956A (en) | 2018-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6558863B2 (en) | Model creation device, estimation device, method, and program | |
CN107480143B (en) | Method and system for segmenting conversation topics based on context correlation | |
KR102057184B1 (en) | Interest determination system, interest determination method, and storage medium | |
JP5710581B2 (en) | Question answering apparatus, method, and program | |
WO2017177809A1 (en) | Word segmentation method and system for language text | |
CN105095204A (en) | Method and device for obtaining synonym | |
Atia et al. | Increasing the accuracy of opinion mining in Arabic | |
JP6427466B2 (en) | Synonym pair acquisition apparatus, method and program | |
Ljubešić et al. | Standardizing tweets with character-level machine translation | |
CN110807102A (en) | Knowledge fusion method and device, computer equipment and storage medium | |
KR20180094664A (en) | Method for information extraction from text data and apparatus therefor | |
Etaiwi et al. | Statistical Arabic name entity recognition approaches: A survey | |
WO2018072501A1 (en) | Information extraction apparatus and method | |
Gómez-Adorno et al. | A graph based authorship identification approach | |
Devi et al. | Entity extraction for malayalam social media text using structured skip-gram based embedding features from unlabeled data | |
Aida et al. | A comprehensive analysis of PMI-based models for measuring semantic differences | |
JP4979637B2 (en) | Compound word break estimation device, method, and program for estimating compound word break position | |
JP2016224483A (en) | Model learning device, method and program | |
Yousif et al. | Part of speech tagger for Arabic text based support vector machines: A review | |
Malandrakis et al. | Sail: Sentiment analysis using semantic similarity and contrast features | |
KR101663038B1 (en) | Entity boundary detection apparatus in text by usage-learning on the entity's surface string candidates and mtehod thereof | |
KR101983477B1 (en) | Method and System for zero subject resolution in Korean using a paragraph-based pivotal entity identification | |
CN111061924A (en) | Phrase extraction method, device, equipment and storage medium | |
Oudah et al. | Person name recognition using the hybrid approach | |
Lai et al. | An unsupervised approach to discover media frames |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180905 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190524 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190709 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190715 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6558863 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |