JP6269953B2 - Word segmentation apparatus, method, and program - Google Patents

Word segmentation apparatus, method, and program Download PDF

Info

Publication number
JP6269953B2
JP6269953B2 JP2014142404A JP2014142404A JP6269953B2 JP 6269953 B2 JP6269953 B2 JP 6269953B2 JP 2014142404 A JP2014142404 A JP 2014142404A JP 2014142404 A JP2014142404 A JP 2014142404A JP 6269953 B2 JP6269953 B2 JP 6269953B2
Authority
JP
Japan
Prior art keywords
word
division
characters
character
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014142404A
Other languages
Japanese (ja)
Other versions
JP2016018489A (en
Inventor
克仁 須藤
克仁 須藤
永田 昌明
昌明 永田
信介 森
信介 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyoto University
Nippon Telegraph and Telephone Corp
Original Assignee
Kyoto University
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyoto University, Nippon Telegraph and Telephone Corp filed Critical Kyoto University
Priority to JP2014142404A priority Critical patent/JP6269953B2/en
Publication of JP2016018489A publication Critical patent/JP2016018489A/en
Application granted granted Critical
Publication of JP6269953B2 publication Critical patent/JP6269953B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、単語分割装置、方法、及びプログラムに係り、特に、入力された文字列について単語分割するための単語分割装置、方法、及びプログラムに関する。   The present invention relates to a word dividing device, method, and program, and more particularly, to a word dividing device, method, and program for dividing a word for an input character string.

日本語や中国語など正書法において単語区切りを明示しない言語を対象とする言語処理システムでは、通常単語分割処理を初期の段階で行い、入力文書あるいは入力文を構成する文字列を単語列に変換する。何をもって単語とするか、という厳格な定義は通常容易でなく、ある種の品詞体系に基づいて単語の単位を定めて利用することが一般的である。近年の言語処理システムではIPAdic、UniDicと呼ばれる辞書で用いられている品詞体系を利用して単語の単位を定めている。そうした単語の定義に基づいて行われる単語分割処理として、近年主流となっているのは、単語分割情報が付与された言語データ(以後、単語分割コーパスとする。)を利用して単語分割のための統計モデルを学習し、その統計モデルに基づいて入力文の単語分割処理を行う方法である(非特許文献1、非特許文献2)。   In a language processing system that targets languages that do not specify word breaks in Japanese or Chinese orthography, normal word division processing is performed at an early stage, and character strings that make up an input document or input sentence are converted to word strings. . A strict definition of what is a word is usually not easy, and it is common to determine and use word units based on a kind of part-of-speech system. In recent language processing systems, word units are determined using a part-of-speech system used in a dictionary called IPAdic or UniDic. As word division processing performed based on the definition of such words, the mainstream in recent years is for word division using language data to which word division information is added (hereinafter referred to as a word division corpus). This is a method of learning a statistical model of the above and performing word segmentation processing of the input sentence based on the statistical model (Non-patent Document 1, Non-patent Document 2).

また、分野適応と呼ばれる技術が知られている。単語分割に対する分野適応の方法としては大きく2種類の方法がある。1つは対象分野の単語分割コーパスを用意し、元の単語分割コーパスと結合して統計モデルを学習する、もしくは学習済みのモデルを追加学習する方法である(非特許文献3)。非特許文献3の技術は単語分割を各文字間が単語の分割位置になるか否かの二値分類の問題として扱い、対象分野の文に対して学習済みの統計モデルを利用して単語分割を行い、分割の確信度が小さい箇所に対して人手で正解を与えることで部分的な単語分割の正解を作成して統計モデルの追加学習を漸進的に行う方法を記載している。もう1つは対象分野の単語分割されていないコーパス(以後、生コーパスとする。)から得られる文字列の統計量を単語分割時の特徴量(以後、素性とする。)として利用する方法である(非特許文献4、非特許文献5)。非特許文献5では、Accessor Variety(非特許文献6)と呼ばれる、ある部分文字列両端に接続する文字の異なり数がその部分文字列が独立した単語らしさを表すことを利用して、Accessor Varietyの値を素性として用い、Accessor Varietyの値が単語分割に貢献する度合いを元分野の単語分割コーパスから学習する。   In addition, a technique called field adaptation is known. There are roughly two types of field adaptation methods for word division. One is a method of preparing a word division corpus in a target field and learning a statistical model by combining with the original word division corpus or additionally learning a learned model (Non-patent Document 3). The technology of Non-Patent Document 3 treats word division as a problem of binary classification of whether or not each character is a word division position, and uses a statistical model that has already been learned for sentences in the subject field. This method describes a method in which additional corrective learning of a statistical model is performed gradually by creating correct answers for partial word division by manually giving correct answers to places where the certainty of division is small. The other is a method of using a statistic of a character string obtained from a corpus that is not divided into words in the target field (hereinafter referred to as a raw corpus) as a feature amount (hereinafter referred to as a feature) during word division. (Non-Patent Document 4, Non-Patent Document 5). In Non-Patent Document 5, using Accessor Variety (Non-Patent Document 6), the difference in the number of characters connected to both ends of a partial character string indicates that the partial character string is an independent word, Using the value as a feature, the degree to which the Accessor Variety value contributes to word division is learned from the word division corpus of the original field.

Taku Kudo他, Applying Conditional Random Fields to Japanese Morphological Analysis, Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, 2004Taku Kudo et al., Applying Conditional Random Fields to Japanese Morphological Analysis, Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, 2004 丸山宏他, 確率的形態素解析,日本ソフトウェア科学会第8回大会論文集, pp.177-180, 1991Maruyama Hiroshi et al., Stochastic Morphological Analysis, Proceedings of the 8th Annual Meeting of the Japan Society for Software Science, pp.177-180, 1991 森信介他, 点予測による自動単語分割, 情報処理学会論文誌Vol.52, No.10, pp. 2944-2952, 2011Shinsuke Mori et al., Automatic word segmentation by point prediction, IPSJ Transactions Vol.52, No.10, pp. 2944-2952, 2011 Yiou Wang他, Improving Chinese Word Segmentation and POS Tagging with Semi-supervised Methods Using Large Auto-Analyzed Data, Proceedings of 5th International Joint Conference on Natural Language Processing, pp 309-317,2011Yiou Wang et al., Improving Chinese Word Segmentation and POS Tagging with Semi-supervised Methods Using Large Auto-Analyzed Data, Proceedings of 5th International Joint Conference on Natural Language Processing, pp 309-317,2011 Zhen Guo他, Exploration of N-gram Features for the Domain Adaptation of Chinese Word Segmentation. Proceedings of the 1st CCF Confer- ence on Natural Language Processing & Chinese Computing, pp 121-131, 2012.Zhen Guo et al., Exploration of N-gram Features for the Domain Adaptation of Chinese Word Segmentation.Proceedings of the 1st CCF Confer-ence on Natural Language Processing & Chinese Computing, pp 121-131, 2012. Haodi Feng他, Accessor Variety Criteria for Chinese Word Extraction.Computational Linguistics, volume 30, pp 75-93, 2004Haodi Feng et al., Accessor Variety Criteria for Chinese Word Extraction.Computational Linguistics, volume 30, pp 75-93, 2004

しかし、非特許文献1及び非特許文献2の方法においては、単語分割コーパスと類似した文に対しては高い精度で単語分割を行うことができる一方で、異なる対象分野や記述様式(以下、対象分野とする)の文に対しては十分に対応できず単語分割の精度が相対的に低くなる傾向にあるという問題がある。   However, in the methods of Non-Patent Document 1 and Non-Patent Document 2, while it is possible to perform word segmentation with high accuracy for sentences similar to the word segmentation corpus, However, there is a problem that the accuracy of word division tends to be relatively low.

また、日本語の単語分割においては、単語分割コーパスもしくは外部の辞書から得られる語彙の情報、文字列における漢字、ひらがな、カタカナ、数字といった文字の情報が素性として有効であることが知られているが、カタカナや漢字で構成される長い複合語については、語彙の情報が不足していると単語分割の有効な手がかりが得られず正しく分割することが難しいという問題がある。   In Japanese word segmentation, vocabulary information obtained from a word segmentation corpus or an external dictionary, and character information such as kanji, hiragana, katakana, and numbers in character strings are known to be effective as features. However, for long compound words composed of katakana and kanji, there is a problem that if there is insufficient vocabulary information, effective clues for word division cannot be obtained and it is difficult to correctly divide.

また、上記の従来技術において、対象分野の正解データを用いた追加学習による方法では正解データを少量なりとも作成する必要があるし、文字列の統計量を素性として使う方法では生コーパスから得られる文字列の統計量の貢献度合いを元分野の単語分割コーパスから学習するため、生コーパスと元分野の単語分割コーパスとの間の共通部分が少なくなると、貢献度合いの学習が容易でないという問題がある。   In addition, in the above-described prior art, it is necessary to create even a small amount of correct answer data in the method based on additional learning using the correct answer data in the target field, and the method using character string statistics as a feature can be obtained from a raw corpus. Since the contribution degree of the character string statistic is learned from the word division corpus of the original field, there is a problem that it is not easy to learn the contribution degree when the common part between the raw corpus and the word division corpus of the original field decreases. .

また、素性として利用する方式では、新たに単語分割しようとする文中の文字列に対して毎回大規模な生コーパスに基づく統計量の素性を付与する必要があり、単語分割処理の計算時間が増加するという問題がある。   In addition, in the method used as a feature, it is necessary to assign a feature of a statistic based on a large-scale raw corpus every time to a character string in a sentence to be newly divided into words, which increases the calculation time of the word division processing. There is a problem of doing.

本発明では、上記問題を解決するために成されたものであり、対象分野の文字列について精度良く単語分割することができる単語分割装置、方法、及びプログラムを提供することを目的とする。   The present invention has been made to solve the above problem, and an object of the present invention is to provide a word segmentation apparatus, method, and program capable of segmenting a word with high accuracy for a character string in a target field.

上記目的を達成するために、第1の発明に係る単語分割装置は、対象分野の文字列の集合である生コーパスに含まれる文字列の各々に対して、単語分割する位置を推定し、文字間の各々に単語分割する位置を示すラベルを付与する分割位置推定部と、前記対象分野とは異なる元分野の文字列の集合であって、かつ、文字間の各々に単語分割する位置を示すラベル及び単語分割しない位置を示すラベルが予め付与された単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性を抽出する学習素性抽出部と、前記学習素性抽出部により抽出した、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性に基づいて、前記対象分野の文字列について単語分割する位置を判定するための単語分割モデルを学習するモデル学習部と、入力された前記対象分野の文字列に含まれる文字間の各々についての素性を抽出する素性抽出部と、前記素性抽出部により抽出した前記文字間の各々についての素性と、前記モデル学習部により学習された前記単語分割モデルとに基づいて、前記入力された前記対象分野の文字列に含まれる文字間の各々から、単語分割する位置を判定する二値分類部と、を含んで構成されている。   In order to achieve the above object, a word segmentation device according to a first aspect of the present invention estimates a word segmentation position for each of character strings included in a raw corpus, which is a set of character strings in a target field, A division position estimation unit for assigning a label indicating a position to divide a word between each of them, and a set of character strings in an original field different from the target field, and indicating a position at which a word is divided between each character A feature for each of characters between which a label indicating a position to divide a word is assigned to each character string included in a word division corpus to which a label and a label indicating a position not to divide a word are assigned in advance, and word division Between each character with a label indicating a position to divide a word into each character string included in the raw corpus A learning feature extraction unit that extracts features of each of the characters, a feature that is extracted by the learning feature extraction unit, for each character between the characters that are given a label that indicates a position to divide the word, and a label that indicates a position where the word is not divided. A model learning unit that learns a word division model for determining a word division position for a character string in the target field based on a feature for each given character, and an input character string in the target field Based on a feature extraction unit that extracts a feature for each character included in the character, a feature for each of the characters extracted by the feature extraction unit, and the word division model learned by the model learning unit A binary classifying unit that determines a position to divide a word from each of the characters included in the input character string of the target field. There.

第2の発明に係る単語分割方法は、分割位置推定部と、学習素性抽出部と、モデル学習部と、素性抽出部と、二値分類部とを含む単語分割装置における、単語分割方法であって、前記分割位置推定部は、対象分野の文字列の集合である生コーパスに含まれる文字列の各々に対して、単語分割する位置を推定し、文字間の各々に単語分割する位置を示すラベルを付与し、前記学習素性抽出部は、前記対象分野とは異なる元分野の文字列の集合であって、かつ、文字間の各々に単語分割する位置を示すラベル及び単語分割しない位置を示すラベルが予め付与された単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性を抽出し、前記モデル学習部は、前記学習素性抽出部により抽出した、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性に基づいて、前記対象分野の文字列について単語分割する位置を判定するための単語分割モデルを学習し、前記素性抽出部は、入力された前記対象分野の文字列に含まれる文字間の各々についての素性を抽出し、前記二値分類部は、前記素性抽出部により抽出した前記文字間の各々についての素性と、前記モデル学習部により学習された前記単語分割モデルとに基づいて、前記入力された前記対象分野の文字列に含まれる文字間の各々から、単語分割する位置を判定する。   A word division method according to a second aspect is a word division method in a word division device including a division position estimation unit, a learning feature extraction unit, a model learning unit, a feature extraction unit, and a binary classification unit. The division position estimation unit estimates a position where words are divided for each character string included in the raw corpus, which is a set of character strings in the target field, and indicates a position where the word is divided between each character. The learning feature extraction unit assigns a label, and is a set of character strings in an original field different from the target field, and indicates a label indicating a position where a word is divided into each character and a position where the word is not divided For each of the character strings included in the word division corpus to which a label is assigned in advance, a feature for each of the characters to which a label indicating a position for dividing the word is given and a label indicating a position where the word is not divided are assigned. Sentence Extracting a feature for each of the character strings, extracting a feature for each of the character strings included in the raw corpus, each having a label indicating a position to divide the word, and the model learning unit Are extracted by the learning feature extraction unit for the features between the characters to which the label indicating the position to divide the word is assigned and the features for each character to which the label indicating the position to not divide the word is assigned. Based on this, a word division model for determining a word division position for a character string in the target field is learned, and the feature extraction unit is configured to input each character between characters included in the input character string in the target field. The binary classification unit extracts features from each of the characters extracted by the feature extraction unit, and the word division module learned by the model learning unit. Based on the Le, from each of the inter-character in the string of the inputted said target field to determine the location of word segmentation.

第1及び第2の発明によれば、分割位置推定部により、対象分野の文字列の集合である生コーパスに含まれる文字列の各々に対して、単語分割する位置を推定し、文字間の各々に単語分割する位置を示すラベルを付与し、学習素性抽出部により、対象分野とは異なる元分野の文字列の集合であって、かつ、文字間の各々に単語分割する位置を示すラベル及び単語分割しない位置を示すラベルが予め付与された単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、生コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性を抽出し、モデル学習部により、抽出した、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性に基づいて、対象分野の文字列について単語分割する位置を判定するための単語分割モデルを学習し、素性抽出部により、入力された対象分野の文字列に含まれる文字間の各々についての素性を抽出し、二値分類部は、抽出した文字間の各々についての素性と、学習された前記単語分割モデルとに基づいて、入力された対象分野の文字列に含まれる文字間の各々から、単語分割する位置を判定する。   According to the first and second inventions, the division position estimation unit estimates the position at which the word is divided for each of the character strings included in the raw corpus that is a set of character strings in the target field, and A label indicating the position where the word is divided is assigned to each, and the learning feature extraction unit is a set of character strings in the original field different from the target field, and the label indicating the position where the word is divided into each between characters For each of the character strings included in the word division corpus to which a label indicating a position where no word is divided is assigned in advance, a feature between each of the characters provided with a label indicating a position where the word is divided, and a position where the word is not divided For each of the characters between the characters with the label indicating the position to divide the word into each character string included in the raw corpus The features are extracted, and the model learning unit extracts the features for each of the characters given the label indicating the position to divide the word, and the characters between the characters given the label indicating the position where the word is not divided. Based on the feature, learn a word division model for determining the position of word division for the character string in the target field, and by the feature extraction unit, the feature between each character included in the input character string of the target field And the binary classification unit, based on the feature between each of the extracted characters and the learned word division model, from each of the characters included in the input character string of the target field, The position where the word is divided is determined.

このように、対象分野の文字列の集合である生コーパスに含まれる文字列の各々に対して、文字間の各々に単語分割する位置を示すラベルを付与し、対象分野とは異なる元分野の文字列の集合であって、かつ、文字間の各々に単語分割する位置を示すラベル及び単語分割しない位置を示すラベルが予め付与された単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、生コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性を抽出し、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性に基づいて、対象分野の文字列について単語分割する位置を判定するための単語分割モデルを学習し、入力された対象分野の文字列に含まれる文字間の各々についての素性を抽出し、抽出した文字間の各々についての素性と、学習された単語分割モデルとに基づいて、入力された対象分野の文字列に含まれる文字間の各々から、単語分割する位置を判定することにより、対象分野の文字列について精度良く単語分割をすることができる。   In this way, each character string included in the raw corpus, which is a set of character strings in the target field, is assigned a label indicating the position of word division between each character, and the original field different from the target field. For each of the character strings included in the word segmentation corpus, which is a set of character strings and has a label indicating a position at which to divide a word between each character and a label indicating a position at which the word is not divided are given in advance. Each of the character strings included in the raw corpus is extracted by extracting the features for each of the characters between which the labels indicating the positions to be divided and the characters between the characters having the labels indicating the positions where the words are not divided are assigned. For each of the characters between the characters to which the label indicating the position to divide the word is extracted, the feature between each character to which the label to indicate the position to divide the word is assigned, and Learning a word division model for determining a word division position for a character string of a target field based on a feature for each character with a label indicating a position where word division is not performed. Characters included in the character string of the input target field are extracted based on the extracted features of each character between the characters included in the character string and the learned word division model. By determining the position where the word is divided from each of the intervals, it is possible to perform word division with high accuracy for the character string in the target field.

また、第1の発明において、前記生コーパスに含まれる文字列に基づいて、部分文字列毎に、前記部分文字列の前後に接続される文字の統計量を計算する統計量計算部を更に含み、前記分割位置推定部は、前記統計量計算部において前記部分文字列毎に計算された前記部分文字列の前後に接続される文字の統計量に基づいて、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を推定し、文字間の各々に単語分割する位置を示すラベルを付与してもよい。   The first invention further includes a statistic calculator for calculating a statistic of characters connected before and after the partial character string for each partial character string based on the character string included in the raw corpus. The division position estimation unit is configured to determine a character string included in the raw corpus based on a statistic of characters connected before and after the partial character string calculated for each partial character string by the statistic calculation unit. For each, a position where the word is divided may be estimated, and a label indicating the position where the word is divided may be given to each between the characters.

また、第1の発明において、前記分割位置推定部は、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置及び単語分割しない位置を推定し、文字間の各々に、単語分割する位置を示すラベル、単語分割しない位置を示すラベル、及び分割有無不明位置を示すラベルの何れか一つを付与し、前記学習素性抽出部は、前記単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出してもよい。   In the first invention, the division position estimation unit estimates a position where words are divided and a position where words are not divided, for each character string included in the raw corpus, and word division is performed between characters. Any one of a label indicating a position to be performed, a label indicating a position where word division is not performed, and a label indicating a position where the division is unknown is provided, and the learning feature extraction unit applies each of the character strings included in the word division corpus On the other hand, the features for each of the characters between which the label indicating the position to divide the word is assigned and the features for each of the characters to which the label indicating the position not to divide the word are extracted are included in the raw corpus For each character string, a feature for each character between which a label indicating a position to divide a word is given and each character between a character to which a label indicating a position not to divide a word is given Identity may be the extraction of about.

また、第1の発明において、前記分割位置推定部は、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を推定し、文字間の各々に、単語分割する位置を示すラベル、及び分割有無不明位置を示すラベルの何れか一方を付与してもよい。   Further, in the first invention, the division position estimation unit estimates a position for dividing a word for each of the character strings included in the raw corpus, and a label indicating a position for dividing the word between each character. , And a label indicating the position where the division is unknown may be provided.

また、本発明のプログラムは、コンピュータを、上記の単語分割装置を構成する各部として機能させるためのプログラムである。   Moreover, the program of this invention is a program for functioning a computer as each part which comprises said word division | segmentation apparatus.

以上説明したように、本発明の単語分割装置、方法、及びプログラムによれば、対象分野の文字列の集合である生コーパスに含まれる文字列の各々に対して、文字間の各々に単語分割する位置を示すラベルを付与し、対象分野とは異なる元分野の単語分割コーパスと、生コーパスとに対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、対象分野の文字列について単語分割する位置を判定するための単語分割モデルを学習し、学習された対象分野の文字列について単語分割する位置を判定するための単語分割モデルに基づいて、対象分野の文字列の単語分割する位置を判定することにより、対象分野の文字列について精度良く単語分割をすることができる。   As described above, according to the word segmentation apparatus, method, and program of the present invention, for each character string included in the raw corpus that is a set of character strings in the target field, word segmentation is performed between each character. A word indicating a position to be divided, and a word division corpus of an original field different from the target field, and a raw corpus, a feature for each of characters between which a label indicating a word dividing position is assigned, and a word The feature between each character with a label indicating the position to not divide is extracted, the word division model for determining the word division position for the character string in the target field is learned, and the learned character in the target field Based on the word division model for determining the word division position for the column, the character string in the target field is determined in detail by determining the word division position of the character string in the target field. Well it can be a word division.

本発明の第1の実施の形態に係る単語分割装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the word division | segmentation apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係るモデル学習装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the model learning apparatus which concerns on the 1st Embodiment of this invention. ある文字間tの分類に参照する文字の例を示す。The example of the character referred to the classification | category of a certain character spacing ti is shown. 本発明の第1の実施の形態に係る単語分割判定装置の機能的構成を示すブロック図である。It is a block diagram which shows the functional structure of the word division | segmentation determination apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係るモデル学習装置における部分的単語分割コーパス処理ルーチンを示すフローチャート図である。It is a flowchart figure which shows the partial word division corpus processing routine in the model learning apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係るモデル学習装置におけるモデル学習処理ルーチンを示すフローチャート図である。It is a flowchart figure which shows the model learning process routine in the model learning apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態に係る単語分割判定装置における単語分割判定処理ルーチンを示すフローチャート図である。It is a flowchart figure which shows the word division | segmentation determination processing routine in the word division | segmentation determination apparatus which concerns on the 1st Embodiment of this invention.

以下、図面を参照して本発明の実施の形態を詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

<本実施の形態の原理>
まず、本実施の形態における原理について説明する。本実施の形態は、特に日本語の単語分割においてカタカナや漢字で構成される複合語における誤りが多いことに注目してなされるものである。本実施の形態は、大規模な対象分野の生コーパスにおいて単語分割の手がかりとなる文字列の統計量を計算し、生コーパス中で単語境界であると期待できる箇所を自動的に判定し、その箇所を単語分割のための追加学習用データとして利用することを特徴とする。
<Principle of this embodiment>
First, the principle in the present embodiment will be described. In particular, this embodiment is made by paying attention to the fact that there are many errors in compound words composed of katakana and kanji in Japanese word division. This embodiment calculates the statistic of a character string that is a clue to word division in a raw corpus of a large target field, automatically determines a portion that can be expected to be a word boundary in the raw corpus, The location is used as additional learning data for word division.

本実施の形態で利用する単語分割プログラムは、非特許文献3記載のものと同様の、ある文字間が単語境界であるか否かを二値分類で判定するものであるとする。本実施の形態は、単語分割コーパスと、単語分割コーパスとは別の分野である対象分野の生コーパスを利用して統計モデルを学習し、対象分野の入力文字列に対して単語分割処理を施す機能を有する。   It is assumed that the word division program used in the present embodiment is similar to that described in Non-Patent Document 3 and determines whether or not a certain character space is a word boundary by binary classification. In the present embodiment, a statistical model is learned using a word division corpus and a raw corpus in a target field that is a field different from the word division corpus, and word division processing is performed on an input character string in the target field. It has a function.

次に、本実施の形態において用いる単語分割プログラムについて説明する。単語分割プログラムは、文字間が単語分割する位置であるか否かを、周辺の文字の情報等を素性として二値分類で判定し、その結果に基づいて単語分割した文字列を出力する。素性には非特許文献3記載の、周辺の文字や文字種の情報、周辺の部分文字列が外部の辞書に登録された単語であるか否か、などが利用できる。また、二値分類の方法としては、ロジスティック回帰やサポートベクタマシン(SVM)など既知の統計的手法が適用可能である。二値分類の統計モデルの学習にあたっては、単語分割コーパス、および部分的単語分割コーパスが利用可能である。ここで、単語分割コーパスは文書もしくは文全体に渡って単語分割位置の情報が付与されているもの、部分的単語分割コーパスは単語分割位置の情報が部分的に付与されているものと区別する。二値分類による単語分割方法は、部分的単語分割コーパスによって統計モデルが学習できることが、ごく局所的な情報のみでも統計モデルを強化することができるという面で大きな利点がある。   Next, the word division program used in this embodiment will be described. The word segmentation program determines whether or not a character segmentation position is a word segmentation position by using binary classification based on information on surrounding characters and the like, and outputs a character string segmented based on the result. Non-patent document 3 includes information on peripheral characters and character types, whether or not peripheral partial character strings are words registered in an external dictionary, and the like. As a binary classification method, a known statistical method such as logistic regression or support vector machine (SVM) can be applied. In learning the statistical model of binary classification, a word division corpus and a partial word division corpus can be used. Here, the word division corpus is distinguished from the one in which the information on the word division position is given over the entire document or sentence, and the partial word division corpus is distinguished from the one in which the information on the word division position is given in part. The word segmentation method based on binary classification has a great advantage in that the statistical model can be learned by a partial word segmentation corpus, and that the statistical model can be strengthened by only local information.

次に、本実施の形態における生コーパスの利用について説明する。生コーパスから得られる特徴量として、非特許文献6記載のAccessor Varietyや、非特許文献7(Zhihui Jin他. Unsupervised Segmentation of Chinese Text by Use of Branching Entropy, Proceedings of the COLING/ACL 2006, pp 428-435, 2006.)記載のBranching Entropyなどがある。Accessor Varietyはある部分文字列両端に接続する文字の異なり数であり、長さnの部分文字列x に対して、下記(1)式で表されるAV(x )の値となる。 Next, use of the raw corpus in the present embodiment will be described. Non-Patent Document 6 Accessor Variety and Non-Patent Document 7 (Zhihui Jin et al. Unsupervised Segmentation of Chinese Text by Use of Branching Entropy, Proceedings of the COLING / ACL 2006, pp 428- 435, 2006.) and Branching Entropy. The Accessor Variety is the number of different characters connected to both ends of a certain partial character string. For the partial character string x n 1 of length n, the value of AV (x n 1 ) represented by the following equation (1) Become.

ここで、AV(x)は生コーパス中で部分文字列xの左側に接続する文字の異なり数、AV(x)は右側に接続する文字の異なり数である。Branching Entropyはある部分文字列の次に接続する文字のエントロピーであり、長さnの部分文字列x に対して下記(2)式で表されるH(X|X =x )の値である。 Here, AV L (x n ) is the number of different characters connected to the left side of the partial character string x n in the raw corpus, and AV R (x n ) is the number of different characters connected to the right side. Branching Entropy is the entropy of the character to be connected next to a partial character string, and H (X | X n 1 = x n ) expressed by the following equation (2) with respect to the partial character string x n 1 of length n 1 ).

なお、Xおよびxを部分文字列の前に接続する文字と考えることで、部分文字列の前に接続する文字のエントロピーを計算することも可能である。また、下記(3)式のようにBranching Entropyの差分値を見ることもできる。これは、部分文字列x の次の文字のエントロピーと、xn−1 の次の文字(x の最後の文字に相当)のエントロピーとの差分である。直観的には部分文字列が長い方が次の文字の曖昧性が小さく、エントロピーも小さくなることが予想されるが、x の直後が単語境界である場合は、続いて出現し得る単語の個数分の曖昧性があるためエントロピーが増加する可能性が高いため、単語境界を見つけるための有力な手がかりとなる(非特許文献7)。 It is also possible to calculate the entropy of the character connected before the partial character string by considering X and x as characters connected before the partial character string. The difference value of Branching Entropy can also be seen as shown in the following equation (3). This is the difference between the entropy of the next character of the partial character string x n 1 and the entropy of the next character of x n−1 1 (corresponding to the last character of x n 1 ). Intuitively, it is expected that the longer the partial character string, the smaller the ambiguity of the next character and the smaller the entropy. However, if a word boundary immediately follows x n 1 , the word that can appear subsequently Since there is a high possibility that entropy will increase due to the ambiguity of the number of words, this is a powerful clue for finding word boundaries (Non-patent Document 7).

これらの値が大きい箇所は接続する文字の曖昧性が高い、すなわち前後に様々な単語が接続する単語の境界であることが予想されるため、生コーパスのみを使って単語分割位置を推定することができる。非特許文献6はAccessor Varietyを利用して中国語の単語を発見することを目的としており、非特許文献7はBranching Entropyを利用して、単語分割コーパスを用いずに単語分割を行うことを目的としている。しかし、これらの統計量による単語分割位置の推定のみですべての単語に対して高精度の単語分割をすることは難しいため、本実施の形態のように単語分割コーパスによる統計モデルの学習と合わせて利用することで、単語分割コーパスと合致する分野では高精度だが対象分野の十分な学習が行えない単語分割コーパスのみによる方法と、対象分野の単語分割がある程度可能だが全体的な単語分割精度が十分でない生コーパスのみによる方法を両立させることが重要である。なお、本実施の形態においては、生コーパスからAccessor Varietyの特徴量を取得する場合を例に説明する。   Where these values are large, the connected character is highly ambiguous, that is, it is expected to be a boundary between words connected by various words before and after, so estimate the word division position using only the raw corpus Can do. Non-Patent Document 6 aims to find Chinese words using Accessor Variety, and Non-Patent Document 7 uses Branching Entropy to perform word segmentation without using a word segmentation corpus. It is said. However, since it is difficult to perform high-precision word division for all words only by estimating the word division position based on these statistics, it is combined with learning of a statistical model by a word division corpus as in this embodiment. By using this method, the method using only the word segmentation corpus that is highly accurate in the field that matches the word segmentation corpus but does not allow sufficient learning of the target field, and the word segmentation in the target field is possible to some extent, but the overall word segmentation accuracy is sufficient It is important to reconcile methods that use only raw corpora. In the present embodiment, a case will be described as an example where an Accessor Variety feature amount is acquired from a raw corpus.

本実施の形態では、部分的単語分割コーパスによって学習が可能な二値分類による単語分割方法の利点を、単語分割位置が推定可能な大量の生コーパスを利用することで活用する。つまり、分野の異なる単語分割コーパスのみでは十分に適応できなかった対象分野特有の語彙に対する単語分割を、対象分野の生コーパスの中で自動的に推定された単語分割情報を利用して改善することが本実施の形態のアプローチである。上述したように、生コーパスから得られる統計量はそれだけでは高精度の単語分割精度を達成し得ないが、特に長い複合語においては、通常複合語を構成する単語は異なる文脈でそれぞれ利用されているため、前記文字列の統計量に顕著な違いが現れることが期待でき、本実施の形態の目的に好適である。   In the present embodiment, the advantage of the word classification method based on binary classification that can be learned by the partial word division corpus is utilized by using a large number of raw corpora whose word division positions can be estimated. In other words, improve word segmentation for vocabulary specific to the subject area that could not be adequately applied only with word segmentation corpora in different fields, using word segmentation information automatically estimated in the raw corpus of the subject field. Is the approach of the present embodiment. As described above, the statistics obtained from the raw corpus alone cannot achieve a high precision of word segmentation, but in particular for long compound words, the words that make up a compound word are usually used in different contexts. Therefore, it can be expected that a significant difference appears in the statistics of the character string, which is suitable for the purpose of this embodiment.

単語分割位置の推定にあたっては、文字列の統計量に対して閾値を設定して、閾値を超える箇所について「単語分割する位置」を意味するラベルを付し、そうでない箇所については「分割有無不明位置」を意味するラベルを付す。ここでさらに、閾値を下回る箇所、もしくは別のより小さな閾値を下回る箇所について「単語分割しない位置」を意味するラベルを付してもよい。また、元分野の単語分割コーパスとの整合性を保つため、元分野の単語分割コーパスで学習された単語分割プログラムで得られる単語分割有無と一致した箇所のみを保持し、一致しない箇所は「分割有無不明位置」としてもよい。さらに、分野適応における効果が大きいと予想される複合語分割の改善に注力するため、「カタカナとカタカナの間」「漢字と漢字の間」などの特定の対象に絞って「単語分割する位置」「単語分割しない位置」のラベルを付すようにしてもよい。これを生コーパス全体に渡って行うと、「単語分割する位置」「分割有無不明位置」「単語分割しない位置」のラベルが付与されたコーパスが得られる。「分割有無不明位置」のラベルが存在することで、このコーパスは部分的単語分割コーパスとなる。なお、本実施の形態においては、文字列の統計量が閾値を超える箇所について「単語分割する位置」を意味するラベルを付し、第1の閾値以下であって、かつ第2の閾値よりも大きい箇所について「分割有無不明位置」を意味するラベルを付し、第2の閾値以下の箇所について「単語分割しない位置」を意味するラベルを付す。   In estimating the word division position, a threshold is set for the statistic of the character string, a label meaning “word division position” is attached to a portion exceeding the threshold value, and “partition existence is unknown” for the other portion A label meaning “position” is attached. Here, a label that means “a position where words are not divided” may be attached to a location below the threshold or a location below another smaller threshold. In addition, in order to maintain consistency with the word division corpus of the original field, only the portions that match the word division presence / absence obtained by the word division program learned by the word division corpus of the original field are retained, and the portions that do not match are divided. It may be a “presence / absence unknown position”. Furthermore, in order to focus on improving compound word segmentation, which is expected to have a significant effect on field adaptation, the “word segmentation position” is limited to specific targets such as “between katakana and katakana” and “between kanji and kanji”. You may make it attach the label of "the position which does not divide a word". If this operation is performed over the entire raw corpus, a corpus having the labels “position for dividing words”, “position where division is unknown”, and “position where words are not divided” is obtained. The corpus becomes a partial word division corpus due to the presence of the label “divided / unknown position”. In the present embodiment, a label that means “a position to divide words” is attached to a portion where the statistic of the character string exceeds the threshold value, which is equal to or less than the first threshold value and higher than the second threshold value. A label meaning “a position where the division is unknown” is attached to a large portion, and a label meaning “a position where no word is divided” is attached to a portion below the second threshold.

得られた部分的単語分割コーパスは、単語分割の統計モデルの学習に利用できる。学習に当たっては元の単語分割コーパスと組み合わせて統計モデルを始めから学習し直してもよいし、追加された部分的単語分割コーパスから得られるモデルとの混合モデル(混合比は別途定める)を構成してもよい。学習の方法については公知の単語分割プログラムKyTeaで利用している方式等が利用できる。   The obtained partial word division corpus can be used for learning a statistical model of word division. In learning, the statistical model may be re-learned from the beginning in combination with the original word segmentation corpus, or a mixed model with the model obtained from the added partial word segmentation corpus (mixing ratio is determined separately) is configured. May be. As a learning method, a method used in the well-known word division program KyTea can be used.

<本発明の第1の実施の形態に係る単語分割装置の構成>
次に、本発明の第1の実施の形態に係る単語分割装置の構成について説明する。図1に示すように、本発明の第1の実施の形態に係る単語分割装置1は、モデル学習装置100と、単語分割判定装置200とを含んで構成されている。
<Configuration of word segmentation apparatus according to first embodiment of the present invention>
Next, the configuration of the word segmentation device according to the first embodiment of the present invention will be described. As shown in FIG. 1, the word segmentation device 1 according to the first exemplary embodiment of the present invention includes a model learning device 100 and a word segmentation determination device 200.

<本発明の第1の実施の形態に係るモデル学習装置の構成>
次に、本発明の第1の実施の形態に係るモデル学習装置の構成について説明する。図2に示すように、本発明の第1の実施の形態に係るモデル学習装置100は、CPUと、RAMと、後述する部分的単語分割コーパス処理ルーチン及びモデル学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。このモデル学習装置100は、機能的には図2に示すように入力部10と、演算部20と、出力部90とを備えている。
<Configuration of Model Learning Device According to First Embodiment of the Present Invention>
Next, the configuration of the model learning device according to the first embodiment of the present invention will be described. As shown in FIG. 2, the model learning device 100 according to the first embodiment of the present invention includes a CPU, a RAM, and a program for executing a partial word division corpus processing routine and a model learning processing routine described later. And a ROM including various data stored in a ROM. Functionally, the model learning apparatus 100 includes an input unit 10, a calculation unit 20, and an output unit 90 as shown in FIG.

入力部10は、対象分野の文字列の集合である生コーパスを受け付け生コーパス記憶部22に記憶する。   The input unit 10 accepts a raw corpus that is a set of character strings in the target field and stores it in the raw corpus storage unit 22.

演算部20は、生コーパス記憶部22と、統計量記憶部24と、追加学習コーパス部30と、部分的単語分割コーパス記憶部40と、単語分割コーパス記憶部42と、単語辞書記憶部44と、統計モデル学習部50と、モデル記憶部60とを備えている。   The arithmetic unit 20 includes a raw corpus storage unit 22, a statistic storage unit 24, an additional learning corpus unit 30, a partial word division corpus storage unit 40, a word division corpus storage unit 42, and a word dictionary storage unit 44. The statistical model learning unit 50 and the model storage unit 60 are provided.

生コーパス記憶部22には、入力部10において受け付けた生コーパスが記憶されている。   The raw corpus storage unit 22 stores the raw corpus received by the input unit 10.

追加学習コーパス部30は、生コーパス記憶部22に記憶されている生コーパスに含まれる部分文字列の各々の前後に接続される文字の統計量に基づいて、部分的単語分割コーパスを取得し、部分的単語分割コーパス記憶部40に記憶する。また、追加学習コーパス部30は、統計量計算部32と、分割位置推定部34と、コーパス出力部36とを備えている。   The additional learning corpus unit 30 acquires a partial word division corpus based on the statistic of characters connected before and after each of the partial character strings included in the raw corpus stored in the raw corpus storage unit 22, This is stored in the partial word division corpus storage unit 40. Further, the additional learning corpus unit 30 includes a statistic calculation unit 32, a division position estimation unit 34, and a corpus output unit 36.

統計量計算部32は、まず、生コーパス記憶部22に記憶されている生コーパスに含まれる、長さNの部分文字列の各々を取得する。ここでは、文字列に、長さNの窓を走査し、1文字ずつずらしながら長さNの部分文字列を取得する。このとき、同一の文字列から構成される部分文字列は同一の部分文字列として扱う。次に、統計量計算部32は、取得された部分文字列の各々について、当該部分文字列の左側に接続する文字、及び右側に接続する文字を取得する。そして、部分文字列の各々について、当該部分文字列の各々について取得された左側に接続する文字、及び右側に接続する文字の各々に基づいて、上記(1)式に従って、部分文字列両端に接続する文字の異なり数であるAccessor Varietyの統計量を計算し、文字列統計量データとして統計量記憶部24に記憶する。なお、部分文字列と接続する文字の抽出は処理の高速化のために生コーパスを適当なサイズに分割して並列化することが可能であり、部分文字列に対するエントロピーの計算等は処理の高速化のために部分文字列毎に並列化することが可能である。また、部分文字列の長さNは、非特許文献5や非特許文献7で行われているように、複数のものを並行して利用してもよい。   The statistic calculation unit 32 first acquires each of the partial character strings of length N included in the raw corpus stored in the raw corpus storage unit 22. Here, the character string is scanned through a window of length N, and a partial character string of length N is acquired while shifting character by character. At this time, partial character strings composed of the same character string are treated as the same partial character string. Next, for each of the acquired partial character strings, the statistic calculation unit 32 acquires a character connected to the left side of the partial character string and a character connected to the right side. Then, for each of the partial character strings, based on each of the characters connected to the left side and the characters connected to the right side acquired for each of the partial character strings, it is connected to both ends of the partial character string according to the above formula (1) The statistic of Accessor Variety, which is the number of different characters to be calculated, is calculated and stored in the statistic storage unit 24 as character string statistic data. The extraction of characters connected to a partial character string can be performed by dividing the raw corpus into an appropriate size for parallel processing in order to speed up the processing, and entropy calculation for the partial character string can be performed at high speed. It is possible to parallelize each partial character string for conversion. Moreover, as the length N of the partial character string is used in Non-Patent Document 5 and Non-Patent Document 7, a plurality of characters may be used in parallel.

分割位置推定部34は、統計量記憶部24に記憶されている部分文字列毎に計算された当該部分文字列の前後に接続される文字の統計量に基づいて、単語分割する位置を推定し、部分文字列毎に、当該部分文字列の前後の文字間に、分割される位置を示すラベル、分割されない位置を示すラベル、又は分割有無不明位置を示すラベルを付与することにより、生コーパスの全ての文字間の各々にラベルを付与する。具体的には、予め定められた第1の閾値及び第2の閾値(第1の閾値>第2の閾値)を定めておき、部分文字列の各々について、当該部分文字列の前後に接続される文字の統計量が、予め定められた第1の閾値よりも大きい場合に、分割される位置を示すラベルを付与し、当該部分文字列の前後に接続される文字の統計量が予め定められた第1の閾値以下であり、かつ予め定められた第2の閾値よりも大きい場合に、分割有無不明位置を示すラベルを付与し、当該部分文字列の前後に接続される文字の統計量が予め定められた第2の閾値以下である場合に、分割されない位置を示すラベルを付与する。   The division position estimation unit 34 estimates the word division position based on the statistics of characters connected before and after the partial character string calculated for each partial character string stored in the statistic storage unit 24. For each partial character string, by giving a label indicating a position to be divided, a label indicating a position not to be divided, or a label indicating a position where the division is unknown, between characters before and after the partial character string, Label each character between all characters. Specifically, a predetermined first threshold value and second threshold value (first threshold value> second threshold value) are determined, and each partial character string is connected before and after the partial character string. If the character statistic is greater than a predetermined first threshold, a label indicating the position to be divided is assigned, and the character statistic connected before and after the partial character string is determined in advance. A label indicating the position where the division is unknown, and a statistic of characters connected before and after the partial character string is less than the first threshold and greater than a predetermined second threshold. When the value is equal to or less than a predetermined second threshold value, a label indicating a position that is not divided is assigned.

コーパス出力部36は、分割位置推定部34においてラベルが付与された生コーパスを、部分的単語分割コーパスとして、部分的単語分割コーパス記憶部40に記憶する。部分的単語分割コーパスの形態としては、例えば、公知の単語分割器KyTeaの部分的単語分割コーパスで利用されている、単語分割される位置は文字間に“|”を、単語分割されない位置は文字間に“-”を、単語分割不明な位置は文字間に空白文字もしくは“?”を、それぞれ挿入した文字列とする。   The corpus output unit 36 stores the raw corpus given the label by the division position estimation unit 34 in the partial word division corpus storage unit 40 as a partial word division corpus. As the form of the partial word division corpus, for example, the word division corpus used in the known word divider KyTea uses “|” as the position where the word is divided, and the position where the word is not divided as the character. A character string in which “-” is inserted in between and a blank character or “?” Is inserted between characters at positions where word division is unknown.

部分的単語分割コーパス記憶部40には、コーパス出力部36において取得された部分的単語分割コーパスを記憶している。   The partial word division corpus storage unit 40 stores the partial word division corpus acquired by the corpus output unit 36.

単語分割コーパス記憶部42には、上記対象分野とは異なる分野である元分野の文字列の集合であって、かつ、文字間の各々の単語分割する位置を示すラベル及び単語分割しない位置を示すラベルが予め付与された単語分割コーパスが記憶されている。   The word division corpus storage unit 42 is a set of character strings in the original field that is a field different from the target field, and indicates a label indicating a position where each word is divided between characters and a position where no word is divided. A word division corpus to which labels are assigned in advance is stored.

単語辞書記憶部44には、予め定義された複数の単語の各々からなる単語辞書が記憶されている。   The word dictionary storage unit 44 stores a word dictionary composed of a plurality of predefined words.

統計モデル学習部50は、部分的単語分割コーパス記憶部40に記憶されている部分的単語分割コーパスと、単語分割コーパス記憶部42に記憶されている単語分割コーパスと、単語辞書記憶部44に記憶されている単語辞書と、に基づいて、対象分野の文字列について単語分割する位置を判定するための単語分割モデルを学習する。また、統計モデル学習部50は、学習素性抽出部52と、モデル学習部54とを備えている。   The statistical model learning unit 50 stores the partial word division corpus stored in the partial word division corpus storage unit 40, the word division corpus stored in the word division corpus storage unit 42, and the word dictionary storage unit 44. A word division model for determining a position to divide a word with respect to a character string in the target field is learned based on the word dictionary. The statistical model learning unit 50 includes a learning feature extraction unit 52 and a model learning unit 54.

学習素性抽出部52は、単語辞書記憶部44に記憶されている単語辞書に基づいて、部分的単語分割コーパス記憶部40に記憶されている部分的単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、単語分割コーパス記憶部42に記憶されている単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出する。例えば、素性として、ある文字間tについては、下記(a)〜(c)を抽出する(非特許文献3)。図3にある文字間tの分類に参照する文字を示す。 Based on the word dictionary stored in the word dictionary storage unit 44, the learning feature extraction unit 52 applies each character string included in the partial word division corpus stored in the partial word division corpus storage unit 40. Then, a feature for each of the characters between which the label indicating the position to divide the word is assigned and a feature for each of the characters to which the label indicating the position where the word is not divided are assigned are extracted, and the word division corpus storage unit 42 is extracted. Each of the character strings included in the word division corpus stored in is provided with a feature for each of the characters to which a label indicating a word division position is assigned, and a label indicating a position where the word division is not performed. Extract features for each character. For example, as a feature, the following (a) to (c) are extracted for a certain character interval t i (Non-patent Document 3). The character referred to in the classification | category of the character spacing ti in FIG. 3 is shown.

(a)文字n−gram:文字間の位置iの前後の部分文字列であり、窓幅mと長さnのパラメータがある場合、長さ2mの文字列xi−m+1…xi−1i+1…xi+mの長さnのすべての部分文字(文字n−gram)からなる素性である。
(b)文字種n−gram:文字間の位置iの前後の部分文字列であり、窓幅mと長さnのパラメータがある場合、長さ2mの文字列xi−m+1…xi−1i+1…xi+mの長さnのすべての部分文字(文字n−gram)に含まれる文字種からなる素性である。ここで、文字種は、漢字、片仮名、平仮名、ローマ字、数字、及びその他の6つである。
(c)単語辞書素性:各長さkに対する、文字間の左の部分文字列xi−k+1i−k+2…xが単語として単語辞書記憶部44に記憶されている単語辞書に含まれているか否か、文字間の右の部分文字列xi+1i+2…xi+kが単語として単語辞書記憶部44に記憶されている単語辞書に含まれているか否か、及び文字間をまたぐ部分文字列xi−j+1i−j+2…xi−j+k
(A) Character n-gram: a partial character string before and after the position i between characters, and when there are parameters of a window width m and a length n, a character string x i-m + 1 ... x i-1 with a length of 2 m x i x i + 1 ... is a feature made up of all partial characters (character n-gram) of length n of x i + m .
(B) Character type n-gram: a partial character string before and after a position i between characters, and when there are parameters of a window width m and a length n, a character string x i-m + 1 ... x i−1 having a length of 2 m x i x i + 1 ... is a feature made up of character types included in all partial characters (character n-gram) of length n of x i + m . Here, there are six types of characters: kanji, katakana, hiragana, romaji, numbers, and others.
(C) Word dictionary feature: the left partial character string x i−k + 1 x i−k + 2 ... X i for each length k is included in the word dictionary stored in the word dictionary storage unit 44 as a word. Whether the right partial character string x i + 1 x i + 2 ... X i + k between the characters is included in the word dictionary stored in the word dictionary storage unit 44 as a word, and the partial character straddling the character Row x i−j + 1 x i−j + 2 ... X i−j + k

が単語として単語辞書記憶部44に記憶されている単語辞書に含まれているか否か、とからなる素性である。 Is included in the word dictionary stored in the word dictionary storage unit 44 as a word.

モデル学習部54は、部分的単語分割コーパス記憶部40に記憶されている部分的単語分割コーパスに含まれる文字列の各々の文字間毎のラベル及び学習素性抽出部において抽出された素性と、単語分割コーパス記憶部42に記憶されている単語分割コーパスに含まれる文字列の各々の文字間毎のラベル及び学習素性抽出部において抽出された素性と、に基づいて、対象分野の文字列について単語分割する位置を判定するための単語分割モデルを学習し、出力部90に出力すると共に、モデル記憶部60に記憶する。モデルの学習には、ロジスティック回帰又はサポートベクタマシンを用いた分類器の学習を行うLibLinearや、サポートベクタマシンを用いた分類器の学習を行うSVMlightなどを利用する。   The model learning unit 54 includes a label for each character of the character string included in the partial word division corpus stored in the partial word division corpus storage unit 40 and the features extracted by the learning feature extraction unit, Based on the character-by-character labels of the character strings included in the word division corpus stored in the division corpus storage unit 42 and the features extracted by the learning feature extraction unit, word division is performed on the character strings in the target field. The word division model for determining the position to be learned is learned and output to the output unit 90 and stored in the model storage unit 60. For model learning, LibLinear for learning a classifier using logistic regression or a support vector machine, SVMlight for learning a classifier using a support vector machine, or the like is used.

モデル記憶部60には、モデル学習部54において学習された対象分野の文字列について単語分割する位置を判定するための単語分割モデルが記憶されている。   The model storage unit 60 stores a word division model for determining a position where a word division is performed for a character string in the target field learned by the model learning unit 54.

<本発明の第1の実施の形態に係る単語分割判定装置の構成>
次に、本発明の第1の実施の形態に係る単語分割判定装置の構成について説明する。図4に示すように、本発明の第1の実施の形態に係る単語分割判定装置200は、CPUと、RAMと、後述する単語分割判定処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この単語分割判定装置200は、機能的には図4に示すように入力部210と、演算部220と、出力部290とを備えている。
<Configuration of Word Division Determination Apparatus According to First Embodiment of the Present Invention>
Next, the configuration of the word division determination device according to the first embodiment of the present invention will be described. As shown in FIG. 4, the word division determination apparatus 200 according to the first embodiment of the present invention stores a CPU, a RAM, a program for executing a word division determination processing routine described later, and various data. It can be composed of a computer including a ROM. Functionally, the word division determination apparatus 200 includes an input unit 210, a calculation unit 220, and an output unit 290 as shown in FIG.

入力部210は、対象分野の文字列を受け付ける。   The input unit 210 receives a character string in the target field.

演算部220は、単語辞書記憶部230と、モデル記憶部232と、単語分割処理部240と、単語列記憶部250と、を備えている。   The calculation unit 220 includes a word dictionary storage unit 230, a model storage unit 232, a word division processing unit 240, and a word string storage unit 250.

単語辞書記憶部230には、モデル学習装置100の単語辞書記憶部44と同一の単語辞書が記憶されている。   The word dictionary storage unit 230 stores the same word dictionary as the word dictionary storage unit 44 of the model learning device 100.

モデル記憶部232には、モデル学習装置100のモデル記憶部60と同一の、対象分野の文字列について単語分割する位置を判定するための単語分割モデルが記憶されている。   The model storage unit 232 stores the same word division model for determining the position of word division for the character string in the target field, which is the same as the model storage unit 60 of the model learning device 100.

単語分割処理部240は、入力部210において受け付けた、対象分野の文字列について、単語列に分割する。また、単語分割処理部240は、素性抽出部242と、二値分類部244と、データ変換部246とを備えている。   The word division processing unit 240 divides the character string in the target field received by the input unit 210 into a word string. The word division processing unit 240 includes a feature extraction unit 242, a binary classification unit 244, and a data conversion unit 246.

素性抽出部242は、モデル学習装置100の学習素性抽出部52と同様に、入力部210において受け付けた文字列の文字間の各々について、単語辞書記憶部230に記憶されている単語辞書を用いて、素性を抽出する。   Similar to the learning feature extraction unit 52 of the model learning device 100, the feature extraction unit 242 uses a word dictionary stored in the word dictionary storage unit 230 for each character string received by the input unit 210. Extract features.

二値分類部244は、素性抽出部242において抽出した入力部210において受け付けた文字列の文字間の各々の素性と、モデル記憶部232に記憶されている対象分野の文字列について単語分割する位置を判定するための単語分割モデルとに基づいて、文字間の各々が単語分割する位置か否かを判定する。なお、単語分割する位置か否かの判定には、ロジスティック回帰やサポートベクタマシンを代表とする公知の様々な分類器を用いることが可能である。   The binary classification unit 244 positions each of the features between characters of the character string received by the input unit 210 extracted by the feature extraction unit 242 and the word division of the character string of the target field stored in the model storage unit 232. It is determined based on the word division model for determining whether or not each position between the characters is a position where the word is divided. It should be noted that various known classifiers represented by logistic regression and support vector machines can be used to determine whether or not the position is a word division position.

データ変換部246は、二値分類部244において判定された結果に基づいて、入力部210において受け付けた文字列を単語列に分割し、単語列データとして単語列記憶部250に記憶すると共に、出力部290に出力する。なお、出力として端末やファイルに単語列データを出力する際、典型的には分割する位置となる文字間に空白文字を挿入することで分割位置を表すが、データの形式は特に限定しない。   The data conversion unit 246 divides the character string received by the input unit 210 into word strings based on the result determined by the binary classification unit 244, stores the character strings in the word string storage unit 250 as word string data, and outputs them. Output to the unit 290. Note that when outputting word string data to a terminal or a file as output, the division position is typically represented by inserting a blank character between the characters to be divided, but the data format is not particularly limited.

<本発明の第1の実施の形態に係るモデル学習装置の作用>
次に、本発明の第1の実施の形態に係るモデル学習装置100の作用について説明する。まず、対象分野の文字列の集合である生コーパスを受け付け、生コーパス記憶部22に記憶する。そして、生コーパス記憶部22から生コーパスを読み出すと、モデル学習装置100は、図5に示す部分的単語分割コーパス処理ルーチンを実行する。また、部分的単語分割コーパス処理ルーチンが終了すると、モデル学習装置100は、図6に示すモデル学習処理ルーチンを実行する。
<Operation of Model Learning Device According to First Embodiment of the Present Invention>
Next, the operation of the model learning device 100 according to the first embodiment of the present invention will be described. First, a raw corpus that is a set of character strings in the target field is received and stored in the raw corpus storage unit 22. Then, when the raw corpus is read from the raw corpus storage unit 22, the model learning device 100 executes a partial word division corpus processing routine shown in FIG. When the partial word division corpus processing routine ends, the model learning device 100 executes the model learning processing routine shown in FIG.

まず、図5に示す部分的単語分割コーパス処理ルーチンについて説明する。   First, the partial word division corpus processing routine shown in FIG. 5 will be described.

ステップS102では、読み込んだ生コーパスに含まれる、文字列を長さNの部分文字列の各々を取得する。   In step S102, each of the character strings included in the read raw corpus and having a character string length N is acquired.

次に、ステップS104では、ステップS102において取得した部分文字列の各々について、左側及び右側に接続する文字を取得する。   Next, in step S104, for each of the partial character strings acquired in step S102, characters connected to the left side and the right side are acquired.

次に、ステップS106では、ステップS102において取得した部分文字列の各々について、ステップS104において取得した当該左側及び右側に接続する文字に基づいて、上記(1)式に従って、当該部分文字列の前後に接続される文字の統計量を計算する。   Next, in step S106, for each of the partial character strings acquired in step S102, based on the characters connected to the left side and right side acquired in step S104, before and after the partial character string, according to the above equation (1). Calculate the statistics for connected characters.

次に、ステップS108では、ステップS102において取得した部分文字列の各々について、ステップS104において取得した当該部分文字列の前後に接続される文字の統計量と、予め定められた第1の閾値及び第2の閾値とに基づいて、当該部分文字列の前後の文字間に、分割される位置を示すラベル、分割されない位置を示すラベル、又は分割有無不明位置を示すラベルを付与することにより、生コーパスの全ての文字間の各々にラベルを付与する。   Next, in step S108, for each of the partial character strings acquired in step S102, the statistical amount of characters connected before and after the partial character string acquired in step S104, a predetermined first threshold value, and The raw corpus is assigned with a label indicating a position to be divided, a label indicating a position where no division is performed, or a label indicating a position where the division is unknown based on a threshold value of 2. A label is assigned to each of all the characters in.

次に、ステップS110では、ステップS108において取得した、文字間の各々にラベルが付与された生コーパスを、部分的単語分割コーパスとして、部分的単語分割コーパス記憶部40に記憶し、部分的単語分割コーパス処理ルーチンを終了する。   Next, in step S110, the raw corpus acquired in step S108 and labeled between each character is stored in the partial word division corpus storage unit 40 as a partial word division corpus, and the partial word division is performed. The corpus processing routine is terminated.

次に、図6に示すモデル学習処理ルーチンについて説明する。   Next, the model learning process routine shown in FIG. 6 will be described.

まず、ステップS200では、単語分割コーパス記憶部42に記憶されている単語分割コーパスを読み込む。   First, in step S200, the word division corpus stored in the word division corpus storage unit 42 is read.

次に、ステップS202では、部分的単語分割コーパス記憶部40に記憶されている部分的単語分割コーパスを読み込む。   Next, in step S202, the partial word division corpus stored in the partial word division corpus storage unit 40 is read.

次に、ステップS204では、単語辞書記憶部44に記憶されている単語辞書を読み込む。   In step S204, the word dictionary stored in the word dictionary storage unit 44 is read.

次に、ステップS206では、ステップS204において取得した単語辞書に基づいて、ステップS202において取得した部分的単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、ステップS200において取得した単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出する。   Next, in step S206, based on the word dictionary acquired in step S204, a label indicating the position at which the word is divided is assigned to each of the character strings included in the partial word division corpus acquired in step S202. A feature for each of the characters and a feature for each of the characters to which a label indicating a position where the word is not divided are extracted, and for each of the character strings included in the word division corpus acquired in step S200, A feature for each character between which a label indicating a position to divide a word is assigned and a feature for each character to which a label indicating a position where no word is divided is assigned are extracted.

次に、ステップS208では、ステップS200において取得した単語分割コーパスに含まれる文字列の各々の文字間のラベルと、ステップS202において取得した部分的単語分割コーパスに含まれる文字列の各々の文字間毎のラベルと、ステップS206において取得した、単語分割コーパス及び部分単語分割コーパスに含まれる文字列の各々の文字間について取得した素性の各々とに基づいて、対象分野の文字列について単語分割する位置を判定するための単語分割モデルを学習する。   Next, in step S208, a label between each character of the character string included in the word division corpus acquired in step S200 and each character interval of each character string included in the partial word division corpus acquired in step S202. , And the character segmentation position of the character string in the target field based on each of the features acquired for each character string included in the word segmentation corpus and the partial word segmentation corpus acquired in step S206. Learn the word division model for judgment.

次に、ステップS210では、ステップS208において取得した対象分野の文字列について単語分割する位置を判定するための単語分割モデルを、モデル記憶部60に記憶すると共に、出力部90に出力してモデル学習処理ルーチンを終了する。   Next, in step S210, a word division model for determining a word division position for the character string in the target field acquired in step S208 is stored in the model storage unit 60 and output to the output unit 90 for model learning. The processing routine ends.

<本発明の第1の実施の形態に係る単語分割判定装置の作用>
次に、本発明の第1の実施の形態に係る単語分割判定装置200の作用について説明する。まず、入力部210から、モデル学習装置100において学習された対象分野の文字列について単語分割する位置を判定するための単語分割モデルが入力され、モデル記憶部232に記憶される。そして、処理対象となる文字列を受け付けると、単語分割判定装置200は、図7に示す単語分割判定処理ルーチンを実行する。
<Operation of the word division determination device according to the first embodiment of the present invention>
Next, the operation of the word division determination apparatus 200 according to the first embodiment of the present invention will be described. First, from the input unit 210, a word division model for determining a word division position for a character string in the target field learned by the model learning device 100 is input and stored in the model storage unit 232. When receiving the character string to be processed, the word division determination device 200 executes a word division determination processing routine shown in FIG.

まず、ステップS300では、単語辞書記憶部230に記憶されている単語辞書を読み込む。   First, in step S300, a word dictionary stored in the word dictionary storage unit 230 is read.

次に、ステップS302では、モデル記憶部232に記憶されている対象分野の文字列について単語分割する位置を判定するための単語分割モデルを読み込む。   Next, in step S <b> 302, a word division model for determining a position where word division is performed for the character string in the target field stored in the model storage unit 232 is read.

次に、ステップS304では、入力部210において受け付けた文字列の文字間の各々について、ステップS206と同様に、素性の各々を抽出する。   Next, in step S304, each feature between the characters in the character string received by the input unit 210 is extracted as in step S206.

次に、ステップS306では、ステップS304において取得した入力部210において受け付けた文字列の文字間の各々の素性の各々と、ステップS302において取得した対象分野の文字列について単語分割する位置を判定するための単語分割モデルとに基づいて、文字間の各々が単語分割される位置か否かを判定する。   Next, in step S306, in order to determine each of the features between the characters of the character string received in the input unit 210 acquired in step S304 and the position where the word is divided for the character string of the target field acquired in step S302. Based on the word division model, it is determined whether or not each position between characters is a position where a word is divided.

次に、ステップS308では、ステップS306において取得した文字列の文字間の各々について判定された結果に基づいて、入力部210において受け付けた文字列を単語列に分割し、単語列データとする。   Next, in step S308, the character string received in the input unit 210 is divided into word strings based on the result determined for each character in the character string acquired in step S306 to obtain word string data.

次に、ステップS310では、ステップS308において取得した単語列データを、単語列記憶部250に記憶すると共に、出力部290に出力し、単語分割判定処理ルーチンを終了する。   Next, in step S310, the word string data acquired in step S308 is stored in the word string storage unit 250 and output to the output unit 290, and the word division determination processing routine is terminated.

<実験例>
本実施の形態で説明した手法を用いた実験において、一般的な日本語書き言葉の単語分割コーパスと、大量の日本語特許生コーパスを利用した場合、日本語特許文を単語分割した時の分割精度(F値)が本実施の形態による分野適応によって96.14%から97.42%に向上した。つまり、エラー率が3.86%から2.58%と約30%軽減されたことになり、この効果は大きい。なお、分割精度(F値)の定義を下記(4)式に示す。
<Experimental example>
In an experiment using the method described in this embodiment, when using a word division corpus of general Japanese written words and a large number of Japanese patent students corpus, the division accuracy when the Japanese patent sentence is divided into words (F value) was improved from 96.14% to 97.42% by field adaptation according to the present embodiment. That is, the error rate is reduced by about 30% from 3.86% to 2.58%, and this effect is great. The definition of the division accuracy (F value) is shown in the following equation (4).

以上説明したように、本発明の第1の実施の形態に係る単語分割装置によれば、対象分野の文字列の集合である生コーパスに含まれる文字列の各々に対して、文字間の各々に単語分割する位置を示すラベル、単語分割しない位置を示すラベル、又は分割有無不明位置を示すラベルを付与して、部分的単語分割とし、対象分野とは異なる元分野の単語分割コーパスと、部分的単語分割コーパスとに対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、対象分野の文字列について単語分割する位置を判定するための単語分割モデルを学習し、学習された対象分野の文字列について単語分割する位置を判定するための単語分割モデルに基づいて、対象分野の文字列の単語分割する位置を判定することにより、対象分野の文字列について精度良く単語分割をすることができる。   As described above, according to the word segmentation device according to the first embodiment of the present invention, each character between characters is included in each character string included in the raw corpus that is a set of character strings in the target field. A word segmentation corpus of a source field different from the target field, by giving a label indicating a position to divide the word, a label indicating a position where the word is not divided, or a label indicating a position where the division is unknown to be a partial word division And a feature for each character between a character with a label indicating a position where a word is divided and a character between each character with a label indicating a position where the word is not divided are extracted. Learning a word division model for determining a position to divide a word with respect to a character string in the target field, and dividing a word to determine a position to divide the word with respect to the learned character string in the target field Based on Dell, by determining the position of word segmentation of the subject areas string, it is possible to accurately word segmentation for the subject areas string.

また、生コーパス中の部分文字列の各々の前後に接続される文字の統計量から、ある部分文字列の文字間が十分に単語分割する位置であると期待できる箇所を自動的に判定し、その結果を単語分割の統計モデルの追加学習データとして利用することで単語分割の分野適応を可能にする。単語分割プログラムが利用する素性に変化はなく、学習データが増加するのみであるので、学習時間の増加は見込まれるものの、単語分割処理自体の時間は大きく変化しないことが期待できる。   In addition, from the statistic of characters connected before and after each of the partial character strings in the raw corpus, automatically determine a portion that can be expected to be a position where the characters between the partial character strings are sufficiently divided, By using the result as additional learning data of a statistical model of word division, it is possible to adapt the field of word division. Since the features used by the word division program do not change and only the learning data increases, the learning time can be expected to increase, but the time of the word division processing itself can be expected not to change significantly.

また、対象分野の大量の生コーパスを利用することで、利用できる単語分割コーパスが対象分野と異なるものであっても、対象分野の単語分割を精度良く行うことができる。   In addition, by using a large number of raw corpora in the target field, even if the available word division corpus is different from the target field, it is possible to accurately perform word division in the target field.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

例えば、第1の実施の形態において、部分文字列の各々について計算したAccessor Varietyの統計量を文字列統計量データとする場合について説明したが、これに限定されるものではなく、部分文字列の各々について、Branching Entropyの統計量を上記(2)式に従って、計算したエントロピーを文字列統計量データとしてもよい。また、部分文字列の各々について、Branching Entropyの差分値を文字列統計量データとしてもよい。この場合、長さN−1の部分文字列についても同様に統計量を計算する必要がある。   For example, in the first embodiment, a case has been described in which the Accessor Variety statistic calculated for each partial character string is used as character string statistic data. However, the present invention is not limited to this. For each, the entropy calculated for the Branching Entropy statistic according to the above equation (2) may be used as the character string statistic data. In addition, for each partial character string, the difference value of Branching Entropy may be used as character string statistic data. In this case, it is necessary to calculate the statistic similarly for the partial character string of length N-1.

また、第1の実施の形態においては、部分文字列の前後に接続される文字の統計量に基づいて、分割される位置を示すラベル、分割されない位置を示すラベル、又は分割有無不明位置を示すラベルを付与する場合について説明したが、これに限定されるものではない。例えば、元分野の単語分割コーパスとの整合性を保つ目的で、元分野の単語分割コーパスのみで学習した単語分割器で単語分割した結果と整合する単語分割される/されない位置のみにラベルを付与するようにしてもよい。   Further, in the first embodiment, based on the statistic of characters connected before and after the partial character string, a label indicating a position to be divided, a label indicating a position that is not divided, or a position where the division is unknown is indicated. Although the case where a label is applied has been described, the present invention is not limited to this. For example, for the purpose of maintaining consistency with the word division corpus of the original field, labels are given only to positions where the word division matches with the result of word division performed by the word divider learned only with the word division corpus of the original field. You may make it do.

また、第1の実施の形態においては、学習素性抽出部において、部分的単語分割コーパス記憶部40に記憶されている部分的単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出する場合について説明したが、これに限定されるものではない。例えば、部分的単語分割コーパス記憶部40に記憶されている部分的単語分割コーパスに含まれる文字列の各々に対して、更に、分割有無不明位置を示すラベルが付与された文字間の各々について素性を抽出してもよい。また、部分的単語分割コーパス記憶部40に記憶されている部分的単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についてのみ素性を抽出してもよい。   Further, in the first embodiment, in the learning feature extraction unit, the word division position for each character string included in the partial word division corpus stored in the partial word division corpus storage unit 40 The case of extracting the feature between each of the characters assigned the label indicating the character and the feature between each of the characters assigned the label indicating the position where the word is not divided has been described, but the present invention is not limited to this. Absent. For example, each character string included in the partial word division corpus stored in the partial word division corpus storage unit 40 is further characterized with respect to each of the characters between which the label indicating the position where the division is unknown is given. May be extracted. In addition, for each of the character strings included in the partial word division corpus stored in the partial word division corpus storage unit 40, only the features between the characters to which the label indicating the position for word division is given are provided. It may be extracted.

また、第1の実施の形態においては、単語分割装置が、モデル学習装置と、単語分割判定装置の2つの装置とから構成される場合について説明したが、これに限定されるものではない。例えば、追加学習コーパス部30の機能を有する追加学習コーパス装置と、統計モデル学習部50の機能を有する統計モデル学習装置と、単語分割判定装置の3つの装置とから構成されてもよい。また、単語分割装置に、モデル学習装置、及び単語分割判定装置の機能をもたせ、1つの装置として構成してもよい。   In the first embodiment, a case has been described in which the word segmentation device is configured by two devices, that is, a model learning device and a word segmentation determination device. However, the present invention is not limited to this. For example, you may be comprised from three apparatuses, the additional learning corpus apparatus which has the function of the additional learning corpus part 30, the statistical model learning apparatus which has the function of the statistical model learning part 50, and a word division determination apparatus. Further, the word dividing device may have the functions of a model learning device and a word division determining device, and may be configured as one device.

次に、第2の実施の形態に係る単語分割装置について説明する。   Next, a word segmentation device according to a second embodiment will be described.

第2の実施の形態においては、モデル学習装置100の、追加学習コーパス部30における分割位置推定部34において、部分文字列の前後の文字間に、分割される位置を示すラベル、又は分割有無不明位置を示すラベルを付与する点が第1の実施の形態と異なる。なお、第1の実施の形態に係る単語分割装置1と同様の構成及び作用については、同一の符号を付して説明を省略する。   In the second embodiment, in the division learning position estimation unit 34 in the additional learning corpus 30 of the model learning device 100, a label indicating a division position between characters before and after the partial character string, or whether or not there is division is unknown. The point which provides the label which shows a position differs from 1st Embodiment. In addition, about the structure and effect | action similar to the word division | segmentation apparatus 1 which concerns on 1st Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.

分割位置推定部34は、統計量計算部32において部分文字列毎に計算された当該部分文字列の前後に接続される文字の統計量に基づいて、単語分割する位置を推定し、部分文字列毎に、当該部分文字列の前後の文字間に、分割される位置を示すラベル、又は分割有無不明位置を示すラベルを付与することにより、生コーパスの全ての文字間の各々にラベルを付与する。具体的には、予め閾値を定めておき、部分文字列の各々について、当該部分文字列の前後に接続される文字の統計量が、予め定められた閾値よりも大きい場合に、分割される位置を示すラベルを付与し、当該部分文字列の前後に接続される文字の統計量が予め定められた閾値以下でる場合に、分割有無不明位置を示すラベルを付与する。   The division position estimation unit 34 estimates the word division position based on the statistic of characters connected before and after the partial character string calculated for each partial character string by the statistic calculation unit 32, and the partial character string Each time, a label indicating a position to be divided or a label indicating a position where the division is unknown is given between characters before and after the partial character string, thereby giving a label to each of all characters in the raw corpus. . Specifically, a threshold value is set in advance, and for each partial character string, a position to be divided when the statistic of characters connected before and after the partial character string is larger than a predetermined threshold value. When a statistic of characters connected before and after the partial character string is equal to or less than a predetermined threshold value, a label indicating a division presence / absence unknown position is assigned.

コーパス出力部36は、分割位置推定部34においてラベルが付与された生コーパスを、部分的単語分割コーパスとして、部分的単語分割コーパス記憶部40に記憶する。   The corpus output unit 36 stores the raw corpus given the label by the division position estimation unit 34 in the partial word division corpus storage unit 40 as a partial word division corpus.

以上説明したように、本発明の第2の実施の形態に係る単語分割装置によれば、対象分野の文字列の集合である生コーパスに含まれる文字列の各々に対して、文字間の各々に単語分割する位置を示すラベル、又は分割有無不明位置を示すラベルを付与して、部分的単語分割コーパスとし、対象分野とは異なる元分野の単語分割コーパスと、部分的単語分割コーパスとに対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、対象分野の文字列について単語分割する位置を判定するための単語分割モデルを学習し、学習された対象分野の文字列について単語分割する位置を判定するための単語分割モデルに基づいて、対象分野の文字列の単語分割する位置を判定することにより、対象分野の文字列について精度良く単語分割をすることができる。   As described above, according to the word segmentation device according to the second embodiment of the present invention, each character between characters is included in each character string included in the raw corpus that is a set of character strings in the target field. To a partial word division corpus by assigning a label indicating a word division position or a label indicating an unknown division presence position to the original word division corpus different from the target field, and the partial word division corpus Then, a feature for each of characters between which a label indicating a position to divide a word is assigned and a feature for each of a character to which a label indicating a position not to divide the word is extracted are extracted. Learning the word division model for determining the position to divide the word, and based on the word division model for determining the position to divide the word for the learned character string in the target field, By determining the position of dividing the word string, it is possible to accurately word segmentation for the subject areas string.

次に、第3の実施の形態に係る単語分割装置について説明する。   Next, a word segmentation device according to a third embodiment will be described.

第3の実施の形態においては、モデル学習装置100の、追加学習コーパス部30における分割位置推定部34において、部分文字列の前後の文字間に、分割される位置を示すラベルのみを付与する点が第1の実施の形態と異なる。なお、第1の実施の形態に係る単語分割装置1と同様の構成及び作用については、同一の符号を付して説明を省略する。   In the third embodiment, the division position estimation unit 34 in the additional learning corpus unit 30 of the model learning device 100 assigns only a label indicating the division position between characters before and after the partial character string. Is different from the first embodiment. In addition, about the structure and effect | action similar to the word division | segmentation apparatus 1 which concerns on 1st Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted.

分割位置推定部34は、統計量計算部32において部分文字列毎に計算された当該部分文字列の前後に接続される文字の統計量に基づいて、単語分割する位置を推定し、部分文字列毎に、当該部分文字列の前後の文字間に、分割される位置を示すラベルを付与することにより、生コーパスの文字間の各々にラベルを付与する。具体的には、予め閾値を定めておき、部分文字列の各々について、当該部分文字列の前後に接続される文字の統計量が、予め定められた閾値よりも大きい場合に、分割される位置を示すラベルを付与する。   The division position estimation unit 34 estimates the word division position based on the statistic of characters connected before and after the partial character string calculated for each partial character string by the statistic calculation unit 32, and the partial character string Each time, a label is given to each of the characters in the raw corpus by giving a label indicating the position to be divided between the characters before and after the partial character string. Specifically, a threshold value is set in advance, and for each partial character string, a position to be divided when the statistic of characters connected before and after the partial character string is larger than a predetermined threshold value. A label indicating is attached.

コーパス出力部36は、分割位置推定部34においてラベルが付与された生コーパスを、部分的単語分割コーパスとして、部分的単語分割コーパス記憶部40に記憶する。   The corpus output unit 36 stores the raw corpus given the label by the division position estimation unit 34 in the partial word division corpus storage unit 40 as a partial word division corpus.

以上説明したように、本発明の第3の実施の形態に係る単語分割装置によれば、対象分野の文字列の集合である生コーパスに含まれる文字列の各々に対して、文字間の各々に単語分割する位置を示すラベルを付与して、部分的単語分割コーパスとし、対象分野とは異なる元分野の単語分割コーパスと、部分的単語分割コーパスとに対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、対象分野の文字列について単語分割する位置を判定するための単語分割モデルを学習し、学習された対象分野の文字列について単語分割する位置を判定するための単語分割モデルに基づいて、対象分野の文字列の単語分割する位置を判定することにより、対象分野の文字列について精度良く単語分割をすることができる。   As described above, according to the word segmentation device according to the third embodiment of the present invention, each character between characters is included in each character string included in the raw corpus that is a set of character strings in the target field. Is a partial word division corpus by assigning a label indicating the word division position to the word division corpus of the original field different from the target field and a label indicating the word division position for the partial word division corpus To extract the features for each of the characters to which the character is assigned and the features for each of the characters to which the label indicating the position where the word is not divided is extracted, and to determine the position at which the word division is performed for the character string in the target field Learn the word division model and determine the position of the character string of the target field to be divided based on the word division model for determining the position of word division for the learned character string of the target field The Rukoto, it is possible to accurately word segmentation for the subject areas string.

また、第3の実施の形態においては、統計量の値が大きい箇所は単語分割される位置であることが多い反面、特に短い単語の周辺において単語分割される位置であっても統計量の値が比較的小さいことがあるため、単語分割されない位置の推定精度は必ずしも高くないことを鑑みて、単語分割される位置を示すラベルのみを用いている。   Further, in the third embodiment, the portion where the statistical value is large is often the position where the word is divided, but the statistical value is particularly the position where the word is divided around the short word. In view of the fact that the estimation accuracy of positions where words are not divided is not necessarily high, only labels indicating positions where words are divided are used.

なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。   Note that the present invention is not limited to the above-described embodiment, and various modifications and applications are possible without departing from the gist of the present invention.

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。   Further, in the present specification, the embodiment has been described in which the program is installed in advance. However, the program can be provided by being stored in a computer-readable recording medium or provided via a network. It is also possible to do.

1 単語分割装置
10 入力部
20 演算部
22 生コーパス記憶部
24 統計量記憶部
30 追加学習コーパス部
32 統計量計算部
34 分割位置推定部
36 コーパス出力部
40 部分的単語分割コーパス記憶部
42 単語分割コーパス記憶部
44 単語辞書記憶部
50 統計モデル学習部
52 学習素性抽出部
54 モデル学習部
60 モデル記憶部
90 出力部
100 モデル学習装置
200 単語分割判定装置
210 入力部
220 演算部
230 単語辞書記憶部
232 モデル記憶部
240 単語分割処理部
242 素性抽出部
244 二値分類部
246 データ変換部
250 単語列記憶部
290 出力部
DESCRIPTION OF SYMBOLS 1 Word segmentation apparatus 10 Input part 20 Operation part 22 Raw corpus storage part 24 Statistics storage part 30 Additional learning corpus part 32 Statistics calculation part 34 Division position estimation part 36 Corpus output part 40 Partial word division corpus storage part 42 Word division Corpus storage unit 44 Word dictionary storage unit 50 Statistical model learning unit 52 Learning feature extraction unit 54 Model learning unit 60 Model storage unit 90 Output unit 100 Model learning device 200 Word division determination device 210 Input unit 220 Operation unit 230 Word dictionary storage unit 232 Model storage unit 240 Word division processing unit 242 Feature extraction unit 244 Binary classification unit 246 Data conversion unit 250 Word string storage unit 290 Output unit

Claims (5)

対象分野の文字列の集合である生コーパスに含まれる文字列に基づいて部分文字列毎に計算された、前記部分文字列の前後に接続される文字の異なり数又は曖昧性に関する統計量に基づいて、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を推定し、文字間の各々に単語分割する位置を示すラベルを付与する分割位置推定部と、
前記対象分野とは異なる元分野の文字列の集合であって、かつ、文字間の各々に単語分割する位置を示すラベル及び単語分割しない位置を示すラベルが予め付与された単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性を抽出する学習素性抽出部と、
前記学習素性抽出部により抽出した、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性に基づいて、前記対象分野の文字列について単語分割する位置を判定するための単語分割モデルを学習するモデル学習部と、
入力された前記対象分野の文字列に含まれる文字間の各々についての素性を抽出する素性抽出部と、
前記素性抽出部により抽出した前記文字間の各々についての素性と、前記モデル学習部により学習された前記単語分割モデルとに基づいて、前記入力された前記対象分野の文字列に含まれる文字間の各々から、単語分割する位置を判定する二値分類部と、
を含む、単語分割装置。
Based on a statistic about the number of different characters or ambiguity of characters connected before and after the partial character string calculated for each partial character string based on the character string included in the raw corpus that is a set of character strings in the target field A division position estimation unit that estimates a position to divide a word for each of the character strings included in the raw corpus , and gives a label indicating a position to divide the word between each character;
A set of character strings in an original field different from the target field, and a label indicating a position where a word is divided and a label indicating a position where no word is divided are included in each of the characters. For each of the character strings, a feature for each of the characters between which the label indicating the position to divide the word is assigned, and a feature for each of the characters to which a label indicating the position to which the word is not divided are assigned, are extracted. A learning feature extraction unit that extracts a feature for each of characters between each character string included in the raw corpus and a label indicating a position for word division;
Based on the features extracted from the learning feature extraction unit for each of the characters assigned with the label indicating the position to divide the word, and the features for each of the characters assigned the label indicating the position where the word is not divided. A model learning unit for learning a word division model for determining a position to divide a word in the target field character string;
A feature extraction unit that extracts a feature for each of the characters included in the input character string of the target field;
Based on the features for each of the characters extracted by the feature extraction unit and the word division model learned by the model learning unit, between the characters included in the input character string of the target field A binary classification unit for determining a position to divide a word from each;
A word segmentation device.
前記分割位置推定部は、前記生コーパスに含まれる、特定の文字種で構成される文字列の各々に対して、単語分割する位置及び単語分割しない位置を推定し、文字間の各々に、単語分割する位置を示すラベル、及び単語分割しない位置を示すラベルの何れか一つを付与し、
前記学習素性抽出部は、前記単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出する請求項1記載の単語分割装置。
The division position estimation unit estimates a position where words are divided and a position where words are not divided, for each character string composed of a specific character type included in the raw corpus, and word division is performed between each character. label indicating the position of, and any one of label indicating the position not word segmentation granted,
The learning feature extraction unit includes a feature for each character between the character strings included in the word division corpus and a label indicating a position for dividing the word, and a label indicating a position for not dividing the word. The features for each of the given characters are extracted, and for each of the character strings included in the raw corpus, the features and the words are not divided for each of the characters to which a label indicating a position for dividing the word is given. The word segmentation device according to claim 1, wherein a feature for each of characters between which a label indicating a position is assigned is extracted.
前記分割位置推定部は、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を推定し、推定された単語分割する位置のうち、
前記元分野の単語分割コーパスに基づいて学習された、単語分割する位置を判定するための単語分割プログラムを用いて前記生コーパスに含まれる文字列の各々に対して単語分割する位置を推定した推定結果と一致する位置に、単語分割する位置を示すラベルを付与し、前記推定結果と一致しない位置に、分割有無不明位置を示すラベルを付与する請求項1記載の単語分割装置。
The division position estimation unit estimates a position to divide words for each of the character strings included in the raw corpus, and among the estimated positions to divide words,
The estimation which estimated the position which divides a word with respect to each of the character string contained in the said raw corpus using the word division | segmentation program for judging the position which divides | segments the word learned based on the word division | segmentation corpus of the said original field The word segmentation device according to claim 1 , wherein a label indicating a word segmentation position is assigned to a position that matches the result, and a label that indicates a segmentation unknown position is imparted to a position that does not match the estimation result .
分割位置推定部と、学習素性抽出部と、モデル学習部と、素性抽出部と、二値分類部とを含む単語分割装置における、単語分割方法であって、
前記分割位置推定部は、対象分野の文字列の集合である生コーパスに含まれる文字列に基づいて部分文字列毎に計算された、前記部分文字列の前後に接続される文字の異なり数又は曖昧性に関する統計量に基づいて、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を推定し、文字間の各々に単語分割する位置を示すラベルを付与し、
前記学習素性抽出部は、前記対象分野とは異なる元分野の文字列の集合であって、かつ、文字間の各々に単語分割する位置を示すラベル及び単語分割しない位置を示すラベルが予め付与された単語分割コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性を抽出し、前記生コーパスに含まれる文字列の各々に対して、単語分割する位置を示すラベルが付与された文字間の各々についての素性を抽出し、
前記モデル学習部は、前記学習素性抽出部により抽出した、単語分割する位置を示すラベルが付与された文字間の各々についての素性、及び単語分割しない位置を示すラベルが付与された文字間の各々についての素性に基づいて、前記対象分野の文字列について単語分割する位置を判定するための単語分割モデルを学習し、
前記素性抽出部は、入力された前記対象分野の文字列に含まれる文字間の各々についての素性を抽出し、
前記二値分類部は、前記素性抽出部により抽出した前記文字間の各々についての素性と、前記モデル学習部により学習された前記単語分割モデルとに基づいて、前記入力された前記対象分野の文字列に含まれる文字間の各々から、単語分割する位置を判定する
単語分割方法。
A word division method in a word division device including a division position estimation unit, a learning feature extraction unit, a model learning unit, a feature extraction unit, and a binary classification unit,
The division position estimation unit is calculated for each partial character string based on the character string included in the raw corpus that is a set of character strings in the target field, or the number of different characters connected before and after the partial character string or Based on the statistic regarding ambiguity, for each of the character strings included in the raw corpus , a position to divide the word is estimated, and a label indicating the position to divide the word is assigned to each between the characters,
The learning feature extraction unit is a set of character strings in an original field different from the target field, and a label indicating a position where words are divided and a label indicating a position where words are not divided are assigned in advance between characters. For each of the character strings included in the word division corpus, the feature between each of the characters given a label indicating the position to divide the word, and between each character given a label indicating the position where the word is not divided For each of the character strings included in the raw corpus, and for each of the characters between the characters to which a label indicating a position to divide the word is added,
The model learning unit is extracted by the learning feature extraction unit, and the feature between each character with a label indicating a position to divide a word, and each character between a character with a label indicating a position not to divide a word Based on the feature about, learning a word division model for determining the position of the word division for the character string of the target field,
The feature extraction unit extracts a feature for each of the characters included in the input character string of the target field,
The binary classifying unit is configured to input the characters in the target field based on the features between the characters extracted by the feature extraction unit and the word division model learned by the model learning unit. A word segmentation method for determining a position at which a word is segmented from each character included in a sequence.
コンピュータを、請求項1〜請求項の何れか1項記載の単語分割装置を構成する各部として機能させるためのプログラム。 The program for functioning a computer as each part which comprises the word division | segmentation apparatus of any one of Claims 1-3 .
JP2014142404A 2014-07-10 2014-07-10 Word segmentation apparatus, method, and program Active JP6269953B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014142404A JP6269953B2 (en) 2014-07-10 2014-07-10 Word segmentation apparatus, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014142404A JP6269953B2 (en) 2014-07-10 2014-07-10 Word segmentation apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2016018489A JP2016018489A (en) 2016-02-01
JP6269953B2 true JP6269953B2 (en) 2018-01-31

Family

ID=55233639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014142404A Active JP6269953B2 (en) 2014-07-10 2014-07-10 Word segmentation apparatus, method, and program

Country Status (1)

Country Link
JP (1) JP6269953B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859948B (en) * 2019-04-28 2024-06-11 北京嘀嘀无限科技发展有限公司 Language identification, language model training and character prediction method and device

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09270917A (en) * 1996-04-02 1997-10-14 Ricoh Co Ltd Image processor
JP2001249922A (en) * 1999-12-28 2001-09-14 Matsushita Electric Ind Co Ltd Word division system and device
JP4652737B2 (en) * 2004-07-14 2011-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション Word boundary probability estimation device and method, probabilistic language model construction device and method, kana-kanji conversion device and method, and unknown word model construction method,

Also Published As

Publication number Publication date
JP2016018489A (en) 2016-02-01

Similar Documents

Publication Publication Date Title
CN110287480B (en) Named entity identification method, device, storage medium and terminal equipment
CN107220235B (en) Speech recognition error correction method and device based on artificial intelligence and storage medium
US10061768B2 (en) Method and apparatus for improving a bilingual corpus, machine translation method and apparatus
CN104978354B (en) Text classification method and device
US11010554B2 (en) Method and device for identifying specific text information
CN107341143B (en) Sentence continuity judgment method and device and electronic equipment
CN111079412A (en) Text error correction method and device
WO2017177809A1 (en) Word segmentation method and system for language text
US9286527B2 (en) Segmentation of an input by cut point classification
CN105068997B (en) The construction method and device of parallel corpora
JP5646792B2 (en) Word division device, word division method, and word division program
CN111046660B (en) Method and device for identifying text professional terms
CN111914825B (en) Character recognition method and device and electronic equipment
KR20170004983A (en) Line segmentation method
US8880391B2 (en) Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program
CN113657098B (en) Text error correction method, device, equipment and storage medium
Berg-Kirkpatrick et al. Improved typesetting models for historical OCR
CN107797986B (en) LSTM-CNN-based mixed corpus word segmentation method
Cocks A word-based approach for diacritic restoration in Māori
US20220284185A1 (en) Storage medium, information processing method, and information processing device
Yeh et al. Chinese spelling check based on N-gram and string matching algorithm
CN112863484A (en) Training method of prosodic phrase boundary prediction model and prosodic phrase boundary prediction method
JP6269953B2 (en) Word segmentation apparatus, method, and program
CN115455416A (en) Malicious code detection method and device, electronic equipment and storage medium
CN111310457B (en) Word mismatching recognition method and device, electronic equipment and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170626

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171212

R150 Certificate of patent or registration of utility model

Ref document number: 6269953

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350