JP2008140117A - Apparatus for segmenting chinese character sequence to chinese word sequence - Google Patents
Apparatus for segmenting chinese character sequence to chinese word sequence Download PDFInfo
- Publication number
- JP2008140117A JP2008140117A JP2006325457A JP2006325457A JP2008140117A JP 2008140117 A JP2008140117 A JP 2008140117A JP 2006325457 A JP2006325457 A JP 2006325457A JP 2006325457 A JP2006325457 A JP 2006325457A JP 2008140117 A JP2008140117 A JP 2008140117A
- Authority
- JP
- Japan
- Prior art keywords
- chinese
- word
- subword
- sequence
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
この発明は中国語の単語セグメント化に関し、特に、サブワードタグ付けと信頼性尺度とに基づいた中国語の文のセグメント化に関する。 The present invention relates to Chinese word segmentation, and more particularly to segmentation of Chinese sentences based on subword tagging and reliability measures.
この明細書では、文を単語のシーケンスにセグメント化することを「単語セグメント化」と呼ぶ。単語セグメント化は、単語と単語との間を空間で分けずに書かれる自然言語の処理の前提条件である。中国語はこのような言語の1つである。 In this specification, segmenting a sentence into a sequence of words is referred to as “word segmentation”. Word segmentation is a prerequisite for natural language processing that is written without separating words between words. Chinese is one such language.
最近の中国語の単語セグメント化では、文字を用いた「IOB」タグ付けの方策が広く用いられている(非特許文献3、4、5)。このスキームでは、単語の文字の各々について、もしそれが複数文字単語の最初の文字であれば「B」、もしその文字が独立した単語として機能していれば「O」、それ以外であれば「I」のラベルが付される。例えば、「全北京市」は「全/O 北/B 京/I 市/I」となる。 In recent word segmentation in Chinese, the “IOB” tagging method using characters is widely used (Non-Patent Documents 3, 4, and 5). In this scheme, for each letter of the word, "B" if it is the first letter of a multi-letter word, "O" if the letter functions as an independent word, otherwise Labeled “I”. For example, “all Beijing cities” becomes “all / O north / B kyo / I city / I”.
これまで、中国語単語セグメント化の既存の実現例はいずれも、文字を用いたIOBタグ付けを用いていることが分かった。
IOBタグ付けの方策には明らかに弱点がある。未知語(Out−of−vocabulary:OOV)率(R−oov)が高くなる代わりに、既知語(In−vocaburary:IV)率(R−iv)が非常に低くなるのである。非特許文献1で報告された2005年のコンテストのクローズドテストの結果では、IOBタグ付けに条件付き確率場(conditional random fields:CRF)を用いた非特許文献4のツェンらのものが、使用された4つのコーパス全てについて非常に高いR−oovを達成したが、R−ivは低かった。単語のセグメント化においてOOV認識は非常に重要であるが、高いIV率もまた望まれる。 There is a clear weakness in the IOB tagging strategy. Instead of increasing the unknown word (Out-of-vocabulary: OOV) rate (R-oov), the known word (In-vocabulary: IV) rate (R-iv) is very low. The result of the closed test of the 2005 contest reported in Non-Patent Document 1 uses that of Tseng et al. In Non-Patent Document 4 that uses conditional random fields (CRF) for IOB tagging. Very high R-oov was achieved for all four corpora, but R-iv was low. Although OOV recognition is very important in word segmentation, high IV rates are also desirable.
さらに、従来の方法では、複数文字の単語は必ずしも適切にセグメント化又はタグ付けされない。 Furthermore, conventional methods do not necessarily segment or tag multi-letter words properly.
従って、この発明の目的の1つは、中国語の文字シーケンスを中国語の単語シーケンスにより適切にセグメント化するための装置を提供することである。 Accordingly, one object of the present invention is to provide an apparatus for appropriately segmenting Chinese character sequences by Chinese word sequences.
この発明の別の目的は、弱点を減じ、最適なトレードオフを見出すことができるようにR−oovとR−ivとを変更できるような、中国語の文字シーケンスを中国語の単語シーケンスにより適切にセグメント化するための装置を提供することである。 Another object of the present invention is to make Chinese character sequences more suitable for Chinese word sequences so that R-oov and R-iv can be modified to reduce weaknesses and find optimal tradeoffs. It is to provide an apparatus for segmenting.
この発明の第1の局面に従った中国語の文字シーケンスを中国語の単語シーケンスにセグメント化するための装置は、中国語の文字と中国語の複数文字の単語とを列挙する中国語サブワードリストを記憶するための第1の記憶部と、中国語のサブワードに割当てられた第1のタグのシーケンスの統計的確率モデルを記憶するための第2の記憶部と、を含む。第1のタグは、独立した単語、複数文字単語の第1のサブワード、又はそれ以外を示す。装置はさらに、中国語の文字シーケンスをサブワードリスト及び統計的確率モデルを用いて最尤推定により第1の中国語の単語シーケンスにセグメント化するための、サブワードを用いたセグメント化手段を含む。第1の中国語の単語シーケンスにおける複数サブワードの単語は、各々がセグメント化に従って第1のタグでラベルを付されたサブワードにセグメント化される。中国語のサブワードリストにおける単語は、サブワードを用いたセグメント化手段によって中国語の文字シーケンスをセグメント化する際に、サブワードとして扱われる。 An apparatus for segmenting a Chinese character sequence into a Chinese word sequence according to the first aspect of the present invention provides a Chinese subword list for enumerating Chinese characters and Chinese multi-character words And a second storage unit for storing a statistical probability model of a sequence of first tags assigned to Chinese subwords. The first tag indicates an independent word, a first subword of a multi-character word, or otherwise. The apparatus further includes a subword segmenting means for segmenting the Chinese character sequence into a first Chinese word sequence by maximum likelihood estimation using a subword list and a statistical probability model. The multiple subword words in the first Chinese word sequence are segmented into subwords, each labeled with a first tag according to segmentation. The words in the Chinese subword list are treated as subwords when the Chinese character sequence is segmented by the segmenting means using the subwords.
好ましくは、サブワードを用いたセグメント化手段は第1のタグの各々の予め定義された信頼性の確率を出力し、装置はさらに、中国語の文字と中国語の単語とを列挙する中国語文字辞書を記憶するための第3の記憶部と、中国語の統計的言語モデルを記憶するための第4の記憶部と、入力された中国語の文字シーケンスを、辞書と言語モデルとを用いた最尤推定で第2の中国語の単語シーケンスにセグメント化し、第2の中国語の単語シーケンス中の文字の各々に第2のタグを付すための、辞書を用いた単語セグメント化手段とを含む。第2のタグは、独立した単語として、複数文字単語の最初の文字として、又はそれ以外として機能する文字を示す。装置はさらに、第1の中国語単語シーケンス中のサブワードの各々に割当てるべきタグを、ともにサブワードに割当てられた第1及び第2のタグとサブワードの信頼性確率との関数として決定するための決定手段を含む。 Preferably, the subword segmentation means outputs a predefined reliability probability for each of the first tags, and the apparatus further includes Chinese characters enumerating Chinese characters and Chinese words A third storage unit for storing a dictionary, a fourth storage unit for storing a statistical language model of Chinese, and an input Chinese character sequence using a dictionary and a language model Word-segmenting means using a dictionary for segmenting into a second Chinese word sequence with maximum likelihood and attaching a second tag to each character in the second Chinese word sequence . The second tag indicates a character that functions as an independent word, as the first character of a multi-character word, or otherwise. The apparatus further determines to determine a tag to be assigned to each of the subwords in the first Chinese word sequence as a function of the first and second tags both assigned to the subword and the reliability probability of the subword. Including means.
この構成により、タグ決定手段で用いられる関数を変化させることによってR−ivとR−oovとが最適化されることが、実験によって確認された。 It has been confirmed by experiments that this configuration optimizes R-iv and R-oov by changing the function used in the tag determining means.
より好ましくは、サブワードを用いたセグメント化手段はi番目の単語wiの第1のタグtの各々についての、予め定義された信頼性の確率CMiob(t|wi)を以下の式に従って出力し、 More preferably, the sub-word segmentation means calculates a predefined reliability probability CM iob (t | w i ) for each of the first tags t of the i-th word w i according to the following equation: Output,
この構成において、この装置は、文字及び単語のセグメント化に有効であることが分かっているCRF方策を用いてトレーニングされてもよい。 In this configuration, the device may be trained using CRF strategies that have been found to be effective for character and word segmentation.
これに代えて、サブワードを用いたセグメント化手段は単語wの第1のタグtの各々についての、予め定義された信頼性の確率CMiob(t|w)を以下の式に従って出力し、 Alternatively, the sub-word segmentation means outputs a predefined reliability probability CM iob (t | w) for each of the first tags t of the word w according to the following equation:
この構成において、装置は、タグ付けの正確さを改善するための多種類の特徴を組入れることができる最大エントロピー(MaxEnt)方策を用いてトレーニングされてもよい。 In this configuration, the device may be trained using a maximum entropy (MaxENT) strategy that can incorporate multiple types of features to improve tagging accuracy.
[第1の実施の形態]
<構造>
以下では、サブワードを用いたIOBタグ付けを提案するが、これは、単一の中国語の文字に加えて、もっとも頻度の高い複数文字の単語からなる予め定義されたレキシコンのサブセットにもタグを割当てるものである。もし中国語の文字のみを用いるとすれば、サブワードを用いたIOBタグ付けは文字を用いたものと同じになる。上と同じ例を挙げれば、「全北京市」はサブワードを用いたタグ付けでは「全/O 北京/B 市/I」となり、ここで「北京」は1つの単位としてタグ付けされる。
[First Embodiment]
<Structure>
In the following, IOB tagging using subwords is proposed, which tags not only a single Chinese character, but also a predefined subset of lexicons consisting of the most frequent multi-character words. Assign. If only Chinese characters are used, IOB tagging using subwords is the same as using characters. To give the same example as above, “All Beijing” would be “All / O Beijing / B City / I” when tagged with subwords, where “Beijing” would be tagged as one unit.
‐この実施の形態の中国語単語のセグメント化処理‐
この実施の形態の単語セグメント化処理20を図1に例示する。これは3つの部分を含む。すなわち、入力された文30のIV単語をセグメント化するための、辞書を用いたN−グラム単語セグメント化(以下「辞書を用いたセグメント化」と称する)32、辞書を用いたセグメント化の単語セグメント化におけるOOVを認識するためのCRFによるサブワードを用いたIOBタグ付け34、及び辞書を用いたセグメント化32とサブワードを用いたIOBタグ付け34との両者の結果を統合し、セグメント化された中国語の単語シーケンス38を出力するための信頼度を用いた単語セグメント化36、である。各ステップの結果を示す例もまた図1において与えられている。
-Chinese word segmentation processing of this embodiment-
The
図2はこの実施の形態の中国語単語セグメント化装置50を示すブロック図である。図2を参照して、中国語単語セグメント化装置50は、セグメント化された中国語の文を含むトレーニングデータ60と、ともに中国語単語セグメント化装置50の単語セグメント化で用いられる、サブワードリスト64と確率モデル66とを生成するためのモデルトレーニングモジュール62と、を含む。
FIG. 2 is a block diagram showing the Chinese
中国語単語セグメント化装置50はさらに、入力された中国語の文80をセグメント化するための辞書を用いた単語セグメント化モジュール86と、中国語辞書82及び中国語統計言語モデル84と、中国語の文80を単語のシーケンスに再セグメント化して各単語にサブワードを用いたIOBタグTiob及び対応の信頼性尺度CMiob(tiob|w)をタグ付けするためのサブワードを用いたIOBタグ付けモジュール88と、辞書を用いた単語セグメント化モジュール86とサブワードを用いたIOBタグ付けモジュール88との結果を用いて中国語文80を最終的にセグメント化してセグメント化の結果92を出力するための、信頼性尺度を用いたセグメント化モジュール90と、を含む。
The Chinese
‐確率モデルのトレーニング‐
図3を参照して、モデルトレーニングモジュール62は、トレーニングデータ60内の単語の頻度を計数して単語リストを作成するための頻度カウントモジュール110と、単語リストを頻度の降順でソートして順序付きリストを作成するためのソートモジュール112と、順序付きリスト114を記憶するための記憶部と、順序付きリスト114から上位2000個の複数文字単語と全ての一文字単語とを選択することによってサブワードリスト64を出力するための選択モジュール116と、を含む。
-Training of probability models-
Referring to FIG. 3, the
モデルトレーニングモジュール62はさらに、トレーニングデータ60内の文をセグメント化し、セグメント化用辞書としてサブワードリスト64を用いて各単語にIOBタグをタグ付けするためのIOBタグ付け及びセグメント化モジュール120を含む。IOBタグ付け及びセグメント化モジュール120の出力はサブワードトレーニングデータ122であり、これは記憶部に記憶される。
The
モデルトレーニングモジュール62はさらに、サブワードトレーニングデータ122を用いて確率モデル66をトレーニングするためのトレーニングモジュール124を含む。
The
サブワードを用いたIOBタグ付けモジュール88において用いられる確率モデル66をトレーニングするにはいくつかのステップがある。第1に、頻度カウントモジュール110及びIOBタグ付け及びセグメント化モジュール120により、トレーニングデータ中のカウントによって降順でソートされたトレーニングデータから単語リストを抽出する。選択モジュール116が、全ての一文字単語と上位2000個の複数文字単語とをIOBタグ付けのレキシコンサブセットとして選択する。単語はサブワードリスト64に列挙される。
There are several steps to training the
サブセットが単一文字の単語のみからなる場合、サブワードを用いたIOBタグ付けモジュール88は文字を用いたIOBタグ付け部となる。サブセット中の単語を、サブワードを用いるIOBタグ付けモジュール88におけるIOBタグ付けのためのサブワードとみなす。
When the subset consists of only single-character words, the
第2に、IOBタグ付け及びセグメント化モジュール120はトレーニングデータ中の単語をサブセットに属するサブワードに再セグメント化し、これらにIOBタグを割当てる。文字ベースのIOBタグ付け部では、再セグメント化の可能性は1つあるだけである。しかしながら、この実施の形態のIOBタグ付け及びセグメント化では、サブワードを用いたIOBタグ付けに多数の選択肢がある。例えば、「北京市」は「北京市/O」又は「北京/B 市/I」又は「北/B 京/I 市/I」とセグメント化することが可能である。この実施の形態では、前向最大一致法(forward maximal match:FMM)を用いて多義性を解消している。もちろん、後向最大一致法(backward maximal match:BMM)又は他の方策を適用することもできる。これらの方策によるわずかな相違が、サブワードを用いる方策に重大な帰結をもたらすとは思われないので、比較実験は行わなかった。
Second, IOB tagging and
第3のステップでは、トレーニングモジュール124はCRF方策を用いてトレーニングデータ上で確率モデル66(非特許文献2)をトレーニングする。サイトhttp://www.chasen.org/〜taku/softwareから、「CRF++」パッケージをダウンロードし、これを用いた。
In the third step, the
CRFによれば、所与の単語シーケンスW=w0w1…wMのIOBタグシーケンスT=t0t1…tMの確率は以下で定義される。 According to the CRF, the probability of the IOB tag sequence T = t 0 t 1 ... t M of a given word sequence W = w 0 w 1 ... w M is defined by the following.
モデルパラメータは、L−BFGS(Limited−memory Broyden, Fletcher, Goldfarb, Shanno)勾配降下最適化法を用いて、トレーニングデータの対数尤度を最大化することでトレーニングされる。過学習を克服するために、トレーニングにはガウス事前分布を課す。 The model parameters are trained by maximizing the log likelihood of the training data using the L-BFGS (Limited-memory Broyden, Fletcher, Goldfarb, Shanno) gradient descent optimization method. To overcome over-learning, the training is Gaussian prior.
この実施の形態で用いられるユニグラムの特徴量は以下の種類を含む。 The unigram feature values used in this embodiment include the following types.
w0,w−1,w1,w−2,w2,w0w−1,w0w1,w−1w1,w−2w−1,w2w0
ここでwは「単語(word)」を表す。添え字は位置指標である。0は現在の単語を意味し、−1、−2は左側の1番目又は2番目の単語を意味し、1、2は右側の1番目又は2番目の単語を意味する。
w 0 , w −1 , w 1 , w −2 , w 2 , w 0 w −1 , w 0 w 1 , w −1 w 1 , w −2 w −1 , w 2 w 0
Here, w represents a “word”. The subscript is a position index. 0 means the current word, -1, -2 mean the first or second word on the left, and 1, 2 mean the first or second word on the right.
バイグラムの特徴量に対しては、先の観測及び現在の観測、t−1t0のみを用いる。 For the bigram feature, only the previous and current observations, t −1 t 0, are used.
特徴量の選択については、単純に、トレーニングデータ中の各特徴量の絶対的なカウントのみを用いる。各特徴量の種類について切捨て値を定義し、切捨て値を超えた発生回数の特徴量を選択する。 For the selection of feature values, only the absolute count of each feature value in the training data is simply used. A truncation value is defined for each type of feature quantity, and a feature quantity with the occurrence count exceeding the truncation value is selected.
トレーニングモジュール124によるトレーニングでは、フォワード・バックワードアルゴリズムが用いられる。
In the training by the
‐辞書を用いた単語のセグメント化‐
辞書を用いた方策は周知の方法である。しかし、辞書を用いた方策ではより高いR−iv率が得られるものの、OOV検出はできないことに注意する必要がある。これをNグラムの言語モデル(language model:LM)と組合せて、セグメント化の多義性を解決する。与えられた中国語文字シーケンスC=c0c1c2…cNについて、単語セグメント化の問題は、以下を満たす単語シーケンスW=wt0,wt1,wt2,…wtMを見出すこととして定式化される。
-Word segmentation using a dictionary-
A policy using a dictionary is a well-known method. However, it should be noted that although a higher R-iv rate can be obtained with a policy using a dictionary, OOV detection is not possible. This is combined with an N-gram language model (LM) to solve the ambiguity of segmentation. For a given Chinese character sequence C = c 0 c 1 c 2 ... C N , the word segmentation problem is as finding a word sequence W = w t0 , w t1 , w t2 ,. Formulated.
単語シーケンスは文字シーケンスと一貫性を保たなければならないので、P(C|W)を、引数がともに等しい場合には1に等しくそうでない場合には0に等しい、クロネッカーのデルタ関数系列(u;v)の乗算に拡張する。P(wt0,wt1,…wtM)は連鎖規則によって拡張可能な言語モデルである。 Since the word sequence must be consistent with the character sequence, P (C | W) is a Kronecker delta function sequence (u) equal to 1 if the arguments are both equal and 0 otherwise. Extended to multiplication of v). P (w t0 , w t1 ,... W tM ) is a language model that can be extended by a chain rule.
トライグラムLMを用いる場合は以下のようになる。 When the trigram LM is used, it is as follows.
式2は辞書を用いた単語セグメント化の処理を示す。レキシコン(辞書)をあたって全てのIVを見出し、LMによって単語シーケンスを評価した。ビタビ探索に代えてビーム探索法を用い(ジェレネックの非特許文献6、1998年、を参照)、最適な単語シーケンスをデコードした。ビーム探索法によりデコーディングを加速できることが分かったからである。NグラムのLMを用いて全ての仮説のスコアを定め、そのうち最もLMのスコアが高いものを最終出力とした。 Expression 2 shows a word segmentation process using a dictionary. All IVs were found by hitting a lexicon (dictionary) and the word sequence was evaluated by LM. The beam search method was used instead of the Viterbi search (see Jennec Non-Patent Document 6, 1998), and the optimum word sequence was decoded. This is because it has been found that decoding can be accelerated by the beam search method. All hypotheses were scored using N grams of LM, and the one with the highest LM score was taken as the final output.
図4は辞書を用いた単語セグメント化モジュール86の詳細を示す概略図である。図4を参照して、辞書を用いた単語セグメント化モジュール86は、中国語の辞書82を参照することによって、中国語の文80のセグメント化に可能なセグメント化仮説全てを生成する仮説生成モジュール140と、仮説を記憶するための記憶部142と、統計的言語モデル84を用いて記憶部142に記憶された仮説の各々の尤度を計算するための尤度計算モジュール144と、最も高い尤度(LMスコア)の仮説を選択するための最尤度選択モジュール146とを含む。
FIG. 4 is a schematic diagram showing details of the
図4は概略図であって、辞書を用いた単語セグメント化モジュール86の機能を実現するソフトウェアは、ビーム探索アルゴリズムを用いてより計算量が少なく高速の動作をするためにより洗練された構造を有することに注意されたい。
FIG. 4 is a schematic diagram, and the software that implements the function of the
‐サブワードを用いたCRFによるIOBタグ付け‐
図5を参照して、サブワードを用いたIOBタグ付けモジュール88は、サブワードリスト64を参照することによって中国語の文80のセグメント化に対し可能な単語セグメント化の全てを生成する仮説生成モジュール160と、仮説を記憶するための記憶部162と、確率モデル66を用いて記憶部162に記憶された仮説の各々の尤度を計算するための尤度計算モジュール164と、最も高い尤度の仮説を選択するための最尤度選択モジュール166とを含む。ここではビーム探索アルゴリズムを用いる。
-IOB tagging with CRF using subwords-
Referring to FIG. 5, subword-based
図5は概略図であって、サブワードを用いたIOBタグ付けモジュール88の機能を実現するソフトウェアは、より計算量が少なく高速の動作をするためにより洗練された構造を有することに注意されたい。
Note that FIG. 5 is a schematic diagram, and the software that implements the function of the
‐信頼度に依存する単語セグメント化‐
信頼度を用いたセグメント化36(図1を参照)に移る前に、2つのセグメント化結果を生成した。1つは辞書を用いた方策によるものであり、1つはIOBタグ付けによるものである。どちらのタグも、中国語の文80の各単語に割当てられる。しかし、いずれも完璧ではなかった。辞書を用いたセグメント化32の結果はR−ivは高いもののR−oovは低く、一方でIOBタグ付け34は逆の結果となった。
-Word segmentation depending on reliability-
Before moving on to
この実施の形態では、2つの結果を組合せるために、信頼性尺度の方策を導入する。辞書を用いたセグメント化32の結果を用いて、IOBタグ付け34で生成された結果の信頼性を測定するために、信頼性尺度CMiob(t|w)を定義する。信頼性尺度は2つのソースから得られる。すなわち、IOBタグ付け34と辞書を用いた単語セグメント化32とである。計算は以下のように定義される。
In this embodiment, a measure of reliability measure is introduced to combine the two results. A reliability measure CM iob (t | w) is defined to measure the reliability of the results generated by IOB tagging 34 using the results of
式3により、IOBタグ付けの結果が再評価される。値に基づいて決定するために、信頼性尺度のしきい値TTHが定義された。もし値がTTHより低ければ、IOBタグは棄却され、辞書を用いたセグメント化が使用される。そうでなければ、IOBタグ付けセグメント化が使用される。 Equation 3 reevaluates the result of IOB tagging. In order to make a decision based on the value, a threshold T TH of the reliability measure was defined. If If the value is lower than T TH, IOB tag is rejected, segmentation using the dictionary is used. Otherwise, IOB tagging segmentation is used.
新たなOOVがこうして生成される。2つの極端な事例、すなわち、TTH=0はIOBタグ付けの場合であり、TTH=1は辞書を用いた方策である。実際の応用では、信頼性のしきい値をチューニングすることによって、満足のいくR−ivとR−oovのトレードオフを見出すことができる。 A new OOV is thus generated. Two extreme cases, i.e., T TH = 0 is for IOB tagging, and T TH = 1 is a dictionary-based strategy. In practical applications, a satisfactory tradeoff between R-iv and R-oov can be found by tuning the reliability threshold.
図6は信頼性尺度を用いたセグメント化モジュール90の構成を示す。図6を参照して、信頼性尺度を用いるセグメント化モジュール90は、中国語の文80の単語の各々についてタグTiobとTwとを比較して比較結果を出力する比較モジュール180と、比較モジュール180の出力に式3を適用して信頼性尺度を計算するための信頼性尺度計算モジュール184と、式3で用いられるαのための記憶部182と、信頼性尺度計算モジュール184の出力としきい値TTHとの比較に依存して、各単語についてタグTiob又はTwのいずれかを選択するタグ選択モジュール186と、しきい値TTHを記憶する記憶部188と、を含む。
FIG. 6 shows the configuration of the
<動作>
図1から図6を参照して、この実施の形態の中国語単語セグメント化装置50は以下のように動作する。
<Operation>
With reference to FIGS. 1 to 6, the Chinese
中国語単語セグメント化装置50の動作は2段階である。すなわち、トレーニングとセグメント化である。
The operation of the Chinese
‐トレーニング段階‐
トレーニング段階では、図2及び図3で示したトレーニングデータ60が前もって準備される。頻度カウントモジュール110がトレーニングデータ60中の各単語の発生頻度を計数し、単語のリストを出力する。リストの単語の各々はそれに割当てられた頻度を有する。
-Training stage-
In the training stage, the
ソートモジュール112は単語リストを頻度の降順でソートする。結果として得られる順序付きリスト114は記憶部に記憶される。
The
選択モジュール116は全ての一文字単語と上位2000個の複数文字単語とを選択モジュール116から選択し、サブワードリスト64を生成する。
The
IOBタグ付け及びセグメント化モジュール120はトレーニングデータ60中の文の各々を、サブワードリスト64をセグメント化のためのレキシコンとして用いて再セグメント化する。結果として得られるサブワードトレーニングデータ122は記憶部に記憶される。トレーニングモジュール124はサブワードトレーニングデータ122を用いて確率モデル66をトレーニングする。このトレーニングにより、確率モデル66は、上述のとおり、L−BFGS勾配効果最適化法を用いてトレーニングデータの対数尤度が最大化されるようにトレーニングされる。
The IOB tagging and
‐セグメント化段階‐
第2段階では、図2を参照して、中国語の文80が辞書を用いた単語セグメント化モジュール86に与えられる。図4を参照して、仮説生成モジュール140が中国語辞書82をセグメント化のためのレキシコンとして用いて、中国語の文80の可能なセグメント化仮説全てを生成する。仮説は記憶部142に記憶される。尤度計算モジュール144は統計的言語モデル84のNグラム確率を用いて各仮説の尤度を計算する。最尤選択モジュール146が尤度の最も高い仮説を選択する。尤度計算モジュール144と最尤選択モジュール146との機能はソフトウェアで実現され、実際にはビーム探索法を用いて、最も尤度の高い仮説が、全ての仮説の尤度を計算することなく選択されることに注意されたい。
-Segmentation stage-
In the second stage, referring to FIG. 2, a
選択された仮説はサブワードを用いたIOBタグ付けモジュール88に与えられる。IOBタグtwが仮説中の単語の各々に割当てられる。
The selected hypothesis is provided to the
図5を参照して、仮説生成モジュール160はサブワードリスト64をセグメント化のためのレキシコンとして用いて可能な単語セグメント化仮説全てを生成する。仮説は記憶部162に記憶される。尤度計算モジュール164は確率モデル66を用いて記憶部162に記憶された仮説の各々の尤度を計算する。最尤選択モジュール166は最も尤度の高い仮説を選択する。実際には尤度計算モジュール164と最尤選択モジュール166とはソフトウェアで実現され、ビーム探索法を用いるので、全ての仮説の尤度を計算する必要はないことに注意されたい。
Referring to FIG. 5,
サブワードを用いたIOBタグ付けモジュール88の動作の結果として、サブワードを用いたセグメント化が行われ、仮説が出力される。サブワードを用いたタグTiobと信頼性尺度CMiob(tiob|w)とが仮説中の各単語に割当てられる。
As a result of the operation of the
図6を参照して、比較モジュール180が仮説中の各単語のタグTiobとtwとを比較する。比較モジュール180は比較結果を出力する。信頼性尺度計算モジュール184は、CMiob(tiob|w)と、記憶部182内のαと、比較モジュール180の出力とを用いて式3により信頼性尺度CM(Tiob|w)を計算する。式3の結果得られる値がタグ選択モジュール186に与えられる。
Referring to FIG. 6, the
タグ選択モジュール186は信頼性尺度計算モジュール184から与えられた値を記憶部188に記憶されたしきい値TTHと比較する。もし式3の値がTTHより低い場合には、IOBタグTiobが拒絶され、辞書を用いたセグメント化タグtwが使用される。そうでなければ、IOBタグ付けセグメント化タグTiobが使用される。
The
<実験>
Sighanコンテスト2005によって与えられたデータを用いて、前のセクションで説明したこの発明の方策をテストした。データは、異なるソースからの4つのコーパスを含む。すなわち、アカデミアシニカ(AS)、香港市立大学(CITYU)、北京大学(PKU)及びマイクロソフトリサーチ北京(MSR:「マイクロソフト」は登録商標)である。この課題は提案されたサブワードを用いたIOBタグ付けの評価を行うことが目的であるので、クローズドテストのみを行った。セグメント化の結果評価には5つの測定指標を用いた。すなわち、再現率(recall:R)、精度(precision:P)、F−スコア(F)、OOV率(R−oov)、及びIV率(R−iv)である。コーパスとこれらのスコアの詳細については非特許文献1を参照されたい。
<Experiment>
The data provided by the Sighan Contest 2005 was used to test the inventive strategy described in the previous section. The data includes four corpora from different sources. That is, Academia Sinica (AS), Hong Kong City University (CITYU), Peking University (PKU), and Microsoft Research Beijing (MSR: “Microsoft” is a registered trademark). Since this task is aimed at evaluating the IOB tagging using the proposed subword, only the closed test was performed. Five measurement indices were used to evaluate the segmentation results. That is, the reproduction rate (recall: R), accuracy (precise: P), F-score (F), OOV rate (R-oov), and IV rate (R-iv). See Non-Patent Document 1 for details of the corpus and these scores.
辞書を用いた方策では、トレーニングデータから単語リストを語彙として抽出した。多義性解消のため、SRILMツールキットを用いて、トライグラムLMが生成された。 In the policy using a dictionary, a word list was extracted from training data as a vocabulary. To eliminate ambiguity, a trigram LM was generated using the SRILM toolkit.
表1は、辞書を用いたセグメント化の性能を示す。テストデータにはいくつかの一文字単語があるが、トレーニングデータにはないので、この実験ではR−oov率はゼロではない。実際、OOVの認識はなかった。従って、この方策ではFスコアが低くなった。しかしながら、R−ivはきわめて高かった。 Table 1 shows the segmentation performance using a dictionary. There are some single-letter words in the test data, but not in the training data, so the R-oov rate is not zero in this experiment. In fact, there was no recognition of OOV. Therefore, this measure resulted in a low F score. However, R-iv was very high.
‐文字を用いた、及びサブワードを用いたタグ付け部の効果‐
文字を用いるかサブワードを用いるかの主な違いは、再セグメント化のために用いられるレキシコンサブセットの内容である。文字を用いたタグ付けでは、辞書中の全ての中国語の文字を用いた。サブワードを用いたタグ付けでは、タグ付けのため、最も頻度の高い2000個の複数文字単語をレキシコンに付加した。辞書を用いたセグメント化の結果はFMMを用いて再セグメント化され、その後CFRによって「IOB」タグでラベル付けされた。CRFタグ付けを用いたセグメント化の結果を表2に示す。ここで各スロットの上の数は文字を用いた方策で生成されたものであり、下の数はサブワードを用いたものである。提案されたサブワードを用いた方策はCITYUコーパスとMSRコーパスでは有効であり、FスコアをCITYRでは0.941から0.946に、MSRでは0.959から0.964に向上させた。AS及びPKUコーパスではFスコアの変化はなかったが、再現率が向上した。表1と表2とを比較すると、CRFモデル化されたIOBタグ付けが、辞書を用いた方策よりもよいセグメント化を生じさせたことが分かる。しかし、R−oov率が向上するにつれてR−iv率は悪化した。信頼性尺度の方策を用いてこの問題に取り組む。
-Effect of tagging using letters and subwords-
The main difference between using letters or subwords is the contents of the lexicon subset used for resegmentation. In tagging using characters, all Chinese characters in the dictionary were used. In tagging using subwords, the most frequent 2000 multi-letter words were added to the lexicon for tagging. The results of segmentation using the dictionary were re-segmented using FMM and then labeled with the “IOB” tag by CFR. The results of segmentation using CRF tagging are shown in Table 2. Here, the upper number in each slot is generated by a strategy using characters, and the lower number is a subword. The proposed strategy using subwords is effective for the CITYU and MSR corpora, improving the F-score from 0.941 to 0.946 for CITYR and from 0.959 to 0.964 for MSR. The AS and PKU corpus did not change the F score, but the recall was improved. Comparing Table 1 and Table 2, it can be seen that CRF-modeled IOB tagging resulted in better segmentation than dictionary-based strategies. However, the R-iv rate deteriorated as the R-oov rate improved. Address this issue using a measure of reliability.
この応用では、辞書を用いたセグメント化の結果の組合せにより、IOBタグ付けの結果を再評価するために、信頼性尺度の方策を提案する。信頼性尺度の効果を表3に示す。ここで、α=0.7を用い、信頼性しきい値TTH=0.8を用いた。各スロットにおいて、上の数は文字を用いた方策のものであり、下の数はサブワードを用いたものである。
In this application, we propose a measure of reliability measure to re-evaluate the result of IOB tagging by combining the results of segmentation using a dictionary. The effect of the reliability measure is shown in Table 3. Here, α = 0.7 was used, and the reliability threshold value T TH = 0.8 was used. In each slot, the upper number is for the strategy using letters and the lower number is for the subwords.
信頼性尺度を用いた場合でも依然として、単語を用いたIOBタグ付けが文字を用いたIOBタグ付けより勝っていた。これは、提案されたサブワードを用いたIOBタグ付けが非常に有効であることを示す。 Even with the reliability measure, IOB tagging using words still outperformed IOB tagging using letters. This indicates that IOB tagging with the proposed subword is very effective.
‐検討及び関連の著作‐
この実施の形態で採用されたIOBタグ付けの方策は、新規な思想ではない。これは非特許文献5でキュー及びシェンによって中国語の単語セグメント化で初めて用いられ、ここでは最大エントロピー法が用いられた。その後、この方策は非特許文献3でペン及びマッカラムによってCRFに基づく方法で実現され、これはラベルのバイアスの問題を解決することができるため、最大エントロピー法より良好な結果を達成できることが分かった(非特許文献2を参照)。
-Review and related works-
The IOB tagging strategy employed in this embodiment is not a new idea. This was first used in Chinese word segmentation by Cue and Shen in Non-Patent Document 5, where the maximum entropy method was used. Later, this strategy was implemented in CRF-based method by Pen and McCallum in Non-Patent Document 3 and it was found that better results than the maximum entropy method can be achieved because it can solve the label bias problem. (See Non-Patent Document 2).
我々が主に寄与するところは、IOBタグ付けの方策を、文字を用いたものからサブワードを用いたものに拡張することである。この新たな取組みにより、単語セグメント化が大いに向上することを証明した。我々の得た結果を、Fスコアについて、コンテスト2005の最良の結果とともに表4に示す。 Our main contribution is to extend the IOB tagging strategy from using letters to using subwords. This new approach proved that word segmentation was greatly improved. Our results are shown in Table 4 along with the best results of the contest 2005 for F scores.
文字を用いたものにくらべサブワードを用いたIOBタグ付けが有利な別の点は、その速度である。サブワードを用いた方策は、ラベル付けされる文字数より単語数のほうが少ないため、より高速である。トレーニングでもテストでも、速度が向上した。 Another advantage of IOB tagging with subwords over textual ones is their speed. The strategy using subwords is faster because the number of words is less than the number of characters to be labeled. Speed increased in both training and testing.
信頼性尺度を用いる思想は非特許文献3で見られ、ここではOOVを認識するのに用いられた。発明の実施の形態では、これをよりきめ細かに用いる。信頼性尺度により、辞書を用いた結果とIOBタグ付けを用いた結果とを組合せ、その結果、最適の性能を達成することができた。 The idea of using a reliability scale was found in Non-Patent Document 3, where it was used to recognize OOV. In the embodiment of the invention, this is used more finely. The reliability measure combined the results using the dictionary with the results using IOB tagging, so that optimal performance could be achieved.
この実施の形態では、中国語の単語セグメント化にサブワードを用いたIOBタグ付けを提案した。CRFの方策を用いて、これが文字を用いた方法に勝ることを証明した。また、信頼度に依存する単語セグメント化を行うために、信頼性尺度を成功裏に用いた。この方策は、ユーザによるR−oovとR−ivとの要求に基づいて望ましいセグメント化を行うのに効果的である。 In this embodiment, IOB tagging using subwords for Chinese word segmentation was proposed. Using the CRF strategy, this proved to be superior to the method using letters. We have also successfully used the reliability measure to perform word segmentation depending on the reliability. This strategy is effective to achieve desirable segmentation based on user R-oov and R-iv requirements.
<コンピュータによる実現>
上述の実施の形態は、コンピュータシステムと、コンピュータシステム上で実行されるコンピュータプログラムとによって実現できる。図7はこの実施の形態で用いられるコンピュータシステム250の外観を示し、図8はコンピュータシステム250のブロック図である。ここで示されるコンピュータシステム250は単なる例示であって、他の構成が利用可能であることに注意されたい。
<Realization by computer>
The above-described embodiment can be realized by a computer system and a computer program executed on the computer system. FIG. 7 shows the external appearance of the
図7を参照して、コンピュータシステム250はコンピュータ260と、全てコンピュータ260に接続された、モニタ262、キーボード266、マウス268、スピーカ58及びマイクロフォン290とを含む。さらに、コンピュータ260はDVD−ROM(Digital Versatile Disc Read Only Memory:デジタル多用途ディスク読出専用メモリ)ドライブ270と半導体メモリポート272とを含む。
Referring to FIG. 7, a
図8を参照して、コンピュータ260はさらに、DVD−ROMドライブ270と半導体メモリポート272とに接続されたバス286と、全てバス286に接続された、CPU(Central Processing Unit:中央処理装置)276、コンピュータ260のブートアッププログラムを記憶するROM(Read Only Memory:読出専用メモリ)278、CPU276によって使用される作業領域を提供するとともにCPU276によって実行されるプログラムの記憶領域を提供するRAM(Random Access Memory:ランダムアクセスメモリ)280、言語モデル、サブワードリスト及び辞書(レキシコン)を記憶するハードディスクドライブ274、サウンドボード288、及びコンピュータ250にネットワーク52との接続を提供するネットワークインターフェース(I/F)296とを含む。スピーカ58とマイクロフォン290とはサウンドボード288に接続される。
Referring to FIG. 8,
上述の実施の形態のシステムを実現するソフトウェアは、DVD−ROM282又は半導体メモリ284等の記憶媒体上に記録されたオブジェクトコードの形で分配され、DVD−ROMドライブ270又は半導体メモリポート272等の読出装置を介してコンピュータ260に提供され、ハードディスクドライブ274に記憶される。CPU276がプログラムを実行する際に、プログラムはハードディスクドライブ274から読出され、RAM280に記憶される。図示しないプログラムカウンタによって指定されたアドレスから命令がフェッチされ、命令が実行される。CPUは処理すべきデータをハードディスクドライブ274から読出し、処理の結果をこれもまたハードディスクドライブ274に記憶する。スピーカ58及びマイクロフォン290は音声認識及び音声合成のために用いられる。
The software for realizing the system of the above-described embodiment is distributed in the form of an object code recorded on a storage medium such as the DVD-
コンピュータシステム250の一般的動作は周知であるので、ここではその詳細は説明しない。
The general operation of
ソフトウェアの分配の仕方については、これは必ずしも記録媒体上に固定されていなくてもよい。例えば、ソフトウェアはネットワークを介して接続された別のコンピュータから分配されてもよい。ソフトウェアの一部はハードディスクドライブ274に記憶されてもよく、残りの部分がネットワークを介してハードディスクに入れられ実行の際に統合されてもよい。
As for the distribution method of the software, this does not necessarily have to be fixed on the recording medium. For example, the software may be distributed from another computer connected via a network. A part of the software may be stored in the
典型的には、現代のコンピュータはコンピュータのオペレーティングシステム(OS)によって提供される一般的な機能を利用し、所望の目的に応じて制御された様態で機能を実行する。従って、OSによって又はサードパーティによって提供されうる一般的な機能を含まないプログラムであって単に一般的機能を実行する命令の組合せのみを指定するプログラムもまた、そのプログラムが全体として所望の目的を達成する制御構造を有する限り、この発明の範囲に含まれることは明らかである。 Typically, modern computers utilize general functions provided by a computer operating system (OS) and perform functions in a controlled manner according to the desired purpose. Therefore, a program that does not include a general function that can be provided by the OS or by a third party and that only specifies a combination of instructions that execute the general function also achieves the desired purpose as a whole. As long as it has a control structure, it is clearly included in the scope of the present invention.
<第2の実施の形態>
CRFを用いた上述の実施の形態では、所与の単語シーケンスW=w0w1…wMに対するIOBタグシーケンス、T=t0t1…tMの確率は式1で定義される。しかし、この発明の信頼性尺度はCRFによって計算されるものに限定されない。CRFに代えて、最大エントロピー(MaxEnt)方策を用いることもできる。
<Second Embodiment>
In the above embodiment using the CRF, IOB tag sequence for a given word sequence W = w 0 w 1 ... w M, the probability of T = t 0 t 1 ... t M is defined by Equation 1. However, the reliability measure of the present invention is not limited to that calculated by CRF. Instead of CRF, a maximum entropy (MaxENT) strategy can also be used.
MaxEntの方策によれば、tが現在の単語のタグI、O、Bであり、hが現在の単語の前後の単語とタグシーケンスを含む文脈であるものとして、確率p(t|h)の数学的表現は次のようになる。 According to MaxEnt's strategy, assuming that t is the tag I, O, B of the current word and h is the context containing the word sequence and tag sequence before and after the current word, the probability p (t | h) The mathematical expression is as follows.
この実施の形態でもまた、信頼性尺度は2つのソースから来る。サブワードを用いたIOBタグづけと辞書を用いた単語セグメント化である。その計算は以下のように定義される。 In this embodiment also, the reliability measure comes from two sources. IOB tagging using subwords and word segmentation using a dictionary. The calculation is defined as follows:
辞書を用いた単語セグメント化の後、単語はFMMによりサブワードに再セグメント化され、その後IOBタグ付けに供される。各サブワードには、先行するIOBタグ、tw、CMiob(t|w)、以下で定義されるサブワードを用いたIOBタグ付けの過程で導かれる信頼度確率 After word segmentation using the dictionary, the words are re-segmented into sub-words by FMM and then subjected to IOB tagging. Each subword has a preceding IOB tag, t w , CM iob (t | w), a reliability probability derived in the process of IOB tagging using the subword defined below
上述のCM(tiob|w)を用いたタグの選択は第1の実施の形態と同じである。 Tag selection using the above-described CM (t iob | w) is the same as in the first embodiment.
タグ付けの正確さを改善するために、多種類の特徴量を定義することができる。しかし、コンテスト2005のクローズドテストの制約に従うため、統語論的情報及び数とアルファベット文字のエンコード等は許されていない。従って、提供されたトレーニングコーパスから利用可能な特徴量のみを用いた。すなわち、文脈情報、接頭辞、接尾辞及び語長である。 In order to improve tagging accuracy, many types of features can be defined. However, in order to comply with the contest 2005 closed test constraints, syntactic information and encoding of numbers and alphabetic characters are not allowed. Therefore, only the feature quantities available from the provided training corpus were used. That is, context information, prefix, suffix, and word length.
‐文脈情報‐
w0,t−1,w0t−1,w0t−1w1,t−1w1,t−1t−2,w0t−1t−2,w0w1,w0w1w2,w−1,w0w−1,w0w−1w1,w-1w1,w-1w-2,w0w-1w-2,w1,w1w2
ここで、wは単語を表し、tはIOBタグを表す。添え字は位置指標であり、0は現在の単語/タグを意味し、−1、−2は左側の1番目又は2番目の単語/タグを意味し、1、2は右側の1番目又は2番目の単語/タグを意味する。
-Context information-
w 0 , t −1 , w 0 t −1 , w 0 t −1 w 1 , t −1 w 1 , t −1 t −2 , w 0 t −1 t −2 , w 0 w 1 , w 0 w 1 w 2 , w −1 , w 0 w −1 , w 0 w −1 w 1 , w −1 w 1 , w −1 w −2 , w 0 w −1 w −2 , w 1 , w 1 w 2
Here, w represents a word and t represents an IOB tag. The subscript is a position index, 0 means the current word / tag, -1, -2 means the first or second word / tag on the left side, and 1, 2 are the first or 2 on the right side. Means the second word / tag.
‐接頭辞及び接尾辞‐
これらは非常に有用な特徴量である。非特許文献4と同様の方策を用いて、接頭辞を示す「B」のタグが付された最も頻度の高い単語と、接尾辞を示す「I」のタグを付された最後の単語とを抽出した。接頭辞及び接尾辞を含む特徴は、以下の組合せで他の特徴と組合せて用いられ、ここでpは接頭辞、sは接尾辞を表し、p0は現在の単語が接頭辞であることを意味し、s1は右側の1番目の単語が接尾辞であることを意味し、以下同様である。
p0,w0p−1,w0p1,s0,w0s−1,w0s1,p0w−1,p0w1,s0w−1,s0w−2
‐語長‐
これは単語の文字数として定義される。中国語の単語長は単語の組立てについて特徴的な役割を有する。例えば、単一文字の単語は複数文字の単語に比べて新規な単語を形成しやすい。語長を用いた特徴量を以下に列挙する。ここでL0は現在の単語の語長を意味する。他のものも同様に推測できる。
L0,w0L−1,w0L1,w0L−1L1,L0L−1,L0L1
特徴量の選択に関連して、単純にトレーニングデータ中の各特徴量の絶対カウントを測定指標として採用し、特徴量の種類の各々について切捨て値を定義した。
-Prefix and suffix-
These are very useful features. Using the same strategy as in Non-Patent Document 4, the most frequent word tagged with the prefix “B” and the last word tagged with “I” indicating the suffix Extracted. Features that include prefixes and suffixes are used in combination with other features in the following combinations, where p represents a prefix, s represents a suffix, and p0 means the current word is a prefix: S1 means that the first word on the right is a suffix, and so on.
p 0 , w 0 p −1 , w 0 p 1 , s 0 , w 0 s −1 , w 0 s 1 , p 0 w −1 , p 0 w 1 , s 0 w −1 , s 0 w −2
-word length-
This is defined as the number of characters in the word. Chinese word length has a characteristic role in word composition. For example, a single character word is easier to form a new word than a multiple character word. The feature quantities using word length are listed below. Here, L 0 means the word length of the current word. Others can be guessed as well.
L 0 , w 0 L −1 , w 0 L 1 , w 0 L −1 L 1 , L 0 L −1 , L 0 L 1
In relation to the selection of feature values, the absolute count of each feature value in the training data was simply adopted as a measurement index, and a truncation value was defined for each type of feature value.
最大エントロピーモデルをトレーニングするために、IIS(Improved Iterative Scaling algorithm:改良反復スケーリングアルゴリズム)を用いた。詳細は、ラファルティら、2001年の非特許文献2を参照されたい。 IIS (Improved Iterative Scaling algorithm) was used to train the maximum entropy model. For details, see Rafalty et al., 2001, Non-Patent Document 2.
タグ付けアルゴリズムはビーム探索法(非特許文献6)に基づく。IOBタグ付けの後、各単語にB/I/Oのタグが付される。単語セグメント化がすぐに得られる。 The tagging algorithm is based on the beam search method (Non-Patent Document 6). After IOB tagging, each word is tagged with B / I / O. Word segmentation is readily available.
3種類の実験を行った。第1の実験では、サブワードリストに全ての中国語の文字を含めた。第2の実験では、サブワードリストにさらに2500個のトレーニングコーパス中最も頻度の高い複数文字単語を含めた。第3の実験では、別の2500個の最も頻度の高い複数文字単語を含めた。ここでα=0.8、しきい値TTH=0.7を用いた。 Three types of experiments were conducted. In the first experiment, all Chinese characters were included in the subword list. In the second experiment, the subword list further included the most frequent multi-letter words in 2500 training corpora. In the third experiment, another 2500 most frequent multi-letter words were included. Here, α = 0.8 and threshold value T TH = 0.7 were used.
表5、6、7はコンテスト2005のクローズドテストでの辞書を用いたセグメント化の結果、純粋にサブワードを用いたIOBタグ付けの結果、及び第2の実施の形態に従った信頼性尺度を用いたセグメント化の結果を示す。これらの表において、AS、CITYU、PKU及びMSRはそれぞれ、アカデミアシニカコーパス、香港市立大学コーパス、北京大学コーパス及びマイクロソフトリサーチコーパスである(「マイクロソフト」は登録商標)。これらの表において、第1、第2、第3の実験結果を各スロット内の上、中、下の行で示す。 Tables 5, 6, and 7 use the results of segmentation using the dictionary in the contest 2005 closed test, the results of IOB tagging using purely subwords, and the reliability measure according to the second embodiment. Shows the result of the segmentation. In these tables, AS, CITYU, PKU and MSR are respectively the Academia Sinica Corpus, Hong Kong City University Corpus, Peking University Corpus and Microsoft Research Corpus ("Microsoft" is a registered trademark). In these tables, the results of the first, second, and third experiments are shown in the upper, middle, and lower rows in each slot.
この実施の形態でも、しきい値TTHを変化させることによって、R−ivとR−oovとを最適化することができる。 Also in this embodiment, R-iv and R-oov can be optimized by changing the threshold value T TH .
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
32 辞書を用いたセグメント化
34 IOBタグ付け
36 信頼度を用いた単語のセグメント化
50 中国語単語セグメント化装置
60 トレーニングデータ
62 モデルトレーニングモジュール
64 サブワードリスト
66 確率モデル
86 辞書を用いた単語セグメント化モジュール
88 サブワードを用いたIOBタグ付けモジュール
90 信頼性尺度を用いたセグメント化モジュール
92 セグメント化結果
160 仮説生成モジュール
164 尤度計算モジュール
166 最尤選択モジュール
180 比較モジュール
184 信頼性尺度計算モジュール
186 タグ選択モジュール
32 Segmentation using a
Claims (4)
中国語の文字と中国語の複数文字の単語とを列挙する中国語サブワードリストを記憶するための第1の記憶部と、
中国語のサブワードに割当てられた第1のタグのシーケンスの統計的確率モデルを記憶するための第2の記憶部と、を含み、前記第1のタグは、独立した単語、複数文字単語の第1のサブワード、又はそれ以外を示し、前記装置はさらに、
中国語の文字シーケンスを前記サブワードリスト及び前記統計的確率モデルを用いて最尤推定により第1の中国語の単語シーケンスにセグメント化するための、サブワードを用いたセグメント化手段を含み、前記第1の中国語の単語シーケンスにおける複数サブワードの単語は、各々がセグメント化に従って前記第1のタグでラベル付けされたサブワードにセグメント化され、前記中国語のサブワードリストにおける前記単語は、前記サブワードを用いたセグメント化手段によって中国語の文字シーケンスをセグメント化する際にサブワードとして扱われる、装置。 An apparatus for segmenting a Chinese character sequence into a Chinese word sequence,
A first storage unit for storing a Chinese subword list enumerating Chinese characters and a plurality of Chinese characters;
A second storage unit for storing a statistical probability model of a sequence of first tags assigned to a Chinese subword, wherein the first tag is an independent word, a second of a multi-character word 1 subword, or otherwise, the device further comprises:
Segmenting means using subwords for segmenting a Chinese character sequence into a first Chinese word sequence by maximum likelihood estimation using the subword list and the statistical probability model; The sub-words in the Chinese word sequence are each segmented into sub-words labeled with the first tag according to segmentation, and the words in the Chinese sub-word list used the sub-words A device that is treated as a subword when segmenting Chinese character sequences by segmentation means.
前記サブワードを用いたセグメント化手段は前記第1のタグの各々の予め定義された信頼性の確率を出力し、前記装置はさらに、
中国語の文字と中国語の単語とを列挙する中国語文字辞書を記憶するための第3の記憶部と、
中国語の統計的言語モデルを記憶するための第4の記憶部と、
入力された中国語の文字シーケンスを、前記辞書と前記言語モデルとを用いた最尤推定で第2の中国語の単語シーケンスにセグメント化し、第2の中国語の単語シーケンス中の文字の各々に前記第2のタグを付すための、辞書を用いた単語セグメント化手段とを含み、前記第2のタグは、独立した単語として、複数文字単語の最初の文字として、又はそれ以外として機能する文字を示し、前記装置はさらに、
第1の中国語単語シーケンス中のサブワードの各々に割当てるべきタグを、ともにサブワードに割当てられた第1及び第2のタグとサブワードの信頼性確率との関数として決定するための決定手段を含む、装置。 An apparatus for segmenting a Chinese character sequence into a Chinese word sequence,
The segmentation means using the subword outputs a predefined reliability probability for each of the first tags, and the apparatus further comprises:
A third storage unit for storing a Chinese character dictionary enumerating Chinese characters and Chinese words;
A fourth storage unit for storing a statistical language model of Chinese;
The input Chinese character sequence is segmented into a second Chinese word sequence by maximum likelihood estimation using the dictionary and the language model, and each character in the second Chinese word sequence is segmented. A word segmenting means using a dictionary for attaching the second tag, wherein the second tag is a character that functions as an independent word, as the first character of a multi-character word, or otherwise Wherein the device further comprises
Determining means for determining a tag to be assigned to each of the subwords in the first Chinese word sequence as a function of the first and second tags both assigned to the subword and the reliability probability of the subword; apparatus.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006325457A JP2008140117A (en) | 2006-12-01 | 2006-12-01 | Apparatus for segmenting chinese character sequence to chinese word sequence |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006325457A JP2008140117A (en) | 2006-12-01 | 2006-12-01 | Apparatus for segmenting chinese character sequence to chinese word sequence |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008140117A true JP2008140117A (en) | 2008-06-19 |
Family
ID=39601509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006325457A Pending JP2008140117A (en) | 2006-12-01 | 2006-12-01 | Apparatus for segmenting chinese character sequence to chinese word sequence |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008140117A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011118496A (en) * | 2009-12-01 | 2011-06-16 | National Institute Of Information & Communication Technology | Language-independent word segmentation for statistical machine translation |
JP2011180941A (en) * | 2010-03-03 | 2011-09-15 | National Institute Of Information & Communication Technology | Phrase table generator and computer program therefor |
JP2013545160A (en) * | 2010-09-26 | 2013-12-19 | アリババ・グループ・ホールディング・リミテッド | Target word recognition using specified characteristic values |
CN104598573A (en) * | 2015-01-13 | 2015-05-06 | 北京京东尚科信息技术有限公司 | Method for extracting life circle of user and system thereof |
CN107861940A (en) * | 2017-10-10 | 2018-03-30 | 昆明理工大学 | A kind of Chinese word cutting method based on HMM |
CN109145282A (en) * | 2017-06-16 | 2019-01-04 | 贵州小爱机器人科技有限公司 | Punctuate model training method, punctuate method, apparatus and computer equipment |
JP2022530447A (en) * | 2019-04-22 | 2022-06-29 | 平安科技(深▲せん▼)有限公司 | Chinese word division method based on deep learning, equipment, storage media and computer equipment |
WO2022134592A1 (en) * | 2020-12-23 | 2022-06-30 | 深圳壹账通智能科技有限公司 | Address information resolution method, apparatus and device, and storage medium |
-
2006
- 2006-12-01 JP JP2006325457A patent/JP2008140117A/en active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011118496A (en) * | 2009-12-01 | 2011-06-16 | National Institute Of Information & Communication Technology | Language-independent word segmentation for statistical machine translation |
JP2011180941A (en) * | 2010-03-03 | 2011-09-15 | National Institute Of Information & Communication Technology | Phrase table generator and computer program therefor |
JP2013545160A (en) * | 2010-09-26 | 2013-12-19 | アリババ・グループ・ホールディング・リミテッド | Target word recognition using specified characteristic values |
CN104598573A (en) * | 2015-01-13 | 2015-05-06 | 北京京东尚科信息技术有限公司 | Method for extracting life circle of user and system thereof |
WO2016112782A1 (en) * | 2015-01-13 | 2016-07-21 | 北京京东尚科信息技术有限公司 | Method and system of extracting user living range |
CN109145282A (en) * | 2017-06-16 | 2019-01-04 | 贵州小爱机器人科技有限公司 | Punctuate model training method, punctuate method, apparatus and computer equipment |
CN109145282B (en) * | 2017-06-16 | 2023-11-07 | 贵州小爱机器人科技有限公司 | Sentence-breaking model training method, sentence-breaking device and computer equipment |
CN107861940A (en) * | 2017-10-10 | 2018-03-30 | 昆明理工大学 | A kind of Chinese word cutting method based on HMM |
JP2022530447A (en) * | 2019-04-22 | 2022-06-29 | 平安科技(深▲せん▼)有限公司 | Chinese word division method based on deep learning, equipment, storage media and computer equipment |
JP7178513B2 (en) | 2019-04-22 | 2022-11-25 | 平安科技(深▲せん▼)有限公司 | Chinese word segmentation method, device, storage medium and computer equipment based on deep learning |
WO2022134592A1 (en) * | 2020-12-23 | 2022-06-30 | 深圳壹账通智能科技有限公司 | Address information resolution method, apparatus and device, and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Chinese segmentation with a word-based perceptron algorithm | |
Azmi et al. | A survey of automatic Arabic diacritization techniques | |
Nelken et al. | Arabic diacritization using weighted finite-state transducers | |
JP2008140117A (en) | Apparatus for segmenting chinese character sequence to chinese word sequence | |
Lee et al. | Language model based Arabic word segmentation | |
Qian et al. | Disfluency detection using multi-step stacked learning | |
JP5599662B2 (en) | System and method for converting kanji into native language pronunciation sequence using statistical methods | |
US8380488B1 (en) | Identifying a property of a document | |
US6738741B2 (en) | Segmentation technique increasing the active vocabulary of speech recognizers | |
Zhao et al. | Integrating unsupervised and supervised word segmentation: The role of goodness measures | |
Elshafei et al. | Statistical methods for automatic diacritization of Arabic text | |
US20080162118A1 (en) | Technique for Searching Out New Words That Should Be Registered in Dictionary For Speech Processing | |
Zhang et al. | Subword-based tagging by conditional random fields for Chinese word segmentation | |
JP2003514304A5 (en) | ||
CN117935785A (en) | Phoneme-based contextualization for cross-language speech recognition in an end-to-end model | |
Zitouni et al. | Arabic diacritic restoration approach based on maximum entropy models | |
Alghamdi et al. | Automatic restoration of arabic diacritics: a simple, purely statistical approach | |
Silfverberg et al. | Data-driven spelling correction using weighted finite-state methods | |
Li et al. | Improving text normalization using character-blocks based models and system combination | |
JP5319141B2 (en) | Language model pruning method and apparatus | |
JP6941494B2 (en) | End-to-end Japanese speech recognition model learning device and program | |
Hifny | Open vocabulary Arabic diacritics restoration | |
Paripremkul et al. | Segmenting words in Thai language using Minimum text units and conditional random Field | |
Zhang et al. | Subword-based tagging for confidence-dependent Chinese word segmentation | |
Alajmi et al. | Hidden markov model based Arabic morphological analyzer |