JP5466588B2 - Word boundary judgment device - Google Patents
Word boundary judgment device Download PDFInfo
- Publication number
- JP5466588B2 JP5466588B2 JP2010151733A JP2010151733A JP5466588B2 JP 5466588 B2 JP5466588 B2 JP 5466588B2 JP 2010151733 A JP2010151733 A JP 2010151733A JP 2010151733 A JP2010151733 A JP 2010151733A JP 5466588 B2 JP5466588 B2 JP 5466588B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- word boundary
- feature amount
- unit
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本発明は、単語境界判定装置に関する。 The present invention relates to a word boundary determination device.
従来、日本語の文字列から単語の境界を検出する技術として、n-gramコーパスを使った単語境界推定方式が開示されている(例えば、非特許文献1参照)。非特許文献1の技術は、モデル検定によって算出した隣接する文字列の関連度(スコア値)を特徴量とし、単語境界を判定する。従って、非特許文献1の技術によれば、隣接する文字列の出現頻度を特徴量として単語境界を判定する技術に比べて、単語境界の精度よく判定することができる。また、非特許文献1の技術によれば、学習対象の文章中に単語境界を示すラベル情報が付与されていない状況でも、特徴量(スコア値)を算出し、単語境界を判定することができる。
Conventionally, as a technique for detecting a word boundary from a Japanese character string, a word boundary estimation method using an n-gram corpus has been disclosed (for example, see Non-Patent Document 1). The technique of
しかしながら、非特許文献1の技術は、学習対象の文章中に単語境界を示すラベル情報が付与されている状況にも、ラベル情報を用いることなく特徴量(スコア値)を算出するため、当該状況に見合うほどには単語境界推定(判定)の精度が十分に高くないという問題がある。
However, the technique of Non-Patent
本発明は、上述した課題に鑑みてなされたものであって、より精度良く単語の境界を判定するための技術を提供することを目的とする。 The present invention has been made in view of the above-described problems, and an object thereof is to provide a technique for determining a word boundary with higher accuracy.
上記問題を解決するために、本発明の一態様である単語境界判定装置は、文章に係る文章データと前記文章における単語境界を示すラベルとを含むラベル付学習データを用いて、単語境界が未知である未知文字列の単語境界を判定する単語境界判定装置であって、 2文字以上から構成される一の文字列から、前記一の文字列の一部を構成する1文字以上の文字列である第1文字列、および、前記一の文字列の一部を構成する1文字以上の文字列であって前記一の文字列において前記第1文字列に続く文字列である第2文字列を抽出する抽出部と、前記抽出部によって抽出された前記第1文字列および前記第2文字列の組合せ毎に、前記文章内における、前記第1文字列に続く前記第2文字列の出現回数および非出現回数、並びに、前記第1文字列以外の文字列に続く前記第2文字列の出現回数および非出現回数を、前記第1文字列と前記第2文字列の間の前記単語境界の有無別に集計する集計部と、前記集計部によって集計された集計値を用いて、モデル検定を行った上でモデル選択を行うことで前記一の文字列の特徴量を算出する特徴量算出部と、前記特徴量算出部によって算出された特徴量を使用した識別器を用いて、前記未知文字列の単語境界を判定する単語境界判定部とを備えることを特徴とする。 In order to solve the above problem, a word boundary determination device according to one aspect of the present invention uses a learning data with a label including sentence data related to a sentence and a label indicating the word boundary in the sentence, and the word boundary is unknown. A word boundary determination device for determining a word boundary of an unknown character string, wherein one character string composed of two or more characters is used as one or more character strings constituting a part of the one character string. A first character string and a second character string that is a character string of one or more characters constituting a part of the one character string and that is a character string following the first character string in the one character string; The number of appearances of the second character string following the first character string in the sentence for each combination of the extracting unit to extract, the first character string and the second character string extracted by the extracting unit; Number of non-appearances and the first A totaling unit that counts the number of appearances and non-occurrences of the second character string following a character string other than a character string according to the presence or absence of the word boundary between the first character string and the second character string; A feature amount calculation unit that calculates a feature amount of the one character string by performing a model test after performing a model test using a total value that is totaled by the unit, and a feature amount calculation unit that is calculated by the feature amount calculation unit And a word boundary determination unit that determines a word boundary of the unknown character string using a discriminator using a feature amount.
上記単語境界判定装置において、前記集計部は、前記一の文字列に関する集計値として、前記第1文字列に続いて前記第2文字列が出現し、かつ、前記単語境界が存在する第1の回数、前記第1文字列に続いて前記第2文字列以外の文字列が出現し、かつ、前記単語境界が存在する第2の回数、前記第1文字列以外の文字列に続いて前記第2文字列が出現し、かつ、前記単語境界が存在する第3の回数、前記第1文字列以外の文字列に続いて前記第2文字列以外の文字列が出現し、かつ、前記単語境界が存在する第4の回数、前記第1文字列に続いて前記第2文字列が出現し、かつ、前記単語境界が存在しない第5の回数、前記第1文字列に続いて前記第2文字列以外の文字列が出現し、かつ、前記単語境界が存在しない第6の回数、前記第1文字列以外の文字列に続いて前記第2文字列が出現し、かつ、前記単語境界が存在しない第7の回数、前記第1文字列以外の文字列に続いて前記第2文字列以外の文字列が出現し、かつ、前記単語境界が存在しない第8の回数を集計してもよい。 In the word boundary determination device, the counting unit includes a first value in which the second character string appears following the first character string and the word boundary exists as a total value for the one character string. A character string other than the second character string appears following the first character string, and the second number of times that the word boundary exists, and the character string other than the first character string follows the first character string. A character string other than the second character string appears following the character string other than the first character string, and the word boundary; The second character appears following the first character string, and the second character appears following the first character string, the fifth number when the word boundary does not exist. A character string other than a string appears and the word boundary does not exist, the sixth number of times, The second number of times when the second character string appears following a character string other than the character string and the word boundary does not exist, the character string other than the first character string is followed by a character other than the second character string. The eighth number of times when a character string appears and the word boundary does not exist may be counted.
上記単語境界判定装置において、前記特徴量算出部は、前記集計部によって集計された集計値を用いて、情報量基準に基づくモデル検定を行った上でモデル選択を行い、前記一の文字列の特徴量を算出してもよい。 In the word boundary determination device, the feature amount calculation unit performs model selection based on an information amount criterion using a total value calculated by the totaling unit, and performs model selection, and the one character string A feature amount may be calculated.
上記単語境界判定装置において、前記特徴量算出部は、前記集計部によって集計された集計値を用いて、AICに基づくモデル検定を行った上でモデル選択を行い、前記一の文字列の特徴量を算出してもよい。 In the word boundary determination device, the feature amount calculation unit performs model selection based on an AIC-based model test using the total value totaled by the totalization unit, and selects the feature amount of the one character string. May be calculated.
本発明によれば、より精度良く単語の境界を判定することができる。具体的には、本発明は、ラベル付学習データを保持し、隣接する文字列の出現頻度をラベルの存在をも考慮して集計し、その集計値を用いて特徴量を算出し、その特徴量を用いて単語の境界を判定しているため、隣接する文字列の出現頻度のみを特徴量として単語境界を判定する技術、或いは、上述する非特許文献1の技術に比べ、より精度良く単語の境界を判定することができるようになる。なお、本発明は、文節の境界を判定するための文節境界推定装置としても用いることができる。
According to the present invention, a word boundary can be determined with higher accuracy. Specifically, the present invention holds labeled learning data, aggregates the appearance frequency of adjacent character strings in consideration of the presence of labels, calculates a feature value using the aggregated value, Since the boundary of the word is determined using the amount, the word boundary is determined more accurately than the technique of determining the word boundary using only the appearance frequency of the adjacent character string as the feature amount, or the technique of Non-Patent
以下、本発明の一実施形態による単語境界判定装置について図面を参照して説明する。図1は本発明の一実施形態による単語境界判定装1の構成を示すブロック図である。
Hereinafter, a word boundary determination device according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a configuration of a word
単語境界判定装置1は、図1に示すように、集計装置2、特徴量算出装置3、単語境界判定用データ入力部11、判定対象データ記憶部12、評価データ入力部13、単語境界判定部14および判定結果記憶部15を備える。集計装置2は、学習データ記憶部21、抽出部22、集計部23、集計データ記憶部24および正規化処理部25を有する。特徴量算出装置3は、特徴量算出部31および特徴量記憶部32を有する。単語境界判定部14は、識別器14aを有する。
As shown in FIG. 1, the word
学習データ記憶部21は、文章に係る文章データ(即ち、テキスト形式のデータ)と当該文章データにおける単語境界を示すラベル(単語境界情報とも称する)とを含むラベル付学習データを予め記憶する。
The learning
抽出部22は、学習データ記憶部21に記憶されているラベル付学習データ内の、2文字以上から構成される一の文字列(以下、集計基礎文字列という)から、当該集計基礎文字列の一部を構成する1文字以上の文字列である第1文字列、および、当該集計基礎文字列の一部を構成する1文字以上の文字列であって当該集計基礎文字列において第1文字列に続く文字列である第2文字列を抽出する。なお、抽出部22は、同様に、判定対象データ記憶部12に記憶されている単語境界の判定対象であって単語境界が未知である未知文字列を含む判定対象データから、未知文字列を抽出する。
The
集計部23は、抽出部22によって抽出された第1文字列および第2文字列の組合せ毎に、文章内における、第1文字列に続く第2文字列の出現回数および非出現回数、並びに、第1文字列以外の文字列に続く第2文字列の出現回数および非出現回数を、第1文字列と第2文字列の間の単語境界の有無別に集計する。例えば、集計部23は、以下のように第1〜第8の回数を集計する。
(集計回数の例)
第1の回数:第1文字列に続いて第2文字列が出現し、かつ単語境界が存在する回数
第2の回数:第1文字列に続いて第2文字列以外の文字列が出現し、かつ単語境界が存在する回数
第3の回数:第1文字列以外の文字列に続いて第2文字列が出現し、かつ単語境界が存在する回数
第4の回数:第1文字列以外の文字列に続いて第2文字列以外の文字列が出現し、かつ単語境界が存在する回数
第5の回数:第1文字列に続いて第2文字列が出現し、かつ単語境界が存在しない回数
第6の回数:第1文字列に続いて第2文字列以外の文字列が出現し、かつ単語境界が存在しない回数
第7の回数:第1文字列以外の文字列に続いて第2文字列が出現し、かつ単語境界が存在しない回数
第8の回数:第1文字列以外の文字列に続いて第2文字列以外の文字列が出現し、かつ単語境界が存在しない第8の回数
For each combination of the first character string and the second character string extracted by the
(Example of counting times)
First number: The second character string appears following the first character string, and the number of times that a word boundary exists Second number: A character string other than the second character string appears following the first character string And the number of times a word boundary exists Third number: the number of times a second character string appears following a character string other than the first character string, and the number of word boundaries exists Fourth number: other than the first character string Number of times a character string other than the second character string appears after the character string and a word boundary exists
The fifth number: the second character string appears following the first character string, and the word boundary does not exist. The sixth number: the character string other than the second character string appears after the first character string. And the number of times that the word boundary does not exist seventh number: the number of times that the second character string follows the character string other than the first character string and the word boundary does not exist eighth number of times: other than the first character string The eighth number of times that a character string other than the second character string appears after the character string and no word boundary exists
なお、集計部23は、ラベル付学習データ内から抽出された文字列の場合と同様に、判定対象データ記憶部12に記憶されている未知文字列について、上述のn11〜n24の回数を集計する
In addition, the
集計データ記憶部24は、集計部23で集計された情報を、抽出部22によって抽出された第1文字列および第2文字列の組合せ毎に記憶する。
The total
正規化処理部25は、文章データを正規化処理(例えば、「コンピューター」という文字列を「コンピュータ」という文字列へ変換する処理)する処理部である。
The
特徴量算出部31は、集計部23によって集計された集計値を用いて第1文字列および第2文字列によって構成される文字列(以下、集計文字列という)の特徴量を算出する。より詳細には、特徴量算出部31は、集計部23によって集計された集計値を用いてモデル検定(例えば、情報量基準に基づくモデル検定)を行った上でモデル選択を行うことで、当該集計文字列の特徴量を算出する。換言すれば、特徴量算出部31は、第1文字列および第2文字列の組合せ毎に、集計基礎文字列の特徴量を算出する。
なお、特徴量算出部31は、同様に、判定対象データ記憶部12に記憶されている未知文字列の特徴量を算出する。
The feature
Note that the feature
特徴量記憶部32は、単語境界の判定に用いる特徴量を記憶する。具体的には、特徴量記憶部32は、特徴量算出部31によって算出された,第1文字列および第2文字列によって構成される集計文字列の特徴量、即ち、集計基礎文字列における第1文字列および第2文字列の組合せ毎の特徴量を記憶する。
The feature
単語境界判定用データ入力部11は、特徴量記憶部32に記憶されている特徴量を単語境界判定用データ(後述する)として識別器14aに入力する。
The word boundary determination
判定対象データ記憶部12は、単語境界の判定対象であって単語境界が未知である未知文字列を含む判定対象データを記憶する。評価データ入力部13は、抽出部22によって判定対象データ記憶部12から抽出された未知文字列の特徴量を評価データとして識別器14aに入力(登録)する。
The determination target
識別器14aは、未知文字列における単語境界を、当該未知文字列の特徴量である評価データと、単語境界判定用データとを用いて識別する。即ち、識別器14aは、特徴量算出部31によって算出された特徴量(評価データ、単語境界判定用データ)を使用し、未知文字列における単語境界を識別する。換言すれば、単語境界判定部14は、特徴量算出部31によって算出された上記特徴量を使用した識別器14aを用いて、未知文字列の単語境界を判定する。
The
続いて、図2に示すフローチャートを用いて集計装置2について詳細に説明する。なお、説明の便宜上、ラベル付学習データにおいて、例えば、文字列「今日」と文字列「は」との間に単語境界情報が設定(付加)されている場合、単語境界情報の存在を示す記号(例えば“‖”)を用いて、「今日‖は」と表記するものとする。
Next, the
集計装置2において、抽出部22は、学習データ記憶部21に記録されているラベル付学習データ内から2文字以上の集計基礎文字列を抽出する(ステップS101)。
In the totaling
なお、抽出部22は、正規化処理部25によって正規化された文字列を抽出するようにしてもよい。正規化とは、等価な意味を示す異なる文字列を統一的な文字列へ変換する処理である。例えば、学習データ記憶部21において「コンピューターについて」という文字列が記憶されている場合、正規化処理部25は、当該文字列内に含まれる“コンピューター”という文字列を“コンピュータ”という文字列に正規化処理し、抽出部22は、正規化処理後の「コンピュータについて」という文字列を抽出する。
Note that the
ステップS101に続いて、抽出部22は、抽出した集計基礎文字列内の一部を構成する1文字以上の文字列である第1文字列(s1)と、抽出した集計基礎文字列内の一部を構成する1文字以上の文字列であって抽出した文字列において第1文字列(s1)に続く文字列である第2文字列(s2)との組み合わせによって構成される集計文字列を特定する(ステップS102)。
Subsequent to step S101, the
例えば、抽出部22は、ステップS101において集計基礎文字列「食べると」を抽出していた場合、以下の第1〜第3の3パターンの集計文字列を特定する。
(集計文字列のパターン)
第1のパターン:第1文字列(s1)=「食」,第2文字列(s2)=「べ」
第2のパターン:第1文字列(s1)=「食べ」,第2文字列(s2)=「る」
第3のパターン:第1文字列(s1)=「食べる」,第2文字列(s2)=「と」
For example, if the
(Total string pattern)
First pattern: first character string (s 1 ) = “food”, second character string (s 2 ) = “be”
Second pattern: first character string (s 1 ) = “eat”, second character string (s 2 ) = “ru”
Third pattern: first character string (s 1 ) = “eat”, second character string (s 2 ) = “to”
ステップS102に続いて、集計部23は、一の集計文字列(上記例の場合、第1〜第3のパターンから順次選択される1つのパターンの集計文字列)について、学習データ記憶部21に記憶されているラベル付学習データを参照し、ラベル付学習データの注目する文字列の位置を順次ずらしながら、下記のn11〜n24の回数(上述の第1〜第8の回数に対応する回数)を集計する(ステップS103)。
Subsequent to step S102, the totaling
n11:ラベル付学習データ内において、一の集計文字列における第1文字列(s1)が出現し、かつ、直後に、当該一の集計文字列における文字列(S2)が出現し、かつ、両文字列の間(当該第1文字列(s1)と当該第2文字列(s2)の間)に単語境界tが存在していた回数
例えば、上述の第3のパターンの例であるが、第1文字列(s1)が「食べる」、第2文字列(s2)が「と」である場合、集計部23は、ラベル付学習データ内において「食べる‖と」の登場回数をカウントする。
n11: In the labeled learning data, the first character string (s 1 ) in one total character string appears, and immediately after that, the character string (S 2 ) in the one total character string appears, and The number of times the word boundary t exists between the two character strings (between the first character string (s 1 ) and the second character string (s 2 )) For example, in the example of the third pattern described above If the first character string (s 1 ) is “eating” and the second character string (s 2 ) is “to”, the
n12:ラベル付学習データ内において、一の集計文字列における第1文字列(s1)が出現し、かつ、直後に、当該一の集計文字列における第2文字列(S2)以外の文字列が出現し、かつ、両文字列の間(当該第1文字列(s1)と当該第2文字列(s2)以外の文字列の間)に単語境界tが存在していた回数
例えば、第1文字列(s1)が「食べる」、第2文字列(s2)が「と」である場合、集計部23は、ラベル付学習データ内において「食べる‖前」等の登場回数をカウントする。
n12: A character other than the second character string (S 2 ) in the one total character string immediately after the first character string (s 1 ) in the one total character string appears in the labeled learning data Number of times a word boundary t exists between the character strings and between the two character strings (between the first character string (s 1 ) and the character string other than the second character string (s 2 )). When the first character string (s 1 ) is “eating” and the second character string (s 2 ) is “to”, the
n13:ラベル付学習データ内において、一の集計文字列における第1文字列(s1)以外の文字列の直後に、当該一の集計文字列における第2文字列(S2)が出現し、かつ、両文字列の間(当該第1文字列(s1)以外の文字列と当該第2文字列(s2)の間)に単語境界tが存在していた回数
例えば、第1文字列(s1)が「食べる」、第2文字列(s2)が「と」である場合、集計部23は、ラベル付学習データ内において「明後日‖と」等の登場回数をカウントする。
n13: In the labeled learning data, the second character string (S 2 ) in the one aggregate character string appears immediately after the character string other than the first character string (s 1 ) in the one aggregate character string, And the number of times the word boundary t exists between the two character strings (between the character string other than the first character string (s 1 ) and the second character string (s 2 ). For example, the first character string When (s 1 ) is “eat” and the second character string (s 2 ) is “to”, the
n14:ラベル付学習データ内において、一の集計文字列における第1文字列(s1)以外の文字列の直後に、当該一の集計文字列における第2文字列(S2)以外の文字列が出現し、かつ、両文字列の間(当該第1文字列(s1)以外の文字列と当該第2文字列(s2)以外の文字列の間)に単語境界tが存在していた回数
例えば、第1文字列(s1)が「食べる」、第2文字列(s2)が「と」である場合、集計部23は、ラベル付学習データ内において「明後日‖に」等の登場回数をカウントする。
n14: A character string other than the second character string (S 2 ) in the one aggregate character string immediately after the character string other than the first character string (s 1 ) in the one aggregate character string in the labeled learning data And a word boundary t exists between both character strings (between a character string other than the first character string (s 1 ) and a character string other than the second character string (s 2 )). For example, when the first character string (s 1 ) is “eating” and the second character string (s 2 ) is “to”, the totaling
n21:ラベル付学習データ内において、一の集計文字列における第1文字列(s1)が出現し、かつ、直後に、当該一の集計文字列における文字列(S2)が出現し、かつ、両文字列の間(当該第1文字列(s1)と当該第2文字列(s2)の間)に単語境界tが存在していかった回数
例えば、上述の第3のパターンの例であるが、第1文字列(s1)が「食べる」、第2文字列(s2)が「と」である場合、集計部23は、ラベル付学習データ内において、実際に存在するか不明であるが、「食べると」の登場回数をカウントする。
n21: In the labeled learning data, the first character string (s 1 ) in one aggregate character string appears, and immediately after that, the character string (S 2 ) in the one aggregate character string appears, and , The number of times the word boundary t exists between the two character strings (between the first character string (s 1 ) and the second character string (s 2 )). For example, the above-described third pattern example However, if the first character string (s 1 ) is “eat” and the second character string (s 2 ) is “to”, the
n22:ラベル付学習データ内において、一の集計文字列における第1文字列(s1)が出現し、かつ、直後に、当該一の集計文字列における第2文字列(S2)以外の文字列が出現し、かつ、両文字列の間(当該第1文字列(s1)と当該第2文字列(s2)以外の文字列の間)に単語境界tが存在していなかった回数
例えば、上述の第3のパターンの例であるが、第1文字列(s1)が「食べる」、第2文字列(s2)が「と」である場合、集計部23は、ラベル付学習データ内において、実際に存在するか不明であるが、「食べる前」等の登場回数をカウントする。
n22: In the labeled learning data, the first character string (s 1 ) in one total character string appears, and immediately after that, a character other than the second character string (S 2 ) in the one total character string Number of times that a string appeared and a word boundary t did not exist between both character strings (between the first character string (s 1 ) and a character string other than the second character string (s 2 )) For example, in the example of the third pattern described above, when the first character string (s 1 ) is “eat” and the second character string (s 2 ) is “to”, the
n23:ラベル付学習データ内において、一の集計文字列における第1文字列(s1)以外の文字列の直後に、当該一の集計文字列における第2文字列(S2)が出現し、かつ、両文字列の間(当該第1文字列(s1)以外の文字列と当該第2文字列(s2)の間)に単語境界tが存在していなかった回数
例えば、第1文字列(s1)が「食べる」、第2文字列(s2)が「と」である場合、集計部23は、ラベル付学習データ内において「いもうと」等の登場回数をカウントする。
n23: In the labeled learning data, the second character string (S 2 ) in the one aggregate character string appears immediately after the character string other than the first character string (s 1 ) in the one aggregate character string, The number of times that the word boundary t did not exist between the two character strings (between the character string other than the first character string (s 1 ) and the second character string (s 2 ). For example, the first character When the column (s 1 ) is “eat” and the second character string (s 2 ) is “to”, the
n24:ラベル付学習データ内において、一の集計文字列における第1文字列(s1)以外の文字列の直後に、当該一の集計文字列における第2文字列(S2)以外の文字列が出現し、かつ、両文字列の間(当該第1文字列(s1)以外の文字列と当該第2文字列(s2)以外の文字列の間)に単語境界tが存在していなかった回数
例えば、第1文字列(s1)が「食べる」、第2文字列(s2)が「と」である場合、集計部23は、ラベル付学習データ内において「くだもの」等の登場回数をカウントする。
n24: A character string other than the second character string (S 2 ) in the one aggregate character string immediately after the character string other than the first character string (s 1 ) in the one aggregate character string in the labeled learning data And a word boundary t exists between both character strings (between a character string other than the first character string (s 1 ) and a character string other than the second character string (s 2 )). For example, when the first character string (s 1 ) is “eating” and the second character string (s 2 ) is “to”, the
次いで、集計部23は、当該一の集計文字列について、各集計回数(n11〜n24)の総和Z(集計回数総和値とも称する)を算出する(ステップS104)。つまり、集計部23は、Zは、下記式(1)によって算出する。
Next, the totaling
Z=n11+n12+n13+n14+n21+n22+n23+n24 …(1) Z = n11 + n12 + n13 + n14 + n21 + n22 + n23 + n24 (1)
集計部23は、当該集計文字列に対応付けて、各集計回数と集計回数総和値Zとを集計データ記憶部24に登録する(ステップS105)。
The totaling
集計部23は、抽出部22によって抽出された集計基礎文字列から特定された全ての集計文字列のそれぞれについて、n11〜n24の回数を集計し、集計回数総和値Zを算出したか否かを判断する(ステップS106)。例えば、集計部23は、集計基礎文字列「食べると」から特定された全ての集計文字列{(第1のパターンの集計文字列:第1文字列(s1)=「食」,第2文字列(s2)=「べ」),(第2のパターンの集計文字列:第1文字列(s1)=「食べ」,第2文字列(s2)=「る」),(第3のパターンの集計文字列:第1文字列(s1)=「食べる」,第2文字列(s2)=「と」)}のそれぞれについて、n11〜n24の回数を集計し、集計回数総和値Zを算出したか否かを判断する。
The totaling
集計部23は、全ての集計文字列のそれぞれについて、n11〜n24の回数を集計し、集計回数総和値Zを算出していないと判断した場合(ステップS106:No)、ステップS103の処理に戻って、次の集計文字列について、上述の回数を集計する。
The totaling
一方、集計部23は、全ての集計文字列のそれぞれについて、n11〜n24の回数を集計し、集計回数総和値Zを算出したと判断した場合(ステップS106:Yes)、抽出部22は、ラベル付学習データから全ての集計基礎文字列を抽出したかを判定する(ステップS107)。
On the other hand, when the totaling
抽出部22は、ラベル付学習データから全ての集計基礎文字列を抽出していないと判定した場合(ステップS107:No)、ステップS101の処理に戻って、次の集計基礎文字列を抽出する。
If the
一方、抽出部22は、ラベル付学習データから全ての集計基礎文字列を抽出したと判定した場合(ステップS107:Yes)、集計装置2(例えば抽出部22)は、特徴量算出装置3へ処理の開始を指示し、処理を終了する(図2に示すフローチャートは終了する)。
On the other hand, when the
なお、ステップS107において、抽出部22は、構成する文字の組合せが異なる一つひとつの文字列を集計基礎文字列とし、ラベル付学習データ全体を抽出元として、全ての集計基礎文字列を抽出したか否かを判定してもよい。また、抽出部22は、上記一つひとつの文字列を集計基礎文字列とし、ラベル付学習データ全体ではなくユーザによって指定された一部の範囲を抽出元として、全ての集計基礎文字列を抽出したか否かを判定してもよい。
Note that in step S107, the
続いて、図3に示すフローチャートを用いて特徴量算出装置3について詳細に説明する。特徴量算出装置3において、特徴量算出部31は、集計データ記憶部24に記憶されている全集計文字列についての各集計回数と集計回数総和値Zのうち、一の集計文字列についての各集計回数(n11〜n24)と集計回数総和値Zとを読み取る(ステップS201)。
Next, the feature
ステップS201に続いて、特徴量算出部31は、当該集計文字列について、AIC(Akaike's Information Criterion)に基づくモデル検定を行う。具体的には、特徴量算出部31は、当該集計文字列について、AIC(M0),AIC(M1),AIC(M2),AIC(M3)を下記式(2)〜(9)により算出する(ステップS202)。
Subsequent to step S201, the feature
AIC(M1)=−2*MLL+2*4 …(2)
なお、AIC(M1)は、第1文字列(s1)と単語境界tが従属関係にあることを示す値である。上記式(2)においてMLLは下記式(3)により算出される。
AIC (M1) =-2 * MLL + 2 * 4 (2)
AIC (M1) is a value indicating that the first character string (s 1 ) and the word boundary t are in a dependency relationship. In the above formula (2), MLL is calculated by the following formula (3).
MLL=(n11+n12)log(n11+n12)+(n13+n14)log(n13+n14)+(n21+n22)log(n21+n22)+(n23+n24)log(n23+n24)+(n11+n13+n21+n23)log(n11+n13+n21+n23)+(n12+n14+n22+n24)log(n12+n14+n22+n24)−2*ZlogZ …(3)
MLL = (n11 + n12) log (n11 + n12) + (n13 + n14) log (n13 + n14) + (n21 + n22) log (n21 + n22) + (n23 + n24) log (n23 + n24) + (n11 + n13 + n21 + n23 + n21 + n14 + n21 + n14 + n14 +
AIC(M2)=−2*MLL+2*4 …(4)
なお、AIC(M2)は、第2文字列(s2)と単語境界tが従属関係にあることを示す値である。上記式(4)においてMLLは下記式(5)により算出される。
AIC (M2) =-2 * MLL + 2 * 4 (4)
AIC (M2) is a value indicating that the second character string (s 2 ) and the word boundary t are in a dependency relationship. In the above formula (4), MLL is calculated by the following formula (5).
MLL=(n11+n12+n21+n22)log(n11+n12+n21+n22)+(n13+n14+n23+n24)log(n13+n14+n23+n24)+(n11+n13)log(n11+n13)+(n12+n14)log(n12+n14)+(n21+n23)log(n21+n23)+(n22+n24)log(n22+n24)−2*ZlogZ …(5) MLL = (n11 + n12 + n21 + n22) log (n11 + n12 + n21 + n22) + (n13 + n14 + n23 + n24) log (n13 + n14 + n23 + n24) + (n11 + n13) log (n11 + n13) + (n12 + n14) log (n12 + n14) 24 (n12 + n14) 24 (n12 + n14) 2 * ZlogZ (5)
AIC(M3)=−2*MLL+2*7 … (6)
なお、AIC(M3)は、第1文字列(s1)と第2文字列(s2)と単語境界tが従属関係にあることを示す値である。上記式(6)においてMLLは下記式(7)により算出される。
AIC (M3) =-2 * MLL + 2 * 7 (6)
AIC (M3) is a value indicating that the first character string (s 1 ), the second character string (s 2 ), and the word boundary t are in a dependency relationship. In the above formula (6), MLL is calculated by the following formula (7).
MLL=n11logn11+n12logn12+n13logn13+n14logn14+n21logn21+n22logn22+n23logn23+n24logn24−ZlogZ …(7) MLL = n11logn11 + n12logn12 + n13logn13 + n14logn14 + n21logn21 + n22logn22 + n23logn23 + n24logn24−ZlogZ (7)
AIC(M0)=−2*MLL+2*3 …(8)
なお、AIC(M0)は、第1文字列(s1)と第2文字列(s2)と単語境界tが独立関係にあることを示す値である。上記式(8)においてMLLは下記式(9)により算出する。
AIC (M0) = − 2 * MLL + 2 * 3 (8)
AIC (M0) is a value indicating that the first character string (s 1 ), the second character string (s 2 ), and the word boundary t are independent. In the above formula (8), MLL is calculated by the following formula (9).
MLL=(n11+n12+n13+n14)log(n11+n12+n13+n14)+(n11+n12+n21+n22)log(n11+n12+n21+n22)+(n11+n13+n21+n23)log(n11+n13+n21+n23)+(n21+n22+n23+n24)log(n21+n22+n23+n24)+(n13+n14+n23+n24)log(n13+n14+n23+n24)+(n12+n14+n22+n24)log(n12+n14+n22+n24)−3*ZlogZ …(9) MLL = (n11 + n12 + n13 + n14) log (n11 + n12 + n13 + n14) + (n11 + n12 + n21 + n22) log (n11 + n12 + n21 + n22) + (n11 + n13 + n21 + n23) log (n11 + n13 + n21 + n23) + (n21 + n22 + n23 + n24) log (n21 + n22 + n23 + n24) + (n13 + n14 + n23 + n24) log (n13 + n14 + n23 + n24) + (n12 + n14 + n22 + n24) log (n12 + n14 + n22 + n24) - 3 * ZlogZ (9)
ステップS202に示すAICに基づくモデル検定を行った特徴量算出部31は、モデル選択を行うことで、当該集計文字列の特徴量を算出する。具体的には、AIC(M0)、AIC(M1)、AIC(M2)、AIC(M3)を算出した特徴量算出部31は、AIC(M0)、AIC(M1)、AIC(M2)、AIC(M3)を比較し、最小のモデルを選択し、選択結果に応じて、当該集計文字列について、第1の文字列と第2の文字列の関連度を表す関連強度E(スコアE)を算出する(ステップS203)。
例えば、特徴量算出部31は、図4に示すアルゴリズムによって関連強度E(スコアE)を算出する。
The feature
For example, the feature
図4に示すアルゴリズムによれば、特徴量算出部31は、AIC(M0)、AIC(M1)、AIC(M2)、AIC(M3)のうちAIC(M1)が最小である場合には、第1文字列(s1)は、単語境界tに関連しない文書よりも単語境界tに関連する文書において、より多く発見されたため、即ち、(n11+n12)÷(n11+n12+n21+n22)>(n13+n14)÷(n13+n14+n23+n24)が成立するため、下記式(10)によって関連強度Eを算出する。
According to the algorithm shown in FIG. 4, the feature
関連強度E=AIC(M0)−AIC(M1) …(10) Relevance strength E = AIC (M0) −AIC (M1) (10)
一方、特徴量算出部31は、AIC(M0)、AIC(M1)、AIC(M2)、AIC(M3)のうちAIC(M2)が最小である場合、第2文字列(s2)は、単語境界tに関連しない文書よりも単語境界tに関連する文書において、より多く発見されたため、即ち、(n11+n13)÷(n11+n13+n21+n23)>(n12+n14)÷(n12+n14+n22+n24)が成立するため、下記式(11)によって関連強度Eを算出する。
On the other hand, when the AIC (M2) is the smallest among the AIC (M0), AIC (M1), AIC (M2), and AIC (M3), the feature
関連強度E=AIC(M0)−AIC(M2) …(11) Relevance strength E = AIC (M0) −AIC (M2) (11)
一方、特徴量算出部31は、AIC(M0)、AIC(M1)、AIC(M2)、AIC(M3)のうちAIC(M3)が最小である場合、単語の組み合わせ第1文字列(s1)∧第2文字列(s2)は、単語境界tに関連しない文書よりも単語境界tに関連する文書において、より多く発見されたため、即ち、n11÷(n11+n21)>(n12+n13+n14)÷(n12+n13+n14+n22+n23+n24)が成り立するため、下記式(12)によって関連強度Eを算出する。
On the other hand, when the AIC (M3) is the smallest among the AIC (M0), AIC (M1), AIC (M2), and AIC (M3), the feature
関連強度E=AIC(M0)−AIC(M3) …(12) Relation strength E = AIC (M0) −AIC (M3) (12)
一方、特徴量算出部31は、AIC(M0)、AIC(M1)、AIC(M2)、AIC(M3)のうちAIC(M0)が最小である場合、関連強度E=0とする。
On the other hand, when the AIC (M0) is the minimum among the AIC (M0), AIC (M1), AIC (M2), and AIC (M3), the feature
関連強度Eを算出した特徴量算出部31は、当該集計文字列(第1文字列(s1)、第2文字列(s2)の組)の特徴量(下記参照)として、単語境界tの有無(有:+1、無:−1)、各集計回数(n11〜n24)、AIC(M0)、AIC(f)、関連強度Eを特徴量記憶部32に記憶(登録)する(ステップS204)。
The feature
(特徴量)
特徴量{t s1,s2,n11,n12,n13,n14,n21,n22,n23,n24,AIC(M0),AIC(f),E}
なお、AIC(f)は、AIC(M0)、AIC(M1)、AIC(M2)、AIC(M3)のうち最小であるものである。
(Feature value)
Feature quantity {t s 1, s 2, n11, n12, n13, n14, n21, n22, n23, n24, AIC (M0), AIC (f), E}
AIC (f) is the smallest of AIC (M0), AIC (M1), AIC (M2), and AIC (M3).
例えば、特徴量算出部31は、第1文字列(s1)が「食」、第2文字列(s2)が「べ」である集計文字列の特徴量として、{−1 食,べ,100,50,50,200,200,150,150,400,1234.0,123.0,1111.0}を特徴量記憶部32に記憶する。
For example, the feature
特徴量算出部31は、集計データ記憶部24に記憶されている他の全ての集計文字列について、上記処理を行ったか否かを判断する(ステップS205)。特徴量算出部31は、全ての集計文字列について上記処理を行っていないと判断した場合(ステップS205:No)、他の集計文字列についてステップS201〜ステップS204を行う。
The feature
一方、特徴量算出部31は、全ての集計文字列について上記処理を行ったと判断した場合(ステップS205:Yes)、特徴量算出装置3の処理は終了する(図3に示すフローチャートは終了する)。
On the other hand, when the feature
特徴量算出装置3の処理終了後、単語境界判定用データ入力部11は、特徴量記憶部32に登録されている情報を読み出して、識別器14aへ入力(登録)する。識別器14aは、単語境界判定用データ入力部11によって読み出されたデータを単語境界判定用データとして登録する。
After the processing of the feature
例えば、識別器14aが、SVM( Support Vector Machine)であって、例えば、「1文字目の後ろに存在する区切りに対する単語境界の有無」、「2文字目の後ろに存在する区切りに対する単語境界の有無」、「…」のそれぞれを判定するL個の単語境界有無判定器から構成されている場合、単語境界判定用データ入力部11は、各単語境界有無判定器に対応するように、特徴量記憶部32に登録されている特徴量に係る第1文字列(s1)の文字列長を調整し、単語境界判定用データとして、識別器14aに登録する。
For example, the
例えば、単語境界判定用データ入力部11は、L=3の場合、特徴量記憶部32に登録されている特徴量{−1 食,べ,100,50,50,200,200,150,150,400,1234.0,123.0,1111.0}に基づいて、空の文字“$$”を用いて、「2文字目の後ろに存在する区切りに対する単語境界の有無」を判定する単語境界有無判定器用の特徴量{−1 $$ 食,べ,100,50,50,200,200,150,150,400,1234.0,123.0,1111.0}、および、「3文字目の後ろに存在する区切りに対する単語境界の有無」を判定する単語境界有無判定器用の特徴量{−1 $$ $$ 食,べ,100,50,50,200,200,150,150,400,1234.0,123.0,1111.0}を作成し、特徴量{−1 食,べ,100,50,50,200,200,150,150,400,1234.0,123.0,1111.0}、特徴量{−1 $$ 食,べ,100,50,50,200,200,150,150,400,1234.0,123.0,1111.0}、および、特徴量{−1 $$ $$ 食,べ,100,50,50,200,200,150,150,400,1234.0,123.0,1111.0}を識別器14aに登録する。
For example, when L = 3, the word boundary determination
また例えば、単語境界判定用データ入力部11は、同じくL=3の場合、特徴量記憶部32に登録されている特徴量{−1 食べ,る,200,100,100,400,400,300,300,800,2468.0,246.0,2222.0}に基づいて、「1文字目の後ろに存在する区切りに対する単語境界の有無」を判定する単語境界有無判定器用の特徴量{−1 べ,る,200,100,100,400,400,300,300,800,2468.0,246.0,2222.0}、および、「3文字目の後ろに存在する区切りに対する単語境界の有無」を判定する単語境界有無判定器用の特徴量{−1 $$ 食べ,る,200,100,100,400,400,300,300,800,2468.0,246.0,2222.0}を作成し、特徴量{−1 べ,る,200,100,100,400,400,300,300,800,2468.0,246.0,2222.0}、{−1 食べ,る,200,100,100,400,400,300,300,800,2468.0,246.0,2222.0}、および、特徴量{−1 $$ 食べ,る,200,100,100,400,400,300,300,800,2468.0,246.0,2222.0}を識別器14aに登録する。
Further, for example, when L = 3, the word boundary determination
続いて、図5に示すフローチャートを用いて単語境界判定装置1における単語境界判定処理について詳細に説明する。上述のように、単語境界判定用データが識別器14aに登録された後、単語境界判定装置1は、以下のように、単語境界判定処理を行う。
Next, word boundary determination processing in the word
抽出部22は、学習データ記憶部21に記録されているラベル付学習データ内から文字列(集計基礎文字列)を抽出するときと同様に、判定対象データ記憶部12に記憶されている判定対象データから未知文字列を抽出する(ステップS301)。ステップS301に続いて、抽出部22は、ラベル付学習データ内から抽出した文字列の場合と同様、未知文字列について、集計文字列を特定する(ステップS302)。即ち、抽出部22は、未知文字列内について第1文字列(s1)と第2文字列(s2)との組み合わせによって構成される集計文字列を特定する。
The
ステップS302に続いて、集計部23は、未知文字列の一の集計文字列について、ラベル付学習データ内から抽出した文字列の場合と同様、上述のn11〜n24の回数を集計し(ステップS303)、各集計回数(n11〜n24)の集計回数総和値Zを算出する(ステップS304)。
Subsequent to step S302, the
ステップS304に続いて、特徴量算出部31は、当該集計文字列について、AIC(M0),AIC(M1),AIC(M2),AIC(M3)を算出し(ステップS305)、関連強度E(スコアE)を算出する(ステップS306)。次いで、特徴量算出部31は、当該集計文字列の特徴量として、単語境界tの有無(有:+1、無:−1)、各集計回数(n11〜n24)、AIC(M0)、AIC(f)、関連強度Eを評価データ入力部13に出力する。
Subsequent to step S304, the feature
特徴量算出部31は、未知文字列の全ての集計文字列について、上記処理を行ったか否かを判断する(ステップS308)。特徴量算出部31は、全ての集計文字列について上記処理を行っていないと判断した場合(ステップS308:No)、他の集計文字列についてステップS303〜ステップS307を行う。
The feature
一方、特徴量算出部31は、全ての集計文字列について上記処理を行ったと判断した場合(ステップS308:Yes)、評価データ入力部13は、当該未知文字列の全ての集計文字列に係る特徴量を評価データとして識別器14aに登録する(ステップS309)。
On the other hand, when the feature
単語境界判定部14は、特徴量算出部31によって算出された特徴量を使用した識別器14aを用いて、当該未知文字列の単語境界を判定する。より詳細には、識別器14aは、評価データ入力部13によって登録された未知文字列の特徴量である評価データと、単語境界判定用データ入力部11によって登録された単語境界判定用データとを用いて、当該未知文字列の単語境界を判定する(ステップS310)。例えば、識別器14aは、未知文字列の特徴量である評価データと、ラベル付学習データから抽出された第1文字列および第2文字列によって構成される集計文字列の特徴量である単語境界判定用データとを比較し、未知文字列の単語境界を判定する。
The word
なお、未知文字列の単語境界を判定した識別器14aは、未知文字列に単語境界情報を付与して判定結果記憶部15へ記憶する。
The
以上、本発明の実施形態によれば、ラベル付学習データを保持し、隣接する文字列の出現頻度をラベルの存在をも考慮して集計し、その集計値を用いて特徴量を算出し、その特徴量を用いて単語の境界を判定しているため、従来に比べ、より精度良く単語の境界を判定することができる。なお、本実施形態は、単語境界判定装置について説明しているが、文節の境界を判定するための文節境界判定装置にも適用可能である(例えば、「わたしのなまえはなかのです。」について、「わたしの/なまえは/なかのです。/」と境界「/」を判定することができる)。 As described above, according to the embodiment of the present invention, the labeled learning data is retained, the appearance frequency of adjacent character strings is counted in consideration of the presence of the label, and the feature amount is calculated using the counted value, Since the boundary between words is determined using the feature amount, the boundary between words can be determined with higher accuracy than in the past. In addition, although this embodiment has described the word boundary determination device, it can also be applied to a phrase boundary determination device for determining the boundary of a phrase (for example, “My name is Hanaka.”). , “My / Name is / Naka /” and the boundary “/” can be determined).
なお、上記実施形態において、抽出部22は、学習データ記憶部21に記憶されているラベル付学習データ内に存在する一の文字列(集計基礎文字列)から第1文字列および第2文字列を抽出したが、抽出部22は、ラベル付学習データ内に存在していない一の文字列(例えば、ユーザが入力した任意の集計基礎文字列)から第1文字列および第2文字列を抽出するようにしてもよい。
In the above-described embodiment, the
なお、上記実施形態においては、情報量基準に基づくモデル検定として、AICに基づくモデル検定を用いる例を説明したが、BIC、GICなどの他の種類の情報量基準に基づくモデル検定を用いてもよい。また、情報量基準に基づくモデル検定ではなく、他のモデル検定を用いてもよい。例えば、外部より閾値を与え、閾値を超えるスコアを従属関係とみなすことによって、他のモデル検定(例えば、カイ二乗検定や相互情報量)を用いることが可能である。 In the above embodiment, an example in which a model test based on AIC is used as a model test based on an information criterion has been described. However, a model test based on another type of information criterion such as BIC or GIC may be used. Good. In addition, a model test other than the model test based on the information criterion may be used. For example, it is possible to use another model test (for example, chi-square test or mutual information amount) by giving a threshold value from the outside and considering a score exceeding the threshold value as a dependency.
なお、上記実施形態において、単語境界判定装置1が集計装置2を含む構成について説明したが、単語境界判定装置1は集計装置2を含まない構成(集計装置2は別体である構成)であってもよい。特徴量算出装置3についても同様である。
In the above embodiment, the configuration in which the word
なお、本発明の一実施形態による単語境界判定装置1の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、本発明の一実施形態による単語境界判定装置1の各処理に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
Note that a program for executing each process of the word
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。 Further, the “computer-readable recording medium” means a volatile memory (for example, DRAM (Dynamic DRAM) in a computer system that becomes a server or a client when a program is transmitted through a network such as the Internet or a communication line such as a telephone line. Random Access Memory)), etc., which hold programs for a certain period of time. The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, what is called a difference file (difference program) may be sufficient.
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes designs and the like that do not depart from the gist of the present invention.
1…単語境界判定装置
2…集計装置
3…特徴量算出装置
11…単語境界判定用データ入力部
12…判定対象データ記憶部
13…判定対象データ入力部
14a…識別器
14…単語境界判定部
15…判定結果記憶部
21…学習データ記憶部
22…抽出部
23…集計部
24…集計データ記憶部
25…正規化処理部
31…特徴量算出部
32…特徴量記憶部
DESCRIPTION OF
Claims (4)
2文字以上から構成される一の文字列から、前記一の文字列の一部を構成する1文字以上の文字列である第1文字列、および、前記一の文字列の一部を構成する1文字以上の文字列であって前記一の文字列において前記第1文字列に続く文字列である第2文字列を抽出する抽出部と、
前記抽出部によって抽出された前記第1文字列および前記第2文字列の組合せ毎に、前記文章内における、前記第1文字列に続く前記第2文字列の出現回数および非出現回数、並びに、前記第1文字列以外の文字列に続く前記第2文字列の出現回数および非出現回数を、前記第1文字列と前記第2文字列の間の前記単語境界の有無別に集計する集計部と、
前記集計部によって集計された集計値を用いて、モデル検定を行った上でモデル選択を行うことで前記一の文字列の特徴量を算出する特徴量算出部と、
前記特徴量算出部によって算出された特徴量を使用した識別器を用いて、前記未知文字列の単語境界を判定する単語境界判定部と
を備えることを特徴とする単語境界判定装置。 A word boundary determination device for determining a word boundary of an unknown character string whose word boundary is unknown, using labeled learning data including sentence data relating to a sentence and a label indicating a word boundary in the sentence,
A first character string that is a character string of one or more characters constituting a part of the one character string, and a part of the one character string are composed of one character string composed of two or more characters. An extraction unit that extracts a second character string that is a character string of one or more characters and that is a character string following the first character string in the one character string;
For each combination of the first character string and the second character string extracted by the extraction unit, the number of appearances and non-appearances of the second character string following the first character string in the sentence, and A totaling unit that counts the number of appearances and non-appearances of the second character string following a character string other than the first character string according to the presence or absence of the word boundary between the first character string and the second character string; ,
A feature amount calculation unit that calculates a feature amount of the one character string by performing model selection after performing a model test using the aggregate value that is aggregated by the aggregation unit;
A word boundary determination device, comprising: a word boundary determination unit that determines a word boundary of the unknown character string using a discriminator using the feature amount calculated by the feature amount calculation unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010151733A JP5466588B2 (en) | 2010-07-02 | 2010-07-02 | Word boundary judgment device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010151733A JP5466588B2 (en) | 2010-07-02 | 2010-07-02 | Word boundary judgment device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012014548A JP2012014548A (en) | 2012-01-19 |
JP5466588B2 true JP5466588B2 (en) | 2014-04-09 |
Family
ID=45600873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010151733A Expired - Fee Related JP5466588B2 (en) | 2010-07-02 | 2010-07-02 | Word boundary judgment device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5466588B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110851738B (en) | 2019-10-28 | 2021-03-19 | 百度在线网络技术(北京)有限公司 | Method, device and equipment for acquiring POI state information and computer storage medium |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4652737B2 (en) * | 2004-07-14 | 2011-03-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Word boundary probability estimation device and method, probabilistic language model construction device and method, kana-kanji conversion device and method, and unknown word model construction method, |
-
2010
- 2010-07-02 JP JP2010151733A patent/JP5466588B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012014548A (en) | 2012-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230315772A1 (en) | Method, apparatus, and computer program product for classification and tagging of textual data | |
JP2019504413A (en) | System and method for proposing emoji | |
JP2005122533A (en) | Question-answering system and question-answering processing method | |
JP2015201185A (en) | Method for specifying topic of lecture video and non-temporary computer readable medium | |
JP5846959B2 (en) | Basic vocabulary extraction device and program | |
JP5399450B2 (en) | System, method and software for determining ambiguity of medical terms | |
US11126783B2 (en) | Output apparatus and non-transitory computer readable medium | |
JP2003223456A (en) | Method and device for automatic summary evaluation and processing, and program therefor | |
JPWO2012096388A1 (en) | Unexpectedness determination system, unexpectedness determination method, and program | |
Loock | The sequel paradox: repetition, innovation, and hollywood‘s hit film formula | |
JP5679194B2 (en) | Information processing apparatus, information processing method, and program | |
CN109670304A (en) | Recognition methods, device and the electronic equipment of malicious code family attribute | |
Das et al. | Going beyond corr-lda for detecting specific comments on news & blogs | |
JP5466588B2 (en) | Word boundary judgment device | |
JP5952441B2 (en) | Method for identifying secret data, electronic apparatus and computer-readable recording medium | |
JP2008217064A (en) | Request extraction apparatus, method and program | |
TW202022635A (en) | System and method for adaptively adjusting related search words | |
Zanoli et al. | A transformation-driven approach for recognizing textual entailment | |
JP6085149B2 (en) | Function execution instruction system, function execution instruction method, and function execution instruction program | |
Singh et al. | Art of publication and selection of journal | |
JP5757551B2 (en) | Semantic classification assignment device, semantic classification provision method, semantic classification provision program | |
JP2010224887A (en) | Word boundary decision device and morphological analysis device | |
WO2019192122A1 (en) | Document topic parameter extraction method, product recommendation method and device, and storage medium | |
JP5117590B2 (en) | Document processing apparatus and program | |
JP6235386B2 (en) | Information presenting apparatus, information presenting method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130305 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130305 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140124 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |