JP2012014548A

JP2012014548A - 単語境界判定装置

Info

Publication number: JP2012014548A
Application number: JP2010151733A
Authority: JP
Inventors: Tadashi Yanagihara; 正柳原; Kazunori Matsumoto; 一則松本; Kazufumi Ikeda; 和史池田; Yasuhiro Takishima; 康弘滝嶋
Original assignee: KDDI R&D Laboratories Inc
Current assignee: KDDI Research Inc
Priority date: 2010-07-02
Filing date: 2010-07-02
Publication date: 2012-01-19
Anticipated expiration: 2030-07-02
Also published as: JP5466588B2

Abstract

【課題】より精度良く単語の境界を判定する。
【解決手段】単語境界判定装置１は、２文字以上から構成される一の文字列から、一の文字列の一部を構成する１文字以上の文字列（第１文字列）、および、一の文字列の一部を構成する１文字以上の文字列であって一の文字列において第１文字列に続く文字列（第２文字列）を抽出する抽出部２２と、抽出された第１文字列、第２文字列の組合せ毎に、ラベル付学習データ内における、第１文字列に続く第２文字列の出現回数および非出現回数、並びに、第１文字列以外の文字列に続く第２文字列の出現回数および非出現回数を、第１文字列と第２文字列の間の単語境界の有無別に集計する集計部２３と、該集計値を用いてモデル検定を行った上でモデル選択を行うことで一の文字列の特徴量を算出する特徴量算出部３１と、該特徴量を使用した識別器１４ａを用いて未知文字列の単語境界を判定する単語境界判定部１４とを備える。
【選択図】図１

Description

本発明は、単語境界判定装置に関する。

従来、日本語の文字列から単語の境界を検出する技術として、n-gramコーパスを使った単語境界推定方式が開示されている（例えば、非特許文献１参照）。非特許文献１の技術は、モデル検定によって算出した隣接する文字列の関連度（スコア値）を特徴量とし、単語境界を判定する。従って、非特許文献１の技術によれば、隣接する文字列の出現頻度を特徴量として単語境界を判定する技術に比べて、単語境界の精度よく判定することができる。また、非特許文献１の技術によれば、学習対象の文章中に単語境界を示すラベル情報が付与されていない状況でも、特徴量（スコア値）を算出し、単語境界を判定することができる。

柳原正、外１名、「情報量基準に基づく単語境界推定方式の提案」、第１９０回自然言語処理学会（ＩＰＳＪ−ＮＬ）、２００９年、p.43-48

しかしながら、非特許文献１の技術は、学習対象の文章中に単語境界を示すラベル情報が付与されている状況にも、ラベル情報を用いることなく特徴量（スコア値）を算出するため、当該状況に見合うほどには単語境界推定（判定）の精度が十分に高くないという問題がある。

本発明は、上述した課題に鑑みてなされたものであって、より精度良く単語の境界を判定するための技術を提供することを目的とする。

上記問題を解決するために、本発明の一態様である単語境界判定装置は、文章に係る文章データと前記文章における単語境界を示すラベルとを含むラベル付学習データを用いて、単語境界が未知である未知文字列の単語境界を判定する単語境界判定装置であって、２文字以上から構成される一の文字列から、前記一の文字列の一部を構成する１文字以上の文字列である第１文字列、および、前記一の文字列の一部を構成する１文字以上の文字列であって前記一の文字列において前記第１文字列に続く文字列である第２文字列を抽出する抽出部と、前記抽出部によって抽出された前記第１文字列および前記第２文字列の組合せ毎に、前記文章内における、前記第１文字列に続く前記第２文字列の出現回数および非出現回数、並びに、前記第１文字列以外の文字列に続く前記第２文字列の出現回数および非出現回数を、前記第１文字列と前記第２文字列の間の前記単語境界の有無別に集計する集計部と、前記集計部によって集計された集計値を用いて、モデル検定を行った上でモデル選択を行うことで前記一の文字列の特徴量を算出する特徴量算出部と、前記特徴量算出部によって算出された特徴量を使用した識別器を用いて、前記未知文字列の単語境界を判定する単語境界判定部とを備えることを特徴とする。

上記単語境界判定装置において、前記集計部は、前記一の文字列に関する集計値として、前記第１文字列に続いて前記第２文字列が出現し、かつ、前記単語境界が存在する第１の回数、前記第１文字列に続いて前記第２文字列以外の文字列が出現し、かつ、前記単語境界が存在する第２の回数、前記第１文字列以外の文字列に続いて前記第２文字列が出現し、かつ、前記単語境界が存在する第３の回数、前記第１文字列以外の文字列に続いて前記第２文字列以外の文字列が出現し、かつ、前記単語境界が存在する第４の回数、前記第１文字列に続いて前記第２文字列が出現し、かつ、前記単語境界が存在しない第５の回数、前記第１文字列に続いて前記第２文字列以外の文字列が出現し、かつ、前記単語境界が存在しない第６の回数、前記第１文字列以外の文字列に続いて前記第２文字列が出現し、かつ、前記単語境界が存在しない第７の回数、前記第１文字列以外の文字列に続いて前記第２文字列以外の文字列が出現し、かつ、前記単語境界が存在しない第８の回数を集計してもよい。

上記単語境界判定装置において、前記特徴量算出部は、前記集計部によって集計された集計値を用いて、情報量基準に基づくモデル検定を行った上でモデル選択を行い、前記一の文字列の特徴量を算出してもよい。

上記単語境界判定装置において、前記特徴量算出部は、前記集計部によって集計された集計値を用いて、ＡＩＣに基づくモデル検定を行った上でモデル選択を行い、前記一の文字列の特徴量を算出してもよい。

本発明によれば、より精度良く単語の境界を判定することができる。具体的には、本発明は、ラベル付学習データを保持し、隣接する文字列の出現頻度をラベルの存在をも考慮して集計し、その集計値を用いて特徴量を算出し、その特徴量を用いて単語の境界を判定しているため、隣接する文字列の出現頻度のみを特徴量として単語境界を判定する技術、或いは、上述する非特許文献１の技術に比べ、より精度良く単語の境界を判定することができるようになる。なお、本発明は、文節の境界を判定するための文節境界推定装置としても用いることができる。

単語境界判定装置の構成を示すブロック図である。集計装置の処理フローを示す図である。特徴量算出装置の処理フローを示す図である。特徴量算出部の処理のアルゴリズムを示す図である。単語境界判定装置における単語境界判定処理の処理フローを示す図である。

以下、本発明の一実施形態による単語境界判定装置について図面を参照して説明する。図１は本発明の一実施形態による単語境界判定装１の構成を示すブロック図である。

単語境界判定装置１は、図１に示すように、集計装置２、特徴量算出装置３、単語境界判定用データ入力部１１、判定対象データ記憶部１２、評価データ入力部１３、単語境界判定部１４および判定結果記憶部１５を備える。集計装置２は、学習データ記憶部２１、抽出部２２、集計部２３、集計データ記憶部２４および正規化処理部２５を有する。特徴量算出装置３は、特徴量算出部３１および特徴量記憶部３２を有する。単語境界判定部１４は、識別器１４ａを有する。

学習データ記憶部２１は、文章に係る文章データ（即ち、テキスト形式のデータ）と当該文章データにおける単語境界を示すラベル（単語境界情報とも称する）とを含むラベル付学習データを予め記憶する。

抽出部２２は、学習データ記憶部２１に記憶されているラベル付学習データ内の、２文字以上から構成される一の文字列（以下、集計基礎文字列という）から、当該集計基礎文字列の一部を構成する１文字以上の文字列である第１文字列、および、当該集計基礎文字列の一部を構成する１文字以上の文字列であって当該集計基礎文字列において第１文字列に続く文字列である第２文字列を抽出する。なお、抽出部２２は、同様に、判定対象データ記憶部１２に記憶されている単語境界の判定対象であって単語境界が未知である未知文字列を含む判定対象データから、未知文字列を抽出する。

集計部２３は、抽出部２２によって抽出された第１文字列および第２文字列の組合せ毎に、文章内における、第１文字列に続く第２文字列の出現回数および非出現回数、並びに、第１文字列以外の文字列に続く第２文字列の出現回数および非出現回数を、第１文字列と第２文字列の間の単語境界の有無別に集計する。例えば、集計部２３は、以下のように第１〜第８の回数を集計する。
（集計回数の例）
第１の回数：第１文字列に続いて第２文字列が出現し、かつ単語境界が存在する回数
第２の回数：第１文字列に続いて第２文字列以外の文字列が出現し、かつ単語境界が存在する回数
第３の回数：第１文字列以外の文字列に続いて第２文字列が出現し、かつ単語境界が存在する回数
第４の回数：第１文字列以外の文字列に続いて第２文字列以外の文字列が出現し、かつ単語境界が存在する回数

第５の回数：第１文字列に続いて第２文字列が出現し、かつ単語境界が存在しない回数
第６の回数：第１文字列に続いて第２文字列以外の文字列が出現し、かつ単語境界が存在しない回数
第７の回数：第１文字列以外の文字列に続いて第２文字列が出現し、かつ単語境界が存在しない回数
第８の回数：第１文字列以外の文字列に続いて第２文字列以外の文字列が出現し、かつ単語境界が存在しない第８の回数

なお、集計部２３は、ラベル付学習データ内から抽出された文字列の場合と同様に、判定対象データ記憶部１２に記憶されている未知文字列について、上述のｎ１１〜ｎ２４の回数を集計する

集計データ記憶部２４は、集計部２３で集計された情報を、抽出部２２によって抽出された第１文字列および第２文字列の組合せ毎に記憶する。

正規化処理部２５は、文章データを正規化処理（例えば、「コンピューター」という文字列を「コンピュータ」という文字列へ変換する処理）する処理部である。

特徴量算出部３１は、集計部２３によって集計された集計値を用いて第１文字列および第２文字列によって構成される文字列（以下、集計文字列という）の特徴量を算出する。より詳細には、特徴量算出部３１は、集計部２３によって集計された集計値を用いてモデル検定（例えば、情報量基準に基づくモデル検定）を行った上でモデル選択を行うことで、当該集計文字列の特徴量を算出する。換言すれば、特徴量算出部３１は、第１文字列および第２文字列の組合せ毎に、集計基礎文字列の特徴量を算出する。
なお、特徴量算出部３１は、同様に、判定対象データ記憶部１２に記憶されている未知文字列の特徴量を算出する。

特徴量記憶部３２は、単語境界の判定に用いる特徴量を記憶する。具体的には、特徴量記憶部３２は、特徴量算出部３１によって算出された，第１文字列および第２文字列によって構成される集計文字列の特徴量、即ち、集計基礎文字列における第１文字列および第２文字列の組合せ毎の特徴量を記憶する。

単語境界判定用データ入力部１１は、特徴量記憶部３２に記憶されている特徴量を単語境界判定用データ（後述する）として識別器１４ａに入力する。

判定対象データ記憶部１２は、単語境界の判定対象であって単語境界が未知である未知文字列を含む判定対象データを記憶する。評価データ入力部１３は、抽出部２２によって判定対象データ記憶部１２から抽出された未知文字列の特徴量を評価データとして識別器１４ａに入力（登録）する。

識別器１４ａは、未知文字列における単語境界を、当該未知文字列の特徴量である評価データと、単語境界判定用データとを用いて識別する。即ち、識別器１４ａは、特徴量算出部３１によって算出された特徴量（評価データ、単語境界判定用データ）を使用し、未知文字列における単語境界を識別する。換言すれば、単語境界判定部１４は、特徴量算出部３１によって算出された上記特徴量を使用した識別器１４ａを用いて、未知文字列の単語境界を判定する。

続いて、図２に示すフローチャートを用いて集計装置２について詳細に説明する。なお、説明の便宜上、ラベル付学習データにおいて、例えば、文字列「今日」と文字列「は」との間に単語境界情報が設定（付加）されている場合、単語境界情報の存在を示す記号（例えば“‖”）を用いて、「今日‖は」と表記するものとする。

集計装置２において、抽出部２２は、学習データ記憶部２１に記録されているラベル付学習データ内から２文字以上の集計基礎文字列を抽出する（ステップＳ１０１）。

なお、抽出部２２は、正規化処理部２５によって正規化された文字列を抽出するようにしてもよい。正規化とは、等価な意味を示す異なる文字列を統一的な文字列へ変換する処理である。例えば、学習データ記憶部２１において「コンピューターについて」という文字列が記憶されている場合、正規化処理部２５は、当該文字列内に含まれる“コンピューター”という文字列を“コンピュータ”という文字列に正規化処理し、抽出部２２は、正規化処理後の「コンピュータについて」という文字列を抽出する。

ステップＳ１０１に続いて、抽出部２２は、抽出した集計基礎文字列内の一部を構成する１文字以上の文字列である第１文字列（ｓ_１）と、抽出した集計基礎文字列内の一部を構成する１文字以上の文字列であって抽出した文字列において第１文字列（ｓ_１）に続く文字列である第２文字列（ｓ_２）との組み合わせによって構成される集計文字列を特定する（ステップＳ１０２）。

例えば、抽出部２２は、ステップＳ１０１において集計基礎文字列「食べると」を抽出していた場合、以下の第１〜第３の３パターンの集計文字列を特定する。
（集計文字列のパターン）
第１のパターン：第１文字列（ｓ_１）＝「食」，第２文字列（ｓ_２）＝「べ」
第２のパターン：第１文字列（ｓ_１）＝「食べ」，第２文字列（ｓ_２）＝「る」
第３のパターン：第１文字列（ｓ_１）＝「食べる」，第２文字列（ｓ_２）＝「と」

ステップＳ１０２に続いて、集計部２３は、一の集計文字列（上記例の場合、第１〜第３のパターンから順次選択される１つのパターンの集計文字列）について、学習データ記憶部２１に記憶されているラベル付学習データを参照し、ラベル付学習データの注目する文字列の位置を順次ずらしながら、下記のｎ１１〜ｎ２４の回数（上述の第１〜第８の回数に対応する回数）を集計する（ステップＳ１０３）。

ｎ１１：ラベル付学習データ内において、一の集計文字列における第１文字列（ｓ_１）が出現し、かつ、直後に、当該一の集計文字列における文字列（Ｓ_２）が出現し、かつ、両文字列の間（当該第１文字列（ｓ_１）と当該第２文字列（ｓ_２）の間）に単語境界ｔが存在していた回数
例えば、上述の第３のパターンの例であるが、第１文字列（ｓ_１）が「食べる」、第２文字列（ｓ_２）が「と」である場合、集計部２３は、ラベル付学習データ内において「食べる‖と」の登場回数をカウントする。

ｎ１２：ラベル付学習データ内において、一の集計文字列における第１文字列（ｓ_１）が出現し、かつ、直後に、当該一の集計文字列における第２文字列（Ｓ_２）以外の文字列が出現し、かつ、両文字列の間（当該第１文字列（ｓ_１）と当該第２文字列（ｓ_２）以外の文字列の間）に単語境界ｔが存在していた回数
例えば、第１文字列（ｓ_１）が「食べる」、第２文字列（ｓ_２）が「と」である場合、集計部２３は、ラベル付学習データ内において「食べる‖前」等の登場回数をカウントする。

ｎ１３：ラベル付学習データ内において、一の集計文字列における第１文字列（ｓ_１）以外の文字列の直後に、当該一の集計文字列における第２文字列（Ｓ_２）が出現し、かつ、両文字列の間（当該第１文字列（ｓ_１）以外の文字列と当該第２文字列（ｓ_２）の間）に単語境界ｔが存在していた回数
例えば、第１文字列（ｓ_１）が「食べる」、第２文字列（ｓ_２）が「と」である場合、集計部２３は、ラベル付学習データ内において「明後日‖と」等の登場回数をカウントする。

ｎ１４：ラベル付学習データ内において、一の集計文字列における第１文字列（ｓ_１）以外の文字列の直後に、当該一の集計文字列における第２文字列（Ｓ_２）以外の文字列が出現し、かつ、両文字列の間（当該第１文字列（ｓ_１）以外の文字列と当該第２文字列（ｓ_２）以外の文字列の間）に単語境界ｔが存在していた回数
例えば、第１文字列（ｓ_１）が「食べる」、第２文字列（ｓ_２）が「と」である場合、集計部２３は、ラベル付学習データ内において「明後日‖に」等の登場回数をカウントする。

ｎ２１：ラベル付学習データ内において、一の集計文字列における第１文字列（ｓ_１）が出現し、かつ、直後に、当該一の集計文字列における文字列（Ｓ_２）が出現し、かつ、両文字列の間（当該第１文字列（ｓ_１）と当該第２文字列（ｓ_２）の間）に単語境界ｔが存在していかった回数
例えば、上述の第３のパターンの例であるが、第１文字列（ｓ_１）が「食べる」、第２文字列（ｓ_２）が「と」である場合、集計部２３は、ラベル付学習データ内において、実際に存在するか不明であるが、「食べると」の登場回数をカウントする。

ｎ２２：ラベル付学習データ内において、一の集計文字列における第１文字列（ｓ_１）が出現し、かつ、直後に、当該一の集計文字列における第２文字列（Ｓ_２）以外の文字列が出現し、かつ、両文字列の間（当該第１文字列（ｓ_１）と当該第２文字列（ｓ_２）以外の文字列の間）に単語境界ｔが存在していなかった回数
例えば、上述の第３のパターンの例であるが、第１文字列（ｓ_１）が「食べる」、第２文字列（ｓ_２）が「と」である場合、集計部２３は、ラベル付学習データ内において、実際に存在するか不明であるが、「食べる前」等の登場回数をカウントする。

ｎ２３：ラベル付学習データ内において、一の集計文字列における第１文字列（ｓ_１）以外の文字列の直後に、当該一の集計文字列における第２文字列（Ｓ_２）が出現し、かつ、両文字列の間（当該第１文字列（ｓ_１）以外の文字列と当該第２文字列（ｓ_２）の間）に単語境界ｔが存在していなかった回数
例えば、第１文字列（ｓ_１）が「食べる」、第２文字列（ｓ_２）が「と」である場合、集計部２３は、ラベル付学習データ内において「いもうと」等の登場回数をカウントする。

ｎ２４：ラベル付学習データ内において、一の集計文字列における第１文字列（ｓ_１）以外の文字列の直後に、当該一の集計文字列における第２文字列（Ｓ_２）以外の文字列が出現し、かつ、両文字列の間（当該第１文字列（ｓ_１）以外の文字列と当該第２文字列（ｓ_２）以外の文字列の間）に単語境界ｔが存在していなかった回数
例えば、第１文字列（ｓ_１）が「食べる」、第２文字列（ｓ_２）が「と」である場合、集計部２３は、ラベル付学習データ内において「くだもの」等の登場回数をカウントする。

次いで、集計部２３は、当該一の集計文字列について、各集計回数（ｎ１１〜ｎ２４）の総和Ｚ（集計回数総和値とも称する）を算出する（ステップＳ１０４）。つまり、集計部２３は、Ｚは、下記式（１）によって算出する。

Ｚ＝ｎ１１＋ｎ１２＋ｎ１３＋ｎ１４＋ｎ２１＋ｎ２２＋ｎ２３＋ｎ２４ …（１）

集計部２３は、当該集計文字列に対応付けて、各集計回数と集計回数総和値Ｚとを集計データ記憶部２４に登録する（ステップＳ１０５）。

集計部２３は、抽出部２２によって抽出された集計基礎文字列から特定された全ての集計文字列のそれぞれについて、ｎ１１〜ｎ２４の回数を集計し、集計回数総和値Ｚを算出したか否かを判断する（ステップＳ１０６）。例えば、集計部２３は、集計基礎文字列「食べると」から特定された全ての集計文字列｛（第１のパターンの集計文字列：第１文字列（ｓ_１）＝「食」，第２文字列（ｓ_２）＝「べ」），（第２のパターンの集計文字列：第１文字列（ｓ_１）＝「食べ」，第２文字列（ｓ_２）＝「る」），（第３のパターンの集計文字列：第１文字列（ｓ_１）＝「食べる」，第２文字列（ｓ_２）＝「と」）｝のそれぞれについて、ｎ１１〜ｎ２４の回数を集計し、集計回数総和値Ｚを算出したか否かを判断する。

集計部２３は、全ての集計文字列のそれぞれについて、ｎ１１〜ｎ２４の回数を集計し、集計回数総和値Ｚを算出していないと判断した場合（ステップＳ１０６：Ｎｏ）、ステップＳ１０３の処理に戻って、次の集計文字列について、上述の回数を集計する。

一方、集計部２３は、全ての集計文字列のそれぞれについて、ｎ１１〜ｎ２４の回数を集計し、集計回数総和値Ｚを算出したと判断した場合（ステップＳ１０６：Ｙｅｓ）、抽出部２２は、ラベル付学習データから全ての集計基礎文字列を抽出したかを判定する（ステップＳ１０７）。

抽出部２２は、ラベル付学習データから全ての集計基礎文字列を抽出していないと判定した場合（ステップＳ１０７：Ｎｏ）、ステップＳ１０１の処理に戻って、次の集計基礎文字列を抽出する。

一方、抽出部２２は、ラベル付学習データから全ての集計基礎文字列を抽出したと判定した場合（ステップＳ１０７：Ｙｅｓ）、集計装置２（例えば抽出部２２）は、特徴量算出装置３へ処理の開始を指示し、処理を終了する（図２に示すフローチャートは終了する）。

なお、ステップＳ１０７において、抽出部２２は、構成する文字の組合せが異なる一つひとつの文字列を集計基礎文字列とし、ラベル付学習データ全体を抽出元として、全ての集計基礎文字列を抽出したか否かを判定してもよい。また、抽出部２２は、上記一つひとつの文字列を集計基礎文字列とし、ラベル付学習データ全体ではなくユーザによって指定された一部の範囲を抽出元として、全ての集計基礎文字列を抽出したか否かを判定してもよい。

続いて、図３に示すフローチャートを用いて特徴量算出装置３について詳細に説明する。特徴量算出装置３において、特徴量算出部３１は、集計データ記憶部２４に記憶されている全集計文字列についての各集計回数と集計回数総和値Ｚのうち、一の集計文字列についての各集計回数（ｎ１１〜ｎ２４）と集計回数総和値Ｚとを読み取る（ステップＳ２０１）。

ステップＳ２０１に続いて、特徴量算出部３１は、当該集計文字列について、ＡＩＣ（Akaike's Information Criterion）に基づくモデル検定を行う。具体的には、特徴量算出部３１は、当該集計文字列について、ＡＩＣ（Ｍ０），ＡＩＣ（Ｍ１），ＡＩＣ（Ｍ２），ＡＩＣ（Ｍ３）を下記式（２）〜（９）により算出する（ステップＳ２０２）。

ＡＩＣ（Ｍ１）＝−２＊ＭＬＬ＋２＊４ …（２）
なお、ＡＩＣ（Ｍ１）は、第１文字列（ｓ_１）と単語境界ｔが従属関係にあることを示す値である。上記式（２）においてＭＬＬは下記式（３）により算出される。

ＭＬＬ＝（ｎ１１＋ｎ１２）ｌｏｇ（ｎ１１＋ｎ１２）＋（ｎ１３＋ｎ１４）ｌｏｇ（ｎ１３＋ｎ１４）＋（ｎ２１＋ｎ２２）ｌｏｇ（ｎ２１＋ｎ２２）＋（ｎ２３＋ｎ２４）ｌｏｇ（ｎ２３＋ｎ２４）＋（ｎ１１＋ｎ１３＋ｎ２１＋ｎ２３）ｌｏｇ（ｎ１１＋ｎ１３＋ｎ２１＋ｎ２３）＋（ｎ１２＋ｎ１４＋ｎ２２＋ｎ２４）ｌｏｇ（ｎ１２＋ｎ１４＋ｎ２２＋ｎ２４）−２＊ＺｌｏｇＺ …（３）

ＡＩＣ（Ｍ２）＝−２＊ＭＬＬ＋２＊４ …（４）
なお、ＡＩＣ（Ｍ２）は、第２文字列（ｓ_２）と単語境界ｔが従属関係にあることを示す値である。上記式（４）においてＭＬＬは下記式（５）により算出される。

ＭＬＬ＝（ｎ１１＋ｎ１２＋ｎ２１＋ｎ２２）ｌｏｇ（ｎ１１＋ｎ１２＋ｎ２１＋ｎ２２）＋（ｎ１３＋ｎ１４＋ｎ２３＋ｎ２４）ｌｏｇ（ｎ１３＋ｎ１４＋ｎ２３＋ｎ２４）＋（ｎ１１＋ｎ１３）ｌｏｇ（ｎ１１＋ｎ１３）＋（ｎ１２＋ｎ１４）ｌｏｇ（ｎ１２＋ｎ１４）＋（ｎ２１＋ｎ２３）ｌｏｇ（ｎ２１＋ｎ２３）＋（ｎ２２＋ｎ２４）ｌｏｇ（ｎ２２＋ｎ２４）−２＊ＺｌｏｇＺ …（５）

ＡＩＣ（Ｍ３）＝−２＊ＭＬＬ＋２＊７ … （６）
なお、ＡＩＣ（Ｍ３）は、第１文字列（ｓ_１）と第２文字列（ｓ_２）と単語境界ｔが従属関係にあることを示す値である。上記式（６）においてＭＬＬは下記式（７）により算出される。

ＭＬＬ＝ｎ１１ｌｏｇｎ１１＋ｎ１２ｌｏｇｎ１２＋ｎ１３ｌｏｇｎ１３＋ｎ１４ｌｏｇｎ１４＋ｎ２１ｌｏｇｎ２１＋ｎ２２ｌｏｇｎ２２＋ｎ２３ｌｏｇｎ２３＋ｎ２４ｌｏｇｎ２４−ＺｌｏｇＺ …（７）

ＡＩＣ（Ｍ０）＝−２＊ＭＬＬ＋２＊３ …（８）
なお、ＡＩＣ（Ｍ０）は、第１文字列（ｓ_１）と第２文字列（ｓ_２）と単語境界ｔが独立関係にあることを示す値である。上記式（８）においてＭＬＬは下記式（９）により算出する。

ＭＬＬ＝（ｎ１１＋ｎ１２＋ｎ１３＋ｎ１４）ｌｏｇ（ｎ１１＋ｎ１２＋ｎ１３＋ｎ１４）＋（ｎ１１＋ｎ１２＋ｎ２１＋ｎ２２）ｌｏｇ（ｎ１１＋ｎ１２＋ｎ２１＋ｎ２２）＋（ｎ１１＋ｎ１３＋ｎ２１＋ｎ２３）ｌｏｇ（ｎ１１＋ｎ１３＋ｎ２１＋ｎ２３）＋（ｎ２１＋ｎ２２＋ｎ２３＋ｎ２４）ｌｏｇ（ｎ２１＋ｎ２２＋ｎ２３＋ｎ２４）＋（ｎ１３＋ｎ１４＋ｎ２３＋ｎ２４）ｌｏｇ（ｎ１３＋ｎ１４＋ｎ２３＋ｎ２４）＋（ｎ１２＋ｎ１４＋ｎ２２＋ｎ２４）ｌｏｇ（ｎ１２＋ｎ１４＋ｎ２２＋ｎ２４）−３＊ＺｌｏｇＺ …（９）

ステップＳ２０２に示すＡＩＣに基づくモデル検定を行った特徴量算出部３１は、モデル選択を行うことで、当該集計文字列の特徴量を算出する。具体的には、ＡＩＣ（Ｍ０）、ＡＩＣ（Ｍ１）、ＡＩＣ（Ｍ２）、ＡＩＣ（Ｍ３）を算出した特徴量算出部３１は、ＡＩＣ（Ｍ０）、ＡＩＣ（Ｍ１）、ＡＩＣ（Ｍ２）、ＡＩＣ（Ｍ３）を比較し、最小のモデルを選択し、選択結果に応じて、当該集計文字列について、第１の文字列と第２の文字列の関連度を表す関連強度Ｅ（スコアＥ）を算出する（ステップＳ２０３）。
例えば、特徴量算出部３１は、図４に示すアルゴリズムによって関連強度Ｅ（スコアＥ）を算出する。

図４に示すアルゴリズムによれば、特徴量算出部３１は、ＡＩＣ（Ｍ０）、ＡＩＣ（Ｍ１）、ＡＩＣ（Ｍ２）、ＡＩＣ（Ｍ３）のうちＡＩＣ（Ｍ１）が最小である場合には、第１文字列（ｓ_１）は、単語境界ｔに関連しない文書よりも単語境界ｔに関連する文書において、より多く発見されたため、即ち、（ｎ１１＋ｎ１２）÷（ｎ１１＋ｎ１２＋ｎ２１＋ｎ２２）＞（ｎ１３＋ｎ１４）÷（ｎ１３＋ｎ１４＋ｎ２３＋ｎ２４）が成立するため、下記式（１０）によって関連強度Ｅを算出する。

関連強度Ｅ＝ＡＩＣ（Ｍ０）−ＡＩＣ（Ｍ１） …（１０）

一方、特徴量算出部３１は、ＡＩＣ（Ｍ０）、ＡＩＣ（Ｍ１）、ＡＩＣ（Ｍ２）、ＡＩＣ（Ｍ３）のうちＡＩＣ（Ｍ２）が最小である場合、第２文字列（ｓ_２）は、単語境界ｔに関連しない文書よりも単語境界ｔに関連する文書において、より多く発見されたため、即ち、（ｎ１１＋ｎ１３）÷（ｎ１１＋ｎ１３＋ｎ２１＋ｎ２３）＞（ｎ１２＋ｎ１４）÷（ｎ１２＋ｎ１４＋ｎ２２＋ｎ２４）が成立するため、下記式（１１）によって関連強度Ｅを算出する。

関連強度Ｅ＝ＡＩＣ（Ｍ０）−ＡＩＣ（Ｍ２） …（１１）

一方、特徴量算出部３１は、ＡＩＣ（Ｍ０）、ＡＩＣ（Ｍ１）、ＡＩＣ（Ｍ２）、ＡＩＣ（Ｍ３）のうちＡＩＣ（Ｍ３）が最小である場合、単語の組み合わせ第１文字列（ｓ１）∧第２文字列（ｓ２）は、単語境界ｔに関連しない文書よりも単語境界ｔに関連する文書において、より多く発見されたため、即ち、ｎ１１÷（ｎ１１＋ｎ２１）＞（ｎ１２＋ｎ１３＋ｎ１４）÷（ｎ１２＋ｎ１３＋ｎ１４＋ｎ２２＋ｎ２３＋ｎ２４）が成り立するため、下記式（１２）によって関連強度Ｅを算出する。

関連強度Ｅ＝ＡＩＣ（Ｍ０）−ＡＩＣ（Ｍ３） …（１２）

一方、特徴量算出部３１は、ＡＩＣ（Ｍ０）、ＡＩＣ（Ｍ１）、ＡＩＣ（Ｍ２）、ＡＩＣ（Ｍ３）のうちＡＩＣ（Ｍ０）が最小である場合、関連強度Ｅ＝０とする。

関連強度Ｅを算出した特徴量算出部３１は、当該集計文字列（第１文字列（ｓ_１）、第２文字列（ｓ_２）の組）の特徴量（下記参照）として、単語境界ｔの有無（有：＋１、無：−１）、各集計回数（ｎ１１〜ｎ２４）、ＡＩＣ（Ｍ０）、ＡＩＣ（ｆ）、関連強度Ｅを特徴量記憶部３２に記憶（登録）する（ステップＳ２０４）。

（特徴量）
特徴量｛ｔｓ_１，ｓ_２，ｎ１１，ｎ１２，ｎ１３，ｎ１４，ｎ２１，ｎ２２，ｎ２３，ｎ２４，ＡＩＣ（Ｍ０），ＡＩＣ（ｆ），Ｅ｝
なお、ＡＩＣ（ｆ）は、ＡＩＣ（Ｍ０）、ＡＩＣ（Ｍ１）、ＡＩＣ（Ｍ２）、ＡＩＣ（Ｍ３）のうち最小であるものである。

例えば、特徴量算出部３１は、第１文字列（ｓ_１）が「食」、第２文字列（ｓ_２）が「べ」である集計文字列の特徴量として、｛−１食，べ，１００，５０，５０，２００，２００，１５０，１５０，４００，１２３４．０，１２３．０，１１１１．０｝を特徴量記憶部３２に記憶する。

特徴量算出部３１は、集計データ記憶部２４に記憶されている他の全ての集計文字列について、上記処理を行ったか否かを判断する（ステップＳ２０５）。特徴量算出部３１は、全ての集計文字列について上記処理を行っていないと判断した場合（ステップＳ２０５：Ｎｏ）、他の集計文字列についてステップＳ２０１〜ステップＳ２０４を行う。

一方、特徴量算出部３１は、全ての集計文字列について上記処理を行ったと判断した場合（ステップＳ２０５：Ｙｅｓ）、特徴量算出装置３の処理は終了する（図３に示すフローチャートは終了する）。

特徴量算出装置３の処理終了後、単語境界判定用データ入力部１１は、特徴量記憶部３２に登録されている情報を読み出して、識別器１４ａへ入力（登録）する。識別器１４ａは、単語境界判定用データ入力部１１によって読み出されたデータを単語境界判定用データとして登録する。

例えば、識別器１４ａが、ＳＶＭ（ Support Vector Machine）であって、例えば、「１文字目の後ろに存在する区切りに対する単語境界の有無」、「２文字目の後ろに存在する区切りに対する単語境界の有無」、「…」のそれぞれを判定するＬ個の単語境界有無判定器から構成されている場合、単語境界判定用データ入力部１１は、各単語境界有無判定器に対応するように、特徴量記憶部３２に登録されている特徴量に係る第１文字列（ｓ_１）の文字列長を調整し、単語境界判定用データとして、識別器１４ａに登録する。

例えば、単語境界判定用データ入力部１１は、Ｌ＝３の場合、特徴量記憶部３２に登録されている特徴量｛−１食，べ，１００，５０，５０，２００，２００，１５０，１５０，４００，１２３４．０，１２３．０，１１１１．０｝に基づいて、空の文字“$$”を用いて、「２文字目の後ろに存在する区切りに対する単語境界の有無」を判定する単語境界有無判定器用の特徴量｛−１ $$ 食，べ，１００，５０，５０，２００，２００，１５０，１５０，４００，１２３４．０，１２３．０，１１１１．０｝、および、「３文字目の後ろに存在する区切りに対する単語境界の有無」を判定する単語境界有無判定器用の特徴量｛−１ $$ $$ 食，べ，１００，５０，５０，２００，２００，１５０，１５０，４００，１２３４．０，１２３．０，１１１１．０｝を作成し、特徴量｛−１食，べ，１００，５０，５０，２００，２００，１５０，１５０，４００，１２３４．０，１２３．０，１１１１．０｝、特徴量｛−１ $$ 食，べ，１００，５０，５０，２００，２００，１５０，１５０，４００，１２３４．０，１２３．０，１１１１．０｝、および、特徴量｛−１ $$ $$ 食，べ，１００，５０，５０，２００，２００，１５０，１５０，４００，１２３４．０，１２３．０，１１１１．０｝を識別器１４ａに登録する。

また例えば、単語境界判定用データ入力部１１は、同じくＬ＝３の場合、特徴量記憶部３２に登録されている特徴量｛−１食べ，る，２００，１００，１００，４００，４００，３００，３００，８００，２４６８．０，２４６．０，２２２２．０｝に基づいて、「１文字目の後ろに存在する区切りに対する単語境界の有無」を判定する単語境界有無判定器用の特徴量｛−１べ，る，２００，１００，１００，４００，４００，３００，３００，８００，２４６８．０，２４６．０，２２２２．０｝、および、「３文字目の後ろに存在する区切りに対する単語境界の有無」を判定する単語境界有無判定器用の特徴量｛−１ $$ 食べ，る，２００，１００，１００，４００，４００，３００，３００，８００，２４６８．０，２４６．０，２２２２．０｝を作成し、特徴量｛−１べ，る，２００，１００，１００，４００，４００，３００，３００，８００，２４６８．０，２４６．０，２２２２．０｝、｛−１食べ，る，２００，１００，１００，４００，４００，３００，３００，８００，２４６８．０，２４６．０，２２２２．０｝、および、特徴量｛−１ $$ 食べ，る，２００，１００，１００，４００，４００，３００，３００，８００，２４６８．０，２４６．０，２２２２．０｝を識別器１４ａに登録する。

続いて、図５に示すフローチャートを用いて単語境界判定装置１における単語境界判定処理について詳細に説明する。上述のように、単語境界判定用データが識別器１４ａに登録された後、単語境界判定装置１は、以下のように、単語境界判定処理を行う。

抽出部２２は、学習データ記憶部２１に記録されているラベル付学習データ内から文字列（集計基礎文字列）を抽出するときと同様に、判定対象データ記憶部１２に記憶されている判定対象データから未知文字列を抽出する（ステップＳ３０１）。ステップＳ３０１に続いて、抽出部２２は、ラベル付学習データ内から抽出した文字列の場合と同様、未知文字列について、集計文字列を特定する（ステップＳ３０２）。即ち、抽出部２２は、未知文字列内について第１文字列（ｓ_１）と第２文字列（ｓ_２）との組み合わせによって構成される集計文字列を特定する。

ステップＳ３０２に続いて、集計部２３は、未知文字列の一の集計文字列について、ラベル付学習データ内から抽出した文字列の場合と同様、上述のｎ１１〜ｎ２４の回数を集計し（ステップＳ３０３）、各集計回数（ｎ１１〜ｎ２４）の集計回数総和値Ｚを算出する（ステップＳ３０４）。

ステップＳ３０４に続いて、特徴量算出部３１は、当該集計文字列について、ＡＩＣ（Ｍ０），ＡＩＣ（Ｍ１），ＡＩＣ（Ｍ２），ＡＩＣ（Ｍ３）を算出し（ステップＳ３０５）、関連強度Ｅ（スコアＥ）を算出する（ステップＳ３０６）。次いで、特徴量算出部３１は、当該集計文字列の特徴量として、単語境界ｔの有無（有：＋１、無：−１）、各集計回数（ｎ１１〜ｎ２４）、ＡＩＣ（Ｍ０）、ＡＩＣ（ｆ）、関連強度Ｅを評価データ入力部１３に出力する。

特徴量算出部３１は、未知文字列の全ての集計文字列について、上記処理を行ったか否かを判断する（ステップＳ３０８）。特徴量算出部３１は、全ての集計文字列について上記処理を行っていないと判断した場合（ステップＳ３０８：Ｎｏ）、他の集計文字列についてステップＳ３０３〜ステップＳ３０７を行う。

一方、特徴量算出部３１は、全ての集計文字列について上記処理を行ったと判断した場合（ステップＳ３０８：Ｙｅｓ）、評価データ入力部１３は、当該未知文字列の全ての集計文字列に係る特徴量を評価データとして識別器１４ａに登録する（ステップＳ３０９）。

単語境界判定部１４は、特徴量算出部３１によって算出された特徴量を使用した識別器１４ａを用いて、当該未知文字列の単語境界を判定する。より詳細には、識別器１４ａは、評価データ入力部１３によって登録された未知文字列の特徴量である評価データと、単語境界判定用データ入力部１１によって登録された単語境界判定用データとを用いて、当該未知文字列の単語境界を判定する（ステップＳ３１０）。例えば、識別器１４ａは、未知文字列の特徴量である評価データと、ラベル付学習データから抽出された第１文字列および第２文字列によって構成される集計文字列の特徴量である単語境界判定用データとを比較し、未知文字列の単語境界を判定する。

なお、未知文字列の単語境界を判定した識別器１４ａは、未知文字列に単語境界情報を付与して判定結果記憶部１５へ記憶する。

以上、本発明の実施形態によれば、ラベル付学習データを保持し、隣接する文字列の出現頻度をラベルの存在をも考慮して集計し、その集計値を用いて特徴量を算出し、その特徴量を用いて単語の境界を判定しているため、従来に比べ、より精度良く単語の境界を判定することができる。なお、本実施形態は、単語境界判定装置について説明しているが、文節の境界を判定するための文節境界判定装置にも適用可能である（例えば、「わたしのなまえはなかのです。」について、「わたしの／なまえは／なかのです。／」と境界「／」を判定することができる）。

なお、上記実施形態において、抽出部２２は、学習データ記憶部２１に記憶されているラベル付学習データ内に存在する一の文字列（集計基礎文字列）から第１文字列および第２文字列を抽出したが、抽出部２２は、ラベル付学習データ内に存在していない一の文字列（例えば、ユーザが入力した任意の集計基礎文字列）から第１文字列および第２文字列を抽出するようにしてもよい。

なお、上記実施形態においては、情報量基準に基づくモデル検定として、ＡＩＣに基づくモデル検定を用いる例を説明したが、ＢＩＣ、ＧＩＣなどの他の種類の情報量基準に基づくモデル検定を用いてもよい。また、情報量基準に基づくモデル検定ではなく、他のモデル検定を用いてもよい。例えば、外部より閾値を与え、閾値を超えるスコアを従属関係とみなすことによって、他のモデル検定（例えば、カイ二乗検定や相互情報量）を用いることが可能である。

なお、上記実施形態において、単語境界判定装置１が集計装置２を含む構成について説明したが、単語境界判定装置１は集計装置２を含まない構成（集計装置２は別体である構成）であってもよい。特徴量算出装置３についても同様である。

なお、本発明の一実施形態による単語境界判定装置１の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、本発明の一実施形態による単語境界判定装置１の各処理に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Dynamic Random Access Memory））のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１…単語境界判定装置
２…集計装置
３…特徴量算出装置
１１…単語境界判定用データ入力部
１２…判定対象データ記憶部
１３…判定対象データ入力部
１４ａ…識別器
１４…単語境界判定部
１５…判定結果記憶部
２１…学習データ記憶部
２２…抽出部
２３…集計部
２４…集計データ記憶部
２５…正規化処理部
３１…特徴量算出部
３２…特徴量記憶部

Claims

文章に係る文章データと前記文章における単語境界を示すラベルとを含むラベル付学習データを用いて、単語境界が未知である未知文字列の単語境界を判定する単語境界判定装置であって、
２文字以上から構成される一の文字列から、前記一の文字列の一部を構成する１文字以上の文字列である第１文字列、および、前記一の文字列の一部を構成する１文字以上の文字列であって前記一の文字列において前記第１文字列に続く文字列である第２文字列を抽出する抽出部と、
前記抽出部によって抽出された前記第１文字列および前記第２文字列の組合せ毎に、前記文章内における、前記第１文字列に続く前記第２文字列の出現回数および非出現回数、並びに、前記第１文字列以外の文字列に続く前記第２文字列の出現回数および非出現回数を、前記第１文字列と前記第２文字列の間の前記単語境界の有無別に集計する集計部と、
前記集計部によって集計された集計値を用いて、モデル検定を行った上でモデル選択を行うことで前記一の文字列の特徴量を算出する特徴量算出部と、
前記特徴量算出部によって算出された特徴量を使用した識別器を用いて、前記未知文字列の単語境界を判定する単語境界判定部と
を備えることを特徴とする単語境界判定装置。
前記集計部は、前記一の文字列に関する集計値として、前記第１文字列に続いて前記第２文字列が出現し、かつ、前記単語境界が存在する第１の回数、前記第１文字列に続いて前記第２文字列以外の文字列が出現し、かつ、前記単語境界が存在する第２の回数、前記第１文字列以外の文字列に続いて前記第２文字列が出現し、かつ、前記単語境界が存在する第３の回数、前記第１文字列以外の文字列に続いて前記第２文字列以外の文字列が出現し、かつ、前記単語境界が存在する第４の回数、前記第１文字列に続いて前記第２文字列が出現し、かつ、前記単語境界が存在しない第５の回数、前記第１文字列に続いて前記第２文字列以外の文字列が出現し、かつ、前記単語境界が存在しない第６の回数、前記第１文字列以外の文字列に続いて前記第２文字列が出現し、かつ、前記単語境界が存在しない第７の回数、前記第１文字列以外の文字列に続いて前記第２文字列以外の文字列が出現し、かつ、前記単語境界が存在しない第８の回数を集計することを特徴とする請求項１に記載の単語境界判定装置。
前記特徴量算出部は、前記集計部によって集計された集計値を用いて、情報量基準に基づくモデル検定を行った上でモデル選択を行い、前記一の文字列の特徴量を算出することを特徴とする請求項１又は請求項２に記載の単語境界判定装置。
前記特徴量算出部は、前記集計部によって集計された集計値を用いて、ＡＩＣに基づくモデル検定を行った上でモデル選択を行い、前記一の文字列の特徴量を算出することを特徴とする請求項３に記載の単語境界判定装置。