JP2012014548A - 単語境界判定装置 - Google Patents

単語境界判定装置 Download PDF

Info

Publication number
JP2012014548A
JP2012014548A JP2010151733A JP2010151733A JP2012014548A JP 2012014548 A JP2012014548 A JP 2012014548A JP 2010151733 A JP2010151733 A JP 2010151733A JP 2010151733 A JP2010151733 A JP 2010151733A JP 2012014548 A JP2012014548 A JP 2012014548A
Authority
JP
Japan
Prior art keywords
character string
word boundary
feature amount
character
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010151733A
Other languages
English (en)
Other versions
JP5466588B2 (ja
Inventor
Tadashi Yanagihara
正 柳原
Kazunori Matsumoto
一則 松本
Kazufumi Ikeda
和史 池田
Yasuhiro Takishima
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Research Inc
Original Assignee
KDDI R&D Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI R&D Laboratories Inc filed Critical KDDI R&D Laboratories Inc
Priority to JP2010151733A priority Critical patent/JP5466588B2/ja
Publication of JP2012014548A publication Critical patent/JP2012014548A/ja
Application granted granted Critical
Publication of JP5466588B2 publication Critical patent/JP5466588B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】より精度良く単語の境界を判定する。
【解決手段】単語境界判定装置1は、2文字以上から構成される一の文字列から、一の文字列の一部を構成する1文字以上の文字列(第1文字列)、および、一の文字列の一部を構成する1文字以上の文字列であって一の文字列において第1文字列に続く文字列(第2文字列)を抽出する抽出部22と、抽出された第1文字列、第2文字列の組合せ毎に、ラベル付学習データ内における、第1文字列に続く第2文字列の出現回数および非出現回数、並びに、第1文字列以外の文字列に続く第2文字列の出現回数および非出現回数を、第1文字列と第2文字列の間の単語境界の有無別に集計する集計部23と、該集計値を用いてモデル検定を行った上でモデル選択を行うことで一の文字列の特徴量を算出する特徴量算出部31と、該特徴量を使用した識別器14aを用いて未知文字列の単語境界を判定する単語境界判定部14とを備える。
【選択図】図1

Description

本発明は、単語境界判定装置に関する。
従来、日本語の文字列から単語の境界を検出する技術として、n-gramコーパスを使った単語境界推定方式が開示されている(例えば、非特許文献1参照)。非特許文献1の技術は、モデル検定によって算出した隣接する文字列の関連度(スコア値)を特徴量とし、単語境界を判定する。従って、非特許文献1の技術によれば、隣接する文字列の出現頻度を特徴量として単語境界を判定する技術に比べて、単語境界の精度よく判定することができる。また、非特許文献1の技術によれば、学習対象の文章中に単語境界を示すラベル情報が付与されていない状況でも、特徴量(スコア値)を算出し、単語境界を判定することができる。
柳原正、外1名、「情報量基準に基づく単語境界推定方式の提案」、第190回自然言語処理学会(IPSJ−NL)、2009年、p.43-48
しかしながら、非特許文献1の技術は、学習対象の文章中に単語境界を示すラベル情報が付与されている状況にも、ラベル情報を用いることなく特徴量(スコア値)を算出するため、当該状況に見合うほどには単語境界推定(判定)の精度が十分に高くないという問題がある。
本発明は、上述した課題に鑑みてなされたものであって、より精度良く単語の境界を判定するための技術を提供することを目的とする。
上記問題を解決するために、本発明の一態様である単語境界判定装置は、文章に係る文章データと前記文章における単語境界を示すラベルとを含むラベル付学習データを用いて、単語境界が未知である未知文字列の単語境界を判定する単語境界判定装置であって、 2文字以上から構成される一の文字列から、前記一の文字列の一部を構成する1文字以上の文字列である第1文字列、および、前記一の文字列の一部を構成する1文字以上の文字列であって前記一の文字列において前記第1文字列に続く文字列である第2文字列を抽出する抽出部と、前記抽出部によって抽出された前記第1文字列および前記第2文字列の組合せ毎に、前記文章内における、前記第1文字列に続く前記第2文字列の出現回数および非出現回数、並びに、前記第1文字列以外の文字列に続く前記第2文字列の出現回数および非出現回数を、前記第1文字列と前記第2文字列の間の前記単語境界の有無別に集計する集計部と、前記集計部によって集計された集計値を用いて、モデル検定を行った上でモデル選択を行うことで前記一の文字列の特徴量を算出する特徴量算出部と、前記特徴量算出部によって算出された特徴量を使用した識別器を用いて、前記未知文字列の単語境界を判定する単語境界判定部とを備えることを特徴とする。
上記単語境界判定装置において、前記集計部は、前記一の文字列に関する集計値として、前記第1文字列に続いて前記第2文字列が出現し、かつ、前記単語境界が存在する第1の回数、前記第1文字列に続いて前記第2文字列以外の文字列が出現し、かつ、前記単語境界が存在する第2の回数、前記第1文字列以外の文字列に続いて前記第2文字列が出現し、かつ、前記単語境界が存在する第3の回数、前記第1文字列以外の文字列に続いて前記第2文字列以外の文字列が出現し、かつ、前記単語境界が存在する第4の回数、前記第1文字列に続いて前記第2文字列が出現し、かつ、前記単語境界が存在しない第5の回数、前記第1文字列に続いて前記第2文字列以外の文字列が出現し、かつ、前記単語境界が存在しない第6の回数、前記第1文字列以外の文字列に続いて前記第2文字列が出現し、かつ、前記単語境界が存在しない第7の回数、前記第1文字列以外の文字列に続いて前記第2文字列以外の文字列が出現し、かつ、前記単語境界が存在しない第8の回数を集計してもよい。
上記単語境界判定装置において、前記特徴量算出部は、前記集計部によって集計された集計値を用いて、情報量基準に基づくモデル検定を行った上でモデル選択を行い、前記一の文字列の特徴量を算出してもよい。
上記単語境界判定装置において、前記特徴量算出部は、前記集計部によって集計された集計値を用いて、AICに基づくモデル検定を行った上でモデル選択を行い、前記一の文字列の特徴量を算出してもよい。
本発明によれば、より精度良く単語の境界を判定することができる。具体的には、本発明は、ラベル付学習データを保持し、隣接する文字列の出現頻度をラベルの存在をも考慮して集計し、その集計値を用いて特徴量を算出し、その特徴量を用いて単語の境界を判定しているため、隣接する文字列の出現頻度のみを特徴量として単語境界を判定する技術、或いは、上述する非特許文献1の技術に比べ、より精度良く単語の境界を判定することができるようになる。なお、本発明は、文節の境界を判定するための文節境界推定装置としても用いることができる。
単語境界判定装置の構成を示すブロック図である。 集計装置の処理フローを示す図である。 特徴量算出装置の処理フローを示す図である。 特徴量算出部の処理のアルゴリズムを示す図である。 単語境界判定装置における単語境界判定処理の処理フローを示す図である。
以下、本発明の一実施形態による単語境界判定装置について図面を参照して説明する。図1は本発明の一実施形態による単語境界判定装1の構成を示すブロック図である。
単語境界判定装置1は、図1に示すように、集計装置2、特徴量算出装置3、単語境界判定用データ入力部11、判定対象データ記憶部12、評価データ入力部13、単語境界判定部14および判定結果記憶部15を備える。集計装置2は、学習データ記憶部21、抽出部22、集計部23、集計データ記憶部24および正規化処理部25を有する。特徴量算出装置3は、特徴量算出部31および特徴量記憶部32を有する。単語境界判定部14は、識別器14aを有する。
学習データ記憶部21は、文章に係る文章データ(即ち、テキスト形式のデータ)と当該文章データにおける単語境界を示すラベル(単語境界情報とも称する)とを含むラベル付学習データを予め記憶する。
抽出部22は、学習データ記憶部21に記憶されているラベル付学習データ内の、2文字以上から構成される一の文字列(以下、集計基礎文字列という)から、当該集計基礎文字列の一部を構成する1文字以上の文字列である第1文字列、および、当該集計基礎文字列の一部を構成する1文字以上の文字列であって当該集計基礎文字列において第1文字列に続く文字列である第2文字列を抽出する。なお、抽出部22は、同様に、判定対象データ記憶部12に記憶されている単語境界の判定対象であって単語境界が未知である未知文字列を含む判定対象データから、未知文字列を抽出する。
集計部23は、抽出部22によって抽出された第1文字列および第2文字列の組合せ毎に、文章内における、第1文字列に続く第2文字列の出現回数および非出現回数、並びに、第1文字列以外の文字列に続く第2文字列の出現回数および非出現回数を、第1文字列と第2文字列の間の単語境界の有無別に集計する。例えば、集計部23は、以下のように第1〜第8の回数を集計する。
(集計回数の例)
第1の回数:第1文字列に続いて第2文字列が出現し、かつ単語境界が存在する回数
第2の回数:第1文字列に続いて第2文字列以外の文字列が出現し、かつ単語境界が存在する回数
第3の回数:第1文字列以外の文字列に続いて第2文字列が出現し、かつ単語境界が存在する回数
第4の回数:第1文字列以外の文字列に続いて第2文字列以外の文字列が出現し、かつ単語境界が存在する回数

第5の回数:第1文字列に続いて第2文字列が出現し、かつ単語境界が存在しない回数
第6の回数:第1文字列に続いて第2文字列以外の文字列が出現し、かつ単語境界が存在しない回数
第7の回数:第1文字列以外の文字列に続いて第2文字列が出現し、かつ単語境界が存在しない回数
第8の回数:第1文字列以外の文字列に続いて第2文字列以外の文字列が出現し、かつ単語境界が存在しない第8の回数
なお、集計部23は、ラベル付学習データ内から抽出された文字列の場合と同様に、判定対象データ記憶部12に記憶されている未知文字列について、上述のn11〜n24の回数を集計する
集計データ記憶部24は、集計部23で集計された情報を、抽出部22によって抽出された第1文字列および第2文字列の組合せ毎に記憶する。
正規化処理部25は、文章データを正規化処理(例えば、「コンピューター」という文字列を「コンピュータ」という文字列へ変換する処理)する処理部である。
特徴量算出部31は、集計部23によって集計された集計値を用いて第1文字列および第2文字列によって構成される文字列(以下、集計文字列という)の特徴量を算出する。より詳細には、特徴量算出部31は、集計部23によって集計された集計値を用いてモデル検定(例えば、情報量基準に基づくモデル検定)を行った上でモデル選択を行うことで、当該集計文字列の特徴量を算出する。換言すれば、特徴量算出部31は、第1文字列および第2文字列の組合せ毎に、集計基礎文字列の特徴量を算出する。
なお、特徴量算出部31は、同様に、判定対象データ記憶部12に記憶されている未知文字列の特徴量を算出する。
特徴量記憶部32は、単語境界の判定に用いる特徴量を記憶する。具体的には、特徴量記憶部32は、特徴量算出部31によって算出された,第1文字列および第2文字列によって構成される集計文字列の特徴量、即ち、集計基礎文字列における第1文字列および第2文字列の組合せ毎の特徴量を記憶する。
単語境界判定用データ入力部11は、特徴量記憶部32に記憶されている特徴量を単語境界判定用データ(後述する)として識別器14aに入力する。
判定対象データ記憶部12は、単語境界の判定対象であって単語境界が未知である未知文字列を含む判定対象データを記憶する。評価データ入力部13は、抽出部22によって判定対象データ記憶部12から抽出された未知文字列の特徴量を評価データとして識別器14aに入力(登録)する。
識別器14aは、未知文字列における単語境界を、当該未知文字列の特徴量である評価データと、単語境界判定用データとを用いて識別する。即ち、識別器14aは、特徴量算出部31によって算出された特徴量(評価データ、単語境界判定用データ)を使用し、未知文字列における単語境界を識別する。換言すれば、単語境界判定部14は、特徴量算出部31によって算出された上記特徴量を使用した識別器14aを用いて、未知文字列の単語境界を判定する。
続いて、図2に示すフローチャートを用いて集計装置2について詳細に説明する。なお、説明の便宜上、ラベル付学習データにおいて、例えば、文字列「今日」と文字列「は」との間に単語境界情報が設定(付加)されている場合、単語境界情報の存在を示す記号(例えば“‖”)を用いて、「今日‖は」と表記するものとする。
集計装置2において、抽出部22は、学習データ記憶部21に記録されているラベル付学習データ内から2文字以上の集計基礎文字列を抽出する(ステップS101)。
なお、抽出部22は、正規化処理部25によって正規化された文字列を抽出するようにしてもよい。正規化とは、等価な意味を示す異なる文字列を統一的な文字列へ変換する処理である。例えば、学習データ記憶部21において「コンピューターについて」という文字列が記憶されている場合、正規化処理部25は、当該文字列内に含まれる“コンピューター”という文字列を“コンピュータ”という文字列に正規化処理し、抽出部22は、正規化処理後の「コンピュータについて」という文字列を抽出する。
ステップS101に続いて、抽出部22は、抽出した集計基礎文字列内の一部を構成する1文字以上の文字列である第1文字列(s)と、抽出した集計基礎文字列内の一部を構成する1文字以上の文字列であって抽出した文字列において第1文字列(s)に続く文字列である第2文字列(s)との組み合わせによって構成される集計文字列を特定する(ステップS102)。
例えば、抽出部22は、ステップS101において集計基礎文字列「食べると」を抽出していた場合、以下の第1〜第3の3パターンの集計文字列を特定する。
(集計文字列のパターン)
第1のパターン:第1文字列(s)=「食」,第2文字列(s)=「べ」
第2のパターン:第1文字列(s)=「食べ」,第2文字列(s)=「る」
第3のパターン:第1文字列(s)=「食べる」,第2文字列(s)=「と」
ステップS102に続いて、集計部23は、一の集計文字列(上記例の場合、第1〜第3のパターンから順次選択される1つのパターンの集計文字列)について、学習データ記憶部21に記憶されているラベル付学習データを参照し、ラベル付学習データの注目する文字列の位置を順次ずらしながら、下記のn11〜n24の回数(上述の第1〜第8の回数に対応する回数)を集計する(ステップS103)。
n11:ラベル付学習データ内において、一の集計文字列における第1文字列(s)が出現し、かつ、直後に、当該一の集計文字列における文字列(S)が出現し、かつ、両文字列の間(当該第1文字列(s)と当該第2文字列(s)の間)に単語境界tが存在していた回数
例えば、上述の第3のパターンの例であるが、第1文字列(s)が「食べる」、第2文字列(s)が「と」である場合、集計部23は、ラベル付学習データ内において「食べる‖と」の登場回数をカウントする。
n12:ラベル付学習データ内において、一の集計文字列における第1文字列(s)が出現し、かつ、直後に、当該一の集計文字列における第2文字列(S)以外の文字列が出現し、かつ、両文字列の間(当該第1文字列(s)と当該第2文字列(s)以外の文字列の間)に単語境界tが存在していた回数
例えば、第1文字列(s)が「食べる」、第2文字列(s)が「と」である場合、集計部23は、ラベル付学習データ内において「食べる‖前」等の登場回数をカウントする。
n13:ラベル付学習データ内において、一の集計文字列における第1文字列(s)以外の文字列の直後に、当該一の集計文字列における第2文字列(S)が出現し、かつ、両文字列の間(当該第1文字列(s)以外の文字列と当該第2文字列(s)の間)に単語境界tが存在していた回数
例えば、第1文字列(s)が「食べる」、第2文字列(s)が「と」である場合、集計部23は、ラベル付学習データ内において「明後日‖と」等の登場回数をカウントする。
n14:ラベル付学習データ内において、一の集計文字列における第1文字列(s)以外の文字列の直後に、当該一の集計文字列における第2文字列(S)以外の文字列が出現し、かつ、両文字列の間(当該第1文字列(s)以外の文字列と当該第2文字列(s)以外の文字列の間)に単語境界tが存在していた回数
例えば、第1文字列(s)が「食べる」、第2文字列(s)が「と」である場合、集計部23は、ラベル付学習データ内において「明後日‖に」等の登場回数をカウントする。
n21:ラベル付学習データ内において、一の集計文字列における第1文字列(s)が出現し、かつ、直後に、当該一の集計文字列における文字列(S)が出現し、かつ、両文字列の間(当該第1文字列(s)と当該第2文字列(s)の間)に単語境界tが存在していかった回数
例えば、上述の第3のパターンの例であるが、第1文字列(s)が「食べる」、第2文字列(s)が「と」である場合、集計部23は、ラベル付学習データ内において、実際に存在するか不明であるが、「食べると」の登場回数をカウントする。
n22:ラベル付学習データ内において、一の集計文字列における第1文字列(s)が出現し、かつ、直後に、当該一の集計文字列における第2文字列(S)以外の文字列が出現し、かつ、両文字列の間(当該第1文字列(s)と当該第2文字列(s)以外の文字列の間)に単語境界tが存在していなかった回数
例えば、上述の第3のパターンの例であるが、第1文字列(s)が「食べる」、第2文字列(s)が「と」である場合、集計部23は、ラベル付学習データ内において、実際に存在するか不明であるが、「食べる前」等の登場回数をカウントする。
n23:ラベル付学習データ内において、一の集計文字列における第1文字列(s)以外の文字列の直後に、当該一の集計文字列における第2文字列(S)が出現し、かつ、両文字列の間(当該第1文字列(s)以外の文字列と当該第2文字列(s)の間)に単語境界tが存在していなかった回数
例えば、第1文字列(s)が「食べる」、第2文字列(s)が「と」である場合、集計部23は、ラベル付学習データ内において「いもうと」等の登場回数をカウントする。
n24:ラベル付学習データ内において、一の集計文字列における第1文字列(s)以外の文字列の直後に、当該一の集計文字列における第2文字列(S)以外の文字列が出現し、かつ、両文字列の間(当該第1文字列(s)以外の文字列と当該第2文字列(s)以外の文字列の間)に単語境界tが存在していなかった回数
例えば、第1文字列(s)が「食べる」、第2文字列(s)が「と」である場合、集計部23は、ラベル付学習データ内において「くだもの」等の登場回数をカウントする。
次いで、集計部23は、当該一の集計文字列について、各集計回数(n11〜n24)の総和Z(集計回数総和値とも称する)を算出する(ステップS104)。つまり、集計部23は、Zは、下記式(1)によって算出する。
Z=n11+n12+n13+n14+n21+n22+n23+n24 …(1)
集計部23は、当該集計文字列に対応付けて、各集計回数と集計回数総和値Zとを集計データ記憶部24に登録する(ステップS105)。
集計部23は、抽出部22によって抽出された集計基礎文字列から特定された全ての集計文字列のそれぞれについて、n11〜n24の回数を集計し、集計回数総和値Zを算出したか否かを判断する(ステップS106)。例えば、集計部23は、集計基礎文字列「食べると」から特定された全ての集計文字列{(第1のパターンの集計文字列:第1文字列(s)=「食」,第2文字列(s)=「べ」),(第2のパターンの集計文字列:第1文字列(s)=「食べ」,第2文字列(s)=「る」),(第3のパターンの集計文字列:第1文字列(s)=「食べる」,第2文字列(s)=「と」)}のそれぞれについて、n11〜n24の回数を集計し、集計回数総和値Zを算出したか否かを判断する。
集計部23は、全ての集計文字列のそれぞれについて、n11〜n24の回数を集計し、集計回数総和値Zを算出していないと判断した場合(ステップS106:No)、ステップS103の処理に戻って、次の集計文字列について、上述の回数を集計する。
一方、集計部23は、全ての集計文字列のそれぞれについて、n11〜n24の回数を集計し、集計回数総和値Zを算出したと判断した場合(ステップS106:Yes)、抽出部22は、ラベル付学習データから全ての集計基礎文字列を抽出したかを判定する(ステップS107)。
抽出部22は、ラベル付学習データから全ての集計基礎文字列を抽出していないと判定した場合(ステップS107:No)、ステップS101の処理に戻って、次の集計基礎文字列を抽出する。
一方、抽出部22は、ラベル付学習データから全ての集計基礎文字列を抽出したと判定した場合(ステップS107:Yes)、集計装置2(例えば抽出部22)は、特徴量算出装置3へ処理の開始を指示し、処理を終了する(図2に示すフローチャートは終了する)。
なお、ステップS107において、抽出部22は、構成する文字の組合せが異なる一つひとつの文字列を集計基礎文字列とし、ラベル付学習データ全体を抽出元として、全ての集計基礎文字列を抽出したか否かを判定してもよい。また、抽出部22は、上記一つひとつの文字列を集計基礎文字列とし、ラベル付学習データ全体ではなくユーザによって指定された一部の範囲を抽出元として、全ての集計基礎文字列を抽出したか否かを判定してもよい。
続いて、図3に示すフローチャートを用いて特徴量算出装置3について詳細に説明する。特徴量算出装置3において、特徴量算出部31は、集計データ記憶部24に記憶されている全集計文字列についての各集計回数と集計回数総和値Zのうち、一の集計文字列についての各集計回数(n11〜n24)と集計回数総和値Zとを読み取る(ステップS201)。
ステップS201に続いて、特徴量算出部31は、当該集計文字列について、AIC(Akaike's Information Criterion)に基づくモデル検定を行う。具体的には、特徴量算出部31は、当該集計文字列について、AIC(M0),AIC(M1),AIC(M2),AIC(M3)を下記式(2)〜(9)により算出する(ステップS202)。
AIC(M1)=−2*MLL+2*4 …(2)
なお、AIC(M1)は、第1文字列(s)と単語境界tが従属関係にあることを示す値である。上記式(2)においてMLLは下記式(3)により算出される。
MLL=(n11+n12)log(n11+n12)+(n13+n14)log(n13+n14)+(n21+n22)log(n21+n22)+(n23+n24)log(n23+n24)+(n11+n13+n21+n23)log(n11+n13+n21+n23)+(n12+n14+n22+n24)log(n12+n14+n22+n24)−2*ZlogZ …(3)
AIC(M2)=−2*MLL+2*4 …(4)
なお、AIC(M2)は、第2文字列(s)と単語境界tが従属関係にあることを示す値である。上記式(4)においてMLLは下記式(5)により算出される。
MLL=(n11+n12+n21+n22)log(n11+n12+n21+n22)+(n13+n14+n23+n24)log(n13+n14+n23+n24)+(n11+n13)log(n11+n13)+(n12+n14)log(n12+n14)+(n21+n23)log(n21+n23)+(n22+n24)log(n22+n24)−2*ZlogZ …(5)
AIC(M3)=−2*MLL+2*7 … (6)
なお、AIC(M3)は、第1文字列(s)と第2文字列(s)と単語境界tが従属関係にあることを示す値である。上記式(6)においてMLLは下記式(7)により算出される。
MLL=n11logn11+n12logn12+n13logn13+n14logn14+n21logn21+n22logn22+n23logn23+n24logn24−ZlogZ …(7)
AIC(M0)=−2*MLL+2*3 …(8)
なお、AIC(M0)は、第1文字列(s)と第2文字列(s)と単語境界tが独立関係にあることを示す値である。上記式(8)においてMLLは下記式(9)により算出する。
MLL=(n11+n12+n13+n14)log(n11+n12+n13+n14)+(n11+n12+n21+n22)log(n11+n12+n21+n22)+(n11+n13+n21+n23)log(n11+n13+n21+n23)+(n21+n22+n23+n24)log(n21+n22+n23+n24)+(n13+n14+n23+n24)log(n13+n14+n23+n24)+(n12+n14+n22+n24)log(n12+n14+n22+n24)−3*ZlogZ …(9)
ステップS202に示すAICに基づくモデル検定を行った特徴量算出部31は、モデル選択を行うことで、当該集計文字列の特徴量を算出する。具体的には、AIC(M0)、AIC(M1)、AIC(M2)、AIC(M3)を算出した特徴量算出部31は、AIC(M0)、AIC(M1)、AIC(M2)、AIC(M3)を比較し、最小のモデルを選択し、選択結果に応じて、当該集計文字列について、第1の文字列と第2の文字列の関連度を表す関連強度E(スコアE)を算出する(ステップS203)。
例えば、特徴量算出部31は、図4に示すアルゴリズムによって関連強度E(スコアE)を算出する。
図4に示すアルゴリズムによれば、特徴量算出部31は、AIC(M0)、AIC(M1)、AIC(M2)、AIC(M3)のうちAIC(M1)が最小である場合には、第1文字列(s)は、単語境界tに関連しない文書よりも単語境界tに関連する文書において、より多く発見されたため、即ち、(n11+n12)÷(n11+n12+n21+n22)>(n13+n14)÷(n13+n14+n23+n24)が成立するため、下記式(10)によって関連強度Eを算出する。
関連強度E=AIC(M0)−AIC(M1) …(10)
一方、特徴量算出部31は、AIC(M0)、AIC(M1)、AIC(M2)、AIC(M3)のうちAIC(M2)が最小である場合、第2文字列(s)は、単語境界tに関連しない文書よりも単語境界tに関連する文書において、より多く発見されたため、即ち、(n11+n13)÷(n11+n13+n21+n23)>(n12+n14)÷(n12+n14+n22+n24)が成立するため、下記式(11)によって関連強度Eを算出する。
関連強度E=AIC(M0)−AIC(M2) …(11)
一方、特徴量算出部31は、AIC(M0)、AIC(M1)、AIC(M2)、AIC(M3)のうちAIC(M3)が最小である場合、単語の組み合わせ第1文字列(s1)∧第2文字列(s2)は、単語境界tに関連しない文書よりも単語境界tに関連する文書において、より多く発見されたため、即ち、n11÷(n11+n21)>(n12+n13+n14)÷(n12+n13+n14+n22+n23+n24)が成り立するため、下記式(12)によって関連強度Eを算出する。
関連強度E=AIC(M0)−AIC(M3) …(12)
一方、特徴量算出部31は、AIC(M0)、AIC(M1)、AIC(M2)、AIC(M3)のうちAIC(M0)が最小である場合、関連強度E=0とする。
関連強度Eを算出した特徴量算出部31は、当該集計文字列(第1文字列(s)、第2文字列(s)の組)の特徴量(下記参照)として、単語境界tの有無(有:+1、無:−1)、各集計回数(n11〜n24)、AIC(M0)、AIC(f)、関連強度Eを特徴量記憶部32に記憶(登録)する(ステップS204)。
(特徴量)
特徴量{t s,s,n11,n12,n13,n14,n21,n22,n23,n24,AIC(M0),AIC(f),E}
なお、AIC(f)は、AIC(M0)、AIC(M1)、AIC(M2)、AIC(M3)のうち最小であるものである。
例えば、特徴量算出部31は、第1文字列(s)が「食」、第2文字列(s)が「べ」である集計文字列の特徴量として、{−1 食,べ,100,50,50,200,200,150,150,400,1234.0,123.0,1111.0}を特徴量記憶部32に記憶する。
特徴量算出部31は、集計データ記憶部24に記憶されている他の全ての集計文字列について、上記処理を行ったか否かを判断する(ステップS205)。特徴量算出部31は、全ての集計文字列について上記処理を行っていないと判断した場合(ステップS205:No)、他の集計文字列についてステップS201〜ステップS204を行う。
一方、特徴量算出部31は、全ての集計文字列について上記処理を行ったと判断した場合(ステップS205:Yes)、特徴量算出装置3の処理は終了する(図3に示すフローチャートは終了する)。
特徴量算出装置3の処理終了後、単語境界判定用データ入力部11は、特徴量記憶部32に登録されている情報を読み出して、識別器14aへ入力(登録)する。識別器14aは、単語境界判定用データ入力部11によって読み出されたデータを単語境界判定用データとして登録する。
例えば、識別器14aが、SVM( Support Vector Machine)であって、例えば、「1文字目の後ろに存在する区切りに対する単語境界の有無」、「2文字目の後ろに存在する区切りに対する単語境界の有無」、「…」のそれぞれを判定するL個の単語境界有無判定器から構成されている場合、単語境界判定用データ入力部11は、各単語境界有無判定器に対応するように、特徴量記憶部32に登録されている特徴量に係る第1文字列(s)の文字列長を調整し、単語境界判定用データとして、識別器14aに登録する。
例えば、単語境界判定用データ入力部11は、L=3の場合、特徴量記憶部32に登録されている特徴量{−1 食,べ,100,50,50,200,200,150,150,400,1234.0,123.0,1111.0}に基づいて、空の文字“$$”を用いて、「2文字目の後ろに存在する区切りに対する単語境界の有無」を判定する単語境界有無判定器用の特徴量{−1 $$ 食,べ,100,50,50,200,200,150,150,400,1234.0,123.0,1111.0}、および、「3文字目の後ろに存在する区切りに対する単語境界の有無」を判定する単語境界有無判定器用の特徴量{−1 $$ $$ 食,べ,100,50,50,200,200,150,150,400,1234.0,123.0,1111.0}を作成し、特徴量{−1 食,べ,100,50,50,200,200,150,150,400,1234.0,123.0,1111.0}、特徴量{−1 $$ 食,べ,100,50,50,200,200,150,150,400,1234.0,123.0,1111.0}、および、特徴量{−1 $$ $$ 食,べ,100,50,50,200,200,150,150,400,1234.0,123.0,1111.0}を識別器14aに登録する。
また例えば、単語境界判定用データ入力部11は、同じくL=3の場合、特徴量記憶部32に登録されている特徴量{−1 食べ,る,200,100,100,400,400,300,300,800,2468.0,246.0,2222.0}に基づいて、「1文字目の後ろに存在する区切りに対する単語境界の有無」を判定する単語境界有無判定器用の特徴量{−1 べ,る,200,100,100,400,400,300,300,800,2468.0,246.0,2222.0}、および、「3文字目の後ろに存在する区切りに対する単語境界の有無」を判定する単語境界有無判定器用の特徴量{−1 $$ 食べ,る,200,100,100,400,400,300,300,800,2468.0,246.0,2222.0}を作成し、特徴量{−1 べ,る,200,100,100,400,400,300,300,800,2468.0,246.0,2222.0}、{−1 食べ,る,200,100,100,400,400,300,300,800,2468.0,246.0,2222.0}、および、特徴量{−1 $$ 食べ,る,200,100,100,400,400,300,300,800,2468.0,246.0,2222.0}を識別器14aに登録する。
続いて、図5に示すフローチャートを用いて単語境界判定装置1における単語境界判定処理について詳細に説明する。上述のように、単語境界判定用データが識別器14aに登録された後、単語境界判定装置1は、以下のように、単語境界判定処理を行う。
抽出部22は、学習データ記憶部21に記録されているラベル付学習データ内から文字列(集計基礎文字列)を抽出するときと同様に、判定対象データ記憶部12に記憶されている判定対象データから未知文字列を抽出する(ステップS301)。ステップS301に続いて、抽出部22は、ラベル付学習データ内から抽出した文字列の場合と同様、未知文字列について、集計文字列を特定する(ステップS302)。即ち、抽出部22は、未知文字列内について第1文字列(s)と第2文字列(s)との組み合わせによって構成される集計文字列を特定する。
ステップS302に続いて、集計部23は、未知文字列の一の集計文字列について、ラベル付学習データ内から抽出した文字列の場合と同様、上述のn11〜n24の回数を集計し(ステップS303)、各集計回数(n11〜n24)の集計回数総和値Zを算出する(ステップS304)。
ステップS304に続いて、特徴量算出部31は、当該集計文字列について、AIC(M0),AIC(M1),AIC(M2),AIC(M3)を算出し(ステップS305)、関連強度E(スコアE)を算出する(ステップS306)。次いで、特徴量算出部31は、当該集計文字列の特徴量として、単語境界tの有無(有:+1、無:−1)、各集計回数(n11〜n24)、AIC(M0)、AIC(f)、関連強度Eを評価データ入力部13に出力する。
特徴量算出部31は、未知文字列の全ての集計文字列について、上記処理を行ったか否かを判断する(ステップS308)。特徴量算出部31は、全ての集計文字列について上記処理を行っていないと判断した場合(ステップS308:No)、他の集計文字列についてステップS303〜ステップS307を行う。
一方、特徴量算出部31は、全ての集計文字列について上記処理を行ったと判断した場合(ステップS308:Yes)、評価データ入力部13は、当該未知文字列の全ての集計文字列に係る特徴量を評価データとして識別器14aに登録する(ステップS309)。
単語境界判定部14は、特徴量算出部31によって算出された特徴量を使用した識別器14aを用いて、当該未知文字列の単語境界を判定する。より詳細には、識別器14aは、評価データ入力部13によって登録された未知文字列の特徴量である評価データと、単語境界判定用データ入力部11によって登録された単語境界判定用データとを用いて、当該未知文字列の単語境界を判定する(ステップS310)。例えば、識別器14aは、未知文字列の特徴量である評価データと、ラベル付学習データから抽出された第1文字列および第2文字列によって構成される集計文字列の特徴量である単語境界判定用データとを比較し、未知文字列の単語境界を判定する。
なお、未知文字列の単語境界を判定した識別器14aは、未知文字列に単語境界情報を付与して判定結果記憶部15へ記憶する。
以上、本発明の実施形態によれば、ラベル付学習データを保持し、隣接する文字列の出現頻度をラベルの存在をも考慮して集計し、その集計値を用いて特徴量を算出し、その特徴量を用いて単語の境界を判定しているため、従来に比べ、より精度良く単語の境界を判定することができる。なお、本実施形態は、単語境界判定装置について説明しているが、文節の境界を判定するための文節境界判定装置にも適用可能である(例えば、「わたしのなまえはなかのです。」について、「わたしの/なまえは/なかのです。/」と境界「/」を判定することができる)。
なお、上記実施形態において、抽出部22は、学習データ記憶部21に記憶されているラベル付学習データ内に存在する一の文字列(集計基礎文字列)から第1文字列および第2文字列を抽出したが、抽出部22は、ラベル付学習データ内に存在していない一の文字列(例えば、ユーザが入力した任意の集計基礎文字列)から第1文字列および第2文字列を抽出するようにしてもよい。
なお、上記実施形態においては、情報量基準に基づくモデル検定として、AICに基づくモデル検定を用いる例を説明したが、BIC、GICなどの他の種類の情報量基準に基づくモデル検定を用いてもよい。また、情報量基準に基づくモデル検定ではなく、他のモデル検定を用いてもよい。例えば、外部より閾値を与え、閾値を超えるスコアを従属関係とみなすことによって、他のモデル検定(例えば、カイ二乗検定や相互情報量)を用いることが可能である。
なお、上記実施形態において、単語境界判定装置1が集計装置2を含む構成について説明したが、単語境界判定装置1は集計装置2を含まない構成(集計装置2は別体である構成)であってもよい。特徴量算出装置3についても同様である。
なお、本発明の一実施形態による単語境界判定装置1の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、本発明の一実施形態による単語境界判定装置1の各処理に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
1…単語境界判定装置
2…集計装置
3…特徴量算出装置
11…単語境界判定用データ入力部
12…判定対象データ記憶部
13…判定対象データ入力部
14a…識別器
14…単語境界判定部
15…判定結果記憶部
21…学習データ記憶部
22…抽出部
23…集計部
24…集計データ記憶部
25…正規化処理部
31…特徴量算出部
32…特徴量記憶部

Claims (4)

  1. 文章に係る文章データと前記文章における単語境界を示すラベルとを含むラベル付学習データを用いて、単語境界が未知である未知文字列の単語境界を判定する単語境界判定装置であって、
    2文字以上から構成される一の文字列から、前記一の文字列の一部を構成する1文字以上の文字列である第1文字列、および、前記一の文字列の一部を構成する1文字以上の文字列であって前記一の文字列において前記第1文字列に続く文字列である第2文字列を抽出する抽出部と、
    前記抽出部によって抽出された前記第1文字列および前記第2文字列の組合せ毎に、前記文章内における、前記第1文字列に続く前記第2文字列の出現回数および非出現回数、並びに、前記第1文字列以外の文字列に続く前記第2文字列の出現回数および非出現回数を、前記第1文字列と前記第2文字列の間の前記単語境界の有無別に集計する集計部と、
    前記集計部によって集計された集計値を用いて、モデル検定を行った上でモデル選択を行うことで前記一の文字列の特徴量を算出する特徴量算出部と、
    前記特徴量算出部によって算出された特徴量を使用した識別器を用いて、前記未知文字列の単語境界を判定する単語境界判定部と
    を備えることを特徴とする単語境界判定装置。
  2. 前記集計部は、前記一の文字列に関する集計値として、前記第1文字列に続いて前記第2文字列が出現し、かつ、前記単語境界が存在する第1の回数、前記第1文字列に続いて前記第2文字列以外の文字列が出現し、かつ、前記単語境界が存在する第2の回数、前記第1文字列以外の文字列に続いて前記第2文字列が出現し、かつ、前記単語境界が存在する第3の回数、前記第1文字列以外の文字列に続いて前記第2文字列以外の文字列が出現し、かつ、前記単語境界が存在する第4の回数、前記第1文字列に続いて前記第2文字列が出現し、かつ、前記単語境界が存在しない第5の回数、前記第1文字列に続いて前記第2文字列以外の文字列が出現し、かつ、前記単語境界が存在しない第6の回数、前記第1文字列以外の文字列に続いて前記第2文字列が出現し、かつ、前記単語境界が存在しない第7の回数、前記第1文字列以外の文字列に続いて前記第2文字列以外の文字列が出現し、かつ、前記単語境界が存在しない第8の回数を集計することを特徴とする請求項1に記載の単語境界判定装置。
  3. 前記特徴量算出部は、前記集計部によって集計された集計値を用いて、情報量基準に基づくモデル検定を行った上でモデル選択を行い、前記一の文字列の特徴量を算出することを特徴とする請求項1又は請求項2に記載の単語境界判定装置。
  4. 前記特徴量算出部は、前記集計部によって集計された集計値を用いて、AICに基づくモデル検定を行った上でモデル選択を行い、前記一の文字列の特徴量を算出することを特徴とする請求項3に記載の単語境界判定装置。
JP2010151733A 2010-07-02 2010-07-02 単語境界判定装置 Expired - Fee Related JP5466588B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010151733A JP5466588B2 (ja) 2010-07-02 2010-07-02 単語境界判定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010151733A JP5466588B2 (ja) 2010-07-02 2010-07-02 単語境界判定装置

Publications (2)

Publication Number Publication Date
JP2012014548A true JP2012014548A (ja) 2012-01-19
JP5466588B2 JP5466588B2 (ja) 2014-04-09

Family

ID=45600873

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010151733A Expired - Fee Related JP5466588B2 (ja) 2010-07-02 2010-07-02 単語境界判定装置

Country Status (1)

Country Link
JP (1) JP5466588B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022511593A (ja) * 2019-10-28 2022-02-01 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド Poi状態情報を取得する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031295A (ja) * 2004-07-14 2006-02-02 Internatl Business Mach Corp <Ibm> 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006031295A (ja) * 2004-07-14 2006-02-02 Internatl Business Mach Corp <Ibm> 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200900111007; 柳原正 他3名: '情報量基準に基づいた単語境界推定方式の提案' 情報処理学会研究報告 Vol.2009,No.36(2009-NL-190), 20090318, 43-48頁, 社団法人情報処理学会 *
JPN6013064412; 柳原正 他3名: '情報量基準に基づいた単語境界推定方式の提案' 情報処理学会研究報告 Vol.2009,No.36(2009-NL-190), 20090318, 43-48頁, 社団法人情報処理学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022511593A (ja) * 2019-10-28 2022-02-01 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド Poi状態情報を取得する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
JP7214949B2 (ja) 2019-10-28 2023-01-31 バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド Poi状態情報を取得する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
US11709999B2 (en) 2019-10-28 2023-07-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for acquiring POI state information, device and computer storage medium

Also Published As

Publication number Publication date
JP5466588B2 (ja) 2014-04-09

Similar Documents

Publication Publication Date Title
JP3882048B2 (ja) 質問応答システムおよび質問応答処理方法
JP2019504413A (ja) 絵文字を提案するためのシステムおよび方法
Donato et al. Investigating redundancy in emoji use: Study on a twitter based corpus
JP2015201185A (ja) 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体
JP5846959B2 (ja) 基本語彙抽出装置、及びプログラム
US11126783B2 (en) Output apparatus and non-transitory computer readable medium
JP2003223456A (ja) 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
JP5768492B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5679194B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Das et al. Going beyond corr-lda for detecting specific comments on news & blogs
CN111274366A (zh) 搜索推荐方法及装置、设备、存储介质
TWI681304B (zh) 自適應性調整關連搜尋詞的系統及其方法
JP5952441B2 (ja) 秘密データを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体
JP5466588B2 (ja) 単語境界判定装置
JP2008217064A (ja) 要望抽出装置、方法およびプログラム
JP5286125B2 (ja) 単語境界決定装置および形態素解析装置
CN109670304A (zh) 恶意代码家族属性的识别方法、装置及电子设备
Zanoli et al. A transformation-driven approach for recognizing textual entailment
JP6085149B2 (ja) 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム
WO2019192122A1 (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
JP5117590B2 (ja) 文書処理装置およびプログラム
JP5145288B2 (ja) 類義語辞書構築装置及び方法、コンピュータプログラム
JP2019074982A (ja) 情報検索装置、検索処理方法、およびプログラム
Alasiry et al. Extraction and evaluation of candidate named entities in search engine queries
JP7147380B2 (ja) タイプ推定方法、情報処理装置およびタイプ推定プログラム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130305

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130305

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140124

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees