JP5286125B2 - 単語境界決定装置および形態素解析装置 - Google Patents

単語境界決定装置および形態素解析装置 Download PDF

Info

Publication number
JP5286125B2
JP5286125B2 JP2009071701A JP2009071701A JP5286125B2 JP 5286125 B2 JP5286125 B2 JP 5286125B2 JP 2009071701 A JP2009071701 A JP 2009071701A JP 2009071701 A JP2009071701 A JP 2009071701A JP 5286125 B2 JP5286125 B2 JP 5286125B2
Authority
JP
Japan
Prior art keywords
character string
string
word
degree
unknown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009071701A
Other languages
English (en)
Other versions
JP2010224887A (ja
Inventor
正 柳原
一則 松本
康弘 滝嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2009071701A priority Critical patent/JP5286125B2/ja
Publication of JP2010224887A publication Critical patent/JP2010224887A/ja
Application granted granted Critical
Publication of JP5286125B2 publication Critical patent/JP5286125B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、単語境界決定装置および形態素解析装置に関する。
形態素解析において、単語として特定できない文字列(以降、「未知文字列」と呼ぶ)が出力されることが多い。一般に、形態素解析装置の主部(以下、「形態素解析エンジン」という)によって参照される辞書(以下、「形態素解析用辞書」という)に登録されていない文字列が未知文字列として出力される。
文字列から単語を正しく特定するための技術に関し、n-gramの統計情報を用いて、未知文字列のうち、単語となる境界を推定し、単語と推定した箇所に対し、品詞を推定する方式も考えられる(非特許文献1参照)。例えば、非特許文献1に係る論文における方法では、n-gramの統計情報を用いて、文字の出現頻度から計算した確率を基にした文字間の関連度を元に、文字列から単語を生成する。その後は閾値を用いることで、単語の品詞を推定するという方式を採る。また、この他に、閾値はデータによって異なることが多いため、入力データを変更する都度、閾値を再調整する。
「nグラム統計によるコーパスからの未知語抽出」 著者 森 信介、長尾 眞、情報処理学会論文誌、Vol.95,No.168,pp.7-12,1998 Kazunori Matsumoto, Kazuo Hashimoto, "Schema Design for Causal Law Mining from Incomplete Database", Discovery Science, Second International Conference, DS '99, Tokyo, Japan, December, 1999, Proceedings. Lecture Notes in Computer Science 1721 Springer, pp.92-102, 1999.
しかしながら、非特許文献1に係る論文における方法には、以下の問題がある。統計情報は確率によって表現されるが、確率を用いる場合、もともと保持していた情報量の信頼性が破棄されてしまうという問題がある。例えば、100文中10回登場した単語は、10文中1回登場した単語に比べ、情報量の観点から言えば信頼性が高いが、確率を用いる場合、共に単に確率「0.1」として取り扱われ、情報量の信頼性が破棄される。さらに、非特許文献1では、任意の文字列に後続する文字との関連を検証するが、文字列の前に存在する文字との関連も同時に検証する場合と比べ、精度が落ちてしまう欠点が挙げられる。また、閾値を使う場合では線形的に境界を判別することになるため、精度のことを踏まえ、非線形的な判別が可能な単語境界の推定方式を利用することが望ましい。
本発明は、上述した課題に鑑みてなされたものであって、高い信頼性で未知文字列から単語を特定する技術を提供することを目的とする。
上記問題を解決するために、本発明の一態様である単語境界決定装置は、文章に係る文章データを含む学習データを用いて、前記文章から1以上の文字から構成される文字列を抽出し、前記文章内において前記文字列の前後に出現する1以上の文字から構成される文字列の分布を集計した文字集計データを生成する文字列集計部と、前記文字列集計部によって生成された前記文字列集計データに基づいて、未知の文字列である未知文字列を2以上の単語に分割する際の境界を推定する単語境界推定部とを備え、前記文字列集計部は、前記文章から抽出した文字列である抽出文字列と、前記抽出文字列の前後に出現する文字列である出現文字列とから構成される組別に、前記出現文字列の出現回数を集計し、前記組別の前記出現回数に基づいて、前記抽出文字列と前記出現文字列との結合の程度を示す結合度を前記組別に算出し、前記組別の前記結合度を前記文字列集計データとして生成し、前記単語境界推定部は、前記未知文字列の一部である第1の部分文字列を要素とする第1の組の前記結合度、前記未知文字列の一部である部分文字列であって前記第1の部分文字列の末尾に1文字付加した第2の部分文字列を要素とする第2の組の前記結合度、前記第1の部分文字列の末尾の1文字が不足する第3の部分文字列を要素とする第3の組の前記結合度を前記文字列集計データから取得し、前記第1の組の前記結合度が、前記第2の組の前記結合度および前記第3の組の前記結合度何れよりも所定の基準値を超えて小さいときは、前記第1の部分文字列と前記第1の部分文字列の後ろの文字列との間に境界が存在すると推定する。
上記問題を解決するために、本発明の他の態様である形態素解析装置は、形態素解析用辞書を用いて形態素解析をする形態素解析エンジンを具備する形態素解析装置であって、 文章に係る文章データを含む学習データを用いて、前記文章から1以上の文字から構成される文字列を抽出し、前記文章内において前記文字列の前後に出現する1以上の文字から構成される文字列の分布を集計した文字集計データを生成する文字列集計部と、前記文字列集計部によって生成された前記文字列集計データに基づいて、未知の文字列である未知文字列を2以上の単語に分割する際の境界を推定するとともに、前記境界にて前記未知文字列を分割した各単語を抽出する単語境界推定部と、前記単語境界推定部によって抽出された前記各単語の品詞を推定し、品詞属性を有する品詞付単語を生成する品詞推定部と、前記品詞推定部によって生成された前記品詞付単語を前記形態素解析用辞書に登録する辞書登録部とを備え、前記文字列集計部は、前記文章から抽出した文字列である抽出文字列と、前記抽出文字列の前後に出現する文字列である出現文字列とから構成される組別に、前記出現文字列の出現回数を集計し、前記組別の前記出現回数に基づいて、前記抽出文字列と前記出現文字列との結合の程度を示す結合度を前記組別に算出し、前記組別の前記結合度を前記文字列集計データとして生成し、前記単語境界推定部は、前記未知文字列の一部である第1の部分文字列を要素とする第1の組の前記結合度、前記未知文字列の一部である部分文字列であって前記第1の部分文字列の末尾に1文字付加した第2の部分文字列を要素とする第2の組の前記結合度、前記第1の部分文字列の末尾の1文字が不足する第3の部分文字列を要素とする第3の組の前記結合度を前記文字列集計データから取得し、前記第1の組の前記結合度が、前記第2の組の前記結合度および前記第3の組の前記結合度何れよりも所定の基準値を超えて小さいときは、前記第1の部分文字列と前記第1の部分文字列の後ろの文字列との間に境界が存在すると推定する。
本発明によれば、高い信頼性で未知文字列から単語を特定(抽出)することができるようになる。
本発明の第1の実施形態による形態素解析装置1の機能ブロック図の一例である。 文字列集計部110による文字列集計データの生成過程を説明する図である。 文字列集計データ記憶部190に記憶される情報の一例である。 形態素解析装置1の動作を示すフローチャートである。 本発明の第2の実施形態による形態素解析装置2の機能ブロック図の一例である。
(第1の実施形態)
以下、本発明の第1の実施形態について図面を参照して詳細に説明する。本発明の第1の実施形態による形態素解析装置1は、図1に示すように、単語境界決定部10、品詞推定部20、辞書登録部30、形態素解析エンジン40、未知文字列記憶部90、学習データ記憶部91、品詞無単語データ記憶部93、品詞推定用データ記憶部94、品詞付単語データ記憶部95、辞書登録用データ記憶部96および形態素解析用辞書データ記憶部97を備える。単語境界決定部10は、文字列集計部110、単語境界推定部120および文字列集計データ記憶部190を備える。
形態素解析用辞書データ記憶部97は、形態素解析装置1の主部である形態素解析を実行するために参照する形態素解析用辞書データを記憶する。形態素解析用辞書データは、例えば、単語、当該単語の品詞、品詞別のコストなどに関するデータから構成される。
形態素解析エンジン40は、形態素解析を実行する対象の文章に係る文章データを入力し、形態素解析用辞書データ記憶部97内の形態素解析用辞書データを参照して形態素解析を実行し、実行結果を外部に出力する。また、形態素解析エンジン40は、未知文字列記憶部90を更新する。例えば、形態素解析エンジン40は、形態素解析の実行時に、形態素解析用辞書データに登録されていない文字列に係る文字列データを未知文字列データ記憶部90に追加する。また、形態素解析エンジン40は、形態素解析用辞書データに登録されていなかった文字列が新たに登録されていた場合に、当該文字列に係る文字列データを未知文字列記憶部90から削除する。
未知文字列記憶部90は、形態素解析エンジン40から出力される文字列データを未知文字列として記憶する。換言すれば、未知文字列記憶部90は、形態素解析エンジン40にとって未知の文字列から構成される未知文字列に係る未知文字列を記憶する。
学習データ記憶部91は、文章(テキスト)に係る文章データ(即ち、テキスト形式のデータ)を含む学習データを記憶する。なお、当該文章は、正規化処理(例えば、予め「コンピユーター」から「コンピュータ」へ変換する処理)を施した文章であることが好ましい。また、当該文章は、未知文字列記憶部90内の未知文字列に係る未知文字列を多く含む文章であることが好ましい。
文字列集計部110は、学習データ記憶部91内の学習データ(文章データ)を用いて、文字列集計データを生成し、文字列集計データ記憶部190に出力する。文字列集計データとは、学習データとして与えられる文章に含まれる文字列(1以上の文字から構成される文字列)を対象として、対象とする文字列に当該文章中において前後に出現する文字の分布を集計した集計データである。なお、文字列集計部110の集計機能および文字列集計データの詳細は後述する。文字列集計データ記憶部190は、文字列集計部110から出力される文字集計データを記憶する。
単語境界推定部120は、文字列集計部110によって生成された文字列集計データ(即ち、文字列集計データ記憶部190内の文字集計データ)と、未知文字列記憶部90内の未知文字列とから、当該未知文字列に係る未知文字列を単語毎に分割する際の文字列の境界を推定し、当該境界にて当該未知文字列を分割した各単語を抽出し、品詞無単語データ記憶部93に出力する。なお、単語境界推定部120の単語の境界推定機能の詳細は後述する。
品詞無単語データ記憶部93は、単語境界推定部120から出力される単語を品詞無単語データとして記憶する。品詞推定用データ記憶部94は、単語の品詞を推定するために参照する品詞推定用データを記憶する。
品詞推定部20は、品詞推定用データ記憶部94内の品詞推定用データを用いて、単語境界推定部120によって抽出された単語データ(即ち、品詞無単語データ記憶部93内の品詞無単語データ)に係る各単語の品詞を推定し、品詞属性を有する単語である品詞付単語データを生成し、品詞付単語データ記憶部95に出力する。品詞付単語データ記憶部95は、品詞推定部20から出力される品詞付単語データを記憶する。
辞書登録用データ記憶部96は、品詞付単語データを形態素解析用辞書データに登録するために参照する辞書登録用データを記憶する。
辞書登録部30は、辞書登録用データ記憶部96内の辞書登録用データを用いて、品詞推定部20によって生成された品詞付単語データ(即ち、品詞付単語データ記憶部95内の品詞付単語データ)を形態素解析用辞書データ記憶部97に登録する。
以下、文字列集計部110の集計機能について詳細に説明する。文字列集計部110は、モデル検定による評価手法を活用し、文字(列)間の関連度(後述する結合度)を計測する。具体的には、まず、文字列集計部110は、学習データ記憶部91内の学習データ(文章データ)から抽出した文字列である抽出文字列と、抽出文字列の前後に出現する文字列である出現文字列とから構成される組別に、出現文字列の出現回数を集計する。具体的には、文字列集計部110は、図2(a)に示すように、組別に出現回数を集計する。
図2(a)において、「k−string」はN−gramであって上述の「一の文字列」に該当し、「v−string」はk−stringに対し、接合すべきかの判定対象である文字列であって上述の一の文字列の前後に出現する文字に該当し、「k−string」と「v−string」の組が上述の抽出文字列と出現文字列とから構成される組に該当する。図2(b)においても同様である。
「a11」「a12」「a21」「a22」は何れも組別の出現回数に該当する。具体的には、「a11」は「k−string」に「v−string」が隣接して出現した出現回数である。例えば、k−string「本」であってv−string「気」である場合、学習データ内の文字列「本気」の出現回数が1回であるとき、図2(a)の如くa11「1」となる。「a12」は「k−string」に「v−string」が隣接して出現しなかった数、即ち、「k−string」に「v−string」以外の任意の文字が隣接して出現した出現回数である。例えば、k−string「本」であってv−string「気」である場合、学習データ内の文字列「本を」「本日」などの出現回数が300回であるとき、図2(a)の如くa12「300」となる。「a21」は「v−string」が「k−string」に隣接しなかった数、即ち、「v−string」が「k−string」以外の任意の文字列に隣接して出現した出現回数である。例えば、k−string「本」であってv−string「気」である場合、学習データ内の文字列「天気」「元気」などの出現回数が1回であるとき、図2(a)の如くa21「1」となる。「a22」は「k−string」でも「v−string」でもない数、即ち、「v−string」以外の任意の文字列が「v−string」以外の任意の文字に隣接して出現した出現回数である。例えば、k−string「本」であってv−string「気」である場合、学習データ内の文字列「私は」「明日」などの出現回数が300回であるとき、図2(a)の如くa22「300」となる。
組別に出現回数を集計した文字列集計部110は、当該組別の出現回数に基づいて各組を構成する抽出文字列と出現文字列との結合の程度を示す結合度を組別に算出する。具体的には、文字列集計部110は、図2(b)に示すように、組別に結合度を算出する。
図2(b)において、「aic(IM)」は、a11、a12、a21、a22を独立現象と仮定し、算出したスコアである。具体的には、a11+a12をh、a11+a21をk、a11+a12+a21+a22をnとしたとき、次式(1)により算出する。
Figure 0005286125
「aic(DM)」は、a11、a12、a21、a22を独立現象と仮定し、算出したスコアである。具体的には、a11をa、a11をb、a12をc、a22をd、a11+a12+a21+a22をnとしたとき、次式(2)により算出する。
Figure 0005286125
「score」は、上述の結合度に該当し、「aic(IM)」および「aic(DM)」から算出する。具体的には、a11/(a11+a12)>a21/(a21+a22)のとき、次式(3)により算出し、a11/(a11+a12)<a21/(a21+a22)のとき、次式(4)により算出する。
Figure 0005286125
組別の結合度を算出した文字列集計部110は、当該組別の結合度を文字列集計データとして生成する。具体的には、文字列集計部110は、図2(c)に示す文字列集計データを生成する。なお、文字列集計部110は、生成した文字列集計データを文字列集計データ記憶部190に出力する。文字列集計データ記憶部190には、例えば、図3に示すような、文字列集計データが記憶される。
以下、単語境界推定部120の単語の境界推定機能について詳細に説明する。単語境界推定部120は、未知文字列の一部である部分文字列と未知文字列内において部分文字列の前後の文字列とから構成される組別の結合度を文字列集計データから取得し、結合度が所定の閾値以上であるときは部分文字列と部分文字列の前後の文字列との間に境界が存在しないと推定する一方、結合度が所定の閾値未満であるときは部分文字列と部分文字列の前後の文字列との間に境界が存在すると推定する。具体的には、単語境界推定部120は、文字列集計部110がモデル検定による評価手法を活用して測定した文字(列)間の関連度(結合度)を利用して、文字(列)間の境界の有無を推定(判断)する。具体的には、まず、単語境界推定部120は、文字列集計データ記憶部190を参照し、未知文字列記憶部90内の未知文字列を構成する文字列と当該文字列に隣接する文字とから構成される各組の結合度を取得する。例えば、単語境界推定部120は、未知文字列記憶部90から未知文字列「マジでヤバい」を取得し、文字列集計データ記憶部190から図3に示す未知文字列「マジでヤバい」に係る各組の結合度を取得する。
未知文字列に係る各組の結合度を取得した単語境界推定部120は、一の組の結合度が所定の閾値以上であるときは当該組内の文字列(k−string)と当該文字列に隣接する文字(v−string)との間に境界が存在しないと推定(判断)し、閾値未満であるときは境界が存在すると推定(判断)する。
例えば、閾値α(値「5000」)において、未知文字列「マジでヤバい」に係る図3に示す各組の結合度を取得した単語境界推定部120は、k−string「マ」、v−string「ジ」の組のscore「22295」が閾値α「5000」以上であるため、文字列「マ」と文字「ジ」の間には境界が存在しないと判断する。換言すれば、単語境界推定部120は、文字列「マ」と文字「ジ」は接合するべきであると判断する
続いて、単語境界推定部120は、k−string「マジ」、v−string「で」の組のscore「647」が閾値α「5000」未満であるため、文字列「マジ」と文字「で」の間には境界が存在すると判断する。換言すれば、単語境界推定部120は、文字列「マジ」と文字「で」は接合するべきでないと判断する。
続いて、単語境界推定部120は、k−string「で」、v−string「ヤ」の組のscore「4061」が閾値α「5000」未満であるため、文字列「で」と文字「ヤ」の間には境界が存在すると判断する。換言すれば、単語境界推定部120は、文字列「で」と文字「ヤ」は接合するべきでないと判断する。
続いて、単語境界推定部120は、k−string「ヤ」、v−string「バ」の組のscore「43030」が閾値α「5000」以上であるため、文字列「ヤ」と文字「バ」の間には境界が存在しないと判断する。換言すれば、単語境界推定部120は、文字列「ヤ」と文字「バ」は接合するべきであると判断する。
続いて、単語境界推定部120は、k−string「ヤバ」、v−string「い」の組のscore「143」が閾値α「5000」未満であるため、文字列「ヤバ」と文字「い」の間には境界が存在すると判断する。換言すれば、単語境界推定部120は、文字列「ヤバ」と文字「い」は接合するべきでないと判断する。
以上のように、単語境界推定部120は、未知文字列「マジでヤバい」を単語毎に分割する際の文字列の境界が、文字列「マジ」と文字「で」の間、文字列「で」と文字「ヤ」の間、文字列「ヤバ」と文字「い」の間に存在すると判断する。なお、単語境界推定部120は、文字「い」のあとには文字がないため、独立した単語であると判断する。
未知文字列「マジでヤバい」を単語毎に分割する際の境界を推定した単語境界推定部120は、未知文字列「マジでヤバい」を各境界にて分割した各単語(単語「マジ」、単語「で」、単語「ヤバ」、単語「い」)の単語データ(品詞無単語データ)を未知文字列から抽出し、品詞無単語データ記憶部93に出力する。
なお、上記例は、未知文字列「マジでヤバい」の左端の文字「マ」から結合度の比較を開始しているが、結合度の比較は左側から開始しなくてもよい。例えば、未知文字列「マジでヤバい」の中央の文字「で」から開始する場合、k−string「ジ」、v−string「で」の組のscore「1396」が閾値α「5000」未満、k−string「で」、v−string「ヤ」の組のscore「4061」が閾値α「5000」未満であるため、文字列「で」は、文字列「ジ」にも文字列「ヤ」にも結合すべきでないと判断することができる。
以下、図4を用いて形態素解析装置1の動作を説明する。図4(a)に示すフローチャートは文字列集計データ記憶部190内に文字列集計データが記憶(蓄積)される迄の動作、図4(b)に示すフローチャートは未知文字列記憶部90内の未知文字列が単語(品詞)に分解されて消去される迄の動作である。
図4(a)において、文字列集計部110は、学習データ記憶部91内の学習データから、各文字列と各文字列に隣接する文字とから構成される組別に、各文字列に隣接する各文字の出現回数(a11、a12、a21、a22)を集計する(ステップS100)。各文字列に隣接する各文字の出現回数を組別に集計した文字列集計部110は、各組を構成する文字列と文字との結合度(score)を組別に算出する(ステップS110)。組別の結合度を算出した文字列集計部110は、当該組別の結合度を文字列集計データとして生成し、文字列集計データ記憶部190に出力(記憶)する(ステップS120)。そして図4(a)に示すフローチャートは終了する。なお、文字列集計部110によるステップS100の開始タイミングは、特に限定しないが、例えば、文字列集計部110は、学習データ記憶部91内の学習データを更新する学習データ更新部(非図示)から学習データの更新が完了した旨の更新完了通知を受信したときに、上記出現回数を集計してもよい。
図4(b)において、単語境界推定部120は、未知文字列記憶部90から未知文字列を取得する(ステップS200)。単語境界推定部120は、文字列集計データ記憶部190を参照し、当該未知文字列を構成する文字列と当該文字列に隣接する文字とから構成される各組の結合度(score)を取得し、当該各組の結合度と所定の閾値とを比較することによって、当該未知文字列を単語毎に分割する際の文字列の境界を推定し(ステップS210)、未知文字列から当該未知文字列を当該境界にて分割した各単語の品詞無単語データを抽出する(ステップS220)。単語境界推定部120は、抽出した品詞無単語データを品詞無単語データ記憶部93に出力(記憶)する。
品詞推定部20は、品詞推定用データ記憶部94内の品詞推定用データを用いて、品詞無単語データ記憶部93内の品詞無単語データに係る各単語の品詞を推定し、品詞付単語データを生成する(ステップS230)。品詞推定部20は、生成した品詞付単語データを品詞付単語データ記憶部95に出力(記憶)する。辞書登録部30は、辞書登録用データ記憶部96内の辞書登録用データを用いて、品詞付単語データ記憶部95内の品詞付単語データを形態素解析用辞書データ記憶部97に登録する(ステップS240)。形態素解析エンジン40は、形態素解析用辞書データ記憶部97を参照し、新たに登録された品詞付単語データに対応する未知文字列を未知文字列記憶部90から削除する(ステップS250)。そして図4(b)に示すフローチャートは終了する。なお、形態素解析エンジン40によるステップS250の開始タイミングは、特に限定しないが、例えば、辞書登録部30から品詞付単語データの登録が完了した旨の更新完了通知を受信したときに、未知文字列記憶部90から上記未知文字列を削除してもよい。また、形態素解析エンジン40は、形態素解析の実行時に、未知文字列記憶部90から上記未知文字列を削除してもよい。
以上、本発明の第1の実施形態による形態素解析装置1によれば、高い信頼性で未知文字列から単語を特定(抽出)することができるようになる。即ち、形態素解析装置1を用いれば、文字(列)間の境界の有無を推定(判断)する際に、モデル検定による評価手法を活用して測定した文字(列)間の関連度(結合度)を利用しているため、未知文字列からの単語の特定(抽出)時における、信頼性が向上するようになる。
なお、上記実施形態では、単語境界推定部120は、文字列と文字の組の結合度と、閾値とを比較して、文字列と文字との間の境界の有無を推定(判断)しているが、これに変えて、単語境界推定部120は、各組の結合度の変化に着目し、文字列と文字との間の境界の有無を推定(判断)してもよい。即ち、単語境界推定部120は、未知文字列の一部である第1の部分文字列を要素とする第1の組の結合度、未知文字列の一部である部分文字列であって第1の部分文字列の末尾に1文字付加した第2の部分文字列を要素とする第2の組の結合度、第1の部分文字列の末尾の1文字が不足する第3の部分文字列を要素とする第3の組の結合度を文字列集計データから取得し、第1の組の結合度が、第2の組の結合度および第3の組の結合度よりも何れよりも所定の基準値を超えて小さいときは、第1の部分文字列と第1の部分文字列の後ろの文字列との間に境界が存在すると推定する。換言すれば、単語境界推定部120は、一の文字数を有する第1の文字列と第1の文字列に隣接する文字の組の結合度(第1の結合度)が、第1の文字列に対、後ろに1文字付加した第2の文字列と第2の文字列に隣接する文字の組の結合度(第2の結合度)、および、第1の文字列に対し上記一端の1文字が不足する第3の文字列と第3の文字列に隣接する文字の組の結合度(第3の結合度)の何れよりも所定の基準値を超えて小さいときは、第1の文字列と第1の文字列に隣接する文字との間に境界が存在すると推定する。
例えば、基準値β(値「50」)において、文字列集計データ記憶部190から図3に示す未知文字列「マジでヤバい」に係る各組の結合度を取得した単語境界推定部120は、文字数「2」を有する第1の文字列「マジ」と第1の文字列「マジ」の後に出現する文字「で」の組の結合度である第1の結合度「647」が、第1の文字列「マジ」に対し一端(右側)に1文字「で」を付加した第2の文字列「マジで」と第2の文字列「マジで」の後に出現する文字「ヤ」の組の結合度である第2の結合度「702」、および、第1の文字列「マジ」に対し当該一端(右側)の1文字「ジ」が不足する第3の文字列「マ」と第3の文字列の後に出現する文字「ジ」の組の結合度である第3の結合度「22295」の何れよりも基準値β「50」を超えて小さいため、第1の文字列「マジ」と第1の文字列の後に出現する文字「で」との間に境界が存在すると推定(判断)する。
なお、第1の実施形態において、単語境界決定部10は形態素解析装置1の構成要素であるが、単語境界決定部10は、ある装置の構成要素ではなく独立した装置(単語境界決定装置10)であってもよい。独立した単語境界決定装置10は、図1に示すように、文字列集計部110、単語境界推定部120および文字列集計データ記憶部190を備え、外部(例えば、辞書機能を有する種々の装置)から未知文字列を入力し、未知文字列から抽出した単語を外部に出力する。
(第2の実施形態)
以下、本発明の第2の実施形態について説明する。本発明の第2の実施形態による形態素解析装置2は、本発明の第1の実施形態による形態素解析装置1と単語の境界推定機能を異にする。具体的には、形態素解析装置1における境界推定機能は、文字(列)間の結合度(関連度)に着目し、単語の境界を推定するのに対して、形態素解析装置2における境界推定機能は、ラベル付特徴量データを用いて、n文字の未知文字列があったとき、未知文字列内のn−1個の文字間の区切位置が単語の境界となるか否かを識別(推定)する。なお、ラベルとは、単語の境界となるか否かの判定結果を示す情報である。形態素解析装置2においては、単語の境界となる旨を示す判定結果を示すラベルとして「+1」、単語の境界とならない旨の判定結果を示すラベルとして「−1」を用いるが、他のラベルを用いてもよい。
形態素解析装置2は、図5に示すように、単語境界決定部12、品詞推定部20、辞書登録部30、形態素解析エンジン40、未知文字列記憶部90、ラベル付与用データ記憶部92、品詞無単語データ記憶部93、品詞推定用データ記憶部94、品詞付単語データ記憶部95、辞書登録用データ記憶部96および形態素解析用辞書データ記憶部97を備える。単語境界決定部12は、ラベル生成部112、単語境界推定部122およびラベル付特徴量データ記憶部192を備える。品詞推定部20、辞書登録部30、形態素解析エンジン40、未知文字列記憶部90、品詞無単語データ記憶部93、品詞推定用データ記憶部94、品詞付単語データ記憶部95、辞書登録用データ記憶部96および形態素解析用辞書データ記憶部97は、本発明の第2の実施形態による形態素解析装置1と同様であるため、説明の一部または全部を省略する。
ラベル付与用データ記憶部92は、識別器(例えば、SVM(Support Vector Machine)を構成するラベル付特徴量データを生成するための学習データ(以下、「ラベル付与用データ」)を記憶する。
ラベル生成部112は、ラベル付与用データ記憶部92内のラベル付与用データを用いて、ラベル付特徴量データを生成し、ラベル付特徴量データ記憶部192に出力する。ラベル付特徴量データ記憶部192は、ラベル生成部112から出力されるラベル付特徴量データを記憶する。即ち、ラベル生成部112は、識別器を構成するラベル付特徴量データを学習(ラベル付特徴量データ記憶部192に記憶)する。なお、ラベル生成部112は、単語境界推定部122から文字列(具体的には未知文字列に係る他の文字列)を取得した場合に、当該文字列(未知文字列)用のラベル付特徴量データを生成する。
例えば、ラベル生成部112は、単語境界推定部122から6文字の未知文字列「マジでヤバい」を取得した場合、6文字の未知文字列の文字間は5箇所であるため、合計5個のSVM(1文字目「マ」と2文字目「ジ」の間が単語の境界となるか否かを識別するSVM、2文字目「ジ」と3文字目「で」の間が単語の境界となるか否かを識別するSVM、…、5文字目「バ」と6文字目「い」の間が単語の境界となるか否かを識別するSVM)を作成する必要があるため、各SVMに対応する5個のラベル付特徴量データを生成する。
SVMなどのような識別器を使った単語境界の推定方式では、予め用意した学習データであるラベル付特徴量データを学習し、ベクトル化された未知文字列を与えることで、単語境界が推定される手順を取る。例えば、先の1文字目「マ」と2文字目「ジ」の間が単語の境界となるか否かを識別するSVMの場合、以下の学習データ(ラベル付特徴量データ)を用意する。
+1:a(D1)111,a(D1)112,a(D1)121,a(D1)122, …,a(D1)621,a(D1)622
−1:a(D2)111,a(D2)112,a(D2)121,a(D2)122, a(D2)211,a(D2)212,…,a(D2)621
当該ラベル付特徴量データにおいて、各値は、文字列集計部110にて集計される出現回数(a11〜a22)の値であり、特定のドキュメント集合であるD1が存在したとき、1文字目のa(D1)11の値をa(D1)111、1文字目のa(D1)12の値をa(D1)112、…6文字目のa(D1)22の値をa(D1)622のベクトルとして表す。さらに、このベクトルに対し、1文字目と2文字目の間が単語の境界とすべき場合は、ラベル「+1」を、単語の境界とすべきでない場合はラベル「−1」を付加する。以下、2文字目と3文字目の間、3文字目と4文字目の間、…とSVMの数分、同様の処理を行う。
単語境界推定部122は、識別器(ラベル付特徴量データ)を用いて未知文字列内の各文字間が境界となるか否かを識別(推定)し、当該未知文字列データから当該境界にて分割した各単語の単語データを抽出し、品詞無単語データ記憶部93に出力する。即ち、単語境界推定部122は、ラベル生成部112によって生成されたラベル付特徴量データ(即ち、ラベル付特徴量データ記憶部192内のラベル付特徴量データ)と、未知文字列文字列記憶部90内の未知文字列とから、当該データに係る未知文字列を単語毎に分割する際の文字列の境界を推定し、当該未知文字列から当該未知文字列を当該境界にて分割した各単語の単語データを抽出し、品詞無単語データ記憶部93に出力する。
例えば、単語境界推定部122は、未知文字列「マジでヤバい」について単語の境界推定をする場合、ベクトル(a111, a112, a121, a122,a211,a212,…,a621,a622)を作成し、SVM(ラベル付特徴量データ)に入力すれば、「+1」又は「−1」の何れか一方のラベルが出力される。
なお、第2の実施形態において、単語境界決定部12は形態素解析装置2の構成要素であるが、単語境界決定部12は、ある装置の構成要素ではなく独立した装置(単語境界決定装置12)であってもよい。独立した単語境界決定装置12は、図5に示すように、ラベル生成部112、単語境界推定部122およびラベル付特徴量データ記憶部192を備え、外部(例えば、辞書機能を有する種々の装置)から未知文字列を入力し、未知文字列から抽出した単語を外部に出力する。
なお、本発明の一実施形態による形態素解析装置1(2)の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、本発明の一実施形態による形態素解析装置1(2)に係る上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
1、2 形態素解析装置 10、12 単語境界決定部(単語境界決定装置) 20 品詞推定部 30 辞書登録部 40 形態素解析エンジン 90 未知文字列記憶部 91 学習データ記憶部 92 ラベル付与用データ記憶部 93 品詞無単語データ記憶部 94 品詞推定用データ記憶部 95 品詞付単語データ記憶部 96 辞書登録用データ記憶部 97 形態素解析用データ記憶部 110 文字列集計部 112 ラベル生成部 120、122 単語境界推定部 190 文字列集計データ記憶部 192 ラベル付特徴量データ記憶部

Claims (2)

  1. 文章に係る文章データを含む学習データを用いて、前記文章から1以上の文字から構成される文字列を抽出し、前記文章内において前記文字列の前後に出現する1以上の文字から構成される文字列の分布を集計した文字集計データを生成する文字列集計部と、
    前記文字列集計部によって生成された前記文字列集計データに基づいて、未知の文字列である未知文字列を2以上の単語に分割する際の境界を推定する単語境界推定部と
    を備え、
    記文字列集計部は、
    前記文章から抽出した文字列である抽出文字列と、前記抽出文字列の前後に出現する文字列である出現文字列とから構成される組別に、前記出現文字列の出現回数を集計し、前記組別の前記出現回数に基づいて、前記抽出文字列と前記出現文字列との結合の程度を示す結合度を前記組別に算出し、前記組別の前記結合度を前記文字列集計データとして生成し、
    記単語境界推定部は、
    前記未知文字列の一部である第1の部分文字列を要素とする第1の組の前記結合度、前記未知文字列の一部である部分文字列であって前記第1の部分文字列の末尾に1文字付加した第2の部分文字列を要素とする第2の組の前記結合度、前記第1の部分文字列の末尾の1文字が不足する第3の部分文字列を要素とする第3の組の前記結合度を前記文字列集計データから取得し、前記第1の組の前記結合度が、前記第2の組の前記結合度および前記第3の組の前記結合度何れよりも所定の基準値を超えて小さいときは、前記第1の部分文字列と前記第1の部分文字列の後ろの文字列との間に境界が存在すると推定する
    ことを特徴とする単語境界決定装置。
  2. 形態素解析用辞書を用いて形態素解析をする形態素解析エンジンを具備する形態素解析装置であって、
    文章に係る文章データを含む学習データを用いて、前記文章から1以上の文字から構成される文字列を抽出し、前記文章内において前記文字列の前後に出現する1以上の文字から構成される文字列の分布を集計した文字集計データを生成する文字列集計部と、
    前記文字列集計部によって生成された前記文字列集計データに基づいて、未知の文字列である未知文字列を2以上の単語に分割する際の境界を推定するとともに、前記境界にて前記未知文字列を分割した各単語を抽出する単語境界推定部と、
    前記単語境界推定部によって抽出された前記各単語の品詞を推定し、品詞属性を有する品詞付単語を生成する品詞推定部と、
    前記品詞推定部によって生成された前記品詞付単語を前記形態素解析用辞書に登録する辞書登録部と
    を備え、
    記文字列集計部は、
    前記文章から抽出した文字列である抽出文字列と、前記抽出文字列の前後に出現する文字列である出現文字列とから構成される組別に、前記出現文字列の出現回数を集計し、前記組別の前記出現回数に基づいて、前記抽出文字列と前記出現文字列との結合の程度を示す結合度を前記組別に算出し、前記組別の前記結合度を前記文字列集計データとして生成し、
    記単語境界推定部は、
    前記未知文字列の一部である第1の部分文字列を要素とする第1の組の前記結合度、前記未知文字列の一部である部分文字列であって前記第1の部分文字列の末尾に1文字付加した第2の部分文字列を要素とする第2の組の前記結合度、前記第1の部分文字列の末尾の1文字が不足する第3の部分文字列を要素とする第3の組の前記結合度を前記文字列集計データから取得し、前記第1の組の前記結合度が、前記第2の組の前記結合度および前記第3の組の前記結合度何れよりも所定の基準値を超えて小さいときは、前記第1の部分文字列と前記第1の部分文字列の後ろの文字列との間に境界が存在すると推定する
    ことを特徴とする形態素解析装置。
JP2009071701A 2009-03-24 2009-03-24 単語境界決定装置および形態素解析装置 Active JP5286125B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009071701A JP5286125B2 (ja) 2009-03-24 2009-03-24 単語境界決定装置および形態素解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009071701A JP5286125B2 (ja) 2009-03-24 2009-03-24 単語境界決定装置および形態素解析装置

Publications (2)

Publication Number Publication Date
JP2010224887A JP2010224887A (ja) 2010-10-07
JP5286125B2 true JP5286125B2 (ja) 2013-09-11

Family

ID=43042006

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009071701A Active JP5286125B2 (ja) 2009-03-24 2009-03-24 単語境界決定装置および形態素解析装置

Country Status (1)

Country Link
JP (1) JP5286125B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5566704B2 (ja) * 2010-01-14 2014-08-06 株式会社Kddi研究所 単語境界判定装置
EP2653981A4 (en) * 2010-12-17 2018-01-17 Rakuten, Inc. Natural language processing device, method, and program
JP2015014877A (ja) * 2013-07-04 2015-01-22 富士ゼロックス株式会社 未知語分類プログラム及び情報処理装置
JP6522446B2 (ja) * 2014-12-26 2019-05-29 Kddi株式会社 ラベル付与装置、方法およびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09138801A (ja) * 1995-11-15 1997-05-27 Oki Electric Ind Co Ltd 文字列抽出方法とシステム
JP2004265440A (ja) * 2004-04-28 2004-09-24 A I Soft Inc 未知語登録装置および方法並びに記録媒体

Also Published As

Publication number Publication date
JP2010224887A (ja) 2010-10-07

Similar Documents

Publication Publication Date Title
US11544459B2 (en) Method and apparatus for determining feature words and server
WO2020244073A1 (zh) 基于语音的用户分类方法、装置、计算机设备及存储介质
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN105988990B (zh) 汉语零指代消解装置和方法、模型训练方法和存储介质
JP6334815B2 (ja) 学習装置、方法、プログラムおよび音声対話システム
CN108140019B (zh) 语言模型生成装置、语言模型生成方法以及记录介质
US10803241B2 (en) System and method for text normalization in noisy channels
US10795878B2 (en) System and method for identifying answer key problems in a natural language question and answering system
WO2017161899A1 (zh) 一种文本处理方法、装置及计算设备
US9575957B2 (en) Recognizing chemical names in a chinese document
CN112347767B (zh) 一种文本处理方法、装置及设备
CN107885717B (zh) 一种关键词提取方法及装置
JP5286125B2 (ja) 単語境界決定装置および形態素解析装置
TWI681304B (zh) 自適應性調整關連搜尋詞的系統及其方法
CN110209780B (zh) 一种问题模板生成方法、装置、服务器及存储介质
US10754880B2 (en) Methods and systems for generating a replacement query for a user-entered query
CN109033070B (zh) 一种数据处理方法、服务器及计算机可读介质
JP5566704B2 (ja) 単語境界判定装置
JP2014215970A (ja) 誤り検出装置、方法、及びプログラム
US11907275B2 (en) Systems and methods for processing text data for disabbreviation of text units
JP6429383B2 (ja) 下位表現抽出装置およびプログラム
WO2022204845A1 (zh) 实体热度生成方法、装置、存储介质及电子设备
CN111241240B (zh) 行业关键词提取方法及装置
JP5764052B2 (ja) リンク生成装置、リンク生成方法及びリンク生成プログラム
JP6172447B2 (ja) 関連性判定システム、方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110819

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110823

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130219

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130408

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130603

R150 Certificate of patent or registration of utility model

Ref document number: 5286125

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150