JP4059501B2

JP4059501B2 - 自然語辞書更新装置

Info

Publication number: JP4059501B2
Application number: JP2003409843A
Authority: JP
Inventors: 奈穂子佐藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2003-12-09
Filing date: 2003-12-09
Publication date: 2008-03-12
Anticipated expiration: 2023-12-09
Also published as: JP2005173753A

Description

本発明は、文書処理装置等の自然語辞書データベースの登録候補語を登録語として更新する自然語辞書更新装置に関する。

コンピュータの高速化、記憶装置の小型、大容量化が進展するにつれて文書の電子化が進み電子処理が一般化している。文書の電子処理の一環として電子辞書の構築があり、様々な種類の電子辞書が開発されている。

従来、公知の電子辞書として単語間の意味関係を表わす意味属性辞書がある。この辞書はインターネット上よりHTML文書を収集し、収集した文書より各文字列間の階層構造を抽出する。これはHTMLタグのパターンとそれに対応する意味階層構造をルールとして記述しておき、そのルールに基いて、ある上位概念（属性）の文字列に対して下位概念（値）の文字列を抽出することで行う。こうして抽出された上位概念（属性）と下位概念（値）を単語レベルで辞書に記述し、意味属性辞書を生成する。このときインターネットを介してHTML文書コーパスに接続すればHTML文書は日々更新されている生データなので、それに合せて辞書を更新させていくことで辞書の陳腐化が防げるというものである（特許文献１参照）。
特開2000-99515号公報

高度な文書処理には自然言語技術が利用され、これら技術においては多くの場合、単語辞書に代表される言語知識データベースが用いられる。新規語句は絶え間なく生成され、電子辞書側は既に保有している単語辞書に対して未知語の属性付与、最適概念範疇への設定と登録をし続ける必要がある。しかしながら、前記特許文献１には自然語辞書を更新することは述べられていない。特許文献１に記載の発明は、あくまでもHTML文書をベースにして文字列の階層構造（属性とその値）を抽出し、HTML文書の表現を上位概念（属性）の単語と下位概念（値）に解析し、これらを意味属性辞書データベースに記述する。従って、自然言語の未知語を解析し、最適概念範疇を設定して確定言語とした上で辞書登録することは行っていなかった。一般に自然言語の新しい表現（語句）が生まれたとき、その表現（語句）は既存の概念に加えられるか、或いは新しい概念として新規に辞書へ登録されるかのいずれかであるが、そのいずれにしても作業には専門知識が不可欠であり、誰でもできる作業ではない上に人手とコストがかかっていた。

本発明は、このような実状に鑑みてなされたものであり、自然言語の登録候補語（未登録語）の登録を人手を介することなく辞書データベースに登録することを目的とする。

請求項１の発明は、品詞属性が仮付与された自然言語の登録候補語を有する辞書の前記登録候補語を登録語として更新する手段を備えた自然語辞書更新装置において、自然言語コンテンツを取得する手段と、取得された自然言語コンテンツからテキストデータを抽出する手段と、抽出されたテキストデータの自立語毎に、品詞属性と他の自立語との係り受け関係を解析する手段と、前記解析する手段にて解析された、当該自立語と係り受け関係を有する他の自立語の出現頻度を計量する手段と、当該自立語と、品詞属性と出現頻度が付与された当該自立語と係り受け関係を有する他の自立語との係り受け関係を示すテキストデータ構造情報を生成する手段と、前記生成する手段にて生成されたテキストデータ構造情報と、評価基準とを記憶する手段と、登録候補語に係るテキストデータ構造情報を前記記憶手段から読み出すことで取得する手段と、前記記憶する手段から評価基準を読み出して、前記取得する手段にて取得されたテキストデータ構造情報が前記評価基準を満たすか否かを評価する手段と、前記評価する手段にて、評価基準を満たすとの評価が得られたとき、前記登録候補語を登録語として更新する手段と、を備えたことを特徴とする自然語辞書更新装置である。

請求項２の発明は、請求項１記載の自然語辞書更新装置において、前記自然言語コンテンツを取得する手段は、予め設定された検索条件によりインターネット回線を通して常時更新されるコーパスから自然言語コンテンツを取得することを特徴とする自然語辞書更新装置である。

請求項３の発明は、請求項１又は２記載の自然語辞書更新装置において、前記取得されたテキストデータ構造情報が前記評価基準を満たすか否かを評価する手段は、当該自立語と係り受け関係にある他の自立語とその品詞属性及び出現頻度、又は当該自立語と係り受け関係にある他の自立語と、該自立語と同じ係り受け関係にあるその他の自立語と、その品詞属性及び出現頻度を前記記憶する手段から読み出した評価基準と比較して、テキストデータ構造情報が前記評価基準を満たしているか否かを評価することを特徴とする自然語辞書更新装置である。

請求項４の発明は、請求項３記載の自然語辞書更新装置において、前記評価基準を満たすとの評価が得られたとき登録候補語に係るテキストデータ構造情報の評価を繰り返し行う手段を備えたことを特徴とする自然語辞書更新装置である。

請求項５の発明は、請求項１乃至４のいずれか１項に記載の自然語辞書更新装置において、前記評価基準は、単語と他の単語との係り受け関係と、単語の品詞属性と、単語の品詞属性の出現確率とを定義していることを特徴とする自然語辞書更新装置である。

請求項１，２，３，５に対応する効果：自然言語の登録候補語（未登録語）の登録を人手を介することなく辞書データベースに登録することができる。
請求項４に対応する効果：信頼度の高い登録語として更新することができるので、辞書データベースの質を高めることができる。

はじめに本発明に係る自然語辞書を更新する基本的な概念について説明する。
図１は本発明に係る自然語辞書を更新する概念の説明図である。図１において、自然語辞書自動更新装置100は、登録候補語81を登録確定語82としてシステム辞書83に登録し更新する。このためにリソース取得機構84、評価情報抽出機構85、登録候補語評価機構86を備えている。辞書自動更新装置100のリソース取得機構84は、ユーザーの任意のタイミングで、常時更新される非固定のコーパス88から自然言語コンテンツを、検索エンジンを介するなどネットワークを通して取得する。そして自然言語コンテンツのテキスト部分、即ちテキストコンテンツ89を言語解析、単語計量し評価に必要な言語情報を取得し記憶する。登録候補語81は過去の入力文書によりシステム辞書83に未登録の言語として記憶されているものである。評価機構86は評価に必要な言語情報と読み出し、自ら備えている評価基準を参照して登録候補語を評価し、一定の基準を超えているとき登録確定語82としてシステム辞書83に登録、更新を行う。なお、前記自然言語コンテンツはユーザーが予め検索条件を設定して取得してもよい。

このようにして登録候補語を登録確定語として登録するとき、リソース取得機構84は大量の言語データコーパスを取得し、評価情報抽出機構85で任意の語句と係り受け関係のある語句を抽出する。例えば語句「書いた」が抽出され、「書いた」の目的語が「小説」、「手紙」が大部分であったとする。更に「小説」を目的語（被係り受け語）とする動詞は、大多数が「読む」、「書く」であったとする。すると「手紙」も非常に似た係り受けパターンを示した。これを整理すると、
書いた・・・・小説・・・・読む・・・・本、詩、心、平家物語
書いた・・・・手紙・・・・書く、見る、来る、持ってくる、頂く
のようになる。

図２は係り単語と受け単語の関係の例を示す図であり、図中、係り単語「読む」の受け単語は、「文」、「詩」、「本」、「書物」、「小説」、「新聞」、「手紙」であり、係り単語「書く」の受け単語は、「小説」、「新聞」、「手紙」、「黒板」、「辞表」、「記録」、「ノート」、「雑誌」である。図２から明らかなように係り単語の品詞は動詞であり、受け単語の品詞は名詞である。ここで「辞表」がシステム辞書83に未登録の登録候補語であったとすると、図2の単語関係例から「辞表」の品詞属性は名詞であることが導き出せる。このように関連付けされた言語データが大量にあれば、品詞推定モデルが構築でき、更に常時更新される大量の自然言語コーパスを利用し、語句を評価することで信頼度の高い、最新辞書の自動更新が可能になる。

次に、本発明の実施形態としての自然語辞書更新装置について図３乃至図８を参照して詳細に説明する。
図３は本発明に係る自然語辞書更新装置を実現する処理部構成のブロック図を示す。この構成は、実際には、コンピュータのハードウエア、ソフトウエア資源を利用して実現される。図３において、入力部1はユーザーが予め自然言語コンテンツを取得するタイミングや検索条件などを設定し、実態はキーボードや音声入力など既存の入力手段である。リソース取得部2は非固定の自然言語コーパスからネットワークを介して常時更新される少なくとも自然言語を含むコンテンツを取得する。コンテンツの取得は自然言語を含む全てのコンテンツの取得を基本とし、ユーザーは任意で検索条件を設定し、検索条件に合致するコンテンツを取得する。検索にはYahoo（登録商標）など既存の検索エンジンを使用することができる。

言語解析部3は形態素解析と係り受け解析を行う。形態素解析は、形態素解析用辞書を用いて自然言語コンテンツのテキスト部分を単語毎に区切り、各単語に品詞属性を仮付与する処理であり、その処理には、最長一致法、コスト最小法、用例検索法等の既存の手法を用いることができる。係り受け解析は、係り受け処理の１単位である文節を生成し、文節と文節がどのような関係にあるかを同定するが、本実施形態では、文節には必ず１つだけしか自立語を含まないように文節を生成する解析方法を使用する。解析した言語データを言語解析用辞書バッファ3aに記憶する。
なお、通常、文節は１つの自立語と０個以上の付属語で構成されるが、解析方法によっては、１文節に複数個の自立語が含まれるような結果を出す定義の仕方も存在する。

言語データ計量部4は、取得した全コンテンツについて解析が終了したとき、解析された言語データの各パーツの計量をする。本実施形態においては登録候補語の評価情報とするために、各自立語と係り受けを持つ自立語の出現頻度と品詞の頻度を計量する。この結果、例えば単語「辞表」と係り受け関係を持つ自立語とその出現頻度は、動詞「書く」２９、「受け入れる」２１、「入れる」１２のように計量され、また単語「書く」と係り受けを持つ自立語とその出現頻度は、名詞「新聞」５、名詞「手紙」３０、未登録語「辞表」２９、サ変名詞「記録」６のように計量される。更に、係り受け関係の有無だけでなく、係り受け関係の種類も併せて記録し、それ毎に自立語を計量する。例えば、動詞「書く」と名詞「新聞」、「手紙」、「辞表」、サ変名詞「記録」とはヲ格連用修飾関係の係り受け、などである。この係り受け解析と計量の結果は、次に述べるテキストデータ構造情報の一部として記憶管理される。

テキストデータ構造生成部5は、上述の言語解析結果や計量結果を後工程で検索可能な構造に変換する。即ち、テキストデータ構造は、自然言語コンテンツのテキスト部分を文１、文２、文３とし、更に文１を文節１、文節２、文節３、文節４、文節５とし、更に又、文節１を単語１、単語２、単語３のような言語要素に変換することにより生成される。
図４は変換されるテキストデータの言語要素の例を示す。変換されたテキストデータの各言語要素には、識別情報（ＩＤ）を付与し、そのリスト等により管理する。即ち、テキストは文ＩＤリスト、文は文ＩＤ及び文節ＩＤリスト、文節は文節ＩＤ、単語ＩＤリスト、係り文節ＩＤリスト、受け文節ＩＤ、係り受け関係（種類）、意図情報リスト、単語は単語ＩＤ、係り単語ＩＤリスト、受け単語ＩＤ、係り受け関係（種類）等のテキストデータ構造管理情報により管理する。
図５はテキストデータ構造管理情報の例を示し、図６は係り受け解析と計量の結果に基く係り受け関係のテキストデータ構造情報を示し、この情報は登録候補語の評価情報となる。これらのテキストデータ構造管理情報及び評価情報はテキストデータ構造記憶部5aに記憶する。

テキストデータ構造検索部6は後述する未登録語評価部8に提供するために、テキストデータ構造記憶部5aにアクセスして登録候補語のテキストデータ構造情報（評価情報）を検索する。

未登録語属性推定部7は登録候補語（未登録語）の品詞属性を推定し、推定した品詞属性を登録候補語に仮付与する。品詞属性の推定は、既存のｎグラム統計を用いる方法、述語文法を利用する方法などにより実施することができる。品詞属性が仮付与された登録候補語は不図示のバッファに記憶される。なお、このバッファは後述する評価結果記憶部9aを共用するようにしてもよい。

未登録語評価部8は、登録候補語について、当該登録候補語に係るテキストデータ構造情報（評価情報）をテキストデータ構造検索部6から取得し、取得したテキストデータ構造情報が評価基準をクリヤするか否かをチェックし、評価基準をクリヤすれば登録候補語を登録語として確定する。即ち、未登録語評価部8は、本例の場合、先頭順位にある単語「辞表」、推定属性「名詞」について、テキストデータ構造検索部6から単語「辞表」、推定属性「名詞」に係るテキストデータ構造情報を取得する。本実施形態では、テキストデータ構造記憶部5aに、図６（Ａ）及び図６（Ｂ）で示される辞表に係るテキストデータ構造情報が存在するので、この情報が取得される。

未登録語評価部8は評価基準バッファ8aに評価基準を記憶している。
図７は評価基準の例を示す図であり、図７（Ａ）は、ヲ格連用修飾関係において受け品詞が動詞で９０％以上のとき品詞属性を名詞とする、という基準Ａであり、図７（Ｂ）は、ヲ格連用修飾関係において受け語の係り品詞が名詞で９０％以上のとき品詞属性を名詞とする、という基準Ｂになっている。

従って未登録語評価部8は、テキストデータ構造記憶部5aから検索された単語「辞表」と係り関係にある自立語「書く」、「受け入れる」、「入れる」（これらは全て動詞）の出現頻度を、評価基準Ａと比較すると、ヲ格連用修飾関係で受け語（「書く」、「受け入れる」、「入れる」）の品詞が動詞である割合が９０％以上であるという条件をクリアしているので、登録候補語「辞表」の品詞属性を名詞として登録確定語とし、確信度を１ポイント加算する。

或いは本実施形態では、ヲ格連用修飾関係にある「書く」、「受け入れる」、「入れる」と同じ係り受け関係にある自立語「新聞」「手紙」「辞表」「荷物」「手紙」サ変名詞「記録」（これらは全て名詞）の出現頻度を、評価基準Ｂと比較すると、ヲ格連用修飾関係で受け語（「書く」「受け入れる」）の係り品詞が名詞である割合が９０％以上であるという条件をクリアしているので、登録候補語「辞表」の品詞属性を名詞として登録確定語とし、確信度を１ポイント加算する。評価基準をクリアしないときは、登録確定語とすることなく次ぎの登録候補語について同じ処理を行う。

辞書更新部9は、登録候補語の評価が終了し、確信度がユーザーの設定したしきい値n以上の登録候補語が存在するときは、その登録候補語をシステム辞書（評価結果記憶部8a）に登録しシステム辞書を更新する。本実施形態ではシステム辞書の更新は、登録が確定するとすぐに辞書登録することを基本（n=1）としたが、更に登録確定語の確信度を高めるためにユーザーの選択により評価を複数回（n）回繰返し、確信度が所定の基準を満たしたとき登録・更新することができる。

制御部10は、コンピュータのハードウエア、ソフトウエア資源により上述の各処理部が実現され、各処理が実行されるように制御する。

図８は、以上述べた各処理部が自然語辞書を自動更新する動作の手順を示すフロー図である。以下、図８を参照して自然語辞書の自動更新動作を説明する。自然語辞書自動更新装置は、動作の開始により自然言語コンテンツの入力待ち状態となり、入力部1からユーザーの任意のタイミング、予め設定された検索条件でリソース取得部2が自然言語コンテンツを取得し（S1）、テキスト部が取得されるまでこの動作を行う（S2）。テキスト部が取得されると（S2,Y）、これを一旦バッファに記憶し（S3）、言語解析部３で形態素解析、係り受け解析を全テキストについて終了するまで行い（S4,S5,S6）、解析結果を言語解析用辞書（バッファ）3aに格納する。次に、言語データ計量部4によりこの係り受け解析結果を用いて任意の単語と係り受け関係にある単語の出現頻度を、言語データのパーツ（単語、品詞等）毎に計量する（S7）。計量が終了したとき、テキストデータ構造生成部5により計量結果を用いてテキストデータ構造を生成し（S8）、このテキストデータ構造を記憶部5aに格納する（S9）。

続いて制御部10により未登録語（登録候補語）と推定属性が先頭から呼出され（S10）、テキストデータ構造検索部6がテキストデータ構造記憶部5aにアクセスすることにより登録候補語に係るテキストデータ構造が該記憶部に存在するか否かをチェックし（S11）、存在するときは（S11,Y）、テキストデータ構造の内、係り受け関係にある単語とその品詞属性並びに頻度を取得し、未登録語評価部8に渡す（S12）。なお、登録候補語の推定属性は未登録語属性推定部7により予め付与されている。

未登録語評価部8において、渡された係り受け関係にある単語とその品詞属性並びに出現頻度が評価基準をクリアするか否かが判断され（S13,S14）、クリアしている場合においては確信度ポイントを加算し（S15）、次ぎの未登録語を呼び出し、最終の未登録語に到達するまで上述の評価処理を繰返す（S16）。

最終の未登録語に到達したとき制御部10は確信度ポイントがn以上の登録候補語の登録を行うため、再び登録候補語を呼び出し（S17）、確信度ポイントがn以上の登録候補語か否かをチェックする（S18）。確信度ポイントがn以上の登録候補語のときはその登録候補語をシステム辞書に登録し辞書を更新し（S19,S20）、初期の入力待ち状態に移動する。確信度ポイントがn以上の登録候補語が存在しないとき（S18,N）、初期の入力待ち状態に戻る。

以上述べた自然語辞書の自動更新を実行させるために、前記処理手順を汎用のプログラム言語によりコンピュータプログラムとして記述し、かつ、このプログラムをフレキシブルディスク、CD−ROM、DVD-ROM、MO等の任意の記録媒体に記録し、これを読み取らせることで本発明に係る自然語辞書の自動更新を容易に実施することができる。本プログラムは、記録媒体に記録する以外に、インターネット、イントラネット等の任意のネットワークを介して、文書処理装置等のコンピュータに直接読み取らせることも可能である。

以上のように本発明に係る自然語辞書更新装置は、文書処理装置や画像形成装置等が備える電子辞書データベースの更新において有用であり、特に信頼度の高い登録語の電子辞書データベースの更新に用いるのに適している。

本発明に係る自然語辞書を更新する概念の説明図である。係り単語と受け単語の関係の例を示す図である。本発明に係る自然語辞書更新装置を実現する処理部構成のブロック図である。変換されるテキストデータの言語要素の例を示す図である。テキストデータ構造管理情報の例を示す図である。係り受け解析と計量の結果に基く係り受け関係のテキストデータ構造情報を示す図である。評価基準の例を示す図である。自然語辞書を自動更新する動作のフロー図である。

符号の説明

１・・入力部、２・・リソース取得部、３・・言語解析部、４・・言語データ計量部、５・・テキストデータ構造生成部、６・・テキストデータ構造検索部、７・・未登録語属性推定部、８・・未登録語評価部、９・・辞書更新部、１０・・制御部。

Claims

品詞属性が仮付与された自然言語の登録候補語を有する辞書の前記登録候補語を登録語として更新する手段を備えた自然語辞書更新装置において、
自然言語コンテンツを取得する手段と、
取得された自然言語コンテンツからテキストデータを抽出する手段と、
抽出されたテキストデータの自立語毎に、品詞属性と他の自立語との係り受け関係を解析する手段と、
前記解析する手段にて解析された、当該自立語と係り受け関係を有する他の自立語の出現頻度を計量する手段と、
当該自立語と、品詞属性と出現頻度が付与された当該自立語と係り受け関係を有する他の自立語との係り受け関係を示すテキストデータ構造情報を生成する手段と、
前記生成する手段にて生成されたテキストデータ構造情報と、評価基準とを記憶する手段と、
登録候補語に係るテキストデータ構造情報を前記記憶手段から読み出すことで取得する手段と、
前記記憶する手段から評価基準を読み出して、前記取得する手段にて取得されたテキストデータ構造情報が前記評価基準を満たすか否かを評価する手段と、
前記評価する手段にて、評価基準を満たすとの評価が得られたとき、前記登録候補語を登録語として更新する手段と、
を備えたことを特徴とする自然語辞書更新装置。
請求項１記載の自然語辞書更新装置において、
前記自然言語コンテンツを取得する手段は、予め設定された検索条件によりインターネット回線を通して常時更新されるコーパスから自然言語コンテンツを取得することを特徴とする自然語辞書更新装置。
請求項１又は２記載の自然語辞書更新装置において、
前記取得されたテキストデータ構造情報が前記評価基準を満たすか否かを評価する手段は、当該自立語と係り受け関係にある他の自立語とその品詞属性及び出現頻度、又は当該自立語と係り受け関係にある他の自立語と、該自立語と同じ係り受け関係にあるその他の自立語と、その品詞属性及び出現頻度を前記記憶する手段から読み出した評価基準と比較して、テキストデータ構造情報が前記評価基準を満たしているか否かを評価することを特徴とする自然語辞書更新装置。
請求項３記載の自然語辞書更新装置において、
前記評価基準を満たすとの評価が得られたとき登録候補語に係るテキストデータ構造情報の評価を繰り返し行う手段を備えたことを特徴とする自然語辞書更新装置。
請求項１乃至４のいずれか１項に記載の自然語辞書更新装置において、
前記評価基準は、単語と他の単語との係り受け関係と、単語の品詞属性と、単語の品詞属性の出現確率とを定義していることを特徴とする自然語辞書更新装置。