JP2004287710A

JP2004287710A - 言語処理システム

Info

Publication number: JP2004287710A
Application number: JP2003077593A
Authority: JP
Inventors: Katsunori Yoshiji; 克典芳地; Takeshi Nagamine; 猛志永峯; Akio Yamashita; 明男山下
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2003-03-20
Filing date: 2003-03-20
Publication date: 2004-10-14

Abstract

【課題】文書作成時に入力された文字列の定義情報を自然言語処理に利用して、高精度な自然言語処理を実現し、また、自然言語処理で参照される辞書データを特別にメンテナンスする必要なくして新語の出現に対応して更新する。
【解決手段】ユーザ入力に応じて文書を作成する文書作成部１と、文書の記述内容の自然言語処理を行う言語処理部２と、文書作成部１と言語処理部２とがそれぞれの処理で参照する共用辞書部３とを備え、文書作成部１は文書作成時にユーザから入力された文字列の品詞などの定義情報を共用辞書部３に反映させ、言語処理部２手段は共用辞書部３に反映された文字列定義情報を参照して自然言語処理を実行する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、文書作成時のユーザ操作から得られる文字列の定義情報を、文書の記述内容の自然言語処理に利用する技術に関する。
【０００２】
【従来の技術】
ワードプロセッサなどの機能を用いて行われる文書作成処理では、ユーザがキーボードやマウスなどを操作して入力した文字列をかな漢字変換や書式変換などして文書データを作成することが行われる。このような文書処理は、予め用意された辞書データを参照して行われ、例えば、かな漢字変換ではユーザが入力した文字列を辞書データを参照して漢字に変換する。
【０００３】
また、形態素解析などの自然言語処理では、文書データの内容記述を単語に分解すると同時に品詞を同定し、この解析結果を文書記述内容の認識処理などに利用できるようにする。このような自然言語処理も、種々な言語情報を含む辞書データを参照して行われる。
ここで、文書作成処理においては、ユーザ入力された文字列が辞書データに登録されていない場合、当該文字列は対応する漢字などへ自動的に変換されない。また、自然言語処理においては、解析対象の文字列が辞書データに登録されていない場合、当該文字列は未登録語として解析される。
【０００４】
日本語文章の中から未登録語を自動的に抽出して辞書データへ未登録語を登録する技術として、日本語文章を言語解析し、漢字を含む多数の単語の読み情報を記憶して辞書データに解析した単語が存在しないときには、当該単語を未登録語とする方法が提案されている（特許文献１参照。）。
【０００５】
また、辞書データへの単語登録について、ユーザが単語情報入力ウインドウに登録しようとする単語の表記や読みを入力し、単語検索メニューを選択すると、辞書データの既存単語を検索して既存単語をユーザに提示し、既存単語がユーザにより選択されると、単語情報入力ウインドウの空きフィールドに既存単語の文法情報や意味情報などの単語情報が自動入力される技術が提案されている（特許文献２参照。）。
【０００６】
【特許文献１】
特開平６−１２４５３号公報
【特許文献２】
特開平６−３５９５６号公報
【０００７】
【発明が解決しようとする課題】
現在、電子文書が生成される入り口となるかな漢字変換装置などの文書作成手段と、出口とも言うべき形態素解析装置などの言語処理手段は別々のシステムとして動作している。そのため、かな漢字変換の変換対象範囲など入力時のユーザ操作情報を言語処理手段側は知ることができない。
【０００８】
このような形態は、情報の保存の観点からは不都合な面があると考えられる。例えば、或る文書作成者が文書作成時に非常に個人的な範囲でしか通用しない単語を入力した場合、文書処理手段と言語処理手段との間が独立であると、言語処理手段はその単語の品詞や読みなどを推定しかねる場合がありユーザが望む自然言語処理を行えない場合が生ずる。
【０００９】
このような場合、その単語の認識情報についての責任の最終的な所在は入力者である文書作成者と考えるのが適切である。人対人のコミュニケーションにおいても、知らない単語を使うと「＊＊って何？」と質問される場面は良く見受けられる。単語の使用者が質問に答えられなければ、その単語についての重要な情報は対話者に分からないままである。
【００１０】
具体的には、形態素解析処理において或る文字列が辞書に登録されていない場合、その文字列の単語は未登録語として抽出される。
高度な自然言語処理を行う場合、複合語や固有名詞を認識することは重要であり、細切れの単語でなく、入力者の意図に合った意味を持った集合として抽出されることが望まれるため、従来は辞書に固有名詞を追加登録したり、形態素間の接続ルールにより一まとめにしたりしていた。しかしながら、この方法では新しく出現し続ける全ての語に対応することは難しく現実的でない。
【００１１】
本発明は上記の着想に基づき、従来のように自然言語処理の全てを言語処理手段に委ねていたために発生していた未登録語の問題を、情報保存の観点から文書作成処理と言語処理との間でユーザ入力による言語情報を共用化することにより解決することを目的としている。
なお、本発明の更なる目的は以下に説明するところにより明らかである。
【００１２】
【課題を解決するための手段】
本発明は、上記目的を達成する言語処理システム、言語処理システムをコンピュータにより実現するプログラム、これらによって実施可能な方法の形態として把握される。
本発明では、文書作成処理と自然言語処理とが共用の辞書を参照するようにし、文書作成時にユーザから入力された文字列の定義情報を取得して共用辞書に反映させることにより、ユーザが意図した文字列にかかる言語情報を自然言語処理に利用する。
【００１３】
ここで、文字列の定義情報は、例えば、文字列の区切り情報、ユーザが意識的に入力する文字列定義情報、かな漢字変換前の文字列、かな漢字変換後の表記（表層文字列）、当該文字列による単語の品詞、入力文字列（すなわち、文）中における当該変換にかかる文字列の位置、入力文字列中における当該文字列による単語と他の単語との位置関係、表記や品詞の連結規則・連結頻度、これら情報から自動的に取得される品詞や文字列接続情報等、自然言語処理において有用な言語情報であり、システム設計に応じてこれら情報のいずれを採用するかを設定すればよい。
【００１４】
また、本発明に係る言語処理システムは単独の装置構成としてもよいが、文書作成処理手段、言語処理手段、共用辞書手段を別個な装置として構成して、これらをネットワーク接続して協働させるようにしてもよい。更には、共用辞書手段を複数の文書作成手段及び言語処理手段によってアクセスされるサーバ装置として構成するようにしてもよい。
更には、複数の共用辞書手段を管理する辞書管理手段を備え、辞書管理手段により、文書作成手段又は言語処理手段を用いた複数のユーザによる処理を管理して、所定の基準に応じて各共用辞書手段の更新処理を制御するようにしてもよい。
【００１５】
また、本発明は、文書作成時に共用辞書手段の未登録語について、文書作成ユーザへ文字列定義情報を含む言語情報の入力を促すようにしてもよい。
また、本発明は、自然言語処理時に未登録語について、共有辞書手段の管理者へ文字列定義情報を含む言語情報の入力を促すようにしてもよい。
【００１６】
したがって、例えば、かな漢字変換の際に抽出できる変換前のかな文字列、変換後の漢字かな交じり文字列、変換した区間の位置情報等の文字列定義情報を利用することにより、形態素解析や複合語・固有名詞抽出などの自然言語処理を行う際に、未登録語として処理される単語の数を減らし、複合語や固有名詞など、入力者が意図した意味的まとまりで単語を認識することができる。そして、もし、単語が未定義の場合はユーザや辞書管理者に文字列定義情報の入力を促し、それを共用辞書に反映させて上記の言語処理の性能を向上することができる。
【００１７】
なお、本発明は日本語以外の言語にも適用することができ、例えば、英語文字列“ＴｒａｄｅＭａｒｋ”は略語“ＴＭ”として多用されるが、このような略語を意味や品詞を持った単語として文字列定義情報を付加して登録すれば、自然言語処理において文書データ中に一まとまりで認識された文字列“ＴＭ”があっても、これを未登録語（未知語）とせずに、一まとまりの意味や品詞を持った単語として正しく認識できる。
【００１８】
【発明の実施の形態】
日本語文書データを処理する実施例に基づいて、本発明を具体的に説明する。
図１には本発明に係る言語処理システムの一例を示してあり、この言語処理システムは、文書作成部１、言語処理部２、共有辞書部３を備えている。
本実施例では、文書作成部１で作成された文書Ｄの記述内容データを言語処理部２が自然言語処理するが、文書作成時にユーザ入力から取得した文字列定義情報を自然言語処理に利用できればよいので、言語処理部２が他の手法によって作成された文書データを自然言語処理するようにしてもよい。
【００１９】
文書作成部１は、日本語ワードプロセッサ機能を有しており、ユーザからの操作入力に応じて文書データを作成し、この際、共有辞書部３に格納された辞書データを参照して入力された文字列を漢字変換するかな漢字変換処理などを行う。
言語処理部２は、本例では文書データの文字列を単語に分解し、品詞を決定する形態素解析処理を行い、この際、共有辞書部３に格納された辞書データを参照して解析処理を行う。
【００２０】
共通辞書部３は、変換前のかな文字列による読み情報、当該かな文字列の変換後の文字列（表層文字列）、品詞などの文字列定義情報を含む辞書データをメモリに読み出し自在に格納しており、文書作成部１及び言語処理部２から参照される。
なお、文書作成部１、言語処理部２、共有辞書部３などの装置自体、或いは、下記に説明するこれら装置部１〜３が備える各機能部はそれぞれ専用装置として構成してもよいが、本例では、主要な機能部はコンピュータに本発明に係るプログラムを実行させることにより構成している。
【００２１】
ここで、図１に示す言語処理システムは、文書作成部１、言語処理部２、共有辞書部３を一体の装置として構成してもよいが、共有辞書部３をサーバ装置として構成し、文書作成部１と言語処理部２との一方或いは両方を備えたクライアント装置から共有辞書部サーバ３にアクセスして辞書データの参照更には更新を行うようにしてもよい。
【００２２】
また、図２のように、文書作成部１、言語処理部２、共有辞書部３の全て或いは一部を備えたクライアント装置４を複数設けるとともに、クライアント装置４が備える共有辞書データの更新処理を管理する辞書管理サーバ５を設け、辞書管理サーバ５が、各クライアント装置４における共有辞書データに対する言語情報の更新情報（例えば、新語の登録情報）を管理して、所定の更新回数や新語の使用頻度などといった信頼性を示す基準値をクライアント装置４からの更新情報が超える場合に、他のクライアント装置４の共有辞書データを同様に更新させるようにしてもよい。
【００２３】
図３には本実施例に係る言語処理システムの機能構成を示してある。なお、
文書作成部１は、文書作成ユーザから操作入力を受け付けるキーボードなどの入力部１０、文書作成ユーザに対して作成中の文書や後述する文字列定義情報入力ウインドウなどを表示するディスプレイを有した出力部１１を有しており、内部機能として、文書処理機能部１２、ユーザインタフェース機能部１３、辞書更新機能部１４を有している。
【００２４】
文書処理機能部１２は、ユーザ入力に応じて文書データを作成する処理を行い、この文書作成時に共有辞書部３の辞書データ３０を参照して、入力されたかな文字列を漢字に変換するかな漢字変換処理や、入力された文字列を一まとまりの語として認識する処理を行う。例えば、文字列「ミレニアム」が入力された場合、当該文字列が辞書データ３０に登録されているときには当該入力文字列を一まとまりの意味をもった語として認識する。
ユーザインタフェース機能部１３は、文書処理機能部１２による文書作成処理においてユーザ入力された文字列が辞書データ３０に未だ登録されていない場合に、ユーザに対して図４に示すような入力ウインドウを出力部１１に画面表示し、当該入力文字列の定義情報の入力を促す処理を行う。
【００２５】
辞書更新機能部１４は、入力ウインドウからユーザによって入力された文字列定義情報を共有辞書部３に反映させる処理を行う。ここで、本例では、共有辞書部３の更新機能部３１が辞書更新機能部１４から提供される文字列定義情報に基づいてメモリ３０に格納されている辞書データを更新するが、辞書更新機能部１４が当該辞書データ３０を直接的に更新処理するようにしてもよい。
したがって、文書作成処理においてユーザから入力された文字列が共有辞書に未登録である場合には、ユーザに対して当該文字列の品詞などの定義情報の入力が促され、これに応じてユーザから入力された文字列定義情報が共有辞書データ３０に更新処理で反映される。
【００２６】
言語処理部２は、言語処理機能部２０と管理者インタフェース機能部２１とを備えている。
言語処理機能部２０は、文書作成部１で作成された文書データを受け取って、共有辞書部３の辞書データ３０を参照して当該文書データに対する形態素解析処理を行う。なお、図示では、文書作成部１で作成された文書データが言語処理機能部２０に直接入力されて解析処理される態様を示しているが、他の文書作成部で作成された文書データを当該言語処理機能部２０に入力して解析処理するようにしてもよい。
【００２７】
管理者インタフェース機能部２１は、言語処理機能部２０による形態素解析処理において辞書データ３０に未だ登録されていない未登録語（未知語）を発見した場合に、共有辞書を管理する管理者の端末装置６に図４に示すと同様な入力ウインドウを画面表示させ、当該管理者に未登録語の文字列の定義情報の入力を促す処理を行う。
したがって、形態素解析処理において解析対象の文書データから共有辞書に未登録な文字列がある場合には、共有辞書を管理するものに対して当該文字列の品詞などの定義情報の入力が促され、これに応じて管理者端末６から管理者によって入力された文字列定義情報が共有辞書データ３０に更新処理で反映される。
【００２８】
次に、上記構成の言語処理システムによる処理動作を説明する。
まず、入力部１０から文書作成ユーザによって読みに該当する文字列入力が入力されると、文書処理機能部１２が共有辞書データ３０を参照しながら当該入力文字列を該当する漢字への変換や語としての認識をして文書データを作成して行く。例えば、「とっきょ」という文字列が入力された場合には、共有辞書データ３０に登録されている当該文字列に該当する漢字「特許」に変換して文書データが作成される。
【００２９】
そして、この文書作成処理で、入力文字列に該当する漢字や語が共有辞書データ３０に登録されておらず、未登録語とされた場合には、ユーザインタフェース機能部１３が出力部１１に図４に示すような入力ウインドウを表示して文字列の定義情報の入力を促す。
図４には未登録語を定義する入力ウインドウを示してあり、入力文字列「ミレニアム」が辞書データ３０に未だ登録されていない場合には、欄７１に入力文字列を表示するとともに欄７２にその読みを表示し、欄７３に当該文字列の定義情報である品詞をユーザに指定させる。
【００３０】
そして、品詞指定欄７３にユーザが入力部１０を操作して品詞情報を入力し、「ＯＫ」ボタン７４を押すと、辞書更新機能部１４が当該入力文字列の定義情報を共有辞書部３に提供し、更新機能部３１が辞書データ３０に当該入力文字列に関する言語情報を登録する更新処理を行う。
【００３１】
例えば、図５に示すように、未登録語である入力文字列「ミレニアム」はその読み「みれにあむ」、ユーザ入力された定義情報（本例では、品詞）「名詞」と対応付けて辞書データ３０に登録される。したがって、文書作成ユーザが使用する未登録語は文書作成作業においてその定義情報が入力され、定義語として辞書データ３０に登録される。
なお、辞書データ３０には各登録語や表記・品詞の連結規則などの文脈情報や使用頻度情報なども設定され、かな漢字変換などにおいては、これらの情報に基づいて変換候補が優先順位付けしてユーザに提示される。
【００３２】
なお、本例では辞書データを介して文字列定義情報を言語処理部２で利用するようにしているが、文書作成部１で入力された文字列及びその定義情報を言語処理部２に直接提供して、これを利用して自然言語処理を行うことも可能である。
【００３３】
作成された文書データが言語処理部２に入力されると、言語処理機能部２０が当該文書データに対して辞書データ３０を参照して形態素解析する。
そして、この形態素解析処理で、解析対象の文字列に該当する語が共有辞書データ３０に登録されていない場合には、管理者インタフェース機能部２１が管理者端末６に図４に示すような入力ウインドウを表示して文字列の定義情報の入力を促す。なお、文書作成部１による文書データの作成と言語処理部２による自然言語処理とを一連で行う場合には管理者による定義情報の入力はあまり想定されないが、種々なユーザによって作成された文書データを自然言語処理する場合には管理者による定義情報の入力は必要性が高くなる。
【００３４】
したがって、未登録語は文書作成時に既に辞書データ３０に登録されているため、或いは、管理者によって辞書データ３０に登録されるため、形態素解析によって未登録語（未知語）のない高精度な解析結果が得られる。例えば、図６（ａ）に示すような文書データを形態素解析した場合に、当該文書データ中の文字列「ＸＹＺ」や「ＡＳＩＣ」が辞書データ３０に登録されていないときには、これら文字列「ＸＹＺ」や「ＡＳＩＣ」は未知語とされて同図（ｂ）に示すような形態素解析結果が出力されるが、上記の処理によって、これら文字列「ＸＹＺ」や「ＡＳＩＣ」はユーザや管理者が設定した品詞情報で特定される語として解析される。
【００３５】
【発明の効果】
以上説明したように、本発明によると、文書作成時に入力された文字列の定義情報を自然言語処理に利用するようにしたため、高精度な自然言語処理を実現することができる。また、自然言語処理で参照される辞書データを特別にメンテナンスする必要なくして、新語の出現に対応して更新することができる。
【図面の簡単な説明】
【図１】本発明の一例に係る言語処理システムの構成図である。
【図２】本発明の一例に係る言語処理システムの構成図である。
【図３】本発明の一例に係る言語処理システムの機能構成図である。
【図４】本発明の一例に係る文字列定義情報の入力ウインドウを示す図である。
【図５】本発明の一例に係る辞書データを説明する図である。
【図６】文書と形態素解析結果の一例を示す図である。
【符号の説明】
１：文書作成部、２：言語処理部、
３：共有辞書部、５：辞書管理サーバ、
６：管理者端末、１０；入力手段、
１１：出力手段、１２：文書処理機能部、
１３：ユーザインタフェース機能部、１４：辞書更新機能部、
２０：言語処理機能部、２１：管理者インタフェース機能部、
３０：辞書データ、３１：更新機能部、

Claims

ユーザ入力に応じて文書を作成する文書作成手段と、文書の記述内容の自然言語処理を行う言語処理手段とを備えた言語システムであって、
文書作成手段と言語処理手段とが参照する共用辞書手段を備え、
文書作成手段は文書作成時にユーザから入力された文字列の定義情報を共用辞書手段に反映させる更新機能を有し、
言語処理手段は共用辞書手段に反映された文字列定義情報を参照して自然言語処理を実行することを特徴とする言語処理システム。
請求項１に記載の言語処理システムにおいて、
共用辞書手段は複数の文書作成手段及び言語処理手段によってアクセスされるサーバ装置として構成されていることを特徴とする言語処理システム。
請求項１又は請求項２に記載の言語処理システムにおいて、
複数の共用辞書手段を管理する辞書管理手段を備え、
辞書管理手段は、文書作成手段又は言語処理手段を用いた複数のユーザによる処理を管理して、所定の基準に応じて各共用辞書手段の更新処理を制御することを特徴とする言語処理システム。
請求項１乃至請求項３のいずれか１項に記載の言語処理システムにおいて、
文書作成手段は、文書作成時に共用辞書手段の未登録語について、ユーザへ文字列定義情報を含む言語情報の入力を促すインタフェース機能を有することを特徴とする言語処理システム。
請求項１乃至請求項４のいずれか１項に記載の言語処理システムにおいて、
言語処理手段は、自然言語処理時に未登録語について、共有辞書手段の管理者へ文字列定義情報を含む言語情報の入力を促すインタフェース機能を有することを特徴とする言語処理システム。
辞書データを参照する言語処理をコンピュータにより実施するプログラムであって、
ユーザ入力に応じて前記辞書データを参照して文書を作成する文書作成機能と、
前記辞書データを参照して文書の記述内容の自然言語処理を行う言語処理機能と、
文書作成時にユーザから入力された文字列の定義情報を前記辞書データに反映させる更新機能と、をコンピュータに実現することを特徴とするプログラム。
請求項６に記載のプログラムにおいて、
文書作成時に前記辞書データの未登録語について、ユーザへ文字列定義情報を含む言語情報の入力を促すインタフェース機能を、更にコンピュータに実現することを特徴とするプログラム。
請求項６又は請求項７に記載のプログラムにおいて、
自然言語処理時に前記辞書データの未登録語について、辞書データの管理者へ文字列定義情報を含む言語情報の入力を促すインタフェース機能を、更にコンピュータに実現することを特徴とするプログラム。
文書作成時に取得可能な文字列定義情報を自然言語処理に利用する言語処理方法であって、
ユーザ入力に応じて行う文書作成処理時にユーザから入力された文字列の定義情報を取得し、
取得した文字列定義情報を辞書データに反映させ、
当該辞書データを参照して文書の記述内容の自然言語処理を行うことを特徴とする方法。
請求項９に記載の方法において、
文書作成は前記辞書データを参照して行い、文書作成時に当該辞書データの未登録語について、ユーザへ文字列定義情報を含む言語情報の入力を促すことを特徴とする方法。
請求項９又は請求項１０に記載の方法において、
自然言語処理時に前記辞書データの未登録語について、辞書データの管理者へ文字列定義情報を含む言語情報の入力を促すことを特徴とする方法。