JP2002157241A

JP2002157241A - 辞書作成装置

Info

Publication number: JP2002157241A
Application number: JP2001163269A
Authority: JP
Inventors: Shinichiro Nishizawa; 信一郎西澤; Shinichi Nojima; 伸一野島; Sadamichi Matsumoto; 定道松本; Minoru Wakatsuki; 実若月; Osamu Ota; 修太田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2000-09-06
Filing date: 2001-05-30
Publication date: 2002-05-31

Abstract

(57)【要約】【課題】複数の名詞が連結している複合名詞や言い回
しのような連結語句を取り出して、読みを付して辞書を
作成することができるようにすること。【解決手段】既存の文書１を解析し、連続する形態素
の品詞情報を基に、所定の連結条件に合致する連結語句
（複数の名詞が連結している複合名詞、名詞句、動詞句
等）を取り出す。そして、取り出した連結語句に読みを
付し、上記連結語句とその読みの組み合わせを記録する
ことにより辞書３を作成する。上記読みとしては、取り
出した連結語句の全体読みに加えて、その一部の読みを
付与することができる。また、上記辞書作成処理は、文
書を開くとき、あるいは、タイマやフックで呼び出さ
れ、指定された文書の辞書を作成する。また、ファイル
属性に応じて登録辞書を振り分けたり、クライアントに
共通のフォルダの文書から単語を抽出し、クライアント
の辞書を自動更新することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ワードプロセッサ
やコンピューターで日本語入力を行う時に使用する、か
な漢字変換システム、あるいは日本語入力補助システム
等で使用される辞書を作成する辞書作成装置に関する。

【０００２】

【従来の技術】従来、かな漢字変換システムの辞書デー
タベース（以下、単に辞書という）には出荷時に決めら
れた単語だけが入っており、実際に使用するにしたがっ
て学習効果が現れたり、変換できない単語は使用者が逐
一単語登録していた。あるいは、日本語入力補助システ
ムにおいては、あらかじめデータベースに管理者が登録
しておく、または、使用していくにしたがってデータベ
ースに追加されていくようになっていた。これに対し、
文書を解析して、辞書に登録されていない単語を日本語
入力装置の辞書に登録する機能を備えたものも存在す
る。しかし、従来のものは、例えば、辞書に登録されて
いない名詞的な語を登録するものであり、登録される単
語の質や、読みの付け方などにおいて、その登録後の日
本語入力作業を向上させるほど満足のいくものではなか
った。

【０００３】

【発明が解決しようとする課題】従来の技術では、過去
に作成した大量の文書と、日本語入力装置の辞書の間に
は関連がないため、それぞれ別個に保守する必要があ
り、かかるコストが多くなるという問題があった。ま
た、使用する日本語入力装置を変更すると、その都度辞
書の作り直しが必要であった。一方、文書を解析して、
日本語入力装置の辞書に登録するものでは、次のような
問題があった。 (1) 登録できるのは、「接頭語＋名詞」、「名詞＋接尾
語」のような、単純な構成の単語であり、複数の名詞が
連結している複合名詞や、言い回しのような語など、文
字数が多くなりがちな構成の単語は登録の対象とならな
かった。 (2) 登録する単語には、単語全体の読みしかつけられな
かった。一般に、使用者がよく行う“「日本語入力補助
システム」を「にほん」で変換できるような読みを付け
て登録する”類のことはできなかった。また、従来のも
のでは、辞書作成を行う際、ユーザがその都度、辞書作
成処理を呼び出す必要があり、操作性において満足のい
くものではなかった。さらに、従来のものでは、単語を
登録する先の辞書が一つだけの場合が多く、単語収集を
自動実行し、簡単な操作で、あるいは自動的に、目的別
あるいは分野別に辞書を作成することはできなかった。
なお、従来でも複数の辞書を持つ機能も存在するが、辞
書の切替えは、手作業で行う必要があり、操作が煩雑で
満足いくものではなかった。また、従来においては、ク
ライアント毎に辞書を装備しており、例えば同一部門、
同一グループ等で作成する文書の用語の統一が図れない
といった問題があった。このため、例えば用語集等を作
成し、用語の統一を図る必要があった。なお、サーバ／
クライアントシステムにおいて、辞書管理者がマスター
辞書を管理し、作成した辞書更新データを各クライアン
トで取り込むようにすれば、用語の統一等を図ることが
可能であるが、このためにはマスター辞書を管理する辞
書管理者が必要となる。本発明は上記事情に鑑みなされ
たものであって、本発明の第１の目的は、比較的文字数
の多い連結語句を取り出して辞書を作成することがで
き、また、連結語句の一部の読みを付与した辞書を作成
することができる辞書作成装置を提供することである。
本発明の第２の目的は、辞書作成のための格別のユーザ
操作をすることなく、辞書作成を行うことができる辞書
作成装置を提供することである。本発明の第３の目的
は、目的別、分野別等の辞書を簡単な操作でもしくは自
動的に作成できるようにすることである。本発明の第４
の目的は、辞書管理者等を置くことなく、同一部門、同
一グループ等で使用する辞書を自動的に更新し、共通化
できるようにすることである。

【０００４】

【課題を解決するための手段】図１は本発明の概要を示
す図である。同図において、１は辞書作成の対象となる
既存の文書、２は本発明の辞書作成装置、３は作成され
た辞書である。図１に示すように本発明においては、次
のようにして前記課題を解決する。（１）辞書作成装置２は、既存の文書１を解析し、連続
する形態素の品詞情報を基に、所定の連結条件に合致す
る連結語句を取り出す。ここで、連結語句とは、例え
ば、「日本語処理装置」のような複数の名詞が連結して
いる複合名詞や「美しい日本語」のように形容詞により
修飾された名詞句や、「話しましょう」「決めさせる」
等の動詞句のように複数の単語が連結して、あるひとつ
の意味または概念を表す連結語もしくは連結句である。
そして、取り出した連結語句に読みを付し、上記連結語
句とその読みの組み合わせを記録することにより辞書３
を作成する。上記読みとしては、取り出した連結語句の
全体読みに加えて、その一部の読みを付与することもで
きる。例えば、図１に示すように、辞書作成の対象とな
る文書が「美しい日本語を話しましょう。」の場合、こ
の文書から同図に示すように「美しい日本語」、「美し
い日本語を」、「話しましょう」という連結語句が取り
出される。これらの連結語句に読みを付すと、例えば、
「美しい日本語」の場合、「うつくしいにほんご」（全
体読み）、「うつくしい」（部分読み）の読みが付され
る。これらから同図に示すような辞書が作成される。本
発明においては、上記のように比較的文字数の多い連結
語句を取り出して辞書を作成することができるので、連
結語句を含む辞書を従来より容易に、簡単に、かつ高速
に行うことができ、辞書の保守にかかるコストを軽減す
ることができる。また、連結語句を辞書に登録すること
ができるので、文書作成にかかる時間を短縮することが
できる。さらに、一部の読みを付与した辞書を作成すれ
ば、短い読みを入力するだけで、連結語句を変換できる
ようになり、日本語を入力する場面で、使用者の手間を
軽減することができる。（２）文書を開くとき、あるいは、電子メールの返信を
書くなど既存の文書を基にした作業が指示された際に、
既存の文書１を解析して、単語もしくは連結語句を取り
出し、単語もしくは連結語句に適切な読みを付して、そ
の組み合わせを記録することにより辞書を作成する。上
記のようなタイミングで、既存の文書１を解析して、辞
書を作成するようにすることにより、ユーザが辞書作成
処理を起動するための操作を行うことなく辞書を作成す
ることができ、操作性を向上させることができる。（３）所定のタイミングで共有フォルダに格納された監
視対象となる文書を解析して、単語もしくは連結語句を
取り出し、単語もしくは連結語句に適切な読みを付し
て、その組み合わせを記録することにより辞書を作成／
更新する。上記のように共有フォルダに格納された文書
を解析して、辞書を自動的に作成／更新することによ
り、辞書管理者を置くことなく、フォルダを共有するコ
ンピュータの利用者が共通の辞書を使用して文書を作成
することができ、用語の統一等を容易に図ることができ
る。（４）既存の文書を解析して、単語もしくは連結語句を
取り出し、上記文書のファイル属性に応じて振り分け先
の辞書を決定し、単語もしくは連結語句に適切な読みを
付して、その組み合わせを、上記振り分け先の辞書に記
録することにより辞書を作成／更新する。上記のように
文書のファイル属性に応じて振り分け先の辞書を決定
し、文書から取り出された単語もしくは連結語句を辞書
に記録することにより、自動的に目的別、分野別等の辞
書を作成／更新することができる。（５）本発明は、次のように構成することもできる。連結語句の出現回数に基づき、使用頻度の高いもの
を選択して辞書作成する。出現回数の多い連結語句が、辞書内での優先順位の
上位になるように辞書を作成する。使用頻度が低くても、特定の品詞条件を満たす連結
句を選抜して辞書を作成する。上記〜のように構成
することにより、ユーザがよく利用する連結語句、ある
いは特定の品詞条件を満たす連結語句が優先的に出てく
るような辞書を作成することができる。連結語句の出現回数を計数するに際し、動詞、形容
詞などの用言が中心となる連結語句の場合、その活用語
幹で出現回数を計数する。用言が中心となる連結語句に
ついて、その活用語幹で出現回数を計数することによ
り、活用語幹が同じであれば、活用語尾が変わっても同
じ語句として出現回数を計数することができ、用言につ
いての出現回数を適切に計数することができる。文書を開くとき、あるいは、電子メールの返信を書
くなど既存の文書を基にした作業を行う際に、既存の文
書を解析して辞書を作成した後、文書の編集を終了する
時に、作成した辞書を破棄する。上記のように編集終了
後、辞書を破棄することにより、ユーザが辞書を削除す
る等の操作をする必要がなく、辞書管理が容易となる。
また、記憶装置内の辞書の占める領域が知らぬまに膨大
になるといった問題を防ぐこともできる。定期的に、あるいは外的要因による割り込みによっ
て、特定のファイルを自動的に解析し、単語もしくは連
結語句を取り出す手段と、単語もしくは連結語句に読み
を付す手段とを備え、上記単語もしくは連結語句と、そ
の読みの組み合わせを記録することにより辞書を作成す
る。上記のように構成することにより、ユーザが辞書作
成処理を起動するための操作を行うことなく辞書を作成
することができ操作性を向上させることができる。ユーザの操作の対象となっている文書中から単語も
しくは連結語句を抽出し、所定のタイミングで、収集し
た単語もしくは連結語句を目的別、分野別等の辞書に登
録することにより、目的別、分野別等の辞書を作成／更
新する。上記のように構成することにより、単語もしく
は連結語句を自動収集して、目的別、分野別等の辞書を
作成／更新することができる。

【０００５】

【発明の実施の形態】図２は本発明が適用されるシステ
ムの構成例を示す図である。本発明は、同図に示すよう
に、マイクロ処理装置（ＭＰＵ）１１、主記憶装置１
２、補助記憶装置１３、キーボード等の入力装置１４、
ディスプレイ等の表示装置１５、通信インタフェース１
６等を備えた通常の計算機システムや専用のワープロ機
等により実現することができ、上記補助記憶装置１３の
プログラム部に後述する文書解析部、形態素解析部、辞
書作成部等として機能させるためのプログラムが格納さ
れ、また、データ部に形態素辞書、文書ファイル等が格
納される。そして、実行時、上記プログラムおよび文書
ファイル等が主記憶装置１２に読み込まれ、本発明によ
る辞書作成処理が行われ、作成された辞書は、上記主記
憶装置１２、補助記憶装置１３等に格納される。

【０００６】図３は本発明の第１の実施例を示す概略フ
ローチャートであり、同図により本発明の第１の実施例
の処理の概要を説明する。まず、指定された解析対象と
なる文書を読み込む（ステップＳ１）。文書としては、
各種ワープロで作成された文書、テキスト、電子メール
の文書、ＷＷＷブラウザに表示されるＨＴＭＬ文書等、
各種の文書を解析対象とすることができる。次いで、本
発明の辞書作成処理を行う。ここで、ユーザは、登録す
る語句の種類を指定したり、読みの付け方を指定するこ
とができる。辞書作成処理においては、まず本実施例の
解析部を呼び出す（ステップＳ２）。解析部の形態素解
析処理においては、上記文書の形態素解析を行い、形態
素単位に分割された単語のリストを生成する。なお、こ
こでいう単語は後述する形態素と同じ意味で使用する。
そして、文書中に処理対象とする単語があるかを調べ
（ステップＳ３）、単語がなければ処理を終了する。単
語がある場合には、隣接する単語の品詞を調べ（ステッ
プＳ４）、その単語の組み合わせが特定の組み合わせで
あるかを調べる（ステップＳ５）すなわち、単語の組み
合わせが所定の連結条件を満たしているか（具体的には
後述するように予め定められた抽出パターンに合致する
か否か）を調べる。特定の組み合わせでなければステッ
プＳ３に戻る。また、単語の組み合わせが特定の組み合
わせの場合には、表記を連結し、連結語句を作成する
（ステップＳ６）。すなわち、文書から意味（概念）と
して１つのものを表していると思われる一続きの語句の
並びを取り出す。連結語句としては、例えば複数の名詞
が連結している複合名詞、形容詞で修飾された名詞句、
動詞句等のような連結語句が取り出される。これら取り
出す語句の種類は前記したようにユーザが指定すること
ができる。次いで、上記連結語句の読みを作る（ステッ
プＳ７）。取り出した連結語句の読み文字列としては、
全体に対応する読みの他に、連結語句の先頭の一部の読
みを付ける。付ける読みは、例えば、ユーザが、例えば
かな漢字変換の読みとして使うのに自然な読みとなるよ
うにする。次いで、取り出した連結語句について、出現
回数を基に絞り込み、出現頻度が高い連結語句を選択し
て読みと表記の組み合わせで辞書に登録する（ステップ
Ｓ８）。

【０００７】図４、図５、図６、図７は本実施例の処理
の詳細を示すフローチャートであり、以下、図４〜図７
により図３のステップＳ２〜Ｓ８の処理について説明す
る。なお、図５は図４の（ａ）の部分（形態素の並びを
解析して、抽出する範囲等を決める）の処理を示すフロ
ーチャート、図６は、図５の（イ）の部分（スタックの
内容を連結語句として登録する）の処理を示すフローチ
ャート、また図７は図４の（ｂ）の部分（出現回数によ
って抽出した連結語句を選別し、また、連結語句の先頭
部分から短い読みを作成する）の処理を示すフローチャ
ートである。また、図４において、−のループは１
文書毎に処理を繰り返すループ、−はある文書中の
１文毎に処理を繰り返すループ、−はある文の形態
素毎に処理を繰り返すループである。

【０００８】図４において、ステップＳ１において文書
毎のループを開始し、ステップＳ２において、１文毎の
ループを開始する。つぎに、ステップＳ３において、単
語（形態素）を抽出するために形態素解析処理を行い、
上記文を形態素の単位まで分解する。形態素とは、文を
構成する最小の単位のことである。一般的に「単語」と
いわれる単位に非常に近いが、用言（動詞、形容詞、形
容動詞）では、語幹と活用語尾が別形態素として扱われ
るのが普通なので、一般に単語と考えられる単位よりも
細かくなる。文を形態素に分解する処理を形態素解析と
いう。形態素解析を行うことにより、例えば下記の文は
次のような形態素に分解される。また、形態素解析によ
り、各形態素について、表記文字列、読み文字列、およ
び品詞コードをセットにした形態素情報が得られる。・解析対象となる文：「美しい日本語を使っていきまし
ょう」・解析結果：「美し／い／日本語／を／使／っ／てい／
き／ましょ／う」形態素解析手法としては従来から種々の手法が提案され
ており（例えば、特開昭６１−２０４７７１号公報、特
開平９−１４６９５２号公報等参照）、本発明の形態素
解析手法は、従来から知られているものを用いることが
できる。

【０００９】次いで、ステップＳ４〜Ｓ６において形態
素毎の処理を行う。形態素毎の処理においては、形態素
の並びを解析して、抽出する範囲等を決めて連結語句を
取り出し、表記文字列、読み文字列、および品詞情報等
で構成される連結語句情報を記録する（ステップＳ４〜
Ｓ６の処理については図５で詳述する）。上記のように
して１文の処理が終わったら、ステップＳ７において１
文毎のループを終了し、次の文について同様の処理を行
う。文書中の各文について上記処理が終わったら、ステ
ップＳ８において文書毎のループを終了し、ステップＳ
９において出現回数による連結語句の選別と、読みの作
成を行う（ステップＳ９の処理については図７で詳述す
る）。すなわち、出現回数によって、抽出した連結語句
を選別するとともに、連結語句の先頭部分（もしくは連
結語句の一部）から短い読みを作成する。そして、読み
と表記の組み合わせで辞書に登録する。

【００１０】上記ステップＳ４〜Ｓ６〔図４の（ａ）の
部分：形態素毎に繰り返すループ〕の処理を図５、図６
のフローチャートにより説明する。図５のステップＳ１
において、形態素を一つ取り出して、現在の形態素が抽
出パターンに含まれているかを調べる。抽出パターンと
は、予め、意味（概念）として一つのものを表している
連結語句が、どのような形態素の並びとなっているかを
連結語句の性質（種類）ごとに定めたパターンである。
図５のステップＳ１においては、該抽出パターンと、文
中の着目している形態素の前後の形態素の並びとを比較
して、連結語句として抽出すべき部分を発見する。な
お、ここでは、解析対象となる日本語の文が、文法的に
ある程度正しいことを前提とする。

【００１１】図８に、いわゆる「名詞句」と「動詞句」
を抽出するために使用するパターンの例を示す。図８に
おいて、パターン中で、大括弧でくくられている部分
は、それがあってもなくても良いことを表す。また、中
括弧でくくられている部分は、括弧の中の形態素のいず
れかが１個存在することを表す。また、小括弧でくくら
れている部分は、括弧の中の形態素が、繰り返しも含め
て一つ以上存在することを表す。また、プラス記号はそ
の左右のパターンが、その順番で存在することを示す。
例えば、図８中の「美しい日本語を」、「開発支援セン
ター」、「和やかな教育講座」は名詞句の抽出パターン
に合致し、「印刷してください」、「決めさせていただ
きます」は動詞句の抽出パターンに合致する。なお、抽
出パターンとしては、上記パターンに限られず、例え
ば、括弧でかこまれた語句を抽出パターンとする等、種
々の抽出パターンを設定することができる。

【００１２】図５に戻り、現在の形態素が上記抽出パタ
ーンに含まれている場合には、ステップＳ２にいき、現
段階で、スタックに作成されている形態素列を連結語句
として記録すべきかを判定する。スタックは、抽出パタ
ーンに含まれる形態素列を記録するためのものであり、
抽出する連結語句の性質毎に、互いに独立な別のものが
用意され、図５の”※”印の部分の処理は、それぞれの
連結語句の性質毎に独立して処理される。例えば抽出パ
ターンが名詞句と動詞句の場合には、図９に示すよう
に、名詞句用のスタックと動詞句用のスタックが用意さ
れ、名詞句と動詞句が別々に処理される。上記スタック
には、抽出パターンに含まれる形態素について、表記文
字列、読み文字列、および品詞コードをセットした形態
素情報として記録される。これらの情報は形態素解析の
結果を利用する。なお、本例では、同一表記・同一品詞
で、複数の読みを持つ形態素の場合、読み文字列は、形
態素解析が最優先の解とする読みを使用する。

【００１３】図５に戻り、現在の形態素が上記抽出パタ
ーンに含まれている場合には、ステップＳ２に行き、現
段階でスタックに作成されている形態素列を連結語句と
して記録すべきかを判定する。そして、スタックに作成
されている形態素列を連結語句として記録しない場合
（スタック中の形態素列がまだ連結語句を構成していな
い場合）には、ステップＳ３に行き、後述するように現
在の形態素をスタックに入れる。また、スタックに作成
されている形態素列を連結語句として記録する場合に
は、ステップＳ４に行きスタックの内容を連結語句とし
て記録する（詳細の処理は後述する図６で説明する）。
スタックに作成されている形態素列を連結語句として記
録するタイミングは、例えば、句読点等の抽出パターン
に含まれない形態素が出現したり、予め定められた助詞
が出現した場合等であり、このタイミングで上記スタッ
クの内容を取り出し、先頭から全てを連結して、一つの
連結語句情報を作成し記録する。その際、後述するよう
に連結語句情報の記録先で出現回数を１回増やす。連結
語句情報は、形態素解析情報と同じく、表記文字列、読
み文字列、および品詞情報で構成される。表記文字列
は、スタックに入っていた各形態素情報の、表記文字列
を、形態素境界マークを入れながら連結して作成する。
読み文字列も同様である。形態素境界マークは、後で連
結語句の先頭部分から短い読みを作成する時に、読みを
切る位置を決定するために用いるものであり、図１０に
その例を示す。図１０に示すように、例えばスタック内
の形態素情報が「開発」（かいはつ：名詞）、「支援」
（しえん：名詞）、「センター」（せんたー：名詞）の
場合、各形態素の間に例えば黒四角で表される形態素境
界マークを入れる。

【００１４】次いで、図５のステップＳ３において、現
在の形態素をスタックに入れる。現在の形態素をスタッ
クに入れるには、通常、処理対象としているスタックの
末尾から、着目している形態素の情報を格納する。ただ
し、名詞句の抽出パターン処理中の次の場合には、形態
素情報を加工してから、スタックへ格納する。・現在の形態素が形容詞の連体語尾で、直前の形態素が
形容詞語幹だった場合。この場合は、直前の形態素と現在の形態素を連結して、
語幹と語尾を一つにまとめる。また、現在の形態素の表
記文字列と読み文字列の末尾に、連体修飾境界マークを
連結して、修飾部と被修飾部との境界を明示する。例え
ば、「美しい」を形態素解析すると「美し」と「い」に
分解される。ここで、図１１（ａ）に示すように、現在
スタックに「美し」があって、「い」に着目していると
すると、「美し」をスタックから取り出して、「い」と
連結し、末尾に、例えば黒三角で示される連体修飾境界
マークを連結する。そして、連結後の形態素情報をスタ
ックに入れる。したがって「美しい」までを解析した時
のスタックの内容は図１１（ｂ）に示すようになる。

【００１５】・現在の形態素が、形容動詞の連体語尾
で、直前の形態素が形容動詞語幹だった場合。この場合は、現在の形態素の表記文字列と読み文字列の
末尾に、連体修飾境界マークを連結して、修飾部と被修
飾部との境界を明示する。例えば、「和やかな」を形態
素解析すると、「和やか」と「な」に分解される。ここ
で、図１２（ａ）に示すように現在スタックに「和や
か」があって、「な」に着目しているとすると、「な」
の末尾に、例えば黒三角で示される連体修飾境界マーク
を連結し、スタックに入れる。したがって、「和やか
な」までを解析した時のスタックの内容は図１２（ｂ）
に示すようになる。

【００１６】・現在の形態素が、助詞（格助詞）で、ス
タックに、形態素列が作成されている場合。この場合は、現在の形態素の表記文字列と読み文字列の
先頭に、格助詞境界マークを置いて、名詞句本体と格助
詞との境界を明示する。例えば、「日本語を」を形態素
解析すると、「日本語」と「を」に分解される。ここ
で、図１３（ａ）に示すように、現在スタックに「日本
語」があって、「を」に着目しているとすると、図１３
（ｂ）に示すように、「を」の先頭に、例えば黒丸で示
される格助詞境界マークを連結し、スタックに入れる。
したがって、「日本語を」までを解析した時のスタック
の内容は図１３（ｃ）に示すようになる。

【００１７】また、動詞句の抽出パターン処理中の次の
場合にも、形態素情報を加工してからスタックへ入れ
る。・現在の形態素が、最初のサ変名詞だった場合。・現在の形態素が、動詞の終止・連体語尾だった場合。これらの場合、現在の形態素の表記文字列と読み文字列
の末尾に、例えば黒菱形で示される先頭読み境界マーク
を連結して、連結語句の先頭部分から読み文字列を作成
する際の切れ目の位置を明示する。例えば、「決めさせ
るそうだ」は、「決め／させ／る／そう／だ」と形態素
解析される。このなかで、「る」が、動詞の終止・連体
語尾である。したがって、この場合には、「る」の末尾
に、黒菱形で示される先頭読み境界マークを連結しスタ
ックに入れる。「決めさせるそうだ」までを解析した直
後の、スタックの内容は、図１４に示すようになる。

【００１８】以上のように現在の形態素をスタックに格
納したら、上記形態素毎の処理を繰り返す。また、図５
のステップＳ１において、現在の形態素が、抽出パター
ンに含まれない場合には、ステップＳ５に行き、スタッ
クに形態素列が作成されているかを調べる。スタックに
形態素列が作成されている場合には、前記したようにス
タックの内容を連結語句として記録する。また、スタッ
クに形態素列が作成されていない場合には、次の形態素
について上記処理を繰り返す。

【００１９】次に、図６により上記スタックの内容を連
結語句として記録する処理（図５のステップＳ４の処
理）の詳細について説明する。ステップＳ１において、
スタックに入っている形態素情報毎のループを開始す
る。ステップＳ２において、現在の形態素情報は適切で
あるかを判定し、適切でない場合にはループを脱出し、
記録作業を中止する。現在の形態素情報が適切な場合に
は、ステップＳ３において、連結語句情報の表記文字列
と読み文字列へ、形態素情報の表記および読みを加え
る。次いで、ステップＳ４において、前記したように連
結語句情報の表記文字列と読み文字列へ形態素境界のマ
ークを加える。図６のステップＳ５において、スタック
に入っている形態素情報毎のループを終了する。次い
で、ステップＳ６において連結語句情報を記録し、ステ
ップＳ７において、連結語句情報の記録先でその連結語
句の出現回数を１回増やし、処理を終了する。上記出現
回数の記録は、作成した連結語句情報をインデックスと
して、出現回数をその値とする連想配列（文字列をイン
デックスとした配列）を使って行う。

【００２０】図７により、前記図４のステップＳ９（出
現回数によって抽出した単語を選別し、単語の先頭部分
から短い読みを作成する）の処理について詳述する。図
７のステップＳ１において、連結語句情報の記録先に記
録されている情報全てに関するループを開始する。ステ
ップＳ２において、現在の連結語句情報の出現回数が、
ユーザ等により指定された下限値を超えているかを調べ
る。下限値を超えていなければ、ステップ５に行く。ま
た、下限値を超えている場合には、ステップＳ３におい
てよみを作成し、ステップＳ４において出現回数テーブ
ルに配置する。

【００２１】ステップＳ３のよみの作成は次のように行
われる。連結語句情報に含まれている、読み文字列か
ら、「全体読み」と「先頭部分読み」を次の手順で作成
する。・全体読みについて連結語句情報から、読み文字列を取り出す。先頭から１文字ずつ、全体読み文字列へコピーする。
このとき、形態素境界マークと先頭読み境界マークがあ
れば、それを全て削除する。・先頭部分読みについて連結語句情報から、読み文字列を取り出す。先頭から１文字ずつ、先頭部分読み文字列へコピーす
る。コピーする範囲は、動詞句の場合は、最初の先頭読
み境界マークが見つかるまでとし、それ以外の場合は、
最初の形態素境界マークが見つかるまでとする。これら
の境界マーク自体は、先頭部分読み文字列へコピーしな
い。例えば、図１５に示すように「美しい日本語を」の
場合には、全体読みが「うつくしいにほんごを」とな
り、先頭部分読みは、最初の形態素境界マーク（黒四
角）までとなるので、「うつくしい」となる。また、
「決めさせるそうだ」の場合は、全体読みが「きめさせ
るそうだ」となり、先頭部分読みは、最初の先頭読み境
界マークまでとなるので、「きめさせる」となる。

【００２２】また、ステップＳ４における出現回数テー
ブルへの配置は次のように行われる。前記連想配列の全
てのインデックスに関して、記録されている出現回数を
チェックし、例えばユーザが指定している出現回数の下
限よりも大きな値が記録されている場合、そのインデッ
クス（連結語句）を取り出し、読みを作成して、出現回
数テーブルへ配置する。出現回数テーブルは、例えば、
図１６に示すように回数と連結語句情報をリンクさせる
構造のものであり、連結語句情報は、その出現回数に従
って、テーブルの該当位置にリンクされる。そして、全
連結語句情報の処理が終わった後に、テーブルを出現回
数順に出力することで、辞書への登録順と、連結語句の
出現回数とを同期させる。全てのインデックスに対して
処理が終わった後で、出現回数テーブルを順に出力すれ
ば、抽出した連結語句を、出現回数の順に出力すること
ができる。

【００２３】図７に戻り、ステップＳ５で連結語句情報
の記録先に記録されている情報全てに関するループを終
了し、ステップＳ６で上記したように出現回数テーブル
の順に連結語句情報を出力し、ステップＳ７で連結語句
の選別と、読み作成の処理を終了する。なお、連結語句
を辞書に登録する際、出現回数の多い連結語句を優先順
位が上位になるように登録するようにしてもよい。これ
により、例えば、かな漢字変換に際し、出現回数の多い
ものから表示させることができる。また、上記説明で
は、連結語句の出現回数により連結語句を選択している
が、使用頻度が低くても、例えば特定の品詞条件を満た
す単語（例えば、固有名詞等）を含む連結語句や、ユー
ザが指定した例えば括弧でかこまれた連結語句等を選択
して辞書に登録するようにしてもよく、ユーザの指定等
により辞書登録する連結語句を適宜選定することが可能
である。例えば、使用頻度が低くても固有名詞を含む連
結語句を登録する場合には、図７のステップＳ２を、
「現在の連結語句情報の出現回数が、ユーザ等により指
定された下限値を超えているか、もしくは固有名詞を含
む連結語句であるか」という判定処理に変更すればよ
い。

【００２４】次に、「美しい日本語を話しましょう。」
という文を例として、上記処理を具体的に説明する。 (1) 形態素解析上記文を形態素解析すると、図１７(1) に示すような形
態素解析結果が得られる。次いで、図５に示した形態素
毎のループを開始する。なお、この例では、名詞句と動
詞句を抽出することとして、名詞句抽出パターン用スタ
ックと、動詞句抽出パターン用スタックを用意する。

【００２５】(2) 形態素列の解析を行う (i) まず、図１７(2)(i)に示すように形態素「美し」に
着目する。この形容詞語幹は、名詞句抽出パターンに含
まれるので、図１７(2)(i)に示すように形態素情報を名
詞句用のスタックに入れる（図５のステップＳ１→Ｓ２
→Ｓ３の処理）。動詞句用のスタックは空のままであ
る。 (ii)図１７(ii)に示すように形態素「い」に着目する。
「い」は形容詞の連体語尾で、直前が形容詞の語幹だっ
たので、２つの形態素をまとめて一つにして名詞句用の
スタックに入れる（図５のステップＳ１→Ｓ２→Ｓ３の
処理）。その際、前記したように、「美しい」の末尾に
黒三角の連体修飾境界マークを連結する。なお動詞句用
のスタックは空のままである。 (iii) 図１８(iii) に示すように形態素「日本語」に着
目する。名詞は名詞句用抽出パターンに含まれるので、
図１８(2)(iii)に示すように「日本語」の形態素情報を
名詞句用のスタックに入れる（図５のステップＳ１→Ｓ
２→Ｓ３の処理）。動詞句用のスタックは空のままであ
る。

【００２６】(vi)図１８(iv)に示すように形態素「を」
に着目する。「を」は格助詞であり格助詞は名詞句用抽
出パターンに含まれる。また、このタイミングは、スタ
ック中の形態素列を、連結語句として記録するタイミン
グなので、図１８(2)(iv) に示すように連結語句情報を
作成し、出現回数を１増やす。その際、「美しい」（末
尾に連体修飾境界マークを連結）と「日本語」の間に黒
四角の形態素境界マークを設ける。次いで格助詞「を」
を名詞句用のスタックに入れる（図５のステップＳ１→
Ｓ２→Ｓ４→Ｓ３の処理）。その際、「を」の先頭に黒
丸の格助詞境界マークを付ける。なお、動詞句用のスタ
ックは空のままである。 (v) 図１８(v) に示すように「話」という形態素に着目
する。この形態素は動詞の語幹であり、動詞の語幹は名
詞句用抽出パターンに含まれない。このタイミングは、
名詞句用のスタック中の形態素列を連結語句として記録
すべきタイミングなので、図１８(v) に示すように連結
語句情報を作成し、出現回数を１増やす。その際、「日
本語」と「を」（先頭に格助詞境界マークが付けられて
いる）の間に黒四角の形態素境界マークを設ける。ま
た、名詞句用のスタックを空にする（図５のステップＳ
１→Ｓ５→Ｓ６の処理）。動詞の語幹は、動詞句抽出パ
ターンに含まれるので、動詞句用スタックに「話」の形
態素情報を入れる（図５のステップＳ１→Ｓ２→Ｓ６の
処理）。以降、形態素「し」、「ましょ」も同様に動詞
句用のスタックに入れる。

【００２７】(vi)図１９(vi)に示すように形態素「う」
に着目する。この形態素は動詞の終止・連体語尾であ
り、動詞句用抽出パターンに含まれるので、動詞句用ス
タックに入れる。その際、「う」の末尾に黒菱形で示さ
れる先頭読み境界マークを連結しスタックに入れる。な
お、名詞句用のスタックは空のままである。 (vii) 図１９(vii) に示すように形態素「。」に着目す
る。句点「。」は、動詞句抽出パターンに含まれない。
このタイミングは、スタック中の形態素を連結語句とし
て記録するタイミングなので、図１９(vii) に示すよう
に連結語句情報を作成し、出現回数を１増やす（図５の
ステップＳ１→Ｓ５→Ｓ６の処理）。その際、「まし
ょ」と「う」の間に黒四角の形態素境界マークを設け
る。以上で形態素列全ての解析が終わったこととなる。
次に図７で説明した単語の選別と、読みの作成を行う。

【００２８】(3) 連結語句の選別と、読みの作成以上の処理により記録された連結語句情報は、「美しい
日本語」、「美しい日本語を」、「話しましょう」の３
つである。ユーザが例えば出現回数１回以上の単語を登
録するように指定していた場合、これら全てに対して読
み文字列を作成する。上記連結語句情報は図２０(3)(i)
に示すようになる。先頭部分読みは、同図に示すように
動詞句の場合、最初の先頭読み境界マーク（黒菱形）が
見つかるまでであり、名詞句等のようにそれ以外の場合
には、最初の形態素境界マーク（黒四角）が見つかるま
でである。したがって、先頭部分読みは、「美しい日本
語」、「美しい日本語を」の場合は、「うつくしい」と
なり、「話しましょう」の場合は、「はなしましょう」
となる。以上の連結語句情報を辞書に登録すると、図２
０(ii)に示すようになる。同図において、各連結語句情
報の品詞は、名詞以外については「接続なし」としてい
る。「接続なし」とした連結語句は、例えば、かな漢字
変換を行う際、よみ部分のみを入力して変換キーを押し
た時漢字に変換される。このようにすれば、例えば「う
つくしいひと」と入力して変換キーを押したとき、「美
しい日本語人」あるいは「美しい日本語を人」と変換さ
れることがない。なお、連結語句情報を辞書に登録する
際、連結語句文字列をさらに分解できないかどうかを確
認している。この例では、「美しい日本語」、「美しい
日本語を」から、前記した黒三角の連体修飾境界マー
ク、黒丸の格助詞境界マークの位置を目安として、「美
しい」「日本語」「を」という分解結果が得られる。こ
のうち、助詞「を」を除いた「美しい」「日本語」も辞
書に登録する。

【００２９】以上の説明では、「形容詞＋名詞」という
形の語句を登録する例を上げたが、他にも名詞が複数つ
ながった語句などを登録することができる。例えば、
「来春の歯科医師国家試験に向けた問題選定作業が１７
日に始まり、試験委員会が厚生省内で開かれた。」か
ら、「歯科医師国家試験（しかいしこっかしけん）」、
「問題選定作業（もんだいせんていさぎょう）」、「厚
生省内（こうせいしょうない）」、…のような語句を登
録することかできる。また、以上の説明では、「先頭部
分読み」を辞書に登録するようにする場合について説明
したが、先頭部分読みに限らず、例えば「お見舞い…」
から「お」を省いた「みまい」のように読みの一部を辞
書に登録するようにしてもよい。

【００３０】図２１は本発明の第２の実施例を示す概略
フローチャートであり、本実施例は品詞が用言（動詞、
形容詞、形容動詞）の場合、語幹のみで出現回数を計数
する場合の実施例を示している。図２１において、ま
ず、指定された解析対象となる文書を読み込む（ステッ
プＳ１）。文書としては、前記したように各種ワープロ
で作成された文書、テキスト、電子メールの文書等、各
種の文書を解析対象とすることができる。次いで、本発
明の辞書作成処理を行う。辞書作成処理においては、ま
ず、本実施例の解析部を呼び出す（ステップＳ２）。解
析部の形態素解析処理においては、上記文書の形態素解
析を行い、文節単位に分割された単語のリストを生成す
る。そして、文書中に単語があるかを調べ（ステップＳ
３）、単語がなければ処理を終了する。単語がある場合
には、その単語の組み合わせが特定の組み合わせである
かを調べる（ステップＳ４）。特定の組み合わせでなけ
ればステップＳ３に戻る。また、単語の組み合わせが特
定の組み合わせの場合には、表記を連結し、読みを作
り、連結語句を作成する（ステップＳ６，Ｓ７）。ここ
までは前記図３に示した処理と同じである。次いで、連
結語句に用言が含まれるかを調べ（ステップＳ８）、用
言が含まれていない場合には、その出現回数を計数する
（ステップＳ９）。また、用言が含まれている場合に
は、その活用語幹毎に出現回数を計数する（ステップＳ
１０）。以上の処理を繰り返し、文書から取り出した連
結語句について、出現回数を基に絞り込み、出現頻度が
高い連結語句を選択して読みと表記の組み合わせで辞書
に登録する（ステップＳ１１）。本実施例の詳細処理
は、前記図５〜図７で説明した処理と同様であり、詳細
な説明は省略するが、用言について活用語幹で出現回数
をカウントする場合には、連結語句情報の中に出現回数
をカウントするための「カウントキー文字列」を作り、
用言の場合には、そこに活用語幹の表記文字列を設定
し、それをインデックスとする連想配列を使う。これに
より、語幹部分によるカウントを行うことができる。そ
して、前記図７のステップＳ２において、出現回数が下
限を超えているかを判定する際、用言については、活用
語幹の出現回数が下限を超えているかを判定する。以上
のように本発明の実施例によれば、複数の名詞が連結し
ている複合名詞や言い回しのような、比較的文字数の多
い連結語句を取り出して辞書を作成することができる。
特に、出現回数等により辞書に登録する連結語句を選択
することにより、使用者がよく利用する複合語句が優先
的に出てくるように辞書を整備することが可能となる。

【００３１】本発明の辞書作成処理は、前記したよう
に、かな漢字変換システムあるいは日本語入力補助シス
テム等の各種システムに適用することができ、これらの
システムにおいて、本発明によれば、以下の実施例に示
すように、指定されたファイルを開いた時や電子メール
の返信を書くなど、既存文書を利用して作業を行う指示
をした時、あるいは、タイマーやフックによって処理を
開始し、辞書の作成を行うことができる。なお、ここで
のファイルは、ファイルとして存在しない、例えば単な
るメモリ上のデータを含むものである。図２２に編集対
象として指定されたファイルを開く時に、辞書作成処理
を呼び出す場合の実施例を示す。ユーザが編集対象とす
るファイルを開く指示をした際、本処理の実行が指示さ
れていると、上記のような本発明の処理によってそのフ
ァイルの文書を解析し、文書中の単語、連結語句等を取
り出す。そして、読みとともに一時辞書に登録し、一時
的に使用できる状態とする（図２２のステップＳ１→Ｓ
２→Ｓ３）。ユーザが上記文書について編集作業を行う
際には、上記辞書を使用して、変換作業等を行うことが
できる。なお、電子メールの返信の場合は、返信対象と
なる受信メールの文書を本発明の処理対象とする。ユー
ザが編集作業を行い、編集作業が終了すると、上記一時
的に作成した辞書を破棄する（図２２のステップＳ４→
Ｓ５→Ｓ６）。なお、保存が必要な場合には、ユーザの
設定等によって上記一時辞書を保存するようにしてもよ
い。上記のように、指定されたファイルを開いた時、自
動的に辞書を作成することにより、ユーザが辞書作成処
理を起動するための操作を行うことなく辞書を作成する
ことができ、操作性を向上させることができる。また、
一時辞書を作成し、編集作業が終わったら該一時辞書を
破棄することにより、ユーザが辞書を削除する等の操作
をする必要がなく、操作性を向上させることができる。
さらに、記憶装置内の辞書の占める領域が知らぬまに膨
大になることを防ぐことができる。

【００３２】図２３に、タイマーやフックによって辞書
作成処理を呼び出す場合の実施例を示す。予め辞書作成
をするファイルを指定しておく。辞書作成対象となるフ
ァイルはユーザが予め指定してもよいし、あるいは、フ
ァイルの種類（ワープロ文書、メール等）に応じてデフ
ォルトで定めておいてもよい。また、予め辞書作成の対
象となるファイルを格納するホルダを定めておき、該ホ
ルダ内のファイルについて辞書作成を行うようにしても
よい。また、ユーザ等により、予め辞書を作成する時
刻、あるいは、辞書作成処理を起動するフックを設定し
ておく。タイマーにより上記所定時刻に割り込みが入っ
たり、あるいは、例えばブラウザ、メーラ等の特定のア
プリケーションを起動した時等、上記設定されたフック
によって辞書作成処理は開始される。なお、ブラウザの
起動を本処理の開始トリガとする場合には、指定された
ＵＲＬのファイル（文書）を本発明の処理対象とする。
まず、上記指定されたファイルを検索し、当該ファイル
を読み込む（図２３のステップＳ１→Ｓ２）。次いで、
上記のような本発明の処理によって、そのファイルの文
書を解析し、ファイル中の単語、連結語句等を取り出
し、読みとともに辞書に登録する（ステップＳ３→Ｓ
４）。上記のように、タイマー、フック等により自動的
に辞書を作成することにより、ユーザが辞書作成処理を
起動するための操作を行うことなく辞書を作成すること
ができ、上記実施例と同様、操作性を向上させることが
できる。また、タイマーにより辞書作成処理を起動する
ことにより、操作中に辞書作成処理のために操作が中断
されることもない。

【００３３】以上の説明では、タイマー、フック等によ
り自動的に辞書を作成する実施例を説明したが、以下で
は、収集した単語を複数の辞書に振り分けて登録する実
施例について説明する。振り分け先の辞書は、例えば、
論文、雑誌の記事、特許、私用等の文書の種類や、技
術、法律、金融等の文書内容が属する分野、企業内にお
ける開発部、営業部等の部門、あるいは開発グループ等
毎に作成される辞書（以下では、これらをまとめて分野
別の辞書という）、あるいは、作成者や文書作成時期毎
に作成される辞書等である。まず、単語収集を自動実行
し、複数の辞書に振り分けて登録する実施例について説
明する。本実施例においては、図２４（ａ）に示すよう
に、「Ｗｅｂの閲覧」、「文書の保存・更新」、「メー
ルの受発信」等のユーザの操作に着目し、その時に操作
の対象となっている文書を監視する。そして、文書中に
現れる単語と登録辞書との差分を抽出して、該文書から
自動的に単語を収集する。この時は、ユーザには何もメ
ッセージを出さず、ユーザは「単語収集」という操作を
意識することはない。その後一定期間の経過、または、
一定量の単語が収集できたとき等の適当なタイミング
で、ユーザに対して、収集した単語をリストアップす
る。ユーザは、例えば図２４（ｂ）に示す登録画面によ
り登録する辞書を選択し、収集した単語を例えば分野別
の辞書に振り分けて登録する。図２５に本実施例の処理
フローを示す。先ず、機能停止の指示がされている場合
には、この処理を中断する。また、機能停止の指示が出
されていない場合には、監視対象としている文書をユー
ザが操作しているかを判断する（ステップＳ１，Ｓ
２）。監視対象としている文書をユーザが操作した場合
には、操作した文書を対象として、単語抽出処理を行
い、結果を抽出単語リストへ記録する（ステップＳ
３）。ついで、単語収集を中断するタイミングになる
と、登録先の辞書をユーザに選択させ、上記抽出単語リ
ストの単語をユーザが指定した辞書へ登録する。そし
て、抽出単語リストを削除する（ステップＳ４，Ｓ５，
Ｓ６，Ｓ７）。本実施例においては、上記のようにユー
ザに意識させることなく単語を自動収集し、複数の辞書
に登録することができるので、目的別の辞書を手軽に作
成し、利用することが可能となる。

【００３４】上記実施例では、ユーザが振り分け先の辞
書を指定して単語登録を行っているが、次に、文書ファ
イルの属性情報により登録辞書の自動振り分けを行って
単語登録する実施例について説明する。図２６は、辞書
の自動振り分けを含めた本実施例の全体処理を示す処理
フローである。まず、登録先辞書の自動振り分けを行う
かをユーザが指定する（ステップＳ１）。登録先の自動
振り分けを行わない場合には、前記したように通常の、
振り分けを行わない単語の抽出と、予め定められた辞書
への登録を行う（ステップＳ２）。登録先の自動振り分
けを行う場合には、登録先の振り分け方について指定す
る（ステップＳ３）。登録先の振り分けは、例えば図２
７に示すユーザインタフェースを使用して、ファイル
名、作成者、作成日等の文書ファイルの属性を指定する
ことにより行われる。登録先の振り分け方を指定したの
ち、単語抽出の対象とする文書が格納されているフォル
ダを指定する（ステップＳ４）。これにより、指定され
たフォルダの文書ファイルから単語の抽出が行われ、抽
出された単語が指定された辞書に登録される（ステップ
Ｓ５）。

【００３５】振り分け先の指定画面には、図２７に示す
ように、属性と、その属性値を示すチェック値、登録先
辞書名が表示される。図２７のインタフェースで「追
加」を押したり，任意の設定を選択して「変更」を押し
た場合は，図２８に示す画面が表示され、この画面で振
り分け方を設定する。上記画面において、各項目を次の
ように指定する。・チェック対象の属性の指定では、文書ファイルに関す
る属性のリストの中から、適当なものを選択する。属性
については、例えば図２９に示すように、ファイル名、
作成日、作成者等を対象とする。また、これ以外に、ワ
ープロ文書のプロパティとして設定可能な項目等を属性
として扱うことができる。・チェックする値の指定では，チェック対象の属性につ
いて，どんな値を持つ文書を対象にするかを指定する。
この時、ファイル名や日付などについては、いわゆるワ
イルドカードを使った指定を可能にする。例えば、"FMV
00*.txt"は、ファイル名が"FMV00" で始まるtxt 文書フ
ァイルが対象となる。・登録先の辞書名では，既存の辞書名のリストの中か
ら，適当な辞書を選択するか、新規辞書として辞書名を
直接入力して、登録先の辞書を指定する。例えば、図２
８の例は、次のように指定したことになる。「ファイル
名が，"FMV00*.txt"である文書ファイルから単語を抽出
し，"FMV文書用" という名前の辞書に登録する。」

【００３６】次に図３０、図３１の処理フローにより、
図２６の処理フローにおける登録先を自動的に振り分け
る処理（図２６のステップＳ５）について説明する。図
３０において、まず、振り分け指定リストにユーザの指
定をセットし（ステップＳ１）、抽出単語リストをクリ
アする（ステップＳ２）。上記振り分け指定リストに
は、ユーザの指定条件が図３２に示すように格納され
る。次いで、振り分け指定リストの全要素に対してルー
プ(1) を開始する（ステップＳ３）。ループ(1) では、
「ユーザの指定条件に合うファイルのリストアップ」を
行い、ついでループ(2) により「ファイルからの単語抽
出」を行い、次いで「指定された辞書への単語登録」と
いう処理を行う。すなわち、振り分け指定リストの現在
要素の属性とその値に該当する文書ファイル一覧リスト
を取得し（ステップＳ４）、文書ファイルの一覧リスト
の全要素に対するループ(2) を開始する。ループ(2) で
は、ユーザの指定条件に合うファイルについて、単語を
抽出して抽出単語リストへ追加保存する処理を繰り返し
（ステップＳ６）、文書ファイルの一覧リストの全ての
要素の処理が終わったらループ(2) を終了する（ステッ
プＳ７）。次いで、振り分け指定リストの現在要素の辞
書名に該当するユーザ辞書が存在するかを調べ（ステッ
プＳ８）、存在しない場合には、指定された辞書名で、
新しいユーザ辞書を作成する（ステップＳ９）。そし
て、対象のユーザ辞書に、抽出単語リスト内の単語を登
録し（ステップＳ１０）、抽出単語リストをクリアする
（ステップＳ１１）。上記処理を振り分け指定リストの
全ての要素について行い、その処理が終わったらループ
(1) を終了する（ステップＳ１２）。以上のように、本
実施例では文書ファイルの属性情報により登録辞書の自
動振り分けを行って単語登録を行うようにしたので、辞
書選択に関するユーザの手間を軽減することができ、ま
た、日本語入力時に、適切な辞書を利用することが可能
となる。

【００３７】次に、サーバ／クライアントシステムにお
ける各クライアントのかな漢字変換辞書の自動更新の実
施例について説明する。通常の業務では、各クライアン
トごとに基本辞書が装備されている。そして、文書の用
語を統一するために、基本辞書には含まれない業務ごと
の用語集を作成する場合が多く、文書作成時に用語集を
参照し、業務ごとの文書の用語を統一している。また、
各クライアントの辞書の更新は、各クライアント毎に辞
書を更新したり、辞書管理者がマスタ辞書を管理し、辞
書管理者が作成した辞書更新データをクライアントで取
り込んでいる。しかし、上記のように各クライアント毎
に基本辞書を装備し、各クライアントで辞書の更新を行
う場合には、上記のように用語集を作成する等、部門や
分野毎に文書の用語を統一することが必要となる。ま
た、辞書管理者がマスタ辞書を管理し、辞書更新データ
を各クライアントで取り込み、辞書を更新すれば、各ク
ライアントの辞書を共通化することが可能であるが、こ
の場合は、辞書管理者が必要となる。本実施例は、サー
バ／クライアントシステムにおいて、部門やグループ内
で、作成した文書に応じ、各クライアントの業務ごとの
かな漢字変換辞書を自動更新するものであり、辞書管理
者をおくことなく、部門やグループ内で作成した文書か
ら、部門やグループ内の辞書更新データを作成し、各ク
ライアントの分野別の辞書を自動更新することを可能と
する。

【００３８】図３３は本実施例のシステムの機能構成を
示す図である。同図において、２１はサーバ、２２ａ〜
２２ｃはクライアントであり（以下ではクライアントを
総称して指す場合、クライアント２２という）、サーバ
２１とクライアント２２はネットワーク等を介して接続
されている。サーバ２１側には、次のプログラムとフォ
ルダおよび辞書マスタデータが用意される。・辞書データ作成プログラム辞書データ作成プログラム３１は、前記実施例で説明し
た文書を解析して、連結語句等を取り出し辞書を作成す
る「登録エンジン３１ａ」と、登録エンジン３１ａによ
り抽出された語句と辞書マスタデータ３３とを比較し
て、辞書マスタデータ３３にないものを差分出力する
「差分抽出エンジン３１ｂ」と、辞書環境を設定する
「辞書環境設定プログラム３１ｃ」から構成される。図
３４（ｂ）に、上記登録エンジン３１ａが抽出するデー
タの１レコード当たりの構成例を示す。・フォルダ部門やグループ内で作成した文書を登録するための「文
書フォルダ３２ａ」および新規の追加単語を登録するた
めの「辞書データフォルダ３２ｂ」が用意される。上記
文書フォルダ３２ａは、更新する辞書名（分野）毎に用
意され、各クライアントで作成された文書が対応するフ
ォルダにコピーされる。・辞書マスターデータ辞書マスタデータ３３は、１レコードが、よみ／表現／
品詞属性からなる辞書作成用データベースであり、各ク
ライアントが持つ辞書ファイルの元データとされる。図
３４（ａ）に辞書マスタデータ３３の１レコード当たり
の構成例を示す。

【００３９】また、クライアント２２側には、次のプロ
グラムと辞書が用意される。・辞書更新プログラム辞書更新プログラム３４は、サーバ側上の辞書データフ
ォルタ３２ｂから取り込まれた辞書更新データをクライ
アントのテンプフォルダにコピーし、辞書管理アプリケ
ーション３５の辞書登録モジュールに渡す。・辞書管理アプリケーション辞書管理アプリケーション３５は辞書登録モジュールを
備え、上記辞書更新プログラム３４より渡された辞書更
新データを辞書３６に登録する。・辞書ユーザはこの辞書３６等を利用して文書３７を作成／更
新する。作成／更新された文書３７の内、ユーザは辞書
作成の対象となる文書を選択し、サーバ２１の文書フォ
ルダ３２ａに登録する。分野別に辞書を作成する際に
は、例えばサーバ２１上にそれに対応した複数のフォル
ダを設け、ユーザがフォルダを指定して文書を登録す
る。・クライアント辞書環境設定プログラムクライアント辞書環境設定プログラム３８により、クラ
イアント側の辞書の環境設定を行う。

【００４０】次に本実施例におけるサーバ側の処理とク
ライアント側の処理について説明すする。（１）サーバ側の処理図３５、図３６にサーバ側の概略処理フローを示す。以
下、図３５、図３６を参照しながらサーバ２１側の処理
について説明する。上記したように、各クライアント２
２は、作成／更新した文書をサーバ２１上の辞書更新対
象の文書フォルダ３２ａへコピーする。サーバ２１は文
書フォルダ３２ａに登録された文書について以下の処理
を行う。辞書データ作成プログラム３１は、辞書環境数
の辞書名（分野）分、以下の処理を繰り返す。ここで、
辞書は、部門／グループ等の分野毎に設けられ、上記辞
書名は各分野に対応して設定される。例えば、後述する
「辞書名１」の辞書は分野１に対応した辞書であり、
「辞書名２」の辞書は分野２に対応した辞書である。

【００４１】(i) 辞書データ作成プログラム３１は、初
期設定後、後述する辞書環境設定の監視タイマの設定
と、辞書環境設定の監視対象となる文書フォルダの設定
に従い、文書フォルダ３２ａに登録されている文書を検
出する（ステップＳ１，Ｓ２，Ｓ３）。 (ii)辞書データ作成プログラム３１は、(i) で検出した
文書から、抽出処理日付と比較し、日付の新しい文書を
登録エンジン３１ａに渡し、利用頻度の高い単語を抽出
する（ステップＳ４，Ｓ５，Ｓ６）。 (iii) 辞書データ作成プログラム３１は、辞書データ差
分抽出エンジン３１ｂを呼び出し、(ii)で抽出した単語
と辞書マスタデータ３３を比較し、新規に追加された単
語のみ抽出する（ステップＳ７）。 (iv)辞書データ作成プログラム３１は、(iii) の新規追
加単語を辞書データフォルダ３２ｂへコピーする（ステ
ップＳ８）。 (v) 辞書データ作成プログラム３１は、抽出情報を作成
し、辞書環境設定プログラム３１により辞書環境設定情
報を書き込む（ステップＳ９）。

【００４２】次に、サーバ側における辞書環境設定につ
いて説明する。この設定はサーバの管理者により最初の
設定時に行われ、また、必要に応じてシステムの運用中
に設定を変更する。 (a) 辞書環境設定プログラム３１ｃは、レジストリの辞
書環境値を参照し、辞書環境（辞書名）のリストと辞書
環境作成を、図３７（ａ）に示すようにダイアログ表示
する。サーバの管理者は図３７（ａ）のダイアログにお
いて、「辞書名」を選択したり、「辞書環境作成」を起
動することができる。 (b) 辞書環境作成図３７（ａ）の「辞書環境作成」を起動すると、辞書マ
スタデータ３３を読み込み、図３７（ｂ）に示す辞書環
境設定ダイアログを表示する。このダイアログ上で管理
者は下記の各種の設定を行うことができる。管理者が設
定した情報は、辞書環境設定ダイアログを終了すると、
レジストリに書き込まれる。・辞書名辞書マスタデータの名前を登録する・監視タイマの設定前記した文書を検出するタイミングを定める監視タイマ
を設定する。・監視フォルダのパス名設定監視対象となる文書フォルダのパス名を設定する。ここ
では、複数の監視フォルダを設定できる。・抽出処理情報登録先のパス名を設定する。辞書データ作成プログラム
３１は抽出完了後に上記登録先パス名を参照し、辞書更
新データを登録する。また、抽出時の日付と単語数を同
時に書き込む。ユーザが日付を変更することもできる。

【００４３】(c) 辞書名の選択（更新）図３７（ａ）のダイアログにおいて、辞書名を選択する
と、該当するレジストリの辞書環境値を読み込み、図３
７（ｂ）に示す辞書環境設定ダイアログを表示する。選
択された辞書について既に環境情報が設定されている場
合には、設定済の情報が表示されるので、この画面上で
設定情報を更新することができる。ユーザが設定した情
報は、辞書環境設定ダイアログを終了すると、レジスト
リに書き込まれ、更新される。

【００４４】（２）クライアント側の処理図３８にクライアント２２側の概略処理フローを示す。
以下、図３８を参照しながらクライアント側の処理につ
いて説明する。 (a) 辞書更新プログラムによる辞書の更新辞書更新プログラム３４は図３８（ａ）に示す以下の処
理を行い、サーバ２１から取り込んだ辞書更新データに
より辞書３６を更新する。 (i) 辞書更新プログラム３４が起動されると、初期設定
後、辞書更新日付が抽出処理日付より古い場合に、サー
バ２１側から取り込んだ辞書環境設定情報に従い、サー
バ上の辞書データフォルダ３２ｂの抽出先パスより辞書
更新データを取り込み、クライアントのテンプフォルダ
へコピーする（ステップＳ１，Ｓ２，Ｓ３）。 (ii)ついで、辞書更新プログラム３４は、辞書管理アプ
リケーション３５を呼び出し、取得した辞書更新データ
と辞書名を、辞書管理アプリケーション３５の辞書登録
モジュールへ渡す（ステップＳ４）。辞書登録モジュールは、上記辞書更新データにより上記
辞書名の辞書３６を更新する。

【００４５】(b) 辞書更新プログラムの起動上記辞書更新プログラム３４は次のタイミングで起動さ
れる。 (i) クライアント辞書環境設定の辞書更新ボタンを押
す。 (ii)かな漢字変換処理（以下ＩＭＥという）起動時に、
辞書更新プログラムを呼び出す。図３８（ｂ）にＩＭＥ
起動時における辞書更新プログラムの起動処理を示す。
サーバ２１から更新する辞書数（分野数）を取得し、全
ての分野の処理が終わったかを判断する（ステップＳ
１，Ｓ２）。全分野の処理が終わっていない場合には、
以下に説明するクライアント辞書環境設定において設定
される「ＩＭＥ起動時に辞書更新をする」にチェックが
あるかを調べる（ステップＳ３）。チェックがある場合
には、ＩＭＥ起動時にサーバ側の辞書環境設定情報を取
り込み、クラアイントに該当する辞書があるかをチェッ
クし、該当する場合、図３７（ａ）に示した辞書更新プ
ログラムを呼び出す（ステップＳ４）。

【００４６】次にクライアント側の辞書環境設定につい
て説明する。 (a) クライアント辞書環境設定プログラム３８はサーバ
側から辞書環境設定情報を取り込み、図３９（ａ）に示
すように辞書名リストを表示する。ここで、辞書名は前
記したように各分野に対応している。 (b) 辞書更新辞書更新したい辞書名（例えば辞書名３）を選択する
と、サーバ２１側の辞書環境設定情報に加え、クライア
ントの辞書環境設定情報を参照し、図３９（ｂ）に示す
ダイアログを表示する。この画面上で辞書更新を行う。
図３９（ｂ）において、抽出処理情報はサーバ側から取
得した辞書環境設定情報であり、単語抽出した日付、単
語数が表示される。辞書更新情報は、クライアント側の
更新情報であり、クライアント側の更新日付、単語数が
表示される。なお、ユーザが日付を変更することもでき
る。また、チェック欄は、前記したようにＩＭＥ起動時
に辞書更新するか否かを設定する欄であり、ＩＭＥ起動
時に辞書更新する場合には、ここにチェックする。各フ
ィールドの確認後、「辞書更新ボタン」により辞書更新
プログラムを呼び出す。

【００４７】(c) 辞書作成辞書名を選択し、辞書管理アプリケーション３５に問い
合わせても、クライアントに該当する辞書が存在しない
場合には、サーバ２１側から辞書マスタデータを取り込
み、辞書管理アプリケーション３５の辞書新規作成モジ
ュールを呼び出し、新規に辞書を作成する。この場合に
は、図３９（ｃ）に示すダイアログが表示され、各フィ
ールドの確認後、「辞書作成ボタン」により辞書新規作
成モジュールを呼び出し、新規に辞書作成を行う。以上
説明したように、本実施例においては、部門やグループ
（各分野）で作成した文書に応じて、自動更新すること
ができるので、かな漢字変換時に、所望の単語を漢字に
変換することができ、文書作成の効率を高めることがで
きる。また文書作成に応じた辞書の更新は、辞書管理者
を置くことなく監視タイマー等の設定により、サイクリ
ックに行うことができる。

【００４８】上記した辞書の自動更新の実施例におい
て、前記した文書ファイルの属性による自動振り分けを
利用して、辞書更新を行うことができる。以下、上記し
た自動振り分けを利用したサーバ／クライアントシステ
ムにおける辞書更新処理の実施例について説明する。な
お、本実施例のシステムの機能構成は、前記図３３と同
様であり、本実施例においては、サーバ２１側の辞書環
境設定において、監視対象となる文書フォルダを設定す
る代わりに、監視対象となるファイルの属性を設定す
る。すなわち、登録先の自動振り分けを行う場合には、
サーバ２１側の辞書環境設定において、前記したように
登録先の振り分け方について指定する。登録先の振り分
けは、例えば前記した図２７に示したように、ファイル
名、作成者、作成日等の文書ファイルの属性を指定する
ことができる。ここで文書ファイルの属性は、前記図２
９に示したように、ファイル名、作成日、作成者等であ
る。以下、本実施例のサーバ側の処理について説明す
る。なお、クライアント側の処理は前記図３８で示した
のと同様であり、本実施例においては、サーバ２１側か
ら送られてくる辞書更新データを対応する振り分け先の
辞書に登録する。

【００４９】（１）サーバ側の処理前記と同様、各クライアント２２は、作成／更新した文
書をサーバ２１上の辞書更新対象となるファイルを文書
フォルダ３２ａへコピーする。辞書データ作成プログラ
ム３１は、前記と同様、辞書環境数の辞書名（分野）
分、以下の処理を繰り返す。 (i) 辞書データ作成プログラム３１は、初期設定後、後
述する辞書環境設定の監視タイマの設定と、辞書環境設
定の監視対象となる文書ファイルの設定に従い、文書フ
ォルダ３２ａに登録されている文書ファイルを検出す
る。 (ii)辞書データ作成プログラム３１は、(i) で検出した
文書から、抽出処理日付と比較し、日付の新しい文書を
登録エンジン３１ａに渡し、利用頻度の高い単語を抽出
する。 (iii) 辞書データ作成プログラム３１は、前記図３０、
図３１に示した処理を行って、抽出された単語を振り分
け先の辞書マスタに登録する。その際、辞書データ差分
抽出エンジン３１ｂを呼び出し、(ii)で抽出した単語と
辞書マスタデータを比較し、新規に追加された単語のみ
を抽出して登録する。 (iv)辞書データ作成プログラム３１は、(iii) の新規追
加単語を振り分け先毎に辞書データフォルダ３２ｂへコ
ピーする。

【００５０】次に、本実施例のサーバ側における辞書環
境設定について説明する。この設定はサーバの管理者に
より最初の設定時に行われ、また、必要に応じてシステ
ムの運用中に設定を変更する。 (a) 辞書環境設定プログラム３１ｃは、レジストリの辞
書環境値を参照し、辞書環境（辞書名）のリストと辞書
環境作成を、前記図４０（ａ）に示すダイアログに表示
する。サーバの管理者は図４０（ａ）のダイアログにお
いて、「辞書名」を選択したり、「辞書環境作成」を起
動する。 (b) 辞書環境作成図４０（ａ）の「辞書環境作成」を起動すると、辞書マ
スタデータ３３を読み込み、図４０（ｂ）に示す辞書環
境設定ダイアログを表示する。このダイアログ上で管理
者は前記したように、辞書名、監視タイマの設定等の設
定を行う。ここで、本実施例では、監視ファイルの設定
において、前記図２８で説明したように、チェック対象
の属性、チェックする値、振り分け先の辞書名等を指定
する。管理者が設定した情報は、辞書環境設定ダイアロ
グを終了すると、レジストリに書き込まれる。 (c) 辞書名の選択（更新）図４０（ａ）のダイアログにおいて、辞書名を選択する
と、該当するレジストリの辞書環境値を読み込み、図４
０（ｂ）に示す辞書環境設定ダイアログを表示する。こ
の画面上で設定情報を更新することができる。

【００５１】以上説明したように、本実施例において
は、部門やグループ（各分野）で作成した文書に応じ
て、辞書管理者を置くことなく辞書を自動更新すること
ができるので、かな漢字変換時に、所望の単語を漢字に
変換することができ、文書作成の効率を高めることがで
きる。また、文書ファイルの属性情報により登録辞書の
自動振り分けを行って単語登録を行うようにしたので、
サーバ側に個々に監視対象となるフォルダを設けること
なく、自動的に振り分けを行って辞書を作成することが
できる。このため、ユーザの手間を軽減することがで
き、また、日本語入力時に、適切な辞書を利用すること
が可能となる。

【００５２】以上説明したサーバ／クライアントシステ
ムの実施例では、サーバ２１の辞書データフォルダ３２
ｂに辞書マスタデータ３３との差分情報である辞書更新
データを格納し、辞書更新データをクライアント２２に
送り、クライアント２２の辞書を更新するようにしてい
るが、辞書更新データをクライアントに送る代わりに、
サーバ２１から、更新された辞書マスタデータ３３をク
ライアント２２に送って、クライアント２２側の辞書を
更新するようにしてもよい。また、上記実施例では、サ
ーバ２１側に辞書データ作成プログラム３１を置いて、
サーバ２１で辞書更新データを作成しているが、辞書デ
ータ作成プログラム３１は必ずしもサーバ２１に置く必
要はない。例えば、サーバ２１側に文書フォルダ３２ａ
のみを設けるとともに、クライアント２２に辞書データ
作成プログラムを置き、各クライアント２２上で、上記
文書フォルダ３２ａに格納された文書について、辞書更
新データを作成し、辞書更新をするようにしてもよい。
なお、この場合には、各クライアント２２における更新
タイミングを一致させるのが望ましい。さらに、本実施
例の適用対象は必ずしも前記したサーバ／クライアント
システムに限定されず、上記の場合、文書フォルダ３２
ａを、各クライアント２２から見にいくことができる共
有フォルダ内に置いて、各クライアントの辞書を更新す
るようにしてもよい。

【００５３】（付記１）既存の文書を解析し、連続す
る形態素の品詞情報を基に所定の連結条件に合致する連
結語句を取り出す手段と、取り出した連結語句に読みを
付与する手段を備え、上記連結語句とその読みの組み合
わせを記録することにより辞書を作成することを特徴と
する辞書作成装置。（付記２）連結語句の一部の読みを付与して辞書作成
することを特徴とする付記１の辞書作成装置。（付記３）連結語句の出現回数に基づき、使用頻度の
高いものを選択して辞書作成することを特徴とする付記
１または付記２の辞書作成装置。（付記４）出現回数の多い連結語句が、辞書内での優
先順位の上位になるように辞書を作成することを特徴と
する付記１または付記２の辞書作成装置。（付記５）使用頻度が低くても、特定の品詞条件を満
たす連結語句を選抜して辞書を作成することを特徴とす
る付記１または付記２の辞書作成装置。（付記６）動詞、形容詞などの用言が中心となる連結
語句の場合、その活用語幹で出現回数を計数することを
特徴とする付記２の辞書作成装置。（付記７）既存の文書を対象にした編集作業が指示さ
れた際に、該文書を解析して、単語もしくは連結語句を
取り出す手段と、単語もしくは連結語句に適切な読みを
付す手段とを備え、上記単語もしくは連結語句と、その
読みの組み合わせを記録することにより辞書を作成する
ことを特徴とする辞書作成装置。（付記８）上記文書の編集を終了するときに、作成し
た辞書を破棄する手段を備えたことを特徴とする付記７
の辞書作成装置。（付記９）定期的に、あるいは外的要因による割り込
みによって、特定のファイルの文書を解析し、単語もし
くは連結語句を取り出す手段と、単語もしくは連結語句
に読みを付す手段とを備え、上記単語もしくは連結語句
と、その読みの組み合わせを記録することにより辞書を
作成することを特徴とする辞書作成装置。（付記１０）コンピュータによって辞書作成処理を実
行させるためのプログラムを記録した記録媒体であっ
て、上記プログラムは、既存の文書を解析し、連続する
形態素の品詞情報を基に所定の連結条件に合致する連結
語句を取り出し、取り出した連結語句に適切な読みを付
して、その組み合わせを記録することにより辞書を作成
することを特徴とする辞書作成プログラムを記録した記
録媒体。（付記１１）付記１０のプログラムは、連結語句の一
部の読みを付与して辞書作成することを特徴とする辞書
作成プログラムを記録した記録媒体。（付記１２）付記１０または付記１１のプログラム
は、連結語句の出現回数に基づき、使用頻度の高いもの
を選択して辞書作成することを特徴とする辞書作成プロ
グラムを記録した記録媒体。（付記１３）付記１０または付記１１のプログラム
は、出現回数の多い連結語句が、辞書内での優先順位の
上位になるように辞書を作成することを特徴とする辞書
作成プログラムを記録した記録媒体。（付記１４）付記１０または付記１１のプログラム
は、使用頻度が低くても、特定の品詞条件を満たす連結
語句を選抜して辞書を作成することを特徴とする付記２
の辞書作成プログラムを記録したコンピュータ読み取り
可能な記録媒体。（付記１５）付記１０または付記１１のプログラム
は、形容詞などの用言が中心となる連結語句の場合、そ
の活用語幹で出現回数を計数することを特徴とする辞書
作成プログラムを記録した記録媒体。（付記１６）コンピュータによって辞書作成処理を実
行させるためのプログラムであって、上記プログラム
は、既存の文書を解析し、連続する形態素の品詞情報を
基に所定の連結条件に合致する連結語句を取り出し、取
り出した連結語句に適切な読みを付して、その組み合わ
せを記録することにより辞書を作成することを特徴とす
る辞書作成プログラム。（付記１７）コンピュータによって辞書作成処理を実
行させるためのプログラムを記録した記録媒体であっ
て、上記プログラムは、既存の文書を対象にした編集作
業が指示された際に、該文書を解析して、単語もしくは
連結語句を取り出し、単語もしくは連結語句に適切な読
みを付して、その組み合わせを記録することにより辞書
を作成することを特徴とする辞書作成プログラムを記録
した記録媒体。（付記１８）付記１７のプログラムは、上記文書の編
集を終了する時に、作成した辞書を破棄することを特徴
とする辞書作成プログラムを記録した記録媒体。（付記１９）コンピュータによって辞書作成処理を実
行させるためのプログラムであって、上記プログラム
は、既存の文書を対象にした編集作業が指示された際
に、該文書を解析して、単語もしくは連結語句を取り出
し、単語もしくは連結語句に適切な読みを付して、その
組み合わせを記録することにより辞書を作成することを
特徴とする辞書作成プログラム。（付記２０）コンピュータによって辞書作成処理を実
行させるためのプログラムを記録した記録媒体であっ
て、定期的に、あるいは外的要因による割り込みによっ
て、特定のファイルの文書を解析し、単語もしくは連結
語句を取り出し、単語もしくは連結語句に適切な読みを
付して、その組み合わせを記録することにより辞書を作
成することを特徴とする辞書作成プログラムを記録した
記録媒体。（付記２１）コンピュータによって辞書作成処理を実
行させるためのプログラムであって、定期的に、あるい
は外的要因による割り込みによって、特定のファイルの
文書を解析し、単語もしくは連結語句を取り出し、単語
もしくは連結語句に適切な読みを付して、その組み合わ
せを記録することにより辞書を作成することを特徴とす
る辞書作成プログラム。（付記２２）ネットワークを介して接続されたコンピ
ュータに辞書作成処理を実行させるためのプログラムで
あって、上記プログラムは、所定のタイミングで共有フ
ォルダに格納された監視対象となる文書を解析して、単
語もしくは連結語句を取り出し、単語もしくは連結語句
に適切な読みを付して、その組み合わせを記録すること
により辞書を作成することを特徴とする辞書作成プログ
ラム。（付記２３）サーバとクライアントとから構成される
システムにおいて、サーバによって実行される辞書作成
処理のためのプログラムであって、上記プログラムは、
クライアントで作成した文書を格納した文書フォルダ内
の文書を解析して、単語もしくは連結語句を取り出し、
単語もしくは連結語句に適切な読みを付して、クライア
ント用の辞書データを作成することを特徴とする辞書作
成プログラム。（付記２４）上記クライアント用の辞書データは、既
存の辞書との差分データであることを特徴とする付記２
３の辞書作成プログラム。（付記２５）コンピュータによって辞書作成処理を実
行させるためのプログラムであって、上記プログラム
は、既存の文書を解析して、単語もしくは連結語句を取
り出し、上記文書のファイル属性に応じて振り分け先の
辞書を決定し、単語もしくは連結語句に適切な読みを付
して、その組み合わせを、上記振り分け先の辞書に記録
することにより辞書を作成することを特徴とする辞書作
成プログラム。

【００５４】

【発明の効果】以上説明したように、本発明によれば、
複数の名詞が連結している複合名詞や言い回しのよう
な、比較的文字数の多い連結語句を取り出して辞書を作
成することができる。特に、出現回数等により辞書に登
録する連結語句を選択することにより、ユーザがよく利
用する連結語句が優先的に出てくるように辞書を整備す
ることが可能となる。このため、連結語句等を含む辞書
を従来より容易に、簡単に、かつ高速に行うことがで
き、辞書の保守にかかるコストを軽減することができ
る。また、かな漢字変換に際して、よく使う連結語句が
優先的に出てくるので、文書作成にかかる時間を短縮す
ることができる。さらに文字数の多い連結語句を取り出
し、一部の読みを付けて登録できるので、かな漢字変換
に際し、短い読みを入力するだけで、長い複合語や言い
回しを変換できるようになり、日本語の入力する場面
で、使用者の手間を軽減することができる。また、文書
を開いたとき自動的に辞書作成処理を開始させたり、タ
イマーやフックで自動的に辞書作成処理を開始させるこ
とにより、ユーザが辞書作成のための操作を行う必要が
なく、操作性を向上させることができる。さらに、一時
辞書を作成し、ファイル編集が終わったら該一時辞書を
破棄することにより、ユーザが辞書を削除する等の操作
をする必要がなく、また、記憶装置内の辞書の占める領
域が知らぬまに膨大になるといった問題を防ぐことがで
きる。さらに、共有フォルダに格納された文書を解析し
て、辞書を自動的に作成／更新することにより、辞書管
理者を置くことなく、フォルダを共有するコンピュータ
の利用者が共通の辞書を使用して文書を作成することが
でき、用語の統一等を容易に図ることができる。また、
文書のファイル属性に応じて振り分け先の辞書を決定
し、文書から取り出された単語もしくは連結語句を辞書
に記録することにより、自動的に目的別、分野別等の辞
書を作成／更新することができる。

【図面の簡単な説明】

【図１】本発明の概要を示す図である。

【図２】本発明が適用されるシステムの構成例を示す図
である。

【図３】本発明の第１の実施例を示す概略フローチャー
トである。

【図４】本発明の第１の実施例の詳細を示すフローチャ
ート（１）である。

【図５】本発明の第１の実施例の詳細を示すフローチャ
ート（２）である。

【図６】本発明の第１の実施例の詳細を示すフローチャ
ート（３）である。

【図７】本発明の第１の実施例の詳細を示すフローチャ
ート（４）である。

【図８】「名詞句」と「動詞句」の抽出パターンの例を
示す図である。

【図９】スタックの使用例を説明する図である。

【図１０】形態素境界マークの使用例を示す図である。

【図１１】連体修飾境界マークの使用例を示す図であ
る。

【図１２】連体修飾境界マークの使用例を示す図であ
る。

【図１３】格助詞境界マークの使用例を示す図である。

【図１４】「決めさせるそうだ」に先頭読み境界マーク
を連結したときのスタックの内容を示す図である。

【図１５】全体読みと先頭部分読みの例を示す図であ
る。

【図１６】出現回数テーブルの構成例を示す図である。

【図１７】辞書作成処理の具体例を説明する図（１）で
ある。

【図１８】辞書作成処理の具体例を説明する図（２）で
ある。

【図１９】辞書作成処理の具体例を説明する図（３）で
ある。

【図２０】辞書作成処理の具体例を説明する図（４）で
ある。

【図２１】本発明の第２の実施例を示す概略フローチャ
ートである。

【図２２】ファイルを開くときに辞書作成処理を呼びだ
す場合の実施例を示す図である。

【図２３】タイマーやフックによって辞書作成処理を呼
び出す場合の実施例を示す図である。

【図２４】単語収集の自動実行を説明する図である。

【図２５】単語収集を自動実行し、単語を複数の辞書に
振り分けて登録する処理を示すフローチャートである。

【図２６】辞書の自動振り分けを行い単語登録をする全
体を含めた本実施例の全体処理を示すフローチャートで
ある。

【図２７】登録先辞書の振り分けを指定するユーザイン
タフェースの例を示す図である。

【図２８】振り分け方を設定するユーザインタフェース
の例を示す図である。

【図２９】属性とそれに対する値の指定の例を示す図で
ある。

【図３０】登録先辞書を自動的に振り分ける処理を示す
フローチャート（１）である。

【図３１】登録先辞書を自動的に振り分ける処理を示す
フローチャート（２）である。

【図３２】振り分け指定リストの例を示す図である。

【図３３】辞書を自動更新する機能を備えたサーバ／ク
ライアントシステムの構成例を示す図である。

【図３４】登録エンジンにより抽出されるデータと、辞
書マスターデータの構成を示す図である。

【図３５】サーバ側の概略処理フローを示す図（１）で
ある。

【図３６】サーバ側の概略処理フローを示す図（２）で
ある。

【図３７】サーバ側における辞書環境設定のためのダイ
アログを示す図である。

【図３８】クライアント側の概略処理フローを示す図で
ある。

【図３９】クライアント側における辞書環境設定のため
のダイアログを示す図である。

【図４０】ファイル属性により登録先辞書を振り分ける
場合のサーバ側における辞書環境設定のためのダイアロ
グを示す図である。

【符号の説明】

１文書２辞書作成装置３辞書１１マイクロ処理装置（ＭＰＵ）１２主記憶装置１３補助記憶装置１４入力装置１４１５表示装置１６通信インタフェース２１サーバ２２クライアント

───────────────────────────────────────────────────── フロントページの続き (72)発明者松本定道神奈川県川崎市中原区上小田中４丁目１番１号富士通株式会社内 (72)発明者若月実神奈川県横浜市港北区新横浜二丁目15番地 16 株式会社富士通ハイパーソフトテクノロジ内 (72)発明者太田修神奈川県横浜市港北区新横浜二丁目15番地 16 株式会社富士通ハイパーソフトテクノロジ内Ｆターム(参考） 5B009 MF02 MF03

Claims

【特許請求の範囲】

【請求項１】既存の文書を解析し、連続する形態素の
品詞情報を基に所定の連結条件に合致する連結語句を取
り出す手段と、取り出した連結語句に読みを付与する手段を備え、上記
連結語句とその読みの組み合わせを記録することにより
辞書を作成することを特徴とする辞書作成装置。
【請求項２】コンピュータによって辞書作成処理を実
行させるためのプログラムを記録した記録媒体であっ
て、上記プログラムは、既存の文書を解析し、連続する形態
素の品詞情報を基に所定の連結条件に合致する連結語句
を取り出し、取り出した連結語句に適切な読みを付し
て、その組み合わせを記録することにより辞書を作成す
ることを特徴とする辞書作成プログラムを記録した記録
媒体。
【請求項３】コンピュータによって辞書作成処理を実
行させるためのプログラムであって、上記プログラムは、既存の文書を解析し、連続する形態
素の品詞情報を基に所定の連結条件に合致する連結語句
を取り出し、取り出した連結語句に適切な読みを付し
て、その組み合わせを記録することにより辞書を作成す
ることを特徴とする辞書作成プログラム。
【請求項４】ネットワークを介して接続されたコンピ
ュータに辞書作成処理を実行させるためのプログラムで
あって、上記プログラムは、所定のタイミングで共有フォルダに
格納された監視対象となる文書を解析して、単語もしく
は連結語句を取り出し、単語もしくは連結語句に適切な読みを付して、その組み
合わせを記録することにより辞書を作成することを特徴
とする辞書作成プログラム。
【請求項５】コンピュータによって辞書作成処理を実
行させるためのプログラムであって、上記プログラムは、既存の文書を解析して、単語もしく
は連結語句を取り出し、上記文書のファイル属性に応じ
て振り分け先の辞書を決定し、単語もしくは連結語句に
適切な読みを付して、その組み合わせを、上記振り分け
先の辞書に記録することにより辞書を作成することを特
徴とする辞書作成プログラム。