JP2002157241A - 辞書作成装置 - Google Patents

辞書作成装置

Info

Publication number
JP2002157241A
JP2002157241A JP2001163269A JP2001163269A JP2002157241A JP 2002157241 A JP2002157241 A JP 2002157241A JP 2001163269 A JP2001163269 A JP 2001163269A JP 2001163269 A JP2001163269 A JP 2001163269A JP 2002157241 A JP2002157241 A JP 2002157241A
Authority
JP
Japan
Prior art keywords
dictionary
phrase
document
word
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001163269A
Other languages
English (en)
Inventor
Shinichiro Nishizawa
信一郎 西澤
Shinichi Nojima
伸一 野島
Sadamichi Matsumoto
定道 松本
Minoru Wakatsuki
実 若月
Osamu Ota
修 太田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001163269A priority Critical patent/JP2002157241A/ja
Publication of JP2002157241A publication Critical patent/JP2002157241A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 複数の名詞が連結している複合名詞や言い回
しのような連結語句を取り出して、読みを付して辞書を
作成することができるようにすること。 【解決手段】 既存の文書1を解析し、連続する形態素
の品詞情報を基に、所定の連結条件に合致する連結語句
(複数の名詞が連結している複合名詞、名詞句、動詞句
等)を取り出す。そして、取り出した連結語句に読みを
付し、上記連結語句とその読みの組み合わせを記録する
ことにより辞書3を作成する。上記読みとしては、取り
出した連結語句の全体読みに加えて、その一部の読みを
付与することができる。また、上記辞書作成処理は、文
書を開くとき、あるいは、タイマやフックで呼び出さ
れ、指定された文書の辞書を作成する。また、ファイル
属性に応じて登録辞書を振り分けたり、クライアントに
共通のフォルダの文書から単語を抽出し、クライアント
の辞書を自動更新することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ワードプロセッサ
やコンピューターで日本語入力を行う時に使用する、か
な漢字変換システム、あるいは日本語入力補助システム
等で使用される辞書を作成する辞書作成装置に関する。
【0002】
【従来の技術】従来、かな漢字変換システムの辞書デー
タベース(以下、単に辞書という)には出荷時に決めら
れた単語だけが入っており、実際に使用するにしたがっ
て学習効果が現れたり、変換できない単語は使用者が逐
一単語登録していた。あるいは、日本語入力補助システ
ムにおいては、あらかじめデータベースに管理者が登録
しておく、または、使用していくにしたがってデータベ
ースに追加されていくようになっていた。これに対し、
文書を解析して、辞書に登録されていない単語を日本語
入力装置の辞書に登録する機能を備えたものも存在す
る。しかし、従来のものは、例えば、辞書に登録されて
いない名詞的な語を登録するものであり、登録される単
語の質や、読みの付け方などにおいて、その登録後の日
本語入力作業を向上させるほど満足のいくものではなか
った。
【0003】
【発明が解決しようとする課題】従来の技術では、過去
に作成した大量の文書と、日本語入力装置の辞書の間に
は関連がないため、それぞれ別個に保守する必要があ
り、かかるコストが多くなるという問題があった。ま
た、使用する日本語入力装置を変更すると、その都度辞
書の作り直しが必要であった。一方、文書を解析して、
日本語入力装置の辞書に登録するものでは、次のような
問題があった。 (1) 登録できるのは、「接頭語+名詞」、「名詞+接尾
語」のような、単純な構成の単語であり、複数の名詞が
連結している複合名詞や、言い回しのような語など、文
字数が多くなりがちな構成の単語は登録の対象とならな
かった。 (2) 登録する単語には、単語全体の読みしかつけられな
かった。一般に、使用者がよく行う“「日本語入力補助
システム」を「にほん」で変換できるような読みを付け
て登録する”類のことはできなかった。また、従来のも
のでは、辞書作成を行う際、ユーザがその都度、辞書作
成処理を呼び出す必要があり、操作性において満足のい
くものではなかった。さらに、従来のものでは、単語を
登録する先の辞書が一つだけの場合が多く、単語収集を
自動実行し、簡単な操作で、あるいは自動的に、目的別
あるいは分野別に辞書を作成することはできなかった。
なお、従来でも複数の辞書を持つ機能も存在するが、辞
書の切替えは、手作業で行う必要があり、操作が煩雑で
満足いくものではなかった。また、従来においては、ク
ライアント毎に辞書を装備しており、例えば同一部門、
同一グループ等で作成する文書の用語の統一が図れない
といった問題があった。このため、例えば用語集等を作
成し、用語の統一を図る必要があった。なお、サーバ/
クライアントシステムにおいて、辞書管理者がマスター
辞書を管理し、作成した辞書更新データを各クライアン
トで取り込むようにすれば、用語の統一等を図ることが
可能であるが、このためにはマスター辞書を管理する辞
書管理者が必要となる。本発明は上記事情に鑑みなされ
たものであって、本発明の第1の目的は、比較的文字数
の多い連結語句を取り出して辞書を作成することがで
き、また、連結語句の一部の読みを付与した辞書を作成
することができる辞書作成装置を提供することである。
本発明の第2の目的は、辞書作成のための格別のユーザ
操作をすることなく、辞書作成を行うことができる辞書
作成装置を提供することである。本発明の第3の目的
は、目的別、分野別等の辞書を簡単な操作でもしくは自
動的に作成できるようにすることである。本発明の第4
の目的は、辞書管理者等を置くことなく、同一部門、同
一グループ等で使用する辞書を自動的に更新し、共通化
できるようにすることである。
【0004】
【課題を解決するための手段】図1は本発明の概要を示
す図である。同図において、1は辞書作成の対象となる
既存の文書、2は本発明の辞書作成装置、3は作成され
た辞書である。図1に示すように本発明においては、次
のようにして前記課題を解決する。 (1)辞書作成装置2は、既存の文書1を解析し、連続
する形態素の品詞情報を基に、所定の連結条件に合致す
る連結語句を取り出す。ここで、連結語句とは、例え
ば、「日本語処理装置」のような複数の名詞が連結して
いる複合名詞や「美しい日本語」のように形容詞により
修飾された名詞句や、「話しましょう」「決めさせる」
等の動詞句のように複数の単語が連結して、あるひとつ
の意味または概念を表す連結語もしくは連結句である。
そして、取り出した連結語句に読みを付し、上記連結語
句とその読みの組み合わせを記録することにより辞書3
を作成する。上記読みとしては、取り出した連結語句の
全体読みに加えて、その一部の読みを付与することもで
きる。例えば、図1に示すように、辞書作成の対象とな
る文書が「美しい日本語を話しましょう。」の場合、こ
の文書から同図に示すように「美しい日本語」、「美し
い日本語を」、「話しましょう」という連結語句が取り
出される。これらの連結語句に読みを付すと、例えば、
「美しい日本語」の場合、「うつくしいにほんご」(全
体読み)、「うつくしい」(部分読み)の読みが付され
る。これらから同図に示すような辞書が作成される。本
発明においては、上記のように比較的文字数の多い連結
語句を取り出して辞書を作成することができるので、連
結語句を含む辞書を従来より容易に、簡単に、かつ高速
に行うことができ、辞書の保守にかかるコストを軽減す
ることができる。また、連結語句を辞書に登録すること
ができるので、文書作成にかかる時間を短縮することが
できる。さらに、一部の読みを付与した辞書を作成すれ
ば、短い読みを入力するだけで、連結語句を変換できる
ようになり、日本語を入力する場面で、使用者の手間を
軽減することができる。 (2)文書を開くとき、あるいは、電子メールの返信を
書くなど既存の文書を基にした作業が指示された際に、
既存の文書1を解析して、単語もしくは連結語句を取り
出し、単語もしくは連結語句に適切な読みを付して、そ
の組み合わせを記録することにより辞書を作成する。上
記のようなタイミングで、既存の文書1を解析して、辞
書を作成するようにすることにより、ユーザが辞書作成
処理を起動するための操作を行うことなく辞書を作成す
ることができ、操作性を向上させることができる。 (3)所定のタイミングで共有フォルダに格納された監
視対象となる文書を解析して、単語もしくは連結語句を
取り出し、単語もしくは連結語句に適切な読みを付し
て、その組み合わせを記録することにより辞書を作成/
更新する。上記のように共有フォルダに格納された文書
を解析して、辞書を自動的に作成/更新することによ
り、辞書管理者を置くことなく、フォルダを共有するコ
ンピュータの利用者が共通の辞書を使用して文書を作成
することができ、用語の統一等を容易に図ることができ
る。 (4)既存の文書を解析して、単語もしくは連結語句を
取り出し、上記文書のファイル属性に応じて振り分け先
の辞書を決定し、単語もしくは連結語句に適切な読みを
付して、その組み合わせを、上記振り分け先の辞書に記
録することにより辞書を作成/更新する。上記のように
文書のファイル属性に応じて振り分け先の辞書を決定
し、文書から取り出された単語もしくは連結語句を辞書
に記録することにより、自動的に目的別、分野別等の辞
書を作成/更新することができる。 (5)本発明は、次のように構成することもできる。 連結語句の出現回数に基づき、使用頻度の高いもの
を選択して辞書作成する。 出現回数の多い連結語句が、辞書内での優先順位の
上位になるように辞書を作成する。 使用頻度が低くても、特定の品詞条件を満たす連結
句を選抜して辞書を作成する。上記〜のように構成
することにより、ユーザがよく利用する連結語句、ある
いは特定の品詞条件を満たす連結語句が優先的に出てく
るような辞書を作成することができる。 連結語句の出現回数を計数するに際し、動詞、形容
詞などの用言が中心となる連結語句の場合、その活用語
幹で出現回数を計数する。用言が中心となる連結語句に
ついて、その活用語幹で出現回数を計数することによ
り、活用語幹が同じであれば、活用語尾が変わっても同
じ語句として出現回数を計数することができ、用言につ
いての出現回数を適切に計数することができる。 文書を開くとき、あるいは、電子メールの返信を書
くなど既存の文書を基にした作業を行う際に、既存の文
書を解析して辞書を作成した後、文書の編集を終了する
時に、作成した辞書を破棄する。上記のように編集終了
後、辞書を破棄することにより、ユーザが辞書を削除す
る等の操作をする必要がなく、辞書管理が容易となる。
また、記憶装置内の辞書の占める領域が知らぬまに膨大
になるといった問題を防ぐこともできる。 定期的に、あるいは外的要因による割り込みによっ
て、特定のファイルを自動的に解析し、単語もしくは連
結語句を取り出す手段と、単語もしくは連結語句に読み
を付す手段とを備え、上記単語もしくは連結語句と、そ
の読みの組み合わせを記録することにより辞書を作成す
る。上記のように構成することにより、ユーザが辞書作
成処理を起動するための操作を行うことなく辞書を作成
することができ操作性を向上させることができる。 ユーザの操作の対象となっている文書中から単語も
しくは連結語句を抽出し、所定のタイミングで、収集し
た単語もしくは連結語句を目的別、分野別等の辞書に登
録することにより、目的別、分野別等の辞書を作成/更
新する。上記のように構成することにより、単語もしく
は連結語句を自動収集して、目的別、分野別等の辞書を
作成/更新することができる。
【0005】
【発明の実施の形態】図2は本発明が適用されるシステ
ムの構成例を示す図である。本発明は、同図に示すよう
に、マイクロ処理装置(MPU)11、主記憶装置1
2、補助記憶装置13、キーボード等の入力装置14、
ディスプレイ等の表示装置15、通信インタフェース1
6等を備えた通常の計算機システムや専用のワープロ機
等により実現することができ、上記補助記憶装置13の
プログラム部に後述する文書解析部、形態素解析部、辞
書作成部等として機能させるためのプログラムが格納さ
れ、また、データ部に形態素辞書、文書ファイル等が格
納される。そして、実行時、上記プログラムおよび文書
ファイル等が主記憶装置12に読み込まれ、本発明によ
る辞書作成処理が行われ、作成された辞書は、上記主記
憶装置12、補助記憶装置13等に格納される。
【0006】図3は本発明の第1の実施例を示す概略フ
ローチャートであり、同図により本発明の第1の実施例
の処理の概要を説明する。まず、指定された解析対象と
なる文書を読み込む(ステップS1)。文書としては、
各種ワープロで作成された文書、テキスト、電子メール
の文書、WWWブラウザに表示されるHTML文書等、
各種の文書を解析対象とすることができる。次いで、本
発明の辞書作成処理を行う。ここで、ユーザは、登録す
る語句の種類を指定したり、読みの付け方を指定するこ
とができる。辞書作成処理においては、まず本実施例の
解析部を呼び出す(ステップS2)。解析部の形態素解
析処理においては、上記文書の形態素解析を行い、形態
素単位に分割された単語のリストを生成する。なお、こ
こでいう単語は後述する形態素と同じ意味で使用する。
そして、文書中に処理対象とする単語があるかを調べ
(ステップS3)、単語がなければ処理を終了する。単
語がある場合には、隣接する単語の品詞を調べ(ステッ
プS4)、その単語の組み合わせが特定の組み合わせで
あるかを調べる(ステップS5)すなわち、単語の組み
合わせが所定の連結条件を満たしているか(具体的には
後述するように予め定められた抽出パターンに合致する
か否か)を調べる。特定の組み合わせでなければステッ
プS3に戻る。また、単語の組み合わせが特定の組み合
わせの場合には、表記を連結し、連結語句を作成する
(ステップS6)。すなわち、文書から意味(概念)と
して1つのものを表していると思われる一続きの語句の
並びを取り出す。連結語句としては、例えば複数の名詞
が連結している複合名詞、形容詞で修飾された名詞句、
動詞句等のような連結語句が取り出される。これら取り
出す語句の種類は前記したようにユーザが指定すること
ができる。次いで、上記連結語句の読みを作る(ステッ
プS7)。取り出した連結語句の読み文字列としては、
全体に対応する読みの他に、連結語句の先頭の一部の読
みを付ける。付ける読みは、例えば、ユーザが、例えば
かな漢字変換の読みとして使うのに自然な読みとなるよ
うにする。次いで、取り出した連結語句について、出現
回数を基に絞り込み、出現頻度が高い連結語句を選択し
て読みと表記の組み合わせで辞書に登録する(ステップ
S8)。
【0007】図4、図5、図6、図7は本実施例の処理
の詳細を示すフローチャートであり、以下、図4〜図7
により図3のステップS2〜S8の処理について説明す
る。なお、図5は図4の(a)の部分(形態素の並びを
解析して、抽出する範囲等を決める)の処理を示すフロ
ーチャート、図6は、図5の(イ)の部分(スタックの
内容を連結語句として登録する)の処理を示すフローチ
ャート、また図7は図4の(b)の部分(出現回数によ
って抽出した連結語句を選別し、また、連結語句の先頭
部分から短い読みを作成する)の処理を示すフローチャ
ートである。また、図4において、−のループは1
文書毎に処理を繰り返すループ、−はある文書中の
1文毎に処理を繰り返すループ、−はある文の形態
素毎に処理を繰り返すループである。
【0008】図4において、ステップS1において文書
毎のループを開始し、ステップS2において、1文毎の
ループを開始する。つぎに、ステップS3において、単
語(形態素)を抽出するために形態素解析処理を行い、
上記文を形態素の単位まで分解する。形態素とは、文を
構成する最小の単位のことである。一般的に「単語」と
いわれる単位に非常に近いが、用言(動詞、形容詞、形
容動詞)では、語幹と活用語尾が別形態素として扱われ
るのが普通なので、一般に単語と考えられる単位よりも
細かくなる。文を形態素に分解する処理を形態素解析と
いう。形態素解析を行うことにより、例えば下記の文は
次のような形態素に分解される。また、形態素解析によ
り、各形態素について、表記文字列、読み文字列、およ
び品詞コードをセットにした形態素情報が得られる。 ・解析対象となる文:「美しい日本語を使っていきまし
ょう」 ・解析結果:「美し/い/日本語/を/使/っ/てい/
き/ましょ/う」 形態素解析手法としては従来から種々の手法が提案され
ており(例えば、特開昭61−204771号公報、特
開平9−146952号公報等参照)、本発明の形態素
解析手法は、従来から知られているものを用いることが
できる。
【0009】次いで、ステップS4〜S6において形態
素毎の処理を行う。形態素毎の処理においては、形態素
の並びを解析して、抽出する範囲等を決めて連結語句を
取り出し、表記文字列、読み文字列、および品詞情報等
で構成される連結語句情報を記録する(ステップS4〜
S6の処理については図5で詳述する)。上記のように
して1文の処理が終わったら、ステップS7において1
文毎のループを終了し、次の文について同様の処理を行
う。文書中の各文について上記処理が終わったら、ステ
ップS8において文書毎のループを終了し、ステップS
9において出現回数による連結語句の選別と、読みの作
成を行う(ステップS9の処理については図7で詳述す
る)。すなわち、出現回数によって、抽出した連結語句
を選別するとともに、連結語句の先頭部分(もしくは連
結語句の一部)から短い読みを作成する。そして、読み
と表記の組み合わせで辞書に登録する。
【0010】上記ステップS4〜S6〔図4の(a)の
部分:形態素毎に繰り返すループ〕の処理を図5、図6
のフローチャートにより説明する。図5のステップS1
において、形態素を一つ取り出して、現在の形態素が抽
出パターンに含まれているかを調べる。抽出パターンと
は、予め、意味(概念)として一つのものを表している
連結語句が、どのような形態素の並びとなっているかを
連結語句の性質(種類)ごとに定めたパターンである。
図5のステップS1においては、該抽出パターンと、文
中の着目している形態素の前後の形態素の並びとを比較
して、連結語句として抽出すべき部分を発見する。な
お、ここでは、解析対象となる日本語の文が、文法的に
ある程度正しいことを前提とする。
【0011】図8に、いわゆる「名詞句」と「動詞句」
を抽出するために使用するパターンの例を示す。図8に
おいて、パターン中で、大括弧でくくられている部分
は、それがあってもなくても良いことを表す。また、中
括弧でくくられている部分は、括弧の中の形態素のいず
れかが1個存在することを表す。また、小括弧でくくら
れている部分は、括弧の中の形態素が、繰り返しも含め
て一つ以上存在することを表す。また、プラス記号はそ
の左右のパターンが、その順番で存在することを示す。
例えば、図8中の「美しい日本語を」、「開発支援セン
ター」、「和やかな教育講座」は名詞句の抽出パターン
に合致し、「印刷してください」、「決めさせていただ
きます」は動詞句の抽出パターンに合致する。なお、抽
出パターンとしては、上記パターンに限られず、例え
ば、括弧でかこまれた語句を抽出パターンとする等、種
々の抽出パターンを設定することができる。
【0012】図5に戻り、現在の形態素が上記抽出パタ
ーンに含まれている場合には、ステップS2にいき、現
段階で、スタックに作成されている形態素列を連結語句
として記録すべきかを判定する。スタックは、抽出パタ
ーンに含まれる形態素列を記録するためのものであり、
抽出する連結語句の性質毎に、互いに独立な別のものが
用意され、図5の”※”印の部分の処理は、それぞれの
連結語句の性質毎に独立して処理される。例えば抽出パ
ターンが名詞句と動詞句の場合には、図9に示すよう
に、名詞句用のスタックと動詞句用のスタックが用意さ
れ、名詞句と動詞句が別々に処理される。上記スタック
には、抽出パターンに含まれる形態素について、表記文
字列、読み文字列、および品詞コードをセットした形態
素情報として記録される。これらの情報は形態素解析の
結果を利用する。なお、本例では、同一表記・同一品詞
で、複数の読みを持つ形態素の場合、読み文字列は、形
態素解析が最優先の解とする読みを使用する。
【0013】図5に戻り、現在の形態素が上記抽出パタ
ーンに含まれている場合には、ステップS2に行き、現
段階でスタックに作成されている形態素列を連結語句と
して記録すべきかを判定する。そして、スタックに作成
されている形態素列を連結語句として記録しない場合
(スタック中の形態素列がまだ連結語句を構成していな
い場合)には、ステップS3に行き、後述するように現
在の形態素をスタックに入れる。また、スタックに作成
されている形態素列を連結語句として記録する場合に
は、ステップS4に行きスタックの内容を連結語句とし
て記録する(詳細の処理は後述する図6で説明する)。
スタックに作成されている形態素列を連結語句として記
録するタイミングは、例えば、句読点等の抽出パターン
に含まれない形態素が出現したり、予め定められた助詞
が出現した場合等であり、このタイミングで上記スタッ
クの内容を取り出し、先頭から全てを連結して、一つの
連結語句情報を作成し記録する。その際、後述するよう
に連結語句情報の記録先で出現回数を1回増やす。連結
語句情報は、形態素解析情報と同じく、表記文字列、読
み文字列、および品詞情報で構成される。表記文字列
は、スタックに入っていた各形態素情報の、表記文字列
を、形態素境界マークを入れながら連結して作成する。
読み文字列も同様である。形態素境界マークは、後で連
結語句の先頭部分から短い読みを作成する時に、読みを
切る位置を決定するために用いるものであり、図10に
その例を示す。図10に示すように、例えばスタック内
の形態素情報が「開発」(かいはつ:名詞)、「支援」
(しえん:名詞)、「センター」(せんたー:名詞)の
場合、各形態素の間に例えば黒四角で表される形態素境
界マークを入れる。
【0014】次いで、図5のステップS3において、現
在の形態素をスタックに入れる。現在の形態素をスタッ
クに入れるには、通常、処理対象としているスタックの
末尾から、着目している形態素の情報を格納する。ただ
し、名詞句の抽出パターン処理中の次の場合には、形態
素情報を加工してから、スタックへ格納する。 ・現在の形態素が形容詞の連体語尾で、直前の形態素が
形容詞語幹だった場合。 この場合は、直前の形態素と現在の形態素を連結して、
語幹と語尾を一つにまとめる。また、現在の形態素の表
記文字列と読み文字列の末尾に、連体修飾境界マークを
連結して、修飾部と被修飾部との境界を明示する。例え
ば、「美しい」を形態素解析すると「美し」と「い」に
分解される。ここで、図11(a)に示すように、現在
スタックに「美し」があって、「い」に着目していると
すると、「美し」をスタックから取り出して、「い」と
連結し、末尾に、例えば黒三角で示される連体修飾境界
マークを連結する。そして、連結後の形態素情報をスタ
ックに入れる。したがって「美しい」までを解析した時
のスタックの内容は図11(b)に示すようになる。
【0015】・現在の形態素が、形容動詞の連体語尾
で、直前の形態素が形容動詞語幹だった場合。 この場合は、現在の形態素の表記文字列と読み文字列の
末尾に、連体修飾境界マークを連結して、修飾部と被修
飾部との境界を明示する。例えば、「和やかな」を形態
素解析すると、「和やか」と「な」に分解される。ここ
で、図12(a)に示すように現在スタックに「和や
か」があって、「な」に着目しているとすると、「な」
の末尾に、例えば黒三角で示される連体修飾境界マーク
を連結し、スタックに入れる。したがって、「和やか
な」までを解析した時のスタックの内容は図12(b)
に示すようになる。
【0016】・現在の形態素が、助詞(格助詞)で、ス
タックに、形態素列が作成されている場合。 この場合は、現在の形態素の表記文字列と読み文字列の
先頭に、格助詞境界マークを置いて、名詞句本体と格助
詞との境界を明示する。例えば、「日本語を」を形態素
解析すると、「日本語」と「を」に分解される。ここ
で、図13(a)に示すように、現在スタックに「日本
語」があって、「を」に着目しているとすると、図13
(b)に示すように、「を」の先頭に、例えば黒丸で示
される格助詞境界マークを連結し、スタックに入れる。
したがって、「日本語を」までを解析した時のスタック
の内容は図13(c)に示すようになる。
【0017】また、動詞句の抽出パターン処理中の次の
場合にも、形態素情報を加工してからスタックへ入れ
る。 ・現在の形態素が、最初のサ変名詞だった場合。 ・現在の形態素が、動詞の終止・連体語尾だった場合。 これらの場合、現在の形態素の表記文字列と読み文字列
の末尾に、例えば黒菱形で示される先頭読み境界マーク
を連結して、連結語句の先頭部分から読み文字列を作成
する際の切れ目の位置を明示する。例えば、「決めさせ
るそうだ」は、「決め/させ/る/そう/だ」と形態素
解析される。このなかで、「る」が、動詞の終止・連体
語尾である。したがって、この場合には、「る」の末尾
に、黒菱形で示される先頭読み境界マークを連結しスタ
ックに入れる。「決めさせるそうだ」までを解析した直
後の、スタックの内容は、図14に示すようになる。
【0018】以上のように現在の形態素をスタックに格
納したら、上記形態素毎の処理を繰り返す。また、図5
のステップS1において、現在の形態素が、抽出パター
ンに含まれない場合には、ステップS5に行き、スタッ
クに形態素列が作成されているかを調べる。スタックに
形態素列が作成されている場合には、前記したようにス
タックの内容を連結語句として記録する。また、スタッ
クに形態素列が作成されていない場合には、次の形態素
について上記処理を繰り返す。
【0019】次に、図6により上記スタックの内容を連
結語句として記録する処理(図5のステップS4の処
理)の詳細について説明する。ステップS1において、
スタックに入っている形態素情報毎のループを開始す
る。ステップS2において、現在の形態素情報は適切で
あるかを判定し、適切でない場合にはループを脱出し、
記録作業を中止する。現在の形態素情報が適切な場合に
は、ステップS3において、連結語句情報の表記文字列
と読み文字列へ、形態素情報の表記および読みを加え
る。次いで、ステップS4において、前記したように連
結語句情報の表記文字列と読み文字列へ形態素境界のマ
ークを加える。図6のステップS5において、スタック
に入っている形態素情報毎のループを終了する。次い
で、ステップS6において連結語句情報を記録し、ステ
ップS7において、連結語句情報の記録先でその連結語
句の出現回数を1回増やし、処理を終了する。上記出現
回数の記録は、作成した連結語句情報をインデックスと
して、出現回数をその値とする連想配列(文字列をイン
デックスとした配列)を使って行う。
【0020】図7により、前記図4のステップS9(出
現回数によって抽出した単語を選別し、単語の先頭部分
から短い読みを作成する)の処理について詳述する。図
7のステップS1において、連結語句情報の記録先に記
録されている情報全てに関するループを開始する。ステ
ップS2において、現在の連結語句情報の出現回数が、
ユーザ等により指定された下限値を超えているかを調べ
る。下限値を超えていなければ、ステップ5に行く。ま
た、下限値を超えている場合には、ステップS3におい
てよみを作成し、ステップS4において出現回数テーブ
ルに配置する。
【0021】ステップS3のよみの作成は次のように行
われる。連結語句情報に含まれている、読み文字列か
ら、「全体読み」と「先頭部分読み」を次の手順で作成
する。 ・全体読みについて 連結語句情報から、読み文字列を取り出す。 先頭から1文字ずつ、全体読み文字列へコピーする。
このとき、形態素境界マークと先頭読み境界マークがあ
れば、それを全て削除する。 ・先頭部分読みについて 連結語句情報から、読み文字列を取り出す。 先頭から1文字ずつ、先頭部分読み文字列へコピーす
る。コピーする範囲は、動詞句の場合は、最初の先頭読
み境界マークが見つかるまでとし、それ以外の場合は、
最初の形態素境界マークが見つかるまでとする。これら
の境界マーク自体は、先頭部分読み文字列へコピーしな
い。例えば、図15に示すように「美しい日本語を」の
場合には、全体読みが「うつくしいにほんごを」とな
り、先頭部分読みは、最初の形態素境界マーク(黒四
角)までとなるので、「うつくしい」となる。また、
「決めさせるそうだ」の場合は、全体読みが「きめさせ
るそうだ」となり、先頭部分読みは、最初の先頭読み境
界マークまでとなるので、「きめさせる」となる。
【0022】また、ステップS4における出現回数テー
ブルへの配置は次のように行われる。前記連想配列の全
てのインデックスに関して、記録されている出現回数を
チェックし、例えばユーザが指定している出現回数の下
限よりも大きな値が記録されている場合、そのインデッ
クス(連結語句)を取り出し、読みを作成して、出現回
数テーブルへ配置する。出現回数テーブルは、例えば、
図16に示すように回数と連結語句情報をリンクさせる
構造のものであり、連結語句情報は、その出現回数に従
って、テーブルの該当位置にリンクされる。そして、全
連結語句情報の処理が終わった後に、テーブルを出現回
数順に出力することで、辞書への登録順と、連結語句の
出現回数とを同期させる。全てのインデックスに対して
処理が終わった後で、出現回数テーブルを順に出力すれ
ば、抽出した連結語句を、出現回数の順に出力すること
ができる。
【0023】図7に戻り、ステップS5で連結語句情報
の記録先に記録されている情報全てに関するループを終
了し、ステップS6で上記したように出現回数テーブル
の順に連結語句情報を出力し、ステップS7で連結語句
の選別と、読み作成の処理を終了する。なお、連結語句
を辞書に登録する際、出現回数の多い連結語句を優先順
位が上位になるように登録するようにしてもよい。これ
により、例えば、かな漢字変換に際し、出現回数の多い
ものから表示させることができる。また、上記説明で
は、連結語句の出現回数により連結語句を選択している
が、使用頻度が低くても、例えば特定の品詞条件を満た
す単語(例えば、固有名詞等)を含む連結語句や、ユー
ザが指定した例えば括弧でかこまれた連結語句等を選択
して辞書に登録するようにしてもよく、ユーザの指定等
により辞書登録する連結語句を適宜選定することが可能
である。例えば、使用頻度が低くても固有名詞を含む連
結語句を登録する場合には、図7のステップS2を、
「現在の連結語句情報の出現回数が、ユーザ等により指
定された下限値を超えているか、もしくは固有名詞を含
む連結語句であるか」という判定処理に変更すればよ
い。
【0024】次に、「美しい日本語を話しましょう。」
という文を例として、上記処理を具体的に説明する。 (1) 形態素解析 上記文を形態素解析すると、図17(1) に示すような形
態素解析結果が得られる。次いで、図5に示した形態素
毎のループを開始する。なお、この例では、名詞句と動
詞句を抽出することとして、名詞句抽出パターン用スタ
ックと、動詞句抽出パターン用スタックを用意する。
【0025】(2) 形態素列の解析を行う (i) まず、図17(2)(i)に示すように形態素「美し」に
着目する。この形容詞語幹は、名詞句抽出パターンに含
まれるので、図17(2)(i)に示すように形態素情報を名
詞句用のスタックに入れる(図5のステップS1→S2
→S3の処理)。動詞句用のスタックは空のままであ
る。 (ii)図17(ii)に示すように形態素「い」に着目する。
「い」は形容詞の連体語尾で、直前が形容詞の語幹だっ
たので、2つの形態素をまとめて一つにして名詞句用の
スタックに入れる(図5のステップS1→S2→S3の
処理)。その際、前記したように、「美しい」の末尾に
黒三角の連体修飾境界マークを連結する。なお動詞句用
のスタックは空のままである。 (iii) 図18(iii) に示すように形態素「日本語」に着
目する。名詞は名詞句用抽出パターンに含まれるので、
図18(2)(iii)に示すように「日本語」の形態素情報を
名詞句用のスタックに入れる(図5のステップS1→S
2→S3の処理)。動詞句用のスタックは空のままであ
る。
【0026】(vi)図18(iv)に示すように形態素「を」
に着目する。「を」は格助詞であり格助詞は名詞句用抽
出パターンに含まれる。また、このタイミングは、スタ
ック中の形態素列を、連結語句として記録するタイミン
グなので、図18(2)(iv) に示すように連結語句情報を
作成し、出現回数を1増やす。その際、「美しい」(末
尾に連体修飾境界マークを連結)と「日本語」の間に黒
四角の形態素境界マークを設ける。次いで格助詞「を」
を名詞句用のスタックに入れる(図5のステップS1→
S2→S4→S3の処理)。その際、「を」の先頭に黒
丸の格助詞境界マークを付ける。なお、動詞句用のスタ
ックは空のままである。 (v) 図18(v) に示すように「話」という形態素に着目
する。この形態素は動詞の語幹であり、動詞の語幹は名
詞句用抽出パターンに含まれない。このタイミングは、
名詞句用のスタック中の形態素列を連結語句として記録
すべきタイミングなので、図18(v) に示すように連結
語句情報を作成し、出現回数を1増やす。その際、「日
本語」と「を」(先頭に格助詞境界マークが付けられて
いる)の間に黒四角の形態素境界マークを設ける。ま
た、名詞句用のスタックを空にする(図5のステップS
1→S5→S6の処理)。動詞の語幹は、動詞句抽出パ
ターンに含まれるので、動詞句用スタックに「話」の形
態素情報を入れる(図5のステップS1→S2→S6の
処理)。以降、形態素「し」、「ましょ」も同様に動詞
句用のスタックに入れる。
【0027】(vi)図19(vi)に示すように形態素「う」
に着目する。この形態素は動詞の終止・連体語尾であ
り、動詞句用抽出パターンに含まれるので、動詞句用ス
タックに入れる。その際、「う」の末尾に黒菱形で示さ
れる先頭読み境界マークを連結しスタックに入れる。な
お、名詞句用のスタックは空のままである。 (vii) 図19(vii) に示すように形態素「。」に着目す
る。句点「。」は、動詞句抽出パターンに含まれない。
このタイミングは、スタック中の形態素を連結語句とし
て記録するタイミングなので、図19(vii) に示すよう
に連結語句情報を作成し、出現回数を1増やす(図5の
ステップS1→S5→S6の処理)。その際、「まし
ょ」と「う」の間に黒四角の形態素境界マークを設け
る。以上で形態素列全ての解析が終わったこととなる。
次に図7で説明した単語の選別と、読みの作成を行う。
【0028】(3) 連結語句の選別と、読みの作成 以上の処理により記録された連結語句情報は、「美しい
日本語」、「美しい日本語を」、「話しましょう」の3
つである。ユーザが例えば出現回数1回以上の単語を登
録するように指定していた場合、これら全てに対して読
み文字列を作成する。上記連結語句情報は図20(3)(i)
に示すようになる。先頭部分読みは、同図に示すように
動詞句の場合、最初の先頭読み境界マーク(黒菱形)が
見つかるまでであり、名詞句等のようにそれ以外の場合
には、最初の形態素境界マーク(黒四角)が見つかるま
でである。したがって、先頭部分読みは、「美しい日本
語」、「美しい日本語を」の場合は、「うつくしい」と
なり、「話しましょう」の場合は、「はなしましょう」
となる。以上の連結語句情報を辞書に登録すると、図2
0(ii)に示すようになる。同図において、各連結語句情
報の品詞は、名詞以外については「接続なし」としてい
る。「接続なし」とした連結語句は、例えば、かな漢字
変換を行う際、よみ部分のみを入力して変換キーを押し
た時漢字に変換される。このようにすれば、例えば「う
つくしいひと」と入力して変換キーを押したとき、「美
しい日本語人」あるいは「美しい日本語を人」と変換さ
れることがない。なお、連結語句情報を辞書に登録する
際、連結語句文字列をさらに分解できないかどうかを確
認している。この例では、「美しい日本語」、「美しい
日本語を」から、前記した黒三角の連体修飾境界マー
ク、黒丸の格助詞境界マークの位置を目安として、「美
しい」「日本語」「を」という分解結果が得られる。こ
のうち、助詞「を」を除いた「美しい」「日本語」も辞
書に登録する。
【0029】以上の説明では、「形容詞+名詞」という
形の語句を登録する例を上げたが、他にも名詞が複数つ
ながった語句などを登録することができる。例えば、
「来春の歯科医師国家試験に向けた問題選定作業が17
日に始まり、試験委員会が厚生省内で開かれた。」か
ら、「歯科医師国家試験(しかいしこっかしけん)」、
「問題選定作業(もんだいせんていさぎょう)」、「厚
生省内(こうせいしょうない)」、…のような語句を登
録することかできる。また、以上の説明では、「先頭部
分読み」を辞書に登録するようにする場合について説明
したが、先頭部分読みに限らず、例えば「お見舞い…」
から「お」を省いた「みまい」のように読みの一部を辞
書に登録するようにしてもよい。
【0030】図21は本発明の第2の実施例を示す概略
フローチャートであり、本実施例は品詞が用言(動詞、
形容詞、形容動詞)の場合、語幹のみで出現回数を計数
する場合の実施例を示している。図21において、ま
ず、指定された解析対象となる文書を読み込む(ステッ
プS1)。文書としては、前記したように各種ワープロ
で作成された文書、テキスト、電子メールの文書等、各
種の文書を解析対象とすることができる。次いで、本発
明の辞書作成処理を行う。辞書作成処理においては、ま
ず、本実施例の解析部を呼び出す(ステップS2)。解
析部の形態素解析処理においては、上記文書の形態素解
析を行い、文節単位に分割された単語のリストを生成す
る。そして、文書中に単語があるかを調べ(ステップS
3)、単語がなければ処理を終了する。単語がある場合
には、その単語の組み合わせが特定の組み合わせである
かを調べる(ステップS4)。特定の組み合わせでなけ
ればステップS3に戻る。また、単語の組み合わせが特
定の組み合わせの場合には、表記を連結し、読みを作
り、連結語句を作成する(ステップS6,S7)。ここ
までは前記図3に示した処理と同じである。次いで、連
結語句に用言が含まれるかを調べ(ステップS8)、用
言が含まれていない場合には、その出現回数を計数する
(ステップS9)。また、用言が含まれている場合に
は、その活用語幹毎に出現回数を計数する(ステップS
10)。以上の処理を繰り返し、文書から取り出した連
結語句について、出現回数を基に絞り込み、出現頻度が
高い連結語句を選択して読みと表記の組み合わせで辞書
に登録する(ステップS11)。本実施例の詳細処理
は、前記図5〜図7で説明した処理と同様であり、詳細
な説明は省略するが、用言について活用語幹で出現回数
をカウントする場合には、連結語句情報の中に出現回数
をカウントするための「カウントキー文字列」を作り、
用言の場合には、そこに活用語幹の表記文字列を設定
し、それをインデックスとする連想配列を使う。これに
より、語幹部分によるカウントを行うことができる。そ
して、前記図7のステップS2において、出現回数が下
限を超えているかを判定する際、用言については、活用
語幹の出現回数が下限を超えているかを判定する。以上
のように本発明の実施例によれば、複数の名詞が連結し
ている複合名詞や言い回しのような、比較的文字数の多
い連結語句を取り出して辞書を作成することができる。
特に、出現回数等により辞書に登録する連結語句を選択
することにより、使用者がよく利用する複合語句が優先
的に出てくるように辞書を整備することが可能となる。
【0031】本発明の辞書作成処理は、前記したよう
に、かな漢字変換システムあるいは日本語入力補助シス
テム等の各種システムに適用することができ、これらの
システムにおいて、本発明によれば、以下の実施例に示
すように、指定されたファイルを開いた時や電子メール
の返信を書くなど、既存文書を利用して作業を行う指示
をした時、あるいは、タイマーやフックによって処理を
開始し、辞書の作成を行うことができる。なお、ここで
のファイルは、ファイルとして存在しない、例えば単な
るメモリ上のデータを含むものである。図22に編集対
象として指定されたファイルを開く時に、辞書作成処理
を呼び出す場合の実施例を示す。ユーザが編集対象とす
るファイルを開く指示をした際、本処理の実行が指示さ
れていると、上記のような本発明の処理によってそのフ
ァイルの文書を解析し、文書中の単語、連結語句等を取
り出す。そして、読みとともに一時辞書に登録し、一時
的に使用できる状態とする(図22のステップS1→S
2→S3)。ユーザが上記文書について編集作業を行う
際には、上記辞書を使用して、変換作業等を行うことが
できる。なお、電子メールの返信の場合は、返信対象と
なる受信メールの文書を本発明の処理対象とする。ユー
ザが編集作業を行い、編集作業が終了すると、上記一時
的に作成した辞書を破棄する(図22のステップS4→
S5→S6)。なお、保存が必要な場合には、ユーザの
設定等によって上記一時辞書を保存するようにしてもよ
い。上記のように、指定されたファイルを開いた時、自
動的に辞書を作成することにより、ユーザが辞書作成処
理を起動するための操作を行うことなく辞書を作成する
ことができ、操作性を向上させることができる。また、
一時辞書を作成し、編集作業が終わったら該一時辞書を
破棄することにより、ユーザが辞書を削除する等の操作
をする必要がなく、操作性を向上させることができる。
さらに、記憶装置内の辞書の占める領域が知らぬまに膨
大になることを防ぐことができる。
【0032】図23に、タイマーやフックによって辞書
作成処理を呼び出す場合の実施例を示す。予め辞書作成
をするファイルを指定しておく。辞書作成対象となるフ
ァイルはユーザが予め指定してもよいし、あるいは、フ
ァイルの種類(ワープロ文書、メール等)に応じてデフ
ォルトで定めておいてもよい。また、予め辞書作成の対
象となるファイルを格納するホルダを定めておき、該ホ
ルダ内のファイルについて辞書作成を行うようにしても
よい。また、ユーザ等により、予め辞書を作成する時
刻、あるいは、辞書作成処理を起動するフックを設定し
ておく。タイマーにより上記所定時刻に割り込みが入っ
たり、あるいは、例えばブラウザ、メーラ等の特定のア
プリケーションを起動した時等、上記設定されたフック
によって辞書作成処理は開始される。なお、ブラウザの
起動を本処理の開始トリガとする場合には、指定された
URLのファイル(文書)を本発明の処理対象とする。
まず、上記指定されたファイルを検索し、当該ファイル
を読み込む(図23のステップS1→S2)。次いで、
上記のような本発明の処理によって、そのファイルの文
書を解析し、ファイル中の単語、連結語句等を取り出
し、読みとともに辞書に登録する(ステップS3→S
4)。上記のように、タイマー、フック等により自動的
に辞書を作成することにより、ユーザが辞書作成処理を
起動するための操作を行うことなく辞書を作成すること
ができ、上記実施例と同様、操作性を向上させることが
できる。また、タイマーにより辞書作成処理を起動する
ことにより、操作中に辞書作成処理のために操作が中断
されることもない。
【0033】以上の説明では、タイマー、フック等によ
り自動的に辞書を作成する実施例を説明したが、以下で
は、収集した単語を複数の辞書に振り分けて登録する実
施例について説明する。振り分け先の辞書は、例えば、
論文、雑誌の記事、特許、私用等の文書の種類や、技
術、法律、金融等の文書内容が属する分野、企業内にお
ける開発部、営業部等の部門、あるいは開発グループ等
毎に作成される辞書(以下では、これらをまとめて分野
別の辞書という)、あるいは、作成者や文書作成時期毎
に作成される辞書等である。まず、単語収集を自動実行
し、複数の辞書に振り分けて登録する実施例について説
明する。本実施例においては、図24(a)に示すよう
に、「Webの閲覧」、「文書の保存・更新」、「メー
ルの受発信」等のユーザの操作に着目し、その時に操作
の対象となっている文書を監視する。そして、文書中に
現れる単語と登録辞書との差分を抽出して、該文書から
自動的に単語を収集する。この時は、ユーザには何もメ
ッセージを出さず、ユーザは「単語収集」という操作を
意識することはない。その後一定期間の経過、または、
一定量の単語が収集できたとき等の適当なタイミング
で、ユーザに対して、収集した単語をリストアップす
る。ユーザは、例えば図24(b)に示す登録画面によ
り登録する辞書を選択し、収集した単語を例えば分野別
の辞書に振り分けて登録する。図25に本実施例の処理
フローを示す。先ず、機能停止の指示がされている場合
には、この処理を中断する。また、機能停止の指示が出
されていない場合には、監視対象としている文書をユー
ザが操作しているかを判断する(ステップS1,S
2)。監視対象としている文書をユーザが操作した場合
には、操作した文書を対象として、単語抽出処理を行
い、結果を抽出単語リストへ記録する(ステップS
3)。ついで、単語収集を中断するタイミングになる
と、登録先の辞書をユーザに選択させ、上記抽出単語リ
ストの単語をユーザが指定した辞書へ登録する。そし
て、抽出単語リストを削除する(ステップS4,S5,
S6,S7)。本実施例においては、上記のようにユー
ザに意識させることなく単語を自動収集し、複数の辞書
に登録することができるので、目的別の辞書を手軽に作
成し、利用することが可能となる。
【0034】上記実施例では、ユーザが振り分け先の辞
書を指定して単語登録を行っているが、次に、文書ファ
イルの属性情報により登録辞書の自動振り分けを行って
単語登録する実施例について説明する。図26は、辞書
の自動振り分けを含めた本実施例の全体処理を示す処理
フローである。まず、登録先辞書の自動振り分けを行う
かをユーザが指定する(ステップS1)。登録先の自動
振り分けを行わない場合には、前記したように通常の、
振り分けを行わない単語の抽出と、予め定められた辞書
への登録を行う(ステップS2)。登録先の自動振り分
けを行う場合には、登録先の振り分け方について指定す
る(ステップS3)。登録先の振り分けは、例えば図2
7に示すユーザインタフェースを使用して、ファイル
名、作成者、作成日等の文書ファイルの属性を指定する
ことにより行われる。登録先の振り分け方を指定したの
ち、単語抽出の対象とする文書が格納されているフォル
ダを指定する(ステップS4)。これにより、指定され
たフォルダの文書ファイルから単語の抽出が行われ、抽
出された単語が指定された辞書に登録される(ステップ
S5)。
【0035】振り分け先の指定画面には、図27に示す
ように、属性と、その属性値を示すチェック値、登録先
辞書名が表示される。図27のインタフェースで「追
加」を押したり,任意の設定を選択して「変更」を押し
た場合は,図28に示す画面が表示され、この画面で振
り分け方を設定する。上記画面において、各項目を次の
ように指定する。 ・チェック対象の属性の指定では、文書ファイルに関す
る属性のリストの中から、適当なものを選択する。属性
については、例えば図29に示すように、ファイル名、
作成日、作成者等を対象とする。また、これ以外に、ワ
ープロ文書のプロパティとして設定可能な項目等を属性
として扱うことができる。 ・チェックする値の指定では,チェック対象の属性につ
いて,どんな値を持つ文書を対象にするかを指定する。
この時、ファイル名や日付などについては、いわゆるワ
イルドカードを使った指定を可能にする。例えば、"FMV
00*.txt"は、ファイル名が"FMV00" で始まるtxt 文書フ
ァイルが対象となる。 ・登録先の辞書名では,既存の辞書名のリストの中か
ら,適当な辞書を選択するか、新規辞書として辞書名を
直接入力して、登録先の辞書を指定する。例えば、図2
8の例は、次のように指定したことになる。「ファイル
名が,"FMV00*.txt"である文書ファイルから単語を抽出
し,"FMV文書用" という名前の辞書に登録する。」
【0036】次に図30、図31の処理フローにより、
図26の処理フローにおける登録先を自動的に振り分け
る処理(図26のステップS5)について説明する。図
30において、まず、振り分け指定リストにユーザの指
定をセットし(ステップS1)、抽出単語リストをクリ
アする(ステップS2)。上記振り分け指定リストに
は、ユーザの指定条件が図32に示すように格納され
る。次いで、振り分け指定リストの全要素に対してルー
プ(1) を開始する(ステップS3)。ループ(1) では、
「ユーザの指定条件に合うファイルのリストアップ」を
行い、ついでループ(2) により「ファイルからの単語抽
出」を行い、次いで「指定された辞書への単語登録」と
いう処理を行う。すなわち、振り分け指定リストの現在
要素の属性とその値に該当する文書ファイル一覧リスト
を取得し(ステップS4)、文書ファイルの一覧リスト
の全要素に対するループ(2) を開始する。ループ(2) で
は、ユーザの指定条件に合うファイルについて、単語を
抽出して抽出単語リストへ追加保存する処理を繰り返し
(ステップS6)、文書ファイルの一覧リストの全ての
要素の処理が終わったらループ(2) を終了する(ステッ
プS7)。次いで、振り分け指定リストの現在要素の辞
書名に該当するユーザ辞書が存在するかを調べ(ステッ
プS8)、存在しない場合には、指定された辞書名で、
新しいユーザ辞書を作成する(ステップS9)。そし
て、対象のユーザ辞書に、抽出単語リスト内の単語を登
録し(ステップS10)、抽出単語リストをクリアする
(ステップS11)。上記処理を振り分け指定リストの
全ての要素について行い、その処理が終わったらループ
(1) を終了する(ステップS12)。以上のように、本
実施例では文書ファイルの属性情報により登録辞書の自
動振り分けを行って単語登録を行うようにしたので、辞
書選択に関するユーザの手間を軽減することができ、ま
た、日本語入力時に、適切な辞書を利用することが可能
となる。
【0037】次に、サーバ/クライアントシステムにお
ける各クライアントのかな漢字変換辞書の自動更新の実
施例について説明する。通常の業務では、各クライアン
トごとに基本辞書が装備されている。そして、文書の用
語を統一するために、基本辞書には含まれない業務ごと
の用語集を作成する場合が多く、文書作成時に用語集を
参照し、業務ごとの文書の用語を統一している。また、
各クライアントの辞書の更新は、各クライアント毎に辞
書を更新したり、辞書管理者がマスタ辞書を管理し、辞
書管理者が作成した辞書更新データをクライアントで取
り込んでいる。しかし、上記のように各クライアント毎
に基本辞書を装備し、各クライアントで辞書の更新を行
う場合には、上記のように用語集を作成する等、部門や
分野毎に文書の用語を統一することが必要となる。ま
た、辞書管理者がマスタ辞書を管理し、辞書更新データ
を各クライアントで取り込み、辞書を更新すれば、各ク
ライアントの辞書を共通化することが可能であるが、こ
の場合は、辞書管理者が必要となる。本実施例は、サー
バ/クライアントシステムにおいて、部門やグループ内
で、作成した文書に応じ、各クライアントの業務ごとの
かな漢字変換辞書を自動更新するものであり、辞書管理
者をおくことなく、部門やグループ内で作成した文書か
ら、部門やグループ内の辞書更新データを作成し、各ク
ライアントの分野別の辞書を自動更新することを可能と
する。
【0038】図33は本実施例のシステムの機能構成を
示す図である。同図において、21はサーバ、22a〜
22cはクライアントであり(以下ではクライアントを
総称して指す場合、クライアント22という)、サーバ
21とクライアント22はネットワーク等を介して接続
されている。サーバ21側には、次のプログラムとフォ
ルダおよび辞書マスタデータが用意される。 ・辞書データ作成プログラム 辞書データ作成プログラム31は、前記実施例で説明し
た文書を解析して、連結語句等を取り出し辞書を作成す
る「登録エンジン31a」と、登録エンジン31aによ
り抽出された語句と辞書マスタデータ33とを比較し
て、辞書マスタデータ33にないものを差分出力する
「差分抽出エンジン31b」と、辞書環境を設定する
「辞書環境設定プログラム31c」から構成される。図
34(b)に、上記登録エンジン31aが抽出するデー
タの1レコード当たりの構成例を示す。 ・フォルダ 部門やグループ内で作成した文書を登録するための「文
書フォルダ32a」および新規の追加単語を登録するた
めの「辞書データフォルダ32b」が用意される。上記
文書フォルダ32aは、更新する辞書名(分野)毎に用
意され、各クライアントで作成された文書が対応するフ
ォルダにコピーされる。 ・辞書マスターデータ 辞書マスタデータ33は、1レコードが、よみ/表現/
品詞属性からなる辞書作成用データベースであり、各ク
ライアントが持つ辞書ファイルの元データとされる。図
34(a)に辞書マスタデータ33の1レコード当たり
の構成例を示す。
【0039】また、クライアント22側には、次のプロ
グラムと辞書が用意される。 ・辞書更新プログラム 辞書更新プログラム34は、サーバ側上の辞書データフ
ォルタ32bから取り込まれた辞書更新データをクライ
アントのテンプフォルダにコピーし、辞書管理アプリケ
ーション35の辞書登録モジュールに渡す。 ・辞書管理アプリケーション 辞書管理アプリケーション35は辞書登録モジュールを
備え、上記辞書更新プログラム34より渡された辞書更
新データを辞書36に登録する。 ・辞書 ユーザはこの辞書36等を利用して文書37を作成/更
新する。作成/更新された文書37の内、ユーザは辞書
作成の対象となる文書を選択し、サーバ21の文書フォ
ルダ32aに登録する。分野別に辞書を作成する際に
は、例えばサーバ21上にそれに対応した複数のフォル
ダを設け、ユーザがフォルダを指定して文書を登録す
る。 ・クライアント辞書環境設定プログラム クライアント辞書環境設定プログラム38により、クラ
イアント側の辞書の環境設定を行う。
【0040】次に本実施例におけるサーバ側の処理とク
ライアント側の処理について説明すする。 (1)サーバ側の処理 図35、図36にサーバ側の概略処理フローを示す。以
下、図35、図36を参照しながらサーバ21側の処理
について説明する。上記したように、各クライアント2
2は、作成/更新した文書をサーバ21上の辞書更新対
象の文書フォルダ32aへコピーする。サーバ21は文
書フォルダ32aに登録された文書について以下の処理
を行う。辞書データ作成プログラム31は、辞書環境数
の辞書名(分野)分、以下の処理を繰り返す。ここで、
辞書は、部門/グループ等の分野毎に設けられ、上記辞
書名は各分野に対応して設定される。例えば、後述する
「辞書名1」の辞書は分野1に対応した辞書であり、
「辞書名2」の辞書は分野2に対応した辞書である。
【0041】(i) 辞書データ作成プログラム31は、初
期設定後、後述する辞書環境設定の監視タイマの設定
と、辞書環境設定の監視対象となる文書フォルダの設定
に従い、文書フォルダ32aに登録されている文書を検
出する(ステップS1,S2,S3)。 (ii)辞書データ作成プログラム31は、(i) で検出した
文書から、抽出処理日付と比較し、日付の新しい文書を
登録エンジン31aに渡し、利用頻度の高い単語を抽出
する(ステップS4,S5,S6)。 (iii) 辞書データ作成プログラム31は、辞書データ差
分抽出エンジン31bを呼び出し、(ii)で抽出した単語
と辞書マスタデータ33を比較し、新規に追加された単
語のみ抽出する(ステップS7)。 (iv)辞書データ作成プログラム31は、(iii) の新規追
加単語を辞書データフォルダ32bへコピーする(ステ
ップS8)。 (v) 辞書データ作成プログラム31は、抽出情報を作成
し、辞書環境設定プログラム31により辞書環境設定情
報を書き込む(ステップS9)。
【0042】次に、サーバ側における辞書環境設定につ
いて説明する。この設定はサーバの管理者により最初の
設定時に行われ、また、必要に応じてシステムの運用中
に設定を変更する。 (a) 辞書環境設定プログラム31cは、レジストリの辞
書環境値を参照し、辞書環境(辞書名)のリストと辞書
環境作成を、図37(a)に示すようにダイアログ表示
する。サーバの管理者は図37(a)のダイアログにお
いて、「辞書名」を選択したり、「辞書環境作成」を起
動することができる。 (b) 辞書環境作成 図37(a)の「辞書環境作成」を起動すると、辞書マ
スタデータ33を読み込み、図37(b)に示す辞書環
境設定ダイアログを表示する。このダイアログ上で管理
者は下記の各種の設定を行うことができる。管理者が設
定した情報は、辞書環境設定ダイアログを終了すると、
レジストリに書き込まれる。 ・辞書名 辞書マスタデータの名前を登録する ・監視タイマの設定 前記した文書を検出するタイミングを定める監視タイマ
を設定する。 ・監視フォルダのパス名設定 監視対象となる文書フォルダのパス名を設定する。ここ
では、複数の監視フォルダを設定できる。 ・抽出処理情報 登録先のパス名を設定する。辞書データ作成プログラム
31は抽出完了後に上記登録先パス名を参照し、辞書更
新データを登録する。また、抽出時の日付と単語数を同
時に書き込む。ユーザが日付を変更することもできる。
【0043】(c) 辞書名の選択(更新) 図37(a)のダイアログにおいて、辞書名を選択する
と、該当するレジストリの辞書環境値を読み込み、図3
7(b)に示す辞書環境設定ダイアログを表示する。選
択された辞書について既に環境情報が設定されている場
合には、設定済の情報が表示されるので、この画面上で
設定情報を更新することができる。ユーザが設定した情
報は、辞書環境設定ダイアログを終了すると、レジスト
リに書き込まれ、更新される。
【0044】(2)クライアント側の処理 図38にクライアント22側の概略処理フローを示す。
以下、図38を参照しながらクライアント側の処理につ
いて説明する。 (a) 辞書更新プログラムによる辞書の更新 辞書更新プログラム34は図38(a)に示す以下の処
理を行い、サーバ21から取り込んだ辞書更新データに
より辞書36を更新する。 (i) 辞書更新プログラム34が起動されると、初期設定
後、辞書更新日付が抽出処理日付より古い場合に、サー
バ21側から取り込んだ辞書環境設定情報に従い、サー
バ上の辞書データフォルダ32bの抽出先パスより辞書
更新データを取り込み、クライアントのテンプフォルダ
へコピーする(ステップS1,S2,S3)。 (ii)ついで、辞書更新プログラム34は、辞書管理アプ
リケーション35を呼び出し、取得した辞書更新データ
と辞書名を、辞書管理アプリケーション35の辞書登録
モジュールへ渡す(ステップS4)。 辞書登録モジュールは、上記辞書更新データにより上記
辞書名の辞書36を更新する。
【0045】(b) 辞書更新プログラムの起動 上記辞書更新プログラム34は次のタイミングで起動さ
れる。 (i) クライアント辞書環境設定の辞書更新ボタンを押
す。 (ii)かな漢字変換処理(以下IMEという)起動時に、
辞書更新プログラムを呼び出す。図38(b)にIME
起動時における辞書更新プログラムの起動処理を示す。
サーバ21から更新する辞書数(分野数)を取得し、全
ての分野の処理が終わったかを判断する(ステップS
1,S2)。全分野の処理が終わっていない場合には、
以下に説明するクライアント辞書環境設定において設定
される「IME起動時に辞書更新をする」にチェックが
あるかを調べる(ステップS3)。チェックがある場合
には、IME起動時にサーバ側の辞書環境設定情報を取
り込み、クラアイントに該当する辞書があるかをチェッ
クし、該当する場合、図37(a)に示した辞書更新プ
ログラムを呼び出す(ステップS4)。
【0046】次にクライアント側の辞書環境設定につい
て説明する。 (a) クライアント辞書環境設定プログラム38はサーバ
側から辞書環境設定情報を取り込み、図39(a)に示
すように辞書名リストを表示する。ここで、辞書名は前
記したように各分野に対応している。 (b) 辞書更新 辞書更新したい辞書名(例えば辞書名3)を選択する
と、サーバ21側の辞書環境設定情報に加え、クライア
ントの辞書環境設定情報を参照し、図39(b)に示す
ダイアログを表示する。この画面上で辞書更新を行う。
図39(b)において、抽出処理情報はサーバ側から取
得した辞書環境設定情報であり、単語抽出した日付、単
語数が表示される。辞書更新情報は、クライアント側の
更新情報であり、クライアント側の更新日付、単語数が
表示される。なお、ユーザが日付を変更することもでき
る。また、チェック欄は、前記したようにIME起動時
に辞書更新するか否かを設定する欄であり、IME起動
時に辞書更新する場合には、ここにチェックする。各フ
ィールドの確認後、「辞書更新ボタン」により辞書更新
プログラムを呼び出す。
【0047】(c) 辞書作成 辞書名を選択し、辞書管理アプリケーション35に問い
合わせても、クライアントに該当する辞書が存在しない
場合には、サーバ21側から辞書マスタデータを取り込
み、辞書管理アプリケーション35の辞書新規作成モジ
ュールを呼び出し、新規に辞書を作成する。この場合に
は、図39(c)に示すダイアログが表示され、各フィ
ールドの確認後、「辞書作成ボタン」により辞書新規作
成モジュールを呼び出し、新規に辞書作成を行う。以上
説明したように、本実施例においては、部門やグループ
(各分野)で作成した文書に応じて、自動更新すること
ができるので、かな漢字変換時に、所望の単語を漢字に
変換することができ、文書作成の効率を高めることがで
きる。また文書作成に応じた辞書の更新は、辞書管理者
を置くことなく監視タイマー等の設定により、サイクリ
ックに行うことができる。
【0048】上記した辞書の自動更新の実施例におい
て、前記した文書ファイルの属性による自動振り分けを
利用して、辞書更新を行うことができる。以下、上記し
た自動振り分けを利用したサーバ/クライアントシステ
ムにおける辞書更新処理の実施例について説明する。な
お、本実施例のシステムの機能構成は、前記図33と同
様であり、本実施例においては、サーバ21側の辞書環
境設定において、監視対象となる文書フォルダを設定す
る代わりに、監視対象となるファイルの属性を設定す
る。すなわち、登録先の自動振り分けを行う場合には、
サーバ21側の辞書環境設定において、前記したように
登録先の振り分け方について指定する。登録先の振り分
けは、例えば前記した図27に示したように、ファイル
名、作成者、作成日等の文書ファイルの属性を指定する
ことができる。ここで文書ファイルの属性は、前記図2
9に示したように、ファイル名、作成日、作成者等であ
る。以下、本実施例のサーバ側の処理について説明す
る。なお、クライアント側の処理は前記図38で示した
のと同様であり、本実施例においては、サーバ21側か
ら送られてくる辞書更新データを対応する振り分け先の
辞書に登録する。
【0049】(1)サーバ側の処理 前記と同様、各クライアント22は、作成/更新した文
書をサーバ21上の辞書更新対象となるファイルを文書
フォルダ32aへコピーする。辞書データ作成プログラ
ム31は、前記と同様、辞書環境数の辞書名(分野)
分、以下の処理を繰り返す。 (i) 辞書データ作成プログラム31は、初期設定後、後
述する辞書環境設定の監視タイマの設定と、辞書環境設
定の監視対象となる文書ファイルの設定に従い、文書フ
ォルダ32aに登録されている文書ファイルを検出す
る。 (ii)辞書データ作成プログラム31は、(i) で検出した
文書から、抽出処理日付と比較し、日付の新しい文書を
登録エンジン31aに渡し、利用頻度の高い単語を抽出
する。 (iii) 辞書データ作成プログラム31は、前記図30、
図31に示した処理を行って、抽出された単語を振り分
け先の辞書マスタに登録する。その際、辞書データ差分
抽出エンジン31bを呼び出し、(ii)で抽出した単語と
辞書マスタデータを比較し、新規に追加された単語のみ
を抽出して登録する。 (iv)辞書データ作成プログラム31は、(iii) の新規追
加単語を振り分け先毎に辞書データフォルダ32bへコ
ピーする。
【0050】次に、本実施例のサーバ側における辞書環
境設定について説明する。この設定はサーバの管理者に
より最初の設定時に行われ、また、必要に応じてシステ
ムの運用中に設定を変更する。 (a) 辞書環境設定プログラム31cは、レジストリの辞
書環境値を参照し、辞書環境(辞書名)のリストと辞書
環境作成を、前記図40(a)に示すダイアログに表示
する。サーバの管理者は図40(a)のダイアログにお
いて、「辞書名」を選択したり、「辞書環境作成」を起
動する。 (b) 辞書環境作成 図40(a)の「辞書環境作成」を起動すると、辞書マ
スタデータ33を読み込み、図40(b)に示す辞書環
境設定ダイアログを表示する。このダイアログ上で管理
者は前記したように、辞書名、監視タイマの設定等の設
定を行う。ここで、本実施例では、監視ファイルの設定
において、前記図28で説明したように、チェック対象
の属性、チェックする値、振り分け先の辞書名等を指定
する。管理者が設定した情報は、辞書環境設定ダイアロ
グを終了すると、レジストリに書き込まれる。 (c) 辞書名の選択(更新) 図40(a)のダイアログにおいて、辞書名を選択する
と、該当するレジストリの辞書環境値を読み込み、図4
0(b)に示す辞書環境設定ダイアログを表示する。こ
の画面上で設定情報を更新することができる。
【0051】以上説明したように、本実施例において
は、部門やグループ(各分野)で作成した文書に応じ
て、辞書管理者を置くことなく辞書を自動更新すること
ができるので、かな漢字変換時に、所望の単語を漢字に
変換することができ、文書作成の効率を高めることがで
きる。また、文書ファイルの属性情報により登録辞書の
自動振り分けを行って単語登録を行うようにしたので、
サーバ側に個々に監視対象となるフォルダを設けること
なく、自動的に振り分けを行って辞書を作成することが
できる。このため、ユーザの手間を軽減することがで
き、また、日本語入力時に、適切な辞書を利用すること
が可能となる。
【0052】以上説明したサーバ/クライアントシステ
ムの実施例では、サーバ21の辞書データフォルダ32
bに辞書マスタデータ33との差分情報である辞書更新
データを格納し、辞書更新データをクライアント22に
送り、クライアント22の辞書を更新するようにしてい
るが、辞書更新データをクライアントに送る代わりに、
サーバ21から、更新された辞書マスタデータ33をク
ライアント22に送って、クライアント22側の辞書を
更新するようにしてもよい。また、上記実施例では、サ
ーバ21側に辞書データ作成プログラム31を置いて、
サーバ21で辞書更新データを作成しているが、辞書デ
ータ作成プログラム31は必ずしもサーバ21に置く必
要はない。例えば、サーバ21側に文書フォルダ32a
のみを設けるとともに、クライアント22に辞書データ
作成プログラムを置き、各クライアント22上で、上記
文書フォルダ32aに格納された文書について、辞書更
新データを作成し、辞書更新をするようにしてもよい。
なお、この場合には、各クライアント22における更新
タイミングを一致させるのが望ましい。さらに、本実施
例の適用対象は必ずしも前記したサーバ/クライアント
システムに限定されず、上記の場合、文書フォルダ32
aを、各クライアント22から見にいくことができる共
有フォルダ内に置いて、各クライアントの辞書を更新す
るようにしてもよい。
【0053】(付記1) 既存の文書を解析し、連続す
る形態素の品詞情報を基に所定の連結条件に合致する連
結語句を取り出す手段と、取り出した連結語句に読みを
付与する手段を備え、上記連結語句とその読みの組み合
わせを記録することにより辞書を作成することを特徴と
する辞書作成装置。 (付記2) 連結語句の一部の読みを付与して辞書作成
することを特徴とする付記1の辞書作成装置。 (付記3) 連結語句の出現回数に基づき、使用頻度の
高いものを選択して辞書作成することを特徴とする付記
1または付記2の辞書作成装置。 (付記4) 出現回数の多い連結語句が、辞書内での優
先順位の上位になるように辞書を作成することを特徴と
する付記1または付記2の辞書作成装置。 (付記5) 使用頻度が低くても、特定の品詞条件を満
たす連結語句を選抜して辞書を作成することを特徴とす
る付記1または付記2の辞書作成装置。 (付記6) 動詞、形容詞などの用言が中心となる連結
語句の場合、その活用語幹で出現回数を計数することを
特徴とする付記2の辞書作成装置。 (付記7) 既存の文書を対象にした編集作業が指示さ
れた際に、該文書を解析して、単語もしくは連結語句を
取り出す手段と、単語もしくは連結語句に適切な読みを
付す手段とを備え、上記単語もしくは連結語句と、その
読みの組み合わせを記録することにより辞書を作成する
ことを特徴とする辞書作成装置。 (付記8) 上記文書の編集を終了するときに、作成し
た辞書を破棄する手段を備えたことを特徴とする付記7
の辞書作成装置。 (付記9) 定期的に、あるいは外的要因による割り込
みによって、特定のファイルの文書を解析し、単語もし
くは連結語句を取り出す手段と、単語もしくは連結語句
に読みを付す手段とを備え、上記単語もしくは連結語句
と、その読みの組み合わせを記録することにより辞書を
作成することを特徴とする辞書作成装置。 (付記10) コンピュータによって辞書作成処理を実
行させるためのプログラムを記録した記録媒体であっ
て、上記プログラムは、既存の文書を解析し、連続する
形態素の品詞情報を基に所定の連結条件に合致する連結
語句を取り出し、取り出した連結語句に適切な読みを付
して、その組み合わせを記録することにより辞書を作成
することを特徴とする辞書作成プログラムを記録した記
録媒体。 (付記11) 付記10のプログラムは、連結語句の一
部の読みを付与して辞書作成することを特徴とする辞書
作成プログラムを記録した記録媒体。 (付記12) 付記10または付記11のプログラム
は、連結語句の出現回数に基づき、使用頻度の高いもの
を選択して辞書作成することを特徴とする辞書作成プロ
グラムを記録した記録媒体。 (付記13) 付記10または付記11のプログラム
は、出現回数の多い連結語句が、辞書内での優先順位の
上位になるように辞書を作成することを特徴とする辞書
作成プログラムを記録した記録媒体。 (付記14) 付記10または付記11のプログラム
は、使用頻度が低くても、特定の品詞条件を満たす連結
語句を選抜して辞書を作成することを特徴とする付記2
の辞書作成プログラムを記録したコンピュータ読み取り
可能な記録媒体。 (付記15) 付記10または付記11のプログラム
は、形容詞などの用言が中心となる連結語句の場合、そ
の活用語幹で出現回数を計数することを特徴とする辞書
作成プログラムを記録した記録媒体。 (付記16) コンピュータによって辞書作成処理を実
行させるためのプログラムであって、上記プログラム
は、既存の文書を解析し、連続する形態素の品詞情報を
基に所定の連結条件に合致する連結語句を取り出し、取
り出した連結語句に適切な読みを付して、その組み合わ
せを記録することにより辞書を作成することを特徴とす
る辞書作成プログラム。 (付記17) コンピュータによって辞書作成処理を実
行させるためのプログラムを記録した記録媒体であっ
て、上記プログラムは、既存の文書を対象にした編集作
業が指示された際に、該文書を解析して、単語もしくは
連結語句を取り出し、単語もしくは連結語句に適切な読
みを付して、その組み合わせを記録することにより辞書
を作成することを特徴とする辞書作成プログラムを記録
した記録媒体。 (付記18) 付記17のプログラムは、上記文書の編
集を終了する時に、作成した辞書を破棄することを特徴
とする辞書作成プログラムを記録した記録媒体。 (付記19) コンピュータによって辞書作成処理を実
行させるためのプログラムであって、上記プログラム
は、既存の文書を対象にした編集作業が指示された際
に、該文書を解析して、単語もしくは連結語句を取り出
し、単語もしくは連結語句に適切な読みを付して、その
組み合わせを記録することにより辞書を作成することを
特徴とする辞書作成プログラム。 (付記20) コンピュータによって辞書作成処理を実
行させるためのプログラムを記録した記録媒体であっ
て、定期的に、あるいは外的要因による割り込みによっ
て、特定のファイルの文書を解析し、単語もしくは連結
語句を取り出し、単語もしくは連結語句に適切な読みを
付して、その組み合わせを記録することにより辞書を作
成することを特徴とする辞書作成プログラムを記録した
記録媒体。 (付記21) コンピュータによって辞書作成処理を実
行させるためのプログラムであって、定期的に、あるい
は外的要因による割り込みによって、特定のファイルの
文書を解析し、単語もしくは連結語句を取り出し、単語
もしくは連結語句に適切な読みを付して、その組み合わ
せを記録することにより辞書を作成することを特徴とす
る辞書作成プログラム。 (付記22) ネットワークを介して接続されたコンピ
ュータに辞書作成処理を実行させるためのプログラムで
あって、上記プログラムは、所定のタイミングで共有フ
ォルダに格納された監視対象となる文書を解析して、単
語もしくは連結語句を取り出し、単語もしくは連結語句
に適切な読みを付して、その組み合わせを記録すること
により辞書を作成することを特徴とする辞書作成プログ
ラム。 (付記23) サーバとクライアントとから構成される
システムにおいて、サーバによって実行される辞書作成
処理のためのプログラムであって、上記プログラムは、
クライアントで作成した文書を格納した文書フォルダ内
の文書を解析して、単語もしくは連結語句を取り出し、
単語もしくは連結語句に適切な読みを付して、クライア
ント用の辞書データを作成することを特徴とする辞書作
成プログラム。 (付記24) 上記クライアント用の辞書データは、既
存の辞書との差分データであることを特徴とする付記2
3の辞書作成プログラム。 (付記25) コンピュータによって辞書作成処理を実
行させるためのプログラムであって、上記プログラム
は、既存の文書を解析して、単語もしくは連結語句を取
り出し、上記文書のファイル属性に応じて振り分け先の
辞書を決定し、単語もしくは連結語句に適切な読みを付
して、その組み合わせを、上記振り分け先の辞書に記録
することにより辞書を作成することを特徴とする辞書作
成プログラム。
【0054】
【発明の効果】以上説明したように、本発明によれば、
複数の名詞が連結している複合名詞や言い回しのよう
な、比較的文字数の多い連結語句を取り出して辞書を作
成することができる。特に、出現回数等により辞書に登
録する連結語句を選択することにより、ユーザがよく利
用する連結語句が優先的に出てくるように辞書を整備す
ることが可能となる。このため、連結語句等を含む辞書
を従来より容易に、簡単に、かつ高速に行うことがで
き、辞書の保守にかかるコストを軽減することができ
る。また、かな漢字変換に際して、よく使う連結語句が
優先的に出てくるので、文書作成にかかる時間を短縮す
ることができる。さらに文字数の多い連結語句を取り出
し、一部の読みを付けて登録できるので、かな漢字変換
に際し、短い読みを入力するだけで、長い複合語や言い
回しを変換できるようになり、日本語の入力する場面
で、使用者の手間を軽減することができる。また、文書
を開いたとき自動的に辞書作成処理を開始させたり、タ
イマーやフックで自動的に辞書作成処理を開始させるこ
とにより、ユーザが辞書作成のための操作を行う必要が
なく、操作性を向上させることができる。さらに、一時
辞書を作成し、ファイル編集が終わったら該一時辞書を
破棄することにより、ユーザが辞書を削除する等の操作
をする必要がなく、また、記憶装置内の辞書の占める領
域が知らぬまに膨大になるといった問題を防ぐことがで
きる。さらに、共有フォルダに格納された文書を解析し
て、辞書を自動的に作成/更新することにより、辞書管
理者を置くことなく、フォルダを共有するコンピュータ
の利用者が共通の辞書を使用して文書を作成することが
でき、用語の統一等を容易に図ることができる。また、
文書のファイル属性に応じて振り分け先の辞書を決定
し、文書から取り出された単語もしくは連結語句を辞書
に記録することにより、自動的に目的別、分野別等の辞
書を作成/更新することができる。
【図面の簡単な説明】
【図1】本発明の概要を示す図である。
【図2】本発明が適用されるシステムの構成例を示す図
である。
【図3】本発明の第1の実施例を示す概略フローチャー
トである。
【図4】本発明の第1の実施例の詳細を示すフローチャ
ート(1)である。
【図5】本発明の第1の実施例の詳細を示すフローチャ
ート(2)である。
【図6】本発明の第1の実施例の詳細を示すフローチャ
ート(3)である。
【図7】本発明の第1の実施例の詳細を示すフローチャ
ート(4)である。
【図8】「名詞句」と「動詞句」の抽出パターンの例を
示す図である。
【図9】スタックの使用例を説明する図である。
【図10】形態素境界マークの使用例を示す図である。
【図11】連体修飾境界マークの使用例を示す図であ
る。
【図12】連体修飾境界マークの使用例を示す図であ
る。
【図13】格助詞境界マークの使用例を示す図である。
【図14】「決めさせるそうだ」に先頭読み境界マーク
を連結したときのスタックの内容を示す図である。
【図15】全体読みと先頭部分読みの例を示す図であ
る。
【図16】出現回数テーブルの構成例を示す図である。
【図17】辞書作成処理の具体例を説明する図(1)で
ある。
【図18】辞書作成処理の具体例を説明する図(2)で
ある。
【図19】辞書作成処理の具体例を説明する図(3)で
ある。
【図20】辞書作成処理の具体例を説明する図(4)で
ある。
【図21】本発明の第2の実施例を示す概略フローチャ
ートである。
【図22】ファイルを開くときに辞書作成処理を呼びだ
す場合の実施例を示す図である。
【図23】タイマーやフックによって辞書作成処理を呼
び出す場合の実施例を示す図である。
【図24】単語収集の自動実行を説明する図である。
【図25】単語収集を自動実行し、単語を複数の辞書に
振り分けて登録する処理を示すフローチャートである。
【図26】辞書の自動振り分けを行い単語登録をする全
体を含めた本実施例の全体処理を示すフローチャートで
ある。
【図27】登録先辞書の振り分けを指定するユーザイン
タフェースの例を示す図である。
【図28】振り分け方を設定するユーザインタフェース
の例を示す図である。
【図29】属性とそれに対する値の指定の例を示す図で
ある。
【図30】登録先辞書を自動的に振り分ける処理を示す
フローチャート(1)である。
【図31】登録先辞書を自動的に振り分ける処理を示す
フローチャート(2)である。
【図32】振り分け指定リストの例を示す図である。
【図33】辞書を自動更新する機能を備えたサーバ/ク
ライアントシステムの構成例を示す図である。
【図34】登録エンジンにより抽出されるデータと、辞
書マスターデータの構成を示す図である。
【図35】サーバ側の概略処理フローを示す図(1)で
ある。
【図36】サーバ側の概略処理フローを示す図(2)で
ある。
【図37】サーバ側における辞書環境設定のためのダイ
アログを示す図である。
【図38】クライアント側の概略処理フローを示す図で
ある。
【図39】クライアント側における辞書環境設定のため
のダイアログを示す図である。
【図40】ファイル属性により登録先辞書を振り分ける
場合のサーバ側における辞書環境設定のためのダイアロ
グを示す図である。
【符号の説明】
1 文書 2 辞書作成装置 3 辞書 11 マイクロ処理装置(MPU) 12 主記憶装置 13 補助記憶装置 14 入力装置14 15 表示装置 16 通信インタフェース 21 サーバ 22 クライアント
───────────────────────────────────────────────────── フロントページの続き (72)発明者 松本 定道 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 (72)発明者 若月 実 神奈川県横浜市港北区新横浜二丁目15番地 16 株式会社富士通ハイパーソフトテクノ ロジ内 (72)発明者 太田 修 神奈川県横浜市港北区新横浜二丁目15番地 16 株式会社富士通ハイパーソフトテクノ ロジ内 Fターム(参考) 5B009 MF02 MF03

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 既存の文書を解析し、連続する形態素の
    品詞情報を基に所定の連結条件に合致する連結語句を取
    り出す手段と、 取り出した連結語句に読みを付与する手段を備え、上記
    連結語句とその読みの組み合わせを記録することにより
    辞書を作成することを特徴とする辞書作成装置。
  2. 【請求項2】 コンピュータによって辞書作成処理を実
    行させるためのプログラムを記録した記録媒体であっ
    て、 上記プログラムは、既存の文書を解析し、連続する形態
    素の品詞情報を基に所定の連結条件に合致する連結語句
    を取り出し、取り出した連結語句に適切な読みを付し
    て、その組み合わせを記録することにより辞書を作成す
    ることを特徴とする辞書作成プログラムを記録した記録
    媒体。
  3. 【請求項3】 コンピュータによって辞書作成処理を実
    行させるためのプログラムであって、 上記プログラムは、既存の文書を解析し、連続する形態
    素の品詞情報を基に所定の連結条件に合致する連結語句
    を取り出し、取り出した連結語句に適切な読みを付し
    て、その組み合わせを記録することにより辞書を作成す
    ることを特徴とする辞書作成プログラム。
  4. 【請求項4】 ネットワークを介して接続されたコンピ
    ュータに辞書作成処理を実行させるためのプログラムで
    あって、 上記プログラムは、所定のタイミングで共有フォルダに
    格納された監視対象となる文書を解析して、単語もしく
    は連結語句を取り出し、 単語もしくは連結語句に適切な読みを付して、その組み
    合わせを記録することにより辞書を作成することを特徴
    とする辞書作成プログラム。
  5. 【請求項5】 コンピュータによって辞書作成処理を実
    行させるためのプログラムであって、 上記プログラムは、既存の文書を解析して、単語もしく
    は連結語句を取り出し、上記文書のファイル属性に応じ
    て振り分け先の辞書を決定し、単語もしくは連結語句に
    適切な読みを付して、その組み合わせを、上記振り分け
    先の辞書に記録することにより辞書を作成することを特
    徴とする辞書作成プログラム。
JP2001163269A 2000-09-06 2001-05-30 辞書作成装置 Pending JP2002157241A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001163269A JP2002157241A (ja) 2000-09-06 2001-05-30 辞書作成装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000-270254 2000-09-06
JP2000270254 2000-09-06
JP2001163269A JP2002157241A (ja) 2000-09-06 2001-05-30 辞書作成装置

Publications (1)

Publication Number Publication Date
JP2002157241A true JP2002157241A (ja) 2002-05-31

Family

ID=26599361

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001163269A Pending JP2002157241A (ja) 2000-09-06 2001-05-30 辞書作成装置

Country Status (1)

Country Link
JP (1) JP2002157241A (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006107143A (ja) * 2004-10-05 2006-04-20 Infocom Corp 学習型辞書管理システム
JP2007004636A (ja) * 2005-06-24 2007-01-11 Microsoft Corp 言語入力システム、その処理方法、記録媒体及びプログラム
US7166872B2 (en) 2002-08-22 2007-01-23 Seiko Epson Corporation Device substrate, production method therefor, electronic device, production method therefor, optic device, production method therefor, and electronic apparatus
JP2007018359A (ja) * 2005-07-08 2007-01-25 Sharp Corp 言語処理装置及び言語処理方法と、言語処理プログラム
JP2007025980A (ja) * 2005-07-14 2007-02-01 Ricoh Co Ltd 情報指定システム、情報指定方法、サーバ装置、情報指定装置及び情報指定プログラム
JP2007310825A (ja) * 2006-05-22 2007-11-29 Microsoft Corp 文字処理装置、その読みおよび表記の取得方法およびプログラムならびに文字処理装置を使用する情報処理システム
JP2011118861A (ja) * 2009-11-02 2011-06-16 Hyper Tec:Kk 文書チェック装置、文書チェックプログラムおよび文書チェック方法
JP2011118780A (ja) * 2009-12-04 2011-06-16 Baidu Japan Inc 文字列変換装置、検索装置、文字列変換方法、文字列変換プログラム
JP2012078449A (ja) * 2010-09-30 2012-04-19 Kddi Corp 音声認識装置およびその制御プログラム
JP2012083815A (ja) * 2010-10-07 2012-04-26 Sharp Corp 文字列変換装置、文字列変換方法、コンピュータプログラムおよび記録媒体
JP2014174804A (ja) * 2013-03-11 2014-09-22 Omron Corp ハングル文字入力用のプログラムおよびハングル文字入力装置
JP5696280B1 (ja) * 2014-04-08 2015-04-08 幸治 松村 用語統一システム及び用語統一プログラム、並びに用語統一方法
JP2021051613A (ja) * 2019-09-25 2021-04-01 株式会社日立製作所 自然言語処理において使用される辞書を作成する方法およびシステム

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7166872B2 (en) 2002-08-22 2007-01-23 Seiko Epson Corporation Device substrate, production method therefor, electronic device, production method therefor, optic device, production method therefor, and electronic apparatus
JP2006107143A (ja) * 2004-10-05 2006-04-20 Infocom Corp 学習型辞書管理システム
JP2007004636A (ja) * 2005-06-24 2007-01-11 Microsoft Corp 言語入力システム、その処理方法、記録媒体及びプログラム
JP2007018359A (ja) * 2005-07-08 2007-01-25 Sharp Corp 言語処理装置及び言語処理方法と、言語処理プログラム
JP2007025980A (ja) * 2005-07-14 2007-02-01 Ricoh Co Ltd 情報指定システム、情報指定方法、サーバ装置、情報指定装置及び情報指定プログラム
JP2007310825A (ja) * 2006-05-22 2007-11-29 Microsoft Corp 文字処理装置、その読みおよび表記の取得方法およびプログラムならびに文字処理装置を使用する情報処理システム
JP2011118861A (ja) * 2009-11-02 2011-06-16 Hyper Tec:Kk 文書チェック装置、文書チェックプログラムおよび文書チェック方法
JP2011118780A (ja) * 2009-12-04 2011-06-16 Baidu Japan Inc 文字列変換装置、検索装置、文字列変換方法、文字列変換プログラム
JP2012078449A (ja) * 2010-09-30 2012-04-19 Kddi Corp 音声認識装置およびその制御プログラム
JP2012083815A (ja) * 2010-10-07 2012-04-26 Sharp Corp 文字列変換装置、文字列変換方法、コンピュータプログラムおよび記録媒体
JP2014174804A (ja) * 2013-03-11 2014-09-22 Omron Corp ハングル文字入力用のプログラムおよびハングル文字入力装置
JP5696280B1 (ja) * 2014-04-08 2015-04-08 幸治 松村 用語統一システム及び用語統一プログラム、並びに用語統一方法
JP2021051613A (ja) * 2019-09-25 2021-04-01 株式会社日立製作所 自然言語処理において使用される辞書を作成する方法およびシステム

Similar Documents

Publication Publication Date Title
JP3691844B2 (ja) 文書処理方法
JP3254642B2 (ja) 索引の表示方法
US8484238B2 (en) Automatically generating regular expressions for relaxed matching of text patterns
JPH07325827A (ja) ハイパーテキスト自動生成装置
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
Cunningham et al. Developing language processing components with GATE
JP2002157241A (ja) 辞書作成装置
JP2001101185A (ja) 辞書の自動切り換えが可能な機械翻訳方法および装置並びにそのような機械翻訳方法を実行するためのプログラムを記憶したプログラム記憶媒体
JP4217495B2 (ja) 音声認識辞書作成方法、音声認識辞書作成装置及びプログラム、記録媒体
Fairon GlossaNet: Parsing a web site as a corpus
JP2019121164A (ja) 文書作成装置、文書作成方法、データベース構築装置、データベース構築方法、およびプログラム
ed erique Segond et al. Using a finite-state based formalism to identify and generate multiword expressions'
JP2005050156A (ja) コンテンツの置換方法及びシステム
JP2003288332A (ja) 構造化文書作成支援方法及び構造化文書作成支援システム
JP7308059B2 (ja) 発想支援システム、発想支援方法、プログラム
Brew et al. Data-intensive linguistics
JP4023371B2 (ja) 固有名認識装置および方法
JP2000231561A (ja) 検索方法ならびに装置及び同方法がプログラムされ記録された記録媒体
JPH1145251A (ja) 検索機能を用いた情報分析支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11272666A (ja) 文書編集システム、方法、及び記録媒体
JP2002297587A (ja) 言語解析用データ作成方法、言語解析方法及び前記方法に用いるプログラム
Vale et al. Building a large dictionary of abbreviations for named entity recognition in Portuguese historical corpora
JP2003173338A (ja) 辞書構築支援装置、辞書構築支援方法及び辞書構築支援プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050902

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070220

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070419

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070522