JP3838857B2

JP3838857B2 - 辞書装置

Info

Publication number: JP3838857B2
Application number: JP2000283038A
Authority: JP
Inventors: 達哉介弘; 真鳥越; 泰広川北; 聰中川; 聡彦松永
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2000-09-19
Filing date: 2000-09-19
Publication date: 2006-10-25
Anticipated expiration: 2020-09-19
Also published as: JP2002091965A

Description

【０００１】
【発明の属する技術分野】
本発明は、自然言語処理装置で利用される辞書装置に関し、例えば、インターネットのように不特定多数のユーザがアクセスできるネットワークのサーバ上に設けられている機械翻訳装置の辞書に適用し得るものである。
【０００２】
【従来の技術】
インターネットの普及により、海外の情報に容易にアクセスできるようになり、また、海外へ容易に情報を発信できるようになってきた。そのため、外国語の文書を日本語に機械翻訳したり、日本語の文書を外国語に機械翻訳したりすることに対する要求は非常に高くなってきた。
【０００３】
このような要求に鑑み、インターネットのように不特定多数のユーザがアクセスできるネットワークのサーバ上に機械翻訳装置を搭載することが研究、開発されている。
【０００４】
機械翻訳装置には、一般的には、どのような分野においても広く使用される単語などを格納した一般用語辞書と、ユーザが任意に単語などを登録したユーザ辞書とが設けられている。さらには、特定の専門分野において広く使用される単語などを格納した専門用語辞書を有する機械翻訳装置もある。
【０００５】
インターネットのサーバ上に設けられる機械翻訳装置は、様々な文書が対象となるので、そのような装置のために用いられる辞書は、一般用語辞書、ユーザ辞書及び専門用語辞書の３種類の辞書構成となり、特に、訳質を考慮した場合、専門用語辞書のウェイトが大きくなるであろう。
【０００６】
インターネットから入手した文書の翻訳結果として、良好な訳質のものを、できるだけ時間を掛けずに得る方法として、特開平１０−２１２２２号公報に記載されたものがある。
【０００７】
この公報記載の方法は、翻訳対象となる文書（Ｗｅｂページ）を入手する際に用いたＵＲＬなどの文書識別情報から、専門分野を特定し、専門用語辞書を自動的に設定することによって、ユーザに複雑な設定を強いることなく、高品質の翻訳結果を得ようとしたものである。
【０００８】
【発明が解決しようとする課題】
しかしながら、文書識別情報はその文書を一意に表すためのものであって分野やジャンルを表す文字にする必要はないので、文書識別情報では、文書の分野やジャンルを特定することが難しい。特に、インターネットから入手できる文書の分野やジャンルは多種多様であるため、全ての分野やジャンルを特定することが難しい。
【０００９】
仮に特定できたとしても、インターネットから入手できる文書の分野はジャンルは多種多様であるため、多種多様な専門用語辞書がないと、正しく理解できるような翻訳結果を得ることができない。
【００１０】
多種多様な専門用語辞書を、機械翻訳装置の開発者や提供側で全て用意することは実際上困難である。
【００１１】
そのため、専門用語辞書として、大分類の少数のものを用意し、その専門用語辞書で対応できない部分をユーザ辞書に委ねることも考えられる。
【００１２】
しかしながら、インターネットのサーバ上に設けられる機械翻訳装置の場合、ユーザ数が多数に上り、ユーザ辞書に委ねる部分が多いと、サーバでの記憶容量が膨大になってしまう。また、多くのユーザが同一の単語を登録することもあり得、システムとしての無駄が大きい。
【００１３】
また、専門用語辞書に、その分野やジャンルの知識が豊富なユーザの知識を反映させることが考えられる。しかし、あるユーザが登録、編集した内容が他のユーザに不満足なこともあり得、極端な場合には、ユーザがいたずら等によって、不適当な登録を行う恐れも高い。
【００１４】
そのため、多数のユーザが利用する自然言語処理装置において、良好な処理結果を得ることができる辞書装置が求められている。
【００１５】
【課題を解決するための手段】
第１の本発明の辞書装置は、複数のユーザが利用する自然言語処理装置に設けられる辞書装置であって、専門分野やジャンルを分類したカテゴリー毎の複数の専門用語辞書を、一般用語辞書をルートノードとしたツリー構造で階層化している辞書本体と、任意の上記専門用語辞書に関連付けて、ユーザ辞書を設定させるユーザ辞書登録手段とを有することを特徴とする。
【００１６】
第２の本発明の辞書装置は、複数のユーザが利用する自然言語処理装置に設けられる辞書装置であって、ユーザが編集可能なユーザ毎のユーザ辞書と、全ユーザに共通な共通辞書と、同一の辞書情報が所定条件を満たす数の上記ユーザ辞書に格納されているときに、その辞書情報を上記共通辞書に登録する共通辞書充実化手段とを有することを特徴とする。
【００１７】
第３の本発明の辞書装置は、階層構造で上位の上位辞書と、上記上位辞書の下位に位置している複数の下位辞書と、同一の辞書情報が所定条件を満たす数の上記下位辞書に格納されているときに、その辞書情報を上記上位辞書に登録する辞書情報統合手段とを有することを特徴とする。
【００１８】
第４の本発明の辞書装置は、複数のユーザが利用する自然言語処理装置に設けられる辞書装置であって、ユーザが編集可能なユーザ毎のユーザ辞書と、全ユーザに共通な共通辞書と、少なくとも上記各ユーザ辞書の格納内容に基づき、上記共通辞書の下位に下位辞書を設定する辞書分割・生成手段とを有することを特徴とする。
【００１９】
【発明の実施の形態】
（Ａ）第１の実施形態
以下、本発明による辞書装置を、インターネットのサーバ上に設けられる機械翻訳機能に適用した第１の実施形態を図面を参照しながら説明する。
【００２０】
（Ａ−１）第１の実施形態の構成
図２は、第１の実施形態が適用されている機械翻訳ネットワークシステムの構成を示すブロック図である。
【００２１】
図２において、この機械翻訳ネットワークシステム１は、インターネット２上のサーバ３が、インターネット２を介してユーザ端末４に接続し得る構成となっている。図２では示していないが、サーバ３は、インターネット２を介して他のサーバ等にも接続され得る。
【００２２】
サーバ３は、ＨＴＴＰデーモン１０、ログ解析部１１、アクセスログ格納部１２、Ｗｅｂサーバ１３、機械翻訳システム１４、辞書データベース１５、辞書コンバータ１６、ＨＴＭＬパーザ１７及び入出力装置１８を有する。
【００２３】
ここで、Ｗｅｂサーバ１３は、機能的には、コミュニケーションツール１３ａ、Ｗｅｂ翻訳処理部１３ｂ、辞書編集部１３ｃ、ユーザ登録・認証部１３ｄ及びコミュニティ管理部１３ｅを有する。また、機械翻訳システム１４は、翻訳エンジン１４ａ及び辞書部１４ｂを有する。さらに、辞書データベース１５は、辞書情報部１５ａ、ユーザ情報部１５ｂ及びコミュニティ情報部１５ｃを有する。
【００２４】
ユーザ端末４は、インターネット２側に対して、ホームページやＷｅｂページ（以下ではこれらをまとめてＷｅｂページと呼ぶ）５の検索を指示するものである。ここで、サーバ３の運営者との間で翻訳サービスの提供契約を締結しているユーザは、検索されたＷｅｂページを所定言語に翻訳して送信することを、ユーザ端末４を用いてサーバ３に指示することができる。ユーザは、例えば、サーバ３が提供するホームページ上の翻訳指示入力フィールドに入力したり、サーバ３に与えるＷｅｂページを規定する文書識別情報に翻訳を指示するコードを導入したり、リンク先情報として翻訳結果の文書を指定したりすることにより、検索されたＷｅｂページを所定言語に翻訳して送信することを指示することができる。
【００２５】
サーバ３において、ＨＴＴＰデーモン１０は、検索されたＷｅｂページ（ＨＴＭＬ文書）を所定の転送プロトコルに従って転送させるものである。
【００２６】
ログ解析部１１は、ユーザ端末４からの検索したいＷｅｂページやユーザ端末４を規定する通信情報から、アクセスログを得てアクセスログ格納部１２に格納させたりすると共に、Ｗｅｂサーバ１３をログインさせたりログアウトさせたりするものである。なお、ログインさせる際には、ユーザの認証などが必要となる。
【００２７】
Ｗｅｂサーバ１３におけるコミュニケーションツール１３ａは、Ｗｅｂページの検索のための通信機能や、ユーザ端末４との通信機能等を担うものである。
【００２８】
Ｗｅｂサーバ１３における他の機能部、すなわち、Ｗｅｂ翻訳処理部１３ｂ、辞書編集部１３ｃ、ユーザ登録・認証部１３ｄ及びコミュニティ管理部１３ｅは、Ｗｅｂページの翻訳に関係する機能部である。
【００２９】
Ｗｅｂ翻訳処理部１３ｂは、検索されたＷｅｂページが翻訳を必要な場合に、ＨＴＭＬパーザ１７を介して、機械翻訳システム１４に検索されたＷｅｂページを与えてそのＷｅｂページの翻訳を実行させるものである。
【００３０】
ここで、ＨＴＭＬパーザ１７は、タグ情報等に基づいて、検索されたＷｅｂページ（ＨＴＭＬ文書）における翻訳が必要な部分（文章部分）だけを取り出して機械翻訳システム１４に与え、また、翻訳結果にタグ情報を復帰させてＷｅｂページ（ＨＴＭＬ文書）に戻すものである。また、機械翻訳システム１４において、翻訳エンジン１４ａは機械翻訳を実行する部分であり、辞書部１４ｂは翻訳エンジン１４ａが機械翻訳する際に利用する辞書情報が格納されている。なお、後述する辞書情報部１５ａに格納されている辞書情報が、辞書コンバータ１６によって、翻訳エンジン１４ａ向けに変換されて辞書部１４ｂに格納される。
【００３１】
なお、以上のような検索されたＷｅｂページ（ＨＴＭＬ文書）に対する翻訳起動や翻訳したものの出力方法などは、同一出願人に係る特開平７−２０２７２１号公報や特開平７−２０２７３４号公報に記載の方法を適用できる。
【００３２】
この第１の実施形態や後述する各実施形態は、Ｗｅｂサーバ１３の辞書編集部１３ｃ、ユーザ登録・認証部１３ｄ及びコミュニティ管理部１３ｅや、辞書データベース１５や、入出力装置１８に関係する部分に特徴を有するものである。
【００３３】
辞書データベース１５における辞書情報部１５ａは、各種の辞書情報を格納しているものである。辞書情報部１５ａの辞書構成は、一般用語辞書、専門用語辞書及びユーザ辞書である。
【００３４】
一般的には、優先順位が、高い方から、ユーザ辞書、専門用語辞書、一般用語辞書の順に、翻訳時の適用の階層化がなされているが、この第１の実施形態では、図１に示すような階層化を行っており、第１の実施形態は、この階層化に大きな特徴を有している。
【００３５】
図１において、第１の実施形態での辞書構成は基本的にはツリー構造の階層化構造をしている。
【００３６】
そして、一般用語辞書Ｄ０をルートノードとしており、その次の階層には、専門分野やジャンルを大分類した場合の専門用語辞書Ｄ１１〜Ｄ１ｘが設けられている。それより下位の階層には、上位の階層の専門分野やジャンルをさらに分類した場合の専門用語辞書が設けられており、終端ノードに至る枝数（階層の深さ）は一律である必要はない。
【００３７】
図１の例では、コンピュータに係る専門用語辞書Ｄ１１の下位階層には、コンピュータハードウェア専門用語辞書Ｄ１１１及びコンピュータソフトウェア専門用語辞書Ｄ１１２が設けられている。一方、料理に係る専門用語辞書Ｄ１ｘの下位階層には、和食専門用語辞書Ｄ１ｘ１、中華専門用語辞書Ｄ１ｘ２及び洋食専門用語辞書Ｄ１ｘ３が設けられており、洋食専門用語辞書Ｄ１ｘ３の下位階層には、フランス料理専門用語辞書Ｄ１ｘ３１及びイタリア料理専門用語辞書Ｄ１ｘ３２が設けられている。
【００３８】
なお、ある専門用語辞書の直下の下位の専門用語辞書が１個だけ存在していても良い。例えば、スポーツ辞書の下位階層の辞書としてゴルフ辞書だけが設けられていても良い。
【００３９】
また、この第１の実施形態の場合、ユーザ辞書にも特徴を有する。各ユーザは、任意の専門用語辞書に関連付けてユーザ辞書を設けることができ、しかも、ユーザ辞書を設ける専門用語辞書の数は限定されない。勿論、ユーザは、関連付けられた専門用語辞書に係る分野やジャンルの単語をそのユーザ辞書に登録することになる。
【００４０】
図１の例では、ユーザＡは、コンピュータ専門用語辞書Ｄ１１及びコンピュータハードウェア専門用語辞書Ｄ１１１に関連付けてユーザ辞書ＵＡ１１、ＵＡ１１１を設けている。
【００４１】
なお、分野やジャンルに関係しない単語のユーザ登録のため、一般用語辞書Ｄ０に関連付けてユーザ辞書を設けることもできる。
【００４２】
以下では、関連付けられたユーザ辞書も含め、専門用語辞書のツリー構造部分（Ｄ１１〜Ｄ１ｘ３２）は、後述する他の実施形態から明らかなように、専門用語辞書にユーザの知識が反映されるので、以下では、コミュニティ辞書と呼ぶことにする。
【００４３】
辞書データベース１５のユーザ情報部１５ｂには、当該サーバ３の運営者との間でサーバ３を利用する契約の締結ユーザの情報が格納されている。また、ユーザ情報部１５ｂには、その登録されているユーザが、機械翻訳サービスを受けることができるか否かや、また、そのユーザに関するユーザ辞書が設定されているか否かなどの情報も格納されている。
【００４４】
辞書データベース１５のコミュニティ情報部１５ｃには、図１に示す辞書構造でのコミュニティ辞書部分に関する構造の情報などが格納されている。
【００４５】
Ｗｅｂサーバ１３の辞書編集部１３ｃは、辞書情報部１５ａを編集するものである。
【００４６】
Ｗｅｂサーバ１３のユーザ登録・認証部１３ｄは、ユーザ登録したり、当該サーバ３にアクセスしてきた者が正規のユーザかを認証したり、機械翻訳サービスが求められた場合にサービスを提供し得る者かを確認したり、ユーザ辞書の操作を実行できる者かを確認したりするものである。
【００４７】
Ｗｅｂサーバ１３のコミュニティ管理部１３ｅは、コミュニティ情報部１５ｃの情報を管理するものである。例えば、翻訳に供するＷｅｂページの分野やジャンルが定まったときに、コミュニティ情報部１５ｃの情報に基づいて、機械翻訳で使用する辞書を定めるものである。
【００４８】
より具体的に言えば、今、ユーザＡから翻訳要求があるＷｅｂページの分野、ジャンルがコンピュータハードウェアであれば、ユーザ辞書ＵＡ１１１、コンピュータハードウェア専門用語辞書Ｄ１１１、ユーザ辞書ＵＡ１１及びコンピュータ専門用語辞書Ｄ１１を使用する辞書に決定すると共に、しかも、上述の順序で適用優先度が高いようにする（一般用語辞書Ｄ０は常に対象となる）。
【００４９】
すなわち、Ｗｅｂページの分野、ジャンルに係る専門用語辞書から一般用語辞書に至るツリー構造の経路上にある全ての専門用語辞書と、それら専門用語辞書に関連付けられているユーザ辞書の全てを使用する辞書に決定する。
【００５０】
入出力装置１８は、サーバ３の運営者側が辞書の編集を起動したり、辞書を編集したりなどする際に用いるものである。
【００５１】
なお、第１の実施形態が適用されている機械翻訳ネットワークシステム１は、複数のユーザからの同時の翻訳要求に対応できるものである。例えば、１組の機械翻訳システム１４やＨＴＭＬパーザ１７などを時分割で用いて、複数の翻訳要求に対応するようにしても良く、また、機械翻訳システム１４やＨＴＭＬパーザ１７を予め複数組用意して、複数の翻訳要求に対応するようにしても良い。後者の場合において、オリジナルの機械翻訳プログラムなどを、翻訳を求められる毎に複数個用意されているＣＰＵの主メモリなどにローディングして、複数の翻訳要求に同時に対応できるようにしても良い。
【００５２】
翻訳要求したユーザ毎に、機械翻訳システム１４やＨＴＭＬパーザ１７などの組を設定する場合において、機械翻訳システム１４の辞書部１４ｂに、Ｗｅｂページの分野、ジャンルに従って使用することが決まった辞書の情報だけを、辞書データベース１５から設定するようにしても良い。
【００５３】
（Ａ−２）第１の実施形態の動作
（Ａ−２−１）ユーザ辞書登録
次に、ユーザがユーザ辞書に単語を登録する際のサーバ３での動作を、図３のフローチャートを参照しながら説明する。なお、この処理時において、ユーザ端末４及びサーバ３で授受する情報は、ＨＴＭＬ文書の形式の情報である。
【００５４】
例えば、ユーザはユーザ端末４を用いて、サーバ３が提供する所定のＷｅｂページを表示させ、単語のユーザ登録モードを指示する。
【００５５】
このとき、サーバ３は、図３に示すユーザ辞書登録処理を開始し、まず、サーバ３（ユーザ登録・認証部１３ｄ）は、そのユーザが単語のユーザ登録を実行し得る者であるか否かを判別する（ステップＳ１）。
【００５６】
そのユーザが単語のユーザ登録を実行し得る者でないと、サーバ３はその旨を返信して、ユーザ辞書登録処理を終了する（ステップＳ２）。
【００５７】
一方、ユーザが単語のユーザ登録を実行し得る者であると、サーバ３（コミュニティ管理部１３ｅ）は、コミュニティ情報部１３ｅから一般用語辞書及び専門用語辞書のツリー構造を取り出し、そのツリー構造の情報を含むユーザ辞書登録入力画面をユーザ端末４に送信し（ステップＳ３）、ユーザ端末４からの登録単語情報を待ち受ける（ステップＳ４）。
【００５８】
ユーザ辞書登録入力画面が表示された際には、ユーザは、登録したい単語情報を入力し、また、表示された一般用語辞書及び専門用語辞書のツリー構造に基づいて、その登録単語情報に、関連付けたい辞書の情報を付与してサーバ３に送信する。なお、複数の登録単語情報をまとめて送信するできるようにしても良い。以下では、説明の簡単化のため、１個の登録単語情報を送信するものとする。
【００５９】
サーバ３（ユーザ登録・認証部１３ｄ）は、登録単語情報が与えられると、それに含まれている一般用語辞書又は専門用語辞書に基づき、かつ、ユーザ情報部１５ｂやコミュニティ情報部１５ｃの格納情報を参照して、当該ユーザについて、今回の登録単語情報に係るユーザ辞書（一般用語辞書又は専門用語辞書に関連付けられたユーザ辞書）が既に設定されているか否かを判別する（ステップＳ５）。
【００６０】
ユーザ辞書が設定されていない場合には、そのようなユーザ辞書を設定した後（ステップＳ６）、既に設定されている場合には直ちに、ユーザ端末４から与えられた登録単語情報を登録し（ステップＳ７）、一連のユーザ辞書登録処理を終了する。
【００６１】
ここで、辞書情報部１５ａは、辞書種類毎に、格納領域が明確に分かれているものであっても良いが、多くのユーザ辞書などを考慮すると、単語情報に辞書種類の識別コードを付与して格納するものが好ましく、この場合、ユーザ辞書の設定は、識別コードの割当を意味する。
【００６２】
（Ａ−２−２）機械翻訳処理
次に、Ｗｅｂページの機械翻訳処理について、図４のフローチャートを参照しながら説明する。
【００６３】
サーバ３（Ｗｅｂ翻訳処理部１３ｂ）は、Ｗｅｂページの翻訳の必要性が生じると、図４に示す機械翻訳処理を開始する。
【００６４】
Ｗｅｂページの翻訳の必要性が生じる場合としては、例えば、（１）ユーザが検索したＷｅｂページを翻訳して届けることを指示した場合、（２）ユーザが一旦表示されたＷｅｂページを見てその翻訳を望んだ場合、（３）ユーザがインターネットを介して発信しようとするＷｅｂページの他の言語のＷｅｂページを欲した場合などである。
【００６５】
サーバ３（Ｗｅｂ翻訳処理部１３ｂ）は、図４に示す機械翻訳処理を開始すると、まず、今回の機械翻訳に使用する機械翻訳システム１４などの割当てを行い（時分割でのタイムスロットの決定などを含む；ステップＳ１０）、その後、翻訳対象のＷｅｂページの分野、ジャンルを認識する（ステップＳ１１）。
【００６６】
ここで、ユーザがＷｅｂページの分野やジャンルをユーザ端末４から指定するようにしても良く、また、サーバ３（Ｗｅｂ翻訳処理部１３ｂ）がＷｅｂページの分野やジャンルを自動的に認識するようにしても良い。分野やジャンルを自動的に認識する方法としては、従来の技術の項で言及した公報記載の方法を適用できるだけでなく、分野やジャンル毎に、分野やジャンルを規定する１又は複数のキーワードを予め定めておいてＷｅｂページでのキーワードの出現数などから定める方法など、既存の各種の方法を適用できる。なお、認識分野やジャンルの候補が複数生じた場合には、例えば、コミュニティ辞書での最も階層が低いものにする。
【００６７】
以上のようにして、翻訳対象のＷｅｂページの分野、ジャンルを認識すると、サーバ３（Ｗｅｂ翻訳処理部１３ｂ）は、機械翻訳で使用する辞書種類を決定し、その種類の辞書が使用できる状態に設定する（ステップＳ１２）。上述したように、Ｗｅｂページの分野、ジャンルに係る専門用語辞書から一般用語辞書に至る、コミュニティ辞書のツリー構造の経路上にある全ての専門用語辞書と、それら専門用語辞書に関連付けられているユーザ辞書の全てを使用する辞書に決定し、決定した辞書の情報を辞書情報部１３ａから辞書部１４ｂに転送したり、また、辞書部１４ｂに全種類の辞書情報が設定されている場合であれば、決定された種類の辞書の情報だけをアクセスし得るようにする。
【００６８】
その後、サーバ３（ＨＴＭＬパーザ１７）は、Ｗｅｂページから翻訳可能な文章部分だけを分離する（ステップＳ１３）。そして、サーバ３（翻訳エンジン１４ａ）が翻訳を実行し（ステップＳ１４）、得られた翻訳結果に対し、サーバ３（ＨＴＭＬパーザ１７）がタグなどを復帰させ（ステップＳ１５）、翻訳結果のＷｅｂページを得て、一連の機械翻訳処理を終了する。
【００６９】
なお、当該サーバ３の登録ユーザが作成したＷｅｂページを、他の人間が検索して翻訳を求める場合には（Ｗｅｂページの発信時翻訳）、登録ユーザに係るユーザ辞書を翻訳に使用するようにしても良い。
【００７０】
（Ａ−３）第１の実施形態の効果
以上のように、第１の実施形態によれば、大分類、中分類、…というように分類の大きさを変えた複数種類の専門用語辞書を一般用語辞書をトップノードとするツリー構造で階層化して用意しておくと共に、各専門用語辞書に関連付けてユーザ辞書を設定可能とし、翻訳対象文書の分類、ジャンルに応じ、その分野、ジャンルに係る専門用語辞書から一般用語辞書に至る、ツリー構造の経路上にある全ての専門用語辞書と、それら専門用語辞書に関連付けられているユーザ辞書の全てを使用して、機械翻訳するようにしたので、翻訳対象文書の分類、ジャンルに拘わらず、訳質が良好な翻訳結果を、平均的に見て時間をかけずに得ることができる。
【００７１】
すなわち、専門性やジャンルの特殊性が高ければ、それに応じた下位階層の専門用語辞書や、それに関連付けられているユーザ辞書の情報も翻訳に利用され、訳質を高めることができる。逆に、専門性やジャンルの特殊性が低ければ、それに応じた上位側の階層の専門用語辞書や、それに関連付けられているユーザ辞書の情報だけが翻訳に利用され、短時間のうちに、十分な訳質の翻訳結果を得ることができる。
【００７２】
インターネットで入手できる文書は多種多様であり、専門性やジャンルの特殊性が高いものから低いものまで幅広くあるが、このような多種多様な文書の翻訳に、上記第１の実施形態は有効に機能するものである。
【００７３】
（Ｂ）第２の実施形態
次に、本発明による辞書装置を、インターネットのサーバ上に設けられる機械翻訳機能に適用した第２の実施形態を図面を参照しながら説明する。
【００７４】
（Ｂ−１）第２の実施形態の構成
第２の実施形態が適用されている機械翻訳ネットワークシステムも、上述した第１の実施形態に係る図２のブロック図で表すことができる。
【００７５】
しかし、以下では、図５を用いて、第２の実施形態の機能的構成を説明する。なお、図５は、図２以上に機能を整理し、第２の実施形態で特徴的な機能を盛り込んで示した機能ブロック図である。
【００７６】
図５において、第２の実施形態に係る機械翻訳ネットワークシステム２１は、インターネット２２上の検索・翻訳サーバ２３が、インターネット２２を介して閲覧・入力手段２４に接続されて構築されている。
【００７７】
閲覧・入力手段２４は、第１の実施形態に係るユーザ端末４が相当するものであり、インターネット２２側に、文書の検索を依頼したり、検索文書の翻訳を依頼したり、検索文書や、それを翻訳した翻訳文書などを表示したり、ユーザ辞書への登録を依頼したりなどするものである。
【００７８】
検索・翻訳サーバ２３は、文書の検索や、文書の機械翻訳などを実行するものであって、通信制御手段３１、機械翻訳手段３２、辞書管理手段３３、辞書データベース３４及び専門用語辞書充実化手段３５などを有する。
【００７９】
通信制御手段３１は、図示しない外部のインターネット要素（文書格納手段）や、閲覧・入力手段との通信を制御するものである。外部のインターネット要素（文書格納手段）との通信は、所定の文書を取り出すための通信である。
【００８０】
機械翻訳手段３２は、検索文書に対して機械翻訳が必要な場合に、どの辞書を使用するかなどの制御を行ない、検索文書を他の言語に翻訳するものである。
【００８１】
辞書管理手段３３は、辞書データベース３４内の辞書の作成や、辞書単語情報の取り出しや編集などを行うものである。例えば、辞書管理手段３３は、機械翻訳手段３２から指示された辞書の単語情報を辞書データベース３４から取り出して機械翻訳手段３２に与えたりする。また例えば、辞書管理手段３３は、専門用語辞書充実化手段３５から要求された辞書の単語情報を辞書データベース３４から取り出して与え、専門用語辞書充実化手段３５がある辞書へ追加する単語情報と決定したものを、辞書データベース３４内の該当する辞書に追加させるものである。
【００８２】
辞書データベース３４は、各種の辞書を格納しているデータベースである。この第２の実施形態においても、辞書データベース３４に格納されている複数の辞書は、第１の実施形態で説明した図１に示すツリー構造のものと同様である。すなわち、一般用語辞書をルートノードとし、その次の階層には、専門分野やジャンルを大分類した場合の専門用語辞書が設けられ、それより下位の階層には、上位の階層の専門分野やジャンルをさらに分類した場合の専門用語辞書が設けられ、終端ノードに至る枝数（階層の深さ）は一律ではなく、また、各専門用語辞書に関連付けてユーザ辞書を設けられているものである。
【００８３】
なお、図５では、この第２の実施形態の特徴を理解し易くすべく、ある１個の専門用語辞書Ｄｍと、この専門用語辞書Ｄｍに関連付けられている複数のユーザ辞書Ｄｍ１〜ＤｍＮとを示している。
【００８４】
専門用語辞書充実化手段３５は、ユーザ辞書Ｄｍ１〜ＤｍＮの単語情報から、専門用語辞書Ｄｍに登録した方がよいと思われる情報を自動的に抽出して専門用語辞書Ｄｍに登録するものである。
【００８５】
ここで、専門用語辞書充実化手段３５の処理は、１日１回（例えば午前２時）ずつなどの定期的に起動されるものであっても良く、また、検索・翻訳サーバ２３の運営者が図示しない入出力装置（図２の入出力装置１８参照）を用いて起動するものでも良い。さらには、いずれかのユーザ辞書に単語登録がなされる毎に、起動されるものであっても良い。
【００８６】
（Ｂ−２）第２の実施形態の動作
次に、第２の実施形態の特徴を構成している専門用語辞書充実化手段３５の動作を、図６のフローチャートを用いて説明する。
【００８７】
なお、図６は、定期的に起動された場合、又は、サーバ運営者によって起動された場合に対応するものである。また、図６は、ある１個の専門用語辞書が対象となった場合の処理を示しており、全ての専門用語辞書に対して、図６に示す処理がそれぞれ実行される。
【００８８】
専門用語辞書充実化手段３５は、図６に示す処理を開始すると、全てのユーザ辞書の情報を、辞書データベース３４から、関連する専門用語辞書毎に同一の単語情報を集計しながら取り出してバッファリングする（ステップＳ３１）。
【００８９】
図７は、集計しながら取り出した例を示している。左から、異なる辞書データ毎に番号付けした情報（辞書データＩＤ）、見出し語、訳語、登録されている数を示している。なお、辞書データＩＤは、０から連番が付されているとしている。
【００９０】
集計しながらの取り出しが終了すると、専門用語辞書充実化手段３５は、辞書データＩＤを０（初期値）にセットする（ステップＳ３２）。
【００９１】
そして、全ての辞書データについて充実化処理が終了するまで、ステップＳ３３〜Ｓ３７での処理ループを繰り返す。
【００９２】
専門用語辞書充実化手段３５は、登録された数が、その専門用語辞書に関連付けられたユーザ辞書の数の過半数以上の単語情報が存在するか否かを判別する（ステップＳ３３、Ｓ３４）。
【００９３】
そのような単語情報が１個でも存在すれば、専門用語辞書に、それらの単語情報を全て追加登録する（ステップＳ３５）。なお、この際には、その専門用語辞書にその単語情報が存在しないことを確認して登録する。
【００９４】
このような単語情報の専門用語辞書への追加登録が終了すると、又は、登録数がユーザ辞書数の過半数以上の単語情報が１個も存在しないと、辞書データＩＤを１インクリメントした後（ステップＳ３６）、未処理の辞書データがが残っているか否かを判別する（ステップＳ３７）。
【００９５】
未処理の辞書データが残っていれば、上述したステップＳ３３に戻り、全ての辞書データについて充実化処理が終了したならば、図６に示す一連の処理を終了する。
【００９６】
図７の例において、専門用語辞書に関連付けられているユーザ辞書の数が５個だとすると、単語情報「ｐｅｎｃｉｌ；鉛筆」はユーザ辞書登録数が３個であって過半数以上であるので、図６の処理を通じて、対象となっている専門用語辞書に登録される。
【００９７】
上記説明では、専門用語辞書への登録条件をユーザ辞書数の過半数以上としたが、他の割合を閾値とする登録要件であっても良い。また、ユーザ辞書数によって、登録要件を規定する閾値を異なるようにしても良い。
【００９８】
また、上記説明では、専門用語辞書に追加登録した後も、ユーザ辞書にその単語情報を残すものを示したが、専門用語辞書に追加登録した単語情報をユーザ辞書から消去するようにしても良い。
【００９９】
さらに、上記説明においては、専門用語辞書への登録を、その専門用語辞書に関連付けられた全てのユーザ辞書での登録状況から判断するものを示したが、一部のユーザ辞書での登録状況から専門用語辞書への登録可否を決定するようにしても良い。インターネット上のサーバに設けられている場合、ユーザ辞書数が多数になることも考えられ、処理の簡便化を期して、一部（例えば１００個）のユーザ辞書での登録状況から専門用語辞書への登録可否を決定するようにしても良い。ここで、一部のユーザ辞書として、ユーザ登録数が多い方から所定個数のユーザ辞書を定めたものでも良く、ユーザ登録された単語情報数が所定数以上のユーザ辞書に定めたものでも良く、乱数などを利用して複数のユーザ辞書を定めたものでも良く、さらには、これらを組合せて定めても良い。
【０１００】
さらにまた、上記では、専門用語辞書への登録を完全に自動化したものを示したが、サーバ運営者などに専門用語辞書に追加登録したい単語情報を表示して確認させた上で、専門用語辞書に追加登録するようにしても良い。
【０１０１】
なお、一般用語辞書に関連付けられてユーザ辞書が存在するのであれば、上記処理と同様にして一般用語辞書を充実化させても良い。
【０１０２】
（Ｂ−３）第２の実施形態の効果
以上のように、第２の実施形態によれば、多くのユーザが使っているような専門用語を専門用語辞書に自動的に取り込むようにしたので、専門用語辞書を充実化させることができ、訳質の向上を期待できる。特に、ユーザ登録を行っていない者にとっては、第２の実施形態の専門用語充実化機能による恩恵は大きい。
【０１０３】
また、システム運営者（サーバ運営者）から見ても、当初から完璧な専門用語辞書の作成を期すると、時間、工数、コスト共に膨大になるが、専門用語辞書の上記充実化機能を前提とすれば、システムの立ち上がり時における専門用語辞書の完璧性は緩和され、辞書の作成時間、工数、コストをある程度押さえることができる。
【０１０４】
（Ｃ）第３の実施形態
次に、本発明による辞書装置を、インターネットのサーバ上に設けられる機械翻訳機能に適用した第３の実施形態を図面を参照しながら説明する。
【０１０５】
（Ｃ−１）第３の実施形態の構成
第３の実施形態が適用されている機械翻訳ネットワークシステムも、上述した第１の実施形態に係る図２のブロック図で表すことができる。
【０１０６】
しかし、以下では、図８を用いて、第３の実施形態の機能的構成を説明する。なお、図８は、図２以上に機能を整理し、第３の実施形態で特徴的な機能を盛り込んで示した機能ブロック図であり、上述した第２の実施形態に係る図５との同一、対応部分には同一符号を付して示している。
【０１０７】
図８において、第３の実施形態に係る機械翻訳ネットワークシステム２１Ａも、インターネット２２上の検索・翻訳サーバ２３Ａが、インターネット２２を介して閲覧・入力手段２４に接続されて構築されている。
【０１０８】
第３の実施形態は、第２の実施形態に比較すると、検索・翻訳サーバ２３Ａの機能的構成が多少異なっている。すなわち、第３の実施形態では、第２の実施形態の専門用語充実化手段２７に代え、辞書情報統合手段３６が設けられている。
【０１０９】
なお、辞書データベース３４は、第２の実施形態と同様であるが、第３の実施形態との特徴との関係から、図８では、専門用語辞書の階層化を明確化させて示している。
【０１１０】
第３の実施形態の特徴を構成する辞書情報統合手段３６は、ある専門用語辞書の直下の階層の複数の専門用語辞書に同一の単語情報が存在する場合に、その単語情報を上位の専門用語辞書に登録するものである。例えば、図８の辞書データベース３４の表記において、政治辞書Ｄｎ１及び経済辞書Ｄｎ２に同じ単語情報が登録されている場合に、その上位の政治経済辞書Ｄｎにその単語情報を登録するものである。
【０１１１】
ここで、辞書情報統合手段３６の処理も、１日１回（例えば午前２時）ずつなどの定期的に起動されるものであっても良く、また、検索・翻訳サーバ２３の運営者が図示しない入出力装置（図２の入出力装置１８参照）を用いて起動するものでも良い。さらには、第２の実施形態のようにして、専門用語辞書に対する追加登録がなされる毎に、起動されるものであっても良い。
【０１１２】
（Ｃ−２）第３の実施形態の動作
次に、第３の実施形態の特徴を構成している辞書情報統合手段３６の動作を、図９のフローチャートを用いて説明する。
【０１１３】
なお、図９は、定期的に起動された場合、又は、サーバ運営者によって起動された場合に対応するものである。また、図９は、ある１個の専門用語辞書が対象となった場合の処理を示しており、全ての専門用語辞書に対して、図９に示す処理がそれぞれ実行される。
【０１１４】
辞書情報統合手段３６は、図９に示す処理を開始するとまず、対象となっている専門用語辞書の下位の全ての専門用語辞書に登録されている単語情報を取り出し（ステップＳ４１）、辞書データＩＤを０（初期値）にセットする（ステップＳ４２）。
【０１１５】
そして、下位の専門用語辞書の数の過半数以上に登録されている単語情報が存在するか否かを判別する（ステップＳ４３、Ｓ４４）。
【０１１６】
そのような単語情報が１個でも存在すれば、上位の専門用語辞書に、それらの単語情報を全て追加登録すると共に、下位の専門用語辞書からそれらの単語情報を削除する（ステップＳ３５）。なお、この際には、上位の専門用語辞書にその単語情報が存在しないことを確認してから追加登録するようにしても良い。
【０１１７】
以上の処理が終了した後、辞書データＩＤを１インクリメントし（ステップＳ４６）、未処理の辞書データが残っているか否かを判別する（ステップＳ４７）。
【０１１８】
未処理の辞書データが残っていれば、上述したステップＳ４２に戻り、全ての辞書データについて統合処理が終了したならば、図９に示す一連の処理を終了する。
【０１１９】
ここで、吸い上げ処理（統合処理）を、階層が低い方の専門用語辞書から階層が高い方の専門用語辞書への順で行うことにより、吸い上げられたばかりの単語情報がさらに上位の専門用語辞書に吸い上げられることもある。
【０１２０】
上記説明では、上位の専門用語辞書への登録条件を下位の専門用語辞書数の過半数以上で登録されていることにしたが、他の割合を閾値とする登録要件であっても良い。また、下位の専門用語辞書数によって、上位への登録要件を規定する閾値を異なるようにしても良い。さらには、各専門用語辞書で単語情報の使用頻度や使用率などを管理し、複数の下位の専門用語辞書で、ある程度使用されている単語情報であることをも上位の専門用語辞書への登録要件に含めるようにしても良い。
【０１２１】
また、上記説明では、上位の専門用語辞書に追加登録すると、下位の専門用語辞書からその単語情報を削除するものを示したが、上位の専門用語辞書に追加登録した単語情報を下位の専門用語辞書に残すようにしても良い。
【０１２２】
さらに、上記では、上位の専門用語辞書への登録を完全に自動化したものを示したが、サーバ運営者などに上位の専門用語辞書に追加登録したい単語情報を表示して確認させた上で、上位の専門用語辞書に追加登録するようにしても良い。
【０１２３】
なお、大分類の複数の専門用語辞書に登録されている単語情報を、一般用語辞書に登録させるようにしても良い。
【０１２４】
（Ｃ−３）第３の実施形態の効果
以上のように、第３の実施形態によれば、上位の専門用語辞書への下位の専門用語辞書からの単語情報の吸い上げ機能を設けたので、上位の専門用語辞書が充実し、細分された分野、ジャンルに属していない文書の訳質を向上させることが質の向上を期待できる。
【０１２５】
（Ｄ）第４の実施形態
次に、本発明による辞書装置を、インターネットのサーバ上に設けられる機械翻訳機能に適用した第４の実施形態を図面を参照しながら説明する。
【０１２６】
（Ｄ−１）第４の実施形態の構成
第４の実施形態が適用されている機械翻訳ネットワークシステムも、上述した第１の実施形態に係る図２のブロック図で表すことができる。
【０１２７】
しかし、以下では、図１０を用いて、第４の実施形態の機能的構成を説明する。なお、図１０は、図２以上に機能を整理し、第４の実施形態で特徴的な機能を盛り込んで示した機能ブロック図であり、上述した第２や第３の実施形態に係る図５や図８との同一、対応部分には同一符号を付して示している。
【０１２８】
図１０において、第４の実施形態に係る機械翻訳ネットワークシステム２１Ｂも、インターネット２２上の検索・翻訳サーバ２３Ｂが、インターネット２２を介して閲覧・入力手段２４に接続されて構築されている。
【０１２９】
第４の実施形態は、第２や第３の実施形態に比較すると、検索・翻訳サーバ２３Ｂの機能的構成が多少異なっている。すなわち、第４の実施形態では、第２の実施形態の専門用語充実化手段２７や第３の実施形態の辞書情報統合手段３６に代え、辞書分割・生成手段３７が設けられている。
【０１３０】
なお、辞書データベース３４は、第２や第３の実施形態と同様であるが、第４の実施形態との特徴との関係から、図１０では、専門用語辞書とそれに関連付けられているユーザ辞書との階層化を明確化させて示している。
【０１３１】
第４の実施形態の特徴を構成する辞書分割・生成手段３７は、専門用語辞書に関連付けられている複数のユーザ辞書の単語情報に基づいて、その専門用語辞書に下位の専門用語辞書を生成させたり、下位の専門用語辞書に単語情報を降格させたりするものである。
【０１３２】
例えば、図１０の辞書データベース３４の表記において、スポーツ辞書Ｄｓの下位にゴルフ辞書Ｄｓ１や野球辞書Ｄｓ２などを生成させるものである。
【０１３３】
ここで、辞書分割・生成手段３７の処理も、１月１回（例えば月初め）ずつなどの定期的に起動されるものであっても良く、また、検索・翻訳サーバ２３の運営者が図示しない入出力装置（図２の入出力装置１８参照）を用いて起動するものでも良い。
【０１３４】
（Ｄ−２）第４の実施形態の動作
次に、第４の実施形態の特徴を構成している辞書分割・生成手段３７の動作を、図１１のフローチャートを用いて説明する。なお、図１１の処理は、ある１個の専門用語辞書を対象とした処理を示しており、全ての専門用語辞書に対して、それぞれ図１１の処理が実行される。
【０１３５】
辞書分割・生成手段３７は、図１１に示す処理を開始すると、関連するユーザ辞書の情報を、辞書データベース３４から、同一の単語情報を集計しながら取り出してバッファリングする（ステップＳ５１）。
【０１３６】
図１２は、スポーツ辞書に関連するユーザ辞書から集計しながら取り出した例を示している。左から、辞書データＩＤ、見出し語（キー）、訳語、ユーザ辞書に登録されている数を示している。
【０１３７】
集計しながらの取り出しが終了すると、辞書分割・生成手段３７は、辞書データＩＤを０（初期値）にセットする（ステップＳ５２）。
【０１３８】
そして、全ての辞書データについて、ステップＳ５３〜Ｓ５８での処理ループを繰り返す。
【０１３９】
辞書分割・生成手段３７は、専門用語辞書に関連付けられているユーザ辞書の登録単語情報中において、同じ見出し語（キー）で訳語（値）が異なる単語情報があるか否かを確認し、ある場合には、それぞれの単語情報を登録しているユーザ辞書数が、専門用語辞書に関連付けられている全ユーザ辞書数の２割（なお、割合はこれに限定されない）以上であるか否かを判別する（ステップＳ５３、Ｓ５４）。
【０１４０】
同じ見出し語（キー）で訳語（値）が異なるユーザ登録の単語情報が存在し、それぞれの単語情報の登録割合が２割以上であると、辞書分割・生成手段３７は、専門用語辞書に対し、下位の専門用語辞書が存在するかを判別する（ステップＳ５５）。
【０１４１】
下位の専門用語辞書が存在しない場合には、辞書分割・生成手段３７は、同じ見出し語（キー）で訳語（値）が異なる、登録割合が２割以上の単語情報の種類数だけ下位の専門用語辞書を作成して、それぞれの単語情報を登録する（ステップＳ５６）。ここで、そのような単語情報を含むユーザ辞書は、辞書データＩＤが規定する専門用語辞書にそのまま関連付けても良く、自己の登録単語情報が登録された、新たに作成された専門用語辞書に関連付けるようにしても良い。
【０１４２】
なお、ここでの下位の専門用語辞書の作成は、完全なる作成ではなく、仮作成であっても良い。
【０１４３】
これに対して、下位の専門用語辞書が存在する場合には、辞書分割・生成手段３７は、同じ見出し語（キー）で訳語（値）が異なる、登録割合が２割以上の単語情報を、下位の専門用語辞書に移動させる（ステップＳ５７）。ここで、そのような単語情報を含むユーザ辞書は、辞書データＩＤが規定する専門用語辞書にそのまま関連付けても良く、移動させた下位の専門用語辞書に関連付けるようにしても良い。
【０１４４】
単語情報を移動させる下位の専門用語辞書の種類の決定は、例えば、訳語側を見出し語としている逆方向用の辞書データベースの内容を参照して分野やジャンルを認識して行う。また例えば、今回の単語情報の訳語での文字列の一部や全てを訳語の文字列に含む単語情報が存在する側の下位の専門用語辞書に移動させる。
【０１４５】
なお、ここでの下位の専門用語辞書への単語情報の移動は、完全なる移動ではなく、仮移動であっても良い。
【０１４６】
辞書分割・生成手段３７は、上述のような下位の専門用語辞書の新規作成や下位の専門用語辞書への所定単語情報の移動が終了すると、又は、同じ見出し語（キー）で訳語（値）が異なるユーザ登録の単語情報が存在しないと、若しくは、存在しても、いずれかの単語情報の登録割合が２割未満であると、辞書データＩＤを１インクリメントした後（ステップＳ５８）、辞書データが残っているか否かを判別する（ステップＳ５９）。
【０１４７】
辞書データが残っていれば、上述したステップＳ５３に戻り、全ての辞書データについて辞書分割・生成処理が終了したならば、図１１に示す一連の処理を終了する。
【０１４８】
なお、辞書分割・生成処理では、完全な自動化処理は難しく、図１１の処理の終了時に、サーバ運営者側のオペレータ（以下、システムオペレータと呼ぶ）によって後処理を行うことを要する。例えば、新規に作成された専門用語辞書に対する分野やジャンルのネーミング付与や、ステップ５６による作成が仮作成であれば本作成が必要か否かの判断や、ステップ５７による移動が仮移動であれば本移動が必要か否かの判断や、新規に下位の専門用語辞書を作成した場合における他の単語情報の上位の専門用語辞書からの移動処理などを行うことを要する。
【０１４９】
例えば、図１２の例において、スポーツ辞書に関連付けられているユーザ辞書数が１０個だとすると、見出し語が「Ｐｉｔｃｈｅｒ」で訳語が「投手」及び「７番アイアン」という２種類の単語情報は、どちらもユーザ登録数が３であるので、下位の専門用語辞書の新規作成要件、又は、下位の専門用語要件の単語情報の移動要件を満足している。
【０１５０】
この場合において、スポーツ辞書に下位の専門用語辞書が存在しない場合であれば、２個の下位の専門用語辞書が作成され、一方に単語情報「Ｐｉｔｃｈｅｒ；７番アイアン」が登録され、他方に単語情報「Ｐｉｔｃｈｅｒ；投手」が登録される。なお、システムオペレータによる後処理で、前者にゴルフ辞書、後者に野球辞書というネーミングが付与されるであろう。
【０１５１】
これに対して、スポーツ辞書の下位にゴルフ辞書及び野球辞書が存在する場合には、単語情報「Ｐｉｔｃｈｅｒ；７番アイアン」がゴルフ辞書に登録され、単語情報「Ｐｉｔｃｈｅｒ；投手」が野球辞書に登録される。これは、例えば、ゴルフ辞書に、訳語が「アイアン」という他の単語情報が存在しているとすると、今回の訳語「７番アイアン」との共通文字列が存在するためである。また、例えば、野球辞書に、訳語が「右翼手」という他の単語情報が存在しているとすると、今回の訳語「投手」との共通文字列が存在するためである。
【０１５２】
図１３は、このようなスポーツ辞書だけが用意されていた状態から、図１１の処理を通じて、スポーツ辞書の下位にゴルフ辞書及び野球辞書が新規作成された場合のコミュニティ辞書の変化の状態を示したものである。
【０１５３】
なお、上記説明においては、ユーザ辞書の登録情報からのみ、下位の専門用語辞書の作成有無などを判断するものを示したが、ユーザ辞書の登録情報及び専門用語辞書の登録情報から、下位の専門用語辞書の作成有無などを判断するようにしても良い。例えば、専門用語辞書の登録情報と同じ見出し語で訳語が異なるユーザ登録の単語情報が、所定数以上又は所定割合以上のユーザ辞書で登録されている場合には、下位の専門用語辞書の作成などを行うようにしても良い。
【０１５４】
また、上記説明では、下位の専門用語辞書が存在しない場合にのみ、下位の専門用語辞書を作成するものを示したが、下位の専門用語辞書が存在していても、それと同列（同階層）の下位の専門用語辞書を作成するようにしても良い。すなわち、下位の専門用語辞書の存在有無に拘わらず、条件を満たせば、他の下位の専門用語辞書を作成するようにしても良い（言い換えると、下位への移動処理を無くしても良い）。例えば、スポーツ辞書の下位に柔道辞書や陸上辞書があっても、上述したようにスポーツ辞書に関連して「Ｐｉｔｃｈｅｒ；７番アイアン」や「Ｐｉｔｃｈｅｒ；投手」がユーザ登録されることもあり、この場合には、ゴルフ辞書や野球辞書（ネーミングは後でなされる）を下位の専門用語辞書として作成する。
【０１５５】
（Ｄ）第４の実施形態の効果
以上のように、第４の実施形態によれば、ユーザ辞書の登録状況に応じて、新たな専門用語辞書を作成するようにしたので、多種多様な分野やジャンルに応じた多様な専門用語辞書を設けることができ、翻訳対象のＷｅｂページの分野やジャンルに対する適切な専門用語辞書を機械翻訳に使用することができ、翻訳対象のＷｅｂページの分野やジャンルを問わず、訳質を向上させることができる。
【０１５６】
（Ｅ）他の実施形態
上記各実施形態の説明においても、種々変形した実施形態について言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
【０１５７】
上記各実施形態で示した、過半数、２割などの閾値は自由に変更することができるだけでなく、割合閾値だけでなく、５個以上などの絶対数を閾値としても良い。
【０１５８】
また、上記第２及び第３の実施形態においては、ある辞書の単語情報を自動的に他の辞書（専門用語辞書）に登録するものを示したが、ユーザやシステムオペレータの判断を処理の一部で利用するようにしても良い。例えば、第２の実施形態に関し、ユーザ登録数が多くて専門用語辞書に登録しようとする単語情報を検出したとき、専門用語辞書への登録可否をユーザやシステムオペレータに判断させるようにしても良い。ユーザに判断させる場合において、その専門用語辞書に関連してユーザ辞書を設けているユーザの多数決で決定しても良い。多数決の情報収集方法としては、例えば、ユーザへのｅメール発送及びその回収や、掲示板を利用した告知に対するユーザの自主投票などを挙げることができる。
【０１５９】
なお、第４の実施形態においても、ユーザの判断を一部に利用することもできる。
【０１６０】
また、専門用語辞書に対する直接の操作をユーザに認めるようにしても良い。なお、勿論、システムオペレータは、専門用語辞書に対する直接の操作を行うことができる。
【０１６１】
さらに、上記各実施形態の特徴構成を、適宜組み合わせても良いことは勿論である。
【０１６２】
上記各実施形態においては、本発明の辞書装置をインターネット上のサーバに設けられている機械翻訳機能で利用する場合を示したが、本発明の辞書装置の適用対象は、これに限定されるものではない。
【０１６３】
例えば、１台の機械翻訳装置を複数の人が利用する場合の辞書装置にも本発明を適用できる。また、機械翻訳用の辞書以外の辞書についても、本発明の辞書装置を適用できる。例えば、音声認識等で利用されるかな漢字変換用の辞書にも本発明の辞書装置を適用できる。
【０１６４】
【発明の効果】
以上のように、本発明の辞書装置によれば、辞書やその構造等を容易に充実させることができ、本発明の辞書装置を利用して得た自然言語処理結果の質を高めることができる。
【図面の簡単な説明】
【図１】第１の実施形態の辞書装置に係る各種辞書の階層化の説明図である。
【図２】各実施形態の辞書装置が適用される機械翻訳ネットワークシステムの概略構成を示すブロック図である。
【図３】第１の実施形態の専門用語辞書に関連したユーザ辞書への登録動作を示すフローチャートである。
【図４】第１の実施形態のコミュニティ辞書を利用した機械翻訳動作を示すフローチャートである。
【図５】第２の実施形態での機能的構成を示すブロック図である。
【図６】第２の実施形態での専門用語辞書の充実化動作を示すフローチャートである。
【図７】第２の実施形態で専門用語辞書へ登録されるユーザ登録の単語情報の説明図である。
【図８】第３の実施形態での機能的構成を示すブロック図である。
【図９】第３の実施形態での上位の専門用語辞書への統合動作を示すフローチャートである。
【図１０】第４の実施形態での機能的構成を示すブロック図である。
【図１１】第４の実施形態での下位の専門用語辞書の分割・生成動作を示すフローチャートである。
【図１２】第４の実施形態で下位の専門用語辞書が生成されるユーザ登録の単語情報の説明図である。
【図１３】第４の実施形態での下位の専門用語辞書が生成される前後の辞書構造を示す説明図である。
【符号の説明】
２１、２１Ａ、２１Ｂ…機械翻訳ネットワークシステム、２２…インターネット、２３、２３Ａ、２３Ｂ…検索・翻訳サーバ、２４…閲覧・入力手段、３１…通信制御手段、３２…機械翻訳手段、３３…辞書管理手段、３４…辞書データベース、３５…専門用語辞書充実化手段、３６…辞書情報統合手段、３７…辞書分割・生成手段。

Claims

複数のユーザが利用する自然言語処理装置に設けられる辞書装置において、
専門分野やジャンルを分類したカテゴリー毎の複数の専門用語辞書を、一般用語辞書をルートノードとしたツリー構造で階層化している辞書本体と、
任意の上記専門用語辞書に関連付けて、ユーザ辞書を設定させるユーザ辞書登録手段と
を有することを特徴とする辞書装置。
自然言語処理対象のカテゴリーが指示された際に、そのカテゴリーの専門用語辞書から一般用語辞書に至るツリー構造の経路上にある全ての専門用語辞書と、それら専門用語辞書に関連付けられている、処理依頼ユーザに係るユーザ辞書の全てを適用する辞書に決定する適用辞書決定手段をさらに有することを特徴とする請求項１に記載の辞書装置。
複数のユーザが利用する自然言語処理装置に設けられる辞書装置において、
ユーザが編集可能なユーザ毎のユーザ辞書と、
全ユーザに共通な共通辞書と、
同一の辞書情報が所定条件を満たす数の上記ユーザ辞書に格納されているときに、その辞書情報を上記共通辞書に登録する共通辞書充実化手段と
を有することを特徴とする辞書装置。
階層構造で上位の上位辞書と、
上記上位辞書の下位に位置している複数の下位辞書と、
同一の辞書情報が所定条件を満たす数の上記下位辞書に格納されているときに、その辞書情報を上記上位辞書に登録する辞書情報統合手段と
を有することを特徴とする辞書装置。
複数のユーザが利用する自然言語処理装置に設けられる辞書装置において、
ユーザが編集可能なユーザ毎のユーザ辞書と、
全ユーザに共通な共通辞書と、
少なくとも上記各ユーザ辞書の格納内容に基づき、上記共通辞書の下位に下位辞書を設定する辞書分割・生成手段と
を有することを特徴とする辞書装置。
上記辞書分割・生成手段は、同一の辞書情報が所定条件を満たす数の上記ユーザ辞書に格納されており、上記辞書情報とキーが同じで値が異なる他の辞書情報が、所定条件を満たす数の上記ユーザ辞書に格納されているときに、上記共通辞書の下位にそれら辞書情報をそれぞれ格納した下位辞書を設定することを特徴とする請求項５に記載の辞書装置。