JP3838857B2 - 辞書装置 - Google Patents
辞書装置 Download PDFInfo
- Publication number
- JP3838857B2 JP3838857B2 JP2000283038A JP2000283038A JP3838857B2 JP 3838857 B2 JP3838857 B2 JP 3838857B2 JP 2000283038 A JP2000283038 A JP 2000283038A JP 2000283038 A JP2000283038 A JP 2000283038A JP 3838857 B2 JP3838857 B2 JP 3838857B2
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- user
- technical term
- information
- dictionaries
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、自然言語処理装置で利用される辞書装置に関し、例えば、インターネットのように不特定多数のユーザがアクセスできるネットワークのサーバ上に設けられている機械翻訳装置の辞書に適用し得るものである。
【0002】
【従来の技術】
インターネットの普及により、海外の情報に容易にアクセスできるようになり、また、海外へ容易に情報を発信できるようになってきた。そのため、外国語の文書を日本語に機械翻訳したり、日本語の文書を外国語に機械翻訳したりすることに対する要求は非常に高くなってきた。
【0003】
このような要求に鑑み、インターネットのように不特定多数のユーザがアクセスできるネットワークのサーバ上に機械翻訳装置を搭載することが研究、開発されている。
【0004】
機械翻訳装置には、一般的には、どのような分野においても広く使用される単語などを格納した一般用語辞書と、ユーザが任意に単語などを登録したユーザ辞書とが設けられている。さらには、特定の専門分野において広く使用される単語などを格納した専門用語辞書を有する機械翻訳装置もある。
【0005】
インターネットのサーバ上に設けられる機械翻訳装置は、様々な文書が対象となるので、そのような装置のために用いられる辞書は、一般用語辞書、ユーザ辞書及び専門用語辞書の3種類の辞書構成となり、特に、訳質を考慮した場合、専門用語辞書のウェイトが大きくなるであろう。
【0006】
インターネットから入手した文書の翻訳結果として、良好な訳質のものを、できるだけ時間を掛けずに得る方法として、特開平10−21222号公報に記載されたものがある。
【0007】
この公報記載の方法は、翻訳対象となる文書(Webページ)を入手する際に用いたURLなどの文書識別情報から、専門分野を特定し、専門用語辞書を自動的に設定することによって、ユーザに複雑な設定を強いることなく、高品質の翻訳結果を得ようとしたものである。
【0008】
【発明が解決しようとする課題】
しかしながら、文書識別情報はその文書を一意に表すためのものであって分野やジャンルを表す文字にする必要はないので、文書識別情報では、文書の分野やジャンルを特定することが難しい。特に、インターネットから入手できる文書の分野やジャンルは多種多様であるため、全ての分野やジャンルを特定することが難しい。
【0009】
仮に特定できたとしても、インターネットから入手できる文書の分野はジャンルは多種多様であるため、多種多様な専門用語辞書がないと、正しく理解できるような翻訳結果を得ることができない。
【0010】
多種多様な専門用語辞書を、機械翻訳装置の開発者や提供側で全て用意することは実際上困難である。
【0011】
そのため、専門用語辞書として、大分類の少数のものを用意し、その専門用語辞書で対応できない部分をユーザ辞書に委ねることも考えられる。
【0012】
しかしながら、インターネットのサーバ上に設けられる機械翻訳装置の場合、ユーザ数が多数に上り、ユーザ辞書に委ねる部分が多いと、サーバでの記憶容量が膨大になってしまう。また、多くのユーザが同一の単語を登録することもあり得、システムとしての無駄が大きい。
【0013】
また、専門用語辞書に、その分野やジャンルの知識が豊富なユーザの知識を反映させることが考えられる。しかし、あるユーザが登録、編集した内容が他のユーザに不満足なこともあり得、極端な場合には、ユーザがいたずら等によって、不適当な登録を行う恐れも高い。
【0014】
そのため、多数のユーザが利用する自然言語処理装置において、良好な処理結果を得ることができる辞書装置が求められている。
【0015】
【課題を解決するための手段】
第1の本発明の辞書装置は、複数のユーザが利用する自然言語処理装置に設けられる辞書装置であって、専門分野やジャンルを分類したカテゴリー毎の複数の専門用語辞書を、一般用語辞書をルートノードとしたツリー構造で階層化している辞書本体と、任意の上記専門用語辞書に関連付けて、ユーザ辞書を設定させるユーザ辞書登録手段とを有することを特徴とする。
【0016】
第2の本発明の辞書装置は、複数のユーザが利用する自然言語処理装置に設けられる辞書装置であって、ユーザが編集可能なユーザ毎のユーザ辞書と、全ユーザに共通な共通辞書と、同一の辞書情報が所定条件を満たす数の上記ユーザ辞書に格納されているときに、その辞書情報を上記共通辞書に登録する共通辞書充実化手段とを有することを特徴とする。
【0017】
第3の本発明の辞書装置は、階層構造で上位の上位辞書と、上記上位辞書の下位に位置している複数の下位辞書と、同一の辞書情報が所定条件を満たす数の上記下位辞書に格納されているときに、その辞書情報を上記上位辞書に登録する辞書情報統合手段とを有することを特徴とする。
【0018】
第4の本発明の辞書装置は、複数のユーザが利用する自然言語処理装置に設けられる辞書装置であって、ユーザが編集可能なユーザ毎のユーザ辞書と、全ユーザに共通な共通辞書と、少なくとも上記各ユーザ辞書の格納内容に基づき、上記共通辞書の下位に下位辞書を設定する辞書分割・生成手段とを有することを特徴とする。
【0019】
【発明の実施の形態】
(A)第1の実施形態
以下、本発明による辞書装置を、インターネットのサーバ上に設けられる機械翻訳機能に適用した第1の実施形態を図面を参照しながら説明する。
【0020】
(A−1)第1の実施形態の構成
図2は、第1の実施形態が適用されている機械翻訳ネットワークシステムの構成を示すブロック図である。
【0021】
図2において、この機械翻訳ネットワークシステム1は、インターネット2上のサーバ3が、インターネット2を介してユーザ端末4に接続し得る構成となっている。図2では示していないが、サーバ3は、インターネット2を介して他のサーバ等にも接続され得る。
【0022】
サーバ3は、HTTPデーモン10、ログ解析部11、アクセスログ格納部12、Webサーバ13、機械翻訳システム14、辞書データベース15、辞書コンバータ16、HTMLパーザ17及び入出力装置18を有する。
【0023】
ここで、Webサーバ13は、機能的には、コミュニケーションツール13a、Web翻訳処理部13b、辞書編集部13c、ユーザ登録・認証部13d及びコミュニティ管理部13eを有する。また、機械翻訳システム14は、翻訳エンジン14a及び辞書部14bを有する。さらに、辞書データベース15は、辞書情報部15a、ユーザ情報部15b及びコミュニティ情報部15cを有する。
【0024】
ユーザ端末4は、インターネット2側に対して、ホームページやWebページ(以下ではこれらをまとめてWebページと呼ぶ)5の検索を指示するものである。ここで、サーバ3の運営者との間で翻訳サービスの提供契約を締結しているユーザは、検索されたWebページを所定言語に翻訳して送信することを、ユーザ端末4を用いてサーバ3に指示することができる。ユーザは、例えば、サーバ3が提供するホームページ上の翻訳指示入力フィールドに入力したり、サーバ3に与えるWebページを規定する文書識別情報に翻訳を指示するコードを導入したり、リンク先情報として翻訳結果の文書を指定したりすることにより、検索されたWebページを所定言語に翻訳して送信することを指示することができる。
【0025】
サーバ3において、HTTPデーモン10は、検索されたWebページ(HTML文書)を所定の転送プロトコルに従って転送させるものである。
【0026】
ログ解析部11は、ユーザ端末4からの検索したいWebページやユーザ端末4を規定する通信情報から、アクセスログを得てアクセスログ格納部12に格納させたりすると共に、Webサーバ13をログインさせたりログアウトさせたりするものである。なお、ログインさせる際には、ユーザの認証などが必要となる。
【0027】
Webサーバ13におけるコミュニケーションツール13aは、Webページの検索のための通信機能や、ユーザ端末4との通信機能等を担うものである。
【0028】
Webサーバ13における他の機能部、すなわち、Web翻訳処理部13b、辞書編集部13c、ユーザ登録・認証部13d及びコミュニティ管理部13eは、Webページの翻訳に関係する機能部である。
【0029】
Web翻訳処理部13bは、検索されたWebページが翻訳を必要な場合に、HTMLパーザ17を介して、機械翻訳システム14に検索されたWebページを与えてそのWebページの翻訳を実行させるものである。
【0030】
ここで、HTMLパーザ17は、タグ情報等に基づいて、検索されたWebページ(HTML文書)における翻訳が必要な部分(文章部分)だけを取り出して機械翻訳システム14に与え、また、翻訳結果にタグ情報を復帰させてWebページ(HTML文書)に戻すものである。また、機械翻訳システム14において、翻訳エンジン14aは機械翻訳を実行する部分であり、辞書部14bは翻訳エンジン14aが機械翻訳する際に利用する辞書情報が格納されている。なお、後述する辞書情報部15aに格納されている辞書情報が、辞書コンバータ16によって、翻訳エンジン14a向けに変換されて辞書部14bに格納される。
【0031】
なお、以上のような検索されたWebページ(HTML文書)に対する翻訳起動や翻訳したものの出力方法などは、同一出願人に係る特開平7−202721号公報や特開平7−202734号公報に記載の方法を適用できる。
【0032】
この第1の実施形態や後述する各実施形態は、Webサーバ13の辞書編集部13c、ユーザ登録・認証部13d及びコミュニティ管理部13eや、辞書データベース15や、入出力装置18に関係する部分に特徴を有するものである。
【0033】
辞書データベース15における辞書情報部15aは、各種の辞書情報を格納しているものである。辞書情報部15aの辞書構成は、一般用語辞書、専門用語辞書及びユーザ辞書である。
【0034】
一般的には、優先順位が、高い方から、ユーザ辞書、専門用語辞書、一般用語辞書の順に、翻訳時の適用の階層化がなされているが、この第1の実施形態では、図1に示すような階層化を行っており、第1の実施形態は、この階層化に大きな特徴を有している。
【0035】
図1において、第1の実施形態での辞書構成は基本的にはツリー構造の階層化構造をしている。
【0036】
そして、一般用語辞書D0をルートノードとしており、その次の階層には、専門分野やジャンルを大分類した場合の専門用語辞書D11〜D1xが設けられている。それより下位の階層には、上位の階層の専門分野やジャンルをさらに分類した場合の専門用語辞書が設けられており、終端ノードに至る枝数(階層の深さ)は一律である必要はない。
【0037】
図1の例では、コンピュータに係る専門用語辞書D11の下位階層には、コンピュータハードウェア専門用語辞書D111及びコンピュータソフトウェア専門用語辞書D112が設けられている。一方、料理に係る専門用語辞書D1xの下位階層には、和食専門用語辞書D1x1、中華専門用語辞書D1x2及び洋食専門用語辞書D1x3が設けられており、洋食専門用語辞書D1x3の下位階層には、フランス料理専門用語辞書D1x31及びイタリア料理専門用語辞書D1x32が設けられている。
【0038】
なお、ある専門用語辞書の直下の下位の専門用語辞書が1個だけ存在していても良い。例えば、スポーツ辞書の下位階層の辞書としてゴルフ辞書だけが設けられていても良い。
【0039】
また、この第1の実施形態の場合、ユーザ辞書にも特徴を有する。各ユーザは、任意の専門用語辞書に関連付けてユーザ辞書を設けることができ、しかも、ユーザ辞書を設ける専門用語辞書の数は限定されない。勿論、ユーザは、関連付けられた専門用語辞書に係る分野やジャンルの単語をそのユーザ辞書に登録することになる。
【0040】
図1の例では、ユーザAは、コンピュータ専門用語辞書D11及びコンピュータハードウェア専門用語辞書D111に関連付けてユーザ辞書UA11、UA111を設けている。
【0041】
なお、分野やジャンルに関係しない単語のユーザ登録のため、一般用語辞書D0に関連付けてユーザ辞書を設けることもできる。
【0042】
以下では、関連付けられたユーザ辞書も含め、専門用語辞書のツリー構造部分(D11〜D1x32)は、後述する他の実施形態から明らかなように、専門用語辞書にユーザの知識が反映されるので、以下では、コミュニティ辞書と呼ぶことにする。
【0043】
辞書データベース15のユーザ情報部15bには、当該サーバ3の運営者との間でサーバ3を利用する契約の締結ユーザの情報が格納されている。また、ユーザ情報部15bには、その登録されているユーザが、機械翻訳サービスを受けることができるか否かや、また、そのユーザに関するユーザ辞書が設定されているか否かなどの情報も格納されている。
【0044】
辞書データベース15のコミュニティ情報部15cには、図1に示す辞書構造でのコミュニティ辞書部分に関する構造の情報などが格納されている。
【0045】
Webサーバ13の辞書編集部13cは、辞書情報部15aを編集するものである。
【0046】
Webサーバ13のユーザ登録・認証部13dは、ユーザ登録したり、当該サーバ3にアクセスしてきた者が正規のユーザかを認証したり、機械翻訳サービスが求められた場合にサービスを提供し得る者かを確認したり、ユーザ辞書の操作を実行できる者かを確認したりするものである。
【0047】
Webサーバ13のコミュニティ管理部13eは、コミュニティ情報部15cの情報を管理するものである。例えば、翻訳に供するWebページの分野やジャンルが定まったときに、コミュニティ情報部15cの情報に基づいて、機械翻訳で使用する辞書を定めるものである。
【0048】
より具体的に言えば、今、ユーザAから翻訳要求があるWebページの分野、ジャンルがコンピュータハードウェアであれば、ユーザ辞書UA111、コンピュータハードウェア専門用語辞書D111、ユーザ辞書UA11及びコンピュータ専門用語辞書D11を使用する辞書に決定すると共に、しかも、上述の順序で適用優先度が高いようにする(一般用語辞書D0は常に対象となる)。
【0049】
すなわち、Webページの分野、ジャンルに係る専門用語辞書から一般用語辞書に至るツリー構造の経路上にある全ての専門用語辞書と、それら専門用語辞書に関連付けられているユーザ辞書の全てを使用する辞書に決定する。
【0050】
入出力装置18は、サーバ3の運営者側が辞書の編集を起動したり、辞書を編集したりなどする際に用いるものである。
【0051】
なお、第1の実施形態が適用されている機械翻訳ネットワークシステム1は、複数のユーザからの同時の翻訳要求に対応できるものである。例えば、1組の機械翻訳システム14やHTMLパーザ17などを時分割で用いて、複数の翻訳要求に対応するようにしても良く、また、機械翻訳システム14やHTMLパーザ17を予め複数組用意して、複数の翻訳要求に対応するようにしても良い。後者の場合において、オリジナルの機械翻訳プログラムなどを、翻訳を求められる毎に複数個用意されているCPUの主メモリなどにローディングして、複数の翻訳要求に同時に対応できるようにしても良い。
【0052】
翻訳要求したユーザ毎に、機械翻訳システム14やHTMLパーザ17などの組を設定する場合において、機械翻訳システム14の辞書部14bに、Webページの分野、ジャンルに従って使用することが決まった辞書の情報だけを、辞書データベース15から設定するようにしても良い。
【0053】
(A−2)第1の実施形態の動作
(A−2−1)ユーザ辞書登録
次に、ユーザがユーザ辞書に単語を登録する際のサーバ3での動作を、図3のフローチャートを参照しながら説明する。なお、この処理時において、ユーザ端末4及びサーバ3で授受する情報は、HTML文書の形式の情報である。
【0054】
例えば、ユーザはユーザ端末4を用いて、サーバ3が提供する所定のWebページを表示させ、単語のユーザ登録モードを指示する。
【0055】
このとき、サーバ3は、図3に示すユーザ辞書登録処理を開始し、まず、サーバ3(ユーザ登録・認証部13d)は、そのユーザが単語のユーザ登録を実行し得る者であるか否かを判別する(ステップS1)。
【0056】
そのユーザが単語のユーザ登録を実行し得る者でないと、サーバ3はその旨を返信して、ユーザ辞書登録処理を終了する(ステップS2)。
【0057】
一方、ユーザが単語のユーザ登録を実行し得る者であると、サーバ3(コミュニティ管理部13e)は、コミュニティ情報部13eから一般用語辞書及び専門用語辞書のツリー構造を取り出し、そのツリー構造の情報を含むユーザ辞書登録入力画面をユーザ端末4に送信し(ステップS3)、ユーザ端末4からの登録単語情報を待ち受ける(ステップS4)。
【0058】
ユーザ辞書登録入力画面が表示された際には、ユーザは、登録したい単語情報を入力し、また、表示された一般用語辞書及び専門用語辞書のツリー構造に基づいて、その登録単語情報に、関連付けたい辞書の情報を付与してサーバ3に送信する。なお、複数の登録単語情報をまとめて送信するできるようにしても良い。以下では、説明の簡単化のため、1個の登録単語情報を送信するものとする。
【0059】
サーバ3(ユーザ登録・認証部13d)は、登録単語情報が与えられると、それに含まれている一般用語辞書又は専門用語辞書に基づき、かつ、ユーザ情報部15bやコミュニティ情報部15cの格納情報を参照して、当該ユーザについて、今回の登録単語情報に係るユーザ辞書(一般用語辞書又は専門用語辞書に関連付けられたユーザ辞書)が既に設定されているか否かを判別する(ステップS5)。
【0060】
ユーザ辞書が設定されていない場合には、そのようなユーザ辞書を設定した後(ステップS6)、既に設定されている場合には直ちに、ユーザ端末4から与えられた登録単語情報を登録し(ステップS7)、一連のユーザ辞書登録処理を終了する。
【0061】
ここで、辞書情報部15aは、辞書種類毎に、格納領域が明確に分かれているものであっても良いが、多くのユーザ辞書などを考慮すると、単語情報に辞書種類の識別コードを付与して格納するものが好ましく、この場合、ユーザ辞書の設定は、識別コードの割当を意味する。
【0062】
(A−2−2)機械翻訳処理
次に、Webページの機械翻訳処理について、図4のフローチャートを参照しながら説明する。
【0063】
サーバ3(Web翻訳処理部13b)は、Webページの翻訳の必要性が生じると、図4に示す機械翻訳処理を開始する。
【0064】
Webページの翻訳の必要性が生じる場合としては、例えば、(1)ユーザが検索したWebページを翻訳して届けることを指示した場合、(2)ユーザが一旦表示されたWebページを見てその翻訳を望んだ場合、(3)ユーザがインターネットを介して発信しようとするWebページの他の言語のWebページを欲した場合などである。
【0065】
サーバ3(Web翻訳処理部13b)は、図4に示す機械翻訳処理を開始すると、まず、今回の機械翻訳に使用する機械翻訳システム14などの割当てを行い(時分割でのタイムスロットの決定などを含む;ステップS10)、その後、翻訳対象のWebページの分野、ジャンルを認識する(ステップS11)。
【0066】
ここで、ユーザがWebページの分野やジャンルをユーザ端末4から指定するようにしても良く、また、サーバ3(Web翻訳処理部13b)がWebページの分野やジャンルを自動的に認識するようにしても良い。分野やジャンルを自動的に認識する方法としては、従来の技術の項で言及した公報記載の方法を適用できるだけでなく、分野やジャンル毎に、分野やジャンルを規定する1又は複数のキーワードを予め定めておいてWebページでのキーワードの出現数などから定める方法など、既存の各種の方法を適用できる。なお、認識分野やジャンルの候補が複数生じた場合には、例えば、コミュニティ辞書での最も階層が低いものにする。
【0067】
以上のようにして、翻訳対象のWebページの分野、ジャンルを認識すると、サーバ3(Web翻訳処理部13b)は、機械翻訳で使用する辞書種類を決定し、その種類の辞書が使用できる状態に設定する(ステップS12)。上述したように、Webページの分野、ジャンルに係る専門用語辞書から一般用語辞書に至る、コミュニティ辞書のツリー構造の経路上にある全ての専門用語辞書と、それら専門用語辞書に関連付けられているユーザ辞書の全てを使用する辞書に決定し、決定した辞書の情報を辞書情報部13aから辞書部14bに転送したり、また、辞書部14bに全種類の辞書情報が設定されている場合であれば、決定された種類の辞書の情報だけをアクセスし得るようにする。
【0068】
その後、サーバ3(HTMLパーザ17)は、Webページから翻訳可能な文章部分だけを分離する(ステップS13)。そして、サーバ3(翻訳エンジン14a)が翻訳を実行し(ステップS14)、得られた翻訳結果に対し、サーバ3(HTMLパーザ17)がタグなどを復帰させ(ステップS15)、翻訳結果のWebページを得て、一連の機械翻訳処理を終了する。
【0069】
なお、当該サーバ3の登録ユーザが作成したWebページを、他の人間が検索して翻訳を求める場合には(Webページの発信時翻訳)、登録ユーザに係るユーザ辞書を翻訳に使用するようにしても良い。
【0070】
(A−3)第1の実施形態の効果
以上のように、第1の実施形態によれば、大分類、中分類、…というように分類の大きさを変えた複数種類の専門用語辞書を一般用語辞書をトップノードとするツリー構造で階層化して用意しておくと共に、各専門用語辞書に関連付けてユーザ辞書を設定可能とし、翻訳対象文書の分類、ジャンルに応じ、その分野、ジャンルに係る専門用語辞書から一般用語辞書に至る、ツリー構造の経路上にある全ての専門用語辞書と、それら専門用語辞書に関連付けられているユーザ辞書の全てを使用して、機械翻訳するようにしたので、翻訳対象文書の分類、ジャンルに拘わらず、訳質が良好な翻訳結果を、平均的に見て時間をかけずに得ることができる。
【0071】
すなわち、専門性やジャンルの特殊性が高ければ、それに応じた下位階層の専門用語辞書や、それに関連付けられているユーザ辞書の情報も翻訳に利用され、訳質を高めることができる。逆に、専門性やジャンルの特殊性が低ければ、それに応じた上位側の階層の専門用語辞書や、それに関連付けられているユーザ辞書の情報だけが翻訳に利用され、短時間のうちに、十分な訳質の翻訳結果を得ることができる。
【0072】
インターネットで入手できる文書は多種多様であり、専門性やジャンルの特殊性が高いものから低いものまで幅広くあるが、このような多種多様な文書の翻訳に、上記第1の実施形態は有効に機能するものである。
【0073】
(B)第2の実施形態
次に、本発明による辞書装置を、インターネットのサーバ上に設けられる機械翻訳機能に適用した第2の実施形態を図面を参照しながら説明する。
【0074】
(B−1)第2の実施形態の構成
第2の実施形態が適用されている機械翻訳ネットワークシステムも、上述した第1の実施形態に係る図2のブロック図で表すことができる。
【0075】
しかし、以下では、図5を用いて、第2の実施形態の機能的構成を説明する。なお、図5は、図2以上に機能を整理し、第2の実施形態で特徴的な機能を盛り込んで示した機能ブロック図である。
【0076】
図5において、第2の実施形態に係る機械翻訳ネットワークシステム21は、インターネット22上の検索・翻訳サーバ23が、インターネット22を介して閲覧・入力手段24に接続されて構築されている。
【0077】
閲覧・入力手段24は、第1の実施形態に係るユーザ端末4が相当するものであり、インターネット22側に、文書の検索を依頼したり、検索文書の翻訳を依頼したり、検索文書や、それを翻訳した翻訳文書などを表示したり、ユーザ辞書への登録を依頼したりなどするものである。
【0078】
検索・翻訳サーバ23は、文書の検索や、文書の機械翻訳などを実行するものであって、通信制御手段31、機械翻訳手段32、辞書管理手段33、辞書データベース34及び専門用語辞書充実化手段35などを有する。
【0079】
通信制御手段31は、図示しない外部のインターネット要素(文書格納手段)や、閲覧・入力手段との通信を制御するものである。外部のインターネット要素(文書格納手段)との通信は、所定の文書を取り出すための通信である。
【0080】
機械翻訳手段32は、検索文書に対して機械翻訳が必要な場合に、どの辞書を使用するかなどの制御を行ない、検索文書を他の言語に翻訳するものである。
【0081】
辞書管理手段33は、辞書データベース34内の辞書の作成や、辞書単語情報の取り出しや編集などを行うものである。例えば、辞書管理手段33は、機械翻訳手段32から指示された辞書の単語情報を辞書データベース34から取り出して機械翻訳手段32に与えたりする。また例えば、辞書管理手段33は、専門用語辞書充実化手段35から要求された辞書の単語情報を辞書データベース34から取り出して与え、専門用語辞書充実化手段35がある辞書へ追加する単語情報と決定したものを、辞書データベース34内の該当する辞書に追加させるものである。
【0082】
辞書データベース34は、各種の辞書を格納しているデータベースである。この第2の実施形態においても、辞書データベース34に格納されている複数の辞書は、第1の実施形態で説明した図1に示すツリー構造のものと同様である。すなわち、一般用語辞書をルートノードとし、その次の階層には、専門分野やジャンルを大分類した場合の専門用語辞書が設けられ、それより下位の階層には、上位の階層の専門分野やジャンルをさらに分類した場合の専門用語辞書が設けられ、終端ノードに至る枝数(階層の深さ)は一律ではなく、また、各専門用語辞書に関連付けてユーザ辞書を設けられているものである。
【0083】
なお、図5では、この第2の実施形態の特徴を理解し易くすべく、ある1個の専門用語辞書Dmと、この専門用語辞書Dmに関連付けられている複数のユーザ辞書Dm1〜DmNとを示している。
【0084】
専門用語辞書充実化手段35は、ユーザ辞書Dm1〜DmNの単語情報から、専門用語辞書Dmに登録した方がよいと思われる情報を自動的に抽出して専門用語辞書Dmに登録するものである。
【0085】
ここで、専門用語辞書充実化手段35の処理は、1日1回(例えば午前2時)ずつなどの定期的に起動されるものであっても良く、また、検索・翻訳サーバ23の運営者が図示しない入出力装置(図2の入出力装置18参照)を用いて起動するものでも良い。さらには、いずれかのユーザ辞書に単語登録がなされる毎に、起動されるものであっても良い。
【0086】
(B−2)第2の実施形態の動作
次に、第2の実施形態の特徴を構成している専門用語辞書充実化手段35の動作を、図6のフローチャートを用いて説明する。
【0087】
なお、図6は、定期的に起動された場合、又は、サーバ運営者によって起動された場合に対応するものである。また、図6は、ある1個の専門用語辞書が対象となった場合の処理を示しており、全ての専門用語辞書に対して、図6に示す処理がそれぞれ実行される。
【0088】
専門用語辞書充実化手段35は、図6に示す処理を開始すると、全てのユーザ辞書の情報を、辞書データベース34から、関連する専門用語辞書毎に同一の単語情報を集計しながら取り出してバッファリングする(ステップS31)。
【0089】
図7は、集計しながら取り出した例を示している。左から、異なる辞書データ毎に番号付けした情報(辞書データID)、見出し語、訳語、登録されている数を示している。なお、辞書データIDは、0から連番が付されているとしている。
【0090】
集計しながらの取り出しが終了すると、専門用語辞書充実化手段35は、辞書データIDを0(初期値)にセットする(ステップS32)。
【0091】
そして、全ての辞書データについて充実化処理が終了するまで、ステップS33〜S37での処理ループを繰り返す。
【0092】
専門用語辞書充実化手段35は、登録された数が、その専門用語辞書に関連付けられたユーザ辞書の数の過半数以上の単語情報が存在するか否かを判別する(ステップS33、S34)。
【0093】
そのような単語情報が1個でも存在すれば、専門用語辞書に、それらの単語情報を全て追加登録する(ステップS35)。なお、この際には、その専門用語辞書にその単語情報が存在しないことを確認して登録する。
【0094】
このような単語情報の専門用語辞書への追加登録が終了すると、又は、登録数がユーザ辞書数の過半数以上の単語情報が1個も存在しないと、辞書データIDを1インクリメントした後(ステップS36)、未処理の辞書データがが残っているか否かを判別する(ステップS37)。
【0095】
未処理の辞書データが残っていれば、上述したステップS33に戻り、全ての辞書データについて充実化処理が終了したならば、図6に示す一連の処理を終了する。
【0096】
図7の例において、専門用語辞書に関連付けられているユーザ辞書の数が5個だとすると、単語情報「pencil;鉛筆」はユーザ辞書登録数が3個であって過半数以上であるので、図6の処理を通じて、対象となっている専門用語辞書に登録される。
【0097】
上記説明では、専門用語辞書への登録条件をユーザ辞書数の過半数以上としたが、他の割合を閾値とする登録要件であっても良い。また、ユーザ辞書数によって、登録要件を規定する閾値を異なるようにしても良い。
【0098】
また、上記説明では、専門用語辞書に追加登録した後も、ユーザ辞書にその単語情報を残すものを示したが、専門用語辞書に追加登録した単語情報をユーザ辞書から消去するようにしても良い。
【0099】
さらに、上記説明においては、専門用語辞書への登録を、その専門用語辞書に関連付けられた全てのユーザ辞書での登録状況から判断するものを示したが、一部のユーザ辞書での登録状況から専門用語辞書への登録可否を決定するようにしても良い。インターネット上のサーバに設けられている場合、ユーザ辞書数が多数になることも考えられ、処理の簡便化を期して、一部(例えば100個)のユーザ辞書での登録状況から専門用語辞書への登録可否を決定するようにしても良い。ここで、一部のユーザ辞書として、ユーザ登録数が多い方から所定個数のユーザ辞書を定めたものでも良く、ユーザ登録された単語情報数が所定数以上のユーザ辞書に定めたものでも良く、乱数などを利用して複数のユーザ辞書を定めたものでも良く、さらには、これらを組合せて定めても良い。
【0100】
さらにまた、上記では、専門用語辞書への登録を完全に自動化したものを示したが、サーバ運営者などに専門用語辞書に追加登録したい単語情報を表示して確認させた上で、専門用語辞書に追加登録するようにしても良い。
【0101】
なお、一般用語辞書に関連付けられてユーザ辞書が存在するのであれば、上記処理と同様にして一般用語辞書を充実化させても良い。
【0102】
(B−3)第2の実施形態の効果
以上のように、第2の実施形態によれば、多くのユーザが使っているような専門用語を専門用語辞書に自動的に取り込むようにしたので、専門用語辞書を充実化させることができ、訳質の向上を期待できる。特に、ユーザ登録を行っていない者にとっては、第2の実施形態の専門用語充実化機能による恩恵は大きい。
【0103】
また、システム運営者(サーバ運営者)から見ても、当初から完璧な専門用語辞書の作成を期すると、時間、工数、コスト共に膨大になるが、専門用語辞書の上記充実化機能を前提とすれば、システムの立ち上がり時における専門用語辞書の完璧性は緩和され、辞書の作成時間、工数、コストをある程度押さえることができる。
【0104】
(C)第3の実施形態
次に、本発明による辞書装置を、インターネットのサーバ上に設けられる機械翻訳機能に適用した第3の実施形態を図面を参照しながら説明する。
【0105】
(C−1)第3の実施形態の構成
第3の実施形態が適用されている機械翻訳ネットワークシステムも、上述した第1の実施形態に係る図2のブロック図で表すことができる。
【0106】
しかし、以下では、図8を用いて、第3の実施形態の機能的構成を説明する。なお、図8は、図2以上に機能を整理し、第3の実施形態で特徴的な機能を盛り込んで示した機能ブロック図であり、上述した第2の実施形態に係る図5との同一、対応部分には同一符号を付して示している。
【0107】
図8において、第3の実施形態に係る機械翻訳ネットワークシステム21Aも、インターネット22上の検索・翻訳サーバ23Aが、インターネット22を介して閲覧・入力手段24に接続されて構築されている。
【0108】
第3の実施形態は、第2の実施形態に比較すると、検索・翻訳サーバ23Aの機能的構成が多少異なっている。すなわち、第3の実施形態では、第2の実施形態の専門用語充実化手段27に代え、辞書情報統合手段36が設けられている。
【0109】
なお、辞書データベース34は、第2の実施形態と同様であるが、第3の実施形態との特徴との関係から、図8では、専門用語辞書の階層化を明確化させて示している。
【0110】
第3の実施形態の特徴を構成する辞書情報統合手段36は、ある専門用語辞書の直下の階層の複数の専門用語辞書に同一の単語情報が存在する場合に、その単語情報を上位の専門用語辞書に登録するものである。例えば、図8の辞書データベース34の表記において、政治辞書Dn1及び経済辞書Dn2に同じ単語情報が登録されている場合に、その上位の政治経済辞書Dnにその単語情報を登録するものである。
【0111】
ここで、辞書情報統合手段36の処理も、1日1回(例えば午前2時)ずつなどの定期的に起動されるものであっても良く、また、検索・翻訳サーバ23の運営者が図示しない入出力装置(図2の入出力装置18参照)を用いて起動するものでも良い。さらには、第2の実施形態のようにして、専門用語辞書に対する追加登録がなされる毎に、起動されるものであっても良い。
【0112】
(C−2)第3の実施形態の動作
次に、第3の実施形態の特徴を構成している辞書情報統合手段36の動作を、図9のフローチャートを用いて説明する。
【0113】
なお、図9は、定期的に起動された場合、又は、サーバ運営者によって起動された場合に対応するものである。また、図9は、ある1個の専門用語辞書が対象となった場合の処理を示しており、全ての専門用語辞書に対して、図9に示す処理がそれぞれ実行される。
【0114】
辞書情報統合手段36は、図9に示す処理を開始するとまず、対象となっている専門用語辞書の下位の全ての専門用語辞書に登録されている単語情報を取り出し(ステップS41)、辞書データIDを0(初期値)にセットする(ステップS42)。
【0115】
そして、下位の専門用語辞書の数の過半数以上に登録されている単語情報が存在するか否かを判別する(ステップS43、S44)。
【0116】
そのような単語情報が1個でも存在すれば、上位の専門用語辞書に、それらの単語情報を全て追加登録すると共に、下位の専門用語辞書からそれらの単語情報を削除する(ステップS35)。なお、この際には、上位の専門用語辞書にその単語情報が存在しないことを確認してから追加登録するようにしても良い。
【0117】
以上の処理が終了した後、辞書データIDを1インクリメントし(ステップS46)、未処理の辞書データが残っているか否かを判別する(ステップS47)。
【0118】
未処理の辞書データが残っていれば、上述したステップS42に戻り、全ての辞書データについて統合処理が終了したならば、図9に示す一連の処理を終了する。
【0119】
ここで、吸い上げ処理(統合処理)を、階層が低い方の専門用語辞書から階層が高い方の専門用語辞書への順で行うことにより、吸い上げられたばかりの単語情報がさらに上位の専門用語辞書に吸い上げられることもある。
【0120】
上記説明では、上位の専門用語辞書への登録条件を下位の専門用語辞書数の過半数以上で登録されていることにしたが、他の割合を閾値とする登録要件であっても良い。また、下位の専門用語辞書数によって、上位への登録要件を規定する閾値を異なるようにしても良い。さらには、各専門用語辞書で単語情報の使用頻度や使用率などを管理し、複数の下位の専門用語辞書で、ある程度使用されている単語情報であることをも上位の専門用語辞書への登録要件に含めるようにしても良い。
【0121】
また、上記説明では、上位の専門用語辞書に追加登録すると、下位の専門用語辞書からその単語情報を削除するものを示したが、上位の専門用語辞書に追加登録した単語情報を下位の専門用語辞書に残すようにしても良い。
【0122】
さらに、上記では、上位の専門用語辞書への登録を完全に自動化したものを示したが、サーバ運営者などに上位の専門用語辞書に追加登録したい単語情報を表示して確認させた上で、上位の専門用語辞書に追加登録するようにしても良い。
【0123】
なお、大分類の複数の専門用語辞書に登録されている単語情報を、一般用語辞書に登録させるようにしても良い。
【0124】
(C−3)第3の実施形態の効果
以上のように、第3の実施形態によれば、上位の専門用語辞書への下位の専門用語辞書からの単語情報の吸い上げ機能を設けたので、上位の専門用語辞書が充実し、細分された分野、ジャンルに属していない文書の訳質を向上させることが質の向上を期待できる。
【0125】
(D)第4の実施形態
次に、本発明による辞書装置を、インターネットのサーバ上に設けられる機械翻訳機能に適用した第4の実施形態を図面を参照しながら説明する。
【0126】
(D−1)第4の実施形態の構成
第4の実施形態が適用されている機械翻訳ネットワークシステムも、上述した第1の実施形態に係る図2のブロック図で表すことができる。
【0127】
しかし、以下では、図10を用いて、第4の実施形態の機能的構成を説明する。なお、図10は、図2以上に機能を整理し、第4の実施形態で特徴的な機能を盛り込んで示した機能ブロック図であり、上述した第2や第3の実施形態に係る図5や図8との同一、対応部分には同一符号を付して示している。
【0128】
図10において、第4の実施形態に係る機械翻訳ネットワークシステム21Bも、インターネット22上の検索・翻訳サーバ23Bが、インターネット22を介して閲覧・入力手段24に接続されて構築されている。
【0129】
第4の実施形態は、第2や第3の実施形態に比較すると、検索・翻訳サーバ23Bの機能的構成が多少異なっている。すなわち、第4の実施形態では、第2の実施形態の専門用語充実化手段27や第3の実施形態の辞書情報統合手段36に代え、辞書分割・生成手段37が設けられている。
【0130】
なお、辞書データベース34は、第2や第3の実施形態と同様であるが、第4の実施形態との特徴との関係から、図10では、専門用語辞書とそれに関連付けられているユーザ辞書との階層化を明確化させて示している。
【0131】
第4の実施形態の特徴を構成する辞書分割・生成手段37は、専門用語辞書に関連付けられている複数のユーザ辞書の単語情報に基づいて、その専門用語辞書に下位の専門用語辞書を生成させたり、下位の専門用語辞書に単語情報を降格させたりするものである。
【0132】
例えば、図10の辞書データベース34の表記において、スポーツ辞書Dsの下位にゴルフ辞書Ds1や野球辞書Ds2などを生成させるものである。
【0133】
ここで、辞書分割・生成手段37の処理も、1月1回(例えば月初め)ずつなどの定期的に起動されるものであっても良く、また、検索・翻訳サーバ23の運営者が図示しない入出力装置(図2の入出力装置18参照)を用いて起動するものでも良い。
【0134】
(D−2)第4の実施形態の動作
次に、第4の実施形態の特徴を構成している辞書分割・生成手段37の動作を、図11のフローチャートを用いて説明する。なお、図11の処理は、ある1個の専門用語辞書を対象とした処理を示しており、全ての専門用語辞書に対して、それぞれ図11の処理が実行される。
【0135】
辞書分割・生成手段37は、図11に示す処理を開始すると、関連するユーザ辞書の情報を、辞書データベース34から、同一の単語情報を集計しながら取り出してバッファリングする(ステップS51)。
【0136】
図12は、スポーツ辞書に関連するユーザ辞書から集計しながら取り出した例を示している。左から、辞書データID、見出し語(キー)、訳語、ユーザ辞書に登録されている数を示している。
【0137】
集計しながらの取り出しが終了すると、辞書分割・生成手段37は、辞書データIDを0(初期値)にセットする(ステップS52)。
【0138】
そして、全ての辞書データについて、ステップS53〜S58での処理ループを繰り返す。
【0139】
辞書分割・生成手段37は、専門用語辞書に関連付けられているユーザ辞書の登録単語情報中において、同じ見出し語(キー)で訳語(値)が異なる単語情報があるか否かを確認し、ある場合には、それぞれの単語情報を登録しているユーザ辞書数が、専門用語辞書に関連付けられている全ユーザ辞書数の2割(なお、割合はこれに限定されない)以上であるか否かを判別する(ステップS53、S54)。
【0140】
同じ見出し語(キー)で訳語(値)が異なるユーザ登録の単語情報が存在し、それぞれの単語情報の登録割合が2割以上であると、辞書分割・生成手段37は、専門用語辞書に対し、下位の専門用語辞書が存在するかを判別する(ステップS55)。
【0141】
下位の専門用語辞書が存在しない場合には、辞書分割・生成手段37は、同じ見出し語(キー)で訳語(値)が異なる、登録割合が2割以上の単語情報の種類数だけ下位の専門用語辞書を作成して、それぞれの単語情報を登録する(ステップS56)。ここで、そのような単語情報を含むユーザ辞書は、辞書データIDが規定する専門用語辞書にそのまま関連付けても良く、自己の登録単語情報が登録された、新たに作成された専門用語辞書に関連付けるようにしても良い。
【0142】
なお、ここでの下位の専門用語辞書の作成は、完全なる作成ではなく、仮作成であっても良い。
【0143】
これに対して、下位の専門用語辞書が存在する場合には、辞書分割・生成手段37は、同じ見出し語(キー)で訳語(値)が異なる、登録割合が2割以上の単語情報を、下位の専門用語辞書に移動させる(ステップS57)。ここで、そのような単語情報を含むユーザ辞書は、辞書データIDが規定する専門用語辞書にそのまま関連付けても良く、移動させた下位の専門用語辞書に関連付けるようにしても良い。
【0144】
単語情報を移動させる下位の専門用語辞書の種類の決定は、例えば、訳語側を見出し語としている逆方向用の辞書データベースの内容を参照して分野やジャンルを認識して行う。また例えば、今回の単語情報の訳語での文字列の一部や全てを訳語の文字列に含む単語情報が存在する側の下位の専門用語辞書に移動させる。
【0145】
なお、ここでの下位の専門用語辞書への単語情報の移動は、完全なる移動ではなく、仮移動であっても良い。
【0146】
辞書分割・生成手段37は、上述のような下位の専門用語辞書の新規作成や下位の専門用語辞書への所定単語情報の移動が終了すると、又は、同じ見出し語(キー)で訳語(値)が異なるユーザ登録の単語情報が存在しないと、若しくは、存在しても、いずれかの単語情報の登録割合が2割未満であると、辞書データIDを1インクリメントした後(ステップS58)、辞書データが残っているか否かを判別する(ステップS59)。
【0147】
辞書データが残っていれば、上述したステップS53に戻り、全ての辞書データについて辞書分割・生成処理が終了したならば、図11に示す一連の処理を終了する。
【0148】
なお、辞書分割・生成処理では、完全な自動化処理は難しく、図11の処理の終了時に、サーバ運営者側のオペレータ(以下、システムオペレータと呼ぶ)によって後処理を行うことを要する。例えば、新規に作成された専門用語辞書に対する分野やジャンルのネーミング付与や、ステップ56による作成が仮作成であれば本作成が必要か否かの判断や、ステップ57による移動が仮移動であれば本移動が必要か否かの判断や、新規に下位の専門用語辞書を作成した場合における他の単語情報の上位の専門用語辞書からの移動処理などを行うことを要する。
【0149】
例えば、図12の例において、スポーツ辞書に関連付けられているユーザ辞書数が10個だとすると、見出し語が「Pitcher」で訳語が「投手」及び「7番アイアン」という2種類の単語情報は、どちらもユーザ登録数が3であるので、下位の専門用語辞書の新規作成要件、又は、下位の専門用語要件の単語情報の移動要件を満足している。
【0150】
この場合において、スポーツ辞書に下位の専門用語辞書が存在しない場合であれば、2個の下位の専門用語辞書が作成され、一方に単語情報「Pitcher;7番アイアン」が登録され、他方に単語情報「Pitcher;投手」が登録される。なお、システムオペレータによる後処理で、前者にゴルフ辞書、後者に野球辞書というネーミングが付与されるであろう。
【0151】
これに対して、スポーツ辞書の下位にゴルフ辞書及び野球辞書が存在する場合には、単語情報「Pitcher;7番アイアン」がゴルフ辞書に登録され、単語情報「Pitcher;投手」が野球辞書に登録される。これは、例えば、ゴルフ辞書に、訳語が「アイアン」という他の単語情報が存在しているとすると、今回の訳語「7番アイアン」との共通文字列が存在するためである。また、例えば、野球辞書に、訳語が「右翼手」という他の単語情報が存在しているとすると、今回の訳語「投手」との共通文字列が存在するためである。
【0152】
図13は、このようなスポーツ辞書だけが用意されていた状態から、図11の処理を通じて、スポーツ辞書の下位にゴルフ辞書及び野球辞書が新規作成された場合のコミュニティ辞書の変化の状態を示したものである。
【0153】
なお、上記説明においては、ユーザ辞書の登録情報からのみ、下位の専門用語辞書の作成有無などを判断するものを示したが、ユーザ辞書の登録情報及び専門用語辞書の登録情報から、下位の専門用語辞書の作成有無などを判断するようにしても良い。例えば、専門用語辞書の登録情報と同じ見出し語で訳語が異なるユーザ登録の単語情報が、所定数以上又は所定割合以上のユーザ辞書で登録されている場合には、下位の専門用語辞書の作成などを行うようにしても良い。
【0154】
また、上記説明では、下位の専門用語辞書が存在しない場合にのみ、下位の専門用語辞書を作成するものを示したが、下位の専門用語辞書が存在していても、それと同列(同階層)の下位の専門用語辞書を作成するようにしても良い。すなわち、下位の専門用語辞書の存在有無に拘わらず、条件を満たせば、他の下位の専門用語辞書を作成するようにしても良い(言い換えると、下位への移動処理を無くしても良い)。例えば、スポーツ辞書の下位に柔道辞書や陸上辞書があっても、上述したようにスポーツ辞書に関連して「Pitcher;7番アイアン」や「Pitcher;投手」がユーザ登録されることもあり、この場合には、ゴルフ辞書や野球辞書(ネーミングは後でなされる)を下位の専門用語辞書として作成する。
【0155】
(D)第4の実施形態の効果
以上のように、第4の実施形態によれば、ユーザ辞書の登録状況に応じて、新たな専門用語辞書を作成するようにしたので、多種多様な分野やジャンルに応じた多様な専門用語辞書を設けることができ、翻訳対象のWebページの分野やジャンルに対する適切な専門用語辞書を機械翻訳に使用することができ、翻訳対象のWebページの分野やジャンルを問わず、訳質を向上させることができる。
【0156】
(E)他の実施形態
上記各実施形態の説明においても、種々変形した実施形態について言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
【0157】
上記各実施形態で示した、過半数、2割などの閾値は自由に変更することができるだけでなく、割合閾値だけでなく、5個以上などの絶対数を閾値としても良い。
【0158】
また、上記第2及び第3の実施形態においては、ある辞書の単語情報を自動的に他の辞書(専門用語辞書)に登録するものを示したが、ユーザやシステムオペレータの判断を処理の一部で利用するようにしても良い。例えば、第2の実施形態に関し、ユーザ登録数が多くて専門用語辞書に登録しようとする単語情報を検出したとき、専門用語辞書への登録可否をユーザやシステムオペレータに判断させるようにしても良い。ユーザに判断させる場合において、その専門用語辞書に関連してユーザ辞書を設けているユーザの多数決で決定しても良い。多数決の情報収集方法としては、例えば、ユーザへのeメール発送及びその回収や、掲示板を利用した告知に対するユーザの自主投票などを挙げることができる。
【0159】
なお、第4の実施形態においても、ユーザの判断を一部に利用することもできる。
【0160】
また、専門用語辞書に対する直接の操作をユーザに認めるようにしても良い。なお、勿論、システムオペレータは、専門用語辞書に対する直接の操作を行うことができる。
【0161】
さらに、上記各実施形態の特徴構成を、適宜組み合わせても良いことは勿論である。
【0162】
上記各実施形態においては、本発明の辞書装置をインターネット上のサーバに設けられている機械翻訳機能で利用する場合を示したが、本発明の辞書装置の適用対象は、これに限定されるものではない。
【0163】
例えば、1台の機械翻訳装置を複数の人が利用する場合の辞書装置にも本発明を適用できる。また、機械翻訳用の辞書以外の辞書についても、本発明の辞書装置を適用できる。例えば、音声認識等で利用されるかな漢字変換用の辞書にも本発明の辞書装置を適用できる。
【0164】
【発明の効果】
以上のように、本発明の辞書装置によれば、辞書やその構造等を容易に充実させることができ、本発明の辞書装置を利用して得た自然言語処理結果の質を高めることができる。
【図面の簡単な説明】
【図1】第1の実施形態の辞書装置に係る各種辞書の階層化の説明図である。
【図2】各実施形態の辞書装置が適用される機械翻訳ネットワークシステムの概略構成を示すブロック図である。
【図3】第1の実施形態の専門用語辞書に関連したユーザ辞書への登録動作を示すフローチャートである。
【図4】第1の実施形態のコミュニティ辞書を利用した機械翻訳動作を示すフローチャートである。
【図5】第2の実施形態での機能的構成を示すブロック図である。
【図6】第2の実施形態での専門用語辞書の充実化動作を示すフローチャートである。
【図7】第2の実施形態で専門用語辞書へ登録されるユーザ登録の単語情報の説明図である。
【図8】第3の実施形態での機能的構成を示すブロック図である。
【図9】第3の実施形態での上位の専門用語辞書への統合動作を示すフローチャートである。
【図10】第4の実施形態での機能的構成を示すブロック図である。
【図11】第4の実施形態での下位の専門用語辞書の分割・生成動作を示すフローチャートである。
【図12】第4の実施形態で下位の専門用語辞書が生成されるユーザ登録の単語情報の説明図である。
【図13】第4の実施形態での下位の専門用語辞書が生成される前後の辞書構造を示す説明図である。
【符号の説明】
21、21A、21B…機械翻訳ネットワークシステム、22…インターネット、23、23A、23B…検索・翻訳サーバ、24…閲覧・入力手段、31…通信制御手段、32…機械翻訳手段、33…辞書管理手段、34…辞書データベース、35…専門用語辞書充実化手段、36…辞書情報統合手段、37…辞書分割・生成手段。
Claims (6)
- 複数のユーザが利用する自然言語処理装置に設けられる辞書装置において、
専門分野やジャンルを分類したカテゴリー毎の複数の専門用語辞書を、一般用語辞書をルートノードとしたツリー構造で階層化している辞書本体と、
任意の上記専門用語辞書に関連付けて、ユーザ辞書を設定させるユーザ辞書登録手段と
を有することを特徴とする辞書装置。 - 自然言語処理対象のカテゴリーが指示された際に、そのカテゴリーの専門用語辞書から一般用語辞書に至るツリー構造の経路上にある全ての専門用語辞書と、それら専門用語辞書に関連付けられている、処理依頼ユーザに係るユーザ辞書の全てを適用する辞書に決定する適用辞書決定手段をさらに有することを特徴とする請求項1に記載の辞書装置。
- 複数のユーザが利用する自然言語処理装置に設けられる辞書装置において、
ユーザが編集可能なユーザ毎のユーザ辞書と、
全ユーザに共通な共通辞書と、
同一の辞書情報が所定条件を満たす数の上記ユーザ辞書に格納されているときに、その辞書情報を上記共通辞書に登録する共通辞書充実化手段と
を有することを特徴とする辞書装置。 - 階層構造で上位の上位辞書と、
上記上位辞書の下位に位置している複数の下位辞書と、
同一の辞書情報が所定条件を満たす数の上記下位辞書に格納されているときに、その辞書情報を上記上位辞書に登録する辞書情報統合手段と
を有することを特徴とする辞書装置。 - 複数のユーザが利用する自然言語処理装置に設けられる辞書装置において、
ユーザが編集可能なユーザ毎のユーザ辞書と、
全ユーザに共通な共通辞書と、
少なくとも上記各ユーザ辞書の格納内容に基づき、上記共通辞書の下位に下位辞書を設定する辞書分割・生成手段と
を有することを特徴とする辞書装置。 - 上記辞書分割・生成手段は、同一の辞書情報が所定条件を満たす数の上記ユーザ辞書に格納されており、上記辞書情報とキーが同じで値が異なる他の辞書情報が、所定条件を満たす数の上記ユーザ辞書に格納されているときに、上記共通辞書の下位にそれら辞書情報をそれぞれ格納した下位辞書を設定することを特徴とする請求項5に記載の辞書装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000283038A JP3838857B2 (ja) | 2000-09-19 | 2000-09-19 | 辞書装置 |
US09/948,935 US20040205671A1 (en) | 2000-09-13 | 2001-09-10 | Natural-language processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000283038A JP3838857B2 (ja) | 2000-09-19 | 2000-09-19 | 辞書装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002091965A JP2002091965A (ja) | 2002-03-29 |
JP3838857B2 true JP3838857B2 (ja) | 2006-10-25 |
Family
ID=18767456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000283038A Expired - Fee Related JP3838857B2 (ja) | 2000-09-13 | 2000-09-19 | 辞書装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3838857B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100643801B1 (ko) | 2005-10-26 | 2006-11-10 | 엔에이치엔(주) | 복수의 언어를 연동하는 자동완성 추천어 제공 시스템 및방법 |
JP2008165415A (ja) * | 2006-12-27 | 2008-07-17 | Oki Electric Ind Co Ltd | 文書処理装置、文書処理方法およびプログラム |
TWI468954B (zh) * | 2007-11-26 | 2015-01-11 | Warren Daniel Child | 分類及檢索在中文型文字中找到的重現字形偏旁及根據在電子及非電子本文中的重現字形偏旁分類及檢索中文型文字之方法及電子字典 |
JP2010033139A (ja) * | 2008-07-25 | 2010-02-12 | Nec Corp | 情報処理装置、電子辞書提供方法及びプログラム |
JP5697202B2 (ja) | 2011-03-08 | 2015-04-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 用語の対応を見出す方法、プログラム及びシステム |
-
2000
- 2000-09-19 JP JP2000283038A patent/JP3838857B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002091965A (ja) | 2002-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7415469B2 (en) | Method and apparatus for searching network resources | |
US8694680B2 (en) | Methods and apparatus for enabling use of web content on various types of devices | |
CN100485603C (zh) | 用于从搜索查询中产生概念单元的系统和方法 | |
RU2501078C2 (ru) | Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе | |
US8589373B2 (en) | System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers | |
US7653623B2 (en) | Information searching apparatus and method with mechanism of refining search results | |
US6826566B2 (en) | Identifier vocabulary data access method and system | |
JP4445509B2 (ja) | 構造化文書検索システム及びプログラム | |
Schwartz | Internet resource discovery at the University of Colorado | |
CN101599089B (zh) | 视频服务网站内容更新信息的自动搜索与抽取系统及方法 | |
US20040205671A1 (en) | Natural-language processing system | |
US20020091835A1 (en) | System and method for internet content collaboration | |
KR20060017765A (ko) | 개념 네트워크 | |
CN101655862A (zh) | 信息对象搜索的方法和装置 | |
CN101127043A (zh) | 一种轻量级个性化搜索引擎及其搜索方法 | |
CN105045864B (zh) | 一种数字化资源个性化推荐方法 | |
CN109657121A (zh) | 一种基于网络爬虫的Web页面信息采集方法及装置 | |
CN109933800A (zh) | 数据机构体系的创建方法、信息查询方法及装置 | |
WO2004023341A1 (ja) | 検索処理システム、その検索サーバ、クライアント、検索処理方法、プログラム、及び記録媒体 | |
JP2004164555A (ja) | 検索装置および方法ならびにそのインデクス構築装置および方法 | |
JP3838857B2 (ja) | 辞書装置 | |
JP2001290840A (ja) | キーワード検索装置 | |
JP3908634B2 (ja) | 検索支援方法および検索支援装置 | |
KR20050074058A (ko) | 인터넷상에서 기사를 자동분류하여 타 웹사이트에자동송출하는 시스템 및 그 제어방법 | |
JP3838904B2 (ja) | 辞書装置及び自然言語処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050620 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060801 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060801 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090811 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100811 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |