JP2008197759A

JP2008197759A - 翻訳システム、翻訳方法、辞書管理システム及び辞書管理方法

Info

Publication number: JP2008197759A
Application number: JP2007029986A
Authority: JP
Inventors: Yumiko Yoshimura; 裕美子吉村
Original assignee: Toshiba Corp; Toshiba Solutions Corp
Current assignee: Toshiba Corp; Toshiba Digital Solutions Corp
Priority date: 2007-02-09
Filing date: 2007-02-09
Publication date: 2008-08-28

Abstract

【課題】多人数ユーザの翻訳システムの運用環境に即した組織的で効率的な辞書構築、翻訳環境の整備を行うことである。
【解決手段】ユーザのプロファイルを保持するユーザプロファイル部８と、個々の翻訳要求がどのユーザの発信であるかを識別するユーザ情報同定手段６ａと、翻訳要求された自然言語文書中から、辞書部４の知識情報を使って辞書部４に未登録の語句を抽出する未登録語句抽出手段３ａと、未登録語句抽出手段３ａにより抽出された語句をユーザ情報同定手段６ａにより識別されたユーザ情報とユーザプロファイル部８との照合によりユーザプロファイル部８に定義されている内容に応じて分類をし分類情報付きの辞書登録候補語句を出力する辞書作成支援手段とを有する。
【選択図】図１

Description

本発明は、例えば、複数のユーザを伴うサーバ型機械翻訳など言語知識辞書を利用して所定の自然言語処理を行う翻訳システム、翻訳方法、辞書の構築支援を行う辞書管理システム及び辞書管理方法に関する。

ビジネスのグローバル化や組織内情報統制の強化などの進行により、企業内での翻訳需要が高まっており、それに合わせて、組織内ネットワークを利用したサーバ型機械翻訳システムへの注目が高まっている。サーバ型翻訳システムの導入を行い、その利用価値を高めるためには、目的に応じた組織固有の用語や、翻訳を行う文書の内容に特徴的な用語を翻訳辞書に蓄積していくことが望まれる。

大規模なユーザ環境に導入される場合、翻訳ニーズの異なる多数のユーザによりそれぞれ独立に翻訳要求が発せられ、組織的に系統だって効率よくそれぞれの目的に合った有効な翻訳辞書を構築していくことが難しい。

多数のユーザが使用する翻訳システムにおいて翻訳辞書の構築を助け、全般的な翻訳精度を高めるものとしては、個々のユーザが個別に蓄積したユーザ用翻訳辞書の中から頻度の高い語句を取り出して、基本辞書や専門辞書に取り込むものがある（例えば、特許文献１参照）。また、ユーザ共通の公開用辞書を設けて取り込むものがある（例えば、特許文献１参照）。
特許第３３７２９７７号公報特許第３４６４８８１号公報

しかし、特許文献１のものや特許文献２のものだけでは、翻訳要求に応じて辞書を作り分ける能力としては十分でない。また、個々のユーザが共通のユーザ辞書に対して用語を追加登録することで辞書構築を行っていく方法があるが、この方法は、翻訳目的が共通なユーザグループ単位での運用には効果を発するものであり、特許文献１のものや特許文献２のものとともに、ユーザがの辞書構築に対する積極性を期待できる環境であることが条件となる。

一方、翻訳要求のあった文書中の未登録語を抽出する技術は確立されている。この技術を使って、翻訳要求を行ったユーザが未登録語のリストを得て、それを元に辞書登録を行うことができる。また、サーバ型翻訳システムでは、サーバ側に未登録語として検出された語句を蓄積しておくことで、全体的に高頻度な未登録語句を抽出することは可能である。これを辞書登録の候補として利用することができるが、組織的に有効な辞書構築を、組織の意図に合わせて行うことは困難であった。すなわち、辞書の構築の単位の調整は困難であった。

本発明の目的は、多人数ユーザが翻訳システムなどの言語処理を伴うシステムを使用する環境において、組織的な辞書構築を効率的・効果的に行えるような辞書構築及び構築支援が行え、辞書の構築単位をシステム管理者が制御できる翻訳システム、翻訳方法、辞書管理システム及び辞書管理方法を提供することである。

本発明の翻訳システムは、ユーザからの翻訳要求を受け付けるユーザ要求受信部と、前記ユーザ要求受信部で受け付けられた自然言語文書を第２の自然言語文書に翻訳するための知識情報を備えた辞書部と、前記辞書部の情報を使って翻訳処理を実行する翻訳部と、前記翻訳部による翻訳処理で得られた翻訳結果を出力する処理結果送信部とを備え、複数のユーザからの翻訳要求を受け付ける翻訳システムにおいて、ユーザのプロファイルを保持するユーザプロファイル部と、個々の翻訳要求がどのユーザの発信であるかを識別するユーザ情報同定手段と、翻訳要求された自然言語文書中から前記辞書部の知識情報を使って前記辞書部に未登録の語句を抽出する未登録語句抽出手段と、前記未登録語句抽出手段により抽出された語句を前記ユーザ情報同定手段により識別されたユーザ情報と前記ユーザプロファイル部との照合により前記ユーザプロファイル部に定義されている内容に応じて分類をし分類情報付きの辞書登録候補語句を出力する辞書作成支援手段とを有することを特徴とする。

本発明の辞書管理システムは、自然言語処理に用いられる辞書の登録語を管理する辞書管理システムにおいて、複数のユーザからの辞書更新要求を受け付けるユーザ要求受信部と、ユーザのプロファイルを保持するユーザプロファイル部と、個々の辞書更新要求がどのユーザの発信であるかを識別するユーザ情報同定手段と、個々の辞書更新要求内容を、前記ユーザ情報同定手段により識別されたユーザ情報と前記ユーザプロファイル部との照合により、前記ユーザプロファイル部に定義されている内容に応じて分類をし、分類結果に応じて更新する辞書の種類を選択して辞書更新を行うことを特徴とする。

本発明の翻訳方法は、複数のユーザからの翻訳要求を受け付け、受け付けられた自然言語文書を第２の自然言語文書に翻訳するための辞書部の知識情報を使って翻訳処理を実行し、翻訳処理で得られた翻訳結果を出力する翻訳方法において、ユーザのプロファイルをユーザプロファイル部に保持し、個々の翻訳要求がどのユーザの発信であるかを識別し、翻訳要求された自然言語文書中から前記辞書部の知識情報を使って前記辞書部に未登録の語句を抽出し、抽出された未登録語句を識別されたユーザ情報と前記ユーザプロファイル部との照合により、前記ユーザプロファイル部に定義されている内容に応じて分類をし、分類情報付きの辞書登録候補語句を出力することを特徴とする。

本発明の辞書管理方法は、自然言語処理に用いられる辞書の登録語を管理する辞書管理方法において、複数のユーザからの辞書更新要求を受け付け、ユーザのプロファイルをユーザプロファイル部に保持し、個々の辞書更新要求がどのユーザの発信であるかを識別し、個々の辞書更新要求内容を識別されたユーザ情報と前記ユーザプロファイル部との照合により、前記ユーザプロファイル部に定義されている内容に応じて分類をし、分類結果に応じて更新する辞書の種類を選択して辞書更新を行うことを特徴とする。

本発明によれば、多人数ユーザが翻訳システムなどの言語処理を伴うシステムを使用する環境において、組織的な辞書構築を効率的・効果的に行えるような辞書構築及び構築支援が行えるとともに、辞書の構築単位をシステム管理者が制御できる。これにより、翻訳システムの運用環境に即した組織的で効率的な辞書構築、翻訳環境の整備を行うことができる。

以下、図面を参照しながら、本発明の実施の形態に係る翻訳システムについて説明する。図１は、本発明の実施の形態に係わる翻訳システムの一例を示す構成図である。図１では、ネットワーク１７を介して、ユーザから翻訳要求を受け付けて翻訳サービスを行う翻訳システムを示している。

図１において、翻訳システムはコンピュータ１３とディスク１４とから構成され、コンピュータ１３はプロセッサ１１とメモリ１２とを有している。コンピュータ１３にはネットワーク１７を介してウェブサーバ１５及びメールサーバ１６が接続されている。

プロセッサ１１は、ユーザ要求受信部１、翻訳サービス管理部２、翻訳部３、処理結果送信部５、ユーザ情報管理部６、辞書管理部７を有している。そして、翻訳部３は未登録語句抽出手段３ａを有し、ユーザ情報管理部６はユーザ情報同定手段６ａ、分類情報判定手段６ｂを有している。また、メモリ１２には辞書部４及びユーザプロファイル部８を有し、辞書部４は、基本用語辞書４ａ、オプショナル個別辞書４ｂ、形態素解析規則４ｃ、構文・意味解析規則４ｄ、変換規則４ｅ、生成規則４ｆ、未登録語抽出規則４ｇを有している。また、ディスク１４は翻訳結果格納ディレクトリ９及び登録候補格納ディレクトリ１０を有している。

プロセッサ１１のユーザ要求受信部１は翻訳サービス管理部２へ接続され、処理結果送信部５は翻訳サービス管理部２に接続される。また、翻訳サービス管理部２は、翻訳部３、ユーザ情報管理部６、辞書管理部７と双方向に接続されている。さらに、翻訳部３は辞書部４と、ユーザ情報管理部６はユーザプロファイル部８と双方向に接続されている。辞書管理部７は辞書部４と接続されている。

ユーザ要求受信部１は、ネットワーク１７を介してユーザの端末からの翻訳や辞書更新などの諸要求情報を受け付けて、それを翻訳サービス管理部２に渡すためのもので、例えば、ｃｇｉデコーダ、メールデコーダなどが用いられる。ユーザからの処理要求には、ユーザを識別するための情報を含むものとする。メールによる要求であれば、発信者メールアドレスが識別情報となる。ウェブブラウザを介したシステムであれば、翻訳要求時にユーザのメールアドレスや特定のユーザＩＤ／パスワードを入力させる構成にすることで、ユーザ要求にユーザ識別のための情報を含ませることができる。

メールによる翻訳要求を受け付ける構成としては、特定のメールアドレスに対して、翻訳したい文書を含んだメールを送信すると、定期的にメールサーバ１６をチェックしているユーザ要求受信部１が要求内容を取得するという流れとするものがある。ウェブブラウザを介した要求処理では、直接翻訳したいテキスト情報を受信したり、ネットワーク１７上の特定のファイル名と格納場所を特定できる情報を受信するというものがある。

インターネット上の文書を指定された場合は、ウェブサーバ１５にアクセスして翻訳対象文書を入手する。ユーザ要求受信部１は得られた情報を翻訳サービス管理部２へ送る。また、ユーザ要求が翻訳処理の場合は、翻訳時に指定するオプショナル辞書の使用の有無と種類の情報を、ユーザ要求が辞書更新処理の場合は、更新先の辞書の種類の情報を含む。

ユーザからの各要求情報は、翻訳サービス管理部２でそれぞれ１つのジョブとして蓄積される。翻訳サービス管理部２は、ユーザ要求情報を１つづつ取り出し、個々の要求に沿った処理を行う。本発明の実施の形態で中心となる処理は以下の３つである。

（１）ユーザプロファイル更新処理（ユーザ情報管理部６を介する）
（２）翻訳処理（翻訳部３を介する）
（３）辞書更新処理（辞書管理部７）を介する。

それぞれ、ユーザ情報管理部６、翻訳部３、辞書管理部７へユーザ要求受信部１より受け取った情報を送り、処理が終わると処理結果を得る。得られた結果は、ネットワーク１７を介して、要求を行ったユーザへ通知のための情報発信を行う。具体的には、媒体としてはメールシステムなどを使用することができる。

図２は、本発明の実施の形態に係わる翻訳システムのユーザ要求に対する処理内容を示すフローチャートである。まず、ステップＳ１でユーザ識別処理を行い、ステップＳ２で翻訳処理要求か否かを判定し、翻訳処理要求であるときはステップＳ３で翻訳処理を行う。翻訳処理要求でないときはステップＳ４で辞書更新要求であるか否かを判定し、辞書更新要求であるときはステップＳ５で辞書更新処理を行う。辞書更新処理でないときはステップＳ６でユーザプロファイル更新要求であるか否か判定し、ユーザプロファイル更新要求であるときはステップＳ７でユーザプロファイル更新処理を行う。そして、ユーザプロファイル更新要求でないときはステップＳ８でその他の処理を行う。このようにして、ユーザからの要求の蓄積されたスタックから１つのジョブを取り出し、個々の要求に対する処理を行う。

次に、本発明の実施の形態の辞書部４は、大きくわけて、以下の７種類の部分から構成されている。

（１）基本となる語句に関する翻訳情報を収容する基本用語辞書４ａ
（２）ユーザごと、ユーザグループごと、翻訳する文書の種類ごとなど、目的ごとに、固有の語句についての翻訳情報を格納して、翻訳時に使用を切り分けて使うためのオプショナル個別辞書４ｂ
（３）翻訳対象原文を形態素単位に分割するための形態素解析規則４ｃ
（４）形態素解析結果から、原文の構造や意味関係を解析するための構文・意味解析規則４ｄ
（５）原文の解析結果構造を、翻訳先言語の構造に変換するための変換規則４ｅ
（６）翻訳先言語の構造から翻訳先言語の文を生成するための生成規則４ｆ
（７）自然言語文書から、辞書部４に登録されていない語句（単語、合成語）を認識して抽出するための未登録語抽出規則４ｇ
なお、図１では、辞書部４はメモリ１２上に構成しているが、辞書部４の全体をメモリ１２上に構成するかわりに、例えば、基本用語辞書４ａ、オプショナル個別辞書４ｂの実体はディスク装置上に構成し、その中から翻訳対象原文の中に現れた語句に関する情報のみ辞書引き時にメモリ１２上に読み出すという実現方法でもかまわない。

翻訳部３は、翻訳サービス管理部２より、翻訳対象文、ユーザ識別情報、使用するオプショナル辞書の情報、及び分類情報（後述）を受け取ると、辞書部４の知識・情報を用いて、入力原文に対して翻訳処理を行う。それとともに、翻訳処理中に得られる途中データを元に、翻訳辞書に登録されていない語句の判定・抽出を行う。

図３は本発明の実施の形態の翻訳部３における入力文書中から１文を切り出した後の処理の流れを示すフローチャートである。入力文書中の１文目から最後の文までこの処理の流れを繰り返す。

ステップＳ１１では、標準用語辞書４ａ、オプショナル個別辞書４ｂの中の見出し語、品詞などの文法情報と、形態素解析規則４ｂを使って、入力文に対して辞書引きを行い、形態素の単位への分割を行う。この段階で、辞書に定義されていない単語の判定が行われる。未登録の単語であるという情報は、後の処理で参照できるよう、特殊な品詞コードを割り当てるなど、識別情報の付与を行う。

続くステップＳ１２では、構文・意味解析規則４ｃを使って、形態素の単位に分割されたデータから、入力文の構文構造・意味構造の解析を行い、入力文の言語の解析結果構造を構築する。この構造からは、原文中に含まれる、名詞句、動詞句など、句の単位の判定が可能である。例として、日本語文「本品はジメチルスルホキシドに溶けやすい。」を翻訳する場合をあげる。ここで「ジメチルスルホキシド」ならびに「スルホキシド」は辞書部４に未登録の語句であり、「ジメチル」のみ登録されているとする。

図４は図３のステップ１２で得られる構造データの一例を示す説明図である。図４において、「スルホキシド」が辞書部４に未登録の語句であることを示す情報は、「（品詞未登録名詞）」に表されている。また、本発明の実施の形態の解析結果構造では、名詞句、動詞句などの大きな句の単位を構成する部分木のトップノードに句の種類を示す「（type NP_head）」、「(type VP_head)」などを付与していることが特徴として挙げられる。

解析結果構造が構築されると、ステップＳ１３において、変換規則４ｄを使って、入力文書の言語の構造から翻訳先の言語の構造への変換処理を行う。その後、ステップＳ１５において生成規則４ｅを使って、２次元的な構造から翻訳先言語の１次元的な単語列を生成して、１文の翻訳処理を終える。

一方、ステップＳ１２の後、ステップＳ１３と並行して、ステップＳ１４において、未登録語抽出規則４ｇを使って、辞書部4に未登録の語句（単語・合成語）の抽出処理を行う。

図５は、本発明の実施の形態で用いる未登録語抽出規則４ｇの一例を示す説明図である。図５の一例では、日本語文書から未登録語句を抽出するための規則を示している。規則は２つからなり、それぞれ、原文解析結果と照合させるための「パターン」、「条件」フィールドと、未登録語句として出力するための語句の順番を定義する「出力」フィールドとからなる。規則（１）のパターン中の「(_連結_3)*」は、「連結」アークによるノードの任意個の連結を表している。その連結構造のトップが「１」で示されるノードであり、その条件に「type=NP_head」とあることから、規則（１）は、（type NP_head)を持つノードを頭にして、「連結」アークで連結され、品詞が「*名詞」あるいは「形容動詞語幹」であるノードを、下方から順番に並べて未登録語句として出力することを定義している。単純に「名詞」とせず「*名詞」としているのは、「未登録名詞」なども含む名詞グループ全般のノードを対象とすることを意図している。

一方、規則（２）は、「パターン」では構造を参照しておらず、条件として「品詞=未登録名詞」としていることから、未登録であり名詞と判定された語を単独で出力することを定義している。図４の構造に対しては、規則(1)によれば「ジメチルスルホキシド」が、規則（２）によれば「スルホキシド」が抽出される。本例では原文が日本語の場合を例に取っているが他の言語でも同様の方法で実施できる。

翻訳された結果は、ディスク１４の翻訳結果格納ディレクトリ９に格納され、抽出された未登録語句のリストは、登録候補格納ディレクトリ１０に格納される。これらの格納ディレクトリは、コンピュータ１３の内部に構成してもよいし、外部のコンピュータないしはディスク装置上に構成してもよい。また、翻訳結果は、特定の領域に格納せずに、直接翻訳サービス管理部２に返すような構成であってもよい。登録候補格納ディレクトリ９への格納時には、翻訳サービス管理部２から翻訳部３に渡される分類情報（後述）に基づいて区分した先に格納される。

翻訳部３の全体の処理が終了すると、終了の信号とともに、翻訳結果を格納先ファイル名の情報を翻訳サービス管理部２へ送る。翻訳完了信号を受け取った翻訳サービス管理部２は、翻訳結果送信部５を介して、要求を行ったユーザへ完了の通知を行う。翻訳結果送信部５の構成としてはメールシステムなどがある。翻訳結果をそのままメールシステムの添付ファイルとして返すような構成であってもよい。また、翻訳結果の返し方の指定（特定のファイルとして保存するか、メールで返送するかなど）はユーザが行えるような構成であってもよい。

次に、ユーザからの要求がプロファイル更新である場合の本発明の実施の形態の翻訳サービス管理部２とユーザ情報管理部６の処理について説明する。図６は翻訳サービス管理部２のユーザプロファイル更新の処理の流れの一例を示すフローチャートである。

図６において、まず、設定用のＣＧＩを起動し（Ｓ２１）、キー、マウス操作があったか否かを判定し（Ｓ２２）、マウス操作があった場合には操作に応じた処理を実行する（Ｓ２３）。一方、キー、マウス操作がない場合にはキャンセル指示があったか否かを判定し（Ｓ２４）、キャンセル指示があった場合には処理を終了する。キャンセル指示がない場合には登録実行指示があったか否かを判断し（Ｓ２５）、登録実行指示がないときはステップＳ２２に戻り、登録実行指示があった場合には、プロファイルを更新し処理を終了する（Ｓ２６）。

また、図７は、本発明の実施の形態で用いるユーザプロファイル部８の構成の一例を示す説明図である。ユーザプロファイル部８は、「設定値定義部」と「ユーザ情報部」との２部から構成されている。「設定値定義部」は、システム管理者が運用環境に基づいて自由に定義できる領域である。＄１、＄１−１、…＄２、＄２−１、…は変数名であり、その右側の枠内が、システム管理者が定義する領域である。翻訳サービス管理部２は、プロファイル更新要求を受け取ると、ユーザ情報管理部６を介して、ユーザプロファイル部８から「設定値定義部」の内容を取得し、その定義内容に従って、図６でのステップＳ２１によりユーザに提示するためのＣＧＩ画面の構成を行う。「設定値定義部」の「分類キー」もシステム管理者が自由に選択できる項目である。ここで指定された変数名は、上述の翻訳部３による未登録語句抽出結果を登録候補格納ディレクトリ１０に格納する際の分類情報として用いられる。すなわち、システム管理者は、未登録語句をどのような分類のもとに管理するかを自由に設定できる。また、ユーザプロファイル部８はコンピュータ１３の外部のコンピュータないしはディスク装置上に構成し、参照時にメモリ１２に読み込むように実現してもよい。

図８は、図７の設定値定義部の定義内容に従って構成したユーザに提示するための画面の一例の説明図である。この画面の一例では、ユーザの識別情報として「従業員番号」を表示する方法を採用している。これは、図１のユーザ情報同定手段６ａにおいて、システムログイン情報（ＩＤ，パスワード）や翻訳要求が行われたメールアドレスやマシンアドレスなどをキーとして一意に判定するための対応情報を持つことで実現できる。本発明の実施の形態では、従業員番号をユーザ情報部のユーザ情報インデックスとして使用している。

ユーザは、画面に従って選択を行い、そのまま更新処理を行いたい場合は「更新」ボタンをクリックする。「更新」ボタンがクリックされると、翻訳サービス管理部２は、ユーザの選択内容をユーザ情報管理部６へ送る。選択内容を受け取ったユーザ情報管理部６は、ユーザプロファイル部８の該当するユーザ番号の内容を更新する。

ユーザプロファイル部８の情報は、翻訳サービス管理部２への要求が翻訳処理である場合にも参照される。本発明の実施の形態の翻訳サービス管理部２は、図３に示した翻訳処理を開始させるに先立って、翻訳要求に含まれる何らかのユーザ識別情報をユーザ情報管理部６へ送る。それを受けて、ユーザ情報管理部６は、ユーザ情報同定手段６ａにより、ユーザを一意に限定できる情報（本発明の実施の形態では従業員番号）を得る。さらに、分類情報判定手段６ｂにより、ユーザプロファイル部８中のユーザ定義部中の当該番号をユーザ番号とする登録内容の「選択項目」のうち、「設定値定義部」の「分類キー」で指定された変数名に相当する選択項目を取得する。たとえば、ユーザ番号００００２の場合は、「＄２−３」と「＄２−４」を得る。ここで得た選択項目の情報は、翻訳サービス管理部２を経て、翻訳部３へ「分類情報」として渡され、ステップＳ１４において未登録語句の抽出結果を登録候補格納ディレクトリ１０へ格納する際に使用される。この例では、「＄２−３」と「＄２−４」と２つの選択が行われている。そこで、「分類３」と「分類４」の両方へ、それぞれ抽出した未登録語情報を蓄積する。ここでは２つの選択も可能とする場合を示しているが、選択は１項目までとする運用であってもよい。

図９は、本発明の実施の形態における登録候補格納ディレクトリ１０の記述内容の一例を示す説明図である。本発明の実施の形態で用いる登録候補格納ディレクトリ１０は、未登録の語句の情報のほか、未登録の状態でどういう訳文が出力されるかの情報を参考情報として保持している。これは、原文の解析結果構造から未登録の語句を抽出する際に、辞書部４から辞書引きした結果得られている訳語情報を共に出力することで実現できる。また、原文書中に出現した回数（頻度）も記録をしておく。この頻度情報は、新たな文書から未登録語候補を抽出するたびに更新するのが望ましいが、本発明では更新の時期まで限定するものではない。また、登録候補格納ディレクトリの記述内容に登録候補の抽出の元となった原文の情報もともに格納する構成としてもよい。

本発明の実施の形態で用いる辞書管理部７は、辞書作成支援手段７ａにより、一定の時間間隔で定期的に登録候補格納ディレクトリ１０の内容をチェックする。登録候補の格納量が一定の語数に達している場合には、システム管理者へ登録候補のフィードバックを行う。

図１０は、本発明の実施の形態における辞書作成支援手段７ａによる一つの分類下の登録候補群に対する処理の流れを示すフローチャートである。まず最初に、ある分類下の登録候補の数が一定の数以上あるかをチェックする（ステップＳ３１）。一定数に達していない場合は、そのまま終了し、次の分類下の登録候補群のチェックに進む。全部の分類についての処理が終了するまでこれを繰り返す。一定の数以上の語句があった場合は、ステップＳ３２に進み、頻度情報をキーにして登録語句のソートを行う。この際に、同じ未登録語句が重複して蓄積されていた場合には、統合して頻度を設定しなおす。ソートが終了すると、ステップＳ３３へ進み、全登録候補の語句のうち、一定の頻度以上の語句を切り出し、その結果を翻訳サービス管理部２及び処理結果送信部５を介して、システム管理者へ通知する。

通知の方法は、翻訳完了の通知と同様に、メールシステムなどでメールに登録候補自体を埋め込んで通知したり、ファイルとして登録候補を保存しておいて、ファイルの名前だけを通知する方法が考えられる。システム管理者は、分類情報ごとの登録候補のリストを受け取ると、分類ごとに頻度の高いものから順番に登録の必要性を判断し、オプショナル個別辞書４ｂに追加するためのデータとしてアレンジした上で、辞書管理部７を介して、オプショナル個別辞書４ｂの更新をすることができる。このように、システム管理者は、運用環境の状況に応じて、どのようなオプショナル個別辞書を作成するかを制御できるとともに、その分類に応じて有用であると考えられる頻度の高い未登録の語句のフィードバックを受けることができ、結果的に、組織的で効率的な辞書構築、及び翻訳環境の整備ができる。一度システム管理者へフィードバックした登録候補のリストのあった語は、次回のフィードバックで区別する（除く、識別情報をつける、頻度のカウントとして新規頻度と累積頻度の区別をつける）ような実施も可能である。

次に、ユーザからの要求が辞書登録要求であった場合にも、ユーザのプロファイル情報を使って、組織的で効率的な辞書構築をすることができる。通常、個人ユーザは、個人所有のユーザ辞書（オプショナル個別辞書の１種）に自分が翻訳する上で必要な語句の登録を行う。個人が用いる辞書を更新しているだけでは、組織的な辞書構築、翻訳精度向上にはつながらない。しかし、本発明によれば、個々のユーザの登録要求に対して、前述の翻訳要求と同じように、ユーザプロファイル部８のユーザ情報部の選択項目の情報を使って、分類情報を割り当てることができる。この割り当てられた分類情報とともに、個々の辞書登録要求の蓄積を行る。この処理は、前述した辞書登録候補を登録候補格納ディレクトリ１０に格納する処理に置き換えて考えればよい。その後、定期的に格納内容をチェックして辞書登録候補をシステム管理者へフィードバックする方法も、辞書作成支援手段７ａによって優先度の高い登録候補を切り出し、システム管理者へ通知するのと同様に実現できる。システム管理者はフィーバック内容を元に、個人ユーザ辞書ではなく、システムが全ユーザが使えるように備えるオプショナル個別辞書４ｂの内容を更新して、翻訳環境を整備することができる。

本発明の実施の形態に係わる翻訳システムの一例を示す構成図。本発明の実施の形態に係わる翻訳システムのユーザ要求に対する処理内容を示すフローチャート。本発明の実施の形態の翻訳部における入力文書中から１文を切り出した後の処理の流れを示すフローチャート。図３のステップ１２で得られる構造データの一例を示す説明図。本発明の実施の形態で用いる未登録語抽出規則の一例を示す説明図。本発明の実施の形態における翻訳サービス管理部のユーザプロファイル更新の処理の流れの一例を示すフローチャート。本発明の実施の形態で用いるユーザプロファイル部の構成の一例を示す説明図。図７の設定値定義部の定義内容に従って構成したユーザに提示するための画面の一例の説明図。本発明の実施の形態における登録候補格納ディレクトリの記述内容の一例を示す説明図。本発明の実施の形態における辞書作成支援手段による一つの分類下の登録候補群に対する処理の流れを示すフローチャート。

符号の説明

１…ユーザ要求受信部、２…翻訳サービス管理部、３…翻訳部、４…辞書部、５…処理結果送信部、６…ユーザ情報管理部、７…辞書管理部、８…ユーザプロファイル部、９…翻訳結果格納ディレクトリ、１０…登録候補格納ディレクトリ、１１…プロセッサ、１２…メモリ、１３…コンピュータ、１４…ディスク、１５…ウェブサーバ、１６…メールサーバ、１７…ネットワーク

Claims

ユーザからの翻訳要求を受け付けるユーザ要求受信部と、前記ユーザ要求受信部で受け付けられた自然言語文書を第２の自然言語文書に翻訳するための知識情報を備えた辞書部と、前記辞書部の情報を使って翻訳処理を実行する翻訳部と、前記翻訳部による翻訳処理で得られた翻訳結果を出力する処理結果送信部とを備え、複数のユーザからの翻訳要求を受け付ける翻訳システムにおいて、ユーザのプロファイルを保持するユーザプロファイル部と、個々の翻訳要求がどのユーザの発信であるかを識別するユーザ情報同定手段と、翻訳要求された自然言語文書中から前記辞書部の知識情報を使って前記辞書部に未登録の語句を抽出する未登録語句抽出手段と、前記未登録語句抽出手段により抽出された語句を前記ユーザ情報同定手段により識別されたユーザ情報と前記ユーザプロファイル部との照合により前記ユーザプロファイル部に定義されている内容に応じて分類をし分類情報付きの辞書登録候補語句を出力する辞書作成支援手段とを有することを特徴とする翻訳システム。
前記辞書作成支援手段は、分類情報ごとに辞書登録候補語句を頻度算出し、頻度情報とともに辞書登録候補語句を出力することを特徴とする請求項１に記載の翻訳システム。
ユーザが前記ユーザプロファイル部に情報を定義する際にユーザ提示する項目ないし選択肢は翻訳システム管理者が自由に設定できることを特徴とする請求項１に記載の翻訳システム。
前記ユーザプロファイル部に定義するための項目のうち、どの項目を未登録語の分類のキーとするかは翻訳システム管理者が自由に設定できることを特徴とする請求項１に記載の翻訳システム。
ユーザからの翻訳要求や辞書更新要求を受け付けるユーザ要求受信部と、前記ユーザ要求受信部で受け付けられた自然言語文書を第２の自然言語文書に翻訳するための知識情報を備えた辞書部と、前記辞書部の情報を使って翻訳処理を実行する翻訳部と、辞書更新要求に従って前記辞書部の更新を行う翻訳サービス管理部と、前記翻訳部による翻訳処理で得られた翻訳結果を出力する処理結果送信部とを備え、複数のユーザからの翻訳要求や辞書更新要求を受け付ける翻訳システムにおいて、ユーザのプロファイルを保持するユーザプロファイル部と、個々の辞書更新要求がどのユーザの発信であるかを識別するユーザ情報同定手段とを備え、個々の辞書更新要求内容を、前記ユーザ情報同定手段により識別されたユーザ情報と前記ユーザプロファイル部との照合により、前記ユーザプロファイル部に定義されている内容に応じて分類をし、分類結果に応じて更新する辞書の種類を選択することを特徴とする翻訳システム。
ユーザが前記ユーザプロファイル部に情報を定義する際に提示する項目ないし選択肢は翻訳システム管理者が自由に設定できることを特徴とする請求項５に記載の翻訳システム。
前記ユーザプロファイル部に定義するための項目のうち、どの項目を使って辞書更新先を選択するかは翻訳システム管理者が自由に設定できることを特徴とする請求項５に記載の翻訳システム。
自然言語処理に用いられる辞書の登録語を管理する辞書管理システムにおいて、複数のユーザからの辞書更新要求を受け付けるユーザ要求受信部と、ユーザのプロファイルを保持するユーザプロファイル部と、個々の辞書更新要求がどのユーザの発信であるかを識別するユーザ情報同定手段と、個々の辞書更新要求内容を、前記ユーザ情報同定手段により識別されたユーザ情報と前記ユーザプロファイル部との照合により、前記ユーザプロファイル部に定義されている内容に応じて分類をし、分類結果に応じて更新する辞書の種類を選択して辞書更新を行うことを特徴とする辞書管理システム。
ユーザが前記ユーザプロファイル部に情報を定義する際に提示する項目ないし選択肢は辞書管理システム管理者が自由に設定できることを特徴とする請求項８に記載の辞書管理システム。
前記ユーザプロファイル部に定義するための項目のうち、どの項目を使って辞書更新先を選択するかは辞書管理システム管理者が自由に設定できることを特徴とする請求項８に記載の辞書管理システム。
複数のユーザからの翻訳要求を受け付け、受け付けられた自然言語文書を第２の自然言語文書に翻訳するための辞書部の知識情報を使って翻訳処理を実行し、翻訳処理で得られた翻訳結果を出力する翻訳方法において、ユーザのプロファイルをユーザプロファイル部に保持し、個々の翻訳要求がどのユーザの発信であるかを識別し、翻訳要求された自然言語文書中から前記辞書部の知識情報を使って前記辞書部に未登録の語句を抽出し、抽出された未登録語句を識別されたユーザ情報と前記ユーザプロファイル部との照合により、前記ユーザプロファイル部に定義されている内容に応じて分類をし、分類情報付きの辞書登録候補語句を出力することを特徴とする翻訳方法。
複数のユーザからの翻訳要求や辞書更新要求を受け付け、受け付けられた自然言語文書を第２の自然言語文書に翻訳するための辞書部の知識情報を使って翻訳処理を実行し、辞書更新要求に従って前記辞書部の更新を行い、翻訳処理で得られた翻訳結果を出力する翻訳方法において、ユーザのプロファイルをユーザプロファイル部に保持し、個々の辞書更新要求がどのユーザの発信であるかを識別し、個々の辞書更新要求内容を識別されたユーザ情報と前記ユーザプロファイル部との照合により、前記ユーザプロファイル部に定義されている内容に応じて分類をし、分類結果に応じて更新する辞書の種類を選択することを特徴とする翻訳方法。
自然言語処理に用いられる辞書の登録語を管理する辞書管理方法において、複数のユーザからの辞書更新要求を受け付け、ユーザのプロファイルをユーザプロファイル部に保持し、個々の辞書更新要求がどのユーザの発信であるかを識別し、個々の辞書更新要求内容を識別されたユーザ情報と前記ユーザプロファイル部との照合により、前記ユーザプロファイル部に定義されている内容に応じて分類をし、分類結果に応じて更新する辞書の種類を選択して辞書更新を行うことを特徴とする辞書管理方法。