JP2008197759A - 翻訳システム、翻訳方法、辞書管理システム及び辞書管理方法 - Google Patents

翻訳システム、翻訳方法、辞書管理システム及び辞書管理方法 Download PDF

Info

Publication number
JP2008197759A
JP2008197759A JP2007029986A JP2007029986A JP2008197759A JP 2008197759 A JP2008197759 A JP 2008197759A JP 2007029986 A JP2007029986 A JP 2007029986A JP 2007029986 A JP2007029986 A JP 2007029986A JP 2008197759 A JP2008197759 A JP 2008197759A
Authority
JP
Japan
Prior art keywords
dictionary
translation
user
information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007029986A
Other languages
English (en)
Inventor
Yumiko Yoshimura
裕美子 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2007029986A priority Critical patent/JP2008197759A/ja
Publication of JP2008197759A publication Critical patent/JP2008197759A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】多人数ユーザの翻訳システムの運用環境に即した組織的で効率的な辞書構築、翻訳環境の整備を行うことである。
【解決手段】ユーザのプロファイルを保持するユーザプロファイル部8と、個々の翻訳要求がどのユーザの発信であるかを識別するユーザ情報同定手段6aと、翻訳要求された自然言語文書中から、辞書部4の知識情報を使って辞書部4に未登録の語句を抽出する未登録語句抽出手段3aと、未登録語句抽出手段3aにより抽出された語句をユーザ情報同定手段6aにより識別されたユーザ情報とユーザプロファイル部8との照合によりユーザプロファイル部8に定義されている内容に応じて分類をし分類情報付きの辞書登録候補語句を出力する辞書作成支援手段とを有する。
【選択図】 図1

Description

本発明は、例えば、複数のユーザを伴うサーバ型機械翻訳など言語知識辞書を利用して所定の自然言語処理を行う翻訳システム、翻訳方法、辞書の構築支援を行う辞書管理システム及び辞書管理方法に関する。
ビジネスのグローバル化や組織内情報統制の強化などの進行により、企業内での翻訳需要が高まっており、それに合わせて、組織内ネットワークを利用したサーバ型機械翻訳システムへの注目が高まっている。サーバ型翻訳システムの導入を行い、その利用価値を高めるためには、目的に応じた組織固有の用語や、翻訳を行う文書の内容に特徴的な用語を翻訳辞書に蓄積していくことが望まれる。
大規模なユーザ環境に導入される場合、翻訳ニーズの異なる多数のユーザによりそれぞれ独立に翻訳要求が発せられ、組織的に系統だって効率よくそれぞれの目的に合った有効な翻訳辞書を構築していくことが難しい。
多数のユーザが使用する翻訳システムにおいて翻訳辞書の構築を助け、全般的な翻訳精度を高めるものとしては、個々のユーザが個別に蓄積したユーザ用翻訳辞書の中から頻度の高い語句を取り出して、基本辞書や専門辞書に取り込むものがある(例えば、特許文献1参照)。また、ユーザ共通の公開用辞書を設けて取り込むものがある(例えば、特許文献1参照)。
特許第3372977号公報 特許第3464881号公報
しかし、特許文献1のものや特許文献2のものだけでは、翻訳要求に応じて辞書を作り分ける能力としては十分でない。また、個々のユーザが共通のユーザ辞書に対して用語を追加登録することで辞書構築を行っていく方法があるが、この方法は、翻訳目的が共通なユーザグループ単位での運用には効果を発するものであり、特許文献1のものや特許文献2のものとともに、ユーザがの辞書構築に対する積極性を期待できる環境であることが条件となる。
一方、翻訳要求のあった文書中の未登録語を抽出する技術は確立されている。この技術を使って、翻訳要求を行ったユーザが未登録語のリストを得て、それを元に辞書登録を行うことができる。また、サーバ型翻訳システムでは、サーバ側に未登録語として検出された語句を蓄積しておくことで、全体的に高頻度な未登録語句を抽出することは可能である。これを辞書登録の候補として利用することができるが、組織的に有効な辞書構築を、組織の意図に合わせて行うことは困難であった。すなわち、辞書の構築の単位の調整は困難であった。
本発明の目的は、多人数ユーザが翻訳システムなどの言語処理を伴うシステムを使用する環境において、組織的な辞書構築を効率的・効果的に行えるような辞書構築及び構築支援が行え、辞書の構築単位をシステム管理者が制御できる翻訳システム、翻訳方法、辞書管理システム及び辞書管理方法を提供することである。
本発明の翻訳システムは、ユーザからの翻訳要求を受け付けるユーザ要求受信部と、前記ユーザ要求受信部で受け付けられた自然言語文書を第2の自然言語文書に翻訳するための知識情報を備えた辞書部と、前記辞書部の情報を使って翻訳処理を実行する翻訳部と、前記翻訳部による翻訳処理で得られた翻訳結果を出力する処理結果送信部とを備え、複数のユーザからの翻訳要求を受け付ける翻訳システムにおいて、ユーザのプロファイルを保持するユーザプロファイル部と、個々の翻訳要求がどのユーザの発信であるかを識別するユーザ情報同定手段と、翻訳要求された自然言語文書中から前記辞書部の知識情報を使って前記辞書部に未登録の語句を抽出する未登録語句抽出手段と、前記未登録語句抽出手段により抽出された語句を前記ユーザ情報同定手段により識別されたユーザ情報と前記ユーザプロファイル部との照合により前記ユーザプロファイル部に定義されている内容に応じて分類をし分類情報付きの辞書登録候補語句を出力する辞書作成支援手段とを有することを特徴とする。
本発明の辞書管理システムは、自然言語処理に用いられる辞書の登録語を管理する辞書管理システムにおいて、複数のユーザからの辞書更新要求を受け付けるユーザ要求受信部と、ユーザのプロファイルを保持するユーザプロファイル部と、個々の辞書更新要求がどのユーザの発信であるかを識別するユーザ情報同定手段と、個々の辞書更新要求内容を、前記ユーザ情報同定手段により識別されたユーザ情報と前記ユーザプロファイル部との照合により、前記ユーザプロファイル部に定義されている内容に応じて分類をし、分類結果に応じて更新する辞書の種類を選択して辞書更新を行うことを特徴とする。
本発明の翻訳方法は、複数のユーザからの翻訳要求を受け付け、受け付けられた自然言語文書を第2の自然言語文書に翻訳するための辞書部の知識情報を使って翻訳処理を実行し、翻訳処理で得られた翻訳結果を出力する翻訳方法において、ユーザのプロファイルをユーザプロファイル部に保持し、個々の翻訳要求がどのユーザの発信であるかを識別し、翻訳要求された自然言語文書中から前記辞書部の知識情報を使って前記辞書部に未登録の語句を抽出し、抽出された未登録語句を識別されたユーザ情報と前記ユーザプロファイル部との照合により、前記ユーザプロファイル部に定義されている内容に応じて分類をし、分類情報付きの辞書登録候補語句を出力することを特徴とする。
本発明の辞書管理方法は、自然言語処理に用いられる辞書の登録語を管理する辞書管理方法において、複数のユーザからの辞書更新要求を受け付け、ユーザのプロファイルをユーザプロファイル部に保持し、個々の辞書更新要求がどのユーザの発信であるかを識別し、個々の辞書更新要求内容を識別されたユーザ情報と前記ユーザプロファイル部との照合により、前記ユーザプロファイル部に定義されている内容に応じて分類をし、分類結果に応じて更新する辞書の種類を選択して辞書更新を行うことを特徴とする。
本発明によれば、多人数ユーザが翻訳システムなどの言語処理を伴うシステムを使用する環境において、組織的な辞書構築を効率的・効果的に行えるような辞書構築及び構築支援が行えるとともに、辞書の構築単位をシステム管理者が制御できる。これにより、翻訳システムの運用環境に即した組織的で効率的な辞書構築、翻訳環境の整備を行うことができる。
以下、図面を参照しながら、本発明の実施の形態に係る翻訳システムについて説明する。図1は、本発明の実施の形態に係わる翻訳システムの一例を示す構成図である。図1では、ネットワーク17を介して、ユーザから翻訳要求を受け付けて翻訳サービスを行う翻訳システムを示している。
図1において、翻訳システムはコンピュータ13とディスク14とから構成され、コンピュータ13はプロセッサ11とメモリ12とを有している。コンピュータ13にはネットワーク17を介してウェブサーバ15及びメールサーバ16が接続されている。
プロセッサ11は、ユーザ要求受信部1、翻訳サービス管理部2、翻訳部3、処理結果送信部5、ユーザ情報管理部6、辞書管理部7を有している。そして、翻訳部3は未登録語句抽出手段3aを有し、ユーザ情報管理部6はユーザ情報同定手段6a、分類情報判定手段6bを有している。また、メモリ12には辞書部4及びユーザプロファイル部8を有し、辞書部4は、基本用語辞書4a、オプショナル個別辞書4b、形態素解析規則4c、構文・意味解析規則4d、変換規則4e、生成規則4f、未登録語抽出規則4gを有している。また、ディスク14は翻訳結果格納ディレクトリ9及び登録候補格納ディレクトリ10を有している。
プロセッサ11のユーザ要求受信部1は翻訳サービス管理部2へ接続され、処理結果送信部5は翻訳サービス管理部2に接続される。また、翻訳サービス管理部2は、翻訳部3、ユーザ情報管理部6、辞書管理部7と双方向に接続されている。さらに、翻訳部3は辞書部4と、ユーザ情報管理部6はユーザプロファイル部8と双方向に接続されている。辞書管理部7は辞書部4と接続されている。
ユーザ要求受信部1は、ネットワーク17を介してユーザの端末からの翻訳や辞書更新などの諸要求情報を受け付けて、それを翻訳サービス管理部2に渡すためのもので、例えば、cgiデコーダ、メールデコーダなどが用いられる。ユーザからの処理要求には、ユーザを識別するための情報を含むものとする。メールによる要求であれば、発信者メールアドレスが識別情報となる。ウェブブラウザを介したシステムであれば、翻訳要求時にユーザのメールアドレスや特定のユーザID/パスワードを入力させる構成にすることで、ユーザ要求にユーザ識別のための情報を含ませることができる。
メールによる翻訳要求を受け付ける構成としては、特定のメールアドレスに対して、翻訳したい文書を含んだメールを送信すると、定期的にメールサーバ16をチェックしているユーザ要求受信部1が要求内容を取得するという流れとするものがある。ウェブブラウザを介した要求処理では、直接翻訳したいテキスト情報を受信したり、ネットワーク17上の特定のファイル名と格納場所を特定できる情報を受信するというものがある。
インターネット上の文書を指定された場合は、ウェブサーバ15にアクセスして翻訳対象文書を入手する。ユーザ要求受信部1は得られた情報を翻訳サービス管理部2へ送る。また、ユーザ要求が翻訳処理の場合は、翻訳時に指定するオプショナル辞書の使用の有無と種類の情報を、ユーザ要求が辞書更新処理の場合は、更新先の辞書の種類の情報を含む。
ユーザからの各要求情報は、翻訳サービス管理部2でそれぞれ1つのジョブとして蓄積される。翻訳サービス管理部2は、ユーザ要求情報を1つづつ取り出し、個々の要求に沿った処理を行う。本発明の実施の形態で中心となる処理は以下の3つである。
(1)ユーザプロファイル更新処理(ユーザ情報管理部6を介する)
(2)翻訳処理(翻訳部3を介する)
(3)辞書更新処理(辞書管理部7)を介する。
それぞれ、ユーザ情報管理部6、翻訳部3、辞書管理部7へユーザ要求受信部1より受け取った情報を送り、処理が終わると処理結果を得る。得られた結果は、ネットワーク17を介して、要求を行ったユーザへ通知のための情報発信を行う。具体的には、媒体としてはメールシステムなどを使用することができる。
図2は、本発明の実施の形態に係わる翻訳システムのユーザ要求に対する処理内容を示すフローチャートである。まず、ステップS1でユーザ識別処理を行い、ステップS2で翻訳処理要求か否かを判定し、翻訳処理要求であるときはステップS3で翻訳処理を行う。翻訳処理要求でないときはステップS4で辞書更新要求であるか否かを判定し、辞書更新要求であるときはステップS5で辞書更新処理を行う。辞書更新処理でないときはステップS6でユーザプロファイル更新要求であるか否か判定し、ユーザプロファイル更新要求であるときはステップS7でユーザプロファイル更新処理を行う。そして、ユーザプロファイル更新要求でないときはステップS8でその他の処理を行う。このようにして、ユーザからの要求の蓄積されたスタックから1つのジョブを取り出し、個々の要求に対する処理を行う。
次に、本発明の実施の形態の辞書部4は、大きくわけて、以下の7種類の部分から構成されている。
(1)基本となる語句に関する翻訳情報を収容する基本用語辞書4a
(2)ユーザごと、ユーザグループごと、翻訳する文書の種類ごとなど、目的ごとに、固有の語句についての翻訳情報を格納して、翻訳時に使用を切り分けて使うためのオプショナル個別辞書4b
(3)翻訳対象原文を形態素単位に分割するための形態素解析規則4c
(4)形態素解析結果から、原文の構造や意味関係を解析するための構文・意味解析規則4d
(5)原文の解析結果構造を、翻訳先言語の構造に変換するための変換規則4e
(6)翻訳先言語の構造から翻訳先言語の文を生成するための生成規則4f
(7)自然言語文書から、辞書部4に登録されていない語句(単語、合成語)を認識して抽出するための未登録語抽出規則4g
なお、図1では、辞書部4はメモリ12上に構成しているが、辞書部4の全体をメモリ12上に構成するかわりに、例えば、基本用語辞書4a、オプショナル個別辞書4bの実体はディスク装置上に構成し、その中から翻訳対象原文の中に現れた語句に関する情報のみ辞書引き時にメモリ12上に読み出すという実現方法でもかまわない。
翻訳部3は、翻訳サービス管理部2より、翻訳対象文、ユーザ識別情報、使用するオプショナル辞書の情報、及び分類情報(後述)を受け取ると、辞書部4の知識・情報を用いて、入力原文に対して翻訳処理を行う。それとともに、翻訳処理中に得られる途中データを元に、翻訳辞書に登録されていない語句の判定・抽出を行う。
図3は本発明の実施の形態の翻訳部3における入力文書中から1文を切り出した後の処理の流れを示すフローチャートである。入力文書中の1文目から最後の文までこの処理の流れを繰り返す。
ステップS11では、標準用語辞書4a、オプショナル個別辞書4bの中の見出し語、品詞などの文法情報と、形態素解析規則4bを使って、入力文に対して辞書引きを行い、形態素の単位への分割を行う。この段階で、辞書に定義されていない単語の判定が行われる。未登録の単語であるという情報は、後の処理で参照できるよう、特殊な品詞コードを割り当てるなど、識別情報の付与を行う。
続くステップS12では、構文・意味解析規則4cを使って、形態素の単位に分割されたデータから、入力文の構文構造・意味構造の解析を行い、入力文の言語の解析結果構造を構築する。この構造からは、原文中に含まれる、名詞句、動詞句など、句の単位の判定が可能である。例として、日本語文「本品はジメチルスルホキシドに溶けやすい。」を翻訳する場合をあげる。ここで「ジメチルスルホキシド」ならびに「スルホキシド」は辞書部4に未登録の語句であり、「ジメチル」のみ登録されているとする。
図4は図3のステップ12で得られる構造データの一例を示す説明図である。図4において、「スルホキシド」が辞書部4に未登録の語句であることを示す情報は、「(品詞 未登録名詞)」に表されている。また、本発明の実施の形態の解析結果構造では、名詞句、動詞句などの大きな句の単位を構成する部分木のトップノードに句の種類を示す「(type NP_head)」、「(type VP_head)」などを付与していることが特徴として挙げられる。
解析結果構造が構築されると、ステップS13において、変換規則4dを使って、入力文書の言語の構造から翻訳先の言語の構造への変換処理を行う。その後、ステップS15において生成規則4eを使って、2次元的な構造から翻訳先言語の1次元的な単語列を生成して、1文の翻訳処理を終える。
一方、ステップS12の後、ステップS13と並行して、ステップS14において、未登録語抽出規則4gを使って、辞書部4に未登録の語句(単語・合成語)の抽出処理を行う。
図5は、本発明の実施の形態で用いる未登録語抽出規則4gの一例を示す説明図である。図5の一例では、日本語文書から未登録語句を抽出するための規則を示している。規則は2つからなり、それぞれ、原文解析結果と照合させるための「パターン」、「条件」フィールドと、未登録語句として出力するための語句の順番を定義する「出力」フィールドとからなる。規則(1)のパターン中の「(_連結_3)*」は、「連結」アークによるノードの任意個の連結を表している。その連結構造のトップが「1」で示されるノードであり、その条件に「type=NP_head」とあることから、規則(1)は、(type NP_head)を持つノードを頭にして、「連結」アークで連結され、品詞が「*名詞」あるいは「形容動詞語幹」であるノードを、下方から順番に並べて未登録語句として出力することを定義している。単純に「名詞」とせず「*名詞」としているのは、「未登録名詞」なども含む名詞グループ全般のノードを対象とすることを意図している。
一方、規則(2)は、「パターン」では構造を参照しておらず、条件として「品詞=未登録名詞」としていることから、未登録であり名詞と判定された語を単独で出力することを定義している。図4の構造に対しては、規則(1)によれば「ジメチルスルホキシド」が、規則(2)によれば「スルホキシド」が抽出される。本例では原文が日本語の場合を例に取っているが他の言語でも同様の方法で実施できる。
翻訳された結果は、ディスク14の翻訳結果格納ディレクトリ9に格納され、抽出された未登録語句のリストは、登録候補格納ディレクトリ10に格納される。これらの格納ディレクトリは、コンピュータ13の内部に構成してもよいし、外部のコンピュータないしはディスク装置上に構成してもよい。また、翻訳結果は、特定の領域に格納せずに、直接翻訳サービス管理部2に返すような構成であってもよい。登録候補格納ディレクトリ9への格納時には、翻訳サービス管理部2から翻訳部3に渡される分類情報(後述)に基づいて区分した先に格納される。
翻訳部3の全体の処理が終了すると、終了の信号とともに、翻訳結果を格納先ファイル名の情報を翻訳サービス管理部2へ送る。翻訳完了信号を受け取った翻訳サービス管理部2は、翻訳結果送信部5を介して、要求を行ったユーザへ完了の通知を行う。翻訳結果送信部5の構成としてはメールシステムなどがある。翻訳結果をそのままメールシステムの添付ファイルとして返すような構成であってもよい。また、翻訳結果の返し方の指定(特定のファイルとして保存するか、メールで返送するかなど)はユーザが行えるような構成であってもよい。
次に、ユーザからの要求がプロファイル更新である場合の本発明の実施の形態の翻訳サービス管理部2とユーザ情報管理部6の処理について説明する。図6は翻訳サービス管理部2のユーザプロファイル更新の処理の流れの一例を示すフローチャートである。
図6において、まず、設定用のCGIを起動し(S21)、キー、マウス操作があったか否かを判定し(S22)、マウス操作があった場合には操作に応じた処理を実行する(S23)。一方、キー、マウス操作がない場合にはキャンセル指示があったか否かを判定し(S24)、キャンセル指示があった場合には処理を終了する。キャンセル指示がない場合には登録実行指示があったか否かを判断し(S25)、登録実行指示がないときはステップS22に戻り、登録実行指示があった場合には、プロファイルを更新し処理を終了する(S26)。
また、図7は、本発明の実施の形態で用いるユーザプロファイル部8の構成の一例を示す説明図である。ユーザプロファイル部8は、「設定値定義部」と「ユーザ情報部」との2部から構成されている。「設定値定義部」は、システム管理者が運用環境に基づいて自由に定義できる領域である。$1、$1−1、…$2、$2−1、…は変数名であり、その右側の枠内が、システム管理者が定義する領域である。翻訳サービス管理部2は、プロファイル更新要求を受け取ると、ユーザ情報管理部6を介して、ユーザプロファイル部8から「設定値定義部」の内容を取得し、その定義内容に従って、図6でのステップS21によりユーザに提示するためのCGI画面の構成を行う。「設定値定義部」の「分類キー」もシステム管理者が自由に選択できる項目である。ここで指定された変数名は、上述の翻訳部3による未登録語句抽出結果を登録候補格納ディレクトリ10に格納する際の分類情報として用いられる。すなわち、システム管理者は、未登録語句をどのような分類のもとに管理するかを自由に設定できる。また、ユーザプロファイル部8はコンピュータ13の外部のコンピュータないしはディスク装置上に構成し、参照時にメモリ12に読み込むように実現してもよい。
図8は、図7の設定値定義部の定義内容に従って構成したユーザに提示するための画面の一例の説明図である。この画面の一例では、ユーザの識別情報として「従業員番号」を表示する方法を採用している。これは、図1のユーザ情報同定手段6aにおいて、システムログイン情報(ID,パスワード)や翻訳要求が行われたメールアドレスやマシンアドレスなどをキーとして一意に判定するための対応情報を持つことで実現できる。本発明の実施の形態では、従業員番号をユーザ情報部のユーザ情報インデックスとして使用している。
ユーザは、画面に従って選択を行い、そのまま更新処理を行いたい場合は「更新」ボタンをクリックする。「更新」ボタンがクリックされると、翻訳サービス管理部2は、ユーザの選択内容をユーザ情報管理部6へ送る。選択内容を受け取ったユーザ情報管理部6は、ユーザプロファイル部8の該当するユーザ番号の内容を更新する。
ユーザプロファイル部8の情報は、翻訳サービス管理部2への要求が翻訳処理である場合にも参照される。本発明の実施の形態の翻訳サービス管理部2は、図3に示した翻訳処理を開始させるに先立って、翻訳要求に含まれる何らかのユーザ識別情報をユーザ情報管理部6へ送る。それを受けて、ユーザ情報管理部6は、ユーザ情報同定手段6aにより、ユーザを一意に限定できる情報(本発明の実施の形態では従業員番号)を得る。さらに、分類情報判定手段6bにより、ユーザプロファイル部8中のユーザ定義部中の当該番号をユーザ番号とする登録内容の「選択項目」のうち、「設定値定義部」の「分類キー」で指定された変数名に相当する選択項目を取得する。たとえば、ユーザ番号00002の場合は、「$2−3」と「$2−4」を得る。ここで得た選択項目の情報は、翻訳サービス管理部2を経て、翻訳部3へ「分類情報」として渡され、ステップS14において未登録語句の抽出結果を登録候補格納ディレクトリ10へ格納する際に使用される。この例では、「$2−3」と「$2−4」と2つの選択が行われている。そこで、「分類3」と「分類4」の両方へ、それぞれ抽出した未登録語情報を蓄積する。ここでは2つの選択も可能とする場合を示しているが、選択は1項目までとする運用であってもよい。
図9は、本発明の実施の形態における登録候補格納ディレクトリ10の記述内容の一例を示す説明図である。本発明の実施の形態で用いる登録候補格納ディレクトリ10は、未登録の語句の情報のほか、未登録の状態でどういう訳文が出力されるかの情報を参考情報として保持している。これは、原文の解析結果構造から未登録の語句を抽出する際に、辞書部4から辞書引きした結果得られている訳語情報を共に出力することで実現できる。また、原文書中に出現した回数(頻度)も記録をしておく。この頻度情報は、新たな文書から未登録語候補を抽出するたびに更新するのが望ましいが、本発明では更新の時期まで限定するものではない。また、登録候補格納ディレクトリの記述内容に登録候補の抽出の元となった原文の情報もともに格納する構成としてもよい。
本発明の実施の形態で用いる辞書管理部7は、辞書作成支援手段7aにより、一定の時間間隔で定期的に登録候補格納ディレクトリ10の内容をチェックする。登録候補の格納量が一定の語数に達している場合には、システム管理者へ登録候補のフィードバックを行う。
図10は、本発明の実施の形態における辞書作成支援手段7aによる一つの分類下の登録候補群に対する処理の流れを示すフローチャートである。まず最初に、ある分類下の登録候補の数が一定の数以上あるかをチェックする(ステップS31)。一定数に達していない場合は、そのまま終了し、次の分類下の登録候補群のチェックに進む。全部の分類についての処理が終了するまでこれを繰り返す。一定の数以上の語句があった場合は、ステップS32に進み、頻度情報をキーにして登録語句のソートを行う。この際に、同じ未登録語句が重複して蓄積されていた場合には、統合して頻度を設定しなおす。ソートが終了すると、ステップS33へ進み、全登録候補の語句のうち、一定の頻度以上の語句を切り出し、その結果を翻訳サービス管理部2及び処理結果送信部5を介して、システム管理者へ通知する。
通知の方法は、翻訳完了の通知と同様に、メールシステムなどでメールに登録候補自体を埋め込んで通知したり、ファイルとして登録候補を保存しておいて、ファイルの名前だけを通知する方法が考えられる。システム管理者は、分類情報ごとの登録候補のリストを受け取ると、分類ごとに頻度の高いものから順番に登録の必要性を判断し、オプショナル個別辞書4bに追加するためのデータとしてアレンジした上で、辞書管理部7を介して、オプショナル個別辞書4bの更新をすることができる。このように、システム管理者は、運用環境の状況に応じて、どのようなオプショナル個別辞書を作成するかを制御できるとともに、その分類に応じて有用であると考えられる頻度の高い未登録の語句のフィードバックを受けることができ、結果的に、組織的で効率的な辞書構築、及び翻訳環境の整備ができる。一度システム管理者へフィードバックした登録候補のリストのあった語は、次回のフィードバックで区別する(除く、識別情報をつける、頻度のカウントとして新規頻度と累積頻度の区別をつける)ような実施も可能である。
次に、ユーザからの要求が辞書登録要求であった場合にも、ユーザのプロファイル情報を使って、組織的で効率的な辞書構築をすることができる。通常、個人ユーザは、個人所有のユーザ辞書(オプショナル個別辞書の1種)に自分が翻訳する上で必要な語句の登録を行う。個人が用いる辞書を更新しているだけでは、組織的な辞書構築、翻訳精度向上にはつながらない。しかし、本発明によれば、個々のユーザの登録要求に対して、前述の翻訳要求と同じように、ユーザプロファイル部8のユーザ情報部の選択項目の情報を使って、分類情報を割り当てることができる。この割り当てられた分類情報とともに、個々の辞書登録要求の蓄積を行る。この処理は、前述した辞書登録候補を登録候補格納ディレクトリ10に格納する処理に置き換えて考えればよい。その後、定期的に格納内容をチェックして辞書登録候補をシステム管理者へフィードバックする方法も、辞書作成支援手段7aによって優先度の高い登録候補を切り出し、システム管理者へ通知するのと同様に実現できる。システム管理者はフィーバック内容を元に、個人ユーザ辞書ではなく、システムが全ユーザが使えるように備えるオプショナル個別辞書4bの内容を更新して、翻訳環境を整備することができる。
本発明の実施の形態に係わる翻訳システムの一例を示す構成図。 本発明の実施の形態に係わる翻訳システムのユーザ要求に対する処理内容を示すフローチャート。 本発明の実施の形態の翻訳部における入力文書中から1文を切り出した後の処理の流れを示すフローチャート。 図3のステップ12で得られる構造データの一例を示す説明図。 本発明の実施の形態で用いる未登録語抽出規則の一例を示す説明図。 本発明の実施の形態における翻訳サービス管理部のユーザプロファイル更新の処理の流れの一例を示すフローチャート。 本発明の実施の形態で用いるユーザプロファイル部の構成の一例を示す説明図。 図7の設定値定義部の定義内容に従って構成したユーザに提示するための画面の一例の説明図。 本発明の実施の形態における登録候補格納ディレクトリの記述内容の一例を示す説明図。 本発明の実施の形態における辞書作成支援手段による一つの分類下の登録候補群に対する処理の流れを示すフローチャート。
符号の説明
1…ユーザ要求受信部、2…翻訳サービス管理部、3…翻訳部、4…辞書部、5…処理結果送信部、6…ユーザ情報管理部、7…辞書管理部、8…ユーザプロファイル部、9…翻訳結果格納ディレクトリ、10…登録候補格納ディレクトリ、11…プロセッサ、12…メモリ、13…コンピュータ、14…ディスク、15…ウェブサーバ、16…メールサーバ、17…ネットワーク

Claims (13)

  1. ユーザからの翻訳要求を受け付けるユーザ要求受信部と、前記ユーザ要求受信部で受け付けられた自然言語文書を第2の自然言語文書に翻訳するための知識情報を備えた辞書部と、前記辞書部の情報を使って翻訳処理を実行する翻訳部と、前記翻訳部による翻訳処理で得られた翻訳結果を出力する処理結果送信部とを備え、複数のユーザからの翻訳要求を受け付ける翻訳システムにおいて、ユーザのプロファイルを保持するユーザプロファイル部と、個々の翻訳要求がどのユーザの発信であるかを識別するユーザ情報同定手段と、翻訳要求された自然言語文書中から前記辞書部の知識情報を使って前記辞書部に未登録の語句を抽出する未登録語句抽出手段と、前記未登録語句抽出手段により抽出された語句を前記ユーザ情報同定手段により識別されたユーザ情報と前記ユーザプロファイル部との照合により前記ユーザプロファイル部に定義されている内容に応じて分類をし分類情報付きの辞書登録候補語句を出力する辞書作成支援手段とを有することを特徴とする翻訳システム。
  2. 前記辞書作成支援手段は、分類情報ごとに辞書登録候補語句を頻度算出し、頻度情報とともに辞書登録候補語句を出力することを特徴とする請求項1に記載の翻訳システム。
  3. ユーザが前記ユーザプロファイル部に情報を定義する際にユーザ提示する項目ないし選択肢は翻訳システム管理者が自由に設定できることを特徴とする請求項1に記載の翻訳システム。
  4. 前記ユーザプロファイル部に定義するための項目のうち、どの項目を未登録語の分類のキーとするかは翻訳システム管理者が自由に設定できることを特徴とする請求項1に記載の翻訳システム。
  5. ユーザからの翻訳要求や辞書更新要求を受け付けるユーザ要求受信部と、前記ユーザ要求受信部で受け付けられた自然言語文書を第2の自然言語文書に翻訳するための知識情報を備えた辞書部と、前記辞書部の情報を使って翻訳処理を実行する翻訳部と、辞書更新要求に従って前記辞書部の更新を行う翻訳サービス管理部と、前記翻訳部による翻訳処理で得られた翻訳結果を出力する処理結果送信部とを備え、複数のユーザからの翻訳要求や辞書更新要求を受け付ける翻訳システムにおいて、ユーザのプロファイルを保持するユーザプロファイル部と、個々の辞書更新要求がどのユーザの発信であるかを識別するユーザ情報同定手段とを備え、個々の辞書更新要求内容を、前記ユーザ情報同定手段により識別されたユーザ情報と前記ユーザプロファイル部との照合により、前記ユーザプロファイル部に定義されている内容に応じて分類をし、分類結果に応じて更新する辞書の種類を選択することを特徴とする翻訳システム。
  6. ユーザが前記ユーザプロファイル部に情報を定義する際に提示する項目ないし選択肢は翻訳システム管理者が自由に設定できることを特徴とする請求項5に記載の翻訳システム。
  7. 前記ユーザプロファイル部に定義するための項目のうち、どの項目を使って辞書更新先を選択するかは翻訳システム管理者が自由に設定できることを特徴とする請求項5に記載の翻訳システム。
  8. 自然言語処理に用いられる辞書の登録語を管理する辞書管理システムにおいて、複数のユーザからの辞書更新要求を受け付けるユーザ要求受信部と、ユーザのプロファイルを保持するユーザプロファイル部と、個々の辞書更新要求がどのユーザの発信であるかを識別するユーザ情報同定手段と、個々の辞書更新要求内容を、前記ユーザ情報同定手段により識別されたユーザ情報と前記ユーザプロファイル部との照合により、前記ユーザプロファイル部に定義されている内容に応じて分類をし、分類結果に応じて更新する辞書の種類を選択して辞書更新を行うことを特徴とする辞書管理システム。
  9. ユーザが前記ユーザプロファイル部に情報を定義する際に提示する項目ないし選択肢は辞書管理システム管理者が自由に設定できることを特徴とする請求項8に記載の辞書管理システム。
  10. 前記ユーザプロファイル部に定義するための項目のうち、どの項目を使って辞書更新先を選択するかは辞書管理システム管理者が自由に設定できることを特徴とする請求項8に記載の辞書管理システム。
  11. 複数のユーザからの翻訳要求を受け付け、受け付けられた自然言語文書を第2の自然言語文書に翻訳するための辞書部の知識情報を使って翻訳処理を実行し、翻訳処理で得られた翻訳結果を出力する翻訳方法において、ユーザのプロファイルをユーザプロファイル部に保持し、個々の翻訳要求がどのユーザの発信であるかを識別し、翻訳要求された自然言語文書中から前記辞書部の知識情報を使って前記辞書部に未登録の語句を抽出し、抽出された未登録語句を識別されたユーザ情報と前記ユーザプロファイル部との照合により、前記ユーザプロファイル部に定義されている内容に応じて分類をし、分類情報付きの辞書登録候補語句を出力することを特徴とする翻訳方法。
  12. 複数のユーザからの翻訳要求や辞書更新要求を受け付け、受け付けられた自然言語文書を第2の自然言語文書に翻訳するための辞書部の知識情報を使って翻訳処理を実行し、辞書更新要求に従って前記辞書部の更新を行い、翻訳処理で得られた翻訳結果を出力する翻訳方法において、ユーザのプロファイルをユーザプロファイル部に保持し、個々の辞書更新要求がどのユーザの発信であるかを識別し、個々の辞書更新要求内容を識別されたユーザ情報と前記ユーザプロファイル部との照合により、前記ユーザプロファイル部に定義されている内容に応じて分類をし、分類結果に応じて更新する辞書の種類を選択することを特徴とする翻訳方法。
  13. 自然言語処理に用いられる辞書の登録語を管理する辞書管理方法において、複数のユーザからの辞書更新要求を受け付け、ユーザのプロファイルをユーザプロファイル部に保持し、個々の辞書更新要求がどのユーザの発信であるかを識別し、個々の辞書更新要求内容を識別されたユーザ情報と前記ユーザプロファイル部との照合により、前記ユーザプロファイル部に定義されている内容に応じて分類をし、分類結果に応じて更新する辞書の種類を選択して辞書更新を行うことを特徴とする辞書管理方法。
JP2007029986A 2007-02-09 2007-02-09 翻訳システム、翻訳方法、辞書管理システム及び辞書管理方法 Withdrawn JP2008197759A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007029986A JP2008197759A (ja) 2007-02-09 2007-02-09 翻訳システム、翻訳方法、辞書管理システム及び辞書管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007029986A JP2008197759A (ja) 2007-02-09 2007-02-09 翻訳システム、翻訳方法、辞書管理システム及び辞書管理方法

Publications (1)

Publication Number Publication Date
JP2008197759A true JP2008197759A (ja) 2008-08-28

Family

ID=39756670

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007029986A Withdrawn JP2008197759A (ja) 2007-02-09 2007-02-09 翻訳システム、翻訳方法、辞書管理システム及び辞書管理方法

Country Status (1)

Country Link
JP (1) JP2008197759A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011055672A1 (de) 2011-11-24 2013-05-29 Ben Fredj Mehdi Verfahren zur Extraktion und Übersetzung eines Sprachinhalts, Vorrichtung auf dem das Verfahren durchführbar gespeichert ist und Verwendung eines dezentralen Netzwerks zur Durchführung des Verfahrens
KR101409413B1 (ko) * 2012-07-20 2014-06-20 한양대학교 에리카산학협력단 단일화 문법을 이용한 자연어 처리 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102011055672A1 (de) 2011-11-24 2013-05-29 Ben Fredj Mehdi Verfahren zur Extraktion und Übersetzung eines Sprachinhalts, Vorrichtung auf dem das Verfahren durchführbar gespeichert ist und Verwendung eines dezentralen Netzwerks zur Durchführung des Verfahrens
KR101409413B1 (ko) * 2012-07-20 2014-06-20 한양대학교 에리카산학협력단 단일화 문법을 이용한 자연어 처리 방법

Similar Documents

Publication Publication Date Title
US9336200B2 (en) Assisting document creation
US7444325B2 (en) Method and system for information extraction
CN102779114B (zh) 利用自动规则生成的非结构化数据支持
JP2000348041A (ja) 文書検索方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
US20040205671A1 (en) Natural-language processing system
CN1530860A (zh) 使用全局唯一标识符的数据搜索系统和数据搜索方法
Laclavík et al. Email analysis and information extraction for enterprise benefit
JP2009271911A (ja) 情報のシンボルによるリンクとインテリジェントな分類を行う方法及びシステム
US10430485B2 (en) Verifying character sets in domain name requests
JP2011108085A (ja) 知識構築装置およびプログラム
US10180930B2 (en) Auto completing domain names comprising multiple languages
TWI735380B (zh) 自然語言處理方法與其計算裝置
JP2012178078A (ja) 文書処理装置
US20050004902A1 (en) Information retrieving system, information retrieving method, and information retrieving program
JP5485236B2 (ja) Faq作成支援システム及びプログラム
JP5400496B2 (ja) 決算書の分析結果に基づく記事を作成するシステム
JP4967037B2 (ja) 情報検索装置、情報検索方法、端末装置、およびプログラム
JP2019204157A (ja) 問合せ機器特定システム、問合せ機器特定方法
JP2006343925A (ja) 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム
JP2008197759A (ja) 翻訳システム、翻訳方法、辞書管理システム及び辞書管理方法
JP2019121164A (ja) 文書作成装置、文書作成方法、データベース構築装置、データベース構築方法、およびプログラム
JP2007148741A (ja) Web検索支援サーバ
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
JP2007128224A (ja) 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム
JP2011086156A (ja) 漏洩情報追跡システムおよび漏洩情報追跡プログラム

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100511