JP2008084078A - 和英規格変換方法及びシステム並びに和英規格変換プログラム - Google Patents

和英規格変換方法及びシステム並びに和英規格変換プログラム Download PDF

Info

Publication number
JP2008084078A
JP2008084078A JP2006264412A JP2006264412A JP2008084078A JP 2008084078 A JP2008084078 A JP 2008084078A JP 2006264412 A JP2006264412 A JP 2006264412A JP 2006264412 A JP2006264412 A JP 2006264412A JP 2008084078 A JP2008084078 A JP 2008084078A
Authority
JP
Japan
Prior art keywords
translation
japanese
english
word
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006264412A
Other languages
English (en)
Inventor
Tadashi Ohashi
正 大橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2006264412A priority Critical patent/JP2008084078A/ja
Publication of JP2008084078A publication Critical patent/JP2008084078A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】本発明は和英規格変換方法及びシステム並びに和英規格変換プログラムに関し、日本語から英語又は英語から日本語への変換を利用者のスキルを必要とすることなしに自動で変換することができる和英規格変換方法及びシステム並びに和英規格変換プログラムを提供することを目的としている。
【解決手段】翻訳システムにおいて、原文から単語を抽出する手段と、作業者のプロファイルとして登録した情報を元に訳例検索時の優先度を設定する手段と、用語集を参照して各単語に適用する手段と、訳例集を参照して過去の頻度数から類似度を算出して最も類似した訳例文を選択する手段とから構成される。
【選択図】図3

Description

本発明は和英規格変換方法及びシステム並びに和英規格変換プログラムに関する。
文書ツールを用いた単語検索による辞書変換方法は既にある。例えば、Word製品に使用されている辞書変換方式がそれである。この場合において、辞書の提供は、CD−ROMかWebによる一方向提供のものであり、利用者の利用習熟度を学習できないという問題がある。この場合に使用される各種の専門辞書は、あくまでも一般的な使用頻度での単語出現順位となっている。
図9は従来技術の説明図である。図において、1は和英辞書で、例えばマイクロソフトのワード(Word)の埋め込み辞書が考えられる。そして、ZN規格の例を示している。和文は“あいうえお”順に並べられており、例えば、和文が「あ」行の「暗号」であった場合、対応する英文としては、暗号を示す「cipher」が記憶されている。図9に原文(日本語)と訳文(英語)の例を示している。一般文字変換の場合は利用者のスキルに大きく依存する技術レベル方式である。また、従来の技術は、変換エリア指定の一括翻訳しない方式であるため、連語の一括変換ができない。
従来のこの種のシステムとしては、翻訳サーバがインターネットを介して2台接続されたシステムにおいて、第1の翻訳サーバがテキスト情報を取得し、所定の言語単位に分割しし、日本語データベースを照会して該当するコード情報を第2の翻訳サーバに送信し、第2の翻訳サーバは、取得したコード情報を検索手段により英語のテキスト情報を得るシステムが知られている(例えば特許文献1参照)。また、処理するテキストについて少なくともその対象とする分野及び文の種類等の情報を蓄積するステップと、辞書検索時に、該蓄積情報を利用するステップからなるシステムが知られている(例えば特許文献2参照)。
また、優先表示分野設定画面において、分野“コンピュータ”を選択して訳/決定キーを押下すると、優先表示分野を“コンピュータ”に指定して優先表示分野格納領域を更新するようにしたシステムが知られている(例えば特許文献3参照)。また、英語と日本語とが対応付けられた複数の辞書データを記録した辞書データベースと、英語と日本語とが対応付けられた複数の用例集データを記録した用例データベースと、英語の語句の入力を受け付ける入力部と、入力された英語の語句を構成する各単語に対応する日本語の訳を辞書データベースから検索するようにした装置が知られている(例えば特許文献4参照)。
特開2002−91969号公報(段落0017〜0032、図1〜図3) 特開昭63−37474号公報(第3頁左上欄第1行〜同頁左下欄第20行、第1図、第2図) 特開2006−31351号公報(段落0036〜0049、図3〜図8) 特開2005−141630号公報(段落0010〜0025、図1〜図4)
現在、文書には和英併記のドキュメントの様式が様々存在する。ページ単位混在型、単ページ混在型、左右ページ分類型等がある。この場合でも和単語を和英変換するが、最適な用語の選択は専ら利用者のスキルに委ねられている。即ち、和文の単語の内容が全て利用者の知識に依拠している。従来の場合、用語変換辞書を具備しており、分野別の辞書が必要である。用語が全て「あいうえお」順に配列されているので、シーケンシャルに単語を捜す必要があり、時間がかかるという問題がある。
また、単語の区切りを人間が判断し、単語体での変換を行なうので手間がかかるという問題がある。また、和文を単語節に自動分解することができず、単語のみ取り出すことができない。また、パラグラフのように一つの塊を一括変換ができないという問題がある。この場合、和文を単語節に自動分解できないので、単語のみを取り出すことができない。更に、過去の訳例を引用することができないという問題がある。
本発明はこのような課題に鑑みてなされたものであって、日本語から英語又は英語から日本語への変換を利用者のスキルを必要とすることなしに自動で変換することができる和英規格変換方法及びシステム並びに和英規格変換プログラムを提供することを目的としている。
(1)請求項1記載の発明は、翻訳システムにおいて、原文から単語を抽出する工程と、作業者のプロファイルとして登録した情報を元に訳例検索時の優先度を設定する工程と、用語集を参照して各単語に適用する工程と、訳例集を参照して過去の頻度数から類似度を算出して最も類似した訳例文を選択する工程とから構成されることを特徴とする和英規格変換方法。
(2)請求項2記載の発明は、翻訳システムにおいて、原文から単語を抽出する手段と、
作業者のプロファイル(所属,担当業務,専門分野等)として登録した情報を元に訳例検索時の優先度を設定する手段と、用語集を参照して各単語に適用する手段と、訳例集を参照して過去の頻度数から類似度を算出して最も類似した訳例文を選択する手段と、から構成されることを特徴とする。
(3)請求項3記載の発明は、和用語と、英用語と、規格番号と、規格名称と、分野と頻度を記憶する代替類似語クラスタリングテーブルを設け、翻訳作業で和文の原文と訳文との類似度を参照し、類似度が100%でない場合には、このテーブルに作業者のプロファイル(所属,担当業務,専門分野等)に応じた代替類似語を所与のクラスタリンググループより選出して訳例の類似度を算出した訳文を訳例として蓄積していくことを特徴とする。
(4)請求項4記載の発明は、和文の原文用語と訳例用語とのパターンマッチング、又は英文の原文用語と訳例用語とのパターンマッチングを行なって類似度を求め、求めた類似度を元に所定の演算により誤差を算出し、算出した誤差が一番小さくなった訳例を変換用語として用いるようにしたことを特徴とする。
(5)請求項5記載の発明は、前記訳例が決定されたら、前記原文が日本語である場合に当該訳例と対応付けられている英語を翻訳単語として決定することを特徴とする。
(6)請求項6記載の発明は、類似度が低かった場合には、日本語から英語又は英語から日本語への変換のパスを切り替えて翻訳を行なうことを特徴とする。
(7)請求項7記載の発明は、和英/英和翻訳ルートを複数通り設けることを特徴とする。
(8)請求項8記載の発明は、過去に累積した訳例を元に類似文章から利用者のプロファイル(所属,担当業務,専門分野等)に合わせて最適な訳を照合することを特徴とする。
(9)請求項9記載の発明は、原文と訳例で使用されている用語の種類とその頻度数で両者の類似度を算出し、所定の演算に基づく誤差が最小となるように訳例の単語を検索していくことを特徴とする。
(10)請求項10記載の発明は、代替した訳語が気に入らない場合、操作部から手入力で入力できるように構成されていることを特徴とする。
11.また、この発明は、類似度が低かった場合は、類似語グループの中で一番頻度の高い用語を訳例として代替するようにしたことを特徴とする。
12、また、この発明は、前記翻訳時に、類似英語の利用選択は、用語集の利用者のプロファイルと用語頻度を元に決定することを特徴とする。
13.また、この発明は、類似語は、訳例の用語抽出で原文語と訳例語の一致させている組み合わせで決定することを特徴とする。
14.また、この発明は、設計者の作業プロファイルにより訳例検索する際に、優先度選択を行ない、翻訳処理を行なうことを特徴とする。
15.また、この発明は、和英変換と英和変換は規格限定構文を用いて、作業者プロファイル、用語の種類、頻度で行なうことを特徴とする。
16.また、この発明は、翻訳システムにおいて、原文から単語を抽出する工程と、作業者のプロファイルとして登録した情報を元に訳例検索時の優先度を設定する工程と、用語集を参照して各単語に適用する工程と、訳例集を参照して過去の頻度数から類似度を算出して最も類似した訳例文を選択する工程とをコンピュータで実行することを特徴とする。
(1)請求項1記載の発明によれば、原文から抽出した単語と、訳例とを対比させ、その類似度を算出して最も類似した訳例を選択することにより、日本語から英語又は英語から日本語への変換を利用者のスキルを必要とすることなしに自動で変換することができる
(2)請求項2記載の発明によれば、原文から抽出した単語と、訳例とを対比させ、その類似度を算出して最も類似した訳例を選択することにより、日本語から英語又は英語から日本語への変換を利用者のスキルを必要とすることなしに自動で変換することができる。
(3)請求項3記載の発明によれば、翻訳作業で和文の原文と訳文との類似度を参照し、類似度が100%でない場合に、テーブルに類似度を算出した訳文を訳例として蓄積していくことにより、翻訳時の学習機能を持たせることができる。
(4)請求項4記載の発明によれば、原文と訳例とのパターンマッチングを行なって類似度を求め、この類似度を用いて誤差を算出し、算出した誤差が最も小さい訳例を変換用語として用いることにより、正確な翻訳を行なうことができる。
(5)請求項5記載の発明によれば、日本語で原文と訳文のパターンマッチングを行ない、訳文が決定されたら、その訳文と対応付けられている英語を翻訳単語として決定することで、日本語から英語への変換をスムーズに行なうことができる。
(6)請求項7記載の発明によれば、類似度が低かった場合、日本語から英語、又は英語から日本語への変換のパスを切り替えて翻訳を行なうことにより、類似度の高い翻訳を行なうことができる。
(7)請求項7記載の発明によれば、和英/英和翻訳ルートを複数通り設けることにより、翻訳結果の誤差が多い場合に、最も翻訳誤差の少ないルートを採用することで、正確な翻訳を実行することができる。
(8)請求項8記載の発明によれば、過去に累積した訳例を元に類似文章から利用者のプロファイルに合わせて最適な訳を用いるので、正確な翻訳を行なうことができる。
(9)請求項9記載の発明によれば、原文と訳例から両者の類似度を算出し、この類似度を用いた所定の演算により誤差が最小となる訳例の単語を検索していくので、正確な翻訳が可能となる。
(10)請求項10記載の発明によれば、代替した訳語が気に入らない場合に、設計者が操作部から最も好ましい訳語を入力することができるので、文章全体として正確な翻訳を行なうことができる。
11.また、この発明によれば、類似度が低かった場合は、代替類似語クラスタリングの中で一番頻度の高い用語を訳例として用いることで、最も適当と思われる翻訳を行なうことができる。
12.また、この発明によれば、類似英語の利用選択は、用語集の利用者のプロファイルと用語頻度を元に決定することができる。
13.また、この発明によれば、類似語を原文語と訳例語の組み合わせで決定することができる。
14.また、この発明によれば、設計者の作業プロファイルにより訳例検索する際に優先度選択を行なうことにより、設計者の専門分野における最適な翻訳を行なうことができる。
15.また、この発明によれば、翻訳に規格限定構文を用いることで、より最適な翻訳を行なうことができる。
16.また、この発明によれば、上述した一連の翻訳作業をコンピュータで実行することができる。
以下、図面を参照して本発明の実施の形態例を詳細に説明する。図1は本発明の解決手段の説明図である。2はデータベーステーブルとして記憶されている記憶部である。図に示す構成は、テーブルの中身であり、和文/英文作成済み、又は作成中規格により和/英用語と引例規格番号、規格名称、分野、頻度を記憶するようになっている。図に示す例の場合、和用語の一例を示す、例えば「解析」に対して、複数英語の用語が対応付けられている。ここでは、wordx,wordyが対応付けられている。wordxの場合には、規格番号として1001,1003,1009が記憶されている。ここで、「用語」とは、ある特定の専門分野における特化した単語のことである。
そして、規格番号1001に対する規格名称はXXXXXであり、分野はDDDDDである。つまり、分野DDDDDにおける和文の「解析」に対応する最適な英用語はwordxであるということになる。規格番号1003に対する規格名称はYYYYYであるが、この場合はまだ分野が決まっていないことを示す。規格番号1009に対する規格名称はZZZZZであり、分野はVVVVVである。
また、和用語「解析」に対する英用語wordyの規格番号は2001、規格名称はAAAAAであり、分野はまだ決まっていない。このような規格番号、規格名称、分野、頻度は、プロファイル適合抽出に利用される。図2は本発明の動作説明図である。3はデータベースに記憶されているテーブルである。このテーブル3には、原文t(tはt0からtnまで)と、対応する頻度と、訳例w(wはw0からwnまで)と対応する頻度と、類似度sと誤差eが記憶されている。ここで、「訳例」とは翻訳処理によって作成され、蓄積される単語のことである。翻訳用語を決定する場合、先ず用語集を参照して原文の単語を抽出し、訳例と対比する用語を求める。そして、抽出した原文の用語と、記憶部2に記憶されている訳例wとからパターンマッチングを行ない、類似度sが算出される。そして、この算出した類似度sを元に、誤差eを算出する。この誤差eが所定の閾値より大きいか小さいかが判断される。誤差eが閾値より大きい場合には、次の訳例をテーブル3から読み出し、類似度sを算出する。そして、この類似度sに基づいて算出した誤差eが所定の閾値より大きい場合には、類似度算出の工程に戻り、同じ処理を繰り返す。そして、求めた誤差eが所定の閾値よりも小さい場合には、その訳例wを変換用語として決定する。この訳例は、テーブル3の該当領域の訳例の頻度記憶領域に記憶され、頻度が+1だけ更新される。いま、原文t2の翻訳時にエラーeが出たものとすると、この時の原文t2は固定して訳例wを先に検索をすすめ、t2との一致を示す訳例を探すことになる。
このように、本発明によれば、原文から抽出した単語と訳例とを対比させ、その類似度を算出して最も類似した訳例を選択することにより、日本語から英語又は英語から日本語への変換を利用者のスキルを必要とすることなしに自動で変換することができる。また、本発明によれば、原文と訳例とのパターンマッチングを行なって類似度を求め、この類似度を用いて誤差を算出し、算出した誤差が最も小さい訳例を変換用語として用いることにより、正確な翻訳を行なうことができる。
また、本発明によれば、過去に累積した訳例を元に類似文章から利用者のプロファイルに合わせて最適な訳を用いるので、正確な翻訳を行なうことができる。また、原文と訳例から両者の類似度を算出し、この類似度を用いた所定の演算により誤差が最小となる訳例の用語を検索していくので、正確な翻訳が可能となる。
図3は本発明の具体的な動作説明図である。例1は和英変換時に原文と訳例文との類似が多少ずれている例を示している。図において、5は和/英両方の用語が記憶された用語集、6は和/英両方の訳例が記憶された訳例集である。例1では、和文同士の比較を行なっている。原文10が「画像解析システムはプリント回路板にデジタル信号処理プロセッサーを実装する」というものであったものとする。この文章を、用語集5を参照して用語抽出文11に変換すると、「画像解析システムは,プリント回路板に,デジタル信号処理プロセッサーを,実装する」となる。ここで、コンマ“,”は用語の区切りを示す。
これに対して、対比すべき用語集12は、「画像解析システムは,暗号アルゴリズムを,DSPの浮動小数点演算を,駆使して,高速に,処理する」である。用語抽出された和文と、訳例和文との間に用語の違いがみられる。13は用語集12に対応した英語の訳例であり、「Image analysis system performs the high speed coding algorithm using floating point arithmetic of DSP operation」となる。15は訳例13と対応した和文であり、用語抽出文11と対比させられるペアである。14は訳例13と対応する英文である。このように構成されたシステムにおいて、用語抽出文11と用語集12との類似度が判定され、類似語に対応した英文が選択され、出力される。
例2は例1と異なり、英文同士の類似度を判定する場合を示している。16は英文の原文であり、この原文から用語抽出すると、17に示すような用語抽出文が得られる。この用語抽出文17と訳例14との類似度を対比する。対比の結果、用語集14の用語は類似度に応じて他の最適な用語に置き換わる。置き換わった英文は、それに対応する和用語がデータベースに記憶されているので、対応する和用語に置き換えられ、置き換えられた文章が出力されることになる。
なお、この実施の形態例において、翻訳作業で和文の原文と訳例との類似度を参照し、類似度が100%でない場合には、テーブルに類似度を算出した訳文を訳例として蓄積していくことにより、翻訳時の学習機能を持たせることができる。
また、この実施の形態例によれば、日本語で原文と訳文のパターンマッチングを行ない、訳文が決定されたら、その訳文と対応付けられている英語を翻訳単語として決定することにより、日本語から英語への変換をスムーズに行なうことができる。
また、本発明によれば、設計者の作業プロファイルにより訳例検索する際に優先度選択を行なうことにより、設計者の専門分野における最適な翻訳を行なうことができる。また、本発明によれば、類似度が低かった場合には、日本語から英語、又は英語から日本語への変換のパスを切り替えて翻訳を行なうようにすることができる。例えば、図3に示すように、作業者ファイル18のファイルの内容に従って、和英変換部19で和英変換を行ない、用語抽出文17を得ると共に、英和変換部20により英和変換を行ない、用語抽出文11とする。このようにすれば、類似度が低かった場合、日本語から英語、又は英語から日本語への変換のパスを切り替えて翻訳を行なうことにより、類似度の高い翻訳を行なうことができる。
また、本発明によれば、類似度が低かった場合、類似語グループの中で一番頻度の高い用語を訳例として用いることができる。このようにすれば、最も適当と思われる翻訳を行なうことができる。また、本発明によれば、類似単語の利用選択は、用語集の利用者のプロファイルと用語頻度を元に決定することができる。
図4は翻訳時における誤差算出の説明図である。例1は原文と訳例が完全に一致している例を示している。原文の用語はt0〜t3まで4個ある。これに対して、訳例はw0〜w3まで4個ある。これらtiとwi(i=0〜3)との類似度を求めると、tiとwiの全てが一致しており、類似度は全て1である。この時の誤差eを求める。誤差eは原文の用語の個数をTi、一致した訳例の個数をWiとして
e=1−(Wi/Ti) only if(Ti−Wi=0) (1)
となる。
例1の場合、原文と訳例4個の全てが一致しているから、
e=1−(4/4)=0
となる。次に、例2について考える。この場合には、4個の用語のうち、1語に若干の相違がある場合である。即ち、t1とw1に若干の相違がある。例えば、t1は“プリント回路板”であり、w1は“プリント回路ボード”である。この2つの用語は表現が異なるものの実質的に同一のものを示しているから、類似度1とする。即ち一致したものとみなす。この結果、例1の場合と同様に、双方の文の誤差eは0となる。
次に、例3の場合について考える。この場合は、4個の用語の内3個は一致しているが、残りの1個が不一致の場合を示している。不一致の用語はt1とw1である。t1は“プリント回路板”であり、w1は“電源供給ユニット”であり、明らかに異なる。この場合は、類似度は0となる。tiとwiを(1)式に代入して誤差eを求めると、
e=1−3/4=0.25
となる。
次に、例4の場合について考える。例4の場合は用語の数に不一致がある場合である。この場合、一致した数をMiとして誤差eは次式で表される。
e={1−(Mi/Ti)}×(Wi−Ti)(Ti≠Wi) (2)
例4の場合に誤差eを求めてみると、Mi=1、Ti=4、Wi=6であるから、(2)式に代入すると、
e={1−(1/4)}×(6−4)=1.5
となる。
次に、例5の場合について考える。この場合は、用語の数に不一致がある場合で、かつWi<Tiの場合である。それぞれの値を(2)式に代入すると、
e={1−1/4}×(2−4)=−1.5
となる。
以上のような誤差の算出を行ない、翻訳用語として採用するかどうかについては、予め誤差に一定の基準を設け、その基準値より誤差が小さい場合にのみ、翻訳用語として採用するようにすればよい。例えば、基準値を0.4とする場合等である。この場合、例1〜例3は翻訳用語として採用され、例4と例5は採用されないことになる。
この実施の形態例によれば、原文と訳例から両者の類似度を算出し、この類似度を用いた所定の演算により誤差が最小となる訳例の用語を検索していくので、正確な翻訳が可能となる。また、本発明によれば、過去に累積した訳例を元に類似文章から利用者のプロファイルに合わせて最適な訳を用いるので、正確な翻訳を行なうことができる。
また、本発明では、類似語は、訳例の用語抽出で原文語と訳例語の一致させている組み合わせで決定することにより、類似語を原文語と訳例語の組み合わせで決定することができる。また、本発明では、翻訳時に、類似英語と利用選択は、用語集の利用者のプロファイルと用語頻度を元に決定することを特徴としている。この結果、類似英語の利用選択は、用語集の利用者のプロファイルと用語頻度を元に決定することができる。
図5は本発明の動作の一例を示すフローチャートである。先ず、原文の用語抽出を行ない、文の先頭にもってくる(S1)。ここで、原文をそれぞれt00〜tvwで表す。訳例をそれぞれW00〜Wwnで表す。次に、訳例の用語を抽出し、文の先頭へもってくる(S2)。そして、用語が一致するかどうかチェックする(S3)。即ち、tnとwnが等しいかどうかチェックする。ステップS3で用語が一致した時、原文の用語の頻度をカウントし、1だけ更新する(S4)。
次に、原文最終用語であるかどうかチェックする(S5)。最終用語でなかった場合には、原文の次のポイントの用語をもってきて(S6)、ステップS2に戻る。一方、ステップS3で不一致だった場合、訳例文の最終用語であるかどうかチェックする(S7)。最終用語であった場合には、類似語があるかどうかチェックする(S8)。類似語があった場合、用語集で類似語の高頻度の用語tn´を原文用語に代替し(S9)、ステップS2に戻る。ステップS7において、訳例文の最終用語でなかった場合には、訳例の次のポイントの用語をもってきてステップS2に戻る(S10)。
ステップS5において、原文の最終用語であった場合、誤差が大きいかどうかチェックする(S11)。誤差が小さい場合には、全原文が終了したかどうかチェックする(S12)。全原文が終了した場合には、翻訳処理で用いた訳例をデータベースに蓄積し(S13)、処理を終了する。訳例をデータベースに蓄積することで、以降の翻訳処理に使用することが可能となる。
ステップS11において、誤差が大きい場合、手入力をするかどうか判定する(S14)。手入力の場合には、操作部からの手入力により最適な訳例を用いることができる。手入力でない場合には、訳例の先頭に戻り(S16)、翻訳パスを変えて(S17)、ステップS1に戻る。
この実施の形態例によれば、代替した訳語が気に入らない場合に、設計者が操作部から最も好ましい訳語を入力することができるので、文章全体として正確な翻訳を行なうことができる。
次に、規格限定構文について説明する。英/和又は和/英翻訳を行なう場合、文章としては規格限定構文が用いられる。規格限定構文は、名詞(S)、動詞(V)、目的語(O)、助詞(C)等に着目したテクニカルな技術文書の構文である。図6は規格限定構文の説明図である。それぞれの名詞、動詞、目的語、助詞等の意味は図に示す通りである。文型は第1文型から第5文型までの5つに分かれている。第1文型はS+Vよりなる簡単な文であり、第2文型はS+V+Cからなる文である。第3文型はS+V+Oよりなる文であり、第4文型はS+V+O+Oよりなる文であり、第5文型はS+V+O+Cよりなる文である。ここで、第4文型の例を示すと、日本語で「画像解析システムは、プリント回路板にデジタル処理プロセッサーを搭載する」は、英語で「Image Analisys System mounts Digital Processer on Printed Circuit Bourd」となる。これら文のS,V,O,Oの関係は図に示した通りである。本発明によれば、翻訳に規格限定構文を用いることで、より最適な翻訳を行なうことができる。
図7は従来技術と本発明との比較説明図である。従来技術と本発明について、辞書関係、単語検索関係、訳例翻訳の精度と質との関係につい比較説明している。これによれば、辞書関係の場合、従来技術では辞書は一般的に高価で複雑なため、プログラムが大きくなりがちである。これに対して、本発明によれば、辞書を用いず用語集を用いるため、安価である。また、例えば、単語検索方式の場合を例にとると、従来技術ではデメリットとして、一般にシーケンシャル検索であり、人手による検索であるため、利用者のスキルに大きく依存するという問題がある。これに対して、本発明では、利用者のプロファイルがあるので、平均した利用効果が期待できるというメリットがある。更に、訳例翻訳の精度と質について比較すると、従来技術は人手による検索のため、利用者のスキルに大きく依存するという問題があるが、本発明によれば、利用者のプロファイルがあるので、平均した利用効果が期待である。そしてまた、訳例ルートを複数(ここでは丸1から丸4までの4通りの場合を示す)設けておくことにより、それぞれのルートにおける訳例精度を求め、最も訳例精度が高いルートを選んで翻訳処理を行なうため、高い翻訳精度が期待できる。
図8は従来技術と本発明との比較説明図である。この図では、従来技術と本発明についての辞書関係、単語検索方式、訳例翻訳の場合について比較説明している。辞書関係について言えば、従来技術の場合は単語辞書と用語辞書を用いている。これに対して、本発明によれば、図に示すようなフォーマットの用語集と訳例集とを用いており(図1参照)、辞書を用いていないので、安価な翻訳システムを構築することができる。次に、単語検索方式について言えば、従来の技術はシーケンシャル検索を行なっている。例えば、マイクロソフト社のワード(Word)埋め込み辞書の場合が考えられる。そして、単語の選択は作業者に一任されているので、改行キーを押しながら最適単語を探すものである。これに対して、本発明は類似度の誤差が常に最小になるように原文語を中心にして検索し、誤差が大きくなった時点で原文語を固定し、訳例用語集を検索する。また、類似翻訳を行なう機能を具備しているので、原文と一致する用語が無い場合でも、原文と単語の代替を行なう必要がない。
また、訳例翻訳について言えば、従来技術では簡単な方式では構文解析をせずに含む単語レベルで原文と訳文を照合している。これに対して、本発明では、翻訳ルートを。丸1〜丸4までの4通り具備しているので、原文(日本語又は英語)と訳文(英語と日本語)相互の照合による類似度は用語の種類と用語の出現頻度が同じであれば、完全な一致とすることができる。
本発明によれば、翻訳システムにおいて、原文から単語を抽出する工程と、作業者のプロファイルとして登録した情報を元に訳例検索時の優先度を設定する工程と、用語集を参照して各単語に適用する工程と、訳例集を参照して過去の頻度数から類似度を算出して最も類似した訳例文を選択する工程とをプログラムとして組むことができる。このようにすれば、和英規格変換方法をコンピュータで実行することができる。
(付記1)
翻訳システムにおいて、原文から単語を抽出する工程と、
作業者のプロファイルとして登録した情報を元に訳例検索時の優先度を設定する工程と、
用語集を参照して各単語に適用する工程と、
訳例集を参照して過去の頻度数から類似度を算出して最も類似した訳例文を選択する工程と、
から構成されることを特徴とする和英規格変換方法。
(付記2)
翻訳システムにおいて、原文から単語を抽出する手段と、
作業者のプロファイル(所属,担当業務,専門分野等)として登録した情報を元に訳例検索時の優先度を設定する手段と、
用語集を参照して各単語に適用する手段と、
訳例集を参照して過去の頻度数から類似度を算出して最も類似した訳例文を選択する手段と、
から構成されることを特徴とする和英規格変換システム。
(付記3)
和用語と、英用語と、規格番号と、規格名称と、分野と頻度を記憶する代替類似語クラスタリングテーブルを設け、翻訳作業で和文の原文と訳文との類似度を参照し、類似度が100%でない場合には、このテーブルに作業者のプロファイル(所属,担当業務,専門分野等)に応じた代替類似語を所与のクラスタリンググループより選出して訳例の類似度を算出した訳文を訳例として蓄積していくことを特徴とする付記1記載の和英規格変換方法。
(付記4)
和文の原文用語と訳例用語とのパターンマッチング、又は英文の原文用語と訳例用語とのパターンマッチングを行なって類似度を求め、求めた類似度を元に所定の演算により誤差を算出し、算出した誤差が一番小さくなった訳例を変換用語として用いるようにしたことを特徴とする付記3記載の和英規格変換方法。
(付記5)
前記訳例が決定されたら、前記原文が日本語である場合に当該訳例と対応付けられている英語を翻訳単語として決定することを特徴とする付記4記載の和英規格変換方法。
(付記6)
類似度が低かった場合には、日本語から英語又は英語から日本語への変換のパスを切り替えて翻訳を行なうことを特徴とする付記3乃至5の何れかに記載の和英規格変換方法。
(付記7)
和英/英和翻訳ルートを複数通り設けることを特徴とする請求項3乃至5の何れかに記載の和英規格変換方法。
(付記8)
過去に累積した訳例を元に類似文章から利用者のプロファイル(所属,担当業務,専門分野等)に合わせて最適な訳を照合することを特徴とする付記3乃至5の何れかに記載の和英規格変換方法。
(付記9)
原文と訳例で使用されている用語の種類とその頻度数で両者の類似度を算出し、所定の演算に基づく誤差が最小となるように訳例の単語を検索していくことを特徴とする付記3乃至5の何れかに記載の和英規格変換方法。
(付記10)
代替した訳語が気に入らない場合、操作部から手入力で入力できるように構成されていることを特徴とする付記12記載の和英規格変換方法。
(付記11)
類似度が低かった場合は、代替類似語クラスタリングの中で一番頻度の高い用語を訳例として代替するようにしたことを特徴とする付記3乃至5の何れかに記載の和英規格変換方法。
(付記12)
前記翻訳時に、類似英語の利用選択は、用語集の利用者のプロファイルと用語頻度を元に決定することを特徴とする付記3乃至5の何れかに記載の和英規格変換方法。
(付記13)
類似語は、訳例の用語抽出で原文語と訳例語の一致させている組み合わせで決定することを特徴とする付記3乃至5の何れかに記載の和英規格変換方法。
(付記14)
設計者の作業プロファイルにより訳例検索する際に、優先度選択を行ない、翻訳処理を行なうことを特徴とする付記3乃至5の何れかに記載の和英規格変換方法。(10)
(付記15)
和英変換と英和変換は規格限定構文を用いて、作業者プロファイル、用語の種類、頻度で行なうことを特徴とする付記3乃至5の何れかに記載の和英規格変換方法。
(付記16)
翻訳システムにおいて、原文から単語を抽出する工程と、
作業者のプロファイルとして登録した情報を元に訳例検索時の優先度を設定する工程と、
用語集を参照して各単語に適用する工程と、
訳例集を参照して過去の頻度数から類似度を算出して最も類似した訳例文を選択する工程と、
をコンピュータで実行することを特徴とする和英規格変換プログラム。
以上、説明した本発明の効果を列挙すれば、以下の通りである。
1)和英併記のドキュメントの様式が種々存在しても、柔軟に処理ができる。
2)単語を和英変換について、最適な用語を利用者のスキルによらずに実施することができる。
3)用語変換機能を具備しており、分野別変換が可能である。
4)パラグラフ(段落)のように一つの塊を一括変換できる。
5)過去の訳例の引用がいつでもできる。
本発明の解決手段の説明図である。 本発明の動作説明図である。 本発明の具体的な動作説明図である。 誤差算出の説明図である。 本発明の動作の一例を示すフローチャートである。 規格限定構文の説明図である。 従来技術と本発明との比較説明図である。 従来技術と本発明との比較説明図である。 従来技術の説明図である。
符号の説明
5 用語集
6 訳例集
10 和文原文
11 用語抽出文
12 用語集
13 訳例
14 英文
15 和文
16 英文原文
17 用語抽出文
18 作業者プロファイル
19 和英変換部
20 英和変換部

Claims (10)

  1. 翻訳システムにおいて、原文から単語を抽出する工程と、
    作業者のプロファイルとして登録した情報を元に訳例検索時の優先度を設定する工程と、
    用語集を参照して各単語に適用する工程と、
    訳例集を参照して過去の頻度数から類似度を算出して最も類似した訳例文を選択する工程と、
    から構成されることを特徴とする和英規格変換方法。
  2. 翻訳システムにおいて、原文から単語を抽出する手段と、
    作業者のプロファイル(所属,担当業務,専門分野等)として登録した情報を元に訳例検索時の優先度を設定する手段と、
    用語集を参照して各単語に適用する手段と、
    訳例集を参照して過去の頻度数から類似度を算出して最も類似した訳例文を選択する手段と、
    から構成されることを特徴とする和英規格変換システム。
  3. 和用語と、英用語と、規格番号と、規格名称と、分野と頻度を記憶する代替類似語クラスタリングテーブルを設け、翻訳作業で和文の原文と訳文との類似度を参照し、類似度が100%でない場合には、このテーブルに作業者のプロファイル(所属,担当業務,専門分野等)に応じた代替類似語を所与のクラスタリンググループより選出して訳例の類似度を算出した訳文を訳例として蓄積していくことを特徴とする請求項1記載の和英規格変換方法。
  4. 和文の原文用語と訳例用語とのパターンマッチング、又は英文の原文用語と訳例用語とのパターンマッチングを行なって類似度を求め、求めた類似度を元に所定の演算により誤差を算出し、算出した誤差が一番小さくなった訳例を変換用語として用いるようにしたことを特徴とする請求項3記載の和英規格変換方法。
  5. 前記訳例が決定されたら、前記原文が日本語である場合に当該訳例と対応付けられている英語を翻訳単語として決定することを特徴とする請求項4記載の和英規格変換方法。
  6. 類似度が低かった場合には、日本語から英語又は英語から日本語への変換のパスを切り替えて翻訳を行なうことを特徴とする請求項3乃至5の何れかに記載の和英規格変換方法。
  7. 和英/英和翻訳ルートを複数通り設けることを特徴とする請求項3乃至5の何れかに記載の和英規格変換方法。
  8. 過去に累積した訳例を元に類似文章から利用者のプロファイル(所属,担当業務,専門分野等)に合わせて最適な訳を照合することを特徴とする請求項3乃至5の何れかに記載の和英規格変換方法。
  9. 原文と訳例で使用されている用語の種類とその頻度数で両者の類似度を算出し、所定の演算に基づく誤差が最小となるように訳例の単語を検索していくことを特徴とする請求項3乃至5の何れかに記載の和英規格変換方法。
  10. 代替した訳語が気に入らない場合、操作部から手入力で入力できるように構成されていることを特徴とする請求項3乃至5の何れかに記載の和英規格変換方法。
JP2006264412A 2006-09-28 2006-09-28 和英規格変換方法及びシステム並びに和英規格変換プログラム Pending JP2008084078A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006264412A JP2008084078A (ja) 2006-09-28 2006-09-28 和英規格変換方法及びシステム並びに和英規格変換プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006264412A JP2008084078A (ja) 2006-09-28 2006-09-28 和英規格変換方法及びシステム並びに和英規格変換プログラム

Publications (1)

Publication Number Publication Date
JP2008084078A true JP2008084078A (ja) 2008-04-10

Family

ID=39354883

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006264412A Pending JP2008084078A (ja) 2006-09-28 2006-09-28 和英規格変換方法及びシステム並びに和英規格変換プログラム

Country Status (1)

Country Link
JP (1) JP2008084078A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008468A (zh) * 2019-03-04 2019-07-12 广州虎牙信息科技有限公司 语言系统管理方法、信息转换方法、服务器以及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10116286A (ja) * 1996-10-09 1998-05-06 Nippon Telegr & Teleph Corp <Ntt> 自然言語翻訳方法及び装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10116286A (ja) * 1996-10-09 1998-05-06 Nippon Telegr & Teleph Corp <Ntt> 自然言語翻訳方法及び装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008468A (zh) * 2019-03-04 2019-07-12 广州虎牙信息科技有限公司 语言系统管理方法、信息转换方法、服务器以及存储介质

Similar Documents

Publication Publication Date Title
US7343371B2 (en) Queries-and-responses processing method, queries-and-responses processing program, queries-and-responses processing program recording medium, and queries-and-responses processing apparatus
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
US20170235841A1 (en) Enterprise search method and system
US7647303B2 (en) Document processing apparatus for searching documents, control method therefor, program for implementing the method, and storage medium storing the program
JP2006012168A (ja) 翻訳メモリシステムにおいてカバレージおよび質を改良する方法
JP2008033931A (ja) テキストを追補する方法、クエリーに応答してテキストを取得する方法、およびシステム
JP2019032704A (ja) 表データ構造化システムおよび表データ構造化方法
JP6108212B2 (ja) 同義語抽出システム、方法およびプログラム
WO2019163642A1 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
RU2546064C1 (ru) Распределенная система и способ языкового перевода
Broughton A faceted classification as the basis of a faceted terminology: conversion of a classified structure to thesaurus format in the Bliss Bibliographic Classification
JP2006343925A (ja) 関連語辞書作成装置、および関連語辞書作成方法、並びにコンピュータ・プログラム
JP2003167898A (ja) 情報検索システム
JP2007172179A (ja) 意見抽出装置、意見抽出方法、および意見抽出プログラム
CN114528824A (zh) 文本纠错方法、装置、电子设备及存储介质
JP2008084078A (ja) 和英規格変換方法及びシステム並びに和英規格変換プログラム
JP2010250389A (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
CN111339272A (zh) 代码缺陷报告检索方法及装置
JP4033089B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2004280316A (ja) 分野判定装置及び言語処理装置
JP2840258B2 (ja) 機械翻訳システムの対訳辞書及び共起関係辞書の作成方法
CN109271392B (zh) 快速判别和抽取关系型数据库实体及属性的方法及设备
JPH05158969A (ja) 言語処理システム
JP6476638B2 (ja) 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム
JP3135221B2 (ja) 用例主導型言語構造解析装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090710

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20111101

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20111108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120403

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120604

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120918

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130226