JP4736476B2 - 翻訳費用の見積りを行う装置および方法 - Google Patents

翻訳費用の見積りを行う装置および方法 Download PDF

Info

Publication number
JP4736476B2
JP4736476B2 JP2005060736A JP2005060736A JP4736476B2 JP 4736476 B2 JP4736476 B2 JP 4736476B2 JP 2005060736 A JP2005060736 A JP 2005060736A JP 2005060736 A JP2005060736 A JP 2005060736A JP 4736476 B2 JP4736476 B2 JP 4736476B2
Authority
JP
Japan
Prior art keywords
translation
word
sentence
difficulty
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005060736A
Other languages
English (en)
Other versions
JP2006244252A (ja
Inventor
宏樹 吉村
雅紀 佐竹
雅弘 加藤
昌徳 恩田
俊一 木村
英昭 足利
勝彦 糸乘
博章 池上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2005060736A priority Critical patent/JP4736476B2/ja
Publication of JP2006244252A publication Critical patent/JP2006244252A/ja
Application granted granted Critical
Publication of JP4736476B2 publication Critical patent/JP4736476B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

この発明は、翻訳請負者と翻訳発注者との間で翻訳業務を受発注するときの見積もりに関し、詳しくは翻訳に要する費用等を正確に見積もるための装置および方法に関する。
この種の技術として、特許文献1に開示されたものがある。この特許文献1に開示された見積装置では、翻訳対象である原文と類似する類似文例が文例データベースから検索され、検索により得られた類似文例と原文との一致度が算出される。そして、類似文例との一致度に基づき、原文の翻訳の難易度が算出され、その難易度に基づいて翻訳費用の見積もりが行われる。
特開2004−185171号公報
ところで、特許文献1の技術においては、類似文例との一致度に基づいて翻訳の難易度を求めているが、翻訳の難易度は、主として原文において記載されている単語や分野といった内容や原文で使用される文法上の複雑さに依存するものである。類似文例との一致度は必ずしも翻訳対象である原文の難易度を示すものではなく、翻訳見積もりシステムの性能を示すものである。このため、特許文献1に開示の技術は、翻訳の難易度を正確に算出することができず、正確な翻訳費用の見積もりを行うことが困難であるという問題がある。
この発明は、以上説明した事情に鑑みてなされたものであり、翻訳対象である原文に記載されている内容や原文の複雑さなどを反映した正確な翻訳費用の見積もりを行うことが可能な装置および方法を提供することを目的としている。
この発明は、翻訳元データが表す翻訳対象の原文に含まれる単語を抽出し、抽出した単語及び当該単語の出現回数から特徴量ベクトルを生成する生成手段であって、サンプルとなった文献に含まれていた単語を示す情報を含む特徴量ベクトルによって構成される特徴量ベクトル群を予め決められた複数分野の分野毎に含んでいる学習データセット内の単語と、前記抽出した単語とを、前記分野毎に比較し、前記学習データセットに含まれていない前記抽出した単語については出現回数を0として、各分野について特徴量ベクトルを生成する生成手段と、前記生成手段により生成された特徴量ベクトルを前記複数分野のいずれかの分野に識別することで、前記原文に記載された内容が属する分野を識別する学習機能付の識別器と、各単語の難易度を定義した辞書を参照して、前記原文を構成する各文の単語の難易度の平均値を求め、これらの各平均値のメジアンである第1のパラメータを求め当該原文全体の一文当たりの平均的な動詞数が多いほど高いレベルとなる第2のパラメータを求め更に、当該原文全体の一文当たりの平均的な文節数が多いほど高いレベルとなる第3のパラメータを求め、求めた前記1、第2及び第3のパラメータの各パラメータの値が大きいほど前記原文の翻訳の難易度を高くするように、当該翻訳の難易度を判定する難易度判定手段と、前記識別器により識別された分野と前記難易度判定手段により判定された難易度とに応じて翻訳費用の見積もりを行って、当該翻訳費用に関する見積情報を作成する見積情報作成手段とを具備することを特徴とする翻訳費用見積装置を提供する。また、この発明は、翻訳費用見積装置の制御手段が、翻訳元データが表す翻訳対象の原文に含まれる単語を抽出し、抽出した単語及び当該単語の出現回数から特徴量ベクトルを生成する生成過程であって、サンプルとなった文献に含まれていた単語を示す情報を含む特徴量ベクトルによって構成される特徴量ベクトル群を予め決められた複数分野の分野毎に含んでいる学習データセット内の単語と、前記抽出した単語とを、前記分野毎に比較し、前記学習データセットに含まれていない前記抽出した単語については出現回数を0として、各分野について特徴量ベクトルを生成する生成過程と、前記制御手段が、前記原文に記載された内容が属する分野を識別する学習機能付の識別器として機能して、前記生成過程により生成された特徴量ベクトルを前記複数分野のいずれかの分野に識別する識別過程と、前記制御手段が、各単語の難易度を定義した辞書を参照して、前記原文を構成する各文の単語の難易度の平均値を求め、これらの各平均値のメジアンである第1のパラメータを求め、当該原文全体の一文当たりの平均的な動詞数が多いほど高いレベルとなる第2のパラメータを求め、更に、当該原文全体の一文当たりの平均的な文節数が多いほど高いレベルとなる第3のパラメータを求め、求めた前記第1、第2及び第3のパラメータの各パラメータの値が大きいほど前記原文の翻訳の難易度を高くするように、当該翻訳の難易度を判定する難易度判定過程と、前記制御手段が、前記識別過程により識別された分野と前記難易度判定過程により判定された難易度とに応じて翻訳費用の見積もりを行って、当該翻訳費用に関する見積情報を作成する見積情報作成過程とを具備することを特徴とする翻訳費用見積方法を提供する。また、この発明は、翻訳費用見積装置のコンピュータを、翻訳元データが表す翻訳対象の原文に含まれる単語を抽出し、抽出した単語及び当該単語の出現回数から特徴量ベクトルを生成する生成手段であって、サンプルとなった文献に含まれていた単語を示す情報を含む特徴量ベクトルによって構成される特徴量ベクトル群を予め決められた複数分野の分野毎に含んでいる学習データセット内の単語と、前記抽出した単語とを、前記分野毎に比較し、前記学習データセットに含まれていない前記抽出した単語については出現回数を0として、各分野について特徴量ベクトルを生成する生成手段と、前記生成手段により生成された特徴量ベクトルを前記複数分野のいずれかの分野に識別することで、前記原文に記載された内容が属する分野を識別する学習機能付の識別器と、各単語の難易度を定義した辞書を参照して、前記原文を構成する各文の単語の難易度の平均値を求め、これらの各平均値のメジアンである第1のパラメータを求め、当該原文全体の一文当たりの平均的な動詞数が多いほど高いレベルとなる第2のパラメータを求め、更に、当該原文全体の一文当たりの平均的な文節数が多いほど高いレベルとなる第3のパラメータを求め、求めた前記第1、第2及び第3のパラメータの各パラメータの値が大きいほど前記原文の翻訳の難易度を高くするように、当該翻訳の難易度を判定する難易度判定手段と、前記識別器により識別された分野と前記難易度判定手段により判定された難易度とに応じて翻訳費用の見積もりを行って、当該翻訳費用に関する見積情報を作成する見積情報作成手段として機能させるためのプログラムを提供する。
この発明によれば、翻訳費用の見積もりに、原文の記載内容が属する分野と、単語の難易度、文構造の複雑さおよび文の長さから総合的に判定された原文の翻訳の難易度が反映されるため、翻訳費用を正確に見積もることができる
以下、図面を参照し、この発明を実施するための最良の形態について説明する。
図1はこの発明の一実施形態である翻訳費用見積装置の基本構成を示すブロック図である。この翻訳費用見積装置は、スキャナ機能、コピー機能、印刷機能およびFAX機能を併有する複合機と同様な構成であり、画像読取装置1と、印刷装置2と、通信インタフェース3と、表示部4と、操作部5と、揮発性メモリ6と、不揮発性メモリ7と、以上の各部を制御するCPU8とにより構成されている。この装置では、CPU8による制御の下、画像読取装置1により読み取った画像を印刷装置2により印刷するコピー機能、同画像を通信インタフェース3およびネットワークを介して相手FAX装置に送るFAX機能など、複合機としての機能を実現することができる。
不揮発性メモリ7には、この種の複合機としての機能を実現するための制御をCPU8に実行させる制御プログラムが記憶されており、さらに、この種の制御プログラムに加えて、翻訳費用見積プログラム100が記憶されている。CPU8は、この翻訳費用見積プログラム100を実行することにより、揮発性メモリ6に予め格納された翻訳元データ101に基づいて翻訳費用の見積もりを行う。ここで、翻訳元データ101は、翻訳対象である原文を表すテキストデータである。本実施形態において、この翻訳元データ101は、様々な過程を経て揮発性メモリ6に格納される。例えば、ある形態では、翻訳元データ101は翻訳の依頼者のパソコンからLANなどを経由して受信され、通信インタフェース3を介して揮発性メモリ6に格納される。別の形態では、画像読取装置1により原文の画像データが読み取られ、この画像データがCPU8の実行する画像/テキスト変換処理によりテキストデータに変換され、翻訳元データ101として揮発性メモリ6に格納される。CPU8は、このようにして揮発性メモリ6に格納された翻訳元データ101を用いて翻訳費用の見積もりを行うのである。
図2は、本実施形態における翻訳費用見積プログラムの処理内容をハードウェア的に示したブロック図である。この図において、内容分類手段11は、翻訳元データに基づき、原文に含まれる単語を抽出し、この抽出した単語に基づいて、原文に記載された内容が属する分野を識別する手段である。
図3は、この内容分類手段11の処理内容を示している。この図に示すように、内容分類手段11は、原文記載内容の属する分野を判定するために、サポートベクトルマシン111を利用する。周知の通り、サポートベクトルマシンは、識別対象物から得られたm次元の特徴量ベクトルxを、定められた2つのクラスA、Bのいずれかに識別する2値クラスの学習機能付識別器である。ここで、識別器の実体は、特徴量ベクトルxの関数である識別関数f(x)であり、f(x)が正ならばクラスA、f(X)が負ならばクラスBという具合に、その関数値が特徴量ベクトルの属するクラスの識別結果となる。f(x)=0を満たす特徴量ベクトルxの集合を識別面という。サポートベクトルマシンを用いてクラスの識別を行う場合には、それに先立ち、幾つかの特徴量ベクトルのサンプルとそれらのサンプルが属するクラスを示す情報が学習データセットとしてサポートベクトルマシンに与えられる。サポートベクトルマシンでは、学習データセット内の特徴量ベクトルのサンプルを最大のマージンをもって正しいクラスに識別することができるような識別面が求められ、この識別面が識別対象である特徴量ベクトルの識別に用いられる。なお、サポートベクトルマシンは、例えば文献“Fabrizio Sebastian, Machine Learning in Automated Text Categorization, ACM Computing Surveys Vol. 34, No.1, pp. 1-47, 2002 ”およびこの文献中の引用文献に記載されている。
サポートベクトルマシン111を用いて原文の属する分野(クラス)を識別するために、本実施形態では、次のようにして翻訳元データ101から原文の特徴量ベクトルを生成する。まず、本実施形態では、翻訳元データ101の形態素解析を行い、原文を構成している単語を抽出し、原文中の各単語の出現回数を計数し、単語素性表102を生成する。ただし、出現回数が一般的に多く、分野を識別するためのキーワードとして適さない“は”や“が”などの助詞はストップワードとし、単語素性表102には含めない。図示の例では、m個の単語W1〜Wmと各々の出現回数N1〜Nmが求められ、それらを示す単語素性表102が作成されている。
次に本実施形態では、この単語素性表102を用いて特徴量ベクトルを生成する。以下、原文記載内容を医学分野、金融分野の2クラスに識別する場合を例に、この特徴量ベクトルの生成処理について説明する。まず、単語素性表102をコピーして、医学分野用単語素性表103Aと金融分野用単語素性表103Bの初期値を生成する。次に、医学分野用単語素性表103Aと金融分野用単語素性表103Bの初期値に対し、学習データセット104を参照して所定の処理を施し、特徴量ベクトルを生成する。より詳しくは次の通りである。まず、学習データセット104には、医学分野に属する文献から得られた特徴量ベクトル群104Aと金融分野に属する文献から得られた特徴量ベクトル群104Bが含まれている。そして、各特徴量ベクトル群を構成する個々の特徴量ベクトルは、元の文献に含まれていた単語を示す情報を含んでいる。そこで、本実施形態では、医学分野用単語素性表103Aにおける各単語を医学分野の特徴量ベクトル群104A内の単語と比較する。そして、医学分野用単語素性表103Aにおける各単語のうち特徴量ベクトル群104A内にもある単語については、その出現回数をそのまま残しておき、特徴量ベクトル群104A内にない単語については、その出現回数を「0」にする。同様のことを金融分野用単語素性表103Bについても行い、金融分野用単語素性表103Bにおける各単語のうち特徴量ベクトル群104B内にもある単語については、その出現回数をそのまま残しておき、特徴量ベクトル群104B内にない単語については、その出現回数を「0」にする。
本実施形態では、このようにして得られた単語素性表103Aおよび103Bを原文の特徴量ベクトルとしてサポートベクトルマシン111に供給する。サポートベクトルマシン111では、学習データセット104内の特徴量ベクトル群に基づく学習により識別面が形成されており、この識別面を用いて、翻訳元データ101から得られた特徴量ベクトルが、医学分野または金融分野のいずれかのクラスに識別される。
識別先である分野が3つ以上ある場合には、例えば次のように2クラスの識別器を複数併用して帰属分野を識別する方法が考えられる。すなわち、例えばクラスがA、B、Cの3つある場合、識別器を3つ使用し、特徴量ベクトルがクラスA、Bのいずれに属するかの識別と、クラスB、Cのいずれかに属するかの識別と、クラスC、Aのいずれかに属するかの識別を行い、最も多く得られた識別結果を最終的な識別結果として採用するのである。
以上、サポートベクトルマシンを用いる場合を例に内容分類手段11を説明したが、他の学習機能付識別器を利用して内容分類手段11を構成してもよい。また、翻訳元データのタイトル等から固有名詞を抽出したり、翻訳元データのテンプレートのパターンを読み取ることによって原文記載内容の帰属分野を識別してもよい。
図2において、難易度判定手段12は、翻訳元データ101に基づき、原文の翻訳の難易度を判定する手段である。この難易度を判定するに当たり、難易度判定手段12は、3つのパラメータを翻訳元データ101から取得する。第1のパラメータは、原文に用いられている単語の難易度である。第2のパラメータは、原文における文構造の複雑さである。第3のパラメータは、原文における文の長さである。これらのパラメータの取得方法は次の通りである。
まず、単語の難易度を求めるため、難易度判定手段12は、翻訳元データに形態素解析を施して、原文を構成する一文毎に単語を抽出し、各単語の難易度を求める。好ましい態様において、難易度判定手段12は、単語が持っている意味の数などに基づき定められた難易度を多くの単語について定義した辞書を有しており、この辞書を参照することにより、原文中の個々の単語の難易度を求める。そして、原文を構成する各文について、このようにして求めた単語の難易度の平均値を求め、これらの各平均値のメジアン(中央値)を原文全体としての単語の難易度を表す第1のパラメータとする。なお、辞書は、翻訳費用見積装置の外部にあるものを参照するようにしてもよい。
次に、原文の文構造の複雑さを求めるため、難易度判定手段12は、翻訳元データ101に形態素解析を施して、原文中の動詞の個数を求める。そして、この原文全体としての動詞の個数を原文全体の文の数で割り、一文当たりの平均的な動詞数を求める。難易度判定手段12は、この一文当たりの平均的な動詞数を文構造の複雑さを表す第2のパラメータとして用いる。
次に、原文の文の長さを求めるため、難易度判定手段12は、翻訳元データ101に形態素解析を施して、原文中の文節の個数を求める。そして、この原文全体としての文節の個数を原文全体の文の数で割り、一文当たりの平均的な文節数を求める。難易度判定手段12は、この一文当たりの平均的な文節数を文の長さを表す第3のパラメータとして用いる。
難易度判定手段12は、以上のようにして求めた3つのパラメータに基づき、原文の翻訳の難易度を判定する。この判定は、図4に例示するような3次元テーブルを参照することにより行われる。この例では、単語の難易度が6段階に、文構造の複雑さおよび文の長さが5段階にレベル分けされている。単語の難易度が「1」、文の長さが「〜4」、文構造の複雑さが「1」である場合に翻訳の難易度は最低、単語の難易度が「5」、文の長さが「33〜」、文構造の複雑さが「5」である場合に翻訳の難易度は最高と判定され、これらの中間の状態では、単語の難易度、文構造の複雑さおよび文の長さの各パラメータのレベルが高くなるほど、翻訳の難易度が高くなるように、3次元テーブルの内容が定められている。
図2において、見積情報作成手段13は、コスト/納期算出手段131と、提示手段132と、サンプル文作成手段133とを有している。好ましい態様において、コスト/納期算出手段13は、利用可能な各種の翻訳会社または翻訳サーバについて、どの分野で、どの程度の難易度で、どの程度の分量であれば、翻訳費用は幾らになるか、また、発注から納品までにどれだけの期間(リードタイム)が必要かを算出するためのパラメータを定義したデータベースを記憶している。コスト/納期算出手段13は、内容分類手段11によって求められた原文記載内容の属する分野と、難易度判定手段12により求められた原文の翻訳の難易度と、翻訳元データから把握される原文の分量に基づき、原文の翻訳を各種の翻訳会社または翻訳サーバに発注した場合における翻訳費用やリードタイムなどの見積もりを行う。好ましい態様において、操作部5の操作などにより希望納期を指定する情報が入力された場合には、この情報がコスト/納期算出手段131に与えられる。この場合、コスト/納期算出手段131は、各種の翻訳会社等の中からそのような希望納期に間に合うように翻訳文を納品可能な翻訳業者等を選択し、それらの翻訳業者等について翻訳費用やリードタイムの見積もり結果を出力する。また、翻訳会社等によっては、希望納期までの残存日数に依存して翻訳費用を変化させるものもある。コスト/納期算出手段131は、このような翻訳会社等については、希望納期までの残存日数に基づき翻訳費用の見積もりを行う。
提示手段132は、コスト/納期算出手段13により得られた翻訳費用やリードタイムを見積情報として翻訳依頼者であるユーザに提示する手段である。この提示の態様として、表示部4による見積情報の表示、印刷装置2による見積情報の印刷、通信インタフェース3を利用したユーザへの見積情報の送信の3態様がある。提示手段132により提示される見積情報の例を図5に示す。
サンプル文作成手段133は、操作部5の操作等によりユーザからサンプル文作成の指示が与えられた場合に、翻訳文データ101の機械翻訳結果であるサンプル文を得る手段である。サンプル文が得られた場合、そのサンプル文は見積情報の一部となり、図5に示すように、コスト/納期算出手段13により得られた翻訳費用やリードタイムとともに提示手段132により提示される。サンプル文作成手段133に関しては、各種の態様があり得る。ある態様において、サンプル文作成手段133は、利用可能な翻訳会社や翻訳サーバに対し、翻訳文データ101の一部を通信インタフェース3から送信して、その翻訳文データ101の機械翻訳を依頼し、機械翻訳の結果をサンプル文として取得する。他の態様において、サンプル文作成手段133は、利用可能な翻訳会社や翻訳サーバが利用している翻訳用の辞書やツールと同じものを有しており、これらを用いて翻訳文データ101の一部の機械翻訳を行い、機械翻訳の結果をサンプル文として取得する。なお、サンプル文は原文と一緒に依頼者に提示してもよい。
見積情報の確認を行ったユーザは、翻訳元データ101についての翻訳を依頼する翻訳者を決定し、その翻訳者を選択する情報を例えば操作部5の操作等により入力する。図2における選定手段14は、この翻訳者を選択する情報を受け取り、その翻訳者に対し、通信インタフェース3から翻訳元データ101を送信し、翻訳を依頼する手段である。
以上が翻訳費用見積プログラムの処理内容である。
以上説明した本実施形態によれば、翻訳費用の見積もりに、原文の記載内容が属する分野と、単語の難易度、文構造の複雑さおよび文の長さから総合的に判定された原文の翻訳の難易度が反映されるため、翻訳費用を正確に見積もることができる、という効果が得られる。
本発明には以上説明した実施形態の他、各種の実施形態が考えられる。例えば次の通りである。
(1)翻訳費用の見積もりを行う機能を上記実施形態のように翻訳の発注者側の翻訳費用見積装置に持たせるのではなく、ネットワーク内に設けられたサーバにこの機能を持たせてもよい。この態様では、翻訳依頼者は、サーバに翻訳元データを送って翻訳費用の見積もりを依頼し、サーバは、翻訳元データに基づいて、各種の翻訳業者に翻訳を行わせた場合の翻訳費用等の見積情報を作成し、翻訳依頼者に送り返す。
(2)翻訳費用の見積もりを行う機能を複数の翻訳業者のサーバなどに持たせ、翻訳の依頼者がこのサーバに翻訳費用の見積もりを依頼するようにしてもよい。依頼先サーバは、あらかじめ登録されている、もしくは依頼者が選択できるようにする。依頼者が選択する場合は、操作部5に依頼可能な翻訳業者が表示される。操作部5では、翻訳業者の実績を閲覧することが可能である。図6は、そのような実施形態の動作を示すシーケンス図である。図6において、見積依頼装置201は、翻訳の発注者側の装置であり、例えばパソコンである。翻訳費用見積装置202は、各種の翻訳業者のサーバの中に設けられた装置である。
翻訳の発注者は、翻訳費用の見積もりを依頼するに当たり、見積依頼装置201に対し、翻訳先言語の入力(ステップS1)、予算額や納期の入力(ステップS2)、翻訳元データの入力(ステップS3)を行う。この例において、翻訳費用見積装置202は、通常見積もりとスピード見積もりが可能である。ここで、通常見積もりは、見積もりに必要な情報を受け取った後、見積もり依頼者が指定する連絡先に見積情報を送る見積もり形態である。一方、スピード見積もりは、見積もりに必要な情報を受け取った時点で、直ちに見積情報を作成し、見積依頼装置201に送り返す見積もり形態である。なお、このような2種類の見積もり形態は、上記実施形態のように、発注者側の翻訳費用見積装置に用意してもよいし、ネットワーク内の専用の翻訳費用見積サーバに持たせてもよい。ステップS4では、見積依頼装置201から見積もり形態の選択を促すメッセージが見積もり依頼者に与えられ、依頼者により形態の選択が行われる。そして、依頼者が通常見積もりを選択した場合には、見積情報の連絡先を特定するFAX番号、emailアドレスなどの入力が行われる(ステップS5)。
以上のようにして必要な情報の入力が終わると、見積依頼装置201は、翻訳元データ、翻訳先言語、予算額、納期、通常見積もり/スピード見積もりの指定、通常見積もりの場合の連絡先を、利用可能な各翻訳業者の翻訳費用見積装置202に送信する(ステップS6)。各翻訳費用見積装置202は、見積依頼装置201からの受信情報に基づいて見積情報を作成し(ステップS7)、スピード見積もりの場合は見積依頼装置201に、通常見積もりの場合は受信情報により示される連絡先に、見積情報を送信する(ステップS8)。なお、翻訳データから見積情報を作成するまでの過程は上記実施形態において図2〜図5を参照して説明した通りなので、ここでの重複した説明は省略する。
見積依頼装置201は、各翻訳費用見積装置202から見積情報を受信すると、それを表示し、あるいは印刷する(ステップS10)。そして、見積依頼装置201は、見積情報を確認した依頼者が、翻訳の依頼先である翻訳業者を指定する情報を入力すると、その翻訳業者の翻訳見積装置202に翻訳依頼の情報を送信する(ステップS11)。好ましい態様では、依頼者による操作部の操作に応じて、見積依頼装置201は、その依頼者宛に送られてきた各翻訳業者からの見積情報を表示部に順次表示する。そして、ある翻訳業者の見積情報が表示部に表示されている状態において、依頼者が操作部に所定の操作を行うと、見積依頼装置201は、その翻訳業者の翻訳費用見積装置に翻訳依頼の情報を送信する。
この態様においても上記実施形態と同様な効果が得られる。
(3)翻訳費用見積装置は、翻訳の仕上がり品質を指定する情報として、簡易翻訳または本格的な翻訳のいずれかを指定する情報を依頼者から受け取り、指定された仕上がり品質で翻訳を行った場合の翻訳費用やリードタイムの見積もりを行うようにしてもよい。
(4)図1に示す翻訳費用見積装置に対訳コーパスを持つ簡易翻訳手段を持たせ、この翻訳費用見積装置が翻訳業者に翻訳を依頼するときに、簡易翻訳手段により翻訳元データの一文ごとに対話コーパスを生成し、これを翻訳元データとともに翻訳業者に送信するようにしてもよい。これにより翻訳業者の翻訳を支援することができる。
この発明の一実施形態である翻訳費用見積装置の構成を示すブロック図である。 同実施形態における翻訳費用見積プログラムの処理内容を示す図である。 同実施形態における内容分類手段の処理内容を示す図である。 同実施形態における難易度判定手段の処理内容を示す図である。 同実施形態において依頼者に提示される見積情報の例を示す図である。 この発明の他の実施形態である見積依頼装置および翻訳費用見積装置の動作を示すシーケンス図である。
符号の説明
101…翻訳元データ、11…内容分類手段、12…難易度判定手段、13…見積情報作成手段、14…選定手段。

Claims (3)

  1. 翻訳元データが表す翻訳対象の原文に含まれる単語を抽出し、抽出した単語及び当該単語の出現回数から特徴量ベクトルを生成する生成手段であって、サンプルとなった文献に含まれていた単語を示す情報を含む特徴量ベクトルによって構成される特徴量ベクトル群を予め決められた複数分野の分野毎に含んでいる学習データセット内の単語と、前記抽出した単語とを、前記分野毎に比較し、前記学習データセットに含まれていない前記抽出した単語については出現回数を0として、各分野について特徴量ベクトルを生成する生成手段と、
    前記生成手段により生成された特徴量ベクトルを前記複数分野のいずれかの分野に識別することで、前記原文に記載された内容が属する分野を識別する学習機能付の識別器と、
    各単語の難易度を定義した辞書を参照して、前記原文を構成する各文の単語の難易度の平均値を求め、これらの各平均値のメジアンである第1のパラメータを求め当該原文全体の一文当たりの平均的な動詞数が多いほど高いレベルとなる第2のパラメータを求め更に、当該原文全体の一文当たりの平均的な文節数が多いほど高いレベルとなる第3のパラメータを求め、求めた前記1、第2及び第3のパラメータの各パラメータの値が大きいほど前記原文の翻訳の難易度を高くするように、当該翻訳の難易度を判定する難易度判定手段と、
    前記識別器により識別された分野と前記難易度判定手段により判定された難易度とに応じて翻訳費用の見積もりを行って、当該翻訳費用に関する見積情報を作成する見積情報作成手段と
    を具備することを特徴とする翻訳費用見積装置。
  2. 翻訳費用見積装置の制御手段が、翻訳元データが表す翻訳対象の原文に含まれる単語を抽出し、抽出した単語及び当該単語の出現回数から特徴量ベクトルを生成する生成過程であって、サンプルとなった文献に含まれていた単語を示す情報を含む特徴量ベクトルによって構成される特徴量ベクトル群を予め決められた複数分野の分野毎に含んでいる学習データセット内の単語と、前記抽出した単語とを、前記分野毎に比較し、前記学習データセットに含まれていない前記抽出した単語については出現回数を0として、各分野について特徴量ベクトルを生成する生成過程と、
    前記制御手段が、前記原文に記載された内容が属する分野を識別する学習機能付の識別器として機能して、前記生成過程により生成された特徴量ベクトルを前記複数分野のいずれかの分野に識別する識別過程と、
    前記制御手段が、各単語の難易度を定義した辞書を参照して、前記原文を構成する各文の単語の難易度の平均値を求め、これらの各平均値のメジアンである第1のパラメータを求め当該原文全体の一文当たりの平均的な動詞数が多いほど高いレベルとなる第2のパラメータを求め更に、当該原文全体の一文当たりの平均的な文節数が多いほど高いレベルとなる第3のパラメータを求め、求めた前記1、第2及び第3のパラメータの各パラメータの値が大きいほど前記原文の翻訳の難易度を高くするように、当該翻訳の難易度を判定する難易度判定過程と
    前記制御手段が、前記識別過程により識別された分野と前記難易度判定過程により判定された難易度とに応じて翻訳費用の見積もりを行って、当該翻訳費用に関する見積情報を作成する見積情報作成過程と
    を具備することを特徴とする翻訳費用見積方法。
  3. 翻訳費用見積装置のコンピュータを、
    翻訳元データが表す翻訳対象の原文に含まれる単語を抽出し、抽出した単語及び当該単語の出現回数から特徴量ベクトルを生成する生成手段であって、サンプルとなった文献に含まれていた単語を示す情報を含む特徴量ベクトルによって構成される特徴量ベクトル群を予め決められた複数分野の分野毎に含んでいる学習データセット内の単語と、前記抽出した単語とを、前記分野毎に比較し、前記学習データセットに含まれていない前記抽出した単語については出現回数を0として、各分野について特徴量ベクトルを生成する生成手段と、
    前記生成手段により生成された特徴量ベクトルを前記複数分野のいずれかの分野に識別することで、前記原文に記載された内容が属する分野を識別する学習機能付の識別器と、
    各単語の難易度を定義した辞書を参照して、前記原文を構成する各文の単語の難易度の平均値を求め、これらの各平均値のメジアンである第1のパラメータを求め当該原文全体の一文当たりの平均的な動詞数が多いほど高いレベルとなる第2のパラメータを求め更に、当該原文全体の一文当たりの平均的な文節数が多いほど高いレベルとなる第3のパラメータを求め、求めた前記1、第2及び第3のパラメータの各パラメータの値が大きいほど前記原文の翻訳の難易度を高くするように、当該翻訳の難易度を判定する難易度判定手段と、
    前記識別器により識別された分野と前記難易度判定手段により判定された難易度とに応じて翻訳費用の見積もりを行って、当該翻訳費用に関する見積情報を作成する見積情報作成手段
    として機能させるためのプログラム。
JP2005060736A 2005-03-04 2005-03-04 翻訳費用の見積りを行う装置および方法 Expired - Fee Related JP4736476B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005060736A JP4736476B2 (ja) 2005-03-04 2005-03-04 翻訳費用の見積りを行う装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005060736A JP4736476B2 (ja) 2005-03-04 2005-03-04 翻訳費用の見積りを行う装置および方法

Publications (2)

Publication Number Publication Date
JP2006244252A JP2006244252A (ja) 2006-09-14
JP4736476B2 true JP4736476B2 (ja) 2011-07-27

Family

ID=37050598

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005060736A Expired - Fee Related JP4736476B2 (ja) 2005-03-04 2005-03-04 翻訳費用の見積りを行う装置および方法

Country Status (1)

Country Link
JP (1) JP4736476B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023022323A1 (ko) * 2021-08-16 2023-02-23 박봉래 외국어 음성의 청취 난이도 평가 방법, 장치 및 프로그램

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009230368A (ja) * 2008-03-21 2009-10-08 Brother Ind Ltd 文章作成条件指定方法、文章作成条件指定装置、および文章作成条件指定プログラム
JP2012181571A (ja) 2011-02-28 2012-09-20 Ricoh Co Ltd 翻訳支援装置、翻訳納期設定方法及びプログラム
JP4918174B1 (ja) 2011-09-20 2012-04-18 株式会社Pijin 情報提供装置、情報提供方法、及びコンピュータプログラム
JP5958504B2 (ja) * 2014-07-31 2016-08-02 日本電気株式会社 コミュニケーション処理装置、コミュニケーション処理システム、コミュニケーション処理方法、及び、コミュニケーション処理プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306885A (ja) * 2000-04-21 2001-11-02 Honyaku Center:Kk 翻訳業務支援装置および翻訳業務支援システム
JP2003323425A (ja) * 2002-05-02 2003-11-14 Just Syst Corp 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム
JP2004185171A (ja) * 2002-12-02 2004-07-02 Nec Corp 翻訳業務見積装置、翻訳業務見積方法、翻訳業務見積プログラム、及び翻訳業務見積システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001306885A (ja) * 2000-04-21 2001-11-02 Honyaku Center:Kk 翻訳業務支援装置および翻訳業務支援システム
JP2003323425A (ja) * 2002-05-02 2003-11-14 Just Syst Corp 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム
JP2004185171A (ja) * 2002-12-02 2004-07-02 Nec Corp 翻訳業務見積装置、翻訳業務見積方法、翻訳業務見積プログラム、及び翻訳業務見積システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023022323A1 (ko) * 2021-08-16 2023-02-23 박봉래 외국어 음성의 청취 난이도 평가 방법, 장치 및 프로그램

Also Published As

Publication number Publication date
JP2006244252A (ja) 2006-09-14

Similar Documents

Publication Publication Date Title
US10713317B2 (en) Conversational agent for search
CN104272302B (zh) 交互式查询完成模板
EP1450267B1 (en) Methods and systems for language translation
US20160299884A1 (en) Transforming natural language requirement descriptions into analysis models
KR20160149978A (ko) 검색 엔진 및 그의 구현 방법
JP4904496B2 (ja) 文書類似性導出装置及びそれを用いた回答支援システム
JP2005182280A (ja) 情報検索システム、検索結果加工システム及び情報検索方法並びにプログラム
JP2002519751A (ja) 文脈に基づきユーザーのプロフィールが駆動する情報検索
JP4736476B2 (ja) 翻訳費用の見積りを行う装置および方法
US20180101521A1 (en) Avoiding sentiment model overfitting in a machine language model
CA3207902A1 (en) Auditing citations in a textual document
CN114547072A (zh) 自然语言查询转换sql方法、系统、设备及存储介质
CN114238573A (zh) 基于文本对抗样例的信息推送方法及装置
Kovacs et al. Context-aware asset search for graphic design
WO2019106613A1 (en) Semantic normalization in document digitization
JP4212347B2 (ja) 文書検索装置、プログラムおよび記録媒体
CN110968666A (zh) 基于相似度的标题生成模型的训练方法及计算设备
EP4379574A1 (en) Recommendation method and apparatus, training method and apparatus, device, and recommendation system
JP2020071678A (ja) 情報処理装置、制御方法、プログラム
JP3918725B2 (ja) 翻訳業務見積装置、翻訳業務見積方法、翻訳業務見積プログラム、及び翻訳業務見積システム
US11842165B2 (en) Context-based image tag translation
CN111046151B (zh) 一种消息处理方法及装置
JP2002215642A (ja) フィードバック型インターネット検索方法及びその方法を実施するためのシステムとプログラム記録媒体
Munyaradzi et al. Quality assessment in crowdsourced indigenous language transcription
JP4773003B2 (ja) 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100921

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110418

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees