JP2008233956A - 翻訳装置及び翻訳プログラム - Google Patents

翻訳装置及び翻訳プログラム Download PDF

Info

Publication number
JP2008233956A
JP2008233956A JP2007068090A JP2007068090A JP2008233956A JP 2008233956 A JP2008233956 A JP 2008233956A JP 2007068090 A JP2007068090 A JP 2007068090A JP 2007068090 A JP2007068090 A JP 2007068090A JP 2008233956 A JP2008233956 A JP 2008233956A
Authority
JP
Japan
Prior art keywords
basic information
sentence
database
language
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007068090A
Other languages
English (en)
Other versions
JP4971845B2 (ja
Inventor
Norio Goto
功雄 後藤
Hideki Tanaka
英輝 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2007068090A priority Critical patent/JP4971845B2/ja
Publication of JP2008233956A publication Critical patent/JP2008233956A/ja
Application granted granted Critical
Publication of JP4971845B2 publication Critical patent/JP4971845B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】入力文に含まれる基本的な情報を翻訳文に確実に反映させることができると共に、入力文と類似する用例や入力文と一致するパターンがなくても、当該入力文を自然な翻訳文にして出力することができる翻訳装置及び翻訳プログラムを提供する。
【解決手段】翻訳装置1は、入力された集合文章から話題を特定して、この話題を特定した集合文章に含まれる第一言語の文章である入力文を、第二言語の文章である翻訳文にして出力するものであって、集合文章話題分類手段3と、キーワードデータベース5と、基本情報取得手段7と、基本情報データベース9と、基本情報値抽出手段11と、基本情報値抽出規則データベース13と、基本情報値翻訳変換手段15と、対訳変換データベース17と、翻訳文出力手段19と、テンプレートデータベース21とを備える構成とした。
【選択図】図1

Description

本発明は、入力された入力文の翻訳を行う翻訳装置及び翻訳プログラムに関する。
従来、入力された第一言語(例えば、日本語)の文章を入力文として入力し、第二言語(例えば、英語)の文章に翻訳した翻訳文を出力する翻訳システムには、以下のもの(ここでは3つの翻訳システムを例示する)がある。
1つ目の翻訳システムは、予め設定した規則に沿って入力文を翻訳する規則方式を採用した翻訳システムであり、一般に市販されているもの、例えば、富士通(登録商標)のATLAS(登録商標)、東芝(登録商標)のThe翻訳(登録商標)等が挙げられる。
また、2つ目の翻訳システムは、入力文と同じ言語で記述されている多数の用例(言葉などが実際に用いられた例、使い方の例)をデータベース等に蓄積しておいて、当該入力文と最も類似する用例を文章単位で選択して、この選択した文章の対訳の翻訳文を編集するものである(非特許文献1参照)。
さらに、3つ目の翻訳システムは、入力文と同じ言語で記述されている多数のパターン(定型文の部分と変数部分とからなる、いわゆる文章の雛形)をデータベース等に蓄積しておいて、当該入力文と一致するパターンを選択して、当該パターンの変数部分を、対訳辞書を用いて翻訳し、この翻訳した結果を当該変数部分に挿入することで、入力文を翻訳した翻訳文として出力するものである(非特許文献2参照)。
Sumita,Example−based machine translation using DP−matching between word sequences,39th ACL workshop on DDMT,pp.1−8,2001. 池原他、「非線形な表現構造に着目した重文と複文の日英文型パターン化、自然言語処理」、Vol.11,No.3,pp.69−95,2004.
しかしながら、従来の1つ目の翻訳システムでは、入力文の構文の解析が難しいために、解析を誤ってしまう場合が生じ、入力文の内容が正しく翻訳できない可能性が高く、また、翻訳文の言語である英語の規則を組み合わせて文章を生成するため、入力文の内容が正しく翻訳されたとしても、直訳調になってしまい、自然な英語の文章を生成しにくいという問題がある。
また、従来の2つ目の翻訳システムでは、入力文に類似する用例がなければ、当該入力文を翻訳することができないという問題がある。また、この従来の2つ目の翻訳システムでは、入力文と用例とが類似するか否かの尺度となる類似度を用いて、用例を選択しているが、この類似度からでは、入力文に含まれる基本的な情報がどれだけ翻訳結果である翻訳文に反映されているのかが判断できないという問題がある。
さらに、従来の3つ目の翻訳システムでは、入力文と一致するパターンがなければ、当該入力文を翻訳することができないという問題がある。
そこで、本発明では、前記した問題を解決し、入力文に含まれる基本的な情報を翻訳文に確実に反映させることができると共に、入力文と類似する用例や入力文と一致するパターンがなくても、当該入力文に含まれる基本的な情報を自然な翻訳文にして出力することができる翻訳装置及び翻訳プログラムを提供することを目的とする。
前記課題を解決するため、請求項1に記載の翻訳装置は、固有名又は数値を第一言語から第二言語に翻訳又は変換する値とし、当該固有名又は数値の意味分類を示す基本情報を設定すると共に、前記第一言語の文章である入力文から前記基本情報の値を抽出する規則を設定した基本情報値抽出規則データベースと、前記第一言語の単語を前記第二言語の単語に翻訳した複数のデータからなる対訳辞書データ又は前記第一言語の表現を前記第二言語の表現に変換する変換ルールを記録した対訳変換データベースと、前記基本情報及びこの基本情報以外の部分を第二言語で記述した定型文を定義しておいたテンプレートを記録したテンプレートデータベースと、を備え、前記入力文を、第二言語の文章である翻訳文にして出力する翻訳装置であって、基本情報値抽出手段と、基本情報値翻訳変換手段と、翻訳文出力手段と、を備える構成とした。
かかる構成によれば、翻訳装置は、基本情報値抽出手段によって、基本情報値抽出規則データベースで設定された基本情報と一致する基本情報の値を、入力文から抽出する。続いて、翻訳装置は、基本情報値翻訳変換手段によって、基本情報値抽出手段で抽出された基本情報の値について、当該基本情報の固有名を、対訳変換データベースを用いて翻訳する、又は、当該基本情報の数値を、対訳変換データベースを用いて変換する。そして、翻訳装置は、翻訳文出力手段によって、基本情報値抽出手段で抽出した基本情報と一致する基本情報を含むテンプレートをテンプレートデータベースから読み出して、読み出したテンプレートに基本情報値翻訳変換手段で翻訳又は変換された基本情報の固有名又は数値を挿入して、翻訳文として出力する。
請求項2に記載の翻訳装置は、複数の第一言語の文章からなる集合文章について、話題を特定するためのキーワードを記録したキーワードデータベースと、固有名又は数値を第一言語から第二言語に翻訳又は変換する値とし、当該固有名又は数値の意味分類を示す基本情報を設定する基本情報データベースと、前記第一言語の文章である入力文から前記基本情報の値を抽出する規則を設定した基本情報値抽出規則データベースと、前記第一言語の単語を前記第二言語の単語に翻訳した複数のデータからなる対訳辞書データ又は前記第一言語の表現を前記第二言語の表現に変換する変換ルールを記録した対訳変換データベースと、前記話題ごとに基本情報及びこの基本情報以外の部分を第二言語で記述した定型文を定義しておいたテンプレートを記録したテンプレートデータベースと、を備え、入力された集合文章から前記話題を特定して、この話題を特定した集合文章に含まれる第一言語の文章である入力文を、第二言語の文章である翻訳文にして出力する翻訳装置であって、集合文章話題特定手段と、基本情報取得手段と、基本情報値抽出手段と、基本情報値翻訳変換手段と、翻訳文出力手段と、を備える構成とした。
かかる構成によれば、翻訳装置は、集合文章話題特定手段によって、キーワードデータベースを用いて、入力された集合文章の話題を分類する。続いて、翻訳装置は、基本情報取得手段によって、集合文章話題特定手段で分類された話題と一致する話題の基本情報を、基本情報データベースから取得する。そして、翻訳装置は、基本情報値抽出手段によって、基本情報取得手段で取得した基本情報と一致する基本情報の値を、基本情報値抽出規則データベースを用いて、入力文から抽出する。そして、翻訳装置は、基本情報値翻訳変換手段によって、基本情報値抽出手段で抽出された基本情報の値について、当該基本情報の固有名を、対訳変換データベースを用いて翻訳する、又は、当該基本情報の数値を、対訳変換データベースを用いて変換する。そして、翻訳装置は、翻訳文出力手段によって、集合文章話題特定手段で特定された話題に対応したテンプレートの中で、基本情報取得手段で取得された基本情報が含まれているテンプレートをテンプレートデータベースから読み出して、読み出したテンプレートに基本情報値翻訳変換手段で翻訳又は変換された基本情報の固有名又は数値を挿入して、翻訳文として出力する。
請求項3に記載の翻訳プログラムは、固有名又は数値を第一言語から第二言語に翻訳又は変換する値とし、当該固有名又は数値の意味分類を示す基本情報を設定すると共に、前記第一言語の文章である入力文から前記基本情報の値を抽出する規則を設定した基本情報値抽出規則データベースと、前記第一言語の単語を前記第二言語の単語に翻訳した複数のデータからなる対訳辞書データ又は前記第一言語の表現を前記第二言語の表現に変換する変換ルールを記録した対訳変換データベースと、前記基本情報及びこの基本情報以外の部分を第二言語で記述した定型文を定義しておいたテンプレートを記録したテンプレートデータベースと、を備えたコンピュータを、前記入力文を、第二言語の文章である翻訳文にして出力するために、基本情報値抽出手段、基本情報値翻訳変換手段、翻訳文出力手段、として機能させる構成とした。
かかる構成によれば、翻訳プログラムは、基本情報値抽出手段によって、基本情報値抽出規則データベースで設定された基本情報と一致する基本情報の値を、入力文から抽出し、基本情報値翻訳変換手段によって、基本情報値抽出手段で抽出された基本情報の値について、当該基本情報の固有名を、対訳変換データベースを用いて翻訳する、又は、当該基本情報の数値を、対訳変換データベースを用いて変換する。そして、翻訳プログラムは、翻訳文出力手段によって、基本情報値抽出手段で抽出した基本情報と一致する基本情報を含むテンプレートをテンプレートデータベースから読み出して、読み出したテンプレートに基本情報値翻訳変換手段で翻訳又は変換された基本情報の固有名又は数値を挿入して、翻訳文として出力する。
請求項4に記載の翻訳プログラムは、複数の第一言語の文章からなる集合文章について、話題を特定するためのキーワードを記録したキーワードデータベースと、固有名又は数値を第一言語から第二言語に翻訳又は変換する値とし、当該固有名又は数値の意味分類を示す基本情報を設定した基本情報データベースと、前記第一言語の文章である入力文から前記基本情報の値を抽出する規則を設定した基本情報値抽出規則データベースと、前記第一言語の単語を前記第二言語の単語に翻訳した複数のデータからなる対訳辞書データ又は前記第一言語の表現を前記第二言語の表現に変換する変換ルールを記録した対訳変換データベースと、前記話題ごとに基本情報及びこの基本情報以外の部分を第二言語で記述した定型文を定義しておいたテンプレートを記録したテンプレートデータベースと、を備えたコンピュータを、入力された集合文章から前記話題を特定して、この話題を特定した集合文章に含まれる第一言語の文章である入力文を、第二言語の文章である翻訳文にして出力するために、集合文章話題特定手段、基本情報取得手段、基本情報値抽出手段、基本情報値翻訳変換手段、翻訳文出力手段、として機能させる構成とした。
かかる構成によれば、集合文章話題特定手段によって、キーワードデータベースを用いて、入力された集合文章の話題を分類し、基本情報取得手段によって、集合文章話題特定手段で分類された話題と一致する話題の基本情報を、基本情報データベースから取得する。そして、翻訳プログラムは、基本情報値抽出手段によって、基本情報取得手段で取得した基本情報と一致する基本情報の値を、基本情報値抽出規則データベースを用いて、入力文から抽出し、基本情報値翻訳変換手段によって、基本情報値抽出手段で抽出された基本情報の値について、当該基本情報の固有名を、対訳変換データベースを用いて翻訳する、又は、当該基本情報の数値を、対訳変換データベースを用いて変換する。そして、翻訳プログラムは、翻訳文出力手段によって、集合文章話題特定手段で特定された話題に対応したテンプレートの中で、基本情報取得手段で取得された基本情報が含まれているテンプレートをテンプレートデータベースから読み出して、読み出したテンプレートに基本情報値翻訳変換手段で翻訳又は変換された基本情報の固有名又は数値を挿入して、翻訳文として出力する。
請求項1、3に記載の発明によれば、テンプレートに基本情報の値を翻訳又は変換した固有名又は数値を挿入することで、入力文に含まれる基本情報を翻訳文に確実に反映させることができる。そして、このテンプレートの基本情報以外の定型文が当初から第二言語の文章によって構成されており、入力文と類似する用例や入力文と一致するパターンを必要としないため、これらが無い場合でも翻訳することができる。また、第二言語の文章に基本情報の値である固有名又は数値を挿入するだけで翻訳文が完成するので、入力文を自然な翻訳文にして出力することができる。
請求項2、4に記載の発明によれば、集合文章の話題を分類し、話題ごとにテンプレートを用意しておき、当該テンプレートに基本情報の値を翻訳又は変換した固有名又は数値を挿入することで、集合文章の1つの文章である入力文に含まれる基本情報を翻訳文に確実に反映させることができる。そして、このテンプレートの基本情報以外の定型文が当初から第二言語の文章によって構成されており、入力文と類似する用例や入力文と一致するパターンを必要としないため、これらが無い場合でも翻訳することができる。また、第二言語の文章に基本情報の値である固有名又は数値を挿入するだけで翻訳文が完成するので、入力文を自然な翻訳文にして出力することができる。
次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
(翻訳装置の構成)
図1は、翻訳装置のブロック図である。この図1に示すように、翻訳装置1は、入力された集合文章の話題を分類し、この集合文章に含まれている第一言語の文章である入力文を第二言語の文章である翻訳文にして出力するもので、集合文章話題分類手段3と、キーワードデータベース5と、基本情報取得手段7と、基本情報データベース9と、基本情報値抽出手段11と、基本情報値抽出規則データベース13と、基本情報値翻訳変換手段15と、対訳変換データベース17と、翻訳文出力手段19と、テンプレートデータベース21とを備えている。
なお、この実施形態では、この翻訳装置1は、第一言語を日本語、第二言語を英語としているが、これに限定されず、対訳変換データベース17が準備できるのであれば、どのような言語であってもよい。
まず、この翻訳装置1に備えられている基本情報データベース9、基本情報値抽出規則データベース13及びテンプレートデータベース21の作成方法について説明する。これらのデータベースの作成は、当該翻訳装置1において入力文を翻訳する前の準備段階で行っておくことである。そして、この実施形態では、日本語の気象災害ニュースに含まれているニュース記事の文章から主な話題を特定しておく。例えば、大量のニュース記事の文章をクラスタリングして、話題とこの話題に属するニュース記事の文章を特定する。この気象災害ニュースにおける話題の例として「台風、大雨、風、雪、・・・」等が挙げられる。
そして、各話題について、話題それぞれで基本的な内容を示す固有名(地名等)や定型的な数値を翻訳又は変換する値とし、これら固有名又は数値の意味分類を示す基本情報を記録した基本情報データベース9を作成すると共に、基本情報の値が変数となっている英語のテンプレートを作成し、この英語のテンプレートを複数蓄積させたテンプレートデータベース21を作成する。逆に、各話題に属するテンプレートに含まれる変数の集合が当該話題での基本情報となる。そして、基本情報の値を抽出する規則を設定したものが基本情報値抽出規則データベース13となる(詳細は後記する)。
ここで、話題が「台風」の場合における英語のテンプレートの例を説明する。この場合の変数(基本情報)が、「中心付近の最大風速」(単位=“メートル/秒”)であり、英語のテンプレートが「The central barometric reading is [中心付近の最大風速 単位=“キロメートル/時”]kilometer(s)per hour」である。
そして、翻訳装置1には、集合文章とこの集合文章に含まれる入力文とが入力される。この実施形態では、基本情報データベース9及びテンプレートデータベース21が前記したように、気象災害ニュースのニュース記事の文章から話題を特定したものであるので、同分類の集合文章が入力される。
集合文章話題分類手段3は、入力された集合文章(以下、入力記事ともいう)の話題を、キーワードデータベース5に収められているキーワードと一致するか否かによって、分類するものである。この集合文章話題分類手段3では、予め分類されている記事の中に出現するキーワードが、入力記事に存在すれば、当該入力記事の話題が分類されることとなる。また、集合文章話題分類手段3では、単語のユニグラムやバイグラムを特徴量として、話題の分類を機械学習したモデルを作成しておいて,入力記事の特徴量とモデルから話題を分類することとしてもよい。
キーワードデータベース5は、予め各話題に対応するキーワードを抽出して、記録しておいたものであり、一般的なハードディスク等の記録媒体によって構成されている。このキーワードには、「台風」、「雪」、「雨」、「地震」等が挙げられる。
そして、この実施形態では、集合文章は、日本語の気象災害ニュースに含まれているニュース記事の複数の文章であり、「台風は今夜、四国の東部から紀伊半島にかけての沿岸に上陸する恐れがあり、気象庁は厳重な警戒を呼びかけています。気象庁の発表によりますと台風十号は午後九時には高知県の室戸岬の(むろとみさき)西南西三十キロの海上を一時間に二十キロの速さで北北東に進んでいるものと見られます。中心の気圧は九百五十ヘクトパスカル、中心付近の最大風速は四十メートルで中心から南東側二百キロと北西側百五十キロ以内では風速二十五メートル以上の暴風が吹いています。台風の接近に伴って高知県の室戸岬で午後四時五十分頃に三十三点三メートルの最大瞬間風速を観測しました。気象庁は土砂災害や河川の氾濫、低い土地への浸水などに厳重に警戒をするよう呼びかけています。」が入力されている。
そして、この集合文章から、集合文章話題分類手段3は、集合文章の話題を分類した場合、集合文章中に、「台風」、「中心の気圧」、「中心付近の最大風速」等の文言が含まれていることから「台風」と分類される。そして、この集合文章話題分類手段3で分類された話題が基本情報取得手段7に出力される。なお、この集合文章自体は、1文ずつ、入力文として、基本情報抽出手段11に出力される。
基本情報取得手段7は、集合文章話題分類手段3で分類された話題と一致する話題の基本情報を基本情報データベース9から取得して(読み出して)、基本情報値抽出手段11に出力する。集合文章の話題が「台風」であるので、この「台風」の基本情報は「場所」、「時間」、「最大瞬間風速」、「台風の号数」、「移動速度」、「進行方向」、「中心の気圧」、「中心付近の最大風速」、「暴風の風速」、「暴風の範囲」等となる。
そして、基本情報取得手段7は、取得した基本情報と、集合文章の話題(ここでは、「台風」)とを基本情報値抽出手段11に出力する。
基本情報データベース9は、固有名又は数値を日本語から英語に翻訳又は変換する値とし、当該固有名又は数値の意味分類を示す基本情報を記録しておいたもので、一般的なハードディスク等の記録媒体によって構成されている。例えば、固有名は、都道府県名、湾岸名、岬名等の地名、建築物名、人名等であり、数値は、台風“何”号、時速“何”等の“何”に入る任意の実数である。
基本情報値抽出手段11は、基本情報取得手段7から出力された基本情報と一致する基本情報の値を、基本情報値抽出規則データベース13を用いて、入力文から抽出するものである。この入力文が逐次翻訳していく文章であり、この基本情報値抽出手段11では、この入力文ごとに基本情報の値を抽出していく。
この基本情報値抽出手段11に「台風の接近に伴って高知県の室戸岬で午後四時五十分頃に三十三点三メートルの最大瞬間風速を観測しました。」という入力文が入力された場合、基本情報の値「場所」である「高知県の室戸岬」と、基本情報の値「時間」である「午後四時五十分頃」と、基本情報の値「最大瞬間風速(単位=“メートル/秒”)」である「三十三点三」とが抽出される。
そして、基本情報値抽出手段11は、抽出した基本情報の値(高知県の室戸岬、午後四時五十分頃、三十三点三)と、基本情報取得手段7から入力された集合文章の話題とを、基本情報値翻訳変換手段15に出力する。
基本情報値抽出規則データベース13は、日本語の文章である入力文から、基本情報の値を抽出する規則を記録しておいたもので、一般的なハードディスク等の記録媒体によって構成されている。この基本情報値抽出規則データベース13に記録されている基本情報の値を抽出する規則は、基本情報取得手段7から出力された基本情報について機械学習を利用した固有表現抽出の手法を採用している。なお、この固有表現抽出の手法に限らず、予め抽出用のルールを作成しておいて、この抽出用のルールに従って、基本情報の値を抽出してもよい。
基本情報値翻訳変換手段15は、基本情報値抽出手段11から出力された基本情報の値を対訳変換データベース17に収められている対訳辞書データ又は変換ルールを用いて、翻訳又は変換するものである。
この基本情報値翻訳変換手段15では、基本情報の値が文言のみからなる場合、対訳辞書データによって、第一言語(ここでは、日本語)の単語から第二言語(ここでは、英語)の単語に翻訳し、基本情報の値に数値が含まれる場合、変換ルールに従って変換する。この変換ルールに従って変換される場合、単位の変更(秒速から時速等)も行われる。そして、この基本情報値翻訳変換手段15から、翻訳又は変換された基本情報の値と、集合文章の話題とが翻訳文出力手段19に出力される。
この基本情報値翻訳変換手段15では、「高知県の室戸岬」を「Cape Muroto in Koch Prefecture」に、「午後四時五十分頃」を「about4:50」に、「最大瞬間風速(単位=“時速”)」を「120」に翻訳又は変換する。
対訳変換データベース17は、第一言語(ここでは、日本語)の単語を第二言語(ここでは、英語)の単語に翻訳した複数のデータからなる対訳辞書データ又は第一言語の表現を第二言語の表現に変換する変換ルールを記録したもので、一般的なハードディスク等の記録媒体によって構成されている。なお、変換ルールには、日本語を英語に直訳をするのではなく、例えば、最大瞬間風速の場合“メートル/秒”を“キロメートル/時”のように単位の変更を伴って、数値を変換するルールもある。
翻訳文出力手段19は、基本情報値翻訳変換手段15から出力された、翻訳又は変換された基本情報の値と、集合文章の話題とに基づいて、当該話題に対応したテンプレートを、テンプレートデータベース21から読み出して、読み出したテンプレートに、翻訳又は変換された基本情報の値を挿入して、翻訳文として出力するものである。
この翻訳文出力手段19は、集合文章の話題に対応したテンプレートの中で、抽出されたすべての基本情報と、テンプレートの基本情報とが一致するものを、テンプレートデータベース21から取得して、テンプレートの基本情報の部分に、翻訳又は変換された基本情報の値を挿入して、英語の文章を生成する。
この翻訳文出力手段19で読み出したテンプレートデータベース21から読み出したテンプレートの例及び翻訳文の例を示す。テンプレートは「Wind of up to about[最大瞬間風速 単位=“時速”]kilometers per hour were observed at[場所]at[時間].」であり、翻訳文は「Wind of up to about 120 kilometers per hour were observed at Cape Muroto in Koch Prefecture at 4:50pm.」となる。
なお、翻訳文出力手段19では、集合文章の話題に対応したテンプレートの中で、抽出されたすべての基本情報が一致するテンプレートが存在しない場合には、抽出された基本情報の一部を挿入して英語の文章を生成し、翻訳文として出力する、又は、翻訳文を出力しないといったことを設定することができる。つまり、集合文章の多くの文章を翻訳することを重視するか、翻訳文の品質(翻訳精度)を重視するかは、当該翻訳装置1のユーザの判断によって設定することができる。
テンプレートデータベース21は、話題ごとに基本情報及びこの基本情報以外の部分を第二言語で記述した定型文を定義しておいたテンプレートを記録したもので、一般的なハードディスク等の記録媒体によって構成されている。
このテンプレートデータベース21に記録されたテンプレートには、話題が「台風」のもの以外に、「気象状況」に分類されるものは、「雨」、「雪」、「風」、「震度速報」、「余震」、「津波観測結果」、「津波予想」、「海外地震による津波情報」が挙げられる。また、気象災害ニュースにおいて、「気象による影響」に分類される話題では、「空の便(欠航)」、「鉄道(運休、運転見合わせ、遅れ)」、「海の便(欠航)」、「高速・有料道路(通行止め、通行規制)」が挙げられ、「被害状況」に分類される話題では、「被害(死者人数、けが人人数、全壊した建物数、一部が壊れた建物数、床上浸水数、停電世帯数、・・・)」が挙げられる。
さらに、気象災害ニュースにおいて、「警報・注意報の伝達」に分類される話題は、「津波警報が出る」、「津波警報が解除」、「津波注意報が出る」、「津波注意報が解除」、「大雨警報が出る」等が挙げられる。
この翻訳装置1によれば、集合文章話題分類手段3で分類された集合文章の話題と一致する話題の基本情報が基本情報取得手段7で取得され、この基本情報を用いて、集合文章の1つの文章である入力文に含まれる基本情報の値が抽出され、予め話題ごとにテンプレートを用意しておいて、当該テンプレートに抽出された基本情報の値を翻訳又は変換した結果を挿入することで、入力文に含まれる基本情報を翻訳文に確実に反映させることができる。そして、このテンプレートの基本情報以外の定型文が当初から英語の文章によって構成されており、入力文と類似する用例や入力文と一致するパターンがなくても、当該英語の文章に基本情報の固有名又は数値を挿入するだけで翻訳文が完成するので、入力文を自然な翻訳文にして出力することができる。
なお、この翻訳装置1では、集合文章の話題を特定した後に、集合文章の1つの文章である入力文を翻訳することとしているが、基本情報データベース9に記録されている基本情報に関するデータを基本情報値抽出規則データベース13に収めておけば、集合文章の話題を特定しなくても(つまり、集合文章話題分類手段3と、キーワードデータベース5と、基本情報取得手段7とがなくても)入力文を自然な翻訳文に翻訳することができる。
(翻訳装置の動作)
次に、図2に示すフローチャートを参照して、翻訳装置の動作を説明する(適宜、図1参照)。
まず、翻訳装置1は、集合文章が入力されると、集合文章話題分類手段3によって、キーワードデータベース5を用いて、集合文章の話題を分類する(ステップS1)。続いて、翻訳装置1は、基本情報取得手段7によって、集合文章話題分類手段3で分類された話題と一致する話題の基本情報を、基本情報データベース9から取得する(ステップS2)。
そして、翻訳装置1は、基本情報値抽出手段11によって、基本情報取得手段7で取得した基本情報と一致する基本情報の値を、基本情報値抽出規則データベース13を用いて、入力文から抽出する(ステップS3)。そして、翻訳装置1は、基本情報値翻訳変換手段15によって、対訳変換データベース17を用いて、基本情報の値を翻訳又は変換する(ステップS4)。
そして、翻訳装置1は、翻訳文出力手段19によって、テンプレートデータベース21からテンプレートを読み出して、この読み出したテンプレートに、基本情報値翻訳変換手段15で翻訳又は変換した基本情報の値を挿入して、翻訳文として出力する(ステップS5)。
以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、翻訳装置1として説明したが、当該装置の各構成の処理を実現可能に、コンピュータ言語で記述した翻訳プログラムとして構成することも可能である。この場合、当該装置1と同様の効果を奏する。
本発明の実施形態に係る翻訳装置のブロック図である。 図1に示した翻訳装置の動作を示したフローチャートである。
符号の説明
1 翻訳装置
3 集合文章話題分類手段
5 キーワードデータベース
7 基本情報取得手段
9 基本情報データベース
11 基本情報値抽出手段
13 基本情報値抽出規則データベース
15 基本情報値翻訳変換手段
17 対訳変換データベース
19 翻訳文出力手段
21 テンプレートデータベース

Claims (4)

  1. 固有名又は数値を第一言語から第二言語に翻訳又は変換する値とし、当該固有名又は数値の意味分類を示す基本情報を設定すると共に、前記第一言語の文章である入力文から前記基本情報の値を抽出する規則を設定した基本情報値抽出規則データベースと、
    前記第一言語の単語を前記第二言語の単語に翻訳した複数のデータからなる対訳辞書データ又は前記第一言語の表現を前記第二言語の表現に変換する変換ルールを記録した対訳変換データベースと、
    前記基本情報及びこの基本情報以外の部分を第二言語で記述した定型文を定義しておいたテンプレートを記録したテンプレートデータベースと、を備え、前記入力文を、第二言語の文章である翻訳文にして出力する翻訳装置であって、
    前記基本情報値抽出規則データベースで設定された基本情報と一致する基本情報の値を、前記入力文から抽出する基本情報値抽出手段と、
    この基本情報値抽出手段で抽出された基本情報の値について、当該基本情報の固有名を、前記対訳変換データベースを用いて翻訳する、又は、当該基本情報の数値を、前記対訳変換データベースを用いて変換する基本情報値翻訳変換手段と、
    前記基本情報値抽出手段で抽出した基本情報と一致する基本情報を含むテンプレートを前記テンプレートデータベースから読み出して、読み出したテンプレートに前記基本情報値翻訳変換手段で翻訳又は変換された基本情報の固有名又は数値を挿入して、前記翻訳文として出力する翻訳文出力手段と、
    を備えることを特徴とする翻訳装置。
  2. 複数の第一言語の文章からなる集合文章について、話題を特定するためのキーワードを記録したキーワードデータベースと、
    固有名又は数値を第一言語から第二言語に翻訳又は変換する値とし、当該固有名又は数値の意味分類を示す基本情報を設定する基本情報データベースと、
    前記第一言語の文章である入力文から前記基本情報の値を抽出する規則を設定した基本情報値抽出規則データベースと、
    前記第一言語の単語を前記第二言語の単語に翻訳した複数のデータからなる対訳辞書データ又は前記第一言語の表現を前記第二言語の表現に変換する変換ルールを記録した対訳変換データベースと、
    前記話題ごとに基本情報及びこの基本情報以外の部分を第二言語で記述した定型文を定義しておいたテンプレートを記録したテンプレートデータベースと、を備え、入力された集合文章から前記話題を特定して、この話題を特定した集合文章に含まれる第一言語の文章である入力文を、第二言語の文章である翻訳文にして出力する翻訳装置であって、
    前記キーワードデータベースを用いて、入力された集合文章の話題を分類する集合文章話題特定手段と、
    この集合文章話題特定手段で分類された話題と一致する話題の基本情報を、前記基本情報データベースから取得する基本情報取得手段と、
    この基本情報取得手段で取得した基本情報と一致する基本情報の値を、前記基本情報値抽出規則データベースを用いて、前記入力文から抽出する基本情報値抽出手段と、
    この基本情報値抽出手段で抽出された基本情報の値について、当該基本情報の固有名を、前記対訳変換データベースを用いて翻訳する、又は、当該基本情報の数値を、前記対訳変換データベースを用いて変換する基本情報値翻訳変換手段と、
    前記集合文章話題特定手段で特定された話題に対応したテンプレートの中で、前記基本情報取得手段で取得された基本情報が含まれているテンプレートを前記テンプレートデータベースから読み出して、読み出したテンプレートに前記基本情報値翻訳変換手段で翻訳又は変換された基本情報の固有名又は数値を挿入して、前記翻訳文として出力する翻訳文出力手段と、
    を備えることを特徴とする翻訳装置。
  3. 固有名又は数値を第一言語から第二言語に翻訳又は変換する値とし、当該固有名又は数値の意味分類を示す基本情報を設定すると共に、前記第一言語の文章である入力文から前記基本情報の値を抽出する規則を設定した基本情報値抽出規則データベースと、
    前記第一言語の単語を前記第二言語の単語に翻訳した複数のデータからなる対訳辞書データ又は前記第一言語の表現を前記第二言語の表現に変換する変換ルールを記録した対訳変換データベースと、
    前記基本情報及びこの基本情報以外の部分を第二言語で記述した定型文を定義しておいたテンプレートを記録したテンプレートデータベースと、を備えたコンピュータを、前記入力文を、第二言語の文章である翻訳文にして出力するために、
    前記基本情報値抽出規則データベースで設定された基本情報と一致する基本情報の値を、前記入力文から抽出する基本情報値抽出手段、
    この基本情報値抽出手段で抽出された基本情報の値について、当該基本情報の固有名を、前記対訳変換データベースを用いて翻訳する、又は、当該基本情報の数値を、前記対訳変換データベースを用いて変換する基本情報値翻訳変換手段、
    前記基本情報値抽出手段で抽出した基本情報と一致する基本情報を含むテンプレートを前記テンプレートデータベースから読み出して、読み出したテンプレートに前記基本情報値翻訳変換手段で翻訳又は変換された基本情報の固有名又は数値を挿入して、前記翻訳文として出力する翻訳文出力手段、
    として機能させることを特徴とする翻訳プログラム。
  4. 複数の第一言語の文章からなる集合文章について、話題を特定するためのキーワードを記録したキーワードデータベースと、
    固有名又は数値を第一言語から第二言語に翻訳又は変換する値とし、当該固有名又は数値の意味分類を示す基本情報を設定した基本情報データベースと、
    前記第一言語の文章である入力文から前記基本情報の値を抽出する規則を設定した基本情報値抽出規則データベースと、
    前記第一言語の単語を前記第二言語の単語に翻訳した複数のデータからなる対訳辞書データ又は前記第一言語の表現を前記第二言語の表現に変換する変換ルールを記録した対訳変換データベースと、
    前記話題ごとに基本情報及びこの基本情報以外の部分を第二言語で記述した定型文を定義しておいたテンプレートを記録したテンプレートデータベースと、を備えたコンピュータを、入力された集合文章から前記話題を特定して、この話題を特定した集合文章に含まれる第一言語の文章である入力文を、第二言語の文章である翻訳文にして出力するために、
    前記キーワードデータベースを用いて、入力された集合文章の話題を分類する集合文章話題特定手段、
    この集合文章話題特定手段で分類された話題と一致する話題の基本情報を、前記基本情報データベースから取得する基本情報取得手段、
    この基本情報取得手段で取得した基本情報と一致する基本情報の値を、前記基本情報値抽出規則データベースを用いて、前記入力文から抽出する基本情報値抽出手段、
    この基本情報値抽出手段で抽出された基本情報の値について、当該基本情報の固有名を、前記対訳変換データベースを用いて翻訳する、又は、当該基本情報の数値を、前記対訳変換データベースを用いて変換する基本情報値翻訳変換手段、
    前記集合文章話題特定手段で特定された話題に対応したテンプレートの中で、前記基本情報取得手段で取得された基本情報が含まれているテンプレートを前記テンプレートデータベースから読み出して、読み出したテンプレートに前記基本情報値翻訳変換手段で翻訳又は変換された基本情報の固有名又は数値を挿入して、前記翻訳文として出力する翻訳文出力手段、
    として機能させることを特徴とする翻訳プログラム。
JP2007068090A 2007-03-16 2007-03-16 翻訳装置及び翻訳プログラム Expired - Fee Related JP4971845B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007068090A JP4971845B2 (ja) 2007-03-16 2007-03-16 翻訳装置及び翻訳プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007068090A JP4971845B2 (ja) 2007-03-16 2007-03-16 翻訳装置及び翻訳プログラム

Publications (2)

Publication Number Publication Date
JP2008233956A true JP2008233956A (ja) 2008-10-02
JP4971845B2 JP4971845B2 (ja) 2012-07-11

Family

ID=39906713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007068090A Expired - Fee Related JP4971845B2 (ja) 2007-03-16 2007-03-16 翻訳装置及び翻訳プログラム

Country Status (1)

Country Link
JP (1) JP4971845B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346732A (zh) * 2010-07-30 2012-02-08 英业达股份有限公司 基于文句的段落式线上翻译系统及其方法
JP2013008139A (ja) * 2011-06-23 2013-01-10 Ntt Docomo Inc メッセージ作成システムおよびメッセージ作成装置
CN107491441A (zh) * 2016-06-13 2017-12-19 沈阳雅译网络技术有限公司 一种基于强制解码的动态抽取翻译模板的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001357032A (ja) * 2000-06-12 2001-12-26 Casio Comput Co Ltd 翻訳装置、翻訳プログラムが記録された記録媒体
JP2006065542A (ja) * 2004-08-26 2006-03-09 Univ Of Tokushima 機械翻訳方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001357032A (ja) * 2000-06-12 2001-12-26 Casio Comput Co Ltd 翻訳装置、翻訳プログラムが記録された記録媒体
JP2006065542A (ja) * 2004-08-26 2006-03-09 Univ Of Tokushima 機械翻訳方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346732A (zh) * 2010-07-30 2012-02-08 英业达股份有限公司 基于文句的段落式线上翻译系统及其方法
JP2013008139A (ja) * 2011-06-23 2013-01-10 Ntt Docomo Inc メッセージ作成システムおよびメッセージ作成装置
CN107491441A (zh) * 2016-06-13 2017-12-19 沈阳雅译网络技术有限公司 一种基于强制解码的动态抽取翻译模板的方法
CN107491441B (zh) * 2016-06-13 2020-07-17 沈阳雅译网络技术有限公司 一种基于强制解码的动态抽取翻译模板的方法

Also Published As

Publication number Publication date
JP4971845B2 (ja) 2012-07-11

Similar Documents

Publication Publication Date Title
CN104408078B (zh) 一种基于关键词的中英双语平行语料库构建方法
JP6842167B2 (ja) 要約生成装置、要約生成方法及びコンピュータプログラム
CN109065021B (zh) 基于条件深度卷积生成对抗网络的端到端方言辨识方法
CN104679850B (zh) 地址结构化方法及装置
CN107516509B (zh) 用于新闻播报语音合成的语音库构建方法及系统
JP6300889B2 (ja) 非定型テキストの抽出性能の向上のためのシステム及び方法
WO2017177809A1 (zh) 语言文本的分词方法和系统
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN107039034A (zh) 一种韵律预测方法及系统
CN110298039B (zh) 事件地的识别方法、系统、设备及计算机可读存储介质
WO2023108991A1 (zh) 模型的训练方法、知识分类方法、装置、设备、介质
CN101202041A (zh) 一种汉语韵律词组词方法及装置
CN101794308B (zh) 一种面向有意义串挖掘的重复串提取方法及装置
CN104750820A (zh) 一种语料库的过滤方法及装置
CN101782897A (zh) 基于事件的中文语料标注方法
JP4971845B2 (ja) 翻訳装置及び翻訳プログラム
JP3735336B2 (ja) 文書要約方法及びシステム
CN114579695A (zh) 一种事件抽取方法、装置、设备及存储介质
CN112528642B (zh) 一种隐式篇章关系自动识别方法及系统
CN110232160B (zh) 兴趣点变迁事件检测方法、装置及存储介质
Turner et al. Selecting the content of textual descriptions of geographically located events in spatio-temporal weather data
CN110515926A (zh) 基于分词和语义依存分析的异构数据源海量数据梳理方法
CN112488593B (zh) 一种用于招标的辅助评标系统及方法
KR100886687B1 (ko) 중국어 미등록어 자동 추출 방법 및 장치
Evain et al. Towards automatic captioning of university lectures for french students who are deaf

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111122

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120406

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150413

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees