JP2007004757A - 特許文書翻訳装置及びプログラム - Google Patents

特許文書翻訳装置及びプログラム Download PDF

Info

Publication number
JP2007004757A
JP2007004757A JP2005213410A JP2005213410A JP2007004757A JP 2007004757 A JP2007004757 A JP 2007004757A JP 2005213410 A JP2005213410 A JP 2005213410A JP 2005213410 A JP2005213410 A JP 2005213410A JP 2007004757 A JP2007004757 A JP 2007004757A
Authority
JP
Japan
Prior art keywords
patent document
keyword
text data
document
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005213410A
Other languages
English (en)
Inventor
Hiroshi Kida
博 木田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2005213410A priority Critical patent/JP2007004757A/ja
Publication of JP2007004757A publication Critical patent/JP2007004757A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】 作業負担を効率的に低減できる特許文書翻訳装置等を提供する。
【解決手段】 本発明は、第1の言語で記載された特許請求の範囲及び明細書を含む所与の文書(以下、「原特許文書」という)のテキストデータに基づいて、該原特許文書のフォーマットとは異なる所定フォーマットの文書(以下、「新特許文書」という)のテキストデータを作成する特許文書翻訳装置において、前記原特許文書のテキストデータを、セクション前に付される特定キーワードで区切られる複数の文章セクションに分離し、各文書セクション内のテキストデータを、それぞれの対応する特定キーワードに応じた順序に並び替えると共に、並び替えた各文書セクションのテキストデータの先頭部に、前記それぞれの対応する特定キーワードに代えて、各特定キーワードに対応した第2の言語のキーワードをそれぞれ付与することで、前記新特許文書の最終テキストデータ又はその中間生成データを生成することを特徴とする。
【選択図】 図1

Description

本発明は、特許文書翻訳装置及びプログラムに関する。
従来から、入力された原文テクストを目標言語に変換して翻訳文を出力する機械翻訳装置において、原文特許明細書におけるクレームのパターンを格納するパターン格納手段と、上記パターン格納手段に格納されたパターンと入力された原文クレームとを照合するパターン照合手段と、上記パターン照合手段で照合されたパターンに合わせて、上記原文クレームを整形し、該原文クレームの修飾構造から階層化処理して、階層データをつくる階層化手段と、上記階層データから原文クレームの修飾関係を示すデータを作成して出力する階層データ出力手段と、上記階層データを逆転して新たな逆転階層データをつくる階層データ逆転手段と、上記逆転階層データを各階層ごとに翻訳して、該翻訳した文を結合する翻訳結合手段とを備えた機械翻訳装置が知られている(例えば、特許文献1参照)。
特開2001−306561号公報
ところで、複数の国に特許出願する場合、第1国で作成された特許請求の範囲及び明細書を含む文書(特許文書)をベースにして、第2国で指定された言語及びフォーマットで新たな特許文書を作成するのであるが、この作業は、翻訳を伴い非常に高コストであり、特に外国への出願が多い企業にとって大きな負担である。
そこで、本発明は、かかる負担を効率的に低減できる特許文書翻訳装置等を提供する。
上記課題は、特許請求の範囲に記載した構成により達成される。
本発明によれば、作業負担を効率的に低減できる特許文書翻訳装置等が得られる。
図1は、本発明に係る特許文書翻訳装置の一例を示す機能ブロック図である。本発明に係る特許文書翻訳装置10は、以下説明する機能を実現するソフトウェアを、コンピューター内のメモリ26内にインストールする等することで構成され、コンピューター上で同ソフトウェアを作動させることで、実施される。以下、本発明に係る特許文書翻訳装置の実現するソフトウェアの機能を説明していく。ソフトウェアは、DVDなどの記録媒体からインストールされてよいし、特定のサーバーなどからダウンロードされてもよい。
本発明に係る特許文書翻訳装置は、第1の言語で記載された特許請求の範囲及び明細書を含む所与の文書(本例では、要約書を含む。)(以下、「原特許文書」という)のテキストデータに基づいて、該原特許文書のフォーマットとは異なる所定フォーマットの文書(以下、「新特許文書」という)のテキストデータを作成する。即ち、原特許文書の電子データが、原特許文書取得部20で取得され、文書再構成/翻訳部22に入力され、そこで所定の処理を受け、新特許文書として新特許文書出力部24により出力される。尚、原特許文書取得部20に関して、原特許文書の電子データは、ユーザの所持する記録媒体(例えばメモリカード)から入力されてよく、或いは、コンピューター内のハードディスク等に記憶されているものであってもよく、或いは、コンピューターに接続されているネットワークを介して外部から取得されてよい。新特許文書出力部24により出力は、典型的には、ディスプレイ上で表示出力である。
図2は、第1の言語で記載された原特許文書の一例として、日本出願用の日本語で記載された原特許文書を示す。図3は、米国出願用の新特許文書の一例を示す。尚、図2及び図3では、図の下側の先頭ページから始まるそれぞれ計3ページで示されているが、より多くのページ数であってもよいことは当然である。
図2と図3とを対比して分かるように、原特許文書の各文章セクションA〜Kのテキストデータが、新特許文書内に所定のレイアウトに従った各セクションに組み込まれている。尚、図3では、原特許文書における各文章セクションA〜Kが組み込まれている箇所を、同一記号に“*”を付して示している。
この組み込み処理は、例えば、原特許文書のテキストデータを、セクション前に付される特定キーワードで区切られる複数の文章セクションA〜Kに分離し、各文書セクションA〜K内のテキストデータを、それぞれの対応する特定キーワードに応じた順序に並び替えることで実現される。尚、特定キーワードは、日本語の場合、図2に示すように、特許請求の範囲、発明を実施するための最良の形態等の各欄を示すキーワードである。
また、上記並び替え処理に加えて、並び替えた各文書セクションのテキストデータの先頭部に、前記それぞれの対応する特定キーワードに代えて、各特定キーワードに対応した第2の言語のキーワードがテキストデータでそれぞれ付与されている。例えば、特定キーワード‘特許請求の範囲’に関しては、文書セクションA*の先頭部に、‘特許請求の範囲’に代えて、‘特許請求の範囲’に対応する英語のキーワード‘WHAT IS CLAIMED IS’がテキストデータで付与されている。同様に、特定キーワード‘発明を実施するための最良の形態’に関しては、文書セクションH*の先頭部に、‘特許請求の範囲’に代えて、‘特許請求の範囲’に対応する英語のキーワード‘WHAT IS CLAIMED IS’が付与されている。(尚、これらの英語のキーワード‘WHAT IS CLAIMED IS’等は、原特許文書が米国出願用の場合は‘特定キーワード’となる。)
これらの処理(並び替え及びキーワード付与)は、多様な態様で実現可能であるが、以下では、一例として、新特許文書用に予め準備された空ファイルを用いる方法を代表させる。新特許文書用の空ファイルとは、コンピューターに入っているOSによるが、例えばマイクロソフト社のWord(登録商標)やジャストシステム社の一太郎(登録商標)等の適切なテキストファイルで作成され、各キーワードに対応するテキストデータ(例えば、新特許文書が米国用の場合、WHAT IS CLAIMED IS等)や、必要に応じてその他の有用テキストデータ(後述)を予め適切な箇所に含み(その都度含めてもよい。)、各キーワード以下の各セクション内のテキストデータが無いファイル(テキストデータが空のファイル)である。尚、空ファイルは、出願データとして適切なフォントやページ設定(余白の大きさ等)で生成され、変換バリーエーション(例えば、米国出願用から日本出願用、日本出願用から中国出願用、日本出願用からEPC出願用、日本出願用からPCT出願用(英語)等)に応じた数だけ準備・作成される。
この場合、上述の並び替え及びキーワード付与処理は、例えば、原特許文書のテキストデータを上からスキャニングし、先ず、特定キーワード‘特許請求の範囲’と例えば‘明細書’とで区切られる文章セクションAのテキストデータを認識・抽出して、当該文章セクションAのテキストデータを、新特許文書用空ファイル中のキーワード‘WHAT IS CLAIMED IS’に係るセクションに挿入し、以下同様に、文書セクションB〜Kの各テキストデータを、新特許文書用空ファイル中の対応する各キーワードに係るセクションに挿入していくことで、実現できる。これにより、新特許文書用空ファイルに、原特許文書のテキストデータが適切に組み込まれ、新特許文書用ファイルが出来上がる。
尚、上述の実施例において、特定キーワード及びそれに対応する第2の言語のキーワード、及び/又は、それらの対応関係は、ユーザにより変更可能とされてよい。これは、各国における出願形式に関して法・規則改正や運用の変更等に機動的に対応できるようにするためである。例えば、これは、特定キーワード及びそれに対応する第2の言語のキーワードの対応表を、ユーザがユーザインターフェース28を介して編集可能とすることで実現されてよい。また、第2の言語のキーワードの変更は、上述の新特許文書用空ファイルをユーザが編集可能とすることで実現されてよい。
また、各セクション内のテキストデータは、段落毎に、適切なタブやスペースで規定された行開始位置から挿入されてよい。例えば、特定キーワード‘図面の簡単な説明’に係る文章セクションI内の各サブセクションI1,I2内のテキストデータは、それぞれタブが入った適切な行開始位置から挿入されてよい。
ここで、上述の実施例をベースとして利用する好ましい実施例について幾つか説明する。先ず、1つ目として、クレームについては、クレーム毎に新特許文書への組み込みが実行される。例えば、図2及び図3に示すように、キーワード‘請求項1’からキーワード‘請求項2’までのサブセクションA1内のテキストデータ(即ち、請求項1のテキストデータ)を、‘WHAT IS CLAIMED IS’以下のセクションにおけるクレーム番号1からクレーム番号2までのサブセクションA1*に挿入され、以下、同様に各請求項に係るデータがそれぞれのサブセクションに組み込まれる。
2つ目の好ましい実施例として、各国特有の決まり文句がある場合等には、原特許文書にそれが無い場合でも、当該決まり文句が適切な箇所に組み込まれてよい。例えば、米国出願用では、文章セクションI内の各サブセクションI0に、‘Other objects,advantages,and further features of the present invention will become more apparent as the description proceeds taken in conjunction with the accompanying drawings in which:’なる文章が組み込まれてよい。これらの決まり文句は、上述の空ファイルに有用テキストデータとしてユーザにより組み込まれてよく、或いは、予め組み込まれユーザによる編集が可能とされてよい。
3つ目の好ましい実施例として、原特許文書のテキストデータのうち、組み込み先が判断不能なテキストデータを、新特許文書内の所定箇所に組み込み、その旨が分かるように強調表示させてもよい(例えば、赤字などにより)。例えば、図2,3に示す例では、原特許文書の特定キーワード‘発明の効果’に係るセクションG内のテキストデータは、新特許文書内におけるキーワード‘SUMMARY OF THE INVENTION’に係るセクション内に、原特許文書の特定キーワード‘課題を解決するための手段’に係るセクションF内のテキストデータの挿入箇所に後に挿入されるが、かかる箇所への挿入を行わず、組み込み先が判断不能なデータが挿入される箇所に挿入されてよい。これは、必ずしも全ての原特許文書のテキストデータを新特許文書内に組み込む必要が無い場合もあり、その一方で、組み込まれない部分についてはユーザに知らせる必要性が高いためである。
但し、図2における文章セクションJ、文章セクションK内のサブセクションK1,K3内のテキストデータのように、新特許文書内に組み込む必要が確実にない場合には、組み込み先が判断不能なデータが挿入される箇所にも挿入されないこととしてよい。また、日本出願用にある墨付き括弧(典型的には、特定キーワード、段落番号に付される)についても新特許文書内へ組み込みされないこととしてよい。
以上のように本実施例によれば、ユーザは、ユーザインターフェース28を介して変換バリーエーション(本例の場合、日本出願用から米国出願用)を指定して、新特許文書作成の基になる原特許文書を、入力データとして特許文書翻訳装置に与えるだけで、第2国出願用の新特許文書を得ることができ、しかも、かくして得られる新特許文書は、第2国出願用に既にレイアウトが整えられているので、ユーザは、直ぐにそのまま翻訳を開始することが可能となる。これにより、第2国出願用の新特許文書の作成負担を効率的に低減できる。
尚、上述の実施例では、原特許文書のテキストデータ自体は、そのままの状態で、新特許文書内に組み込まれているが、中間生成データとして利用されてよい。典型的には、原特許文書の各文章セクションのテキストデータは、自動翻訳されてから新特許文書用空ファイルに上述の如く組み込まれてもよいし、新特許文書用空ファイルに上述の如く組み込まれてから自動翻訳されてもよい。この自動翻訳機能は、適切な任意の自動翻訳技術を用いて実現されてよい。この場合、文書再構成/翻訳部22では、上述の並び替え等の処理に加えて、自動翻訳処理が実行され、これらの処理がなされた段階で、新特許文書として新特許文書出力部24により出力されることになる。また、この場合、出力された新特許文書をそのまま出願することが究極的には可能となるように、翻訳後のテキストデータは、好ましくは、出願用データとして適切なフォント等で生成される。尚、使用する辞書・翻訳エンジンの能力・精度によるが、現実的には、出力された最終の新特許文書に対して、ユーザによる翻訳の手直しが入る。また、自動翻訳機能は、ユーザの選択によりオン/オフできるようにしてよい(例えば、対話式翻訳等を好みユーザは、自動翻訳機能をオフにすればよい。なお、その場合、そのユーザにとっては、自動翻訳されない新特許文書が最終文書データとなる)。また、当然ながら、本実施例による上述の並び替え等の機能は、自動翻訳ソフトウェアに組み込まれた同一のパッケージ商品として実現することが可能である。
以上、本発明の好ましい実施例について詳説したが、本発明は、上述した実施例に制限されることはなく、本発明の範囲を逸脱することなく、上述した実施例に種々の変形及び置換を加えることができる。
本発明に係る特許文書翻訳装置の一例を示す機能ブロック図である。 原特許文書の一例を示す図である。 図2の原特許文書をベースに得られる新特許文書の一例を示す図である。
符号の説明
10 特許文書翻訳装置
22 文書再構成/翻訳部

Claims (6)

  1. 第1の言語で記載された特許請求の範囲及び明細書又はその類を含む所与の文書(以下、「原特許文書」という)のテキストデータに基づいて、該原特許文書のフォーマットとは異なる新たな所定フォーマットの文書(以下、「新特許文書」という)のテキストデータを作成する特許文書翻訳装置において、
    前記原特許文書のテキストデータを、セクション前に付される特定キーワードで区切られる複数の文章セクションに分離し、各文書セクション内のテキストデータを、それぞれの対応する特定キーワードに応じた所定の順序に並び替えると共に、並び替えた各文書セクションのテキストデータの先頭部に、前記それぞれの対応する特定キーワードに代えて、各特定キーワードに対応した第2の言語の所定キーワードをそれぞれ付与することで、前記新特許文書の最終テキストデータ又はその中間生成データを生成することを特徴とする、特許文書翻訳装置。
  2. 前記並び替えられる各文書セクションのテキストデータを、第2の言語に自動翻訳することで、前記新特許文書の最終テキストデータを生成する、請求項1に記載の特許文書翻訳装置。
  3. 前記特定キーワードは、少なくとも、‘特許請求の範囲’又はそれに相当する文章セクションの始まりを示すキーワード、‘発明を実施するための最良の形態’又はそれに相当する文章セクションの始まりを示すキーワード、及び、‘図面の簡単な説明’又はそれに相当する文章セクションの始まりを示すキーワードを含む、請求項1又は2に記載の特許文書翻訳装置。
  4. 前記特定キーワードは、‘特許請求の範囲’又はそれに相当する文章セクションの始まりを示すキーワード、‘発明を実施するための最良の形態’又はそれに相当する文章セクションの始まりを示すキーワード、及び、‘図面の簡単な説明’又はそれに相当する文章セクションの始まりを示すキーワード、‘技術分野’又はそれに相当する段落の始まりを示すキーワード、‘課題を解決するための手段’又はそれに相当する文章セクションの始まりを示すキーワードを含む、請求項1又は2に記載の特許文書翻訳装置。
  5. 前記特定キーワード及びそれに対応する第2の言語の所定キーワード、及び/又は、それらキーワード同士の対応関係は、ユーザにより変更可能とされる、請求項1〜4の何れか1項に記載の特許文書翻訳装置。
  6. 請求項1〜5の何れか1項に記載の特許文書翻訳装置としてコンピューターを機能させるためのコンピューター読み取り可能なプログラム。
JP2005213410A 2005-06-24 2005-06-24 特許文書翻訳装置及びプログラム Pending JP2007004757A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005213410A JP2007004757A (ja) 2005-06-24 2005-06-24 特許文書翻訳装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005213410A JP2007004757A (ja) 2005-06-24 2005-06-24 特許文書翻訳装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2007004757A true JP2007004757A (ja) 2007-01-11

Family

ID=37690276

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005213410A Pending JP2007004757A (ja) 2005-06-24 2005-06-24 特許文書翻訳装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2007004757A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180077594A (ko) * 2016-12-29 2018-07-09 (주)준소프트웨어 특허공보 번역 서비스 제공 시스템 및 그 방법
JP2021043954A (ja) * 2019-09-06 2021-03-18 国人 小林 発明文書分析システム及び発明文書分析処理プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180077594A (ko) * 2016-12-29 2018-07-09 (주)준소프트웨어 특허공보 번역 서비스 제공 시스템 및 그 방법
JP2021043954A (ja) * 2019-09-06 2021-03-18 国人 小林 発明文書分析システム及び発明文書分析処理プログラム
JP7165163B2 (ja) 2019-09-06 2022-11-02 国人 小林 発明文書分析システム及び発明文書分析処理プログラム

Similar Documents

Publication Publication Date Title
US5629846A (en) Method and system for document translation and extraction
US7992088B2 (en) Method and system for copy and paste technology for stylesheet editing
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
JP2006252428A (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
JP2004334791A (ja) 機械翻訳装置、データ処理方法及びプログラム
US20070192685A1 (en) Document versioning based on layer content
JP2006251843A (ja) 同義語対抽出装置及びそのためのコンピュータプログラム
JP4001283B2 (ja) 形態素解析装置および自然言語処理装置
US20060218495A1 (en) Document processing device
JP2007004757A (ja) 特許文書翻訳装置及びプログラム
US7983899B2 (en) Apparatus for and method of analyzing chinese
JP6607482B2 (ja) 構文解析装置、学習装置、機械翻訳装置、およびプログラム
JP2005182794A (ja) 言語的構造を正規化するためのデータ処理方法及び装置
JP7026926B2 (ja) 文書作成装置
JPH0883280A (ja) 文書処理装置
JP7083473B2 (ja) 入力支援装置
JP3954520B2 (ja) 翻訳支援システム
JP3206600B2 (ja) 文書生成装置
JP4023384B2 (ja) 自然言語翻訳方法及び装置及び自然言語翻訳プログラム
JP3353873B2 (ja) 機械翻訳装置
JPH0421169A (ja) 翻訳装置
JP2005004626A (ja) 異表記正規化処理装置、異表記正規化処理プログラム、これを記憶する記憶媒体、文書検索装置、文書検索プログラム及びこれを記憶する記憶媒体
JP2004280275A (ja) 多言語マニュアル作成装置およびその方法と、プログラムおよびその記録媒体
JPH08190570A (ja) 文書データの比較検証システム
JPH1021240A (ja) 機械翻訳装置及び機械翻訳方法