JP6114090B2 - 機械翻訳装置、機械翻訳方法およびプログラム - Google Patents

機械翻訳装置、機械翻訳方法およびプログラム Download PDF

Info

Publication number
JP6114090B2
JP6114090B2 JP2013073666A JP2013073666A JP6114090B2 JP 6114090 B2 JP6114090 B2 JP 6114090B2 JP 2013073666 A JP2013073666 A JP 2013073666A JP 2013073666 A JP2013073666 A JP 2013073666A JP 6114090 B2 JP6114090 B2 JP 6114090B2
Authority
JP
Japan
Prior art keywords
sentence
pattern
translation
component
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013073666A
Other languages
English (en)
Other versions
JP2014199476A (ja
Inventor
裕貴 鈴木
裕貴 鈴木
一也 小西
一也 小西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2013073666A priority Critical patent/JP6114090B2/ja
Publication of JP2014199476A publication Critical patent/JP2014199476A/ja
Application granted granted Critical
Publication of JP6114090B2 publication Critical patent/JP6114090B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、請求項に記載された文章の機械翻訳を行うための翻訳装置等に関する。
近年、各国で出願された特許文献を検索することによって技術調査を行う機会が増えている。このため、機械翻訳に対する期待が非常に高まってきている。例えば公知の翻訳装置は、翻訳対象となる文章を分割することにより翻訳が正確に行えるようにしている(特許文献1)。
特開2004−110583号公報
上記のように、文章を分割して翻訳を行う翻訳装置は存在したものの、外国特許文献に記載される請求項の内容の理解を促進する翻訳装置は存在せず、かかる翻訳装置が望まれていた。
本発明は、上述した状況においてなされたものであり、外国語で記載された請求項の内容の理解を促進することを可能にする機械翻訳装置、機械翻訳方法およびプログラムを提供することにある。
上記の課題を解決するための機械翻訳装置は、通信端末と通信可能に接続される機械翻訳装置であって、前記通信端末から、第1言語により記述された請求項の翻訳要求を受け付けた場合、前記請求項に前記第1言語で記載されている原文の形態素解析を行う形態素解析部と、前記形態素解析が行われた前記原文を構成する形態素に基づいて、前記請求項の中から発明の構成要素を区切るために使用されている形態素のパターンを検出し、前記検出した形態素のパターンに従って前記構成要素ごとに前記請求項を分割する構成要素単位分割部と、前記構成要素の中から、前記形態素解析が行われた前記原文を構成する前記形態素の品詞が、構成要素名を抽出するために使用される名詞句と合致するかに基づいて、当該品詞の形態素を構成要素名として抽出して、その構成要素名を特定する構成要素名特定部と、前記分割された各構成要素内に、当該構成要素を説明するための説明パターン文の始まりを示す品詞が出現する場合は、前記出現した品詞から始まる説明パターン文ごとに前記各構成要素内を分割する説明パターン文単位分割部と、前記特定された構成要素名を含み、かつ前記分割を有する前記請求項を第2言語に翻訳する翻訳部と、前記請求項の翻訳文を記憶する記憶部と、前記記憶部の前記翻訳文を前記通信端末に出力する出力部とを含み、前記翻訳部における翻訳の結果、前記説明パターン文の各々の主語と、その直前の説明パターン文の末尾に出現する名詞または名詞句とが一致しない場合にはさらに、当該主語と当該名詞または名詞句とが一致するように、前記第1言語の前記説明パターン文内に前記名詞または名詞句に含まれる語を補完して当該説明パターン文の文構造を変更する文構造変更部を含む。
上記の課題を解決するための機械翻訳方法は、コンピュータによって実行される機械翻訳方法であって、通信端末から、第1言語により記述された請求項の翻訳要求を受け付けた場合、前記請求項に前記第1言語で記載されている原文の形態素解析を行うステップと、前記形態素解析が行われた前記原文を構成する形態素に基づいて、前記請求項の中から発明の構成要素を区切るために使用されている形態素のパターンを検出し、前記検出した形態素のパターンに従って前記構成要素ごとに前記請求項を分割するステップと、前記構成要素の中から前記形態素解析が行われた前記原文を構成する前記形態素の品詞が、構成要素名を抽出するために使用される名詞句と合致するかに基づいて当該品詞の形態素を構成要素名として抽出して、その構成要素名を特定するステップと、前記分割された各構成要素内に、当該構成要素を説明するための説明パターン文の始まりを示す品詞または語が出現する場合は、前記出現した品詞または語から始まる説明パターン文ごとに前記構成要素を分割するステップと、前記特定された構成要素名を含み、かつ前記分割を有する前記請求項を第2言語に翻訳するステップと、前記翻訳の結果を前記通信端末に出力するステップとを含み、前記翻訳するステップでは、前記翻訳の結果、前記説明パターン文の各々の主語と、その直前の説明パターン文の末尾に出現する名詞または名詞句とが一致しない場合にはさらに、当該主語と当該名詞または名詞句とが一致するように、前記第1言語の前記説明パターン文内に前記名詞または名詞句に含まれる語を補完して当該説明パターン文の文構造を変更する。
上記の課題を解決するためのプログラムは、上記機械翻訳方法をコンピュータに実行させるためのものである。
本発明によれば、外国語で記載された請求項の内容の理解を促進する機械翻訳を提供することができる。
本発明の実施形態の翻訳システムの概要構成例を示す図である。 第1実施形態のサーバの構成例を示す図である。 第1実施形態の通信端末の構成例を示す図である。 第1実施形態の翻訳システムによって実現される翻訳処理の概略を説明するための図である。 サーバの機能構成例を示す図である。 区切りパターンの例、構成要素名の抽出例および説明パターン文の例を説明するための図である。 第1実施形態の翻訳システムにおける制御処理全体の一例を示すフローチャートである。 第1実施形態のサーバにおいて、翻訳処理の詳細の一例を示すフローチャートである。 主語が追加される場合の説明パターン文の態様を示す図である。 主語を含む説明パターンの訳文の一例を、主語を含まない場合の説明パターンと関連付けて説明するための図である。 各タグを含む原文データに基づいて翻訳された場合の訳文の表示態様を示す図である。 主語が集約されるようにした処理を説明するための図である。 訳文の表示態様を示す図である。 変更例2において、区切りパターンの例、構成要素名の抽出例および説明パターン文の例を説明するための図である。 変更例2の翻訳システムで実現される構成要素の分割の概略を説明するための図である。 変更例2の翻訳システムで実現されるタグの付与および説明パターン文の分割の概略を説明するための図である。 変更例2の翻訳システムおいて、訳文の表示態様を示す図である。 変更例4の翻訳システムおいて、通信端末の表示部の一覧表示例を示す図である。
<第1実施形態>
以下、本発明の第1実施形態における翻訳システムについて説明する。この翻訳システムは、通信端末10からの要求に応じ、請求項に記載の英語(第1言語)を日本語(第2言語)に翻訳するものである。
本実施形態の翻訳システム1の構成例について、図1を参照して説明する。図1は、一実施形態に係る翻訳システム1の構成例を示す図である。
図1に示すように、翻訳システム1は、通信端末10と、この通信端末10と例えばインターネット等の通信網20を介して接続可能なサーバ(機械翻訳装置)30と、外部システム40とを含んで構成されている。
この翻訳システム1では、通信端末10とサーバ30との間は、HTTP(HyerText Transfer Protocol)通信が行われるようになっている。
外部システム40は、ネットワークの伝送路上に設けられ、ネットワーク上にあるサーバ30との間で例えばAPI通信が可能なサーバシステム群である。外部システム40のサーバシステム群は、例えば、形態素解析のサービスを提供する解析システム、および、機械翻訳のサービスを提供する機械翻訳システムを含む。
なお、外部システム40は、異なる言語(英語、中国語など)ごとに設けることが考えられる。
[通信端末10の構成]
次に、図1に示した通信端末10の構成例について、図2を参照して説明する。図2は、通信端末20の構成例を示す図である。
図2に示すように、通信端末10は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、入力部14と、表示部15と、通信インターフェース16とを備える。この実施形態では、通信端末10は、一例として、ラップトップパソコン(Laptop computer)とするが、携帯端末、PDA(Personal Digital Assist)、パーソナルコンピュータなどでもよい。
CPU11は、通信端末10全体の動作を実現するための各種のプログラムの実行、演算処理、タイミング処理等を行う。
ROM12には、ウェブブラウザ等のプログラムが記憶されている。RAM13には、プログラムおよび各種のデータが一時的に保持される。
入力部14は、ユーザーによって行われる操作入力を受け入れるための入力デバイスである。入力部14は、操作ボタン、タッチパネル、入力ペン、センサーなどを含む。表示部15は、例えば、液晶ディスプレイ、EL(Electro-Luminescence)などのフラットパネル表示器とすることができる。
通信インターフェース16は、例えばHTTP通信に準拠するインターフェース機能を有する。
[サーバ30の構成]
次に、図1に示したサーバ30の構成例について、図3を参照して説明する。図3は、サーバ30の構成例を示す図である。
サーバ30は、図3に示すように、CPU(Central Processing Unit)31と、ROM(Read Only Memory)32と、RAM(Random Access Memory)33と、通信インターフェース34と、外部アクセス部35とを含む。
CPU31は、各構成要素とバスで接続されて制御信号やデータの転送を行うとともに、サーバ30全体の動作を実現するためのプログラムの実行、演算処理等を行う。
ROM32には、プログラムが記憶されており、本実施形態のサーバ30は、当該プログラムが実行されることにより実現される。RAM33には、当該プログラムおよび各種のデータが一時的に保持される。なお、上述したプログラムは、CD−ROM等の記憶媒体に格納されていてもよい。
通信インターフェース16は、ネットワークインターフェース機能を有しており、通信端末10との通信を行う。
外部アクセス部35は、CPU31が外部システム40にアクセスして、例えばAPI(Application Programming Interface)などの動作環境を基に外部システム40と通信を行うためのインターフェースである。この実施形態では、外部システム40は、英語の形態素解析のサービスを提供するための外部解析システムと、英語から日本語への機械翻訳のサービスを提供するための外部翻訳システムとを含み、各外部システムでの処理結果が外部アクセス部35を介してCPU31へ伝送される。この実施形態の翻訳システム1では、サーバ30は、APIを利用して、外部システム40の各サービスを呼び出すように構成されているが、例えば、サーバ30は、外部システム40のサービス機能を兼ね備える単一のサーバ装置として構成してもよい。
[翻訳処理の概略]
次に、翻訳システム1によって実現される翻訳処理の概略について、図1および図4を参照して説明する。図4は、翻訳処理時における原文の変更態様の例を説明するための図であって、(a)は請求項における原文表記と、(b)は構成要素ごとに分割された請求項と、(c)は構成要素名にタグが付与された請求項と、(d)は説明パターン文ごとに分割された請求項とを示す。なお、図4(a)は、米国公開特許20050123138号のクレーム(請求項)1を例示的に示している。
サーバ30は、通信端末10からの要求に応じて、例えば図4(a)に示すような「A communication apparatus」で始まる英語で記載されたクレームを翻訳対象として翻訳を行う。
このサーバ30は、クレームの形態素解析の結果に基づいて、そのクレームの中から、発明の構成要素を区切るために使用されている区切りパターンを検出し、構成要素の単位にクレームを分割する。
この実施形態では、構成要素の単位にクレームを分割するために、図4に示すように、<HAVE>タグと、<DIV>タグとが用いられる。図4の例では、<HAVE>タグは、「発明の名称」と「発明構成要素集合」との間を区切るためのタグとして使用される。「発明構成要素集合」は、複数の発明の構成要素からなる部分を意味する。例えば米国の英文クレームの場合、「発明の名称」と「発明構成要素集合」との間には一般に、「comprising:」という表記が記載されるので、この表記に対して<HAVE>タグが付与される。
<DIV>タグは、個々の発明の構成要素の間を区切るタグとして使用される。例えば、米国の英文クレームの場合は一般に、個々の発明の構成要素の位置(開始、終了)に、「; and」や「.」という表記が記載されるので、これらの表記に対して<DIV>タグが付与される。
例えば図4(b)において、サーバ30は、「comprising」の後に「:」(コロン)が出現するパターンC1、「;」(セミコロン)の後に「and」が出現するパターンC2、および、「.」( ピリオド)が出現するパターンC3をすべて、区切りパターンとして認識し、構成要素CA1〜CA3ごとにクレームを分割する。例えば、図4(b)の例では、「comprising」の前に<HAVE>というタグが付与され、「:」(コロン)の後に</HAVE>というタグが付与される。さらに、「;」(セミコロン)および「.」( ピリオド)の前に<DIV>というタグが付与され、「and」および「.」( ピリオド)の後に</DIV>というタグが付与されることによって、各構成要素CA1〜CA3が分割されることになる。
なお、各実施形態の説明では、クレームのプリアンブル部に記載されている名称(図4の例では、「A communication apparatus」という名称)を、発明の構成要素名と称する。
次に、例えば図4(c)に示すように、サーバ30は、構成要素CA1〜CA3の各構成要素名をそれぞれ抽出して各構成要素名を特定する。この実施形態では、各構成要素名を特定する一例として、構成要素名の位置にタグ61,62,63を付与する場合を示してある。
この例では、構成要素名を特定するために、図4に示すように、<NAME>タグと、<ITEM>タグとが用いられる。図4の例では、<NAME>タグは、「発明の名称」を特定するためのタグとして使用される。例えば、米国の英文クレームの場合は一般に、「発明の名称」は、英文クレームの先頭に、名詞または名詞句として記述されるので、この表記に対して<NAME>タグが付与される。
<ITEM>タグは、2番目以降の発明の構成要素の名称(構成要素名)を特定するためのタグとして使用される。例えば、米国の英文クレームの場合は一般に、構成要素名は、対応する構成要素の先頭に出現する名詞または名詞句からなるので、これらの名詞または名詞句に対して<ITEM>タグが付与される。
図4(c)の例では、「A communication apparatus」という構成要素名の間に、例えば、<NAME>および</NAME>というタグ61が付与される。さらに、「a propagation environment estimating section」および「a first data acquiring section」という構成要素名の間に、例えば、<ITEM>および</ITEM>というタグ62,63が付与される。
そして、図4(d)に示すように、サーバ30は、構成要素CA1〜CA3の内部に出現する説明パターン文の単位に構成要素CA1〜CA3を分割する。図4(d)の例では、サーバ30は、「that」という関係代名詞から始まる文、「using」という現在分詞から始まる文、および、「obtained」という過去分詞から始まる文をそれぞれ、説明パターン文として認識し、説明パターン文の単位に構成要素CA2,CA3を分割する。例えば、図4(d)の例では、<ACTION>および</ACTION>というタグ71,72,73,74,75,76が付与されることによって、説明パターン文の単位に構成要素CA2,CA3が分割されることになる。
このように本実施形態のサーバ30では、クレーム中の構成要素間の参照関係(構成要素名、構成要素、および、説明パターン文の関係)にしたがって、クレーム内の原文を分割する。このことは、英文クレームが日本語に翻訳される度に、翻訳しやすくなることに等しく、これにより、外国語で記載された請求項の内容の理解が容易になる。
[サーバ30の機能構成]
図5は、図3に示したハードウエア構成上で実現されるサーバ30の機能構成の一例を示す図である。図5に示すように、このサーバ30は、形態素解析部301、構成要素単位分割部302、構成要素名特定部303、説明パターン文単位分割部304、翻訳部305、記憶部306、出力部307および文構造変更部308を備える。
記憶部306は、図3に示したROM32およびRAM33により構成され、翻訳対象の原文データ(クレーム)と、その原文データに対応付けられたデータとして訳文などを記憶する。
図5に示した記憶部307以外の構成要素については、以下のサーバ30の動作説明において適宜参照される。
[翻訳システム1の動作]
以下、この翻訳処理を実現するための翻訳システム1の動作について説明する。
先ず、この翻訳処理を実現するためにサーバ30内で処理される様々なデータについて、図1、図5および図6を参照して説明する。図6は、(a)区切りパターンの例と、(b)構成要素名の抽出例と、(c)説明パターン文の例を示す図である。
なお、図6(a)に示すデータは図5に示した構成要素単位分割部302によって管理され、図6(b)に示す管理データは図5に示した構成要素名特定部303によって管理され、図6(c)に示した管理データは図5に示した説明パターン文単位分割部304によって管理される。
このサーバ30では、図6(a)に示す管理データに基づいて、クレーム中に出現する区切りパターンの検出を行う。例えば、<clam-Text>タグ、「:」(コロン)、「;」(セミコロン)、「comprising」という語がクレーム中に出現する場合、構成要素の境界として認識される。
図6(b)に示すように、このサーバ30では、構成要素の先頭に位置する名詞(名詞句)を、当該構成要素内の構成要素名として抽出して特定する。
図6(c)に示すように、サーバ30は、説明パターン文を、管理データを参照して抽出する。関係代名詞、形容詞用法の現在分詞・過去分詞、および、to不定詞のいずれかから始まって名詞(名詞句)で終わる文が出現するときには、その文が説明パターン文であることを意味する。
次に、この翻訳処理を実現されるために実行される処理の全体について、図1、図3〜図7を参照して説明する。図7は、翻訳システム1の制御処理の全体を示すフローチャートである。
図7において、通信端末10が、サーバ30に対して通信網20を介して翻訳要求(翻訳対象となる英文クレームを含む。)を行うと(ステップS101)、サーバ30のCPU31は、翻訳要求に応じた英文クレームのテキスト文(図4(a)参照)を対象として、形態素解析する(ステップS102)。図7のフローチャートによれば、サーバ30のCPU31は、外部アクセス部35を介して、外部システム40の解析システムを呼び出して、対応する英文クレームのテキスト文の形態素解析の結果を得る。つまり、CPU31は、英文のクレームを対象として、形態素(言語で意味を持つ最小単位)の列に分割し、各形態素の品詞を判別する。
ここで、ステップS102のCPU31は、外部アクセス部35と協働して、形態素解析部301として機能する。
次に、サーバ30のCPU31は、ステップS101で解析された形態素の結果に基づいて、翻訳対象の英文クレームの中から発明の構成要素を区切るために使用されている区切りパターンを検出し、構成要素ごとにクレームのテキスト文を分割する(ステップS103)。図4(b)の例では、CPU31は、「comprising」、「:」(コロン)、「;」(セミコロン)および「.」( ピリオド)が出現したときにそのパターンを区切りパターンC1〜C3として検出し、それらの区切りパターンC1〜C3に対応するタグ51〜53を付与することにより、構成要素CA1〜CA3の単位にテキスト文を分割する。このステップS103は、区切りパターンの例(図6(a))に基づいて検出される。
ここで、ステップS103のCPU31は、構成要素単位分割部302として機能する。
次に、サーバ30のCPU31は、ステップS103で分割された構成要素の中から、ステップS101の形態素解析の結果に基づいて構成要素名を抽出し、構成要素名を特定する(ステップS104)。図4(c)の例では、CPU31は、「A communication apparatus」、「a propagation environment estimating section」および「a first data acquiring section」という名詞句を構成要素CA1〜CA3の構成要素名として抽出し、これらの各構成要素名を特定するためのタグ61〜63を、各構成要素名の位置に付与する。このステップS104は、構成要素名の抽出の例(図6(b))に基づいて判定される。
ステップS104において、CPU31は、構成要素名特定部303として機能する。
次に、サーバ30のCPU31は、ステップS103で分割された構成要素内に、当該構成要素を説明するための説明パターン文が出現する場合は、説明パターン文ごとに構成要素を分割する(ステップS105)。図4(d)の例では、CPU31は、「that」という関係代名詞から始まる文、「using」という現在分詞から始まる文、および、「obtained」という過去分詞から始まる文が出現したときに、それらの文をすべて説明パターン文と判定し、それらの説明パターン文に対応するタグ71〜76を付与することにより、説明パターン文の単位に構成要素CA2,CA3を分割する。このステップS105は、説明パターン文の例(図6(c))に基づいて判定される。
ステップS105において、CPU31は、説明パターン文単位分割部304として機能する。
次に、サーバ30のCPU31は、ステップS102〜S105の処理結果に基づいて設定した英文クレームの翻訳処理を行う(ステップS106)。図7のフローチャートによれば、サーバ30のCPU31は、外部アクセス部35を介して、外部システム40である外部翻訳システムを呼び出して、翻訳対象の英文クレームの翻訳処理結果である翻訳文(例えば、日本語)を得る。そして、CPU31は、その翻訳文をROM32に記憶する。
ステップS106において、CPU31は、外部アクセス部35と協働して、翻訳部305として機能する。なお、ステップS106の処理は、後述する図8において、詳細なフローチャートを示してある。
次に、サーバ30のCPU31は、ステップS106の翻訳処理結果である翻訳文(例えば、日本語)を、通信網20を介して通信端末10に出力する(ステップS107)。
ステップS107において、CPU31は、通信インターフェース34と協働して、出力部307として機能する。
図7において、通信端末10は、サーバ30から出力された翻訳文を、通信網20を介して受信して表示部15に表示する(ステップS108)。この表示例は、後述する図10において示してある。
[サーバ30の翻訳処理]
以下、サーバ30により実行される翻訳処理について説明する。
先ず、この翻訳処理を実現するためにサーバ30内で処理される構文の変更に関連して、図1、図5、図7〜図9を参照して説明する。図8は、翻訳処理の一例を示すフローチャートである。図9は、(a)英文クレームと、(b)訳文と、(c)説明パターン文の構文の変換例と、(d)〜(i)名詞句の決定手順とを示す説明図である。
図8において、サーバ30のCPU31は、外部システム40である外部翻訳システムを呼び出して、構成要素名を翻訳する(ステップS1061)。図9(a)に示すように、英文クレーム50内には、「a propagation environment estimating section」という構成要素名t10が記述されており、その構成要素名t10にかかる構成要素は、「that estimates a propagation environment」、「using a signal」および「transmitted from a community party」という3つの説明パターン文を含んでいる。
この場合、CPU31は、構成要素名t10の翻訳結果として、「伝播環境が推定部」という日本語訳td50を得る(図9(b)参照)。
ステップS1061において、CPU31は、外部アクセス部35と協働して、翻訳部305として機能する。
次に、CPU31は、説明パターン文が主語および述語動詞を含む文となるように文構造を変更する(ステップS1062)。この実施形態では、説明パターン文の主語は、説明パターン文が修飾する名詞または名詞句からなる。
説明パターン文の文構造を変更する一例として、図9(c)の例では、CPU31は、説明パターン文内の「that」という関係代名詞を省略し、さらには、説明パターン文内の「using」という現在分詞形を原形の「use」に変換する。また、CPU31は、説明パターン文内の「transmitted」という過去分詞形の前にbe動詞の「is」を追加する。
そして、CPU31は、説明パターン文の直前の名詞(名詞句)を参照して、その名詞(名詞句)を、当該説明パターン文の主語として追加する。図9(d)の例では、「section」、「a propagation environment」および「a signal」という語が、対応する説明パターン文の主語として追加される。このステップS1062は、あらかじめ設定された変換パターンに基づいて変更される。
ステップS1062において、CPU31は、文構造変更部308として機能する。
次に、CPU31は、外部システム40である外部翻訳システムを呼び出して、説明パターン文を翻訳する(ステップS1063)。その翻訳結果として、例えば図9(e)に示すような日本語訳が得られる。
ここで、CPU31は、外部アクセス部35と協働して、翻訳部305として機能する。
次に、CPU31は、ステップS1064における翻訳後の説明パターン文の主語が、その直前の構成要素または説明パターン文の訳文に出現するかを判定する(ステップS1064)。そして、その判定の結果、例えば図9(e)に示すように、「セクション」という名詞からなる主語と、その直前の名詞句からなる「推定部」とが不一致であれば(ステップS1064のいいえ)、ステップS1062に進んで、CPU31は、例えば図9(f)に示すように、「estimating」という語をさらに追加する変更処理(ステップS1062)と、翻訳処理(ステップS1063)と、比較処理(ステップS1064:図9(g)参照)とを行う。CPU31は、説明パターン文の主語が直前の名詞(名詞句)と一致するまでの間(ステップS1064)、ステップS1062〜S1064の処理を繰り返す。このようにして、説明パターン文内の主語が、「section」/(セクション)(図9(c))→「estimating section」/(セクションを推定する)((図9(f))→「environment estimating section」/(環境推定部)(図9(h))と変更されていくことになる。つまり、CPU31は、名詞句が記述されている原文の訳文と、説明パターン文内に含まれる主語候補の訳文とが一致するように、名詞句に含まれる語を補完してその説明パターン文内の主語を決定することになる。
ステップS1064において、CPU31は、文構造変更部308として機能する。
このようにして翻訳が行われた翻訳結果の表示例について、図10を参照して説明する。図10は、通信端末10の表示部15における翻訳結果の表示例を説明するための図であって、(a)は英文クレームの文構造の変更例(図8のステップS1061〜S1064の処理結果)、(b)は文構造を変更した場合の訳文例、(c)は文構造を変更しない場合の訳文例を示す。
図10(b)の翻訳例によれば、構成要素CA1〜CA3の単位に日本語訳が表示され、構成要素CA1〜CA3の内容が理解しやすくなっている。一方、図10(c)の翻訳例は、ふさわしい表現になっておらず、理解しにくい。
図10(b)の翻訳結果の表示例として、構成要素CA1〜CA3の単位に階層状に表示されている。これは、翻訳文の出力処理(図7のステップS107)において、サーバ30のCPU31が、タグを付与して、構成要素名と構成要素と説明パターン文との相互関係が視認可能になるように出力するからである。このときのタグの基本的な設定態様は、図11に示してある。
図11は、タグの設定例を示す図であって、(a)はタグの設定例、(b)はタグにしたがった表示例を示しているなお、図11(a)のタグの構成は、図4に示したものと同一である。
図11において、(1)<HAVE>タグは<NAME>タグに関連付けられ、(2)<ITEM>タグは<HAVE>タグに関連付けられ、(3)連続する<ACTION>タグのうち先頭のものは、直前の<ITEM>タグに関連付けられ、(4)<ACTION>タグに続く<ACTION>タグは直前の<ACTION>タグに関連付けられ、(5)関連付けられたタグは、関連付け先のタグから1段インデントさせ、タグ間を線で結んで表示される。
そのため、通信端末10では、翻訳文の表示時の表示部15には、タグにしたがって、クレーム内の参照関係(構成要素名と、構成要素と、説明パターン文との相互関係)が視認可能な形態で表示される。なお、構成要素名、構成要素、および/または、説明パターン文を表示する方法として、例えば、それぞれに対応する文字列の色を変えて表示してもよいし、文字列の太さを変えて表示するようにしてもよい。
以上説明したように、本実施形態のサーバ30によれば、翻訳対象のクレームを、構成要素、構成要素名および説明パターン文の別にそれぞれ分類して機械翻訳を行う。ここで、構成要素、構成要素名および説明パターン文は、請求項(クレーム)および外国語に特有の記述や表現が使用されることが多いので、それらの記述や表現を基に、構成要素、構成要素名および説明パターン文を区分けすることになる。これにより外国語で記載された請求項の内容の理解が促進される。
次に、本実施形態の変更例について説明する。
(変更例1)
以上では、説明パターン文内に主語が重複する態様について言及しなかったが、繰り返し出現する構成要素名を1つ(最初に出現する構成要素名)に集約するようにしてもよい。
図12は、かかる集約例を示す説明図であって、(a)はテキスト文、(b)はテキスト文内の構成要素および説明パターン文の分割例、(c)は説明パターン文内の主語の集約例を示す。
図12(b)の例では、「a plurality of antennas」(複数のアンテナ)という構成要素名が2つあるので、2番目の「a plurality of antennas」が削除され、1番目の「a plurality of antennas」に集約されている。この場合、図8のステップS1062において、サーバ30のCPU31(文構造変更部308)は、同一の構成要素内で、構成要素名(図12の例では、「a plurality of antennas」)が繰り返し出現する場合は、この繰り返される構成要素名を集約化して文構造を変更する。このようにすることで、構成要素名にかかる構成要素内の表現が簡略化され、誤訳が少なくなる。
図13は、かかる変更処理に基づいて実施された翻訳結果の表示部15の表示例を示す図である。図13の例では、「複数のアンテナ」という構成要素名にかかる複数の構成要素が1つに集約され、かかる構成要素内の関係が分かりやすくなる。
(変更例2)
以上では、英語から日本語へ翻訳が行われる場合について説明した。これとは別に、中国語から日本語への翻訳に適用してもよい。
図14は、図6と類似の例であって、(a)区切りパターンの例と、(b)構成要素名の抽出例と、(c)説明パターン文の例として、中国語に対応するようにするための例を示している。
図14(a)の区切りパターンには、「;」(セミコロン)等の記号、「包括」などの特徴表現が含まれている。図14(b)の構成要素名の抽出例は、図6(b)のものと同様である。すなわち、構成要素の先頭に位置する名詞(名詞句)が、かかる構成要素の構成要素名として抽出される。図14(c)の説明パターン文の例として、「:」(コロン)直後の「所述」で始まり名詞(名詞句)で終わる文、「以及」で始まり名詞(名詞句)で終わる文がある。
図14に示した例にしたがって処理をすれば、サーバ30は、図15および図16で示すようなタグを付与することになる。図15(a)および図15(b)はそれぞれ図4(a)および図4(b)に対応する説明態様である。図16(a)および図16(b)はそれぞれ図4(c)および図4(d)に対応する説明態様である。
図15(a)の例では、サーバ30によって「包括」、「;」(セミコロン)、「以及」および「。」(ピリオド)が検出されて、構成要素CA1〜CA3の単位に中国語クレームが分割されている。このとき、サーバ30は先ず、図7のステップS103と同様に、対応するタグを付与する(図15(b))。
そして、サーバ30は、図7のステップS104と同様に、構成要素名を抽出してタグ61,62,63を付与する(図16(a))。さらに、サーバ30は、図7のステップS105と同様に、タグ71〜75を付与して説明パターン文ごとに構成要素を分割する(図16(b))。
このようにして、サーバ30が、図7のステップS106およびS107と同様に処理すると、通信端末10は、図7のステップS108において、例えば図17(a)に示すような訳文を表示する。
図17(b)は、サーバ30が図7のステップS102〜S107を行わずに翻訳された訳文の表示例を示す。この表示では、クレームの内容を理解するのが困難である。
(変更例3)
上記第1実施形態および第1実施形態の中で述べた変形例で例示したタグは、構成要素、構成要素名および説明パターン文を示すための情報であればよく、当業者に知られた他の情報を適用することもできる。
(変更例4)
以上では、各言語に対応して請求項の翻訳が行われていく場合について説明した。しかしながら、特定の技術分野(例えば、機械など)では発明の内容次第では図面を確認することで、発明の理解がさらに容易になることもあり得るし、特定の技術分野(例えば、情報技術など)では公開されている複数の特許文献の中から、類似する発明の請求項の内容を確認したい場合もある。そのため、関連する特許文献ごとに、請求項1の訳文と、代表図とを含む一覧が表示されるようにできることが好ましい。
図18は、かかる一覧を含む通信端末10の表示部15の表示例を示す。図18の例では、検索結果ごとに、請求項1の訳文(図13の表示例と同様)と、代表図とが一覧表示される。
この場合、サーバ30のCPU31は、通信端末10からの要求(例えば、図18の最上段に記載の欧州特許公報の番号)に応じて、その要求に応じた特許文献を、例えば外部のデータベースサーバから検索して取得し、この特許文献を対象として、図7および図8のフローチャートと同様のステップ処理を実施する。さらに、CPU31は、対象となる特許文献に関連する他の特許公報(例えば、図18の第2段目および第3段目のもの)を例えば上記外部のデータベースサーバから取得して、図7および図8のフローチャートと同様のステップ処理を実施する。関連する他の特許公報の検索は、請求項1内の用語、あらかじめ登録されている関連用語などに基づいて行われる。
さらに、CPU31は、対象となる特許文献の代表図を、例えば上記外部のデータベースサーバから取得して各特許文献の訳文と関連付けて、通信端末10に出力する。
このような一覧表示は、関連する発明の内容の理解を視覚的に一層促進する役割を果たす。
10 通信端末
30 サーバ
301 形態素解析部
302 構成要素単位分割部
303 構成要素名特定部
304 説明パターン文単位分割部
305 翻訳部
306 記憶部
307 出力部
308 文構造変更部

Claims (6)

  1. 通信端末と通信可能に接続される機械翻訳装置であって、
    前記通信端末から、第1言語により記述された請求項の翻訳要求を受け付けた場合、前記請求項に前記第1言語で記載されている原文の形態素解析を行う形態素解析部と、
    前記形態素解析が行われた前記原文を構成する形態素に基づいて、前記請求項の中から発明の構成要素を区切るために使用されている形態素のパターンを検出し、前記検出した形態素のパターンに従って前記構成要素ごとに前記請求項を分割する構成要素単位分割部と、
    前記構成要素の中から、前記形態素解析が行われた前記原文を構成する前記形態素の品詞が、構成要素名を抽出するために使用される名詞句と合致するかに基づいて、当該品詞の形態素を、構成要素名として抽出して、その構成要素名を特定する構成要素名特定部と、
    前記分割された各構成要素内に、当該構成要素を説明するための説明パターン文の始まりを示す品詞が出現する場合は、前記出現した品詞から始まる説明パターン文ごとに前記各構成要素内を分割する説明パターン文単位分割部と、
    前記特定された構成要素名を含み、かつ前記分割を有する前記請求項を第2言語に翻訳する翻訳部と、
    前記請求項の翻訳文を記憶する記憶部と、
    前記記憶部の前記翻訳文を前記通信端末に出力する出力部と
    を含み、
    前記翻訳部における翻訳の結果、前記説明パターン文の各々の主語と、その直前の説明パターン文の末尾に出現する名詞または名詞句とが一致しない場合にはさらに、当該主語と当該名詞または名詞句とが一致するように、前記第1言語の前記説明パターン文内に前記名詞または名詞句に含まれる語を補完して当該説明パターン文の文構造を変更する文構造変更部を含む
    ことを特徴とする機械翻訳装置。
  2. 前記文構造変更部は、前記翻訳部における翻訳の前において、前記説明パターン文内で、関係代名詞、現在分詞、過去分詞、または不定詞から始まる文が出現した場合には、それらの文の単位に、当該関係代名詞、現在分詞、過去分詞、または不定詞に相当する部を、あらかじめ設定された変換パターンに基づいて変更することを特徴とする請求項1に記載の機械翻訳装置。
  3. 前記文構造変更部は、同一の構成要素内で、前記構成要素名が繰り返し出現する場合は、前記繰り返される構成要素名を集約化して文構造を変更することを特徴とする請求項1または2に記載の機械翻訳装置。
  4. 前記出力部は、前記通信端末において、前記分割された構成要素、前記特定された構成要素名および前記分割された説明パターン文の相互関係が視認可能な形態で表示させるように出力することを特徴とする請求項1ないし3のいずれか1項に記載の機械翻訳装置。
  5. コンピュータによって実行される機械翻訳方法であって、
    通信端末から、第1言語により記述された請求項の翻訳要求を受け付けた場合、前記請求項に前記第1言語で記載されている原文の形態素解析を行うステップと、
    前記形態素解析が行われた前記原文を構成する形態素に基づいて、前記請求項の中から発明の構成要素を区切るために使用されている形態素のパターンを検出し、前記検出した形態素のパターンに従って前記構成要素ごとに前記請求項を分割するステップと、
    前記構成要素の中から前記形態素解析が行われた前記原文を構成する前記形態素の品詞が、構成要素名を抽出するために使用される名詞句と合致するかに基づいて当該品詞の形態素を構成要素名として抽出して、その構成要素名を特定するステップと、
    前記分割された各構成要素内に、当該構成要素を説明するための説明パターン文の始まりを示す品詞または語が出現する場合は、前記出現した品詞または語から始まる説明パターン文ごとに前記構成要素を分割するステップと、
    前記特定された構成要素名を含み、かつ前記分割を有する前記請求項を第2言語に翻訳するステップと、
    前記翻訳の結果を前記通信端末に出力するステップと
    を含み、
    前記翻訳するステップでは、前記翻訳の結果、前記説明パターン文の各々の主語と、その直前の説明パターン文の末尾に出現する名詞または名詞句とが一致しない場合にはさらに、当該主語と当該名詞または名詞句とが一致するように、前記第1言語の前記説明パターン文内に前記名詞または名詞句に含まれる語を補完して当該説明パターン文の文構造を変更する
    ことを特徴する機械翻訳方法。
  6. 請求項5に記載の機械翻訳方法をコンピュータに実行させるためのプログラム。
JP2013073666A 2013-03-29 2013-03-29 機械翻訳装置、機械翻訳方法およびプログラム Active JP6114090B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013073666A JP6114090B2 (ja) 2013-03-29 2013-03-29 機械翻訳装置、機械翻訳方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013073666A JP6114090B2 (ja) 2013-03-29 2013-03-29 機械翻訳装置、機械翻訳方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2014199476A JP2014199476A (ja) 2014-10-23
JP6114090B2 true JP6114090B2 (ja) 2017-04-12

Family

ID=52356360

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013073666A Active JP6114090B2 (ja) 2013-03-29 2013-03-29 機械翻訳装置、機械翻訳方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6114090B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6417359B2 (ja) * 2016-05-06 2018-11-07 雲拓科技有限公司Integral Search International Ltd. 請求の範囲の構文解析構成方法
TW201828103A (zh) * 2017-01-24 2018-08-01 雲拓科技有限公司 申請專利範圍之解構處理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3437710B2 (ja) * 1996-04-22 2003-08-18 エイディシーテクノロジー株式会社 機械翻訳装置
JP5489872B2 (ja) * 2010-06-17 2014-05-14 株式会社インテック 請求項構造情報生成装置、請求項構造情報生成方法、及びプログラム

Also Published As

Publication number Publication date
JP2014199476A (ja) 2014-10-23

Similar Documents

Publication Publication Date Title
CN102439540B (zh) 输入法编辑器
KR102345001B1 (ko) 특허 문서 작성 장치, 방법, 컴퓨터 프로그램, 컴퓨터로 판독 가능한 기록매체, 서버 및 시스템
JP2007257644A (ja) 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置
JP2007072646A (ja) 検索装置、検索方法およびプログラム
KR20210013991A (ko) 번역예 검색 기능을 갖는 특허 문서 작성 장치, 방법, 컴퓨터 프로그램, 컴퓨터로 판독 가능한 기록매체, 서버 및 시스템
EP4080381A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
JP2022055305A (ja) テキスト要約を生成するテキスト処理方法、装置、デバイス及び記憶媒体
RU2595531C2 (ru) Способ и система генерирования определения слова на основе множественных источников
JP6114090B2 (ja) 機械翻訳装置、機械翻訳方法およびプログラム
De Schryver et al. Dictionary Writing System (DWS)+ Corpus Query Package (CQP): The Case of" TshwaneLex"
KR101069278B1 (ko) 청구항 시각화 장치 및 방법
US10762301B1 (en) Methods and systems for generating linguistic rules
JP6538563B2 (ja) 入力支援装置、入力支援方法及びプログラム
JP2019053262A (ja) 学習システム
JP5621145B2 (ja) 文書チェック装置、文書チェックプログラムおよび文書チェック方法
JP6934621B2 (ja) 方法、装置、及びプログラム
JP2010152705A (ja) 体験情報検索システム
JP2004295301A (ja) 文書検索装置
bt Setik et al. Exploiting Malay Corpus On Islamic Issue using Sketch Engine
JP2020118891A (ja) 学習システム
KR20210013989A (ko) 구성요소 번역 관리 기능을 갖는 특허 문서 작성 장치, 방법, 컴퓨터 프로그램, 컴퓨터로 판독 가능한 기록매체, 서버 및 시스템
KR20210013992A (ko) 자동완성 기능을 갖는 특허 문서 작성 장치, 방법, 컴퓨터 프로그램, 컴퓨터로 판독 가능한 기록매체, 서버 및 시스템
KR20210013990A (ko) 특허 명세서 번역을 위한 특허 문서 작성 장치, 방법, 컴퓨터 프로그램, 컴퓨터로 판독 가능한 기록매체, 서버 및 시스템
JP2006172029A (ja) 検索結果提示方法
Ramisch et al. Evaluation of MWE Acquisition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170228

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170316

R150 Certificate of patent or registration of utility model

Ref document number: 6114090

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250