JP6366902B2 - 英文の特許明細書からの格成分抽出プログラム - Google Patents

英文の特許明細書からの格成分抽出プログラム Download PDF

Info

Publication number
JP6366902B2
JP6366902B2 JP2013100827A JP2013100827A JP6366902B2 JP 6366902 B2 JP6366902 B2 JP 6366902B2 JP 2013100827 A JP2013100827 A JP 2013100827A JP 2013100827 A JP2013100827 A JP 2013100827A JP 6366902 B2 JP6366902 B2 JP 6366902B2
Authority
JP
Japan
Prior art keywords
extracted
noun phrase
character string
case component
extraction step
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013100827A
Other languages
English (en)
Other versions
JP2014222371A (ja
Inventor
元 安彦
元 安彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Management of Technology Solution Cooperation
Original Assignee
Management of Technology Solution Cooperation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Management of Technology Solution Cooperation filed Critical Management of Technology Solution Cooperation
Priority to JP2013100827A priority Critical patent/JP6366902B2/ja
Publication of JP2014222371A publication Critical patent/JP2014222371A/ja
Application granted granted Critical
Publication of JP6366902B2 publication Critical patent/JP6366902B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、電子データ化された英文の特許明細書に記載された文字列から格成分を抽出する英文の特許明細書からの格成分抽出プログラムに関する。
従来、短時間で特許明細書のチェックを行うことを目的とするものであって、特に、クレーム数を極力小さく抑える場合においても、かかる中間概念の記載を含めてより簡単に、かつ権利範囲や特許率をも考慮してチェックすることができ、さらには明細書の記載の方向性そのものを中間概念をも含めて容易にチェックすることができる明細書分析表示装置が特許文献1に開示されている。
また、特許明細書における特許請求の範囲に定義された発明の限定度合をカウントして表示することが可能な特許明細書分析表示装置が特許文献2に開示されている。
特開2006−155151号公報 特願2008−110211号公報
本発明は、英文の特許明細書等を始めとした電子データ化された文書に定義された格成分を高精度に抽出することが可能な英文の特許明細書からの格成分抽出プログラムを提供することを目的とする。
本発明を適用した英文の特許明細書からの格成分抽出プログラムは、上述した課題を解決するために、 電子データ化された英文の特許明細書における特許請求の範囲の記載から文字列を抽出する文字列抽出ステップと、上記文字列抽出ステップにおいて抽出された文字列について形態素解析及び構文解析を行うことにより、英単語から名詞句を抽出し、抽出した名詞句から格成分を抽出する格成分抽出ステップとを有し、 上記格成分抽出ステップでは、一の名詞句と他の名詞句の間にある前置詞がby,to,with,from,after,before,over,as,at,on,than,beyond,via,among,between,and,above,into,along,under,below,upside,down,through,around,across,upon, toward,withinの何れかである場合には、一の名詞句と他の名詞句をそれぞれ異なる格成分として抽出し、 上記前置詞がof,in,for,orの何れかである場合には、一の名詞句と他の名詞句をまとめて一つの格成分として抽出することをコンピュータに実行させることを特徴とする。
上述した構成からなる本発明では、英文の特許明細書における特許請求の範囲に定義された発明の限定度合としての格成分を高精度に抽出することが可能となる。
格成分について説明するための図である。 格成分について説明するための他の図である。
以下、本発明を実施するための形態として、英文の特許明細書に記載された文字列から格成分を抽出する格成分抽出プログラムについて、図面を参照しながら詳細に説明する。
以下の例では、英文の特許明細書における特許請求の範囲の記載から格成分を抽出する場合について説明をするが、これに限定されるものではなく、他のいかなる文書に対して本発明を適用してもよいことは勿論である。
格成分数の理論について
特許発明の技術的範囲の広さを定量化、数値化するための数値化方法における最小抽出単位として、格成分が提案されている。
特許請求の範囲が、各構成要素A、B、Cを「〜Aと、〜Bと、Cとを備える○○装置(方法)」と列挙することにより定義する、いわゆる要件列挙方式で記載されていることを前提としたとき、各構成要素A、B、Cには、動詞句が係り受けする。即ち、各構成要素A、B、Cを主語としたとき、これらにはそれぞれ動詞句が係り受けし、主語と述語とからなる文を成立させることができる。これら動詞句における動詞は、述語として文を形成するにあたり、自らの表す動き、状態、関係を実現させるために、どのような名詞句の組み合わせを取るかが基本的に決まっている。動詞が自らの帯びている語彙的意味の類的なあり方に応じて、文の形成に必要な名詞句の組み合わせを選択的に要求する働きを、動詞の格支配と仮称するならば、動詞により文の成分として要求された名詞句は、動詞を補足する上での格成分ということができる。
例を挙げて説明するならば、構成要素“信号生成手段”が下記のB−1)により定義されているものとする。
B−1)「ユーザの要求に応じて駆動信号を生成する信号生成手段と、〜」
このとき、「ユーザの要求に応じて駆動信号を生成する」という動詞句が信号生成手段に係り受けする。この動詞句において「生成する」という動詞の動作を実現・完成させるために、「ユーザの要求(に応じて)」、「駆動信号(を)」という名詞句を要求する働きが格支配であり、これら名詞句が格成分である。そして、「ユーザの要求(に応じて)」、「駆動信号(を)」といった名詞句が、それぞれ「生成する」という動詞に対して「動作開始条件」「対象」といった類的な関係的意味が格である。この格成分を実現している名詞句の担っている語彙的意味、またそれらの名詞句が帯びている関係的意味としての格によって形成されるものが、この動詞「生成する」により実現すべき命題の中核部分となる。上記例で言うならば “生成する”という動詞による命題を実現するための動作開始条件として、“ユーザの要求に応じて”いなければならず、さらにその対象として“駆動信号”を生成しなければならないため、これら2つが動詞による命題実現のため条件数となっている。
図1に示すように、このような動詞による命題実現のためにクリアしなければならない条件数が少ない場合を模式的に表したものである。動詞による動作開始のための条件の数が少なくなるため、命題を実現できる可能性が向上する。これに対して、図2は、動詞による命題実現のためにクリアしなければならない条件数が増加した場合を模式的に表したものであり、かかる場合には命題を実現できる可能性が低下する。
条件数が増加するほど、実際に動作が開始されるまでに条件を満たすか否かの判断のステップ数が増加することになる。各条件を満たす確率に多少の差異があることを考慮しても、この条件の判断ステップ数が増加するに従い、換言すれば条件を規定する格成分が増加するに従い、その動詞句が係り受けする構成要素Aに該当する可能性が低くなることを意味しており、その可能性の低下した分、技術的範囲が狭まることを示している。逆に、格成分数が少ない場合には、その動詞句が係り受けする構成要素Aに該当する可能性が高くなることを意味しており、その分において技術的範囲が広がることを示している。
このように格成分数(条件数)が、動詞による動作開始可能性、ひいては命題実現の可能性を支配し、これが技術的範囲の広狭に影響を及ぼすものであるから、特許請求の範囲の数値化方法の最小抽出単位を格成分として、この動詞句に含められている格成分数をカウントすることにより、技術的範囲の広さに応じた数値化を実現することができるものと考えられる。
上述したB−1)の例では、構成要素「信号生成手段」の命題を実現するための動詞「生成する」に係り受けする2つの格成分「ユーザの要求に応じて」「駆動信号を」が存在するため、格成分数が2となる。このとき、動詞「生成する」の動作開始条件を規定する「ユーザの要求に応じて」という格成分が存在しない場合には、格成分数が1となり、ユーザの要求の有無に関係なく、いつでも「駆動信号」を「生成する」ことができることになり、「信号生成手段」の命題を実現できる可能性が高くなる。これは構成要素「信号生成手段」により、侵害被疑製品の技術的要素の同一性を立証できる可能性を向上させることができることを示唆しており、かかる可能性の向上させた分が、侵害被疑製品に対する特許発明の捕捉容易性、ひいては特許発明の技術的範囲の広さに相当するものと考えられる。このため、構成要素の命題実現可能性を格成分数を介して表現することにより、技術的範囲の広さに応じた、より最適な数値化、定量化を図ることができるものと考えられる。
特許請求の範囲が、各構成要素A、B、Cを「〜Aと、〜Bと、Cとを備える○○装置(方法)」と列挙することにより定義する、いわゆる要件列挙方式で記載されていることを前提としたとき、各構成要素A、B、Cについてそれぞれ格成分数を求め、その総和を特許発明としての○○装置の格成分数とする。仮に、構成要素Aの格成分数が1、構成要素Bの格成分数が3、構成要素Cの格成分数が2とした場合に、これらにより構成される特許発明としての○○装置の格成分数は、その総和である6となる。
実際に各構成要素の格成分数を求める際に、上述したB−1)の例では、「生成する」という動詞に係り受けする格成分「ユーザの要求に応じて」「駆動信号を」を抽出することになるが、この格成分の実際の抽出作業は、「応じて」「を」等、形態素を目印にして行っていくことになる。
表1に格成分を抽出する際に、目印として参照する形態素の例を示す。
Figure 0006366902
特許請求の範囲は、B−1)のようなオーソドックスな形で定義されている場合のみならず、例えばC−1)に示すように定義される場合もある。
C−1)「第1のレンズによりスポット径を制御された光束を反射板により全反射する反射手段と、〜」
例えば、特許請求の範囲を構成する構成要素「反射手段」には、「全反射する」という動詞が係り受けする。この「全反射する」という動詞の動作開始条件を規定する格成として、「光束(を)」と、「反射板(により)」が存在することになり、先ず格成分数2をカウントすることができる。しかし、このうち一の格成分「光束」に着目した場合に、「第1のレンズによりスポット径を制御された」という動詞句がさらに係り受けしているのが分かる。あらゆる光束を「全反射する」対象として定義するよりも、むしろ条件が付加された光束を「全反射する」対象として定義した方が、技術的に限定が付加され、構成要素「反射手段」の命題実現可能性が低下する。このため、この命題実現可能性の低下分を格成分数として補正する必要が出てくる。
かかる場合には、「光束」に係り受けする動詞句「第1のレンズによりスポット径を制御される」において、「制御する」という動詞により格支配される2つの格成分「第1のレンズ(により)」、「スポット径(を)」が存在しているため、さらに格成分数2を加算する。その結果、C−1)は合計の格成分数は4となる。
なお、この特許請求の範囲の記載C−1)は、明細書作成者によっては下記のC−2)のように定義される場合もある。
C−2)「第1のレンズにより光束のスポット径を制御する光束制御手段と、かかる光束を反射板により全反射する反射手段と、〜」
このC−2)における「光束制御手段」並びに「反射手段」により形成される技術的範囲は、C−1)と実質的に同一である。C−2)では、C−1)において「光束」に係り受けする動詞句の内容を、「光束制御手段」により実現すべき命題と位置づけて定義し直している。実際にC−1)においても、定義されている「光束」を作り出すためには、何らかの手段や部材を利用することになるが、あえて「光束制御手段」を挙げて定義していないに過ぎない。このC−2)についても同様に格成分数をカウントすると、光束制御手段で格成分数2、反射手段で格成分数2で合計で格成分数4となり、C−1)と同様の結果となる。
上述のように、構成要素の命題を実現するために要求される格成分の数を介して技術的範囲の広さをカウントするものであるため、互いに記載方法や単語数が異なるものの実質的に同一の技術的範囲からなるC−1)、C−2)を同等の格成分数で表現することができる。仮に最小抽出単位を構成要素とした場合にC−1)は1、C−2)は2となり、最小抽出単位を単語とした場合にC−1)は7、C−2)は、9となることを鑑みても、この格成分数は、より好適な数値化方法の最小抽出単位になり得るものと考えられる。
なお、C−1)、C−2)の構成は、以下のC−3)により定義される場合もあり得る。
C−3)「第1のレンズにより光束のスポット径を制御する光束制御手段と、上記光束制御手段によりスポット径が制御された光束を反射板により全反射する反射手段と、〜」
このC−3)の波線部は、C−2)における「かかる光束」の部分に相当する。しかし、この波線部に記載されている動詞句の内容は、「光束制御手段」に係り受けする直線部により既に実現されてしまった命題であり、波線部の記載をあえて入れたのは「反射手段」が全反射する対象としての「光束」について解釈上の疑義が生じないようにするための確認的なものに過ぎない。このため、格成分数を計算する際に、この波線部の記載をも同様にカウントすることになれば、下線部の内容を二重カウントすることになり測定精度の悪化を招く結果となる。
このため、既に命題として実行済みの波線部の記載は、改めてカウントしないように留意することにより、クレームの記載順序や記載方法による格差に伴う格成分数のずれを解消することが可能となる。実際には、この直線部の記載と、波線部の記載とにより実現される命題が同一か否かを判断する必要がある。
最小抽出単位を格成分とした数値化方法では、特に命題の同一性を判断する際において有用なものとなる。格成分は単語と異なり、動詞により支配される性質を持つため、格成分が同一であるということは、格成分の内容に加えてこれを支配する動詞も同一でなければならないことを意味している。格成分と、これを支配する動詞の双方が同一であれば、これにより実現される命題も同一となる。このため、格成分の同一性の判断を介して、命題が同一か否かを識別することが可能となり、ひいては二重カウントか否かを容易に識別することが可能となる。また、明細書作成者間の記載方法の相違により、得られる数値に影響が及ぶこともなくなる。
なお、上述した例では、特許請求の範囲の記載が構成要件列挙型で記載されている場合を例にとり説明をしたが、他の形式で記載されていても同様にカウントすることができる。例えば、ジェプソン型で記載されていた場合には、公知部分とされる「おいて書き」の記載についても同様の方法によりカウントする。このとき、「おいて書き」の記載のカウント方法が分からない場合には、ジェプソン型から構成要件列挙型に書き換えた上でカウントするようにしてもよい。ちなみに、このジェプソン型から構成要件列挙型への書き換え方法は、従来から周知である。
また、特許請求の範囲が書き流し型で記載されていた場合も同様の手法によりカウントすることができる。例えば、C−2)が書き流し型で記載されていた場合には、以下のC−4)のようになる。
C−4)「第1のレンズにより光束のスポット径を制御し、かかる光束を反射板により全反射し、〜」
この書き流し型で記載されたC−4)は、C−2)と比較して、「光束制御手段」並びに「反射手段」の文言が抜けている点が相違するが、それ以外は同一である。「光束制御手段」並びに「反射手段」は、主語であってこれをカウントの対象とせず、あくまでこの主語に係り受けする名詞句をカウントするため、書き流し型と構成要件列挙型との間で格成分数が異なることはない。
英文の特許明細書からの格成分抽出
本発明では、上述した格成分の理論に基づき、電子データ化された英文の特許明細書における特許請求の範囲の記載から格成分を抽出するものである。英文の特許明細書から格成分を抽出する際には、下記のプロセスに基づくものである。以下「カウント」と称しているものは、何れも格成分として抽出するという意味である。
先ず、電子データ化された英文の特許明細書における特許請求の範囲の記載から文字列を抽出する(以下、文字列抽出ステップという。)。
次にこの文字列抽出ステップにおいて抽出された文字列について形態素解析及び構文解析を行うことにより、格成分を抽出する処理を行う(以下、格成分抽出ステップという。)。この格成分抽出ステップでは、先ず英単語から名詞句を抽出する。ちなみに、この名詞句の抽出方法については、既存のあらゆる形態素解析技術及び構文解析技術を用いるようにしてもよい。
この名詞句の抽出方法の一例としては、文字列について形態素解析及び構文解析を行うことにより、英単語に分解する。この個々の英単語が名詞句を構成する場合もあるため、かかる場合には、そのような英単語を名詞句として抽出する。ちなみに、名詞句とは、文法的に句を構成する場合に限定されるものではなく、一つの英単語からなる名詞をも含む概念である。また、例えば"the data"のように、個々の名詞に加えて冠詞を含めてこれを名詞句として抽出するようにしてもよい。また、"the image data"や" an optical disc"のように、名詞+名詞等の包括化単語を名詞句として抽出するようにしてもよい。
ちなみに、この名詞句は、例えば、"light receiving areas"や" the management information writing means"のように動詞の進行形を含んでいる場合や、"a fixed range"のように過去分詞を含んでいる場合もあるが、これらも形態素解析技術及び構文解析技術を用いて名詞句として抽出する。
次に、この抽出した名詞句から更に格成分を抽出する。以下、この格成分の抽出例について説明をする。なお、名詞句の抽出の後に格成分の抽出を行う場合に限定されるものではなく、これらの工程を同時に行うようにしてもよい。
また、本発明を適用したプログラムでは、格成分を高精度に抽出することを目的としているが、それはあくまで抽出した文字列中にある格成分の数を正確に求めるために行っている。つまり、抽出した文字列中にある格成分の数を正確に求めることができるものであれば、" an optical disc"という名詞句があった場合に、これを格成分として"optical disc"として抽出しても、" an optical"と抽出してもよい。つまり文字列中にある格成分の数に誤りがなければ、抽出する個々の格成分について多少の誤差があってもよいものである。
(1)一の名詞句と他の名詞句の間にある前置詞に基づいて以下の判定を行う。
先ず、名詞句+前置詞+名詞句からなる文言から前置詞を識別(抽出)する。ここで前置詞としては、名詞間分離前置詞と、名詞間接続前置詞の2つを定義する。
名詞間分離前置詞は、以下の何れかである。
名詞間分離前置詞:
by,to,with,from,after,before,over,as,at,on,than,beyond,via,among,between,and,above,into, along, under,below,upside,down, through,around, across, upon, toward,within等。
名詞間接続前置詞は、以下のいずれかである。
名詞間接続前置詞:of,in,for,or。
但し、asやin は、名詞間接続前置詞に含めるようなシステム構成としてもよい。また、上述した各前置詞を名詞間分離前置詞に含めるか、名詞間接続前置詞に含めるかは、上述した分類に限定されるものではなく、プログラム上で任意に設定することも可能である。また、上述の分類に含まれていない前置詞については、基本的には名詞間分離前置詞に含めるが、名詞間接続前置詞に含めてもよいことは勿論である。
次に、一の名詞句と他の名詞句の間にある前置詞が、名詞間分離前置詞である場合には、一の名詞句と他の名詞句をそれぞれ異なる格成分として抽出する。
例えば、"the original on the light-receiving element array"とある場合には、名詞間分離前置詞"on"の前後にある名詞句the original、the light-receiving element arrayをそれぞれ異なる格成分として抽出する。同様に"a confined area by its short tail"については、名詞間分離前置詞byの前後にある名詞句"a confined area" 、"its short tail" をそれぞれ異なる格成分として抽出する。
一方、一の名詞句と他の名詞句の間にある前置詞が、名詞間接続前置詞である場合には、一の名詞句と他の名詞句をまとめて一つの格成分として抽出する。
例えば、"the transmission path of a microwave"の場合には、名詞間接続前置詞ofの前後にある名詞句the transmission path、a microwaveをまとめて一つの格成分"the transmission path of a microwave"として抽出する。
また、"the transmission path of a microwave in a direction"のように、名詞句+名詞間接続前置詞+名詞句+名詞間接続前置詞+名詞句からなる場合には、これらをまとめて1格成分として抽出する。
但し、動詞+in で英熟語を形成する場合には、これらをまとめて1格成分とするのではなく、前段の名詞句と後段の名詞句で区切り、それぞれ異なる格成分として抽出する。例えば"storage means included in the first control unit"の場合には、storage means と、the first control unitをそれぞれ異なる格成分として抽出する。また他の名詞間接続前置詞も同様であり、例えば"get rid of"等のような英熟語を形成する場合も同様である。
なお、一の名詞句と他の名詞句の間にある名詞間接続前置詞がin,forの何れかである場合であって、当該前置詞の直後に動詞の進行形又は過去分詞が続く場合には(例えば、for 〜ing ,in〜 ing, for 〜ed等)、一の名詞句と他の名詞句をそれぞれ異なる格成分として抽出するようにしてもよい。
例えば、"a supply part for loading the raw liquid"の場合には、a supply part とthe raw liquidをそれぞれ異なる格成分として抽出する。
なお、名詞間接続前置詞inの特例として、"in〜manner" の場合には、「〜というふうに」、という意味なので 名詞in名詞 であっても区切る。
(2)英熟語を構成する名詞については抽出すべき格成分から除外する。
例えば、in association with, in response toについては、その英熟語中に、associationやresponse等の単語が含まれ、名詞と解することもできるが、これらは、抽出すべき格成分から除外するように処理を行う。実際には、このような熟語を構成するものをデータベース上に登録しておき、抽出した文字列中にその登録した熟語が含まれているか否かを確認し、仮に含まれていた場合には、抽出すべき格成分から除外するような処理を行う。
(3)whenの直後に主語、動詞と続く場合のルール。
when+主語+動詞となっている場合には、これらをまとめて1格成分とする。例えば、"〜when the wiper arm is located"については、このwhen the wiper arm is locatedをまとめて1格成分とする。また、この後に" at a predetermined position"等、他の文言が続く場合には、それについては個別に格成分の有無を判断していくこととなる。例えば"when the wiper arm is located at a predetermined position and a relative position signal"については、それぞれ、"when the wiper arm is located"、" predetermined position"、" a relative position signal"をそれぞれ格成分として抽出する。同様に、"when the management information writing means writes updated management information to a page of the flash memory"については、when the management information writing means writesまでをまとめて1格成分、"updated management information"、" a page of the flash memory"それぞれを格成分として抽出する。
(4)主語のルール
抽出した文字列中に主語と、これに係り受けする動詞又は動名詞の関係が含まれていた場合であって、その主語に相当する文言が、その上段で既に記載されている場合には、当該主語に相当する文言を抽出すべき格成分から除外する。また、その主語に相当する文言が、その上段で未だ記載されていない場合には、当該主語に相当する文言を抽出すべき格成分に含めるように処理する。
例えば、that (which/ wherein)+主語+動詞の場合には、当該主語について上述したルールに基づいて判断を行う。
例えば、"・・・are lowered by the drive machine, wherein the drive machine is arranged a rotation axis"の場合には、主語としての"the drive machine"は既に前段において現れている。このため"the drive machine"については格成分から除外するように処理を行う。仮に、この主語としての"the drive machine"が、"a drive machine"等と記載され、これよりも上段に(これよりも以前に)同一の名詞句が記載されていない場合には、この"a drive machine"を格成分に含めるように処理を行う。
なお、この主語のルールでは、that (which/ wherein)+主語+動名詞の場合についても同様の処理動作を行うようにしてもよい。
実際に主語のルールに基づいた処理を行う場合には、以下の処理フローに基づくものであってもよい。
1)主語を先ず抽出する。
2)抽出した主語が、それより以前に記載されているかをソートして確認する。その結果、抽出した主語と100%一致するもの、或いはそれを一部含むものがあった場合、3)へ移行する。それ以外は、抽出した主語が初めて登場したものであるから、その抽出した主語を格成分として特定する。
3) 上記2)において3)に移行する場合に、いずれも格成分としてカウントしない。
即ち、抽出した文字列中に主語と動詞の関係が含まれているか否かをまず判断する。その結果、抽出した文字列中に主語と動詞の関係が含まれている場合には、その主語に相当する文言が、その上段で既に記載されているか否かを確認する。そしてその主語に相当する文言が、その上段で既に記載されている場合には、当該主語に相当する文言を抽出すべき格成分から除外し、その主語に相当する文言が、その上段で未だ記載されていない場合には、新たに登場したものであるから、当該主語に相当する文言を抽出すべき格成分に含める。
これにより主語が多い特許請求の範囲の記載において、主語の数が多いほど格成分が多くなるという不合理を解消することが可能となる。
(5)二重定義のルール
二重定義のルールでは、以下の処理動作を行う。
1) 受動態からなる動詞を順次抽出する。この受動態からなる動詞が二重定義になっている可能性があるためである。
2)抽出した受動態からなる動詞の能動態(不定詞を含む)、進行形、受動態の何れかが、その上段で既に定義されているか識別を行う。
3)当該動詞の能動態、進行形、受動態の何れかが既に定義されていた旨を識別した場合には、識別した動詞の能動態、進行形、受動態の何れかに係り受けする名詞句を特定し、又は識別した動詞の能動態、進行形、受動態の何れかが係り受けする主体を示す名詞句を特定する。
4)上記特定した名詞句と、当該抽出した受動態からなる動詞にby 又はinを介して係り受けする名詞句とが少なくとも一部が同一であるか否か判断する。
5) 4)においてこれらが少なくとも一部が同一であるものと判断した場合、当該抽出した受動態からなる動詞に係り受けする名詞句を抽出すべき格成分から除外する処理を行う。一方、4)においてこれらが少なくとも一部が同一でないものと判断した場合、当該抽出した受動態からなる動詞に係り受けする名詞句を抽出すべき格成分に含める処理を行う。
上述の処理動作を具体例を示しながら説明をする。
例えば、"a graphic memory for storing the image data;
a control circuit for managing the image data stored in said graphic memory,"
は、日本語でいうところの「イメージデータを蓄積する画像メモリと、上記画像メモリに蓄積されたイメージデータを制御する制御回路と、」である。
ここで「上記画像メモリに蓄積された」は、既に上段で実現されている命題に対応した動作である。このため、これらも格成分として抽出してしまうと、上段との間で同一の命題に対応した二重に抽出してしまうこととなる。このため、この「上記画像メモリに蓄積された」は、抽出すべき格成分から除外する。
これらの処理を英語のクレームにおいても同様に実行する。
先ず、1)において、受動態からなる動詞"stored"を順次抽出する。次に2)において、抽出した受動態からなる動詞の能動態、進行形、受動態の何れかがその上段に記載されているか否か識別する。上述した例では、storeの進行形であるstoringが記載されていることを識別することとなる。
次に3)に移行し、storeの進行形であるstoringが記載されていたことから、これに係り受けする名詞句を特定し、又は識別した動詞の能動態、進行形、受動態の何れかが係り受けする主体を示す名詞句を特定する。上述した例では、"a graphic memory"、"the image data"を特定する。
次に4)に移行し、特定した名詞句"a graphic memory"、"the image data"と、当該抽出した受動態からなる動詞"stored"にby 又はinを介して係り受けする名詞句“said graphic memory"とが少なくとも一部が同一であるか否か判断する。この例では、"graphic memory"が少なくとも一部が同一であるものと判断される。
次に5)に移行し、4)において少なくとも一部が同一であるものと判断した場合であることから、当該抽出した受動態からなる動詞に係り受けする名詞句“said graphic memory"を抽出すべき格成分から除外する処理を行う。
一方、4)においてこれらが少なくとも一部すら同一でないものと判断した場合、当該抽出した受動態からなる動詞に係り受けする名詞句を抽出すべき格成分に含める処理を行う。
これに対して、2)においてstoreの能動態、進行形、受動態の何れかが記載されていない場合、或いは4)において"stored"にby 又はinを介して係り受けする名詞句“said graphic memory"と少なくとも一部が同一する名詞句が無い場合には、当該抽出した受動態からなる動詞に係り受けする名詞句“said graphic memory"を抽出すべき格成分に含める処理を行う。
下記の請求項の記載について二重定義のルールに基づいて処理を行う際には、storedの能動態であるstoreを抽出し、stored in の後に続くthe memory unitが、memory unit operableと少なくとも一部が同一であるから、stored in の後に続くthe memory unitを抽出すべき格成分から除外する。
"a memory unit operable to store a program composed of a plurality of instructions; and a processor operable to fetch each instruction in turn from the program stored in the memory unit,"
なお、上述した1)〜5)のプロセスは必ずしもこの順序で行う場合に限定されるものではなく、一部順序を入れ替え、又は一部のプロセスを同時に行うようにしてもよいことは勿論である。
(6)発明の名称とみなしたものの取扱い
文字列中の先頭にある名詞句を発明の名称として特定し、特定した発明の名称、並びに、the又はsaid +(発明の名称)+comprisingからなる文言を、抽出すべき格成分から除外する。
例えば、"A data transfer device for transferring the image data input from an image processing device to an electronic device, said data transfer device comprising"と冒頭から記載されていた場合には、"A data transfer device"を発明の名称として特定する。そして、この発明の名称を抽出すべき格成分から除外する。同様に下線部におけるsaid +(発明の名称)+comprisingからなる文言の発明の名称に相当する"data transfer device"についても同様に抽出すべき格成分から除外する。なお、下線部が"said device comprising"のように発明の名称と一部一致する文言が記載されている場合においても、同様にこれを抽出すべき格成分から除外する。
(7)使役動詞について
使役動詞に続く、第1の名詞句と、上記第1の名詞句に続く動詞の原形と、上記動詞の原形に続く第2の名詞句がある場合、特定した第1の名詞句と第2の名詞句をそれぞれ異なる格成分として抽出する。
例えば、"have the processor generate an operation value"と記載されていた場合には、第1の名詞句"the processor"、第2の名詞句"an operation value"をそれぞれ異なる格成分として抽出する。
(8)その他
名詞/名詞句の後に「to be 受身動詞」、で終わっている場合には、「to be 受身動詞」は、抽出すべき格成分に含めない。"an image file to be printed"は、an image fileを格成分とし、"to be printed"を格成分に含めない。
また、temporarily等のように、副詞は格成分に含めない。副詞は、終端が(〜ly )で終わる場合が多いが、これをテキストマイニング技術を利用して抽出することで副詞を判別するようにしてもよい。
また、「以下」の表示"equal to or lower than"、「以上」の表示"equal to or fewer than"は、独立して格成分として抽出しない。
また、「互いに」を表すeach other は格成分としてカウントしない。
代名詞も名詞であることから格成分になり得る。"transmitting it to said electronic device"は、格成分として、"it","said electronic device"を抽出する。
また、各センテンスの冒頭に位置する名詞句も格成分になりえる。例えば、以下の請求項の記載があるものとする。
"A plasma display panel, comprising:
an image display area made up of cells emitting light by a discharge;
a plurality of first electrodes extending in a first direction and disposed at intervals on the first plate;
a first dielectric layer provided on the first plate and covering the display area of the first electrodes;
a plurality of second electrodes extending in a second direction orthogonal to the first direction and disposed at intervals on the first dielectric layer; and
a seal material disposed in a shape of a frame, in order to adhere the second plate to the first plate, at a position more inside than an edge part of the first dielectric layer on an outer surround part of the display area on the second plate"
これについても、各センテンスの冒頭に位置する名詞句(下線部参照)を名詞句として抽出し、上述した格成分としての適格を満たすものであれば、これらも格成分として抽出する。
本発明の実施方法
本発明を実施する上で、パーソナルコンピュータ(PC)を利用し、これに読み込まれたプログラムに基づいて行う。
先ず、電子データ化された英文の特許明細書の記載から、電子データ化された特許明細書における特定の欄(特許請求の範囲の記載)に記載されている文字列を抽出する。また、この特定の欄とは、特許請求の範囲の1請求項分に相当する。
次に、抽出した文字列から上述したルールに基づいて格成分を抽出する。この抽出した格成分に基づいて格成分数を求めるようにしてもよい。格成分数とは、1請求項における格成分の数を意味している。メインクレームの場合は、そのメインクレームが定義されている請求項から抽出した文字列からそのまま格成分数をカウントすればよいが、サブクレームの場合には、そのサブクレームが定義されている請求項から抽出した文字列からそのまま格成分数をカウントするとともに、当該サブクレームが従属するメインの請求項の格成分数をこれに加算する。
そして、カウントされた格成分数を、発明の限定度合いとして例えばディスプレイ等を介して表示する。
また、本発明は、上述した分析を行うプログラムがインストールされたPC等のような装置として具体化されていてもよいし、これらをPCに実行させるためのプログラム、又はこれが記録された記録媒体として具体化されていてもよい。
また、本発明は、ネットワークシステムにおいて適用されるようにしてもよい。先ず、サーバー側において、特許明細書について格成分数を予め数値化したデータをサーバーに記憶させておく。そして、クライアント側から、所望の特許について格成分数の送信要求があった場合、当該特許の格成分数をサーバーから読み出し、これをネットワークを介してクライアント側に送るようにしてもよい。
また、クライアント側から送信要求のあった特許について未だ格成分数が求められていない場合には、サーバーは当該要求を受けた特許について格成分数をカウントし、これをネットワークを介してクライアント側に送るようにしてもよい。
格成分の抽出においては既存のあらゆるテキストマイニング技術、データマイニング技術、言語解析処理技術等を用いるようにしてもよい。そして、これらの技術を利用し、上述したルールに基づいて、分析対象の各文字列について、格成分に相当するか否かを判断し、最終的に1請求項分の格成分を特定する。そして、この特定した格成分の1請求項分の総数を求め、これを当該請求項の格成分数として出力する。
なお、本発明では、単に請求項毎の格成分数を出力するのみならず、この出力したデータを、パテントマップやグラフ、その他の評価値等、あらゆる情報に付加するようにしてもよい。
また、本発明では、請求項毎に特定した格成分を、画面上に表示し、又は印刷し、或いはデータ化するようにしてもよい。つまり、以下の実施例に示すように、請求項について特定した格成分を視覚的に把握可能なように下線やハイライト表示等を行うようにしてもよい。
ちなみに、上述した格成分数の代替として、格成分数に基づく評価値を求め、これを出力又は記憶、送信するようにしてもよい。
なお、本発明は、英文の特許明細書の特許請求の範囲の記載の格成分抽出に限定されるものではなく、他のいかなる英文の書類についても同様の方法に基づいて格成分を抽出する際にも適用することができる。





Claims (9)

  1. 電子データ化された英文の特許明細書における特許請求の範囲の記載から文字列を抽出する文字列抽出ステップと、
    上記文字列抽出ステップにおいて抽出された文字列について形態素解析及び構文解析を行うことにより、英単語から名詞句を抽出し、抽出した名詞句から格成分を抽出する格成分抽出ステップとを有し、
    上記格成分抽出ステップでは、一の名詞句と他の名詞句の間にある前置詞がby,to,with,from,after,before,over,as,at,on,than,beyond,via,among,between,and,above,into,along,under,below,upside,down,through,around,across,upon,toward,withinの何れかである場合には、一の名詞句と他の名詞句をそれぞれ異なる格成分として抽出し、
    上記前置詞がof,in,for,orの何れかである場合には、一の名詞句と他の名詞句をまとめて一つの格成分として抽出すること
    をコンピュータに実行させることを特徴とする英文の特許明細書からの格成分抽出プログラム。
  2. 電子データ化された英文の特許明細書における特許請求の範囲の記載から文字列を抽出する文字列抽出ステップと、
    上記文字列抽出ステップにおいて抽出された文字列について形態素解析及び構文解析を行うことにより、英単語から名詞句を抽出し、抽出した名詞句から格成分を抽出する格成分抽出ステップとを有し、
    上記格成分抽出ステップでは、一の名詞句と他の名詞句の間にある前置詞がin,forの何れかである場合であって、当該前置詞の直後に動詞の進行形又は過去分詞が続く場合には、一の名詞句と他の名詞句をそれぞれ異なる格成分として抽出すること
    をコンピュータに実行させることを特徴とする英文の特許明細書からの格成分抽出プログラム。
  3. 電子データ化された英文の特許明細書における特許請求の範囲の記載から文字列を抽出する文字列抽出ステップと、
    上記文字列抽出ステップにおいて抽出された文字列について形態素解析及び構文解析を行うことにより、英単語から名詞句を抽出し、抽出した名詞句から格成分を抽出する格成分抽出ステップとを有し、
    上記格成分抽出ステップでは、英熟語を構成する名詞については抽出すべき格成分から除外すること
    をコンピュータに実行させることを特徴とする英文の特許明細書からの格成分抽出プログラム。
  4. 電子データ化された英文の特許明細書における特許請求の範囲の記載から文字列を抽出する文字列抽出ステップと、
    上記文字列抽出ステップにおいて抽出された文字列について形態素解析及び構文解析を行うことにより、英単語から名詞句を抽出し、抽出した名詞句から格成分を抽出する格成分抽出ステップとを有し、
    上記格成分抽出ステップでは、whenの直後に主語、動詞と続く場合にこれらをまとめて1つの格成分として抽出すること
    をコンピュータに実行させることを特徴とする英文の特許明細書からの格成分抽出プログラム。
  5. 電子データ化された英文の特許明細書における特許請求の範囲の記載から文字列を抽出する文字列抽出ステップと、
    上記文字列抽出ステップにおいて抽出された文字列について形態素解析及び構文解析を行うことにより、英単語から名詞句を抽出し、抽出した名詞句から格成分を抽出する格成分抽出ステップとを有し、
    上記格成分抽出ステップでは、抽出した文字列中に主語と、これに係り受けする動詞又は動名詞の関係が含まれていた場合であって、その主語に相当する文言が、その上段で既に記載されている場合には、当該主語に相当する文言を抽出すべき格成分から除外し、その主語に相当する文言が、その上段で未だ記載されていない場合には、当該主語に相当する文言を抽出すべき格成分に含めるように処理すること
    をコンピュータに実行させることを特徴とする英文の特許明細書からの格成分抽出プログラム。
  6. 電子データ化された英文の特許明細書における特許請求の範囲の記載から文字列を抽出する文字列抽出ステップと、
    上記文字列抽出ステップにおいて抽出された文字列について形態素解析及び構文解析を行うことにより、英単語から名詞句を抽出し、抽出した名詞句から格成分を抽出する格成分抽出ステップとを有し、
    上記格成分抽出ステップでは、受動態からなる動詞を順次抽出し、抽出した受動態からなる動詞の能動態、進行形、受動態の何れかが、その上段で既に記載されているか識別を行い、
    当該動詞の能動態、進行形、受動態の何れかが既に定義されていた旨を識別した場合には、識別した動詞の能動態、進行形、受動態の何れかに係り受けする名詞句を特定し、又は識別した動詞の能動態、進行形、受動態の何れかが係り受けする主体を示す名詞句を特定し、上記特定した名詞句と、当該抽出した受動態からなる動詞にby又はinを介して係り受けする名詞句とが少なくとも一部が同一である場合には、当該抽出した受動態からなる動詞に係り受けする名詞句を抽出すべき格成分から除外すること
    をコンピュータに実行させることを特徴とする英文の特許明細書からの格成分抽出プログラム。
  7. 電子データ化された英文の特許明細書における特許請求の範囲の記載から文字列を抽出する文字列抽出ステップと、
    上記文字列抽出ステップにおいて抽出された文字列について形態素解析及び構文解析を行うことにより、英単語から名詞句を抽出し、抽出した名詞句から格成分を抽出する格成分抽出ステップとを有し、
    上記格成分抽出ステップでは、 文字列中の先頭にある名詞句を発明の名称として特定し、特定した発明の名称、並びに、the又はsaid+(発明の名称又はこれと一部一致する文言)+comprisingからなる文言を、抽出すべき格成分から除外すること
    をコンピュータに実行させることを特徴とする英文の特許明細書からの格成分抽出プログラム。
  8. 電子データ化された英文の特許明細書における特許請求の範囲の記載から文字列を抽出する文字列抽出ステップと、
    上記文字列抽出ステップにおいて抽出された文字列について形態素解析及び構文解析を行うことにより、英単語から名詞句を抽出し、抽出した名詞句から格成分を抽出する格成分抽出ステップとを有し、
    上記格成分抽出ステップでは、使役動詞に続く、第1の名詞句と、上記第1の名詞句に続く動詞の原形と、上記動詞の原形に続く第2の名詞句を特定し、上記特定した第1の名詞句と第2の名詞句をそれぞれ異なる格成分として抽出すること
    をコンピュータに実行させることを特徴とする英文の特許明細書からの格成分抽出プログラム。
  9. 上記格成分抽出ステップでは、抽出した格成分の数をカウントしてこれを出力又は記憶し、又は格成分の数に基づく評価値を出力又は記憶すること
    をコンピュータに実行させることを特徴とする請求項1〜8のうち何れか1項記載の英文の特許明細書からの格成分抽出プログラム。
JP2013100827A 2013-05-13 2013-05-13 英文の特許明細書からの格成分抽出プログラム Active JP6366902B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013100827A JP6366902B2 (ja) 2013-05-13 2013-05-13 英文の特許明細書からの格成分抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013100827A JP6366902B2 (ja) 2013-05-13 2013-05-13 英文の特許明細書からの格成分抽出プログラム

Publications (2)

Publication Number Publication Date
JP2014222371A JP2014222371A (ja) 2014-11-27
JP6366902B2 true JP6366902B2 (ja) 2018-08-01

Family

ID=52121877

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013100827A Active JP6366902B2 (ja) 2013-05-13 2013-05-13 英文の特許明細書からの格成分抽出プログラム

Country Status (1)

Country Link
JP (1) JP6366902B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201828104A (zh) * 2017-01-26 2018-08-01 雲拓科技有限公司 申請專利範圍之解析紀錄方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4102897B2 (ja) * 2002-08-14 2008-06-18 正敏 渋谷 特許明細書デバッグツールおよび特許明細書デバッグツールプログラム
US7823061B2 (en) * 2004-05-20 2010-10-26 Wizpatent Pte Ltd System and method for text segmentation and display
JP5159410B2 (ja) * 2008-04-21 2013-03-06 元 安彦 特許明細書分析表示装置
JP2011257817A (ja) * 2010-06-04 2011-12-22 Kenichiro Ayaki 特許明細書分析装置、及び文章分析装置。
JP5361099B2 (ja) * 2012-11-20 2013-12-04 技術経営ソリューション株式会社 特許明細書分析表示装置

Also Published As

Publication number Publication date
JP2014222371A (ja) 2014-11-27

Similar Documents

Publication Publication Date Title
US20190171692A1 (en) Adapting tabular data for narration
US11308278B2 (en) Predicting style breaches within textual content
JP7296419B2 (ja) 品質評価モデルを構築するための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
US7895030B2 (en) Visualization method for machine translation
US11562135B2 (en) Constructing conclusive answers for autonomous agents
US7801721B2 (en) Displaying original text in a user interface with translated text
CN109117479A (zh) 一种金融文档智能核查方法、装置及存储介质
US20130061139A1 (en) Server-based spell checking on a user device
US9141601B2 (en) Learning device, determination device, learning method, determination method, and computer program product
US20130097191A1 (en) Displaying logical statement relationships between diverse documents in a research domain
US20210073257A1 (en) Logical document structure identification
US20130060560A1 (en) Server-based spell checking
Dorr et al. Machine translation evaluation and optimization
US20210191964A1 (en) Method, apparatus, and computer-readable medium for generating headlines
Coavoux et al. Unlexicalized transition-based discontinuous constituency parsing
US11928437B2 (en) Machine reading between the lines
US11074413B2 (en) Context-sensitive salient keyword unit surfacing for multi-language survey comments
Dickinson et al. Dependency annotation for learner corpora
Vandeghinste et al. Improving the translation environment for professional translators
JP6366902B2 (ja) 英文の特許明細書からの格成分抽出プログラム
Wisniewski et al. Oracle decoding as a new way to analyze phrase-based machine translation
JP2021140282A (ja) 英文の特許明細書からの格成分抽出プログラム
Başıbüyük et al. Usage disambiguation of Turkish discourse connectives
JP6206874B2 (ja) 格成分抽出プログラム
JP6006051B2 (ja) 格成分抽出プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170706

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180416

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20180424

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180703

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180704

R150 Certificate of patent or registration of utility model

Ref document number: 6366902

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250