JP5311319B1 - Case component extraction program - Google Patents
Case component extraction program Download PDFInfo
- Publication number
- JP5311319B1 JP5311319B1 JP2012244378A JP2012244378A JP5311319B1 JP 5311319 B1 JP5311319 B1 JP 5311319B1 JP 2012244378 A JP2012244378 A JP 2012244378A JP 2012244378 A JP2012244378 A JP 2012244378A JP 5311319 B1 JP5311319 B1 JP 5311319B1
- Authority
- JP
- Japan
- Prior art keywords
- noun
- case
- case component
- extracted
- component extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】抽出した文字列の中から格成分を高精度に抽出する。
【解決手段】電子データ化された特許明細書における特許請求の範囲の記載から文字列を抽出し、上記文字列中から少なくとも発明の名称を抽出する前処理ステップと、上記前処理ステップにおいて処理された文字列について形態素解析及び構文解析を行うことにより、これらを単語に分解した上で、所定の文字列を一単語とする単語包括化ステップと、上記単語包括化ステップを経た単語を含む上記文字列から名詞句を抽出する名詞句抽出ステップと、上記名詞句抽出ステップにおいて、上記抽出した名詞句のうち、上記発明の名称と同一の名詞句を除く名詞句のうち所定のルールに適合するものを格成分として抽出する格成分抽出ステップとをコンピュータに実行させる。
【選択図】図1Case components are extracted from extracted character strings with high accuracy.
A character string is extracted from the description of the claims in the patent specification converted into electronic data, and at least a name of the invention is extracted from the character string, and processed in the preprocessing step. A character inclusion step in which a predetermined character string is defined as one word after performing morphological analysis and syntax analysis on the obtained character string, and the character including the word that has undergone the word inclusion step A noun phrase extraction step for extracting a noun phrase from a column, and a noun phrase excluding the same noun phrase as the name of the invention among the extracted noun phrases in the noun phrase extraction step; And a case component extraction step of extracting as a case component.
[Selection] Figure 1
Description
本発明は、特許明細書等を始めとした電子データ化された文書に記載された文字列から格成分を抽出する格成分抽出プログラムに関する。 The present invention relates to a case component extraction program for extracting a case component from a character string described in an electronic data document such as a patent specification.
従来、短時間で特許明細書のチェックを行うことを目的とするものであって、特に、クレーム数を極力小さく抑える場合においても、かかる中間概念の記載を含めてより簡単に、かつ権利範囲や特許率をも考慮してチェックすることができる特許明細書分析表示装置が提案されている(例えば、特許文献1参照。)。この特許明細書分析表示装置では、明細書の記載の方向性そのものを中間概念をも含めて容易にチェックすることができる利点がある。 Conventionally, the purpose is to check a patent specification in a short time.Especially, even when the number of claims is kept as small as possible, including the description of the intermediate concept, the scope of rights, Patent specification analysis display devices that can be checked in consideration of the patent rate have been proposed (see, for example, Patent Document 1). This patent specification analysis display device has an advantage that the directionality described in the specification itself can be easily checked including intermediate concepts.
しかしながら、この特許文献1の開示技術では、特許請求の範囲において定義された発明概念の広さ、換言すれば技術的範囲の広さに着目した分析を行うことができなという問題点があった。 However, the disclosed technique of Patent Document 1 has a problem in that it is not possible to perform an analysis focusing on the breadth of the inventive concept defined in the claims, in other words, the breadth of the technical scope. .
このため、特許明細書における特許請求の範囲に定義された発明の限定度合をカウントして表示することが可能な特許明細書分析表示装置が特許文献2に開示されている。この特許文献2の開示技術によれば、特許発明の技術的範囲の広さを定量化、数値化するための数値化方法における最小抽出単位として、新たに格成分という概念を採用している。この格成分の数(格成分数)とは、特許発明の技術的範囲の広さと最も相関性が最も高いとされる定量的指標である。格成分数は、特許請求の範囲の記載において各構成要素につきどれだけ限定がかけられているかを数値化したものである。格成分数は、特許請求の範囲に定義されている動詞に係り受けする名詞(名詞句を含む)のうち、動詞による命題を実現するために必要な要素のみをカウントして数値化するものである。 For this reason, Patent Document 2 discloses a patent specification analysis display device capable of counting and displaying the degree of limitation of the invention defined in the claims of the patent specification. According to the technology disclosed in Patent Document 2, the concept of a case component is newly adopted as a minimum extraction unit in a numerical method for quantifying and quantifying the breadth of the technical scope of the patented invention. The number of case components (number of case components) is a quantitative index that has the highest correlation with the breadth of the technical scope of the patented invention. The number of case components is obtained by quantifying how much the constituent elements are limited in the description of the claims. The number of case components counts and counts only the elements necessary to realize the verb proposition among the nouns (including noun phrases) that depend on the verb defined in the claims. is there.
しかしながら、この特許文献2の開示技術では、実際に特許請求の範囲から格成分数を抽出する上で実用化に適したアルゴリズムとされていないため、格成分抽出のフローが非常に複雑化し、抽出効率が悪化してしまうという問題点があった。 However, since the disclosed technique of Patent Document 2 is not an algorithm suitable for practical use in actually extracting the number of case components from the claims, the case component extraction flow becomes very complicated, There was a problem that efficiency would deteriorate.
そこで、本発明は、上述した問題点に鑑みて案出されたものであり、その目的とするところは、実際に特許請求の範囲から格成分数を抽出する上でよりアルゴリズムが最適化され、抽出効率を向上させることが可能な格成分抽出プログラムを提供することにある。 Therefore, the present invention has been devised in view of the above-mentioned problems, and the purpose thereof is to optimize the algorithm more in actually extracting the number of case components from the claims, The object is to provide a case component extraction program capable of improving the extraction efficiency.
請求項1記載の格成分抽出プログラムは、電子データ化された特許明細書における特許請求の範囲の記載から文字列を抽出し、上記文字列中の「〜を特徴とする」に続き文末までの文言、又は当該文字列中の文末から逆向きへ句読点或いは名詞以外の単語が出現するまでの文言、を発明の名称としてこれを抽出する前処理ステップと、上記前処理ステップにおいて処理された文字列について形態素解析及び構文解析を行うことにより、これらを単語に分解した上で、名詞+名詞・名詞+「の」+名詞・名詞+「のうち」+名詞・名詞+「的・自在・可能」・名詞+「とする」・名詞+「により・によって」・少なくとも」+数量表現・名詞+「する・できる・させる・される」の何れかを一単語としてまとめ、又は「前記」・「上記」・「該」・「当該」・連体詞の何れかを後続の単語と一単語としてまとめ、又は名詞+「の」+「形容詞」+名詞・名詞+「とする・に係る・に関する・における・となる・である」の何れかを一単語としてまとめ、又は「略」・「若干」・「順次」の何れか+名詞を一単語としてまとめる単語包括化ステップと、上記単語包括化ステップを経た単語を含む上記文字列から名詞句を抽出する名詞句抽出ステップと、上記名詞句抽出ステップにおいて、上記抽出した名詞句のうち、上記発明の名称と同一の名詞句を除く名詞句を少なくとも格成分として抽出する格成分抽出ステップとをコンピュータに実行させることを特徴とする。 The case component extraction program according to claim 1 extracts a character string from the description of the scope of claims in the patent specification converted into electronic data, and continues to the end of the sentence following “characteristic of” in the character string. A preprocessing step for extracting the wording, or a wording until a word other than a punctuation mark or noun appears backward from the end of the character string, and the character string processed in the preprocessing step. After morphological analysis and syntactic analysis of, the nouns + nouns and nouns + "no" + nouns and nouns + "no" + nouns and nouns + "target, free and possible"・ Noun + “To” ・ Noun + “By” ・ At least ”+ Quantitative expression ・ Noun +“ Yes ”・“ Yes ”・“ Yes ” ""・ "Any" or "no" + "no" + "adjective" + noun or "noun +" to be related to ”As a single word or“ abbreviation ”,“ slightly ”,“ sequential ”plus a noun as a single word, and the above character including the word after the word inclusion step and noun phrase extracting noun phrases from the column, in the noun phrase extraction step, out of the noun phrase that the extracted, rated component to be extracted at least as rated component noun phrases excluding same noun phrase and the name of the invention The extraction step is executed by a computer.
請求項2記載の格成分抽出プログラムは、請求項1記載の発明において、上記前処理ステップでは、上記文字列について、上記発明の名称と同一の文言を所定の文言に置き換え、上記格成分抽出ステップでは、上記置き換えた所定の文言を抽出すべき格成分から除外することをコンピュータに実行させることを特徴とする。 The case component extraction program according to claim 2 is the invention according to claim 1, wherein in the pre-processing step, the same word as the name of the invention is replaced with a predetermined word for the character string, and the case component extraction step is performed. Then, it is characterized in that the computer executes to exclude the replaced predetermined word from the case components to be extracted.
請求項3記載の格成分抽出プログラムは、請求項1又は2記載の発明において、上記格成分抽出ステップでは、A、Bをそれぞれ名詞句としたときに、AとBが択一的に定義されていた場合には、A、Bの何れか一方を抽出すべき格成分から除外することをコンピュータに実行させることを特徴とする。 The case component extraction program according to claim 3 is the invention according to claim 1 or 2, wherein in the case component extraction step, A and B are alternatively defined when A and B are respectively noun phrases. In such a case, the computer is caused to exclude one of A and B from the case components to be extracted.
請求項4記載の格成分抽出プログラムは、請求項1〜3のうち何れか1項記載の発明において、上記格成分抽出ステップでは、名詞+並列助詞(「か」、「や」の何れか)からなる文言を、抽出すべき格成分から除外することをコンピュータに実行させることを特徴とする。 The case component extraction program according to claim 4 is the invention according to any one of claims 1 to 3, wherein in the case component extraction step, noun + parallel particle ("ka" or "ya") The computer is made to exclude the wording which consists of from the case component which should be extracted.
請求項5記載の格成分抽出プログラムは、請求項1〜4のうち何れか1項記載の発明において、上記格成分抽出ステップでは、抽出した文字列中に「〜が」、「〜は」、「〜には」、「〜も」の何れかで定義される主語と、これに係り受けする動詞の関係が含まれていた場合であって、その主語に相当する文言が、その上段で既に記載されている場合には、当該主語に相当する文言を抽出すべき格成分から除外し、その主語に相当する文言が、その上段で未だ記載されていない場合には、当該主語に相当する文言を抽出すべき格成分に含めるように処理することをコンピュータに実行させることを特徴とする。 The case component extraction program according to claim 5 is the invention according to any one of claims 1 to 4, wherein in the case component extraction step, “˜ga”, “˜ha”, In the case where a relation between a subject defined by either “to” or “to” and a verb related to the subject is included, the word corresponding to the subject is already in the upper row. If it is described, the word corresponding to the subject is excluded from the case components to be extracted, and if the word corresponding to the subject is not yet described in the upper row, the word corresponding to the subject The computer is caused to perform processing so as to be included in the case component to be extracted.
請求項6記載の格成分抽出プログラムは、請求項1〜5のうち何れか1項記載の発明において、上記格成分抽出ステップは、動詞を順次抽出し、抽出した動詞が、その上段に記載されているか識別を行う識別工程と、上記識別工程における識別の結果、当該抽出した動詞が、その上段で既に記載されていた旨を識別した場合には、当該識別した動詞に係り受けする名詞句、並びにその上段で既に記載されている動詞が係り受けする主体を示す名詞句を特定する特定工程と、上記特定工程において特定した名詞句と、当該抽出した動詞に係り受けする名詞句との間で同一性を判定する同一性判定工程と、当該抽出した動詞に係り受けする名詞句のうち、上記同一性判定工程において同一と判定されたものについては、これを抽出すべき格成分から除外する除外工程とを有することをコンピュータに実行させることを特徴とする。 The case component extraction program according to claim 6 is the invention according to any one of claims 1 to 5, wherein the case component extraction step sequentially extracts verbs, and the extracted verbs are described in the upper stage. an identification step for identifying whether the above identification of the discrimination in step result, verbs and the extraction, when identifying the effect that already described in its upper part, a noun phrase to be received relates to verbs the identification , And a specifying step for identifying a noun phrase indicating a subject on which a verb already described in the upper part is modified, a noun phrase identified in the identifying step, and a noun phrase depending on the extracted verb Of the noun phrases that depend on the extracted verb and the noun phrase that depends on the extracted verb, those that are determined to be the same in the identity determination step are the case components to be extracted. Characterized in that to execute to have a exclusion exclusion process on the computer.
請求項7記載の格成分抽出プログラムは、請求項1〜6のうち何れか1項記載の発明において、上記格成分抽出ステップでは、上記前処理ステップにおいて発明の名称とみなした文言が「方法」を含むものである場合、「〜ステップと(を)」、「〜段階と(を)」、「〜工程と(を)」、「機能と(を)」、「〜過程と(を)」、「〜処理と(を)」を抽出してこれらを抽出すべき格成分から除外し、或いは、「、」+「ステップ・段階・工程・機能・過程・処理」+「として」を抽出してこれを抽出すべき格成分から除外することをコンピュータに実行させることを特徴とする。 The case component extraction program according to claim 7 is the method according to any one of claims 1 to 6, wherein in the case component extraction step, the wording regarded as the name of the invention in the preprocessing step is “method”. , "~ Step and (O)", "~ Step and (O)", "~ Process and (O)", "Function and (O)", "~ Process and (O)", " ~ "Processing ()""is extracted and excluded from the case components to be extracted , or", "+" Step / stage / process / function / process / process "+" as "is extracted and this is extracted. Is excluded from the case components to be extracted.
請求項8記載の格成分抽出プログラムは、請求項1〜7のうち何れか1項記載の発明において、上記格成分抽出ステップでは、名詞として抽出される「いずれか」又は「何れか」を抽出すべき格成分から除外するとともに、当該「いずれか」又は「何れか」に直接係り受けする文言が複数存在する場合には、そのうち先行する名詞句について抽出すべき格成分から除外することをコンピュータに実行させることを特徴とする。 The case component extraction program according to claim 8 extracts “any” or “any” extracted as a noun in the case component extraction step in the invention according to any one of claims 1 to 7. When there are a plurality of words that are directly related to “any” or “any”, it is excluded from the case components to be extracted for the preceding noun phrase. It is made to perform.
請求項9記載の格成分抽出プログラムは、請求項1〜8のうち何れか1項記載の発明において、上記格成分抽出ステップでは、名詞+「的・自在・可能・不能・不可・よう」+(「な」・「に」・「の」・「と」)を含む名詞句、又はこれらの名詞句に平仮名が追加された文言を抽出すべき格成分から除外することをコンピュータに実行させることを特徴とする。 The case component extraction program according to claim 9 is the invention according to any one of claims 1 to 8, wherein in the case component extraction step, the noun + “target / free / possible / impossible / impossible / yo” + (1) causing a computer to exclude noun phrases including ("na", "ni", "no", "to") or words with hiragana added to these noun phrases from the case components to be extracted. It is characterized by.
請求項10記載の格成分抽出プログラムは、請求項1〜9のうち何れか1項記載の発明において、上記格成分抽出ステップでは、抽出した格成分の数をカウントしてこれを出力又は記憶し、又は格成分の数(以下、CNという。)を下記計算式に基づく評価値として出力又は記憶することをコンピュータに実行させることを特徴とする。
評価値={α−log(CN+β)}×γ
ここでα=3〜8
β=15〜25
γ=15〜40
The case component extraction program according to claim 10 is the invention according to any one of claims 1 to 9, wherein in the case component extraction step, the number of extracted case components is counted and output or stored. Or the number of case components (hereinafter referred to as CN) is output or stored as an evaluation value based on the following calculation formula.
Evaluation value = {α-log (CN + β)} × γ
Where α = 3-8
β = 15-25
γ = 15-40
請求項11記載の格成分抽出プログラムは、請求項1〜10のうち何れか1項記載の発明において、上記格成分抽出ステップでは、「名詞又は名詞句」+「A」+「名詞又は名詞句」からなる文言を抽出した場合において、A=「までの」、「への」、「との」、「にて」、「や」の何れかの場合には、この「A」によって隔てられる個々の「名詞又は名詞句」を別々に格成分として抽出することをコンピュータに実行させることを特徴とする。 The case component extraction program according to claim 11 is the invention according to any one of claims 1 to 10, wherein in the case component extraction step, “noun or noun phrase” + “A” + “noun or noun phrase” In the case where A = “up to”, “to”, “to no”, “to”, “ya”, or “ya”, the words are separated by this “A”. It is characterized by causing a computer to extract individual “nouns or noun phrases” separately as case components.
請求項12記載の格成分抽出プログラムは、請求項1〜11のうち何れか1項記載の発明において、上記格成分抽出ステップでは、「これ」、「それ」、「あれ」、「どれ」、「ここ」、「そこ」、「あそこ」、「どこ」の何れかからなる代名詞を抽出すべき格成分に含めることをコンピュータに実行させることを特徴とする。 The case component extraction program according to claim 12 is the invention according to any one of claims 1 to 11, wherein in the case component extraction step, “this”, “it”, “that”, “which”, The computer is caused to include a pronoun consisting of any one of “here”, “there”, “over there”, and “where” in the case component to be extracted.
請求項13記載の格成分抽出プログラムは、請求項1〜12のうち何れか1項記載の発明において、上記格成分抽出ステップでは、動詞を「こと」につなげた、動詞の名詞形を格成分として抽出することをコンピュータに実行させることを特徴とする。 The case component extraction program according to claim 13 is the invention according to any one of claims 1 to 12, wherein, in the case component extraction step, the noun form of the verb is connected to the case and the noun form of the verb is connected to the case component. It is characterized by making a computer perform extracting as.
請求項14記載の格成分抽出プログラムは、請求項1〜13のうち何れか1項記載の発明において、上記単語包括化ステップでは、「略」・「若干」・「順次」+名詞を一単語とすることをコンピュータに実行させる。 The case component extraction program according to claim 14 is the invention according to any one of claims 1 to 13, wherein, in the word inclusion step, "abbreviation", "slightly", "sequential" + noun is one word. To cause the computer to execute.
請求項15記載の格成分抽出プログラムは、請求項1〜14のうち何れか1項記載の発明において、上記格成分抽出ステップでは、上記文字列中の「〜を特徴とする」における「特徴」を上記文字列から除く名詞句を少なくとも格成分として抽出することをコンピュータに実行させることを特徴とする。
請求項16記載の格成分情報送信システムは、請求項1〜15のうち何れか1項記載の格成分抽出プログラムによって格成分を抽出する格成分抽出手段と、格成分抽出手段によって得られた図、データ、格成分数の何れか1以上を記憶するサーバーと、クライアント側から要求された特許の格成分数を上記サーバーから読み出し、これをネットワークを介してクライアント側に送信する送信手段とを備えることを特徴とする。
The case component extraction program according to claim 15 is the feature according to any one of claims 1 to 14, wherein, in the case component extraction step, "characteristic" in "characterize" in the character string. The computer is caused to extract at least a noun phrase that is removed from the character string as a case component.
Case component information transmission system of claim 16 includes a rated component extracting means for extracting the rating component by any one of claims rated component extraction program of claim 15, thus resulting in rated component extracting means A server for storing at least one of the figure, data, and the number of case components, and a transmission means for reading out the number of case components of the patent requested from the client side from the server and transmitting it to the client side via the network It is characterized by providing.
上述した構成からなる本発明では、特許明細書における特許請求の範囲に定義された発明の限定度合としての格成分を高精度に抽出することが可能となる。 In the present invention having the above-described configuration, it is possible to extract the case component as the degree of limitation of the invention defined in the claims of the patent specification with high accuracy.
以下、本発明を実施するための形態として、特許明細書等を始めとした電子データ化された文書に記載された文字列から格成分を抽出する格成分抽出プログラムについて、図面を参照しながら詳細に説明する。 Hereinafter, as a form for carrying out the present invention, a case component extraction program for extracting a case component from a character string described in an electronic data document including a patent specification and the like will be described in detail with reference to the drawings. Explained.
以下の例では、文書として特許明細書における特許請求の範囲の記載から格成分を抽出する場合について説明をするが、これに限定されるものではなく、他のいかなる文書に対して本発明を適用してもよいことは勿論である。 In the following example, a case where a case component is extracted from the description of the claims in the patent specification will be described as a document. However, the present invention is not limited to this, and the present invention is applied to any other document. Of course, you may do.
格成分のコンセプトCase ingredient concept
特許発明の技術的範囲の広さを定量化、数値化するための数値化方法における最小抽出単位として、格成分が提案されている。 Case components have been proposed as a minimum extraction unit in a quantification method for quantifying and quantifying the breadth of the technical scope of the patented invention.
特許請求の範囲が、各構成要素A、B、Cを「〜Aと、〜Bと、Cとを備える○○装置(方法)」と列挙することにより定義する、いわゆる要件列挙方式で記載されていることを前提としたとき、各構成要素A、B、Cには、動詞句が係り受けする。即ち、各構成要素A、B、Cを主語としたとき、これらにはそれぞれ動詞句が係り受けし、主語と述語とからなる文を成立させることができる。これら動詞句における動詞は、述語として文を形成するにあたり、自らの表す動き、状態、関係を実現させるために、どのような名詞句の組み合わせを取るかが基本的に決まっている。動詞が自らの帯びている語彙的意味の類的なあり方に応じて、文の形成に必要な名詞句の組み合わせを選択的に要求する働きを、動詞の格支配と仮称するならば、動詞により文の成分として要求された名詞句は、動詞を補足する上での格成分ということができる。 The claims are described in a so-called requirement enumeration system, in which each component A, B, and C is defined by enumerating as "XX apparatus (method) including ~ A, ~ B, and C" " As a premise, each component A, B, and C depends on a verb phrase. That is, when each of the constituent elements A, B, and C is a subject, a verb phrase depends on each of them, and a sentence composed of the subject and a predicate can be established. When the verbs in these verb phrases form a sentence as a predicate, the combination of noun phrases is basically determined in order to realize the movement, state, and relationship expressed by the verb. If a verb is tentatively called the case rule of a verb, the verb requires a combination of noun phrases required to form a sentence according to the lexical meaning of the verb. Noun phrases required as sentence components can be called case components in supplementing verbs.
例を挙げて説明するならば、構成要素“信号生成手段”が下記のB−1)により定義されているものとする。 For example, it is assumed that the component “signal generating means” is defined by the following B-1).
B−1)「ユーザの要求に応じて駆動信号を生成する信号生成手段と、〜」 B-1) “Signal generation means for generating a drive signal in response to a user request, and so on”
このとき、「ユーザの要求に応じて駆動信号を生成する」という動詞句が信号生成手段に係り受けする。この動詞句において「生成する」という動詞の動作を実現・完成させるために、「ユーザの要求(に応じて)」、「駆動信号(を)」という名詞句を要求する働きが格支配であり、これら名詞句が格成分である。そして、「ユーザの要求(に応じて)」、「駆動信号(を)」といった名詞句が、それぞれ「生成する」という動詞に対して「動作開始条件」「対象」といった類的な関係的意味が格である。この格成分を実現している名詞句の担っている語彙的意味、またそれらの名詞句が帯びている関係的意味としての格によって形成されるものが、この動詞「生成する」により実現すべき命題の中核部分となる。上記例で言うならば “生成する”という動詞による命題を実現するための動作開始条件として、“ユーザの要求に応じて”いなければならず、さらにその対象として“駆動信号”を生成しなければならないため、これら2つが動詞による命題実現のため条件数となっている。 At this time, a verb phrase “generates a drive signal in response to a user request” depends on the signal generation means. In order to realize and complete the action of the verb “Generate” in this verb phrase, the role of requesting the noun phrases “user request (according to)” and “driving signal ()” is dominant. These noun phrases are case components. And the noun phrases such as “user's request (according to)” and “drive signal ()” have similar relational meanings such as “operation start condition” and “target” for the verb “generate” respectively. Is the case. This verb “generate” should be realized by the lexical meaning of the noun phrases that realize this case component, and the case formed as the relative meaning of those noun phrases. It becomes the core part of the proposition. In the above example, the operation start condition for realizing the proposition by the verb “generate” must be “in response to the user's request”, and “drive signal” must be generated as the target. Therefore, these two are conditional numbers for the realization of the verb proposition.
図1に示すように、このような動詞による命題実現のためにクリアしなければならない条件数が少ない場合を模式的に表したものである。動詞による動作開始のための条件の数が少なくなるため、命題を実現できる可能性が向上する。これに対して、図2は、動詞による命題実現のためにクリアしなければならない条件数が増加した場合を模式的に表したものであり、かかる場合には命題を実現できる可能性が低下する。 As shown in FIG. 1, the case where the number of conditions that must be cleared in order to realize a proposition using such a verb is schematically shown. Since the number of conditions for starting the action by the verb is reduced, the possibility that the proposition can be realized is improved. On the other hand, FIG. 2 schematically shows a case where the number of conditions that must be cleared for the realization of a proposition by a verb is increased. In such a case, the possibility that the proposition can be realized decreases. .
条件数が増加するほど、実際に動作が開始されるまでに条件を満たすか否かの判断のステップ数が増加することになる。各条件を満たす確率に多少の差異があることを考慮しても、この条件の判断ステップ数が増加するに従い、換言すれば条件を規定する格成分が増加するに従い、その動詞句が係り受けする構成要素Aに該当する可能性が低くなることを意味しており、その可能性の低下した分、技術的範囲が狭まることを示している。逆に、格成分数が少ない場合には、その動詞句が係り受けする構成要素Aに該当する可能性が高くなることを意味しており、その分において技術的範囲が広がることを示している。 As the condition number increases, the number of steps for determining whether or not the condition is satisfied before the operation is actually started increases. Even considering that there is a slight difference in the probability of satisfying each condition, the verb phrase depends on as the number of judgment steps for this condition increases, in other words, as the case component that defines the condition increases. This means that the possibility of falling under component A is reduced, and the technical scope is narrowed by the reduced possibility. Conversely, if the number of case components is small, this means that the verb phrase is likely to fall under the component A that it depends on, indicating that the technical scope will expand accordingly. .
このように格成分数(条件数)が、動詞による動作開始可能性、ひいては命題実現の可能性を支配し、これが技術的範囲の広狭に影響を及ぼすものであるから、特許請求の範囲の数値化方法の最小抽出単位を格成分として、この動詞句に含められている格成分数をカウントすることにより、技術的範囲の広さに応じた数値化を実現することができるものと考えられる。 In this way, the number of case components (condition number) governs the possibility of action start by a verb, and thus the possibility of realizing a proposition, and this affects the breadth of the technical scope. By counting the number of case components included in this verb phrase with the minimum extraction unit of the conversion method as the case component, it is considered that numericalization according to the width of the technical range can be realized.
上述したB−1)の例では、構成要素「信号生成手段」の命題を実現するための動詞「生成する」に係り受けする2つの格成分「ユーザの要求に応じて」「駆動信号を」が存在するため、格成分数が2となる。このとき、動詞「生成する」の動作開始条件を規定する「ユーザの要求に応じて」という格成分が存在しない場合には、格成分数が1となり、ユーザの要求の有無に関係なく、いつでも「駆動信号」を「生成する」ことができることになり、「信号生成手段」の命題を実現できる可能性が高くなる。これは構成要素「信号生成手段」により、侵害被疑製品の技術的要素の同一性を立証できる可能性を向上させることができることを示唆しており、かかる可能性の向上させた分が、侵害被疑製品に対する特許発明の捕捉容易性、ひいては特許発明の技術的範囲の広さに相当するものと考えられる。このため、構成要素の命題実現可能性を格成分数を介して表現することにより、技術的範囲の広さに応じた、より最適な数値化、定量化を図ることができるものと考えられる。 In the example of B-1) described above, the two case components “depending on the user's request” and “drive signal” that depend on the verb “generate” to realize the proposition of the component “signal generation means” Therefore, the number of case components is 2. At this time, if there is no case component “in response to the user's request” that defines the operation start condition of the verb “generate”, the number of case components is 1, regardless of whether or not the user has requested. The “drive signal” can be “generated”, and the possibility of realizing the proposition of “signal generation means” is increased. This suggests that the component “signal generation means” can improve the possibility of verifying the identity of the technical elements of the suspected infringing product. This is considered to correspond to the ease of capturing the patented invention with respect to the product, and thus the technical scope of the patented invention. For this reason, it is considered that by expressing the proposition feasibility of the constituent element through the number of case components, it is possible to achieve more optimal quantification and quantification according to the width of the technical range.
特許請求の範囲が、各構成要素A、B、Cを「〜Aと、〜Bと、Cとを備える○○装置(方法)」と列挙することにより定義する、いわゆる要件列挙方式で記載されていることを前提としたとき、各構成要素A、B、Cについてそれぞれ格成分数を求め、その総和を特許発明としての○○装置の格成分数とする。仮に、構成要素Aの格成分数が1、構成要素Bの格成分数が3、構成要素Cの格成分数が2とした場合に、これらにより構成される特許発明としての○○装置の格成分数は、その総和である6となる。 The claims are described in a so-called requirement enumeration system, in which each component A, B, and C is defined by enumerating as "XX apparatus (method) including ~ A, ~ B, and C" " The number of case components is determined for each of the components A, B, and C, and the sum is defined as the number of case components of the OO device as the patented invention. If the number of case components of component A is 1, the number of case components of component B is 3, and the number of case components of component C is 2, the case of the XX device as a patented invention constituted by these components is assumed. The number of components is 6, which is the sum of the components.
実際に各構成要素の格成分数を求める際に、上述したB−1)の例では、「生成する」という動詞に係り受けする格成分「ユーザの要求に応じて」「駆動信号を」を抽出することになるが、この格成分の実際の抽出作業は、「応じて」「を」等、形態素を目印にして行っていくことになる。 When actually determining the number of case components of each component, in the above-mentioned example of B-1), the case components “according to the user's request” and “drive signal” that depend on the verb “generate” are set. Although the case component is extracted, the actual extraction operation of the case component is performed by using morphemes as marks such as “accordingly” and “to”.
表1に格成分を抽出する際に、目印として参照する形態素の例を示す。 Table 1 shows examples of morphemes that are referred to as landmarks when extracting case components.
特許請求の範囲は、B−1)のようなオーソドックスな形で定義されている場合のみならず、例えばC−1)に示すように定義される場合もある。 The claims may be defined not only in the orthodox form as in B-1) but also as shown in C-1), for example.
C−1)「第1のレンズによりスポット径を制御された光束を反射板により全反射する反射手段と、〜」 C-1) "Reflecting means for totally reflecting the light beam, the spot diameter of which is controlled by the first lens, by the reflecting plate,"
例えば、特許請求の範囲を構成する構成要素「反射手段」には、「全反射する」という動詞が係り受けする。この「全反射する」という動詞の動作開始条件を規定する格成として、「光束(を)」と、「反射板(により)」が存在することになり、先ず格成分数2をカウントすることができる。しかし、このうち一の格成分「光束」に着目した場合に、「第1のレンズによりスポット径を制御された」という動詞句がさらに係り受けしているのが分かる。あらゆる光束を「全反射する」対象として定義するよりも、むしろ条件が付加された光束を「全反射する」対象として定義した方が、技術的に限定が付加され、構成要素「反射手段」の命題実現可能性が低下する。このため、この命題実現可能性の低下分を格成分数として補正する必要が出てくる。 For example, the component “reflecting means” constituting the scope of the claims depends on the verb “total reflection”. As a stipulation that defines the action start condition of the verb “totally reflect”, “light flux ()” and “reflector (by)” exist, and first count the number of case components 2. Can do. However, when focusing on one of the case components “light flux”, it can be seen that the verb phrase “the spot diameter is controlled by the first lens” is further dependent. Rather than defining all luminous fluxes as “totally reflecting” objects, it is technically more restrictive to define conditional luminous fluxes as “totally reflecting” objects. Feasibility of proposition decreases. For this reason, it is necessary to correct this decrease in proposition feasibility as the number of case components.
かかる場合には、「光束」に係り受けする動詞句「第1のレンズによりスポット径を制御される」において、「制御する」という動詞により格支配される2つの格成分「第1のレンズ(により)」、「スポット径(を)」が存在しているため、さらに格成分数2を加算する。その結果、C−1)は合計の格成分数は4となる。 In such a case, in the verb phrase “spot diameter is controlled by the first lens” that depends on “light flux”, the two case components “first lens ( )) And “spot diameter ()” are present, so add 2 case components. As a result, the total number of case components for C-1) is 4.
なお、この特許請求の範囲の記載C−1)は、明細書作成者によっては下記のC−2)のように定義される場合もある。 In addition, description C-1) of this claim may be defined as C-2) below depending on the creator of the specification.
C−2)「第1のレンズにより光束のスポット径を制御する光束制御手段と、かかる光束を反射板により全反射する反射手段と、〜」 C-2) “Flux control means for controlling the spot diameter of the light flux by the first lens, and reflection means for totally reflecting the light flux by the reflecting plate, and so on”.
このC−2)における「光束制御手段」並びに「反射手段」により形成される技術的範囲は、C−1)と実質的に同一である。C−2)では、C−1)において「光束」に係り受けする動詞句の内容を、「光束制御手段」により実現すべき命題と位置づけて定義し直している。実際にC−1)においても、定義されている「光束」を作り出すためには、何らかの手段や部材を利用することになるが、あえて「光束制御手段」を挙げて定義していないに過ぎない。このC−2)についても同様に格成分数をカウントすると、光束制御手段で格成分数2、反射手段で格成分数2で合計で格成分数4となり、C−1)と同様の結果となる。 The technical range formed by the “light flux controlling means” and the “reflecting means” in C-2) is substantially the same as C-1). In C-2), the content of the verb phrase that depends on the “light flux” in C-1) is redefined as a proposition to be realized by the “light flux control means”. In fact, even in C-1), in order to produce the defined "light flux", some means or member will be used, but it is only deliberately defined as "light flux control means". . Similarly, when the number of case components is counted for C-2), the number of case components is 2 for the light flux control means and the number of case components is 2 for the reflection means. The result is the same as for C-1). Become.
上述のように、構成要素の命題を実現するために要求される格成分の数を介して技術的範囲の広さをカウントするものであるため、互いに記載方法や単語数が異なるものの実質的に同一の技術的範囲からなるC−1)、C−2)を同等の格成分数で表現することができる。仮に最小抽出単位を構成要素とした場合にC−1)は1、C−2)は2となり、最小抽出単位を単語とした場合にC−1)は7、C−2)は、9となることを鑑みても、この格成分数は、より好適な数値化方法の最小抽出単位になり得るものと考えられる。 As described above, since the scope of the technical range is counted through the number of case components required to realize the proposition of the constituent element, the description method and the number of words differ from each other substantially. C-1) and C-2) consisting of the same technical scope can be expressed with the same number of case components. If the minimum extraction unit is a component, C-1) is 1 and C-2) is 2. If the minimum extraction unit is a word, C-1) is 7, and C-2) is 9. In view of this, it is considered that the number of case components can be a minimum extraction unit of a more suitable numerical method.
なお、C−1)、C−2)の構成は、以下のC−3)により定義される場合もあり得る。 The configurations of C-1) and C-2) may be defined by the following C-3).
C−3)「第1のレンズにより光束のスポット径を制御する光束制御手段と、上記光束制御手段によりスポット径が制御された光束を反射板により全反射する反射手段と、〜」 C-3) “Flux control means for controlling the spot diameter of the light flux by the first lens, and reflection means for totally reflecting the light flux whose spot diameter is controlled by the light flux control means by the reflector, and so on”
このC−3)の波線部は、C−2)における「かかる光束」の部分に相当する。しかし、この波線部に記載されている動詞句の内容は、「光束制御手段」に係り受けする直線部により既に実現されてしまった命題であり、波線部の記載をあえて入れたのは「反射手段」が全反射する対象としての「光束」について解釈上の疑義が生じないようにするための確認的なものに過ぎない。このため、格成分数を計算する際に、この波線部の記載をも同様にカウントすることになれば、下線部の内容を二重カウントすることになり測定精度の悪化を招く結果となる。 The wavy line portion of C-3) corresponds to the portion of “the luminous flux” in C-2). However, the content of the verb phrase described in this wavy line is a proposition that has already been realized by the straight line part that depends on the "light flux control means". This is merely a confirmation to prevent doubt about interpretation of the “light beam” as the object that the “means” totally reflects. For this reason, when the number of case components is calculated, if the description of the wavy line portion is also counted in the same manner, the content of the underlined portion is double counted, resulting in a deterioration in measurement accuracy.
このため、既に命題として実行済みの波線部の記載は、改めてカウントしないように留意することにより、クレームの記載順序や記載方法による格差に伴う格成分数のずれを解消することが可能となる。実際には、この直線部の記載と、波線部の記載とにより実現される命題が同一か否かを判断する必要がある。 For this reason, it is possible to eliminate the shift in the number of case components due to the difference in the description order and description method of the claims by taking care not to count the description of the wavy line already executed as a proposition. Actually, it is necessary to determine whether or not the proposition realized by the description of the straight line portion and the description of the wavy line portion is the same.
最小抽出単位を格成分とした数値化方法では、特に命題の同一性を判断する際において有用なものとなる。格成分は単語と異なり、動詞により支配される性質を持つため、格成分が同一であるということは、格成分の内容に加えてこれを支配する動詞も同一でなければならないことを意味している。格成分と、これを支配する動詞の双方が同一であれば、これにより実現される命題も同一となる。このため、格成分の同一性の判断を介して、命題が同一か否かを識別することが可能となり、ひいては二重カウントか否かを容易に識別することが可能となる。また、明細書作成者間の記載方法の相違により、得られる数値に影響が及ぶこともなくなる。 The numerical method using the minimum extraction unit as a case component is particularly useful when determining the identity of propositions. Case components, unlike words, have the property of being governed by verbs, so that the case components are the same means that in addition to the content of the case component, the verb that governs it must also be the same. Yes. If the case component and the verb that governs it are the same, then the proposition realized by this is the same. For this reason, it is possible to identify whether or not the propositions are the same through the determination of the identity of the case components, and thus it is possible to easily identify whether or not the proposition is a double count. Moreover, the difference in the description method between the specification creators does not affect the obtained numerical value.
なお、上述した例では、特許請求の範囲の記載が構成要件列挙型で記載されている場合を例にとり説明をしたが、他の形式で記載されていても同様にカウントすることができる。例えば、ジェプソン型で記載されていた場合には、公知部分とされる「おいて書き」の記載についても同様の方法によりカウントする。このとき、「おいて書き」の記載のカウント方法が分からない場合には、ジェプソン型から構成要件列挙型に書き換えた上でカウントするようにしてもよい。ちなみに、このジェプソン型から構成要件列挙型への書き換え方法は、従来から周知である。 In the above-described example, the case where the description of the claims is described in the component requirement enumeration type is described as an example. However, even if it is described in another format, it can be counted in the same manner. For example, in the case of being described in the Jepson type, the description of “writing”, which is a known part, is also counted by the same method. At this time, in the case where the counting method described in “note writing” is not known, counting may be performed after rewriting from the Jepson type to the component requirement enumeration type. Incidentally, the rewriting method from the Jepson type to the component requirement enumeration type is conventionally known.
また、特許請求の範囲が書き流し型で記載されていた場合も同様の手法によりカウントすることができる。例えば、C−2)が書き流し型で記載されていた場合には、以下のC−4)のようになる。 Further, even when the scope of claims is described in a flow-through type, it can be counted by the same method. For example, if C-2) is written in a flow-through style, it will be as shown in C-4) below.
C−4)「第1のレンズにより光束のスポット径を制御し、かかる光束を反射板により全反射し、〜」 C-4) "The spot diameter of the light beam is controlled by the first lens, and this light beam is totally reflected by the reflector.
この書き流し型で記載されたC−4)は、C−2)と比較して、「光束制御手段」並びに「反射手段」の文言が抜けている点が相違するが、それ以外は同一である。「光束制御手段」並びに「反射手段」は、主語であってこれをカウントの対象とせず、あくまでこの主語に係り受けする名詞句をカウントするため、書き流し型と構成要件列挙型との間で格成分数が異なることはない。 Compared to C-2), C-4) described in this flow-through type is different in that the words “light flux controlling means” and “reflecting means” are omitted, but the rest is the same. . “Flux control means” and “reflecting means” are subject words and are not counted, but only count noun phrases that depend on this subject. There is no difference in the number of components.
格成分の抽出プロセスCase component extraction process
格成分を抽出する際には、下記のプロセスに基づくものである。以下「カウント」と称しているものは、何れも格成分として抽出するという意味である。 The case component is extracted based on the following process. What is hereinafter referred to as “count” means that all are extracted as case components.
図3は、本発明を適用した格成分抽出プログラムのフローチャートを示している。このフローチャートでは、先ず前処理ステップS11において、電子データ化された特許明細書における特許請求の範囲の記載から文字列を抽出する。そして、この抽出した文字列に対して所定の前処理を実行する。 FIG. 3 shows a flowchart of a case component extraction program to which the present invention is applied. In this flowchart, first, in pre-processing step S11, a character string is extracted from the description of the claims in the patent specification converted into electronic data. Then, predetermined preprocessing is performed on the extracted character string.
この前処理では、先ず文字列中の括弧に括られた部分が存在する場合にはこれを削除する。つまり、文字列中において「第1のレンズにより光束のスポット径(φ)を制御する光束制御手段と、」との記載があった場合には、その後の格成分抽出の便宜の観点から、この括弧で括られた「(φ)」を削除する。ちなみに、文字列中において括弧で括られた部分が存在しない場合には、当該プロセスを省略する。 In this preprocessing, first, if there is a part enclosed in parentheses in the character string, it is deleted. In other words, if there is a description in the character string “with the light beam control means for controlling the spot diameter (φ) of the light beam by the first lens”, for the convenience of subsequent case component extraction, Delete “(φ)” in parentheses. Incidentally, when there is no part enclosed in parentheses in the character string, the process is omitted.
次に、発明の名称に相当する文言の抽出を行う。このプロセスでは、文字列中の「〜を特徴とする」に続く文言を発明の名称とみなすようにする。例えば、文字列の語尾が「〜を特徴とする情報フィルタリング装置」で終わっていた場合には、その「〜を特徴とする」に続く「情報フィルタリング装置」を発明の名称とみなす処理を行う。 Next, the wording corresponding to the name of the invention is extracted. In this process, the word following “characterized by” in the character string is regarded as the name of the invention. For example, when the ending of the character string ends with “information filtering device characterized by”, a process is performed in which “information filtering device” following “characterized by” is regarded as the name of the invention.
それ以外の場合には、文字列の文末から逆向きに一単語ずつ確認して句読点或いは名詞以外の単語が出現するまでの部分を発明の名称とみなす処理を行う。例えば、語尾が「〜を備える車両」で終わっている場合には、その文字列の文末から一単語ずつ確認した場合に、「備える」という名詞以外の単語が出現する。この名詞以外の単語が出現する部分(車両)を発明の名称とみなす処理を行う。また、「〜が記録されている媒体」の場合には、その文字列の文末から一単語ずつ確認した場合に、「記録されている」という名詞以外の単語が出現する。この名詞以外の単語が出現する部分(媒体)を発明の名称とみなす処理を行う。 In other cases, a process is performed in which each word from the end of the character string is confirmed in the reverse direction until a word other than a punctuation mark or noun appears as the name of the invention. For example, in the case where the ending ends with “vehicle having“ ˜ ”, words other than the noun“ having ”appear when words are confirmed one by one from the end of the character string. A process (vehicle) in which a word other than the noun appears is regarded as the name of the invention. In addition, in the case of “medium on which is recorded”, words other than the noun “recorded” appear when words are confirmed one by one from the end of the character string. A portion (medium) where a word other than the noun appears is regarded as the name of the invention.
このとき、この前処理ステップS11では、認定した発明の名称と同一の文言を文字列中からサーチし、これを所定の文言(例えば「発明」等)に置き換えるようにしてもよい。これにより、発明の名称がある程度の文字数がある場合において、構文解析を行う上で確実に1つの名詞として判断されるように処理することが可能となる。なお、本発明では、電子データ化された特許明細書における特許請求の範囲の記載から文字列を抽出し、上記文字列中から少なくとも発明の名称を抽出するものであれば上述した方法に限定されるものではなく、他のいかなる方法に基づいて実行するようにしてもよい。 At this time, in this pre-processing step S11, it is possible to search the character string for the same word as the recognized invention name and replace it with a predetermined word (for example, “invention”). As a result, when the name of the invention has a certain number of characters, it is possible to process so as to be surely determined as one noun in the syntax analysis. Note that the present invention is limited to the above-described method as long as a character string is extracted from the description of the claims in the patent specification converted into electronic data, and at least the name of the invention is extracted from the character string. However, the present invention may be executed based on any other method.
前処理ステップS11を終了した後、単語包括化ステップS12へと移行する。この単語包括化ステップS12では、前処理ステップにおいて処理された文字列について形態素解析及び構文解析を行うことにより、単語に分解した上で、所定の文字列を一単語とする処理を行う。即ち、この単語包括化ステップS12では、後段における抽出処理を容易に行うことができるように、単語をまとめる処理を行う。 After preprocessing step S11 is completed, the process proceeds to word inclusion step S12. In this word inclusion step S12, the character string processed in the preprocessing step is subjected to morphological analysis and syntax analysis to be decomposed into words, and then processing is performed with a predetermined character string as one word. That is, in this word inclusion step S12, a process of grouping words is performed so that the extraction process in the subsequent stage can be easily performed.
この単語包括化ステップS12では、前処理ステップS11において処理された文字列を単語に分解した上で、名詞+名詞、名詞+「の」+名詞、名詞+「のうち」+名詞、名詞+「的・自在・可能」、名詞+「とする」、名詞+「により・によって」、「少なくとも」+数量表現、名詞+「する・できる・させる・される」等、格成分の抽出のために一単語とすべき単語(包括化単語)を一単語としてまとめる。また「前記」、「上記」、「該」、「当該」、連体詞(「この」、「その」、「あの」、「どの」の何れか)を後続の単語と一単語(包括化単語)としてまとめる処理を行う。また名詞+「の」+「形容詞」+名詞、名詞+「とする・に係る・に関する・における・となる・である」を一単語(包括化単語)としてまとめる処理を行う。更にこの単語包括化ステップS12では、「略」・「若干」・「順次」+名詞を一単語(包括化単語)にまとめる処理を行うようにしてもよい。
一般に自然言語処理により形態素解析を行った場合、単語は最小限の単位にまで分解される。しかし格成分の抽出においては、名詞+名詞等の包括化単語は一単語としてカウントすべきである。そこで、前述のような所定のルールに基づき、形態素解析により分解された最小単位の単語のうち、包括化単語を一単語としてまとめる処理が必要となる。この単語包括化ステップにより、形態素解析による単語の自動的な分解結果を用いても、格成分を高精度に抽出することが可能となる。
In this word inclusion step S12, the character string processed in the preprocessing step S11 is decomposed into words, and then noun + noun, noun + “no” + noun, noun + “no” + noun, noun + “ For extraction of case components such as "manual / free / possible", noun + "to", noun + "by", "at least" + quantity expression, noun + "to / can / do" Words that should be one word (inclusive word) are grouped as one word. In addition, “the above”, “above”, “the”, “the”, a conjunction (“this”, “that”, “that”, “which”) and the following word and one word (inclusive word) As a summary. In addition, a process of collecting nouns + “no” + “adjectives” + nouns and “nouns +“ becomes related to, related to, and related to ”as one word (inclusive word) is performed. Further, in this word inclusion step S12, a process of combining “abbreviated”, “slightly”, “sequential” + nouns into one word (inclusive word) may be performed.
In general, when morphological analysis is performed by natural language processing, words are decomposed into a minimum unit. However, in case component extraction, inclusive words such as nouns + nouns should be counted as one word. Therefore, based on the predetermined rule as described above, it is necessary to perform a process for collecting the comprehensive words as one word among the minimum unit words decomposed by the morphological analysis. With this word inclusion step, it is possible to extract the case components with high accuracy even using the automatic decomposition result of the words by morphological analysis.
上述した処理を行う上で、この単語包括化ステップS12では、いわゆる形態素解析の技術や構文解析の技術を適宜利用して行う。形態素とは、「自然言語において意味を持つ最小の単位」である。形態素解析とは、文を形態素の単位にまで分解することである。例えば、「太郎は昼ごはんを食べました」は以下の表2のような形態素に分解できる。 In performing the above-described processing, in the word inclusion step S12, so-called morpheme analysis technology and syntax analysis technology are appropriately used. A morpheme is “the smallest unit that has meaning in natural language”. Morphological analysis is the decomposition of sentences into morpheme units. For example, “Taro ate lunch” can be broken down into the morphemes shown in Table 2 below.
実用上の形態素解析の実態としては、自然言語処理においては本来の意味での「形態素」の単位まで分解すると、分析上有用な粒度より細かくなってしまう。このため、「粗い」単位の分解にとどめることが多い。例えば、上記の例では8の品詞に分解しているが、実際の解析では以下の表3のように3つの単位に分解するようにしてもよい。 As for the actual state of morphological analysis in practical use, in natural language processing, if the unit of “morpheme” in its original meaning is decomposed, the granularity becomes finer than that useful for analysis. For this reason, the resolution is often limited to “coarse” units. For example, although it is decomposed into 8 parts of speech in the above example, in actual analysis, it may be decomposed into 3 units as shown in Table 3 below.
一般的な形態素解析・構文解析のアウトプットは、こうした「文節」単位の粒度の情報と、各「文節」単位のブロックの中の細かい構造(たとえば「太郎(名詞) - は(係助詞)」)の2階層になっている(もしくは、そのように後から構成できる)ことが多い。 The output of general morpheme analysis / syntax analysis is the granularity information of each “clause” unit and the detailed structure in the block of each “clause” unit (for example, “Taro (noun)-is a (particle)”. ) In two layers (or can be configured later).
ちなみに、この「昼ごはん」は、少なくとも「昼」「ごはん」の二つの形態素、立場によっては「昼」「ご」「はん」の三つの形態素に分解できると考えうるが、実用上は「昼ごはん」以上に分解しない方が、抽出を行う上では好適である。 By the way, this "lunch rice" can be considered to be decomposed into at least two morphemes of "daytime" and "rice". In order to perform the extraction, it is preferable not to decompose more than “lunch”.
これらの形態素をどこまでまとめるかは、形態素解析技術を用いて自在に調整を行うことができるが、本発明では、これら形態素を、上述のように「太郎は」、「昼ごはんを」のように、名詞又は名詞句を単位としてまとめるように処理を行う。 The extent to which these morphemes are put together can be freely adjusted using morphological analysis technology. However, in the present invention, these morphemes are expressed as “Taro is” or “Lunch” as described above. , Process so that nouns or noun phrases are grouped as a unit.
また、この単語包括化ステップS12では、更に構文解析を行うようにしてもよい。上述した形態素解析の結果は、前後関係のみを持つ一次元的な単語の列である。この単語列を二次元的な「構文木」に組み立てるのが、構文解析である。 In this word inclusion step S12, further syntax analysis may be performed. The result of the morphological analysis described above is a one-dimensional word string having only context. Parsing this word string into a two-dimensional “syntax tree” is syntactic analysis.
構文木において、各単語は最大1つの「親」と0個以上の「子」を持つのが一般的である。ある単語の「親」とは、その単語が「係る」先である。「子」とは、その単語に係る単語のことである。例えば、「花子は赤い鞄を買った」の「鞄を」は「赤い」を子として持ち、「買った」を親として持つ。つまり「鞄を」に係るのが「赤い」であるから、「鞄を」にとって「赤い」は子である。また「鞄を」が係るのが「買った」であるから、「鞄を」にとって「買った」は親である。また、「買った」は、「鞄を」と「花子は」を子として持つ。結果として、この構文木は表4のように示すことが可能となる。 In a syntax tree, each word typically has at most one “parent” and zero or more “children”. The “parent” of a word is the destination of the word “related”. A “child” is a word related to the word. For example, “Hanako bought a red bag” has “Red” as a child and “Bought” as a parent. In other words, “red” is related to “鞄”, so “red” is a child for “鞄”. In addition, “buy” is related to “buy”, so “buy” is “parent” for “mochi”. In addition, “Bought” has “Maki” and “Hanako” as children. As a result, this syntax tree can be expressed as shown in Table 4.
上述した単語包括化ステップS12を終了させた後、名詞句抽出ステップS13へと移行する。この名詞句抽出ステップS13では、上述のごとき形態素解析、構文解析も必要に応じて利用するようにしてもよく、文字列中から名詞句を抽出していく。ちなみに、この名詞句は、名詞のみの場合も含む概念とする。文字列中から全ての名詞又は名詞句の抽出を完了した後、格成分抽出ステップS14へ移行する。 After finishing the word inclusion step S12 described above, the process proceeds to a noun phrase extraction step S13. In this noun phrase extraction step S13, morphological analysis and syntax analysis as described above may be used as necessary, and noun phrases are extracted from the character string. By the way, this noun phrase has a concept including only a noun. After completing the extraction of all nouns or noun phrases from the character string, the process proceeds to case component extraction step S14.
この格成分抽出ステップS14では、名詞句抽出ステップS13において抽出した名詞又は名詞句のうち、格成分に含まれないものにフラグを立てる。そして、フラグが立てられた名詞又は名詞句を除く名詞又は名詞句を上記格成分として抽出する。最後に、この抽出した格成分の合計をカウントし、これを格成分数として表示し、或いはこれを記憶する。
ちなみに本発明は、フラグを立てる代わりに、抽出すべき格成分から除外するための処理を行うものであればいかなる方法を用いてもよい。即ち、フラグを用いることは必須ではなく、抽出すべき格成分に含めるものと、除外するものを選別可能であればいかなる方法を用いてもよい。
In this case component extraction step S14, a flag is set for the noun or noun phrase extracted in the noun phrase extraction step S13, which is not included in the case component. And the noun or noun phrase except the noun or noun phrase for which the flag is set is extracted as the case component. Finally, the total of the extracted case components is counted and displayed as the number of case components or stored.
Incidentally, in the present invention, any method may be used as long as a process for excluding the case component to be extracted is performed instead of setting a flag. That is, it is not essential to use a flag, and any method may be used as long as it can be selected from what is included in the case component to be extracted and what is excluded.
以下、この格成分抽出ステップS14においてフラグを立てる対象について説明をする。 Hereinafter, the target for which the flag is set in the case component extraction step S14 will be described.
先ず、前処理ステップS11において抽出した発明の名称と同一の文言全てにフラグを立てる。これにより、この格成分抽出ステップS14では、発明の名称に相当する文言を、抽出すべき格成分から除外することが可能となる。 First, flags are set for all of the same words as the name of the invention extracted in the preprocessing step S11. Thereby, in this case component extraction step S14, the wording corresponding to the name of the invention can be excluded from the case components to be extracted.
格成分抽出ステップS14では、発明の名称と同一の文言が所定の文言に置き換えられている場合において、その置き換えた所定の文言に対してフラグを立てることとなる。 In the case component extraction step S14, when a wording identical to the name of the invention is replaced with a predetermined wording, a flag is set for the replaced predetermined wording.
また、格成分抽出ステップS14では、A、Bをそれぞれ名詞又は名詞句としたときに、AとBが択一的に定義されていた場合には、何れか一方のA、Bに対してフラグを立てるようにしてもよい。ここでAとBが択一的に定義されている場合とは、例えば、「AまたはB」「AもしくはB」等のように記載されている場合である。かかる場合にはAが名詞ならば、Aにフラグを立てる。また、Aが名詞でない場合であって、Bが名詞であればBにフラグを立てる。これにより、この格成分抽出ステップS14では、択一的記載となっている何れか一方の名詞又は名詞句を抽出すべき格成分から除外することが可能となる。 In case component extraction step S14, when A and B are nouns or noun phrases, respectively, if A and B are alternatively defined, a flag is set for one of A and B. You may make it stand. Here, the case where A and B are alternatively defined is a case where “A or B”, “A or B”, or the like is described, for example. In such a case, if A is a noun, flag A. If A is not a noun and B is a noun, a flag is set for B. Thereby, in this case component extraction step S14, any one of the nouns or noun phrases that are alternatively described can be excluded from the case components to be extracted.
また、格成分抽出ステップS14では、名詞+並列助詞(「か」、「や」の何れか)からなる文言に対してフラグを立てるようにしてもよい。例えば、「ロープや針金により」と記載されていた場合には、この名詞+並列助詞の組み合わせは、「ロープや」になる。これに対してフラグを立てる。このような「ロープや針金により」の記載からは、ロープとか針金のような、連結に必要な用具を例示列挙しているに過ぎないため、何れか一方の名詞又は名詞句を抽出すべき格成分から除外することとしている。 Further, in the case component extraction step S14, a flag may be set for a word composed of a noun and a parallel particle (either “ka” or “ya”). For example, in the case where “by rope or wire” is described, the combination of the noun and the parallel particle becomes “rope”. Flag this. Since the description of “by rope or wire” merely lists examples of tools necessary for connection, such as ropes and wires, one of the nouns or noun phrases should be extracted. It is supposed to be excluded from the ingredients.
発明の名称と同一の名詞句を除く名詞句のうち、このフラグを立てることにより、抽出すべき格成分から除外する処理動作は、以下の(1)〜(4)の「格成分数抽出基本ルール」に基づくものであってもよい。 Among the noun phrases excluding the same noun phrase as the name of the invention, by setting this flag, the processing operation to be excluded from the case components to be extracted is the “case component number extraction basic” of the following (1) to (4). It may be based on a “rule”.
(1)主語のルール
また格成分抽出ステップでは、構文解析の結果、抽出した文字列中に主語と動詞の関係が含まれていた場合であって、その主語に相当する文言が、その上段で既に記載されている場合には、当該主語に相当する文言に対してフラグを立てる。そして、、その主語に相当する文言が、その上段で未だ記載されていない場合には、当該主語に相当する文言にフラグを立てないように処理する。以下の1)〜3)がその具体的な処理フローである。
(1) Subject rule In the case component extraction step, if the extracted character string contains a relationship between the subject and the verb as a result of syntactic analysis, the sentence corresponding to the subject is If already described, a flag is set for the word corresponding to the subject. Then, if the word corresponding to the subject has not been described yet in the upper stage, processing is performed so that the word corresponding to the subject is not flagged. The following 1) to 3) are specific processing flows.
1)構文解析を通じて先ず主語を先ず抽出する。「●●●が、」、「●●●は、」「●●●には、」「●●●も、」等となっているものを、主語とみなして全て抽出する。(このとき、●●●について「前記」「当該」「上記」等が付いていても付いていなくても一切関係なし) 1) First, the subject is first extracted through syntax analysis. "●●● is", "●●● is", "●●● is", "●●● is also", etc. are all regarded as the subject and extracted. (At this time, there is no relation to ●●● whether or not “previous”, “related” or “above” is attached)
2) 抽出した主語(●●●)が、それより以前に記載されているかをソートして確認する。その結果、抽出した主語(●●●)と100%一致するもの、或いはそれを一部含むものがあった場合、3)へ移行する。それ以外は、抽出した主語(●●●)が初めて登場したものであるから、その抽出した主語(●●●)を格成分として特定する。 2) Sort and confirm whether the extracted subject (●●●) is listed before that. As a result, if there is an object that matches 100% with the extracted subject (●●●) or includes a part thereof, the process proceeds to 3). Other than that, since the extracted subject (●●●) has appeared for the first time, the extracted subject (●●●) is specified as a case component.
3) 上記2)において3)に移行する場合に、その抽出した主語(●●●)にフラグを立てることにより、格成分としてカウントしない。 3) When shifting to 3) in 2) above, the extracted subject (●●●) is flagged so that it is not counted as a case component.
即ち、抽出した文字列中に「〜が」、「〜は」、「〜には」、「〜も」の何れかで定義される主語と、これに係り受けする動詞の関係が含まれているか否かをまず判断する。その結果、抽出した文字列中に主語と動詞の関係が含まれている場合には、その主語に相当する文言が、その上段で既に記載されているか否かを確認する。そしてその主語に相当する文言が、その上段で既に記載されている場合には、当該主語に相当する文言を抽出すべき格成分から除外し、その主語に相当する文言が、その上段で未だ記載されていない場合には、新たに登場したものであるから、当該主語に相当する文言を抽出すべき格成分に含める。 In other words, the extracted character string includes the relationship between the subject defined by any one of “to-ga”, “to-ha”, “to-to”, and “to-mo” and the verb depending on this subject. First, it is determined whether or not there is. As a result, when the extracted character string includes a relationship between the subject and the verb, it is confirmed whether or not the wording corresponding to the subject has already been described in the upper stage. If the word corresponding to the subject has already been described in the upper row, the word corresponding to the subject is excluded from the case components to be extracted, and the word corresponding to the subject is still written in the upper row. If not, since it has newly appeared, the word corresponding to the subject is included in the case component to be extracted.
これにより主語が多い特許請求の範囲の記載において、主語の数が多いほど格成分が多くなるという不合理を解消することが可能となる。 As a result, in the description of the claims having many subjects, it is possible to eliminate the unreasonable fact that the case components increase as the number of subjects increases.
(2)二重定義のルール
既に前段で定義された発明特定事項や、前段で定義されている処理動作について、後段で再度カウントすると二重カウントとなってしまう。このため後段ではカウントしないようにする。
(2) Double-defined rule If the invention-specific matters already defined in the previous stage or the processing operations defined in the previous stage are counted again in the subsequent stage, double counting will occur. For this reason, it is not counted in the subsequent stage.
(2−1) 「前記登録手段による登録」→前記登録手段は既に登録を行うというアクションが前段で終わっている場合、前記登録手段による登録とせずに、前記登録手段による登録とする。 (2-1) “Registration by the registration unit” → If the registration unit has already completed the action of performing registration , the registration unit does not register but the registration unit registers .
他の例)1回目で「そのキーを含むインデクスエントリ」が登場してきた→含む、が動詞であり、それぞれ分けて格成分をカウント。次に2回目で「そのキーを含むインデクスエントリ」が登場してきた→前回出てきたものを受けているため、分けてカウントせず、まとめて1格成分。 Another example) “ Index entry that includes the key ” appears at the first time. → Include is a verb, and each case component is counted separately. Next, “ index entry including the key ” has appeared for the second time → Since it received the previous one, it is not counted separately, but it is a single component.
(2−2) 「Aを作成するイメージ化手段と、前記イメージ化手段により作成されたAを〜」 (2-2) “Imaging means for creating A and A created by the imaging means ”
「前記イメージ化手段により作成されたAを」については、純粋に格成分数をカウントしようとした場合に、「前記イメージ化手段により」の部分は、形態素「により」が存在するため、「前記イメージ化手段」は独立してカウントできる格成分数といえる。しかしながら、イメージ化手段によりAを作成するという命題は既に前段で実現されてしまっている。このため、「前記イメージ化手段」をもう一度ここでカウントしてしまうこととなれば、それはAを作成するという命題が再度実現されてしまうため、二重に命題を実現してしまうこととなる。命題の実現性に応じたパラメータとしての格成分数の趣旨から外れてしまうため、ここでは、「前記イメージ化手段により作成された」という文言を「Aを」に合体させて1格成分数とする。 As for “ A created by the imaging means” , when the number of case components is to be counted purely, the part “by the imaging means” has a morpheme “by”, The “imaging means” can be said to be the number of case components that can be counted independently. However, the proposition of creating A by the imaging means has already been realized in the previous stage. For this reason, if the “imaging means” is counted again here, the proposition of creating A is realized again, so that the proposition is realized twice. Since it deviates from the purpose of the number of case components as a parameter in accordance with the feasibility of the proposition, here, the word “created by the imaging means ” is combined with “A” to obtain the number of case components To do.
(2−3) 「印刷物の印刷枚数を算出する印刷枚数算出手段と、上記印刷枚数算出手段により算出された印刷枚数を〜」 (2-3) “ Number of printed sheets calculating means for calculating the number of printed sheets and the number of printed sheets calculated by the number of printed sheets calculating means”
「上記印刷枚数算出手段により算出された印刷枚数を〜」については、純粋に格成分数をカウントしようとした場合に、「上記印刷枚数算出手段により」の部分は、形態素「により」が存在するため、「上記印刷枚数算出手段」は独立してカウントできる格成分数といえる。しかしながら、上記印刷枚数算出手段により印刷枚数を算出するという命題は既に前段で実現されてしまっている。このため、「上記印刷枚数算出手段」をもう一度ここでカウントしてしまうこととなれば、それは印刷枚数を算出するという命題が再度実現されてしまうため、二重に命題を実現してしまうこととなる。命題の実現性に応じたパラメータとしての格成分数の趣旨から外れてしまうため、ここでは、「上記印刷枚数算出手段により算出された」という文言を「印刷枚数を」に合体させて1格成分数とする。 As for “the number of printed sheets calculated by the above-mentioned number of printed sheets calculating means” , when the number of case components is to be counted purely, the part “by the number of printed sheet calculating means” has a morpheme “by”. Therefore, it can be said that “the number of printed sheets calculation means” is the number of case components that can be counted independently. However, the proposition of calculating the number of printed sheets by the printed number calculating means has already been realized in the previous stage. For this reason, if “the number of printed sheets calculation means” is counted again here, the proposition of calculating the number of printed sheets is realized again, so that the proposition is realized twice. Become. Since it deviates from the purpose of the number of case components as a parameter according to the feasibility of the proposition, here, the term “calculated by the above-mentioned number-of-print-number calculating means” is combined with “number of printed sheets” to obtain one case component It is a number.
(2−1)〜(2−3)において格成分としてカウントしないものについては、フラグを立てる処理を行うこととなる。 For those not counted as case components in (2-1) to (2-3), a process of setting a flag is performed.
また、この二重定義のルールは以下の処理動作に基づくものであってもよい。動詞が係り受ける主体を先ず特定し、次にその動詞の動作条件を満足する格成分を抽出する。 Further, this double definition rule may be based on the following processing operation. First, the subject on which the verb is involved is identified, and then the case component that satisfies the operation condition of the verb is extracted.
例えば、下記の文章の場合、以下のように、“動詞が係り受けする主体”、“動詞”、“格成分”が特定される。
「内燃機関の出力軸により出力される回転角度信号を検出する回転角度信号検出手段と」
For example, in the case of the following sentence, “subject to which the verb depends”, “verb”, and “case component” are specified as follows.
“Rotation angle signal detecting means for detecting a rotation angle signal output from the output shaft of the internal combustion engine”
このようなリストを順次作っておく。リストは作ることは必須ではなく、“動詞が係り受けする主体”、“動詞”、“格成分”のペアを記憶させるようにしてもよい。 Make a list like this one by one. It is not essential to create a list, and a pair of “subject subject to verb”, “verb”, and “case component” may be stored.
その後段で例えば、「前記回転角度信号検出手段により検出される回転角度信号に基づいて〜」、という文言が定義されていたものとする。 It is assumed that, for example, the phrase “based on the rotation angle signal detected by the rotation angle signal detection means” is defined in the subsequent stage.
“検出される”という動詞に係り受けする「前記回転角度信号検出手段」を格成分としてカウントするか否かの判断を以下のロジックで行う。 The following logic is used to determine whether or not the “rotation angle signal detecting means” that depends on the verb “detected” is counted as a case component.
「前記回転角度信号検出手段」、「検出する(される)」というペアは、以前記憶させておいたところと一致する。このため、これは既に実行されている命題であることからカウントしない。 The pair of “the rotation angle signal detecting means” and “detected (performed)” coincides with the previously stored pair. For this reason, this is not counted because it is a proposition already executed.
「〜検出される回転角度信号」は、「検出される」という動詞に係り受けしていない(逆に動詞によって修飾されている)ため、そもそも「検出される」という動詞との関係で格成分か否かの判定は行うまでもなく、素直に格成分としてカウントする。 Since “~ rotation angle signal to be detected” does not depend on the verb “detected” (reversely modified by the verb), the case component is related to the verb “detected” in the first place. It is not necessary to determine whether or not, and it is counted as a case component.
このように、“動詞が係り受けする主体”、“動詞”、“格成分”のペアを記憶しておき、“動詞”に対して、これらの、“動詞が係り受けする主体”、“格成分”が係り受けするものが後段で出てきた場合には、二重定義としてカウントしないようにする。 In this way, a pair of “subject to which the verb is dependent”, “verb”, and “case component” are stored, and for the “verb”, these “subject to which the verb is dependent”, “case” If a component that depends on the component comes out later, it is not counted as a double definition.
例1 p2000-196550の請求項1
「駆動源として内燃機関を搭載した車両において、車両の車速を検出する車速検出手段と、運転者により操作される車両の制動装置に対する操作入力の状態を検出する制動操作検出手段と、内燃機関の排気経路から排ガスの一部を吸気管内に還流させる排ガス還流手段と、前記車速検出手段により検出された車速に基づいて車両が停止状態にあると認められたとき、前記排ガス還流手段により吸気管内に排ガスを還流させるとともに、この停止状態において前記制動操作検出手段により前記操作入力の解除が検出されたとき、前記排ガス還流手段による排ガスの還流量を低減させる制御手段とを具備したことを特徴とする車両用内燃機関の制御装置。」
この場合、下記のリストができる。
Example 1 Claim 1 of p2000-196550
“In a vehicle equipped with an internal combustion engine as a drive source, vehicle speed detection means for detecting the vehicle speed of the vehicle, braking operation detection means for detecting the state of an operation input to the braking device of the vehicle operated by the driver, Exhaust gas recirculation means for recirculating part of the exhaust gas from the exhaust path into the intake pipe, and when the vehicle is found to be stopped based on the vehicle speed detected by the vehicle speed detection means, And a control means for reducing the amount of exhaust gas recirculated by the exhaust gas recirculation means when the braking operation detection means detects the release of the operation input in the stopped state. Control device for internal combustion engine for vehicle. "
In this case, the following list can be created.
例えば、6の「前記車速検出手段により検出された車速に基づいて」は、“前記車速検出手段により”は、“検出された”という動詞との関係で、すでに既に2で実行されているため、格成分としてはカウントしない。 For example, “based on the vehicle speed detected by the vehicle speed detecting means” of 6 is already executed in 2 because “by the vehicle speed detecting means” is related to the verb “detected”. It is not counted as a case component.
8の「前記排ガス還流手段により吸気管内に排ガスを還流させる」は、“前記排ガス還流手段により”、“吸気管内に”は“還流させる”という動詞の関係で、既に5で実現されているためカウントしない、“排ガス”は、“還流させる”という動詞の関係で、初めて出てきたため1格成分としてカウントする。 No. 8 “recirculate exhaust gas into the intake pipe by the exhaust gas recirculation means” has already been realized in 5 because of the verb relationship “by the exhaust gas recirculation means” and “in the intake pipe” “recirculate”. The “exhaust gas” that is not counted is counted as a first-order component because it has come out for the first time because of the verb “recirculate”.
このように、既に実行されたか否かのチェックは、“動詞”と“動詞が係り受けする主体”のペアのみに着目すればよいというわけではなく、“動詞”と“格成分”のペアについても着目する。 Thus, checking whether or not it has already been executed is not limited to focusing only on the “verb” and “subject subject”, but on the “verb” and “case component” pair. Also pay attention.
9「前記制動操作検出手段により前記操作入力の解除が検出された」については、“制動操作検出手段により”、“検出された”は、4の条件を満たすためカウントしない。操作入力の解除は初めて出てくる。(前記操作入力の解除が)を格成分としてカウントする。 9 “Release of the operation input is detected by the braking operation detection means”, “by the braking operation detection means” and “detected” satisfy the condition of 4 and are not counted. Canceling operation input appears for the first time. (The release of the operation input) is counted as a case component.
ポイントは、この抽出の過程でリストを参照する際に、リストに記述されている動詞について能動態と受動態の変更がありえることは考慮に入れなければならない。 The point is that when referencing the list during this extraction process, it should be taken into account that active and passive changes can be made to the verbs described in the list.
例2 P2000-258811の請求項1
「それぞれが異なる解像度を有する複数種類のプリンタを制御するプリンタ制御装置において,複数の画像の中からプリントすべき画像を選択する画像選択手段,上記画像選択手段によって選択された画像の画素数と上記解像度とにもとづいて,上記複数種類のプリンタの中から使用すべきプリンタを決定するプリンタ決定手段,および上記プリンタ決定手段によって決定されたプリンタに,上記画像選択手段によって選択された画像を表す画像データを送信する送信手段,を備えたプリンタ制御装置。」
Example 2 Claim 1 of P2000-258811
“In a printer control apparatus for controlling a plurality of types of printers each having a different resolution, an image selection means for selecting an image to be printed from a plurality of images, the number of pixels of the image selected by the image selection means, and the above Based on the resolution, printer determination means for determining a printer to be used from among the plurality of types of printers, and image data representing the image selected by the image selection means to the printer determined by the printer determination means A printer control device having transmission means for transmitting the
この場合、下記のリストができる。 In this case, the following list can be created.
4の「上記画像選択手段によって選択された画像の画素数」は、「選択する」という動詞に対する「上記画像選択手段」というペアが3にあるため、既に実行されている。 The “number of pixels of the image selected by the image selection means” of 4 is already executed because there is a pair of “the image selection means” for the verb “select”.
同様に6の「上記プリンタ決定手段によって決定されたプリンタに」は、「決定する」という動詞に対して「記プリンタ決定手段によって」というペアが5にあるため、既に実行されている。 Similarly, “to the printer determined by the printer determination unit” of 6 is already executed because there is a pair “by the printer determination unit” for the verb “determined”.
また7の「上記画像選択手段によって選択された画像」は、「選択する」という動詞に対する「上記画像選択手段」というペアが3にあるため、既に実行されている。 In addition, “the image selected by the image selection unit” of 7 is already executed because there is a pair “image selection unit” for the verb “select”.
既に実行されているものは格成分としてカウントしないようにする。 What has already been executed is not counted as a case component.
つまり、この二重定義のルールでは、結局のところ以下のアルゴリズムに基づき、抽出すべき格成分に含めるか、除外するかの判断を行っている。 That is, in this double definition rule, after all, based on the following algorithm, it is determined whether to include or exclude from case components to be extracted.
(2−4)工程1
(2−5)工程2 (2-5) Step 2
個々の動詞について、動詞が係り受けする主体、格成分との間での同一性の判定を行う。上記は、最初に出てきた同一の動詞(5番)に関する“動詞が係り受けする主体”及び“格成分”と、後から出てきた同一の動詞(8番)に関する格成分との間で同一性を判定する例である。 For each verb, the identity of the subject and case component to which the verb depends is determined. The above is between the “subject to which the verb depends” and “case component” related to the same verb (number 5) that appears first, and the case component related to the same verb (number 8) that appears later. It is an example which determines identity.
(2−6)工程3 (2-6) Step 3
最初に出てきた同一の動詞に関する“動詞が係り受けする主体”及び“格成分”と、後から出てきた同一の動詞に関する格成分との間で同一のものがあった場合には、後から出てきた同一の動詞の格成分を、格成分とみなさない(既に上段で命題が実行されてしまっているため)。実際に格成分とみなさないものについてはフラグを立てることにより、これを特定する。 If there is the same thing between the “subject subject to the verb” and the “case component” for the same verb that appears first, and the case component for the same verb that appears later, The case component of the same verb that comes from is not considered a case component (because the proposition has already been executed in the upper row). Those that are not actually regarded as case components are identified by setting a flag.
以上の処理動作を、他の全ての動詞についても同様に行っていく。 The above processing operation is similarly performed for all other verbs.
つまり、アルゴリズムとしては、順次動詞を拾っていく。拾った動詞が、既に以前に登場しているかチェックする。登場していたら、最初に出てきた同一の動詞に関する“動詞が係り受けする主体”及び“格成分”と、後から出てきた同一の動詞に関する格成分との間で同一性を判定する。判定した結果、同一のものが出てきたら、後から出てきた同一の動詞の格成分を、格成分とみなさない。 In other words, the algorithm picks up verbs sequentially. Check if the picked-up verb has already appeared before. If it appears, the identity is determined between the “subject subject to the verb” and the “case component” relating to the same verb appearing first and the case component relating to the same verb appearing later. As a result of the determination, if the same thing appears, the case component of the same verb that comes out later is not regarded as the case component.
このとき、以下の工程を通じて実現するようにしてもよい。 At this time, it may be realized through the following steps.
動詞を順次抽出し、抽出した動詞が、その上段で既に定義されているか識別を行う識別工程。識別工程における識別の結果、当該抽出した動詞が、その上段で既に定義されていた旨を識別した場合には、その上段で既に定義されている動詞に係り受けする名詞又は名詞句、並びにその上段で既に定義されている動詞が係り受けする主体を示す名詞又は名詞句を特定する特定工程。特定工程において特定した名詞又は名詞句と、当該抽出した動詞に係り受けする名詞又は名詞句との間で同一性を判定する同一性判定工程。当該抽出した動詞に係り受けする名詞又は名詞句のうち、上記同一性判定工程において同一と判定されたものについては、フラグを立てることにより抽出すべき格成分から除外する除外処理工程。 An identification step of sequentially extracting verbs and identifying whether the extracted verbs are already defined in the upper stage. As a result of identification in the identification process, when it is identified that the extracted verb has already been defined in the upper stage, the noun or noun phrase that depends on the verb already defined in the upper stage, and the upper stage A specifying step of specifying a noun or a noun phrase indicating a subject on which a verb already defined in (2) depends. An identity determination step of determining identity between the noun or noun phrase specified in the specifying step and the noun or noun phrase that depends on the extracted verb. Of the nouns or noun phrases that depend on the extracted verb, those that are determined to be the same in the identity determination step are excluded from the case components to be extracted by setting a flag.
また、識別工程では、形態素で結ばれた複数の名詞又は名詞句からなる文言を順次抽出し、上記抽出した文言がその上段で既に定義されているか識別を行うようにしてもよい。そして、除外処理工程では、識別工程における識別の結果、当該抽出した文言が、その上段で既に定義されていた旨を識別した場合には、当該抽出した文言を抽出すべき格成分から除外するようにするためにフラグを立てるようにしてもよい。 In the identification step, words composed of a plurality of nouns or noun phrases connected by morphemes may be sequentially extracted to identify whether the extracted words are already defined in the upper stage. Then, in the exclusion processing step, when the extracted wording is identified as a result of the identification in the identification step, the extracted wording is excluded from the case components to be extracted. A flag may be set to
例えば、「マルチコントロールユニットとの接続時に・・・・・・」とあった場合には、初回は、下線部を格成分として抽出する。また、同じ請求項において、「上記マルチコントロールユニットとの接続時に・・・」と2回目以降で同一の文言が現れた場合、2回目以降は、二重カウントを避けるためにこれらをまとめて1格成分とするか、或いは、これらを格成分として抽出しないように処理動作を行う。 For example, when “ when connected to the multi-control unit ...”, The underlined portion is extracted as a case component for the first time. Further, in the same claim, if the same wording appears after the second time, " When connected to the multi-control unit ...", after the second time, these are collectively 1 to avoid double counting. The processing operation is performed so as not to extract the case components as case components.
即ち、「名詞又は名詞句」+「形態素」+「名詞又は名詞句」についても同様に、二重定義となっていないかチェックを行う。 That is, “noun or noun phrase” + “morpheme” + “noun or noun phrase” is also checked for double definition.
(3)方法の発明の格成分除外
(3-1) 物の発明のパターン
全く同一の発明を書き流し方式と、要件列挙方式とで定義すると下記になる。
・書き流し方式
「〜Aに〜Bが配設され、
このBに〜からなるCが接続され、
上記CにDが取り付けられてなること
を特徴とする装置」
=7格成分数
・要件列挙方式
「〜Aと、
上記Aに配設された〜Bと、
上記Bに接続された、〜からなるCと、
上記Cに取り付けられたDとを備えること
を特徴とする装置」
4格成分数 (構成要素を入れると8格成分数)
(3) Case component exclusion of method invention (3-1) Product invention pattern Exactly the same invention is defined by a writing method and a requirement enumeration method as follows.
・ Writing method " ~ B is arranged in ~ A ,
C consisting of this B are connected,
Device characterized in that D is attached to C above "
= 7 case components
・ Requirement enumeration method
~ B arranged in A above ;
Connected to said B, a C consisting of,
A device characterized by comprising D attached to C above "
Number of 4th grade components (8th grade components with components)
要件列挙方式のように、構成要素をカウントしない場合、下線の格成分数は、それぞれの構成要素が実現しようとする命題実現に必要な条件数になる。書き流し方式では、下線の格成分数は、発明の名称(装置)で実現しようとする命題に必要な条件数となる。 When the constituent elements are not counted as in the requirement enumeration method, the number of underlined case components is the number of conditions necessary for realizing the proposition to be realized by each constituent element. In the writing system, the number of case components underlined is the number of conditions necessary for the proposition to be realized with the title (device) of the invention.
要件列挙方式においても、求めようとする格成分数の命題実現対象は、構成要素ではなく、究極的にはやはり装置になる。つまり、要件列挙方式において、装置は、A、B、C,Dを備える。そして、各A、B、C、Dがそれぞれの命題を実現する、と考えればよい。「装置は、A、B、C,Dを備える。」と定義したときに、ちょうどA、B、C,Dが「装置」という主語が「備える」という命題を実現する上で必要な条件となるため、格成分となる。 Even in the requirement enumeration method, the proposition realization target of the number of case components to be obtained is not a component but ultimately a device. That is, in the requirement enumeration method, the device includes A, B, C, and D. Then, it can be considered that each of A, B, C, and D realizes each proposition. When it is defined that “a device includes A, B, C, and D”, the conditions necessary for realizing the proposition that A, B, C, and D are “provided” by the subject “device” are as follows. Therefore, it becomes a case component.
このため、要件列挙方式でもそれぞれ構成要素を格成分としてカウントするとしても、論理的なつじつまは合う。また要件列挙方式と、書き流し方式の方式上の差異による格差も解消できる。 For this reason, even if it is a requirement enumeration method and each component is counted as a case component, it is logically consistent. In addition, the disparity due to the difference between the requirement enumeration method and the writing method can be eliminated.
(3-2) 方法の発明のパターン
・要件列挙方式
「〜A工程と、
上記A工程により製造されたOにPを添加するB工程と、
上記B工程において得られたQをRで加熱するC工程と、
上記C工程において加熱されたSを抽出するD工程とを有すること
を特徴とする方法」
下線部:8 工程数:4 合計12
・書き流し方式
「A工程により製造されたOにPを添加し、
上記B工程において得られたQをRで加熱し、
上記C工程において加熱されたSを抽出すること
を特徴とする方法」
下線部:8 工程数:0 合計8
(3-2) Pattern / requirement enumeration system of method invention
B step of adding P to O produced by the above A step ;
C process of heating Q obtained in the B process with R ;
And a D step of extracting heated S in the C step.
Underlined part: 8 Number of steps: 4 Total 12
・ Writing system “ P is added to O manufactured by the A process ,
Q obtained in the above step B is heated with R ,
A method characterized by extracting S heated in the above-mentioned step C "
Underlined part: 8 Number of steps: 0 Total 8
構成要素(A〜D工程)は、単なる名前だけであり、特に発明特定事項の限定にはなっていない。構成要素を格成分に入れてしまうと帰って方式間の格差が目立ってしまう。 The constituent elements (steps A to D) are merely names, and are not particularly limited to the matters specifying the invention. If the component is put into the case component, the difference between the methods will be conspicuous.
上述した検討から、方法の発明において出てくる構成要素(工程やステップ)は格成分に含めないものとしてもよい。また、物の発明において出てくる構成要素を格成分に含めてカウントするようにしてもよい。 From the above-described examination, components (processes or steps) appearing in the method invention may not be included in the case components. Moreover, you may make it count by including the component which comes out in the invention of a thing in a case component.
ここで、方法の発明において出てくる構成要素(工程やステップ)は格成分から除外するための具体的なプロセスとしては、前処理ステップS11において発明の名称とみなした文言が「方法」を含むものである場合に、「〜ステップと(を)」、「〜段階と(を)」、「〜工程と(を)」、「機能と(を)」、「〜過程と(を)」、「〜処理と(を)」を抽出してこれらにフラグを立てる。これにより、方法の発明においては、これら工程等を格成分に含めないように処理することが可能となる。或いは、上記「と(を)」の代替として、「、」が打たれていた場合には、これにフラグを立てるようにしてもよい。或いは、「、」+「ステップ・段階・工程・機能・過程・処理」+「として」を抽出してこれにフラグを立てるようにしてもよい。 Here, as a specific process for excluding components (processes and steps) appearing in the invention of the method from the case components, the wording considered as the name of the invention in the preprocessing step S11 includes “method”. "~ Step and (O)", "~ Step and (O)", "~ Process and (O)", "Function and (O)", "~ Process and (O)", "~ Extract processing and ()) and flag them. Thereby, in the invention of the method, it is possible to perform processing so that these steps and the like are not included in the case components. Alternatively, as an alternative to the above “and ()”, if “,” is hit, a flag may be set. Alternatively, “,” + “step / stage / process / function / process / process” + “as” may be extracted and flagged.
(4)その他の格成分抽出ルール また、この格成分抽出ステップS14においては、名詞として抽出される「いずれか」又は「何れか」にフラグを立てるようにしてもよい。次に、当該「いずれか」又は「何れか」に直接係り受けする文言が複数存在する場合には、そのうち先行する名詞句について抽出すべき格成分から除外する。つまり、「A部材、B部材の何れかであること」と記載されていた場合には、その何れかに係り受けする名詞句が「A部材、B部材」であり、そのうち先行するA部材を抽出すべき格成分から除外するようにフラグを立てる。「いずれか」又は「何れか」にもフラグが立てられていることから、この例において格成分として抽出されるのは「B部材」のみとなる。しかし、トータルの格成分数は1となり、正確な書く成分抽出が実現されてくることとなる。
また、これ以後も、「いずれか」又は「何れか」に直接係り受けして、かつ先行する文言が名詞又は名詞句である毎にフラグを立てる処理を行っていく。
(4) Other Case Component Extraction Rules In this case component extraction step S14, a flag may be set for “any” or “any” extracted as a noun. Next, when there are a plurality of words that are directly related to “any” or “any”, the preceding noun phrase is excluded from the case components to be extracted. That is, when it is described as “A member or B member”, the noun phrase depending on any of them is “A member, B member”, of which the preceding A member is Flag to exclude from case components to be extracted. Since “any” or “any” is flagged, only “B member” is extracted as the case component in this example. However, the total number of case components is 1, and accurate writing component extraction is realized.
In addition, the process of setting a flag every time the preceding word is a noun or a noun phrase is directly performed on “any” or “any” and thereafter.
また、この格成分抽出ステップS14では、名詞+「的・自在・可能・不能・不可・よう」+(「な」・「に」・「の」・「と」)を含む名詞句、又はこれらの名詞句に平仮名が追加された文言にフラグを立てるようにしてもよい。 Further, in this case component extraction step S14, a noun phrase including a noun + “target / free / possible / impossible / impossible / you” + (“na”, “ni”, “no”, “to”), or these A flag may be set for a sentence in which hiragana is added to the noun phrase.
例えば、「収納自在に」、「嵌合可能な」、「摺動不能の」等の名詞句、文言に対してフラグを立てることにより、これらを格成分として抽出しないように処理することができる。 For example, by setting a flag for a noun phrase or wording such as “retractable”, “fitable”, “non-slidable”, etc., it can be processed so that these are not extracted as case components. .
格成分抽出ステップS14では、「名詞又は名詞句」+「A」+「名詞又は名詞句」からなる文言を抽出した場合において、A=「までの」、「への」、「との」、「にて」、「や」の何れかの場合には、この「A」によって隔てられる個々の「名詞又は名詞句」を別々に格成分として抽出する。また、A=「のうち」の場合には、この「A」によって隔てられる個々の「名詞又は名詞句」を1つの格成分として抽出する。フラグを立てて処理を行う場合には、Aの前後に位置する名詞又は名詞句にフラグを立てるようにしてもよい。これにより、例えば「認証カードとの整合性」や、「ユーザインターフェースまでの距離」等の文言があった場合には、これらを実質的に1つの格成分として抽出することが可能となる。 In the case component extraction step S14, when a word composed of “noun or noun phrase” + “A” + “noun or noun phrase” is extracted, A = “up to”, “to”, “to”, In either case of “de” or “ya”, individual “nouns or noun phrases” separated by “A” are extracted separately as case components. Further, when A = “out”, each “noun or noun phrase” separated by “A” is extracted as one case component. When processing is performed with a flag set, a flag may be set for nouns or noun phrases positioned before and after A. As a result, for example, when there are words such as “consistency with the authentication card” and “distance to the user interface”, these can be extracted substantially as one case component.
格成分抽出ステップS14では、「これ」、「それ」、「あれ」、「どれ」、「ここ」、「そこ」、「あそこ」、「どこ」の何れかからなる代名詞については、抽出すべき格成分に含めるようにしてもよい。つまり、これらの代名詞については、フラグを立てないように処理をするようにしてもよい。これらは、代名詞であっても、役割としては上述した格成分としての働きをするものであり、本来格成分に含めるべきものであるからである。これにより高精度な格成分抽出が可能となる。 In the case component extraction step S14, a pronoun consisting of any one of “this”, “it”, “that”, “which”, “here”, “there”, “that”, “where” should be extracted. It may be included in the case component. That is, these pronouns may be processed so as not to set a flag. This is because even if they are pronouns, they function as case components as described above, and should be included in case components. Thereby, case component extraction with high accuracy is possible.
これに対して、副詞(「こう」、「そう」、「ああ」、「どう」の何れか)、連体詞(「この」、「その」、「あの」、「どの」の何れか)を抽出すべき格成分から除外するようにしてもよい。 On the other hand, adverbs (“Kou”, “So”, “Oh”, “How”) and conjunctions (“Kon”, “That”, “That”, “Which”) are extracted. You may make it exclude from the case component which should be.
格成分抽出ステップS14では、動詞を「こと」につなげた、動詞の名詞形を格成分として抽出するようにしてもよい。つまり「動詞」+「こと」で表示される文言は、これのみで1格成分として抽出する。例えば、「操作されることに」→「操作される」は動詞だが、「こと」で一つの名詞句を構成する。名詞句は格成分になる。「経過したこと」は、名詞形であるため、カウントする。つまり、動詞を「こと」につなげた、動詞の名詞形を格成分として抽出する。
このようにして、抽出すべき格成分に含めるか否かを上述した所定のルールに適合するか否かで判断を行い、所定のルールに適合するものを格成分として抽出する処理を行っていく。
In the case component extraction step S14, the noun form of the verb in which the verb is connected to “koto” may be extracted as the case component. That is, the words displayed as “verb” + “that” are extracted as one case component only by this. For example, “to be operated” → “operated” is a verb, but “that” constitutes a noun phrase. Noun phrases become case components. “Elapsed” is a noun form and is counted. In other words, the noun form of the verb that connects the verb to “Koto” is extracted as a case component.
In this way, it is determined whether or not the case component to be extracted is included in the above-described predetermined rule, and processing for extracting a component that conforms to the predetermined rule as the case component is performed. .
本発明の実施方法
本発明を実施する上で、パーソナルコンピュータ(PC)を利用し、これに読み込まれたプログラムに基づいて行う。
Implementation Method of the Present Invention In implementing the present invention, a personal computer (PC) is used and is performed based on a program loaded therein.
先ず、電子データ化された特許明細書の記載から、電子データ化された特許明細書における特定の欄(特許請求の範囲の記載)に記載されている文字列を抽出する。また、この特定の欄とは、特許請求の範囲の1請求項分に相当する。このとき、独立請求項(例えば請求項1)のみについて文字列を抽出するようにしてもよい。 First, a character string described in a specific column (description of claims) in a patent specification converted into electronic data is extracted from the description of the patent specification converted into electronic data. The specific column corresponds to one claim in the scope of claims. At this time, character strings may be extracted only for independent claims (for example, claim 1).
次に、抽出した文字列から上述したルールに基づいて格成分を抽出する。この抽出した格成分に基づいて格成分数を求めるようにしてもよい。格成分数とは、1請求項における格成分の数を意味している。メインクレームの場合は、そのメインクレームが定義されている請求項から抽出した文字列からそのまま格成分数をカウントすればよいが、サブクレームの場合には、そのサブクレームが定義されている請求項から抽出した文字列からそのまま格成分数をカウントするとともに、当該サブクレームが従属するメインの請求項の格成分数をこれに加算する。 Next, a case component is extracted from the extracted character string based on the above-described rules. The number of case components may be obtained based on the extracted case components. The number of case components means the number of case components in one claim. In the case of a main claim, the number of case components may be counted as it is from the character string extracted from the claim in which the main claim is defined. In the case of a sub claim, the claim in which the sub claim is defined. The number of case components is counted as it is from the character string extracted from, and the number of case components of the main claim on which the subclaim is dependent is added to this.
そして、カウントされた格成分数を、発明の限定度合いとして例えばディスプレイ等を介して表示する。 Then, the counted number of case components is displayed, for example, via a display or the like as the degree of limitation of the invention.
このとき、格成分の抽出は、表1に示すような形態素を目印にして行ってもよい。ちなみに、ここでいう表1はあくまで一例であり、他のいかなる形態素に基づいてカウントしてもよいことは勿論である。 At this time, the case component may be extracted using a morpheme as shown in Table 1 as a mark. Incidentally, Table 1 here is merely an example, and it is needless to say that counting may be performed based on any other morpheme.
また、格成分の抽出は、上述した格成分の抽出プロセスに基づいて行うようにしてもよい。 The case component may be extracted based on the case component extraction process described above.
このとき上記カウントは、抽出された文字列において互いに重複する動作が定義されている文言を抽出し、当該抽出した文言に含まれる重複の格成分数をカウントし、カウントされた総格成分数から重複の格成分数を減算した値を、発明の限定度合いとして表示するようにしてもよい。これは上述した二重カウントを考慮したものである。 At this time, the above-mentioned count extracts words that define overlapping actions in the extracted character string, counts the number of duplicate case components included in the extracted word, and counts the total number of case components counted You may make it display the value which subtracted the number of case components of duplication as a limitation degree of invention. This takes into account the double count described above.
また、本発明では、補正前の特許明細書における特定の欄に記載されている文字列を抽出し、更に補正後の特許明細書における特定の欄に記載されている文字列を抽出し、補正前の特許明細書から抽出された文字列、並びに補正後の特許明細書から抽出された文字列からそれぞれ総格成分数をカウントし、カウントされた補正前の特許明細書の総格成分数と、補正後の特許明細書の総格成分数との差分を求め、これを特許請求の範囲の上述したような補正度合として表示するようにしてもよい。 In the present invention, a character string described in a specific column in the patent specification before correction is extracted, and further a character string described in a specific column in the corrected patent specification is extracted and corrected. The total number of components is counted from the character string extracted from the previous patent specification and the character string extracted from the corrected patent specification, respectively. Alternatively, the difference from the total number of components of the corrected patent specification may be obtained and displayed as the correction degree as described above in the claims.
また、本発明は、上述した分析を行うプログラムがインストールされたPC等のような装置として具体化されていてもよいし、これらをPCに実行させるためのプログラム、又はこれが記録された記録媒体として具体化されていてもよい。 Further, the present invention may be embodied as a device such as a PC on which the above-described analysis program is installed, or a program for causing a PC to execute the program or a recording medium on which the program is recorded. It may be embodied.
また、本発明は、ネットワークシステムにおいて適用されるようにしてもよい。先ず、サーバー側において、特許明細書について格成分数を予め数値化したデータをサーバーに記憶させておく。そして、クライアント側から、所望の特許について格成分数の送信要求があった場合、当該特許の格成分数をサーバーから読み出し、これをネットワークを介してクライアント側に送るようにしてもよい。 Further, the present invention may be applied to a network system. First, on the server side, data obtained by previously digitizing the number of case components for the patent specification is stored in the server. When the client side requests the number of case components for a desired patent, the number of case components of the patent may be read from the server and sent to the client side via the network.
また、クライアント側から送信要求のあった特許について未だ格成分数が求められていない場合には、サーバーは当該要求を受けた特許について格成分数をカウントし、これをネットワークを介してクライアント側に送るようにしてもよい。 In addition, when the number of case components has not yet been obtained for the patent requested for transmission from the client side, the server counts the number of case components for the requested patent and sends this to the client side via the network. You may make it send.
格成分の抽出においては既存のあらゆるテキストマイニング技術、データマイニング技術、言語解析処理技術等を用いるようにしてもよい。そして、これらの技術を利用し、上述したルールに基づいて、分析対象の各文字列について、格成分に相当するか否かを判断し、最終的に1請求項分の格成分を特定する。そして、この特定した格成分の1請求項分の総数を求め、これを当該請求項の格成分数として出力する。 For extraction of case components, any existing text mining technology, data mining technology, language analysis processing technology, or the like may be used. Then, using these techniques, it is determined whether or not each character string to be analyzed corresponds to a case component based on the above-described rules, and finally case components for one claim are specified. Then, the total number of the specified case components for one claim is obtained, and this is output as the number of case components of the claim.
なお、本発明では、単に請求項毎の格成分数を出力するのみならず、この出力したデータを、パテントマップやグラフ、その他の評価値等、あらゆる情報に付加するようにしてもよい。 In the present invention, not only the number of case components for each claim but also the output data may be added to any information such as a patent map, a graph, and other evaluation values.
ちなみに、上述した格成分数の代替として下記計算式に基づく評価値を求め、これを出力又は記憶するようにしてもよい。
評価値={α−log(CN+β)}×γ
ここでα=3〜8
β=15〜25
γ=15〜40
ここで、上記計算式は、格成分数と特許の査定率との関係に基づきフィッティングすることで導出した。評価値が大きいほど、格成分数は小さく、技術範囲が広いことを意味する。Technology Sizeとしての特許の評価値である。
当該評価値(Technology Size)は、特許の価値評価やマクロ分析において活用することができる。また、被引用数や閲覧請求数等、他の指標値と組み合わせて、総合的なスコアとして活用することもできる。
この評価値の算出は、格成分抽出ステップS14において実行する。つまり、上述した格成分数の代替として、上記評価値を出力、表示、送信等の各処理を行うようにしてもよい。
Incidentally, an evaluation value based on the following calculation formula may be obtained as an alternative to the number of case components described above, and this may be output or stored.
Evaluation value = {α-log (CN + β)} × γ
Where α = 3-8
β = 15-25
γ = 15-40
Here, the above formula was derived by fitting based on the relationship between the number of case components and the patent assessment rate. The larger the evaluation value, the smaller the number of case components and the wider the technical range. It is a patent evaluation value as Technology Size.
The evaluation value (Technology Size) can be used in patent value evaluation and macro analysis. It can also be used as a comprehensive score in combination with other index values such as the number of citations and the number of requests for browsing.
The evaluation value is calculated in the case component extraction step S14. That is, as an alternative to the number of case components described above, processing such as output, display, and transmission of the evaluation value may be performed.
また、本発明では、請求項毎に特定した格成分を、画面上に表示し、又は印刷し、或いはデータ化するようにしてもよい。つまり、以下の実施例に示すように、請求項について特定した格成分を視覚的に把握可能なように下線やハイライト表示等を行うようにしてもよい。 In the present invention, the case component specified for each claim may be displayed on a screen, printed, or converted into data. That is, as shown in the following embodiments, underline and highlight display may be performed so that the case components specified for the claims can be visually grasped.
このように、本発明では、いずれの特許請求の範囲の記載においても、同様のルールで図示して表示等することが可能となる。このとき格成分数も同時に併記するようにしてもよい。 As described above, according to the present invention, it is possible to display and display in accordance with similar rules in any claims. At this time, the number of case components may be written at the same time.
なお、本発明は、特許明細書の特許請求の範囲の記載の格成分抽出に限定されるものではなく、他のいかなる書類についても同様の方法に基づいて格成分を抽出する際にも適用することができる。 Note that the present invention is not limited to the case component extraction described in the claims of the patent specification, and is applicable to the case component extraction for any other document based on the same method. be able to.
また、本発明は、日本語に限らず、英語を始め他の言語においても適用可能であることは勿論である。 Of course, the present invention is not limited to Japanese but can be applied to other languages including English.
Claims (16)
上記前処理ステップにおいて処理された文字列について形態素解析及び構文解析を行うことにより、これらを単語に分解した上で、名詞+名詞・名詞+「の」+名詞・名詞+「のうち」+名詞・名詞+「的・自在・可能」・名詞+「とする」・名詞+「により・によって」・少なくとも」+数量表現・名詞+「する・できる・させる・される」の何れかを一単語としてまとめ、又は「前記」・「上記」・「該」・「当該」・連体詞の何れかを後続の単語と一単語としてまとめ、又は名詞+「の」+「形容詞」+名詞・名詞+「とする・に係る・に関する・における・となる・である」の何れかを一単語としてまとめ、又は「略」・「若干」・「順次」の何れか+名詞を一単語としてまとめる単語包括化ステップと、
上記単語包括化ステップを経た単語を含む上記文字列から名詞句を抽出する名詞句抽出ステップと、
上記名詞句抽出ステップにおいて、上記抽出した名詞句のうち、上記発明の名称と同一の名詞句を除く名詞句を少なくとも格成分として抽出する格成分抽出ステップと
をコンピュータに実行させることを特徴とする格成分抽出プログラム。 Extract a character string from the description of the claims in the patent specification converted into electronic data, and the wording up to the end of the sentence following “characterized by” in the above character string, or reverse from the end of the sentence in the character string A pre-processing step of extracting the wording until a word other than a punctuation mark or noun appears in the direction as the name of the invention ,
By performing morphological analysis and syntactic analysis on the character string processed in the above preprocessing step, the character string is decomposed into words, and then noun + noun / noun + “no” + noun / noun + “out of” + noun・ Noun + “Target / Free / Possible” ・ Noun + “To” ・ Noun + “By” ・ At least ”+ Quantity expression ・ Noun +“ Yes ” Or “the above”, “above”, “this”, “this”, “combined” as one word with the following word, or noun + “no” + “adjective” + noun / noun + “ Include, related to, related to, become, become, become ,,,,,,,,,,,,,,,,,,,, etc. Steps,
A noun phrase extraction step for extracting a noun phrase from the character string including the word that has undergone the word inclusion step;
In the noun phrase extraction step, a case component extraction step of extracting at least a noun phrase excluding the same noun phrase as the name of the invention from the extracted noun phrases as a case component is executed. Case component extraction program.
上記格成分抽出ステップでは、上記置き換えた所定の文言を抽出すべき格成分から除外すること
をコンピュータに実行させることを特徴とする請求項1記載の格成分抽出プログラム。 In the preprocessing step, for the character string, the same wording as the name of the invention is replaced with a predetermined wording,
2. The case component extraction program according to claim 1, wherein the case component extraction step causes the computer to execute excluding the replaced predetermined word from case components to be extracted.
をコンピュータに実行させることを特徴とする請求項1又は2記載の格成分抽出プログラム。 In the case component extraction step, if A and B are defined as noun phrases, and A and B are alternatively defined, either A or B is excluded from the case components to be extracted. The case component extraction program according to claim 1 or 2, wherein the computer is made to execute.
をコンピュータに実行させることを特徴とする請求項1〜3のうち何れか1項記載の格成分抽出プログラム。 2. The case component extraction step, wherein the computer is caused to exclude a word composed of a noun and a parallel particle (“ka” or “ya”) from case components to be extracted. The case component extraction program according to any one of?
をコンピュータに実行させることを特徴とする請求項1〜4のうち何れか1項記載の格成分抽出プログラム。 In the case component extraction step, a subject defined by any one of “to-ga”, “to-ha”, “to-to”, and “to-mo” in the extracted character string, and a verb that depends on the subject are defined. If the word corresponding to the subject has already been described in the upper row, the word corresponding to the subject is excluded from the case components to be extracted, and the subject If the corresponding wording is not yet described in the upper stage, the computer is caused to perform processing so that the wording corresponding to the subject is included in the case component to be extracted. 4. The case component extraction program according to any one of four.
動詞を順次抽出し、抽出した動詞が、その上段に記載されているか識別を行う識別工程と、
上記識別工程における識別の結果、当該抽出した動詞が、その上段で既に記載されていた旨を識別した場合には、当該識別した動詞に係り受けする名詞句、並びにその上段で既に記載されている動詞が係り受けする主体を示す名詞句を特定する特定工程と、
上記特定工程において特定した名詞句と、当該抽出した動詞に係り受けする名詞句との間で同一性を判定する同一性判定工程と、
当該抽出した動詞に係り受けする名詞句のうち、上記同一性判定工程において同一と判定されたものについては、これを抽出すべき格成分から除外する除外工程とを有すること
をコンピュータに実行させることを特徴とする請求項1〜5のうち何れか1項記載の格成分抽出プログラム。 The case component extraction step includes:
An identification step of sequentially extracting verbs and identifying whether the extracted verbs are listed in the upper part thereof;
As a result of identification in the identification step, if it is identified that the extracted verb has already been described in the upper stage, the noun phrase that depends on the identified verb is already described in the upper stage. A specific step of identifying a noun phrase indicating the subject on which the verb depends;
An identity determination step of determining identity between the noun phrase identified in the identifying step and a noun phrase that depends on the extracted verb;
Of the noun phrases that depend on the extracted verbs, those that are determined to be the same in the identity determination step have an exclusion step that excludes them from the case components to be extracted. The case component extraction program according to any one of claims 1 to 5.
をコンピュータに実行させることを特徴とする請求項1〜6のうち何れか1項記載の格成分抽出プログラム。 In the case component extraction step, if the wording considered as the name of the invention in the preprocessing step includes “method”, “to step and ()”, “to stage and ()”, “to process” (")", "Function and (O)", "~ Process and (O)", "~ Process and (O)" are extracted and excluded from the case components to be extracted , or "," 7. The method according to claim 1, further comprising: causing the computer to extract + “step / stage / process / function / process / process” + “as” and exclude it from the case component to be extracted. The case component extraction program according to any one of the preceding claims.
をコンピュータに実行させることを特徴とする請求項1〜7のうち何れか1項記載の格成分抽出プログラム。 In the case component extraction step, “any” or “any” extracted as a noun is excluded from the case components to be extracted, and there are a plurality of words directly depending on the “any” or “any”. The case component extraction program according to any one of claims 1 to 7, wherein if present, the computer is executed to exclude a preceding noun phrase from case components to be extracted.
をコンピュータに実行させることを特徴とする請求項1〜8のうち何れか1項記載の格成分抽出プログラム。 In the case component extraction step, a noun phrase including a noun + “target / free / possible / impossible / impossible / you” + (“na”, “ni”, “no”, “to”), or these noun phrases The case component extraction program according to any one of claims 1 to 8, which causes a computer to execute a process of excluding a word added with hiragana from a case component to be extracted.
をコンピュータに実行させることを特徴とする請求項1〜9のうち何れか1項記載の格成分抽出プログラム。
評価値={α−log(CN+β)}×γ
ここでα=3〜8
β=15〜25
γ=15〜40 In the case component extraction step, the number of extracted case components is counted and output or stored, or the number of case components (hereinafter referred to as CN) is output or stored as an evaluation value based on the following calculation formula. The case component extraction program according to claim 1, wherein the computer is executed by a computer.
Evaluation value = {α-log (CN + β)} × γ
Where α = 3-8
β = 15-25
γ = 15-40
をコンピュータに実行させることを特徴とする請求項1〜10のうち何れか1項記載の格成分抽出プログラム。 In the case component extraction step, when a word composed of “noun or noun phrase” + “A” + “noun or noun phrase” is extracted, A = “up to”, “to”, “to”, In the case of either “de” or “ya”, the computer is caused to separately extract individual “nouns or noun phrases” separated by “A” as case components. The case component extraction program of any one of Claims 1-10.
をコンピュータに実行させることを特徴とする請求項1〜11のうち何れか1項記載の格成分抽出プログラム。 In the case component extraction step, the case component to extract a pronoun consisting of “this”, “it”, “that”, “which”, “here”, “there”, “that”, “where” The case component extraction program according to any one of claims 1 to 11, which causes a computer to execute the inclusion.
をコンピュータに実行させることを特徴とする請求項1〜12のうち何れか1項記載の格成分抽出プログラム。 13. The case component extracting step according to any one of claims 1 to 12, wherein a computer is executed to extract a noun form of a verb as a case component in which the verb is connected to "ko". Case component extraction program.
をコンピュータに実行させることを特徴とする請求項1〜13のうち何れか1項記載の格成分抽出プログラム。 14. The case according to any one of claims 1 to 13, wherein said word inclusion step causes the computer to execute "abbreviation", "slightly", "sequential" + noun as one word. Component extraction program.
をコンピュータに実行させることを特徴とする請求項1〜14のうち何れか1項記載の格成分抽出プログラム。 The case component extraction program according to any one of claims 1 to 14, wherein the case component is executed by a computer.
格成分抽出手段によって得られた図、データ、格成分数の何れか1以上を記憶するサーバーと、
クライアント側から要求された特許の格成分数を上記サーバーから読み出し、これをネットワークを介してクライアント側に送信する送信手段とを備えること
を特徴とする格成分情報送信システム。 Case component extraction means for extracting a case component by the case component extraction program according to any one of claims 1 to 15,
A server for storing rank component extracting means thus obtained figure data, any one or more of the number of rating components,
A case component information transmission system comprising: a transmission unit that reads out the number of case components of a patent requested from a client side from the server and transmits the number to a client side via a network.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012244378A JP5311319B1 (en) | 2012-11-06 | 2012-11-06 | Case component extraction program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012244378A JP5311319B1 (en) | 2012-11-06 | 2012-11-06 | Case component extraction program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5311319B1 true JP5311319B1 (en) | 2013-10-09 |
JP2014093022A JP2014093022A (en) | 2014-05-19 |
Family
ID=49529551
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012244378A Active JP5311319B1 (en) | 2012-11-06 | 2012-11-06 | Case component extraction program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5311319B1 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006155151A (en) * | 2004-11-29 | 2006-06-15 | Hajime Abiko | Patent specification analysis display device |
JP2009259154A (en) * | 2008-04-21 | 2009-11-05 | Hajime Abiko | Patent specification analytical display device |
-
2012
- 2012-11-06 JP JP2012244378A patent/JP5311319B1/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006155151A (en) * | 2004-11-29 | 2006-06-15 | Hajime Abiko | Patent specification analysis display device |
JP2009259154A (en) * | 2008-04-21 | 2009-11-05 | Hajime Abiko | Patent specification analytical display device |
Non-Patent Citations (2)
Title |
---|
CSNG201000994004; 綾木健一郎 他3名: '請求項の記載限定度合を示す格成分数の自動抽出方法の提案' 情報の科学と技術 Vol.61 NO.1, 20110101, 34-39頁, 社団法人情報科学技術協会 * |
JPN6013014375; 綾木健一郎 他3名: '請求項の記載限定度合を示す格成分数の自動抽出方法の提案' 情報の科学と技術 Vol.61 NO.1, 20110101, 34-39頁, 社団法人情報科学技術協会 * |
Also Published As
Publication number | Publication date |
---|---|
JP2014093022A (en) | 2014-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200050638A1 (en) | Systems and methods for analyzing the validity or infringment of patent claims | |
Chang et al. | Practical linguistic steganography using contextual synonym substitution and a novel vertex coding method | |
US10699081B2 (en) | Human language analyzer for detecting clauses, clause types, and clause relationships | |
Brun et al. | Suggestion Mining: Detecting Suggestions for Improvement in Users' Comments. | |
US9304993B2 (en) | Methods and data structures for multiple combined improved searchable formatted documents including citation and corpus generation | |
US8904283B2 (en) | Extendable meta-data support in final form presentation datastream print enterprises | |
US8359193B2 (en) | Pre-highlighting text in a semantic highlighting system | |
US20110099052A1 (en) | Automatic checking of expectation-fulfillment schemes | |
US20090138466A1 (en) | System and Method for Search | |
US8750630B2 (en) | Hierarchical and index based watermarks represented as trees | |
US11526692B2 (en) | Systems and methods for domain agnostic document extraction with zero-shot task transfer | |
JP2012524339A (en) | Concept-based analysis of structured and unstructured data using concept inheritance | |
JP5735403B2 (en) | Document management device | |
JP2017527913A (en) | Systems and processes for analyzing, selecting, and capturing sources of unstructured data by experience attributes | |
Beck et al. | Representation problems in linguistic annotations: Ambiguity, variation, uncertainty, error and bias | |
JP6206874B2 (en) | Case component extraction program | |
Ogrodniczuk et al. | Connecting data for digital libraries: the library, the dictionary and the corpus | |
Chang et al. | Adjective deletion for linguistic steganography and secret sharing | |
JP5311319B1 (en) | Case component extraction program | |
Hegde et al. | Analyzing the Efficacy of an LLM-Only Approach for Image-Based Document Question Answering | |
JP6006051B2 (en) | Case component extraction program | |
Lopresti | Performance evaluation for text processing of noisy inputs | |
JP2021140282A (en) | Program for extracting case component from english patent specification | |
JP6006023B2 (en) | Patent specification analysis display device | |
JP5572784B2 (en) | Dependency display program for case components |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130611 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130624 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5311319 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |