JP2020016964A - Case component learning program - Google Patents
Case component learning program Download PDFInfo
- Publication number
- JP2020016964A JP2020016964A JP2018138058A JP2018138058A JP2020016964A JP 2020016964 A JP2020016964 A JP 2020016964A JP 2018138058 A JP2018138058 A JP 2018138058A JP 2018138058 A JP2018138058 A JP 2018138058A JP 2020016964 A JP2020016964 A JP 2020016964A
- Authority
- JP
- Japan
- Prior art keywords
- case
- verb
- case component
- character string
- component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、特許明細書等を始めとした電子データ化された文書に記載された文字列から格成分を抽出して学習させる格成分学習プログラムに関する。 The present invention relates to a case component learning program for extracting and learning a case component from a character string described in an electronic data document such as a patent specification.
従来、特許明細書における特許請求の範囲に定義された文字列から格成分を抽出する格成分抽出プログラムが提案されている。 Conventionally, a case component extraction program for extracting a case component from a character string defined in the claims of the patent specification has been proposed.
しかしながら、上述した特許文献1の開示技術では、格成分を自動的に抽出することができても、実際に抽出した格成分を利用して特許請求の範囲を自動的に作成することは特段開示されていない。 However, in the technology disclosed in Patent Literature 1 described above, even though the case component can be automatically extracted, it is particularly disclosed that the claims are automatically created using the actually extracted case component. It has not been.
そこで本発明は、上述した問題点に鑑みて案出されたものであり、その目的とするところは、特許請求の範囲を自動的に作成することを前提として格成分を学習させる格成分学習プログラムを提供することにある。 The present invention has been devised in view of the above-described problems, and has as its object to provide a case component learning program for learning case components on the assumption that claims are automatically created. Is to provide.
本発明に係る格成分学習プログラムは、文字列から抽出がした動詞とこれに係り受けする格成分とをデータセットとして順次学習させることにより、動詞と格成分との関係が3段階以上の連関度として定義される学習済みモデルを作る学習ステップをコンピュータに実行させることを特徴とする。 The case component learning program according to the present invention sequentially learns a verb extracted from a character string and a case component relating to the verb as a data set, so that the relation between the verb and the case component is three or more levels. And causing the computer to execute a learning step of creating a learned model defined as
本発明に係る格成分学習プログラムは、動詞とこれに係り受けする1以上の格成分とを有する文節構造と、これに対応する命題とをデータセットとして順次学習させることにより、上記文節構造と命題との関係が3段階以上の連関度として定義される学習済みモデルを作る学習ステップをコンピュータに実行させることを特徴とする。 The case component learning program according to the present invention learns a phrase structure having a verb and one or more case components related to the verb and a proposition corresponding to the verb as a data set sequentially, thereby obtaining the phrase structure and the proposition. And causing the computer to execute a learning step of creating a learned model whose relationship with is defined as three or more degrees of association.
本発明に係る格成分学習プログラムは、動詞とこれに係り受けする1の格成分との係り受け構造と、その係り受けする形態素とをデータセットとして順次学習させることにより、上記係り受け構造と形態素との関係が3段階以上の連関度として定義される学習済みモデルを作る学習ステップをコンピュータに実行させることを特徴とする。 The case component learning program according to the present invention sequentially learns a dependency structure of a verb and one case component related to the verb as a data set, and obtains the dependency structure and the morpheme. And causing the computer to execute a learning step of creating a learned model whose relationship with is defined as three or more degrees of association.
特許請求の範囲において格成分が係り受けする動詞の候補を絞り込むことができ、最後のところはユーザに対して確認を促すにしても、その利便性を高めることができる。 It is possible to narrow down the candidates of the verb to which the case component depends in the claims, and to improve the convenience even if the user is prompted to confirm the last part.
以下、本発明を実施するための形態として、文字列から格成分を抽出してこれを学習させる格成分学習プログラムについて、図面を参照しながら詳細に説明する。 Hereinafter, as a mode for carrying out the present invention, a case component learning program for extracting and learning case components from a character string will be described in detail with reference to the drawings.
本発明の理論的説明Theoretical explanation of the present invention
特許発明の技術的範囲の広さを定量化、数値化するための思想として格成分が提案されている。 A case component has been proposed as an idea for quantifying and quantifying the breadth of the technical range of the patented invention.
特許請求の範囲が、各構成要素A、B、Cを「〜Aと、〜Bと、Cとを備える○○装置(方法)」と列挙することにより定義する、いわゆる要件列挙方式で記載されていることを前提としたとき、各構成要素A、B、Cには、動詞句が係り受けする。即ち、各構成要素A、B、Cを主語としたとき、これらにはそれぞれ動詞句が係り受けし、主語と述語とからなる文を成立させることができる。これら動詞句における動詞は、述語として文を形成するにあたり、自らの表す動き、状態、関係を実現させるために、どのような名詞句の組み合わせを取るかが基本的に決まっている。動詞が自らの帯びている語彙的意味の類的なあり方に応じて、文の形成に必要な名詞句の組み合わせを選択的に要求する働きを、動詞の格支配と仮称するならば、動詞により文の成分として要求された名詞句は、動詞を補足する上での格成分ということができる。また、構成要素A、B、Cも究極的な構成要素「○○装置」に係る動詞「備える」に係り受けする。従って本発明では、これら構成要素A、B、Cも格成分としてカウントしてもよい技術でもある。つまり本発明は、特許請求の範囲を構成する文字列に含まれる全ての動詞に係り受けする名詞句としての格成分を抽出するようにしてもよい。 The claims are described in a so-called requirement enumeration system in which each of the constituent elements A, B, and C is defined by enumerating them as "a device (method) including ~ A, ~ B, and C". , Each component A, B, C is associated with a verb phrase. That is, when the constituent elements A, B, and C are the subjects, they are each associated with a verb phrase, and a sentence composed of the subject and the predicate can be formed. When forming a sentence as a predicate, a verb in these verb phrases basically determines what combination of noun phrases is used in order to realize the movement, state, and relationship expressed by the verb. If a verb tentatively calls the combination of noun phrases necessary to form a sentence according to the lexical meaning of the vocabulary that the verb possesses, it is a verb, The noun phrase required as a sentence component can be said to be a case component in supplementing the verb. Further, the components A, B, and C are also related to the verb “provided” related to the ultimate component “XX device”. Therefore, according to the present invention, the components A, B, and C may also be counted as case components. That is, the present invention may extract a case component as a noun phrase related to all the verbs included in the character string constituting the claims.
例を挙げて説明するならば、構成要素"信号生成手段"が下記のB−1)により定義されているものとする。 For example, it is assumed that the component "signal generating means" is defined by the following B-1).
B−1)「ユーザからの要求に応じて駆動信号を生成する信号生成手段と、〜」 B-1) "Signal generation means for generating a drive signal in response to a request from a user, ..."
このとき、「ユーザからの要求に応じて駆動信号を生成する」という動詞句が信号生成手段に係り受けする。この動詞句において「生成する」という動詞の動作を実現・完成させるために、「ユーザからの要求(に応じて)」、「駆動信号(を)」という名詞句を要求する働きが格支配であり、これら名詞句が格成分である。そして、「ユーザからの要求(に応じて)」、「駆動信号(を)」といった名詞句が、それぞれ「生成する」という動詞に対して「動作開始条件」「対象」といった類的な関係的意味が格である。この格成分を実現している名詞句の担っている語彙的意味、またそれらの名詞句が帯びている関係的意味としての格によって形成されるものが、この動詞「生成する」により実現すべき命題の中核部分となる。上記例で言うならば "生成する"という動詞による命題を実現するための動作開始条件として、"ユーザからの要求に応じて"いなければならず、さらにその対象として"駆動信号"を生成しなければならないため、これら2つが動詞による命題実現のため条件数となっている。 At this time, a verb phrase "generate a drive signal in response to a request from the user" is received by the signal generation means. In order to realize and complete the action of the verb “generate” in this verb phrase, the function of requesting a noun phrase “according to a request from a user (according to)” and “drive signal (a)” is dominant. Yes, these noun phrases are case components. Noun phrases such as "request (from user)" and "drive signal (") "are used in relation to the verb" generate ", respectively. The meaning is case. The lexical meaning of the noun phrase that realizes this case component and the case formed by the relational meaning of those noun phrases should be realized by this verb “generate” At the core of the proposition. In the above example, the operation start condition for realizing the proposition with the verb "generate" must be "according to the request from the user", and the "drive signal" Therefore, these two are the condition numbers for realizing the proposition by the verb.
図1に示すように、このような動詞による命題実現のためにクリアしなければならない条件数が少ない場合を模式的に表したものである。動詞による動作開始のための条件の数が少なくなるため、命題を実現できる可能性が向上する。これに対して、図2は、動詞による命題実現のためにクリアしなければならない条件数が増加した場合を模式的に表したものであり、かかる場合には命題を実現できる可能性が低下する。 FIG. 1 schematically illustrates a case where the number of conditions that need to be cleared for realizing a proposition using such a verb is small. Since the number of conditions for starting an action by a verb is reduced, the possibility of realizing a proposition is improved. On the other hand, FIG. 2 schematically shows a case where the number of conditions that must be cleared for realizing a proposition by a verb increases. In such a case, the possibility of realizing the proposition decreases. .
条件数が増加するほど、実際に動作が開始されるまでに条件を満たすか否かの判断のステップ数が増加することになる。各条件を満たす確率に多少の差異があることを考慮しても、この条件の判断ステップ数が増加するに従い、換言すれば条件を規定する格成分が増加するに従い、その動詞句が係り受けする構成要素Aに該当する可能性が低くなることを意味しており、その可能性の低下した分、技術的範囲が狭まることを示している。逆に、格成分数が少ない場合には、その動詞句が係り受けする構成要素Aに該当する可能性が高くなることを意味しており、その分において技術的範囲が広がることを示している。 As the number of conditions increases, the number of steps for determining whether or not the conditions are satisfied before the operation is actually started increases. Even considering that there is some difference in the probability of satisfying each condition, the verb phrase is affected as the number of judgment steps of this condition increases, in other words, as the case component that defines the condition increases. This means that the possibility of falling under the component A is reduced, indicating that the technical scope is reduced by the reduced possibility. Conversely, when the number of case components is small, it means that the possibility that the verb phrase corresponds to the component A to be affected is increased, which indicates that the technical range is expanded accordingly. .
このように格成分数(条件数)が、動詞による動作開始可能性、ひいては命題実現の可能性を支配し、これが技術的範囲の広狭に影響を及ぼすものであるから、特許請求の範囲の数値化方法の最小抽出単位を格成分として、この動詞句に含められている格成分数をカウントすることにより、技術的範囲の広さに応じた数値化を実現することができるものと考えられる。 In this way, the number of case components (condition number) governs the possibility of starting an action by a verb, and furthermore the possibility of realizing a proposition, and this affects the breadth and width of the technical range. By counting the number of case components included in this verb phrase using the minimum extraction unit of the binning method as the case component, it is considered that the digitization according to the extent of the technical range can be realized.
上述したB−1)の例では、構成要素「信号生成手段」の命題を実現するための動詞「生成する」に係り受けする2つの格成分「ユーザからの要求に応じて」「駆動信号を」が存在するため、格成分数が2となる。このとき、動詞「生成する」の動作開始条件を規定する「ユーザからの要求に応じて」という格成分が存在しない場合には、格成分数が1となり、ユーザからの要求の有無に関係なく、いつでも「駆動信号」を「生成する」ことができることになり、「信号生成手段」の命題を実現できる可能性が高くなる。これは構成要素「信号生成手段」により、侵害被疑製品の技術的要素の同一性を立証できる可能性を向上させることができることを示唆しており、かかる可能性の向上させた分が、侵害被疑製品に対する特許発明の捕捉容易性、ひいては特許発明の技術的範囲の広さに相当するものと考えられる。このため、構成要素の命題実現可能性を格成分数を介して表現することにより、技術的範囲の広さに応じた、より最適な数値化、定量化を図ることができるものと考えられる。 In the example of B-1) described above, the two case components “in response to a request from the user” and “the drive signal are transmitted in response to the verb“ generate ”for realizing the proposition of the component“ signal generation means ” ”, The number of case components is 2. At this time, if there is no case component “in response to a request from the user” that defines the operation start condition of the verb “generate”, the number of case components is 1, regardless of whether or not there is a request from the user. Therefore, the "drive signal" can be "generated" at any time, and the possibility of realizing the proposition of "signal generation means" is increased. This suggests that the component "signal generation means" can improve the possibility that the identity of the technical element of the product infringed can be proved. It is considered that this corresponds to the easiness of capturing the patented invention on the product, and thus the technical scope of the patented invention. For this reason, by expressing the proposition feasibility of the components through the number of case components, it is considered that more optimal numerical value and quantification can be achieved according to the extent of the technical range.
実際に各構成要素の格成分数を求める際に、上述したB−1)の例では、「生成する」という動詞に係り受けする格成分「ユーザからの要求に応じて」「駆動信号を」を抽出することになるが、この格成分の実際の抽出作業は、「応じて」「を」等、形態素を目印にして行っていくことになる。 When actually determining the number of case components of each component, in the example of B-1) described above, the case component "in response to a request from the user" "the drive signal" However, the actual extraction of this case component is performed using morphemes such as "accordingly" and "".
表1に格成分を抽出する際に、目印として参照する形態素の例を示す。 Table 1 shows an example of a morpheme that is referred to as a mark when extracting a case component.
特許請求の範囲は、B−1)のようなオーソドックスな形で定義されている場合のみならず、例えばC−1)に示すように定義される場合もある。 The claims are defined not only in the orthodox form such as B-1), but also in the case defined in, for example, C-1).
C−1)「第1のレンズによりスポット径を制御された光束を反射板により全反射する反射手段と、〜」 C-1) "Reflecting means for totally reflecting the light beam whose spot diameter is controlled by the first lens by the reflecting plate, ..."
例えば、特許請求の範囲を構成する構成要素「反射手段」には、「全反射する」という動詞が係り受けする。この「全反射する」という動詞の動作開始条件を規定する格成として、「光束(を)」と、「反射板(により)」が存在することになり、先ず格成分数2をカウントすることができる。しかし、このうち一の格成分「光束」に着目した場合に、「第1のレンズによりスポット径を制御された」という動詞句がさらに係り受けしているのが分かる。あらゆる光束を「全反射する」対象として定義するよりも、むしろ条件が付加された光束を「全反射する」対象として定義した方が、技術的に限定が付加され、構成要素「反射手段」の命題実現可能性が低下する。このため、この命題実現可能性の低下分を格成分数として補正する必要が出てくる。 For example, the verb "total reflection" is applied to the component "reflecting means" constituting the claims. There are "luminous flux (") "and" reflector (")" as forms that define the operation start condition of the verb "to be totally reflected." Can be. However, when focusing on one of the case components “luminous flux”, it can be seen that the verb phrase “the spot diameter was controlled by the first lens” is further affected. Rather than defining all luminous fluxes as "totally reflect" objects, defining the luminous flux to which conditions are added as "totally reflect" objects is technically limited and adds a component "reflecting means". Proposition feasibility decreases. For this reason, it is necessary to correct the decrease in the possibility of proposition realization as the number of case components.
かかる場合には、「光束」に係り受けする動詞句「第1のレンズによりスポット径を制御される」において、「制御する」という動詞により格支配される2つの格成分「第1のレンズ(により)」、「スポット径(を)」が存在しているため、さらに格成分数2を加算する。その結果、C−1)は合計の格成分数は4となる。 In such a case, in the verb phrase “the spot diameter is controlled by the first lens” related to “luminous flux”, two case components “first lens (first lens ( ) "And" spot diameter () "are present, so the case component number 2 is further added. As a result, the total number of case components in C-1) is four.
なお、この特許請求の範囲の記載C−1)は、明細書作成者によっては下記のC−2)のように定義される場合もある。 The description C-1) of the claims may be defined as C-2) below depending on the creator of the specification.
C−2)「第1のレンズにより光束のスポット径を制御する光束制御手段と、かかる光束を反射板により全反射する反射手段と、〜」 C-2) “Light flux control means for controlling the spot diameter of the light flux by the first lens, and reflection means for totally reflecting the light flux by the reflector”
このC−2)における「光束制御手段」並びに「反射手段」により形成される技術的範囲は、C−1)と実質的に同一である。C−2)では、C−1)において「光束」に係り受けする動詞句の内容を、「光束制御手段」により実現すべき命題と位置づけて定義し直している。実際にC−1)においても、定義されている「光束」を作り出すためには、何らかの手段や部材を利用することになるが、あえて「光束制御手段」を挙げて定義していないに過ぎない。このC−2)についても同様に格成分数をカウントすると、光束制御手段で格成分数2、反射手段で格成分数2で合計で格成分数4となり、C−1)と同様の結果となる。 The technical range formed by the "light flux controlling means" and the "reflecting means" in C-2) is substantially the same as C-1). In C-2), the content of the verb phrase related to "luminous flux" in C-1) is redefined as a proposition to be realized by "luminous flux controlling means". Actually, in C-1), some means or members are used to create the defined "luminous flux", but only the "luminous flux controlling means" is not defined. . Similarly, when the number of case components is also counted for C-2), the number of case components is 2 by the light flux control means and the number of case components is 2 by the reflection means, so that the total number of case components is 4. Become.
上述のように、構成要素の命題を実現するために要求される格成分の数を介して技術的範囲の広さをカウントするものであるため、互いに記載方法や単語数が異なるものの実質的に同一の技術的範囲からなるC−1)、C−2)を同等の格成分数で表現することができる。仮に最小抽出単位を構成要素とした場合にC−1)は1、C−2)は2となり、最小抽出単位を単語とした場合にC−1)は7、C−2)は、9となることを鑑みても、この格成分数は、より好適な数値化方法の最小抽出単位になり得るものと考えられる。 As described above, since the breadth of the technical range is counted through the number of case components required to realize the propositions of the components, the description method and the number of words are substantially different from each other. C-1) and C-2) having the same technical range can be expressed by the same number of case components. If the minimum extraction unit is a component, C-1) is 1 and C-2) is 2. If the minimum extraction unit is a word, C-1) is 7, and C-2) is 9. In consideration of this, it is considered that this number of case components can be a minimum extraction unit of a more suitable numerical method.
なお、C−1)、C−2)の構成は、以下のC−3)により定義される場合もあり得る。
C−3)「第1のレンズにより光束のスポット径を制御する光束制御手段と、上記光束制御手段によりスポット径が制御された光束を反射板により全反射する反射手段と、〜」
The configuration of C-1) and C-2) may be defined by the following C-3).
C-3) “Light flux controlling means for controlling the spot diameter of the light beam by the first lens, and reflecting means for totally reflecting the light beam whose spot diameter is controlled by the light beam controlling means by the reflector,”
このC−3)の下線部は、C−2)における「かかる光束」の部分に相当する。しかし、この波線部に記載されている動詞句の内容は、「光束制御手段」に係り受けする直線部により既に実現されてしまった命題であり、波線部の記載をあえて入れたのは「反射手段」が全反射する対象としての「光束」について解釈上の疑義が生じないようにするための確認的なものに過ぎない。このため、格成分数を計算する際に、この波線部の記載をも同様にカウントすることになれば、下線部の内容を二重カウントすることになり測定精度の悪化を招く結果となる。 The underlined portion of C-3) corresponds to the "such light beam" portion in C-2). However, the content of the verb phrase described in this wavy line is a proposition that has already been realized by the straight line portion related to the "luminous flux control means", and the description of the wavy line part is "reflection". This is merely a confirmation to prevent the interpretation of the "luminous flux" as an object to be totally reflected by the "means". For this reason, when calculating the number of case components, if the description of the wavy portion is also counted in the same manner, the contents of the underlined portion are double-counted, resulting in deterioration of measurement accuracy.
このため、既に命題として実行済みの波線部の記載は、改めてカウントしないように留意することにより、クレームの記載順序や記載方法による格差に伴う格成分数のずれを解消することが可能となる。実際には、この直線部の記載と、波線部の記載とにより実現される命題が同一か否かを判断する必要がある。 For this reason, by paying attention not to count again the description of the dashed line portion that has already been executed as a proposition, it is possible to eliminate the difference in the number of case components due to the difference in the description order and the description method of the claims. Actually, it is necessary to determine whether or not the proposition realized by the description of the straight line portion and the description of the wavy line portion are the same.
最小抽出単位を格成分とした数値化方法では、特に命題の同一性を判断する際において有用なものとなる。格成分は単語と異なり、動詞により支配される性質を持つため、格成分が同一であるということは、格成分の内容に加えてこれを支配する動詞も同一でなければならないことを意味している。格成分と、これを支配する動詞の双方が同一であれば、これにより実現される命題も同一となる。このため、格成分の同一性の判断を介して、命題が同一か否かを識別することが可能となり、ひいては二重カウントか否かを容易に識別することが可能となる。また、明細書作成者間の記載方法の相違により、得られる数値に影響が及ぶこともなくなる。 The numerical method using the minimum extraction unit as a case component is particularly useful when judging the identity of a proposition. Case components, unlike words, have the property of being governed by a verb, so that the same case component means that in addition to the content of the case component, the verb that governs it must also be the same. I have. If both the case component and the verb that governs it are the same, the proposition realized by this is also the same. Therefore, it is possible to determine whether or not the propositions are the same through the determination of the identity of the case components, and thus it is possible to easily determine whether or not the proposition is a double count. Further, the difference in the description method between the creators does not affect the obtained numerical value.
なお、上述した例では、特許請求の範囲の記載が構成要件列挙型で記載されている場合を例にとり説明をしたが、他の形式で記載されていても同様にカウントすることができる。例えば、ジェプソン型で記載されていた場合には、公知部分とされる「おいて書き」の記載についても同様の方法によりカウントする。このとき、「おいて書き」の記載のカウント方法が分からない場合には、ジェプソン型から構成要件列挙型に書き換えた上でカウントするようにしてもよい。ちなみに、このジェプソン型から構成要件列挙型への書き換え方法は、従来から周知である。 Note that, in the above-described example, the case where the description of the claims is described in the form of constituent requirement enumeration has been described as an example. However, even if the description is described in another format, it can be similarly counted. For example, in the case where the information is described in Jepson type, the description of “Kari-Written”, which is a known part, is counted by the same method. At this time, if the counting method described in “write” is not known, the counting may be performed after rewriting from the Jepson type to the component requirement enumeration type. Incidentally, the method of rewriting from the Jepson type to the constituent requirement enumeration type has been conventionally known.
また、特許請求の範囲が書き流し型で記載されていた場合も同様の手法によりカウントすることができる。例えば、C−2)が書き流し型で記載されていた場合には、以下のC−4)のようになる。 Further, even when the claims are described in a newly-written type, they can be counted by the same method. For example, if C-2) is described in a new type, the following C-4) is obtained.
C−4)「第1のレンズにより光束のスポット径を制御し、かかる光束を反射板により全反射し、〜」 C-4) "The spot diameter of the light beam is controlled by the first lens, and the light beam is totally reflected by the reflector, ~"
この書き流し型で記載されたC−4)は、C−2)と比較して、「光束制御手段」並びに「反射手段」の文言が抜けている点が相違するが、それ以外は同一である。「光束制御手段」並びに「反射手段」は、主語であってこれをカウントの対象とせず、あくまでこの主語に係り受けする名詞句をカウントするため、書き流し型と構成要件列挙型との間で格成分数が異なることはない。 C-4) described in this rewritten type is different from C-2) in that the terms "luminous flux controlling means" and "reflecting means" are omitted, but otherwise is the same. . The "flux control means" and the "reflection means" are subjects and are not counted, and count only the noun phrases related to this subject. The number of components does not differ.
第2実施形態Second embodiment
格成分を抽出する際には、下記のルールに基づくものであってもよい。この第2実施形態において、下線部が続いているところが、抽出すべき1格成分に相当する。以下「カウント」と称しているものは、何れも格成分として抽出するという意味である。 When extracting a case component, it may be based on the following rules. In the second embodiment, the portion underlined corresponds to one case component to be extracted. Hereinafter, what is referred to as "count" means that each is extracted as a case component.
(1)名詞に対して可能性又は自在性を含む文言が付加される場合について (1) Cases in which words that include possibility or flexibility are added to nouns
名詞+可能に、名詞+可能な、名詞+自在に、名詞+自在な等のように、「名詞+〜できる」という動詞的意味で記載されている文言については、抽出すべき格成分に含めない Words described in the verb meaning "noun + can", such as noun + possible, noun + possible, noun + freely, noun + free, etc., are included in case components to be extracted. Absent
例)配置できる →名詞+〜できる、という動詞的意味だからカウントしない。 Example) Can be placed → Noun + ~ Can be counted because it is a verb meaning that it can be done.
検出可能な→名詞+可能な という形容詞的意味だからカウントせず。
「同期できる」 →〜できる はカウントしない。
入力可能、突出・収納可能、選択可能→〜可能に はカウントしない。
高さ位置変更可能に〜可能に はカウントしない。
スライド自在な→〜自在な、と〜可能な、 はカウントしない。
Not counted because it is an adjective meaning that detectable → noun + possible.
"Synchronizable"-> Can not be counted.
Input possible, protruding / storing possible, selectable → Not possible to count.
The height position can be changed, but not counted.
Free to slide → Free, and possible, do not count.
即ち、名詞に「〜可能」、「〜自在」、「〜自由」等が付加されている場合のように、抽出した文字列中に、名詞に対して可能性又は自在性を含む文言が付加された文字列が含まれていた場合には、当該文字列を抽出すべき格成分から除外するようなアルゴリズムを設けるようにしてもよい。 That is, as in the case where "-possible", "-free", "-free", etc. are added to a noun, words including the possibility or flexibility of the noun are added to the extracted character string. If the extracted character string is included, an algorithm that excludes the character string from the case components to be extracted may be provided.
(2)主語のルール (2) Subject rules
1)主語を先ず抽出する。「●●●が、」、「●●●は、」「●●●には、」「●●●も、」等となっているものを、主語とみなして全て抽出する。(このとき、●●●について「前記」「当該」「上記」等が付いていても付いていなくても一切関係なし) 1) Extract the subject first. All the items that are "●●●,", "●●● is," "●●● is," "●●● also," etc. are regarded as the subject and all are extracted. (At this time, ●●● has nothing to do with “above”, “pertinent”, “above”, etc.)
2) 抽出した主語(●●●)が、それより以前に記載されているかをソートして確認する。その結果、抽出した主語(●●●)と100%一致するもの、或いはそれを一部含むものがあった場合、3)へ移行する。それ以外は、抽出した主語(●●●)が初めて登場したものであるから、その抽出した主語(●●●)を格成分として特定する。 2) Sort and check whether the extracted subject (●●●) is described earlier. As a result, if there is a subject that matches 100% of the extracted subject (●●●) or contains a part of the subject, the process proceeds to 3). In other cases, since the extracted subject (●●●) appears for the first time, the extracted subject (●●●) is specified as a case component.
3) 上記2)において3)に移行する場合に、いずれも格成分としてカウントしない。 3) When shifting to 3) in 2) above, none of them are counted as case components.
即ち、抽出した文字列中に主語と動詞の関係が含まれているか否かをまず判断する。その結果、抽出した文字列中に主語と動詞の関係が含まれている場合には、その主語に相当する文言が、その上段で既に記載されているか否かを確認する。そしてその主語に相当する文言が、その上段で既に記載されている場合には、当該主語に相当する文言を抽出すべき格成分から除外し、その主語に相当する文言が、その上段で未だ記載されていない場合には、新たに登場したものであるから、当該主語に相当する文言を抽出すべき格成分に含める。 That is, it is first determined whether or not the relationship between the subject and the verb is included in the extracted character string. As a result, when the relationship between the subject and the verb is included in the extracted character string, it is confirmed whether or not the text corresponding to the subject has already been described in the upper part. If the word corresponding to the subject is already described in the upper part, the word corresponding to the subject is excluded from the case components to be extracted, and the word corresponding to the subject is still described in the upper part. If not, since it is newly appeared, the word corresponding to the subject is included in the case component to be extracted.
これにより主語が多い特許請求の範囲の記載において、主語の数が多いほど格成分が多くなるという不合理を解消することが可能となる。 This makes it possible to eliminate the irrationality that the case component increases as the number of subjects increases in the description of the claims having many subjects.
以上のプロセスを行うようなプログラムを設けるようにしてもよい。 A program that performs the above process may be provided.
(3)二重定義のルール (3) Double definition rule
(二重定義のロジックの説明)
動詞が係り受ける主体を先ず特定し、次にその動詞の動作条件を満足する格成分を抽出する。
(Explanation of double definition logic)
First, the subject to which the verb is related is specified, and then a case component that satisfies the operating condition of the verb is extracted.
例えば、下記の文章の場合、以下のように、“動詞が係り受けする主体”、“動詞”、“格成分”が特定される。
「内燃機関の出力軸により出力される回転角度信号を検出する回転角度信号検出手段と」
For example, in the case of the following sentence, the “subject that the verb depends on”, the “verb”, and the “case component” are specified as follows.
"Rotation angle signal detecting means for detecting a rotation angle signal output from the output shaft of the internal combustion engine"
このようなリストを順次作っておく。リストは作ることは必須ではなく、“動詞が係り受けする主体”、“動詞”、“格成分”のペアを記憶させるようにしてもよい。 Such a list is created sequentially. It is not essential to create a list, and a pair of “subject subject to verb”, “verb”, and “case component” may be stored.
その後段で例えば、「前記回転角度信号検出手段により検出される回転角度信号に基づいて〜」、という文言が定義されていたものとする。 In the subsequent stage, for example, it is assumed that the phrase “based on the rotation angle signal detected by the rotation angle signal detection unit” is defined.
“検出される”という動詞に係り受けする「前記回転角度信号検出手段」を格成分としてカウントするか否かの判断を以下のロジックで行う。 The following logic determines whether or not the "rotation angle signal detection means", which is related to the verb "detected", is counted as a case component.
「前記回転角度信号検出手段」、「検出する(される)」というペアは、以前記憶させておいたところと一致する。このため、これは既に実行されている命題であることからカウントしない。 The pair of "the rotation angle signal detecting means" and "detected (performed)" matches the previously stored one. Therefore, it is not counted because this is a proposition that has already been executed.
「〜検出される回転角度信号」は、「検出される」という動詞に係り受けしていない(逆に動詞によって修飾されている)ため、そもそも「検出される」という動詞との関係で格成分か否かの判定は行うまでもなく、素直に格成分としてカウントする。 Since "~ detected rotation angle signal " is not related to the verb "detected" (conversely, it is modified by the verb), the case component is related to the verb "detected" in the first place. It is not necessary to judge whether or not this is the case component.
このように、“動詞が係り受けする主体”、“動詞”、“格成分”のペアを記憶しておき、“動詞”に対して、これらの、“動詞が係り受けする主体”、“格成分”が係り受けするものが後段で出てきた場合には、二重定義としてカウントしないようにする。 In this way, a pair of “subject subject to verb”, “verb”, and “case component” is stored, and these “subject subject to verb”, “case component” for “verb” are stored. In the case where the component “related” appears later, it is not counted as a double definition.
例1 p2000-196550の請求項1
「駆動源として内燃機関を搭載した車両において、車両の車速を検出する車速検出手段と、運転者により操作される車両の制動装置に対する操作入力の状態を検出する制動操作検出手段と、内燃機関の排気経路から排ガスの一部を吸気管内に還流させる排ガス還流手段と、前記車速検出手段により検出された車速に基づいて車両が停止状態にあると認められたとき、前記排ガス還流手段により吸気管内に排ガスを還流させるとともに、この停止状態において前記制動操作検出手段により前記操作入力の解除が検出されたとき、前記排ガス還流手段による排ガスの還流量を低減させる制御手段とを具備したことを特徴とする車両用内燃機関の制御装置。」
Example 1 Claim 1 of p2000-196550
In a vehicle equipped with an internal combustion engine as a drive source, a vehicle speed detection unit that detects a vehicle speed of the vehicle; a braking operation detection unit that detects a state of an operation input to a braking device of the vehicle operated by a driver; Exhaust gas recirculation means for recirculating a part of the exhaust gas from the exhaust path into the intake pipe, and when it is recognized that the vehicle is in a stopped state based on the vehicle speed detected by the vehicle speed detection means, the exhaust gas recirculation means enters the intake pipe. Control means for recirculating the exhaust gas and reducing the amount of exhaust gas recirculated by the exhaust gas recirculation means when the braking operation detection means detects release of the operation input in the stopped state. Control device for internal combustion engine for vehicles. "
この場合、下記のリストができる。 In this case, the following list is created.
例えば、6の「前記車速検出手段により検出された車速に基づいて」は、
“前記車速検出手段により”は、“検出された”という動詞との関係で、すでに既に2で実行されているため、格成分としてはカウントしない。
For example, 6 based on “based on the vehicle speed detected by the vehicle speed detection means” is
"By the vehicle speed detecting means" is not counted as a case component because it has already been executed at 2 in relation to the verb "detected".
8の「前記排ガス還流手段により吸気管内に排ガスを還流させる」は、“前記排ガス還流手段により”、“吸気管内に”は“還流させる”という動詞の関係で、既に5で実現されているためカウントしない、“排ガス”は、“還流させる”という動詞の関係で、初めて出てきたため1格成分としてカウントする。 The phrase "recirculate exhaust gas into the intake pipe by the exhaust gas recirculation means" of 8 is related to the verbs "recirculate" by "the exhaust gas recirculation means" and "recirculate" in the intake pipe. "Exhaust gas", which is not counted, is counted as one major component because it first appeared because of the verb "recirculate".
このように、既に実行されたか否かのチェックは、“動詞”と“動詞が係り受けする主体”のペアのみに着目すればよいというわけではなく、“動詞”と“格成分”のペアについても着目する。 As described above, it is not necessary to focus only on the pair of “verb” and “subject to which the verb is dependent” to check whether the execution has already been performed. Also pay attention.
9「前記制動操作検出手段により前記操作入力の解除が検出された」については、“制動操作検出手段により”、“検出された”は、4の条件を満たすためカウントしない。操作入力の解除は初めて出てくる。(前記操作入力の解除が)を格成分としてカウントする。 Regarding 9 “release of the operation input is detected by the braking operation detecting means”, “detected” by “braking operation detecting means” and “detected” are not counted because the condition of 4 is satisfied. The cancellation of operation input appears for the first time. (The cancellation of the operation input) is counted as a case component.
ポイントは、この抽出の過程でリストを参照する際に、リストに記述されている動詞について能動態と受動態の変更がありえることは考慮に入れなければならない。 The point is that when referring to the list in the course of this extraction, it must be taken into account that the active and passive voices can be changed for the verbs described in the list.
例2 P2000-258811の請求項1
「それぞれが異なる解像度を有する複数種類のプリンタを制御するプリンタ制御装置において,複数の画像の中からプリントすべき画像を選択する画像選択手段,上記画像選択手段によって選択された画像の画素数と上記解像度とにもとづいて,上記複数種類のプリンタの中から使用すべきプリンタを決定するプリンタ決定手段,および上記プリンタ決定手段によって決定されたプリンタに,上記画像選択手段によって選択された画像を表す画像データを送信する送信手段,を備えたプリンタ制御装置。」
Example 2 Claim 1 of P2000-258811
"In a printer control device for controlling a plurality of types of printers each having a different resolution, an image selecting means for selecting an image to be printed from a plurality of images, the number of pixels of the image selected by the image selecting means, A printer deciding unit for deciding a printer to be used from the plurality of types of printers based on the resolution, and image data representing an image selected by the image selecting unit to the printer decided by the printer deciding unit. A printer control device including a transmission unit for transmitting a printer. "
この場合、下記のリストができる。 In this case, the following list is created.
4の「上記画像選択手段によって選択された画像の画素数」は、「選択する」という動詞に対する「上記画像選択手段」というペアが3にあるため、既に実行されている。 The "number of pixels of the image selected by the image selecting means" of 4 has already been executed because there are 3 pairs of "the image selecting means" for the verb "select".
同様に6の「上記プリンタ決定手段によって決定されたプリンタに」は、「決定する」という動詞に対して「記プリンタ決定手段によって」というペアが5にあるため、既に実行されている。 Similarly, the "6 to the printer determined by the printer determining means" has already been executed because there is a pair "5 by the printer determining means" for the verb "determine".
また7の「上記画像選択手段によって選択された画像」は、「選択する」という動詞に対する「上記画像選択手段」というペアが3にあるため、既に実行されている。 The “image selected by the image selecting unit” of 7 has already been executed because there are 3 pairs of the “image selecting unit” for the verb “select”.
既に実行されているものは格成分としてカウントしないようにする。 Those already executed are not counted as case components.
つまり、この二重定義のルールでは、結局のところ以下のアルゴリズムに基づき、抽出すべき格成分に含めるか、除外するかの判断を行っている。 That is, in the rule of the double definition, it is ultimately determined whether to include or exclude the case component to be extracted based on the following algorithm.
ステップ1Step 1
動詞をベースにして、これに係り受けする格成分と、その動詞が係り受けする主体を特定する。次に、上段に同一の動詞(能動態と受動態の違いはあるにしても)があるか否かをチェックする。その結果、上段に同一の動詞が無い場合は、特に二重定義のチェックは行わない。これに対して、上段に同一の動詞がある場合には、以下のステップ2へと移行する。 Based on the verb, the case component involved in the verb and the subject involved in the verb are specified. Next, it is checked whether the same verb is present in the upper row (even though there is a difference between active and passive). As a result, if there is no identical verb in the upper row, the double definition check is not performed. On the other hand, if the same verb is present in the upper row, the process proceeds to step 2 below.
ステップ2Step 2
個々の動詞について、動詞が係り受けする主体、格成分との間での同一性の判定を行う。上記は、最初に出てきた同一の動詞(5番)に関する“動詞が係り受けする主体”及び“格成分”と、後から出てきた同一の動詞(8番)に関する格成分との間で同一性を判定する例である。 For each verb, the identity of the subject and the case component to which the verb depends is determined. The above is the difference between the "subject subject to the verb" and the "case component" for the same verb (No. 5) that appeared first, and the case component for the same verb (No. 8) that comes out later. This is an example of determining the identity.
ステップ3Step 3
最初に出てきた同一の動詞に関する“動詞が係り受けする主体”及び“格成分”と、後から出てきた同一の動詞に関する格成分との間で同一のものがあった場合には、後から出てきた同一の動詞の格成分を、格成分とみなさない(既に上段で命題が実行されてしまっているため)。 If there is an identical case between the "subject subject to the verb" and the "case component" for the same verb that appeared first and the case component for the same verb that comes later, Does not regard the case component of the same verb that comes out of as a case component (because the proposition has already been executed in the upper part).
以上の処理動作を、他の全ての動詞についても同様に行っていく。 The above processing operation is similarly performed for all other verbs.
つまり、アルゴリズムとしては、順次動詞を拾っていく。拾った動詞が、既に以前に登場しているかチェックする。登場していたら、最初に出てきた同一の動詞に関する“動詞が係り受けする主体”及び“格成分”と、後から出てきた同一の動詞に関する格成分との間で同一性を判定する。判定した結果、同一のものが出てきたら、後から出てきた同一の動詞の格成分を、格成分とみなさない。 That is, as an algorithm, verbs are sequentially picked up. Check if the verb you picked up has already appeared before. If they have appeared, the identity between the “subject subject to the verb” and the “case component” for the same verb that first appeared and the case component for the same verb that came out later is determined. As a result of the determination, if the same verb comes out, the case component of the same verb that comes out later is not regarded as the case component.
このとき、以下の工程を通じて実現するようにしてもよい。 At this time, it may be realized through the following steps.
動詞を順次抽出し、抽出した動詞が、その上段で既に定義されているか識別を行う識別工程。識別工程における識別の結果、当該抽出した動詞が、その上段で既に定義されていた旨を識別した場合には、その上段で既に定義されている動詞に係り受けする名詞又は名詞句、並びにその上段で既に定義されている動詞が係り受けする主体を示す名詞又は名詞句を特定する特定工程。特定工程において特定した名詞又は名詞句と、当該抽出した動詞に係り受けする名詞又は名詞句との間で同一性を判定する同一性判定工程。当該抽出した動詞に係り受けする名詞又は名詞句のうち、上記同一性判定工程において同一と判定されたものについては、抽出すべき格成分から除外する除外処理工程。 An identification step of sequentially extracting verbs and identifying whether the extracted verbs are already defined in the upper part thereof; As a result of the identification in the identification step, if it is identified that the extracted verb has already been defined in the upper part, the noun or noun phrase related to the verb already defined in the upper part, and the upper part A specifying step of specifying a noun or a noun phrase indicating the subject to which the verb defined in step 1 is related. An identity determination step of determining identity between the noun or noun phrase identified in the identification step and the noun or noun phrase related to the extracted verb. An exclusion processing step of excluding, from the case components to be extracted, those nouns or noun phrases that are determined to be the same among the nouns or noun phrases related to the extracted verb.
また、識別工程では、形態素で結ばれた複数の名詞又は名詞句からなる文言を順次抽出し、上記抽出した文言がその上段で既に定義されているか識別を行うようにしてもよい。そして、除外処理工程では、識別工程における識別の結果、当該抽出した文言が、その上段で既に定義されていた旨を識別した場合には、当該抽出した文言を抽出すべき格成分から除外するようにしてもよい。 In the identification step, words composed of a plurality of nouns or noun phrases connected by morphemes may be sequentially extracted, and identification may be performed to determine whether the extracted words have already been defined in the upper part. Then, in the exclusion processing step, as a result of the identification in the identification step, when it is identified that the extracted word has already been defined in the upper part thereof, the extracted word is excluded from the case components to be extracted. It may be.
例えば、「マルチコントロールユニットとの接続時に・・・・・・」とあった場合には、初回は、下線部を格成分として抽出する。また、同じ請求項において、「上記マルチコントロールユニットとの接続時に・・・」と2回目以降で同一の文言が現れた場合、2回目以降は、二重カウントを避けるためにこれらをまとめて1格成分とするか、或いは、これらを格成分として抽出しないように処理動作を行う。 For example, in the case of " When connecting to the multi-control unit ...", the underlined part is extracted as the case component for the first time. Further, in the same claim, if the same wording appears in the second and subsequent times as " when connected to the multi-control unit ," these are combined into one in order to avoid double counting. A processing operation is performed so as to be a case component or not to extract them as a case component.
即ち、「名詞又は名詞句」+「形態素」+「名詞又は名詞句」についても同様に、二重定義となっていないかチェックを行う。 That is, it is also checked whether "noun or noun phrase" + "morpheme" + "noun or noun phrase" is not defined twice.
(4)形態素について (4) About morpheme
「名詞又は名詞句」+「A」+「名詞又は名詞句」からなる文言を抽出した場合において、A=「までの」、「への」、「との」、「にて」、「や」の何れかの場合には、この「A」によって隔てられる個々の「名詞又は名詞句」を別々に格成分として抽出する。 In the case where a word consisting of “noun or noun phrase” + “A” + “noun or noun phrase” is extracted, A = “to”, “to”, “to”, “at”, “ya” , The individual “nouns or noun phrases” separated by the “A” are separately extracted as case components.
また、A=「のうち」の場合には、この「A」によって隔てられる個々の「名詞又は名詞句」を1つの格成分として抽出する。 When A = “of”, each “noun or noun phrase” separated by this “A” is extracted as one case component.
(5)おいて書き(プリアンブル)の発明の名称はカウントしない (5) The name of the invention of the preamble is not counted
「〜Aにおいて、・・・・・を特徴とするB。」という請求項の記載において、「〜Aにおいて」は、おいて書き(プリアンブル)と呼ばれる。このプリアンブルでは、Aについて発明の名称を入れる場合が多い。発明の名称は、特許請求の範囲の語尾「〜を特徴とするB。」においても、Bについて発明の名称を入れる場合が多い。このような発明の名称は、格成分として抽出しないようにする。発明の名称の文言は、明細書中の発明の名称の記載から引用すればよい。Bは発明の名称と100%一致している場合が多いが、Aは一致していない場合も多々ある。このため、「おいて、」、「であって、」の前にあるA[名詞]を拾い出し、これがB(発明の名称と100%一致が前提)の一部分が含まれていれば、発明の名称とみなして、これを格成分として抽出しないような処理を行うようにしてもよい。つまり、Aについては、発明の名称と100%一致しなくても、少しでも重複していればよいという趣旨である。 In the description of the claim "B is characterized by ... in A", "in -A" is called "preamble". In this preamble, the name of the invention is often entered for A. Regarding the title of the invention, the name of the invention is often entered for B even at the end of the claims, "B characterized by ...". Such a title of the invention is not extracted as a case component. The wording of the title of the invention may be cited from the description of the title of the invention in the specification. B often matches 100% with the title of the invention, but A often does not. For this reason, A [noun] in front of “Oto,” and “Dat,” is picked up, and if this includes a part of B (assuming that the name of the invention matches 100%), the invention May be regarded as a name and a process of not extracting this as a case component may be performed. In other words, the meaning of A is that even if it does not coincide 100% with the title of the invention, it is only necessary that it overlaps a little.
即ち、この(5)では、抽出した文字列に発明の名称と同一又はその一部に相当する文言が含まれていた場合には、当該文言を抽出すべき格成分から除外するような処理を行うことでもよい。 That is, in this (5), if the extracted character string contains a word that is the same as or a part of the name of the invention, a process of excluding the word from the case components to be extracted is performed. It may be done.
(6)代名詞等について
「これ」、「それ」、「あれ」、「どれ」、「ここ」、「そこ」、「あそこ」、「どこ」の何れかからなる代名詞については、抽出すべき格成分に含めるようにしてもよい。これらは、代名詞であっても、役割としては上述した格成分としての働きをするものであり、本来格成分に含めるべきものであるからである。これにより高精度な格成分抽出が可能となる。
(6) Pronouns For pronouns composed of any of "this", "it", "that", "which", "here", "there", "there", "where", the case to be extracted You may make it include in a component. Even if these are pronouns, they function as the case components described above, and should originally be included in the case components. This enables highly accurate case component extraction.
これに対して、副詞(「こう」、「そう」、「ああ」、「どう」の何れか)、連体詞(「この」、「その」、「あの」、「どの」の何れか)を抽出すべき格成分から除外するようにしてもよい。 On the other hand, adverbs (any of "this", "so", "oh", "how") and adverbs ("this", "that", "that", "any") are extracted You may make it exclude from the case component which should be.
(7)明細書の参酌について
自動抽出では、一の名詞と判断すべきか、2以上の名詞で構成されているのか紛らわしい場合がある。係る場合には、明細書の記載を参酌するようにしてもよい。
(7) Regarding reference to the specification In the automatic extraction, it may be confusing whether it should be determined as one noun or whether it is composed of two or more nouns. In such a case, the description in the specification may be referred to.
例えば、「背もたれの後傾範囲を」→「背」と「後傾範囲」で格成分を分けて抽出してしまう場合もある。背もたれの斜傾移動→「背も」たれの「傾斜移動を」で格成分を分けて抽出してしまう場合もある。前記背もたれの背面→まとめて1格成分なのに格成分を分けて抽出してしまう場合もある。第1のテーブル書き込み手段→格成分を分けて抽出してしまう場合もある。プリンタ割り当て指示手段→格成分を分けて抽出してしまう場合もある。 For example, there is a case where the case component is extracted separately from “back tilt range of backrest” → “back” and “back tilt range”. In some cases, the case component may be extracted by dividing the case component by “tilting the backrest → tilting the back”. There is a case where the case component is divided and extracted even though it is a single case component at the back of the backrest. First table writing means → case component may be extracted separately. Printer allocation instruction means → case component may be extracted separately.
このため、明細書の記載に基づいたチェック機能を設ける。例えば、上述の「背もたれの後傾範囲を」の例の場合、明細書中の[符号の説明]には「背もたれ」という構成があるはずである。この符号の説明を参照すれば、「背もたれ」を「背も」で切ってしまうようなことは避けられるはずである。また[実施の形態]にも ●●●5、とか●●●8とか、構成に符号が付いているのでそこからソートして、名詞を拾い出していくことで、チェックができるはずである。つまり、請求の範囲のみならず、明細書の記載も積極的に活用し、チェックを行っていく。即ち、特許請求の範囲の記載から抽出した文字列から格成分を構成する名詞を抽出する際に、その名詞を構成する文字列か否かの判断を、明細書中の記載を参酌しつつ実行する。これにより、名詞の抽出精度を向上させることができる。 For this reason, a check function based on the description in the specification is provided. For example, in the case of the above-mentioned example of “the back tilt range of the backrest”, the description of the reference numeral in the specification should include the configuration of “the backrest”. By referring to the description of the reference numerals, it is possible to avoid cutting the “back” with the “back”. Also, in [Embodiment], since there is a sign in the configuration such as ●●● 5, ●●● 8, etc., it should be possible to sort by therefrom and pick out nouns to check. In other words, not only the scope of the claims but also the description in the specification is positively utilized for checking. That is, when extracting a noun constituting a case component from a character string extracted from the description of the claims, a determination is made as to whether or not the noun is a character string constituting the noun while referring to the description in the specification. I do. Thereby, the extraction accuracy of the noun can be improved.
(8)ORのルールの補充
「〜のうち少なくとも1つ」という文言があった場合には、「〜の少なくとも1つ」に係り受けするものをまとめて1格成分でカウントする。
(8) Replenishment of OR Rule When there is a phrase “at least one of”, items related to “at least one of” are counted together as one rank component.
例)「それらベースのうちの少なくとも一つ」→1格成分。「背もたれの左右両側部のうち少なくともいずれか一方の下部」→まとめて1格成分。「座部の後端部における迫り上がりの基端部に若しくは該基端部よりも前方位置」→「まとめて1格成分」。「同一方向に横一列に隣接させて並べるか、あるいは相互に直交する方向に配列するかして」→「又は」に相当するため、まとめて1格成分。「ビンのユーザのうち少なくとも一方」→まとめて1格成分。「入力されたページ情報のうちの画像情報」→まとめて1格成分。 Example) "At least one of those bases" → 1 rank component. "The lower part of at least one of the left and right sides of the backrest." "At the rear end of the seat at the rising base end or at a position forward of the base end" → "one component at a time". "Whether they are arranged side by side in the same direction or arranged in a direction orthogonal to each other" → "or", so they are collectively one rating component. “At least one of bin users” → collectively one rating component. “Image information of input page information” → collectively one rating component.
つまり、抽出された文字列が、複数の名詞又は名詞句を示す文言の後に、それら複数の名詞又は名詞句の「少なくとも1つ」以上を示す条件が付加されていた場合には、当該複数の名詞又は名詞句を個々に格成分として抽出することなく、まとめて1つの格成分として抽出する。 That is, if the extracted character string is followed by a phrase indicating a plurality of nouns or noun phrases, and if a condition indicating “at least one” of the plurality of nouns or noun phrases is added, the plurality of Nouns or noun phrases are extracted as a single case component without being individually extracted as a case component.
(9)その他 (9) Other
「動詞」+「こと」で表示される文言は、これのみで1格成分として抽出する。例えば、「操作されることに」→「操作される」は動詞だが、「こと」で一つの名詞句を構成する。名詞句は格成分になる。「経過したこと」→名詞形であるため、カウントする。つまり、動詞を「こと」につなげた、動詞の名詞形を格成分として抽出する。 A word displayed by “verb” + “koto” is extracted as one case component by itself. For example, “being operated” → “being operated” is a verb, but “thing” constitutes one noun phrase. Noun phrases become case components. "Elapsed" → counts because it is a noun form. That is, the noun form of the verb in which the verb is connected to "koto" is extracted as a case component.
また、「略」、「若干」、「順次」は、抽出すべき格成分から除外する。 Also, “abbreviated”, “slightly”, and “sequentially” are excluded from case components to be extracted.
更に、「名詞」+「の」+「形容詞」+「名詞」からなる文言があった場合には、これらをまとめて1つの格成分として抽出するようにしてもよい。例えば、「仰角の大きいGPS衛星」は、この形態に相当するが、これらをまとめて1つの格成分として抽出する。 Further, when there is a word composed of “noun” + “no” + “adjective” + “noun”, these may be collectively extracted as one case component. For example, the “GPS satellite having a large elevation angle” corresponds to this form, but these are collectively extracted as one case component.
また、「数値〜数値」のように、「〜」を介して数値範囲を決める文言もある。例えば、「温度が19〜30℃」は、「温度が19℃から30℃」に書き換えることができ、「から」は形態素であるから、19℃、30℃はそれぞれ独立した格成分として抽出されるべきであって、これらをまとめて一つの格成分として抽出されるべきものではない。つまり、このような記載があった場合には、当該「〜」で隔てられた数値をそれぞれ格成分として抽出する。 In addition, there is a phrase such as “numerical value to numerical value” that determines a numerical value range through “to”. For example, “Temperature 19-30 ° C.” can be rewritten as “Temperature 19 ° C. to 30 ° C.”, and “kara” is a morpheme, so 19 ° C. and 30 ° C. are extracted as independent case components, respectively. They should not be extracted together as one case component. In other words, when such a description is made, the numerical values separated by “to” are extracted as case components.
第3実施形態Third embodiment
格成分を抽出する際には、下記のルールに基づくものであってもよい。この第3実施形態において、下線部が続いているところが、抽出すべき1格成分に相当する。また、以下において「カウント」と称しているのは、格成分としてカウントするか否かである。 When extracting a case component, it may be based on the following rules. In the third embodiment, the portion underlined corresponds to one case component to be extracted. In the following, what is referred to as “count” is whether or not to count as a case component.
(1)「場合に」のルール
以下の形態素Z(場合に、〜ときに、〜時に、〜間に、〜か否か、〜都度、〜際に、〜毎に、〜では、〜ほど、〜中、〜状態で、〜すれば、〜ければ、〜態様で、等)のいずれかを含む節を検出した場合には、A、B、Cが名詞又は名詞節とした場合に、
「AがBを(動詞)+Z」という記載で、且つAが当該記載よりも上段で既に定義されている場合には、当該記載をまとめて1格成分として抽出し、Aが当該記載よりも上段で未だ定義されていない場合には、Aと、Bとを互いに別々の格成分として抽出する。
(1) The rule of "in case" The following morpheme Z (in case, when, during, between, whether or not, every time, every time, every time, at the time, If a clause containing any of the following is detected: A, B, C is a noun or a noun clause,
If “A is B as (verb) + Z” and A is already defined above the description, the description is collectively extracted as one component, and A is If not defined in the upper part, A and B are extracted as separate case components.
(1−1) Aが上段で既に登場している場合
AがBを出力する場合に→まとめて1格成分。
Cに対するAがBを出力する場合に→あくまでB+Aのところで1格成分数とし、Cは別個にカウント。
なぜならば、以下の(2)の主語のルールに倣うためである。
例)前記総データ量が前記記録メディアの空き容量を超える場合に→1格成分数。「前記総データ量」は既に出てきているため、ノーカウント。
(1-1) When A has already appeared in the upper row
If A outputs B → one component at a time.
When A for C outputs B → Only B + A is counted as one case component, and C is counted separately.
The reason is to follow the rule of the following subject (2).
For example, when the total data amount exceeds the free space of the recording medium → 1 number of components. "The total data amount" has already been issued, so no count.
(1−2) Aが上段で既に未登場の場合
AがBを出力する場合に→2格成分。
Cに対するAがBを出力する場合に→A、B、Cは別個にカウント。
なぜならば(2)の主語のルールに倣うため。
例えば、たねセルのサイズがしきい値以下である場合に→1格成分数。「たねセルのサイズ」は初めて出てきたものであるため、格成分としてカウント。
(1-2) When A is in the upper row and has not yet appeared
When A outputs B → 2 case components.
When A for C outputs B → A, B, C are counted separately.
Because it follows the rule of the subject of (2).
For example, when the size of the seed cell is equal to or smaller than the threshold value → the number of components per case. Since "seed cell size" was first introduced, it was counted as a case component.
(1−3) 他の例
△△(動詞)としたとき
・AにBを△△する場合に→2格成分。
・Bを△△する場合に→1格成分。
・Aが△△する場合に→1格成分。
・Aに△△する場合に→1格成分。
Aが前段で出ていても出ていなくても1格成分数。例えば、前記異常が検出された場合→1格成分数
(1-3) Other example When Δ △ (verb) is used. ・ When B is added to A → 2 case components.
・ If B is △△ → 1 rank component.
・ If A is → → 1 rank component.
・ In the case of A, → 1 rank component.
The number of components per rank, regardless of whether A appears in the previous stage or not. For example, when the abnormality is detected → Number of components per case
(1−4) (1)場合のルールを当てはめる他のケースとして、例えば以下の形態素がある。
「〜場合に」=〜ときに、〜時に、〜間に、〜か否か、〜都度、〜と(入力されると=入力された場合)、〜際に、〜毎に、〜では、〜ほど、〜中、〜状態で、〜すれば、〜ければ、〜態様で、〜か=(〜するか否か)、〜も(場合にも)。
なお、これらの形態素に「には」が付く場合も同様
(1-4) Another case where the rule of (1) is applied is, for example, the following morpheme.
“When” = when, during, during, between, or not, each time, with (when input = input), at every time, every time,ほ ど, 中, 状態, 状態, 〜, 〜, 態 様, 態 様 (whether or not), and も (in some cases).
In addition, the same applies to the case where "
(1−5) (1−4)の例
上記データポインタの追加もしくは削除を伴う処理結果を取り消す際に、=上記データポインタの追加もしくは削除を伴う処理結果の取り消しがあった場合に。つまり、場合のルールに従い2格成分である。
(1-5) Example of (1-4)
When canceling the processing result involving the addition or deletion of the data pointer , = when the processing result involving the addition or deletion of the data pointer is canceled . That is, it is a second case component according to the rules of the case.
(2)主語のルール
(2−1) 原則ルール
前記●●が〜 ●●が構成要素であってもなくてもカウントしない・・・(A)。
○○が〜 ○○は初めて出てくるものであることからカウント・・・(B)。
このとき(A)であっても
●●が〜する (能動態)→カウントしない。なぜならば、既に定義した構成の限定に過ぎないため。
●●が〜される(受動態)→カウントする。なぜならば●●を〜する、と同意であり、処理動作が1回実行されることとなる。つまり、座標が入力されていることに係る処理の処理状態=座標を入力することに係る処理の処理状態→座標と処理状態を別個にカウントする。2格成分数。
(2) Subject Rule (2-1) Principle Rule ●● is not counted even if ●● is not a constituent element ... (A).
OO is ... OO is the first thing to come out and counts ... (B).
At this time, even in the case of (A), ●● is ... (active) → Do not count. Because it is just a limitation of the configuration already defined.
●● is ~ (passive) → count. This is because the operator agrees to perform ●, and the processing operation is executed once. In other words, coordinate counts separately the processing state → coordinate with the processing state of the processing relating to entering the processing state = coordinates of a process related to being input. Number of two components.
例えば、座標が入力されていることに係る処理の処理状態→座標が初めて出てきたものであるから(B)パターン。
例えば、上記コード変換が行われた文字データを→コード変換は以前出てきたから(A)パターン。但し、動詞が「行われた」で受身形となっているため、「上記コード変換」は格成分としてカウントする。
例えば、前記排気バルブが開閉して →排気バルブは以前出てきたから(A)パターン。動詞が「開閉し」が能動形となっているため、「前記排気バルブ」は格成分としてカウントしない。
例えば、上記第1のエラーが検出されたとき→主語のルールによれば、「検出された」が受身形だから1格成分数、といいたいとろだが、場合のルールが生きるため、まとめて1格成分数。
For example, the processing state of the processing relating to the input of the coordinates → the coordinates are the first to appear (pattern (B)).
For example, the character conversion is performed on the character data . However, since the verb is in the passive form of "performed", "code conversion" is counted as a case component.
For example, when the exhaust valve opens and closes → pattern (A) because the exhaust valve has come out before. Since the verb “open / close” is active, the “exhaust valve” is not counted as a case component.
For example, when the first error is detected → According to the rule of the subject, since “detected” is a passive form, it is a good idea to call it the number of one case component. Number of components per case.
(2−2) 主語が複数のケースであっても、上述したルールに則る。
例えば、AとBがCとなっている→AとBが新規に出てくるものであれば、3格成分、既に出ているものであれば、1格成分(AとBをまとめてひとつの主語と考え、それがCとなっている、と考えれば1格成分)。例えば、AとBがCとされている→受身形だから、個々にカウント。3格成分。
(2-2) Even if the subject has a plurality of cases, the rule described above is followed.
For example, if A and B are C → A and B come out newly, three case components, and if they already appear, one case component (A and B together If you think that it is C, you have 1 case component). For example, A and B are set to C-> Since they are passive, they are counted individually. Three case components.
(3)構成要素のルール
(3−1) 特許請求の範囲の記載パターンと格成分数
(3-1-1) 物の発明のパターン
全く同一の発明を書き流し方式と、要件列挙方式とで定義すると下記になる。
・書き流し方式
「〜Aに〜Bが配設され、
このBに〜からなるCが接続され、
上記CにDが取り付けられてなること を特徴とする装置」
=7格成分数
・要件列挙方式
「〜Aと、
上記Aに配設された〜Bと、
上記Bに接続された、〜からなるCと、
上記Cに取り付けられたDとを備えること
を特徴とする装置」
4格成分数 (構成要素を入れると8格成分数)
要件列挙方式のように、構成要素をカウントしない場合、下線の格成分数は、それぞれの構成要素が実現しようとする命題実現に必要な条件数になる。書き流し方式では、下線の格成分数は、発明の名称(装置)で実現しようとする命題に必要な条件数となる。
要件列挙方式においても、求めようとする格成分数の命題実現対象は、構成要素ではなく、究極的にはやはり装置になるのではないか。つまり、要件列挙方式において、装置は、A、B、C,Dを備える。そして、各A、B、C、Dがそれぞれの命題を実現する、と考えればよいのでは。「装置は、A、B、C,Dを備える。」と定義したときに、ちょうどA、B、C,Dが「装置」という主語が「備える」という命題を実現する上で必要な条件となるため、格成分となる。
このため、要件列挙方式でもそれぞれ構成要素を格成分としてカウントするとしても、論理的なつじつまは合う。また要件列挙方式と、書き流し方式の方式上の差異による格差も解消できる。
(3) Rule of constituent elements (3-1) Pattern described in claims and number of case components (3-1-1) Pattern of product invention Defined by completely writing out inventions with exactly the same invention and defining requirements Then, it becomes the following.
・ Writing method " ~ B is arranged in ~ A ,
C consisting of this B are connected,
An apparatus characterized in that D is attached to C above. "
= 7 components
・ Requirement enumeration method "~ A,
~ B arranged in the above A ,
Connected to said B, a C consisting of,
An apparatus characterized by comprising D attached to C above. "
Number of 4 components (8 components including components)
When components are not counted as in the requirement enumeration method, the number of underlined case components is the number of conditions necessary for realizing the proposition to be realized by each component. In the rewriting method, the number of underlined case components is a condition number necessary for a proposition to be realized by the title (device) of the invention.
Even in the requirement enumeration method, the object of the proposition of the number of case components to be obtained is not a component but an ultimate device. That is, in the requirement enumeration method, the device includes A, B, C, and D. Then, it should be considered that each of A, B, C, and D realizes each proposition. When it is defined that "a device has A, B, C, and D", the conditions necessary for A, B, C, and D to realize the proposition that the subject of the "device" is "provided". Therefore, it becomes a case component.
For this reason, even in the requirement enumeration method, even if each component is counted as a case component, it is logically consistent. In addition, differences due to differences between the requirement enumeration method and the rewriting method can be eliminated.
(3-1-2) 方法の発明のパターン
・要件列挙方式
「〜A工程と、
上記A工程により製造されたOにPを添加するB工程と、
上記B工程において得られたQをRで加熱するC工程と、
上記C工程において加熱されたSを抽出するD工程とを有すること
を特徴とする方法」
黄色:8 緑:4 合計12
・書き流し方式
「A工程により製造されたOにPを添加し、
上記B工程において得られたQをRで加熱し、
上記C工程において加熱されたSを抽出すること
を特徴とする方法」
黄色:8 緑:0 合計8
(3-1-2) Pattern / requirement enumeration method of method invention
A B step of adding P to O produced in the A step ,
A C step of heating the Q obtained in the B step with R ,
A step of extracting the heated S in the step C).
Yellow: 8 Green: 4 Total 12
・ Write-through method "Add P to O produced in process A ,
Heating the Q obtained in the step B with R ,
Extracting the heated S in the step C).
Yellow: 8 Green: 0 Total 8
構成要素(A〜D工程)は、単なる名前だけであり、特に発明特定事項の限定にはなっていない。構成要素を格成分に入れてしまうと帰って方式間の格差が目立ってしまう。 The constituent elements (A to D steps) are merely names, and do not particularly limit the matters specifying the invention. If components are included in the case components, the differences between the methods will be noticeable.
上述した検討から、方法の発明において出てくる構成要素(工程やステップ)は格成分に含めないものとしてもよい。また、方法の発明において出てくる構成要素(工程やステップ)は格成分に含めるようにしてもよい。また、物の発明において出てくる構成要素を格成分に含めてカウントするようにしてもよい。また、物の発明において出てくる構成要素を格成分に含めないようにしてもよい。 From the above discussion, components (processes and steps) appearing in the method invention may not be included in the case component. Further, components (processes and steps) appearing in the method invention may be included in the case component. Further, the components appearing in the invention of the product may be counted by being included in the case component. In addition, the components appearing in the invention of the product may not be included in the case component.
物は構成要件列挙方式を書き流し方式に変換する際においても、必ず構成要素を入れなければならない(物の発明の構成要素は目に見えて具現化される)。方法は、構成要件列挙方式から書き流し方式に変換する上で特に工程名やステップ名を入れなくても十分通じる(なぜならば、方法の各工程は、目に見えない概念的なもの。発明の構成に現れてこない) A product must always include components even when converting the component requirement enumeration system to the write-down system (the components of the product invention are visibly embodied). The method is sufficient for converting from the constituent requirement enumeration method to the writing-through method without inserting a process name or a step name (because each step of the method is an invisible conceptual concept. Does not appear in
(3−2) 発明の名称(=請求項の末尾に出てくる名称)は、格成分としてカウントしない。 (3-2) The title of the invention (= name appearing at the end of the claim) is not counted as a case component.
(4)二重定義のルール
既に前段で定義された発明特定事項や、前段で定義されている処理動作について、後段で再度カウントすると二重カウントとなってしまう。このため後段ではカウントしない。
(4) Rule of double definition If the invention-specific matter already defined in the previous stage or the processing operation defined in the previous stage is counted again in the subsequent stage, double counting will result. Therefore, it is not counted in the subsequent stage.
(4−1)「前記登録手段による登録」→前記登録手段は既に登録を行うというアクションが前段で終わっている場合、前記登録手段による登録とせずに、前記登録手段による登録とする。 (4-1) action called "the registration registration by means" → said registration means already to register is a case where it ends in the preceding paragraph, without registration by the registration means, and registered by the registration means.
他の例)1回目で「そのキーを含むインデクスエントリ」が登場してきた→含む、が動詞であり、それぞれ分けて格成分をカウント。次に2回目で「そのキーを含むインデクスエントリ」が登場してきた→前回出てきたものを受けているため、分けてカウントせず、まとめて1格成分。 Another example) " Index entry including the key " has appeared in the first time → Include is a verb, and the case component is counted separately. Next, the " index entry including the key " appeared in the second time. Since the item that appeared last time has been received, it is not counted separately, but collectively as one rank component.
(4−2) 「Aを作成するイメージ化手段と、前記イメージ化手段により作成されたAを〜」
「前記イメージ化手段により作成されたAを」については、純粋に格成分数をカウントしようとした場合に、「前記イメージ化手段により」の部分は、形態素「により」が存在するため、「前記イメージ化手段」は独立してカウントできる格成分数といえる。しかしながら、イメージ化手段によりAを作成するという命題は既に前段で実現されてしまっている。このため、「前記イメージ化手段」をもう一度ここでカウントしてしまうこととなれば、それはAを作成するという命題が再度実現されてしまうため、二重に命題を実現してしまうこととなる。命題の実現性に応じたパラメータとしての格成分数の趣旨から外れてしまうため、ここでは、「前記イメージ化手段により作成された」という文言を「Aを」に合体させて1格成分数とする。
(4-2) "Imaging means for creating A and A created by the imaging means ~"
Regarding "A created by the imaging means" , when trying to count purely the number of case components, the part of "by the imaging means" has a morpheme "by". The “imaging means” can be said to be the number of case components that can be counted independently. However, the proposition of creating A by the imaging means has already been realized in the previous stage. For this reason, if "the imaging means" is counted again here, the proposition of creating A is realized again, and the proposition is realized twice. Since the number of case components as a parameter corresponding to the feasibility of the proposition deviates from the purpose, here, the phrase "created by the imaging means " is combined with "A" to form one case component number. I do.
(4−3) 「印刷物の印刷枚数を算出する印刷枚数算出手段と、上記印刷枚数算出手段により算出された印刷枚数を〜」
「上記印刷枚数算出手段により算出された印刷枚数を〜」については、純粋に格成分数をカウントしようとした場合に、「上記印刷枚数算出手段により」の部分は、形態素「により」が存在するため、「上記印刷枚数算出手段」は独立してカウントできる格成分数といえる。しかしながら、上記印刷枚数算出手段により印刷枚数を算出するという命題は既に前段で実現されてしまっている。このため、「上記印刷枚数算出手段」をもう一度ここでカウントしてしまうこととなれば、それは印刷枚数を算出するという命題が再度実現されてしまうため、二重に命題を実現してしまうこととなる。命題の実現性に応じたパラメータとしての格成分数の趣旨から外れてしまうため、ここでは、「上記印刷枚数算出手段により算出された」という文言を「印刷枚数を」に合体させて1格成分数とする。
(4-3) "and the number of printed sheets calculating means for calculating the number of printed sheets of printed material, - the number of printed sheets calculated by the number of printed sheets calculating means"
As for "from the number of printed sheets calculated by the above-described number-of-printed-sheets calculating means", the morpheme "by" is present in the part "by the above-mentioned number-of-printed-sheets calculating means" when purely trying to count the number of components. Therefore, it can be said that the “number of printed sheets calculating means” is a case component number that can be counted independently. However, the proposition that the number of prints is calculated by the print number calculator has already been realized in the previous stage. For this reason, if "the number of printed sheets calculating means" is counted again here, the proposition that the number of printed sheets is calculated is realized again, so that the proposition is double realized. Become. In this case, the word “calculated by the above-described print number calculation means” is combined with “the number of prints” to make one case component, because it deviates from the meaning of the number of case components as a parameter corresponding to the feasibility of the proposition. Number.
(5)副詞のルール
(5−1)動詞に直接係りうけする副詞はカウントしない。
例えば「 〜的に、〜自在に、〜可能に、〜不能に、〜不可に」等、また、「〜より速く移動すること」、のように動詞「移動する」に係り受けする副詞「速く」も同様にカウントしない。また、「〜的」等のような文言を用いることなく例えば「一体に」等のように一言で副詞としての機能を発揮するものもある。
(5) Adverb rules (5-1) Adverbs directly related to verbs are not counted.
"In ~, the ~ freely, to be ~, so as not to ~, ~ not the" example like, Also, "move faster than ~" adverb "fast for receiving relates the verb" move "as Does not count as well. Further, there is also a case where the function as an adverb is expressed in a single word such as "integrally" without using a word such as "to".
(5−2) 〜ように
例えば、「(動詞)ように(動詞)」のパターン(EX 中止するように指示する)では、副詞とみなしてカウントしない。
(5-2)-As described above, for example, in the pattern of "(verb) like (verb)" (instructing to stop EX), it is not counted as an adverb.
(6)動名詞のルール
動名詞は、動詞と一体化させ、格成分としてカウントしない。ここでいう動名詞の例は下記である。
(6) Rules for gerunds Gerunds are integrated with verbs and are not counted as case components. Examples of gerunds here are as follows.
(6−1)Aを司る=Aをする、と同意。例えば、制御を司る→制御する、と同意である。つまり動名詞だから「制御を」のところでは格成分をノーカウントする。 (6-1) Agree with A = Agree to do A. For example, it is consent to control → control. In other words, because it is a gerund, no case component is counted at the place of "control."
(6−2)●●を行う=●●する、と同意。
通信を行う→通信する と同意。「通信を」のところで格成分をカウントしない。制御を行う→動名詞(なぜならば、制御する、と同義)。「行う」以外には、「実行する」等がある。
(6-2) Performing ●● = agree to do.
Communicate → agree to communicate. The case component is not counted at "communication". Control → gerund (because it is synonymous with control). In addition to “do”, there is “execute” and the like.
(6−3) 一言で動作を表現できるもの、例えば、「協働」、「動作」等。協働により=協働することにより、と同意だからカウントせず。開閉弁動作により→開閉弁動作することにより、と同意だからカウントせず。「協働により」は、「協働することにより」と同義。協働は名詞であるから通常は格成分を構成する。しかし、これを後者のように定義した場合には、格成分としてカウントされない。
このような誤差を無くすためには、動名詞+により(等のような形態素)の場合には、カウントしないようにする。動名詞とは、協働などのような動きを一言で表すことができる名詞も意味する。
(6-3) What can express an action in one word, for example, "cooperation", "action", and the like. By collaborating = By collaborating, we do not count because we agree. By opening / closing valve operation → By operating the opening / closing valve, we agree with it, so we do not count. " By collaboration " is synonymous with "by collaboration ." Cooperation is a noun and usually constitutes a case component. However, if this is defined as the latter, it is not counted as a case component.
In order to eliminate such an error, in the case of a gerund (a morpheme such as), counting is not performed. A gerund also means a noun that can express a movement such as collaboration in one word.
(7)形容詞のルール
名詞に係り受けする形容詞や、名詞を修飾する修飾語は、名詞と一体化させて考え、特に独立してカウントすることはしない。
例えば「〜の大きな取っ手を」、「〜によって入力可能な情報を」。何れも名詞に係りうけするものであるからまとめて1格成分とする。
例えば、「着脱可能な記憶媒体」、「〜可能な」という形容詞が名詞「記憶媒体」に係りうけするが、このような形容詞も名詞と合わせて1格成分数とする。
例えば、「〜のような(名詞)」→このパターンも同様に名詞と形容詞を含めて1格成分数とする。
例えば、「の+状態動詞(形容詞も含む)」このケースでは、状態動詞のところで1回区切る。例えば、「2段階の周波数の異なる駆動パルス信号」
(7) Rules for adjectives Adjectives related to nouns and modifiers that modify nouns are considered integrated with nouns, and are not particularly counted independently.
For example, “ a large handle of” or “ information that can be input by using”. Since both are related to nouns, they are collectively referred to as one case component.
For example, the adjectives " removable storage medium " and "-possible" are related to the noun "storage medium", and such adjectives are combined with the noun to have one case component.
For example, “like (noun)” → this pattern also includes a noun and an adjective as one case component.
For example, "+ state verb (including adjectives)" In this case, it is divided once at the state verb. For example, “ Driving pulse signals with two different frequencies ”
(8)形態素の各ルール1(分断する形態素)
以下のA、Bは名詞又は名詞句とする。また「区切る」、「分断する」の意味は、A、Bをともに合わせて1格成分数とせず、互いに、A、B独立した格成分として抽出し、2格成分数としてカウントするという意味である。
(8) Each rule 1 of morpheme (morpheme to be divided)
The following A and B are nouns or noun phrases. Also, the meanings of “separate” and “separate” mean that A and B are not combined into one case component, but are extracted as A and B independent case components and counted as two case components. is there.
(8−1)「〜と」、「〜に」、「〜を」、「〜で」→必ず区切る原則的な形態素である。
(8−2)「Aによって、〜」→方法、手段を示す格成分であることから、分断して1格成分としてカウント。
(8−3)「〜へ」、「〜への」
作用を及ぼす対象や行き先を規定する格成分になるため、分断する。「〜への」→「〜に対する」、と同義であり、 「としての」とか「の」のような内部的なものではなく、他の構成要素に対する影響を及ぼすものである。このため、分断する。
(8−4)「Aに用いるB」→用途を示す格成分である。この場合も分断する。
(8−5)「Aを示すB」→ひとまとめにせず、分断する。なぜならば、「示す」は、表示する と同意であり、動詞でもある。
(8−6)「により」→手段を表す格成分、分断して1格成分としてカウントする。
(8−7)「のために」→目的を表す格成分、分断して1格成分としてカウントする。
(8−8)「AのためのB」も上述と同様である。「名詞句 のための 名詞句 」→〜のために=目的を表す格成分 2格成分数。「動詞 ための 名詞句 」→名詞句のみカウント、動詞はカウントしない。このため、1格成分である。例えば、「制御するための制御器を」→「制御するための」のところでは格成分数をカウントしない。
(8−9)「との間」→両者の間にあるものを特定する格成分。分断して1格成分としてカウントする。例えば、「AとBとの間におけるC」→A、B、Cそれぞれ独立して格成分数をカウント、この場合は3格成分数。
(8−10)「Aを含むB」→AとBは分断する。 (一格成分に含まない)
(8−11)「AとのB」→「と」と同格であるから分断する。例えば、前記構造化文書の要素と前記第1表示文書の要素との対応関係、
AとBとのC→A、B、Cそれぞれカウント
(8−12)「から」、「AからのB」、「AからなるB」→始点と終点の経路、或いは原料示す格成分であるから分断する。
(8−13)「〜にて」、→において、と同意だから区切る。
(8−14)「Aに伴うB」→に応じて、と同意だから区切る。
(8-1) “to”, “to”, “to”, “to” → Principal morpheme that always separates.
(8-2) "By A , ~" → Case component indicating method and means, divided and counted as one case component.
(8-3) "to", "to"
Since it becomes a case component that determines the target and the destination where the action is performed, it is divided. It is synonymous with "to"->"to", and is not an internal thing like "as" or "of", but has an effect on other components. For this reason, it is divided.
(8-4) “ B used for A ” → a case component indicating a use. In this case also, it is divided.
(8-5) " B indicating A " → Divide without grouping. Because, "show" is an agreement to display and is also a verb.
(8-6) “By” → case component representing means is divided and counted as one case component.
(8-7) “For” → case component representing the purpose is divided and counted as one case component.
(8-8) "B for A" is the same as above. “ Noun phrase for noun phrase ” → for = case component representing purpose Two case components. "Noun phrase for verb" → counts only noun phrases, not verbs. For this reason, it is a 1st rank component. For example, the number of case components is not counted at "controller for control" → "for control".
(8-9) “between” and “case component” that specifies something between the two. It is divided and counted as one case component. For example, “C between A and B” → A, B, and C each independently count the number of case components, in this case, the number of case components.
(8-10) " B including A " → A and B are separated. (Not included in extra components)
(8-11) Since it is the same rank as " B with A " → "to", it is divided. For example, correspondence between the elements of the previous SL element and the first display document of the structured document,
C → A, B, C each count of A and B (8-12) "of", "B from A", is "composed of A B" → the start and end points, or the raw material shown rated component Divide from.
(8-13) Because we agree with “at” and →, we divide.
(8-14) According to “ B accompanying A ” →, we agree with and separate.
(9)形態素の各ルール(一体化する形態素)
以下のA、Bは名詞又は名詞句とする。また「一体化する」の意味は、互いにA、B独立した格成分として抽出せず、A、Bをともに合わせて1格成分数として抽出するという意味である。
(9) Each rule of morpheme (morpheme to be integrated)
The following A and B are nouns or noun phrases. In addition, the meaning of “integrate” means that A and B are not extracted as independent case components, but A and B are combined and extracted as one case component number.
(9−1)「には」
(1)の「場合」、「とき」等にくっついている場合が大半。これらと一体化して考えればOK。
それ以外では、「上記●●手段には、」とか「前記取付体には」等のように直接名詞にくっつく場合がある。このような場合は、「には」=「に」と翻訳して考えてよく、「には」がくっついた名詞は、格成分として抽出する。
(9−2)「とする」
“とする”→“の”と同格。例えば、対戦相手とする端末→対戦相手の端末に置換できる。つまり、“とする”→“の”と同格であることから、これを対戦相手とする端末とせずに、対戦相手とする端末とする。
(9−3)「Aに係るB」→A、Bひとまとめにして1格成分(∵〜の と同意)。
(9−4)「Aに関するB」→A、Bひとまとめにして1格成分(∵〜の と同意)。
(9−5)「AにおけるB」→A、Bひとまとめにして1格成分(∵〜の と同意)→同様に「〜において」:(場所、状態)を表す格であることから分断する。
(9−6)「AとなるB」→A、Bひとまとめにして1格成分(∵〜の と同意)。例えば、検索対象となる画像の直交変換係数→「となる」は、「としての」と同意である。「としての」はまとめてひとつで考え、区切らないこととなっているため、同様にここでも区切らずに一つとする。
(9−7)「AであるB」→A、Bひとまとめにして1格成分(∵〜の と同意)。「〜情報である部品情報」→1格成分。単に「それは部品情報」です、といい直しているに過ぎず、特に構成要素の限定にはなっていない。
(9−8)「AでのB」→A、Bひとまとめにして1格成分(∵〜の と同意)。
(9−9)「Aのうち(の)B」→「の」「における」と同格という考え。A、Bひとまとめにして1格成分。但し、AとBとの間に動詞形が入る場合には分断する。例えば、電子情報の仮想画面全体のうち閲覧したい領域の位置。
(9−10)「AとしてのB」→「の」 と同格、A、Bひとまとめにして1格成分。
(9−11)「Aに係るB」→A、Bひとまとめにして1格成分。
(9-1) "To"
In most cases, they are stuck to "case" and "time" in (1). It is OK if integrated with these.
In other cases, it may be directly attached to a noun, such as "to the above-mentioned means," or "to the attachment body". In such a case, "ni" may be translated as "ni", and a noun to which "ni" is attached is extracted as a case component.
(9-2) “To”
Same as “to” → “of”. For example, it can be replaced with a terminal of the terminal → opponent to opponent. In other words, since it is apposition with "and to" → "of", without the terminal to the opponent this, and terminals that opponent.
(9-3) "B related to A" → A, B collectively as one rank component (agree with ∵ ~).
(9-4) “B related to A” → A, B collectively constitutes one rating component (agrees with ∵-).
(9-5) “B in A” → A and B are grouped into one case component (agreement with ∵) → Similarly, the case is expressed as “at”: (place, state).
(9-6) "B which becomes A" → A, B are collectively one rank component (agrees with ① ~). For example, an orthogonal transformation coefficient of an image to be searched → “becomes” is equivalent to “as”. Since “as” is considered as a single item and is not separated, the same applies here without dividing.
(9-7) "B which is A" → A, B are collectively one rank component (agree with ∵ ~). " ~ Part information which is information " → 1 rank component. It is simply a restatement that "it is part information", and there is no particular limitation on components.
(9-8) "B at A" → A, B collectively as one rank component (agrees with ∵ ~).
(9-9) The idea that “(of) B of A” → “of” and “in” is equal. A, B are collectively one rank component. However, when a verb form is included between A and B, the division is performed. For example, the position of an area to be viewed in the entire virtual screen of the electronic information .
(9-10) "B as A" → "No", A, B are collectively one rating component.
(9-11) “B related to A” → A, B are collectively one rating component.
(10)AND OR のルール
(10−1) AND
A及びB 、 AとB等
→A、Bそれぞれ格成分をカウント
(10−2) OR
・A又はB、AやB、A或いはB、A若しくはB、A、Bのうちいずれか1つ、等→A、Bまとめて1格成分数。
・A、B、Cのうちいずれか2つ→A、B、Cまとめて2格成分数。(∵少なくとも2つの格成分が選択されるため、格成分数でみた場合には2となる。)。
(10) AND OR Rule (10-1) AND
A and B , A and B, etc. → Count case components of A and B respectively (10-2) OR
A or B, A or B, A or B, any one of A or B, A, B, etc. → A, B collectively the number of rank components.
-Any two of A, B, and C → A, B, and C collectively represent the number of two components. (∵Because at least two case components are selected, the number of case components is 2).
本発明の実施方法Implementation method of the present invention
本発明を実施する上で、パーソナルコンピュータ(PC)を利用し、これに読み込まれたプログラムに基づいて行う。 In carrying out the present invention, a personal computer (PC) is used, and the processing is performed based on a program read into the personal computer (PC).
先ず、電子データ化された特許明細書の記載から、電子データ化された特許明細書における特定の欄(特許請求の範囲の記載)に記載されている文字列を抽出する。また、この特定の欄とは、特許請求の範囲の1請求項分に相当する。 First, a character string described in a specific column (described in claims) in the electronic data-converted patent specification is extracted from the description of the electronic data-converted patent specification. Further, this specific column corresponds to one claim in the claims.
次に、抽出した文字列から格成分数をカウントする。格成分数とは、1請求項における格成分数を意味している。メインクレームの場合は、そのメインクレームが定義されている請求項から抽出した文字列からそのまま格成分数をカウントすればよいが、サブクレームの場合には、そのサブクレームが定義されている請求項から抽出した文字列からそのまま格成分数をカウントするとともに、当該サブクレームが従属するメインの請求項の格成分数をこれに加算する。 Next, the number of case components is counted from the extracted character string. The number of case components means the number of case components in one claim. In the case of a main claim, the number of case components may be counted as it is from the character string extracted from the claim in which the main claim is defined, but in the case of a subclaim, a claim in which the subclaim is defined The number of case components is counted as it is from the character string extracted from, and the number of case components of the main claim to which the subclaim depends is added thereto.
そして、カウントされた格成分数を、発明の限定度合いとして例えばディスプレイ等を介して表示する。 Then, the counted number of case components is displayed on a display or the like as the degree of limitation of the invention.
このとき、格成分の抽出は、表1に示すような形態素を目印にして行ってもよい。ちなみに、ここでいう表1はあくまで一例であり、他のいかなる形態素に基づいてカウントしてもよいことは勿論である。 At this time, the case component may be extracted using morphemes as shown in Table 1 as a mark. Incidentally, Table 1 here is merely an example, and it is needless to say that counting may be performed based on any other morpheme.
また、格成分の抽出は、第2実施形態に基づいて行うようにしてもよい。 The extraction of the case component may be performed based on the second embodiment.
このとき上記カウントは、抽出された文字列において互いに重複する動作が定義されている文言を抽出し、当該抽出した文言に含まれる重複の格成分数をカウントし、カウントされた総格成分数から重複の格成分数を減算した値を、発明の限定度合いとして表示するようにしてもよい。これは上述した二重カウントを考慮したものである。 At this time, the above-mentioned count is to extract a word in which an overlapping operation is defined in the extracted character string, count the number of duplicate case components included in the extracted word, and calculate the number of duplicate case components from the counted total number of case components. A value obtained by subtracting the number of overlapping case components may be displayed as the degree of limitation of the invention. This takes into account the double counting described above.
また、本発明では、補正前の特許明細書における特定の欄に記載されている文字列を抽出し、更に補正後の特許明細書における特定の欄に記載されている文字列を抽出し、補正前の特許明細書から抽出された文字列、並びに補正後の特許明細書から抽出された文字列からそれぞれ総格成分数をカウントし、カウントされた補正前の特許明細書の総格成分数と、補正後の特許明細書の総格成分数との差分を求め、これを特許請求の範囲の上述したような補正度合として表示するようにしてもよい。 In the present invention, a character string described in a specific column in a patent specification before correction is extracted, and a character string described in a specific column in a patent specification after correction is extracted. The total number of components is counted from the character string extracted from the previous patent specification, and the character string extracted from the corrected patent specification, respectively. Alternatively, the difference from the total number of components in the corrected patent specification may be obtained, and this may be displayed as the above-described correction degree in the claims.
また、本発明は、上述した分析表示を行うプログラムがインストールされたPC等のような装置として具体化されていてもよいし、これらをPCに実行させるためのプログラム、又はこれが記録された記録媒体として具体化されていてもよい。 Further, the present invention may be embodied as an apparatus such as a PC in which the program for performing the above-described analysis display is installed, or a program for causing a PC to execute the program, or a recording medium on which the program is recorded. It may be embodied as
また、本発明は、ネットワークシステムにおいて適用されるようにしてもよい。先ず、サーバー側において、特許明細書について格成分数を予め数値化したデータをサーバーに記憶させておく。そして、クライアント側から、所望の特許について格成分数の送信要求があった場合、当該特許の格成分数をサーバーから読み出し、これをネットワークを介してクライアント側に送るようにしてもよい。 Further, the present invention may be applied to a network system. First, on the server side, data obtained by digitizing the number of case components in the patent specification in advance is stored in the server. Then, when a request for transmission of the number of case components for a desired patent is issued from the client side, the number of case components of the patent may be read from the server and transmitted to the client side via a network.
また、クライアント側から送信要求のあった特許について未だ格成分数が求められていない場合には、サーバーは当該要求を受けた特許について格成分数をカウントし、これをネットワークを介してクライアント側に送るようにしてもよい。 If the number of case components has not yet been obtained for the patent requested to be transmitted from the client, the server counts the number of case components for the requested patent and sends this to the client via the network. You may send it.
格成分の抽出においては既存のあらゆるテキストマイニング技術、データマイニング技術、言語解析処理技術等を用いるようにしてもよい。そして、これらの技術を利用し、上述したルールに基づいて、分析対象の各文字列について、格成分に相当するか否かを判断し、最終的に1請求項分の格成分を特定する。そして、この特定した格成分の1請求項分の総数を求め、これを当該請求項の格成分数として出力する。 In extracting the case component, any existing text mining technology, data mining technology, linguistic analysis processing technology, or the like may be used. Then, using these techniques, it is determined whether or not each character string to be analyzed corresponds to a case component based on the above-described rules, and finally a case component for one claim is specified. Then, the total number of the specified case components for one claim is obtained, and this is output as the number of case components of the claim.
なお、本発明では、単に請求項毎の格成分数を出力するのみならず、この出力したデータを、パテントマップやグラフ、その他の評価値等、あらゆる情報に付加するようにしてもよい。 In the present invention, not only the number of case components for each claim is output, but also the output data may be added to any information such as a patent map, a graph, and other evaluation values.
また、本発明では、請求項毎に特定した格成分を、画面上に表示し、又は印刷し、或いはデータ化するようにしてもよい。つまり、以下の実施例に示すように、請求項について特定した格成分を視覚的に把握可能なように下線やハイライト表示等を行うようにしてもよい。 In the present invention, the case component specified for each claim may be displayed on a screen, printed, or converted into data. That is, as shown in the following embodiments, underscores, highlights, and the like may be displayed so that the case component specified for the claim can be visually grasped.
また、本発明では、例えば図1に示すような、動詞による命題実現のためにクリアしなければならない条件(格成分)を模式的に画面上に表示し、又は印刷し、或いはデータ化するようにしてもよい。この図1では、構成要素を描き、そこを始点とした矢印を引く(以下、この矢印を基本矢印という。)。そして、この構成要素が動作開始のための条件を、この基本矢印に対して合流するような矢印で表示する。この条件は格成分に相当するが、この格成分から基本矢印に合流させるように引かれた矢印を、支流矢印という。その結果、構成要素から伸びた基本矢印に対して、格成分から伸びる支流矢印が合流する、スケルトンのような図が描かれることとなる。そして、この基本矢印の終端には、動詞を記入するようにしてもよい。 Also, in the present invention, conditions (case components) that must be cleared for realizing a proposition by a verb, as shown in FIG. 1, are typically displayed on a screen, printed, or converted into data. It may be. In FIG. 1, components are drawn, and arrows starting from the components are drawn (hereinafter, these arrows are referred to as basic arrows). Then, the condition for starting the operation of this component is indicated by an arrow that merges with the basic arrow. This condition corresponds to a case component, but an arrow drawn from this case component so as to merge with the basic arrow is called a tributary arrow. As a result, a skeleton-like figure is drawn in which the tributary arrow extending from the case component joins the basic arrow extending from the component. A verb may be written at the end of the basic arrow.
また、他の例として、構成要素“情報記憶手段”が下記のC−1)により定義されているものとする。 Further, as another example, it is assumed that the component “information storage means” is defined by the following C-1).
C−1)「当該参照時刻に最も近い出力時刻が記述された画像データが格納された領域を判別するための判別情報を上記ハードディスクに記憶させる情報記憶手段と、〜」 C-1) “Information storage means for storing discrimination information for discriminating an area in which image data in which an output time closest to the reference time is described is stored in the hard disk,
この情報記憶手段を規定するC−1)は、一見複雑に定義されているが、その原因として、情報記憶手段に直接係り受けする「記憶する」の動詞の格成分である判別情報には、さらに「判別する」という動詞が係り受けし、さらにその格成分である領域には「格納する」という動詞が係り受けし、さらにその格成分である画像データには「記述する」の動詞が係り受けし、合計4つの動詞が入っているためである。 C-1), which defines this information storage means, is seemingly complicatedly defined, but the cause is that the discrimination information, which is the case component of the verb "store" directly related to the information storage means, includes: In addition, the verb “discriminate” is affected, and the case component is affected by the verb “store”, and the case component image data is affected by the verb “describe”. This is because it contains four verbs in total.
このように、本発明では、いずれの特許請求の範囲の記載においても、同様のルールで図示して表示等することが可能となる。このとき格成分数も同時に併記するようにしてもよい。 As described above, in the present invention, it is possible to display, display, and the like according to the same rule in any of the claims. At this time, the number of case components may be simultaneously described.
なお、本発明は、特許明細書の特許請求の範囲の記載の格成分抽出に限定されるものではなく、他のいかなる書類についても同様の方法に基づいて格成分を抽出する際にも適用することができる。 Note that the present invention is not limited to the case component extraction described in the claims of the patent specification, and is also applicable to the case where case components are extracted based on the same method for any other documents. be able to.
本発明の実施方法Implementation method of the present invention
本発明を実施する上で、パーソナルコンピュータ(PC)を利用し、これに読み込まれたプログラムに基づいて行う。 In carrying out the present invention, a personal computer (PC) is used, and the processing is performed based on a program read into the personal computer (PC).
先ず、電子データ化された特許明細書の記載から、電子データ化された特許明細書における特定の欄(特許請求の範囲の記載)に記載されている文字列を抽出する。また、この特定の欄とは、特許請求の範囲の1請求項分に相当する。 First, a character string described in a specific column (described in claims) in the electronic data-converted patent specification is extracted from the description of the electronic data-converted patent specification. Further, this specific column corresponds to one claim in the claims.
このとき、格成分の抽出は、表1に示すような形態素を目印にして行ってもよい。ちなみに、ここでいう表1はあくまで一例であり、他のいかなる形態素に基づいてカウントしてもよいことは勿論である。 At this time, the case component may be extracted using morphemes as shown in Table 1 as a mark. Incidentally, Table 1 here is merely an example, and it is needless to say that counting may be performed based on any other morpheme.
また、格成分の抽出は、第2実施形態や第3実施形態に基づいて行うようにしてもよい。 The extraction of the case component may be performed based on the second embodiment or the third embodiment.
このとき上記カウントは、抽出された文字列において互いに重複する動作が定義されている文言を抽出し、当該抽出した文言に含まれる重複の格成分数をカウントし、カウントされた総格成分数から重複の格成分数を減算した値を、発明の限定度合いとして表示するようにしてもよい。これは上述した二重カウントを考慮したものである。 At this time, the above-mentioned count is to extract a word in which an overlapping operation is defined in the extracted character string, count the number of duplicate case components included in the extracted word, and calculate the number of duplicate case components from the counted total number of case components. A value obtained by subtracting the number of overlapping case components may be displayed as the degree of limitation of the invention. This takes into account the double counting described above.
また、本発明は、上述した分析を行うプログラムがインストールされたPC等のような装置として具体化されていてもよいし、これらをPCに実行させるためのプログラム、又はこれが記録された記録媒体として具体化されていてもよい。 Further, the present invention may be embodied as an apparatus such as a PC in which the program for performing the above-described analysis is installed, or as a program for causing the PC to execute the program or a recording medium on which the program is recorded. It may be embodied.
また、本発明は、ネットワークシステムにおいて適用されるようにしてもよい。先ず、サーバー側において、特許明細書について格成分数を予め数値化したデータをサーバーに記憶させておく。そして、クライアント側から、所望の特許について格成分数の送信要求があった場合、当該特許の格成分数をサーバーから読み出し、これをネットワークを介してクライアント側に送るようにしてもよい。 Further, the present invention may be applied to a network system. First, on the server side, data obtained by digitizing the number of case components in the patent specification in advance is stored in the server. Then, when a request for transmission of the number of case components for a desired patent is issued from the client side, the number of case components of the patent may be read from the server and transmitted to the client side via a network.
格成分の抽出においては既存のあらゆるテキストマイニング技術、データマイニング技術、言語解析処理技術等を用いるようにしてもよい。そして、これらの技術を利用し、上述したルールに基づいて、分析対象の各文字列について、格成分に相当するか否かを判断し、最終的に1請求項分の格成分を特定する。 In extracting the case component, any existing text mining technology, data mining technology, linguistic analysis processing technology, or the like may be used. Then, using these techniques, it is determined whether or not each character string to be analyzed corresponds to a case component based on the above-described rules, and finally a case component for one claim is specified.
また、本発明では、請求項毎に特定した格成分を、画面上に表示し、又は印刷し、或いはデータ化するようにしてもよい。つまり、以下の実施例に示すように、請求項について特定した格成分を視覚的に把握可能なように下線やハイライト表示等を行うようにしてもよい。 In the present invention, the case component specified for each claim may be displayed on a screen, printed, or converted into data. That is, as shown in the following embodiments, underscores, highlights, and the like may be displayed so that the case component specified for the claim can be visually grasped.
また、本発明では、例えば図1に示すような、動詞による命題実現のためにクリアしなければならない条件(格成分)を模式的に画面上に表示し、又は印刷し、或いはデータ化するようにしてもよい。この図1では、構成要素を描き、そこを始点とした矢印を引く(以下、この矢印を基本矢印という。)。そして、この構成要素が動作開始のための条件を、この基本矢印に対して合流するような矢印で表示する。この条件は格成分に相当するが、この格成分から基本矢印に合流させるように引かれた矢印を、支流矢印という。その結果、構成要素から伸びた基本矢印に対して、格成分から伸びる支流矢印が合流する、スケルトンのような図が描かれることとなる。そして、この基本矢印の終端には、動詞を記入するようにしてもよい。 Also, in the present invention, conditions (case components) that must be cleared for realizing a proposition by a verb, as shown in FIG. 1, are typically displayed on a screen, printed, or converted into data. It may be. In FIG. 1, components are drawn, and arrows starting from the components are drawn (hereinafter, these arrows are referred to as basic arrows). Then, the condition for starting the operation of this component is indicated by an arrow that merges with the basic arrow. This condition corresponds to a case component, but an arrow drawn from this case component so as to merge with the basic arrow is called a tributary arrow. As a result, a skeleton-like figure is drawn in which the tributary arrow extending from the case component joins the basic arrow extending from the component. A verb may be written at the end of the basic arrow.
次に、これら抽出した格成分を学習させることで学習済みモデルを構築する。抽出した格成分とこれが係り受けする動詞とでデータセットを順次作っていく。格成分の抽出方法は上述したとおりであり、これが係り受けする動詞の抽出は、テキストマイニング技術を駆使し、例えば形態素を辿る等をしてもよいし、上述した格成分の抽出方法に基づいたいかなる方法、また従来のいかなるテキストマイニング手法で抽出するようにしてもよい。 Next, a learned model is constructed by learning these extracted case components. A data set is sequentially created from the extracted case components and the verbs to which they are related. The method of extracting the case component is as described above, and the extraction of the verb it depends on may use text mining technology, for example, follow morphemes, or may be based on the case component extraction method described above. The extraction may be performed by any method or any conventional text mining method.
ちなみに抽出する対象は、特許明細書の特許請求の範囲の記載を例に挙げて説明するが、これに限定されるものではなく、特許明細書のあらゆる記載、並びに特許明細書以外のあらゆる文書をターゲットにしてもよい。 By the way, the object to be extracted will be described by taking the description of the claims of the patent specification as an example, but is not limited thereto. It may be a target.
「ユーザからの要求に応じて駆動信号を生成する信号生成手段と、〜」であれば、上述した格成分として「ユーザからの要求に応じて」、「駆動信号を」という格成分を抽出するとともに、これが係り受けする「生成する」という動詞を抽出する。 If "a signal generating means for generating a drive signal in response to a request from the user, ...", the case components "in response to a request from the user" and "the drive signal" are extracted as the above case components. At the same time, it extracts the verb “generate” that it depends on.
その結果、データセットとして格成分(「ユーザからの要求に応じて」、「駆動信号を」)と、動詞(「生成する」)を学習していくことになる。この学習は周知の人工知能技術を利用するようにしてもよい。このデータセットは、1つの動詞に対して1以上の格成分で構成する。 As a result, the case component (“in response to a request from the user”, “the driving signal”) and the verb (“generate”) are learned as a data set. This learning may use a well-known artificial intelligence technology. This data set is composed of one or more case components for one verb.
このようなデータセットを数多くの特許明細書(特許公開公報を通じて公開されているものも含む。)を通じて抽出して学習させていく。その結果、図3(a)示すようなニューラルネットワークからなる学習済みモデルが生成されてくる。この例では、ニューラルネットワークの入力側を動詞とし、出力側を格成分としている。しかし、これに限定されるものではなく、ニューラルネットワークの入力側を格成分、出力側を動詞としてもよい。 Such data sets are extracted and learned through numerous patent specifications (including those disclosed through patent publications). As a result, a learned model composed of a neural network as shown in FIG. 3A is generated. In this example, the input side of the neural network is a verb, and the output side is a case component. However, the present invention is not limited to this, and the input side of the neural network may be a case component and the output side may be a verb.
入力側のパラメータとしては、動詞A、B、C・・が、出力側のパラメータとしては、格成分1、2、3、4・・とがニューラルネットワークを介して連結している。ニューラルネットワークを構成する個々のノードは、例えば図3(b)に示すように動詞Aaと、格成分11、格成分12とが互いに連関度を介して連結している。この例によれば、動詞Aaに対しては、格成分11が連関度W1を以って、また格成分12が連関度W2を以って連関していると考えることができる。連関度W1が仮に70、連関度W2が仮に30であれば、動詞Aaは、格成分11に対してより高い関係をもって連関しており、格成分12に対してはより低い関係をもって連関していると考えることができる。このような連関度は、データセットを順次学習させることにより、変動することはニューラルネットワークのノードであるため当然である。 As input-side parameters, verbs A, B, C,... Are connected as output-side parameters to case components 1, 2, 3, 4,. In each node constituting the neural network, for example, as shown in FIG. 3B, the verb Aa and the case component 11 and the case component 12 are connected to each other via a degree of association. According to this example, for verb Aa, it can be considered that case component 11 is associated with association degree W1 and case component 12 is associated with association degree W2. If the association degree W1 is 70 and the association degree W2 is 30, the verb Aa is associated with the case component 11 with a higher relation and is associated with the case component 12 with a lower relation. Can be considered. Such a degree of association is naturally changed by learning the data set sequentially, since it is a node of the neural network.
このようにして学習済みモデルを作った後、これを参照して探索を行う。この探索では先ず文字列の入力を受け付ける。入力された文字列が動詞である場合には、その入力された動詞の連関度に基づいた格成分を探索する。このとき連関度の高い格成分から探索して提案するようにしてもよいし、連関度の低い格成分から提案するようにしてもよい。 After the trained model is created in this way, a search is performed with reference to the trained model. In this search, first, a character string input is accepted. If the input character string is a verb, a case component is searched for based on the degree of association of the input verb. At this time, the case component may be searched for from the case component having a high degree of association, or may be proposed from the case component having a low degree of association.
逆に学習させていく過程で、図3(c)に示すように、一のノードに対して、2以上の動詞Aa、Abがリンクする場合があり、それぞれが連関度で重み付けされる場合がある。かかる場合には、例えば入力された文字列が格成分である場合には、その入力された格成分に基づいた動詞を探索する。このとき連関度W3、W4の高い動詞から探索して提案するようにしてもよいし、連関度W3、W4の低い格成分から提案するようにしてもよい。 Conversely, in the course of learning, as shown in FIG. 3C, two or more verbs Aa and Ab may be linked to one node, and each may be weighted by the degree of association. is there. In such a case, for example, if the input character string is a case component, a search is made for a verb based on the input case component. At this time, a search may be made based on a verb having a high association degree W3 or W4, or a case component may be proposed based on a case component having a low association degree W3 or W4.
このようにして動詞と格成分のデータセットを学習させておくことで、実際に特許請求の範囲を自動的に作成する上で利便性を向上させることができる。例えば、動詞に対して頻繁に係り受けする格成分を探索したい場合には、上述した学習済みモデルを参照して探索することでそれを提案することができる。その結果、特許請求の範囲において動詞に係り受けする格成分の候補を絞り込むことができ、最後のところはユーザに対して確認を促すにしても、その利便性を高めることができる。同様に、格成分が頻繁に係り受けする動詞を探索したい場合には、上述した学習済みモデルを参照して探索することでそれを提案することができる。その結果、特許請求の範囲において格成分が係り受けする動詞の候補を絞り込むことができ、最後のところはユーザに対して確認を促すにしても、その利便性を高めることができる。 By learning the data set of the verb and the case component in this way, it is possible to improve convenience in actually creating the claims automatically. For example, when it is desired to search for a case component frequently related to a verb, the case component can be proposed by searching with reference to the above-described learned model. As a result, it is possible to narrow down the candidates of the case component related to the verb in the claims, and it is possible to improve the convenience even if the user is prompted to confirm the last part. Similarly, when it is desired to search for a verb whose case component is frequently related, it can be proposed by searching with reference to the above-described learned model. As a result, it is possible to narrow down the candidates of the verb to which the case component depends in the claims, and to improve the convenience even if the user is prompted to confirm the last part.
なお学習済みモデルの構築は上述した実施の形態に限定されるものではない。図4(a)に示すように、動詞とこれに係り受けする1以上の格成分とを有する文節構造と、これに対応する命題とをデータセットとして順次学習させるようにしてもよい。 The construction of the learned model is not limited to the above-described embodiment. As shown in FIG. 4A, a phrase structure having a verb and one or more case components related to the verb and a proposition corresponding thereto may be sequentially learned as a data set.
格成分の抽出方法は上述したとおりであり、これが係り受けする動詞の抽出は、テキストマイニング技術を駆使し、例えば形態素を辿る等をしてもよいし、上述した格成分の抽出方法に基づいたいかなる方法、また従来のいかなるテキストマイニング手法で抽出するようにしてもよい。このようにして動詞とこれに係り受けする1以上の格成分とを有する文節構造を作り上げていく。この文節構造は、図1、2に示すように動詞と格成分とが組み合わさることにより命題が実現可能なものとなっている。このため、文節構造が決まればそれに応じて命題も決まることになる。このような文節構造と命題とでデータセットを作っていく。 The method of extracting the case component is as described above, and the extraction of the verb it depends on may use text mining technology, for example, follow morphemes, or may be based on the case component extraction method described above. The extraction may be performed by any method or any conventional text mining method. In this way, a phrase structure having a verb and one or more case components related thereto is created. In this phrase structure, a proposition can be realized by combining verbs and case components as shown in FIGS. Therefore, if the phrase structure is determined, the proposition will be determined accordingly. A data set is created with such a phrase structure and proposition.
命題の抽出方法は、例えば、特許明細書における詳細な説明中の記載から検出していく。例えば、「ユーザからの要求に応じて」、「駆動信号を」という格成分と、これが係り受けする「生成する」という動詞とからなる文節構造があるものと仮定したとき、その文節構造は、「駆動信号が利用する」という一つの命題を実現するために定義されているものとする。この命題は、特許明細書中に記載されている場合が多く、例えば特許明細書中に「ユーザからの要求に応じて駆動信号を生成することで、駆動信号を利用することができる」等と記載されている場合が多い。かかる場合には、「駆動信号」というテキスト情報と、これを含む文章の文末において「できる」、「可能となる」、「実現される」等の文言を含むものをテキストマイニング技術を駆使して抽出していく。そして、抽出したテキスト情報から「駆動信号を利用する」という命題を拾い上げていく。 The proposition extraction method is detected, for example, from the description in the detailed description in the patent specification. For example, assuming that there is a phrase structure composed of a case component "in response to a request from the user" and "a drive signal" and a verb "generate" that it depends on, It is assumed that the definition is made to realize one proposition of “use by drive signal”. This proposition is often described in patent specifications, for example, in the patent specification, "a drive signal can be used by generating a drive signal in response to a request from a user" and the like. Often described. In such a case, text information such as "drive signal" and words including "can be", "become possible", and "achieved" at the end of a sentence containing the text information can be fully utilized using text mining technology. Extracting. Then, from the extracted text information, a proposition “using a drive signal” is picked up.
このようにして、文節構造に含まれる、格成分や動詞に基づいてテキストマイニング技術を駆使し、これに対応する命題を抽出し、データセットを作っていく。ちなみに、命題に対応するテキストデータは、テキストマイニング技術を通じた自動抽出に限定されるものではなく、ユーザ側にてマニュアルで入力するようにしてもよい。 In this way, a text mining technique is used on the basis of the case component and the verb included in the phrase structure, a proposition corresponding to this is extracted, and a data set is created. Incidentally, the text data corresponding to the proposition is not limited to the automatic extraction through the text mining technique, and may be manually input by the user.
ちなみに抽出する対象は、特許明細書の特許請求の範囲並びに実施形態(詳細な説明)の記載を例に挙げて説明するが、これに限定されるものではなく、特許明細書のあらゆる記載、並びに特許明細書以外のあらゆる文書をターゲットにしてもよい。 Incidentally, the object to be extracted will be described with reference to the claims in the patent specification and the description of the embodiment (detailed description) as an example, but the present invention is not limited thereto, and all descriptions in the patent specification, and Any document other than the patent specification may be targeted.
このようなデータセットを数多くの特許明細書(特許公開公報を通じて公開されているものも含む。)を通じて抽出して学習させていく。その結果、図4(a)示すようなニューラルネットワークからなる学習済みモデルが生成されてくる。この例では、ニューラルネットワークの入力側を文節構造(動詞と格成分の組み合わせからなる)とし、出力側を命題としている。しかし、これに限定されるものではなく、ニューラルネットワークの入力側を命題、出力側を文節構造としてもよい。 Such data sets are extracted and learned through numerous patent specifications (including those disclosed through patent publications). As a result, a learned model including a neural network as shown in FIG. 4A is generated. In this example, the input side of the neural network has a phrase structure (composed of a combination of a verb and a case component), and the output side is a proposition. However, the present invention is not limited to this, and the input side of the neural network may be a proposition and the output side may be a phrase structure.
入力側のパラメータとしては、動詞Aと格成分1、2との組み合わせからなる文節構造、動詞Bと格成分3との組み合わせからなる文節構造、動詞Cと格成分4、5との組み合わせからなる文節構造・・が、出力側のパラメータとしては、命題α、β、γ・・とがニューラルネットワークを介して連結している。ニューラルネットワークを構成する個々のノードは、例えば図4(b)に示すように文節構造Baと、命題α21、α22とが互いに連関度を介して連結している。この例によれば、文節構造Baに対しては、命題α21が連関度W1を以って、またα22が連関度W2を以って連関していると考えることができる。連関度W1が仮に70、連関度W2が仮に30であれば、文節構造Baは、命題α21に対してより高い関係をもって連関しており、命題α22に対してはより低い関係をもって連関していると考えることができる。このような連関度は、データセットを順次学習させることにより、変動することはニューラルネットワークのノードであるため当然である。 The input parameters include a phrase structure composed of a combination of verb A and case components 1 and 2, a phrase structure composed of a combination of verb B and case component 3, and a combination of verb C and case components 4 and 5. The clause structure... Is connected to the propositions α, β, γ... Via the neural network as output-side parameters. In each of the nodes constituting the neural network, for example, as shown in FIG. 4B, a phrase structure Ba and propositions α21 and α22 are connected to each other via a degree of association. According to this example, for the phrase structure Ba, it can be considered that the proposition α21 is associated with the association degree W1 and the α22 is associated with the association degree W2. If the association degree W1 is 70 and the association degree W2 is 30, the phrase structure Ba is associated with the proposition α21 with a higher relation, and is associated with the proposition α22 with a lower relation. Can be considered. Such a degree of association is naturally changed by learning the data set sequentially, since it is a node of the neural network.
このようにして学習済みモデルを作った後、これを参照して探索を行う。この探索では先ず文字列の入力を受け付ける。入力された文字列から格成分と動詞の抽出を行う。この抽出方法は上述したとおりである。或いは文字列が格成分と動詞が互いに関連付けられて独立して入力されるのであればそれをそのまま使うようにしてもよい。このようにして入力された文字列から抽出した格成分と動詞とにより構成される文節構造に対応する連関度に基づいた命題を探索する。このとき連関度の高い命題から探索して提案するようにしてもよいし、連関度の低い命題から提案するようにしてもよい。 After the trained model is created in this way, a search is performed with reference to the trained model. In this search, first, a character string input is accepted. Extract case components and verbs from the input character string. This extraction method is as described above. Alternatively, if a character string is input independently with a case component and a verb associated with each other, it may be used as it is. A proposition based on the degree of association corresponding to the phrase structure composed of the case component and the verb extracted from the character string input in this way is searched for. At this time, a search may be made from a proposition with a high degree of association, and a proposal may be made from a proposition with a low degree of association.
逆に学習させていく過程で、図4(c)に示すように、一のノードに対して、2以上の文節構造Ba、Bbがリンクする場合があり、それぞれが連関度で重み付けされる場合がある。かかる場合には、例えば入力された文字列が命題である場合には、その入力された命題に基づいた文節構造を探索する。このとき連関度W3、W4の高い文節構造から探索して提案するようにしてもよいし、連関度W3、W4の低い文節構造から探索して提案するようにしてもよい。 Conversely, in the course of learning, as shown in FIG. 4C, there are cases where two or more phrase structures Ba and Bb are linked to one node, and each is weighted by the degree of association. There is. In such a case, for example, when the input character string is a proposition, a phrase structure based on the input proposition is searched. At this time, a search may be made from a phrase structure having a high degree of association W3 or W4, or a suggestion may be made by searching from a phrase structure having a low degree of association W3 or W4.
このようにして文節構造と命題のデータセットを学習させておくことで、実際に特許請求の範囲を自動的に作成する上で利便性を向上させることができる。例えば、文節構造に対して頻繁に係り受けする命題を探索したい場合には、上述した学習済みモデルを参照して探索することでそれを提案することができる。その結果、特許請求の範囲において文節構造に対応する命題の候補を絞り込むことができ、最後のところはユーザに対して確認を促すにしても、その利便性を高めることができる。同様に、命題から文節構造を探索したい場合には、上述した学習済みモデルを参照して探索することでそれを提案することができる。その結果、特許請求の範囲において意図する命題を実現する上で必要な文節構造の候補を絞り込むことができ、最後のところはユーザに対して確認を促すにしても、その利便性を高めることができる。 By learning the phrase structure and the data set of the proposition in this way, it is possible to improve convenience in automatically creating claims automatically. For example, when it is desired to search for a proposition that frequently depends on the phrase structure, the search can be proposed by referring to the above-described learned model. As a result, proposition candidates corresponding to the phrase structure can be narrowed down in the claims, and the convenience can be improved even if the user is prompted to confirm the last part. Similarly, when it is desired to search for a phrase structure from a proposition, it can be proposed by searching with reference to the above-described learned model. As a result, it is possible to narrow down the phrase structure candidates necessary for realizing the intended proposition in the claims, and to improve the convenience even if the user is prompted for confirmation at the end. it can.
なお学習済みモデルの構築は上述した実施の形態に限定されるものではない。図5(a)に示すように、動詞とこれに係り受けする1の格成分とを有する係り受け構造と、その係り受けする形態素とをデータセットとして順次学習させるようにしてもよい。 The construction of the learned model is not limited to the above-described embodiment. As shown in FIG. 5A, a dependency structure having a verb and one case component related to the verb, and a morpheme to be dependent on the verb may be sequentially learned as a data set.
格成分の抽出方法は上述したとおりであり、これが係り受けする動詞の抽出は、テキストマイニング技術を駆使し、例えば形態素を辿る等をしてもよいし、上述した格成分の抽出方法に基づいたいかなる方法、また従来のいかなるテキストマイニング手法で抽出するようにしてもよい。このようにして動詞とこれに係り受けする1以上の格成分とを有する係り受け構造を作り上げていく。この係り受け構造における係り受けする形態素も例えば表1に記載の形態素を目印にしてもよいし、周知のテキストマイニング技術を駆使することにより行う。このような係り受け構造と形態素とでデータセットを作っていく。 The method of extracting the case component is as described above, and the extraction of the verb it depends on may use text mining technology, for example, follow morphemes, or may be based on the case component extraction method described above. The extraction may be performed by any method or any conventional text mining method. In this way, a dependency structure having a verb and one or more case components related thereto is created. The morphemes to be dependent in this dependency structure may be, for example, the morphemes shown in Table 1 as a mark, or may be obtained by making full use of a known text mining technique. A data set is created using such a dependency structure and a morpheme.
ちなみに抽出する対象は、特許明細書の特許請求の範囲並びに実施形態(詳細な説明)の記載を例に挙げて説明するが、これに限定されるものではなく、特許明細書のあらゆる記載、並びに特許明細書以外のあらゆる文書をターゲットにしてもよい。 Incidentally, the object to be extracted will be described with reference to the claims in the patent specification and the description of the embodiment (detailed description) as an example, but the present invention is not limited thereto, and all descriptions in the patent specification, and Any document other than the patent specification may be targeted.
このようなデータセットを数多くの特許明細書(特許公開公報を通じて公開されているものも含む。)を通じて抽出して学習させていく。その結果、図5(a)示すようなニューラルネットワークからなる学習済みモデルが生成されてくる。この例では、ニューラルネットワークの入力側を係り受け構造(動詞と格成分の組み合わせからなる)とし、出力側を形態素としている。しかし、これに限定されるものではなく、ニューラルネットワークの入力側を形態素、出力側を係り受け構造としてもよい。 Such data sets are extracted and learned through numerous patent specifications (including those disclosed through patent publications). As a result, a learned model including a neural network as shown in FIG. 5A is generated. In this example, the input side of the neural network has a dependency structure (composed of a combination of a verb and a case component), and the output side has a morpheme. However, the present invention is not limited to this, and the input side of the neural network may have a morpheme and the output side may have a dependency structure.
入力側のパラメータとしては、動詞Aと格成分1との組み合わせからなる係り受け構造、動詞Bと格成分2との組み合わせからなる係り受け構造、動詞Cと格成分3との組み合わせからなる係り受け構造・・が、出力側のパラメータとしては、形態素a、b、c、・・とがニューラルネットワークを介して連結している。ニューラルネットワークを構成する個々のノードは、例えば図5(b)に示すように係り受け構造Caと、形態素a31、形態素a32とが互いに連関度を介して連結している。この例によれば、係り受け構造Caに対しては、形態素a31が連関度W1を以って、また形態素a32が連関度W2を以って連関していると考えることができる。連関度W1が仮に70、連関度W2が仮に30であれば、係り受け構造Caは、形態素a31に対してより高い関係をもって連関しており、形態素a32に対してはより低い関係をもって連関していると考えることができる。このような連関度は、データセットを順次学習させることにより、変動することはニューラルネットワークのノードであるため当然である。 The input parameters include a dependency structure composed of a combination of verb A and case component 1, a modification structure composed of a combination of verb B and case component 2, and a modification structure composed of a combination of verb C and case component 3. Structures... Are connected on the output side to morphemes a, b, c,. As shown in FIG. 5B, for example, the individual nodes constituting the neural network have a dependency structure Ca and morphemes a31 and a32 connected to each other via a degree of association. According to this example, with respect to the dependency structure Ca, it can be considered that the morpheme a31 is associated with the degree of association W1 and the morpheme a32 is associated with the degree of association W2. If the degree of association W1 is 70 and the degree of association W2 is 30, the dependency structure Ca is associated with a higher relationship with the morpheme a31 and is associated with a lower relationship with the morpheme a32. Can be considered. Such a degree of association is naturally changed by learning the data set sequentially, since it is a node of the neural network.
このようにして学習済みモデルを作った後、これを参照して探索を行う。この探索では先ず文字列の入力を受け付ける。入力された文字列から格成分と動詞の抽出を行う。この抽出方法は上述したとおりである。或いは文字列が格成分と動詞が互いに関連付けられて独立して入力されるのであればそれをそのまま使うようにしてもよい。このようにして入力された文字列から抽出した格成分と動詞とにより構成される係り受け構造に対応する連関度に基づいた形態素を探索する。このとき連関度の高い形態素から探索して提案するようにしてもよいし、連関度の低い形態素から提案するようにしてもよい。 After the trained model is created in this way, a search is performed with reference to the trained model. In this search, first, a character string input is accepted. Extract case components and verbs from the input character string. This extraction method is as described above. Alternatively, if a character string is input independently with a case component and a verb associated with each other, it may be used as it is. The morpheme based on the degree of association corresponding to the dependency structure composed of the case component and the verb extracted from the character string input in this way is searched for. At this time, a search may be made from a morpheme having a high degree of association, and a suggestion may be made from a morpheme having a low degree of association.
逆に学習させていく過程で、図5(c)に示すように、一のノードに対して、2以上の係り受け構造Ca、Cbがリンクする場合があり、それぞれが連関度で重み付けされる場合がある。かかる場合には、例えば入力された文字列が形態素である場合には、その入力された形態素に基づいた係り受け構造を探索する。このとき連関度W3、W4の高い係り受け構造から探索して提案するようにしてもよいし、連関度W3、W4の低い係り受け構造から探索して提案するようにしてもよい。 Conversely, in the course of learning, as shown in FIG. 5C, two or more dependency structures Ca and Cb may be linked to one node, each of which is weighted by the degree of association. There are cases. In such a case, for example, when the input character string is a morpheme, a dependency structure based on the input morpheme is searched. At this time, a search may be made from the dependency structure having a high association degree W3 or W4, or a proposal may be made by searching from a dependency structure having a low association degree W3 or W4.
このようにして係り受け構造と形態素のデータセットを学習させておくことで、実際に特許請求の範囲を自動的に作成する上で利便性を向上させることができる。例えば、係り受け構造に対して頻繁に係り受けする形態素を探索したい場合には、上述した学習済みモデルを参照して探索することでそれを提案することができる。その結果、特許請求の範囲において係り受け構造に対応する形態素の候補を絞り込むことができ、最後のところはユーザに対して確認を促すにしても、その利便性を高めることができる。同様に、形態素から係り受け構造を探索したい場合には、上述した学習済みモデルを参照して探索することでそれを提案することができる。その結果、特許請求の範囲において意図する形態素を実現する上で必要な係り受け構造の候補を絞り込むことができ、最後のところはユーザに対して確認を促すにしても、その利便性を高めることができる。 By learning the dependency structure and the data set of the morpheme in this way, it is possible to improve convenience in automatically creating the claims. For example, when it is desired to search for a morpheme that frequently depends on the dependency structure, the search can be proposed by referring to the learned model described above. As a result, in the claims, morpheme candidates corresponding to the dependency structure can be narrowed down, and even if the user is prompted to confirm the last part, the convenience can be improved. Similarly, when it is desired to search for a dependency structure from a morpheme, it can be proposed by searching with reference to the learned model described above. As a result, it is possible to narrow down candidates for a dependency structure necessary for realizing an intended morpheme in the claims, and to improve the convenience even when prompting the user to confirm at the end. Can be.
Claims (6)
を特徴とする格成分学習プログラム。 Learning to create a trained model in which the relationship between a verb and a case component is defined as three or more levels of association by sequentially learning the verb extracted from the character string and the case components involved in the verb as a data set. A case component learning program characterized by causing a computer to execute steps.
上記学習ステップにおいて作られた学習済みモデルを参照し、上記文字列入力受入ステップにおいて入力された文字列が動詞である場合には、その入力された動詞の連関度に基づいた格成分を探索し、上記文字列入力受入ステップにおいて入力された文字列が格成分である場合には、その入力された格成分の連関度に基づいた動詞を探索する探索ステップを有すること
を特徴とする請求項1記載の格成分学習プログラム。 A character string input receiving step for receiving a character string input;
With reference to the learned model created in the learning step, if the character string input in the character string input receiving step is a verb, a case component based on the degree of association of the input verb is searched for. And a search step for searching for a verb based on the degree of association of the input case component when the character string input in the character string input receiving step is a case component. The described case component learning program.
を特徴とする格成分学習プログラム。 By sequentially learning a phrase structure having a verb and one or more case components related thereto and a proposition corresponding thereto as a data set, the relation between the phrase structure and the proposition can be three or more degrees of association. A case component learning program characterized by causing a computer to execute a learning step of creating a trained model defined as:
上記学習ステップにおいて作られた学習済みモデルを参照し、上記文字列入力受入ステップにおいて入力された文字列が文節構造である場合には、その入力された文節構造の連関度に基づいた命題を探索し、上記文字列入力受入ステップにおいて入力された文字列が命題である場合には、その入力された命題の連関度に基づいた文節構造を探索する探索ステップを有すること
を特徴とする請求項3記載の格成分学習プログラム。 A character string input receiving step for receiving a character string input;
With reference to the trained model created in the learning step, if the character string input in the character string input receiving step has a phrase structure, search for a proposition based on the degree of association of the input phrase structure. 4. The method according to claim 3, further comprising the step of: when the character string input in the character string input receiving step is a proposition, searching for a phrase structure based on the degree of association of the input proposition. The described case component learning program.
を特徴とする格成分学習プログラム。 By sequentially learning a dependency structure of a verb and a case component related to the verb and a morpheme to be changed as a data set, the relationship between the dependency structure and the morpheme has three or more degrees of association. A case component learning program characterized by causing a computer to execute a learning step of creating a trained model defined as:
上記学習ステップにおいて作られた学習済みモデルを参照し、上記文字列入力受入ステップにおいて入力された文字列が係り受け構造である場合には、その入力された係り受け構造の連関度に基づいた命題を探索し、上記文字列入力受入ステップにおいて入力された文字列が形態素である場合には、その入力された形態素の連関度に基づいた係り受け構造を探索する探索ステップを有すること
を特徴とする請求項5記載の格成分学習プログラム。 A character string input receiving step for receiving a character string input;
Referring to the trained model created in the learning step, if the character string input in the character string input receiving step has a dependency structure, a proposition based on the degree of association of the input dependency structure And if the character string input in the character string input receiving step is a morpheme, a search step of searching for a dependency structure based on the degree of association of the input morpheme is provided. The case component learning program according to claim 5.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018138058A JP2020016964A (en) | 2018-07-23 | 2018-07-23 | Case component learning program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018138058A JP2020016964A (en) | 2018-07-23 | 2018-07-23 | Case component learning program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020016964A true JP2020016964A (en) | 2020-01-30 |
Family
ID=69579531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018138058A Pending JP2020016964A (en) | 2018-07-23 | 2018-07-23 | Case component learning program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020016964A (en) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018049430A (en) * | 2016-09-21 | 2018-03-29 | ジャパンモード株式会社 | Literature data analysis program and system |
-
2018
- 2018-07-23 JP JP2018138058A patent/JP2020016964A/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018049430A (en) * | 2016-09-21 | 2018-03-29 | ジャパンモード株式会社 | Literature data analysis program and system |
Non-Patent Citations (2)
Title |
---|
BIRD - AN ENGLISH TERM IN CONCEPTNET 5.5, JPN6022026473, 24 March 2017 (2017-03-24), ISSN: 0004811581 * |
斉藤いつみ、外3名: "フレーズ知識補完と生成の同時学習", 言語処理学会第24回年次大会 発表論文集 [ONLINE], JPN6019012766, 5 March 2018 (2018-03-05), pages 951 - 954, ISSN: 0004811580 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20130061139A1 (en) | Server-based spell checking on a user device | |
US11256752B2 (en) | Contextual recommendation | |
US8155444B2 (en) | Image text to character information conversion | |
US8924852B2 (en) | Apparatus, method, and program for supporting processing of character string in document | |
US20130060560A1 (en) | Server-based spell checking | |
WO2017116497A1 (en) | Systems and methods for identifying and explaining schema errors in the computerized preparation of a payroll tax form | |
US8601367B1 (en) | Systems and methods for generating filing documents in a visual presentation context with XBRL barcode authentication | |
US20140304579A1 (en) | Understanding Interconnected Documents | |
US8079001B2 (en) | Verification of requirements specification, design specification, and computer-readable storage medium apparatus, and method thereof | |
CN103299550A (en) | Spell-check for a keyboard system with automatic correction | |
US20090125797A1 (en) | Computer readable recording medium on which form data extracting program is recorded, form data extracting apparatus, and form data extracting method | |
US11989964B2 (en) | Techniques for graph data structure augmentation | |
Tata et al. | Glean: Structured extractions from templatic documents | |
JP2002163250A (en) | Document processor | |
JP5097802B2 (en) | Japanese automatic recommendation system and method using romaji conversion | |
US7084992B1 (en) | Method and device for determining a printer pilot configuration for a printing processing | |
JP2020016964A (en) | Case component learning program | |
JP2009501974A (en) | User interface for legal case history | |
JP6206874B2 (en) | Case component extraction program | |
JP6006051B2 (en) | Case component extraction program | |
JP6837604B2 (en) | Input error detection device, input error detection method and input error detection program | |
Freidin | Chomsky's linguistics: The goals of the generative enterprise | |
US8127279B2 (en) | Systems and methods for graphical indexer operation on documents with SOSI characters | |
JP6006023B2 (en) | Patent specification analysis display device | |
JP2021140282A (en) | Program for extracting case component from english patent specification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210721 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220628 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20221220 |