JP5458640B2 - Rule processing method and apparatus - Google Patents
Rule processing method and apparatus Download PDFInfo
- Publication number
- JP5458640B2 JP5458640B2 JP2009100574A JP2009100574A JP5458640B2 JP 5458640 B2 JP5458640 B2 JP 5458640B2 JP 2009100574 A JP2009100574 A JP 2009100574A JP 2009100574 A JP2009100574 A JP 2009100574A JP 5458640 B2 JP5458640 B2 JP 5458640B2
- Authority
- JP
- Japan
- Prior art keywords
- condition
- score
- rule
- combination
- data storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本技術は、予め学習によって得られる規則についての処理技術に関する。 The present technology relates to a processing technology for rules obtained in advance by learning.
例えば単語列から人名や場所などの固有名詞を抽出する場合に、従来では以下のような処理が必要であった。ここでは説明を簡単にするため、人名(「人」と記す)とそれ以外(「O」と記す)とを判別するものとする。すなわち、図1(a)に示すような単語と固有名詞タイプとの正しい組み合わせを用意し、そこから図1(b)に示すような固有名詞タイプと素性集合との組み合わせを生成する。素性は、判別のための手がかりを表している。素性においては、単語そのものという属性種別であればWで表し、その記号の後の(0)や(1)などで注目単語の位置(0)を基準にした出現相対位置を表す。例えば、図1(a)の1番目の単語「宮崎」に注目すると、W(0)=宮崎と表すことができる。さらに、判別のための手がかりは、現在位置の単語と前後の単語とを用いることとする。よって、1番目の単語を現在位置とすると、1つ正の方向に移動した単語「出身」については、W(1)=出身と表される。また、現在位置を2番目の単語に移行させると、現在位置の単語「出身」についてはW(0)=出身と表され、現在位置から見て1つ前の単語「宮崎」についてはW(-1)=宮崎と表され、現在位置から見て1つ後の単語「さん」についてはW(1)=さんと表される。同様にして、図1(a)のような単語列とその固有名詞タイプとから、図1(b)のようなデータを生成する。なお、本願では、一般化してW(p)=wiと表すものとする。wiは、i番目の位置の単語である。pは注目位置からの出現相対位置を表す。また、ここでは簡略化しているが、属性種別には、文字種(例えば漢字、ひらがななど)、品詞など他の属性を用いるようにしても良い。複数の属性種別を組み合わせる場合もある。 For example, when a proper noun such as a person's name or place is extracted from a word string, conventionally, the following processing is necessary. Here, in order to simplify the explanation, it is assumed that the name of the person (denoted as “person”) and the other name (denoted as “O”) are distinguished. That is, a correct combination of a word and a proper noun type as shown in FIG. 1A is prepared, and a combination of a proper noun type and a feature set as shown in FIG. 1B is generated therefrom. The feature represents a clue for discrimination. In the feature, if the attribute type is the word itself, it is represented by W, and (0), (1), etc. after the symbol represent the relative appearance position based on the position (0) of the word of interest. For example, when focusing on the first word “Miyazaki” in FIG. 1A, it can be expressed as W (0) = Miyazaki. Further, as a clue for discrimination, the word at the current position and the previous and subsequent words are used. Therefore, assuming that the first word is the current position, the word “origin” moved in the positive direction is expressed as W (1) = origin. Further, when the current position is shifted to the second word, the word “from” at the current position is represented as W (0) = origin, and the word “Miyazaki” immediately before the current position is represented by W ( -1) = Miyazaki is represented, and the word “san” after the current position is represented by W (1) = san. Similarly, data as shown in FIG. 1B is generated from a word string as shown in FIG. 1A and its proper noun type. In this application, it is generalized and expressed as W (p) = wi. wi is the word at the i-th position. p represents the relative position of appearance from the position of interest. Although simplified here, other attributes such as a character type (for example, kanji or hiragana) or a part of speech may be used as the attribute type. In some cases, multiple attribute types may be combined.
さらに、図1(b)に示すようなデータに対して周知の方法(Iwakura, Tomoya and Okamoto, Seishi,"A Fast Boosting-based Learner for Feature-Rich Tagging and Chunking", Proc. of CoNLL 2008, pages: {17-24}を参照のこと。)で機械学習を行うと、図2に示すような規則が生成される。図2の各行が1つの規則であり、各規則は、条件と、固有名詞タイプと、スコアとを含む。条件は素性で表される。図2の例では1つの条件が1つの素性を含むが、複数の素性の組み合わせを含むようにしても良い。スコアは、大きい程対応する固有名詞タイプである可能性が高くなる。条件「W(0)=宮崎」、固有名詞タイプ「人」、スコア「10」ということは、W(0)=宮崎を満たす場合に、現在位置の単語「宮崎」が「人」であるスコアは「10」であるということである。 Furthermore, a known method (Iwakura, Tomoya and Okamoto, Seishi, “A Fast Boosting-based Learner for Feature-Rich Tagging and Chunking”, Proc. Of CoNLL 2008, pages : See {17-24}.) When machine learning is performed, rules as shown in FIG. 2 are generated. Each line in FIG. 2 is a rule, and each rule includes a condition, a proper noun type, and a score. Conditions are represented by features. In the example of FIG. 2, one condition includes one feature, but a combination of a plurality of features may be included. The higher the score, the higher the possibility that it is a corresponding proper noun type. The condition “W (0) = Miyazaki”, proper noun type “people”, and score “10” means that if W (0) = Miyazaki is satisfied, the word “Miyazaki” at the current position is “people”. Means “10”.
図2に示すような規則を用いて、図3に示すような単語列「宮崎」「さん」「と」「遊ぶ」から人名を特定する際の処理は図4及び図5に示すようなものである。まず、現在位置の単語「宮崎」を規則に適用する場合、まず、現在位置の単語「宮崎」と次の単語「さん」とから、素性集合「W(0)=宮崎」及び「W(1)=さん」とを生成する(ステップ(1))。現在位置の単語とその前後の単語から素性を生成するためである。生成された素性で規則の条件を検索し(ステップ(2))、一致する条件に対応する固有名詞タイプ及びスコアを抽出する。素性W(0)=宮崎に一致する条件の規則が存在するので、固有名詞タイプ「人」及びスコア「10」が得られる。同様に、素性W(1)=さんに一致する条件の規則が存在するので、固有名詞タイプ「人」及びスコア「30」が得られる。まとめると、現在位置の単語「宮崎」について、固有名詞タイプ「人」がスコア「40(=10+30)」となり、登録される(ステップ(3))。 The process for specifying a person name from the word strings “Miyazaki” “san” “to” “play” as shown in FIG. 3 using the rules as shown in FIG. 2 is as shown in FIG. 4 and FIG. It is. First, when applying the word “Miyazaki” at the current position to the rule, first, from the word “Miyazaki” at the current position and the next word “Ms.”, feature sets “W (0) = Miyazaki” and “W (1 ) = San ”is generated (step (1)). This is because the feature is generated from the word at the current position and the words before and after the current word. The rule condition is searched with the generated feature (step (2)), and the proper noun type and score corresponding to the matching condition are extracted. Since there is a rule with a condition that matches the feature W (0) = Miyazaki, the proper noun type “people” and the score “10” are obtained. Similarly, since there is a rule of a condition that matches the feature W (1) =, the proper noun type “person” and the score “30” are obtained. In summary, for the word “Miyazaki” at the current position, the proper noun type “people” becomes a score “40 (= 10 + 30)” and is registered (step (3)).
次に、現在位置の単語を「宮崎」から「さん」に移行して、単語「さん」の前後の単語から、素性集合「W(-1)=宮崎」「W(0)=さん」「W(1)=と」を生成する(ステップ(4))。そして、生成された素性で規則の条件を検索し(ステップ(5))、一致する条件に対応する固有名詞タイプ及びスコアを抽出する。素性W(-1)=宮崎に一致する条件の規則が存在するので、固有名詞タイプ「O」及びスコア「5」が得られる。同様に、素性W(0)=さんに一致する条件の規則が存在するので、固有名詞タイプ「O」及びスコア「20」が得られる。まとめると、現在位置の単語「さん」について、固有名詞タイプ「O」がスコア「25(=5+20)」となり、登録される(ステップ(6))。 Next, the word at the current position is shifted from “Miyazaki” to “san”, and from the words before and after the word “san”, the feature sets “W (−1) = Miyazaki” “W (0) = san” “ W (1) = to "is generated (step (4)). Then, the rule condition is searched with the generated feature (step (5)), and the proper noun type and score corresponding to the matching condition are extracted. Since there is a rule with a condition that matches the feature W (−1) = Miyazaki, the proper noun type “O” and the score “5” are obtained. Similarly, since there is a rule of a condition that matches the feature W (0) =, the proper noun type “O” and the score “20” are obtained. In summary, the proper noun type “O” becomes the score “25 (= 5 + 20)” and is registered for the word “san” at the current position (step (6)).
図4及び図5から分かるように、生成される素性において「宮崎」「さん」といった単語が、相対位置「0」、「−1」、「1」といったように異なる位置で別物として出現し、その都度規則とのマッチングを行わなければならない。これによって検索回数が増加するため処理速度が遅くなるという問題がある。 As can be seen from FIGS. 4 and 5, words such as “Miyazaki” and “Mr.” appear as different objects at different positions such as relative positions “0”, “−1”, “1” in the generated features, You must match the rules each time. As a result, the number of searches increases, which causes a problem that the processing speed becomes slow.
以上述べたように、従来技術では、同じ単語について何回も異なる位置で異なる素性として規則に対して適用することになるので、規則に対する検索回数が増加して処理速度が遅くなる。上の例では、単語の属性種別としては単語そのもののみを使用する例を示したが、その他単語の属性種別として品詞や文字種別をも用いる場合や、複数の素性の組み合わせで規則の条件が規定される場合には、余計に検索回数が増加する。 As described above, in the prior art, since the same word is applied to the rule as different features at different positions many times, the number of searches for the rule increases and the processing speed is slowed down. In the above example, only the word itself is used as the attribute type of the word. However, the rule condition is defined by using other parts of speech or character types as the attribute type of the word, or by combining multiple features. If this is done, the number of searches will increase.
従って、本技術の目的は、単語のタイプを判別するために規則を適用する際の処理速度を高速化するための技術を提供することである。 Accordingly, an object of the present technology is to provide a technology for increasing the processing speed when applying a rule to determine a word type.
本規則処理方法は、単語の属性種別と出現相対位置と属性値との組み合わせで表される条件又は条件の組み合わせの各々に関連付けてスコアと当該スコアを付与すべき出現相対位置及びタイプとを含む1又は複数のスコア設定規則が登録されている規則データ格納部と、単語の各属性種別の属性値を含む要素が出現順に並べられた要素列を格納する要素列データ格納部とにアクセス可能なコンピュータにより実行される。そして本規則処理方法は、要素列データ格納部から、上記条件の組み合わせに含まれる条件の最大数と上記条件又は条件の組み合わせに関連付けられているスコア設定規則に含まれる出現相対位置の、基準位置からの最大距離とにより特定される候補抽出条件に従って、要素毎に、単語の属性種別と出現相対位置と属性値との組み合わせで表される要素条件又は要素条件の組み合わせである適用候補を抽出する抽出ステップと、適用候補で規則データ格納部を検索して、該当する条件又は条件の組み合わせが存在する場合には、規則データ格納部から該当する上記条件又は条件の組み合わせに関連付けられている1又は複数のスコア設定規則を抽出し、抽出された1又は複数のスコア設定規則に含まれるタイプ及びスコアで、抽出された上記1又は複数のスコア設定規則に含まれる出現相対位置と適用候補に係る出現位置とから特定される要素の当該タイプについてのスコアを更新し、要素列データ格納部に格納するステップとを含む。
This rule processing method includes a score, a relative appearance position and a type to which the score should be assigned, in association with each condition or combination of conditions represented by a combination of the attribute type, appearance relative position, and attribute value of the word. Access to a rule data storage unit in which one or a plurality of score setting rules are registered, and an element column data storage unit that stores an element column in which elements including attribute values of each attribute type of words are arranged in the order of appearance Executed by a computer. Then, this rule processing method uses the reference position of the appearance relative position included in the score setting rule associated with the maximum number of conditions included in the combination of conditions and the condition or combination of conditions from the element string data storage unit. In accordance with the candidate extraction condition specified by the maximum distance from the application candidate, an application candidate that is an element condition or a combination of element conditions represented by a combination of the attribute type of word, relative position of appearance, and attribute value is extracted for each element. When the rule data storage unit is searched for the extraction step and the application candidate and there is a corresponding condition or combination of conditions, the rule data storage unit is associated with the corresponding condition or combination of
単語のタイプを判別するために規則を適用する際の処理速度が高速化される。 The processing speed when applying the rule to determine the word type is increased.
[本実施の形態の概要]
本実施の形態では、図2に示すような規則を、図6に示すような新たなフォーマットの規則に変換する。具体的には、新たな規則は、条件と、スコアを付与する単語の位置と、固有名詞タイプと、スコアとを含む。但し、条件1つにつき、スコアを付与する単語の位置と固有名詞タイプとスコアとを含むスコア設定規則が1又は複数関連付けられている。従って、規則の適用時に1つ条件が特定されると、一度にスコア設定規則が抽出できるようになる。
[Outline of this embodiment]
In the present embodiment, the rule as shown in FIG. 2 is converted into a new format rule as shown in FIG. Specifically, the new rule includes a condition, a word position to which a score is assigned, a proper noun type, and a score. However, one or more score setting rules including the position of the word to which the score is assigned, the proper noun type, and the score are associated with one condition. Therefore, when one condition is specified when applying the rule, the score setting rule can be extracted at a time.
そして、図7に示すように、図3に示すような単語列を処理する場合には、現在位置の単語「宮崎」で、図6に示す新規則を検索し、一致する条件が存在するか確認する(ステップ(10))。図6の新規則では、1番目の規則が特定され、2つのスコア設定規則が一度に抽出される。第1のスコア設定規則は、スコアを付与する単語の位置「0」と固有名詞タイプ「人」とスコア「10」とを含むので、スコアを付与する単語の位置「0」から現在位置の単語「宮崎」に対して、固有名詞タイプ「人」についてスコア「10」を設定する(ステップ(11))。さらに、第2のスコア設定規則は、スコアを付与する単語の位置「1」と固有名詞タイプ「O」とスコア「5」とを含むので、スコアを付与する単語の位置「1」から現在位置の次の位置の単語「さん」に対して、固有名詞タイプ「O」についてスコア「5」を設定する(ステップ(12))。 Then, as shown in FIG. 7, when processing a word string as shown in FIG. 3, the word “Miyazaki” at the current position is searched for the new rule shown in FIG. Confirm (step (10)). In the new rule of FIG. 6, the first rule is specified, and two score setting rules are extracted at once. Since the first score setting rule includes the position “0” of the word to which the score is assigned, the proper noun type “person”, and the score “10”, the word at the current position from the position “0” of the word to which the score is assigned. For “Miyazaki”, a score “10” is set for the proper noun type “people” (step (11)). Furthermore, since the second score setting rule includes the position “1” of the word to which the score is assigned, the proper noun type “O”, and the score “5”, the current position is determined from the position “1” of the word to which the score is assigned. A score “5” is set for the proper noun type “O” for the word “san” at the next position (step (12)).
また、図8に示すように、現在位置を次の単語に移動させ、現在位置の単語「さん」で、図6に示す新規則を検索し、一致する条件が存在するか確認する(ステップ(13))。図6の新規則では、2番目の規則が特定され、2つのスコア設定規則が一度に抽出される。第1のスコア設定規則は、スコアを付与する単語の位置「0」と固有名詞タイプ「O」とスコア「20」とを含むので、スコアを付与する単語の位置「0」から現在位置の単語「さん」に対して、固有名詞タイプ「O」についてスコア「20」を現在の値「5」に加算して「25」を登録する(ステップ(14))。同様に、第2のスコア設定規則は、スコアを付与する単語の位置「−1」と固有名詞タイプ「人」とスコア「30」とを含むので、スコアを付与する単語の位置「−1」から1つ前の位置の単語「宮崎」に対して、固有名詞タイプ「人」についてスコア「30」を現在の値「10」に加算して「40」を登録する(ステップ(15))。 Also, as shown in FIG. 8, the current position is moved to the next word, and the new rule shown in FIG. 6 is searched for the word “Ms.” at the current position to check whether a matching condition exists (step ( 13)). In the new rule of FIG. 6, the second rule is specified, and two score setting rules are extracted at once. Since the first score setting rule includes the position “0” of the word to which the score is given, the proper noun type “O”, and the score “20”, the word at the current position from the position “0” of the word to which the score is given. For “san”, the score “20” is added to the current value “5” for the proper noun type “O”, and “25” is registered (step (14)). Similarly, since the second score setting rule includes the position “−1” of the word to which the score is assigned, the proper noun type “person”, and the score “30”, the position “−1” of the word to which the score is assigned. Is added to the current value “10” for the proper noun type “person”, and “40” is registered (step (15)).
このようにすれば、判別対象の単語1つについて新規則を1度検索すれば、適用すべきスコア設定規則を抽出することができ、検索回数が減少して処理速度が高速化される。 In this way, if a new rule is searched once for one word to be determined, the score setting rule to be applied can be extracted, the number of searches is reduced, and the processing speed is increased.
[本実施の形態の具体的内容]
図9に規則処理装置の機能ブロック図を示す。規則処理装置は、学習データ入力部1と、学習データ入力部1により入力された学習データを格納する学習データ格納部3と、学習データ格納部3に格納されているデータを用いて規則学習処理を実施する規則学習部5と、規則学習部5の処理結果を格納する第1規則データ格納部7と、第1規則データ格納部7に格納されている第1の規則を第2の規則に変換する規則変換部9と、規則変換部9により生成された第2の規則のデータを格納する第2規則データ格納部11と、判別対象データ入力部13と、判別対象データ入力部13により入力された判別対象データを格納する判別対象データ格納部15と、第2規則データ格納部11と判別対象データ格納部15とに格納されたデータを用いて処理する判別部17と、判別部17の処理結果を格納する判別結果格納部19と、判別結果格納部19に格納されているデータを出力する出力部21とを有する。
[Specific contents of this embodiment]
FIG. 9 shows a functional block diagram of the rule processing device. The rule processing device uses a learning
次に、規則処理装置の処理内容について図10乃至図24を用いて説明する。最初に、規則処理装置の学習データ入力部1は、ユーザから学習データの入力を受け付け、学習データ格納部3に格納する(図10:ステップS1)。例えば、図1(a)に示すようなデータ、すなわち単語と正しい固有名詞タイプとの複数の対が含まれる。そして、規則学習部5は、学習データ格納部3に格納されている学習データに対して周知の学習処理を実施して第1の規則を生成し、第1規則データ格納部7に格納する(ステップS3)。例えば図1(a)から図1(b)そして図2に示すようなデータ・テーブルを生成する。この処理自体は周知であるからこれ以上述べない。
Next, processing contents of the rule processing device will be described with reference to FIGS. First, the learning
次に、規則変換部9は、規則変換処理を実施する(ステップS5)。この規則変換処理については、図11乃至図13を用いて説明する。但し、最初は、単語の属性種別については単語そのものだけであるものとする。規則変換部9は、rを1に初期化する(ステップS21)。そして、第1規則データ格納部7に格納されている第1規則テーブル(図2)におけるr番目の規則の条件を、素性の出現位置情報(=出現相対位置)pと値fとに分離する(ステップS23)。図2の第1行目を処理する場合、条件はW(0)=宮崎となっているので、p=0とf=宮崎とが得られる。
Next, the rule conversion unit 9 performs a rule conversion process (step S5). This rule conversion process will be described with reference to FIGS. However, at first, it is assumed that the word attribute type is only the word itself. The rule conversion unit 9 initializes r to 1 (step S21). Then, the condition of the r-th rule in the first rule table (FIG. 2) stored in the first rule
その後、規則変換部9は、第2規則データ格納部11における第2規則テーブルに、値fを条件として、「−p」をスコアを付与する単語の位置として、第1規則テーブルにおけるr番目の規則のスコア及び固有名詞タイプをそのまま、登録する(ステップS25)。図2の第1行目であれば、図12に示すようなデータが第2規則データ格納部11における第2規則テーブルに登録される。すなわち、条件「宮崎」と、スコアを付与する単語の位置「0」と固有名詞タイプ「人」とスコア「10」とを含むスコア設定規則とが登録される。
After that, the rule conversion unit 9 sets the second rule table in the second rule
そして、規則変換部9は、rを1インクリメントし、rがm(mは第1規則データ格納部7の第1規則テーブルのレコード数)以下であるか判断する(ステップS29)。rがm以下であればステップS23に戻る。 Then, the rule conversion unit 9 increments r by 1, and determines whether r is less than m (m is the number of records in the first rule table of the first rule data storage unit 7) (step S29). If r is less than or equal to m, the process returns to step S23.
r=2になると、条件はW(-1)=宮崎となっているので、p=−1とf=宮崎とが得られる。そして、図13に太線で示すように、f=宮崎を条件として、−p=1をスコアを付与する単語の位置として、r番目の規則のスコア「5」及び固有名詞タイプ「O」をそのまま、第2規則テーブルに登録する。 When r = 2, since the condition is W (−1) = Miyazaki, p = −1 and f = Miyazaki are obtained. Then, as indicated by a bold line in FIG. 13, the score “5” and the proper noun type “O” of the r-th rule are used as they are, with f = Miyazaki as the condition, and −p = 1 as the position of the word to which the score is assigned. , Registered in the second rule table.
一方、rがmを超える場合には、規則変換部9は、同一の条件についてスコア設定規則を集めることによって規則を集約する(ステップS30)。同一の条件に対応付けられているスコア設定規則を収集して、1つの条件に関連付けて収集されたスコア設定規則が登録される形に変換する。これによって、一度の検索で簡単に全てのスコア設定規則を抽出することができるようになる。その後、元の処理に戻る。 On the other hand, if r exceeds m, the rule conversion unit 9 collects the rules by collecting the score setting rules for the same condition (step S30). Score setting rules associated with the same condition are collected and converted into a form in which the score setting rules collected in association with one condition are registered. This makes it possible to easily extract all score setting rules with a single search. Thereafter, the process returns to the original process.
このような処理を実施すれば、図6に示すような変換が完了して、第2規則データ格納部11に第2規則テーブルが格納されるようになる。
When such processing is performed, the conversion as shown in FIG. 6 is completed, and the second rule table is stored in the second rule
図10の処理の説明に戻って、ステップS1乃至S3とは別に又はステップS5の後に、判別対象データ入力部13は、ユーザから判別対象データの入力を受け付け、判別対象データ格納部15に格納する(ステップS7)。判別対象データは、例えば図3に示すようなデータである。このような単純な例では、単語の属性種別が、単語そのものである。但し、必ずしも単語の属性種別は1種類に限定されるものではなく、例えば図14に示すように、単語そのものと、品詞と、文字種とを属性種別として採用するようにしても良い。このように、1つの単語について、使用する全属性種別の属性値の組み合わせを、要素wと呼ぶものとする。この単語の出現位置がある入力で「i」番目であれば、wiと表すものとする。
Returning to the description of the processing in FIG. 10, separately from steps S <b> 1 to S <b> 3 or after step S <b> 5, the discrimination target
そして、判別部17は、第2規則データ格納部11及び判別対象データ格納部15に格納されているデータを用いて判別処理を実施する(ステップS9)。この判別処理については、図15及び図16を用いて説明する。但し、最初は、条件が1種類のみの場合の処理を以下に説明する。具体的には、図6の右側の第2規則テーブルが用意されている場合の処理を説明する。
Then, the
まず、判別部17は、iを1に初期化する(ステップS31)。そして、判別対象データ格納部15における要素wiの未処理の属性種別を1つ特定する(ステップS33)。上で述べたように、要素wiは、判別対象データ格納部15におけるi番目の単語の1又は複数の属性種別の属性値を含む。図3の例は、属性種別が単語そのもののみという非常に単純な例であり、上でも述べた品詞や文字種が組み合わせられる場合もある。
First, the
そして、判別部17は、要素wiの特定された属性種別の属性値がいずれかの規則の条件を満たすか判断する(ステップS35)。図7の例では、属性種別が単語そのもので、単語「宮崎」を条件とする規則が存在するか判断し、該当するスコア設定規則が2つ得られる。要素wiの特定された属性種別の属性値がいずれの規則の条件にも合致しない場合にはステップS39に移行する。一方、要素wiの特定された属性種別の属性値がいずれかの規則の条件を満たしている場合には、該当規則におけるスコア設定規則(すなわち、スコアが付与される単語の位置(出現相対位置)と、タイプ及びスコア)に応じて、要素wiに対してスコアを設定する(ステップS37)。図7の例では、ステップ(11)及び(12)のように、単語「宮崎」の要素について固有名詞タイプ「人」にスコア「10」を設定すると共に、単語「さん」の要素について固有名詞タイプ「O」にスコア「5」を設定する。既にスコアが登録されている場合には、今回のスコア設定規則に含まれるスコアの値を加算する。処理はステップS39に移行する。
Then, the
ステップS39では、判別部17は、要素wiについて未処理の属性が存在するか判断し、要素wiについて未処理の属性種別が存在すればステップS33に戻る。一方、未処理の属性種別が存在しなければ、iを1インクリメントして(ステップS41)、iがn(nは要素の数)以下であるか判断する(ステップS43)。iがn以下であればステップS33に戻る。一方、iがnを超える場合には、判別対象データ格納部15における各要素wiについて、スコア最大のタイプ(図7の例では人名かそれ以外か)を特定し、判別結果格納部19に格納する(ステップS45)。例えば図16に示すように、判別結果格納部19には、単語毎に、判別結果が登録されるようになっている。すなわち、「宮崎」だけが「人」と判定されている。
In step S39, the
以上のように、条件が1つの属性種別についてのみで組み合わせ無しという単純な例では、属性種別が複数存在していれば、1つの要素について属性種別の数だけ規則の検索が行われる。但し、1つの要素については1回のみ処理されるので、検索回数は削減されている。属性種別が1つだけであれば、1要素について1回の検索で済んでいる。 As described above, in a simple example where the condition is only for one attribute type and there is no combination, if there are a plurality of attribute types, a rule is searched for the number of attribute types for one element. However, since one element is processed only once, the number of searches is reduced. If there is only one attribute type, one search is sufficient for one element.
図10の処理の説明に戻り、出力部21は、判別結果格納部19に格納されている判別結果を、表示装置や印刷装置などの出力装置に出力する(ステップS21)。規則処理装置がネットワークに接続されている場合には、ネットワークに接続されている他のコンピュータに送信するようにしても良い。
Returning to the description of the processing in FIG. 10, the
以上のような処理を実施すれば、検索回数を削減しつつ、判別対象データの各単語について、最も確からしいタイプが特定されるようになる。上で述べた例では、人名であるか否かが特定されるが、他のタイプを判別することもできるようになる。例えば品詞の判別を行うことも可能である。さらに、名詞句、動詞句などの判別(基本フレーズ判別)、文節推定などを行うことも可能である。 By performing the processing as described above, the most probable type is identified for each word of the discrimination target data while reducing the number of searches. In the example described above, whether or not the name is a personal name is specified, but other types can be discriminated. For example, part of speech can be determined. Furthermore, it is possible to determine noun phrases and verb phrases (basic phrase determination), phrase estimation, and the like.
上では規則の条件が1つの属性種別についてのみで組み合わせ無しという単純な例について述べたが、一般的にはこのような単純な例だけではない。次に、より一般化した処理について説明する。すなわち、条件が複数の素性の組み合わせで表される場合について図17乃至図19を用いて説明する。規則変換部9は、現在位置を示すrを1に初期化する(ステップS51)。そして、出現相対位置の最小値MINを「未定義」に初期化する(ステップS53)。その後、第1規則データ格納部7におけるr番目の規則から未処理の素性を1つ特定する(ステップS55)。例えば図18(a)に示すように、各規則の条件が2つの素性の組み合わせで表される場合、第1の規則を処理する場合には、W(0)=宮崎とW(1)=さんのうち例えばW(0)=宮崎を特定する。 In the above, a simple example in which the rule condition is only for one attribute type and there is no combination has been described. However, in general, this is not the only simple example. Next, more generalized processing will be described. That is, the case where the condition is expressed by a combination of a plurality of features will be described with reference to FIGS. The rule converter 9 initializes r indicating the current position to 1 (step S51). Then, the minimum value MIN of the appearance relative position is initialized to “undefined” (step S53). Thereafter, one unprocessed feature is specified from the r-th rule in the first rule data storage unit 7 (step S55). For example, as shown in FIG. 18A, when the condition of each rule is expressed by a combination of two features, when processing the first rule, W (0) = Miyazaki and W (1) = For example, W (0) = Miyazaki is identified.
そして、規則変換部9は、特定された素性から素性の出現相対位置pを特定する(ステップS57)。上で特定された例では、p=0となる。その後、MINが未定義又はp<MINであるか判断する(ステップS59)。MINが未定義又はp<MINである場合には、MINを最小にするためにMIN=pに設定する(ステップS61)。そしてステップS63に移行する。一方、MIN≦pである場合には、MINを更新する必要がないので、ステップS63に移行する。 And the rule conversion part 9 specifies the appearance relative position p of a feature from the specified feature (step S57). In the example specified above, p = 0. Thereafter, it is determined whether MIN is undefined or p <MIN (step S59). If MIN is undefined or p <MIN, MIN = p is set to minimize MIN (step S61). Then, control goes to a step S63. On the other hand, if MIN ≦ p, there is no need to update MIN, and the process proceeds to step S63.
ステップS63では、規則変換部9は、r番目の規則に未処理の素性が存在するか判断し(ステップS63)、未処理の素性が存在している場合にはステップS55に戻る。図18(a)の例では、W(1)=さんが未処理として特定されるが、p=1で、MIN=0であるから、MIN=0で確定する。2番目の規則の場合、W(−1)=宮崎とW(0)=さんであるので、MIN=−1となる。 In step S63, the rule conversion unit 9 determines whether or not an unprocessed feature exists in the r-th rule (step S63). If an unprocessed feature exists, the process returns to step S55. In the example of FIG. 18A, W (1) = is identified as unprocessed, but since p = 1 and MIN = 0, it is determined that MIN = 0. In the case of the second rule, MIN = −1 because W (−1) = Miyazaki and W (0) = san.
一方、r番目の規則に未処理の素性が存在しない場合には、端子Aを介して図19の処理に移行する。次に、規則変換部9は、r番目の規則から再度未処理の素性を1つ特定する(ステップS65)。そして、特定された素性を、属性種別tと素性の出現相対位置pと値fとに分離する(ステップS67)。W(0)=宮崎については、属性種別t=W(すなわち単語)、p=0、f=宮崎といったように分離される。そして、NI=p−MINを新たな出現相対位置に設定し、属性種別tと新たな出現相対位置NIと値fとで表現される素性を、新たな条件nrに追加する(ステップS69)。1番目の規則のW(0)=宮崎については、NI=0−0=0であるので、素性の内容に変化はない。W(1)=さんについても素性の内容に変化はない。一方、2番目の規則におけるW(-1)=宮崎については、NI=−1−(−1)=0であり、W(0)=宮崎に変更される。2番目の規則におけるW(0)=さんについては、NI=0−(−1)=1であり、W(1)=さんに変更される。その後、r番目の規則において未処理の素性が存在するか判断する(ステップS71)。未処理の素性が存在する場合にはステップS65に戻る。 On the other hand, when there is no unprocessed feature in the r-th rule, the processing shifts to the processing in FIG. Next, the rule conversion unit 9 identifies one unprocessed feature again from the r-th rule (step S65). Then, the identified feature is separated into attribute type t, feature appearance relative position p, and value f (step S67). For W (0) = Miyazaki, the attribute type is t = W (ie, word), p = 0, f = Miyazaki, and so on. Then, NI = p-MIN is set as a new appearance relative position, and the feature expressed by the attribute type t, the new appearance relative position NI, and the value f is added to the new condition nr (step S69). For W (0) = Miyazaki in the first rule, since NI = 0-0 = 0, the content of the feature is not changed. There is no change in the content of the identity of W (1) =. On the other hand, for W (−1) = Miyazaki in the second rule, NI = −1 − (− 1) = 0, and W (0) = Miyazaki is changed. For W (0) = in the second rule, NI = 0 − (− 1) = 1 and is changed to W (1) =. Thereafter, it is determined whether an unprocessed feature exists in the r-th rule (step S71). If there is an unprocessed feature, the process returns to step S65.
一方、r番目の規則において未処理の素性が存在しない場合には、規則変換部9は、第2規則データ格納部11における第2規則テーブルに、条件「nr」と、スコアを付与する単語の位置「−MIN」とr番目の規則のタイプ及びスコアとを含むスコア設定規則とを登録する(ステップS73)。そして、rを1インクリメントし(ステップS75)、rがm(mが規則数)以下であるか判断する(ステップS77)。rがm以下である場合には、端子Bを介してステップS53に戻る。一方、rがmを超えた場合には、第2規則テーブルにおいて、同一条件の規則を集約する(ステップS79)。図18(a)の1番目の規則と2番目の規則については図18(b)に示すように、同じ条件となるので、1つの条件から2つのスコア設定規則が抽出できるように関連付けを行う。図18(a)の例では、3番目及び4番目の規則についても同様に条件は同じとなるので、図18(b)に示すように、1つの条件から2つのスコア設定規則が抽出できるように関連付けを行う。そして元の処理に戻る。
On the other hand, when there is no unprocessed feature in the r-th rule, the rule conversion unit 9 adds the condition “nr” and the word to which the score is assigned to the second rule table in the second rule
以上のような処理を実施すれば、条件に含まれる素性の数が複数であっても、また複数の属性種別について素性が構成される場合においても対応することができる。 By performing the processing as described above, it is possible to cope with a case where the number of features included in the condition is plural or when features are configured for a plurality of attribute types.
次に、図20乃至図24を用いて、より一般的な判別処理について説明する。なお、図18(b)の第2規則テーブルを用いることとする。まず、nに要素wの個数を設定する(ステップS81)。例えば図21に示すようなデータが判別対象データ格納部15に格納されているものとする。ここでは、単語の属性種別として単語そのものWの他に品詞Pも含まれている。ここでは4つの要素が存在しているので、n=4となる。また、WRに、規則の条件における単語の出現相対位置の、基準位置からの最大距離を設定し、MAXに、規則の条件に含まれる素性の最大個数を設定する(ステップS83)。これは、第2規則データ格納部11における第2規則テーブルを探索することによって設定される。図18(b)に示すような第2規則テーブルの場合には、「W(p)=wi」におけるpの最大値が1であるから、WR=1である。但し、以下の処理の説明のためにWR=「2」であるものとする。また、各規則には最大2つの素性が含まれるので、MAX=2と設定される。
Next, more general determination processing will be described with reference to FIGS. Note that the second rule table in FIG. 18B is used. First, the number of elements w is set to n (step S81). For example, it is assumed that data as shown in FIG. 21 is stored in the discrimination target
そして、判別部17は、i=1と設定し(ステップS85)、要素wiを基準とし、WR及びMAXに従ってチェック候補を生成し、ARに格納する(ステップS87)。要素wiから最大距離WRだけ離れた出現位置の要素wi+WRまでの要素の各々について、属性種別(例えばW又はP)毎に当該属性種別(W又はP)と当該属性種別の属性値fと要素wiからの出現相対位置pjとから素性を生成する。そして、MAX以内で要素wiについての素性のいずれかを少なくとも含むように組み合わせてチェック候補を生成する。図21の例で、要素w1を処理対象とすると、考慮しなければならない要素は、単語「宮崎」の要素w1と、単語「さん」の要素w2と、単語「と」の要素w3とになる。そして、要素w1について、W(0)=宮崎(すなわちpj=0、f=宮崎)、P(0)=名詞(すなわちpj=0、f=名詞)、W(1)=さん(すなわちpj=1、f=さん)、P(1)=接尾(すなわちpj=1、f=接尾)、W(2)=と(すなわちpj=2、f=と)、P(2)=助詞(すなわちpj=2、f=助詞)とが生成される。そして、MAX=2であるから、素性1個又は2個で、W(0)=宮崎とP(0)=名詞との少なくともいずれかを含むように素性を組み合わせると、図22に示すようなチェック候補が生成される。
Then, the
そして、判別部17は、ARから未処理のチェック候補crを1つ特定する(ステップS89)。その後、チェック候補crで第2規則データ格納部11における第2規則テーブルを検索することによって、チェック候補crが適用条件となる規則が存在するか判断する(ステップS91)。チェック候補crが適用条件となる規則が存在しない場合には、端子Cを介して図24の処理に移行する。一方、チェック候補crが適用条件となる規則が存在する場合には、該当規則についてのスコア設定規則に基づき、判別対象データ格納部15における該当するスコアを更新する(ステップS93)。図23に模式的に示すように、ステップS87で生成されたチェック候補の各々について第2規則データ格納部11に格納されている第2規則テーブルを検索すると、4番目のチェック候補が1番目の規則の条件に一致することになる。そうすると2つのスコア設定規則が抽出されて、それぞれについて、判別対象データ格納部15の該当箇所のスコアを更新する。第1のスコア設定規則であれば、スコアを付与する単語の位置が「0」であるから要素wiについてのタイプ「人」のスコアを「20」だけ増加させる。第2のスコア設定規則であれば、スコアを付与する単語の位置が「1」であるから要素wi+1についてのタイプ「O」のスコアを「10」だけ増加させる。そうすると、判別対象データ格納部15のテーブルは、図23の左上の状態になる。処理は端子Cを介して図24の処理に移行する。
Then, the
図24の処理の説明に移行して、判別部17は、ARに未処理のチェック候補が残っているか判断する(ステップS97)。未処理のチェック候補が残っている場合には端子Eを介して図20のステップS89に戻る。一方、ARにおいて全てのチェック候補を処理した場合には、iを1インクリメントし(ステップS99)、iがn(nは要素数)以下であるか判断する(ステップS101)。iがn以下であれば端子Dを介して図20のステップS87に戻る。一方、iがnを超えた場合には、判別対象データ格納部15内の各要素についてスコア最大のタイプを特定し、判別結果格納部19に格納する(ステップS103)。そして元の処理に戻る。
Shifting to the description of the processing in FIG. 24, the
このような処理を実施すれば要素や規則が一般化しても対応可能である。 By carrying out such processing, it is possible to cope with generalization of elements and rules.
以上本技術の実施の形態を説明したが、本技術はこれに限定されるものではない。例えば、タイプは「人名」か「その他」しかない例を示したが、他のタイプであってもよいし、多数のタイプにスコアを設定するような場合にも対応可能である。 Although the embodiment of the present technology has been described above, the present technology is not limited to this. For example, although the example has only “person name” or “other” as the type, other types may be used, and it is possible to deal with a case where scores are set for many types.
さらに、処理フローについても同様の結果を得られれば、処理順番を入れ替えたり、並列実施するようにしても良い。特にステップS87のような処理については、一度にチェック候補を全て生成するのではなく、第2規則テーブルを検索する毎に生成するような形に変形するようにしても良い。 Furthermore, as long as the same result is obtained for the processing flow, the processing order may be changed or the processing flow may be performed in parallel. In particular, the processing as in step S87 may be modified so that it is generated every time the second rule table is searched, instead of generating all check candidates at once.
また規則処理装置の機能ブロック図は一例であって、必ずしも実際のプログラムモジュール構成とは一致しない場合もある。 Further, the functional block diagram of the rule processing device is an example, and may not necessarily match the actual program module configuration.
なお、上で述べた規則処理装置は、コンピュータ装置であって、図25に示すように、メモリ2501とCPU2503とハードディスク・ドライブ(HDD)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。必要に応じてCPU2503は、表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、必要な動作を行わせる。また、処理途中のデータについては、メモリ2501に格納され、必要があればHDD2505に格納される。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及び必要なアプリケーション・プログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
The rule processing device described above is a computer device, and as shown in FIG. 25, a
以上本実施の形態をまとめると以下のようになる。 The present embodiment can be summarized as follows.
本規則処理方法は、単語の属性種別と出現相対位置と属性値との組み合わせで表される条件又は条件の組み合わせの各々に関連付けてスコアと当該スコアを付与すべき出現相対位置及びタイプとを含む1又は複数のスコア設定規則が登録されている規則データ格納部と、単語の各属性種別の属性値を含む要素が出現順に並べられた要素列を格納する要素列データ格納部とにアクセス可能なコンピュータにより実行される。そして本規則処理方法は、要素列データ格納部から、上記条件の組み合わせに含まれる条件の最大数と上記条件又は条件の組み合わせに関連付けられているスコア設定規則に含まれる出現相対位置の、基準位置からの最大距離とにより特定される候補抽出条件に従って、要素毎に、単語の属性種別と出現相対位置と属性値との組み合わせで表される要素条件(実施の形態における素性)又は要素条件の組み合わせである適用候補を抽出する抽出ステップと、適用候補で規則データ格納部を検索して、該当する条件又は条件の組み合わせが存在する場合には、規則データ格納部から該当する上記条件又は条件の組み合わせに関連付けられている1又は複数のスコア設定規則を抽出し、抽出された1又は複数のスコア設定規則に含まれるタイプ及びスコアで、抽出された上記1又は複数のスコア設定規則に含まれる出現相対位置と適用候補に係る出現位置とから特定される要素の当該タイプについてのスコアを更新し、要素列データ格納部に格納するステップとを含む。
This rule processing method includes a score, a relative appearance position and a type to which the score should be assigned, in association with each condition or combination of conditions represented by a combination of the attribute type, appearance relative position, and attribute value of the word. Access to a rule data storage unit in which one or a plurality of score setting rules are registered, and an element column data storage unit that stores an element column in which elements including attribute values of each attribute type of words are arranged in the order of appearance Executed by a computer. Then, this rule processing method uses the reference position of the appearance relative position included in the score setting rule associated with the maximum number of conditions included in the combination of conditions and the condition or combination of conditions from the element string data storage unit. In accordance with the candidate extraction condition specified by the maximum distance from the element, an element condition (feature in the embodiment) or a combination of element conditions represented by a combination of the attribute type, appearance relative position, and attribute value of each word for each element The extraction step for extracting the application candidate, and the rule data storage unit by searching for the application candidate, and if there is a corresponding condition or combination of conditions, the corresponding combination of the above condition or condition from the rule
上で述べたような規則データ格納部を用意することによって、適用候補で規則データ格納部を検索して、適用候補に該当する条件又は条件の組み合わせが存在する場合にはそれに関連付けられている1又は複数のスコア設定規則が一度に抽出できるので、規則データ格納部の検索回数等を減らすことができるようになり、全体の処理速度が向上する。なお、属性種別は1又は複数の場合があり、例えば単語そのもの、品詞、文字種などが想定される。 By preparing the rule data storage unit as described above, the rule data storage unit is searched for the application candidate, and if there is a condition or combination of conditions corresponding to the application candidate, 1 associated therewith Alternatively, since a plurality of score setting rules can be extracted at a time, the number of searches in the rule data storage unit can be reduced, and the overall processing speed is improved. There may be one or a plurality of attribute types. For example, a word itself, a part of speech, a character type, and the like are assumed.
また、上で述べた抽出ステップが、処理に係る要素の出現位置から最大距離だけ離れた出現位置までの要素の各々について、属性種別毎に当該属性種別と当該属性種別の属性値と処理に係る要素の出現位置からの出現相対位置との組み合わせで表される要素条件を生成するステップと、処理に係る要素についての要素条件のいずれかを少なくとも含むように要素条件を上記条件の最大数以内で組み合わせて適用候補を生成するステップとを含むようにしてもよい。要素列において処理に係る要素より前の要素のデータを再度用いて適用候補を生成するのではないので、処理が単純化且つ高速化される。 Further, the extraction step described above relates to the attribute type, the attribute value of the attribute type, and the processing for each attribute type for each of the elements up to the appearance position separated by the maximum distance from the appearance position of the element related to the processing. The element condition is included within the maximum number of the above conditions so as to include at least one of the element condition for the element related to the processing and the step of generating the element condition represented by the combination of the appearance relative position from the appearance position of the element And generating a candidate for application in combination. Since the application candidate is not generated again by using the data of the element before the element related to the process in the element string, the process is simplified and speeded up.
さらに、本規則処理方法において、上記要素の各々について、各タイプについてのスコアを比較して、最大のスコアが設定されているタイプを当該要素のタイプとして特定するステップをさらに含むようにしても良い。例えばタイプが固有名詞やそれ以外といったものであれば、単語毎に固有名詞か否かを判断することができるようになる。 Further, the rule processing method may further include a step of comparing the score for each type for each of the elements, and specifying the type for which the maximum score is set as the type of the element. For example, if the type is a proper noun or other type, it can be determined whether each word is a proper noun.
また、コンピュータが、単語の属性種別と出現相対位置と属性値との組み合わせで表される第2条件又は第2条件の組み合わせの各々に関連付けてスコアと当該スコアを付与すべきタイプとを含む1の第2スコア設定規則が登録されている第2規則データ格納部にさらにアクセス可能であってもよい。その場合、第2規則データ格納部に格納されている第2条件又は第2条件の組み合わせの各々について、第2条件又は第2条件の組み合わせに含まれる出現相対位置における最も小さい値を基準値として特定し、第2条件又は第2条件の組み合わせに含まれる各第2条件の出現相対位置を基準値からの新たな出現相対位置に変換して上記条件又は条件の組み合わせを生成し、当該条件又は条件の組み合わせに関連付けて、第2設定規則に加えて基準値に(−1)を乗じた値を出現相対位置として含むスコア設定規則を規則データ格納部に格納するステップと、規則データ格納部において、上記条件又は条件の組み合わせが同じスコア設定規則を抽出して、上記条件又は条件の組み合わせを集約するステップとをさらに含むようにしてもよい。例えば、第2規則データ格納部が従来技術で用意されるような場合、このようにすれば本技術で必要な規則データ格納部のデータが用意できるようになる。 In addition, the computer includes a score and a type to which the score should be assigned in association with each of the second condition or the combination of the second condition represented by a combination of the attribute type, appearance relative position, and attribute value of the word. The second rule data storage unit in which the second score setting rule is registered may be further accessible. In that case, for each of the second condition or the combination of the second condition stored in the second rule data storage unit, the smallest value at the appearance relative position included in the second condition or the combination of the second condition is used as the reference value. Identify and convert the appearance relative position of each second condition included in the second condition or combination of second conditions into a new appearance relative position from the reference value to generate the condition or combination of conditions, In the rule data storage unit, a step of storing a score setting rule including a value obtained by multiplying the reference value by (−1) as an appearance relative position in addition to the second setting rule in association with the combination of conditions in the rule data storage unit; And a step of extracting score setting rules having the same conditions or combinations of conditions and aggregating the conditions or combinations of conditions. For example, when the second rule data storage unit is prepared by the conventional technique, data of the rule data storage unit necessary for the present technique can be prepared in this way.
なお、上で述べたような処理をコンピュータに実施させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。なお、処理途中のデータについては、コンピュータのメモリ等の記憶装置に一時保管される。 It is possible to create a program for causing a computer to carry out the processes described above, and the program can be read by a computer such as a flexible disk, a CD-ROM, a magneto-optical disk, a semiconductor memory, and a hard disk. Stored in a storage medium or storage device. Note that data being processed is temporarily stored in a storage device such as a computer memory.
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。 The following supplementary notes are further disclosed with respect to the embodiments including the above examples.
(付記1)
単語の属性種別と出現相対位置と属性値との組み合わせで表される条件又は条件の組み合わせの各々に関連付けてスコアと当該スコアを付与すべき出現相対位置及びタイプとを含む1又は複数のスコア設定規則が登録されている規則データ格納部と、単語の各属性種別の属性値を含む要素が出現順に並べられた要素列を格納する要素列データ格納部とにアクセス可能なコンピュータにより実行される規則処理方法であって、
前記要素列データ格納部から、前記条件の組み合わせに含まれる条件の最大数と前記条件又は条件の組み合わせに関連付けられている前記スコア設定規則に含まれる出現相対位置の、基準位置からの最大距離とにより特定される候補抽出条件に従って、前記要素毎に、単語の属性種別と出現相対位置と属性値との組み合わせで表される要素条件又は要素条件の組み合わせである適用候補を抽出する抽出ステップと、
前記適用候補で前記規則データ格納部を検索して、該当する前記条件又は条件の組み合わせが存在する場合には、前記規則データ格納部から該当する前記条件又は条件の組み合わせに関連付けられている1又は複数のスコア設定規則を抽出し、抽出された前記1又は複数のスコア設定規則に含まれる前記タイプ及び前記スコアで、抽出された前記1又は複数のスコア設定規則に含まれる前記出現相対位置と前記適用候補に係る前記出現位置とから特定される要素の当該タイプについてのスコアを更新し、前記要素列データ格納部に格納するステップと、
を含む規則処理方法。
(Appendix 1)
One or a plurality of score settings including a score and a relative position and type of appearance to which the score should be given in association with each condition or combination of conditions represented by a combination of the attribute type, appearance relative position, and attribute value of the word Rules executed by a computer that can access a rule data storage unit in which rules are registered and an element string data storage unit that stores an element sequence in which elements including attribute values of word attribute types are arranged in the order of appearance A processing method,
From the element string data storage unit, the maximum number of conditions included in the combination of conditions and the maximum distance from the reference position of the appearance relative position included in the score setting rule associated with the condition or combination of conditions; An extraction step of extracting an application candidate that is an element condition or a combination of element conditions represented by a combination of a word attribute type, an appearance relative position, and an attribute value for each element according to the candidate extraction condition specified by:
If the rule data storage unit is searched for the application candidate and the corresponding condition or combination of conditions exists, the rule data storage unit is associated with the corresponding condition or
Rules processing method including.
(付記2)
前記抽出ステップが、
処理に係る要素の出現位置から前記最大距離だけ離れた出現位置までの前記要素の各々について、前記属性種別毎に当該属性種別と当該属性種別の属性値と前記処理に係る要素の出現位置からの出現相対位置との組み合わせで表される要素条件を生成するステップと、
前記処理に係る要素についての要素条件のいずれかを少なくとも含むように前記要素条件を前記条件の最大数以内で組み合わせて前記適用候補を生成するステップと、
を含む付記1記載の規則処理方法。
(Appendix 2)
The extraction step comprises:
For each of the elements from the appearance position of the element related to the processing to the appearance position separated by the maximum distance, for each attribute type, the attribute type, the attribute value of the attribute type, and the appearance position of the element related to the processing Generating an element condition represented by a combination with an appearance relative position;
Generating the application candidate by combining the element conditions within a maximum number of the conditions so as to include at least any of the element conditions for the elements involved in the processing;
The rule processing method according to
(付記3)
前記要素の各々について、各前記タイプについてのスコアを比較して、最大のスコアが設定されているタイプを当該要素のタイプとして特定するステップ
をさらに含む付記1又は2記載の規則処理方法。
(Appendix 3)
The rule processing method according to
(付記4)
前記コンピュータが、単語の属性種別と出現相対位置と属性値との組み合わせで表される第2条件又は第2条件の組み合わせの各々に関連付けてスコアと当該スコアを付与すべきタイプとを含む1の第2スコア設定規則が登録されている第2規則データ格納部にさらにアクセス可能であり、
前記第2規則データ格納部に格納されている前記第2条件又は第2条件の組み合わせの各々について、前記第2条件又は第2条件の組み合わせに含まれる前記出現相対位置における最も小さい値を基準値として特定し、前記第2条件又は第2条件の組み合わせに含まれる各前記第2条件の前記出現相対位置を前記基準値からの新たな出現相対位置に変換して前記条件又は条件の組み合わせを生成し、当該条件又は条件の組み合わせに関連付けて、前記第2設定規則に加えて前記基準値に(−1)を乗じた値を前記出現相対位置として含む前記スコア設定規則を前記規則データ格納部に格納するステップと、
前記規則データ格納部において、前記条件又は条件の組み合わせが同じ前記スコア設定規則を抽出して、前記条件又は条件の組み合わせを集約するステップと、
をさらに含む付記1乃至3のいずれか1つ記載の規則処理方法。
(Appendix 4)
The computer includes a score and a type to which the score should be assigned in association with each of the second condition or the combination of the second condition represented by a combination of the attribute type, appearance relative position, and attribute value of the word The second rule data storage unit in which the second score setting rule is registered is further accessible,
For each of the second condition or combination of second conditions stored in the second rule data storage unit, the smallest value in the appearance relative position included in the second condition or combination of second conditions is set as a reference value. And generating the condition or combination of conditions by converting the appearance relative position of each second condition included in the second condition or combination of second conditions into a new appearance relative position from the reference value. In addition to the second setting rule, the score setting rule including a value obtained by multiplying the reference value by (−1) as the appearance relative position in the rule data storage unit in association with the condition or the combination of conditions. Storing, and
In the rule data storage unit, extracting the score setting rule having the same condition or combination of conditions, and aggregating the conditions or combinations of conditions;
The rule processing method according to any one of
(付記5)
付記1乃至4のいずれか1つ記載の規則処理方法をコンピュータに実行させるためのプログラム。
(Appendix 5)
A program for causing a computer to execute the rule processing method according to any one of
(付記6)
単語の属性種別と出現相対位置と属性値との組み合わせで表される条件又は条件の組み合わせの各々に関連付けてスコアと当該スコアを付与すべき出現相対位置及びタイプとを含む1又は複数のスコア設定規則が登録されている規則データ格納部と、
単語の各属性種別の属性値を含む要素が出現順に並べられた要素列を格納する要素列データ格納部と、
前記要素列データ格納部から、前記条件の組み合わせに含まれる条件の最大数と前記条件又は条件の組み合わせに関連付けられている前記スコア設定規則に含まれる出現相対位置の、基準位置からの最大距離とにより特定される候補抽出条件に従って、前記要素毎に、単語の属性種別と出現相対位置と属性値との組み合わせで表される要素条件又は要素条件の組み合わせである適用候補を抽出する抽出手段と、
前記適用候補で前記規則データ格納部を検索して、該当する前記条件又は条件の組み合わせが存在する場合には、前記規則データ格納部から該当する前記条件又は条件の組み合わせに関連付けられている1又は複数のスコア設定規則を抽出し、抽出された前記1又は複数のスコア設定規則に含まれる前記タイプ及び前記スコアで、抽出された前記1又は複数のスコア設定規則に含まれる前記出現相対位置と前記適用候補に係る前記出現位置とから特定される要素の当該タイプについてのスコアを更新し、前記要素列データ格納部に格納する手段と、
を有する規則処理装置。
(Appendix 6)
One or a plurality of score settings including a score and a relative position and type of appearance to which the score should be given in association with each condition or combination of conditions represented by a combination of the attribute type, appearance relative position, and attribute value of the word A rule data storage in which rules are registered;
An element string data storage unit that stores an element string in which elements including attribute values of each attribute type of words are arranged in the order of appearance;
From the element string data storage unit, the maximum number of conditions included in the combination of conditions and the maximum distance from the reference position of the appearance relative position included in the score setting rule associated with the condition or combination of conditions; An extraction means for extracting an application candidate that is an element condition or a combination of element conditions represented by a combination of a word attribute type, an appearance relative position, and an attribute value for each element according to the candidate extraction condition specified by:
If the rule data storage unit is searched for the application candidate and the corresponding condition or combination of conditions exists, the rule data storage unit is associated with the corresponding condition or
A rule processing device.
1 学習データ入力部 3 学習データ格納部
5 規則学習部 7 第1規則データ格納部
9 規則変換部 11 第2規則データ格納部
13 判別対象データ入力部 15 判別対象データ格納部
17 判別部 19 判別結果格納部
21 出力部
DESCRIPTION OF
Claims (6)
前記要素列データ格納部から、前記条件の組み合わせに含まれる条件の最大数と前記条件又は条件の組み合わせに関連付けられている前記スコア設定規則に含まれる出現相対位置の、基準位置からの最大距離とにより特定される候補抽出条件に従って、前記要素毎に、単語の属性種別と出現相対位置と属性値との組み合わせで表される要素条件又は要素条件の組み合わせである適用候補を抽出する抽出ステップと、
前記適用候補で前記規則データ格納部を検索して、該当する前記条件又は条件の組み合わせが存在する場合には、前記規則データ格納部から該当する前記条件又は条件の組み合わせに関連付けられている1又は複数のスコア設定規則を抽出し、抽出された前記1又は複数のスコア設定規則に含まれる前記タイプ及び前記スコアで、抽出された前記1又は複数のスコア設定規則に含まれる前記出現相対位置と前記適用候補に係る前記出現位置とから特定される要素の当該タイプについてのスコアを更新し、前記要素列データ格納部に格納するステップと、
を含む規則処理方法。 One or a plurality of score settings including a score and a relative position and type of appearance to which the score should be given in association with each condition or combination of conditions represented by a combination of the attribute type, appearance relative position, and attribute value of the word Rules executed by a computer that can access a rule data storage unit in which rules are registered and an element string data storage unit that stores an element sequence in which elements including attribute values of word attribute types are arranged in the order of appearance A processing method,
From the element string data storage unit, the maximum number of conditions included in the combination of conditions and the maximum distance from the reference position of the appearance relative position included in the score setting rule associated with the condition or combination of conditions; An extraction step of extracting an application candidate that is an element condition or a combination of element conditions represented by a combination of a word attribute type, an appearance relative position, and an attribute value for each element according to the candidate extraction condition specified by:
If the rule data storage unit is searched for the application candidate and the corresponding condition or combination of conditions exists, the rule data storage unit is associated with the corresponding condition or condition combination 1 or Extracting a plurality of score setting rules, the type and the score included in the extracted one or more score setting rules, and the appearance relative position included in the extracted one or more score setting rules Updating a score for the type of the element identified from the appearance position related to the application candidate, and storing the score in the element string data storage unit;
Rules processing method including.
処理に係る要素の出現位置から前記最大距離だけ離れた出現位置までの前記要素の各々について、前記属性種別毎に当該属性種別と当該属性種別の属性値と前記処理に係る要素の出現位置からの出現相対位置との組み合わせで表される要素条件を生成するステップと、
前記処理に係る要素についての要素条件のいずれかを少なくとも含むように前記要素条件を前記条件の最大数以内で組み合わせて前記適用候補を生成するステップと、
を含む請求項1記載の規則処理方法。 The extraction step comprises:
For each of the elements from the appearance position of the element related to the processing to the appearance position separated by the maximum distance, for each attribute type, the attribute type, the attribute value of the attribute type, and the appearance position of the element related to the processing Generating an element condition represented by a combination with an appearance relative position;
Generating the application candidate by combining the element conditions within a maximum number of the conditions so as to include at least any of the element conditions for the elements involved in the processing;
The rule processing method according to claim 1, comprising:
をさらに含む請求項1又は2記載の規則処理方法。 The rule processing method according to claim 1, further comprising: comparing a score for each of the types for each of the elements and specifying a type for which the maximum score is set as the type of the element.
前記第1規則データ格納部に格納されている前記第1条件又は第1条件の組み合わせの各々について、前記第1条件又は第1条件の組み合わせに含まれる前記出現相対位置における最も小さい値を基準値として特定し、前記第1条件又は第1条件の組み合わせに含まれる各前記第1条件の前記出現相対位置を前記基準値からの新たな出現相対位置に変換して、前記単語の属性種別と当該新たな出現相対位置と前記属性値との組み合わせで表される第2条件又は第2条件の組み合わせを生成し、当該第2条件又は第2条件の組み合わせに関連付けて、前記第1スコア設定規則に加えて前記基準値に(−1)を乗じた値をスコアを付与すべき出現相対位置として含む第2スコア設定規則を第2規則データ格納部に格納するステップと、
前記第2規則データ格納部において、前記第2条件又は第2条件の組み合わせが同じ前記スコア設定規則を抽出して、前記第2条件又は第2条件の組み合わせを集約するステップと、
を含む規則処理方法。 One or more first and a single word first condition or each type to be given a score and the score associated with the combination of the first condition and the attribute type is expressed in combination with the appearance relative position and attribute values a rule processing method performed in the first rule data storage unit 1 score setting rule is registered by a computer accessible,
For each of the combinations of the first condition or the first condition is stored in the first rule data storage unit, a reference value the smallest value in the occurrence relative position included in the combination of the first condition or the first condition was identified as the said occurrence relative position of each of the first condition contained in the combination of the first condition or the first condition is converted into a new appearance relative position from the reference value, the word attribute type and the generating a combination of second condition or a second condition represented by the combination of the attribute value and the new appearance relative positions, in association with a combination of the second condition or the second condition, the first score setting rule In addition, storing a second score setting rule including a value obtained by multiplying the reference value by (−1) as an appearance relative position to which a score is to be assigned, in a second rule data storage unit;
In the second rule data storage unit, the method comprising the combination of the second condition or the second condition is to extract the same the score set rules, to aggregate the combination of the second condition or the second condition,
Rules processing methods, including.
単語の各属性種別の属性値を含む要素が出現順に並べられた要素列を格納する要素列データ格納部と、
前記要素列データ格納部から、前記条件の組み合わせに含まれる条件の最大数と前記条件又は条件の組み合わせに関連付けられている前記スコア設定規則に含まれる出現相対位置の、基準位置からの最大距離とにより特定される候補抽出条件に従って、前記要素毎に、単語の属性種別と出現相対位置と属性値との組み合わせで表される要素条件又は要素条件の組み合わせである適用候補を抽出する抽出手段と、
前記適用候補で前記規則データ格納部を検索して、該当する前記条件又は条件の組み合わせが存在する場合には、前記規則データ格納部から該当する前記条件又は条件の組み合わせに関連付けられている1又は複数のスコア設定規則を抽出し、抽出された前記1又は複数のスコア設定規則に含まれる前記タイプ及び前記スコアで、抽出された前記1又は複数のスコア設定規則に含まれる前記出現相対位置と前記適用候補に係る前記出現位置とから特定される要素の当該タイプについてのスコアを更新し、前記要素列データ格納部に格納する手段と、
を有する規則処理装置。 One or a plurality of score settings including a score and a relative position and type of appearance to which the score should be given in association with each condition or combination of conditions represented by a combination of the attribute type, appearance relative position, and attribute value of the word A rule data storage in which rules are registered;
An element string data storage unit that stores an element string in which elements including attribute values of each attribute type of words are arranged in the order of appearance;
From the element string data storage unit, the maximum number of conditions included in the combination of conditions and the maximum distance from the reference position of the appearance relative position included in the score setting rule associated with the condition or combination of conditions; An extraction means for extracting an application candidate that is an element condition or a combination of element conditions represented by a combination of a word attribute type, an appearance relative position, and an attribute value for each element according to the candidate extraction condition specified by:
If the rule data storage unit is searched for the application candidate and the corresponding condition or combination of conditions exists, the rule data storage unit is associated with the corresponding condition or condition combination 1 or Extracting a plurality of score setting rules, the type and the score included in the extracted one or more score setting rules, and the appearance relative position included in the extracted one or more score setting rules Means for updating a score for the type of the element identified from the appearance position related to the application candidate, and storing the score in the element string data storage unit;
A rule processing device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009100574A JP5458640B2 (en) | 2009-04-17 | 2009-04-17 | Rule processing method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009100574A JP5458640B2 (en) | 2009-04-17 | 2009-04-17 | Rule processing method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010250642A JP2010250642A (en) | 2010-11-04 |
JP5458640B2 true JP5458640B2 (en) | 2014-04-02 |
Family
ID=43312883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009100574A Expired - Fee Related JP5458640B2 (en) | 2009-04-17 | 2009-04-17 | Rule processing method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5458640B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325003A (en) * | 2018-09-27 | 2019-02-12 | 维沃移动通信有限公司 | A kind of application program classifying method and system based on terminal device |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6435909B2 (en) * | 2015-02-19 | 2018-12-12 | 富士通株式会社 | Learning device, learning method, and learning program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4861078B2 (en) * | 2006-06-30 | 2012-01-25 | 富士通株式会社 | Index creation program, index creation device, and index creation method |
JP5245255B2 (en) * | 2007-02-15 | 2013-07-24 | 富士通株式会社 | Specific expression extraction program, specific expression extraction method, and specific expression extraction apparatus |
-
2009
- 2009-04-17 JP JP2009100574A patent/JP5458640B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325003A (en) * | 2018-09-27 | 2019-02-12 | 维沃移动通信有限公司 | A kind of application program classifying method and system based on terminal device |
CN109325003B (en) * | 2018-09-27 | 2021-09-24 | 维沃移动通信有限公司 | Application program classification method and system based on terminal equipment |
Also Published As
Publication number | Publication date |
---|---|
JP2010250642A (en) | 2010-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7840521B2 (en) | Computer-based method and system for efficient categorizing of digital documents | |
JP7211045B2 (en) | Abstract generation method, abstract generation program, and abstract generation device | |
JP5071373B2 (en) | Language processing apparatus, language processing method, and language processing program | |
JP6828335B2 (en) | Search program, search device and search method | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
JP5204244B2 (en) | Apparatus and method for supporting detection of mistranslation | |
JP2018088101A (en) | Synonymous expression extraction device, synonymous expression extraction method and synonymous expression extraction program | |
CN112149386A (en) | Event extraction method, storage medium and server | |
JP5458640B2 (en) | Rule processing method and apparatus | |
CN106484660A (en) | Title treating method and apparatus | |
CN110413972A (en) | A kind of table name field name intelligence complementing method based on NLP technology | |
US20220067555A1 (en) | Creation Assisting Device, Creation Assisting Method, And Recording Medium | |
CN113836917A (en) | Text word segmentation processing method and device, equipment and medium thereof | |
JP2004046775A (en) | Device, method and program for extracting intrinsic expression | |
WO2021144901A1 (en) | Speech recognition device, method, and program | |
JP2001325104A (en) | Method and device for inferring language case and recording medium recording language case inference program | |
CN113420127A (en) | Threat information processing method, device, computing equipment and storage medium | |
JP2009140411A (en) | Text summarization device and text summarization method | |
JP2001101184A (en) | Method and device for generating structurized document and storage medium with structurized document generation program stored therein | |
WO2018179729A1 (en) | Index generating program, data search program, index generating device, data search device, index generating method, and data search method | |
JP2009176148A (en) | Unknown word determining system, method and program | |
JP2007199876A (en) | Question answering system, question answering processing method, and question answering program | |
WO2022107234A1 (en) | Summary generation method, summary generation device, and program | |
JP2013191119A (en) | Program for generating retrieval expression, information processing method and information processing apparatus | |
JP2019194759A (en) | Dialogue system reinforcement device and computer program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130521 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131230 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |