JP2011081626A - Dictionary registering device, document label determination system, and dictionary registration program - Google Patents
Dictionary registering device, document label determination system, and dictionary registration program Download PDFInfo
- Publication number
- JP2011081626A JP2011081626A JP2009233756A JP2009233756A JP2011081626A JP 2011081626 A JP2011081626 A JP 2011081626A JP 2009233756 A JP2009233756 A JP 2009233756A JP 2009233756 A JP2009233756 A JP 2009233756A JP 2011081626 A JP2011081626 A JP 2011081626A
- Authority
- JP
- Japan
- Prior art keywords
- word
- document
- documents
- document number
- property
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、電子文書に含まれるテキスト情報の内容が、任意のラベルに該当するか否かを判定するために最適な単語を判定する辞書登録装置、文書ラベル判定システムおよび辞書登録プログラムに関する。 The present invention relates to a dictionary registration apparatus, a document label determination system, and a dictionary registration program for determining an optimum word for determining whether the content of text information included in an electronic document corresponds to an arbitrary label.
従来、ブログ等のテキストベースのウェブコンテンツや、ワープロソフトなどによって生成される文書ファイルなどの電子文書に対して、その電子文書に含まれるテキスト情報の内容がどのような性質を持つものであるかを判定し、その内容に応じたラベルを付与して電子文書を分類する文書ラベル判定システムが利用されている。ラベルには、例えば、スポーツ、経済などの電子文書のトピックを示すラベルがある。このようなラベルのうち、任意のラベルにラベル判定対象の電子文書が該当するか否かを判定する際には、そのラベルに関連性の高い複数の索引語が対応付けられた辞書データが用いられる。例えば、ラベルが「経済」である場合には、索引語として「財務省」、「為替」などの単語が対応付けられた辞書データが予め記憶される。文書ラベル判定システムは、辞書データに含まれる索引語に一致する単語をラベル判定対象の電子文書から検出し、その一致の度合いに応じて、その電子文書が任意のラベルに該当するか否かを判定する。 Conventionally, for text-based web content such as blogs and electronic documents such as document files generated by word processing software, what kind of property the text information contained in the electronic document has? A document label determination system that classifies electronic documents by assigning a label according to the content of the document and using the label is used. Examples of the label include a label indicating a topic of an electronic document such as sports or economy. Among such labels, when determining whether or not an electronic document subject to label determination corresponds to an arbitrary label, dictionary data in which a plurality of index terms having high relevance are associated with the label is used. It is done. For example, when the label is “Economy”, dictionary data in which words such as “Ministry of Finance” and “Exchange” are associated as index words are stored in advance. The document label determination system detects a word that matches the index word included in the dictionary data from the electronic document to be determined, and determines whether the electronic document corresponds to an arbitrary label depending on the degree of the match. judge.
特許文献1には、電子文書中に出現する単語を評価して、その電子文書の内容を示す特徴的な単語を検出して電子文書の要約をする技術が示されている。ここでは、電子文書中に出現する複数の単語の組み合わせに応じてその電子文書に出現する単語にスコア付けを行い、スコアに応じて単語を評価することにより、信頼性の高い単語重要度を算出している。
また、特許文献2には、情報基準量に基づくモデル検定を行って単語重要度を算出する技術が提案されている。ここでは、独立モデルにより算出するスコアから、従属モデルにより算出するスコアを差し引いて算出された値が0よりも大きな単語を、重要な単語として選び出している。
また、非特許文献1には、情報量基準に基づくモデル検定を行い、トピックに該当するかを判定する上で重要な単語のみを選出する技術が提案されている。
Patent Document 1 discloses a technique for evaluating words that appear in an electronic document, detecting characteristic words indicating the contents of the electronic document, and summarizing the electronic document. Here, the word importance that is highly reliable is calculated by scoring the word that appears in the electronic document according to the combination of a plurality of words that appear in the electronic document and evaluating the word according to the score. is doing.
Further, Patent Document 2 proposes a technique for calculating a word importance by performing a model test based on an information reference amount. Here, a word having a value greater than 0 calculated by subtracting the score calculated by the dependent model from the score calculated by the independent model is selected as an important word.
Further, Non-Patent Document 1 proposes a technique for selecting only words that are important in determining whether a topic corresponds to a model test based on an information amount criterion.
しかしながら、ある電子文書が特定のラベルに該当するか否かを判定する際に参照する辞書データは、ユーザにより任意に作成された辞書データが用いられる場合がある。このような辞書データでは、そのラベルに最適な索引語が対応付けられているとは限らず、また索引語が固定されるため、時事的に変化する電子文書の内容の変化に応じて柔軟に索引語を変化させるのは困難である。
そこで、特定のラベルに該当すると判定された複数の電子文書から、その電子文書に含まれる単語を事後的に解析して、その電子文書に含まれる単語に応じて辞書データの内容を再帰的に更新する方法が考えられる。例えば、電子文書中に索引語の候補となる任意の単語が出現する割合と、その他の単語との割合とに応じて候補単語にスコア付けを行い、そのスコアに応じて索引語として採用するかどうかを決定することが考えられる。ただし、この方法は、電子文書中に出現する単語がそれぞれに独立して出現する回数に応じてスコア付けを行うものであるが、電子文書中の単語は、他の単語との対応関係や関連性により意味内容や重要度が異なる場合があり、必ずしも精度の良い索引語を検出できるとはいえない。ここで、特許文献1に示される技術を応用し、索引語検出の精度を上げるために、複数の単語の組み合わせによりその単語のスコア付けを行って辞書データを生成する方法も考えられるが、これでは、索引語候補が多くなるとその組み合わせ数が爆発的に増加し、計算量が多くなるという問題がある。
However, dictionary data arbitrarily created by the user may be used as the dictionary data to be referred to when determining whether or not a certain electronic document corresponds to a specific label. In such dictionary data, the optimal index word is not always associated with the label, and the index word is fixed, so that it can be flexibly adapted to changes in the contents of electronic documents that change with time. It is difficult to change the index word.
Therefore, from a plurality of electronic documents determined to correspond to a specific label, the words included in the electronic document are analyzed afterwards, and the contents of the dictionary data are recursively according to the words included in the electronic document. A method of updating is conceivable. For example, whether candidate words are scored according to the ratio of the occurrence of any word that is a candidate for an index word in an electronic document and the ratio to other words, and are adopted as index words according to the score. It is possible to decide whether or not. However, although this method scores according to the number of times words appearing in the electronic document appear independently of each other, the words in the electronic document are associated with or related to other words. The semantic content and importance may vary depending on the nature, and it cannot always be said that an accurate index word can be detected. Here, in order to apply the technique disclosed in Patent Document 1 and improve the accuracy of index word detection, a method of generating dictionary data by scoring the word by a combination of a plurality of words is also conceivable. However, there is a problem that as the number of index word candidates increases, the number of combinations increases explosively and the amount of calculation increases.
また、特許文献1に示される技術は、スコアの計算にx2検定の手法を使用するものであるが、x2検定による解析では、解析するデータの資質によってパラメータを調整する必要がある。また、特許文献2に示される技術では、トピックに該当するか否かを判定する上で重要である単語を検出することはできない。また、特許文献2は、特許文献1と同様に、複数の単語の組み合わせの重要度を求める際には組み合わせ数が爆発的に増大するという問題がある。 The technique disclosed in Patent Document 1 uses a method of x2 test for score calculation, but in the analysis by x2 test, it is necessary to adjust parameters according to the quality of data to be analyzed. Further, with the technique disclosed in Patent Document 2, it is not possible to detect words that are important in determining whether or not a topic is relevant. Further, as in Patent Document 1, there is a problem that the number of combinations explosively increases when the importance of a combination of a plurality of words is obtained.
また、上述の非特許文献1に示される技術により、例えばひとつの単語のスコアと複数の単語の組み合わせのスコアとを算出した場合には、それぞれのスコアは尺度が異なるものとなり、ひとつの単語による索引語と複数の単語の組み合わせによる索引語との精度を比較することができない。 In addition, for example, when the score of one word and the score of a combination of a plurality of words are calculated by the technique shown in Non-Patent Document 1 described above, each score has a different scale and depends on one word. The accuracy of the index word and the index word based on a combination of a plurality of words cannot be compared.
本発明は、このような状況に鑑みてなされたもので、電子文書中に出現する単語のうち、その内容を特徴的に表し、特定の性質に関連する単語または単語の組み合わせを、その電子文書中に出現する他の単語との関連性を考慮して検出することのできる辞書登録装置、文書ラベル判定システムおよび辞書登録プログラムを提供する。 The present invention has been made in view of such a situation. Among words appearing in an electronic document, the contents of the word are characteristically expressed, and a word or a combination of words related to a specific property is expressed in the electronic document. Provided are a dictionary registration device, a document label determination system, and a dictionary registration program that can be detected in consideration of the relationship with other words appearing therein.
上記の課題を解決するために、本発明に係る辞書登録装置は、特定の性質に関係する正解文書の集合と、当該性質に関係しない不正解文書の集合とが記憶される電子文書記憶部と、前記性質に関係する文書を判定するための辞書登録候補である第1の語と第2の語とが入力される入力部と、前記第1の語と前記第2の語との組み合わせ毎に、前記第1の語と前記第2の語との双方が含まれる前記正解文書の数である第1の文書数と、前記第1の語が含まれ前記第2の語が含まれない前記正解文書の数である第2の文書数と、前記第1の語が含まれず前記第2の語が含まれる前記正解文書の数である第3の文書数と、前記第1の語と前記第2の語とのいずれもが含まれない前記正解文書の数である第4の文書数と、前記第1の語と前記第2の語との双方が含まれる前記不正解文書の数である第5の文書数と、前記第1の語が含まれ前記第2の語が含まれない前記不正解文書の数である第6の文書数と、前記第1の語が含まれず前記第2の語が含まれる前記不正解文書の数である第7の文書数と、前記第1の語と前記第2の語とのいずれもが含まれない前記不正解文書の数である第8の文書数とを算出する文書数算出部と、前記文書数算出部によって算出された前記第1から前記第8の文書数に基づいて、前記第1の語と前記性質との関係の度合いを示す第1の情報量基準量と、前記第2の語と前記性質との関係の度合いを示す第2の情報量基準量と、前記第1の語および前記第2の語の組み合わせと前記性質との関係の度合いを示す第3の情報量基準量とを算出する情報量基準量算出部と、前記情報量基準量算出部によって算出された前記情報量基準量を比較して、前記第1の語と、前記第2の語と、前記第1の語および前記第2の語の組み合わせとのうち、前記性質に関係する度合いが最大であるものを登録語に選択する登録語選択部と、を備えることを特徴とする。 In order to solve the above problems, the dictionary registration device according to the present invention includes an electronic document storage unit that stores a set of correct documents related to a specific property and a set of incorrect documents that are not related to the property. , An input unit for inputting a first word and a second word that are candidates for dictionary registration for determining a document related to the property, and each combination of the first word and the second word Includes the first document number that is the number of the correct documents including both the first word and the second word, and the first word is included and the second word is not included. A second document number that is the number of correct documents, a third document number that is the number of correct documents that do not include the first word and include the second word, and the first word, A fourth document number that is the number of the correct documents not including any of the second words, the first word, and the second word; And a sixth document number that is the number of incorrect documents that include the first word but does not include the second word. And a seventh document number that is the number of incorrect documents that do not include the first word and include the second word, and includes both the first word and the second word. A document number calculation unit that calculates an eighth document number that is the number of incorrect documents that are not valid, and the first to eighth document numbers calculated by the document number calculation unit, A first information amount reference amount indicating a degree of relationship between one word and the property; a second information amount reference amount indicating a degree of relationship between the second word and the property; and the first information amount Information amount reference amount calculation for calculating a third information amount reference amount indicating the degree of relationship between the word and the combination of the second word and the property And the information amount reference amount calculated by the information amount reference amount calculation unit, and the combination of the first word, the second word, the first word, and the second word And a registered word selection unit that selects, as a registered word, a word having the maximum degree related to the property.
本発明に係る辞書登録装置において、前記第1の語と前記性質との関係の度合いを示す第1の情報量基準量「AIC(DM1)」は、
MLL=(N11+N12)log(N11+N12)+(N13+N14)log(N13+N14)+(N21+N22)log(N21+N22)+(N23+N24)log(N23+N24)+(N11+N13+N21+N23)log(N11+N13+N21+N23)+(N12+N14+N22+N24)log(N12+N14+N22+N24)−2×ZlogZ、
AIC(DM1)=−2×MLL+2×4、
なる計算式により算出される、
但し、logの底である10は省略して表記し、Z=N11+N12+N13+N14+N21+N22+N23+N24であり、N11は前記第1の文書数、N12は前記第2の文書数、N13は前記第3の文書数、N14は前記第4の文書数、N21は前記第5の文書数、N22は前記第6の文書数、N23は前記第7の文書数、N24は前記第8の文書数である、ことを特徴とする。
In the dictionary registration device according to the present invention, the first information amount reference amount “AIC (DM1)” indicating the degree of the relationship between the first word and the property is:
MLL = (N11 + N12) log (N11 + N12) + (N13 + N14) log (N13 + N14) + (N21 + N22) log (N21 + N22) + (N23 + N24) log (N23 + N24) + (N11 + N13 + N21 + N24) 2 × ZlogZ,
AIC (DM1) = − 2 × MLL + 2 × 4,
Calculated by the following formula:
However, 10 that is the bottom of the log is omitted, and Z = N11 + N12 + N13 + N14 + N21 + N22 + N23 + N24, where N11 is the first document number, N12 is the second document number, N13 is the third document number, and N14 is The fourth document number, N21 is the fifth document number, N22 is the sixth document number, N23 is the seventh document number, and N24 is the eighth document number. .
本発明に係る辞書登録装置において、前記第2の語と前記性質との関係の度合いを示す第2の情報量基準量「AIC(DM2)」は、
MLL=(N11+N13)log(N11+N13)+(N12+N14)log(N12+N14)+(N21+N23)log(N21+N23)+(N22+N24)log(N22+N24)+(N11+N12+N21+N22)log(N11+N12+N21+N22)+(N13+N14+N23+N24)log(N13+N14+N23+N24)−2×ZlogZ、
AIC(DM2)=−2×MLL+2×4、
なる計算式により算出される、
但し、logの底である10は省略して表記し、Z=N11+N12+N13+N14+N21+N22+N23+N24であり、N11は前記第1の文書数、N12は前記第2の文書数、N13は前記第3の文書数、N14は前記第4の文書数、N21は前記第5の文書数、N22は前記第6の文書数、N23は前記第7の文書数、N24は前記第8の文書数である、ことを特徴とする。
In the dictionary registration device according to the present invention, the second information amount reference amount “AIC (DM2)” indicating the degree of the relationship between the second word and the property is:
MLL = (N11 + N13) log (N11 + N13) + (N12 + N14) log (N12 + N14) + (N21 + N23) log (N21 + N23) + (N22 + N24) log (N22 + N24) + (N11 + N12 + N21 + N21 + N14 + N21 + N21 + N14 + N14 + N14 + N24 + N24 + N24 2 × ZlogZ,
AIC (DM2) = − 2 × MLL + 2 × 4,
Calculated by the following formula:
However, 10 that is the bottom of the log is omitted, and Z = N11 + N12 + N13 + N14 + N21 + N22 + N23 + N24, where N11 is the first document number, N12 is the second document number, N13 is the third document number, and N14 is The fourth document number, N21 is the fifth document number, N22 is the sixth document number, N23 is the seventh document number, and N24 is the eighth document number. .
本発明に係る辞書登録装置において、前記第1の語および前記第2の語の組み合わせと前記性質との関係の度合いを示す第3の情報量基準量「AIC(DM12)」は、
MLL=N11logN11+N12logN12+N13logN13+N14logN14+N21logN21+N22logN22+N23logN23+N24logN24−ZlogZ、
AIC(DM12)=−2×MLL+2×7、
なる計算式により算出される、
但し、logの底である10は省略して表記し、Z=N11+N12+N13+N14+N21+N22+N23+N24であり、N11は前記第1の文書数、N12は前記第2の文書数、N13は前記第3の文書数、N14は前記第4の文書数、N21は前記第5の文書数、N22は前記第6の文書数、N23は前記第7の文書数、N24は前記第8の文書数である、ことを特徴とする。
In the dictionary registration device according to the present invention, the third information amount reference amount “AIC (DM12)” indicating the degree of the relationship between the combination of the first word and the second word and the property is:
MLL = N11logN11 + N12logN12 + N13logN13 + N14logN14 + N21logN21 + N22logN22 + N23logN23 + N24logN24-ZlogZ,
AIC (DM12) = − 2 × MLL + 2 × 7,
Calculated by the following formula:
However, 10 that is the bottom of the log is omitted, and Z = N11 + N12 + N13 + N14 + N21 + N22 + N23 + N24, where N11 is the first document number, N12 is the second document number, N13 is the third document number, and N14 is The fourth document number, N21 is the fifth document number, N22 is the sixth document number, N23 is the seventh document number, and N24 is the eighth document number. .
本発明に係る辞書登録装置においては、単語の正規化処理を行う正規化処理部を備えたことを特徴とする。
本発明に係る辞書登録装置においては、文書から単語を抽出する形態素解析部を備えたことを特徴とする。
The dictionary registration apparatus according to the present invention includes a normalization processing unit that performs word normalization processing.
The dictionary registration apparatus according to the present invention includes a morpheme analyzer that extracts words from a document.
本発明に係る文書ラベル判定システムは、前述のいずれかの辞書登録装置と、前記辞書登録装置によって選択された登録語が特定の性質を表すラベルに対応付けて格納される辞書データベースと、前記辞書データベースを用いて入力文書に対応するラベルを判定するラベル判定装置と、を備えたことを特徴とする。 The document label determination system according to the present invention includes any one of the above dictionary registration devices, a dictionary database in which a registered word selected by the dictionary registration device is stored in association with a label representing a specific property, and the dictionary And a label determination device that determines a label corresponding to the input document using a database.
本発明に係る辞書登録プログラムは、特定の性質に関係する正解文書の集合と、当該性質に関係しない不正解文書の集合とが記憶される電子文書記憶部と、前記性質に関係する文書を判定するための辞書登録候補である第1の語と第2の語とが入力される入力部と、を有するコンピュータに、前記第1の語と前記第2の語との組み合わせ毎に、前記第1の語と前記第2の語との双方が含まれる前記正解文書の数である第1の文書数と、前記第1の語が含まれ前記第2の語が含まれない前記正解文書の数である第2の文書数と、前記第1の語が含まれず前記第2の語が含まれる前記正解文書の数である第3の文書数と、前記第1の語と前記第2の語とのいずれもが含まれない前記正解文書の数である第4の文書数と、前記第1の語と前記第2の語との双方が含まれる前記不正解文書の数である第5の文書数と、前記第1の語が含まれ前記第2の語が含まれない前記不正解文書の数である第6の文書数と、前記第1の語が含まれず前記第2の語が含まれる前記不正解文書の数である第7の文書数と、前記第1の語と前記第2の語とのいずれもが含まれない前記不正解文書の数である第8の文書数とを算出するステップと、前記算出された前記第1から前記第8の文書数に基づいて、前記第1の語と前記性質との関係の度合いを示す第1の情報量基準量と、前記第2の語と前記性質との関係の度合いを示す第2の情報量基準量と、前記第1の語および前記第2の語の組み合わせと前記性質との関係の度合いを示す第3の情報量基準量とを算出するステップと、前記算出された前記情報量基準量を比較して、前記第1の語と、前記第2の語と、前記第1の語および前記第2の語の組み合わせとのうち、前記性質に関係する度合いが最大であるものを登録語に選択するステップと、を実行させるためのコンピュータプログラムであることを特徴とする。
これにより、前述の辞書登録装置がコンピュータを利用して実現できるようになる。
The dictionary registration program according to the present invention determines an electronic document storage unit storing a set of correct documents related to a specific property and a set of incorrect documents not related to the property, and a document related to the property For each combination of the first word and the second word, a computer having an input unit to which a first word and a second word that are dictionary registration candidates for inputting are input. A first document number that is the number of the correct answer documents that include both one word and the second word; and the correct document that includes the first word and does not include the second word. A second document number that is a number, a third document number that is the number of correct documents that do not include the first word and include the second word, the first word, and the second A fourth document number that is the number of correct documents that do not include any of the words, the first word, and the second document And a sixth document that is the number of incorrect documents that includes the first word and that does not include the second word. The number of incorrect documents that are not included in the first word, the second word is included, and the seventh document number that is the number of incorrect documents including the second word, and the first word and the second word. A step of calculating an eighth document number that is the number of incorrect documents that are not included, and the first word and the property based on the calculated first to eighth document numbers A first information amount reference amount indicating the degree of the relationship, a second information amount reference amount indicating the degree of the relationship between the second word and the property, the first word, and the second word Calculating a third information amount reference amount indicating a degree of relationship between the combination of the property and the property, and the calculated information amount base Compare the quantities and register the first word, the second word, and the combination of the first word and the second word that have the highest degree of relation to the property. A computer program for executing the step of selecting words.
As a result, the dictionary registration device described above can be realized using a computer.
本発明によれば、特定の性質に関係する文書を判定するための辞書登録候補である第1の語と第2の語との組み合わせに関し、第1の語と、第2の語と、第1の語および第2の語の組み合わせとを同じ尺度で評価し、特定の性質に関係する度合いが最大であるものを辞書データベースに登録することができる。これにより、単語および単語の組み合わせを混在させた辞書データベースを生成することができる。この結果、電子文書中に出現する単語のうち、その内容を特徴的に表し、特定の性質に関連する単語または単語の組み合わせを、その電子文書中に出現する他の単語との関連性を考慮して検出することができるという格別の効果が得られる。 According to the present invention, regarding a combination of a first word and a second word that are candidates for dictionary registration for determining a document related to a specific property, the first word, the second word, A combination of one word and a second word can be evaluated on the same scale, and a word having the maximum degree related to a specific property can be registered in the dictionary database. Thereby, the dictionary database which mixed the word and the combination of the word can be produced | generated. As a result, among the words appearing in the electronic document, the content is characteristically expressed, and the word or combination of words related to a specific property is considered in relation to other words appearing in the electronic document. The special effect of being able to be detected is obtained.
以下、本発明の一実施形態について、図面を参照して説明する。
図1は、本実施形態による文書ラベル判定システムのシステム構成を示す図である。図1において、文書ラベル判定システムは、辞書データベース300と、ラベル判定装置200と、辞書登録装置100とを備えている。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a diagram showing a system configuration of a document label determination system according to the present embodiment. In FIG. 1, the document label determination system includes a
辞書データベース300は、辞書データが記憶される記憶装置である。辞書データは、定められた単語等のラベルと、そのラベルに関連性の高い複数の索引語とが対応付けられた情報である。例えば、ラベルが「経済」であれば、その索引語として「財務省」、「為替」、「相場」、「動向」、「ドル」・・・などの単語が対応付けられる。辞書データは、「政治」、「スポーツ」などのトピックを示すそれぞれのラベルに対応付けられた複数の索引語を含むこととして良い。さらに、「スポーツ」のなかでも「サッカー」、「野球」などに階層化されたトピックをラベルとして索引語が対応付けられた辞書データを含むこととしても良い。また、辞書データには、例えば「有害」のラベルに、18歳未満には適切でないと思われる単語を索引語として対応付けたものを含んでも良い。辞書データベース300に記憶される辞書データは、ラベル判定装置200が電子文書のラベル判定処理を行う際に読み出される。辞書データベース300は、独立したコンピュータ装置を適用しても良いし、ラベル判定装置200にインストールされたデータベースアプリケーションなどを適用しても良い。
The
ラベル判定装置200は、辞書データベース300に記憶されている辞書データを読み出し、読み出した辞書データと、入力される電子文書とを比較、解析して電子文書に対応するラベルを判定するコンピュータ装置である。ここで、入力される電子文書とは、例えば、ブログ等のテキストベースのウェブコンテンツや、ワープロソフトなどによって生成される文書ファイルなどのテキストデータである。ラベル判定装置200は、ラベル判定対象となる電子文書の入力を受付け、辞書データベース300から読み出した辞書データに含まれるラベル毎に、そのラベルに対応する索引語に一致する単語が電子文書に含まれるか否かを判定し、その電子文書が任意のラベルに該当するか否かを判定するラベル判定処理を行う。例えば、ラベル判定装置200は、辞書データのラベルに対応する単語を、判定対象とする電子文書に含まれるテキストデータのうちから定められた閾値を超えて検出した場合には、そのラベルをその電子文書のラベルと判定する。また、例えば、ラベル判定装置200は、ひとつの電子文書が複数のラベルに該当するか否かをそれぞれに判定し、ひとつの電子文書に該当する複数のラベルを割り当てるようにしても良い。
The
辞書登録装置100は、ラベル判定装置200がラベル判定を行った電子文書とそのラベルに基づいて、そのラベルに対応する最適な索引語を再帰的に算出し、辞書データベース300に記憶される辞書データを更新して記憶させるコンピュータ装置である。すなわち、辞書データベース300に記憶された辞書データが、初期状態ではラベルに対して例えばユーザによって任意に定められた索引語の群が対応付けられたものであるとしても、その辞書データによりラベルに対応すると判定された電子文書から、最適な索引語を再帰的に検出して辞書データを生成することにより、例えば時事的に重要単語が変化するウェブ上のブログサイトやニュースサイトに対しても、その変化に合わせた最適なラベルを判定するための辞書データを生成することが可能となる。
The
辞書登録装置100は、電子文書記憶部110と、正規化処理部120と、形態素解析部130と、形態素解析用辞書記憶部140と、単語分布算出部150と、単語分布表記憶部160と、索引語スコア算出部170と、文書数算出部175と、入力部176と、情報量基準量算出部177と、登録語選択部178と、辞書登録部180とを備えている。
The
電子文書記憶部110には、特定の性質に関係する正解文書の集合と、性質に関係しない不正解文書の集合とが記憶される。具体的には、電子文書記憶部110には、ラベル判定装置200によりラベル判定が行われた電子文書と、その電子文書が特定のラベルに該当すると判定されたか否かを示すラベル判定結果が対応付けられて記憶される。ここで、電子文書記憶部110に記憶される電子文書には、その電子文書がブログデータである場合には、ブログ記事のテキスト本文、絵文字、HTML(HyperText Markup Language)タグなどが含まれるが、画像データは含まれない。
The electronic
正規化処理部120は、電子文書記憶部110に記憶されているラベル判定済みの電子文書とラベル判定結果とを入力とし、電子文書に含まれる文章、単語の正規化処理を行って正規化済電子文書を出力する。正規化処理部120が行う正規化処理は、例えば、以下の処理を含む。まず、ハイフン、マイナス記号、長音記号などの類似する記号を、定められたルールセットに従って正規化する。ここでは、例えばこれら全てをハイフンに変換することにより正規化する。また、半角文字を全て全角文字に変換する。また、タブ文字を全て空白文字に変換する。また、絵文字を特定の文字記号(例えば、0xA2A2)に変換する。また、電子文書がブログ記事等のウェブデータである場合には、ウェブデータからHTMLタグを取り除く。また、日本語の小文字は大文字に変換する。ここでは、例えば、小文字である「ィ」を大文字の「イ」に変換する。ただし、後述する形態素解析用辞書記憶部140に記憶される単語で、形態素解析用辞書記憶部140には小文字が含まれる状態で記憶されている場合には、小文字から大文字への変換は行わない。また、ここでは、英文字の小文字は小文字のままとし、大文字へは変換しない。
The
形態素解析部130は、正規化処理部120により出力される正規化済電子文書と、その電子文書に対するラベル判定結果と、形態素解析用辞書記憶部140から読み出す形態素解析用辞書とを入力とし、正規化済電子文書の形態素解析処理を行って、ドキュメントベクトルテーブルを出力する。ここで、ドキュメントベクトルテーブルとは、例えば、電子文書に「私の名前は中村です」というテキストが含まれる場合に、これらを形態素解析し、「私」、「の」、「名前」、「は」、「中村」、「です」、などのように、テキストデータを形態素(意味のある最小単位)に分割し、またそれぞれの品詞を判定して品詞情報が対応付けられたデータである。
The
単語分布算出部150は、形態素解析部130による形態素解析処理で生成されるドキュメントベクトルテーブルに基づいて、単語分布表を生成して出力する。単語分布表は、形態素解析部130によってテキストデータが形態素に分割されたドキュメントベクトルテーブルから、例えば助詞や助動詞などの特定の品詞を取り除き、索引語の対象とする名詞等の単語のみを抽出した単語リストのそれぞれの単語に、電子文書中での出現頻度を示す度数が対応付けられた表である。ここで、単語分布算出部150は、電子文書から抽出した単語の正規化処理を行う。例えば、英単語の正規化処理を行い、英単語の小文字を大文字へ変換する。また、カタカナ単語の表記揺れの変換を行い、例えば、「タイヤモンド」なとの単語があれば、「ダイヤモンド」の文字データに変換する。このように、形態素解析処理の後に単語レベルでの正規化処理を行うことにより、例えば「西日本」などの表記がある場合、この語が「西日本」の一単語であるか、「西日」と「本」との二単語により構成される語であるのかを的確に検出することができる。
The word
ここで、単語分布算出部150は、複数の電子文書に対してひとつの単語分布表を生成することとし、正規化後の文字列が単語分布表に含まれていなければ、その正規化済み単語を単語分布表に新たに追加する。単語分布算出部150が生成する単語分布表において、正規化済み単語のそれぞれに対応付けられる出現頻度の度数の計算方式には、特定の単語が同一の電子文書中に出現した回数に応じて度数を加算する方式(tf:term frequency)と、同一の電子文書中に出現した回数に関わらず、特定の単語がひとつの電子文書中に出現したか否かにより度数を算出する方式(df:document frequency)とのいずれかを適用することができる。本実施形態では、複数の電子文書中のそれぞれに単語が出現したか否かにより度数を算出するdfの方式を適用する。単語分布算出部150は、生成した単語分布表を単語分布表記憶部160に記憶させる。
単語分布表記憶部160には、単語分布算出部150により生成される単語分布表が記憶される。単語分布表は、上述したように、索引語の候補となる単語ごとに、その単語の電子文書中での出現頻度を示す度数が対応付けられたデータ表である。
Here, the word
The word distribution table storage unit 160 stores a word distribution table generated by the word
索引語スコア算出部170は、電子文書記憶部110に記憶されるラベル判定結果と、単語分布表記憶部160に記憶される単語分布表とに基づいて、単語分布表に含まれる各単語のスコアを算出する。索引語スコア算出部170は、SSS算出部171と、MSS算出部172と、MDS算出部173と、SDS算出部174とを備えている。
The index word
SSS算出部171は、電子文書記憶部110に記憶されるラベル判定結果と、単語分布表記憶部160に記憶される単語分布表とを読み出し、電子文書中に特定の単語wが含まれるか否かについての2×2分割表を生成し、生成した2×2分割表に基づいたシングルスタティックスコアの単語リストSSS(W)を算出する。
The
図2は、SSS算出部171が生成する2×2分割表の概念を示す図である。ここでは、ラベル判定装置200により特定のラベル(以下、対象ラベルと称する)についてラベル判定対象となった全ての電子文書の数をNALLとし、NALLのうち対象ラベルに該当すると判定された電子文書の数をNOKとし、NALLのうち対象ラベルに該当しないと判定された電子文書の数をNNGとする。また、単語分布表に含まれる全ての単語の集合を単語集合Wとし、単語集合Wに含まれるそれぞれの単語をwとする。ここで、対象ラベルに該当すると判定されたNOK個の電子文書のうち、単語wが含まれる文書の数をaとする。また、対象ラベルに該当しないと判定されたNNG個の電子文書のうち、単語wが含まれる文書の数をcとする。また、対象ラベルに該当すると判定されたNOK個の電子文書のうち、単語wが含まれない文書の数をbとする。また、対象ラベルに該当しないと判定されたNNG個の電子文書のうち、単語wが含まれない文書の数をdとする。
FIG. 2 is a diagram illustrating the concept of the 2 × 2 contingency table generated by the
このとき、以下の式が成り立つ。
・a+c=df(w)(NALLのうち、単語wを含む文書の数)
・b+d=NALL−df(w)
・a+b=NOK
・a+d=NNG
以下の説明において、a+cを、qと表す。また、a+bを、rと表す。また、a+c+b+dを、zと表す。
At this time, the following equation holds.
A + c = df (w) (the number of documents including the word w in N ALL )
B + d = N ALL -df (w)
・ A + b = N OK
・ A + d = N NG
In the following description, a + c is represented as q. Moreover, a + b is represented as r. Further, a + c + b + d is represented as z.
SSS算出部171は、生成した2×2分割表に基づいて、以下式(1)により、因果関係有りと仮定した場合の対数尤度値MLL1を求め、情報量基準量であるAIC(DM)値を算出する。以下、logの底である10は省略して表記する。
Based on the generated 2 × 2 contingency table, the
MLL1=aloga+clogc+blogb+dlogd−zlogz
AIC(DM)=−2×MLL1+2×3
(但し、0log0=0とする)
・・・(1)
MLL 1 = loga + clogc + blogb + dlogd−zlogz
AIC (DM) =-2 × MLL 1 + 2 × 3
(However, 0log0 = 0)
... (1)
さらに、以下式(2)により、因果関係無しと仮定した場合の対数尤度値MLL2を求め、情報量基準量であるAIC(IM)値を算出する。 Further, the log likelihood value MLL 2 when it is assumed that there is no causal relationship is obtained by the following equation (2), and an AIC (IM) value that is an information amount reference amount is calculated.
MLL2=qlogq+rlogr+(z−q)log(z−q)+(z−r)log(z−r)−2zlogz
AIC(IM)=−2×MLL2+2×2
(但し、0log0=0とする)
・・・(2)
MLL 2 = qlogq + rlogr + (z−q) log (z−q) + (z−r) log (z−r) −2zlogz
AIC (IM) = − 2 × MLL 2 + 2 × 2
(However, 0log0 = 0)
... (2)
ここで、上記式(1)と式(2)とによって算出されたAIC(IM)値とAIC(DM)値とに基づいて、単語重要度E(w)を以下式(3)または以下式(4)により算出する。 Here, based on the AIC (IM) value and the AIC (DM) value calculated by the above formulas (1) and (2), the word importance E (w) is expressed by the following formula (3) or the following formula: Calculate by (4).
a/(a+c)>b/(b+d)のとき、
E(w)=AIC(IM)−AIC(DM)
・・・(3)
When a / (a + c)> b / (b + d)
E (w) = AIC (IM) −AIC (DM)
... (3)
a/(a+c)<b/(b+d)のとき、
E(w)=AIC(DM)−AIC(IM)
・・・(4)
When a / (a + c) <b / (b + d),
E (w) = AIC (DM) -AIC (IM)
... (4)
そして、単語集合Wに含まれる全ての単語wについての単語重要度E(w)を算出した後、単語重要度E(w)の値を降順に並べ替えた単語リストSSS(W)を生成する。このとき、単語リストSSS(W)の単語wの並びは、w1、w2、・・・wNALLとなり、i番目の単語wiに対するシングルスタティックスコアsss(wi)はE(wi)となる。このようにして、sss(wi)を降順に並べた単語リストSSS(W)を生成する。 Then, after calculating the word importance level E (w) for all the words w included in the word set W, a word list SSS (W) in which the word importance level E (w) values are rearranged in descending order is generated. . At this time, the arrangement of the words w in the word list SSS (W) is w 1 , w 2 ,... W NALL , and the single static score sss (w i ) for the i-th word w i is E (w i ). It becomes. In this way, to generate a sss (w i) the words were arranged in descending order list SSS (W).
SDS算出部174は、SSS算出部171が算出した単語リストSSS(W)と、単語集合Wに含まれるそれぞれの単語wiに対応する2×2分割表とを入力として、単語集合Wに含まれるそれぞれの単語wiについてのシングルダイナミックスコアsds(wi)の単語リストSDS(W)を算出する。ここで、SSS算出部171によってシングルススタティックスコアsss(wi)が降順に並べられた単語リストであるSSS(W)を、集合C(C={w1、w2、・・・wNALL})とする。また、単語集合Wに含まれるそれぞれの単語wiをsds(wi)の値により降順に並べる単語の集合をLとする。初期状態では、L={}(空集合)である。
The
SDS算出部174は、集合Cの中から、sss(wi)が最大となるwiを求める。そして、Cからwiを除き(C=C−{wi})、sss(wi)を仮のsds(wi)とする(sds(wi)=sss(wi))。ここで、対象ラベルに該当すると判定されたNOK個の電子文書のうち、単語wiと他の任意の単語wjとが含まれる文書の数をn11(ij)とする。また、対象ラベルに該当しないと判定されたNNG個の電子文書のうち、単語wiと他の任意の単語wjとが含まれる文書の数をn12(ij)とする。また、対象ラベルに該当すると判定されたNOK個の電子文書のうち、単語wiと他の任意の単語wjとが含まれない文書の数をn21(ij)とする。また、対象ラベルに該当しないと判定されたNNG個の電子文書のうち、単語wiと他の任意の単語wjとが含まれない文書の数をn22(ij)とする。そして、Cのうちの他の単語wjについて、SSS算出部171が生成した2×2分割表の各値a,b,c,dを、以下のように更新する。
The
・a=a−n11(ij)
・c=c−n12(ij)
・b=b−n21(ij)
・d=d−n22(ij)
A = a−n 11 ( ij )
C = c−n 12 ( ij )
B = b−n 21 ( ij )
D = dn 22 ( ij )
そして、単語wjについての2×2分割表から、上記式(1)、上記式(2)、上記式(3)、上記式(4)に倣って単語重要度E(wj)を算出する。SDS算出部174は、Cに含まれる単語のうち、単語重要度E(wj)の値が最も大きくなるwjを求め、単語重要度E(wj)を、sds(wj)として集合Lに追加する(L=L+{wj})。
SDS算出部174は、集合Cが空集合になるまで、集合Cの中からsss(wi)が最大となるwiを求める処理から、最もsds(wj)の値が大きくなるwjを集合Lに追加するまでの処理を繰り返す。これにより、sds(w)を降順に並べた単語リストSDS(W)を求めることができる。この単語リストSDS(W)は、全ての単語wについて、その単語wより上位の単語の影響を除いた状態でのスコア順に並べられたリストとなる。
Then, the word importance E (w j ) is calculated from the 2 × 2 contingency table for the word w j according to the above formula (1), the above formula (2), the above formula (3), and the above formula (4). To do. The
MSS算出部172は、SSS算出部171が算出したSSS(W)と、単語集合Wに含まれるそれぞれの単語wiに対応する2×2分割表とを入力として、単語集合Wに含まれるそれぞれの単語wiについてのマルチスタティックスコアの単語リストMSS(W)を算出する。ここで、単語集合Wに含まれる任意の単語の組み合わせωの集合をGとする。初期状態では、G={}(空集合)である。また、Gに追加した組み合わせωの数を示す変数をuとする。初期状態では、u=0である。
The
MSS算出部172は、単語集合Wのうち、sss(wi)が最も大きい単語wiを求める。また、単語wi以外に、シングルスタティックスコアが大きいm個の単語w1〜wmを求める(mは、定められた任意の数)。そして、単語wiと単語wj(1≦j≦m)との組み合わせωjに対する、それぞれの2×2分割表を算出する。ここでは、対象ラベルに該当すると判定されたNOK個の電子文書のうち、単語wiと単語wjとの組み合わせωjが含まれる文書の数をa(ωj)とする。また、対象ラベルに該当しないと判定されたNNG個の電子文書のうち、単語wiと単語wjとの組み合わせωjが含まれる文書の数をc(ωj)とする。また、対象ラベルに該当すると判定されたNOK個の電子文書のうち、単語wiと単語wjとの組み合わせωjが含まれない文書の数をb(ωj)とする。また、対象ラベルに該当しないと判定されたNNG個の電子文書のうち、単語wiと単語wjとの組み合わせωjが含まれない文書の数をd(ωj)とする。
The
このとき、以下の式が成り立つ。
・a(ωj)+c(ωj)=df(ωj)(NALLのうち、組み合わせωjを含む文書の数)
・b(ωj)+d(ωj)=NALL−df(ωj)
・a(ωj)+b(ωj)=NOK
・a(ωj)+d(ωj)=NNG
At this time, the following equation holds.
A (ω j ) + c (ω j ) = df (ω j ) (the number of documents including the combination ω j in N ALL )
B (ω j ) + d (ω j ) = N ALL −df (ω j )
・ A (ω j ) + b (ω j ) = N OK
・ A (ω j ) + d (ω j ) = N NG
ここで、単語wiごとに繰り返して組み合わせωjについての2×2分割表を算出する処理中に、既にwiとwjとの組み合わせωjに対する2×2分割表についての算出を行っている場合には、再算出しない。このように同一の組み合わせについて重複して2×2分割表を算出しないようにすれば、演算量を減らすことができる。そして、上記式(1)、上記式(2)、上記式(3)、上記式(4)に倣って算出する重要度E(ωj)を、MSS(ωj)とし、単語wiと単語wj(1≦j≦m)の組み合わせωjのうち、最もMSS(ωj)の値が大きくなるωjを求める。ここで、ωjを、組み合わせ集合Gに追加する(G=G+{ωj})。また、変数uをインクリメントする(u=u+1)。ここで、単語wiを除く単語集合Wに含まれる単語wkのうち、sss(wk)が最も大きい単語wkを、重要度判定対象の単語wiとして、単語wi以外にシングルスタティックスコアsss(wj)が大きいm個の単語w1〜wmを求める処理から、最もMSS(ωj)の値が大きくなる単語の組み合わせを求めて組み合わせ集合Gに追加する処理を繰り返す。これにより、mss(w)をスコアの降順に並べた単語リストMSS(W)を求めることができる。 Here, during the process of calculating the 2 × 2 contingency table for the combination ω j repeatedly for each word w i , the calculation for the 2 × 2 contingency table for the combination ω j of w i and w j is already performed. If yes, do not recalculate. Thus, if the 2 × 2 contingency table is not calculated redundantly for the same combination, the amount of calculation can be reduced. Then, the importance level E (ω j ) calculated in accordance with the above formula (1), the above formula (2), the above formula (3), and the above formula (4) is MSS (ω j ), and the word w i among the combinations omega j of word w j (1 ≦ j ≦ m ), determine the most value for MSS (omega j) is increased omega j. Here, ω j is added to the combination set G (G = G + {ω j }). Also, the variable u is incremented (u = u + 1). Here, among the word w k that is included in the word set W except for the word w i, sss the (w k) is the largest word w k, as a word w i of the importance of the determination target, single static in addition to word w i From the process of obtaining m words w 1 to w m having a large score sss (w j ), the process of obtaining a combination of words having the largest MSS (ω j ) value and adding it to the combination set G is repeated. Thereby, a word list MSS (W) in which mss (w) is arranged in descending order of scores can be obtained.
MDS算出部173は、MSS算出部172が算出した単語リストMSS(W)と、Wに含まれる単語wiと単語wjとの組み合わせωjに対する2×2分割表とを入力として、単語集合Wに含まれるそれぞれの単語wiと他の単語との組み合わせωiについてのマルチダイナミックスコアmds(ωi)の単語リストMDS(W)を算出する。ここで、MSS算出部172によってマルチスタティックスコアsss(wi)が降順に並べられた単語リストであるMSS(W)を、集合C(C={ω1、ω2、・・・ωNALL})とする。また、単語の組み合わせωについてのmds(ωi)の値により降順に並べる単語の集合をLとする。初期状態では、L={}(空集合)である。
The
MDS算出部173は、集合Cの中から、mds(ωi)が最大となるωiを求める。そして、Cからωiを除き(C=C−{ωi})、mss(ωi)を仮のmds(ωi)とする(mds(ωi)=mss(ωi))。ここで、対象ラベルに該当すると判定されたNOK個の電子文書のうち、単語の組み合わせωiと他の任意の単語の組み合わせωjとが含まれる文書の数をn11(ij)とする。また、対象ラベルに該当しないと判定されたNNG個の電子文書のうち、単語の組み合わせωiと他の任意の単語の組み合わせωjとが含まれる文書の数をn12(ij)とする。また、対象ラベルに該当すると判定されたNOK個の電子文書のうち、単語の組み合わせωiと他の任意の単語の組み合わせωjとが含まれない文書の数をn21(ij)とする。また、対象ラベルに該当しないと判定されたNNG個の電子文書のうち、単語の組み合わせωiと他の任意の単語の組み合わせωjとが含まれない文書の数をn22(ij)とする。そして、Cのうちの他の単語の組み合わせωjについて、MSS算出部172が生成した2×2分割表の各値a(ωj),b(ωj),c(ωj),d(ωj)を、以下のように更新する。
・a(ωj)=a(ωj)−n11(ij)
・c(ωj)=c(ωj)−n12(ij)
・b(ωj)=b(ωj)−n21(ij)
・d(ωj)=d(ωj)−n22(ij)
A (ω j ) = a (ω j ) −n 11 ( ij )
C (ω j ) = c (ω j ) −n 12 ( ij )
B (ω j ) = b (ω j ) −n 21 ( ij )
D (ω j ) = d (ω j ) −n 22 ( ij )
そして、更新した単語の組み合わせωjについての2×2分割表から、上記式(1)、上記式(2)、上記式(3)、上記式(4)に倣って単語重要度E(ωj)を算出する。SDS算出部174は、Cに含まれる単語の組み合わせのうち、単語重要度E(ωj)の値が最も大きくなるwjを求め、単語重要度E(ωj)を、mds(ωj)として集合Lに追加する(L=L+{ωj})。
Then, from the 2 × 2 contingency table for the updated word combination ω j , the word importance E (ω is followed according to the above formula (1), the above formula (2), the above formula (3), and the above formula (4). j ) is calculated. The
MDS算出部173は、集合Cが空集合になるまで、集合Cの中からmss(ωi)が最大となるωiを求める処理から、最もmds(ωj)の値が大きくなるωjを集合Lに追加するまでの処理を繰り返す。これにより、mds(ω)を降順に並べた単語リストMDS(W)を求めることができる。この単語リストMDS(W)は、全ての単語の組み合わせωについて、その単語の組み合わせωより上位の単語の影響を除いた状態でのスコア順に並べられたリストとなる。
文書数算出部175は、対象ラベルに該当する文書を判定するための辞書登録候補である第1の単語w1と第2の単語w2との組み合わせ毎に、2×4分割表を生成し、第1から第8の文書数N11,N12,N13,N14,N21,N22,N23,N24を算出する。
The document
図3は、文書数算出部175が生成する2×4分割表の概念を示す図である。図3において、対象ラベルについてラベル判定対象となった全ての電子文書の数をNALLとし、NALLのうち対象ラベルに該当すると判定された電子文書(正解文書)の数をNOKとし、NALLのうち対象ラベルに該当しないと判定された電子文書(不正解文書)の数をNNGとする。このとき、第1から第8の文書数N11,N12,N13,N14,N21,N22,N23,N24は、以下に定義されるものである。
FIG. 3 is a diagram illustrating the concept of the 2 × 4 contingency table generated by the document
第1の文書数N11は、NOK個の正解文書のうち、第1の単語w1を含み、且つ、第2の単語w2を含む文書の数である。
第2の文書数N12は、NOK個の正解文書のうち、第1の単語w1を含み、且つ、第2の単語w2を含まない文書の数である。
第3の文書数N13は、NOK個の正解文書のうち、第1の単語w1を含まない、且つ、第2の単語w2を含む文書の数である。
第4の文書数N14は、NOK個の正解文書のうち、第1の単語w1を含まない、且つ、第2の単語w2を含まない文書の数である。
The first document number N11 is the number of documents including the first word w1 and including the second word w2 among the N OK correct documents.
The second document number N12 is the number of documents that include the first word w1 and does not include the second word w2 among the N OK correct documents.
The third document number N13 is the number of documents that do not include the first word w1 and includes the second word w2 out of N OK correct documents.
The fourth document number N14 is the number of documents that do not include the first word w1 and does not include the second word w2 among the N OK correct documents.
第5の文書数N21は、NNG個の不正解文書のうち、第1の単語w1を含み、且つ、第2の単語w2を含む文書の数である。
第6の文書数N22は、NNG個の不正解文書のうち、第1の単語w1を含み、且つ、第2の単語w2を含まない文書の数である。
第7の文書数N23は、NNG個の不正解文書のうち、第1の単語w1を含まない、且つ、第2の単語w2を含む文書の数である。
第8の文書数N24は、NNG個の不正解文書のうち、第1の単語w1を含まない、且つ、第2の単語w2を含まない文書の数である。
The fifth document number N21 is the number of documents including the first word w1 and the second word w2 out of N NG incorrect answer documents.
The sixth document number N22 is the number of documents including the first word w1 and not including the second word w2 out of N NG incorrect answer documents.
The seventh document number N23 is the number of documents that do not include the first word w1 and includes the second word w2 among the N NG incorrect answer documents.
The eighth document number N24 is the number of documents that do not include the first word w1 and does not include the second word w2 among the N NG incorrect answer documents.
このとき、以下の関係式が成り立つ。
・N12=「NOK個の正解文書のうち、第1の単語w1を含む文書の数a(w1)」−N11
・N13=「NOK個の正解文書のうち、第2の単語w2を含む文書の数a(w2)」−N11
・N22=「NNG個の不正解文書のうち、第1の単語w1を含む文書の数c(w1)」−N21
・N23=「NNG個の不正解文書のうち、第2の単語w2を含む文書の数c(w2)」−N21
・Z=N11+N12+N13+N14+N21+N22+N23+N24
Zは全文書の数である。
At this time, the following relational expression holds.
N12 = “the number a (w1) of documents including the first word w1 out of the N OK correct documents” −N11
N13 = “the number a (w2) of documents including the second word w2 out of the N OK correct documents” −N11
N22 = “the number c (w1) of documents including the first word w1 among N NG incorrect documents” −N21
N23 = “number of documents including the second word w2 out of N NG incorrect documents c (w2)” − N21
・ Z = N11 + N12 + N13 + N14 + N21 + N22 + N23 + N24
Z is the number of all documents.
a(w1)は、索引語スコア算出部170で生成された、第1の単語w1に係る2×2分割表のaである。a(w2)は、索引語スコア算出部170で生成された、第2の単語w2に係る2×2分割表のaである。c(w1)は、索引語スコア算出部170で生成された、第1の単語w1に係る2×2分割表のcである。c(w2)は、索引語スコア算出部170で生成された、第2の単語w2に係る2×2分割表のcである。このため、文書数算出部175は、索引語スコア算出部170から、第1の単語w1に係る2×2分割表のa,cと第2の単語w2に係る2×2分割表のa,cを取得し、上記関係式により文書数N12,N13,N22,N23を算出する。これにより、計算量を削減できる。
a (w1) is a of the 2 × 2 contingency table related to the first word w1 generated by the index word
入力部176は、第1の単語w1と第2の単語w2を文書数算出部175へ入力する。ここで、第1の単語w1と第2の単語w2の選択方法としては、索引語スコア算出部170で算出された、対象ラベルに係る各単語のスコアを利用することができる。例えば、索引語スコア算出部170で算出された、シングルスタティックスコアの単語リストSSS(W)、シングルダイナミックスコアの単語リストSDS(W)、マルチスタティックスコアの単語リストMSS(W)及びマルチダイナミックスコアの単語リストMDS(W)のうち、いずれかの単語リストに従って、対象ラベルに係る重要単語を所定数だけ選択し、該選択した単語群の中から順次、第1の単語w1と第2の単語w2を選択して文書数算出部175へ入力する。
The
情報量基準量算出部177は、文書数算出部175によって算出された第1から第8の文書数N11,N12,N13,N14,N21,N22,N23,N24を用いて、第1から第3の情報量基準量AIC(DM1),AIC(DM2),AIC(DM12)を算出する。
The information amount reference
第1の情報量基準量AIC(DM1)は、対象ラベルに該当する文書を判定するための辞書登録候補である第1の単語w1と第2の単語w2との組み合わせに関し、対象ラベルと第1の単語w1との関係の度合いを示す。第1の情報量基準量AIC(DM1)は、式(5)により算出される。なお、以下の式(5),(6),(7)において、logの底である10は省略して表記している。 The first information amount reference amount AIC (DM1) is related to the combination of the first word w1 and the second word w2, which are dictionary registration candidates for determining the document corresponding to the target label, and the first label The degree of the relationship with the word w1 is shown. The first information amount reference amount AIC (DM1) is calculated by the equation (5). In the following formulas (5), (6), and (7), 10 that is the bottom of the log is omitted.
MLL=(N11+N12)log(N11+N12)+(N13+N14)log(N13+N14)+(N21+N22)log(N21+N22)+(N23+N24)log(N23+N24)+(N11+N13+N21+N23)log(N11+N13+N21+N23)+(N12+N14+N22+N24)log(N12+N14+N22+N24)−2×ZlogZ
AIC(DM1)=−2×MLL+2×4
・・・(5)
MLL = (N11 + N12) log (N11 + N12) + (N13 + N14) log (N13 + N14) + (N21 + N22) log (N21 + N22) + (N23 + N24) log (N23 + N24) + (N11 + N13 + N21 + N24) 2 x ZlogZ
AIC (DM1) = − 2 × MLL + 2 × 4
... (5)
この第1の情報量基準量AIC(DM1)は、対象ラベルに該当する文書を判定するための辞書登録候補である第1の単語w1と第2の単語w2との組み合わせに関し、第1の単語w1のみを辞書登録すべきかの尺度として利用することができる。 The first information amount reference amount AIC (DM1) is the first word related to the combination of the first word w1 and the second word w2 that are dictionary registration candidates for determining the document corresponding to the target label. Only w1 can be used as a measure for dictionary registration.
第2の情報量基準量AIC(DM2)は、対象ラベルに該当する文書を判定するための辞書登録候補である第1の単語w1と第2の単語w2との組み合わせに関し、対象ラベルと第2の単語w2との関係の度合いを示す。第2の情報量基準量AIC(DM2)は、式(6)により算出される。 The second information amount reference amount AIC (DM2) is related to the combination of the first word w1 and the second word w2 which are dictionary registration candidates for determining a document corresponding to the target label, Indicates the degree of relationship with the word w2. The second information amount reference amount AIC (DM2) is calculated by the equation (6).
MLL=(N11+N13)log(N11+N13)+(N12+N14)log(N12+N14)+(N21+N23)log(N21+N23)+(N22+N24)log(N22+N24)+(N11+N12+N21+N22)log(N11+N12+N21+N22)+(N13+N14+N23+N24)log(N13+N14+N23+N24)−2×ZlogZ
AIC(DM2)=−2×MLL+2×4
・・・(6)
MLL = (N11 + N13) log (N11 + N13) + (N12 + N14) log (N12 + N14) + (N21 + N23) log (N21 + N23) + (N22 + N24) log (N22 + N24) + (N11 + N12 + N21 + N21 + N14 + N21 + N21 + N14 + N14 + N14 + N24 + N24 + N24 2 x ZlogZ
AIC (DM2) = − 2 × MLL + 2 × 4
... (6)
この第2の情報量基準量AIC(DM2)は、対象ラベルに該当する文書を判定するための辞書登録候補である第1の単語w1と第2の単語w2との組み合わせに関し、第2の単語w2のみを辞書登録すべきかの尺度として利用することができる。 The second information amount reference amount AIC (DM2) is a second word related to a combination of the first word w1 and the second word w2 that are dictionary registration candidates for determining a document corresponding to the target label. Only w2 can be used as a measure for dictionary registration.
第3の情報量基準量AIC(DM12)は、対象ラベルに該当する文書を判定するための辞書登録候補である第1の単語w1と第2の単語w2との組み合わせに関し、対象ラベルと、第1の単語w1および第2の単語w2の組み合わせとの関係の度合いを示す。第3の情報量基準量AIC(DM12)は、式(7)により算出される。 The third information amount reference amount AIC (DM12) is related to the combination of the first word w1 and the second word w2 which are dictionary registration candidates for determining a document corresponding to the target label, The degree of relationship with the combination of the first word w1 and the second word w2 is shown. The third information amount reference amount AIC (DM12) is calculated by the equation (7).
MLL=N11logN11+N12logN12+N13logN13+N14logN14+N21logN21+N22logN22+N23logN23+N24logN24−ZlogZ
AIC(DM12)=−2×MLL+2×7
・・・(7)
MLL = N11logN11 + N12logN12 + N13logN13 + N14logN14 + N21logN21 + N22logN22 + N23logN23 + N24logN24-ZlogZ
AIC (DM12) = -2 x MLL + 2 x 7
... (7)
この第3の情報量基準量AIC(DM12)は、対象ラベルに該当する文書を判定するための辞書登録候補である第1の単語w1と第2の単語w2との組み合わせに関し、第1の単語w1と第2の単語w2の組み合わせのみを辞書登録すべきかの尺度として利用することができる。 The third information amount reference amount AIC (DM12) is the first word related to the combination of the first word w1 and the second word w2, which are dictionary registration candidates for determining the document corresponding to the target label. Only a combination of w1 and the second word w2 can be used as a measure of whether or not the dictionary should be registered.
上記式(5),(6),(7)で算出される第1から第3の情報量基準量AIC(DM1),AIC(DM2),AIC(DM12)は、その値が小さいほど、対象ラベルとの関係の度合いが大きいことを表す。 The first to third information amount reference amounts AIC (DM1), AIC (DM2), and AIC (DM12) calculated by the above formulas (5), (6), and (7) are subject to smaller values. Indicates that the degree of relationship with the label is large.
登録語選択部178は、情報量基準量算出部177によって算出された第1から第3の情報量基準量AIC(DM1),AIC(DM2),AIC(DM12)に基づいて、対象ラベルに該当する文書を判定するための辞書登録候補である第1の単語w1と第2の単語w2との組み合わせに関し、第1の単語w1のみを辞書登録すべきか、第2の単語w2のみを辞書登録すべきか、又は、第1の単語w1と第2の単語w2の組み合わせのみを辞書登録すべきか、を判定する。具体的には、第1から第3の情報量基準量AIC(DM1),AIC(DM2),AIC(DM12)を比較し、この比較の結果、
第1の情報量基準量AIC(DM1)が最小値である場合は第1の単語w1のみを登録語とし、
第2の情報量基準量AIC(DM2)が最小値である場合は第2の単語w2のみを登録語とし、
第3の情報量基準量AIC(DM12)が最小値である場合は第1の単語w1と第2の単語w2の組み合わせのみを登録語とする。
The registered
When the first information reference amount AIC (DM1) is the minimum value, only the first word w1 is set as a registered word,
When the second information amount reference amount AIC (DM2) is the minimum value, only the second word w2 is set as a registered word,
When the third information amount reference amount AIC (DM12) is the minimum value, only the combination of the first word w1 and the second word w2 is set as a registered word.
辞書登録部180は、対象ラベルに関し、登録語選択部178によって選択された登録語を辞書データベース300へ登録する。これにより、該登録語が該対象ラベルに対応付けて辞書データベース300に格納される。
The
次に、図4を参照して、本実施形態に係る辞書登録装置100が、ラベル判定結果に基づいて辞書データベース300に記憶された辞書データを更新する動作例を説明する。
ラベル判定装置200は、例えば、インターネットを介して取得し記憶した複数のテキストベースのウェブコンテンツを、ラベル判定対象の電子文書として読み出す。そして、ラベル判定装置200は、辞書データベース300から読み出した辞書データに含まれるラベルに対応する一定数以上の単語が、ラベル判定対象のウェブコンテンツに含まれるか否かを判定し、そのラベルにそのウェブコンテンツが該当するか否かを判定する。ラベル判定装置200は、ラベル判定処理を行ったウェブコンテンツと、その判定結果を示す情報とを、電子文書記憶部110に記憶させる。
Next, with reference to FIG. 4, the operation example in which the
The
正規化処理部120は、電子文書記憶部110に記憶されているラベル判定済みのウェブコンテンツとラベル判定結果とを読み出し(ステップS1)、ウェブコンテンツの正規化処理を行う(ステップS2)。形態素解析部130は、ステップS2でウェブコンテンツが正規化された電子文書と、形態素解析用辞書記憶部140から読み出す形態素解析用辞書とに基づいて、正規化済電子文書の形態素解析処理を行い、ドキュメントベクトルテーブルを生成する(ステップS3)。
The
単語分布算出部150は、ステップS3で形態素解析部130により生成されたドキュメントベクトルテーブルに基づいて、単語分布表を生成する(ステップS4)。ここで、辞書登録装置100は、電子文書記憶部110に単語分布表の更新の対象としていないウェブコンテンツと判定結果とが電子文書記憶部110に存在すれば(ステップS5:YES)、ステップS1からステップS4までの処理を繰り返す。
The word
単語分布算出部150が、電子文書記憶部110に記憶されたウェブコンテンツと判定結果との全てに基づいて、単語分布表の更新を行った場合には(ステップS5:NO)、索引語スコア算出部170のSSS算出部171は、上述したSSS算出処理を行う。SDS算出部174は、SSS算出部171が算出したSSS(W)に基づいて、SDS算出処理を行い、各単語のSDSを求めた単語リストSDS(W)を算出する(ステップS7)。一方、MSS算出部172は、SSS算出部171が算出したSSS(W)に基づいて、MSS算出処理を行い、各単語のMSSを求めた単語リストMSS(W)を算出する(ステップS8)。そして、MDS算出部173は、MSS算出部172が算出したMSS(W)に基づいて、MDS算出処理を行い、各単語のMDSを求めた単語リストMDS(W)を算出する(ステップS9)。
When the word
次いで、ステップS10では、まず、文書数算出部175が、対象ラベルに該当する文書を判定するための辞書登録候補である第1の単語w1と第2の単語w2との組み合わせ毎に、第1から第8の文書数N11,N12,N13,N14,N21,N22,N23,N24を算出する。そして、情報量基準量算出部177が、文書数算出部175によって算出された第1から第8の文書数N11,N12,N13,N14,N21,N22,N23,N24を用いて、第1から第3の情報量基準量AIC(DM1),AIC(DM2),AIC(DM12)を算出する。
Next, in step S10, first, the document
次いで、ステップS11では、登録語選択部178が、情報量基準量算出部177によって算出された第1から第3の情報量基準量AIC(DM1),AIC(DM2),AIC(DM12)に基づいて、対象ラベルに該当する文書を判定するための辞書登録候補である第1の単語w1と第2の単語w2との組み合わせに関し、第1の単語w1と、第2の単語w2と、第1の単語w1および第2の単語w2の組み合わせとのうち、対象ラベルに関係する度合いが最大であるものを登録語に選択する。
Next, in step S11, the registered
次いで、ステップS12では、辞書登録部180が、対象ラベルに関し、登録語選択部178によって選択された登録語を辞書データベース300に辞書データとして記憶させる。
Next, in step S12, the
このように、本実施形態によれば、対象ラベルに該当する文書を判定するための辞書登録候補である第1の単語w1と第2の単語w2との組み合わせに関し、第1の単語w1と、第2の単語w2と、第1の単語w1および第2の単語w2の組み合わせとを同じ尺度で評価し、対象ラベルに関係する度合いが最大であるものを辞書データベース300に登録することができる。これにより、単語および単語の組み合わせを混在させた辞書データベースを生成することができる。この結果、以下に示す効果が得られる。
As described above, according to the present embodiment, the first word w1 with respect to the combination of the first word w1 and the second word w2, which are dictionary registration candidates for determining the document corresponding to the target label, It is possible to evaluate the second word w2 and the combination of the first word w1 and the second word w2 on the same scale, and register the one having the maximum degree related to the target label in the
入力文書のトピック判定を行う際に、スコア付き単語(uni-gram)のみによって構成された辞書データベースを使用する場合、特定のトピックに該当する文書の取り逃しは少なくなるが、過剰検出が多くなる。一方、スコア付き単語の組み合わせ(bi-gram)のみによって構成された辞書データベースを使用する場合には、過剰検出は少なくなるが、取り逃しが多くなる。しかし、本実施形態によれば、スコア付き単語およびスコア付き単語の組み合わせを同一の辞書データベース内に混在させて利用することができるので、入力文書のトピック判定を行う際に、過剰検出および取り逃しを共に減らすことができるようになる。 When using a dictionary database composed only of scored words (uni-grams) when determining the topic of an input document, missed documents corresponding to a specific topic are reduced, but overdetection is increased. On the other hand, in the case of using a dictionary database composed only of scored word combinations (bi-grams), overdetection is reduced, but missing is increased. However, according to the present embodiment, a scored word and a combination of scored words can be mixed and used in the same dictionary database. Therefore, when performing topic determination of an input document, excessive detection and missing are not detected. Both can be reduced.
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
例えば、上述の実施形態では、第1の単語w1と第2の単語w2との組み合わせを辞書登録候補としたが、本発明は、辞書登録候補として3つ以上の単語の組み合わせに対しても同様に適用可能である。
As mentioned above, although embodiment of this invention was explained in full detail with reference to drawings, the specific structure is not restricted to this embodiment, The design change etc. of the range which does not deviate from the summary of this invention are included.
For example, in the above-described embodiment, the combination of the first word w1 and the second word w2 is a dictionary registration candidate, but the present invention is similarly applied to combinations of three or more words as dictionary registration candidates. It is applicable to.
また、図4に示す各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、辞書登録処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disk)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
Also, a program for realizing each step shown in FIG. 4 is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read into a computer system and executed, thereby performing dictionary registration processing. You may go. Here, the “computer system” may include an OS and hardware such as peripheral devices.
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
“Computer-readable recording medium” refers to a flexible disk, a magneto-optical disk, a ROM, a writable nonvolatile memory such as a flash memory, a portable medium such as a DVD (Digital Versatile Disk), and a built-in computer system. A storage device such as a hard disk.
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
Further, the “computer-readable recording medium” means a volatile memory (for example, DRAM (Dynamic DRAM) in a computer system that becomes a server or a client when a program is transmitted through a network such as the Internet or a communication line such as a telephone line. Random Access Memory)), etc., which hold programs for a certain period of time.
The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
100…辞書登録装置、200…ラベル判定装置、300…辞書データベース、110…電子文書記憶部、120…正規化処理部、130…形態素解析部、140…形態素解析用辞書記憶部、150…単語分布算出部、160…単語分布表記憶部、170…索引語スコア算出部、171…SSS算出部、172…MSS算出部、173…MDS算出部、174…SDS算出部、175…文書数算出部、176…入力部、177…情報量基準量算出部、178…登録語選択部、180…辞書登録部
DESCRIPTION OF
Claims (8)
前記性質に関係する文書を判定するための辞書登録候補である第1の語と第2の語とが入力される入力部と、
前記第1の語と前記第2の語との組み合わせ毎に、前記第1の語と前記第2の語との双方が含まれる前記正解文書の数である第1の文書数と、前記第1の語が含まれ前記第2の語が含まれない前記正解文書の数である第2の文書数と、前記第1の語が含まれず前記第2の語が含まれる前記正解文書の数である第3の文書数と、前記第1の語と前記第2の語とのいずれもが含まれない前記正解文書の数である第4の文書数と、前記第1の語と前記第2の語との双方が含まれる前記不正解文書の数である第5の文書数と、前記第1の語が含まれ前記第2の語が含まれない前記不正解文書の数である第6の文書数と、前記第1の語が含まれず前記第2の語が含まれる前記不正解文書の数である第7の文書数と、前記第1の語と前記第2の語とのいずれもが含まれない前記不正解文書の数である第8の文書数とを算出する文書数算出部と、
前記文書数算出部によって算出された前記第1から前記第8の文書数に基づいて、前記第1の語と前記性質との関係の度合いを示す第1の情報量基準量と、前記第2の語と前記性質との関係の度合いを示す第2の情報量基準量と、前記第1の語および前記第2の語の組み合わせと前記性質との関係の度合いを示す第3の情報量基準量とを算出する情報量基準量算出部と、
前記情報量基準量算出部によって算出された前記情報量基準量を比較して、前記第1の語と、前記第2の語と、前記第1の語および前記第2の語の組み合わせとのうち、前記性質に関係する度合いが最大であるものを登録語に選択する登録語選択部と、
を備えることを特徴とする辞書登録装置。 An electronic document storage unit for storing a set of correct documents related to a specific property and a set of incorrect documents not related to the property;
An input unit for inputting a first word and a second word, which are dictionary registration candidates for determining a document related to the property;
For each combination of the first word and the second word, the first document number that is the number of the correct documents including both the first word and the second word; A second document number that is the number of correct documents that include one word and does not include the second word, and a number of correct documents that include the second word but not the first word. A third document number, a fourth document number that is the number of the correct documents that do not include any of the first word and the second word, the first word, and the first word A fifth document number that is the number of incorrect documents that include both of the two words, and a fifth document number that is the number of incorrect documents that include the first word and not include the second word. A document number of 6, a seventh document number that is the number of incorrect documents in which the first word is not included and the second word is included, and the first word and the second word Izu A document number calculating unit for calculating an eighth number of documents of a number of not included said incorrect document,
A first information amount reference amount indicating a degree of a relationship between the first word and the property based on the first to eighth document numbers calculated by the document number calculating unit; A second information amount reference amount indicating the degree of the relationship between the word and the property, and a third information amount reference indicating the degree of the relationship between the combination of the first word and the second word and the property An information amount reference amount calculation unit for calculating the amount,
Comparing the information amount reference amount calculated by the information amount reference amount calculation unit, the first word, the second word, and the combination of the first word and the second word Among them, a registered word selection unit that selects a registered word that has the maximum degree related to the property;
A dictionary registration device comprising:
MLL=(N11+N12)log(N11+N12)+(N13+N14)log(N13+N14)+(N21+N22)log(N21+N22)+(N23+N24)log(N23+N24)+(N11+N13+N21+N23)log(N11+N13+N21+N23)+(N12+N14+N22+N24)log(N12+N14+N22+N24)−2×ZlogZ、
AIC(DM1)=−2×MLL+2×4、
なる計算式により算出される、
但し、logの底である10は省略して表記し、Z=N11+N12+N13+N14+N21+N22+N23+N24であり、N11は前記第1の文書数、N12は前記第2の文書数、N13は前記第3の文書数、N14は前記第4の文書数、N21は前記第5の文書数、N22は前記第6の文書数、N23は前記第7の文書数、N24は前記第8の文書数である、
ことを特徴とする請求項1に記載の辞書登録装置。 The first information criterion “AIC (DM1)” indicating the degree of the relationship between the first word and the property is:
MLL = (N11 + N12) log (N11 + N12) + (N13 + N14) log (N13 + N14) + (N21 + N22) log (N21 + N22) + (N23 + N24) log (N23 + N24) + (N11 + N13 + N21 + N24) 2 × ZlogZ,
AIC (DM1) = − 2 × MLL + 2 × 4,
Calculated by the following formula:
However, 10 that is the bottom of the log is omitted, and Z = N11 + N12 + N13 + N14 + N21 + N22 + N23 + N24, where N11 is the first document number, N12 is the second document number, N13 is the third document number, and N14 is The fourth document number, N21 is the fifth document number, N22 is the sixth document number, N23 is the seventh document number, and N24 is the eighth document number.
The dictionary registration device according to claim 1.
MLL=(N11+N13)log(N11+N13)+(N12+N14)log(N12+N14)+(N21+N23)log(N21+N23)+(N22+N24)log(N22+N24)+(N11+N12+N21+N22)log(N11+N12+N21+N22)+(N13+N14+N23+N24)log(N13+N14+N23+N24)−2×ZlogZ、
AIC(DM2)=−2×MLL+2×4、
なる計算式により算出される、
但し、logの底である10は省略して表記し、Z=N11+N12+N13+N14+N21+N22+N23+N24であり、N11は前記第1の文書数、N12は前記第2の文書数、N13は前記第3の文書数、N14は前記第4の文書数、N21は前記第5の文書数、N22は前記第6の文書数、N23は前記第7の文書数、N24は前記第8の文書数である、
ことを特徴とする請求項1又は請求項2に記載の辞書登録装置。 A second information amount reference amount “AIC (DM2)” indicating the degree of the relationship between the second word and the property is:
MLL = (N11 + N13) log (N11 + N13) + (N12 + N14) log (N12 + N14) + (N21 + N23) log (N21 + N23) + (N22 + N24) log (N22 + N24) + (N11 + N12 + N21 + N21 + N14 + N21 + N21 + N14 + N14 + N14 + N24 + N24 + N24 2 × ZlogZ,
AIC (DM2) = − 2 × MLL + 2 × 4,
Calculated by the following formula:
However, 10 that is the bottom of the log is omitted, and Z = N11 + N12 + N13 + N14 + N21 + N22 + N23 + N24, where N11 is the first document number, N12 is the second document number, N13 is the third document number, and N14 is The fourth document number, N21 is the fifth document number, N22 is the sixth document number, N23 is the seventh document number, and N24 is the eighth document number.
The dictionary registration apparatus according to claim 1, wherein the dictionary registration apparatus is a dictionary registration apparatus.
MLL=N11logN11+N12logN12+N13logN13+N14logN14+N21logN21+N22logN22+N23logN23+N24logN24−ZlogZ、
AIC(DM12)=−2×MLL+2×7、
なる計算式により算出される、
但し、logの底である10は省略して表記し、Z=N11+N12+N13+N14+N21+N22+N23+N24であり、N11は前記第1の文書数、N12は前記第2の文書数、N13は前記第3の文書数、N14は前記第4の文書数、N21は前記第5の文書数、N22は前記第6の文書数、N23は前記第7の文書数、N24は前記第8の文書数である、
ことを特徴とする請求項1から3のいずれか1項に記載の辞書登録装置。 The third information amount reference amount “AIC (DM12)” indicating the degree of the relationship between the combination of the first word and the second word and the property is:
MLL = N11logN11 + N12logN12 + N13logN13 + N14logN14 + N21logN21 + N22logN22 + N23logN23 + N24logN24-ZlogZ,
AIC (DM12) = − 2 × MLL + 2 × 7,
Calculated by the following formula:
However, 10 that is the bottom of the log is omitted, and Z = N11 + N12 + N13 + N14 + N21 + N22 + N23 + N24, where N11 is the first document number, N12 is the second document number, N13 is the third document number, and N14 is The fourth document number, N21 is the fifth document number, N22 is the sixth document number, N23 is the seventh document number, and N24 is the eighth document number.
The dictionary registration device according to claim 1, wherein the dictionary registration device is a dictionary registration device.
前記辞書登録装置によって選択された登録語が特定の性質を表すラベルに対応付けて格納される辞書データベースと、
前記辞書データベースを用いて入力文書に対応するラベルを判定するラベル判定装置と、
を備えたことを特徴とする文書ラベル判定システム。 The dictionary registration device according to any one of claims 1 to 6,
A dictionary database in which a registered word selected by the dictionary registration device is stored in association with a label representing a specific property;
A label determination device for determining a label corresponding to an input document using the dictionary database;
A document label determination system comprising:
前記第1の語と前記第2の語との組み合わせ毎に、前記第1の語と前記第2の語との双方が含まれる前記正解文書の数である第1の文書数と、前記第1の語が含まれ前記第2の語が含まれない前記正解文書の数である第2の文書数と、前記第1の語が含まれず前記第2の語が含まれる前記正解文書の数である第3の文書数と、前記第1の語と前記第2の語とのいずれもが含まれない前記正解文書の数である第4の文書数と、前記第1の語と前記第2の語との双方が含まれる前記不正解文書の数である第5の文書数と、前記第1の語が含まれ前記第2の語が含まれない前記不正解文書の数である第6の文書数と、前記第1の語が含まれず前記第2の語が含まれる前記不正解文書の数である第7の文書数と、前記第1の語と前記第2の語とのいずれもが含まれない前記不正解文書の数である第8の文書数とを算出するステップと、
前記算出された前記第1から前記第8の文書数に基づいて、前記第1の語と前記性質との関係の度合いを示す第1の情報量基準量と、前記第2の語と前記性質との関係の度合いを示す第2の情報量基準量と、前記第1の語および前記第2の語の組み合わせと前記性質との関係の度合いを示す第3の情報量基準量とを算出するステップと、
前記算出された前記情報量基準量を比較して、前記第1の語と、前記第2の語と、前記第1の語および前記第2の語の組み合わせとのうち、前記性質に関係する度合いが最大であるものを登録語に選択するステップと、
を実行させるための辞書登録プログラム。 An electronic document storage unit storing a set of correct documents related to a specific property and a set of incorrect documents not related to the property, and a dictionary registration candidate for determining a document related to the property A computer having an input unit for inputting a first word and a second word;
For each combination of the first word and the second word, the first document number that is the number of the correct documents including both the first word and the second word; A second document number that is the number of correct documents that include one word and does not include the second word, and a number of correct documents that include the second word but not the first word. A third document number, a fourth document number that is the number of the correct documents that do not include any of the first word and the second word, the first word, and the first word A fifth document number that is the number of incorrect documents that include both of the two words, and a fifth document number that is the number of incorrect documents that include the first word and not include the second word. A document number of 6, a seventh document number that is the number of incorrect documents in which the first word is not included and the second word is included, and the first word and the second word Izu Calculating a number of documents eighth the number of not included said incorrect document,
Based on the calculated first to eighth document numbers, a first information amount reference amount indicating a degree of relationship between the first word and the property, the second word, and the property And a second information amount reference amount indicating the degree of the relationship between the first word and the combination of the second word and the property. Steps,
Comparing the calculated information amount reference amount, the first word, the second word, and the combination of the first word and the second word are related to the property. Selecting the registered word with the maximum degree,
Dictionary registration program for running
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009233756A JP5364529B2 (en) | 2009-10-07 | 2009-10-07 | Dictionary registration device, document label determination system, and dictionary registration program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009233756A JP5364529B2 (en) | 2009-10-07 | 2009-10-07 | Dictionary registration device, document label determination system, and dictionary registration program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011081626A true JP2011081626A (en) | 2011-04-21 |
JP5364529B2 JP5364529B2 (en) | 2013-12-11 |
Family
ID=44075611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009233756A Active JP5364529B2 (en) | 2009-10-07 | 2009-10-07 | Dictionary registration device, document label determination system, and dictionary registration program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5364529B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013134713A (en) * | 2011-12-27 | 2013-07-08 | Kddi Corp | Link generation device, link generation method, and link generation program |
JP2013145461A (en) * | 2012-01-13 | 2013-07-25 | Kddi Corp | Dictionary generating device, document label determination system, and computer program |
JP2015153188A (en) * | 2014-02-14 | 2015-08-24 | 日本電信電話株式会社 | Work record content analysis device, method and program |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007079730A (en) * | 2005-09-12 | 2007-03-29 | Oki Electric Ind Co Ltd | Word similarity decision device and method and program |
JP2009157458A (en) * | 2007-12-25 | 2009-07-16 | Nippon Telegr & Teleph Corp <Ntt> | Index creation device, its method, program, and recording medium |
-
2009
- 2009-10-07 JP JP2009233756A patent/JP5364529B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007079730A (en) * | 2005-09-12 | 2007-03-29 | Oki Electric Ind Co Ltd | Word similarity decision device and method and program |
JP2009157458A (en) * | 2007-12-25 | 2009-07-16 | Nippon Telegr & Teleph Corp <Ntt> | Index creation device, its method, program, and recording medium |
Non-Patent Citations (2)
Title |
---|
CSNJ200910045020; 柳原正、外3名: 'トピック判定におけるn-gramの高速組み合わせ手法の検討' FIT2008 第7回情報科学技術フォーラム 講演論文集 第2分冊 , 20080820, p.59-61 * |
JPN6013039776; 柳原正、外3名: 'トピック判定におけるn-gramの高速組み合わせ手法の検討' FIT2008 第7回情報科学技術フォーラム 講演論文集 第2分冊 , 20080820, p.59-61 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013134713A (en) * | 2011-12-27 | 2013-07-08 | Kddi Corp | Link generation device, link generation method, and link generation program |
JP2013145461A (en) * | 2012-01-13 | 2013-07-25 | Kddi Corp | Dictionary generating device, document label determination system, and computer program |
JP2015153188A (en) * | 2014-02-14 | 2015-08-24 | 日本電信電話株式会社 | Work record content analysis device, method and program |
Also Published As
Publication number | Publication date |
---|---|
JP5364529B2 (en) | 2013-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Amjad et al. | “Bend the truth”: Benchmark dataset for fake news detection in Urdu language and its evaluation | |
US8386240B2 (en) | Domain dictionary creation by detection of new topic words using divergence value comparison | |
US7346487B2 (en) | Method and apparatus for identifying translations | |
US8463598B2 (en) | Word detection | |
JP5379138B2 (en) | Creating an area dictionary | |
US20040236566A1 (en) | System and method for identifying special word usage in a document | |
KR102552811B1 (en) | System for providing cloud based grammar checker service | |
JP2014120053A (en) | Question answering device, method, and program | |
Wong et al. | iSentenizer‐μ: Multilingual Sentence Boundary Detection Model | |
JP6867963B2 (en) | Summary Evaluation device, method, program, and storage medium | |
JP5364529B2 (en) | Dictionary registration device, document label determination system, and dictionary registration program | |
JP4143085B2 (en) | Synonym acquisition method and apparatus, program, and computer-readable recording medium | |
JP5179564B2 (en) | Query segment position determination device | |
Eldin et al. | An enhanced opinion retrieval approach on Arabic text for customer requirements expansion | |
Hemmer et al. | Estimating Post-OCR Denoising Complexity on Numerical Texts | |
JP5025603B2 (en) | Machine translation apparatus, machine translation program, and machine translation method | |
JP2008204399A (en) | Abbreviation extracting method, abbreviation extracting device and program | |
JP5739352B2 (en) | Dictionary generation apparatus, document label determination system, and computer program | |
JP5178357B2 (en) | Word score calculation device, document label determination system, and word score calculation program | |
JP5277090B2 (en) | Link creation support device, link creation support method, and program | |
JP4314271B2 (en) | Inter-word relevance calculation device, inter-word relevance calculation method, inter-word relevance calculation program, and recording medium recording the program | |
JP4934115B2 (en) | Keyword extraction apparatus, method and program | |
JP6451151B2 (en) | Question answering apparatus, question answering method, program | |
CN113094469B (en) | Text data analysis method and device, electronic equipment and storage medium | |
JP5363178B2 (en) | Correction candidate acquisition device, correction candidate acquisition system, correction candidate acquisition method, correction candidate acquisition program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120907 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20120910 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130806 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130813 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130909 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5364529 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |