JP4994199B2 - Machine learning apparatus and machine learning method - Google Patents

Machine learning apparatus and machine learning method Download PDF

Info

Publication number
JP4994199B2
JP4994199B2 JP2007304958A JP2007304958A JP4994199B2 JP 4994199 B2 JP4994199 B2 JP 4994199B2 JP 2007304958 A JP2007304958 A JP 2007304958A JP 2007304958 A JP2007304958 A JP 2007304958A JP 4994199 B2 JP4994199 B2 JP 4994199B2
Authority
JP
Japan
Prior art keywords
case
distance
document
machine learning
specific attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007304958A
Other languages
Japanese (ja)
Other versions
JP2009129279A (en
Inventor
学 颯々野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2007304958A priority Critical patent/JP4994199B2/en
Publication of JP2009129279A publication Critical patent/JP2009129279A/en
Application granted granted Critical
Publication of JP4994199B2 publication Critical patent/JP4994199B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、機械学習装置及び機械学習方法に関する。   The present invention relates to a machine learning device and a machine learning method.

機械学習の分野における教師あり学習を用いる識別手法の1つであるサポートベクタマシンにおいて、サポートベクタの近いところに、仮想的な事例を人工的に作り出し、それを学習に使う事例集合に追加する手法は精度向上に寄与することが判っている(例えば、特許文献1及び非特許文献1)。
特開2004−287776号公報 「自然言語処理」言語処理学会、2006年Vol.13、No.3、21−35頁
In support vector machine, which is one of the identification methods using supervised learning in the field of machine learning, artificially create a virtual case near the support vector and add it to the case set used for learning Has been found to contribute to accuracy improvement (for example, Patent Document 1 and Non-Patent Document 1).
JP 2004-287776 A “Natural Language Processing”, Language Processing Society of Japan, 2006 Vol. 13, no. 3, pages 21-35

しかし、有効な仮想事例を作る手法は、必ずしも明らかではなく、仮想的な事例を人工的に作ることは手間の掛かることであり、作り出せる事例の数にも限りがある。一方、サポートベクタマシンの対象を文書分類の問題に絞ると、事例となる文書はWeb上から容易に取得可能であるので、これらを用いて上記のような人工的な操作の代わりとすることができれば手間を掛けずに精度向上を行うことができる。   However, the method of creating an effective virtual case is not always clear, and artificially creating a virtual case is laborious and the number of cases that can be created is limited. On the other hand, if the target of the support vector machine is limited to the problem of document classification, the document as an example can be easily obtained from the Web, and these can be used as a substitute for the above-described artificial operation. If possible, the accuracy can be improved without much effort.

そこで、本発明は、Web上から取得した文書を利用し、文書分類に係るサポートベクタマシンの精度向上を行うための機械学習装置及び機械学習方法を提供することを目的とする。   Therefore, an object of the present invention is to provide a machine learning device and a machine learning method for improving accuracy of a support vector machine related to document classification using a document acquired from the Web.

本発明者は、文書分類に係るサポートベクタマシンが教師とするラベル付き事例(文書)と、Web上から取得した事例(文書)との間に距離(近さ)の概念を導入し、その距離が一定の条件を満たすときにその事例(文書)にラベルを付け、サポートベクタマシンの教師に加えるという仕組みを見出し、本発明を完成するに至った。本発明は、具体的には次のようなものを提供する。   The present inventor introduced the concept of distance (closeness) between a labeled case (document) that is a teacher of a support vector machine related to document classification and a case (document) acquired from the Web, and the distance Has found a mechanism to label the case (document) when a certain condition is satisfied and add it to the teacher of the support vector machine, and has completed the present invention. Specifically, the present invention provides the following.

(1)事例に係るデータと該事例が備える属性とについての既知の情報を基準として、前記特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、判定精度を向上させる機械学習装置であって、
前記特定の属性を備えるか否かについて未知である事例を取得する事例取得手段と、
前記事例取得手段により取得した事例と、前記特定の属性を備えることが既知である事例との距離を評価する距離評価手段と、
前記距離評価手段により評価した距離が所定の条件を満たす事例について、前記特定の属性を備えるとみなして前記判定の基準に加える属性付与手段と、
を備える機械学習装置。
(1) When determining whether or not an unknown case has the specific attribute as to whether or not the specific attribute is provided, based on known information about the data related to the case and the attributes of the case In the machine learning device to improve the determination accuracy,
Case acquisition means for acquiring a case that is unknown as to whether or not the specific attribute is provided;
Distance evaluation means for evaluating the distance between the case acquired by the case acquisition means and the case known to have the specific attribute;
For the case where the distance evaluated by the distance evaluation means satisfies a predetermined condition, the attribute giving means to consider that the specific attribute is provided and to add to the determination criterion;
A machine learning device comprising:

本発明のこのような構成によれば、前記機械学習装置は、事例に係るデータと該事例が特定の属性を備えるか否かとについて既知の情報を基準として、前記特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、前記特定の属性を備えるか否かについて未知の事例を取得し、その事例と特定の属性を備えるか否かとについて既知の事例との距離を評価して、その距離が所定の条件を満たす場合に、当該事例が特定の属性を備えるとみなして判定の基準として利用する。   According to such a configuration of the present invention, whether the machine learning device has the specific attribute on the basis of known information about data relating to the case and whether or not the case has the specific attribute. When determining whether or not an unknown case has the specific attribute, an unknown case is acquired as to whether or not the specific attribute is provided, and whether or not the case and the specific attribute are provided is known When the distance from the case is evaluated and the distance satisfies a predetermined condition, the case is regarded as having a specific attribute and used as a criterion for determination.

その結果、人手によらなくても基準とすることができる事例の数が増えるので、自動的に判定精度を向上させることができる。   As a result, the number of cases that can be used as a reference without relying on humans increases, so that the determination accuracy can be automatically improved.

(2)前記事例は前記データの組として特徴付けられ、前記事例が特定の属性を備えるか否かについての情報は前記事例が特定のカテゴリーに属するか否かを示すラベルであることを特徴とする請求項1に記載の機械学習装置。   (2) The case is characterized as the data set, and the information about whether the case has a specific attribute is a label indicating whether the case belongs to a specific category. The machine learning device according to claim 1.

本発明のこのような構成によれば、前記機械学習装置は、データの組であるベクタとラベルの組み合わせとして訓練データ(例題)が与えられるサポートベクタマシンを対象として、判定精度の向上に役立てることができる。したがって、事例に係るデータと該事例が特定の属性を備えるか否かとについて既知の情報は、ラベル付き事例に該当する。   According to such a configuration of the present invention, the machine learning device is useful for improving the determination accuracy for a support vector machine to which training data (example) is given as a combination of a vector and a label that is a data set. Can do. Therefore, the known information about the data related to the case and whether or not the case has a specific attribute corresponds to the labeled case.

(3)前記事例は文書であり、前記事例取得手段は、Web上から前記文書を取得することを特徴とする請求項1または請求項2に記載の機械学習装置。   (3) The machine learning apparatus according to claim 1 or 2, wherein the case is a document, and the case acquisition unit acquires the document from the Web.

本発明のこのような構成によれば、前記機械学習装置は、特に文書分類の問題において、Web上から取得した文書を利用できるので、Web上にある豊富な文書資源をサポートベクタマシンの精度向上に役立てることができる。   According to such a configuration of the present invention, the machine learning device can use a document acquired from the Web, particularly in the case of a document classification problem, so that the richness of document resources on the Web can be improved. Can be useful.

(4)前記事例取得手段が取得する文書は、所定の時期以後に作成された文書であることを特徴とする請求項3に記載の機械学習装置。   (4) The machine learning apparatus according to claim 3, wherein the document acquired by the case acquisition unit is a document created after a predetermined time.

本発明のこのような構成によれば、前記機械学習装置は、Web上に多数ある文書のうち、作成時期が古い文書を対象から外すので、時代とともに文書の用語や表現が変化していく場合に、適切に対応することができる。   According to such a configuration of the present invention, since the machine learning device excludes a document with an older creation time from a large number of documents on the Web, the terminology and expression of the document change with the times. It is possible to respond appropriately.

(5)前記事例取得手段は、前記特定の属性に関連するWebページから前記文書を取得することを特徴とする請求項3または請求項4に記載の機械学習装置。   (5) The machine learning device according to claim 3 or 4, wherein the case acquisition unit acquires the document from a Web page related to the specific attribute.

本発明のこのような構成によれば、前記機械学習装置は、Web上から任意に取得する文書ではなく、判定しようとする属性に関連のあるWebサイト等から文書を取得するので、前記属性付与手段が付与する当該文書の属性の過誤が減少し、サポートベクタマシンの精度向上に一層寄与することができる。   According to such a configuration of the present invention, the machine learning device acquires a document from a website or the like related to the attribute to be determined, not a document arbitrarily acquired from the Web. The error of the attribute of the document provided by the means can be reduced, which can further contribute to the improvement of the accuracy of the support vector machine.

(6)前記データは文書に含まれる単語であり、前記距離評価手段は、前記距離を、前記特定の属性を備えることが既知である文書に含まれる単語の出現に係る情報と、前記事例取得手段により取得した文書に含まれる単語の出現に係る情報とに基づいて評価することを特徴とする請求項3から請求項5のいずれかに記載の機械学習装置。   (6) The data is a word included in the document, and the distance evaluation unit is configured to acquire the distance, information related to the appearance of the word included in the document known to have the specific attribute, and the case acquisition. 6. The machine learning apparatus according to claim 3, wherein the evaluation is performed based on information relating to appearance of a word included in the document acquired by the means.

本発明のこのような構成によれば、前記距離評価手段は、教師としての事例(前記特定の属性を備えることが既知である文書)とWeb上から取得した事例(文書)との距離をそれぞれの文書に含まれる単語の出現に係る情報に基づいて評価するので、単語の重複度や出現頻度等を考慮して客観的に評価することができる。その結果、単語の出現の仕方に同様の特徴のある文書を同じカテゴリーに属する文書であると判定することができる。   According to such a configuration of the present invention, the distance evaluation unit calculates the distance between a case as a teacher (a document known to have the specific attribute) and a case (document) acquired from the Web, respectively. Since the evaluation is based on the information related to the appearance of the word included in the document, it is possible to objectively evaluate in consideration of the redundancy of the word and the appearance frequency. As a result, it is possible to determine that documents having similar characteristics in the appearance of words belong to the same category.

(7)前記データは文書に含まれる単語であり、前記距離評価手段は、前記距離を、前記特定の属性を備えることが既知である文書に含まれる単語の出現に係る情報と、前記特定の属性を備えないことが既知である文書に含まれる単語の出現に係る情報と、前記事例取得手段により取得した文書に含まれる単語の出現に係る情報とに基づいて評価することを特徴とする請求項3から請求項5のいずれかに記載の機械学習装置。   (7) The data is a word included in the document, and the distance evaluation means uses the distance as information related to the appearance of the word included in the document known to have the specific attribute, and the specific The evaluation is based on information related to the appearance of a word included in a document that is known not to have an attribute, and information related to the appearance of a word included in the document acquired by the case acquisition unit. The machine learning device according to claim 3.

本発明のこのような構成によれば、前記距離評価手段は、教師としての事例(前記特定の属性を備えることが既知である文書)とWeb上から取得した事例(文書)との距離を、前記特定の属性を備えることが既知である文書に含まれる単語の出現に係る情報と、前記特定の属性を備えないことが既知である文書に含まれる単語の出現に係る情報と、前記事例取得手段により取得した文書に含まれる単語の出現に係る情報とに基づいて評価するので、教師としての事例(前記特定の属性を備えることが既知である文書)のみならず、反教師としての事例(前記特定の属性を備えないことが既知である文書)も考慮して評価することができる。その結果、Web上から取得した文書の教師としての適格性をより安全に認定することができる。   According to such a configuration of the present invention, the distance evaluation unit calculates a distance between a case as a teacher (a document known to have the specific attribute) and a case (document) acquired from the Web. Information related to the appearance of a word contained in a document known to have the specific attribute, information related to the appearance of a word contained in a document not known to have the specific attribute, and the case acquisition Since evaluation is performed based on information related to the appearance of a word included in a document acquired by means, not only a case as a teacher (a document that is known to have the specific attribute) but also a case as an anti-teacher ( Documents that are known not to have the specific attribute can also be considered and evaluated. As a result, the eligibility of a document acquired from the Web as a teacher can be more safely recognized.

(8)事例に係るデータと該事例が備える属性とについて既知の情報を基準として、前記特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、判定精度を向上させる機械学習方法であって、
コンピュータが前記特定の属性を備えるか否かについて未知である事例を取得する事例取得ステップと、
コンピュータが前記取得した事例と、前記特定の属性を備えることが既知である事例との距離を評価する距離評価ステップと、
コンピュータが前記評価した距離が所定の条件を満たす事例について、前記特定の属性を備えるとみなして前記判定の基準に加える属性評価ステップと、
を備える機械学習方法。
(8) In a case where it is determined whether an unknown case has the specific attribute as to whether or not the specific attribute is provided with reference to known information about the data related to the case and the attribute of the case A machine learning method for improving determination accuracy,
A case acquisition step of acquiring a case unknown about whether or not the computer has the specific attribute;
A distance evaluation step for evaluating a distance between the acquired case and a case known to have the specific attribute;
An attribute evaluation step for adding to the determination criteria by regarding the case where the distance evaluated by the computer satisfies a predetermined condition as being provided with the specific attribute;
A machine learning method comprising:

この発明によれば、(1)に記載の発明が行う処理をコンピュータを用いて行うので、(1)に記載の発明と同様の効果を発揮することができる。   According to this invention, since the process performed by the invention described in (1) is performed using a computer, the same effect as that of the invention described in (1) can be exhibited.

この発明によれば、文書分類に係るサポートベクタマシンの判定精度を、従来技術のように、仮想的な事例を人工的に作り出すのではなく、Web上に多数存在する文書を利用して向上させることができるので、手間を掛けずに精度の高い文書分類システムを作ることができる。   According to the present invention, the accuracy of determination of a support vector machine related to document classification is improved by using a large number of documents on the Web, instead of artificially creating virtual cases as in the prior art. Therefore, a highly accurate document classification system can be created without taking time and effort.

以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
(第1の実施形態)
Hereinafter, the best mode for carrying out the present invention will be described with reference to the drawings. This is merely an example, and the technical scope of the present invention is not limited to this.
(First embodiment)

[全体図]
図1は、機械学習装置1の機能構成と、同装置1と関連する他の要素との関係を示す図である。同装置1は、事例取得手段2、距離評価手段3及び属性付与手段4から構成される。
[Overall view]
FIG. 1 is a diagram illustrating a relationship between the functional configuration of the machine learning device 1 and other elements related to the device 1. The apparatus 1 includes a case acquisition unit 2, a distance evaluation unit 3, and an attribute assignment unit 4.

事例取得手段2は、インターネット7を介して文書を取得する。この場合、取得する文書に制限を設けなくてもよいが、文書の作成時期が所定の年月日以降のものに限定してもよい。サポートベクタマシンによる判定精度を向上させるのに役立つ訓練事例としては、古い文書は適切でない可能性があるからである。   The case acquisition unit 2 acquires a document via the Internet 7. In this case, there is no need to limit the document to be acquired, but the document creation time may be limited to those after a predetermined date. This is because old documents may not be appropriate as training examples that help improve the accuracy of support vector machines.

距離評価手段3は、上記で受け取った文書に含まれる単語の出現状況を調べ、ラベル付き文書記憶装置5上に記録された特定のカテゴリーに属するか否かが既知の文書に含まれる単語の出現状況と比較することにより、両文書が近いかどうかを評価する。比較の対象としては、出現する単語の重複度や出現頻度がある。距離の評価は数値で定量的に表してもよく、また、「近い」または「遠い」というように定性的に表してもよい。   The distance evaluation means 3 checks the appearance status of the words included in the document received as described above, and the appearance of the words included in the known document whether or not it belongs to a specific category recorded on the labeled document storage device 5 Evaluate whether both documents are close by comparing with the situation. The comparison target includes the overlapping degree and appearance frequency of the appearing words. The evaluation of the distance may be expressed quantitatively by a numerical value, or may be expressed qualitatively such as “near” or “far”.

属性付与手段4は、上記で評価した距離が所定の条件を満たす場合は、取得した文書がそのカテゴリーに属するものとみなして、ラベル付き文書記憶装置5に記録する。こうすることにより、文書分類装置6は、特定のカテゴリーに属するか否かが既知の文書に当該文書も加えて、基準すなわち訓練事例として、判定精度を向上させることができる。   When the distance evaluated above satisfies a predetermined condition, the attribute assigning unit 4 regards the acquired document as belonging to the category and records it in the labeled document storage device 5. By doing so, the document classification device 6 can improve the determination accuracy as a reference, that is, a training example, by adding the document to a document that is known to belong to a specific category.

ラベル付き文書記憶装置5は機械学習装置1からアクセス可能で、特定のカテゴリーに属するか否かが既知の文書、すなわち既存の訓練事例が記録されている。ラベル付き文書記憶装置5は、機械学習装置1の中にあってもよいが、本実施形態においては同装置1の外にある。   The labeled document storage device 5 is accessible from the machine learning device 1 and records a document that is already known whether or not it belongs to a specific category, that is, an existing training example. The labeled document storage device 5 may be in the machine learning device 1, but is outside the device 1 in the present embodiment.

文書分類装置6は、ラベル付き文書記憶装置5に接続されており、同装置5に記録された特定のカテゴリーに属するか否かが既知の文書を基準すなわち訓練事例として、属性が未知の文書の分類を行う。   The document classification device 6 is connected to the labeled document storage device 5. The document classification device 6 uses a document that is known whether it belongs to a specific category recorded in the device 5 as a reference, that is, a training example. Perform classification.

インターネット7は、機械学習装置1からアクセス可能であり、同装置1はインターネット7を介してWebページ8にアクセスする。   The internet 7 is accessible from the machine learning device 1, and the device 1 accesses the web page 8 via the internet 7.

[機械学習装置1のハードウェア構成]
図2は、本実施形態に係る機械学習装置1のハードウェア構成を示す図である。機械学習装置1は、制御装置20を構成するCPU(Central Processing Unit)21(マルチプロセッサ構成ではCPU22等複数のCPUが追加されてもよい)、バスライン10、通信I/F(I/F:インターフェイス)23、メインメモリ24、BIOS(Basic Input Output System)25、表示装置26、I/Oコントローラ27、並びにキーボード及びマウス等の入力装置28を備える。
[Hardware configuration of machine learning device 1]
FIG. 2 is a diagram illustrating a hardware configuration of the machine learning device 1 according to the present embodiment. The machine learning device 1 includes a central processing unit (CPU) 21 (a plurality of CPUs such as a CPU 22 may be added in a multiprocessor configuration), a bus line 10, and a communication I / F (I / F: An interface) 23, a main memory 24, a BIOS (Basic Input Output System) 25, a display device 26, an I / O controller 27, and an input device 28 such as a keyboard and a mouse.

制御装置20は、機械学習装置1を統括的に制御するための装置であり、ハードディスク29(後述)に記憶された各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現している。   The control device 20 is a device for comprehensively controlling the machine learning device 1, and cooperates with the above-described hardware by appropriately reading and executing various programs stored in the hard disk 29 (described later), Various functions according to the present invention are realized.

通信I/F23は、機械学習装置1が、インターネット7を介してWebページ8の文書を取得する際に使用するネットワーク・アダプタである。通信I/F23は、モデム、ケーブル・モデム及びイーサネット(登録商標)・アダプタを含んでよい。BIOS25は、機械学習装置1の起動時にCPU21が実行するブートプログラムや、機械学習装置1のハードウェアに依存するプログラム等を記録する。   The communication I / F 23 is a network adapter that is used when the machine learning device 1 acquires a document of the Web page 8 via the Internet 7. The communication I / F 23 may include a modem, a cable modem, and an Ethernet (registered trademark) adapter. The BIOS 25 records a boot program executed by the CPU 21 when the machine learning device 1 is started up, a program depending on the hardware of the machine learning device 1, and the like.

表示装置26は、機械学習装置1による演算処理結果等の画面を表示するものであり、ブラウン管表示装置(CRT)、液晶表示装置(LCD)等のディスプレイ装置を含む。I/Oコントローラ27には、ハードディスク29、及び半導体メモリ30等の記憶装置31を接続することができる。入力装置28は、機械学習装置1の管理者による入力の受け付けを行うものである。ハードディスク29は、本ハードウェアを機械学習装置1として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するテーブルを記憶する。   The display device 26 displays a screen such as a calculation processing result by the machine learning device 1 and includes a display device such as a cathode ray tube display device (CRT) or a liquid crystal display device (LCD). A storage device 31 such as a hard disk 29 and a semiconductor memory 30 can be connected to the I / O controller 27. The input device 28 accepts input by the administrator of the machine learning device 1. The hard disk 29 stores various programs for causing the hardware to function as the machine learning device 1, a program for executing the functions of the present invention, and a table to be described later.

以上の例は、機械学習装置1のハードウェア構成について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータを機械学習装置1として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明した機械学習装置1により実現される機能は、上述の方法を当該コンピュータにより実行することによって、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。   In the above example, the hardware configuration of the machine learning device 1 has been mainly described. However, the functions described above are realized by installing a program in a computer and operating the computer as the machine learning device 1. You can also. Therefore, the functions realized by the machine learning device 1 described as an embodiment in the present invention are performed by executing the above-described method by the computer, or by introducing the above-described program into the computer and executing it. Is also feasible.

なお、本発明でいうコンピュータとは、記憶装置、制御装置等を備えた情報処理装置をいい、機械学習装置1は、記憶装置31、制御装置20等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。ここで、図1に示した、事例取得手段2、距離評価手段3及び属性付与手段4には主として制御装置20が対応する。   The computer referred to in the present invention refers to an information processing device including a storage device, a control device, and the like, and the machine learning device 1 includes an information processing device including a storage device 31, a control device 20, and the like. The information processing apparatus is included in the concept of the computer of the present invention. Here, the control device 20 mainly corresponds to the case acquisition means 2, the distance evaluation means 3, and the attribute assignment means 4 shown in FIG.

[文書のベクタ化]
図3は、文書における単語の出現状況を把握するために使用する単語辞書である。単語番号と単語から構成されている。本実施形態においては、単語としては名詞に限ることとする。
[Document vectorization]
FIG. 3 is a word dictionary used for grasping the appearance status of words in a document. It consists of a word number and a word. In the present embodiment, the word is limited to a noun.

図4は、「車」に関する文書における単語の出現頻度表である。文書が与えられたとき、その文書に含まれる単語を、単語辞書(図3)を用いて出現頻度ごとに集計することができる。「車」に関する文書であるか否かが判っている文書が複数ある場合において、これらの文書に含まれる単語の出現頻度を集計したものである。併せて、出現比率も求めている。出現比率は、例えば、全単語数における各単語の出現した回数でもよいし、また全字数における各単語の出現した回数でもよい。それぞれの単語の相対的な出現のしやすさを示すものであれば他の計算方法によるものであってもよい。   FIG. 4 is an appearance frequency table of words in a document related to “car”. When a document is given, words included in the document can be aggregated for each appearance frequency using a word dictionary (FIG. 3). In the case where there are a plurality of documents that are known to be related to “car”, the frequency of appearance of words included in these documents is totaled. In addition, the ratio of appearance is also calculated. The appearance ratio may be, for example, the number of times each word appears in the total number of words, or the number of times each word appears in the total number of characters. Any other calculation method may be used as long as it indicates the relative ease of appearance of each word.

このようにして、「車」に関する文書における単語の出現頻度が判れば、この中で、出現比率が所定の比率を超えている単語を選ぶ。例えば、出現比率が7%を超えている単語を選ぶとすると、「エンジン」、「ハンドル」、「メーター」の3つが選ばれる。それぞれの出現比率は13%、11%、9%である。そして、このようにして選んだ3つの単語を座標軸として各文書におけるこれらの3つの単語の出現比率を求める。そうすると、各文書は、3次元の空間の点(すなわち、3次元のベクタ)として表すことができる。   In this way, if the appearance frequency of the word in the document relating to “car” is known, a word having an appearance ratio exceeding a predetermined ratio is selected. For example, if a word having an appearance ratio exceeding 7% is selected, “engine”, “handle”, and “meter” are selected. The respective appearance ratios are 13%, 11%, and 9%. Then, the appearance ratio of these three words in each document is obtained using the three words thus selected as coordinate axes. Then, each document can be represented as a three-dimensional space point (ie, a three-dimensional vector).

「車」に関する文書であっても、すべて同じ比率なるわけではなく、例えば、ある文書は、「エンジン」11%、「ハンドル」10%、「メーター」11%というようになる。また、別の文書は、例えば、「エンジン」14%、「ハンドル」11%、「メーター」8%というようになる。しかし、平均的には、「エンジン」13%、「ハンドル」11%、「メーター」9%で表される点の周辺に分布することが予想される。 Even documents about "cars", all does not mean the same ratio, for example, a document is "engine" 11% "handle" 10%, so called "meter" 11%. Another document is, for example, “Engine” 14%, “Handle” 11%, “Meter” 8%. However, on average, it is expected to be distributed around points represented by “engine” 13%, “handle” 11%, and “meter” 9%.

一方、「車」に関する文書であることが判っている文書に対しては「+1」、「車」に関する文書でないことが判っている文書に対しては「−1」としてラベルを付けると、「車」に関する文書であるか否かが判っている各文書は、ベクタとラベルの組として把握することができる。そうすると、サポートベクタマシンの理論に基づき、これらを訓練事例として、ラベルの異なる文書(事例)を分離する最適超平面を求めることができる。そして、それに伴い、その最適超平面の決定に関与する文書(事例)を、サポートベクタとして把握することができる。最適超平面の決定方法及びサポートベクタの決定方法については公知であるので省略する(非特許文献1参照)。尚、上述例では、単語の出現頻度により文書をベクタ化したが、所定の単語がその文書中に出現するか否かにより文書をベクタ化することとしても勿論よい。   On the other hand, if a document that is known to be related to “car” is labeled as “+1”, and a document that is known not to be related to “car” is labeled as “−1”, Each document for which it is known whether or not it is a document relating to a “car” can be grasped as a set of a vector and a label. Then, based on the theory of support vector machines, it is possible to obtain an optimal hyperplane that separates documents (cases) with different labels using these as training examples. Along with this, it is possible to grasp a document (example) involved in determining the optimum hyperplane as a support vector. The method for determining the optimum hyperplane and the method for determining the support vector are well known and will be omitted (see Non-Patent Document 1). In the above example, the document is vectorized based on the appearance frequency of the word. However, it is of course possible to vectorize the document depending on whether or not a predetermined word appears in the document.

[Web上から取得した文書とサポートベクタからの距離]
Web上から取得した文書(以下、取得文書という)についても同様にベクタとして把握することができる。この場合、「車」に関する文書であるかどうかに問題の対象を絞っているので、「エンジン」、「ハンドル」、「メーター」の出現比率を座標軸とする3次元空間のベクタとして把握される。
[Distance between document obtained from Web and support vector]
Similarly, a document acquired from the Web (hereinafter referred to as an acquired document) can be grasped as a vector. In this case, since the object of the problem is narrowed down to whether it is a document related to “car”, it is grasped as a vector in a three-dimensional space having the appearance ratio of “engine”, “handle”, and “meter” as coordinate axes.

3次元空間における2つのベクタ間の距離は、各要素の差の2乗の合計の平方根(ユークリッド距離)として定義することができる。但し、これに限られるものではなく、例えば、各要素の差の絶対値の合計のように定義をしてもよい。距離をどのように定義するかは、対象とする問題に応じて適宜決めればよい。   The distance between two vectors in the three-dimensional space can be defined as the square root (Euclidean distance) of the sum of the squares of the differences between the elements. However, the present invention is not limited to this, and may be defined as, for example, the sum of absolute values of differences between elements. How to define the distance may be determined as appropriate according to the target problem.

図5は、ラベル付き文書(訓練事例)と最適超平面を示す図である。白丸はラベルが「+1」の文書、黒丸はラベルが「−1」の文書を表す。そして、これらのラベルの異なる文書を分離する超平面は直線40、サポートベクタとなる文書を表すのは白丸41と、黒丸42である。   FIG. 5 is a diagram showing a labeled document (training example) and an optimal hyperplane. A white circle represents a document with a label “+1”, and a black circle represents a document with a label “−1”. A hyperplane that separates documents with different labels is a straight line 40, and a white circle 41 and a black circle 42 represent documents that are support vectors.

図6は、Web上から取得した文書を書き入れた図である。ここで、取得文書は四角43で示している。この取得文書とサポートベクタとの距離dを測り、これが所定の条件を満たす場合は、この取得文書とサポートベクタの距離が十分近いと判断して、この文書にサポートベクタと同じラベルを付与する。この場合、ラベルが「+1」のサポートベクタとの距離が近いので当該文書のラベル「+1」とする。   FIG. 6 is a diagram in which a document acquired from the Web is entered. Here, the acquired document is indicated by a square 43. The distance d between the acquired document and the support vector is measured, and if this satisfies a predetermined condition, it is determined that the distance between the acquired document and the support vector is sufficiently close, and the same label as the support vector is assigned to the document. In this case, since the distance from the support vector with the label “+1” is short, the label “+1” of the document is set.

[訓練事例への反映]
サポートベクタマシンは、ベクタによって表される事例と、その事例が特定のカテゴリーに属するか否かを表示する指標であるラベルとの組み合わせを1つの訓練事例として、複数個の訓練事例に基づいて学習を行う。
[Reflection to training examples]
A support vector machine learns a combination of a case represented by a vector and a label that is an index indicating whether or not the case belongs to a specific category, based on a plurality of training cases. I do.

したがって、ラベルが付与された文書は訓練事例となりえる。そこで、上記のサポートベクタとの距離が近いと評価され、そのサポートベクタと同じラベルを付与された取得文書は、訓練事例として利用することができる。その結果、この取得文書を訓練事例として組み入れた文書集合を新たな訓練事例として導き出した最適超平面は、それまでの最適超平面とは異なるものになりえる。   Therefore, a document with a label can be a training example. Therefore, an acquired document that is evaluated as being close to the support vector and assigned the same label as the support vector can be used as a training example. As a result, the optimal hyperplane from which the document set incorporating this acquired document as a training example is derived as a new training example can be different from the previous optimal hyperplane.

図7は、最適超平面の変化を示す図である。従来の最適超平面を破線40、新しい最適超平面を実線50として示している。新しい最適超平面の下では、サポートベクタも変わる可能性があるが、新たなサポートベクタを基準として、新たにWeb上から取得した文書について同様の操作を繰り返せば、訓練事例の数が増えていくので、次第に「車」に関する文書の属性判断の精度が向上していくと期待できる。   FIG. 7 is a diagram showing changes in the optimum hyperplane. The conventional optimum hyperplane is shown as a broken line 40, and the new optimum hyperplane is shown as a solid line 50. Under the new optimal hyperplane, the support vector may change, but if the same operation is repeated on a new document obtained from the Web based on the new support vector, the number of training cases will increase. Therefore, it can be expected that the accuracy of attribute determination of documents related to “cars” will gradually improve.

[処理フロー]
図8に基づいて、上記の機械学習のプロセスの流れについて説明する。まず、カテゴリーが「車」であるか否かのラベルのついた複数の文書が与えられており、それらの文書に基づいてサポートベクタマシンの通常の手順で文書分類のための学習を行う(S10)。このとき、これらの文書に基づいて、文書をベクタとして把握するための単語と、サポートベクタとなる文書が決定される。
[Processing flow]
The flow of the machine learning process will be described with reference to FIG. First, a plurality of documents labeled with whether or not the category is “car” is given, and learning for document classification is performed based on these documents in the normal procedure of the support vector machine (S10). ). At this time, based on these documents, a word for grasping the document as a vector and a document serving as a support vector are determined.

次に、Web上から文書を取得する(S20)。すなわち、機械学習装置1は事例取得手段として機能する。   Next, a document is acquired from the Web (S20). That is, the machine learning device 1 functions as a case acquisition unit.

次に、取得した文書と、サポートベクタとなる文書との距離を評価する(S30)。すなわち、機械学習装置1は距離評価手段として機能する。   Next, the distance between the acquired document and the document serving as a support vector is evaluated (S30). That is, the machine learning device 1 functions as a distance evaluation unit.

次に、その距離が所定の条件を満たすかどうか判断し、満たすと判断したとき(S40:Yes)は、取得した文書にサポートベクタと同じラベルを付ける(S50)。そして、取得した文書をラベルの付いた文書の集合に加えて、それらの文書に基づいて、改めてサポートベクタマシンの通常の手順で文書分類のための学習を行う(S60)。すなわち、機械学習装置1は属性付与手段として機能する。   Next, it is determined whether the distance satisfies a predetermined condition, and when it is determined that the distance is satisfied (S40: Yes), the same label as the support vector is attached to the acquired document (S50). Then, the acquired document is added to a set of labeled documents, and learning for document classification is performed again by the normal procedure of the support vector machine based on these documents (S60). That is, the machine learning device 1 functions as an attribute assigning unit.

上記の距離が所定の条件を満たさない場合(S40:No)は、その取得文書については何も行わずに終了する。   If the above distance does not satisfy the predetermined condition (S40: No), the acquired document is terminated without performing anything.

このように本実施形態によれば、文書をベクタ化し、その文書のカテゴリーへの属否をラベル化することで、サポートベクタマシンの処理の対象となる。そして、ベクタが実数値の上を連続的に動き得るのに対し、ラベルが離散的にしか変化しないという特徴を利用し、サポートベクタの近いところに、仮想的な事例を人工的に作り出し、それを訓練事例に追加することにより精度が向上するという既知の知見を、Web上から取得した文書に適用することが可能となる。   As described above, according to the present embodiment, a document is vectorized, and whether or not the document belongs to a category is labeled, so that it becomes a target of processing of the support vector machine. Then, using the feature that the label can only move discretely while the vector can move continuously on the real value, a virtual case is artificially created near the support vector. It becomes possible to apply the known knowledge that accuracy is improved by adding to a training example to a document acquired from the Web.

これにより、手間を掛けずに、Web上に存在する豊富な文書を文書分類に係るサポートベクタマシンの精度向上に役立てることができる。   This makes it possible to improve the accuracy of a support vector machine related to document classification using abundant documents existing on the Web without taking time and effort.

(第2の実施形態)
第1の実施形態では、文書をベクタ化するにあたり、「車」に関する文書であることが既知である複数の文書(すなわち、ラベルが「+1」の文書)における単語の出現頻度に基づいて、出現比率の高い単語を選んで、座標軸とした。しかし、本実施形態では、「車」に関する文書でないことが既知である複数の文書(すなわち、ラベルが「−1」の文書)における単語の出現頻度も考慮して、座標軸を選ぶ。
(Second Embodiment)
In the first embodiment, when vectorizing a document, an appearance is generated based on the appearance frequency of words in a plurality of documents that are known to be documents related to “car” (that is, a document with a label “+1”). A word with a high ratio was selected and used as a coordinate axis. However, in the present embodiment, the coordinate axis is selected in consideration of the appearance frequency of words in a plurality of documents that are known not to be related to “car” (that is, a document whose label is “−1”).

なお、以下の説明及び図面において、前述した第1の実施形態と同様の機能を果たす部分には、同一の符号を付して、重複する説明は適宜省略する。   Note that, in the following description and drawings, the same reference numerals are given to portions that perform the same functions as those of the first embodiment described above, and redundant descriptions are omitted as appropriate.

図9は、ラベルが「−1」の文書における単語頻度表である。   FIG. 9 is a word frequency table in a document whose label is “−1”.

図10は、図4と図9とにおける出現比率を比較したものである。この表から判ることは、ラベルが「+1」の文書には「エンジン」、「ハンドル」、「メーター」がよく出現するが、「マウス」、「回線」は殆ど出現しないということである。したがって、文書のベクタ化の座標軸を「エンジン」、「ハンドル」、「メーター」、「マウス」、「回線」の5つとすることで、出現すべき単語のみならず、出現すべきでない単語についての出現状況も考慮した判定が可能となる。   FIG. 10 compares the appearance ratios in FIG. 4 and FIG. It can be seen from this table that “engine”, “handle”, and “meter” often appear in documents whose label is “+1”, but “mouse” and “line” rarely appear. Therefore, by setting the coordinate axes of vectorization of the document to “engine”, “handle”, “meter”, “mouse”, and “line”, not only words that should appear but also words that should not appear. Judgment in consideration of the appearance situation is possible.

この場合、各文書は、5次元空間におけるベクタとして表現されることになる。こうすると、Web上から取得した文書に、ラベルが「+1」の文書には本来出現しない筈の「マウス」や「回線」の単語が出現すると、5次元空間における、ラベルが「+1」のサポートベクタとの距離が遠くなり、その結果、訓練事例に含められる可能性が減少する。つまり、第1の実施形態に示した方法より精度の高い判断が期待できる。   In this case, each document is expressed as a vector in a five-dimensional space. In this way, when a word “mouse” or “line” that does not appear in the document with the label “+1” appears in the document acquired from the Web, the label “+1” is supported in the five-dimensional space. The distance from the vector is increased, and as a result, the possibility of being included in a training case is reduced. That is, it is possible to expect a judgment with higher accuracy than the method shown in the first embodiment.

このように本実施形態によれば、文書のベクタ化において、ポジティブなラベルの文書のみならず、ネガティブなラベルの文書も参考にしてベクタとすべき要素を決めるので、文書についてより的確な判断が可能となるようなベクタ化が可能となる。   As described above, according to the present embodiment, in vectorization of a document, not only a document with a positive label but also a document with a negative label is used as a reference to determine an element to be a vector. Vectorization becomes possible.

その結果、真に訓練事例として相応しい文書をWeb上から取得することができる。   As a result, a document that is truly suitable as a training example can be acquired from the Web.

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。例えば、Web上から取得した文書と、ラベルが既知の文書との距離の定め方については次のような方法を採ることもできる。   As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. For example, the following method can be used to determine the distance between a document acquired from the Web and a document with a known label.

図11は、Web上から新たに取得した文書と、ラベルが「+1」の文書との距離を示す図である。ラベルが「+1」の文書を図1(a)の白丸で示す。各文書はベクタ化されており、このベクタの集合の外延を直線で示している。したがって、この直線に囲まれる多角形はこれらのベクタを含む最小の多角形である。 FIG. 11 is a diagram illustrating the distance between a document newly acquired from the Web and a document whose label is “+1”. Label indicates the document "+1" by a white circle in FIG. 1 1 (a). Each document is vectorized, and the extension of the set of vectors is indicated by a straight line. Therefore, the polygon surrounded by this straight line is the smallest polygon including these vectors.

ここで、取得文書を黒丸で示すと、この黒丸と白丸の集合との距離は、図1(b)のように、白丸の集合の外延の頂点を構成する白丸(以下、ノードと呼ぶ)との距離として定義することができる。 Here, indicating acquired document by a black circle, the distance between the set of the black circles and white circles, as shown in FIG. 1 1 (b), a white circle constituting the vertices of extension of the set of open circles (hereinafter referred to as nodes) And can be defined as the distance.

なお、ノードとの距離に限らず、図1(c)のように、Web上から新たに取得した文書を示す黒丸と外延を構成する辺との最近接点(黒丸から外延を構成する辺に垂直に垂らした線と当該辺が交わる点)との距離が黒丸といずれのノードとの距離より小さい場合は、これをこの黒丸と白丸の集合との距離としてもよい。閉領域の境界からの距離が近い文書については、同じく、ラベルが「+1」とみなしても妥当と考えられるからである。 The present invention is not limited to the distance between nodes, as shown in FIG. 1 1 (c), the sides of the extension from the closest point (black circle in the sides of the black circles and extension indicating the newly obtained documents from the Web If the distance between the vertically suspended line and the point where the side intersects is smaller than the distance between the black circle and any node, this may be the distance between the black circle and the set of white circles. This is because it is considered that a document having a short distance from the boundary of the closed region is considered appropriate even if the label is regarded as “+1”.

このようにして、ノードまたは辺との距離でWeb上から取得した文書とラベルが「+1」の文書との距離を適宜算出し、この距離が所定の条件を満たすかどうかを判断するようにする。   In this way, the distance between the document acquired from the Web and the document with the label “+1” is calculated as appropriate based on the distance to the node or side, and it is determined whether this distance satisfies a predetermined condition. .

このような方法によれば、Web上から取得した文書と、ラベルが既知の文書との距離を、妥当な範囲内で柔軟に考えることができるので、本来訓練事例に追加すべき文書を漏らすことなく取得することができる。   According to such a method, since the distance between a document acquired from the Web and a document with a known label can be flexibly considered within a reasonable range, a document to be originally added to the training case is leaked. Can get without.

このように、Web上から取得した文書にラベルを付けることが妥当かどうかを判断するために、ラベルが既知の文書との距離を評価する方法はいろいろ考えられる。いずれの方法がいいかは、対象とする文書の種類や判定の対象となる問題によって異なる可能性がある。また、距離の計算方法自体も種々考えられるし、またその距離を評価する基準も種々考えられる。いずれも、今後、実際の実例を通じて最適化していくべきものであるが、それらはいずれも本発明の技術的範囲に含まれる。   As described above, in order to determine whether it is appropriate to attach a label to a document acquired from the Web, various methods for evaluating the distance from a document with a known label can be considered. Which method should be used may vary depending on the type of target document and the problem to be determined. Various methods for calculating the distance are conceivable, and various criteria for evaluating the distance are conceivable. All of these should be optimized through actual examples in the future, and these are all included in the technical scope of the present invention.

なお、サポートベクタマシンで判定の対象とするカテゴリーに関連するWebサイトから文書を収集するようにしてもよい。例えば、「車」に関する意見を投稿するブログのようなところから収集した文書は、ほぼ間違いなく「車」に関する文書であると考えられるので、「車」に関する文書の種々の形態の文書を訓練事例として収集することが可能となるからである。   Note that documents may be collected from a website related to a category to be determined by the support vector machine. For example, documents collected from places such as blogs that post opinions about "cars" are almost certainly considered to be documents about "cars", so various forms of documents related to "cars" are used as training examples. It is because it becomes possible to collect as.

なお、本発明の各実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。   It should be noted that the effects described in the embodiments of the present invention only list the most preferable effects resulting from the present invention, and the effects of the present invention are limited to those described in the embodiments of the present invention. It is not a thing.

本発明の第1の実施形態に係る機械学習装置1の機能構成と関連する他の要素との関係を示す図である。It is a figure which shows the relationship with the other element relevant to the function structure of the machine learning apparatus 1 which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る機械学習装置1のハードウェア構成を示す図である。It is a figure which shows the hardware constitutions of the machine learning apparatus 1 which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る単語辞書を示す図である。It is a figure which shows the word dictionary which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る単語頻度表を示す図である。It is a figure which shows the word frequency table which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係るラベル付き文書(訓練事例)と最適超平面を示す図である。It is a figure which shows the labeled document (training example) and optimal hyperplane which concern on the 1st Embodiment of this invention. 図5にWeb上から取得した文書を書き入れた図である。FIG. 5 is a diagram in which a document acquired from the Web is entered. 本発明の第1の実施形態に係る最適超平面の変化を示す図である。It is a figure which shows the change of the optimal hyperplane which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係る機械学習のプロセスの流れを示す図である。It is a figure which shows the flow of the process of the machine learning which concerns on the 1st Embodiment of this invention. 本発明の第2の実施形態に係る単語頻度表を示す図である。It is a figure which shows the word frequency table which concerns on the 2nd Embodiment of this invention. 図4と図9とにおける出現比率を比較したものである。FIG. 10 is a comparison of appearance ratios in FIG. 4 and FIG. 9. Web上から新たに取得した文書と、ラベルが「+1」の文書との距離の一例を示す図である。It is a figure which shows an example of the distance of the document newly acquired on Web and the document whose label is "+1".

符号の説明Explanation of symbols

1 機械学習装置
2 事例取得手段
3 距離評価手段
4 属性付与手段
5 ラベル付き文書記憶装置
6 文書分類装置
7 インターネット
8 Webページ
10 バスライン
20 制御装置
21、22 CPU(Central Processing Unit)
23 通信I/F(I/F:インターフェイス)
24 メインメモリ
25 BIOS(Basic Input Output System)
26 表示装置
27 I/Oコントローラ
28 入力装置
29 ハードディスク
30 半導体メモリ
31 記憶装置
DESCRIPTION OF SYMBOLS 1 Machine learning apparatus 2 Case acquisition means 3 Distance evaluation means 4 Attribute assignment means 5 Labeled document storage device
6 Document classification device 7 Internet 8 Web page 10 Bus line 20 Control device 21, 22 CPU (Central Processing Unit)
23 Communication I / F (I / F: Interface)
24 main memory 25 BIOS (Basic Input Output System)
26 Display Device 27 I / O Controller 28 Input Device 29 Hard Disk 30 Semiconductor Memory 31 Storage Device

Claims (8)

事例に係るデータと該事例が備える属性とについての既知の情報を基準として、特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、判定精度を向上させる機械学習装置であって、
前記特定の属性を備えるか否かについて未知である事例を取得する事例取得手段と、
前記事例取得手段により取得した事例と、前記特定の属性を備えることが既知である事例との距離を評価する距離評価手段と、
前記距離評価手段により評価した距離が所定の条件を満たす事例について、前記特定の属性を備えるとみなして前記判定の基準に加える属性付与手段と、
を備え
前記距離評価手段は、前記事例取得手段により取得した事例と、前記特定の属性を備えることが既知である事例の外延を構成する辺との最近接点との距離である第1の距離が、前記特定の属性を備えることが既知であるいずれかの事例との距離である第2の距離より小さい場合は、該第1の距離を該距離評価手段により評価された距離とすること
を特徴とする機械学習装置。
When determining whether or not an unknown case has the specific attribute, whether or not the specific case has the specific attribute on the basis of the known information about the data related to the case and the attribute of the case A machine learning device for improving
Case acquisition means for acquiring a case that is unknown as to whether or not the specific attribute is provided;
Distance evaluation means for evaluating the distance between the case acquired by the case acquisition means and the case known to have the specific attribute;
For the case where the distance evaluated by the distance evaluation means satisfies a predetermined condition, the attribute giving means to consider that the specific attribute is provided and to add to the determination criterion;
Equipped with a,
The distance evaluation means has a first distance, which is a distance between the case acquired by the case acquisition means and a closest point of an edge constituting an extension of the case known to have the specific attribute, When the distance is smaller than a second distance that is a distance to any case that is known to have a specific attribute, the first distance is set as a distance evaluated by the distance evaluation means.
Machine learning device characterized by
前記事例は前記データの組として特徴付けられ、前記事例が特定の属性を備えるか否かについての情報は前記事例が特定のカテゴリーに属するか否かを示すラベルであることを特徴とする請求項1に記載の機械学習装置。   The case is characterized by the data set, and the information about whether the case has a specific attribute is a label indicating whether the case belongs to a specific category. The machine learning device according to 1. 前記事例は文書であり、
前記事例取得手段は、Web上から前記文書を取得することを特徴とする請求項1または請求項2に記載の機械学習装置。
The case is a document,
The machine learning apparatus according to claim 1, wherein the case acquisition unit acquires the document from the Web.
前記事例取得手段が取得する文書は、所定の時期以後に作成された文書であることを特徴とする請求項3に記載の機械学習装置。   The machine learning apparatus according to claim 3, wherein the document acquired by the case acquisition unit is a document created after a predetermined time. 前記事例取得手段は、前記特定の属性に関連するWebページから前記文書を取得することを特徴とする請求項3または請求項4に記載の機械学習装置。   The machine learning apparatus according to claim 3, wherein the case acquisition unit acquires the document from a Web page related to the specific attribute. 前記データは文書に含まれる単語であり、
前記距離評価手段は、前記距離を、前記特定の属性を備えることが既知である文書に含まれる単語の出現に係る情報と、前記事例取得手段により取得した文書に含まれる単語の出現に係る情報とに基づいて評価することを特徴とする請求項3から請求項5のいずれかに記載の機械学習装置。
The data is a word contained in the document;
The distance evaluation means is information related to the appearance of a word included in a document known to have the specific attribute, and information related to the appearance of a word included in the document acquired by the case acquisition means. The machine learning apparatus according to claim 3, wherein the machine learning apparatus evaluates based on:
前記データは文書に含まれる単語であり、
前記距離評価手段は、前記距離を、前記特定の属性を備えることが既知である文書に含まれる単語の出現に係る情報と、前記特定の属性を備えないことが既知である文書に含まれる単語の出現に係る情報と、前記事例取得手段により取得した文書に含まれる単語の出現に係る情報とに基づいて評価することを特徴とする請求項3から請求項5のいずれかに記載の機械学習装置。
The data is a word contained in the document;
The distance evaluation means includes the distance, information relating to the appearance of a word contained in a document known to have the specific attribute, and a word contained in a document known not to have the specific attribute. The machine learning according to any one of claims 3 to 5, wherein the evaluation is performed on the basis of information relating to the appearance of a word and information relating to the appearance of a word included in the document acquired by the case acquisition means. apparatus.
事例に係るデータと該事例が備える属性とについて既知の情報を基準として、特定の属性を備えるか否かについて未知の事例が前記特定の属性を備えるか否かを判定する場合において、判定精度を向上させる機械学習方法であって、
コンピュータが前記特定の属性を備えるか否かについて未知である事例を取得する事例取得ステップと、
コンピュータが前記取得した事例と、前記特定の属性を備えることが既知である事例との距離を評価する距離評価ステップと、
コンピュータが前記評価した距離が所定の条件を満たす事例について、前記特定の属性を備えるとみなして前記判定の基準に加える属性評価ステップと、
を備え
前記距離評価ステップは、前記事例取得ステップにより取得した事例と、前記特定の属性を備えることが既知である事例の外延を構成する辺との最近接点との距離である第1の距離が、前記特定の属性を備えることが既知であるいずれかの事例との距離である第2の距離より小さい場合は、該第1の距離を該距離評価ステップにより評価された距離とすること
を特徴とする機械学習方法。
In the case where it is determined whether or not an unknown case has the specific attribute with respect to whether or not the specific attribute is provided with reference to known information about the data related to the case and the attribute included in the case, the determination accuracy is A machine learning method to improve,
A case acquisition step of acquiring a case unknown about whether or not the computer has the specific attribute;
A distance evaluation step for evaluating a distance between the acquired case and a case known to have the specific attribute;
An attribute evaluation step for adding to the determination criteria by regarding the case where the distance evaluated by the computer satisfies a predetermined condition as being provided with the specific attribute;
Equipped with a,
In the distance evaluation step, a first distance that is a distance between a case acquired by the case acquisition step and a closest point of a side constituting an extension of the case that is known to have the specific attribute is If the distance is smaller than a second distance that is a distance to any case that is known to have a specific attribute, the first distance is the distance evaluated by the distance evaluation step.
A machine learning method characterized by
JP2007304958A 2007-11-26 2007-11-26 Machine learning apparatus and machine learning method Active JP4994199B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007304958A JP4994199B2 (en) 2007-11-26 2007-11-26 Machine learning apparatus and machine learning method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007304958A JP4994199B2 (en) 2007-11-26 2007-11-26 Machine learning apparatus and machine learning method

Publications (2)

Publication Number Publication Date
JP2009129279A JP2009129279A (en) 2009-06-11
JP4994199B2 true JP4994199B2 (en) 2012-08-08

Family

ID=40820114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007304958A Active JP4994199B2 (en) 2007-11-26 2007-11-26 Machine learning apparatus and machine learning method

Country Status (1)

Country Link
JP (1) JP4994199B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5346841B2 (en) * 2010-02-22 2013-11-20 株式会社野村総合研究所 Document classification system, document classification program, and document classification method
JP5527845B2 (en) * 2010-08-20 2014-06-25 Kddi株式会社 Document classification program, server and method based on textual and external features of document information
JP6144314B2 (en) * 2015-10-30 2017-06-07 株式会社Ubic Data classification system, method, program and recording medium thereof
JP7017533B2 (en) * 2019-02-22 2022-02-08 Kddi株式会社 Classification device, learning device, classification method and program

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10111869A (en) * 1996-10-07 1998-04-28 Fujitsu Ltd Device and method for information classification
JP4340367B2 (en) * 1999-01-27 2009-10-07 株式会社リコー Image classification apparatus and computer-readable recording medium storing a program for causing a computer to function as the apparatus
JP3701197B2 (en) * 2000-12-28 2005-09-28 松下電器産業株式会社 Method and apparatus for creating criteria for calculating degree of attribution to classification
JP2003150605A (en) * 2001-11-08 2003-05-23 Fuji Electric Co Ltd Information gathering device and information gathering program
JP4034602B2 (en) * 2002-06-17 2008-01-16 富士通株式会社 Data classification device, active learning method of data classification device, and active learning program
JP4314853B2 (en) * 2003-03-20 2009-08-19 富士通株式会社 Document classification apparatus and document classification program

Also Published As

Publication number Publication date
JP2009129279A (en) 2009-06-11

Similar Documents

Publication Publication Date Title
CN108804641B (en) Text similarity calculation method, device, equipment and storage medium
TWI723528B (en) Computer-executed event risk assessment method and device, computer-readable storage medium and computing equipment
CN112270545A (en) Financial risk prediction method and device based on migration sample screening and electronic equipment
US8938437B2 (en) Method and system for comparing and locating projects
US20200356706A1 (en) Goal-driven computer aided design workflow
JP2018092615A (en) Determination device and determination method for convolutional neural network model
JP4994199B2 (en) Machine learning apparatus and machine learning method
KR102054500B1 (en) Method for providing design drawing
JP2011154439A (en) Optimization processing program, method, and apparatus
US11593700B1 (en) Network-accessible service for exploration of machine learning models and results
Chen et al. Using latent Dirichlet allocation to improve text classification performance of support vector machine
US10705810B2 (en) Automatic code generation
JP5790820B2 (en) Inconsistency detection apparatus, program and method, correction support apparatus, program and method
Barbosa et al. Using performance profiles for the analysis and design of benchmark experiments
JP5516925B2 (en) Reliability calculation device, reliability calculation method, and program
US20220300836A1 (en) Machine Learning Techniques for Generating Visualization Recommendations
WO2019103773A1 (en) Automatically identifying alternative functional capabilities of designed artifacts
WO2020167156A1 (en) Method for debugging a trained recurrent neural network
JP6648828B2 (en) Information processing system, information processing method, and program
Ataman et al. Transforming large-scale participation data through topic modelling in urban design processes
CN113610132A (en) User equipment identification method and device and computer equipment
US20180182047A1 (en) Operation support apparatus, operation support system, and information processing apparatus
US20200090185A1 (en) Product declaration validation
JP4545614B2 (en) Document classification program and document classification apparatus
Papadopoulos et al. Untangling graphs representing spatial relationships driven by drawing aesthetics

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090327

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090327

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120207

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120312

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20120312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120409

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120501

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120508

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150518

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4994199

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250