JP2021135931A - Document classification device, learning method and learning program - Google Patents
Document classification device, learning method and learning program Download PDFInfo
- Publication number
- JP2021135931A JP2021135931A JP2020033770A JP2020033770A JP2021135931A JP 2021135931 A JP2021135931 A JP 2021135931A JP 2020033770 A JP2020033770 A JP 2020033770A JP 2020033770 A JP2020033770 A JP 2020033770A JP 2021135931 A JP2021135931 A JP 2021135931A
- Authority
- JP
- Japan
- Prior art keywords
- document
- numerical
- data
- unit
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000013075 data extraction Methods 0.000 claims abstract description 29
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims description 51
- 239000000463 material Substances 0.000 claims description 45
- 230000007717 exclusion Effects 0.000 claims description 36
- 230000000877 morphologic effect Effects 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 29
- 239000000284 extract Substances 0.000 claims description 17
- 238000002372 labelling Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 16
- 239000000203 mixture Substances 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 12
- 239000000126 substance Substances 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 5
- GWEVSGVZZGPLCZ-UHFFFAOYSA-N Titan oxide Chemical compound O=[Ti]=O GWEVSGVZZGPLCZ-UHFFFAOYSA-N 0.000 description 35
- 239000002245 particle Substances 0.000 description 27
- 238000010586 diagram Methods 0.000 description 24
- 239000011575 calcium Substances 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 8
- 239000002270 dispersing agent Substances 0.000 description 7
- 230000015654 memory Effects 0.000 description 7
- AYJRCSIUFZENHW-UHFFFAOYSA-L barium carbonate Chemical compound [Ba+2].[O-]C([O-])=O AYJRCSIUFZENHW-UHFFFAOYSA-L 0.000 description 6
- 239000010419 fine particle Substances 0.000 description 5
- 238000012098 association analyses Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 229910002113 barium titanate Inorganic materials 0.000 description 3
- 239000000919 ceramic Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- OGIDPMRJRNCKJF-UHFFFAOYSA-N titanium oxide Inorganic materials [Ti]=O OGIDPMRJRNCKJF-UHFFFAOYSA-N 0.000 description 3
- PXHVJJICTQNCMI-UHFFFAOYSA-N Nickel Chemical compound [Ni] PXHVJJICTQNCMI-UHFFFAOYSA-N 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- 229910052779 Neodymium Inorganic materials 0.000 description 1
- 229910002785 ReO3 Inorganic materials 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 238000000889 atomisation Methods 0.000 description 1
- JRPBQTZRNDNNOP-UHFFFAOYSA-N barium titanate Chemical compound [Ba+2].[Ba+2].[O-][Ti]([O-])([O-])[O-] JRPBQTZRNDNNOP-UHFFFAOYSA-N 0.000 description 1
- AYJRCSIUFZENHW-DEQYMQKBSA-L barium(2+);oxomethanediolate Chemical compound [Ba+2].[O-][14C]([O-])=O AYJRCSIUFZENHW-DEQYMQKBSA-L 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 229910052791 calcium Inorganic materials 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- QEFYFXOXNSNQGX-UHFFFAOYSA-N neodymium atom Chemical compound [Nd] QEFYFXOXNSNQGX-UHFFFAOYSA-N 0.000 description 1
- 229910052759 nickel Inorganic materials 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 229910052761 rare earth metal Inorganic materials 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書分類装置、学習方法および、学習プログラムに関する。 The present invention relates to a document classification device, a learning method, and a learning program.
近年、様々な材料が開発されており、当該開発に基づいて多数の特許出願や論文発表が行われている。これらの特許文献や論文に記載された特性の数値や、組成の数値範囲など情報は膨大であり、開発者がそれらの情報をすべて把握した上で新たな材料の開発を行うことは不可能である。 In recent years, various materials have been developed, and many patent applications and treatises have been published based on the development. The amount of information such as the numerical values of the properties and the numerical range of the composition described in these patent documents and treatises is enormous, and it is impossible for the developer to develop a new material after grasping all the information. be.
そこで、開発者は、多数の特許文献や論文が格納されたデータベースから開発に必要な情報を検索する必要がある。しかし、データベースから情報を検索する場合、特許文献1に示すように自然な文章からなる検索文を用いて検索することができたとしても、これらの文書に記載された数値または数値範囲を単に文字としてしか検索することができなかった。
Therefore, the developer needs to search the database containing a large number of patent documents and treatises for the information necessary for development. However, when searching for information from a database, even if it is possible to search using a search sentence consisting of natural sentences as shown in
また、注目する数値または数値範囲に関連する文書を未分類の文書から分類する場合、特許文献2では、複数テキストを予め所定項目別に分類して複数のサブデータベースとしておき、そのうち注目する注目サブデータベースに格納されている複数テキストに対してテキストマイニング処理を施すことで文書を迅速に分類している。
Further, when classifying a document related to a numerical value or a numerical range of interest from an unclassified document, in
特許文献2に記載の分類装置では、文書に対して単にテキストマイニング処理を施すだけで、文書に記載された数値または数値範囲を単に文字として把握して文書を分類しているに過ぎなかった。
The classification device described in
数値または数値範囲に基づいて文書を分類するためには、データベースに格納された文書に記載された数値または数値範囲と、どの特性または材料とが関連しているのかを正確に把握した上でデータを抽出する必要がある。しかし、文書に記載された数値または数値範囲と、記載された位置が近い特性または材料とを単純に関連付けデータを抽出したのでは、数値または数値範囲(数値部分)が誤った特性や材料(特徴部分)とを関連付けられてしまい、分類装置は数値または数値範囲を正しく把握して分類できない問題があった。 In order to classify a document based on a numerical value or numerical range, the data must be understood exactly which property or material is related to the numerical value or numerical range described in the document stored in the database. Need to be extracted. However, if the numerical value or numerical range (numerical part) is incorrect if the numerical value or numerical range (numerical part) is incorrect by simply associating the numerical value or numerical range described in the document with the characteristic or material whose position is close to each other (characteristic). There was a problem that the classification device could not correctly grasp the numerical value or the numerical range and classify it because it was associated with the part).
そこで、本発明の目的は、このような課題を解決するためになされたものであって、数値部分と特徴部分とを正しく関連付けて把握し、文書を分類することが可能な文書分類装置、学習方法および、学習プログラムを提供することである。 Therefore, an object of the present invention is to solve such a problem, and a document classification device and learning capable of correctly associating and grasping a numerical part and a characteristic part and classifying a document. To provide methods and learning programs.
本発明の一形態に係る文書分類装置は、特定の数値データに関する項目を含む文書の分類を行う文書分類装置であって、複数の文書が入力される入力部と、入力部で入力された複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する分類部と、分類部で分類した文書の情報を出力する出力部と、を備える。学習モデルの学習を行うために、複数の文書から数値データを抽出するデータ抽出部と、データ抽出部で抽出した数値データのうち特定の数値データを含む文書にラベルを付与するラベル付与部と、を備え、複数の文書およびラベル付与部で付与されたラベルを用いて、学習モデルの学習を行う。データ抽出部は、収集した文書のテキストデータを複数の形態素に分割する形態素解析部と、形態素解析部で分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する字句解析部と、字句解析部で特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定する関連解析部と、関連解析部において、特徴部分と数値部分との関連の判定から除外する条件を予め設定する除外設定部と、関連解析部で関連すると判定された特徴部分と数値部分とを数値データとして抽出する抽出部とを含む。 The document classification device according to one embodiment of the present invention is a document classification device that classifies documents including items related to specific numerical data, and is an input unit in which a plurality of documents are input and a plurality of documents input in the input unit. The document is classified into a document including an item related to specific numerical data and a document not including the item by a learning model including a neural network, and an output unit for outputting information of the document classified by the classification unit. In order to train the training model, a data extraction unit that extracts numerical data from a plurality of documents, a labeling unit that assigns a label to a document containing specific numerical data among the numerical data extracted by the data extraction unit, and a labeling unit. The learning model is trained using a plurality of documents and labels given by the labeling unit. The data extraction unit includes a morphological analysis unit that divides the text data of the collected document into a plurality of morphological elements, and a phrase analysis unit that identifies a predetermined feature part and a numerical part from the plurality of morphological elements divided by the morphological element analysis unit. , A predetermined number of morphological elements indicating a relationship is included between the characteristic part and the numerical value part specified by the phrase analysis unit, and the number of morphological elements contained between the characteristic part and the numerical value part is less than or equal to the predetermined number. In some cases, the related analysis unit that determines that the feature part and the numerical part are related, the exclusion setting unit that presets the conditions to be excluded from the judgment of the relationship between the characteristic part and the numerical part in the related analysis unit, and the related analysis unit. Includes an extraction unit that extracts the feature part and the numerical part determined to be related in (1) as numerical data.
本発明の一形態に係る学習方法は、コンピュータが、複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する場合に、学習モデルの学習をする学習方法であって、複数の文書から数値データを抽出するステップと、抽出した数値データのうち特定の数値データを含む文書にラベルを付与するステップと、を含み、複数の文書および付与されたラベルを用いて、学習モデルの学習を行う処理をコンピュータに実行させる。数値データを抽出するステップは、収集した文書のテキストデータを複数の形態素に分割するステップと、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定するステップと、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定するステップと、特徴部分と数値部分との関連の判定から除外する条件を予め設定するステップと、関連すると判定された特徴部分と数値部分とを数値データとして抽出するステップとを含む。 The learning method according to one embodiment of the present invention is to learn a learning model when a computer classifies a plurality of documents into a document including an item related to specific numerical data and a document not containing an item by a learning model including a neural network. This is a learning method that includes a step of extracting numerical data from a plurality of documents and a step of assigning a label to a document containing a specific numerical data among the extracted numerical data. Using the label, let the computer execute the process of training the training model. The steps for extracting numerical data include a step of dividing the text data of the collected document into a plurality of morphological elements, a step of specifying a predetermined feature part and a numerical part from the divided morphology elements, and a specified feature part. When a predetermined number of morphological elements indicating a relationship is included between and the numerical part and the number of morphological elements contained between the characteristic part and the numerical part is less than or equal to the predetermined number, the characteristic part and the numerical part Includes a step of determining that is related, a step of presetting conditions to be excluded from the determination of the relationship between the feature part and the numerical part, and a step of extracting the characteristic part and the numerical part determined to be related as numerical data. ..
本発明の一形態に係る学習プログラムは、コンピュータが、複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する場合に、学習モデルの学習をさせる学習プログラムであって、複数の文書から数値データを抽出するデータ抽出処理と、抽出した数値データのうち特定の数値データを含む文書にラベルを付与するラベル付与処理と、を含み、複数の文書および付与されたラベルを用いて、学習モデルの学習を行う処理をコンピュータに実行させる。データ抽出処理は、収集した文書のテキストデータを複数の形態素に分割する形態素解析処理と、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する字句解析処理と、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定する関連解析処理と、特徴部分と数値部分との関連の判定から除外する条件を予め設定する除外設定処理と、関連すると判定された特徴部分と数値部分とを数値データとして抽出する抽出処理とを含む。 The learning program according to one embodiment of the present invention learns a learning model when a computer classifies a plurality of documents into a document containing items related to specific numerical data and a document not containing items by a learning model including a neural network. This is a learning program that includes a data extraction process for extracting numerical data from a plurality of documents and a labeling process for assigning a label to a document containing specific numerical data among the extracted numerical data. Using the document and the assigned label, let the computer execute the process of training the training model. The data extraction process includes a morphological analysis process that divides the text data of the collected document into a plurality of morphological elements, a phrase analysis process that specifies a predetermined feature part and a numerical part from the divided morphological elements, and a specified feature. When a predetermined morphological element indicating a relationship is included between the part and the numerical part and the number of morphological elements contained between the characteristic part and the numerical part is less than or equal to the predetermined number, the characteristic part and the numerical part are included. The related analysis process that determines that is related, the exclusion setting process that presets the conditions to be excluded from the determination of the relationship between the feature part and the numerical part, and the feature part and the numerical part that are determined to be related are extracted as numerical data. Includes extraction processing.
本発明によれば、特徴部分と数値部分との関連の判定から除外する条件を予め設定してあるので、数値部分と特徴部分とを正しく関連付けて把握し、文書を分類することができる。 According to the present invention, since the conditions for excluding from the determination of the relationship between the characteristic portion and the numerical portion are set in advance, the numerical portion and the characteristic portion can be correctly associated and grasped, and the document can be classified.
以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰り返さない。
[実施の形態]
図1は、本実施の形態に係る文書分類装置100の一例の概略図である。文書分類装置100は、未分類の文書から特定の数値データに関する項目を含む文書を分類する。文書分類装置100では、ユーザが検索式を入力すると、当該検索式に関連する内容が含まれる文書を、未分類文書(例えば、特許文献データベースから収集した特定分野の文書)の中から分類して、その分類した文書の情報をユーザに出力する。
Hereinafter, embodiments of the present disclosure will be described in detail with reference to the drawings. The same or corresponding parts in the drawings are designated by the same reference numerals, and the description thereof will not be repeated.
[Embodiment]
FIG. 1 is a schematic view of an example of a
具体的に、MLCC(Multilayer Ceramic Chip Capacitor)やLTCC(Low Temperature Co-fired Ceramics)などの開発において、粒径が80nm未満の微粒である材料の開発を行う場合に、文書分類装置100に検索式として「粒径が1.2nm〜79nm」と入力し、未分類文書の中から「粒径が1.2nm〜79nm」に関連する内容の文書を「微粒である文書」と分類して、その分類した文書の情報をユーザに出力する。
Specifically, in the development of MLCC (Multilayer Ceramic Chip Capacitor) and LTCC (Low Temperature Co-fired Ceramics), when developing a material having a particle size of less than 80 nm, a search formula is used in the
文書分類装置100では、AI(人工知能:Artificial Intelligence)を利用して、未分類文書の中から検索式に関連する内容が含まれる文書を自動的に分類して、検索式に関連する文書を特定する処理を実行するように構成されている。具体的に、ユーザが文書分類装置100に検索式を入力すると、文書分類装置100は、ニューラルネットワークを含む学習モデルに基づき文書から検索式に関連する特徴語を抽出して、検索式に関連する文書か否かを特定する分類処理を実行する。
The
ここで、「学習モデル」は、ニューラルネットワークと当該ニューラルネットワークによって用いられるパラメータとを含み、検索式に関連する特徴語を含む文書と、その文書が検索式に関連する文書であるとラベルされた情報とに基づき学習されることで最適化(調整)される。具体的に、学習モデルは、文書が入力されると、ニューラルネットワークによって当該文書から検索式に関連する特徴語を抽出し、抽出した特徴語に基づき検索式に関連する文書か否かを分類する。 Here, the "learning model" is labeled as a document containing a neural network and parameters used by the neural network, including feature words related to the search formula, and the document being a document related to the search formula. It is optimized (adjusted) by learning based on information. Specifically, when a document is input, the learning model extracts feature words related to the search formula from the document by a neural network, and classifies whether or not the document is related to the search formula based on the extracted feature words. ..
そして、学習モデルは、自身が分類した文書と、入力された文書にラベルされた情報(検索式に関連する文書か否かの情報)とに基づき、両者が一致すればパラメータを更新しない一方で、両者が一致しなければ両者が一致するようにパラメータを更新することで、パラメータを最適化している。このように、学習モデルは、入力される文書と、正解データである当該文書にラベルされた情報とを含む教師データを利用して、パラメータが最適化されることで学習される。 Then, the learning model does not update the parameters if both match, based on the document classified by itself and the information labeled on the input document (information on whether or not the document is related to the search formula). If they do not match, the parameters are optimized by updating the parameters so that they match. In this way, the learning model is learned by optimizing the parameters using the teacher data including the input document and the information labeled in the document which is the correct answer data.
なお、このような学習モデルを学習する処理を「学習フェーズ」とも称する。また、学習フェーズによって最適化された学習モデルを、特に「学習済モデル」とも称する。つまり、本実施の形態においては、学習前の学習モデルおよび学習済みの学習モデルをまとめて「学習モデル」と総称する場合がある一方で、学習済みの学習モデルを学習前の学習モデルと区別するために「学習済モデル」とも称する場合がある。 The process of learning such a learning model is also referred to as a "learning phase". In addition, the learning model optimized by the learning phase is also referred to as a "learned model" in particular. That is, in the present embodiment, the pre-learning learning model and the learned learning model may be collectively referred to as a "learning model", while the learned learning model is distinguished from the pre-learning learning model. Therefore, it may also be called a "trained model".
一般的に、教師データを利用して学習モデルを学習させる場合、ユーザがあらかじめ検索式に関連する文書と検索式に関連しない文書を分類して文書にラベルを付す作業が必要となる。教師データとなる文書の数が多ければ多いほど、学習済モデルによる未分類文書の分類精度が高くなるので、多くの文書にラベルを付す必要がある。 Generally, when learning a learning model using teacher data, it is necessary for the user to classify documents related to the search formula and documents not related to the search formula in advance and label the documents. The more documents that serve as teacher data, the more accurate the unclassified documents will be classified by the trained model, so many documents need to be labeled.
しかし、教師データが数十件の文書であれば、ユーザが文書にラベルを付す作業は可能であるが、教師データが数百件、数千件の文書であれば、ユーザが文書にラベルを付す作業は困難である。 However, if the teacher data is dozens of documents, the user can label the document, but if the teacher data is hundreds or thousands of documents, the user labels the document. The work of attaching is difficult.
そこで、教師データを生成する作業において、検索式で検索した文書に対して自動的にラベルを付すことでユーザの作業を軽減することが考えられる。しかし、文書データベース(例えば、特許文献データベース)で収集した文書に対して「粒径が1.2nm〜79nm」という単純な検索式で検索するだけでは、「微粒」の教師データを生成することできない。 Therefore, in the work of generating teacher data, it is conceivable to reduce the work of the user by automatically labeling the document searched by the search formula. However, it is not possible to generate "fine grain" teacher data by simply searching for documents collected in a document database (for example, a patent document database) using a simple search formula of "particle size of 1.2 nm to 79 nm". ..
つまり、検索式として「粒径が1.2nm〜79nm」を入力し、粒径が1.2nm〜79nmとなる材料を使用した文書を検索する場合、単に文書データベースで収集した文書から「粒径」と「1.2nm」と「79nm」とを含む文書を検索するだけでは、粒径が50nmの材料使用した文書などが検索結果から漏れてしまう。そのため、文書データベースで収集した文書から特徴である「粒径」と数値である「1.2nm」と「79nm」とを関連付けて抽出し、データベース化した上で検索を行う必要がある。 That is, when inputting "particle size 1.2 nm to 79 nm" as a search formula and searching for a document using a material having a particle size of 1.2 nm to 79 nm, simply "particle size" is searched from the document collected in the document database. If only a document containing "1.2 nm" and "79 nm" is searched, a document using a material having a particle size of 50 nm will be omitted from the search result. Therefore, it is necessary to extract the characteristic "particle size" and the numerical values "1.2 nm" and "79 nm" from the documents collected in the document database in association with each other, create a database, and then perform a search.
本実施の形態に係る文書分類装置100では、図1に示すように学習フェーズとして、文書データベースから対象特許の文書の収集した教師文書(教師データ)に対して、検索式(特定の数値データ)を含む文書にラベルを自動的に付与して、学習モデルを学習する。また、文書分類装置100では、図1に示すように学習後として、学習フェーズで学習した学習モデル(学習済モデル)を用いて、未分類文書を「微粒である文書」と「微粒でない文書」とに分類する。
In the
文書分類装置100は、学習フェーズにおいて、検索式(特定の数値データ)を含む文書を教師文書から数値検索処理で特定してラベルを付与する(自動ラベル)ために、当該文書から化学式、材料、特性などの特徴部分と、数値または数値範囲などの数値部分とを関連付けて数値データとして抽出し、データベースに格納して検索に利用する。以下、文書から特徴部分と数値部分とを関連付けて数値データとして抽出する技術を含む数値検索処理について説明する。
In the learning phase, the
まず、文書分類装置100のハードウェア構成について詳しく説明する。図2は、本実施の形態に係る文書分類装置100の構成を説明するためのブロック図である。文書分類装置100は、オペレーティングシステム(OS:Operating System)を含む各種プログラムを実行するCPU101と、CPU101でのプログラムの実行に必要なデータを一時的に記憶するメモリ部112と、CPU101で実行されるプログラムを不揮発的に記憶するハードディスク部(HDD:Hard Disk Drive)110とを含む。
First, the hardware configuration of the
また、ハードディスク部110には、教師データによる学習モデルの学習処理、学習済モデルによる未分類文書の分類処理、自動ラベルのための数値検索処理などの処理を実現するためのプログラムが予め記憶されており、このようなプログラムは、光学ドライブ114などによって、それぞれCD−ROM(Compact Disk-Read Only Memory)などの記憶媒体114aから読み取られる。
Further, the
CPU101は、キーボードやマウスなどからなる入力部108を介してユーザなどからの検索式を受取るとともに、プログラムの実行によって分類された文書などを、ディスプレイ部104へ出力する。各部は、バス102を介して互いに接続される。また、インターフェイス部106は、図示していない文書データベースなどに接続されている。なお、文書分類装置100と文書データベースとの接続は、有線で接続されても無線で接続されてもよい。
The
次に、文書分類装置100で実行される数値検索処理について具体的に説明する。図3は、本実施の形態に係る文書分類装置100での数値検索処理を説明するための機能ブロック図である。文書分類装置100は、数値検索処理を実行するために収集部300、データ抽出部400、データベース部500、およびラベル付与部600の機能を備えている。収集部300は、文書データベースから対象文書(教師データとなる文書)を収集する。データ抽出部400は、収集した対象文書から、特徴部分と数値部分とを関連付けた数値データを抽出する。データベース部500は、データ抽出部400で抽出した数値データを、抽出した文書の文書データと関連付けて格納する。ラベル付与部600は、入力された検索式に基づく検索した文書に対して自動的にラベルを付す。
Next, the numerical search process executed by the
さらに、収集部300について詳しく説明する。図4は、本実施の形態に係る文書分類装置100での収集部300の処理を説明するための機能ブロック図である。収集部300では、ユーザが対象とする文書(例えば、BaCO3を主成分とするMLCCの特許文献)を文書データベースから全文をダウンロード301する。例えば、ユーザが、文書データベースで「BaCO3」を含むMLCCの文書を検索し、検索結果の文書を収集部300が全文ダウンロードする。ダウンロードした文書には、「.xml」、「.htm」、「.csv」などの形式のデータが含まれている。データ抽出部400では、テキストデータを処理するため、収集部300は、文書データベースからダウンロードした文書のデータをテキストデータに変換している。
Further, the collecting
具体的に、収集部300は、「.xml」形式のデータをテキストデータに変換する処理を「.xmlの変換」302で行う。また、収集部300は、「.htm」形式のデータをテキストデータに変換する処理を「.htmの変換」303で行う。さらに、収集部300は、「.csv」形式のデータをテキストデータに変換する処理を「.csvの変換」304で行う。
Specifically, the collecting
収集部300は、「.xmlの変換」302、「.htmの変換」303および「.csvの変換」304で変換した文書のテキストデータを比較して、重複している文書のデータを削除する(重複データの削除305)。収集部300は、重複データの削除305を行った文書のテキストデータを中間ファイル320として出力する。
The collecting
一方、文書データベースから文書のデータをダウンロードするのではなく、予め複数の文書のデータを含むファイルを用意しておき、収集部300は、当該ファイルを読み込み310、文書のデータを収集することもできる。ファイルから読み込んだ文書のデータには、「.docx」、「テキスト」などの形式のデータが含まれている。収集部300は、「.docx」形式のデータをテキストデータに変換する処理を「.docxの変換」311で行う。ファイルに含まれる文書のデータには、重複した文書のデータが含まれていないので、収集部300は、「.docxの変換」311で変換した文書のテキストデータと、ファイルに含まれている文書のテキストデータとを中間ファイル320として出力する。
On the other hand, instead of downloading the document data from the document database, a file containing the data of a plurality of documents is prepared in advance, and the collecting
次に、収集部300で収集した文書のテキストデータから、特徴部分と数値部分とを関連付けた数値データを抽出するデータ抽出部400について説明する。図5は、本実施の形態に係る文書分類装置100のデータ抽出部400での処理を説明するための機能ブロック図である。データ抽出部400は、文書のテキストデータから特徴部分および数値部分を解析する形態素・字句解析部410と、特徴部分と数値部分とを関連付ける関連解析部430とを備えている。さらに、データ抽出部400は、関連解析部430での処理において関連付けを除外する条件を予め設定しておく除外設定部450と、関連解析部430で関連付けた数値データを抽出する抽出部470とを備えている。
Next, a
形態素・字句解析部410での処理についてさらに詳しく説明する。図6は、本実施の形態に係る文書分類装置100の形態素・字句解析部410での処理を説明するための機能ブロック図である。形態素・字句解析部410は、収集部300から出力された中間ファイル320を読み込み411、当該中間ファイル320から文書のテキストデータを取り込み、形態素解析部412で取り込んだ文書のテキストデータを処理する。
The processing in the morpheme /
形態素解析部412では、予め定められた言語の文法、辞書の情報(例えば、単語の品詞などの情報)にもとづき、取り込んだ文書のテキストデータを形態素の列に分割し、それぞれの形態素に対して品詞などの解析を行う。
The
形態素解析部412で形態素の列に分割した文書のテキストデータから、プッシュダウンオートマトン(PDA:Push down Automaton)により特徴部分および数値部分を特定する字句解析を行う。なお、字句解析として、プッシュダウンオートマトンに限らず、有限オートマトンや、さらに複雑なオートマトンであってもよい。
From the text data of the document divided into morpheme columns by the
具体的に、特性名帰属PDA413では、予め定められた特性名(例えば、分散剤、厚み、抵抗値、粒径など)に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「feature」とラベリングして1つの字句として扱う。材料名帰属PDA414では、予め定められた材料名(例えば、ネオジム、酸化チタン、炭酸バリウムなど)に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「material」とラベリングして1つの字句として扱う。 Specifically, in the characteristic name attribution PDA413, words corresponding to predetermined characteristic names (for example, dispersant, thickness, resistance value, particle size, etc.) are specified by a pushdown automaton from a column of morphemes, and "feature" is used. Label it as one phrase. In the material name attribution PDA414, a word corresponding to a predetermined material name (for example, neodymium, titanium oxide, barium carbonate, etc.) is specified by a pushdown automaton from a column of morphemes, and labeled as "material". Treat as a lexical.
また、単位帰属PDA415では、予め定められた単位(例えば、g、mol、nmなど)に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「unit」とラベリングして1つの字句として扱う。数値帰属PDA416では、予め定められた数値(例えば、アラビア数字、漢数字、ローマ数字など)に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「amount」とラベリングして1つの字句として扱う。なお、単位帰属PDA415で特定した「unit」の字句と、数値帰属PDA416で特定した「amount」の字句とが近傍(例えば、予め定められた形態素の数の範囲内)に存在している場合、数値帰属PDA416は、「unit」の字句と「amount」の字句とを1つの「amount」の字句として扱う。 Further, in the unit attribution PDA415, a word corresponding to a predetermined unit (for example, g, mol, nm, etc.) is specified by a pushdown automaton from a column of morphemes, and labeled as "unit" to form one word. deal. Numerical attribution In PDA416, a phrase corresponding to a predetermined numerical value (for example, Arabic numeral, Chinese numeral, Roman numeral, etc.) is specified by a pushdown automaton from a column of morphological elements, and labeled as "amount" to make one phrase. Treat as. When the word "unit" specified by the unit-attribution PDA415 and the word "amount" specified by the numerically-attribution PDA416 exist in the vicinity (for example, within a predetermined number of morphological elements), Numerical attribution PDA416 treats the word "unit" and the word "amount" as one word "amount".
また、数値帰属PDA416では、複数の形態素のうちに1つの数値が含まれている場合、当該数値に予め定められた数値範囲(例えば、当該数値の±1%の範囲)を付与して1つの「amount」の字句として扱ってもよい。これにより、数値同士を比較する際に、数値に幅を持った数値範囲同士の比較となり、比較が容易となる。さらに、数値帰属PDA416では、複数の形態素のうちに複数の数値と、範囲を示す予め定められた形態素(例えば、「〜」)とが含まれている場合、当該複数の数値に基づく数値範囲を1つの「range」の字句として扱ってもよい。もちろん、数値であっても数値範囲であっても、区別せずに1つの「amount」の字句として扱ってもよい。 Further, in the numerical attribution PDA416, when one numerical value is included in a plurality of morphemes, a predetermined numerical range (for example, a range of ± 1% of the numerical value) is given to the numerical value to obtain one. It may be treated as the phrase "amount". As a result, when comparing numerical values, the numerical range having a range of numerical values is compared, and the comparison becomes easy. Further, in the numerical attribution PDA416, when a plurality of numerical values and a predetermined morpheme indicating a range (for example, "~") are included in the plurality of morphemes, a numerical range based on the plurality of numerical values is set. It may be treated as one "range" phrase. Of course, whether it is a numerical value or a numerical range, it may be treated as one "amount" word without distinction.
数式帰属PDA417では、予め定められた数式(例えば、x、1−x、0<x≦1など)に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「formula」とラベリングして1つの字句として扱う。化学式帰属・組成復元PDA418では、予め定められた化学式や組成(例えば、Ca、TiO2、BaCO3など)に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「material」とラベリングして1つの字句として扱う。 In the formula attribution PDA417, the words corresponding to the predetermined formulas (for example, x, 1-x, 0 <x ≦ 1, etc.) are specified by the pushdown automaton from the column of morphemes and labeled as “formula”. Treat as one phrase. Chemical formula attribution / composition restoration In PDA418, words corresponding to predetermined chemical formulas and compositions (for example, Ca, TiO2, BaCO3, etc.) are specified by pushdown automata from the morpheme column, and labeled as "material". Treat as one lexical.
数値帰属PDA416で特定した「amount」の字句と、数式帰属PDA417で特定した「formula」の字句と、化学式帰属・組成復元PDA418で特定した「material」とが近傍に存在している場合、化学式帰属・組成復元PDA418は、「amount」の字句と「formula」の字句と「material」の字句とを1つの「material」の字句として扱う。具体的に、「Ba1−xCaxTiO3(0<x≦1)」なる字句を解析する場合、「amount」の字句として「3」、「formula」の字句として「x」、「1−x」、「0<x≦1」、「material」の字句として「Ba」、「Ca」、「TiO」とそれぞれ解析する。それらの字句が近傍に存在しているので、化学式帰属・組成復元PDA418は、最終的に「Ba1−xCaxTiO3(0<x≦1)」なる字句を、1つの「material」の字句として扱う。 If the word "amount" specified by the numerical attribution PDA416, the word "formula" specified by the formula attribution PDA417, and the "material" specified by the chemical formula attribution / composition restoration PDA418 exist in the vicinity, the chemical formula attribution -The composition restoration PDA418 treats the word "amount", the word "formula", and the word "material" as one word "material". Specifically, when analyzing the phrase "Ba 1-x Ca x TiO 3 (0 <x ≤ 1)", the phrase "amount" is "3", and the phrase "formula" is "x", "1". The words "-x", "0 <x≤1", and "material" are analyzed as "Ba", "Ca", and "TIO", respectively. Since those words are present in the vicinity, the chemical formula attribution / composition restoration PDA418 finally changes the word "Ba 1-x Ca x TiO 3 (0 <x ≦ 1)" to one "material". Treat as a lexical.
形態素・字句解析部410では、「material」または「feature」とラベリングされた字句を特徴部分に分類し、「amount」または「range」とラベリングされた字句を数値部分に分類している。
The morpheme /
次に、具体例を示して形態素・字句解析部410での処理について説明する。図7は、本実施の形態に係る文書分類装置100の形態素・字句解析部410での処理の一例を説明するための概念図である。取り込んだ文書のテキストデータに「TiO2を主成分として1.20g使用した。」との文章420が含まれている場合、まず形態素解析部412で当該文章420を形態素の列に分割する。
Next, a specific example will be shown to explain the processing in the morpheme /
形態素解析部412は、文章420を形態素の列に分割して、複数の形態素を含む列データ421を出力する。列データ421には、「TiO」、「2」、「を」、「主成分」、「と」、「し」、「て」、「1」、「.」、「20」、「g」、「使用」、「し」、「た」、「。」の形態素を含んでいる。
The
字句解析では、列データ421に含まれる形態素のうち、「TiO」の形態素421aを「material」の字句として特定し、「2」の形態素421bを「amount」の字句として特定する。さらに、字句解析では、「TiO」の形態素421aと「2」の形態素421bとが近傍に存在しているので、「TiO2」を1つの「material」の字句422として扱う。
In the lexical analysis, among the morphemes included in the
また、字句解析では、列データ421に含まれる形態素のうち、「1」の形態素421c、「.」の形態素421d、「20」の形態素421eを「amount」の字句として特定し、「g」の形態素421fを「unit」の字句として特定する。さらに、字句解析では、「1」の形態素421c、「.」の形態素421d、「20」の形態素421eと、「g」の形態素421fとが近傍に存在しているので、「1.20g」を1つの「amount」の字句423として扱う。
Further, in the lexical analysis, among the morphemes included in the
図8は、本実施の形態に係る文書分類装置100の形態素・字句解析部410での処理の別の一例を説明するための概念図である。取り込んだ文書のテキストデータに「TiO2を主成分として1.20g〜1.50g使用した。」との文章420aが含まれている場合、まず形態素解析部412で当該文章420aを形態素の列に分割する。
FIG. 8 is a conceptual diagram for explaining another example of processing in the morpheme /
形態素解析部412は、文章420aを形態素の列に分割して、複数の形態素を含む列データ421Aを出力する。列データ421Aには、「TiO」、「2」、「を」、「主成分」、「と」、「し」、「て」、「1」、「.」、「20」、「g」、「〜」、「1」、「.」、「50」、「g」、「使用」、「し」、「た」、「。」の形態素を含んでいる。
The
字句解析では、列データ421Aに含まれる形態素のうち、「TiO」の形態素421aを「material」の字句として特定し、「2」の形態素421bを「amount」の字句として特定する。さらに、字句解析では、「TiO」の形態素421aと「2」の形態素421bとが近傍に存在しているので、「TiO2」を1つの「material」の字句422として扱う。
In the lexical analysis, among the morphemes included in the
また、字句解析では、列データ421Aに含まれる形態素のうち、「1」の形態素421c、「.」の形態素421d、「20」の形態素421eを「amount」の字句として特定し、「g」の形態素421fを「unit」の字句として特定する。同様に、字句解析では、列データ421Aに含まれる形態素のうち、「1」の形態素421h、「.」の形態素421i、「50」の形態素421jを「amount」の字句として特定し、「g」の形態素421kを「unit」の字句として特定する。さらに、字句解析では、「g」の形態素421fと「1」の形態素421hとの間に、「〜」のような範囲を示す予め定められた形態素421gが含まれているので、「1」の形態素421c〜「g」の形態素421kを「1.20g〜1.50g」とする1つの「range」の字句424として扱う。もちろん、字句解析では、「amount」と「range」とを区別せず、「range」の字句424を「amount」の字句として扱ってもよい。なお、範囲を示す予め定められた形態素としては、「〜」以外に「から」、「まで」など形態素を設定することが可能である。
Further, in the lexical analysis, among the morphemes included in the
次に、関連解析部430は、形態素・字句解析部410において選択された特徴部分と数値部分とを関連付ける。図9は、本実施の形態に係る文書分類装置100の関連解析部430での処理を説明するための機能ブロック図である。
Next, the
図9に示す関連解析部430では、形態素の列からプッシュダウンオートマトンで「material」とラベリングされた材料の字句と「amount」とラベリングされた数値の字句とを特定して、関連付ける(材料+数値)抽出PDA431を有している。また、関連解析部430では、形態素の列からプッシュダウンオートマトンで「material」とラベリングされた材料の字句と「formula」とラベリングされた数式の字句とを特定して、関連付ける(材料+数式)抽出・組成復元PDA432を有している。さらに、関連解析部430では、形態素の列からプッシュダウンオートマトンで「feature」とラベリングされた材料の字句と「amount」とラベリングされた数値の字句とを特定して、関連付ける(特性+数値)抽出PDA433を有している。
In the
具体例を示して関連解析部430での処理について説明する。図10は、本実施の形態に係る文書分類装置100の関連解析部430での処理の一例を説明するための概念図である。関連解析部430は、形態素・字句解析部410で処理したデータに「TiO2」を1つとする「material」の字句422と、「1.20g」を1つとする「amount」の字句423とを含んでいる場合、字句422と字句423との間に「を」のような関連を示す予め定められた形態素425が含まれているか否かを判定する。なお、関連を示す予め定められた形態素425の一例として「を」を示したが、「材料Xが1.0g」の「が」、「1.0gの材料X」の「の」など、他に「として」、「:」などが関連を示す予め定められた形態素と考えられる。また、関連を示す予め定められた形態素425は、「を」などの単独の形態素だけに限られず、複数の形態素を組み合わせたものを含めてもよい。一例として「換算」と「で」の2つの形態素を組み合わせた「換算で」を含めてもよい。
A specific example will be shown to explain the processing in the
関連解析部430は、字句422と字句423との間に形態素425が含まれている場合、字句422と字句423との間に含まれる形態素の数を求める。図10の例では、字句422と字句423との間に含まれる形態素の数は5個である。
When the
関連解析部430は、字句422と字句423との間に含まれる形態素の数が予め定められた数(例えば、10個)以下であれば、求めた字句422と字句423との距離が近いとして、関連がある字句同士であると判定する。図10の例では、形態素の数が5個と予め定められた数以下のため、字句422と字句423とが関連があると判定している。なお、図10の例では、「material」の字句422と「amount」の字句423との関連を抽出するため、(材料+数値)抽出PDA431で処理される。
The
図9に戻って、抽出部470は、関連解析部430で関連がある判定された字句を関連付けた数値データとして抽出して、データベース部500に出力する。データベース部500では、抽出部470で抽出した数値データと、当該数値データを抽出した文書の文書データ(例えば、文書の書誌情報など)とを関連付けて格納する。図10の例では、抽出部470が、関連がある字句と判定した「TiO2を主成分として1.20g」を一つの関連する数値データ431として抽出する。数値データ431には、material=TiO2、amount=1.20gの情報が含まれることになる。
Returning to FIG. 9, the
前述のように、関連解析部430は、字句と字句との間に含まれる形態素の数が予め定められた数以下か否かのみで、関連がある字句か否かを判定している。しかし、関連解析部430は、字句と字句との間に含まれる形態素の数のみで関連がある字句か否かを判定した場合、取り込んだ文書によっては全く関連のない字句を誤って関連があると判定する虞がある。
As described above, the
図11は、誤って関連がある字句と判定する一例を説明するための概念図である。取り込んだ文書のテキストデータに含まれる「TiO2を主成分100gに対して1.20g使用。」の文章420bに対して、形態素・字句解析部410での処理を行う。形態素・字句解析部410での処理の結果、文章420bには、「TiO2」を1つとする「material」の字句422と、「100g」を1つとする「amount」の字句426と、「1.20g」を1つとする「amount」の字句423とを含んでいると解析される。
FIG. 11 is a conceptual diagram for explaining an example of erroneously determining a related word. The morpheme /
関連解析部430は、字句422と字句426との間に「を」のような関連を示す予め定められた形態素425が含まれ、字句422と字句426との間に含まれる形態素の数が2個と予め定められた数以下であるので、関連がある字句と判定する。
The
抽出部470は、関連解析部430で関連がある字句と判定した「TiO2を主成分100g」を一つの関連する数値データ432として抽出する。数値データ432には、material=TiO2、amount=100gの情報が含まれることになる。
The
しかし、「TiO2を主成分100gに対して1.20g使用。」の文章420bでは、本来の意味から「TiO2」が「1.20g」使用することを関連させる必要がある。そのため、数値データ432のようにmaterial=TiO2とamount=100gとを関連付けた情報は誤った情報(NG)である。
However, in the
そこで、本実施の形態に係る文書分類装置100では、図9に示すように関連解析部430で字句の関連を判定する際に、関連付けを除外する条件を予め設定しておく除外設定部450を備えている。つまり、関連解析部430では、字句と字句との間に含まれる形態素の数のみで関連がある字句か否かを判定するのではなく、除外設定部450に予め設定してある条件に当てはまる形態素を無視して字句の関連を判定する。
Therefore, in the
図12は、本実施の形態に係る文書分類装置100の関連解析部430で除外設定部450の条件を考慮した処理の一例を説明するための概念図である。取り込んだ文書のテキストデータに含まれる「TiO2を主成分100gに対して1.20g使用。」の文章420b(図11参照)に対して、形態素・字句解析部410での処理を行う。形態素・字句解析部410での処理の結果、文章420bには、「TiO2」を1つとする「material」の字句422と、「100g」を1つとする「amount」の字句426と、「1.20g」を1つとする「amount」の字句423とを含んでいると解析される。
FIG. 12 is a conceptual diagram for explaining an example of processing in which the condition of the
関連解析部430は、除外設定部450に予め設定してある条件に当てはまる形態素の有無を判定する。予め設定してある条件として、図12では「に対して」との形態素の列が文章420bに含まれているか否かを判定している。「に対して」の形態素の列が文章420bに含まれている場合、当該形態素の列の前にある「100g」の字句426を含めて除外対象451とする。つまり、関連解析部430は、除外設定部450に予め設定してある条件を考慮して、「100gに対して」の形態素の列を「ignore」とラベリングして1つの除外対象451として扱う。
The
関連解析部430は、「100g」の字句426を除外対象451に含めることで、字句422と字句423との間に「を」のような関連を示す予め定められた形態素425が含まれると判定される。そのため、関連解析部430は、字句422と字句423との間に含まれる形態素の数を求めることになる。ここで、「100gに対して」の形態素の列を1つの除外対象451として扱うことで、関連解析部430は、字句422と字句423との間に含まれる形態素の数を3個と予め定められた数以下であると判定することができ、字句422と字句423とが関連があると判定する。
By including the lexical 426 of "100 g" in the
その結果、抽出部470は、関連がある字句と判定した「TiO2を主成分100gに対して1.20g」を一つの関連する数値データ433として抽出する。数値データ433には、material=TiO2、amount=1.20gの情報が含まれることになる。そのため、抽出部470は、数値データ432のようにmaterial=TiO2とamount=100gとを関連付けた誤った情報を抽出してしまうことを回避することができる。
As a result, the
除外設定部450に予め設定してある関連付けを除外する条件について、さらに詳しく説明する。図13は、除外設定部450に予め設定してある関連付けを除外する条件の一例を説明するための概念図である。図13(a)では、前述したように「amount」の字句の後ろに「に対して」の形態素の列が続く場合、「100gに対して」の形態素の列を1つの除外対象451として扱うことが条件として示されている。
The condition for excluding the association preset in the
図13(b)では、「分散剤204の添加量は0.3g」の文書に対して形態素・字句解析部410での処理を行う一例が示されている。形態素・字句解析部410での処理の結果、当該文章には、「分散剤」を1つとする「feature」の字句と、「204」を1つとする「amount」の字句と、「0.3g」を1つとする「amount」の字句とを含んでいると解析される。そのため、関連解析部430は、除外設定部450に何も条件が設定されていなければ、「分散剤」の字句に近い「204」の字句を「分散剤」の字句を関連付けることになる。
FIG. 13B shows an example in which the morpheme /
しかし、「204」の字句は、「分散剤」の字句の符号に過ぎない。そのため、除外設定部450には、「feature」の字句の直後の「amount」の字句を「amount」の字句として特定せずに除外し、「feature」の字句と直後の「amount」の字句とを1つの「feature」の字句として扱うことが条件として設定される。
However, the phrase "204" is just the code for the phrase "dispersant." Therefore, the
そこで、関連解析部430は、除外設定部450の当該条件を考慮して「分散剤204」を1つとする「feature」の字句452として扱った上で、「0.3g」の字句と関連付ける。
Therefore, the
図13(c)では、「Nd添加量mが0.05を超える場合好ましくない」の文書に対して形態素・字句解析部410での処理を行う一例が示されている。形態素・字句解析部410での処理の結果、当該文章には、「Nd」を1つとする「material」の字句と、「0.05」を1つとする「amount」の字句とを含んでいると解析される。そのため、関連解析部430は、除外設定部450に何も条件が設定されていなければ、「Nd」の字句と「0.05」の字句とを関連付けることになる。
FIG. 13C shows an example in which the morpheme /
しかし、除外設定部450には、「ない」などの否定を表す字句(「NOT」とラベリングされる字句)が文書に含まれている場合には、「NOT」の字句の近傍に存在する「amount」の字句を「NOT」の字句とともに除外する条件が設定される。そのため、関連解析部430は、除外設定部450の当該条件を考慮して、図13(c)に示すように「0.05を超える場合好ましくない」との形態素の列を1つの除外対象453として扱う。
However, if the document contains a word indicating negation such as "not" (a word labeled as "NOT"), the
図13に示した条件は、除外設定部450に設定される関連付けを除外する条件の一例であって、他の条件を除外設定部450に設定してもよい。また、除外設定部450は、ユーザが設定する条件を適宜更新することができる。
The condition shown in FIG. 13 is an example of a condition for excluding the association set in the
図3に戻って、データベース部500は、収集部300で収集した文書よりデータ抽出部400で抽出した数値データを格納している。そして、ラベル付与部600は、ユーザが入力した検索式に基づいて、データベース部500に格納された数値データを検索し、収集部300で収集した文書(教師データとなる文書)のうち検索式(特定の数値データ)を含む文書にラベルを付す。ユーザが入力する検索式には、単純に「粒径が1.2nm〜79nm」が記載されている文書を検索して、当該検索式を含む文書に「微粒」とラベルすることが考えられる。この場合、ラベル付与部600は、データベース部500からfeature=粒径、range=1.2nm〜79nmの情報が含む文書を検索し、その検索した文書に「微粒」とラベルして出力する。
Returning to FIG. 3, the
文書分類装置100では、ラベル付与部600で生成したラベル付きの教師データに基づいて学習モデルを学習することで、未分類文書を「微粒である文書」と「微粒でない文書」とに分類することができる。「微粒」とラベルされた教師データで学習した学習モデルは、「微粒」とラベルされた文書の中から特徴語を抽出することで、未分類文書に当該特徴語が含まれるか否かで「微粒である文書」か「微粒でない文書」かに分類することができる。そのため、未分類文書の中には、「粒径が1.2nm〜79nm」という語は含まないが、当該範囲に関連する表現(例えば、「粒子径が小さい」、「粒径が細かい」などの表現)を含む文書も存在しても、文書分類装置100では、当該文書を「微粒である文書」であると分類することができる。
The
以下、本実施の形態に係る文書分類装置100を用いて、未分類文書を分類した具体例を説明する。図14は、収集した文書に含まれる粒径の値を示すヒストグラムである。文書分類装置100は、MLCC関連の特許文献を約1700件、文書データベース200から収集し、数値検索処理を用いて化学式、材料、特性などの特徴部分と、数値または数値範囲などの数値部分とを関連付けて数値データとして抽出し、データベースに格納してある。図14では、当該データベースを用いて粒径の最小値、最大値を検索した結果を、横軸に粒径、縦軸に文書数をとりヒストグラムで可視化している。
Hereinafter, a specific example of classifying unclassified documents using the
ヒストグラムにおけるA領域は、粒径が1.2nm〜79nmの数値が記載された文書を示し、その文書数は59件である。ヒストグラムにおけるB領域は、粒径が200nm〜270μmの数値が記載された文書を示し、その文書数は368件である。教師データは、A領域に含まれる文書に「微粒である」とのラベルを付し、B領域に含まれる文書に「微粒でない」とのラベルを付す。 The A region in the histogram shows documents in which numerical values having a particle size of 1.2 nm to 79 nm are described, and the number of documents is 59. The B region in the histogram shows a document in which a numerical value having a particle size of 200 nm to 270 μm is described, and the number of documents is 368. In the teacher data, the document contained in the A area is labeled as "fine grain", and the document contained in the B area is labeled as "not fine grained".
図14に示すヒストグラムを用いることで、「微粒である」とのラベルを付したA領域に対して、「微粒でない」とのラベルを付すB領域を目視で十分に離れていることを確認して決定することができる。 By using the histogram shown in FIG. 14, it was confirmed that the region A labeled as "fine particles" was visually sufficiently separated from the region B labeled as "not fine particles". Can be decided.
文書分類装置100は、上記で決定した教師データを用いて学習モデルを機械学習させる。機械学習には、例えば、一般的なテキスト分類方法であるMultinomial Naive Bayes法を用いる。もちろん、機械学習には、Multinomial Naive Bayes法以外の他の方法を用いてもよい。また、学習モデルを学習させる過程において、教師データを学習用とテスト用とを7対3の割合で分割する。教師データを学習用とテスト用とに分割する場合、「微粒である」とのラベルを付した文書と「微粒でない」とのラベルを付した文書との割合が分割する前と同じになるようにランダムに文書を選んで分割している。
The
学習モデルは、学習用の教師データで学習した後、残りのテスト用の教師データを用いて正確度(正解率)を確認する。MLCC関連の特許文献から生成した教師データで学習した学習モデルでは、学習用の教師データを正しく「微粒である文書」または「微粒でない文書」と判断できた正確度が0.938であった。これに対し、テスト用の教師データをこの学習モデルで「微粒である文書」か「微粒でない文書」かを分類した場合、正確度は0.912となり、学習用の教師データによる学習が正常に機能していることが確認できた。 After learning with the teacher data for learning, the learning model confirms the accuracy (correct answer rate) using the remaining teacher data for the test. In the learning model trained with the teacher data generated from the patent documents related to MLCC, the accuracy of correctly determining the teacher data for learning as "fine-grained document" or "non-fine-grained document" was 0.938. On the other hand, when the teacher data for the test is classified as "fine-grained document" or "non-fine-grained document" by this learning model, the accuracy is 0.912, and the learning with the teacher data for learning is normal. I was able to confirm that it was working.
また、学習した学習モデルに含まれる単語のうち重要な単語について検証を行った。図15は、文書中に含まれる単語の重要度を説明するグラフである。図15では、横軸に文書数、縦軸にtfidf値をとり、学習モデルに含まれる「BRT」、「界面」、「Ca」の3つの単語について重要度を示している。ここで、tfidf値は、文書に含まれる単語の重要度を評価する手法の1つで、多くの文書に出現する単語は重要度が低く、特定の文書にしか出現しない単語は重要度が高い。また、「Ca」は、カルシウムを示し、「BRT」は、チタン酸バリウムに希土類元素が固溶した粉末、例えばBaO-TiO2-ReO3/2系セラミックを示す。 In addition, we verified important words among the words included in the learned learning model. FIG. 15 is a graph illustrating the importance of the words contained in the document. In FIG. 15, the horizontal axis represents the number of documents and the vertical axis represents the tfidf value, and the importance of the three words “BRT”, “interface”, and “Ca” included in the learning model is shown. Here, the tfidf value is one of the methods for evaluating the importance of words contained in a document. Words appearing in many documents have low importance, and words appearing only in a specific document have high importance. .. Further, "Ca" indicates calcium, and "BRT" indicates a powder in which a rare earth element is solid-dissolved in barium titanate, for example, BaO-TiO2-ReO3 / 2 ceramic.
図15に示す結果から、学習モデルに含まれる単語には、「界面」など微粒化の目的、利点と思われる単語、「Ca」などの添加物を示す単語、「BRT」など材料を示す単語などが重要度の高い単語であることが分かる。そのため、学習した学習モデルが、「微粒である文書」か「微粒でない文書」かを分類するモデルとして妥当であることが分かる。 From the results shown in FIG. 15, the words included in the learning model include words that indicate the purpose and advantage of atomization such as "interface", words that indicate additives such as "Ca", and words that indicate materials such as "BRT". It can be seen that such as is a highly important word. Therefore, it can be seen that the learned learning model is appropriate as a model for classifying whether the learned learning model is a "fine-grained document" or a "non-fine-grained document".
次に、MLCCやLTCCなどに関連する特許文献(総数約6000件、教師データとした特許文献は含まない未分類文書。)の中から文書をランダムに20件選び、学習済モデルの文書分類装置100で、「微粒である文書」か「微粒でない文書」かを分類する。なお、この20件の文書には、あらかじめ人が「微粒である」か「微粒でない」かの正解ラベルを付しているので、学習済モデルの文書分類装置100が正しく分類することができたのか否かを比較することができる。
Next, 20 documents are randomly selected from patent documents related to MLCC, LTCC, etc. (a total of about 6000 documents, unclassified documents that do not include patent documents used as teacher data), and a document classification device for a trained model. At 100, a "fine-grained document" or a "non-fine-grained document" is classified. In addition, since the correct answer label of "fine grain" or "not fine grain" is attached to these 20 documents in advance, the
図16は、20件の文書の比較結果を示す一覧表である。図16に示す比較結果では、検索式の「粒径が1.2nm〜79nm」では検索しきれない文書を「微粒である文書」として分類することができた。具体的に、番号「CCCCC02」の文書では、文書中に「30−50nmのサイズ」の記載があるものの、「粒径」の記載がないため検索式の「粒径が1.2nm〜79nm」では検索しきれていない文書である。人であれば、ニッケルのサイズが30−50nmであるとの記載から、「粒径が1.2nm〜79nm」の範囲に入るとして「微粒である」と分類することができる。一方、学習済モデルの文書分類装置100は、人が「微粒である」と分類した番号「CCCCC02」の文書に対しても正しく「微粒である」と分類することができた。
FIG. 16 is a list showing the comparison results of 20 documents. In the comparison results shown in FIG. 16, documents that could not be searched by the search formula "particle size of 1.2 nm to 79 nm" could be classified as "fine-grained documents". Specifically, in the document with the number "CCCCC02", although there is a description of "size of 30-50 nm" in the document, there is no description of "particle size", so the search formula "particle size is 1.2 nm to 79 nm". It is a document that has not been searched completely. For humans, from the description that the size of nickel is 30-50 nm, it can be classified as "fine grain" as it falls within the range of "particle size of 1.2 nm to 79 nm". On the other hand, the
また、番号「PPPPP01」の文書では、文書中に「10〜100nmBaTiO3」の記載があるものの、「79nm」より大きい範囲を含む記載があるため検索式の「粒径が1.2nm〜79nm」では検索しきれていない文書である。人であれば、BaTiO3のサイズが10〜100nmであるとの記載から、「粒径が1.2nm〜79nm」の範囲にほぼ含まれるとして「微粒である」と分類することができる。一方、学習済モデルの文書分類装置100は、人が「微粒である」と分類した番号「PPPPP01」の文書に対しても正しく「微粒である」と分類することができた。逆に、学習済モデルの文書分類装置100は、分野や粒径が一致しない文書を誤って分類することはなかった。
Further, in the document of the number "PPPPP01", although there is a description of "10 to 100 nm BaTiO3" in the document, there is a description including a range larger than "79 nm", so that the search formula "particle size is 1.2 nm to 79 nm" is used. This is a document that has not been completely searched. For humans, from the description that the size of BaTiO3 is 10 to 100 nm, it can be classified as "fine grain" as it is almost included in the range of "particle size of 1.2 nm to 79 nm". On the other hand, the
以上のように、本実施の形態に係る文書分類装置100は、特定の数値データに関する項目を含む文書の分類を行う文書分類装置である。文書分類装置100は、複数の文書が入力される入力部と、入力部で入力された複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する分類部と、分類部で分類した文書の情報を出力する出力部と、を備える。文書分類装置100は、学習モデルの学習を行うために、複数の文書から数値データを抽出するデータ抽出部400と、データ抽出部400で抽出した数値データのうち特定の数値データを含む文書にラベルを付与するラベル付与部600と、を備え、複数の文書およびラベル付与部で付与されたラベルを用いて、学習モデルの学習を行う。データ抽出部400は、形態素・字句解析部410、関連解析部430、除外設定部450、抽出部470を含んでいる。形態素・字句解析部410は、収集した文書のテキストデータを複数の形態素に分割し、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する。関連解析部430は、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定する。除外設定部450は、関連解析部430において、特徴部分と数値部分との関連の判定から除外する条件を予め設定する。抽出部470は、関連解析部430で関連すると判定された特徴部分と数値部分とを数値データとして抽出する。
As described above, the
これにより、本実施の形態に係る文書分類装置100では、特徴部分と数値部分との関連の判定から除外する条件を予め設定してあるので、数値部分と特徴部分とを正しく関連付けて抽出することができ、特定の数値データを含む文書にラベルを付すことができる。また、本実施の形態に係る文書分類装置100では、特定の数値データを含む文書にラベルを付し、そのラベルが付された文書で学習モデルを学習させることで、未分類文書から特定の数値データに関連する文書を分類することができる。
As a result, in the
また、関連解析部430は、除外設定部450で予め設定された条件を1つの形態素として圧縮して、特徴部分と数値部分との間に含まれる形態素の数をカウントしてもよい。これにより、文書分類装置100は、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下と判断され、特徴部分と数値部分とを関連付け易くなる。
Further, the
さらに、形態素・字句解析部410は、分割した複数の形態素のうちに1つの数値が含まれている場合、当該数値に予め定められた数値範囲を付与して数値部分と特定してもよい。これにより、文書分類装置100は、数値同士を比較する際に、数値に幅を持った数値範囲同士の比較となり、比較が容易となる。
Further, when the morpheme /
また、形態素・字句解析部410は、分割した複数の形態素のうちに複数の数値と、範囲を示す予め定められた形態素とが含まれている場合、当該複数の数値に基づく数値範囲を数値部分と特定してもよい。これにより、文書分類装置100は、数値範囲を1つの数値部分として特定することができる。
Further, when the morpheme /
さらに、形態素・字句解析部410は、分割した複数の形態素のうちに単位が含まれている場合、当該単位と数値とを1つの数値部分と特定してもよい。これにより、文書分類装置100は、単位を含めた数値部分を特定することができ、単位を考慮して数値部分を比較しやすくなる。
Further, the morpheme /
また、形態素・字句解析部410は、分割した複数の形態素から、予め定められた特性名、材料名、化学式および組成のいずれかを特徴部分と特定してもよい。形態素・字句解析部410は、化学式および組成のいずれかに数値範囲または数式を含めて特徴部分と特定してもよい。これにより、文書分類装置100は、様々な種類の特徴部分と数値部分との関連付けが可能となる。
Further, the morpheme /
コンピュータが、複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する場合に、学習モデルの学習をする学習方法である。学習方法は、複数の文書から数値データを抽出するステップと、抽出した数値データのうち特定の数値データを含む文書にラベルを付与するステップと、を含む。複数の文書および付与されたラベルを用いて、学習モデルの学習を行う処理をコンピュータに実行させ、数値データを抽出するステップは、収集した文書のテキストデータを複数の形態素に分割するステップと、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定するステップとを含む。数値データを抽出するステップは、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定するステップを含む。数値データを抽出するステップは、特徴部分と数値部分との関連の判定から除外する条件を予め設定するステップと、関連すると判定された特徴部分と数値部分とを数値データとして抽出するステップとを含む。 This is a learning method for learning a learning model when a computer classifies a plurality of documents into a document containing items related to specific numerical data and a document not containing items by a learning model including a neural network. The learning method includes a step of extracting numerical data from a plurality of documents and a step of assigning a label to a document containing specific numerical data among the extracted numerical data. The steps of having a computer execute a process of learning a learning model using a plurality of documents and assigned labels and extracting numerical data include a step of dividing the text data of the collected document into a plurality of morphemes and a step of dividing the data. It includes a step of identifying a predetermined feature part and a numerical part from a plurality of morphemes. The step of extracting the numerical data includes a predetermined morpheme indicating the relationship between the specified feature part and the numerical part, and the number of morphemes contained between the feature part and the numerical part is predetermined. In the case of a number or less, a step of determining that the feature part and the numerical part are related is included. The step of extracting the numerical data includes a step of presetting a condition to be excluded from the determination of the relationship between the characteristic part and the numerical part, and a step of extracting the characteristic part and the numerical part determined to be related as numerical data. ..
コンピュータが、複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する場合に、学習モデルの学習をさせる学習プログラムである。学習プログラムは、複数の文書から数値データを抽出するデータ抽出処理と、抽出した数値データのうち特定の数値データを含む文書にラベルを付与するラベル付与処理と、を含む。複数の文書および付与されたラベルを用いて、学習モデルの学習を行う処理をコンピュータに実行させ、データ抽出処理は、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定する関連解析処理を含む。データ抽出処理は、特徴部分と数値部分との関連の判定から除外する条件を予め設定する除外設定処理と、関連すると判定された特徴部分と数値部分とを数値データとして抽出する抽出処理とを含む。 This is a learning program in which a computer trains a learning model when a computer classifies a plurality of documents into a document containing an item related to specific numerical data and a document not containing the item by a learning model including a neural network. The learning program includes a data extraction process for extracting numerical data from a plurality of documents and a labeling process for assigning a label to a document containing specific numerical data among the extracted numerical data. Using a plurality of documents and assigned labels, a computer is made to execute a process of training a training model, and a data extraction process is a predetermined morpheme showing a relationship between a specified feature part and a numerical part. Includes, and includes a related analysis process for determining that the feature part and the numerical part are related when the number of morphemes contained between the feature part and the numerical part is less than or equal to a predetermined number. The data extraction process includes an exclusion setting process in which conditions for excluding from the determination of the relationship between the feature part and the numerical part are set in advance, and an extraction process for extracting the characteristic part and the numerical part determined to be related as numerical data. ..
[変形例]
(1) 前述の実施の形態では、特許文献データベースから文書を収集して、収集した文書から特徴部分と数値部分を関連付けた数値データを抽出する例について説明した。しかし、これに限定されず、特許文献データベース以外の文書データベース(例えば、学術論文データベース)から文書を収集して、当該文書から特徴部分と数値部分を関連付けた数値データを抽出する構成であってもよい。また、複数種類のデータベース(例えば、特許文献データベースおよび学術論文データベース)から文書を収集して、当該文書から特徴部分と数値部分を関連付けた数値データを抽出する構成であってもよい。
[Modification example]
(1) In the above-described embodiment, an example in which a document is collected from a patent document database and numerical data in which a characteristic part and a numerical part are associated with each other is extracted from the collected document has been described. However, the present invention is not limited to this, and even in a configuration in which a document is collected from a document database other than the patent document database (for example, an academic paper database) and numerical data in which a characteristic part and a numerical part are associated with each other is extracted from the document. good. Further, a configuration may be configured in which documents are collected from a plurality of types of databases (for example, a patent document database and an academic paper database), and numerical data in which a characteristic portion and a numerical portion are associated with each other is extracted from the document.
(2) 前述で説明した各種処理は、1つのCPUによって実現されるものとしてあるが、これに限られない。これらの各種処理は、複数のCPUによって分散して実現されてもよい。これらCPUで実行されるプログラムは、有形の読取可能な少なくとも1つの媒体から、1以上の命令を読み出すことにより前述の各種処理を実行しうる。 (2) The various processes described above are supposed to be realized by one CPU, but are not limited to this. These various processes may be distributed and realized by a plurality of CPUs. The programs executed by these CPUs can execute the above-mentioned various processes by reading one or more instructions from at least one tangible readable medium.
このような媒体は、磁気媒体(たとえば、ハードディスク)、光学媒体(例えば、コンパクトディスク(CD,DVD)、揮発性メモリ、不揮発性メモリの任意のタイプのメモリなどの形態をとるが、これらの形態に限定されるものではない。 Such media take the form of magnetic media (eg, hard disks), optical media (eg, compact discs (CDs, DVDs), volatile memories, memories of any type of non-volatile memory, and the like. It is not limited to.
揮発性メモリはDRAM(Dynamic Random Access Memory)およびSRAM(Static Random Access Memory)を含み得る。不揮発性メモリは、ROM、NVRAMを含み得る。 Volatile memory may include DRAM (Dynamic Random Access Memory) and SRAM (Static Random Access Memory). The non-volatile memory may include ROM, NVRAM.
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した説明ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 It should be considered that the embodiments disclosed this time are exemplary in all respects and not restrictive. The scope of the present invention is shown by the scope of claims, not the above description, and is intended to include all modifications within the meaning and scope equivalent to the scope of claims.
100 文書分類装置、200 文書データベース、300 収集部、320 中間ファイル、400 データ抽出部、410 形態素・字句解析部、412 形態素解析部、430 関連解析部、450 除外設定部、470 抽出部、500 データベース部、600 ラベル付与部。 100 document classification device, 200 document database, 300 collection unit, 320 intermediate file, 400 data extraction unit, 410 morphological / lexical analysis unit, 412 morphological analysis unit, 430 related analysis unit, 450 exclusion setting unit, 470 extraction unit, 500 database Department, 600 Labeling part.
Claims (9)
複数の文書が入力される入力部と、
前記入力部で入力された複数の文書を、ニューラルネットワークを含む学習モデルによって前記特定の数値データに関する項目を含む文書と含まない文書とに分類する分類部と、
前記分類部で分類した文書の情報を出力する出力部と、を備え、
前記学習モデルの学習を行うために、
複数の文書から数値データを抽出するデータ抽出部と、
前記データ抽出部で抽出した数値データのうち前記特定の数値データを含む文書にラベルを付与するラベル付与部と、を備え、
複数の文書および前記ラベル付与部で付与されたラベルを用いて、前記学習モデルの学習を行い、
前記データ抽出部は、
収集した文書のテキストデータを複数の形態素に分割する形態素解析部と、
前記形態素解析部で分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する字句解析部と、
前記字句解析部で特定した前記特徴部分と前記数値部分との間に、関連を示す予め定められた形態素を含み、前記特徴部分と前記数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、前記特徴部分と前記数値部分とが関連すると判定する関連解析部と、
前記関連解析部において、前記特徴部分と前記数値部分との関連の判定から除外する条件を予め設定する除外設定部と、
前記関連解析部で関連すると判定された前記特徴部分と前記数値部分とを数値データとして抽出する抽出部とを含む、文書分類装置。 A document classification device that classifies documents containing items related to specific numerical data.
Input section where multiple documents are input and
A classification unit that classifies a plurality of documents input by the input unit into a document that includes an item related to the specific numerical data and a document that does not include an item related to the specific numerical data by a learning model including a neural network.
It is provided with an output unit that outputs information on documents classified by the classification unit.
In order to train the learning model,
A data extractor that extracts numerical data from multiple documents,
A labeling unit for assigning a label to a document containing the specific numerical data among the numerical data extracted by the data extraction unit is provided.
The learning model is trained using a plurality of documents and the labels given by the labeling unit, and the learning model is trained.
The data extraction unit
A morphological analysis unit that divides the text data of the collected document into multiple morphemes,
A lexical analysis unit that identifies predetermined feature parts and numerical parts from a plurality of morphemes divided by the morphological analysis unit, and
A predetermined morpheme indicating a relationship is included between the characteristic portion and the numerical value portion specified by the lexical analysis unit, and the number of morphemes included between the characteristic portion and the numerical value portion is predetermined. A related analysis unit that determines that the characteristic part and the numerical value part are related when the number is less than or equal to
In the related analysis unit, an exclusion setting unit that presets conditions to be excluded from the determination of the relationship between the characteristic portion and the numerical value portion, and the exclusion setting unit.
A document classification device including an extraction unit that extracts the feature portion and the numerical value portion determined to be related by the related analysis unit as numerical data.
複数の文書から数値データを抽出するステップと、
抽出した数値データのうち前記特定の数値データを含む文書にラベルを付与するステップと、を含み、
複数の文書および付与されたラベルを用いて、前記学習モデルの学習を行う処理をコンピュータに実行させ、
数値データを抽出するステップは、
収集した文書のテキストデータを複数の形態素に分割するステップと、
分割した複数の形態素から予め定められた特徴部分と数値部分とを特定するステップと、
特定した前記特徴部分と前記数値部分との間に、関連を示す予め定められた形態素を含み、前記特徴部分と前記数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、前記特徴部分と前記数値部分とが関連すると判定するステップと、
前記特徴部分と前記数値部分との関連の判定から除外する条件を予め設定するステップと、
関連すると判定された前記特徴部分と前記数値部分とを数値データとして抽出するステップとを含む、学習方法。 A learning method for learning a learning model when a computer classifies a plurality of documents into a document containing an item related to specific numerical data and a document not containing an item by a learning model including a neural network.
Steps to extract numerical data from multiple documents,
Including a step of assigning a label to a document containing the specific numerical data among the extracted numerical data.
Using a plurality of documents and assigned labels, a computer is made to execute a process of learning the learning model.
The step to extract numerical data is
Steps to divide the text data of the collected document into multiple morphemes,
A step to identify a predetermined feature part and a numerical part from a plurality of divided morphemes, and
When a predetermined morpheme indicating a relationship is included between the specified feature portion and the numerical value portion, and the number of morphemes contained between the feature portion and the numerical value portion is equal to or less than a predetermined number. In addition, a step of determining that the feature portion and the numerical value portion are related,
A step of presetting conditions to be excluded from the determination of the relationship between the feature portion and the numerical portion, and
A learning method including a step of extracting the characteristic portion determined to be related and the numerical portion as numerical data.
複数の文書から数値データを抽出するデータ抽出処理と、
抽出した数値データのうち前記特定の数値データを含む文書にラベルを付与するラベル付与処理と、を含み、
複数の文書および付与されたラベルを用いて、前記学習モデルの学習を行う処理をコンピュータに実行させ、
前記データ抽出処理は、
収集した文書のテキストデータを複数の形態素に分割する形態素解析処理と、
分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する字句解析処理と、
特定した前記特徴部分と前記数値部分との間に、関連を示す予め定められた形態素を含み、前記特徴部分と前記数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、前記特徴部分と前記数値部分とが関連すると判定する関連解析処理と、
前記特徴部分と前記数値部分との関連の判定から除外する条件を予め設定する除外設定処理と、
関連すると判定された前記特徴部分と前記数値部分とを数値データとして抽出する抽出処理とを含む、学習プログラム。 A learning program for training a plurality of documents when a computer classifies a plurality of documents into a document containing an item related to specific numerical data and a document not containing an item by a learning model including a neural network.
Data extraction processing that extracts numerical data from multiple documents,
Includes a labeling process for assigning a label to a document containing the specific numerical data among the extracted numerical data.
Using a plurality of documents and assigned labels, a computer is made to execute a process of learning the learning model.
The data extraction process
Morphological analysis processing that divides the text data of the collected document into multiple morphemes,
Lexical analysis processing that identifies predetermined feature parts and numerical parts from a plurality of divided morphemes,
When a predetermined morpheme indicating a relationship is included between the specified feature portion and the numerical value portion, and the number of morphemes contained between the feature portion and the numerical value portion is equal to or less than a predetermined number. In addition, the related analysis process for determining that the feature portion and the numerical value portion are related,
Exclusion setting processing that presets conditions to be excluded from the determination of the relationship between the feature portion and the numerical portion, and
A learning program including an extraction process for extracting the characteristic portion determined to be related and the numerical portion as numerical data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020033770A JP7363577B2 (en) | 2020-02-28 | 2020-02-28 | Document classification device, learning method, and learning program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020033770A JP7363577B2 (en) | 2020-02-28 | 2020-02-28 | Document classification device, learning method, and learning program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021135931A true JP2021135931A (en) | 2021-09-13 |
JP7363577B2 JP7363577B2 (en) | 2023-10-18 |
Family
ID=77661692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020033770A Active JP7363577B2 (en) | 2020-02-28 | 2020-02-28 | Document classification device, learning method, and learning program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7363577B2 (en) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005157887A (en) * | 2003-11-27 | 2005-06-16 | Nippon Telegr & Teleph Corp <Ntt> | Document classifying device and method and its program |
JP2006350989A (en) * | 2005-05-18 | 2006-12-28 | Oki Electric Ind Co Ltd | Range information extracting device, range information extracting method and range information extracting program |
JP2008287388A (en) * | 2007-05-16 | 2008-11-27 | National Institute Of Information & Communication Technology | Information extracting device, information extraction method, and information extraction program |
JP2009098952A (en) * | 2007-10-17 | 2009-05-07 | Mitsubishi Electric Corp | Information retrieval system |
JP2009237640A (en) * | 2008-03-26 | 2009-10-15 | National Institute Of Information & Communication Technology | Information extraction device, information extraction method, and information extraction program |
JP2014048987A (en) * | 2012-09-02 | 2014-03-17 | Management Of Technology Solution Cooperation | Case component extraction program |
JP2019179470A (en) * | 2018-03-30 | 2019-10-17 | 富士通株式会社 | Information processing program, information processing method, and information processing device |
JP2020080087A (en) * | 2018-11-14 | 2020-05-28 | 株式会社村田製作所 | Numerical-value retrieving device, numerical-value retrieving method, and numerical-value retrieving program |
-
2020
- 2020-02-28 JP JP2020033770A patent/JP7363577B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005157887A (en) * | 2003-11-27 | 2005-06-16 | Nippon Telegr & Teleph Corp <Ntt> | Document classifying device and method and its program |
JP2006350989A (en) * | 2005-05-18 | 2006-12-28 | Oki Electric Ind Co Ltd | Range information extracting device, range information extracting method and range information extracting program |
JP2008287388A (en) * | 2007-05-16 | 2008-11-27 | National Institute Of Information & Communication Technology | Information extracting device, information extraction method, and information extraction program |
JP2009098952A (en) * | 2007-10-17 | 2009-05-07 | Mitsubishi Electric Corp | Information retrieval system |
JP2009237640A (en) * | 2008-03-26 | 2009-10-15 | National Institute Of Information & Communication Technology | Information extraction device, information extraction method, and information extraction program |
JP2014048987A (en) * | 2012-09-02 | 2014-03-17 | Management Of Technology Solution Cooperation | Case component extraction program |
JP2019179470A (en) * | 2018-03-30 | 2019-10-17 | 富士通株式会社 | Information processing program, information processing method, and information processing device |
JP2020080087A (en) * | 2018-11-14 | 2020-05-28 | 株式会社村田製作所 | Numerical-value retrieving device, numerical-value retrieving method, and numerical-value retrieving program |
Also Published As
Publication number | Publication date |
---|---|
JP7363577B2 (en) | 2023-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10325020B2 (en) | Contextual pharmacovigilance system | |
US10198479B2 (en) | Systems and methods for contextual retrieval and contextual display of records | |
US10489439B2 (en) | System and method for entity extraction from semi-structured text documents | |
US8494987B2 (en) | Semantic relationship extraction, text categorization and hypothesis generation | |
KR101813683B1 (en) | Method for automatic correction of errors in annotated corpus using kernel Ripple-Down Rules | |
TW201737118A (en) | Method and device for webpage text classification, method and device for webpage text recognition | |
JP5751253B2 (en) | Information extraction system, method and program | |
Isa et al. | Indobert for indonesian fake news detection | |
JP7092001B2 (en) | Numerical search device, numerical search method, and numerical search program | |
Ribeiro et al. | Discovering IMRaD structure with different classifiers | |
Thakur et al. | A review on text based emotion recognition system | |
CN113220888B (en) | Case clue element extraction method and system based on Ernie model | |
US11580499B2 (en) | Method, system and computer-readable medium for information retrieval | |
JP7363577B2 (en) | Document classification device, learning method, and learning program | |
Silva et al. | An approach to support the selection of relevant studies in systematic review and systematic mappings | |
WO2010038481A1 (en) | Computer-readable recording medium containing a sentence extraction program, sentence extraction method, and sentence extraction device | |
WO2021075998A1 (en) | System for classifying data in order to detect confidential information in a text | |
Ousidhoum et al. | Towards the refinement of the Arabic soundex | |
KR102609227B1 (en) | Method and apparatus for detecting safety information via artificial intelligence from electronic document | |
US20230359826A1 (en) | Computer-implemented system and method to perform natural language processing entity research and resolution | |
Sulaiman et al. | Feature extraction using regular expression in detecting proper noun for Malay news articles based on KNN algorithm | |
Zhang et al. | A Semantic Search Framework for Similar Audit Issue Recommendation in Financial Industry | |
CN113313184B (en) | Heterogeneous integrated self-bearing technology liability automatic detection method | |
CN114418033B (en) | Code programming language classification method utilizing CodeBert layers of characterization information | |
Moreno-Acevedo et al. | Comparison of Named Entity Recognition Methods on Real-World and Highly Imbalanced Business Document Datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230905 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230913 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230918 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7363577 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |