JP2021135931A - Document classification device, learning method and learning program - Google Patents

Document classification device, learning method and learning program Download PDF

Info

Publication number
JP2021135931A
JP2021135931A JP2020033770A JP2020033770A JP2021135931A JP 2021135931 A JP2021135931 A JP 2021135931A JP 2020033770 A JP2020033770 A JP 2020033770A JP 2020033770 A JP2020033770 A JP 2020033770A JP 2021135931 A JP2021135931 A JP 2021135931A
Authority
JP
Japan
Prior art keywords
document
numerical
data
unit
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020033770A
Other languages
Japanese (ja)
Other versions
JP7363577B2 (en
Inventor
真一 加藤
Shinichi Kato
真一 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Murata Manufacturing Co Ltd
Original Assignee
Murata Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Murata Manufacturing Co Ltd filed Critical Murata Manufacturing Co Ltd
Priority to JP2020033770A priority Critical patent/JP7363577B2/en
Publication of JP2021135931A publication Critical patent/JP2021135931A/en
Application granted granted Critical
Publication of JP7363577B2 publication Critical patent/JP7363577B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To provide a document classification device, a learning method and a learning program that can correctly associate a numerical value portion with a feature portion to understand, and that can classify a document.SOLUTION: A document classification device classifies a document which includes an item associated with specific numerical data by means of a learning model including a neural network. The learning model is learned using a label imparted to a document that includes specific numerical data of numerical data extracted by a data extraction unit. A data extraction unit 400 divides text data of a collected document into a plurality of morphemes, identifies a predetermined feature portion and a numerical value portion from the plurality of divided morphemes, and determines a relationship between the feature portion and the numerical value portion. The data extraction unit 400 previously sets a condition to be excluded from the determination of the relationship between the feature portion and the numerical value portion.SELECTED DRAWING: Figure 3

Description

本発明は、文書分類装置、学習方法および、学習プログラムに関する。 The present invention relates to a document classification device, a learning method, and a learning program.

近年、様々な材料が開発されており、当該開発に基づいて多数の特許出願や論文発表が行われている。これらの特許文献や論文に記載された特性の数値や、組成の数値範囲など情報は膨大であり、開発者がそれらの情報をすべて把握した上で新たな材料の開発を行うことは不可能である。 In recent years, various materials have been developed, and many patent applications and treatises have been published based on the development. The amount of information such as the numerical values of the properties and the numerical range of the composition described in these patent documents and treatises is enormous, and it is impossible for the developer to develop a new material after grasping all the information. be.

そこで、開発者は、多数の特許文献や論文が格納されたデータベースから開発に必要な情報を検索する必要がある。しかし、データベースから情報を検索する場合、特許文献1に示すように自然な文章からなる検索文を用いて検索することができたとしても、これらの文書に記載された数値または数値範囲を単に文字としてしか検索することができなかった。 Therefore, the developer needs to search the database containing a large number of patent documents and treatises for the information necessary for development. However, when searching for information from a database, even if it is possible to search using a search sentence consisting of natural sentences as shown in Patent Document 1, the numerical values or numerical range described in these documents are simply written in characters. I could only search as.

また、注目する数値または数値範囲に関連する文書を未分類の文書から分類する場合、特許文献2では、複数テキストを予め所定項目別に分類して複数のサブデータベースとしておき、そのうち注目する注目サブデータベースに格納されている複数テキストに対してテキストマイニング処理を施すことで文書を迅速に分類している。 Further, when classifying a document related to a numerical value or a numerical range of interest from an unclassified document, in Patent Document 2, a plurality of texts are classified in advance according to predetermined items to form a plurality of sub-databases, and the sub-database of interest is selected. Documents are quickly classified by performing text mining processing on multiple texts stored in.

特開2000−259675号公報Japanese Unexamined Patent Publication No. 2000-259675 特開2004−5025号公報Japanese Unexamined Patent Publication No. 2004-5025

特許文献2に記載の分類装置では、文書に対して単にテキストマイニング処理を施すだけで、文書に記載された数値または数値範囲を単に文字として把握して文書を分類しているに過ぎなかった。 The classification device described in Patent Document 2 simply performs a text mining process on a document, and simply grasps the numerical value or the numerical range described in the document as characters to classify the document.

数値または数値範囲に基づいて文書を分類するためには、データベースに格納された文書に記載された数値または数値範囲と、どの特性または材料とが関連しているのかを正確に把握した上でデータを抽出する必要がある。しかし、文書に記載された数値または数値範囲と、記載された位置が近い特性または材料とを単純に関連付けデータを抽出したのでは、数値または数値範囲(数値部分)が誤った特性や材料(特徴部分)とを関連付けられてしまい、分類装置は数値または数値範囲を正しく把握して分類できない問題があった。 In order to classify a document based on a numerical value or numerical range, the data must be understood exactly which property or material is related to the numerical value or numerical range described in the document stored in the database. Need to be extracted. However, if the numerical value or numerical range (numerical part) is incorrect if the numerical value or numerical range (numerical part) is incorrect by simply associating the numerical value or numerical range described in the document with the characteristic or material whose position is close to each other (characteristic). There was a problem that the classification device could not correctly grasp the numerical value or the numerical range and classify it because it was associated with the part).

そこで、本発明の目的は、このような課題を解決するためになされたものであって、数値部分と特徴部分とを正しく関連付けて把握し、文書を分類することが可能な文書分類装置、学習方法および、学習プログラムを提供することである。 Therefore, an object of the present invention is to solve such a problem, and a document classification device and learning capable of correctly associating and grasping a numerical part and a characteristic part and classifying a document. To provide methods and learning programs.

本発明の一形態に係る文書分類装置は、特定の数値データに関する項目を含む文書の分類を行う文書分類装置であって、複数の文書が入力される入力部と、入力部で入力された複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する分類部と、分類部で分類した文書の情報を出力する出力部と、を備える。学習モデルの学習を行うために、複数の文書から数値データを抽出するデータ抽出部と、データ抽出部で抽出した数値データのうち特定の数値データを含む文書にラベルを付与するラベル付与部と、を備え、複数の文書およびラベル付与部で付与されたラベルを用いて、学習モデルの学習を行う。データ抽出部は、収集した文書のテキストデータを複数の形態素に分割する形態素解析部と、形態素解析部で分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する字句解析部と、字句解析部で特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定する関連解析部と、関連解析部において、特徴部分と数値部分との関連の判定から除外する条件を予め設定する除外設定部と、関連解析部で関連すると判定された特徴部分と数値部分とを数値データとして抽出する抽出部とを含む。 The document classification device according to one embodiment of the present invention is a document classification device that classifies documents including items related to specific numerical data, and is an input unit in which a plurality of documents are input and a plurality of documents input in the input unit. The document is classified into a document including an item related to specific numerical data and a document not including the item by a learning model including a neural network, and an output unit for outputting information of the document classified by the classification unit. In order to train the training model, a data extraction unit that extracts numerical data from a plurality of documents, a labeling unit that assigns a label to a document containing specific numerical data among the numerical data extracted by the data extraction unit, and a labeling unit. The learning model is trained using a plurality of documents and labels given by the labeling unit. The data extraction unit includes a morphological analysis unit that divides the text data of the collected document into a plurality of morphological elements, and a phrase analysis unit that identifies a predetermined feature part and a numerical part from the plurality of morphological elements divided by the morphological element analysis unit. , A predetermined number of morphological elements indicating a relationship is included between the characteristic part and the numerical value part specified by the phrase analysis unit, and the number of morphological elements contained between the characteristic part and the numerical value part is less than or equal to the predetermined number. In some cases, the related analysis unit that determines that the feature part and the numerical part are related, the exclusion setting unit that presets the conditions to be excluded from the judgment of the relationship between the characteristic part and the numerical part in the related analysis unit, and the related analysis unit. Includes an extraction unit that extracts the feature part and the numerical part determined to be related in (1) as numerical data.

本発明の一形態に係る学習方法は、コンピュータが、複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する場合に、学習モデルの学習をする学習方法であって、複数の文書から数値データを抽出するステップと、抽出した数値データのうち特定の数値データを含む文書にラベルを付与するステップと、を含み、複数の文書および付与されたラベルを用いて、学習モデルの学習を行う処理をコンピュータに実行させる。数値データを抽出するステップは、収集した文書のテキストデータを複数の形態素に分割するステップと、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定するステップと、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定するステップと、特徴部分と数値部分との関連の判定から除外する条件を予め設定するステップと、関連すると判定された特徴部分と数値部分とを数値データとして抽出するステップとを含む。 The learning method according to one embodiment of the present invention is to learn a learning model when a computer classifies a plurality of documents into a document including an item related to specific numerical data and a document not containing an item by a learning model including a neural network. This is a learning method that includes a step of extracting numerical data from a plurality of documents and a step of assigning a label to a document containing a specific numerical data among the extracted numerical data. Using the label, let the computer execute the process of training the training model. The steps for extracting numerical data include a step of dividing the text data of the collected document into a plurality of morphological elements, a step of specifying a predetermined feature part and a numerical part from the divided morphology elements, and a specified feature part. When a predetermined number of morphological elements indicating a relationship is included between and the numerical part and the number of morphological elements contained between the characteristic part and the numerical part is less than or equal to the predetermined number, the characteristic part and the numerical part Includes a step of determining that is related, a step of presetting conditions to be excluded from the determination of the relationship between the feature part and the numerical part, and a step of extracting the characteristic part and the numerical part determined to be related as numerical data. ..

本発明の一形態に係る学習プログラムは、コンピュータが、複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する場合に、学習モデルの学習をさせる学習プログラムであって、複数の文書から数値データを抽出するデータ抽出処理と、抽出した数値データのうち特定の数値データを含む文書にラベルを付与するラベル付与処理と、を含み、複数の文書および付与されたラベルを用いて、学習モデルの学習を行う処理をコンピュータに実行させる。データ抽出処理は、収集した文書のテキストデータを複数の形態素に分割する形態素解析処理と、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する字句解析処理と、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定する関連解析処理と、特徴部分と数値部分との関連の判定から除外する条件を予め設定する除外設定処理と、関連すると判定された特徴部分と数値部分とを数値データとして抽出する抽出処理とを含む。 The learning program according to one embodiment of the present invention learns a learning model when a computer classifies a plurality of documents into a document containing items related to specific numerical data and a document not containing items by a learning model including a neural network. This is a learning program that includes a data extraction process for extracting numerical data from a plurality of documents and a labeling process for assigning a label to a document containing specific numerical data among the extracted numerical data. Using the document and the assigned label, let the computer execute the process of training the training model. The data extraction process includes a morphological analysis process that divides the text data of the collected document into a plurality of morphological elements, a phrase analysis process that specifies a predetermined feature part and a numerical part from the divided morphological elements, and a specified feature. When a predetermined morphological element indicating a relationship is included between the part and the numerical part and the number of morphological elements contained between the characteristic part and the numerical part is less than or equal to the predetermined number, the characteristic part and the numerical part are included. The related analysis process that determines that is related, the exclusion setting process that presets the conditions to be excluded from the determination of the relationship between the feature part and the numerical part, and the feature part and the numerical part that are determined to be related are extracted as numerical data. Includes extraction processing.

本発明によれば、特徴部分と数値部分との関連の判定から除外する条件を予め設定してあるので、数値部分と特徴部分とを正しく関連付けて把握し、文書を分類することができる。 According to the present invention, since the conditions for excluding from the determination of the relationship between the characteristic portion and the numerical portion are set in advance, the numerical portion and the characteristic portion can be correctly associated and grasped, and the document can be classified.

本実施の形態に係る文書分類装置の一例の概略図である。It is the schematic of an example of the document classification apparatus which concerns on this embodiment. 本実施の形態に係る文書分類装置の構成を説明するためのブロック図である。It is a block diagram for demonstrating the structure of the document classification apparatus which concerns on this Embodiment. 本実施の形態に係る文書分類装置での数値検索処理を説明するための機能ブロック図である。It is a functional block diagram for demonstrating the numerical search process in the document classification apparatus which concerns on this embodiment. 本実施の形態に係る文書分類装置の収集部での処理を説明するための機能ブロック図である。It is a functional block diagram for demonstrating the process in the collection part of the document classification apparatus which concerns on this embodiment. 本実施の形態に係る文書分類装置のデータ抽出部での処理を説明するための機能ブロック図である。It is a functional block diagram for demonstrating the process in the data extraction part of the document classification apparatus which concerns on this embodiment. 本実施の形態に係る文書分類装置の形態素・字句解析部での処理を説明するための機能ブロック図である。It is a functional block diagram for demonstrating the process in the morpheme / lexical analysis part of the document classification apparatus which concerns on this embodiment. 本実施の形態に係る文書分類装置の形態素・字句解析部での処理の一例を説明するための概念図である。It is a conceptual diagram for demonstrating an example of processing in the morpheme / lexical analysis part of the document classification apparatus which concerns on this embodiment. 本実施の形態に係る文書分類装置の形態素・字句解析部での処理の別の一例を説明するための概念図である。It is a conceptual diagram for demonstrating another example of the processing in the morpheme / lexical analysis part of the document classification apparatus which concerns on this embodiment. 本実施の形態に係る文書分類装置の関連解析部での処理を説明するための機能ブロック図である。It is a functional block diagram for demonstrating the process in the relation analysis part of the document classification apparatus which concerns on this embodiment. 本実施の形態に係る文書分類装置の関連解析部での処理の一例を説明するための概念図である。It is a conceptual diagram for demonstrating an example of processing in the relation analysis part of the document classification apparatus which concerns on this Embodiment. 誤って関連がある字句と判定する一例を説明するための概念図である。It is a conceptual diagram for demonstrating an example of erroneously determining a related word. 本実施の形態に係る文書分類装置の関連解析部で除外設定部の条件を考慮した処理の一例を説明するための概念図である。It is a conceptual diagram for demonstrating an example of the process which considered the condition of the exclusion setting part in the related analysis part of the document classification apparatus which concerns on this embodiment. 除外設定部に予め設定してある関連付けを除外する条件の一例を説明するための概念図である。It is a conceptual diagram for demonstrating an example of the condition which excludes the association preset in the exclusion setting part. 収集した文書に含まれる粒径の値を示すヒストグラムである。It is a histogram which shows the value of the particle diameter contained in the collected document. 文書中に含まれる単語の重要度を説明するグラフである。It is a graph explaining the importance of a word contained in a document. 20件の文書の比較結果を示す一覧表である。It is a list which shows the comparison result of 20 documents.

以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰り返さない。
[実施の形態]
図1は、本実施の形態に係る文書分類装置100の一例の概略図である。文書分類装置100は、未分類の文書から特定の数値データに関する項目を含む文書を分類する。文書分類装置100では、ユーザが検索式を入力すると、当該検索式に関連する内容が含まれる文書を、未分類文書(例えば、特許文献データベースから収集した特定分野の文書)の中から分類して、その分類した文書の情報をユーザに出力する。
Hereinafter, embodiments of the present disclosure will be described in detail with reference to the drawings. The same or corresponding parts in the drawings are designated by the same reference numerals, and the description thereof will not be repeated.
[Embodiment]
FIG. 1 is a schematic view of an example of a document classification device 100 according to the present embodiment. The document classification device 100 classifies documents including items related to specific numerical data from unclassified documents. When the user inputs a search formula, the document classification device 100 classifies documents including contents related to the search formula from unclassified documents (for example, documents in a specific field collected from a patent document database). , Output the information of the classified document to the user.

具体的に、MLCC(Multilayer Ceramic Chip Capacitor)やLTCC(Low Temperature Co-fired Ceramics)などの開発において、粒径が80nm未満の微粒である材料の開発を行う場合に、文書分類装置100に検索式として「粒径が1.2nm〜79nm」と入力し、未分類文書の中から「粒径が1.2nm〜79nm」に関連する内容の文書を「微粒である文書」と分類して、その分類した文書の情報をユーザに出力する。 Specifically, in the development of MLCC (Multilayer Ceramic Chip Capacitor) and LTCC (Low Temperature Co-fired Ceramics), when developing a material having a particle size of less than 80 nm, a search formula is used in the document classification device 100. Enter "particle size is 1.2 nm to 79 nm", and classify documents related to "particle size 1.2 nm to 79 nm" as "fine-grained documents" from unclassified documents. Output the information of the classified document to the user.

文書分類装置100では、AI(人工知能:Artificial Intelligence)を利用して、未分類文書の中から検索式に関連する内容が含まれる文書を自動的に分類して、検索式に関連する文書を特定する処理を実行するように構成されている。具体的に、ユーザが文書分類装置100に検索式を入力すると、文書分類装置100は、ニューラルネットワークを含む学習モデルに基づき文書から検索式に関連する特徴語を抽出して、検索式に関連する文書か否かを特定する分類処理を実行する。 The document classification device 100 uses AI (Artificial Intelligence) to automatically classify documents containing content related to the search formula from unclassified documents, and classifies the documents related to the search formula. It is configured to perform certain actions. Specifically, when the user inputs a search formula into the document classification device 100, the document classification device 100 extracts feature words related to the search formula from the document based on a learning model including a neural network, and is related to the search formula. Performs a classification process that identifies whether it is a document or not.

ここで、「学習モデル」は、ニューラルネットワークと当該ニューラルネットワークによって用いられるパラメータとを含み、検索式に関連する特徴語を含む文書と、その文書が検索式に関連する文書であるとラベルされた情報とに基づき学習されることで最適化(調整)される。具体的に、学習モデルは、文書が入力されると、ニューラルネットワークによって当該文書から検索式に関連する特徴語を抽出し、抽出した特徴語に基づき検索式に関連する文書か否かを分類する。 Here, the "learning model" is labeled as a document containing a neural network and parameters used by the neural network, including feature words related to the search formula, and the document being a document related to the search formula. It is optimized (adjusted) by learning based on information. Specifically, when a document is input, the learning model extracts feature words related to the search formula from the document by a neural network, and classifies whether or not the document is related to the search formula based on the extracted feature words. ..

そして、学習モデルは、自身が分類した文書と、入力された文書にラベルされた情報(検索式に関連する文書か否かの情報)とに基づき、両者が一致すればパラメータを更新しない一方で、両者が一致しなければ両者が一致するようにパラメータを更新することで、パラメータを最適化している。このように、学習モデルは、入力される文書と、正解データである当該文書にラベルされた情報とを含む教師データを利用して、パラメータが最適化されることで学習される。 Then, the learning model does not update the parameters if both match, based on the document classified by itself and the information labeled on the input document (information on whether or not the document is related to the search formula). If they do not match, the parameters are optimized by updating the parameters so that they match. In this way, the learning model is learned by optimizing the parameters using the teacher data including the input document and the information labeled in the document which is the correct answer data.

なお、このような学習モデルを学習する処理を「学習フェーズ」とも称する。また、学習フェーズによって最適化された学習モデルを、特に「学習済モデル」とも称する。つまり、本実施の形態においては、学習前の学習モデルおよび学習済みの学習モデルをまとめて「学習モデル」と総称する場合がある一方で、学習済みの学習モデルを学習前の学習モデルと区別するために「学習済モデル」とも称する場合がある。 The process of learning such a learning model is also referred to as a "learning phase". In addition, the learning model optimized by the learning phase is also referred to as a "learned model" in particular. That is, in the present embodiment, the pre-learning learning model and the learned learning model may be collectively referred to as a "learning model", while the learned learning model is distinguished from the pre-learning learning model. Therefore, it may also be called a "trained model".

一般的に、教師データを利用して学習モデルを学習させる場合、ユーザがあらかじめ検索式に関連する文書と検索式に関連しない文書を分類して文書にラベルを付す作業が必要となる。教師データとなる文書の数が多ければ多いほど、学習済モデルによる未分類文書の分類精度が高くなるので、多くの文書にラベルを付す必要がある。 Generally, when learning a learning model using teacher data, it is necessary for the user to classify documents related to the search formula and documents not related to the search formula in advance and label the documents. The more documents that serve as teacher data, the more accurate the unclassified documents will be classified by the trained model, so many documents need to be labeled.

しかし、教師データが数十件の文書であれば、ユーザが文書にラベルを付す作業は可能であるが、教師データが数百件、数千件の文書であれば、ユーザが文書にラベルを付す作業は困難である。 However, if the teacher data is dozens of documents, the user can label the document, but if the teacher data is hundreds or thousands of documents, the user labels the document. The work of attaching is difficult.

そこで、教師データを生成する作業において、検索式で検索した文書に対して自動的にラベルを付すことでユーザの作業を軽減することが考えられる。しかし、文書データベース(例えば、特許文献データベース)で収集した文書に対して「粒径が1.2nm〜79nm」という単純な検索式で検索するだけでは、「微粒」の教師データを生成することできない。 Therefore, in the work of generating teacher data, it is conceivable to reduce the work of the user by automatically labeling the document searched by the search formula. However, it is not possible to generate "fine grain" teacher data by simply searching for documents collected in a document database (for example, a patent document database) using a simple search formula of "particle size of 1.2 nm to 79 nm". ..

つまり、検索式として「粒径が1.2nm〜79nm」を入力し、粒径が1.2nm〜79nmとなる材料を使用した文書を検索する場合、単に文書データベースで収集した文書から「粒径」と「1.2nm」と「79nm」とを含む文書を検索するだけでは、粒径が50nmの材料使用した文書などが検索結果から漏れてしまう。そのため、文書データベースで収集した文書から特徴である「粒径」と数値である「1.2nm」と「79nm」とを関連付けて抽出し、データベース化した上で検索を行う必要がある。 That is, when inputting "particle size 1.2 nm to 79 nm" as a search formula and searching for a document using a material having a particle size of 1.2 nm to 79 nm, simply "particle size" is searched from the document collected in the document database. If only a document containing "1.2 nm" and "79 nm" is searched, a document using a material having a particle size of 50 nm will be omitted from the search result. Therefore, it is necessary to extract the characteristic "particle size" and the numerical values "1.2 nm" and "79 nm" from the documents collected in the document database in association with each other, create a database, and then perform a search.

本実施の形態に係る文書分類装置100では、図1に示すように学習フェーズとして、文書データベースから対象特許の文書の収集した教師文書(教師データ)に対して、検索式(特定の数値データ)を含む文書にラベルを自動的に付与して、学習モデルを学習する。また、文書分類装置100では、図1に示すように学習後として、学習フェーズで学習した学習モデル(学習済モデル)を用いて、未分類文書を「微粒である文書」と「微粒でない文書」とに分類する。 In the document classification device 100 according to the present embodiment, as shown in FIG. 1, as a learning phase, a search formula (specific numerical data) is used for the teacher document (teacher data) collected from the document database of the target patent. A training model is trained by automatically assigning a label to a document containing. Further, in the document classification device 100, as shown in FIG. 1, after learning, the unclassified document is classified into "fine-grained document" and "non-fine-grained document" by using the learning model (learned model) learned in the learning phase. Classify as.

文書分類装置100は、学習フェーズにおいて、検索式(特定の数値データ)を含む文書を教師文書から数値検索処理で特定してラベルを付与する(自動ラベル)ために、当該文書から化学式、材料、特性などの特徴部分と、数値または数値範囲などの数値部分とを関連付けて数値データとして抽出し、データベースに格納して検索に利用する。以下、文書から特徴部分と数値部分とを関連付けて数値データとして抽出する技術を含む数値検索処理について説明する。 In the learning phase, the document classification device 100 identifies a document containing a search formula (specific numerical data) from a teacher document by a numerical search process and assigns a label (automatic label). Characteristic parts such as characteristics are associated with numerical values such as numerical values or numerical ranges, extracted as numerical data, stored in a database, and used for searching. Hereinafter, a numerical search process including a technique for associating a feature part and a numerical part from a document and extracting them as numerical data will be described.

まず、文書分類装置100のハードウェア構成について詳しく説明する。図2は、本実施の形態に係る文書分類装置100の構成を説明するためのブロック図である。文書分類装置100は、オペレーティングシステム(OS:Operating System)を含む各種プログラムを実行するCPU101と、CPU101でのプログラムの実行に必要なデータを一時的に記憶するメモリ部112と、CPU101で実行されるプログラムを不揮発的に記憶するハードディスク部(HDD:Hard Disk Drive)110とを含む。 First, the hardware configuration of the document classification device 100 will be described in detail. FIG. 2 is a block diagram for explaining the configuration of the document classification device 100 according to the present embodiment. The document classification device 100 is executed by the CPU 101 that executes various programs including an operating system (OS: Operating System), a memory unit 112 that temporarily stores data necessary for executing the program in the CPU 101, and the CPU 101. It includes a hard disk unit (HDD: Hard Disk Drive) 110 that stores programs in a non-volatile manner.

また、ハードディスク部110には、教師データによる学習モデルの学習処理、学習済モデルによる未分類文書の分類処理、自動ラベルのための数値検索処理などの処理を実現するためのプログラムが予め記憶されており、このようなプログラムは、光学ドライブ114などによって、それぞれCD−ROM(Compact Disk-Read Only Memory)などの記憶媒体114aから読み取られる。 Further, the hard disk unit 110 stores in advance a program for realizing processing such as learning processing of a learning model using teacher data, classification processing of unclassified documents using a learned model, and numerical search processing for automatic labeling. Such a program is read from a storage medium 114a such as a CD-ROM (Compact Disk-Read Only Memory) by an optical drive 114 or the like.

CPU101は、キーボードやマウスなどからなる入力部108を介してユーザなどからの検索式を受取るとともに、プログラムの実行によって分類された文書などを、ディスプレイ部104へ出力する。各部は、バス102を介して互いに接続される。また、インターフェイス部106は、図示していない文書データベースなどに接続されている。なお、文書分類装置100と文書データベースとの接続は、有線で接続されても無線で接続されてもよい。 The CPU 101 receives a search expression from a user or the like via an input unit 108 including a keyboard or a mouse, and outputs a document or the like classified by executing a program to the display unit 104. The parts are connected to each other via the bus 102. Further, the interface unit 106 is connected to a document database or the like (not shown). The document classification device 100 and the document database may be connected by wire or wirelessly.

次に、文書分類装置100で実行される数値検索処理について具体的に説明する。図3は、本実施の形態に係る文書分類装置100での数値検索処理を説明するための機能ブロック図である。文書分類装置100は、数値検索処理を実行するために収集部300、データ抽出部400、データベース部500、およびラベル付与部600の機能を備えている。収集部300は、文書データベースから対象文書(教師データとなる文書)を収集する。データ抽出部400は、収集した対象文書から、特徴部分と数値部分とを関連付けた数値データを抽出する。データベース部500は、データ抽出部400で抽出した数値データを、抽出した文書の文書データと関連付けて格納する。ラベル付与部600は、入力された検索式に基づく検索した文書に対して自動的にラベルを付す。 Next, the numerical search process executed by the document classification device 100 will be specifically described. FIG. 3 is a functional block diagram for explaining the numerical search process in the document classification device 100 according to the present embodiment. The document classification device 100 includes functions of a collection unit 300, a data extraction unit 400, a database unit 500, and a labeling unit 600 in order to execute a numerical search process. The collection unit 300 collects a target document (a document that serves as teacher data) from the document database. The data extraction unit 400 extracts numerical data in which the characteristic portion and the numerical portion are associated with each other from the collected target document. The database unit 500 stores the numerical data extracted by the data extraction unit 400 in association with the document data of the extracted document. The labeling unit 600 automatically labels the searched document based on the input search formula.

さらに、収集部300について詳しく説明する。図4は、本実施の形態に係る文書分類装置100での収集部300の処理を説明するための機能ブロック図である。収集部300では、ユーザが対象とする文書(例えば、BaCO3を主成分とするMLCCの特許文献)を文書データベースから全文をダウンロード301する。例えば、ユーザが、文書データベースで「BaCO3」を含むMLCCの文書を検索し、検索結果の文書を収集部300が全文ダウンロードする。ダウンロードした文書には、「.xml」、「.htm」、「.csv」などの形式のデータが含まれている。データ抽出部400では、テキストデータを処理するため、収集部300は、文書データベースからダウンロードした文書のデータをテキストデータに変換している。 Further, the collecting unit 300 will be described in detail. FIG. 4 is a functional block diagram for explaining the processing of the collection unit 300 in the document classification device 100 according to the present embodiment. The collection unit 300 downloads the full text of a document targeted by the user (for example, a patent document of MLCC containing BaCO3 as a main component) from a document database 301. For example, the user searches the document database for the MLCC document containing "BaCO3", and the collection unit 300 downloads the full text of the search result document. The downloaded document contains data in formats such as ".xml", ".html", and ".csv". In order to process the text data in the data extraction unit 400, the collection unit 300 converts the data of the document downloaded from the document database into the text data.

具体的に、収集部300は、「.xml」形式のデータをテキストデータに変換する処理を「.xmlの変換」302で行う。また、収集部300は、「.htm」形式のデータをテキストデータに変換する処理を「.htmの変換」303で行う。さらに、収集部300は、「.csv」形式のデータをテキストデータに変換する処理を「.csvの変換」304で行う。 Specifically, the collecting unit 300 performs the process of converting the data in the ".xml" format into the text data in the ".xml conversion" 302. Further, the collecting unit 300 performs a process of converting the data in the ".htm" format into text data in the ".htm conversion" 303. Further, the collecting unit 300 performs a process of converting the data in the “.csv” format into text data in the “.csv conversion” 304.

収集部300は、「.xmlの変換」302、「.htmの変換」303および「.csvの変換」304で変換した文書のテキストデータを比較して、重複している文書のデータを削除する(重複データの削除305)。収集部300は、重複データの削除305を行った文書のテキストデータを中間ファイル320として出力する。 The collecting unit 300 compares the text data of the documents converted in ".xml conversion" 302, ".html conversion" 303 and ".csv conversion" 304, and deletes the duplicate document data. (Delete duplicate data 305). The collection unit 300 outputs the text data of the document in which the duplicate data has been deleted 305 as the intermediate file 320.

一方、文書データベースから文書のデータをダウンロードするのではなく、予め複数の文書のデータを含むファイルを用意しておき、収集部300は、当該ファイルを読み込み310、文書のデータを収集することもできる。ファイルから読み込んだ文書のデータには、「.docx」、「テキスト」などの形式のデータが含まれている。収集部300は、「.docx」形式のデータをテキストデータに変換する処理を「.docxの変換」311で行う。ファイルに含まれる文書のデータには、重複した文書のデータが含まれていないので、収集部300は、「.docxの変換」311で変換した文書のテキストデータと、ファイルに含まれている文書のテキストデータとを中間ファイル320として出力する。 On the other hand, instead of downloading the document data from the document database, a file containing the data of a plurality of documents is prepared in advance, and the collecting unit 300 can read the file 310 and collect the document data. .. The document data read from the file includes data in formats such as ".docx" and "text". The collecting unit 300 performs the process of converting the data in the ".docx" format into the text data in the ".docx conversion" 311. Since the document data included in the file does not include the duplicate document data, the collecting unit 300 uses the text data of the document converted in ".docx conversion" 311 and the document included in the file. The text data of is output as an intermediate file 320.

次に、収集部300で収集した文書のテキストデータから、特徴部分と数値部分とを関連付けた数値データを抽出するデータ抽出部400について説明する。図5は、本実施の形態に係る文書分類装置100のデータ抽出部400での処理を説明するための機能ブロック図である。データ抽出部400は、文書のテキストデータから特徴部分および数値部分を解析する形態素・字句解析部410と、特徴部分と数値部分とを関連付ける関連解析部430とを備えている。さらに、データ抽出部400は、関連解析部430での処理において関連付けを除外する条件を予め設定しておく除外設定部450と、関連解析部430で関連付けた数値データを抽出する抽出部470とを備えている。 Next, a data extraction unit 400 that extracts numerical data in which a feature portion and a numerical value portion are associated with each other from the text data of the document collected by the collection unit 300 will be described. FIG. 5 is a functional block diagram for explaining the processing in the data extraction unit 400 of the document classification device 100 according to the present embodiment. The data extraction unit 400 includes a morpheme / lexical analysis unit 410 that analyzes a feature portion and a numerical value portion from text data of a document, and a related analysis unit 430 that associates the feature portion and the numerical value portion. Further, the data extraction unit 400 includes an exclusion setting unit 450 in which conditions for excluding associations are set in advance in processing by the relation analysis unit 430, and an extraction unit 470 that extracts numerical data associated with the relation analysis unit 430. I have.

形態素・字句解析部410での処理についてさらに詳しく説明する。図6は、本実施の形態に係る文書分類装置100の形態素・字句解析部410での処理を説明するための機能ブロック図である。形態素・字句解析部410は、収集部300から出力された中間ファイル320を読み込み411、当該中間ファイル320から文書のテキストデータを取り込み、形態素解析部412で取り込んだ文書のテキストデータを処理する。 The processing in the morpheme / lexical analysis unit 410 will be described in more detail. FIG. 6 is a functional block diagram for explaining the processing in the morpheme / lexical analysis unit 410 of the document classification device 100 according to the present embodiment. The morphological / lexical analysis unit 410 reads the intermediate file 320 output from the collection unit 300, takes in the text data of the document from the intermediate file 320, and processes the text data of the document taken in by the morphological analysis unit 412.

形態素解析部412では、予め定められた言語の文法、辞書の情報(例えば、単語の品詞などの情報)にもとづき、取り込んだ文書のテキストデータを形態素の列に分割し、それぞれの形態素に対して品詞などの解析を行う。 The morphological analysis unit 412 divides the text data of the imported document into columns of morphemes based on predetermined language grammar and dictionary information (for example, information such as part of speech of words), and for each morpheme. Analyze part of speech.

形態素解析部412で形態素の列に分割した文書のテキストデータから、プッシュダウンオートマトン(PDA:Push down Automaton)により特徴部分および数値部分を特定する字句解析を行う。なお、字句解析として、プッシュダウンオートマトンに限らず、有限オートマトンや、さらに複雑なオートマトンであってもよい。 From the text data of the document divided into morpheme columns by the morphological analysis unit 412, a lexical analysis is performed to specify a feature portion and a numerical portion by a push down automaton (PDA). The lexical analysis is not limited to the pushdown automaton, but may be a finite automaton or a more complicated automaton.

具体的に、特性名帰属PDA413では、予め定められた特性名(例えば、分散剤、厚み、抵抗値、粒径など)に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「feature」とラベリングして1つの字句として扱う。材料名帰属PDA414では、予め定められた材料名(例えば、ネオジム、酸化チタン、炭酸バリウムなど)に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「material」とラベリングして1つの字句として扱う。 Specifically, in the characteristic name attribution PDA413, words corresponding to predetermined characteristic names (for example, dispersant, thickness, resistance value, particle size, etc.) are specified by a pushdown automaton from a column of morphemes, and "feature" is used. Label it as one phrase. In the material name attribution PDA414, a word corresponding to a predetermined material name (for example, neodymium, titanium oxide, barium carbonate, etc.) is specified by a pushdown automaton from a column of morphemes, and labeled as "material". Treat as a lexical.

また、単位帰属PDA415では、予め定められた単位(例えば、g、mol、nmなど)に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「unit」とラベリングして1つの字句として扱う。数値帰属PDA416では、予め定められた数値(例えば、アラビア数字、漢数字、ローマ数字など)に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「amount」とラベリングして1つの字句として扱う。なお、単位帰属PDA415で特定した「unit」の字句と、数値帰属PDA416で特定した「amount」の字句とが近傍(例えば、予め定められた形態素の数の範囲内)に存在している場合、数値帰属PDA416は、「unit」の字句と「amount」の字句とを1つの「amount」の字句として扱う。 Further, in the unit attribution PDA415, a word corresponding to a predetermined unit (for example, g, mol, nm, etc.) is specified by a pushdown automaton from a column of morphemes, and labeled as "unit" to form one word. deal. Numerical attribution In PDA416, a phrase corresponding to a predetermined numerical value (for example, Arabic numeral, Chinese numeral, Roman numeral, etc.) is specified by a pushdown automaton from a column of morphological elements, and labeled as "amount" to make one phrase. Treat as. When the word "unit" specified by the unit-attribution PDA415 and the word "amount" specified by the numerically-attribution PDA416 exist in the vicinity (for example, within a predetermined number of morphological elements), Numerical attribution PDA416 treats the word "unit" and the word "amount" as one word "amount".

また、数値帰属PDA416では、複数の形態素のうちに1つの数値が含まれている場合、当該数値に予め定められた数値範囲(例えば、当該数値の±1%の範囲)を付与して1つの「amount」の字句として扱ってもよい。これにより、数値同士を比較する際に、数値に幅を持った数値範囲同士の比較となり、比較が容易となる。さらに、数値帰属PDA416では、複数の形態素のうちに複数の数値と、範囲を示す予め定められた形態素(例えば、「〜」)とが含まれている場合、当該複数の数値に基づく数値範囲を1つの「range」の字句として扱ってもよい。もちろん、数値であっても数値範囲であっても、区別せずに1つの「amount」の字句として扱ってもよい。 Further, in the numerical attribution PDA416, when one numerical value is included in a plurality of morphemes, a predetermined numerical range (for example, a range of ± 1% of the numerical value) is given to the numerical value to obtain one. It may be treated as the phrase "amount". As a result, when comparing numerical values, the numerical range having a range of numerical values is compared, and the comparison becomes easy. Further, in the numerical attribution PDA416, when a plurality of numerical values and a predetermined morpheme indicating a range (for example, "~") are included in the plurality of morphemes, a numerical range based on the plurality of numerical values is set. It may be treated as one "range" phrase. Of course, whether it is a numerical value or a numerical range, it may be treated as one "amount" word without distinction.

数式帰属PDA417では、予め定められた数式(例えば、x、1−x、0<x≦1など)に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「formula」とラベリングして1つの字句として扱う。化学式帰属・組成復元PDA418では、予め定められた化学式や組成(例えば、Ca、TiO2、BaCO3など)に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「material」とラベリングして1つの字句として扱う。 In the formula attribution PDA417, the words corresponding to the predetermined formulas (for example, x, 1-x, 0 <x ≦ 1, etc.) are specified by the pushdown automaton from the column of morphemes and labeled as “formula”. Treat as one phrase. Chemical formula attribution / composition restoration In PDA418, words corresponding to predetermined chemical formulas and compositions (for example, Ca, TiO2, BaCO3, etc.) are specified by pushdown automata from the morpheme column, and labeled as "material". Treat as one lexical.

数値帰属PDA416で特定した「amount」の字句と、数式帰属PDA417で特定した「formula」の字句と、化学式帰属・組成復元PDA418で特定した「material」とが近傍に存在している場合、化学式帰属・組成復元PDA418は、「amount」の字句と「formula」の字句と「material」の字句とを1つの「material」の字句として扱う。具体的に、「Ba1−xCaTiO(0<x≦1)」なる字句を解析する場合、「amount」の字句として「3」、「formula」の字句として「x」、「1−x」、「0<x≦1」、「material」の字句として「Ba」、「Ca」、「TiO」とそれぞれ解析する。それらの字句が近傍に存在しているので、化学式帰属・組成復元PDA418は、最終的に「Ba1−xCaTiO(0<x≦1)」なる字句を、1つの「material」の字句として扱う。 If the word "amount" specified by the numerical attribution PDA416, the word "formula" specified by the formula attribution PDA417, and the "material" specified by the chemical formula attribution / composition restoration PDA418 exist in the vicinity, the chemical formula attribution -The composition restoration PDA418 treats the word "amount", the word "formula", and the word "material" as one word "material". Specifically, when analyzing the phrase "Ba 1-x Ca x TiO 3 (0 <x ≤ 1)", the phrase "amount" is "3", and the phrase "formula" is "x", "1". The words "-x", "0 <x≤1", and "material" are analyzed as "Ba", "Ca", and "TIO", respectively. Since those words are present in the vicinity, the chemical formula attribution / composition restoration PDA418 finally changes the word "Ba 1-x Ca x TiO 3 (0 <x ≦ 1)" to one "material". Treat as a lexical.

形態素・字句解析部410では、「material」または「feature」とラベリングされた字句を特徴部分に分類し、「amount」または「range」とラベリングされた字句を数値部分に分類している。 The morpheme / lexical analysis unit 410 classifies the words labeled as "material" or "feature" into feature parts, and the words labeled as "amount" or "range" into numerical parts.

次に、具体例を示して形態素・字句解析部410での処理について説明する。図7は、本実施の形態に係る文書分類装置100の形態素・字句解析部410での処理の一例を説明するための概念図である。取り込んだ文書のテキストデータに「TiO2を主成分として1.20g使用した。」との文章420が含まれている場合、まず形態素解析部412で当該文章420を形態素の列に分割する。 Next, a specific example will be shown to explain the processing in the morpheme / lexical analysis unit 410. FIG. 7 is a conceptual diagram for explaining an example of processing in the morpheme / lexical analysis unit 410 of the document classification device 100 according to the present embodiment. When the text data of the imported document includes a sentence 420 stating "1.20 g of TiO2 was used as a main component", the morphological analysis unit 412 first divides the sentence 420 into columns of morphemes.

形態素解析部412は、文章420を形態素の列に分割して、複数の形態素を含む列データ421を出力する。列データ421には、「TiO」、「2」、「を」、「主成分」、「と」、「し」、「て」、「1」、「.」、「20」、「g」、「使用」、「し」、「た」、「。」の形態素を含んでいる。 The morphological analysis unit 412 divides the sentence 420 into columns of morphemes and outputs column data 421 including a plurality of morphemes. The column data 421 includes "TIO", "2", "o", "main component", "to", "", "te", "1", ".", "20", "g". , "Use", "", "ta", "." Contains morphemes.

字句解析では、列データ421に含まれる形態素のうち、「TiO」の形態素421aを「material」の字句として特定し、「2」の形態素421bを「amount」の字句として特定する。さらに、字句解析では、「TiO」の形態素421aと「2」の形態素421bとが近傍に存在しているので、「TiO2」を1つの「material」の字句422として扱う。 In the lexical analysis, among the morphemes included in the column data 421, the morpheme 421a of "TIO" is specified as the word "material", and the morpheme 421b of "2" is specified as the word "amount". Further, in the lexical analysis, since the morpheme 421a of "TIO" and the morpheme 421b of "2" are present in the vicinity, "TIO2" is treated as one lexical element 422 of "material".

また、字句解析では、列データ421に含まれる形態素のうち、「1」の形態素421c、「.」の形態素421d、「20」の形態素421eを「amount」の字句として特定し、「g」の形態素421fを「unit」の字句として特定する。さらに、字句解析では、「1」の形態素421c、「.」の形態素421d、「20」の形態素421eと、「g」の形態素421fとが近傍に存在しているので、「1.20g」を1つの「amount」の字句423として扱う。 Further, in the lexical analysis, among the morphemes included in the column data 421, the morpheme 421c of "1", the morpheme 421d of ".", And the morpheme 421e of "20" are specified as the words of "amount", and the morpheme of "g" is specified. The morpheme 421f is specified as the word "unit". Further, in the lexical analysis, the morpheme 421c of "1", the morpheme 421d of ".", The morpheme 421e of "20", and the morpheme 421f of "g" exist in the vicinity, so "1.20 g" is used. Treat as one "amount" phrase 423.

図8は、本実施の形態に係る文書分類装置100の形態素・字句解析部410での処理の別の一例を説明するための概念図である。取り込んだ文書のテキストデータに「TiO2を主成分として1.20g〜1.50g使用した。」との文章420aが含まれている場合、まず形態素解析部412で当該文章420aを形態素の列に分割する。 FIG. 8 is a conceptual diagram for explaining another example of processing in the morpheme / lexical analysis unit 410 of the document classification device 100 according to the present embodiment. When the text data of the imported document contains the sentence 420a saying "1.20 g to 1.50 g was used as the main component of TiO2", the morphological analysis unit 412 first divides the sentence 420a into columns of morphemes. do.

形態素解析部412は、文章420aを形態素の列に分割して、複数の形態素を含む列データ421Aを出力する。列データ421Aには、「TiO」、「2」、「を」、「主成分」、「と」、「し」、「て」、「1」、「.」、「20」、「g」、「〜」、「1」、「.」、「50」、「g」、「使用」、「し」、「た」、「。」の形態素を含んでいる。 The morphological analysis unit 412 divides the sentence 420a into columns of morphemes and outputs column data 421A including a plurality of morphemes. In the column data 421A, "TIO", "2", "o", "main component", "to", "", "te", "1", ".", "20", "g" , "~", "1", ".", "50", "g", "use", "", "ta", "."

字句解析では、列データ421Aに含まれる形態素のうち、「TiO」の形態素421aを「material」の字句として特定し、「2」の形態素421bを「amount」の字句として特定する。さらに、字句解析では、「TiO」の形態素421aと「2」の形態素421bとが近傍に存在しているので、「TiO2」を1つの「material」の字句422として扱う。 In the lexical analysis, among the morphemes included in the column data 421A, the morpheme 421a of "TIO" is specified as the word "material", and the morpheme 421b of "2" is specified as the word "amount". Further, in the lexical analysis, since the morpheme 421a of "TIO" and the morpheme 421b of "2" are present in the vicinity, "TIO2" is treated as one lexical element 422 of "material".

また、字句解析では、列データ421Aに含まれる形態素のうち、「1」の形態素421c、「.」の形態素421d、「20」の形態素421eを「amount」の字句として特定し、「g」の形態素421fを「unit」の字句として特定する。同様に、字句解析では、列データ421Aに含まれる形態素のうち、「1」の形態素421h、「.」の形態素421i、「50」の形態素421jを「amount」の字句として特定し、「g」の形態素421kを「unit」の字句として特定する。さらに、字句解析では、「g」の形態素421fと「1」の形態素421hとの間に、「〜」のような範囲を示す予め定められた形態素421gが含まれているので、「1」の形態素421c〜「g」の形態素421kを「1.20g〜1.50g」とする1つの「range」の字句424として扱う。もちろん、字句解析では、「amount」と「range」とを区別せず、「range」の字句424を「amount」の字句として扱ってもよい。なお、範囲を示す予め定められた形態素としては、「〜」以外に「から」、「まで」など形態素を設定することが可能である。 Further, in the lexical analysis, among the morphemes included in the column data 421A, the morpheme 421c of "1", the morpheme 421d of ".", And the morpheme 421e of "20" are specified as the words of "amount", and the morpheme of "g" is specified. The morpheme 421f is specified as the word "unit". Similarly, in the lexical analysis, among the morphemes included in the column data 421A, the morpheme 421h of "1", the morpheme 421i of ".", And the morpheme 421j of "50" are specified as the morpheme of "amount", and "g" is specified. The morpheme 421k of is specified as the word "unit". Further, in the lexical analysis, a predetermined morpheme 421g indicating a range such as "~" is contained between the morpheme 421f of "g" and the morpheme 421h of "1". The morphemes 421k of the morphemes 421c to "g" are treated as one "range" phrase 424 having "1.20 g to 1.50 g". Of course, in the lexical analysis, "amount" and "range" may not be distinguished, and the lexical 424 of "range" may be treated as the lexical of "amount". As the predetermined morpheme indicating the range, it is possible to set a morpheme such as "from" or "to" in addition to "~".

次に、関連解析部430は、形態素・字句解析部410において選択された特徴部分と数値部分とを関連付ける。図9は、本実施の形態に係る文書分類装置100の関連解析部430での処理を説明するための機能ブロック図である。 Next, the related analysis unit 430 associates the feature portion selected by the morpheme / lexical analysis unit 410 with the numerical portion. FIG. 9 is a functional block diagram for explaining the processing in the related analysis unit 430 of the document classification device 100 according to the present embodiment.

図9に示す関連解析部430では、形態素の列からプッシュダウンオートマトンで「material」とラベリングされた材料の字句と「amount」とラベリングされた数値の字句とを特定して、関連付ける(材料+数値)抽出PDA431を有している。また、関連解析部430では、形態素の列からプッシュダウンオートマトンで「material」とラベリングされた材料の字句と「formula」とラベリングされた数式の字句とを特定して、関連付ける(材料+数式)抽出・組成復元PDA432を有している。さらに、関連解析部430では、形態素の列からプッシュダウンオートマトンで「feature」とラベリングされた材料の字句と「amount」とラベリングされた数値の字句とを特定して、関連付ける(特性+数値)抽出PDA433を有している。 In the related analysis unit 430 shown in FIG. 9, the wording of the material labeled as “material” and the wording of the numerical value labeled “amount” by the pushdown automaton are specified from the column of morphemes and associated with each other (material + numerical value). ) It has an extracted PDA431. In addition, the related analysis unit 430 identifies and associates the words of the material labeled "material" with the pushdown automaton and the words of the formula labeled "formula" from the morpheme column (material + formula). -Has a composition-restored PDA432. Furthermore, the related analysis unit 430 identifies and associates (characteristic + numerical value) the words of the material labeled as "feature" with the pushdown automaton and the words of the numerical value labeled as "amount" from the column of morphemes. It has a PDA433.

具体例を示して関連解析部430での処理について説明する。図10は、本実施の形態に係る文書分類装置100の関連解析部430での処理の一例を説明するための概念図である。関連解析部430は、形態素・字句解析部410で処理したデータに「TiO2」を1つとする「material」の字句422と、「1.20g」を1つとする「amount」の字句423とを含んでいる場合、字句422と字句423との間に「を」のような関連を示す予め定められた形態素425が含まれているか否かを判定する。なお、関連を示す予め定められた形態素425の一例として「を」を示したが、「材料Xが1.0g」の「が」、「1.0gの材料X」の「の」など、他に「として」、「:」などが関連を示す予め定められた形態素と考えられる。また、関連を示す予め定められた形態素425は、「を」などの単独の形態素だけに限られず、複数の形態素を組み合わせたものを含めてもよい。一例として「換算」と「で」の2つの形態素を組み合わせた「換算で」を含めてもよい。 A specific example will be shown to explain the processing in the related analysis unit 430. FIG. 10 is a conceptual diagram for explaining an example of processing in the related analysis unit 430 of the document classification device 100 according to the present embodiment. The related analysis unit 430 includes the lexical 422 of "material" having one "TiO2" and the lexical 423 of "amount" having one "1.20 g" in the data processed by the morpheme / lexical analysis unit 410. If so, it is determined whether or not a predetermined morpheme 425 indicating a relationship such as "o" is included between the words 422 and the word 423. In addition, although "o" is shown as an example of a predetermined morpheme 425 indicating the relationship, "ga" of "material X is 1.0 g", "no" of "1.0 g material X", etc. It is considered that "as", ":", etc. are predetermined morphemes indicating the relationship. Further, the predetermined morpheme 425 indicating the relationship is not limited to a single morpheme such as "o", and may include a combination of a plurality of morphemes. As an example, "converted", which is a combination of two morphemes "converted" and "de", may be included.

関連解析部430は、字句422と字句423との間に形態素425が含まれている場合、字句422と字句423との間に含まれる形態素の数を求める。図10の例では、字句422と字句423との間に含まれる形態素の数は5個である。 When the morpheme 425 is included between the lexical 422 and the lexical 423, the related analysis unit 430 obtains the number of morphemes contained between the lexical 422 and the lexical 423. In the example of FIG. 10, the number of morphemes contained between the words 422 and the word 423 is five.

関連解析部430は、字句422と字句423との間に含まれる形態素の数が予め定められた数(例えば、10個)以下であれば、求めた字句422と字句423との距離が近いとして、関連がある字句同士であると判定する。図10の例では、形態素の数が5個と予め定められた数以下のため、字句422と字句423とが関連があると判定している。なお、図10の例では、「material」の字句422と「amount」の字句423との関連を抽出するため、(材料+数値)抽出PDA431で処理される。 The related analysis unit 430 assumes that the distance between the obtained lexical 422 and the lexical 423 is close if the number of morphemes contained between the lexical 422 and the lexical 423 is less than or equal to a predetermined number (for example, 10). , Judge that they are related words. In the example of FIG. 10, since the number of morphemes is 5 which is equal to or less than a predetermined number, it is determined that the lexical 422 and the lexical 423 are related. In the example of FIG. 10, in order to extract the relationship between the word "material" 422 and the word "amount" 423, it is processed by the (material + numerical value) extraction PDA431.

図9に戻って、抽出部470は、関連解析部430で関連がある判定された字句を関連付けた数値データとして抽出して、データベース部500に出力する。データベース部500では、抽出部470で抽出した数値データと、当該数値データを抽出した文書の文書データ(例えば、文書の書誌情報など)とを関連付けて格納する。図10の例では、抽出部470が、関連がある字句と判定した「TiO2を主成分として1.20g」を一つの関連する数値データ431として抽出する。数値データ431には、material=TiO2、amount=1.20gの情報が含まれることになる。 Returning to FIG. 9, the extraction unit 470 extracts the words and phrases determined to be related by the association analysis unit 430 as associated numerical data, and outputs the data to the database unit 500. The database unit 500 stores the numerical data extracted by the extraction unit 470 in association with the document data of the document from which the numerical data is extracted (for example, the bibliographic information of the document). In the example of FIG. 10, the extraction unit 470 extracts "1.20 g containing TiO2 as a main component" determined to be related words as one related numerical data 431. The numerical data 431 includes information of material = TiO2 and amount = 1.20 g.

前述のように、関連解析部430は、字句と字句との間に含まれる形態素の数が予め定められた数以下か否かのみで、関連がある字句か否かを判定している。しかし、関連解析部430は、字句と字句との間に含まれる形態素の数のみで関連がある字句か否かを判定した場合、取り込んだ文書によっては全く関連のない字句を誤って関連があると判定する虞がある。 As described above, the related analysis unit 430 determines whether or not the token is related only by whether or not the number of morphemes contained between the tokens is equal to or less than a predetermined number. However, when the association analysis unit 430 determines whether or not a token is related only by the number of morphemes contained between the tokens, the tokens that are completely unrelated are erroneously related depending on the imported document. There is a risk of determining.

図11は、誤って関連がある字句と判定する一例を説明するための概念図である。取り込んだ文書のテキストデータに含まれる「TiO2を主成分100gに対して1.20g使用。」の文章420bに対して、形態素・字句解析部410での処理を行う。形態素・字句解析部410での処理の結果、文章420bには、「TiO2」を1つとする「material」の字句422と、「100g」を1つとする「amount」の字句426と、「1.20g」を1つとする「amount」の字句423とを含んでいると解析される。 FIG. 11 is a conceptual diagram for explaining an example of erroneously determining a related word. The morpheme / lexical analysis unit 410 processes the sentence 420b of "1.20 g of TiO2 is used for 100 g of the main component" contained in the text data of the imported document. As a result of the processing by the morpheme / lexical analysis unit 410, the sentence 420b contains the lexical 422 of "material" having one "TiO2", the lexical 426 of "amount" having one "100g", and "1. It is analyzed that it contains the phrase 423 of "amount" with "20 g" as one.

関連解析部430は、字句422と字句426との間に「を」のような関連を示す予め定められた形態素425が含まれ、字句422と字句426との間に含まれる形態素の数が2個と予め定められた数以下であるので、関連がある字句と判定する。 The association analysis unit 430 includes a predetermined morpheme 425 indicating a relationship such as "o" between the lexical 422 and the lexical 426, and the number of morphemes contained between the lexical 422 and the lexical 426 is 2. Since the number is less than or equal to the predetermined number, it is determined that the words are related.

抽出部470は、関連解析部430で関連がある字句と判定した「TiO2を主成分100g」を一つの関連する数値データ432として抽出する。数値データ432には、material=TiO2、amount=100gの情報が含まれることになる。 The extraction unit 470 extracts "TiO2 as a main component 100 g" determined by the related analysis unit 430 as a related phrase as one related numerical data 432. The numerical data 432 includes information of material = TiO2 and amount = 100 g.

しかし、「TiO2を主成分100gに対して1.20g使用。」の文章420bでは、本来の意味から「TiO2」が「1.20g」使用することを関連させる必要がある。そのため、数値データ432のようにmaterial=TiO2とamount=100gとを関連付けた情報は誤った情報(NG)である。 However, in the sentence 420b of "Use 1.20 g of TiO2 for 100 g of the main component", it is necessary to relate that "TIO2" uses "1.20 g" from the original meaning. Therefore, the information associated with material = TiO2 and amount = 100g, such as the numerical data 432, is erroneous information (NG).

そこで、本実施の形態に係る文書分類装置100では、図9に示すように関連解析部430で字句の関連を判定する際に、関連付けを除外する条件を予め設定しておく除外設定部450を備えている。つまり、関連解析部430では、字句と字句との間に含まれる形態素の数のみで関連がある字句か否かを判定するのではなく、除外設定部450に予め設定してある条件に当てはまる形態素を無視して字句の関連を判定する。 Therefore, in the document classification device 100 according to the present embodiment, as shown in FIG. 9, when the association analysis unit 430 determines the association of words, the exclusion setting unit 450 for which conditions for excluding the association are set in advance is provided. I have. That is, the relation analysis unit 430 does not determine whether or not the word is related only by the number of morphemes contained between the words, but the morpheme that meets the conditions preset in the exclusion setting unit 450. Is ignored to determine the lexical association.

図12は、本実施の形態に係る文書分類装置100の関連解析部430で除外設定部450の条件を考慮した処理の一例を説明するための概念図である。取り込んだ文書のテキストデータに含まれる「TiO2を主成分100gに対して1.20g使用。」の文章420b(図11参照)に対して、形態素・字句解析部410での処理を行う。形態素・字句解析部410での処理の結果、文章420bには、「TiO2」を1つとする「material」の字句422と、「100g」を1つとする「amount」の字句426と、「1.20g」を1つとする「amount」の字句423とを含んでいると解析される。 FIG. 12 is a conceptual diagram for explaining an example of processing in which the condition of the exclusion setting unit 450 is taken into consideration in the related analysis unit 430 of the document classification device 100 according to the present embodiment. The morpheme / lexical analysis unit 410 processes the sentence 420b (see FIG. 11) of "1.20 g of TiO2 is used for 100 g of the main component" contained in the text data of the imported document. As a result of the processing by the morpheme / lexical analysis unit 410, the sentence 420b contains the lexical 422 of "material" having one "TiO2", the lexical 426 of "amount" having one "100g", and "1. It is analyzed that it contains the phrase 423 of "amount" with "20 g" as one.

関連解析部430は、除外設定部450に予め設定してある条件に当てはまる形態素の有無を判定する。予め設定してある条件として、図12では「に対して」との形態素の列が文章420bに含まれているか否かを判定している。「に対して」の形態素の列が文章420bに含まれている場合、当該形態素の列の前にある「100g」の字句426を含めて除外対象451とする。つまり、関連解析部430は、除外設定部450に予め設定してある条件を考慮して、「100gに対して」の形態素の列を「ignore」とラベリングして1つの除外対象451として扱う。 The related analysis unit 430 determines the presence or absence of a morpheme that meets the conditions preset in the exclusion setting unit 450. As a preset condition, in FIG. 12, it is determined whether or not the sequence of morphemes "to" is included in the sentence 420b. When the column of the morpheme of "against" is included in the sentence 420b, the phrase 426 of "100 g" in front of the column of the morpheme is included in the exclusion target 451. That is, the related analysis unit 430 labels the sequence of morphemes "for 100 g" as "ignore" in consideration of the conditions set in advance in the exclusion setting unit 450, and treats them as one exclusion target 451.

関連解析部430は、「100g」の字句426を除外対象451に含めることで、字句422と字句423との間に「を」のような関連を示す予め定められた形態素425が含まれると判定される。そのため、関連解析部430は、字句422と字句423との間に含まれる形態素の数を求めることになる。ここで、「100gに対して」の形態素の列を1つの除外対象451として扱うことで、関連解析部430は、字句422と字句423との間に含まれる形態素の数を3個と予め定められた数以下であると判定することができ、字句422と字句423とが関連があると判定する。 By including the lexical 426 of "100 g" in the exclusion target 451, the related analysis unit 430 determines that a predetermined morpheme 425 showing a relationship such as "o" is included between the lexical 422 and the lexical 423. Will be done. Therefore, the related analysis unit 430 obtains the number of morphemes included between the lexical 422 and the lexical 423. Here, by treating the sequence of morphemes "for 100 g" as one exclusion target 451 the related analysis unit 430 predetermines the number of morphemes included between the words 422 and the word 423 as three. It can be determined that the number is less than or equal to the specified number, and it is determined that the lexical 422 and the lexical 423 are related.

その結果、抽出部470は、関連がある字句と判定した「TiO2を主成分100gに対して1.20g」を一つの関連する数値データ433として抽出する。数値データ433には、material=TiO2、amount=1.20gの情報が含まれることになる。そのため、抽出部470は、数値データ432のようにmaterial=TiO2とamount=100gとを関連付けた誤った情報を抽出してしまうことを回避することができる。 As a result, the extraction unit 470 extracts "1.20 g of TiO2 with respect to 100 g of the main component" determined to be related words as one related numerical data 433. The numerical data 433 includes information of material = TiO2 and amount = 1.20 g. Therefore, the extraction unit 470 can avoid extracting erroneous information in which material = TiO2 and amount = 100g are associated with each other as in the numerical data 432.

除外設定部450に予め設定してある関連付けを除外する条件について、さらに詳しく説明する。図13は、除外設定部450に予め設定してある関連付けを除外する条件の一例を説明するための概念図である。図13(a)では、前述したように「amount」の字句の後ろに「に対して」の形態素の列が続く場合、「100gに対して」の形態素の列を1つの除外対象451として扱うことが条件として示されている。 The condition for excluding the association preset in the exclusion setting unit 450 will be described in more detail. FIG. 13 is a conceptual diagram for explaining an example of a condition for excluding the association preset in the exclusion setting unit 450. In FIG. 13 (a), when the word “amount” is followed by a row of morphemes “for” as described above, the row of morphemes “for 100 g” is treated as one exclusion target 451. Is shown as a condition.

図13(b)では、「分散剤204の添加量は0.3g」の文書に対して形態素・字句解析部410での処理を行う一例が示されている。形態素・字句解析部410での処理の結果、当該文章には、「分散剤」を1つとする「feature」の字句と、「204」を1つとする「amount」の字句と、「0.3g」を1つとする「amount」の字句とを含んでいると解析される。そのため、関連解析部430は、除外設定部450に何も条件が設定されていなければ、「分散剤」の字句に近い「204」の字句を「分散剤」の字句を関連付けることになる。 FIG. 13B shows an example in which the morpheme / lexical analysis unit 410 processes the document “the amount of the dispersant 204 added is 0.3 g”. As a result of processing by the morpheme / lexical analysis unit 410, the sentence includes the phrase "feature" with one "dispersant", the phrase "amount" with one "204", and "0.3g". It is analyzed that it contains the word "amount" with "" as one. Therefore, if no condition is set in the exclusion setting unit 450, the related analysis unit 430 associates the word “204”, which is close to the word “dispersant”, with the word “dispersant”.

しかし、「204」の字句は、「分散剤」の字句の符号に過ぎない。そのため、除外設定部450には、「feature」の字句の直後の「amount」の字句を「amount」の字句として特定せずに除外し、「feature」の字句と直後の「amount」の字句とを1つの「feature」の字句として扱うことが条件として設定される。 However, the phrase "204" is just the code for the phrase "dispersant." Therefore, the exclusion setting unit 450 excludes the word "amount" immediately after the word "feature" without specifying it as the word "amount", and includes the word "feature" and the word "amount" immediately after. Is set as a condition to treat as one "feature" word.

そこで、関連解析部430は、除外設定部450の当該条件を考慮して「分散剤204」を1つとする「feature」の字句452として扱った上で、「0.3g」の字句と関連付ける。 Therefore, the related analysis unit 430 treats the exclusion setting unit 450 as the phrase “feature” 452 with the “dispersant 204” as one in consideration of the condition, and associates it with the phrase “0.3 g”.

図13(c)では、「Nd添加量mが0.05を超える場合好ましくない」の文書に対して形態素・字句解析部410での処理を行う一例が示されている。形態素・字句解析部410での処理の結果、当該文章には、「Nd」を1つとする「material」の字句と、「0.05」を1つとする「amount」の字句とを含んでいると解析される。そのため、関連解析部430は、除外設定部450に何も条件が設定されていなければ、「Nd」の字句と「0.05」の字句とを関連付けることになる。 FIG. 13C shows an example in which the morpheme / lexical analysis unit 410 processes the document “It is not preferable when the Nd addition amount m exceeds 0.05”. As a result of processing by the morpheme / lexical analysis unit 410, the sentence includes the phrase "material" having one "Nd" and the phrase "amount" having one "0.05". Is analyzed. Therefore, if no condition is set in the exclusion setting unit 450, the related analysis unit 430 associates the word “Nd” with the word “0.05”.

しかし、除外設定部450には、「ない」などの否定を表す字句(「NOT」とラベリングされる字句)が文書に含まれている場合には、「NOT」の字句の近傍に存在する「amount」の字句を「NOT」の字句とともに除外する条件が設定される。そのため、関連解析部430は、除外設定部450の当該条件を考慮して、図13(c)に示すように「0.05を超える場合好ましくない」との形態素の列を1つの除外対象453として扱う。 However, if the document contains a word indicating negation such as "not" (a word labeled as "NOT"), the exclusion setting unit 450 exists in the vicinity of the word "NOT". A condition is set to exclude the word "amount" along with the word "NOT". Therefore, the related analysis unit 430 considers the condition of the exclusion setting unit 450, and as shown in FIG. 13 (c), one exclusion target 453 is a sequence of morphemes that "is not preferable when it exceeds 0.05". Treat as.

図13に示した条件は、除外設定部450に設定される関連付けを除外する条件の一例であって、他の条件を除外設定部450に設定してもよい。また、除外設定部450は、ユーザが設定する条件を適宜更新することができる。 The condition shown in FIG. 13 is an example of a condition for excluding the association set in the exclusion setting unit 450, and other conditions may be set in the exclusion setting unit 450. In addition, the exclusion setting unit 450 can update the conditions set by the user as appropriate.

図3に戻って、データベース部500は、収集部300で収集した文書よりデータ抽出部400で抽出した数値データを格納している。そして、ラベル付与部600は、ユーザが入力した検索式に基づいて、データベース部500に格納された数値データを検索し、収集部300で収集した文書(教師データとなる文書)のうち検索式(特定の数値データ)を含む文書にラベルを付す。ユーザが入力する検索式には、単純に「粒径が1.2nm〜79nm」が記載されている文書を検索して、当該検索式を含む文書に「微粒」とラベルすることが考えられる。この場合、ラベル付与部600は、データベース部500からfeature=粒径、range=1.2nm〜79nmの情報が含む文書を検索し、その検索した文書に「微粒」とラベルして出力する。 Returning to FIG. 3, the database unit 500 stores the numerical data extracted by the data extraction unit 400 from the documents collected by the collection unit 300. Then, the labeling unit 600 searches for the numerical data stored in the database unit 500 based on the search expression input by the user, and among the documents (documents to be teacher data) collected by the collection unit 300, the search expression (documents to be teacher data). Label documents that contain specific numerical data). In the search formula input by the user, it is conceivable to simply search for a document in which "particle size is 1.2 nm to 79 nm" and label the document containing the search formula as "fine particles". In this case, the labeling unit 600 searches the database unit 500 for a document containing information of feature = particle size and range = 1.2 nm to 79 nm, labels the searched document as "fine particles", and outputs the document.

文書分類装置100では、ラベル付与部600で生成したラベル付きの教師データに基づいて学習モデルを学習することで、未分類文書を「微粒である文書」と「微粒でない文書」とに分類することができる。「微粒」とラベルされた教師データで学習した学習モデルは、「微粒」とラベルされた文書の中から特徴語を抽出することで、未分類文書に当該特徴語が含まれるか否かで「微粒である文書」か「微粒でない文書」かに分類することができる。そのため、未分類文書の中には、「粒径が1.2nm〜79nm」という語は含まないが、当該範囲に関連する表現(例えば、「粒子径が小さい」、「粒径が細かい」などの表現)を含む文書も存在しても、文書分類装置100では、当該文書を「微粒である文書」であると分類することができる。 The document classification device 100 classifies unclassified documents into "fine-grained documents" and "non-fine-grained documents" by learning a learning model based on the labeled teacher data generated by the labeling unit 600. Can be done. The learning model trained with the teacher data labeled "fine grain" extracts the feature word from the document labeled "fine grain", and determines whether or not the feature word is included in the unclassified document. It can be classified into "fine-grained documents" and "non-fine-grained documents". Therefore, the unclassified document does not include the term "particle size is 1.2 nm to 79 nm", but expressions related to the range (for example, "small particle size", "fine particle size", etc. Even if there is a document containing (representation of), the document classification device 100 can classify the document as a “fine-grained document”.

以下、本実施の形態に係る文書分類装置100を用いて、未分類文書を分類した具体例を説明する。図14は、収集した文書に含まれる粒径の値を示すヒストグラムである。文書分類装置100は、MLCC関連の特許文献を約1700件、文書データベース200から収集し、数値検索処理を用いて化学式、材料、特性などの特徴部分と、数値または数値範囲などの数値部分とを関連付けて数値データとして抽出し、データベースに格納してある。図14では、当該データベースを用いて粒径の最小値、最大値を検索した結果を、横軸に粒径、縦軸に文書数をとりヒストグラムで可視化している。 Hereinafter, a specific example of classifying unclassified documents using the document classification device 100 according to the present embodiment will be described. FIG. 14 is a histogram showing the value of the particle size contained in the collected documents. The document classification device 100 collects about 1700 MLCC-related patent documents from the document database 200, and uses a numerical search process to obtain characteristic parts such as chemical formulas, materials, and properties, and numerical parts such as numerical values or numerical ranges. It is associated and extracted as numerical data and stored in the database. In FIG. 14, the results of searching for the minimum value and the maximum value of the particle size using the database are visualized in a histogram with the particle size on the horizontal axis and the number of documents on the vertical axis.

ヒストグラムにおけるA領域は、粒径が1.2nm〜79nmの数値が記載された文書を示し、その文書数は59件である。ヒストグラムにおけるB領域は、粒径が200nm〜270μmの数値が記載された文書を示し、その文書数は368件である。教師データは、A領域に含まれる文書に「微粒である」とのラベルを付し、B領域に含まれる文書に「微粒でない」とのラベルを付す。 The A region in the histogram shows documents in which numerical values having a particle size of 1.2 nm to 79 nm are described, and the number of documents is 59. The B region in the histogram shows a document in which a numerical value having a particle size of 200 nm to 270 μm is described, and the number of documents is 368. In the teacher data, the document contained in the A area is labeled as "fine grain", and the document contained in the B area is labeled as "not fine grained".

図14に示すヒストグラムを用いることで、「微粒である」とのラベルを付したA領域に対して、「微粒でない」とのラベルを付すB領域を目視で十分に離れていることを確認して決定することができる。 By using the histogram shown in FIG. 14, it was confirmed that the region A labeled as "fine particles" was visually sufficiently separated from the region B labeled as "not fine particles". Can be decided.

文書分類装置100は、上記で決定した教師データを用いて学習モデルを機械学習させる。機械学習には、例えば、一般的なテキスト分類方法であるMultinomial Naive Bayes法を用いる。もちろん、機械学習には、Multinomial Naive Bayes法以外の他の方法を用いてもよい。また、学習モデルを学習させる過程において、教師データを学習用とテスト用とを7対3の割合で分割する。教師データを学習用とテスト用とに分割する場合、「微粒である」とのラベルを付した文書と「微粒でない」とのラベルを付した文書との割合が分割する前と同じになるようにランダムに文書を選んで分割している。 The document classification device 100 machine-learns the learning model using the teacher data determined above. For machine learning, for example, the Multinomial Naive Bayes method, which is a general text classification method, is used. Of course, for machine learning, a method other than the Multinomial Naive Bayes method may be used. Further, in the process of training the learning model, the teacher data is divided into the training data and the test data at a ratio of 7: 3. When splitting teacher data into training and testing, the proportion of documents labeled "fine" and "non-fine" should be the same as before splitting. Documents are randomly selected and divided.

学習モデルは、学習用の教師データで学習した後、残りのテスト用の教師データを用いて正確度(正解率)を確認する。MLCC関連の特許文献から生成した教師データで学習した学習モデルでは、学習用の教師データを正しく「微粒である文書」または「微粒でない文書」と判断できた正確度が0.938であった。これに対し、テスト用の教師データをこの学習モデルで「微粒である文書」か「微粒でない文書」かを分類した場合、正確度は0.912となり、学習用の教師データによる学習が正常に機能していることが確認できた。 After learning with the teacher data for learning, the learning model confirms the accuracy (correct answer rate) using the remaining teacher data for the test. In the learning model trained with the teacher data generated from the patent documents related to MLCC, the accuracy of correctly determining the teacher data for learning as "fine-grained document" or "non-fine-grained document" was 0.938. On the other hand, when the teacher data for the test is classified as "fine-grained document" or "non-fine-grained document" by this learning model, the accuracy is 0.912, and the learning with the teacher data for learning is normal. I was able to confirm that it was working.

また、学習した学習モデルに含まれる単語のうち重要な単語について検証を行った。図15は、文書中に含まれる単語の重要度を説明するグラフである。図15では、横軸に文書数、縦軸にtfidf値をとり、学習モデルに含まれる「BRT」、「界面」、「Ca」の3つの単語について重要度を示している。ここで、tfidf値は、文書に含まれる単語の重要度を評価する手法の1つで、多くの文書に出現する単語は重要度が低く、特定の文書にしか出現しない単語は重要度が高い。また、「Ca」は、カルシウムを示し、「BRT」は、チタン酸バリウムに希土類元素が固溶した粉末、例えばBaO-TiO2-ReO3/2系セラミックを示す。 In addition, we verified important words among the words included in the learned learning model. FIG. 15 is a graph illustrating the importance of the words contained in the document. In FIG. 15, the horizontal axis represents the number of documents and the vertical axis represents the tfidf value, and the importance of the three words “BRT”, “interface”, and “Ca” included in the learning model is shown. Here, the tfidf value is one of the methods for evaluating the importance of words contained in a document. Words appearing in many documents have low importance, and words appearing only in a specific document have high importance. .. Further, "Ca" indicates calcium, and "BRT" indicates a powder in which a rare earth element is solid-dissolved in barium titanate, for example, BaO-TiO2-ReO3 / 2 ceramic.

図15に示す結果から、学習モデルに含まれる単語には、「界面」など微粒化の目的、利点と思われる単語、「Ca」などの添加物を示す単語、「BRT」など材料を示す単語などが重要度の高い単語であることが分かる。そのため、学習した学習モデルが、「微粒である文書」か「微粒でない文書」かを分類するモデルとして妥当であることが分かる。 From the results shown in FIG. 15, the words included in the learning model include words that indicate the purpose and advantage of atomization such as "interface", words that indicate additives such as "Ca", and words that indicate materials such as "BRT". It can be seen that such as is a highly important word. Therefore, it can be seen that the learned learning model is appropriate as a model for classifying whether the learned learning model is a "fine-grained document" or a "non-fine-grained document".

次に、MLCCやLTCCなどに関連する特許文献(総数約6000件、教師データとした特許文献は含まない未分類文書。)の中から文書をランダムに20件選び、学習済モデルの文書分類装置100で、「微粒である文書」か「微粒でない文書」かを分類する。なお、この20件の文書には、あらかじめ人が「微粒である」か「微粒でない」かの正解ラベルを付しているので、学習済モデルの文書分類装置100が正しく分類することができたのか否かを比較することができる。 Next, 20 documents are randomly selected from patent documents related to MLCC, LTCC, etc. (a total of about 6000 documents, unclassified documents that do not include patent documents used as teacher data), and a document classification device for a trained model. At 100, a "fine-grained document" or a "non-fine-grained document" is classified. In addition, since the correct answer label of "fine grain" or "not fine grain" is attached to these 20 documents in advance, the document classification device 100 of the trained model was able to correctly classify the documents. It is possible to compare whether or not.

図16は、20件の文書の比較結果を示す一覧表である。図16に示す比較結果では、検索式の「粒径が1.2nm〜79nm」では検索しきれない文書を「微粒である文書」として分類することができた。具体的に、番号「CCCCC02」の文書では、文書中に「30−50nmのサイズ」の記載があるものの、「粒径」の記載がないため検索式の「粒径が1.2nm〜79nm」では検索しきれていない文書である。人であれば、ニッケルのサイズが30−50nmであるとの記載から、「粒径が1.2nm〜79nm」の範囲に入るとして「微粒である」と分類することができる。一方、学習済モデルの文書分類装置100は、人が「微粒である」と分類した番号「CCCCC02」の文書に対しても正しく「微粒である」と分類することができた。 FIG. 16 is a list showing the comparison results of 20 documents. In the comparison results shown in FIG. 16, documents that could not be searched by the search formula "particle size of 1.2 nm to 79 nm" could be classified as "fine-grained documents". Specifically, in the document with the number "CCCCC02", although there is a description of "size of 30-50 nm" in the document, there is no description of "particle size", so the search formula "particle size is 1.2 nm to 79 nm". It is a document that has not been searched completely. For humans, from the description that the size of nickel is 30-50 nm, it can be classified as "fine grain" as it falls within the range of "particle size of 1.2 nm to 79 nm". On the other hand, the document classification device 100 of the trained model was able to correctly classify the document of the number "CCCCC02" which the person classified as "fine grain" as "fine grain".

また、番号「PPPPP01」の文書では、文書中に「10〜100nmBaTiO3」の記載があるものの、「79nm」より大きい範囲を含む記載があるため検索式の「粒径が1.2nm〜79nm」では検索しきれていない文書である。人であれば、BaTiO3のサイズが10〜100nmであるとの記載から、「粒径が1.2nm〜79nm」の範囲にほぼ含まれるとして「微粒である」と分類することができる。一方、学習済モデルの文書分類装置100は、人が「微粒である」と分類した番号「PPPPP01」の文書に対しても正しく「微粒である」と分類することができた。逆に、学習済モデルの文書分類装置100は、分野や粒径が一致しない文書を誤って分類することはなかった。 Further, in the document of the number "PPPPP01", although there is a description of "10 to 100 nm BaTiO3" in the document, there is a description including a range larger than "79 nm", so that the search formula "particle size is 1.2 nm to 79 nm" is used. This is a document that has not been completely searched. For humans, from the description that the size of BaTiO3 is 10 to 100 nm, it can be classified as "fine grain" as it is almost included in the range of "particle size of 1.2 nm to 79 nm". On the other hand, the document classification device 100 of the trained model was able to correctly classify the document of the number "PPPPP01" which the person classified as "fine grain" as "fine grain". On the contrary, the document classification device 100 of the trained model did not erroneously classify documents whose fields and particle sizes do not match.

以上のように、本実施の形態に係る文書分類装置100は、特定の数値データに関する項目を含む文書の分類を行う文書分類装置である。文書分類装置100は、複数の文書が入力される入力部と、入力部で入力された複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する分類部と、分類部で分類した文書の情報を出力する出力部と、を備える。文書分類装置100は、学習モデルの学習を行うために、複数の文書から数値データを抽出するデータ抽出部400と、データ抽出部400で抽出した数値データのうち特定の数値データを含む文書にラベルを付与するラベル付与部600と、を備え、複数の文書およびラベル付与部で付与されたラベルを用いて、学習モデルの学習を行う。データ抽出部400は、形態素・字句解析部410、関連解析部430、除外設定部450、抽出部470を含んでいる。形態素・字句解析部410は、収集した文書のテキストデータを複数の形態素に分割し、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する。関連解析部430は、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定する。除外設定部450は、関連解析部430において、特徴部分と数値部分との関連の判定から除外する条件を予め設定する。抽出部470は、関連解析部430で関連すると判定された特徴部分と数値部分とを数値データとして抽出する。 As described above, the document classification device 100 according to the present embodiment is a document classification device that classifies documents including items related to specific numerical data. The document classification device 100 divides the input unit into which a plurality of documents are input and the plurality of documents input by the input unit into a document including an item related to specific numerical data and a document not including the item by a learning model including a neural network. It includes a classification unit for classifying and an output unit for outputting information on documents classified by the classification unit. The document classification device 100 labels a data extraction unit 400 that extracts numerical data from a plurality of documents and a document that includes specific numerical data among the numerical data extracted by the data extraction unit 400 in order to train a learning model. A learning model is trained by using a plurality of documents and labels given by the labeling unit. The data extraction unit 400 includes a morpheme / lexical analysis unit 410, a related analysis unit 430, an exclusion setting unit 450, and an extraction unit 470. The morpheme / lexical analysis unit 410 divides the text data of the collected document into a plurality of morphemes, and identifies a predetermined feature portion and a numerical portion from the divided plurality of morphemes. The relation analysis unit 430 includes a predetermined morpheme indicating a relationship between the specified feature part and the numerical part, and the number of morphemes contained between the feature part and the numerical part is equal to or less than the predetermined number. In the case of, it is determined that the feature part and the numerical part are related. The exclusion setting unit 450 sets in advance the condition to be excluded from the determination of the relationship between the feature portion and the numerical portion in the relation analysis unit 430. The extraction unit 470 extracts the feature portion and the numerical portion determined to be related by the related analysis unit 430 as numerical data.

これにより、本実施の形態に係る文書分類装置100では、特徴部分と数値部分との関連の判定から除外する条件を予め設定してあるので、数値部分と特徴部分とを正しく関連付けて抽出することができ、特定の数値データを含む文書にラベルを付すことができる。また、本実施の形態に係る文書分類装置100では、特定の数値データを含む文書にラベルを付し、そのラベルが付された文書で学習モデルを学習させることで、未分類文書から特定の数値データに関連する文書を分類することができる。 As a result, in the document classification device 100 according to the present embodiment, the conditions for excluding from the determination of the relationship between the characteristic portion and the numerical portion are set in advance, so that the numerical portion and the characteristic portion are correctly associated and extracted. And can label documents that contain specific numerical data. Further, in the document classification device 100 according to the present embodiment, a document containing specific numerical data is labeled, and a learning model is trained with the labeled document to obtain a specific numerical value from an unclassified document. Documents related to the data can be categorized.

また、関連解析部430は、除外設定部450で予め設定された条件を1つの形態素として圧縮して、特徴部分と数値部分との間に含まれる形態素の数をカウントしてもよい。これにより、文書分類装置100は、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下と判断され、特徴部分と数値部分とを関連付け易くなる。 Further, the related analysis unit 430 may compress the conditions preset by the exclusion setting unit 450 as one morpheme and count the number of morphemes included between the feature portion and the numerical value portion. As a result, the document classification device 100 determines that the number of morphemes contained between the feature portion and the numerical portion is equal to or less than a predetermined number, and makes it easier to associate the feature portion with the numerical portion.

さらに、形態素・字句解析部410は、分割した複数の形態素のうちに1つの数値が含まれている場合、当該数値に予め定められた数値範囲を付与して数値部分と特定してもよい。これにより、文書分類装置100は、数値同士を比較する際に、数値に幅を持った数値範囲同士の比較となり、比較が容易となる。 Further, when the morpheme / lexical analysis unit 410 includes one numerical value among the plurality of divided morphemes, the morpheme / lexical analysis unit 410 may assign a predetermined numerical range to the numerical value and specify it as a numerical part. As a result, when the document classification device 100 compares the numerical values with each other, the numerical values have a range of numerical values, and the comparison becomes easy.

また、形態素・字句解析部410は、分割した複数の形態素のうちに複数の数値と、範囲を示す予め定められた形態素とが含まれている場合、当該複数の数値に基づく数値範囲を数値部分と特定してもよい。これにより、文書分類装置100は、数値範囲を1つの数値部分として特定することができる。 Further, when the morpheme / lexical analysis unit 410 includes a plurality of numerical values and a predetermined morpheme indicating a range in the divided plurality of morphemes, the morpheme / lexical analysis unit 410 sets a numerical range based on the plurality of numerical values as a numerical part. May be specified. Thereby, the document classification device 100 can specify the numerical range as one numerical part.

さらに、形態素・字句解析部410は、分割した複数の形態素のうちに単位が含まれている場合、当該単位と数値とを1つの数値部分と特定してもよい。これにより、文書分類装置100は、単位を含めた数値部分を特定することができ、単位を考慮して数値部分を比較しやすくなる。 Further, the morpheme / lexical analysis unit 410 may specify the unit and the numerical value as one numerical value portion when the unit is included in the plurality of divided morphemes. As a result, the document classification device 100 can specify the numerical portion including the unit, and it becomes easy to compare the numerical portion in consideration of the unit.

また、形態素・字句解析部410は、分割した複数の形態素から、予め定められた特性名、材料名、化学式および組成のいずれかを特徴部分と特定してもよい。形態素・字句解析部410は、化学式および組成のいずれかに数値範囲または数式を含めて特徴部分と特定してもよい。これにより、文書分類装置100は、様々な種類の特徴部分と数値部分との関連付けが可能となる。 Further, the morpheme / lexical analysis unit 410 may specify any of a predetermined characteristic name, material name, chemical formula and composition as a characteristic portion from the plurality of divided morphemes. The morpheme / lexical analysis unit 410 may include a numerical range or a mathematical formula in either the chemical formula or the composition to specify the characteristic portion. As a result, the document classification device 100 can associate various types of feature portions with numerical portions.

コンピュータが、複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する場合に、学習モデルの学習をする学習方法である。学習方法は、複数の文書から数値データを抽出するステップと、抽出した数値データのうち特定の数値データを含む文書にラベルを付与するステップと、を含む。複数の文書および付与されたラベルを用いて、学習モデルの学習を行う処理をコンピュータに実行させ、数値データを抽出するステップは、収集した文書のテキストデータを複数の形態素に分割するステップと、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定するステップとを含む。数値データを抽出するステップは、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定するステップを含む。数値データを抽出するステップは、特徴部分と数値部分との関連の判定から除外する条件を予め設定するステップと、関連すると判定された特徴部分と数値部分とを数値データとして抽出するステップとを含む。 This is a learning method for learning a learning model when a computer classifies a plurality of documents into a document containing items related to specific numerical data and a document not containing items by a learning model including a neural network. The learning method includes a step of extracting numerical data from a plurality of documents and a step of assigning a label to a document containing specific numerical data among the extracted numerical data. The steps of having a computer execute a process of learning a learning model using a plurality of documents and assigned labels and extracting numerical data include a step of dividing the text data of the collected document into a plurality of morphemes and a step of dividing the data. It includes a step of identifying a predetermined feature part and a numerical part from a plurality of morphemes. The step of extracting the numerical data includes a predetermined morpheme indicating the relationship between the specified feature part and the numerical part, and the number of morphemes contained between the feature part and the numerical part is predetermined. In the case of a number or less, a step of determining that the feature part and the numerical part are related is included. The step of extracting the numerical data includes a step of presetting a condition to be excluded from the determination of the relationship between the characteristic part and the numerical part, and a step of extracting the characteristic part and the numerical part determined to be related as numerical data. ..

コンピュータが、複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する場合に、学習モデルの学習をさせる学習プログラムである。学習プログラムは、複数の文書から数値データを抽出するデータ抽出処理と、抽出した数値データのうち特定の数値データを含む文書にラベルを付与するラベル付与処理と、を含む。複数の文書および付与されたラベルを用いて、学習モデルの学習を行う処理をコンピュータに実行させ、データ抽出処理は、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定する関連解析処理を含む。データ抽出処理は、特徴部分と数値部分との関連の判定から除外する条件を予め設定する除外設定処理と、関連すると判定された特徴部分と数値部分とを数値データとして抽出する抽出処理とを含む。 This is a learning program in which a computer trains a learning model when a computer classifies a plurality of documents into a document containing an item related to specific numerical data and a document not containing the item by a learning model including a neural network. The learning program includes a data extraction process for extracting numerical data from a plurality of documents and a labeling process for assigning a label to a document containing specific numerical data among the extracted numerical data. Using a plurality of documents and assigned labels, a computer is made to execute a process of training a training model, and a data extraction process is a predetermined morpheme showing a relationship between a specified feature part and a numerical part. Includes, and includes a related analysis process for determining that the feature part and the numerical part are related when the number of morphemes contained between the feature part and the numerical part is less than or equal to a predetermined number. The data extraction process includes an exclusion setting process in which conditions for excluding from the determination of the relationship between the feature part and the numerical part are set in advance, and an extraction process for extracting the characteristic part and the numerical part determined to be related as numerical data. ..

[変形例]
(1) 前述の実施の形態では、特許文献データベースから文書を収集して、収集した文書から特徴部分と数値部分を関連付けた数値データを抽出する例について説明した。しかし、これに限定されず、特許文献データベース以外の文書データベース(例えば、学術論文データベース)から文書を収集して、当該文書から特徴部分と数値部分を関連付けた数値データを抽出する構成であってもよい。また、複数種類のデータベース(例えば、特許文献データベースおよび学術論文データベース)から文書を収集して、当該文書から特徴部分と数値部分を関連付けた数値データを抽出する構成であってもよい。
[Modification example]
(1) In the above-described embodiment, an example in which a document is collected from a patent document database and numerical data in which a characteristic part and a numerical part are associated with each other is extracted from the collected document has been described. However, the present invention is not limited to this, and even in a configuration in which a document is collected from a document database other than the patent document database (for example, an academic paper database) and numerical data in which a characteristic part and a numerical part are associated with each other is extracted from the document. good. Further, a configuration may be configured in which documents are collected from a plurality of types of databases (for example, a patent document database and an academic paper database), and numerical data in which a characteristic portion and a numerical portion are associated with each other is extracted from the document.

(2) 前述で説明した各種処理は、1つのCPUによって実現されるものとしてあるが、これに限られない。これらの各種処理は、複数のCPUによって分散して実現されてもよい。これらCPUで実行されるプログラムは、有形の読取可能な少なくとも1つの媒体から、1以上の命令を読み出すことにより前述の各種処理を実行しうる。 (2) The various processes described above are supposed to be realized by one CPU, but are not limited to this. These various processes may be distributed and realized by a plurality of CPUs. The programs executed by these CPUs can execute the above-mentioned various processes by reading one or more instructions from at least one tangible readable medium.

このような媒体は、磁気媒体(たとえば、ハードディスク)、光学媒体(例えば、コンパクトディスク(CD,DVD)、揮発性メモリ、不揮発性メモリの任意のタイプのメモリなどの形態をとるが、これらの形態に限定されるものではない。 Such media take the form of magnetic media (eg, hard disks), optical media (eg, compact discs (CDs, DVDs), volatile memories, memories of any type of non-volatile memory, and the like. It is not limited to.

揮発性メモリはDRAM(Dynamic Random Access Memory)およびSRAM(Static Random Access Memory)を含み得る。不揮発性メモリは、ROM、NVRAMを含み得る。 Volatile memory may include DRAM (Dynamic Random Access Memory) and SRAM (Static Random Access Memory). The non-volatile memory may include ROM, NVRAM.

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した説明ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 It should be considered that the embodiments disclosed this time are exemplary in all respects and not restrictive. The scope of the present invention is shown by the scope of claims, not the above description, and is intended to include all modifications within the meaning and scope equivalent to the scope of claims.

100 文書分類装置、200 文書データベース、300 収集部、320 中間ファイル、400 データ抽出部、410 形態素・字句解析部、412 形態素解析部、430 関連解析部、450 除外設定部、470 抽出部、500 データベース部、600 ラベル付与部。 100 document classification device, 200 document database, 300 collection unit, 320 intermediate file, 400 data extraction unit, 410 morphological / lexical analysis unit, 412 morphological analysis unit, 430 related analysis unit, 450 exclusion setting unit, 470 extraction unit, 500 database Department, 600 Labeling part.

Claims (9)

特定の数値データに関する項目を含む文書の分類を行う文書分類装置であって、
複数の文書が入力される入力部と、
前記入力部で入力された複数の文書を、ニューラルネットワークを含む学習モデルによって前記特定の数値データに関する項目を含む文書と含まない文書とに分類する分類部と、
前記分類部で分類した文書の情報を出力する出力部と、を備え、
前記学習モデルの学習を行うために、
複数の文書から数値データを抽出するデータ抽出部と、
前記データ抽出部で抽出した数値データのうち前記特定の数値データを含む文書にラベルを付与するラベル付与部と、を備え、
複数の文書および前記ラベル付与部で付与されたラベルを用いて、前記学習モデルの学習を行い、
前記データ抽出部は、
収集した文書のテキストデータを複数の形態素に分割する形態素解析部と、
前記形態素解析部で分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する字句解析部と、
前記字句解析部で特定した前記特徴部分と前記数値部分との間に、関連を示す予め定められた形態素を含み、前記特徴部分と前記数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、前記特徴部分と前記数値部分とが関連すると判定する関連解析部と、
前記関連解析部において、前記特徴部分と前記数値部分との関連の判定から除外する条件を予め設定する除外設定部と、
前記関連解析部で関連すると判定された前記特徴部分と前記数値部分とを数値データとして抽出する抽出部とを含む、文書分類装置。
A document classification device that classifies documents containing items related to specific numerical data.
Input section where multiple documents are input and
A classification unit that classifies a plurality of documents input by the input unit into a document that includes an item related to the specific numerical data and a document that does not include an item related to the specific numerical data by a learning model including a neural network.
It is provided with an output unit that outputs information on documents classified by the classification unit.
In order to train the learning model,
A data extractor that extracts numerical data from multiple documents,
A labeling unit for assigning a label to a document containing the specific numerical data among the numerical data extracted by the data extraction unit is provided.
The learning model is trained using a plurality of documents and the labels given by the labeling unit, and the learning model is trained.
The data extraction unit
A morphological analysis unit that divides the text data of the collected document into multiple morphemes,
A lexical analysis unit that identifies predetermined feature parts and numerical parts from a plurality of morphemes divided by the morphological analysis unit, and
A predetermined morpheme indicating a relationship is included between the characteristic portion and the numerical value portion specified by the lexical analysis unit, and the number of morphemes included between the characteristic portion and the numerical value portion is predetermined. A related analysis unit that determines that the characteristic part and the numerical value part are related when the number is less than or equal to
In the related analysis unit, an exclusion setting unit that presets conditions to be excluded from the determination of the relationship between the characteristic portion and the numerical value portion, and the exclusion setting unit.
A document classification device including an extraction unit that extracts the feature portion and the numerical value portion determined to be related by the related analysis unit as numerical data.
前記関連解析部は、前記除外設定部で予め設定された条件を1つの形態素として圧縮して、前記特徴部分と前記数値部分との間に含まれる形態素の数をカウントする、請求項1に記載の文書分類装置。 The first aspect of the present invention, wherein the related analysis unit compresses the conditions preset by the exclusion setting unit as one morpheme and counts the number of morphemes contained between the feature portion and the numerical value portion. Document classification device. 前記字句解析部は、前記形態素解析部で分割した複数の形態素のうちに1つの数値が含まれている場合、当該数値に予め定められた数値範囲を付与して前記数値部分と特定する、請求項1または請求項2に記載の文書分類装置。 When one numerical value is included in a plurality of morphemes divided by the morphological analysis unit, the lexical analysis unit assigns a predetermined numerical range to the numerical value and identifies it as the numerical value portion. The document classification device according to claim 1 or 2. 前記字句解析部は、前記形態素解析部で分割した複数の形態素のうちに複数の数値と、範囲を示す予め定められた形態素とが含まれている場合、当該複数の数値に基づく数値範囲を前記数値部分と特定する、請求項1〜請求項3のいずれか1項に記載の文書分類装置。 When a plurality of numerical values and predetermined morphemes indicating a range are included in the plurality of morphemes divided by the morphological analysis unit, the lexical analysis unit obtains a numerical range based on the plurality of numerical values. The document classification device according to any one of claims 1 to 3, which is specified as a numerical part. 前記字句解析部は、前記形態素解析部で分割した複数の形態素のうちに単位が含まれている場合、当該単位と数値とを1つの前記数値部分と特定する、請求項1〜請求項4のいずれか1項に記載の文書分類装置。 The lexical analysis unit identifies the unit and the numerical value as one of the numerical values when the unit is included in the plurality of morphemes divided by the morphological analysis unit. The document classification device according to any one item. 前記字句解析部は、前記形態素解析部で分割した複数の形態素から、予め定められた特性名、材料名、化学式および組成のいずれかを前記特徴部分と特定する、請求項1〜請求項5のいずれか1項に記載の文書分類装置。 The lexical analysis unit identifies any of a predetermined characteristic name, material name, chemical formula and composition as the characteristic portion from a plurality of morphemes divided by the morphological analysis unit, claim 1 to 5. The document classification device according to any one of the items. 前記字句解析部は、前記化学式および前記組成のいずれかに数値範囲または数式を含めて前記特徴部分と特定する、請求項6に記載の文書分類装置。 The document classification device according to claim 6, wherein the lexical analysis unit includes a numerical range or a mathematical expression in either the chemical formula or the composition to identify the characteristic portion. コンピュータが、複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する場合に、前記学習モデルの学習をする学習方法であって、
複数の文書から数値データを抽出するステップと、
抽出した数値データのうち前記特定の数値データを含む文書にラベルを付与するステップと、を含み、
複数の文書および付与されたラベルを用いて、前記学習モデルの学習を行う処理をコンピュータに実行させ、
数値データを抽出するステップは、
収集した文書のテキストデータを複数の形態素に分割するステップと、
分割した複数の形態素から予め定められた特徴部分と数値部分とを特定するステップと、
特定した前記特徴部分と前記数値部分との間に、関連を示す予め定められた形態素を含み、前記特徴部分と前記数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、前記特徴部分と前記数値部分とが関連すると判定するステップと、
前記特徴部分と前記数値部分との関連の判定から除外する条件を予め設定するステップと、
関連すると判定された前記特徴部分と前記数値部分とを数値データとして抽出するステップとを含む、学習方法。
A learning method for learning a learning model when a computer classifies a plurality of documents into a document containing an item related to specific numerical data and a document not containing an item by a learning model including a neural network.
Steps to extract numerical data from multiple documents,
Including a step of assigning a label to a document containing the specific numerical data among the extracted numerical data.
Using a plurality of documents and assigned labels, a computer is made to execute a process of learning the learning model.
The step to extract numerical data is
Steps to divide the text data of the collected document into multiple morphemes,
A step to identify a predetermined feature part and a numerical part from a plurality of divided morphemes, and
When a predetermined morpheme indicating a relationship is included between the specified feature portion and the numerical value portion, and the number of morphemes contained between the feature portion and the numerical value portion is equal to or less than a predetermined number. In addition, a step of determining that the feature portion and the numerical value portion are related,
A step of presetting conditions to be excluded from the determination of the relationship between the feature portion and the numerical portion, and
A learning method including a step of extracting the characteristic portion determined to be related and the numerical portion as numerical data.
コンピュータが、複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する場合に、前記学習モデルの学習をさせる学習プログラムであって、
複数の文書から数値データを抽出するデータ抽出処理と、
抽出した数値データのうち前記特定の数値データを含む文書にラベルを付与するラベル付与処理と、を含み、
複数の文書および付与されたラベルを用いて、前記学習モデルの学習を行う処理をコンピュータに実行させ、
前記データ抽出処理は、
収集した文書のテキストデータを複数の形態素に分割する形態素解析処理と、
分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する字句解析処理と、
特定した前記特徴部分と前記数値部分との間に、関連を示す予め定められた形態素を含み、前記特徴部分と前記数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、前記特徴部分と前記数値部分とが関連すると判定する関連解析処理と、
前記特徴部分と前記数値部分との関連の判定から除外する条件を予め設定する除外設定処理と、
関連すると判定された前記特徴部分と前記数値部分とを数値データとして抽出する抽出処理とを含む、学習プログラム。
A learning program for training a plurality of documents when a computer classifies a plurality of documents into a document containing an item related to specific numerical data and a document not containing an item by a learning model including a neural network.
Data extraction processing that extracts numerical data from multiple documents,
Includes a labeling process for assigning a label to a document containing the specific numerical data among the extracted numerical data.
Using a plurality of documents and assigned labels, a computer is made to execute a process of learning the learning model.
The data extraction process
Morphological analysis processing that divides the text data of the collected document into multiple morphemes,
Lexical analysis processing that identifies predetermined feature parts and numerical parts from a plurality of divided morphemes,
When a predetermined morpheme indicating a relationship is included between the specified feature portion and the numerical value portion, and the number of morphemes contained between the feature portion and the numerical value portion is equal to or less than a predetermined number. In addition, the related analysis process for determining that the feature portion and the numerical value portion are related,
Exclusion setting processing that presets conditions to be excluded from the determination of the relationship between the feature portion and the numerical portion, and
A learning program including an extraction process for extracting the characteristic portion determined to be related and the numerical portion as numerical data.
JP2020033770A 2020-02-28 2020-02-28 Document classification device, learning method, and learning program Active JP7363577B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020033770A JP7363577B2 (en) 2020-02-28 2020-02-28 Document classification device, learning method, and learning program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020033770A JP7363577B2 (en) 2020-02-28 2020-02-28 Document classification device, learning method, and learning program

Publications (2)

Publication Number Publication Date
JP2021135931A true JP2021135931A (en) 2021-09-13
JP7363577B2 JP7363577B2 (en) 2023-10-18

Family

ID=77661692

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020033770A Active JP7363577B2 (en) 2020-02-28 2020-02-28 Document classification device, learning method, and learning program

Country Status (1)

Country Link
JP (1) JP7363577B2 (en)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005157887A (en) * 2003-11-27 2005-06-16 Nippon Telegr & Teleph Corp <Ntt> Document classifying device and method and its program
JP2006350989A (en) * 2005-05-18 2006-12-28 Oki Electric Ind Co Ltd Range information extracting device, range information extracting method and range information extracting program
JP2008287388A (en) * 2007-05-16 2008-11-27 National Institute Of Information & Communication Technology Information extracting device, information extraction method, and information extraction program
JP2009098952A (en) * 2007-10-17 2009-05-07 Mitsubishi Electric Corp Information retrieval system
JP2009237640A (en) * 2008-03-26 2009-10-15 National Institute Of Information & Communication Technology Information extraction device, information extraction method, and information extraction program
JP2014048987A (en) * 2012-09-02 2014-03-17 Management Of Technology Solution Cooperation Case component extraction program
JP2019179470A (en) * 2018-03-30 2019-10-17 富士通株式会社 Information processing program, information processing method, and information processing device
JP2020080087A (en) * 2018-11-14 2020-05-28 株式会社村田製作所 Numerical-value retrieving device, numerical-value retrieving method, and numerical-value retrieving program

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005157887A (en) * 2003-11-27 2005-06-16 Nippon Telegr & Teleph Corp <Ntt> Document classifying device and method and its program
JP2006350989A (en) * 2005-05-18 2006-12-28 Oki Electric Ind Co Ltd Range information extracting device, range information extracting method and range information extracting program
JP2008287388A (en) * 2007-05-16 2008-11-27 National Institute Of Information & Communication Technology Information extracting device, information extraction method, and information extraction program
JP2009098952A (en) * 2007-10-17 2009-05-07 Mitsubishi Electric Corp Information retrieval system
JP2009237640A (en) * 2008-03-26 2009-10-15 National Institute Of Information & Communication Technology Information extraction device, information extraction method, and information extraction program
JP2014048987A (en) * 2012-09-02 2014-03-17 Management Of Technology Solution Cooperation Case component extraction program
JP2019179470A (en) * 2018-03-30 2019-10-17 富士通株式会社 Information processing program, information processing method, and information processing device
JP2020080087A (en) * 2018-11-14 2020-05-28 株式会社村田製作所 Numerical-value retrieving device, numerical-value retrieving method, and numerical-value retrieving program

Also Published As

Publication number Publication date
JP7363577B2 (en) 2023-10-18

Similar Documents

Publication Publication Date Title
US10325020B2 (en) Contextual pharmacovigilance system
US10198479B2 (en) Systems and methods for contextual retrieval and contextual display of records
US10489439B2 (en) System and method for entity extraction from semi-structured text documents
US8494987B2 (en) Semantic relationship extraction, text categorization and hypothesis generation
KR101813683B1 (en) Method for automatic correction of errors in annotated corpus using kernel Ripple-Down Rules
TW201737118A (en) Method and device for webpage text classification, method and device for webpage text recognition
JP5751253B2 (en) Information extraction system, method and program
Isa et al. Indobert for indonesian fake news detection
JP7092001B2 (en) Numerical search device, numerical search method, and numerical search program
Ribeiro et al. Discovering IMRaD structure with different classifiers
Thakur et al. A review on text based emotion recognition system
CN113220888B (en) Case clue element extraction method and system based on Ernie model
US11580499B2 (en) Method, system and computer-readable medium for information retrieval
JP7363577B2 (en) Document classification device, learning method, and learning program
Silva et al. An approach to support the selection of relevant studies in systematic review and systematic mappings
WO2010038481A1 (en) Computer-readable recording medium containing a sentence extraction program, sentence extraction method, and sentence extraction device
WO2021075998A1 (en) System for classifying data in order to detect confidential information in a text
Ousidhoum et al. Towards the refinement of the Arabic soundex
KR102609227B1 (en) Method and apparatus for detecting safety information via artificial intelligence from electronic document
US20230359826A1 (en) Computer-implemented system and method to perform natural language processing entity research and resolution
Sulaiman et al. Feature extraction using regular expression in detecting proper noun for Malay news articles based on KNN algorithm
Zhang et al. A Semantic Search Framework for Similar Audit Issue Recommendation in Financial Industry
CN113313184B (en) Heterogeneous integrated self-bearing technology liability automatic detection method
CN114418033B (en) Code programming language classification method utilizing CodeBert layers of characterization information
Moreno-Acevedo et al. Comparison of Named Entity Recognition Methods on Real-World and Highly Imbalanced Business Document Datasets

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230918

R150 Certificate of patent or registration of utility model

Ref document number: 7363577

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150