JP7363577B2

JP7363577B2 - 文書分類装置、学習方法および、学習プログラム

Info

Publication number: JP7363577B2
Application number: JP2020033770A
Authority: JP
Inventors: 真一加藤
Original assignee: Murata Manufacturing Co Ltd
Current assignee: Murata Manufacturing Co Ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2023-10-18
Anticipated expiration: 2040-02-28
Also published as: JP2021135931A

Description

本発明は、文書分類装置、学習方法および、学習プログラムに関する。

近年、様々な材料が開発されており、当該開発に基づいて多数の特許出願や論文発表が行われている。これらの特許文献や論文に記載された特性の数値や、組成の数値範囲など情報は膨大であり、開発者がそれらの情報をすべて把握した上で新たな材料の開発を行うことは不可能である。

そこで、開発者は、多数の特許文献や論文が格納されたデータベースから開発に必要な情報を検索する必要がある。しかし、データベースから情報を検索する場合、特許文献１に示すように自然な文章からなる検索文を用いて検索することができたとしても、これらの文書に記載された数値または数値範囲を単に文字としてしか検索することができなかった。

また、注目する数値または数値範囲に関連する文書を未分類の文書から分類する場合、特許文献２では、複数テキストを予め所定項目別に分類して複数のサブデータベースとしておき、そのうち注目する注目サブデータベースに格納されている複数テキストに対してテキストマイニング処理を施すことで文書を迅速に分類している。

特開２０００－２５９６７５号公報特開２００４－５０２５号公報

特許文献２に記載の分類装置では、文書に対して単にテキストマイニング処理を施すだけで、文書に記載された数値または数値範囲を単に文字として把握して文書を分類しているに過ぎなかった。

数値または数値範囲に基づいて文書を分類するためには、データベースに格納された文書に記載された数値または数値範囲と、どの特性または材料とが関連しているのかを正確に把握した上でデータを抽出する必要がある。しかし、文書に記載された数値または数値範囲と、記載された位置が近い特性または材料とを単純に関連付けデータを抽出したのでは、数値または数値範囲（数値部分）が誤った特性や材料（特徴部分）とを関連付けられてしまい、分類装置は数値または数値範囲を正しく把握して分類できない問題があった。

そこで、本発明の目的は、このような課題を解決するためになされたものであって、数値部分と特徴部分とを正しく関連付けて把握し、文書を分類することが可能な文書分類装置、学習方法および、学習プログラムを提供することである。

本発明の一形態に係る文書分類装置は、特定の数値データに関する項目を含む文書の分類を行う文書分類装置であって、複数の文書が入力される入力部と、入力部で入力された複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する分類部と、分類部で分類した文書の情報を出力する出力部と、を備える。学習モデルの学習を行うために、複数の文書から数値データを抽出するデータ抽出部と、データ抽出部で抽出した数値データのうち特定の数値データを含む文書にラベルを付与するラベル付与部と、を備え、複数の文書およびラベル付与部で付与されたラベルを用いて、学習モデルの学習を行う。データ抽出部は、収集した文書のテキストデータを複数の形態素に分割する形態素解析部と、形態素解析部で分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する字句解析部と、字句解析部で特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定する関連解析部と、関連解析部において、特徴部分と数値部分との関連の判定から除外する条件を予め設定する除外設定部と、関連解析部で関連すると判定された特徴部分と数値部分とを数値データとして抽出する抽出部とを含む。

本発明の一形態に係る学習方法は、コンピュータが、複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する場合に、学習モデルの学習をする学習方法であって、複数の文書から数値データを抽出するステップと、抽出した数値データのうち特定の数値データを含む文書にラベルを付与するステップと、を含み、複数の文書および付与されたラベルを用いて、学習モデルの学習を行う処理をコンピュータに実行させる。数値データを抽出するステップは、収集した文書のテキストデータを複数の形態素に分割するステップと、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定するステップと、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定するステップと、特徴部分と数値部分との関連の判定から除外する条件を予め設定するステップと、関連すると判定された特徴部分と数値部分とを数値データとして抽出するステップとを含む。

本発明の一形態に係る学習プログラムは、コンピュータが、複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する場合に、学習モデルの学習をさせる学習プログラムであって、複数の文書から数値データを抽出するデータ抽出処理と、抽出した数値データのうち特定の数値データを含む文書にラベルを付与するラベル付与処理と、を含み、複数の文書および付与されたラベルを用いて、学習モデルの学習を行う処理をコンピュータに実行させる。データ抽出処理は、収集した文書のテキストデータを複数の形態素に分割する形態素解析処理と、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する字句解析処理と、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定する関連解析処理と、特徴部分と数値部分との関連の判定から除外する条件を予め設定する除外設定処理と、関連すると判定された特徴部分と数値部分とを数値データとして抽出する抽出処理とを含む。

本発明によれば、特徴部分と数値部分との関連の判定から除外する条件を予め設定してあるので、数値部分と特徴部分とを正しく関連付けて把握し、文書を分類することができる。

本実施の形態に係る文書分類装置の一例の概略図である。本実施の形態に係る文書分類装置の構成を説明するためのブロック図である。本実施の形態に係る文書分類装置での数値検索処理を説明するための機能ブロック図である。本実施の形態に係る文書分類装置の収集部での処理を説明するための機能ブロック図である。本実施の形態に係る文書分類装置のデータ抽出部での処理を説明するための機能ブロック図である。本実施の形態に係る文書分類装置の形態素・字句解析部での処理を説明するための機能ブロック図である。本実施の形態に係る文書分類装置の形態素・字句解析部での処理の一例を説明するための概念図である。本実施の形態に係る文書分類装置の形態素・字句解析部での処理の別の一例を説明するための概念図である。本実施の形態に係る文書分類装置の関連解析部での処理を説明するための機能ブロック図である。本実施の形態に係る文書分類装置の関連解析部での処理の一例を説明するための概念図である。誤って関連がある字句と判定する一例を説明するための概念図である。本実施の形態に係る文書分類装置の関連解析部で除外設定部の条件を考慮した処理の一例を説明するための概念図である。除外設定部に予め設定してある関連付けを除外する条件の一例を説明するための概念図である。収集した文書に含まれる粒径の値を示すヒストグラムである。文書中に含まれる単語の重要度を説明するグラフである。２０件の文書の比較結果を示す一覧表である。

以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰り返さない。
［実施の形態］
図１は、本実施の形態に係る文書分類装置１００の一例の概略図である。文書分類装置１００は、未分類の文書から特定の数値データに関する項目を含む文書を分類する。文書分類装置１００では、ユーザが検索式を入力すると、当該検索式に関連する内容が含まれる文書を、未分類文書（例えば、特許文献データベースから収集した特定分野の文書）の中から分類して、その分類した文書の情報をユーザに出力する。

具体的に、ＭＬＣＣ（Multilayer Ceramic Chip Capacitor）やＬＴＣＣ（Low Temperature Co-fired Ceramics）などの開発において、粒径が８０ｎｍ未満の微粒である材料の開発を行う場合に、文書分類装置１００に検索式として「粒径が１．２ｎｍ～７９ｎｍ」と入力し、未分類文書の中から「粒径が１．２ｎｍ～７９ｎｍ」に関連する内容の文書を「微粒である文書」と分類して、その分類した文書の情報をユーザに出力する。

文書分類装置１００では、ＡＩ（人工知能：Artificial Intelligence）を利用して、未分類文書の中から検索式に関連する内容が含まれる文書を自動的に分類して、検索式に関連する文書を特定する処理を実行するように構成されている。具体的に、ユーザが文書分類装置１００に検索式を入力すると、文書分類装置１００は、ニューラルネットワークを含む学習モデルに基づき文書から検索式に関連する特徴語を抽出して、検索式に関連する文書か否かを特定する分類処理を実行する。

ここで、「学習モデル」は、ニューラルネットワークと当該ニューラルネットワークによって用いられるパラメータとを含み、検索式に関連する特徴語を含む文書と、その文書が検索式に関連する文書であるとラベルされた情報とに基づき学習されることで最適化（調整）される。具体的に、学習モデルは、文書が入力されると、ニューラルネットワークによって当該文書から検索式に関連する特徴語を抽出し、抽出した特徴語に基づき検索式に関連する文書か否かを分類する。

そして、学習モデルは、自身が分類した文書と、入力された文書にラベルされた情報（検索式に関連する文書か否かの情報）とに基づき、両者が一致すればパラメータを更新しない一方で、両者が一致しなければ両者が一致するようにパラメータを更新することで、パラメータを最適化している。このように、学習モデルは、入力される文書と、正解データである当該文書にラベルされた情報とを含む教師データを利用して、パラメータが最適化されることで学習される。

なお、このような学習モデルを学習する処理を「学習フェーズ」とも称する。また、学習フェーズによって最適化された学習モデルを、特に「学習済モデル」とも称する。つまり、本実施の形態においては、学習前の学習モデルおよび学習済みの学習モデルをまとめて「学習モデル」と総称する場合がある一方で、学習済みの学習モデルを学習前の学習モデルと区別するために「学習済モデル」とも称する場合がある。

一般的に、教師データを利用して学習モデルを学習させる場合、ユーザがあらかじめ検索式に関連する文書と検索式に関連しない文書を分類して文書にラベルを付す作業が必要となる。教師データとなる文書の数が多ければ多いほど、学習済モデルによる未分類文書の分類精度が高くなるので、多くの文書にラベルを付す必要がある。

しかし、教師データが数十件の文書であれば、ユーザが文書にラベルを付す作業は可能であるが、教師データが数百件、数千件の文書であれば、ユーザが文書にラベルを付す作業は困難である。

そこで、教師データを生成する作業において、検索式で検索した文書に対して自動的にラベルを付すことでユーザの作業を軽減することが考えられる。しかし、文書データベース（例えば、特許文献データベース）で収集した文書に対して「粒径が１．２ｎｍ～７９ｎｍ」という単純な検索式で検索するだけでは、「微粒」の教師データを生成することできない。

つまり、検索式として「粒径が１．２ｎｍ～７９ｎｍ」を入力し、粒径が１．２ｎｍ～７９ｎｍとなる材料を使用した文書を検索する場合、単に文書データベースで収集した文書から「粒径」と「１．２ｎｍ」と「７９ｎｍ」とを含む文書を検索するだけでは、粒径が５０ｎｍの材料使用した文書などが検索結果から漏れてしまう。そのため、文書データベースで収集した文書から特徴である「粒径」と数値である「１．２ｎｍ」と「７９ｎｍ」とを関連付けて抽出し、データベース化した上で検索を行う必要がある。

本実施の形態に係る文書分類装置１００では、図１に示すように学習フェーズとして、文書データベースから対象特許の文書の収集した教師文書（教師データ）に対して、検索式（特定の数値データ）を含む文書にラベルを自動的に付与して、学習モデルを学習する。また、文書分類装置１００では、図１に示すように学習後として、学習フェーズで学習した学習モデル（学習済モデル）を用いて、未分類文書を「微粒である文書」と「微粒でない文書」とに分類する。

文書分類装置１００は、学習フェーズにおいて、検索式（特定の数値データ）を含む文書を教師文書から数値検索処理で特定してラベルを付与する（自動ラベル）ために、当該文書から化学式、材料、特性などの特徴部分と、数値または数値範囲などの数値部分とを関連付けて数値データとして抽出し、データベースに格納して検索に利用する。以下、文書から特徴部分と数値部分とを関連付けて数値データとして抽出する技術を含む数値検索処理について説明する。

まず、文書分類装置１００のハードウェア構成について詳しく説明する。図２は、本実施の形態に係る文書分類装置１００の構成を説明するためのブロック図である。文書分類装置１００は、オペレーティングシステム（ＯＳ：Operating System）を含む各種プログラムを実行するＣＰＵ１０１と、ＣＰＵ１０１でのプログラムの実行に必要なデータを一時的に記憶するメモリ部１１２と、ＣＰＵ１０１で実行されるプログラムを不揮発的に記憶するハードディスク部（ＨＤＤ：Hard Disk Drive）１１０とを含む。

また、ハードディスク部１１０には、教師データによる学習モデルの学習処理、学習済モデルによる未分類文書の分類処理、自動ラベルのための数値検索処理などの処理を実現するためのプログラムが予め記憶されており、このようなプログラムは、光学ドライブ１１４などによって、それぞれＣＤ－ＲＯＭ（Compact Disk-Read Only Memory）などの記憶媒体１１４ａから読み取られる。

ＣＰＵ１０１は、キーボードやマウスなどからなる入力部１０８を介してユーザなどからの検索式を受取るとともに、プログラムの実行によって分類された文書などを、ディスプレイ部１０４へ出力する。各部は、バス１０２を介して互いに接続される。また、インターフェイス部１０６は、図示していない文書データベースなどに接続されている。なお、文書分類装置１００と文書データベースとの接続は、有線で接続されても無線で接続されてもよい。

次に、文書分類装置１００で実行される数値検索処理について具体的に説明する。図３は、本実施の形態に係る文書分類装置１００での数値検索処理を説明するための機能ブロック図である。文書分類装置１００は、数値検索処理を実行するために収集部３００、データ抽出部４００、データベース部５００、およびラベル付与部６００の機能を備えている。収集部３００は、文書データベースから対象文書（教師データとなる文書）を収集する。データ抽出部４００は、収集した対象文書から、特徴部分と数値部分とを関連付けた数値データを抽出する。データベース部５００は、データ抽出部４００で抽出した数値データを、抽出した文書の文書データと関連付けて格納する。ラベル付与部６００は、入力された検索式に基づく検索した文書に対して自動的にラベルを付す。

さらに、収集部３００について詳しく説明する。図４は、本実施の形態に係る文書分類装置１００での収集部３００の処理を説明するための機能ブロック図である。収集部３００では、ユーザが対象とする文書（例えば、ＢａＣＯ３を主成分とするＭＬＣＣの特許文献）を文書データベースから全文をダウンロード３０１する。例えば、ユーザが、文書データベースで「ＢａＣＯ３」を含むＭＬＣＣの文書を検索し、検索結果の文書を収集部３００が全文ダウンロードする。ダウンロードした文書には、「．ｘｍｌ」、「．ｈｔｍ」、「．ｃｓｖ」などの形式のデータが含まれている。データ抽出部４００では、テキストデータを処理するため、収集部３００は、文書データベースからダウンロードした文書のデータをテキストデータに変換している。

具体的に、収集部３００は、「．ｘｍｌ」形式のデータをテキストデータに変換する処理を「．ｘｍｌの変換」３０２で行う。また、収集部３００は、「．ｈｔｍ」形式のデータをテキストデータに変換する処理を「．ｈｔｍの変換」３０３で行う。さらに、収集部３００は、「．ｃｓｖ」形式のデータをテキストデータに変換する処理を「．ｃｓｖの変換」３０４で行う。

収集部３００は、「．ｘｍｌの変換」３０２、「．ｈｔｍの変換」３０３および「．ｃｓｖの変換」３０４で変換した文書のテキストデータを比較して、重複している文書のデータを削除する（重複データの削除３０５）。収集部３００は、重複データの削除３０５を行った文書のテキストデータを中間ファイル３２０として出力する。

一方、文書データベースから文書のデータをダウンロードするのではなく、予め複数の文書のデータを含むファイルを用意しておき、収集部３００は、当該ファイルを読み込み３１０、文書のデータを収集することもできる。ファイルから読み込んだ文書のデータには、「．ｄｏｃｘ」、「テキスト」などの形式のデータが含まれている。収集部３００は、「．ｄｏｃｘ」形式のデータをテキストデータに変換する処理を「．ｄｏｃｘの変換」３１１で行う。ファイルに含まれる文書のデータには、重複した文書のデータが含まれていないので、収集部３００は、「．ｄｏｃｘの変換」３１１で変換した文書のテキストデータと、ファイルに含まれている文書のテキストデータとを中間ファイル３２０として出力する。

次に、収集部３００で収集した文書のテキストデータから、特徴部分と数値部分とを関連付けた数値データを抽出するデータ抽出部４００について説明する。図５は、本実施の形態に係る文書分類装置１００のデータ抽出部４００での処理を説明するための機能ブロック図である。データ抽出部４００は、文書のテキストデータから特徴部分および数値部分を解析する形態素・字句解析部４１０と、特徴部分と数値部分とを関連付ける関連解析部４３０とを備えている。さらに、データ抽出部４００は、関連解析部４３０での処理において関連付けを除外する条件を予め設定しておく除外設定部４５０と、関連解析部４３０で関連付けた数値データを抽出する抽出部４７０とを備えている。

形態素・字句解析部４１０での処理についてさらに詳しく説明する。図６は、本実施の形態に係る文書分類装置１００の形態素・字句解析部４１０での処理を説明するための機能ブロック図である。形態素・字句解析部４１０は、収集部３００から出力された中間ファイル３２０を読み込み４１１、当該中間ファイル３２０から文書のテキストデータを取り込み、形態素解析部４１２で取り込んだ文書のテキストデータを処理する。

形態素解析部４１２では、予め定められた言語の文法、辞書の情報（例えば、単語の品詞などの情報）にもとづき、取り込んだ文書のテキストデータを形態素の列に分割し、それぞれの形態素に対して品詞などの解析を行う。

形態素解析部４１２で形態素の列に分割した文書のテキストデータから、プッシュダウンオートマトン（ＰＤＡ：Push down Automaton）により特徴部分および数値部分を特定する字句解析を行う。なお、字句解析として、プッシュダウンオートマトンに限らず、有限オートマトンや、さらに複雑なオートマトンであってもよい。

具体的に、特性名帰属ＰＤＡ４１３では、予め定められた特性名（例えば、分散剤、厚み、抵抗値、粒径など）に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「feature」とラベリングして１つの字句として扱う。材料名帰属ＰＤＡ４１４では、予め定められた材料名（例えば、ネオジム、酸化チタン、炭酸バリウムなど）に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「material」とラベリングして１つの字句として扱う。

また、単位帰属ＰＤＡ４１５では、予め定められた単位（例えば、ｇ、ｍｏｌ、ｎｍなど）に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「unit」とラベリングして１つの字句として扱う。数値帰属ＰＤＡ４１６では、予め定められた数値（例えば、アラビア数字、漢数字、ローマ数字など）に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「amount」とラベリングして１つの字句として扱う。なお、単位帰属ＰＤＡ４１５で特定した「unit」の字句と、数値帰属ＰＤＡ４１６で特定した「amount」の字句とが近傍（例えば、予め定められた形態素の数の範囲内）に存在している場合、数値帰属ＰＤＡ４１６は、「unit」の字句と「amount」の字句とを１つの「amount」の字句として扱う。

また、数値帰属ＰＤＡ４１６では、複数の形態素のうちに１つの数値が含まれている場合、当該数値に予め定められた数値範囲（例えば、当該数値の±１％の範囲）を付与して１つの「amount」の字句として扱ってもよい。これにより、数値同士を比較する際に、数値に幅を持った数値範囲同士の比較となり、比較が容易となる。さらに、数値帰属ＰＤＡ４１６では、複数の形態素のうちに複数の数値と、範囲を示す予め定められた形態素（例えば、「～」）とが含まれている場合、当該複数の数値に基づく数値範囲を１つの「range」の字句として扱ってもよい。もちろん、数値であっても数値範囲であっても、区別せずに１つの「amount」の字句として扱ってもよい。

数式帰属ＰＤＡ４１７では、予め定められた数式（例えば、ｘ、１－ｘ、０＜ｘ≦１など）に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「formula」とラベリングして１つの字句として扱う。化学式帰属・組成復元ＰＤＡ４１８では、予め定められた化学式や組成（例えば、Ca、TiO2、BaCO3など）に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「material」とラベリングして１つの字句として扱う。

数値帰属ＰＤＡ４１６で特定した「amount」の字句と、数式帰属ＰＤＡ４１７で特定した「formula」の字句と、化学式帰属・組成復元ＰＤＡ４１８で特定した「material」とが近傍に存在している場合、化学式帰属・組成復元ＰＤＡ４１８は、「amount」の字句と「formula」の字句と「material」の字句とを１つの「material」の字句として扱う。具体的に、「Ｂａ_１－ｘＣａ_ｘＴｉＯ_３（０＜ｘ≦１）」なる字句を解析する場合、「amount」の字句として「３」、「formula」の字句として「ｘ」、「１－ｘ」、「０＜ｘ≦１」、「material」の字句として「Ｂａ」、「Ｃａ」、「ＴｉＯ」とそれぞれ解析する。それらの字句が近傍に存在しているので、化学式帰属・組成復元ＰＤＡ４１８は、最終的に「Ｂａ_１－ｘＣａ_ｘＴｉＯ_３（０＜ｘ≦１）」なる字句を、１つの「material」の字句として扱う。

形態素・字句解析部４１０では、「material」または「feature」とラベリングされた字句を特徴部分に分類し、「amount」または「range」とラベリングされた字句を数値部分に分類している。

次に、具体例を示して形態素・字句解析部４１０での処理について説明する。図７は、本実施の形態に係る文書分類装置１００の形態素・字句解析部４１０での処理の一例を説明するための概念図である。取り込んだ文書のテキストデータに「ＴｉＯ２を主成分として１．２０ｇ使用した。」との文章４２０が含まれている場合、まず形態素解析部４１２で当該文章４２０を形態素の列に分割する。

形態素解析部４１２は、文章４２０を形態素の列に分割して、複数の形態素を含む列データ４２１を出力する。列データ４２１には、「ＴｉＯ」、「２」、「を」、「主成分」、「と」、「し」、「て」、「１」、「．」、「２０」、「ｇ」、「使用」、「し」、「た」、「。」の形態素を含んでいる。

字句解析では、列データ４２１に含まれる形態素のうち、「ＴｉＯ」の形態素４２１ａを「material」の字句として特定し、「２」の形態素４２１ｂを「amount」の字句として特定する。さらに、字句解析では、「ＴｉＯ」の形態素４２１ａと「２」の形態素４２１ｂとが近傍に存在しているので、「ＴｉＯ２」を１つの「material」の字句４２２として扱う。

また、字句解析では、列データ４２１に含まれる形態素のうち、「１」の形態素４２１ｃ、「．」の形態素４２１ｄ、「２０」の形態素４２１ｅを「amount」の字句として特定し、「ｇ」の形態素４２１ｆを「unit」の字句として特定する。さらに、字句解析では、「１」の形態素４２１ｃ、「．」の形態素４２１ｄ、「２０」の形態素４２１ｅと、「ｇ」の形態素４２１ｆとが近傍に存在しているので、「１．２０ｇ」を１つの「amount」の字句４２３として扱う。

図８は、本実施の形態に係る文書分類装置１００の形態素・字句解析部４１０での処理の別の一例を説明するための概念図である。取り込んだ文書のテキストデータに「ＴｉＯ２を主成分として１．２０ｇ～１．５０ｇ使用した。」との文章４２０ａが含まれている場合、まず形態素解析部４１２で当該文章４２０ａを形態素の列に分割する。

形態素解析部４１２は、文章４２０ａを形態素の列に分割して、複数の形態素を含む列データ４２１Ａを出力する。列データ４２１Ａには、「ＴｉＯ」、「２」、「を」、「主成分」、「と」、「し」、「て」、「１」、「．」、「２０」、「ｇ」、「～」、「１」、「．」、「５０」、「ｇ」、「使用」、「し」、「た」、「。」の形態素を含んでいる。

字句解析では、列データ４２１Ａに含まれる形態素のうち、「ＴｉＯ」の形態素４２１ａを「material」の字句として特定し、「２」の形態素４２１ｂを「amount」の字句として特定する。さらに、字句解析では、「ＴｉＯ」の形態素４２１ａと「２」の形態素４２１ｂとが近傍に存在しているので、「ＴｉＯ２」を１つの「material」の字句４２２として扱う。

また、字句解析では、列データ４２１Ａに含まれる形態素のうち、「１」の形態素４２１ｃ、「．」の形態素４２１ｄ、「２０」の形態素４２１ｅを「amount」の字句として特定し、「ｇ」の形態素４２１ｆを「unit」の字句として特定する。同様に、字句解析では、列データ４２１Ａに含まれる形態素のうち、「１」の形態素４２１ｈ、「．」の形態素４２１ｉ、「５０」の形態素４２１ｊを「amount」の字句として特定し、「ｇ」の形態素４２１ｋを「unit」の字句として特定する。さらに、字句解析では、「ｇ」の形態素４２１ｆと「１」の形態素４２１ｈとの間に、「～」のような範囲を示す予め定められた形態素４２１ｇが含まれているので、「１」の形態素４２１ｃ～「ｇ」の形態素４２１ｋを「１．２０ｇ～１．５０ｇ」とする１つの「range」の字句４２４として扱う。もちろん、字句解析では、「amount」と「range」とを区別せず、「range」の字句４２４を「amount」の字句として扱ってもよい。なお、範囲を示す予め定められた形態素としては、「～」以外に「から」、「まで」など形態素を設定することが可能である。

次に、関連解析部４３０は、形態素・字句解析部４１０において選択された特徴部分と数値部分とを関連付ける。図９は、本実施の形態に係る文書分類装置１００の関連解析部４３０での処理を説明するための機能ブロック図である。

図９に示す関連解析部４３０では、形態素の列からプッシュダウンオートマトンで「material」とラベリングされた材料の字句と「amount」とラベリングされた数値の字句とを特定して、関連付ける（材料＋数値）抽出ＰＤＡ４３１を有している。また、関連解析部４３０では、形態素の列からプッシュダウンオートマトンで「material」とラベリングされた材料の字句と「formula」とラベリングされた数式の字句とを特定して、関連付ける（材料＋数式）抽出・組成復元ＰＤＡ４３２を有している。さらに、関連解析部４３０では、形態素の列からプッシュダウンオートマトンで「feature」とラベリングされた材料の字句と「amount」とラベリングされた数値の字句とを特定して、関連付ける（特性＋数値）抽出ＰＤＡ４３３を有している。

具体例を示して関連解析部４３０での処理について説明する。図１０は、本実施の形態に係る文書分類装置１００の関連解析部４３０での処理の一例を説明するための概念図である。関連解析部４３０は、形態素・字句解析部４１０で処理したデータに「ＴｉＯ２」を１つとする「material」の字句４２２と、「１．２０ｇ」を１つとする「amount」の字句４２３とを含んでいる場合、字句４２２と字句４２３との間に「を」のような関連を示す予め定められた形態素４２５が含まれているか否かを判定する。なお、関連を示す予め定められた形態素４２５の一例として「を」を示したが、「材料Ｘが１．０ｇ」の「が」、「１．０ｇの材料Ｘ」の「の」など、他に「として」、「：」などが関連を示す予め定められた形態素と考えられる。また、関連を示す予め定められた形態素４２５は、「を」などの単独の形態素だけに限られず、複数の形態素を組み合わせたものを含めてもよい。一例として「換算」と「で」の２つの形態素を組み合わせた「換算で」を含めてもよい。

関連解析部４３０は、字句４２２と字句４２３との間に形態素４２５が含まれている場合、字句４２２と字句４２３との間に含まれる形態素の数を求める。図１０の例では、字句４２２と字句４２３との間に含まれる形態素の数は５個である。

関連解析部４３０は、字句４２２と字句４２３との間に含まれる形態素の数が予め定められた数（例えば、１０個）以下であれば、求めた字句４２２と字句４２３との距離が近いとして、関連がある字句同士であると判定する。図１０の例では、形態素の数が５個と予め定められた数以下のため、字句４２２と字句４２３とが関連があると判定している。なお、図１０の例では、「material」の字句４２２と「amount」の字句４２３との関連を抽出するため、（材料＋数値）抽出ＰＤＡ４３１で処理される。

図９に戻って、抽出部４７０は、関連解析部４３０で関連がある判定された字句を関連付けた数値データとして抽出して、データベース部５００に出力する。データベース部５００では、抽出部４７０で抽出した数値データと、当該数値データを抽出した文書の文書データ（例えば、文書の書誌情報など）とを関連付けて格納する。図１０の例では、抽出部４７０が、関連がある字句と判定した「ＴｉＯ２を主成分として１．２０ｇ」を一つの関連する数値データ４３１として抽出する。数値データ４３１には、material＝ＴｉＯ２、amount＝１．２０ｇの情報が含まれることになる。

前述のように、関連解析部４３０は、字句と字句との間に含まれる形態素の数が予め定められた数以下か否かのみで、関連がある字句か否かを判定している。しかし、関連解析部４３０は、字句と字句との間に含まれる形態素の数のみで関連がある字句か否かを判定した場合、取り込んだ文書によっては全く関連のない字句を誤って関連があると判定する虞がある。

図１１は、誤って関連がある字句と判定する一例を説明するための概念図である。取り込んだ文書のテキストデータに含まれる「ＴｉＯ２を主成分１００ｇに対して１．２０ｇ使用。」の文章４２０ｂに対して、形態素・字句解析部４１０での処理を行う。形態素・字句解析部４１０での処理の結果、文章４２０ｂには、「ＴｉＯ２」を１つとする「material」の字句４２２と、「１００ｇ」を１つとする「amount」の字句４２６と、「１．２０ｇ」を１つとする「amount」の字句４２３とを含んでいると解析される。

関連解析部４３０は、字句４２２と字句４２６との間に「を」のような関連を示す予め定められた形態素４２５が含まれ、字句４２２と字句４２６との間に含まれる形態素の数が２個と予め定められた数以下であるので、関連がある字句と判定する。

抽出部４７０は、関連解析部４３０で関連がある字句と判定した「ＴｉＯ２を主成分１００ｇ」を一つの関連する数値データ４３２として抽出する。数値データ４３２には、material＝ＴｉＯ２、amount＝１００ｇの情報が含まれることになる。

しかし、「ＴｉＯ２を主成分１００ｇに対して１．２０ｇ使用。」の文章４２０ｂでは、本来の意味から「ＴｉＯ２」が「１．２０ｇ」使用することを関連させる必要がある。そのため、数値データ４３２のようにmaterial＝ＴｉＯ２とamount＝１００ｇとを関連付けた情報は誤った情報（ＮＧ）である。

そこで、本実施の形態に係る文書分類装置１００では、図９に示すように関連解析部４３０で字句の関連を判定する際に、関連付けを除外する条件を予め設定しておく除外設定部４５０を備えている。つまり、関連解析部４３０では、字句と字句との間に含まれる形態素の数のみで関連がある字句か否かを判定するのではなく、除外設定部４５０に予め設定してある条件に当てはまる形態素を無視して字句の関連を判定する。

図１２は、本実施の形態に係る文書分類装置１００の関連解析部４３０で除外設定部４５０の条件を考慮した処理の一例を説明するための概念図である。取り込んだ文書のテキストデータに含まれる「ＴｉＯ２を主成分１００ｇに対して１．２０ｇ使用。」の文章４２０ｂ（図１１参照）に対して、形態素・字句解析部４１０での処理を行う。形態素・字句解析部４１０での処理の結果、文章４２０ｂには、「ＴｉＯ２」を１つとする「material」の字句４２２と、「１００ｇ」を１つとする「amount」の字句４２６と、「１．２０ｇ」を１つとする「amount」の字句４２３とを含んでいると解析される。

関連解析部４３０は、除外設定部４５０に予め設定してある条件に当てはまる形態素の有無を判定する。予め設定してある条件として、図１２では「に対して」との形態素の列が文章４２０ｂに含まれているか否かを判定している。「に対して」の形態素の列が文章４２０ｂに含まれている場合、当該形態素の列の前にある「１００ｇ」の字句４２６を含めて除外対象４５１とする。つまり、関連解析部４３０は、除外設定部４５０に予め設定してある条件を考慮して、「１００ｇに対して」の形態素の列を「ignore」とラベリングして１つの除外対象４５１として扱う。

関連解析部４３０は、「１００ｇ」の字句４２６を除外対象４５１に含めることで、字句４２２と字句４２３との間に「を」のような関連を示す予め定められた形態素４２５が含まれると判定される。そのため、関連解析部４３０は、字句４２２と字句４２３との間に含まれる形態素の数を求めることになる。ここで、「１００ｇに対して」の形態素の列を１つの除外対象４５１として扱うことで、関連解析部４３０は、字句４２２と字句４２３との間に含まれる形態素の数を３個と予め定められた数以下であると判定することができ、字句４２２と字句４２３とが関連があると判定する。

その結果、抽出部４７０は、関連がある字句と判定した「ＴｉＯ２を主成分１００ｇに対して１．２０ｇ」を一つの関連する数値データ４３３として抽出する。数値データ４３３には、material＝ＴｉＯ２、amount＝１．２０ｇの情報が含まれることになる。そのため、抽出部４７０は、数値データ４３２のようにmaterial＝ＴｉＯ２とamount＝１００ｇとを関連付けた誤った情報を抽出してしまうことを回避することができる。

除外設定部４５０に予め設定してある関連付けを除外する条件について、さらに詳しく説明する。図１３は、除外設定部４５０に予め設定してある関連付けを除外する条件の一例を説明するための概念図である。図１３（ａ）では、前述したように「amount」の字句の後ろに「に対して」の形態素の列が続く場合、「１００ｇに対して」の形態素の列を１つの除外対象４５１として扱うことが条件として示されている。

図１３（ｂ）では、「分散剤２０４の添加量は０．３ｇ」の文書に対して形態素・字句解析部４１０での処理を行う一例が示されている。形態素・字句解析部４１０での処理の結果、当該文章には、「分散剤」を１つとする「feature」の字句と、「２０４」を１つとする「amount」の字句と、「０．３ｇ」を１つとする「amount」の字句とを含んでいると解析される。そのため、関連解析部４３０は、除外設定部４５０に何も条件が設定されていなければ、「分散剤」の字句に近い「２０４」の字句を「分散剤」の字句を関連付けることになる。

しかし、「２０４」の字句は、「分散剤」の字句の符号に過ぎない。そのため、除外設定部４５０には、「feature」の字句の直後の「amount」の字句を「amount」の字句として特定せずに除外し、「feature」の字句と直後の「amount」の字句とを１つの「feature」の字句として扱うことが条件として設定される。

そこで、関連解析部４３０は、除外設定部４５０の当該条件を考慮して「分散剤２０４」を１つとする「feature」の字句４５２として扱った上で、「０．３ｇ」の字句と関連付ける。

図１３（ｃ）では、「Ｎｄ添加量ｍが０．０５を超える場合好ましくない」の文書に対して形態素・字句解析部４１０での処理を行う一例が示されている。形態素・字句解析部４１０での処理の結果、当該文章には、「Ｎｄ」を１つとする「material」の字句と、「０．０５」を１つとする「amount」の字句とを含んでいると解析される。そのため、関連解析部４３０は、除外設定部４５０に何も条件が設定されていなければ、「Ｎｄ」の字句と「０．０５」の字句とを関連付けることになる。

しかし、除外設定部４５０には、「ない」などの否定を表す字句（「NOT」とラベリングされる字句）が文書に含まれている場合には、「NOT」の字句の近傍に存在する「amount」の字句を「NOT」の字句とともに除外する条件が設定される。そのため、関連解析部４３０は、除外設定部４５０の当該条件を考慮して、図１３（ｃ）に示すように「０．０５を超える場合好ましくない」との形態素の列を１つの除外対象４５３として扱う。

図１３に示した条件は、除外設定部４５０に設定される関連付けを除外する条件の一例であって、他の条件を除外設定部４５０に設定してもよい。また、除外設定部４５０は、ユーザが設定する条件を適宜更新することができる。

図３に戻って、データベース部５００は、収集部３００で収集した文書よりデータ抽出部４００で抽出した数値データを格納している。そして、ラベル付与部６００は、ユーザが入力した検索式に基づいて、データベース部５００に格納された数値データを検索し、収集部３００で収集した文書（教師データとなる文書）のうち検索式（特定の数値データ）を含む文書にラベルを付す。ユーザが入力する検索式には、単純に「粒径が１．２ｎｍ～７９ｎｍ」が記載されている文書を検索して、当該検索式を含む文書に「微粒」とラベルすることが考えられる。この場合、ラベル付与部６００は、データベース部５００からfeature＝粒径、range＝１．２ｎｍ～７９ｎｍの情報が含む文書を検索し、その検索した文書に「微粒」とラベルして出力する。

文書分類装置１００では、ラベル付与部６００で生成したラベル付きの教師データに基づいて学習モデルを学習することで、未分類文書を「微粒である文書」と「微粒でない文書」とに分類することができる。「微粒」とラベルされた教師データで学習した学習モデルは、「微粒」とラベルされた文書の中から特徴語を抽出することで、未分類文書に当該特徴語が含まれるか否かで「微粒である文書」か「微粒でない文書」かに分類することができる。そのため、未分類文書の中には、「粒径が１．２ｎｍ～７９ｎｍ」という語は含まないが、当該範囲に関連する表現（例えば、「粒子径が小さい」、「粒径が細かい」などの表現）を含む文書も存在しても、文書分類装置１００では、当該文書を「微粒である文書」であると分類することができる。

以下、本実施の形態に係る文書分類装置１００を用いて、未分類文書を分類した具体例を説明する。図１４は、収集した文書に含まれる粒径の値を示すヒストグラムである。文書分類装置１００は、ＭＬＣＣ関連の特許文献を約１７００件、文書データベース２００から収集し、数値検索処理を用いて化学式、材料、特性などの特徴部分と、数値または数値範囲などの数値部分とを関連付けて数値データとして抽出し、データベースに格納してある。図１４では、当該データベースを用いて粒径の最小値、最大値を検索した結果を、横軸に粒径、縦軸に文書数をとりヒストグラムで可視化している。

ヒストグラムにおけるＡ領域は、粒径が１．２ｎｍ～７９ｎｍの数値が記載された文書を示し、その文書数は５９件である。ヒストグラムにおけるＢ領域は、粒径が２００ｎｍ～２７０μｍの数値が記載された文書を示し、その文書数は３６８件である。教師データは、Ａ領域に含まれる文書に「微粒である」とのラベルを付し、Ｂ領域に含まれる文書に「微粒でない」とのラベルを付す。

図１４に示すヒストグラムを用いることで、「微粒である」とのラベルを付したＡ領域に対して、「微粒でない」とのラベルを付すＢ領域を目視で十分に離れていることを確認して決定することができる。

文書分類装置１００は、上記で決定した教師データを用いて学習モデルを機械学習させる。機械学習には、例えば、一般的なテキスト分類方法であるMultinomial Naive Bayes法を用いる。もちろん、機械学習には、Multinomial Naive Bayes法以外の他の方法を用いてもよい。また、学習モデルを学習させる過程において、教師データを学習用とテスト用とを７対３の割合で分割する。教師データを学習用とテスト用とに分割する場合、「微粒である」とのラベルを付した文書と「微粒でない」とのラベルを付した文書との割合が分割する前と同じになるようにランダムに文書を選んで分割している。

学習モデルは、学習用の教師データで学習した後、残りのテスト用の教師データを用いて正確度（正解率）を確認する。ＭＬＣＣ関連の特許文献から生成した教師データで学習した学習モデルでは、学習用の教師データを正しく「微粒である文書」または「微粒でない文書」と判断できた正確度が０．９３８であった。これに対し、テスト用の教師データをこの学習モデルで「微粒である文書」か「微粒でない文書」かを分類した場合、正確度は０．９１２となり、学習用の教師データによる学習が正常に機能していることが確認できた。

また、学習した学習モデルに含まれる単語のうち重要な単語について検証を行った。図１５は、文書中に含まれる単語の重要度を説明するグラフである。図１５では、横軸に文書数、縦軸にｔｆｉｄｆ値をとり、学習モデルに含まれる「ＢＲＴ」、「界面」、「Ｃａ」の３つの単語について重要度を示している。ここで、ｔｆｉｄｆ値は、文書に含まれる単語の重要度を評価する手法の１つで、多くの文書に出現する単語は重要度が低く、特定の文書にしか出現しない単語は重要度が高い。また、「Ｃａ」は、カルシウムを示し、「ＢＲＴ」は、チタン酸バリウムに希土類元素が固溶した粉末、例えばBaO-TiO2-ReO3/2系セラミックを示す。

図１５に示す結果から、学習モデルに含まれる単語には、「界面」など微粒化の目的、利点と思われる単語、「Ｃａ」などの添加物を示す単語、「ＢＲＴ」など材料を示す単語などが重要度の高い単語であることが分かる。そのため、学習した学習モデルが、「微粒である文書」か「微粒でない文書」かを分類するモデルとして妥当であることが分かる。

次に、ＭＬＣＣやＬＴＣＣなどに関連する特許文献（総数約６０００件、教師データとした特許文献は含まない未分類文書。）の中から文書をランダムに２０件選び、学習済モデルの文書分類装置１００で、「微粒である文書」か「微粒でない文書」かを分類する。なお、この２０件の文書には、あらかじめ人が「微粒である」か「微粒でない」かの正解ラベルを付しているので、学習済モデルの文書分類装置１００が正しく分類することができたのか否かを比較することができる。

図１６は、２０件の文書の比較結果を示す一覧表である。図１６に示す比較結果では、検索式の「粒径が１．２ｎｍ～７９ｎｍ」では検索しきれない文書を「微粒である文書」として分類することができた。具体的に、番号「ＣＣＣＣＣ０２」の文書では、文書中に「３０－５０ｎｍのサイズ」の記載があるものの、「粒径」の記載がないため検索式の「粒径が１．２ｎｍ～７９ｎｍ」では検索しきれていない文書である。人であれば、ニッケルのサイズが３０－５０ｎｍであるとの記載から、「粒径が１．２ｎｍ～７９ｎｍ」の範囲に入るとして「微粒である」と分類することができる。一方、学習済モデルの文書分類装置１００は、人が「微粒である」と分類した番号「ＣＣＣＣＣ０２」の文書に対しても正しく「微粒である」と分類することができた。

また、番号「ＰＰＰＰＰ０１」の文書では、文書中に「１０～１００ｎｍＢａＴｉＯ３」の記載があるものの、「７９ｎｍ」より大きい範囲を含む記載があるため検索式の「粒径が１．２ｎｍ～７９ｎｍ」では検索しきれていない文書である。人であれば、ＢａＴｉＯ３のサイズが１０～１００ｎｍであるとの記載から、「粒径が１．２ｎｍ～７９ｎｍ」の範囲にほぼ含まれるとして「微粒である」と分類することができる。一方、学習済モデルの文書分類装置１００は、人が「微粒である」と分類した番号「ＰＰＰＰＰ０１」の文書に対しても正しく「微粒である」と分類することができた。逆に、学習済モデルの文書分類装置１００は、分野や粒径が一致しない文書を誤って分類することはなかった。

以上のように、本実施の形態に係る文書分類装置１００は、特定の数値データに関する項目を含む文書の分類を行う文書分類装置である。文書分類装置１００は、複数の文書が入力される入力部と、入力部で入力された複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する分類部と、分類部で分類した文書の情報を出力する出力部と、を備える。文書分類装置１００は、学習モデルの学習を行うために、複数の文書から数値データを抽出するデータ抽出部４００と、データ抽出部４００で抽出した数値データのうち特定の数値データを含む文書にラベルを付与するラベル付与部６００と、を備え、複数の文書およびラベル付与部で付与されたラベルを用いて、学習モデルの学習を行う。データ抽出部４００は、形態素・字句解析部４１０、関連解析部４３０、除外設定部４５０、抽出部４７０を含んでいる。形態素・字句解析部４１０は、収集した文書のテキストデータを複数の形態素に分割し、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する。関連解析部４３０は、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定する。除外設定部４５０は、関連解析部４３０において、特徴部分と数値部分との関連の判定から除外する条件を予め設定する。抽出部４７０は、関連解析部４３０で関連すると判定された特徴部分と数値部分とを数値データとして抽出する。

これにより、本実施の形態に係る文書分類装置１００では、特徴部分と数値部分との関連の判定から除外する条件を予め設定してあるので、数値部分と特徴部分とを正しく関連付けて抽出することができ、特定の数値データを含む文書にラベルを付すことができる。また、本実施の形態に係る文書分類装置１００では、特定の数値データを含む文書にラベルを付し、そのラベルが付された文書で学習モデルを学習させることで、未分類文書から特定の数値データに関連する文書を分類することができる。

また、関連解析部４３０は、除外設定部４５０で予め設定された条件を１つの形態素として圧縮して、特徴部分と数値部分との間に含まれる形態素の数をカウントしてもよい。これにより、文書分類装置１００は、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下と判断され、特徴部分と数値部分とを関連付け易くなる。

さらに、形態素・字句解析部４１０は、分割した複数の形態素のうちに１つの数値が含まれている場合、当該数値に予め定められた数値範囲を付与して数値部分と特定してもよい。これにより、文書分類装置１００は、数値同士を比較する際に、数値に幅を持った数値範囲同士の比較となり、比較が容易となる。

また、形態素・字句解析部４１０は、分割した複数の形態素のうちに複数の数値と、範囲を示す予め定められた形態素とが含まれている場合、当該複数の数値に基づく数値範囲を数値部分と特定してもよい。これにより、文書分類装置１００は、数値範囲を１つの数値部分として特定することができる。

さらに、形態素・字句解析部４１０は、分割した複数の形態素のうちに単位が含まれている場合、当該単位と数値とを１つの数値部分と特定してもよい。これにより、文書分類装置１００は、単位を含めた数値部分を特定することができ、単位を考慮して数値部分を比較しやすくなる。

また、形態素・字句解析部４１０は、分割した複数の形態素から、予め定められた特性名、材料名、化学式および組成のいずれかを特徴部分と特定してもよい。形態素・字句解析部４１０は、化学式および組成のいずれかに数値範囲または数式を含めて特徴部分と特定してもよい。これにより、文書分類装置１００は、様々な種類の特徴部分と数値部分との関連付けが可能となる。

コンピュータが、複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する場合に、学習モデルの学習をする学習方法である。学習方法は、複数の文書から数値データを抽出するステップと、抽出した数値データのうち特定の数値データを含む文書にラベルを付与するステップと、を含む。複数の文書および付与されたラベルを用いて、学習モデルの学習を行う処理をコンピュータに実行させ、数値データを抽出するステップは、収集した文書のテキストデータを複数の形態素に分割するステップと、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定するステップとを含む。数値データを抽出するステップは、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定するステップを含む。数値データを抽出するステップは、特徴部分と数値部分との関連の判定から除外する条件を予め設定するステップと、関連すると判定された特徴部分と数値部分とを数値データとして抽出するステップとを含む。

コンピュータが、複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する場合に、学習モデルの学習をさせる学習プログラムである。学習プログラムは、複数の文書から数値データを抽出するデータ抽出処理と、抽出した数値データのうち特定の数値データを含む文書にラベルを付与するラベル付与処理と、を含む。複数の文書および付与されたラベルを用いて、学習モデルの学習を行う処理をコンピュータに実行させ、データ抽出処理は、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定する関連解析処理を含む。データ抽出処理は、特徴部分と数値部分との関連の判定から除外する条件を予め設定する除外設定処理と、関連すると判定された特徴部分と数値部分とを数値データとして抽出する抽出処理とを含む。

［変形例］
（１）前述の実施の形態では、特許文献データベースから文書を収集して、収集した文書から特徴部分と数値部分を関連付けた数値データを抽出する例について説明した。しかし、これに限定されず、特許文献データベース以外の文書データベース（例えば、学術論文データベース）から文書を収集して、当該文書から特徴部分と数値部分を関連付けた数値データを抽出する構成であってもよい。また、複数種類のデータベース（例えば、特許文献データベースおよび学術論文データベース）から文書を収集して、当該文書から特徴部分と数値部分を関連付けた数値データを抽出する構成であってもよい。

（２）前述で説明した各種処理は、１つのＣＰＵによって実現されるものとしてあるが、これに限られない。これらの各種処理は、複数のＣＰＵによって分散して実現されてもよい。これらＣＰＵで実行されるプログラムは、有形の読取可能な少なくとも１つの媒体から、１以上の命令を読み出すことにより前述の各種処理を実行しうる。

このような媒体は、磁気媒体（たとえば、ハードディスク）、光学媒体（例えば、コンパクトディスク（ＣＤ，ＤＶＤ）、揮発性メモリ、不揮発性メモリの任意のタイプのメモリなどの形態をとるが、これらの形態に限定されるものではない。

揮発性メモリはＤＲＡＭ（Dynamic Random Access Memory）およびＳＲＡＭ（Static Random Access Memory）を含み得る。不揮発性メモリは、ＲＯＭ、ＮＶＲＡＭを含み得る。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した説明ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１００文書分類装置、２００文書データベース、３００収集部、３２０中間ファイル、４００データ抽出部、４１０形態素・字句解析部、４１２形態素解析部、４３０関連解析部、４５０除外設定部、４７０抽出部、５００データベース部、６００ラベル付与部。

Claims

特定の数値データに関する項目を含む文書の分類を行う文書分類装置であって、
複数の文書が入力される入力部と、
前記入力部で入力された複数の文書を、ニューラルネットワークを含む学習モデルによって前記特定の数値データに関する項目を含む文書と含まない文書とに分類する分類部と、
前記分類部で分類した文書の情報を出力する出力部と、を備え、
前記学習モデルの学習を行うために、
複数の文書から数値データを抽出するデータ抽出部と、
前記データ抽出部で抽出した数値データのうち前記特定の数値データを含む文書にラベルを付与するラベル付与部と、を備え、
複数の文書および前記ラベル付与部で付与されたラベルを用いて、前記学習モデルの学習を行い、
前記データ抽出部は、
収集した文書のテキストデータを複数の形態素に分割する形態素解析部と、
前記形態素解析部で分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する字句解析部と、
前記字句解析部で特定した前記特徴部分と前記数値部分との間に、関連を示す予め定められた形態素を含み、前記特徴部分と前記数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、前記特徴部分と前記数値部分とが関連すると判定する関連解析部と、
前記関連解析部において、前記特徴部分と前記数値部分との関連の判定から除外する条件を予め設定する除外設定部と、
前記関連解析部で関連すると判定された前記特徴部分と前記数値部分とを数値データとして抽出する抽出部とを含む、文書分類装置。
前記関連解析部は、前記除外設定部で予め設定された条件を１つの形態素として圧縮して、前記特徴部分と前記数値部分との間に含まれる形態素の数をカウントする、請求項１に記載の文書分類装置。
前記字句解析部は、前記形態素解析部で分割した複数の形態素のうちに１つの数値が含まれている場合、当該数値に予め定められた数値範囲を付与して前記数値部分と特定する、請求項１または請求項２に記載の文書分類装置。
前記字句解析部は、前記形態素解析部で分割した複数の形態素のうちに複数の数値と、範囲を示す予め定められた形態素とが含まれている場合、当該複数の数値に基づく数値範囲を前記数値部分と特定する、請求項１～請求項３のいずれか１項に記載の文書分類装置。
前記字句解析部は、前記形態素解析部で分割した複数の形態素のうちに単位が含まれている場合、当該単位と数値とを１つの前記数値部分と特定する、請求項１～請求項４のいずれか１項に記載の文書分類装置。
前記字句解析部は、前記形態素解析部で分割した複数の形態素から、予め定められた特性名、材料名、化学式および組成のいずれかを前記特徴部分と特定する、請求項１～請求項５のいずれか１項に記載の文書分類装置。
前記字句解析部は、前記化学式および前記組成のいずれかに数値範囲または数式を含めて前記特徴部分と特定する、請求項６に記載の文書分類装置。
コンピュータが、複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する場合に、前記学習モデルの学習をする学習方法であって、
複数の文書から数値データを抽出するステップと、
抽出した数値データのうち前記特定の数値データを含む文書にラベルを付与するステップと、を含み、
複数の文書および付与されたラベルを用いて、前記学習モデルの学習を行う処理をコンピュータに実行させ、
数値データを抽出するステップは、
収集した文書のテキストデータを複数の形態素に分割するステップと、
分割した複数の形態素から予め定められた特徴部分と数値部分とを特定するステップと、
特定した前記特徴部分と前記数値部分との間に、関連を示す予め定められた形態素を含み、前記特徴部分と前記数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、前記特徴部分と前記数値部分とが関連すると判定するステップと、
前記特徴部分と前記数値部分との関連の判定から除外する条件を予め設定するステップと、
関連すると判定された前記特徴部分と前記数値部分とを数値データとして抽出するステップとを含む、学習方法。
コンピュータが、複数の文書を、ニューラルネットワークを含む学習モデルによって特定の数値データに関する項目を含む文書と含まない文書とに分類する場合に、前記学習モデルの学習をさせる学習プログラムであって、
複数の文書から数値データを抽出するデータ抽出処理と、
抽出した数値データのうち前記特定の数値データを含む文書にラベルを付与するラベル付与処理と、を含み、
複数の文書および付与されたラベルを用いて、前記学習モデルの学習を行う処理をコンピュータに実行させ、
前記データ抽出処理は、
収集した文書のテキストデータを複数の形態素に分割する形態素解析処理と、
分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する字句解析処理と、
特定した前記特徴部分と前記数値部分との間に、関連を示す予め定められた形態素を含み、前記特徴部分と前記数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、前記特徴部分と前記数値部分とが関連すると判定する関連解析処理と、
前記特徴部分と前記数値部分との関連の判定から除外する条件を予め設定する除外設定処理と、
関連すると判定された前記特徴部分と前記数値部分とを数値データとして抽出する抽出処理とを含む、学習プログラム。