JP7092001B2

JP7092001B2 - 数値検索装置、数値検索方法および、数値検索プログラム

Info

Publication number: JP7092001B2
Application number: JP2018213523A
Authority: JP
Inventors: 真一加藤
Original assignee: Murata Manufacturing Co Ltd
Current assignee: Murata Manufacturing Co Ltd
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2022-06-28
Anticipated expiration: 2038-11-14
Also published as: JP2020080087A

Description

本発明は、数値検索装置、数値検索方法および、数値検索プログラムに関する。

近年、様々な材料が開発されており、当該開発に基づいて多数の特許出願や論文発表が行われている。これらの特許文献や論文に記載された特性の数値や、組成の数値範囲など情報は膨大であり、開発者がそれらの情報をすべて把握した上で新たな材料の開発を行うことは不可能である。

そこで、多数の特許文献や論文が格納されたデータベースが運用され、当該データベースを利用して特許文献や論文の検索を行うことで、開発に必要な情報を開発者が取得している。特に、特許文献１には、データベースに格納された文献に記載された数値または数値範囲を検索する検索装置が記載されている。当該検索装置では、最小値と最大値とのうちの少なくとも一方を用いて定義される数値の範囲を数値範囲としており、入力された数値または数値範囲に対して所定の適合条件を満たす数値範囲が含まれるデータを検索している。

国際公開第２０１２／１７６３７４号

特許文献１に記載の検索装置では、最小値または最大値のどちらか一方の値だけを使用して検索が行われた場合、検索する数値範囲の幅が０（ゼロ）である。特に、組成について検索を行う場合、数値範囲の幅が０（ゼロ）である対象同士が一致する確率は数学的に低く、慣例上１ｍｏｌのような切の良い数値で検索を行った場合にのみ検索結果が一致することになる。また、特許文献１に記載の検索装置では、検索結果が一致する文献が提示されるだけで、検索した数値範囲に対する評価については何ら示されることはない。

さらに、検索装置において数値または数値範囲を検索するためには、データベースに格納された文献に記載された数値または数値範囲と、どの特性または材料とが関連しているのかを正確に把握した上でデータを抽出する必要がある。しかし、文献に記載された数値または数値範囲と、記載された位置が近い特性または材料とを単純に関連付けデータを抽出したのでは、数値または数値範囲（数値部分）が誤った特性や材料（特徴部分）とを関連付けられてしまい、検索装置は数値または数値範囲を正しく検索できない問題があった。

そこで、本発明の目的は、このような課題を解決するためになされたものであって、数値部分と特徴部分とを正しく関連付けて抽出することが可能な数値検索装置、数値検索方法および、数値検索プログラムを提供することである。

本発明の一形態に係る数値検索装置は、文献に含まれる数値に関する数値データを検索する数値検索装置であって、複数の文献を収集する文献収集部と、文献収集部で収集した文献から数値データを抽出するデータ抽出部と、データ抽出部で抽出した数値データと、当該数値データを抽出した文献の文献データとを関連付けて格納するデータベース部と、入力された検索式に基づく検索結果をデータベース部から出力する出力部とを備え、データ抽出部は、収集した文献のテキストデータを複数の形態素に分割する形態素解析部と、形態素解析部で分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する字句解析部と、字句解析部で特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定する関連解析部と、関連解析部において、特徴部分と数値部分との関連の判定から除外する条件を予め設定する除外設定部と、関連解析部で関連すると判定された特徴部分と数値部分とを数値データとして抽出する抽出部とを含む。

本発明の一形態に係る数値検索方法は、数値検索装置において、文献に含まれる数値に関する数値データを検索する数値検索方法であって、複数の文献を収集するステップと、収集した文献から数値データを抽出するステップと、抽出した数値データと、当該数値データを抽出した文献の文献データとを関連付けてデータベース部に格納するステップと、入力された検索式に基づく検索結果をデータベース部から出力するステップをと含み、数値データを抽出するステップは、収集した文献のテキストデータを複数の形態素に分割するステップと、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定するステップと、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定するステップと、特徴部分と数値部分との関連の判定から除外する条件を予め設定するステップと、関連すると判定された特徴部分と数値部分とを数値データとして抽出するステップとを含む。

本発明の一形態に係る数値検索プログラムは、数値検索装置において実行される数値検索プログラムであって、複数の文献を収集する文献収集処理と、収集した文献から数値データを抽出するデータ抽出処理と、抽出した数値データと、当該数値データを抽出した文献の文献データとを関連付けてデータベース部に格納するデータベース処理と、入力された検索式に基づく検索結果をデータベース部から出力する出力処理とを含み、データ抽出処理は、収集した文献のテキストデータを複数の形態素に分割する形態素解析処理と、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する字句解析処理と、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定する関連解析処理と、特徴部分と数値部分との関連の判定から除外する条件を予め設定する除外設定処理と、関連すると判定された特徴部分と数値部分とを数値データとして抽出する抽出処理とを含む。

本発明によれば、特徴部分と数値部分との関連の判定から除外する条件を予め設定してあるので、数値部分と特徴部分とを正しく関連付けて抽出することができる。

本実施の形態１に係る数値検索装置の一例の概略図である。本実施の形態１に係る数値検索装置の構成を説明するためのブロック図である。本実施の形態１に係る数値検索装置での数値検索処理を説明するための機能ブロック図である。本実施の形態１に係る数値検索装置の収集部での処理を説明するための機能ブロック図である。本実施の形態１に係る数値検索装置のデータ抽出部での処理を説明するための機能ブロック図である。本実施の形態１に係る数値検索装置の形態素・字句解析部での処理を説明するための機能ブロック図である。本実施の形態１に係る数値検索装置の形態素・字句解析部での処理の一例を説明するための概念図である。本実施の形態１に係る数値検索装置の形態素・字句解析部での処理の別の一例を説明するための概念図である。本実施の形態１に係る数値検索装置の関連解析部での処理を説明するための機能ブロック図である。本実施の形態１に係る数値検索装置の関連解析部での処理の一例を説明するための概念図である。誤って関連がある字句と判定する一例を説明するための概念図である。本実施の形態１に係る数値検索装置の関連解析部で除外設定部の条件を考慮した処理の一例を説明するための概念図である。除外設定部に予め設定してある関連付けを除外する条件の一例を説明するための概念図である。本実施の形態１に係る数値検索装置の出力部での処理を説明するためのフローチャートである。類似度、範囲指数を説明するための概念図である。本実施の形態１に係る数値検索装置の出力部から出力される検索結果の一例を示す図である。本実施の形態２に係る数値検索装置の出力部から出力される検索結果の一例を示す図である。本実施の形態２に係る数値検索装置の出力部から出力される検索結果の別の一例を示す図である。本実施の形態２に係る数値検索装置の出力部から出力される検索結果のさらに別の一例を示す図である。

以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰り返さない。

［実施の形態１］
図１は、本実施の形態１に係る数値検索装置１００の一例の概略図である。数値検索装置１００では、ユーザが検索式を入力すると、当該検索式にあった対象特許を特許データベース２００から収集し、当該検索式に基づく検索結果をユーザに出力する。具体的に、ＭＬＣＣ（Multilayer Ceramic Chip Capacitor）やＬＴＣＣ（Low Temperature Co-fired Ceramics）などの開発において、ＢａＣＯ３を１．２ｍｏｌ使用した材料の開発を行う場合に、数値検索装置１００に検索式として「ＢａＣＯ３、１．２ｍｏｌ」を入力し、ＢａＣＯ３を１．２ｍｏｌ使用した文献を検索結果として出力する。

しかし、単に特許データベース２００から「ＢａＣＯ３」と「１．２ｍｏｌ」とを含む文献を検索するだけでは、ＢａＣＯ３を１．２ｍｏｌ使用した材料について記載した文献以外の文献も検索結果に含まれてしまう。そのため、特許データベース２００から収集した文献から化学式である「ＢａＣＯ３」と数値である「１．２ｍｏｌ」とを関連付けて抽出し、データベース化した上で検索を行う必要がある。なお、検索式には、後述するようにＢａＣＯ３を主成分とするＭＬＣＣの文献同士を比較して、数値範囲の類似度などを評価したグラフを検索結果として出力するような検索を含んでもよい。

本実施の形態１に係る数値検索装置１００では、特許データベース２００から対象特許文献の収集し、当該文献から化学式、材料、特性などの特徴部分と、数値または数値範囲などの数値部分とを関連付けて数値データとして抽出し、データベースに格納して検索に利用している。以下、文献から特徴部分と数値部分とを関連付けて数値データとして抽出する技術を含む数値検索処理について説明する。

まず、数値検索装置１００のハードウェア構成について詳しく説明する。図２は、本実施の形態１に係る数値検索装置１００の構成を説明するためのブロック図である。数値検索装置１００は、オペレーティングシステム（ＯＳ：Operating System）を含む各種プログラムを実行するＣＰＵ１０１と、ＣＰＵ１０１でのプログラムの実行に必要なデータを一時的に記憶するメモリ部１１２と、ＣＰＵ１０１で実行されるプログラムを不揮発的に記憶するハードディスク部（ＨＤＤ：Hard Disk Drive）１１０とを含む。

また、ハードディスク部１１０には、後述するような数値検索処理を実現するためのプログラムが予め記憶されており、このようなプログラムは、光学ドライブ１１４などによって、それぞれＣＤ－ＲＯＭ（Compact Disk-Read Only Memory）などの記憶媒体１１４ａから読み取られる。

ＣＰＵ１０１は、キーボードやマウスなどからなる入力部１０８を介してユーザなどからの検索式を受取るとともに、プログラムの実行によって検索された検索結果などを、ディスプレイ部１０４へ出力する。各部は、バス１０２を介して互いに接続される。また、インターフェイス部１０６は、特許データベース２００などに接続されている。なお、数値検索装置１００と特許データベース２００との接続は、有線で接続されても無線で接続されてもよい。

次に、数値検索装置１００で実行される数値検索処理について具体的に説明する。図３は、本実施の形態１に係る数値検索装置１００での数値検索処理を説明するための機能ブロック図である。数値検索装置１００は、数値検索処理を実行するために収集部３００、データ抽出部４００、データベース部５００、および出力部６００の機能を備えている。収集部３００は、特許データベース２００から対象特許を収集する。データ抽出部４００は、収集した対象特許から、特徴部分と数値部分とを関連付けた数値データを抽出する。データベース部５００は、データ抽出部４００で抽出した数値データを、抽出した文献の文献データと関連付けて格納する。出力部６００は、入力された検索式に基づく検索結果を出力する。

さらに、収集部３００について詳しく説明する。図４は、本実施の形態１に係る数値検索装置１００での収集部３００の処理を説明するための機能ブロック図である。収集部３００では、ユーザが対象とする特許文献（例えば、ＢａＣＯ３を主成分とするＭＬＣＣの文献）を特許データベース２００から全文をダウンロード３０１する。例えば、ユーザが、特許データベース２００で「ＢａＣＯ３」を含むＭＬＣＣの特許文献を検索し、検索結果の特許文献を収集部３００が全文ダウンロードする。ダウンロードした文献には、「．ｘｍｌ」、「．ｈｔｍ」、「．ｃｓｖ」などの形式のデータが含まれている。データ抽出部４００では、テキストデータを処理するため、収集部３００は、特許データベース２００からダウンロードした特許文献のデータをテキストデータに変換している。

具体的に、収集部３００は、「．ｘｍｌ」形式のデータをテキストデータに変換する処理を「．ｘｍｌの変換」３０２で行う。また、収集部３００は、「．ｈｔｍ」形式のデータをテキストデータに変換する処理を「．ｈｔｍの変換」３０３で行う。さらに、収集部３００は、「．ｃｓｖ」形式のデータをテキストデータに変換する処理を「．ｃｓｖの変換」３０４で行う。

収集部３００は、「．ｘｍｌの変換」３０２、「．ｈｔｍの変換」３０３および「．ｃｓｖの変換」３０４で変換した特許文献のテキストデータを比較して、重複している特許文献のデータを削除する（重複データの削除３０５）。収集部３００は、重複データの削除３０５を行った特許文献のテキストデータを中間ファイル３２０として出力する。

一方、特許データベース２００から特許文献のデータをダウンロードするのではなく、予め複数の特許文献のデータを含むファイルを用意しておき、収集部３００は、当該ファイルを読み込み３１０、特許文献のデータを収集することもできる。ファイルから読み込んだ特許文献のデータには、「．ｄｏｃｘ」、「テキスト」などの形式のデータが含まれている。収集部３００は、「．ｄｏｃｘ」形式のデータをテキストデータに変換する処理を「．ｄｏｃｘの変換」３１１で行う。ファイルに含まれる特許文献のデータには、重複した特許文献のデータが含まれていないので、収集部３００は、「．ｄｏｃｘの変換」３１１で変換した特許文献のテキストデータと、ファイルに含まれている特許文献のテキストデータとを中間ファイル３２０として出力する。

次に、収集部３００で収集した特許文献のテキストデータから、特徴部分と数値部分とを関連付けた数値データを抽出するデータ抽出部４００について説明する。図５は、本実施の形態１に係る数値検索装置１００のデータ抽出部４００での処理を説明するための機能ブロック図である。データ抽出部４００は、特許文献のテキストデータから特徴部分および数値部分を解析する形態素・字句解析部４１０と、特徴部分と数値部分とを関連付ける関連解析部４３０とを備えている。さらに、データ抽出部４００は、関連解析部４３０での処理において関連付けを除外する条件を予め設定しておく除外設定部４５０と、関連解析部４３０で関連付けた数値データを抽出する抽出部４７０とを備えている。

形態素・字句解析部４１０での処理についてさらに詳しく説明する。図６は、本実施の形態１に係る数値検索装置１００の形態素・字句解析部４１０での処理を説明するための機能ブロック図である。形態素・字句解析部４１０は、収集部３００から出力された中間ファイル３２０を読み込み４１１、当該中間ファイル３２０から特許文献のテキストデータを取り込み、形態素解析部４１２で取り込んだ特許文献のテキストデータを処理する。

形態素解析部４１２では、予め定められた言語の文法、辞書の情報（例えば、単語の品詞などの情報）にもとづき、取り込んだ特許文献のテキストデータを形態素の列に分割し、それぞれの形態素に対して品詞などの解析を行う。

形態素解析部４１２で形態素の列に分割した特許文献のテキストデータから、プッシュダウンオートマトン（ＰＤＡ：Push down Automaton）により特徴部分および数値部分を特定する字句解析を行う。なお、字句解析として、プッシュダウンオートマトンに限らず、有限オートマトンや、さらに複雑なオートマトンであってもよい。

具体的に、特性名帰属ＰＤＡ４１３では、予め定められた特性名（例えば、分散剤、厚み、抵抗値など）に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「feature」とラベリングして１つの字句として扱う。材料名帰属ＰＤＡ４１４では、予め定められた材料名（例えば、ネオジム、酸化チタン、炭酸バリウムなど）に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「material」とラベリングして１つの字句として扱う。

また、単位帰属ＰＤＡ４１５では、予め定められた単位（例えば、ｇ、ｍｏｌ、ｎｍなど）に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「unit」とラベリングして１つの字句として扱う。数値帰属ＰＤＡ４１６では、予め定められた数値（例えば、アラビア数字、漢数字、ローマ数字など）に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「amount」とラベリングして１つの字句として扱う。なお、単位帰属ＰＤＡ４１５で特定した「unit」の字句と、数値帰属ＰＤＡ４１６で特定した「amount」の字句とが近傍（例えば、予め定められた形態素の数の範囲内）に存在している場合、数値帰属ＰＤＡ４１６は、「unit」の字句と「amount」の字句とを１つの「amount」の字句として扱う。

また、数値帰属ＰＤＡ４１６では、複数の形態素のうちに１つの数値が含まれている場合、当該数値に予め定められた数値範囲（例えば、当該数値の±１％の範囲）を付与して１つの「amount」の字句として扱ってもよい。これにより、数値同士を比較する際に、数値に幅を持った数値範囲同士の比較となり、比較が容易となる。さらに、数値帰属ＰＤＡ４１６では、複数の形態素のうちに複数の数値と、範囲を示す予め定められた形態素（例えば、「～」）とが含まれている場合、当該複数の数値に基づく数値範囲を１つの「range」の字句として扱ってもよい。もちろん、数値であっても数値範囲であっても、区別せずに１つの「amount」の字句として扱ってもよい。

数式帰属ＰＤＡ４１７では、予め定められた数式（例えば、ｘ、１－ｘ、０＜ｘ≦１など）に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「formula」とラベリングして１つの字句として扱う。化学式帰属・組成復元ＰＤＡ４１８では、予め定められた化学式や組成（例えば、Ca、TiO2、BaCO3など）に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「material」とラベリングして１つの字句として扱う。

数値帰属ＰＤＡ４１６で特定した「amount」の字句と、数式帰属ＰＤＡ４１７で特定した「formula」の字句と、化学式帰属・組成復元ＰＤＡ４１８で特定した「material」とが近傍に存在している場合、化学式帰属・組成復元ＰＤＡ４１８は、「amount」の字句と「formula」の字句と「material」の字句とを１つの「material」の字句として扱う。具体的に、「Ｂａ_１－ｘＣａ_ｘＴｉＯ_３（０＜ｘ≦１）」なる字句を解析する場合、「amount」の字句として「３」、「formula」の字句として「ｘ」、「１－ｘ」、「０＜ｘ≦１」、「material」の字句として「Ｂａ」、「Ｃａ」、「ＴｉＯ」とそれぞれ解析する。それらの字句が近傍に存在しているので、化学式帰属・組成復元ＰＤＡ４１８は、最終的に「Ｂａ_１－ｘＣａ_ｘＴｉＯ_３（０＜ｘ≦１）」なる字句を、１つの「material」の字句として扱う。

形態素・字句解析部４１０では、「material」または「feature」とラベリングされた字句を特徴部分に分類し、「amount」または「range」とラベリングされた字句を数値部分に分類している。

次に、具体例を示して形態素・字句解析部４１０での処理について説明する。図７は、本実施の形態１に係る数値検索装置１００の形態素・字句解析部４１０での処理の一例を説明するための概念図である。取り込んだ特許文献のテキストデータに「ＴｉＯ２を主成分として１．２０ｇ使用した。」との文章４２０が含まれている場合、まず形態素解析部４１２で当該文章４２０を形態素の列に分割する。

形態素解析部４１２は、文章４２０を形態素の列に分割して、複数の形態素を含む列データ４２１を出力する。列データ４２１には、「ＴｉＯ」、「２」、「を」、「主成分」、「と」、「し」、「て」、「１」、「．」、「２０」、「ｇ」、「使用」、「し」、「た」、「。」の形態素を含んでいる。

字句解析では、列データ４２１に含まれる形態素のうち、「ＴｉＯ」の形態素４２１ａを「material」の字句として特定し、「２」の形態素４２１ｂを「amount」の字句として特定する。さらに、字句解析では、「ＴｉＯ」の形態素４２１ａと「２」の形態素４２１ｂとが近傍に存在しているので、「ＴｉＯ２」を１つの「material」の字句４２２として扱う。

また、字句解析では、列データ４２１に含まれる形態素のうち、「１」の形態素４２１ｃ、「．」の形態素４２１ｄ、「２０」の形態素４２１ｅを「amount」の字句として特定し、「ｇ」の形態素４２１ｆを「unit」の字句として特定する。さらに、字句解析では、「１」の形態素４２１ｃ、「．」の形態素４２１ｄ、「２０」の形態素４２１ｅと、「ｇ」の形態素４２１ｆとが近傍に存在しているので、「１．２０ｇ」を１つの「amount」の字句４２３として扱う。

図８は、本実施の形態１に係る数値検索装置１００の形態素・字句解析部４１０での処理の別の一例を説明するための概念図である。取り込んだ特許文献のテキストデータに「ＴｉＯ２を主成分として１．２０ｇ～１．５０ｇ使用した。」との文章４２０ａが含まれている場合、まず形態素解析部４１２で当該文章４２０ａを形態素の列に分割する。

形態素解析部４１２は、文章４２０ａを形態素の列に分割して、複数の形態素を含む列データ４２１Ａを出力する。列データ４２１Ａには、「ＴｉＯ」、「２」、「を」、「主成分」、「と」、「し」、「て」、「１」、「．」、「２０」、「ｇ」、「～」、「１」、「．」、「５０」、「ｇ」、「使用」、「し」、「た」、「。」の形態素を含んでいる。

字句解析では、列データ４２１Ａに含まれる形態素のうち、「ＴｉＯ」の形態素４２１ａを「material」の字句として特定し、「２」の形態素４２１ｂを「amount」の字句として特定する。さらに、字句解析では、「ＴｉＯ」の形態素４２１ａと「２」の形態素４２１ｂとが近傍に存在しているので、「ＴｉＯ２」を１つの「material」の字句４２２として扱う。

また、字句解析では、列データ４２１Ａに含まれる形態素のうち、「１」の形態素４２１ｃ、「．」の形態素４２１ｄ、「２０」の形態素４２１ｅを「amount」の字句として特定し、「ｇ」の形態素４２１ｆを「unit」の字句として特定する。同様に、字句解析では、列データ４２１Ａに含まれる形態素のうち、「１」の形態素４２１ｈ、「．」の形態素４２１ｉ、「５０」の形態素４２１ｊを「amount」の字句として特定し、「ｇ」の形態素４２１ｋを「unit」の字句として特定する。さらに、字句解析では、「ｇ」の形態素４２１ｆと「１」の形態素４２１ｈとの間に、「～」のような範囲を示す予め定められた形態素４２１ｇが含まれているので、「１」の形態素４２１ｃ～「ｇ」の形態素４２１ｋを「１．２０ｇ～１．５０ｇ」とする１つの「range」の字句４２４として扱う。もちろん、字句解析では、「amount」と「range」とを区別せず、「range」の字句４２４を「amount」の字句として扱ってもよい。なお、範囲を示す予め定められた形態素としては、「～」以外に「から」、「まで」など形態素を設定することが可能である。

次に、関連解析部４３０は、形態素・字句解析部４１０において選択された特徴部分と数値部分とを関連付ける。図９は、本実施の形態１に係る数値検索装置１００の関連解析部４３０での処理を説明するための機能ブロック図である。

図９に示す関連解析部４３０では、形態素の列からプッシュダウンオートマトンで「material」とラベリングされた材料の字句と「amount」とラベリングされた数値の字句とを特定して、関連付ける（材料＋数値）抽出ＰＤＡ４３１を有している。また、関連解析部４３０では、形態素の列からプッシュダウンオートマトンで「material」とラベリングされた材料の字句と「formula」とラベリングされた数式の字句とを特定して、関連付ける（材料＋数式）抽出・組成復元ＰＤＡ４３２を有している。さらに、関連解析部４３０では、形態素の列からプッシュダウンオートマトンで「feature」とラベリングされた材料の字句と「amount」とラベリングされた数値の字句とを特定して、関連付ける（特性＋数値）抽出ＰＤＡ４３３を有している。

具体例を示して関連解析部４３０での処理について説明する。図１０は、本実施の形態１に係る数値検索装置１００の関連解析部４３０での処理の一例を説明するための概念図である。関連解析部４３０は、形態素・字句解析部４１０で処理したデータに「ＴｉＯ２」を１つとする「material」の字句４２２と、「１．２０ｇ」を１つとする「amount」の字句４２３とを含んでいる場合、字句４２２と字句４２３との間に「を」のような関連を示す予め定められた形態素４２５が含まれているか否かを判定する。なお、関連を示す予め定められた形態素４２５の一例として「を」を示したが、「材料Ｘが１．０ｇ」の「が」、「１．０ｇの材料Ｘ」の「の」など、他に「として」、「：」などが関連を示す予め定められた形態素と考えられる。また、関連を示す予め定められた形態素４２５は、「を」などの単独の形態素だけに限られず、複数の形態素を組み合わせたものを含めてもよい。一例として「換算」と「で」の２つの形態素を組み合わせた「換算で」を含めてもよい。

関連解析部４３０は、字句４２２と字句４２３との間に形態素４２５が含まれている場合、字句４２２と字句４２３との間に含まれる形態素の数を求める。図１０の例では、字句４２２と字句４２３との間に含まれる形態素の数は５個である。

関連解析部４３０は、字句４２２と字句４２３との間に含まれる形態素の数が予め定められた数（例えば、１０個）以下であれば、求めた字句４２２と字句４２３との距離が近いとして、関連がある字句同士であると判定する。図１０の例では、形態素の数が５個と予め定められた数以下のため、字句４２２と字句４２３とが関連があると判定している。なお、図１０の例では、「material」の字句４２２と「amount」の字句４２３との関連を抽出するため、（材料＋数値）抽出ＰＤＡ４３１で処理される。

図９に戻って、抽出部４７０は、関連解析部４３０で関連がある判定された字句を関連付けた数値データとして抽出して、データベース部５００に出力する。データベース部５００では、抽出部４７０で抽出した数値データと、当該数値データを抽出した特許文献の文献データ（例えば、特許文献の書誌情報など）とを関連付けて格納する。図１０の例では、抽出部４７０が、関連がある字句と判定した「ＴｉＯ２を主成分として１．２０ｇ」を一つの関連する数値データ４３１として抽出する。数値データ４３１には、material＝ＴｉＯ２、amount＝１．２０ｇの情報が含まれることになる。

前述のように、関連解析部４３０は、字句と字句との間に含まれる形態素の数が予め定められた数以下か否かのみで、関連がある字句か否かを判定している。しかし、関連解析部４３０は、字句と字句との間に含まれる形態素の数のみで関連がある字句か否かを判定した場合、取り込んだ文書によっては全く関連のない字句を誤って関連があると判定する虞がある。

図１１は、誤って関連がある字句と判定する一例を説明するための概念図である。取り込んだ特許文献のテキストデータに含まれる「ＴｉＯ２を主成分１００ｇに対して１．２０ｇ使用。」の文章４２０ｂに対して、形態素・字句解析部４１０での処理を行う。形態素・字句解析部４１０での処理の結果、文章４２０ｂには、「ＴｉＯ２」を１つとする「material」の字句４２２と、「１００ｇ」を１つとする「amount」の字句４２６と、「１．２０ｇ」を１つとする「amount」の字句４２３とを含んでいると解析される。

関連解析部４３０は、字句４２２と字句４２６との間に「を」のような関連を示す予め定められた形態素４２５が含まれ、字句４２２と字句４２６との間に含まれる形態素の数が２個と予め定められた数以下であるので、関連がある字句と判定する。

抽出部４７０は、関連解析部４３０で関連がある字句と判定した「ＴｉＯ２を主成分１００ｇ」を一つの関連する数値データ４３２として抽出する。数値データ４３２には、material＝ＴｉＯ２、amount＝１００ｇの情報が含まれることになる。

しかし、「ＴｉＯ２を主成分１００ｇに対して１．２０ｇ使用。」の文章４２０ｂでは、本来の意味から「ＴｉＯ２」が「１．２０ｇ」使用することを関連させる必要がある。そのため、数値データ４３２のようにmaterial＝ＴｉＯ２とamount＝１００ｇとを関連付けた情報は誤った情報（ＮＧ）である。

そこで、本実施の形態に係る数値検索装置１００では、図９に示すように関連解析部４３０で字句の関連を判定する際に、関連付けを除外する条件を予め設定しておく除外設定部４５０を備えている。つまり、関連解析部４３０では、字句と字句との間に含まれる形態素の数のみで関連がある字句か否かを判定するのではなく、除外設定部４５０に予め設定してある条件に当てはまる形態素を無視して字句の関連を判定する。

図１２は、本実施の形態１に係る数値検索装置１００の関連解析部４３０で除外設定部４５０の条件を考慮した処理の一例を説明するための概念図である。取り込んだ特許文献のテキストデータに含まれる「ＴｉＯ２を主成分１００ｇに対して１．２０ｇ使用。」の文章４２０ｂ（図１１参照）に対して、形態素・字句解析部４１０での処理を行う。形態素・字句解析部４１０での処理の結果、文章４２０ｂには、「ＴｉＯ２」を１つとする「material」の字句４２２と、「１００ｇ」を１つとする「amount」の字句４２６と、「１．２０ｇ」を１つとする「amount」の字句４２３とを含んでいると解析される。

関連解析部４３０は、除外設定部４５０に予め設定してある条件に当てはまる形態素の有無を判定する。予め設定してある条件として、図１２では「に対して」との形態素の列が文章４２０ｂに含まれているか否かを判定している。「に対して」の形態素の列が文章４２０ｂに含まれている場合、当該形態素の列の前にある「１００ｇ」の字句４２６を含めて除外対象４５１とする。つまり、関連解析部４３０は、除外設定部４５０に予め設定してある条件を考慮して、「１００ｇに対して」の形態素の列を「ignore」とラベリングして１つの除外対象４５１として扱う。

関連解析部４３０は、「１００ｇ」の字句４２６を除外対象４５１に含めることで、字句４２２と字句４２３との間に「を」のような関連を示す予め定められた形態素４２５が含まれると判定される。そのため、関連解析部４３０は、字句４２２と字句４２３との間に含まれる形態素の数を求めることになる。ここで、「１００ｇに対して」の形態素の列を１つの除外対象４５１として扱うことで、関連解析部４３０は、字句４２２と字句４２３との間に含まれる形態素の数を３個と予め定められた数以下であると判定することができ、字句４２２と字句４２３とが関連があると判定する。

その結果、抽出部４７０は、関連がある字句と判定した「ＴｉＯ２を主成分１００ｇに対して１．２０ｇ」を一つの関連する数値データ４３３として抽出する。数値データ４３３には、material＝ＴｉＯ２、amount＝１．２０ｇの情報が含まれることになる。そのため、抽出部４７０は、数値データ４３２のようにmaterial＝ＴｉＯ２とamount＝１００ｇとを関連付けた誤った情報を抽出してしまうことを回避することができる。

除外設定部４５０に予め設定してある関連付けを除外する条件について、さらに詳しく説明する。図１３は、除外設定部４５０に予め設定してある関連付けを除外する条件の一例を説明するための概念図である。図１３（ａ）では、前述したように「amount」の字句の後ろに「に対して」の形態素の列が続く場合、「１００ｇに対して」の形態素の列を１つの除外対象４５１として扱うことが条件として示されている。

図１３（ｂ）では、「分散剤２０４の添加量は０．３ｇ」の文書に対して形態素・字句解析部４１０での処理を行う一例が示されている。形態素・字句解析部４１０での処理の結果、当該文章には、「分散剤」を１つとする「feature」の字句と、「２０４」を１つとする「amount」の字句と、「０．３ｇ」を１つとする「amount」の字句とを含んでいると解析される。そのため、関連解析部４３０は、除外設定部４５０に何も条件が設定されていなければ、「分散剤」の字句に近い「２０４」の字句を「分散剤」の字句を関連付けることになる。

しかし、「２０４」の字句は、「分散剤」の字句の符号に過ぎない。そのため、除外設定部４５０には、「feature」の字句の直後の「amount」の字句を「amount」の字句として特定せずに除外し、「feature」の字句と直後の「amount」の字句とを１つの「feature」の字句として扱うことが条件として設定される。

そこで、関連解析部４３０は、除外設定部４５０の当該条件を考慮して「分散剤２０４」を１つとする「feature」の字句４５２として扱った上で、「０．３ｇ」の字句と関連付ける。

図１３（ｃ）では、「Ｎｄ添加量ｍが０．０５を超える場合好ましくない」の文書に対して形態素・字句解析部４１０での処理を行う一例が示されている。形態素・字句解析部４１０での処理の結果、当該文章には、「Ｎｄ」を１つとする「material」の字句と、「０．０５」を１つとする「amount」の字句とを含んでいると解析される。そのため、関連解析部４３０は、除外設定部４５０に何も条件が設定されていなければ、「Ｎｄ」の字句と「０．０５」の字句とを関連付けることになる。

しかし、除外設定部４５０には、「ない」などの否定を表す字句（「NOT」とラベリングされる字句）が文書に含まれている場合には、「NOT」の字句の近傍に存在する「amount」の字句を「NOT」の字句とともに除外する条件が設定される。そのため、関連解析部４３０は、除外設定部４５０の当該条件を考慮して、図１３（ｃ）に示すように「０．０５を超える場合好ましくない」との形態素の列を１つの除外対象４５３として扱う。

図１３に示した条件は、除外設定部４５０に設定される関連付けを除外する条件の一例であって、他の条件を除外設定部４５０に設定してもよい。また、除外設定部４５０は、ユーザが設定する条件を適宜更新することができる。

図３に戻って、データベース部５００は、収集部３００で収集した特許文献よりデータ抽出部４００で抽出した数値データを格納している。そして、出力部６００は、ユーザが入力した検索式に基づいて、データベース部５００に格納された数値データを検索し、その検索結果を出力する。ユーザが入力する検索式には、単純に「ＴｉＯ２を主成分として１．２０ｇ使用した。」ことが記載されている文献を検索するなどが考えられる。この場合、出力部６００は、データベース部５００からmaterial＝ＴｉＯ２、amount＝１．２０ｇの情報が含む文献を検索し、その検索した文献のリストを検索結果として出力する。

しかし、出力部６００に入力可能な検索式は前述のような単純な検索式に限られず、収集部３００で収集した特許文献同士を比較して、評価した結果を検索結果として出力する検索式を入力することも可能である。

以下、特定の特許文献同士を比較して、特許文献に記載した数値の類似している程度について評価する検索式を出力部６００に入力した場合の処理の一例を説明する。図１４は、本実施の形態１に係る数値検索装置１００の出力部６００での処理を説明するためのフローチャートである。

出力部６００は、データベース部５００から特許文献ごとに数値データの読み込みを行う（ステップＳ６０１）。出力部６００は、データベース部５００から読み込んだ特許文献ごとに数値データの評価を行うため、総当たりでデータベース部５００から２つの特許文献Ａ，Ｂの組み合わせを選択する（ステップＳ６０２）。出力部６００は、ステップＳ６０２で組み合わせた特許文献Ａ，Ｂについて、特許文献Ａより特許文献Ｂが新しいか否かの判断を行う（ステップＳ６０３）。

特許文献Ａより特許文献Ｂが新しくない場合（ステップＳ６０３でＮＯ）、出力部６００は、ステップＳ６０２に処理を戻す。一方、特許文献Ａより特許文献Ｂが新しい場合（ステップＳ６０３でＹＥＳ）、出力部６００は、特許文献Ａ，Ｂ間の類似度を計算する（ステップＳ６０４）。

特許文献Ａ，Ｂ間の類似度は、特許文献Ａ，Ｂのそれぞれに含まれる数値データ同士を比較し、それぞれの類似度を計算して合計した値である。特許文献Ａ，Ｂのそれぞれには、様々な材料や特性などの数値データが含まれている。出力部６００は、特許文献Ａ，Ｂのそれぞれに含まれる数値データのうち、材料や特性など特徴部分が同じで数値部分の単位が同じ数値データに対して類似度を計算する。なお、出力部６００は、単位が異なっていても変換することで同じ単位となる場合は、単位が同じであるとして処理する。

類似度は、数値範囲の重なり具合を示す値である。出力部６００は、類似度を求めるために、特徴部分が同じ特許文献Ａの数値データの第１の数値範囲と、特許文献Ｂの第２の数値範囲とを比較し、第１の数値範囲と第２の数値範囲とが重なった部分を第１の幅として求める。さらに、出力部６００は、第１の数値範囲の幅と第２の数値範囲の幅とのうち小さい方の幅を第２の幅とし、第１の幅を第２の幅で割った値を類似度として算出する。

図１５は、類似度、範囲指数を説明するための概念図である。図１５（ａ）では、類似度を概念的に示しており、特許文献Ａの第１の数値範囲と特許文献Ｂの第２の数値範囲との重なり具合により類似度がどのように変化するのかについて示している。特許文献Ａの第１の数値範囲が特許文献Ｂの第２の数値範囲に含まれていれば類似度が１となり、特許文献Ａの第１の数値範囲と特許文献Ｂの第２の数値範囲とが重なっていなければ類似度が０となる。

例えば、特許文献Ａの数値データが、material＝ＴｉＯ２、amount＝１．２０ｇ、特許文献Ｂの数値データが、material＝ＴｉＯ２、amount（range）＝１．２０ｇ～１．５０ｇである場合について、類似度を計算する。まず、特許文献Ａの数値データは、amount＝１．２０ｇであるが、予め定められた数値範囲（例えば、±１％の範囲）を付与されているので、amount＝１．１９ｇ～１．２１ｇとする。

出力部６００は、特許文献Ａの第１の数値範囲（１．１９ｇ～１．２１ｇ）と、特許文献Ｂの第２の数値範囲（１．２０ｇ～１．５０ｇ）とを比較し、第１の数値範囲と第２の数値範囲とが重なった部分を第１の幅（１．２０ｇ～１．２１ｇ＝０．０１）として求める。さらに、出力部６００は、第１の数値範囲の幅（０．０２）と第２の数値範囲の幅（０．３）とのうち小さい方の幅を第２の幅（０．０２）とし、第１の幅（０．０１）を第２の幅（０．０２）で割った値＝０．５を類似度として算出する。

出力部６００は、特許文献Ａ，Ｂのそれぞれに含まれる数値データの全てに対して前述のような類似度を計算し、それぞれの類似度を合計した値が特許文献Ａ，Ｂの類似度であるとして算出する。

次に、出力部６００は、特許文献Ａ，Ｂ間の範囲指数を計算する（ステップＳ６０５）。ここで、範囲指数は、数値範囲の広がり具合を比較する値である。特許文献Ａ，Ｂ間の範囲指数は、特許文献Ａ，Ｂのそれぞれに含まれる数値データ同士を比較し、それぞれの範囲指数を計算して求めた値のうちで最も多く現れる値（最頻値）とする。出力部６００は、特許文献Ａ，Ｂのそれぞれに含まれる数値データのうち、材料や特性など特徴部分が同じで数値部分の単位が同じ数値データに対して範囲指数を計算する。なお、出力部６００は、単位が異なっていても変換することで同じ単位となる場合は、単位が同じであるとして処理する。

出力部６００は、数値範囲を求めるために、特徴部分が同じ特許文献Ａの数値データの第１の数値範囲と、特許文献Ｂの第２の数値範囲とを比較し、第１の数値範囲の幅で、第２の数値範囲の幅を割った値の対数を範囲指数として算出する。つまり、範囲指数＝ｌｏｇ［（第２の数値範囲の幅）／（第１の数値範囲の幅）］である。

図１５（ｂ）では、範囲指数を概念的に示しており、特許文献Ａの第１の数値範囲と特許文献Ｂの第２の数値範囲との広がり具合により範囲指数がどのように変化するのかを示している。特許文献Ａの第１の数値範囲より特許文献Ｂの第２の数値範囲の方が数値範囲の広がりが大きければと範囲指数が正値となり、特許文献Ａの第１の数値範囲より特許文献Ｂの第２の数値範囲の方が数値範囲の広がりが小さければと類似度が負値となる。つまり、範囲指数が正値の場合、例えば特許文献ＡのＢａの使用量が３．３～３．８ｍｏｌの範囲であるのに対し、特許文献ＢのＢａの使用量が１～１０ｍｏｌの範囲である。そのため、特許文献Ｂでは、組成として一般的なものを用いており、組成以外、つまりプロセスなどに特徴があると推測することができる。逆に、特許文献ＡのＢａの使用量が３．０～１３．０ｍｏｌの範囲であるのに対し、特許文献ＢのＢａの使用量が５．１～５．３ｍｏｌの範囲となる範囲指数が負値の場合、特許文献Ｂは、数値範囲に特徴があり、組成として特殊なものを用いていると推測することができる。

出力部６００は、特許文献Ａ，Ｂのそれぞれに含まれる数値データの全てに対して前述のような範囲指数を計算し、求めた範囲指数のうちの最頻値を特許文献Ａ，Ｂの範囲指数として算出する。

出力部６００は、ステップＳ６０４で計算した類似度をグラフにプロットする場合に類似度の大きさを円の直径で表現するため、類似度の値を円の直径ｄに換算する（ステップＳ６０６）。また、出力部６００は、ステップＳ６０５で計算した範囲指数をグラフにプロットする場合に範囲指数の大きさを円の色で表現するため、範囲指数の値を円の色ｖに換算する（ステップＳ６０７）。この換算では、例えば指数範囲の値が－２以下の場合円の色を青に、指数範囲の値が０（ゼロ）の場合円の色を白に、指数範囲の値が２以上の場合円の色を赤にそれぞれ換算する。そして、指数範囲の値が－２～２に変化することに伴い、円の色も青－白－赤と連続的に変化するものとする。図１５（ｃ）では、類似度を円の直径ｄ、範囲指数を円の色ｖとした場合にグラフにプロットされる円の一例を示している。図１５（ｃ）に示すように、類似度が大きい場合、直径ｄが大きな円となり、類似度が小さい場合、直径ｄが小さな円となる。範囲指数が正値の場合、色ｖが赤色側（つまり膨張色）となり、プロットする円が膨張するような感じの表現となる。範囲指数が負値の場合、色ｖが青色側（つまり収縮色）となり、プロットする円が収縮するような感じの表現となる。範囲指数が０（ゼロ）の場合、色ｖが白色となり、プロットする円が膨張や収縮せず中立な感じの表現となる。なお、図１５（ｃ）では、色ｖを表現するため青色側の円に対してドットパターンのハッチングを施し、赤色側の円に対して斜線パターンのハッチングを施している。

なお、出力部６００から出力される結果において、類似度が大きく、範囲指数が０（ゼロ）の場合、特許文献Ａの数値データと特許文献Ｂの数値データとの一致度が高いので、両文献で同じような技術を扱っていると類推できる。また、出力部６００から出力される結果において、範囲指数が負値の場合、特許文献Ａで扱っている技術に対して特許文献Ｂで扱っている技術の方が特殊であることが類推できる。

出力部６００は、ステップＳ６０６，Ｓ６０７で換算した値に基づく円をグラフにプロットする（ステップＳ６０８）。図１６は、本実施の形態１に係る数値検索装置１００の出力部６００から出力される検索結果の一例を示す図である。図１６に示すグラフは、例えば、ＭＬＣＣに関する特許文献に対して、図１４に示すフローチャートでの処理を行った結果を示している。図１６に示すグラフでは、横軸を特許文献Ａ（先行特許）とし、縦軸を特許文献Ｂ（後発特許）としている。そのため、グラフの対角線上には、特許文献Ａと特許文献Ｂとが同じ文献となる。また、図１６に示すグラフでは、特許文献の出願人別にソートして表示されており、主要なＡ社～Ｆ社がどの程度出願しているかが確認できる。

図１６に示すグラフを作成することで、特許文献間の組成や特性の類似度を可視化することが可能となる。図１４に示すステップＳ６０３において特許文献Ｂ（後発特許）に対してのみ類似度および範囲指数を計算するため、当該グラフでは、特許文献Ｂ（後発特許）の類似度および範囲指数のみが円としてプロットされる。図１６に示すグラフにプロットされる円は、図１５（ｃ）で説明したように類似度に応じて直径ｄが変化し、範囲指数に応じて色ｖが変化する。そのため、当該グラフから、特許文献Ａに対する特許文献Ｂの類似度および範囲指数を一目で把握することができる。また、出願人別にソートされているので、当該グラフから、主要なＡ社～Ｆ社ごとの組成の変遷や注目すべき特許文献を把握することができる。特に、グラフにおいて縦列に目立ったプロットがある場合、様々な後発特許に関係した組成が記載された先行特許であることが分かる。なお、図１６に示すグラフでは、ＭＬＣＣに関する特許文献に対して数値検索処理を実行した検索結果の一例を示した。しかし、これに限られず、例えば、ＬＴＣＣ、ペースト、表面波フィルタ、全固体電池に関する特許文献、学術論文など組成、特性などが記載されている文献に対して前述の数値検索処理を実行し、その検索結果を同様にグラフで示すことができる。

以上のように、本実施の形態１に係る数値検索装置１００は、文献に含まれる数値に関する数値データを検索する数値検索装置である。数値検索装置１００は、複数の文献を収集する収集部３００と、数値データを抽出するデータ抽出部４００と、データベース部５００と、出力部６００とを備えている。データ抽出部４００は、形態素・字句解析部４１０、関連解析部４３０、除外設定部４５０、抽出部４７０を含んでいる。形態素・字句解析部４１０は、収集した特許文献のテキストデータを複数の形態素に分割し、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する。関連解析部４３０は、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定する。除外設定部４５０は、関連解析部４３０において、特徴部分と数値部分との関連の判定から除外する条件を予め設定する。抽出部４７０は、関連解析部４３０で関連すると判定された特徴部分と数値部分とを数値データとして抽出する。これにより、本実施の形態１に係る数値検索装置１００では、特徴部分と数値部分との関連の判定から除外する条件を予め設定してあるので、数値部分と特徴部分とを正しく関連付けて抽出することができる。

また、関連解析部４３０は、除外設定部４５０で予め設定された条件を１つの形態素として圧縮して、特徴部分と数値部分との間に含まれる形態素の数をカウントしてもよい。これにより、数値検索装置１００は、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下と判断され、特徴部分と数値部分とを関連付け易くなる。

さらに、形態素・字句解析部４１０は、分割した複数の形態素のうちに１つの数値が含まれている場合、当該数値に予め定められた数値範囲を付与して数値部分と特定してもよい。これにより、数値検索装置１００は、数値同士を比較する際に、数値に幅を持った数値範囲同士の比較となり、比較が容易となる。

また、形態素・字句解析部４１０は、分割した複数の形態素のうちに複数の数値と、範囲を示す予め定められた形態素とが含まれている場合、当該複数の数値に基づく数値範囲を数値部分と特定してもよい。これにより、数値検索装置１００は、数値範囲を１つの数値部分として特定することができる。

さらに、形態素・字句解析部４１０は、分割した複数の形態素のうちに単位が含まれている場合、当該単位と数値とを１つの数値部分と特定してもよい。これにより、数値検索装置１００は、単位を含めた数値部分を特定することができ、単位を考慮して数値部分を比較しやすくなる。

また、形態素・字句解析部４１０は、分割した複数の形態素から、予め定められた特性名、材料名、化学式および組成のいずれかを特徴部分と特定してもよい。形態素・字句解析部４１０は、化学式および組成のいずれかに数値範囲または数式を含めて特徴部分と特定してもよい。これにより、数値検索装置１００は、様々な種類の特徴部分と数値部分との関連付けが可能となる。

さらに、出力部６００は、データベース部５００に格納されている数値データのうち、特徴部分が同じ数値データの第１の数値範囲と、第２の数値範囲とを比較し、第１の数値範囲と第２の数値範囲とが重なった部分を第１の幅として求め、第１の数値範囲の幅と第２の数値範囲の幅とのうち小さい方の幅を第２の幅とし、第１の幅を第２の幅で割った値を類似度として検索結果を出力してもよい。これにより、数値検索装置１００は、数値範囲同士の重なり具合を数値化することができる。

また、出力部６００は、データベース部５００に格納されている数値データのうち、特徴部分が同じ数値データの第１の数値範囲と、第２の数値範囲とを比較し、第１の数値範囲の幅で、第２の数値範囲の幅を割った値の対数を範囲指数として検索結果を出力してもよい。これにより、数値検索装置１００は、数値範囲の広がり具合を数値化して比較することができる。

数値検索装置１００において、文献に含まれる数値に関する数値データを検索する数値検索方法は、複数の文献を収集するステップと、収集した文献から数値データを抽出するステップと、抽出した数値データと、当該数値データを抽出した文献の文献データとを関連付けてデータベース部５００に格納するステップと、入力された検索式に基づく検索結果をデータベース部５００から出力するステップとを含む。数値データを抽出するステップは、収集した文献のテキストデータを複数の形態素に分割するステップと、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定するステップとを含む。数値データを抽出するステップは、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定するステップを含む。数値データを抽出するステップは、特徴部分と数値部分との関連の判定から除外する条件を予め設定するステップと、関連すると判定された特徴部分と数値部分とを数値データとして抽出するステップとを含む。

数値検索装置１００において実行される数値検索プログラムは、複数の文献を収集する文献収集処理と、収集した文献から数値データを抽出するデータ抽出処理と、抽出した数値データと、当該数値データを抽出した文献の文献データとを関連付けてデータベース部５００に格納するデータベース処理と、入力された検索式に基づく検索結果をデータベース部５００から出力する出力処理とを含む。データ抽出処理は、収集した文献のテキストデータを複数の形態素に分割する形態素解析処理と、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する字句解析処理とを含む。データ抽出処理は、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定する関連解析処理を含む。データ抽出処理は、特徴部分と数値部分との関連の判定から除外する条件を予め設定する除外設定処理と、関連すると判定された特徴部分と数値部分とを数値データとして抽出する抽出処理とを含む。

［実施の形態２］
本実施の形態１では、出力部６００が特許文献Ａ，Ｂの類似度および範囲指数を円でプロットしたグラフを検索結果として出力することを説明した。本実施の形態２では、出力部６００が他の種類のグラフを検索結果として出力することを説明する。図１７は、本実施の形態２に係る数値検索装置の出力部から出力される検索結果の一例を示す図である。なお、図１７に示す検索結果を出力する数値検索装置および出力部の構成は、本実施の形態１で説明した数値検索装置１００および出力部６００の構成と同じである。

図１７に示す検索結果（グラフ）では、特許文献の間での組成や特性の類似性を可視化することができる。図１７に示すグラフでは、横軸を自社特許文献とし、縦軸を他社特許文献としている。当該グラフでは、自社特許文献の組成に対して類似度の大きい組成が記載された他社特許文献を、範囲指数で分類している。当該グラフでも、類似度が大きいほどプロットしている円の直径ｄが大きい。また、当該グラフでは、範囲指数に応じてプロットしている円の色を変更している。図１７では、円の色を表現するためハッチングのパターンを変更している。具体的に、斜線パターンのハッチングは、プロットしている円の範囲指数が正値であることを表し、ドットパターンのハッチングは、プロットしている円の範囲指数が負値であることを表している。

図１７に示すグラフでは、範囲指数の観点から自社と他社とが同じような技術を扱っていることや、特殊な技術を扱っていることなどを推測することが可能である。そのため、当該グラフから、効率的に開発に必要な特許を絞り込むことができる。

さらに、図１８は、本実施の形態２に係る数値検索装置の出力部から出力される検索結果の別の一例を示す図である。なお、図１８に示す検索結果を出力する数値検索装置および出力部の構成は、本実施の形態１で説明した数値検索装置１００および出力部６００の構成と同じである。

図１８に示す検索結果（グラフ）では、特許文献から組成値、特性値の中から二つ値を選び、それぞれの数値範囲をプロットする。図１８に示すグラフでは、横軸をグレイン径とし、縦軸を希土類添加量としている。つまり、当該グラフでは、グレイン径の数値範囲が広く、希土類添加量の数値範囲が広い場合、広い領域のプロットが表示される。さらに、当該グラフでは、プロット色や色の濃さによりメーカや出願時期を表現している。図１８では、プロットの色や色の濃さを表現するためハッチングのパターンを変更している。具体的に、プロットＡ１，Ａ２，Ａ３は同じパターンのハッチングでメーカがＡ社であることを表現し、プロットＡ１，Ａ２，Ａ３のハッチングのパターン間隔で出願時期を表現している。例えば、ハッチングのパターン間隔が狭いプロットＡ１の方が他のプロットに比べて出願時期が遅い。

同様に、プロットＢ１，Ｂ２，Ｂ３は同じパターンのハッチングでメーカがＢ社であることを表現し、プロットＢ１，Ｂ２，Ｂ３のハッチングのパターン間隔で出願時期を表現している。例えば、ハッチングのパターン間隔が狭いプロットＢ１の方が他のプロットに比べて出願時期が遅い。プロットＣ１，Ｃ２，Ｃ３は同じパターンのハッチングでメーカがＣ社であることを表現し、プロットＣ１，Ｃ２，Ｃ３のハッチングのパターン間隔で出願時期を表現している。例えば、ハッチングのパターン間隔が狭いプロットＣ１の方が他のプロットに比べて出願時期が遅い。

図１８に示すグラフでは、各メーカの技術動向について様々な観点で可視化でき、容易に比較することができる。

また、図１９は、本実施の形態２に係る数値検索装置の出力部から出力される検索結果のさらに別の一例を示す図である。なお、図１９に示す検索結果を出力する数値検索装置および出力部の構成は、本実施の形態１で説明した数値検索装置１００および出力部６００の構成と同じである。

図１９に示す検索結果（グラフ）では、化学物質、材料、成分などについて、各特許文献で主張している数値範囲を可視化することができる。図１９に示すグラフでは、横軸をｍｏｌ％とし、縦軸を文献数としている。当該グラフでは、Ｂａ、Ｃａ、Ｔｉのそれぞれの物質について、主張している数値範囲を横軸で示し、その数値範囲の文献が何件あるかを縦軸で示している。

図１９に示すグラフでは、化学物質、材料、成分など別に数値範囲を示すため、特許網を構築する際の抜け漏れを防止することができる。また、当該グラフでは、特許文献において数値範囲として記載されていない希少な組成を視覚的に把握することができる。

［変形例］
（１）前述の実施の形態では、特許データベース２００から特許文献を収集して、収集した特許文献から特徴部分と数値部分を関連付けた数値データを抽出する構成について説明した。しかし、これに限定されず、特許データベース２００以外の文献データベース（例えば、学術論文データベース）から文献を収集して、当該文献から特徴部分と数値部分を関連付けた数値データを抽出する構成であってもよい。また、複数種類のデータベース（例えば、特許データベースおよび学術論文データベース）から文献を収集して、当該文献から特徴部分と数値部分を関連付けた数値データを抽出する構成であってもよい。

（２）前述の実施の形態では、特許文献Ａ，Ｂ間の類似度は、特許文献Ａ，Ｂのそれぞれに含まれる数値データ同士を比較し、それぞれの類似度を計算して合計した値であると説明したが、これに限定されない。例えば、特許文献Ａ，Ｂ間の類似度は、計算した複数の類似度の平均値または最頻値などでもよい。

（３）前述の実施の形態では、特許文献Ａ，Ｂ間の範囲指数は、特許文献Ａ，Ｂのそれぞれに含まれる数値データ同士を比較し、それぞれの範囲指数を計算して求めた値のうちで最も多く現れる値（最頻値）とすると説明したが、これに限定されない。例えば、特許文献Ａ，Ｂ間の範囲指数は、計算した複数の範囲指数の平均値または合計値などでもよい。

（４）前述で説明した各種処理は、１つのＣＰＵによって実現されるものとしてあるが、これに限られない。これらの各種処理は、複数のＣＰＵによって分散して実現されてもよい。これらＣＰＵで実行されるプログラムは、有形の読取可能な少なくとも１つの媒体から、１以上の命令を読み出すことにより前述の各種処理を実行しうる。

このような媒体は、磁気媒体（たとえば、ハードディスク）、光学媒体（例えば、コンパクトディスク（ＣＤ，ＤＶＤ）、揮発性メモリ、不揮発性メモリの任意のタイプのメモリなどの形態をとるが、これらの形態に限定されるものではない。

揮発性メモリはＤＲＡＭ（Dynamic Random Access Memory）およびＳＲＡＭ（Static Random Access Memory）を含み得る。不揮発性メモリは、ＲＯＭ、ＮＶＲＡＭを含み得る。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した説明ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１００数値検索装置、２００特許データベース、３００収集部、３２０中間ファイル、４００データ抽出部、４１０形態素・字句解析部、４１２形態素解析部、４３０関連解析部、４５０除外設定部、４７０抽出部、５００データベース部、６００出力部。

Claims

文献に含まれる数値に関する数値データを検索する数値検索装置であって、
複数の文献を収集する文献収集部と、
前記文献収集部で収集した文献から前記数値データを抽出するデータ抽出部と、
前記データ抽出部で抽出した前記数値データと、当該数値データを抽出した文献の文献データとを関連付けて格納するデータベース部と、
入力された検索式に基づく検索結果を前記データベース部から出力する出力部とを備え、
前記データ抽出部は、
収集した文献のテキストデータを複数の形態素に分割する形態素解析部と、
前記形態素解析部で分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する字句解析部と、
前記字句解析部で特定した前記特徴部分と前記数値部分との間に、関連を示す予め定められた形態素を含み、前記特徴部分と前記数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、前記特徴部分と前記数値部分とが関連すると判定する関連解析部と、
前記関連解析部において、前記特徴部分と前記数値部分との関連の判定から除外する条件を予め設定する除外設定部と、
前記関連解析部で関連すると判定された前記特徴部分と前記数値部分とを前記数値データとして抽出する抽出部とを含む、数値検索装置。
前記関連解析部は、前記除外設定部で予め設定された条件を１つの形態素として圧縮して、前記特徴部分と前記数値部分との間に含まれる形態素の数をカウントする、請求項１に記載の数値検索装置。
前記字句解析部は、前記形態素解析部で分割した複数の形態素のうちに１つの数値が含まれている場合、当該数値に予め定められた数値範囲を付与して前記数値部分と特定する、請求項１または請求項２に記載の数値検索装置。
前記字句解析部は、前記形態素解析部で分割した複数の形態素のうちに複数の数値と、範囲を示す予め定められた形態素とが含まれている場合、当該複数の数値に基づく数値範囲を前記数値部分と特定する、請求項１～請求項３のいずれか１項に記載の数値検索装置。
前記字句解析部は、前記形態素解析部で分割した複数の形態素のうちに単位が含まれている場合、当該単位と数値とを１つの前記数値部分と特定する、請求項１～請求項４のいずれか１項に記載の数値検索装置。
前記字句解析部は、前記形態素解析部で分割した複数の形態素から、予め定められた特性名、材料名、化学式および組成のいずれかを前記特徴部分と特定する、請求項１～請求項５のいずれか１項に記載の数値検索装置。
前記字句解析部は、前記化学式および前記組成のいずれかに数値範囲または数式を含めて前記特徴部分と特定する、請求項６に記載の数値検索装置。
前記出力部は、
前記データベース部に格納されている前記数値データのうち、前記特徴部分が同じ前記数値データの第１の数値範囲と、第２の数値範囲とを比較し、前記第１の数値範囲と前記第２の数値範囲とが重なった部分を第１の幅として求め、
前記第１の数値範囲の幅と前記第２の数値範囲の幅とのうち小さい方の幅を第２の幅とし、前記第１の幅を前記第２の幅で割った値を類似度として前記検索結果を出力する、請求項３または請求項４に記載の数値検索装置。
前記出力部は、
前記データベース部に格納されている前記数値データのうち、前記特徴部分が同じ前記数値データの第１の数値範囲と、第２の数値範囲とを比較し、前記第１の数値範囲の幅で、前記第２の数値範囲の幅を割った値の対数を範囲指数として前記検索結果を出力する、請求項３または請求項４に記載の数値検索装置。
数値検索装置において、文献に含まれる数値に関する数値データを検索する数値検索方法であって、
複数の文献を収集するステップと、
収集した文献から前記数値データを抽出するステップと、
抽出した前記数値データと、当該数値データを抽出した文献の文献データとを関連付けてデータベース部に格納するステップと、
入力された検索式に基づく検索結果を前記データベース部から出力するステップをと含み、
前記数値データを抽出するステップは、
収集した文献のテキストデータを複数の形態素に分割するステップと、
分割した複数の形態素から予め定められた特徴部分と数値部分とを特定するステップと、
特定した前記特徴部分と前記数値部分との間に、関連を示す予め定められた形態素を含み、前記特徴部分と前記数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、前記特徴部分と前記数値部分とが関連すると判定するステップと、
前記特徴部分と前記数値部分との関連の判定から除外する条件を予め設定するステップと、
関連すると判定された前記特徴部分と前記数値部分とを前記数値データとして抽出するステップとを含む、数値検索方法。
数値検索装置において実行される数値検索プログラムであって、
複数の文献を収集する文献収集処理と、
収集した文献から数値データを抽出するデータ抽出処理と、
抽出した前記数値データと、当該数値データを抽出した文献の文献データとを関連付けてデータベース部に格納するデータベース処理と、
入力された検索式に基づく検索結果を前記データベース部から出力する出力処理とを含み、
前記データ抽出処理は、
収集した文献のテキストデータを複数の形態素に分割する形態素解析処理と、
分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する字句解析処理と、
特定した前記特徴部分と前記数値部分との間に、関連を示す予め定められた形態素を含み、前記特徴部分と前記数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、前記特徴部分と前記数値部分とが関連すると判定する関連解析処理と、
前記特徴部分と前記数値部分との関連の判定から除外する条件を予め設定する除外設定処理と、
関連すると判定された前記特徴部分と前記数値部分とを前記数値データとして抽出する抽出処理とを含む、数値検索プログラム。