以下、本開示の実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰り返さない。
[実施の形態1]
図1は、本実施の形態1に係る数値検索装置100の一例の概略図である。数値検索装置100では、ユーザが検索式を入力すると、当該検索式にあった対象特許を特許データベース200から収集し、当該検索式に基づく検索結果をユーザに出力する。具体的に、MLCC(Multilayer Ceramic Chip Capacitor)やLTCC(Low Temperature Co-fired Ceramics)などの開発において、BaCO3を1.2mol使用した材料の開発を行う場合に、数値検索装置100に検索式として「BaCO3、1.2mol」を入力し、BaCO3を1.2mol使用した文献を検索結果として出力する。
しかし、単に特許データベース200から「BaCO3」と「1.2mol」とを含む文献を検索するだけでは、BaCO3を1.2mol使用した材料について記載した文献以外の文献も検索結果に含まれてしまう。そのため、特許データベース200から収集した文献から化学式である「BaCO3」と数値である「1.2mol」とを関連付けて抽出し、データベース化した上で検索を行う必要がある。なお、検索式には、後述するようにBaCO3を主成分とするMLCCの文献同士を比較して、数値範囲の類似度などを評価したグラフを検索結果として出力するような検索を含んでもよい。
本実施の形態1に係る数値検索装置100では、特許データベース200から対象特許文献の収集し、当該文献から化学式、材料、特性などの特徴部分と、数値または数値範囲などの数値部分とを関連付けて数値データとして抽出し、データベースに格納して検索に利用している。以下、文献から特徴部分と数値部分とを関連付けて数値データとして抽出する技術を含む数値検索処理について説明する。
まず、数値検索装置100のハードウェア構成について詳しく説明する。図2は、本実施の形態1に係る数値検索装置100の構成を説明するためのブロック図である。数値検索装置100は、オペレーティングシステム(OS:Operating System)を含む各種プログラムを実行するCPU101と、CPU101でのプログラムの実行に必要なデータを一時的に記憶するメモリ部112と、CPU101で実行されるプログラムを不揮発的に記憶するハードディスク部(HDD:Hard Disk Drive)110とを含む。
また、ハードディスク部110には、後述するような数値検索処理を実現するためのプログラムが予め記憶されており、このようなプログラムは、光学ドライブ114などによって、それぞれCD-ROM(Compact Disk-Read Only Memory)などの記憶媒体114aから読み取られる。
CPU101は、キーボードやマウスなどからなる入力部108を介してユーザなどからの検索式を受取るとともに、プログラムの実行によって検索された検索結果などを、ディスプレイ部104へ出力する。各部は、バス102を介して互いに接続される。また、インターフェイス部106は、特許データベース200などに接続されている。なお、数値検索装置100と特許データベース200との接続は、有線で接続されても無線で接続されてもよい。
次に、数値検索装置100で実行される数値検索処理について具体的に説明する。図3は、本実施の形態1に係る数値検索装置100での数値検索処理を説明するための機能ブロック図である。数値検索装置100は、数値検索処理を実行するために収集部300、データ抽出部400、データベース部500、および出力部600の機能を備えている。収集部300は、特許データベース200から対象特許を収集する。データ抽出部400は、収集した対象特許から、特徴部分と数値部分とを関連付けた数値データを抽出する。データベース部500は、データ抽出部400で抽出した数値データを、抽出した文献の文献データと関連付けて格納する。出力部600は、入力された検索式に基づく検索結果を出力する。
さらに、収集部300について詳しく説明する。図4は、本実施の形態1に係る数値検索装置100での収集部300の処理を説明するための機能ブロック図である。収集部300では、ユーザが対象とする特許文献(例えば、BaCO3を主成分とするMLCCの文献)を特許データベース200から全文をダウンロード301する。例えば、ユーザが、特許データベース200で「BaCO3」を含むMLCCの特許文献を検索し、検索結果の特許文献を収集部300が全文ダウンロードする。ダウンロードした文献には、「.xml」、「.htm」、「.csv」などの形式のデータが含まれている。データ抽出部400では、テキストデータを処理するため、収集部300は、特許データベース200からダウンロードした特許文献のデータをテキストデータに変換している。
具体的に、収集部300は、「.xml」形式のデータをテキストデータに変換する処理を「.xmlの変換」302で行う。また、収集部300は、「.htm」形式のデータをテキストデータに変換する処理を「.htmの変換」303で行う。さらに、収集部300は、「.csv」形式のデータをテキストデータに変換する処理を「.csvの変換」304で行う。
収集部300は、「.xmlの変換」302、「.htmの変換」303および「.csvの変換」304で変換した特許文献のテキストデータを比較して、重複している特許文献のデータを削除する(重複データの削除305)。収集部300は、重複データの削除305を行った特許文献のテキストデータを中間ファイル320として出力する。
一方、特許データベース200から特許文献のデータをダウンロードするのではなく、予め複数の特許文献のデータを含むファイルを用意しておき、収集部300は、当該ファイルを読み込み310、特許文献のデータを収集することもできる。ファイルから読み込んだ特許文献のデータには、「.docx」、「テキスト」などの形式のデータが含まれている。収集部300は、「.docx」形式のデータをテキストデータに変換する処理を「.docxの変換」311で行う。ファイルに含まれる特許文献のデータには、重複した特許文献のデータが含まれていないので、収集部300は、「.docxの変換」311で変換した特許文献のテキストデータと、ファイルに含まれている特許文献のテキストデータとを中間ファイル320として出力する。
次に、収集部300で収集した特許文献のテキストデータから、特徴部分と数値部分とを関連付けた数値データを抽出するデータ抽出部400について説明する。図5は、本実施の形態1に係る数値検索装置100のデータ抽出部400での処理を説明するための機能ブロック図である。データ抽出部400は、特許文献のテキストデータから特徴部分および数値部分を解析する形態素・字句解析部410と、特徴部分と数値部分とを関連付ける関連解析部430とを備えている。さらに、データ抽出部400は、関連解析部430での処理において関連付けを除外する条件を予め設定しておく除外設定部450と、関連解析部430で関連付けた数値データを抽出する抽出部470とを備えている。
形態素・字句解析部410での処理についてさらに詳しく説明する。図6は、本実施の形態1に係る数値検索装置100の形態素・字句解析部410での処理を説明するための機能ブロック図である。形態素・字句解析部410は、収集部300から出力された中間ファイル320を読み込み411、当該中間ファイル320から特許文献のテキストデータを取り込み、形態素解析部412で取り込んだ特許文献のテキストデータを処理する。
形態素解析部412では、予め定められた言語の文法、辞書の情報(例えば、単語の品詞などの情報)にもとづき、取り込んだ特許文献のテキストデータを形態素の列に分割し、それぞれの形態素に対して品詞などの解析を行う。
形態素解析部412で形態素の列に分割した特許文献のテキストデータから、プッシュダウンオートマトン(PDA:Push down Automaton)により特徴部分および数値部分を特定する字句解析を行う。なお、字句解析として、プッシュダウンオートマトンに限らず、有限オートマトンや、さらに複雑なオートマトンであってもよい。
具体的に、特性名帰属PDA413では、予め定められた特性名(例えば、分散剤、厚み、抵抗値など)に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「feature」とラベリングして1つの字句として扱う。材料名帰属PDA414では、予め定められた材料名(例えば、ネオジム、酸化チタン、炭酸バリウムなど)に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「material」とラベリングして1つの字句として扱う。
また、単位帰属PDA415では、予め定められた単位(例えば、g、mol、nmなど)に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「unit」とラベリングして1つの字句として扱う。数値帰属PDA416では、予め定められた数値(例えば、アラビア数字、漢数字、ローマ数字など)に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「amount」とラベリングして1つの字句として扱う。なお、単位帰属PDA415で特定した「unit」の字句と、数値帰属PDA416で特定した「amount」の字句とが近傍(例えば、予め定められた形態素の数の範囲内)に存在している場合、数値帰属PDA416は、「unit」の字句と「amount」の字句とを1つの「amount」の字句として扱う。
また、数値帰属PDA416では、複数の形態素のうちに1つの数値が含まれている場合、当該数値に予め定められた数値範囲(例えば、当該数値の±1%の範囲)を付与して1つの「amount」の字句として扱ってもよい。これにより、数値同士を比較する際に、数値に幅を持った数値範囲同士の比較となり、比較が容易となる。さらに、数値帰属PDA416では、複数の形態素のうちに複数の数値と、範囲を示す予め定められた形態素(例えば、「~」)とが含まれている場合、当該複数の数値に基づく数値範囲を1つの「range」の字句として扱ってもよい。もちろん、数値であっても数値範囲であっても、区別せずに1つの「amount」の字句として扱ってもよい。
数式帰属PDA417では、予め定められた数式(例えば、x、1-x、0<x≦1など)に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「formula」とラベリングして1つの字句として扱う。化学式帰属・組成復元PDA418では、予め定められた化学式や組成(例えば、Ca、TiO2、BaCO3など)に対応する字句を形態素の列からプッシュダウンオートマトンで特定して、「material」とラベリングして1つの字句として扱う。
数値帰属PDA416で特定した「amount」の字句と、数式帰属PDA417で特定した「formula」の字句と、化学式帰属・組成復元PDA418で特定した「material」とが近傍に存在している場合、化学式帰属・組成復元PDA418は、「amount」の字句と「formula」の字句と「material」の字句とを1つの「material」の字句として扱う。具体的に、「Ba1-xCaxTiO3(0<x≦1)」なる字句を解析する場合、「amount」の字句として「3」、「formula」の字句として「x」、「1-x」、「0<x≦1」、「material」の字句として「Ba」、「Ca」、「TiO」とそれぞれ解析する。それらの字句が近傍に存在しているので、化学式帰属・組成復元PDA418は、最終的に「Ba1-xCaxTiO3(0<x≦1)」なる字句を、1つの「material」の字句として扱う。
形態素・字句解析部410では、「material」または「feature」とラベリングされた字句を特徴部分に分類し、「amount」または「range」とラベリングされた字句を数値部分に分類している。
次に、具体例を示して形態素・字句解析部410での処理について説明する。図7は、本実施の形態1に係る数値検索装置100の形態素・字句解析部410での処理の一例を説明するための概念図である。取り込んだ特許文献のテキストデータに「TiO2を主成分として1.20g使用した。」との文章420が含まれている場合、まず形態素解析部412で当該文章420を形態素の列に分割する。
形態素解析部412は、文章420を形態素の列に分割して、複数の形態素を含む列データ421を出力する。列データ421には、「TiO」、「2」、「を」、「主成分」、「と」、「し」、「て」、「1」、「.」、「20」、「g」、「使用」、「し」、「た」、「。」の形態素を含んでいる。
字句解析では、列データ421に含まれる形態素のうち、「TiO」の形態素421aを「material」の字句として特定し、「2」の形態素421bを「amount」の字句として特定する。さらに、字句解析では、「TiO」の形態素421aと「2」の形態素421bとが近傍に存在しているので、「TiO2」を1つの「material」の字句422として扱う。
また、字句解析では、列データ421に含まれる形態素のうち、「1」の形態素421c、「.」の形態素421d、「20」の形態素421eを「amount」の字句として特定し、「g」の形態素421fを「unit」の字句として特定する。さらに、字句解析では、「1」の形態素421c、「.」の形態素421d、「20」の形態素421eと、「g」の形態素421fとが近傍に存在しているので、「1.20g」を1つの「amount」の字句423として扱う。
図8は、本実施の形態1に係る数値検索装置100の形態素・字句解析部410での処理の別の一例を説明するための概念図である。取り込んだ特許文献のテキストデータに「TiO2を主成分として1.20g~1.50g使用した。」との文章420aが含まれている場合、まず形態素解析部412で当該文章420aを形態素の列に分割する。
形態素解析部412は、文章420aを形態素の列に分割して、複数の形態素を含む列データ421Aを出力する。列データ421Aには、「TiO」、「2」、「を」、「主成分」、「と」、「し」、「て」、「1」、「.」、「20」、「g」、「~」、「1」、「.」、「50」、「g」、「使用」、「し」、「た」、「。」の形態素を含んでいる。
字句解析では、列データ421Aに含まれる形態素のうち、「TiO」の形態素421aを「material」の字句として特定し、「2」の形態素421bを「amount」の字句として特定する。さらに、字句解析では、「TiO」の形態素421aと「2」の形態素421bとが近傍に存在しているので、「TiO2」を1つの「material」の字句422として扱う。
また、字句解析では、列データ421Aに含まれる形態素のうち、「1」の形態素421c、「.」の形態素421d、「20」の形態素421eを「amount」の字句として特定し、「g」の形態素421fを「unit」の字句として特定する。同様に、字句解析では、列データ421Aに含まれる形態素のうち、「1」の形態素421h、「.」の形態素421i、「50」の形態素421jを「amount」の字句として特定し、「g」の形態素421kを「unit」の字句として特定する。さらに、字句解析では、「g」の形態素421fと「1」の形態素421hとの間に、「~」のような範囲を示す予め定められた形態素421gが含まれているので、「1」の形態素421c~「g」の形態素421kを「1.20g~1.50g」とする1つの「range」の字句424として扱う。もちろん、字句解析では、「amount」と「range」とを区別せず、「range」の字句424を「amount」の字句として扱ってもよい。なお、範囲を示す予め定められた形態素としては、「~」以外に「から」、「まで」など形態素を設定することが可能である。
次に、関連解析部430は、形態素・字句解析部410において選択された特徴部分と数値部分とを関連付ける。図9は、本実施の形態1に係る数値検索装置100の関連解析部430での処理を説明するための機能ブロック図である。
図9に示す関連解析部430では、形態素の列からプッシュダウンオートマトンで「material」とラベリングされた材料の字句と「amount」とラベリングされた数値の字句とを特定して、関連付ける(材料+数値)抽出PDA431を有している。また、関連解析部430では、形態素の列からプッシュダウンオートマトンで「material」とラベリングされた材料の字句と「formula」とラベリングされた数式の字句とを特定して、関連付ける(材料+数式)抽出・組成復元PDA432を有している。さらに、関連解析部430では、形態素の列からプッシュダウンオートマトンで「feature」とラベリングされた材料の字句と「amount」とラベリングされた数値の字句とを特定して、関連付ける(特性+数値)抽出PDA433を有している。
具体例を示して関連解析部430での処理について説明する。図10は、本実施の形態1に係る数値検索装置100の関連解析部430での処理の一例を説明するための概念図である。関連解析部430は、形態素・字句解析部410で処理したデータに「TiO2」を1つとする「material」の字句422と、「1.20g」を1つとする「amount」の字句423とを含んでいる場合、字句422と字句423との間に「を」のような関連を示す予め定められた形態素425が含まれているか否かを判定する。なお、関連を示す予め定められた形態素425の一例として「を」を示したが、「材料Xが1.0g」の「が」、「1.0gの材料X」の「の」など、他に「として」、「:」などが関連を示す予め定められた形態素と考えられる。また、関連を示す予め定められた形態素425は、「を」などの単独の形態素だけに限られず、複数の形態素を組み合わせたものを含めてもよい。一例として「換算」と「で」の2つの形態素を組み合わせた「換算で」を含めてもよい。
関連解析部430は、字句422と字句423との間に形態素425が含まれている場合、字句422と字句423との間に含まれる形態素の数を求める。図10の例では、字句422と字句423との間に含まれる形態素の数は5個である。
関連解析部430は、字句422と字句423との間に含まれる形態素の数が予め定められた数(例えば、10個)以下であれば、求めた字句422と字句423との距離が近いとして、関連がある字句同士であると判定する。図10の例では、形態素の数が5個と予め定められた数以下のため、字句422と字句423とが関連があると判定している。なお、図10の例では、「material」の字句422と「amount」の字句423との関連を抽出するため、(材料+数値)抽出PDA431で処理される。
図9に戻って、抽出部470は、関連解析部430で関連がある判定された字句を関連付けた数値データとして抽出して、データベース部500に出力する。データベース部500では、抽出部470で抽出した数値データと、当該数値データを抽出した特許文献の文献データ(例えば、特許文献の書誌情報など)とを関連付けて格納する。図10の例では、抽出部470が、関連がある字句と判定した「TiO2を主成分として1.20g」を一つの関連する数値データ431として抽出する。数値データ431には、material=TiO2、amount=1.20gの情報が含まれることになる。
前述のように、関連解析部430は、字句と字句との間に含まれる形態素の数が予め定められた数以下か否かのみで、関連がある字句か否かを判定している。しかし、関連解析部430は、字句と字句との間に含まれる形態素の数のみで関連がある字句か否かを判定した場合、取り込んだ文書によっては全く関連のない字句を誤って関連があると判定する虞がある。
図11は、誤って関連がある字句と判定する一例を説明するための概念図である。取り込んだ特許文献のテキストデータに含まれる「TiO2を主成分100gに対して1.20g使用。」の文章420bに対して、形態素・字句解析部410での処理を行う。形態素・字句解析部410での処理の結果、文章420bには、「TiO2」を1つとする「material」の字句422と、「100g」を1つとする「amount」の字句426と、「1.20g」を1つとする「amount」の字句423とを含んでいると解析される。
関連解析部430は、字句422と字句426との間に「を」のような関連を示す予め定められた形態素425が含まれ、字句422と字句426との間に含まれる形態素の数が2個と予め定められた数以下であるので、関連がある字句と判定する。
抽出部470は、関連解析部430で関連がある字句と判定した「TiO2を主成分100g」を一つの関連する数値データ432として抽出する。数値データ432には、material=TiO2、amount=100gの情報が含まれることになる。
しかし、「TiO2を主成分100gに対して1.20g使用。」の文章420bでは、本来の意味から「TiO2」が「1.20g」使用することを関連させる必要がある。そのため、数値データ432のようにmaterial=TiO2とamount=100gとを関連付けた情報は誤った情報(NG)である。
そこで、本実施の形態に係る数値検索装置100では、図9に示すように関連解析部430で字句の関連を判定する際に、関連付けを除外する条件を予め設定しておく除外設定部450を備えている。つまり、関連解析部430では、字句と字句との間に含まれる形態素の数のみで関連がある字句か否かを判定するのではなく、除外設定部450に予め設定してある条件に当てはまる形態素を無視して字句の関連を判定する。
図12は、本実施の形態1に係る数値検索装置100の関連解析部430で除外設定部450の条件を考慮した処理の一例を説明するための概念図である。取り込んだ特許文献のテキストデータに含まれる「TiO2を主成分100gに対して1.20g使用。」の文章420b(図11参照)に対して、形態素・字句解析部410での処理を行う。形態素・字句解析部410での処理の結果、文章420bには、「TiO2」を1つとする「material」の字句422と、「100g」を1つとする「amount」の字句426と、「1.20g」を1つとする「amount」の字句423とを含んでいると解析される。
関連解析部430は、除外設定部450に予め設定してある条件に当てはまる形態素の有無を判定する。予め設定してある条件として、図12では「に対して」との形態素の列が文章420bに含まれているか否かを判定している。「に対して」の形態素の列が文章420bに含まれている場合、当該形態素の列の前にある「100g」の字句426を含めて除外対象451とする。つまり、関連解析部430は、除外設定部450に予め設定してある条件を考慮して、「100gに対して」の形態素の列を「ignore」とラベリングして1つの除外対象451として扱う。
関連解析部430は、「100g」の字句426を除外対象451に含めることで、字句422と字句423との間に「を」のような関連を示す予め定められた形態素425が含まれると判定される。そのため、関連解析部430は、字句422と字句423との間に含まれる形態素の数を求めることになる。ここで、「100gに対して」の形態素の列を1つの除外対象451として扱うことで、関連解析部430は、字句422と字句423との間に含まれる形態素の数を3個と予め定められた数以下であると判定することができ、字句422と字句423とが関連があると判定する。
その結果、抽出部470は、関連がある字句と判定した「TiO2を主成分100gに対して1.20g」を一つの関連する数値データ433として抽出する。数値データ433には、material=TiO2、amount=1.20gの情報が含まれることになる。そのため、抽出部470は、数値データ432のようにmaterial=TiO2とamount=100gとを関連付けた誤った情報を抽出してしまうことを回避することができる。
除外設定部450に予め設定してある関連付けを除外する条件について、さらに詳しく説明する。図13は、除外設定部450に予め設定してある関連付けを除外する条件の一例を説明するための概念図である。図13(a)では、前述したように「amount」の字句の後ろに「に対して」の形態素の列が続く場合、「100gに対して」の形態素の列を1つの除外対象451として扱うことが条件として示されている。
図13(b)では、「分散剤204の添加量は0.3g」の文書に対して形態素・字句解析部410での処理を行う一例が示されている。形態素・字句解析部410での処理の結果、当該文章には、「分散剤」を1つとする「feature」の字句と、「204」を1つとする「amount」の字句と、「0.3g」を1つとする「amount」の字句とを含んでいると解析される。そのため、関連解析部430は、除外設定部450に何も条件が設定されていなければ、「分散剤」の字句に近い「204」の字句を「分散剤」の字句を関連付けることになる。
しかし、「204」の字句は、「分散剤」の字句の符号に過ぎない。そのため、除外設定部450には、「feature」の字句の直後の「amount」の字句を「amount」の字句として特定せずに除外し、「feature」の字句と直後の「amount」の字句とを1つの「feature」の字句として扱うことが条件として設定される。
そこで、関連解析部430は、除外設定部450の当該条件を考慮して「分散剤204」を1つとする「feature」の字句452として扱った上で、「0.3g」の字句と関連付ける。
図13(c)では、「Nd添加量mが0.05を超える場合好ましくない」の文書に対して形態素・字句解析部410での処理を行う一例が示されている。形態素・字句解析部410での処理の結果、当該文章には、「Nd」を1つとする「material」の字句と、「0.05」を1つとする「amount」の字句とを含んでいると解析される。そのため、関連解析部430は、除外設定部450に何も条件が設定されていなければ、「Nd」の字句と「0.05」の字句とを関連付けることになる。
しかし、除外設定部450には、「ない」などの否定を表す字句(「NOT」とラベリングされる字句)が文書に含まれている場合には、「NOT」の字句の近傍に存在する「amount」の字句を「NOT」の字句とともに除外する条件が設定される。そのため、関連解析部430は、除外設定部450の当該条件を考慮して、図13(c)に示すように「0.05を超える場合好ましくない」との形態素の列を1つの除外対象453として扱う。
図13に示した条件は、除外設定部450に設定される関連付けを除外する条件の一例であって、他の条件を除外設定部450に設定してもよい。また、除外設定部450は、ユーザが設定する条件を適宜更新することができる。
図3に戻って、データベース部500は、収集部300で収集した特許文献よりデータ抽出部400で抽出した数値データを格納している。そして、出力部600は、ユーザが入力した検索式に基づいて、データベース部500に格納された数値データを検索し、その検索結果を出力する。ユーザが入力する検索式には、単純に「TiO2を主成分として1.20g使用した。」ことが記載されている文献を検索するなどが考えられる。この場合、出力部600は、データベース部500からmaterial=TiO2、amount=1.20gの情報が含む文献を検索し、その検索した文献のリストを検索結果として出力する。
しかし、出力部600に入力可能な検索式は前述のような単純な検索式に限られず、収集部300で収集した特許文献同士を比較して、評価した結果を検索結果として出力する検索式を入力することも可能である。
以下、特定の特許文献同士を比較して、特許文献に記載した数値の類似している程度について評価する検索式を出力部600に入力した場合の処理の一例を説明する。図14は、本実施の形態1に係る数値検索装置100の出力部600での処理を説明するためのフローチャートである。
出力部600は、データベース部500から特許文献ごとに数値データの読み込みを行う(ステップS601)。出力部600は、データベース部500から読み込んだ特許文献ごとに数値データの評価を行うため、総当たりでデータベース部500から2つの特許文献A,Bの組み合わせを選択する(ステップS602)。出力部600は、ステップS602で組み合わせた特許文献A,Bについて、特許文献Aより特許文献Bが新しいか否かの判断を行う(ステップS603)。
特許文献Aより特許文献Bが新しくない場合(ステップS603でNO)、出力部600は、ステップS602に処理を戻す。一方、特許文献Aより特許文献Bが新しい場合(ステップS603でYES)、出力部600は、特許文献A,B間の類似度を計算する(ステップS604)。
特許文献A,B間の類似度は、特許文献A,Bのそれぞれに含まれる数値データ同士を比較し、それぞれの類似度を計算して合計した値である。特許文献A,Bのそれぞれには、様々な材料や特性などの数値データが含まれている。出力部600は、特許文献A,Bのそれぞれに含まれる数値データのうち、材料や特性など特徴部分が同じで数値部分の単位が同じ数値データに対して類似度を計算する。なお、出力部600は、単位が異なっていても変換することで同じ単位となる場合は、単位が同じであるとして処理する。
類似度は、数値範囲の重なり具合を示す値である。出力部600は、類似度を求めるために、特徴部分が同じ特許文献Aの数値データの第1の数値範囲と、特許文献Bの第2の数値範囲とを比較し、第1の数値範囲と第2の数値範囲とが重なった部分を第1の幅として求める。さらに、出力部600は、第1の数値範囲の幅と第2の数値範囲の幅とのうち小さい方の幅を第2の幅とし、第1の幅を第2の幅で割った値を類似度として算出する。
図15は、類似度、範囲指数を説明するための概念図である。図15(a)では、類似度を概念的に示しており、特許文献Aの第1の数値範囲と特許文献Bの第2の数値範囲との重なり具合により類似度がどのように変化するのかについて示している。特許文献Aの第1の数値範囲が特許文献Bの第2の数値範囲に含まれていれば類似度が1となり、特許文献Aの第1の数値範囲と特許文献Bの第2の数値範囲とが重なっていなければ類似度が0となる。
例えば、特許文献Aの数値データが、material=TiO2、amount=1.20g、特許文献Bの数値データが、material=TiO2、amount(range)=1.20g~1.50gである場合について、類似度を計算する。まず、特許文献Aの数値データは、amount=1.20gであるが、予め定められた数値範囲(例えば、±1%の範囲)を付与されているので、amount=1.19g~1.21gとする。
出力部600は、特許文献Aの第1の数値範囲(1.19g~1.21g)と、特許文献Bの第2の数値範囲(1.20g~1.50g)とを比較し、第1の数値範囲と第2の数値範囲とが重なった部分を第1の幅(1.20g~1.21g=0.01)として求める。さらに、出力部600は、第1の数値範囲の幅(0.02)と第2の数値範囲の幅(0.3)とのうち小さい方の幅を第2の幅(0.02)とし、第1の幅(0.01)を第2の幅(0.02)で割った値=0.5を類似度として算出する。
出力部600は、特許文献A,Bのそれぞれに含まれる数値データの全てに対して前述のような類似度を計算し、それぞれの類似度を合計した値が特許文献A,Bの類似度であるとして算出する。
次に、出力部600は、特許文献A,B間の範囲指数を計算する(ステップS605)。ここで、範囲指数は、数値範囲の広がり具合を比較する値である。特許文献A,B間の範囲指数は、特許文献A,Bのそれぞれに含まれる数値データ同士を比較し、それぞれの範囲指数を計算して求めた値のうちで最も多く現れる値(最頻値)とする。出力部600は、特許文献A,Bのそれぞれに含まれる数値データのうち、材料や特性など特徴部分が同じで数値部分の単位が同じ数値データに対して範囲指数を計算する。なお、出力部600は、単位が異なっていても変換することで同じ単位となる場合は、単位が同じであるとして処理する。
出力部600は、数値範囲を求めるために、特徴部分が同じ特許文献Aの数値データの第1の数値範囲と、特許文献Bの第2の数値範囲とを比較し、第1の数値範囲の幅で、第2の数値範囲の幅を割った値の対数を範囲指数として算出する。つまり、範囲指数=log[(第2の数値範囲の幅)/(第1の数値範囲の幅)]である。
図15(b)では、範囲指数を概念的に示しており、特許文献Aの第1の数値範囲と特許文献Bの第2の数値範囲との広がり具合により範囲指数がどのように変化するのかを示している。特許文献Aの第1の数値範囲より特許文献Bの第2の数値範囲の方が数値範囲の広がりが大きければと範囲指数が正値となり、特許文献Aの第1の数値範囲より特許文献Bの第2の数値範囲の方が数値範囲の広がりが小さければと類似度が負値となる。つまり、範囲指数が正値の場合、例えば特許文献AのBaの使用量が3.3~3.8molの範囲であるのに対し、特許文献BのBaの使用量が1~10molの範囲である。そのため、特許文献Bでは、組成として一般的なものを用いており、組成以外、つまりプロセスなどに特徴があると推測することができる。逆に、特許文献AのBaの使用量が3.0~13.0molの範囲であるのに対し、特許文献BのBaの使用量が5.1~5.3molの範囲となる範囲指数が負値の場合、特許文献Bは、数値範囲に特徴があり、組成として特殊なものを用いていると推測することができる。
出力部600は、特許文献A,Bのそれぞれに含まれる数値データの全てに対して前述のような範囲指数を計算し、求めた範囲指数のうちの最頻値を特許文献A,Bの範囲指数として算出する。
出力部600は、ステップS604で計算した類似度をグラフにプロットする場合に類似度の大きさを円の直径で表現するため、類似度の値を円の直径dに換算する(ステップS606)。また、出力部600は、ステップS605で計算した範囲指数をグラフにプロットする場合に範囲指数の大きさを円の色で表現するため、範囲指数の値を円の色vに換算する(ステップS607)。この換算では、例えば指数範囲の値が-2以下の場合円の色を青に、指数範囲の値が0(ゼロ)の場合円の色を白に、指数範囲の値が2以上の場合円の色を赤にそれぞれ換算する。そして、指数範囲の値が-2~2に変化することに伴い、円の色も青-白-赤と連続的に変化するものとする。図15(c)では、類似度を円の直径d、範囲指数を円の色vとした場合にグラフにプロットされる円の一例を示している。図15(c)に示すように、類似度が大きい場合、直径dが大きな円となり、類似度が小さい場合、直径dが小さな円となる。範囲指数が正値の場合、色vが赤色側(つまり膨張色)となり、プロットする円が膨張するような感じの表現となる。範囲指数が負値の場合、色vが青色側(つまり収縮色)となり、プロットする円が収縮するような感じの表現となる。範囲指数が0(ゼロ)の場合、色vが白色となり、プロットする円が膨張や収縮せず中立な感じの表現となる。なお、図15(c)では、色vを表現するため青色側の円に対してドットパターンのハッチングを施し、赤色側の円に対して斜線パターンのハッチングを施している。
なお、出力部600から出力される結果において、類似度が大きく、範囲指数が0(ゼロ)の場合、特許文献Aの数値データと特許文献Bの数値データとの一致度が高いので、両文献で同じような技術を扱っていると類推できる。また、出力部600から出力される結果において、範囲指数が負値の場合、特許文献Aで扱っている技術に対して特許文献Bで扱っている技術の方が特殊であることが類推できる。
出力部600は、ステップS606,S607で換算した値に基づく円をグラフにプロットする(ステップS608)。図16は、本実施の形態1に係る数値検索装置100の出力部600から出力される検索結果の一例を示す図である。図16に示すグラフは、例えば、MLCCに関する特許文献に対して、図14に示すフローチャートでの処理を行った結果を示している。図16に示すグラフでは、横軸を特許文献A(先行特許)とし、縦軸を特許文献B(後発特許)としている。そのため、グラフの対角線上には、特許文献Aと特許文献Bとが同じ文献となる。また、図16に示すグラフでは、特許文献の出願人別にソートして表示されており、主要なA社~F社がどの程度出願しているかが確認できる。
図16に示すグラフを作成することで、特許文献間の組成や特性の類似度を可視化することが可能となる。図14に示すステップS603において特許文献B(後発特許)に対してのみ類似度および範囲指数を計算するため、当該グラフでは、特許文献B(後発特許)の類似度および範囲指数のみが円としてプロットされる。図16に示すグラフにプロットされる円は、図15(c)で説明したように類似度に応じて直径dが変化し、範囲指数に応じて色vが変化する。そのため、当該グラフから、特許文献Aに対する特許文献Bの類似度および範囲指数を一目で把握することができる。また、出願人別にソートされているので、当該グラフから、主要なA社~F社ごとの組成の変遷や注目すべき特許文献を把握することができる。特に、グラフにおいて縦列に目立ったプロットがある場合、様々な後発特許に関係した組成が記載された先行特許であることが分かる。なお、図16に示すグラフでは、MLCCに関する特許文献に対して数値検索処理を実行した検索結果の一例を示した。しかし、これに限られず、例えば、LTCC、ペースト、表面波フィルタ、全固体電池に関する特許文献、学術論文など組成、特性などが記載されている文献に対して前述の数値検索処理を実行し、その検索結果を同様にグラフで示すことができる。
以上のように、本実施の形態1に係る数値検索装置100は、文献に含まれる数値に関する数値データを検索する数値検索装置である。数値検索装置100は、複数の文献を収集する収集部300と、数値データを抽出するデータ抽出部400と、データベース部500と、出力部600とを備えている。データ抽出部400は、形態素・字句解析部410、関連解析部430、除外設定部450、抽出部470を含んでいる。形態素・字句解析部410は、収集した特許文献のテキストデータを複数の形態素に分割し、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する。関連解析部430は、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定する。除外設定部450は、関連解析部430において、特徴部分と数値部分との関連の判定から除外する条件を予め設定する。抽出部470は、関連解析部430で関連すると判定された特徴部分と数値部分とを数値データとして抽出する。これにより、本実施の形態1に係る数値検索装置100では、特徴部分と数値部分との関連の判定から除外する条件を予め設定してあるので、数値部分と特徴部分とを正しく関連付けて抽出することができる。
また、関連解析部430は、除外設定部450で予め設定された条件を1つの形態素として圧縮して、特徴部分と数値部分との間に含まれる形態素の数をカウントしてもよい。これにより、数値検索装置100は、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下と判断され、特徴部分と数値部分とを関連付け易くなる。
さらに、形態素・字句解析部410は、分割した複数の形態素のうちに1つの数値が含まれている場合、当該数値に予め定められた数値範囲を付与して数値部分と特定してもよい。これにより、数値検索装置100は、数値同士を比較する際に、数値に幅を持った数値範囲同士の比較となり、比較が容易となる。
また、形態素・字句解析部410は、分割した複数の形態素のうちに複数の数値と、範囲を示す予め定められた形態素とが含まれている場合、当該複数の数値に基づく数値範囲を数値部分と特定してもよい。これにより、数値検索装置100は、数値範囲を1つの数値部分として特定することができる。
さらに、形態素・字句解析部410は、分割した複数の形態素のうちに単位が含まれている場合、当該単位と数値とを1つの数値部分と特定してもよい。これにより、数値検索装置100は、単位を含めた数値部分を特定することができ、単位を考慮して数値部分を比較しやすくなる。
また、形態素・字句解析部410は、分割した複数の形態素から、予め定められた特性名、材料名、化学式および組成のいずれかを特徴部分と特定してもよい。形態素・字句解析部410は、化学式および組成のいずれかに数値範囲または数式を含めて特徴部分と特定してもよい。これにより、数値検索装置100は、様々な種類の特徴部分と数値部分との関連付けが可能となる。
さらに、出力部600は、データベース部500に格納されている数値データのうち、特徴部分が同じ数値データの第1の数値範囲と、第2の数値範囲とを比較し、第1の数値範囲と第2の数値範囲とが重なった部分を第1の幅として求め、第1の数値範囲の幅と第2の数値範囲の幅とのうち小さい方の幅を第2の幅とし、第1の幅を第2の幅で割った値を類似度として検索結果を出力してもよい。これにより、数値検索装置100は、数値範囲同士の重なり具合を数値化することができる。
また、出力部600は、データベース部500に格納されている数値データのうち、特徴部分が同じ数値データの第1の数値範囲と、第2の数値範囲とを比較し、第1の数値範囲の幅で、第2の数値範囲の幅を割った値の対数を範囲指数として検索結果を出力してもよい。これにより、数値検索装置100は、数値範囲の広がり具合を数値化して比較することができる。
数値検索装置100において、文献に含まれる数値に関する数値データを検索する数値検索方法は、複数の文献を収集するステップと、収集した文献から数値データを抽出するステップと、抽出した数値データと、当該数値データを抽出した文献の文献データとを関連付けてデータベース部500に格納するステップと、入力された検索式に基づく検索結果をデータベース部500から出力するステップとを含む。数値データを抽出するステップは、収集した文献のテキストデータを複数の形態素に分割するステップと、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定するステップとを含む。数値データを抽出するステップは、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定するステップを含む。数値データを抽出するステップは、特徴部分と数値部分との関連の判定から除外する条件を予め設定するステップと、関連すると判定された特徴部分と数値部分とを数値データとして抽出するステップとを含む。
数値検索装置100において実行される数値検索プログラムは、複数の文献を収集する文献収集処理と、収集した文献から数値データを抽出するデータ抽出処理と、抽出した数値データと、当該数値データを抽出した文献の文献データとを関連付けてデータベース部500に格納するデータベース処理と、入力された検索式に基づく検索結果をデータベース部500から出力する出力処理とを含む。データ抽出処理は、収集した文献のテキストデータを複数の形態素に分割する形態素解析処理と、分割した複数の形態素から予め定められた特徴部分と数値部分とを特定する字句解析処理とを含む。データ抽出処理は、特定した特徴部分と数値部分との間に、関連を示す予め定められた形態素を含み、特徴部分と数値部分との間に含まれる形態素の数が予め定められた数以下の場合に、特徴部分と数値部分とが関連すると判定する関連解析処理を含む。データ抽出処理は、特徴部分と数値部分との関連の判定から除外する条件を予め設定する除外設定処理と、関連すると判定された特徴部分と数値部分とを数値データとして抽出する抽出処理とを含む。
[実施の形態2]
本実施の形態1では、出力部600が特許文献A,Bの類似度および範囲指数を円でプロットしたグラフを検索結果として出力することを説明した。本実施の形態2では、出力部600が他の種類のグラフを検索結果として出力することを説明する。図17は、本実施の形態2に係る数値検索装置の出力部から出力される検索結果の一例を示す図である。なお、図17に示す検索結果を出力する数値検索装置および出力部の構成は、本実施の形態1で説明した数値検索装置100および出力部600の構成と同じである。
図17に示す検索結果(グラフ)では、特許文献の間での組成や特性の類似性を可視化することができる。図17に示すグラフでは、横軸を自社特許文献とし、縦軸を他社特許文献としている。当該グラフでは、自社特許文献の組成に対して類似度の大きい組成が記載された他社特許文献を、範囲指数で分類している。当該グラフでも、類似度が大きいほどプロットしている円の直径dが大きい。また、当該グラフでは、範囲指数に応じてプロットしている円の色を変更している。図17では、円の色を表現するためハッチングのパターンを変更している。具体的に、斜線パターンのハッチングは、プロットしている円の範囲指数が正値であることを表し、ドットパターンのハッチングは、プロットしている円の範囲指数が負値であることを表している。
図17に示すグラフでは、範囲指数の観点から自社と他社とが同じような技術を扱っていることや、特殊な技術を扱っていることなどを推測することが可能である。そのため、当該グラフから、効率的に開発に必要な特許を絞り込むことができる。
さらに、図18は、本実施の形態2に係る数値検索装置の出力部から出力される検索結果の別の一例を示す図である。なお、図18に示す検索結果を出力する数値検索装置および出力部の構成は、本実施の形態1で説明した数値検索装置100および出力部600の構成と同じである。
図18に示す検索結果(グラフ)では、特許文献から組成値、特性値の中から二つ値を選び、それぞれの数値範囲をプロットする。図18に示すグラフでは、横軸をグレイン径とし、縦軸を希土類添加量としている。つまり、当該グラフでは、グレイン径の数値範囲が広く、希土類添加量の数値範囲が広い場合、広い領域のプロットが表示される。さらに、当該グラフでは、プロット色や色の濃さによりメーカや出願時期を表現している。図18では、プロットの色や色の濃さを表現するためハッチングのパターンを変更している。具体的に、プロットA1,A2,A3は同じパターンのハッチングでメーカがA社であることを表現し、プロットA1,A2,A3のハッチングのパターン間隔で出願時期を表現している。例えば、ハッチングのパターン間隔が狭いプロットA1の方が他のプロットに比べて出願時期が遅い。
同様に、プロットB1,B2,B3は同じパターンのハッチングでメーカがB社であることを表現し、プロットB1,B2,B3のハッチングのパターン間隔で出願時期を表現している。例えば、ハッチングのパターン間隔が狭いプロットB1の方が他のプロットに比べて出願時期が遅い。プロットC1,C2,C3は同じパターンのハッチングでメーカがC社であることを表現し、プロットC1,C2,C3のハッチングのパターン間隔で出願時期を表現している。例えば、ハッチングのパターン間隔が狭いプロットC1の方が他のプロットに比べて出願時期が遅い。
図18に示すグラフでは、各メーカの技術動向について様々な観点で可視化でき、容易に比較することができる。
また、図19は、本実施の形態2に係る数値検索装置の出力部から出力される検索結果のさらに別の一例を示す図である。なお、図19に示す検索結果を出力する数値検索装置および出力部の構成は、本実施の形態1で説明した数値検索装置100および出力部600の構成と同じである。
図19に示す検索結果(グラフ)では、化学物質、材料、成分などについて、各特許文献で主張している数値範囲を可視化することができる。図19に示すグラフでは、横軸をmol%とし、縦軸を文献数としている。当該グラフでは、Ba、Ca、Tiのそれぞれの物質について、主張している数値範囲を横軸で示し、その数値範囲の文献が何件あるかを縦軸で示している。
図19に示すグラフでは、化学物質、材料、成分など別に数値範囲を示すため、特許網を構築する際の抜け漏れを防止することができる。また、当該グラフでは、特許文献において数値範囲として記載されていない希少な組成を視覚的に把握することができる。
[変形例]
(1) 前述の実施の形態では、特許データベース200から特許文献を収集して、収集した特許文献から特徴部分と数値部分を関連付けた数値データを抽出する構成について説明した。しかし、これに限定されず、特許データベース200以外の文献データベース(例えば、学術論文データベース)から文献を収集して、当該文献から特徴部分と数値部分を関連付けた数値データを抽出する構成であってもよい。また、複数種類のデータベース(例えば、特許データベースおよび学術論文データベース)から文献を収集して、当該文献から特徴部分と数値部分を関連付けた数値データを抽出する構成であってもよい。
(2) 前述の実施の形態では、特許文献A,B間の類似度は、特許文献A,Bのそれぞれに含まれる数値データ同士を比較し、それぞれの類似度を計算して合計した値であると説明したが、これに限定されない。例えば、特許文献A,B間の類似度は、計算した複数の類似度の平均値または最頻値などでもよい。
(3) 前述の実施の形態では、特許文献A,B間の範囲指数は、特許文献A,Bのそれぞれに含まれる数値データ同士を比較し、それぞれの範囲指数を計算して求めた値のうちで最も多く現れる値(最頻値)とすると説明したが、これに限定されない。例えば、特許文献A,B間の範囲指数は、計算した複数の範囲指数の平均値または合計値などでもよい。
(4) 前述で説明した各種処理は、1つのCPUによって実現されるものとしてあるが、これに限られない。これらの各種処理は、複数のCPUによって分散して実現されてもよい。これらCPUで実行されるプログラムは、有形の読取可能な少なくとも1つの媒体から、1以上の命令を読み出すことにより前述の各種処理を実行しうる。
このような媒体は、磁気媒体(たとえば、ハードディスク)、光学媒体(例えば、コンパクトディスク(CD,DVD)、揮発性メモリ、不揮発性メモリの任意のタイプのメモリなどの形態をとるが、これらの形態に限定されるものではない。
揮発性メモリはDRAM(Dynamic Random Access Memory)およびSRAM(Static Random Access Memory)を含み得る。不揮発性メモリは、ROM、NVRAMを含み得る。
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した説明ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。