以下、特許調査結果評価装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
本実施の形態において、特許調査結果情報に含まれている特許検索式と、その特許検索式を用いて取得した特許書類を関連特許と非関連特許とに人手で選別したが結果とが適切か否かを評価する特許調査結果評価装置1について説明する。
図1は、本実施の形態における特許調査結果評価装置1を含むシステムの概念図である。図1において、特許調査結果評価装置1と1または2以上のユーザ端末2とは、ネットワーク100を介して接続されている。ネットワーク100は、有線、または無線の通信回線であり、例えば、インターネットやイントラネット、LAN(Local Area Network)、公衆電話回線等である。また、ユーザ端末2は、ネットワーク100に接続可能な端末であれば何でも良い。例えば、ユーザ端末2は、デスクトップパソコン、ノートパソコン、スマートフォン、またはPDA等であっても良い。
特許調査結果評価装置1は、受付部101、特許調査結果情報格納部102、関連特許書類格納部103、非関連特許書類格納部104、検索式ルール格納部105、選別ルール格納部106、検索式評価部107、選別情報評価部108、評価構成部109、および評価出力部110を備える。
また、選別情報評価部108は、特徴ベクトル取得手段21、判断手段22、および選別評価結果取得手段23を備える。
受付部101は、特許調査結果情報を受け付ける。特許調査結果情報とは、特許調査の結果をまとめた情報である。なお、特許調査とは、ある技術やある発明等に関連した文献を人手で調査することである。特許調査結果情報は、特許調査時に使用した特許検索式と、特許書類を選別した結果に関する選別情報とを有する。特許調査結果情報に含まれる特許検索式は、選別対象を取得するために用いた1の特許検索式であっても良く、選別情報を取得するための最終的な特許検索式以外にも、特許検索式を構築する過程に作成した2以上の特許検索式であっても良い。選別対象とは、特許検索式で検索して取得した結果であり、調査対象の発明の内容と関連するか否かを調べる対象の特許書類のことである。選別情報とは、選別対象に対して、調査対象の発明の内容と関連するか否かを判断した結果の情報である。特許調査結果情報に含まれる選別情報は、1または2以上の関連特許書類を特定する情報を少なくとも含む情報である。関連特許書類とは、人手で行った特許調査における選別作業の結果、調査対象の発明に関連すると判断された特許書類である。関連特許書類を特定する情報は、例えば、特許書類そのものであっても良く、特許書類を一意に特定する特許書類IDであっても良い。特許書類IDは、具体的には、出願番号であっても良く、公開番号であっても良く、登録番号等であっても良い。なお、選別情報は、非関連特許書類を特定する情報を含んでいても良い。非関連特許書類とは、特許調査における選別作業の結果、調査対象の発明に関連しないと判断された特許書類である。非関連特許書類を特定する情報については、上記の説明の関連特許書類を非関連特許書類に読み替えることで同様とする。また、選別情報は、選別対象の特許書類の件数と関連特許書類の件数とを含んでも良い。なお、特許調査結果情報は、特許調査の目的を含んでも良い。特許調査の目的とは、特許調査を行う目的である。特許調査の目的は、例えば、「先行技術調査」、「侵害予防調査」、「無効化資料調査」等である。先行技術調査は、特許出願前に先行技術が存在するか否かを調査することをいう。侵害予防調査は、商品やサービスを市場に出す前に他者特許を侵害しているか否かを調査することをいう。無効化資料調査は、他者の登録特許を無効にするために調査することをいう。また、特許調査結果情報は、上記以外にも、後述する特許調査の対象の特許書類の種類を含んでも良く、後述する検索対象の期間を含んでも良く、後述する特許分類を含んでも良く、後述する検索フィールドを含んでも良く、また上記2以上の組合せを含んでも良い。特許調査の対象の特許書類の種類と検索対象の期間と特許分類とは、通常、特許調査結果情報に含まれている検索式に含まれている情報である。特許調査結果情報は、例えば、特許を調査した結果を書類にまとめた特許調査報告書等のような書類であっても良く、特許調査の際に作成した作業ログのような情報であっても良い。
特許検索式は、用語や特許分類等である要素を含み、データベース等に記憶されている特許書類を特定するために用いられる情報である。特許書類とは、特許庁に出願された特許等の出願書類等に関する情報である。特許検索式は、さらに2以上の要素を関係づけたり、要素を否定したりする論理演算子を含んでも良く、1または2以上の論理演算子と1または2以上の要素とを一つのブロックとして扱うための情報であるブロック区切り要素を含んでも良い。また、特許検索式は、特許調査の対象の特許書類の種類を含んでも良く、検索対象の期間を含んでも良く、検索フィールドを含んでも良い。特許書類の種類は、公開特許公報、特許公報、実用新案公開公報、実用新案登録公報、公表特許公報、公表実用新案公報、再公表特許公報、再公表実用新案公報等である。また、特許書類の発行国は、日本、米国、中国、欧州、韓国等、問わない。検索対象の期間は、検索対象の特許書類に付与される期日を含む期間である。例えば、検索対象の期間は、「1992.1.1〜2012.3.1」等である。検索対象の期間で指定する特許書類に付与される期日は、出願日であっても良く、公開日であっても良く、登録日等であっても良い。検索フィールドは、特許検索式中の用語を検索する対象である。例えば、「要約」、「特許請求の範囲」、「要約+特許請求の範囲」、または「全文」等である。なお、特許検索式のデータ構造、データ形式、および定義方法等は問わない。
要素は、用語であっても良く、特許分類であっても良く、後述するブロック要素であっても良い。特許分類は、特許書類を分類し、検索時に利用可能な情報であれば何でも良い。例えば、特許分類は、IPC、FI、Fターム、USクラス、ECLA等のコードのいずれかであっても良く、または、上記コードの一部分であっても良い。コードの一部分とは、例えば、IPCであればセクション、クラス、サブクラス、またはメイングループ等であっても良い。また、コードの一部分は、例えば、Fタームであれば、テーマコード、またはテーマコードと観点等のことであっても良い。
論理演算子は、例えばAND演算子であっても良く、OR演算子であっても良く、NOT演算子であっても良い。AND演算子とOR演算子とは、2以上の要素を関係づけたりする論理演算子である。例えば、AND演算子は、2つの要素の積集合を求める演算子である。OR演算子は、2つの要素の和集合を求める演算子である。例えば、NOT演算子は、要素を否定する演算子である。例えば、NOT演算子は、特定の要素の集合が含まない集合を求める演算子である。
ブロック区切り要素は、例えば、括弧であっても良く、グラフィカルユーザインタフェース上におけるテキストボックスであっても良い。ブロック区切り要素で区切られた領域をブロック要素とする。例えば、「(用語A OR 用語B) AND 用語C」の括弧で区切られた「(用語A OR 用語B)」は、ブロック要素であり、「(」と「)」とは、ブロック区切り要素である。
なお、受付部101は、受け付けた特許調査結果情報を特許調査結果情報格納部102に格納する。また、受付部101は、受け付けた特許調査結果情報に含まれる関連特許書類を特定する情報を用いて関連特許書類格納部103に関連特許書類を格納する。なお、受付部101は、関連特許書類を特定する情報が、関連特許書類そのものであれば、そのまま関連特許書類格納部103に格納するようにしても良い。また、受付部101は、関連特許書類を特定する情報が特許書類IDであれば、特許書類IDをキーとして、図示しない特許書類格納部から特許書類を取得して、関連特許書類格納部103に格納しても良く、または図示しないネットワークを介して外部の特許書類検索装置などから特許書類IDに対応した特許書類を取得して、関連特許書類格納部103に格納しても良い。なお、図示しない特許書類格納部、および外部の特許書類検索装置は、1以上の特許書類を格納している。また、関連特許書類格納部103に格納する特許書類の言語やデータ形式等は問わない。また、受付部101は、非関連特許書類格納部104に非関連特許書類を格納する。受付部101が受け付けた特許調査結果情報に非関連特許書類を特定する情報が含まれている場合は、上記の説明の関連特許書類を非関連特許書類、および関連特許書類格納部103を非関連特許書類格納部104に読み替えることで同様とする。受付部101が受け付けた特許調査結果情報に非関連特許書類を特定する情報が含まれていない場合は、受付部101は、特許調査結果情報に含まれる特許検索式を用いて選別対象の特許書類を取得し、取得した特許書類から関連特許書類を除いた特許書類を非関連特許書類として非関連特許書類格納部104に格納しても良い。なお、選別対象の特許書類を取得する方法は、特許検索式を用いて、図示しない特許書類格納部から特許書類を取得する方法でも良く、図示しないネットワークを介して外部の特許書類検索装置などから取得する方法でも良い。
また、受付部101は、評価出力部110が出力した後述する評価結果に応じて修正された特許調査結果情報をも受け付けても良い。受付部101は、通常、ネットワーク100を介してユーザ端末2から送信された、特許調査結果情報を特定する情報を受け付けるが、キーボードやマウス、タッチパネル等の入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリ等の記録媒体から読み出された情報の受け付けであっても良い。
特許調査結果情報格納部102には、1または2以上の特許検索式と特許の選別の結果に関する選別情報とを有する特許調査結果情報を格納し得る。ここで、格納とは、不揮発性の記録媒体による長期的な格納や、揮発性の記録媒体による一時的な格納も含む概念である。特許調査結果情報格納部102は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。特許調査結果情報格納部102に特許調査結果情報が格納される過程は問わない。通常、特許調査結果情報格納部102には、受付部101が受け付けた特許調査結果情報が格納されるが、例えば、記録媒体を介して特許調査結果情報が特許調査結果情報格納部102で格納されるようになっても良く、通信回線等を介して送信された特許調査結果情報が特許調査結果情報格納部102で格納されるようになっても良い。
関連特許書類格納部103には、特許調査における選別作業の結果、関連すると判断された関連特許の書類である1以上の関連特許書類を格納し得る。ここでの関連特許書類は、通常、特許調査における人手による選別作業の結果、関連すると判断された特許であるが、自動的に関連すると判断された特許書類でも良い。関連特許書類格納部103は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。関連特許書類格納部103に関連特許書類が格納される過程は問わない。通常、関連特許書類格納部103には、受付部101が取得した関連特許書類が格納されるが、例えば、記録媒体を介して関連特許書類が関連特許書類格納部103で格納されるようになっても良く、通信回線等を介して送信された関連特許書類が関連特許書類格納部103で格納されるようになっても良い。
非関連特許書類格納部104は、特許調査における選別作業の結果、関連しないと判断された非関連特許の書類である1以上の非関連特許書類を格納し得る。ここでの非関連特許書類は、通常、特許調査における人手による選別作業の結果、関連しないと判断された特許であるが、自動的に関連しないと判断された特許書類でも良い。非関連特許書類格納部104は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。非関連特許書類格納部104に非関連特許書類が格納される過程は問わない。通常、非関連特許書類格納部104には、受付部101が取得した非関連特許書類が格納されるが、例えば、記録媒体を介して非関連特許書類が非関連特許書類格納部104で格納されるようになっても良く、通信回線等を介して送信された非関連特許書類が非関連特許書類格納部104で格納されるようになっても良い。
検索式ルール格納部105には、1以上の特許検索式が不適切であることを判断するためのルールである1以上の検索式ルールを格納し得る。検索式ルールは、特許検索式に含まれ得る要素、特許調査の目的、検索フィールド、検索対象の期間、または上記の2以上の組み合わせが不適切であることを示すルールである。例えば、検索式ルールは、特許調査の目的と特許書類の種類とを含むルールであっても良く、検索対象の期間を含むルールであっても良く、特許分類と検索対象の期間とを含むルールであっても良く、特許調査の目的と検索対象の期間とを含むルールであっても良く、検索フィールドを含むルールであっても良く、特許調査の目的と検索フィールドとを含むルールであっても良く、特許分類と用語とを含むルールであっても良く、特許書類の絞り込みの能力が低い1または2以上の用語を含むルールであっても良く、選別対象の特許書類の件数と関連特許書類の件数とを用いたルールであっても良く、2以上の特許検索式を有するルールであっても良く、上記ルールが2以上組み合わされたルールであっても良い。絞り込みの能力が低い用語とは、多くの特許書類に出現し、特許書類を限定しにくい用語である。なお、絞り込みの能力が低い用語は、全ての分野において一定数以上の特許書類に出現する用語であっても良く、特定の分野においてのみ一定数以上の特許書類に出現する用語であっても良い。また、絞り込み能力の低い用語は、例えば、閾値よりも多くの特許書類に出現する用語であっても良く、閾値よりもIDF値が小さい用語であっても良い。なお、その閾値は、予め決められた値であっても良く、最も絞り込み能力の低い用語の出現する特許書類の件数に1より小さい数(例えば、0.9や0.8等)を掛けた値等であっても良く、最も絞り込み能力の低い用語のIDF値に1より大きい数(例えば、1.1や1.2等)を掛けた値等であっても良い。また、検索式ルール格納部105には、検索式ルールと対応付けて減点情報を格納し得るようにしても良い。減点情報は、検索式評価部107で特許検索式を評価する際に用いる情報であり詳細は後述する。なお、検索式ルールは、通常、特許検索式の内容が不適切であることを示すルールであるため、特許検索式の内容が適切であることを示すルールは、結果を反転させることで、不適切であることを示すルールとして使用しても良い。
以下、検索式ルール格納部105に格納され得る検索式ルールについて、例えば、(1)特許調査の目的と特許書類の種類とを含む検索式ルール、(2)検索対象の期間を含む検索式ルール、(3)特許分類と検索対象の期間とを含む検索式ルール、(4)特許調査の目的と検索対象の期間とを含む検索式ルール、(5)検索フィールドを含む検索式ルール、(6)特許調査の目的と検索フィールドとを含む検索式ルール、(7)特許分類と用語とを含む検索式ルール、(8)特許書類の絞り込みの能力が低い1以上の用語を含む検索式ルール、(9)選別対象の特許件数と関連特許の件数とを用いた検索式ルール、(10)2以上の特許検索式を有する検索式ルールがある。かかる検索式ルールについて、以下に詳細に説明する。
(1)特許調査の目的と特許書類の種類とを含む検索式ルール
特許調査の目的と特許書類の種類とを含む検索式ルールは、例えば、特許調査の目的と検索対象の特許書類の種類との組合せが不適切であることを規定するルールであっても良い。その検索式ルールは、さらに具体的には、特許調査の目的が「侵害予防調査」である場合で、かつ検索対象の特許書類の種類に「公開特許公報」等の公開系の特許書類が含まれていた場合に不適切であるとする検索式ルール等である。なお、この具体例は、「侵害予防調査」は、侵害の可能性を調査することが目的であるため、公開系の特許書類を検索対象に含めることは不適切であると考えられることから導き出せるルールである。
(2)検索対象の期間を含む検索式ルール
検索対象の期間を含む検索式ルールは、例えば、検索対象の期間が不適切であることを規定するルールであっても良い。その検索式ルールは、さらに具体的には、検索対象の期間に未来の日付を含んだ期間を指定した場合に不適切であるとする検索式ルール等である。なお、この具体例は、検索対象の期間に未来の日付を指定しても、特許検索式に合致する特許書類がないため、不適切であると考えられることから導き出せるルールである。
(3)特許分類と検索対象の期間とを含む検索式ルール
特許分類と検索対象の期間とを含む検索式ルールは、例えば、特許分類と検索対象の期間との組合せが不適切であることを規定するルールであっても良い。その検索式ルールは、さらに具体的には、検索対象の期間が、特許検索式に含まれる特許分類の発行日以前のみ、または廃止日以降のみを指定した場合に不適切であるとする検索式ルール等である。なお、この具体例は、特許分類の発行日以前、または廃止日以降を指定しても、特許検索式に合致する特許書類がないため、不適切であると考えられることから導き出せるルールである。
(4)特許調査の目的と検索対象の期間とを含む検索式ルール
特許調査の目的と検索対象の期間とを含む検索式ルールは、例えば、特許調査の目的と検索対象の期間との組合せが不適切であることを規定するルールであっても良い。その検索式ルールは、さらに具体的には、特許調査の目的が「侵害予防調査」である場合で、かつ検索対象の期間が特許権の存続期間が満了した特許書類を含めるように指定されていた場合に不適切であるとする検索式ルール等である。特許権の存続期間が満了した特許書類とは、例えば、出願後20年が経過した特許書類である。なお、この具体例は、「侵害予防調査」は、侵害の可能性を調査することが目的であるため、特許権の存続期間が満了した特許書類を検索対象の期間に指定するのは、不適切であると考えられることから導き出せるルールである。
(5)検索フィールドを含む検索式ルール
検索フィールドを含む検索式ルールは、例えば、検索フィールドが不適切であることを規定するルールであっても良い。その検索式ルールは、さらに具体的には、検索フィールドが「発明の名称」のみであった場合に不適切であるとする検索式ルール等である。なお、この具体例は、「発明の名称」のみでは、検索の際に取りこぼしが発生するため、不適切であると考えられることから導き出せるルールである。
(6)特許調査の目的と検索フィールドとを含む検索式ルール
特許調査の目的と検索フィールドとを含む検索式ルールは、例えば、特許調査の目的と検索フィールドとの組合せが不適切であることを規定するルールであっても良い。その検索式ルールは、さらに具体的には、特許調査の目的が「無効化資料調査」である場合で、かつ検索フィールドに「要約」が指定されていた場合に不適切であるとする検索式ルール等である。なお、この具体例は、「無効化資料調査」において、可能な限り多くの資料を調査する必要があるため、「全文」に対して検索しないのは不適切であると考えられることから導き出せるルールである。
(7)特許分類と用語とを含む検索式ルール
特許分類と用語とを含む検索式ルールは、例えば、特許分類と用語との組合せが不適切であることを規定するルールであっても良い。その検索式ルールは、さらに具体的には、特許分類が「IPC:G06F17/30」であり、用語に「データベース」が含まれている場合で、かつ特許分類と用語がAND演算子で関連づけられている場合に不適切であるとする検索式ルール等である。なお、この具体例は、「IPC:G06F17/30」が「情報検索,そのためのデータベース構造」を表す特許分類であるのに対し、「IPC:G06F17/30」の分野を象徴する用語である「データベース」で絞り込むことは、絞り込む分野が重複しているため、不適切であると考えられることから導き出せるルールである。
(8)特許書類の絞り込みの能力が低い1以上の用語を含む検索式ルール
特許書類の絞り込みの能力が低い1以上の用語を含む検索式ルールは、例えば、特許検索式に含まれる不適切であることを規定するルールであっても良い。さらに具体的には、その検索式ルールは、特許検索式に「装置」が含まれていた場合に不適切であるとする検索式ルール等である。なお、この具体例は、「装置」は、多くの特許書類に記載される用語であり、絞り込み能力が低いため、不適切であると考えられることから導き出せるルールである。また、かかる場合の検索式ルールは、例えば、用語の集合「装置,方法,・・・」、または分類と1以上の用語の組の集合(例えば、「G06F|情報,データ,・・・」)である。
(9)選別対象の特許件数と関連特許の件数とを用いた検索式ルール
選別対象の特許書類の件数と関連特許の件数とを用いた検索式ルールは、例えば、選別対象の特許書類の件数と関連特許書類の件数の割合が不釣り合いであることを規定するルールであっても良い。その検索式ルールは、例えば、選別対象の特許書類の件数に対する関連特許書類の件数の割合が閾値以下である場合であっても良い。なお、閾値は、例えば、予め決められた値であっても良く、選別対象の特許書類の件数に応じて変動する値であっても良い。この検索式ルールは、さらに具体的には、選別対象の特許書類の件数が100件であるのに対し、関連特許の件数が1件のみといった場合に不適切であるとする検索式ルール等である。なお、この具体例は、関連特許の割合が閾値より少ないため、選別対象を取得した特許検索式が不適切であると考えられることから導き出せるルールである。
(10)2以上の特許検索式を有する検索式ルール
2以上の特許検索式を有する検索式ルールは、例えば、不適切な特許検索式の作成過程を規定するルールであっても良い。その検索式ルールは、さらに具体的には、特許検索式に含まれている検索フィールドが「要約+請求項」から「要約」に変わっているのみで、特許検索式のその他要素が変わっていない場合に不適切であるとする検索式ルール等である。なお、この具体例は、単純に選別対象を減らすために検索フィールドを「要約+請求項」から「要約」に変更したと考えられるため、特許検索式が不適切であると考えられることから導き出せるルールである。また、この、検索式ルールは、特許調査結果情報が有する2以上の特許検索式の中に、用語を含まず特許分類を含む特許検索式と、用語と特許分類とを含む特許検索式の両方が存在するか否かを判断し、両方が存在しない場合に不適切であるとする検索式ルールなどでも良い。なお、この具体例は、複数の観点から特許検索式を作成していないと考えられるため、特許検索式が不十分であると考えられることから導き出せるルールである。
なお、検索式ルール格納部105で格納されている検索式ルールには、そのルールを適用する際に参照するルールであるルール付加情報が含まれていても良い。ルール付加情報は、例えば、特許分類の発行と廃止とに関する情報であっても良く、用語と特許分類との不適切な組合せに関する情報であっても良く、絞り込み能力の低い用語に関する情報であっても良い。特許分類の発行と廃止とに関する情報とは、特許分類とその特許分類の発行日と廃止日とを対応付けた情報である。用語と特許分類との不適切な組合せに関する情報は、例えば、特定の特許分類とその特許分類の分野において絞り込み能力の低い用語とを対応付けた情報であっても良く、特定の特許分類とその特許分類を象徴する用語とを対応付けた情報であっても良い。絞り込み能力の低い用語に関する情報は、全ての分野において、絞り込み能力が低いと判断された用語の情報である。検索式ルール格納部105にルール付加情報が格納されている場合は、検索式評価部107は、ルール付加情報を参照して検索式ルールを適用しても良い。
検索式ルールの定義方法は問わない。つまり、検索式ルールは、検索式ルールを表現する専用の言語(以下、ルール言語という)を用いて表現しても良く、汎用的な言語を用いて表現しても良い。また、検索式ルールは、公知の機械学習器(例えば、Support Vector Machine、ベイズ推定やニューラルネットワーク等)を用いて学習させた結果であっても良く、自然言語で記載されていても良い。ルール言語とは、変数や関数等を用いて、特許検索式等を表現できる言語である。例えば、ルール言語は、用語を変数に格納できる機能と、変数または定数の値に応じて処理を分岐できる機能と、文字列を操作する関数と、用語が絞り込み能力が低いか否かを判断する関数等とを備える言語であっても良い。検索式ルール格納部105は、1種類のみの検索式ルールが格納されても良く、2種類以上の検索式ルールが格納されても良い。
また、検索式ルール格納部105には、判断結果メッセージを検索式ルールと関連付けた状態で格納し得るようにしても良い。判断結果メッセージとは、評価した理由をユーザに提示するメッセージである。例えば、判断結果メッセージは、「無効化資料調査は、公開系の公報のすべてを検索対象にするのが適切です。」等である。なお、判断結果メッセージには、変数等を用いて検索式評価部107で評価した結果の情報を含めても良い。
検索式ルール格納部105は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。検索式ルール格納部105に検索式ルールが格納される過程は問わない。例えば、記録媒体を介して検索式ルールが検索式ルール格納部105で格納されるようになっても良く、通信回線等を介して送信された検索式ルールが検索式ルール格納部105で格納されるようになっても良く、あるいは、入力デバイスを介して入力された検索式ルールが検索式ルール格納部105で格納されるようになっても良い。
選別ルール格納部106は、調査対象の特許の妥当性を判断するためのルールである1以上の選別ルールを格納し得る。選別ルール格納部106で格納する選別ルールは、非関連特許書類に誤って選別された関連特許書類に関するルールであっても良く、関連特許書類に誤って選別され非関連特許書類に関するルールであっても良い。また、選別ルール格納部106には、選別ルールと対応付けて減点情報を格納し得るようにしても良い。減点情報は、選別情報評価部108で選別情報を評価する際に用いる情報であり詳細は後述する。なお、選別ルールは、通常、選別結果が不適切であることを示すルールであるが、選別結果が適切であることを示すルールでも良い。以下、選別ルール格納部106に格納され得る検索式ルールについて、(1)非関連特許書類に選別された関連特許書類に関する選別ルール、(2)関連特許書類に選別された非関連特許書類に関する選別ルールのそれぞれについて詳細に説明する。
(1)非関連特許書類に選別された関連特許書類に関する選別ルール
本選別ルールは、例えば、調査対象の発明に関連する特許書類が、非関連特許書類として選別されていた際に不適切であることを規定するルールである。
(2)関連特許書類に選別された非関連特許書類に関する選別ルール
本選別ルールは、例えば、調査対象の発明に関連しない特許書類が、関連特許書類として選別されていた際に不適切であることを規定するルールである。
なお、選別ルールの定義方法は問わない。つまり、選別ルールは、ルール言語を用いて表現しても良く、汎用的な言語を用いて表現しても良い。また、選別ルールは、公知の機械学習器(例えば、Support Vector Machine、ベイズ推定やニューラルネットワーク等)に選別情報と点数を学習させた結果であっても良く、自然言語で記載されていても良い。選別ルール格納部106は、1種類のみの選別ルールが格納されても良く、2種類以上の選別ルールが格納されても良い。
また、選別ルール格納部106には、判断結果メッセージを選別ルールと関連付けた状態で格納し得るようにしても良い。判断結果メッセージとは、判断した理由をユーザに提示するメッセージである。例えば、判断結果メッセージは、「5件の関連特許書類が非関連特許書類として判断されていました。」等である。なお、判断結果メッセージには、変数等を用いて判断手段22で判断した結果の情報を含めても良い。
選別ルール格納部106は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。選別ルール格納部106に選別ルールが格納される過程は問わない。例えば、記録媒体を介して選別ルールが選別ルール格納部106で格納されるようになっても良く、通信回線等を介して送信された検索式ルールが選別ルール格納部106で格納されるようになっても良く、あるいは、入力デバイスを介して入力された選別ルールが選別ルール格納部106で格納されるようになっても良い。
検索式評価部107は、1または2以上の特許検索式を1または2以上の検索式ルールに適用し、1または2以上の特許検索式に合致する検索式ルールを決定する。そして、検索式評価部107は、決定した1または2以上の検索式ルールに対応する第一の評価結果を取得する。例えば、検索式評価部107は、特許調査結果情報に含まれる特許書類の種類と特許調査の目的とを、1以上の検索式ルールに適用し、合致する1以上の検索式ルールを決定し、合致する1以上の検索式ルールに対応する第一の評価結果を取得しても良い。特許書類の種類は、特許検索式内の「特許書類の種類:」等の特許書類の種類に関する手がかりとなる情報を元に取得する。手がかりとは、タグであっても良く、「→」や「:」等の記号を含む文字列であっても良い。また、検索式評価部107は、特許調査結果情報に含まれる検索対象の期間を1以上の検索式ルールに適用し、合致する1以上の検索式ルールを決定し、合致する1以上の検索式ルールに対応する第一の評価結果を取得しても良い。検索対象の期間は、例えば、特許検索式内の「特許書類の期間:」等の特許書類の期間に関する手がかりとなる情報を元に取得する。また、検索式評価部107は、特許調査結果情報に含まれる特許分類と検索対象の期間とを1以上の検索式ルールに適用し、合致する1以上の検索式ルールを決定し、合致する1以上の検索式ルールに対応する第一の評価結果を取得しても良い。特許分類は、例えば、特許検索式内の「IPC:」や「FI:」等の特許分類の手がかりとなる情報を元に取得する。また、検索式評価部107は、特許調査結果情報に含まれる検索対象の期間と特許調査の目的とを1以上の検索式ルールに適用し、合致する1以上の検索式ルールを決定し、合致する1以上の検索式ルールに対応する第一の評価結果を取得しても良い。また、検索式評価部107は、特許調査結果情報に含まれる検索フィールドを1以上の検索式ルールに適用し、合致する1以上の検索式ルールを決定し、合致する1以上の検索式ルールに対応する第一の評価結果を取得しても良い。検索フィールドは、例えば、検索式内の「要約:」や「要約+請求項:」等の用語の検索対象となる情報を取得する。また、検索式評価部107は、特許調査結果情報に含まれる検索フィールドと特許調査の目的とを1以上の検索式ルールに適用し、合致する1以上の検索式ルールを決定し、合致する1以上の検索式ルールに対応する第一の評価結果を取得しても良い。また、検索式評価部107は、特許検索式に含まれる特許分類と用語とを、1以上の検索式ルールに適用し、合致する1以上の検索式ルールを決定し、合致する1以上の検索式ルールに対応する第一の評価結果を取得しても良い。また、検索式評価部107は、特許検索式に含まれる1以上の用語を1以上の検索式ルールに適用し、1以上の各用語が絞り込みの能力が低いか否かを判断し、判断結果を用いて第一の評価結果を取得しても良い。また、検索式評価部107は、選別情報に含まれる選別対象の特許件数と関連特許の件数とを、検索式ルールに適用し、第一の評価結果を取得しても良い。また、検索式評価部107は、特許調査結果情報が有する2以上の特許検索式を検索式ルールに適用し、選別対象の絞り込み方の妥当性を評価し、第一の評価結果を取得しても良い。また、検索式評価部107は、特許調査結果情報が有する2以上の特許検索式の中に、用語を含まず特許分類を含む特許検索式と、用語と特許分類とを含む特許検索式の両方が存在するか否かを判断し、両方存在しない場合、両方存在する場合と比較して、低い第一の評価結果を取得するようにしても良い。
検索式ルールに適用するとは、例えば、特許検索式と特許調査の目的とが、検索式ルールに合致するかどうかを評価することである。なお、検索式ルールに適用する場合に、検索式ルールに対応したルール付加情報が検索式ルール格納部105に格納されていれば、ルール付加情報を参照して適用しても良い。
第一の評価結果は、検索式ルールに合致した件数であっても良く、検索式ルールごとに減点する方法を定めて、それを利用して算出されても良い。検索式ルールごとに減点する方法を定める場合には、例えば、第一の評価結果は、検索式ルール格納部105に、検索式ルールと対応付けて格納されている減点情報を用いて算出されても良い。減点情報は、例えば、点数であっても良く、割合であっても良い。具体的には、検索式評価部107は、減点情報が−3点の検索式ルール1件のみに合致した場合は、1と評価してもよく、−3点と評価しても良く、予め100点満点の持ち点があるとして、97点と評価しても良い。また、検索式評価分107は、減点情報が95%の検索式ルール1件のみに合致した場合は、予め100点満点の持ち点があるとして、95点と評価しても良い。また、検索式評価部107は、各検索式ルールとの合致状況によって減点する点数、または割合を増減させても良い。また、検索式評価部107は、検索式ルールに合致した件数に応じてさらに減点するルールを規定しても良い。例えば、検索式評価部107は、合致した検索式ルールの数が予め設定した閾値以上であれば、一定の点数、または一定の割合を第一の評価結果から減点しても良く、合致した検索式ルールの数に比例して大きくなる数値を第一の評価結果から減点しても良い。なお、第一の評価結果は、通常、数値であるが、検索式ルールに対応付けられた判断結果メッセージであっても良く、数値と判断結果メッセージの組合せであっても良い。判断結果メッセージを取得する場合で、かつ検索式ルール格納部105の判断結果メッセージに変数、または処理が含まれていた場合に、検索式評価部107が不適切であると判断した理由がわかるように取得しても良い。具体的には、検索式評価部107は、特許検索式含まれる検索対象の期間に未来の日付である「2100.01.01〜2200.01.01」が指定されていた場合に、未来の日付を不適切とする検索式ルールに判断結果メッセージ「未来の日付を含む期間である{[Period]}が指定されています。」が対応付けられていれば、「未来の日付を含む期間である2100.01.01〜2200.01.01が指定されています。」等として取得しても良い。この具体例では、{[Period]}の部分に検索対象の期間を代入するものとした。また、検索式評価部107は、通常、MPUやメモリ等から実現され得る。検索式評価部107の処理手順は、通常、ソフトウェアで実現され、そのソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
選別情報評価部108は、選別情報を1または2以上の選別ルールに適用し、選別情報に合致する選別ルールを決定する。そして、選別情報評価部108は、決定した1または2以上の選別ルールに対応する第二の評価結果を取得する。選別情報評価部108は、例えば、特徴ベクトル取得手段21と判断手段22と選別評価結果取得手段23とを備える。以下、特徴ベクトル取得手段21、判断手段22、および選別評価結果取得手段23について、詳しく説明する。
特徴ベクトル取得手段21は、1または2以上の各関連特許書類から1または2以上の用語を取得し、当該1または2以上の用語を用いて各関連特許書類のベクトルである関連特許特徴ベクトルを、関連特許書類ごとに取得する。なお、特徴ベクトル取得手段21は、通常、2以上の各関連特許書類から関連特許特徴ベクトルを取得する。
さらに、特徴ベクトル取得手段21は、1または2以上の各非関連特許書類から1または2以上の用語を取得し、当該1以上の用語を用いて各非関連特許書類のベクトルである非関連特許特徴ベクトルを、非関連特許書類ごとに取得する。なお、特徴ベクトル取得手段21は、通常、2以上の各非関連特許書類から非関連特許特徴ベクトルを取得する。
特徴ベクトル取得手段21が関連特許書類から取得する用語は、例えば、あらかじめ決められた品詞(例えば、名詞等)であっても良く、予め決められた連続した品詞の用語群であっても良く、専門用語であっても良く、あるいは、その他の用語であっても良い。専門用語を取得する場合には、例えば、図示しない専門用語格納部に専門用語が格納されており、その専門用語が関連特許書類に含まれているかどうか判断することによって用語の取得が行われても良く、文書から専門用語を抽出するアルゴリズムを用いることによって用語の取得が行われても良い。後者の方法については、例えば、次の文献を参照されたい。大畑博一、中川裕志、「連接異なり語数による専門用語抽出」、情報処理学会研究報告、2000−NL−136、p.119−126。中川裕志、森辰則、湯本紘彰、「出現頻度と連接頻度に基づく専門用語抽出」、自然言語処理、Vol.10 No.1、p.27−45、2003年1月。なお、その用語の取得の際に、特徴ベクトル取得手段21は、TF値やTF−IDF値を重要度として利用し、重要度の低い用語を除いて取得しても良い。また、IDF値を算出する際に対象となる文書は、関連特許書類格納部103と非関連特許書類格納部104に格納されている全文書であっても良い。重要度の低い用語とは、重要度の値が閾値以下である用語であっても良く、重要度順に並べて上位から所定の個数の用語であっても良い。なお、閾値は、例えば、予め決められた値であっても良く、重要度の最大値に1より小さい数(例えば、0.9や0.8等)を掛けた値であっても良い。また、その所定の個数は、例えば、予め決められた個数であっても良く、特徴ベクトル取得手段21が取得した用語の総数に1より小さい値(例えば、0.01や0.001等)を掛けた個数であっても良い。また、特徴ベクトル取得手段21は、特許書類の少なくとも一部を含む文字列から用語を取得する。特許書類の少なくとも一部を含む文字列とは、例えば、特許書類に記載された全文であっても良く、見出しによって識別される文字列であっても良く、複数の見出しの組み合わせによって識別される文字列であっても良い。見出しとは、例えば、発明の名称、特許請求の範囲、または要約等の特許書類内の領域を識別するものであれば何でも良い。なお、特徴ベクトル取得手段21が、関連特許書類から用語を取得する方法について記載したが、非関連特許書類から用語を取得する場合は、上記の説明の関連特許書類を非関連特許書類、および関連特許書類格納部103を非関連特許書類格納部104に読み替えることで同様とする。
特徴ベクトル取得手段21が取得する各関連特許特徴ベクトルは、特徴ベクトル取得手段21が取得したすべての用語数分の次元を持つベクトルである。関連特許特徴ベクトルの要素は、例えば、用語の出現回数であっても良く、用語のTF値であっても良く、用語のTF−IDF値であっても良く、用語が特許書類内に存在するかどうかを示す数字、具体的には「1(存在する)」「−1(存在しない)」等であっても良い。なお、特徴ベクトル取得手段21が、関連特許特徴ベクトルを取得する方法について記載したが、非関連特許特徴ベクトルを取得する場合は、上記の説明の関連特許特徴ベクトルを非関連特許特徴ベクトルに読み替えることで同様とする。
また、特徴ベクトル取得手段21は、特許書類全体(全文)から特徴ベクトルを取得しても良いし、特許書類の一部分から特徴ベクトルを取得しても良い。特許書類の一部分とは、例えば、要約書のみ、特許請求の範囲のみ、要約書と特許請求の範囲、明細書のみ、または明細書の実施の形態のみ等である。
なお、特徴ベクトル取得手段21は、図示しない関連用語辞書を保持しており、かかる関連用語辞書に格納されている関連用語は同一の用語であると判断して、特徴ベクトルを取得しても良い。ここで、関連用語辞書は、例えば、2以上の同義語や類義語等を有する関連用語群を1以上保持している。なお、例えば、関連用語群は「データベース、データーベース、DB、リポジトリ、辞書」である。そして、特徴ベクトル取得手段21は、一の関連用語群に含まれる2以上の用語は同一の用語として処理を行う。
判断手段22は、1または2以上の関連特許特徴ベクトルと1または2以上の非関連特許特徴ベクトルとを用いて、関連特許のクラスに属するべき非関連特許特徴ベクトルに対応する非関連特許書類を決定する。また、判断手段22は、判断対象の非関連特許特徴ベクトルと、1以上の関連特許特徴ベクトルとを用いて関連特許のクラスに属するべき非関連特許特徴ベクトルに対応する非関連特許書類を決定しても良い。また、判断手段22は、判断対象の非関連特許特徴ベクトルと、1以上の非関連特許特徴ベクトルとを用いて非関連特許のクラスに属するべきでない非関連特許特徴ベクトルに対応する非関連特許書類を、関連特許のクラスに属するべき非関連特許特徴ベクトルの非関連特許書類として決定しても良い。また、判断手段22は、1または2以上の関連特許特徴ベクトルと1または2以上の非関連特許特徴ベクトルとを用いて、非関連特許のクラスに属するべき関連特許特徴ベクトルに対応する関連特許書類を決定しても良い。判断手段22は、1または2以上の関連特許特徴ベクトルと1または2以上の非関連特許特徴ベクトルとを用いて、非関連特許のクラスに属するべき関連特許特徴ベクトルに対応する関連特許書類を決定しても良い。また、判断手段22は、判断対象の関連特許特徴ベクトルと、1以上の非関連特許特徴ベクトルとを用いて非関連特許のクラスに属するべき関連特許特徴ベクトルに対応する関連特許書類を決定しても良い。また、判断手段22は、判断対象の関連特許特徴ベクトルと、1以上の関連特許特徴ベクトルとを用いて関連特許のクラスに属するべきでない関連特許特徴ベクトルに対応する関連特許書類を、非関連特許のクラスに属するべき関連特許特徴ベクトルの関連特許書類として決定しても良い。
クラスとは、1または2以上の特徴ベクトルが算出されたものの集合である。クラスには、異なる種類の特徴ベクトルを含まない。異なる種類の特徴ベクトルを含まないとは、例えば、関連特許のクラスには、関連特許特徴ベクトルではない特徴ベクトルを含まないということである。なお、判断手段22は、関連特許のクラスの補集合を非関連特許の集合と判断しても良く、非関連特許のクラスの補集合を関連特許の集合と判断しても良く、関連特許のクラスと非関連特許のクラスとの和集合の補集合を、関連特許でも非関連特許でもない特許書類と考えても良い。また、関連特許、および非関連特許は、それぞれ2以上のクラスを含んでいても良い。また、クラスは、公知のクラスタリング手法を用いて分類された集合であっても良く、後述する機械学習を用いて、学習器が分類した結果である集合であっても良い。クラスタリング手法とは、例えば、分割最適化クラスタリング(k−means法等)を用いて特徴ベクトルをクラスタリングしても良く、階層的クラスタリング(最短距離法等)を用いて特徴ベクトルをクラスタリングしても良く、その他の公知なクラスタリング手法を用いて特徴ベクトルをクラスタリングしても良い。なお、各クラスタリング手法の詳細は公知技術であるため、説明を省略する。
判断手段22が、特徴ベクトルを用いて、上記の判断する方法は問わない。例えば、判断手段22は、ベクトルの類似度を用いて判断しても良く、機械学習を用いて判断しても良い。以下、判断手段22が特徴ベクトルを用いて(1)1以上の非関連特許書類から、関連特許書類を決定する方法について、(A)特徴ベクトルの類似度を用いた判断、(B)機械学習を用いた判断に分けて説明する。また、(2)1以上の関連特許書類から、非関連特許書類を決定する方法についても、(1)と同様に2つに分けて説明する。
(1)1以上の非関連特許書類から、関連特許書類を決定する方法
(A)特徴ベクトルの類似度を用いた判断
判断手段22は、関連特許特徴ベクトル、および非関連特許特徴ベクトルを各々1以上のクラスに分類する。さらに、判断手段22は、分類した各クラスの代表ベクトルを取得する。そして、各クラスの代表ベクトルと判断対象の非関連特許特徴ベクトルとの類似度を用いて判断対象の非関連特許特徴ベクトルがどのクラスに属するか判断する。クラスの代表ベクトルとは、クラス内の最も頻出する特徴ベクトルであっても良く、クラスの平均ベクトルであっても良く、クラスから無作為に選出した1のベクトルであっても良い。なお、平均ベクトルは、通常のベクトル平均であっても良く、すべてを単位ベクトルとして扱って算出する単位ベクトル平均であっても良い。また、クラスの代表ベクトルは、その取得の過程に判断対象の特徴ベクトルが含まれていても良く、含まれていなくても良い。特徴ベクトルの類似度を用いる方法を用いた場合は、例えば、判断手段22は、判断対象の非関連特許特徴ベクトルと、関連特許特徴ベクトルの全てのクラスの代表ベクトルとの類似度を算出し、類似度が閾値以上であれば関連特許のクラスに含まれると判断しても良い。なお、この方法の場合は、非関連特許特徴ベクトルをクラスに分類しなくても良い。また、判断手段22は、判断対象の非関連特許特徴ベクトルに対して、関連特許特徴ベクトルの全てのクラス、および非関連特許特徴ベクトルの全てのクラスの代表ベクトルとのベクトルの類似度を全て算出し、ベクトルの類似度が最も大きい値であったクラスに属すると判断しても良い。また、判断手段22は、判断対象の非関連特許特徴ベクトルと、非関連特許特徴ベクトルの全てのクラスの代表ベクトルとの類似度を算出し、類似度が閾値以下であれば関連特許のクラスに含まれると判断しても良い。なお、この方法の場合は、関連特許特徴ベクトルをクラスに分類しなくても良い。ベクトルの類似度の算出方法は、例えば、COS尺度(コサイン尺度)を用いて算出する方法でも良く、ピアソンの相関係数を用いて算出する方法でも良く、偏差パターン類似度を用いて算出する方法でも良い。COS尺度、ピアソンの相関係数、および偏差パターン類似度の算出方法は、公知技術であるため説明を省略する。クラスに属するかどうかを判断する閾値は、予め決められた値であっても良く、算出され得る類似度が取り得る最大値より小さい数値(例えば、COS尺度の場合0.9や0.8等)等であっても良く、算出され得る類似度が取り得る最小値より大きい数(例えば、COS尺度の場合−0.9や−0.8等)であっても良い。
(B)機械学習を用いた判断
判断手段22は、関連特許特徴ベクトル、および非関連特許特徴ベクトルを各々1以上のクラスに分類する。判断手段22は、分類したクラスとクラスに含まれる特徴ベクトルとを対応付けて学習器に学習させる。そして、学習が完了した学習器に対して、判断対象の非関連特許特徴ベクトルがどのクラスに属するか判断させる。学習させる手法の種類は問わない。学習させる手法は、例えば、ニューラルネットワークであっても良く、SVM(Support Vector Machine)であっても良く、SVR(Support Vector Regression)であっても良く、その他の公知な学習手法であっても良い。ニューラルネットワークとは、脳機能におけるいくつかの特性を計算機上のシミュレーションによって表現することを目指した学習モデルである。ニューラルネットワークには、様々な種類のモデルや方法が提案されているが、そのどれを採用しても良い。例えば、ニューラルネットワークの種類は、パーセプトロンを採用しても良く、バックプロパケーションを採用しても良く、ボルツマンマシン等を採用しても良い。ニューラルネットワークに関する各モデルの詳細は、公知技術であるため説明を省略する。SVMとは、教師データを用いて分類パターンを学習し、分類の境界線を設定し、分類を行う学習モデルである。SVMの詳細は、公知技術であるため説明を省略する。SVRとは、教師データを用いて分類パターンを学習し、3以上のクラスに分類する学習モデルである。SVRの詳細は、公知技術であるため説明を省略する。学習器に学習させる素性は、特徴ベクトル取得手段21が取得した各用語に対応した値である。また、判断手段22が学習に使用する素性には、特許分類が含まれていても良い。特許分類を素性に含める場合は、特許分類に対して、特許分類を一意に特定する数値を設定し、その値を用いて学習させる。なお、学習に使用する教師データには、判断対象となる特徴ベクトルが含まれていても良く、含まれていなくても良い。
(2)1以上の関連特許書類から、非関連特許書類を決定する方法
(A)特徴ベクトルの類似度を用いた判断
判断手段22は、関連特許特徴ベクトル、および非関連特許特徴ベクトルを各々1以上のクラスに分類する。さらに、判断手段22は、分類した各クラスの代表ベクトルを取得する。そして、各クラスの代表ベクトルと判断対象の関連特許特徴ベクトルとの類似度を用いて判断対象の非関連特許特徴ベクトルがどのクラスに属するか判断する。クラスの代表ベクトル、ベクトルの類似度、および閾値については、(1)(A)と同様とする。特徴ベクトルの類似度を用いる方法を用いた場合は、例えば、判断手段22は、判断対象の関連特許特徴ベクトルと、関連特許特徴ベクトルの全てのクラスの代表ベクトルとの類似度を算出し、類似度が閾値以下であれば非関連特許のクラスに含まれると判断しても良い。なお、この場合は、非関連特許特徴ベクトルをクラスに分類しなくても良い。また、例えば、判断手段22は、判断対象の関連特許特徴ベクトルに対して、関連特許特徴ベクトルの全てのクラス、および非関連特許特徴ベクトルの全てのクラスの代表ベクトルとのベクトルの類似度を全て算出し、ベクトルの類似度が最も大きい値であったクラスに属すると判断しても良い。また、例えば、判断手段22は、判断対象の関連特許特徴ベクトルと、非関連特許特徴ベクトルの全てのクラスの代表ベクトルとの類似度を算出し、類似度が閾値以上であれば非関連特許のクラスに含まれると判断しても良い。なお、この方法の場合は、関連特許特徴ベクトルをクラスに分類しなくても良い。
(B)機械学習を用いた判断
判断手段22は、関連特許特徴ベクトル、および非関連特許特徴ベクトルを各々1以上のクラスに分類する。判断手段22は、分類したクラスとクラスに含まれる特徴ベクトルとを対応付けて学習器に学習させる。そして、学習が完了した学習器に対して、判断対象の関連特許特徴ベクトルがどのクラスに属するか判断させる。学習させる手法の種類、および学習器に学習させる素性については、(1)(B)と同様とする。
選別評価結果取得手段23は、判断手段22が決定した1以上の関連特許書類を選別ルールに適用し、第二の評価結果を取得する。また、選別評価結果取得手段23は、判断手段22が決定した1以上の非関連特許書類を選別ルールに適用し、第二の評価結果を取得しても良い。選別ルールに適用するとは、判断手段22が判断した関連特許に含まれるべき非関連特許書類と、非関連特許書類に含まれるべき関連特許書類が、選別ルールを満たすかどうかを判断することである。第二の評価結果は、選別ルールに合致した件数であっても良く、選別ルールごとに減点する方法を定めて、それを利用して算出した点数であっても良い。選別ルールごとに減点する方法を定める場合には、例えば、第二の評価結果は、選別ルール格納部106に、選別ルールと対応付けて格納されている減点情報を用いて算出しても良い。減点情報の概念は、検索式ルール格納部105に格納されている減点情報と同一の概念であるため、検索式ルールにおける減点情報の説明ついて、検索式ルールを選別ルールと読み替えるものとする。また、減点情報は、選別ルール格納部106以外に定義しても良い。例えば、選別評価結果取得手段23は、選別ルールに合致した件数に応じてさらに減点するルールを規定しても良い。なお、第二の評価結果は、通常、数値であるが、選別ルールに対応付けられた判断結果メッセージであっても良く、数値と判断結果メッセージとの組合せであっても良い。判断結果メッセージを取得する場合で、かつ選別ルール格納部106の判断結果メッセージに変数、または処理が含まれていた場合には、判断手段22が不適切であると判断した理由がわかるように取得しても良い。具体的には、選別評価結果取得手段23は、5件の関連特許書類が、誤って非関連特許書類に選別されていた場合には、非関連特許書類の中の関連特許書類に関する選別ルールの判断結果メッセージ「{[RelatedToNonRelatedCount]}件の関連特許書類が非関連特許書類として判断されていました。」が対応付けられていれば、「5件の関連特許書類が非関連特許書類として判断されていました。」等として取得しても良い。この具体例では、{[RelatedToNonRelatedCount]}の部分に非関連特許書類の中の関連特許書類の件数を代入するものとした。選別情報評価部108は、通常、MPUやメモリ等から実現され得る。選別情報評価部108の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
評価構成部109は、第一の評価結果、および第二の評価結果を用いて、特許調査結果情報の評価を構成する。各評価結果を用いる方法は問わない。例えば、評価結果が点数の場合には、評価構成部109は、第一の評価結果の点数と第二の評価結果の点数との合計値を算出しても良く、平均値を算出しても良く、第一の評価結果の減点数と第二の評価結果の減点数との合計を予め持っている数値(例えば100点など)に加算して算出しても良い。つまり、評価構成部109は、第一の評価結果の点数と第二の評価結果の点数とが負の数であるならば、それらをパラメータとする減少関数により、評価を算出しても良く、第一の評価結果の点数と第二の評価結果の点数とが正の数であるならば、それらをパラメータとする増加関数により、評価を算出しても良い。また、特許調査結果情報の評価は、1つの点数であるが、第一の評価結果と第二の評価結果とを、単に含む情報であっても良く、第一の評価結果の点数と第二の評価結果の点数の合計と第一の評価結果と第二の評価結果とを含む情報であっても良く、上記情報に検索式評価部107、および選別評価結果取得手段23で合致した各ルールの判断結果メッセージを追加した情報出会っても良く、検索式評価部107、および選別評価結果取得手段23で合致した各ルールの判断結果メッセージのみであっても良い。評価構成部109は、通常、MPUやメモリ等から実現され得る。評価構成部109の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
評価出力部110は、特許調査結果情報の評価を出力する。ここで、出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への格納、他の処理装置や他のプログラム等への処理結果の引渡し等を含む概念である。また、評価出力部110は、通常、ネットワーク100を通じてユーザ端末2へ判断結果を送信する。評価出力部110は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。これにより、入力された特許調査結果情報の評価を提示することができ、必要であれば、再調査を行って特許調査の精度を上げることができる。
図3は、本実施の形態における特許調査結果評価装置1の動作の一例を示すフローチャートである。以下、図3を用いて動作について説明する。
(ステップS201)受付部101は、ユーザ端末2から1以上の特許調査結果情報を受け付けたかどうかを判断する。そして、特許調査結果情報を受け付けた場合は、ステップS202へ進み、受け付けなかった場合は、ステップS201を繰り返し実行する。
(ステップS202)受付部101は、受け付けた特許調査結果情報を特許調査結果情報格納部102に格納する。
(ステップS203)受付部101は、受け付けた特許調査結果情報に含まれる関連特許書類を特定する情報を用いて、図示しない特許書類格納部から関連特許書類を取得し、関連特許書類格納部103に関連特許書類を格納する。
(ステップS204)受付部101は、受け付けた特許調査結果情報に含まれる非関連特許書類を特定する情報を用いて、図示しない特許書類格納部から非関連特許書類を取得し、非関連特許書類格納部104に非関連特許書類を格納する。
(ステップS205)検索式評価部107は、ステップS202で格納された特許調査結果情報に対して、検索式ルール格納部105に格納されているすべての検索式ルールを適用し、特許検索式を評価する。検索式評価部107の評価の詳細は、図4のフローチャートを用いて後述する。
(ステップS206)特徴ベクトル取得手段21は、関連特許書類格納部103に格納されている関連特許書類から関連特許特徴ベクトルを取得する。特徴ベクトル取得手段21の取得方法の詳細は、図5のフローチャートを用いて後述する。
(ステップS207)特徴ベクトル取得手段21は、非関連特許書類格納部104に格納されている非関連特許書類から非関連特許特徴ベクトルを取得する。特徴ベクトル取得手段21の取得方法の詳細は、図5のフローチャートを用いて後述する。
(ステップS208)判断手段22は、すべての関連特許特徴ベクトルから代表ベクトルを算出する。なお、ベクトルの次元が異なる場合は、最も次元の多い関連特許特徴ベクトルに次元を統一する。統一の際に増えた次元の要素には、0を代入する。なお、代表ベクトルは、平均ベクトルとしても良い。
(ステップS209)判断手段22は、すべての非関連特許特徴ベクトルから代表ベクトルを算出する。なお、ベクトルの次元が異なる場合は、最も次元の多い非関連特許特徴ベクトルに次元を統一する。統一の際に増えた次元の要素には、0を代入する。なお、代表ベクトルは、平均ベクトルとしても良い。
(ステップS210)判断手段22は、非関連特許書類に選別されている特許書類が関連特許であるかを判断する。判断手段22の判断の詳細は図6のフローチャートを用いて後述する。
(ステップS211)判断手段22は、関連特許書類に選別されている特許書類が非関連特許であるかを判断する。判断手段22の判断の詳細は図6のフローチャートを用いて後述する。
(ステップS212)選別評価結果取得手段23は、ステップS210とS211で判断された関連特許書類、及び非関連特許書類が、選別ルールに合致するかを判断するかどうかを判断する。選別評価結果取得手段23の判断の詳細は図7のフローチャートを用いて後述する。
(ステップS213)選別評価結果取得手段23は、ステップS511で図示しない後述する選別判断結果格納部に格納されている選別ルールIDから減点情報を取得し、取得した減点情報を用いて第二の評価結果を算出する。
(ステップS214)評価構成部109は、ステップS205で取得した第一の評価結果と、ステップS213で取得した第二の判断結果とを用いて特許調査結果情報の評価を構成する。
(ステップS215)評価出力部110は、ステップS214で構成した評価結果を出力し、終了する。
なお、図3のフローチャートのステップS207において、判断手段22は、すべての関連特許特徴ベクトルから代表ベクトルを取得した。しかし、判断手段22は、すべての関連特許特徴ベクトルの距離の差が一定以内(COS尺度が閾値以上)の2以上のクラスを構成し、クラスごとに、関連特許特徴ベクトルの代表ベクトルを算出しても良い。
また、ステップS208において、判断手段22は、すべての非関連特許特徴ベクトルから平均ベクトルを算出した。しかし、判断手段22は、すべての非関連特許特徴ベクトルの距離の差が一定以内(類似度が閾値以上等)の2以上のグループを構成し、グループごとに、非関連特許特徴ベクトルの平均ベクトルを算出しても良い。
図4は、図3の検索式ルールの判断(ステップS205)の動作の一例を示すフローチャートである。以下、図4を用いて、検索式ルールの判断処理について説明する。
(ステップS301)検索式評価部107は、カウンタmに1を代入する
(ステップS302)検索式評価部107は、検索式ルール格納部105にm番目の検索式ルールが存在するかどうかを判断する。m番目の検索式ルールが存在する場合は、ステップS303に進み、存在しなかった場合は、ステップS307へ進む。
(ステップS303)検索式評価部107は、ステップS202で受付部101が格納した特許調査結果情報に含まれる特許検索式と特許調査の目的とがm番目の検索式ルールに合致するかどうかを判断する。
(ステップS304)検索式評価部107は、ステップS303でm番目の検索式ルールに合致していた場合は、ステップS305に進み、合致しなかった場合は、ステップS306へ進む。
(ステップS305)検索式評価部107は、合致した検索式ルールIDを図示しない検索式判断結果格納部に追記する。
(ステップS306)検索式評価部107は、カウンタmを1だけインクリメントし、ステップS302に戻る。
(ステップS307)検索式評価部107は、図示しない検索式判断結果格納部に格納されている検索式ルールIDを用いて検索式ルール格納部105から減点情報を取得し、第一の評価結果を算出する。そして、上位の処理に戻る。
図5は、図3の特徴ベクトルの算出(ステップS206、S207)の動作の一例を示すフローチャートである。以下、図5を用いて、特徴ベクトルの算出処理について説明する。なお、図5におけるXには、ステップS206から呼び出された場合は、関連特許書類が代入され、ステップS207から呼び出された場合は、非関連特許書類が代入される。以下は、Xに関連特許書類が代入されたステップ206から呼び出されたものとして説明する。なお、ステップ207の場合については、関連特許書類格納部103を非関連特許書類格納部104と読み替えるものとする。
(ステップS401)特徴ベクトル取得手段21は、カウンタpに1を代入する。
(ステップS402)特徴ベクトル取得手段21は、p番目の関連特許書類が関連特許書類格納部103に格納されているかどうか判断する。p番目の関連特許書類が関連特許書類格納部103に格納されている場合は、ステップS403に進み、格納されていない場合は、上位の処理に戻る。
(ステップS403)特徴ベクトル取得手段21は、p番目の関連特許書類から用語をすべて取得する。
(ステップS404)特徴ベクトル取得手段21は、ステップS403で取得した用語を図示しない用語格納部に重複しないように追記する。なお、図示しない用語格納部には、特許調査結果評価装置1の処理が終了するまで用語を追記され続ける。
(ステップS405)特徴ベクトル取得手段21は、ステップS403で取得した用語のTF−IDF値を算出する。なお、特徴ベクトル取得手段21は、図示しない関連用語辞書を保持しており、かかる関連用語辞書に格納されている関連用語は同一の用語であると判断して、用語のTF−IDF値を算出しても良い。
(ステップS406)特徴ベクトル取得手段21は、図示しない用語格納部に格納されている用語が格納されている順に用語のTF−IDF値を要素に持ったベクトルを作成する。なお、p番目の関連特許書類に記載されていない用語の要素は0とする。
(ステップS407)特徴ベクトル取得手段21は、ステップS406で作成した特徴ベクトルを特許書類の種類と対応付けて図示しない特徴ベクトル格納部に格納する。特許書類の種類とは、関連特許であるか、非関連特許であるかを示す情報である。
(ステップS408)特徴ベクトル取得手段21は、カウンタpを1だけインクリメントし、ステップS402に戻る。
図6は、図3の評価(ステップS210、S211)の動作の一例を示すフローチャートである。以下、図6を用いて、選別情報を判断する処理について説明する。なお、Yには、ステップS210から呼び出された場合は、非関連特許書類が代入され、ステップS211から呼び出された場合は、関連特許書類が代入されているものとする。以下は、Yに非関連特許書類が代入されたステップS210から呼び出されたものとして説明する。ステップS211については、非関連特許書類格納部104を関連特許書類格納部103、および関連特許の可能性を非関連特許の可能性と読み替えるものとする。
(ステップS501)判断手段22は、カウンタpに1を代入する。
(ステップS502)判断手段22は、n番目の非関連特許書類が非関連特許書類格納部104に格納されているかどうか判断する。n番目の非関連特許書類が非関連特許書類格納部104に格納されている場合は、ステップS503に進み、格納されていない場合は、上位の処理に戻る。
(ステップS503)判断手段22は、関連特許のクラスの代表ベクトルとn番目の非関連特許書類の特徴ベクトルとの類似度を算出する。なお、ベクトルの次元が異なる場合は、次元の多いベクトルに次元を統一する。統一の際に増えた次元の要素には、0を代入する。
(ステップS504)判断手段22は、非関連特許のクラスの平均ベクトルとm番目の非関連特許書類の特徴ベクトルとの類似度を算出する。なお、ベクトルの次元が異なる場合は、次元の多いベクトルに次元を統一する。統一の際に増えた次元の要素には、0を代入する。
(ステップS505)判断手段22は、類似度が大きい平均ベクトルが、非関連特許書類のクラスの代表ベクトルであるかどうか判断する。非関連特許書類のクラスの代表ベクトルであった場合は、ステップS513へ進み、非関連特許書類のクラスの代表ベクトルでなかった場合は、ステップS506へ進む。
(ステップS506)判断手段22は、図示しない選別判断結果格納部にn番目の非関連特許書類は、関連特許の可能性があることと特許書類IDとを対応付けて格納する。
(ステップS507)判断手段22は、カウンタnを1だけインクリメントし、ステップS502に戻る。
なお、判断手段22が、すべての関連特許特徴ベクトルの距離の差が一定以内の2以上のクラスを構成し、クラスごとに、関連特許特徴ベクトルの代表ベクトルを算出している場合に、図6のフローチャートにおいて、非関連特許の特許特徴ベクトルと、いずれかのクラスの関連特許特徴ベクトルの平均ベクトルとの類似度が閾値より大きければ、判断手段22は、かかる非関連特許を関連特許と判断しても良い。また、かかる場合に、図6のフローチャートにおいて、非関連特許の特許特徴ベクトルと、最も類似度が大きい代表ベクトルが、いずれかのクラスの関連特許特徴ベクトルの代表ベクトルである場合に、判断手段22は、かかる非関連特許を関連特許と判断しても良い。
また、判断手段22が、すべての関連特許特徴ベクトルの距離の差が一定以内の2以上のクラスを構成し、クラスごとに、関連特許特徴ベクトルの代表ベクトルを算出している場合に、図6のフローチャートにおいて、関連特許の特許特徴ベクトルと、すべてのクラスの関連特許特徴ベクトルの代表ベクトルとの類似度が閾値より小さければ、判断手段22は、かかる関連特許を非関連特許と判断しても良い。さらに、図6のフローチャートにおいて、非関連特許の特許特徴ベクトルを用いなくても良い。
図7は、図3の評価(ステップS212)の動作の一例を示すフローチャートである。以下、図7を用いて、選別ルールに合致するかどうかを判断する処理について説明する。
(ステップS601)選別評価結果取得手段23は、カウンタqに1を代入する。
(ステップS602)選別評価結果取得手段23は、q番目の選別ルールが選別ルール格納部106に格納されているかどうか判断する。q番目の選別ルールが選別ルール格納部106に格納されている場合は、ステップS603に進み、格納されていない場合は、上位の処理に戻る。
(ステップS603)選別評価結果取得手段23は、n番目の非関連特許書類がq番目の選別ルールに合致するかどうかを判断する。
(ステップS604)選別評価結果取得手段23は、ステップS511でq番目の選別ルールに合致していた場合は、ステップS605に進み、合致していなかった場合は、ステップS606に進む
(ステップS605)選別評価結果取得手段23は、合致した選別ルールIDを選別判断結果格納部に追記する。
(ステップS606)選別評価結果取得手段23は、カウンタqを1だけインクリメントし、ステップS508に戻る。
以下、本実施の形態における特許調査結果評価装置1の具体的な動作について説明する。なお、この具体例において示した各図面の情報は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。
本具体例において、特許調査結果情報は、図8のような特許調査報告書であるとする。図8の特許調査報告書には、調査目的、検索対象の特許書類の種類、検索対象の期間、2つの特許検索式、関連特許書類を特定する情報や非関連特許書類を特定する情報等が記載されている。なお、本具体例の特許調査報告書は、関連特許書類、および非関連特許書類を特定する情報として、公開番号が記載されているものとする。
本具体例において、検索式ルールは、図9で示されるものであるとする。図9のテーブルは、検索式ルールID、検索式ルール、減点情報、および判断結果メッセージを有するレコードを多数有している。本具体例の検索式ルールと判断結果メッセージとは、ルール言語を用いて表現されている。本具体例におけるルール言語は、特許検索式の内容を、変数を用いて表現できるものとした。また、本具体例におけるルール言語は、角括弧(「[」と「]」)で1以上の値を格納する変数を表現している。例えば、[Code]と記載した場合は、特許検索式に含まれる特許分類がすべて格納された変数を表しているものとする。例えば、本具体例では、[Code]以外にも以下の変数を用いて検索式ルールを表現しているものとする。[Purpose]は、特許調査の目的が格納された変数を表しているものとする。[SearchTarget]は、検索対象の特許書類が格納された変数を表しているものとする。[SDate]は、検索対象の期間の始点が格納された変数を表しているものとする。[EDate]は、検索対象の期間の終点が格納された変数を表しているものとする。[Term]は、特許検索式に含まれる用語が全て格納された変数を表しているものとする。[TextSearchField]は、用語の検索フィールドが格納された変数を表しているものとする。[SearchCount]は、特許検索式で検索すると特定できる特許書類の件数が格納された変数を表しているものとする。[RelatedCount]は、人手で選別した関連特許書類の件数が格納された変数を表しているものとする。[Query]は、特許調査結果情報に記載されているすべての特許検索式が格納された変数を表しているものとする。なお、本具体例における上記変数名は、変数を示す角括弧を外すことで、列挙子として扱うこともできるものとする。
また、本具体例におけるルール言語は、一般的な四則演算と比較演算と論理演算とが可能であり、各々一般的に使用されている「*」や「==」や「AND」等の記号で表現しているものとする。例えば、「[Purpose] == 無効材料調査」とすれば、特許調査の目的が無効化資料調査であるかどうかが判断できる。また、本具体例におけるルール言語は、変数への代入が可能であり、「←」で代入を表現しているものとする。例えば、「[SearchTarget] ← 全て」と記載した場合は、検索対象の特許書類を全ての特許書類を対象とすることにできる。
また、本具体例におけるルール言語は、「[任意の変数].Include(要素)」と記載することで、[任意の変数]内に「要素」が含まれているかどうか(TRUEかFALSEか)を判断する処理を表しているものとする。例えば、「[TextSearchField].Include(全文)」と記載した場合は、検索フィールドに全文を指定した用語が含まれているかどうかを取得できる。また、例えば、「[Query].Include(CodeOnlyQuery)」と記載した場合は、特許検索式に特許分類のみで構成された特許検索式が含まれているかどうかを取得できる。同様に、例えば、「[Query].Include(TermAndCodeQuery)」と記載した場合は、特許検索式に特許分類と用語の両方で構成された特許検索式が含まれているかどうかを取得できる。また、本具体例におけるルール言語は、「isCodeExist([Code], [SDate], [EDate])」と記載することで、特許分類が存在する期間が検索対象の期間と重複するかどうかを判断する処理を表しているものとする。なお、本具体例では、その処理を行うために、後述する図10の特許分類期間情報から特定の特許分類に対する発行日と廃止とを取得して判断するものとした。また、本具体例におけるルール言語は、「BadCombination_AND([Term], [Code])」と記載することで、AND演算子で関連づけられた用語と特許分類が不適切な組み合わせかどうかを判断する処理を表しているものとする。なお、本具体例では、その処理を行うために、後述する図11の用語特許分類の誤った組合せ情報から用語と特許分類との誤った組み合わせを取得して判断するものとした。また、本具体例におけるルール言語は、「PopularTerm([Term])」と記載することで、検索式に含まれる用語が絞り込み能力の低い用語かどうかを判断する処理を表しているものとする。なお、本具体例では、その処理を行うために、後述する図12の絞り込み能力の低い用語情報から絞り込み能力の低い用語を取得して判断するものとした。また、本具体例におけるルール言語は、「処理.Match」と記載することで、処理した結果合致した情報を取得する処理を表しているものとする。例えば、「BadCombination([Term], [Code]).Match」と記載した場合は、不適切と判断された用語と特許分類の組み合わせとを取得する。なお、「処理.UnMatch」については、処理した結果合致しなかった情報を取得する処理を表している。また、本具体例におけるルール言語は、「Today.AddYear(−20)」と記載することで、本日の20年前を取得する処理を表しているものとする。また、本具体例におけるルール言語は、波カッコ「{」「}」で値を囲むことで、文字列として出力する処理を表しているものとする。例えば、「{PopularTerm([Term]).Match}は、絞り込み能力の低い用語です。」と記載した場合は、「PopularTerm([Term]).Match」で「情報」を取得すると、「「情報」は、絞り込み能力の低い用語です。」と出力される。
以上により、「検索式ルールID:1」は、特許調査の目的が「無効化資料調査」である場合で、かつ検索対象の特許書類の種類に「特許公開公報」と「公開実用新案」と「公表特許」と「公表実用新案」と「再公表特許」と「再公表実用新案」とが含まれていない場合に不適切であるとする検索式ルールである。また、「検索式ルールID:2」は、検索対象の期間が、特許検索式に含まれる特許分類の発行日以前、または廃止日以降のみを指定した場合に不適切であるとする検索式ルールである。また、「検索式ルールID:2」は、不適切と判断された特許分類を含む判断結果メッセージを有する。また、「検索式ルールID:3」は、特許調査の目的が「侵害予防調査」である場合で、かつ検索対象の期間が特許権の存続期間が満了した特許書類を含めるように指定されていた場合に不適切であるとする検索式ルールである。また、「検索式ルールID:4」は、特許調査の目的が「侵害予防調査」である場合で、かつ検索フィールドに「全文」が指定されていなかった場合に不適切であるとする検索式ルールである。また、「検索式ルールID:5」は、特許分類と用語との組み合わせが、図11の用語特許分類の誤った組合せ情報に含まれている場合に不適切であると判断する検索式ルールである。また、「検索式ルールID:5」は、不適切と判断された特許分類と用語を含む判断結果メッセージを有する。また、「検索式ルールID:6」は、特許検索式に含まれる用語が、図12の絞り込み能力の低い用語情報に含まれている場合に不適切であると判断する検索式ルールである。また、「検索式ルールID:6」は、絞り込み能力が低いと判断された用語を含む判断結果メッセージを有する。また、「検索式ルールID:7」は、調査対象の検索結果のうち、関連特許書類の割合が1%未満である場合に不適切であると判断する検索式ルールである。また、「検索式ルールID:8」は、特許分類のみで構成される特許検索式と、特許分類と用語からなる特許検索式が含まれていない場合に不適切であると判断する検索式ルールである。
本具体例において、特許分類期間情報は、図10で示されるものであるとする。図10のテーブルは、特許分類と、その特許分類の発行日と廃止日とを有するレコードを多数有している。例えば、「IPC:A63C9/00」は、「2006.01」に発行され、「2012.01」に廃止されている。また、「IPC:G06F17/30」は、「2006.01」に発行され、現在も継続している。本具体例では、特許分類期間情報は、「検索式ルールID:2」を判断する際に参照される。
本具体例において、用語特許分類の誤った組合せ情報は、図11で示されるものであるとする。図11のテーブルは、特許分類と、その特許分類と不適切な組み合わせとなる用語とを有するレコードを多数有している。例えば、「IPC:G06F17/30」と「データベース」との組合せは、不適切である。本具体例では、用語特許分類の誤った組合せ情報は、「検索式ルールID:5」を判断する際に参照される。
本具体例において、絞り込み能力の低い用語情報は、図12で示されるものであるとする。図12のテーブルは、全分野において頻出する絞り込み能力の低い用語を有するレコードを多数有している。絞り込み能力の低い用語情報は、例えば、「情報」等である。本具体例では、絞り込み能力の低い用語情報は、「検索式ルールID:6」を判断する際に参照される。
本具体例において、選別ルールは、図13で示されるものであるとする。図13のテーブルは、選別ルールID、選別ルール、減点情報、および判断結果メッセージを有するレコードを多数有している。本具体例の選別ルールと減点情報と判断結果メッセージとは、ルール言語を用いて表現されている。本具体例におけるルール言語は、例えば、[NonRelatedToRelatedCount]は、非関連特許と人手で選別された特許書類のうち、判断手段22が関連特許書類であると判断した特許書類の件数が格納された変数を表しているものとする。また、例えば、[RelatedToNonRelatedCount]は、関連特許と人手で選別された特許書類のうち、判断手段22が非関連特許書類であると判断した特許書類の件数が格納された変数を表しているものとする。以上により、例えば、「選別ルールID:1」は、人手で非関連特許書類であると選別された特許書類のうち、関連特許書類の可能性があると判断された特許書類が1以上含まれていた場合に不適切であるとする選別ルールである。また、「選別ルールID:1」は、不適切と判断された特許書類の件数を含む判断結果メッセージを有する。また「選別ルールID:1」は、不適切と判断された特許書類の件数に−2を掛けた点数を減点する減点情報を有する。また、「選別ルールID:2」は、人手で関連特許書類である選別された特許書類のうち、非関連特許書類の可能性があると判断された特許書類が1以上含まれていた場合に不適切であるとする選別ルールである。また、「選別ルールID:2」は、不適切と判断された特許書類の件数を含む判断結果メッセージを有する。また「選別ルールID:2」は、不適切と判断された特許書類の件数に−1を掛けた点数を減点する減点情報を有する。
ユーザ端末2のユーザが、ポインティングデバイスやキーボード等を操作し、図14で示されるように特許調査報告書を入力した後、「実行」ボタンを押したとする。すると、特許検索式「特許書類:特許(公開系) 検索対象の期間:1983.1.1〜2012.3.31 要約+請求項:データベース AND 要約+請求項:装置 AND IPC:G06F17/30」と、特許調査の目的「侵害予防調査」と、関連特許書類を特定する公開番号と、非関連特許書類を特定する公開番号とが、ユーザ端末2から特許調査結果評価装置1に送信される。その送信された特許調査報告書は、特許調査結果評価装置1の受付部101で受信され、特許調査結果情報として特許調査結果情報格納部102に格納される(ステップS201、S202)。
受付部101は、特許調査結果情報格納部102に特許調査結果情報を格納し終えると、特許調査結果情報から関連特許書類、および非関連特許書類の公開番号を取得する。受付部101は、取得した公開番号を用いて、図示しない特許書類格納部から特許書類を取得する。受付部101は、取得した特許書類のうち、関連特許の公開番号を用いて取得した特許書類を、関連特許書類格納部103に格納する。さらに受付部101は、非関連特許の公開番号を用いて取得した特許書類を非関連特許書類格納部104に格納する(ステップS203、S204)。なお、本具体例において、各特許書類格納部に格納されている特許書類は、図15で示されるものであるとする。図15(a)は、関連特許書類格納部103に格納されている関連特許書類を示し、図15(b)は、非関連特許書類格納部104に格納されている非関連特許書類を示す。図15の各テーブルは、特許書類IDと、発明の名称と、要約の文章と、特許請求の範囲の文章と、背景技術の文章等とを有するレコードを多数有している。なお、特許書類IDは、ここでは、公開番号である。また、特許書類は、ここではテーブルのレコードで示しているが、そのデータ構造は問わないことは言うまでもない。
検索式評価部107は、特許調査結果情報格納部102に新たな特許調査結果情報が格納されたことを検知すると、その特許調査結果情報に含まれる特許検索式等に対して検索式ルール格納部105に格納されている検索式ルールが合致するかを判断する(ステップS205)。以下、かかる処理の詳細を説明する。
検索式評価部107は、特許検索式等が格納されると、図示しない検索式判断結果格納部にNULLを格納し、検索式ルール格納部105から検索式ルールを順番に取得する(ステップS301、S302)。そして、検索式評価部107は、受け付けた特許検索式等が、検索式ルールと合致するかを1件ずつ判断する(ステップS303、S304)。
検索式評価部107は、1つめのルールである、「検索式ルールID:1」について判断する。本実施例で指定された特許調査の目的は「侵害予防調査」であるため、上記検索式ルールには合致していない(ステップS303、S304)。検索式評価部107は、次のルールを適用する(ステップS306)。検索式評価部107は、2つめのルールである、「検索式ルールID:2」について判断する。本実施例で指定された特許分類は「IPC:G06F17/30」であり、特許分類期間情報を参照しても期間内であるため、上記検索式ルールには合致していない。検索式評価部107は、さらに、次のルールを適用する。検索式評価部107は、3つめのルールである、「検索式ルールID:3」について判断する。本実施例で指定された特許調査の目的は「侵害予防調査」であり、検索対象の期間も現在から20年以上前の特許書類も含めて検索しようとしているため、上記検索式ルールに合致する。そして、検索式評価部107は、図示しない検索式判断結果格納部に「検索式ルールID:3」と「判断結果メッセージ:侵害予防調査に出願日が20年以上前の特許公報を検索対象にする必要はありません。」とを追記する(ステップS305)。え検索式評価部107は、さらに、次のルールを適用する。検索式評価部107は、4つめのルールである、「検索式ルールID:4」について判断する。本実施例で指定された特許調査の目的は「侵害予防調査」であり、検索フィールドは「全文」を含まないため、上記検索式ルールに合致する。そして、検索式評価部107は、図示しない検索式判断結果格納部に「検索式ルールID:4」と「判断結果メッセージ:侵害予防調査は、全文に対して行うのが適切です。」とを追記する。検索式評価部107は、さらに、次のルールを適用する。検索式評価部107は、5つめのルールである、「検索式ルールID:5」について判断する。本実施例で指定された「IPC:G06F17/30」と「データベース」とは、上記検索式ルールに合致する。そして、検索式評価部107は、図示しない検索式判断結果格納部に「検索式ルールID:5」と判断結果を含むよう処理した「判断結果メッセージ:「「G06F17/30,データベース」は、不適切な組み合わせです。」とを追記する。検索式評価部107は、6つめのルールである、「検索式ルールID:6」について判断する。本実施例で指定された「装置」は、上記検索式ルールに合致する。そして、検索式評価部107は、図示しない検索式判断結果格納部に「検索式ルールID:6」と判断結果を含むよう処理した「判断結果メッセージ:「「装置」は、絞り込み能力の低い用語です。」とを追記する。検索式評価部107は、7つめのルールである、「検索式ルールID:7」について判断する。本実施例では、100件の特許書類から10件の関連特許書類を選別したとする。本実施例では、上記検索式ルールに合致しない。検索式評価部107は、8つめのルールである、「検索式ルールID:8」について判断する。本実施例で指定された特許検索式の作成過程では、特許分類のみの特許検索式を作成していないため、上記検索式ルールに合致する。そして、検索式評価部107は、図示しない検索式判断結果格納部に「検索式ルールID:8」と「特許分類のみの特許検索式で分野を調査し、特許分類と用語を含めた特許検索式で選別対象を絞り込む作成方法が適切です。」とを追記する。以下同様に検索式ルール格納部105に格納されているすべての検索式ルールを判断する。
検索式評価部107は、検索式ルール格納部105に格納されているすべての検索式ルールを用いた判断を終えると、図示しない検索式判断結果格納部に格納されている検索式ルールIDを用いて減点情報を取得し、減点情報の合計である−27点を算出する。検索式評価部107は、第一の評価結果である−27点と図示しない検索式判断結果格納部に格納されている判断結果メッセージを第一の評価結果として取得する(ステップS307)。検索式評価部107は、第一の評価結果を取得すると、評価構成部109に第一の評価結果を渡す。
特徴ベクトル取得手段21は、関連特許書類格納部103に格納されている関連特許書類と、非関連特許書類格納部104に格納されている非関連特許書類とから特徴ベクトルを作成する(ステップS206、S207)。以下、かかる処理の詳細を説明する。
特徴ベクトル取得手段21は、関連特許書類格納部103から1件目の関連特許書類である「特許書類ID:特開2011−AAAAAA」を取得する(ステップS401、S402)。特徴ベクトル取得手段21は、取得した「特許書類ID:特開2011−AAAAAA」から、名詞の連続である「データ管理装置」、「表示部」、「検索キーワード」、「データ管理システム」、「電子機器」、「位置情報」、「現在位置」や「コンピュータ」等を用語として取得する(ステップS403)。特徴ベクトル取得手段21は、取得した用語を図示しない用語格納部に追記する(ステップS404)。特徴ベクトル取得手段21は、取得した用語ごとにTF−IDF値を「データ管理装置:0.0264」や「表示部:0.1628」等のように算出する(ステップS405)。そして、特徴ベクトル取得手段21は、TF−IDF値を要素に持ったベクトルを作成し、図示しない特徴ベクトル格納部に格納する(ステップS406、S407)。そして、特徴ベクトル取得手段21は、次の特許書類に処理を移す(ステップS408)。以下、特徴ベクトル取得手段21は、同様に関連特許書類格納部103、非関連特許書類格納部104のすべての特許書類に対して特徴ベクトルを作成する。特徴ベクトル取得手段21が取得した各特許書類の特徴ベクトルは、図16で示されるものであるとする。図16のテーブルは、特許書類IDと、特許書類の種類と、図示しない用語格納部に格納された用語に対応するベクトルの要素とを有するレコードを多数有している。
判断手段22は、代表ベクトルとして、関連特許の特徴ベクトルの平均ベクトルと非関連特許の特徴ベクトルの平均ベクトルを算出する(ステップS208、S209)。
判断手段22は、関連特許特徴ベクトルと非関連特許特徴ベクトルとの平均ベクトルが算出されると、関連特許書類格納部103に格納されている関連特許書類から非関連特許が含まれているかどうか、および非関連特許書類格納部104に格納されている非関連特許書類から関連特許が含まれているかどうかを判断する。(ステップS210、S211)。以下、かかる処理の詳細を説明する。
判断手段22は、図示しない選別判断結果格納部にNULLを格納する。そして、判断手段22は、1件目の非関連特許書類である「特許書類ID:特開2012−DDDDDD」の非関連特許特徴ベクトルを図示しない特徴ベクトル格納部から取得する(ステップS501、S502)。判断手段22は、取得した非関連特許特徴ベクトルと関連特許特徴ベクトルの平均ベクトルとのCOS尺度、および非関連特許特徴ベクトルの平均ベクトルとのCOS尺度を算出する(ステップS503、S504)。「特許書類ID:特開2012−DDDDDD」の非関連特許特徴ベクトルは、関連特許特徴ベクトルの平均ベクトルとのCOS尺度の方が大きかったとする(ステップS505)。判断手段22は、「特許書類ID:特開2012−DDDDDD」を図示しない判断結果格納部に関連特許の可能性があることを示す情報と対応付けて格納する(ステップS506)。なお、判断手段22は、非関連特許特徴ベクトルの平均ベクトルとのCOS尺度の方が大きかった場合は、何も格納しない。そして、判断手段22は、次の非関連特許特徴ベクトルに処理を移す(ステップS507)。以降、判断手段22は、図示しない特徴ベクトル格納部に格納されている残りの非関連特許書類、および関連特許書類のすべてに対しても同様に判断する。
さらに、選別評価結果取得手段23は、図示しない選別判断結果格納部に格納された情報に対して、選別ルール格納部106に格納されている選別ルールが合致するかどうかを判断する(ステップS212)。選別評価結果取得手段23は、1つめの選別ルールである「選別ルールID:1」について判断する(ステップS601、S602)。選別評価結果取得手段23は、「特許書類ID:特開2012−DDDDDD」等4件の非関連特許書類が関連特許のクラスに含まれると判断されていたとするため、「選別ルールID:1」に合致する(ステップS603、S604)。そして、選別評価結果取得手段23は、図示しない選別判断結果格納部に「選別ルールID:1」を追記する(ステップS605)選別評価結果取得手段23は、次のルールを適用する(ステップS606)。選別評価結果取得手段23は、以下同様に選別ルール格納部106に格納されているすべての選別ルールを判断する。以降、選別評価結果取得手段23は、図示しない特徴ベクトル格納部に格納されている残りの非関連特許書類、および関連特許書類のすべてに対しても同様に判断する。
次に、選別評価結果取得手段23は、図示しない特徴ベクトル格納部に格納されているすべての特徴ベクトルに対する判断を終えると、図示しない選別判断結果格納部に格納されている選別ルールIDを用いて減点数を算出する。本具体例では、人手で非関連特許と選別された特許書類のうち4件が関連特許の可能性があると判断され、人手で関連特許と選別された特許書類のうち6件が非関連特許の可能性があると判断されたとする。選別評価結果取得手段23は、図示しない選別判断結果格納部に格納されている選別ルールIDに対応する減点情報を取得して、減点情報の合計である−14点を算出する。次に、選別評価結果取得手段23は、図示しない選別判断結果格納部に格納されている選別ルールIDから判断結果メッセージ「4件の非関連特許書類が関連特許の可能性があると判断されていました。」と「6件の関連特許書類が非関連特許の可能性があると判断されていました。」とを取得する。さらに、選別評価結果取得手段23は、図示しない選別判断結果格納部に格納されている特許書類IDを取得する。そして、選別評価結果取得手段23は、−14点と、判断結果メッセージと、特許書類IDとを第二の判断結果として取得する(ステップS213)。選別評価結果取得手段23は、第二の評価結果を取得すると、評価構成部109に第二の評価結果を渡す。
評価構成部109は、第一、および第二の評価結果が渡されると、第一、および第二の評価結果の得点を100点に加算して、59点を算出する。評価構成部109は、59点と、第一の評価結果と第二の評価結果とを合わせて特許調査結果情報の評価を構成する(ステップS214)。評価構成部109は、特許調査結果情報の評価を評価出力部110に渡す。
評価出力部110は、特許調査結果情報の評価を渡されると、特許調査結果情報の評価をネットワーク100を介して、ユーザ端末2に特許調査結果情報の評価を送信する(ステップS215)。ユーザ端末2は、評価出力部110が送信した判断結果を受信すると、図17で示される表示を行う。ユーザは、図17の表示を見ることにより、特許調査結報告書の評価を確認し、必要であれば再調査を行う。
以上、本実施の形態の特許調査結果評価装置1によれば、特許調査結果情報に含まれる不適切な特許検索式が評価できるため、特許調査が妥当であるかどうかを知ることができる。例えば、特許検索式に含まれる特許調査の目的と特許書類の種類との組み合わせを評価できる。また、特許検索式に含まれる検索対象の期間を評価できる。また、特許検索式に含まれる特許分類と検索対象の期間との組み合わせを評価できる。また、特許検索式に含まれる特許調査の目的と検索対象の期間との組み合わせを評価できる。また、特許検索式に含まれる検索フィールドを評価できる。また、特許検索式に含まれる特許調査の目的と検索フィールドとの組み合わせを評価できる。また、特許検索式に含まれる特許分類と用語との組み合わせを評価できる。また、特許検索式に含まれる特許書類の絞り込みの能力が低い用語を含んでいるかどうかを評価できる。また、関連特許の割合から特許検索式の妥当性を評価できる。また、特許検索式の作成過程が適切であるかを評価できる。また、特許調査結果情報に含まれる選別情報を評価できるため、特許調査が妥当であるかどうかを知ることができる。例えば、特許調査を行った際に誤って関連特許を非関連特許書類として分類していないかどうかを評価できる。また、特許調査を行った際に誤って非関連特許を関連特許書類として分類していないかどうかを評価できる。以上により、特許調査者の能力を評価することができる。また、処理を機械的に行うため効率的に評価を行うことができる。
なお、本実施の形態において、特許調査結果評価装置1が受付部101を備える場合について説明したが、特許調査結果評価装置1は、受付部101を備えていなくてもよい。受付部101を備えていない場合には、特許調査結果情報格納部102と関連特許書類格納部103と非関連特許書類格納部104とに予め情報が格納されている特許調査結果評価装置1であっても良い。
また、本実施の形態において、特許調査結果評価装置1の受付部101が受け付けた特許調査結果情報に含まれている関連特許書類、および非関連特許書類が特許書類そのものであった場合は、特許調査結果情報格納部102と関連特許書類格納部103と非関連特許書類格納部とは、格納領域を共有していても良い。
また、本実施の形態において、特許調査結果評価装置1の判断手段22は、関連特許書類格納部103に格納された特許書類に対して、非関連特許である可能性を判断する場合について説明したが、判断手段22は、関連特許書類格納部103に格納された特許書類に対して、非関連特許である可能性を判断しなくても良い。関連特許書類格納部103に格納された特許書類に対して、非関連特許である可能性を判断しない場合は、非関連特許書類格納部104に格納された特許書類に対して、関連特許である可能性ののみを判断しても良い。
また、本実施の形態において、特許調査結果評価装置1の判断手段22は、非関連特許書類格納部104に格納された特許書類に対して、関連特許である可能性を判断する場合について説明したが、判断手段22は、非関連特許書類格納部104に格納された特許書類に対して、関連特許である可能性を判断しなくても良い。非関連特許書類格納部104に格納された特許書類に対して、関連特許である可能性を判断しない場合は、関連特許書類格納部103に格納された特許書類に対して、非関連特許である可能性ののみを判断しても良い。
また、本実施の形態において、特許調査結果評価装置1の判断手段22が、非関連特許のクラスに判断対象の特徴ベクトルが属する場合に非関連特許であると判断したが、判断手段22は、非関連特許のクラスを用いず、関連特許のクラスのみを用いて、非関連特許書類格納部104に格納された特許書類から関連特許の可能性のある特許書類であるかを判断しても良く、関連特許書類格納部103に格納された特許書類から非関連特許の可能性のある特許書類であるかを判断しても良い。非関連特許のクラスを用いない場合は、関連特許のクラスに属さない特徴ベクトルを非関連特許としても良い。なお、非関連特許のクラスを用いない場合には、機械学習を用いる方法は、使用できないため、判断手段22は、関連特許特徴ベクトルの1または2以上のクラスの代表ベクトルとの類似度を用いて関連特許のクラスに属するか否かを判断する。クラスに属するか否かの判断は、例えば、代表ベクトルと判断対象の特徴ベクトルとの類似度が予め定めた閾値以上であるかどうかで判断しても良く、各クラスタリング手法を用いて、関連特許のクラスにクラスタリングされるか否かで判断しても良い。
また、本実施の形態における特許調査結果評価装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、プログラムは、1以上の特許検索式と特許の選別の結果に関する選別情報とを有する特許調査結果情報を格納し得る特許調査結果情報格納部と、1以上の特許検索式が不適切であることを判断するためのルールである1以上の検索式ルールを格納し得る検索式ルール格納部と、調査対象の特許の選別作業の妥当性を判断するためのルールである1以上の選別ルールを格納し得る選別ルール格納部とにアクセス可能なコンピュータを、1以上の特許検索式を1以上の検索式ルールに適用し、1以上の特許検索式に合致する検索式ルールを決定し、合致する1以上の検索式ルールに対応する第一の評価結果を取得する検索式評価部、選別情報を1以上の選別ルールに適用し、選別情報に合致する選別ルールを決定し、合致する1以上の選別ルールに対応する第二の評価結果を取得する選別情報評価部、第一の評価結果および第二の評価結果を用いて、特許調査結果情報の評価を構成する評価構成部、特許調査結果情報の評価を出力する評価出力部として機能させるためのプログラムである。
なお、本実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されても良く、または、複数の装置によって分散処理されることによって実現されても良い。また、本実施の形態において、一の装置に存在する2以上の通信手段(受付部101等)は、物理的に一の媒体で実現されても良いことは言うまでもない。
また、本実施の形態では、サーバ・クライアントシステムである場合について説明したが、本発明は、サーバ・クライアントシステムにおけるサーバ装置であっても良く、スタンドアロンの装置であっても良い。スタンドアロンの装置であった場合における、受付部101は、キーボードやマウス、タッチパネル等の入力デバイスから入力された情報の受け付けても良い。評価出力部110は、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字等のための出力を行っても良い。
また、本実施の形態において、各構成要素は、専用のハードウェアにより構成されても良く、または、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されても良い。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得部や、情報を出力する出力部等におけるモデムやインターフェースカード等のハードウェアでしか実現できない機能は、上記プログラムが実現する機能には含まれない。
図18は、上記プログラムを実行して、上記実施の形態による本発明を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。
図18において、コンピュータシステム1100は、CD−ROMドライブ1105、FDドライブ1106を含むコンピュータ1101と、キーボード1102と、マウス1103と、モニタ1104とを備える。
図19は、コンピュータシステム1100の内部構成を示す図である。図19において、コンピュータ1101は、CD−ROMドライブ1105、FDドライブ1106に加えて、MPU1111と、ブートアッププログラム等のプログラムを記憶するためのROM1112と、MPU1111に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM1113と、アプリケーションプログラム、システムプログラム、およびデータを記憶するハードディスク1114と、MPU1111と、ROM1112等を相互に接続するバス1115とを備える。なお、コンピュータ1101は、LANへの接続を提供する図示しないネットワークカードを含んでいても良い。
コンピュータシステム1100に、上記実施の形態による本発明等の機能を実行させるプログラムは、CD−ROM1121、またはFD1122に記憶されて、CD−ROMドライブ1105、またはFDドライブ1106に挿入され、ハードディスク1114に転送されても良い。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ1101に送信され、ハードディスク1114に記憶されても良い。プログラムは実行の際にRAM1113にロードされる。なお、プログラムは、CD−ROM1121やFD1122、またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ1101に、上記実施の形態による本発明の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいても良い。コンピュータシステム1100がどのように動作するのかについては周知であり、詳細な説明は省略する。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。