本発明は、対象となる知的財産の権利を示す権利情報を解析して、解析の結果から、検索するために必要な文字または画像を判断して、判断した文字または画像を用いて検索エンジンで検索して、検索の結果から対象となる知的財産の権利を侵害している可能性のある侵害情報を抽出して、抽出した侵害情報に対する評価を取得して、取得した評価を機械学習して、機械学習の結果を侵害情報の抽出の精度に反映するものである。以下、本発明を実施するための最良の形態を、実施例に基づいて詳細に説明する。
<基本概念>・・・まず、本発明の侵害情報抽出技術の基本的な概念について説明する。本発明は、人工知能で対象となる知的財産の権利を侵害している可能性のある侵害情報を抽出する精度を高める、人工知能技術に関する。具体的には、対象となる知的財産の権利を示す権利情報(例えば、登録時の公報)を解析し、解析の結果から、検索するために必要な文字または画像(例えば、特許の独立項に記載されている文字や、意匠の実線と破線の画像など)を判断し、前記判断した文字または画像を用いて、検索エンジンで検索(文字検索または画像検索)し、前記検索の結果から、前記対象となる知的財産の権利を侵害している可能性のある侵害情報を抽出し(例えば、検索結果に表示された、Webページ/動画/画像などのコンテンツの中から侵害情報を抽出)、前記抽出した侵害情報に対する評価を取得し(例えば、「いいねボタン」や「悪いねボタン」などを設置して取得するや、役に立った度合いの入力を受け付けて取得する、など)、前記取得した評価を機械学習(例えば、強化学習または深層強化学習)し、前記機械学習の結果を、前記抽出手段が侵害情報を抽出する精度に反映するものである。例えば、抽出する精度が高くなるということは、抽出する侵害情報が「いいねボタン」が押されやすい侵害情報や、役に立つ度合いが高い侵害情報になるということを意味する。
ここで、他の知的財産の権利を示すデータ(登録時の公報)を加工した学習データ(丸付けした画像データまたはテキストデータ)を機械学習してモデルを生成し、前記解析にあたり、生成したモデルを利用して、前記対象となる知的財産の権利を示す権利情報を解析してもよい。例えば、画像データを機械学習してモデルを生成するには、機械学習のうちの手法である深層学習を行ってもよい。
以下、本発明を実施するための最良の形態を、実施例に基づいて詳細に説明する。
<全体構成>・・・図1は、本実施形態による侵害情報抽出システムの全体構成を示す概念図である。図1に示すように、侵害情報抽出システム100は、侵害情報抽出サーバ10と、ユーザ80のユーザ端末82により構成されている。これらは、図示しないインターネットなどのネットワークを介して、相互にデータ通信可能となっている。ユーザ80には、後述するグループを構成するメンバーや、その他の者が含まれてもよい。
図1に示すように、まず、侵害情報抽出サーバ10は、対象となる知的財産の権利を示す権利情報(登録時の公報など)を、ユーザ80がユーザ端末82によって入力した内容から取得する。例えば、ユーザ80によって入力された登録番号によって権利情報を取得してもよいし、ユーザ80によって入力された内容をそのままを権利情報として取得してもよい(例えば、ユーザ80によって入力された特許請求の範囲など)。
また、侵害情報抽出サーバ10は、必要に応じて、他の知的財産の権利を示すデータ(登録時の公報など)を加工した学習データを機械学習して(ステップS2)、モデルを生成してもよい(ステップS3)。具体的には、色々な知的財産権(特許権、実用新案権、意匠権、商標権)の権利情報を示す画像の特徴部分(キーワードや図形の特徴点など)に丸付けをして加工した学習データ18を、数十〜数万個用意して、その学習データ18を機械学習してモデルを生成する。丸付けは、例えば、どのような分野のどのような内容か、を認識するために、分野を示す分野情報と、内容を示す内容情報の両方に行う。例えば、画像データを機械学習してモデルを生成するには、機械学習のうちの手法である深層学習を行ってもよい。
分野を示す分野情報は、特許であれば、IPC分類、FI、Fタームなどであり、商標であれば、商品・役務の区分などであり、意匠であれば、意匠分類、意匠に係る物品などである。実用新案については、特許と同様である。
また、内容を示す内容情報は、特許であれば、請求の範囲の独立項のキーワード、従属項のキーワードなどであり、商標であれば、登録商標の文字または図形であり、意匠であれば、図面の実線、破線などである。実用新案については、特許と同様である。
なお、学習データとしては、文字と図形の両方に対応して認識できるため画像の学習データが好ましいが、テキストの学習データを利用することを妨げるものではない。
以上のような学習データを機械学習すると、その学習データにカスタマイズされたモデルが生成される。すなわち、公報のどの箇所に分野情報があって、どのような文字が記載されているか、どの箇所に内容情報があって、どのような文字または図形なのか、などが機械学習されたモデルが生成される。
次に、侵害情報抽出サーバ10は、ユーザ80がユーザ端末82によって入力した対象となる知的財産の権利を示す権利情報を解析する(ステップS4)。この解析は、公報に何が記載されているかを把握するために行うものである。例えば、登録時の公報を画像キャプチャして画像解析してもよいし、登録時の公報を文字としてテキストマイニングしてもよい。
公報の決まった場所に、分野を示す分野情報や、内容を示す内容情報が記載されているため、機械学習を必須としなくても解析は可能であるが、解析の精度を上げるために、前記ステップS3で生成したモデルを使用して、解析を行うようにしてもよい。例えば、モデルを利用して解析する場合には、対象となる知的財産の権利を示す画像(権利情報)を入力すると、権利情報からどの部分(分野情報や内容情報を示すキーワードや図形の特徴点など)を抜き出すかを解析する。
そして、侵害情報抽出サーバ10は、前記解析の結果から、検索するために必要な文字または画像を判断する(ステップS5)。具体的には、検索エンジンで、文字検索または画像検索をするために、検索に必要な文字または画像がどれなのかを判断する。検索に必要な文字または画像とは、例えば、分野情報は文字を判断し、内容情報は文字または図形を判断することになる。具体的には、分野情報であれば、特許のIPC分類の文字や、商標の商品・役務の区分などの文字を判断する。内容情報であれば、特許の独立項に記載されている文字や、意匠の実線と破線の画像などを判断する。
次に、侵害情報抽出サーバ10は、前記判断した文字または画像を用いて、検索エンジンで検索を行う(ステップS6)。前記ステップS5で判断した文字または画像を使って、既知の検索エンジンで、文字検索や画像検索を行う。
次に、侵害情報抽出サーバ10は、前記検索の結果から、前記対象となる知的財産の権利を侵害している可能性のある侵害情報を抽出する(ステップS7)。具体的には、検索結果に表示されたWebページ/動画/画像などのコンテンツの中から侵害情報を抽出する。なお、これらのコンテンツを解析して侵害情報を抽出してもよいし、解析せずにランダムに抽出してもよい。例えば、解析の精度が高い場合には、Webページ/動画/画像などのコンテンツを解析して侵害情報を抽出すると、最終的な強化学習後の抽出の精度がより高くなることが期待できる。
次に、侵害情報抽出サーバ10は、前記抽出した侵害情報に対する評価を取得する(ステップS8)。例えば、ユーザ(企業の社内の役員または従業員)や、サポーター(企業がサポーターとして契約している専門家など)に、抽出した侵害情報に対して評価をしてもらい、その評価を取得する。具体的には、「いいねボタン」や「悪いねボタン」などを設置して、そのボタンを押してもらうことを評価を取得するようにしてもよいし、所定数(例えば5個)の星を表示し、星の数が多いほど高評価、星の数が少ないほど低評価を示すような表示をし、ユーザやサポーターに星の数を選んでもらって評価を取得するようにしてもよい。
そして、侵害情報抽出サーバ10は、前記ステップS8で取得した評価を機械学習する(ステップS9)。例えば、評価を機械学習するには、機械学習のうちの手法である、強化学習または深層強化学習を行ってもよい。深層強化学習は、強化学習に深層学習を掛け合わせたものである。強化学習の例としては、「いいねボタン」が押された侵害情報を1点加点とし、「悪いねボタン」が押された侵害情報を1点減点として、スコアを最大化する侵害情報とはどういう情報なのかを機械学習するという具合である。例えば、星5個で評価を取得する場合には、星5個と評価された侵害情報を2点加点、星4個と評価された侵害情報を1点加点、星3個と評価された侵害情報を加減無し、星2個と評価された侵害情報を1点減点、星1個と評価された侵害情報を2点減点、としてスコアを最大化する侵害情報とはどういう情報なのかを機械学習する。
次に、侵害情報抽出サーバ10は、前記ステップS9の機械学習の結果を、侵害情報を抽出する精度に反映する(ステップS10)。例えば、強化学習の結果である、「スコアを最大化する侵害情報とはどういう情報なのか」を、侵害情報の抽出に反映することで、抽出する精度を上げることができる。つまり、抽出する精度が高くなるということは、抽出する侵害情報が「いいねボタン」が押されやすい侵害情報や、役に立つ度合いが高い侵害情報になるということを意味する。
このように、人工知能で対象となる知的財産の権利を侵害している可能性のある侵害情報を抽出する精度を高めるため、知的財産の権利を侵害している可能性のある侵害情報を精度よく抽出することができる。
<侵害情報抽出サーバのハードウェア構成>・・・図2は、本実施形態の侵害情報抽出サーバ10のハードウェア構成を示すブロック図である。侵害情報抽出サーバ10は、例えば、プロセッサ12、メモリ14、ストレージ16、通信部34を備え、これらは図示しないバスにより接続されている。プロセッサ12は、例えば、CPU(Central Processing Unit)により構成され、メモリ14に記憶された各種プログラムを読み出して実行することで、各種処理を行う。
前記メモリ14は、プロセッサ12により実行されるプログラムを記憶するものであり、例えば、ROM(Read Only Memory)やRAM(Random Access Memory)により構成される。例えば、図3に示す各種手段が記憶されている。ストレージ16は、例えば、学習データ18、モデル20、権利情報22、判断結果24、検索結果25、侵害情報26、評価28、学習結果30、グループ情報32や、図示しない制御プログラムなどを記憶するものである。通信部34は、ネットワークを介して、ユーザ端末82や、他の外部装置とデータ通信を行うものである。
ストレージ16に記憶される学習データ18は、例えば、色々な知的財産の権利(特許権、実用新案権、意匠権、商標権)を示すデータ(例えば、登録時の公報)に丸付けをして加工したものである。学習データ18は、例えば、数十〜数万用意され、これらの学習データ18を機械学習して、モデル20が生成される。丸付は、例えば、どのような分野のどのような内容か、を認識するために、分野を示す分野情報と、内容を示す内容情報の両方に行う。例えば、画像データを機械学習してモデルを生成するには、機械学習のうちの手法である深層学習を行ってもよい。
図5は、分野を示す分野情報に関する学習データの一例を示す図であり、(A)は特許権に関する学習データ18A、(B)は意匠権に関する学習データ18B、(C)は商標権に関する学習データ18Cの一例を示す。分野を示す分野情報は、特許であれば、IPC分類、FI、Fタームなどである。図5(A)の例では、IPC分類、FIタームに囲み線Cで丸付け加工されている。実用新案についても同様である。また、分野を示す分野情報は、意匠であれば、意匠分類、意匠に係る物品などであり、図5(B)の例では、意匠に係る物品、意匠分類、国際意匠分類、Dタームに囲み線Cで丸付け加工されている。また、分野を示す分野情報は、商標であれば、商品・役務の区分などであり、図5(C)の例では、「第9類」、「第37類」といった区分に囲み線Cで丸付け加工がされている。
図6は、特許の内容を示す内容情報に関する学習データ18Aの一例を示す図である。権利の内容を示す内容情報は、特許であれば、請求の範囲の独立項のキーワード、従属項のキーワードなどである。図6の例では、学習データとして、特許請求の範囲を示す画像が用いられる。そして、権利範囲の画像に丸付けをして加工したものを学習データ18Aとする。丸付けは、図6に示すように、キーワードを囲み線Cで囲うことにより行われる。図示の例では、囲み線Cにより、「本人」、「認定する」、「画像を」、「正当性」、「同時」、「写真付証明書」、「顔」、「ユーザ」、「一致」の文言がキーワードとして囲み線Cにより囲まれている。実用新案についても同様である。
また、IPC分類を学習データに紐づけて機械学習してもよい。更に、キーワードに加えて、特許権や実用新案権の権利範囲をもっともよく反映している図面のうち、前記キーワードに対応する部分を丸付けした画像を学習データとして加えてもよい
図7は、意匠の内容を示す内容情報に関する学習データ18Bの一例を示す図である。意匠権の権利内容は、図面に表されたものによって決まるものであり、学習データとして、図面の画像が用いられる。そして、権利範囲の画像の特徴部分に丸付けをして加工したものを学習データ18Bとする。図7は、部分意匠の例であり、丸付けは、例えば、「正面及び平面側斜視図」の全体、すなわち、破線部分も含めて囲み線C1で囲むとともに、意匠登録を受けようとする部分、すなわち、実線部分を囲み線C2で囲むことにより行われる。
なお、図7では、「正面及び平面側斜視図」についてのみ示したが、他の図面についても同様の丸付けを行うようにしてもよい。また、図面の丸付けに加え、「意匠の説明」からキーワードに丸付けをして、あわせて学習データ18Bとしてもよい。また、意匠の分類を、学習データに紐づけて機械学習してもよい。
また、商標の権利内容に関する学習データは、文字商標の場合は、特許権や実用新案権と同様にキーワードを丸付けすることで学習データとされる。例えば、商標の文字全体を一つのキーワードとして丸付けしてもよいし、2以上の語からなる結合商標の場合には、全体をキーワードとして丸付けすることに加え、商標を構成する各語をキーワードとして丸付けしてもよい。また、前記キーワードに加えて、区分を学習データに紐づけて機械学習してもよい。
文字商標以外の商標についても、同様に画像を用い、全体を特徴部分として丸付けして囲ったり、文字と結合した画像部分を特徴部分として丸付けして囲って、学習データを用意してもよい。
なお、学習データとしては、文字と図形の両方に対応して認識できるため画像の学習データが好ましいが、テキストの学習データを利用することを妨げるものではない。
前記ストレージ16に記憶されるモデル20は、学習データ18を機械学習して生成されるもので、ユーザ80から取得した対象となる知的財産の権利を示す権利情報の解析に利用される。
権利情報22は、ユーザ80から入力された知的財産の権利を示す権利情報(登録番号、特許請求の範囲、権利者情報など)である。例えば、特許権であれば、登録番号に対して、特許請求の範囲、権利者情報、IPC分類などが紐づけて記憶される。実用新案権についても同様である。
意匠権であれば、登録番号に対して、図面、権利者情報、分類などが紐づけて記憶される。商標権であれば、登録番号に対して、商標、権利者情報、区分などが紐づけて記憶される。
判断結果24は、ユーザ80から入力された対象となる知的財産の侵害情報の抽出のための検索に必要な文字または画像として判断されたものである。
検索結果25は、判断結果24である文字または画像を用いて、検索エンジンで検索(文字検索または画像検索)した結果である。
侵害情報26は、判断結果24に基づいて、検索エンジンを利用して検索した検索結果25から、前記対象となる知的財産の権利を侵害している可能性のある侵害情報を抽出したものである。検索結果に表示されたWebページ/動画/画像などのコンテンツは削除されるものも多数あるため、抽出した侵害情報は、ダウンロードして、ダウンロードした内容と日時とを紐づけて記憶してもよい。また、侵害情報は一つとは限らず、複数の侵害情報が検索によりヒットした場合には、それら複数の侵害情報が、ユーザ80から入力された知的財産権に紐づけて記憶される。また、抽出した全ての侵害情報をダウンロードするとストレージコストが膨大になるため、例えば保存ボタンを設置して、ユーザが保存ボタンを押した侵害情報だけを保存して、保存ボタンが押されなかった侵害情報は一定期間後に破棄してもよい。逆に、抽出した侵害情報のURLだけをユーザに提供して、ユーザが保存ボタンを押した侵害情報だけをダウンロードして保存してもよい。
評価28は、抽出した侵害情報26に対する評価である。評価28の取得は、例えば、侵害情報26をユーザ端末82に表示する際に、その侵害情報が役立った場合に押す「いいねボタン」や、侵害情報が役立たたなかった場合に押す「悪いねボタン」を表示し、ユーザ80がこれらのボタンを押すことによって、その評価内容が取得される。また、所定数(例えば5個)の星を表示し、星の数が多いほど高評価、星の数が少ないほど低評価を示すような表示をし、ユーザやサポーターに星の数を選んでもらって評価を取得するようにしてもよい。
学習結果30は、前記取得した評価28を機械学習した結果である。例えば、評価を機械学習するには、機械学習の手法は、例えば、強化学習または深層強化学習が用いられる。深層強化学習は、強化学習に深層学習を掛け合わせたものである。強化学習の例としては、「いいねボタン」が押された侵害情報を1点加点とし、「悪いねボタン」が押された侵害情報を1点減点として、スコアを最大化する侵害情報とはどういう情報なのかを機械学習するという具合である。学習結果30は、例えば、前記侵害情報26と上述したスコアを紐づけて記憶される。例えば、星5個で評価を取得する場合には、星5個と評価された侵害情報を2点加点、星4個と評価された侵害情報を1点加点、星3個と評価された侵害情報を加減無し、星2個と評価された侵害情報を1点減点、星1個と評価された侵害情報を2点減点、としてスコアを最大化する侵害情報とはどういう情報なのかを機械学習する。
グループ情報32は、所定のメンバーからなるグループに関する情報である。グループは、例えば、企業の企画経営部、知的財産部、〇〇チーム、社外の専門家など、所定のメンバーで構成されるものであり、メンバーの組み合わせは調整できる。当該グループ内で、抽出した侵害情報26が共有される。グループ総意の評価として、評価28をつけることもできる。
<侵害情報抽出サーバの機能構成>・・・図3は、侵害情報抽出サーバ10の機能構成を示すブロック図である。侵害情報抽出サーバ10は、解析手段40、生成手段42、判断手段43、検索手段44、抽出手段46、評価取得手段48、機械学習手段49、反映手段50、通知手段51、ダウンロード手段52、保存手段54、グループ作成手段56、共有手段58、権利者情報取得手段60、根拠特定手段62、キーワード受付手段64、管理手段66、出力手段68、算出手段70、並替手段72を備えている。
解析手段40は、対象となる知的財産の権利を示す権利情報を解析するものである。この解析は、公報に何が記載されているかを把握するために行う。例えば、登録時の公報を画像キャプチャして画像解析してもよいし、登録時の公報を文字としてテキストマイニングしてもよい。対象となる知的財産の権利を示す権利情報は、例えば、ユーザ80によって入力された登録番号によって、外部データベースから当該登録番号に該当する権利の権利情報を取得してもよいし、ユーザ80によって入力された権利範囲そのまま(例えば、特許請求の範囲の文言や、意匠の図面など)を権利情報としてもよい。
なお、ユーザ80による入力は、解析手段40がネットワークを介してユーザ端末82の表示部92(図1参照)に、対象となる知的財産の権利を示す権利情報を入力させるための画面を表示し、画面を見たユーザ80が、入力部90によって行う。当該入力した内容を、通信部及びネットワークを介して、侵害情報抽出サーバ10に送信することにより、侵害情報抽出サーバ10は、権利情報を取得する。
図8には、ユーザ端末82の表示部92に表示される画面110の一例が示されている。画面110には、特許、商標、意匠、実用新案などを選択できるプルダウンメニュー112、登録番号入力欄114、特許や実用新案のためのIPC分類入力欄116A、意匠の分類のための分類入力欄116B、商標の区分のための区分入力欄116Cが表示されている。
このほか、キーワードの追加により判断精度をカスタマイズするためのキーワード入力欄118、指定された権利者が保有する知的財産権の登録番号を一括で取得するための権利者情報入力欄120、登録公報を直接入力するための登録公報入力欄122が表示されている。これらの入力欄に118〜122については、後述する。
生成手段42は、他の知的財産の権利を示すデータ(登録時の公報など)を加工した学習データを機械学習して、モデルを生成するものである。例えば、画像データを機械学習してモデルを生成するには、機械学習のうちの手法である深層学習を行ってもよい。具体的には、色々な知的財産権の登録時の公報の画像に丸付などをした画像の学習データ18を、数十〜数万個用意して、その学習データ18を機械学習してモデル20を生成する。丸付は、例えば、どのような分野のどのような内容か、を認識するために、分野を示す分野情報と、内容を示す内容情報の両方に行う。
学習データ18は、例えば、特許権については、図5(A)の学習データ18Aに示すように、分野を示す分野情報として、IPC分類、FI、Fタームなどに囲み線Cで丸付けを行ったものと、図6の学習データ18Aに示すように、内容を示す内容情報として、請求の範囲の独立項のキーワード、従属項のキーワードなどに囲み線Cで丸付けを行ったものが利用される。文字商標についても同様である。生成手段42は、特許や実用新案については、IPC分類を学習データ18Aに紐づけて機械学習し、文字商標については区分を学習データに紐づけて機械学習する。また、特許や文字商標の、丸付けして抜き出したキーワードとその類語もまとめて機械学習してもよい。
また、意匠権については、図5(B)の学習データ18Bに示すように、分野を示す分野情報として、意匠分類や意匠に係る物品などの囲み線Cで丸付けを行ったものと、図7の学習データ18Bに示すように、内容を示す内容情報として、画像全体、および画像中の特徴ある図形部分を囲み線C1、C2で丸付けしてものが利用される。囲み線C1、C2で抜き出した図形(特徴点)と、それに似た図形(似た特徴点)もまとめて機械学習してもよい。図形商標や、図形と文字が結合した結合商標のうちの図形部分についても、同様に丸付けが行われた部分と、その部分に似た特徴点をまとめて機械学習してもよい。生成手段42は、意匠の分類を学習データ18Bに紐づけて機械学習してもよいし、商標の区分を商標権の学習データに紐づけて機械学習してもよい。
なお、図5〜図7に示す丸付けは一例であり、権利範囲を示す画像の特徴部分(キーワードや図形などの特徴点)をハイライトで示したり、色分けによって他の部分と分けるようにしてもよい。むろん、これらの加工例も一例であり、これらを組み合わせてもよいし、同様の効果を奏する範囲内で、適宜変更してよい。
以上のような学習データ18を機械学習すると、その学習データ18にカスタマイズされたモデル20が生成される。すなわち、公報のどの箇所に分野情報があって、どのような文字が記載されているか、どの箇所に内容情報があって、どのような文字または図形なのか、などが学習されたモデル20が生成される。生成されたモデル20は、ストレージ16に記憶される。
前記解析手段40は、前記生成されたモデル20を利用して、対象となる知的財産の権利を示す権利情報を解析してもよい。例えば、モデル20に、対象となる知的財産の権利を示す権利情報の画像(ユーザ80が保有する知的財産権の権利情報を表す画像)を入力し、権利情報からどの部分を抜き出すかを解析する。抜き出す部分は、例えば、キーワードや図形などの特徴部分である。
判断手段43は、前記解析手段40の解析の結果から、検索するために必要な文字または画像を判断するものである。具体的には、検索エンジンで、文字検索または画像検索をするために、検索に必要な文字または画像がどれなのかを判断する。検索に必要な文字または画像とは、例えば、分野情報は文字を判断し、内容情報は文字または図形を判断することになる。具体的には、特許の独立項に記載されている文字や、意匠の実線と破線の画像などを判断する。判断結果24は、ストレージ16に記憶される。
検索手段44は、前記判断手段43によって判断した文字または画像を用いて、検索エンジンで検索を行うものである。検索結果25は、ストレージ16に記憶される。
抽出手段46は、前記検索手段44による検索の結果から、対象となる知的財産の権利を侵害している可能性のある侵害情報を抽出するものである。具体的には、検索結果に表示されたWebページ/動画/画像などのコンテンツの中から侵害情報を抽出する。なお、これらのコンテンツを解析して侵害情報を抽出してもよいし、解析せずにランダムに抽出してもよい。例えば、解析の精度が高い場合には、Webページ/動画/画像などのコンテンツを解析して侵害情報を抽出すると、最終的な強化学習後の抽出の精度がより高くなることが期待できる。抽出した侵害情報26は、ストレージ16に記憶される。
なお、検索エンジンで検索した場合、例えば、学術論文や権利者自身の商品販売サイトなどの侵害情報とはならないノイズを拾ってしまうことがある。そこで、抽出手段46は、フィルタ機能を備えている。
例えば、キーワードでノイズ除去する場合、検索エンジンによって検索すると、検索一覧ページではページタイトルが表示されるので、そのページタイトルから、学術系、販売系のキーワードが含まれていれば排除して、ノイズ除去を行う。
または、除外するURLリストを作成し、そのリスト内のURLに該当する場合には、抽出する侵害情報から除外してもよい。むろん、他の手法によるノイズ除去を行うことを妨げるものではない。
評価取得手段48は、抽出手段46によって抽出した侵害情報26に対する評価28を取得するものである。評価28の取得は、例えば、ユーザ(企業の社内の役員または従業員)や、サポーター(企業がサポーターとして契約している専門家など)に、抽出した侵害情報に対して評価をしてもらい、その評価を取得する。具体的には、「いいねボタン」や「悪いねボタン」などを設置して、そのボタンを押してもらうことで評価を取得するようにしてもよいし、所定数(例えば5個)の星を表示し、星の数が多いほど高評価、星の数が少ないほど低評価を示すような表示をし、ユーザやサポーターに星の数を選んでもらって評価を取得するようにしてもよい。取得した評価28は、ストレージ16に記憶される。「いいねボタン」や「悪いねボタン」、所定数の星などは、どこに表示してもよいし、メールなどで評価依頼を通知してもよい。
図9は、抽出した複数の侵害情報132〜140のうち、ユーザ80が侵害情報136を選択した場合に、画面150に侵害情報136の詳細が示される様子を示す。画面150には、侵害情報ページのURL152、侵害情報ページ154、文章156、当該文章156中の侵害の根拠となる部分を、アンダーライン、太字、ハイライトなどで表した根拠部分158、いいねボタン160、悪いねボタン162が表示されている。前記評価取得手段48は、いいねボタン160や、悪いねボタン162が押された結果を取得して、ストレージ16に記憶する。あくまで一例であって、図9の通りに配置されていなくても構わない。例えば、いいねボタン160、悪いねボタン162は、図9左側の侵害情報の一覧に配置されてもよい。例えば、示される侵害情報136がダウンロードされた情報である場合は、侵害情報ページのURL152は示さなくてもよい。
機械学習手段49は、前記評価取得手段48によって取得した評価28を機械学習するものである。例えば、評価を機械学習するには、機械学習のうちの手法である、強化学習または深層強化学習を行ってもよい。深層強化学習は、強化学習に深層学習を掛け合わせたものである。強化学習の例としては、「いいねボタン」が押された侵害情報を1点加点とし、「悪いねボタン」が押された侵害情報を1点減点として、スコアを最大化する侵害情報とはどういう情報なのかを機械学習するという具合である。例えば、星5個で評価を取得する場合には、星5個と評価された侵害情報を2点加点、星4個と評価された侵害情報を1点加点、星3個と評価された侵害情報を加減無し、星2個と評価された侵害情報を1点減点、星1個と評価された侵害情報を2点減点、としてスコアを最大化する侵害情報とはどういう情報なのかを機械学習する。
反映手段50は、前記機械学習手段49による機械学習の結果30を、前記抽出手段46が侵害情報を抽出する精度に反映するものである。例えば、強化学習の結果である、「スコアを最大化する侵害情報とはどういう情報なのか」を、侵害情報の抽出に反映することで、抽出する精度を上げることができる。つまり、抽出する精度が高くなるということは、抽出する侵害情報が「いいねボタン」が押されやすい侵害情報や、役に立つ度合いが高い侵害情報になるということを意味する。このように、ユーザ80から取得した評価28をフィードバックする強化学習機能により、抽出の精度をあげていくことができる。
また、反映手段50は、前記機械学習の結果30を、前記判断手段43が判断する精度にも反映してもよい。例えば、強化学習の結果である、「スコアを最大化する侵害情報とはどういう情報なのか」を、侵害情報の抽出に反映することで、抽出する精度を上げることができる。検索するための文字または画像の精度が高くなれば、検索の精度が高くなり、抽出するための母数である検索結果の精度が高くなるため、間接的に抽出精度が高くなる。
次に、通知手段51は、前記抽出手段46が定期的(例えば、毎日1回/週1回/隔週1回/月1回など)に侵害情報を抽出し、今回抽出した侵害情報が、前回抽出した侵害情報から変更がある場合に、抽出の結果に変更があることをユーザ80に通知するものである。侵害情報の変更とは、例えば、前回の抽出では5個の侵害情報が抽出され、今回の抽出では7個の侵害情報が抽出した場合などである。なお、定期的に抽出していても抽出結果に変更があるケースとしては、抽出の精度が高くなり、これまで抽出できていなかった侵害情報を抽出できるようになった場合や、新しい侵害情報を誰かがインターネット上に掲載したために抽出した場合などがある。なお、ユーザ80側へ通知される情報には、単に侵害情報に変更があったことのみならず、変更のあった侵害情報へアクセスする手段を含んでもよい。このように定期的に判断して変化があれば通知することで、監視通知機能を持たせることができる。ユーザ80側が把握している侵害情報をアップデートするのに役立つ。
ダウンロード手段52は、前記抽出手段46によって抽出した侵害情報をダウンロードするものである。保存手段54は、ダウンロード手段52によってダウンロードした内容と日時とを紐づけて、ストレージ16に侵害情報26として自動的に保存するものである。また、抽出した全ての侵害情報をダウンロードするとストレージコストが膨大になるため、例えば保存ボタンを設置して、ユーザ80が保存ボタンを押した侵害情報だけを保存して、保存ボタンが押されなかった侵害情報は一定期間後に破棄してもよい。逆に、抽出した侵害情報のURLだけをユーザ80に提供して、ユーザ80が保存ボタンを押した侵害情報だけをダウンロードして保存してもよい。
グループ作成手段56は、所定のメンバーからなるグループを作成するものである。例えば、ユーザ端末82の表示部92に、グループのメンバーを指定するための画面を表示させ、当該画面に入力された所定のメンバーごとに、グループ情報32としてストレージ16に記憶する。グループは、例えば、企業の企画経営部、知的財産部、〇〇チームや、社外の専門家など、所定のメンバーで構成されるものであるが、これに限定されない。また、作成したグループ内で、侵害情報についてチャット可能なチャットルームも作成できる。
共有手段58は、グループ作成手段56で作成されたグループ内で、抽出した侵害情報26を共有するものである。これにより、部内共有、チーム共有、社外の専門家との共有などが可能となり、侵害情報26を効率的に供給することができる。
権利者情報取得手段60は、ユーザ80から対象となる知的財産の権利者の情報を取得するものである。例えば、ユーザ80から権利情報を取得するための画面110に表示された権利者情報入力欄120に入力された権利者情報をネットワークを介して取得する。また、ユーザ80によって入力された登録番号から、対象となる知的財産の権利者の情報を取得してもよい。
そして、前記解析手段40は、取得した権利者が保有する知的財産を示す権利情報を一括で解析する。その権利者が保有する知的財産を示す権利情報を一括で解析するため、1つ1つ登録番号を入力する手間を省くことができる。具体的には、知的財産権の種類と登録番号によって特定される権利の登録公報などから権利情報を解析する。解析においては、必要に応じて前記モデル20を使用してもよい。生成されたモデル20に、解析した権利情報の画像などを入力すると、解析手段40が、どのキーワードを抜き出すか、あるいは、どの図形や特徴点を抜き出すかを一括で解析し、検索手段44が、解析結果にもとづいて、既知の検索エンジンを利用して検索し、抽出手段46が、検索結果から、取得した権利者が保有する知的財産権を侵害している可能性のある侵害情報を一括で抽出する。
次に、根拠特定手段62は、前記抽出手段46によって抽出した侵害情報のどの部分に、侵害の根拠があるかを特定するものである。例えば、図9に示す画面130において、ユーザ80が、侵害情報136を選択すると、図9の右側に示す画面150のように、侵害情報136のURL152と、侵害情報ページ154と、侵害情報ページ154に記載された文章156が表示される。根拠特定手段62は、例えば、前記文章156中の侵害の根拠となる部分を、アンダーライン、太字、ハイライトなどで表して根拠部分158を明示する。
キーワード受付手段64は、ユーザ80からキーワードの指定を受け付けるものである。例えば、図8に示すように、ユーザ80から権利情報を取得するための画面110に表示されたキーワード入力欄118に、ユーザ80が、ユーザ端末82を用いて入力したキーワードの指定を受け付ける。指定されたキーワードは、前記抽出手段46が侵害情報を抽出する際に、キーワードを反映して抽出するように用いられる。キーワードを追加することにより、判断精度をカスタマイズすることができる。また、前記判断手段43が判断した文字を、変更したり追加したりすることもできる。
管理手段66は、抽出手段46で抽出した侵害情報のURLを管理するものである。出力手段68は、管理手段66によって管理された複数のURLを一覧にしたレポートを出力するものである。例えば、抽出した全ての侵害情報のURLを一覧にすると膨大になるので、所定の期間を設定して、その期間中に抽出した侵害情報のURLを一覧にしたレポートを出力してもよい。出力するレポートのファイル形式は、CSV形式やPDF形式が好ましが、他のファイル形式を妨げるものではない。
算出手段70は、前記抽出手段46によって抽出した侵害情報26の侵害可能性を算出するものである。侵害可能性の算出は、例えば、特許権や実用新案権であれば、同じキーワードを含む個数が多いほど侵害可能性が高く、同じキーワードを含む個数が少ないほど侵害可能性が低いと算出する。例えば、図形の意匠権や商標権であれば、図形の特徴点が似ている度合いが高いほど侵害可能性が高く、図形の特徴点が似ている度合いが低いほど侵害可能性が低いと算出する。このような侵害可能性の算出結果は、例えば、パーセンテージで示されてもよい。
並替手段72は、判断手段70で算出した侵害可能性の高い順に、抽出した侵害情報26を並び替えるものである。例えば、図9の左側の画面130であれば、侵害情報132が最も侵害可能性が高く、最上段に表示され、侵害情報134以降になるほど侵害可能性が低くなるという具合である。このような並び替えにより、ユーザ80は、侵害可能性の高い侵害情報から順に詳細を確認することができる。
<ユーザ端末の構成>・・・図4は、本実施形態のユーザ端末82の構成を示すブロック図である。ユーザ端末82は、例えば、プロセッサ84、メモリ86、ストレージ88、入力部90、表示部92、通信部94を備え、これらは図示しないバスにより接続されている。プロセッサ84は、例えば、CPU(Central Processing Unit)により構成され、メモリ86に記憶された各種プログラムを読み出して実行することで、各種処理を行う。
前記メモリ86は、プロセッサ84により実行されるプログラムを記憶するものであり、例えば、ROM(Read Only Memory)やRAM(Random Access Memory)により構成される。ストレージ88は、例えば、侵害情報抽出サーバ10から取得した情報や、図示しない制御プログラムなどを記憶するものである。入力部90は、キーボードやタッチパネルがあるが、これに限定されない。表示部92は、ディスプレイやタッチパネルである。通信部94は、ネットワークを介して、侵害情報抽出サーバ10と各種データ通信を行うものである。むろん、必要に応じて、他の外部装置とデータ通信を行うようにしてもよい。
このようなユーザ端末82としては、スマートフォンやパソコン、タブレットなどが利用されるが、これに限定されるものではない。また、ユーザ80ごとに異なる種類のユーザ端末82を用いてもよい。
なお、上述した各種手段は、本実施形態では、侵害情報抽出サーバ10に備えることとしたが、全部または一部をユーザ端末82や、クラウド上の他の端末やサーバに設けるようにしてもよい。
<侵害情報抽出処理>・・・次に、侵害情報抽出システム100による侵害情報抽出処理の一例について、図10も参照して説明する。図10は、本実施形態の侵害情報抽出処理の一例を示すフローチャートである。
まず、侵害情報抽出サーバ10の解析手段40は、対象となる知的財産の権利を示す権利情報を解析する(ステップS20)。対象となる知的財産の権利を示す権利情報(登録時の公報など)は、ユーザ80がユーザ端末82によって入力した内容から取得する。例えば、ユーザ80によって入力された登録番号によって権利情報を取得してもよいし、ユーザ80によって入力された内容をそのままを権利情報として取得してもよい(例えば、ユーザ80によって入力された特許請求の範囲など)。この解析は、公報に何が記載されているかを把握するために行うものである。例えば、登録時の公報を画像キャプチャして画像解析してもよいし、登録時の公報を文字としてテキストマイニングしてもよい。
図8には、ユーザ端末82の表示部92に表示される画面110の一例が示されている。画面110には、特許、商標、意匠、実用新案などを選択できるプルダウンメニュー112、登録番号入力欄114、特許や実用新案のためのIPC分類入力欄116A、意匠の分類のための分類入力欄116B、商標の区分のための区分入力欄116Cが表示されている。
このほか、キーワードの追加により判断精度をカスタマイズするためのキーワード入力欄118、指定された権利者が保有する知的財産権の登録番号を一括で取得するための権利者情報入力欄120、登録公報を直接入力するための登録公報入力欄122が表示されている。ユーザ80が、前記画面110において、所望の情報を入力ないし選択することで、侵害情報抽出サーバ10は、ユーザ80から入力された対象となる知的財産の権利を示す権利情報を取得することができる。
なお、解析手段40による解析にあたり、侵害情報抽出サーバ10は、必要に応じて、生成手段42によって、他の知的財産の権利を示すデータ(登録時の公報など)を加工した学習データを機械学習して、モデル20を生成しておいてもよい。具体的には、色々な知的財産権(特許権、実用新案権、意匠権、商標権)の権利情報を示す画像の特徴部分(キーワードや図形の特徴点など)に丸付けをして加工した学習データ18を、数十〜数万個用意して、その学習データ18を機械学習してモデル20を生成する。丸付は、例えば、どのような分野のどのような内容か、を認識するために、分野を示す情報と、内容を示す情報の両方に行う。例えば、画像データを機械学習してモデルを生成するには、機械学習のうちの手法である深層学習を行ってもよい。
分野を示す分野情報は、特許であれば、IPC分類、FI、Fタームなどであり、商標であれば、商品・役務の区分などであり、意匠であれば、意匠分類、意匠に係る物品などである。実用新案については、特許と同様である。
また、内容を示す内容情報は、特許であれば、請求の範囲の独立項のキーワード、従属項のキーワードなどであり、商標であれば、登録商標の文字または図形であり、意匠であれば、図面の実線、破線などである。実用新案については、特許と同様である。
なお、学習データとしては、文字と図形の両方に対応して認識できるため画像の学習データが好ましいが、テキストの学習データを利用することを妨げるものではない。
以上のような学習データを機械学習すると、その学習データにカスタマイズされたモデルが生成される。すなわち、公報のどの箇所に分野情報があって、どのような文字が記載されているか、どの箇所に内容情報があって、どのような文字または図形なのか、などが学習されたモデル20が生成される。前記解析手段40は、生成したモデル20に、対象となる知的財産の権利を示す画像(権利情報)を入力し、権利情報からどの部分(キーワードや図形の特徴点など)を抜き出すかを解析する。
次に、侵害情報抽出サーバ10の判断手段43は、前記解析手段40の解析の結果から、検索するために必要な文字または画像を判断する(ステップS22)。具体的には、検索エンジンで、文字検索または画像検索をするために、検索に必要な文字または画像がどれなのかを判断する。検索に必要な文字または画像とは、例えば、分野情報は文字を判断し、内容情報は文字または図形を判断することになる。具体的には、分野情報であれば、特許のIPC分類の文字や、商標の商品・役務の区分などの文字を判断する。内容情報であれば、特許の独立項に記載されている文字や、意匠の実線と破線の画像などを判断する。
次に、侵害情報抽出サーバ10の検索手段44は、前記判断した文字または画像を用いて、検索エンジンで検索を行う(ステップS24)。前記ステップS22で判断した文字または画像を使って、既知の検索エンジンで、文字検索や画像検索を行う。
そして、侵害情報抽出サーバ10の抽出手段46は、前記検索の結果から、前記対象となる知的財産の権利を侵害している可能性のある侵害情報を抽出する(ステップS26)。具体的には、検索結果に表示されたWebページ/動画/画像などのコンテンツの中から侵害情報を抽出する。なお、これらのコンテンツを解析して侵害情報を抽出してもよいし、解析せずにランダムに抽出してもよい。例えば、解析の精度が高い場合には、Webページ/動画/画像などのコンテンツを解析して侵害情報を抽出すると、最終的な強化学習後の抽出の精度がより高くなることが期待できる。
検索エンジンで検索した場合、例えば、学術論文や権利者自身の商品販売サイトなどの侵害情報とはならないノイズを拾ってしまうことがある。そこで、抽出手段46が備えるフィルタ機能により、ノイズが除去される。
例えば、キーワードでノイズ除去する場合、検索エンジンによって検索すると、検索一覧ページではページタイトルが表示されるので、そのページタイトルから、学術系、販売系のキーワードが含まれていれば排除して、ノイズ除去を行う。または、除外するURLリストを作成し、そのリスト内のURLに該当する場合には、抽出する侵害情報から除外してもよい。むろん、他の手法によるノイズ除去を行うことを妨げるものではない。
侵害情報抽出サーバ10の管理手段66は、抽出手段46で抽出した侵害情報のURLを管理し、出力手段68が、前記管理手段66によって管理された複数のURLを一覧にしたレポートを出力する。出力するレポートのファイル形式は、CSV形式やPDF形式が好ましいが、他のファイル形式を妨げるものではない。
このとき、抽出した侵害情報全てを表示すると件数が多い場合には、並替手段72によって、算出手段70で算出された侵害可能性の高い順に、抽出した侵害情報26を並び替え、侵害の可能性が高いベスト10だけをユーザ端末82の表示部92に表示してもよい。また、前記出力手段68は、抽出した侵害情報全件のURLの一覧をCSV形式やPDF形式などで出力してもよい。
そして、図9の画面130に示すように、表示された複数の侵害情報から、ユーザ80によって選択された侵害情報136の詳細を、図9の画面150に示すように表示してもよい。
ここで、根拠特定手段62によって、抽出手段46によって抽出した侵害情報のどの部分に、侵害の根拠があるかを具体的に特定してもよい。例えば、図9に示す画面130において、ユーザ80が、侵害情報136を選択すると、図9の右側に示す画面150のように、侵害情報136のURL152と、侵害情報ページ154と、侵害情報ページ154に記載された文章156が表示される。根拠特定手段62は、例えば、前記文章156中の侵害の根拠となる部分を、アンダーライン、太字、ハイライトなどで表して根拠部分158を明示する。
本実施形態では、通知手段60は、前記抽出手段46が定期的(例えば、毎日1回/週1回/隔週1回/月1回など)に侵害情報を抽出し、今回抽出した侵害情報が、前回抽出した侵害情報から変更がある場合に、抽出の結果に変更があることを通知する(ステップS38でYes、ステップS40)。侵害情報の変更とは、例えば、前回の抽出では5個の侵害情報が抽出され、今回の抽出では7個の侵害情報が抽出した場合などである。なお、定期的に抽出していても抽出結果に変更があるケースとしては、抽出の精度が高くなり、これまで抽出できていなかった侵害情報を抽出できるようになった場合や、新しい侵害情報を誰かがインターネット上に掲載したために抽出した場合などがある。なお、ユーザ80側へ通知される情報には、単に侵害情報に変更があったことのみならず、変更のあった侵害情報へアクセスする手段を含んでもよい。このように定期的に判断して変化があれば通知することで、監視通知機能を持たせることができる。ユーザ80側が把握している侵害情報をアップデートするのに役立つ。
また、本実施形態では、評価取得手段48がステップS26で抽出した侵害情報26に対する評価28を取得する(ステップS30)。例えば、ユーザ(企業の社内の役員または従業員)や、サポーター(企業がサポーターとして契約している専門家など)に、抽出した侵害情報に対して評価をしてもらい、その評価を取得する。具体的には、「いいねボタン」や「悪いねボタン」などを設置して、そのボタンを押してもらうことで評価を取得するようにしてもよいし、所定数(例えば5個)の星を表示し、星の数が多いほど高評価、星の数が少ないほど低評価を示すような表示をし、ユーザやサポーターに星の数を選んでもらって評価を取得するようにしてもよい。取得した評価28は、ストレージ16に記憶される。「いいねボタン」や「悪いねボタン」、所定数の星などは、どこに表示してもよいし、メールなどで評価依頼を通知してもよい。図9の画面150の侵害情報ページ154の下方には、いいねボタン160及び悪いねボタン162が表示されている。評価手段48は、いいねボタン160や、悪いねボタン162が押された結果を取得して、ストレージ16に記憶する。
そして、機械学習手段49が、前記ステップS30で取得した評価28を機械学習する(ステップS32)。例えば、機械学習のうちの手法である、強化学習または深層強化学習を行ってもよい。深層強化学習は、強化学習に深層学習を掛け合わせたものである。強化学習の例としては、いいねボタン160が押された侵害情報を1点加点とし、悪いねボタン162が押された侵害情報を1点減点として、スコアを最大化する侵害情報とはどういう情報なのかを機械学習するという具合である。例えば、星5個で評価を取得する場合には、星5個と評価された侵害情報を2点加点、星4個と評価された侵害情報を1点加点、星3個と評価された侵害情報を加減無し、星2個と評価された侵害情報を1点減点、星1個と評価された侵害情報を2点減点、としてスコアを最大化する侵害情報とはどういう情報なのかを機械学習する。
次に、反映手段50が、前記ステップS32の機械学習の結果を、抽出手段46で抽出する侵害情報の精度が良くなるように反映する(ステップS34)。例えば、強化学習の結果である、「スコアを最大化する侵害情報とはどういう情報なのか」を、侵害情報の抽出に反映することで、抽出する精度を上げることができる。つまり、抽出する精度が高くなるということは、抽出する侵害情報が、いいねボタン160が押されやすい侵害情報や、役に立つ度合いが高い侵害情報になるということを意味する。このように、ユーザ80から取得した評価28をフィードバックする強化学習機能により、抽出の精度をあげていくことができる。
更に、本実施形態では、ダウンロード手段52が、抽出手段46によって抽出した侵害情報26をダウンロードし、保存手段54によって、ダウンロードした内容と日時とを紐づけて、ストレージ16に侵害情報26として自動的に保存することもできる。ネットワーク上の情報は保存しないとすぐに消されてしまうことがあるが、本実施形態によれば、自動的にダウンロードして保存するため、ネットワーク上から侵害情報が消されたとしても、証拠を残すことができる。また、抽出した全ての侵害情報をダウンロードするとストレージコストが膨大になるため、例えば保存ボタンを設置して、ユーザ80が保存ボタンを押した侵害情報だけを保存して、保存ボタンが押されなかった侵害情報は一定期間後に破棄してもよい。逆に、抽出した侵害情報のURLだけをユーザ80に提供して、ユーザ80が保存ボタンを押した侵害情報だけをダウンロードして保存してもよい。
なお、本実施形態において、侵害情報抽出サーバ10のグループ作成手段56により、所定のメンバーからなるグループを作成してもよい。例えば、ユーザ端末82の表示部92に、グループのメンバーを指定するための画面を表示させ、当該画面に入力された所定のメンバーごとに、グループ情報32としてストレージ16に記憶する。グループは、例えば、企業の企画経営部、知的財産部、〇〇チームや、社外の専門家など、所定のメンバーで構成されるものであるが、これに限定されない。また、作成したグループ内で、侵害情報についてチャット可能なチャットルームも作成できる。
共有手段58は、グループ作成手段56で作成されたグループ内で、前記ステップS26で抽出した侵害情報26を共有する。これにより、部内共有、チーム共有、社外の専門家との共有などが可能となり、侵害情報26を効率的に供給することができる。
また、本実施形態において、侵害情報抽出サーバ10のキーワード受付手段64によって、ユーザ80からキーワードの指定を受け付けてもよい。例えば、図8に示すように、ユーザ80から権利情報を取得するための画面110に表示されたキーワード入力欄118に入力されたキーワードの指定を受け付ける。指定されたキーワードは、前記抽出手段46が侵害情報を抽出する際に、キーワードを反映して抽出するように用いられる。キーワードを追加することにより、判断精度をカスタマイズすることができる。また、前記判断手段43が判断した文字を、変更したり追加したりすることもできる。
更に、本実施形態において、権利者情報取得手段60によって、ユーザ80から権利者の情報を取得してもよい。例えば、ユーザ80から権利情報を取得するための画面110に表示された権利者情報入力欄120に入力された権利者情報をネットワークを介して取得してもよい。また、ユーザ80によって入力された登録番号から、対象となる知的財産の権利者の情報を取得してもよい。
そして、前記解析手段40は、取得した権利者が保有する知的財産を示す権利情報を一括で解析する。その権利者が保有する知的財産を示す権利情報を一括で解析するため、1つ1つ登録番号を入力する手間を省くことができる。具体的には、知的財産権の種類と登録番号によって特定される権利の登録公報などから権利情報を解析する。そして、生成されたモデル20に、解析した権利情報の画像などを入力すると、解析手段40が、どのキーワードを抜き出すか、あるいは、どの図形や特徴点を抜き出すかを一括で解析し、検索手段44が、解析結果にもとづいて、既知の検索エンジンを利用して検索し、抽出手段46が、検索結果から、取得した権利者が保有する知的財産権を侵害している可能性のある侵害情報を一括で抽出する。
<効果>・・・以上説明した実施形態によれば、侵害情報抽出システム100は、対象となる知的財産の権利を示す権利情報を解析して、解析の結果から、検索するために必要な文字または画像を判断して、判断した文字または画像を用いて検索エンジンで検索して、検索の結果から対象となる知的財産の権利を侵害している可能性のある侵害情報を抽出して、抽出した侵害情報に対する評価を取得して、取得した評価を機械学習して、機械学習の結果を侵害情報の抽出の精度に反映する。このように、人工知能で対象となる知的財産の権利を侵害している可能性のある侵害情報を抽出する精度を高めるため、知的財産の権利を侵害している可能性のある侵害情報を精度よく抽出できるという効果がある。
なお、上述した実施形態は一例であり、同様の効果を奏する範囲内で適宜変更が可能である。また、侵害情報抽出サーバ10は、単体のコンピュータであってもよく、例えば、端末であってもよい。また、上述した機能構成が、それぞれ異なるコンピュータで実行されるコンピュータシステム(クラウド)であってもよい。更に、本実施形態では、多くの処理を侵害情報抽出サーバ10で実行することとしたが、その機能の全部または一部を、ユーザ端末82で実行するようにしてもよい。
また、上述した手段、機能は、コンピュータ(CPU、情報処理装置、各種端末を含む)が、所定のプログラムを読み込んで、実行することによって実現される。プログラムは、例えば、単数又は複数のコンピュータからネットワーク経由で提供される(クラウドサービス、SaaS:ソフトウェア・アズ・ア・サービス)形態で提供される。また、プログラムは、例えば、コンピュータ読取可能な記録媒体に記録された形態で提供される。この場合、コンピュータはその記録媒体からプログラムを読み取って内部記録装置又は外部記録装置に転送し記録して実行する。
更に、本発明は、方法またはプログラムの発明として提供されてもよい。また、そのプログラムを、例えば、磁気ディスク、光ディスク、光磁気ディスクなどの記録装置(記録媒体)に予め記録しておき、その記録装置から通信回線を介してコンピュータに提供するようにしてもよい。