以下、図面を参照して本発明の一実施形態における情報処理文書情報評価装置、文書情報評価方法及び文書情報評価プログラムについて詳細に説明する。
先ず、図1を用いて、文書情報評価装置1のソフトウェア構成を説明する。図1は、本発明の一実施形態における文書情報評価装置1のソフトウェア構成の一例を示すブロック図である。
文書情報評価装置1は、情報取得部101と、記憶部102と、算出部103と、出力部104と、入力部105の各機能部を有する。本実施形態における文書情報評価装置1の上記各機能部は、文書情報評価装置1を制御する情報処理プログラム(ソフトウェア)によって実現される機能モジュールであるものとして説明する。文書情報評価プログラムは、文書情報評価装置1で動作する。すなわち、文書情報評価装置1は、文書情報評価プログラムが動作する装置をいう。
出力部104は、利用者が検索または分析したい内容に関係する入力情報に対し、該入力情報と複数の文書情報との一致度をスコアとして算出した結果を比較表100(図3参照)として出力する。その出力結果に基づき、利用者は、比較表100に対して自己評価を入力することができる。これによって、文書情報評価装置1は、検索または分析の精度を向上させることが可能であって、利用者が希望する条件に近い内容の文書情報を検索または分析する場合に、検索または分析に要する時間を低減させることができ、検索の効率化を実現することができる。
文書情報評価装置1は、ネットワーク(NW)を介して利用者端末2と接続し、該利用者端末2に対して文書情報評価システムのサービスを提供するための装置である。文書情報評価装置1は、例えば、いわゆるサーバ装置やコンピュータ(例えば、デスクトップ、ラップトップ、タブレットなど)である。なお、本発明の一実施形態において、文書情報評価装置1は、これらに限定されない。
情報取得部101は、利用者端末2から入力されたこれら知的財産に関する情報を、利用者端末2から取得する。利用者端末2は、利用者が操作可能な端末装置であって、例えば、デスクトップPC、ノートPC、タブレットPCまたはスマートフォン等である。本実施形態では、一例として、入力情報および文書情報が知的財産に関する情報である場合について説明する。
ここで、知的財産とは、人間の知的活動によって生み出されたアイデアや創作物等である。知的財産は、例えば、発明、考案、意匠、商標、著作物、回路配置または植物の新品種である。また、知的財産は、例えば、知的財産の内容を説明するための文書、知的財産の内容を説明するための図、表、グラフ、スケッチもしくは写真(図等)、または図等を説明する文書等であってもよい。本実施形態における知的財産に関する情報とは、上述した利用者が検索または分析したい内容を抽出するための情報である。知的財産に関する情報は、権利取得された情報のみならず、権利取得前の公開情報、未公開情報、出願前の発明情報を含む。権利取得された情報とは、例えば、特許権、実用新案権、意匠権、商標権、著作権、回路配置利用権または育成者権等が成立している情報である。例えば、知的財産が発明である場合、入力情報および文書情報は、発明の内容を示す文章(特許請求の範囲の記載、発明の課題または発明の目的等)または図面等の情報である。また、知的財産が意匠である場合、入力情報および文書情報は、形状、模様若しくは色彩又はこれらの結合に係る図面等の情報である。また、知的財産が商標である場合、入力情報および文書情報は、商品またはサービスの識別標識である。
記憶部102は、文書情報を保持する。文書情報は、NWを介して送受信される様々なデータを含み、例えば、文章データ、数値データを含む。文章データは、例えば、知的財産に関する情報、アイデアシート、アイデアメモ、訴訟に関連する情報、論文、書籍(雑誌、週刊誌を含む)、レポート及びホームページを含む。数値データは、例えば、実験データ、測定データ、統計データ、検査データが含まれる。その他、文章情報は、数式データ、図表データ、写真データ及び画像データ(静止画像、動画像を含む)を含む。
なお、知的財産に関する情報には、上述したように権利取得前の情報を含んでいてもよい。権利取得前の情報とは、例えば、発明や意匠を創作するまでの過程を記憶した情報、実験のために準備した材料もしくは装置、実験結果、研究開発の表題、研究開発の目的、技術者の氏名、技術者の所属名、プロジェクト番号等の付随的な情報である。付随的な情報には、取得された知的財産に関する情報に対するアクセス権限の情報を含んでいてもよい。アクセス権限とは、情報に対する閲覧、編集、削除、認証処理等の処理を実行できる権限であり、例えば、知的財産に関する情報を記憶した技術者に対しては、全ての処理を実行できるアクセス権限を付与し、知的財産の創作に共同した技術者には、閲覧の処理を実行できるアクセス権限を付与し、または、知的財産に関する情報を認証する認証者(後述)には認証処理を実行できるアクセス権限を付与する。情報取得部101は、知的財産に関する情報として、これらの付随的な情報を取得するようにしてもよい。利用者が入力したこれら知的財産に関する情報を、利用者端末2から取得する。
また、以下の説明においては、知的財産が発明である場合を例示するが、知的財産は発明に限定されるものではない。すなわち、知的財産の創作には、商標における識別標識の選択等を含んでいてもよい。
算出部103は、記憶部102において記憶された文書情報に基づき、利用者端末2から入力された入力情報に対する一致度を算出する。具体的には、入力情報を所定の構成単位に分解し、該分解された構成単位ごとに、記憶部102に記憶された複数の文書情報のうちの一の文書情報との一致度をスコアとして算出することができる。構成単位の分解は、例えば、「発明者、創作者、または出願人として関係する知的財産に関する情報」の構成要件を句読点ごとに分節をする。または、一定の文章の長さや、述語ごとに分節をしてもよい。算出部103は、構成要件を認定すると、出力部104により類似情報を取得し、構成要件と類似情報の近似の程度を算出する。構成要件のキーワードと同一または、そのキーワードよりも類似情報のキーワードが下位概念であれば一致度は高いと判断してもよい。算出部103は、記憶部102に、予め記憶された、単語のコーパス辞書により、その辞書により下位概念または上位概念の有無を算出できる。
算出部103は、構成要件と類似情報の一致度をスコア算出し、一致するか否かを閾値処理により判定し、構成要件の一致点および相違点を算出する。閾値は予め定められていてもよいし、機械学習により算出されたスコアをもちいてもよい。
また、算出部103は、具体的には、一致度をスコア算出するよう、記憶部102に記憶された知的財産に関する情報を用いて機械学習させたモデルを用いて、利用者端末2から受け付けた知的財産に関する情報に対する入力情報との内容の一致度をスコア算出することができる。これにより、文書情報評価装置1は、知的財産に関する情報(例えば、過去の特許情報)に基づいた一致度のスコア算出を、より素早く正確かつ容易に行うことができる。
機械学習において用いられる知的財産に関する情報は、該知的財産に関する情報について項目ごとに予め数値化された上で処理されており、利用者端末2から入力された知的財産に関する入力情報も、同様に数値化した上で一致度のスコア算出が行われる。
予め数値化される知的財産に関する情報に関する項目とは、例えば、知的財産に関する公開公報に紐づく各種情報であってもよい。知的財産に関する公開公報に紐づく各種情報は、例えば、公開公報の発行日、該公開公報に係る出願書類の提出日(すなわち出願日)、該公開公報に係る出願において受領した拒絶理由通知書の回数、該拒絶理由通知書における内容、該拒絶理由通知書に対する応答の内容、該公開公報に係る出願において行われた補正の回数、該補正の内容、独立請求項の文字数、請求項の数などであってもよい。
算出部103は、一致度のスコア算出のため、過去に文書情報評価装置1を使用して一致度をスコア算出した知的財産に関する情報の実際の結果をフィードバックとして記憶部102が格納することによって、機械学習に使用することができる。これにより、文書情報評価装置1は、より精度の高い類似する先行技術文献の抽出を行うことができる。
算出部103は、利用者が利用者端末2から入力した知的財産に関する入力情報に対して一致度のスコア算出を行った結果、相違点が高い(一致点が低い)場合、新たなキーワードを抽出し、構成要件ごとの一致度を改めてスコア算出してもよい。例えば、算出部103は、利用者端末2から入力された知的財産に関する情報において使用されるキーワードに代えて又は加えて抽出した新たなキーワードを使用した場合について一致度を改めて、スコア算出することができる。このとき、算出部103は、一致度のスコアが高くなるまで、キーワードの抽出を繰り返すことができる。一致度のスコアが高く算出された場合、このとき抽出したキーワードを出力部104より利用者端末2に出力することができる。キーワードの抽出は、記憶部102において記憶されている知的財産に関する文書情報からランダムに抽出してもよく、利用者端末2から入力された知的財産に関する入力情報から抽出するようにしてもよく、オズボーンのチェックリスト等を使用してキーワードの抽出の方法を予め定めておき、該方法に基づいて抽出してもよい。これにより、文書情報評価装置1は、利用者端末2から入力された知的財産に関する情報に対する一致度のスコア算出だけでなく、該知的財産に関する情報に関してどうすれば一致度が高くなるかの情報を利用者に提示することが可能となり、利用者が希望する内容を精度よく検索または分析することができる。
キーワードとは、文章、語句、熟語、単語、記号、アルファベット、化学式、又は数字などである。
また、算出部103は、利用者端末2から入力された知的財産に関する情報に対して一致度のスコア算出を行った結果、一致点が高い(相違点が低い)場合、記憶部102において記憶されている知的財産に関する文書情報からキーワードを抽出することができ、このとき、利用者端末2から入力された知的財産に関する入力情報において使用されるキーワードに代えて又は加えて抽出したキーワードを使用した場合の一致度のスコアが高くなる分布のうち端に位置するようなキーワードを抽出することとしてもよい。キーワードの抽出の際、利用者端末2から受け付けた知的財産に関する情報において使用されるキーワードに代えて又は加えて該抽出したキーワードを使用した場合の一致度のスコアが高くなる分布のうち、中央ではなく端に位置するようなキーワードを抽出することによって、文書情報評価装置1は、抽出するキーワードによる知的財産に関する情報についての限定に際し、より一致度のスコアを低くすることが可能なキーワードを提示することができる。例えば、知的財産に関する情報が特許出願予定の発明の場合、文書情報評価装置1は、該発明に対し、権利取得可能性を肯定的にしつつ、該発明の限定がより少ないものとなるようにすることが可能なキーワードを抽出することができる。
算出部103は、具体的には、学習データ及び権利取得可能性の情報に基づいて、知的財産に関する情報に付加すべき新たなキーワードを、知的財産に関する入力情報から算出し、出力部104は、新たなキーワードを出力することができる。これにより、文書情報評価装置1は、知的財産に関する情報を利用者によりわかりやすく表現することができ、知的財産法の知識に乏しい利用者であっても、わかりやすく知的財産に関する情報として、新たなキーワードを含めた発明の提案をすることができる。
また、算出部103は、相違性が認められた場合、その相違点の高い(一致点の低い)構成要件に対して、出力部104を介して、新たな類似特許を取得することとしてもよい。具体的には、算出部103は、一致点が低いと判断をし、出力部104に対して新たな類似情報を出力するように指令をし、出力部104は一致点の低い構成単位を埋めるための新たな類似情報を取得してもよい。算出部103による一致度の算出は、利用者が検索ボタン109(図3参照)を押すことによって、算出部103に検索信号が入力されることによって実行される。
出力部104は、文書情報の評価結果を利用者端末2に出力する。例えば、文書情報の評価結果は、構成単位ごとに、入力情報に類似する文書情報(以下、「類似情報」という)との差異の程度を対比(比較)した比較表である。ただし、文書情報の評価結果は、比較表に限定されない。例えば、模擬拒絶理由通知書(拒絶理由通知書に似せた、模擬的な通知書)であったり、発明者または出願人として関係する知的財産に関する情報等も含まれる。特許の場合、発明者または出願人として関係する知的財産に関する情報は、発明情報が記載されている発明メモや請求項情報である。類似情報は、例えば先行技術文献であって、比較表100(図3参照)は、技術的な差異を示したいわゆるクレームチャートである。
入力部105には、利用者の自己評価を示す自己評価モードが入力される。利用者は利用者の自己評価を示す自己評価モードの選択をすることができる。自己評価モードは、自己評価モード切り替えスイッチ115(図3参照)により選択できるように構成されている。出力部104は、比較表100に対し、自己評価モード切り替えスイッチ115を表示出力する。詳細は、後述する。
以上説明した、文書情報評価装置1が有する、情報取得部101、記憶部102、算出部103、出力部104、入力部105の各機能部は、文書情報評価装置1の機能の一例を示したものであり、文書情報評価装置1が有する機能を限定したものではない。例えば、文書情報評価装置1は、上記全ての機能を有している必要はなく、一部の機能を有するものであってもよい。また、文書情報評価装置1は、上記以外の他の機能を有していてもよい。例えば、文書情報評価装置1は、機能の設定を行うための入力機能や、装置の稼働状態をLEDランプ等により報知する出力機能を有していてもよい。
また、文書情報評価装置1が有する上記各機能部は、上述の通り、ソフトウェアによって実現されるものとして説明した。しかし、文書情報評価装置1が有する上記機能部の中で少なくとも1つ以上の機能部は、ハードウェアによって実現されるものであってもよい。
また、文書情報評価装置1が有する上記何れかの機能部は、1つの機能部を複数の機能部に分割して実施してもよい。また、文書情報評価装置1が有する上記何れか2つ以上の機能部を1つの機能に集約して実施してもよい。すなわち、図1は、文書情報評価装置1が有する機能を機能ブロックで表現したものであり、例えば、各機能部がそれぞれ別個のプログラムファイル等で構成されていることを示すものではない。
また、文書情報評価装置1は、1つの筐体によって実現される装置であっても、ネットワーク等を介して接続された複数の装置から実現されるシステムであってもよい。例えば、文書情報評価装置1は、その機能の一部または全部をクラウドコンピューティングシステムによって提供されるクラウドサービス等、仮想的な装置によって実現するものであってもよい。すなわち、文書情報評価装置1は、上記各機能部のうち、少なくとも1以上の機能部を他の装置において実現するようにしてもよい。また、文書情報評価装置1は、サーバ装置等の汎用的なコンピュータであってもよく、機能が限定された専用の装置であってもよい。
次に、図2を用いて、文書情報評価装置1のハードウェア構成を説明する。図2は、本発明の一実施形態における文書情報評価装置1のハードウェア構成の一例を示すブロック図である。
文書情報評価装置1は、CPU(Central Processing Unit)11、RAM(Random Access Memory)12、ROM(Read Only Memory)13、タッチパネル14および通信I/F(Interface)15を有する。文書情報評価装置1は、図1で説明した情報処理プログラムを実行する装置である。
CPU11は、RAM12またはROM13に記憶された情報処理プログラムを実行することにより、文書情報評価装置1の制御を行う。文書情報評価プログラムは、例えば、文書情報評価プログラムを記憶した記憶媒体、または、ネットワークを介したプログラム配信サーバ等から取得されて、ROM13にインストールされ、CPU11から読出されて実行される。
タッチパネル14は、操作入力機能と表示機能(操作表示機能)を有する。タッチパネル14は、文書情報評価装置1の利用者に対して指先又はタッチペン等を用いた操作入力を可能にする。本実施形態における文書情報評価装置1は操作表示機能を有するタッチパネル14を用いる場合を説明するが、文書情報評価装置1は、表示機能を有する表示装置と操作入力機能を有する操作入力装置とを別個有するものであってもよい。その場合、タッチパネル14の表示画面は表示装置の表示画面、タッチパネル14の操作は操作入力装置の操作として実施することができる。なお、タッチパネル14は、ヘッドマウント型、メガネ型、腕時計型のディスプレイ等の種々の形態によって実現されてもよい。
通信I/F15は、通信用のI/Fである。通信I/F15は、例えば、無線LAN、有線LAN、または赤外線等の近距離無線通信等を実行する。通信I/F15は、例えば、NWを介して利用者端末2との通信を実現する。通信I/F15は、他の文書情報評価装置1との通信を実現するものであってもよい。なお、図2において通信用のI/Fは通信I/F15のみを図示するが、文書情報評価装置1は複数の通信方式においてそれぞれの通信用のI/Fを有するものであってもよい。
次に、図3を用いて、文書情報評価装置1の出力画面の出力例を説明する。図3は、本発明の一実施形態に係る出力画面の例を示す模式図である。
入力部105には、利用者の自己評価を示す自己評価モードが入力される。比較表100に対して、利用者が、類似情報としての文書情報の自己評価を示す自己評価モード切り替えスイッチ115を押すことにより、自己評価指令信号が入力部105に入力される。出力部104は、比較表100に対し、利用者による文書情報の自己評価を示す自己評価モード切り替えスイッチ115を表示出力する。この自己評価モード切り替えスイッチ115に対してマウスによるクリックやキーボードの操作を行うことにより、自己評価指令信号が入力部105に入力される。自己評価モード切り替えスイッチ115をクリックすることにより利用者は自己評価を示す自己評価モードの選択ができる。また、利用者による選択に基づいて、出力部104は、比較表100に対し自己評価を出力することができる。
より詳細には、出力部104は、自己評価モード切り替えスイッチ115を比較表100に対して表示出力し、利用者がこの自己評価モード切り替えスイッチ115を選択する操作、すなわちマウスによるクリックやキーボードによる操作を行う。そして、出力部104は、自己評価モード切り替えスイッチ115の選択操作に基づき、例えば、模式的に図案化した図形(画像)を自己評価モードとして表示出力することができる。このように、利用者は、自己評価モード切り替えスイッチ115を操作し自己評価モードの選択を行うことにより、利用者からの自己評価の選択指示が行われ、自己評価指令信号を入力部105が受け付ける。
利用者は、マウスにより、自己評価モード切り替えスイッチ115をクリックすることによって、自己の評価を示す自己評価モードを選択することができる。そして、入力部105からの自己評価指令信号に基づき、出力部104は、自己評価の結果に応じて、文書情報が良好であることを示す高評価モードと良好でないことを示す低評価モードに切り替えて出力することができる。なお、切り替えて出力することができればよく、自己評価モード切り替えスイッチ115は、例えば、ボタン、アイコン等であってもよい。
図3に示すように、高評価モードとは、例えば、利用者の評価に対して「いいね!」といった評価が高いことを示す「いいね!」機能115aと、「よくないね!」といった評価が低いことを示す「ダメだね!」機能115bとを切り替えて出力することができる。出力部104は、「いいね!」機能115aと「ダメだね!」機能115bの表示態様を変更して出力することができる。視覚的に分かるように、例えば、「いいね!」機能115aの表示態様は、肯定的な事象に対して表現する場合にとるポーズ、例えば、手を握った状態で親指を上方向に向ける態様の図形を出力することができる。また、表情が笑顔の図形や万歳をしている態様の図形を出力してもよい。その他、「いいね!」機能115aの表示態様は、「○」の図形を出力するように構成してもよい。
また、図3に示すように、「ダメだね!」機能115bの表示態様は、否定的な事象に対して表現する場合にとるポーズ、例えば、手を握った状態で親指を下方向に向ける態様の図形を出力することができる。また、表情が悲観的な顔の図形や残念モードを表現する首を横に振っている態様の図形を出力してもよい。その他、「ダメだね!」機能115bの表示態様は、「×」の図形を出力するように構成してもよい。
「いいね!」機能115aと「ダメだね!」機能115bの表示態様はスイッチの図形を変更して表示する場合に限定されない。例えば、出力部104は、「いいね!」機能115aと「ダメだね!」機能115bとで、スイッチの色を変更して表示するように構成してもよい。また、上記の自己評価モード(「いいね!」機能115aまたは「ダメだね!」機能115b)の切り替えは、文書情報ごとに行うこともできるし、入力情報の構成単位(Element)ごとに行うこともできる。このように自己評価モードを該構成単位ごとに切り替えることができるため、構成単位の高いスコアと、構成単位の低いスコアを視覚的に一目で把握することができる。
また、出力部104は、新たな類似情報に基づいて、キャラクター3の態様を選択してもよいとすることができる。具体的には、自己評価モード(「いいね!」機能115aまたは「ダメだね!」機能115b)の内容によってキャラクターのどの喜怒哀楽の出力態様にするかを選択するように構成してもよい。例えば、自己評価モードが「いいね!」機能115aの場合は、例えば、「喜」または「楽」の出力態様で表示出力されるように構成してもよい。また、自己評価モードが「ダメだね!」機能115bの場合は、例えば、「怒」または「哀」の出力態様で表示出力されるように構成してもよい。この表示出力は、出力部104が実行する。
以上のように、出力部104は、算出部103により算出された一致度のスコア結果に基づいて、キャラクター3の態様を出力制御することができる。算出部103により算出された知的財産に関するデータに基づいて、キャラクター3の態様を出力制御することにより、文書情報評価装置1は、キャラクター3を使用した知的財産に関する情報の表現が可能となり、知的財産法の知識に乏しいユーザ利用者であっても、わかりやすく知的財産に関する情報を理解させることができる。
図3に示すように、出力部104は、比較表100に出力される類似特許として複数の文書情報を出力することができる。そして、出力部104は、入力情報と複数の文書情報との差異の程度(一致度)を構成単位(Element)ごとに比較表100に出力する。図3では、5件の文書情報を出力する例が示されているが、文書情報の件数は限定されない。5件の文書情報の出力優先度は、構成単位ごとに算出される一致度を示すスコアが所定の基準を満たすか否かで決定する。所定の基準は、例えば、各構成単位のスコアを合算した値が高い順に上位5件の文献情報を左列から右列に向かって出力するように構成してもよい。また、所定の基準は、各構成単位のスコアの平均値が高い順に上位5件の文書情報を左列から右列に向かって出力するように構成してもよい。また、所定の基準は、複数に分割した全ての構成単位のうち、いくつかの任意の構成単位のスコアの平均値が所定値以上の、上位5件の文献情報を左列から右列に向かって、高い順に出力するように構成してもよい。任意の構成単位の特定は、利用者が利用者端末2から入力された任意の構成単位を取得するように構成してもよい。任意の構成単位の取得は、情報取得部101が実行する。また、任意の構成単位が、記憶部102に予め記憶されていてもよい。
また、左側から見て第2列目に出力される文書情報は、発明の各構成単位の一致度のスコアの平均値が一番高い文書情報を主引例として選定してもよい。発明と主引例との一致点と相違点の認定は、発明の各構成単位の一致度のスコアが、それぞれ所定値以上であるか否かで判断することとしてもよい。そして、主引例以外の文書情報は、主引例で一致度のスコアが低い構成単位について、一致度のスコアが高い類似先行技術文献を副引例として選定するように構成してもよい。比較表100には、先行技術文献における主引例と副引例の表示、ならびに主引例に係る構成単位および副引例に係る構成単位の表示を含んでいてもよい。
このように、図3に示すように、比較表100には、発明の構成単位ごとの一致度のスコアが表示画面200に出力される。ここで、一致度とは、例えば、抽出された発明の特徴量が類似する文書情報(先行技術文献)にどれくらい含まれているかを示す数値(%)であり、数値が高いほど構成単位が先行技術文献に開示されていることを示している。構成単位ごとの一致度は、文書情報としての先行技術文献ごとに比較されて比較表100に出力される。この出力は、出力部104が実行する。比較表100の左側から見て第1列目には、分解された発明(入力情報)の構成単位が出力される。5件の文書情報を左側から見て第2列目〜第6列目は、それぞれの先行技術文献に対する一致度のスコアが構成単位ごとに出力される。
そして、算出部103により算出された一致度のスコアに基づいて、出力部104は、入力情報と文書情報の一致度をスコアとして出力をすることができる。スコア結果は、例えば、比較表100とともに出力部104によって表示画面200に出力される。一致度のスコアは、例えば、〜〜%(例えば、80%)といった形式で表現することができる。算出部103による一致度の算出は、利用者が検索ボタン109(図3参照)を押すことによって、算出部103に検索信号が入力されることによって実行される。
また、出力部104は、新たな類似情報に基づいて、キャラクター3の態様を選択することができ、具体的には、新たな類似情報と構成要件のスコアの高低によってキャラクターのどの喜怒哀楽の出力態様にするかを選択するように構成してもよい。
以上のように、出力部104は、算出部103により算出された一致度のスコア結果に基づいて、キャラクター3の態様を出力制御することができる。算出部103により算出された知的財産に関するデータに基づいて、キャラクター3の態様を出力制御することにより、文書情報評価装置1は、キャラクター3を使用した知的財産に関する情報の表現が可能となり、知的財産法の知識に乏しいユーザ利用者であっても、わかりやすく知的財産に関する情報を理解させることができる。
そして、出力部104は、新たに出力した類似情報に基づいて、キャラクター3の態様を選択することができる。新たな類似情報に基づいて、キャラクター3の態様を新たに選択可能とすることで、文書情報評価装置1は、知的財産に関する情報を利用者によりわかりやすく表現することができ、知的財産法の知識に乏しい利用者であっても、わかりやすく知的財産に関する情報を理解させることができる。
そして、出力部104は、具体的には、キャラクター3を介して、算出部103による一致度のスコア結果を示すことができる。キャラクター3を介して、算出部103によるスコア結果を示すことで、文書情報評価装置1は、スコア結果を利用者によりわかりやすく表現することができ、知的財産法の知識に乏しい利用者であっても、わかりやすく知的財産の登録の有無に関する情報を理解させることができる。
さらに、算出部103は、利用者により選択された自己評価モードの切り替えを反映し、入力された発明情報に対する類似先行技術文献の一致度を再算出することができる。具体的には、出力部104が出力した、入力情報に類似する文書情報(類似先行技術文献)との差異の程度を対比(比較)した比較表において、「いいね!」機能115aと「ダメだね!」機能115bが出力表示された構成単位の重みづけを行い、一致度を再算出することができる。
次に、図4を用いて、文書情報評価装置1の動作処理の一例を説明する。図4は、本発明の一実施形態に係る文書情報評価装置1の動作例を示すフローチャートである。
<文書情報評価装置1の動作処理>
図4において、文書情報評価装置1は、利用者端末2からの知的財産に関する情報を取得したか否かを判断する(S11)。知的財産に関する情報を取得したか否かは、情報取得部101が利用者端末2から入力された知的財産に関する情報を取得したか否かで判断することができる。知的財産に関する情報を取得していないと判断した場合(ステップS11:NO)、文書情報評価装置1は、S11の処理を繰り返し、知的財産に関する情報の取得を待機する。
一方、知的財産に関する情報を取得したと判断した場合(S11:YES)、算出部103は、記憶部102において記憶された文書情報に基づき、利用者端末2から入力された入力情報に対する一致度を算出する(S12)。具体的には、入力情報を所定の構成単位に分解し、該分解された構成単位ごとに、記憶部102に記憶された複数の文書情報のうちの一の文書情報との一致度をスコアとして算出することができる。構成単位の分解は、例えば、「発明者、創作者、または出願人として関係する知的財産に関する情報」の構成要件を句読点ごとに分節をする。または、一定の文章の長さや、述語ごとに分節をしてもよい。
S12の処理を実行した後、スコアの算出結果に基づき、出力部104は、入力情報と文書情報との差異の程度を構成単位ごとに示した比較表を出力する(S13)。例えば、文書情報の評価結果は、構成単位ごとに、入力情報に類似する文書情報(以下、「類似情報」という)との差異の程度を対比(比較)した比較表である。ただし、文書情報の評価結果は、比較表100に限定されない。例えば、模擬拒絶理由通知書(拒絶理由通知書に似せた、模擬的な通知書)であったり、発明者または出願人として関係する知的財産に関する情報等も含まれる。特許の場合、発明者または出願人として関係する知的財産に関する情報は、発明情報が記載されている発明メモや請求項情報である。類似情報は、例えば先行技術文献であって、比較表100は、技術的な差異を示したいわゆるクレームチャートである。一致度のスコアは、例えば、「0%」〜「100%」の数値として算出することができる。
S13の処理を実行した後、入力部105は、比較表に対して、利用者による文書情報の自己評価を入力する(S14)。入力部105には、利用者の自己評価を示す自己評価モードが入力される。比較表100に対して、利用者が、類似情報としての文書情報の自己評価を示す自己評価モード切り替えスイッチ115を押すことにより、自己評価指令信号が入力部105に入力される。出力部104は、比較表100に対し、利用者による文書情報の自己評価を示す自己評価モード切り替えスイッチ115を表示出力する。この自己評価モード切り替えスイッチ115に対してマウスによるクリックやキーボードの操作を行うことにより、自己評価指令信号が入力部105に入力される。自己評価モード切り替えスイッチ115をクリックすることにより利用者は自己評価を示す自己評価モードの選択ができる。また、利用者による選択に基づいて、出力部104は、比較表100に対し自己評価を出力することができる。より詳細には、出力部104は、自己評価モード切り替えスイッチ115を比較表100に対して表示出力し、利用者がこの自己評価モード切り替えスイッチ115を選択する操作、すなわちマウスによるクリックやキーボードによる操作を行う。そして、出力部104は、自己評価モード切り替えスイッチ115の選択操作に基づき、例えば、模式的に図案化した図形(画像)を自己評価モードとして表示出力することができる。このように、利用者は、自己評価モード切り替えスイッチ115を操作し自己評価モードの選択を行うことにより、利用者からの自己評価の選択指示が行われ、自己評価指令信号を入力部105が受け付ける。自己評価の選択指示を受け付けは、出力部104が行う。
利用者は、マウスにより、自己評価モード切り替えスイッチ115をクリックすることによって、自己の評価を示す自己評価モードを選択することができる。そして、入力部105からの自己評価指令信号に基づき、出力部104は、自己評価の結果に応じて、文書情報が良好であることを示す高評価モードと良好でないことを示す低評価モードに切り替えて出力することができる。なお、切り替えて出力することができればよく、自己評価モード切り替えスイッチ115は、例えば、ボタン、アイコン等であってもよい。S14の処理を実行した後、文書情報評価装置1は、図示する動作を終了する。
ここで、一致度のスコア算出は、例えば、以下の処理で行うことができる。
図5は、本発明の第1の実施形態における、文書情報評価装置1のスコア算出処理の一例を示すフローチャートである。
<一致度のスコア算出処理>
算出部103は、情報取得部101が評価対象を表す入力情報を取得すると、まずkNNグラフを作成する(S101)。kNNグラフは、以下の手順で作成される。まず、情報取得部101が利用者端末2を介して取得した知的財産に関する技術情報に付随する技術情報、先行技術情報としての入力情報、記憶部102に記憶された入力情報に類似する類似技術情報に含まれる文章を全てベクトル化する。ベクトル化は、Word2Vec、Doc2Vec(Paragraph2vec)、LDA(Latent Dirichlet Allocation)またはNTSG(Neural ensor Skip Gram)等の従来技術によって行われてよい。ベクトル化は算出部103が実行する。ベクトルから文章間の距離行列を作成する。各文章を頂点として、それぞれの文字データからそれと距離が短いものk個の文章へと辺を張る。以上の手順により、kNNグラフを作成する。上記にて文章として説明したが、複数の文節の組み合わせ、文節、または単語であってもよい。
続いて、算出部103は、情報取得部101から取得された技術情報としての入力情報に対する出力対象としての類似文書情報を、記憶部102に記憶された入力情報に類似する類似技術情報、および知的財産情報に含まれる文章全てに設定し(S102)、情報取得部101から取得した入力情報(技術情報)に含まれる技術文言をクエリと設定し、出力部104は、該クリエで該出力対象としての類似文書情報を出力する(S103)。ここで、出力はElastic Search(登録商標)等の従来技術によって行われてよい。
出力部104は、出力の結果、最もスコアが高い文章を始点として設定し(S104)、始点を最終出力結果へ追加し(S105)、最終出力結果がn件以上となるまで繰り返す(S106)。n件に満たない場合S107に進み、n件以上となった場合S110へ進む。
最終出力結果がn件に満たない場合、算出部103は、クエリ変換ルールの候補を抽出する(S107)。クエリ変換ルールの候補は、以下の手順で抽出される。まず、作成したkNNグラフに基づき、始点として設定された文章と類似する文章を抽出する。続いて、始点として設定された文章と抽出された類似する文章とにおいて、重要度が高いと認定される単語を抽出する。重要度の認定は、TF−IDF法等の従来技術によって行われてよい。抽出された単語に対し、始点として設定された文章、および、抽出された類似する文章において、隣接する単語を取得する。例えば、抽出された単語が「分散」であって、文章が「分散ファイルシステムにおける分散処理」であった場合の、「ファイル」および「処理」などである。
算出部103は、スコアが高い変換ルールをクエリに適用する(S108)。変換ルールは1つでも複数であってもよく、その数が算出部103によって制御されてもよい。また、変換ルールにより算出される新たなクリエの数は、情報取得部101によって取得した、評価対象を表す技術情報(入力情報)の評価の結果に対する利用者の評価情報に基づき、算出部103によって制御されてもよい。スコアは以下の式によって算出することができる。
式中、始点として設定された文章をA、始点として設定された文章において取得された隣接する単語をw1、抽出された類似する文章をB、抽出された類似する文章において取得された隣接する単語をw2とおき、P(w,X)を文章X中での単語wの出現確率とおく。similarityは、単語の意味的な近さの指標であって、この値が大きいほど2つの単語は意味的に似ていることを意味する。similarityは、PythonのパッケージであるnltkがWordNetのパス長に基づいて算出する値とすることができる。
算出部103は、始点と隣接する文章を次の出力対象に設定し(S109)、S108によって新たに算出されたクエリを用いて、再度出力を行う(S103に戻る)。
最終出力結果がn件以上となった場合、結果を出力する(S110)。このとき、出力部104は、最終出力結果とされる始点となる文章を含む文書情報または文書情報を出力してもよい。
次に、文書情報評価装置1の再算出処理の一例を説明する
<再算出の算出処理>
一致度のスコアの再算出は、例えば、以下の手順で行う。(1)まず、適合文書情報および非適合文書情報のベクトル化を行う(以下、それぞれ「適合文書ベクトル」および「非適合文書ベクトル」という)。算出部103は、適合文書ベクトルおよび非適合文書ベクトルを算出する。文書ベクトルの算出は、例えば、Word2Ves、Doc2Vec(Paragraph2vec)、LDA、NTSG等で行ってもよい。ここで、適合文書ベクトルとは、「いいね!」機能115aが出力された構成単位の文書情報をベクトル化したものをいう。また、非適合文書ベクトルとは、「ダメだね!」機能115bが出力された構成単位の文書情報をベクトル化したものをいう。
(2)次いで、算出部103は、利用者が操作可能な利用者端末2から入力された入力情報の文書ベクトル(以下、「入力文書ベクトル」という)を算出する。文書ベクトルの算出は、例えば、Word2Ves、Doc2Vec(Paragraph2vec)、LDA、NTSG等で行ってもよい。
(3)次いで、算出部103は、入力文書ベクトル、適合文書ベクトルおよび非適合文書ベクトルの各重みを考慮した重心を算出する。本実施形態において、文書情報評価装置1は、一致度のスコアの再算出が可能に構成されている。ここで、該重心とは、検索を行う前の、入力文書ベクトル、適合文書ベクトルおよび非適合文書ベクトルの各重みのことをいう。具体的には、2回目の一致度のスコアの再算出を行う場合は、該2回目の一致度のスコア算出する前の,1回目の一致度のスコア算出の際に算出された重みを考慮して、重心を算出する。1回目の一致度のスコア算出の場合には、入力文書ベクトル、適合文書ベクトルおよび非適合文書ベクトルについて重みに差はないため、例えば、(入力文書ベクトルの重み、適合文書ベクトルの重み、非適合文書ベクトルの重み)=(1、1、1)として、重心が算出される。
(4)重みおよび重心の算出は、算出部103が実行する。一致度のスコアの再算出を行う都度、入力文書ベクトル、合文書ベクトルおよび非適合文書ベクトルの各重みを再計算し直し、重心の再算出が実行され、これに伴い、入力文書ベクトル、適合文書ベクトルおよび非適合文書ベクトルの修正処理が行われる。この修正処理は、算出部103が実行する。具体的には、算出部103にて修正処理を実行した入力文書ベクトル、適合文書ベクトル、および(3)にて算出した重心の重心ベクトルの内積を算出する。
(5)算出部103は、(4)にて算出した内積に基づき、再度、入力文書ベクトル、適合文書ベクトルおよび非適合文書ベクトルの重みの修正処理(再算出)を実行する。文書ベクトルの修正処理に基づく重みの調整は、例えば、SCDV(Sparse Composite Document Vectors using Soft clustering over distributional reprensentations)で行うことができる。なお、文書ベクトルの算出は、Word2Ves、Doc2Vec(Paragraph2vec)、LDA、NTSG等で行ってもよい。
(6)次いで、(4)、(5)にて新たに算出した入力文書ベクトル、適合文書ベクトルおよび非適合文書ベクトルの各重みに基づき、算出部103は、入力情報に対する文書情報の一致度のスコアの再算出を実行する。
(7)一致度ぐあいの再算出は、例えば、出力部104は、所望の文書情報を出力するまで、何回でも一致度のスコアの再算出処理を実行でき、都度、出力結果としての比較表100を表示することができるユーザインタフェースを備える。
(8)利用者が入力情報を入力し、検索ボタン109を押すと、検索結果として比較表100が出力される。比較表には、一致度のスコア結果が、構成単位ごとに出力される。一致度の再算出の出力は、再算出の都度、検索ボタン109を押すことにより実行される。ユーザインタフェースは、検索ボタン109が短時間に連続押しをすることができるように生成してもよい。
この再算出は、利用者が所望する文献情報が出力するまで、何回でも繰り返すことができる。一致度の再算出は、利用者が検索ボタン109(図3参照)を押すことによって、算出部103に検索信号が入力されることによって実行される。これにより、検索の精度を向上させることが可能であって、利用者は、条件に近い内容の文書情報(類似文書情報)を検索するために必要な時間を低減し、検索の効率化を実現させることができる。
<重心の算出方法>
続いて、重心の算出方法について詳細に説明する。重心は、適合文書情報から近く、非適合文書情報から離れた位置に設定する。(1)まず、適合文書ベクトルに重みを掛ける。適合文書ベクトルが複数ある場合は、それぞれの適合文書ベクトルに対し、該適合文書ベクトルに応じた各重みを掛けて重心を算出する。重心は、適合文書情報から近く、非適合文書情報から離れた位置に設定されるように重みの算出(調整)が行われ、該重みを考慮して重心の算出が行われる。この重みおよび重心の算出は、算出部103が実行する。
(2)重みの調整は、(1)にて算出した重心の重心ベクトル、および適合文書ベクトル、非適合文書ベクトルに基づいて決定されたパラメータにより算出することができる。パラメータは、下記の式に基づいて算出される。パラメータの算出は、算出部103が実行する。
パラメータ=(非適合文書ベクトルと重心ベクトル間の距離)/(適合文書ベクトルと重心ベクトル間の距離)
(3)(2)にて算出したパラメータを用いて、入力文書ベクトル、適合文書ベクトルおよび非適合文書ベクトルの重みの調整を行い、調整した重みに基づいて、各々のベクトルについて、新たなベクトルを算出する。この新たなベクトルの算出は、算出部103が実行する。
ここで、重みの調整は、例えば、SCDV(Sparse Composite Document Vectors using Soft clustering over distributional reprensentations)で行うことができる。なお、文書ベクトルの算出は、Word2Ves、Doc2Vec(Paragraph2vec)、LDA、NTSG等で行ってもよい。
次に、文書情報評価装置1の文書情報の再算出の方法の別の実施形態について説明する。
図4に示すように、比較表100に出力された複数の文書情報のうち、利用者が入力情報に最も類似すると判断する所望の少なくとも一の文書情報をメイン文書情報として固定することができる。メイン文書情報の固定は、文書情報固定部(図示せず)が実行する。
より詳細には、出力部104は、メイン文書情報の固定を示すメイン文書情報固定スイッチ106の図形(画像)を比較表100に対して出力し、利用者がこのスイッチを選択する操作、すなわちマウスによるクリックやキーボードによる操作を行う。そして、文書情報固定部(図示せず)に、メイン文書情報固定指令信号が入力される。利用者は、メイン文書情報固定スイッチ106を操作することによりメイン情報固定モードの選択を行い、メイン文書情報固定指令信号に基づき、利用者からの複数の文書情報の固定指示を受け付けるように構成する。
利用者は、マウスにより、メイン文書情報固定スイッチ106をクリックすることによって、メイン情報固定モードを選択することができる。なお、メイン情報固定モードを選択することができればよく、メイン文書情報固定スイッチ106は、例えば、ボタン、アイコン等であってもよい。
なお、メイン情報固定モードの選択は、利用者が自由に選択可能であり、出力部104が、比較表100に出力した複数の類似文書情報のうち、何れの文書情報をメイン文書情報として選択してもよい。また、メイン文書情報の選択は1件に限らず2件以上の文書情報をメイン文書情報として選択してもよい。
さらに、利用者がメイン文書情報を指定することも可能である。図4に示すように入力ボックス107に利用者が文書情報を入力することにより、メイン文書情報を固定することもできる。この場合に入力できる文書情報も1件に限定されない。利用者は、2件以上の文書情報を入力することが可能である。そして、利用者がメイン文書情報を入力ボックス107に入力し特定スイッチ108を押すことにより、一致度の再算出を実行する。ここで、入力ボックス107に入力する文書情報は、例えば、拒絶理由通知書、模擬拒絶理由通知書(拒絶理由通知書に似せた、模擬的な通知書)であったり、発明者または出願人として関係する知的財産に関する情報等も含まれる。特許の場合、発明者または出願人として関係する知的財産に関する情報は、発明情報が記載されている発明メモや請求項情報である。類似情報は、例えば先行技術文献が含まれる。なお、入力ボックス107に入力する文書情報は、先行する特許文献番号に限定されない。入力ボックス107に入力する文書情報は、文章データ、数値データを含む。文章データは、例えば、知的財産に関する情報、アイデアシート、アイデアメモ、訴訟に関連する情報、論文、書籍(雑誌、週刊誌を含む)、レポート及びホームページを含む。数値データは、例えば、実験データ、測定データ、統計データ、検査データが含まれる。その他、入力ボックス107に入力する文書情報は、数式データ、図表データ、写真データ及び画像データ(静止画像、動画像を含む)を含む。その場合は、入力ボックス107に、例えば、PDF電子データをドロップアンドドロップすることにより、該PDF電子データを取り込むことができる。なお、先行する特許文献のPDF電子データをドロップアンドドロップすることにより取り込むことができる。
ここで、出力部104は、入力情報を分解した複数の構成単位のうち、少なくとも一以上の構成単位を指定して、この指定した構成単位が含まれる複数の文書情報を出力(抽出)することができる。構成単位の指定は、自己評価モード切り替えスイッチ115において、「いいね!」機能115aに切り替えることによって行うことができる。そして、特定の構成単位が含まれる複数の文書情報(類似先行技術文献)について一致度をスコア算出し、比較表100に該文書情報を表示出力する。これにより、入力情報に、より類似する先行技術文献を出力することができる。特定の構成単位が含まれる複数の文書情報の算出は、上述した再算出の算出処理と同様の方法により行われる。そして、出力部104が出力した該文書情報のうち、特定の文書情報をメイン文書情報として、利用者がメイン文書情報固定スイッチ106を押すことにより固定することができる。
再算出は、メイン文書情報に基づき、入力文書情報の重みを調整することにより行う。再算出の方法は、上述した自己評価モードに基づく再算出の方法と同様の方法により行われる。
メイン文書情報としては、例えば、各国の特許庁において過去に審査された結果引用された引用情報、参考情報の他、利用者自身が過去に調査した特許文献、書籍、雑誌等の非特許文献であってもよい。
なお、本実施形態に係る文書情報評価装置1は、権利取得の可能性を判定する判定部(図示せず)を備えていてもよい。判定部(図示せず)は、認定した発明と類似する類似先行技術文献を検索し、類似した発明の有無によって、例えば、権利取得の可能性を判定する処理を実行できる。発明が類似するか否かの判断は、例えば、認定された発明の意味(含意)を認識し、含意が類似した引用発明が検索できたか否かで判断することができる。ここで、引用発明は、公開されている特許文献または非特許文献である。特許文献は、例えば、各国特許庁により公開されている特許公報等の文献を利用することができる。また、非特許文献は、学術雑誌、新聞、またはWebサイト等に掲載された文献を利用することができる。特許文献または非特許文献は、例えば、図示しない専用のデータベースに保存しておき、判定部(図示せず)から検索可能にしておくことができる。発明の意味の類似は、例えば、認定された発明に含まれる単語の中からキーワードを抽出し、同義語、類義語または派生語(同義語等)を記憶した図示しないデータベースからキーワードに対する同義語等を検索した上で、同義語等によって構成される文章の意味内容が類似しているか否かで判断することができる。判定部(図示せず)は、文章の類似の度合いを類似度として算出してもよい。判定部(図示せず)は、算出した文章の類似度が小さい場合、権利取得の可能性が高いと判定してもよい。一方、判定部(図示せず)は、算出した文章の類似度が大きい場合、権利取得の可能性が低いと判定してもよい。判定部(図示せず)は、権利取得の可能性の高低に応じて、例えば、「Sランク(可能性が極めて高い)」、「Aランク(可能性が高い)」、「Bランク(可能性あり)」、および「Cランク(可能性が低い)」等、ランクによる判定をしてもよい。また、判定は、SランクからCランクの表示に限定されない。判定は、例えば、可能性が高い順に◎から×の表示であってもよい。
判定部(図示せず)は、各国の特許庁において過去に審査された権利取得の審査結果に基づき、権利取得の可能性を判定することができる。権利取得の審査結果とは、出願に係る発明、引用された引用文献、およびその両者の対比における審査結果(引用文献に基づき拒絶されたか否か)である。判定部(図示せず)は、出願に係る発明と引用された引用文献の文章の類似度を算出し、算出した類似度と審査結果との対比を学習して、権利取得の可能を判定してもよい。判定部(図示せず)は、算出した類似度と過去の審査結果との対比を学習することにより、過去の特許庁における判断を判定基準とすることができるので、権利取得の可能性についての判定精度を向上させることができる。記憶部102に、予め、審査結果が格納されるように構成してもよい。審査結果は、例えば、各国の特許庁が公開している審査情報から取得することができる。判定部(図示せず)は、審査結果に基づき、権利取得の可能を判定してもよい。
出力部104は、算出部103により算出された知的財産に関するデータ、または、類似情報に基づいて、利用者端末2に出力される情報を制御する。具体的には、出力部104は、算出部103により算出された権利取得可能性の情報に基づいて、キャラクター3の態様を出力制御することができる。例えば、出力部104は、上述した権利取得可能性の情報が拒絶すべきと判定部(図示せず)が判定した場合、記憶部102に記憶されたキャラクター情報のうち、哀のキャラクターを選択し、表示画面200に表示するように出力部104に出力指示をだす。また、出力部104は、上述した権利取得可能性の情報が拒絶すべきと判定部(図示せず)が判定した場合、上記スコアまたは権利取得可能性の情報に基づいて、記憶部102に記憶されたキャラクター情報のうち、哀のキャラクターを選択し、表示するように出力部104に出力指示をだしてもよい。
また、出力部104は、算出部103により算出されたキーワードを、キャラクター3を介して出力してもよい。算出部103が、記憶部102に記憶された知的財産に関する情報からキーワードを抽出する。具体的には、判定部(図示せず)が、権利取得可能性の情報が拒絶すべきと判定した際、どのような新たなキーワードを付加すれば、権利取得可能性の情報が拒絶すべきではないと判定するかというロジックで、新たなキーワードを算出する。算出部103は、新たなキーワードを無数に列挙してもよいが、煩雑となるため、算出に際しては、同一または類似技術の公報のクレーム記載のキーワードを算出してもよい。
また、判定部(図示せず)は、過去の審査結果を機械学習し、権利取得の可能性を判定してもよい。例えば、審査結果は情報取得部101が取得する。例えば、判定部(図示せず)は、出願に係る発明と引用された引用文献を入力、審査結果を出力とした、入力と出力をデータセットとする機械学習(教師あり学習)を行い、学習したデータセットをモデリングすることにより、権利取得の可能性を判定することができる。データセットは、例えば、国、適用法(法改正を含む)、発明の分野等によってそれぞれ異なるモデルとしてモデリングすることができる。判定部(図示せず)は、それぞれのモデリングにおいて学習された学習結果を用いることにより、権利取得の可能性についての判定精度を向上させることができる。また、判定部(図示せず)は、情報取得部101において取得された新たな審査結果を機械学習していくことにより、特許庁における審査の傾向に変化があった場合においても、その傾向の変化に対応して権利取得の可能性についての判定することができる。なお、機械学習としては、教師ありの学習技法を用いても教師なしの学習技法を用いてもよい。機械学習の学習技法としては、例えば、ニューラルネットワーク(ディープラーニングを含む)、サポートベクターマシン、クラスタリング(例えば、課題、第1実施形態等)、またはベイジアンネットワーク等を用いてもよい。
続いて、図6〜図9を参照して、本実施形態の変形例について説明する。図6は、本発明の一実施形態の変形例に係る文書情報評価装置1のソフトウェア構成の一例を示すブロック図である。また、図7は、本発明の一実施形態の変形例に係る検索の画面の例を示す模式図である。また、図8は、本発明の一実施形態の変形例に係る類義語辞書テーブルの一例を示す図である。なお、図1〜図5を参照して説明した実施形態と同様の構成については、図の説明が冗長となることを避けるため、図の記載と説明とを省略する。
図6に示すように、文書情報評価装置1は、文書情報入力部301と、検索キーワード入力部302と、記憶部102と、算出部103と、類義語展開選択部303と、出力部104の各機能部を有する。本実施形態における文書情報評価装置1の上記各機能部は、文書情報評価装置1を制御する情報処理プログラム(ソフトウェア)によって実現される機能モジュールであるものとして説明する。文書情報評価プログラムは、文書情報評価装置1で動作する。すなわち、文書情報評価装置1は、文書情報評価プログラムが動作する装置をいう。
文書情報入力部301は、利用者端末2を介して入力ボックス301aから入力されたこれら知的財産に関する情報を、利用者端末を介して文書情報の入力を受け付ける。文書情報入力部301には、例えば、利用者が創作した発明の内容が受け付けられる。文書情報評価装置1によって、入力ボックス301aが生成される。
また、検索キーワード入力部302は、利用者端末2を介して入力ボックス302aから入力されたこれら知的財産に関する情報を、利用者端末2から検索キーワードの入力を受け付ける。検索キーワードとは、利用者が入力する知的財産に関する情報と関連性のあるキーワードのことをいう。検索キーワードは、知的財産に関連する先行文書情報の抽出精度を向上させることを目的として、利用者が利用者端末2を介して入力する。検索キーワード入力部302には、例えば、入力ボックス302aから入力された知的財産に関する情報の技術的特徴に関連するキーワードなどが受け付けられる。文書情報評価装置1によって、入力ボックス302aが生成される。
利用者端末2は、利用者が操作可能な端末装置であって、例えば、デスクトップPC、ノートPC、タブレットPCまたはスマートフォン等である。本変形例では、一例として、文書情報が知的財産に関する情報である場合について説明する。
類義語展開選択部303は、検索キーワード入力部302に入力された検索キーワードの類義語展開の範囲を選択可能とする機能を有する。図7に示す通り、類義語展開選択部303は、「なし」、「標準」、「広い」の3段階の選択が可能である。「なし」とは、類義語の展開をしないで検索を行い一致度のスコアを算出する状態、「標準」とは、予め記憶部102に記憶されている第1類義語情報αのうち、例えば50%の第1類義語情報αを展開して検索を行い一致度のスコアを算出する状態、「広い」とは、予め記憶部102に記憶されている第1類義語情報αのうち、例えば100%の第1類義語情報αを展開して検索を行い一致度のスコアを算出する状態を、それぞれ示す。なお、「なし」「標準」、「広い」の3段階は例示であって、予め記憶部102に記憶されている第1類義語情報αのうちどの程度を展開し一致度のスコアを算出するかは適宜調整できるものとする。図7において、検索キーワード入力部302は、「あいまい」を選択した場合に検索キーワードの類義語展開を行い検索または分析の処理を実行する。また、検索キーワード入力部302は、「含む」を選択した場合に検索キーワードが含まれるように検索または分析の処理を実行する。そして、検索キーワード入力部302は、「含まない」を選択した場合に検索キーワードが含まれないように検索または分析の処理を実行する。
また、出力部104は、上記の通り、類義語展開選択部303に基づき「標準」または「広い」を選択した場合における、類義語展開された第1類義語情報αの内容を利用者端末2に表示出力する機能をさらに有する。表示出力は、検索キーワードごとに第1類義語情報αがテーブル形式で記憶される(図8参照)。
図7に示すように、文書情報評価装置1には、複数の類義語展開の選択を可能とする情報バー303a(第1情報バ―)が、出力部104によって、利用者端末2の検索を行う際の表示画面201に表示出力される。情報バー303aには、「なし」、「標準」、「広い」の選択スイッチ303bが設けられており、選択スイッチ303bを操作し類義語展開の選択を行うことにより、利用者からの類義語展開の選択指示が行われ、類義語展開指令信号に基づく類義語展開の入力を類義語展開選択部303が受け付ける。類義語展開選択部303にて入力の受け付けが行われると、選択スイッチ303bの選択に応じた類義語が展開され、当該類義語展開の条件で検索を実行することが可能となる。
類義語展開選択部303に基づき類義語展開を例えば、「標準」と選択すると、検索キーワードの第1類義語情報αが利用者端末2の検索を行う際の表示画面201に表示出力される。そして、選択を「標準」から「広い」に変更した場合、「広い」に変更したことに伴い、「標準」から新たに追加される第1類義語情報αが利用者端末2の検索を行う際の表示画面201に表示出力される。このように、出力部104は、選択の変更に応じて、第1類義語情報αの遷移状態を確認できるように第1類義語情報αを出力してもよい(図8の矢印部参照)。本変形例では、「なし」「標準」、「広い」の3段階を例示して説明したが、これに限定されない。類義語展開の選択を4段階以上とすることも可能である。文書情報評価装置1によれば、選択位置に基づく第1類義語情報αの遷移状態を一目で確認することができる。
第1類義語情報αは、利用者が、適宜追加または削除することが可能である。記憶部102は、利用者が保持する独自の「複数の検索キーワードごとの複数の第2類義語情報βを記憶することができる。そして、図7に示すように、記憶部102には、検索キーワードごとに追加したい第2類義語情報βと、削除したい第2類義語情報βがテーブル形式で記憶されてもよい(図8参照)。追加したい第2類義語情報βとしての”add”情報(コマンド情報)と、削除したい第2類義語情報βとしての”del”情報(コマンド情報)を利用者が予め保持している。例えば、検索キーワードを「今日」とした場合、”add”情報を「一昨日」とし、”del”情報を「今日は」とする利用者独自の第2類義語辞書Yを保持していてもよい。また、記憶部102は、検索キーワードを「天気」とした場合、”add”情報を「雪」とし、”del”情報を「元気」とする利用者独自の第2類義語辞書Yを記憶していてもよい。
なお、利用者は利用者端末2を介して表示出力された第1類義語情報αから直接削除したい第1類義語情報αを選択して削除することができる。なお、利用者は利用者端末2を介して表示出力された第1類義語情報αに対して追加したい第1類義語情報αを直接入力することができる。利用者端末2を介して第1類義語情報αが表示出力された場合、テキストボックス(図示せず)が表示出力されており、当該テキストボックスに追加したい第1類義語情報αを直接入力してもよい。このように、第1類義語情報αから直接追加または削除を実行した場合、追加または削除した内容が、”add”情報または”del”情報として、第2類義語辞書Yに反映されてもよい。
第2類義語情報βを有する第2類義語辞書Yは、CSV形式のファイルを、利用者端末2の検索を行う際の表示画面201に表示出力することにより実行してもよいし、CSV形式のファイルを、クラウド上で保持し管理していてもよい。
具体的には、記憶部102は、利用者独自の複数の検索キーワードごとの複数の第2類義語情報βを有する第2類義語辞書Yを、前記複数の第1類義語情報αを有する第1類義語辞書Xの検索キーワードと対応付けて記憶している。第1類義語辞書Xには、例えばWordNetが用いられる。
出力部104にて表示出力された検索キーワードの第1類義語情報αからある検索キーワードを追加または削除したい場合、当該検索キーワードごとの第1類義語情報αと、検索キーワードごとの追加または削除したい第2類義語情報βはそれぞれ対応付けられている。
出力部104は、利用者独自の複数の検索キーワードごとの複数の第2類義語情報βを有する第2類義語辞書Yを、利用者端末2の検索を行う際の表示画面201に表示出力する機能を有する。出力部104は、さらに、検索キーワードごとに追加または削除したい第2類義語情報βがテーブル形式で表示出力することが可能であり(図8参照)、追加・削除ボタン(図示せず)を選択することにより、検索キーワードの第1類義語情報αから選択した第2類義語情報βを追加または削除できるように構成されていてもよい。また、”add”情報および”del”情報がコマンド情報として検索キーワードごとに対応付けられており、コマンド情報が”add”情報の場合は当該検索キーワードごとに対応する第2類義語情報βは自動で追加され、コマンド情報が”del”情報の場合は当該検索キーワードごとに対応する第2類義語情報βは自動で削除されるように構成してもよい。
このように、追加または削除された第1類義語情報αを利用者独自の類義語辞書として、記憶部102に記憶することができる。
本変形例によれば、検索または分析の精度を向上させることが可能であって、利用者の経験によらず一定水準の検索または分析をすることが可能となる。また、従来の文書情報評価装置では確認できなかった類義語情報を容易に確認することができ、検索または分析の範囲を明確にすることが可能にするため、文書情報評価装置の不透明性をなくし検索または分析の信頼性を向上させることができる。
また、本変形例によれば、文書情報評価装置1は、文書情報の評価を行うに際して、知的財産に関連する先行文書情報のどの部分に記載されている文章と、利用者が利用者端末2を介して入力する知的財産に関連する文書情報を比較するか否かを選択可能とする検索文章範囲選択部304を、さらに備えてもよい。
図7に示すように、文書情報評価装置1は、複数の検索文章範囲の選択を可能とする情報バー304a(第2情報バー)を生成し、出力部104によって、利用者端末2の検索を行う際の表示画面201に表示出力される。情報バー304aには、「請求項」、「請求項・要約」、「全文」の選択スイッチ304bが設けられており、選択スイッチ304bを操作し検索文章範囲の選択を行うことにより、利用者からの検索文章範囲の選択指示が行われ、検索文章範囲選択指令信号に基づく検索文章範囲の選択を検索文章範囲選択部304が受け付ける。検索文章範囲選択部304にて入力の受け付けが行われると、選択スイッチ304bの選択に応じた検索文章範囲が選択され、当該検索文章範囲の選択の条件で検索を実行することが可能となる。
図7に示す通り、検索文章範囲選択部304は、「請求項」、「請求項・要約」、「全文」の3段階の入力の受け付けが可能である。「請求項・要約」とは、知的財産に関連する先行文書情報の請求項に記載されている箇所を検索または分析の範囲とする。「請求項」とは、知的財産に関連する先行文書情報の請求項に記載されている箇所を検索または分析の範囲とする。「請求項」は全請求項を対象としてもよいし、特定の一部の請求項のみを検索または分析の範囲の対象としてもよい。検索文章範囲選択部304は、検索または分析の範囲を、全請求項とするか特定の請求項にするか選択可能な構成としてもよい。「全文」とは、願書、明細書、請求項、要約書を含む。なお、「全文」には、図面を含めてもよい。「全文」は、図面に記載の用語を含む構成としてもよい。
このように評価内容(例えば、先行技術調査、無効資料調査、侵害性調査)の種類に応じて、検索または分析の範囲を適宜変更することができるため、文書情報評価装置1によれば評価精度を向上させることができる。
また、本変形例によれば、文書情報評価装置1は、知的財産に関連する文書情報の技術分野に関するキーワードの入力を受け付ける技術分野入力部305と、知的財産に関連する文書情報の技術的特徴に関するキーワードの入力を受け付ける技術的特徴入力部306と、をさらに備える構成としてもよい。なお、技術分野入力部305および技術的特徴入力部306による入力の受け付けは、キーワードに限定されない。当該入力の受け付けは、複数のキーワードを組み合わせた用語であってもよいし、文節、文章などの文書情報の入力を受け付けるように構成してもよい。技術分野入力部305には、利用者端末2を介して入力ボックス305aから入力された知的財産に関する情報の技術分野が受け付けられる。また、技術的特徴入力部306には、利用者端末2を介して入力ボックス306aから入力された知的財産に関する情報の技術的特徴が受け付けられる。文書情報評価装置1によって、入力ボックス305a、306aが生成される。
また、文書情報評価装置1は、知的財産に関連する文書情報の補足情報に関する文書情報(例えば知的財産に関連する文書情報の具体的な実施形態、背景技術等)の入力を受け付ける補足情報入力部307を追加してもよい。なお、補足情報入力部307による入力の受付けは、文節、文章などの文書情報に限定されずキーワードであってもよい。補足情報入力部307には、利用者端末2を介して入力ボックス307aから入力された知的財産に関する情報の補足情報が受け付けられる。文書情報評価装置1によって、入力ボックス307aが生成される。
このように、検索キーワードに加え、技術分野関するキーワード、技術的特徴に関するキーワード、および補足情報に関する文書情報の、少なくとも一方のキーワードを入力することが可能になるため、文書情報評価装置1によれば、さらに評価精度を向上させることができる。
さらに、文書情報評価装置1は、上述のように選択した検索文章範囲および類義語展開範囲のフィードバックを行い、当該フィードバックの結果を記憶部102に記憶するように構成してもよい。文書情報評価装置1が、当該フィードバックの結果を学習することにより、例えば、前回実施した評価の対象となる文書情報と類似の技術分野や技術的特徴を有する前回とは異なる文書情報について評価を実施する場合、改めて選択しなくても、前回評価したときに選択した検索文章範囲および類義語展開範囲を自動で設定する項に構成してもよい。または、文書情報評価装置1は、類似の技術分野や技術的特徴について多用されている検索文章範囲および類義語展開範囲を、リコメンド(推奨)するように構成してもよい。リコメンド(推奨)は、文書情報評価装置1が備える推奨部(図示せず)が実行するように構成してもよい。
続いて、図9を用いて、一実施形態の変形例に係る文書情報評価装置の動作例を説明する。図9は、一実施形態の変形例に係る文書情報評価装置の動作例を示すフローチャートである。
<変形例に係る文書情報評価装置1の動作処理の一例>
図8において、文書情報評価装置1は、利用者端末2からの知的財産に関する文書情報の入力を受付ける(S201)。知的財産に関する文書情報の入力の受け付けは、文書情報入力部301が実行する。次いで、文書情報評価装置1は、利用者端末2から知的財産に関する文書情報に関連する検索キーワードの入力を受け付ける(S202)。検索キーワードの入力の受け付けは、検索キーワード入力部302が実行する。
次いで、類義語展開を選択する(S203)。類義語展開の入力の受け付けは、類義語展開選択部303が実行する。次いで、出力部104に基づき、S203にて選択した類義語展開の第1類義語情報αを表示出力する(S204)。次いで、表示出力された検索キーワードに関する第1類義語情報αが妥当か否かを判断する(S205)。S205にて、第1類義語情報αが妥当であると判断される場合(S205のYES)、算出部103は、記憶部102において記憶された先行文書情報に基づき、利用者端末2から入力された入力情報としての文書情報に対する一致度を算出して(S206)本動作処理を終了する。
一方、S205にて、第1類義語情報αが妥当でないと判断される場合(S205のNO)、利用者が保持する独自の複数の検索キーワードごとの複数の第2類義語情報βを文書情報評価装置1に取り込み利用者端末2に表示出力を行う。表示出力は、例えば、検索キーワードごとに追加したい第2類義語情報βと、削除したい第2類義語情報βがテーブル形式で作成したCSV形式のファイルを、利用者端末2に取り込み表示出力することにより実行してもよいし、CSV形式のファイルを、クラウド上で保持し管理していてもよい。取り込まれた第2類義語情報βを有する第2類義語辞書Yは、例えば記憶部102に記憶される。そして、当該表示出力された、当該第2類義語情報βから追加または削除したい第2類義語情報βを選択する(S207)。例えば、追加・削除ボタン(図示せず)を選択することにより、検索キーワードの第1類義語情報αから選択した第2類義語情報βを追加または削除できるように構成されていてもよい。その後、S206に移行し本動作処理を終了する。
また、上述した本実施形態および変形例においては、知的財産が発明である場合について主に説明したが、例えば、一致度のスコアおよび類似度において、意匠登録または商標登録について判定するものであってもよい。
なお、本実施形態および変形例で説明した装置を構成する機能を実現するためのプログラムを、コンピュータ読み取り可能な記憶媒体に記憶して、当該記憶媒体に記憶されたプログラムをコンピュータシステムに読み込ませ、実行することにより、本実施形態の上述した種々の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記憶媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記憶媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記憶されているプログラムとの組合せで実現するもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、本発明者によってなされた発明の実施形態および変形例について、図面を参照して説明してきたが、本発明は上述の実施の形態および変形例に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることは言うまでもない。上記実施の形態および変形例に記載された内容の一部を以下に記載する。
[付記]
複数の文書情報および先行文書情報に含まれる文章を比較して前記文書情報と類似する先行文書情報を抽出し、前記文書情報と当該抽出された先行文書情報との類似度を評価する文書情報評価装置であって、
利用者が操作可能な利用者端末から入力された文書情報の入力を受け付ける文書情報入力部と、
前記利用者が操作可能な前記利用者端末から入力された前記文書情報に関する検索キーワードの入力を受け付ける検索キーワード入力部と、
複数の先行文書情報を記憶する記憶部と、
前記検索キーワードの第1類義語情報を展開する入力を受け付ける類義語展開選択部と、
前記利用者の操作に応じて前記類義語展開選択部にて類義語展開を選択する場合、前記第1類義語情報を出力する出力部と、
前記文書情報および前記先行文書情報に含まれる文章を比較して前記文書情報との一致度をスコアとして算出する算出部と、
を備え、
前記出力部は、前記検索キーワードの前記第1類義語情報の類義語展開の選択を複数設定できる第1情報バーを表示出力することが可能であり、
前記記憶部は、利用者独自の前記複数の検索キーワードごとの複数の第2類義語情報を有する第2類義語辞書を、前記複数の第1類義語情報を有する第1類義語辞書の検索キーワードと対応付けて記憶することが可能であり、
前記出力された検索キーワードに対応する前記第1類義語情報から、当該検索キーワードに対応する少なくとも1つの第2類義語情報を削除し、または任意の第2類義語情報を追加することができる、
文書情報評価装置。
[付記2]
文書情報の評価を行うに際して、前記先行文書情報のどの部分に記載されている文章と前記文書情報を比較するか否かを選択可能とする入力を受け付ける検索文章範囲選択部と、をさらに備え、
前記出力部は、前記検索文章範囲の選択を複数設定できる第2情報バーを表示出力することを特徴とする、
[付記1]に記載の文書情報評価装置。
[付記3]
前記文書情報の技術分野に関するキーワードの入力を受け付ける技術分野入力部と、
前記文書情報の技術的特徴に関するキーワードの入力を受け付ける技術的特徴入力部と、をさらに備えることを特徴とする、
[付記1]または[付記2]に記載の文書情報評価装置。
[付記4]
コンピュータが、
複数の文書情報および先行文書情報に含まれる文章を比較して前記文書情報と類似する先行文書情報を抽出し、前記文書情報と当該抽出された先行文書情報との類似度を評価する文書情報評価装置であって、
利用者が操作可能な利用者端末から入力された文書情報の入力を受け付ける文書情報入力ステップと、
前記利用者が操作可能な前記利用者端末から入力された前記文書情報に関する検索キーワードの入力を受け付ける検索キーワード入力ステップと、
複数の先行文書情報を記憶する記憶ステップと、
前記検索キーワードの第1類義語情報を展開する入力を受け付ける類義語展開選択ステップと、
前記利用者の操作に応じて前記類義語展開選択ステップにて類義語展開を選択する場合、前記第1類義語情報を出力する出力ステップと、
前記文書情報および前記先行文書情報に含まれる文章を比較して前記文書情報との一致度をスコアとして算出する算出ステップと、
を備え、
前記出力ステップは、前記検索キーワードの前記第1類義語情報の類義語展開の選択を複数設定できる第1情報バーを表示出力することが可能であり、
前記記憶ステップは、利用者独自の前記複数の検索キーワードごとの複数の第2類義語情報を有する第2類義語辞書を、前記複数の第1類義語情報を有する第1類義語辞書の検索キーワードと対応付けて記憶することが可能であり、
前記出力された検索キーワードに対応する前記第1類義語情報から、当該検索キーワードに対応する少なくとも1つの第2類義語情報を削除し、または任意の第2類義語情報を追加することができる、
文書情報評価方法。
[付記5]
コンピュータに、
複数の文書情報および先行文書情報に含まれる文章を比較して前記文書情報と類似する先行文書情報を抽出し、前記文書情報と当該抽出された先行文書情報との類似度を評価する文書情報評価装置であって、
利用者が操作可能な利用者端末から入力された文書情報の入力を受け付ける文書情報入力機能と、
前記利用者が操作可能な前記利用者端末から入力された前記文書情報に関する検索キーワードの入力を受け付ける検索キーワード入力部と、
複数の先行文書情報を記憶する記憶機能と、
前記検索キーワードの第1類義語情報を展開する入力を受け付ける類義語展開選択部と、
前記利用者の操作に応じて前記類義語展開選択部にて類義語展開を選択する場合、前記第1類義語情報を出力する出力機能と、
前記文書情報および前記先行文書情報に含まれる文章を比較して前記文書情報との一致度をスコアとして算出する算出機能と、
を実行させ、
前記出力機能は、前記検索キーワードの前記第1類義語情報の類義語展開の選択を複数設定できる第1情報バーを表示出力することが可能であり、
前記記憶機能は、利用者独自の前記複数の検索キーワードごとの複数の第2類義語情報を有する第2類義語辞書を、前記複数の第1類義語情報を有する第1類義語辞書の検索キーワードと対応付けて記憶することが可能であり、
前記出力された検索キーワードに対応する前記第1類義語情報から、当該検索キーワードに対応する少なくとも1つの第2類義語情報を削除し、または任意の第2類義語情報を追加することができる、
文書情報評価プログラム。