JP7012298B2

JP7012298B2 - 文献データ解析プログラム及びシステム

Info

Publication number: JP7012298B2
Application number: JP2016184000A
Authority: JP
Inventors: 竜二川瀬
Original assignee: Japan Mode Co Ltd; Management of Technology Solution Cooperation
Current assignee: Japan Mode Co Ltd; Management of Technology Solution Cooperation
Priority date: 2016-09-21
Filing date: 2016-09-21
Publication date: 2022-01-28
Anticipated expiration: 2036-09-21
Also published as: JP2018049430A

Description

本発明は、発明に関する情報が記述された文献データの文字列に基づいた特徴量を検出する上で好適な文献データ解析プログラム及びシステムに関する。

イノベーションは、大きく分類して市場のニーズに基づいて創出されるニーズ先行型イノベーションと、技術のシーズから社会的な価値につなげるシーズ先行型イノベーションとに分類される。特に後者のシーズ先行型イノベーションは、技術のシーズそのものが従来技術と比較して進歩性のある優れた技術であっても、それが実社会において受け入れられるべきものでない限り、即ち市場のニーズにしっかりとリンクするもので無い限り、本当の意味でのイノベーションとは言いがたい。

つまり、研究開発から製品化、大量普及に至るまでには、乗り越えなければならない、いわゆる死の谷やダーウィンの海が立ちはだかっているのである。そしてこれを乗り越えた場合に、創出された技術のシーズが社会的価値へと発展し、本当の意味でのイノベーションになりえるのである。

特にこのようなイノベーションは、大企業のみならず、中小企業、ひいては個人発明家からも生まれる可能性はある。このイノベーションが創造される過程においては、市場から要求を満たす上で障害となる問題点が存在し、その問題点をクリアすることで創造される場合が多い。この問題点をクリアするための解決コンセプトをヒントにすることでイノベーターによるイノベーションが実現することとなる。逆にイノベーターに対して、その問題点を解決する上で最適な解決コンセプトを効果的に提示することで、イノベーターによるイノベーションの創造を支援することも可能となる。

イノベーション創造を支援するシステムは確かに従来において提案されている（例えば、特許文献１参照。）。この特許文献１には、入力される文字情報同士をグループ化して課題分析手法により課題分析を行い、アイデア創出処理は勿論であるが最終的にはそのシナリオまでも生成することを前提とした技術が開示されている。

特開２００５－２８４５４８号公報

しかしながら、上述した特許文献１の開示技術によれば、特許明細書等を始めとした発明に関する情報が記述された文献データから最新の解決コンセプトをイノベーターに対して必ずしも効果的に提示することができず、イノベーションの創造支援を実現することができないという問題点があった。

そこで本発明は、上述した問題点に鑑みて案出されたものであり、その目的とするところは、最新の解決コンセプトを特許明細書を始めとした文献から抽出し、これをイノベーターに対して効果的に提示することが可能な文献データ解析プログラム及びシステムを提供することにある。

本発明に係る文献データ解析プログラムは、発明に関する情報が記述された文献データからその発明の解決コンセプト又は付帯項目が記述されている文字列をそれぞれテキストマイニングにより抽出するマイニングステップと、上記マイニングステップにおいて抽出した文字列に基づいた特徴量を検出する特徴量検出ステップと参照用文字列と、教師データとしての解決コンセプト又は付帯項目のクラスタとの関係を予め取得する取得ステップと、上記取得ステップにおいて取得した参照用文字列と教師データとの関係を参照し、上記特徴量検出ステップにおいて特徴量を検出した文字列を解決コンセプト又は付帯項目の何れか１以上のクラスタに割り当てるクラスタリングステップとを有することを特徴とする。

本発明に係る文献データ解析システムは、発明に関する情報が記述された文献データか
らその発明の解決コンセプト又は付帯項目が記述されている文字列をそれぞれテキストマ
イニングにより抽出するマイニング手段と、上記マイニング手段により抽出された文字列
に基づいた特徴量を検出する特徴量検出手段と参照用文字列と、教師データとしての解決コンセプト又は付帯項目のクラスタとの関係を予め取得する取得手段と、上記取得手段において取得した参照用文字列と教師データとの関係を参照し、上記特徴量検出手段において特徴量を検出した文字列を解決コンセプト又は付帯項目の何れか１以上のクラスタに割り当てるクラスタリング手段とを備えることを特徴とする。

上述した構成からなる本発明によれば、最新の解決コンセプトを特許明細書を始めとした文献から抽出し、これをイノベーターに対して効果的に提示することが可能となる。その結果、イノベーションの創造支援を実現することが可能となる。

本発明を適用した文献データ解析システムの構成例を示す図である。電子機器のブロック構成を示す図である。本発明を適用した文献データ解析システムの処理動作のフローチャートである。参照用文字列の組み合わせと解決コンセプトの連関性を示す模式図である。参照用文字列の組み合わせと解決コンセプトの連関性を示す他の模式図である。本発明を適用した文献データ解析システムを利用して実際にイノベーション創造を行う場合のフローチャートである。基本情報が入力された場合における参照用文字列の組み合わせと解決コンセプトの連関性を示す模式図である。本発明を適用した文献データ解析システムの処理動作を特徴量に基づいて実行する例を示す図である。参照用文字列の組み合わせと付帯項目の連関性を示す模式図である。特徴量の抽出をディープラーニングのネットワークを介して行う場合について説明するための図である。各付帯項目と各解決コンセプトとの関連性を、その結びつき度を介して記述した例を示す図である。

以下、本発明を適用した文献データ解析システムについて、図面を参照しながら詳細に説明をする。

第１実施形態
本発明を適用した文献データ解析システム１は、例えば図１に示すような構成により具現化される。この文献データ解析システム１は、システムを利用するユーザ用の端末装置１１と、この端末装置１１に対して公衆通信網１２を介して接続されるサーバ１３とを備えている。

公衆通信網１２は、端末装置１１間及びサーバ１３を通信回線を介して接続されるインターネット網等である。ちなみにこの端末装置１１を一定の狭いエリア内で運用する場合には、この公衆通信網１２を、ＬＡＮ（Local Area Network）で構成してもよい。また、この公衆通信網１２につきいわゆる光ファイバ通信網で構成してもよい。また、この公衆通信網１２は、有線通信網に限定されるものではなく、無線通信網で実現するようにしてもよい。

端末装置１１は、例えば、携帯電話、スマートフォン、タブレット型端末、ウェアラブル端末、ノート型のパーソナルコンピュータ（ＰＣ）等であり、少なくともユーザの操作に基づいて公衆通信網１２を介して通信可能なデバイスである。端末装置１１は、ユーザが携帯可能とすることにより、常時持ち運びを可能とするデバイスであるが、これに限定されるものではなく、そえ置き型のＰＣ等、あらゆる電子機器を含む概念である。

なお、この端末装置１１は、後述する文献データ解析プログラムを公衆通信網１２を介してダウンロードすることなく、店頭で販売されているパッケージソフトをインストールする場合には、公衆通信網１２を介した通信を行わない機器であってもよい。以下の例では、この端末装置１１につき、スマートフォンを適用する場合を例にとり説明をする。

図２は、端末装置１１の具体的な構成例を示している。この端末装置１１は、ＲＯＭ（Read Only Memory）２２と、データの蓄積や展開等に使用する作業領域としてのＲＡＭ(Random Access Memory)２３と、端末装置１１全体を制御するためのＣＰＵ（Central Processing Unit）２４と、操作ボタンやキーボード等を介して各種制御用の指令を入力するための操作部２５と、各種情報の表示を制御するための出力Ｉ／Ｆ１６と、ハードディスク等に代表され、実行すべき検索を行うためのプログラムを格納するための記憶部２７と、外部から端末装置１１内へデータを入力し、或いは端末装置１１において生成されたデータを外部へ出力するためのデータ入出力部２９が内部バス２１にそれぞれ接続されている。さらに、この内部バス２１には、通信Ｉ／Ｆ２８、音声入力部３１が接続されている。また、出力Ｉ／Ｆ１６には、実際に情報を表示するモニタとしての表示部２６が接続されている。

ＲＯＭ２２は、端末装置１１全体のハードウェア資源を制御するためのプログラムが格納されている。ＲＡＭ２３は、端末装置１１全体のハードウェア資源を制御するときの各種命令を一時的に記憶する。

ＣＰＵ２４は、内部バス２１を介して制御信号を送信することにより、端末装置１１内に実装された各構成要素を制御するためのいわゆる中央演算ユニットである。また、このＣＰＵ２４は、操作部２５を介したユーザの操作に応じて各種制御用の指令を内部バス２１を介して伝達する。

操作部２５は、タッチパネル等で具体化され、ユーザが実際に解決したい問題に関する情報が入力される他、文献データ解析プログラムを実行するための実行命令がユーザから入力される。この操作部２５は、上記実行命令がユーザにより入力された場合には、これをＣＰＵ２４に通知する。この通知を受けたＣＰＵ２４は、上記プログラムを記憶部２７から読み出して実行する。

出力Ｉ／Ｆ１６は、ＣＰＵ２４による制御に基づいて表示画像を作り出すグラフィックコントローラにより構成されている。この出力Ｉ／Ｆ１６に接続される表示部２６は、例えば、液晶ディスプレイ（ＬＣＤ）等によって実現される。

記憶部２７は、ハードディスクで構成される場合において、ＣＰＵ２４による制御に基づき、各アドレスに対して所定の情報が書き込まれるとともに、必要に応じてこれが読み出される。また、この記憶部２７には、本発明を実行するための文献データ解析プログラムが格納されている。このプログラムはＣＰＵ２４により読み出されて実行されることになる。

通信Ｉ／Ｆ２８は、公衆通信網１２と接続するための回線制御回路や、他の端末装置との間でデータ通信を行うための信号変換回路等が実装されている。通信Ｉ／Ｆ２８は、内部バス２１からの各種命令に変換処理を施してこれを公衆通信網１２側へ送出するとともに、公衆通信網１２からのデータを受信した場合にはこれに所定の変換処理を施して内部バス２１、或いはＣＰＵ２４へ送信する。

データ入出力部２９は、ＰＣ等の電子機器との間でＵＳＢ接続するためのコード等が接続される。このデータ入出力部２９を介して外部の機器との間でデータを入出力することが可能となる。

音声入力部３１は、ユーザから入力された音声を電子データに変換するためのデバイスである。

サーバ１３には、所定のデータベースが構築されている。このデータベースには、公衆通信網１２を介して送られてきた情報が蓄積される。また、このサーバ１３は、端末装置１１からの要求に基づいて、この蓄積した情報を公衆通信網１２を介して端末装置１１へと送信する。

なお、端末装置１１における何れか１以上の構成要素、或いはサーバ１３は、人工知能により制御されるものであってもよい。本発明への人工知能の具体的な応用方法は、従来における全ての公知の人工知能に関する情報の何れか１以上に基づくものであってもよい。

本発明を適用した文献データ解析システム１は、端末装置１１又はサーバ１３側内にインストールされた文献データ解析プログラムを介して実行していくこととなる。端末装置１１又はサーバ１３は、これにインストールされている文献データ解析プログラムを通じ、各種解析を行っていくこととなる。

文献データ解析プロセスにおいては、特許明細書等のような、過去において提案された発明に関する情報が記述された文献データから文字列を抽出するところから開始する。

ここでいう文献データは、特許明細書、実用新案の明細書、意匠公報の記載等、いわゆる出願書類に限定されるものではなく、論文や学会の予稿集、或いは会社内で発行される技報等、発明に関する情報が記載されたあらゆるデータを含むものである。このような文献データを電子情報として取得し、解析を行っていくこととなる。文献データを取得後、実際に文献データ解析プログラムが処理動作を実行していくこととなる。ちなみに、この文献データは、それぞれの特許出願に対して特許庁が付与する分類記号（ＦＩ、ＩＰＣ、Ｆターム等）も含まれる。

文献データ解析プログラムは、取得した文献データについて解析を行う。この解析については、既存のあらゆるテキストマイニング技術、データマイニング技術、言語解析処理技術等を用いるようにしてもよい。

次に、この文献データ解析プログラムは、解析対象の文献データを単語、形態素、句、節、格成分等、あらゆる文法上の構造単位の中から何れか１以上の文法構造単位で、文字列の抽出を行う。例えば、「特許明細書における特許請求の範囲に定義された発明の限定度合をカウントして表示することが可能な特許明細書分析表示装置について、更に高精度に発明の限定度合いを表示することを目的とする。」というテキストデータがあった場合には、「特許明細書」、「特許請求の範囲」、「定義」、「発明」、「限定度合」、「カウント」、「表示する」、「特許明細書分析表示装置」「高精度に」、「目的とする」等といった文字列を抽出することとなる。

以下の実施の形態において、この文献データとして特許明細書（実用新案明細書）を解析する場合を例にとり説明をする。この特許明細書からなる文献データには、大きく分類して特許請求の範囲の記載や解決手段の記載、更には、詳細な説明の記載において、発明の構成要素が記載されている。このような発明の構成要素そのものに解決コンセプトが含まれている。この解決コンセプトは、発明の構成要素に加えて、どのようにして課題を解決し、どのような構成に基づいてどのように作用効果を出すかについて言及した記載も含まれる。即ち、特許明細書に記載されている解決コンセプトには、解決しようとする課題の欄等、作用効果の欄、解決手段の欄等、特許明細書におけるいかなる欄から抽出するようにしてもよい。

次に文献データ解析プログラムは、抽出した文字列と連関性の高い解決コンセプトの割り当てを開始する。この割り当てを行う前において、端末装置１１は、図３に示すように参照用文字列と２種以上に分類されてなる抽象化された解決コンセプトのクラスタの連関性を予め取得しておく。

解決コンセプトのクラスタは、問題を解決するための抽象化されたコンセプトに対応している。この解決コンセプトのクラスタを特徴付ける各クラスタＡ１、Ａ２、Ａ３、Ｂ１、Ｂ２、Ｂ３、Ｃ１、Ｃ２、Ｃ３、・・・は、予めシステム側において定義されているものである。この解決コンセプトのクラスタは、例えば等価変換理論、ＴＲＩＺ（古典的ＴＲＩＺに加え、発展的なあらゆるＴＲＩＺも含む）、ＡＲＩＺ、ＱＦＤ、タグチメソッド等、既に公知になっているあらゆる問題解決法を含む概念である。この解決コンセプトの例としては、例えば古典的ＴＲＩＺの４０の発明原理を例に挙げるのであれば、セグメンテーション（細分化）、非対称性、逆（リバース）、ダイナミック性、フィードバック、入れ子構造、先取り作用、等位性、機械的な振動、事前の内部応力、害を益に変換（災い転じて福となす）等に相当するものである。これらの各解決コンセプトがそれぞれ一つのクラスタを構成している。

端末装置１１又はサーバ１３は、このような文字列と解決コンセプトのクラスタが互いにどの程度関連しているかの度合いを示す、連関性を取得しておく。この連関性の表現方法としては、例えば図３に示すような矢印で繋がっている参照用文字列と解決コンセプトのクラスタは、互いに連関しており、矢印で繋がっていない参照用文字列と解決コンセプトのクラスタは、互いに連関していない形態で表現するようにしてもよい。例えば解決コンセプトのクラスタＡ２は、参照用文字列ｃ１１、ａ２１には連関しているが、これ以外の解決コンセプトのクラスタとは連関していないという形で表現するようにしてもよい。即ち、このケースでは、参照用文字列と解決コンセプトのクラスタの連関の有無を真または偽の２値により、デジタル的に表現することとなる。

これ以外の連関性の表現方法としては、アナログ的な表現方法を採用するようにしてもよい。即ち、この連関性は３段階以上の連関度によって表現されるものであってもよい。連関度は例えば０～１００％までの数値で記述することができる。例えば解決コンセプトのクラスタＢ３は、参照用文字列ａ２１、ｂ２１には８０％の割合で連関しており、更に参照用文字列ｃ１１が６０％、参照用文字列ｂ１１が４５％、参照用文字列ｃ２１が２４％、参照用文字列ａ１１が０％等の連関度として表現されていてもよい。例えば、参照用文字列として、「微細化」、「分割」、「細分化」、については、連関度が８０％の解決コンセプトのクラスタとして、セグメンテーション（細分化）が表現されていてもよい。この解決コンセプトのクラスタとしてのセグメンテーションとしては、連関度が５０％の参照用文字列として、「分室化」、「別々に」等を登録するようにしてもよい。

解決コンセプトのクラスタとしての「使い捨て」という技術思想については、連関度が８０％の参照用文字列として、「使い捨て」、連関度が６０％の参照用文字列として、「交換」、「廃棄」等が登録されているようにしてもよい。

解決コンセプトのクラスタとしての「事前の内部応力」については、連関度が８０％の参照用文字列として、「事前の応力」、「予歪み」等、連関度が６０％の参照用文字列として「荷重」、「力の負荷」等が、連関度が４５％の参照用文字列として「押圧」が、登録されているようにしてもよい。

解決コンセプトのクラスタとして、「二重構造による強化」は、連関度が７０％の参照用文字列として、「重ねる」、「カバー」、「二重」等、連関度が４０％の参照用文字列として「被覆」、「当てがう」等が登録されているようにしてもよい。

端末装置１１又はサーバ１３は、新たに抽出した文字列の解析前までに、参照用文字列と解決コンセプトとの連関性を自らの記憶部２７等に記憶しておき、いつでも読み出して参照できるようにしておく。

そして文献データ解析プログラムは、新たに抽出した文字列に基づき、解決コンセプトのクラスタを１又は２以上に亘り割り当てる。この割り当てるルールはいかなるものであってもよいが、一例として以下に説明する方法に基づくようにしてもよい。

この抽出した文字列から解決コンセプトのクラスタを割り当てる際において、予め取得した参照用文字列と解決コンセプトのクラスタとの連関性を参照するようにしてもよい。例えば、文献データから抽出した文字列が「予歪み」である場合には、これと同一の参照用文字列がｃ２１において存在していた場合、その参照用文字列ｃ２１である「予歪み」と連関性の高い解決コンセプトのクラスタは、Ｃ１にある「事前の内部応力」である。このため、この解析した「予歪み」という文字列に対して連関性の高い「事前の内部応力」をその文献データの発明の解決コンセプトのクラスタとして割り当てることとなる。

例えば、文献データから解析した文字列が「交換」である場合には、参照用文字列と解決コンセプトのクラスタとの連関性を参照した場合、その「交換」と連関性の高いのは「使い捨て」である。但し、この「交換」と「使い捨て」はそれほど連関度が高いものではないため、解決コンセプトのクラスタとしてこれを割り当てるか否かは、様々なルールに基づいて判断するようにしてもよい。その判断のルールとしては、例えば同じ「使い捨て」の連関性の高い他の参照用文字列が同一文献データ内にある場合や、他の文献データにおいて、「交換」と「廃棄」がそのデータ内において出現する頻度が高い等の場合等、条件をつけるようにしてもよい。

また抽出した文字列が「押された状態」と「予め」という文言が含まれていた場合、全く同一の参照用文字列は無かったものの、解決コンセプトのクラスタとしての「事前の内部応力」と連関性のある「予歪み」の「予」が一部一致しており、更に「押される」の「押」が、同じ解決コンセプトのクラスタとしての「事前の内部応力」と連関性のある「押圧」が一部一致している場合には、この２つの文字列が含まれている文献データの発明につき、解決コンセプトのクラスタとして「事前の内部応力」を割り当てるようにしてもよい。

更に文献データから抽出した文字列が「線膨張係数」であった場合に、材料間の線膨張係数の差異があれば事前に内部応力が負荷させることは明確であることから、参照用文字列との間に、完全一致又は一部一致しなかった場合であっても、「事前の内部応力」との間では、意味概念において類似性がある。この意味概念の類似性を予めシステム側において設定し、その類似性の高い参照用文字列と連関性の高い解決コンセプトのクラスタを割り当てるようにしてもよい。

即ち、この抽出した文字列は、参照用文字列と文字が一部一致又は完全一致しているか否か、意味概念の類似性の度合いのみならず、抽出した文字列に対して何らかの対応関係がある参照用文字列であれば、その参照用文字列と連関性の高い解決コンセプトを割り当てるようにしてもよい。

解析した文字列と連関性のより高い解決コンセプトのクラスタを判別する方法は、上述した方法に限定されるものではない。例えば、参照用文字列と解決コンセプトとの間で予め連関度が設定され、その連関度に基づいて解決コンセプトのクラスタを選択する場合のみならず、この連関度が連関の有無のみ設定されている場合、つまりデジタル的に真偽のみが設定されている場合も同様である。かかる場合には、その連関度の有無のみに基づいて解決コンセプトのクラスタを選択していくこととなる。

なお、文字列は、解決コンセプトの何れか１以上のクラスタに割り当てられるものであればいかなる数のクラスタに割り当てられるものであってもよい。この解決コンセプトのクラスタへの割り当てを通じて、文献データに記載されている発明がいかなるコンセプトで問題解決を行っているのかを判別することが可能となる。

図４の例では、複数の参照用文字列間の組み合わせに対する各解決コンセプトとの連関性を参照するものである。

図４では、参照用文字列として、ａ～ｇ等があり、これらの組み合わせに対してそれぞれ解決コンセプトＡ１、Ａ２、・・・が割り当てられている。実線がその連関性を示すものであり、点線はその組み合わせを示すものである。例えば、ａとｂとが互いに点線でつながっており、そこから実線が、Ａ２、Ｃ１に伸びている。これは、ａとｂの組み合わせに対する連関性の高い解決コンセプトがＡ２、Ｃ１であることを示している。つまり参照用文字列がａのみであると、何を解決したいのか、何が問題になっているのかが分からない。これに対して、ａとｂが組み合わさると、条件が付加された結果に具体的に何のイノベーションかが分かる。つまり、参照用文字列が「犬」のみであると、犬の何を解決したいのか、何が問題になっているのかが分からない。これに対して、「犬」と「尻拭き」が組み合わさると、犬が糞をした後の肛門を拭くためのイノベーションであることがある程度絞られ、これに応じた解決コンセプトを絞り込むことが可能となる。ａとｂとｃが組み合わさった場合、つまり、「犬」、「尻拭き」、「ポリ袋」が組み合わさる点線においては、更にＡ２、Ｂ２の解決コンセプトが連関性の高いものとして繋がる。これは上述した犬の尻拭きに更にポリ袋が加わることで、ポリ袋を使って犬の尻拭きをするための解決コンセプトが更に絞られてくることを意味する。

上述した参照用文字列の組み合わせは名詞－名詞であるが、例えば、「シール」と「貼る」の組み合わせのように名詞－動詞であってもよい。名詞と動詞が結びつくことにより、実現しようとする命題が「シールを貼る」のように明確になる。そして、このシールを貼ることに対する連関性の高い解決コンセプトとしてＢ３がリンクすることとなる。また、これに加えて、更に「ポリ袋」という参照用文字列が組み合わされば、ポリ袋にシールを貼るための解決コンセプトが絞られてくることとなる。また「安価」という参照用文字列が加われば、ポリ袋にシールを安価に貼るための解決コンセプトが絞られてくることとなる。

このような各参照用文字列の組み合わせに対する１以上の解決コンセプトの連関性を上述した例と同様に予め人工知能を通じて教師有り学習して取得しておくことにより、実際に基本情報から解析した文字列から解決コンセプトを選択する際に、これを参照することが可能となる。特にこの参照用文字列単独よりも、これらを互いに組み合わせにより、意図している解決コンセプトをより絞り込むことができ、ユーザが本当に所望する解決コンセプトを効果的に選択して提案することも可能となる。

このようにして本発明によれば、参照用文字列と教師データの取得を繰り返し実行することにより、参照用文字列と解決コンセプトのクラスタとの関係について教師あり学習を順次行っていくこととなる。

その結果、図５に示すように、解決コンセプト毎にクラスタが生成されることとなる。例えば解決コンセプト「事前の内部応力」のクラスタには、参照用文字列として「予歪み」、「押圧」等がある。また枝分かれしているのは複数の文字列の組み合わせを以って連関していることを示すものであり、「事前の」＋「応力」で連関している。

同様に、解決コンセプト「使い捨て」のクラスタには、参照用文字列として「交換」、「廃棄」、「シール」＋「貼る」が連関している。この図５における解決コンセプトと参照用文字列とを結ぶ線分は、単に連関しているか否かを示すものではなく、上述したように３段階以上の連関度を持ってその連関性が決められるものであってもよい。

本発明においては、この参照用文字列と、教師データとしての解決コンセプトのクラスタとの取得を繰り返し実行することにより、参照用文字列と解決コンセプトとの関係について教師あり学習する。

このような教師あり学習を繰り返し実行した後、実際に図６に示すようなイノベーション創造支援が行われていくこととなる。

イノベーション創造プロセスにおいては、新たに人為的に創作される創作物に関する情報をユーザ自身が入力するところから開始する。

このユーザにより入力される情報の例としては、社会的ニーズ、問題点、以前に提案されている従来技術、解決しようとする課題、新たに創造した発明の構成、アイデアのシーズ、アイデアのコンセプト、作用効果等を何れもテキストデータ化することが可能な文章や文字列、言語等で表現していくこととなる。このようにしてユーザから入力された情報を、以下、基本情報という。

ユーザは、この基本情報の入力を携帯端末１１における操作部２５を介して手動で行い、又は音声入力部３１を介して音声により入力する。この入力において、他の携帯端末１１やＰＣ等の電子機器において作成した基本情報をデータ入出力部２９から入力するようにしてもよい。またユーザが他の携帯端末１１やＰＣ等の電子機器において作成したテキストデータを、公衆通信網１２を介して実際に問題解決支援プログラムがインストールされた携帯端末１１に送信するようにしてもよい。

このようにして送信又は入力された基本情報は、記憶部２７に記憶されることとなる。

問題解決支援プログラムは、ステップＳ２１において入力された基本情報について解析を行う。（ステップＳ２２）。この解析については、既存のあらゆるテキストマイニング技術、データマイニング技術、言語解析処理技術等を用いるようにしてもよい。

次に、この問題解決支援プログラムは、解析対象の基本情報を単語、形態素、句、節等、あらゆる文法上の構造単位の中から何れか１以上の単位に亘り、文字列の抽出を行う。この文字列の抽出は、上述した参照用文字列の抽出と同様の手法を用いるようにしてもよい。

或いは、この基本情報が断片的にキーワードや単語そのもので入力される場合もある。例えば「ペットのお尻拭き」と入力された場合には、「ペット」「お尻拭き」という文字列を抽出することができる。また、この基本情報は、発明のコンセプトや構成が入力される以外に、解決しようとする課題が入力される場合がある。例えば、「安くて作りやすい」と入力される場合には、これをテキストマイニングにより解析することにより、「安」「安い」、「作り」、「作りやすい」等のように、文法上の構造単位の中から何れか１以上の単位に亘り、文字列の抽出が行われる。

次に問題解決支援プログラムは、ステップＳ２３へ移行し、ステップＳ２２において抽出した文字列と連関性の高い解決コンセプトの探索を開始する。この探索を行う前において、携帯端末１１は、図５に示すように参照用文字列と２種以上に分類されてなる抽象化された解決コンセプトのクラスタは上述したように既に取得されている。

この基本情報から抽出した文字列から解決コンセプトのクラスタの選択についても、予め取得した参照用文字列と解決コンセプトのクラスタとの連関性（３段階以上の連関度）を参照するようにしてもよい。

例えば図７に示すように、基本情報から解析した文字列が「予歪み」である場合には、上述のように予め作成した参照用文字列と解決コンセプトのクラスタとの連関性を参照した場合、その「予歪み」と連関性の高いのは「事前の内部応力」である。このため、この解析した「予歪み」という文字列に対して連関性の高い「事前の内部応力」を解決コンセプトのクラスタとして探索することとなる。

このように基本情報から抽出した文字列から、参照用文字列を介して直接的に解決コンセプトを探索する。

即ち、本発明を適用した問題解決支援プログラムは、基本情報を解析することで得られた文字列から、これに見合った解決コンセプトのクラスタを即座に選択し、これを出力することができる。この参照用文字列と解決コンセプトの結びつき度は、人工知能を介した教師あり学習を通じてその精度は高いものとなっている。このため、この基本情報に対してピンポイントに応えることができる解決コンセプトのクラスタを高精度に選択することが可能となる。

特に上述した連関性を３段階以上の連関度で判断を行うことにより以下のメリットがある。先ず、３段階以上の数値で表される連関度に基づいて探索することで、仮に複数の解決コンセプトが選ばれる場合において、連関度の高い解決コンセプト順に探索して表示することが可能となる。この連関度の高い解決コンセプトの方が以前の傾向からユーザにとっても、有用な解決策になっている可能性が高いものといえる。このような採用可能性の高い解決コンセプトから順にユーザに表示できる点において、優位な作用効果があるといえる。

これに加えて、本発明によれば、連関度が１％のような極めて低い参照用文字列と解決コンセプトとのリンクも見逃すことなく判断することができる。その指定した参照用文字列に対して連関度は極めて低いが僅かな兆候として繋がっている解決コンセプトであっても何回、何十回に一度は有用なヒントをユーザに示す場合もあり得る。連関度が高くて採用可能性の高いコンセプトを順に表示し、ユーザもこれらに基づいて新たな発明創造をトライしてもなかなか良いアイデアが出てこない場合、この連関度が極めて低いが僅かにつながりのある解決コンセプトに基づいて再トライを行うことが可能となる。

更にこのような連関度に基づいて探索を行うことにより、閾値の設定の仕方で、探索方針を決めることができるメリットがある。閾値を低くすれば、上述した連関度が１％のものであっても漏れなく拾うことができる反面、可能性の低い解決コンセプトを沢山拾ってしまう場合もある。一方、閾値を高くすれば、可能性の高い解決コンセプトのみ絞り込むことができる反面、可能性が低いけど時には有用な知見が見過ごされてしまう場合もある。いずれに重きを置くかは、ユーザ側、システム側の考え方に基づいて決めることが可能となる。

また、連関性（３段階以上の連関度）の高いものを順に示すのではなく、あえて連関度の低いものを順に示すものであってもよい。これにより僅かな兆候を見逃さずに捉えて創作活動の参考にすることができる。

第２実施形態
第２実施形態に係る問題解決支援プログラムは、文献データからディープラーニングを行う上で必要な特徴量を抽出する。第２実施形態に係る問題解決支援プログラムは、上述した第１実施形態において説明した文献データ解析システム１にインストールされて具現化される。分析対象としての文献データは、特許明細書等のような、過去において提案された発明に関する情報が記述された文献であればいかなるものであってもよいが、以下の例では、文献データとして特許明細書を分析する場合を例にとり説明をする。なお、この第２実施形態では、上述した第１実施形態の記載内容をそのまま引用する。

第２実施形態において問題解決支援プログラムでは、先ず文献データから文字列をテキストマイニング技術により抽出する。このテキストマイニングで文字列を抽出する際において、この文字列の一部又は全部を加工してもよいし、文字列の一部を消去してもよい。この文献データからの文字列の抽出ルールはいかなるものであってもよく、特許明細書の場合には、特許請求の範囲の記載や解決手段の記載、詳細な説明の記載から解決コンセプトに関して言及されているであろう文字列を抽出する。特許請求の範囲や解決手段であれば、これらに記載されている文字列をそのまま又はその一部を抽出するようにしてもよい。また詳細な説明に記載されている解決コンセプトについては、詳細な説明の記載の全ての文字列を抽出してもよいし、その中から解決コンセプトについて言及されているものを選択するようにしてもよい。かかる場合には、特許請求の範囲の記載が「・・・側部から中間部に向けて応力が集中するように、又は中間部から側部に向けて応力が集中するように内部応力が負荷されていること・・・」とあれば、応力集中が解決コンセプトであることが考えられることから、「応力」が出てくる文字列として、「この事前に発生させる内部応力は、例えば図１４（ａ）に示すように中間部２ａに向けて応力が集中するような方向とされていてもよいし、図１４（ｂ）に示すように中間部２ａから側部２ｂに向けた内部応力とされていてもよい。」とか、「中間部２ａに向けて応力が集中している状態で予め引っ張られているため、中指で押圧して場合にかかる内部応力により容易に撓ませることができ、中指を肛門４１に押し当てることが可能となる。」等のような詳細な説明に記載されている文字列を抽出するようにしてもよい。即ち、特許請求の範囲に記載されている文言について詳細な説明からサーチし、そのサーチした文言が解決コンセプトに対応した記載であることを仮定してもよい。

そして、抽出した文字列につき予め定義された文法構造単位で分析を行う。この分析における文法構造単位は、単語、形態素、句、節、係り受け、格成分を始め、いかなる文法的な要素に基づくものであってもよい。例えば、特許請求の範囲の記載「・・・側部から中間部に向けて応力が集中するように、又は中間部から側部に向けて応力が集中するように内部応力が負荷されていること・・・」について分析を行う場合には、「側部から」、「中間部に」、「向けて」、「応力が」、「集中する」、「ように」、「中間部から」、「側部に」、「向けて」、「応力が」、「集中する」、「ように」、「内部応力が」、「負荷されて」等のように分解して分析することができる。また詳細な説明において、「中間部２ａに向けて応力が集中している状態で予め引っ張られているため、中指で押圧して場合にかかる内部応力により容易に撓ませることができ、」とある場合には「中間部２ａに」と「向けて」の係り受けの関係、「応力が」と「集中している」の係り受けの関係、「中指で」と「押圧」の係り受けの関係を分析することもできる。この分析する上での文法構造単位は、ユーザ側又はシステム側において予め定義し、この定義されたルールに基づいて抽出を行うことが望ましい。

次に、このようにして抽出された文字列に基づいた特徴量を検出する。この特徴量の検出は、抽出された文字列に対して直接的に実行するようにしてもよい。また上述のように文法構造単位で分析された結果、分解された単語、形態素、句、節、係り受け、格成分等の文法的な要素単位で実行するようにしてもよい。

この特徴量の抽出は、複数の文献データを通じて実行する。即ち、複数の文献データ間において高頻度に出現する文字列や文法的な要素ほど、特徴量が低くなるようにする。また複数の文献データ間において低頻度に出現する文字列や文法的な要素については、特徴量が高くなるようにする。複数の文献データ間において文字列や文法的な要素の出現頻度に応じた特徴量とする。このような特徴量を抽出する上では複数の文献データを取得する必要があるが、この取得する複数の文献データの技術分野は同一のものであることが望ましい。この技術分野が同一か否かの基準はいかなるものであってもよいが、例えばある特許出願が新規性や進歩性を判断する上で行われる先願調査のサーチ範囲をその技術分野が同一の範囲とみなしてもよい。

例えば、特許請求の範囲の記載において、「犬の肛門又はその周囲に付着した排泄物を拭き取るための犬用肛門拭取体において、上記排泄物を拭き取るための拭取層が表面に形成されるとともに、犬の排泄物を捕集するための捕集袋の表側に貼着される粘着層がその裏面に形成され、平面視で両側部がその中間に形成される中間部よりも一の方向に向けて偏移された形状とされ、側部から中間部に向けて応力が集中するように内部応力が負荷されていることを特徴とする犬用肛門拭取体。」と記載されていた場合を考える。このうち、下線が直線の記載である「犬の肛門又はその周囲に付着した排泄物を拭き取るための犬用肛門拭取体において、上記排泄物を拭き取るための拭取層が表面に形成されるとともに、犬の排泄物を捕集するための捕集袋の表側に貼着される粘着層がその裏面に形成され、平面視で両側部がその中間に形成される中間部よりも一の方向に向けて偏移された形状とされ」の部分が実は従来技術である場合、当該記載は他の文献においても出現頻度が高いため、特徴量が低くなる。一方、下線が波線である「側部から中間部に向けて応力が集中するように内部応力が負荷されていること」については、新規な事項であり進歩性を見出すための構成要素であった場合、当該記載は他の文献においても出現頻度が低いため、特徴量が高くなる。

この特徴量については、下線部全体に割り当てられるものであってもよいが、むしろ分解された単語、形態素、句、節、係り受け、格成分等の文法的な要素単位で割り当てられるものであってもよい。かかる場合には、例えば「側部」、「中間部」、「応力が集中」、「内部応力」等のような単語や形態素、句単位で特徴量が割り当てられてもよいし、「側部から中間部に向けて」という句と、「応力が集中」という句との組み合わせに対して特徴量が割り当てられていてもよい。即ち、「側部から中間部に向けて」と「応力が集中」との組み合わせによって起こりえる作用効果が他の技術にはない優れたものであり、特許性が見出されるものであれば、この組み合わせ自体が他の文献データ間において出現頻度が低く、特徴量そのものが大きくなる。

また特徴量は、更に技術分野との組み合わせに対して割り当てられるものであってもよい。例えば、犬の尻拭きの分野では「内部応力」を負荷することが稀有であるため特徴量が大きくなるかもしれないが、機械や土木建築、溶接等の分野で「内部応力」を設けることが頻繁に行われる場合には、特徴量は低くなる。このように同一の文字列や文法上の要素であっても、特徴量が大きくなるか否かは、技術分野に応じて大きく左右する。このため、技術分野と関連付けて特徴量を設定するようにしてもよい。

実際に特徴量を割り当てる上で予め取得する複数の文献データを同一技術分野内にしておくことで、このような技術分野が異なることよる出現頻度の格差を解消することが可能となる。

また他の文献データの解決手段において、「特許明細書に記載された情報を抽出してこれを表示するための特許明細書分析表示装置において、電子データ化された特許明細書における特許請求の範囲の欄に記載されている文字列を抽出する文字列抽出手段と、上記文字列抽出手段により抽出された文字列から、当該文字列に含まれる各構成要素に係る動詞に係り受けする名詞句としての格成分を抽出し、これをカウントするカウント手段と、上記カウント手段によりカウントされた格成分の数に基づく発明の限定度合を表示する表示手段とを備えることを特徴とする。」という記載があった場合には、下線部における「特許明細書に記載された情報を抽出してこれを表示するための特許明細書分析表示装置において、電子データ化された特許明細書における特許請求の範囲の欄に記載されている文字列を抽出する文字列抽出手段と、上記文字列抽出手段により抽出された文字列から、」と「上記カウント手段によりカウントされた格成分の数に基づく発明の限定度合を表示する表示手段とを備えることを特徴とする。」の部分が実は従来技術である場合、当該記載は他の文献においても出現頻度が高いため、特徴量が低くなる。一方、下線が波線である「当該文字列に含まれる各構成要素に係る動詞に係り受けする名詞句としての格成分を抽出し、これをカウントするカウント手段と、」については、新規な事項であり進歩性を見出すための構成要素であった場合、当該記載は他の文献においても出現頻度が低いため、特徴量が高くなる。

この特徴量については、下線部全体に割り当てられるものであってもよいが、むしろ分解された単語、形態素等の文法的な要素単位で割り当てられるものであってもよいことは上述と同様である。かかる場合には、例えば「文字列」、「各構成要素」、「動詞」「係り受けする」、「名詞句」、「格成分」等のような単語や形態素、句単位で特徴量が割り当てられてもよいし、「各構成要素に係る動詞に」と「係り受けする」と「名詞句」等のような複数の単語や句等の文法上の要素との組み合わせに対して特徴量が割り当てられていてもよい。

このような文法上の要素毎に特徴量の検出を行った場合、下線が直線である文字列を構成する単語、句等とその組み合わせは自然に特徴量が低くなり、下線が波線である文字列を構成する単語、句等とその組み合わせは自然に特徴量が高くなる。

特許請求の範囲の記載や解決手段以外の詳細な説明においても同様である。例えば詳細な説明において、以下の記載があるものと仮定する。

「図２０の例では、図３のＢ－Ｂ´断面図において、主として中指が当たる中間部２ａについては、拭取層２１の上に更にもう一層に亘り同一の材料からなる拭取層２１´を積層させている。この拭取層２１及び拭取層２１´を二重に形成させることにより、実際に排泄物を拭き取る上でこれらが破けることなく強固なものとすることができる。」

このうち、「図２０の例では、図３のＢ－Ｂ´断面図において、主として中指が当たる中間部２ａについては、」の文字列又はこれを構成する文法上の要素については、そもそも係る記載の技術事項が従来技術と同様であるため、特徴量が小さくなるが、「拭取層２１の上に更にもう一層に亘り同一の材料からなる拭取層２１´を積層させている。」の文字列又はこれを構成する文法上の要素については、他の文献データにおいて係る記載の技術事項が当該技術分野では少ない場合、特徴量が大きくなる。

本発明を適用した問題解決支援プログラムは、このような特徴量の割り当てを行っていく上で、従来の技術として提案されている概念辞書や自然言語処理を適用するようにしてもよい。かかる場合には、概念辞書を通じて抽出される上位概念や下位概念に特徴量を割り当ててもよいし、自然言語処理における形態素解析、構文解析、意味解析、文脈解析を介して解析された意味や文脈に対して特徴量を割り当てるようにしてもよい。

即ち、本発明において割り当てられる特徴量は、あくまで文献データから抽出された文字列、或いはその文字列を文法構造単位で分析した結果物に基づくものであれば、その上位概念に対して、或いはその意味や文脈等に対して割り当てられるものであってもよい。

また、特徴量としては、文献データに含まれる分類記号（ＦＩ、ＩＰＣ、Ｆターム等）から抽出するようにしてもよい。例えば、同一技術分野において頻出のＦタームが割り振られていた場合には、当該Ｆタームについては特徴量をより小さくし、同一技術分野において出現頻度の低いＦタームが割り当てられた場合には、当該Ｆタームについて特徴量をより大きくする。実際にその特徴量を大きく割り当てたＦタームの説明が記載されているサイトからテキストデータを取得することで、上述と同様にこれを文字列化することができる。

なお、特徴量の抽出は、発明の解決コンセプトに対してのみ行われるものではなく、これ以外にその発明に関する付帯項目に対して行うようにしてもよい。付帯項目は、発明に関するあらゆる情報を含む概念である。付帯項目は、一般的には発明の目的、問題点、解決しようとする課題、作用効果、発明の構成、実施する上での形態、組立方法、実施するための方法等、発明に関するものであればよい。

この付帯項目における特徴量を抽出する上では、例えば特許明細書においては、詳細な説明の記載、解決課題の記載、発明の効果の記載が主な抽出対象となるが、これに限定されるものではなく、特許明細書（文献データ）のいかなる記載をその抽出対象の文字列としてもよい。また、特許明細書（文献データ）に割り当てられる分類記号（ＦＩ、ＩＰＣ、Ｆターム等）もその抽出対象に含めるようにしてもよい。

例えば、解決課題の欄において下記の文字列が記載されていたものとする。「犬の肛門又はその周囲に付着した排泄物の拭き取りの利便性を向上させると共に、衛生面や資源の節約面にも優れた犬用肛門拭取体を提供することにある。」

かかる場合も同様に文字列を予め定義した文法構造単位（単語、形態素、句、節、係り受け、格成分等）で分析するようにしてもよい。その結果、「犬の肛門」、「付着」、「排泄物」、「拭き取り」、「利便性を向上」、「衛生面」、「節約」等のような単語や形態素、句単位で特徴量が割り当てられてもよいし、「排泄物の拭き取り」という句と「利便性を向上させる」という句や単語等の組み合わせに対して特徴量が割り当てられていてもよい。

また特徴量は、更に技術分野との組み合わせに対して割り当てられるものであってもよい。例えば、犬の尻拭きの分野では「衛生面」を向上させることが特に斬新なものではなく従来技術において頻繁に記載されているものであれば特徴量が低い。一方、「節約」というキーワードが同一技術分野における文献データにおいて少なければ、当該分野において「節約」をすることがあまり行われていないため、これ自体が当該技術分野において斬新な解決課題になる可能性が高く、特徴量が高くなる。

また発明の効果の記載や、詳細な説明において、「排泄物の付着性に優れた材料で構成されている拭取層を有することにより、拭き取り性能が優れていることから一度又は少ない回数の拭き動作のみで汚れを除去することが可能となる。」という記載があれば、これを上述した文法構造単位に基づいて分析して、例えば「排泄物の付着性」「優れた」、「材料」等のような単語や形態素、句等で分析してもよいし、「拭き取り性能が優れている」等のような句と形容詞の組み合わせ、「少ない回数の拭き動作」と「汚れ」と「除去」というように単語と句との組み合わせに基づいて特徴量を設定するようにしてもよい。

また付帯項目の特徴量の割り当て時においても同様に、文献データに含まれる分類記号（ＦＩ、ＩＰＣ、Ｆターム等）から抽出するようにしてもよい。例えば、同一技術分野におけるＦタームの出現頻度に応じて特徴量を設定するようにしてもよい。

このような特徴量の割り当てを複数の文献データに対して行っていくことにより、他の文献データにおいて頻出する付帯項目については自然に特徴量が低くなり、他の文献データにおいて出現頻度の低い付帯項目については自然に特徴量が高くなることとなる。

本発明を適用した問題解決支援プログラムは、付帯項目に対する特徴量の割り当てを行っていく上でも同様に、従来の技術として提案されている概念辞書や自然言語処理を適用するようにしてもよいことは勿論である。かかる場合には、概念辞書を通じて抽出される上位概念や下位概念に特徴量を割り当ててもよいし、自然言語処理における形態素解析、構文解析、意味解析、文脈解析を介して解析された意味や文脈に対して特徴量を割り当てるようにしてもよい。
この特徴量が割り当てられた文字列（文法上の要素）は、画面上又は印刷等により出力されるものであってもよい。これによりユーザは、特徴量の高い文字列、特徴量の低い文字列を確認することができる。なお、この出力する文字列は特徴量に応じたものとしてもよい。例えば特徴量が大きい文字列から順に表示してもよいし、逆に特徴量が小さい文字列から順に表示するようにしてもよい。また特徴量が中程度のものを表示するようにしてもよく、特徴量と連関するものであればいかなるものを表示してもよい。

本発明では、解決コンセプトの特徴量を検出した文字列（文法上の要素）を解決コンセプトの何れか１以上のクラスタに割り当てるようにしてもよい。同様に付帯項目の特徴量を検出した文字列（文法上の要素）を付帯項目の何れか１以上のクラスタに割り当てることによりクラスタリングするようにしてもよい。

このクラスタリングについては、第１実施形態における参照用文字列の解決コンセプトのクラスタへの割当方法を適用するようにしてもよい。かかる場合には解決コンセプトの特徴量を検出した文字列（文法上の要素）を参照用文字列とみなし、これと連関性（３段階以上の連関度）の高い解決コンセプトのクラスタを特定し、クラスタリングしていくこととなる。

このクラスタリングの対象となる文字列（文法上の要素）は、特徴量が一定値以上のものに限定してもよいし、特徴量の大小に関係なく行うようにしてもよい。

但し、特徴量が大きいということは、その発明において、従来技術との差異があり、進歩性を見出す上で有利な構成であることから、その特徴量の高い文字列（文法上の要素）を参照用文字列とみなし、これと連関性（３段階以上の連関度）の高い解決コンセプトのクラスタを特定するようにしてもよい。かかる場合には、特徴量の大きさに応じて、連関するクラスタの優先度を変えるようにしてもよい。

以下、この優先度を変える例について説明をする。解決コンセプトのクラスタとしての「事前の内部応力」については連関度４５％の参照用文字列として「押圧」が、登録されており、解決コンセプトのクラスタとしての「入れ子の原理」については連関度の７０％の参照用文字列として同じく「収納」が登録されているものとする。このとき、ある文献データを解析した結果、特徴量の大きな文字列として「押圧」が、また特徴量の小さな文字列として「収納」が検出されたものとする。

かかる場合には、特徴量の大きい文字列としての「押圧」を優先し、連関度が低いものであっても「事前の内部応力」のクラスタに割り当てられるものであってもよい。その結果、「収納」が「入れ子の原理」のクラスタと連関度が高いものであっても、そもそも「収納」自体、特徴量が低く、従来技術と差異が小さいものであるから、これについては解決コンセプトのクラスタへの割り当て時に優先度を低くする。このとき、特徴量が所定値未満の文字列はそもそも解決コンセプトのクラスタへの割り当てを行わず、特徴量が所定値以上の文字列のみに対して解決コンセプトのクラスタへの割り当てを行うようにしてもよい。

また、特徴量と連関度とを所定の演算式に代入し、その演算式の出力結果に基づいて何れの解決コンセプトのクラスタに割り当てるかを決めるようにしてもよい。この演算式は、特徴量と連関度とを互いに重み付けをした上で足すものであってもよいし、他のいかなる演算が行われるものであってもよい。

言い換えれば、図８に示すように、特徴量の大きい文字列（文法上の要素も含む）と、特徴量の小さい文字列を予め分類し、特徴量の大きい文字列、特徴量の小さい文字列ともに、対応する参照用文字列に当てはめる。特徴量の大きい文字列に基づく参照用文字列ほど解決コンセプトのクラスタの選択時の影響力を大きくし、特徴量の小さい文字列に基づく参照用文字列ほど解決コンセプトのクラスタの選択時の影響力を小さくする。即ち、特徴量の大きい文字列ほどクラスタの割り当てに対する優先的を向上させる。

上述の例は、あくまで特徴量を連関度よりも重み付けを重く設定してクラスタへ割り当てる場合について説明したが、これに限定されるものではなく、連関度を特徴量よりも重み付けを重く設定するようにしてもよい。その重み付け量についてもいかなる比率で設定されるものであってもよい。

付帯項目のクラスタに割り当てる場合も同様に第１実施形態における参照用文字列の解決コンセプトのクラスタへの割当方法を適用するようにしてもよい。以下においてこの参照用文字列を介して付帯項目のクラスタへ割り当てる方法について説明をする。

この割り当てを行う前において、端末装置１１又はサーバ１３は、図９に示すように参照用文字列と２種以上に定義された、発明に関する付帯項目（以下、付帯項目という。）の連関性を予め取得しておく。この連関性の表現方法としては、例えば図９に示すような矢印で繋がっている参照用文字列と付帯項目のクラスタは、互いに連関しており、矢印で繋がっていない参照用文字列と付帯項目のクラスタは、互いに連関していない形態で表現するようにしてもよい。即ち、このケースでは、参照用文字列と付帯項目の連関の有無を真または偽の２値により、デジタル的に表現することとなる。

これ以外の連関性の表現方法としては、３段階以上の連関度で示すようにしてもよい。例えば付帯項目Ｅ３は、参照用文字列ｄ２１、ｅ２１には８０％の割合で連関しており、更に参照用文字列ｆ１１が６０％、参照用文字列ｅ１１が４５％、参照用文字列ｆ２１が２４％、参照用文字列ｄ１１が０％等の連関度として表現されていてもよい。

例えば、付帯項目のクラスタ「安価」、については、連関度が８０％の参照用文字列として、「費用」、「安く」、「コスト」等、連関度が５０％の参照用文字列として「部品点数」等が登録されていてもてよい。また、付帯項目のクラスタ「製造容易性」については、連関度が８０％の参照用文字列として「作りやすい」、「作業性」等が、連関度５０％の参照用文字列として「少ない工程」等が登録されていてもよい。また付帯項目のクラスタ「汎用性」については、連関度が８０％の参照用文字列として「使い易さ」、連関度４０％の参照用文字列として「用途」等が登録されていてもよい。

端末装置１１又はサーバ１３は、参照用文字列と付帯項目との連関性を自らの記憶部２７等に記憶しておき、いつでも読み出せるようにしておく。

この抽出した文字列から付帯項目のクラスタを選択する際において、上述した予め取得した参照用文字列と付帯項目のクラスタとの連関性を参照するようにしてもよい。例えば、抽出した文字列が「コスト」である場合には、参照用文字列と付帯項目のクラスタとの連関性を参照した場合、その「コスト」と連関性の高いのは「安価」のクラスタである。このため、この解析した「コスト」という文字列に対して連関性の高い「安価」のクラスタをその文献データの発明の付帯項目として割り当てることとなる。

例えば、抽出した文字列が「用途」である場合には、参照用文字列と付帯項目のクラスタとの連関性を参照した場合、その「用途」と連関性の高いのは「汎用性」のクラスタである。但し、この「用途」と「汎用性」のクラスタはそれほど連関度が高いものではないため、付帯項目としてこれを割り当てるか否かは、様々なルールに基づいて判断するようにしてもよい。その判断のルールとしては、例えば同じ「汎用性」の連関性の高い他の参照用文字列が同一文献データ内にある場合や、他の文献データにおいて、「汎用性」に対して連関性の低い「用途」と、連関性の高い「使い易さ」がその同じデータ内において出現する頻度が高い等の場合等、条件をつけるようにしてもよい。

また抽出した文字列の参照用文字列への当てはめは、上述した第１実施形態において説明した方法を随時適用するようにしてもよい。更に抽出した文字列と解決コンセプトのクラスタの場合と同様に、この抽出した文字列と付帯項目のクラスタとの関係において、一致する参照用文字列が無い場合においても意味概念において類似性を予めシステム側において設定し、その類似性の高い参照用文字列と連関性の高い付帯項目を割り当てるようにしてもよい。

即ち、この抽出した文字列は、参照用文字列と文字が一部一致又は完全一致しているか否か、意味概念の類似性の度合いのみならず、抽出した文字列に対して何らかの対応関係がある参照用文字列であれば、その参照用文字列と連関性の高い付帯項目のクラスタを割り当てるようにしてもよい。

端末装置１１又はサーバ１３は、新たに抽出した文字列の解析前までに、参照用文字列と付帯項目との連関性を自らの記憶部２７等に記憶しておき、いつでも読み出して参照できるようにしておく。

そして文献データ解析プログラムは、付帯項目の特徴量を検出した文字列（文法上の要素）に基づき、付帯項目のクラスタを１又は２以上に亘り割り当てる。かかる場合には付帯項目の特徴量を検出した文字列（文法上の要素）を参照用文字列とみなし、これと連関性（３段階以上の連関度）の高い解決コンセプトのクラスタを特定し、クラスタリングしていくこととなる。

この付帯項目のクラスタリングについても同様に特徴量が一定値以上のものに限定してもよいし、特徴量の大小に関係なく行うようにしてもよい。即ち、特徴量の大きさに応じて、連関するクラスタの優先度を変えるようにしてもよい。このとき、特徴量が所定値未満の文字列はそもそも解決コンセプトのクラスタへの割り当てを行わず、特徴量が所定値以上の文字列のみに対して解決コンセプトのクラスタへの割り当てを行うようにしてもよい。また特徴量を連関度よりも重み付けを重く設定してクラスタへ割り当てるようにしてもよいし、連関度を特徴量よりも重み付けを重く設定するようにしてもよい。その重み付け量についてもいかなる比率で設定されるものであってもよい。即ち、本発明によれば、特徴量の大きい文字列ほど優先的に付帯項目のクラスタに割り当てるものであってもよい。

なお、割り当てるべき適当なクラスタが存在しない場合には、新たにクラスタを生成するようにしてもよい。かかる場合には、特徴量のより大きい文字列につき、優先的にクラスタを生成する。生成するクラスタは、例えば概念辞書等を参照し、その文字列（文法上の要素）を上位概念化した文言又は類義語を割り当てるようにしてもよい。

本発明においては、図１０に示すように、この特徴量の抽出をディープラーニングのネットワーク５１を介して行うようにしてもよい。このネットワーク５１では、大きく分類して入力層５２、隠れ層５３、出力層５４からなるニューラルネットワークを始めとしたディープラーニングで使用される一般的なネットワークである。このネットワーク５１は、ニューラルネットワーク以外に最近傍法、ナイーブベイズ法、決定木、サポートベクターマシン等を使用するようにしてもよい。ちなみに隠れ層５３は、複数の層で形成されていてもよい。

入力層５２には、教師データとしての文献データの解決コンセプトに対応する文字列を入力する。この入力層５２に入力する文字列は、文献データテキストマイニング技術により抽出した文字列であってもよいし、抽出した文字列につき文法構造単位で分析した単語、形態素、句、節、係り受け、格成分であってもよい。

各隠れ層５３－１、５３－２、・・・では、それぞれ上述した特徴量を順次抽出していく。その結果、上述した出現頻度に応じた特徴量の抽出が各隠れ層５３－１、５３－２、・・・を通じてより深く行われていくこととなる。なお隠れ層５３は複数層で構成されている場合に限定されるものではなく、単相で構成されていてもよい。つまり、このネットワーク５１は、ディープラーニングには限定しない趣旨である。

隠れ層５３を通じて抽出された特徴量と、その特徴量を構成する文字列の連関度に基づいて選択される解決コンセプトのクラスタが出力層５４から出力される。特徴量と文字列の連関度に基づいて尤度の高い解決コンセプトのクラスタから順に１又は２以上に亘って出力層から出力されることとなる。

このような仕組みで構成されるネットワーク５１に、数多くの文献データの文字列を入力することにより、各隠れ層５３のパラメータを特徴量を介して学習していく。つまり、隠れ層５３を構成する各ノードの入力Ｘ₁、Ｘ₂、・・並びにその重み付けＷ₁、Ｗ₂、
・・・、出力ｙを始めとする各パラメータについて、特徴量をより高精度に抽出できる方向に向けて学習していく。例えば、特徴量がより好適に抽出できるのであれば、現在の各パラメータを維持する方向で処理を進め、特徴量があまり好適に抽出できないのであれば、現在の各パラメータを変化させるように学習する。この学習を特徴量を介して実行していくこととなる。なお、上述した学習の具体的な方法は、一例であり、他のいかなる学習方法に基づいて学習させるようにしてもよい。

このような学習を繰り返し進めていくことにより、ネットワーク５１を文献データにおける文字列の特徴量を高精度に抽出する上でより優れたものになるように学習させることができる。その結果、文献データの文字列を入力すれば、その特徴量が高精度に抽出され、出力層５４から出力される解決コンセプトのクラスタの的中精度を向上させることが可能となる。

同様に入力層５２に対して、教師データとしての文献データの付帯項目に対応する文字列を入力するようにしてもよい。各隠れ層５３－１、５３－２、・・・では、それぞれ上述した付帯項目に基づく特徴量を順次抽出していく。その結果、上述した出現頻度に応じた特徴量の抽出が各隠れ層５３－１、５３－２、・・・を通じてより深く行われていくこととなる。

隠れ層５３を通じて抽出された特徴量と、その特徴量を構成する文字列の連関度に基づいて選択される付帯項目のクラスタが出力層５４から出力される。特徴量と文字列の連関度に基づいて尤度の高い付帯項目のクラスタから順に１又は２以上に亘って出力層から出力されることとなる。

このような仕組みで構成されるネットワーク５１に、数多くの文献データの文字列を入力することにより、ネットワーク５１を文献データにおける文字列の特徴量を高精度に抽出する上でより優れたものになるように学習させることができる。その結果、文献データの付帯項目に応じた文字列を入力すれば、その特徴量が高精度に抽出され、出力層５４から出力される付帯項目のカテゴリーの的中精度を向上させることが可能となる。

本発明によれば、学習させたディープラーニング用のネットワーク５１を利用して、実際に基本情報から解析した文字列から解決コンセプトを選択する際に、これを参照することが可能となる。基本情報の詳細並びに入力方法は第１実施形態と同様である。

問題解決支援プログラムは、図６のステップＳ２１において入力された基本情報について解析を行う。（ステップＳ２２）。また問題解決支援プログラムは、ステップＳ２３において、ステップＳ２２において抽出した文字列と連関性の高い解決コンセプトのクラスタの探索を開始する。実際にこの第２実施形態においては、この基本情報の文字列（文法上の要素）をネットワーク５１における入力層５２に入力する。この入力層５２に入力された文字列等は、隠れ層５３を通じて特徴量が高精度に抽出され、ひいてはその特徴量の大きい文字列（文法上の要素）を高精度に特定することができる。そして、この特定した文字列（文法上の要素）に対応する解決コンセプトのクラスタを出力層５４から出力させることが可能となる。この基本情報から抽出した文字列から解決コンセプトのクラスタの選択についても、予め取得した参照用文字列と解決コンセプトのクラスタとの連関性（３段階以上の連関度）を参照するようにしてもよい。また解決コンセプトのクラスタを選択する上で、特徴量と連関度の双方に基づいて判断するようにしてもよい。

この解決コンセプトの選択においても同様に、特徴量と連関度とを所定の演算式に代入し、その演算式の出力結果に基づいて何れの解決コンセプトのクラスタを選択するかを決めるようにしてもよい。この演算式は、特徴量と連関度とを互いに重み付けをした上で足すものであってもよいし、他のいかなる演算が行われるものであってもよい。また図８に示すように、特徴量の大きい文字列に基づく参照用文字列ほど解決コンセプトのクラスタの選択時の影響力を大きくし、特徴量の小さい文字列に基づく参照用文字列ほど解決コンセプトのクラスタの選択時の影響力を小さくするようにしてもよい。即ち、特徴量の大きい文字列ほどクラスタの選択に対する優先的を向上させるようにしてもよい。

また、本発明では、ステップＳ２２において抽出した文字列と連関性の高い付帯項目のクラスタの探索を開始するようにしてもよい。入力層５２に入力された文字列等から隠れ層５３を通じて付帯項目に関する特徴量が高精度に抽出され、ひいてはその特徴量の大きい文字列（文法上の要素）を高精度に特定することができる。そして、この特定した文字列（文法上の要素）に対応する付帯項目のクラスタを出力層５４から出力させることが可能となる。この基本情報から抽出した文字列から付帯項目のクラスタの選択についても、予め取得した参照用文字列と付帯項目のクラスタとの連関性（３段階以上の連関度）を参照するようにしてもよい。かかる３段階以上の連関度の参照方法については、第１実施形態と同様であるため、以下での説明を省略する。

なお、上述した特徴量としては、文字列（文法上の要素）の出現頻度に基づく場合を例に挙げて説明をしたが、これに限定されるものではない。例えばＦＩ、ＩＰＣ、Ｆターム等の分類記号の出現頻度に応じた特徴量としてもよい。かかる場合には原動機、無線通信、ビジネスモデル、ソフトウェア等のように出願件数の多い技術分野については特徴量が低く、出願件数が逆に少ない技術分野は特徴量を高く設定するようにしてもよい。

また特徴量としては、それ以外に書誌的事項やその特許出願の履歴情報（被引用数、情報提供の数、拒絶理由通知の数、格成分数及びこれに基づくパラメータ、拒絶査定不服審判の有無、国際出願の有無、無効審判の有無、外国出願の数等）を反映させるようにしてもよい。

即ち、この特徴量は文献データから抽出可能なあらゆる情報に基づくものであってもよい。

第３実施形態
第３実施形態では、上述した第１実施形態、第２実施形態の記載内容をそのまま引用する。

第１実施形態、第２実施形態に記載の分析を行うことにより、一の文献データに記載されている発明につき、１以上の解決コンセプトと、１以上の付帯項目が割り当てられることとなる。即ち、この文献データに記載されている発明は、その割り当てられた付帯項目（解決しようとする課題）の下、その割り当てられた解決コンセプトに基づいて問題解決をしようとした発明であることが判別されることとなる。即ち、上述の例において、割り当てられた付帯項目が「製造容易性」であり、割り当てられた解決コンセプトが「二重構造」であれば、製造容易性を向上させることを目的とし、その解決コンセプトとして二重構造化を行った発明であることが判別されたこととなる。

このような文献データの分析を繰り返し実行し、分析した献データに記載されている発明につき、割り当てられた付帯項目と、割り当てられた解決コンセプトとの結びつき度を更新する。各付帯項目と各解決コンセプトは互いに図１１に示すように、その結びつき度を介して互いの関連性が記述される。各付帯項目と各解決コンセプトとの結びつき度は、端末装置１１又はサーバ１３において記憶される。文献データに記載されている発明につき、付帯項目と解決コンセプトが割り当てられたため、その解決コンセプトには、その付帯項目における解決課題と互いに結びつきが相対的に強いものと判別することができる。このため、その文献データに記載の発明について割り当てられた付帯項目と、解決コンセプトとの結びつき度を相対的により強くするように更新する。割り当てられた付帯項目と、解決コンセプトとの結びつき度をどの程度強くするかについては、第１実施形態、第２実施形態における参照用文字列との連関度等に基づくようにしてもよいし、他のいかなるルールを適用するようにしてもよい。特に第２実施形態において、一の文献データに基づく基本情報からネットワーク５１を通すことで得られた解決コンセプトのセグメントと、付帯項目のセグメントの結びつき度を強くするようにしてもよい。

解析対象の他の文献データが存在する場合には、上述した処理を繰り返し実行する。その結果、付帯項目と、解決コンセプトとの結びつき度の更新が随時行われていくこととなる。これを多数の文献データについて実行することにより、付帯項目と、解決コンセプトの結びつき度の関係を多くのデータから反映させることができ、より信憑性の高い両者間の関係が得られることとなる。

本発明を適用した文献データ解析システムでは、これを構成する端末装置１１やサーバ１３に人工知能を実装させることにより、上述した処理動作を何れも人工知能を介して学習させながら行うことができる。

この人工知能による学習については、参照用文字列と解決コンセプトとの関係を学習させるようにしてもよいし、参照用文字列と付帯項目との関係を学習させるようにしてもよい。また、解決コンセプトと付帯項目との関係についても、結びつき度を都度更新させ、これを学習させるようにしてもよい。これらの学習の過程においては、人工知能の一つであるニューラルネットワークの考え方を取り入れ、両者間の連関性や結びつき度の強弱関係を繰り返し学習させるようにしてもよい。また、その他人工知能におけるいかなる周知の学習方法を適用するようにしてもよい。

文献データの数が多くなるにつれてこの学習精度がより高まり、上述した両者間の連関性や結びつき度の強弱関係がより高精度のものとなる。

第３実施形態においても、第１実施形態、第２実施形態と同様に入力した基本情報に対して付帯項目のクラスタが選択されると、図１１に示す解決コンセプトのクラスタと付帯項目のクラスタの結びつき度を参照し、選択した付帯項目クラスタと結びつき度の高い解決コンセプトのクラスタを選択する。基本情報が解決課題の文字列である場合、その文字列と連関性の高い付帯項目のクラスタが選択され、さらに当該付帯項目のクラスタと結びつき度の強い解決コンセプトのクラスタが選択される。この結びつき度が高い解決コンセプトのクラスタは、過去の文献データを解析し、その付帯項目のクラスタを構成する解決課題や作用効果と関連性の高いものである。即ち、付帯項目のクラスタを構成する課題を解決する上で、作用効果を起こさせる上で、過去において頻繁に選択されている解決コンセプトのクラスタであることを意味する。このため、入力した基本情報に対して連関性の高い付帯項目のクラスタが選択された場合においても、当該付帯項目のクラスタにつき過去において頻繁に選択される解決コンセプトのクラスタを提示することとなる。

即ち、この問題解決支援プログラムは、基本情報を解析することで得られた文字列から、これに見合った解決コンセプトのクラスタを、付帯項目を介して即座に選択し、これを出力することができる。この付帯項目のクラスタと解決コンセプトのクラスタの結びつき度は、人工知能を介した学習を通じてその精度は高いものとなっている。このため、この付帯項目に対してピンポイントに応えることができる解決コンセプトのクラスタを高精度に選択することが可能となる。

つまり学習ステップにおいて、ネットワーク５１を用いて、文献データから文字列から、解決コンセプト及び付帯項目のクラスタを割り当てる。一の文献データから割り当てた解決コンセプト及び付帯項目については互いに結びつき度がより高くなるように制御する。

次にステップＳ２１、Ｓ２２を通じて、新たに創作すべき創作物に関する付帯項目に応じた基本情報を抽出する。

ステップＳ２３において、実際に解決コンセプトのクラスタを探索する場合には、先ず第２実施形態におけるネットワーク５１を用いて、付帯項目に応じた基本情報を入力層５２に入力する。その結果、出力層５４から付帯項目のクラスタが出力される。

次に、図１１に示す解決コンセプトのクラスタと付帯項目のクラスタとの結びつき度を参照し、出力層５４からの付帯項目のクラスタと結びつき度の高い１以上の解決コンセプトのクラスタを特定し、これを割り当てる。

このようにして、新たに創作すべき創作物に関する付帯項目に対して、過去において頻繁に選択される解決コンセプトのクラスタを提示することが可能となる。

１文献データ解析システム
１１携帯端末
１２公衆通信網
１３サーバ
２１内部バス
２２ＲＯＭ
２３ＲＡＭ
２４ＣＰＵ
２５操作部
２６表示部
２７記憶部
２９データ入出力部
３１音声入力部

Claims

発明に関する情報が記述された文献データからその発明の解決コンセプト又は付帯項目が記述されている文字列をそれぞれテキストマイニングにより抽出するマイニングステップと、
上記マイニングステップにおいて抽出した文字列に基づいた特徴量を検出する特徴量検出ステップと、
参照用文字列と、教師データとしての解決コンセプトのクラスタとの関係を予め取得する取得ステップと、
上記取得ステップにおいて取得した参照用文字列と教師データとの関係を参照し、上記特徴量検出ステップにおいて特徴量を検出した文字列を解決コンセプトの何れか１以上のクラスタに割り当てるクラスタリングステップとをコンピューターに実行させること
を特徴とする文献データ解析プログラム。
発明に関する情報が記述された文献データからその発明の解決コンセプト又は付帯項目が記述されている文字列をそれぞれテキストマイニングにより抽出するマイニングステップと、
上記マイニングステップにおいて抽出した文字列に基づいた特徴量を検出する特徴量検出ステップと、
参照用文字列と、教師データとしての付帯項目のクラスタとの関係を予め取得する取得ステップと、
上記取得ステップにおいて取得した参照用文字列と教師データとの関係を参照し、上記特徴量検出ステップにおいて特徴量を検出した文字列を付帯項目の何れか１以上のクラスタに割り当てるクラスタリングステップとをコンピューターに実行させること
を特徴とする文献データ解析プログラム。
上記マイニングステップにより抽出された文字列を予め定義された文法構造単位で分析する分析ステップを更に有し、
上記特徴量検出ステップでは、上記分析ステップを通じて分析された文法構造単位に基づいた特徴量を検出すること
を特徴とする請求項１又は２記載の文献データ解析プログラム。
上記特徴量検出ステップでは、上記マイニングステップにおいて抽出した文字列の出現頻度、又は上記分析ステップを通じて分析された文法構造単位の出現頻度に応じて上記特徴量を設定すること
を特徴とする請求項３記載の文献データ解析プログラム。
上記特徴量が割り当てられた文字列を当該特徴量に応じて出力する出力ステップを更に有すること
を特徴とする請求項１～４のうち何れか１項記載の文献データ解析プログラム。
上記クラスタリングステップでは、上記特徴量の大きい文字列ほど優先的に上記クラスタに割り当てること
を特徴とする請求項１～５のうち何れか１項記載の文献データ解析プログラム。
上記文献データを教師データの入力とし、上記クラスタリングステップにおいてクラスタリングされた各クラスタの尤度を出力としたディープラーニング用ニューラルネットワークの各隠れ層のパラメータを上記特徴量検出ステップにより検出された特徴量を介して学習する学習ステップとをコンピューターに実行させること
を特徴とする請求項６項記載の文献データ解析プログラム。
新たに創作すべき創作物に関する基本情報を抽出する創作物情報抽出ステップを更に有し、
上記クラスタリングステップでは、上記学習ステップにおいて学習された隠れ層のパラメータからなるディープラーニング用ニューラルネットワークを用いて、上記創作物情報抽出ステップを通じて抽出された情報から、解決コンセプト又は付帯項目のクラスタを割り当てること
を特徴とする請求項７に記載の文献データ解析プログラム。
上記学習ステップでは、上記隠れ層のパラメータからなるディープラーニング用ニューラルネットワークを用いて、上記文献データから文字列から、解決コンセプト及び付帯項目のクラスタを割り当て、一の文献データから割り当てられた解決コンセプトのクラスタ及び付帯項目のクラスタ間の結びつき度がより高くなるように制御し、
新たに創作すべき創作物に関する付帯項目に応じた基本情報を抽出する創作物情報抽出ステップを更に有し、
上記創作物情報抽出ステップを通じて抽出された基本情報から、上記学習ステップにおいて学習された隠れ層のパラメータからなるディープラーニング用ニューラルネットワークを用いて付帯項目のクラスタを割り当て、上記クラスタリングステップにおいて割り当てられた付帯項目のクラスタとの結びつき度に応じた解決コンセプトのクラスタを割り当てること
を特徴とする請求項７に記載の文献データ解析プログラム。
上記クラスタリングステップでは、上記特徴量検出ステップにおいて検出された特徴量に基づいて、その特徴量を構成する文字列に応じた新たなクラスタを生成すること
を特徴とする請求項１～９のうち何れか１項記載の文献データ解析プログラム。
発明に関する情報が記述された文献データからその発明の解決コンセプト又は付帯項目が記述されている文字列をそれぞれテキストマイニングにより抽出するマイニング手段と、
上記マイニング手段により抽出された文字列に基づいた特徴量を検出する特徴量検出手段と、
参照用文字列と、教師データとしての解決コンセプトのクラスタとの関係を予め取得する取得手段と、
上記取得手段により取得された参照用文字列と教師データとの関係を参照し、上記特徴量検出手段において特徴量を検出した文字列を解決コンセプトの何れか１以上のクラスタに割り当てるクラスタリング手段とを備えること
を特徴とする文献データ解析システム。
発明に関する情報が記述された文献データからその発明の解決コンセプト又は付帯項目が記述されている文字列をそれぞれテキストマイニングにより抽出するマイニング手段と、
上記マイニング手段により抽出された文字列に基づいた特徴量を検出する特徴量検出手段と、
参照用文字列と、教師データとしての付帯項目のクラスタとの関係を予め取得する取得手段と、
上記取得手段により取得された参照用文字列と教師データとの関係を参照し、上記特徴量検出手段において特徴量を検出した文字列を付帯項目の何れか１以上のクラスタに割り当てるクラスタリング手段とを備えること
を特徴とする文献データ解析システム。