JP2012003381A - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP2012003381A
JP2012003381A JP2010135983A JP2010135983A JP2012003381A JP 2012003381 A JP2012003381 A JP 2012003381A JP 2010135983 A JP2010135983 A JP 2010135983A JP 2010135983 A JP2010135983 A JP 2010135983A JP 2012003381 A JP2012003381 A JP 2012003381A
Authority
JP
Japan
Prior art keywords
information
classification code
patent classification
code information
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010135983A
Other languages
English (en)
Inventor
Hidekazu Tanigawa
英和 谷川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IRD CORP
Original Assignee
IRD CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IRD CORP filed Critical IRD CORP
Priority to JP2010135983A priority Critical patent/JP2012003381A/ja
Publication of JP2012003381A publication Critical patent/JP2012003381A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】従来の情報処理装置においては、適切な検索式を作成することが非常に困難であるという課題があった。
【解決手段】技術文書情報に含まれる用語と、当該技術文書情報についての特許分類コード情報とが、前記技術文書情報ごとに対応付けて記憶される用語記憶部315と、キーワード情報を取得するキーワード情報取得部302と、キーワード情報取得部302が取得したキーワード情報を検索キーとし、用語記憶部315から当該検索キーと一致する用語に対応付けられた特許分類コード情報を検索する特許分類コード情報検索部303と、検索された特許分類コード情報の少なくとも一部を含む情報であって、特許公報の検索式を示す特許検索式情報を生成する特許検索式情報生成部304と、生成された特許検索式情報を出力する特許検索式情報出力部305とを備えた。
【選択図】図15

Description

本発明は、特許の検索に利用する検索式を生成する情報処理装置等に関するものである。
従来の特許文献の検索等は、ユーザが検索したい技術内容に対応したIPCやFターム等と呼ばれる特許の分類に用いられるコードを用いた検索式を入力することで、特許文献の検索が行われていた。(例えば、特許文献1参照)。
"特許分類検索"、[online]、2009年2月6日、特許学会、[平成11年7月30日検索]、インターネット<URL:http://www.inpit.go.jp/info/ipdl/manual/pdf/52−05_pu_ipc.pdf>
IPCやFターム等のコードを適切に用いることは適切な特許調査を行うには必須であるため、コードの選出は非常に重要である。
しかしながら、IPCやFターム等は膨大なコード群により構成されており、コード体系や、コードが対応する技術内容についての記載内容等も、必ずしも特許出願や検索に習熟していない一般のユーザにとっては、直感的に理解可能なものであるとはいいにくいものであった。このため、一般のユーザ等にとっては、検索したい技術内容に対応した適切なIPCやFターム等をどのように調べたり、選んだりすれば良いかがわかりにくく、適切なコードを選出することが非常に困難であった。このため、一般のユーザがこのようなコードを用いた適切な検索式を作成することが非常に困難であるという課題があった。
本発明の情報処理装置は、技術的な文書を示す情報である技術文書情報に含まれる1以上の用語と、技術文書情報についての特許の分類を示すコードの情報である1以上の特許分類コード情報とが、技術文書情報ごとに対応付けて記憶される用語記憶部と、キーワードを示す情報であるキーワード情報を取得するキーワード情報取得部と、キーワード情報取得部が取得したキーワード情報を検索キーとし、用語記憶部から検索キーと一致する用語に対応付けられた特許分類コード情報を検索する特許分類コード情報検索部と、特許分類コード情報検索部が検索した特許分類コード情報から、出現回数に応じて特許分類コード情報を選択する第一の特許分類コード情報選択部と、第一の特許分類コード情報選択部が選択した結果である第一の選択済特許分類コード情報を含む特許分類コード情報を含む情報であって、特許公報を検索するための検索式を示す情報である特許検索式情報を生成する特許検索式情報生成部と、特許検索式情報生成部が生成した特許検索式情報を出力する特許検索式情報出力部と、を備える情報処理装置である。
かかる構成により、キーワード情報に応じた特許分類コード情報を含む適切な検索式を容易に作成することができる。また、各技術文書情報に対応付けられた特許分類コード情報から出現回数に応じて選択した特許分類コード情報を、検索した技術文書情報群の全体の特徴を適切に表す情報として用いた検索式を生成することで、キーワード情報で検索された技術文書情報群と同じ傾向(特徴)を有すると考えられる技術文書を精度よく検索可能な特許検索式を取得できる。また、出現回数に応じて選択された特許分類コード情報を用いることで、特許検索式に用いられる特許分類コード情報を絞り込むことができ、検索した技術文書情報群全体とは関連の低いノイズと考えられる特許文献が検出されにくい特許検索式を生成することができる。さらに、技術文書情報ごとに対応付けられて記憶された技術文書情報に含まれる1以上の用語と、技術文書情報についての特許の分類を示す1以上の特許分類コード情報とを用いて特許分類コード情報を検索するようにしたことにより、高速に検索式を作成することができる。
また、本発明の情報処理装置は、前記情報処理装置において、第一の特許分類コード情報選択部は、特許分類コード情報検索部が検索した各特許分類コード情報の数の、検索キーと一致する用語を含む技術文書情報数、または技術文書情報に対応付けられた特許分類コード情報数に対する比率に応じて特許分類コード情報を選択する情報処理装置である。
かかる構成により、キーワード情報に関連性の高い特許分類コード情報を含む適切な検索式を容易に作成することができる。
また、本発明の情報処理装置は、前記情報処理装置において、用語記憶部には、技術文書情報に含まれる1以上の用語と、用語の技術文書情報内における出現頻度を示す情報である出現頻度情報と、技術文書情報についての1以上の特許分類コード情報とが、技術文書情報ごとに対応付けて記憶されるものであり、特許分類コード情報検索部は、用語記憶部から、検索キーと一致する用語と対応付けられた特許分類コード情報と、出現頻度情報との組みを検索し、第一の特許分類コード情報選択部は、特許分類コード情報検索部が検索した特許分類コード情報の各特許分類コード情報別の出現回数を、検索された特許分類コード情報と組みをなす出現頻度情報を用いて重み付けを行って取得し、取得した出現回数に応じて、特許分類コード情報を選択する情報処理装置である。
かかる構成により、キーワード情報と特許分類コード情報との関連性をより適切に判断することが可能となり、キーワード情報に関連性の高い特許分類コード情報を含む適切な検索式を容易に作成することができる。
また、本発明の情報処理装置は、前記情報処理装置において、第一の特許分類コード情報選択部は、特許分類コード情報検索部により検索された各特許分類コード情報と組みをなす出現頻度情報が示す値の、各特許分類コード情報別の合計を、特許分類コード情報別の出現回数として取得する情報処理装置である。
かかる構成により、キーワード情報と特許分類コード情報との関連性をより適切に判断することが可能となり、キーワード情報に関連性の高い特許分類コード情報を含む適切な検索式を容易に作成することができる。
また、本発明の情報処理装置は、前記情報処理装置において、第一の特許分類コード情報選択部は、特許分類コード情報検索部が検索した特許分類コード情報の数を、検索された特許分類コード情報と組みをなす出現頻度情報を用いて重み付けを行って取得し、取得した特許分類コード情報の数に対する、各特許分類コード情報別の出現回数の比率に応じて、特許分類コード情報を選択する情報処理装置である。
かかる構成により、比率を用いて、関連性の高い特許分類コード情報を選択することができ、特許検索式に用いられる特許分類コード情報を適切に絞り込むことができる。
また、本発明の情報処理装置は、前記情報処理装置において、第一の特許分類コード情報選択部は、特許分類コード情報検索部が検索した各特許分類コード情報と組みをなす出現頻度情報が示す値の合計を、重み付けを行って取得された特許分類コード情報の数として取得する情報処理装置である。
かかる構成により、比率を用いて、関連性の高い特許分類コード情報を選択することができ、特許検索式に用いられる特許分類コード情報を適切に絞り込むことができる。これにより、ノイズと考えられる特許文献が検出されにくい特許検索式を生成することができる。
また、本発明の情報処理装置は、前記情報処理装置において、第一の特許分類コード情報選択部は、特許分類コード情報検索部が検索した各特許分類コード情報の数の、用語記憶部に記憶されている同じ特許分類コード情報と対応付けられた技術文書情報数に対する比率に応じて、特許分類コード情報を選択する情報処理装置である。
かかる構成により、特許検索式に用いられる特許分類コード情報を適切に絞り込むことができる。これにより、ノイズと考えられる特許文献が検出されにくい特許検索式を生成することができる。
また、本発明の情報処理装置は、前記情報処理装置において、キーワード情報取得部が取得したキーワード情報を検索キーとし、キーワード情報に関連するキーワードを示す情報である関連キーワード情報を検索する関連キーワード情報検索部をさらに備え、特許分類コード情報検索部は、キーワード情報または関連キーワード情報の少なくとも一方を検索キーとし、用語記憶部から検索キーと一致する用語に対応付けられた特許分類コード情報を検索する、情報処理装置である。
かかる構成により、キーワードの選択の仕方によって生じる特許分類コードの取得漏れ等をできる限り防ぐことができ、精度が良く、検索漏れ等の少ない特許分類コード情報を取得することが可能となる。
また、本発明の情報処理装置は、前記情報処理装置において、特許検索式情報生成部は、関連キーワード情報を含む特許検索式情報を生成する情報処理装置である。
かかる構成により、関連キーワードを利用して、より適切な検索を行うことができる。
また、本発明の情報処理装置は、前記情報処理装置において、技術的な文書を示す情報である技術文書情報と、特許の分類を示すコードの情報である特許分類コード情報と、を対応付けた情報である技術文書対応情報が記憶される技術文書対応情報記憶部と、技術文書対応情報から、各技術文書情報別に、1以上の用語と1以上の特許分類コード情報とを取得し、取得した用語と特許分類コード情報とを対応付けて用語記憶部に蓄積する用語コード取得部とをさらに備えた情報処理装置である。
かかる構成により、用語と特許分類コード情報とを技術文書情報ごとに対応付けた情報を、技術文書情報から容易に取得することができる。
また、本発明の情報処理装置は、前記情報処理装置において、特許分類コード情報は、IPCコードであり、特許分類コード情報検索部が検索した複数の特許分類コード情報における共通部分を検出し、その共通部分以外の部分を特定の記号を含む文字列に置き換えることで特許分類コード情報を正規化する特許分類コード情報正規化部をさらに備え、特許検索式情報生成部は、特許分類コード情報正規化部が正規化を行った結果である正規化済特許分類コード情報を含む特許検索式情報を生成する、情報処理装置である。
かかる構成により、正規化により拡張したIPCコードを用いた特許検索式情報を取得することが可能となる。これにより、検索漏れの少ない検索式を生成することができる。
また、本発明の情報処理装置は、前記情報処理装置において、特許検索式情報生成部は、キーワード情報取得部が取得したキーワード情報と、特許分類コード情報検索部が検索した特許分類コード情報と、を含む特許検索式情報を生成する、情報処理装置である。
かかる構成により、キーワード情報と、特許分類コード情報を用いて適切な検索を行うことができる。
本発明による情報処理装置等によれば、検索したい技術内容に応じた特許分類コード情報を含む適切な検索式を作成することができる。
本発明の実施の形態1に係る情報処理装置のブロック図 同情報処理装置の動作について説明するフローチャート 同情報処理装置の動作を説明するための、技術文書対応情報の一例を示す図 同情報処理装置の動作を説明するためのキーワード情報を示す図 同情報処理装置の動作を説明するための関連キーワード情報を示す図 同情報処理装置の動作を説明するための、特許分類コード情報を示す図 同情報処理装置の動作を説明するための、特許分類コード情報出現回数を示す図 同情報処理装置の動作を説明するための、技術分野対応情報を示す図 同情報処理装置の動作を説明するための、第二の特許分類コード情報を示す図 同情報処理装置の動作を説明するための、正規化済特許分類コード情報を示す図 同情報処理装置の動作を説明するための、特許分類コード対応情報を示す図 同情報処理装置の動作を説明するための、特許検索式の表示例を示す図 本発明の実施の形態2に係る情報処理装置のブロック図 同情報処理装置の動作について説明するフローチャート 本発明の実施の形態1に係る情報処理装置のブロック図 同情報処理装置の動作について説明するフローチャート 同情報処理装置の動作について説明するフローチャート 同情報処理装置の動作を説明するための、形態素解析結果を示す図 同情報処理装置の動作を説明するための、形態素解析結果を用いて取得した用語を示す図 同情報処理装置の動作を説明するための、用語管理表を示す図 同情報処理装置の動作を説明するための、特許分類コード情報管理表を示す図 同情報処理装置の動作を説明するための、用語管理表を示す図 同情報処理装置の動作を説明するための、特許分類コード情報管理表を示す図 同情報処理装置の動作を説明するための、キーワード情報の入力インターフェースを示す図 同情報処理装置の動作を説明するための、関連キーワード情報を示す図 同情報処理装置の動作を説明するための、検索された特許分類コード情報(国際特許分類)を示す図 同情報処理装置の動作を説明するための、特許分類コード情報(国際特許分類)の出現頻度を示す図 同情報処理装置の動作を説明するための、特許公報に含まれる用語と、各用語の出現頻度情報とを管理する用語管理表を示す図 同情報処理装置の動作を説明するための、用語と、用語の出現頻度情報と、用語の取得元の特許公報の識別情報とを対応付けて管理する用語管理表を示す図 同情報処理装置の動作を説明するための、各公開番号別の重み付けに用いられる値と、各公開番号に対応する国際特許分類とを対応づけて管理する管理情報を示す図 同情報処理装置の動作を説明するための、国際特許分類別の重み付け値を示す図 本発明の実施の形態にかかるコンピュータシステムの外観一例を示す模式図 同実施の形態におけるコンピュータシステムの構成の一例を示す図
以下、情報処理装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
図1は、本実施の形態における情報処理装置1のブロック図である。
情報処理装置1は、技術文書対応情報記憶部101、キーワード情報取得部102、特許分類コード情報検索部103、特許検索式情報生成部104、特許検索式情報出力部105、技術文書情報受付部106、関連キーワード情報検索部107、第一の特許分類コード情報選択部108、技術分野対応情報記憶部109、第二の特許分類コード情報選択部110、特許分類コード情報正規化部111、特許分類コード対応情報記憶部112、および特許分類コード説明情報検索部113を備えている。
技術文書対応情報記憶部101には、技術的な文書を示す情報である技術文書情報と、特許の分類を示すコードの情報である特許分類コード情報と、を対応付けた情報である技術文書対応情報が記憶され得る。技術文書情報とは、具体的には、特許公報や論文などの技術の内容を説明する情報が記載された文書を示す情報である。一の技術文書情報は、予め一以上の項目により項目分けされていても良い。例えば、特許公報の場合、「特許請求の範囲」や「明細書」等の項目や、「発明の名称」、「技術分野」等の項目で分類されていると考えても良い。特許分類コード情報は、例えば、階層化された特許の分類を表すことが可能なコード情報である。特許分類コード情報は、具体的には、IPC(国際特許分類)やFターム、FIターム、テーマコード、ファセット、USクラス等である。技術文書対応情報は、例えば、技術文書情報または特許分類コード情報のどちらか一方を特定すれば、もう片方も特定できる形式の情報であればその形式は問わない。技術文書対応情報は、対応する技術文書情報と特許分類コード情報とが一のレコードの項目として管理されるデータベース、あるいはその一レコードであっても良いし、技術文書情報に、当該技術文書情報に対応付けられた特許分類コード情報が含まれる形式の情報であっても良い。例えば、技術文書情報である特許公報のように、特許分類コード情報である国際特許分類やFターム等が、技術文書情報に含まれていてもよい。技術文書情報と特許分類コード情報との対応関係は、一対一にかぎるものではなく、一対多、多対一、多対多であってもよい。技術対応情報は、技術分野情報に対して異なるコード体系の特許分類コード情報を混在させて対応付けていても良い。技術文書対応情報記憶部101に技術文書対応情報が蓄積される過程等は問わない。技術文書対応情報記憶部101は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
キーワード情報取得部102は、キーワードを示す情報であるキーワード情報を一以上取得する。キーワード情報は、一以上の文字により構成される文字列の情報である。キーワード情報とは、例えば、「MPEG」や「ボルト」、「ナット」、「加熱コイル」などの技術タームなどである。キーワードは、例えば、所定の技術分野に関する技術文書情報等に特徴的に現れる、単語等の文字列であり、例えば専門用語である。キーワード情報は、例えば、検索に利用される検索用のキーワードである。
キーワード情報取得部102は、どのように、キーワード情報を取得しても良い。例えば、キーワード情報取得部102は、図示しない入力手段等を介して外部から受け付けたキーワード情報を取得する。ここで述べる受け付けとは、ユーザ等によるキーボードやマウス、タッチパネルなどの入力デバイスから入力されたキーワード情報の受け付けであってもよいし、有線もしくは無線の通信回線を介して送信されたキーワード情報の受信、あらかじめ用意されたキーワード情報のリストが格納された光ディスクや磁気ディスク、半導体メモリなどの記録媒体からのキーワード情報の読み出し等を含む概念である。この場合、キーワード情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良く、キーワード情報取得部102は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
また、キーワード情報取得部102は、後述する技術文書情報受付部106が受け付けたキーワード抽出用技術文書情報からキーワード情報を抽出することにより取得してもよい。キーワード抽出用技術文書情報は、キーワード抽出のために予めユーザ等により用意された一以上の技術文書情報である。
キーワード情報取得部102は、例えば、キーワード抽出用技術文書情報から、予めユーザ等により指定された手がかり句を用いてキーワード情報を抽出しても良い。例えば、キーワード抽出用技術文書情報内において、予め指定された手がかり句を検索し、検索された文字列に対して、予め指定された位置関係にある文字列等を、キーワード情報として抽出するようにしても良い。あるいは、予め指定された位置関係にある文字列であって、予め指定された品詞や文字のタイプ等の属性を有する文字列を取得するようにしても良い。予め指定された位置関係は、例えば、検索により検出された文字列の前後や、当該文字列を含む位置等である。なお、ここで述べる前後とは、必ずしも検索により検出された文字列に隣接している必要はない。例えば、「部」や「手段」、「装置」等の文字列を手がかり句として、当該文字列と一致する文字列の直前に配置された、文字のタイプが漢字である連続した文字列を、キーワード情報として取得しても良い。この場合、キーワード抽出用技術文書情報内に「信号を変換する信号変換部がある」という文が含まれていた場合、「部」という文字列の直前の漢字の列である「信号変換」という文字列がキーワード情報として取得される。あるいは、このような手がかり句を用いて取得された文字列のうちの、一以上のキーワード抽出用技術文書内における出現頻度が高いものや、tf−idf等の値が高いもの等をキーワード情報として取得しても良い。また、手がかり句として、手がかり句を正規化した情報、例えば、格助詞等の品詞を指定する情報を用いるようにしても良い。
また、キーワード情報取得部102は、例えば、当該キーワード抽出用技術文書情報における出現頻度が高いキーワード情報や、当該キーワード抽出用技術文書情報に対する関連性が、他の技術文書情報に対する関連性よりも高いキーワード情報等を抽出してもよい。
例えば、キーワード情報取得部102は、キーワード抽出用技術文書情報から、tf−idfやtf、smart等の値の高い用語をキーワード情報として取得しても良い。
具体的には、キーワード情報取得部102は、まず、キーワード抽出用技術文書情報に対して形態素解析等を行い、単語等の文字列を取得する。あるいは、形態素解析の結果により得られた単語等の文字列のうちの、予め指定された所定の品詞の文字列や、予め指定された文字列を除く文字列等を取得する。例を挙げると、キーワード情報取得部102は、形態素解析の結果から、「する」「なる」「ある」等の所定の除外対象となる文字列を除いた文字列であって、「代名詞」「非自立語」「数」「接尾語」「接頭語」以外の「名詞」「動詞」「形容詞」「未知語」等を取得する。そして、これらの形態素解析の結果により得られた単語等の文字列から、tf−idfやtf、smart等の値の高い用語をキーワード情報として取得する。例えば、形態素解析のシステムとしては、例えば、「Mecab(和布蕪)」(http://mecab.sourceforge.net/)や、「ChaSen(茶筌)」(http://chasen.naist.jp)等が利用可能である。また、tf−idfや、smart retrieval system等については、公知技術であるので、詳細な説明については省略する。
例えば、tf−idf等を用いる場合、キーワード情報取得部102は、例えば、tfとしてキーワード抽出用技術文書情報のうちの1以上において出現する一の単語等の文字列の出現頻度を算出し、dfとして上述した技術文書対応情報で対応関係を管理されている複数の技術文書情報のうちの、当該文字列を含む技術文書情報の出現頻度を算出するようにし、これらを用いてtf−idfの値を算出するようにしても良い。
ここで、tf−idf等の値の高い用語とは、例えば、tf−idf等の値の最も高い用語から所定の個数の用語や、tf−idf等の値が、最も値の高い値から所定番目までの用語であってもよい。また、tf−idf等の値が所定のしきい値より高い用語であってもよく、あるいは、これらの二以上の組合せであってもよい。その所定のしきい値は、例えば、図示しない記録媒体において記憶されていてもよい。このことは、他のしきい値についても同様であるとする。そして、キーワード情報取得部102は、その記録媒体から所定のしきい値読み出して、キーワード情報を抽出する処理を行ってもよい。
また、キーワード情報取得部102によるキーワード情報の取得は、例えば、次のようにして行われてもよい。まず、キーワード抽出用技術文書情報の全部または一部から、キーワード情報の候補を取得する。このキーワード情報の候補は、例えば、そのキーワード抽出用技術文書情報の全部または一部に含まれる単名詞や複合名詞であってもよく、そのキーワード抽出用技術文書情報の全部または一部に含まれる専門用語であってもよい。
ここで、専門用語を示す情報を取得する方法について説明する。まずキーワード抽出用技術文書情報の全部または一部から、単名詞や複合名詞を示す情報を抽出する。そして、各単名詞等について専門用語である可能性を示すスコア付けを行い、高いスコアを付与された単名詞等を示す情報を専門用語の候補として取得する。ここで、スコアを付与する方法して、複数の種類が知られている。
(造語能力に基づくスコア付け)
造語能力とは、単名詞の複合語の構成しやすさを示す尺度である。その造語能力の高い名詞を含む単名詞等を示す情報には、高いスコアが付与される。ここで、造語能力を示す指標として連接頻度を用いてもよい。連接頻度とは、ある語に連接する語の異なり数の多さのことであり、ある語の直前または直後に現れる語の種類の多さのことである。すなわち、連接頻度とは、その語がいかに多くの複合名詞に含まれやすいか、換言すれば、いかに複合名詞を構成しやすいかを示す尺度である。このようにして、造語能力に基づいて各単名詞等にスコアを与えることができる。なお、複合名詞においては、構成要素である単名詞のスコアの相乗平均を複合名詞のスコアとして与えてもよい。
(出現頻度に基づくスコア付け)
注目している単名詞等をtとする。また、そのtの構成語数をnとする。その場合に、tに対応するスコアを次のように算出する。
tのスコア=(tの出現頻度)/(語数をnとする単名詞等の平均出現頻度)
ここで、上記式中の「単名詞等」とは、専門用語の候補として抽出された単名詞等である。ここで、tの出現頻度、及び語数をnとする単名詞等の平均出現頻度はキーワード抽出用技術文書情報の全部または一部において算出される。なお、tのスコアとして、単に「tの出現頻度」を用いてもよい。
また、tf−idf等の上記説明以外の方法を用いて、スコア付けを行ってもよく、また、上記説明以外の方法を用いて、専門用語を示す情報をキーワード情報の候補として取得してもよい。専門用語を示す情報をキーワード情報の候補として取得する方法については、次の複数の文献において開示されており、従来から知られているため、その詳細な説明を省略する。
文献:白井清昭、他3名、「ポータルサイト自動作成の試み」、言語処理学会第10回年次大会、p.624−627、2004年
文献:Hiroshi Nakagawa、「Automatic Term Recognition based on Statistics of Compound Nouns」、Terminology、Vol.6、No.2、p.195−210、2000
文献:大畑博一、中川裕志、「連接異なり語数による専門用語抽出」、情報処理学会研究報告、2000−NL−136、p.119−126
文献:中川裕志、森辰則、湯本紘彰、「出現頻度と連接頻度に基づく専門用語抽出」、自然言語処理、Vol.10 No.1、p.27−45、2003年1月
なお、キーワード情報取得部102は、頻出する一般的な名詞等を示す情報を、関連用語の候補から除外してもよい。例えば、キーワード情報取得部102は、除外すべき名詞等を示す情報を1以上、図示しない記録媒体において保持しておき、キーワード情報取得部102は、キーワード情報の候補として取得した情報に、当該保持されている除外すべき名詞等を示す情報のいずれかが含まれる場合には、その情報をキーワード情報の候補から除外してもよい。除外すべき名詞等は、例えば、方法、記載、発行、文献等である。
次に、キーワード情報取得部102は、上記のようにして取得した各キーワード情報の候補について、キーワード抽出用技術文書情報との関連度を示す情報を取得する。例えば、キーワード情報取得部102は、キーワード情報の候補の関連度を示す情報として、そのキーワード情報の候補が、取得した特許文書の全部または一部に出現する頻度を算出してもよい。また、キーワード情報取得部102は、各キーワード情報の候補について算出した、前述の専門用語である可能性を示すスコア、例えば、造語能力に基づくスコア、出現頻度に基づくスコア、あるいは連接頻度に基づくスコアを、そのスコアを関連度を示す情報として取得してもよい。また、各キーワード情報の候補について算出したtf−idfのスコアを、関連度を示す情報として取得しても良い。また、その他の方法によって関連度を算出してもよい。
最後に、キーワード情報取得部102は、高い関連度を有するキーワード情報の候補をキーワード情報に決定して、当該キーワード情報を取得する。
なお、高い関連度を有するキーワード情報の候補とは、例えば、関連度の値の最も高い候補から所定の個数の用語や、関連度の値が、最も値の高い値から所定番目までの用語であってもよい。また、関連度の値が所定のしきい値より高い用語であってもよく、あるいは、これらの二以上の組合せであってもよい。
また、キーワード情報取得部102は、技術文書情報が、上述したように項目分けされた情報である場合、技術文書情報のうちの、所定の一以上の項目分けされた領域からキーワード情報の取得を行うようにしてもよい。例えば、技術文書情報が特許公報である場合、キーワード情報取得部102は、技術文書情報の「発明の名称」「発明の効果」「課題を解決するための手段」等の項目に対して形態素解析を行い、形態素解析の結果により取得された単語等の文字列から、tf−idf等の値の高いものをキーワード情報として抽出してもよい。なお、この場合、上述したようなtf−idfにおける単語等の文字列の出現頻度は、技術文書情報内の所定の一以上の項目分けされた領域内における文字列の出現頻度としても良い。
このようにキーワード抽出を行う場合、キーワード情報取得部102は、例えば、MPUやメモリ等から実現され得る。キーワード情報取得部102の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
なお、キーワード情報取得部102は、関連キーワードを取得するものと考えても良い。例えば、後述する関連キーワード情報検索部107等と同様の処理部(図示せず)等が、ユーザ等により入力されたキーワードや、技術文書情報等から取得されたキーワード等を用いて取得した関連キーワードを、キーワード情報として取得してもよい。
特許分類コード情報検索部103は、キーワード情報取得部102が取得したキーワード情報を検索キーとし、技術文書対応情報記憶部101から当該検索キーを含む技術文書情報に対応付けられた特許分類コード情報を検索する。具体的には、技術文書対応情報記憶部に記憶されている技術文書対応情報について、キーワード情報取得部102が取得したキーワード情報を含む技術文書情報を検索し、検索により検出された技術文書情報に対応付けられた特許分類コード情報を取得する。
また、後述する関連キーワード情報検索部107がキーワード情報取得部102が取得したキーワード情報を用いて後述する関連キーワード情報を検索した場合、特許分類コード情報検索部103は、キーワード情報取得部102が取得したキーワード情報と、関連キーワード情報検索部107が検索により取得した関連キーワード情報と、を検索キーとし、技術文書対応情報記憶部101から当該検索キーのうちの少なくともいずれか一つを含む技術文書情報に対応付けられた特許分類コード情報を検索するようにしてもよい。なお、関連キーワード情報はキーワード情報と同様の文字列の情報である。
また、技術文書情報が、上述したように項目分けされた情報である場合、特許分類コード情報検索部103は、技術文書情報の中から、項目分けされた情報内に検索キーを含む技術文書情報を検索により検出し、検出された技術文書情報に対応付けられた特許分類コード情報を検索するようにしてもよい。一以上の項目分けされた情報とは、例えば、予めユーザ等により指定された項目により分けられた情報である。例えば、特許分類コード情報検索部103は、予め指定された項目により項目分けされた部分に検索キー(キーワード情報)が含まれる技術文書情報を、技術文書対応情報により管理されている技術文書情報において検索し、検索により検出され技術文書情報に対応付けられた特許分類コードを取得する。
特許分類コード情報検索部103が検索に用いるキーワード情報が複数ある場合、これらのキーワード情報をどのように組み合わせて検索を行っても良い。例えば、複数のキーワード情報を用いて、AND検索やOR検索やNOT検索等のどのような検索を行っても良い。具体的には、「地図」と「自動車」というキーワード情報をキーワード情報取得部102が取得した場合、特許分類コード情報検索部103は、「地図」と「自動車」というキーワード情報でAND検索「地図AND自動車」を行うようにしても良いし、OR検索「地図OR自動車」を行うようにしても良い。複数のキーワード情報をどのように組み合わせて検索を行うかは、例えばデフォルトで設定されていても良いし、予めユーザ等により指定可能となるようにしても良い。なお、ここでのキーワード情報は、関連キーワード情報を含むと考えてもよい。
特許分類コード情報検索部103は、通常、MPUやメモリ等から実現され得る。特許分類コード情報検索部103の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
特許検索式情報生成部104は、特許分類コード情報検索部103が検索した特許分類コード情報の少なくとも一部を含む情報であって、特許公報を検索するための検索式を示す情報である特許検索式情報を生成する。特許検索式情報は、例えば、特許分類コード情報を含む1以上の検索キーと、一以上の検索キーの組合せかたや検索キーによる検索順序等を指定するための演算子等の組合せにより構成される論理式を示す情報である。特許検索式は、検索のための検索クエリと考えても良い。複数の検索キーを組み合わせかたを指定する演算子は、例えば、複数の検索キーのうちの、どの検索キーがヒットし、どの検索キーがヒットしないものを検索結果とするか等を指定する演算子である。演算子は、例えば、検索が、AND検索であるかOR検索であるかNOT検索であるか等を指定する演算子であり、例えば「*」や「+」や、「−」、「(」、「)」等の記号が用いられる。
例えば、予め、特許検索式情報生成部104に、「複数の特許分類コード情報が検索された場合、検索された特許分類コード情報を全て、AND条件として検索を行うことを指定する演算子「*」でつなぐ」という検索式を生成するルールを示す情報が指定されていたとすると、特許分類コード情報検索部103が、特許分類コード情報である国際特許分離「G01C 21/00」及び「G09B 29/00」を検索した場合、特許検索式情報生成部104は、「G01C 21/00*G09B 29/00」という特許検索式を生成する。
なお、特許検索式情報は、演算子等を含まない情報であっても良い。例えば、特許検索式情報は、検索キーのみで構成された情報であっても良い。また、検索キーは特許分類コード情報のみから構成された情報であってもよい。
なお、特許検索式として、特許分類コード情報検索部103が検索により検出した一以上の特許分類コード情報がそのまま利用可能な場合、特許検索式情報生成部104による特許検索情報の生成は、特許分類コード情報検索部103からの特許分類コードの取得と考えても良い。
特許検索式情報生成部104が生成する特許検索式情報には、特許分類コード情報検索部103が検索した特許分類コード情報の全てが含まれていても良いし、一部だけが含まれていれてもよい。例えば、特許検索式情報生成部104は、特許分類コード情報検索部103が検索した特許分類コード情報の中から、後述する第一の特許分類コード情報選択部108が選択した結果である第一の選択済特許分類コード情報を含む特許検索式情報を生成するようにしてもよい。また、例えば、特許検索式情報生成部104は、特許分類コード情報検索部103が検索した特許分類コード情報の中から、当該第二の特許分類コード情報選択部110が選択を行った結果である第二の選択済特許分類コード情報を含む特許検索式情報を生成するようにしてもよい。
また、特許検索式情報生成部104が生成する特許検索式に含まれる特許分類コード情報は、特許分類コード情報検索部103が検索した特許分類コード情報をそのまま用いたものでなくても良い。例えば、検索キーに含まれる特許分類コード情報は、特許分類コード情報検索部103が検索した特許分類コード情報に対して、後述する特許分類コード情報正規化部111が正規化を行った結果である正規化済特許分類コード情報であっても良い。
また、検索キーには、特許分類コード情報検索部103が検索により取得した特許分類コード情報の他に、他の文字列やコード等の情報を含んでもよい。例えば、特許検索式情報生成部104は、キーワード情報取得部102が取得したキーワード情報と、特許分類コード情報検索部103が検索した特許分類コード情報と、を含む特許検索式情報を生成するようにしてもよい。また、後述する関連キーワード情報検索部107が検索した関連キーワード情報を含んでもよい。また、これらの情報のうちの、どの情報をAND条件として用いるか、あるいはOR条件として用いるか等については、例えば、予め検索式を作成するためのルールを示す情報として図示しない格納部等に記憶させておくようにすればよい。
特許検索式情報生成部104は、通常、MPUやメモリ等から実現され得る。特許検索式情報生成部104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
特許検索式情報出力部105は、特許検索式情報生成部104が生成した特許検索式情報を出力する。なお、特許検索式情報出力部105は、特許検索式情報生成部104が生成した特許検索式情報と共に、後述する特許分類コード説明情報検索部113が検索した特許分類コード説明情報をも出力するようにしてもよい。ここで述べる出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。なお、プログラムとは、コンピュータの行う処理(演算・動作・通信など)の手順を指示したもののことである。特許検索式情報出力部105は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。特許検索式情報出力部105は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
技術文書情報受付部106は、技術的な文書を示す情報であるキーワード抽出用技術文書情報を一以上受け付ける。キーワード抽出用技術文書情報とは、具体的には、キーワード情報取得部102がキーワード情報を抽出するために用いられる技術文書情報である。技術文書情報については、上述した技術文書情報と同様であるのでここでは説明を省略する。技術文書情報受付部106は、ユーザ等により入力されるキーワード抽出用技術文書情報を受け付ける。ここで述べる受付とは、例えば、入力手段からの受付や、他の機器等から送信される入力信号の受信や、記録媒体等からの情報の読み出し等である。キーワード抽出用技術文書情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。技術文書情報受付部106は、テンキーやキーボード等の入力手段のデバイスドライバーや、記録媒体等から情報を読み出すためのドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
関連キーワード情報検索部107は、キーワード情報取得部102が取得したキーワード情報を検索キーとし、当該キーワード情報に関連するキーワードを示す情報である関連キーワード情報を検索する。関連キーワード情報は、例えば、キーワード情報の上位概念となる文字列である上位概念の用語(以下、上位語と称す)や下位概念の用語である。また、関連キーワード情報は、キーワード情報の類義語であってもよい。
関連キーワード情報検索部107は、例えば、Webを検索して、キーワード情報に関連する関連キーワード情報を検索してもよい。具体的には、関連キーワード情報を検索可能な検索サイト等に、キーワード情報取得部102が取得したキーワード情報を送信して、関連キーワード情報を検索しても良い。また、関連キーワード情報検索部107は、Webページの検索用サイトからキーワード情報に対応した一以上のWebページのURL等を取得し、当該URL等からWebページを取得し、当該取得したWebページ内において関連キーワード情報を検索しても良い。また、関連キーワード情報検索部107は、技術文書対応情報記憶部101に記憶されている技術文書対応情報により対応付けられている一部あるいは全ての技術文書情報から、キーワード情報に関連する関連キーワード情報を検出してもよい。例えば、関連キーワード情報検索部107は、技術文書対応情報記憶部101に記憶されている技術文書対応情報により対応付けられている技術文書情報の中から、キーワード情報に関連性の高い一以上の技術文書情報を読み出し、当該読み出した技術文書情報から関連キーワード情報を検出してもよい。この場合のキーワード情報に関連性の高い一以上の技術文書情報は、キーワード情報を所定数以上や、所定の比率以上含む技術文書情報であっても良い。なお、技術文書対応情報記憶部101に記憶されている技術文書情報の代わりに、例えば、図示しない検索用のデータベースに格納されている技術文書情報等を用いるようにしても良い。
関連キーワード情報検索部107は、一以上のWebページや技術文書情報等の文字列を含む情報から、関連キーワード情報をどのように検索しても良い。例えば、一以上のWebページや技術文書情報等に含まれる文字列を、形態素解析等により品詞別の文字列(例えば単語)に分割し、当該分割された単語等の文字列の中から、キーワード情報と一致する文字列に対して、予め指定された所定の位置関係にある単語等の文字列を、検索やパターンマッチング等により取得する。所定の位置関係にある文字列とは、具体的には、文字列の並びにおける位置関係である。例えば、キーワード情報と一致する単語の直前に配置された「例えば」という文字列の直前に配置されている名詞の文字列である。この場合、キーワード情報が示すキーワードの直前に配置された「例えば」という文字列の直前の、品詞が名詞である文字列が、関連キーワード情報の一つとして取得される。例えば、キーワード情報が「カッター」であり、技術文書情報内に、「切断手段は、例えばカッターである」という文が含まれていた場合、関連キーワード情報検索部107は、「カッター」という文字列の直前に位置する「例えば」という文字列の直前の名詞である「切断手段」を関連キーワード情報として取得する。なお、ここで述べる文字列あるいは単語とは複合語等であっても良い。あるいは、一以上のWebページや技術文書情報等の文字列を含む情報内の、キーワード情報取得部102が取得したキーワード情報との共起確率の高い文字列、例えば単語や所定の品詞の単語等、を関連キーワード情報として取得しても良い。
関連キーワード情報検索部107は、上位語と、当該上位語の下位概念を示す用語(以下、下位語と称す)とを対応付ける辞書である上位下位シソーラスを有しており、その上位下位シソーラスを用いて、キーワード情報で下位語を検索し、その検索された下位語に対応する上位語を関連キーワード情報として取得しても良い。なお、上記とは逆に、キーワード情報で上位語を検索し、その検索された上位語に対応する下位語を関連キーワード情報として取得しても良い。一般に、特許公報等の特許に関する文書では、権利範囲等が限定されないように、より一般的な用語、すなわち上位概念の用語を使用する傾向がある。したがって、このようなキーワード情報の上位語である関連キーワード情報を取得して特許検索式を作成することで、上位概念も含めた広い範囲を検索することが可能な特許検索式が得られる場合がある。
なお、上位下位シソーラスを作成する方法は問わない。人手によって作成してもよく、あるいは、コンピュータ等による自然言語処理を行うことによって作成してもよい。
コンピュータ等により上位下位シソーラスを作成する場合には、例えば、予め用意された言語研究に使用するために大量に収集された言語データであるコーパスから「AなどのB」「A等のB」「AのようなB」「AといったB」という表現を含む文を抽出し、単語Aを下位概念の単語とし、単語Bを上位概念の単語として対応付けることによって上位下位シソーラスを作成してもよい。例えば、「フロッピー(登録商標)ディスクなどの情報記録媒体」という表現から上位概念の単語「情報記録媒体」と、下位概念の単語「フロッピー(登録商標)ディスク」とを抽出することができる。
ここで、このままでは、上位概念の単語が大量に存在してしまうことになるため、2段階以上の上位概念の単語を上位下位シソーラスから削除してもよい。例えば、上位語「情報記録媒体」に、下位語「磁気記録媒体」と、下位語「フロッピー(登録商標)ディスク」とが対応付けられており、さらに、上位語「磁気記録媒体」に、下位語「フロッピー(登録商標)ディスク」が対応付けられていたとする。すると、下位語「フロッピー(登録商標)ディスク」から見て、上位語「情報記録媒体」は、上位語「磁気記録媒体」のさらに上位語となり、2段階以上の上位語となるため、上位語「情報記録媒体」と、下位語「フロッピー(登録商標)ディスク」との対応を上位下位シソーラスから削除してもよい。
また、関連キーワード情報検索部107は、単語と、当該単語の類義語とを対応付ける辞書である類義語辞書を有しており、当該類義語辞書を用いて、キーワード情報で単語を検索し、検索された単語に対応する類義語を、関連キーワード情報として取得するようにしても良い。
なお、類義語辞書を作成する方法は問わない。人手によって作成してもよく、あるいは、上位下位シソーラスを作成する場合と同様に、コンピュータ等による自然言語処理を行うことによって作成してもよい。
関連キーワード情報検索部107は、通常、MPUやメモリ等から実現され得る。関連キーワード情報検索部107の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。また、WEBサイトから検索を行う場合、関連キーワード情報検索部107は、図示しない送信部や受信部等を介してネットワーク経由で検索キーや検索結果等の送受信を行うようにしても良いし、関連キーワード情報検索部107が、送信や受信の処理等を行う手段等を予め備えていても良い。
第一の特許分類コード情報選択部108は、特許分類コード情報検索部103が検索した特許分類コード情報から、出現回数に応じて特許分類コード情報を選択する。第一の特許分類コード情報選択部108が選択した特許分類コード情報を、以下、第一の選択済特許分類コード情報と呼ぶ。第一の特許分類コード情報選択部108は、例えば、特許分類コード情報検索部103が検索した特許分類コード情報について、同じ特許分類コード情報の出現回数をカウントし、カウント結果を用いて出現回数の高さが所定の順位までの特許分類コード情報を取得しても良い。また、出現回数が予め指定したしきい値を超える特許分類コード情報だけを取得するようにしても良い。例えば、特許分類コード情報が10個検索され、その内訳が「A:3個、B:3個、C:3個、D:1個」(A〜Dは異なる特許分類コード情報とする)であった場合、予め指定されているしきい値「2」以下の特許分類コード情報であるDを除いた3つの特許分類コード情報だけを第一の選択済特許分類コード情報として選択するようにしても良い。あるいは、この場合、出現回数が一位である特許分類コード情報である「A」から「C」までの三つの特許分類コード情報だけを第一の選択済特許分類コード情報として選択するようにしても良い。なお、第一の特許分類コード情報選択部108は、通常は、特許分類コード情報検索部103が検索した特許分類コード情報の全てから、出現回数に応じて特許分類コード情報を選択するが、検索した特許分類コード情報の一部から出現回数に応じて特許分類コード情報を選択してもよい。第一の特許分類コード情報選択部108は、特許分類コード情報検索部103が検索した特許分類コード情報から、直接、出現回数に応じて特許分類コード情報を選択してもよい。また、例えば、特許分類コード情報検索部103が検索した特許分類コード情報のうちの、後述する第二の特許分類コード情報選択部110が選択した特許分類コード情報や、特許分類コード情報正規化部111が正規化した特許分類コード等から、出現回数に応じて特許分類コード情報を選択する場合のように、間接的に、特許分類コード情報を選択してもよい。なお、出現回数を特許技術文書数で標準化した値を出現頻度と考えるようにして、出現回数に応じて特許分類コード情報を取得することを、特許分類コード情報の出現頻度に応じて特許分類コード情報を取得することと考えるようにしても良い。例えば、出現頻度の高い特許分類コード情報を取得するようにしても良い。この場合、第一の特許分類コード情報選択部108は、通常、MPUやメモリ等から実現され得る。第一の特許分類コード情報選択部108の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
技術分野対応情報記憶部109は、特許分類コード情報と、当該特許分類コード情報が対応する技術分野に関する情報である技術分野情報と、を対応付けた情報である技術分野対応情報が記憶され得る。技術分野情報は、例えば対応する特許分類コード情報の意味または定義の少なくとも一方を示す情報である。また、技術分野情報は、当該技術が利用可能な製品や技術の分野を示す情報であっても良い。また、技術分野情報は、特許分類コード情報が示す技術の例等を示す情報であっても良い。例えば、技術分野対応情報は、「G06F1/30」という特許分類コード情報と、「電気的デジタルデータ処理」という技術分野情報とを対応付けた情報である。技術分野対応情報は、例えば、特許分類コード情報または技術分野情報のどちらか一方を特定すれば、もう片方も特定できる形式の情報であればその形式は問わない。技術分野対応情報は、例えば、対応する特許分類コード情報と技術分野情報とが同じレコードの項目として管理されるデータベース、あるいはそのレコードであっても良いし、技術分野情報内に、当該技術分野情報に対応付けられた特許分類コード情報が含まれる形式の情報であっても良い。特許分類コード情報と技術分野情報との対応関係は、一対一に限るものではなく、一対多であってもよい。技術分野対応情報が記憶されるタイミングや経路等は問わない。例えば、ユーザ等により作成された技術分野対応情報が、ユーザ等の任意のタイミングで、入力デバイス等を介して技術分野対応情報記憶部109に記憶される。技術分野対応情報記憶部109は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
第二の特許分類コード情報選択部110は、特許分類コード情報検索部103が検索した特許分類コード情報から、技術分野対応情報記憶部109に記憶されている技術分野対応情報において、一の技術分野情報にのみ対応付けられている特許分類コード情報を選択する。第二の特許分類コード情報選択部110が選択した特許分類コード情報を、以下、第二の特許分類コード情報と呼ぶ。ここで述べる一の技術分野情報にのみ対応付けられている特許分類コード情報とは、例えば、対応する特許分野情報が一つのみである特許分類コード情報を意味する。具体的には、第二の特許分類コード情報選択部110は、特許分類コード情報検索部103が検索した各特許分類コード情報を検索キーとして用いて、技術分野対応情報を検索し、検索の結果、対応する特許分野情報として異なる複数の特許分野情報が得られなかった特許分類コード情報だけを選択する。具体例を挙げると、例えば、特許分類コード情報検索部103により検索された特許分類コード情報が「A、B、C、D」であったとし、Aに対してはaという技術分野情報が、Bに対してはbという技術分野情報が、Cに対してはc1、c2という技術分野情報が、Dに対してはd1、d2、d3、d4という技術分野情報がそれぞれ関連付けられている場合、第二の特許分類コード情報選択部110は、一の特許分類コード情報に対して一の技術分野情報だけが対応付けられている特許分類コード情報である「A、B」だけを、第二の選択済特許分類コード情報として取得する。なお、第二の特許分類コード情報選択部110は、通常は、特許分類コード情報検索部103が検索した特許分類コード情報のすべてから、出現回数に応じて特許分類コード情報を選択するが、検索した特許分類コード情報の一部から出現回数に応じて特許分類コード情報を選択してもよい。第二の特許分類コード情報選択部110は、特許分類コード情報検索部103が検索した特許分類コード情報から、直接、出現回数に応じて特許分類コード情報を選択してもよい。また、例えば、特許分類コード情報検索部103が検索した特許分類コード情報のうちの、上述した第一の特許分類コード情報選択部108が選択した特許分類コード情報や、後述する特許分類コード情報正規化部111が正規化した特許分類コード情報等から、出現回数に応じて特許分類コード情報を選択する場合のように、間接的に、特許分類コード情報を選択してもよい。第二の特許分類コード情報選択部110は、通常、MPUやメモリ等から実現され得る。第二の特許分類コード情報選択部110の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
特許分類コード情報正規化部111は、特許分類コード情報検索部103が検索した複数の特許分類コード情報における共通部分を検出し、その共通部分以外の部分を特定の記号を含む文字列に置き換えることで当該特許分類コード情報を正規化する。ここで述べる正規化とは、特許分類コード情報である文字列を正規表現化することである。正規表現化された特許分類コード情報を、ここでは、正規表現済特許分類コード情報と呼ぶ。正規表現とは、文字列の集合(文字列群)を、一の文字列で表すことである。例えば、複数の特許分類コード情報を、一の文字列で表すようにすることが正規化である。正規表現は、複数の特許分類コードをパターン化したものと考えても良い。正規表現は、例えばパターンマッチさせる文字列を指定するために用いられる。特許分類コード情報の正規化は、例えば、特許分類コード情報検索部103が検索した全ての特許分類コード情報のうちの少なくとも一部である複数の特許分類コード情報に共通する文字列以外の部分を、特定の記号に置き換えることで行われる。特定の記号を含む文字列は特定の記号のみであっても良いし、特定の記号と文字列との組合せであっても良い。特定の記号は、例えば演算子や論理語等と考えても良い。特定の記号は、例えば、所定の属性を有する一以上の文字列等を指定する記号である。また、特定の記号は、文字の集合を指定する記号であっても良い。このような文字の集合を指定する記号を用いて示される文字の集合等を例えば文字クラスと呼ぶ。また、特定の記号は、例えば、共通する文字列以外の部分に挿入され得る複数の文字列の組を選択肢として指定する記号であってもよい。また、特定の記号は、直前の表現、例えば、直前の文字列や、直前の文字クラスに含まれる文字列等がいくつ存在しなければならないかを指定するいわゆる量指定子であってもよい。また、特定の記号は、文字列や記号等のグループを指定する記号であっても良い。また、行頭の文字列や行末の文字列等を指定する記号であっても良い。また、文字列が出現する位置を指定する記号等であっても良いし、文字の繰り返しを指定する記号等であっても良い。
例えば、特許分類コード情報正規化部111は、特許分類コード情報検索部103により検索された特許分類コード情報が「G06F 12/34」と「G06F 56/78」である場合、両者を例えば一文字ずつ比較すること等により、共通する部分である「G06F」を検出し、検出された部分以外の部分を、直前の文字列が行頭の文字列であることを指定する記号である「∧」や、直前の文字列が行末の文字列であることを指定する文字列「$」で置き換えることで、「G06F∧」や「G06F$」等の正規化済特許分類コード情報を構成する。例えば、「G06F∧」は、行頭の四文字が「G06F」に一致する特許分類コード情報の集合を示す正規化済特許分類コード情報である。同様に、「G06F$」は、行末の四文字が「G06F」に一致する特許分類コード情報の集合を示す正規化済特許分類コード情報である。また、複数の特許分類コード情報が所定の条件を満たすか否かによって、正規化を行うか否かや、どのような正規化を行うかを判断するようにしても良い。複数の特許分類コード情報の、所定の位置の文字列同士が一致する場合に、これらの一致する部分を除いた文字列を記号等で置き換えて正規化を行うようにしても良い。例えば、行頭や行末の所定数の文字、例えば四文字が一致する異なる特許分類コード情報が、予め指定した所定数以上検出された場合に、これらの特許分類コード情報の、検出された部分を所定の記号で置き換えて正規化した特許分類コード情報を生成し、正規化前の特許分類コード情報は削除するようにしても良い。なお、正規化した特許分類コード情報が重複して生成された場合、重複する一方は削除しても良いし、重複する一方の生成を中止するようにしてもよい。あるいは正規化された特許分類コード情報に含まれる特許分類コード情報は削除するようにしても良い。
また、例えば、仮に、検索された特許分類コード情報が「H04H 1/00」と「H04H 5/00」であったとしても、任意の一文字を示す記号である「.」を置き換えて「H04H ./00」という正規化済特許分類コード情報を取得する正規化は行わないようにしても良い。
また、ここで述べる特定の記号を含む文字列に置き換える、とは、特許分類コード情報の共通部分以外の部分を、削除することで記号や文字列を付与しない部分とすることや、特許分類コード情報の共通部分以外の部分をNULL記号で置き換えることも含む概念である。例えば、上記の場合、「G06F」という四文字を含む特許分類コード情報の集合を示す正規化済特許分類コード情報を取得するようにしても良い。例えば、特許分類コード情報検索部103により検索された特許分類コード情報が「G06F 17/28」と「G06F 17/30」である場合、共通する部分を削除すること、あるはNULL記号で置き換えることで、「G06F 17/」とういう正規化済特許分類コード情報を構成しても良い。
なお、特許分類コード情報正規化部111は、複数の特許分類コード情報の共通する部分をどのように検出するかということや、どのような記号を含む文字列に置き換えるかということは、特許分類コード情報の構成等に応じて予め指定しておくようにすればよい。例えば、検索された特許分類コード情報が「H04H 1/00」と「H04H 5/00」であったとしても、任意の一文字を示す記号である「.」を置き換えて「H04H ./00」という正規化済特許分類コード情報を取得する正規化は行わないようにし、「F04H∧」という正規化済特許分類コード情報を取得する正規化だけを行うようにしても良い。このような正規化を行うためのルール等は、例えば、予め図示しない記憶媒体等に蓄積しておくようにすればよい。正規化を行うルールは、例えば、一致する部分の検出条件と、一致しない部分を置き換える記号を含む文字列を指定する情報とを組み合わせた情報により定義される。
なお、特許分類コード情報正規化部111は、特許分類コード情報検索部103が検索した特許分類コード情報を、直接、正規化してもよい。また、例えば、特許分類コード情報検索部103が検索した特許分類コード情報のうちの、上述した第一の特許分類コード情報選択部108や第二の特許分類コード情報選択部110が選択した特許分類コード情報正規化する場合のように、特許分類コード情報を、間接的に、正規化を行うようにしてもよい。特許分類コード情報正規化部111は、通常、MPUやメモリ等から実現され得る。特許分類コード情報正規化部111の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
特許分類コード対応情報記憶部112には、特許の分類を示すコードの情報である特許分類コード情報と、その説明を示す情報である特許分類コード説明情報と、を対応付ける情報である特許分類コード対応情報が記憶され得る。特許分類コード説明情報は、対応する特許分類コード情報が示す分類がどのような分野であるかを説明するための文字列等の情報である。特許分類コード説明情報とは、例えば、「H05K 3/18」に対する「導電性物質を付着するのに沈でん技術を用いるもの」という情報であったり、「G06F 1/08」に対する「クロック周波数が可変またはプログラマブルであるクロック発生装置」などの情報である。例えば、「G06F」に対する「電気的デジタルデータ処理」のような情報であっても含む。なお、特許分類コード説明情報として、上述した技術分野情報と同様の情報を用いるようにしても良い。また、特許分類コード対応情報として、上述した技術分野対応情報を用いるようにしても良い。特許分類コード対応情報は、例えば、特許分類コード情報を特定すれば、技術分野情報も特定できる形式の情報であればその形式は問わない。特許分類コード対応情報は、例えば、対応する特許分類コード情報と特許分類コード説明情報とが一のレコードの項目として管理されるデータベース、あるいはその一レコードであっても良いし、特許分類コード説明情報内に、当該特許分類コード説明情報に対応付けられた特許分類コード情報が含まれる形式の情報であっても良い。特許分類コード情報と特許分類コード説明情報との対応関係は、一対一に限るものではなく、例えば、一対多であってもよい。
特許分類コード対応情報とは、例えば、ユーザが予め用意したものであっても良いし、予め用意された一以上の特許分類コード情報を用いて、特許公報等を検索し、検索によりヒットした特許公報等の発明の名称等であっても良い。また、このような検索によりヒットした特許公報等から、例えば、キーワード情報取得部102が技術文書情報受付部106が受け付けた技術文書情報からキーワード情報を取得する処理と同様の処理等により取得されたキーワード情報を、検索に用いられた特許分類コード情報に対応する特許分類コード説明情報としてもよい。また、特許分類コード対応情報は、特許庁等が配布している国際特許分類表等の、特許分類コード情報である国際特許分類と、当該国際特許分類についての説明情報である特許分類コード対応情報とを対応付けた特許分類コード対応情報であっても良い。特許分類コード対応情報記憶部112は、通常、MPUやメモリ等から実現され得る。特許分類コード対応情報記憶部112の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
特許分類コード説明情報検索部113は、特許検索式情報生成部104が生成した特許検索式情報に含まれる特許分類コード情報を検索キーとし、当該特許分類コード対応情報記憶部112から特許分類コード説明情報を検索する。例えば、特許分類コード説明情報検索部113は、特許検索式情報生成部104が生成した特許検索式情報に含まれる特許分類コード情報に一致する特許分類コード情報を含む特許分類コード対応情報を検索し、当該検索においてヒットした特許分類コード対応情報に含まれる特許分類コード説明情報を取得する。ここでの一致は、通常は完全一致であるが、部分一致等であっても良い。特許検索式情報に含まれる特許分類コード情報とは、具体的には、特許分類コード情報検索部103が検索した特許分類コード情報や、第一の選択済特許分類コード情報や、第二の選択済特許分類コード情報や、正規化済特許分類コード情報である。特許分類コード説明情報検索部113は、通常、MPUやメモリ等から実現され得る。特許分類コード説明情報検索部113の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、情報処理装置1の動作の一例について図2のフローチャートを用いて説明する。
(ステップS201)情報処理装置1は、技術文書情報受付部106が、一以上のキーワード抽出用技術文書情報を受け付けたか否かを判断する。受け付けた場合、ステップS202に進み、受け付けていない場合、ステップS201に戻る。
(ステップS202)キーワード情報取得部102は、ステップS201において受け付けた一以上のキーワード抽出用技術文書情報を用いてキーワード情報を取得する。キーワード情報取得部102は、例えば、キーワード抽出用技術文書情報から、tf−idfやtf、smart等の値の高い用語をキーワード情報として取得する。
(ステップS203)関連キーワード情報検索部107は、ステップS202において取得されたキーワード情報を用いて、関連キーワード情報を検索する。
(ステップS204)特許分類コード情報検索部103は、ステップS202において取得されたキーワード情報とステップS203において取得された関連キーワード情報とを用いて、特許分類コード情報を検索する。例えば、キーワード情報および関連キーワード情報のそれぞれを検索キーとして用いて、技術文書対応情報記憶部101に格納されている技術文書対応情報の中から、当該検索キーに一致する文字列を含む技術文書情報を検索し、検索によりヒットした文字列を含む技術文書情報に対応付けられた特許分類コード情報を検出する。なお、ここで述べる一致は、部分一致としても完全一致としても良い。また、複数の検索キーをAND条件として検索を行うようにしても良いし、OR条件として検索を行うようにしても良い。あるいは、除外するキーワード情報がある場合、当該除外するキーワード情報を含む技術文書情報を除外した検索を行うようにしても良い。また、複数のキーワード情報がある場合には、これらをどのように組み合わせるか等は予め指定しておくようにすればよい。なお、当該ステップS204による検索の際に除外したいキーワード情報を取得できるようにするために、ステップS201において、ユーザ等が除外したい技術を含む技術文書情報を受け付けるようにし、ステップS202やステップS203において、当該技術文書情報から除外したいキーワード情報や関連キーワード情報を取得できるようにしても良い。そして、このようにして取得された除外したいキーワード情報等を、当該ステップS204による検索において例えばNOT検索等に用いるようにしても良い。検索結果として得られる特許分類コード情報等は、例えば図示しない記憶媒体等に一時記憶される。
(ステップS205)第一の特許分類コード情報選択部108は、ステップS204において検出された特許分類コード情報から、出現回数に応じて第一の選択済特許分類コード情報を選択する。具体的には、第一の特許分類コード情報選択部108は、ステップS204において検出された特許分類コード情報について、一致する特許分類コード情報が出現する回数をカウントし、当該カウント数が多い特許分類コード情報を選択する。
(ステップS206)第二の特許分類コード情報選択部110は、ステップS205において選択された特許分類コード情報である第一の選択済特許分類コード情報から、当該第一の選択済特許分類コード情報と技術分野情報との対応関係に応じて第二の選択済特許分類コード情報を選択する。例えば、第二の特許分類コード情報選択部110は、各第一の選択済特許分類コード情報を検索キーとして、技術分野対応情報を検索して、第一の選択済特許分類コード情報と一致する特許分類コード情報と対応付けられた技術分野情報を検索する。そして、検索により検出される技術分野情報が一つだけである第一の選択済特許分類コード情報を第二の選択済特許分類コード情報として選択する。
(ステップS207)特許分類コード情報正規化部111は、ステップS206において選択された特許分類コード情報である第二の選択済特許分類コード情報に対して、正規化を行い、一以上の正規化済特許分類コード情報を得る。
(ステップS208)特許検索式情報生成部104は、ステップS207において得られた一以上の正規化済特許分類コード情報と、ステップS207において正規化されなかった第二の選択済特許分類コード情報とを用いて特許検索式情報を生成する。例えば、ステップS207の処理の後に、一の正規化済特許分類コード情報または第二の選択済特許分類コード情報だけが得られた場合、当該正規化済特許分類コード情報または第二の選択済特許分類コード情報をそのまま特許検索式情報として取得しても良い。また、複数の正規化済特許分類コード情報および/または第二の選択済特許分類コード情報が取得された場合、これらを用いて、予めユーザ等により指定されているAND条件による検索、あるいはOR条件等による検索を行うための特許検索式情報を生成するようにしても良い。
(ステップS209)特許分類コード説明情報検索部113は、ステップS207において生成された特許検索式情報に含まれている一以上の特許分類コード情報に対応した特許分類コード説明情報を検索により取得する。例えば、特許分類コード対応情報記憶部112に格納されている特許分類コード対応情報の中から、特許検索式情報に含まれている一以上の特許分類コード情報とそれぞれ一致する特許分類コード情報を検索し、検索によりヒットした特許分類コード情報に対応付けられた特許分類コード説明情報を取得する。なお、ここでの一致は、完全一致としても部分一致としても良い。
(ステップS210)特許検索式情報出力部105は、ステップS208で生成した特許検索式情報と、ステップS209で検索した特許分類コード説明情報を出力する。なお、特許検索式情報出力部105は、特許検索式情報に含まれる特許分類コード情報と、当該特許分類コード情報についての特許分類コード説明情報との対応関係が分かるように出力を行うことが好ましい。例えば、特許検索式情報が示す検索式に加えて、特許検索式情報に含まれている特許分類コード情報と、当該特許分類コード情報に対応した特許分類コード情報とを並べて表示するようにしても良い。そして、処理を終了する。
なお、特許検索式情報生成部104が生成した特許検索式情報を、ステップS210において、特許検索式情報出力部105が検索サイトや検索用のデータベース等に送信して、検索サイト等に検索を実行させるようにし、その検索結果として得られる技術文書情報を、技術文書情報受付部106が、新たなキーワード抽出用技術文書情報として受信するようにし、上記と同様の特許検索式情報を生成する処理が、所定回数、あるいはユーザが処理終了を指示するまで、再度繰り返し行われるようにしても良い。即ち、特許検索式情報出力部105が行う出力を、特許検索式情報を検索サイト等に送信する処理等と考えても良い。なお、特許検索式情報を用いて技術文書情報、具体的には特許を検索サイト等から取得する処理に付いては公知技術であるのでここでは説明を省略する。
次に、情報処理装置1の具体例について説明する。
技術文書対応情報記憶部101には、技術文書対応情報である複数の特許公報のテキストデータが記憶されている。技術文書対応情報によって特許分類コード情報と対応付けられて管理されている技術文書情報は、ここでは、各特許公報のうちの「特許請求の範囲」という項目の情報、および「発明の詳細な説明」の項目の情報であるとする。また、技術文書情報に対応付けられている特許分類コード情報は、ここではIPCであるとする。
図3は、技術文書対応情報記憶部101に記憶されている技術文書対応情報である特許公報の模式図を示す図である。特許公報における技術文書情報が記載されている領域は、例えば、図3に示すように、領域31であるとする。また、特許分類コード情報が記載されている領域は、領域32であるとする。なお、ここでは、特許分類コード情報および特許文書情報は、技術文書対応情報である特許公報に含まれているため、特許分類コード情報や技術文書情報の数等の代わりに、特許公報の数等を用いるようにしても良い。また、特許分類コード情報に対応付けられた特許文書情報を、適宜、特許分類コード情報に対応付けられた特許公報と考えるようにしても良い。
まず、ユーザが、検索を行いたいと思う技術に関連すると判断した複数の特許公報のテキストデータを用意し、情報処理装置1に入力したとする。例えば複数の特許公報は、「カーナビゲーションシステム」の技術に関するものであったとする。技術文書情報受付部106は、入力された複数の特許公報を受け付ける。この複数の特許公報が、キーワード抽出用技術文書情報である。
キーワード情報取得部102は、受け付けた複数の特許公報を用いてキーワード情報を取得する処理を行う。まず、複数の特許公報のテキストデータをマージして一の特許公報のテキストデータを生成する。次に、この特許公報に対して「Mecab」や「ChaSen」等を用いて形態素解析を行い、特許公報を構成する文字列を、単語に分割する。また、各単語の品詞の情報も取得する。
次に、キーワード情報取得部102は、分割した単語のうちの、品詞が名詞である単語のそれぞれについて、tf−idfの値を算出する。ここで述べる名詞は、単名詞であっても複合名詞であっても良い。具体的には、分割した単語から、品詞が名詞である一の単語を取り出し、当該単語の、マージした特許公報のテキストデータ内における出現頻度を算出する。また、技術文書対応情報記憶部101に記憶されている複数の特許公報における、「特許請求の範囲」の項目および「発明の詳細な説明」の項目の情報に、当該一の単語と一致する単語が含まれる特許公報が出現する頻度を算出する。そして、マージした特許公報内の一の単語の出現頻度をtf、当該一の単語を含む他の特許公報の出現頻度をdfとして、例えばtf=1/dfの式に代入することにより、tf−idfの値を算出する。そして、このtf−idfの値を算出する処理を、マージした特許公報から分割した、品詞が名詞である残りの単語についても繰り返す。
例えば、上述した一の単語が「全地球測位システム」であったとすると、キーワード情報取得部102は、マージした特許公報内に含まれる全ての単語数と、マージした特許公報内に含まれる「全地球測位システム」という単語の出現回数とをカウントし、「全地球測位システム」の出現回数を、マージした特許公報内に含まれる全ての単語数で除算することで、「全地球測位システム」という単語のマージした特許公報内における出現頻度を算出する。また、技術文書対応情報記憶部101に記憶されている複数の特許公報において、「特許請求の範囲」の項目および「発明の詳細な説明」の項目内に、「全地球測位システム」という単語が含まれる特許公報数をカウントする。そして、このカウント数を、技術文書対応情報記憶部101に記憶されている全ての特許公報数で除算することで、マージした特許公報以外の特許公報における「全地球測位システム」という単語が含まれる特許公報の出現頻度を取得する。そして、マージした特許公報内の[全地球測位システム」という単語の出現頻度をtf、「全地球測位システム」という単語が含まれる特許公報の出現頻度をdfとして、tf−idfの値を算出する。そして、「全地球測位システム」以外の単語についても同様の処理を繰り返し行う。
キーワード情報取得部102は、マージした特許公報から分割した、品詞が名詞である全ての単語についてtf−idfの値の算出が終了した時点で、この算出したtf−idfの値を用いて、キーワード情報を取得する。ここでは、例として、キーワード情報取得部102は、算出したtf−idfの値が予めユーザが設定したしきい値以上のものを、キーワード情報として取得する。ここで取得されたキーワード情報は、例えば、図4に示すように、「GPS受信機」や、「バージョン情報」、「差分要求」等であったとする。
次に、関連キーワード情報検索部107は、キーワード情報取得部102が取得したキーワード情報について、関連キーワード情報を取得する。例えば、技術文書対応情報記憶部101に記憶されている複数の特許公報のそれぞれにおいて、「例えば」や「具体的には」等の、上位語の例示を行うための文字列と、その直後に配置されたキーワード情報との組合せを用いた検索を行う。そして、ヒットした文字列が検出された場合、当該文字列の直前の名詞を上位語である関連キーワード情報として取得する。
例えば、技術文書対応情報記憶部101に記憶されている一の特許公報内に、「測位装置とは、例えばGPS受信機である」という文が含まれていた場合、「例えば」という文字列の直後に、「GPS受信機」というキーワード情報が検出されるため、この「例えば」の直後の名詞である「測位装置」が、「GPS受信機」の上位語である関連キーワード情報として取得する。
このような処理により、取得された関連キーワード情報は、図5に示すように、「測位装置」、「現在位置検出装置」、「管理情報」、「ハードウェア構成」等であったとする。
特許分類コード情報検索部103は、図4に示したキーワード情報および図5に示した関連キーワード情報のそれぞれを検索キーとして、技術文書対応情報記憶部101に記憶されている特許公報の中から、技術文書情報である「特許請求の範囲」の項目または「発明の詳細な説明」の項目のいずれかに、当該検索キーと一致する文字列を含むものを検索する。そして、検索にヒットした特許公報のIPCの値である特許分類コード情報をそれぞれ検出する。
特許分類コード情報検索部103による検索の結果、各特許公報から検出された特許分類コード情報は、図6に示すように、「B64C 13/20」、「G01C 21/04」、「G01S 1/02」等であったとする。なお、図6は、キーワード情報または関連キーワード情報を含む特許公報と、当該特許公報において検出された特許分類コード情報とを示している図であり、「公開番号」は、特許公報の公開番号である。ただし、特許公報を識別可能であれば、他の番号等を用いても良い。
次に、第一の特許分類コード情報選択部108は、一の特許分類コード情報に対応付けられた技術文書情報の、全ての技術文書情報に対する出現回数を算出する。なお、ここでは、各特許文書情報は、技術文書対応情報である特許公報に含まれているため、一の特許分類コード情報に対応付けられた特許公報の、技術文書対応情報記憶部101に記憶されている全ての特許公報に対する出現回数を算出する。そして、その回数が予めユーザ等により指定されているしきい値以上のものを、第一の特許分類コード情報として選択する。例えば、第一の特許分類コード情報選択部108が算出した、各特許分類コード情報と、当該特許分類コード情報と対応付けられた技術文書情報の出現回数との関係が、図7に示すような関係であったとする。図7において、「出現回数」は、特許分類コード情報と対応付けられた出現回数であるとする。そして、予め指定された出現頻度のしきい値が「53」であったとすると、第一の特許分類コード情報選択部108は、「出現頻度」の値が「53」以上の特許分類コード情報を第一の特許分類コード情報として選択する。例えば、「G08G 1/137」や「H04L 12/22」を除いた特許分類コード情報を選択する。なお、ここでは、出現回数を算出したが、出現頻度を算出しても良い。この場合、しきい値は出現頻度の値とする。
図8は、技術分野対応情報記憶部109に記憶されている技術分野対応情報の一例を示す図である。技術分野対応情報は、「特許分類コード」と「技術分野」という項目を有している。「特許分類コード」は特許分類コード情報である。「技術分野」は技術分野情報である。同じレコードを構成する「特許分類コード」および「技術分野」は、対応付けられた特許分類コード情報および技術分野情報を示している。
第二の特許分類コード情報選択部110は、第一の特許分類コード情報選択部108が選択した各第一の特許分類コード情報を検索キーとして用いて、図8に示した技術分野対応情報の検索を行い、検索キーと一致する「特許分類コード」を有するレコードが一以下である特許分類コード情報を、第二の特許分類コード情報として選択する。
例えば、第一の特許分類コード情報「G08G 1/0967」と一致する「特許分類コード」を有するレコードとしては、「技術分野」が「高速道路情報通知システム」であるレコード一つのみが検出されるため、第二の特許分類コード情報選択部110は、この第一特許分類コード情報を、第二の特許分類コード情報として選択する。
これに対し、例えば、仮に、第一の特許分類コード情報として「G08G 1/137」が選択されていたとすると、第一の特許分類コード情報「G08G 1/137」と一致する「特許分類コード」を有するレコードとしては、「技術分野」が「カーナビゲーションシステム」であるレコードと、「電子ロードマップ」との二つが検出される。この第一特許分類コード情報は、一の特許分類コード情報に対応する特許分類情報が一以下ではないため、第二の特許分類コード情報選択部110は、当該第一の特許分類コード情報を、第二の特許分類コード情報として選択されない。
上記の処理の結果、選択された第二の特許分類コード情報を、図9に示す。
次に、特許分類コード情報正規化部111は、図9に示した第二の特許分類コード情報を正規化する処理を行う。ここでは、例えば、「/」よりも前方の文字列が一致する複数の第二の特許分類コード情報を検索し、複数の第二の特許分類コード情報が検出された場合に、当該複数の第二の特許分類コード情報の代わりに、当該複数の第二の特許分類コード情報のいずれか一方の「/」以降を削除して構成した正規化済特許分類コード情報を取得する。
例えば、特許分類コード情報正規化部111は、「G08G 1/0965」という第二の特許分類コード情報の「/」より前の文字列「G08G 1」を読み出す。そして、この文字列と完全一致する文字列を「/」より前の文字列として有する第二の特許分類コード情報を検索により検出する。ここでは、例えば「G08G 1/0968」および「G08G 1/133」が検出される。完全一致する文字列を有する第二の特許分類コード情報が一以上検出された場合、「G08G 1/0965」の文字列の「/」以降の文字列を削除して正規化済特許分類コード情報「G08G 1/」を生成する。また、正規化の対象となった「/」より前の文字列が「G08G 1」である複数の第二の特許分類コード情報は削除する。このような処理を、第二の特許分類コード情報選択部110が選択した各第二の特許分類コード情報について行う。なお、正規化されたことによって既に削除された第二の特許分類コード情報については、正規化処理は行わないようにしても良い。なお、この正規化済特許分類コード情報「G08G 1/」は、「G08G 1/」に前方一致する特許分類コード情報の集合を示す。
一方、「G01C 21/04」等については、「G01C 21」に前方一致する第二の特許分類コード情報が一以上検出されないため、この第二の特許分類コード情報は正規化されない。
このような正規化処理を行った結果取得された正規化済特許分類コード情報を、図10に示す。なお、図10に示した正規化済特許分類コード情報においては、正規化処理の結果、正規化が行われなかった特許分類コード情報も含んでいるものとする。
次に、特許検索式情報生成部104は、図10に示した複数の正規化済特許分類コード情報を用いて、特許検索式情報を生成する。ここでは、例として、図10に示した複数の正規化済特許分類コード情報をAND条件とした検索を行うための特許検索式を生成する。具体的には、複数の正規化済特許分類コード情報の全てを、AND条件による検索を行うことを指定する演算子「*」でつないだ検索式を作成する。例えば、作成される特許検索式は、「G01C 21/04*G01S 1/02*G01S 5/08*G08G 1/」である。
図11は、特許分類コード対応情報の一例を示す図である。ここでは、特許分類コード対応情報は、「特許分類コード」と、「説明情報」という項目を有している。「特許分類コード」は、特許分類コード情報である。「説明情報」は、特許分類コード説明情報であり、ここでは、例えば、日本国特許庁が公開している国際特許分類表から取得した、各IPCコードについての定義や例等の文であるとする。なお、特許分類コード対応情報は、国際特許分類表等から自動で生成しても良いし、ユーザが手入力等により生成しても良い。なお、国際特許分類表等の全体あるいは一部をそのまま特許分類コード対応情報として使用して、検索キーとなる正規化済特許分類コード情報に対応した特許分類コード説明情報を取得しても良い。
特許分類コード説明情報検索部113は、特許検索式情報生成部104が、検索式において利用した複数の正規化済特許分類コード情報をそれぞれ検索キーとして用いて、特許分類コード対応情報記憶部112に記憶されている特許分分類コード対応情報によって各正規化済特許分類コード情報に対応付けられている特許分類コード説明情報を検索する。具体的には、図11に示した特許分類コード対応情報において、検索キーと完全一致する「特許分類コード」を検出し、当該検出された「特許分類コード」と同じレコードの「説明情報」を検出する。なお、正規化された特許分類コード情報、例えば「G08G 1/」等については、どのように検索を行っても良く、例えば、この正規化された特許分類コード情報の「/」以降に「00」を配置した「G08G 1/00」という特許分類コード情報を用いて検索を行っても良い。また、正規化された特許分類コード情報に前方一致する特許分類コード情報であって、最も上位の階層の特許分類コード情報を検索結果として検出し、当該特許分類コード情報に対応した特許分類コード説明情報を検出しても良い。
特許検索式情報出力部105は、特許検索式情報生成部104が生成した特許検索式を、図示しないモニタ等に表示する。また、特許分類コード説明情報検索部113が検索した特許分類コード説明情報を、特許検索式に用いられている正規化された特許分類コード情報を含まれる特許分類コード情報との対応関係が視覚的に認識できるように、図示しないもモニタ等に表示する。例えば、特許検索式内の特許分類コード情報と、対応する特許分類コード説明情報とを、例えば実線や点線等で結んで表示しても良い。また、特許検索式内に含まれている特許分類コード情報と、対応する特許分類コード説明情報とのリストを表示しても良い。
図12は、特許検索式情報出力部105による特許検索式の表示例を示す図である。
なお、上記具体例においては、特許分類コード説明情報検索部113が特許分類コード情報のみにより構成される特許検索式を生成する場合について説明したが、特許検索式情報生成部104が、キーワード情報取得部102が取得したキーワード情報と関連キーワード情報検索部107が検索した関連キーワード情報の少なくとも一方を取得し、当該取得したキーワード情報および/または関連キーワード情報の少なくとも一以上と、上述したように当該キーワード情報や関連キーワード情報を用いて取得した、第一の特許分類コード情報や第二の特許分類コード情報や正規化済特許分類コード情報等の特許分類コード情報とを用いて、これらを含む特許検索式を生成するようにしても良い。例えばキーワード情報取得部102が取得した「GPS受信機」というキーワード情報を、上述したような特許検索式にAND条件として付与することで、「"GPS受信機"*G01C 21/04*G01S 1/02*G01S 5/08*G08G 1/」という特許検索式を生成するようにしても良い。
なお、本実施の形態においては、キーワード情報と関連キーワード情報と特許分類コード情報とをどのような条件となるように組み合わせて特許検索式を作成しても良い。これらの情報の組合せのルールについて一例を示すと、例えば、キーワード情報と、当該キーワード情報を用いて取得された関連キーワード情報、即ち当該キーワード情報に関連する関連キーワード情報とを組み合わせる場合には、これらの情報をOR条件となるように組み合わせたキーワード情報群を有する検索式を作成する。また、特許分類コード情報とキーワード情報(または関連キーワード情報)またはキーワード情報群とを組み合わせる場合には、これらの情報をAND条件となるように組み合わせて検索式を作成する。また、複数のキーワード情報が存在する場合、キーワード情報同士(あるいはキーワード情報群)同士が関連性の高いキーワードを示す場合には、AND条件として組合せ、相互に関連性の低いキーワードを示す場合には、OR条件として組み合わせる。また、OR条件として組み合わせる場合、組み合わされるキーワード情報群同士が最初に演算されるように「{}」等でくくるようにする。ただし、関連性に関係なく、AND条件、またはOR条件の予め指定されたいずれか一方で組み合わせて検索式を作成しても良い。
例えば、Aというキーワード情報と、Bというキーワード情報とが、キーワード情報取得部102で取得され、Aというキーワードに関連する関連キーワード情報としてa,a,aという関連キーワード情報が関連キーワード情報検索部107で検出され、Bというキーワードに関連する関連キーワード情報としてb,b,bという関連キーワード情報が関連キーワード情報検索部107で検出されたとする。また、これらのキーワード情報や関連キーワード情報等を用いてCという特許分類コード情報が取得されたとする。この場合、AとBとが関連性の高いキーワード情報であった場合、上記のようなルールに沿って作成される検索式は、例えば、「(A+a,a,a)*(B+b,b,b)*C」となる。また、AとBとが関連性の低いキーワード情報であった場合、上記のようなルールに沿って作成される検索式は、例えば、「{(A+a,a,a)+(B+b,b,b)}*C」となる。なお、「+」は、OR条件として検索を行うことを指定する演算子であるとする。
なお、複数のキーワード情報同士の関連性については、例えば、複数のキーワード情報のうちの一のキーワード情報に関連するキーワード情報として、複数のキーワード情報のうちの他のキーワード情報が検出されるか否か等を、関連キーワード情報検索部107を用いて検索し、検索された場合に関連すると判断し、検索されなかった場合に関連しないと判断したりすること等で判断可能である。また、予め、関連するキーワード情報であるか否かについての情報をユーザ等から受け付けるようにしてもよい。
以上、本実施の形態によれば、検索したい技術内容に応じた特許分類コード情報を含む適切な検索式を、容易に作成することが可能となる。
(実施の形態2)
上述した実施の形態の情報処理装置において、本実施の形態の情報処理装置は、技術文書情報受付部106が、特許分類コード情報を含む技術文書情報を受け付けるようにし、当該技術文書情報から抽出したキーワード情報と特許分類コード情報とを用いて特許検索式を生成するようにしたのである。
図13は、本実施の形態における情報処理装置2のブロック図である。
情報処理装置2は、技術文書情報受付部201、キーワード情報取得部202、特許検索式情報生成部203、特許検索式情報出力部105、第一の特許分類コード情報選択部108、技術分野対応情報記憶部109、第二の特許分類コード情報選択部110、および特許分類コード情報正規化部111を備えている。
特許検索式情報出力部105、技術分野対応情報記憶部109、特許分類コード対応情報記憶部112、および特許分類コード説明情報検索部113については、上述した実施の形態1と同様であるので説明は省略する。
第一の特許分類コード情報選択部108は、キーワード情報取得部202が取得した特許分類コード情報の中から、第一の選択済特許分類コード情報を選択する点を除けば、上記実施の形態1の第一の特許分類コード情報選択部108と同様のものであり、ここでは説明を省略する。
第二の特許分類コード情報選択部110は、キーワード情報取得部202が取得した特許分類コード情報の中から、第二の選択済特許分類コード情報を選択する点を除けば、上記実施の形態1の第二の特許分類コード情報選択部110と同様のものであり、ここでは説明を省略する。
特許分類コード情報正規化部111は、キーワード情報取得部202が取得した特許分類コード情報を用いて、正規化済特許分類コード情報を生成する点を除けば、上記実施の形態1の特許分類コード情報正規化部111と同様のものであり、ここでは説明を省略する。
技術文書情報受付部201は、特許の分類を示すコードの情報である特許分類コード情報を含む情報であって、技術的な文書を示す情報であるキーワード抽出用技術文書情報を受け付ける。技術的な文書を示す情報であるキーワード抽出用技術文書情報は、例えば特許公報や、特許公報等を引用している文献や技術報告書等である。なお、技術文書情報受付部201は、特許分類コード情報を含むキーワード抽出用技術文書情報を受け付ける点を除けば、上記実施の形態1と同様であるので詳細な説明は省略する。
キーワード情報取得部202は、技術文書情報受付部201が受け付けたキーワード抽出用技術文書情報からキーワードを示す情報であるキーワード情報と、特許分類コード情報とを抽出する。キーワード情報を抽出するための構成やその方法等については、叙述したキーワード情報取得部102と同様であるので、ここでは説明を省略する。キーワード情報取得部202がキーワード抽出用技術文書情報から特許分類コード情報をどのように取得するかは問わない。例えば特許公報等のように、IPCコードやFターム等の特許分類コード情報の記載されている領域が予め分かっている場合や、これらの特許分類コード情報に特定のタグ等が付与されている場合、これらの領域やタグ等を手がかりとして、特許分類コード情報を取得するようにしても良い。また、特許分類コード情報のコード体系や、文字列の配列のルール等を利用して、特許分類コード情報を検索してもよい。例えば、IPCコードの場合、「英字一文字、数字二文字、英字一文字、スペース、一又は二文字の数字、/、一文字以上の数字」等の文字配列のルールを有しているため、この文字配列のルールを利用して、当該ルールに一致する文字列を、IPCコードとして検索しても良い。キーワード情報取得部202は、通常、MPUやメモリ等から実現され得る。キーワード情報取得部202の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
特許検索式情報生成部203は、キーワード情報取得部202が抽出したキーワード情報と、キーワード情報取得部202が抽出した特許分類コード情報と、の少なくとも一部を含む情報であって、特許公報を検索するための検索式を示す情報である特許検索式情報を生成する。特許検索式情報生成部203は、キーワード情報取得部202が取得したキーワード情報と、特許分類コード情報の少なくとも一部とを含む特許検索式情報を生成する点を除けば、上記実施の形態1において説明した特許検索式情報生成部104と同様のものであるのでここでは説明を省略する。なお、ここで述べるキーワード情報取得部202が取得した特許分類コード情報は、当該特許分類コード情報から選択された第一や第二の選択済特許分類コード情報や、当該特許分類コード情報を正規化することで得られた正規化済特許分類コード情報も含むと考えて良い。特許検索式情報生成部203は、通常、MPUやメモリ等から実現され得る。特許検索式情報生成部203の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、情報処理装置2の動作について図14のフローチャートを用いて説明する。なお、図において、図2と同一符号は、同一または相当する処理を行うステップであるので、ここでは詳細な説明は省略する。
(ステップS1401)情報処理装置1は、技術文書情報受付部201が、特許分類コード情報を有する一以上のキーワード抽出用技術文書情報を受け付けたか否かを判断する。受け付けた場合、ステップS202に進み、受け付けていない場合、ステップS1401に戻る。
(ステップS1402)キーワード情報取得部202は、ステップS1401において受け付けた一以上のキーワード抽出用技術文書情報から、特許分類コード情報を抽出する。例えば、キーワード抽出用技術文書情報内の特許分類コード情報が記載される領域として予め指定されている領域等に配置されている情報を、特許分類コード情報として取得する。また、特許分類コード情報を示すタグが付与されている情報を、特許分類コード情報として取得しても良い。
(ステップS1403)特許検索式情報生成部203は、ステップS202において取得したキーワード情報と、ステップS207において得られた一以上の正規化済特許分類コード情報と、ステップS207において正規化されなかった第二の選択済特許分類コード情報とを用いて特許検索式情報を生成する。例えば、キーワード情報と特許分類コード情報とをAND条件として検索するための特許検索式情報等を生成する。
なお、特許検索式情報生成部203が生成した特許検索式情報を、ステップS210において、特許検索式情報出力部105が検索サイトや検索用のデータベース等に送信して、検索サイト等に検索を実行させるようにし、その検索結果として得られる特許分類コード情報を含む技術文書情報を、技術文書情報受付部201が、新たなキーワード抽出用技術文書情報として受信するようにし、上記と同様の特許検索式情報を生成する処理が、所定回数、あるいはユーザが処理終了を指示するまで、再度繰り返し行われるようにしても良い。
以下、本実施の形態における情報処理装置2の具体的な動作について説明する。
技術文書情報受付部201は、ユーザ等により入力される一特許分類コード情報を含む一以上の技術文書情報を受け付ける。技術文書情報受付部201が受け付ける各技術文書情報は、例えば、図3に示したような特許公報であるとする。
キーワード情報取得部202は、上記実施の形態1において説明したキーワード情報取得部102と同様に、技術文書情報受付部201が受け付けた一以上の技術文書情報からキーワード情報を取得する。例えば、図3に示した特許公報の領域31から、キーワード情報を取得する。
キーワード情報取得部202は、技術文書情報受付部201が受け付けた一以上の技術文書情報から特許分類コード情報を取得する。例えば、図3に示した特許公報の特許分類コード情報が記載されている領域32から、特許分類コード情報を読み出す。
その後の特許分類コードを出現回数等に応じて選択したり、正規化したりし、キーワード情報と特許分類コード情報を含む特許検索式情報を生成する処理等については、上記実施の形態1と同様であるので、ここでは説明を省略する。
以上、本実施の形態によれば、検索したい技術内容に応じた適切な特許分類コードを含む検索式を、容易に作成することが可能となる。また、ユーザ等が入力した技術文書情報を用いて特許検索式を生成するため、予め特許分類コード情報を取得するために技術文書対応情報等を用意する必要がないため、技術文書対応情報等を用意する手間や、技術文書対応情報等を用いて特許分類コード情報を取得するための構成が簡略化され、処理等を容易にでき、かつ処理の高速化を図ることができる。
(実施の形態3)
本実施の形態の情報処理装置3は、上記実施の形態1において説明した情報処理装置において、技術文書対応情報から、検索キーを用いて、特許分類コード情報を取得する代わりに、技術文書対応情報から、技術文書情報別に取得された特許分類コード情報と用語とを対応付けた情報を用いて、特許分類コード情報を取得するようにしたものである。
図15は、本実施の形態における情報処理装置3のブロック図である。
情報処理装置3は、技術文書対応情報記憶部301、キーワード情報取得部302、特許分類コード情報検索部303、特許検索式情報生成部304、特許検索式情報出力部305、関連キーワード情報検索部307、第一の特許分類コード情報選択部308、技術分野対応情報記憶部309、第二の特許分類コード情報選択部310、特許分類コード情報正規化部311、特許分類コード対応情報記憶部312、特許分類コード説明情報検索部313、用語記憶部315、および用語コード取得部316を備えている。
技術文書対応情報記憶部301、キーワード情報取得部302、特許検索式情報生成部304、特許検索式情報出力部305、関連キーワード情報検索部307、技術分野対応情報記憶部309、第二の特許分類コード情報選択部310、特許分類コード情報正規化部311、特許分類コード対応情報記憶部312、および特許分類コード説明情報検索部313の構成や動作等の詳細については、それぞれ、上記実施の形態1の、技術文書対応情報記憶部101、キーワード情報取得部102、特許検索式情報生成部104、特許検索式情報出力部105、関連キーワード情報検索部107、技術分野対応情報記憶部109、第二の特許分類コード情報選択部110、特許分類コード情報正規化部111、特許分類コード対応情報記憶部112、および特許分類コード説明情報検索部113と同様であるので、ここでは、詳細な説明は省略する。
なお、ここでは、キーワード情報取得部302は、キーボード等の入力デバイス等を介してユーザ等から受け付けた1以上のキーワード情報を取得する場合を例に挙げて説明する。但し、上記実施の形態1と同様に、技術文書情報受付部106等が受け付けた技術文書情報からキーワード情報を取得しても良い。
用語記憶部315には、技術的な文書を示す情報である技術文書情報に含まれる1以上の用語と、当該技術文書情報についての特許の分類を示すコードの情報である1以上の特許分類コード情報とが、前記技術文書情報ごとに対応付けて記憶され得る。技術文書情報は、上記実施の形態1において説明した技術文書情報と同様である。技術文書情報に含まれる用語とは、技術文書情報に含まれる1以上の文字列により構成される情報、例えば、単語である。用語は、例えば、上述したキーワード情報となり得る文字列、もしくはキーワード情報の一部となり得る文字列、あるいはキーワード情報となる文字列を含む文字列である。用語は、例えば、「MPEG」や「ボルト」、「ナット」、「加熱コイル」などの技術タームなどである。また、用語は、技術文書情報に含まれる、単語等の文字列であり、例えば専門用語である。用語は、いわゆる形態素解析で取得可能な単語の1以上の組合せと考えても良い。
用語と特許分類コード情報とが、技術文書情報ごとに対応付けられるということは、例えば、1以上の技術文書情報に含まれる各技術文書情報に含まれる用語と、この技術文書情報についての特許分類コード情報とが、それぞれ技術文書情報別に対応付けられていることである。技術文書情報ごとに対応付けられるということは、対応する技術文書情報との対応関係が分かるか否かを問わないことを指す。ここで述べる用語と技術文書情報との対応付けは、直接的に対応付けられていても、間接的に対応付けられていても良い。用語と特許分類コード情報とが、技術文書情報ごとに対応付けられるということは、例えば、1以上の技術文書情報に含まれる各技術文書情報と、この技術文書情報に含まれる用語と、この技術文書情報についての特許分類コード情報とが対応付けられていることである。また、例えば、技術文書情報が、この技術文書情報内に含まれる1以上の用語群と対応付けられ、さらに、技術文書情報が、この技術文書情報についての1以上の特許分類コード情報群と対応付けられていても良い。用語および特許分類コード情報が、技術文書情報と対応付けられるとは、例えば、用語および特許分類コード情報が、技術文書情報を識別する情報、例えば技術文書情報に割り当てられたIDや、技術文書情報の名前等と、対応付けられることである。技術文書情報に割り当てられた識別情報は、技術文書情報に一定のルールや無作為等により割り当てられたIDであっても良いし、技術文書情報が特許公報等であれば、公開番号や出願番号等であってもよい。あるいは、技術文書情報のファイル名等であっても良い。用語と特許分類コード情報とが、技術文書情報毎に対応付けられているということは、例えば、一の技術文書情報に含まれる一の用語と一の特許分類コード情報が、データベースの一のレコードの複数のフィールドの値として管理されることと考えても良い。あるいは、技術文書情報と、この技術文書情報に含まれる用語とを対応付ける管理情報と、技術文書情報と、この技術文書情報に含まれる特許分類コード情報とを対応付ける管理情報との組み合わせにより、リレーショナルデータベース等で、用語と特許分類コード情報とを、技術文書情報毎に管理されても良い。なお、一の技術文書情報に対応付けられた用語や特許分類コードについては、重複する値は削除されていることが好ましい。なお、用語記憶部315は、物理的に複数の記憶媒体等で構成されていても良い。
なお、用語記憶部315には、技術文書情報に含まれる上述したような1以上の用語と、当該用語の当該技術文書情報内における出現頻度を示す情報である出現頻度情報と、当該技術文書情報についての上述したような1以上の特許分類コード情報とが、技術文書情報ごとに対応付けて記憶され得るようにしてもよい。出現頻度情報は、用語の出現頻度を表すことが可能な情報であれば、出現頻度を示す値であっても良いし、出現頻度の高低等を示す文字列の情報等であっても良い。出現頻度情報は、例えば、一の用語が一の技術文書情報内に出現する回数を、当該技術文書情報内に含まれる用語の数、当該技術文書情報内に含まれる形態素の数で除算して得られた値、または当該技術文書情報内に含まれる文字数で除算して得られた値を示す情報である。形態素の数は、技術文書情報を形態素解析することで取得可能である。用語の数は、用語記憶部315に記憶される各用語と一致する用語の数をそれぞれカウントすることで取得可能である。なお、出現頻度情報は、除算して得られた値を、適宜パーセント表示にしたり、除算して得られた値を、パーセントで表したり、標準化等の統計処理したりして得られた値であっても良い。また、除算して得られた値を、1以上のしきい値を用いて分別することで、出現頻度が「高い」、「低い」等の文字列の出現頻度情報に変換しても良い。また、出現頻度情報は、出現回数を示す情報であってもよい。なお、用語記憶部315に記憶される出現頻度情報は、例えば、用語コード取得部316が取得するようにすればよい。例えば、用語コード取得部316が、上記と同様に1以上の用語を取得後、各用語に一致する用語の数を、用語を取得した技術文書情報内において検索を行う、もしくは用語を取得する際に取得された重複する用語の数をカウントすること等で取得する。さらに、技術文書情報内に含まれる用語の数、形態素の数、または文字数等のいずれかを取得する。そして、取得した技術文書情報内の用語の数等で、各用語に一致する用語の数を除算する、もしくは除算した値を分別すること等により出現頻度情報を取得するようにすればよい。
用語記憶部315に、用語および特許分類コード情報が、これらを含む技術文書情報と対応付けられて記憶される過程等は問わない、用語記憶部315には、用語および特許分類コード情報が、これらを含む技術文書情報と対応付けられて予め記憶されていてもよい。本実施の形態においては、後述する用語コード取得部316が取得した用語および特許分類コード情報が、これらを含む技術文書情報と対応付けられて蓄積される場合を例に挙げて説明する。用語記憶部315は、揮発性または不揮発性の記憶媒体等により実現可能である。
用語コード取得部316は、技術文書対応情報記憶部301に格納されている複数の技術文書情報から、各技術文書情報別に、1以上の用語と1以上の特許分類コード情報とを取得する。そして、取得した1以上の用語(言い換えれば用語群)と1以上の特許分類コード情報(言い換えれば特許分類コード情報群)とを、各技術文書情報ごとに対応付けて蓄積する。用語コード取得部316が、各技術文書情報から1以上の用語と1以上の特許分類コード情報とをどのように取得するかは問わない。例えば、上述したキーワード情報取得部302がキーワード情報を抽出する処理と同様の処理や、その一部の処理を用いて用語を取得してもよい。
具体例を挙げると、用語コード取得部316は、まず、技術文書対応情報記憶部301に格納されている一の技術文書情報に対して、いわゆる形態素解析等を行って、技術文書情報に含まれる文字列を意味のある単語に区切り、予め用意された辞書等を利用して単語の品詞や品詞を更に細分類した属性等を判別する。なお、品詞を細分類した属性も品詞の一つと考えても良い。形態素解析のシステムとしては、例えば、上述した「Mecab」等が利用可能である。
そして、形態素解析の結果により得られた単語で区切られた技術文書情報に含まれる文字列のうちの、予め指定された品詞等の単語が1以上連続する箇所を順次検出し、この箇所に含まれる単語のうちの、連続した1以上の単語の組み合わせを、用語として取得していく。あるいは組合せを取得する代わりに、検出された連続する単語全体を用語として取得してもよい。予め指定された品詞等とは、例えば、名詞、形容詞、接頭詞、アルファベット等である。例えば、「するA情報出力部と」という文字列を有する一の技術文書情報を形態素解析したことにより、この文字列が、「する」、「A」、「情報」、「出力」、「部」、「と」という単語に区切られたとし、「A」、「情報」、「出力」、「部」がそれぞれ上記の指定された品詞のいずれか一つであり、「する」と「と」が上記の予め指定された品詞でないと判断されたとする。この場合、用語コード取得部316は、形態素解析した技術文書情報から、「A」、「情報」、「出力」、「部」という予め指定された品詞の単語が連続する部分を検出し、この単語から連続した1以上の単語の組合せを取得する。例えば、予め指定された品詞の単語が連続する部分の先頭の単語から順番に、単語を追加しながら、「A」と「A情報」と、「A情報出力」と「A情報出力部」という単語の組合せを取得する。このようにして用語コード取得部316が取得した単語の組合せが、技術文書情報から取得した用語である。なお、用語を取得する際には、技術文書情報全体を用いなくても良い。例えば技術文書情報内の所定の項目の情報だけを用いても良い。例えば、技術文書情報が、特許公報であれば、書類名が「特許請求の範囲」である書類や、書類名が「明細書」である書類内の「発明を実施するための形態」の項目のみから用語を取得してもよい。また、予め指定された文字列と一致する用語は除外しても良い。
そして、技術文書情報から上記の処理により全ての用語を取得した後、重複する用語を削除する。例えば、取得した用語を文字コードの順にソートして、ソートされた結果隣接することとなった用語同士で、用語の文字コードが一致するか否かを判断し、一致する場合、いずれか一方の用語を削除することで、用語の重複を削除していく。そして、削除されずに残った1以上の用語(用語群)を、一の技術文書情報のID等を対応付けて、用語記憶部315に蓄積する。なお、この削除の処理は省略可能である。
また、用語コード取得部316は、技術文書対応情報から、一の技術文書情報に対応付けられた1以上の特許分類コード情報を取得する。なお、特許公報のように、一の技術文書情報内に特許分類コード情報が配置されている場合、一の技術文書情報内において、特許分類コード情報が配置されている位置を示す予め指定された文字列を検索し、この文字列に続く文字列を用語コード情報として取得してもよい。例えば、技術文書情報が特許公報であったとすると、この特許公報内において、国際特許分類という墨付き括弧で囲まれたタグから、次の墨付き括弧が現れるまでの間の文字列を検出して切り出し、この文字列をスペース等で区切るようにし、区切った文字列において、予め指定された正規表現、例えば、[アルファベット][数字1文字」[数字1文字」[アルファベット」に一致する文字の並びを検出する。その後に続く正規表現[1文字以上の数字][/][0文字以上の数字]に一致する文字の並びの1以上を検出する。そして、検出した[アルファベット][数字1文字」[数字1文字」[アルファベット」に一致する文字の並びと、その後に続く正規表現[1文字以上の数字][/][0文字以上の数字]に一致する1以上の文字の並びをそれぞれ組合せた情報を、特許分類コード情報であるIPCコードとして取得する。そして、取得した特許分類コード情報を、一の技術文書情報のID等を対応付けて、用語記憶部315に蓄積する。
上記のように用語と特許分類コード情報とを取得する処理を、技術文書対応情報記憶部301に記憶されている他の技術文書情報についても繰り返し行って、技術文書情報と対応付けた用語と特許分類コード情報とを用語記憶部315に蓄積する。用語と特許分類コード情報とを取得する処理の順番は問わない。なお、一の技術文書情報について取得された用語と特許分類とを、それぞれ技術文書情報と対応付けて蓄積する代わりに、一の技術文書情報について取得された用語と特許分類コード情報とを、一の技術文書情報と対応付けて蓄積しても良い。あるいは、一の技術文書情報について取得された用語と特許分類コード情報とを対応付けて、一の技術文書情報から取得された用語および特許分類コード情報であることが、他の技術文書情報から取得された用語および特許分類コード情報に対して判別可能なように蓄積しても良い。例えば、各技術文書情報について取得された用語および特許分類コード情報に対して、それぞれ、技術文書情報との対応付けられていないユニークなID等を付与して蓄積しても良い。
用語コード取得部316は、形態素解析のシステム等を備えていても良いし、外部の形態素解析のシステムにアクセス可能な送受信手段等を備えていても良い。用語コード取得部316は、通常、MPUやメモリ等から実現され得る。用語コード取得部316の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
特許分類コード情報検索部303は、キーワード情報取得部302が取得したキーワード情報を検索キーとし、用語記憶部315から検索キーと一致する用語に対応付けられた特許分類コード情報を検索する。具体的には、用語記憶部315に技術文書情報ごとに対応付けて記憶されている用語について、キーワード情報取得部302が取得したキーワード情報と一致する用語を検索し、検索により検出された用語と同じ技術文書情報に対応付けられて用語記憶部315に記憶されている特許分類コード情報をそれぞれ取得する。ここで述べる一致は、完全一致であっても部分一致であっても良い。
特許分類コード情報検索部303が検索に用いるキーワード情報が複数ある場合、これらのキーワード情報をどのように組み合わせて検索を行っても良い。例えば、複数のキーワード情報を用いて、AND検索やOR検索やNOT検索等のどのような検索を行っても良い。通常はAND検索が好ましい。例えば、全ての検索キーとそれぞれ一致する1以上の用語と対応付けられた特許分類コード情報を検索しても良いし、全ての検索キーとの1以上と一致する用語と対応付けられた特許分類コード情報を検索しても良い。具体的には、「地図」と「自動車」というキーワード情報をキーワード情報取得部302が取得した場合、特許分類コード情報検索部303は、「地図」と「自動車」というキーワード情報でAND検索「地図AND自動車」を行うようにしても良いし、OR検索「地図OR自動車」を行うようにしても良い。複数のキーワード情報をどのように組み合わせて検索を行うかは、例えばデフォルトで設定されていても良いし、予めユーザ等により指定可能となるようにしても良い。なお、関連キーワード情報や、キーワード情報と関連キーワード情報との組合せについても同様である。
以下に、特許分類コード情報検索部303の処理の一例を挙げる。例えば、用語記憶部315に、一以上の技術文書情報にそれぞれ含まれる1以上の用語(用語群)と、各技術文書情報についての1以上の特許分類コード情報(特許分類コード情報群)とがそれぞれ対応付けて記憶されているとすると、特許分類コード情報検索部303は、検索キーであるキーワード情報の全て(もしくはいずれか)と一致する1以上の用語を含む用語群を検索し、検出した用語群に対応付けられた特許分類コード情報群を取得する。このとき異なる2以上の技術文書情報に対応付けられた用語群のなかに、同じ検索キーに一致する用語が含まれる場合、それぞれの技術文書情報に含まれる特許分類コード情報を両方とも取得する。なお、検索キーであるキーワード情報の全てと一致する1以上の用語を含む用語群を検索する代わりに、検索キーであるキーワード情報のいずれか一つと一致する1以上の用語を含む用語群を検索しても良い。
また、用語記憶部315に、技術文書情報と、各技術文書情報に含まれる用語(用語群)とがそれぞれ対応付けられて記憶されており、さらに、技術文書情報と、各技術文書情報に含まれる特許分類コード情報群(特許分類コード情報群)とがそれぞれ対応付けられて記憶されている場合の例を挙げると、特許分類コード情報検索部303は、検索キーであるキーワード情報の全て(もしくはいずれか)と対応付けられた技術文書情報を、技術文書情報と、各技術文書情報に含まれる用語(用語群)とを対応付けた情報から検索し、検索により取得した技術文書情報に対応する特許分類コード情報群を、技術文書情報と、各技術文書情報に含まれる特許分類コード情報群(特許分類コード情報群)とを対応付けた情報から検索する。そして、検索された特許分類コード情報群を取得する。このとき、異なる技術文書情報と対応付けられた特許分類コード情報から取得した特許分類コードについては、重複があっても削除しないようにする。なお、ここでの検索キーであるキーワード情報と、用語とが一致するか否かの判断は、完全一致としても良いし、部分一致としても良い。
また、関連キーワード情報検索部307が上述したようなキーワード情報に関連した関連キーワード情報を検索した場合、特許分類コード情報検索部303は、キーワード情報取得部302が取得したキーワード情報、または、関連キーワード情報検索部307が検索により取得した関連キーワード情報の少なくとも一方を検索キーとし、技術文書対応情報記憶部301から当該検索キーと一致する用語に対応付けられた特許分類コード情報を検索する。例えば、検索キーのうちの少なくともいずれか一つと一致する用語を検索し、一致する用語と同じ技術文書情報に対応付けられて用語記憶部315に記憶されている特許分類コード情報をそれぞれ取得する。なお、キーワード情報取得部302が取得したキーワード情報が複数ある場合、各キーワード情報を用いて取得した関連キーワード情報は、上記の検索を行う際には、取得に用いられたキーワード情報と同様に取り扱ってもよい。つまり、一のキーワード情報と、このキーワード情報を用いて取得された1以上の関連キーワード情報は、一のキーワード情報群として扱うようにしてもよい。なお、関連キーワード情報検索部307が検出した関連キーワード情報を用語の検索に利用するか否かは、ユーザ等により適宜指定できるようにしてもよい。このような指定は、例えば図示しない受付部等を設けて受け付けるようにすればよい。なお、関連キーワード情報検索部307は、上述した関連キーワード情報検索部107と同様に、一以上のWebページや技術文書情報等の文字列を含む情報から、関連キーワード情報を取得してもよいし、関連キーワード情報検索部107が予め図示しない記憶媒体等に、上位下位シソーラスや類義語辞書を記憶しておくようにし、このシソーラスや類義語辞書を用いて関連キーワード情報を取得してもよい。
なお、用語記憶部315に、上述したように技術文書情報に含まれる1以上の用語と、当該用語の当該技術文書情報内における出現頻度を示す情報である出現頻度情報と、当該技術文書情報についての上述したような1以上の特許分類コード情報とが、技術文書情報ごとに対応付けて記憶されている場合、特許分類コード情報検索部303は、用語記憶部315から、検索キーと一致する用語と対応付けられた特許分類コード情報と、出現頻度情報との組みを検索してもよい。特許分類コード情報と出現頻度情報との組みを検索、とは、検索キーと一致する用語に対応付けられた、出現頻度情報と特許分類コード情報とを、対応付けた状態で取得することと考えても良い。
特許分類コード情報検索部303は、通常、MPUやメモリ等から実現され得る。特許分類コード情報検索部303の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
第一の特許分類コード情報選択部308は、特許分類コード情報検索部303が検索した特許分類コード情報から、同じ特許分類コード情報の出現回数に応じて特許分類コード情報を選択する。同じ特許分類コード情報の出現回数とは、検索により検出された同じ特許分類コード情報が対応する技術文書情報の数に相当する。第一の特許分類コード情報選択部308が選択した特許分類コード情報を、上記実施の形態1と同様に、第一の選択済特許分類コード情報と呼ぶ。出現回数に応じて特許分類コード情報を選択するとは、例えば、出現回数の値によって特許分類コード情報を選択することや、出現回数を用いて算出される特許分類出現コード情報の出現比率の値によって特許分類コード情報を選択することである。
第一の特許分類コード情報選択部308は、例えば、特許分類コード情報検索部303が検索した特許分類コード情報について、同じ特許分類コード情報の出現回数をカウントし、カウント結果を用いて出現回数の高さが所定の順位までの特許分類コード情報を取得しても良い。
また、出現回数が予め指定したしきい値を超える特許分類コード情報だけを取得するようにしても良い。例えば、特許分類コード情報が10個検索され、その内訳が「A:3個、B:3個、C:3個、D:1個」(A〜Dは異なる特許分類コード情報とする)であった場合、予め指定されているしきい値「2」以下の特許分類コード情報であるDを除いた3つの特許分類コード情報だけを第一の選択済特許分類コード情報として選択するようにしても良い。あるいは、この場合、出現回数が一位である特許分類コード情報である「A」から「C」までの三つの特許分類コード情報だけを第一の選択済特許分類コード情報として選択するようにしても良い。
また、第一の特許分類コード情報選択部308は、特許分類コード情報検索部303が検索した各特許分類コード情報の数の、検索キーと一致する用語を含む技術文書情報数に対する比率に応じて特許分類コード情報を選択してもよい。ここで述べる検索キーと一致する用語を含む技術文書情報に対する比率とは、具体的には、用語記憶部315に格納されている用語が含まれていた技術文書情報のうちの、検索キーと一致する用語を含む技術文書情報数に対する比率である。ここでの検索キーと一致する用語を含む技術文書情報数は、例えば、用語記憶部315に記憶されている用語のうちの、検索キーの少なくともいずれかと一致する用語が対応付けられている技術文書情報の数と考えても良い。具体的には、検索キーを用いて用語記憶部315を検索した結果検出される、検索キーと一致する用語と対応付けられた技術文書情報の数である。また、上記の比率は、全検索結果における各特許分類コード情報と対応付けられた技術文書情報の出現頻度と考えても良い。第一の特許分類コード情報選択部308は、例えば、特許分類コード情報検索部303の検索結果から、検索キーと一致する用語と対応付けられた技術文書情報の数をカウントし、このカウント結果に対する各特許分類コード情報数の比率を算出する。そして、例えば、その比率が高いものから順番に所定の順位までの特許分類コード情報を選択する。また、比率が予め指定された所定の値以上の特許分類コード情報だけを選択するようにしてもよい。なお、処理等を簡略化するために、検索キーと一致する用語を含む全ての技術文書情報数の代わりに、特許分類コード情報検索部303が検索した各特許分類コード情報の数を用いるようにしても良い。
また、第一の特許分類コード情報選択部308は、特許分類コード情報検索部303が検索した各特許分類コード情報の数の、検索キーと一致する用語を含む技術文書情報に対応付けられた特許分類コード情報数に対する比率に応じて特許分類コード情報を選択しても良い。具体的には、特許分類コード情報検索部303が検索した、検索キーの少なくともいずれかと一致する用語と対応付けられた特許分類コード情報の数をカウントし、このカウント数に対する各特許分類コード情報数の比率を、上記の比率と同様に用いても良い。
また、第一の特許分類コード情報選択部308は、特許分類コード情報検索部303が検索した各特許分類コード情報の数の、用語記憶部315に記憶されている同じ特許分類コード情報と対応付けられた技術文書情報数に対する比率に応じて、特許分類コード情報を選択してもよい。この比率は、検索された各特許分類コード情報と対応付けられた技術文書情報の、同じ特許分類コード情報と対応付けられた技術文書情報に対する出現頻度と考えても良い。例えば、予め、用語記憶部315に記憶されている特許分類コード情報と対応付けられた技術文書情報について、その数を、各特許分類コード情報別にカウントして図示しない記憶媒体等に予め蓄積しておく。そして、特許分類コード情報検索部303が検索した特許分類コード情報について、その特許分類コード情報の数をカウントし、このカウント値と、予め蓄積された同じ特許分類コード情報と対応付けられた技術文書情報の数についてのカウント値をとの比率を算出する。そして、例えば、その比率が高いものから順番に所定の順位までの特許分類コード情報を選択する。また、比率が予め指定された所定の値以上の特許分類コード情報だけを選択するようにしてもよい。なお、特許分類コード情報検索部303が検索した特許分類コード情報と同じ特許分類コード情報と対応付けられた技術文書情報の数については、検索により特許分類コード情報が検出された後に算出を行うようにしても良い。
なお、上述した2以上の特許分類コード情報を選択する方法を適宜組み合わせて利用しても良い。
また、上述した出現頻度によって、特許分類コード情報を選択する方法を、上記実施の形態1の第一の特許分類コード情報選択部108に適用するようにしても良い。例えば、第一の特許分類コード情報選択部108は、特許分類コード情報検索部103が検索した各特許分類コード情報の数の、検索キーを含む全ての技術文書情報数に対する比率に応じて特許分類コード情報を選択すればよい。
あるいは、第一の特許分類コード情報選択部308は、特許分類コード情報検索部103が検索した各特許分類コード情報の数の、技術文書対応情報記憶部101に記憶されている同じ特許分類コード情報と対応付けられた技術文書情報数に対する比率に応じて、特許分類コード情報を選択するようにすればよい。
なお、第一の特許分類コード情報選択部308は、通常は、特許分類コード情報検索部303が検索した特許分類コード情報の全てから、出現回数に応じて特許分類コード情報を選択するが、検索した特許分類コード情報の一部から出現回数に応じて特許分類コード情報を選択してもよい。第一の特許分類コード情報選択部308は、特許分類コード情報検索部303が検索した特許分類コード情報から、直接、出現回数に応じて特許分類コード情報を選択してもよい。また、例えば、特許分類コード情報検索部303が検索した特許分類コード情報のうちの、後述する第二の特許分類コード情報選択部310が選択した特許分類コード情報や、特許分類コード情報正規化部311が正規化した特許分類コード等から、出現回数に応じて特許分類コード情報を選択する場合のように、間接的に、特許分類コード情報を選択してもよい。なお、出現回数を特許技術文書数で標準化した値を出現頻度と考えるようにして、出現回数に応じて特許分類コード情報を取得することを、特許分類コード情報の出現頻度に応じて特許分類コード情報を取得することと考えるようにしても良い。例えば、出現頻度の高い特許分類コード情報を取得するようにしても良い。
なお、用語記憶部315に、上述したように、技術文書情報に含まれる1以上の用語と、当該用語の当該技術文書情報内における出現頻度を示す情報である出現頻度情報と、当該技術文書情報についての前記1以上の特許分類コード情報とが、技術文書情報ごとに対応付けて記憶され得るようにし、特許分類コード情報検索部303が、用語記憶部315から、検索キーと一致する用語と対応付けられた特許分類コード情報と、出現頻度情報との組みを検索するようにして、第一の特許分類コード情報選択部308が、特許分類コード情報検索部303が検索した特許分類コード情報の各特許分類コード情報別の出現回数を、検索された特許分類コード情報と組みをなす前記出現頻度情報を用いて重み付けを行って取得し、当該取得した出現回数に応じて、特許分類コード情報を選択するようにしてもよい。重み付けを行う、とは、例えば重み付けのための値(重み付け値)を重み付けの対象となる値(例えば特許分類コード情報をカウントする単位となる値等)に乗算したり、加算したりすることである。ここで述べる出現頻度情報を用いて重み付けを行う、とは、具体的には、出現頻度情報が示す出現頻度に応じて、重み付けを行うことである。ここで行われる重み付けは、具体的には、用語の出現頻度が高いことを示す出現頻度情報ほど、重み付けが重くなるような重み付けである。例えば、重み付けが、乗算や加算により行われる場合、出現頻度が高いことを示す出現頻度情報ほど、重み付けに用いられる値が、大きいことを意味する。なお、出現頻度情報を用いて重み付けを行う、ということは、出現頻度情報が、出現頻度を示す値である場合、この値を用いて、重み付けを行うことと考えても良い。あるいは、予め出現頻度情報と対応づけて用意された出現頻度を示す値を、特許分類コード情報と組みをなす出現頻度情報を検索キーとして取得し、取得した値を用いて重み付けを行うこととと考えてもよい。
例えば、第一の特許分類コード情報選択部308は、特許分類コード情報検索部303が検索した各特許分類コード情報の出現回数を、特許分類コード情報別に集計する際に、各特許分類コードの数を、当該特許分類コード情報と組みをなす出現頻度情報が示す値で重み付けを行って集計してもよい。具体的には、第一の特許分類コード情報選択部308は、特許分類コード情報検索部303が検索した各特許分類コード情報について、同じ特許分類コード情報の出現回数をカウントする際に、一の特許分類コード情報を「一回」等の同じ値でカウントせずに、各特許分類コード情報と組みをなす出現頻度情報が示す値で重み付けを行った値でカウントするようにしても良い。例えば、一の特許分類コード情報を、これと組みをなす出現頻度情報で重み付けを行ってカウントした値(出現回数)は、「1×出現頻度情報が示す値」回となる。この「1」は、一の特許分類コード情報の出現数である。従って、同じ特許分類コード情報の出現回数を、それぞれと組みをなす出現頻度情報が示す重み付けを行ってカウントした値は、例えば、各特許分類コード情報の出現回数である「1×各特許分類コード情報と組みをなす出現頻度情報が示す値」回の合計となる。
従って、第一の特許分類コード情報選択部308は、特許分類コード情報検索部303により検索された各特許分類コード情報と組みをなす出現頻度情報が示す値の、各特許分類コード情報別の合計を、上述した特許分類コード情報別の出現回数として取得してもよい。
このように用語の出現頻度に応じて重み付けを行うことで、検索キーと一致する用語の出現頻度が高い技術文書情報に対応する特許分類コード情報を、検索キーとの関連が強い特許分類コード情報として扱って、特許分類コードを選択することが可能となる。これにより、検索キーに対するこの特許分類コード情報の関連の強さを、特許分類コードの選択に反映させることができ、精度の良い選択が可能となる。
なお、出現頻度情報が示す値、とは、具体的には、出現頻度情報が出現頻度を示す値である場合、その値そのもの、あるいはその値に対して所定の演算を行って得られた値であっても良い。また、出現頻度情報が出現頻度を示す文字列等である場合、予め出現頻度情報として利用可能な文字列と対応付けて用意された重み付けに用いられる値のうちの、出現頻度情報の文字列を検索キーとして用いて取得した値が、出現頻度情報に応じた値である。
第一の特許分類コード情報選択部308は、上記と同様に、特許分類コード情報検索部303が検索した特許分類コード情報について、重み付けを行って取得した出現回数の値の高さで示した順位が、所定の順位までの特許分類コード情報を選択するようにしても良い。また、重み付けを行って取得した出現回数が予め指定したしきい値を超える特許分類コード情報だけを取得するようにしても良い。
また、第一の特許分類コード情報選択部308は、特許分類コード情報検索部303が検索した特許分類コード情報の数を、検索された特許分類コード情報と組みをなす出現頻度情報を用いて重み付けを行って取得し、当該取得した特許分類コード情報の数に対する、上述した各特許分類コード情報別の出現回数の比率に応じて、特許分類コード情報を選択するようにしてもよい。ここでの、組みをなす出現頻度情報を用いて重み付けを行って取得した特許分類コード情報検索部303が検索した特許分類コード情報の数とは、具体的には、特許分類コード情報検索部が検索した各特許分類コード情報と組みをなす出現頻度情報が示す値の合計である。出現回数の比率に応じてとは、例えば、その比率が高いものから順番に所定の順位までの特許分類コード情報を選択することである。また、比率が予め指定された所定の値以上の特許分類コード情報だけを選択することであってもよい。重み付けを行って算出した比率を用いることで、検索キーに対するこの特許分類コード情報の関連の強さを、特許分類コード情報の選択に反映させることができ、精度の良い選択が可能となる。
第一の特許分類コード情報選択部308は、通常、MPUやメモリ等から実現され得る。第一の特許分類コード情報選択部308の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、本実施の形態3の情報処理装置3の動作について図16のフローチャートを用いて説明する。なお、図16において、図2と同一符号は同一又は相当する処理ステップを示している。ここでは、用語記憶部315には、用語と特許分類コード情報とが、それぞれ技術文書情報と対応付けて蓄積される場合を例に挙げて説明する。
(ステップS1601)用語コード取得部316は、用語と特許分類コード情報とを取得する処理を行う。この処理の詳細については後述する。
(ステップS1602)キーワード情報取得部302は、キーワード情報を取得したか否かを判断する。ここでは例として、キーワード情報を入力デバイス等を介して、受け付けたか否かを判断する。受け付けた場合、ステップS202に進み、受け付けていない場合ステップS1602に戻る。
(ステップS1603)特許分類コード情報検索部303は、用語記憶部315に格納されている情報に対して、ステップS1602で受け付けたキーワード情報と、ステップS203で取得した関連キーワード情報とを検索キーとして用いて、用語記憶部315に格納されている情報に対して、特許分類コード情報を検索する処理を行う。具体的には、ステップS1602で受け付けたキーワード情報またはステップS203で取得した関連キーワード情報のいずれかに一致する用語と対応付けられた技術文書情報を、用語記憶部315から検索し、さらに検索した技術文書情報に対応付けられた特許分類コード情報を、用語記憶部315から検索する。
(ステップS1604)第一の特許分類コード情報検索部308は、ステップS1603で検出された各特許分類コード情報において、一致する特許分類コード情報の数をカウントする。
(ステップS1605)用語記憶部315に記憶されている特許分類コード情報のうちの、ステップS1604においてカウントした特許分類コード情報と同じ特許分類コード情報と対応付けられた技術文書情報数を取得する。例えば、第一の特許分類コード情報検索部308は、ステップS1604においてカウントした特許分類コード情報と同じ特許分類コード情報と対応付けられた技術文書情報を、用語記憶部315に特許分類コード情報と対応付けて記憶されている技術文書情報から検出し、検出した技術文書情報数をカウントして取得する。なお、ここでは、実質的に同じ情報が取得できれば、どのように情報を取得してもよい。例えば、第一の特許分類コード情報検索部308は、技術文書対応情報格納部301に記憶されている技術文書対応情報について、ステップS1604においてカウントした特許分類コード情報と同じ特許分類コード情報と対応付けられた技術文書情報の数をカウントして、技術文書情報数を取得してもよい。あるいは、予め、特許分類コード情報別に、用語記憶部315に記憶されている特許分類コード情報が対応している技術文書情報の数を、対応する特許分類コード情報別にカウントして、そのカウント数と特許分類コード情報とを対応付けて図示しない記憶媒体等の記憶部に蓄積しておくようにし、この蓄積した情報から、ステップS1604においてカウントした各特許分類コード情報に一致する特許分類コード情報に対応付けられたカウント数を取得するようにしても良い。
(ステップS1606)第一の特許分類コード情報検索部308は、ステップS1604で各特許分類コード情報について取得した特許分類コード情報数の、ステップS1605で取得した同じ特許分類コード情報について取得した特許分類コード情報数に対する比率(出現頻度)をそれぞれ算出する。
(ステップS1607)第一の特許分類コード情報検索部308は、ステップS1606で算出した比率に応じて、特許分類コード情報を選択する。例えば、算出した比率が高いものから順に所定の順位までの特許分類コード情報を選択する。
なお、このフローチャートにおいては、ステップS210の処理後は、ステップS1602に戻るようにしても良い。
また、ステップS1605において、ステップS1603等の処理において検出した、キーワード情報またはステップS203で取得した関連キーワード情報のいずれかに一致する用語と対応付けられた技術文書情報数をカウントし、その後の処理でこのカウント数を用いるようにしてもよい。
また、この情報処理装置3においては、ステップS1601の用語コード取得処理を一旦行った以降は、再度動作を開始する際には、ステップS1602の処理から動作を開始するようにしても良い。
次に、図16においてステップS1601で説明した用語コード取得処理の詳細について、図17のフローチャートを用いて説明する。
(ステップS1701)用語コード取得部316は、カウンターnに1を代入する。
(ステップS1702)用語コード取得部316は、技術文書対応情報記憶部301に、n番目の技術文書情報があるか否かを判断する。ある場合、ステップS1703に進み、ない場合、上位の処理にリターンする。
(ステップS1703)用語コード取得部316は、n番目の技術文書情報に対して形態素解析を行う。解析結果は、図示しないメモリ等に一時記憶する。
(ステップS1704)用語コード取得部316は、形態素解析の結果を用いて、n番面の技術文書情報の先頭から、予め指定された1以上の品詞等のうちのいずれかに一致する品詞等の単語を検出する処理を行う。
(ステップS1705)用語コード取得部316は、所定の品詞等の単語を検出したか否かを判断する。検出した場合、ステップS1706に進み、n番目の技術文書情報の最後に達しても検出できなかった場合、ステップS1709に進む。
(ステップS1706)用語コード取得部316は、ステップS1705で検出した単語から連続して配置された、予め指定された1以上の品詞等のうちのいずれかに一致する品詞等の単語を取得する。
(ステップS1707)用語コード取得部316は、ステップS1706で取得した単語を組み合わせて用語を作成する。
(ステップS1708)用語コード取得部316は、ステップS1707で作成した用語を、図示しない記憶媒体等に一時記憶する。そして、ステップS1704に戻る。
(ステップS1709)用語コード取得部316は、ステップS1708で蓄積した用語の重複を削除する。
(ステップS1710)用語コード取得部316は、ステップS1709で重複を削除した用語を、n番目の技術文書情報と対応付けて、用語記憶部315に蓄積する。
(ステップS1711)用語コード取得部316は、n番目の技術文書情報と対応付けられた特許分類コード情報を、技術文書対応情報記憶部301から取得する。
(ステップS1712)用語コード取得部316は、ステップS1711で取得した特許分類コード情報を、n番目の技術文書情報と対応付けて、用語記憶部315に蓄積する。
(ステップS1713)用語コード取得部316は、カウンターnの値を1インクリメントする。そして、ステップS1702に戻る。
(具体例1)
以下、本実施の形態の具体例1について説明する。なお、この具体例においては、説明を簡単にするため、特許分類コード情報正規化部311が、特許分類コード情報を正規化する処理や、第二の特許分類コード情報選択部310が、特許分類コード情報を選択する処理や、特許分類コード説明情報検索部313が、特許分類コード説明情報を検索する処理等を行わない場合を例に挙げて説明する。ただし、これらの処理を、上記実施の形態1の具体例と同様に行っても良いことはいうまでもない。また、この具体例においては、用語記憶部315に、技術的な文書を示す情報である技術文書情報に含まれる1以上の用語と、当該技術文書情報についての特許の分類を示すコードの情報である1以上の特許分類コード情報とが、前記技術文書情報ごとに対応付けて記憶されている場合について説明する。
まず、上記実施の形態1の具体例と同様に、技術文書対応情報記憶部301には、図3に示すような技術文書対応情報である異なる複数の特許公報が格納されている。ここでの技術文書情報は、各特許公報の「特許請求の範囲」および「発明の詳細な説明」の項目の情報であるとする。また、技術文書情報に対応付けられている特許分類コード情報は、IPC(国際特許分類)であるとする。ただし、特許分類コード情報としてFタームを用いても良い。
まず、用語コード取得部316は、技術文書対応情報記憶部301に格納されている複数の特許公報のうちの一の特許公報の「特許請求の範囲」および「発明の詳細な説明」の項目のテキスト情報を読み出す。この一の特許公報は、公開番号が「JP2004−146…」であるとする。
次に、用語コード取得部316は、読み出したテキスト情報に対して形態素解析を行う。例えば読み出したテキスト情報が、「現在位置情報を取得する現在位置情報取得部と、ユーザの目的地についての」という文字列を含んでいたとすると、形態素解析によりこの文字列が単語に分割され、各単語が、その品詞と対応付けて出力される。なお、ここで述べる品詞は、あくまでも形態素解析によって判断される品詞であり、実際の品詞と異なるものであって良い。
図18は、形態素解析の結果の一例を示す図である。上記のテキスト情報が単語に区切られ、各単語の品詞が示されている。
次に、用語コード取得部316は、形態素解析の結果について、テキスト情報の先頭から予め指定された品詞の単語、ここでは例として名詞、形容詞、接頭詞、またはアルファベットのいずれかである品詞の単語を検索する。例えば、図18に示すように、テキスト情報の先頭の単語である「現在」の品詞が「名詞」であるため、この単語を予め指定された品詞の単語であるとして検出する。
次に、用語コード取得部316は、この単語に連続する上述した予め指定された品詞の単語群を検出する。ここでは、先頭の単語「現在」から3番目の単語「情報」までの品詞が、上記の予め指定された品詞のうちの一つである名詞であり、次の4番目の単語「を」が上記の予め指定された品詞のうちのいずれでもない品詞である「助詞」であるため、先頭から3番目までの単語群を結合して用語「現在位置情報」を取得する。そして、取得した用語を図示しないメモリ等に一時記憶する。
さらに用語コード取得部316は、上記で検出した予め指定された品詞の単語群の次の予め指定された品詞の単語群を同様に検出して用語を取得する処理を、形態素解析を行ったテキスト情報の全てについて行う。
図19は、用語を取得する処理の結果、取得された用語の一覧を示す図である。
なお、本実施の形態において用いられる用語は上記のようにして取得した用語に限るものではない。例えば、上記のように予め指定された品詞の連続した単語群を検出した後、この単語群について、先頭の単語を含むように、先頭の単語から順番に単語を一つずつ増やしながら単語の組合せ読み出して用語を取得してもよい。
次に用語コード取得部316は、取得した用語について、重複する用語を削除する処理を行う。この処理は、ユニーク処理として知られている。この処理によって、重複する単語が、一つだけを残して削除される。
用語コード取得部316は、重複を削除した用語を、これらの用語を取得した特許公報の識別情報、ここでは、特許公報の公開番号と対応付けて、用語記憶部315に蓄積する。なお、ここでは、特許公報の公開番号を用いたが、特許公報に任意に割り当てた連番等の識別情報を用いても良い。
図20は、用語コード取得部316により特許公報の識別情報と対応付けて用語記憶部315に蓄積された用語を管理する用語管理表である。用語管理表は、「公開番号」と「用語」という項目を有する。「公開番号」は、技術文書情報を識別する情報であり、ここでは、用語の取得元となる特許公報の公開番号である。「用語」は、特許公報から取得された用語である。
つぎに、用語コード取得部316は、同じ特許公報から、特許分類コード情報であるIPCを取得する。例えば、墨付き括弧が付けられた「国際特許分類」という文字列を検索し、次の墨付き括弧が現れるまでの範囲の文字列を読み出し、その読み出した文字列からIPCを取得する。
例えば、ここでは、「G01C 21/04 21/10 G01S 1/02」が取得されたとすると、用語コード取得部316は、まず、読み出した文字列をスペースや改行コード等の区切記号を区切る。そして、区切った文字列に対して正規表現を用いた検索を行って、アルファベットと二桁の数字とアルファベットの並びを有する文字列を検出する。ここでは、「G01C」が検出される。さらに、この文字列に連続して配置される、「/」を含む区切られた1以上の数字列を検出する。ここでは、「21/04」および「21/10」が連続して検出される。次に、検出された「/」を含む数字列「21/04」および「21/10」と、先に検出したアルファベットと二桁の数字とアルファベットの並びを有する文字列「G01C」とをそれぞれ組み合わせたIPC「G01C 21/04」および「G01C 21/10」を取得する。同様に、次のアルファベットと二桁の数字とアルファベットの並びを有する文字列を検出して、その次に続く「/」を含む数字列を検出して、IPCコードを取得する。そして、用語コード取得部316は、取得したIPCを、これらのIPCを取得した特許公報の識別情報、ここでは、特許公報の公開番号と対応付けて、用語記憶部315に蓄積する。
図21は、用語コード取得部316により特許公報の識別情報と対応付けて用語記憶部315に蓄積された特許分類コード情報を管理する特許分類コード情報管理表である。特許分類コード情報管理表は、「公開番号」と「国際特許分類」という項目を有する。「公開番号」は、用語の取得元となる特許公報の公開番号である。「国際特許分類」は、特許分類コード情報であり、特許公報から取得された用語である。
用語コード取得部316は、同様にして、技術文書対応情報記憶部301に格納されている他の特許公報からも用語と特許分類コード情報を取得する。
図22は、技術文書対応情報記憶部301に格納されている全ての特許公報から取得され、用語記憶部315に、取得元の特許公報と対応付けて蓄積された用語を管理する用語管理表である。
また、図23は、技術文書対応情報記憶部301に格納されている全ての特許公報から取得され、用語記憶部315に、取得元の特許公報と対応付けて蓄積された特許分類コード情報を管理する特許分類コード情報管理表である。
図22および図23に示したような用語管理表および特許分類コード情報管理表により管理される用語および特許分類コード情報が、技術文書情報ごとに対応付けて用語記憶部315に蓄積された用語と特許分類コード情報である。
図24は、キーワード情報を受け付ける入力インターフェース画面の出力例を示す図である。
次に、ユーザが、図23に示すような入力インターフェース画面から、キーボード等を操作して、「GPS」および「道路情報」というキーワード情報を図24に示すように入力したとすると、キーワード情報取得部302は、入力されたキーワード情報を取得する。取得したキーワード情報は、図示しない記憶媒体等に一時記憶される。
関連キーワード情報検索部307は、キーワード情報取得部302が取得したキーワード情報の関連キーワード情報を上記実施の形態1と同様に取得する。なお、ここでは、関連キーワード情報検索部307は、キーワード情報取得部302が取得した各キーワード情報別に関連キーワード情報を取得するものとし、取得された各関連キーワード情報は、取得対象となったキーワード情報と対応付けて管理されるものとする。
図25は、関連キーワード情報検索部307が取得した関連キーワード情報を示す図である。関連キーワード情報は、関連キーワードの取得対象となったキーワード情報と対応付けて管理されているものとする。
次に、特許分類コード情報検索部303は、キーワード情報取得部302が取得したキーワード情報と、関連キーワード情報検索部307が取得した関連キーワード情報とを検索キーとして用いて、これらに一致する用語と対応付けられた公開番号の検索を、図22に示した用語管理表において行う。ここでは、一例として、キーワード情報取得部302が取得した各キーワードと、各キーワードに関連する関連キーワード情報とは、OR検索とし、各キーワード間は、AND検索を行うものとする。すなわち、図22に示した用語管理表において、キーワード情報「GPS」、関連キーワード情報「測位装置」または関連キーワード情報「位置情報」のいずれかと一致する「用語」と対応付けられた「公開番号」であって、なおかつ、キーワード情報「道路情報」、関連キーワード情報「経路」または関連キーワード情報「地図情報」のいずれかと一致する「用語」と対応付けられた「公開番号」を検索する。なお、ここでは、例として、一致が部分一致である場合について説明する。ただし、用語記憶部315に格納されている用語が、例えば、上述したような、予め指定された品詞の連続した単語群を検出した後、この単語群について、先頭の単語を含むように、先頭の単語から順番に単語を一つずつ増やしながら組合せて読み出した単語群で構成される場合等には、上記の一致は、完全一致とすることが好ましい。
この検索の結果、「JP2004−146…」、「JP2004−87…」等の複数の公開番号が検出されたとする。
次に、特許分類コード情報検索部303は、図23に示した特許分類コード情報管理表において、「公開番号」の値が、図22に示した用語管理表から検出した公開番号と一致するレコードを検出し、そのレコードの「国際特許分類」の値を取得する。
図26は、特許分類コード情報検索部303が取得した国際特許分類を示す図である。なお、ここでは、説明の便宜上、国際特許分類と対応付けられていた公開番号を、国際特許分類と並べて示しているが、省略しても良い。
次に、第一の特許分類コード情報選択部308は、図26に示した国際特許分類の検出結果において、各国際特許分類の出現頻度を算出する。
ここでは、一例として、図26に示した検出結果に含まれる各国際特許分類のそれぞれの出現数の、特許分類コード情報検索部303が図22の用語管理表を用いて検索した公開番号数に対する比率を出現頻度として算出する。用語管理表から検索した公開番号数は、検索された特許公報数に相当する。
具体的には、まず、図26に示した検出結果に含まれる各国際特許分類のそれぞれの出現数をカウントする。また、上述したように特許分類コード情報検索部303が図22の用語管理表を用いて検索した公開番号数をカウントする。そして、出現数を、公開版号数で除算して出現頻度を算出する。
例えば、図26に示した検出結果において、国際特許分類「G01S 5/08」が20個検出され、特許分類コード情報検索部303が検索した公開番号の数が「80」であったとすると、国際特許分類「G01S 5/08」の出現頻度は、20/80×100=25%となる。
また、国際特許分類「G01C 21/10」が64個検出されたとすると、国際特許分類「G01C 21/10」の出現頻度は、64/80×100=80%となる。
図27は、出現頻度の算出結果を示す図である。
そして、第一の特許分類コード情報選択部308は、特許分類コード情報検索部303が検索した特許分類コード情報である国際特許分類の中から、図27に示した出現頻度が予め指定されたしきい値以上の国際特許分類を選択する。例えば、予め、しきい値が50%に設定されていたとすると、ここでは、「G01C 21/10」、「G08G 1/133」、「G01G 1/137」が選択されたとする。
このような出現頻度を用いて、特許分類コード情報を選択することにより、出現頻度がしきい値よりも高いものだけを選択的に選択することができる。これにより、特許分類コード情報検索部303により検索された特許公報全体の特徴を適切に表す特許分類コードだけを選択的に取得することができる。
次に、特許検索式情報生成部304は、第一の特許分類コード情報選択部308が選択した国際特許分類である「G01C 21/10」、「G08G 1/133」、および「G01G 1/137」と、キーワード情報取得部302が取得したキーワード情報と、関連キーワード情報検索部307が検索した関連キーワード情報を用いて検索式を生成する。
具体的には、キーワード情報取得部302が取得した各キーワード情報と、各キーワードを用いてそれぞれ取得された関連キーワード情報とはOR条件としてつなぎ、このOR条件でつながれたキーワード情報と関連キーワード情報の群同士は、AND条件でつながれる。各キーワード情報と、各キーワードを用いてそれぞれ取得された関連キーワード情報との対応関係は、図25に示したような関連キーワード情報とキーワード情報との関連を示す情報等から取得可能である。また、第一の特許分類コード情報選択部308が選択した国際特許分類同士は、OR条件でつながれる。そして、AND条件でつながれたキーワード情報と関連キーワード情報の群と、OR条件でつながれた国際特許分類同士を、AND条件でつなぐことで、特許検索式を生成する。
例えば、この具体例で生成される特許検索式は、(GPS+測位装置+位置情報)*(道路情報+経路+地図情報)*(G01C 21/10+G08G 1/133+G01G 1/137)となる。なお、「+」はOR条件による検索が行われる演算子であり、「*」はAND条件による検索が行われる演算子であるとする。
そして、生成された特許検索式が、特許検索式情報出力部305から出力される。
なお、上記のように、特許分類コード情報検索部303が検索した特許公報に対する特許分類コードの出現頻度を算出して特許分類コードを選択する代わりに、以下に示す例のように、特許分類コードを選択するようにしても良い。
例えば、まず、図26に示した検出結果に含まれる各国際特許分類のそれぞれの出現数と、図23に示したような特許分類コード情報管理表(あるいは、技術文書対応情報記憶部301に記憶されている技術文書対応情報)に含まれる同じ国際特許分類の出現数との比率を出現頻度として算出する。
具体的には、まず、図26に示した検出結果に含まれる各国際特許分類のそれぞれの出現数をカウントする。また、図23に示したような特許分類コード情報管理表における、図26に示した検出結果に含まれる各国際特許分類と同じ国際特許分類の出現数をカウントする。そして、図26に示した検出結果に含まれる各国際特許分類のそれぞれの出現数を、図23に示した特許分類コード情報管理表からカウントした同じ国際特許分類の出現数で除算して出現頻度を算出する。
例えば、図26に示した検出結果において、国際特許分類「G01S 5/08」が20個検出され、図23に示した特許分類コード情報管理表において同じ国際特許分類「G01S 5/08」が検出された数が「100」であったとすると、国際特許分類「G01S 5/08」の出現頻度は、20/100×100=20%となる。
また、国際特許分類「G01C 21/10」が8個検出され、図23に示した特許分類コード情報管理表において同じ国際特許分類「G01C 21/10」が検出された数が「10」であったとすると、国際特許分類「G01C 21/10」の出現頻度は、8/10×100=80%となる。
そして、第一の特許分類コード情報選択部308は、特許分類コード情報検索部303が検索した特許分類コード情報である国際特許分類の中から、算出された出現頻度が予め指定されたしきい値以上の国際特許分類を選択する。
このような出現頻度を用いて特許分類コード情報を選択することにより、特許分類コード情報検索部303が検索した特許分類コード情報のうちの、特徴的と考えられる特許分類コードに着目して特許分類コード情報を選択するとことができる。このような特許分類コード情報を検索式に利用して検索を行うと、キーワード情報や関連キーワード情報を含む技術文書情報の検索漏れは多くなるが、キーワード情報に対して特徴的な情報を含む技術文書情報を的確に検出することが可能になると考えられる。
(具体例2)
この具体例においては、用語記憶部315に、技術文書情報に含まれる1以上の用語と、当該用語の当該技術文書情報内における出現頻度を示す情報である出現頻度情報と、当該技術文書情報についての上述したような1以上の特許分類コード情報とが、技術文書情報ごとに対応付けて記憶されている場合について説明する。
まず、用語コード取得部316は、上記具体例1と同様に、技術文書対応情報記憶部301に格納されている複数の特許公報のうちの一の特許公報、例えば「JP2004−146…」について、図19に示すような用語を取得する。さらに、重複する用語を一つを残して順次削除していくとともに、重複する用語の数をカウントしていく。そして、カウントした値を、重複が削除された各用語と対応付けて、図示しないメモリ等に一時記憶する。このカウントした値が、一の特許公報に含まれる各用語の数である。なお、重複を削除した後、一の特許公報に含まれる各用語と一致する用語の数を検索により検出してカウントしてもよい。さらに、一の特許公報に含まれる、重複を削除した全ての用語のそれぞれと一致する用語の数を取得する。ここでは、この数を用語合計数と呼ぶ。この数は、例えば、一の特許公報に含まれる各用語の数を合計することで取得してもよいし、一の特許公報に含まれる重複を削除した全ての用語のそれぞれと一致する用語の数を検索により検出してカウントしてもよい。ここでは、用語合計数が25,000であったとする。そして、各用語の数を用語合計数で除算して出現頻度情報を取得する。用語コード取得部316は、取得した用語と、各用語の出現頻度情報とを特許公報の識別情報と対応付けて、用語記憶部315に蓄積する。
図28は、用語コード取得部316により取得され、用語記憶部315に特許公報の識別情報と対応付けて蓄積された、特許公報に含まれる用語と、各用語の出現頻度情報とを管理する用語管理表である。「公開番号」と「用語」は、図20と同様である。「用語数」は、一の特許公報において検出された各用語の数である。「出現頻度」は、出現頻度情報であり、ここでは、出現頻度の値をパーセントで表したものである。なお、用語数は、用語管理表においては省略可能である。
つぎに、用語コード取得部316は、上記具体例1と同様に、同じ特許公報から、特許分類コード情報であるIPCを取得し、図21に示すように、取得した特許公報の識別情報と、IPCとを対応付けて用語記憶部315に蓄積する。
用語コード取得部316は、同様にして、技術文書対応情報記憶部301に格納されている他の特許公報からも用語とその出現頻度情報と特許分類コード情報とを取得する。
図29は、技術文書対応情報記憶部301に格納されている全ての特許公報からそれぞれ取得されて用語記憶部315に蓄積された、用語と、用語の出現頻度情報と、用語の取得元の特許公報の識別情報とを対応付けて管理する用語管理表である。
また、技術文書対応情報記憶部301に格納されている全ての特許公報から取得され、用語記憶部315に、取得元の特許公報と対応付けて蓄積された特許分類コード情報を管理する特許分類コード情報管理表は、図23と同様である。
次に、上記具体例1と同様に、ユーザにより入力されたキーワード情報「GPS」を用いて、関連キーワード情報「測位装置」と関連キーワード情報「位置情報」とが取得され、ユーザにより入力されたキーワード情報「道路情報」を用いて、関連キーワード情報「経路」と関連キーワード情報「地図情報」とが取得されたとする。
さらに、特許分類コード情報検索部303は、キーワード情報取得部302が取得したキーワード情報と、関連キーワード情報検索部307が取得した関連キーワード情報とを検索キーとして用いて、これらに一致する用語と対応付けられた公開番号の検索を図23に示した用語管理表において行う。ここでは、一例として、キーワード情報取得部302が取得した各キーワードと、各キーワードに関連する関連キーワード情報とは、OR検索とし、各キーワード間は、AND検索を行うものとする。すなわち、図22に示した用語管理表において、キーワード情報「GPS」、関連キーワード情報「測位装置」または関連キーワード情報「位置情報」のいずれかと一致する「用語」と対応付けられた「公開番号」であって、なおかつ、キーワード情報「道路情報」、関連キーワード情報「経路」または関連キーワード情報「地図情報」のいずれかと一致する「用語」と対応付けられた「公開番号」を検索する。なお、ここでは、例として、一致が完全一致である場合について説明する。また、検索された公開番号に対応する用語のうちの、検索キーに一致する用語に対応付けられた出現頻度情報も、公開番号と対応付けて取得する。
この検索の結果、「JP2004−147…」、「JP2004−87…」等の複数の公開番号が検出されたとする。
次に、特許分類コード情報検索部303は、図23に示した特許分類コード情報管理表において、「公開番号」の値が、図22に示した用語管理表から検出した公開番号と一致するレコードを検出し、そのレコードの「国際特許分類」の値を図26に示すように取得する。
ここで、第一の特許分類コード情報選択部308は、特許分類コード情報検索部303が取得した、各公開番号と対応付けられた「用語」のうちの検索キーと一致する「用語」に対応付けられた出現頻度情報を、図29に示した用語管理表から各公開番号別に取得し、その出現頻度情報のうちの、OR検索に用いられた検索キーに対応する用語の出現頻度情報同士を加算し、AND検索に用いられた検索キーに対応する用語の出現頻度情報同士を乗算して、各公開番号別に重み付けに用いる値を取得する。例えば、「JP2004−147…」に対応する用語のうちの「GPS」、「位置情報」、「経路」および「地図情報」が検索キーと一致したとし、それぞれの出現頻度情報が、「0.5」、「0.8」、「0.3」、および「0.2」であったとする。「GPS」と「位置情報」とは、OR検索に用いられる検索キーであるため、出現頻度情報同士は加算され、その値は、0.5+0.8=1.3となる。同様に、「経路」と「地図情報」とは、OR検索に用いられる検索キーであるため、出現頻度情報同士は加算され、その値は、0.3+0.2=0.5となる。また、「GPS」と「位置情報」との組みと、「経路」と「地図情報」との組みは、AND検索に用いられる検索キーであるため、上記で加算された出現頻度情報同士は乗算され、最終的に算出される重み付けに用いられる値は、1.3×0.5=0.65となる。第一の特許分類コード情報選択部308は、各公開番号別に算出した出現頻度に対応した重み付けに用いられる値を、各公開番号と対応付けられた「国際特許分類」の値と対応付けて、図示しない記憶媒体等に蓄積する。なお、ここでの検索キーと一致する「用語」を検索する際の一致は、部分一致であるとする。また、部分一致する用語が複数検索された場合、第一の特許分類コード情報選択部308は、例えば、それぞれの用語に対応付けられた出現頻度情報を加算した値を、用語管理表から取得するようにすればよい。
なお、OR検索に用いられた検索キーに対応する出現頻度情報については、加算を行う代わりに、例えば、最大値だけを取得するようにしても良い。あるいは平均値を求めるようにしても良い。また、AND検索に用いられた検索キーに対応する出現頻度情報については、例えば、乗算を行う代わりに、出現頻度情報のうちの最小値を取得するようにしても良い。あるいは、いずれの場合においても、これ以外のユーザ等により指定された演算等を行うようにしても良い。
図30は、各公開番号別の重み付けに用いられる値と、各公開番号に対応する国際特許分類とを対応づけて管理する管理情報である。この管理情報は、図26に示した情報の各公開番号別に用語の出現頻度情報を用いて取得された「重み付け値」を付加したものに相当する。「重み付け値」は、第一の特許分類コード情報選択部308が、上述したように、各公開番号別に用語の出現頻度情報を用いて取得した値である。一の公開番号に対応する1以上の国際特許分類(即ち、一の特許公報に対応する国際特許分類)には、それぞれ1の公開番号について取得された重み付け値が対応付けられることとなる。
次に、第一の特許分類コード情報選択部308は、図30に示した国際特許分類と対応付けられた重み付け値を、国際特許分類が同じもの同士、つまり国際特許分類別に加算していき、加算した値を国際特許分類と対応付けて図示しない記憶媒体等に一時記憶する。
図31は、国際特許分類別の重み付け値を示す図である。
そして、第一の特許分類コード情報選択部308は、図31に示すような国際特許分類別の重み付け値を示す情報から、値が大きいものから順に、予め指定された数の国際特許分類を取得する。その後の処理は、上記具体例1と同様であるので、ここでは説明を省略する。
なお、第一の特許分類コード情報選択部308は、例えば、図30に示した全ての国際特許分類にそれぞれ対応付けられた重み付け値を合計し、その合計で、図31に示した各国際特許分類別の重み付け値をそれぞれ除算して得られた比率を用いて、その比率が高いものや比率が予め指定されたしきい値以上の国際特許分類を取得するようにしても良く、このような場合においても、上記具体例において比率を用いた場合と同様の効果を奏する。
例えば、図30において、公開番号「JP2004−147…」の国際特許分類「G01S 5/08」に対応付けられた重み付け値「0.65」と、公開番号「JP2004−147…」の国際特許分類「G08G 1/133」に対応付けられた重み付け値「0.65」と、公開番号「JP2004−149…」の国際特許分類「G01S 5/08」に対応付けられた重み付け値「0.53」と、公開番号「JP2004−149…」の国際特許分類「G01C 21/10」に対応付けられた重み付け値「0.53」等を全て加算し、この合計で、各国際特許分類別の重み付け値をそれぞれ除算した比率を用いて国際特許分類を取得するようにしてもよい。
以上のように、本実施の形態によれば、用語記憶部315に各技術文書情報ごとに対応付けて記憶された、用語と特許分類コード情報とを用いて、キーワード情報取得部302が取得したキーワード情報に対応した特許分類コード情報を取得し、この特許分類コード情報を用いて特許検索式を生成するようにしたことにより、上記実施の形態1と同様に、特許検索式を容易に作成することができるとともに、特許分類コード情報を取得する際に、技術文書情報の全文検索等が不要となり、検索時間を大幅に短縮することが可能となり、高速な特許検索式の生成が可能となる。
なお、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
また、上記各実施の形態において、一の装置に存在する2以上の通信手段(情報送信部など)は、物理的に一の媒体で実現されても良いことは言うまでもない。
また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりする情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。
また、上記各実施の形態では、情報処理装置がスタンドアロンである場合について説明したが、情報処理装置は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部や受付部は、通信回線を介して入力を受け付けたり、画面を出力したりすることになる。
また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。
なお、上記各実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、キーワードを示す情報であるキーワード情報を取得するキーワード情報取得部と、前記キーワード情報取得部が取得したキーワード情報を検索キーとし、技術的な文書を示す情報である技術文書情報に含まれる1以上の用語と、当該技術文書情報についての特許の分類を示すコードの情報である1以上の特許分類コード情報とが、前記技術文書情報ごとに対応付けて記憶される用語記憶部から当該検索キーと一致する用語に対応付けられた特許分類コード情報を検索する特許分類コード情報検索部と、前記特許分類コード情報検索部が検索した特許分類コード情報から、出現回数に応じて特許分類コード情報を選択する第一の特許分類コード情報選択部と、前記第一の特許分類コード情報選択部が選択した結果である第一の選択済特許分類コード情報を含む特許分類コード情報を含む情報であって、特許公報を検索するための検索式を示す情報である特許検索式情報を生成する特許検索式情報生成部と、前記特許検索式情報生成部が生成した特許検索式情報を出力する特許検索式情報出力部として機能させるためのプログラムである。
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には含まれない。
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
図32は、上記プログラムを実行して、上記実施の形態による情報処理装置を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。
図32において、コンピュータシステム900は、CD−ROM(Compact Disk Read Only Memory)ドライブ905、FD(Floppy(登録商標) Disk)ドライブ906を含むコンピュータ901と、キーボード902と、マウス903と、モニタ904とを備える。
図33は、コンピュータシステム900の内部構成を示す図である。図33において、コンピュータ901は、CD−ROMドライブ905、FDドライブ906に加えて、MPU(Micro Processing Unit)911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)913と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク914と、MPU911、ROM912等を相互に接続するバス915とを備える。なお、コンピュータ901は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
コンピュータシステム900に、上記実施の形態による情報処理装置の機能を実行させるプログラムは、CD−ROM921、またはFD922に記憶されて、CD−ROMドライブ905、またはFDドライブ906に挿入され、ハードディスク914に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ901に送信され、ハードディスク914に記憶されてもよい。プログラムは実行の際にRAM913にロードされる。なお、プログラムは、CD−ROM921やFD922、またはネットワークから直接、ロードされてもよい。
プログラムは、コンピュータ901に、上記実施の形態による情報処理装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる情報処理装置等は、検索に利用する検索式を生成する情報処理装置等として適しており、特に、特許の検索に利用される特許検索式を生成する情報処理装置等として有用である。
1、2 情報処理装置
31、32 領域
101、301 技術文書対応情報記憶部
102、202、302 キーワード情報取得部
103、303 特許分類コード情報検索部
104、203、304 特許検索式情報生成部
105、305 特許検索式情報出力部
106、201 技術文書情報受付部
107、307 関連キーワード情報検索部
108、308 第一の特許分類コード情報選択部
109、309 技術分野対応情報記憶部
110、310 第二の特許分類コード情報選択部
111、311 特許分類コード情報正規化部
112、312 特許分類コード対応情報記憶部
113、313 特許分類コード説明情報検索部
201 文書情報受付部
315 用語記憶部
316 用語コード取得部

Claims (14)

  1. 技術的な文書を示す情報である技術文書情報に含まれる1以上の用語と、当該技術文書情報についての特許の分類を示すコードの情報である1以上の特許分類コード情報とが、前記技術文書情報ごとに対応付けて記憶される用語記憶部と、
    キーワードを示す情報であるキーワード情報を取得するキーワード情報取得部と、
    前記キーワード情報取得部が取得したキーワード情報を検索キーとし、前記用語記憶部から当該検索キーと一致する用語に対応付けられた特許分類コード情報を検索する特許分類コード情報検索部と、
    前記特許分類コード情報検索部が検索した特許分類コード情報から、出現回数に応じて特許分類コード情報を選択する第一の特許分類コード情報選択部と、
    前記第一の特許分類コード情報選択部が選択した結果である第一の選択済特許分類コード情報を含む特許分類コード情報を含む情報であって、特許公報を検索するための検索式を示す情報である特許検索式情報を生成する特許検索式情報生成部と、
    前記特許検索式情報生成部が生成した特許検索式情報を出力する特許検索式情報出力部と、を備える情報処理装置。
  2. 前記第一の特許分類コード情報選択部は、
    前記特許分類コード情報検索部が検索した各特許分類コード情報の数の、前記検索キーと一致する用語を含む技術文書情報数、または当該技術文書情報に対応付けられた特許分類コード情報数に対する比率に応じて前記特許分類コード情報を選択する請求項1記載の情報処理装置。
  3. 前記用語記憶部には、技術文書情報に含まれる前記1以上の用語と、当該用語の当該技術文書情報内における出現頻度を示す情報である出現頻度情報と、当該技術文書情報についての前記1以上の特許分類コード情報とが、前記技術文書情報ごとに対応付けて記憶されるものであり、
    前記特許分類コード情報検索部は、前記用語記憶部から、前記検索キーと一致する用語と対応付けられた特許分類コード情報と、出現頻度情報との組みを検索し、
    第一の特許分類コード情報選択部は、
    前記特許分類コード情報検索部が検索した特許分類コード情報の各特許分類コード情報別の出現回数を、検索された特許分類コード情報と組みをなす前記出現頻度情報を用いて重み付けを行って取得し、当該取得した出現回数に応じて、特許分類コード情報を選択する請求項1または請求項2記載の情報処理装置。
  4. 前記第一の特許分類コード情報選択部は、
    前記特許分類コード情報検索部により検索された各特許分類コード情報と組みをなす出現頻度情報が示す値の、各特許分類コード情報別の合計を、特許分類コード情報別の出現回数として取得する請求項3記載の情報処理装置。
  5. 前記第一の特許分類コード情報選択部は、
    前記特許分類コード情報検索部が検索した特許分類コード情報の数を、検索された特許分類コード情報と組みをなす前記出現頻度情報を用いて重み付けを行って取得し、当該取得した特許分類コード情報の数に対する、前記各特許分類コード情報別の出現回数の比率に応じて、前記特許分類コード情報を選択する請求項4記載の情報処理装置。
  6. 前記第一の特許分類コード情報選択部は、
    前記特許分類コード情報検索部が検索した各特許分類コード情報と組みをなす出現頻度情報が示す値の合計を、前記重み付けを行って取得された特許分類コード情報の数として取得する請求項5記載の情報処理装置。
  7. 前記第一の特許分類コード情報選択部は、
    前記特許分類コード情報検索部が検索した各特許分類コード情報の数の、
    前記用語記憶部に記憶されている同じ特許分類コード情報と対応付けられた技術文書情報数に対する比率に応じて、前記特許分類コード情報を選択する請求項1または請求項2記載の情報処理装置。
  8. 前記キーワード情報取得部が取得したキーワード情報を検索キーとし、当該キーワード情報に関連するキーワードを示す情報である関連キーワード情報を検索する関連キーワード情報検索部をさらに備え、
    前記特許分類コード情報検索部は、
    前記キーワード情報または当該関連キーワード情報の少なくとも一方を検索キーとし、前記用語記憶部から当該検索キーと一致する用語に対応付けられた特許分類コード情報を検索する、請求項1から請求項7いずれか記載の情報処理装置。
  9. 前記特許検索式情報生成部は、前記関連キーワード情報を含む特許検索式情報を生成する請求項8記載の情報処理装置。
  10. 技術的な文書を示す情報である技術文書情報と、特許の分類を示すコードの情報である特許分類コード情報と、を対応付けた情報である技術文書対応情報が記憶される技術文書対応情報記憶部と、
    前記技術文書対応情報から、各技術文書情報別に、1以上の用語と1以上の特許分類コード情報とを取得し、取得した用語と特許分類コード情報とを対応付けて前記用語記憶部に蓄積する用語コード取得部とをさらに備えた請求項1から請求項9記載の情報処理装置。
  11. 前記特許分類コード情報は、IPCコードであり、
    前記特許分類コード情報検索部が検索した複数の特許分類コード情報における共通部分を検出し、その共通部分以外の部分を特定の記号を含む文字列に置き換えることで当該特許分類コード情報を正規化する特許分類コード情報正規化部をさらに備え、
    前記特許検索式情報生成部は、
    当該特許分類コード情報正規化部が正規化を行った結果である正規化済特許分類コード情報を含む前記特許検索式情報を生成する、請求項1から請求項10のいずれか記載の情報処理装置。
  12. 前記特許検索式情報生成部は、
    前記キーワード情報取得部が取得したキーワード情報と、前記特許分類コード情報検索部が検索した特許分類コード情報と、を含む特許検索式情報を生成する、請求項1から請求項11いずれか記載の情報処理装置。
  13. 技術的な文書を示す情報である技術文書情報に含まれる1以上の用語と、当該技術文書情報についての特許の分類を示すコードの情報である1以上の特許分類コード情報とが、前記技術文書情報ごとに対応付けて記憶される用語記憶部と、キーワード情報取得部と、特許分類コード情報検索部と、第一の特許分類コード情報選択部と、特許検索式情報生成部と、特許検索式情報出力部とを用いて行われる情報処理方法であって、
    前記キーワード情報取得部が、キーワードを示す情報であるキーワード情報を取得するキーワード情報取得ステップと、
    前記特許分類コード情報検索部が、前記キーワード情報取得ステップで取得したキーワード情報を検索キーとし、前記用語記憶部から当該検索キーと一致する用語に対応付けられた特許分類コード情報を検索する特許分類コード情報検索部と、
    前記第一の特許分類コード情報選択部が、前記特許分類コード情報検索ステップで検索した特許分類コード情報から、出現回数に応じて特許分類コード情報を選択する第一の特許分類コード情報選択ステップと、
    前記特許検索式情報生成部が、前記第一の特許分類コード情報選択ステップで選択した結果である第一の選択済特許分類コード情報を含む特許分類コード情報を含む情報であって、特許公報を検索するための検索式を示す情報である特許検索式情報を生成する特許検索式情報生成ステップと、
    前記特許検索式情報出力部が、前記特許検索式情報生成ステップで生成した特許検索式情報を出力する特許検索式情報出力ステップと、を備える情報処理方法。
  14. コンピュータを、
    キーワードを示す情報であるキーワード情報を取得するキーワード情報取得部と、
    前記キーワード情報取得部が取得したキーワード情報を検索キーとし、技術的な文書を示す情報である技術文書情報に含まれる1以上の用語と、当該技術文書情報についての特許の分類を示すコードの情報である1以上の特許分類コード情報とが、前記技術文書情報ごとに対応付けて記憶される用語記憶部から当該検索キーと一致する用語に対応付けられた特許分類コード情報を検索する特許分類コード情報検索部と、
    前記特許分類コード情報検索部が検索した特許分類コード情報から、出現回数に応じて特許分類コード情報を選択する第一の特許分類コード情報選択部と、
    前記第一の特許分類コード情報選択部が選択した結果である第一の選択済特許分類コード情報を含む特許分類コード情報を含む情報であって、特許公報を検索するための検索式を示す情報である特許検索式情報を生成する特許検索式情報生成部と、
    前記特許検索式情報生成部が生成した特許検索式情報を出力する特許検索式情報出力部として機能させるためのプログラム。
JP2010135983A 2010-06-15 2010-06-15 情報処理装置、情報処理方法、およびプログラム Pending JP2012003381A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010135983A JP2012003381A (ja) 2010-06-15 2010-06-15 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010135983A JP2012003381A (ja) 2010-06-15 2010-06-15 情報処理装置、情報処理方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2012003381A true JP2012003381A (ja) 2012-01-05

Family

ID=45535310

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010135983A Pending JP2012003381A (ja) 2010-06-15 2010-06-15 情報処理装置、情報処理方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2012003381A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018008302A1 (ja) * 2016-07-03 2018-01-11 株式会社ぐるなび 情報提供方法、情報提供プログラム、及び情報提供装置
JP6421963B1 (ja) * 2017-11-19 2018-11-14 径 神谷 検索インデックス推定機、コンピュータプログラム及び検索インデックス推定方法
JP2021140246A (ja) * 2020-03-02 2021-09-16 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11328192A (ja) * 1998-05-13 1999-11-30 Japan Science & Technology Corp 特許分類情報検索処理方法および特許分類情報検索プログラム記憶媒体
JP2002351896A (ja) * 2001-05-29 2002-12-06 Sharp Corp 特許検索装置および特許検索方法
JP2008165401A (ja) * 2006-12-27 2008-07-17 Fujitsu Ltd 文献検索プログラム、文献検索装置、文献検索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11328192A (ja) * 1998-05-13 1999-11-30 Japan Science & Technology Corp 特許分類情報検索処理方法および特許分類情報検索プログラム記憶媒体
JP2002351896A (ja) * 2001-05-29 2002-12-06 Sharp Corp 特許検索装置および特許検索方法
JP2008165401A (ja) * 2006-12-27 2008-07-17 Fujitsu Ltd 文献検索プログラム、文献検索装置、文献検索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNI200400019001; 小林 武: '特許情報検索とFターム検索システム概要' パテント 第41巻,第11号, 19881231, page27-35 *
JPN6014015234; 小林 武: '特許情報検索とFターム検索システム概要' パテント 第41巻,第11号, 19881231, page27-35 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018008302A1 (ja) * 2016-07-03 2018-01-11 株式会社ぐるなび 情報提供方法、情報提供プログラム、及び情報提供装置
JPWO2018008302A1 (ja) * 2016-07-03 2018-10-11 株式会社ぐるなび 情報提供方法、情報提供プログラム、及び情報提供装置
JP2019029034A (ja) * 2016-07-03 2019-02-21 株式会社ぐるなび 情報提供方法、情報提供プログラム、及び情報提供装置
US11232164B2 (en) 2016-07-03 2022-01-25 Gurunavi, Inc. Information providing method, program, and device
JP6421963B1 (ja) * 2017-11-19 2018-11-14 径 神谷 検索インデックス推定機、コンピュータプログラム及び検索インデックス推定方法
JP2019095869A (ja) * 2017-11-19 2019-06-20 径 神谷 検索インデックス推定機、コンピュータプログラム及び検索インデックス推定方法
JP2021140246A (ja) * 2020-03-02 2021-09-16 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
JP7354019B2 (ja) 2020-03-02 2023-10-02 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
Amitay et al. Web-a-where: geotagging web content
JP5448105B2 (ja) 検索キーワードから文書データを検索する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム
CN105824959B (zh) 舆情监控方法及系统
EP2181405B1 (en) Automatic expanded language search
US8126897B2 (en) Unified inverted index for video passage retrieval
US20110295850A1 (en) Detection of junk in search result ranking
WO2002101588A1 (fr) Systeme de gestion de contenus
Weissenbacher et al. Semeval-2019 task 12: Toponym resolution in scientific papers
JP5551025B2 (ja) 特許検索式生成装置、特許検索式生成方法、およびプログラム
CN104008180A (zh) 结构化数据与图片的关联方法与关联装置
KR101011726B1 (ko) 스니펫 제공 장치 및 방법
KR20160066216A (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
KR101478016B1 (ko) 공기 정보를 이용한 문장 클러스터 기반의 정보 검색 장치 및 방법
JP3921837B2 (ja) 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
JP4882040B2 (ja) 情報処理装置、情報処理システム、およびプログラム
JP2012003381A (ja) 情報処理装置、情報処理方法、およびプログラム
JP5518665B2 (ja) 特許検索装置、特許検索方法、およびプログラム
KR101263403B1 (ko) 입력한 단어의 우선 순위 설정에 따른 키워드 검색 장치,방법 및 이를 구현할 수 있는 프로그램이 수록된 컴퓨터로읽을 수 있는 기록매체
JPH1145268A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP4484957B1 (ja) 検索式生成装置、検索式生成方法、およびプログラム
KR102428046B1 (ko) 유사 발명 기술 문서를 통합한 가상 복합 기술문서를 이용한 발명 기술 검색 시스템 및 방법
KR101037091B1 (ko) 자동 언어 번역을 통한 다국어의 전거 표목에 대한 온톨로지 기반 의미 검색 시스템 및 방법
KR102243286B1 (ko) 데이터베이스 구축 방법, 이를 수행하기 위한 기록매체
JP2007128224A (ja) 文書インデキシング装置、文書インデキシング方法及び文書インデキシングプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131115

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140410