JP2008204227A - キーワード付与装置およびキーワード付与プログラム - Google Patents
キーワード付与装置およびキーワード付与プログラム Download PDFInfo
- Publication number
- JP2008204227A JP2008204227A JP2007040490A JP2007040490A JP2008204227A JP 2008204227 A JP2008204227 A JP 2008204227A JP 2007040490 A JP2007040490 A JP 2007040490A JP 2007040490 A JP2007040490 A JP 2007040490A JP 2008204227 A JP2008204227 A JP 2008204227A
- Authority
- JP
- Japan
- Prior art keywords
- information
- keyword
- assigning device
- search
- equal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】キーワード検索における検索の再現率の向上を可能にする。
【解決手段】キーワード付与装置40は、第1の情報と引用関係により関係する第2の情報のキーワードを取得するキーワード取得部41と、取得されたキーワードを、上記第1の情報の索引として、上記第1の情報に付与するキーワード付与部42とを有する。
【選択図】図1
【解決手段】キーワード付与装置40は、第1の情報と引用関係により関係する第2の情報のキーワードを取得するキーワード取得部41と、取得されたキーワードを、上記第1の情報の索引として、上記第1の情報に付与するキーワード付与部42とを有する。
【選択図】図1
Description
本発明は、キーワード付与装置およびキーワード付与プログラムに関する。
情報検索では、検索の抜け漏れを防ぎ、再現率を向上させるために、関連語辞書(シソーラス)を用いてユーザにより指定された検索キーワードと類似の意味を有するキーワードを含む情報も検索結果に加える方法が用いられている。
特許文献1には、キーワードの共起関係に基づいて関連語辞書を作成する関連語辞書作成装置が開示されている。
また、特許文献2には、関連語辞書と、単語の共起関係情報を記述した単語共起データベースとを用いて文書の検索を行う文書検索方法が開示されている。
また、特許文献3には、文書にない語をキーワードとして付与する方式が開示されている。この方式では、文書にキーワードを付与する際、語の間の関連の大きさを保持するキーワードコネクションを用い、該キーワードコネクションの語と文書中から抽出されかつ該語に含まれるキーワード候補語との間の関連の大きさを求め、求めた関連の大きさが所定の値以上の語を該文書のキーワードとする。
キーワード検索における検索の再現率の向上を可能にするキーワード付与装置またはキーワード付与プログラムを提供することを目的とする。
本発明に係るキーワード付与装置は、第1の情報と引用関係により関係する第2の情報のキーワードを取得するキーワード取得手段と、前記取得されたキーワードを、前記第1の情報の索引として、前記第1の情報に付与するキーワード付与手段と、を有することを特徴とする。
本発明の一態様では、前記第2の情報は、前記第1の情報を引用している情報であり、前記キーワード付与装置は、前記第2の情報の数が所定以上である場合に、前記キーワードの付与を行う。
また、本発明の一態様では、前記第2の情報のキーワードのうち、前記第2の情報における重みが所定以上であるキーワードを、前記第1の情報に付与する。
また、本発明の一態様では、前記第2の情報は、前記第1の情報を引用している情報であり、前記キーワード付与装置は、前記第2の情報が複数ある場合には、前記第2の情報のキーワードのうち、前記複数の第2の情報における出現の頻度が所定以上であるキーワードを、前記第1の情報に付与する。
また、本発明の一態様では、前記第2の情報は、前記第1の情報を引用している情報であり、前記キーワード付与装置は、前記第2の情報が複数ある場合には、前記第2の情報のキーワードのうち、前記各第2の情報における重みに基づいて求められる、前記複数の第2の情報からなる集合における重みが所定以上であるキーワードを、前記第1の情報に付与する。
また、本発明の一態様では、前記第1の情報と第2の情報との間の引用関係が遠いほど重みが小さくなるように、前記第2の情報におけるキーワードの重みを前記引用関係の遠さに応じて減衰させた上で、重みが所定以上であるキーワードを、前記第1の情報に付与する。
また、本発明の一態様では、前記第1の情報または第2の情報に引用されている情報の総数に対する、前記第1の情報および第2の情報の両方に引用されている情報の数の割合が所定以上である場合に、前記キーワードの付与を行う。
また、本発明の一態様では、前記第1の情報または第2の情報を引用している情報の総数に対する、前記第1の情報および第2の情報の両方を引用している情報の数の割合が所定以上である場合に、前記キーワードの付与を行う。
また、本発明の一態様では、前記割合が所定以上であり、かつ前記総数が所定以上である場合に、前記キーワードの付与を行う。
本発明に係るキーワード付与プログラムは、コンピュータに、第1の情報と引用関係により関係する第2の情報のキーワードを取得する手順と、前記取得されたキーワードを、前記第1の情報の索引として、前記第1の情報に付与する手順と、を実行させることを特徴とする。
請求項1に記載の発明によれば、キーワード検索における検索の再現率を向上させることが可能となる。
請求項2に記載の発明によれば、第2の情報のキーワードを第1の情報に付与することによる検索精度の低下を抑制することが可能となる。
請求項3に記載の発明によれば、第2の情報のキーワードを第1の情報に付与することによる検索精度の低下を抑制することが可能となる。
請求項4に記載の発明によれば、第2の情報のキーワードを第1の情報に付与することによる検索精度の低下を抑制することが可能となる。
請求項5に記載の発明によれば、第2の情報のキーワードを第1の情報に付与することによる検索精度の低下を抑制することが可能となる。
請求項6に記載の発明によれば、第2の情報のキーワードを第1の情報に付与することによる検索精度の低下を抑制することが可能となる。
請求項7に記載の発明によれば、第2の情報のキーワードを第1の情報に付与することによる検索精度の低下を抑制することが可能となる。
請求項8に記載の発明によれば、第2の情報のキーワードを第1の情報に付与することによる検索精度の低下を抑制することが可能となる。
請求項9に記載の発明によれば、第2の情報のキーワードを第1の情報に付与することによる検索精度の低下を抑制することが可能となる。
請求項10に記載の発明によれば、キーワード検索における検索の再現率を向上させることが可能となる。
以下、本発明の実施の形態を図面に従って説明する。
図1は、本実施の形態に係るキーワード付与装置40を含むキーワード検索システム1の構成の一例を示すブロック図である。
図1において、キーワード検索システム1は、情報記憶装置10、キーワード検索装置20、キーワード付与装置30、およびキーワード付与装置40を有する。
本実施の形態では、キーワード検索装置20およびキーワード付与装置30,40は、コンピュータであり、各装置の機能は、ROM(Read Only Memory)やハードディスク装置等の記録媒体に記録されたプログラムがメインメモリに読み出されてCPU(Central Processing Unit)により実行されることによって実現される。上記のプログラムは、CD−ROM等の記録媒体に記録されて提供されることも可能であるし、データ信号として通信により提供されることも可能である。また、情報記憶装置10は、ハードディスク装置等の記憶装置により実現される。
ただし、キーワード検索システム1の物理的な構成は、特に限定されない。例えば、装置20〜40の機能は、ハードウェアのみにより実現されてもよい。また、装置10〜40は、物理的に別々の装置により実現されてもよいし、物理的に1つの装置により実現されてもよい。
情報記憶装置10は、検索対象の情報と、当該情報の索引語であるキーワードとを互いに関連付けて記憶する。ここで、検索対象の情報は、例えば、特許文献(公開特許公報や特許掲載公報等)、論文、Webページなどの文書である。情報記憶装置10は、例えば、検索対象の各情報を識別する情報識別子と当該情報識別子により識別される情報とを互いに関連づけて記憶する情報データベースと、情報識別子と当該情報識別子により識別される情報のキーワードとを互いに関連づけて記憶する索引データベースとを含んで構成されてもよい。
キーワード検索装置20は、情報記憶装置10に記憶されている情報を検索する。キーワード検索装置20は、検索要求受付部21、検索部22、および検索結果出力部23を含む。
検索要求受付部21は、検索語としてのキーワード(以下、「検索キーワード」と称す)を含む検索要求を受け付ける。例えば、検索要求受付部21は、キーボードやマウス等のユーザインタフェースを介してユーザから、またはインターネット等の通信路を介して外部の装置から、検索キーワードを含む検索要求を受け付ける。
検索部22は、検索要求受付部21により受け付けられた検索要求に基づき、情報記憶装置10に登録されているキーワードを利用して、情報記憶装置10に記憶されている情報を検索する。例えば、検索部22は、情報記憶装置10を参照して、検索要求に含まれるキーワードと関連付けられている情報を検索する。この場合、検索部22は、関連語辞書を用いて、検索キーワードに関連するキーワードに関連付けられている情報を検索してもよい。
検索結果出力部23は、検索部22による検索の結果を出力する。例えば、検索結果出力部23は、検索された情報を、表示装置に表示させたり、印刷装置に印刷させたり、記憶装置等の装置に出力したりする。
キーワード付与装置30は、検索対象の情報から抽出されるキーワードを、当該情報に索引として付与する。キーワード付与装置30は、キーワード取得部31と、キーワード付与部32とを含む。
キーワード取得部31は、検索対象の情報から抽出されるキーワードを取得する。ここで、取得されるキーワードは、例えば、情報の特徴を表す特徴語である。キーワード取得部31は、例えば、情報記憶装置10に記憶されている情報の各々から、キーワードを抽出して取得する。ただし、キーワード取得部31は、他の方法でキーワードを取得してもよく、例えばユーザインタフェースを介してユーザからキーワードを取得してもよい。
キーワード付与部32は、キーワード取得部31により取得された、検索対象の情報から抽出されたキーワードを、索引として当該情報に付与する。具体的には、キーワード付与部32は、検索対象の情報から抽出されたキーワードを、当該情報と関連付けて情報記憶装置10に登録する。当該キーワード付与部32により付与された索引語としてのキーワードは、上記検索部22による検索処理に用いられる。
キーワード付与装置40は、ある情報と引用関係により関係する情報のキーワードを、上記ある情報の索引として、上記ある情報に付与する。以降の説明では、キーワード付与装置30により付与されるキーワードと区別するため、キーワード付与装置40により付与されるキーワードを適宜「拡張キーワード」と称する。キーワード付与装置40は、キーワード取得部41と、キーワード付与部42とを含む。
キーワード取得部41は、第1の情報と引用関係により関係する第2の情報のキーワードを取得する。ここで、キーワード取得部41は、上記第2の情報のキーワードとして、情報記憶装置10に第2の情報と関連付けて既に登録されているキーワードを取得してもよいし、情報記憶装置10に記憶されている第2の情報からキーワードを抽出して取得してもよい。既に登録されているキーワードを取得する場合、キーワード取得部41は、既に登録されている拡張キーワードを取得してもよい。
ここで、図2を用いて、上記「引用関係」について説明する。図2に示されるように、各情報を点で表し、ある情報が他の情報を引用している場合に両情報を表す2つの点を線で結ぶこととする。この場合において、2つの点が線で結ばれているとき、または2つの点が別の1つ以上の点を介して線で結ばれているとき、当該2つの点に対応する2つの情報は引用関係により関係している。図2の例では、情報A,Bは引用関係により関係しており、情報C,Dも引用関係により関係している。
上記の「ある情報が他の情報を引用している場合」としては、例えば、ある文献(特許文献や論文等)が他の文献(特許文献や論文等)を引用する記載を含む場合や、あるWebページが他のWebページへのリンクを含む場合などが挙げられる。また、ある特許出願に対する拒絶理由が記載された文書(拒絶理由通知書や拒絶査定の謄本)については、当該ある特許出願と当該文書とを一体の特許情報とし、当該文書に記載されている引用文献を、当該特許情報が引用している情報として扱ってもよい。
キーワード付与部42は、キーワード取得部41により取得されたキーワードを、上記第1の情報の索引として、上記第1の情報に付与する。具体的には、キーワード付与部42は、取得された上記第2の情報のキーワードを、上記第1の情報と関連付けて情報記憶装置10に登録する。当該キーワード付与部42により付与された検索語としての拡張キーワードは、上記検索部22による検索処理に用いられる。なお、キーワード付与装置30により付与されるキーワードとキーワード付与装置40により付与される拡張キーワードとは、情報記憶装置10において、一つの態様では互いに区別されて記憶され、別の一つの態様では互いに区別されることなく記憶される。
なお、キーワード付与装置40は、情報記憶装置10に記憶されている情報群に基づいて情報間の引用関係を認識してもよいし、ユーザや外部の装置から情報間の引用関係を示す情報を受け取り、当該引用関係を示す情報に基づいて情報間の引用関係を認識してもよい。
図3は、本実施の形態に係るキーワード付与装置40の動作手順の一例を示すフローチャートである。
図3において、キーワード付与装置40は、第1の情報と引用関係により関係する第2の情報のキーワードを取得する(S1)。
ついで、キーワード付与装置40は、取得されたキーワードを、上記第1の情報の索引として、上記第1の情報に付与する(S2)。
図4〜6は、それぞれ、キーワード付与装置40による拡張キーワードの付与の例を示す概念図である。
図4の例では、誘導加熱定着技術の基本発明に係る特許文献D1を、その後の特許出願に係る特許文献D2が引用している。そして、引用元の特許文献D2には、キーワードとして「トナー」や「重合」などの他に「誘導加熱定着」が付与されているが、引用先の特許文献D1には、「誘導加熱定着」はキーワードとして付与されていない。これは、基本発明に係る特許文献D1が作成された段階では、「誘導加熱定着」という用語が一般的でなかったためである。
図4において、キーワード付与装置40は、特許文献D2(第2の情報)のキーワードのうち、特許文献D1(第1の情報)に付与されていないキーワードである「誘導加熱定着」を、拡張キーワードとして特許文献D1に付与する。
図4の例において、仮に上記拡張キーワードの付与が行われないと、「誘導加熱定着」を検索キーワードとして検索した場合、基本発明に係る特許文献D1は検索で漏れることとなる。一方、上記拡張キーワードの付与が行われる場合、特許文献D1が検索される。
図5の例では、ある会社Xの出願に係る特許文献Dxを、別の会社Yの出願に係る特許文献Dyが引用している。そして、特許文献Dxには、キーワードとして会社Xで使用されている技術用語Txが付与されているが、特許文献Dyには当該技術用語Txは付与されていない。また、特許文献Dyには、キーワードとして会社Yで使用されている技術用語Tyが付与されているが、特許文献Dxには当該技術用語Tyは付与されていない。
図5において、キーワード付与装置40は、特許文献Dxのキーワードである技術用語Txを拡張キーワードとして特許文献Dyに付与し、特許文献Dyのキーワードである技術用語Tyを拡張キーワードとして特許文献Dxに付与する。
図5の例において、仮に上記拡張キーワードの付与が行われないと、技術用語Txを検索キーワードとして検索を行った場合には特許文献Dyが検索から漏れ、技術用語Tyを検索キーワードとして検索を行った場合には特許文献Dxが検索から漏れることとなる。一方、上記拡張キーワードの拡張が行われた場合、技術用語TxまたはTyの何れを検索キーワードとしても、特許文献DxおよびDyの両方が検索される。
図6の例では、会社Aの出願に係る特許文献Daおよび会社Bの出願に係る特許文献Dbが、同一の特許文献Dを引用している。そして、特許文献Daには、キーワードとして会社Aで使用されている技術用語Taが付与されているが、特許文献Dbには当該技術用語Taは付与されていない。また、特許文献Dbには、キーワードとして会社Bで使用されている技術用語Tbが付与されているが、特許文献Daには当該技術用語Tbは付与されていない。
図6において、キーワード付与装置40は、特許文献Daのキーワードである技術用語Taを拡張キーワードとして特許文献Dbに付与し、特許文献Dbのキーワードである技術用語Tbを拡張キーワードとして特許文献Daに付与する。
図6の例において、仮に上記拡張キーワードの付与が行われないと、技術用語Taを検索キーワードとして検索を行った場合には特許文献Dbが検索から漏れ、技術用語Tbを検索キーワードとして検索を行った場合には特許文献Daが検索から漏れることとなる。一方、上記拡張キーワードの拡張が行われた場合、技術用語TaまたはTbの何れを検索キーワードとしても、特許文献DaおよびDbの両方が検索される。
ところで、本実施の形態における一つの態様では、キーワード付与装置40は、第1の情報と引用関係により関係する全ての情報の全てのキーワードを、第1の情報に拡張キーワードとして付与する。なお、この場合、既に第1の情報に付与されているキーワードについては、拡張キーワードとして付与しなくてもよい。
また、別の一つの態様では、拡張キーワードの付与による検索精度の低下を軽減する観点より、キーワード付与装置40は、第1の情報と引用関係により関係する情報のキーワードのうち、所定の条件を満たすものを拡張キーワードとして付与する。すなわち、拡張キーワードの付与を制限する。
以下、拡張キーワードの付与を制限する態様の例として、第1〜第8の態様を示す。なお、以下に示される各態様は、互いに組み合わされてもよい。
(第1の態様)
本態様では、キーワード付与装置40は、第1の情報と特定の引用関係により関係する情報のキーワードを第1の情報に付与し、上記特定の引用関係以外の引用関係により関係する情報のキーワードについては第1の情報への付与を行わない。
本態様では、キーワード付与装置40は、第1の情報と特定の引用関係により関係する情報のキーワードを第1の情報に付与し、上記特定の引用関係以外の引用関係により関係する情報のキーワードについては第1の情報への付与を行わない。
(第2の態様)
本態様では、第2の情報は、第1の情報を引用している情報であり、キーワード付与装置40は、第2の情報の数が所定以上である場合に、第1の情報へのキーワードの付与を行い、所定以上でない場合には、キーワードの付与を行わない。すなわち、キーワード付与装置40は、被引用情報を引用している引用元情報の数が所定数以上であれば、引用元情報のキーワードを被引用情報に拡張キーワードとして付与し、所定数以上でなければ、拡張キーワードの付与を行わない。
本態様では、第2の情報は、第1の情報を引用している情報であり、キーワード付与装置40は、第2の情報の数が所定以上である場合に、第1の情報へのキーワードの付与を行い、所定以上でない場合には、キーワードの付与を行わない。すなわち、キーワード付与装置40は、被引用情報を引用している引用元情報の数が所定数以上であれば、引用元情報のキーワードを被引用情報に拡張キーワードとして付与し、所定数以上でなければ、拡張キーワードの付与を行わない。
(第3の態様)
本態様では、キーワード付与装置40は、第2の情報のキーワードのうち、第2の情報における重みが所定以上であるキーワードを第1の情報に付与し、重みが所定以上でないキーワードについては第1の情報に付与しない。この態様では、例えば、第2の情報のキーワードのうち、重みが所定の閾値以上であるキーワードのみが、拡張キーワードとして第1の情報に付与される。ここで、上記の重みは、TFIDF(Term Frequency-Inverted Document Frequency)等の重み付け法により予めキーワードに付与されている重みであり、例えば情報記憶装置10においてキーワードに関連付けて予め記憶されている。
本態様では、キーワード付与装置40は、第2の情報のキーワードのうち、第2の情報における重みが所定以上であるキーワードを第1の情報に付与し、重みが所定以上でないキーワードについては第1の情報に付与しない。この態様では、例えば、第2の情報のキーワードのうち、重みが所定の閾値以上であるキーワードのみが、拡張キーワードとして第1の情報に付与される。ここで、上記の重みは、TFIDF(Term Frequency-Inverted Document Frequency)等の重み付け法により予めキーワードに付与されている重みであり、例えば情報記憶装置10においてキーワードに関連付けて予め記憶されている。
(第4の態様)
本態様では、第2の情報は、第1の情報を引用している情報であり、キーワード付与装置40は、第2の情報が複数ある場合には、第2の情報のキーワードのうち、複数の第2の情報における出現の頻度が所定以上であるキーワードを第1の情報に付与し、所定以上でないキーワードについては第1の情報に付与しない。具体的には、キーワード付与装置40は、被引用情報を引用する引用元情報が複数ある場合には、引用元情報のキーワードの引用元情報群における出現頻度を計算し、当該出現頻度が所定の閾値以上のキーワードのみを被引用情報に付与する。
本態様では、第2の情報は、第1の情報を引用している情報であり、キーワード付与装置40は、第2の情報が複数ある場合には、第2の情報のキーワードのうち、複数の第2の情報における出現の頻度が所定以上であるキーワードを第1の情報に付与し、所定以上でないキーワードについては第1の情報に付与しない。具体的には、キーワード付与装置40は、被引用情報を引用する引用元情報が複数ある場合には、引用元情報のキーワードの引用元情報群における出現頻度を計算し、当該出現頻度が所定の閾値以上のキーワードのみを被引用情報に付与する。
ここで、引用元情報群におけるキーワードの出現頻度としては、例えば、当該キーワードを含む引用元情報の数を引用元情報の数で除した値や、引用元情報群における当該キーワードの出現回数を引用元情報の数で除した値、引用元情報群における当該キーワードの出現回数などが挙げられる。
(第5の態様)
本態様では、第2の情報は、第1の情報を引用している情報であり、キーワード付与装置40は、第2の情報が複数ある場合には、第2の情報のキーワードのうち、各第2の情報における重みに基づいて求められる、複数の第2の情報からなる集合における重みが所定以上であるキーワードを第1の情報に付与し、所定以上でないキーワードについては第1の情報に付与しない。具体的には、キーワード付与装置40は、被引用情報を引用する引用元情報が複数ある場合には、各引用元情報におけるキーワードの重みに基づき、引用元情報群における当該キーワードの重みを計算し、当該重みが所定の閾値以上であるキーワードのみを被引用情報に付与する。
本態様では、第2の情報は、第1の情報を引用している情報であり、キーワード付与装置40は、第2の情報が複数ある場合には、第2の情報のキーワードのうち、各第2の情報における重みに基づいて求められる、複数の第2の情報からなる集合における重みが所定以上であるキーワードを第1の情報に付与し、所定以上でないキーワードについては第1の情報に付与しない。具体的には、キーワード付与装置40は、被引用情報を引用する引用元情報が複数ある場合には、各引用元情報におけるキーワードの重みに基づき、引用元情報群における当該キーワードの重みを計算し、当該重みが所定の閾値以上であるキーワードのみを被引用情報に付与する。
ここで、引用元情報群におけるキーワードの重みとしては、例えば、当該キーワードの各引用元情報における重みの和や、当該和を引用元情報の数で除した値(すなわち重みの平均値)などが挙げられる。
(第6の態様)
本態様では、キーワード付与装置40は、第1の情報と第2の情報との間の引用関係が遠いほど重みが小さくなるように、第2の情報におけるキーワードの重みを引用関係の遠さに応じて減衰させた上で、重みが所定以上であるキーワードを第1の情報に付与し、所定以上でないキーワードについては第1の情報に付与しない。
本態様では、キーワード付与装置40は、第1の情報と第2の情報との間の引用関係が遠いほど重みが小さくなるように、第2の情報におけるキーワードの重みを引用関係の遠さに応じて減衰させた上で、重みが所定以上であるキーワードを第1の情報に付与し、所定以上でないキーワードについては第1の情報に付与しない。
図7は、第6の態様の一例を説明するための図である。図7において、拡張キーワード付与の対象である対象文書D0は一次近傍の文書D1に引用されており、文書D1は二次近傍の文書D2に引用されており、以下同様に、(N−1)次近傍の文書DN-1はN次近傍の文書DNに引用されている。
キーワード付与装置40は、一次近傍、二次近傍、・・・、N次近傍の文書のキーワードを、対象文書D0に拡張キーワードとして付与する。
キーワード付与装置40は、n次近傍(nは正の整数)の文書Dnのキーワードを対象文書D0に付与する場合、次の処理を行う。すなわち、キーワード付与装置40は、文書Dnにおけるキーワードの重みwに対して係数ξn-1を乗じて新たな重みw’を算出する。ここで、0<ξ<1である。そして、キーワード付与装置40は、新たな重みw’が所定の閾値以上であるキーワードのみを対象文書D0に拡張キーワードとして付与する。
(第7の態様)
本態様では、キーワード付与装置40は、第1の情報または第2の情報に引用されている情報の総数に対する、第1の情報および第2の情報の両方に引用されている情報の数の割合が所定以上である場合に、第1の情報への拡張キーワードの付与を行い、所定以上でなければ、拡張キーワードの付与を行わない。上記割合が所定以上である場合、キーワード付与装置40は、第2の情報のキーワードを第1の情報に付与するとともに、第1の情報のキーワードを第2の情報に付与してもよい。分かり易く言えば、第1の情報と第2の情報とでキーワードを共有させてもよい。
本態様では、キーワード付与装置40は、第1の情報または第2の情報に引用されている情報の総数に対する、第1の情報および第2の情報の両方に引用されている情報の数の割合が所定以上である場合に、第1の情報への拡張キーワードの付与を行い、所定以上でなければ、拡張キーワードの付与を行わない。上記割合が所定以上である場合、キーワード付与装置40は、第2の情報のキーワードを第1の情報に付与するとともに、第1の情報のキーワードを第2の情報に付与してもよい。分かり易く言えば、第1の情報と第2の情報とでキーワードを共有させてもよい。
具体的には、キーワード付与装置40は、下記式(1)に従って引用類似度S1を算出し、引用類似度S1が所定の閾値以上であれば、拡張キーワードの付与を行う。
ここで、O1は第1の情報に引用されている情報の集合を表し、O2は第2の情報に引用されている情報の集合を表し、N(S)は集合Sの要素数を表す。
当該第7の態様において、少ない引用を過度に評価してしまうことを防止する観点より、キーワード付与装置40は、上記割合が所定以上であり、かつ上記総数が所定以上である場合に、拡張キーワードの付与を行い、上記総数が所定以上でなければ拡張キーワードの付与を行わないこととしてもよい。具体的には、キーワード付与装置40は、引用類似度S1が所定の閾値以上であり、かつ、上記式(1)の分母に当たる、集合O1および集合O2の和集合の要素数が所定の閾値以上であれば、拡張キーワードの付与を行い、所定の閾値以上でなければ拡張キーワードの付与を行わない。
(第8の態様)
本態様では、キーワード付与装置40は、第1の情報または第2の情報を引用している情報の総数に対する、第1の情報および第2の情報の両方を引用している情報の数の割合が所定以上である場合に、第1の情報への拡張キーワードの付与を行い、所定以上でなければ、拡張キーワードの付与を行わない。上記割合が所定以上である場合、キーワード付与装置40は、第2の情報のキーワードを第1の情報に付与するとともに、第1の情報のキーワードを第2の情報に付与してもよい。分かり易く言えば、第1の情報と第2の情報とでキーワードを共有させてもよい。
本態様では、キーワード付与装置40は、第1の情報または第2の情報を引用している情報の総数に対する、第1の情報および第2の情報の両方を引用している情報の数の割合が所定以上である場合に、第1の情報への拡張キーワードの付与を行い、所定以上でなければ、拡張キーワードの付与を行わない。上記割合が所定以上である場合、キーワード付与装置40は、第2の情報のキーワードを第1の情報に付与するとともに、第1の情報のキーワードを第2の情報に付与してもよい。分かり易く言えば、第1の情報と第2の情報とでキーワードを共有させてもよい。
具体的には、キーワード付与装置40は、下記式(2)に従って被引用類似度S2を算出し、被引用類似度S2が所定の閾値以上であれば、拡張キーワードの付与を行う。
ここで、I1は第1の情報を引用している情報の集合を表し、I2は第2の情報を引用している情報の集合を表し、N(S)は集合Sの要素数を表す。
当該第8の態様において、少ない引用を過度に評価してしまうことを防止する観点より、キーワード付与装置40は、上記割合が所定以上であり、かつ上記総数が所定以上である場合に、拡張キーワードの付与を行い、上記総数が所定以上でなければ拡張キーワードの付与を行わないこととしてもよい。具体的には、キーワード付与装置40は、被引用類似度S2が所定の閾値以上であり、かつ、上記式(2)の分母に当たる、集合I1および集合I2の和集合の要素数が所定の閾値以上であれば、拡張キーワードの付与を行い、所定の閾値以上でなければ拡張キーワードの付与を行わない。
なお、本発明は、上記実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内で種々変更することができる。
1 キーワード検索システム、10 情報記憶装置、20 キーワード検索装置、21 検索要求受付部、22 検索部、23 検索結果出力部、30 キーワード付与装置、31 キーワード取得部、32 キーワード付与部、40 キーワード付与装置、41 キーワード取得部、42 キーワード付与部。
Claims (10)
- 第1の情報と引用関係により関係する第2の情報のキーワードを取得するキーワード取得手段と、
前記取得されたキーワードを、前記第1の情報の索引として、前記第1の情報に付与するキーワード付与手段と、
を有することを特徴とするキーワード付与装置。 - 請求項1に記載のキーワード付与装置であって、
前記第2の情報は、前記第1の情報を引用している情報であり、
前記キーワード付与装置は、前記第2の情報の数が所定以上である場合に、前記キーワードの付与を行う、
ことを特徴とするキーワード付与装置。 - 請求項1に記載のキーワード付与装置であって、
前記第2の情報のキーワードのうち、前記第2の情報における重みが所定以上であるキーワードを、前記第1の情報に付与する、
ことを特徴とするキーワード付与装置。 - 請求項1に記載のキーワード付与装置であって、
前記第2の情報は、前記第1の情報を引用している情報であり、
前記キーワード付与装置は、前記第2の情報が複数ある場合には、前記第2の情報のキーワードのうち、前記複数の第2の情報における出現の頻度が所定以上であるキーワードを、前記第1の情報に付与する、
ことを特徴とするキーワード付与装置。 - 請求項1に記載のキーワード付与装置であって、
前記第2の情報は、前記第1の情報を引用している情報であり、
前記キーワード付与装置は、前記第2の情報が複数ある場合には、前記第2の情報のキーワードのうち、前記各第2の情報における重みに基づいて求められる、前記複数の第2の情報からなる集合における重みが所定以上であるキーワードを、前記第1の情報に付与する、
ことを特徴とするキーワード付与装置。 - 請求項1に記載のキーワード付与装置であって、
前記第1の情報と第2の情報との間の引用関係が遠いほど重みが小さくなるように、前記第2の情報におけるキーワードの重みを前記引用関係の遠さに応じて減衰させた上で、重みが所定以上であるキーワードを、前記第1の情報に付与する、
ことを特徴とするキーワード付与装置。 - 請求項1に記載のキーワード付与装置であって、
前記第1の情報または第2の情報に引用されている情報の総数に対する、前記第1の情報および第2の情報の両方に引用されている情報の数の割合が所定以上である場合に、前記キーワードの付与を行う、
ことを特徴とするキーワード付与装置。 - 請求項1に記載のキーワード付与装置であって、
前記第1の情報または第2の情報を引用している情報の総数に対する、前記第1の情報および第2の情報の両方を引用している情報の数の割合が所定以上である場合に、前記キーワードの付与を行う、
ことを特徴とするキーワード付与装置。 - 請求項7または8に記載のキーワード付与装置であって、
前記割合が所定以上であり、かつ前記総数が所定以上である場合に、前記キーワードの付与を行う、
ことを特徴とするキーワード付与装置。 - コンピュータに、
第1の情報と引用関係により関係する第2の情報のキーワードを取得する手順と、
前記取得されたキーワードを、前記第1の情報の索引として、前記第1の情報に付与する手順と、
を実行させることを特徴とするキーワード付与プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007040490A JP2008204227A (ja) | 2007-02-21 | 2007-02-21 | キーワード付与装置およびキーワード付与プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007040490A JP2008204227A (ja) | 2007-02-21 | 2007-02-21 | キーワード付与装置およびキーワード付与プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008204227A true JP2008204227A (ja) | 2008-09-04 |
Family
ID=39781659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007040490A Pending JP2008204227A (ja) | 2007-02-21 | 2007-02-21 | キーワード付与装置およびキーワード付与プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008204227A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014067374A (ja) * | 2012-09-27 | 2014-04-17 | Konami Digital Entertainment Co Ltd | 検索用インデックス構築装置、検索用インデックス構築方法、及び、検索用インデックス構築装置のプログラム |
-
2007
- 2007-02-21 JP JP2007040490A patent/JP2008204227A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014067374A (ja) * | 2012-09-27 | 2014-04-17 | Konami Digital Entertainment Co Ltd | 検索用インデックス構築装置、検索用インデックス構築方法、及び、検索用インデックス構築装置のプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101721338B1 (ko) | 검색 엔진 및 그의 구현 방법 | |
JP5116775B2 (ja) | 情報検索方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体 | |
CN107111614B (zh) | 使用统计流数据进行不同语言之间的机器翻译 | |
KR100974906B1 (ko) | 위치와 관련하여 신뢰성 있는 문서를 식별하는 시스템 및 방법 | |
US9069867B2 (en) | Resource management system, method and program for selecting candidate tag | |
CN107291792B (zh) | 用于确定相关实体的方法和系统 | |
US20140146053A1 (en) | Generating Alternative Descriptions for Images | |
US20080010275A1 (en) | Method, system, and medium for retrieving photo using multimodal information | |
US20060129550A1 (en) | Associating documents with classifications and ranking documents based on classification weights | |
JP2010515996A (ja) | 検索結果を提供する方法およびこの方法を実行するシステム | |
JP2005302042A (ja) | マルチセンスクエリについての関連語提案 | |
KR20080046670A (ko) | 문서 사용 통계치를 사용한 랭킹 함수 | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
US10235427B2 (en) | Entity-driven logic for improved name-searching in mixed-entity lists | |
JP2006073012A (ja) | 予め定められた個数の予め定義された質問に応答することによって情報を管理するシステムおよび方法 | |
US20200278989A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
KR20160066216A (ko) | 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체 | |
KR20190138623A (ko) | 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램 | |
JP2020123321A (ja) | クリップボードデータに基づく検索処理方法および装置 | |
JP2008204227A (ja) | キーワード付与装置およびキーワード付与プログラム | |
JP5832869B2 (ja) | カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法 | |
JP2003208447A (ja) | 文書検索装置、文書検索方法、文書検索プログラム及び文書検索プログラムを記録した媒体 | |
KR101188939B1 (ko) | 검색 결과를 제공하는 방법 및 상기 방법을 수행하는시스템 | |
US20080021875A1 (en) | Method and apparatus for performing a tone-based search | |
JP2020016960A (ja) | 推定装置、推定方法及び推定プログラム |