以下、本発明による関連用語取得装置、及び技術動向情報作成装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。
(実施の形態1)
本発明の実施の形態1による関連用語取得装置について、図面を参照しながら説明する。
図1は、本実施の形態による関連用語取得装置1の構成を示すブロック図である。図1において、本実施の形態による関連用語取得装置1は、文献情報記憶部11と、用語情報受付部12と、文献情報取得部13と、引用文献情報取得部14と、関連用語情報取得部15と、関連用語情報出力部16とを備える。
文献情報記憶部11では、2以上の文献情報が記憶される。ここで、文献情報とは、文献を示す情報である。文献は、論文、特許書類(例えば、出願公開公報、特許公報等)、Webページ、官報、書籍等の何らかのまとまりを有する文書であればどのようなものでもよい。一の文献情報には、対応する一の文献の情報(データ)が含まれる。ただし、一の文献情報には、後の処理で必要となる範囲の情報が含まれているだけであってもよい。例えば、学術論文の文献情報である場合に、その学術論文の参考文献とタイトルのみを後の処理で用いる場合には、文献情報記憶部11で記憶される文献情報は、参考文献とタイトルのみを有する情報であってもよい。文献情報は、テキストファイルであってもよく、あるいは、ワープロソフト等の独自形式のファイルであってもよい。文献情報がテキストファイルである場合に、そのテキストファイルでは、タグを用いて文書を記述するマークアップ言語によって記述されていてもよく、あるいは、対応する文献の内容が単にテキストデータによって示されていてもよい。文献情報は、少なくともその一部に構造を有するものとする。ここで、その構造は、タグや見出し等によって明示されていてもよく、あるいは、明示されていなくてもよい。後者の場合には、例えば、文献情報で示される文献のあるパラグラフを読むことによって、そこに要約が記載されていることがわかり、他のパラグラフを読むことによって、そこに目的が記載されていることがわかる、というものでもよい。構造が明示されている場合に、その構造は、文献情報の有する情報であり、文献情報の構造を記述する情報である構造記述情報によって示されてもよく、そうでなくてもよい。ここで、構造記述情報とは、例えば、日本の特許明細書で使用されている見出しのタグや、HTMLファイルで使用されているタグ等である。構造記述情報以外によって文献情報の構造が記述されている場合としては、例えば、通常の論文のように、「要約」や、「参考文献」等の見出しのテキストデータが文献情報に含まれる場合がある。文献情報記憶部11で記憶される2以上の文献情報には、少なくとも、他の文献を引用している文献を示す文献情報が含まれるものとする。ある文献情報において引用されている他の文献のことを引用文献と呼ぶことにする。他の文献を引用している文献を示す文献情報には、引用文献を識別する情報である引用文献識別情報が含まれる。ここで、引用文献識別情報は、引用文献を識別することができる情報であれば、その内容を問わない。引用文献識別情報は、例えば、特許番号や、特許出願の出願公開番号、PMID(PubMed Identifier)等の引用文献を識別するIDであってもよく、著者名、タイトル、著作年月日、媒体に関する情報(雑誌名、出版社名、URL等)等の引用文献を識別しうる文献の書誌情報であってもよい。文献情報記憶部11は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。文献情報記憶部11にユーザ属性対応情報が記憶される過程は問わない。例えば、記録媒体を介して文献情報が文献情報記憶部11で記憶されるようになってもよく、通信回線等を介して送信された文献情報が文献情報記憶部11で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された文献情報が文献情報記憶部11で記憶されるようになってもよい。
用語情報受付部12は、用語情報を受け付ける。ここで、用語情報とは、用語を示す情報である。この用語情報は、一般に用語のテキストを示す情報であるが、用語を示す情報であればそれ以外であってもよい。関連用語取得装置1では、この用語情報受付部12で受け付けられた用語情報で示される用語に関連する用語である関連用語が取得される。用語情報受付部12は、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された情報を受け付けてもよく、有線もしくは無線の通信回線を介して送信された情報を受信してもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された情報を受け付けてもよい。なお、用語情報受付部12は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、用語情報受付部12は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
なお、用語情報受付部12は、用語情報以外の情報を受け付けてもよい。例えば、関連用語取得装置1によって取得された関連用語情報によって何らかの検索等を行う場合に、その検索で用いる検索キー(例えば、検索で用いる国際特許分類等)を用語情報と共に受け付けてもよい。そのような場合でも、以下の文献情報の取得等の処理は、用語情報受付部12の受け付けた用語情報を用いてなされるものとする。
文献情報取得部13は、用語情報受付部12が受け付けた用語情報の示す用語を文献情報の全部または一部に有する文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索する。用語を文献情報の全部に有する文献情報とは、その用語が文献情報のいずれかの箇所に含まれていることをいう。一方、用語を文献情報の一部に有する文献情報とは、その用語が文献情報の一部の領域、例えば、タイトルや、特許請求の範囲等のあらかじめ決められている領域に含まれることをいう。文献情報取得部13が用語情報の示す用語を文献情報の一部に有する文献情報を検索する場合には、例えば、その文献情報の一部に対応する項目を示す情報が図示しない記録媒体において記憶されており、文献情報取得部13は、その記録媒体から項目を示す情報を読み出して、上記の検索を行ってもよい。
文献情報取得部13は、検索された文献情報の全部、またはその検索された文献情報の一部を文献情報記憶部11から取得する。文献情報取得部13が、検索された文献情報の一部を取得する場合には、その文献情報の一部は、検索された文献情報において引用している他の文献を識別する情報である引用文献識別情報を少なくとも有する部分である。したがって、文献情報取得部13によって、少なくとも引用文献識別情報を含む文献情報の全部または一部が取得されることになる。文献情報取得部13が文献情報の一部を取得する場合には、例えば、文献情報取得部13は、引用文権識別情報を少なくとも含むと考えられる参考文献(Reference)の欄や、特許文献、非特許文献の欄を取得してもよく、あるいは、パターンマッチング等の技術を用いて、引用文献識別情報の存在する領域を特定し、その領域を含む文献情報の一部を取得してもよい。前者の場合には、例えば、取得する部分に対応する項目を示す情報が図示しない記録媒体において記憶されており、文献情報取得部13は、その記録媒体から項目を示す情報を読み出して、その項目に対応する文献情報の一部を取得してもよい。また、後者の場合には、例えば、パターンマッチング等で用いるパターン等を示す情報が図示しない記録媒体において記憶されており、文献情報取得部13は、その記録媒体からパターン等を読み出してパターンマッチング等を行うことによって文献情報の一部を取得してもよい。文献情報取得部13が、用語情報の示す用語を文献情報の一部に有する文献情報を検索し、また、文献情報取得部13が、検索された文献情報の一部を取得する場合に、その検索で用いる文献情報の一部と、取得対象となる文献情報の一部とは、文献情報の同じ部分であってもよく、文献情報の異なる部分であってもよい。
引用文献情報取得部14は、引用文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索する。ここで、引用文献情報とは、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す文献情報である。そして、引用文献情報取得部14は、その検索された引用文献情報の一部を文献情報記憶部11から取得する。引用文献情報取得部14が取得する引用文献情報の一部は、あらかじめ決められている項目に対応する引用文献情報の部分である。あらかじめ決められている項目に対応する部分とは、その項目について記載されている部分のことである。項目とは、文書において区分されうる領域のことであり、例えば、タイトル、発明の名称、要約(アブストラクト)、特許請求の範囲、請求項、請求項の前提部(プリアンブル)、1番目に記載されている請求項(以下、「第1請求項」とする)、第1請求項に従属する請求項、発明の目的、発明の効果等である。あらかじめ決められている項目は、単一の項目であってもよく、2以上の項目であってもよい。その項目は、引用文献情報において顕在化していてもよく、あるいは、顕在化していなくてもよい。項目が顕在化しているとは、その項目に対応する部分が引用文献情報において明示されていることである。例えば、項目名がテキストで表示されることによって項目が顕在化していてもよく、あるいは、タグが用いられることにより、項目が顕在化していてもよい。項目が顕在化していないとは、項目が顕在化している場合のように項目に対応する部分が引用文献情報において明示されていないことである。例えば、項目立てをしないで文書が記載されている場合などが該当する。そのような場合であっても、引用文献情報取得部14は、文書の所定の部分にどのような項目の記載がなされているのかを知ることができうる。
ここで、引用文献情報取得部14が、あらかじめ決められている項目に対応する引用文献情報の部分を取得する処理について説明する。あらかじめ決められている項目を示す情報が、引用文献情報取得部14がアクセス可能な図示しない記録媒体において記憶されている場合に、引用文献情報取得部14は、その記録媒体にアクセスして項目を示す情報を読み出す。そして、項目が引用文献情報において顕在化している場合には、引用文献情報取得部14は、その読み出した項目に対応する引用文献情報の部分を取得する。一方、項目が引用文献情報において顕在化していない場合には、引用文献情報取得部14は、その項目に対応する引用文献情報の部分を特定し、その特定した引用文献情報の部分を取得する。次に、項目に対応する引用文献情報の部分の特定について説明する。例えば、引用文献情報取得部14は、特定すべき各項目に対応する条件を示す条件情報を図示しない記録媒体において保持している。そして、引用文献情報取得部14は、ある項目に対応する引用文献情報の部分を特定する場合には、その項目に対応する条件情報を取得し、その条件情報に対応する引用文献情報の部分を特定する。
なお、文献情報に構造記述情報が含まれる場合には、引用文献情報取得部14は、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される引用文献を示す引用文献情報の一部であって、構造記述情報によって、あらかじめ決められている項目に対応付けられている部分を取得してもよい。
また、引用文献情報取得部14が、結果として上述のような引用文献情報の一部を取得することができるのであれば、その過程は問わない。例えば、文献情報取得部13が引用文献識別情報として引用文献のタイトルを含む情報を取得し、引用文献情報取得部14が項目「タイトル」に対応する引用文献情報の一部を取得する場合には、引用文献情報取得部14は、文献情報取得部13が取得した引用文献識別情報から、引用文献情報のタイトルに対応する部分を取得することによって、引用文献情報の一部を取得してもよい。
関連用語情報取得部15は、引用文献情報取得部14が取得した引用文献情報の一部から、関連用語情報を取得する。ここで、関連用語情報とは、用語情報受付部12が受け付けた用語情報の示す用語に関連する関連用語を示す情報である。関連用語情報取得部15の詳細な構成については、図2を用いて後述する。
関連用語情報出力部16は、関連用語情報取得部15が取得した関連用語情報を出力する。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよい。なお、関連用語情報出力部16は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、関連用語情報出力部16は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
図2は、関連用語情報取得部15の構成を示すブロック図である。図2において、関連用語情報取得部15は、関連用語候補情報取得手段21と、関連度算出手段22と、関連用語情報決定手段23とを備える。
関連用語候補情報取得手段21は、引用文献情報取得部14が取得した引用文献情報の一部における関連用語の候補となる情報である関連用語候補情報を、引用文献情報取得部14が取得した引用文献情報の一部から取得する。関連用語候補情報取得手段21は、取得した関連用語候補情報を図示しない記録媒体に蓄積してもよい。ここで、関連用語候補情報を取得する種々の方法についてここで説明する。
[関連用語候補情報の取得方法1]
関連用語候補情報取得手段21は、引用文献情報取得部14が取得した引用文献情報の一部について形態素解析を行い、単名詞、及び/または、複合名詞を示す情報を関連用語候補情報として取得してもよい。関連用語候補情報取得手段21は、単名詞等を示す情報に加えて、未知語を示す情報も関連用語候補情報として取得してもよい。ここで、形態素解析とは、自然言語の文書を形態素に分割し、その形態素の品詞を見分ける処理である。形態素解析を行うソフトウェアとして、日本では奈良先端科学技術大学院大学で開発された「ChaSen(茶筌)」(http://chasen.naist.jp)等が知られている。茶筌を用いることにより、例えば、名詞類を示す情報を取得することができる。ここで、名詞類とは、単名詞や未知語、またはこれらが連接した複合名詞である。また、英単語に品詞を付与するソフトウェアとしては、「TnT」(http://www.coli.uni−saarland.de/〜thorsten/tnt/)や「Brill Tagger」(http://www.cs.jhu.edu/〜brill/)等が知られている。単名詞等を示す情報を関連用語候補情報として取得する方法については、上記非特許文献4等で開示されており、従来から知られているため、その詳細な説明を省略する。
[関連用語候補情報の取得方法2]
関連用語候補情報取得手段21は、引用文献情報取得部14が取得した引用文献情報の一部から、専門用語を示す情報を関連用語候補情報として取得してもよい。ここで、専門用語を示す情報を取得する方法について説明する。まず、関連用語候補情報取得手段21は、上記の「関連用語候補情報の取得方法1」と同様にして、引用文献情報取得部14が取得した引用文献情報の一部から、単名詞等を示す情報を抽出する。そして、各単名詞等について専門用語である可能性を示すスコア付けを行い、高いスコアを付与された単名詞等を示す情報を関連用語候補情報として取得する。ここで、スコアを付与する方法して、複数の種類が知られている。
(造語能力に基づくスコア付け)
造語能力とは、単名詞の複合語の構成しやすさを示す尺度である。その造語能力の高い名詞を含む単名詞等を示す情報には、高いスコアが付与される。ここで、造語能力を示す指標として連接頻度を用いてもよい。連接頻度とは、ある語に連接する語の異なり数の多さのことであり、ある語の直前または直後に現れる語の種類の多さのことである。すなわち、連接頻度とは、その語がいかに多くの複合名詞に含まれやすいか、換言すれば、いかに複合名詞を構成しやすいかを示す尺度である。このようにして、造語能力に基づいて各単名詞等にスコアを与えることができる。なお、複合名詞においては、構成要素である単名詞のスコアの相乗平均を複合名詞のスコアとして与えてもよい。
(出現頻度に基づくスコア付け)
注目している単名詞等をtとする。また、そのtの構成語数をnとする。その場合に、tに対応するスコアを次のように算出する。
tのスコア=(tの出現頻度)/(語数をnとする単名詞等の平均出現頻度)
ここで、上記式中の「単名詞等」とは、関連用語候補情報取得手段21が抽出した単名詞等である。ここで、tの出現頻度、及び語数をnとする単名詞等の平均出現頻度は、引用文献情報取得部14が取得した引用文献情報の一部において算出される。なお、tのスコアとして、単に「tの出現頻度」を用いてもよい。
また、上記説明以外の方法を用いて、スコア付けを行ってもよく、また、上記説明以外の方法を用いて、専門用語を示す情報を関連用語候補情報として取得してもよい。専門用語を示す情報を関連用語候補情報として取得する方法については、上記非特許文献1、上記非特許文献3、並びに下記の複数の文献において開示されており、従来から知られているため、その詳細な説明を省略する。
文献:Hiroshi Nakagawa、「Automatic Term Recognition based on Statistics of Compound Nouns」、Terminology、Vol.6、No.2、p.195−210、2000
文献:大畑博一、中川裕志、「連接異なり語数による専門用語抽出」、情報処理学会研究報告、2000−NL−136、p.119−126
文献:中川裕志、森辰則、湯本紘彰、「出現頻度と連接頻度に基づく専門用語抽出」、自然言語処理、Vol.10 No.1、p.27−45、2003年1月
[関連用語候補情報の取得方法3]
関連用語候補情報取得手段21は、引用文献情報取得部14が取得した引用文献情報の一部の構造を解析して、名詞のまとまりを特定し、特定した名詞のまとまりに含まれる単名詞等を示す情報を関連用語候補情報として取得してもよい。ここで、名詞のまとまりとは、1以上の単名詞を含むまとまりである。例えば、引用文献情報取得部14が取得した引用文献情報の一部が、次に示されるような特許出願書類の請求項であったとする。
『操作手段によりアクチュエータを駆動して所望の作業を行う作業機において,前記作業の作業機構に作成する負荷を検出する負荷検出手段と,この負荷検出手段の検出値に応じた周波数の信号を出力する第1の周波数変換器と,当該負荷検出手段の検出値に応じた周波数のパルスを出力する第2の周波数変換器と,前記第1の周波数変換器から出力される信号を前記第2の周波数変換器からのパルスの出力期間だけ間欠的に出力する変調手段と,この変調手段の出力に応じて振動を発生する振動発生手段とを設けたことを特徴とする作業機の操作用仮想振動生成装置。』
請求項では、一般に次のような構造的特徴が存在する。一つ目は、請求項の末尾に「名詞のまとまり」が存在する、という特徴である。上記の例では、「作業機の操作用仮想振動生成装置」がその名詞のまとまりに該当する。二つ目は、「において、」や「であって、」などの文字列によって請求項が前半部と後半部に分割される場合に、「において、」や「であって、」の直前にも、末尾と同様の「名詞のまとまり」が存在する、という特徴である。上記の例では、「作業機」がその名詞のまとまりに該当する。したがって、関連用語候補情報取得手段21は、請求項の末尾の名詞のまとまりと、「において、」等の直前の名詞のまとまりとを取得し、それらの名詞のまとまりに含まれる単名詞等を示す情報を関連用語候補情報として取得してもよい。関連用語候補情報取得手段21は、「において、」等の直前の名詞のまとまりの場所を、「において、」等を手がかり句として特定することができる。ここでは、特許出願書類の請求項について説明したが、それ以外の構造が設定されている文書においても、同様にして名詞のまとまりを特定することができ、関連用語候補情報を取得することができる。
なお、文書の構造を解析して、名詞のまとまりを特定し、特定した名詞のまとまりに含まれる単名詞等を示す情報を取得する方法については、下記の複数の文献において開示されており、従来から知られているため、その詳細な説明を省略する。
文献:新森昭宏、奥村学、丸川雄三、岩山真、「手がかり句を用いた特許請求項の構造解析」、情報処理学会論文誌、Vol.45、No.3、p.891−905、2004年
文献:特開2004−164054号公報
なお、関連用語候補情報取得手段21は、頻出する一般的な名詞等を示す情報を、関連用語候補情報から除外してもよい。例えば、関連用語候補情報取得手段21は、除外すべき名詞等を示す情報を1以上、図示しない記録媒体において保持しておき、関連用語候補情報として取得した情報に、除外すべき名詞等を示す情報のいずれかが含まれる場合には、その情報を関連用語候補情報から除外してもよい。除外すべき名詞等は、例えば、方法、記載、発行、文献等である。
関連度算出手段22は、関連用語候補情報取得手段21が取得した関連用語候補情報の示す用語の関連度を、関連用語候補情報ごとに算出する。関連度算出手段22は、その算出した関連度と、関連用語候補情報取得手段21が取得した関連用語候補情報とを対応付けて図示しない記録媒体に蓄積してもよい。
ここで、関連度の算出方法について説明する。関連度算出手段22は、関連用語候補情報の関連度を、その関連用語候補情報の示す用語が、引用文献情報取得部14が取得した引用文献情報の一部(なお、引用文献情報の一部が1以上取得されている場合には、それらの集合)に出現する頻度としてもよい。また、関連度算出手段22は、各関連用語候補情報について、「関連用語候補情報の取得方法2」で説明した、専門用語である可能性を示すスコア、例えば、造語能力に基づくスコア、出現頻度に基づくスコア、あるいは連接頻度に基づくスコアを算出し、そのスコアを関連度としてもよい。なお、この場合において、関連用語候補情報取得手段21においてスコアがすでに算出されている場合には、関連度算出手段22は、そのスコアを関連用語候補情報取得手段21から取得してもよく、あるいは、新たにスコアの算出を行ってもよい。したがって、関連度算出手段22による関連度の算出には、関連度の取得を含むものとする。また、関連度算出手段22は、関連用語候補情報の示す用語の出現頻度と、上記のスコアとの両方を用いて関連度を算出してもよい。例えば、その両者を加算して関連度を算出してもよく、その両者を乗算して関連度を算出してもよい。
関連用語情報決定手段23は、関連用語候補情報取得手段21が取得した関連用語候補情報のうち、対応する関連度が上位の関連用語候補情報を、関連用語情報に決定する。関連用語情報決定手段23は、例えば、関連用語候補情報取得手段21が取得した関連用語候補情報のうち、対応する関連度が上位から一定数量(例えば、30個等)、あるいは一定割合(例えば、30%等)の関連用語候補情報を関連用語情報に決定してもよく、対応する関連度が所定のしきい値以上の関連用語候補情報を関連用語情報に決定してもよく、あるいは、その他の方法により、対応する関連度が上位の関連用語候補情報を関連用語情報に決定してもよい。より具体的には、関連用語情報決定手段23は、関連度算出手段22が算出した関連度をソートし、そのソートした関連度の上位に対応する関連用語候補情報を選択して、図示しない記録媒体に関連用語情報として蓄積することによって、関連用語情報の決定を行う。この図示しない記録媒体に蓄積された関連用語情報が、関連用語情報出力部16によって出力される関連用語情報である。関連用語情報決定手段23は、関連用語情報を図示しない記録媒体に蓄積してもよい。この場合には、その蓄積された関連用語情報が関連用語情報出力部16によって読み出され、出力されることになる。
次に、本実施の形態による関連用語取得装置1の動作について、フローチャートを用いて説明する。図3は、関連用語取得装置1の全体動作を示すフローチャートである。
(ステップS101)用語情報受付部12は、用語情報を受け付けたかどうか判断する。そして、用語情報を受け付けた場合には、ステップS102に進み、そうでない場合には、用語情報を受け付けるまで、ステップS101の処理を繰り返す。
(ステップS102)文献情報取得部13は、用語情報受付部12が受け付けた用語情報の示す用語を文献情報の全部または一部に有する文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索し、検索された文献情報の全部、またはその検索された文献情報の一部であって、その検索された文献情報において引用している他の文献を識別する情報である引用文献識別情報を少なくとも有する部分を文献情報記憶部11から取得する。この処理の詳細については、図4のフローチャートを用いて後述する。
(ステップS103)引用文献情報取得部14は、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索し、検索された引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を文献情報記憶部11から取得する。この処理の詳細については、図5のフローチャートを用いて後述する。
(ステップS104)関連用語情報取得部15は、引用文献情報取得部14が取得した引用文献情報の一部から、用語情報受付部12が受け付けた用語情報の示す用語に関連する関連用語を示す情報である関連用語情報を取得する。この処理の詳細については、図6のフローチャートを用いて後述する。
(ステップS105)関連用語情報出力部16は、関連用語情報取得部15が取得した関連用語情報を出力する。そして、ステップS101に戻る。
なお、図3のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
図4は、図2のフローチャートにおけるステップS102の文献情報の取得処理の詳細について示すフローチャートである。
(ステップS201)文献情報取得部13は、用語情報受付部12で受け付けられた用語情報を全部または一部に含む文献情報を文献情報記憶部11で記憶されている2以上の文献情報から検索する。
(ステップS202)文献情報取得部13は、カウンタiを1に設定する。
(ステップS203)文献情報取得部13は、ステップS201で検索されたi番目の文献情報が存在するかどうか判断する。そして、存在する場合には、ステップS204に進み、存在しない場合には、一連の処理は終了となり、図3のフローチャートのステップS103に進む。
(ステップS204)文献情報取得部13は、検索されたi番目の文献情報の全部または一部を取得する。検索されたi番目の文献情報の一部を取得する場合には、前述のように、引用文献識別情報を少なくとも含む部分を取得するものとする。なお、検索されたi番目の文献情報において、引用文献識別情報が全く含まれない場合には、文献情報取得部13は、何も取得しなくてもよい。
(ステップS205)文献情報取得部13は、カウンタiを1だけインクリメントして、ステップS203に戻る。
図5は、図2のフローチャートにおけるステップS103の引用文献情報の取得処理の詳細について示すフローチャートである。
(ステップS301)引用文献情報取得部14は、カウンタiを1に設定する。
(ステップS302)引用文献情報取得部14は、文献情報取得部13が取得したi番目の文献情報が存在するかどうか判断する。そして、存在する場合には、ステップS303に進み、存在しない場合には、一連の処理は終了となり、図2のフローチャートのステップS104に進む。
(ステップS303)引用文献情報取得部14は、文献情報取得部13が取得したi番目の文献情報に含まれるすべての引用文献識別情報を取得する。
(ステップS304)引用文献情報取得部14は、カウンタjを1に設定する。
(ステップS305)引用文献情報取得部14は、ステップS303で取得したj番目の引用文献識別情報が存在するかどうか判断する。そして、存在する場合には、ステップS307に進み、存在しない場合には、ステップS306に進む。
(ステップS306)引用文献情報取得部14は、カウンタiを1だけインクリメントする。そして、ステップS302に戻る。
(ステップS307)引用文献情報取得部14は、ステップS303で取得したj番目の引用文献識別情報で識別される引用文献情報を文献情報記憶部11から検索し、その検索された引用文献情報のあらかじめ決められている部分を文献情報記憶部11から取得する。
(ステップS308)引用文献情報取得部14は、ステップS307で取得した引用文献情報の一部がすでに取得されたものであるかどうか判断する。そして、すでに取得されたものである場合には、ステップS310に進み、そうでない場合には、ステップS309に進む。
(ステップS309)引用文献情報取得部14は、ステップS307で取得した引用文献情報の一部を一時的に記憶する。このステップS309において追記されていく引用文献情報の一部が、最終的に引用文献情報取得部14によって取得された引用文献情報の一部となる。
(ステップS310)引用文献情報取得部14は、カウンタjを1だけインクリメントする。そして、ステップS305に戻る。
図6は、図2のフローチャートにおけるステップS104の関連用語情報の取得処理の詳細について示すフローチャートである。
(ステップS401)関連用語候補情報取得手段21は、引用文献情報取得部14によって取得された引用文献情報の一部(引用文献情報の一部が2以上取得されている場合には、その引用文献情報の一部の2以上の集合)、すなわち、ステップS309において一時的に記憶された引用文献情報の一部から関連用語候補情報を取得する。
(ステップS402)関連度算出手段22は、カウンタiを1に設定する。
(ステップS403)関連度算出手段22は、関連用語候補情報取得手段21によって引用文献情報の一部から取得されたi番目の関連用語候補情報が存在するかどうか判断する。そして、存在する場合には、ステップS404に進み、存在しない場合には、ステップS407に進む。
(ステップS404)関連度算出手段22は、関連用語候補情報取得手段21によって引用文献情報の一部から取得されたi番目の関連用語候補情報の関連度を算出する。
(ステップS405)関連用語情報決定手段23は、ステップS404で算出された関連度を、対応する関連用語候補情報に対応付けて一時記憶する。ここで、ステップS404で算出された関連度に対応する関連用語候補情報とは、関連用語候補情報取得手段21によって引用文献情報の一部から取得されたi番目の関連用語候補情報のことである。
(ステップS406)関連度算出手段22は、カウンタiを1だけインクリメントする。そして、ステップS403に戻る。
(ステップS407)関連用語情報決定手段23は、ステップS405で一時記憶した関連度をソートする。
(ステップS408)関連用語情報決定手段23は、ステップS407でソートした上位の関連度に対応する関連用語候補情報を、関連用語情報に決定する。そして、一連の処理は終了となり、図2のフローチャートのステップS105に進む。
次に、本実施の形態による関連用語取得装置1によって得られる具体的な効果を示す実験例について説明する。この実験例では、文献情報取得部13が取得する文献情報は学術論文であるとする。一方、引用文献情報取得部14が取得する引用文献情報は特許に関する文献情報であるとする。したがって、関連用語取得装置1に学術論文用語を示す用語情報を入力することにより、その学術論文用語に関連する特許用語を示す関連用語情報が出力されることになる。ここで、学術論文用語とは、学術論文において比較的多く用いられる用語(例えば、DRAMやワードプロセッサなどの具体的な下位の用語)であり、特許用語とは、特許書類において比較的多く用いられる用語(例えば、半導体記憶装置や文書編集装置などの抽象的な上位の用語)である。
この実験例では、特許公開公報(1993年〜2002年)の情報が文献情報記憶部11で記憶される文献情報に含まれる。また、その特許公開公報中の引用論文の書誌情報約85000件も文献情報記憶部11で記憶される文献情報に含まれる。なお、特許公開公報から、その特許公開公報で引用されている論文の書誌情報を抽出する方法としては、次の文献で開示されている方法を用いた。
文献:安善奈津美、難波英嗣、相沢輝昭、奥村学、「特許、論文データベースを統合した検索環境の構築」、情報処理学会研究報告、NL−168、p.21−26、2005年
まず、用語情報受付部12が受け付ける用語情報について説明する。文献情報記憶部11で記憶されている特許公開公報の情報から名詞を抽出する。そして、その抽出した名詞を頻度順に並べ、その頻度の高いものから論文用語25語を人手で選択する。具体的には、「CPU」、「半導体レーザ」、「DRAM」、「メモリセル」、「ワードプロセッサ」、「ノボラック樹脂」、「CD」等を選択した。
この実験例において、引用文献情報取得部14が取得する引用文献情報の箇所のパターンは以下の通りである。
(パターン1)引用文献の第1請求項、すなわち、特許請求の範囲の1番目に記載されている請求項を示す情報を引用文献情報の一部として取得する。
(パターン2)引用文献の全請求項、すなわち、特許請求の範囲に記載されているすべての請求項を示す情報を引用文献情報の一部として取得する。
(パターン3)引用文献の第1請求項を示す情報と、その第1請求項に従属する請求項である従属請求項を示す情報とを引用文献情報の一部として取得する。ここで、第1請求項に従属する請求項には、第1請求項に直接従属する請求項だけでなく、第1請求項に他の請求項を介して従属している請求項も含まれる。
また、この実験例において、関連用語候補情報取得手段21が関連用語候補情報を取得するパターンは以下の通りである。
(パターンA)関連用語候補情報の取得方法1で説明したように、引用文献情報の一部について形態素解析を行い、名詞を関連用語候補として取得する。
(パターンB)関連用語候補情報の取得方法3で説明したように、引用文献情報の一部から名詞のまとまりを特定し、その名詞のまとまりに含まれる名詞を関連用語候補として取得する。
なお、関連用語候補情報取得手段21は、所定の不要語句リストを用いて、その不要語句リストに含まれる語句と一致する関連用語候補を取得しないものとする。「方法」や「記載」等の用語は、分野を問わず多くの特許請求項に出現するため、そのような用語を関連用語候補から除外するためである。不要語句リストは、10年分の特許公開公報に含まれる名詞を出現頻度順に並べ、頻度の高いものの中から人手で不要語句リストに含める語句を選択した。例えば、方法、記載、発行、文献、使用、利用、詳細、製造、提案、製造方法、データ等の合計350個の不要語句が不要語句リストに含まれる。
また、この実験例においては、引用文献情報の一部を取得することについての効果を検証するため、関連度算出手段22における関連度の算出は行わないものとする。また、関連用語情報決定手段23において、関連用語候補情報取得手段21が取得した関連用語候補情報をそのまま関連用語情報に決定するものとする。
このような状況の下、上述の25個の各用語情報を用語情報受付部12が受け付け、その用語情報に関連する関連用語情報を関連用語情報出力部16が出力するまでの処理を実行した。関連用語情報出力部16は、関連用語情報を所定の記録媒体に蓄積するものとする。その後、その関連用語情報を用いて、検証を行った。
この検証では、以下の基準により、関連用語情報の正否の判定を行った。
(基準1)概念的に最も近い用語のみ正解
例えば、用語情報「ワードプロセッサ」に対して、関連用語情報「文書編集装置」を正解とし、ワードプロセッサの構成要素である関連用語情報「表示装置」は不正解とした。
(基準2)特許データベース中の出現頻度
ある用語の出現頻度が特許データベース中で極端に低い場合は、その用語は特許の関連用語の取得を行う上で有用でないと考え、不正解とした。
(基準3)基準1で選択されたものとの比較
ある用語が上記(基準2)を満たさない場合でも、その用語が上記(基準1)で選択されたものと概念的にほぼ等しいと判断される場合には、低頻度でも正解とした。例えば、用語情報「ワードプロセッサ」に対して、関連用語情報「文書編集装置」と概念的にほぼ等しい関連用語情報「文書作成装置」も正解であるとした。「レーザ」と「レーザー」のような表記のゆれについても、一方の関連用語情報が正解と判定されていれば、もう一方も正解とした。
また、この検証では、次式の評価尺度εを用いた。これは、質問応答システムの評価において一般的に用いられるMRR(mean reciprocal rank)を拡張したものであり、次の文献で開示されている。
文献:清田陽司、黒橋禎夫、木戸冬子、「自動抽出した換喩表現を用いた係り受け関係のずれの解消」、自然言語処理、Vol.11、No.4、p.127−145、2004年
ここで、nは入力に対する正解の数である。Rは出力されたリスト中の正解順位番号の集合である。εは正解がすべて最上位に順位付けされたときに、最大値1をとる。
図7は、この実験例の結果を示す表である。図7において、IDは、各実験例を識別するために設定されている。ID6の実験例は、他の実験例でのベースラインとなる実験例であり、用語情報と高頻度で共起する名詞を抽出し、その名詞を関連用語としたものである。このベースラインとなるID6の実験例が、従来からの関連用語の取得において用いられている手法である。図7の表からわかるように、ID1の実験例とID2の実験例とを比較すると、単に名詞を取得するのみでなく、請求項における名詞のまとまりから名詞を取得した方が優れていることがわかる。また、ID3の実験例と、ID4の実験例とを比較すると、やはり単に名詞を取得するのみでなく、請求項における名詞のまとまりから名詞を取得した方が勝っている。このことから、単に名詞を取得するのみでなく、請求項における名詞のまとまりから名詞を取得することが有効であることがわかる。
次に、請求項間の関係を考慮することが有効であるかどうかについて検討する。ID2,4,5の実験結果を比較すると、第1請求項とその従属請求項を用いたID5の実験結果が最もすぐれており、第1請求項しか用いないID2の実験結果が最も悪い結果となった。ID2の実験結果が悪い原因は、引用文献の一部を取得する箇所の制限が強すぎ、ノイズが減るだけでなく、取得できた正解数も減ったことである。全請求項を使ったID3の実験例は、ID2の実験例と比べると抽出できた正解の数は大きいものの、不正解のものも数多く抽出してしまっているため、ID5の実験例に劣る結果となっている。
各手法において、1つの特許公開公報から名詞を抜き出す際に、請求項をいくつ用いているのか調べたところ、図8で示される結果となった。ID5の実験例は、ID4の実験例と比べて取得対象となる請求項の数が4割未満であるにもかかわらず、精度がID4の実験例よりも高くなっていることから、第1請求項とその従属請求項内に高い確率で正解が含まれていることがわかる。
以上のように、本実施の形態による関連用語取得装置1によれば、引用文献情報の一部を取得することによって、効果的な関連用語情報の取得を行うことができうる。したがって、受け付けられた用語情報に関連する関連用語情報を適切に取得することができる関連用語取得装置1を提供することができる。
なお、引用文献情報取得部14が取得する引用文献情報の一部は、関連用語情報を適切に取得できる部分であれば、どのような部分であってもよい。例えば、引用文献情報が特許文書を示す情報であり、引用文献情報取得部14が取得する、あらかじめ決められている項目に対応する引用文献情報の部分は、独立請求項の部分であってもよい。独立請求項とは、他の請求項に従属しない請求項のことである。引用文献情報取得部14は、ある請求項が独立請求項であるかどうかを、例えば、次のようにして判断してもよい。引用文献情報取得部14は、注目している請求項に他の請求項を参照する記載、すなわち、「請求項N」の記載が存在するかどうか判断し、存在する場合には、その注目している請求項が独立請求項でないと判断し、存在しない場合には、その注目している請求項が独立請求項であると判断する。ここで、「N」は1以上の任意の整数である。また、例えば、引用文献情報が特許文書を示す情報であり、引用文献情報取得部14が取得する、あらかじめ決められている項目に対応する引用文献情報の部分は、発明の効果を記載している部分であってもよい。発明の効果を記載している部分は、例えば、項目「発明の効果」に対応する部分であってもよく、文書の内容から発明の効果が記載されていると判断される部分であってもよい。後者の場合に、その発明の効果を記載している部分を特定する方法としては、例えば、「以上のように」か「このように」から始まり、「効果」、「可能」、「できる」のいずれかの言葉が含まれているパラグラフを発明の効果を記載している部分として特定する方法などがある。また、引用文献情報が特許文書を示す情報であり、引用文献情報取得部14が取得する、あらかじめ決められている項目に対応する引用文献情報の部分は、請求項の前提部以外の部分であってもよい。請求項の前提部とは、請求項のいわゆるプリアンブルと呼ばれる部分であって、一般に、請求項中の「において」や「であって」よりも以前に記載される部分である。したがって、請求項の前提部以外の部分とは、請求項の特徴的な記載のなされている部分であって、一般に、請求項中の「において」や「であって」よりも後に記載されている部分である。請求項にプリアンブルが記載されていない場合には、請求項の全体が前提部以外の部分となる。
(実施の形態2)
本発明の実施の形態2による関連用語取得装置について、図面を参照しながら説明する。本実施の形態による関連用語取得装置は、引用文献構造情報取得部をさらに備えたものである。
図9は、本実施の形態による関連用語取得装置2の構成を示すブロック図である。図9において、本実施の形態による関連用語取得装置2は、文献情報記憶部11と、用語情報受付部12と、文献情報取得部13と、引用文献情報取得部14と、関連用語情報取得部15と、関連用語情報出力部16と、引用文献構造情報取得部31とを備える。引用文献構造情報取得部31以外の構成及び動作は、実施の形態1と同様であり、その説明を省略する。
引用文献構造情報取得部31は、文献情報記憶部11で記憶されている引用文献情報の1以上の部分と、その部分の項目との対応を示す情報である引用文献構造情報を取得する。引用文献構造情報は、項目と、その項目に対応する引用文献情報の部分とを対応付けることができる情報であれば、その情報の構造は問わない。例えば、引用文献構造情報は、タグによって項目と、その項目に対応する部分とを示してもよい。すなわち、引用文献情報において、<効果>と、</効果>とで挟まれた領域が、項目「効果」に対応する部分であってもよい。この場合には、引用文献構造情報は、文献情報記憶部11で記憶されてもよい。また、例えば、引用文献構造情報は、項目「効果」に対応付けて、その項目「効果」に対応する引用文献情報の部分を示す情報を有してもよい。この場合には、引用文献構造情報は、文献情報記憶部11で引用文献情報に対応付けられて保持されてもよく、あるいは、引用文献構造情報取得部31や他の構成要素が有する図示しない記録媒体において保持されてもよい。後者の場合には、引用文献識別情報に対応付けて引用文献構造情報を保持することが好適である。引用文献情報の部分を示す情報とは、例えば、引用文献情報の部分の先端の位置と、後端の位置とを示す情報であってもよい。先端や後端の位置は、例えば、引用文献情報の先端からのバイト数で示されてもよく、あるいは、ページ数と行数などで示されてもよい。
ここで、引用文献構造情報取得部31がある項目に対応する部分をどのように特定するのかについて説明する。例えば、引用文献構造情報取得部31は、特定すべき各項目に対応する条件を示す条件情報を図示しない記録媒体において保持している。そして、その条件情報に対応する引用文献情報の部分を特定し、その部分に項目を対応付けることによって引用文献構造情報を取得する。例えば、項目「効果」に対応する条件情報が、「以上のように」か「このように」からパラグラフが始まり、そのパラグラフに「効果」、「可能」、「できる」のいずれかの言葉が含まれていることであるとする。すると、引用文献構造情報取得部31は、その条件にあうパラグラフを特定し、そのパラグラフを項目「効果」に対応付けることによって引用文献構造情報を取得することができる。また、例えば、項目「請求項の特徴的記載」に対応する条件情報が、請求項に含まれている部分であって、「であって」や「において」に続く部分であり、句点「。」で終わる部分であるとする。すると、引用文献構造情報取得部31は、その条件にあう部分を特定し、その部分を項目「請求項の特徴的記載」に対応付けることによって引用文献構造情報を取得することができる。なお、請求項の特徴的記載を取得する方法などについては、前述の文献『新森昭宏、奥村学、丸川雄三、岩山真、「手がかり句を用いた特許請求項の構造解析」、情報処理学会論文誌、Vol.45、No.3、p.891−905、2004年』に記載されている。
次に、本実施の形態による関連用語取得装置2の全体動作について、図10のフローチャートを用いて説明する。なお、ステップS501、S502以外の処理は、実施の形態1の図3のフローチャートと同様であり、その説明を省略する。ただし、ステップS103において、引用文献情報取得部14は、引用文献構造情報取得部31が取得した引用文献構造情報を用いて、引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を取得するものとする。
(ステップS501)引用文献構造情報取得部31は、引用文献構造情報をすでに取得しているかどうか判断する。そして、取得していない場合には、ステップS502に進み、すでに取得している場合には、ステップS102に進む。
(ステップS502)引用文献構造情報取得部31は、文献情報記憶部11で記憶されている引用文献情報のすべてについて、引用文献構造情報を取得する。ここで、文献情報記憶部11で記憶されている文献情報のうち、いずれが引用文献情報であるのかについては、文献情報を取得するまではわからないため、引用文献構造情報取得部31は、文献情報記憶部11で記憶されているすべての文献情報について引用文献構造情報を取得するものとする。
なお、図10のフローチャートでは、引用文献構造情報を一括して取得する場合について説明したが、ある引用文献情報の一部を取得する場合であって、その引用文献情報の引用文献構造情報がまだ取得されていない場合に、その引用文献情報の引用文献構造情報のみを取得するようにしてもよい。このようにする方が、不要な引用文献構造情報の取得を行わないこととなり、処理負荷が軽減されることになる。
また、引用文献構造情報の取得は、関連用語取得装置2において関連用語の取得処理を行っていないとき、すなわち、関連用語取得装置2における処理負荷の大きくないときにあらかじめ行っていてもよい。
このように、本実施の形態による関連用語取得装置2によれば、引用文献構造情報を用いて引用文献情報の一部を取得するため、引用文献情報において文献の構造が顕在化していない場合であっても、引用文献構造情報を用いることによって、引用文献の所望の部分の取得を容易に行うことができうることになる。
(実施の形態3)
本発明の実施の形態3による関連用語取得装置について、図面を参照しながら説明する。本実施の形態による関連用語取得装置は、文献情報における引用文献の引用形式に応じた項目に対応する引用文献情報の一部を取得するものである。
本実施の形態による関連用語取得装置の構成は、実施の形態1の図1,図2で示されるものと同様であり、その説明を省略する。なお、文献情報取得部13は、文献情報の一部を取得する場合に、引用文献識別情報を少なくとも有する部分であって、引用情報を少なくとも有する部分を取得する。また、引用文献情報取得部14は、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報の一部であって、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用情報における引用形式に応じてあらかじめ決められている項目に対応する部分を取得する。また、引用文献情報取得部14が引用形式に応じてあらかじめ決められている項目に対応する部分を取得することには、引用形式が所定の形式である場合には、引用文献情報の一部の取得を行わない場合を含むものとする。
ここで、引用情報とは、引用文献識別情報で識別される文献についての記述を示す情報である。文献情報において、例えば、引用情報は引用文献識別情報と同じ領域に存在してもよく、引用情報は引用文献識別情報と異なる領域に存在してもよい。前者の場合としては、例えば、引用文献識別情報が背景技術の領域に記載されており、引用文献識別情報そのものによって、引用文献が引用されている場合である。特許明細書等においては、このような引用がなされている場合がある。一方、後者の場合としては、例えば、引用文献識別情報は参考文献の欄にまとめて記載されており、文献の本文において、その参考文献の欄に記載されている引用文献識別情報に対応する所定のインデックスによって引用文献が引用されている場合である。学術文献においては、このような引用がなされている場合が多い。ここで、インデックスとは、例えば、1、2、3…や、1)、2)、3)…、[1]、[2]、[3]…、[A]、[B]、[C]…、特許文献1、特許文献2、特許文献3…、非特許文献1、非特許文献2、非特許文献3…等であり、引用文献識別情報を特定できるものであれば、どのようなものであってもよい。引用文献識別情報そのものによって、引用文献が引用されている場合には、引用情報は、その引用文献識別情報を含む情報となる。引用文献識別情報を含む情報とは、例えば、引用文献識別情報を含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。引用文献識別情報に対応する所定のインデックスによって引用文献が引用されている場合には、引用情報は、そのインデックスを含む情報となる。インデックスを含む情報とは、例えば、インデックスを含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。文献情報において、引用情報と引用文献識別情報とが異なる領域に存在する場合であって、文献情報取得部13が文献情報の一部を取得する場合には、文献情報取得部13は、両者を含むひとまとまりの文献情報の部分を取得してもよく、あるいは、両者をそれぞれ含む2以上の文献情報の部分を取得してもよい。また、文献情報取得部13が引用情報を有する文献情報の全部または一部を取得する場合に、その引用情報は文献情報の全部または一部において顕在化していてもよく、あるいは、顕在化していなくてもよい。前者の場合には、文献情報の全部または一部において引用情報の部分が容易にわかることになる。
次に、引用情報における引用形式について説明する。引用形式には、例えば、引用文献の問題を指摘する形式である問題指摘型引用形式(以下、「タイプC」の引用形式と呼ぶこともある)と、引用文献を論説の根拠に取り込む形式である論説根拠型引用形式(以下、「タイプB」の引用形式と呼ぶこともある)と、それら以外の引用形式(以下、「タイプO」の引用形式と呼ぶこともある)とがある。タイプBの引用形式は、既存の研究成果を用いて新しい理論を提案したり、システムを構築したりする場合に用いられる引用形式である。なお、これら以外の引用形式の区分であってもよい。引用文献情報取得部14は、例えば、各引用形式に応じた1以上の手がかり句を図示しない記録媒体において保持しておき、引用情報の所定の位置にその手がかり句が含まれるかどうかによって、各引用形式を決定してもよい。所定の位置とは、例えば、引用情報の先頭であってもよく、引用情報の最後であってもよく、引用情報のすべてであってもよい。なお、引用情報から引用形式を決定できるのであれば、これ以外の方法であってもよい。
次に、本実施の形態による関連用語取得装置1の動作について、フローチャートを用いて説明する。本実施の形態による関連用語取得装置1の全体動作は、実施の形態1の図3のフローチャートと同様であり、その説明を省略する。また、図3のフローチャートにおけるステップS102の文献情報の取得処理の詳細について示すフローチャートも、実施の形態1の図4のフローチャートと同様であり、その説明を省略する。ただし、図4のステップS204において、文献情報取得部13は、引用情報も取得するものとする。また、図3のフローチャートにおけるステップS104の関連用語情報の取得処理の詳細について示すフローチャートも、実施の形態1の図6のフローチャートと同様であり、その説明を省略する。
図11は、図3のフローチャートにおけるステップS103の引用文献の取得処理の詳細について示すフローチャートである。なお、ステップS601〜S603以外の処理は、実施の形態1の図5のフローチャートと同様であり、その説明を省略する。
(ステップS601)引用文献情報取得部14は、文献情報取得部13が取得したi番目の文献情報に含まれるすべての引用文献識別情報と、その引用文献識別情報に対応する引用情報とを取得する。なお、文献情報取得部13が取得した文献情報の全部または一部において、引用情報の部分が顕在化していない場合には、文献情報取得部13による引用情報の取得処理での説明と同様にして、引用文献情報取得部14は、引用情報の部分を特定することができる。
(ステップS602)引用文献情報取得部14は、j番目の引用文献識別情報に対応する引用情報における引用形式を決定する。引用形式を決定するとは、例えば、j番目の引用文献識別情報と、引用形式を示す情報とを対応付けて図示しない記録媒体に蓄積することであってもよい。この処理の詳細については、図12のフローチャートを用いて後述する。
(ステップS603)引用文献情報取得部14は、ステップS601で取得したj番目の引用文献識別情報で識別される引用文献情報を文献情報記憶部11から検索し、その検索された引用文献情報の一部であって、ステップS602で決定した引用形式に対応する部分を文献情報記憶部11から取得する。
図12は、図11のフローチャートにおけるステップS602の引用形式の決定処理の詳細について示すフローチャートである。なお、前述のように、引用文献情報取得部14は、各引用形式に応じた1以上の手がかり句を図示しない記録媒体において保持しているものとする。
(ステップS701)引用文献情報取得部14は、カウンタkを1に設定する。
(ステップS702)引用文献情報取得部14は、引用情報がタイプCのk番目の手がかり句を含むかどうか判断する。そして、含む場合には、ステップS703に進み、そうでない場合には、ステップS704に進む。
(ステップS703)引用文献情報取得部14は、引用形式をタイプCに決定する。そして、一連の処理は終了となり、図11のフローチャートのステップS603に進む。
(ステップS704)引用文献情報取得部14は、カウンタkを1だけインクリメントする。
(ステップS705)引用文献情報取得部14は、k番目のタイプCの手がかり句が存在するかどうか判断する。そして、存在する場合には、ステップS702に戻り、存在しない場合には、ステップS706に進む。
(ステップS706)引用文献情報取得部14は、カウンタkを1に設定する。
(ステップS707)引用文献情報取得部14は、引用情報がタイプBのk番目の手がかり句を含むかどうか判断する。そして、含む場合には、ステップS708に進み、そうでない場合には、ステップS709に進む。
(ステップS708)引用文献情報取得部14は、引用形式をタイプBに決定する。そして、一連の処理は終了となり、図11のフローチャートのステップS603に進む。
(ステップS709)引用文献情報取得部14は、カウンタkを1だけインクリメントする。
(ステップS710)引用文献情報取得部14は、k番目のタイプBの手がかり句が存在するかどうか判断する。そして、存在する場合には、ステップS707に戻り、存在しない場合には、ステップS711に進む。
(ステップS711)引用文献情報取得部14は、引用形式をタイプOに決定する。そして、一連の処理は終了となり、図11のフローチャートのステップS603に進む。
次に、本実施の形態による関連用語取得装置1の動作について、具体例を用いて説明する。この具体例において、文献情報記憶部11は、Postscript及びPDF形式の自然言語処理分野を中心とするフルテキスト論文(文献情報)約12000件を記憶している。これらのうち、約8000件は、ACLが提供するACL Anthologyに含まれるものであり、残りの約4000件は、国内外の自然言語処理研究者や自然言語処理系研究室のWebページから収集したものや、国際会議の予稿集(CD−ROM)から抽出した論文データ(文献情報)等である。このように、この具体例における文献情報記憶部11で記憶されている文献情報は、学術論文という一種類の文献情報である。
また、この具体例において、文献情報取得部13は、用語情報受付部12が受け付けた用語情報の示す用語がタイトルに含まれる文献情報から、その文献情報の参考文献の欄の情報と、対応する引用情報とを取得するものとする。
また、この具体例において、引用文献情報取得部14は、タイプCに応じた手がかり句を有する情報であるタイプC用手がかり句辞書と、タイプBに応じた手がかり句を有する情報であるタイプB用手がかり句辞書とを図示しない記録媒体において保持している。図13は、タイプC用手がかり句辞書の一例を示す図である。図14は、タイプB用手がかり句辞書の一例を示す図である。引用文献情報取得部14は、引用情報にタイプC用手がかり句辞書のいずれかの手がかり句が含まれる場合に引用形式がタイプCであると決定し、引用情報にタイプB用手がかり句辞書のいずれかの手がかり句が含まれる場合に引用形式がタイプBであると決定する。
また、この具体例において、引用文献情報取得部14は、引用文献の一部として、引用文献のタイトルを取得するものとする。
まず、ユーザが用語情報「terminology」を関連用語取得装置1に入力したとする。すると、その用語情報「terminology」は用語情報受付部12で受け付けられる(ステップS101)。そして、文献情報取得部13は、その用語情報「terminology」をタイトルに含む各文献情報の参考文献(Reference)の欄の部分と、引用情報とを取得する(ステップS102、S201〜S205)。
具体的には、文献情報取得部13は、用語情報「terminology」をタイトルに含む各文献情報を検索し、その検索された文献情報の書誌情報を取得する(ステップS201)。図15は、その取得された文献情報の書誌情報の一例を示す図である。図15で示されるように、その書誌情報には「著者」、「タイトル」、「その他」が含まれる。「著者」は論文の著者(1名以上)の情報であり、「タイトル」は論文のタイトルの情報であり、「その他」は論文誌の名称や著作年などの情報である。なお、図15において、各レコードに「ID」が対応付けられているが、この「ID」は、表におけるレコード管理のために存在する。
文献情報取得部13は、図15で示される各レコードで識別される文献情報から、参考文献(Reference)の欄の部分と、その参考文献の欄に含まれる引用文献識別情報に対応する引用情報とを取得する(ステップS204)。
ここで、この具体例における引用情報の取得方法について説明する。文献情報取得部13は、前述のように、参考文献の欄に記載されている引用文献識別情報に対応する所定のインデックスを参考文献の欄から取得し、そのインデックスを含む文を検索する。次に、文献情報取得部13は、そのインデックスを含む文とつながりの深い文を以下の(1)〜(6)の手がかり句を用いて抽出する。すなわち、文献情報取得部13は、インデックスを含む文の次の文に、以下の(1)〜(6)の手がかり句のいずれかが含まれる場合に、その手がかり句の含まれる文がインデックスを含む文とつながりが深い文であるとして抽出する。文献情報取得部13は、インデックスを含む文と、そのインデックスを含む文とつながりの深い文とを引用情報として取得する。
(1)照応詞に関する手がかり:In this、On this,Such
(2)接続詞に関する手がかり:But、However、Although
(3)1人称に関する手がかり:We、we、Our、our、us、I
(4)3人称に関する手がかり:They、they、Their、their、them
(5)副詞に関する手がかり:Furthermore、Additionally、Still
(6)その他の手がかり:In particular、follow、For example
次に、引用文献情報取得部14は、文献情報取得部13が取得した文献情報の一部(すなわち、参考文献の部分と各引用文献識別情報に対応する引用情報)に基づいて、引用形式を決定し、引用形式に応じた引用文献の部分を取得する(ステップS103、図11、図12のフローチャート)。
引用形式の決定では、前述のように、図13で示されるタイプC用手がかり句辞書のいずれかの手がかり句が引用情報に含まれる場合には、引用形式をタイプCに決定し、図14で示されるタイプB用手がかり句辞書のいずれかの手がかり句が引用情報に含まれる場合には、引用形式をタイプBに決定し、タイプC、タイプBのいずれでもない場合には、引用形式をタイプOに決定する(ステップS701〜S711)。そして、引用文献情報取得部14は、引用形式がタイプCである場合には、引用文献情報の一部として、引用文献情報のタイトルを示す情報を取得する。一方、引用文献情報取得部14は、引用形式がタイプBである場合には、引用文献情報の一部として、引用文献情報の要約(アブストラクト)を示す情報を取得する。なお、引用文献情報取得部14は、引用形式がタイプOである場合には、引用文献情報の一部の取得を行わない。
この後、関連用語情報出力部16は、引用文献情報取得部14によって取得された引用文献情報の一部の集合から関連用語情報を取得し(ステップS104、図6のフローチャート)、関連用語情報出力部16は、その取得された関連用語情報を出力する(ステップS105)。
なお、引用情報を取得する方法が、上述した具体的な説明に限定されないことは言うまでもない。ここでは、引用情報を取得する他の方法について説明する。文献情報取得部13は、例えば、前述のように、参考文献の欄に記載されている引用文献識別情報に対応する所定のインデックスを参考文献の欄から取得し、そのインデックスを含む文を検索し、そのインデックスが含まれる文を特定する。そして、文献情報取得部13は、そのインデックスの含まれる文と、その文と関連の深い文とを引用情報として取得する。ここで、インデックスの含まれる文と関連の深い文を特定する方法について説明する。
文献情報取得部13は、あらかじめ図示しない記録媒体で記憶されている下記の2種類の手がかり語句にアクセス可能であるとする。
(A)前拡張用手がかり語句
In this,On this,Such,But,However…
(B)後拡張用手がかり語句
We,we,They,they,Our,our,In this,On this,Such,But,However…
文献情報取得部13は、まず、インデックスの含まれる文を引用情報の候補文とする。そして、その候補文の先頭の文に(A)前拡張用手がかり語句のいずれかが少なくとも含まれる場合に、その候補文よりも1個前の文を候補文に含める。文献情報取得部13は、候補文を前に拡張する処理を、候補文の先頭の文に(A)前拡張用手がかり語句のすべてが含まれなくなるまで繰り返す。また、文献情報取得部13は、候補文の次の文(候補文に後側に隣接する文であり、候補文には含まれない文)に、(B)後拡張用手がかり語句が含まれる場合に、その候補文の次の文を候補文に含める。文献情報取得部13は、候補文を後に拡張する処理を、候補文の次の文に(B)後拡張用手がかり語句のすべてが含まれなくなるまで繰り返す。候補文を拡張する処理が終了した時点における候補文が、引用情報となる。文献情報取得部13は、その引用情報を取得する。なお、(A)前拡張用手がかり語句、(B)後拡張用手がかり語句は一例であって、インデックスの含まれる文と関連の深い文を適切に抽出することができるのであれば、それ以外の手がかり語句を用いてもよい。また、ここでは、インデックスの含まれる文に注目したが、引用文献識別情報によって直接、引用文献に言及している技術文献においては、引用文献識別情報の含まれる文を、インデックスの含まれる文の代わりに用いることになる。
また、引用形式を判断する方法が、上述した具体的な説明に限定されないことは言うまでもない。ここでは、引用形式を判断する他の方法について説明する。文献情報取得部13は、例えば、引用情報に所定の手がかり句が含まれるかどうかのみによって引用形式を判断するのではなく、引用情報に含まれる手がかり句の位置も考慮して引用形式を判断してもよい。より具体的には、例えば、タイプC用手がかり句辞書では、図20で示されるように、タイプCの手がかり句(図20では、「手がかり語句」としている)と、手がかり句の位置とを対応付けられているものとする。図20の「手がかり句の位置」とは、引用情報において、インデックスや引用文献識別情報の含まれる文を基準(0)とした、文の数を示す情報である。例えば、手がかり句の位置「1〜3」の場合には、引用情報において、インデックスや引用文献識別情報の含まれる文の次の文(手がかり句の位置=1)から、インデックスや引用文献識別情報の含まれる文から3番目の後方の文(手がかり句の位置=3)までの3個の文を意味している。手がかり句の位置がマイナスである場合には、インデックスや引用文献識別情報の含まれる文よりも前の文を意味する。文献情報取得部13は、タイプCの手がかり句が、対応する手がかり句の位置で示される文に含まれる場合に、その引用情報の引用形式を、タイプCであると判断してもよい。より具体的には、文献情報取得部13は、引用情報において、インデックスや引用文献識別情報の含まれる文の次の文(1番目の文)から3番目の文までのいずれかの文に「However」が含まれる場合に、その引用情報の引用形式をタイプCであると判断してもよい。なお、ここでは、引用形式がタイプCであるかどうかの判断方法について説明したが、引用形式がタイプBであるかどうかの判断方法についても同様である。
このように、本実施の形態による関連用語取得装置1によれば、引用文献の引用形式に応じた項目に対応する引用文献情報の一部を取得することができ、引用形式に応じて、どの項目に対応する引用文献情報の一部を取得するのかを適切に設定することにより、より精度の高い関連用語情報の取得が可能となりうる。
なお、本実施の形態では、上記の具体例のように、引用形式がタイプCである場合には、引用文献情報のタイトルを示す情報を取得し、引用形式がタイプBである場合には、引用文献情報の要約を示す情報を取得する場合について説明したが、これはその他の設定であってもよい。例えば、引用文献情報取得部14は、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用情報における引用形式が問題指摘型引用形式である場合には、引用文献情報における背景的な項目を有する部分を取得し、文献情報取得部13が取得した文献情報の全部または一部に含まれる引用情報における引用形式が論説根拠型引用形式である場合には、引用文献情報における特徴的な項目を有する部分を取得してもよい。ここで、背景的な項目とは、例えば、特許文献であれば、「従来技術」や「背景技術」等であってもよく、学術文献であれば、「イントロダクション」や「関連研究」等であってもよい。また、特徴的な項目とは、例えば、特許文献であれば、「実施の形態」や「効果」等であってもよく、学術文献であれば、「終わりに」や「結論」等であってもよい。これらの項目に対応する引用文献情報の部分を取得する方法としては、実施の形態1、2で説明した方法を用いることができる。
また、引用形式に応じた引用文献情報の部分を取得する処理を、実施の形態2における関連用語取得装置2において実行してもよいことは言うまでもない。
また、上記各実施の形態において、文献情報記憶部11で記憶されている文献情報は2以上の種類のものであってもよい。例えば、文献情報記憶部11において、第1の種類の文献情報と、第2の種類の文献情報とが少なくとも記憶されており、文献情報取得部13は、文献情報記憶部11で記憶されている第1の種類の文献情報から、第1の種類の文献情報の全部または一部を取得し、引用文献情報取得部14は、文献情報記憶部11で記憶されている第2の種類の文献情報から、引用文献情報の一部を取得してもよい。例えば、第1の種類の文献情報が学術論文に関する情報であり、第2の種類の文献情報が特許書類の情報であってもよく、その逆であってもよい。一般に学術論文に慣れているユーザは、特許書類で用いられる用語に精通していない場合が多いが、このような関連用語取得装置を用いることにより、学術論文で用いられる用語から、その用語に関連する特許書類で用いられる関連用語を取得することができる。また、第1の種類の文献情報が第1の種類の言語の情報であり、第2の種類の文献情報が第2の種類の言語の情報であってもよい。第1の種類の言語、第2の種類の言語は、例えば、英語、日本語、中国語、フランス語、ドイツ語等、どのような言語であってもよい。このようにすることで、例えば、日本語の用語に関連する英語の関連用語を取得することが可能となりうる。
(実施の形態4)
本発明の実施の形態4による技術動向情報作成装置について、図面を参照しながら説明する。
図16は、本実施の形態による技術動向情報作成装置の構成を示すブロック図である。図16において、本実施の形態による技術動向情報作成装置1001は、検索用語受付部1011と、文献情報記憶部1012と、検索部1013と、特定部1014と、文献情報取得部1015と、技術用語抽出部1016と、時期情報取得部1017と、技術動向情報作成部1018と、出力部1019とを備える。
検索用語受付部1011は、検索用語を受け付ける。検索用語とは、後述する検索部1013での検索において、検索キーワードとして用いられる情報である。検索用語受付部1011が受け付ける検索用語は、実際には検索用語を示す情報であるが、単に検索用語と呼ぶことにする。技術動向情報作成装置1001では、この検索用語受付部1011が受け付けた検索用語によって、技術文献が検索され、その検索された技術文献を示す情報が取得されて、その情報をもとに技術動向情報が作成されることになる。このように、この検索用語は、技術動向情報を作成する分野等を決めるために用いられるものである。この検索用語は、一般にテキストデータであるが、その他の情報であってもよい。また、この検索用語は、例えば、作成される技術動向情報の分野を示す情報であってもよく、作成される技術動向情報の期間を示す情報であってもよい。検索用語が技術動向情報の分野を示す情報である場合には、その検索用語は、例えば、その分野の名称でもよく、その分野に対応付けられた記号等であってもよい。分野に対応付けられた記号としては、例えば、IPC(国際特許分類)や、USクラス(米国特許分類)等がある。本実施の形態では、検索用語受付部1011が、技術動向情報の分野の名称を示す検索用語を受け付ける場合について説明する。
ここで、検索用語受付部1011による検索用語の受け付けは、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された情報の受け付けでもよく、有線もしくは無線の通信回線を介して送信された情報の受信でもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された情報の受け付けでもよい。なお、検索用語受付部1011は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、検索用語受付部1011は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
文献情報記憶部1012では、複数の文献情報と、複数の時期情報とが少なくとも記憶される。ここで、文献情報とは、技術文献の少なくとも一部を示す情報である。技術文献とは、例えば、技術論文や、特許・実用新案の公報、公開技報、技術関連の書籍や記事、技術に関するウェブページ等である。一の文献情報には、対応する一の技術文献の少なくとも一部の情報(データ)が含まれる。技術文献の一部とは、技術文献のうち、後の処理で必要となる範囲が少なくとも含まれる部分である。例えば、技術文献のタイトルと参考文献とを後の処理で用いる場合には、文献情報は、技術文献のタイトルと参考文献とを示す情報であってもよい。なお、文献情報は、技術文献の全部を示す情報であってもよい。また、時期情報とは、文献情報の示す技術文献に関する時期を示す情報である。時期情報は、例えば、文献情報の作成された時期を示す情報であってもよく、文献情報の公開された時期を示す情報であってもよく、文献情報に関するその他の時期を示す情報であってもよい。時期情報は、例えば、文献情報に関する年を示す情報でもよく、年月を示す情報でもよく、年月日を示す情報であってもよく、その他の時期を示す情報であってもよい。文献情報と、時期情報とは、どの技術文献がどの時期のものであるかがわかるように、直接的に、あるいは、間接的に対応付けられているものとする。前者の場合には、例えば、互いに対応する文献情報と時期情報とが同じレコードに含まれてもよい。後者の場合には、例えば、技術文献を識別する文献ID等を介して、文献情報と、時期情報とが対応付けられていてもよい。文献情報、及び時期情報は、テキストファイルであってもよく、あるいは、ワープロソフト等の独自形式のファイルであってもよい。文献情報と時期情報とは、データとして一体に構成されてもよく、別々のデータであってもよい。
文献情報記憶部1012において、これ以外の情報が記憶されてもよいことは言うまでもない。例えば、技術文献の著者名、出版社名、媒体名(例えば、雑誌名、書籍名等)、技術文献の分野を示す情報(例えば、IPC等)、技術文献の要約等の書誌情報が文献情報記憶部1012で記憶されてもよい。また、文献情報には、例えば、引用文献識別情報や、引用情報が含まれてもよい。引用文献識別情報とは、文献情報において引用している他の技術文献(以下、この技術文献を「引用文献」と呼ぶこともある)を識別する情報である。引用情報とは、引用情報の含まれる文献情報において引用している他の技術文献についての記述を示す情報である。技術文献についての記述とは、例えば、その技術文献の問題点を指摘するための記述や、その技術文献を根拠として新しい理論を提案したり、システムを構築したりするための記述等である。ここで、引用文献識別情報は、引用文献を識別することができる情報であれば、その内容を問わない。引用文献識別情報は、例えば、特許番号や、特許出願の出願公開番号、PMID(PubMed Identifier)等の引用文献を識別するIDであってもよく、著者名、タイトル、著作年月日、媒体に関する情報(雑誌名、出版社名、URL等)等の引用文献を識別しうる文献の書誌情報であってもよい。本実施の形態では、文献情報に少なくともタイトルと、引用文献識別情報と、引用情報とが含まれるものとする。
ここで、引用文献識別情報と引用情報とについてさらに詳細に説明する。文献情報において、例えば、引用情報は引用文献識別情報と同じ領域に存在してもよく、引用情報は引用文献識別情報と異なる領域に存在してもよい。前者の場合としては、例えば、引用文献識別情報が背景技術の領域に記載されており、引用文献識別情報そのものによって、引用文献が引用されている場合である。特許明細書等においては、このような引用がなされている場合がある。一方、後者の場合としては、例えば、引用文献識別情報は参考文献の欄にまとめて記載されており、文献の本文において、その参考文献の欄に記載されている引用文献識別情報に対応する所定のインデックスによって引用文献が引用されている場合である。学術文献においては、このような引用がなされている場合が多い。ここで、インデックスとは、例えば、1、2、3…や、1)、2)、3)…、[1]、[2]、[3]…、[A]、[B]、[C]…、特許文献1、特許文献2、特許文献3…、非特許文献1、非特許文献2、非特許文献3…等であり、引用文献識別情報を特定できるものであれば、どのようなものであってもよい。引用文献識別情報そのものによって、引用文献が引用されている場合には、引用情報は、その引用文献識別情報を含む情報となる。引用文献識別情報を含む情報とは、例えば、引用文献識別情報を含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。引用文献識別情報に対応するインデックスによって引用文献が引用されている場合には、引用情報は、そのインデックスを含む情報となる。インデックスを含む情報とは、例えば、インデックスを含む所定の領域の情報である。所定の領域とは、例えば、文でもよく、パラグラフでもよく、それ以外の何らかの文書のまとまりでもよい。この所定の領域は、後述するように、所定のルールに基づいて決定されるものであってもよい。
次に、引用情報における引用文献の引用形式について説明する。引用形式には、例えば、引用文献の問題を指摘する形式である問題指摘型引用形式(以下、「タイプC」の引用形式と呼ぶこともある)と、引用文献を論説の根拠に取り込む形式である論説根拠型引用形式(以下、「タイプB」の引用形式と呼ぶこともある)と、それら以外の引用形式(以下、「タイプO」の引用形式と呼ぶこともある)とがある。タイプBの引用形式は、既存の研究成果を用いて新しい理論を提案したり、システムを構築したりする場合に用いられる引用形式である。なお、これら以外の引用形式の区分であってもよい。ここで、上記説明の引用形式については、次の文献で説明されている。
文献:難波英嗣、奥村学、「論文間の参照情報を考慮したサーベイ論文作成支援システムの開発」、自然言語処理、Vol.6、No.5、p.43−62、1999年
なお、文献情報記憶部1012は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。文献情報記憶部1012に文献情報等が記憶される過程は問わない。例えば、記録媒体を介して文献情報等が文献情報記憶部1012で記憶されるようになってもよく、通信回線等を介して送信された文献情報等が文献情報記憶部1012で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された文献情報等が文献情報記憶部1012で記憶されるようになってもよい。
検索部1013は、検索用語受付部1011が受け付けた検索用語を用いて、文献情報記憶部1012を検索する。検索部1013は、検索用語受付部1011が受け付けた検索用語がメイントピックである技術文献に対応する文献情報を検索することが好適である。「技術文献に対応する文献情報」とは、技術文献の少なくとも一部を示す文献情報の意味である。メイントピックとは、ある研究分野の名称である。その範囲の広狭は注目している範囲によって異なりうる。例えば、「形態素解析」はメイントピックとなりうるが、それを含む「自然言語処理」もメイントピックとなりうる。
そのような検索のために、検索部1013は、文献情報記憶部1012で記憶されている各文献情報の全体を検索してもよく、各文献情報の一部(例えば、タイトルのみ等)を検索してもよく、あるいは、文献情報以外の情報を検索してもよい。文献情報の一部を検索する場合には、文献情報は、その文献情報の一部を特定することができる構造を有しているものとする。例えば、文献情報の部分ごとに項目名が記載されていてもよく、あるいは、マークアップ言語のタグ等を用いて項目が特定できるようにされていてもよい。「文献情報以外の情報」とは、例えば、時期情報であってもよく、その他の書誌情報であってもよい。
また、検索用語がメイントピックである技術文献に対応する文献情報を検索するために、検索部1013は、例えば、その検索用語が所定の回数以上記載されている文献情報を検索してもよく、あるいは、所定の複数の領域(例えば、タイトルと要約など)にその検索用語が記載されている文献情報を検索してもよい。このように、ある検索用語がメイントピックである技術文献に対応する文献情報を検索する方法はすでに次の文献等で知られており、その詳細な説明を省略する。
文献:Ricardo Baeza−Yates, Berthier Ribeiro−Neto、「Modern Information Retrieval」、Addison−Wesley Pub、ISBN:020139829X、1999年
文献:徳永健伸、「情報検索と言語処理」、東京大学出版会、ISBN:4130654055、1999年
文献:Nitin Indurkhya, Tong Zhang, Fred J. Damerau、「Text Mining:Predictive Methods For Analyzing Unstructured Information」、Springer、ISBN:0387954333、2004年
また、文献情報が技術文献のタイトルを少なくとも含む情報である場合に、検索部1013は、文献情報記憶部1012で記憶されている文献情報の示す技術文献のタイトルにおけるメイントピックを示す領域に、検索用語受付部1011が受け付けた検索用語が含まれている文献情報を検索してもよい。このようにすることで、検索用語がメイントピックである技術文献に対応する文献情報を検索しうると考えられる。タイトルにおいてメイントピックを示す領域は、例えば、日本語のタイトルにおいては、タイトルの最後の領域であってもよく、英語のタイトルにおいては、タイトルの最初の領域であってもよい。
なお、検索部1013が行う検索処理そのものについては、すでに公知であるため、その詳細な説明を省略する。この検索部1013による検索の結果、一般に1以上の文献情報が検索結果として特定されることになる。その特定は、例えば、その文献情報を識別する情報を一時記憶メモリ等の記録媒体に蓄積することによって行われてもよく、その文献情報に対応付けてフラグを設定することによって行われてもよい。
特定部1014は、検索部1013によって検索された文献情報と分野が同一の文献情報を特定する。この特定部1014による特定を行うことで、検索部1013が検索しなかった文献情報であるが、検索部1013が検索した文献情報と分野が同一である文献情報も、技術動向情報の作成に用いることができるようになる。ここで、その特定方法としては、例えば、(1)引用関係を用いる方法、(2)文書分類や文書クラスタリングを用いる方法等がある。
(1)引用関係を用いる方法
引用関係を用いる方法では、検索部1013が検索した文献情報において引用されている技術文献に対応する文献情報は、検索部1013が検索した文献情報と分野が同一であると仮定して文献情報の特定を行う方法である。その文献情報の特定において、例えば、(1−1)引用文献識別情報のみを用いる方法と、(1−2)引用文献識別情報と引用形式とを用いる方法とがある。
(1−1)引用文献識別情報のみを用いる方法
特定部1014は、検索部1013によって検索された文献情報から、その文献情報において引用している他の技術文献を識別する情報である引用文献識別情報を取得する。そして、その取得した引用文献識別情報で文献情報を特定する。
引用文献識別情報の取得において、特定部1014は、引用文献識別情報を含むと考えられる参考文献(Reference)の欄を取得してもよく、特許文献、非特許文献の欄を取得してもよく、あるいは、パターンマッチング等の技術を用いて、引用文献識別情報の存在する領域を取得してもよい。参考文献の欄や、特許文献等を取得する場合には、例えば、取得する部分に対応する項目を示す情報が図示しない記録媒体において記憶されており、特定部1014は、その記録媒体から項目を示す情報を読み出して、その項目に対応する文献情報の領域を取得してもよい。また、パターンマッチング等の技術を用いて引用文献識別情報を取得する場合には、例えば、パターンマッチング等で用いるパターン等を示す情報が図示しない記録媒体において記憶されており、特定部1014は、その記録媒体からパターン等を読み出してパターンマッチング等を行うことによって、文献情報における引用文献識別情報を含む領域を取得してもよい。特定部1014が取得した引用文献識別情報は、図示しない記録媒体に一時的に蓄積されてもよい。
(1−2)引用文献識別情報と引用形式とを用いる方法
特定部1014は、検索部1013によって検索された文献情報から、引用文献識別情報を取得すると共に、その文献情報において引用している他の技術文献についての記述を示す情報である引用情報も取得する。そして、その取得した引用情報の示す引用形式が、引用している技術文献の問題を指摘する形式である問題指摘型引用形式(タイプCの引用形式)である場合に、その引用情報で記述されている技術文献を識別する引用文献識別情報で文献情報を特定する。
例えば、ある技術文献Aにおいて技術文献Bが引用されている場合に、技術文献Bの問題を指摘する形式(タイプCの引用形式)で技術文献Bが引用されている場合には、技術文献Aと技術文献Bとの分野が同じである可能性の高いことが発明者らの研究によってわかっている(前述の文献「論文間の参照情報を考慮したサーベイ論文作成支援システムの開発」参照)。
したがって、引用情報によって示される技術文献の引用形式がタイプCの引用形式である場合に、その技術文献を識別する引用文献識別情報で文献情報を特定し、そうでない場合に、文献情報を特定しなくてもよい。
特定部1014は、例えば、タイプCの引用形式に応じた1以上の手がかり語句を図示しない記録媒体において保持しておき、引用情報の所定の位置にその手がかり語句が含まれるかどうかによって、引用形式がタイプCであるかどうかを決定してもよい。所定の位置とは、例えば、引用情報の先頭であってもよく、引用情報の最後であってもよく、引用情報のすべてであってもよく、あるいは、引用情報において引用を行っている文(例えば、引用文献識別情報を含む文や、引用文献識別情報に対応するインデックスを含む文など)を基準として、所定の範囲であってもよい。その所定の位置は、手がかり語句ごとに設定されていてもよい。なお、引用情報から引用形式を決定できるのであれば、これ以外の方法を用いてもよい。
引用情報の取得において、特定部1014は、例えば、引用文献識別情報について言及している領域を、引用文献識別情報等を用いて特定し、その特定した領域を含む引用情報を取得してもよく、あるいは、引用文献識別情報に対応するインデックスについて言及している領域を、引用文献識別情報に対応するインデックスを用いて特定し、その特定した領域を含む引用情報を取得してもよい。特定部1014が取得した引用情報は、図示しない記録媒体に一時的に蓄積されてもよい。
特定部1014は、引用情報を取得し、その引用情報における引用形式がタイプCであると判断した場合に、その引用情報で記述されている技術文献を識別する引用文献識別情報で文献情報を特定することになる。例えば、引用情報において、引用文献識別情報によって引用文献についての言及が行われている場合には、その引用文献識別情報で文献情報を特定すればよい。一方、引用情報において、インデックスによって引用文献についての言及が行われている場合には、そのインデックスに対応する引用文献識別情報を特定し、その特定した引用文献識別情報で文献情報を特定すればよい。
なお、上記(1−1)、(1−2)における引用文献識別情報や引用情報の取得において、特定部1014は、文献情報記憶部1012から引用文献識別情報等を取得してもよく、あるいは、後述する文献情報取得部1015が引用文献識別情報等を含む文献情報を取得している場合には、その文献情報取得部1015が取得した文献情報から引用情報を取得してもよい。本実施の形態では、前者の場合について説明する。
(2)文書分類や文書クラスタリングを用いる方法
複数の文献情報を分類したりクラスタリングしたりする方法は、従来から知られている。例えば、上述の文献「Modern Information Retrieval」、「情報検索と言語処理」、「Text Mining:Predictive Methods For Analyzing Unstructured Information」等において開示されている。この方法では、同一のグループに分類されたり、クラスタリングされたりした文献情報は、分野が同一の文献情報であると仮定して、文献情報を特定する。より具体的には、検索部1013によって検索された文献情報と同一のグループに分類されたり、クラスタリングされたりした文献情報を、特定部1014は、検索部1013によって検索された文献情報と分野が同一の文献情報を特定する。この場合における文献情報の特定は、例えば、文献情報を識別する文献IDや、文献情報の書誌情報(タイトル、発表年、筆頭著者名、文献の掲載された媒体名等)によってなされてもよい。
文献情報取得部1015は、文献情報取得部1015で記憶されている複数の文献情報のうち、少なくとも一部の文献情報の全部または一部を取得する。文献情報取得部1015は、検索部1013によって検索された文献情報の全部または一部を取得する。文献情報取得部1015が文献情報の一部を取得する場合に、その文献情報の一部は、例えば、文献情報のタイトルや要約等であってもよい。例えば、その取得する部分に対応する項目を示す情報が図示しない記録媒体において記憶されており、文献情報取得部1015は、その記録媒体から項目を示す情報を読み出して、その項目に対応する文献情報の領域を、文献情報の一部として取得してもよい。文献情報取得部1015が文献情報の一部を取得し、検索部1013が文献情報の一部を検索する場合に、その取得する文献情報の一部と、検索で用いる文献情報の一部とは、文献情報の同じ部分であってもよく、あるいは、文献情報の異なる部分であってもよい。
文献情報取得部1015は、特定部1014が特定した文献情報の全部または一部も文献情報記憶部1012から取得する。例えば、引用文献識別情報によって文献情報が特定されている場合には、文献情報取得部1015は、引用文献識別情報を用いて文献情報記憶部1012を検索して、その検索された文献情報の全部または一部を取得する。ここで、文献情報取得部1015が特定部1014による特定結果を用いて取得する文献情報の領域は、文献情報取得部1015が検索部1013による検索結果を用いて取得する文献情報の領域と同様であるとする。例えば、文献情報取得部1015が検索結果を用いて文献情報のタイトルを取得する場合には、文献情報取得部1015は、特定された文献情報のタイトルを取得するものとする。
文献情報取得部1015は、検索結果や特定結果に応じて取得した文献情報の全部または一部を、図示しない記録媒体において一時的に記憶してもよい。
技術用語抽出部1016は、文献情報取得部1015が取得した文献情報の全部または一部から技術用語を抽出する。文献情報取得部1015が取得した文献情報とは、文献情報取得部1015が、その一部または全部を取得した文献情報のことである。ここで、技術用語とは、検索部1013が検索した技術文献の分野において用いられる用語である。この技術用語は、検索部1013が検索した技術文献の分野における要素となる技術用語であることが好ましい。この技術用語の変遷を見ることにより、技術動向を知ることができうる。技術用語抽出部1016が抽出する技術用語は、実際には技術用語を示す情報であるが、単に技術用語と呼ぶことにする。技術用語抽出部1016が技術用語を抽出する方法については後述する。技術用語抽出部1016は、抽出した技術用語を図示しない記録媒体において一時的に記憶してもよい。
時期情報取得部1017は、技術用語抽出部1016が抽出した技術用語が含まれる文献情報に対応する時期情報を文献情報取得部1015から取得する。例えば、文献情報取得部1015が取得した文献情報に対応する時期情報を時期情報取得部1017が取得することにより、時期情報取得部1017は、前述の時期情報を取得することができる。この場合に、ある文献情報から技術用語が抽出されなかった場合には、その文献情報に対応する時期情報を取得しなくてもよく、あるいは、その文献情報に対応する時期情報を後述する技術動向情報の作成で用いないようにしてもよい。
技術動向情報作成部1018は、技術用語抽出部1016が抽出した技術用語と、時期情報取得部1017が取得した時期情報とを用いて技術動向情報を作成する。ここで、技術動向情報とは、技術用語と、その技術用語を含む技術文献に関する時期とを対応付ける情報である。すなわち、技術動向情報によって、ある技術用語がどの時期に使用されていたのかを知ることができうる。技術動向情報において、技術用語と対応付けられる時期は、時期情報そのもの(例えば、年月等の数値そのもの)であってもよく、あるいは、時期情報とは異なるもの(例えば、年月等に対応した図形等)であってもよい。後者の場合には、例えば、時期を示す座標軸を用いて、技術情報と対応付けられる時期が示されてもよい。この技術動向情報は、技術用語抽出部1016が抽出した技術用語と、時期情報取得部1017が取得した時期情報とが対応付けられた情報であれば、そのデータ形式を問わない。例えば、テキストファイルであってもよく、スプレッドシート形式のファイルであってもよく、画像ファイルであってもよく、その他の形式のファイルであってもよい。この技術動向情報は、例えば、技術用語ごとに、その技術用語を含む文献情報に対応する時期情報の示す時期を示す画像であってもよい。技術動向情報には、検索用語受付部1011が受け付けた検索用語が含まれてもよい。
出力部1019は、技術動向情報作成部1018が作成した技術動向情報を出力する。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、記録媒体への蓄積でもよい。なお、出力部1019は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、出力部1019は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。例えば、技術動向情報が画像である場合には、出力部1019は、その技術動向情報を表示出力する。
なお、この技術動向情報作成装置1001において用いられる言語は問わない。例えば、日本語であってもよく、英語であってもよく、フランス語であってもよく、中国語であってもよく、韓国語であってもよい。
次に、本実施の形態による技術動向情報作成装置1001の動作について、図17のフローチャートを用いて説明する。
(ステップS1101)検索用語受付部1011は、検索用語を受け付けたかどうか判断する。そして、検索用語を受け付けた場合には、ステップS1102に進み、そうでない場合には、検索用語を受け付けるまでステップS1101の処理を繰り返す。
(ステップS1102)検索部1013は、検索用語受付部1011が受け付けた検索用語で、文献情報記憶部1012を検索する。検索部1013は、例えば、検索された文献情報を識別する文献IDを取得してもよい。
(ステップS1103)特定部1014は、検索部1013が検索した文献情報と分野が同一の文献情報を特定する。なお、この処理の詳細については後述する。
(ステップS1104)文献情報取得部1015は、検索部1013が検索した文献情報の全部または一部と、特定部1014が特定した文献情報の全部または一部とを文献情報記憶部1012から取得する。なお、この処理の詳細については後述する。
(ステップS1105)技術用語抽出部1016は、文献情報取得部1015が取得した文献情報の全部または一部から、技術用語を抽出する。この処理の詳細については後述する。
(ステップS1106)時期情報取得部1017は、技術用語抽出部1016が抽出した技術用語が含まれる文献情報に対応する時期情報を文献情報記憶部1012から取得する。
(ステップS1107)技術動向情報作成部1018は、技術用語抽出部1016が抽出した技術用語と、時期情報取得部1017が取得した時期情報とを用いて、技術動向情報を作成する。
(ステップS1108)出力部1019は、技術動向情報作成部1018が作成した技術動向情報を出力する。そして、ステップS1101に戻る。なお、技術動向情報の出力が、表示出力のように継続して行うことができる場合には、一定の時間の経過後に、その出力を終了してもよく、あるいは、終了する指示や割り込み処理等の受け付け等をトリガーとして、その出力を終了してもよい。
なお、図17のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
また、図17のフローチャートにおける検索処理(ステップS1102)や、文献情報の取得処理(ステップS1104)、技術用語の抽出処理(ステップS1105)、時期情報の取得処理(ステップS1106)等において、何も検索されなかったり、文献情報等が取得されなかったりした場合などには、エラーであるとしてステップS1101に戻るようにしてもよい。
また、文献情報の特定処理(ステップS1103)において文献情報が特定されなかった場合でも、ステップS1104に進んでもよく、ステップS1101に戻ってもよい。本実施の形態では、前者の場合について説明する。
また、図17のフローチャートの処理の順序は、ある程度、任意である。例えば、時期情報を取得する処理は、文献情報の特定処理の後であれば、文献情報の取得処理や技術用語の抽出処理よりも以前に行われてもよい。
次に、図17のフローチャートにおける文献情報の特定処理(ステップS1103)の詳細な処理について、図18のフローチャートを用いて説明する。なお、文献情報の特定の方法には前述のように各種の方法が存在するが、ここでは、引用文献識別情報と引用形式とを用いて文献情報を特定する方法について説明する。
(ステップS1201)特定部1014は、カウンタiを1に設定する。
(ステップS1202)特定部1014は、検索部1013が検索したi番目の文献情報から、すべての引用文献識別情報と、各引用文献識別情報に対応する引用情報とを取得する。なお、前述のように、引用文献識別情報は、引用情報に含まれていてもよく、そうでなくてもよい。また、このステップにおいて、検索部1013が検索したi番目の文献情報に引用文献識別情報がまったく含まれなかった場合には、引用文献識別情報等の取得を行わないでステップS1203に進む。
(ステップS1203)特定部1014は、カウンタjを1に設定する。
(ステップS1204)特定部1014は、検索されたi番目の文献情報から取得されたj番目の引用文献識別情報が存在するかどうか判断する。そして、存在する場合には、ステップS1205に進み、そうでない場合には、ステップS1208に進む。
(ステップS1205)特定部1014は、j番目の引用文献識別情報に対応する引用情報の引用形式がタイプCであるかどうか判断する。そして、タイプCである場合には、ステップS1206に進み、そうでない場合には、ステップS1207に進む。
(ステップS1206)特定部1014は、j番目の引用文献識別情報を図示しない記録媒体において一時記憶する。この一時記憶された引用文献識別情報で識別される文献情報が、特定された文献情報となる。
(ステップS1207)特定部1014は、カウンタjを1だけインクリメントする。そして、ステップS1204に戻る。
(ステップS1208)特定部1014は、カウンタiを1だけインクリメントする。
(ステップS1209)特定部1014は、検索部1013によって検索されたi番目の文献情報が存在するかどうか判断する。そして、存在する場合には、ステップS1202に戻り、そうでない場合には、文献情報を特定する一連の処理は終了となり、ステップS1104に進む。
次に、図17のフローチャートにおける文献情報の取得処理(ステップS1104)の詳細な処理について、図19のフローチャートを用いて説明する。
(ステップS1301)文献情報取得部1015は、検索部1013による検索結果の示す各文献情報の全部または一部を取得する。この処理の詳細については後述する。
(ステップS1302)文献情報取得部1015は、特定部1014によって文献情報が特定されたかどうか判断する。そして、文献情報が特定された場合には、ステップS1303に進み、そうでない場合には、文献情報を取得する一連の処理は終了となり、ステップS1105に進む。
(ステップS1303)文献情報取得部1015は、特定部1014が特定した文献情報の全部または一部を取得する。なお、この処理の詳細については後述する。この処理が終了すると、文献情報を取得する一連の処理は終了となり、ステップS1105に進む。
次に、図19のフローチャートにおける検索結果の示す各文献情報の全部または一部を取得する処理について、図20のフローチャートを用いて説明する。
(ステップS1401)文献情報取得部1015は、カウンタiを1に設定する。
(ステップS1402)文献情報取得部1015は、i番目の検索結果の示す文献情報の全部または一部を取得する。
(ステップS1403)文献情報取得部1015は、ステップS1402で取得した文献情報の全部または一部を図示しない記録媒体において一時記憶する。この記録媒体は、文献情報取得部1015が有してもよく、他の構成要素が有してもよい。
(ステップS1404)文献情報取得部1015は、カウンタiを1だけインクリメントする。
(ステップS1405)文献情報取得部1015は、i番目の検索結果が存在するかどうか判断する。そして、存在する場合には、ステップS1402に戻り、そうでない場合には、検索結果の示す各文献情報の全部または一部を取得する一連の処理は終了となり、ステップS1302に進む。
次に、図18のフローチャートにおける特定された文献情報の全部または一部の取得処理について、図21のフローチャートを用いて説明する。
(ステップS1501)文献情報取得部1015は、カウンタiを1に設定する。
(ステップS1502)文献情報取得部1015は、特定部1014によって特定されたi番目の文献情報の全部または一部をまだ取得していないかどうか判断する。そして、取得していない場合には、ステップS1503に進み、取得している場合には、ステップS1505に進む。この判断は、例えば、ステップS1403で文献情報取得部1015によって取得された文献情報の一時記憶されている図示しない記録媒体を参照することによって行うことができる。
(ステップS1503)文献情報取得部1015は、特定部1014によって特定されたi番目の文献情報の全部または一部を取得する。
(ステップS1504)文献情報取得部1015は、ステップS1503で取得した文献情報の全部または一部を図示しない記録媒体において一時記憶する。この記録媒体は、文献情報取得部1015が有してもよく、他の構成要素が有してもよい。
(ステップS1505)文献情報取得部1015は、カウンタiを1だけインクリメントする。
(ステップS1506)文献情報取得部1015は、特定部1014によって特定されたi番目の文献情報が存在するかどうか判断する。そして、存在する場合には、ステップS1502に戻り、そうでない場合には、特定された文献情報を取得する一連の処理は終了となり、ステップS1105に進む。
次に、文献情報取得部1015が取得した文献情報の全部または一部から技術用語を抽出する方法について説明する。
まず、技術用語を抽出する基本的な原理について説明する。文献情報取得部1015が取得した文献情報の全部または一部には、検索や特定されたメイントピックの分野における技術用語が含まれていると仮定している。そして、その技術用語は一般的に、所定の手がかり語句と対応していることが多いと考えられる。特に、文献情報取得部1015が取得した文献情報の全部または一部にメイントピックの名称も含まれる場合には、技術用語は、メイントピックの名称と所定の手がかり語句を介して対応付けられていることが多いと考えられる。
例えば、メイントピックの名称が「文抽出」である場合に、文献情報取得部1015が文献情報の一部「SVMを用いた文抽出」を取得したとすると、メイントピックの名称「文抽出」と、その分野における技術用語「SVM」とが、手がかり語句「を用いた」を介して対応付けられていることがわかる。また、例えば、メイントピックの名称が「字幕生成」である場合に、文献情報取得部1015が文献情報の一部「字幕生成のための文短縮」を取得したとすると、メイントピックの名称「字幕生成」と、その分野における技術用語「文短縮」とが、手がかり語句「のための」を介して対応付けられていることがわかる。また、文献情報取得部1015が取得した文献情報の全部または一部にメイントピックの名称が含まれない場合であっても、手がかり語句を用いることによって、技術用語を特定することは可能であると考えられる。
したがって、それらの手がかり語句を特定し、その手がかり語句で文献情報取得部1015が取得した文献情報の全部または一部を検索し、その検索された手がかり語句に対応する用語を技術用語として抽出することができうる。なお、それだけの方法であれば、適切でない技術用語を抽出する可能性もありうるため、発明者らは、より精度を上げるための方策についても考えている。以下、具体的に、技術用語抽出部1016の構成及び動作について説明する。
[パターン1]
図22は、パターン1における技術用語抽出部1016の構成を示すブロック図である。図22において、技術用語抽出部1016は、手がかり語句記憶手段1021と、手がかり語句検索手段1022と、技術用語抽出手段1023とを備える。なお、文献情報取得部1015が取得した文献情報の全部または一部は、文献情報一時記憶手段1020で記憶されているものとする。この文献情報一時記憶手段1020は、例えば、文献情報取得部1015が有してもよく、技術用語抽出部1016が有してもよく、あるいは、その他の構成要素が有してもよい。
手がかり語句記憶手段1021では、1以上の手がかり語句が記憶される。この手がかり語句は、上記説明のように、技術用語の抽出で用いられるための手がかり語句であり、適切な技術用語の抽出を行うことができるようにあらかじめ決められているものである。なお、この手がかり語句は、実際には手がかり語句を示す情報であるが、単に手がかり語句と呼ぶことにする。手がかり語句記憶手段1021は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。手がかり語句記憶手段1021に手がかり語句が記憶される過程は問わない。例えば、記録媒体を介して手がかり語句が手がかり語句記憶手段1021で記憶されるようになってもよく、通信回線等を介して送信された手がかり語句が手がかり語句記憶手段1021で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された手がかり語句が手がかり語句記憶手段1021で記憶されるようになってもよい。
手がかり語句検索手段1022は、文献情報取得部1015が取得した文献情報の全部または一部において、手がかり語句記憶手段1021で記憶されている手がかり語句を検索する。
技術用語抽出手段1023は、手がかり語句検索手段1022が検索した手がかり語句と所定の関係を有する用語を技術用語として抽出する。手がかり語句と所定の関係を有する用語とは、例えば、手がかり語句の前にある用語や、手がかり語句の後にある用語等である。この関係は、手がかり語句ごとに決まっていてもよく、手がかり語句の属性ごとに決まっていてもよい。手がかり語句の属性とは、例えば、その手がかり語句が技術用語とメイントピックとを関係付ける関係であってもよい。例えば、手がかり語句の属性として、「Method」や、「Goal」等がある。属性「Method」を有する手がかり語句としては、例えば、「による」、「に基づく」、「を用いた」等が存在する。属性「Goal」を有する手がかり語句としては、例えば、「のための」、「に向けて」等がある。技術用語抽出手段1023は、抽出した技術用語を図示しない記録媒体で一時記憶してもよい。
技術用語抽出手段1023は、例えば、手がかり語句と所定の関係を有する連続した名詞句を技術用語として抽出してもよく、あるいは、あらかじめ技術用語となりうる用語の候補を図示しない記録媒体において保持しておき、手がかり語句と所定の関係を有する用語であって、その保持している技術用語の候補と一致するものを技術用語として抽出してもよい。
次に、パターン1における技術用語抽出部1016の動作について、図23のフローチャートを用いて説明する。この図23のフローチャートの処理は、図17のフローチャートにおける技術用語の抽出処理(ステップS1105)に対応する。
(ステップS1601)技術用語抽出部1016は、カウンタiを1に設定し、カウンタjを1に設定する。
(ステップS1602)手がかり語句検索手段1022は、文献情報取得部1015が取得したi番目の文献情報の全部または一部において、手がかり語句記憶手段1021で記憶されているj番目の手がかり語句を検索する。そして、検索された場合には、ステップS1603に進み、そうでない場合には、ステップS1606に進む。
(ステップS1603)技術用語抽出手段1023は、検索された手がかり語句と所定の関係にある用語を技術用語として抽出する。技術用語抽出手段1023は、抽出した技術用語を図示しない記録媒体で一時記憶してもよい。
(ステップS1604)技術用語抽出部1016は、カウンタiを1だけインクリメントし、カウンタjを1に設定する。
(ステップS1605)技術用語抽出部1016は、文献情報取得部1015が取得したi番目の文献情報が存在するかどうか判断する。そして、存在する場合には、ステップS1602に戻り、そうでない場合には、技術用語を抽出する一連の処理は終了となり、ステップS1106に進む。
(ステップS1606)技術用語抽出部1016は、カウンタjを1だけインクリメントする。
(ステップS1607)技術用語抽出部1016は、手がかり語句記憶手段1021にj番目の手がかり語句が存在するかどうか判断する。そして、存在する場合には、ステップS1602に戻り、そうでない場合には、ステップS1604に進む。
なお、このフローチャートでは、手がかり語句のみを用いて技術用語の抽出を行う場合について説明したが、手がかり語句と共に、検索用語を用いて技術用語の抽出を行ってもよい。そのようにすることで、技術用語の抽出精度を向上させることができうる。例えば、文献情報の一部「SVMを用いた文抽出」から技術用語を抽出する場合に、検索用語が「文抽出」であれば、その検索用語「文抽出」と手がかり語句「を用いた」で対応付けられる用語「SVM」を適切に抽出することができる。一方、検索用語が「SVM」であれば、抽出すべき用語(手がかり語句「を用いた」の前の用語)と、検索用語とが同じになるため、不適切であるとして、その用語の抽出を行わないようにすることができる。なお、検索部1013が検索した検索用語を含む文献情報の領域が、文献情報取得部1015によって少なくとも取得された場合には、検索用語を用いた技術用語の抽出を行うことができうるが、検索部1013が検索した検索用語を含む文献情報の領域が、文献情報取得部1015によって取得されなかった場合や、特定部1014が特定した文献情報であって、検索用語を含まない文献情報が取得された場合には、検索用語を用いた技術用語の抽出を行うことができないこともある。なお、検索用語を用いた技術用語の抽出を行ってもよいことは、以下のパターンにおいても同様である。
このようにして、技術用語の抽出を行うことができる。
[パターン2]
図24は、パターン2における技術用語抽出部1016の構成を示すブロック図である。図24において、技術用語抽出部1016は、手がかり語句記憶手段1021と、手がかり語句検索手段1022と、専門用語記憶手段1024と、技術用語抽出手段1025とを備える。なお、専門用語記憶手段1024、及び技術用語抽出手段1025以外の構成及び動作は、パターン1と同様であり、その説明を省略する。
専門用語記憶手段1024では、2以上の専門用語が記憶される。ここで、専門用語とは、1以上の研究分野における専門的な用語であって、技術用語となりうる用語である。この専門用語は、実際には専門用語を示す情報であるが、単に専門用語と呼ぶことにする。この専門用語は、例えば、人によって決定されたものであってもよく、複数の技術文献から機械的に取得されたものであってもよい。後者の場合には、例えば、技術文献を形態素解析することにより、単名詞等を抽出し、各単名詞等について専門用語である可能性を示すスコア付けを行い、高いスコアを付与された単名詞等を専門用語として取得してもよい。ここで、スコアを付与する方法として、造語能力に基づくスコア付け、出現頻度に基づくスコア付け等の複数の種類が知られている。また、それ以外の方法を用いてもよい。専門用語を取得する方法については、下記の複数の文献等において開示されており、従来から知られているため、その詳細な説明を省略する。また、専門用語リストを作成するツールとして、TermExtractも公開されている(http://gensen.dl.itc.u−tokyo.ac.jp/termextract.html)。
文献:Hiroshi Nakagawa、「Automatic Term Recognition based on Statistics of Compound Nouns」、Terminology、Vol.6、No.2、p.195−210、2000
文献:大畑博一、中川裕志、「連接異なり語数による専門用語抽出」、情報処理学会研究報告、2000−NL−136、p.119−126
文献:中川裕志、森辰則、湯本紘彰、「出現頻度と連接頻度に基づく専門用語抽出」、自然言語処理、Vol.10 No.1、p.27−45、2003年1月
なお、専門用語記憶手段1024は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。また、専門用語記憶手段1024に専門用語が記憶される過程は問わない。例えば、記録媒体を介して専門用語が専門用語記憶手段1024で記憶されるようになってもよく、通信回線等を介して送信された専門用語が専門用語記憶手段1024で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された専門用語が専門用語記憶手段1024で記憶されるようになってもよい。
技術用語抽出手段1025は、手がかり語句検索手段1022が検索した手がかり語句と所定の関係を有する用語に、専門用語記憶手段1024で記憶されている専門用語が含まれる場合に、その専門用語を技術用語として抽出する。このようにすることで、専門用語記憶手段1024で記憶されている専門用語以外は技術用語として抽出されないことになるため、技術用語抽出手段1025が「研究」や「手法」といった一般名詞、「提案手法」のような非専門用語等を抽出する事態を回避することができうる。
次に、パターン2における技術用語抽出部1016の動作について、図25のフローチャートを用いて説明する。この図25のフローチャートの処理は、図17のフローチャートにおける技術用語の抽出処理(ステップS1105)に対応する。なお、このフローチャートにおいて、ステップS1701〜S1706以外の処理は、技術用語抽出手段1023が技術用語抽出手段1025となった以外、図23のフローチャートと同様であり、その説明を省略する。
(ステップS1701)技術用語抽出手段1025は、検索された手がかり語句と所定の関係にある用語を抽出する。
(ステップS1702)技術用語抽出手段1025は、カウンタkを1に設定する。
(ステップS1703)技術用語抽出手段1025は、ステップS1701で抽出した用語に、専門用語記憶手段1024で記憶されているk番目の専門用語が含まれるかどうか判断する。そして、含まれる場合には、ステップS1704に進み、そうでない場合には、ステップS1705に進む。
(ステップS1704)技術用語抽出手段1025は、ステップS1701で抽出した用語に含まれるk番目の専門用語を技術用語として抽出する。
(ステップS1705)技術用語抽出手段1025は、カウンタkを1だけインクリメントする。
(ステップS1706)技術用語抽出手段1025は、k番目の専門用語が専門用語記憶手段1024に存在するかどうか判断する。そして、存在する場合には、ステップS1703に戻り、そうでない場合には、ステップS1604に進む。
このようにして、技術用語の抽出を行うことができる。
[パターン3]
図26は、パターン3における技術用語抽出部1016の構成を示すブロック図である。このパターンでの技術用語抽出部1016は、技術用語候補を抽出し、その技術用語候補から技術用語を選択するものである。図26において、技術用語抽出部1016は、手がかり語句記憶手段1021と、手がかり語句検索手段1022と、技術用語候補抽出手段1026と、技術用語選択手段1027とを備える。なお、技術用語候補抽出手段1026、及び技術用語選択手段1027以外の構成及び動作は、パターン1と同様であり、その説明を省略する。
技術用語選択手段1027は、手がかり語句検索手段1022が検索した手がかり語句と所定の関係を有する用語を、技術用語候補として抽出する。この技術用語候補の抽出方法は、パターン1、2で説明した技術用語の抽出方法と同様であり、その説明を省略する。
技術用語選択手段1027は、技術用語候補抽出手段1026が抽出した技術用語候補の全部または一部を技術用語として選択する。具体的な選択方法については、パターン4,5において後述する。
次に、パターン3における技術用語抽出部1016の動作について、図27のフローチャートを用いて説明する。この図27のフローチャートの処理は、図17のフローチャートにおける技術用語の抽出処理(ステップS1105)に対応する。なお、このフローチャートにおいて、ステップS1801、S1802以外の処理は、図23のフローチャートと同様であり、その説明を省略する。
(ステップS1801)技術用語候補抽出手段1026は、検索された手がかり語句と所定の関係にある用語を技術用語候補として抽出する。技術用語候補抽出手段1026は、抽出した技術用語候補を図示しない記録媒体で一時記憶してもよい。
(ステップS1802)技術用語選択手段1027は、技術用語選択手段1027が選択した技術用語候補から、技術用語を選択する。技術用語選択手段1027は、選択した技術用語を図示しない記録媒体で一時記憶してもよい。
ステップS1802において、技術用語選択手段1027は、例えば、文献情報記憶部1012において記憶されているいずれの文献情報においてもメイントピックとして用いられていない技術用語候補を、技術用語として選択せず、いずれかの文献情報においてメイントピックとして用いられている技術用語候補を、技術用語として選択してもよい。技術用語として選択される用語は、いずれかの技術文献においては、メイントピックとして扱われている可能性が高いと考えられるからである。
なお、その具体的な方法としては、例えば、あらかじめ複数の文献情報からメイントピックを示す用語を収集して記録媒体に記憶しておき、技術用語候補のうち、記録媒体で記憶されているいずれかのメイントピックを示す用語と一致したものを技術用語として選択してもよく、あるいは、技術用語候補がメイントピックを示す用語として使用されているかどうかを、文献情報記憶部1012において記憶されている複数の文献情報を検索することにより判断してもよい。ある用語が、文献情報においてメイントピックを示す用語として使用されているかどうかの判断は、例えば、検索用語を用いた検索部1013での検索の処理で説明したようにして行うことができる。具体的には、ある用語が所定の回数以上、文献情報において記載されている場合に、その用語がメイントピックであると判断してもよく、あるいは、ある用語が所定の複数の領域(例えば、タイトルと要約など)に記載されている場合に、その用語がメイントピックであると判断してもよい。それら以外の方法で判断を行ってもよいことは言うまでもない。例えば、文献情報の構造を解析し、メイントピックが記載される領域に存在する用語がメイントピックであると判断してもよい。また、技術用語選択手段1027による技術用語の選択の方法は、これに限定されるものではなく、それ以外の方法であってもよい。それ以外の方法については、パターン4,5において後述する。
このようにして、技術用語候補から技術用語を選択することにより、技術用語の抽出を行うことができる。
[パターン4]
図28は、パターン4における技術用語抽出部1016の構成を示すブロック図である。ここでは、パターン3の技術用語抽出部1016における技術用語の選択の一例について説明する。図28において、技術用語抽出部1016は、手がかり語句記憶手段1021と、手がかり語句検索手段1022と、技術用語候補抽出手段1026と、技術用語選択手段1027と、技術用語接尾語記憶手段1028とを備える。技術用語接尾語記憶手段1028以外の構成及び動作は、パターン3と同様であり、その説明を省略する。
技術用語接尾語記憶手段1028では、技術用語が取り得る1以上の接尾語が記憶される。この技術用語接尾語記憶手段1028で記憶される接尾語は、技術用語が取り得るものであり、例えば、「モデル」や、「法」、「アルゴリズム」等である。この接尾語は、実際には接尾語を示す情報であるが、単に接尾語と呼ぶことにする。技術用語接尾語記憶手段1028は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。技術用語接尾語記憶手段1028に接尾語が記憶される過程は問わない。例えば、記録媒体を介して接尾語が技術用語接尾語記憶手段1028で記憶されるようになってもよく、通信回線等を介して送信された接尾語が技術用語接尾語記憶手段1028で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された接尾語が技術用語接尾語記憶手段1028で記憶されるようになってもよい。
なお、技術用語選択手段1027は、技術用語接尾語記憶手段1028で記憶されている接尾語を有する技術用語候補を技術用語として選択する。
このパターンにおける技術用語抽出部1016の動作は、図27のフローチャートと同様である。図29は、図27のフローチャートにおける技術用語の選択処理(ステップS1802)の詳細を示すフローチャートである。
(ステップS1901)技術用語選択手段1027は、カウンタiを1に設定し、カウンタjを1に設定する。
(ステップS1902)技術用語選択手段1027は、技術用語候補抽出手段1026が抽出したi番目の技術用語候補が、技術用語接尾語記憶手段1028で記憶されているj番目の接尾語を有するかどうか判断する。そして、有する場合には、ステップS1903に進み、そうでない場合には、ステップS1906に進む。
(ステップS1903)技術用語選択手段1027は、i番目の技術用語候補を技術用語として選択する。技術用語選択手段1027は、選択した技術用語を図示しない記録媒体で一時記憶してもよい。
(ステップS1904)技術用語選択手段1027は、カウンタiを1だけインクリメントし、カウンタjを1に設定する。
(ステップS1905)技術用語選択手段1027は、i番目の技術用語候補が存在するかどうか判断する。そして、存在する場合には、ステップS1902に戻り、存在しない場合には、技術用語を選択する一連の処理は終了となり、ステップS1106に進む。
(ステップS1906)技術用語選択手段1027は、カウンタjを1だけインクリメントする。
(ステップS1907)技術用語選択手段1027は、技術用語接尾語記憶手段1028にj番目の接尾語が存在するかどうか判断する。そして、存在する場合には、ステップS1902に戻り、そうでない場合には、ステップS1904に進む。
このようにして、技術用語候補から技術用語を選択することにより、技術用語の抽出を行うことができる。
[パターン5]
図30は、パターン5における技術用語抽出部1016の構成を示すブロック図である。ここでは、パターン3の技術用語抽出部1016における技術用語の選択の一例について説明する。図30において、技術用語抽出部1016は、手がかり語句記憶手段1021と、手がかり語句検索手段1022と、技術用語候補抽出手段1026と、技術用語選択手段1027と、技術用語接尾語記憶手段1028と、文献情報特定手段1029とを備える。文献情報特定手段1029以外の構成及び動作は、以下に説明する以外は、パターン4と同様であり、その説明を省略する。
このパターン5では、文献情報取得部1015は、文献情報特定手段1029の特定した文献情報の全部または一部も取得する。また、技術用語選択手段1027は、文献情報取得部1015が取得した一群の文献情報の全部または一部から抽出された技術用語候補の少なくともいずれかが、技術用語接尾語記憶手段1028で記憶されている接尾語を有する場合に、その一群の文献情報の全部または一部から抽出された技術用語候補のうち、所定の技術用語候補を技術用語として選択する。ここで、「一群の文献情報」とは、検索部1013によって検索された、あるいは、特定部1014によって特定された一の文献情報(これを「文献情報N」とする)と、その一の文献情報と分野が同一であると文献情報特定手段1029によって特定された1以上の文献情報とを含む文献情報の集合である。また、技術用語選択手段1027が技術用語として選択する「所定の技術用語候補」とは、文献情報Nの全部または一部から抽出された技術用語候補である。
文献情報特定手段1029による文献情報の特定方法は、特定部1014による文献情報の特定方法と同様である。文献情報特定手段1029は、例えば、文献情報Nと、引用関係にある文献情報を特定してもよい。ここで、引用関係とは、文献情報Nが他の文献情報を引用している関係であってもよく、文献情報Nが他の文献情報で引用されている関係であってもよく、その両方を含む関係であってもよい。また、その引用関係における引用形式が、引用している技術文献の問題を指摘する形式である問題指摘型引用形式である文献情報を特定してもよい。この文献情報特定手段1029の具体的な動作については、特定部1014の動作と同様であるか、あるいは、特定部1014の動作から容易に考えることができ、その詳細な説明を省略する。
このパターンにおける技術用語抽出部1016の動作は、図27のフローチャートと同様である。図31は、図27のフローチャートにおける技術用語の選択処理(ステップS1802)の詳細を示すフローチャートである。なお、このフローチャートにおいて、ステップS11001以外の処理は、図29のフローチャートと同様であり、その説明を省略する。
(ステップS11001)技術用語選択手段1027は、文献情報特定手段1029によって特定された文献情報を用いた技術用語候補の選択を行う。この処理の詳細については後述する。
次に、図31のフローチャートにおける技術用語候補の選択処理(ステップS11001)の詳細な処理について、図32のフローチャートを用いて説明する。
(ステップS11101)文献情報特定手段1029は、i番目の技術用語候補を含む文献情報と分野が同一の文献情報を特定する。例えば、i番目の技術用語候補を含む文献情報において引用されている文献情報であって、その引用形式がタイプCである文献情報を特定する場合には、図18のフローチャートで示される処理によって行うことができうる。なお、文献情報特定手段1029は、例えば、文献情報一時記憶手段1020に文献情報を識別する文献ID等が含まれる場合に、その文献ID等を用いて、i番目の技術用語候補を含む文献情報を特定することができうる。
(ステップS11102)文献情報取得部1015は、文献情報特定手段1029が特定した各文献情報の全部または一部を取得する。この取得の処理は、例えば、ステップS1104の処理と同様にして行うことができる。なお、文献情報特定手段1029が特定した文献情報の全部または一部がすでに取得されている場合には、文献情報取得部1015は、その文献情報の全部または一部を、その取得された文献情報の全部または一部が記憶されている記録媒体から取得してもよく、あるいは、文献情報記憶部1012から取得してもよい。
(ステップS11103)技術用語候補抽出手段1026は、ステップS11102で取得された文献情報の全部または一部から、技術用語候補を抽出する。この抽出の処理は、例えば、図27のフローチャートのステップS1802以前の処理と同様にして行うことができる。
(ステップS11104)技術用語選択手段1027は、カウンタmを1に設定し、カウンタnを1に設定する。
(ステップS11105)技術用語選択手段1027は、技術用語候補抽出手段1026がステップS11103で抽出したn番目の技術用語候補が、技術用語接尾語記憶手段1028で記憶されているm番目の接尾語を有するかどうか判断する。そして、有する場合には、ステップS11110に進み、そうでない場合には、ステップS11106に進む。
(ステップS11106)技術用語選択手段1027は、カウンタmを1だけインクリメントする。
(ステップS11107)技術用語選択手段1027は、技術用語接尾語記憶手段1028にm番目の接尾語が存在するかどうか判断する。そして、存在する場合には、ステップS11105に戻り、そうでない場合には、ステップS11108に進む。
(ステップS11108)技術用語選択手段1027は、カウンタnを1だけインクリメントし、カウンタmを1に設定する。
(ステップS11109)技術用語選択手段1027は、n番目の技術用語候補が存在するかどうか判断する。そして、存在する場合には、ステップS11105に戻り、存在しない場合には、特定された文献情報を用いて技術用語を選択する一連の処理は終了となり、ステップS1904に進む。
(ステップS11110)技術用語選択手段1027は、i番目の技術用語候補を技術用語として選択する。技術用語選択手段1027は、選択した技術用語を図示しない記録媒体で一時記憶してもよい。
なお、図31,図32のフローチャートでは、まず、文献情報Nに関する技術用語候補の選択を行い、その後に、文献情報Nと分野が同一であると特定された文献情報に関する技術用語候補の選択を行う場合について説明したが、これは一例であって、結果として、文献情報Nに関する技術用語候補の選択と、文献情報Nと分野が同一であると特定された文献情報に関する技術用語候補の選択とを行うことができるのであれば、その方法を問わない。
このようにして、技術用語候補から技術用語を選択することにより、技術用語の抽出を行うことができる。
なお、上記のパターン1〜5において、技術用語抽出部1016が技術用語を抽出するバリエーションについて説明したが、上記説明以外の方法を用いて技術用語を抽出してもよいことは言うまでもない。なお、その抽出される技術用語は、検索部1013が検索した技術文献の分野において用いられる用語であり、その技術文献の分野における要素となる技術用語であることが好ましいことは前述の通りである。上記パターン1〜5以外の技術用語を抽出する方法としては、例えば、文献情報取得部1015が取得した文献情報の全部または一部を解析して、技術用語を抽出してもよい。文献情報の全部または一部を解析して、技術用語を抽出する方法について簡単に説明する。
技術用語抽出部1016は、図33で示される構造タグと、手がかり語句とを対応付ける情報を保持しているとする。そして、文献情報取得部1015によって、文献情報の一部として「SVMを用いた文抽出」が取得されたとする。すると、技術用語抽出部1016は、取得された文献情報の一部「SVMを用いた文抽出」において、図33で示される手がかり語句を検索し、その手がかり語句を対応する構造タグに置き換える。すなわち、「SVM<Method手がかり語句=を用いた>文抽出」が得られる。次に、技術用語抽出部1016は、その構造タグの直前の文字列(英語の場合には、直後の文字列となる)を、構造タグで挟む。すなわち、解析結果として、「<Method手がかり語句=を用いた>SVM</Method>文抽出」が得られる。技術用語抽出部1016は、この解析結果から「Method」タグに対応する用語「SVM」を、技術用語として抽出することができる。なお、「Method」タグの場合には、そのタグで挟まれた用語を抽出すればよいが、「Goal」タグの場合には、そのタグで挟まれている用語と、「Goal」の手がかり語句によって対応付けられる用語(通常は、「Goal」タグの後の用語となる)を抽出することになる。例えば、文献情報取得部1015が「ニュース番組における字幕生成のための文短縮」を取得した場合には、構造解析の結果、「ニュース番組における<Goal手がかり語句=のための>字幕生成</Goal>文短縮」となり、技術用語抽出部1016は、「Goal」タグで挟まれている用語「字幕生成」と「Goal」の手がかり語句「のための」で対応付けられている用語「文短縮」を技術用語として抽出する。なお、図33で記載されている以外の構造タグを用いてもよい。ただし、技術用語の抽出に用いるのは、一般的に「Method」タグと、「Goal」タグである。また、技術用語抽出部1016は、検索用語を用いて技術用語の抽出を行ってもよい。例えば、解析の結果が「<Method手がかり語句=を用いた>SVM</Method>文抽出」であり、検索用語が「文抽出」である場合には、技術用語抽出部1016は、その検索用語「文抽出」に対応する用語であり、「Method」タグで挟まれている用語「SVM」を技術用語として抽出する。一方、解析の結果が「<Method手がかり語句=を用いた>SVM</Method>文抽出」であり、検索用語が「SVM」である場合には、その検索用語「SVM」に対応する用語であり、「Method」タグで挟まれている用語は存在しないため、技術用語は抽出されないことになる。このように、検索用語も用いて技術用語の抽出を行うことによって、技術用語を抽出する精度を上げることができうる。
次に、本実施の形態による技術動向情報作成装置1001の動作について、具体例を用いて説明する。この具体例において、技術動向情報作成装置1001は、スタンドアロンの装置であるとする。
この具体例において、文献情報記憶部1012で記憶されている文献情報等は、図34で示されるものであるとする。図34において、技術文献を識別する文献IDと、時期情報と、文献情報とが対応付けられている。文献情報「D001」等は、各文献情報を示すデータであり、各文献情報において、少なくともタイトルの領域を特定できるものとする。
まず、ユーザがキーボードやマウス等を操作することにより、検索用語「形態素解析」を技術動向情報作成装置1001に入力したとする。すると、その検索用語「形態素解析」は、検索用語受付部1011で受け付けられ(ステップS1101)、検索部1013に渡される。検索部1013は、その検索用語「形態素解析」がタイトルの領域に含まれる文献情報を検索する(ステップS1102)。検索部1013は、その検索の結果として、タイトルの領域に検索用語「形態素解析」が含まれる文献情報に対応する文献ID「001,003,010…」を取得し、特定部1014と、文献情報取得部1015とに渡す。
特定部1014は、検索部1013から受け取った文献IDで識別される文献情報と分野が同一の文献情報を特定する(ステップS1103)。この具体例では、検索部1013から受け取った文献IDで識別される文献情報において、タイプCの引用形式で引用されている文献情報を特定するものとする。その処理について具体的に説明する。
特定部1014は、まず、検索部1013から受け取った1番目の文献ID「001」で識別される文献情報から、引用文献識別情報と、引用情報とを取得する(ステップS1201,S1202)。ここで、文献ID「001」で識別される文献情報が学術論文である場合には、特定部1014は、文献情報記憶部1012から、その文献情報の「参考文献」の欄に記載されている文献の書誌情報(タイトルや発表年月、著者、掲載媒体等)を引用文献識別情報として取得する。その書誌情報には、例えば、1、2、3…や、1)、2)、3)…、[1]、[2]、[3]…、[A]、[B]、[C]…等のインデックスが付されているので、そのインデックスも取得する。次に、特定部1014は、その文献情報において、取得したインデックスを用いた検索を行い、そのインデックスが含まれる文を特定する。そして、そのインデックスの含まれる文と、その文と関連の深い文とを引用情報として取得する。ここで、インデックスの含まれる文と関連の深い文を特定する方法について説明する。
特定部1014は、あらかじめ図示しない記録媒体において、下記の2種類の手がかり語句を保持しているものとする。
(A)前拡張用手がかり語句
In this,On this,Such,But,However…
(B)後拡張用手がかり語句
We,we,They,they,Our,our,In this,On this,Such,But,However…
特定部1014は、まず、インデックスの含まれる文を引用情報の候補文とする。そして、その候補文の先頭の文に(A)前拡張用手がかり語句のいずれかが少なくとも含まれる場合に、その候補文よりも1個前の文を候補文に含める。特定部1014は、候補文を前に拡張する処理を、候補文の先頭の文に(A)前拡張用手がかり語句のすべてが含まれなくなるまで繰り返す。また、特定部1014は、候補文の次の文(候補文に後側に隣接する文であり、候補文には含まれない文)に、(B)後拡張用手がかり語句が含まれる場合に、その候補文の次の文を候補文に含める。特定部1014は、候補文を後に拡張する処理を、候補文の次の文に(B)後拡張用手がかり語句のすべてが含まれなくなるまで繰り返す。候補文を拡張する処理が終了した時点における候補文が、引用情報となる。特定部1014は、その引用情報を取得する。なお、(A)前拡張用手がかり語句、(B)後拡張用手がかり語句は一例であって、インデックスの含まれる文と関連の深い文を適切に抽出することができるのであれば、それ以外の手がかり語句を用いてもよい。また、ここでは、インデックスの含まれる文に注目したが、引用文献識別情報によって直接、引用文献に言及している技術文献においては、引用文献識別情報の含まれる文を、インデックスの含まれる文の代わりに用いることになる。
次に、特定部1014は、取得した引用情報を用いて引用形式がタイプCであるかどうか判断する。ここで、特定部1014は、図35で示されるタイプCの手がかり語句と、手がかり語句の位置とを対応付けた情報を図示しない記録媒体で保持しているものとする。図35の「手がかり語句の位置」とは、引用情報において、インデックスや引用文献識別情報の含まれる文を基準(0)とした、文の数を示す情報である。例えば、手がかり語句の位置「1〜3」の場合には、引用情報において、インデックスや引用文献識別情報の含まれる文の次の文(手がかり語句の位置=1)から、インデックスや引用文献識別情報の含まれる文から3番目の後方の文(手がかり語句の位置=3)までの3個の文を意味している。手がかり語句の位置がマイナスである場合には、インデックスや引用文献識別情報の含まれる文よりも前の文を意味する。タイプCの手がかり語句が、対応する手がかり語句の位置で示される文に含まれる場合に、その引用情報の引用形式は、タイプCであると判断される。具体的には、引用情報において、インデックスや引用文献識別情報の含まれる文の次の文(1番目の文)から3番目の文までのいずれかの文に「However」が含まれる場合には、その引用情報の引用形式はタイプCであると判断される(ステップS1205)。
特定部1014は、タイプCであると判断した引用形式の引用情報に対応する引用文献識別情報を、一時的に記憶する(ステップS1206)。例えば、引用形式がタイプCである引用情報に含まれるインデックスに対応する引用文献識別情報が一時的に記憶されることになる。特定部1014は、検索部1013から受け取ったすべての文献IDについて、引用情報と引用文献識別情報の取得と、引用情報の引用形式がタイプCである引用文献識別情報の一時記憶とが行われる(ステップS1201〜S1209)。そして、一時記憶された引用文献識別情報は、文献情報取得部1015に渡される。
文献情報取得部1015は、検索部1013から受け取った文献ID「001,003,010…」で識別される文献情報のタイトルを、文献情報記憶部1012から取得する(ステップS1301,S1401〜S1405)。また、文献情報取得部1015は、特定部1014から受け取った引用文献識別情報を用いて文献情報記憶部1012を検索し、その引用文献識別情報で識別される文献情報のタイトルが未取得である場合に、その文献情報のタイトルを取得する(ステップS1302,S1303,S1501〜S1506)。このようにして、文献情報取得部1015は、文献情報の一部を取得する(ステップS1104)。図36は、そのようにして取得された文献情報の一部(タイトル)の一例を示す図である。
次に、技術用語抽出部1016による技術用語の抽出について説明する。ここでは、パターン1の方法を用いて抽出する場合について説明する。また、図36で示される情報が、文献情報一時記憶手段1020において記憶されているものとする。なお、手がかり語句記憶手段1021では、図37で示される手がかり語句が記憶されているものとする。なお、図37の手がかり語句において、「$」は、抽出するべき技術用語の位置を示す記号である。例えば、手がかり語句「による」が文献情報取得部1015の取得したタイトルに含まれる場合には、その手がかり語句「による」の前の連続した名詞句を技術用語として抽出する。
図36で示される1番目のタイトル「文脈木を用いた形態素解析」には、手がかり語句「による」、「に基づく」が含まれないため、手がかり語句検索手段1022は、1番目のタイトルにはそれらの手がかり語句が含まれないと判断する(ステップS1601,S1602,S1606,S1607)。次に、手がかり語句検索手段1022は、1番目のタイトル「文脈木を用いた形態素解析」において、手がかり語句「を用いた」を検索する。この場合には、そのタイトルに「を用いた」が含まれるため(ステップS1602)、手がかり語句「を用いた」が検索され、手がかり語句検索手段1022は、その手がかり語句「を用いた」の前の連続した名詞句を抽出する旨を技術用語抽出手段1023に渡す。すると、技術用語抽出手段1023は、タイトル「文脈木を用いた形態素解析」を形態素解析して、手がかり語句「を用いた」の前の連続した名詞句「文脈木」を技術用語として抽出し(ステップS1603)、その技術用語「文脈木」と、対応する文献ID「001」とを図示しない記録媒体に蓄積する。このようにして、技術用語の抽出が行われる(ステップS1105)。図38は、そのようにして抽出された技術用語と文献IDとを対応付ける情報の一例を示す図である。なお、技術用語抽出部1016は、図38で示される情報のうち、文献IDを時期情報取得部1017に渡すものとする。また、技術用語抽出部1016は、図38で示される情報を技術動向情報作成部1018に渡すものとする。
時期情報取得部1017は、その文献IDを受け取ると、その文献IDを検索キーとして文献情報記憶部1012を検索し、その文献IDに対応する時期情報を取得する(ステップS1106)。図39は、そのようにして取得された時期情報と文献IDとを対応付ける情報の一例を示す図である。時期情報取得部1017は、図39で示される情報を技術動向情報作成部1018に渡すものとする。
技術動向情報作成部1018は、技術用語抽出部1016から図38で示される情報を受け取り、時期情報取得部1017から図39で示される情報を受け取ると、技術用語ごとに時期情報をグルーピングする。そして、各技術用語を縦に記載し、横軸に時期を記載し、技術用語ごとに対応する時期に丸印を配置し、右端の丸印と、左端の丸印とをつなぐ線を記載した画像を作成する(ステップS1107)。その画像には、図示しない経路によって受け取った検索用語も記載するものとする。なお、技術動向情報の画像を生成するために、技術動向情報作成部1018は、テンプレート等を図示しない記録媒体において保持しておき、そのテンプレート等を用いて技術動向情報の画像を生成してもよい。
出力部1019は、技術動向情報作成部1018が作成した技術動向情報の画像をディスプレイに表示する(ステップS1108)。図40は、そのようにしてディスプレイに表示された技術動向情報の画像の一例を示す図である。このようにして、ユーザは、形態素解析に関する技術動向(技術の流れ)を知ることができる。
なお、この具体例では、技術動向情報が画像である場合について説明したが、技術動向情報は画像でなくてもよい。例えば、図38で示される情報と、図39で示される情報とを文献IDを用いて組み合わせた図41で示される情報であってもよい。図41で示される技術動向情報は、例えば、スプレッドシートのデータであってもよい。
また、この具体例において、パターン2で説明したように、専門用語を用いて技術用語の抽出を行ってもよい。例えば、専門用語記憶手段1024において、図42で示される専門用語が記憶されており、手がかり語句検索手段1022が検索した手がかり語句と所定の関係を有する用語が「日本語コーパス」や「提案手法」であるとする。この場合には、「日本語コーパス」に、専門用語記憶手段1024で記憶されている「コーパス」が含まれるため、技術用語抽出手段1025は、「コーパス」を技術用語として抽出することになる。また、「提案手法」に、専門用語記憶手段1024で記憶されている「コーパス」等が含まれないため、技術用語抽出手段1025は、非専門用語である「提案手法」を技術用語として抽出しないことになる。このようにすることで、技術用語抽出手段1025は、「日本語コーパス」を技術用語として抽出するのではなく、技術用語として適切な「コーパス」を抽出するようになる。また、技術用語抽出手段1025が一般名詞や非専門用語等を抽出する事態を回避することもできる。
また、この具体例で用いた具体的な情報等は、本実施の形態による技術動向情報作成装置1001の動作の詳細を説明するために示したものであり、現実の学術論文等を含むコーパスから取得したものではない。
以上のように、本実施の形態による技術動向情報作成装置1001では、文献情報から技術用語を抽出し、また、技術用語の抽出された文献情報に対応する時期情報を取得し、抽出された技術用語と取得された時期情報とを用いて技術動向情報を作成することができる。その結果、その作成された技術動向情報を用いることにより、ある研究分野において用いられている技術の変遷を容易に知ることができうる。例えば、ある技術用語が技術文献に記載された時期の幅(いつからいつまでその技術用語が使用されているのか)を知ることができる。また、例えば、ある技術用語が技術文献に記載された頻度についても知ることができる。また、その技術動向情報を作成するために、その研究分野に精通した人の多大な労力と時間を費やす必要がないというメリットもある。
なお、上記実施の形態では、文献情報取得部1015が、検索部1013が検索した文献情報の全部または一部を取得する場合について説明したが、そうでなくてもよい。例えば、文献情報取得部1015は、文献情報記憶部1012で記憶されている複数の文献情報のうち、少なくとも一部の文献情報の全部または一部を取得するものであってもよい。例えば、ある研究分野の文献情報のみが文献情報記憶部1012で記憶されている場合には、文献情報取得部1015は、その文献情報記憶部1012で記憶されている文献情報の全部、または、ランダムに選択した所定の個数の文献を取得してもよい。このように、検索部1013による検索が不要な場合には、技術動向情報作成装置1001は、検索用語受付部1011や、検索部1013を備えなくてもよい。
また、上記実施の形態では、検索部1013によって検索された文献情報と分野が同一の文献情報を特定部1014が特定し、文献情報取得部1015が特定部1014の特定した文献情報の全部または一部も取得する場合について説明したが、そうでなくてもよい。すなわち、文献情報取得部1015は、特定部1014の特定した文献情報の取得を行わなくてもよい。この場合には、技術動向情報作成装置1001は、特定部1014を備えなくてもよい。
また、特定部1014による文献情報の特定で引用文献識別情報や引用情報を用いない場合には、文献情報に引用文献識別情報や引用情報が含まれなくてもよい。
(実施の形態5)
本発明の実施の形態5による技術動向情報作成装置について、図面を参照しながら説明する。本実施の形態による技術動向情報作成装置では、検索用語受付部の受け付ける検索用語が選択されるものである。
図43は、本実施の形態による技術動向情報作成装置1002の構成を示すブロック図である。図43において、本実施の形態による技術動向情報作成装置1002は、検索用語受付部1011と、文献情報記憶部1012と、検索部1013と、特定部1014と、文献情報取得部1015と、技術用語抽出部1016と、時期情報取得部1017と、技術動向情報作成部1018と、出力部1019と、接尾語記憶部1031と、専門用語抽出部1032と、検索用語蓄積部1033と、検索用語記憶部1034と、検索用語選択受付部1035とを備える。本実施の形態において新たに追加された接尾語記憶部1031、専門用語抽出部1032、検索用語蓄積部1033、検索用語記憶部1034、検索用語選択受付部1035以外の構成及び動作は、検索用語受付部1011が、検索用語選択受付部1035が受け付けた選択で示される検索用語を受け付ける以外、実施の形態4と同様であり、その説明を省略する。
接尾語記憶部1031では、所定の接尾語が記憶される。この接尾語は、後述する専門用語抽出部1032が抽出した専門用語から、検索用語を選ぶときに用いられるものであり、例えば、「システム」、「手法」、「データ」等である。なお、それ以外の適切な接尾語を用いてもよいことは言うまでもない。接尾語記憶部1031で記憶される接尾語は、実際には接尾語を示す情報であるが、単に接尾語と呼ぶことにする。また、接尾語記憶部1031は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。また、接尾語記憶部1031に接尾語が記憶される過程は問わない。例えば、記録媒体を介して接尾語が接尾語記憶部1031で記憶されるようになってもよく、通信回線等を介して送信された接尾語が接尾語記憶部1031で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された接尾語が接尾語記憶部1031で記憶されるようになってもよい。
専門用語抽出部1032は、文献情報記憶部1012で記憶されている文献情報から専門用語を抽出する。ここで、専門用語とは、1以上の研究分野における専門的な用語である。この専門用語は、実際には専門用語を示す情報であるが、単に専門用語と呼ぶことにする。専門用語抽出部1032は、例えば、文献情報を形態素解析することにより、単名詞等を抽出し、各単名詞等について専門用語である可能性を示すスコア付けを行い、高いスコアを付与された単名詞等を専門用語として取得してもよい。ここで、スコアを付与する方法として、造語能力に基づくスコア付け、出現頻度に基づくスコア付け等の複数の種類が知られている。また、それ以外の方法を用いてもよい。専門用語を抽出する方法については、実施の形態4で示した複数の文献等において開示されており、従来から知られているため、その詳細な説明を省略する。
検索用語蓄積部1033は、専門用語抽出部1032が抽出した専門用語に、接尾語記憶部1031で記憶されている接尾語を付けた用語が、文献情報記憶部1012で記憶されている文献情報に含まれる場合に、その専門用語を検索用語として検索用語記憶部1034に蓄積する。接尾語記憶部1031で記憶される接尾語を適切に選択することにより、技術動向を作成する分野を決めるために用いられる検索用語を適切に蓄積することができるようになる。例えば、接尾語「システム」が接尾語記憶部1031で記憶されており、専門用語抽出部1032が「形態素」と、「形態素解析」とを抽出した場合に、「形態素システム」が文献情報に含まれず、「形態素解析システム」が文献情報に含まれるとすると、検索用語として「形態素解析」が蓄積されるが、「形態素」は蓄積されないことになる。
検索用語記憶部1034では、2以上の検索用語が記憶される。この検索用語は、検索用語蓄積部1033によって蓄積されたものである。検索用語記憶部1034は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
検索用語選択受付部1035は、検索用語記憶部1034で記憶されている2以上の検索用語のうち、いずれかの検索用語の選択を受け付ける。この選択用語の受け付けのために、検索用語記憶部1034で記憶されている2以上の検索用語が出力されてもよく、あるいは、されなくてもよい。前者の場合には、例えば、検索用語がディスプレイ等に表示され、ユーザがマウス等を操作することにより所望の検索用語をクリック等し、その操作を検索用語選択受付部1035が受け付けてもよい。後者の場合には、例えば、検索用語記憶部1034で記憶されている2以上の検索用語と、各検索用語に対応した識別記号との表示された書類等をユーザが有しており、ユーザがキーボード等を操作することにより所望の検索用語に対応した識別記号を入力し、その入力を検索用語選択受付部1035が受け付けてもよい。なお、検索用語受付部1011は、前述のように、検索用語選択受付部1035が受け付けた選択で示される検索用語を受け付ける。
なお、検索用語選択受付部1035による受け付けは、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された情報の受け付けでもよく、有線もしくは無線の通信回線を介して送信された情報の受信でもよい。なお、検索用語選択受付部1035は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、検索用語選択受付部1035は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
次に、本実施の形態による技術動向情報作成装置1002における技術動向情報を作成する動作は、検索用語の受付処理(ステップS1101)以外、図17のフローチャートと同様であり、その説明を省略する。図44は、図17のフローチャートにおける検索用語の受付処理(ステップS1101)に代わる処理を示すフローチャートである。すなわち、本実施の形態による技術動向情報作成装置1002では、ステップS1101の処理の代わりに、図44で示されるステップS11201〜S11203の処理を行えばよい。
(ステップS11201)検索用語選択受付部1035は、検索用語の選択を受け付けたかどうか判断する。そして、選択を受け付けた場合には、ステップS11202に進み、そうでない場合には、選択を受け付けるまで、ステップS11201の処理を繰り返す。
(ステップS11202)検索用語選択受付部1035は、検索用語記憶部1034で記憶されている2以上の検索用語から、検索用語選択受付部1035が受け付けた選択で示される検索用語を読み出す。
(ステップS11203)検索用語選択受付部1035は、ステップS11202で検索用語記憶部1034から読み出した検索用語を検索用語受付部1011に入力する。その結果、その検索用語が検索用語受付部1011で受け付けられることになる。そして、ステップS1102に進む。
なお、図44のフローチャートでは、検索用語記憶部1034で記憶されている検索用語を検索用語選択受付部1035が読み出して、検索用語受付部1011に入力する場合について説明したが、検索用語受付部1011が、検索用語選択受付部1035で受け付けられた選択の示す検索用語を検索用語記憶部1034から読み出すようにしてもよい。
次に、検索用語記憶部1034に検索用語が蓄積される処理について、図45のフローチャートを用いて説明する。
(ステップS11301)専門用語抽出部1032は、文献情報記憶部1012で記憶されている文献情報から、専門用語を抽出する。この専門用語を抽出する方法は、前述の通りであり、その詳細な説明を省略する。なお、抽出された専門用語は、図示しない記録媒体において一時記憶されてもよい。
(ステップS11302)検索用語蓄積部1033は、カウンタiを1に設定し、カウンタjを1に設定する。
(ステップS11303)検索用語蓄積部1033は、専門用語抽出部1032が抽出したi番目の専門用語に、接尾語記憶部1031で記憶されているj番目の接尾語を付けた用語を文献情報記憶部1012において検索し、その用語が文献情報記憶部1012で記憶されている文献情報に含まれるかどうか判断する。そして、含まれる場合には、ステップS11304に進み、そうでない場合には、ステップS11307に進む。
(ステップS11304)検索用語蓄積部1033は、i番目の専門用語を検索用語として、検索用語記憶部1034に蓄積する。
(ステップS11305)検索用語蓄積部1033は、カウンタiを1だけインクリメントし、カウンタjを1に設定する。
(ステップS11306)検索用語蓄積部1033は、専門用語抽出部1032が抽出したi番目の専門用語が存在するかどうか判断する。そして、存在する場合には、ステップS11303に戻り、そうでない場合には、検索用語を蓄積する一連の処理は終了となる。
(ステップS11307)検索用語蓄積部1033は、カウンタjを1だけインクリメントする。
(ステップS11308)検索用語蓄積部1033は、接尾語記憶部1031において、j番目の接尾語が記憶されているかどうか判断する。そして、記憶されている場合には、ステップS11303に戻り、そうでない場合には、ステップS11305に進む。
以上のように、本実施の形態による技術動向情報作成装置1002では、専門用語を抽出し、その専門用語から検索用語を選択して蓄積することにより、その専門用語の抽出や検索用語の選択等が適切に行われることによって、研究分野を示す適切な検索用語が検索用語受付部1011で受け付けられるようにすることができうる。その結果、適切な技術動向情報を作成することができうる。
なお、本実施の形態では、検索用語記憶部1034で記憶されている検索用語を検索用語蓄積部1033が蓄積する場合について説明したが、検索用語記憶部1034で記憶される検索用語は、他の方法によって蓄積されてもよい。例えば、ユーザ等が適切な検索用語を選択等して、その検索用語が検索用語記憶部1034で記憶されるようにしてもよい。そのようにして、検索用語が検索用語記憶部1034に記憶される過程は問わない。例えば、記録媒体を介して検索用語が検索用語記憶部1034で記憶されるようになってもよく、通信回線等を介して送信された検索用語が検索用語記憶部1034で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された検索用語が検索用語記憶部1034で記憶されるようになってもよい。このような場合には、技術動向情報作成装置1002は、接尾語記憶部1031、専門用語抽出部1032、検索用語蓄積部1033を備えなくてもよい。
(実施の形態6)
本発明の実施の形態6による技術動向情報作成装置について、図面を参照しながら説明する。本実施の形態による技術動向情報作成装置は、表示された技術動向情報の画像において、文献情報に対応する文献図形の選択に応じて、その文献情報に関する情報が表示されるものである。
図46は、本実施の形態による技術動向情報作成装置1003の構成を示すブロック図である。図46において、本実施の形態による技術動向情報作成装置1003は、検索用語受付部1011と、文献情報記憶部1012と、検索部1013と、特定部1014と、文献情報取得部1015と、技術用語抽出部1016と、時期情報取得部1017と、技術動向情報作成部1018と、出力部1019と、図形選択受付部1041と、表示情報取得部1042とを備える。本実施の形態において新たに追加された図形選択受付部1041、表示情報取得部1042以外の構成及び動作は、技術動向情報作成部1018が表示情報取得部1042の取得した表示情報を表示する技術動向情報を作成する以外、実施の形態4と同様であり、その説明を省略する。
なお、本実施の形態において、技術動向情報は、技術用語ごとに、その技術用語を含む文献情報に対応する図形である文献図形が、その文献情報に対応する時期情報の示す時期に応じて表示される画像であるものとする。文献図形の形状は問わない。文献図形は、例えば、図40で示される技術動向情報のように、丸印であってもよく、三角形、四角形等であってもよく、あるいは、その他の形状であってもよい。
図形選択受付部1041は、技術動向情報における文献図形の選択を受け付ける。この選択の受け付けは、例えば、ユーザがマウス等を操作することによってポインタを文献図形の上に持ってくる(オンマウスオーバ)などのGUI(Graphical User Interface)を用いた選択の受け付けであってもよく、あるいは、技術動向情報において、各文献図形に対して、その文献図形を識別する識別情報(例えば、番号やアルファベットなど)が対応付けられており、ユーザがキーボード等を操作することによってその識別情報を入力するなどの選択の受け付けであってもよい。
なお、図形選択受付部1041による受け付けは、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された情報の受け付けでもよく、有線もしくは無線の通信回線を介して送信された情報の受信でもよい。なお、図形選択受付部1041は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、図形選択受付部1041は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
表示情報取得部1042は、表示情報を文献情報記憶部1012から取得する。ここで、表示情報とは、図形選択受付部1041が選択を受け付けた文献図形に対応する文献情報に関する情報であり、技術動向情報の画像に表示する情報である。文献情報に関する情報とは、例えば、文献情報の書誌情報である。より具体的には、文献情報のタイトルや、著者、文献の発表年等であってもよい。なお、技術動向情報作成部1018は、表示情報取得部1042が取得した表示情報を表示する技術動向情報を作成する。その表示情報は、例えば、図形選択受付部1041が選択を受け付けた文献図形の近くに表示されてもよく、あるいは、表示情報を表示する領域が設定されている場合には、その領域に表示されてもよい。
次に、本実施の形態による技術動向情報作成装置1003における技術動向情報を作成する動作は、図17のフローチャートと同様であり、その説明を省略する。図47は、図17のフローチャートの技術動向情報の出力処理(ステップS1108)の処理の後に実行する処理を示す図である。すなわち、本実施の形態による技術動向情報作成装置1003では、ステップS1108の処理の後に、図47で示されるステップS11401〜S11406の処理を行えばよい。
(ステップS11401)図形選択受付部1041は、文献図形の選択を受け付けたかどうか判断する。そして、文献図形の選択を受け付けた場合には、ステップS11402に進み、そうでない場合には、ステップS11405に進む。
(ステップS11402)表示情報取得部1042は、図形選択受付部1041が選択を受け付けた文献図形に関する情報である表示情報を文献情報記憶部1012から取得する。
(ステップS11403)技術動向情報作成部1018は、表示情報取得部1042が取得した表示情報を含む技術動向情報を作成する。
(ステップS11404)出力部1019は、技術動向情報作成部1018が作成した、表示情報を含む技術動向情報を出力する。そして、ステップS11401に戻る。
(ステップS11405)出力部1019は、技術動向情報の出力を終了するかどうか判断する。例えば、技術動向情報を出力してから所定の時間が経過したり、技術動向情報の出力を終了する旨の指示を受け付けたり、他の情報を出力する旨の指示を受け付けたりした場合に、出力部1019は、技術動向情報の出力を終了すると判断してもよい。技術動向情報の出力を終了する場合には、ステップS11406に進み、そうでない場合には、ステップS11401に戻る。
(ステップS11406)出力部1019は、技術動向情報の出力を終了する。そして、ステップS1101に戻る。
次に、本実施の形態による技術動向情報作成装置1003の表示情報を表示する動作について、具体的に説明する。ここで、図40で示されるように、ディスプレイに技術動向情報の画像が表示されているものとする。その表示において、コスト最小法に対応した文献図形(丸印)のうち、一番左側の丸印の上にマウスポインタを置いたとする。すると、図形選択受付部1041は、文献図形の選択を受け付けたと判断する(ステップS11401)。そして、図形選択受付部1041は、そのマウスポインタの位置の文献図形に対応する文献情報を識別する文献ID「003」を技術動向情報作成部1018にアクセスして取得し、表示情報取得部1042に渡す。
表示情報取得部1042は、図形選択受付部1041から受け取った文献ID「003」で識別される文献情報のタイトルを、表示情報として文献情報記憶部1012から取得し(ステップS11402)、その表示情報を技術動向情報作成部1018に渡す。技術動向情報作成部1018は、表示情報取得部1042から受け取った表示情報を、その時点におけるマウスポインタの位置に対応付けて表示するように技術動向情報を作成する(ステップS11403)。なお、技術動向情報作成部1018は、マウスポインタの位置を図形選択受付部1041から受け取ってもよく、他の構成要素から受け取ってもよい。
出力部1019は、そのようにして作成された表示情報を含む技術動向情報を出力する。その結果、図48で示される技術動向情報がディスプレイに表示されることになる(ステップS11404)。
なお、ユーザが技術動向情報の画像のウィンドウを閉じる動作を行った場合には、出力部1019は、技術動向情報の出力を終了すると判断し(ステップS11405)、技術動向情報の出力が終了されることになる(ステップS11406)。
この具体例では、表示情報として、文献情報のタイトルが表示される場合について説明したが、前述のように、それ以外の表示情報が表示されてもよい。例えば、著者名や、発表時期等が表示情報に含まれてもよい。発表時期は、時期情報であってもよい。
以上のように、本実施の形態による技術動向情報作成装置1003では、技術動向情報の画像における文献図形が選択された場合に、その文献図形に対応する文献情報に関する情報である表示情報が取得され、その表示情報を含む技術動向情報の画像が作成されて出力される。したがって、例えば、技術動向情報の画像に表示されている技術用語の含まれる文献情報についての所定の情報を、その技術動向情報の画像を見ているユーザが容易に知ることができるようになり、ユーザの利便性が向上されている。
ここで、技術用語を抽出する方法の改良と、実験結果とについて説明する。実施の形態4において、技術用語を抽出する各種の方法について説明したが、ここでは、機械学習を取り入れることなどにより、その抽出精度を向上させた方法(手法1と手法2)について説明する。
まず、技術用語抽出部1016は、文献情報取得部1015によって取得された文献情報の少なくとも一部に対して、前述の説明と同様にして、「Method」タグや、「Goal」タグを付与する。また、「における」や「に関する」等の限定に関する手がかり語句に対応する「Restrict」タグや、「及び」や「または」等の接続に関する手がかり語句に対応する「Conj」タグ等も付与する。なお、「Method」タグや、「Goal」タグ、後述する「Head」タグ以外のタグのことを「Other」タグと呼ぶことにする。ここでは、文献情報取得部1015が技術文献のタイトルを文献情報の一部として取得する場合について説明する。また、今回は、文献情報の主題を示す「Head」タグも付与する。「Head」タグは、「Method」タグや「Goal」タグの付与されていない名詞句に対して付与される。多くの場合に、取得されたタイトルの末尾の名詞句に対して「Head」タグが付与されることになる。
ここで、「Head」タグ等の付与されたタイトルを用いて技術用語を抽出する方法について簡単に説明する。技術用語抽出部1016は、検索用語受付部1011が受け付けた検索用語に「Head」タグが付与されているタイトルから、「Method」タグの付与されている用語を技術用語として抽出する。また、技術用語抽出部1016は、検索用語受付部1011が受け付けた検索用語に「Goal」タグが付与されているタイトルから、「Head」タグの付与されている用語を技術用語として抽出する。このようにすることで、検索用語に対する要素技術を示す技術用語を抽出することができる。
しかしながら、文献情報取得部1015によって取得されたタイトルの末尾の名詞句に「Head」タグを付与することが不適切な場合もある。例えば、そのタイトルが「中国語形態素解析に対するSVMとコスト最小法の比較実験」である場合に、タイトルの末尾である「比較実験」は主題ではなく、「SVM」や「コスト最小法」が主題であると考えられる。したがって、そのような場合であっても、適切に「Head」タグを付与することができる方法(手法1と手法2)について説明する。
まず、手法1について説明する。手法1では、主題として不適切な用語(例えば、「研究」「検討」「開発」「影響」「解析」「一考察」「評価」「考察」「実験的研究」「一検討」「応用」「効果」「提案」等である)のリスト(ここでは、「不要語リスト」と呼ぶ)を用意する。この不要語リストを作成する方法については後述する。まず、技術用語抽出部1016は、文献情報取得部1015によって取得されたタイトルに対して、形式的に「Head」タグや「Method」タグ等を付与していく。そして、「Head」タグの付与された用語が不要語リストに含まれるかどうか判断する。「Head」タグの付与された用語が不要語リストに含まれない場合には、「Head」タグを付与する処理は終了となる。一方、「Head」タグの付与された用語が不要語リストに含まれる場合には、その用語への「Head」タグの付与を取りやめて、その用語よりも前に存在する名詞句であって、「Method」タグや「Goal」タグの付与されていない名詞句に対して「Head」タグを付与する。この処理を、「Head」タグを付与した用語が不要語リストに含まれなくなるまで繰り返す。このようにして、適切な「Head」タグの付与が行われることになる。なお、ここでは、日本語に対する処理の場合について説明したが、英語等の日本語とは文法的に語順が違う言語の場合には、「Head」タグの付与された用語が不要語リストに含まれる際に、その用語よりも後に存在する名詞句に新たに「Head」タグを付与することになる。
次に、手法2について説明する。手法2では、適切な「Head」タグの付与が行われたデータ(教師データ)を用意し、機械学習を行わせる。この場合に、「Head」タグ以外の「Method」タグや「Goal」タグ等についても、同様に機械学習を行わせる。また、その教師データにおいて、各語句が不要語リストに含まれているかどうかの情報も含ませることにより、不要語リストに含まれる用語に対して「Head」タグが付与されることがなくなると考えられる。なお、機械学習のツールとしては、例えば、SVM(サポート・ベクター・マシン)等を用いてもよい。このような機械学習を行わせることによって、不適切な「Head」タグの付与が行われなくなると考えられる。
次に、上記の手法1で用いられた不要語リストを作成する方法について説明する。形式的に「Head」タグ等の付与を行った場合には、「実験」や「一考察」等の不適切な用語に「Head」タグが付与されると共に、「形態素解析」等の適切な用語にも「Head」タグが付与されることになる。ただし、「形態素解析」等の用語に「Head」タグが付与されるのは自然言語処理分野の論文だけであるが、「実験」や「一考察」等の用語に「Head」タグが付与されるのは、広範な技術分野にわたると考えられる。したがって、形式的に「Head」タグを付与した後に、その「Head」タグの付与された用語を頻度順にソートすると、「実験」や「一考察」等の不要語が上位にランクされることになる。そして、上位にランクされる不要語から、技術用語を人手によって除外することによって、不要語リストを作成することができる。
最後に、形式的に「Head」タグ等を付与した場合と、手法1を用いた場合と、手法2を用いた場合の実験結果について説明する。この実験では、NTCIRワークショップ1,2言語横断検索タスクのデータを用いた。このデータは、1988〜1997年の抄録データベースであり、日本国内65学会の発表論文を約45万件含んでいる。これらのデータから無作為に抽出した日本語論文表題1000件に対して「Head」タグ等の付与を人手で行い、それを教師データとして用いることにより、実験を行った。
図49は、形式的にタグを付与したときの結果であり、図50は、手法1を用いたときの結果であり、図51は、手法2を用いたときの結果である。なお、それらの結果において、Precisionは、精度(適合率)を示す値であり、正確性の指標となるものである。次の式によって求められる。
Precision=システムの出力と正解のタグが一致した形態素数/システムがタグを付与した形態素数
また、Recallは、再現率を示す値であり、網羅性の指標となるものである。次の式によって求められる。
Recall=システムの出力と正解のタグが一致した形態素数/人間の被験者がタグを付与した形態素数
また、F値は、PrecisionとRecallとの調和平均であり、次の式によって求められる。
F値=2*Recall*Precision/(Recall+Precision)
図49〜図51の実験結果からわかるように、形式的なタグの付与を行うと、例えば「Head」タグの抽出精度は44%程度と、非常に低い値になっている。一方、手法1,2による結果(図50,図51)では、「Head」タグの抽出精度と再現率が30%以上向上していることがわかる。このことから、手法1、手法2の有効性が確認できた。したがって、この手法1,2を用いて、文献情報取得部1015が取得した文献情報の少なくとも一部に対してタグの付与を行うことによって、より高精度な技術用語の抽出を行うことができることになる。
ここで、技術動向情報の表示に関する改良について説明する。実施の形態4等において、技術動向情報について説明したが、多数の技術用語が技術動向情報に含まれる場合には、技術動向情報がユーザにとってわかりにくいものとなりうる。したがって、ここでは、分類ごとに技術用語をまとめて技術動向情報を作成する方法について説明する。
図52は、分類ごとに技術用語をまとめた技術動向情報を作成する技術動向情報作成装置1004の構成を示すブロック図である。図52において、技術動向情報作成装置1004は、分類結果情報記憶部1051をさらに備え、その分類結果情報記憶部1051で記憶されている分類結果情報を用いて技術動向情報を作成する以外、実施の形態4の技術動向情報作成装置1001と同様のものである。
分類結果情報記憶部1051では、分類結果情報が記憶される。ここで、分類結果情報とは、専門用語が分類された結果を示す情報である。この専門用語は、技術用語抽出部1016が抽出する可能性のある技術用語である。例えば、図53で示されるように、分類結果情報では、専門用語が分類ごとにまとめられている。図53では、その分類に「アルゴリズム」等の分類名が付与されているが、分類名は付与されていなくてもよい。また、この分類結果情報は、人手によって作成されてもよく、あるいは、自動的に作成されてもよい。
分類結果情報記憶部1051は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。分類結果情報記憶部1051に分類結果情報が記憶される過程は問わない。例えば、記録媒体を介して分類結果情報が分類結果情報記憶部1051で記憶されるようになってもよく、通信回線等を介して送信された分類結果情報が分類結果情報記憶部1051で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された分類結果情報が分類結果情報記憶部1051で記憶されるようになってもよい。
技術動向情報作成部1018は、分類結果情報記憶部1051で記憶されている分類結果情報を用いて、技術用語が分類された技術動向情報を作成する。技術用語が分類されている以外は、技術動向情報は、実施の形態4等と同様である。具体的には、技術動向情報作成部1018は、分類結果情報を参照し、技術用語抽出部1016が抽出した技術用語を分類ごとに分ける。例えば、技術用語「コスト最小法」「ニューラルネット」「HMM」「タグ付きコーパス」「タグなしコーパス」が抽出された場合には、技術動向情報作成部1018は、図53で示される分類結果情報を参照し、それらの技術用語を分類「アルゴリズム」と、分類「データ」とに分ける。そのように、分類わけのなされた技術用語のグループごとに、技術動向情報作成部1018は、前述の説明と同様にして、技術動向情報が作成する。図54は、そのようにして作成された技術動向情報の一例を示す図である。図54において、技術用語が分類ごとに分かれているため、ユーザは、技術動向を分類ごとに容易に把握することができる。特に、抽出される技術用語が多数である場合に有効である。なお、実施の形態4等と同様にして技術動向情報を作成した後に、分類結果情報を用いて技術用語の分類わけを行ってもよい。
また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。
また、上記各実施の形態において、関連用語取得装置や技術動向情報作成装置は、スタンドアロンの装置であってもよく、あるいは、サーバ・クライアントシステムを構成するサーバ装置であってもよい。後者の場合には、関連用語取得装置は、クライアントから送信された用語情報を受信してもよく、また、クライアントに関連用語情報を送信してもよい。
また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。
なお、上記実施の形態1〜3における関連用語取得装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、用語を示す情報である用語情報を受け付ける用語情報受付ステップと、前記用語情報受付ステップで受け付けた用語情報の示す用語を文献情報の全部または一部に有する文献情報を、文献を示す情報である文献情報が2以上記憶される文献情報記憶部で記憶されている2以上の文献情報から検索し、検索された文献情報の全部、または当該検索された文献情報の一部であって、当該検索された文献情報において引用している他の文献を識別する情報である引用文献識別情報を少なくとも有する部分を前記文献情報記憶部から取得する文献情報取得ステップと、前記文献情報取得ステップで取得した文献情報の全部または一部に含まれる引用文献識別情報で識別される文献を示す情報である引用文献情報を前記文献情報記憶部で記憶されている2以上の文献情報から検索し、検索された引用文献情報の一部であって、あらかじめ決められている項目に対応する部分を前記文献情報記憶部から取得する引用文献情報取得ステップと、前記引用文献情報取得ステップで取得した引用文献情報の一部から、前記用語情報受付ステップが受け付けた用語情報の示す用語に関連する関連用語を示す情報である関連用語情報を取得する関連用語情報取得ステップと、前記関連用語情報取得ステップで取得した関連用語情報を出力する関連用語情報出力ステップと、を実行させるためのものである。
また、上記実施の形態における技術動向情報作成装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、技術文献の少なくとも一部を示す情報である複数の文献情報と、当該文献情報の示す技術文献に関する時期を示す情報である時期情報とが少なくとも記憶される文献情報記憶部で記憶されている複数の文献情報のうち、少なくとも一部の文献情報の全部または一部を取得する文献情報取得ステップと、前記文献情報取得ステップで取得した文献情報の全部または一部から技術用語を抽出する技術用語抽出ステップと、前記技術用語抽出ステップで抽出した技術用語が含まれる文献情報に対応する時期情報を前記文献情報記憶部から取得する時期情報取得ステップと、前記技術用語抽出ステップで抽出した技術用語と、前記時期情報取得ステップで取得した時期情報とを用いて、技術用語と当該技術用語を含む技術文献に関する時期とを対応付ける情報である技術動向情報を作成する技術動向情報作成ステップと、前記技術動向情報作成ステップで作成した技術動向情報を出力する出力ステップと、を実行させるためのものである。
また、このプログラムにおいて、コンピュータに、検索用語を受け付ける検索用語受付ステップと、前記検索用語受付ステップで受け付けた検索用語を用いて、前記文献情報記憶部を検索する検索ステップと、をさらに実行させ、前記文献情報取得ステップでは、検索された文献情報の全部または一部を取得するようにしてもよい。
なお、上記プログラムにおいて、情報を受け付ける受付ステップや、情報を出力する出力ステップなどでは、ハードウェアでしか行われない処理、例えば、出力ステップにおけるモデムやインターフェースカードなどで行われる処理は少なくとも含まれない。
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
図55は、上記プログラムを実行して、上記実施の形態による関連用語取得装置や技術動向情報作成装置を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現される。
図55において、コンピュータシステム100は、CD−ROM(Compact Disk Read Only Memory)ドライブ105、FD(Flexible Disk)ドライブ106を含むコンピュータ101と、キーボード102と、マウス103と、モニタ104とを備える。
図56は、コンピュータシステムを示す図である。図56において、コンピュータ101は、CD−ROMドライブ105、FDドライブ106に加えて、CPU(Central Processing Unit)111と、ブートアッププログラム等のプログラムを記憶するためのROM(Read Only Memory)112と、CPU111に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)113と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク114と、CPU111、ROM112等を相互に接続するバス115とを備える。なお、コンピュータ101は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
コンピュータシステム100に、上記実施の形態による関連用語取得装置や技術動向情報作成装置の機能を実行させるプログラムは、CD−ROM121、またはFD122に記憶されて、CD−ROMドライブ105、またはFDドライブ106に挿入され、ハードディスク114に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ101に送信され、ハードディスク114に記憶されてもよい。プログラムは実行の際にRAM113にロードされる。なお、プログラムは、CD−ROM121やFD122、またはネットワークから直接、ロードされてもよい。
プログラムは、コンピュータ101に、上記実施の形態による関連用語取得装置や技術動向情報作成装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム100がどのように動作するのかについては周知であり、詳細な説明は省略する。
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。