JP3598211B2 - 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 - Google Patents
関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 Download PDFInfo
- Publication number
- JP3598211B2 JP3598211B2 JP520098A JP520098A JP3598211B2 JP 3598211 B2 JP3598211 B2 JP 3598211B2 JP 520098 A JP520098 A JP 520098A JP 520098 A JP520098 A JP 520098A JP 3598211 B2 JP3598211 B2 JP 3598211B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- relevance
- order
- appearance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99936—Pattern matching access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99939—Privileged access
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
(目次)
発明の属する技術分野
従来の技術
発明が解決しようとする課題
課題を解決するための手段
発明の実施の形態(図1〜図30)
発明の効果
【0002】
【発明の属する技術分野】
本発明は、大容量文書情報から関連語の抽出に用いて好適な関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体に関するものである。
【0003】
【従来の技術】
従来、文書情報から関連語を抽出するに際して、最もよく行なわれていることとして、人手で、文書情報から関連語と判断し得るものを抜粋して、関連語のリストを作成する手法が行なわれる他、人手で作ったシソーラスを利用して関連語のリストを作成する手法も行なわれている。
【0004】
一方、人手の作業とせずに、計算機を使って自動で抽出する方法では、以下に述べる関連語のリストを作成する手法が案出されている。
その一の手法は、関連語としての二つの単語において、その二つの単語が、共起する頻度、すなわち二つの単語が共に文書情報の中で出現する頻度を基本として関連語のリストを作成するものである。共起と見做す範囲には、数単語以内や、数十単語以内,1分内,1段落内などさまざまなものがある。
【0005】
単純に共起する頻度を集計して、その頻度が高いものから関連語と判断する以外にも、以下に述べる手法がとられている。
事前にキーワードである単語の集合(単語群)を決めておき、その単語群に属する単語間において、共起する頻度を集計することにより、関連語のリストを作成する技術が案出されている。
【0006】
関連語のリストを作成するドキュメント(文書)に対して、形態素解析を行なうことで単語の品詞を決め、機能語を取り除いたり或いは自立語のみについてだけ共起する頻度を集計することにより、関連語のリストを作成する技術が案出されている。
ドキュメント中、指定する単語と共起する単語の頻度を基本として、頻度の高い関連語と頻度の低い関連語のものを関連語のリスト作成において除外することにより、関連語のリストを作成する技術が案出されている。
【0007】
構文解析等を行ない、重要な関係を持つ単語間についてのみ共起する頻度を集計して、関連語のリストを作成する技術が案出されている。
共起する頻度をそのまま関連語と判断する基準とする以外に、相互情報量と呼ばれる値を使う技術(以下,「技術A」と言う。)も案出されている。
ここで、相互情報量(mutual information,伝達情報量, transferred information)とは、事象xの生起を知ることにより伝えられる情報量と、他の事象yが生起したという条件下で事象xの生起を知ることにより伝えられる条件付き情報量との差を言い,数学的には、xi,yiの入力通報がxi,出力通報がyiである事象の組をいう。ここで、p(xi,yi)を事象xiとyiの生起する結合確率,p(xi|yi) を事象yiが生起したという条件下で事象xiの生起する確率,p(yi|xi) を事象xiが生起したという条件下で事象yiの生起する確率,p(xi) を事象xiの生起する確率,p(yi) を事象yiの生起確率とするとき、事象の組xi,yi に対する相互情報量(伝達情報量)T(xi|yi) は、下記の数式(1)に示す式で与えられる。
【0008】
【数1】
【0009】
数式(1)により与えられる式を用いて相互情報量T(xi|yi) を算出することで、指定された単語xiとそれに対するyiとの関連度を相互情報量により算出し、その算出した値を用いて、関連語のリストを作成することも考えられる。
【0010】
【発明が解決しようとする課題】
しかし、人手で、関連語のリストを作成するものでは、手間がかかり作成コストが高いばかりでなく、新しい言葉に対応するためにはその都度作成しなければならないという課題がある。
一方、計算機を使う方法でも、事前にキーワードを決める方法では事前にキーワードを決める作業が必要となるという課題がある。
【0011】
また、機能語を削除したり、自立語のみを取り出す方法では、形態素解析などの技術を使って品詞の情報等を得ることが必要であるという課題がある。
高頻度である関連語と低頻度である関連語を除く方法では、頻度がいくつ以上のものを除外するか、いくつ以下のものを除外するかを決定するのが容易ではないとういう課題がある。
【0012】
構文解析を必要とするものは、構文解析を行なうことによりその分だけ手間がかかるという課題がある。
形態素解析や構文解析を前提とする場合には、それらの性能も十分高くなくてはならず、また十分な性能を得ようとすれば絶えず辞書や文法の整備が必要となるという課題がある。
【0013】
前記した数式(1)に示すの相互情報量T(xi| yi) の式を用いて関連語のリストを作成する技術Aでは、事前に関連語検索の対象となる事項を予め決めておくことや、形態素解析の処理は必ずしも必要ではないが、単語の出現順序に依存しているため、出現順序に依存した関連語のリストを作成するに留まり、利用者がこの相互情報量を作成した関連語のリストを理解するにも分かり難いという課題がある。
【0014】
本発明は、上記課題を解決するために創案されたもので、相互情報量を用いることにより、形態素解析また構文解析の処理を施すことなく、利用者にとって分かり易く、かつ、精度を高くして関連語を抽出できるようにした、関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体を提供することを目的とする。
【0015】
【課題を解決するための手段】
上記課題を解決する本発明の関連語抽出装置は、テキストデータ上において、指定された単語の前に出現する前出現単語または上記指定された単語の後に出現する後出現単語を抽出する前後出現単語抽出部と、上記指定された単語がテキストデータ上で出現する頻度,上記の前出現単語または後出現単語がテキストデータ上で出現する頻度および該前後出現単語抽出部にて抽出された上記の前出現単語および後出現単語の頻度を計算しうる頻度計算部と、該頻度計算部からの上記指定された単語の頻度情報および上記の前出現単語および後出現単語のテキストデータ上での出現頻度情報に基づいて、上記指定された単語の出現確率とともに上記の前出現単語および後出現単語それぞれの出現確率を計算しうる出現確率計算部と、該頻度計算部からの、該前後出現単語抽出部にて抽出された上記の前出現単語および後出現単語の頻度情報に基づいて、上記の前出現単語および後出現単語のそれぞれが上記指定された単語と共起する共起確率を計算する共起確率計算部と、該出現確率計算部からの各出現確率情報と、該共起確率計算部からの各共起確率情報とに基づいて、上記の指定された単語に対する前出現単語および後出現単語の、出現順序に依存する関連度を計算する順序依存型単語関連度計算部と、該順序依存型単語関連度計算部からの関連度情報に基づいて、上記の指定された単語に対する前出現単語および後出現単語の、出現順序に依存しない関連度を計算する順序無依存型単語関連度計算部と、該順序無依存型単語関連度計算部にて計算された関連度情報に基づいて、関連度の高い単語を関連語として抽出する単語群抽出部と、をそなえて構成されたことを特徴としている。
【0016】
さらに、上記指定された単語に関する各種計算結果および抽出結果のうちの少なくとも一つを記憶しておく記憶部をそなえて構成することとしてもよい。
また、上記テキストデータについて単語または形態素の単位に分割する単語分割部をそなえ、該単語分割部にて分割された結果を用いることにより、上記の前後出現単語抽出部および頻度計算部における処理を行なうように構成することもできる。
さらに、該単語群抽出部から、上記指定された単語としての少なくとも2つの単語それぞれに関連する単語群の抽出結果を用いることにより、上記少なくとも2つの単語間の類似度を計算する類似度計算部をそなえて構成することとしてもよい。
【0017】
また、上記テキストデータについて単語または形態素の単位に分割する単語分割部をそなえ、該単語分割部にて分割された結果を用いることにより、上記の前後出現単語抽出部および頻度計算部における処理を行なうように構成されたこととしてもよい。
さらに、該単語群抽出部から、上記指定された単語としての少なくとも2つの単語それぞれに関連する単語群の抽出結果を用いることにより、上記少なくとも2つの単語間の類似度を計算する類似度計算部をそなえて構成されたこととしてもよい。
【0018】
また、本発明の関連語抽出方法は、記憶部を有するコンピュータが、ある単語に関連する関連語としての単語群をテキストデータから抽出する関連語抽出方法において、テキストデータ上において、指定された単語の前に出現する前出現単語および後に出現する後出現単語を抽出し、前記記憶部に記憶を行なう前後出現単語抽出ステップと、該前後出現単語抽出ステップにて前記記憶部に記憶された前出現単語および後出現単語を前記記憶部から読み出し、読み出された前記の前出現単語および後出現単語のそれぞれが、前記指定された単語と共起する共起確率を計算し、前記記憶部に記憶を行なう共起確率計算ステップと、前記指定された単語の出現確率とともに、該前後出現単語抽出ステップにて抽出された前出現単語および後出現単語それぞれの出現確率を計算し、前記記憶部に記憶を行なう出現確率計算ステップと、上記の共起確率計算ステップにて前記記憶部に記憶された各共起確率情報および出現確率計算ステップにて前記記憶部に記憶された各出現確率情報を前記記憶部から読み出し、読み出された前記の各共起確率情報および各出現確率情報に基づいて、上記の指定された単語に対する前出現単語および後出現単語の、出現順序に依存する順序依存型単語関連度を計算し、前記記憶部に記憶を行なう順序依存型単語関連度計算ステップと、該順序依存型単語関連度計算ステップにて前記記憶部に記憶された順序依存型単語関連度情報を前記記憶部から読み出し、読み出された前記順序依存型単語関連度情報に基づいて、上記の指定された単語に対する前出現単語および後出現単語の、出現順序に依存しない順序無依存型単語関連度を計算し、前記記憶部に記憶を行なう順序無依存型単語関連度計算ステップと、該順序無依存型単語関連度計算ステップにて前記記憶部に記憶された順序無依存型単語関連度情報を前記記憶部から読み出し、読み出された前記順序無依存型単語関連度情報に基づいて、関連度の高い単語を関連語として抽出する単語抽出ステップと、を実行することを特徴としている。
【0019】
更に、前記コンピュータは、更に、該前後出現単語抽出ステップにおける上記の前出現単語および後出現単語を抽出する前段または後段において、上記テキストデータについて単語または形態素の単位に分割する単語分割ステップを実行することとしてもよい。
また、前記コンピュータは、更に、該単語群抽出ステップにて上記指定された単語としての少なくとも2つの単語それぞれに関連する単語群を抽出した後に、抽出された上記各単語に関連する単語群から、上記少なくとも2つの単語間の類似度を計算する類似度計算ステップを実行することとしてもよい。
【0020】
また、前記コンピュータは、更に、該単語群抽出ステップにて上記指定された単語としての少なくとも2つの単語それぞれに関連する単語群を抽出した後に、抽出された上記各単語に関連する単語群から、上記各単語全てに関連する単語群を抽出する関連単語群抽出ステップをそなえることもできる。
さらに、前記コンピュータは、更に、前記指定された単語に対して同義と見做しうる単語がある場合には、該単語群抽出ステップにおいて、上記同義と見做しうる単語に関連する単語群と、上記指定された単語に関連する単語群とを一つにまとめて出力することとしてもよい。
【0021】
さらに、本発明の関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体は、ある単語に関連する関連語としての単語群をテキストデータから抽出すべく、記憶部を有するコンピュータに、テキストデータ上において、指定された単語の前に出現する前出現単語および後に出現する後出現単語を抽出し、前記記憶部に記憶を行なう前後出現単語抽出機能と、該前後出現単語抽出機能にて前記記憶部に記憶された前出現単語および後出現単語を前記記憶部から読み出し、読み出された前記の前出現単語および後出現単語のそれぞれが、該対象単語指定機能にて指定された単語と共起する共起確率を計算し、前記記憶部に記憶を行なう共起確率計算機能と、前記指定された単語の出現確率とともに、該前後出現単語抽出機能にて抽出された前出現単語および後出現単語それぞれの出現確率を計算し、前記記憶部に記憶を行なう出現確率計算機能と、上記の共起確率計算機能にて前記記憶部に記憶された各共起確率情報および出現確率計算機能にて前記記憶部に記憶された各出現確率情報を前記記憶部から読み出し、読み出された前記の各共起確率情報および各出現確率情報に基づいて、上記の指定された単語に対する前出現単語および後出現単語の、出現順序に依存する順序依存型単語関連度を計算し、前記記憶部に記憶を行なう順序依存型単語関連度計算機能と、該順序無依存型単語関連度計算機能にて前記記憶部に記憶された順序依存型単語関連度情報を前記記憶部から読み出し、読み出された前記順序依存型単語関連度情報に基づいて、上記指定された単語に対する前出現単語および後出現単語の、出現順序に依存しない順序無依存型関連度を計算し、前記記憶部に記憶を行なう順序無依存型単語関連度計算機能と、該順序無依存型単語関連度計算機能にて前記記憶部に記憶された順序無依存型単語関連度情報に基づいて、関連度の高い単語を関連語として抽出する単語抽出機能と、を実行させるための関連語抽出プログラムが記録されたことを特徴としている。
【0022】
【発明の実施の形態】
以下、図面を参照して発明の実施の形態の説明をする。
(1)実施の形態の説明
(a)ハードウェア構成の説明
図1は、本発明の一実施形態としての関連語抽出装置が適用されるシステムを示す図であり、この図1に示すように、本システム(例えば汎用のコンピュータシステム)1は、CPUや所要のメモリ等を内蔵する本体装置1a,ディスプレイ1b,キーボード1c等を兼ね備えて構成される。
【0023】
本体装置1aは、関連語抽出プログラムを記録している媒体,例えば,CD−ROMや、光磁気ディスク(以下、「MO」と言う。)やフロッピーディスク(以下、「FD」と言う。)等1fから関連語抽出プログラムをハードディスク(図示しない)等に格納し、関連語抽出プログラムを実行する際には、関連語抽出プログラムをメモリ(図示しない)に展開してCPU(図示しない)とともに、ディスプレイ1b,キーボード1c等の接続機器に制御を施すようになっている。
【0024】
図2は、本発明の関連語抽出プログラムが適用された汎用のコンピュータシステムの要部を示すブロック図であり、この汎用のコンピュータシステム(以下においては、単に汎用コンピュータあるいはコンピュータと記す場合がある。)1は、CPU11,メモリ12,ハードディスク13,入力装置14,出力装置15を要部として構成される。
【0025】
ハードディスク13は、CD−ROMドライブ1dやFDドライブ1e等から記録媒体に記録されている関連語抽出プログラムを保持するものである。
入力装置14は、CPU11等にデータやプログラム等の情報を入力するために用いる装置であり、キーボード1cやマウス(図示しない)やCD−ROMドライブ1d、FDドライブ1e等が該当する。
【0026】
出力装置15は、CPU11からの画像表示情報や検索情報等を外部へ出力するものであり、ディスプレイ1b等が該当する。
(b)一実施形態の説明
図3は、本発明の一実施形態にかかる関連語抽出装置が適用されたシステム(汎用コンピュータ)1のブロック図であり、この図3に示すようにコンピュータ1は前後出現単語抽出部21,頻度計算部22,共起確率計算部24,出現確率計算部23,順序依存型単語関連度計算部25,順序無依存型単語関連度計算部26,単語抽出部27,単語分割部28,記憶部(図示しない)をそなえて構成される。
【0027】
前後出現単語抽出部21は、テキストデータ上において、指定された単語の前に出現する前出現単語または指定された単語の後に出現する後出現単語を抽出するものである。ここで、指定された単語とは、テキストデータ上の文書情報から関連語を抽出するときの基になるキーワードである。
なお、説明の便宜を考慮して、テキストデータに出現する単語の集合をW,テキストデータに含まれる全単語数をN,テキストデータに出現する個々の単語をωi(ωi∈W,1≦i≦w),テキストデータに出現するすべての単語タイプ数wとする。
【0028】
なお、以下において、キーワードの前に出現する単語をωfi、キーワードの後に出現する単語をωbiと言う場合がある。
頻度計算部22は、指定された単語(以下、「キーワード」と言う。)がテキストデータ上で出現する頻度,前出現単語または後出現単語がテキストデータ上で出現する頻度および前後出現単語抽出部21にて抽出された前出現単語および後出現単語の頻度を計算しうるものである。ここで、頻度は、所定量の文字情報からキーワードがいくつあるかを示す指標であり、例えば、1000単語から構成される英文にある英単語XがM個(Mは自然数)あるなら数値Mが出現数を示す指標となる。ここで、頻度の計算を行なう文書の範囲は、装置の保守者や設計者等の設計や設定等に依存するようになっている。
【0029】
テキストデータ中での単語ωi の頻度f(ωi)は、以下の数式(2)に示すような関係が成り立つ。
【0030】
【数2】
【0031】
出現確率計算部23は、頻度計算部22からの指定された単語の頻度情報および前出現単語および後出現単語のテキストデータ上での出現頻度情報に基づいて、指定された単語の出現確率とともに上記の前出現単語および後出現単語それぞれの出現確率を計算しうるものである。
テキストデータ中での単語ωi が出現する確率P(ωi)は、以下の数式(3)に示すような関係が成り立つ。
【0032】
【数3】
【0033】
共起確率計算部24は、頻度計算部22からの、前後出現単語抽出部21にて抽出された前出現単語および後出現単語の頻度情報に基づいて、前出現単語および後出現単語のそれぞれが指定された単語と共起する共起確率を計算するものである。
なお、テキストデータ中で、単語ωi と単語ωj がこの順番で出現する確率をP(ωi,ωj)と記す。
【0034】
この共起確率を求めるには、前後出現単語抽出部21にて抽出された単語それぞれについて頻度を計算する。抜き出した単語の頻度情報をf(ωfi)=f(ωi,ωk),f(ωbi)=f(ωi,ωk)とするとP(ωi,ωk)=f(ωi,ωk)/N,P(ωi,ωk)=f(ωi,ωk)/Nと定義することができる。
ここで、例として、前出現単語として抽出された単語のリスト中に含まれていいる頻度数をf(ωfi) としており、換言すると単語ωi と単語ωk とがこの順番で出現する頻度f(ωi,ωk)であることを意味する。
【0035】
順序依存型単語関連度計算部25は、出現確率計算部23からの各出現確率情報と、共起確率計算部24からの各共起確率情報とに基づいて、指定された単語に対する前出現単語および後出現単語の、出現順序に依存する関連度を計算するものである。
順序依存型単語関連度は、以下の数式(4)に示す式で定義され、単語ωi と単語ωj との単語関連率を次のように定義される。
【0036】
【数4】
【0037】
P(ωi,ωj)は、コーパス(大量の文書データ)中でこの順番で単語ωiと単語ωjが出現する確率を表わす。
以下、順序依存型単語関連度A(ωi,ωj)をAij と示す場合がある。
順序無依存型単語関連度計算部26は、順序依存型単語関連度計算部25からの関連度情報に基づいて、指定された単語に対する前出現単語および後出現単語の、出現順序に依存しない関連度を計算するものである。
【0038】
単語ωi と単語ωj の関連度r(ωi,ωj)は、以下の数式(5)に示すように定義される。
【0039】
【数5】
【0040】
単語群抽出部27は、順序無依存型単語関連度計算部26にて計算された関連度情報に基づいて、指定された単語に関連する単語群をテキストデータから抽出するものである。単語抽出部27は、関連度の高いものから上位の関連語を抜き出すようになっている。
単語分割部28は、テキストデータについて単語または形態素の単位に分割するものである。
【0041】
記憶部(図示しない)は、指定された単語に関する各種計算結果および抽出結果のうちの少なくとも一つを記憶しておくものである。
記憶部は、頻度計算部22で計算した頻度情報,前後出現単語抽出部21で抜き出した単語の情報,共起確率計算部24で計算された共起確率の情報,単語出現確率計算部23にて計算された出現確率情報,順序依存型単語関連度計算部26にて計算された関連度情報,順序無依存型単語関連度情報計算部26にて計算された関連度情報,単語分割部28にて単語または形態素の単位に分割されたテキストデータの情報を記憶するようになっている。
【0042】
さらに、上記各部とCPU11,メインメモリ12,HDD13,等とを具体的に関連付けて説明すると、以下のようになる。
単語分割部28としてのCPU11は、テキストデータに含まれている文書情報に対して単語または形態素の単位に分割するものである。
ここで、テキストデータは、FDやCD−ROM等の媒体やハードディスク13に格納されているようになっているが、さらに、スキャナーからテキストデータを読み込むようにしてもよい。以下、テキストデータが、ハードディスク13に格納されている場合を前提にするが、FDやCD−ROM等の媒体にテキストデータが格納されている場合も同様であることを意味する。
【0043】
CPU11は、テキストデータを形態素解析の処理を施すに際して、テキストデータの文書情報をメモリ12に展開して単語または形態素の単位に分割するようになっており、形態素解析処理が行われて単語または形態素の単位に分割されたテキストデータの文書情報は、記憶部としてのハードディスク13やメモリ12に格納されるようになっている。
【0044】
例えば、単語分割部28としてのCPU11は、図4に示すように文書内容のテキストデータを図5に示すように単語あるいは形態素の単位に分割するようになっている。以下、図4に示す新聞記事を文書内容とするテキストデータを基に、説明する。
前後出現単語抽出部21としてのCPU11は、装置利用者によるキーボード1c等の操作からキーワード(以下、場合によりキーワードを記す表示としてωkを記す場合がある。)ωk の情報を受け取ると、キーワードωk の前に出現する前出現単語ωfiまたはキーワードωk の後に出現する後出現単語ωbiを抽出するものである。
【0045】
CPU11は、キーワードωk に対する前出現単語ωfi,後出現単語ωbiを抽出する際に、ハードディスク13に格納されている文書情報(テキストデータ)をメモリ12に展開して前出現単語ωfi, 後出現単語ωbiを抽出するようになっている。この抽出した結果は、メモリ12或いはハードディスク13に格納されるようになっている。
【0046】
ここで、図6(a),(b)は、図5に示すような単語あるいは形態素の単位に分割された内容の文書情報であるテキストデータに対してキーワードωk を「日光」として、前出現単語ωfi, 後出現単語ωbiを抽出した情報を示す図であり、図6(a)はキーワードωk (「日光」)の前に出現する単語を抽出した情報を示す図であり、図6(b)はキーワードωk (「日光」)の後に出現する単語を抽出した情報を示す図である。前後出現単語抽出部21としてのCPU11は、図6(a),(b)に示すような抽出した単語あるいは形態素をメモリ12上のテーブルに格納するようになっている。
【0047】
頻度計算部22としてのCPU11は、キーワードをテキストデータ上で出現する頻度f(ωk),前出現単語または後出現単語のテキストデータの文書情報中に出現する頻度f(ωi)、前後出現単語抽出部にて抽出された前出現単語および後出現単語の頻度f(ωfi),f(ωbi) を計算するものである。例えば、頻度計算部22としてのCPU11は、前出現単語ωfiの頻度f(ωfi) を計算するに際して、図6(a)に示すような前出現単語として抽出された単語のリスト内に出現している数を基に算出するようになっている。
【0048】
頻度計算部22としてのCPU11は、図6に示すようなデータをメモリ12上のテーブルで整列する等の処理を施してその単語の頻度を数えるようになっている。
ここで、図7は、図5に示すような単語あるいは形態素に分割された内容の文書情報であるテキストデータ中の単語について算出した頻度数の例を示す図である。
【0049】
また、図8は、図5に示すような単語あるいは形態素に分割された内容の文書情報であるテキストデータ中の全単語について算出した頻度数を提示する図であり、この図8に示すような頻度数の数値を基に共起する割合を考察すると、関連語とは直接的に結びつかない言葉、例えば「の」,「は」,「。」等の助詞や句読点が高頻度で共起するものになっている。
【0050】
CPU11は、計算した頻度f(ωk),f(ωfi),f(ωbi),f(ωi)のデータ情報を保持するようにメモリ12やハードディスク13を制御するようになっている。
出現確率計算部23としてのCPU11は、頻度計算部22からの指定された単語の頻度情報f(ωk)および前出現単語および後出現単語のテキストデータ上での出現頻度情報f(ωi)に基づいて、キーワードの出現確率とともに前出現単語および後出現単語それぞれの出現確率を計算しうるものである。
【0051】
ここで、CPU11は、出現確率の計算を行なうに際して、頻度計算部22で算出されたデータ情報を利用するようになっている。それに対応する情報をメモリに関連付けて処理作業を行なうようになっている。
また、CPU11は、算出した出現確率の情報をメモリ12やハードディスク13に保持するようになっている。
【0052】
共起確率計算部24としてのCPU11は、頻度計算部22からの、前後出現単語抽出部にて抽出された前出現単語および後出現単語の頻度情報に基づいて、前出現単語および後出現単語のそれぞれがキーワードωk と共起する共起確率P(ωi,ωk),P(ωk,ωi)を計算するようになっている。
順序依存型単語関連度計算部25としてのCPU11は、出現確率計算部23からの各出現確率情報P(ωi),P(ωk)と、共起確率計算部24からの各共起確率情報P(ωi,ωk),P(ωk,ωi)とに基づいて、上キーワードωk に対する前出現単語および後出現単語の、出現順序に依存する関連度A(ωk,ωi),A(ωi,ωk)を計算するものである。
【0053】
CPU11は、出現順序に依存する関連度A(ωk,ωi),A(ωi,ωk)を算出するに際して、その計算に用いる情報P(ωi),P(ωk),P(ωi,ωk),P(ωk,ωi)をハードディスク13からメモリ12に読みだすようになっている。
また、CPU11は、計算した関連度A(ωk,ωi),A(ωi,ωk)をハードディスク13やメモリ12に保持するようになっている。
【0054】
ここで、図9は、キーワード「日光」の前に出現する単語ωfiとの関連度A(ωi,ωk)を提示する図であり、一方図10は、キーワード「日光」の後に出現する単語ωbiとの関連度A(ωk,ωi)を提示する図である。これらの図9および図10に示すような関連度の情報がメモリ12のテーブル上に言葉と数値とを対応して格納すうようになっている。
【0055】
順序無依存型単語関連度計算部26としてのCPU11は、順序依存型単語関連度計算部25からの関連度情報A(ωk,ωi),A(ωi,ωk)に基づいて、キーワードωk に対する前出現単語および後出現単語の、出現順序に依存しない関連度r(ωi,ωk)を計算するものである。
CPU11は、関連度情報r(ωi,ωk)を算出するに際して、計算に用いる情報A(ωk,ωi),A(ωi,ωk)をメモリ11やハードディスク13から読みだして、演算処理を行なうようになっている。
【0056】
ここで、図11は、順序無依存型単語関連度計算部26としてのCPU11が、図9,図10に提示されているデータを基に、出現順序に依存しない関連度r(ωi,ωk)を提示する図である。
CPU11は、この図11に示すような関連度情報r(ωi,ωk)を言葉と数値を対応付けてメモリ12のテーブル上に格納するようになっている。
【0057】
単語抽出部27としてのCPU11は、順序無依存型単語関連度計算部26にて計算された関連度情報r(ωi,ωk)に基づいて、キーワードωk に関連する単語群を上テキストデータから抽出する。
CPU11は、テキストデータからキーワードωk に関連する単語群を抽出するに際して、順序依存型単語関連度計算部26にて計算された結果を用いるようになっている。
【0058】
例えば、関連度の高い単語群を抽出するようなときは、CPU11は、順序依存型単語関連度計算部26にて計算された関連度情報r(ωi,ωk)を用いて、この関連の度合いを示す数値により、数値の大きい単語から順に出力するようになっている。
具体的には、CPU11は、図11に示すような順序に依存しない関連度の中から上位5位までの出力する等行なうようになっており、CPU11が単語群を具体的に何語出力するかは装置の設計者や保守者等による設計や操作に依存するようなっている。以下、単語抽出部27としてのCPU11が、順序に依存する関連度情報r(ωi,ωk)から数値の大きい上位10位までの単語或いは形態素を抽出して出力することを前提に説明する。
【0059】
なお、単語抽出部27としてのCPU11は、抽出した単語群をメモリ12等にて保持するような制御を行なうこともできるようになっており、以下、抽出した単語のリストをメモリ12等で保持することを前提に説明する。
ここで、CPU11は、装置の利用者から単語「日光」の関連語のリストを求める信号を受けた場合には、メモリ12上のテーブル等に抽出された関連語のリスト情報が存在するか否かを判断し、存在している場合にはその情報を用いることで、関連語リストを出力することができるようになっていることに対応する。
【0060】
また、CPU11は、抽出した単語群をディスプレイの画面に表示したり印字してプリントアウトするような制御を行なうことができるものである。
記憶部としてのメモリ12やハードディスク13は、キーワードωk に関する各種計算結果P(ωk),P(ωi,ωk),r(ωi,ωk)等の計算結果や頻度情報f(ωk),f(ωfi) 等の抽出した結果を記憶しておくものである。なお、以下、場合により、メモリ12やハードディスク13等のデータ情報を記憶しておくものを記憶装置と言う場合がある。
【0061】
上述の構成により、本発明の一実施形態の関連語抽出装置が適用された汎用コンピュータ1では、本体装置1a内へCD−ROM等のコンピュータ読み取り可能な記録媒体から関連語抽出プログラムがコンピュータ内にインストールされることで、動作し得る状態になる。
ところで、関連語抽出プログラムは、汎用コンピュータ1に、キーワードωk に関連する関連語としての単語群をテキストデータから抽出すべく、対象単語指定機能,頻度計算機能, 前後出現単語抽出機能,共起確率計算機能,出現確率計算機能,順序依存型単語関連度計算機能,順序無依存型単語関連度計算機能,単語群抽出機能,単語分割機能を実行させるためのコンピュータ1の処理に適した命令が順番付けられた列である。
【0062】
なお、対象単語指定機能はコンピュータ1においてテキストデータ中から関連語を抽出すべき対象となるキーワードを指定する機能であり、単語分割機能はコンピュータ1においてテキストデータ中の文書情報を単語または形態素の単位に分割する機能であり、前後出現単語抽出機能はコンピュータ1においてテキストデータ内のキーワードωk の前に出現する前出現単語ωfiまたはキーワードωk の後に出現する後出現単語ωbiを抽出する機能であり、頻度計算機能はコンピュータ1において頻度f(ωi),f(ωk)等を算出する機能である。
【0063】
出現確率計算機能はコンピュータ1においてキーワードωk の出現確率P(ωk)とともに前後出現単語抽出機能にて抽出された前出現単語ωfiおよび後出現単語ωbiそれぞれの出現確率P(ωfi),P(ωbi) を計算する機能であり、共起確率計算機能はコンピュータ1において前後出現単語抽出機能にて抽出された前出現単語ωfiおよび後出現単語ωbiのそれぞれがキーワードωk と共起する共起確率P(ωfi, ωk),P(ωk,ωbi) を計算する機能であり、順序依存型単語関連度計算機能はコンピュータ1において共起確率計算機能にて計算された各共起確率情報P(ωfi, ωk),P(ωk,ωbi) および出現確率計算機能にて計算された各出現確率情報P(ωk),P( ωfi),P(ωbi) に基づいて、キーワードωk に対する前出現単語ωfiおよび後出現単語ωbiの出現順序に依存する関連語度A(ωfi, ωk),A(ωk,ωbi) を計算する機能である。
【0064】
順序無依存型単語関連度計算機能はコンピュータ1において順序依存型単語関連度計算機能にて計算された関連度情報A(ωfi, ωk),A(ωk,ωbi) に基づいて、キーワードに対する前出現単語ωfiおよび後出現単語ωbiの出現順序に依存しない関連度r(ωi,ωk)を計算する機能である。
単語群抽出機能はコンピュータ1において順序無依存型単語関連度計算機能にて計算された関連度情報r(ωi,ωk)に基づいて、キーワードωk に関連する単語群をテキストデータから抽出して出力する機能である。
【0065】
以下、上記各機能とCPU11で実行される動作とを関連付けて具体的な動作手順を図12〜15に示すフローチャートを基に説明する。
図12は、本発明の一実施形態にかかる汎用コンピュータ1にて、CPU11が関連語抽出プログラムを実行するときの処理の流れを示すフローチャートでああり、この図12に示すように対象単語指定機能としてのCPU11は、メモリ12に展開されている関連語抽出プログラムを実行することで、先ず関連語を求めたい単語(キーワードωk)を指定する(ステップS1)。
【0066】
ここで、CPU11は、キーワードωk を指定する際にコンピュータ1の利用者がキーボード1cを操作すること等によりキーワードωk の情報信号を受信し、キーワードωk を定める。例えば、図5に示すような単語あるいは形態素に分割された文書内容を含んだテキストデータから利用者にて単語「日光」の関連語を抽出するに際は、装置の利用者がキーボード1cを操作してCPU11へ単語「日光」の情報を通知すると、CPU11は、キーワードを単語「日光」と定める。換言すると、CPU11は、対象単語指定ステップとして、関連語を抽出すべき対象となるキーワードを指定する。
【0067】
CPU11は、以前に単語「日光」に対する関連語抽出処理を実行した場合には関連語のデータが記憶装置に格納されていることから単語「日光」の関連語のデータが記憶装置に存在するか否かを判断する(ステップS2)。
すなわち、CPU11は、メモリ11やハードディスク13に抽出を試みる単語「日光」に対する関連語のデータが格納されているか否かを判断するために、メモリ12上のテーブルに格納されているデータを展開して、該当するものか否かのデータ処理を行なう。
【0068】
ここで、CPU11は、単語「日光」に対する関連語のデータが記憶装置に存在する場合には、その関連語のデータを出力する(ステップS9)。
CPU11は、関連度情報r(ωi,ωk)の値の大きいものから順に出力し、例えば、ディスプレイ1bの画像に関連語のリストを表示するための画像表示信号をディスプレイ1bに送信したり、プリンタから印字したものを出力するような制御を施し得る(ステップS9)。
【0069】
ここで、CPU11は、前記した図11に示すような順序に依存しない関連度と単語を対応付けて出力する。
一方、CPU11は、記憶装置にキーワードωk の関連語のデータに存在しない場合には、単語「日光」と共起する単語の関連率(関連度情報A(ωi,ωk))が記憶装置に存在するか否か判断する(ステップS3)。
【0070】
記憶装置に単語「日光」と共起する単語の関連率が存在しない場合、CPU11は、共起確率計算部24としてのCPU11から共起する単語のリストと共起する単語それぞれに関する共起確率P(ωfi, ωk),P(ωk,ωbi) を得る(ステップS4)とともに、共起する単語のリストを基に、それぞれの単語の出現確率P(ωfi),P(ωbi) を出現確率計算部23から受け取る(ステップS5)。
【0071】
そして、順序依存型単語関連度計算機能としてのCPU11は、共起する単語のリストを基に、それぞれの単語について単語関連率(関連度情報A(ωi,ωk),A(ωk,ωi)) を計算する(ステップS6)。
ここで、CPU11は、前記した図9,図10に示すような関連度情報A(ωi,ωk),A(ωk,ωi)を算出し、算出した結果をメモリ12のテーブル上に関連度と単語あるいは形態素を対応づけて保持するような制御をメモリ12に行っている。
【0072】
換言すると、CPU11は、順序依存型単語関連度計算ステップとして、共起確率情報および出現確率情報に基づいて、キーワードに対する前出現言単語および後出現単語の、出現順序に依存する関連度を計算する。
順序無依存型単語関連度計算機能としてのCPU11は、共起する単語のリストとそれぞれの単語の関連度情報A(ωi,ωk),A(ωk,ωi)から単語関連度r(ωi,ωk)を計算する(ステップS7)。
【0073】
ここで、記憶装置に単語「日光」に対する関連語の情報が格納されていない場合においても、順序無依存型単語関連度計算機能としてのCPU11が図10,図11に示すような順序に依存する関連度情報A(ωi,ωk),A(ωk,ωi)から図11に示すような単語関連度r(ωi,ωk)を算出する。
換言すると、CPU11は、順序無依存型単語関連度計算ステップとして、順序依存型単語関連度計算ステップにて計算された関連度情報A(ωi,ωk),A(ωk,ωi)に基づいて、キーワードに対する前出現単語および後出現単語の、出現順序に依存しない関連度r(ωi,ωk)を計算する。
【0074】
前後出現単語抽出機能としてのCPU11は、単語関連度r(ωi,ωk)を基に関連語を選択して出力する(ステップS8)。ここで、CPU11は、図11に示すような算出された順序に依存しない関連度情報r(ωi,ωk)から、上位10の単語あるいは形態素を出力する。
換言すると、CPU11は、単語群抽出ステップとして、順序無依存型単語関連度計算ステップにて計算された関連度情報に基づいて、キーワードに関連する単語群をテキストデータから抽出して出力する。
【0075】
一方、図13は、共起確率計算機能としてのCPU11のプログラムを実行することによる処理の流れを示すフローチャートであり、この図13に示すように共起確率計算機能としてのCPU11は、単語「日光」の共起確率P(ωi,ωk),P(ωk,ωi)を得ようとするに際して、先ず求める共起確率P(ωi,ωk),P(ωk,ωi)が記憶装置に存在するか否かを判断する(ステップS10)。
【0076】
共起確率計算機能としてのCPU11は、記憶装置に求める共起確率P(ωi,ωk),P(ωk,ωi)が格納されている場合には、その共起確率P(ωi,ωk),P(ωk,ωi)をその単語のリストと共に、順序依存型単語関連度計算機能としてのCPU11で計算できるように出力する(ステップS11)。
ここで、順序依存型単語関連度計算機能機能としてのCPU11が、共起確率計算機能としてのCPU11が出力する(ステップS11)共起確率情報P(ωi,ωk),P(ωk,ωi)を順序に依存する関連度情報A(ωi,ωk),A(ωk,ωi)を計算する際に用いる(ステップS6)。
【0077】
一方、共起確率計算機能としてのCPU11は、記憶装置に求める共起確率P(ωi,ωk),P(ωk,ωi)が格納(存在)しない場合には、前後出現単語抽出部21から単語「日光」とともに出現する図6に示すような前出現単語ωfi, 後出現単語ωbiのリストとその頻度f(ωk),f(ωfi),f(ωbi) のデータを受け取る(ステップS12)。
【0078】
そして、CPU11は前後出現単語抽出部21から得た関連語として抽出された単語ωfi, ωbiの頻度情報f(ωfi),f(ωbi) 等を基に、共起確率P(ωi,ωk),P(ωk,ωi)を計算し、出力する(ステップS13,ステップS4)。
換言すると、CPU11は、共起確率計算ステップとして、前出現単語および後出現単語のそれぞれが、対象単語指定ステップにて指定されたキーワードと共起する共起確率を計算する。
【0079】
ここで、順序依存型単語関連度計算機能としてのCPU11が、共起確率計算機能としてのCPU11が出力する(ステップS13)共起確率情報P(ωi,ωk),P(ωk,ωi)を順序に依存する関連度情報A(ωi,ωk),A(ωk,ωi)を計算する際に用いる(ステップS6)。
他方、図14は、前後出現単語抽出部21としてのCPU11が関連語抽出プログラムを実行する際の処理の流れを示すフローチャートであり、この図14に示すように、前後出現単語抽出部21としてのCPU11は、単語「日光」の前後に出現する図6(a),(b)に示すような単語ωfi, ωbiをテキストデータから抜き出す(ステップS20)。
【0080】
換言すると、CPU11は、前後出現単語抽出ステップとして、テキストデータ上においてキーワードの前に出現する前出現単語および後に出現する後出現単語を抽出する。
そして、CPU11は、テキストから抽出した単語ωk,ωfi, ωbiのついての頻度情報f(ωfi),f(ωbi) を頻度計算部22から受け取り(ステップS21)、キーワードωk の前後に出現する図6(a),(b)に示すような単語ωfi, ωbiのリストと頻度計算部22から受け取った頻度情報f(ωfi),f(ωbi) を出力する(ステップS22)。
【0081】
ここで、共起確率計算機能としてのCPU11は、前後出現単語抽出部21が出力した単語ωfi, ωbiのリストと頻度情報f(ωfi),f(ωbi) (ステップS22)を基に、共起確率P(ωi,ωk),P(ωk,ωi)を計算する(ステップS13)。
また、図15は頻度計算部22としてのCPU11が関連語抽出プログラムを実行する際の処理の流れを示すフローチャートであり、この図15に示すように、頻度計算機能としてのCPU11は、出現確率計算部23からの指示か否かを判断し(ステップS30)、出現確率計算部23からの指示である場合は、キーワードωk の頻度情報f(ωk)が記憶装置に格納されているか否かを判断する(ステップS31)。
【0082】
頻度情報f(ωk)が記憶装置に格納されていない場合、頻度計算機能としてのCPU11は、単語分割機能としてのCPU11にて単語あるいは形態素の多単位に分割された情報を受け取り(ステップS32)、テキストデータ中にキーワードωk の出現頻度(回数)f(ωk)を計算して(ステップS33)、出力する(ステップS34)。
【0083】
なお、単語分割機能としてのCPU11は、図4に示すような単語或いは形態素に分かち書きにより記載されていない文書を内容とするテキストデータを図5に示すように単語あるいは形態素の単位に分割する。換言すると、CPU11は、単語分割ステップとして、前後出現単語抽出ステップにおける前出現単語および後出現単語を抽出する前において、テキストデータについて単語または形態素の単位に分割する。
【0084】
他方、図15には示していないが、頻度計算機能としてのCPU11は、前後出現単語抽出機能としてのCPU11にて抽出された前出現単語ωfi, 後出現単語ωbiのテキストデータ中の出現頻度数をも算出する。
換言すると、CPU11は、出現確率計算ステップとして、対象単語指定ステップにて指定されたキーワードの出現確率とともに、前後出現単語抽出ステップにて抽出された前出現単語および後出現単語それぞれの出現確率を計算する。
【0085】
ここで、CPU11は、出現確率計算機能として、頻度計算機能としてのCPU11が出力した頻度情報f(ωk),f(ωi)を基に、出現確率P(ωk),P(ωi)を計算する。
出現確率計算部23からの指示ではない場合、頻度計算部22としてのCPU11は、前後出現単語抽出部21からの指示か否かを判断する(ステップS35)。
【0086】
ここで、前後出現単語抽出部21からの指示である場合、頻度計算部22としてのCPU11は、前後出現単語抽出部21から渡されたテキストデータを単語分割機能としてのCPU11を経由して、単語に分割したデータを得て、その中に含まれる単語の頻度を数えて(ステップS36)、集計した単語の頻度を出現確率計算部23へ出力する(ステップS37)。
【0087】
また、頻度計算部22としてのCPU11が、前後出現単語抽出部21からの指示ではないと判断した場合には、その信号をエラーとする。
ところで、出現確率計算部23としてのCPU11の処理の流れ( 図示しない) は、関連語抽出プログラムを実行することにより、求める出現確率P(ωi)等の情報が記憶装置に格納されているか否か判断し、記憶装置に格納されていない場合には、頻度計算部22からf(ωfi),f(ωbi),f(ωk)等の単語の頻度情報をうけて出現確率P(bi),P(ωk)を計算して、その計算結果P(bi),P(ωk)を出力する。
【0088】
一方、記憶装置に求める出現確率P(ωi)等の確率情報P(bi),P(ωk)が格納されている場合は、出現確率計算部23としてのCPU11は、共起確率計算部24へ出力する。
別言すると、汎用コンピュータ1は、対象単語指定ステップ,前後出現単語抽出ステップ,共起確率計算ステップ,出現確率計算ステップ,順序依存型単語関連度計算ステップ,順序無依存型単語関連度計算ステップ,単語群抽出ステップ,単語分割ステップを実行することで、テキストデータから関連語を抽出する。
【0089】
このように本発明の一実施形態にかかる関連語抽出装置としての汎用コンピュータ1によれば、CPU11が前出現単語に対する順序に依存する単語関連度A(ωi,ωk)を2乗した値と後出現単語に対する順序に依存する単語関連度A(ωk,ωi)を2乗した値との和算した値を平方根する演算処理により算出された値を用いて、キーワードの前出現/後出現に依存しない利用者にとって分かり易く、かつ、精度を高くして関連語を抽出できる。
【0090】
また、本発明の一実施形態にかかる関連語抽出装置としての汎用コンピュータ1によれば、汎用コンピュータ1が、単語分割部28をそなえて構成されていることで、単語毎に区切られていないテキスト(例えば、日本語や中国語で書かれた文書)を単語あるいは形態素毎に分けて処理する(単語抽出ステップ)ことができるので、予め単語の品詞情報をそなえていなくとも日本語等で記載された文書からの関連語抽出も容易に作成することができる。
【0091】
さらに、本発明の一実施形態にかかる関連語抽出装置としての汎用コンピュータ1によれば、汎用コンピュータ1が、ハードディスク13等の記憶部をそなえて構成されているので、頻度計算部22,順序依存型単語関連度計算部25,等の各処理により算出された情報が保持されることで、関連語抽出に伴う処理を早めると共に単語の出現順序に依存しない関連語のリストを作成することができる。
【0092】
ならびに、本発明の一実施形態にかかる汎用コンピュータ1によれば、関連語抽出プログラムとして、コンピュータ1に対象単語指定機能,前後出現単語抽出機能,共起確率計算機能,出現確率計算機能,順序依存型単語関連度計算機能,順序無依存型単語関連度計算機能,単語群抽出機能を実行することにおいても、CPU11が前出現単語に対する順序に依存する単語関連度A(ωi,ωk)を2乗した値と後出現単語に対する順序に依存する単語関連度A(ωk,ωi)を2乗した値との和算した値を平方根する演算処理により算出された値を用いることで、キーワードの前出現/後出現に依存しない利用者にとって分かり易く、かつ、精度を高くして関連語を抽出できる。
【0093】
さらに、本発明の一実施形態にかかる汎用コンピュータ1によれば、関連語抽出プログラムとして、コンピュータ1に、単語分割機能を実行させることでも、単語毎に区切られていないテキスト(例えば、日本語や中国語で書かれた文書)を単語あるいは形態素毎に分けて処理することができるので、日本語等で記載された文書からの関連語抽出も容易に作成することができる。
【0094】
(b1)一実施形態の第1変形例の説明
図16は、本発明の一実施形態の第1変形例にかかる関連語抽出装置が適用された汎用コンピュータ1xのブロック図であり、この図16に示すように本発明の一実施形態の第1変形例にかかるコンピュータ1xは、頻度計算部22,前後出現単語抽出部21,共起確率計算部24,出現確率計算部23,順序依存型単語関連度計算部25,順序無依存型単語関連度計算部26,単語群抽出部(図示しない),単語分割部(図示しない),記憶部(図示しない),類似度計算度部29をそなえて構成される。
【0095】
コンピュータ1xは、前述の図1あるいは図2に示すコンピュータ1と同様のハードウェア構成を有するものである。
なお、(b)において用いた符号と同じものについては同様の動作を行なうため、その説明は省略する。
類似度計算部29は、単語群抽出部にてキーワードとしての少なくとも2つの単語それぞれに関連する単語群の抽出結果を用いることにより、少なくとも2つの単語間の類似度を計算するものである。
【0096】
以下、2つの単語間の類似度を計算する場合を前提に説明をするが、以下の記載において3つ以上の単語間の類似度を計算する場合も同様であることを意味する。
なお、前後出現単語抽出部21はテキストデータ上において、指定された単語の前に出現する前出現単語または指定された単語の後に出現する後出現単語を抽出するものであり、出現確率計算部23は頻度計算部22からの指定された単語の頻度情報および前出現単語および後出現単語のテキストデータ上での出現頻度情報に基づいて指定された単語の出現確率とともに上記の前出現単語および後出現単語それぞれの出現確率を計算しうるものである。
【0097】
共起確率計算部24は頻度計算部22からの前後出現単語抽出部21にて抽出された前出現単語および後出現単語の頻度情報に基づいて、前出現単語および後出現単語のそれぞれがキーワードと共起する共起確率を計算するものであり、順序依存型単語関連度計算部25は出現確率計算部23からの各出現確率情報と、共起確率計算部24からの各共起確率情報とに基づいて指定された単語に対する前出現単語および後出現単語の出現順序に依存する関連度を計算するものである。
【0098】
順序無依存型単語関連度計算部26は、順序依存型単語関連度計算部25からの関連度情報に基づいて、指定された単語に対する前出現単語および後出現単語の、出現順序に依存しない関連度を計算するものである。
単語群抽出部(図示しない)は、順序無依存型単語関連度計算部26にて計算された関連度情報に基づいて、指定された単語に関連する単語群をテキストデータから抽出するものであり、記憶部(図示しない)は指定された単語に関する各種計算結果および抽出結果のうちの少なくとも一つを記憶しておくものであり、単語分割部(図示しない)は、テキストデータについて単語または形態素の単位に分割するものである。
【0099】
さらに、上記各部とCPU11,メインメモリ12,HDD13等とを具体的に関連付けて説明すると、以下のようになる。
類似度計算部29としてのCPU11は、単語群抽出部から、2つのキーワードそれぞれに関連する単語群の抽出結果を用いることにより、単語間の類似度を計算するものである。
【0100】
ここで、類似度計算部29としてのCPU11が、3つの単語「 自動車」 ,「 車」 ,「 航空機」 について、それらの類似度を計算し、類似度の判定ができることを基に説明する。
なお、前記(b)に述べたように、CPU11は頻度計算部22,前後出現単語抽出部21,共起確率計算部24,出現確率計算部23,順序依存型単語関連度計算部25,順序無依存型単語関連度計算部26,単語群抽出部,単語分割部として構成されているとともに、メモリ12やハードディスク13は記憶部として構成されている。
【0101】
ここで、図17〜19は、順序無依存型単語関連度情報r(ωi,ωk)を基に単語群抽出部がテキストデータから関連語を抜き出したリストを示す図であり、図17は単語「 自動車」 の関連語リストを示す図であり、図18は単語「 車」 の関連語リストを示す図であり、図19は単語「 航空機」 の関連語リストを示す図である。
【0102】
類似度計算部29としてのCPU11は、図17〜19に示すような関連語のリストを用いることにより、単語「 自動車」 ,「 車」 ,「 航空機」 の類似度を計算するようになっている。
具体的には、類似度計算部29としてのCPU11は、図17〜19に示すようにリストアップされた関連語の内積和の演算処理を行なうようになっている。
【0103】
例えば、類似度計算部29としてのCPU11は、単語「 自動車」 ,「 車」 の類似度を算出するに際して、図17に示す単語「 自動車」 の関連語リスト中の関連語「MOSS」と図18に示す単語「 車」 の関連語リスト中の関連語「はしご」の内積の演算処理を行なうようになっている。
すなわち、類似度計算部29としてのCPU11は、各関連語を関連度情報r(ωi,ωk)を大きさとするベクトル(vector)と見做して、各関連語の内積値を和算する演算処理を行なうようなっている。内積値を和算した数値が、単語間の類似度を示すものである。
【0104】
CPU11は、同じ関連語同士の内積演算処理に際しては、ベクトルの方向が同じ(θ=0°)と見做すとともに、異なる関連語同士の内積演算処理にに際しては、ベクトルの方向が直交(θ=90°)と見做して計算するようになっている。CPU11は、単語「 自動車」 の関連語リスト中の関連語「MOSS」と単語「 車」 の関連語リスト中の関連語「はしご」とが互いに異なる関連語であることから、内積値を0と計算するようになっている。
【0105】
従って、類似度計算部29としてのCPU11は、単語「 自動車」 ,「 車」 の類似度を計算するときに図17に示す単語「 自動車」 の関連度リストと図18に示す単語「 車」 の関連度リストとから共通の関連語の関連度を用いて、例えば共通の関連語「 BMW」 の関連度「 12.4」 と関連度「 12.0」 とを用いて、その二つの関連度を積算した値「 148.8」 と他の共通の関連語の関連度の内積値との和算値により類似度を算出するようになっている。
【0106】
ここで、図20は、単語「 自動車」 ,「 車」 の類似度と単語「 自動車」 ,「 航空機」 の類似度とを示す図であり、この図20に示すように単語「 自動車」 と単語「 車」 との類似度「 2839.4」 と単語「 自動車」 と単語「 航空機」 との類似度「 814.4」 とから、単語「 自動車」 は単語「 航空機」 より単語「 車」 に類似することがわかるようになっている。
【0107】
上述の構成により、本発明の一実施形態の第1変形例にかかる汎用コンピュータ1xでは、本体装置1a内へCD−ROM等のコンピュータ読み取り可能な記録媒体から関連語抽出プログラムがコンピュータ内にインストールされることで、動作し得る状態になる。
ところで、関連語抽出プログラムは、汎用コンピュータ1xに、キーワードに関連する関連語としての単語群をテキストデータから抽出すべく、対象単語指定機能,頻度計算機能, 前後出現単語抽出機能,共起確率計算機能,出現確率計算機能,順序依存型単語関連度計算機能,順序無依存型単語関連度計算機能,単語群抽出機能,単語分割機能,類似度計算機能を実行させるためのコンピュータ1xの処理に適した命令が順番付けられた列である。
【0108】
類似度計算機能は、コンピュータ1xにおいて単語群抽出機能から2つキーワードそれぞれに関連する単語群の抽出結果を用いることにより、2つの単語間の類似度を計算する機能である。
なお、対象単語指定機能はコンピュータ1xにおいてテキストデータ中から関連語を抽出すべき対象となるキーワードを指定する機能であり、単語分割機能はコンピュータ1xにおいてテキストデータ中の文書情報を単語または形態素の単位に分割する機能であり、前後出現単語抽出機能はコンピュータ1xにおいてテキストデータ内のキーワードωk の前に出現する前出現単語ωfiまたはキーワードωk の後に出現する後出現単語ωbiを抽出する機能であり、頻度計算機能はコンピュータ1xにおいて頻度f(ωi),f( ωk)等を算出する機能である。
【0109】
出現確率計算機能はコンピュータ1xにおいてキーワードωk の出現確率P(ωk)とともに前後出現単語抽出機能にて抽出された前出現単語ωfi および後出現単語ωbiそれぞれの出現確率P(ωfi),P(ωbi) を計算する機能であり、共起確率計算機能はコンピュータ1xにおいて前後出現単語抽出機能にて抽出された前出現単語ωfiおよび後出現単語ωbiのそれぞれがキーワードωk と共起する共起確率P(ωfi, ωk),P(ωk,ωbi) を計算する機能であり、順序依存型単語関連度計算機能はコンピュータ1xにおいて共起確率計算機能にて計算された各共起確率情報P(ωfi, ωk),P(ωk,ωbi) および出現確率計算機能にて計算された各出現確率情報P(ωk),P(ωfi),P(ωbi) に基づいて、キーワードωk に対する前出現単語ωfiおよび後出現単語ωbiの出現順序に依存する関連語度A(ωfi, ωk),A(ωk,ωbi) を計算する機能である。
【0110】
順序無依存型単語関連度計算機能はコンピュータ1xにおいて順序依存型単語関連度計算機能にて計算された関連度情報A(ωfi, ωk),A(ωk,ωbi) に基づいて、キーワードに対する前出現単語ωfiおよび後出現単語ωbiの出現順序に依存しない関連度r(ωi,ωk)を計算する機能である。
単語群抽出機能はコンピュータ1xにおいて順序無依存型単語関連度計算機能にて計算された関連度情報r(ωi,ωk)に基づいて、キーワードωk に関連する単語群をテキストデータから抽出して出力する機能である。
【0111】
ここで、上記各機能とCPU11で実行される動作とを関連付けて具体的な動作手順を説明すると類似度計算機能としてCPU11は、図17〜19に示すような順序無依存型単語関連度計算機能にて計算された単語「 自動車」 ,「 車」 ,「 航空機」 の関連度r(ωi,ωk)を基に類似を計算する。
具体的には、類似度計機能としてCPU11は、図17〜19に示すようにリストアップされた関連語の内積和の演算処理を行なう。
【0112】
すなわち、類似度計算部29としてのCPU11は、各関連語を関連度情報r(ωi,ωk)を大きさとするベクトル(vector)と見做して、各関連語の内積値を和算する演算処理を行なう。
CPU11は、同じ関連語同士の内積演算処理に際しては、ベクトルの方向が同じ(θ=0°)と見做すとともに、異なる関連語同士の内積演算処理にに際しては、ベクトルの方向が直交(θ=90°)と見做して計算して、例えば、図17に示す単語「 自動車」 の関連語リスト中の関連語「MOSS」と図18に示す単語「 車」 の関連語リスト中の関連語「はしご」とが互いに異なる関連語であることから、内積値を0と計算するようになっている。
【0113】
従って、類似度計算機能としてCPU11は、単語「 自動車」 ,「 車」 の類似度を計算するときに図17に示す単語「 自動車」 の関連度リストと図18に示す単語「 車」 の関連度リストとから共通の関連語の関連度を用いて、例えば共通の関連語「 BMW」 の関連度「 12.4」 と関連度「 12.0」 とを用いて、その二つの関連度を積算した値「 148.8」 と他の共通の関連語の関連度の内積値との和算演算を行ない図20に示すように単語「 自動車」 と単語「 車」 との類似度「 2839.4」 と単語「 自動車」 と単語「 航空機」 との類似度「 814.4」 とを算出する。
【0114】
ここで、換言すると、CPU11は、類似度計算ステップとして、単語群抽出ステップにて指定されたキーワードとしての3つの単語「 自動車」 ,「 車」 ,「 航空機」 それぞれに関連する単語群を抽出した後に、抽出された各単語「 自動車」 ,「 車」 ,「 航空機」 に関連する単語群から、2つの単語「 自動車」 ,「 車」 間と単語「 自動車」 ,「 航空機」 間の類似度を計算する。
【0115】
なお、CPU11は、対象単語指定機能,頻度計算機能, 前後出現単語抽出機能,共起確率計算機能,出現確率計算機能,順序依存型単語関連度計算機能,順序無依存型単語関連度計算機能,単語群抽出機能,単語分割機能として図12〜15に示すような動作を行なう。
上記を別言すると、汎用コンピュータ1xは、対象単語指定ステップ,前後出現単語抽出ステップ,共起確率計算ステップ,出現確率計算ステップ,順序依存型単語関連度計算ステップ,順序無依存型単語関連度計算ステップ,単語群抽出ステップ,単語分割ステップ,類似度計算ステップを実行することで、テキストデータから関連語を抽出する。
【0116】
このように本発明の一実施形態の第1変形例にかかる関連語抽出装置が適用された汎用コンピュータ1xによれば、前記(b)に述べたものの他に、CPU11が前出現単語に対する順序に依存する単語関連度A(ωi,ωk)を2乗した値と後出現単語に対する順序に依存する単語関連度A(ωk,ωi)を2乗した値との和算した値を平方根する演算処理により算出された値を基に、単語「 自動車」 ,「 車」 ,「 航空機」 の類似度をシソーラスや他の知識ベースを用いることなく、単語「 自動車」 が単語「 航空機」 より単語「 車」 に類似することを判別することができるとともに新たに用いられるようになった単語等に対しても、類似度を算出することができる(類似度計算ステップ)。
【0117】
(b2)一実施形態の第2変形例の説明
図21は、本発明の一実施形態の第2変形例にかかる関連語抽出装置が適用された汎用コンピュータ1yのブロック図であり、この図21に示すように本発明の一実施形態の第2変形例にかかるコンピュータ1yは、頻度計算部22,前後出現単語抽出部21,共起確率計算部24,出現確率計算部23,順序依存型単語関連度計算部25,順序無依存型単語関連度計算部26,単語群抽出部(図示しない),単語分割部(図示しない),記憶部(図示しない),関連単語群抽出部30をそなえて構成される。
【0118】
コンピュータ1yは、前述の図1あるいは図2に示すコンピュータ1と同様のハードウェア構成を有するものである。
なお、(b)において用いた符号と同じものについては同様の動作を行なうため、その説明は省略する。
関連単語群抽出部30は、単語群抽出部からキーワードとしての少なくとも2つの単語それぞれに関連する単語群の抽出結果を用いることにより、各単語の全てに関連する単語群を抽出するものである。
【0119】
以下、関連単語群抽出部30が、2つの単語の関連単語群を抽出する場合について説明するが、3つ以上の単語の関連単語群を抽出する場合においても同じであることを意味する。
なお、前後出現単語抽出部21はテキストデータ上において、指定された単語の前に出現する前出現単語または指定された単語の後に出現する後出現単語を抽出するものであり、出現確率計算部23は頻度計算部22からの指定された単語の頻度情報および前出現単語および後出現単語のテキストデータ上での出現頻度情報に基づいて指定された単語の出現確率とともに上記の前出現単語および後出現単語それぞれの出現確率を計算しうるものである。
【0120】
共起確率計算部24は頻度計算部22からの前後出現単語抽出部21にて抽出された前出現単語および後出現単語の頻度情報に基づいて、前出現単語および後出現単語のそれぞれがキーワードと共起する共起確率を計算するものであり、順序依存型単語関連度計算部25は出現確率計算部23からの各出現確率情報と、共起確率計算部24からの各共起確率情報とに基づいて指定された単語に対する前出現単語および後出現単語の出現順序に依存する関連度を計算するものである。
【0121】
順序無依存型単語関連度計算部26は、順序依存型単語関連度計算部25からの関連度情報に基づいて、指定された単語に対する前出現単語および後出現単語の、出現順序に依存しない関連度を計算するものである。
単語群抽出部(図示しない)は、順序無依存型単語関連度計算部26にて計算された関連度情報に基づいて、指定された単語に関連する単語群をテキストデータから抽出するものであり、記憶部(図示しない)は指定された単語に関する各種計算結果および抽出結果のうちの少なくとも一つを記憶しておくものであり、単語分割部(図示しない)は、テキストデータについて単語または形態素の単位に分割するものである。
【0122】
さらに、上記各部とCPU11,メインメモリ12,HDD13等とを具体的に関連付けて説明すると、以下のようになる。
関連単語群抽出部30としてのCPU11は、単語群抽出部から、2つのキーワードそれぞれについて関連する単語群の抽出結果を用いることにより、2つの単語の全てについて関連する単語群を抽出するものである。
【0123】
ここで、関連単語群抽出部30としてのCPU11が、単語「エジプト」と単語「大統領」との関連単語群を抽出する場合を前提として説明をする。
なお、前記(b)に述べたように、CPU11は頻度計算部22,前後出現単語抽出部21,共起確率計算部24,出現確率計算部23,順序依存型単語関連度計算部25,順序無依存型単語関連度計算部26,単語群抽出部,単語分割部として構成されているとともに、メモリ12やハードディスク13は記憶部として構成されている。
【0124】
図22,23は、順序無依存型単語関連度情報r(ωi,ωk)を基に単語群抽出部がテキストデータから関連語を抜き出したリストを示す図であり、図22は単語「 エジプト」 の関連語リストを示す図であり、図23は単語「 大統領」 の関連語リストを示す図である。
関連単語群抽出部30としてのCPU11は、図22,23に示すような各単語「 エジプト」 ,「 大統領」 の関連語のリストを用いることにより、2つの単語「 エジプト」 ,「 大統領」 に関連する単語群を抽出するようになっている。
【0125】
具体的には、関連単語群抽出部30としてのCPU11は、図22,23に示すような各単語「 エジプト」 ,「 大統領」 の関連語のリストから共通の単語或いは形態素を抽出することにより、2つの単語「 エジプト」 ,「 大統領」 に関連する単語群を抽出するようになっている。
ここで、図24は、2つの単語「 エジプト」 ,「 大統領」 に関連する単語群のリストを示す図であり、この図22に示すように単語「 エジプト」 の関連語リストと図23に示すように単語「 大統領」 の関連語リストとから共通の関連語、例えば関連語「ムバラク」等が抽出されて関連語のリストが作成されるようになっている。
【0126】
上述の構成により、本発明の一実施形態の関連語抽出装置が適用された汎用コンピュータ1yでは、本体装置1a内へCD−ROM等のコンピュータ読み取り可能な記録媒体から関連語抽出プログラムがコンピュータ1y内にインストールされることで、動作し得る状態になる。
ところで、関連語抽出プログラムは、汎用コンピュータ1yに、キーワードに関連する関連語としての単語群をテキストデータから抽出すべく、対象単語指定機能,頻度計算機能, 前後出現単語抽出機能,共起確率計算機能,出現確率計算機能,順序依存型単語関連度計算機能,順序無依存型単語関連度計算機能,単語群抽出機能,単語分割機能,関連単語群抽出機能を実行させるためのコンピュータ1yの処理に適した命令が順番付けられた列である。
【0127】
関連単語群抽出機能は、コンピュータ1yに単語群抽出機能からの2つの単語「 エジプト」 ,「 大統領」 それぞれに関連する単語群の抽出結果を用いることにより、2つの単語「 エジプト」 ,「 大統領」 に関連する単語群を抽出する機能である。
なお、対象単語指定機能はコンピュータ1yにおいてテキストデータ中から関連語を抽出すべき対象となるキーワードを指定する機能であり、単語分割機能はコンピュータ1yにおいてテキストデータ中の文書情報を単語または形態素の単位に分割する機能であり、前後出現単語抽出機能はコンピュータ1yにおいてテキストデータ内のキーワードωk の前に出現する前出現単語ωfiまたはキーワードωk の後に出現する後出現単語ωbiを抽出する機能であり、頻度計算機能はコンピュータ1yにおいて頻度f(ωi),f(ωk)等を算出する機能である。
【0128】
出現確率計算機能はコンピュータ1yにおいてキーワードωk の出現確率P(ωk)とともに前後出現単語抽出機能にて抽出された前出現単語ωfiおよび後出現単語ωbiそれぞれの出現確率P(ωfi),P(ωbi) を計算する機能であり、共起確率計算機能はコンピュータ1yにおいて前後出現単語抽出機能にて抽出された前出現単語ωfiおよび後出現単語ωbiのそれぞれがキーワードωk と共起する共起確率P(ωfi, ωk),P(ωk,ωbi) を計算する機能であり、順序依存型単語関連度計算機能はコンピュータ1yにおいて共起確率計算機能にて計算された各共起確率情報P(ωfi, ωk),P(ωk,ωbi) および出現確率計算機能にて計算された各出現確率情報P(ωk),P(ωfi),P(ωbi) に基づいて、キーワードωk に対する前出現単語ωfiおよび後出現単語ωbiの出現順序に依存する関連語度A(ωfi, ωk),A(ωk,ωbi) を計算する機能である。
【0129】
順序無依存型単語関連度計算機能はコンピュータ1yにおいて順序依存型単語関連度計算機能にて計算された関連度情報A(ωfi, ωk),A(ωk,ωbi) に基づいて、キーワードに対する前出現単語ωfiおよび後出現単語ωbiの出現順序に依存しない関連度r(ωi,ωk)を計算する機能である。
単語群抽出機能はコンピュータ1yにおいて順序無依存型単語関連度計算機能にて計算された関連度情報r(ωi,ωk)に基づいて、キーワードωk に関連する単語群をテキストデータから抽出して出力する機能である。
【0130】
ここで、上記各機能とCPU11で実行される動作とを関連付けて具体的な動作手順を説明すると類似度計算機能として、CPU11は、図22,23に示すような各単語「 エジプト」 ,「 大統領」 の関連語のリストを用いることにより、2つの単語「 エジプト」 ,「 大統領」 に関連する単語群を抽出する。
具体的には、関連単語群抽出部30としてのCPU11は、図22,23に示すような各単語「 エジプト」 ,「 大統領」 の関連語のリストから共通の単語或いは形態素を抽出することにより、2つの単語「 エジプト」 ,「 大統領」 に関連する単語群、例えば関連語「ムバラク」を抽出して、図24に示すような2つの単語「 エジプト」 ,「 大統領」 に関連する単語群のリストを作成する。
【0131】
ここで、CPU11は、関連単語群抽出ステップとして、単語群抽出ステップにて2つの単語「 エジプト」 ,「 大統領」 それぞれに関連する単語群(図22,23)から、2つの単語「 エジプト」 ,「 大統領」 に関連する単語群を抽出する。
なお、CPU11は、対象単語指定機能,頻度計算機能, 前後出現単語抽出機能,共起確率計算機能,出現確率計算機能,順序依存型単語関連度計算機能,順序無依存型単語関連度計算機能,単語群抽出機能,単語分割機能として図12〜15に示すような動作を行なう。
【0132】
上記を別言すると、汎用コンピュータ1yは、対象単語指定ステップ,前後出現単語抽出ステップ,共起確率計算ステップ,出現確率計算ステップ,順序依存型単語関連度計算ステップ,順序無依存型単語関連度計算ステップ,単語群抽出ステップ,単語分割ステップ,関連単語群抽出ステップを実行することで、テキストデータから関連語を抽出する。
【0133】
このように本発明の一実施形態の第2変形例にかかる関連語抽出装置が適用された汎用コンピュータ1yによれば、前記(b)に述べたものの他に、CPU11が前出現単語に対する順序に依存する単語関連度A(ωi,ωk)を2乗した値と後出現単語に対する順序に依存する単語関連度A(ωk,ωi)を2乗した値との和算した値を平方根する演算処理により算出された値を基に、単語「 エジプト」 ,「 大統領」 それぞれに関連する単語群(図22,23)のリストを作成することができる他、具体的に文書の内容を見ずしてエジプトの大統領に関する情報を得ることができて、二つの単語「 エジプト」 ,「 大統領」 に関連する単語を見ることで、その二つの単語「 エジプト」 ,「 大統領」 の関係や付随する知識が分かり易くなる。
【0134】
(b3)一実施形態の第3変形例の説明
図25は、本発明の一実施形態の第3変形例にかかる関連語抽出装置が適用された汎用コンピュータ1zのブロック図であり、この図25に示すように本発明の一実施形態の第3変形例にかかるコンピュータ1zは、頻度計算部22,前後出現単語抽出部21,共起確率計算部24,出現確率計算部23,順序依存型単語関連度計算部25,順序無依存型単語関連度計算部26,単語群抽出部(図示しない),単語分割部(図示しない),記憶部(図示しない),同義語辞書部31をそなえて構成される。
【0135】
コンピュータ1zは、前述の図1あるいは図2に示すコンピュータ1と同様のハードウェア構成を有するものである。
なお、(b)において用いた符号と同じものについては同様の動作を行なうため、その説明は省略する。
同義語辞書部31は、キーワードωk に対して同義と見做しうる単語(以下同義語に記号ωksを記す場合がある)ωksを判定するものである。
【0136】
以下、同義語辞書部31が、キーワードに対して他の1つの単語を同義語とみなす場合について説明するが、2つ以上の単語を同義語とみなす場合においても同じであることを意味する。また、順序依存型単語関連度計算部25がキーワードωk に対する関連度A(ωk,ωi),A(ωi,ωk)を計算する他、キーワードωk の1つの同義語の関連度A(ωks, ωi),A(ωi,ωks) を計算することにより、単語群抽出部27にてキーワードωk とキーワードωk の1つの同義語ωksとの2つの関連語リストが作成される場合について説明する。
【0137】
なお、前後出現単語抽出部21はテキストデータ上において、指定された単語の前に出現する前出現単語または指定された単語の後に出現する後出現単語を抽出するものであり、出現確率計算部23は頻度計算部22からの指定された単語の頻度情報および前出現単語および後出現単語のテキストデータ上での出現頻度情報に基づいて指定された単語の出現確率とともに上記の前出現単語および後出現単語それぞれの出現確率を計算しうるものである。
【0138】
共起確率計算部24は頻度計算部22からの前後出現単語抽出部21にて抽出された前出現単語および後出現単語の頻度情報に基づいて、前出現単語および後出現単語のそれぞれがキーワードと共起する共起確率を計算するものであり、順序依存型単語関連度計算部25は出現確率計算部23からの各出現確率情報と
、共起確率計算部24からの各共起確率情報とに基づいて指定された単語に対する前出現単語および後出現単語の出現順序に依存する関連度を計算するものである。
【0139】
順序無依存型単語関連度計算部26は、順序依存型単語関連度計算部25からの関連度情報に基づいて、指定された単語に対する前出現単語および後出現単語の、出現順序に依存しない関連度を計算するものである。
単語群抽出部(図示しない)は、順序無依存型単語関連度計算部26にて計算された関連度情報に基づいて、指定された単語に関連する単語群をテキストデータから抽出するものであり、記憶部(図示しない)は指定された単語等に関する各種計算結果および抽出結果のうちの少なくとも一つを記憶しておくものであり、単語分割部(図示しない)は、テキストデータについて単語または形態素の単位に分割するものである。
【0140】
ここで、上記各部は、指定された単語(キーワードωk )の同義語に対しても指定された単語(キーワードωk )と同じ処理を施すことができるようになっている。例えば、順序依存型単語関連度計算部25はキーワードωk の同義語ωksの関連度A(ωks, ωi),A( ωi,ωks) 計算するようになっており、また、頻度計算部22は同義語ωksの出現頻度f(ωks) 等を算出するようになっており、前後出現単語抽出部21は同義語ωksの前に出現する前出現単語や後に出現する後出現単語をテキストデータから抽出するようになっており、単語群抽出部27は順序無依存型単語関連度計算部26にて算出された関連度r(ωi,ωks) を基に同義語ωksの関連語をテキストデータから抽出するようになっている。
【0141】
さらに、上記各部とCPU11,メインメモリ12,HDD13等とを具体的に関連付けて説明すると、以下のようになる。
同義語辞書部31としてのCPU11は、キーワードωk に対して同義と見做しうる単語ωksを判定するものである。CPU11は、キーワードωk に対して同義と見做しうる単語ωksを判定する際に、ハードディスク13等の記憶装置やFD等の記録媒体に格納されている同義語の辞書データを参照して同義語を検出するようになっている。
【0142】
ここで、同義語辞書部31としてのCPU11が、キーワード「北朝鮮」に対して単語「朝鮮人民民主主義共和国」を同義語とみなした場合を前提に以下説明する。
なお、前記(b)に述べたように、CPU11は頻度計算部22,前後出現単語抽出部21,共起確率計算部24,出現確率計算部23,順序依存型単語関連度計算部25,順序無依存型単語関連度計算部26,単語群抽出部,単語分割部として構成されているとともに、メモリ12やハードディスク13は記憶部として構成されている。
【0143】
図26,27は、順序無依存型単語関連度情報r(ωi,ωk)を基に単語群抽出部がテキストデータから関連語を抜き出したリストを示す図であり、図26は単語「 北朝鮮」 の関連語リストを示す図であり、図27は単語「 朝鮮人民民主主義共和国」 の関連語リストを示す図である。
ここで、単語群抽出部27としてのCPU11は、図26,27に示すキーワード「 北朝鮮」 ,同義語「 朝鮮人民民主主義共和国」 の関連語リストから順序無依存型単語関連度計算部26にて算出された関連度の高い関連語を抽出して、図28に示すようなキーワード「 北朝鮮」 の関連語のリストを出力するようになっている。
【0144】
具体的に言えば、単語群抽出部27としてのCPU11は、図26,27に示す関連語リスト情報を用いて、キーワード「 北朝鮮」 の関連語リスト中に無い関連語が同義語「 朝鮮人民民主主義共和国」 の関連語のリストに有る場合は、その同義語の関連語リスト中の関連語をキーワード「 北朝鮮」 の関連語として出力するようになっている。例えば、単語群抽出部27としてのCPU11は、図28に示すように、単語「国旗」は図26の関連語リストの上位には無いが図27の関連語リストの上位に有ることから、単語「国旗」をキーワード「 北朝鮮」 の関連語として出力するようになっている。
【0145】
上述の構成により、本発明の一実施形態の第3変形例にかかる関連語抽出装置が適用された汎用コンピュータ1zでは、本体装置1a内へCD−ROM等のコンピュータ読み取り可能な記録媒体から関連語抽出プログラムがコンピュータ1z内にインストールされることで、動作し得る状態になる。
ところで、関連語抽出プログラムは、汎用コンピュータ1zに、キーワードに関連する関連語としての単語群をテキストデータから抽出すべく、対象単語指定機能,頻度計算機能, 前後出現単語抽出機能,共起確率計算機能,出現確率計算機能,順序依存型単語関連度計算機能,順序無依存型単語関連度計算機能,単語群抽出機能,単語分割機能,関連単語群抽出機能,同義語辞書機能を実行させるためのコンピュータ1zの処理に適した命令が順番付けられた列である。
【0146】
同義語辞書機能は、コンピュータ1zにおいてキーワード「北朝鮮」に対して同義と見做しうる単語を判定する機能である。
なお、対象単語指定機能はコンピュータ1zにおいてテキストデータ中から関連語を抽出すべき対象となるキーワードを指定する機能であり、単語分割機能はコンピュータ1zにおいてテキストデータ中の文書情報を単語または形態素の単位に分割する機能であり、前後出現単語抽出機能はコンピュータ1zにおいてテキストデータ内のキーワードωk の前に出現する前出現単語ωfiまたはキーワードωk の後に出現する後出現単語ωbiを抽出する機能であり、頻度計算機能はコンピュータ1zにおいて頻度f(ωi),f(ωk)等を算出する機能である。
【0147】
出現確率計算機能はコンピュータ1zにおいてキーワードωk の出現確率P(ωk)とともに前後出現単語抽出機能にて抽出された前出現単語ωfiおよび後出現単語ωbiそれぞれの出現確率P(ωfi),P(ωbi) を計算する機能であり、共起確率計算機能はコンピュータ1zにおいて前後出現単語抽出機能にて抽出された前出現単語ωfiおよび後出現単語ωbiのそれぞれがキーワードωk と共起する共起確率P(ωfi, ωk),P(ωk,ωbi) を計算する機能であり、順序依存型単語関連度計算機能はコンピュータ1zにおいて共起確率計算機能にて計算された各共起確率情報P(ωfi, ωk),P(ωk,ωbi) および出現確率計算機能にて計算された各出現確率情報P(ωk),P(ωfi),P(ωbi) に基づいて、キーワードωk に対する前出現単語ωfiおよび後出現単語ωbiの出現順序に依存する関連語度A(ωfi, ωk),A(ωk,ωbi) を計算する機能である。
【0148】
順序無依存型単語関連度計算機能はコンピュータ1zにおいて順序依存型単語関連度計算機能にて計算された関連度情報A(ωfi, ωk),A(ωk,ωbi) に基づいて、キーワードに対する前出現単語ωfiおよび後出現単語ωbiの出現順序に依存しない関連度r(ωi,ωk)を計算する機能である。
単語群抽出機能はコンピュータ1zにおいて順序無依存型単語関連度計算機能にて計算された関連度情報r(ωi,ωk)に基づいて、キーワードωk に関連する単語群をテキストデータから抽出して出力する機能である。
【0149】
ここで、上記各機能とCPU11で実行される動作とを関連付けて具体的な動作手順を説明すると、同義語辞書機能として、CPU11は、図26,27に示すキーワード「 北朝鮮」 ,同義語「 朝鮮人民民主主義共和国」 の関連語リストから順序無依存型単語関連度計算部26にて算出された関連度の高い関連語を抽出して、図28に示すようなキーワード「 北朝鮮」 の関連語のリストを出力するようになっている。
【0150】
具体的に言えば、単語群抽出機能としてのCPU11は、図26,27に示す関連語リスト情報を用いて、キーワード「 北朝鮮」 の関連語リスト中に無い関連語が同義語「 朝鮮人民民主主義共和国」 の関連語のリストに有る場合は、その同義語の関連語リスト中の関連語をキーワード「 北朝鮮」 の関連語として出力する。
【0151】
例えば、単語群抽出機能としてのCPU11は、図28に示すように、単語「国旗」は図26の関連語リストの上位には無いが図27の関連語リストの上位に有ることから、単語「国旗」をキーワード「 北朝鮮」 の関連語として出力する。換言すると、CPU11は、対象単語指定ステップにおいて、指定されたキーワード「 北朝鮮」 に対して単語「 朝鮮人民民主主義共和国」 を同義語と見做して、単語群抽出ステップにおいて同義語「 朝鮮人民民主主義共和国」 に関連する単語群と、キーワード「 北朝鮮」 に関連する単語群を一つにまとめて出力する。
【0152】
なお、CPU11は、対象単語指定機能,頻度計算機能, 前後出現単語抽出機能,共起確率計算機能,出現確率計算機能,順序依存型単語関連度計算機能,順序無依存型単語関連度計算機能,単語群抽出機能,単語分割機能として図12〜15に示すような動作をキーワード「 北朝鮮」 と場合により同義語「 朝鮮人民民主主義共和国」 にも行なう。
【0153】
上記を別言すると、汎用コンピュータ1zは、対象単語指定ステップ,前後出現単語抽出ステップ,共起確率計算ステップ,出現確率計算ステップ,順序依存型単語関連度計算ステップ,順序無依存型単語関連度計算ステップ,単語群抽出ステップ,単語分割ステップ,同義語に関連する単語群とキーワードに関連する単語群とを一つにまとめて出力することを実行することで、テキストデータから関連語を抽出する。
【0154】
このように本発明の一実施形態の第3変形例にかかる関連語抽出装置が適用された汎用コンピュータ1zによれば、前記(b)に述べたものの他に、CPU11が前出現単語に対する順序に依存する単語関連度A(ωi,ωk)を2乗した値と後出現単語に対する順序に依存する単語関連度A(ωk,ωi)を2乗した値との和算した値を平方根する演算処理により算出された値を基に、単語「 北朝鮮」 ,「 朝鮮人民民主主義共和国」 それぞれに関連する単語群(図26,27)のリストを作成しつつ、キーワード「 北朝鮮」 に関連する単語群を一つにまとめた関連語のリストを出力することができるとともに、関連語の自動抽出を行なうときに問題となる異表記を含む同義語間の問題を解決することもできる。
(c)その他
(c1)他の一実施形態の説明
図29は、本発明の他の一実施形態にかかる関連語抽出装置が適用された汎用コンピュータ1−1のブロック図であり、この図29に示すようにコンピュータ1−1は前後出現単語抽出部21,頻度計算部22,共起確率計算部24,出現確率計算部23,順序依存型単語関連度計算部25,順序無依存型単語関連度計算部26,単語抽出部27,記憶部(図示しない)をそなえて構成される。
【0155】
コンピュータ1−1は、前述の図1あるいは図2に示すコンピュータ1と同様のハードウェア構成を有するものである。
なお、本発明の他の一実施形態にかかる関連語抽出装置が適用された汎用コンピュータ1−1は、前記(b)で述べた一実施形態にかかる汎用コンピュータ1とは、単語分割部を備えて構成されていない点を異にする。
【0156】
ここで、前後出現単語抽出部21はテキストデータ上において、指定された単語の前に出現する前出現単語または指定された単語の後に出現する後出現単語を抽出するものであり、出現確率計算部23は頻度計算部22からの指定された単語の頻度情報および前出現単語および後出現単語のテキストデータ上での出現頻度情報に基づいて指定された単語の出現確率とともに上記の前出現単語および後出現単語それぞれの出現確率を計算しうるものである。
【0157】
共起確率計算部24は頻度計算部22からの前後出現単語抽出部21にて抽出された前出現単語および後出現単語の頻度情報に基づいて、前出現単語および後出現単語のそれぞれがキーワードと共起する共起確率を計算するものであり、順序依存型単語関連度計算部25は出現確率計算部23からの各出現確率情報と、共起確率計算部24からの各共起確率情報とに基づいて指定された単語に対する前出現単語および後出現単語の出現順序に依存する関連度を計算するものである。
【0158】
順序無依存型単語関連度計算部26は、順序依存型単語関連度計算部25からの関連度情報に基づいて、指定された単語に対する前出現単語および後出現単語の、出現順序に依存しない関連度を計算するものである。
単語群抽出部(図示しない)は、順序無依存型単語関連度計算部26にて計算された関連度情報に基づいて、指定された単語に関連する単語群をテキストデータから抽出するものであり、記憶部(図示しない)は、指定された単語に関する各種計算結果および抽出結果のうちの少なくとも一つを記憶しておくものである。
【0159】
さらに、上記各部とCPU11,メインメモリ12,HDD13等とを具体的に関連付けて説明すると、CPU11は頻度計算部22,前後出現単語抽出部21,共起確率計算部24,出現確率計算部23,順序依存型単語関連度計算部25,順序無依存型単語関連度計算部26,単語群抽出部27として構成されているとともに、メモリ12やハードディスク13は記憶部として構成されている。
【0160】
上述の構成により、本発明の他の一実施形態の関連語抽出装置が適用された汎用コンピュータ1−1では、本体装置1a内へCD−ROM等のコンピュータ読み取り可能な記録媒体から関連語抽出プログラムがコンピュータ内にインストールされることで、動作し得る状態になる。
ところで、関連語抽出プログラムは、汎用コンピュータ1−1に、キーワードに関連する関連語としての単語群をテキストデータから抽出すべく、対象単語指定機能,頻度計算機能, 前後出現単語抽出機能,共起確率計算機能,出現確率計算機能,順序依存型単語関連度計算機能,順序無依存型単語関連度計算機能,単語群抽出機能,類似度計算機能を実行させるためのコンピュータ1−1の処理に適した命令が順番付けられた列である。
【0161】
なお、対象単語指定機能はコンピュータ1−1においてテキストデータ中から関連語を抽出すべき対象となるキーワードを指定する機能であり、前後出現単語抽出機能はコンピュータ1−1においてテキストデータ内のキーワードωk の前に出現する前出現単語ωfiまたはキーワードωk の後に出現する後出現単語ωbiを抽出する機能であり、頻度計算機能はコンピュータ1−1において頻度f(ωi),f(ωk)等を算出する機能である。
【0162】
出現確率計算機能はコンピュータ1−1においてキーワードωk の出現確率P(ωk)とともに前後出現単語抽出機能にて抽出された前出現単語ωfiおよび後出現単語ωbiそれぞれの出現確率P(ωfi),P(ωbi) を計算する機能であり、共起確率計算機能はコンピュータ1−1において前後出現単語抽出機能にて抽出された前出現単語ωfiおよび後出現単語ωbiのそれぞれがキーワードωk と共起する共起確率P(ωfi, ωk),P(ωk,ωbi) を計算する機能であり、順序依存型単語関連度計算機能はコンピュータ1−1において共起確率計算機能にて計算された各共起確率情報P(ωfi, ωk),P(ωk,ωbi) および出現確率計算機能にて計算された各出現確率情報P(ωk),P(ωfi),P(ωbi) に基づいて、キーワードωk に対する前出現単語ωfiおよび後出現単語ωbiの出現順序に依存する関連語度A(ωfi, ωk),A(ωk,ωbi) を計算する機能である。
【0163】
順序無依存型単語関連度計算機能はコンピュータ1−1において順序依存型単語関連度計算機能にて計算された関連度情報A(ωfi, ωk),A(ωk,ωbi) に基づいて、キーワードに対する前出現単語ωfiおよび後出現単語ωbiの出現順序に依存しない関連度r(ωi,ωk)を計算する機能である。
単語群抽出機能はコンピュータ1−1において順序無依存型単語関連度計算機能にて計算された関連度情報r(ωi,ωk)に基づいて、キーワードωk に関連する単語群をテキストデータから抽出して出力する機能である。
【0164】
そして、CPU11は、対象単語指定機能,頻度計算機能, 前後出現単語抽出機能,共起確率計算機能,出現確率計算機能,順序依存型単語関連度計算機能,順序無依存型単語関連度計算機能,単語群抽出機能として図12〜14,30に示すような動作を行なう。
ここで、図30は、頻度計算部22としてのCPU11が関連語抽出プログラムを実行する際の処理の流れを示すフローチャートであり、この図30に示すように、頻度計算機能としてCPU11は、出現確率計算部23からの指示か否かを判断し(ステップS40)、出現確率計算部23からの指示である場合は、キーワードωk の頻度情報f(ωk)が記憶装置に格納されているか否かを判断する(ステップS41)。
【0165】
頻度情報f(ωk)が記憶装置に格納されていない場合、頻度計算機能としてのCPU11は、テキストデータ中にキーワードωk の出現頻度(回数)f(ωk)を計算して(ステップS42)、出力する(ステップS43)。
他方、図30には示していないが、頻度計算機能としてのCPU11は、前後出現単語抽出機能としてのCPU11にて抽出された前出現単語ωfi, 後出現単語ωbiのテキストデータ中の出現頻度数をも算出する。
【0166】
ここで、CPU11は、出現確率計算機能として、頻度計算機能としてのCPU11が出力した頻度情報f(ωk),f(ωi)を基に、出現確率P(ωk),P(ωi)を計算する。
ところで、出現確率計算部23からの指示ではない場合、頻度計算部22としてのCPU11は、前後出現単語抽出部21からの指示か否かを判断する(ステップS44)。
【0167】
ここで、前後出現単語抽出部21からの指示である場合、頻度計算部22としてのCPU11は、前後出現単語抽出部21から渡されたテキストデータを用いて、その中に含まれる単語の頻度を数えて(ステップS45)、集計した単語の頻度を出現確率計算部23へ出力する(ステップS46)。
また、頻度計算部22としてのCPU11が、前後出現単語抽出部21からの指示ではないと判断した場合には、その信号をエラーとする。
【0168】
ところで、出現確率計算部23としてのCPU11の処理の流れ( 図示しない) は、関連語抽出プログラムを実行することにより、求める出現確率P(ωi)等の情報が記憶装置に格納されているか否か判断し、記憶装置に格納されていない場合には、頻度計算部22からf(ωfi),f(ωbi),f(ωk)等の単語の頻度情報をうけて出現確率P(bi),P(ωk)を計算して、その計算結果P(bi),P(ωk)を出力する。一方、記憶装置に求める出現確率P(ωi)等の確率情報P(bi),P(ωk)が格納されている場合は、出現確率計算部23としてのCPU11は、共起確率計算部24へ出力する。
【0169】
別言すると、汎用コンピュータ1−1は、対象単語指定ステップ,前後出現単語抽出ステップ,共起確率計算ステップ,出現確率計算ステップ,順序依存型単語関連度計算ステップ,順序無依存型単語関連度計算ステップ,単語群抽出ステップを実行することで、テキストデータから関連語を抽出する。
このように本発明の他の一実施形態にかかる関連語抽出装置としての汎用コンピュータ1−1によれば、CPU11が前出現単語に対する順序に依存する単語関連度A(ωi,ωk)を2乗した値と後出現単語に対する順序に依存する単語関連度A(ωk,ωi)を2乗した値との和算した値を平方根する演算処理により算出された値を用いて、英語,独語,仏語等により分かち書きされている文書情報に関して、キーワードの前出現/後出現に依存しない利用者にとって分かり易く、かつ、精度を高くして関連語を抽出できる。
【0170】
さらに、本発明の他の一実施形態にかかる関連語抽出装置が適用された汎用コンピュータ1−1によれば、ハードディスク13等の記憶部をそなえて構成されているので、頻度計算部22,順序依存型単語関連度計算部25等における各処理により算出された情報が保持されることで、関連語抽出に伴う処理を早めると共に単語の出現順序に依存しない関連語のリストを作成することができる。
【0171】
ならびに、本発明他の一実施形態にかかる汎用コンピュータ1−1によれば、関連語抽出プログラムを基にコンピュータ1−1が、対象単語指定機能,前後出現単語抽出機能,共起確率計算機能,出現確率計算機能,順序依存型単語関連度計算機能,順序無依存型単語関連度計算機能,単語群抽出機能を実行することにおいても、CPU11が前出現単語に対する順序に依存する単語関連度A(ωi,ωk)を2乗した値と後出現単語に対する順序に依存する単語関連度A(ωk,ωi)を2乗した値との和算した値を平方根する演算処理により算出された値を用いて、英語,独語,仏語等により分かち書きされている文書情報に関して、キーワードの前出現/後出現に依存しない利用者にとって分かり易く、かつ、精度を高くして関連語を抽出できる。
(c2)その他のハードウェア構成の説明
上記(b)〜(c1)では、汎用コンピュータ1,1x,1y,1z,1−1のように装置が単体として構成されている場合を前提として説明をしたが、二つ以上の装置により大量の文書データから関連語を抽出することもできる。
【0172】
たとえば、通信端末の利用者の汎用或いは非汎用のコンピュータからキーワードを通信回線(インターネット、パソコン通信等)を介して大型のホストコンピュータへ送信し、大型のホストコンピュータがデータベース等に格納してある大量の文書データから関連語を抽出して、抽出した関連語を通信回線を介してキーワードを送信した汎用或いは非汎用のコンピュータに送ることによっても前記(b)〜(c1)と同じ動作や作用を得ることができる。
【0173】
一方、前記(c3)では、同義語辞書部31が順序依存型単語関連度計算部25にて利用される場合について説明したが、他の頻度計算部22,前後出現単語抽出部21等が参照することとしても、前記(c3)同様に一つにまとめて関連語のリストを抽出することができ得る。また、同義語辞書部31の他、シソーラスや対訳辞書等を用いても前記同様のことが実現することができる。
【0174】
他方、前記(b)〜(c1)において、類似度計算部29,関連単語群出部30等が単語群抽出部27にて抽出された関連語リストを基に、類似度を算出したり、二つ以上の単語の関連語のリストを作成するようになっているが、類似度計算部29,関連単語群出部30等が、順序依存型単語関連度計算部26にて算出された関連度r(ωi,ωk)を基に、類似度を算出したり、二つ以上の単語の関連語のリストを作成するような構成にしてもよく、この場合においても、前記と同様に、新語に対しても類似度の判定を行なうことができ、また、二つの単語に関連する単語を見ることで二つの単語の関係や付随する知識を理解し易くなる。
【0175】
並びに、上記詳述した他、本発明の数式(5)を基にして順序に依存しない関連度r(ωi,ωk)を算出して関連語を抽出する要旨を逸脱しない範囲で様々な形態において実施を行なうことができ得る。
(d)順序依存型単語関連度計算部
上記(b)〜(c2)とは異なり、単語群抽出部27が順序依存型単語関連度計算部25にて算出された関連度A(ωi,ωk)或いは関連度A(ωk,ωi)の情報を基に関連語をテキストデータから抽出するように用いる場合には、関連語抽出装置は、キーワードと関連語の出現順序に依存するが関連語のリストを作成することができる。
【0176】
なお、この場合においても、頻度計算部22等の各部は、前記上記(b)〜(c2)に述べたとことと同様である。
【0177】
【発明の効果】
以上詳述したように、本発明の関連語抽出装置によれば、順序無依存型単語関連度計算部において、順序依存型単語関連度計算部からの関連度情報に基づき、指定された単語に対する前出現単語および後出現単語の、出現順序に依存しない関連度を計算し、単語群抽出部において、順序無依存型単語関連度計算部にて計算された関連度情報に基づいて、関連度の高い単語を関連語として抽出することができるので、形態素解析また構文解析の処理を施すことなく、利用者にとって分かり易く、かつ、精度を高くして関連語を抽出できる利点がある。
また、本発明の関連語抽出装置によれば、記憶部が、頻度計算部,順序依存型単語関連度計算部等の各処理により算出された情報を保持することで、関連語抽出に伴う処理を早めると共に単語の出現順序に依存しない関連語のリストを作成することができる利点がある。
さらに、本発明の関連語抽出装置によれば、単語分割部が、単語毎に区切られていないテキスト(例えば、日本語や中国語で書かれた文書)を単語あるいは形態素毎に分ける処理を行なうので、予め単語品詞情報をそなえていなくとも日本語等で記載された文書からの関連語抽出も容易に作成することができる利点がある。
一方、本発明の関連語抽出装置によれば、類似度計算部が、順序無依存型単語関連度計算部にて計算された関連度を基に、2つ以上の単語の類似度を算出することができる利点があるとともに、新語に対しても類似度を判定することができる利点もある。
また、本発明の関連語抽出装置によれば、関連単語群抽出部が、順序無依存型単語関連度計算部にて計算された関連度を基に、少なくとも2つ以上の単語に関連する単語群を一つにまとめて出力することができる利点があるとともに、少なくとも2つ以上の単語に関連する単語を理解する際に、少なくとも2つ以上の単語間の関係や、付随する知識が分かり易くなる利点がある。
他方、本発明の関連語抽出装置によれば、同義語辞書部をそなえて構成されることで、同義語辞書部からの情報に基づき指定された単語と同義と見做された単語については、指定された単語と一つにまとめて出力するので、関連語の出現する位置がキーワードの前後に関わらず、大量の文書データから有益の関連語データを抽出することができる利点があるとともに、関連語を自動抽出するときに問題となる異表記を含む同義語の問題を解決することができ、例えば,単語「富士通」「 Fujitsu 」のように異なる表記でテキストデータ中に出現しても同一のものとして関連語を抽出したい場合に有益である利点がある。
【0181】
または、本発明の関連語抽出方法によれば、記憶部を有するコンピュータが、ある単語に関連する関連語としての単語群をテキストデータから抽出する関連語抽出方法において、前後出現単語抽出ステップと、共起確率計算ステップと、出現確率計算ステップと、順序依存型単語関連度計算ステップと、順序無依存型単語関連度計算ステップと、単語抽出ステップと、を実行し、単語抽出ステップにおいては、順序無依存型単語関連度計算ステップにて前記記憶部に記憶された順序無依存型単語関連度情報を前記記憶部から読み出し、読み出された前記順序無依存型単語関連度情報に基づいて、関連度の高い単語を関連語として抽出することができるので、形態素解析また構文解析の処理を施すことなく、利用者にとって分かり易く、かつ、精度を高くして関連語を抽出できる利点がある。
さらに、本発明の関連語抽出方法によれば、単語分割ステップが、単語毎に区切られていないテキスト(例えば、日本語や中国語で書かれた文書)を単語あるいは形態素毎に分ける処理を行なうので、日本語等で記載された文書からの関連語抽出も容易に作成することができる利点がある。
または、本発明の関連語抽出方法によれば、類似度計算ステップが、順序無依存型単語関連度計算ステップにて計算された前記順序無依存型単語関連度情報を基に作成した関連語のリストを用いて、少なくとも2つ以上の単語間の類似度を算出するので、新語に対しても類似度を判定することができる利点もある。
または、本発明の関連語抽出方法によれば、関連単語群抽出ステップが、順序無依存型単語関連度計算ステップにて計算された前記順序無依存型単語関連度情報を基に作成した関連語のリストを用いて、少なくとも2つ以上の単語に関連する単語群を一つにまとめて出力するので、少なくとも2つ以上の単語に関連する単語を理解する際に、少なくとも2つ以上の単語間の関係や、付随する知識が分かり易くなる利点がある。
【0185】
さらに、本発明のコンピュータ読取可能な記録媒体によれば、ある単語に関連する関連語としての単語群をテキストデータから抽出すべく、記憶部を有するコンピュータに、前後出現単語抽出機能と、共起確率計算機能と、出現確率計算機能と、順序依存型単語関連度計算機能と、順序無依存型単語関連度計算機能と、単語抽出機能と、を実行させ、単語抽出機能により、順序無依存型単語関連度計算機能にて前記記憶部に記憶された順序無依存型単語関連度情報に基づいて、関連度の高い単語を関連語として抽出することができるので、形態素解析また構文解析の処理を施すことなく、利用者にとって分かり易く、かつ、精度を高くして関連語を抽出できる利点がある。
【図面の簡単な説明】
【図1】本発明の実施の形態にかかる関連語抽出装置が適用されるシステムを示す図である。
【図2】本発明の実施の形態にかかる関連語抽出装置が適用されるシステムの要部を示すブロック図である。
【図3】本発明の一実施形態にかかる関連語抽出装置が適用されたシステムのブロック図である。
【図4】本発明の一実施形態にかかる一テキストデータを示す図である。
【図5】本発明の一実施形態にかかる単語或いは形態素の単位に分割された一テキストデータを示す図である。
【図6】(a),(b)は、それぞれ本発明の一実施形態にかかる前後出現単語抽出部にて抽出された単語の一例を示す図である。
【図7】本発明の一実施形態にかかる頻度計算部にて算出された頻度情報の一例を示す図である。
【図8】本発明の一実施形態にかかる頻度計算部にて算出された頻度情報の一例を示す図である。
【図9】本発明の一実施形態にかかる順序依存型単語関連度計算部にて計算された関連度情報の一例を示す図である。
【図10】本発明の一実施形態にかかる順序依存型単語関連度計算部にて計算された関連度情報の一例を示す図である。
【図11】本発明の一実施形態にかかる順序無依存型単語関連度計算部にて計算された関連度情報の一例を示す図である。
【図12】本発明の一実施形態にかかるコンピュータにて、CPUが関連語抽出プログラムを実行するときの処理の流れを示すフローチャートである。
【図13】本発明の一実施形態にかかるコンピュータにて、共起確率計算機能としてのCPUが関連語抽出プログラムを実行するときの処理の流れを示すフローチャートである。
【図14】本発明の一実施形態にかかるコンピュータにて、前後出現単語抽出部としてのCPUが関連語抽出プログラムを実行するときの処理の流れを示すフローチャートである。
【図15】本発明の一実施形態にかかるコンピュータにて、頻度計算部としてCPUが関連語抽出プログラムを実行するときの処理の流れを示すフローチャートである。
【図16】本発明の一実施形態の第1変形例にかかる関連語抽出装置が適用された汎用コンピュータのブロック図である。
【図17】本発明の一実施形態の第1変形例にかかる単語群抽出部にて単語「自動車」に関して抽出された関連語リストを示す図である。
【図18】本発明の一実施形態の第1変形例にかかる単語群抽出部にて単語「車」に関して抽出された関連語リストを示す図である。
【図19】本発明の一実施形態の第1変形例にかかる単語群抽出部にて単語「航空機」に関して抽出された関連語リストを示す図である。
【図20】本発明の一実施形態の第1変形例にかかる類似度計算部にて算出された単語「 自動車」 ,「 車」 の類似度と単語「 自動車」 ,「 航空機」 の類似度とを示す図である。
【図21】本発明の一実施形態の第2変形例にかかる関連語抽出装置が適用された汎用コンピュータのブロック図である。
【図22】本発明の一実施形態の第2変形例にかかる単語群抽出部にて単語「エジプト」に関して抽出された関連語リストを示す図である。
【図23】本発明の一実施形態の第2変形例にかかる単語群抽出部にて単語「大統領」に関して抽出された関連語リストを示す図である。
【図24】本発明の一実施形態の第2変形例にかかる関連単語群抽出部にて抽出された2つの単語「 エジプト」 ,「 大統領」 に関連する単語群のリストを示す図である。
【図25】本発明の一実施形態の第3変形例にかかる関連語抽出装置が適用された汎用コンピュータのブロック図である。
【図26】本発明の一実施形態の第3変形例にかかる単語群抽出部にて単語「北朝鮮」に関して抽出された関連語リストを示す図である。
【図27】本発明の一実施形態の第3変形例にかかる単語群抽出部にて単語「朝鮮人民民主主義共和国」に関して抽出された関連語リストを示す図である。
【図28】本発明の一実施形態の第3変形例にかかる単語群抽出部にて単語「北朝鮮」,「朝鮮人民民主主義共和国」に関して抽出された関連語リストを示す図である。
【図29】本発明の他の一実施形態にかかる関連語抽出装置が適用された汎用コンピュータのブロック図である。
【図30】本発明の他の一実施形態にかかる汎用コンピュータにて、頻度計算部としてCPUが関連語抽出プログラムを実行するときの処理の流れを示すフローチャートである。
【符号の説明】
1,1x,1y,1z,1−1 汎用コンピュータ
1a 本体装置
1b ディスプレイ
1c キーボード
1d CD−ROMドライブ
11 CPU
12 メモリ
13 ハードディスク(HDD)
14 入力装置
15 出力装置
21 前後出現単語抽出部
22 頻度計算部
23 出現確率計算部
24 共起確率計算部
25 順序依存型単語関連度計算部
26 順序無依存型単語関連度計算部
27 単語群抽出部
28 単語分割部
29 類似度計算部
30 関連単語群抽出部
31 同義語辞書部
Claims (12)
- テキストデータ上において、指定された単語の前に出現する前出現単語または上記指定された単語の後に出現する後出現単語を抽出する前後出現単語抽出部と、
上記指定された単語がテキストデータ上で出現する頻度,上記の前出現単語または後出現単語がテキストデータ上で出現する頻度および該前後出現単語抽出部にて抽出された上記の前出現単語および後出現単語の頻度を計算しうる頻度計算部と、
該頻度計算部からの上記指定された単語の頻度情報および上記の前出現単語および後出現単語のテキストデータ上での出現頻度情報に基づいて、上記指定された単語の出現確率とともに上記の前出現単語および後出現単語それぞれの出現確率を計算しうる出現確率計算部と、
該頻度計算部からの、該前後出現単語抽出部にて抽出された上記の前出現単語および後出現単語の頻度情報に基づいて、上記の前出現単語および後出現単語のそれぞれが上記指定された単語と共起する共起確率を計算する共起確率計算部と、
該出現確率計算部からの各出現確率情報と、該共起確率計算部からの各共起確率情報とに基づいて、上記の指定された単語に対する前出現単語および後出現単語の、出現順序に依存する関連度を計算する順序依存型単語関連度計算部と、
該順序依存型単語関連度計算部からの関連度情報に基づいて、上記の指定された単語に対する前出現単語および後出現単語の、出現順序に依存しない関連度を計算する順序無依存型単語関連度計算部と、
該順序無依存型単語関連度計算部にて計算された関連度情報に基づいて、関連度の高い単語を関連語として抽出する単語群抽出部と、
をそなえて構成されたことを特徴とする、関連語抽出装置。 - 上記指定された単語に関する各種計算結果および抽出結果のうちの少なくとも一つを記憶しておく記憶部をそなえて構成されたことを特徴とする、請求項1記載の関連語抽出装置。
- 上記テキストデータについて単語または形態素の単位に分割する単語分割部をそなえ、該単語分割部にて分割された結果を用いることにより、上記の前後出現単語抽出部および頻度計算部における処理を行なうように構成されたことを特徴とする、請求項1記載の関連語抽出装置。
- 該単語群抽出部から、上記指定された単語としての少なくとも2つの単語それぞれに関連する単語群の抽出結果を用いることにより、上記少なくとも2つの単語間の類似度を計算する類似度計算部をそなえて構成されたことを特徴とする、請求項1記載の関連語抽出装置。
- 該単語群抽出部から、上記指定された単語としての少なくとも2つの単語それぞれに関連する単語群の抽出結果を用いることにより、上記各単語の全てに関連する単語群を抽出する関連単語群抽出部をそなえて構成されたことを特徴とする、請求項1記載の関連語抽出装置。
- 上記指定された単語に対して同義と見做しうる単語を判定するための同義語辞書部をそなえ、該同義語辞書部からの情報に基づき上記指定された単語と同義と見做された単語については、上記指定された単語と一つにまとめるように構成されたことを特徴とする、請求項1記載の関連語抽出装置。
- 記憶部を有するコンピュータが、ある単語に関連する関連語としての単語群をテキストデータから抽出する関連語抽出方法において、
テキストデータ上において、指定された単語の前に出現する前出現単語および後に出現する後出現単語を抽出し、前記記憶部に記憶を行なう前後出現単語抽出ステップと、
該前後出現単語抽出ステップにて前記記憶部に記憶された前出現単語および後出現単語を前記記憶部から読み出し、読み出された前記の前出現単語および後出現単語のそれぞれが、前記指定された単語と共起する共起確率を計算し、前記記憶部に記憶を行なう共起確率計算ステップと、
前記指定された単語の出現確率とともに、該前後出現単語抽出ステップにて抽出された前出現単語および後出現単語それぞれの出現確率を計算し、前記記憶部に記憶を行なう出現確率計算ステップと、
上記の共起確率計算ステップにて前記記憶部に記憶された各共起確率情報および出現確率計算ステップにて前記記憶部に記憶された各出現確率情報を前記記憶部から読み出し、読み出された前記の各共起確率情報および各出現確率情報に基づいて、上記の指定された単語に対する前出現単語および後出現単語の、出現順序に依存する順序依存型単語関連度を計算し、前記記憶部に記憶を行なう順序依存型単語関連度計算ステップと、
該順序依存型単語関連度計算ステップにて前記記憶部に記憶された順序依存型単語関連度情報を前記記憶部から読み出し、読み出された前記順序依存型単語関連度情報に基づいて、上記の指定された単語に対する前出現単語および後出現単語の、出現順序に依存しない順序無依存型単語関連度を計算し、前記記憶部に記憶を行なう順序無依存型単語関連度計算ステップと、
該順序無依存型単語関連度計算ステップにて前記記憶部に記憶された順序無依存型単語関連度情報を前記記憶部から読み出し、読み出された前記順序無依存型単語関連度情報に基づいて、関連度の高い単語を関連語として抽出する単語抽出ステップと、
を実行することを特徴とする、関連語抽出方法。 - 前記コンピュータは、更に、
該前後出現単語抽出ステップにおける上記の前出現単語および後出現単語を抽出する前段または後段において、上記テキストデータについて単語または形態素の単位に分割する単語分割ステップを実行することを特徴とする、請求項7記載の関連語抽出方法。 - 前記コンピュータは、更に、
該単語群抽出ステップにて上記指定された単語としての少なくとも2つの単語それぞれに関連する単語群を抽出した後に、抽出された上記各単語に関連する単語群から、上記少なくとも2つの単語間の類似度を計算する類似度計算ステップを実行することを特徴とする、請求項7記載の関連語抽出方法。 - 前記コンピュータは、更に、
該単語群抽出ステップにて上記指定された単語としての少なくとも2つの単語それぞれに関連する単語群を抽出した後に、抽出された上記各単語に関連する単語群から、上記各単語全てに関連する単語群を抽出する関連単語群抽出ステップをそなえて構成されたことを特徴とする、請求項7記載の関連語抽出方法。 - 前記コンピュータは、更に、
前記指定された単語に対して同義と見做しうる単語がある場合には、該単語群抽出ステップにおいて、上記同義と見做しうる単語に関連する単語群と、上記指定された単語に関連する単語群とを一つにまとめて出力することを特徴とする、請求項7記載の関連語抽出方法。 - ある単語に関連する関連語としての単語群をテキストデータから抽出すべく、
記憶部を有するコンピュータに、
テキストデータ上において、指定された単語の前に出現する前出現単語および後に出現する後出現単語を抽出し、前記記憶部に記憶を行なう前後出現単語抽出機能と、
該前後出現単語抽出機能にて前記記憶部に記憶された前出現単語および後出現単語を前記記憶部から読み出し、読み出された前記の前出現単語および後出現単語のそれぞれが、該対象単語指定機能にて指定された単語と共起する共起確率を計算し、前記記憶部に記憶を行なう共起確率計算機能と、
前記指定された単語の出現確率とともに、該前後出現単語抽出機能にて抽出された前出現単語および後出現単語それぞれの出現確率を計算し、前記記憶部に記憶を行なう出現確率計算機能と、
上記の共起確率計算機能にて前記記憶部に記憶された各共起確率情報および出現確率計算機能にて前記記憶部に記憶された各出現確率情報を前記記憶部から読み出し、読み出さ れた前記の各共起確率情報および各出現確率情報に基づいて、上記の指定された単語に対する前出現単語および後出現単語の、出現順序に依存する順序依存型単語関連度を計算し、前記記憶部に記憶を行なう順序依存型単語関連度計算機能と、
該順序無依存型単語関連度計算機能にて前記記憶部に記憶された順序依存型単語関連度情報を前記記憶部から読み出し、読み出された前記順序依存型単語関連度情報に基づいて、上記指定された単語に対する前出現単語および後出現単語の、出現順序に依存しない順序無依存型関連度を計算し、前記記憶部に記憶を行なう順序無依存型単語関連度計算機能と、
該順序無依存型単語関連度計算機能にて前記記憶部に記憶された順序無依存型単語関連度情報に基づいて、関連度の高い単語を関連語として抽出する単語抽出機能と、
を実行させるための関連語抽出プログラムが記録されたことを特徴とする、関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP520098A JP3598211B2 (ja) | 1998-01-13 | 1998-01-13 | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 |
US09/132,140 US6178420B1 (en) | 1998-01-13 | 1998-08-10 | Related term extraction apparatus, related term extraction method, and a computer-readable recording medium having a related term extraction program recorded thereon |
CN98120857A CN1101032C (zh) | 1998-01-13 | 1998-09-30 | 相关词抽取设备和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP520098A JP3598211B2 (ja) | 1998-01-13 | 1998-01-13 | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11203311A JPH11203311A (ja) | 1999-07-30 |
JP3598211B2 true JP3598211B2 (ja) | 2004-12-08 |
Family
ID=11604567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP520098A Expired - Fee Related JP3598211B2 (ja) | 1998-01-13 | 1998-01-13 | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US6178420B1 (ja) |
JP (1) | JP3598211B2 (ja) |
CN (1) | CN1101032C (ja) |
Families Citing this family (93)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6594634B1 (en) * | 1998-09-14 | 2003-07-15 | Medtronic Physio-Control Corp. | Method and apparatus for reporting emergency incidents |
US7966234B1 (en) | 1999-05-17 | 2011-06-21 | Jpmorgan Chase Bank. N.A. | Structured finance performance analytics system |
US7392210B1 (en) | 2000-04-07 | 2008-06-24 | Jpmorgan Chase Bank, N.A. | Workflow management system and method |
US7249095B2 (en) | 2000-06-07 | 2007-07-24 | The Chase Manhattan Bank, N.A. | System and method for executing deposit transactions over the internet |
US7392212B2 (en) * | 2000-09-28 | 2008-06-24 | Jpmorgan Chase Bank, N.A. | User-interactive financial vehicle performance prediction, trading and training system and methods |
US7313541B2 (en) * | 2000-11-03 | 2007-12-25 | Jpmorgan Chase Bank, N.A. | System and method for estimating conduit liquidity requirements in asset backed commercial paper |
US7596526B2 (en) * | 2001-04-16 | 2009-09-29 | Jpmorgan Chase Bank, N.A. | System and method for managing a series of overnight financing trades |
US7269546B2 (en) * | 2001-05-09 | 2007-09-11 | International Business Machines Corporation | System and method of finding documents related to other documents and of finding related words in response to a query to refine a search |
JP3553543B2 (ja) * | 2001-11-30 | 2004-08-11 | 三菱スペース・ソフトウエア株式会社 | 関連語自動抽出装置、複数重要語抽出プログラムおよび重要語の上下階層関係抽出プログラム |
JP2003208444A (ja) * | 2002-01-15 | 2003-07-25 | Minolta Co Ltd | ファイル検索プログラムおよび該プログラムを記録する記録媒体 |
US7107261B2 (en) * | 2002-05-22 | 2006-09-12 | International Business Machines Corporation | Search engine providing match and alternative answer |
US9400589B1 (en) | 2002-05-30 | 2016-07-26 | Consumerinfo.Com, Inc. | Circular rotational interface for display of consumer credit information |
US9710852B1 (en) | 2002-05-30 | 2017-07-18 | Consumerinfo.Com, Inc. | Credit report timeline user interface |
US8224723B2 (en) | 2002-05-31 | 2012-07-17 | Jpmorgan Chase Bank, N.A. | Account opening system, method and computer program product |
JP4452012B2 (ja) * | 2002-07-04 | 2010-04-21 | ヒューレット・パッカード・カンパニー | 文書の特有性評価方法 |
US20040044961A1 (en) * | 2002-08-28 | 2004-03-04 | Leonid Pesenson | Method and system for transformation of an extensible markup language document |
US20050044033A1 (en) * | 2003-01-10 | 2005-02-24 | Gelson Andrew F. | Like-kind exchange method |
US7634435B2 (en) * | 2003-05-13 | 2009-12-15 | Jp Morgan Chase Bank | Diversified fixed income product and method for creating and marketing same |
JP2004348241A (ja) * | 2003-05-20 | 2004-12-09 | Hitachi Ltd | 情報提供方法、サーバ及びプログラム |
US7770184B2 (en) * | 2003-06-06 | 2010-08-03 | Jp Morgan Chase Bank | Integrated trading platform architecture |
US20050027666A1 (en) * | 2003-07-15 | 2005-02-03 | Vente, Inc | Interactive online research system and method |
US20050015324A1 (en) * | 2003-07-15 | 2005-01-20 | Jacob Mathews | Systems and methods for trading financial instruments across different types of trading platforms |
US7970688B2 (en) * | 2003-07-29 | 2011-06-28 | Jp Morgan Chase Bank | Method for pricing a trade |
US20050060256A1 (en) * | 2003-09-12 | 2005-03-17 | Andrew Peterson | Foreign exchange trading interface |
US7593876B2 (en) * | 2003-10-15 | 2009-09-22 | Jp Morgan Chase Bank | System and method for processing partially unstructured data |
US7725487B2 (en) * | 2003-12-01 | 2010-05-25 | National Institute Of Information And Communications Technology | Content synchronization system and method of similar web pages |
US20050222937A1 (en) * | 2004-03-31 | 2005-10-06 | Coad Edward J | Automated customer exchange |
US8423447B2 (en) * | 2004-03-31 | 2013-04-16 | Jp Morgan Chase Bank | System and method for allocating nominal and cash amounts to trades in a netted trade |
US20050251478A1 (en) * | 2004-05-04 | 2005-11-10 | Aura Yanavi | Investment and method for hedging operational risk associated with business events of another |
WO2006012487A1 (en) * | 2004-07-22 | 2006-02-02 | Genometric Systems Llc | Method and apparatus for informational processing based on creation of term-proximity graphs and their embeddings into informational units |
US7693770B2 (en) * | 2004-08-06 | 2010-04-06 | Jp Morgan Chase & Co. | Method and system for creating and marketing employee stock option mirror image warrants |
US20090132428A1 (en) * | 2004-11-15 | 2009-05-21 | Stephen Jeffrey Wolf | Method for creating and marketing a modifiable debt product |
US20090164384A1 (en) * | 2005-02-09 | 2009-06-25 | Hellen Patrick J | Investment structure and method for reducing risk associated with withdrawals from an investment |
US8688569B1 (en) | 2005-03-23 | 2014-04-01 | Jpmorgan Chase Bank, N.A. | System and method for post closing and custody services |
JP4524640B2 (ja) * | 2005-03-31 | 2010-08-18 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
US20090187512A1 (en) * | 2005-05-31 | 2009-07-23 | Jp Morgan Chase Bank | Asset-backed investment instrument and related methods |
US7822682B2 (en) * | 2005-06-08 | 2010-10-26 | Jpmorgan Chase Bank, N.A. | System and method for enhancing supply chain transactions |
US20110035306A1 (en) * | 2005-06-20 | 2011-02-10 | Jpmorgan Chase Bank, N.A. | System and method for buying and selling securities |
JP2007072646A (ja) * | 2005-09-06 | 2007-03-22 | Internatl Business Mach Corp <Ibm> | 検索装置、検索方法およびプログラム |
US7567928B1 (en) | 2005-09-12 | 2009-07-28 | Jpmorgan Chase Bank, N.A. | Total fair value swap |
US7818238B1 (en) | 2005-10-11 | 2010-10-19 | Jpmorgan Chase Bank, N.A. | Upside forward with early funding provision |
US8280794B1 (en) | 2006-02-03 | 2012-10-02 | Jpmorgan Chase Bank, National Association | Price earnings derivative financial product |
US7620578B1 (en) | 2006-05-01 | 2009-11-17 | Jpmorgan Chase Bank, N.A. | Volatility derivative financial product |
US7647268B1 (en) | 2006-05-04 | 2010-01-12 | Jpmorgan Chase Bank, N.A. | System and method for implementing a recurrent bidding process |
US9811868B1 (en) | 2006-08-29 | 2017-11-07 | Jpmorgan Chase Bank, N.A. | Systems and methods for integrating a deal process |
US7827096B1 (en) | 2006-11-03 | 2010-11-02 | Jp Morgan Chase Bank, N.A. | Special maturity ASR recalculated timing |
JP4367495B2 (ja) * | 2007-02-15 | 2009-11-18 | ブラザー工業株式会社 | 画像形成装置 |
JP5057516B2 (ja) * | 2007-11-14 | 2012-10-24 | 日本電信電話株式会社 | 文書間距離計算装置およびプログラム |
US8127986B1 (en) | 2007-12-14 | 2012-03-06 | Consumerinfo.Com, Inc. | Card registry systems and methods |
US9990674B1 (en) | 2007-12-14 | 2018-06-05 | Consumerinfo.Com, Inc. | Card registry systems and methods |
JP5103603B2 (ja) * | 2008-02-06 | 2012-12-19 | 国立大学法人群馬大学 | 情報検索システム及び情報検索装置 |
US8280886B2 (en) * | 2008-02-13 | 2012-10-02 | Fujitsu Limited | Determining candidate terms related to terms of a query |
US20090241165A1 (en) * | 2008-03-19 | 2009-09-24 | Verizon Business Network Service, Inc. | Compliance policy management systems and methods |
JP2009265736A (ja) * | 2008-04-22 | 2009-11-12 | Sharp Corp | 電子機器、その制御方法およびコンピュータプログラム |
US8312033B1 (en) | 2008-06-26 | 2012-11-13 | Experian Marketing Solutions, Inc. | Systems and methods for providing an integrated identifier |
JP5009874B2 (ja) * | 2008-07-31 | 2012-08-22 | 日本電信電話株式会社 | 重要度取得装置および方法、ならびに、枠情報作成装置および方法 |
US9256904B1 (en) | 2008-08-14 | 2016-02-09 | Experian Information Solutions, Inc. | Multi-bureau credit file freeze and unfreeze |
US8060424B2 (en) | 2008-11-05 | 2011-11-15 | Consumerinfo.Com, Inc. | On-line method and system for monitoring and reporting unused available credit |
US20110055113A1 (en) * | 2009-08-28 | 2011-03-03 | Conor Cunningham | Method and system for managing spread orders |
US8738514B2 (en) * | 2010-02-18 | 2014-05-27 | Jpmorgan Chase Bank, N.A. | System and method for providing borrow coverage services to short sell securities |
US20110208670A1 (en) * | 2010-02-19 | 2011-08-25 | Jpmorgan Chase Bank, N.A. | Execution Optimizer |
US8352354B2 (en) * | 2010-02-23 | 2013-01-08 | Jpmorgan Chase Bank, N.A. | System and method for optimizing order execution |
US8161073B2 (en) | 2010-05-05 | 2012-04-17 | Holovisions, LLC | Context-driven search |
US9665854B1 (en) | 2011-06-16 | 2017-05-30 | Consumerinfo.Com, Inc. | Authentication alerts |
US9483606B1 (en) | 2011-07-08 | 2016-11-01 | Consumerinfo.Com, Inc. | Lifescore |
US9106691B1 (en) | 2011-09-16 | 2015-08-11 | Consumerinfo.Com, Inc. | Systems and methods of identity protection and management |
US8738516B1 (en) | 2011-10-13 | 2014-05-27 | Consumerinfo.Com, Inc. | Debt services candidate locator |
US9853959B1 (en) | 2012-05-07 | 2017-12-26 | Consumerinfo.Com, Inc. | Storage and maintenance of personal data |
JP5727415B2 (ja) * | 2012-05-17 | 2015-06-03 | 日本電信電話株式会社 | 文書検索用関連語発見装置及び方法及びプログラム |
US9654541B1 (en) | 2012-11-12 | 2017-05-16 | Consumerinfo.Com, Inc. | Aggregating user web browsing data |
US9916621B1 (en) | 2012-11-30 | 2018-03-13 | Consumerinfo.Com, Inc. | Presentation of credit score factors |
US10255598B1 (en) | 2012-12-06 | 2019-04-09 | Consumerinfo.Com, Inc. | Credit card account data extraction |
US9406085B1 (en) | 2013-03-14 | 2016-08-02 | Consumerinfo.Com, Inc. | System and methods for credit dispute processing, resolution, and reporting |
US10102570B1 (en) | 2013-03-14 | 2018-10-16 | Consumerinfo.Com, Inc. | Account vulnerability alerts |
US9870589B1 (en) | 2013-03-14 | 2018-01-16 | Consumerinfo.Com, Inc. | Credit utilization tracking and reporting |
US10685398B1 (en) | 2013-04-23 | 2020-06-16 | Consumerinfo.Com, Inc. | Presenting credit score information |
WO2015021485A1 (en) | 2013-08-09 | 2015-02-12 | Behavioral Recognition Systems, Inc. | A cognitive neuro-linguistic behavior recognition system for multi-sensor data fusion |
US9443268B1 (en) | 2013-08-16 | 2016-09-13 | Consumerinfo.Com, Inc. | Bill payment and reporting |
JP6407516B2 (ja) * | 2013-10-31 | 2018-10-17 | Kddi株式会社 | マイニング分析装置、方法及びプログラム |
US10325314B1 (en) | 2013-11-15 | 2019-06-18 | Consumerinfo.Com, Inc. | Payment reporting systems |
US9477737B1 (en) | 2013-11-20 | 2016-10-25 | Consumerinfo.Com, Inc. | Systems and user interfaces for dynamic access of multiple remote databases and synchronization of data based on user rules |
USD759689S1 (en) | 2014-03-25 | 2016-06-21 | Consumerinfo.Com, Inc. | Display screen or portion thereof with graphical user interface |
USD760256S1 (en) | 2014-03-25 | 2016-06-28 | Consumerinfo.Com, Inc. | Display screen or portion thereof with graphical user interface |
USD759690S1 (en) | 2014-03-25 | 2016-06-21 | Consumerinfo.Com, Inc. | Display screen or portion thereof with graphical user interface |
US9892457B1 (en) | 2014-04-16 | 2018-02-13 | Consumerinfo.Com, Inc. | Providing credit data in search results |
US11188864B2 (en) * | 2016-06-27 | 2021-11-30 | International Business Machines Corporation | Calculating an expertise score from aggregated employee data |
CN106339369B (zh) * | 2016-08-30 | 2019-06-04 | 广东医科大学 | 一种资料集的同义词识别方法及系统 |
US10460035B1 (en) | 2016-12-26 | 2019-10-29 | Cerner Innovation, Inc. | Determining adequacy of documentation using perplexity and probabilistic coherence |
US20200074100A1 (en) | 2018-09-05 | 2020-03-05 | Consumerinfo.Com, Inc. | Estimating changes to user risk indicators based on modeling of similarly categorized users |
US11315179B1 (en) | 2018-11-16 | 2022-04-26 | Consumerinfo.Com, Inc. | Methods and apparatuses for customized card recommendations |
US11238656B1 (en) | 2019-02-22 | 2022-02-01 | Consumerinfo.Com, Inc. | System and method for an augmented reality experience via an artificial intelligence bot |
US11941065B1 (en) | 2019-09-13 | 2024-03-26 | Experian Information Solutions, Inc. | Single identifier platform for storing entity data |
CN113139106B (zh) * | 2021-05-07 | 2022-03-15 | 杭州世平信息科技有限公司 | 一种保密检查的事件审核方法和装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5245337A (en) * | 1991-05-29 | 1993-09-14 | Triada, Ltd. | Data compression with pipeline processors having separate memories |
JP2538736B2 (ja) * | 1992-03-30 | 1996-10-02 | 日本電信電話株式会社 | 関連キ―ワ―ド自動生成装置 |
JPH06274541A (ja) * | 1993-03-17 | 1994-09-30 | Nippon Steel Corp | 文献検索システム |
US5586219A (en) * | 1994-09-30 | 1996-12-17 | Yufik; Yan M. | Probabilistic resource allocation system with self-adaptive capability |
JP3687118B2 (ja) * | 1994-12-01 | 2005-08-24 | 富士ゼロックス株式会社 | 関連語辞書作成装置および関連語辞書作成方法 |
JPH0944523A (ja) * | 1995-07-27 | 1997-02-14 | Fuji Xerox Co Ltd | 関連語提示装置 |
US6044351A (en) * | 1997-12-18 | 2000-03-28 | Jones; Annie M. W. | Minimum income probability distribution predictor for health care facilities |
-
1998
- 1998-01-13 JP JP520098A patent/JP3598211B2/ja not_active Expired - Fee Related
- 1998-08-10 US US09/132,140 patent/US6178420B1/en not_active Expired - Lifetime
- 1998-09-30 CN CN98120857A patent/CN1101032C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US6178420B1 (en) | 2001-01-23 |
JPH11203311A (ja) | 1999-07-30 |
CN1223410A (zh) | 1999-07-21 |
CN1101032C (zh) | 2003-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3598211B2 (ja) | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 | |
JP3820242B2 (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
JP5241828B2 (ja) | 辞書の単語及び熟語の判定 | |
JP2003223437A (ja) | 正解語の候補の表示方法、スペルチェック方法、コンピュータ装置、プログラム | |
JPH1153384A (ja) | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 | |
US8606779B2 (en) | Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof | |
JP2005352888A (ja) | 表記揺れ対応辞書作成システム | |
JP6404511B2 (ja) | 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム | |
JP2002197104A (ja) | 情報検索処理装置,情報検索処理方法および情報検索処理プログラムを記録した記録媒体 | |
US20190303437A1 (en) | Status reporting with natural language processing risk assessment | |
JP2005135113A (ja) | 電子機器装置、関連語抽出方法及びプログラム | |
JPH10207910A (ja) | 関連語辞書作成装置 | |
JPH0944523A (ja) | 関連語提示装置 | |
JP7064871B2 (ja) | テキストマイニング装置およびテキストマイニング方法 | |
JPH1145278A (ja) | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 | |
CN115438048A (zh) | 表搜索方法、装置、设备及存储介质 | |
JP2004086307A (ja) | 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム | |
JP3558854B2 (ja) | データ検索装置及びコンピュータ読み取り可能な記録媒体 | |
JP2004334699A (ja) | テキスト評価装置、テキスト評価方法、プログラム及び記憶媒体 | |
JP2621999B2 (ja) | 文書処理装置 | |
JP2000105769A (ja) | 文書表示方法 | |
JP3744136B2 (ja) | 訳語選択装置と記憶媒体 | |
JP7326637B2 (ja) | チャンキング実行システム、チャンキング実行方法、及びプログラム | |
JP2002073656A (ja) | 異表記正規化処理・異表記展開処理方法および該処理方法による文書検索方法、該処理装置および文書検索装置並びにプログラム記録媒体 | |
JPH08115330A (ja) | 類似文書検索方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040302 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040706 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040907 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040913 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080917 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080917 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090917 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090917 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100917 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100917 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110917 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120917 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120917 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130917 Year of fee payment: 9 |
|
LAPS | Cancellation because of no payment of annual fees |