JP4525154B2 - 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム - Google Patents

情報処理システム及び情報処理方法、並びにコンピュータ・プログラム Download PDF

Info

Publication number
JP4525154B2
JP4525154B2 JP2004124919A JP2004124919A JP4525154B2 JP 4525154 B2 JP4525154 B2 JP 4525154B2 JP 2004124919 A JP2004124919 A JP 2004124919A JP 2004124919 A JP2004124919 A JP 2004124919A JP 4525154 B2 JP4525154 B2 JP 4525154B2
Authority
JP
Japan
Prior art keywords
word
context
words
document
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004124919A
Other languages
English (en)
Other versions
JP2005309706A (ja
Inventor
博仁 柴田
賢悟 大村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2004124919A priority Critical patent/JP4525154B2/ja
Publication of JP2005309706A publication Critical patent/JP2005309706A/ja
Application granted granted Critical
Publication of JP4525154B2 publication Critical patent/JP4525154B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、主にテキスト情報を処理する情報処理システム及び情報処理方法、並びにコンピュータ・プログラムに係り、特に、テキスト情報を解析し、語と関連語からなるシソーラスを自動構築する情報処理システム及び情報処理方法、並びにコンピュータ・プログラムに関する。
さらに詳しくは、本発明は、人々の総意に基づく一般的なシソーラスだけではなく、特定の人物や組織の関心や興味、経験に基づく個人のシソーラスを自動構築する情報処理システム及び情報処理方法、並びにコンピュータ・プログラムに係り、特に、個人シソーラスを安価に構築する情報処理システム及び情報処理方法、並びにコンピュータ・プログラムに関する。
人間の語彙体系をコンピュータが処理可能とするものとしてシソーラス辞書(以降、単に「シソーラス」と呼ぶ)がある。
ここで、「シソーラス」という用語は、一般には、語の階層関係(上下関係、包含関係)を規定する辞書として利用される。本明細書では、「シソーラス」を広く捉え「語とその語の関連語を集めたもの」として定義する。実際に、海外ではThesaurusをこのように用いることも多い(例えば、非特許文献2、非特許文献を参照のこと)。日本では、語の階層関係を規定する狭義のシソーラスとの混同を避けるため、「概念ベース」という表現を用いることが多い(例えば、非特許文献7を参照のこと)。
シソーラスの代表例としては英語のWordNet(例えば、非特許文献17を参照のこと)や日本語のEDR電子辞書(例えば、非特許文献18を参照のこと)などがある。これらでは、概念の階層関係からなる語彙体系が保持されているが、単に語とその関連語のリストが保持されているだけでも、その利用価値は高い。例えば、情報検索時において、シソーラスで検索キーを展開することにより、表現のゆれなどによる検索もれを防ぐことができる。また、文章用例の生成や推論機構においてもシソーラスを利用することができる。
一般に、シソーラスは万人にとって妥当な語彙体系、すなわち人々の総意に基づく語彙体系を編集したものが多いが、個人の語彙体系や連想パターンを模倣するシソーラス(これを「個人シソーラス」と呼ぶ)を想定すると、その利用価値はさらに広がる。例えば、情報検索時に個人シソーラスで検索キーを展開することにより、個人にカスタマイズされた個人の観点からの検索が可能となる。例えば、Jaguarという単語から動物好きの人は動物のジャガーを連想するであろうし、車好きの人は自動車メーカー又はJaguar社の車を連想するだろう(例えば、非特許文献19を参照のこと)。Jaguarという検索キーを個人シソーラスにより関連語に展開することで、上記のような曖昧性を排除した個人にカスタマイズされた検索が可能となる。また、個人のシソーラスにどのような語がどれくらいあるかを分析することで、その人の興味や関心事を推定することが可能であるし、これを必要な人材を検索するためのプロファイルとしても利用可能である。
ところが、一般にシソーラスの構築はコストが高い、という問題がある。先述のWordNetやEDR電子辞書は、長い年月と膨大な費用をかけて人手で構築されたものである。さらには、新語の出現や語の利用のされ方の変化に応じて、常にメンテナンスすることが必要である。不特定多数が利用することを想定したシソーラスの構築においては、このような高いコストを投入することも妥当であろうが、個人シソーラスの構築においては、より安価に構築できることが必要となる。
このような背景を踏まえ、テキスト・コーパスを解析してシソーラスを自動構築する試みが古くから数多くなされてきた。このような研究はコーパスとして何を使うかということにより、以下の3種類に分類することができる。
第一のグループは、人間により編集された、語とその語義文が記述された辞書を用いる手法である(例えば、非特許文献14を参照のこと)。ここでは、辞書での意味記述が、幾つかの典型的な構造に分類されることに着目する。例えば、「青蛙」の語義文が「大形のカエルの一種」となっている場合、「青蛙」は「カエル」の下位概念であり、「大形」という特徴を持っていることが判る。このような構造を利用し、パータン・マッチにより語の関係(上位下位、同義、全体部分、集合要素など)を特定し、シソーラスを構築することができる。また、シソーラスでの語の関連語を辞書での語の語義文に出現する単語として定義し、統計処理によりシソーラスを洗練させることができる(例えば、非特許文献7を参照のこと)。さらに、これと同様の手法で構築したシソーラスに対して、サンプリングされた語に対する目視評価の結果を伝播させることにより、シソーラスの精度を向上させることができる(例えば、非特許文献8を参照のこと)。
第ニのグループは、語と語義文からなる辞書を前提とせず、一般のテキスト・コーパスを解析して、統計情報に基づいてシソーラスの構築を試みる研究である。これらの研究は、基本的に「同じ文脈で用いられる語は意味的にも似ている」という仮説に基づいて、関連する(意味的に近い)語を収集する。具体的には、異なる語AとBが指定された幅のテキスト・ブロック(本明細書中では「共起ウィンドウ」と呼ぶ)の中にともに現れるとき、これを共起とみなし、語の共起関係の統計的偏りに基づいて関連語が選出される。例えば、語の共起関係の相互情報量に基づいて、語とその関連語からなるシソーラスを自動構築することができる(例えば、非特許文献2を参照のこと)。また、語の共起関係に基づいて関連する語を収集することができる(例えば、非特許文献6を参照のこと)。あるいは、コーパスのテキストに対して粗い構文解析を行ない、形容詞で修飾された名詞、主語と目的語のような構造を抽出し、その構造集合の中で共起に基づいて関連語を収集することができる(例えば、非特許文献5、非特許文献9を参照のこと)。これら試みは「文法上の同じ構造で利用される語は意味的にも似ている」という仮説に基づいているといえる。
第三のグループは、技術的手法において第二のグループに似ているが、対象とするコーパスが一般のものではなく個人の興味や関心事の反映されたものに限定されるとういことを特徴とする。すなわち、目的が汎用のシソーラスの構築ではなく個人シソーラスの構築にある、という点で相違する。例えば、ある個人が記述した論文や電子メールなどのテキストを解析し、その人らしさが強く反映されると考えられる固有名詞に着目し、固有名詞の共起関係に基づき、個人シソーラスを構築することができる(例えば、特許文献1を参照のこと。また、Web のブックマークからWebページを巡回して収集し、それを解析することで個人シソーラスを自動構築することができる(例えば、非特許文献16を参照のこと)。
特開平11−184890号公報 相澤 彰子:語の文書の共起に基づく特徴度の数量的表現について,情報処理学会論文誌, Vol. 41, No. 12, pp. 3332-3343, 2000. Kenneth Ward Church, Patrick Hanks: Word association norms, mutual information, and lexicography, in Proceedings of the 27th. Annual Meeting of the Association for Computational Linguistics, 1989. Daniel Goncalves: Telling stories about documents: Experiment results, Technical Report (Instituto Superior Tecnico, Portugal), May 2003. Daniel Goncalves and Joaquim A. Jorge: Describing documents: What can users tell us? in Proceedings of International Conference on Intelligent User Interfaces, pp. 247-249, January 13-16, 2004. G. Grefenstette: Use of syntactic context to produce term association lists for text retrieval, in Proceedings of ACM SIGIR '92, pp. 89-97, 1992. Hiroyuki Kaji, Yasutsugu Morimoto, Toshiko Aizono, Noriyuki Yamasaki: Corpus-dependent association thesauri for information retrieval, in Proceedings of 18th International Conference on Computational Linguistics (COLING 2000), 2000. 笠原 要,松澤 和光,石川 勉:国語辞書を利用した日常語の類似性判別,情報処理学会論文誌,Vol. 38, No. 7, 1997. 小島 一秀,渡部 広一,河岡 司:連想システムのための概念ベース構築法 − 属性信頼度の考えに基づく属性重みの決定,自然言語処理,Vol. 9, No. 5, pp. 93-110, 2002. D. Lin: Automatic retrieval and clustering of similar words, in Proceedings of COLING-ACL 1998, pp. 768-773, 1998. Christopher D. Manning and Hinrich Schuetze: Foundations of statistical natural language processing, The MIT Press, 1999. G. Salton and M. J. McGill: Introduction to modern information retrieval, McGraw-Hill, 1983. Hinrich Schutze: Ambiguity resolution in language learning - Computational and cognitive models, CSLI Publications, 1997. H. Schutze and J. Pedersen: A cooccurrence-based thesaurus and two applications to information retrieval, Information Processing and Management, Vol. 33, No. 3, pp. 307-318, 1997. 鶴丸 弘明,竹下 克典,伊丹 克企,柳川 俊英,吉田 将:国語辞典情報を用いたシソーラスの作成について,情報処理学会 自然言語処理研究会, NL-83, 1991. 渡部 勇,三末 和男:単語の連想関係によるテキストマイニング,情報処理学会 研究会(情報学基礎,デジタル・ドキュメント),FI55-8, 1999. Sen Yoshida, Takashi Yukawa, and Kazuhiro Kuwabara: Constructing and examining personalized cooccurrence-based thesauri on Web pages, in Proceedings on The Twelfth International World Wide Web Conference (WWW2003), 2003. http://www.cogsci.princeton.edu/~wn/ http://www.iijnet.or.jp/edr/J_index.html http://wwwitmedia.co.jp/news/0308/12/ne00_kaltix.html
個人シソーラスの構築には人手での構築が困難であり、自動構築が求められる。上述したように、シソーラスの自動構築には、対象とするコーパスによって3種類のグループに分類することができる。このうち、シソーラスを自動構築する第二のグループの技術は、本来、個人シソーラスのために構築されたものではないが、同様の手法を個人が作成又は収集したコーパスに適用することにより、個人シソーラスの構築することが可能であると考えられる。しかしながら、その適用においては以下の問題に対処する必要があると本発明者らは思料する。
第一に、語が利用される文脈の統計情報に基づいてシソーラスを構築するには、大量のコーパス(数十から数百メガバイト)が必要である。これに対して、個人の興味や関心事が反映されていると考えられる個人が蓄積するデータは、せいぜい数メガバイトであり、大量のデータは望めない。そこで、個人にとって満足のいく性能を持ったシソーラスが構築できない可能性がある。
なお、シソーラスの性能は「人間の主観評価との整合性(一致度)」として定義される。個人シソーラスの性能は、個人の主観との整合性で議論され、一般のシソーラスの性能は一般の人間(不特定多数)の主観との整合性で議論される。
また、個人シソーラスの自動構築における第2の問題点として、解析対象となるデータから単語を正しく抽出できない、ということが挙げられる。論文などのようにオフィシャルな文書の場合はともかく、日記や電子メールなどの場合には、自分(あるいは特定の組織の人間)にしか分からないような造語や略語、専門用語が利用されることがある。そして、このような語こそ、特定の個人や組織の特徴を言い表している場合も多い。また、リスト形式の記述のように、句読点や動詞がないなどというように、文法的な正しさも保証されない。このような場合、形態素解析の処理において、単語が正しく抽出できない、という問題がある。
個人シソーラスの構築においては、上記の2つの問題を解決する必要がある。前者の問題への対処としては、限られたソース・データから、できるだけ多くの文脈を(しかも多重的に)取り出して、統計的な検定に耐えうるようにする必要がある。
勿論、前者の問題を解決することは、何も少ないデータからシソーラス構築を行なう場合にのみ限定されることではなく、文脈を多くすることは大量のコーパスから構築する場合にも、シソーラスの性能を向上させる助けとなる。一般のシソーラスの構築においては、十分な性能のシソーラスが構築できないとき解析対象のコーパスの量を増やすことで性能の向上を図るというアプローチが可能である。これに対して、個人シソーラスの構築においてはソース・データの絶対量に限りがあるため、このアプローチは適用できない。よって、利用できる文脈を増やすことは、個人シソーラスの構築においては、より重要な課題となる。
また、後者の問題への対処としては、非文法的なテキストから分野や個人に特化した用語や表現を抽出することが必要となる。上述した第三グループの技術は、個人シソーラスの自動構築を目的としたものであり、個人の興味や関心が強く反映されていると考える固有名詞に着目するなどの工夫が施されている。しかし、上記の問題の対処については何ら言及されていない。
本発明は、上述したような技術的課題を鑑みたものであり、その主な目的は、テキスト情報を解析し、語と関連語からなるシソーラスを安価に自動構築することができる、優れた情報処理システム及び情報処理方法、並びにコンピュータ・プログラムを提供することにある。
本発明のさらなる目的は、人々の総意に基づく一般的なシソーラスだけではなく、特定の人物や組織の関心や興味、経験に基づく個人のシソーラスを安価に自動構築することができる、優れた情報処理システム及び情報処理方法、並びにコンピュータ・プログラムを提供することにある。
本発明は、上記課題を参酌してなされたものであり、その第1の側面は、文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築する情報処理システムであって、文書集合から語を抽出する語抽出手段と、文書集合から複数の種類の文脈を抽出する文脈抽出手段と、前記語抽出手段により抽出された各語について、前記文脈抽出手段により抽出された文脈毎に重みを算出する重み算出手段と、文脈に対する重みが同じ傾向を示す語が高い類似度を示すように語間の類似度を算出する類似度算出手段と、算出された語間の類似度に基づいて、個々の語について類似度の高い語を関連語として収集する関連語収集手段とを具備することを特徴とする情報処理システムである。ここで、特定の個人や組織向けの個人シソーラスを構築する場合には、文書集合として、特定の個人又は組織による個人文書集合を取り扱う。なお、具体的な類似度の算出方法は後で説明する発明の第1、第2の側面にて、具体的に説明を行うものである。
また、本発明の第2の側面は、文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築する情報処理システムであって、文書集合から語を抽出する語抽出手段と、文書集合から複数の種類の文脈を抽出する文脈抽出手段と、前記語抽出手段により抽出された各語について、前記文脈抽出手段により抽出された文脈毎に重みを算出する重み算出手段と、語の各文脈での重みを要素とする文脈ベクトルを生成するベクトル生成手段と、文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出する類似度算出手段と、算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集手段とを具備することを特徴とする情報処理システムである。
ここで、前記ベクトル生成手段は、異なる複数の文脈にまたがって、語の各文脈での重みを要素とする文脈ベクトルを生成するようにしてもよい。
また、前記ベクトル生成手段は、個々の文脈毎に、語の各文脈での重みを要素とするベクトルを生成するようにしてもよい。この場合、文脈毎の語間の類似度を統合して統合的類似度を算出する類似度統合手段をさらに備え、前記関連語収集手段は、統合的類似度に基づいて個々の語について関連度の高い語を関連語として収集することができる。
また、語の各文脈での重みを要素とする文脈ベクトルではなく、各文脈での語の出現数に基づいて語間の類似度を算出することができる。すなわち、同種類の文脈ベクトル内での出現確率に基づいて語の類似度を算出し、文脈毎の語間の類似度を統合して統合的類似度を算出し、統合的類似度に基づいて個々の語について関連度の高い語を関連語として収集することができる。
また、語の文脈に対する重みを算出するのではなく、文脈内での異なる語間の共起数を算出し、共起数に基づいて(例えば、文脈毎の共起数を統合して)語間の類似度を算出し、類似度に基づいて個々の語について関連度の高い語を関連語として収集するようにしてもよい。
また、本発明の第3の側面は、文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築する情報処理システムであって、文書集合から語を抽出する語抽出手段と、文書集合から複数の種類の文脈を抽出する文脈抽出手段と、前記語抽出手段により抽出された各語について、前記文脈抽出手段により抽出された文脈内での異なる語間の共起数を算出する共起数算出手段と、各文脈での共起数に基づいて対応する語間の類似度を算出する類似度算出手段と、算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集手段とを具備することを特徴とする情報処理システムである。
本発明の第2及び第3の側面によれば、シソーラスを構築する際に、異なる語が所定範囲内でともに出現する共起関係に基づいて関連する語を収集する。すなわち、文書集合から複数の種類の文脈を抽出することにより、異なる語が共起しているとみなす共起ウィンドウのサイズを設定することができる。そして、各語について文脈毎に重みを算出することで、共起ウィンドウの幅に応じて語間の関連性の強弱を示す共起度を変動させることができる。例えば、狭い共起ウィンドウで共起する語に高い共起度を与え、広い共起ウィンドウで共起する語に低い共起度を与えることができる。
したがって、本発明の第2及び第3の側面によれば、文脈の数を多くすると同時に、共起ウィンドウの幅に応じて共起度を変動させることで、共起関係を精緻に捉えることが可能となる。これにより、個人や組織の情報群という限られたソース・データを有効に活用し、より個人や組織の直感に合うシソーラスの構築が可能となる。
また、本発明の第4の側面は、文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築する情報処理システムであって、文書集合から語を抽出する語抽出手段と、文書の属性情報に基づいて、文書を複数のグループに分類する文書分類手段と、グループ内での語の共起関係に基づいて、語間の類似度を算出する類似度算出手段と、算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集手段とを具備することを特徴とする情報処理システムである。
ここで、前記文書分類手段は、文書が持つ社会的文脈を文書の属性情報として利用し、文書の各グループへの分類を行なう。ここで言う文書の社会的文脈には、文書の置き場所、文書に付随する日時(作成日時、更新日時、参照日時など)、ファイル・タイプ、文書を作成した人、文書を共有した人、文書を作成し又は共有した人が所属する組織図、文書を利用した場所、文書の利用目的、文書のタイトル、文書の検索に利用するキーワード、文書の分類キーワード、文書の提出先、文書の執筆者又は共著者、文書間の引用関係、文書の入手場所又は入手方法、文書を作成し変更し又は参照した前後に生じたイベントなどが挙げられる。
したがって、本発明の第4の側面によれば、語の共起関係を捉える際にこれまで利用されることのなかった文書の社会的文脈を活用することが可能となる。文書が実生活で取り扱われることで付与される社会的文脈を活用することで、文脈の数を多くするのみでなく、より個人や組織のワーク・スタイルや嗜好性を考慮したシソーラスを構築することが可能となる。ここで、文書の社会的文脈とは、文書が生成、活用される過程で文書に自動的、明示的に付与されるさまざまな属性の総称であり、その具体例は上で提示した通りである。
なお、文書を利用した場所として、組織などの抽象的な場ではなく、会議室などの具体的な場を用いる。学会や国際会議などの抽象的な場は、開催された都市や施設として扱う。また、ミーティングなら、ミーティングが開催された会議室として扱う。
また、分類キーワードとして、論文に掲載されるような(技術分類に利用される)キーワードを扱う。国際特許分類もこれに含まれる。
また、本発明の第1の側面に係るシソーラス自動構築において、前記重み算出手段は、ある文脈のメタ言語情報に出現する語についての当該文脈における重みを調整するようにしてもよい。
ここで言う調整とは、重みを増加又は減少させることを意味する。語がメタ言語情報に出現するなら重みを減少させるというのは稀なケースであるが、「経済に関する議論ではなく…」などというように、否定的に用いられている場合、「経済」という語の重みをあえて減少させるなどということが考えられる。
また、ここで言うメタ言語情報には、文書のファイル名や、文書が置かれているフォルダ名、文書のタイトル、キーワード、文書の提出先、文書の引用文献、文書の入手場所などが挙げられる。例えば、提出先が「ソフトウェア開発部」である場合、文書は「ソフトウェア」や「開発」という語との関連性が強いとみなして、これら語の重みを増加させるようにしてもよい。また、文書の入手場所が「経済新聞」の場合、その文書は「経済」に関するものである可能性が高いので、「経済」の重みを増加させるようにしてもよい。
このように、文書に付与されたメタ言語情報を活用することで、語の文書に対する重みをより忠実に捉えることが可能となる。メタ言語情報は、文書の社会的文脈でもあり、文書のワークフローの中で付与される社会的文脈としてのメタ言語情報を活用することにより、より個人や組織のワーク・スタイルや嗜好性を考慮したシソーラスを構築することができる。
また、本発明の第5の側面は、文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築する情報処理システムであって、文書集合から語を抽出する語抽出手段と、抽出された各語について、前記第1の文書集合中の文脈での出現頻度に比例する第1の重みを算出する第1の重み算出手段と、抽出された各語について、第2の文書集合で出現する文脈の数(文脈頻度)に反比例する第2の重みを算出する第2の重み算出手段と、各語についての第1の重みと第2の重みを統合して、文脈に対する重みを設定する重み設定手段と、語の各文脈での重みTF−IDFを要素とする文脈ベクトルを生成するベクトル生成手段と、文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出する類似度算出手段と、算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集手段とを具備することを特徴とする情報処理システムである。
本発明の第5の側面によれば、個人若しくは特定の組織の文書集合を用いてTFの計算を行なうとともに、一般の文書集合を用いてIDFの計算を行なうことにより、解析対象となるデータの量に限りがある場合であっても、個人や組織にとって重要な語を重みに正しく反映することができる。この結果、情報の集まりに偏在性のある個人や組織の文書群に対しても、個人や組織にとって重要な語をシソーラスに反映できるようになる。
また、本発明の各側面において、文書集合として日本語文書を扱うとともに、日本語入力のかな漢字変換辞書を備える場合には、前記語抽出手段は、前記かな漢字変換辞書に登録された語も抽出するようにしてもよい。
このような場合、通常の形態素解析ツールでは抽出できない、個人や組織に特有の語や表現、さらには分野に依存した専門用語を、かな漢字変換辞書中のユーザ辞書から抽出することができる。個人や組織の「らしさ」(固有性) はこのような語にこそ現れていることも多く、したがって、本発明により、個人や組織の語彙体系や連想パターンをより高精度に反映したシソーラスの構築が可能となる。
また、本発明の第6の側面は、文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築するための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、文書集合から語を抽出する語抽出ステップと、文書集合から複数の種類の文脈を抽出する文脈抽出ステップと、前記語抽出ステップにおいて抽出された各語について、前記文脈抽出ステップにおいて抽出された文脈毎に重みを算出する重み算出ステップと、語の各文脈での重みを要素とする文脈ベクトルを生成するベクトル生成ステップと、文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出する類似度算出ステップと、算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集ステップとを具備することを特徴とするコンピュータ・プログラムである。
また、本発明の第7の側面は、文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築するための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、文書集合から語を抽出する語抽出ステップと、文書集合から複数の種類の文脈を抽出する文脈抽出ステップと、前記語抽出ステップにおいて抽出された各語について、前記文脈抽出ステップにおいて抽出された文脈内での異なる語間の共起数を算出する共起数算出ステップと、各文脈での共起数に基づいて対応する語間の類似度を算出する類似度算出ステップと、算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集ステップとを具備することを特徴とするコンピュータ・プログラムである。
また、本発明の第8の側面は、文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築するための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、文書集合から語を抽出する語抽出ステップと、文書の属性情報に基づいて、文書を複数のグループに分類する文書分類ステップと、グループ内での語の共起関係に基づいて、語間の類似度を算出する類似度算出ステップと、算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集ステップとを具備することを特徴とするコンピュータ・プログラムである。
また、本発明の第9の側面は、文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築するための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、文書集合から語を抽出する語抽出ステップと、抽出された各語について、特定の個人や組織による個人文書集合中の文脈での出現頻度に比例する重みTFを算出する第1の重み算出ステップと、抽出された各語について、特定の個人や組織によらない一般文書集合で出現する文脈の数(文脈頻度)に反比例する重みIDFを算出する第2の重み算出ステップと、各語についての重みTFとIDFを統合して、文脈に対する重みTF−IDFを設定する重み設定ステップと、語の各文脈での重みTF−IDFを要素とする文脈ベクトルを生成するベクトル生成ステップと、文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出する類似度算出ステップと、算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集ステップとを具備することを特徴とするコンピュータ・プログラムである。
本発明の第6乃至第9の各側面に係るコンピュータ・プログラムは、コンピュータ・システム上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータ・プログラムを定義したものである。換言すれば、本発明の第6乃至第9の各側面に係るコンピュータ・プログラムをコンピュータ・システムにインストールすることによって、コンピュータ・システム上では協働的作用が発揮され、本発明の第2乃至第5の各側面に係る情報処理システムと同様の作用効果を得ることができる。
本発明によれば、テキスト情報を解析し、語と関連語からなるシソーラスを安価に自動構築することができる、優れた情報処理システム及び情報処理方法、並びにコンピュータ・プログラムを提供することができる。
また、本発明によれば、人々の総意に基づく一般的なシソーラスだけではなく、特定の人物や組織の関心や興味、経験に基づく個人のシソーラスを安価に自動構築することができる、優れた情報処理システム及び情報処理方法、並びにコンピュータ・プログラムを提供することができる。
本発明によれば、文脈の数を多くすると同時に、共起ウィンドウの幅に応じて共起度を変動させることで、共起関係を精緻に捉えることが可能となる。これにより、個人や組織の情報群という限られたソース・データを有効に活用し、より個人や組織の直感に合うシソーラスの構築が可能となる。
また、本発明によれば、語の共起関係を捉える際にこれまで利用されることのなかった文書の社会的文脈を活用することが可能となる。文書が実生活で取り扱われることで付与される社会的文脈を活用することで、文脈の数を多くするのみでなく、より個人や組織のワーク・スタイルや嗜好性を考慮したシソーラスを構築することが可能となる。
また、本発明によれば、文書に付与されたメタ言語情報を活用することで、語の文書に対する重みをより忠実に捉えることが可能となる。メタ言語情報は、文書の社会的文脈でもあり、文書のワークフローの中で付与される社会的文脈としてのメタ言語情報を活用することにより、より個人や組織のワーク・スタイルや嗜好性を考慮したシソーラスを構築することができる。
また、本発明によれば、個人若しくは特定の組織の文書集合を用いてTFの計算を行なうとともに、一般の文書集合を用いてIDFの計算を行なうことにより、解析対象となるデータの量に限りがある場合であっても、個人や組織にとって重要な語を重みに正しく反映することができる。この結果、情報の集まりに偏在性のある個人や組織の文書群に対しても、個人や組織にとって重要な語をシソーラスに反映できるようになる。
また、本発明によれば、通常の形態素解析ツールでは抽出できない、個人や組織に特有の語や表現、さらには分野に依存した専門用語を抽出することができる。個人や組織の「らしさ」(固有性)はこのような語にこそ現れていることも多く、したがって、本発明により、個人や組織の語彙体系や連想パターンをより高精度に反映したシソーラスの構築が可能となる。
本発明のさらに他の目的、特徴や利点は、後述する本発明の実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。
以下、図面を参照しながら本発明の実施形態について詳解する。
A.システム構成
図1には、シソーラスを自動構築するための処理手順を模式的に示している。図示の通り、シソーラスの自動構築は、大まかに以下の手順により構成される。
[ステップ1]ソース・データを解析し、シソーラス構築対象の語を抽出
[ステップ2]ソース・データを解析し、文脈を抽出
[ステップ3]語が利用される文脈を示す「語−文脈行列」又は「共起度行列」を構築
[ステップ4]語間の類似度を示す「類似度行列」を構築
[ステップ5]類似度行列を精練させ「概念行列」を構築
[ステップ6]概念行列をシソーラスの形式で書き出し
ステップ1では、ソース・テキストを形態素解析し、出現頻度の極端に多いもの少ないものを削除する。また、あらかじめ定められた不要語リストに従って不要語の削除を行ない、シソーラス登録対象の語の集合を定める。
ステップ2ではソース・テキストを解析し、文脈の抽出を行なう。通常、文や段落、文書を文脈として利用することが多い。
ステップ3では、行列の構築を行うが、行列の種類に応じて二種類のパターンがある。1つは語−文脈行列であり、これは行が索引語に、列が文脈に対応し、(i,j)成分の要素として語 tiの文脈cjでの重みが記述されたものである。語の重みはTF、IDF、又はTF−IDF などが利用される。TFを利用する場合、文脈の大きさによる語の重みの不均等さをなくすため、文脈毎に総和が一定になるよう、語の重みを正規化することもある。他方は共起度行列であり、これは行も列も語に対応する正方行列であり、(i,j)成分の要素として語tiと語tj の共起度が記述されたものである。
なお、情報検索の分野では、行を索引語に列を文書に対応させた、「索引語-文書行列」が扱われることがある。本発明では、列は必ずしも文書に対応する訳ではなく、また、「索引語」という言葉の使い方は、情報検索での索引付けで利用される表現であり、シソーラス構築では必ずしも索引付けを目的とする訳ではない。したがって、上記の通り、本明細書では、「語−文脈行列」と呼ぶことにする。
ステップ4では、ステップ2で構築した行列の各行ベクトル間の類似度を算出し、類似度行列を構築する。類似度行列では、行も列も語に対応し、(i,j)成分の要素としては語tiと語tjの類似度が記述される。但し、ステップ2で共起度行列を作成した場合は、ベクトル間の類似度の算出を行なうことなく、共起度をそのまま索引語間の類似度として利用することもある。この場合、“共起度行列=類似度行列”となる。
ベクトル間の類似度の算出に関しては、内積、Dice係数、Jaccard係数などが利用可能である。また、ベクトル間の類似度を算出するものではないが、場合によっては確率的手法(相互情報量、カイ二乗検定、t検定、対数尤度など)も利用可能である。ベクトル間の類似度、確率的手法に基づく類似度の計算方法に関しては、さまざまなものが提案されている(例えば、非特許文献10を参照のこと)。
ステップ6では、概念行列の各語について類似度の高い語を関連語として集めてシソーラスの形式に書き出しを行なう。
一方、本発明に係るシソーラスの自動構築システムは、以下に示す5種類のアプローチを含んでいる。これらのアプローチと、前述したシソーラスの自動構築手順との対応関係を図2に示している。以下では、本発明に係るシソーラスの自動構築に関する各アプローチについて説明する。
B.共起の拡張概念:粒度の異なる文脈の混在
シソーラス自動構築の技術では、語の共起関係に基づいて関連する語を収集することが多い。ここで、共起の粒度をどのように設定するかという問題がある。異なる語が共起しているとみなす単位ブロック(共起ウィンドウ)のサイズをどのように設定するかという問題である。
例えば、新聞データを解析してシソーラスを構築する際、共起ウィンドウを段落とした場合と、共起ウィンドウを記事とした場合とで、構築されるシソーラスの比較を行なうことができる(例えば、非特許文献15を参照のこと)。共起ウィンドウを記事とした場合は、概念語に対する関連語として直接的な関係を見出すことができないものも抽出することができる。これに対して、共起ウィンドウを段落とした場合には、関連語の数は減るがより尤もらしい関連語が抽出される。
また、段落や文書という文章構成上の構造とは関係なく、語と語がある一定の文字幅の中に出現するか否かということで共起関係をとらえることができる。非特許文献12では、曖昧性解消のためにシソーラスを利用するという文脈の中で、共起ウィンドウの幅をさまざまな粒度に変動させ、最適な共起ウィンドウの幅を得る試みがなされている。
但し、これらの従来技術では、共起ウィンドウの幅は一定であり、異なる語の共起関係の度合いを示す共起度には、共起の回数が用いられる。
これに対し、本発明では、語の共起関係を求める際に、異なる幅の共起ウィンドウの混在を許容する。すなわち、文脈の個数を多くすると同時に、共起ウィンドウの幅に応じて共起度を変動させることで、共起の概念をより精緻に捉え、少量のコーパスから満足のいく個人シソーラスを構築する。したがって、従来方式では共起度が常に自然数で表されるのに対し、本発明では共起度は少数値を取りえる。この枠組みは、これまでの共起関係の捉え方の拡張概念に相当するものと考えることができる。
なお、本発明では、「文脈」という言葉を2種類の意味で用いる。共起ウィンドウの定義方式(テキスト・ブロックの定め方)を指す場合と、ある共起ウィンドウにより定められた個々のテキスト・ブロックを指す場合とである。前者は文脈の集合に対応し、後者は個々の文脈に対応する。これらの違いを明確にする場合には、前者を「文脈集合」と呼ぶことにする。例えば、「異なる幅の共起ウィンドウ」を指し示すものとして「異なる種類の文脈集合」という表現を用いたりする。
図3には、本発明に係る共起度の捉え方を図解している。上述したように、語の共起関係を求める際に、異なる幅の共起ウィンドウの混在を許容するとともに、共起ウィンドウの幅に応じて共起度を変動させる。同図に示す例では、実線で示される狭い共起ウィンドウと、点線で示されるより広い共起ウィンドウが混在している。BodenとP−creativityという語は、実線の枠で示した狭い文脈(共起ウィンドウ)内で共起しているので、共起度は高く設定する。これに対し、Boden、P−creativity、Finkeという各語は、点線の枠で示した共起ウィンドウ内でSharplesと共起しているので、広い文脈で共起しているので、共起度は低く設定する。
共起ウィンドウの取り方としては以下のものが挙げられる。
●文、段落、節、章、文書という文章構造上のセグメント
●文字数、単語数、機能語数という文字や形態素の形式的な幅
●文書間の関連性に基づく文書グループ
ここで、本発明で言う共起の拡張概念として、粒度の異なる文脈を用いて索引語間の類似度をどのように算出するかについて、具体的に説明する。以下では、シソーラス自動構築において、ソース・データを解析し文脈抽出を行なうステップ2において、語−文脈行列を作成する場合と、共起度行列を作成する場合に分けて説明する。
B−1.語−文脈行列を利用する場合
図4に示すように、4種類の異なる文脈から構築された4つの語ー文脈行列があるとする。それぞれの行列をA1、A2、A3、A4とし、列の数(文脈のサイズ)をm1、m2、m3、m4とする。さらには、個々の文脈には重み係数α1からα4が与えられているものとする。これは、どの文脈集合をどれくらい重視するかを示す係数である。
索引語間の類似度の計算方式は、大まかに言えば連接方式と結合方式の2種類がある。
連接方式では、各文脈Ckの行列を重み係数αkで正規化し、行列を連接してから、語(行ベクトル)間の類似度を算出する。
また、結合方式では、各文脈Ckの行列Ak毎に語間の類似度を算出し、重み係数αkをかけて足す。すなわち、各行列での類似度の重み付き線形結合として全体の類似度を表現する。
ここで、ベクトル間の類似度の算出に関しては内積、余弦、Dice係数、Jaccard係数などが利用可能である。また、ベクトル間の類似度の算出ではなく、語の出現確率の偏りをとらえる手法(相互情報量、カイ二乗検定、t検定、対数尤度など)を利用することも可能である。
連結方式と結合方式は同じような結果を示す。但し、連結方式では、類似度は常に0から1の範囲になり、ベクトル空間モデルとも似ていて分り易い。これに対し、結合方式では、利用可能な技術の範囲が広く(語間の類似度の算出において、確率的手法が利用可能である)、また、個々の文脈の効果を別々に調べるのが容易である。
図5には、語−文脈行列を利用する場合のシソーラス自動構築のシステム構成を示している。但し、図1に示したシソーラス自動構築の処理手順のうち、ステップ5は関与しない。
語抽出部は、ソース・データを解析し、シソーラスへの登録対象の語を選定する。まずは、ソース・テキストを形態素解析し、特定の品詞の語を抽出する。抽出する品詞としては、名詞、動詞、形容詞、副詞などの内容語(content words)と呼ばれるものが想定できるが、ここでは説明の簡略化のため名詞を抽出するものとする。次に、抽出した全名詞集合の中から、出現頻度の極端に多いもの、極端に少ないものを除外する。出現頻度の極端に多いものは、どの文書にも現れる情報量の少ない語である可能性が高いためである。また、出現頻度が極端に少ないものは、他の語との共起に関してたまたま共起したというケースが多く、統計的議論が意味を持たないためである。さらに、必要に応じて、あらかじめ用意した不要語リストに参照し、シソーラス構築において不要とみなせる語を除外する。こうして残った語の集合をシソーラスの登録対象の語集合とする。抽出した語集合を以下のように表現する。
Figure 0004525154
文脈抽出部では、ソース・データを解析し、語の文脈を抽出する。この際、種類の異なる複数の文脈集合を切り出す。ここでは、文、段落、文書という3種類の文脈集合の抽出を行なうものとする。抽出した3種類の文脈集合を以下のように表現する(文脈数はそれぞれm1、m2、m3とする)。
Figure 0004525154
重み算出部では、各語の各文脈に対する重みを算出する。ここで、語tiの文脈ck jでの重みak ijの決定方法としてさまざまな方式が提案されているが(例えば、非特許文献1を参照のこと)、ここでは出現頻度(TF)を利用するものとする。すなわち、重みak ijを語tiの文脈ck jでの出現頻度とする。
重み算出部で算出された語の文脈に対する重みは、何らかのデータ構造で保持する必要がある。重み保持部では、語の文脈に対する重みを保持するデータ構造として行列表現を利用するものとする。下式のように、行が語集合Tに対応し、列が文脈集合Ckに対応し、各行列の行列要素ak ijが語tiの文脈ck jでの重みに対応するような行列A1、A2、A3を作成する。
Figure 0004525154
ここでは説明の簡略化のため、重み保持部でのデータ構造を行列表現としたが、必ずしも行列により語と文脈間の重みを管理する必要はない。むしろ、実装では、行列表現はメモリ効率が悪いため、これを改善するための工夫が必要となる。例えば、語−文脈行列の要素の大半が0である点を考慮し、0の要素を省略してメモリ管理し、行列表現のメモリ効率を向上させる。要は、次に説明するベクトル生成部において、語間の文脈ベクトルが生成できるよう語と文脈の間の重みが管理されていればよい。
重み保持部では、個々の行列A1、A2、A3が生成された後、重み係数α1、α2、α3により連接を行なう。まずは、各行列 の各列の総和がαkになるよう正規化を行なう。これは、各行列内での文脈の扱いを均等にすると同時に、各行列をαkで重み付けすることに相当する。次に、行列A1、A2、A3を横に連接し、下式に示しように、新たな行列A(n行m1+m2+m3列)を作成する。
Figure 0004525154
ここでは説明の簡略化のため、個々の行列A1、A2、A3を生成してから連接を行なったが、これは実装上の問題であり、実際には最初から1つの行列で実装しても問題はない。但しこの際、各列をどのように正規化するかを知るため、各列がどのような種類の文脈のものであるかを保持することが必要となる。また、文脈毎の行列を連結することなく、次に説明するベクトル生成部において、個々の行列が取得したベクトルを連接してもよい。
ベクトル生成部は、各i,j(0≦i,j≦n)について、連接してできた行列Aからi行とj行のベクトルを生成する。これは語tiとtjの個々の文脈での重みのベクトルであり、語の文脈ベクトル又は特徴ベクトルなどという言葉で表せるものである。生成したベクトルu,vを下式のようにする(m=m1+m2+m3とする)。
Figure 0004525154
類似度算出部は、行列Aから生成したi行のベクトルuとj行のベクトルvの間の類似度を算出する。これは語tiとtjの類似度(語が利用される文脈の等しさとも表現できる)に相当するものである。ベクトル間の類似度の算出方式としてはさまざまなものが提案されているが、ここでは広く利用されているベクトル間の余弦を利用する。ベクトルu,vの余弦は下式のようにして定義される。
Figure 0004525154
このようにして、ベクトル生成部でのベクトルの生成、類似度算出部での類似度の算出を各i,j(0≦i,j≦n)について繰り返し、すべてのベクトル間の類似度の算出を行なう。
このようにして算出されたベクトル間の類似度は、類似度保持部において保持される。ここでは行列形式で保持することとし、これをRと表す。行列R=(rij)(0≦i,j≦n)は、行、列ともに語集合T に対応し、rijは語tiと語tjの類似度である。
ここでは、説明の簡略化のため、すべての語の組について類似度を算出し終えてから関連語の収集を行なうものとしているが、必ずしもそのように行なう必要はない。ある語についてその他すべての語との関連度を算出し、その都度シソーラスに書き出すようにすれば、データ構造はリストでよいし、その方がメモリ効率もよくなる。
関連語収集部は、行列Rを参照しながら、各語ti(0≦i≦n)についてti との類似度があらかじめ定められた閾値γより大きな語を収集し、これを類似度の順に降順にソートする。それをシソーラス形式に表現したものがシソーラスであり、語ti についての関連語が関連度の大きな順に関連度付きで保持されることになる。
なお、類似度行列Rは対称行列であることが最初から分っているので、上三角部分の要素だけを計算し、それを下三角部分にコピーすることにより、類似度算出のコストを大幅に減少させることができる。
以上、図5に示したシソーラス自動構築システムを構成する機能モジュール毎の処理動作について説明してきた。図6には、このシソーラス自動構築システム全体についての処理手順をフローチャートの形式で示している。
まず、ソース・データを形態素解析し、シソーラス掲載の語を抽出する。次いで、文書の粗い構文解析を行なった後、ソース・データから文脈を抽出する。
そして、各語の各文脈に対する重みを算出し、これを行列形式で保持する。文脈に対応する複数の行列においてあらかじめ与えられた文脈に対する重みで対応する行列を正規化し、連結を行なう。これは複数の文脈にまたがった大きな文脈ベクトルを生成するためである。
次いで、語間の類似度を算出するため、連結した行列から語に対応する文脈ベクトルを取り出し、ベクトル間の類似度を算出する。
最終的には、語と類似度の高い語を収集し、シソーラス形式に書き出すことになる。
図7には、図6に示した処理手順のうち、語−文脈行列から類似度行列を生成するためのより詳細な処理手順をフローチャートの形式で示している。同図では、語−文脈行列から類似度行列Rを生成する流れを示している。ここでは、類似度行列の上三角部分を生成し、それを下三角にコピーする場合について説明する。
まず、語集合Tから語tiを選んで、iより大きなすべてのjに対して語tjとの類似度を算出する。これをすべてのiについて行ない、行列Rの上三角部分の要素を設定する。最終的には、Rの上三角部分を下三角部分にコピーし、語間の類似度を保持する類似度行列Rを完成させる。
図8には、図5に示したシソーラス自動構築システムの変形例を示している。図示のシステムは、類似度統合部をさらに備えている点や、重み保持部での重みの管理方法、ベクトル生成部並びに類似度算出部における処理動作の点で上述したシステムとは相違する。
重み保持部では、上記の[数3]に示したように、文脈の種類毎に分離した形で重みの管理を行ない、行列の連接は行なわない。また、正規化は、各文脈の重み係数にて行なうのではなく、列の総和がすべて1になるように正規化する。但し、文脈の種類が異なっても列の総和がすべて同じということが重要であり、必ずしも列の総和が1である必然性はない。
ベクトル生成部では個々の行列からベクトルを生成し、類似度算出部では個々の行列内でのベクトルの類似度を算出し、類似度統合部では複数の類似度を統合的に扱い、1つの数値からなる類似度を生成する。以下では、これを具体的に説明する。
上記の[数3]で示したように、3種類の文脈から構成された行列をA1、A2、A3とする。語tiと語tjの類似度を算出する際、まず各行列Akからi行とj行のベクトルuk i,uk jを取り出し、先と同じ余弦により類似度rk ijを算出する。次に、異なる文脈の類似度を統合した最終的な語tiと語tjの類似度rijを下式のように線形結合で定義する。
Figure 0004525154
ここで、αiは各文脈の重み係数である。また、ここでは異なる文脈を統合した類似度を線形結合にて定義したが、その他、以下のようなものが考えられる。
Figure 0004525154
図9には、図5に示したシソーラス自動構築システムについてさらに他の変形例を示している。図示のシステムは、重み算出部が出現算出部に代わり、重み保持部が出現保持部に代わり、ベクトル生成部を持たない点で、図6に示したシステム構成とは相違する。また、類似度算出部は、図6に示した該当機能モジュールとは類似度の算出方法が相違する。
図9に示すシステムでは、語間の類似度の算出において確率的手法を利用する。この際、語が文脈に出現するか否かが重要であり、語の文脈に対する重みは重要ではない。出現算出部と出現保持部は、この点を踏まえ、図5並びに図8に示した重み算出部並びに重み保持部を簡略化したものである。
出現算出部では、語の文脈での出現のみを算出し、重みの算出は行なわない。また、出現保持部では、上記の[数3]に示したように、文脈の種類毎に分離した形で重みの管理を行ない、行列の連接は行なわない。図8に示したシステムとの相違点として、重み保持部では行列要素が小数になるのに対して、図9に示したシステムでは語が文脈に出現するか否かの0か1が保持されることになる。
また、図8に示したシステムと同様に、類似度算出部では個々の行列内(文脈内)で語間の類似度を算出するが、類似度の算出においてはベクトル間類似度ではなく確率的手法を利用する。確率的手法としては、相互情報量、カイ二乗検定、t検定、対数尤度など、さまざまなものが利用可能であるが、ここでは相互情報量を利用する。一般に、相互情報量は出現頻度の高い語同士に関してはよい結果を示すが、出現頻度の低い語同士については過度に見積もる傾向があることが知られている。その理由により、語間の類似度の算出において対数尤度を利用されることがある(非特許文献6を参照のこと)。
個々の行列内での語tiの出現確率をP(ti)、語tiと語tjの共起確率(同時に出現する確率)をP(ti&tj)とすると、語tiと語tjの相互情報量は下式のようにして定義される。
Figure 0004525154
行列毎に算出された語間の類似度の統合は類似度統合部において行なわれるが、その処理は、図8に示したシステムの場合と同様である。
B−2.共起度行列を利用する場合
共起度行列の場合も基本的な方式は語−文脈行列の場合に似ている。図10には、異なる文脈から構築された4つの共起度行列を示している。図示のように、共起度行列においては、行、列ともに語に対応する正方行列となり、行列要素には2つの語の個々の文脈内での共起数が記述される。
ここで、Aiの要素がTFで定められている場合、Bi=Ai×Ai t(AiとAiの転置行列の積)という関係が成立する。語の重みの設定がTF−IDFを用いたり、後で説明する「文書のメタ言語情報の活用」、「語の重みの計算方法」により文脈における語の重みに調整が加えられる場合でも、Ai×Ai tをBiとおくことで、共起数での行列要素の定め方より精緻な語間の関係をとらえることができる。本明細書ではこれを「共起度」と呼んでいる。共起度行列Biは語−文行列Aiとその転置行列Ai tの積に相当することから、語−文脈行列を利用する場合よりも、共起度行列を利用する場合の方が、語間の強弱の関係をより顕著にとらえていると言える。
索引語間の類似度の計算方式は、語−文脈行列での方式(連接方式、結合方式)に加えて、下式に基づく方式も可能である。
Figure 0004525154
上式のように行列を重み係数で線形結合し、行列Bを作る。その結果の行列がそのまま類似度行列となり、(i,j)成分の要素が語tiと語tjの類似度となる。若しくは、Bの行毎にベクトル間の類似度を算出し、それを語間の関連度として利用することも可能である。
共起度行列を利用する場合のシソーラス構築のシステムは、図5に示した語−文脈行列を利用するシソーラス構成システムとの相違点として、類似度統合部をさらに備えていることが挙げられる。また、重み保持部での重みの管理方法や、ベクトル生成部並びに類似度算出部における処理手順が図5に示したシステムとは異なる。
ここで、前項B−1と同様に、3種類の異なる種類の文脈C1,C2,C3を想定する。
共起数算出部では、各文脈ck i(0≦k≦3,0≦i≦mi)毎に文脈内での任意の2つの語ti,tj(0≦i,j≦n)の共起数bk ijを算出する。
共起数保持部では、データ構造として行列を利用し、文脈毎に行も列も語集合Tに対応し、行列要素としては語間の共起数が格納された行列B1,B2,B3で共起数を管理する。
Figure 0004525154
次に、共起数保持部では、個々の行列B1,B2,B3が生成された後、重み係数β1,β2,β3でそれぞれ正規化し、連接を行なう。まず、各行列の各列の総和がβkになるよう正規化を行なう。これは、各行列内での文脈の扱いが均等にすると同時に、各行列をβkで重み付けすることに相当する。次に、行列B1,B2,B3を横に連接して新たな行列B(n行3×n列)を作成する。
Figure 0004525154
以降、行列Bを用いて、ベクトル間の類似度を算出することで語間の類似度を定める方法は、図5に示した語−文脈行列を利用するシソーラス構築システムの場合と同様である。図5に示した実施形態で行列Aを上記のBに置き換えればよい。
また、共起度行列を利用するシソーラス構築システムは、図8に示した語−文脈行列を利用するシステム構成と同様に、重み算出部と重み保持部をそれぞれ共起数算出部及び共起数保持部に置き換えて構成することができる。
この場合、共起数算出部における処理動作は上述と同様である。また、共起数保持部では、上記の式[数11]に示したように、文脈の種類毎に分離した形で共起数の管理を行ない、重み係数による正規化、行列の連接は行なわない。
その他、利用する行列の記号(AkがBkに)、行列の重み係数の記号(αkがβkに)が変わる以外は図8に示したシステムと同様である。
図11には、共起度行列を利用したシソーラス構築システムについての変形例を示している。
ここでも、前項B−1と同様に、3種類の異なる種類の文脈C1,C2,C3を想定する。
語抽出部、文脈抽出部、並びに共起数算出部の処理動作は上述と同様である。
また、共起数保持部では、上記の式[数11]で示したように、文脈の種類毎に分離した形で共起数の管理を行ない、行列の連接、重み係数による正規化は行なわない。
共起数統合部は、共起数保持部での3つ行列B1,B2,B3を重み係数β1,β2,β3で線形結合し、新たな行列Bを作成する。
Figure 0004525154
行列Bは行、列ともに語集合Tに対応し、(i,j)成分の要素は語tiと語tjの異なる文脈での共起数の統合値になる。これを類似度としてそのまま利用し、類似度保持部では、この情報を保持する。
関連語収集部における処理動作は、上述と同じである。
図11に示した共起度行列を利用したシソーラス構築システムについての変形例として、ベクトル生成部と類似度算出部をさらに備えることができる。
ベクトル生成部は、図11に示した共起数統合部により算出された行列Bから語tiと語tjに対応するベクトルu,vを生成する。
また、類似度生成部における語間の類似度の算出方法は、図5に示したシステムの該当機能モジュールと同様である。
また、共起度行列を利用したシソーラス構築システムについてのさらに他の変形例として、共起数算出部における共起数の算出方法を変更することができる。
図5に示したシソーラス構築システムの重み保持部での行列A1、A2、A3の重みがTFで算出されているとき、各行列とその転置行列の積Ak×Ak tの(i,j)成分の要素は語ti,tjの共起数となる。これを一般化し、TFでの重み算出以外の場合も含め、共起度算出部ではAk×Ak tの(i,j)成分で語ti,tjの共起度を定義する。そして、共起度保持部では、この情報を保持する。
共起度行列を利用するシソーラス構築システムにおいて、BkをAk×Ak tとして算出する以外は、語−文脈行列を用いるシステム構成の場合と同様である。
C.文書の社会的文脈の活用
文書は社会的産物である。文書がどのような人にどのような状況で作成され、どのような場所で利用されたか、どのような経路で流通されたか、などといった文書に付随する属性情報はどれも、文書の持つ社会的文脈の1つである。換言すれば、文書が持つ属性は文書に出現する語の文脈すなわち社会的文脈であるとも言える。
例えば、ファイル(文書)は通常、フォルダ(又はディレクトリ)と呼ばれる階層構造に分類されて管理される。異なるファイルが同一のフォルダに分類された場合、それはユーザが「これらファイルは同種のものである」というメッセージを分類という操作を通して埋め込んだと考えることができる。
また、1人の人間の活動を考えると、ある時期はユーザ・インターフェースの研究に従事し、その後、自然言語処理の研究に携わる、などというように、1人の人間の活動や興味は長いスパンで見ると緩やかに変化することが多い。このように考えると、時間的に近い時期に作成された2つの文書は、時間的に離れた時期に作成された2つの文書よりも関連性が強い可能性が高い。
さらには、組織図上で同じグループに属す人の作成した2つの文書は、異なるグループに属す人が作成した2つの文書よりも関連性が強いことが予想できる。
このように、文書はそれが作成、利用される文脈を持ち、この文脈を基に文書間の関連性を予想することは妥当のことであると本発明者らは思料する。文書は、上述したように、保管場所や作成時期などの属性、すなわち社会的文脈に基づいた暗黙の関連性を持っていると言うことができる。
従来のシソーラス自動構築技術はいずれも、文書が持つこのような社会的文脈を切り離し、テキストの表層的関係のみを扱ってきた。これに対し、本発明者らは、文書の社会的文脈を考慮してシソーラスを構築することにより、文脈の数を増やすだけでなく、個人のワーク・スタイルや好みをより強く反映したシソーラスの構築が可能と考える。とりわけ、データの絶対量が不足する個人シソーラスの構築においては、文書の社会的文脈を考慮することは有益であると考えられる。
図12には、文書の社会的文脈について例示している。図示の例では、同一のフォルダに異なるファイルA及びBが分類されている。ここで、これらのファイルA及びB内でともにBoldon及びFinkeという語が出現したとする。
共起ウィンドウの幅が1つの文書を超えない従来の手法では、図12に示した例では「共起しない」とみなされる。これに対し、本発明では、このような文書が持つ社会的文脈をシソーラス構築に積極的に利用する。したがって、「狭い文脈での共起はないものの、広い文脈で共起している」、すなわち、「共起度は低いが、共起している」とみなすことができる。また同様に、時間的に近い日時に作成された異なる文書に出現する2つの語も「広い文脈で共起している」とみなすことができる。
文書が持つ社会的文脈をシソーラス構築に積極的に取り入れることにより、語の文脈を広くとらえ、語の文脈を増やすことで、語の利用のされ方に関する統計的有意性が出易くすることができる。但し、文書の社会的文脈を利用する効果は決してこれだけにとどまるものではない。フォルダを用いた文書の分類の仕方は人それぞれに異なる、すなわち個人の活動のスタイルや好みに依存する。したがって、語の共起関係にこのような文脈を活用することで、その人のワーク・スタイルや好みを反映した、よりパーソナルな(その人らしい)シソーラスの構築を実現することができる。
文書が持つ社会的文脈として利用できるものを、以下に列挙しておく。例えば、人が文書を思い出す文脈として何を利用するかということを分析することにより(例えば、非特許文献3並びに非特許文献4を参照のこと)、社会的文脈を得ることができる。
Figure 0004525154
上記に示した社会的文脈のうち、1から5は一般に、ファイル・システム又はファイルの属性として、現行のオペレーティング・システム(OS)で自動的に情報の取得が可能である。これに対して、6以降は文書に対するメタデータを必要とすることもある。
図13には、社会的文脈を利用したシソーラス自動構築システムの構成例を模式的に示している。図示のシステムでは、社会的文脈としては、「文書」や「文書の置き場所(フォルダ階層)」、「文書の登録日時」などを利用することができる。
語抽出部では、図5に示したシソーラス自動構築システムの場合と同様に、ソース・データを解析し、シソーラス登録対象の語を抽出する。
文書分類部は、文書に付随する属性を基に、文書の分類を行なう。具体的には、文書の置き場所(フォルダ階層)や、登録日時などを基に分類を行なう。文書の置き場所を基に分類する場合は、文書のファイル・パスを利用し、同一フォルダに属すファイルのグループとして分類を行なうことができる。勿論、2階層以上のフォルダに関して分類することも可能である。また、登録日時を基に分類を行なう場合は、同じ週、月、年毎の分類が可能である。ここでは、月での分類を想定する。グループに交わりがないよう完全に月で分類してもよいが、その場合3月31日と4月1日は1日しか違わないのに異なるグループに分類されてしまうことになる。そこで、ここではグループの交わりを許し、登録日時の幅が1ヵ月以内という条件で分類を行なう。このようにすることで、1つの文書は複数のグループに属すことになり、グループ(文脈)の数も増える。
文脈抽出部は、文書分類部での分類体系も含め、文脈(すなわち文書が持つ社会的文脈)の抽出を行なう。ここでは、「文書」、「文書の置き場所(フォルダ階層)」、「文書の登録日時」の3種類の文脈を想定し、これを以下のようにC1,C2,C3とする。
Figure 0004525154
ここで、文脈集合「文書」C1 は、文書集合がそのまま文脈集合となるためm1=nという関係が成立する。文脈集合「文書の置き場所」C2と「文書の登録日時」C3は、文書を分類したものが文脈集合となるため文脈数は文書数lよりも小さくなり、m2≦l,m3≦lという関係が成立する。
上述した以外の機能モジュールについては、図5に示したシソーラス自動構築システムの該当モジュールと同様に実現することができるので、ここでは説明を省略する。また、上述したような方法により文書グループも含めた文脈の抽出を行なった後は、図5、図8、図9に示したシソーラス自動構築システムにおけると同様の類似度計算方法を適用することができる。
最後に、社会的文脈の取得方法について説明しておく。文書(ファイル)の作成日時や、更新日時、参照日時、ファイル・タイプに関しては、通常のOSではファイルの属性として付与されているので、それを利用すればよい。その他は、本実施形態においては基本的に文書の付属情報として最初から付与されていることを前提としている。なお、キーワードや論文の概要の下などに付与されているものを想定している。また、情報箱(登録商標)のように検索の手がかりとして付与されるものもある。前後のイベントは、ファイルの日時属性を基に、ソフトウェアのスケジュール帳から、その前後の日時のイベントを取得したり、Web 上でのニュース情報から前後のイベントを取得したりする。
D.文書のメタ言語情報を活用したシソーラスの自動構築
前節Cでは、文書に与えられるさまざまな属性の利用を検討したが、中でも属性値として言語情報が与えられることも少なくない。ここでは、それを効果的に活用することを考える。
文書の言語属性の典型例として、ファイルにおけるファイル名、ファイルの属すフォルダのフォルダ名を挙げることができる。ファイル名はファイルの内容を説明する象徴的な属性であると考えれば、ファイル名で利用されている単語は、その文書の特徴を表す重要な語であると判断するのは妥当なことである。また、複数のファイルをまとめたフォルダのフォルダ名で利用されている単語は、複数の文書を束ねる象徴的な語であると考えることができる。したがって、シソーラスの自動構築に活用できるメタ言語情報として以下のようなものを挙げることができる。
●ファイル名
●文書の属すフォルダ名、パス名
●文書のタイトル
●文書のキーワード
●文書の利用目的
●文書で引用している他の文書の書誌情報
メタ言語情報としてファイル名を使用する場合を例に説明する。文書内の語がファイル名にも出現する場合、それは「その語が文書内で重要な位置をしめる」と考えることにする。これをシソーラス構築にどのように反映させるかを説明する。
まず、語−文脈行列を利用してシソーラスの自動構築を行なう場合について説明する。語tiが文書djのファイル名に出現する場合、図4に示した行列A3の(i,j)成分に1より大きな係数αをかける、又は0より大きな係数α'を加える。
また、共起度行列を利用してシソーラスの自動構築を行なう場合には、語tiが文書djのファイル名に出現したら、図10に示した行列B3のi行の各成分に1より大きな係数βをかける、又は0より大きな係数β'を加える。さらに、各共起度行列は対称行列であるので、行列B3も対称行列にする。
文書のメタ言語情報を活用したシソーラス自動構築システムは、図13に示したものと同様のシステム構成となる。
この場合、重み算出部では、図13に示した実施例と同様、3種類の文脈C1(文書)、C2(文書の置き場所)、C3(文書の登録日時)について、語の個々の文脈に対する重みを算出する。行が語集合T、列が各文脈Ckに対応し、要素が語の文脈に対する重みとなる3つの行列A1,A2,A3を作成する([数3]を参照のこと)。
次に文書を文脈とするC1に関して、文書のファイル名に出現する語の重みを増加させる。まず、ファイル名を形態素解析し、図5に示した実施形態の場合と同様、名詞を抽出する。但し、形態素解析処理は必須ではなく、例えばパターンマッチで出現をチェックするという方法でもよい。そして、文書c1 j(=dj)のファイル名に出現する語集合をTjとする。すべての語集合Tの個々の語tiについて、それがk番目の文書のファイル名の語集合Tjにも出現する場合、行列A1の要素a1 ijの値を増加させる。増加の方法としては、重み係数γをかけたり、足したり、又はべき乗するなどということが考えられる。これにより、語tiの文脈c1 jに対する重要性を増加させたこととなる。
重み算出部で実行される処理手順について、フローチャートの形式で図14に示しておく。
E.語の重みの計算方法
情報検索の技術領域では、文脈における語の重みを算出する際、文脈を特定付ける程度を示す「特定性(specificity)」と、文脈を漏れなく抽出する「網羅性(exhaustivity)」の重要性が指摘されている。ちなみに、前者が検索の「精度(precision)」の向上に関わる指標で、後者が「再現率(recall)」に関わる指標である。
しばしば利用される指標として、前者に出現文脈が小さいほど高い値を示す(若しくは語の偏在性を示す)IDF、後者に語の出現頻度TFとがあり、これらを組み合わせたTF−IDFが経験的に効果的な重み付け手法とされている(例えば、非特許文献11を参照のこと)。
しかし、個人が自らの興味や関心、仕事に基づいて作成、収集した文書に対して、IDFをそのまま適用することには問題がある。個人の蓄積する文書集合は、一般的なものと比べて、その内容について偏在性が高い。そのような個人の文書集合の中で出現文書頻度が高い語tがあったとして、語tがIDFの指標に基づいて重要でない(特定性が低い)と判断するのは妥当でない、と本発明者らは考える。何故ならば、一般的な文書では偏在する語であっても、個人文書では、その個人が持つ専門性ゆえに偏在しないことがありえるからである。
語tは、一般的な意味で高頻度で利用される重要性の低い語ではなく、その人にとって非常に重要な言葉であるがために高頻度で利用されたのかもしれない。例えば、個人が属す組織や研究プロジェクト、共同研究者の名前などがそれにあたる。このような語についてIDFを利用することで、その重要性が落とされてしまっては、その人らしさを表現するものとしての個人シソーラスの意義は消えてしまう。
このような問題に対処するため、本実施形態では、個人の文書集合(これを「個人文書集合」と呼ぶことにする)の他に、世の中の全文書集合の中からランダムに抽出した文書集合(これを「一般文書集合」と呼ぶことにする)を別途用意し、語のIDFについては一般文書集合でのIDF値を利用することとする。さらに、個人文書集合から算出したTF値と一般文書集合でのIDF値を組み合わせてTF−IDFを利用することを考える。これにより、一般文書集合では使用頻度は低く、個人文書集合において使用頻度が高い語が重要視されるという語の重み計算を実現することができる。一般文書集合として、実際には、ニュース記事や統計言語処理用に提供されているコーパスを利用することができる。
通常のTF−IDFでは、TFもIDFも同じ文書集合(この場合は個人文書集合)から算出される。これに対し、本実施形態では、TFとIDFは、異なる文書集合から算出されたものを利用するという点で相違する。
図15には、上述した語の重み計算方法を利用したシソーラス自動構築システムの構成例を示している。図示のシステムは、個人シソーラス構築用の個人文書集合の他に、IDFの計算用に一般文書集合並びに一般語抽出部をさらに備えているという点で、図5に示したシステム構成と相違する。また、重み抽出部における語の重み計算の処理手順が他の実施形態と相違する。なお、一般文書集合と対比させ、ソース・データである個人組織や文書集合を一般文書集合と呼ぶ。
一般語抽出部は、一般文書集合を解析して、語とその文書頻度(語が出現する文書の頻度)を計算する。まず、テキストを形態素解析し、名詞を抽出する。語抽出部とは異なり、頻度に応じた切り捨てや不要語リストに掲載されている語の削除を行なわず、すべての語を抽出する。そして、抽出した語について、下表のような語とその出現文書数からなる文書頻度テーブルを作成する。ここで言う文書の単位は、必ずしもファイルに限定されることはなく、ニュースの記事や段落など、テキストの意味的な塊であれば何でもよい。
Figure 0004525154
重み算出部では、各語の各文脈に対する重みを算出する。ここで、一般文書集合での文書頻度に反比例して重みが増加するような重みの算出方法として、語tiの文脈ck jでの重みak ijを下式のように定める。ここで、Nは一般文書集合での全文書数であり、dfiは一般文書集合での語tiの文書頻度である。
Figure 0004525154
また、重み算出部では、下式に示す重みの算出方法を用いることもできる。ここで、tfijは語tiの文脈ck jでの出現頻度、Nは一般文書集合での全文書数、dfiは一般文書集合での語tiの文書頻度である。
Figure 0004525154
F.個人的な語の取得を利用したシソーラスの自動構築
個人のメモや日記、電子メールのような文章は、個人や特定の組織内でのみ通用する造語や略語、専門用語が利用されることがある。このような単語は形態素解析の辞書に登録されていないため抽出されることはない。しかし、このような個人的な語や専門用語にこそ、個人や組織の特徴が表現されており、個人シソーラス構築の観点からは抽出が欠かせないものである。ここでは、このような個人的な語や分野に依存した専門用語を取得するための方式について説明する。
通常、コンピュータでの日本語入力では、かな漢字変換を利用する。かな漢字変換のシステムでは、かな漢字変換辞書を持つが、このかな漢字変換辞書はユーザがカスタマイズを可能にするため、ユーザ辞書を保持することが可能である。
ユーザ辞書にはかな漢字変換辞書に登録されていない語がユーザにより登録されるため、ユーザ独自の表現や語、分野に依存した専門用語が多数登録されることとなる。さらに、ユーザ辞書は日本語入力の生産性に大きな影響を与えるため、ユーザにより日常的にメンテナンスされることが多い。本実施形態では、シソーラス構築において個人的な語や専門用語を取得するため、かな漢字変換におけるユーザ辞書を活用することを考える。
かな漢字変換システムは、標準的に装備される一般辞書とユーザ辞書が独立しても受けられることもあれば、これらを統合して単一の仮名漢字変換辞書を持つこともある。ここでは、便宜上、仮名漢字変換時書中でユーザによってカスタマイズされた部分をユーザ辞書と呼ぶことにする。
図16には、かな漢字変換システムから取得された個人的な語を利用したシソーラス自動構築システムの構成例を示している。図示のシステムは、かな漢字変換辞書保持部が装備されている点、並びに語抽出部における処理動作が図5に示したシソーラス自動構築システムと相違する。
通常、日本語入力システムにおけるフロントエンドに相当するかな漢字変換ツールでは、ユーザ毎のカスタマイズが必要なようユーザ辞書を保持している。ユーザ辞書のデータ構造は、かな漢字変換ツールにより異なるが、少なくとも語とその品詞を保持するのが普通である。下表には、かな漢字変換用の辞書テーブルの構成例を示している。
Figure 0004525154
実際には、かな漢字変換の辞書としては、どの入力をどのように変換するかを決定するため「読み」も管理される必要がある。また、かな漢字変換ツールによっては、学習の条件やコメントを保持することも可能である。但し、本発明を実現する上では、最低限「語」と「品詞」があれば十分である。汎用のかな漢字変換ツールのユーザ辞書と共有という形式をとるか、それを独自の形式に変換するかは実装の問題である。
語抽出部は、ソース・テキストを形態素解析し、名詞を抽出する。その際、辞書テーブルに記載の語も抽出するようにする。通常、形態素解析ツールは形態素の辞書を独自に保持している。そこで、その形態素辞書にかな漢字変換辞書保持部のテーブルを取り込むようにする。また、形態素解析ツールで抽出できなかった語を改めてかな漢字変換辞書保持部のテーブルで検索し、掲載されていたら抽出を行なうようにしてもよい。
以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。
本明細書では、量的に限定された、個人や組織に限定された特殊な語や非文法的な記述を含むテキストを解析し、個人の語彙体系、連想パターンを模倣する個人シソーラスを自動構築する場合を例にとって、本発明の実施形態について説明してきた。但し、本発明の要旨は個人シソーラスの構築に限定されるものではない。汎用のシソーラスの構築においても、本発明の方式はシソーラスとしての精度の向上に貢献することができる。
また、本明細書では、概念語と関連度付きの関連語集合の組からなる概念の集合として構成されるシソーラスの自動構築について説明してきた。すなわち、個々の概念が下に示すように表現された概念の集合からなるシソーラスを構築することができる。ここで、“りんご” は概念を表す「概念語」(「見出し語」と呼ぶこともある)、“赤い”、“丸い”、“すっぱい”は概念語と関連する語であることを表す「関連語」(「属性値」又は単に「属性」と呼ぶこともある)であり、関連語に付与された数値は概念語と関連語との関係の強さを示す「関連度」である。
りんご:{(赤い,0.4),(丸い,0.3),(すっぱい,0.1),…}
しかしながら、概念語と関連度付きの関連語集合に関する枠組みは関連度を省略又は削除したタイプのシソーラス(すなわち、関連度を取り除いたもの)に対しても適用可能である。すなわち、本発明が対象とするシソーラスの最小構成要素は、概念語と関連語集合の組からなる概念の集合である。
要するに、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本発明の要旨を判断するためには、冒頭に記載した特許請求の範囲の欄を参酌すべきである。
図1は、シソーラスを自動構築するための処理手順を模式的に示した図である。 図2は、本発明に係るシソーラス構築のアプローチとシソーラスの自動構築手順との対応関係を示した図である。 図3は、本発明に係る共起度の捉え方を説明するための図である。 図4は、異なる文脈から構築された4つの語-文脈行列を示した図である。 図5は、語−文脈行列を利用する場合のシソーラス構築のシステム構成を示した図である。 図6は、図5に示したシソーラス自動構築システム全体の処理手順を示したフローチャートである。 図7は、語−文脈行列から類似度行列を生成するためのより詳細な処理手順を示したフローチャートである。 図8は、図5に示したシソーラス自動構築システムの変形例を示した図である。 図9は、図5に示したシソーラス自動構築システムについてさらに他の変形例を示した図である。 図10は、異なる文脈から構築された4つの共起度行列を示した図である。 図11は、共起度行列を利用したシソーラス構築システムについての変形例を示した図である。 図12は、文書が持つ社会的文脈の一例を示した図である。 図13は、社会的文脈を利用したシソーラス自動構築システムの構成例を模式的に示した図である。 図14は、文書のメタ言語情報を活用する場合の重み算出処理の手順を示したフローチャートである。 図15は、異なる文書集合から算出されたTFとIDFを用いた語の重み計算方法を利用したシソーラス自動構築システムの構成例を模式的に示した図である。 図16は、かな漢字変換システムから取得された個人的な語を利用したシソーラス自動構築システムの構成例を模式的に示した図である。

Claims (22)

  1. 文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築する情報処理システムであって、
    文書集合から語を抽出する語抽出手段と、
    文書集合から複数の種類の文脈を抽出する文脈抽出手段と、
    前記語抽出手段により抽出された各語について、前記文脈抽出手段により抽出された文脈毎に重みを算出する重み算出手段と、
    語の各文脈に対する重みを基に、同じ傾向を示す語が高い類似度を示すように語間の類似度を算出する類似度算出手段と、
    算出された語間の類似度に基づいて、個々の語について類似度の高い語を関連語として収集する関連語収集手段と、
    を具備することを特徴とする情報処理システム。
  2. 前記類似度算出手段は、語の各文脈での重みを要素とする文脈ベクトルを生成し、文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出する、
    ことを特徴とする請求項1に記載の情報処理システム。
  3. 前記類似度算出手段は、語の各種類の文脈での重みを要素とする文脈ベクトルを生成する、
    ことを特徴とする請求項2に記載の情報処理システム。
  4. 前記類似度算出手段は、個々の文脈毎に、語の各文脈での重みを要素とするベクトルを生成し、
    文脈毎の語間の類似度を統合して統合的類似度を算出する類似度統合手段をさらに備え、
    前記関連語収集手段は、統合的類似度に基づいて個々の語について関連度の高い語を関連語として収集する、
    ことを特徴とする請求項2に記載の情報処理システム。
  5. 前記類似度算出手段は、前記語抽出手段により抽出された各語について、前記文脈抽出手段により抽出された各文脈での出現数を基に出現確率を算出し、同種類の文脈内での前記出現確率に基づいて語の類似度を算出して、文脈毎の語間の類似度を統合して統合的類似度を算出する、
    ことを特徴とする請求項1に記載の情報処理システム。
  6. 前記類似度算出手段は、各語の各文脈における出現頻度に基づいて算出された重みを表現した行列AとAの転置行列を掛け合わせたものの対応する要素からなる共起度を類似度として算出する、
    ことを特徴とする請求項1に記載の情報処理システム。
  7. 文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築する情報処理システムであって、
    文書集合から語を抽出する語抽出手段と、
    文書集合から複数の種類の文脈を抽出する文脈抽出手段と、
    前記語抽出手段によって抽出された各語について、前記文脈抽出手段によって抽出された文脈内での異なる語間の共起する数を算出する共起数算出手段と、
    各文脈での共起する数に基づいて対応する語間の類似度を算出する類似度算出手段と、
    算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集手段と、
    を具備することを特徴とする情報処理システム。
  8. 前記語抽出手段により抽出された各語について異なる語との共起する数を要素とする文脈ベクトルを生成するベクトル生成手段をさらに備え、
    前記類似度算出手段は、文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出する、
    ことを特徴とする請求項7に記載の情報処理システム。
  9. 前記類似度算出手段は、各語の各文脈において算出された重みを表現した行列AとAの転置行列を掛け合わせたものの対応する要素からなる共起度を類似度として算出する、
    ことを特徴とする請求項7に記載の情報処理システム。
  10. 文書の属性情報に基づいて、文書を複数のグループに分類する文書分類手段をさらに備え、
    前記文脈抽出手段は、グループを文脈の1つとして文脈の抽出を行なう、
    ことを特徴とする請求項1乃至7のいずれかに記載の情報処理システム。
  11. 前記文書分類手段は、文書が持つ社会的文脈を文書の属性情報として文書の各グループへの分類を行なう、
    ことを特徴とする請求項10に記載の情報処理システム。
  12. 前記文書分類手段は、文書の置き場所、文書に付随する日時、ファイル・タイプ、文書を作成した人、文書を共有した人、文書を作成し又は共有した人が所属する組織図、文書を利用した場所、文書の利用目的、文書のタイトル、文書の検索に利用するキーワード、文書の分類キーワード、文書の提出先、文書の執筆者又は共著者、文書間の引用関係、文書の入手場所又は入手方法、文書を作成し変更し又は参照した前後に生じたイベントのうち少なくとも1つを文書の属性情報として文書の各グループへの分類を行なう、
    ことを特徴とする請求項10に記載の情報処理システム。
  13. 前記重み算出手段は、ある文脈のメタ言語情報に出現する語についての当該文脈における重みを調整する、
    ことを特徴とする請求項に記載の情報処理システム。
  14. 前記重み算出手段は、文書のファイル名に利用されている語、文書が属するフォルダのフォルダ名に出現する語、文書のタイトルに出現する語、文書のキーワードに出現する語、文書の提出先に出現する語、文書の引用文献に出現する語、文書の入手場所に出現する語のうち少なくとも1つについての文脈に対する重みを調整する、
    ことを特徴とする請求項13に記載の情報処理システム。
  15. 特定の個人や組織によらない一般の文書の集合からなる一般文書集合から語を抽出する一般語抽出手段と、
    抽出された一般語の前記一般文書集合における文脈頻度を算出する一般語文脈頻度算出手段と、
    をさらに備え、
    前記重み算出手段は、前記語抽出手段により抽出された各語について、前記一般文書集合で語が出現する文脈の数(文脈頻度)に反比例する重みを算出する、
    ことを特徴とする請求項に記載の情報処理システム。
  16. 前記重み算出手段は、抽出された各語について前記第1の文書集合中の文脈での出現頻度に比例する第1の重みを算出するとともに、抽出された各語について第2の文書集合で出現する文脈の数(文脈頻度)に反比例する第2の重みを算出し、各語についての第1の重みと第2の重みを統合して文脈に対する重みとする、
    ことを特徴とする請求項1に記載の情報処理システム。
  17. 前記重み算出手段は、抽出された各語について特定の個人や組織による個人文書集合中の文脈での出現頻度に比例する重みTFを算出するとともに、抽出された各語について特定の個人や組織によらない一般文書集合で出現する文脈の数(文脈頻度)に反比例する重みIDFを算出し、各語についての重みTFとIDFを統合して文脈に対する重みとする、
    ことを特徴とする請求項1に記載の情報処理システム。
  18. 語の各文脈での重みを要素とする文脈ベクトルを生成するベクトル生成手段をさらに備え、
    前記類似度算出手段は、文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出する、
    ことを特徴とする請求項17に記載の情報処理システム。
  19. 文書集合として日本語文書を扱うとともに、日本語入力のかな漢字変換辞書を備え、
    前記語抽出手段は、前記かな漢字変換辞書に登録された語も抽出する、
    ことを特徴とする請求項1、5、17のいずれかに記載の情報処理システム。
  20. 文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築するための処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、前記コンピュータを、
    文書集合から語を抽出する語抽出手段、
    文書集合から複数の種類の文脈を抽出する文脈抽出手段、
    前記語抽出手段により抽出された各語について、前記文脈抽出手段により抽出された文脈毎に重みを算出する重み算出手段、
    語の各文脈に対する重みを基に、同じ傾向を示す語が高い類似度を示すように語間の類似度を算出する類似度算出手段、
    出された語間の類似度に基づいて、個々の語について類似度の高い語を関連語として収集する関連語収集手段、
    として機能させるためのコンピュータ・プログラム。
  21. 文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築するための処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、前記コンピュータを、
    文書集合から語を抽出する語抽出手段、
    文書集合から複数の種類の文脈を抽出する文脈抽出手段、
    前記語抽出手段において抽出された各語について、前記文脈抽出手段において抽出された文脈内での異なる語間の共起する数を算出する共起数算出手段、
    各文脈での共起する数に基づいて対応する語間の類似度を算出する類似度算出手段、
    算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集手段と、
    として機能させるためのコンピュータ・プログラム。
  22. 文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築するための処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、前記コンピュータを、
    文書集合から語を抽出する語抽出手段、
    文書集合から複数の種類の文脈を抽出する文脈抽出手段、
    前記語抽出手段により抽出された各語について、特定の個人や組織による個人文書集合中の文脈での出現頻度に比例する重みTFを算出するとともに、抽出された各語について特定の個人や組織によらない一般文書集合で出現する文脈の数(文脈頻度)に反比例する重みIDFを算出し、各語についての重みTFとIDFを統合して文脈に対する重みとする重み算出手段、
    語の各文脈での重みを要素とする文脈ベクトルを生成するベクトル生成手段、
    文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出して、同じ傾向を示す語が高い類似度を示すように語間の類似度を算出する類似度算出手段、
    出された語間の類似度に基づいて、個々の語について類似度の高い語を関連語として収集する関連語収集手段、
    として機能させるためのコンピュータ・プログラム。
JP2004124919A 2004-04-21 2004-04-21 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム Expired - Fee Related JP4525154B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004124919A JP4525154B2 (ja) 2004-04-21 2004-04-21 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004124919A JP4525154B2 (ja) 2004-04-21 2004-04-21 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム

Publications (2)

Publication Number Publication Date
JP2005309706A JP2005309706A (ja) 2005-11-04
JP4525154B2 true JP4525154B2 (ja) 2010-08-18

Family

ID=35438437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004124919A Expired - Fee Related JP4525154B2 (ja) 2004-04-21 2004-04-21 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム

Country Status (1)

Country Link
JP (1) JP4525154B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100837751B1 (ko) 2006-12-12 2008-06-13 엔에이치엔(주) 문서 집합을 기반으로 단어 간의 연관도를 측정하는 방법및 상기 방법을 수행하는 시스템
US8200671B2 (en) * 2009-02-26 2012-06-12 Fujitsu Limited Generating a dictionary and determining a co-occurrence context for an automated ontology
WO2011136426A1 (ko) * 2010-04-28 2011-11-03 한국과학기술정보연구원 문맥으로부터의 개체명 추출을 이용한 개체명 사전 구축과 규칙 등록 방법 및 시스템
CN102314448B (zh) * 2010-07-06 2013-12-04 株式会社理光 一种在文档中获得一个或多个关键元素的设备和方法
JP5798086B2 (ja) * 2012-06-11 2015-10-21 日本電信電話株式会社 文書からの地名と語の対の抽出装置及び方法及びプログラム
WO2014033799A1 (ja) * 2012-08-27 2014-03-06 株式会社日立製作所 単語意味関係抽出装置
JP6297835B2 (ja) * 2013-12-26 2018-03-20 Kddi株式会社 マイニング分析装置、方法及びプログラム
CN109658148B (zh) * 2018-12-14 2023-01-17 杭州东信北邮信息技术有限公司 一种基于自然语言处理技术的营销活动投诉风险预测方法
CN111488401B (zh) * 2020-03-06 2023-06-23 天津大学 一种基于多元化关系画像技术的在线社会关系搜索方法
CN114077651A (zh) * 2020-08-20 2022-02-22 南京行者易智能交通科技有限公司 一种大数据案例匹配模型的设计方法及装置
CN113255336A (zh) * 2021-05-20 2021-08-13 北京明略昭辉科技有限公司 基于wllr计算字向量的方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331515A (ja) * 2000-05-23 2001-11-30 Sigmatics Inc 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品
JP2001331484A (ja) * 2000-05-22 2001-11-30 Hitachi Ltd パラレルシソーラスの生成プログラムを記録した記録媒体、パラレルシソーラスを記録した記録媒体及びパラレルシソーラスナビゲーションプログラムを記録した記録媒体
JP2003256447A (ja) * 2002-02-26 2003-09-12 Kyoji Umemura 関連語抽出方法および装置
JP2005208840A (ja) * 2004-01-21 2005-08-04 Mitsubishi Electric Corp シソーラス生成装置
JP2005250762A (ja) * 2004-03-03 2005-09-15 Mitsubishi Electric Corp 辞書生成装置、辞書生成方法および辞書生成プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09134360A (ja) * 1995-11-10 1997-05-20 Omron Corp 『語』の概念を定量化するための方法及び装置、並びに、それらを用いた方法及び装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001331484A (ja) * 2000-05-22 2001-11-30 Hitachi Ltd パラレルシソーラスの生成プログラムを記録した記録媒体、パラレルシソーラスを記録した記録媒体及びパラレルシソーラスナビゲーションプログラムを記録した記録媒体
JP2001331515A (ja) * 2000-05-23 2001-11-30 Sigmatics Inc 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品
JP2003256447A (ja) * 2002-02-26 2003-09-12 Kyoji Umemura 関連語抽出方法および装置
JP2005208840A (ja) * 2004-01-21 2005-08-04 Mitsubishi Electric Corp シソーラス生成装置
JP2005250762A (ja) * 2004-03-03 2005-09-15 Mitsubishi Electric Corp 辞書生成装置、辞書生成方法および辞書生成プログラム

Also Published As

Publication number Publication date
JP2005309706A (ja) 2005-11-04

Similar Documents

Publication Publication Date Title
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
Feinerer et al. Text mining infrastructure in R
Nakov et al. Citances: Citation sentences for semantic analysis of bioscience text
US9659084B1 (en) System, methods, and user interface for presenting information from unstructured data
Wang et al. Implicit feature identification via hybrid association rule mining
US8983963B2 (en) Techniques for comparing and clustering documents
Chen et al. A robust web personal name information extraction system
Bagalkotkar et al. A novel technique for efficient text document summarization as a service
JP4525154B2 (ja) 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
Alani et al. Automatic extraction of knowledge from web documents
Hassel Evaluation of automatic text summarization
Madatov et al. Uzbek text summarization based on TF-IDF
Liebeskind et al. Semiautomatic construction of cross-period thesaurus
Nay Natural Language Processing for Legal Texts
Antonia Marti et al. DISCOver: DIStributional approach based on syntactic dependencies for discovering COnstructions
Hui et al. Application of literature-based discovery in nonmedical disciplines: a survey
Akhmetov et al. A Comprehensive Review on Automatic Text Summarization
Ma et al. Combining n-gram and dependency word pair for multi-document summarization
Wu Investigations on event-based summarization
Jivani et al. The multi-liaison algorithm
Ababneh et al. An efficient framework of utilizing the latent semantic analysis in text extraction
Guan et al. An automatic text summary extraction method based on improved textrank and TF-IDF
Acharya et al. The process of information extraction through natural language processing
Hachey Towards generic relation extraction
Eder et al. A Question of Style: A Dataset for Analyzing Formality on Different Levels

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070322

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100216

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100511

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100524

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4525154

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140611

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees