JP4525154B2

JP4525154B2 - 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム

Info

Publication number: JP4525154B2
Application number: JP2004124919A
Authority: JP
Inventors: 博仁柴田; 賢悟大村
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2004-04-21
Filing date: 2004-04-21
Publication date: 2010-08-18
Anticipated expiration: 2024-04-21
Also published as: JP2005309706A

Description

本発明は、主にテキスト情報を処理する情報処理システム及び情報処理方法、並びにコンピュータ・プログラムに係り、特に、テキスト情報を解析し、語と関連語からなるシソーラスを自動構築する情報処理システム及び情報処理方法、並びにコンピュータ・プログラムに関する。

さらに詳しくは、本発明は、人々の総意に基づく一般的なシソーラスだけではなく、特定の人物や組織の関心や興味、経験に基づく個人のシソーラスを自動構築する情報処理システム及び情報処理方法、並びにコンピュータ・プログラムに係り、特に、個人シソーラスを安価に構築する情報処理システム及び情報処理方法、並びにコンピュータ・プログラムに関する。

人間の語彙体系をコンピュータが処理可能とするものとしてシソーラス辞書（以降、単に「シソーラス」と呼ぶ）がある。

ここで、「シソーラス」という用語は、一般には、語の階層関係（上下関係、包含関係）を規定する辞書として利用される。本明細書では、「シソーラス」を広く捉え「語とその語の関連語を集めたもの」として定義する。実際に、海外ではＴｈｅｓａｕｒｕｓをこのように用いることも多い（例えば、非特許文献２、非特許文献を参照のこと）。日本では、語の階層関係を規定する狭義のシソーラスとの混同を避けるため、「概念ベース」という表現を用いることが多い（例えば、非特許文献７を参照のこと）。

シソーラスの代表例としては英語のＷｏｒｄＮｅｔ（例えば、非特許文献１７を参照のこと）や日本語のＥＤＲ電子辞書（例えば、非特許文献１８を参照のこと）などがある。これらでは、概念の階層関係からなる語彙体系が保持されているが、単に語とその関連語のリストが保持されているだけでも、その利用価値は高い。例えば、情報検索時において、シソーラスで検索キーを展開することにより、表現のゆれなどによる検索もれを防ぐことができる。また、文章用例の生成や推論機構においてもシソーラスを利用することができる。

一般に、シソーラスは万人にとって妥当な語彙体系、すなわち人々の総意に基づく語彙体系を編集したものが多いが、個人の語彙体系や連想パターンを模倣するシソーラス（これを「個人シソーラス」と呼ぶ）を想定すると、その利用価値はさらに広がる。例えば、情報検索時に個人シソーラスで検索キーを展開することにより、個人にカスタマイズされた個人の観点からの検索が可能となる。例えば、Ｊａｇｕａｒという単語から動物好きの人は動物のジャガーを連想するであろうし、車好きの人は自動車メーカー又はＪａｇｕａｒ社の車を連想するだろう（例えば、非特許文献１９を参照のこと）。Ｊａｇｕａｒという検索キーを個人シソーラスにより関連語に展開することで、上記のような曖昧性を排除した個人にカスタマイズされた検索が可能となる。また、個人のシソーラスにどのような語がどれくらいあるかを分析することで、その人の興味や関心事を推定することが可能であるし、これを必要な人材を検索するためのプロファイルとしても利用可能である。

ところが、一般にシソーラスの構築はコストが高い、という問題がある。先述のＷｏｒｄＮｅｔやＥＤＲ電子辞書は、長い年月と膨大な費用をかけて人手で構築されたものである。さらには、新語の出現や語の利用のされ方の変化に応じて、常にメンテナンスすることが必要である。不特定多数が利用することを想定したシソーラスの構築においては、このような高いコストを投入することも妥当であろうが、個人シソーラスの構築においては、より安価に構築できることが必要となる。

このような背景を踏まえ、テキスト・コーパスを解析してシソーラスを自動構築する試みが古くから数多くなされてきた。このような研究はコーパスとして何を使うかということにより、以下の３種類に分類することができる。

第一のグループは、人間により編集された、語とその語義文が記述された辞書を用いる手法である（例えば、非特許文献１４を参照のこと）。ここでは、辞書での意味記述が、幾つかの典型的な構造に分類されることに着目する。例えば、「青蛙」の語義文が「大形のカエルの一種」となっている場合、「青蛙」は「カエル」の下位概念であり、「大形」という特徴を持っていることが判る。このような構造を利用し、パータン・マッチにより語の関係（上位下位、同義、全体部分、集合要素など）を特定し、シソーラスを構築することができる。また、シソーラスでの語の関連語を辞書での語の語義文に出現する単語として定義し、統計処理によりシソーラスを洗練させることができる（例えば、非特許文献７を参照のこと）。さらに、これと同様の手法で構築したシソーラスに対して、サンプリングされた語に対する目視評価の結果を伝播させることにより、シソーラスの精度を向上させることができる（例えば、非特許文献８を参照のこと）。

第ニのグループは、語と語義文からなる辞書を前提とせず、一般のテキスト・コーパスを解析して、統計情報に基づいてシソーラスの構築を試みる研究である。これらの研究は、基本的に「同じ文脈で用いられる語は意味的にも似ている」という仮説に基づいて、関連する（意味的に近い）語を収集する。具体的には、異なる語ＡとＢが指定された幅のテキスト・ブロック（本明細書中では「共起ウィンドウ」と呼ぶ）の中にともに現れるとき、これを共起とみなし、語の共起関係の統計的偏りに基づいて関連語が選出される。例えば、語の共起関係の相互情報量に基づいて、語とその関連語からなるシソーラスを自動構築することができる（例えば、非特許文献２を参照のこと）。また、語の共起関係に基づいて関連する語を収集することができる（例えば、非特許文献６を参照のこと）。あるいは、コーパスのテキストに対して粗い構文解析を行ない、形容詞で修飾された名詞、主語と目的語のような構造を抽出し、その構造集合の中で共起に基づいて関連語を収集することができる（例えば、非特許文献５、非特許文献９を参照のこと）。これら試みは「文法上の同じ構造で利用される語は意味的にも似ている」という仮説に基づいているといえる。

第三のグループは、技術的手法において第二のグループに似ているが、対象とするコーパスが一般のものではなく個人の興味や関心事の反映されたものに限定されるとういことを特徴とする。すなわち、目的が汎用のシソーラスの構築ではなく個人シソーラスの構築にある、という点で相違する。例えば、ある個人が記述した論文や電子メールなどのテキストを解析し、その人らしさが強く反映されると考えられる固有名詞に着目し、固有名詞の共起関係に基づき、個人シソーラスを構築することができる（例えば、特許文献１を参照のこと。また、ＷｅｂのブックマークからＷｅｂページを巡回して収集し、それを解析することで個人シソーラスを自動構築することができる（例えば、非特許文献１６を参照のこと）。

特開平１１−１８４８９０号公報相澤彰子：語の文書の共起に基づく特徴度の数量的表現について，情報処理学会論文誌, Vol. 41, No. 12, pp. 3332-3343, 2000. Kenneth Ward Church, Patrick Hanks: Word association norms, mutual information, and lexicography, in Proceedings of the 27th. Annual Meeting of the Association for Computational Linguistics, 1989. Daniel Goncalves: Telling stories about documents: Experiment results, Technical Report (Instituto Superior Tecnico, Portugal), May 2003. Daniel Goncalves and Joaquim A. Jorge: Describing documents: What can users tell us? in Proceedings of International Conference on Intelligent User Interfaces, pp. 247-249, January 13-16, 2004. G. Grefenstette: Use of syntactic context to produce term association lists for text retrieval, in Proceedings of ACM SIGIR '92, pp. 89-97, 1992. Hiroyuki Kaji, Yasutsugu Morimoto, Toshiko Aizono, Noriyuki Yamasaki: Corpus-dependent association thesauri for information retrieval, in Proceedings of 18th International Conference on Computational Linguistics (COLING 2000), 2000. 笠原要，松澤和光，石川勉：国語辞書を利用した日常語の類似性判別，情報処理学会論文誌，Vol. 38, No. 7, 1997. 小島一秀，渡部広一，河岡司：連想システムのための概念ベース構築法 − 属性信頼度の考えに基づく属性重みの決定，自然言語処理，Vol. 9, No. 5, pp. 93-110, 2002. D. Lin: Automatic retrieval and clustering of similar words, in Proceedings of COLING-ACL 1998, pp. 768-773, 1998. Christopher D. Manning and Hinrich Schuetze: Foundations of statistical natural language processing, The MIT Press, 1999. G. Salton and M. J. McGill: Introduction to modern information retrieval, McGraw-Hill, 1983. Hinrich Schutze: Ambiguity resolution in language learning - Computational and cognitive models, CSLI Publications, 1997. H. Schutze and J. Pedersen: A cooccurrence-based thesaurus and two applications to information retrieval, Information Processing and Management, Vol. 33, No. 3, pp. 307-318, 1997. 鶴丸弘明，竹下克典，伊丹克企，柳川俊英，吉田将：国語辞典情報を用いたシソーラスの作成について，情報処理学会自然言語処理研究会, NL-83, 1991. 渡部勇，三末和男：単語の連想関係によるテキストマイニング，情報処理学会研究会（情報学基礎，デジタル・ドキュメント），FI55-8, 1999. Sen Yoshida, Takashi Yukawa, and Kazuhiro Kuwabara: Constructing and examining personalized cooccurrence-based thesauri on Web pages, in Proceedings on The Twelfth International World Wide Web Conference (WWW2003), 2003. http://www.cogsci.princeton.edu/~wn/ http://www.iijnet.or.jp/edr/J_index.html http://wwwitmedia.co.jp/news/0308/12/ne00_kaltix.html

個人シソーラスの構築には人手での構築が困難であり、自動構築が求められる。上述したように、シソーラスの自動構築には、対象とするコーパスによって３種類のグループに分類することができる。このうち、シソーラスを自動構築する第二のグループの技術は、本来、個人シソーラスのために構築されたものではないが、同様の手法を個人が作成又は収集したコーパスに適用することにより、個人シソーラスの構築することが可能であると考えられる。しかしながら、その適用においては以下の問題に対処する必要があると本発明者らは思料する。

第一に、語が利用される文脈の統計情報に基づいてシソーラスを構築するには、大量のコーパス（数十から数百メガバイト）が必要である。これに対して、個人の興味や関心事が反映されていると考えられる個人が蓄積するデータは、せいぜい数メガバイトであり、大量のデータは望めない。そこで、個人にとって満足のいく性能を持ったシソーラスが構築できない可能性がある。

なお、シソーラスの性能は「人間の主観評価との整合性（一致度）」として定義される。個人シソーラスの性能は、個人の主観との整合性で議論され、一般のシソーラスの性能は一般の人間（不特定多数）の主観との整合性で議論される。

また、個人シソーラスの自動構築における第２の問題点として、解析対象となるデータから単語を正しく抽出できない、ということが挙げられる。論文などのようにオフィシャルな文書の場合はともかく、日記や電子メールなどの場合には、自分（あるいは特定の組織の人間）にしか分からないような造語や略語、専門用語が利用されることがある。そして、このような語こそ、特定の個人や組織の特徴を言い表している場合も多い。また、リスト形式の記述のように、句読点や動詞がないなどというように、文法的な正しさも保証されない。このような場合、形態素解析の処理において、単語が正しく抽出できない、という問題がある。

個人シソーラスの構築においては、上記の２つの問題を解決する必要がある。前者の問題への対処としては、限られたソース・データから、できるだけ多くの文脈を（しかも多重的に）取り出して、統計的な検定に耐えうるようにする必要がある。

勿論、前者の問題を解決することは、何も少ないデータからシソーラス構築を行なう場合にのみ限定されることではなく、文脈を多くすることは大量のコーパスから構築する場合にも、シソーラスの性能を向上させる助けとなる。一般のシソーラスの構築においては、十分な性能のシソーラスが構築できないとき解析対象のコーパスの量を増やすことで性能の向上を図るというアプローチが可能である。これに対して、個人シソーラスの構築においてはソース・データの絶対量に限りがあるため、このアプローチは適用できない。よって、利用できる文脈を増やすことは、個人シソーラスの構築においては、より重要な課題となる。

また、後者の問題への対処としては、非文法的なテキストから分野や個人に特化した用語や表現を抽出することが必要となる。上述した第三グループの技術は、個人シソーラスの自動構築を目的としたものであり、個人の興味や関心が強く反映されていると考える固有名詞に着目するなどの工夫が施されている。しかし、上記の問題の対処については何ら言及されていない。

本発明は、上述したような技術的課題を鑑みたものであり、その主な目的は、テキスト情報を解析し、語と関連語からなるシソーラスを安価に自動構築することができる、優れた情報処理システム及び情報処理方法、並びにコンピュータ・プログラムを提供することにある。

本発明のさらなる目的は、人々の総意に基づく一般的なシソーラスだけではなく、特定の人物や組織の関心や興味、経験に基づく個人のシソーラスを安価に自動構築することができる、優れた情報処理システム及び情報処理方法、並びにコンピュータ・プログラムを提供することにある。

本発明は、上記課題を参酌してなされたものであり、その第１の側面は、文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築する情報処理システムであって、文書集合から語を抽出する語抽出手段と、文書集合から複数の種類の文脈を抽出する文脈抽出手段と、前記語抽出手段により抽出された各語について、前記文脈抽出手段により抽出された文脈毎に重みを算出する重み算出手段と、文脈に対する重みが同じ傾向を示す語が高い類似度を示すように語間の類似度を算出する類似度算出手段と、算出された語間の類似度に基づいて、個々の語について類似度の高い語を関連語として収集する関連語収集手段とを具備することを特徴とする情報処理システムである。ここで、特定の個人や組織向けの個人シソーラスを構築する場合には、文書集合として、特定の個人又は組織による個人文書集合を取り扱う。なお、具体的な類似度の算出方法は後で説明する発明の第１、第２の側面にて、具体的に説明を行うものである。

また、本発明の第２の側面は、文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築する情報処理システムであって、文書集合から語を抽出する語抽出手段と、文書集合から複数の種類の文脈を抽出する文脈抽出手段と、前記語抽出手段により抽出された各語について、前記文脈抽出手段により抽出された文脈毎に重みを算出する重み算出手段と、語の各文脈での重みを要素とする文脈ベクトルを生成するベクトル生成手段と、文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出する類似度算出手段と、算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集手段とを具備することを特徴とする情報処理システムである。

ここで、前記ベクトル生成手段は、異なる複数の文脈にまたがって、語の各文脈での重みを要素とする文脈ベクトルを生成するようにしてもよい。

また、前記ベクトル生成手段は、個々の文脈毎に、語の各文脈での重みを要素とするベクトルを生成するようにしてもよい。この場合、文脈毎の語間の類似度を統合して統合的類似度を算出する類似度統合手段をさらに備え、前記関連語収集手段は、統合的類似度に基づいて個々の語について関連度の高い語を関連語として収集することができる。

また、語の各文脈での重みを要素とする文脈ベクトルではなく、各文脈での語の出現数に基づいて語間の類似度を算出することができる。すなわち、同種類の文脈ベクトル内での出現確率に基づいて語の類似度を算出し、文脈毎の語間の類似度を統合して統合的類似度を算出し、統合的類似度に基づいて個々の語について関連度の高い語を関連語として収集することができる。

また、語の文脈に対する重みを算出するのではなく、文脈内での異なる語間の共起数を算出し、共起数に基づいて（例えば、文脈毎の共起数を統合して）語間の類似度を算出し、類似度に基づいて個々の語について関連度の高い語を関連語として収集するようにしてもよい。

また、本発明の第３の側面は、文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築する情報処理システムであって、文書集合から語を抽出する語抽出手段と、文書集合から複数の種類の文脈を抽出する文脈抽出手段と、前記語抽出手段により抽出された各語について、前記文脈抽出手段により抽出された文脈内での異なる語間の共起数を算出する共起数算出手段と、各文脈での共起数に基づいて対応する語間の類似度を算出する類似度算出手段と、算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集手段とを具備することを特徴とする情報処理システムである。

本発明の第２及び第３の側面によれば、シソーラスを構築する際に、異なる語が所定範囲内でともに出現する共起関係に基づいて関連する語を収集する。すなわち、文書集合から複数の種類の文脈を抽出することにより、異なる語が共起しているとみなす共起ウィンドウのサイズを設定することができる。そして、各語について文脈毎に重みを算出することで、共起ウィンドウの幅に応じて語間の関連性の強弱を示す共起度を変動させることができる。例えば、狭い共起ウィンドウで共起する語に高い共起度を与え、広い共起ウィンドウで共起する語に低い共起度を与えることができる。

したがって、本発明の第２及び第３の側面によれば、文脈の数を多くすると同時に、共起ウィンドウの幅に応じて共起度を変動させることで、共起関係を精緻に捉えることが可能となる。これにより、個人や組織の情報群という限られたソース・データを有効に活用し、より個人や組織の直感に合うシソーラスの構築が可能となる。

また、本発明の第４の側面は、文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築する情報処理システムであって、文書集合から語を抽出する語抽出手段と、文書の属性情報に基づいて、文書を複数のグループに分類する文書分類手段と、グループ内での語の共起関係に基づいて、語間の類似度を算出する類似度算出手段と、算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集手段とを具備することを特徴とする情報処理システムである。

ここで、前記文書分類手段は、文書が持つ社会的文脈を文書の属性情報として利用し、文書の各グループへの分類を行なう。ここで言う文書の社会的文脈には、文書の置き場所、文書に付随する日時（作成日時、更新日時、参照日時など）、ファイル・タイプ、文書を作成した人、文書を共有した人、文書を作成し又は共有した人が所属する組織図、文書を利用した場所、文書の利用目的、文書のタイトル、文書の検索に利用するキーワード、文書の分類キーワード、文書の提出先、文書の執筆者又は共著者、文書間の引用関係、文書の入手場所又は入手方法、文書を作成し変更し又は参照した前後に生じたイベントなどが挙げられる。

したがって、本発明の第４の側面によれば、語の共起関係を捉える際にこれまで利用されることのなかった文書の社会的文脈を活用することが可能となる。文書が実生活で取り扱われることで付与される社会的文脈を活用することで、文脈の数を多くするのみでなく、より個人や組織のワーク・スタイルや嗜好性を考慮したシソーラスを構築することが可能となる。ここで、文書の社会的文脈とは、文書が生成、活用される過程で文書に自動的、明示的に付与されるさまざまな属性の総称であり、その具体例は上で提示した通りである。

なお、文書を利用した場所として、組織などの抽象的な場ではなく、会議室などの具体的な場を用いる。学会や国際会議などの抽象的な場は、開催された都市や施設として扱う。また、ミーティングなら、ミーティングが開催された会議室として扱う。

また、分類キーワードとして、論文に掲載されるような（技術分類に利用される）キーワードを扱う。国際特許分類もこれに含まれる。

また、本発明の第１の側面に係るシソーラス自動構築において、前記重み算出手段は、ある文脈のメタ言語情報に出現する語についての当該文脈における重みを調整するようにしてもよい。

ここで言う調整とは、重みを増加又は減少させることを意味する。語がメタ言語情報に出現するなら重みを減少させるというのは稀なケースであるが、「経済に関する議論ではなく…」などというように、否定的に用いられている場合、「経済」という語の重みをあえて減少させるなどということが考えられる。

また、ここで言うメタ言語情報には、文書のファイル名や、文書が置かれているフォルダ名、文書のタイトル、キーワード、文書の提出先、文書の引用文献、文書の入手場所などが挙げられる。例えば、提出先が「ソフトウェア開発部」である場合、文書は「ソフトウェア」や「開発」という語との関連性が強いとみなして、これら語の重みを増加させるようにしてもよい。また、文書の入手場所が「経済新聞」の場合、その文書は「経済」に関するものである可能性が高いので、「経済」の重みを増加させるようにしてもよい。

このように、文書に付与されたメタ言語情報を活用することで、語の文書に対する重みをより忠実に捉えることが可能となる。メタ言語情報は、文書の社会的文脈でもあり、文書のワークフローの中で付与される社会的文脈としてのメタ言語情報を活用することにより、より個人や組織のワーク・スタイルや嗜好性を考慮したシソーラスを構築することができる。

また、本発明の第５の側面は、文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築する情報処理システムであって、文書集合から語を抽出する語抽出手段と、抽出された各語について、前記第１の文書集合中の文脈での出現頻度に比例する第１の重みを算出する第１の重み算出手段と、抽出された各語について、第２の文書集合で出現する文脈の数（文脈頻度）に反比例する第２の重みを算出する第２の重み算出手段と、各語についての第１の重みと第２の重みを統合して、文脈に対する重みを設定する重み設定手段と、語の各文脈での重みＴＦ−ＩＤＦを要素とする文脈ベクトルを生成するベクトル生成手段と、文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出する類似度算出手段と、算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集手段とを具備することを特徴とする情報処理システムである。

本発明の第５の側面によれば、個人若しくは特定の組織の文書集合を用いてＴＦの計算を行なうとともに、一般の文書集合を用いてＩＤＦの計算を行なうことにより、解析対象となるデータの量に限りがある場合であっても、個人や組織にとって重要な語を重みに正しく反映することができる。この結果、情報の集まりに偏在性のある個人や組織の文書群に対しても、個人や組織にとって重要な語をシソーラスに反映できるようになる。

また、本発明の各側面において、文書集合として日本語文書を扱うとともに、日本語入力のかな漢字変換辞書を備える場合には、前記語抽出手段は、前記かな漢字変換辞書に登録された語も抽出するようにしてもよい。

このような場合、通常の形態素解析ツールでは抽出できない、個人や組織に特有の語や表現、さらには分野に依存した専門用語を、かな漢字変換辞書中のユーザ辞書から抽出することができる。個人や組織の「らしさ」(固有性) はこのような語にこそ現れていることも多く、したがって、本発明により、個人や組織の語彙体系や連想パターンをより高精度に反映したシソーラスの構築が可能となる。

また、本発明の第６の側面は、文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築するための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、文書集合から語を抽出する語抽出ステップと、文書集合から複数の種類の文脈を抽出する文脈抽出ステップと、前記語抽出ステップにおいて抽出された各語について、前記文脈抽出ステップにおいて抽出された文脈毎に重みを算出する重み算出ステップと、語の各文脈での重みを要素とする文脈ベクトルを生成するベクトル生成ステップと、文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出する類似度算出ステップと、算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集ステップとを具備することを特徴とするコンピュータ・プログラムである。

また、本発明の第７の側面は、文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築するための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、文書集合から語を抽出する語抽出ステップと、文書集合から複数の種類の文脈を抽出する文脈抽出ステップと、前記語抽出ステップにおいて抽出された各語について、前記文脈抽出ステップにおいて抽出された文脈内での異なる語間の共起数を算出する共起数算出ステップと、各文脈での共起数に基づいて対応する語間の類似度を算出する類似度算出ステップと、算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集ステップとを具備することを特徴とするコンピュータ・プログラムである。

また、本発明の第８の側面は、文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築するための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、文書集合から語を抽出する語抽出ステップと、文書の属性情報に基づいて、文書を複数のグループに分類する文書分類ステップと、グループ内での語の共起関係に基づいて、語間の類似度を算出する類似度算出ステップと、算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集ステップとを具備することを特徴とするコンピュータ・プログラムである。

また、本発明の第９の側面は、文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築するための処理をコンピュータ・システム上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、文書集合から語を抽出する語抽出ステップと、抽出された各語について、特定の個人や組織による個人文書集合中の文脈での出現頻度に比例する重みＴＦを算出する第１の重み算出ステップと、抽出された各語について、特定の個人や組織によらない一般文書集合で出現する文脈の数（文脈頻度）に反比例する重みＩＤＦを算出する第２の重み算出ステップと、各語についての重みＴＦとＩＤＦを統合して、文脈に対する重みＴＦ−ＩＤＦを設定する重み設定ステップと、語の各文脈での重みＴＦ−ＩＤＦを要素とする文脈ベクトルを生成するベクトル生成ステップと、文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出する類似度算出ステップと、算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集ステップとを具備することを特徴とするコンピュータ・プログラムである。

本発明の第６乃至第９の各側面に係るコンピュータ・プログラムは、コンピュータ・システム上で所定の処理を実現するようにコンピュータ可読形式で記述されたコンピュータ・プログラムを定義したものである。換言すれば、本発明の第６乃至第９の各側面に係るコンピュータ・プログラムをコンピュータ・システムにインストールすることによって、コンピュータ・システム上では協働的作用が発揮され、本発明の第２乃至第５の各側面に係る情報処理システムと同様の作用効果を得ることができる。

本発明によれば、テキスト情報を解析し、語と関連語からなるシソーラスを安価に自動構築することができる、優れた情報処理システム及び情報処理方法、並びにコンピュータ・プログラムを提供することができる。

また、本発明によれば、人々の総意に基づく一般的なシソーラスだけではなく、特定の人物や組織の関心や興味、経験に基づく個人のシソーラスを安価に自動構築することができる、優れた情報処理システム及び情報処理方法、並びにコンピュータ・プログラムを提供することができる。

本発明によれば、文脈の数を多くすると同時に、共起ウィンドウの幅に応じて共起度を変動させることで、共起関係を精緻に捉えることが可能となる。これにより、個人や組織の情報群という限られたソース・データを有効に活用し、より個人や組織の直感に合うシソーラスの構築が可能となる。

また、本発明によれば、語の共起関係を捉える際にこれまで利用されることのなかった文書の社会的文脈を活用することが可能となる。文書が実生活で取り扱われることで付与される社会的文脈を活用することで、文脈の数を多くするのみでなく、より個人や組織のワーク・スタイルや嗜好性を考慮したシソーラスを構築することが可能となる。

また、本発明によれば、文書に付与されたメタ言語情報を活用することで、語の文書に対する重みをより忠実に捉えることが可能となる。メタ言語情報は、文書の社会的文脈でもあり、文書のワークフローの中で付与される社会的文脈としてのメタ言語情報を活用することにより、より個人や組織のワーク・スタイルや嗜好性を考慮したシソーラスを構築することができる。

また、本発明によれば、個人若しくは特定の組織の文書集合を用いてＴＦの計算を行なうとともに、一般の文書集合を用いてＩＤＦの計算を行なうことにより、解析対象となるデータの量に限りがある場合であっても、個人や組織にとって重要な語を重みに正しく反映することができる。この結果、情報の集まりに偏在性のある個人や組織の文書群に対しても、個人や組織にとって重要な語をシソーラスに反映できるようになる。

また、本発明によれば、通常の形態素解析ツールでは抽出できない、個人や組織に特有の語や表現、さらには分野に依存した専門用語を抽出することができる。個人や組織の「らしさ」（固有性）はこのような語にこそ現れていることも多く、したがって、本発明により、個人や組織の語彙体系や連想パターンをより高精度に反映したシソーラスの構築が可能となる。

本発明のさらに他の目的、特徴や利点は、後述する本発明の実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

以下、図面を参照しながら本発明の実施形態について詳解する。

Ａ．システム構成
図１には、シソーラスを自動構築するための処理手順を模式的に示している。図示の通り、シソーラスの自動構築は、大まかに以下の手順により構成される。

［ステップ１］ソース・データを解析し、シソーラス構築対象の語を抽出
［ステップ２］ソース・データを解析し、文脈を抽出
［ステップ３］語が利用される文脈を示す「語−文脈行列」又は「共起度行列」を構築
［ステップ４］語間の類似度を示す「類似度行列」を構築
［ステップ５］類似度行列を精練させ「概念行列」を構築
［ステップ６］概念行列をシソーラスの形式で書き出し

ステップ１では、ソース・テキストを形態素解析し、出現頻度の極端に多いもの少ないものを削除する。また、あらかじめ定められた不要語リストに従って不要語の削除を行ない、シソーラス登録対象の語の集合を定める。

ステップ２ではソース・テキストを解析し、文脈の抽出を行なう。通常、文や段落、文書を文脈として利用することが多い。

ステップ３では、行列の構築を行うが、行列の種類に応じて二種類のパターンがある。１つは語−文脈行列であり、これは行が索引語に、列が文脈に対応し、（ｉ，ｊ）成分の要素として語ｔ_iの文脈ｃ_jでの重みが記述されたものである。語の重みはＴＦ、ＩＤＦ、又はＴＦ−ＩＤＦなどが利用される。ＴＦを利用する場合、文脈の大きさによる語の重みの不均等さをなくすため、文脈毎に総和が一定になるよう、語の重みを正規化することもある。他方は共起度行列であり、これは行も列も語に対応する正方行列であり、（ｉ，ｊ）成分の要素として語ｔ_iと語ｔ_j の共起度が記述されたものである。

なお、情報検索の分野では、行を索引語に列を文書に対応させた、「索引語-文書行列」が扱われることがある。本発明では、列は必ずしも文書に対応する訳ではなく、また、「索引語」という言葉の使い方は、情報検索での索引付けで利用される表現であり、シソーラス構築では必ずしも索引付けを目的とする訳ではない。したがって、上記の通り、本明細書では、「語−文脈行列」と呼ぶことにする。

ステップ４では、ステップ２で構築した行列の各行ベクトル間の類似度を算出し、類似度行列を構築する。類似度行列では、行も列も語に対応し、（ｉ，ｊ）成分の要素としては語ｔ_iと語ｔ_jの類似度が記述される。但し、ステップ２で共起度行列を作成した場合は、ベクトル間の類似度の算出を行なうことなく、共起度をそのまま索引語間の類似度として利用することもある。この場合、“共起度行列＝類似度行列”となる。

ベクトル間の類似度の算出に関しては、内積、Ｄｉｃｅ係数、Ｊａｃｃａｒｄ係数などが利用可能である。また、ベクトル間の類似度を算出するものではないが、場合によっては確率的手法（相互情報量、カイ二乗検定、ｔ検定、対数尤度など）も利用可能である。ベクトル間の類似度、確率的手法に基づく類似度の計算方法に関しては、さまざまなものが提案されている（例えば、非特許文献１０を参照のこと）。

ステップ６では、概念行列の各語について類似度の高い語を関連語として集めてシソーラスの形式に書き出しを行なう。

一方、本発明に係るシソーラスの自動構築システムは、以下に示す５種類のアプローチを含んでいる。これらのアプローチと、前述したシソーラスの自動構築手順との対応関係を図２に示している。以下では、本発明に係るシソーラスの自動構築に関する各アプローチについて説明する。

Ｂ．共起の拡張概念：粒度の異なる文脈の混在
シソーラス自動構築の技術では、語の共起関係に基づいて関連する語を収集することが多い。ここで、共起の粒度をどのように設定するかという問題がある。異なる語が共起しているとみなす単位ブロック（共起ウィンドウ）のサイズをどのように設定するかという問題である。

例えば、新聞データを解析してシソーラスを構築する際、共起ウィンドウを段落とした場合と、共起ウィンドウを記事とした場合とで、構築されるシソーラスの比較を行なうことができる（例えば、非特許文献１５を参照のこと）。共起ウィンドウを記事とした場合は、概念語に対する関連語として直接的な関係を見出すことができないものも抽出することができる。これに対して、共起ウィンドウを段落とした場合には、関連語の数は減るがより尤もらしい関連語が抽出される。

また、段落や文書という文章構成上の構造とは関係なく、語と語がある一定の文字幅の中に出現するか否かということで共起関係をとらえることができる。非特許文献１２では、曖昧性解消のためにシソーラスを利用するという文脈の中で、共起ウィンドウの幅をさまざまな粒度に変動させ、最適な共起ウィンドウの幅を得る試みがなされている。

但し、これらの従来技術では、共起ウィンドウの幅は一定であり、異なる語の共起関係の度合いを示す共起度には、共起の回数が用いられる。

これに対し、本発明では、語の共起関係を求める際に、異なる幅の共起ウィンドウの混在を許容する。すなわち、文脈の個数を多くすると同時に、共起ウィンドウの幅に応じて共起度を変動させることで、共起の概念をより精緻に捉え、少量のコーパスから満足のいく個人シソーラスを構築する。したがって、従来方式では共起度が常に自然数で表されるのに対し、本発明では共起度は少数値を取りえる。この枠組みは、これまでの共起関係の捉え方の拡張概念に相当するものと考えることができる。

なお、本発明では、「文脈」という言葉を２種類の意味で用いる。共起ウィンドウの定義方式（テキスト・ブロックの定め方）を指す場合と、ある共起ウィンドウにより定められた個々のテキスト・ブロックを指す場合とである。前者は文脈の集合に対応し、後者は個々の文脈に対応する。これらの違いを明確にする場合には、前者を「文脈集合」と呼ぶことにする。例えば、「異なる幅の共起ウィンドウ」を指し示すものとして「異なる種類の文脈集合」という表現を用いたりする。

図３には、本発明に係る共起度の捉え方を図解している。上述したように、語の共起関係を求める際に、異なる幅の共起ウィンドウの混在を許容するとともに、共起ウィンドウの幅に応じて共起度を変動させる。同図に示す例では、実線で示される狭い共起ウィンドウと、点線で示されるより広い共起ウィンドウが混在している。ＢｏｄｅｎとＰ−ｃｒｅａｔｉｖｉｔｙという語は、実線の枠で示した狭い文脈（共起ウィンドウ）内で共起しているので、共起度は高く設定する。これに対し、Ｂｏｄｅｎ、Ｐ−ｃｒｅａｔｉｖｉｔｙ、Ｆｉｎｋｅという各語は、点線の枠で示した共起ウィンドウ内でＳｈａｒｐｌｅｓと共起しているので、広い文脈で共起しているので、共起度は低く設定する。

共起ウィンドウの取り方としては以下のものが挙げられる。
●文、段落、節、章、文書という文章構造上のセグメント
●文字数、単語数、機能語数という文字や形態素の形式的な幅
●文書間の関連性に基づく文書グループ

ここで、本発明で言う共起の拡張概念として、粒度の異なる文脈を用いて索引語間の類似度をどのように算出するかについて、具体的に説明する。以下では、シソーラス自動構築において、ソース・データを解析し文脈抽出を行なうステップ２において、語−文脈行列を作成する場合と、共起度行列を作成する場合に分けて説明する。

Ｂ−１．語−文脈行列を利用する場合
図４に示すように、４種類の異なる文脈から構築された４つの語ー文脈行列があるとする。それぞれの行列をＡ₁、Ａ₂、Ａ₃、Ａ₄とし、列の数（文脈のサイズ）をｍ₁、ｍ₂、ｍ₃、ｍ₄とする。さらには、個々の文脈には重み係数α₁からα₄が与えられているものとする。これは、どの文脈集合をどれくらい重視するかを示す係数である。

索引語間の類似度の計算方式は、大まかに言えば連接方式と結合方式の２種類がある。

連接方式では、各文脈Ｃ_kの行列を重み係数α_kで正規化し、行列を連接してから、語（行ベクトル）間の類似度を算出する。

また、結合方式では、各文脈Ｃ_kの行列Ａ_k毎に語間の類似度を算出し、重み係数α_kをかけて足す。すなわち、各行列での類似度の重み付き線形結合として全体の類似度を表現する。

ここで、ベクトル間の類似度の算出に関しては内積、余弦、Ｄｉｃｅ係数、Ｊａｃｃａｒｄ係数などが利用可能である。また、ベクトル間の類似度の算出ではなく、語の出現確率の偏りをとらえる手法（相互情報量、カイ二乗検定、ｔ検定、対数尤度など）を利用することも可能である。

連結方式と結合方式は同じような結果を示す。但し、連結方式では、類似度は常に０から１の範囲になり、ベクトル空間モデルとも似ていて分り易い。これに対し、結合方式では、利用可能な技術の範囲が広く（語間の類似度の算出において、確率的手法が利用可能である）、また、個々の文脈の効果を別々に調べるのが容易である。

図５には、語−文脈行列を利用する場合のシソーラス自動構築のシステム構成を示している。但し、図１に示したシソーラス自動構築の処理手順のうち、ステップ５は関与しない。

語抽出部は、ソース・データを解析し、シソーラスへの登録対象の語を選定する。まずは、ソース・テキストを形態素解析し、特定の品詞の語を抽出する。抽出する品詞としては、名詞、動詞、形容詞、副詞などの内容語（ｃｏｎｔｅｎｔｗｏｒｄｓ）と呼ばれるものが想定できるが、ここでは説明の簡略化のため名詞を抽出するものとする。次に、抽出した全名詞集合の中から、出現頻度の極端に多いもの、極端に少ないものを除外する。出現頻度の極端に多いものは、どの文書にも現れる情報量の少ない語である可能性が高いためである。また、出現頻度が極端に少ないものは、他の語との共起に関してたまたま共起したというケースが多く、統計的議論が意味を持たないためである。さらに、必要に応じて、あらかじめ用意した不要語リストに参照し、シソーラス構築において不要とみなせる語を除外する。こうして残った語の集合をシソーラスの登録対象の語集合とする。抽出した語集合を以下のように表現する。

文脈抽出部では、ソース・データを解析し、語の文脈を抽出する。この際、種類の異なる複数の文脈集合を切り出す。ここでは、文、段落、文書という３種類の文脈集合の抽出を行なうものとする。抽出した３種類の文脈集合を以下のように表現する（文脈数はそれぞれｍ₁、ｍ₂、ｍ₃とする）。

重み算出部では、各語の各文脈に対する重みを算出する。ここで、語ｔ_iの文脈ｃ^k _jでの重みａ^k _ijの決定方法としてさまざまな方式が提案されているが（例えば、非特許文献１を参照のこと）、ここでは出現頻度（ＴＦ）を利用するものとする。すなわち、重みａ^k _ijを語ｔ_iの文脈ｃ^k _jでの出現頻度とする。

重み算出部で算出された語の文脈に対する重みは、何らかのデータ構造で保持する必要がある。重み保持部では、語の文脈に対する重みを保持するデータ構造として行列表現を利用するものとする。下式のように、行が語集合Ｔに対応し、列が文脈集合Ｃ_kに対応し、各行列の行列要素ａ^k _ijが語ｔ_iの文脈ｃ^k _jでの重みに対応するような行列Ａ₁、Ａ₂、Ａ₃を作成する。

ここでは説明の簡略化のため、重み保持部でのデータ構造を行列表現としたが、必ずしも行列により語と文脈間の重みを管理する必要はない。むしろ、実装では、行列表現はメモリ効率が悪いため、これを改善するための工夫が必要となる。例えば、語−文脈行列の要素の大半が０である点を考慮し、０の要素を省略してメモリ管理し、行列表現のメモリ効率を向上させる。要は、次に説明するベクトル生成部において、語間の文脈ベクトルが生成できるよう語と文脈の間の重みが管理されていればよい。

重み保持部では、個々の行列Ａ₁、Ａ₂、Ａ₃が生成された後、重み係数α₁、α₂、α₃により連接を行なう。まずは、各行列の各列の総和がα_kになるよう正規化を行なう。これは、各行列内での文脈の扱いを均等にすると同時に、各行列をα_kで重み付けすることに相当する。次に、行列Ａ₁、Ａ₂、Ａ₃を横に連接し、下式に示しように、新たな行列Ａ（ｎ行ｍ₁＋ｍ₂＋ｍ₃列）を作成する。

ここでは説明の簡略化のため、個々の行列Ａ₁、Ａ₂、Ａ₃を生成してから連接を行なったが、これは実装上の問題であり、実際には最初から１つの行列で実装しても問題はない。但しこの際、各列をどのように正規化するかを知るため、各列がどのような種類の文脈のものであるかを保持することが必要となる。また、文脈毎の行列を連結することなく、次に説明するベクトル生成部において、個々の行列が取得したベクトルを連接してもよい。

ベクトル生成部は、各ｉ，ｊ（０≦ｉ，ｊ≦ｎ）について、連接してできた行列Ａからｉ行とｊ行のベクトルを生成する。これは語ｔ_iとｔ_jの個々の文脈での重みのベクトルであり、語の文脈ベクトル又は特徴ベクトルなどという言葉で表せるものである。生成したベクトルｕ，ｖを下式のようにする（ｍ＝ｍ₁＋ｍ₂＋ｍ₃とする）。

類似度算出部は、行列Ａから生成したｉ行のベクトルｕとｊ行のベクトルｖの間の類似度を算出する。これは語ｔ_iとｔ_jの類似度（語が利用される文脈の等しさとも表現できる）に相当するものである。ベクトル間の類似度の算出方式としてはさまざまなものが提案されているが、ここでは広く利用されているベクトル間の余弦を利用する。ベクトルｕ，ｖの余弦は下式のようにして定義される。

このようにして、ベクトル生成部でのベクトルの生成、類似度算出部での類似度の算出を各ｉ，ｊ（０≦ｉ，ｊ≦ｎ）について繰り返し、すべてのベクトル間の類似度の算出を行なう。

このようにして算出されたベクトル間の類似度は、類似度保持部において保持される。ここでは行列形式で保持することとし、これをＲと表す。行列Ｒ＝（ｒ_ij）（０≦ｉ，ｊ≦ｎ）は、行、列ともに語集合Ｔに対応し、ｒ_ijは語ｔ_iと語ｔ_jの類似度である。

ここでは、説明の簡略化のため、すべての語の組について類似度を算出し終えてから関連語の収集を行なうものとしているが、必ずしもそのように行なう必要はない。ある語についてその他すべての語との関連度を算出し、その都度シソーラスに書き出すようにすれば、データ構造はリストでよいし、その方がメモリ効率もよくなる。

関連語収集部は、行列Ｒを参照しながら、各語ｔ_i（０≦ｉ≦ｎ）についてｔ_i との類似度があらかじめ定められた閾値γより大きな語を収集し、これを類似度の順に降順にソートする。それをシソーラス形式に表現したものがシソーラスであり、語ｔ_i についての関連語が関連度の大きな順に関連度付きで保持されることになる。

なお、類似度行列Ｒは対称行列であることが最初から分っているので、上三角部分の要素だけを計算し、それを下三角部分にコピーすることにより、類似度算出のコストを大幅に減少させることができる。

以上、図５に示したシソーラス自動構築システムを構成する機能モジュール毎の処理動作について説明してきた。図６には、このシソーラス自動構築システム全体についての処理手順をフローチャートの形式で示している。

まず、ソース・データを形態素解析し、シソーラス掲載の語を抽出する。次いで、文書の粗い構文解析を行なった後、ソース・データから文脈を抽出する。

そして、各語の各文脈に対する重みを算出し、これを行列形式で保持する。文脈に対応する複数の行列においてあらかじめ与えられた文脈に対する重みで対応する行列を正規化し、連結を行なう。これは複数の文脈にまたがった大きな文脈ベクトルを生成するためである。

次いで、語間の類似度を算出するため、連結した行列から語に対応する文脈ベクトルを取り出し、ベクトル間の類似度を算出する。

最終的には、語と類似度の高い語を収集し、シソーラス形式に書き出すことになる。

図７には、図６に示した処理手順のうち、語−文脈行列から類似度行列を生成するためのより詳細な処理手順をフローチャートの形式で示している。同図では、語−文脈行列から類似度行列Ｒを生成する流れを示している。ここでは、類似度行列の上三角部分を生成し、それを下三角にコピーする場合について説明する。

まず、語集合Ｔから語ｔ_iを選んで、ｉより大きなすべてのｊに対して語ｔ_jとの類似度を算出する。これをすべてのｉについて行ない、行列Ｒの上三角部分の要素を設定する。最終的には、Ｒの上三角部分を下三角部分にコピーし、語間の類似度を保持する類似度行列Ｒを完成させる。

図８には、図５に示したシソーラス自動構築システムの変形例を示している。図示のシステムは、類似度統合部をさらに備えている点や、重み保持部での重みの管理方法、ベクトル生成部並びに類似度算出部における処理動作の点で上述したシステムとは相違する。

重み保持部では、上記の［数３］に示したように、文脈の種類毎に分離した形で重みの管理を行ない、行列の連接は行なわない。また、正規化は、各文脈の重み係数にて行なうのではなく、列の総和がすべて１になるように正規化する。但し、文脈の種類が異なっても列の総和がすべて同じということが重要であり、必ずしも列の総和が１である必然性はない。

ベクトル生成部では個々の行列からベクトルを生成し、類似度算出部では個々の行列内でのベクトルの類似度を算出し、類似度統合部では複数の類似度を統合的に扱い、１つの数値からなる類似度を生成する。以下では、これを具体的に説明する。

上記の［数３］で示したように、３種類の文脈から構成された行列をＡ₁、Ａ₂、Ａ₃とする。語ｔ_iと語ｔ_jの類似度を算出する際、まず各行列Ａ_kからｉ行とｊ行のベクトルｕ^k _i，ｕ^k _jを取り出し、先と同じ余弦により類似度ｒ^k _ijを算出する。次に、異なる文脈の類似度を統合した最終的な語ｔ_iと語ｔ_jの類似度ｒ_ijを下式のように線形結合で定義する。

ここで、α_iは各文脈の重み係数である。また、ここでは異なる文脈を統合した類似度を線形結合にて定義したが、その他、以下のようなものが考えられる。

図９には、図５に示したシソーラス自動構築システムについてさらに他の変形例を示している。図示のシステムは、重み算出部が出現算出部に代わり、重み保持部が出現保持部に代わり、ベクトル生成部を持たない点で、図６に示したシステム構成とは相違する。また、類似度算出部は、図６に示した該当機能モジュールとは類似度の算出方法が相違する。

図９に示すシステムでは、語間の類似度の算出において確率的手法を利用する。この際、語が文脈に出現するか否かが重要であり、語の文脈に対する重みは重要ではない。出現算出部と出現保持部は、この点を踏まえ、図５並びに図８に示した重み算出部並びに重み保持部を簡略化したものである。

出現算出部では、語の文脈での出現のみを算出し、重みの算出は行なわない。また、出現保持部では、上記の［数３］に示したように、文脈の種類毎に分離した形で重みの管理を行ない、行列の連接は行なわない。図８に示したシステムとの相違点として、重み保持部では行列要素が小数になるのに対して、図９に示したシステムでは語が文脈に出現するか否かの０か１が保持されることになる。

また、図８に示したシステムと同様に、類似度算出部では個々の行列内（文脈内）で語間の類似度を算出するが、類似度の算出においてはベクトル間類似度ではなく確率的手法を利用する。確率的手法としては、相互情報量、カイ二乗検定、ｔ検定、対数尤度など、さまざまなものが利用可能であるが、ここでは相互情報量を利用する。一般に、相互情報量は出現頻度の高い語同士に関してはよい結果を示すが、出現頻度の低い語同士については過度に見積もる傾向があることが知られている。その理由により、語間の類似度の算出において対数尤度を利用されることがある（非特許文献６を参照のこと）。

個々の行列内での語ｔ_iの出現確率をＰ（ｔ_i）、語ｔ_iと語ｔ_jの共起確率（同時に出現する確率）をＰ（ｔ_i＆ｔ_j）とすると、語ｔ_iと語ｔ_jの相互情報量は下式のようにして定義される。

行列毎に算出された語間の類似度の統合は類似度統合部において行なわれるが、その処理は、図８に示したシステムの場合と同様である。

Ｂ−２．共起度行列を利用する場合
共起度行列の場合も基本的な方式は語−文脈行列の場合に似ている。図１０には、異なる文脈から構築された４つの共起度行列を示している。図示のように、共起度行列においては、行、列ともに語に対応する正方行列となり、行列要素には２つの語の個々の文脈内での共起数が記述される。

ここで、Ａ_iの要素がＴＦで定められている場合、Ｂ_i＝Ａ_i×Ａ_i ^t（Ａ_iとＡ_iの転置行列の積）という関係が成立する。語の重みの設定がＴＦ−ＩＤＦを用いたり、後で説明する「文書のメタ言語情報の活用」、「語の重みの計算方法」により文脈における語の重みに調整が加えられる場合でも、Ａ_i×Ａ_i ^tをＢ_iとおくことで、共起数での行列要素の定め方より精緻な語間の関係をとらえることができる。本明細書ではこれを「共起度」と呼んでいる。共起度行列Ｂ_iは語−文行列Ａ_iとその転置行列Ａ_i ^tの積に相当することから、語−文脈行列を利用する場合よりも、共起度行列を利用する場合の方が、語間の強弱の関係をより顕著にとらえていると言える。

索引語間の類似度の計算方式は、語−文脈行列での方式（連接方式、結合方式）に加えて、下式に基づく方式も可能である。

上式のように行列を重み係数で線形結合し、行列Ｂを作る。その結果の行列がそのまま類似度行列となり、（ｉ，ｊ）成分の要素が語ｔ_iと語ｔ_jの類似度となる。若しくは、Ｂの行毎にベクトル間の類似度を算出し、それを語間の関連度として利用することも可能である。

共起度行列を利用する場合のシソーラス構築のシステムは、図５に示した語−文脈行列を利用するシソーラス構成システムとの相違点として、類似度統合部をさらに備えていることが挙げられる。また、重み保持部での重みの管理方法や、ベクトル生成部並びに類似度算出部における処理手順が図５に示したシステムとは異なる。

ここで、前項Ｂ−１と同様に、３種類の異なる種類の文脈Ｃ₁，Ｃ₂，Ｃ₃を想定する。

共起数算出部では、各文脈ｃ^k _i（０≦ｋ≦３，０≦ｉ≦ｍ_i）毎に文脈内での任意の２つの語ｔ_i，ｔ_j（０≦ｉ，ｊ≦ｎ）の共起数ｂ^k _ijを算出する。

共起数保持部では、データ構造として行列を利用し、文脈毎に行も列も語集合Ｔに対応し、行列要素としては語間の共起数が格納された行列Ｂ₁，Ｂ₂，Ｂ₃で共起数を管理する。

次に、共起数保持部では、個々の行列Ｂ₁，Ｂ₂，Ｂ₃が生成された後、重み係数β₁，β₂，β₃でそれぞれ正規化し、連接を行なう。まず、各行列の各列の総和がβ_kになるよう正規化を行なう。これは、各行列内での文脈の扱いが均等にすると同時に、各行列をβ_kで重み付けすることに相当する。次に、行列Ｂ₁，Ｂ₂，Ｂ₃を横に連接して新たな行列Ｂ（ｎ行３×ｎ列）を作成する。

以降、行列Ｂを用いて、ベクトル間の類似度を算出することで語間の類似度を定める方法は、図５に示した語−文脈行列を利用するシソーラス構築システムの場合と同様である。図５に示した実施形態で行列Ａを上記のＢに置き換えればよい。

また、共起度行列を利用するシソーラス構築システムは、図８に示した語−文脈行列を利用するシステム構成と同様に、重み算出部と重み保持部をそれぞれ共起数算出部及び共起数保持部に置き換えて構成することができる。

この場合、共起数算出部における処理動作は上述と同様である。また、共起数保持部では、上記の式［数１１］に示したように、文脈の種類毎に分離した形で共起数の管理を行ない、重み係数による正規化、行列の連接は行なわない。

その他、利用する行列の記号（Ａ_kがＢ_kに）、行列の重み係数の記号（α_kがβ_kに）が変わる以外は図８に示したシステムと同様である。

図１１には、共起度行列を利用したシソーラス構築システムについての変形例を示している。

ここでも、前項Ｂ−１と同様に、３種類の異なる種類の文脈Ｃ₁，Ｃ₂，Ｃ₃を想定する。

語抽出部、文脈抽出部、並びに共起数算出部の処理動作は上述と同様である。

また、共起数保持部では、上記の式［数１１］で示したように、文脈の種類毎に分離した形で共起数の管理を行ない、行列の連接、重み係数による正規化は行なわない。

共起数統合部は、共起数保持部での３つ行列Ｂ₁，Ｂ₂，Ｂ₃を重み係数β₁，β₂，β₃で線形結合し、新たな行列Ｂを作成する。

行列Ｂは行、列ともに語集合Ｔに対応し、（ｉ，ｊ）成分の要素は語ｔ_iと語ｔ_jの異なる文脈での共起数の統合値になる。これを類似度としてそのまま利用し、類似度保持部では、この情報を保持する。

関連語収集部における処理動作は、上述と同じである。

図１１に示した共起度行列を利用したシソーラス構築システムについての変形例として、ベクトル生成部と類似度算出部をさらに備えることができる。

ベクトル生成部は、図１１に示した共起数統合部により算出された行列Ｂから語ｔ_iと語ｔ_jに対応するベクトルｕ，ｖを生成する。

また、類似度生成部における語間の類似度の算出方法は、図５に示したシステムの該当機能モジュールと同様である。

また、共起度行列を利用したシソーラス構築システムについてのさらに他の変形例として、共起数算出部における共起数の算出方法を変更することができる。

図５に示したシソーラス構築システムの重み保持部での行列Ａ₁、Ａ₂、Ａ₃の重みがＴＦで算出されているとき、各行列とその転置行列の積Ａ_k×Ａ_k ^tの（ｉ，ｊ）成分の要素は語ｔ_i，ｔ_jの共起数となる。これを一般化し、ＴＦでの重み算出以外の場合も含め、共起度算出部ではＡ_k×Ａ_k ^tの（ｉ，ｊ）成分で語ｔ_i，ｔ_jの共起度を定義する。そして、共起度保持部では、この情報を保持する。

共起度行列を利用するシソーラス構築システムにおいて、Ｂ_kをＡ_k×Ａ_k ^tとして算出する以外は、語−文脈行列を用いるシステム構成の場合と同様である。

Ｃ．文書の社会的文脈の活用
文書は社会的産物である。文書がどのような人にどのような状況で作成され、どのような場所で利用されたか、どのような経路で流通されたか、などといった文書に付随する属性情報はどれも、文書の持つ社会的文脈の１つである。換言すれば、文書が持つ属性は文書に出現する語の文脈すなわち社会的文脈であるとも言える。

例えば、ファイル（文書）は通常、フォルダ（又はディレクトリ）と呼ばれる階層構造に分類されて管理される。異なるファイルが同一のフォルダに分類された場合、それはユーザが「これらファイルは同種のものである」というメッセージを分類という操作を通して埋め込んだと考えることができる。

また、１人の人間の活動を考えると、ある時期はユーザ・インターフェースの研究に従事し、その後、自然言語処理の研究に携わる、などというように、１人の人間の活動や興味は長いスパンで見ると緩やかに変化することが多い。このように考えると、時間的に近い時期に作成された２つの文書は、時間的に離れた時期に作成された２つの文書よりも関連性が強い可能性が高い。

さらには、組織図上で同じグループに属す人の作成した２つの文書は、異なるグループに属す人が作成した２つの文書よりも関連性が強いことが予想できる。

このように、文書はそれが作成、利用される文脈を持ち、この文脈を基に文書間の関連性を予想することは妥当のことであると本発明者らは思料する。文書は、上述したように、保管場所や作成時期などの属性、すなわち社会的文脈に基づいた暗黙の関連性を持っていると言うことができる。

従来のシソーラス自動構築技術はいずれも、文書が持つこのような社会的文脈を切り離し、テキストの表層的関係のみを扱ってきた。これに対し、本発明者らは、文書の社会的文脈を考慮してシソーラスを構築することにより、文脈の数を増やすだけでなく、個人のワーク・スタイルや好みをより強く反映したシソーラスの構築が可能と考える。とりわけ、データの絶対量が不足する個人シソーラスの構築においては、文書の社会的文脈を考慮することは有益であると考えられる。

図１２には、文書の社会的文脈について例示している。図示の例では、同一のフォルダに異なるファイルＡ及びＢが分類されている。ここで、これらのファイルＡ及びＢ内でともにＢｏｌｄｏｎ及びＦｉｎｋｅという語が出現したとする。

共起ウィンドウの幅が１つの文書を超えない従来の手法では、図１２に示した例では「共起しない」とみなされる。これに対し、本発明では、このような文書が持つ社会的文脈をシソーラス構築に積極的に利用する。したがって、「狭い文脈での共起はないものの、広い文脈で共起している」、すなわち、「共起度は低いが、共起している」とみなすことができる。また同様に、時間的に近い日時に作成された異なる文書に出現する２つの語も「広い文脈で共起している」とみなすことができる。

文書が持つ社会的文脈をシソーラス構築に積極的に取り入れることにより、語の文脈を広くとらえ、語の文脈を増やすことで、語の利用のされ方に関する統計的有意性が出易くすることができる。但し、文書の社会的文脈を利用する効果は決してこれだけにとどまるものではない。フォルダを用いた文書の分類の仕方は人それぞれに異なる、すなわち個人の活動のスタイルや好みに依存する。したがって、語の共起関係にこのような文脈を活用することで、その人のワーク・スタイルや好みを反映した、よりパーソナルな（その人らしい）シソーラスの構築を実現することができる。

文書が持つ社会的文脈として利用できるものを、以下に列挙しておく。例えば、人が文書を思い出す文脈として何を利用するかということを分析することにより（例えば、非特許文献３並びに非特許文献４を参照のこと）、社会的文脈を得ることができる。

上記に示した社会的文脈のうち、１から５は一般に、ファイル・システム又はファイルの属性として、現行のオペレーティング・システム（ＯＳ）で自動的に情報の取得が可能である。これに対して、６以降は文書に対するメタデータを必要とすることもある。

図１３には、社会的文脈を利用したシソーラス自動構築システムの構成例を模式的に示している。図示のシステムでは、社会的文脈としては、「文書」や「文書の置き場所（フォルダ階層）」、「文書の登録日時」などを利用することができる。

語抽出部では、図５に示したシソーラス自動構築システムの場合と同様に、ソース・データを解析し、シソーラス登録対象の語を抽出する。

文書分類部は、文書に付随する属性を基に、文書の分類を行なう。具体的には、文書の置き場所（フォルダ階層）や、登録日時などを基に分類を行なう。文書の置き場所を基に分類する場合は、文書のファイル・パスを利用し、同一フォルダに属すファイルのグループとして分類を行なうことができる。勿論、２階層以上のフォルダに関して分類することも可能である。また、登録日時を基に分類を行なう場合は、同じ週、月、年毎の分類が可能である。ここでは、月での分類を想定する。グループに交わりがないよう完全に月で分類してもよいが、その場合３月３１日と４月１日は１日しか違わないのに異なるグループに分類されてしまうことになる。そこで、ここではグループの交わりを許し、登録日時の幅が１ヵ月以内という条件で分類を行なう。このようにすることで、１つの文書は複数のグループに属すことになり、グループ（文脈）の数も増える。

文脈抽出部は、文書分類部での分類体系も含め、文脈（すなわち文書が持つ社会的文脈）の抽出を行なう。ここでは、「文書」、「文書の置き場所（フォルダ階層）」、「文書の登録日時」の３種類の文脈を想定し、これを以下のようにＣ₁，Ｃ₂，Ｃ₃とする。

ここで、文脈集合「文書」Ｃ₁ は、文書集合がそのまま文脈集合となるためｍ₁＝ｎという関係が成立する。文脈集合「文書の置き場所」Ｃ₂と「文書の登録日時」Ｃ₃は、文書を分類したものが文脈集合となるため文脈数は文書数ｌよりも小さくなり、ｍ₂≦ｌ，ｍ₃≦ｌという関係が成立する。

上述した以外の機能モジュールについては、図５に示したシソーラス自動構築システムの該当モジュールと同様に実現することができるので、ここでは説明を省略する。また、上述したような方法により文書グループも含めた文脈の抽出を行なった後は、図５、図８、図９に示したシソーラス自動構築システムにおけると同様の類似度計算方法を適用することができる。

最後に、社会的文脈の取得方法について説明しておく。文書（ファイル）の作成日時や、更新日時、参照日時、ファイル・タイプに関しては、通常のＯＳではファイルの属性として付与されているので、それを利用すればよい。その他は、本実施形態においては基本的に文書の付属情報として最初から付与されていることを前提としている。なお、キーワードや論文の概要の下などに付与されているものを想定している。また、情報箱（登録商標）のように検索の手がかりとして付与されるものもある。前後のイベントは、ファイルの日時属性を基に、ソフトウェアのスケジュール帳から、その前後の日時のイベントを取得したり、Ｗｅｂ上でのニュース情報から前後のイベントを取得したりする。

Ｄ．文書のメタ言語情報を活用したシソーラスの自動構築
前節Ｃでは、文書に与えられるさまざまな属性の利用を検討したが、中でも属性値として言語情報が与えられることも少なくない。ここでは、それを効果的に活用することを考える。

文書の言語属性の典型例として、ファイルにおけるファイル名、ファイルの属すフォルダのフォルダ名を挙げることができる。ファイル名はファイルの内容を説明する象徴的な属性であると考えれば、ファイル名で利用されている単語は、その文書の特徴を表す重要な語であると判断するのは妥当なことである。また、複数のファイルをまとめたフォルダのフォルダ名で利用されている単語は、複数の文書を束ねる象徴的な語であると考えることができる。したがって、シソーラスの自動構築に活用できるメタ言語情報として以下のようなものを挙げることができる。

●ファイル名
●文書の属すフォルダ名、パス名
●文書のタイトル
●文書のキーワード
●文書の利用目的
●文書で引用している他の文書の書誌情報

メタ言語情報としてファイル名を使用する場合を例に説明する。文書内の語がファイル名にも出現する場合、それは「その語が文書内で重要な位置をしめる」と考えることにする。これをシソーラス構築にどのように反映させるかを説明する。

まず、語−文脈行列を利用してシソーラスの自動構築を行なう場合について説明する。語ｔ_iが文書ｄ_jのファイル名に出現する場合、図４に示した行列Ａ₃の（ｉ，ｊ）成分に１より大きな係数αをかける、又は０より大きな係数α'を加える。

また、共起度行列を利用してシソーラスの自動構築を行なう場合には、語ｔ_iが文書ｄ_jのファイル名に出現したら、図１０に示した行列Ｂ₃のｉ行の各成分に１より大きな係数βをかける、又は０より大きな係数β'を加える。さらに、各共起度行列は対称行列であるので、行列Ｂ₃も対称行列にする。

文書のメタ言語情報を活用したシソーラス自動構築システムは、図１３に示したものと同様のシステム構成となる。

この場合、重み算出部では、図１３に示した実施例と同様、３種類の文脈Ｃ₁（文書）、Ｃ₂（文書の置き場所）、Ｃ₃（文書の登録日時）について、語の個々の文脈に対する重みを算出する。行が語集合Ｔ、列が各文脈Ｃ_kに対応し、要素が語の文脈に対する重みとなる３つの行列Ａ₁，Ａ₂，Ａ₃を作成する（［数３］を参照のこと）。

次に文書を文脈とするＣ₁に関して、文書のファイル名に出現する語の重みを増加させる。まず、ファイル名を形態素解析し、図５に示した実施形態の場合と同様、名詞を抽出する。但し、形態素解析処理は必須ではなく、例えばパターンマッチで出現をチェックするという方法でもよい。そして、文書ｃ¹ _j（＝ｄ_j）のファイル名に出現する語集合をＴ_jとする。すべての語集合Ｔの個々の語ｔ_iについて、それがｋ番目の文書のファイル名の語集合Ｔ_jにも出現する場合、行列Ａ₁の要素ａ¹ _ijの値を増加させる。増加の方法としては、重み係数γをかけたり、足したり、又はべき乗するなどということが考えられる。これにより、語ｔ_iの文脈ｃ¹ _jに対する重要性を増加させたこととなる。

重み算出部で実行される処理手順について、フローチャートの形式で図１４に示しておく。

Ｅ．語の重みの計算方法
情報検索の技術領域では、文脈における語の重みを算出する際、文脈を特定付ける程度を示す「特定性（ｓｐｅｃｉｆｉｃｉｔｙ）」と、文脈を漏れなく抽出する「網羅性（ｅｘｈａｕｓｔｉｖｉｔｙ）」の重要性が指摘されている。ちなみに、前者が検索の「精度（ｐｒｅｃｉｓｉｏｎ）」の向上に関わる指標で、後者が「再現率（ｒｅｃａｌｌ）」に関わる指標である。

しばしば利用される指標として、前者に出現文脈が小さいほど高い値を示す（若しくは語の偏在性を示す）ＩＤＦ、後者に語の出現頻度ＴＦとがあり、これらを組み合わせたＴＦ−ＩＤＦが経験的に効果的な重み付け手法とされている（例えば、非特許文献１１を参照のこと）。

しかし、個人が自らの興味や関心、仕事に基づいて作成、収集した文書に対して、ＩＤＦをそのまま適用することには問題がある。個人の蓄積する文書集合は、一般的なものと比べて、その内容について偏在性が高い。そのような個人の文書集合の中で出現文書頻度が高い語ｔがあったとして、語ｔがＩＤＦの指標に基づいて重要でない（特定性が低い）と判断するのは妥当でない、と本発明者らは考える。何故ならば、一般的な文書では偏在する語であっても、個人文書では、その個人が持つ専門性ゆえに偏在しないことがありえるからである。

語ｔは、一般的な意味で高頻度で利用される重要性の低い語ではなく、その人にとって非常に重要な言葉であるがために高頻度で利用されたのかもしれない。例えば、個人が属す組織や研究プロジェクト、共同研究者の名前などがそれにあたる。このような語についてＩＤＦを利用することで、その重要性が落とされてしまっては、その人らしさを表現するものとしての個人シソーラスの意義は消えてしまう。

このような問題に対処するため、本実施形態では、個人の文書集合（これを「個人文書集合」と呼ぶことにする）の他に、世の中の全文書集合の中からランダムに抽出した文書集合（これを「一般文書集合」と呼ぶことにする）を別途用意し、語のＩＤＦについては一般文書集合でのＩＤＦ値を利用することとする。さらに、個人文書集合から算出したＴＦ値と一般文書集合でのＩＤＦ値を組み合わせてＴＦ−ＩＤＦを利用することを考える。これにより、一般文書集合では使用頻度は低く、個人文書集合において使用頻度が高い語が重要視されるという語の重み計算を実現することができる。一般文書集合として、実際には、ニュース記事や統計言語処理用に提供されているコーパスを利用することができる。

通常のＴＦ−ＩＤＦでは、ＴＦもＩＤＦも同じ文書集合（この場合は個人文書集合）から算出される。これに対し、本実施形態では、ＴＦとＩＤＦは、異なる文書集合から算出されたものを利用するという点で相違する。

図１５には、上述した語の重み計算方法を利用したシソーラス自動構築システムの構成例を示している。図示のシステムは、個人シソーラス構築用の個人文書集合の他に、ＩＤＦの計算用に一般文書集合並びに一般語抽出部をさらに備えているという点で、図５に示したシステム構成と相違する。また、重み抽出部における語の重み計算の処理手順が他の実施形態と相違する。なお、一般文書集合と対比させ、ソース・データである個人組織や文書集合を一般文書集合と呼ぶ。

一般語抽出部は、一般文書集合を解析して、語とその文書頻度（語が出現する文書の頻度）を計算する。まず、テキストを形態素解析し、名詞を抽出する。語抽出部とは異なり、頻度に応じた切り捨てや不要語リストに掲載されている語の削除を行なわず、すべての語を抽出する。そして、抽出した語について、下表のような語とその出現文書数からなる文書頻度テーブルを作成する。ここで言う文書の単位は、必ずしもファイルに限定されることはなく、ニュースの記事や段落など、テキストの意味的な塊であれば何でもよい。

重み算出部では、各語の各文脈に対する重みを算出する。ここで、一般文書集合での文書頻度に反比例して重みが増加するような重みの算出方法として、語ｔ_iの文脈ｃ^k _jでの重みａ^k _ijを下式のように定める。ここで、Ｎは一般文書集合での全文書数であり、ｄｆ_iは一般文書集合での語ｔ_iの文書頻度である。

また、重み算出部では、下式に示す重みの算出方法を用いることもできる。ここで、ｔｆ_ijは語ｔ_iの文脈ｃ^k _jでの出現頻度、Ｎは一般文書集合での全文書数、ｄｆ_iは一般文書集合での語ｔ_iの文書頻度である。

Ｆ．個人的な語の取得を利用したシソーラスの自動構築
個人のメモや日記、電子メールのような文章は、個人や特定の組織内でのみ通用する造語や略語、専門用語が利用されることがある。このような単語は形態素解析の辞書に登録されていないため抽出されることはない。しかし、このような個人的な語や専門用語にこそ、個人や組織の特徴が表現されており、個人シソーラス構築の観点からは抽出が欠かせないものである。ここでは、このような個人的な語や分野に依存した専門用語を取得するための方式について説明する。

通常、コンピュータでの日本語入力では、かな漢字変換を利用する。かな漢字変換のシステムでは、かな漢字変換辞書を持つが、このかな漢字変換辞書はユーザがカスタマイズを可能にするため、ユーザ辞書を保持することが可能である。

ユーザ辞書にはかな漢字変換辞書に登録されていない語がユーザにより登録されるため、ユーザ独自の表現や語、分野に依存した専門用語が多数登録されることとなる。さらに、ユーザ辞書は日本語入力の生産性に大きな影響を与えるため、ユーザにより日常的にメンテナンスされることが多い。本実施形態では、シソーラス構築において個人的な語や専門用語を取得するため、かな漢字変換におけるユーザ辞書を活用することを考える。

かな漢字変換システムは、標準的に装備される一般辞書とユーザ辞書が独立しても受けられることもあれば、これらを統合して単一の仮名漢字変換辞書を持つこともある。ここでは、便宜上、仮名漢字変換時書中でユーザによってカスタマイズされた部分をユーザ辞書と呼ぶことにする。

図１６には、かな漢字変換システムから取得された個人的な語を利用したシソーラス自動構築システムの構成例を示している。図示のシステムは、かな漢字変換辞書保持部が装備されている点、並びに語抽出部における処理動作が図５に示したシソーラス自動構築システムと相違する。

通常、日本語入力システムにおけるフロントエンドに相当するかな漢字変換ツールでは、ユーザ毎のカスタマイズが必要なようユーザ辞書を保持している。ユーザ辞書のデータ構造は、かな漢字変換ツールにより異なるが、少なくとも語とその品詞を保持するのが普通である。下表には、かな漢字変換用の辞書テーブルの構成例を示している。

実際には、かな漢字変換の辞書としては、どの入力をどのように変換するかを決定するため「読み」も管理される必要がある。また、かな漢字変換ツールによっては、学習の条件やコメントを保持することも可能である。但し、本発明を実現する上では、最低限「語」と「品詞」があれば十分である。汎用のかな漢字変換ツールのユーザ辞書と共有という形式をとるか、それを独自の形式に変換するかは実装の問題である。

語抽出部は、ソース・テキストを形態素解析し、名詞を抽出する。その際、辞書テーブルに記載の語も抽出するようにする。通常、形態素解析ツールは形態素の辞書を独自に保持している。そこで、その形態素辞書にかな漢字変換辞書保持部のテーブルを取り込むようにする。また、形態素解析ツールで抽出できなかった語を改めてかな漢字変換辞書保持部のテーブルで検索し、掲載されていたら抽出を行なうようにしてもよい。

以上、特定の実施形態を参照しながら、本発明について詳解してきた。しかしながら、本発明の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。

本明細書では、量的に限定された、個人や組織に限定された特殊な語や非文法的な記述を含むテキストを解析し、個人の語彙体系、連想パターンを模倣する個人シソーラスを自動構築する場合を例にとって、本発明の実施形態について説明してきた。但し、本発明の要旨は個人シソーラスの構築に限定されるものではない。汎用のシソーラスの構築においても、本発明の方式はシソーラスとしての精度の向上に貢献することができる。

また、本明細書では、概念語と関連度付きの関連語集合の組からなる概念の集合として構成されるシソーラスの自動構築について説明してきた。すなわち、個々の概念が下に示すように表現された概念の集合からなるシソーラスを構築することができる。ここで、“りんご” は概念を表す「概念語」（「見出し語」と呼ぶこともある）、“赤い”、“丸い”、“すっぱい”は概念語と関連する語であることを表す「関連語」（「属性値」又は単に「属性」と呼ぶこともある）であり、関連語に付与された数値は概念語と関連語との関係の強さを示す「関連度」である。

りんご：｛（赤い，０．４），（丸い，０．３），（すっぱい，０．１），…｝

しかしながら、概念語と関連度付きの関連語集合に関する枠組みは関連度を省略又は削除したタイプのシソーラス（すなわち、関連度を取り除いたもの）に対しても適用可能である。すなわち、本発明が対象とするシソーラスの最小構成要素は、概念語と関連語集合の組からなる概念の集合である。

要するに、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本発明の要旨を判断するためには、冒頭に記載した特許請求の範囲の欄を参酌すべきである。

図１は、シソーラスを自動構築するための処理手順を模式的に示した図である。図２は、本発明に係るシソーラス構築のアプローチとシソーラスの自動構築手順との対応関係を示した図である。図３は、本発明に係る共起度の捉え方を説明するための図である。図４は、異なる文脈から構築された４つの語-文脈行列を示した図である。図５は、語−文脈行列を利用する場合のシソーラス構築のシステム構成を示した図である。図６は、図５に示したシソーラス自動構築システム全体の処理手順を示したフローチャートである。図７は、語−文脈行列から類似度行列を生成するためのより詳細な処理手順を示したフローチャートである。図８は、図５に示したシソーラス自動構築システムの変形例を示した図である。図９は、図５に示したシソーラス自動構築システムについてさらに他の変形例を示した図である。図１０は、異なる文脈から構築された４つの共起度行列を示した図である。図１１は、共起度行列を利用したシソーラス構築システムについての変形例を示した図である。図１２は、文書が持つ社会的文脈の一例を示した図である。図１３は、社会的文脈を利用したシソーラス自動構築システムの構成例を模式的に示した図である。図１４は、文書のメタ言語情報を活用する場合の重み算出処理の手順を示したフローチャートである。図１５は、異なる文書集合から算出されたＴＦとＩＤＦを用いた語の重み計算方法を利用したシソーラス自動構築システムの構成例を模式的に示した図である。図１６は、かな漢字変換システムから取得された個人的な語を利用したシソーラス自動構築システムの構成例を模式的に示した図である。

Claims

文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築する情報処理システムであって、
文書集合から語を抽出する語抽出手段と、
文書集合から複数の種類の文脈を抽出する文脈抽出手段と、
前記語抽出手段により抽出された各語について、前記文脈抽出手段により抽出された文脈毎に重みを算出する重み算出手段と、
語の各文脈に対する重みを基に、同じ傾向を示す語が高い類似度を示すように語間の類似度を算出する類似度算出手段と、
算出された語間の類似度に基づいて、個々の語について類似度の高い語を関連語として収集する関連語収集手段と、
を具備することを特徴とする情報処理システム。
前記類似度算出手段は、語の各文脈での重みを要素とする文脈ベクトルを生成し、文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出する、
ことを特徴とする請求項１に記載の情報処理システム。
前記類似度算出手段は、語の各種類の文脈での重みを要素とする文脈ベクトルを生成する、
ことを特徴とする請求項２に記載の情報処理システム。
前記類似度算出手段は、個々の文脈毎に、語の各文脈での重みを要素とするベクトルを生成し、
文脈毎の語間の類似度を統合して統合的類似度を算出する類似度統合手段をさらに備え、
前記関連語収集手段は、統合的類似度に基づいて個々の語について関連度の高い語を関連語として収集する、
ことを特徴とする請求項２に記載の情報処理システム。
前記類似度算出手段は、前記語抽出手段により抽出された各語について、前記文脈抽出手段により抽出された各文脈での出現数を基に出現確率を算出し、同種類の文脈内での前記出現確率に基づいて語の類似度を算出して、文脈毎の語間の類似度を統合して統合的類似度を算出する、
ことを特徴とする請求項１に記載の情報処理システム。
前記類似度算出手段は、各語の各文脈における出現頻度に基づいて算出された重みを表現した行列ＡとＡの転置行列を掛け合わせたものの対応する要素からなる共起度を類似度として算出する、
ことを特徴とする請求項１に記載の情報処理システム。
文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築する情報処理システムであって、
文書集合から語を抽出する語抽出手段と、
文書集合から複数の種類の文脈を抽出する文脈抽出手段と、
前記語抽出手段によって抽出された各語について、前記文脈抽出手段によって抽出された文脈内での異なる語間の共起する数を算出する共起数算出手段と、
各文脈での共起する数に基づいて対応する語間の類似度を算出する類似度算出手段と、
算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集手段と、
を具備することを特徴とする情報処理システム。
前記語抽出手段により抽出された各語について異なる語との共起する数を要素とする文脈ベクトルを生成するベクトル生成手段をさらに備え、
前記類似度算出手段は、文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出する、
ことを特徴とする請求項７に記載の情報処理システム。
前記類似度算出手段は、各語の各文脈において算出された重みを表現した行列ＡとＡの転置行列を掛け合わせたものの対応する要素からなる共起度を類似度として算出する、
ことを特徴とする請求項７に記載の情報処理システム。
文書の属性情報に基づいて、文書を複数のグループに分類する文書分類手段をさらに備え、
前記文脈抽出手段は、グループを文脈の１つとして文脈の抽出を行なう、
ことを特徴とする請求項１乃至７のいずれかに記載の情報処理システム。
前記文書分類手段は、文書が持つ社会的文脈を文書の属性情報として文書の各グループへの分類を行なう、
ことを特徴とする請求項１０に記載の情報処理システム。
前記文書分類手段は、文書の置き場所、文書に付随する日時、ファイル・タイプ、文書を作成した人、文書を共有した人、文書を作成し又は共有した人が所属する組織図、文書を利用した場所、文書の利用目的、文書のタイトル、文書の検索に利用するキーワード、文書の分類キーワード、文書の提出先、文書の執筆者又は共著者、文書間の引用関係、文書の入手場所又は入手方法、文書を作成し変更し又は参照した前後に生じたイベントのうち少なくとも１つを文書の属性情報として文書の各グループへの分類を行なう、
ことを特徴とする請求項１０に記載の情報処理システム。
前記重み算出手段は、ある文脈のメタ言語情報に出現する語についての当該文脈における重みを調整する、
ことを特徴とする請求項１に記載の情報処理システム。
前記重み算出手段は、文書のファイル名に利用されている語、文書が属するフォルダのフォルダ名に出現する語、文書のタイトルに出現する語、文書のキーワードに出現する語、文書の提出先に出現する語、文書の引用文献に出現する語、文書の入手場所に出現する語のうち少なくとも１つについての文脈に対する重みを調整する、
ことを特徴とする請求項１３に記載の情報処理システム。
特定の個人や組織によらない一般の文書の集合からなる一般文書集合から語を抽出する一般語抽出手段と、
抽出された一般語の前記一般文書集合における文脈頻度を算出する一般語文脈頻度算出手段と、
をさらに備え、
前記重み算出手段は、前記語抽出手段により抽出された各語について、前記一般文書集合で語が出現する文脈の数（文脈頻度）に反比例する重みを算出する、
ことを特徴とする請求項１に記載の情報処理システム。
前記重み算出手段は、抽出された各語について前記第１の文書集合中の文脈での出現頻度に比例する第１の重みを算出するとともに、抽出された各語について第２の文書集合で出現する文脈の数（文脈頻度）に反比例する第２の重みを算出し、各語についての第１の重みと第２の重みを統合して文脈に対する重みとする、
ことを特徴とする請求項１に記載の情報処理システム。
前記重み算出手段は、抽出された各語について特定の個人や組織による個人文書集合中の文脈での出現頻度に比例する重みＴＦを算出するとともに、抽出された各語について特定の個人や組織によらない一般文書集合で出現する文脈の数（文脈頻度）に反比例する重みＩＤＦを算出し、各語についての重みＴＦとＩＤＦを統合して文脈に対する重みとする、
ことを特徴とする請求項１に記載の情報処理システム。
語の各文脈での重みを要素とする文脈ベクトルを生成するベクトル生成手段をさらに備え、
前記類似度算出手段は、文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出する、
ことを特徴とする請求項１７に記載の情報処理システム。
文書集合として日本語文書を扱うとともに、日本語入力のかな漢字変換辞書を備え、
前記語抽出手段は、前記かな漢字変換辞書に登録された語も抽出する、
ことを特徴とする請求項１、５、１７のいずれかに記載の情報処理システム。
文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築するための処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、前記コンピュータを、
文書集合から語を抽出する語抽出手段、
文書集合から複数の種類の文脈を抽出する文脈抽出手段、
前記語抽出手段により抽出された各語について、前記文脈抽出手段により抽出された文脈毎に重みを算出する重み算出手段、
語の各文脈に対する重みを基に、同じ傾向を示す語が高い類似度を示すように語間の類似度を算出する類似度算出手段、
算出された語間の類似度に基づいて、個々の語について類似度の高い語を関連語として収集する関連語収集手段、
として機能させるためのコンピュータ・プログラム。
文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築するための処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、前記コンピュータを、
文書集合から語を抽出する語抽出手段、
文書集合から複数の種類の文脈を抽出する文脈抽出手段、
前記語抽出手段において抽出された各語について、前記文脈抽出手段において抽出された文脈内での異なる語間の共起する数を算出する共起数算出手段、
各文脈での共起する数に基づいて対応する語間の類似度を算出する類似度算出手段、
算出された語間の類似度に基づいて、個々の語について関連度の高い語を関連語として収集する関連語収集手段と、
として機能させるためのコンピュータ・プログラム。
文書集合に含まれる語を抽出し、個々の語について関連語のリストを持つシソーラスを構築するための処理をコンピュータ上で実行するようにコンピュータ可読形式で記述されたコンピュータ・プログラムであって、前記コンピュータを、
文書集合から語を抽出する語抽出手段、
文書集合から複数の種類の文脈を抽出する文脈抽出手段、
前記語抽出手段により抽出された各語について、特定の個人や組織による個人文書集合中の文脈での出現頻度に比例する重みＴＦを算出するとともに、抽出された各語について特定の個人や組織によらない一般文書集合で出現する文脈の数（文脈頻度）に反比例する重みＩＤＦを算出し、各語についての重みＴＦとＩＤＦを統合して文脈に対する重みとする重み算出手段、
語の各文脈での重みを要素とする文脈ベクトルを生成するベクトル生成手段、
文脈ベクトル間の類似度に基づいて対応する語間の類似度を算出して、同じ傾向を示す語が高い類似度を示すように語間の類似度を算出する類似度算出手段、
算出された語間の類似度に基づいて、個々の語について類似度の高い語を関連語として収集する関連語収集手段、
として機能させるためのコンピュータ・プログラム。