JP2019511040A

JP2019511040A - テキスト情報クラスタ化方法及びテキスト情報クラスタ化システム

Info

Publication number: JP2019511040A
Application number: JP2018544207A
Authority: JP
Inventors: フー，ジーハオ; チャン，カイ; カイ，ニン; ヤン，シュウ; チュー，ウェイ
Original assignee: アリババグループホウルディングリミテッド
Priority date: 2016-02-29
Filing date: 2017-02-16
Publication date: 2019-04-18
Also published as: TW201734850A; WO2017148267A1; CN107133238A; US20180365218A1

Abstract

本出願の一実施形態は、テキスト情報クラスタ化方法及びシステムを開示している。クラスタ化方法は、複数のテキスト情報のそれぞれに対して単語セグメント化を実行するステップと、複数の第１レベルトピックを形成するべく、単語セグメント化が実行された複数のテキスト情報に対して初期クラスタ化を実行するステップであって、第１レベルトピックのそれぞれは、少なくとも２つのテキスト情報を含む、ステップと、予め設定された規則に従って、第１レベルトピックのそれぞれの下のテキスト情報の数に基づいて第１レベルトピックのそれぞれの下の第２レベルトピックの数を判定するステップと、複数の第２レベルトピックを形成するべく、第１レベルトピックのそれぞれの下の第２レベルトピックの数に従って第１レベルトピックのそれぞれに含まれている少なくとも２つのテキスト情報に対して第２クラスタ化を実行するステップとを含む。本出願においては、初期クラスタ化において、階層クラスタ化方法を使用することにより、第１レベルトピックの合計数が減少し、これにより、演算効率が改善され、第２クラスタ化において、第２レベルトピックの数が、テキスト情報の数に従って動的に判定され、これにより、第２レベルトピックの演算速度が加速される。

Description

本出願は、２０１６年２月２９日付で出願され「TEXT INFORMATION CLUSTERING METHOD AND TEXT INFORMATION CLUSTERING SYSTEM」と題された中国特許出願第２０１６１０１１２５２２．Ｘ号の優先権を主張するものであり、この特許文献の内容は、引用により、そのすべてが本明細書に包含される。

技術分野
本出願は、テキスト処理の分野に関し、且つ、更に詳しくは、テキスト情報クラスタ化方法及びテキスト情報クラスタ化システムに関する。

背景
対応するトピックに応じたテキスト情報に対するテキストクラスタ化の実行は、テキスト処理の分野において非常に重要な用途を有する。テキスト情報は、極めて広いカバレッジを有し、且つ、膨大な量のテキスト情報が日々生成されている。従って、大規模なテキストクラスタ化分析の実行は、非常に重要である。

既存のテキスト情報クラスタ化分析は、トピックの数が増大した場合に、演算が低速となり、且つ、過大な演算リソースを占有することになる。その一方で、トピックの数が限られている場合には、異なるトピックの記事が１つに混合されることになり、この結果、最終的な結果に影響が及ぶことになる。

従って、演算が低速であり、且つ、過大な演算リソースが占有される、という従来技術の問題点を解決するべく、新しいテキスト情報クラスタ化技術を提案する必要がある。

発明の概要
上述の問題点に鑑み、本出願の実施形態は、上述の問題点に対処し得る、或いは、上述の問題点を少なくとも部分的に解決し得る、テキスト情報クラスタ化方法及びテキスト情報クラスタ化システムを提供するべく、提案されるものである。

上述の問題点を解決するべく、本出願の一実施形態は、
複数のテキスト情報のそれぞれに対して単語セグメント化を実行するステップと、
複数の第１レベルトピックを形成するべく、単語セグメント化が実行された複数のテキスト情報（multiple pieces of text information）に対して初期クラスタ化を実行するステップであって、第１レベルトピックのそれぞれは、少なくとも２つのテキスト情報を含む、ステップと、
第１レベルトピックのそれぞれの下のテキスト情報の数に基づいて第１レベルトピックのそれぞれの下の第２レベルトピックの数を判定するステップと、
複数の第２レベルトピックを形成するべく、第１レベルトピックのそれぞれの下の第２レベルトピックの数に従って第１レベルトピックのそれぞれに含まれている少なくとも２つのテキスト情報に対して第２クラスタ化を実行するステップと
を含むテキスト情報クラスタ化方法を開示する。

本発明の別の実施形態は、
複数のテキスト情報のそれぞれに対して単語セグメント化を実行するように構成された単語セグメント化モジュールと、
複数の第１レベルトピックを形成するべく、単語セグメント化が実行された複数のテキスト情報に対して初期クラスタ化を実行するように構成された初期クラスタ化モジュールであって、第１レベルトピックのそれぞれは、少なくとも２つのテキスト情報を含む、初期クラスタ化モジュールと、
予め設定された規則に従って、第１レベルトピックのそれぞれの下のテキスト情報の数に基づいて第１レベルトピックのそれぞれの下の第２レベルトピックの数を判定するように構成されたトピック数判定モジュールと、
複数の第２レベルトピックを形成するべく、第１レベルトピックのそれぞれの下の第２レベルトピックの数に従って第１レベルトピックのそれぞれに含まれている少なくとも２つのテキスト情報に対して第２クラスタ化を実行するように構成された第２クラスタ化モジュールと
を含むテキスト情報クラスタ化システムを開示している。

結論として、本出願の実施形態において提案されるテキスト情報クラスタ化方法及びテキスト情報クラスタ化システムは、少なくとも以下の利点を有する。

実施形態において提案されるテキスト情報クラスタ化方法及びテキスト情報クラスタ化システムにおいては、階層クラスタ化方法が使用され、且つ、第１レベルトピックの合計数が初期クラスタ化において減少しており、これにより、演算効率が改善され、且つ、システムリソースの消費が低減されている。第２クラスタ化において、第２レベルトピックの数が、テキスト情報の数に従って動的に判定されており、これにより、それぞれの第２レベルトピックの下のテキスト情報の平均数が減少し、且つ、第２レベルトピックの演算速度が加速されている。

本発明の一実施形態に従って使用される潜在ディリクレ配分法（ＬＤＡ：Latent Dirichlet Allocation）アルゴリズムの概略原理図である。本発明の第１実施形態によるテキスト情報クラスタ化方法のフローチャートである。本発明の第２実施形態によるテキスト情報クラスタ化方法のフローチャートである。本発明の第３実施形態によるテキスト情報クラスタ化方法のフローチャートである。本発明の第４実施形態によるテキスト情報クラスタ化システムのブロック図である。本発明の第５実施形態によるテキスト情報クラスタ化システムのブロック図である。

詳細な説明
以下、本出願の実施形態の添付図面を参照し、本出願の実施形態の技術的解決策について明瞭且つ十分に説明することとする。説明対象の実施形態は、本出願の実施形態の、すべてではなく、いくつか、であるに過ぎないことが明らかである。創造的な努力を伴うことなしに本出願の実施形態に基づいて当業者によって案出されるすべてのその他の実施形態は、本出願の保護範囲に含まれる。

本出願の核心概念の１つは、アルゴリズムを使用することにより、複数のテキスト情報に対して２回以上にわたってクラスタ化を実行することと、初期クラスタ化の後に複数の第１レベルトピックを生成することと、次いで、それぞれの第１レベルトピックの下のテキスト情報の数に従ってそれぞれの第１レベルトピックの下の第２レベルトピックの数を判定することと、複数の第２レベルトピックを生成するべく、それぞれの第１レベルトピックの下の第２レベルトピックの数に従ってそれぞれの第１レベルトピックの下の少なくとも２つのテキスト情報に対して第２クラスタ化を更に実行することとにある。

例えば、システムは、５０００個のテキスト情報のクラスタ化を実行する必要がある。本出願において提供されているテキスト情報クラスタ化方法によれば、５０００個のテキスト情報は、アルゴリズムを使用することにより、５つの第１レベルトピックにまずクラスタ化することができる。初期クラスタ化の後に、第１レベルトピックの下のテキスト情報の数は、それぞれ、１０００個、１５００個、５００個、１８００個、及び２００個である。次いで、それぞれの第１レベルトピックの下に含まれているテキスト情報の数に従って、それぞれの第１レベルトピックを分割するべき第２レベルトピックの数が判定される。例えば、手作業による分析又はアルゴリズムによるパラメータ設定を通じて、５つの第１レベルトピックを、それぞれ、１０個、１５個、５個、１８個、及び２個の第２レベルトピックに分割する必要があると判定することができる。次いで、１０個、１５個、５個、１８個、及び２個の第２レベルトピックを生成するべく、第２レベルトピックの数に従って第２クラスタ化がそれぞれの第１レベルトピックに対して実行され、それぞれの第２レベルトピックは、いくつかのテキスト情報を含む。

当業者にはわかるように、実際に処理するべきテキスト情報の数は、一般に、５０００個をはるかに超えており、桁違いに大きい場合もある。本発明の上述の例は、特定の限定を課すものではなく、理解の促進を意図したものに過ぎない。

本出願の実施形態においては、複数のテキスト情報は、潜在ディリクレ配分法（ＬＤＡ）アルゴリズムを使用することにより、クラスタ化することができる。ＬＤＡアルゴリズムは、第２レベル文書トピックアルゴリズム用のアルゴリズムである。このアルゴリズムは、ベイズのフレームワークを既存のｐＬＳＡアルゴリズムに導入しており、文書生成モデルを相対的に良好に表すことができる。その具体的な実装ステップは、以下のとおりである。

第１に、すべての文書内のそれぞれの単語が特定のテキスト情報のトピックから選択されると共に、このトピックが特定の確率分布をも充足しているものと仮定される。図１は、ＬＤＡアルゴリズムの原理図を示している。図１に示されているように、テキスト情報のトピックは、θというパラメータを有する多項分布に従っており、事前分布は、αというパラメータを有するディリクレ分布であり、且つ、ｚは、トピック分布から得られたトピックを示しているものと仮定される。それぞれのトピックごとに、トピックの下の単語も、φというパラメータを有する多項分布に従っており、且つ、この部分の事前分布は、βというパラメータを有するディリクレ分布であるものと仮定される。全部でｋ個のトピックが存在しており、且つ、対応する単語が、それぞれのランダムに選択されたトピックの対応する分布から取得されるものと仮定される。図１において、Ｍは、記事の数を示しており、Ｎは、単語の数を示しており、Ｋは、トピックの数を示しており、ｗは、単語を示しており、濃い色は、観察され得るコンテンツを示しており、ブロックは、反復を示しており、且つ、反復の数は、右下隅の文字によって表されている。モデル化の完了の際に、最終的なパラメータ推定をギブスサンプリングによって完了させる。ＬＤＡアルゴリズムを使用することにより、クラスタ化が完了した後に、複数のテキスト情報がアルゴリズムに従って特定のトピックにクラスタ化され、それぞれの第１レベルトピックは、関係する複数のテキスト情報を含む。

実際の動作においては、トピックの数が３００個超となった後に、ＬＤＡクラスタ化アルゴリズムは、非常に低速で稼働し、且つ、多数のリソースを占有する。同時に、トピックの数の制限に起因して、理想的な数のトピックを実現することができない。従って、最終的な結果においては、明らかに、いくつかの関係のないトピックが１つに混合されると共に１つのトピックの下にグループ化されており、これにより、テキスト情報クラスタ化において多数の問題が生成される。

本出願において提案されるテキスト情報クラスタ化方法においては、階層クラスタ化方法を使用することにより、階層ＬＤＡクラスタ化フレームワークが構築され、且つ、第１レベルトピックの合計数が初期クラスタ化において減少し、これにより、演算効率が改善され、且つ、システムリソースの消費が低減されている。第２クラスタ化において、第２レベルトピックの数がテキスト情報の数に従って動的に判定され、これにより、それぞれの第２レベルトピックの下のテキスト情報の平均数が減少し、第１レベルトピックの間の結合解除が実現され、且つ、並行的な方式により、第２レベルトピックの演算速度が加速されている。

以下、複数の特定の実施形態を通じて、本出願において提案されるテキスト情報クラスタ化方法及びテキスト情報クラスタ化システムについて具体的に説明する。

第１実施形態
本出願の第１実施形態においては、テキスト情報クラスタ化方法が提案される。図２は、本出願の一実施形態によるテキスト情報クラスタ化方法のフローチャートを示している。本出願の第１実施形態によるテキスト情報クラスタ化方法は、以下のステップを含む。

ステップＳ１０１：複数の単語を形成するべく、単語セグメント化が複数のテキスト情報のそれぞれに対して実行される。

このステップにおいては、まず、テキスト情報のそれぞれに対して単語セグメント化を実行することができる。例えば、「Python is an object-oriented interpretation-type computer program design language」は、「Python/is/an/object-/oriented/interpretation-/type/computer/program/design/language」にセグメント化することができる。

１つの文は、このステップにおける処理を通じて、いくつかの単語にセグメント化され、これにより、後の処理動作が促進される。

このステップにおいては、テキスト情報内に存在している単語を予め設定された単語ライブラリ内の単語と比較することができる。テキスト情報内に存在している単語が単語ライブラリ内の単語と同一である際には、その単語をセグメント化することができる。この文脈において言及されている単語は、単語又はフレーズであってよいことに留意されたい。例えば、テキスト情報内の「oriented」は、テキスト情報内の「oriented」が単語ライブラリ内の「oriented」と同一である際に、別個にセグメント化され、テキスト情報内の「type」は、テキスト情報内の「type」が単語ライブラリ内の「type」と同一である際に、別個にセグメント化される。

次いで、ステップＳ１０２を実行することが可能であり、ここでは、初期クラスタ化が、複数の第１レベルトピックを形成するべく、単語セグメント化が実行された複数のテキスト情報に対して、複数の単語に従って、実行されるが、この場合に、第１レベルトピックのそれぞれは、少なくとも２つのテキスト情報を含む。

このステップにおいて、例えば、初期クラスタ化は、上述のＬＤＡアルゴリズムを使用することにより、テキスト情報のすべてに対して実行することができる。初期クラスタ化においては、多数のテキスト情報が存在していることから、第１レベルトピックの数を相対的に小さな値に設定することが可能であり、これにより、過大な演算リソースの消費に起因した演算の低速化が防止される。初期クラスタ化を通じて、テキスト情報をいくつかの第１レベルトピックに大まかに分類することができる。それぞれの第１レベルトピックは、サイズが様々であり、且つ、異なる数のテキスト情報を含み得る。

例えば、上述の例によれば、５０００個のテキスト情報がクラスタ化される場合、５０００個のテキスト情報は、このステップにおいて、ＬＤＡアルゴリズムを使用することにより、５つの第１レベルトピックにクラスタ化される。第１レベルトピックの下に含まれているテキスト情報の数は、例えば、それぞれ、１０００個、１５００個、５００個、１８００個、及び２００個である。

次いで、ステップＳ１０３を実行することが可能であり、ここでは、第１レベルトピックのそれぞれの下の第２レベルトピックの数が、予め設定された規則に従って、第１レベルトピックのそれぞれの下のテキスト情報の数に基づいて判定される。

このステップにおいては、それぞれの第１レベルトピックの下の第２レベルトピックの数は、ＬＤＡアルゴリズムのパラメータ設定、又は人工的な設定を使用することにより、それぞれの第１レベルトピックの下のテキスト情報の数に従って判定することができる。それぞれの第１レベルトピックの下の第２レベルトピックの数は、同一であってもよく、或いは、異なっていてもよい。

ここで、予め設定された規則は、例えば、それぞれの第２レベルトピックに含まれているテキスト情報の予め設定された数がＸである、というものであってもよい。Ｘの範囲は、Ｍ≦Ｘ≦Ｎであり、この場合に、Ｍ及びＮは、開発者又は使用者によって指定された値である。例えば、９０≦Ｘ≦１１０である場合に、Ｘについて平均値１００を選択することができる。これに基づいて、上述の例のそれぞれの第１レベルトピックの下に含まれている第２レベルトピックの数は、１０００／１００＝１０、１５００／１００＝１５、５００／１００＝５、１８００／１００＝１８、及び２００／１００＝２として算出することができる。

次いで、ステップＳ１０４を実行することが可能であり、ここでは、複数の第２レベルトピックを形成するべく、第２クラスタ化が、第１レベルトピックのそれぞれの下の第２レベルトピックの数に従って第１レベルトピックのそれぞれに含まれている複数のテキスト情報に対して、複数の単語に従って、実行される。

このステップにおいては、上述のＬＤＡアルゴリズムを使用することにより、テキスト情報のすべてに対して第２クラスタ化を実行することができる。第２クラスタ化においては、指定された数の第２レベルトピックを生成するべく、第１レベルトピックを分割するべき第２レベルトピックの数に従って、例えば、ＬＤＡアルゴリズムを使用することにより、それぞれの第１レベルトピックの下の複数のテキスト情報がクラスタ化される。

例えば、第２クラスタ化は、それぞれ、１０個、１５個、５個、１８個、及び２個の第２レベルトピックを生成するように、上述の例に従って、それぞれの第１レベルトピックごとに実行される。それぞれの第２レベルトピックは、テキスト情報のいくつかを含む。

このステップにおいては、それぞれの第１レベルトピック内の複数のテキスト情報の第２クラスタ化のプロセスが独立していることから、第２クラスタ化プロセスは、同時に又は並行して処理することが可能であり、これにより、演算速度が増大される。

この実施形態において提案されるテキスト情報クラスタ化方法においては、上述の方式によるテキスト情報クラスタ化方法において、階層クラスタ化方法が使用される。初期クラスタ化において、第１レベルトピックの合計数が減少し、これにより、演算効率が改善され、且つ、システムリソースの消費が低減されている。第２クラスタ化においては、第２レベルトピックの数が、テキスト情報の数に従って動的に判定され、これにより、それぞれの第２レベルトピックの下のテキスト情報の平均数が減少し、且つ、第２レベルトピックの演算速度が加速されている。

第２実施形態
本出願の第２実施形態においては、テキスト情報クラスタ化方法が提案される。図３は、本出願の第２実施形態によるテキスト情報クラスタ化方法のフローチャートを示している。本出願の第２実施形態によるテキスト情報クラスタ化方法は、以下のステップを含む。

ステップＳ２０１：複数の単語を形成するべく、単語セグメント化が複数のテキスト情報のそれぞれに対して実行される。

ステップＳ２０２：初期クラスタ化が、ＬＤＡアルゴリズムを使用することにより、且つ、複数の単語に従って、複数の第１レベルトピックを形成するべく、単語セグメント化が実行された複数のテキスト情報に対して実行され、この場合に、第１レベルのトピックのそれぞれは、少なくとも２つのテキスト情報を含む。

ステップＳ２０３：第１レベルトピックのそれぞれの下の第２レベルトピックの数が、予め設定された規則に従って、第１レベルトピックのそれぞれの下のテキスト情報の数に基づいて判定される。

ステップＳ２０４：複数の第２レベルトピックを形成するべく、第２クラスタ化が、第１レベルトピックのそれぞれの下の第２レベルトピックの数に従って、第１レベルトピックのそれぞれに含まれている複数のテキスト情報に対して、複数の単語に従って（ＬＤＡアルゴリズムを使用することにより）、実行され、この場合に、第２レベルトピックのそれぞれは、複数のテキスト情報を含む。

４つのステップ、即ち、ステップＳ２０１〜ステップＳ２０４、は、第１実施形態におけるステップＳ１０１〜ステップＳ１０４と同一であるか又はこれらに類似しており、且つ、従って、ここでの詳細な説明は省略する。

この実施形態においては、ステップＳ２０１の後に、方法は、以下のステップを更に含み得る。

Ｓ２０１ａ：シンボル、英単語、及び／又は数値の存在がテキスト情報内において検出された場合に、シンボル、英単語、及び／又は数値と、テキスト情報との間の相関の程度が判断される。

Ｓ２０１ｂ：シンボル、英単語及び／又は数値と、テキスト情報との間の相関の程度が、指定された値を下回っていると判断された場合に、シンボル、英単語及び／又は数値が削除される。

上述のステップにおいて、シンボルは、「＆」又は「％」などの別個のシンボルであってもよく、リンクなどの様々なシンボル、数値、及び文字から構成されたコンテンツであってもよい。ステップＳ２０１ａにおいて、シンボルとテキスト情報のコンテンツとの間の相関の程度は、特定の方法を使用することにより判断されており、相関程度が低いと判断された場合にシンボルが削除される。

同様に、英単語とテキスト情報のコンテンツとの間の相関の程度が判断される。例えば、テキスト情報が「El Nino phenomenon (El Nino)」を含む際には、「El Nino」という英単語のみが注釈として機能する。英単語は、注釈のみであると判断された場合は削除することができる。

同様に、数値とテキスト情報のコンテンツとの間の相関の程度も、同一の方式により、判断することができる。数値は、相関程度が低いと判断された場合に削除される。

ステップ２０１ｃ：単語セグメント化のときに、英単語の存在がテキスト情報内において検出された場合、英単語は、１つの単語として個々にセグメント化される。

このステップにおいては、例えば、上述の例において、「Python」は、テキスト情報のコンテンツと非常に相関している。もし「Python」が削除された場合には、正確な分類を得るためにテキスト情報の意味を正確に理解することが不可能である。この実施形態においては、「Python」という単語を１つの単語として個別にセグメント化することが可能であり、保持することができる。

Ｓ２０１ｄ：単語セグメント化の後の単語のそれぞれが、予め設定された停止リスト内の単語と同一であるかどうかが検出される。

Ｓ２０１ｅ：予め設定された停止リスト内の単語と同一であると検出された単語セグメント化の後のすべての単語が削除される。

上述のステップにおいて、単語セグメント化の後の結果は、一般に、「De（的）、Le（了）、Guo（過）」などのいくつかの意味のない単語を含む。これらの単語は、結果に対して有用ではなく、多数の演算ストレージリソースをも占有する。従って、これらの単語は、演算の前に、フィルタリングによって除去しておく必要がある。具体的な方式は、以下のようなものであってもよく、即ち、予め設定された停止リスト内において、「De（的）、Le（了）、Guo（過）」などの意味のない単語を収集することができる。このような単語がテキスト情報内に存在している場合は、これらの単語は、テキスト情報から削除される。これに加えて、実際の動作のときには、例えば、テキスト情報のいくつかのソースマーク及びこれらに類似したものなどの、正常な分類を妨げるいくつかの単語が存在する可能性がある。これらの単語も、予め設定された停止リスト内において収集することができる。このような単語がテキスト情報内に存在している場合は、これらの単語は、テキスト情報から削除される。

これに加えて、上述のステップ、即ち、ステップＳ２０１ａ及びＳ２０１ｂ、ステップＳ２０１ｃ、並びに、ステップＳ２０１ｄ及びＳ２０１ｅ、は、順番に実行されるのではなく、選択的に実行され得ることにも留意されたい。

この実施形態においては、ステップＳ２０２の後に、即ち、複数の第１レベルトピックを形成するべく、単語セグメント化が実行された複数のテキスト情報に対してＬＤＡアルゴリズムを使用することにより初期クラスタ化を実行するステップの後に、テキスト情報クラスタ化方法は、以下のステップを更に含み得る。

Ｓ２０２ａ：含まれているテキスト情報の数が第１の値未満である、２つ以上の第１レベルトピックを１つの第１レベルトピックにマージする。

このステップにおいては、それぞれの第１レベルトピックの下のテキスト情報の数が第１の閾値未満であるかどうかを、アルゴリズムにより、或いは、手作業により、検出することができる。結果が肯定的である場合には、第１レベルトピックは、後の演算のために、別の第１レベルトピックとマージされる。

例えば、上述の例によれば、ステップＳ２０２におけるクラスタ化によって形成された第１レベルトピックの下に含まれているテキスト情報の数は、それぞれ、１０００個、１５００個、５００個、１８００個、及び２００個である。第１の閾値が３００に設定されている場合には、最後の第１レベルトピックに含まれているテキスト情報の数は、第１の閾値未満であると判断することができる。このケースにおいては、最後の第１レベルトピックを別のトピックとマージすることが可能であり、例えば、最後の第１レベルトピックは、第３の第１レベルトピックとマージされ、次いで、第２レベルトピックがクラスタ化される。

本実施形態において提案されるテキスト情報クラスタ化方法においては、上述の方式によるテキスト情報クラスタ化方法において、階層クラスタ化方法が使用される。初期クラスタ化において、第１レベルトピックの合計数が減少し、これにより、演算効率が改善され、且つ、システムリソースの消費が低減されている。第２クラスタ化において、第２レベルトピックの数が、テキスト情報の数に従って動的に判定され、これにより、それぞれの第２レベルトピックの下のテキスト情報の平均数が減少し、且つ、第２レベルトピックの演算速度が加速されている。同時に、クラスタ化の際に、意味のない単語及び／又はシンボルが削除され、少数のテキスト情報を含む第１レベルトピックがマージされ、演算方法が更に最適化され、且つ、演算負荷が低減されている。

第３実施形態
本出願の第３実施形態においては、テキスト情報クラスタ化方法が提案される。図４は、本出願の第３実施形態によるテキスト情報クラスタ化方法のフローチャートを示している。本出願の第３実施形態によるテキスト情報クラスタ化方法は、以下のステップを含む。

ステップＳ３０１：複数の単語を形成するべく、単語セグメント化が複数のテキスト情報のそれぞれに対して実行される。

ステップＳ３０２：初期クラスタ化が、複数の第１レベルトピックを形成するべく、単語セグメント化が実行された複数のテキスト情報に対して、ＬＤＡアルゴリズムを使用することにより、且つ、複数の単語に従って、実行され、この場合に、第１レベルトピックのそれぞれは、少なくとも２つのテキスト情報を含む。

ステップＳ３０３：予め設定された規則に従って、第１レベルトピックのそれぞれの下の第２レベルトピックの数が、第１レベルトピックのそれぞれの下のテキスト情報の数に基づいて判定される。

ステップＳ３０４：複数の第２レベルトピックを形成するべく、第２クラスタ化が、第１レベルトピックのそれぞれの下の第２レベルトピックの数に従って、第１レベルトピックのそれぞれに含まれている少なくとも２つのテキスト情報に対して、複数の単語に従って（ＬＤＡアルゴリズムを使用することにより）実行される。

４つのステップ、即ち、ステップＳ３０１〜ステップＳ３０４は、第１実施形態のステップＳ１０１〜ステップＳ１０４と同一であるか又はこれらに類似しており、且つ、従って、ここでの詳細な説明は、省略する。

この実施形態においては、第１実施形態のステップＳ１０４又は第２実施形態のステップＳ２０４が完了した後に、ステップＳ３０５及びステップＳ３０６が実行される。ステップＳ３０５において、第２クラスタ化の後に生成された複数の第２レベルトピックのマッチング程度が評価され、ステップＳ３０６において、マッチング程度の評価結果が取得され、評価結果が、クラスタ化が不適である、というものである場合は、マッチング程度の評価結果に従ってＬＤＡアルゴリズムのパラメータが調節される。

このステップにおいて、マッチング程度の評価結果が、クラスタが不適である、というものである場合は、例えば、トピックの数、低頻度単語の頻度閾値、マージを必要としているトピックに含まれているテキスト情報の数の閾値、停止リストのコンテンツなどを調節することができる。トピックの数は、例えば、図１のｋの値である。低頻度単語の頻度閾値は、例えば、手作業により、或いは、機械により、設定された閾値であってもよい。単語セグメント化がすべてのテキスト情報に対して実行された後に、１つの単語の発生頻度又はいくつかの単語の発生頻度は、閾値未満であり、且つ、そのような単語は、低頻度単語であると見なすことができる。このステップにおいては、低頻度単語の数を増大又は減少させるべく、低頻度単語の頻度閾値を調節することが可能であり、これにより、クラスタ化の結果に影響が及ぶ。マージを必要としているトピックに含まれているテキスト情報の数の閾値は、例えば、手作業又は機械によって設定された閾値である。１つ又は複数のトピックに含まれているテキスト情報の数が特定の閾値未満である場合は、それらのトピックは、マージする必要があるものと見なすことができる。この閾値を変更することにより、相対的に大きなマージ閾値又は相対的に小さなマージ閾値を設定することが可能であり、これにより、クラスタ化の結果に影響が及ぶ。停止リストは、例えば、第２実施形態において提供されている表であってもよく、この表は、複数の停止単語を保存することができる。停止単語のコンテンツを調節することにより、クラスタ化の結果に影響を及ぼすことができる。

このステップにおいては、クラスタ化の後に生成された第２レベルトピックは、手動又は機械アルゴリズムにより、評価することができる。第２クラスタ化の結果は、テキスト情報が異なることに伴って、大幅に変化し得る。従って、第２クラスタ化の結果は、評価する必要がある。具体的な評価方法は、いくつかの第２レベルトピックの下のテキスト情報が同一のコンテンツに関するものであるかどうかをチェックすることと、この基準に従って、クラスタ化が適切であるかどうか、不適切な単語がキーワードとして選択されているかどうか、第２レベルトピックにおいてエイリアシングが発生しているかどうか、第１レベルトピックの数と第２レベルトピックの数が適切に選択されているかどうかなど、を判断することとを含み得る。結果が予想どおりではない場合には、必要に応じて、手動により、或いは、機械アルゴリズムに基づいて、例えば、ＬＤＡアルゴリズムのパラメータの調節やこれに類似したものなどの調節を継続することができる。

この実施形態においては、複数の第２レベルトピックを形成するべく、第１レベルトピックのそれぞれの下の第２レベルトピックの数に従って第１レベルトピックのそれぞれに含まれている複数のテキスト情報に対して第２クラスタ化を実行するステップＳ３０４の後に、方法は、以下のステップを更に含み得る。

Ｓ３０７：第２レベルトピックの下のテキスト情報の数が第２の閾値を超過しているかどうかを判断することにより、第２レベルトピックがホットトピックであるかどうかが判断される。

このステップにおいては、第２レベルトピックの下のテキスト情報の数が第２の閾値を超過している場合は、第２レベルトピックはホットトピックである、と判断することができる。第２レベルトピックがホットトピックであると判断された後に、例えば、ホットトピックがウェブサイトのホームページ上において自動的に又は手動的に表示される、ホットトピックがわかりやすくマーキングされるなど、後の動作を実行することができるが、本発明は、これらの動作に限定されるものではない。

本実施形態において提案されるテキスト情報クラスタ化方法においては、上述の方式によるテキスト情報クラスタ化方法において、階層クラスタ化方法が使用される。初期クラスタ化において、第１レベルトピックの合計数が減少し、これにより、演算効率が改善され、且つ、システムリソースの消費が低減されている。第２クラスタ化においては、第２レベルトピックの数が、テキスト情報の数に従って動的に判定され、これにより、それぞれの第２レベルトピックの下のテキスト情報の平均数が減少し、且つ、第２レベルトピックの演算速度が加速される。同時に、第２レベルトピックのクラスタ化が適切であるかどうかを評価するべく、第２クラスタ化が完了した後に、評価ステップが実行される。上述の評価ステップの追加により、クラスタ化方法を更に最適化することが可能であり、且つ、クラスタ化の精度を改善することができる。これに加えて、第２クラスタ化が完了した後に、第２の閾値との比較の際に、いずれの第２レベルトピックがホットトピックであるのかを判断することが可能であり、これにより、後の処理が促進される。

上述の実施形態においては、テキスト情報クラスタ化方法は、例えば、ニュースのクラスタ化に対して適用することができる。即ち、テキスト情報は、例えば、ニュースであってもよい。この方法を使用することにより、多数のニュースをクラスタ化することができる。クラスタ化方法は、複数の単語を形成するべく、複数のニュースのそれぞれに対して単語セグメント化を実行するステップと、複数の第１レベルトピックを形成するべく、単語セグメント化が実行された複数のニュースに対して、複数の単語に従って、初期クラスタ化を実行するステップであって、第１レベルトピックのそれぞれは、少なくとも２つのニュースを含む、ステップと、予め設定された規則に従って、第１レベルトピックのそれぞれの下のニュースの数に基づいて第１レベルトピックのそれぞれの下の第２レベルトピックの数を判定するステップと、複数の第２レベルトピックを形成するべく、第１レベルトピックのそれぞれの下の第２レベルトピックの数に従って、第１レベルトピックのそれぞれに含まれている複数のニュースに対して、複数の単語に従って、第２クラスタ化を実行するステップとを少なくとも含み得る。膨大な数のニュースが日々の生活において生成されることになることから、ニュースは、上述のステップを通じて相対的に高速でクラスタ化することが可能であり、これにより、手動による分類の複雑さ及び非効率性が回避され、分類されたニュースのユーザーによる相対的に高速の取得が促進され、且つ、ユーザー経験が改善される。

第４実施形態
本出願の第４実施形態においては、テキスト情報クラスタ化システムが提案される。図５は、本出願の第４実施形態によるテキスト情報クラスタ化システムのブロック図を示している。本出願の第４実施形態によるテキスト情報クラスタ化システム４００は、
複数の単語を形成するべく、複数のテキスト情報のそれぞれに対して単語セグメント化を実行するように構成された単語セグメント化モジュール４０１と、
複数の第１レベルトピックを形成するべく、単語セグメント化が実行された複数のテキスト情報に対して、複数の単語に従って、初期クラスタ化を実行するように構成された初期クラスタ化モジュール４０２であって、第１レベルトピックのそれぞれは、少なくとも２つのテキスト情報を含む、初期クラスタ化モジュールと、
予め設定された規則に従って、第１レベルトピックのそれぞれの下のテキスト情報の数に基づいて第１レベルトピックのそれぞれの下の第２レベルトピックの数を判定するように構成されたトピック数判定モジュール４０３と、
複数の第２レベルトピックを形成するべく、第１レベルトピックのそれぞれの下の第２レベルトピックの数に従って第１レベルトピックのそれぞれに含まれている複数のテキスト情報に対して、複数の単語に従って、第２クラスタ化を実行するように構成された第２クラスタ化モジュール４０４と
を含む。

本実施形態において提案されるテキスト情報クラスタ化システムにおいては、テキスト情報クラスタ化方法において、階層クラスタ化システムが使用される。初期クラスタ化においては、第１レベルトピックの合計数が減少し、これにより、演算効率が改善され、且つ、システムリソースの消費が低減されている。第２クラスタ化においては、第２レベルトピックの数が、テキスト情報の数に従って動的に判定され、これにより、それぞれの第２レベルトピックの下のテキスト情報の平均数が減少し、且つ、第２レベルトピックの演算速度が加速されている。

第５実施形態
本出願の第５実施形態においては、テキスト情報クラスタ化システムが提案される。図６は、本出願の第４実施形態によるテキスト情報クラスタ化システムのブロック図を示している。本出願の第５実施形態によるテキスト情報クラスタ化システムは、単語セグメント化モジュール５０１と、初期クラスタ化モジュール５０２と、トピック数判定モジュール５０３と、第２クラスタ化モジュール５０４とを含む。モジュール５０１〜５０４は、第４実施形態におけるモジュール４０１〜４０４と同一であるか又はこれらに類似しており、従って、ここでの詳細な説明は、省略する。

この実施形態においては、好ましくは、初期クラスタ化及び第２クラスタ化は、いずれも、クラスタ化のためにＬＤＡアルゴリズムを用いる。

この実施形態においては、好ましくは、システムは、
シンボル、英単語、及び／又は数値の存在がテキスト情報内において検出された場合に、シンボル、英単語、及び／又は数値と、テキスト情報との間の相関の程度を判断するように構成された相関程度判断モジュールと、
シンボル、英単語及び／又は数値と、テキスト情報との間の相関の程度が、指定された値を下回っていると判断された場合に、シンボル、英単語、及び／又は数値を削除するように構成された第１削除モジュールと
を更に含む。

この実施形態においては、好ましくは、システムは、
単語セグメント化の後の単語のそれぞれが、予め設定された停止リスト内の単語と同一であるかどうかを検出するように構成された検出モジュールと、
予め設定された停止リスト内の単語と同一であると検出された、単語セグメント化の後のすべての単語を削除するように構成された第２削除モジュールと
を更に含む。

この実施形態において、好ましくは、システムは、
含まれているテキスト情報の数が第１の値未満である、２つ以上の第１レベルトピックを１つの第１レベルトピックにマージするように構成されたマージモジュール５０５、
を更に含む。

この実施形態においては、好ましくは、第２クラスタ化モジュール５０４は、任意の２つの以上の第２クラスタ化プロセスを同時に実装するように構成されている。

この実施形態においては、好ましくは、システムは、
第２クラスタ化の後に生成された複数の第２レベルトピックのマッチング程度を評価するように構成された評価モジュール５０６と、
マッチング程度の評価結果に従ってＬＤＡアルゴリズムのパラメータを調節するように構成された調節モジュール５０７と
を更に含む。

この実施形態においては、好ましくは、システムは、
第２レベルトピックのそれぞれの下のテキスト情報の数に従って、第２レベルトピックがホットトピックであるかどうかを判断するように構成されたホットトピック判断モジュール５０８、
を更に含む。

この実施形態において提案されるテキスト情報クラスタ化システムにおいては、上述の方式によるテキスト情報クラスタ化システムにおいて、階層クラスタ化システムが使用される。初期クラスタ化においては、第１レベルトピックの合計数が減少し、これにより、演算効率が改善され、且つ、システムリソースの消費が低減されている。第２クラスタ化においては、第２レベルトピックの数が、テキスト情報の数に従って動的に判定され、これにより、それぞれの第２レベルトピックの下のテキスト情報の平均数が減少し、且つ、第２レベルトピックの演算速度が加速されている。

同時に、第２クラスタ化において、この実施形態におけるシステムは、テキスト情報の数に従って第２レベルトピックの数を動的に判定し、これにより、それぞれの第２レベルトピックの下のテキスト情報の平均数が減少し、且つ、第２レベルトピックの演算速度が加速されている。その一方で、クラスタ化する間、意味のない単語及び／又はシンボルが削除され、少数のテキスト情報を含む第１レベルトピックがマージされ、これにより、演算方法が更に最適化され、且つ、演算負荷が低減されている。

同時に、本実施形態のシステムは、第２レベルトピックのクラスタ化が適切であるかどうかを評価するように構成された評価モジュールを含み得る。上述の評価ステップの追加により、クラスタ化方法を更に最適化することが可能であり、クラスタ化の精度を改善し得る。これに加えて、この実施形態のシステムは、第２の閾値との比較の際に、いずれの第２レベルトピックがホットトピックであるのかを判断し得るホットトピック判断モジュールを含むことが可能であり、これにより、後の処理が促進される。

同様に、上述の複数の実施形態においては、テキスト情報クラスタ化システムは、例えば、ニュースのクラスタ化に適用することができる。即ち、テキスト情報は、例えば、ニュースであってもよい。このシステムを使用することにより、多数のニュースをクラスタ化することができる。クラスタ化システムは、
複数の単語を形成するべく、複数のニュースのそれぞれに対して単語セグメント化を実行するように構成された単語セグメント化モジュールと、
複数の第１レベルトピックを形成するべく、単語セグメント化が実行された複数のニュースに対して、複数の単語に従って、初期クラスタ化を実行するように構成された初期クラスタ化モジュールであって、第１レベルトピックのそれぞれは、複数のニュースを含む、初期クラスタ化モジュールと、
予め設定された規則に従って、第１レベルトピックのそれぞれの下のニュースの数に基づいて第１レベルトピックのそれぞれの下の第２レベルトピックの数を判定するように構成されたトピック数判定モジュールと、
複数の第２レベルトピックを形成するべく、第１レベルトピックのそれぞれの下の第２レベルトピックの数に従って第１レベルトピックのそれぞれに含まれている複数のニュースに対して、複数の単語に従って、第２クラスタ化を実行するように構成された第２クラスタ化モジュールと
を少なくとも含み得る。

多数のニュースが日々の生活において生成されることから、上述のステップを通じて、ニュースを相対的に高速でクラスタ化することが可能であり、これにより、手動による分類の複雑さ及び非効率性が回避され、分類されたニュースのユーザーによる相対的に高速の取得が促進され、且つ、ユーザー経験が改善される。

装置実施形態は、基本的に方法実施形態に類似しており、且つ、従って、簡単に記述されている。関係する部分については、方法実施形態の当該部分の説明を参照されたい。

本明細書の実施形態は、いずれも、漸進的な方式により、記述されており、それぞれの実施形態は、その他の実施形態とは異なる部分を強調しており、且つ、実施形態における同一の又は類似の部分は、相互に参照することにより、取得することができる。

当業者は、本出願の実施形態による実施形態は、方法、装置、又はコンピュータプログラムプロダクトとして提供され得ることを理解するであろう。従って、本出願の実施形態は、完全なハードウェア実施形態、完全なソフトウェア実施形態、或いは、ソフトウェアとハードウェアを組み合わせた実施形態の形態において実装することができる。更には、本出願の実施形態は、コンピュータ使用可能プログラムコードを含む（限定を伴うことなしに、磁気ディスクメモリ、ＣＤ−ＲＯＭ、光メモリ、及びこれらに類似したものを含む）１つ又は複数のコンピュータ使用可能ストレージ媒体上において実装されたコンピュータプログラムプロダクトの形態を有することができる。

通常の構成においては、コンピュータ装置は、１つ又は複数の中央処理ユニット（ＣＰＵ：Central Processing Unit）と、入出力インターフェイスと、ネットワークインターフェイスと、メモリとを含む。メモリは、揮発性メモリ、ランダムアクセスメモリ（ＲＡＭ：Random Access Memory）、並びに／或いは、例えば、読み出し専用メモリ（ＲＯＭ：Read-Only Memory）又はフラッシュＲＡＭなどの、不揮発性メモリ、或いは、これらに類似したものをコンピュータ可読媒体内において含み得る。メモリは、コンピュータ可読媒体の一例である。コンピュータ可読媒体は、不揮発性及び揮発性媒体のみならず、着脱自在且つ非着脱自在の媒体をも含み、且つ、任意の方法又は技術によって信号保存を実装することができる。信号は、コンピュータ可読命令、データ構造、並びに、プログラム又はその他のデータのモジュールであってもよい。コンピュータのストレージ媒体は、限定を伴うことなしに、例えば、相変化メモリ（ＰＲＡＭ：Phase Change Memory）、スタティックランダムアクセスメモリ（ＳＲＡＭ：Static Random Access Memory）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ：Dynamic Random Access Memory）、その他のタイプのＲＡＭ、ＲＯＭ、電気的に消去可能なプログラム可能な読み出し専用メモリ（ＥＥＰＲＯＭ：Electrically Erasable Programmable Read-Only Memory）、フラッシュメモリ又はその他のメモリ技術、コンパクトディスク読み出し専用メモリ（ＣＤ−ＲＯＭ：Compact Disk Read-Only Memory）、デジタルバーサタイルディスク（ＤＶＤ：Digital Versatile Disc）又はその他の光ストレージ、カセットテープ、磁気テープ／磁気ディスクストレージ又はその他の磁気ストレージ装置、或いは、任意のその他の非送信媒体を含み、且つ、演算装置からアクセス可能である信号を保存するべく使用することができる。本明細書における定義によれば、コンピュータ可読媒体は、変調されたデータ信号及び搬送波などの、一時的な媒体を含んではいない。

本出願の実施形態については、本出願の実施形態の方法、端末装置（システム）、及びコンピュータプログラムプロダクトのフローチャート及び／又はブロック図を参照して記述されている。コンピュータプログラム命令は、フローチャート及び／又はブロック図のそれぞれのプロセス及び／又はブロック、並びに、フローチャート及び／又はブロック図のプロセス及び／又はブロックの組合せ、を実装するべく使用され得ることを理解されたい。コンピュータプログラム命令は、別のプログラム可能なデータ処理端末装置のコンピュータ又はプロセッサが、命令を実行して、フローチャートの１つ又は複数のプロセス及び／又はブロック図の１つ又は複数のブロックにおいて表記されている機能を実装するように構成された装置を生成するように、機械を生成するべく、汎用コンピュータ、専用コンピュータ、埋め込み型プロセッサ、又は別のプログラム可能なデータ処理端末装置のプロセッサに提供されてもよい。

また、コンピュータプログラム命令は、コンピュータ可読ストレージ内に保存されている命令が命令装置を含む製造物品を生成するように、且つ、命令装置がフローチャートの１つ又は複数のプロセス及び／又はブロック図の１つ又は複数のブロックによって表記されている機能を実装するように、特定の方式によって機能するようにコンピュータ又は別のプログラム可能なデータ処理端末装置をガイドし得るコンピュータ可読ストレージ内において保存されてもよい。

また、コンピュータプログラム命令は、一連の動作ステップが、コンピュータ実装された処理を生成するべく、コンピュータ又は別のプログラム可能な端末装置上において実行されるように、コンピュータ又は別のプログラム可能なデータ処理端末装置内に読み込まれてもよい。従って、コンピュータ又は別のプログラム可能な端末装置内において実行された命令は、フローチャートの１つ又は複数のプロセス及び／又はブロック図の１つ又は複数のブロック内に表記されている機能を実装するためのステップを提供する。

以上、本出願の実施形態の好適な実施形態について説明した。但し、基本的な創造的概念について知ることにより、当業者は、その他の変形及び変更を実施形態に対して実施することができる。従って、添付の請求項は、本出願の実施形態の範囲に含まれる好適な実施形態及びすべての変形及び変更を含むものと解釈されることを意図している。

最後に、第１の（first）及び第２の（second）などの本明細書における関係用語は、１つのエンティティ又は動作を別のエンティティ又は動作から弁別するべく使用されているに過ぎず、且つ、エンティティ又は動作が、この実際の関係又は順序を有することを必要としてはおらず、或いは、これを意味してもいない、ことに更に留意されたい。更には、「含む（include）」や「有する（comprise）」という用語、或いは、これらのその他の変形は、一連の要素を含むプロセス、方法、物品、又は端末装置が、これらの要素を含むのみならず、明示的に列挙されてはいないその他の要素をも含むように、或いは、プロセス、方法、物品、又は端末装置の固有の要素を更に含むように、非排他的包含を含むものと解釈されたい。更なる限定が存在していない状態において、「１つの〜を含む（including a/an...）」によって定義される要素は、その要素を含むプロセス、方法、物品、又は端末装置が、その他の同一の要素を更に有することを排除してはいない。

以上、本明細書においては、本出願において提供されているテキスト情報クラスタ化方法及びテキスト情報クラスタ化システムについて詳述し、且つ、特定の例を適用することにより、本出願の原理及び実装形態について説明した。実施形態に関する上述の説明は、本出願の方法及びその核心概念の理解を支援するべく使用されるものに過ぎない。その一方で、当業者には、本出願の概念に応じた特定の実装方式及び適用範囲に対する変更が存在し得る。従って、本明細書の内容は、本出願を限定するものと解釈してはならない。

Claims

テキスト情報クラスタ化方法であって、
複数の単語を形成するべく、複数のテキスト情報のそれぞれに対して単語セグメント化を実行することと、
複数の第１レベルトピックを形成するべく、単語セグメント化が実行された前記複数のテキスト情報に対して、前記複数の単語に従って、初期クラスタ化を実行することであって、前記第１レベルトピックのそれぞれは、少なくとも２つのテキスト情報を含む、ことと、
予め設定された規則に従って、前記第１レベルトピックのそれぞれの下の前記複数のテキスト情報の数に基づいて前記第１レベルトピックのそれぞれの下の第２レベルトピックの数を判定することと、
複数の第２レベルトピックを形成するべく、前記第１レベルトピックのそれぞれの下の前記第２レベルトピックの数に従って前記第１レベルトピックのそれぞれに含まれている少なくとも２つのテキスト情報に対して、前記複数の単語に従って、第２クラスタ化を実行することと
を含む方法。
前記初期クラスタ化及び前記第２クラスタ化は、いずれも、前記複数の単語を前記複数の第１レベルトピック及び前記複数の第２レベルトピックにクラスタ化するべく、潜在ディリクレ配分法（ＬＤＡ）アルゴリズムを用いる、請求項１に記載のテキスト情報クラスタ化方法。
複数のテキスト情報のそれぞれに対して単語セグメント化を実行するステップの後に、
前記テキスト情報内においてシンボル、英単語、及び／又は数値の存在を検出した場合に、前記シンボル、前記英単語、及び／又は前記数値と、前記テキスト情報との間の相関の程度を判断することと、
前記シンボル、前記英単語、及び／又は前記数値と、前記テキスト情報との間の前記相関の程度が、指定された値を下回っていると判断された場合に、前記シンボル、前記英単語、及び／又は前記数値を削除することと
を更に含む、請求項１に記載のテキスト情報クラスタ化方法。
複数の単語を形成するべく、複数のテキスト情報のそれぞれに対して単語セグメント化を実行するステップの後に、
前記単語セグメント化の後の前記単語のそれぞれが、予め設定された停止リスト内の単語と同一であるかどうかを検出することと、
前記予め設定された停止リスト内の単語と同一であると検出された、前記単語セグメント化の後のすべての単語を削除することと
を更に含む、請求項１に記載のテキスト情報クラスタ化方法。
複数の第１レベルトピックを形成するべく、単語セグメント化が実行された前記複数のテキスト情報に対して、前記複数の単語に従って、初期クラスタ化を実行するステップの後に、
含まれている前記テキスト情報の数が第１の値を下回っている、２つ以上の第１レベルトピックを、１つの第１レベルトピックにマージすること
を更に含む、請求項１に記載のテキスト情報クラスタ化方法。
複数の第２レベルトピックを形成するべく、前記第１レベルトピックのそれぞれの下の前記第２レベルトピックの数に従って前記第１レベルトピックのそれぞれに含まれている少なくとも２つのテキスト情報に対して、前記複数の単語に従って、第２クラスタ化を実行するステップにおいて、任意の２つ以上の第２クラスタ化プロセスが同時に実行される、請求項１に記載のテキスト情報クラスタ化方法。
複数の第２レベルトピックを形成するべく、前記第１レベルトピックのそれぞれの下の前記第２レベルトピックの数に従って前記第１レベルトピックのそれぞれに含まれている少なくとも２つのテキスト情報に対して、第２クラスタ化を実行するステップの後に、
それぞれの第２レベルトピックの下の前記テキスト情報の数に従って前記第２レベルトピックがホットトピックであるかどうかを判断すること
を更に含む、請求項１に記載のテキスト情報クラスタ化方法。
複数の第２レベルトピックを形成するべく、前記第１レベルトピックのそれぞれの下の前記第２レベルトピックの数に従って前記第１レベルトピックのそれぞれに含まれている少なくとも２つのテキスト情報に対して、前記複数の単語に従って、第２クラスタ化を実行するステップの後に、
前記第２クラスタ化の後に生成された前記複数の第２レベルトピックのマッチング程度を評価することと、
前記マッチング程度の前記評価結果に従って前記ＬＤＡアルゴリズムの１つ又は複数のパラメータを調節することと
を更に含む、請求項２に記載のテキスト情報クラスタ化方法。
前記テキスト情報は、ニュースである、請求項１に記載のテキスト情報クラスタ化方法。
テキスト情報クラスタ化システムであって、
複数の単語を形成するべく、複数のテキスト情報のそれぞれに対して単語セグメント化を実行するように構成された単語セグメント化モジュールと、
複数の第１レベルトピックを形成するべく、単語セグメント化が実行された前記複数のテキスト情報に対して、前記複数の単語に従って、初期クラスタ化を実行するように構成された初期クラスタ化モジュールであって、前記第１レベルトピックのそれぞれは、少なくとも２つのテキスト情報を含む、初期クラスタ化モジュールと、
予め設定された規則に従って、前記第１レベルトピックのそれぞれの下の前記テキスト情報の数に基づいて前記第１レベルトピックのそれぞれの下の前記第２レベルトピックの数を判定するように構成されたトピック数判定モジュールと、
複数の第２レベルトピックを形成するべく、前記第１レベルトピックのそれぞれの下の前記第２レベルトピックの数に従って前記第１レベルトピックのそれぞれに含まれている少なくとも２つのテキスト情報に対して、前記複数の単語に従って、第２クラスタ化を実行するように構成された第２クラスタ化モジュールと
を含むシステム。
前記初期クラスタ化及び前記第２クラスタ化は、いずれも、前記複数の単語を前記複数の第１レベルトピック及び前記複数の第２レベルトピックにクラスタ化するべく、潜在ディリクレ配分法（ＬＤＡ）アルゴリズムを用いる、請求項１０に記載のテキスト情報クラスタ化システム。
前記テキスト情報内においてシンボル、英単語、及び／又は数値の存在を検出した場合に、前記シンボル、前記英単語、及び／又は前記数値と、前記テキスト情報との間の相関の程度を判断するように構成された相関程度判断モジュールと、
前記シンボル、前記英単語、及び／又は前記数値と、前記テキスト情報との間の前記相関の程度が、指定された値を下回っていると判断された場合に、前記シンボル、前記英単語、及び／又は前記数値を削除するように構成された第１削除モジュールと
を更に含む、請求項１０に記載のテキスト情報クラスタ化システム。
前記単語セグメント化の後の前記単語のそれぞれが、予め設定された停止リスト内の単語と同一であるかどうかを検出するように構成された検出モジュールと、
前記予め設定された停止リスト内の単語と同一であると検出された、前記単語セグメント化の後のすべての単語を削除するように構成された第２削除モジュールと
を更に含む、請求項１０に記載のテキスト情報クラスタ化システム。
前記含まれているテキスト情報の数が第１値を下回っている、２つ以上の第１レベルトピックを、１つの第１レベルトピックにマージするように構成されたマージモジュール、
を更に含む、請求項１０に記載のテキスト情報クラスタ化システム。
前記第２クラスタ化モジュールは、任意の２つ以上の第２クラスタ化プロセスを同時に実行するように構成されている、請求項１０に記載のテキスト情報クラスタ化システム。
前記第２レベルトピックのそれぞれの下の前記テキスト情報の数に従って、前記第２レベルトピックがホットトピックであるかどうかを判断するように構成されたホットトピック判断モジュール、
を更に含む、請求項１０に記載のテキスト情報クラスタ化システム。
前記第２クラスタ化の後に生成された前記複数の第２レベルトピックのマッチング程度を評価するように構成された評価モジュールと、
前記マッチング程度の前記評価結果に従って前記ＬＤＡアルゴリズムのパラメータを調節するように構成された調節モジュールと
を更に含む、請求項１１に記載のテキスト情報クラスタ化システム。
前記テキスト情報は、ニュースである、請求項１０に記載のテキスト情報クラスタ化システム。