JP2019511040A - テキスト情報クラスタ化方法及びテキスト情報クラスタ化システム - Google Patents

テキスト情報クラスタ化方法及びテキスト情報クラスタ化システム Download PDF

Info

Publication number
JP2019511040A
JP2019511040A JP2018544207A JP2018544207A JP2019511040A JP 2019511040 A JP2019511040 A JP 2019511040A JP 2018544207 A JP2018544207 A JP 2018544207A JP 2018544207 A JP2018544207 A JP 2018544207A JP 2019511040 A JP2019511040 A JP 2019511040A
Authority
JP
Japan
Prior art keywords
text information
clustering
level
level topics
topics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018544207A
Other languages
English (en)
Inventor
フー,ジーハオ
チャン,カイ
カイ,ニン
ヤン,シュウ
チュー,ウェイ
Original Assignee
アリババ グループ ホウルディング リミテッド
アリババ グループ ホウルディング リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アリババ グループ ホウルディング リミテッド, アリババ グループ ホウルディング リミテッド filed Critical アリババ グループ ホウルディング リミテッド
Publication of JP2019511040A publication Critical patent/JP2019511040A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本出願の一実施形態は、テキスト情報クラスタ化方法及びシステムを開示している。クラスタ化方法は、複数のテキスト情報のそれぞれに対して単語セグメント化を実行するステップと、複数の第1レベルトピックを形成するべく、単語セグメント化が実行された複数のテキスト情報に対して初期クラスタ化を実行するステップであって、第1レベルトピックのそれぞれは、少なくとも2つのテキスト情報を含む、ステップと、予め設定された規則に従って、第1レベルトピックのそれぞれの下のテキスト情報の数に基づいて第1レベルトピックのそれぞれの下の第2レベルトピックの数を判定するステップと、複数の第2レベルトピックを形成するべく、第1レベルトピックのそれぞれの下の第2レベルトピックの数に従って第1レベルトピックのそれぞれに含まれている少なくとも2つのテキスト情報に対して第2クラスタ化を実行するステップとを含む。本出願においては、初期クラスタ化において、階層クラスタ化方法を使用することにより、第1レベルトピックの合計数が減少し、これにより、演算効率が改善され、第2クラスタ化において、第2レベルトピックの数が、テキスト情報の数に従って動的に判定され、これにより、第2レベルトピックの演算速度が加速される。

Description

本出願は、2016年2月29日付で出願され「TEXT INFORMATION CLUSTERING METHOD AND TEXT INFORMATION CLUSTERING SYSTEM」と題された中国特許出願第201610112522.X号の優先権を主張するものであり、この特許文献の内容は、引用により、そのすべてが本明細書に包含される。
技術分野
本出願は、テキスト処理の分野に関し、且つ、更に詳しくは、テキスト情報クラスタ化方法及びテキスト情報クラスタ化システムに関する。
背景
対応するトピックに応じたテキスト情報に対するテキストクラスタ化の実行は、テキスト処理の分野において非常に重要な用途を有する。テキスト情報は、極めて広いカバレッジを有し、且つ、膨大な量のテキスト情報が日々生成されている。従って、大規模なテキストクラスタ化分析の実行は、非常に重要である。
既存のテキスト情報クラスタ化分析は、トピックの数が増大した場合に、演算が低速となり、且つ、過大な演算リソースを占有することになる。その一方で、トピックの数が限られている場合には、異なるトピックの記事が1つに混合されることになり、この結果、最終的な結果に影響が及ぶことになる。
従って、演算が低速であり、且つ、過大な演算リソースが占有される、という従来技術の問題点を解決するべく、新しいテキスト情報クラスタ化技術を提案する必要がある。
発明の概要
上述の問題点に鑑み、本出願の実施形態は、上述の問題点に対処し得る、或いは、上述の問題点を少なくとも部分的に解決し得る、テキスト情報クラスタ化方法及びテキスト情報クラスタ化システムを提供するべく、提案されるものである。
上述の問題点を解決するべく、本出願の一実施形態は、
複数のテキスト情報のそれぞれに対して単語セグメント化を実行するステップと、
複数の第1レベルトピックを形成するべく、単語セグメント化が実行された複数のテキスト情報(multiple pieces of text information)に対して初期クラスタ化を実行するステップであって、第1レベルトピックのそれぞれは、少なくとも2つのテキスト情報を含む、ステップと、
第1レベルトピックのそれぞれの下のテキスト情報の数に基づいて第1レベルトピックのそれぞれの下の第2レベルトピックの数を判定するステップと、
複数の第2レベルトピックを形成するべく、第1レベルトピックのそれぞれの下の第2レベルトピックの数に従って第1レベルトピックのそれぞれに含まれている少なくとも2つのテキスト情報に対して第2クラスタ化を実行するステップと
を含むテキスト情報クラスタ化方法を開示する。
本発明の別の実施形態は、
複数のテキスト情報のそれぞれに対して単語セグメント化を実行するように構成された単語セグメント化モジュールと、
複数の第1レベルトピックを形成するべく、単語セグメント化が実行された複数のテキスト情報に対して初期クラスタ化を実行するように構成された初期クラスタ化モジュールであって、第1レベルトピックのそれぞれは、少なくとも2つのテキスト情報を含む、初期クラスタ化モジュールと、
予め設定された規則に従って、第1レベルトピックのそれぞれの下のテキスト情報の数に基づいて第1レベルトピックのそれぞれの下の第2レベルトピックの数を判定するように構成されたトピック数判定モジュールと、
複数の第2レベルトピックを形成するべく、第1レベルトピックのそれぞれの下の第2レベルトピックの数に従って第1レベルトピックのそれぞれに含まれている少なくとも2つのテキスト情報に対して第2クラスタ化を実行するように構成された第2クラスタ化モジュールと
を含むテキスト情報クラスタ化システムを開示している。
結論として、本出願の実施形態において提案されるテキスト情報クラスタ化方法及びテキスト情報クラスタ化システムは、少なくとも以下の利点を有する。
実施形態において提案されるテキスト情報クラスタ化方法及びテキスト情報クラスタ化システムにおいては、階層クラスタ化方法が使用され、且つ、第1レベルトピックの合計数が初期クラスタ化において減少しており、これにより、演算効率が改善され、且つ、システムリソースの消費が低減されている。第2クラスタ化において、第2レベルトピックの数が、テキスト情報の数に従って動的に判定されており、これにより、それぞれの第2レベルトピックの下のテキスト情報の平均数が減少し、且つ、第2レベルトピックの演算速度が加速されている。
本発明の一実施形態に従って使用される潜在ディリクレ配分法(LDA:Latent Dirichlet Allocation)アルゴリズムの概略原理図である。 本発明の第1実施形態によるテキスト情報クラスタ化方法のフローチャートである。 本発明の第2実施形態によるテキスト情報クラスタ化方法のフローチャートである。 本発明の第3実施形態によるテキスト情報クラスタ化方法のフローチャートである。 本発明の第4実施形態によるテキスト情報クラスタ化システムのブロック図である。 本発明の第5実施形態によるテキスト情報クラスタ化システムのブロック図である。
詳細な説明
以下、本出願の実施形態の添付図面を参照し、本出願の実施形態の技術的解決策について明瞭且つ十分に説明することとする。説明対象の実施形態は、本出願の実施形態の、すべてではなく、いくつか、であるに過ぎないことが明らかである。創造的な努力を伴うことなしに本出願の実施形態に基づいて当業者によって案出されるすべてのその他の実施形態は、本出願の保護範囲に含まれる。
本出願の核心概念の1つは、アルゴリズムを使用することにより、複数のテキスト情報に対して2回以上にわたってクラスタ化を実行することと、初期クラスタ化の後に複数の第1レベルトピックを生成することと、次いで、それぞれの第1レベルトピックの下のテキスト情報の数に従ってそれぞれの第1レベルトピックの下の第2レベルトピックの数を判定することと、複数の第2レベルトピックを生成するべく、それぞれの第1レベルトピックの下の第2レベルトピックの数に従ってそれぞれの第1レベルトピックの下の少なくとも2つのテキスト情報に対して第2クラスタ化を更に実行することとにある。
例えば、システムは、5000個のテキスト情報のクラスタ化を実行する必要がある。本出願において提供されているテキスト情報クラスタ化方法によれば、5000個のテキスト情報は、アルゴリズムを使用することにより、5つの第1レベルトピックにまずクラスタ化することができる。初期クラスタ化の後に、第1レベルトピックの下のテキスト情報の数は、それぞれ、1000個、1500個、500個、1800個、及び200個である。次いで、それぞれの第1レベルトピックの下に含まれているテキスト情報の数に従って、それぞれの第1レベルトピックを分割するべき第2レベルトピックの数が判定される。例えば、手作業による分析又はアルゴリズムによるパラメータ設定を通じて、5つの第1レベルトピックを、それぞれ、10個、15個、5個、18個、及び2個の第2レベルトピックに分割する必要があると判定することができる。次いで、10個、15個、5個、18個、及び2個の第2レベルトピックを生成するべく、第2レベルトピックの数に従って第2クラスタ化がそれぞれの第1レベルトピックに対して実行され、それぞれの第2レベルトピックは、いくつかのテキスト情報を含む。
当業者にはわかるように、実際に処理するべきテキスト情報の数は、一般に、5000個をはるかに超えており、桁違いに大きい場合もある。本発明の上述の例は、特定の限定を課すものではなく、理解の促進を意図したものに過ぎない。
本出願の実施形態においては、複数のテキスト情報は、潜在ディリクレ配分法(LDA)アルゴリズムを使用することにより、クラスタ化することができる。LDAアルゴリズムは、第2レベル文書トピックアルゴリズム用のアルゴリズムである。このアルゴリズムは、ベイズのフレームワークを既存のpLSAアルゴリズムに導入しており、文書生成モデルを相対的に良好に表すことができる。その具体的な実装ステップは、以下のとおりである。
第1に、すべての文書内のそれぞれの単語が特定のテキスト情報のトピックから選択されると共に、このトピックが特定の確率分布をも充足しているものと仮定される。図1は、LDAアルゴリズムの原理図を示している。図1に示されているように、テキスト情報のトピックは、θというパラメータを有する多項分布に従っており、事前分布は、αというパラメータを有するディリクレ分布であり、且つ、zは、トピック分布から得られたトピックを示しているものと仮定される。それぞれのトピックごとに、トピックの下の単語も、φというパラメータを有する多項分布に従っており、且つ、この部分の事前分布は、βというパラメータを有するディリクレ分布であるものと仮定される。全部でk個のトピックが存在しており、且つ、対応する単語が、それぞれのランダムに選択されたトピックの対応する分布から取得されるものと仮定される。図1において、Mは、記事の数を示しており、Nは、単語の数を示しており、Kは、トピックの数を示しており、wは、単語を示しており、濃い色は、観察され得るコンテンツを示しており、ブロックは、反復を示しており、且つ、反復の数は、右下隅の文字によって表されている。モデル化の完了の際に、最終的なパラメータ推定をギブスサンプリングによって完了させる。LDAアルゴリズムを使用することにより、クラスタ化が完了した後に、複数のテキスト情報がアルゴリズムに従って特定のトピックにクラスタ化され、それぞれの第1レベルトピックは、関係する複数のテキスト情報を含む。
実際の動作においては、トピックの数が300個超となった後に、LDAクラスタ化アルゴリズムは、非常に低速で稼働し、且つ、多数のリソースを占有する。同時に、トピックの数の制限に起因して、理想的な数のトピックを実現することができない。従って、最終的な結果においては、明らかに、いくつかの関係のないトピックが1つに混合されると共に1つのトピックの下にグループ化されており、これにより、テキスト情報クラスタ化において多数の問題が生成される。
本出願において提案されるテキスト情報クラスタ化方法においては、階層クラスタ化方法を使用することにより、階層LDAクラスタ化フレームワークが構築され、且つ、第1レベルトピックの合計数が初期クラスタ化において減少し、これにより、演算効率が改善され、且つ、システムリソースの消費が低減されている。第2クラスタ化において、第2レベルトピックの数がテキスト情報の数に従って動的に判定され、これにより、それぞれの第2レベルトピックの下のテキスト情報の平均数が減少し、第1レベルトピックの間の結合解除が実現され、且つ、並行的な方式により、第2レベルトピックの演算速度が加速されている。
以下、複数の特定の実施形態を通じて、本出願において提案されるテキスト情報クラスタ化方法及びテキスト情報クラスタ化システムについて具体的に説明する。
第1実施形態
本出願の第1実施形態においては、テキスト情報クラスタ化方法が提案される。図2は、本出願の一実施形態によるテキスト情報クラスタ化方法のフローチャートを示している。本出願の第1実施形態によるテキスト情報クラスタ化方法は、以下のステップを含む。
ステップS101:複数の単語を形成するべく、単語セグメント化が複数のテキスト情報のそれぞれに対して実行される。
このステップにおいては、まず、テキスト情報のそれぞれに対して単語セグメント化を実行することができる。例えば、「Python is an object-oriented interpretation-type computer program design language」は、「Python/is/an/object-/oriented/interpretation-/type/computer/program/design/language」にセグメント化することができる。
1つの文は、このステップにおける処理を通じて、いくつかの単語にセグメント化され、これにより、後の処理動作が促進される。
このステップにおいては、テキスト情報内に存在している単語を予め設定された単語ライブラリ内の単語と比較することができる。テキスト情報内に存在している単語が単語ライブラリ内の単語と同一である際には、その単語をセグメント化することができる。この文脈において言及されている単語は、単語又はフレーズであってよいことに留意されたい。例えば、テキスト情報内の「oriented」は、テキスト情報内の「oriented」が単語ライブラリ内の「oriented」と同一である際に、別個にセグメント化され、テキスト情報内の「type」は、テキスト情報内の「type」が単語ライブラリ内の「type」と同一である際に、別個にセグメント化される。
次いで、ステップS102を実行することが可能であり、ここでは、初期クラスタ化が、複数の第1レベルトピックを形成するべく、単語セグメント化が実行された複数のテキスト情報に対して、複数の単語に従って、実行されるが、この場合に、第1レベルトピックのそれぞれは、少なくとも2つのテキスト情報を含む。
このステップにおいて、例えば、初期クラスタ化は、上述のLDAアルゴリズムを使用することにより、テキスト情報のすべてに対して実行することができる。初期クラスタ化においては、多数のテキスト情報が存在していることから、第1レベルトピックの数を相対的に小さな値に設定することが可能であり、これにより、過大な演算リソースの消費に起因した演算の低速化が防止される。初期クラスタ化を通じて、テキスト情報をいくつかの第1レベルトピックに大まかに分類することができる。それぞれの第1レベルトピックは、サイズが様々であり、且つ、異なる数のテキスト情報を含み得る。
例えば、上述の例によれば、5000個のテキスト情報がクラスタ化される場合、5000個のテキスト情報は、このステップにおいて、LDAアルゴリズムを使用することにより、5つの第1レベルトピックにクラスタ化される。第1レベルトピックの下に含まれているテキスト情報の数は、例えば、それぞれ、1000個、1500個、500個、1800個、及び200個である。
次いで、ステップS103を実行することが可能であり、ここでは、第1レベルトピックのそれぞれの下の第2レベルトピックの数が、予め設定された規則に従って、第1レベルトピックのそれぞれの下のテキスト情報の数に基づいて判定される。
このステップにおいては、それぞれの第1レベルトピックの下の第2レベルトピックの数は、LDAアルゴリズムのパラメータ設定、又は人工的な設定を使用することにより、それぞれの第1レベルトピックの下のテキスト情報の数に従って判定することができる。それぞれの第1レベルトピックの下の第2レベルトピックの数は、同一であってもよく、或いは、異なっていてもよい。
ここで、予め設定された規則は、例えば、それぞれの第2レベルトピックに含まれているテキスト情報の予め設定された数がXである、というものであってもよい。Xの範囲は、M≦X≦Nであり、この場合に、M及びNは、開発者又は使用者によって指定された値である。例えば、90≦X≦110である場合に、Xについて平均値100を選択することができる。これに基づいて、上述の例のそれぞれの第1レベルトピックの下に含まれている第2レベルトピックの数は、1000/100=10、1500/100=15、500/100=5、1800/100=18、及び200/100=2として算出することができる。
次いで、ステップS104を実行することが可能であり、ここでは、複数の第2レベルトピックを形成するべく、第2クラスタ化が、第1レベルトピックのそれぞれの下の第2レベルトピックの数に従って第1レベルトピックのそれぞれに含まれている複数のテキスト情報に対して、複数の単語に従って、実行される。
このステップにおいては、上述のLDAアルゴリズムを使用することにより、テキスト情報のすべてに対して第2クラスタ化を実行することができる。第2クラスタ化においては、指定された数の第2レベルトピックを生成するべく、第1レベルトピックを分割するべき第2レベルトピックの数に従って、例えば、LDAアルゴリズムを使用することにより、それぞれの第1レベルトピックの下の複数のテキスト情報がクラスタ化される。
例えば、第2クラスタ化は、それぞれ、10個、15個、5個、18個、及び2個の第2レベルトピックを生成するように、上述の例に従って、それぞれの第1レベルトピックごとに実行される。それぞれの第2レベルトピックは、テキスト情報のいくつかを含む。
このステップにおいては、それぞれの第1レベルトピック内の複数のテキスト情報の第2クラスタ化のプロセスが独立していることから、第2クラスタ化プロセスは、同時に又は並行して処理することが可能であり、これにより、演算速度が増大される。
この実施形態において提案されるテキスト情報クラスタ化方法においては、上述の方式によるテキスト情報クラスタ化方法において、階層クラスタ化方法が使用される。初期クラスタ化において、第1レベルトピックの合計数が減少し、これにより、演算効率が改善され、且つ、システムリソースの消費が低減されている。第2クラスタ化においては、第2レベルトピックの数が、テキスト情報の数に従って動的に判定され、これにより、それぞれの第2レベルトピックの下のテキスト情報の平均数が減少し、且つ、第2レベルトピックの演算速度が加速されている。
第2実施形態
本出願の第2実施形態においては、テキスト情報クラスタ化方法が提案される。図3は、本出願の第2実施形態によるテキスト情報クラスタ化方法のフローチャートを示している。本出願の第2実施形態によるテキスト情報クラスタ化方法は、以下のステップを含む。
ステップS201:複数の単語を形成するべく、単語セグメント化が複数のテキスト情報のそれぞれに対して実行される。
ステップS202:初期クラスタ化が、LDAアルゴリズムを使用することにより、且つ、複数の単語に従って、複数の第1レベルトピックを形成するべく、単語セグメント化が実行された複数のテキスト情報に対して実行され、この場合に、第1レベルのトピックのそれぞれは、少なくとも2つのテキスト情報を含む。
ステップS203:第1レベルトピックのそれぞれの下の第2レベルトピックの数が、予め設定された規則に従って、第1レベルトピックのそれぞれの下のテキスト情報の数に基づいて判定される。
ステップS204:複数の第2レベルトピックを形成するべく、第2クラスタ化が、第1レベルトピックのそれぞれの下の第2レベルトピックの数に従って、第1レベルトピックのそれぞれに含まれている複数のテキスト情報に対して、複数の単語に従って(LDAアルゴリズムを使用することにより)、実行され、この場合に、第2レベルトピックのそれぞれは、複数のテキスト情報を含む。
4つのステップ、即ち、ステップS201〜ステップS204、は、第1実施形態におけるステップS101〜ステップS104と同一であるか又はこれらに類似しており、且つ、従って、ここでの詳細な説明は省略する。
この実施形態においては、ステップS201の後に、方法は、以下のステップを更に含み得る。
S201a:シンボル、英単語、及び/又は数値の存在がテキスト情報内において検出された場合に、シンボル、英単語、及び/又は数値と、テキスト情報との間の相関の程度が判断される。
S201b:シンボル、英単語及び/又は数値と、テキスト情報との間の相関の程度が、指定された値を下回っていると判断された場合に、シンボル、英単語及び/又は数値が削除される。
上述のステップにおいて、シンボルは、「&」又は「%」などの別個のシンボルであってもよく、リンクなどの様々なシンボル、数値、及び文字から構成されたコンテンツであってもよい。ステップS201aにおいて、シンボルとテキスト情報のコンテンツとの間の相関の程度は、特定の方法を使用することにより判断されており、相関程度が低いと判断された場合にシンボルが削除される。
同様に、英単語とテキスト情報のコンテンツとの間の相関の程度が判断される。例えば、テキスト情報が「El Nino phenomenon (El Nino)」を含む際には、「El Nino」という英単語のみが注釈として機能する。英単語は、注釈のみであると判断された場合は削除することができる。
同様に、数値とテキスト情報のコンテンツとの間の相関の程度も、同一の方式により、判断することができる。数値は、相関程度が低いと判断された場合に削除される。
この実施形態においては、ステップS201の後に、方法は、以下のステップを更に含み得る。
ステップ201c:単語セグメント化のときに、英単語の存在がテキスト情報内において検出された場合、英単語は、1つの単語として個々にセグメント化される。
このステップにおいては、例えば、上述の例において、「Python」は、テキスト情報のコンテンツと非常に相関している。もし「Python」が削除された場合には、正確な分類を得るためにテキスト情報の意味を正確に理解することが不可能である。この実施形態においては、「Python」という単語を1つの単語として個別にセグメント化することが可能であり、保持することができる。
この実施形態においては、ステップS201の後に、方法は、以下のステップを更に含み得る。
S201d:単語セグメント化の後の単語のそれぞれが、予め設定された停止リスト内の単語と同一であるかどうかが検出される。
S201e:予め設定された停止リスト内の単語と同一であると検出された単語セグメント化の後のすべての単語が削除される。
上述のステップにおいて、単語セグメント化の後の結果は、一般に、「De(的)、Le(了)、Guo(過)」などのいくつかの意味のない単語を含む。これらの単語は、結果に対して有用ではなく、多数の演算ストレージリソースをも占有する。従って、これらの単語は、演算の前に、フィルタリングによって除去しておく必要がある。具体的な方式は、以下のようなものであってもよく、即ち、予め設定された停止リスト内において、「De(的)、Le(了)、Guo(過)」などの意味のない単語を収集することができる。このような単語がテキスト情報内に存在している場合は、これらの単語は、テキスト情報から削除される。これに加えて、実際の動作のときには、例えば、テキスト情報のいくつかのソースマーク及びこれらに類似したものなどの、正常な分類を妨げるいくつかの単語が存在する可能性がある。これらの単語も、予め設定された停止リスト内において収集することができる。このような単語がテキスト情報内に存在している場合は、これらの単語は、テキスト情報から削除される。
これに加えて、上述のステップ、即ち、ステップS201a及びS201b、ステップS201c、並びに、ステップS201d及びS201e、は、順番に実行されるのではなく、選択的に実行され得ることにも留意されたい。
この実施形態においては、ステップS202の後に、即ち、複数の第1レベルトピックを形成するべく、単語セグメント化が実行された複数のテキスト情報に対してLDAアルゴリズムを使用することにより初期クラスタ化を実行するステップの後に、テキスト情報クラスタ化方法は、以下のステップを更に含み得る。
S202a:含まれているテキスト情報の数が第1の値未満である、2つ以上の第1レベルトピックを1つの第1レベルトピックにマージする。
このステップにおいては、それぞれの第1レベルトピックの下のテキスト情報の数が第1の閾値未満であるかどうかを、アルゴリズムにより、或いは、手作業により、検出することができる。結果が肯定的である場合には、第1レベルトピックは、後の演算のために、別の第1レベルトピックとマージされる。
例えば、上述の例によれば、ステップS202におけるクラスタ化によって形成された第1レベルトピックの下に含まれているテキスト情報の数は、それぞれ、1000個、1500個、500個、1800個、及び200個である。第1の閾値が300に設定されている場合には、最後の第1レベルトピックに含まれているテキスト情報の数は、第1の閾値未満であると判断することができる。このケースにおいては、最後の第1レベルトピックを別のトピックとマージすることが可能であり、例えば、最後の第1レベルトピックは、第3の第1レベルトピックとマージされ、次いで、第2レベルトピックがクラスタ化される。
本実施形態において提案されるテキスト情報クラスタ化方法においては、上述の方式によるテキスト情報クラスタ化方法において、階層クラスタ化方法が使用される。初期クラスタ化において、第1レベルトピックの合計数が減少し、これにより、演算効率が改善され、且つ、システムリソースの消費が低減されている。第2クラスタ化において、第2レベルトピックの数が、テキスト情報の数に従って動的に判定され、これにより、それぞれの第2レベルトピックの下のテキスト情報の平均数が減少し、且つ、第2レベルトピックの演算速度が加速されている。同時に、クラスタ化の際に、意味のない単語及び/又はシンボルが削除され、少数のテキスト情報を含む第1レベルトピックがマージされ、演算方法が更に最適化され、且つ、演算負荷が低減されている。
第3実施形態
本出願の第3実施形態においては、テキスト情報クラスタ化方法が提案される。図4は、本出願の第3実施形態によるテキスト情報クラスタ化方法のフローチャートを示している。本出願の第3実施形態によるテキスト情報クラスタ化方法は、以下のステップを含む。
ステップS301:複数の単語を形成するべく、単語セグメント化が複数のテキスト情報のそれぞれに対して実行される。
ステップS302:初期クラスタ化が、複数の第1レベルトピックを形成するべく、単語セグメント化が実行された複数のテキスト情報に対して、LDAアルゴリズムを使用することにより、且つ、複数の単語に従って、実行され、この場合に、第1レベルトピックのそれぞれは、少なくとも2つのテキスト情報を含む。
ステップS303:予め設定された規則に従って、第1レベルトピックのそれぞれの下の第2レベルトピックの数が、第1レベルトピックのそれぞれの下のテキスト情報の数に基づいて判定される。
ステップS304:複数の第2レベルトピックを形成するべく、第2クラスタ化が、第1レベルトピックのそれぞれの下の第2レベルトピックの数に従って、第1レベルトピックのそれぞれに含まれている少なくとも2つのテキスト情報に対して、複数の単語に従って(LDAアルゴリズムを使用することにより)実行される。
4つのステップ、即ち、ステップS301〜ステップS304は、第1実施形態のステップS101〜ステップS104と同一であるか又はこれらに類似しており、且つ、従って、ここでの詳細な説明は、省略する。
この実施形態においては、第1実施形態のステップS104又は第2実施形態のステップS204が完了した後に、ステップS305及びステップS306が実行される。ステップS305において、第2クラスタ化の後に生成された複数の第2レベルトピックのマッチング程度が評価され、ステップS306において、マッチング程度の評価結果が取得され、評価結果が、クラスタ化が不適である、というものである場合は、マッチング程度の評価結果に従ってLDAアルゴリズムのパラメータが調節される。
このステップにおいて、マッチング程度の評価結果が、クラスタが不適である、というものである場合は、例えば、トピックの数、低頻度単語の頻度閾値、マージを必要としているトピックに含まれているテキスト情報の数の閾値、停止リストのコンテンツなどを調節することができる。トピックの数は、例えば、図1のkの値である。低頻度単語の頻度閾値は、例えば、手作業により、或いは、機械により、設定された閾値であってもよい。単語セグメント化がすべてのテキスト情報に対して実行された後に、1つの単語の発生頻度又はいくつかの単語の発生頻度は、閾値未満であり、且つ、そのような単語は、低頻度単語であると見なすことができる。このステップにおいては、低頻度単語の数を増大又は減少させるべく、低頻度単語の頻度閾値を調節することが可能であり、これにより、クラスタ化の結果に影響が及ぶ。マージを必要としているトピックに含まれているテキスト情報の数の閾値は、例えば、手作業又は機械によって設定された閾値である。1つ又は複数のトピックに含まれているテキスト情報の数が特定の閾値未満である場合は、それらのトピックは、マージする必要があるものと見なすことができる。この閾値を変更することにより、相対的に大きなマージ閾値又は相対的に小さなマージ閾値を設定することが可能であり、これにより、クラスタ化の結果に影響が及ぶ。停止リストは、例えば、第2実施形態において提供されている表であってもよく、この表は、複数の停止単語を保存することができる。停止単語のコンテンツを調節することにより、クラスタ化の結果に影響を及ぼすことができる。
このステップにおいては、クラスタ化の後に生成された第2レベルトピックは、手動又は機械アルゴリズムにより、評価することができる。第2クラスタ化の結果は、テキスト情報が異なることに伴って、大幅に変化し得る。従って、第2クラスタ化の結果は、評価する必要がある。具体的な評価方法は、いくつかの第2レベルトピックの下のテキスト情報が同一のコンテンツに関するものであるかどうかをチェックすることと、この基準に従って、クラスタ化が適切であるかどうか、不適切な単語がキーワードとして選択されているかどうか、第2レベルトピックにおいてエイリアシングが発生しているかどうか、第1レベルトピックの数と第2レベルトピックの数が適切に選択されているかどうかなど、を判断することとを含み得る。結果が予想どおりではない場合には、必要に応じて、手動により、或いは、機械アルゴリズムに基づいて、例えば、LDAアルゴリズムのパラメータの調節やこれに類似したものなどの調節を継続することができる。
この実施形態においては、複数の第2レベルトピックを形成するべく、第1レベルトピックのそれぞれの下の第2レベルトピックの数に従って第1レベルトピックのそれぞれに含まれている複数のテキスト情報に対して第2クラスタ化を実行するステップS304の後に、方法は、以下のステップを更に含み得る。
S307:第2レベルトピックの下のテキスト情報の数が第2の閾値を超過しているかどうかを判断することにより、第2レベルトピックがホットトピックであるかどうかが判断される。
このステップにおいては、第2レベルトピックの下のテキスト情報の数が第2の閾値を超過している場合は、第2レベルトピックはホットトピックである、と判断することができる。第2レベルトピックがホットトピックであると判断された後に、例えば、ホットトピックがウェブサイトのホームページ上において自動的に又は手動的に表示される、ホットトピックがわかりやすくマーキングされるなど、後の動作を実行することができるが、本発明は、これらの動作に限定されるものではない。
本実施形態において提案されるテキスト情報クラスタ化方法においては、上述の方式によるテキスト情報クラスタ化方法において、階層クラスタ化方法が使用される。初期クラスタ化において、第1レベルトピックの合計数が減少し、これにより、演算効率が改善され、且つ、システムリソースの消費が低減されている。第2クラスタ化においては、第2レベルトピックの数が、テキスト情報の数に従って動的に判定され、これにより、それぞれの第2レベルトピックの下のテキスト情報の平均数が減少し、且つ、第2レベルトピックの演算速度が加速される。同時に、第2レベルトピックのクラスタ化が適切であるかどうかを評価するべく、第2クラスタ化が完了した後に、評価ステップが実行される。上述の評価ステップの追加により、クラスタ化方法を更に最適化することが可能であり、且つ、クラスタ化の精度を改善することができる。これに加えて、第2クラスタ化が完了した後に、第2の閾値との比較の際に、いずれの第2レベルトピックがホットトピックであるのかを判断することが可能であり、これにより、後の処理が促進される。
上述の実施形態においては、テキスト情報クラスタ化方法は、例えば、ニュースのクラスタ化に対して適用することができる。即ち、テキスト情報は、例えば、ニュースであってもよい。この方法を使用することにより、多数のニュースをクラスタ化することができる。クラスタ化方法は、複数の単語を形成するべく、複数のニュースのそれぞれに対して単語セグメント化を実行するステップと、複数の第1レベルトピックを形成するべく、単語セグメント化が実行された複数のニュースに対して、複数の単語に従って、初期クラスタ化を実行するステップであって、第1レベルトピックのそれぞれは、少なくとも2つのニュースを含む、ステップと、予め設定された規則に従って、第1レベルトピックのそれぞれの下のニュースの数に基づいて第1レベルトピックのそれぞれの下の第2レベルトピックの数を判定するステップと、複数の第2レベルトピックを形成するべく、第1レベルトピックのそれぞれの下の第2レベルトピックの数に従って、第1レベルトピックのそれぞれに含まれている複数のニュースに対して、複数の単語に従って、第2クラスタ化を実行するステップとを少なくとも含み得る。膨大な数のニュースが日々の生活において生成されることになることから、ニュースは、上述のステップを通じて相対的に高速でクラスタ化することが可能であり、これにより、手動による分類の複雑さ及び非効率性が回避され、分類されたニュースのユーザーによる相対的に高速の取得が促進され、且つ、ユーザー経験が改善される。
第4実施形態
本出願の第4実施形態においては、テキスト情報クラスタ化システムが提案される。図5は、本出願の第4実施形態によるテキスト情報クラスタ化システムのブロック図を示している。本出願の第4実施形態によるテキスト情報クラスタ化システム400は、
複数の単語を形成するべく、複数のテキスト情報のそれぞれに対して単語セグメント化を実行するように構成された単語セグメント化モジュール401と、
複数の第1レベルトピックを形成するべく、単語セグメント化が実行された複数のテキスト情報に対して、複数の単語に従って、初期クラスタ化を実行するように構成された初期クラスタ化モジュール402であって、第1レベルトピックのそれぞれは、少なくとも2つのテキスト情報を含む、初期クラスタ化モジュールと、
予め設定された規則に従って、第1レベルトピックのそれぞれの下のテキスト情報の数に基づいて第1レベルトピックのそれぞれの下の第2レベルトピックの数を判定するように構成されたトピック数判定モジュール403と、
複数の第2レベルトピックを形成するべく、第1レベルトピックのそれぞれの下の第2レベルトピックの数に従って第1レベルトピックのそれぞれに含まれている複数のテキスト情報に対して、複数の単語に従って、第2クラスタ化を実行するように構成された第2クラスタ化モジュール404と
を含む。
本実施形態において提案されるテキスト情報クラスタ化システムにおいては、テキスト情報クラスタ化方法において、階層クラスタ化システムが使用される。初期クラスタ化においては、第1レベルトピックの合計数が減少し、これにより、演算効率が改善され、且つ、システムリソースの消費が低減されている。第2クラスタ化においては、第2レベルトピックの数が、テキスト情報の数に従って動的に判定され、これにより、それぞれの第2レベルトピックの下のテキスト情報の平均数が減少し、且つ、第2レベルトピックの演算速度が加速されている。
第5実施形態
本出願の第5実施形態においては、テキスト情報クラスタ化システムが提案される。図6は、本出願の第4実施形態によるテキスト情報クラスタ化システムのブロック図を示している。本出願の第5実施形態によるテキスト情報クラスタ化システムは、単語セグメント化モジュール501と、初期クラスタ化モジュール502と、トピック数判定モジュール503と、第2クラスタ化モジュール504とを含む。モジュール501〜504は、第4実施形態におけるモジュール401〜404と同一であるか又はこれらに類似しており、従って、ここでの詳細な説明は、省略する。
この実施形態においては、好ましくは、初期クラスタ化及び第2クラスタ化は、いずれも、クラスタ化のためにLDAアルゴリズムを用いる。
この実施形態においては、好ましくは、システムは、
シンボル、英単語、及び/又は数値の存在がテキスト情報内において検出された場合に、シンボル、英単語、及び/又は数値と、テキスト情報との間の相関の程度を判断するように構成された相関程度判断モジュールと、
シンボル、英単語及び/又は数値と、テキスト情報との間の相関の程度が、指定された値を下回っていると判断された場合に、シンボル、英単語、及び/又は数値を削除するように構成された第1削除モジュールと
を更に含む。
この実施形態においては、好ましくは、システムは、
単語セグメント化の後の単語のそれぞれが、予め設定された停止リスト内の単語と同一であるかどうかを検出するように構成された検出モジュールと、
予め設定された停止リスト内の単語と同一であると検出された、単語セグメント化の後のすべての単語を削除するように構成された第2削除モジュールと
を更に含む。
この実施形態において、好ましくは、システムは、
含まれているテキスト情報の数が第1の値未満である、2つ以上の第1レベルトピックを1つの第1レベルトピックにマージするように構成されたマージモジュール505、
を更に含む。
この実施形態においては、好ましくは、第2クラスタ化モジュール504は、任意の2つの以上の第2クラスタ化プロセスを同時に実装するように構成されている。
この実施形態においては、好ましくは、システムは、
第2クラスタ化の後に生成された複数の第2レベルトピックのマッチング程度を評価するように構成された評価モジュール506と、
マッチング程度の評価結果に従ってLDAアルゴリズムのパラメータを調節するように構成された調節モジュール507と
を更に含む。
この実施形態においては、好ましくは、システムは、
第2レベルトピックのそれぞれの下のテキスト情報の数に従って、第2レベルトピックがホットトピックであるかどうかを判断するように構成されたホットトピック判断モジュール508、
を更に含む。
この実施形態において提案されるテキスト情報クラスタ化システムにおいては、上述の方式によるテキスト情報クラスタ化システムにおいて、階層クラスタ化システムが使用される。初期クラスタ化においては、第1レベルトピックの合計数が減少し、これにより、演算効率が改善され、且つ、システムリソースの消費が低減されている。第2クラスタ化においては、第2レベルトピックの数が、テキスト情報の数に従って動的に判定され、これにより、それぞれの第2レベルトピックの下のテキスト情報の平均数が減少し、且つ、第2レベルトピックの演算速度が加速されている。
同時に、第2クラスタ化において、この実施形態におけるシステムは、テキスト情報の数に従って第2レベルトピックの数を動的に判定し、これにより、それぞれの第2レベルトピックの下のテキスト情報の平均数が減少し、且つ、第2レベルトピックの演算速度が加速されている。その一方で、クラスタ化する間、意味のない単語及び/又はシンボルが削除され、少数のテキスト情報を含む第1レベルトピックがマージされ、これにより、演算方法が更に最適化され、且つ、演算負荷が低減されている。
同時に、本実施形態のシステムは、第2レベルトピックのクラスタ化が適切であるかどうかを評価するように構成された評価モジュールを含み得る。上述の評価ステップの追加により、クラスタ化方法を更に最適化することが可能であり、クラスタ化の精度を改善し得る。これに加えて、この実施形態のシステムは、第2の閾値との比較の際に、いずれの第2レベルトピックがホットトピックであるのかを判断し得るホットトピック判断モジュールを含むことが可能であり、これにより、後の処理が促進される。
同様に、上述の複数の実施形態においては、テキスト情報クラスタ化システムは、例えば、ニュースのクラスタ化に適用することができる。即ち、テキスト情報は、例えば、ニュースであってもよい。このシステムを使用することにより、多数のニュースをクラスタ化することができる。クラスタ化システムは、
複数の単語を形成するべく、複数のニュースのそれぞれに対して単語セグメント化を実行するように構成された単語セグメント化モジュールと、
複数の第1レベルトピックを形成するべく、単語セグメント化が実行された複数のニュースに対して、複数の単語に従って、初期クラスタ化を実行するように構成された初期クラスタ化モジュールであって、第1レベルトピックのそれぞれは、複数のニュースを含む、初期クラスタ化モジュールと、
予め設定された規則に従って、第1レベルトピックのそれぞれの下のニュースの数に基づいて第1レベルトピックのそれぞれの下の第2レベルトピックの数を判定するように構成されたトピック数判定モジュールと、
複数の第2レベルトピックを形成するべく、第1レベルトピックのそれぞれの下の第2レベルトピックの数に従って第1レベルトピックのそれぞれに含まれている複数のニュースに対して、複数の単語に従って、第2クラスタ化を実行するように構成された第2クラスタ化モジュールと
を少なくとも含み得る。
多数のニュースが日々の生活において生成されることから、上述のステップを通じて、ニュースを相対的に高速でクラスタ化することが可能であり、これにより、手動による分類の複雑さ及び非効率性が回避され、分類されたニュースのユーザーによる相対的に高速の取得が促進され、且つ、ユーザー経験が改善される。
装置実施形態は、基本的に方法実施形態に類似しており、且つ、従って、簡単に記述されている。関係する部分については、方法実施形態の当該部分の説明を参照されたい。
本明細書の実施形態は、いずれも、漸進的な方式により、記述されており、それぞれの実施形態は、その他の実施形態とは異なる部分を強調しており、且つ、実施形態における同一の又は類似の部分は、相互に参照することにより、取得することができる。
当業者は、本出願の実施形態による実施形態は、方法、装置、又はコンピュータプログラムプロダクトとして提供され得ることを理解するであろう。従って、本出願の実施形態は、完全なハードウェア実施形態、完全なソフトウェア実施形態、或いは、ソフトウェアとハードウェアを組み合わせた実施形態の形態において実装することができる。更には、本出願の実施形態は、コンピュータ使用可能プログラムコードを含む(限定を伴うことなしに、磁気ディスクメモリ、CD−ROM、光メモリ、及びこれらに類似したものを含む)1つ又は複数のコンピュータ使用可能ストレージ媒体上において実装されたコンピュータプログラムプロダクトの形態を有することができる。
通常の構成においては、コンピュータ装置は、1つ又は複数の中央処理ユニット(CPU:Central Processing Unit)と、入出力インターフェイスと、ネットワークインターフェイスと、メモリとを含む。メモリは、揮発性メモリ、ランダムアクセスメモリ(RAM:Random Access Memory)、並びに/或いは、例えば、読み出し専用メモリ(ROM:Read-Only Memory)又はフラッシュRAMなどの、不揮発性メモリ、或いは、これらに類似したものをコンピュータ可読媒体内において含み得る。メモリは、コンピュータ可読媒体の一例である。コンピュータ可読媒体は、不揮発性及び揮発性媒体のみならず、着脱自在且つ非着脱自在の媒体をも含み、且つ、任意の方法又は技術によって信号保存を実装することができる。信号は、コンピュータ可読命令、データ構造、並びに、プログラム又はその他のデータのモジュールであってもよい。コンピュータのストレージ媒体は、限定を伴うことなしに、例えば、相変化メモリ(PRAM:Phase Change Memory)、スタティックランダムアクセスメモリ(SRAM:Static Random Access Memory)、ダイナミックランダムアクセスメモリ(DRAM:Dynamic Random Access Memory)、その他のタイプのRAM、ROM、電気的に消去可能なプログラム可能な読み出し専用メモリ(EEPROM:Electrically Erasable Programmable Read-Only Memory)、フラッシュメモリ又はその他のメモリ技術、コンパクトディスク読み出し専用メモリ(CD−ROM:Compact Disk Read-Only Memory)、デジタルバーサタイルディスク(DVD:Digital Versatile Disc)又はその他の光ストレージ、カセットテープ、磁気テープ/磁気ディスクストレージ又はその他の磁気ストレージ装置、或いは、任意のその他の非送信媒体を含み、且つ、演算装置からアクセス可能である信号を保存するべく使用することができる。本明細書における定義によれば、コンピュータ可読媒体は、変調されたデータ信号及び搬送波などの、一時的な媒体を含んではいない。
本出願の実施形態については、本出願の実施形態の方法、端末装置(システム)、及びコンピュータプログラムプロダクトのフローチャート及び/又はブロック図を参照して記述されている。コンピュータプログラム命令は、フローチャート及び/又はブロック図のそれぞれのプロセス及び/又はブロック、並びに、フローチャート及び/又はブロック図のプロセス及び/又はブロックの組合せ、を実装するべく使用され得ることを理解されたい。コンピュータプログラム命令は、別のプログラム可能なデータ処理端末装置のコンピュータ又はプロセッサが、命令を実行して、フローチャートの1つ又は複数のプロセス及び/又はブロック図の1つ又は複数のブロックにおいて表記されている機能を実装するように構成された装置を生成するように、機械を生成するべく、汎用コンピュータ、専用コンピュータ、埋め込み型プロセッサ、又は別のプログラム可能なデータ処理端末装置のプロセッサに提供されてもよい。
また、コンピュータプログラム命令は、コンピュータ可読ストレージ内に保存されている命令が命令装置を含む製造物品を生成するように、且つ、命令装置がフローチャートの1つ又は複数のプロセス及び/又はブロック図の1つ又は複数のブロックによって表記されている機能を実装するように、特定の方式によって機能するようにコンピュータ又は別のプログラム可能なデータ処理端末装置をガイドし得るコンピュータ可読ストレージ内において保存されてもよい。
また、コンピュータプログラム命令は、一連の動作ステップが、コンピュータ実装された処理を生成するべく、コンピュータ又は別のプログラム可能な端末装置上において実行されるように、コンピュータ又は別のプログラム可能なデータ処理端末装置内に読み込まれてもよい。従って、コンピュータ又は別のプログラム可能な端末装置内において実行された命令は、フローチャートの1つ又は複数のプロセス及び/又はブロック図の1つ又は複数のブロック内に表記されている機能を実装するためのステップを提供する。
以上、本出願の実施形態の好適な実施形態について説明した。但し、基本的な創造的概念について知ることにより、当業者は、その他の変形及び変更を実施形態に対して実施することができる。従って、添付の請求項は、本出願の実施形態の範囲に含まれる好適な実施形態及びすべての変形及び変更を含むものと解釈されることを意図している。
最後に、第1の(first)及び第2の(second)などの本明細書における関係用語は、1つのエンティティ又は動作を別のエンティティ又は動作から弁別するべく使用されているに過ぎず、且つ、エンティティ又は動作が、この実際の関係又は順序を有することを必要としてはおらず、或いは、これを意味してもいない、ことに更に留意されたい。更には、「含む(include)」や「有する(comprise)」という用語、或いは、これらのその他の変形は、一連の要素を含むプロセス、方法、物品、又は端末装置が、これらの要素を含むのみならず、明示的に列挙されてはいないその他の要素をも含むように、或いは、プロセス、方法、物品、又は端末装置の固有の要素を更に含むように、非排他的包含を含むものと解釈されたい。更なる限定が存在していない状態において、「1つの〜を含む(including a/an...)」によって定義される要素は、その要素を含むプロセス、方法、物品、又は端末装置が、その他の同一の要素を更に有することを排除してはいない。
以上、本明細書においては、本出願において提供されているテキスト情報クラスタ化方法及びテキスト情報クラスタ化システムについて詳述し、且つ、特定の例を適用することにより、本出願の原理及び実装形態について説明した。実施形態に関する上述の説明は、本出願の方法及びその核心概念の理解を支援するべく使用されるものに過ぎない。その一方で、当業者には、本出願の概念に応じた特定の実装方式及び適用範囲に対する変更が存在し得る。従って、本明細書の内容は、本出願を限定するものと解釈してはならない。

Claims (18)

  1. テキスト情報クラスタ化方法であって、
    複数の単語を形成するべく、複数のテキスト情報のそれぞれに対して単語セグメント化を実行することと、
    複数の第1レベルトピックを形成するべく、単語セグメント化が実行された前記複数のテキスト情報に対して、前記複数の単語に従って、初期クラスタ化を実行することであって、前記第1レベルトピックのそれぞれは、少なくとも2つのテキスト情報を含む、ことと、
    予め設定された規則に従って、前記第1レベルトピックのそれぞれの下の前記複数のテキスト情報の数に基づいて前記第1レベルトピックのそれぞれの下の第2レベルトピックの数を判定することと、
    複数の第2レベルトピックを形成するべく、前記第1レベルトピックのそれぞれの下の前記第2レベルトピックの数に従って前記第1レベルトピックのそれぞれに含まれている少なくとも2つのテキスト情報に対して、前記複数の単語に従って、第2クラスタ化を実行することと
    を含む方法。
  2. 前記初期クラスタ化及び前記第2クラスタ化は、いずれも、前記複数の単語を前記複数の第1レベルトピック及び前記複数の第2レベルトピックにクラスタ化するべく、潜在ディリクレ配分法(LDA)アルゴリズムを用いる、請求項1に記載のテキスト情報クラスタ化方法。
  3. 複数のテキスト情報のそれぞれに対して単語セグメント化を実行するステップの後に、
    前記テキスト情報内においてシンボル、英単語、及び/又は数値の存在を検出した場合に、前記シンボル、前記英単語、及び/又は前記数値と、前記テキスト情報との間の相関の程度を判断することと、
    前記シンボル、前記英単語、及び/又は前記数値と、前記テキスト情報との間の前記相関の程度が、指定された値を下回っていると判断された場合に、前記シンボル、前記英単語、及び/又は前記数値を削除することと
    を更に含む、請求項1に記載のテキスト情報クラスタ化方法。
  4. 複数の単語を形成するべく、複数のテキスト情報のそれぞれに対して単語セグメント化を実行するステップの後に、
    前記単語セグメント化の後の前記単語のそれぞれが、予め設定された停止リスト内の単語と同一であるかどうかを検出することと、
    前記予め設定された停止リスト内の単語と同一であると検出された、前記単語セグメント化の後のすべての単語を削除することと
    を更に含む、請求項1に記載のテキスト情報クラスタ化方法。
  5. 複数の第1レベルトピックを形成するべく、単語セグメント化が実行された前記複数のテキスト情報に対して、前記複数の単語に従って、初期クラスタ化を実行するステップの後に、
    含まれている前記テキスト情報の数が第1の値を下回っている、2つ以上の第1レベルトピックを、1つの第1レベルトピックにマージすること
    を更に含む、請求項1に記載のテキスト情報クラスタ化方法。
  6. 複数の第2レベルトピックを形成するべく、前記第1レベルトピックのそれぞれの下の前記第2レベルトピックの数に従って前記第1レベルトピックのそれぞれに含まれている少なくとも2つのテキスト情報に対して、前記複数の単語に従って、第2クラスタ化を実行するステップにおいて、任意の2つ以上の第2クラスタ化プロセスが同時に実行される、請求項1に記載のテキスト情報クラスタ化方法。
  7. 複数の第2レベルトピックを形成するべく、前記第1レベルトピックのそれぞれの下の前記第2レベルトピックの数に従って前記第1レベルトピックのそれぞれに含まれている少なくとも2つのテキスト情報に対して、第2クラスタ化を実行するステップの後に、
    それぞれの第2レベルトピックの下の前記テキスト情報の数に従って前記第2レベルトピックがホットトピックであるかどうかを判断すること
    を更に含む、請求項1に記載のテキスト情報クラスタ化方法。
  8. 複数の第2レベルトピックを形成するべく、前記第1レベルトピックのそれぞれの下の前記第2レベルトピックの数に従って前記第1レベルトピックのそれぞれに含まれている少なくとも2つのテキスト情報に対して、前記複数の単語に従って、第2クラスタ化を実行するステップの後に、
    前記第2クラスタ化の後に生成された前記複数の第2レベルトピックのマッチング程度を評価することと、
    前記マッチング程度の前記評価結果に従って前記LDAアルゴリズムの1つ又は複数のパラメータを調節することと
    を更に含む、請求項2に記載のテキスト情報クラスタ化方法。
  9. 前記テキスト情報は、ニュースである、請求項1に記載のテキスト情報クラスタ化方法。
  10. テキスト情報クラスタ化システムであって、
    複数の単語を形成するべく、複数のテキスト情報のそれぞれに対して単語セグメント化を実行するように構成された単語セグメント化モジュールと、
    複数の第1レベルトピックを形成するべく、単語セグメント化が実行された前記複数のテキスト情報に対して、前記複数の単語に従って、初期クラスタ化を実行するように構成された初期クラスタ化モジュールであって、前記第1レベルトピックのそれぞれは、少なくとも2つのテキスト情報を含む、初期クラスタ化モジュールと、
    予め設定された規則に従って、前記第1レベルトピックのそれぞれの下の前記テキスト情報の数に基づいて前記第1レベルトピックのそれぞれの下の前記第2レベルトピックの数を判定するように構成されたトピック数判定モジュールと、
    複数の第2レベルトピックを形成するべく、前記第1レベルトピックのそれぞれの下の前記第2レベルトピックの数に従って前記第1レベルトピックのそれぞれに含まれている少なくとも2つのテキスト情報に対して、前記複数の単語に従って、第2クラスタ化を実行するように構成された第2クラスタ化モジュールと
    を含むシステム。
  11. 前記初期クラスタ化及び前記第2クラスタ化は、いずれも、前記複数の単語を前記複数の第1レベルトピック及び前記複数の第2レベルトピックにクラスタ化するべく、潜在ディリクレ配分法(LDA)アルゴリズムを用いる、請求項10に記載のテキスト情報クラスタ化システム。
  12. 前記テキスト情報内においてシンボル、英単語、及び/又は数値の存在を検出した場合に、前記シンボル、前記英単語、及び/又は前記数値と、前記テキスト情報との間の相関の程度を判断するように構成された相関程度判断モジュールと、
    前記シンボル、前記英単語、及び/又は前記数値と、前記テキスト情報との間の前記相関の程度が、指定された値を下回っていると判断された場合に、前記シンボル、前記英単語、及び/又は前記数値を削除するように構成された第1削除モジュールと
    を更に含む、請求項10に記載のテキスト情報クラスタ化システム。
  13. 前記単語セグメント化の後の前記単語のそれぞれが、予め設定された停止リスト内の単語と同一であるかどうかを検出するように構成された検出モジュールと、
    前記予め設定された停止リスト内の単語と同一であると検出された、前記単語セグメント化の後のすべての単語を削除するように構成された第2削除モジュールと
    を更に含む、請求項10に記載のテキスト情報クラスタ化システム。
  14. 前記含まれているテキスト情報の数が第1値を下回っている、2つ以上の第1レベルトピックを、1つの第1レベルトピックにマージするように構成されたマージモジュール、
    を更に含む、請求項10に記載のテキスト情報クラスタ化システム。
  15. 前記第2クラスタ化モジュールは、任意の2つ以上の第2クラスタ化プロセスを同時に実行するように構成されている、請求項10に記載のテキスト情報クラスタ化システム。
  16. 前記第2レベルトピックのそれぞれの下の前記テキスト情報の数に従って、前記第2レベルトピックがホットトピックであるかどうかを判断するように構成されたホットトピック判断モジュール、
    を更に含む、請求項10に記載のテキスト情報クラスタ化システム。
  17. 前記第2クラスタ化の後に生成された前記複数の第2レベルトピックのマッチング程度を評価するように構成された評価モジュールと、
    前記マッチング程度の前記評価結果に従って前記LDAアルゴリズムのパラメータを調節するように構成された調節モジュールと
    を更に含む、請求項11に記載のテキスト情報クラスタ化システム。
  18. 前記テキスト情報は、ニュースである、請求項10に記載のテキスト情報クラスタ化システム。
JP2018544207A 2016-02-29 2017-02-16 テキスト情報クラスタ化方法及びテキスト情報クラスタ化システム Pending JP2019511040A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610112522.X 2016-02-29
CN201610112522.XA CN107133238A (zh) 2016-02-29 2016-02-29 一种文本信息聚类方法和文本信息聚类系统
PCT/CN2017/073720 WO2017148267A1 (zh) 2016-02-29 2017-02-16 一种文本信息聚类方法和文本信息聚类系统

Publications (1)

Publication Number Publication Date
JP2019511040A true JP2019511040A (ja) 2019-04-18

Family

ID=59721328

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018544207A Pending JP2019511040A (ja) 2016-02-29 2017-02-16 テキスト情報クラスタ化方法及びテキスト情報クラスタ化システム

Country Status (5)

Country Link
US (1) US20180365218A1 (ja)
JP (1) JP2019511040A (ja)
CN (1) CN107133238A (ja)
TW (1) TW201734850A (ja)
WO (1) WO2017148267A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108255978A (zh) * 2017-12-28 2018-07-06 曙光信息产业(北京)有限公司 新闻稿件话题聚类的方法和系统
CN109101633B (zh) * 2018-08-15 2019-08-27 北京神州泰岳软件股份有限公司 一种层次聚类方法及装置
CN111209419B (zh) * 2018-11-20 2023-09-19 浙江宇视科技有限公司 一种图像数据存储的方法及装置
CN110069772B (zh) * 2019-03-12 2023-10-20 平安科技(深圳)有限公司 预测问答内容的评分的装置、方法及存储介质
CN110309504B (zh) * 2019-05-23 2023-10-31 平安科技(深圳)有限公司 基于分词的文本处理方法、装置、设备及存储介质
CN110597986A (zh) * 2019-08-16 2019-12-20 杭州微洱网络科技有限公司 一种基于微调特征的文本聚类系统及方法
CN111353028B (zh) * 2020-02-20 2023-04-18 支付宝(杭州)信息技术有限公司 用于确定客服话术簇的方法及装置
CN113806524B (zh) * 2020-06-16 2024-05-24 阿里巴巴集团控股有限公司 一种文本内容的层级类目构建和层级结构调整方法及装置
CN111813935B (zh) * 2020-06-22 2024-04-30 贵州大学 一种基于层次狄利克雷多项分配模型的多源文本聚类方法
CN112036176B (zh) * 2020-07-22 2024-05-24 大箴(杭州)科技有限公司 文本聚类方法及装置
CN112948579A (zh) * 2021-01-29 2021-06-11 广东海洋大学 留言文本信息处理方法、装置、系统和计算机设备
CN112597313B (zh) * 2021-03-03 2021-06-29 北京沃丰时代数据科技有限公司 短文本聚类方法、装置、电子设备及存储介质
CN113515593A (zh) * 2021-04-23 2021-10-19 平安科技(深圳)有限公司 基于聚类模型的话题检测方法、装置和计算机设备
CN113420723A (zh) * 2021-07-21 2021-09-21 北京有竹居网络技术有限公司 获取视频热点的方法、装置、可读介质和电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI273449B (en) * 2004-06-18 2007-02-11 Yi-Jie Wu Computer data classification management system and method
CN101989289B (zh) * 2009-08-06 2014-05-07 富士通株式会社 数据聚类方法和装置
CN102411638B (zh) * 2011-12-30 2013-06-19 中国科学院自动化研究所 一种新闻检索结果的多媒体摘要生成方法
CN103514183B (zh) * 2012-06-19 2017-04-12 北京大学 基于交互式文档聚类的信息检索方法及系统
CN103870474B (zh) * 2012-12-11 2018-06-08 北京百度网讯科技有限公司 一种新闻话题组织方法及装置
CN104239539B (zh) * 2013-09-22 2017-11-07 中科嘉速(北京)并行软件有限公司 一种基于多种信息融合的微博信息过滤方法
CN104199974A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种面向微博的动态主题检测与演变追踪方法
CN104216954B (zh) * 2014-08-20 2017-07-14 北京邮电大学 突发事件话题状态的预测装置及预测方法
CN104462286A (zh) * 2014-11-27 2015-03-25 重庆邮电大学 一种基于改进的lda的微博话题发现方法
CN104850615A (zh) * 2015-05-14 2015-08-19 西安电子科技大学 一种基于g2o的SLAM后端优化算法方法

Also Published As

Publication number Publication date
TW201734850A (zh) 2017-10-01
WO2017148267A1 (zh) 2017-09-08
CN107133238A (zh) 2017-09-05
US20180365218A1 (en) 2018-12-20

Similar Documents

Publication Publication Date Title
JP2019511040A (ja) テキスト情報クラスタ化方法及びテキスト情報クラスタ化システム
TWI718643B (zh) 異常群體識別方法及裝置
US9542477B2 (en) Method of automated discovery of topics relatedness
CN107391545B (zh) 一种对用户进行分类的方法、输入方法及装置
CN106610931B (zh) 话题名称的提取方法及装置
Fitriyani et al. The K-means with mini batch algorithm for topics detection on online news
CN109597983A (zh) 一种拼写纠错方法及装置
US20160085857A1 (en) Grouping data using dynamic thresholds
CN103455534A (zh) 对文档进行聚类的方法和装置
Hellrich et al. Exploring diachronic lexical semantics with JeSemE
Alkubaisi et al. Conceptual framework for stock market classification model using sentiment analysis on twitter based on Hybrid Naïve Bayes Classifiers
TWI713019B (zh) 資料標籤產生、模型訓練、事件識別方法和裝置
CN108804563B (zh) 一种数据标注方法、装置以及设备
CN116150327A (zh) 文本处理方法和装置
CN107562703B (zh) 字典树重构方法及系统
CN112487181B (zh) 关键词确定方法和相关设备
CN111737461A (zh) 文本的处理方法、装置、电子设备及计算机可读存储介质
CN108108371B (zh) 一种文本分类方法及装置
CN109359274A (zh) 一种对批量生成的字符串进行识别的方法、装置及设备
CN111783453B (zh) 文本的情感信息处理方法及装置
CN111242195B (zh) 模型、保险风控模型训练方法、装置及电子设备
CN110210030B (zh) 语句分析的方法及装置
CN109684442B (zh) 一种文本检索方法、装置、设备及程序产品
CN111782813A (zh) 一种用户社群的评价方法、装置及设备
CN106776529B (zh) 业务情感分析方法及装置