JP2008065468A - テキスト多重分類装置、テキストを多重分類する方法、プログラムおよび記憶媒体 - Google Patents

テキスト多重分類装置、テキストを多重分類する方法、プログラムおよび記憶媒体 Download PDF

Info

Publication number
JP2008065468A
JP2008065468A JP2006240640A JP2006240640A JP2008065468A JP 2008065468 A JP2008065468 A JP 2008065468A JP 2006240640 A JP2006240640 A JP 2006240640A JP 2006240640 A JP2006240640 A JP 2006240640A JP 2008065468 A JP2008065468 A JP 2008065468A
Authority
JP
Japan
Prior art keywords
word
text
search
common
storage device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006240640A
Other languages
English (en)
Inventor
Naoto Abe
直人 阿部
Katsuyoshi Tanabe
勝義 田邊
Hidenori Okuda
英範 奥田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006240640A priority Critical patent/JP2008065468A/ja
Publication of JP2008065468A publication Critical patent/JP2008065468A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】学習データを事前に用意しなくても、テキストを多重分類することができる多重分類装置を提供することを目的とする。
【解決手段】第1のテキストを文単位に分解し、この分解した各文を形態素分析し、この形態素分析によって得られた名詞を検索語として抽出し、抽出した検索語を利用して、ウェブ上で検索し、この検索された第2のテキストを形態素分析し、この形態素分析で得られた名詞のうちで、頻度が予め設定された閾値以上の名詞を、文単位で、関連語として取得し、第1のテキストを分解した複数の文のうちの1つの文から抽出された上記検索語と、この検索語を使用して取得された上記関連語とを組み合わせてキーワード集合を作成し、複数の上記キーワード集合の間で共通して出現する単語を共通単語として抽出し、この抽出された共通単語を、上記第1のテキストの分野を示す用語として出力する。
【選択図】図2

Description

本発明は、計算機を利用して、テキストに記述されている内容が属する分野を自動判定し、自動分類する方法に関する。
近年、急速な計算機の性能向上に伴い、莫大なテキスト(文字列だけで構成される文の集合)を蓄積してデータベースを構築することが可能である。一方、保存されたテキストを、人手で整理・管理することは、一般的に困難である。
そこで、データベースに記憶されているテキストを解析し、テキストの内容に応じて、自動的に分類する研究が行われている。たとえば、テキストの内容から、複数の分野(政治と経済等の分野)を同時に判定する多重分類技術が提案されている(たとえば、非特許文献1参照)。
つまり、上記「多重分類」は、所定の1つのテキストの内容が属する複数の分野である。または、上記「多重分類」は、所定の1つのテキストの内容が属する分野を複数、決定することである。
この技術では、多重分類を行うために、事前に学習データを作成する必要がある。ここで、上記「学習データ」は、単語と、この単語に対応するジャンル(分野)との組が、複数個記述されているデータ群である。
たとえば、「サッカー」という単語には、「スポーツ」という分野が記述され、また、「野球」という単語には、「スポーツ」という分野が記述されている。
従来の多重分類技術では、上記学習データを大量に作成することによって、多重分類の精度を向上させることができ、また、幅広い分野への対応が可能である。
上田修功・斉藤和巳著「多重トピックテキストの確率モデル−パラメトリック混合モデル−」電子情報通信学会論文誌、Vol. J87-D-II、 No.3、 pp.872-883、2004年
たとえば「サッカー」、「野球」に対応するラベル(分野)は、「スポーツ」等であるが、従来は、学習データを自動的に作成する方法が提案されていないので、上記のように、「サッカー」、「野球」のそれぞれに対応する「スポーツ」等のラベル(分野)付けを、人手で行っている。
このために、一般的には、上記学習データを予め大量に作成することは、莫大な労力を必要とする。また、学習データが正しくなければ、多重分類を適切に実行することができないので、上記学習データには、正確性が要求される。
本発明は、学習データを事前に用意しなくても、テキストを多重分類することができる多重分類方法、およびその装置、プログラム、記憶媒体を提供することを目的とする。
本発明は、第1のテキストを文単位に分解し、この分解した各文を形態素分析し、この形態素分析によって得られた名詞を検索語として抽出し、抽出した検索語を利用して、ウェブ上で検索し、この検索された第2のテキストを形態素分析し、この形態素分析で得られた名詞のうちで、頻度が所定以上高い名詞を、文単位で、関連語として取得し、第1のテキストを分解した複数の文のうちの1つの文から抽出された上記検索語と、この検索語を使用して取得された上記関連語とを組み合わせてキーワード集合を作成し、複数の上記キーワード集合の間で共通して出現する単語を共通単語として抽出し、この抽出された共通単語を、上記第1のテキストの分野を示す用語として出力するテキスト多重分類装置である。
本発明によれば、ウェブで検索する概念を利用するので、学習データを事前に用意しなくても、多重分類することができるという効果を有する。
発明を実施するための最良の形態は、以下の実施例である。
図1は、本発明の実施例1であるテキスト多重分類装置100を示す図である。
テキスト多重分類装置100は、ウェブ検索を利用し、学習データを使用せずに、多重分類する装置であり、コンピュータ10と、表示部20とを有する。コンピュータ10は、ネットワークNW1を介して、ウェブWB1に接続され、HTML形式の第2のテキストT2を取得する。
コンピュータ10は、テキスト分解手段11と、検索語抽出手段12と、関連語取得手段13と、共通単語抽出手段14と、制御部15と、入力部16と、出力部17と、分解文記憶装置M1と、検索語記憶装置M2と、関連語記憶装置M3と、共通単語記憶装置M4とを実現する手段である。
また、コンピュータ10は、ネットワークNW1を介して、ウェブWB1にアクセスすることができ、ウェブWB1には、複数のHTML形式のテキスト(第2のテキスト)T2が蓄積されている。
第1のテキストT1は、コンピュータ10の入力部16に入力されるテキストの例である。表示部20は、制御部15から出力部17を通じて出力された結果を表示する装置である。
テキスト多重分類装置100は、ウェブ上でキーワード検索を行う概念に着目した新しい多重分類技術によるものである。上記「ウェブ」は、インターネット等のネットワークを介してアクセスできるHTML形式のテキストの集合である。現在、ウェブ上には、膨大な情報が蓄積され、最新の話題も常に提供されている。つまり、ウェブは、様々な情報を持つ辞書として捉えることができる。
実際に、我々は、ある事に関して調べる際、検索サイトで検索語を入力し、ウェブ上で検索し、単語の意味や物事の内容を調べている。この観点から、学習データを使用しなくても、ウェブ上にある情報を適切に利用すれば、たとえば「サッカー」や「野球」に対応するのは、「スポーツ」や「ボール」という概念であることを取得できる。
テキスト分解手段11は、第1のテキストを文単位に分解し、記憶装置に記憶するテキスト分解手段の例である。
検索語抽出手段12は、テキスト分解手段が分解した各文を形態素分析し、この形態素分析によって得られた名詞を検索語として抽出し、記憶装置に記憶する検索語抽出手段の例である。
関連語取得手段13は、検索語抽出手段が抽出した検索語を利用して、ウェブ上で検索し、この検索された第2のテキストを形態素分析し、この形態素分析で得られた名詞のうちで、頻度が所定以上高い名詞を、文単位で、関連語として取得し、記憶装置に記憶する関連語取得手段の例である。
共通単語抽出手段14は、テキスト分解手段が分解した複数の文のうちの1つの文から抽出された上記検索語と、この検索語を使用して取得された上記関連語とを組み合わせてキーワード集合を作成し、複数の上記キーワード集合の間で共通して出現する単語を共通単語として抽出し、記憶装置に記憶する共通単語抽出手段の例である。
出力部17は、抽出された共通単語を、上記第1のテキストの分野を示す用語として出力する出力手段の例である。
分解文記憶装置M1は、テキスト分解手段が分解した文を記憶する文記憶装置の例である。検索語記憶装置M2は、検索語抽出手段が抽出した検索語を記憶する検索語記憶装置の例である。関連語記憶装置M3は、関連語取得手段が取得した関連語を記憶する関連語記憶装置の例である。共通単語記憶装置M4は、共通単語抽出手段が抽出した共通単語を記憶する共通単語記憶装置の例である。
制御部15は、上記手段11〜14と、入力部16と、出力部17と、記憶装置M1〜M4とを制御する。
図2は、本発明の実施例1であるテキスト多重分類装置100における処理手順の概要を示す図である。
図2において、S1で、第1のテキストT1を入力し、S2で、入力された第1のテキストT1を文単位に分割し、S3で、分割された各文から、出現頻度の高い名詞を検索語として抽出する。S4で、抽出された検索語を利用してウェブ上で検索し、検索結果の中で、頻度の高いものを関連語として取得する。
そして、S5で、第1のテキストT1の文毎に、抽出された検索語と取得された関連語とを組み合わせて、キーワード集合を作る。
その後、S6で、複数のキーワード集合の間で、共通する単語である共通単語を抽出する。S7で、抽出された共通単語を、第1のテキストT1の分野を示す用語として出力する。
次に、実施例1におけるテキスト多重分類の処理手順を具体的に説明する。
まず、第1のテキストT1が、入力部16を通じて入力されると、制御部15によってテキスト分解手段11が呼び出される。テキスト分解手段11は、第1のテキストT1を1文字ずつ読み込み、文単位で切り出す。そして、これらの切り出された複数の文を、制御部15を介して、分解文記憶装置M1に記憶する。ここで、「文」は、句点「。」で区切られる一文である。
図3は、テキスト多重分類装置100で使用する第1のテキストT1の例を示す図である。
図3に示す第1のテキストT1について、テキスト分解手段11を実行すると、文単位に分解された6つの文41〜46が生成され、分解文記憶装置M1に記憶される。
テキスト分解手段11が生成する文の個数は、入力されたテキストによって異なる。また、意味的に複数の文が連続し、形式的に1つの文を形成している場合や、句点「。」を入力ミスした場合には、複数の文が1つの文として扱われる。
次に、分解文記憶装置M1に記憶されている各文について、制御部15の指示によって、検索語抽出手段12が抽出する。ここで、「検索語」は、ウェブ上で検索を行う際に入力する1つまたは複数の単語である。検索語抽出手段12は、最初に入力された文について、形態素解析を行う。
そして、名詞に分類された複数の単語を、検索語として取り出し、制御部15を介して、検索語記憶装置M2に記憶する。ただし、名詞を取り出すだけでは、「年」や「時」のように、一般的に使用される単語も抽出される。そこで、「年」や「時」等の単語が登録される不要語リストL1を予め作成し、この不要語リストL1に登録されていない名詞を、検索語として扱う。
新聞記事データベース等のテキストデータ全体に現われる名詞の出現頻度を調べ、出現頻度が、所定の頻度よりも高い単語を、不要語として選択する方法が考えられる。分野を問わず様々なテキストでよく現われる「年」や「時」は、一般的な単語であり、検索語としては使用する意味が少ないので、不要語として選択する。
次に、検索語抽出手段12の実行例について、説明する。
図4は、第1のテキストT1を分解した文の例を示す図である。
文41は、第1のテキストT1の1番目の文である。また、文42、43、44、45は、第1のテキストT1のそれぞれ、2、3、4、5番目の文である。これらの文41〜45は、分解文記憶装置M1に記憶される。
図4に示す文41を、検索語抽出手段12に入力すると、最初に形態素解析が実行され、この実行結果から、名詞として、「ドライブ」と「久里浜」とが検出される。
図5は、テキスト多重分類装置100で使用する不要語リストL1の例を示す図である。
不要語リストL1には、不要語が登録されている。なお、上記「不要語」は、検索語としては使用しない名詞である。
図6は、第1のテキストT1を分解した文から抽出された名詞(検索語)の例を示す図である。
検索語61は、第1の文41に対応する検索語である。また、検索語62、63、64、65、66は、それぞれ、文42、43、44、45、46に対応する検索語である。これら検索語61〜66は、検索語記憶装置M2に記憶される。
上記2つの名詞「ドライブ」、「久里浜」は、不要語リストL1に登録されていないので、図6に示すように、検索語記憶装置M2に、検索語61としてそのまま記憶される。
また、文43を形態素解析した結果、「時間」・「仕事場」・「富士山」・「箱根」・「視野」・「ドライブ」が、名詞として抽出される。そして、不要語リストL1として、「時間」・「仕事場」・「視野」が登録されているので、これらの不要語を除去すると、検索語として、「富士山」・「箱根」・「ドライブ」が検出される。そして、これらの検索語が、3番目の文43に対する検索語63として、検索語記憶装置M2に記憶される。なお、不要語リストL1に登録される不要語が変われば、検索語記憶装置M2に記憶される検索語は変わる。
また、抽出された単語が、全て不要語である場合や、文42のように、名詞が存在していない場合、検索語抽出手段12は、検索語を抽出しない。この場合、検索語抽出手段12は、検索語記憶装置M2に、単語を何も記憶させない。
文41〜文46にそれぞれ対応する検索語61〜検索語66が作成された後に、制御部15が、関連語取得手段13を呼び出す。関連語取得手段13は、まず、検索語抽出手段12が抽出した検索語を、制御部15を介して、検索語記憶装置M2から取り出し、この取り出された検索語を用いて、ネットワークNW1で接続されているウェブWB1上で検索する。この検索結果で参照されている複数のHTML形式の第2のテキストT2を、ネットワークNW1を介して、ウェブWB1から取得し、この取得した第2のテキストT2の本文の内容を抽出する。
HTML形式の第2のテキストT2において、本文の内容は、第2のテキストT2であり、“<”と“>”とで囲まれている文字列によって構成されているタグを解析すると、本文の第2のテキストT2を得ることができる。抽出された複数の第2のテキストT2に対して、関連語取得手段13は、形態素解析し、名詞を抽出する。
そして、複数の第2のテキストT2から抽出された名詞の出現頻度を調べ、出現頻度の高い順に並べ、出現頻度が所定値以上である名詞を、関連語とし、これら関連語を、関連語記憶装置M3に記憶する。
図7は、テキスト多重分類装置100において、抽出された検索語を使ってウェブで検索したテキスト中の頻度の高い名詞(関連語)の例を示す図である。
図7において、関連語71は、検索語61に対応する関連語である。また、関連語72、73、74、75、76は、それぞれ、検索語62、63、64、65、66に対応する関連語である。これら関連語71〜76は、関連語記憶装置M3に記憶される。
ところで、名詞をそのまま関連語として使用すると、検索語抽出手段12と同様に、「年」や「月」等、普遍的に使用される単語が関連語として扱われる場合がある。そこで、関連語取得手段13においても、検索語抽出手段12と同様に、不要語リストL1を参照し、不要語に登録されていない単語を、関連語として、関連語記憶装置M3に記憶する。
検索語61を関連語取得手段13に入力すると、名詞として「渋滞」・「三浦」・「天気」等、複数の頻出単語が抽出される。そして、これら抽出された単語から、「天気」のように、不要語リストL1に格納されている単語を除き、関連語71を、関連語記憶装置M3に記憶する。これらの処理を、残りの検索語62〜66についても実行し、関連語72〜76を得る。
関連語取得手段13が得た関連語は、検索語を入力する順番には影響しない。たとえば、検索語61について、「ドライブ」・「久里浜」の順で検索語を入力し、検索した場合でも、「久里浜」・「ドライブ」の順で検索語を入力し、検索した場合でも、得られる関連語71は変わらない。
一方、検索語抽出手段12と同様に、関連語取得手段13でも、不要語リストL1を参照しているので、不要語リストL1が変わると、取得される関連語も変化する。また、参照されているHTML形式の第2のテキストT2の本文から抽出した名詞が、全て不要語リストL1に含まれている場合、または、検索語記憶装置M2に検索語が記憶されていない場合、関連語取得手段13は、関連語を取得する処理を実行せず、また、関連語記憶装置M3に関連語を記憶する処理を実行しない。
最後に、分解文記憶装置M1に記憶されている全ての文について、検索語抽出手段M2による処理が終了し、関連語取得手段13による処理も終了すると、制御部15は、共通単語抽出手段14に共通単語を抽出させる。
共通単語抽出手段14は、まず、制御部15を介して、検索語記憶装置M2と関連語記憶装置M3とに、それぞれ記憶されている検索語と関連語とを順に取り出し、これらを組み合わせ、キーワード集合を作成する処理を繰り返す。
たとえば、検索語が「果物」であり、関連語が「りんご」と「みかん」であれば、キーワード集合は、「果物」・「りんご」・「みかん」によって構成される。共通単語抽出手段14に、検索語がないか、または関連語がなければ、キーワード集合を作成しない。
図8は、テキスト多重分類装置100において、第1のテキストT1の文毎に、検索語と関連語とを組み合わせたキーワード集合の例を示す図である。
キーワード集合81は、検索語61と関連語71との組から生成されたキーワード集合である。キーワード集合82、83、84、85、86は、それぞれ、検索語62と関連語72との組から生成されたキーワード集合、検索語63と関連語73との組から生成されたキーワード集合、検索語64と関連語74との組から生成されたキーワード集合、検索語65と関連語75との組から生成されたキーワード集合、検索語66と関連語76との組から生成されたキーワード集合である。
なお、図8中、キーワード集合中の単語であって、下線が付されている単語が、検索語であり、下線が付されていない単語が、関連語である。
図6に示す検索語の例と、図7に示す関連語の例とから作成したキーワード集合の例を、図8に示してある。
上記のように、キーワード集合81は、検索語61と関連語71とから作成されたものであり、キーワード集合の作成が終了すると、生成されたキーワード集合同士を比較し、部分的に共通して現われる単語を見つめる。
この生成されたキーワード集合同士を比較する方法として、様々な方法が考えられる。
キーワード集合同士を比較して共通単語を検出する第1の方法は、全てのキーワード集合の組み合わせを調べ、共通単語の個数が少なくとも1つ存在するように、キーワード集合を集める方法である。ただし、単語が存在していないキーワード集合(図8に示すキーワード集合82等)については、キーワード集合同士の比較を行わない。
たとえば、図8に示す例では、共通単語が少なくとも1つ存在するように、キーワード集合の組み合わせの1つとして、キーワード集合81、83、84の組み合わせがある。これらのキーワード集合81、83、84について、共通単語は「ドライブ」・「渋滞」・「富士山」であり、組み合わせたキーワード集合の数は、3つである。
実際には、キーワード集合を組み合わせる場合、共通単語が少なくとも1つ存在するように、組み合わせることが最低限必要な条件であるが、さらに、できるだけ多くの数のキーワード集合を組み合わせることが、必須条件ではないが、望ましい。
たとえば、キーワード集合81、84という2つのキーワードの組み合わせでは、共通単語が、「ドライブ」・「渋滞」・「富士山」・「バイク」・「海岸線」・「東海道」・「宿泊」であり、共通単語が少なくとも1つ存在するという条件を満たす。一方、キーワード集合81、83、84という3つのキーワードの組み合わせでは、共通単語が、「ドライブ」・「渋滞」・「富士山」であり、共通単語が少なくとも1つ存在するという条件を満たす。この場合、3つのキーワード集合81、83、84の組み合わせで求めた共通単語の方が、キーワード集合の数が多いので、好ましい。このように、組み合わせるキーワード集合の数が多いほど、共通単語をよく絞込むことができ、より適切な共通単語(分類名)を得ることができる。
一方、キーワード集合81、83、84の組み合わせに、キーワード集合86を追加し、4つのキーワード集合を組み合わせると、共通単語が存在しなくなるので、キーワード集合86を、キーワード集合81、83、84の組み合わせに追加することができない。
また、残りのキーワード集合85、86の組み合わせは、共通単語が少なくとも1つ存在するので、この組み合わせで、共通単語を得ることができる。
図9は、テキスト多重分類装置100において、複数のキーワード集合の間で共通する単語(共通単語)の例を示す図である。
最終的に、キーワード集合同士を比較して共通単語を検出する第1の方法では、キーワード集合81、83、84に含まれている共通単語は、図9に示す共通単語91であり、これらが、共通単語記憶装置M4に記憶される。また、キーワード集合85、86に含まれている共通単語は、図9に示す共通単語92であり、これらが、共通単語記憶装置M4に記憶される。共通単語91は、1番目の共通単語であり、共通単語92は、2番目の共通単語である。
図9に示す例から、第1のテキストT1に書かれている内容は、2つに分類されると判断できる。そして、分類された1つ目の内容は、「ドライブ」・「渋滞」・「富士山」等に関するものであり、分類された2つ目の内容は、「特徴選択」・「統計学」・「変換」等に関するものであることが分かる。
キーワード集合同士を比較して共通単語を検出する第2の方法は、先頭から順に、キーワード集合同士を比較し、共通単語が少なくとも1つあるかどうかを調べ、共通単語が完全に見つからなくなるまで、キーワード集合を順に追加する方法である。
この場合、キーワード集合に含まれている単語がなければ、次のキーワード集合を追加して比較する必要がある。共通単語を発見できなければ、1つ前の段階で抽出された共通単語を、制御部15を通じて、共通単語記憶装置M4に記憶し、新たな2つのキーワード集合を比較する。上記処理を、全てのキーワード集合について実行する。
ただし、上記第2の方法では、2つのキーワード集合(i番目のキーワード集合とj番目のキーワード集合(ただし、i<jとする))を比較した結果、共通単語が見つからない場合が考えられる。この場合、i番目とj番目のキーワード集合のうちで、i番目のキーワード集合に含まれている名詞を、そのまま共通単語とし、共通単語記憶装置M4に記憶し、次のキーワード集合(k番目のキーワード集合)を追加して、比較する。
次に、図8に示すキーワード集合の例を用いて、キーワード集合同士を比較して共通単語を検出する第2の方法について、具体的に説明する。
第2の方法は、上記のように、先頭から順に、キーワード集合同士を比較し、共通単語が少なくとも1つあるかどうかを調べ、共通単語が完全に見つからなくなるまで、キーワード集合を順に追加する方法である。
まず、キーワード集合81、83を比較する。キーワード集合82は、単語が何も登録されていないので、比較対象から除外する。キーワード集合81、83において、共通する単語は、「ドライブ」・「渋滞」・「房総」・「富士山」・「バイク」・「走行」・「小田原」・「宿泊」・「庭園」の9単語である。共通単語が見つかる間は、順に、次のキーワード集合を追加するので、キーワード集合81、83に、キーワード集合84を追加し、3つのキーワード集合で比較し、共通単語を検出する。
この結果、共通する単語は、「ドライブ」・「渋滞」・「富士山」・「宿泊」であり、4つの共通単語が存在するので、さらに、キーワード集合85を追加し、合計4つのキーワード集合同士で比較し、共通単語を検出する。この場合、共通する単語は、0個であるので、1つ前の段階で見つけた共通単語「ドライブ」・「渋滞」・「富士山」・「宿泊」を、共通単語記憶装置M4に記憶する。これを記憶した後に、キーワード集合85、86を比較し、共通単語を抽出する。
なお、上記第2の方法では、n番目キーワード集合〜n+m番目のキーワード集合を組み合わせて共通単語が抽出されなければ、次の組み合わせでは、n+m+1番目のキーワード集合とn+m+2番目のキーワード集合とが組み合わされる。
これによって、全てのキーワード集合81〜86が比較されたので、この段階での共通単語を、制御部15を通じて、共通単語記憶装置M4に記憶する。最終的に得られたキーワード集合は、第1の方法(全てのキーワード集合同士を比較して共通単語を検出する第1の方法)と同様に、キーワード集合81、83、84から抽出された共通単語91と、キーワード集合85、86から抽出された共通単語92とである。
キーワード集合に基づいて共通単語を抽出する場合、キーワード集合をどのように組み合わせて考えるかによって、共通単語を求めるまでの計算時間が変化する。
しかし、最終的に得られる共通単語は同じであるので、共通単語抽出手段14におけるキーワード集合の組み合わせは、テキスト多重分類の結果については、影響しない。したがって、キーワード集合の組み合わせ順序は、任意の方法でよい。共通単語抽出手段14の処理が終了すると、制御部15は、この抽出結果を、出力部17を介して、表示部20に表示する。ここでは、「ドライブ」・「渋滞」・「富士山」と「特徴選択」・「統計学」・「変換」等の文字列だけを表示することが考えられる。
また、上記実施例をプログラムの発明として把握することができる。つまり、上記実施例は、第1のテキストを文単位に分解し、記憶装置に記憶するテキスト分解手順と、上記テキスト分解手順で分解された各文を形態素分析し、この形態素分析によって得られた名詞を検索語として抽出し、記憶装置に記憶する検索語抽出手順と、上記検索語抽出手順で抽出された検索語を利用して、ウェブ上で検索し、この検索された第2のテキストを形態素分析し、この形態素分析で得られた名詞のうちで、頻度が所定以上高い名詞を、文単位で、関連語として取得し、記憶装置に記憶する関連語取得手順と、上記テキスト分解手順で分解された複数の文のうちの1つの文から抽出された上記検索語と、この検索語を使用して取得された上記関連語とを組み合わせてキーワード集合を作成し、複数の上記キーワード集合の間で共通して出現する単語を共通単語として抽出し、記憶装置に記憶する共通単語抽出手順と、上記抽出された共通単語を、上記第1のテキストの分野を示す用語として出力する出力手順とをコンピュータに実行させるプログラムの例である。
さらに、上記プログラムを、CD、DVD、HD、半導体メモリ等、コンピュータ読み取り可能なの記録媒体に記録するようにしてもよい。
上記実施例によれば、ウェブで検索する概念を利用するので、学習データを事前に用意しなくても、多重分類することができる。多重分類技術の莫大なテキストデータを扱う分野や、ニュース記事を配信する分野において、上記実施例を、データベースの整理・更新を自動的に行う支援策として応用できる。
本発明の実施例1であるテキスト多重分類装置100を示す図である。 本発明の実施例1であるテキスト多重分類装置100における処理手順の概要を示す図である。 テキスト多重分類装置100で使用する第1のテキストT1の例を示す図である。 第1のテキストT1を分解した文の例を示す図である。 テキスト多重分類装置100で使用する不要語リストL1の例を示す図である。 第1のテキストT1を分解した文から抽出された名詞(検索語)の例を示す図である。 テキスト多重分類装置100において、抽出された検索語を使ってウェブで検索したテキスト中の頻度の高い名詞(関連語)の例を示す図である。 テキスト多重分類装置100において、第1のテキストT1の文毎に、検索語と関連語とを組み合わせたキーワード集合の例を示す図である。 テキスト多重分類装置100において、複数のキーワード集合の間で共通する単語(共通単語)の例を示す図である。
符号の説明
100…テキスト多重分類装置、
10…コンピュータ、
11…テキスト分解手段、
12…検索語抽出手段、
13…関連語取得手段、
14…共通単語抽出手段、
15…制御部、
16…入力部、
17…出力部、
M1…分解文記憶装置、
M2…検索語記憶装置、
M3…関連語記憶装置、
M4…共通単語記憶装置、
T1、T2…テキスト、
20…表示部。

Claims (10)

  1. 第1のテキストを文単位に分解し、記憶装置に記憶するテキスト分解手段と;
    上記テキスト分解手段が分解した各文を形態素分析し、この形態素分析によって得られた名詞を検索語として抽出し、記憶装置に記憶する検索語抽出手段と;
    上記検索語抽出手段が抽出した検索語を利用して、ウェブ上で検索し、この検索された第2のテキストを形態素分析し、この形態素分析で得られた名詞のうちで、頻度が予め設定された閾値以上の名詞を、文単位で、関連語として取得し、記憶装置に記憶する関連語取得手段と;
    上記テキスト分解手段が分解した複数の文のうちの1つの文から抽出された上記検索語と、この検索語を使用して取得された上記関連語とを組み合わせてキーワード集合を作成し、複数の上記キーワード集合の間で共通して出現する単語を共通単語として抽出し、記憶装置に記憶する共通単語抽出手段と;
    上記抽出された共通単語を、上記第1のテキストの分野を示す用語として出力する出力手段と;
    を有することを特徴とするテキスト多重分類装置。
  2. 請求項1において、
    上記共通単語抽出手段は、少なくとも1つの上記共通単語を抽出する手段であることを特徴とするテキスト多重分類装置。
  3. 請求項1において、
    上記共通単語抽出手段は、全ての上記キーワード集合の組み合わせを調べ、少なくとも1つの共通単語を抽出する手段であることを特徴とするテキスト多重分類装置。
  4. 請求項1において、
    上記共通単語抽出手段は、複数のキーワード集合同士を比較し、共通単語があるかどうかを調べ、共通単語が完全に見つからなくなるまで、キーワード集合を順に追加することによって、上記共通単語を抽出する手段であることを特徴とするテキスト多重分類装置。
  5. 請求項1において、
    上記第1のテキストの分野を示す用語としての上記共通単語を表示する表示部を有することを特徴とするテキスト多重分類装置。
  6. 請求項1において、
    上記検索語抽出手段は、予め作成された不要語リストに登録されていない名詞を、検索語として抽出する手段であることを特徴とするテキスト多重分類装置。
  7. 請求項1において、
    上記関連語取得手段は、予め作成された不要語リストに登録されていない名詞を、関連語として取得する手段であることを特徴とするテキスト多重分類装置。
  8. 第1のテキストを文単位に分解し、記憶装置に記憶するテキスト分解工程と;
    上記テキスト分解工程で分解された各文を形態素分析し、この形態素分析によって得られた名詞を検索語として抽出し、記憶装置に記憶する検索語抽出工程と;
    上記検索語抽出工程で抽出された検索語を利用して、ウェブ上で検索し、この検索された第2のテキストを形態素分析し、この形態素分析で得られた名詞のうちで、頻度が予め設定された閾値以上の名詞を、文単位で、関連語として取得し、記憶装置に記憶する関連語取得工程と;
    上記テキスト分解工程で分解された複数の文のうちの1つの文から抽出された上記検索語と、この検索語を使用して取得された上記関連語とを組み合わせてキーワード集合を作成し、複数の上記キーワード集合の間で共通して出現する単語を共通単語として抽出し、記憶装置に記憶する共通単語抽出工程と;
    上記抽出された共通単語を、上記第1のテキストの分野を示す用語として出力する出力工程と;
    を有することを特徴とするテキストを多重分類する方法。
  9. 第1のテキストを文単位に分解し、記憶装置に記憶するテキスト分解手順と;
    上記テキスト分解手順で分解された各文を形態素分析し、この形態素分析によって得られた名詞を検索語として抽出し、記憶装置に記憶する検索語抽出手順と;
    上記検索語抽出手順で抽出された検索語を利用して、ウェブ上で検索し、この検索された第2のテキストを形態素分析し、この形態素分析で得られた名詞のうちで、頻度が予め設定された閾値以上の名詞を、文単位で、関連語として取得し、記憶装置に記憶する関連語取得手順と;
    上記テキスト分解手順で分解された複数の文のうちの1つの文から抽出された上記検索語と、この検索語を使用して取得された上記関連語とを組み合わせてキーワード集合を作成し、複数の上記キーワード集合の間で共通して出現する単語を共通単語として抽出し、記憶装置に記憶する共通単語抽出手順と;
    上記抽出された共通単語を、上記第1のテキストの分野を示す用語として出力する出力手順と;
    をコンピュータに実行させるプログラム。
  10. 第1のテキストを文単位に分解し、記憶装置に記憶するテキスト分解手順と;
    上記テキスト分解手順で分解された各文を形態素分析し、この形態素分析によって得られた名詞を検索語として抽出し、記憶装置に記憶する検索語抽出手順と;
    上記検索語抽出手順で抽出された検索語を利用して、ウェブ上で検索し、この検索された第2のテキストを形態素分析し、この形態素分析で得られた名詞のうちで、頻度が予め設定された閾値以上の名詞を、文単位で、関連語として取得し、記憶装置に記憶する関連語取得手順と;
    上記テキスト分解手順で分解された複数の文のうちの1つの文から抽出された上記検索語と、この検索語を使用して取得された上記関連語とを組み合わせてキーワード集合を作成し、複数の上記キーワード集合の間で共通して出現する単語を共通単語として抽出し、記憶装置に記憶する共通単語抽出手順と;
    上記抽出された共通単語を、上記第1のテキストの分野を示す用語として出力する出力手順と;
    をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記憶媒体。
JP2006240640A 2006-09-05 2006-09-05 テキスト多重分類装置、テキストを多重分類する方法、プログラムおよび記憶媒体 Pending JP2008065468A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006240640A JP2008065468A (ja) 2006-09-05 2006-09-05 テキスト多重分類装置、テキストを多重分類する方法、プログラムおよび記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006240640A JP2008065468A (ja) 2006-09-05 2006-09-05 テキスト多重分類装置、テキストを多重分類する方法、プログラムおよび記憶媒体

Publications (1)

Publication Number Publication Date
JP2008065468A true JP2008065468A (ja) 2008-03-21

Family

ID=39288151

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006240640A Pending JP2008065468A (ja) 2006-09-05 2006-09-05 テキスト多重分類装置、テキストを多重分類する方法、プログラムおよび記憶媒体

Country Status (1)

Country Link
JP (1) JP2008065468A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101002737B1 (ko) * 2009-09-30 2010-12-21 김수현 디스플레이되는 웹페이지의 분석을 통한 검색창 키워드 자동 입력시스템
KR101428981B1 (ko) * 2012-12-14 2014-08-13 한국과학기술정보연구원 아이템 풀 구축 시스템 및 방법
KR101702559B1 (ko) * 2015-08-04 2017-02-03 연세대학교 산학협력단 실시간 이슈 탐지를 위한 일반 및 단기간 단어 사전 생성 및 단어 매칭 기법 및 그 장치
CN110362827A (zh) * 2019-07-11 2019-10-22 腾讯科技(深圳)有限公司 一种关键词提取方法、装置及存储介质
US11176327B2 (en) 2016-10-04 2021-11-16 Fujitsu Limited Information processing device, learning method, and storage medium

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101002737B1 (ko) * 2009-09-30 2010-12-21 김수현 디스플레이되는 웹페이지의 분석을 통한 검색창 키워드 자동 입력시스템
KR101428981B1 (ko) * 2012-12-14 2014-08-13 한국과학기술정보연구원 아이템 풀 구축 시스템 및 방법
KR101702559B1 (ko) * 2015-08-04 2017-02-03 연세대학교 산학협력단 실시간 이슈 탐지를 위한 일반 및 단기간 단어 사전 생성 및 단어 매칭 기법 및 그 장치
US11176327B2 (en) 2016-10-04 2021-11-16 Fujitsu Limited Information processing device, learning method, and storage medium
CN110362827A (zh) * 2019-07-11 2019-10-22 腾讯科技(深圳)有限公司 一种关键词提取方法、装置及存储介质
CN110362827B (zh) * 2019-07-11 2024-05-14 腾讯科技(深圳)有限公司 一种关键词提取方法、装置及存储介质

Similar Documents

Publication Publication Date Title
US7814102B2 (en) Method and system for linking documents with multiple topics to related documents
CN1728142B (zh) 信息检索系统中的短语识别方法和设备
CN102253930B (zh) 一种文本翻译的方法及装置
CN109947952B (zh) 基于英语知识图谱的检索方法、装置、设备及存储介质
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
JP2011048821A (ja) 相対頻度に基づくフレーズマイニングのためのシステム、方法、及び装置
CN106126619A (zh) 一种基于视频内容的视频检索方法及系统
JP4873739B2 (ja) テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体
CN111027306A (zh) 一种基于关键词抽取和词移距离的知识产权匹配技术
CN107679035A (zh) 一种信息意图检测方法、装置、设备和存储介质
KR20070007001A (ko) 질의어 자동 추출을 이용한 검색 방법 및 장치
JP2008065468A (ja) テキスト多重分類装置、テキストを多重分類する方法、プログラムおよび記憶媒体
JP4873738B2 (ja) テキストセグメンテーション装置、テキストセグメンテーション方法、プログラム及び記録媒体
Akther et al. Compilation, analysis and application of a comprehensive Bangla Corpus KUMono
JP5215051B2 (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP2013101679A (ja) テキストセグメンテーション装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
Aslam et al. Web-AM: An efficient boilerplate removal algorithm for Web articles
CN112115269A (zh) 一种基于爬虫的网页自动分类方法
CN103034657B (zh) 文档摘要生成方法和装置
JP2008197952A (ja) テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体
JP5491446B2 (ja) 話題語獲得装置、方法、及びプログラム
Schmidt et al. A concept for plagiarism detection based on compressed bitmaps
CN112711695A (zh) 基于内容的搜索建议生成方法及装置
JP2006139484A (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム