JP7131130B2

JP7131130B2 - 分類方法、装置、及びプログラム

Info

Publication number: JP7131130B2
Application number: JP2018123998A
Authority: JP
Inventors: 淳真工藤; 大紀塙; 俊秀宮城; 幸太山越; 佳祐廣田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2022-09-06
Anticipated expiration: 2038-06-29
Also published as: JP2020004157A

Description

開示の技術は、分類方法、分類装置、及び分類プログラムに関する。

従来、自然言語で記述された文書（テキストデータ）を、記述されている内容に基づいて分類することが行われている。

例えば、互いに対応付けられた質問と回答とを文書記憶部に記憶しておき、文書記憶部中の各回答の特徴ベクトルに基づいて回答をクラスタ分類しておく情報検索システムが提案されている。

また、談話データ及び談話セマンティクスを入力とし、談話データからＦＡＱ候補となる質問文を抽出して出力するＦＡＱ候補抽出システムが提案されている。このシステムでは、談話セマンティクスは各ステートメントのフロー情報を含み、談話データから、顧客によって発話され、質問文若しくは要求文であることを示すフローが設定された質問・要求ステートメントを抽出する。そして、質問・要求ステートメントから指定されたキーワードを含むものを抽出し、質問・要求ステートメントについてクラスタリングし、各クラスタの代表となる質問・要求ステートメントをＦＡＱ候補として出力する。

また、ツリー状の観点及び属性単語を含む観点リストを記憶した観点リスト記憶手段と、各属性単語に関連する多数の学習文章情報を記憶した学習文章情報記憶手段とを有する装置が提案されている。この装置は、共有コンテンツから複数のキーワードを抽出し、キーワードを要素とし且つその出現頻度を値とする第１のベクトルを導出する。そして、キーワード毎に、当該キーワードと一致する属性単語における学習文章情報について、当該学習文章情報に含まれる単語を要素とし且つその出現頻度を値とする第２のベクトルを導出する。さらに、両ベクトルの類似度を算出し、類似度を対応付けた類似度付き観点リストを生成し、観点リストのレイヤ毎に、類似度の分散が最も大きい観点及び属性単語を導出する。

特開２００２－４１５７３号公報特開２０１２－３７０４号公報特開２０１２－７００３６号公報

しかしながら、例えば、各テキストに定型的な表現が含まれている場合には、その定型的な表現が影響して、各文書から適切な特徴を抽出することができず、文書の分類を適切に行うことができない場合がある。

一つの側面として、開示の技術は、テキストの分類精度を向上させることを目的とする。

一つの態様として、開示の技術は、複数のテキストを受け付け、受け付けた前記複数のテキストのうちの何れかのテキストについて、該テキストに含まれる形態素と、該形態素の属性情報との組をそれぞれが含む複数の解析結果情報を取得する。また、開示の技術は、特定の形態素と、該特定の形態素の属性情報とを含む形態素情報を記憶する記憶部を参照する。そして、取得した前記複数の解析結果情報のうちの何れかの解析結果情報に、前記形態素情報に含まれる前記特定の形態素と、該特定の形態素の属性情報との組が含まれるか否かの判定を行う。また、開示の技術は、判定結果が肯定的である場合、前記何れかのテキストを、該何れかのテキストにおける、前記何れかの解析結果情報に含まれる形態素の出現位置に応じた位置で分割して、複数のテキストを生成する。さらに、開示の技術は、受け付けた前記複数のテキストのうちの他のテキストと、生成した前記複数のテキストと、を複数のクラスタに分類する。

一つの側面として、テキストの分類精度を向上させることができる、という効果を有する。

文書の分類を説明するための図である。定型表現が文書の分類に与える影響を説明するための図である。定型表現が文書の分類に与える影響を説明するための図である。定型表現を抽出するためのテキストの分類を説明するための図である。定型表現を抽出するためのテキストの分類の問題点を説明するための図である。本実施形態に係る分類装置の機能ブロック図である。受付解析部による解析結果の一例を示す図である。分割用辞書の一例を示す図である。テキストの分割を説明するための図である。単語モデルの一例を示す図である。分類結果画面の一例を示す図である。本実施形態に係る分類装置として機能するコンピュータの概略構成を示すブロック図である。本実施形態における分類処理の一例を示すフローチャートである。分割処理の一例を示すフローチャートである。クラスタリング処理の一例を示すフローチャートである。表示制御処理の一例を示すフローチャートである。

以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。

本実施形態に係る分類装置では、定型表現を抽出するために、テキスト集合に含まれる各テキストを複数のクラスタに分類する。

ここで、実施形態の詳細を説明する前に、定型表現を抽出するために、テキストを分類する理由について説明する。例えば、システムに関するインシデント対応時のメールなどの文書を分類し、各文書が表すインシデントが何の事案に関するインシデントかを特定する場合を考える。

例えば、図１に示すように、インシデント１件における文章の集合を１つの文書とし、複数のインシデントに関する文書集合に含まれる各文書を、ＢｏＷ（Bag of Words）などの手法により、文書に含まれる単語の出現頻度でベクトル化する。そして、ベクトルのコサイン類似度（図１中の「０．７」、「０．０」、「０．４」）が高い文書同士をクラスタにまとめることにより、文書を分類する。

そして、ＴＦ（Term Frequency）－ＩＤＦ（Inverse Document Frequency）などにより、各クラスタに属する文書に含まれる特徴語を抽出し（図１中の下線で示す単語）、各クラスタに対応付けることで、各クラスタに含まれる文書が何の事案のインシデントかを把握可能にする。なお、ＴＦ値及びＩＤＦ値は、以下のように定義される。

単語ｗのＴＦ値
＝文書中の単語ｗの出現数／文書中の全ての単語の出現数
単語ｗのＩＤＦ値
＝ｌｏｇ（文書の総数／単語ｗを含む文書の数）

しかし、上記のベクトル化の際には、各文書に含まれる定型表現もベクトル化されてしまい、定型表現がノイズとなってコサイン類似度に影響を及ぼしてしまう。例えば、図２に示すように、質問文１は、サーバに関する問い合わせであり、質問文２は、ネットワークに関する問い合わせであり、それぞれ質問内容が異なる。しかし、両質問文とも、「お疲れさまです、サービス第一開発部の工藤です。」のような定型表現を含むため、コサイン類似度が高くなってしまう。

また、図３に示すように、文書が定型表現を含む場合には、文書に出現する単語数が多くなるため、特徴語となるべき単語のＴＦ値が下がってしまう。

特に、システムに関するインシデント対応の分野では、顧客からのメールなどでの問合せの文章に、挨拶や結びの言葉などの定型表現が現れ易い。そこで、定型表現が文書の分類に与える影響を低減するために、各文書から定型表現を削除することが考えられる。しかし、定型表現の中には、「サービス第一開発部の工藤です。」などの固有名詞や、顧客毎の固有の表現等が含まれるため、定型表現を事前に定義しておくことは困難である。

そこで、例えば、図４に示すように、文書集合に含まれる各文書を、文書中に含まれる「。（句点）」や「￥ｎ（改行コード）」といった一文の区切りを表す箇所で分割することによって一文のテキスト集合を作成する。そして、各文をベクトル化してクラスタリングし、各クラスタに含まれるテキストを確認することで、定型表現が分類されたクラスタを特定し、定型表現を抽出することが考えられる。そして、抽出した定型表現を各文書から削除する。

このように、テキストを分類して定型表現を抽出することで、固有の表現等を含む定型表現も抽出することができる。したがって、本実施形態では、定型表現を抽出するために、テキストを分類する。

しかし、各文書から作成された１文が複文の場合、定型表現を一部に含むにも関わらず、全体としては定型表現とは見做されず、定型表現が分類されるクラスタに分類されない場合がある。例えば、図５に示すように、クラスタ２に分類されている一文は、クラスタ１に分類されている定型表現と同様の「対処方法を教えて下さい」という定型表現を含むが、「予想外のメッセージが出力されている為、」の部分の影響で、クラスタ１に分類されない。

そこで、本実施形態では、複文に含まれる定型表現も抽出可能に、テキストを分類する。以下、本実施形態の詳細について説明する。

図６に示すように、本実施形態に係る分類装置１０は、機能的には、受付解析部１２と、分割部１４と、分類部１６と、表示制御部１８とを含む。また、分類装置１０の所定の記憶領域には、分割用辞書２２と、単語モデル２４とが記憶される。なお、受付解析部１２は、開示の技術の受付部及び取得部の一例であり、分割部１４は、開示の技術の判定部及び生成部の一例である。

受付解析部１２は、分類装置１０に入力されるテキスト集合を受け付ける。例えば、受付解析部１２は、システムに関するインシデント対応時のメールなどの文章を含み、インシデント１件における文章の集合を１つの文書とし、文書集合に含まれる各文書を一文のテキストに整形したテキスト集合を受け付ける。一文のテキストの整形は、例えば、文書中に含まれる「。（句点）」や「￥ｎ（改行コード）」といった一文の区切りを表す箇所で文書を分割するなどされたものである。

受付解析部１２は、受け付けたテキスト集合に含まれる各テキストに対して形態素解析を行い、テキストを形態素に分割すると共に、各形態素に品詞、形態素情報等の属性情報を付与する。また、受付解析部１２は、形態素解析の結果を用いて、各テキストに対して係り受け解析を行い、文節毎の係り受け関係を解析する。

図７に、「予想外のメッセージが出力されている為、対処方法を教えて下さい」というテキストに対する、受付解析部１２による形態素解析結果及び係り受け解析結果の一例を示す。図７中のＡが形態素解析結果である。図７の例では、テキストに含まれる形態素毎に、テキストの先頭から順に番号を付すと共に、形態素解析の結果得られた属性情報が各形態素に対応付けられている。すなわち、形態素解析の解析結果は、テキストに含まれる各形態素とその形態素の属性情報とを含む形態素情報のリストである。また、図７中のＢが係り受け解析結果である。図７の例では、形態素解析結果に基づいて、テキストを各文節に区切り、各文節間の係り受け関係を解析した例であり、各文節をボックスで、文節間の係り受け関係を矢印で表している。

分割用辞書２２は、図８に示すように、テキストを分割する際に、区切り箇所となる文節に含まれる特定の形態素と、その特定の形態素の属性情報とを含む形態素情報が記憶された辞書である。例えば、所定の副詞節を構成する文節に含まれる形態素情報を予め分割用辞書２２に定義しておくことができる。

分割部１４は、分割用辞書２２を参照して、各テキストについて、受付解析部１２による形態素解析結果に含まれる形態素情報に、分割用辞書２２に含まれる特定の形態素と、その特定の形態素の属性情報との組が含まれるか否かの判定を行う。分割部１４は、判定結果が肯定的である場合、各テキストを、そのテキストにおいて特定の形態素の出現位置に応じた位置で分割する。

より具体的には、分割部１４は、図９に示すように、テキストの末尾の文節から順に、その文節に係る文節を特定し、特定した文節に、分割用辞書２２に定義された形態素と属性情報との組と合致する特定の形態素と属性情報との組が含まれるか否かを判定する。図９の例では、末尾の文節に係る文節内に（図９中のＡ）、分割用辞書２２に定義された「形態素：為、品詞：名詞、形態素情報：副詞可能」が含まれるため（図９中の破線の丸で示す箇所）、この文節の直後でテキストを分割する。例えば副詞節などがテキストに含まれる場合、そのテキストは複文である可能性が高く、副詞節を表す形態素を含む文節の直後で分割することで、テキストを単文に分割することができる。

また、分割部１４は、分割後のテキストの前半部分を新たなテキストとし、図９中のＢに示すように、新たなテキストの末尾の文節から上記の処理を繰り返す。これにより、３つ以上の内容を含む複文であっても、それぞれを単文に分割することができる。

また、分割部１４は、処理対象の文節に係る文節に、分割用辞書２２に定義された形態素情報と合致する形態素情報が含まれない場合は、テキストを分割することなく、処理対象の文節に係る文節から処理を継続する。また、分割部１４は、処理対象の文節に係る文節が存在しない場合は、テキストを分割することなく、処理対象の文節を先頭側に１つ進める。

なお、末尾から処理することにより、副詞節などの述部に係る文節を効率良く特定することができる。

分割部１４は、分割したテキストについては、分割後のテキストを、分割していないテキストについては、元のテキストをそれぞれ単文として、単文集合に入れる。

ここで、図１０に、単語モデル２４の一例を示す。単語モデル２４は、単語ベクトルテーブル２４Ａと、ＩＤＦ値テーブル２４Ｂとを含む。単語ベクトルテーブル２４Ａは、単語と、その単語をＴＦ－ＩＤＦやｗｏｒｄ２ｖｅｃ等によりベクトル表現した単語ベクトルとを対応付けて記憶したテーブルである。ＩＤＦ値テーブル２４Ｂは、単語とその単語のＩＤＦ値とを対応付けて記憶したテーブルである。ＩＤＦ値は、予め任意の文書集合から生成しておいてもよいし、入力されたテキスト集合の元になった文書集合から生成してもよい。

分類部１６は、テキスト集合に含まれる他のテキストと、生成した新たな複数のテキスト、すなわち、単文集合に含まれる単文の各々を、複数のクラスタに分類する。

具体的には、分類部１６は、単語モデル２４に含まれる単語ベクトルテーブル２４Ａを参照して、単文集合に含まれる各単文をベクトル化する。また、分類部１６は、各単文の単語ベクトルのコサイン類似度などを用いて、ｋ－ｍｅａｎｓやｓｉｍｐｌｅｌｉｎｋａｇｅなどの従来既知のクラスタリング手法により、各単文をクラスタリングする。

また、分類部１６は、複数のクラスタの各々に分類された単文に含まれる単語の出現状況に基づいて、複数のクラスタの各々から特徴語を抽出し、抽出した特徴語を、各クラスタに対応付ける。なお、単語の出現状況としては、ＴＦ－ＩＤＦなどを用いることができる。また、特徴語は、開示の技術の特徴情報及び代表形態素の一例である。

表示制御部１８は、テキスト集合における各単文の出現状況に関する指標に基づいて、複数のクラスタの各々に含まれる単文についての指標が、出現頻度が高いことを示す順にクラスタを並べて、表示装置（図示省略）に表示する。

例えば、表示制御部１８は、単語モデル２４に含まれるＩＤＦ値テーブル２４Ｂを参照して、各単文に含まれる各単語のＩＤＦ値を取得し、各単文のＩＤＦ値ベクトルのノルムを算出する。また、表示制御部１８は、クラスタ毎に、そのクラスタに含まれる単文の各々のＩＤＦ値ベクトルのノルムの平均を算出する。そして、表示制御部１８は、ＩＤＦ値ベクトルのノルムの平均が小さい順にクラスタをソートし、表示装置に表示する。ＩＤＦ値ベクトルのノルムの平均が小さいクラスタは、そのクラスタに含まれる単文が、テキスト集合において横断的に出現していることを表しているため、定型表現が分類されたクラスタであると見做すものである。

図１１に、表示装置に表示される分類結果画面３０の一例を示す。図１１の例では、各クラスタを１つの枠で囲み、枠内に、そのクラスタに含まれる単文を表示している。また、各クラスタには、分類部１６により、そのクラスタに対応付けられた特徴語を対応付けて表示している。図１１では、サーバやネットワークなどのインシデントに関する具体的な内容を示す単文が分類されたクラスタよりも上位に、定型表現が分類されたクラスタが表示されている例を示している。

なお、分類結果画面３０は、図１１の例に限定されない。例えば、クラスタに対応付けられた特徴語のみをソート順に表示装置に表示し、画面からその特徴語を選択することで、その特徴語が表すクラスタに含まれる単文を表示するような表示形態としてもよい。

分類装置１０は、例えば図１２に示すコンピュータ４０で実現することができる。コンピュータ４０は、ＣＰＵ（Central Processing Unit）４１と、一時記憶領域としてのメモリ４２と、不揮発性の記憶部４３とを備える。また、コンピュータ４０は、入力装置、表示装置等の入出力装置４４と、記憶媒体４９に対するデータの読み込み及び書き込みを制御するＲ／Ｗ（Read/Write）部４５とを備える。また、コンピュータ４０は、インターネット等のネットワークに接続される通信Ｉ／Ｆ４６を備える。ＣＰＵ４１、メモリ４２、記憶部４３、入出力装置４４、Ｒ／Ｗ部４５、及び通信Ｉ／Ｆ４６は、バス４７を介して互いに接続される。

記憶部４３は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部４３には、コンピュータ４０を、分類装置１０として機能させるための分類プログラム５０が記憶される。分類プログラム５０は、受付解析プロセス５２と、分割プロセス５４と、分類プロセス５６と、表示制御プロセス５８とを有する。また、記憶部４３は、分割用辞書２２及び単語モデル２４を構成する情報が記憶される情報記憶領域６０を有する。

ＣＰＵ４１は、分類プログラム５０を記憶部４３から読み出してメモリ４２に展開し、分類プログラム５０が有するプロセスを順次実行する。ＣＰＵ４１は、受付解析プロセス５２を実行することで、図６に示す受付解析部１２として動作する。また、ＣＰＵ４１は、分割プロセス５４を実行することで、図６に示す分割部１４として動作する。また、ＣＰＵ４１は、分類プロセス５６を実行することで、図６に示す分類部１６として動作する。また、ＣＰＵ４１は、表示制御プロセス５８を実行することで、図６に示す表示制御部１８として動作する。また、ＣＰＵ４１は、情報記憶領域６０から情報を読み出して、分割用辞書２２及び単語モデル２４をメモリ４２に展開する。これにより、分類プログラム５０を実行したコンピュータ４０が、分類装置１０として機能することになる。なお、プログラムを実行するＣＰＵ４１はハードウェアである。

なお、分類プログラム５０により実現される機能は、例えば半導体集積回路、より詳しくはＡＳＩＣ（Application Specific Integrated Circuit）等で実現することも可能である。

次に、本実施形態に係る分類装置１０の作用について説明する。

例えば、システムに関するインシデント対応時のメールなどの文章を含み、インシデント１件における文章の集合を１つの文書とし、文書集合に含まれる各文書を一文のテキストに整形したテキスト集合が、分類装置１０へ入力される。そして、分類装置１０において、図１３に示す分類処理が実行される。なお、分類処理は、開示の技術の分類方法の一例である。

図１３に示す分類処理のステップＳ１０で、受付解析部１２が、分類装置１０に入力されたテキスト集合Ｓを受け付ける。テキスト集合Ｓは、テキスト１、テキスト２、・・・、テキストＮ（Ｎはテキスト集合Ｓに含まれるテキストの数）を含む。

次に、ステップＳ２０で、図１４に示す分割処理が実行される。

図１４に示す分割処理のステップＳ２２で、単文集合Ｐとして空集合を用意し、次のステップＳ２４で、テキストを識別するための変数ｓに１を設定する。

次に、ステップＳ２６で、受付解析部１２が、テキストｓに対して形態素解析を行い、テキストを形態素に分割すると共に、各形態素に属性情報を付与して、テキストｓに含まれる各形態素の形態素情報を得る。また、受付解析部１２が、形態素解析の結果を用いて、テキストｓに対して係り受け解析を行い、文節毎の係り受け関係を解析する。なお、テキストｓの文節には、テキストｓの先頭から順に、０、１、・・・、ｍの番号を付与するものとする（ｍはテキストｓの末尾の文節に付与される番号）。

次に、ステップＳ２８で、分割部１４が、テキストｓの文節を識別するための変数ｉにｍを設定する。

次に、ステップＳ３０で、分割部１４が、上記ステップＳ２６で得られた係り受け解析結果に基づいて、文節ｉに係る文節ｊが存在するか否かを判定する。文節ｊが存在する場合には、処理はステップＳ３４へ移行する。文節ｊが存在しない場合には、処理はステップＳ３２へ移行し、分割部１４が、文節ｉ－１、すなわち、文節ｉの１つ前の文節を新たな文節ｉに設定し、処理はステップＳ４２へ移行する。

ステップＳ３４では、分割部１４が、文節ｉに係る文節ｊに、分割用辞書２２に定義された形態素情報と合致する形態素情報が含まれるか否かを判定する。含まれる場合には、処理はステップＳ３６へ移行し、含まれない場合には、処理はステップＳ４０へ移行する。

ステップＳ３６では、分割部１４が、テキストｓを、文節ｊより後の部分ｓ＿１と、文節ｊ以前の部分ｓ＿２とに分割する。次に、ステップＳ３８で、分割部１４が、部分ｓ＿１を単文集合Ｐに追加すると共に、部分ｓ＿２を新たなテキストｓに設定する。次に、ステップＳ４０で、分割部１４が、文節ｊを新たな文節ｉに設定する。

次に、ステップＳ４２で、分割部が、ｉが０か否かを判定することで、テキストｓの先頭まで処理が終了したか否かを判定する。ｉ＝０の場合は、処理はステップＳ４４へ移行し、ｉがまだ０に達していない場合には、処理はステップＳ３０に戻る。

ステップＳ４４では、分割部１４が、テキストｓを単文集合Ｐに追加する。これにより、分割が行われたテキストについては、分割後の前半部分が単文集合Ｐに追加され、分割が行われていないテキストについては、元のテキストがそのまま単文集合Ｐに追加される。

次に、ステップＳ４６で、受付解析部１２が、ｓがＮか否かを判定することにより、受け付けたテキスト集合Ｓに含まれるテキストの全てについて、上記ステップＳ２６～Ｓ４４の処理が終了したか否かを判定する。ｓがまだＮに達していない場合には、処理はステップＳ４８へ移行し、受付解析部１２がｓを１インクリメントして、処理はステップＳ２６に戻る。ｓ＝Ｎの場合には、分割処理は終了して、分類処理に戻る。

次に、図１３に示す分類処理のステップＳ５０で、図１５に示すクラスタリング処理が実行される。

図１５に示すクラスタリング処理のステップＳ５２で、分類部１６が、単文集合Ｐに含まれる各単文を、単語モデル２４の単語ベクトルテーブル２４Ａを用いてベクトル化する。

次に、ステップＳ５４で、分類部１６が、各単文の単語ベクトルのコサイン類似度などを用いて、ｋ－ｍｅａｎｓやｓｉｍｐｌｅｌｉｎｋａｇｅなどの従来既知のクラスタリング手法により、各単文をクラスタリングする。

次に、ステップＳ５６で、分類部１６が、複数のクラスタの各々に分類された単文に含まれる単語のＴＦ－ＩＤＦなどの出現状況を示す指標に基づいて、複数のクラスタの各々から特徴語を抽出し、抽出した特徴語を各クラスタに対応付ける。そして、クラスタリング処理は終了して、分類処理に戻る。

次に、図１３に示す分類処理のステップＳ６０で、図１６に示す表示制御処理が実行される。

図１６に示す表示制御処理のステップＳ６２で、表示制御部１８が、単語モデル２４に含まれるＩＤＦ値テーブル２４Ｂを参照して、各単文に含まれる各単語のＩＤＦ値を取得し、各単文のＩＤＦ値ベクトルのノルムを算出する。

次に、ステップＳ６４で、表示制御部１８が、クラスタ毎に、そのクラスタに含まれる単文の各々のＩＤＦ値ベクトルのノルムの平均を算出する。

次に、ステップＳ６６で、表示制御部１８が、ＩＤＦ値ベクトルのノルムの平均が小さい順にクラスタをソートし、例えば、図１１に示すような分類結果画面３０を表示装置に表示する。そして、表示制御処理は終了し、分類処理も終了する。

以上説明したように、本実施形態に係る分類装置によれば、テキスト集合に含まれる各テキストを、副詞節などの予め定めた形態素情報を含む文節の直後で分割した上で、単語ベクトルのコサイン類似度などに基づいてクラスタリングして分類する。これにより、テキストが複文で、その一部に定型表現を含む場合でも、定型表現を抽出するためのテキストの分類精度を向上させることができる。

また、テキストに含まれる末尾の文節から順に係り受け関係を辿って上記の副詞節などの予め定めた形態素情報を含む文節を特定するため、効率良く分割箇所を特定することができる。

なお、上記実施形態では、クラスタに含まれる単文の各々のＩＤＦ値ベクトルのノルムの平均が小さい順にクラスタをソートする場合について説明したが、これに限定されない。例えば、各クラスタに分類された単文の数が多い順にクラスタをソートしてもよい。定型表現は、テキスト集合での出現頻度が高いことが想定されるため、多くの単文が含まれるクラスタは、定型表現が分類されたクラスタであると見做すものである。

また、上記実施形態において、１つのテキストに、分割用辞書に定義された同一の形態素が複数回出現する場合も想定される（例えば、「～の為、～の為、～下さい。」）。このような場合でも、形態素解析時に各形態素に付与した番号により、どの文節にどの番号の形態素が含まれるかを特定可能である。したがって、例えば、１つのテキストに、同一の形態素が含まれる場合であっても、分割用辞書に定義された形態素情報との合致を判定する際に、それらの形態素を識別可能である。

また、上記実施形態では、システムのインシデント対応に関する文書を整形したテキスト集合を入力する場合について説明したが、これに限定されず、開示の技術は、様々な文書に適用可能である。特に、文書内に定型的な表現が多く含まれる文書に対して、開示の技術は有効である。

また、上記実施形態では、分類プログラムが記憶部に予め記憶（インストール）されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ＵＳＢメモリ等の記憶媒体に記憶された形態で提供することも可能である。

以上の実施形態に関し、更に以下の付記を開示する。

（付記１）
複数のテキストを受け付け、
受け付けた前記複数のテキストのうちの何れかのテキストについて、該テキストに含まれる形態素と、該形態素の属性情報との組をそれぞれが含む複数の解析結果情報を取得し、
特定の形態素と、該特定の形態素の属性情報とを含む形態素情報を記憶する記憶部を参照して、取得した前記複数の解析結果情報のうちの何れかの解析結果情報に、前記形態素情報に含まれる前記特定の形態素と、該特定の形態素の属性情報との組が含まれるか否かの判定を行い、
判定結果が肯定的である場合、前記何れかのテキストを、該何れかのテキストにおける、前記何れかの解析結果情報に含まれる形態素の出現位置に応じた位置で分割して、複数のテキストを生成し、
受け付けた前記複数のテキストのうちの他のテキストと、生成した前記複数のテキストと、を複数のクラスタに分類する、
処理をコンピュータが実行することを特徴とする分類方法。

（付記２）
前記何れかのテキストを係り受け解析して、該何れかのテキストに含まれる複数の文節間の係り受け関係を示す係り受け情報を生成し、
生成した前記係り受け情報に基づき、前記複数の文節のうち、何れかの文節との間に特定の係り受け関係を有する文節を特定し、
取得した前記複数の解析結果情報のうち、特定した前記文節に含まれる形態素と、該形態素の属性情報との組をそれぞれが含む複数の解析結果情報を特定し、
特定した前記解析結果情報のうちの何れかの解析結果情報に、前記形態素情報に含まれる前記特定の形態素と、該特定の形態素の属性情報との組が含まれる場合、前記何れかのテキストを分割して、前記複数のテキストを生成する、
ことを特徴とする付記１に記載の分類方法。

（付記３）
前記複数のクラスタそれぞれに分類されたテキストに基づき、前記複数のクラスタそれぞれの特徴情報を生成し、
生成した前記特徴情報を、前記複数のクラスタそれぞれに対応付けて表示部に表示する、
ことを特徴とする付記１又は付記２に記載の分類方法。

（付記４）
前記複数のクラスタについて、前記複数のクラスタそれぞれに分類されたテキストと、該テキストに含まれる複数の形態素の、受け付けた前記複数のテキストでの出現状況とに基づき、前記複数のクラスタをそれぞれ代表する複数の代表形態素を決定し、
決定した前記複数の代表形態素それぞれを、前記複数の代表形態素それぞれが代表する複数のクラスタそれぞれに対応付けて前記表示部に表示する、
ことを特徴とする付記３に記載の分類方法。

（付記５）
決定した前記複数の代表形態素それぞれを、前記複数のクラスタそれぞれに分類された前記テキストの数に応じた順序で並べて前記表示部に表示する、
ことを特徴とする付記４に記載の分類方法。

（付記６）
前記複数のテキストにおける各テキストの出現状況に関する指標に基づいて、前記複数のクラスタの各々に含まれるテキストについての前記指標が、出現頻度が高いことを示す順に前記クラスタを並べて前記表示部に表示する
ことを特徴とする付記３～付記５のいずれか１項に記載の分類方法。

（付記７）
複数のテキストを受け付ける受付部と、
前記受付部により受け付けられた前記複数のテキストのうちの何れかのテキストについて、該テキストに含まれる形態素と、該形態素の属性情報との組をそれぞれが含む複数の解析結果情報を取得する取得部と、
特定の形態素と、該特定の形態素の属性情報とを含む形態素情報を記憶する記憶部を参照して、前記取得部により取得された前記複数の解析結果情報のうちの何れかの解析結果情報に、前記形態素情報に含まれる前記特定の形態素と、該特定の形態素の属性情報との組が含まれるか否かを判定する判定部と、
前記判定部による判定結果が肯定的である場合、前記何れかのテキストを、該何れかのテキストにおける、前記何れかの解析結果情報に含まれる形態素の出現位置に応じた位置で分割して、複数のテキストを生成する生成部と、
前記受付部により受け付けられた前記複数のテキストのうちの他のテキストと、前記生成部により生成された前記複数のテキストと、を複数のクラスタに分類する分類部と、
を含むことを特徴とする分類装置。

（付記８）
前記取得部は、前記何れかのテキストを係り受け解析して、該何れかのテキストに含まれる複数の文節間の係り受け関係を示す係り受け情報を取得し、
前記判定部は、前記取得部により取得された前記係り受け情報に基づき、前記複数の文節のうち、何れかの文節との間に特定の係り受け関係を有する文節を特定し、前記取得部により取得された前記複数の解析結果情報のうち、特定した前記文節に含まれる形態素と、該形態素の属性情報との組をそれぞれが含む複数の解析結果情報を特定し、
前記生成部は、前記判定部により特定された前記解析結果情報のうちの何れかの解析結果情報に、前記形態素情報に含まれる前記特定の形態素と、該特定の形態素の属性情報との組が含まれる場合、前記何れかのテキストを分割して、前記複数のテキストを生成する、
ことを特徴とする付記７に記載の分類装置。

（付記９）
前記分類部は、前記複数のクラスタそれぞれに分類されたテキストに基づき、前記複数のクラスタそれぞれの特徴情報を生成し、
前記分類部により生成された前記特徴情報を、前記複数のクラスタそれぞれに対応付けて表示部に表示する表示制御部を更に含む、
ことを特徴とする付記７又は付記８に記載の分類装置。

（付記１０）
前記分類部は、前記複数のクラスタについて、前記複数のクラスタそれぞれに分類されたテキストと、該テキストに含まれる複数の形態素の、受け付けた前記複数のテキストでの出現状況とに基づき、前記複数のクラスタをそれぞれ代表する複数の代表形態素を決定し、
前記表示制御部は、前記分類部により決定された前記複数の代表形態素それぞれを、前記複数の代表形態素それぞれが代表する複数のクラスタそれぞれに対応付けて前記表示部に表示する、
ことを特徴とする付記９に記載の分類装置。

（付記１１）
前記表示制御部は、前記分類部により決定された前記複数の代表形態素それぞれを、前記複数のクラスタそれぞれに分類された前記テキストの数に応じた順序で並べて前記表示部に表示する、
ことを特徴とする付記１０に記載の分類装置。

（付記１２）
前記表示制御部は、前記複数のテキストにおける各テキストの出現状況に関する指標に基づいて、前記複数のクラスタの各々に含まれるテキストについての前記指標が、出現頻度が高いことを示す順に前記クラスタを並べて前記表示部に表示する
ことを特徴とする付記９～付記１１のいずれか１項に記載の分類装置。

（付記１３）
複数のテキストを受け付け、
受け付けた前記複数のテキストのうちの何れかのテキストについて、該テキストに含まれる形態素と、該形態素の属性情報との組をそれぞれが含む複数の解析結果情報を取得し、
特定の形態素と、該特定の形態素の属性情報とを含む形態素情報を記憶する記憶部を参照して、取得した前記複数の解析結果情報のうちの何れかの解析結果情報に、前記形態素情報に含まれる前記特定の形態素と、該特定の形態素の属性情報との組が含まれるか否かの判定を行い、
判定結果が肯定的である場合、前記何れかのテキストを、該何れかのテキストにおける、前記何れかの解析結果情報に含まれる形態素の出現位置に応じた位置で分割して、複数のテキストを生成し、
受け付けた前記複数のテキストのうちの他のテキストと、生成した前記複数のテキストと、を複数のクラスタに分類する、
処理をコンピュータに実行させることを特徴とする分類プログラム。

（付記１４）
前記何れかのテキストを係り受け解析して、該何れかのテキストに含まれる複数の文節間の係り受け関係を示す係り受け情報を生成し、
生成した前記係り受け情報に基づき、前記複数の文節のうち、何れかの文節との間に特定の係り受け関係を有する文節を特定し、
取得した前記複数の解析結果情報のうち、特定した前記文節に含まれる形態素と、該形態素の属性情報との組をそれぞれが含む複数の解析結果情報を特定し、
特定した前記解析結果情報のうちの何れかの解析結果情報に、前記形態素情報に含まれる前記特定の形態素と、該特定の形態素の属性情報との組が含まれる場合、前記何れかのテキストを分割して、前記複数のテキストを生成する、
ことを特徴とする付記１３に記載の分類プログラム。

（付記１５）
前記複数のクラスタそれぞれに分類されたテキストに基づき、前記複数のクラスタそれぞれの特徴情報を生成し、
生成した前記特徴情報を、前記複数のクラスタそれぞれに対応付けて表示部に表示する、
ことを特徴とする付記１３又は付記１４に記載の分類プログラム。

（付記１６）
前記複数のクラスタについて、前記複数のクラスタそれぞれに分類されたテキストと、該テキストに含まれる複数の形態素の、受け付けた前記複数のテキストでの出現状況とに基づき、前記複数のクラスタをそれぞれ代表する複数の代表形態素を決定し、
決定した前記複数の代表形態素それぞれを、前記複数の代表形態素それぞれが代表する複数のクラスタそれぞれに対応付けて前記表示部に表示する、
ことを特徴とする付記１５に記載の分類プログラム。

（付記１７）
決定した前記複数の代表形態素それぞれを、前記複数のクラスタそれぞれに分類された前記テキストの数に応じた順序で並べて前記表示部に表示する、
ことを特徴とする付記１６に記載の分類プログラム。

（付記１８）
前記複数のテキストにおける各テキストの出現状況に関する指標に基づいて、前記複数のクラスタの各々に含まれるテキストについての前記指標が、出現頻度が高いことを示す順に前記クラスタを並べて前記表示部に表示する
ことを特徴とする付記１５～付記１７のいずれか１項に記載の分類プログラム。

（付記１９）
複数のテキストを受け付け、
受け付けた前記複数のテキストのうちの何れかのテキストについて、該テキストに含まれる形態素と、該形態素の属性情報との組をそれぞれが含む複数の解析結果情報を取得し、
特定の形態素と、該特定の形態素の属性情報とを含む形態素情報を記憶する記憶部を参照して、取得した前記複数の解析結果情報のうちの何れかの解析結果情報に、前記形態素情報に含まれる前記特定の形態素と、該特定の形態素の属性情報との組が含まれるか否かの判定を行い、
判定結果が肯定的である場合、前記何れかのテキストを、該何れかのテキストにおける、前記何れかの解析結果情報に含まれる形態素の出現位置に応じた位置で分割して、複数のテキストを生成し、
受け付けた前記複数のテキストのうちの他のテキストと、生成した前記複数のテキストと、を複数のクラスタに分類する、
処理をコンピュータに実行させることを特徴とする分類プログラムを記憶した記憶媒体。

１０分類装置
１２受付解析部
１４分割部
１６分類部
１８表示制御部
２４単語モデル
２４Ａ単語ベクトルテーブル
２４ＢＩＤＦ値テーブル
３０分類結果画面
４０コンピュータ
４１ＣＰＵ
４２メモリ
４３記憶部
４９記憶媒体
５０分類プログラム

Claims

複数のテキストを受け付け、
受け付けた前記複数のテキストのうちの何れかのテキストについて、該テキストに含まれる形態素と、該形態素の属性情報との組をそれぞれが含む複数の解析結果情報を取得し、
特定の形態素と、該特定の形態素の属性情報とを含む形態素情報を記憶する記憶部を参照して、取得した前記複数の解析結果情報のうちの何れかの解析結果情報に、前記形態素情報に含まれる前記特定の形態素と、該特定の形態素の属性情報との組が含まれるか否かの判定を行い、
判定結果が肯定的である場合、前記何れかのテキストを、該何れかのテキストにおける、前記何れかの解析結果情報に含まれる形態素の出現位置に応じた位置で分割して、複数のテキストを生成し、
受け付けた前記複数のテキストのうちの他のテキストと、生成した前記複数のテキストと、を複数のクラスタに分類する、
処理をコンピュータが実行することを特徴とする分類方法。
前記何れかのテキストを係り受け解析して、該何れかのテキストに含まれる複数の文節間の係り受け関係を示す係り受け情報を生成し、
生成した前記係り受け情報に基づき、前記複数の文節のうち、何れかの文節との間に特定の係り受け関係を有する文節を特定し、
取得した前記複数の解析結果情報のうち、特定した前記文節に含まれる形態素と、該形態素の属性情報との組をそれぞれが含む複数の解析結果情報を特定し、
特定した前記解析結果情報のうちの何れかの解析結果情報に、前記形態素情報に含まれる前記特定の形態素と、該特定の形態素の属性情報との組が含まれる場合、前記何れかのテキストを分割して、前記複数のテキストを生成する、
ことを特徴とする請求項１に記載の分類方法。
前記複数のクラスタそれぞれに分類されたテキストに基づき、前記複数のクラスタそれぞれの特徴情報を生成し、
生成した前記特徴情報を、前記複数のクラスタそれぞれに対応付けて表示部に表示する、
ことを特徴とする請求項１又は請求項２に記載の分類方法。
前記複数のクラスタについて、前記複数のクラスタそれぞれに分類されたテキストと、該テキストに含まれる複数の形態素の、受け付けた前記複数のテキストでの出現状況とに基づき、前記複数のクラスタをそれぞれ代表する複数の代表形態素を決定し、
前記特徴情報として、決定した前記複数の代表形態素それぞれを、前記複数の代表形態素それぞれが代表する複数のクラスタそれぞれに対応付けて前記表示部に表示する、
ことを特徴とする請求項３に記載の分類方法。
決定した前記複数の代表形態素それぞれを、前記複数のクラスタそれぞれに分類された前記テキストの数に応じた順序で並べて前記表示部に表示する、
ことを特徴とする請求項４に記載の分類方法。
前記複数のクラスタの各々に含まれる各テキストについての、前記複数のテキストにおける出現状況に関する指標の平均が、出現頻度が高いことを示す順に前記クラスタを並べて前記表示部に表示する
ことを特徴とする請求項３～請求項５のいずれか１項に記載の分類方法。
複数のテキストを受け付ける受付部と、
前記受付部により受け付けられた前記複数のテキストのうちの何れかのテキストについて、該テキストに含まれる形態素と、該形態素の属性情報との組をそれぞれが含む複数の解析結果情報を取得する取得部と、
特定の形態素と、該特定の形態素の属性情報とを含む形態素情報を記憶する記憶部を参照して、前記取得部により取得された前記複数の解析結果情報のうちの何れかの解析結果情報に、前記形態素情報に含まれる前記特定の形態素と、該特定の形態素の属性情報との組が含まれるか否かを判定する判定部と、
前記判定部による判定結果が肯定的である場合、前記何れかのテキストを、該何れかのテキストにおける、前記何れかの解析結果情報に含まれる形態素の出現位置に応じた位置で分割して、複数のテキストを生成する生成部と、
前記受付部により受け付けられた前記複数のテキストのうちの他のテキストと、前記生成部により生成された前記複数のテキストと、を複数のクラスタに分類する分類部と、
を含むことを特徴とする分類装置。
複数のテキストを受け付け、
受け付けた前記複数のテキストのうちの何れかのテキストについて、該テキストに含まれる形態素と、該形態素の属性情報との組をそれぞれが含む複数の解析結果情報を取得し、
特定の形態素と、該特定の形態素の属性情報とを含む形態素情報を記憶する記憶部を参照して、取得した前記複数の解析結果情報のうちの何れかの解析結果情報に、前記形態素情報に含まれる前記特定の形態素と、該特定の形態素の属性情報との組が含まれるか否かの判定を行い、
判定結果が肯定的である場合、前記何れかのテキストを、該何れかのテキストにおける、前記何れかの解析結果情報に含まれる形態素の出現位置に応じた位置で分割して、複数のテキストを生成し、
受け付けた前記複数のテキストのうちの他のテキストと、生成した前記複数のテキストと、を複数のクラスタに分類する、
処理をコンピュータに実行させることを特徴とする分類プログラム。