JP6718345B2

JP6718345B2 - テキスト分析方法、テキスト分析装置、及びプログラム

Info

Publication number: JP6718345B2
Application number: JP2016184789A
Authority: JP
Inventors: 卓弥村山; 孝楠見
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-09-21
Filing date: 2016-09-21
Publication date: 2020-07-08
Anticipated expiration: 2036-09-21
Also published as: JP2018049478A

Description

本発明は、テキスト分析方法、テキスト分析装置、及びプログラムに関する。

団塊世代の退職が迫る等により、様々な企業でマネジメントの技能の分析が求められている。一般的に熟練者の持つ技能の分析をするには、インタビューやワークショップで熟練者に業務について語ってもらい、そこで得られたテキスト情報を分析することが行われている。

テキスト情報の分析は、情報を類似の内容ごとに分類、各文章を要約するタグ付け等を繰り返すことで行われる（非特許文献１）。インタビューのデータは膨大な量になることが多いため、テキスト情報の分析を実施するためには膨大な稼働がかかることになる。

一方、通信サービスの運用における故障内容の分析等を目的とした従来技術も存在する。従来研究では、通信サービスの特徴を複数の観点の異なるカテゴリとして分類し、各カテゴリで定める単語の出現頻度から通信サービス運用にかかわるテキスト情報を意味的な内容に基づいて分類を可能としている（特許文献１）。

特開２００９−２８９０１６号公報

佐藤郁哉、「質的データ分析法」、新曜社、２００８年３月２５日、ｐ．３３−３７

非特許文献１ではテキストの質的な分析が可能であるが、全て人手の作業になるため、作業実施には手間、時間がかかってしまう。また特許文献１は、通信サービスを対象としたものであり、当該技術で定められたカテゴリはマネジメントの分野では活用できない。また、分類対象となる文章は基本的に一つの故障についての内容となる。しかし、インタビューやワークショップで得られるテキスト情報は途中で話のテーマが変わっていることも多い。従来技術ではテーマの変化を検知できないため、テキスト情報を整理することができない。

本発明は、上記の点に鑑みてなされたものであって、テキスト情報の整理を支援することを目的とする。

そこで上記課題を解決するため、話題の変化を示す１以上の文字列を記憶した第１の記憶部を参照して、入力されたテキストを、話題が変化したと推定される個所で分割して複数の部分テキストを生成する分割手順と、前記各部分テキストについて、カテゴリごとに、当該カテゴリに対応して第２の記憶部に記憶されているキーワードの出現数と、前記各キーワードに対して設定されている重み値との加重和と、前記各部分テキストにおける２つの前記キーワードの組ごとの共起数の加重和との和を評価値として算出し、前記評価値が最大であるカテゴリに前記各部分テキストを分類する分類手順と、前記カテゴリに対応するキーワードごとに、当該キーワードを含む前記部分テキストの数と、当該カテゴリに分類された前記部分テキストの数との関係に基づいて、当該キーワードに対する前記重み値を更新する更新手順と、をコンピュータが実行する。

テキスト情報の整理を支援することができる。

第１の実施の形態におけるテキスト分析装置のハードウェア構成例を示す図である。第１の実施の形態におけるテキスト分析装置の機能構成例を示す図である。第１の実施の形態におけるテキスト分析装置が実行する処理手順の一例を説明するためのフローチャートである。第１の実施の形態における話題が変わった個所の推定処理及び入力テキストの分割処理の処理手順の一例を説明するためのフローチャートである。区切り文字列表の一例を示す図である。第１の実施の形態における各部分テキストのカテゴリへの分類処理の処理手順の一例を説明するためのフローチャートである。カテゴリ・キーワード対応表の一例を示す図である。カテゴリ分類処理の出力例を示す図である。第１の実施の形態におけるカテゴリ分類情報の更新処理の処理手順の一例を説明するためのフローチャートである。第２の実施の形態における各部分テキストのカテゴリへの分類処理の処理手順の一例を説明するためのフローチャートである。共起数の重み値表の一例を示す図である。共起数の重み値の更新処理の処理手順の一例を説明するためのフローチャートである。新たなキーワードの追加処理の処理手順の一例を説明するためのフローチャートである。

以下、図面に基づいて本発明の実施の形態を説明する。図１は、第１の実施の形態におけるテキスト分析装置のハードウェア構成例を示す図である。図１のテキスト分析装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、ＣＰＵ１０４、インタフェース装置１０５、表示装置１０６、及び入力装置１０７等を有する。

テキスト分析装置１０での処理を実現するプログラムは、ＣＤ−ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。ＣＰＵ１０４は、メモリ装置１０３に格納されたプログラムに従ってテキスト分析装置１０に係る機能を実現する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１０６はプログラムによるＧＵＩ（Graphical User Interface）等を表示する。入力装置１０７はキーボード及びマウス等で構成され、様々な操作指示を入力させるために用いられる。

図２は、第１の実施の形態におけるテキスト分析装置の機能構成例を示す図である。図２において、テキスト分析装置１０は、入力部１１、出力部１２、制御部１３、話題区切り推定部１４、カテゴリ分類部１５、及びカテゴリ分類更新部１６等を有する。これら各部は、テキスト分析装置１０にインストールされた１以上のプログラムが、ＣＰＵ１０４に実行させる処理により実現される。テキスト分析装置１０は、また、カテゴリ情報記憶部１７、テキスト記憶部１８、及び区切り文字列記憶部１９等を利用する。これら各記憶部は、例えば、補助記憶装置１０２、又はテキスト分析装置１０にネットワークを介して接続可能な記憶装置等を用いて実現可能である。

図２に示される各機能部の機能については、処理手順の説明において明らかにされる。なお、図２では、テキスト分析装置１０が一つのコンピュータによって構成される例を示しているが、図２に示される各機能部は、ネットワークを介して接続される複数のコンピュータに分散されてもよい。例えば、クライアント端末とサーバとによってテキスト分析装置１０（分析システム）が構成されてもよい。この場合、例えば、クライアント端末が、入力部１１及び出力部１２を有し、サーバが、その他の機能部を有してもよい。

図３は、第１の実施の形態におけるテキスト分析装置が実行する処理手順の一例を説明するためのフローチャートである。

ステップＳ１０１において、入力部１１は、テキスト分析装置１０において分析対象とされるテキスト情報の選定又は入力を行う。入力部１１は、例えば、表示装置１０６及び入力装置１０７等を制御して、インタビュー、ワークショップ等で得られたテキストの選定をユーザから受け付け、当該テキスト情報（以下、「入力テキスト」という。）をテキスト分析装置１０へ入力する。

入力テキストがテキスト分析装置１０に入力されると、話題区切り推定部１４は、入力テキスト内において話題の変わる個所を推定し（Ｓ１０２）、推定された個所で入力テキストを分割する（Ｓ１０３）。その結果、複数の部分テキストが生成される。すなわち、部分テキストは、入力テキストが話題の変わる個所で分割されたテキストである。話題の変わる箇所の推定は、区切り文字列記憶部１９に記憶されている区切り文字列を利用して行われる。話題の変わる箇所の推定及び入力テキストの分割の処理手順の詳細については後述される。

続いて、カテゴリ分類部１５は、各部分テキストについて、当該部分テキストの内容が該当するマネジメントの技能の分類を推定し、推定したカテゴリの名前（以下、「カテゴリ名」という。）を当該部分テキストに付与する（Ｓ１０４）。すなわち、各部分テキストが、いずれかのカテゴリに分類される。部分テキストのカテゴリへの分類は、各カテゴリに対応するキーワードの当該部分テキストにおける出現状況に基づいて行われる。なお、分類の処理手順の詳細については後述される。

続いて、出力部１２は、各部分テキストのカテゴリへの分類結果を出力する（Ｓ１０５）。例えば、出力部１２は、カテゴリ分類部１５による自動的な分類結果（部分テキストごとにカテゴリ名が付与された結果）を、ユーザによって修正可能な状態で表示装置１０６に表示する。

続いて、出力部１２は、分類結果に対する修正を、入力装置１０７を介してユーザから受け付ける（Ｓ１０６）。例えば、或る部分テキストに対するカテゴリ名が、ユーザによって変更される。

続いて、出力部１２は、修正された分類結果をテキスト記憶部１８に記憶する（Ｓ１０７）。

テキスト記憶部１８に新たな分類結果が記憶されると、カテゴリ分類更新部１６は、カテゴリの分類に利用される情報の更新を実行する（Ｓ１０８）。カテゴリの分類に利用される情報の更新の処理手順の詳細については後述される。

続いて、ステップＳ１０２及びＳ１０３の詳細について説明する。インタビューやワークショップで扱う話題は、故障修理のように一つではなく、複数になる場合が多い。技能を分析するためのインタビューやワークショップであれば、分析対象とする技能の種類に応じて話題も変わると考えられる。インタビューやワークショップで技能を聞き出す際には、事例について聞き出し、続いてその事例の中で採られた行動の理由などを聞き出していくことが一般的に行われている。

したがって、「なぜ〜したのか？」、「次はどうしたのか？」といったような質問が出ている間は事例を深堀りしており、一つの技能の種類について対話がされていると考えられる。一方、「次に参ります」、「話は変わりますが」といったような発言が行われたとすると、深堀対象を変えて新たな対話が始まることが予想される。

そこで、話題区切り推定部１４は、技能を分析するためのインタビューやワークショップのこのような特性を考慮し、新たな対話が始まることが予想される特定の文字列（すなわち、話題の変化を示す特定の文字列。以下、「区切り文字列」という。）の出現個所が入力テキストの中に検知されたら、当該出現個所で話題が変わったとして、入力テキストを分割する。

図４は、第１の実施の形態における話題が変わった個所の推定処理及び入力テキストの分割処理の処理手順の一例を説明するためのフローチャートである。

ステップＳ２０１において、話題区切り推定部１４は、変数ｋに１を代入する。変数ｋは、区切り文字列記憶部１９に記憶されている区切り文字列表における区切り文字列のうち、処理対象とされる区切り文字列の項番を示す変数である。

図５は、区切り文字列表の一例を示す図である区切り文字列表に示す文字列は、テキスト分析装置１０に蓄積されている全区切り文字列とする。図５に示されている具体的な区切り文字列は７つのみだが、これらの文字列中の「質問」を「トピック」や「議題」に変更した文字列や、「に移ります」を「に変わります」や「です」に変更した文字列等、同義語や微妙な言い回しの違いを考慮した様々な表現の文字列が、区切り文字列表に含まれてもよい。また、区切り文字列表の区切り文字列は、入力部１１から追加・削除が可能とされてもよい。

続いて、話題区切り推定部１４は、入力テキスト内の文字列と、ｋ番目（項番がｋである）の区切り文字列Ｔ_ｋとのマッチングを行う（Ｓ２０２）。最初は、入力テキスト内において先頭から区切り文字列Ｔ_ｋの文字数分の文字列について、マッチングが行われる。

マッチングが行われた文字列同士が一致した場合（Ｓ２０３でＹｅｓ）、話題区切り推定部１４は、入力テキスト内において、区切り文字列Ｔ_ｋと一致した個所の先頭を、分割個所として記憶する（Ｓ２０４）。一方、マッチングが行われた文字列同士が一致しない場合（Ｓ２０３でＮｏ）、ステップＳ２０４は実行されずにステップＳ２０５に進む。

ステップＳ２０５において、話題区切り推定部１４は、区切り文字列Ｔ_ｋとのマッチングを、入力テキストの末尾まで実行したか否かを判定する。入力テキストの末尾までマッチングが行われていない場合（Ｓ２０５でＮｏ）、ステップＳ２０２以降を繰り返す。この際、入力テキストにおいて、区切り文字列Ｔ_ｋとのマッチングの対象とされる部分の先頭は、前回のステップＳ２０２において区切り文字列Ｔ_ｋと一致した部分の末尾の次の文字である。又は、分割個所が記憶されなかった場合（Ｓ２０３でＮｏだった場合）、前回のマッチング個所から１文字次の個所がマッチング対象とされる部分の先頭となる。

一方、区切り文字列Ｔ_ｋとのマッチングが、入力テキストの末尾まで行われた場合（Ｓ２０５でＹｅｓ）、話題区切り推定部１４は、変数ｋに１を加算する（Ｓ２０６）。続いて、話題区切り推定部１４は、ｋの値が、ｎと一致するか否かを判定する（Ｓ２０７）。ｎは、区切り文字列表における最後の区切り文字列に対応する項番の値である。

ｋがｎ未満である場合（Ｓ２０７でＮｏ）、ステップＳ２０２以降が繰り返される。この際、入力テキストにおいて、区切り文字列Ｔ_ｋとのマッチングの対象とされる部分は、入力テキストの先頭とされる。

一方、ｋがｎに一致する場合（Ｓ２０７でＹｅｓ）、話題区切り推定部１４は、入力テキストを、ステップＳ２０４において記憶された全ての分割個所で部分テキストに分割し、各部分テキストに対して項番を付与する（Ｓ２０８）。当該項番は、例えば、入力テキスト中における、部分テキストの出現順を示す値である。

続いて、各部分テキストのカテゴリへの分類処理（Ｓ１０４）の詳細について説明する。各部分テキストのカテゴリへの分類処理では、予めカテゴリごとに定められたキーワードが、各部分テキスト中に含まれている数（出現数）をカウントし、部分テキストごとに、最もカウント数の多いカテゴリに分類する。

図６は、第１の実施の形態における各部分テキストのカテゴリへの分類処理の処理手順の一例を説明するためのフローチャートである。

ステップＳ３０１において、カテゴリ分類部１５は、変数ｋ及び変数ｉのそれぞれを０に初期化する。変数ｋは、処理対象とされる部分テキストの項番を示す変数である。変数ｉは、処理対象とされるカテゴリの項番を示す変数である。

続いて、カテゴリ分類部１５は、ｋに１を加算して、変数Ｒ_ｍａｘに３を代入する（Ｓ３０２）。変数Ｒ_ｍａｘについては後述される。続いて、カテゴリ分類部１５は、ｉに１を加算して、変数ｃに０を代入する（Ｓ３０３）。変数ｃについては後述される。

続いて、カテゴリ分類部１５は、ｋ番目の部分テキストに対する、ｉ番目のカテゴリの分類評価値Ｒ（ｋ，ｉ）を計算する（Ｓ３０４）。本実施の形態において、Ｒ（ｋ，ｉ）は、以下の式で算出される。

ここで、ｗ_ｉｊは、ｉ番目のカテゴリにおけるｊ番目のキーワードの重み値である。Ｃ_ｊは、部分テキストｋに含まれるキーワードｊのカウント数である。Ｍは、ｉ番目のカテゴリに対応するキーワードの数である。すなわち、分類評価値Ｒ（ｋ，ｉ）は、カテゴリｉに対応する全てのキーワードのカウント数の加重和である。

ｉ番目のカテゴリにおけるｊ番目のキーワード、当該キーワードの重み値（ｗ_ｉｊ）、及びＭの値は、カテゴリ情報記憶部１７に記憶されているカテゴリ・キーワード対応表を参照して特定可能である。

図７は、カテゴリ・キーワード対応表の一例を示す図である。図７に示されるように、カテゴリ・キーワード対応表には、マネジメントの技能のカテゴリごとに、項番、カテゴリ名、及びキーワードが記憶されている。各キーワードに付与されている括弧内の数字は、当該キーワードの重み値を示す。当該重み値の初期値は全て１とされているが、後述されるように、テキスト記憶部１８に一定数の分類結果が蓄積されると更新される。また、入力部１１からの操作により、カテゴリの新たな追加や、既存のカテゴリの削除が可能とされてもよい。なお、図７に示される各カテゴリと各カテゴリに対応するキーワードは、実際のマネジメント職に対するインタビュー・ワークショップで得られたテキストメモの分類から得られたもとが採用されている。

続いて、カテゴリ分類部１５は、算出されたＲ（ｋ，ｉ）が、Ｒ_ｍａｘ以上であるか否かを判定する（Ｓ３０５）。Ｒ（ｋ，ｉ）が、Ｒ_ｍａｘ以上である場合（Ｓ３０５でＹｅｓ）、カテゴリ分類部１５は、Ｒ（ｋ，ｉ）によってＲ_ｍａｘを更新し、ｃにｉを代入する（Ｓ３０６）。一方、算出されたＲ（ｋ，ｉ）が、Ｒ_ｍａｘ未満である場合（Ｓ３０５でＮｏ）、ステップＳ３０６は実行されない。すなわち、Ｒ_ｍａｘは、分類評価値Ｒ（ｋ，ｉ）に対する閾値である。また、変数ｃは、閾値を超え、かつ、最大の分類評価値Ｒ（ｋ，ｉ）が得られたカテゴリの項番を記憶しておくための変数である。本実施の形態ではＲ_ｍａｘ＝３としており、各キーワードの重み値の初期値を１としていることからテキスト分析装置１０の利用開始時には、部分テキストｋにキーワードが３つ以上見つからなければ、部分テキストｋはその他のカテゴリに分類されることとなる。

続いて、カテゴリ分類部１５は、ｉがＮに一致するか否かを判定する（Ｓ３０７）。Ｎは、カテゴリ・キーワード対応表におけるカテゴリの数である。ｉがＮ未満である場合（Ｓ３０７でＮｏ）、ステップＳ３０３以降が繰り返される。ｉがＮに一致する場合（Ｓ３０７でＹｅｓ）、カテゴリ分類部１５は、ｉに０を代入する。続いて、カテゴリ分類部１５は、ｋ番目の部分テキストに、ｃ番目のカテゴリ名を付与する（Ｓ３０９）。すなわち、ｋ番目の部分テキストが、ｃ番目のカテゴリに分類される。

続いて、カテゴリ分類部１５は、ｋがＭに一致するか否かを判定する（Ｓ３１０）。ｋがＭ未満である場合（Ｓ３１０でＮｏ）、ステップＳ３０２以降が繰り返される。ｋがＭに一致する場合（Ｓ３１０でＹｅｓ）、カテゴリ分類部１５は、カテゴリ名が付与された各部分テキストを処理結果として出力する（Ｓ３１１）。

図８は、カテゴリ分類処理の出力例を示す図である。図８に示されるように、カテゴリ分類処理では、部分テキストごとに、項番、カテゴリ名、及び部分テキストの内容を含む情報が出力される。

なお、図８に示した情報が、図３のステップＳ１０５において表示装置１０６に表示され、当該情報に対して、ステップＳ１０６において修正が行われる。その修正結果がステップＳ１０７においてテキスト記憶部１８に記憶される。修正が行われない場合、図８に示した情報がそのままテキスト記憶部１８に記憶される。

続いて、カテゴリの分類に利用される情報（以下、「カテゴリ分類情報」という。）の更新処理（Ｓ１０８）の詳細について説明する。図９は、第１の実施の形態におけるカテゴリ分類情報の更新処理の処理手順の一例を説明するためのフローチャートである。図３において説明したように、図９の処理手順は、テキスト記憶部１８に対して新たな分類結果が記憶されると実行される。

ステップＳ４０１において、カテゴリ分類更新部１６は、テキスト記憶部１８に蓄積された分類結果の量を確認する。具体的には、各カテゴリに分類された部分テキストが一定数以上存在するかが確認される。本実施の形態では各カテゴリにつき５件以上の部分テキストが蓄積されていなければ（Ｓ４０１でＮｏ）、以降の処理は実行されない。なお、当該一定数として、５以外の値が設定されてもよい。

一方、各カテゴリに分類された部分テキストが一定数以上存在する場合（Ｓ４０１でＹｅｓ）、カテゴリ分類更新部１６は、変数ｉを０で初期化する（Ｓ４０２）。変数ｉは、処理対象のカテゴリの項番を示す変数である。続いて、カテゴリ分類更新部１６は、ｉに１を加算する（Ｓ４０３）。続いて、カテゴリ分類更新部１６は、変数ｊを０で初期化する（Ｓ４０４）。変数ｊは、カテゴリｉに対応するキーワードのうち、処理対象のキーワードの順番を示す変数である。続いて、カテゴリ分類更新部１６は、ｊに１を加算する（Ｓ４０５）。続いて、カテゴリ分類更新部１６は、カテゴリｉに含まれるキーワードｊを含む部分テキストの数ｄ_ｉｊを、カテゴリ・キーワード対応表と、テキスト記憶部１８を参照して算出する（Ｓ４０６）。

続いて、カテゴリ分類更新部１６は、ｄ_ｉｊが０より大きいか否かを判定する（Ｓ４０７）。ｄ_ｉｊが０より大きい場合（Ｓ４０７でＹｅｓ）、カテゴリ分類更新部１６は、以下の式によりカテゴリｉのキーワードｊの重み値ｗ_ｉｊを更新する（Ｓ４０８）。

一方、ｄ_ｉｊが０である場合（Ｓ４０７でＮｏ）、カテゴリ分類更新部１６は、以下の式によりカテゴリｉのキーワードｊの重み値ｗ_ｉｊを更新する（Ｓ４０９）。

すなわち、この場合、ｄ_ｉｊ＝１として、重み値ｗ_ｉｊが更新される。

なお、更新結果は、カテゴリ・キーワード対応表に反映される。

上記したステップＳ４０５以降は、カテゴリｉに対応する全てのキーワードについて実行される（Ｓ４１０）。また、ステップＳ４０３以降は、カテゴリ・キーワード対応表における全てのカテゴリについて実行される（Ｓ４１１）。

上述したように、第１の実施の形態によれば、テキスト情報の整理を支援することができる。すなわち、マネジメントに関するインタビュー、ワークショップで得られたテキスト情報を自動で分類することが可能とすることができる。このため、テキスト情報に対する分類、タグ付の手間・時間を削減できる。

次に、第２の実施の形態について説明する。第２の実施の形態では第１の実施の形態と異なる点について説明する。第２の実施の形態において特に言及されない点については、第１の実施の形態と同様でもよい。

第２の実施の形態では、各部分テキストのカテゴリの分類について、キーワードの共起関係が考慮される。具体的には、第２の実施の形態では、図６の処理手順の代わりに、図１０の処理手順が実行される。

図１０は、第２の実施の形態における各部分テキストのカテゴリへの分類処理の処理手順の一例を説明するためのフローチャートである。図１０中、図６と同一ステップには同一ステップ番号を付し、その説明は省略する。

図１０では、ステップＳ３０４がステップＳ３０４ａに置換されている。すなわち、第２の実施の形態では、以下の式に基づいて、分類評価値Ｒ（ｋ，ｉ）が算出される。

ここでＫ_ｉ（ｊ，ｌ）は、カテゴリｉにおけるキーワードｊとキーワードｌとの共起数に対する重み値である。Ｃ（ｊ，ｌ）は、部分テキストｋにおけるキーワードｊとキーワードｌとの共起数である。共起数は、キーワードｊとキーワードｌとが同じ部分テキスト中にそれぞれ１回（１組）検出されると１つカウントされる。

なお、共起数に対する重み値Ｋ_ｉ（ｊ，ｌ）は、例えば、カテゴリ情報記憶部１７に記憶されている共起数の重み値表に基づいて特定される。

図１１は、共起数の重み値表の一例を示す図である。図１１に示されるように、本実施の形態では、共起数の重み値の初期値はそれぞれ０とするが、他の値が用いられてもよい。

共起数の重み値は、例えば、カテゴリ分類更新部１６によって更新される。図１２は、共起数の重み値の更新処理の処理手順の一例を説明するためのフローチャートである。図１２中、図９と同一ステップには、同一ステップ番号を付し、その説明は省略する。なお、図１２の処理手順は、図９と同様のタイミングで実行される。

ステップＳ４０６に続いて、カテゴリ分類更新部１６は、ｄ_ｉｊが２より大きいか否かを判定する（Ｓ５０１）。ｄ_ｉｊが２以下である場合（Ｓ５０１でＮｏ）、ステップＳ４１０に進む。ｄ_ｉｊが２より大きい場合（Ｓ５０１でＹｅｓ）、カテゴリ分類更新部１６は、変数ｌを０に初期化して（Ｓ５０２）、変数ｌに１を加算する（Ｓ５０３）。変数ｌは、キーワードｊとの共起数のカウント対象とされるキーワードの、カテゴリｉにおける順番である。

続いて、カテゴリ分類更新部１６は、以下の式に基づいて、Ｋ_ｉ（ｊ，ｌ）を更新する（Ｓ５０４）。

ステップＳ５０３以降は、カテゴリｉに含まれる全てのキーワードについて実行される（Ｓ５０５）。

次に、第３の実施の形態について説明する。第３の実施の形態では第１又は第２の実施の形態と異なる点について説明する。第３の実施の形態において特に言及されない点については、第１又は第２の実施の形態と同様でもよい。

第３の実施の形態では、カテゴリ・キーワード対応表に対して、自動的にキーワードが追加される例について説明する。キーワードの追加は、例えば、カテゴリ分類更新部１６によって実行される。

図１３は、新たなキーワードの追加処理の処理手順の一例を説明するためのフローチャートである。図１３中、図９と同一ステップには、同一ステップ番号を付し、その説明は省略する。なお、図１３の処理手順は、図９と同様のタイミングで実行される。

ステップＳ４０１でＹｅｓの場合、カテゴリ分類更新部１６は、入力テキストを、単語ごとに分解する（Ｓ６０１）。なお、図１３において、変数ｊは、入力テキストから分解された単語のうち、処理対象とされる単語の順番を示す。

ステップＳ６０２において、カテゴリ分類更新部１６は、カテゴリｉに分類された部分テキストのうち、単語ｊを含む部分テキストの数ｄ_ｉｊを算出する。続いて、カテゴリ分類更新部１６は、ｄ_ｉｊが３以上であるか否かを判定する（Ｓ６０２）。ｄ_ｉｊが３未満である場合（Ｓ６０３でＮｏ）、ステップＳ４１０に進む。ｄ_ｉｊが３以上である場合（Ｓ６０２でＹｅｓ）、カテゴリ分類更新部１６は、カテゴリｉ以外に分類された部分テキストうち、単語ｊを含む部分テキストの数ｄ'_ｉｊを算出する（Ｓ６０４）。ｄ'_ｉｊが３未満であれば（Ｓ６０５でＹｅｓ）、カテゴリ分類更新部１６は、カテゴリ・キーワード対応表のカテゴリｉに対して、単語ｊをキーワードとして追加する（Ｓ６０６）。一方、ｄ'_ｉｊが３以上であれば（Ｓ６０５でＮｏ）、ステップＳ６０６は実行されない。

ステップＳ４０５以降は、入力テキストから分解された全ての単語について実行される（Ｓ４１０）。すなわち、図１３のステップＳ４１０において、Ｍは、入力テキストから分解された単語数を示す。

なお、図１３では、ｄ_ｉｊ及びｄ'_ｉｊに対する閾値を３としているが、３以外の値が閾値とされてもよい。

なお、上記各実施の形態において、区切り文字列記憶部１９は、第１の記憶部の一例である。カテゴリ情報記憶部１７は、第２の記憶部の一例である。話題区切り推定部１４は、分割部の一例である。カテゴリ分類部１５は、分類部の一例である。カテゴリ分類更新部１６は、更新部の一例である。

以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０テキスト分析装置
１１入力部
１２出力部
１３制御部
１４話題区切り推定部
１５カテゴリ分類部
１６カテゴリ分類更新部
１７カテゴリ情報記憶部
１８テキスト記憶部
１９区切り文字列記憶部
１００ドライブ装置
１０１記録媒体
１０２補助記憶装置
１０３メモリ装置
１０４ＣＰＵ
１０５インタフェース装置
１０６表示装置
１０７入力装置
Ｂバス

Claims

話題の変化を示す１以上の文字列を記憶した第１の記憶部を参照して、入力されたテキストを、話題が変化したと推定される個所で分割して複数の部分テキストを生成する分割手順と、
前記各部分テキストについて、カテゴリごとに、当該カテゴリに対応して第２の記憶部に記憶されているキーワードの出現数と、前記各キーワードに対して設定されている重み値との加重和と、前記各部分テキストにおける２つの前記キーワードの組ごとの共起数の加重和との和を評価値として算出し、前記評価値が最大であるカテゴリに前記各部分テキストを分類する分類手順と、
前記カテゴリに対応するキーワードごとに、当該キーワードを含む前記部分テキストの数と、当該カテゴリに分類された前記部分テキストの数との関係に基づいて、当該キーワードに対する前記重み値を更新する更新手順と、
をコンピュータが実行することを特徴とするテキスト分析方法。
或る前記カテゴリについての或る２つの前記キーワードの組の共起数の加重和の重みは、過去に当該カテゴリに分類された前記部分テキストのうち、当該組が共起する前記部分テキストの数を、過去に当該カテゴリに分類された前記部分テキストの数で除した値である、
ことを特徴とする請求項１記載のテキスト分析方法。
話題の変化を示す１以上の文字列を記憶した第１の記憶部を参照して、入力されたテキストを、話題が変化したと推定される個所で分割して複数の部分テキストを生成する分割部と、
前記各部分テキストについて、カテゴリごとに、当該カテゴリに対応して第２の記憶部に記憶されているキーワードの出現数と、前記各キーワードに対して設定されている重み値との加重和と、前記各部分テキストにおける２つの前記キーワードの組ごとの共起数の加重和との和を評価値として算出し、前記評価値が最大であるカテゴリに前記各部分テキストを分類する分類部と、
前記カテゴリに対応するキーワードごとに、当該キーワードを含む前記部分テキストの数と、当該カテゴリに分類された前記部分テキストの数との関係に基づいて、当該キーワードに対する前記重み値を更新する更新部と、
を有することを特徴とするテキスト分析装置。
或る前記カテゴリについての或る２つの前記キーワードの組の共起数の加重和の重みは、過去に当該カテゴリに分類された前記部分テキストのうち、当該組が共起する前記部分テキストの数を、過去に当該カテゴリに分類された前記部分テキストの数で除した値である、
ことを特徴とする請求項３記載のテキスト分析装置。
請求項１又は２記載のテキスト分析方法をコンピュータに実行させることを特徴とするプログラム。