JP2016110172A

JP2016110172A - 情報処理システム、言語処理方法及びそのためのプログラム

Info

Publication number: JP2016110172A
Application number: JP2014243698A
Authority: JP
Inventors: 晃裕田村; Akihiro Tamura; 正明土田; Masaaki Tsuchida
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-12-02
Filing date: 2014-12-02
Publication date: 2016-06-20

Abstract

【課題】分割対象テキストを、その分割対象テキストのトピックを特徴付ける単位で、分割できない。【解決手段】分割対象テキストが取りうるトピックの候補であるトピック候補を決定する手段と、それらのトピックのそれぞれに対応するトピック対応言語モデルを含むトピック別言語モデルの、それらのトピック候補に対応するトピック対応言語モデルのそれぞれに基づいてその分割対象テキストの単語分割を実行し、そのトピック対応言語モデルのそれぞれに対応する単語分割の結果の内、尤度に関する所定の条件を満たす単語分割の結果を、その分割対象テキストの単語分割結果として出力する単語分割手段と、を含む。【選択図】図１１

Description

本発明は、自然言語処理に関し、特に、基本要素の列であるテキストを任意の数の基本要素から成る構成要素に分割する技術に関する。

自然言語処理では、一般的に、テキストを単語やフレーズ等の構成要素に分割し、分割した構成要素を単位として処理が行われる。ここで、テキストが基本要素を文字とする場合、構成要素は単語または「単語と同等の単位」である。また、テキストが基本要素をスペースで区切られた塊（いわゆる単語）とする場合、構成要素は、単語及び複数の単語からなるフレーズなどである。

例えば、テキストマイニングは、あるテキスト集合において特徴的な単語やフレーズなどの構成要素を分析するタスクである。また、一般的なテキスト分類では、テキストをｂａｇ−ｏｆ−ｗｏｒｄｓ（テキストを構成する単語の集合）とみなし、単語を手掛かりに分類が行われる。

従って、自然言語処理において、テキストを構成要素に分割することは基本的で重要な処理である。テキストを構成要素に分割することは、日本語や中国語などのように、分かち書きされない言語において重要なことは明白である。更に、英語などの分かち書きされる（スペースで単語を区切る）言語においても、例えば「ｈｏｔｓｐｒｉｎｇ」など、複数要素（複数単語）をひとつの処理単位（構成要素）とすべき場合が多々ある。そのため、その後の処理に適した構成要素に分割する処理は、あらゆる言語において重要な処理である。

以降では、説明を分かりやすくするため、基本要素を文字、構成要素を単語とし、基本要素列を構成要素に分割する処理を単語分割と呼ぶ。

例えば、特許文献１及び非特許文献１は、与えられたテキスト集合において単語分割した結果の単語列の、尤度が最大になる単語分割を、ギブスサンプリングで求める。単語列の尤度は、Ｎ−ｇｒａｍ言語モデルに基づいて計算される。言語モデルは、単語の出現に関する確率を算出するモデルである。例えば、１−ｇｒａｍ言語モデルは、ある単語が出現する確率を算出することができる。２−ｇｒａｍ言語モデルは、ある単語の次にある単語が出現する確率を算出することができる。これらの確率に基づき、単語列の出現確率も求めることができる。

特開２０１０−１７０２５２号公報

Sharon Goldwater, Thomas L. Griffiths, Mark Johnson "Contextual Dependencies in Unsupervised Word Segmentation", ACL-44 Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics, pp.673-680, COLING/ACL 2006, 2006.

単語分割は、分割対象テキストのトピックを特徴付ける単位での実行を求められる場合が多々ある。ここで、トピックとは、テキストの話題や分野のことである。例えば、自然言語処理においてトピックモデル（（ｐＬＳＩ（ＰｒｏｂａｂｉｌｉｓｔｉｃＬａｔｅｎｔＳｅｍａｎｔｉｃＩｎｄｅｘｉｎｇ）や、ＬＤＡ（ＬａｔｅｎｔＤｉｒｉｃｈｌｅｔＡｌｌｏｃａｔｉｏｎ）など）で対象としている「トピック」が、その一例である。ｐＬＳＩについては、「Thomas Hofmann, "Probabilistic Latent Semantic Indexing", pp. 289-296, UAI 1999, 1999.」に記載されている。また、ＬＤＡについては、「David M. Blei, Andrew Y. Ng, Michael I. Jordan, "Latent Dirichlet Allocation", pp.993-1022, Journal of Machine Learning Research, Vol. 3, 2003.」に記載されている。

この種のトピックは話題を表すが、話題とは別の、テキストの分類軸をトピックと捉えてもよい。例えば、テキスト分類で分類対象となるカテゴリをトピックと捉えてもよい。例えば、レビュー文の評価極性分類において、レビュー文が高い評価を示すカテゴリ「ポジティブ」と低い評価を示すカテゴリ「ネガティブ」とに分類される際、それらのカテゴリをトピックとみなしてよい。また、口コミが「不満」と「要望」とに分類される際、それら（「不満」、「要望」）をカテゴリ、即ちトピックと、みなしてもよい、
例えば、図２に示すテキスト集合１００に対して、大量破壊兵器に関するテキストとそれ以外のテキストに分類するテキスト分類を行う場合を例に説明する。図２は、テキスト集合１００の一例を示す図である。

テキスト分類は、一般的に単語を分類の手掛かりにして実行される。従って、トピック「大量破壊兵器」を特徴付ける単語「ＡＢＣ兵器」は、一単語とされるべきである。その理由は、以下の通りである。仮に、「ＡＢＣ兵器」が「ＡＢＣ」と「兵器」、「ＡＢＣマート」が「ＡＢＣ」と「マート」、「海上兵器」が「海上」と「兵器」に分割されてしまったとする。この場合、「ＡＢＣ」や「兵器」が大量破壊兵器以外のトピックを持つテキストにも出現し、有効な手掛かりとならない場合があるからである。

また、例えば、経済に関するテキスト集合に対してテキストマイニングを行う場合は、トピック「経済」を特徴付ける単語「国内総生産」は、一単語とされるべきである。その理由は、以下の通りである。テキストマイニングは、特定文書に対して特徴的な単語を分析するタスクである。そのため、「国内総生産」が「国内」と「総生産」に分割されてしまうと、それらの単語は、トピック「経済」に特徴的な単語とならない、従って、テキストマイニングでは特徴的な単語「国内総生産」を分析できないため、マイニング結果が悪くなってしまう。

しかしながら、特許文献１及び非特許文献１に開示される技術は、分割対象テキスト毎のトピックを考慮せずに、与えられたテキスト集合において尤度を最大にする単語分割を行う技術である。そのため、特許文献１及び非特許文献１に開示される技術においては、分割対象テキストを、その分割対象テキストのトピックを特徴付ける単位で、分割できない場合があるという問題点がある。例えば、特許文献１の言語モデル作成装置が、図２のテキストを単語分割する場合、図２のテキストを一括りに扱う。この場合、「ＡＢＣ」の後に「兵器」以外の文字列が出現するため、「ＡＢＣ兵器」が一単語になる確率が低くなり、従って「ＡＢＣ」と「兵器」とがまとまらない可能性が高くなる。

本発明の目的は、上述した問題点を解決できる情報処理システム、言語処理方法及びそのためのプログラムを提供することにある。

本発明の一様態における情報処理システムは、分割対象テキストが取りうるトピックの候補であるトピック候補を決定するトピック候補決定手段と、前記トピックのそれぞれに対応するトピック対応言語モデルを含むトピック別言語モデルの、前記トピック候補に対応する前記トピック対応言語モデルのそれぞれに基づいて前記分割対象テキストの単語分割を実行し、前記トピック別言語モデルのそれぞれに対応する単語分割の結果の内、尤度に関する所定の条件を満たす単語分割を、前記分割対象テキストの単語分割結果として出力する単語分割手段と、を含む。

本発明の一様態における言語処理方法は、コンピュータが、分割対象テキストが取りうるトピックの候補であるトピック候補を決定し、前記トピックのそれぞれに対応するトピック対応言語モデルを含むトピック別言語モデルの、前記トピック候補に対応する前記トピック対応言語モデルのそれぞれに基づいて前記分割対象テキストの単語分割を実行し、前記トピック別言語モデルのそれぞれに対応する単語分割の結果の内、尤度に関する所定の条件を満たす単語分割の結果を、前記分割対象テキストの単語分割結果として出力する。

本発明の一様態におけるプログラムは、分割対象テキストが取りうるトピックの候補であるトピック候補を決定し、前記トピックのそれぞれに対応するトピック対応言語モデルを含むトピック別言語モデルの、前記トピック候補に対応する前記トピック対応言語モデルのそれぞれに基づいて前記分割対象テキストの単語分割を実行し、前記トピック別言語モデルのそれぞれに対応する単語分割の結果の内、尤度に関する所定の条件を満たす単語分割の結果を前記分割対象テキストの単語分割結果として出力する処理をコンピュータに実行させる。

本発明は、分割対象のテキストのトピックを特徴付ける単位で、より好適に単語分割を実行することが可能になるという効果がある。

図１は、本発明の第１の実施形態に係る単語分割システムの構成を示すブロック図である。図２は、第１の実施形態におけるテキスト集合の一例を示す図である。図３は、第１の実施形態におけるトピック別言語モデルの一例を示す図である。図４は、第１の実施形態における分割対象テキスト集合の一例を示す図である。図５は、第１の実施形態に係る単語分割システムを実現するコンピュータのハードウエア構成を示すブロック図である。図６は、第１の実施形態における単語分割システムの動作を示すフローチャートである。図７は、第１の実施形態における単語分割システムの動作を示すフローチャートである。図８は、第１の実施形態の変形例に係る情報処理システムの構成を示すブロック図である。図９は、本発明の第２の実施形態に係る単語分割システムの構成を示すブロック図である。図１０は、第２の実施形態における単語分割システムの動作を示すフローチャートである。図１１は、本発明の第３の実施形態に係る単語分割システムの構成を示すブロック図である。図１２は、第３の実施形態における単語分割システムの動作を示すフローチャートである。

本発明を実施するための形態について図面を参照して詳細に説明する。尚、各図面及び明細書記載の各実施形態において、同様の構成要素には同様の符号を付与し、適宜説明を省略する。

＜＜＜第１の実施形態＞＞＞
図１は、本発明の第１の実施形態に係る単語分割システム（情報処理システムとも呼ばれる）１０の構成を示すブロック図である。図１に示すように、本実施形態に係る単語分割システム１０は、入力受付部１０３、トピック設定部１０４、言語モデル作成部１０５、トピック候補決定部１０７、単語分割部１０８及び出力部１０９を含む。

図１に示す各構成要素は、ハードウエア単位の回路でも、マイクロチップに含まれるモジュールでも、コンピュータ装置の機能単位に分割された構成要素でもよい。ここでは、図１に示す構成要素が、コンピュータ装置の機能単位に分割された構成要素であるものとして説明する。尚、図１に示す単語分割システム１０は、あるサーバに実装され、ネットワークを介して利用可能にされてよいし、図１に示す各構成要素がネットワーク上に分散して設置されて利用可能にされてもよい。

＝＝＝入力受付部１０３＝＝＝
入力受付部１０３は、学習データである学習用テキスト集合１０１と、テストデータである分割対象テキスト集合１０２とを入力として受け付ける。次に、入力受付部１０３は、学習用テキスト集合１０１をトピック設定部１０４に、分割対象テキスト集合１０２をトピック候補決定部１０７に出力する。

学習用テキスト集合１０１は、単語分割を行う際に使用する言語モデルを、学習するためのデータ（学習用テキストの集合）である。分割対象テキスト集合１０２は、単語分割対象となるテキスト（分割対象テキストとも呼ばれる）の集合である。尚、学習用テキスト集合１０１及び分割対象テキスト集合１０２のいずれも、正しい単語分割の情報を与えられていない。

学習用テキスト集合１０１及び分割対象テキスト集合１０２は、前述した通り、例えば、基本要素を文字とした文字列の集合、或いは基本要素をスペースで区切られた塊（いわゆる単語）とした単語列の集合である。

学習用テキスト集合１０１及び分割対象テキスト集合１０２に含まれる、テキストのそれぞれの全て或いは一部は、トピックを付与されていてよい。このトピックは人手で決定されたトピックであってよいし、ｐＬＳＩやＬＤＡ等のトピックモデルで解析された結果のトピックであってもよい。

また、それらのテキストのそれぞれは、トピック設定部１０４がトピックを設定する際や、トピック候補決定部１０７がトピック候補を決定する際などに、手掛かりとなる情報が付与されていてもよい。手掛かりとなる情報は、例えば、テキスト分類で分類対象となるようなテキストのカテゴリ情報である。

また、学習用テキスト集合１０１と分割対象テキスト集合１０２とは区別されなくても（同一であっても）よい。つまり、単語分割を行う際に使う言語モデルを学習するためのデータでかつ、単語分割対象となるテキストの集合となる分割対象テキスト集合１０２だけが用意されてもよい。この場合、入力受付部１０３は、分割対象テキスト集合１０２を受け取り、トピック設定部１０４及びトピック候補決定部１０７のそれぞれに分割対象テキスト集合１０２を出力してよい。その場合の構成や動作は、以降の説明における学習用テキスト集合１０１を、分割対象テキスト集合１０２に置き換えたものとなる。

＝＝＝テキスト集合１００＝＝＝
図２は、本実施形態におけるテキスト集合１００の一例を示す図である。図２に示すように、テキスト集合１００は、任意の数のテキストとそのテキストのそれぞれに対応するトピックとを含む。テキスト集合１００は、学習用テキスト集合１０１であり得るし、分割対象テキスト集合１０２でもあり得る。図２に示すように、テキスト集合１００は、４つのテキストを含み、それらのテキストそれぞれにトピック（「大量破壊兵器」或いは「大量破壊兵器以外」）を付与されている。

＝＝＝トピック設定部１０４＝＝＝
トピック設定部１０４は、学習用テキスト集合１０１に含まれるテキストのそれぞれに対して、トピックを設定する。次に、トピック設定部１０４は、トピックを設定されたテキストを含む学習用テキスト集合１０１を、言語モデル作成部１０５に出力する。

例えば、トピック設定部１０４は、学習用テキスト集合１０１中の学習用テキストの内、トピック設定部１０４が受け取った時点でトピックが付与されている学習用テキストにはそのトピックを設定する。例えば、図２に示すテキスト集合１００が学習用テキスト集合１０１として入力された場合、トピック設定部１０４は、左２つの文書の学習用テキストにはトピック「大量破壊兵器」を設定する。そして、トピック設定部１０４は、右２つの文書の学習用テキストにはトピック「大量破壊兵器以外」を設定する。

トピック設定部１０４は、トピックが付与されていない学習用テキストには、ｐＬＳＩやＬＤＡ等のトピックモデルで解析してトピックを設定してもよい。

或いは、学習用テキスト集合１０１にトピックを設定する際の手掛かりとなる情報が学習用テキストに付与されていれば、トピック設定部１０４は、その情報に基づいてトピックを設定してもよい。例えば、学習用テキスト集合１０１にカテゴリ情報が付与されている場合、トピック設定部１０４は、カテゴリ情報からトピックを抽出する技術を用いて、そのカテゴリ情報を生み出すようなトピックを設定してもよい。ここで、カテゴリ情報は、テキスト分類で分類対象となるような、テキストのカテゴリ情報である。カテゴリ情報からトピックを抽出する技術については、「David M. Blei, Jon D. McAuliffe, "Supervised topic models", pp.121-128, NIPS, 2008.」に記載されている。

また、各学習用テキストのトピックをひとつに限定する必要はなく、１つの学習用テキストに複数のトピックが設定されてもよい。１つの学習用テキストに複数のトピックを設定する場合、トピック設定部１０４は、トピックを確率分布や混合比などと共に設定してもよい。確率分布は、例えば、「ある学習用テキストはトピックＡが０．２、トピックＢが０．８の確率で構成されている」という情報である。また、混合比は、例えば、「ある学習用テキストはトピックＡとＢとＣが１：２：３の比で構成されている」という混合比である。確率分布や混合比などは、一般的に、「重み」とも呼ばれる。これらの情報は、例えば、その学習用テキストをトピックモデルＬＤＡで解析した結果として、取得することができる。

＝＝＝言語モデル作成部１０５＝＝＝
言語モデル作成部１０５は、トピック設定部１０４の出力を受け取り、各学習用テキストのトピックに基づいてトピック別の言語モデル（トピック別言語モデル１０６）を作成（学習）する。例えば、図２に示すテキスト集合１００が学習用テキスト集合１０１として入力された場合、言語モデル作成部１０５は、左２つの文書の学習用テキストからトピック「大量破壊兵器」の言語モデル（統計量）を学習する。そして、言語モデル作成部１０５は、右２つの文書の学習用テキストからトピック「大量破壊兵器以外」の言語モデル（統計量）を学習する。言語モデル作成部１０５は、作成したトピック別言語モデル１０６をトピック候補決定部１０７に出力する。

言語モデル作成部１０５は、例えば以下のように、特許文献１に開示された技術を利用して実現することができる。第１に、言語モデル作成部１０５は、特許文献１の図２に示される、パラメータ読み込み部、文選択部、文字列分割パターン作成部、確率計算部、文字列分割パターン選択部、言語モデル更新部、収束判定部及び出力処理部を含む。第２に、言語モデル作成部１０５は、特許文献１における言語モデル及び確率テーブルをトピック毎に管理する。第３に、言語モデル作成部１０５は、特許文献１の図５に示される処理フローから「最尤単語分割の計算」を除いた処理を、文字列データ中の各テキストのトピックに対応する言語モデルと確率テーブルとを使用して実現する。即ち、本実施形態は、特許文献１の言語モデル作成装置が作成するような言語モデルを、トピック別に作成する。

学習用テキストに設定されたトピックが複数のトピックの混合である場合、言語モデル作成部１０５は、それらトピックへの混合比を確率的に求め、その確率にしたがった統計量を使い、トピック毎の言語モデルや確率テーブルなどを学習する。例えば、ある学習用テキストがトピックＡに０．２、トピックＢに０．８の確率で関連しているものとする。この場合、言語モデル作成部１０５は、その学習用テキストの統計量×０．２をトピックＡの言語モデル及び確率テーブルに反映し、その学習用テキストの統計量×０．８をトピックＢの言語モデル及び確率テーブルに反映する。こうすることで、言語モデル作成部１０５は、トピックＡとトピックＢのそれぞれについて、言語モデル及び確率テーブルを学習する。

図３は、本実施形態におけるトピック別言語モデル１０６の一例を示す図である。トピック別言語モデル１０６は、図３に示すようにトピック毎のトピック対応言語モデル１０６６の集合（例えば、学習用テキスト集合１０１内のトピックの数だけ言語モデルのファイルが存在）であってよい。また、トピック別言語モデル１０６は、トピック毎に統計量が管理された、ひとつの言語モデルのファイルであってもよい。

＝＝＝トピック候補決定部１０７＝＝＝
トピック候補決定部１０７は、入力受付部１０３から分割対象テキスト集合１０２と言語モデル作成部１０５の出力を受け取る。次に、トピック候補決定部１０７は、分割対象テキスト集合１０２の各分割対象テキストが取りうるトピックを特定する。次に、トピック候補決定部１０７は、特定したトピックをトピック候補として決定する。次に、トピック候補決定部１０７は、決定したトピック候補を分割対象テキスト集合１０２に添えてトピック別言語モデル１０６と共に単語分割部１０８に出力する。

例えば、トピック候補決定部１０７は、分割対象テキスト集合１０２中のテキストの内、トピック候補決定部１０７が受け取った時点でトピックが付与されている分割対象テキストについてはそのトピックをトピック候補として決定する。例えば、図２に示すテキスト集合１００が分割対象テキスト集合１０２として入力された場合、トピック候補決定部１０７は、左２つの文書の分割対象テキストについてはトピック「大量破壊兵器」をトピック候補とする。同様に、トピック候補決定部１０７は、右２つの文書の分割対象テキストについてはトピック「大量破壊兵器以外」をトピック候補とする。

また、トピック候補決定部１０７は、トピックが付与されていない分割対象テキストには、例えば、ｐＬＳＩやＬＤＡ等のトピックモデルで解析してトピックを生成し、そのトピックをトピック候補として決定してもよい。或いは、トピック候補決定部１０７は、トピックを設定する際の手掛かりとなる情報が付与されていれば、その情報に基づいてトピックを生成し、そのトピックをトピック候補として決定してもよい。

図４は、本実施形態における分割対象テキスト集合１０２の一例であるテストデータ１０２２を示す図である。図４に示すように、テストデータ１０２２は、分割対象テキストのみを含み、トピックを付与されていない。

例えば、トピック候補決定部１０７は、分割対象テキスト集合１０２に上述のようなカテゴリ情報が付与されている場合、前述のカテゴリ情報からトピックを抽出する技術を用いて、そのカテゴリ情報を生み出すようなトピックを生成してよい。そして、トピック候補決定部１０７は、生成したそのトピックをトピック候補として決定してもよい。

また、各分割対象テキストのトピック候補をひとつに限定する必要はなく、１つの分割対象テキストに可能性のあるトピック候補が複数設定されてもよい。例えば、トピック候補決定部１０７は、何も情報がない場合、トピック別言語モデル１０６に管理されている全てのトピックを、分割対象テキストそれぞれのトピック候補とする。

例えば、図２に示すテキスト集合１００が学習用テキスト集合１０１として入力され、「大量破壊兵器」と「Ｘ国」との２種類のトピックに対応するトピック別言語モデル１０６が作成されたとする。ここに、図４に示すテストデータ１０２２が分割対象テキスト集合１０２として入力された場合、トピック候補決定部１０７は、テストデータ１０２２のトピック候補を「大量破壊兵器」と「Ｘ国」の２つとする。

また、各分割対象テキストのトピック候補は、前述のトピック設定部１０４が設定するトピックと同様に、複数トピックの混合で表されてもよい。例えば、トピック候補決定部１０７は、テストデータ１０２２について、トピック「大量破壊兵器」に０．７、トピック「Ｘ国」に０．３の混合比で混合したものをトピック候補のひとつとしてもよい。

＝＝＝単語分割部１０８＝＝＝
単語分割部１０８は、トピック候補決定部１０７の出力を受け取る。次に、単語分割部１０８は、トピック候補決定部１０７が決定したトピック候補のトピック毎に、トピック別言語モデル１０６においてそのトピックに対応する統計量に基づいて、最も尤度が高い単語分割（最尤単語分割）を実行する。その統計量は、そのトピックに対応するトピック対応言語モデル１０６６で示される。

次に、単語分割部１０８は、その単語分割の結果を、尤度と共に出力部１０９に出力する。即ち、単語分割部１０８は、トピック候補が複数ある場合、トピック候補の数だけ尤度と単語分割結果のペアを出力する。例えば、図４に示すテストデータ１０２２の分割対象テキストのトピック候補が「大量破壊兵器」と「大量破壊兵器以外」の２つであった場合、単語分割部１０８は、トピック毎に最尤単語分割を行い、尤度と共に出力を行う。例えば、トピック「大量破壊兵器」に関する最尤単語分割を行う場合、単語分割部１０８は、トピック別言語モデル１０６の中のトピック「大量破壊兵器」に関する統計量（言語モデル）を用いて単語分割を行う。

尚、単語分割部１０８は、上述の例（最尤単語分割）に限らず、尤度に関する所定の条件を満たす単語分割を行ってもよい。所定の条件は、例えば、「上位ｌ（ｌは予め定められた値）番目の尤度を持つ単語分割」や、「上位ｌ（ｌは予め定められた値）番目以上の尤度を持つ複数の単語分割」や、「所定の閾値以上の尤度を持つ単語分割」などである。

単語分割部１０８は、あるトピックｔについての最尤単語分割を例えば以下のように、特許文献１に開示された技術を利用して実現してよい。第１に、単語分割部１０８は、特許文献１の図２に示される、最尤単語分割計算部を含む。第２に、単語分割部１０８は、トピックｔのトピック対応言語モデル１０６６を特許文献１の言語モデルとして、トピックｔに対応する統計量を用いて、特許文献１の図５に示される処理フローの「最尤単語分割の計算」を実行する。具体的には、単語分割部１０８は、ビタビアルゴリズムにより、トピックｔに対応する言語モデルに基づいて分割対象テキスト中の部分単語列の確率を計算しながら、最も高い確率となる単語列を求めることができる。そして、ビタビアルゴリズムでは最も尤度が高い単語分割結果に対する尤度も計算されるため、単語分割部１０８は、その尤度と共に最尤単語分割を求めることができる。

また、単語候補が複数のトピックの混合である場合、単語分割部１０８は、それらトピックへの混合比を確率的に求め、その確率にしたがった統計量（言語モデル）を使うことで単語分割を実現できる。例えば、ある分割対象テキストがトピックＡに０．２、トピックＢに０．８の確率で関連している場合、単語分割部１０８は、ある単語列Ｗの確率を次の式により計算する。単語列Ｗの確率＝トピックＡのトピック対応言語モデル１０６６における単語列Ｗの確率×０．２＋トピックＢのトピック対応言語モデル１０６６における単語列Ｗの確率×０．８。

＝＝＝出力部１０９＝＝＝
出力部１０９は、単語分割部１０８の出力結果を受け取る。次に、出力部１０９は、分割対象テキストのそれぞれについて、トピックのそれぞれに対応する最尤単語分割の尤度が、最も高い単語分割結果をその分割対象テキストの単語分割結果８２０として出力する。

尚、出力部１０９は、上述の例（最尤単語分割）に限らず、尤度に関する所定の条件を満たす単語分割を分割結果８２０として出力してもよい。所定の条件は、例えば、「上位ｌ（ｌは予め定められた値）番目の尤度を持つ単語分割」や、「上位ｌ（ｌは予め定められた値）番目以上の尤度を持つ複数の単語分割」や、「所定の閾値以上の尤度を持つ単語分割」などである。

以上が、単語分割システム１０の機能単位の各構成要素についての説明である。

次に、本実施形態をコンピュータで実現する場合のハードウエア単位の構成要素について、説明する。

図５は、本実施形態における単語分割システム１０を実現するコンピュータ７００のハードウエア構成を示す図である。

図５に示すように、コンピュータ７００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）７０１、記憶部７０２、記憶装置７０３、入力部７０４、出力部７０５及び通信部７０６を含む。更に、コンピュータ７００は、外部から供給される記録媒体（または記憶媒体）７０７を含む。例えば、記録媒体７０７は、情報を非一時的に記憶する不揮発性記録媒体（非一時的記録媒体）である。また、記録媒体７０７は、情報を信号として保持する、一時的記録媒体であってもよい。

ＣＰＵ７０１は、オペレーティングシステム（不図示）を動作させて、コンピュータ７００の全体の動作を制御する。例えば、ＣＰＵ７０１は、記憶装置７０３に装着された記録媒体７０７から、そのプログラムやデータを読み込み、読み込んだそのプログラムやそのデータを記憶部７０２に書き込む。ここで、そのプログラムは、例えば、後述の図６及び図７に示すフローチャートの動作をコンピュータ７００に実行させるためのプログラムである。

そして、ＣＰＵ７０１は、その読み込んだプログラムに従って、またその読み込んだデータに基づいて、図１に示す入力受付部１０３、トピック設定部１０４、言語モデル作成部１０５、トピック候補決定部１０７、単語分割部１０８及び出力部１０９として各種の処理を実行する。

尚、ＣＰＵ７０１は、通信網（不図示）に接続される外部コンピュータ（不図示）から、記憶部７０２にそのプログラムやそのデータをダウンロードしてもよい。

記憶部７０２は、そのプログラムやそのデータを記憶する。記憶部７０２は、記憶部７０２は、学習用テキスト集合１０１、分割対象テキスト集合１０２、トピック別言語モデル１０６及び単語分割結果８２０などを記憶してよい。記憶部７０２は、入力受付部１０３、トピック設定部１０４、言語モデル作成部１０５、トピック候補決定部１０７、単語分割部１０８及び出力部１０９の一部として含まれてよい。

記憶装置７０３は、例えば、光ディスクや、フレキシブルディスク、磁気光ディスク、外付けハードディスク半導体メモリなどであって、記録媒体７０７を含む。記憶装置７０３（記録媒体７０７）は、そのプログラムをコンピュータ読み取り可能に記憶する。また、記憶装置７０３は、そのデータを記憶してもよい。記憶装置７０３は、学習用テキスト集合１０１、分割対象テキスト集合１０２、トピック別言語モデル１０６及び単語分割結果８２０などを記憶してよい。記憶装置７０３は、入力受付部１０３、トピック設定部１０４、言語モデル作成部１０５、トピック候補決定部１０７、単語分割部１０８及び出力部１０９の一部として含まれてよい。

入力部７０４は、オペレータによる操作の入力や外部からの情報の入力を受け付ける。入力操作に用いられるデバイスは、例えば、マウスや、キーボード、内蔵のキーボタン及びタッチパネルなどである。入力部７０４は、入力受付部１０３及び出力部１０９の一部として含まれてよい。

出力部７０５は、例えばディスプレイで実現される。出力部７０５は、例えばＧＵＩ（ＧＲＡＰＨＩＣＡＬＵｓｅｒＩｎｔｅｒｆａｃｅ）によるオペレータへの入力要求や、オペレータに対する出力提示などのために用いられる。出力部７０５は、入力受付部１０３及び出力部１０９の一部として含まれてよい。

通信部７０６は、外部装置（不図示）とのインタフェースを実現する。通信部７０６は、入力受付部１０３及び出力部１０９の一部として含まれてよい。

以上説明したように、図１に示す単語分割システム１０の機能単位の各構成要素は、図５に示すハードウエア構成のコンピュータ７００によって実現される。但し、コンピュータ７００が備える各部の実現手段は、上記に限定されない。すなわち、コンピュータ７００は、物理的に結合した１つの装置により実現されてもよいし、物理的に分離した２つ以上の装置を有線または無線で接続し、これら複数の装置により実現されてもよい。

尚、上述のプログラムのコードを記録した記録媒体７０７が、コンピュータ７００に供給される場合、ＣＰＵ７０１は、記録媒体７０７に格納されたそのプログラムのコードを読み出して実行してもよい。或いは、ＣＰＵ７０１は、記録媒体７０７に格納されたそのプログラムのコードを、記憶部７０２、記憶装置７０３またはその両方に格納してもよい。すなわち、本実施形態は、コンピュータ７００（ＣＰＵ７０１）が実行するそのプログラム（ソフトウエア）を、一時的にまたは非一時的に、記憶する記録媒体７０７の実施形態を含む。尚、情報を非一時的に記憶する記憶媒体は、不揮発性記憶媒体とも呼ばれる。

以上が、本実施形態における単語分割システム１０を実現するコンピュータ７００の、ハードウエア単位の各構成要素についての説明である。

次に本実施形態の動作について、図面を参照して詳細に説明する。

図６及び図７は、本実施形態の動作を示すフローチャートである。尚、このフローチャートによる処理は、前述したＣＰＵ７０１によるプログラム制御に基づいて、実行されてよい。また、処理のステップ名については、「Ａ１」のように、記号で記載する。

単語分割システム１０は、図５に示す入力部７０４を介して操作者から指示（例えば、学習用テキスト集合１０１及び分割対象テキスト集合１０２の指定）を受けたことを契機に、図６に示すフローチャートの動作を開始する。また、単語分割システム１０は、図５に示す通信部７０６を介して外部からの要求（例えば、学習用テキスト集合１０１及び分割対象テキスト集合１０２の指定を含む）を受信したことを契機に、図６に示すフローチャートの動作を開始してもよい。

入力受付部１０３は、学習用テキスト集合１０１及び分割対象テキスト集合１０２の指定に基づいて、学習用テキスト集合１０１及び分割対象テキスト集合１０２を取得し、入力として受け付ける（ステップＡ１）。

例えば、入力受付部１０３は、図５に示す記憶部７０２或いは記憶装置７０３に予め記憶されている、学習用テキスト集合１０１及び分割対象テキスト集合１０２を取得する。また、入力受付部１０３は、図５に示す入力部７０４を介して操作者が入力した、学習用テキスト集合１０１及び分割対象テキスト集合１０２を取得してもよい。また、入力受付部１０３は、図５に示す通信部７０６を介して図示しない機器から、学習用テキスト集合１０１及び分割対象テキスト集合１０２を受信してもよい。また、入力受付部１０３は、図５に示す記憶装置７０３を介して、記録媒体７０７に記録された学習用テキスト集合１０１及び分割対象テキスト集合１０２を取得してもよい。

次に、トピック設定部１０４は、学習用テキスト集合１０１に含まれる学習用テキストのそれぞれに対して、トピックを設定する（ステップＡ２）。

次に、言語モデル作成部１０５は、設定されたそれらのトピック毎の言語モデルを含む、トピック別言語モデル１０６を作成（学習）する（ステップＡ３）。

次に、トピック候補決定部１０７は、分割対象テキスト集合１０２に含まれる分割対象テキストのそれぞれが取りうるトピックを特定し、特定したトピックをトピック候補として決定する（ステップＡ４）。

次に、単語分割部１０８は、そのトピック候補のトピック毎に、トピック別言語モデル１０６においてそのトピックに対応する統計量に基づいて、分割対象テキストのそれぞれに対して最尤単語分割を実行する（ステップＡ５）。

次に、出力部１０９は、それらの分割対象テキストのそれぞれについて、トピックのそれぞれに対応する単語分割結果における最尤単語分割の尤度が、最も高い単語分割結果をその分割対象テキストの単語分割結果８２０として出力する（ステップＡ６）。

例えば、出力部１０９は、単語分割結果８２０を図５に示す出力部７０５を介して出力する。また、出力部１０９は、図５に示す通信部７０６を介して、図示しない機器に単語分割結果８２０を送信してもよい。また、出力部１０９は、図５に示す記憶装置７０３を介して、記録媒体７０７に単語分割結果８２０を記録してもよい。

図７は、図６に示すフローチャートのステップＡ３の動作を詳細に示すフローチャートである。

言語モデル作成部１０５は、ステップＡ２で設定されたトピックのそれぞれについて、ステップＣ１からステップＣ７の処理を繰り返す（ステップＣ０）。

ステップＣ１、Ｃ２、Ｃ３、Ｃ４、Ｃ５及びＣ７のそれぞれの動作は、特許文献１の図２に示される、「文字列データの読み込み」、「文字列分割サンプリング処理」、「言語モデルの更新」、「全ての文字列を分割？」、「収束？」及び「言語モデルの出力」の動作と同等である。尚、「文字列分割サンプリング処理」は、言語モデル（本実施形態においてはトピック対応言語モデル１０６６に対応する）を用いたサンプリングにより単語分割を実行する処理である。また、「言語モデルの更新」は、その単語分割処理の結果に基づいて言語モデル（本実施形態においてはトピック対応言語モデル１０６６に対応する）を更新する処理である。上述の各処理は、特許文献１を参照することで容易に理解可能であるため、詳細な説明を省略する。

言語モデル作成部１０５は、ステップＡ２で設定されたトピックの全てについて、ステップＣ１からステップＣ７の処理を実行した場合、処理を終了する（ステップＣ８）。

以上の動作により、単語分割システム１０は、分割対象の分割対象テキスト集合１０２に含まれる分割対象テキストのトピックを特徴付ける構成要素の単位で、その分割対象テキストの単語分割を実行する。

例えば、図２に示すテキスト集合１００が学習用テキスト集合１０１として、図４に示すテストデータ１０２２が分割対象テキスト集合１０２として、入力されたとする。この場合、言語モデル作成部１０５は、図２の左から２つの文書により、トピック「大量破壊兵器」のトピック対応言語モデル１０６６を学習する。そこでは、「ＡＢＣ」という文字列の後には必ず「兵器」が出現するため、言語モデル作成部１０５は、「ＡＢＣ兵器」が一単語になる確率が高くなるトピック対応言語モデル１０６６を学習する。そして、単語分割部１０８は、そのトピック対応言語モデル１０６６に基づいて単語分割を実行する。このため、「ＡＢＣ兵器」が含まれる図４のテストデータ１０２２はトピック「大量破壊兵器」のもとでの分割の尤度が高くなり、出力部１０９は、最終的な分割結果としてトピック「大量破壊兵器」の単語分割結果８２０を選択する。即ち、トピック「大量破壊兵器」に特徴的な「ＡＢＣ兵器」が一単語としてまとまる。

上述した本実施形態における効果は、分割対象のテキストのトピックを特徴付ける単位で、より好適に単語分割を実行することが可能になる点である。

その理由は、以下のような構成を含むからである。即ち、第１に、トピック設定部１０４により設定された各学習用テキストのトピックに基づいて、言語モデル作成部１０５がトピック別言語モデル１０６を作成する。第２に、単語分割部１０８が、トピック別言語モデル１０６を用いて、トピック候補決定部１０７が決定したトピック候補に対応する統計量により単語分割を実行する。第３に、出力部１０９が、分割対象テキストのそれぞれについて、トピックのそれぞれに対応する最尤単語分割の尤度が、最も高い単語分割結果をその分割対象テキストの単語分割結果８２０として出力する。

具体的には、本実施形態の効果は、分割対象テキストのトピックを特徴付ける単位でその分割対象テキストを分割したい場合により顕著である。

例えば、テキスト分類で分類対象となるカテゴリやそれらのカテゴリに依存するトピックなどを、本実施形態のトピックとして利用することにより、分類対象となるカテゴリを特徴付ける単位で分割対象テキストの分割を行うことができる。この分割により切り出された塊（単語や単語相当）は、テキスト分類に有効な手掛かりとなるため、テキスト分類を行う際の形態素解析手法やチャンカ―としてより有効である。

また、テキストマイニング対象となっているテキストの分野やそれらのテキストの分野に依存するトピックなどを、本実施形態のトピックとして利用することにより、マイニング対象の分野特有の単語を分割された１単語としてまとめることができる。
この分割により、先行技術文献に開示される分割手法などでは複数単語に分かれしまい、マイニングされなかった特徴（単語）を、マイニングすることができる。

＜＜＜第１の実施形態の変形例＞＞＞
図８は、第１の実施形態の変形例である情報処理システム９０の構成を示すブロック図である。図８に示すように、情報処理システム９０は、図１に示す単語分割システム１０の構成要素である、入力受付部１０３、トピック設定部１０４、言語モデル作成部１０５、トピック候補決定部１０７及び単語分割部１０８を含む。更に、情報処理システム９０は、端末９０３及び記憶装置９０４を含む。

入力受付部１０３、トピック設定部１０４、言語モデル作成部１０５、トピック候補決定部１０７、単語分割部１０８、端末９０３及び記憶装置９０４は、ネットワーク９０２を介して接続される。尚、入力受付部１０３、トピック設定部１０４、言語モデル作成部１０５、トピック候補決定部１０７、単語分割部１０８、端末９０３及び記憶装置９０４の任意の組み合わせは、１台の図５に示すようなコンピュータ７００であってよい。また、入力受付部１０３、トピック設定部１０４、言語モデル作成部１０５、トピック候補決定部１０７、単語分割部１０８、端末９０３及び記憶装置９０４の任意のいずれかどうしは、ネットワーク９０２を介することなく直接接続されてもよい。即ち、入力受付部１０３、トピック設定部１０４、言語モデル作成部１０５、トピック候補決定部１０７、単語分割部１０８、端末９０３及び記憶装置９０４は、任意に、ネットワーク９０２を介して接続されてよい。

＝＝＝端末９０３＝＝＝
端末９０３は、単語分割システム１０構成要素である出力部１０９を含む。

＝＝＝記憶装置９０４＝＝＝
記憶装置９０４は、学習用テキスト集合１０１、分割対象テキスト集合１０２、トピック別言語モデル１０６及び単語分割結果８２０を記憶する。

上述した本実施形態における変形例の効果は、情報処理システム９０の構築を、即ち単語分割システム１０の構築を、柔軟に実現することが可能になる点である。

その理由は、入力受付部１０３、トピック設定部１０４、言語モデル作成部１０５、トピック候補決定部１０７、単語分割部１０８、端末９０３及び記憶装置９０４を、任意に、ネットワーク９０２を介して接続するからである。

＜＜＜第２の実施形態＞＞＞
次に、本発明の第２の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。

図９は、本発明の第２の実施形態に係る単語分割システム２０の構成を示すブロック図である。

図９に示すように、本実施形態における単語分割システム２０は、第１の実施形態の単語分割システム１０と比べて、トピック更新部２１０を更に含む点が異なる。また、単語分割システム２０は、第１の実施形態の単語分割システム１０と比べて、トピック設定部１０４に替えてトピック設定部２０４を、言語モデル作成部１０５に替えて言語モデル作成部２０５を、含む点が異なる。

＝＝＝トピック設定部２０４＝＝＝
トピック設定部２０４は、図１に示すトピック設定部１０４によるトピック設定方法に加え、トピック設定部２０４が学習用テキスト集合１０１を受け取った時点でトピックが付与されていない学習用テキストに、ランダムにトピックを設定してもよい。図１に示すトピック設定部１０４と異なり、トピック設定部２０４がランダムにトピックを設定してもよい理由は、後述するトピック更新部２１０を含むからである。つまり、この時点でトピック設定部２０４が不適切なトピックを付与したとしても、トピック更新部２１０が適切なトピックに変更（更新）するからである。

＝＝＝言語モデル作成部２０５＝＝＝
言語モデル作成部２０５は、図１に示す言語モデル作成部１０５の動作に加えて、以下の動作を実行する。

言語モデル作成部２０５は、トピック別言語モデル１０６の作成（学習）途中において、予め定義されたトピック更新条件が成立した場合、その時点でのトピック別言語モデル１０６と単語分割結果、各学習用テキストのトピックをトピック更新部２１０に出力する。

トピック更新条件は、例えば、「トピック別言語モデル１０６の学習が終了しておらず、かつ、学習用テキスト集合１０１の学習用テキストの内、Ｎ（Ｎは１以上の自然数）個の学習用テキストに対する処理が終わったらトピックを更新する」である。トピック更新条件は、「トピック別言語モデル１０６の学習が終了しておらず、かつ、Ｍ（Ｍは０を超え、１００以下の実数）％の学習用テキストを処理が終わったらトピックを更新する」であってもよい。トピック更新条件は、上述の例に係わらず、任意の適切な条件であってよい。

＝＝＝トピック更新部２１０＝＝＝
トピック更新部２１０は、言語モデル作成部２０５の出力を受け取り、受け取った単語分割結果とトピック別言語モデル１０６とに基づいて学習用テキストのトピック（第２のトピック）を推定する。次に、トピック更新部２１０は、トピック（第１のトピック）を推定結果（第２のトピック）に更新し、更新した結果を言語モデル作成部２０５に出力する。

例えば、トピック更新部２１０は、以下の式１を利用し、単語分割結果とトピック別言語モデル１０６とに基づき、トピックを更新する。

尚、式１において、Ｗは学習用テキストを分割した、ｎ個の単語からなる、単語列Ｗ＝ｗ１ｗ２ｗ３・・・ｗｎであり、トピック更新部２１０の入力として与えられる。また、ｔはトピック、Ｐ（Ｗ｜ｔ）はトピック別言語モデル１０６においてトピックｔの統計量（言語モデル）を用いて算出した単語列の尤度を表す確率、Ｔ＾（Ｔの右横の＾は、式1において、Ｔの上部に記された＾を示す）は推定結果のトピックである。トピック更新部２１０は、式１により学習用テキストのトピックＴ＾を求め、その学習用テキストのトピックをＴ＾に更新する。

トピック更新部２１０は、学習用テキスト集合１０１に含まれる学習用テキストの内、任意の適切な学習用テキストを対象に、トピックを更新してよい。例えば、トピック更新部２１０は、学習用テキスト集合１０１において人手により正しいトピックが与えられている学習用テキスト以外の、学習用テキストのみを対象に処理を実行してもよい。或いは、トピック更新部２１０は、トピック設定部２０４によりランダムにトピックが設定された学習用テキストのみを対象に処理を実行してもよい。

単語分割システム２０は、単語分割システム１０と同様に、図５に示すコンピュータ７００によって実現されてよい。

この場合、ＣＰＵ７０１は、その読み込んだプログラムに従って、またその読み込んだデータに基づいて、更に、図９に示すトピック更新部２１０としても、各種の処理を実行する。同様に、ＣＰＵ７０１は、トピック設定部２０４及び言語モデル作成部２０５として、各種の処理を実行する。また、ここで、そのプログラムは、例えば、後述の図１０に示すフローチャートの動作をコンピュータ７００に実行させるためのプログラムである。

本実施形態の動作は、第１の実施形態の動作と比べて、図６に示すステップＡ３の詳細な動作、即ち図７に示す動作、が異なる。図１０は、図６に示すフローチャートのステップＡ３の、本実施形態における動作を詳細に示すフローチャートである。

ステップＣ３の次に、言語モデル作成部２０５は、トピック更新条件が成立したか否かを判定する（ステップＣ２４）。尚、トピック更新条件は、特許文献１の図２に示される条件「全ての文（本実施形態ではテキスト）の文字列を分割？」であってよい。

トピック更新条件が成立していない場合（ステップＣ２４でＮＯ）、処理は、ステップＣ２へ戻る。

トピック更新条件が成立した場合、言語モデル作成部２０５は、単語分割が収束したか否かを判定する（ステップＣ２５）。

単語分割が収束した場合（ステップＣ２５でＹＥＳ）、処理は、ステップＣ７へ進む。

単語分割が収束していない場合（ステップＣ２５でＮＯ）、トピック更新部２１０は、トピックを更新する（ステップＣ２６）。その後、処理は、ステップＣ２へ戻る。

上述した本実施形態における第１の効果は、第１の実施形態の効果に加えて、学習用テキスト集合１０１にトピックが与えられていない場合であっても、より精度が高いトピック別言語モデル１０６を作成（学習）することが可能になる点である。

その理由は、トピック更新条件が成立した場合に、トピック更新部２１０がトピックを更新するからである。

＜＜＜第３の実施形態＞＞＞
次に、本発明の第３の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。

図１１は、本発明の第３の実施形態に係る単語分割システム３０の構成を示すブロック図である。図１１に示すように、本実施形態における単語分割システム３０は、トピック候補決定部３０７及び単語分割部３０８を含む。

＝＝＝トピック候補決定部３０７＝＝＝
トピック候補決定部３０７は、分割対象テキスト集合１０２に含まれるテキストのそれぞれが取りうるトピックの候補である、トピック候補を決定する。

＝＝＝単語分割部３０８＝＝＝
単語分割部３０８は、そのトピック候補のそれぞれに対応するトピック対応言語モデル１０６６のそれぞれに基づいて、その分割対象テキストについて、尤度が最も高くなるように単語分割を実行する。次に、単語分割部３０８は、それらのトピック対応言語モデル１０６６のそれぞれに対応するそれらの単語分割の結果の内、最も高いその尤度に対応する単語分割の結果を、その分割対象テキストの単語分割結果８２０として出力する。

単語分割システム３０は、単語分割システム１０と同様に、図５に示すコンピュータ７００によって実現されてよい。

この場合、ＣＰＵ７０１は、その読み込んだプログラムに従って、またその読み込んだデータに基づいて、トピック候補決定部３０７及び単語分割部３０８として、各種の処理を実行する。また、ここで、そのプログラムは、例えば、後述の図１２に示すフローチャートの動作をコンピュータ７００に実行させるためのプログラムである。

記憶部７０２、記憶装置７０３、入力部７０４、出力部７０５及び通信部７０６は、トピック候補決定部３０７及び単語分割部３０８の一部として含まれてよい。

図１２は、本実施形態の動作を示すフローチャートである。尚、このフローチャートによる処理は、前述したＣＰＵ７０１によるプログラム制御に基づいて、実行されてよい。また、処理のステップ名については、「Ｄ１」のように、記号で記載する。

単語分割システム３０は、図５に示す入力部７０４を介して操作者から指示（例えば、分割対象テキスト集合１０２の指定）を受けたことを契機に、図１２に示すフローチャートの動作を開始する。また、単語分割システム３０は、図５に示す通信部７０６を介して、外部からの要求（例えば、分割対象テキスト集合１０２の指定を含む）を受信したことを契機に、図１２に示すフローチャートの動作を開始してもよい。

トピック候補決定部３０７は、分割対象テキスト集合１０２の指定に基づいて、分割対象テキスト集合１０２を取得し、入力として受け付ける（ステップＤ１）。

例えば、トピック候補決定部３０７は、図５に示す記憶部７０２或いは記憶装置７０３に予め記憶されている、分割対象テキスト集合１０２を取得する。また、トピック候補決定部３０７は、図５に示す入力部７０４を介して操作者が入力した、分割対象テキスト集合１０２を取得してもよい。また、トピック候補決定部３０７は、図５に示す通信部７０６を介して図示しない機器から、分割対象テキスト集合１０２を受信してもよい。また、トピック候補決定部３０７は、図５に示す記憶装置７０３を介して、記録媒体７０７に記録された分割対象テキスト集合１０２を取得してもよい。

次に、トピック候補決定部３０７は、分割対象テキストのそれぞれが取りうるトピックを特定し、特定したトピックをトピック候補として決定する（ステップＤ４）。

次に、単語分割部３０８は、そのトピック候補のトピック毎に、トピック別言語モデル１０６においてそのトピックに対応する統計量に基づいて、最尤単語分割を実行する（ステップＤ５）。

例えば、トピック別言語モデル１０６は、図５に示す記憶部７０２或いは記憶装置７０３に、予め記憶されていてよい。また、単語分割部３０８は、図５に示す入力部７０４を介して操作者が入力した、トピック別言語モデル１０６を取得してもよい。また、単語分割部３０８は、図５に示す通信部７０６を介して図示しない機器から、トピック別言語モデル１０６を受信してもよい。また、単語分割部３０８は、図５に示す記憶装置７０３を介して、記録媒体７０７に記録されたトピック別言語モデル１０６を取得してもよい。

次に、単語分割部３０８は、分割対象テキストのそれぞれについて、トピックのそれぞれに対応する単語分割結果における最尤単語分割の尤度が、最も高い単語分割結果をその分割対象テキストの単語分割結果８２０として出力する（ステップＤ６）。

例えば、単語分割部３０８は、単語分割結果８２０を図５に示す出力部７０５を介して出力する。また、単語分割部３０８は、図５に示す通信部７０６を介して、図示しない機器に単語分割結果８２０を送信してもよい。また、単語分割部３０８は、図５に示す記憶装置７０３を介して、記録媒体７０７に単語分割結果８２０を記録してもよい。

その理由は、以下のような構成を含むからである。即ち、第１に、単語分割部３０８が、トピック別言語モデル１０６を用いて、トピック候補決定部３０７が決定したトピック候補に対応する統計量により単語分割を実行する。第２に、単語分割部３０８が、分割対象テキストのそれぞれについて、トピックのそれぞれに対応する最尤単語分割の尤度が、最も高い単語分割結果をその分割対象テキストの単語分割結果８２０として出力する。

以上の各実施形態で説明した各構成要素は、必ずしも個々に独立した存在である必要はない。例えば、複数個の任意のその構成要素が１個のモジュールとして実現されてよい。また、その構成要素の内の任意のひとつが複数のモジュールで実現されてもよい。また、その構成要素の内の任意のひとつがその構成要素の内の任意の他のひとつであってよい。また、その構成要素の内の任意のひとつの一部と、その構成要素の内の任意の他のひとつの一部とが重複してもよい。

以上説明した各実施形態における各構成要素及び各構成要素を実現するモジュールは、必要に応じ、可能であれば、ハードウエア的に実現されてよい。また、各構成要素及び各構成要素を実現するモジュールは、コンピュータ及びプログラムで実現されてよい。また、各構成要素及び各構成要素を実現するモジュールは、ハードウエア的なモジュールとコンピュータ及びプログラムとの混在により実現されてもよい。

そのプログラムは、例えば、磁気ディスクや半導体メモリなど、コンピュータが読み取り可能な非一時的記録媒体に記録され、コンピュータに提供される。そして、そのプログラムは、コンピュータの立ち上げ時などに、非一時的記録媒体からコンピュータに読み取られる。この読み取られたプログラムは、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施形態における構成要素として機能させる。

また、以上説明した各実施形態では、複数の動作をフローチャートの形式で順番に記載してあるが、その記載の順番は複数の動作を実行する順番を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の順番は内容的に支障のない範囲で変更することができる。

更に、以上説明した各実施形態では、複数の動作は個々に相違するタイミングで実行されることに限定されない。例えば、ある動作の実行中に他の動作が発生してよい。また、ある動作と他の動作との実行タイミングが部分的に乃至全部において重複してもよい。

更に、以上説明した各実施形態では、ある動作が他の動作の契機になるように記載しているが、その記載はある動作と他の動作との関係を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の関係は内容的に支障のない範囲で変更することができる。また各構成要素の各動作の具体的な記載は、各構成要素の各動作を限定するものではない。このため、各構成要素の具体的な各動作は、各実施形態を実施する上で機能的、性能的、その他の特性に対して支障を来さない範囲内で変更されてよい。

以上、各実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得るさまざまな変更をすることができる。

本発明は、さまざまな自然言語処理及び事前言語処理の前処理などに適用できる。

１０単語分割システム
２０単語分割システム
３０単語分割システム
９０情報処理システム
１００テキスト集合
１０１学習用テキスト集合
１０２分割対象テキスト集合
１０３入力受付部
１０４トピック設定部
１０５言語モデル作成部
１０６トピック別言語モデル
１０７トピック候補決定部
１０８単語分割部
１０９出力部
２０４トピック設定部
２０５言語モデル作成部
２１０トピック更新部
３０７トピック候補決定部
３０８単語分割部
７００コンピュータ
７０１ＣＰＵ
７０２記憶部
７０３記憶装置
７０４入力部
７０５出力部
７０６通信部
７０７記録媒体
８２０単語分割結果
９０２ネットワーク
９０３端末
９０４記憶装置
１０２２テストデータ
１０６６トピック対応言語モデル

Claims

分割対象テキストが取りうるトピックの候補であるトピック候補を決定するトピック候補決定手段と、
前記トピックのそれぞれに対応するトピック対応言語モデルを含むトピック別言語モデルの、前記トピック候補に対応する前記トピック対応言語モデルのそれぞれに基づいて前記分割対象テキストの単語分割を実行し、前記トピック対応言語モデルのそれぞれに対応する単語分割の結果の内、尤度に関する所定の条件を満たす単語分割の結果を、前記分割対象テキストの単語分割結果として出力する単語分割手段と、を含む
情報処理システム。
言語モデルを学習するためのテキストである学習用テキストに、第１のトピックを設定するトピック設定手段と、
前記第１のトピックに対応する前記トピック別言語モデルを学習する言語モデル作成手段と、を更に含み、
前記トピック候補決定手段は、前記トピック別言語モデルに基づいて、前記トピック候補を決定する
請求項１記載の情報処理システム。
前記分割対象テキストと前記学習用テキストとが同一である
請求項２記載の情報処理システム。
前記言語モデル作成手段が、予め設定されたトピック更新条件が成立したと、判断した場合に、前記第１のトピックに対応する前記トピック別言語モデルと前記トピック別言語モデルに対応する前記単語分割結果とに基づいて、前記学習用テキストに対する第２のトピックを推定し、前記第２のトピックで前記第１のトピックを更新するトピック更新手段を更に含む、
請求項２または３記載の情報処理システム。
前記言語モデル作成手段は、
前記学習用テキストのそれぞれを、前記第１のトピックのそれぞれに対応するトピック対応言語モデルを用いたサンプリングにより単語分割を実行する処理と、前記単語分割処理の結果に基づいて前記トピック対応言語モデルを更新する処理と、を繰り返すことで前記トピック別言語モデルを学習し、
前記学習用テキストの所定分に対して文字列分割サンプリング処理を実行し、かつ、前記トピック別言語モデルの作成の終了条件を満たさない場合に、トピック更新条件が成立したと、判断する
請求項４に記載の情報処理システム。
前記トピックは、任意の、テキスト分類で分類対象となるカテゴリ、前記カテゴリに依存するトピック及びトピックモデルで解析したトピックである
請求項１乃至５のいずれか１項に記載の単語分割装置。
前記トピック候補決定手段は、複数の前記トピックを重み付きで混合したものを前記トピック候補として決定する
請求項１乃至６のいずれか１項に記載の単語分割装置。
前記トピック設定手段は、前記学習用テキストに複数の前記トピックを重み付きで設定する
請求項２乃至６のいずれか１項に記載の単語分割装置。
コンピュータが、
分割対象テキストが取りうるトピックの候補であるトピック候補を決定し、
前記トピックのそれぞれに対応するトピック対応言語モデルを含むトピック別言語モデルの、前記トピック候補に対応する前記トピック対応言語モデルのそれぞれに基づいて前記分割対象テキストの単語分割を実行し、
前記トピック対応言語モデルのそれぞれに対応する単語分割の結果の内、尤度に関する所定の条件を満たす単語分割の結果を、前記分割対象テキストの単語分割結果として出力する
言語処理方法。
分割対象テキストが取りうるトピックの候補であるトピック候補を決定し、
前記トピックのそれぞれに対応するトピック対応言語モデルを含むトピック別言語モデルの、前記トピック候補に対応する前記トピック対応言語モデルのそれぞれに基づいて前記分割対象テキストの単語分割を実行し、
前記トピック対応言語モデルのそれぞれに対応する単語分割の結果の内、尤度に関する所定の条件を満たす単語分割の結果を、前記分割対象テキストの単語分割結果として出力する処理をコンピュータに実行させる
プログラム。