JP2016110172A - 情報処理システム、言語処理方法及びそのためのプログラム - Google Patents
情報処理システム、言語処理方法及びそのためのプログラム Download PDFInfo
- Publication number
- JP2016110172A JP2016110172A JP2014243698A JP2014243698A JP2016110172A JP 2016110172 A JP2016110172 A JP 2016110172A JP 2014243698 A JP2014243698 A JP 2014243698A JP 2014243698 A JP2014243698 A JP 2014243698A JP 2016110172 A JP2016110172 A JP 2016110172A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- word
- division
- language model
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】 分割対象テキストを、その分割対象テキストのトピックを特徴付ける単位で、分割できない。【解決手段】 分割対象テキストが取りうるトピックの候補であるトピック候補を決定する手段と、それらのトピックのそれぞれに対応するトピック対応言語モデルを含むトピック別言語モデルの、それらのトピック候補に対応するトピック対応言語モデルのそれぞれに基づいてその分割対象テキストの単語分割を実行し、そのトピック対応言語モデルのそれぞれに対応する単語分割の結果の内、尤度に関する所定の条件を満たす単語分割の結果を、その分割対象テキストの単語分割結果として出力する単語分割手段と、を含む。【選択図】 図11
Description
本発明は、自然言語処理に関し、特に、基本要素の列であるテキストを任意の数の基本要素から成る構成要素に分割する技術に関する。
自然言語処理では、一般的に、テキストを単語やフレーズ等の構成要素に分割し、分割した構成要素を単位として処理が行われる。ここで、テキストが基本要素を文字とする場合、構成要素は単語または「単語と同等の単位」である。また、テキストが基本要素をスペースで区切られた塊(いわゆる単語)とする場合、構成要素は、単語及び複数の単語からなるフレーズなどである。
例えば、テキストマイニングは、あるテキスト集合において特徴的な単語やフレーズなどの構成要素を分析するタスクである。また、一般的なテキスト分類では、テキストをbag−of−words(テキストを構成する単語の集合)とみなし、単語を手掛かりに分類が行われる。
従って、自然言語処理において、テキストを構成要素に分割することは基本的で重要な処理である。テキストを構成要素に分割することは、日本語や中国語などのように、分かち書きされない言語において重要なことは明白である。更に、英語などの分かち書きされる(スペースで単語を区切る)言語においても、例えば「hot spring」など、複数要素(複数単語)をひとつの処理単位(構成要素)とすべき場合が多々ある。そのため、その後の処理に適した構成要素に分割する処理は、あらゆる言語において重要な処理である。
以降では、説明を分かりやすくするため、基本要素を文字、構成要素を単語とし、基本要素列を構成要素に分割する処理を単語分割と呼ぶ。
例えば、特許文献1及び非特許文献1は、与えられたテキスト集合において単語分割した結果の単語列の、尤度が最大になる単語分割を、ギブスサンプリングで求める。単語列の尤度は、N−gram言語モデルに基づいて計算される。言語モデルは、単語の出現に関する確率を算出するモデルである。例えば、1−gram言語モデルは、ある単語が出現する確率を算出することができる。2−gram言語モデルは、ある単語の次にある単語が出現する確率を算出することができる。これらの確率に基づき、単語列の出現確率も求めることができる。
Sharon Goldwater, Thomas L. Griffiths, Mark Johnson "Contextual Dependencies in Unsupervised Word Segmentation", ACL-44 Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics, pp.673-680, COLING/ACL 2006, 2006.
単語分割は、分割対象テキストのトピックを特徴付ける単位での実行を求められる場合が多々ある。ここで、トピックとは、テキストの話題や分野のことである。例えば、自然言語処理においてトピックモデル((pLSI(Probabilistic Latent Semantic Indexing)や、LDA(Latent Dirichlet Allocation)など)で対象としている「トピック」が、その一例である。pLSIについては、「Thomas Hofmann, "Probabilistic Latent Semantic Indexing", pp. 289-296, UAI 1999, 1999.」に記載されている。また、LDAについては、「David M. Blei, Andrew Y. Ng, Michael I. Jordan, "Latent Dirichlet Allocation", pp.993-1022, Journal of Machine Learning Research, Vol. 3, 2003.」に記載されている。
この種のトピックは話題を表すが、話題とは別の、テキストの分類軸をトピックと捉えてもよい。例えば、テキスト分類で分類対象となるカテゴリをトピックと捉えてもよい。例えば、レビュー文の評価極性分類において、レビュー文が高い評価を示すカテゴリ「ポジティブ」と低い評価を示すカテゴリ「ネガティブ」とに分類される際、それらのカテゴリをトピックとみなしてよい。また、口コミが「不満」と「要望」とに分類される際、それら(「不満」、「要望」)をカテゴリ、即ちトピックと、みなしてもよい、
例えば、図2に示すテキスト集合100に対して、大量破壊兵器に関するテキストとそれ以外のテキストに分類するテキスト分類を行う場合を例に説明する。図2は、テキスト集合100の一例を示す図である。
例えば、図2に示すテキスト集合100に対して、大量破壊兵器に関するテキストとそれ以外のテキストに分類するテキスト分類を行う場合を例に説明する。図2は、テキスト集合100の一例を示す図である。
テキスト分類は、一般的に単語を分類の手掛かりにして実行される。従って、トピック「大量破壊兵器」を特徴付ける単語「ABC兵器」は、一単語とされるべきである。その理由は、以下の通りである。仮に、「ABC兵器」が「ABC」と「兵器」、「ABCマート」が「ABC」と「マート」、「海上兵器」が「海上」と「兵器」に分割されてしまったとする。この場合、「ABC」や「兵器」が大量破壊兵器以外のトピックを持つテキストにも出現し、有効な手掛かりとならない場合があるからである。
また、例えば、経済に関するテキスト集合に対してテキストマイニングを行う場合は、トピック「経済」を特徴付ける単語「国内総生産」は、一単語とされるべきである。その理由は、以下の通りである。テキストマイニングは、特定文書に対して特徴的な単語を分析するタスクである。そのため、「国内総生産」が「国内」と「総生産」に分割されてしまうと、それらの単語は、トピック「経済」に特徴的な単語とならない、従って、テキストマイニングでは特徴的な単語「国内総生産」を分析できないため、マイニング結果が悪くなってしまう。
しかしながら、特許文献1及び非特許文献1に開示される技術は、分割対象テキスト毎のトピックを考慮せずに、与えられたテキスト集合において尤度を最大にする単語分割を行う技術である。そのため、特許文献1及び非特許文献1に開示される技術においては、分割対象テキストを、その分割対象テキストのトピックを特徴付ける単位で、分割できない場合があるという問題点がある。例えば、特許文献1の言語モデル作成装置が、図2のテキストを単語分割する場合、図2のテキストを一括りに扱う。この場合、「ABC」の後に「兵器」以外の文字列が出現するため、「ABC兵器」が一単語になる確率が低くなり、従って「ABC」と「兵器」とがまとまらない可能性が高くなる。
本発明の目的は、上述した問題点を解決できる情報処理システム、言語処理方法及びそのためのプログラムを提供することにある。
本発明の一様態における情報処理システムは、分割対象テキストが取りうるトピックの候補であるトピック候補を決定するトピック候補決定手段と、前記トピックのそれぞれに対応するトピック対応言語モデルを含むトピック別言語モデルの、前記トピック候補に対応する前記トピック対応言語モデルのそれぞれに基づいて前記分割対象テキストの単語分割を実行し、前記トピック別言語モデルのそれぞれに対応する単語分割の結果の内、尤度に関する所定の条件を満たす単語分割を、前記分割対象テキストの単語分割結果として出力する単語分割手段と、を含む。
本発明の一様態における言語処理方法は、コンピュータが、分割対象テキストが取りうるトピックの候補であるトピック候補を決定し、前記トピックのそれぞれに対応するトピック対応言語モデルを含むトピック別言語モデルの、前記トピック候補に対応する前記トピック対応言語モデルのそれぞれに基づいて前記分割対象テキストの単語分割を実行し、前記トピック別言語モデルのそれぞれに対応する単語分割の結果の内、尤度に関する所定の条件を満たす単語分割の結果を、前記分割対象テキストの単語分割結果として出力する。
本発明の一様態におけるプログラムは、分割対象テキストが取りうるトピックの候補であるトピック候補を決定し、前記トピックのそれぞれに対応するトピック対応言語モデルを含むトピック別言語モデルの、前記トピック候補に対応する前記トピック対応言語モデルのそれぞれに基づいて前記分割対象テキストの単語分割を実行し、前記トピック別言語モデルのそれぞれに対応する単語分割の結果の内、尤度に関する所定の条件を満たす単語分割の結果を前記分割対象テキストの単語分割結果として出力する処理をコンピュータに実行させる。
本発明は、分割対象のテキストのトピックを特徴付ける単位で、より好適に単語分割を実行することが可能になるという効果がある。
本発明を実施するための形態について図面を参照して詳細に説明する。尚、各図面及び明細書記載の各実施形態において、同様の構成要素には同様の符号を付与し、適宜説明を省略する。
<<<第1の実施形態>>>
図1は、本発明の第1の実施形態に係る単語分割システム(情報処理システムとも呼ばれる)10の構成を示すブロック図である。図1に示すように、本実施形態に係る単語分割システム10は、入力受付部103、トピック設定部104、言語モデル作成部105、トピック候補決定部107、単語分割部108及び出力部109を含む。
図1は、本発明の第1の実施形態に係る単語分割システム(情報処理システムとも呼ばれる)10の構成を示すブロック図である。図1に示すように、本実施形態に係る単語分割システム10は、入力受付部103、トピック設定部104、言語モデル作成部105、トピック候補決定部107、単語分割部108及び出力部109を含む。
図1に示す各構成要素は、ハードウエア単位の回路でも、マイクロチップに含まれるモジュールでも、コンピュータ装置の機能単位に分割された構成要素でもよい。ここでは、図1に示す構成要素が、コンピュータ装置の機能単位に分割された構成要素であるものとして説明する。尚、図1に示す単語分割システム10は、あるサーバに実装され、ネットワークを介して利用可能にされてよいし、図1に示す各構成要素がネットワーク上に分散して設置されて利用可能にされてもよい。
===入力受付部103===
入力受付部103は、学習データである学習用テキスト集合101と、テストデータである分割対象テキスト集合102とを入力として受け付ける。次に、入力受付部103は、学習用テキスト集合101をトピック設定部104に、分割対象テキスト集合102をトピック候補決定部107に出力する。
入力受付部103は、学習データである学習用テキスト集合101と、テストデータである分割対象テキスト集合102とを入力として受け付ける。次に、入力受付部103は、学習用テキスト集合101をトピック設定部104に、分割対象テキスト集合102をトピック候補決定部107に出力する。
学習用テキスト集合101は、単語分割を行う際に使用する言語モデルを、学習するためのデータ(学習用テキストの集合)である。分割対象テキスト集合102は、単語分割対象となるテキスト(分割対象テキストとも呼ばれる)の集合である。尚、学習用テキスト集合101及び分割対象テキスト集合102のいずれも、正しい単語分割の情報を与えられていない。
学習用テキスト集合101及び分割対象テキスト集合102は、前述した通り、例えば、基本要素を文字とした文字列の集合、或いは基本要素をスペースで区切られた塊(いわゆる単語)とした単語列の集合である。
学習用テキスト集合101及び分割対象テキスト集合102に含まれる、テキストのそれぞれの全て或いは一部は、トピックを付与されていてよい。このトピックは人手で決定されたトピックであってよいし、pLSIやLDA等のトピックモデルで解析された結果のトピックであってもよい。
また、それらのテキストのそれぞれは、トピック設定部104がトピックを設定する際や、トピック候補決定部107がトピック候補を決定する際などに、手掛かりとなる情報が付与されていてもよい。手掛かりとなる情報は、例えば、テキスト分類で分類対象となるようなテキストのカテゴリ情報である。
また、学習用テキスト集合101と分割対象テキスト集合102とは区別されなくても(同一であっても)よい。つまり、単語分割を行う際に使う言語モデルを学習するためのデータでかつ、単語分割対象となるテキストの集合となる分割対象テキスト集合102だけが用意されてもよい。この場合、入力受付部103は、分割対象テキスト集合102を受け取り、トピック設定部104及びトピック候補決定部107のそれぞれに分割対象テキスト集合102を出力してよい。その場合の構成や動作は、以降の説明における学習用テキスト集合101を、分割対象テキスト集合102に置き換えたものとなる。
===テキスト集合100===
図2は、本実施形態におけるテキスト集合100の一例を示す図である。図2に示すように、テキスト集合100は、任意の数のテキストとそのテキストのそれぞれに対応するトピックとを含む。テキスト集合100は、学習用テキスト集合101であり得るし、分割対象テキスト集合102でもあり得る。図2に示すように、テキスト集合100は、4つのテキストを含み、それらのテキストそれぞれにトピック(「大量破壊兵器」或いは「大量破壊兵器以外」)を付与されている。
図2は、本実施形態におけるテキスト集合100の一例を示す図である。図2に示すように、テキスト集合100は、任意の数のテキストとそのテキストのそれぞれに対応するトピックとを含む。テキスト集合100は、学習用テキスト集合101であり得るし、分割対象テキスト集合102でもあり得る。図2に示すように、テキスト集合100は、4つのテキストを含み、それらのテキストそれぞれにトピック(「大量破壊兵器」或いは「大量破壊兵器以外」)を付与されている。
===トピック設定部104===
トピック設定部104は、学習用テキスト集合101に含まれるテキストのそれぞれに対して、トピックを設定する。次に、トピック設定部104は、トピックを設定されたテキストを含む学習用テキスト集合101を、言語モデル作成部105に出力する。
トピック設定部104は、学習用テキスト集合101に含まれるテキストのそれぞれに対して、トピックを設定する。次に、トピック設定部104は、トピックを設定されたテキストを含む学習用テキスト集合101を、言語モデル作成部105に出力する。
例えば、トピック設定部104は、学習用テキスト集合101中の学習用テキストの内、トピック設定部104が受け取った時点でトピックが付与されている学習用テキストにはそのトピックを設定する。例えば、図2に示すテキスト集合100が学習用テキスト集合101として入力された場合、トピック設定部104は、左2つの文書の学習用テキストにはトピック「大量破壊兵器」を設定する。そして、トピック設定部104は、右2つの文書の学習用テキストにはトピック「大量破壊兵器以外」を設定する。
トピック設定部104は、トピックが付与されていない学習用テキストには、pLSIやLDA等のトピックモデルで解析してトピックを設定してもよい。
或いは、学習用テキスト集合101にトピックを設定する際の手掛かりとなる情報が学習用テキストに付与されていれば、トピック設定部104は、その情報に基づいてトピックを設定してもよい。例えば、学習用テキスト集合101にカテゴリ情報が付与されている場合、トピック設定部104は、カテゴリ情報からトピックを抽出する技術を用いて、そのカテゴリ情報を生み出すようなトピックを設定してもよい。ここで、カテゴリ情報は、テキスト分類で分類対象となるような、テキストのカテゴリ情報である。カテゴリ情報からトピックを抽出する技術については、「David M. Blei, Jon D. McAuliffe, "Supervised topic models", pp.121-128, NIPS, 2008.」に記載されている。
また、各学習用テキストのトピックをひとつに限定する必要はなく、1つの学習用テキストに複数のトピックが設定されてもよい。1つの学習用テキストに複数のトピックを設定する場合、トピック設定部104は、トピックを確率分布や混合比などと共に設定してもよい。確率分布は、例えば、「ある学習用テキストはトピックAが0.2、トピックBが0.8の確率で構成されている」という情報である。また、混合比は、例えば、「ある学習用テキストはトピックAとBとCが1:2:3の比で構成されている」という混合比である。確率分布や混合比などは、一般的に、「重み」とも呼ばれる。これらの情報は、例えば、その学習用テキストをトピックモデルLDAで解析した結果として、取得することができる。
===言語モデル作成部105===
言語モデル作成部105は、トピック設定部104の出力を受け取り、各学習用テキストのトピックに基づいてトピック別の言語モデル(トピック別言語モデル106)を作成(学習)する。例えば、図2に示すテキスト集合100が学習用テキスト集合101として入力された場合、言語モデル作成部105は、左2つの文書の学習用テキストからトピック「大量破壊兵器」の言語モデル(統計量)を学習する。そして、言語モデル作成部105は、右2つの文書の学習用テキストからトピック「大量破壊兵器以外」の言語モデル(統計量)を学習する。言語モデル作成部105は、作成したトピック別言語モデル106をトピック候補決定部107に出力する。
言語モデル作成部105は、トピック設定部104の出力を受け取り、各学習用テキストのトピックに基づいてトピック別の言語モデル(トピック別言語モデル106)を作成(学習)する。例えば、図2に示すテキスト集合100が学習用テキスト集合101として入力された場合、言語モデル作成部105は、左2つの文書の学習用テキストからトピック「大量破壊兵器」の言語モデル(統計量)を学習する。そして、言語モデル作成部105は、右2つの文書の学習用テキストからトピック「大量破壊兵器以外」の言語モデル(統計量)を学習する。言語モデル作成部105は、作成したトピック別言語モデル106をトピック候補決定部107に出力する。
言語モデル作成部105は、例えば以下のように、特許文献1に開示された技術を利用して実現することができる。第1に、言語モデル作成部105は、特許文献1の図2に示される、パラメータ読み込み部、文選択部、文字列分割パターン作成部、確率計算部、文字列分割パターン選択部、言語モデル更新部、収束判定部及び出力処理部を含む。第2に、言語モデル作成部105は、特許文献1における言語モデル及び確率テーブルをトピック毎に管理する。第3に、言語モデル作成部105は、特許文献1の図5に示される処理フローから「最尤単語分割の計算」を除いた処理を、文字列データ中の各テキストのトピックに対応する言語モデルと確率テーブルとを使用して実現する。即ち、本実施形態は、特許文献1の言語モデル作成装置が作成するような言語モデルを、トピック別に作成する。
学習用テキストに設定されたトピックが複数のトピックの混合である場合、言語モデル作成部105は、それらトピックへの混合比を確率的に求め、その確率にしたがった統計量を使い、トピック毎の言語モデルや確率テーブルなどを学習する。例えば、ある学習用テキストがトピックAに0.2、トピックBに0.8の確率で関連しているものとする。この場合、言語モデル作成部105は、その学習用テキストの統計量×0.2をトピックAの言語モデル及び確率テーブルに反映し、その学習用テキストの統計量×0.8をトピックBの言語モデル及び確率テーブルに反映する。こうすることで、言語モデル作成部105は、トピックAとトピックBのそれぞれについて、言語モデル及び確率テーブルを学習する。
図3は、本実施形態におけるトピック別言語モデル106の一例を示す図である。トピック別言語モデル106は、図3に示すようにトピック毎のトピック対応言語モデル1066の集合(例えば、学習用テキスト集合101内のトピックの数だけ言語モデルのファイルが存在)であってよい。また、トピック別言語モデル106は、トピック毎に統計量が管理された、ひとつの言語モデルのファイルであってもよい。
===トピック候補決定部107===
トピック候補決定部107は、入力受付部103から分割対象テキスト集合102と言語モデル作成部105の出力を受け取る。次に、トピック候補決定部107は、分割対象テキスト集合102の各分割対象テキストが取りうるトピックを特定する。次に、トピック候補決定部107は、特定したトピックをトピック候補として決定する。次に、トピック候補決定部107は、決定したトピック候補を分割対象テキスト集合102に添えてトピック別言語モデル106と共に単語分割部108に出力する。
トピック候補決定部107は、入力受付部103から分割対象テキスト集合102と言語モデル作成部105の出力を受け取る。次に、トピック候補決定部107は、分割対象テキスト集合102の各分割対象テキストが取りうるトピックを特定する。次に、トピック候補決定部107は、特定したトピックをトピック候補として決定する。次に、トピック候補決定部107は、決定したトピック候補を分割対象テキスト集合102に添えてトピック別言語モデル106と共に単語分割部108に出力する。
例えば、トピック候補決定部107は、分割対象テキスト集合102中のテキストの内、トピック候補決定部107が受け取った時点でトピックが付与されている分割対象テキストについてはそのトピックをトピック候補として決定する。例えば、図2に示すテキスト集合100が分割対象テキスト集合102として入力された場合、トピック候補決定部107は、左2つの文書の分割対象テキストについてはトピック「大量破壊兵器」をトピック候補とする。同様に、トピック候補決定部107は、右2つの文書の分割対象テキストについてはトピック「大量破壊兵器以外」をトピック候補とする。
また、トピック候補決定部107は、トピックが付与されていない分割対象テキストには、例えば、pLSIやLDA等のトピックモデルで解析してトピックを生成し、そのトピックをトピック候補として決定してもよい。或いは、トピック候補決定部107は、トピックを設定する際の手掛かりとなる情報が付与されていれば、その情報に基づいてトピックを生成し、そのトピックをトピック候補として決定してもよい。
図4は、本実施形態における分割対象テキスト集合102の一例であるテストデータ1022を示す図である。図4に示すように、テストデータ1022は、分割対象テキストのみを含み、トピックを付与されていない。
例えば、トピック候補決定部107は、分割対象テキスト集合102に上述のようなカテゴリ情報が付与されている場合、前述のカテゴリ情報からトピックを抽出する技術を用いて、そのカテゴリ情報を生み出すようなトピックを生成してよい。そして、トピック候補決定部107は、生成したそのトピックをトピック候補として決定してもよい。
また、各分割対象テキストのトピック候補をひとつに限定する必要はなく、1つの分割対象テキストに可能性のあるトピック候補が複数設定されてもよい。例えば、トピック候補決定部107は、何も情報がない場合、トピック別言語モデル106に管理されている全てのトピックを、分割対象テキストそれぞれのトピック候補とする。
例えば、図2に示すテキスト集合100が学習用テキスト集合101として入力され、「大量破壊兵器」と「X国」との2種類のトピックに対応するトピック別言語モデル106が作成されたとする。ここに、図4に示すテストデータ1022が分割対象テキスト集合102として入力された場合、トピック候補決定部107は、テストデータ1022のトピック候補を「大量破壊兵器」と「X国」の2つとする。
また、各分割対象テキストのトピック候補は、前述のトピック設定部104が設定するトピックと同様に、複数トピックの混合で表されてもよい。例えば、トピック候補決定部107は、テストデータ1022について、トピック「大量破壊兵器」に0.7、トピック「X国」に0.3の混合比で混合したものをトピック候補のひとつとしてもよい。
===単語分割部108===
単語分割部108は、トピック候補決定部107の出力を受け取る。次に、単語分割部108は、トピック候補決定部107が決定したトピック候補のトピック毎に、トピック別言語モデル106においてそのトピックに対応する統計量に基づいて、最も尤度が高い単語分割(最尤単語分割)を実行する。その統計量は、そのトピックに対応するトピック対応言語モデル1066で示される。
単語分割部108は、トピック候補決定部107の出力を受け取る。次に、単語分割部108は、トピック候補決定部107が決定したトピック候補のトピック毎に、トピック別言語モデル106においてそのトピックに対応する統計量に基づいて、最も尤度が高い単語分割(最尤単語分割)を実行する。その統計量は、そのトピックに対応するトピック対応言語モデル1066で示される。
次に、単語分割部108は、その単語分割の結果を、尤度と共に出力部109に出力する。即ち、単語分割部108は、トピック候補が複数ある場合、トピック候補の数だけ尤度と単語分割結果のペアを出力する。例えば、図4に示すテストデータ1022の分割対象テキストのトピック候補が「大量破壊兵器」と「大量破壊兵器以外」の2つであった場合、単語分割部108は、トピック毎に最尤単語分割を行い、尤度と共に出力を行う。例えば、トピック「大量破壊兵器」に関する最尤単語分割を行う場合、単語分割部108は、トピック別言語モデル106の中のトピック「大量破壊兵器」に関する統計量(言語モデル)を用いて単語分割を行う。
尚、単語分割部108は、上述の例(最尤単語分割)に限らず、尤度に関する所定の条件を満たす単語分割を行ってもよい。所定の条件は、例えば、「上位l(lは予め定められた値)番目の尤度を持つ単語分割」や、「上位l(lは予め定められた値)番目以上の尤度を持つ複数の単語分割」や、「所定の閾値以上の尤度を持つ単語分割」などである。
単語分割部108は、あるトピックtについての最尤単語分割を例えば以下のように、特許文献1に開示された技術を利用して実現してよい。第1に、単語分割部108は、特許文献1の図2に示される、最尤単語分割計算部を含む。第2に、単語分割部108は、トピックtのトピック対応言語モデル1066を特許文献1の言語モデルとして、トピックtに対応する統計量を用いて、特許文献1の図5に示される処理フローの「最尤単語分割の計算」を実行する。具体的には、単語分割部108は、ビタビアルゴリズムにより、トピックtに対応する言語モデルに基づいて分割対象テキスト中の部分単語列の確率を計算しながら、最も高い確率となる単語列を求めることができる。そして、ビタビアルゴリズムでは最も尤度が高い単語分割結果に対する尤度も計算されるため、単語分割部108は、その尤度と共に最尤単語分割を求めることができる。
また、単語候補が複数のトピックの混合である場合、単語分割部108は、それらトピックへの混合比を確率的に求め、その確率にしたがった統計量(言語モデル)を使うことで単語分割を実現できる。例えば、ある分割対象テキストがトピックAに0.2、トピックBに0.8の確率で関連している場合、単語分割部108は、ある単語列Wの確率を次の式により計算する。単語列Wの確率=トピックAのトピック対応言語モデル1066における単語列Wの確率×0.2+トピックBのトピック対応言語モデル1066における単語列Wの確率×0.8。
===出力部109===
出力部109は、単語分割部108の出力結果を受け取る。次に、出力部109は、分割対象テキストのそれぞれについて、トピックのそれぞれに対応する最尤単語分割の尤度が、最も高い単語分割結果をその分割対象テキストの単語分割結果820として出力する。
出力部109は、単語分割部108の出力結果を受け取る。次に、出力部109は、分割対象テキストのそれぞれについて、トピックのそれぞれに対応する最尤単語分割の尤度が、最も高い単語分割結果をその分割対象テキストの単語分割結果820として出力する。
尚、出力部109は、上述の例(最尤単語分割)に限らず、尤度に関する所定の条件を満たす単語分割を分割結果820として出力してもよい。所定の条件は、例えば、「上位l(lは予め定められた値)番目の尤度を持つ単語分割」や、「上位l(lは予め定められた値)番目以上の尤度を持つ複数の単語分割」や、「所定の閾値以上の尤度を持つ単語分割」などである。
以上が、単語分割システム10の機能単位の各構成要素についての説明である。
次に、本実施形態をコンピュータで実現する場合のハードウエア単位の構成要素について、説明する。
図5は、本実施形態における単語分割システム10を実現するコンピュータ700のハードウエア構成を示す図である。
図5に示すように、コンピュータ700は、CPU(Central Processing Unit)701、記憶部702、記憶装置703、入力部704、出力部705及び通信部706を含む。更に、コンピュータ700は、外部から供給される記録媒体(または記憶媒体)707を含む。例えば、記録媒体707は、情報を非一時的に記憶する不揮発性記録媒体(非一時的記録媒体)である。また、記録媒体707は、情報を信号として保持する、一時的記録媒体であってもよい。
CPU701は、オペレーティングシステム(不図示)を動作させて、コンピュータ700の全体の動作を制御する。例えば、CPU701は、記憶装置703に装着された記録媒体707から、そのプログラムやデータを読み込み、読み込んだそのプログラムやそのデータを記憶部702に書き込む。ここで、そのプログラムは、例えば、後述の図6及び図7に示すフローチャートの動作をコンピュータ700に実行させるためのプログラムである。
そして、CPU701は、その読み込んだプログラムに従って、またその読み込んだデータに基づいて、図1に示す入力受付部103、トピック設定部104、言語モデル作成部105、トピック候補決定部107、単語分割部108及び出力部109として各種の処理を実行する。
尚、CPU701は、通信網(不図示)に接続される外部コンピュータ(不図示)から、記憶部702にそのプログラムやそのデータをダウンロードしてもよい。
記憶部702は、そのプログラムやそのデータを記憶する。記憶部702は、記憶部702は、学習用テキスト集合101、分割対象テキスト集合102、トピック別言語モデル106及び単語分割結果820などを記憶してよい。記憶部702は、入力受付部103、トピック設定部104、言語モデル作成部105、トピック候補決定部107、単語分割部108及び出力部109の一部として含まれてよい。
記憶装置703は、例えば、光ディスクや、フレキシブルディスク、磁気光ディスク、外付けハードディスク半導体メモリなどであって、記録媒体707を含む。記憶装置703(記録媒体707)は、そのプログラムをコンピュータ読み取り可能に記憶する。また、記憶装置703は、そのデータを記憶してもよい。記憶装置703は、学習用テキスト集合101、分割対象テキスト集合102、トピック別言語モデル106及び単語分割結果820などを記憶してよい。記憶装置703は、入力受付部103、トピック設定部104、言語モデル作成部105、トピック候補決定部107、単語分割部108及び出力部109の一部として含まれてよい。
入力部704は、オペレータによる操作の入力や外部からの情報の入力を受け付ける。入力操作に用いられるデバイスは、例えば、マウスや、キーボード、内蔵のキーボタン及びタッチパネルなどである。入力部704は、入力受付部103及び出力部109の一部として含まれてよい。
出力部705は、例えばディスプレイで実現される。出力部705は、例えばGUI(GRAPHICAL User Interface)によるオペレータへの入力要求や、オペレータに対する出力提示などのために用いられる。出力部705は、入力受付部103及び出力部109の一部として含まれてよい。
通信部706は、外部装置(不図示)とのインタフェースを実現する。通信部706は、入力受付部103及び出力部109の一部として含まれてよい。
以上説明したように、図1に示す単語分割システム10の機能単位の各構成要素は、図5に示すハードウエア構成のコンピュータ700によって実現される。但し、コンピュータ700が備える各部の実現手段は、上記に限定されない。すなわち、コンピュータ700は、物理的に結合した1つの装置により実現されてもよいし、物理的に分離した2つ以上の装置を有線または無線で接続し、これら複数の装置により実現されてもよい。
尚、上述のプログラムのコードを記録した記録媒体707が、コンピュータ700に供給される場合、CPU701は、記録媒体707に格納されたそのプログラムのコードを読み出して実行してもよい。或いは、CPU701は、記録媒体707に格納されたそのプログラムのコードを、記憶部702、記憶装置703またはその両方に格納してもよい。すなわち、本実施形態は、コンピュータ700(CPU701)が実行するそのプログラム(ソフトウエア)を、一時的にまたは非一時的に、記憶する記録媒体707の実施形態を含む。尚、情報を非一時的に記憶する記憶媒体は、不揮発性記憶媒体とも呼ばれる。
以上が、本実施形態における単語分割システム10を実現するコンピュータ700の、ハードウエア単位の各構成要素についての説明である。
次に本実施形態の動作について、図面を参照して詳細に説明する。
図6及び図7は、本実施形態の動作を示すフローチャートである。尚、このフローチャートによる処理は、前述したCPU701によるプログラム制御に基づいて、実行されてよい。また、処理のステップ名については、「A1」のように、記号で記載する。
単語分割システム10は、図5に示す入力部704を介して操作者から指示(例えば、学習用テキスト集合101及び分割対象テキスト集合102の指定)を受けたことを契機に、図6に示すフローチャートの動作を開始する。また、単語分割システム10は、図5に示す通信部706を介して外部からの要求(例えば、学習用テキスト集合101及び分割対象テキスト集合102の指定を含む)を受信したことを契機に、図6に示すフローチャートの動作を開始してもよい。
入力受付部103は、学習用テキスト集合101及び分割対象テキスト集合102の指定に基づいて、学習用テキスト集合101及び分割対象テキスト集合102を取得し、入力として受け付ける(ステップA1)。
例えば、入力受付部103は、図5に示す記憶部702或いは記憶装置703に予め記憶されている、学習用テキスト集合101及び分割対象テキスト集合102を取得する。また、入力受付部103は、図5に示す入力部704を介して操作者が入力した、学習用テキスト集合101及び分割対象テキスト集合102を取得してもよい。また、入力受付部103は、図5に示す通信部706を介して図示しない機器から、学習用テキスト集合101及び分割対象テキスト集合102を受信してもよい。また、入力受付部103は、図5に示す記憶装置703を介して、記録媒体707に記録された学習用テキスト集合101及び分割対象テキスト集合102を取得してもよい。
次に、トピック設定部104は、学習用テキスト集合101に含まれる学習用テキストのそれぞれに対して、トピックを設定する(ステップA2)。
次に、言語モデル作成部105は、設定されたそれらのトピック毎の言語モデルを含む、トピック別言語モデル106を作成(学習)する(ステップA3)。
次に、トピック候補決定部107は、分割対象テキスト集合102に含まれる分割対象テキストのそれぞれが取りうるトピックを特定し、特定したトピックをトピック候補として決定する(ステップA4)。
次に、単語分割部108は、そのトピック候補のトピック毎に、トピック別言語モデル106においてそのトピックに対応する統計量に基づいて、分割対象テキストのそれぞれに対して最尤単語分割を実行する(ステップA5)。
次に、出力部109は、それらの分割対象テキストのそれぞれについて、トピックのそれぞれに対応する単語分割結果における最尤単語分割の尤度が、最も高い単語分割結果をその分割対象テキストの単語分割結果820として出力する(ステップA6)。
例えば、出力部109は、単語分割結果820を図5に示す出力部705を介して出力する。また、出力部109は、図5に示す通信部706を介して、図示しない機器に単語分割結果820を送信してもよい。また、出力部109は、図5に示す記憶装置703を介して、記録媒体707に単語分割結果820を記録してもよい。
図7は、図6に示すフローチャートのステップA3の動作を詳細に示すフローチャートである。
言語モデル作成部105は、ステップA2で設定されたトピックのそれぞれについて、ステップC1からステップC7の処理を繰り返す(ステップC0)。
ステップC1、C2、C3、C4、C5及びC7のそれぞれの動作は、特許文献1の図2に示される、「文字列データの読み込み」、「文字列分割サンプリング処理」、「言語モデルの更新」、「全ての文字列を分割?」、「収束?」及び「言語モデルの出力」の動作と同等である。尚、「文字列分割サンプリング処理」は、言語モデル(本実施形態においてはトピック対応言語モデル1066に対応する)を用いたサンプリングにより単語分割を実行する処理である。また、「言語モデルの更新」は、その単語分割処理の結果に基づいて言語モデル(本実施形態においてはトピック対応言語モデル1066に対応する)を更新する処理である。上述の各処理は、特許文献1を参照することで容易に理解可能であるため、詳細な説明を省略する。
言語モデル作成部105は、ステップA2で設定されたトピックの全てについて、ステップC1からステップC7の処理を実行した場合、処理を終了する(ステップC8)。
以上の動作により、単語分割システム10は、分割対象の分割対象テキスト集合102に含まれる分割対象テキストのトピックを特徴付ける構成要素の単位で、その分割対象テキストの単語分割を実行する。
例えば、図2に示すテキスト集合100が学習用テキスト集合101として、図4に示すテストデータ1022が分割対象テキスト集合102として、入力されたとする。この場合、言語モデル作成部105は、図2の左から2つの文書により、トピック「大量破壊兵器」のトピック対応言語モデル1066を学習する。そこでは、「ABC」という文字列の後には必ず「兵器」が出現するため、言語モデル作成部105は、「ABC兵器」が一単語になる確率が高くなるトピック対応言語モデル1066を学習する。そして、単語分割部108は、そのトピック対応言語モデル1066に基づいて単語分割を実行する。このため、「ABC兵器」が含まれる図4のテストデータ1022はトピック「大量破壊兵器」のもとでの分割の尤度が高くなり、出力部109は、最終的な分割結果としてトピック「大量破壊兵器」の単語分割結果820を選択する。即ち、トピック「大量破壊兵器」に特徴的な「ABC兵器」が一単語としてまとまる。
上述した本実施形態における効果は、分割対象のテキストのトピックを特徴付ける単位で、より好適に単語分割を実行することが可能になる点である。
その理由は、以下のような構成を含むからである。即ち、第1に、トピック設定部104により設定された各学習用テキストのトピックに基づいて、言語モデル作成部105がトピック別言語モデル106を作成する。第2に、単語分割部108が、トピック別言語モデル106を用いて、トピック候補決定部107が決定したトピック候補に対応する統計量により単語分割を実行する。第3に、出力部109が、分割対象テキストのそれぞれについて、トピックのそれぞれに対応する最尤単語分割の尤度が、最も高い単語分割結果をその分割対象テキストの単語分割結果820として出力する。
具体的には、本実施形態の効果は、分割対象テキストのトピックを特徴付ける単位でその分割対象テキストを分割したい場合により顕著である。
例えば、テキスト分類で分類対象となるカテゴリやそれらのカテゴリに依存するトピックなどを、本実施形態のトピックとして利用することにより、分類対象となるカテゴリを特徴付ける単位で分割対象テキストの分割を行うことができる。この分割により切り出された塊(単語や単語相当)は、テキスト分類に有効な手掛かりとなるため、テキスト分類を行う際の形態素解析手法やチャンカ―としてより有効である。
また、テキストマイニング対象となっているテキストの分野やそれらのテキストの分野に依存するトピックなどを、本実施形態のトピックとして利用することにより、マイニング対象の分野特有の単語を分割された1単語としてまとめることができる。
この分割により、先行技術文献に開示される分割手法などでは複数単語に分かれしまい、マイニングされなかった特徴(単語)を、マイニングすることができる。
この分割により、先行技術文献に開示される分割手法などでは複数単語に分かれしまい、マイニングされなかった特徴(単語)を、マイニングすることができる。
<<<第1の実施形態の変形例>>>
図8は、第1の実施形態の変形例である情報処理システム90の構成を示すブロック図である。図8に示すように、情報処理システム90は、図1に示す単語分割システム10の構成要素である、入力受付部103、トピック設定部104、言語モデル作成部105、トピック候補決定部107及び単語分割部108を含む。更に、情報処理システム90は、端末903及び記憶装置904を含む。
図8は、第1の実施形態の変形例である情報処理システム90の構成を示すブロック図である。図8に示すように、情報処理システム90は、図1に示す単語分割システム10の構成要素である、入力受付部103、トピック設定部104、言語モデル作成部105、トピック候補決定部107及び単語分割部108を含む。更に、情報処理システム90は、端末903及び記憶装置904を含む。
入力受付部103、トピック設定部104、言語モデル作成部105、トピック候補決定部107、単語分割部108、端末903及び記憶装置904は、ネットワーク902を介して接続される。尚、入力受付部103、トピック設定部104、言語モデル作成部105、トピック候補決定部107、単語分割部108、端末903及び記憶装置904の任意の組み合わせは、1台の図5に示すようなコンピュータ700であってよい。また、入力受付部103、トピック設定部104、言語モデル作成部105、トピック候補決定部107、単語分割部108、端末903及び記憶装置904の任意のいずれかどうしは、ネットワーク902を介することなく直接接続されてもよい。即ち、入力受付部103、トピック設定部104、言語モデル作成部105、トピック候補決定部107、単語分割部108、端末903及び記憶装置904は、任意に、ネットワーク902を介して接続されてよい。
===端末903===
端末903は、単語分割システム10構成要素である出力部109を含む。
端末903は、単語分割システム10構成要素である出力部109を含む。
===記憶装置904===
記憶装置904は、学習用テキスト集合101、分割対象テキスト集合102、トピック別言語モデル106及び単語分割結果820を記憶する。
記憶装置904は、学習用テキスト集合101、分割対象テキスト集合102、トピック別言語モデル106及び単語分割結果820を記憶する。
上述した本実施形態における変形例の効果は、情報処理システム90の構築を、即ち単語分割システム10の構築を、柔軟に実現することが可能になる点である。
その理由は、入力受付部103、トピック設定部104、言語モデル作成部105、トピック候補決定部107、単語分割部108、端末903及び記憶装置904を、任意に、ネットワーク902を介して接続するからである。
<<<第2の実施形態>>>
次に、本発明の第2の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
次に、本発明の第2の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
図9は、本発明の第2の実施形態に係る単語分割システム20の構成を示すブロック図である。
図9に示すように、本実施形態における単語分割システム20は、第1の実施形態の単語分割システム10と比べて、トピック更新部210を更に含む点が異なる。また、単語分割システム20は、第1の実施形態の単語分割システム10と比べて、トピック設定部104に替えてトピック設定部204を、言語モデル作成部105に替えて言語モデル作成部205を、含む点が異なる。
===トピック設定部204===
トピック設定部204は、図1に示すトピック設定部104によるトピック設定方法に加え、トピック設定部204が学習用テキスト集合101を受け取った時点でトピックが付与されていない学習用テキストに、ランダムにトピックを設定してもよい。図1に示すトピック設定部104と異なり、トピック設定部204がランダムにトピックを設定してもよい理由は、後述するトピック更新部210を含むからである。つまり、この時点でトピック設定部204が不適切なトピックを付与したとしても、トピック更新部210が適切なトピックに変更(更新)するからである。
トピック設定部204は、図1に示すトピック設定部104によるトピック設定方法に加え、トピック設定部204が学習用テキスト集合101を受け取った時点でトピックが付与されていない学習用テキストに、ランダムにトピックを設定してもよい。図1に示すトピック設定部104と異なり、トピック設定部204がランダムにトピックを設定してもよい理由は、後述するトピック更新部210を含むからである。つまり、この時点でトピック設定部204が不適切なトピックを付与したとしても、トピック更新部210が適切なトピックに変更(更新)するからである。
===言語モデル作成部205===
言語モデル作成部205は、図1に示す言語モデル作成部105の動作に加えて、以下の動作を実行する。
言語モデル作成部205は、図1に示す言語モデル作成部105の動作に加えて、以下の動作を実行する。
言語モデル作成部205は、トピック別言語モデル106の作成(学習)途中において、予め定義されたトピック更新条件が成立した場合、その時点でのトピック別言語モデル106と単語分割結果、各学習用テキストのトピックをトピック更新部210に出力する。
トピック更新条件は、例えば、「トピック別言語モデル106の学習が終了しておらず、かつ、学習用テキスト集合101の学習用テキストの内、N(Nは1以上の自然数)個の学習用テキストに対する処理が終わったらトピックを更新する」である。トピック更新条件は、「トピック別言語モデル106の学習が終了しておらず、かつ、M(Mは0を超え、100以下の実数)%の学習用テキストを処理が終わったらトピックを更新する」であってもよい。トピック更新条件は、上述の例に係わらず、任意の適切な条件であってよい。
===トピック更新部210===
トピック更新部210は、言語モデル作成部205の出力を受け取り、受け取った単語分割結果とトピック別言語モデル106とに基づいて学習用テキストのトピック(第2のトピック)を推定する。次に、トピック更新部210は、トピック(第1のトピック)を推定結果(第2のトピック)に更新し、更新した結果を言語モデル作成部205に出力する。
トピック更新部210は、言語モデル作成部205の出力を受け取り、受け取った単語分割結果とトピック別言語モデル106とに基づいて学習用テキストのトピック(第2のトピック)を推定する。次に、トピック更新部210は、トピック(第1のトピック)を推定結果(第2のトピック)に更新し、更新した結果を言語モデル作成部205に出力する。
尚、式1において、Wは学習用テキストを分割した、n個の単語からなる、単語列W=w1 w2 w3 ・・・ wnであり、トピック更新部210の入力として与えられる。また、tはトピック、P(W|t)はトピック別言語モデル106においてトピックtの統計量(言語モデル)を用いて算出した単語列の尤度を表す確率、T^(Tの右横の^は、式1において、Tの上部に記された^を示す)は推定結果のトピックである。トピック更新部210は、式1により学習用テキストのトピックT^を求め、その学習用テキストのトピックをT^に更新する。
トピック更新部210は、学習用テキスト集合101に含まれる学習用テキストの内、任意の適切な学習用テキストを対象に、トピックを更新してよい。例えば、トピック更新部210は、学習用テキスト集合101において人手により正しいトピックが与えられている学習用テキスト以外の、学習用テキストのみを対象に処理を実行してもよい。或いは、トピック更新部210は、トピック設定部204によりランダムにトピックが設定された学習用テキストのみを対象に処理を実行してもよい。
単語分割システム20は、単語分割システム10と同様に、図5に示すコンピュータ700によって実現されてよい。
この場合、CPU701は、その読み込んだプログラムに従って、またその読み込んだデータに基づいて、更に、図9に示すトピック更新部210としても、各種の処理を実行する。同様に、CPU701は、トピック設定部204及び言語モデル作成部205として、各種の処理を実行する。また、ここで、そのプログラムは、例えば、後述の図10に示すフローチャートの動作をコンピュータ700に実行させるためのプログラムである。
次に本実施形態の動作について、図面を参照して詳細に説明する。
本実施形態の動作は、第1の実施形態の動作と比べて、図6に示すステップA3の詳細な動作、即ち図7に示す動作、が異なる。図10は、図6に示すフローチャートのステップA3の、本実施形態における動作を詳細に示すフローチャートである。
ステップC3の次に、言語モデル作成部205は、トピック更新条件が成立したか否かを判定する(ステップC24)。尚、トピック更新条件は、特許文献1の図2に示される条件「全ての文(本実施形態ではテキスト)の文字列を分割?」であってよい。
トピック更新条件が成立していない場合(ステップC24でNO)、処理は、ステップC2へ戻る。
トピック更新条件が成立した場合、言語モデル作成部205は、単語分割が収束したか否かを判定する(ステップC25)。
単語分割が収束した場合(ステップC25でYES)、処理は、ステップC7へ進む。
単語分割が収束していない場合(ステップC25でNO)、トピック更新部210は、トピックを更新する(ステップC26)。その後、処理は、ステップC2へ戻る。
上述した本実施形態における第1の効果は、第1の実施形態の効果に加えて、学習用テキスト集合101にトピックが与えられていない場合であっても、より精度が高いトピック別言語モデル106を作成(学習)することが可能になる点である。
その理由は、トピック更新条件が成立した場合に、トピック更新部210がトピックを更新するからである。
<<<第3の実施形態>>>
次に、本発明の第3の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
次に、本発明の第3の実施形態について図面を参照して詳細に説明する。以下、本実施形態の説明が不明確にならない範囲で、前述の説明と重複する内容については説明を省略する。
図11は、本発明の第3の実施形態に係る単語分割システム30の構成を示すブロック図である。図11に示すように、本実施形態における単語分割システム30は、トピック候補決定部307及び単語分割部308を含む。
===トピック候補決定部307===
トピック候補決定部307は、分割対象テキスト集合102に含まれるテキストのそれぞれが取りうるトピックの候補である、トピック候補を決定する。
トピック候補決定部307は、分割対象テキスト集合102に含まれるテキストのそれぞれが取りうるトピックの候補である、トピック候補を決定する。
===単語分割部308===
単語分割部308は、そのトピック候補のそれぞれに対応するトピック対応言語モデル1066のそれぞれに基づいて、その分割対象テキストについて、尤度が最も高くなるように単語分割を実行する。次に、単語分割部308は、それらのトピック対応言語モデル1066のそれぞれに対応するそれらの単語分割の結果の内、最も高いその尤度に対応する単語分割の結果を、その分割対象テキストの単語分割結果820として出力する。
単語分割部308は、そのトピック候補のそれぞれに対応するトピック対応言語モデル1066のそれぞれに基づいて、その分割対象テキストについて、尤度が最も高くなるように単語分割を実行する。次に、単語分割部308は、それらのトピック対応言語モデル1066のそれぞれに対応するそれらの単語分割の結果の内、最も高いその尤度に対応する単語分割の結果を、その分割対象テキストの単語分割結果820として出力する。
単語分割システム30は、単語分割システム10と同様に、図5に示すコンピュータ700によって実現されてよい。
この場合、CPU701は、その読み込んだプログラムに従って、またその読み込んだデータに基づいて、トピック候補決定部307及び単語分割部308として、各種の処理を実行する。また、ここで、そのプログラムは、例えば、後述の図12に示すフローチャートの動作をコンピュータ700に実行させるためのプログラムである。
記憶部702、記憶装置703、入力部704、出力部705及び通信部706は、トピック候補決定部307及び単語分割部308の一部として含まれてよい。
次に本実施形態の動作について、図面を参照して詳細に説明する。
図12は、本実施形態の動作を示すフローチャートである。尚、このフローチャートによる処理は、前述したCPU701によるプログラム制御に基づいて、実行されてよい。また、処理のステップ名については、「D1」のように、記号で記載する。
単語分割システム30は、図5に示す入力部704を介して操作者から指示(例えば、分割対象テキスト集合102の指定)を受けたことを契機に、図12に示すフローチャートの動作を開始する。また、単語分割システム30は、図5に示す通信部706を介して、外部からの要求(例えば、分割対象テキスト集合102の指定を含む)を受信したことを契機に、図12に示すフローチャートの動作を開始してもよい。
トピック候補決定部307は、分割対象テキスト集合102の指定に基づいて、分割対象テキスト集合102を取得し、入力として受け付ける(ステップD1)。
例えば、トピック候補決定部307は、図5に示す記憶部702或いは記憶装置703に予め記憶されている、分割対象テキスト集合102を取得する。また、トピック候補決定部307は、図5に示す入力部704を介して操作者が入力した、分割対象テキスト集合102を取得してもよい。また、トピック候補決定部307は、図5に示す通信部706を介して図示しない機器から、分割対象テキスト集合102を受信してもよい。また、トピック候補決定部307は、図5に示す記憶装置703を介して、記録媒体707に記録された分割対象テキスト集合102を取得してもよい。
次に、トピック候補決定部307は、分割対象テキストのそれぞれが取りうるトピックを特定し、特定したトピックをトピック候補として決定する(ステップD4)。
次に、単語分割部308は、そのトピック候補のトピック毎に、トピック別言語モデル106においてそのトピックに対応する統計量に基づいて、最尤単語分割を実行する(ステップD5)。
例えば、トピック別言語モデル106は、図5に示す記憶部702或いは記憶装置703に、予め記憶されていてよい。また、単語分割部308は、図5に示す入力部704を介して操作者が入力した、トピック別言語モデル106を取得してもよい。また、単語分割部308は、図5に示す通信部706を介して図示しない機器から、トピック別言語モデル106を受信してもよい。また、単語分割部308は、図5に示す記憶装置703を介して、記録媒体707に記録されたトピック別言語モデル106を取得してもよい。
次に、単語分割部308は、分割対象テキストのそれぞれについて、トピックのそれぞれに対応する単語分割結果における最尤単語分割の尤度が、最も高い単語分割結果をその分割対象テキストの単語分割結果820として出力する(ステップD6)。
例えば、単語分割部308は、単語分割結果820を図5に示す出力部705を介して出力する。また、単語分割部308は、図5に示す通信部706を介して、図示しない機器に単語分割結果820を送信してもよい。また、単語分割部308は、図5に示す記憶装置703を介して、記録媒体707に単語分割結果820を記録してもよい。
上述した本実施形態における効果は、分割対象のテキストのトピックを特徴付ける単位で、より好適に単語分割を実行することが可能になる点である。
その理由は、以下のような構成を含むからである。即ち、第1に、単語分割部308が、トピック別言語モデル106を用いて、トピック候補決定部307が決定したトピック候補に対応する統計量により単語分割を実行する。第2に、単語分割部308が、分割対象テキストのそれぞれについて、トピックのそれぞれに対応する最尤単語分割の尤度が、最も高い単語分割結果をその分割対象テキストの単語分割結果820として出力する。
以上の各実施形態で説明した各構成要素は、必ずしも個々に独立した存在である必要はない。例えば、複数個の任意のその構成要素が1個のモジュールとして実現されてよい。また、その構成要素の内の任意のひとつが複数のモジュールで実現されてもよい。また、その構成要素の内の任意のひとつがその構成要素の内の任意の他のひとつであってよい。また、その構成要素の内の任意のひとつの一部と、その構成要素の内の任意の他のひとつの一部とが重複してもよい。
以上説明した各実施形態における各構成要素及び各構成要素を実現するモジュールは、必要に応じ、可能であれば、ハードウエア的に実現されてよい。また、各構成要素及び各構成要素を実現するモジュールは、コンピュータ及びプログラムで実現されてよい。また、各構成要素及び各構成要素を実現するモジュールは、ハードウエア的なモジュールとコンピュータ及びプログラムとの混在により実現されてもよい。
そのプログラムは、例えば、磁気ディスクや半導体メモリなど、コンピュータが読み取り可能な非一時的記録媒体に記録され、コンピュータに提供される。そして、そのプログラムは、コンピュータの立ち上げ時などに、非一時的記録媒体からコンピュータに読み取られる。この読み取られたプログラムは、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施形態における構成要素として機能させる。
また、以上説明した各実施形態では、複数の動作をフローチャートの形式で順番に記載してあるが、その記載の順番は複数の動作を実行する順番を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の順番は内容的に支障のない範囲で変更することができる。
更に、以上説明した各実施形態では、複数の動作は個々に相違するタイミングで実行されることに限定されない。例えば、ある動作の実行中に他の動作が発生してよい。また、ある動作と他の動作との実行タイミングが部分的に乃至全部において重複してもよい。
更に、以上説明した各実施形態では、ある動作が他の動作の契機になるように記載しているが、その記載はある動作と他の動作との関係を限定するものではない。このため、各実施形態を実施するときには、その複数の動作の関係は内容的に支障のない範囲で変更することができる。また各構成要素の各動作の具体的な記載は、各構成要素の各動作を限定するものではない。このため、各構成要素の具体的な各動作は、各実施形態を実施する上で機能的、性能的、その他の特性に対して支障を来さない範囲内で変更されてよい。
以上、各実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得るさまざまな変更をすることができる。
本発明は、さまざまな自然言語処理及び事前言語処理の前処理などに適用できる。
10 単語分割システム
20 単語分割システム
30 単語分割システム
90 情報処理システム
100 テキスト集合
101 学習用テキスト集合
102 分割対象テキスト集合
103 入力受付部
104 トピック設定部
105 言語モデル作成部
106 トピック別言語モデル
107 トピック候補決定部
108 単語分割部
109 出力部
204 トピック設定部
205 言語モデル作成部
210 トピック更新部
307 トピック候補決定部
308 単語分割部
700 コンピュータ
701 CPU
702 記憶部
703 記憶装置
704 入力部
705 出力部
706 通信部
707 記録媒体
820 単語分割結果
902 ネットワーク
903 端末
904 記憶装置
1022 テストデータ
1066 トピック対応言語モデル
20 単語分割システム
30 単語分割システム
90 情報処理システム
100 テキスト集合
101 学習用テキスト集合
102 分割対象テキスト集合
103 入力受付部
104 トピック設定部
105 言語モデル作成部
106 トピック別言語モデル
107 トピック候補決定部
108 単語分割部
109 出力部
204 トピック設定部
205 言語モデル作成部
210 トピック更新部
307 トピック候補決定部
308 単語分割部
700 コンピュータ
701 CPU
702 記憶部
703 記憶装置
704 入力部
705 出力部
706 通信部
707 記録媒体
820 単語分割結果
902 ネットワーク
903 端末
904 記憶装置
1022 テストデータ
1066 トピック対応言語モデル
Claims (10)
- 分割対象テキストが取りうるトピックの候補であるトピック候補を決定するトピック候補決定手段と、
前記トピックのそれぞれに対応するトピック対応言語モデルを含むトピック別言語モデルの、前記トピック候補に対応する前記トピック対応言語モデルのそれぞれに基づいて前記分割対象テキストの単語分割を実行し、前記トピック対応言語モデルのそれぞれに対応する単語分割の結果の内、尤度に関する所定の条件を満たす単語分割の結果を、前記分割対象テキストの単語分割結果として出力する単語分割手段と、を含む
情報処理システム。 - 言語モデルを学習するためのテキストである学習用テキストに、第1のトピックを設定するトピック設定手段と、
前記第1のトピックに対応する前記トピック別言語モデルを学習する言語モデル作成手段と、を更に含み、
前記トピック候補決定手段は、前記トピック別言語モデルに基づいて、前記トピック候補を決定する
請求項1記載の情報処理システム。 - 前記分割対象テキストと前記学習用テキストとが同一である
請求項2記載の情報処理システム。 - 前記言語モデル作成手段が、予め設定されたトピック更新条件が成立したと、判断した場合に、前記第1のトピックに対応する前記トピック別言語モデルと前記トピック別言語モデルに対応する前記単語分割結果とに基づいて、前記学習用テキストに対する第2のトピックを推定し、前記第2のトピックで前記第1のトピックを更新するトピック更新手段を更に含む、
請求項2または3記載の情報処理システム。 - 前記言語モデル作成手段は、
前記学習用テキストのそれぞれを、前記第1のトピックのそれぞれに対応するトピック対応言語モデルを用いたサンプリングにより単語分割を実行する処理と、前記単語分割処理の結果に基づいて前記トピック対応言語モデルを更新する処理と、を繰り返すことで前記トピック別言語モデルを学習し、
前記学習用テキストの所定分に対して文字列分割サンプリング処理を実行し、かつ、前記トピック別言語モデルの作成の終了条件を満たさない場合に、トピック更新条件が成立したと、判断する
請求項4に記載の情報処理システム。 - 前記トピックは、任意の、テキスト分類で分類対象となるカテゴリ、前記カテゴリに依存するトピック及びトピックモデルで解析したトピックである
請求項1乃至5のいずれか1項に記載の単語分割装置。 - 前記トピック候補決定手段は、複数の前記トピックを重み付きで混合したものを前記トピック候補として決定する
請求項1乃至6のいずれか1項に記載の単語分割装置。 - 前記トピック設定手段は、前記学習用テキストに複数の前記トピックを重み付きで設定する
請求項2乃至6のいずれか1項に記載の単語分割装置。 - コンピュータが、
分割対象テキストが取りうるトピックの候補であるトピック候補を決定し、
前記トピックのそれぞれに対応するトピック対応言語モデルを含むトピック別言語モデルの、前記トピック候補に対応する前記トピック対応言語モデルのそれぞれに基づいて前記分割対象テキストの単語分割を実行し、
前記トピック対応言語モデルのそれぞれに対応する単語分割の結果の内、尤度に関する所定の条件を満たす単語分割の結果を、前記分割対象テキストの単語分割結果として出力する
言語処理方法。 - 分割対象テキストが取りうるトピックの候補であるトピック候補を決定し、
前記トピックのそれぞれに対応するトピック対応言語モデルを含むトピック別言語モデルの、前記トピック候補に対応する前記トピック対応言語モデルのそれぞれに基づいて前記分割対象テキストの単語分割を実行し、
前記トピック対応言語モデルのそれぞれに対応する単語分割の結果の内、尤度に関する所定の条件を満たす単語分割の結果を、前記分割対象テキストの単語分割結果として出力する処理をコンピュータに実行させる
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014243698A JP2016110172A (ja) | 2014-12-02 | 2014-12-02 | 情報処理システム、言語処理方法及びそのためのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014243698A JP2016110172A (ja) | 2014-12-02 | 2014-12-02 | 情報処理システム、言語処理方法及びそのためのプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016110172A true JP2016110172A (ja) | 2016-06-20 |
Family
ID=56124186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014243698A Pending JP2016110172A (ja) | 2014-12-02 | 2014-12-02 | 情報処理システム、言語処理方法及びそのためのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016110172A (ja) |
-
2014
- 2014-12-02 JP JP2014243698A patent/JP2016110172A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11948058B2 (en) | Utilizing recurrent neural networks to recognize and extract open intent from text inputs | |
US20150186362A1 (en) | Personal language model for input method editor | |
US10565520B2 (en) | Feature extraction for machine learning | |
US8301435B2 (en) | Removing ambiguity when analyzing a sentence with a word having multiple meanings | |
CN111736840A (zh) | 小程序应用的编译方法、运行方法、存储介质及电子设备 | |
US11615239B2 (en) | Accuracy of natural language input classification utilizing response delay | |
CN102955773B (zh) | 用于在中文文档中识别化学名称的方法及系统 | |
JP6312467B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN105095304A (zh) | 日志模板生成方法及设备 | |
US11080025B2 (en) | Back-end application code stub generation from a front-end application wireframe | |
US20190213249A1 (en) | Intelligent Copy and Paste | |
US20240152700A1 (en) | List-based entity name detection | |
CN111435362A (zh) | 用于生成相关响应的对抗性训练数据增强 | |
US20210390258A1 (en) | Systems and methods for identification of repetitive language in document using linguistic analysis and correction thereof | |
JP6563350B2 (ja) | データ分類装置、データ分類方法、及びプログラム | |
JP7096199B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6191440B2 (ja) | スクリプト管理プログラム、スクリプト管理装置及びスクリプト管理方法 | |
CN112181429A (zh) | 信息处理方法、装置以及电子设备 | |
CN112087473A (zh) | 文档下载方法、装置、计算机可读存储介质和计算机设备 | |
US9910846B2 (en) | Conversion device and conversion method | |
JP2016110172A (ja) | 情報処理システム、言語処理方法及びそのためのプログラム | |
JP4735958B2 (ja) | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム | |
JP7247593B2 (ja) | 生成装置、ソフトウェアロボットシステム、生成方法及び生成プログラム | |
US20220004717A1 (en) | Method and system for enhancing document reliability to enable given document to receive higher reliability from reader | |
KR20210146832A (ko) | 토픽 키워드의 추출 장치 및 방법 |