JP6257076B2 - Information processing apparatus, information processing method, and information processing program - Google Patents
Information processing apparatus, information processing method, and information processing program Download PDFInfo
- Publication number
- JP6257076B2 JP6257076B2 JP2013273479A JP2013273479A JP6257076B2 JP 6257076 B2 JP6257076 B2 JP 6257076B2 JP 2013273479 A JP2013273479 A JP 2013273479A JP 2013273479 A JP2013273479 A JP 2013273479A JP 6257076 B2 JP6257076 B2 JP 6257076B2
- Authority
- JP
- Japan
- Prior art keywords
- gram
- word
- words
- latent variable
- latent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 22
- 238000003672 processing method Methods 0.000 title claims description 5
- 238000009826 distribution Methods 0.000 claims description 84
- 238000000034 method Methods 0.000 claims description 74
- 238000012552 review Methods 0.000 description 28
- 238000000605 extraction Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 12
- 230000000052 comparative effect Effects 0.000 description 11
- 238000007781 pre-processing Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。 The present invention relates to an information processing apparatus, an information processing method, and an information processing program.
nグラム(n−gram(nは整数))の抽出は、対象となる文書データをn単語単位でモデル化を行い、このモデル化の結果として可能となるものである。例えば、非特許文献1には、ベイズ理論に基づく階層構造の確率モデルを基本として、nグラム抽出を行うことが記載されている。
非特許文献1に示されるモデルでは、階層クラスにより、文書からトピックの潜在変数を取得し、トピックから単語の確率変数を取得している。また、非特許文献1に示されるモデルでは、以前の単語と以前のトピックとから次の単語間の状態を取得し、次の単語間の状態から、次の単語の確率変数を取得している。このようにして、非特許文献1では、連続するn単語からなるnグラムを抽出する。
Extraction of n-grams (n-gram (n is an integer)) is made possible by modeling target document data in units of n words and as a result of this modeling. For example, Non-Patent
In the model shown in Non-Patent
しかしながら、非特許文献1に示されるモデルでは、トピックの潜在変数の数を予め決定しておく必要がある。また、非特許文献1に示されるモデルでは、最適な単語数のnグラムを抽出することが難しい。このように、nグラムを抽出するときの利便性が十分でないという問題があった。
However, in the model shown in Non-Patent
上述の課題を鑑みてなされたものであり、本発明は、nグラムを抽出するときの利便性を向上させることができる情報処理装置、情報処理方法、情報処理プログラムを提供することを課題とする。 This invention is made in view of the above-mentioned subject, and this invention makes it a subject to provide the information processing apparatus, the information processing method, and information processing program which can improve the convenience at the time of extracting n-gram. .
(1)本発明は、上述した課題を解決するためになされたもので、本発明の一態様は、分類装置であって、確率分布から潜在変数の数K(Kは整数)を決定し、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定部と、前記潜在変数推定部で推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定部と、を備えることを特徴とする分類装置である。 (1) The present invention has been made in order to solve the above-described problems, and one aspect of the present invention is a classification apparatus, which determines the number K of latent variables (K is an integer) from a probability distribution, a latent variable estimator for estimating a latent variable for extracting words of n (n is an integer) gram, and for each latent variable estimated by the latent variable estimator, n gram words or n gram words And a word estimation unit for estimating an appearance probability.
(2)本発明の一態様は、分類装置であって、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定部と、確率分布からnグラムの単語の数を決定し、前記潜在変数推定部で推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定部と、を備えることを特徴とする分類装置である。 (2) One aspect of the present invention is a classification device, a latent variable estimation unit for estimating a latent variable for extracting n (n is an integer) gram words, and the number of n gram words from a probability distribution And a word estimation unit for estimating the appearance probability of an n-gram word or an n-gram word for each latent variable estimated by the latent variable estimation unit. .
(3)本発明の一態様は、上述のいずれかの分類装置であって、前記潜在変数推定部は、チャイニーズ・レストラン・プロセスにより、潜在変数の数Kを決定することを特徴とする分類装置である。 (3) One aspect of the present invention is the classification device according to any one of the above, wherein the latent variable estimation unit determines the number K of latent variables by a Chinese restaurant process. It is.
(4)本発明の一態様は、上述のいずれかの分類装置であって、前記単語推定部は、Pitman−Yorプロセスにより、nグラムの単語を推定することを特徴とする分類装置である。 (4) One aspect of the present invention is the classification device according to any one of the above-described classification devices, wherein the word estimation unit estimates n-gram words by a Pitman-Yor process.
(5)本発明の一態様は、上述のいずれかの分類装置であって、前記潜在変数として、トピックを用いることを特徴とする分類装置である。 (5) One aspect of the present invention is any one of the above-described classification apparatuses, wherein a topic is used as the latent variable.
(6)本発明の一態様は、分類方法であって、確率分布から潜在変数の数K(Kは整数)を決定し、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定過程と、前記潜在変数推定過程により推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率の推定を行う単語推定過程と、と有することを特徴とする分類方法である。 (6) One aspect of the present invention is a classification method, wherein the number of latent variables K (K is an integer) is determined from a probability distribution, and latent variables for extracting n (n is an integer) gram words are determined. A latent variable estimation process to be estimated; and a word estimation process for estimating an n-gram word or an appearance probability of the n-gram word for each latent variable estimated by the latent variable estimation process. This is a classification method.
(7)本発明の一態様は、分類方法であって、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定過程と、確率分布からnグラムの単語の数を決定し、前記潜在変数推定過程により推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率の推定を行う単語推定過程と、を有すること特徴とする分類方法である。 (7) One aspect of the present invention is a classification method, a latent variable estimation process for estimating latent variables for extracting n (n is an integer) gram words, and the number of n gram words from a probability distribution For each latent variable estimated by the latent variable estimation process, and a word estimation process for estimating an appearance probability of the n-gram word or the word of the n-gram. .
(8)本発明の一態様は、分類プログラムであって、分類装置のコンピュータに、確率分布から潜在変数の数K(Kは整数)を決定し、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定ステップと、前記潜在変数推定ステップにより推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定テップと、を実行させるための分類プログラムである。 (8) One aspect of the present invention is a classification program, in which a computer of a classification apparatus determines the number of latent variables K (K is an integer) from a probability distribution, and extracts n (n is an integer) gram words A latent variable estimating step for estimating a latent variable for performing, and for each latent variable estimated by the latent variable estimating step, a word estimation step for estimating an n-gram word or an appearance probability of the n-gram word. This is a classification program for execution.
(9)本発明の一態様は、分類プログラムであって、分類装置のコンピュータに、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定ステップと、確率分布からnグラムの単語の数を決定し、前記潜在変数推定ステップにより推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定ステップと、を実行させるための分類プログラムである。 (9) One aspect of the present invention is a classification program, a latent variable estimation step for estimating a latent variable for extracting words of n (n is an integer) gram in a computer of a classification device, and a probability distribution a word estimation step for determining the number of n-gram words and estimating an occurrence probability of the n-gram word or the n-gram word for each latent variable estimated by the latent variable estimation step. Classification program.
本発明によれば、nグラムを抽出するときの利便性を向上させることができる。 According to the present invention, convenience when extracting n-grams can be improved.
<実施形態>
以下、本発明の実施の形態について図面を参照しながら説明する。
図1は、本発明の実施形態に係るグラフィックモデルである。なお、本実施形態におけるシンボルとその定義については、図2に示す通りである。
<Embodiment>
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a graphic model according to an embodiment of the present invention. The symbols and their definitions in this embodiment are as shown in FIG.
ノード11は、パラメータαのノードである。パラメータαは、トピックの数およびトピックを求めるための確率分布を生成するハイパーパラメータ(ディリクレパラメータ)である。
ノード12(潜在変数推定部)は、トピックの潜在変数Zijを求めるノードである。ここで、iは、トークン(単語)の番号であり、jは、文書の番号である。トピックの潜在変数Zijは、j番目のレビュー文書中のi番目のトークンを表す。本実施形態では、トピックの確率分布の生成プロセスとして、チャイニーズ・レストラン・プロセス(Chinese restaurant process)を導入している。チャイニーズ・レストラン・プロセスを導入することで、トピックの数(K(Kは整数))は、予め設定することなく、適切に決定される。
The node 12 (latent variable estimation unit) is a node for obtaining the latent variable Z ij of the topic. Here, i is a token (word) number, and j is a document number. The topic latent variable Z ij represents the i th token in the j th review document. In the present embodiment, a Chinese restaurant process is introduced as a topic probability distribution generation process. By introducing the Chinese restaurant process, the number of topics (K (K is an integer)) is appropriately determined without presetting.
ノード13は、パラメータλのノードである。パラメータλは、レイティングを求めるためのトピックごとの確率分布を生成するコンセントレーション・パラメータである。
ノード14は、レイティングの観測変数vjを求めるノードである。レビュー文書には、当該レビュー文書に付随する付随情報であるメタデータが含まれている。メタデータとは、レビュー文書に対する評価を表す情報、レビュー文書の作成日時を表す情報やレビューデータの閲覧日時を表す情報、レビュー文書の閲覧数の情報などのことである。レイティングは、レビュー文書ごとのメタデータの情報により行われる。各レビュー文書に存在する同じ単語でも、レビュー文書のトピックにより異なる意味となることがある。例えば、「小さい」や「軽い」は、トピックがモバイル装置の場合には肯定的な意味となるが、トピックが果物の場合には否定的な意味となる。ノード14では、トピックごとのメタデータのベータ分布を使って、レビュー文書jごとのレイティングの観測変数vjを求めている。
The
本実施形態では、レイティングを連続値として扱い、レイティングの確率分布として、ベータ分布を用いているが、レイティングを離散値として扱い、レイティングの確率分布として、多項分布を用いてもよい。 In this embodiment, the rating is treated as a continuous value and the beta distribution is used as the rating probability distribution. However, the rating may be treated as a discrete value and the multinomial distribution may be used as the rating probability distribution.
ノード151、152、…、15n−1は、パラメータγ(λ0、λ0、…、λn−1)のノードである。パラメータγ(λ0、λ0、…、λn−1)は、コンセントレーション・パラメータである。
ノード161、162、…、16n−1は、パラメータd(d0、d0、…、dn−1)のノードである。パラメータd(d0、d0、…、dn−1)は、ディスカウント・パラメータである。
Nodes 16 1 , 16 2 ,..., 16 n−1 are nodes of the parameter d (d 0 , d 0 ,..., D n−1 ). The parameter d (d 0 , d 0 ,..., D n−1 ) is a discount parameter.
ノード171、172、…、17n−1は、nグラムの各単語の確率分布G(Gb、Gk、…、Gk u)を求めるノードである。本実施形態において、ノード171、172、…、17n−1は、パラメータγと、パラメータdと、前のパラメータGと、から、ピットマン・ユア(Pitman−Yor)プロセスを階層的に用いて、nグラムの各単語の確率分布を求めている。すなわち、ノード171は、一般の文書集合全体で使われる基本となる確率分布Gbを生成する。ノード172、…、17n−1は、Pitman−Yorプロセスを階層的に用いることで、各確率分布の確率分布により、トピックkのnグラムの各単語の確率分布Gk、…、Gk uを求める。
ノード18(単語推定部)は、ノード12で求められたトピックの潜在変数Zjiと、トピックkごとの各単語の確率分布Gb、Gk、…、Gk uと、からレビュー文書jのトークンiのnグラムの単語の観測変数wjiを求める。ここで、nグラムの単語の数は、Pitman−Yorプロセスを階層的に用い、チャイニーズ・レストラン・プロセスと同様の手法を導入することで、適切に設定される。
Node 18 (word estimator) includes a latent variable Z ji topics determined by the
チャイニーズ・レストラン・プロセスは、ノンパラメトリックのディレクレ・プロセスで使用され、数の区切りを生成する。本実施形態では、このチャイニーズ・レストラン・プロセスを、トピックの事前確率分布として用いている。 The Chinese restaurant process is used in a non-parametric directory process to generate a number separator. In the present embodiment, this Chinese restaurant process is used as a topic prior probability distribution.
チャイニーズ・レストラン・プロセスは、各テーブルが無限数個の座席キャパシティを有する無限数個の円形テーブルを備えたレストランのメタファを使って記述される。テーブルに順に番号が付けられていると仮定し、Ziはi番目の客が座るテーブル(トピック)の番号を示すものとする。店に客が入ると、その客が、誰かが座っているテーブルを選択する可能性は、既に座っている人の数に比例し、誰も座っていないテーブルを選択する可能性は、ある定数パラメータに比例する。すなわち、最初のテーブルに最初の客が座り(Zi=1)、それから、テーブルに座るi番目の客の確率分布は、(1)式に示す通りになる。 The Chinese restaurant process is described using a restaurant metaphor with an infinite number of circular tables, each table having an infinite number of seating capacities. Assume that the tables are numbered sequentially, and Z i indicates the number of the table (topic) where the i-th customer sits. When a customer enters a store, the probability that the customer will choose a table where someone is sitting is proportional to the number of people who are already sitting, and the possibility that a customer will choose a table where no one is sitting is a certain number. Proportional to parameter. That is, the first customer sits at the first table (Z i = 1), and then the probability distribution of the i-th customer sitting at the table is as shown in equation (1).
チャイニーズ・レストラン・プロセスは、レストランでテーブルに座る順番からランダムな区切りを取得する意味で、ディリクレ・プロセスの範疇の確率として記述できる。客は、テーブルを選択して座り、数の区切りを取得する。それは、ディリクレ・プロセスから得られるクラスタ構造と同様のものである。 The Chinese restaurant process can be described as the probability of the Dirichlet process category in the sense of obtaining a random break from the order of sitting at the table in the restaurant. The customer selects the table and sits down to get a number break. It is similar to the cluster structure obtained from the Dirichlet process.
このように、トピックの確率分布の生成プロセスとして、チャイニーズ・レストラン・プロセスを導入することで、トピックの数Kは、予め設定することなく、適切に決定されることになる。 As described above, by introducing the Chinese restaurant process as a process for generating the probability distribution of topics, the number K of topics is appropriately determined without being set in advance.
次に、本実施形態におけるレイティングの推定について説明する。前述したように、本実施形態では、各レビュー文書でのレイティングの観測変数vjを求めるのにベータ分布を使っている。この処理手順は、チャイニーズ・レストラン・プロセスと類似して記述できる。それは、レストランのテーブルに座る客の順番からランダムな区切りを取得する意味において、ディリクレ・プロセスと同様の確率として記述される。 Next, rating estimation in the present embodiment will be described. As described above, in this embodiment, the beta distribution is used to obtain the observation variable v j of the rating in each review document. This processing procedure can be described in a manner similar to the Chinese restaurant process. It is described as a probability similar to the Dirichlet process in the sense of obtaining a random break from the order of customers sitting at a restaurant table.
つまり、もし、トピックZijが、レビュー文書(レストラン)jでのi番目の客により選択されたテーブルのインデックスなら、以下のような分布となる。 That is, if the topic Z ij is an index of a table selected by the i-th customer in the review document (restaurant) j, the distribution is as follows.
この式でのハイパーパラメータαは、補助可変サンプリングにより推定される。単語の提示での次元の減少と、それに対応する評価の決定と、を同時に達成するために、単語と、与えられたレイティングと、がベータ分布を使うトピックを介して結合される。したがって、レイティングの確率vjは、以下のように与えられる。 The hyperparameter α in this equation is estimated by auxiliary variable sampling. Words and given ratings are combined through a topic using a beta distribution to simultaneously achieve dimensionality reduction in word presentation and corresponding rating decisions. Therefore, the rating probability v j is given as follows.
次に、本実施形態におけるnグラムの単語の推定について説明する。前述したように、本実施形態では、nグラムの各単語の確率分布を、Pitman−Yorプロセスを階層的に用いて求めている。Pitman−Yorプロセスを階層的に用いることで、べき乗則をコントロールすることができる。 Next, n-gram word estimation in this embodiment will be described. As described above, in this embodiment, the probability distribution of each word of the n-gram is obtained using the Pitman-Yor process hierarchically. The power law can be controlled by using the Pitman-Yor process hierarchically.
つまり、べき乗則は、二つの量の間の数学上の関係であり、言語学上、ジップの法則として知られている。例えば、十分に大きなコーパスにおいて頻度nwで起こる単語wの確率P(nw)は、以下のように与えられる。 In other words, the power law is a mathematical relationship between two quantities, and is known in linguistics as Zip's law. For example, the probability P (nw) of a word w that occurs at a frequency nw in a sufficiently large corpus is given as follows:
Pitman−Yorプロセスは、ディリクレ・プロセスを定義し、無次元パラメータ空間上の確率分布の確率分布を定義することにより、ベイジアン・フレームワークでのノンパラメトリック推定を行う。Pitman−Yorプロセスは、以下のように示される。 The Pitman-Yor process performs non-parametric estimation in a Bayesian framework by defining a Dirichlet process and defining a probability distribution of a probability distribution on a dimensionless parameter space. The Pitman-Yor process is shown as follows.
ここで、ディスカウント・パラメータdは、べき乗則の性質をコントロールするパラメータとなる。 Here, the discount parameter d is a parameter for controlling the nature of the power law.
上式のPitman−Yorプロセスにおいて、パラメータG0として、確率分布Gbと置き、これにより求められる確率分布をG0として、以下、再帰的に計算を行うことで、これに続くnグラムの各単語の確率分布を求めることができる。 In the Pitman-Yor process of the above equation, the probability distribution G b is set as the parameter G 0 , and the probability distribution obtained thereby is set as G 0. A probability distribution of words can be obtained.
G〜PYP(γ,d,G0)を生成する手続きは、式(1)により、チャイニーズ・レストラン・プロセスのメタファを使って記述できる。パラメータd及びγは、べき乗則をスムージングする効果を生み出す。 The procedure for generating G to PYP (γ, d, G 0 ) can be described using the Chinese restaurant process metaphor according to equation (1). The parameters d and γ produce the effect of smoothing the power law.
つまり、最初のテーブルに最初の客が座り(z1=1)、そして、i番目の客が選択するテーブルは、以下の分布に従う。 That is, the first customer sits at the first table (z 1 = 1), and the table selected by the i-th customer follows the following distribution.
ここで、テーブルの数が、レストランに入っていく客の数と同様に増加するとき、このディスカウント・パラメータは、べき乗則を生み出す。つまり、Pitman−Yorプロセスは、べき乗則分布に従った結果をもたらす。 Here, when the number of tables increases as well as the number of customers entering the restaurant, this discount parameter produces a power law. That is, the Pitman-Yor process yields results that follow a power law distribution.
また、チャイニーズ・レストラン・プロセス手法を導入することで、nグラム連結モデルの単語の数を適切に設定することができる。つまり、本実施形態では、Pitman−yorプロセスを再帰的に用いることにより、nグラムの単語を生成している。nグラムの単語を形成するために、本実施形態では、単語を階層的にサンプルする。 Moreover, the number of words of the n-gram connected model can be set appropriately by introducing the Chinese restaurant process method. That is, in this embodiment, n-gram words are generated by recursively using the Pitman-yor process. In order to form n-gram words, the present embodiment samples words hierarchically.
単語の基本の確率分布Gbは、トピックk=0に割り当てられた基本となる単語のユニグラム(1グラム)の確率ベクトルである。確率分布Gbは、以前の情報を使わずに、一般の文書集合全体で求められた確率分布である。単語の基本の確率分布Gbは、以下のように取得できる。 Probability distribution G b of the basic word is the probability vector of the unigram (1 grams) word underlying assigned to a topic k = 0. The probability distribution Gb is a probability distribution obtained for the entire general document set without using previous information. Probability distribution G b of the basic words, can be obtained as follows.
トピック特有のユニグラムの確率分布は、与えられた単語の基本の確率分布Gb及び現在のトピックkにより取得される。確率分布Gkは、求められた確率分布Gbを、次のパラメータG0として置くことにより取得される。 Probability distribution of topic-specific unigram is acquired by the probability distribution G b and the current topic k of the base of a given word. The probability distribution G k is obtained by placing the obtained probability distribution G b as the next parameter G 0 .
ここで、各トピックのnグラム単語の確率分布を生成するために、各トピックをレストランオーナーとみなす。このことにより、チャイニーズ・レストラン・プロセスは、チャイニーズ・レストラン・フランチャイズ・プロセスに拡張される。 Here, each topic is regarded as a restaurant owner in order to generate a probability distribution of n-gram words for each topic. This extends the Chinese restaurant process to the Chinese restaurant franchise process.
例えば、各単語の確率分布Gk uは、レストラン(単語の番号)uよりインデックスされ 、オーナー(トピック)kにより管理された関連するレストランを有している。ここで、確率分布Gk uは、uに続く条件付きwの確率であり、uは、トピックkでの以前のn−1単語の番号である。このレストランの客は、確率分布Gk uから取り出され、テーブルは、その確率分布の前の基本確率分布から取得され、料理は、単語から取得された値である。 For example, each word probability distribution G k u is indexed by a restaurant (word number) u and has an associated restaurant managed by the owner (topic) k. Here, probability distribution G k u is the probability of conditional w following u, and u is the number of the previous n−1 words in topic k. The restaurant customers are taken from the probability distribution G k u , the table is obtained from the basic probability distribution before the probability distribution, and the dish is the value obtained from the word.
単語の確率の事前確率分布として、Pitman−yorプロセスを再帰的に置いていくことにより、各文書において同じ連続したトピックの割り当てから引き出された各nグラムが定義される。 By placing the Pitman-yor process recursively as a prior probability distribution of word probabilities, each n-gram derived from the same consecutive topic assignment in each document is defined.
式(9)を使って、以前の確率分布Gk uを再帰的に置いていくことで、次の単語の確率分布を取得できる。なお、コンセントレーション・パラメータγ及びディスカウント・パラメータdは、そのフレーズの長さに関係する機能をもつ。この演算は、バックグランドの単語の確率分布Gbが得られるまで繰り返される。 The probability distribution of the next word can be acquired by recursively placing the previous probability distribution G k u using equation (9). The concentration parameter γ and the discount parameter d have a function related to the length of the phrase. This calculation is repeated until a background word probability distribution Gb is obtained.
各レストラン(単語の数)u及び料理(単語)wについて、ck uwl及びtk uwlを、それぞれ、kにより管理されたレストランuでテーブルlに座り料理(単語)wを食している客の数、及び、同じレストランuでkによる提供する料理wのテーブルの数と定義する。限界数を示すことにより、ck ulは、kにより管理されるテーブルlに座る客の数となり、ck uwは、kにより経営されるuでの食された料理wとなり、ck uは、kにより経営されたuの客の数となり、tk uは、kの経営するuのテーブルの数となる。その結果、Gk u、Gk及びGbから取り出された次の単語wは、再帰的に以下のように計算される。 For each restaurant (number of words) u and dishes (words) w, c k uwl and t k uwl are respectively stored in the table u at the restaurant u managed by k and the customers who are eating dishes (words) w And the number of tables of dishes w to be provided by k at the same restaurant u. By indicating the limit number, c k ul is the number of customers sitting in the table l managed by k , c k uw is the eaten dish w in u managed by k , and c k u is , K is the number of customers managed by k , and t k u is the number of u tables managed by k. As a result, the next word w extracted from G k u , G k and G b is recursively calculated as follows.
図2は、本実施形態に係るシンボルの一例を示す説明図である。
図示するように、D(K,W)は、レビュー文書の数(トピックの数、単語の数)を表す。Njは、レビュー文書jでの単語トークンの数を表す。vjは、レビュー文書jに関連数レイティングを表す。zjiは、レビュー文書jにおける位番目のトークンに関連するトピックを表す。wjiは、レビュー文書jにおけるi番目のトークンを表す。uは、単語の順(フレーズ)を表す。u(/)は、単語の順を表す。Gbは、与えられたコーパスでの単語の確率分布を表す。Gkは、トピックkに特有な単語の確率分布を表す。Gk uは、トピックkにおいて、特有な単語uの確率分布を表す。αは、ハイパーパラメータを表す。dnは、ディスカウント・パラメータを表す。γnは、コンセントレーション・パラメータを表す。
FIG. 2 is an explanatory diagram illustrating an example of symbols according to the present embodiment.
As shown in the figure, D (K, W) represents the number of review documents (number of topics, number of words). N j represents the number of word tokens in the review document j. v j represents the association number rating for the review document j. z ji represents the topic associated with the rank token in the review document j. w ji represents the i-th token in the review document j. u represents the order of words (phrase). u (/) represents the order of words. G b represents the probability distribution of words in a given corpus. G k represents a probability distribution of words specific to topic k. G k u represents the probability distribution of a unique word u in topic k. α represents a hyper parameter. d n represents the discount parameters. γ n represents a concentration parameter.
次に、図1に示したようなグラフィックモデルで示される処理について、具体的に説明する。上述のように、本実施形態では、チャイニーズ・レストラン・プロセスを導入して、潜在変数Zjiの数を決定し、Pitman−yorプロセスを階層的に用いることで、nグラム連結モデルの推定を行っている。これらの処理は、ギブスのサンプリングにより実現できる。 Next, the process shown by the graphic model as shown in FIG. 1 will be specifically described. As described above, in the present embodiment, a Chinese restaurant process is introduced, the number of latent variables Z ji is determined, and the Pitman-yor process is used hierarchically to estimate an n-gram connected model. ing. These processes can be realized by Gibbs sampling.
図3は、本実施形態に係る分類システムの構成の一例を示す概略図であり、図4は、分類装置の構成の一例を示す概略ブロック図である。図3に示すように、本発明の実施形態に係るシステムは、ファイルサーバ51と、計算サーバ52と、データベース53と、サービスサーバ54とから構成される。
FIG. 3 is a schematic diagram illustrating an example of the configuration of the classification system according to the present embodiment, and FIG. 4 is a schematic block diagram illustrating an example of the configuration of the classification device. As shown in FIG. 3, the system according to the embodiment of the present invention includes a
ファイルサーバ51は、図4に示すように、計算対象となるレビューデータを保存するデータファイル保存部61を備えている。データファイル保存部61に保存するレビューデータは、インターネット上のブログの文書や、ウェブページの文書などである。また、レビューデータは、メタデータとレビューとが関連付けられた文書データである。なお、計算対象となるレビューデータは、インターネット上の文書に限られるものではない。
As illustrated in FIG. 4, the
計算サーバ52は、ファイルサーバ51から計算対象のレビューデータを取り出し、図1に示したグラフィックモデルで示されるような計算処理を行い、計算結果を出力する。計算サーバ52は、図4に示すように、事前処理部71と計算処理部72を備えている。事前処理部71は、計算処理対象のレビューデータを含むファイルから、単語を抽出する。そして、事前処理部71は、テキストID及び単語IDを付加し、その対応表をファイルシステムに保存する。計算処理部72は、図1に示したグラフィックモデルに対応するような計算処理を行う。
The
データベース53は、図4に示すように、計算結果記憶部81を有している。計算サーバ52の計算処理部72の計算結果は、データベース53に送られ、計算結果記憶部81に保存される。
As shown in FIG. 4, the
サービスサーバ54は、計算結果をサービスの利用のために提供するためのサーバである。図4に示すように、サービスサーバ54は、呼び出し部91を備えている。ユーザ端末55からの呼び出しに応じて、呼び出し部91は、ユーザ端末55に計算結果をユーザ端末55に送る。この計算結果は、商品検索、レビュー検索、マーケティングなど、ユーザからのフィードバックや主観評価などの観測値(例えば、図2の連続値の観測変数vj)を含む文書集合を扱う各種のサービスに利用できる。
The
図5は、計算サーバ52における計算処理の説明の一例を示すフローチャートである。
図5において、まず、計算サーバ52の事前処理部71は、計算対象のテキスト毎に、単語及びメタデータ(作成日時、評価等)を抽出する。そして、事前処理部71は、各テキストにテキストIDを割り振り、各単語に単語IDを割り振る処理を行う(ステップS1)。
つまり、図6のテーブルT1では、最初のレコードのテキストには、「テキストAAAB」が記述され、最後のレコードのテキストには、「テキストXDCFR」が記述されている。最初のレコードのトークン(単語)には、「リンゴ」、「操作性」、「遺産」が記述されている。そして、最後のレコードのトークンには、「音楽」、「芸術」、「リンゴ」が記述されている。
FIG. 5 is a flowchart illustrating an example of description of calculation processing in the
In FIG. 5, first, the
That is, in the table T1 in FIG. 6, “text AAAB” is described in the text of the first record, and “text XDCFR” is described in the text of the last record. In the token (word) of the first record, “apple”, “operability”, and “heritage” are described. In the token of the last record, “music”, “art”, and “apple” are described.
図6のテーブルT2は、このようなデータに対して、ステップS1で、テキストIDと単語IDを割り振る処理を行った場合の例である。図6のテーブルT2では、最初のレコードのテキストには、テキストIDとして「000」が割り振られ、最後のレコードのテキストには、テキストIDとして「086」が割り振られている。また、最初のレコードのトークン(単語)には、「0000」、「0003」、「0120」が単語IDとして割り振られている。そして、最後のレコードのトークンには、「1211234」、「03042」、「0000」が単語IDとして割り振られている。 A table T2 in FIG. 6 is an example in the case where a process of assigning a text ID and a word ID is performed on such data in step S1. In the table T2 of FIG. 6, “000” is assigned as the text ID to the text of the first record, and “086” is assigned as the text ID to the text of the last record. In addition, “0000”, “0003”, and “0120” are assigned as word IDs to tokens (words) of the first record. Then, “12111234”, “03042”, and “0000” are assigned as word IDs to the token of the last record.
次に、計算サーバ52の計算処理部72は、乱数を発生し、その値を確率変数(Z)とする(ステップS2)。図7のテーブルT3は、ステップS2で、テキストIDと単語IDを割り振ったテーブルT2に対して、乱数を発生し、トピックの確率変数(Z)としたものである。つまり、テーブルT3の最初のレコードでは、トピックの確率変数として、乱数「11」、「8」、「3」が入れられている。また、最後のレコードでは、トピックの確率変数として、乱数「2」、「1」、「11」が入れられている。
Next, the
次に、計算サーバ52の計算処理部72は、ギブスサンプリングにより、潜在変数の推定を行う(ステップS3)。そして、サンプリングの数が予め設定されたら、処理を終了する(ステップS4)。これにより、トピックの潜在変数の数を最適に決定してトピックの潜在変数を推定し、推定されたトピックを用いてnグラムを推定することができる。
Next, the
<比較例>
図8は、比較例のグラフィックモデルである。図8において、ノード101は、ハイパーパラメータαのノードである。ハイパーパラメータαは、トピックの確率分布θdを求めるのに用いられる。
ノード102は、文書データ毎に特異なトピックの確率分布θdを求めるノードである。ここで、Dは、文書の数を表し、トピックの確率分布θdは、文書毎に存在するD種類となる。
<Comparative example>
FIG. 8 is a graphic model of a comparative example. In FIG. 8, a
The
ノード1031、…、103i、103i+1、…は、トピックの潜在変数z(z1、…、zi、zi+1、…)を取得するノードである。すなわち、ノード1031、…、103i、103i+1、…は、文書データから、ノード102で求められた文書毎に特異なトピックの確率分布θdに基づき、トピックの潜在変数z1、…、zi、zi+1、…を取得する。ここで、ziは、i番目(iは任意の整数)の単語(トークン:単語の最小単位)に関連するトピックである。
ノード104は、ハイパーパラメータβのノードである。ハイパーパラメータβは、単語の確率分布φを求めるために用いられる。
ノード105は、トピック毎に特異な単語の確率分布φを求めるノードである。トピックの数はZであり、ノード105の単語の確率分布φは、Z種類となる。
The
The
ノード106は、ハイパーパラメータεのノードである。ハイパーパラメータεは、次の単語間状態の確率分布σを求めるために用いられる。
ノード107は、以前の単語と以前のトピック毎に特異な次の単語間状態の確率分布σを求めるためのノードである。なお、次の単語間状態の確率分布σは、(Z×W)種類となる。
The
The
ノード108は、ハイパーパラメータγのノードである。ハイパーパラメータγは、次の単語の確率分布ψを求めるために用いられる。ハイパーパラメータγは、初期値としてランダム値が用いられる。
ノード109は、以前の単語と現在のトピック毎に特異な次の単語の確率分布ψを求めるノードである。ここで、Zは、トピックの数、Wは、単語の数を表し、次の単語の確率分布ψは、(Z×W)種類となる。
The
The
ノード1101、…、110i、110i+1、…は、単語の観測変数を取得するノードである。すなわち、ノード1101、…、110i、110i+1、…は、ノード1031、…、103i、103i+1、…で取得されたトピックz1、…、zi、zi+1、…から、ノード105で求められた単語の確率分布φに基づき、単語の観測変数w1、…、wi、wi+1、…を取得する。また、ノード110i、110i+1、…は、以前の単語と現在のトピックから、ノード109で求められた次単語の確率分布ψに基づき、次の単語の観測変数wi、wi+1、…を取得する。ここで、wiは、i番目(iは任意の整数)の単語を表す。
ノード111i、111i+1、…は、以前の単語と以前のトピックとから、次の単語間の状態を取得するノードである。すなわち、ノード111i、111i+1、…は、ノード1031、…、103i、103i+1…で取得された以前のトピックz1、…、zi、zi+1、…と、ノード1101、…、110i、110i+1、…で取得された以前の単語w1、…、wi、wi+1、…とから、ノード107で求められた次の単語間状態の確率分布σに基づき、次の単語間の状態の潜在変数xi、xi+1、…を取得する。
図8に示すように、比較例では、トピックを潜在変数として用いる場合、トピックの数を予め決めておく必要がある。図8の例では、トピックの数はZであり、この場合、トピック毎に特異な単語の確率分布φとして、Z種類の確率分布が必要になる。また、次の単語の確率分布ψとして、(Z×W)種類の確率分布が必要になる。トピックの数を多くすれば、処理数が増大する。トピックの数を少なくすれば、トピック毎の単語を精度良く推定できない。これに対して、本実施形態では、チャイニーズ・レストラン・プロセスを導入することで、トピックの数を適切に設定できる。 As shown in FIG. 8, in the comparative example, when topics are used as latent variables, the number of topics needs to be determined in advance. In the example of FIG. 8, the number of topics is Z. In this case, Z types of probability distributions are necessary as the probability distribution φ of unique words for each topic. Further, (Z × W) types of probability distributions are required as the probability distribution ψ of the next word. Increasing the number of topics increases the number of processes. If the number of topics is reduced, words for each topic cannot be accurately estimated. On the other hand, in this embodiment, the number of topics can be appropriately set by introducing a Chinese restaurant process.
また、図8に示す比較例では、以前の単語と以前のトピックとから、次の単語間の状態を取得して、次の単語を推定している。この構成は、基本的に、2グラム連結モデルである。図8に示す比較例でn(n>3)グラム抽出を行っても、2グラムモデルを基本とするものとなるため、意味のあるnグラム抽出は行えない。これに対して、本実施形態では、Piyman−Yorプロセスを階層的に導入することでnグラム連結モデルを実現できる。また、チャイニーズ・レストラン・プロセスを拡張して導入することで、nグラム抽出の単語の数を適切に設定できる。 In the comparative example shown in FIG. 8, the state between the next words is acquired from the previous word and the previous topic, and the next word is estimated. This configuration is basically a 2-gram connected model. Even if n (n> 3) gram extraction is performed in the comparative example shown in FIG. 8, it is based on the 2-gram model, so that meaningful n-gram extraction cannot be performed. On the other hand, in this embodiment, an n-gram connection model can be realized by hierarchically introducing the Pyman-Yor process. In addition, by expanding and introducing the Chinese restaurant process, the number of words for n-gram extraction can be set appropriately.
図9は、本実施形態により抽出したフレーズ(2グラム、3グラム)と、比較例により抽出したフレーズ(2グラム、3グラム)とを比較したものである。
ここでは、DVDタイトルと、本のタイトルと、音楽のタイトルとについて、本実施形態により抽出したフレーズと、図8に示した比較例により抽出したフレーズとについて、Precision(適合率)とRecall(再現率)とを比較している。
FIG. 9 compares the phrases (2 grams, 3 grams) extracted according to the present embodiment with the phrases (2 grams, 3 grams) extracted according to the comparative example.
Here, for the DVD title, the book title, and the music title, the phrase extracted by the present embodiment and the phrase extracted by the comparative example shown in FIG. Rate).
ここで、Precisionは、(計算結果の中の正解数/計算結果の数)を示し、Recallは、(計算結果の中の正解数/全ての正解数)を示す。Precisionは、抽出結果中にどれくらい間違った結果が含まれているかの指標となり、Recallは、抽出のとりこぼしがどれくらいあるかの指標となる。基本的に、PrecisionとRecallとは、トレードオフの関係にある。 Here, Precision indicates (number of correct answers in calculation results / number of calculation results), and Recall indicates (number of correct answers in calculation results / number of all correct answers). Precision is an index of how many wrong results are included in the extraction result, and Recall is an index of how much extraction is missed. Basically, Precision and Recall are in a trade-off relationship.
図9に示す結果から、本実施形態では、PrecisionとRecallとの双方について、比較例より、良好な抽出結果が得られることが確認されている。例えば、2グラムの場合、本のタイトルでは、比較例では、Precisionが「0.67」、Recallが「0.60」であったが、本実施形態では、Precisionが「0.87」、Recallが「0.90」となり、PrecisionとRecallとの双方について、良好な抽出結果が得られている。また、3グラムの場合、本のタイトルでは、比較例では、Precisionが「0.46」、Recallが「0.42」であったが、本実施形態では、Precisionが「0.82」、Recallが「0.86」となり、PrecisionとRecallとの双方について、良好な抽出結果が得られている。 From the results shown in FIG. 9, it is confirmed that in this embodiment, a better extraction result can be obtained for both Precision and Recall than the comparative example. For example, in the case of 2 grams, in the book title, the Precision is “0.67” and the Recall is “0.60” in the comparative example, but in the present embodiment, the Precision is “0.87” and the Recall. Becomes “0.90”, and good extraction results are obtained for both Precision and Recall. In the case of 3 grams, in the title of the book, the Precision is “0.46” and the Recall is “0.42” in the comparative example, but in this embodiment, the Precision is “0.82” and the Recall. Becomes “0.86”, and good extraction results are obtained for both Precision and Recall.
このように、本実施形態によれば、分類装置は、確率分布から潜在変数の数K(Kは整数)を自動的に決定し、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定部と、潜在変数推定部で推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定部と、を備える。
これにより、nグラムを抽出するときに予め潜在変数の数(トピックの数)を決めておく必要がなく、潜在変数の数を自動的に決定することができるため、潜在変数の数を適切に設定することができ、nグラムを抽出するときの利便性を向上させることができる。
As described above, according to the present embodiment, the classification device automatically determines the number of latent variables K (K is an integer) from the probability distribution and extracts a word of n (n is an integer) gram. A latent variable estimation unit that estimates a variable, and a word estimation unit that estimates an n-gram word or an appearance probability of the n-gram word for each latent variable estimated by the latent variable estimation unit.
As a result, it is not necessary to determine the number of latent variables (number of topics) in advance when extracting n-grams, and the number of latent variables can be determined automatically. It can be set, and convenience when extracting n-grams can be improved.
また、本実施形態によれば、分類装置は、n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定部と、確率分布からnグラムの単語の数を決定し、潜在変数推定部で推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定部と、を備える。
これにより、nグラムの単語の抽出におけるnを表す単語の数を適切に設定することができ、nグラムを抽出するときの利便性を向上させることができる。
Further, according to the present embodiment, the classification device determines a latent variable estimation unit for estimating a latent variable for extracting n (n is an integer) gram word, and determines the number of n gram words from the probability distribution. A word estimation unit that estimates n-gram words or the appearance probability of the n-gram words for each latent variable estimated by the latent variable estimation unit.
Thereby, the number of words representing n in the extraction of n-gram words can be set appropriately, and convenience when extracting n-grams can be improved.
また、チャイニーズ・レストラン・プロセスを導入することで、トピックを潜在変数として用いてnグラムを推定する場合、トピックの数を予め決めておく必要がなく、トピックの数を適切に設定することができる。また、Piyman−Yorプロセスを階層的に導入することでnグラム連結モデルを実現することができ、また、チャイニーズ・レストラン・プロセスを拡張して導入することで、nグラム抽出の単語の数を適切に設定することができる。 In addition, by introducing a Chinese restaurant process, when n-grams are estimated using topics as latent variables, the number of topics need not be determined in advance, and the number of topics can be set appropriately. . In addition, the n-gram connection model can be realized by hierarchically introducing the Pyman-Yor process, and the number of n-gram extraction words can be appropriately increased by introducing the Chinese restaurant process. Can be set to
なお、上述した実施形態では、nグラムの抽出を、英単語を中心して説明しているが、本発明は、英単語によるnグラムの抽出ばかりでなく、日本語やその他の多言語においても抽出することができる。 In the above-described embodiment, extraction of n-grams is explained mainly with respect to English words. However, the present invention is not limited to extraction of n-grams with English words, but also in Japanese and other multilingual languages. can do.
また、上述した実施形態では、トピックを潜在変数としてnグラムの抽出を行う場合について説明したが、潜在変数はトピックに限定されるものではない。また、トピック以外の潜在変数を用いる場合にも、チャイニーズ・レストラン・プロセスにより、同様にして潜在変数の数を最適に決定することができる。 In the above-described embodiment, the case where n-gram extraction is performed using a topic as a latent variable has been described, but the latent variable is not limited to a topic. Also, when using latent variables other than topics, the number of latent variables can be determined optimally in the same manner by the Chinese restaurant process.
また、本実施形態の計算サーバ52の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムを、コンピュータシステムに読み込ませ、実行することにより、計算サーバ52に係る上述した種々の処理を行ってもよい。
Further, a program for executing each process of the
なお、ここでいう「コンピュータシステム」とは、OSや周辺機器などのハードウェアを含むものであってもよい。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリなどの書き込み可能な不揮発性メモリ、CD−ROMなどの可搬媒体、コンピュータシステムに内蔵されるハードディスクなどの記憶装置のことをいう。 Here, the “computer system” may include an OS and hardware such as peripheral devices. Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used. The “computer-readable recording medium” means a flexible disk, a magneto-optical disk, a ROM, a writable nonvolatile memory such as a flash memory, a portable medium such as a CD-ROM, a hard disk built in a computer system, etc. This is a storage device.
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネットなどのネットワークや電話回線などの通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置などに格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。 Further, the “computer-readable recording medium” refers to a volatile memory (for example, DRAM (Dynamic) in a computer system serving as a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. Random Access Memory)) that holds a program for a certain period of time is also included. The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium.
ここで、プログラムを伝送する「伝送媒体」は、インターネットなどのネットワーク(通信網)や電話回線などの通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。 Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, what is called a difference file (difference program) may be sufficient.
以上、本発明の実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計なども含まれる。 As mentioned above, although embodiment of this invention was explained in full detail with reference to drawings, the concrete structure is not restricted to this embodiment, The design of the range which does not deviate from the summary of this invention, etc. are included.
51 ファイルサーバ
52 計算サーバ
53 データベース
54 サービスサーバ
55 ユーザ端末
61 データファイル保存部
71 事前処理部
72 計算処理部
81 計算結果記憶部
91 呼び出し部
51
Claims (9)
前記潜在変数推定部で推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定部と、
を備えることを特徴とする情報処理装置。 The number of latent variables K (K is an integer) is determined from the probability distribution of unique words for each topic of the sentence in the sentence, and the number of latent variables used to extract n (n is an integer) gram words. A latent variable estimator for estimating K latent variables;
For each latent variable estimated by the latent variable estimation unit, a word estimation unit that estimates an n-gram word or an appearance probability of the n-gram word;
An information processing apparatus comprising:
を特徴とする請求項1に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the latent variable estimation unit determines a number K of the latent variables by a Chinese restaurant process.
文章における前記文章のトピックごとに特異な単語の確率分布からnグラムの単語の数を決定し、前記潜在変数推定部で推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定部と、
を備えることを特徴とする情報処理装置。 a latent variable estimator for estimating a latent variable for extracting words of n (n is an integer) gram;
The number of n-gram words is determined from the probability distribution of unique words for each topic of the sentence in the sentence, and for each latent variable estimated by the latent variable estimation unit, n-gram words or n-gram words are determined. A word estimator for estimating the appearance probability;
An information processing apparatus comprising:
を特徴とする請求項1または請求項3に記載の情報処理装置。 The information processing apparatus according to claim 1, wherein the word estimation unit estimates n-gram words by a Pitman-Yor process.
を特徴とする請求項1から請求項4のいずれか一項に記載の情報処理装置。 The information processing apparatus according to any one of claims 1 to 4, wherein a topic is used as the latent variable.
文章における前記文章のトピックごとに特異な単語の確率分布から潜在変数の数K(Kは整数)を決定し、n(nは整数)グラムの単語を抽出するために用いられる前記潜在変数の数K個の潜在変数を推定する潜在変数推定過程と、
前記潜在変数推定過程により推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率の推定を行う単語推定過程と、
と有することを特徴とする情報処理方法。 Information processing device
The number of latent variables K (K is an integer) is determined from the probability distribution of unique words for each topic of the sentence in the sentence, and the number of latent variables used to extract n (n is an integer) gram words. A latent variable estimation process for estimating K latent variables;
For each latent variable estimated by the latent variable estimation process, a word estimation process for estimating an n-gram word or an appearance probability of the n-gram word;
And an information processing method.
n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定過程と、
文章における前記文章のトピックごとに特異な単語の確率分布からnグラムの単語の数を決定し、前記潜在変数推定過程により推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率の推定を行う単語推定過程と、
を有すること特徴とする情報処理方法。 Information processing device
a latent variable estimation process for estimating a latent variable for extracting words of n (n is an integer) gram;
The number of n-gram words is determined from the probability distribution of unique words for each topic of the sentence in the sentence, and for each latent variable estimated by the latent variable estimation process, n-gram words or n-gram words are determined. A word estimation process for estimating the appearance probability;
An information processing method characterized by comprising:
文章における前記文章のトピックごとに特異な単語の確率分布から潜在変数の数K(Kは整数)を決定し、n(nは整数)グラムの単語を抽出するために用いられる前記潜在変数の数K個の潜在変数を推定する潜在変数推定ステップと、
前記潜在変数推定ステップにより推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定テップと、
を実行させるための情報処理プログラム。 In the computer of the information processing device,
The number of latent variables K (K is an integer) is determined from the probability distribution of unique words for each topic of the sentence in the sentence, and the number of latent variables used to extract n (n is an integer) gram words. A latent variable estimating step for estimating K latent variables;
For each latent variable estimated by the latent variable estimation step, a word estimation step for estimating the occurrence probability of an n-gram word or the n-gram word;
Information processing program to execute.
n(nは整数)グラムの単語を抽出するための潜在変数を推定する潜在変数推定ステップと、
文章における前記文章のトピックごとに特異な単語の確率分布からnグラムの単語の数を決定し、前記潜在変数推定ステップにより推定された潜在変数ごとに、nグラムの単語または当該nグラムの単語の出現確率を推定する単語推定ステップと、
を実行させるための情報処理プログラム。 In the computer of the information processing device,
a latent variable estimation step for estimating a latent variable for extracting n (n is an integer) gram words;
The number of n-gram words is determined from the probability distribution of unique words for each topic of the sentence in the sentence, and for each latent variable estimated by the latent variable estimation step, n-gram words or n-gram words are determined. A word estimation step for estimating an appearance probability;
Information processing program to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013273479A JP6257076B2 (en) | 2013-12-27 | 2013-12-27 | Information processing apparatus, information processing method, and information processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013273479A JP6257076B2 (en) | 2013-12-27 | 2013-12-27 | Information processing apparatus, information processing method, and information processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015127916A JP2015127916A (en) | 2015-07-09 |
JP6257076B2 true JP6257076B2 (en) | 2018-01-10 |
Family
ID=53837884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013273479A Active JP6257076B2 (en) | 2013-12-27 | 2013-12-27 | Information processing apparatus, information processing method, and information processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6257076B2 (en) |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8549016B2 (en) * | 2008-11-14 | 2013-10-01 | Palo Alto Research Center Incorporated | System and method for providing robust topic identification in social indexes |
-
2013
- 2013-12-27 JP JP2013273479A patent/JP6257076B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015127916A (en) | 2015-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10832011B2 (en) | Question answering system using multilingual information sources | |
US9864803B2 (en) | Method and system for multimodal clue based personalized app function recommendation | |
KR101751113B1 (en) | Method for dialog management based on multi-user using memory capacity and apparatus for performing the method | |
CN110704626B (en) | Short text classification method and device | |
US10437894B2 (en) | Method and system for app search engine leveraging user reviews | |
US10943070B2 (en) | Interactively building a topic model employing semantic similarity in a spoken dialog system | |
WO2020006206A1 (en) | Systems and methods for automatically detecting sentiments and assigning and analyzing quantitative values to the sentiments expressed in text | |
JP2020024674A (en) | Method and apparatus for pushing information | |
US10685012B2 (en) | Generating feature embeddings from a co-occurrence matrix | |
US10127304B1 (en) | Analysis and visualization tool with combined processing of structured and unstructured service event data | |
Di Fabbrizio et al. | Summarizing online reviews using aspect rating distributions and language modeling | |
US10042944B2 (en) | Suggested keywords | |
CN112380331A (en) | Information pushing method and device | |
CN109241243B (en) | Candidate document sorting method and device | |
JPWO2016135905A1 (en) | Information processing system and information processing method | |
JP2017111672A (en) | Document classifying device, document classifying method, and document classifying program | |
JP6593873B2 (en) | Information analysis apparatus and information analysis method | |
WO2018058118A1 (en) | Method, apparatus and client of processing information recommendation | |
JP7096172B2 (en) | Devices, programs and methods for generating dialogue scenarios, including utterances according to character. | |
JP2018504686A (en) | Method and apparatus for processing search data | |
KR101931624B1 (en) | Trend Analyzing Method for Fassion Field and Storage Medium Having the Same | |
Dubuisson Duplessis et al. | Utterance retrieval based on recurrent surface text patterns | |
CN110750708A (en) | Keyword recommendation method and device and electronic equipment | |
CN115062135B (en) | Patent screening method and electronic equipment | |
Xu et al. | Functionality-based mobile app recommendation by identifying aspects from user reviews |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160311 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170501 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170530 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170731 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171204 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6257076 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |