JP5522389B2 - Similarity calculation device, similarity calculation method, and a program - Google Patents

Similarity calculation device, similarity calculation method, and a program Download PDF

Info

Publication number
JP5522389B2
JP5522389B2 JP2010150713A JP2010150713A JP5522389B2 JP 5522389 B2 JP5522389 B2 JP 5522389B2 JP 2010150713 A JP2010150713 A JP 2010150713A JP 2010150713 A JP2010150713 A JP 2010150713A JP 5522389 B2 JP5522389 B2 JP 5522389B2
Authority
JP
Grant status
Grant
Patent type
Prior art keywords
similarity
unit
semantic similarity
context
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010150713A
Other languages
Japanese (ja)
Other versions
JP2012014476A (en )
Inventor
淳一 風間
デ サーガ ステイン
航 黒田
真樹 村田
健太郎 鳥澤
Original Assignee
独立行政法人情報通信研究機構
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Grant date

Links

Images

Description

本発明は、2個の言語表現の意味的類似度を算出する類似度算出装置等に関する。 The present invention relates to a similarity calculation unit, which calculates a semantic similarity of the two language expressions.

従来、意味的類似度を算出する種々の方法が提案されていた(例えば、非特許文献1参照)。 Conventionally, various methods for calculating the semantic similarity has been proposed (e.g., see Non-Patent Document 1). そのような従来の意味的類似度の算出方法では、例えば、次式によって意味的類似度sim(w ,w )を算出していた。 In such conventional semantic similarity calculation method, for example, it has been calculated semantic similarity sim (w 1, w 2) by the following equation.

ここで、w ,w は、意味的類似度を算出する対象となる2個の言語表現を示している。 Here, w 1, w 2 shows the two language expressions of interest to calculate a semantic similarity. また、v(w )、v(w )は、その各言語表現に対応する文脈ベクトルを示している。 Moreover, v (w 1), v (w 2) shows a context vector corresponding to the respective languages representing. 文脈ベクトルは、例えば、あるコーパスにおいて、対象となる言語表現wがどのような表現とどのくらいの頻度で係り受け関係にあるかといった情報や、対象となる言語表現wが文書中でどのような表現と隣同士になっているかといった情報をベクトルで表したものである。 Context vector, for example, in certain corpus, what representation or information and such in receiving relates how often the language expression w What expressions of interest relationship is language expression w of interest in the document and is information such as whether has become next to each other what was expressed in a vector. また、類似関数gは、文脈ベクトルの類似度を算出するものであり、例えば、コサイン距離、Jaccard係数、Jensen−Shannonダイバージェンス等であってもよい。 Further, similar function g is for calculating the degree of similarity of context vectors, for example, cosine distance, Jaccard coefficient may be a Jensen-Shannon divergence or the like.

しかしながら、従来の意味的類似度の算出方法においては、頻度等を計量したデータが有限であり、算出された文脈ベクトルの値も実は不確実であるという統計学的な事実を無視して意味的類似度を算出していることになる。 However, in the method of calculating the conventional semantic similarity is data obtained by measuring the frequency or the like is limited, semantic ignore the histological fact statistics that the value of the calculated context vectors also actually uncertain it means that to calculate the degree of similarity. 例えば、対象表現が1回出現して、そのうち1回、表現Aと係り受け関係にあったという事実と、対象表現が1万回出現して、そのうち1万回、表現Aと係り受け関係にあったという事実とを区別することができない。 For example, the emergence target expression once, one of which times, and the fact that there was to received relates to the representation A relationship, it emerged subject representation is 1 million times, of which 1 million times, to receive relates to the representation A relationship it is not possible to distinguish between the fact that there was. すなわち、両者共に確率が「1」となり、両者は区別されないことになる。 That is, the probability in both of the "1", both will not be distinguished. 一方、たとえ両者の確率が同じであったとしても、一方の対象表現の方がより多く出現しているのであれば、その頻度の高い対象表現の方がより高い意味的類似度となるべきであると考えられる。 On the other hand, even if both of the probability is the same, if the direction of one of the target expression is more appearance, should towards higher interest representations of the frequency becomes higher semantic similarity It is believed that there is.

本発明は、上記課題を解決するためになされたものであり、文脈ベクトルの値が不確実であるという事実を考慮した、適切な意味的類似度を算出することができる類似度算出装置等を提供することを目的とする。 The present invention has been made to solve the above problems, in consideration of the fact that the value of the context vectors is uncertain, the similarity calculating apparatus that can calculate an appropriate semantic similarity an object of the present invention is to provide.

上記目的を達成するため、本発明による類似度算出装置は、意味的類似度の算出の対象となる第1の言語表現w 及び第2の言語表現w を受け付ける受付部と、コーパスにおける前記第1の言語表現w の出現に関する情報である第1の文脈ベクトルと、前記コーパスにおける前記第2の言語表現w の出現に関する情報である第2の文脈ベクトルとを取得する取得部と、2個の文脈ベクトルφ 、φ の類似度を計算する類似関数g(φ 、φ )と、前記第1及び第2の文脈ベクトルからベイズ推定を用いて得られた確率分布とを用いて、前記第1の言語表現に対応する文脈ベクトルと、前記第2の言語表現に対応する文脈ベクトルとの類似度の期待値である意味的類似度を算出する算出部と、前記算出部が算出した意味的類似度 To achieve the above object, the similarity calculating apparatus according to the present invention includes a receiving unit which receives a first language expression w 1 and the second language expression w 2 to be calculated semantic similarity, the in the corpus first and context vector of a first information about the appearance of linguistic expression w 1, an acquisition unit for acquiring a second context vector which is the second occurrence information about the language expression w 2 in the corpus, two context vectors phi 1, a similar function to calculate the phi 2 similarity g (φ 1, φ 2) , and a probability distribution obtained by using a Bayesian estimation from the first and second context vector used, and context vector corresponding to the first language representation, and a calculation unit for calculating a semantic similarity is the expected value of the similarity between the context vector corresponding to the second language representation, the calculating section semantic similarity but that was calculated を出力する出力部と、を備えたものである。 An output unit for outputting, in which with a.

このような構成により、言語表現から得られた文脈ベクトルの不確実性を考慮に入れた意味的類似度を算出することができる。 With this configuration, it is possible to calculate the semantic similarity takes into account the uncertainty of the context vectors obtained from the language representation. その結果、従来の意味的類似度の算出方法よりも正確な意味的類似度を算出することができるようになる。 As a result, than a calculation method of a conventional semantic similarity it becomes possible to calculate the exact semantic similarity.

また、本発明による類似度算出装置では、前記文脈ベクトルは共起頻度を示すものであって多項分布であり、前記ベイズ推定の事前分布はディリクレ分布であり、前記算出部は、前記文脈ベクトルを用いてハイパーパラメータを補正した事後分布であるディリクレ分布の確率分布を用いて、前記意味的類似度を算出してもよい。 Moreover, in the similarity calculation device according to the present invention, the context vector is a by multinomial indicates a co-occurrence frequency, the prior distribution of the Bayesian estimation is Dirichlet, the calculating unit, the context vector using the probability distribution of the Dirichlet distribution is the posterior distribution obtained by correcting the hyper parameter using may calculate the semantic similarity.
このような構成により、共起頻度を用いて特定された確率分布を用いて期待値を算出することができる。 With this configuration, it is possible to calculate the expected value by using the probability distribution that is identified using the co-occurrence frequency.

また、本発明による類似度算出装置では、類似関数g(φ 、φ )は、 Moreover, in the similarity calculation device according to the invention, similar function g (φ 1, φ 2) is
であってもよい(ただし、φ 1k 、φ 2kはそれぞれ文脈ベクトルφ 、φ のk番目の要素であり、Kは文脈ベクトルφ 、φ の要素数であり、dは0より大きい実数であり、f は文脈ベクトルのk番目の要素を算出するために用いられる文脈であり、μ(w、f )は言語表現wと文脈f とに対する重みである)。 Which may be a (where a, φ 1k, φ 2k each context vector phi 1, a k-th element of phi 2, K the context vector phi 1, a number of elements phi 2, d is greater than 0 a real number, f k is the context that is used for calculating the k-th element of the context vectors, μ (w, f k) is the weight for the language expression w and context f k).
このような構成により、解析的に解くことができるようになり、効率よく期待値を算出することができるようになる。 With such a configuration, will be able to be solved analytically, it is possible to calculate the efficiency expected value.

また、本発明による類似度算出装置では、前記算出部は、前記第1及び第2の言語表現w 、w の意味的類似度sim (w 、w )を、 Moreover, in the similarity calculation device according to the invention, the calculating unit, the first and second language expression w 1, w 2 of semantic similarity sim b a (w 1, w 2),
によって算出してもよい(ただし、 It may be calculated by (However,
c(w、f )は前記コーパスにおけるwとf との共起頻度であり、α は第1の文脈ベクトルに対応する事前分布であるディリクレ分布のk番目の要素のハイパーパラメータであり、β は第2の文脈ベクトルに対応する事前分布であるディリクレ分布のk番目の要素のハイパーパラメータである)。 c (w, f k) is the co-occurrence frequency of w and f k in the corpus, alpha k is hyper parameters of the k-th element of the Dirichlet distribution with prior distribution corresponding to the first context vectors , beta k is the hyper-parameters of the k-th element of the Dirichlet distribution with prior distribution corresponding to the second context vectors).
このような構成により、意味的類似度を算出する式を適切なものにすることができ、2個の文脈ベクトルについて積分を行って期待値を算出する場合に比べて、格段に計算量が少なくなり、効率よく期待値を算出できることになる。 With this configuration, the equation for calculating the semantic similarity can be appropriate, as compared with the case of calculating the expected value by performing integration for two context vectors, much calculation amount is small it will be able to calculate efficiently expectation.

また、本発明による類似度算出装置では、すべてのkについてμ(w 、f )=μ(w 、f )=1であり、d=1/2であってもよい。 Moreover, in the similarity calculation device according to the invention, for all k μ (w 1, f k ) = μ a (w 2, f k) = 1, may be d = 1/2.

本発明による類似度算出装置等によれば、言語表現から得られた文脈ベクトルの不確実性を考慮に入れた意味的類似度を算出することができる。 According to the similarity calculation device, etc. according to the present invention, it is possible to calculate the semantic similarity takes into account the uncertainty of the context vectors obtained from the language representation.

本発明の実施の形態1による類似度算出装置の構成を示すブロック図 Block diagram showing the configuration of a similarity calculation device according to a first embodiment of the present invention 同実施の形態による類似度算出装置の動作を示すフローチャート Flowchart illustrating the operation of a similarity calculation device according to the embodiment 同実施の形態における評価実験の結果の一例を示す図 Diagram showing an example of a result of the evaluation experiment according to the embodiment 同実施の形態における評価実験の結果の一例を示す図 Diagram showing an example of a result of the evaluation experiment according to the embodiment 同実施の形態における評価実験の結果の一例を示す図 Diagram showing an example of a result of the evaluation experiment according to the embodiment 同実施の形態における評価実験の結果の一例を示す図 Diagram showing an example of a result of the evaluation experiment according to the embodiment 同実施の形態におけるコンピュータシステムの外観一例を示す模式図 Schematic diagram showing an example appearance of a computer system according to the embodiment 同実施の形態におけるコンピュータシステムの構成の一例を示す図 It illustrates an example of a configuration of a computer system according to the embodiment

以下、本発明による類似度算出装置について、実施の形態を用いて説明する。 Hereinafter, the similarity calculation device according to the present invention will be described by way of exemplary embodiments. なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。 In the following embodiments, components and steps denoted by the same reference numerals are the same or corresponding, it may not be described in duplicate.

(実施の形態1) (Embodiment 1)
本発明の実施の形態1による類似度算出装置について、図面を参照しながら説明する。 For similarity calculating apparatus according to a first embodiment of the present invention will be described with reference to the drawings. 本実施の形態による類似度算出装置は、言語表現から得られた文脈ベクトルの不確実性を考慮に入れた意味的類似度を算出するものである。 Similarity calculation device of this embodiment is for calculating a semantic similarity takes into account the uncertainty of the context vectors obtained from the language representation.

図1は、本実施の形態による類似度算出装置1の構成を示すブロック図である。 Figure 1 is a block diagram showing the configuration of a similarity calculation device 1 according to this embodiment. 本実施の形態による類似度算出装置1は、受付部11と、コーパス記憶部12と、取得部13と、算出部14と、出力部15と、記録媒体16とを備える。 Similarity calculation device 1 according to this embodiment includes a receiving unit 11, a corpus storing unit 12, an acquiring unit 13, a calculating unit 14, an output unit 15, and a recording medium 16.

受付部11は、意味的類似度の算出の対象となる第1の言語表現w 及び第2の言語表現w を受け付ける。 Reception unit 11 receives a first language expression w 1 and the second language expression w 2 to be calculated semantic similarity. ここで、言語表現は、例えば、単語(形態素)であってもよく、単語の並びであるフレーズであってもよい。 Here, the language expression, for example, may be a word (morpheme), may be a phrase is a sequence of words. 受付部11は、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された第1及び第2の言語表現w 、w を受け付けてもよく、有線もしくは無線の通信回線を介して送信された第1及び第2の言語表現w 、w を受信してもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された第1及び第2の言語表現w 、w を受け付けてもよい。 Receiving unit 11, for example, an input device (e.g., a keyboard, a mouse, a touch panel, etc.) may accept a first and second language expression w 1, w 2 that is input from, via a wired or wireless communication line It may receive the first and second language expression w 1, w 2 sent Te, a predetermined recording medium (e.g., optical disk or magnetic disk, a semiconductor memory, etc.) first and second read from language representation w 1 of, w 2 may accept. なお、受付部11は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。 Incidentally, receiving unit 11, a device for reception (such as a modem or a network card) may include, or may not include. また、受付部11は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。 Further, the reception unit 11 may be realized by hardware, or may be realized by software such as a driver for driving a predetermined device. 受け付けられた第1及び第2の言語表現w 、w は、図示しない記録媒体において記憶されてもよい。 First and second language expressions accepted w 1, w 2 may be stored in a recording medium (not shown).

コーパス記憶部12では、第1及び第2の言語表現w 、w に対応する文脈ベクトルを算出する際に用いられるコーパスが記憶されている。 The corpus storing unit 12, the corpus to be used for calculating the context vector corresponding to a linguistic expression w 1, w 2 of the first and second are stored. そのコーパスは、文脈ベクトルを適切に算出できる程度に大規模なものであることが好適である。 Its corpus, it is preferred that enough to properly calculate the context vectors are those large. このコーパスは、例えば、新聞の情報であってもよく、ウェブの情報であってもよく、百科事典の情報であってもよく、研究機関等によって整備されたコーパスであってもよく、その他のコーパスであってもよい。 This corpus is, for example, may be the information of the newspaper, may be the information of the web, may be the information of the encyclopedia, it may be a corpus that has been developed by research institutes, other it may be a corpus.

コーパス記憶部12にコーパスが記憶される過程は問わない。 Corpus storage unit 12 does not matter process corpus is stored. 例えば、記録媒体を介してコーパスがコーパス記憶部12で記憶されるようになってもよく、通信回線等を介して送信されたコーパスがコーパス記憶部12で記憶されるようになってもよい。 For example, well corpus through a recording medium is also adapted to be stored by the corpus storing unit 12, corpus transmitted via a communication line or the like may be adapted to be stored by the corpus storing unit 12. コーパス記憶部12での記憶は、RAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。 Storing in corpus storage unit 12 may be temporarily stored in a RAM or the like, or may be stored for a long time. コーパス記憶部12は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。 Corpus storage unit 12, a predetermined recording medium (e.g., semiconductor memory, a magnetic disk, optical disks, etc.) may be achieved by.

取得部13は、コーパス記憶部12で記憶されているコーパスにおける第1の言語表現w の出現に関する情報である第1の文脈ベクトルv(w )と、コーパスにおける第2の言語表現w の出現に関する情報である第2の文脈ベクトルv(w )とを取得する。 Acquisition unit 13, the first context vector v, which is the first information about the appearance of linguistic expression w 1 in a corpus stored in corpus storage section 12 (w 1) and a second language in the corpus expression w 2 obtaining a second context vector v is information about the appearance (w 2). 言語表現wに対する文脈ベクトルv(w)のk番目の要素は、コーパス記憶部12で記憶されているコーパスにおけるwとf との関係を示す値となる。 K-th element of the context vectors v (w) with respect to linguistic expression w is a value that indicates the relationship between w and f k in a corpus stored in corpus storage unit 12. は、あらかじめ決められた文脈であり、例えば、「リンゴ」や「走る」などであってもよい。 f k is the context that has been determined in advance, for example, it may be an "apple" or "run". このf は、図示しない記録媒体において記憶されていてもよい。 The f k may be stored in a recording medium (not shown). また、wとf との関係は、例えば、両者の共起の尺度であってもよく、両者のPMI(point−wise mutual information)であってもよく、idf(逆出現頻度)を考慮した頻度であってもよく、両者の文脈ベクトルにおいて言語表現wの特徴を示しうるその他の指標であってもよい。 The relationship between w and f k, for example, may be a measure of both the co-occurrence may be both of the PMI (point-wise mutual information) , considering idf (inverse document frequency) may be a frequency, it may be other indicators may show features language expression w in the context vectors of the two. なお、言語表現AとBが共起するとは、決められた長さの範囲内(例えば、一文の範囲内、一段落の範囲内、一ページの範囲内、一の文書の範囲内、一のウェブページの範囲内等)において、両者が同時に出現することである。 Note that the language expressions A and B are co-occurrence is in the range of a predetermined length (e.g., in the range of one sentence in the range of paragraph, in the range of a page, a range of one document, one web in range, etc.) of the page, both is to emerge simultaneously. 共起を示す尺度としては、例えば、共起頻度や共起率、Simpson係数、コサイン距離等が存在する。 The measure of co-occurrence, for example, co-occurrence frequency and co-occurrence rate, Simpson coefficient, the cosine distance, and the like exist. また、共起頻度等は、係り受けを考慮したものであってもよい。 Moreover, the co-occurrence frequency, etc. may be set in consideration of the dependency. すなわち、wとf とが係り受け関係にある時に、共起すると考えてもよい。 In other words, when in the dependency relationship and w and f k, may be considered as co-occur. また、後述するように、この文脈ベクトルの各要素について、対数をとることがある。 As will be described later, for each element of the context vector may take the logarithm. したがって、共起頻度をCとした場合に、lnCや、lnC+1も共起の尺度であると考えてもよい。 Therefore, when the co-occurrence frequency was C, LNC and may be considered as LNC + 1 is also a measure of co-occurrence. 取得部13が取得した、第1及び第2の言語表現w 、w に対応する第1及び第2の文脈ベクトルv(w )、v(w )は、図示しない記録媒体において記憶されてもよい。 Acquisition unit 13 has acquired, the first and second context vectors v corresponding to the first and second language expression w 1, w 2 (w 1 ), v (w 2) is stored at a recording medium (not shown) it may be.

なお、本実施の形態では、取得部13が、コーパス記憶部12で記憶されているコーパスを用いて第1及び第2の文脈ベクトルを算出する場合について説明するが、そうでなくてもよい。 In the present embodiment, the obtaining unit 13, there will be described a case of calculating the first and second context vector using the corpus stored in corpus storage unit 12 or not. 例えば、あらかじめ、あらゆる言語表現に対応する文脈ベクトルを計算することによって、言語表現と、その言語表現に対応する文脈ベクトルとを対応付ける情報を記憶しておき、取得部13は、その情報にアクセスすることによって、第1及び第2の言語表現w 、w に対応する文脈ベクトルを取得してもよい。 For example, previously, by calculating the context vector corresponding to any language representation, and language expression, it is possible to store information associating the context vector corresponding to the linguistic expression, acquisition unit 13 and accesses the information it by may obtain context vector corresponding to a linguistic expression w 1, w 2 of the first and second. その場合には、類似度算出装置1は、コーパス記憶部12を備えていなくてもよい。 In that case, the similarity calculation device 1 may not include the corpus storing unit 12. また、取得部13は、他の装置やサーバに、第1及び第2の言語表現w 、w を渡し、その装置やサーバから、第1及び第2の言語表現w 、w に対応する文脈ベクトルv(w )、v(w )を受け取ってもよい。 Further, the acquiring unit 13, to another device or server, language expression w 1 of the first and second passes w 2, from the device and the server, the first and second language expression w 1, to w 2 corresponding context vectors v (w 1), v ( w 2) may receive. なお、この場合にも、類似度算出装置1は、コーパス記憶部12を備えていなくてもよい。 Also in this case, the similarity calculating apparatus 1 may not include the corpus storing unit 12. また、類似度算出装置1以外の装置やサーバが文脈ベクトルv(w )、v(w )を取得する方法は問わない。 Further, the similarity calculation device 1 other than the devices and servers context vectors v (w 1), v ( w 2) how to get does not matter. 例えば、コーパスを用いてもよく、あるいは、言語表現と文脈ベクトルとを対応付ける情報を用いてもよい。 For example, it may be used corpus, or may be used information associating the language expression and context vectors.

算出部14は、2個の文脈ベクトルφ 、φ の類似度を計算する類似関数g(φ 、φ )と、第1及び第2の文脈ベクトルv(w )、v(w )からベイズ推定を用いて得られた確率分布とを用いて、第1の言語表現に対応する文脈ベクトルと、第2の言語表現に対応する文脈ベクトルとの類似度の期待値である意味的類似度を算出する。 Calculation unit 14, two context vectors phi 1, similarity function g (phi 1, phi 2) to calculate the phi 2 of the similarity between the first and second context vector v (w 1), v ( w 2) by using the probability distribution obtained by using a Bayesian estimation, and context vector corresponding to the first language representation, is the expected value of the similarity between the context vector corresponding to a second language expression meaning to calculate the similarity degree. もう少し具体的に説明する。 A little more specifically described. ここで、第1及び第2の言語表現w 、w の意味的類似度をsim (w 、w )とする。 Here, the first and second language expression w 1, semantic similarity w 2 and sim b (w 1, w 2). すると、次式のようになる。 Then, the following equation.

ここで、Eは期待値をとる操作を意味しており、p (φ)、p (φ)は、それぞれ第1及び第2の文脈ベクトルv(w )、v(w )からベイズ推定を用いて得られた確率分布である。 Here, E is means a manipulation taking an expected value, p 1 (φ), p 2 (φ) are respectively first and second context vector v (w 1), from v (w 2) is the probability distribution obtained by using a Bayesian estimation. なお、文脈ベクトルの確率分布は、「頻度等を計量したデータが有限であり、計算された文脈ベクトルの値も実は不確実であるという統計学的な事実」を反映するために、ベイズ推定を用いて求める。 Incidentally, the probability distribution of the context vectors, in order to reflect the "is data were weighed frequency, etc. is finite, statistical fact that the value of the computed context vectors also actually uncertain", Bayesian estimation determined using. ベイズ推定では、不確実な事柄に対しては分散の大きな確率分布が与えられ、逆に確実な事柄に対しては分散の小さな確率分布が与えられる。 The Bayesian estimation, for uncertain matters given great probability distribution of the dispersion are given a small probability distribution of the variance for reliable things reversed. したがって、文脈ベクトルの確率分布の下で類似関数gの期待値を計算することで、不確かさを考慮した場合の意味的類似度を計算することができるようになる。 Therefore, by calculating the expected value of similarity function g under the probability distribution of the context vectors, it is possible to calculate a semantic similarity in consideration of the uncertainty. 具体的には、算出部14は、ベイズ推定を用いて得られた確率分布を用いて、文脈ベクトルφ ,φ に関する積分を計算することによって、意味的類似度を算出することができる。 Specifically, the calculation unit 14, using the probability distribution obtained by using a Bayesian estimation, context vectors phi 1, by calculating the integral with respect to phi 2, it is possible to calculate the semantic similarity. なお、文脈ベクトルに関する積分は、文脈ベクトルの各要素に関する積分である。 Incidentally, integration over the context vector is the integral for each of the context vector. また、類似関数g(φ 、φ )は、2個の文脈ベクトルφ 、φ の類似度を算出する関数であればどのようなものであってもよく、例えば、公知のコサイン、Jensen−Shannonダイバージェンス、Jaccard係数、シンプソン係数、KLダイバージェンス、BC係数、後述するBC係数を拡張したもの等であってもよい。 Further, similar function g (φ 1, φ 2) are two context vectors phi 1, may be of any type as long as the function for calculating the phi 2 of the similarity, for example, a known cosine, Jensen-Shannon divergence, Jaccard coefficient, Simpson coefficient, KL divergence, BC coefficients may be like an extension of the BC coefficient to be described later. また、類似関数gは、図示しない記録媒体において記憶されていてもよい。 Further, similar function g may be stored in a recording medium (not shown).

ここで、文脈ベクトルが多項分布であり、ベイズ推定の事前分布がディリクレ分布であるとする。 Here, the context vector is multinomial distribution, prior distribution of Bayesian estimation is assumed to be Dirichlet distribution. 文脈ベクトルが多項分布であるということは、次式のことを意味する。 That context vector is multinomial distribution means that the following equation. なお、φ は文脈ベクトルφのk番目の要素であり、Kは文脈ベクトルφの要素数である。 Incidentally, phi k is the k th element of the context vectors phi, K is the number of elements of the context vectors phi.

この場合には、意味的類似度の計算で用いる事後分布、すなわち、前述の式中のp (φ)、p (φ)もディリクレ分布となる。 In this case, posterior distribution used in the calculation of semantic similarity, i.e., p 1 in the above equation (φ), p 2 (φ ) be the Dirichlet distribution. そして、そのディリクレ分布のハイパーパラメータは、事前分布におけるハイパーパラメータを、文脈ベクトルを用いて補正したものとなる。 The hyper parameters of the Dirichlet distribution is assumed to hyper parameters in the prior distribution was corrected using the context vector. なお、この場合の文脈ベクトルは共起頻度を示すものであるとする。 Incidentally, the context vector in this case shows a co-occurrence frequency. したがって、このようにディリクレ分布を用いる場合には、取得部13は、共起頻度の文脈ベクトルを取得するものとする。 Therefore, the case of using the Dirichlet distribution acquisition unit 13 is intended to obtain a context vector of the co-occurrence frequency. そのハイパーパラメータの補正は、次のようになる。 Correction of the hyper-parameters are as follows.

ここで、c(w、f )はコーパスにおけるwとf との共起頻度である。 Here, c (w, f k) is the co-occurrence frequency of w and f k in the corpus. そのc(w、f )が係り受け関係の共起頻度であってもよいことは前述の通りである。 Its c (w, f k) may be a co-occurrence frequency of modification relation is as described above. また、α (>0)は第1の文脈ベクトルに対応する事前分布であるディリクレ分布のk番目の要素のハイパーパラメータである。 Further, α k (> 0) is a hyper-parameter of the k-th element of the Dirichlet distribution with prior distribution corresponding to the first context vectors. また、β (>0)は第2の文脈ベクトルに対応する事前分布であるディリクレ分布のk番目の要素のハイパーパラメータである。 Furthermore, β k (> 0) is a hyper-parameter of the k-th element of the Dirichlet distribution with prior distribution corresponding to the second context vector. このように、文脈ベクトルを用いたハイパーパラメータの補正とは、文脈ベクトルの各要素である共起頻度c(w 、f )、c(w 、f )を、ハイパーパラメータの各要素α 、β に加算することである。 Thus, the correction of the hyper parameters using context vectors, co-occurrence frequency c is each element of the context vectors (w 1, f k), c a (w 2, f k), each element of Hyperparameters α k, is to be added to the β k. また、Dirは、ディリクレ分布であることを示しており、次式のように定義される。 Further, Dir shows that a Dirichlet distribution, is defined as follows. なお、次式において、Γは、Γ関数である。 Incidentally, in the formula, gamma is gamma function.

したがって、この場合には、意味的類似度sim (w ,w )は次式のようにして求められる。 Therefore, in this case, semantic similarity sim b (w 1, w 2 ) is obtained as follows.

ただし、積分は、△×△で示されるように、φ 、φ の単体上の積分となる。 However, integration, △ × △ As shown in, phi 1, the integral over a single phi 2. φ 、φ については、前述のように、文脈ベクトルが多項分布であることに関する制限が存在するからである。 phi 1, the phi 2 is because as described above, restrictions on that context vector is multinomial distribution exists. また、(2)式中のα'、β'は、次式のように定義される。 Further, (2) alpha in the formula ', beta' is defined as follows.

ここで、次のように定義されるBhattacharyya係数(以下、BC係数と略することがある)が知られている。 Here, Bhattacharyya coefficient defined as follows (hereinafter, sometimes abbreviated as BC coefficient) is known.

算出部14は、そのBC係数を拡張した次式で定義される類似関数gを用いてもよい。 Calculator 14 may use a similarity function g defined by the following equation extend that BC coefficients.

ここで、φ 1k 、φ 2kはそれぞれ文脈ベクトルφ 、φ のk番目の要素であり、dは0より大きい実数(d>0)であり、μ(w、f )は言語表現wと文脈f とに対する重みである。 Here, φ 1k, φ 2k each context vector phi 1, a k-th element of phi 2, d is a real number larger than 0 (d> 0), μ ( w, f k) is linguistic expression w as a weight for the context f k. 例えば、ある文脈f が重要である場合には、μ(w、f )=2として、μ(w、f k≠n )=1としてもよい。 For example, if certain contexts f n is important, mu (w, f n) as = 2, μ (w, f k ≠ n) may be = 1. また、ある言語表現の集合W={w 、w 、w …}が存在した場合に、例えば、μ(w∈W、f )=2であり、w∈Wでないwについてμ(w、f )=1であってもよい。 Also, the set W = a certain language expression {w a, w b, w c ...} if there were, for example, μ (w∈W, f k) is = 2, the w not w∈W μ ( w, it may be a f k) = 1. このように、重みμ(w、f )は、言語表現wと、文脈f とについて自由に設定することができる重みである。 Thus, the weight μ (w, f k) is a weight that can be freely set and language expressions w, for the context f k. その重みの値は、1や2以外であってもよいことは言うまでもない。 The value of the weights 1 and it goes without saying that may be other than 2. また、μ(w、f )は、すべての言語表現wに対して「1」であってもよく、すべてのkに対して「1」であってもよい。 In addition, μ (w, f k) is, for all the language representation w may be a "1", may be a "1" for all k. この場合には、言語表現や文脈に対する重み付けがないことになる。 In this case, that there is no weighting of linguistic expression and context. 類似関数gがこのように定義される場合には、第1及び第2の言語表現w 、w の意味的類似度sim (w 、w )は、次式のようになる。 If the similarity function g is defined in this way, the first and second language expression w 1, w 2 of semantic similarity sim b (w 1, w 2 ) is as follows.

したがって、算出部14は、積分を行わなくても、この計算を行うことによって、意味的類似度を算出することができるようになる。 Therefore, calculation unit 14, even without integral, by performing this calculation, it is possible to calculate the semantic similarity. この計算は、積分を行う場合に比較して格段に計算量が少ないため、効率よく算出することができる。 This calculation, because a small amount of calculation remarkably as compared with the case of performing integration, can be calculated efficiently. なお、この式において、d=1/2として、すべてのkについてμ=1とすると、類似関数gは、BC係数となる。 Incidentally, in this equation, as d = 1/2, when the mu = 1 for all k, similar function g is a BC factor. ただし、α '、β 'は、次式のように定義される。 However, α 0 ', β 0' is defined as follows.

上記説明のように、算出部14が意味的類似度を算出する方法には、いくつかの方法がある。 As explained above, the method of calculating section 14 calculates the semantic similarity, there are several ways. 前述のように、算出部14は、(1)式を用いて意味的類似度を算出してもよい。 As described above, the calculation unit 14 may calculate the semantic similarity using the equation (1). この場合には、文脈ベクトル、確率分布、類似関数gについての制限はない。 In this case, context vectors, probability distribution, there is no limitation on the similarity function g. また、前述のように、算出部14は、(2)式を用いて意味的類似度を算出してもよい。 Further, as described above, the calculation unit 14 may calculate the semantic similarity by using the expression (2). この場合には、確率分布はディリクレ分布となり、そのディリクレ分布のハイパーパラメータを補正するために、文脈ベクトルは共起頻度を示すものとなる。 In this case, the probability distribution becomes Dirichlet, in order to correct the hyper parameters of the Dirichlet distribution, the context vector is as shown co-occurrence frequency. なお、この(2)式の場合には、類似関数gについての制限はない。 In the case of the equation (2) is not limited for similar functions g. また、前述のように、算出部14は、(3)式を用いて意味的類似度を算出してもよい。 Further, as described above, the calculation unit 14 may calculate the semantic similarity with (3). この場合には、確率分布はディリクレ分布となり、そのディリクレ分布のハイパーパラメータを補正するために、文脈ベクトルは共起頻度を示すものとなる。 In this case, the probability distribution becomes Dirichlet, in order to correct the hyper parameters of the Dirichlet distribution, the context vector is as shown co-occurrence frequency. さらに、類似関数gは、BC係数を拡張した前述のものとなる。 Further, similar function g becomes the foregoing an extension of the BC coefficients. 本実施の形態では、算出部14が、主に(3)式を用いて意味的類似度を算出する場合について説明する。 In this embodiment, calculation unit 14, a case of calculating the semantic similarity using mainly (3). なお、前記説明から明らかなように、(3)式を用いて意味的類似度を算出した場合には、結果として、取得部13が取得した文脈ベクトルからベイズ推定を用いて得られた確率分布と、類似関数gとを用いて、受付部11が受け付けた第1及び第2の言語表現に対応する文脈ベクトルの類似度の期待値である意味的類似度を算出したことになる。 Incidentally, apparent from the description, (3) when calculating the semantic similarity with the type, as a result, the probability distribution obtained by using a Bayesian estimation from the context vector obtaining unit 13 has obtained When, by using the similarity function g, thereby calculating the semantic similarity is a similarity of an expected context vector corresponding to the first and second language expressions reception unit 11 has received. ただし、類似関数gは、BC係数を拡張した前述のものであり、事前分布、事後分布は共にディリクレ分布である。 However, similar function g is of the aforementioned extension of the BC coefficients, prior distribution, the posterior distribution are both Dirichlet distribution.

なお、このガンマ関数は、オーバーフローしてしまうことがある。 Note that this gamma function may overflows. 例えば、引数が170を超えると、ガンマ関数はオーバーフローする。 For example, if the argument is greater than 170, the gamma function overflows. したがって、そのような場合には、よく行われるように、対数を用いた計算を行ってもよい。 Therefore, in such a case, as well take place, it may be performed calculations using logarithms. すなわち、logガンマ関数、lnΓを使用することによって、オーバーフローの問題を解決してもよい。 That, log gamma function, by using Lnganma, may solve the overflow problem.

算出部14が算出した意味的類似度や、計算の途中で使用する値等は、図示しない記録媒体において一時的に記憶されてもよい。 Calculator 14 and the semantic similarity has been calculated, the value or the like for use in the middle of the computation may be temporarily stored in a recording medium (not shown). また、算出部14が意味的類似度の計算で用いる値、例えば、dやμ等の値は、図示しない記録媒体で記憶されており、算出部14が適宜、それらを読み出すことによって用いてもよい。 Further, the value calculating section 14 is used in the calculation of semantic similarity, for example, a value such as d and μ is stored in a recording medium (not shown), calculation unit 14 as appropriate, be used by reading them good.

出力部15は、算出部14が算出した意味的類似度を出力する。 The output unit 15 outputs the semantic similarity calculation unit 14 has calculated. ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。 Here, this output may be, for example, display devices (e.g., CRT or liquid crystal display, etc.) may be displayed to, may be transmitted via a communication line to a given device may be a printing by a printer, audio output from a speaker But often, it may be the accumulation in a storage medium, or a transfer to another component. 本実施の形態では、出力部15が意味的類似度を記録媒体16に蓄積する場合について説明する。 In this embodiment, the case where the output unit 15 accumulates the semantic similarity in the recording medium 16. なお、出力部15は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。 The output unit 15 is a device for performing output (e.g., display such as a device or a printer) may include, or may not include. また、出力部15は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。 The output unit 15 may be implemented in hardware or may be realized by software such as a driver for driving these devices.

記録媒体16では、出力部15によって蓄積された意味的類似度が記憶される。 In the recording medium 16, the semantic similarity accumulated by the output unit 15 is stored. 記録媒体16は、例えば、半導体メモリや磁気ディスク、光ディスクなどによって実現されうる。 Recording medium 16 is, for example, a semiconductor memory, a magnetic disk may be implemented by an optical disk. また、記録媒体16での記憶は、RAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。 The storage of the recording medium 16 may be temporarily stored in a RAM or the like, or may be stored for a long time.

なお、コーパス記憶部12と、記録媒体16とは、同一の記録媒体によって実現されてもよく、あるいは、別々の記録媒体によって実現されてもよい。 Note that the corpus storing unit 12, and the recording medium 16 may be implemented by the same recording medium, or may be realized by separate recording medium. 前者の場合には、コーパスを記憶している領域がコーパス記憶部12となり、意味的類似度を記憶している領域が記録媒体16となる。 In the former case, the region area storing the corpus stores corpus storing unit 12, and the semantic similarity is the recording medium 16.

次に、本実施の形態による類似度算出装置1の動作について、図2のフローチャートを用いて説明する。 Next, the operation of the similarity calculating apparatus 1 according to this embodiment will be described with reference to the flowchart of FIG.
(ステップS101)受付部11は、第1及び第2の言語表現w ,w を受け付けたかどうか判断する。 (Step S101) reception unit 11 determines whether it has received the first and second language expression w 1, w 2. そして、受け付けた場合には、ステップS102に進み、そうでない場合には、受け付けるまでステップS101の処理を繰り返す。 Then, when receiving, the process proceeds to step S102, otherwise, repeats the processing of step S101 until it receives.

(ステップS102)取得部13は、受付部11が受け付けた第1及び第2の言語表現w ,w に対応する文脈ベクトルv(w )、v(w )を取得する。 (Step S102) acquiring unit 13, receiving unit 11 first and second language expression w 1, w 2 to the corresponding context vectors v accepted (w 1), v a (w 2) to get. その取得された文脈ベクトルv(w )、v(w )は、図示しない記録媒体で記憶されてもよい。 The acquired context vectors v (w 1), v ( w 2) may be stored in a recording medium (not shown).

(ステップS103)算出部14は、取得部13が取得した文脈ベクトルv(w )、v(w )からベイズ推定を用いて得られた確率分布を用いて、前述のようにして、意味的類似度を算出する。 (Step S103) calculating unit 14, acquisition unit 13 context vector v obtained is (w 1), from v (w 2) using the probability distribution obtained by using Bayesian estimation, as described above, means to calculate the similarity degree. その算出の方法は問わない。 The method of the calculation does not matter. 例えば、文脈ベクトルのベクトル空間において積分を行うことによって意味的類似度を算出してもよく、事前分布をディリクレ分布として、文脈ベクトルを用いて補正されたハイパーパラメータの事後分布であるディリクレ分布を用いて意味的類似度を算出してもよく、さらに類似関数gをBC係数あるいはBC係数を拡張したものにすることによって、Γ関数に関する和の結果である意味的類似度を算出してもよい。 For example, may be calculated semantic similarity by performing integration in the vector space of context vectors, using the prior distribution as Dirichlet distribution, a Dirichlet distribution is a posterior distribution of the corrected hyper parameters using context vectors it may be calculated semantic similarity Te, further similar function g by a an extension of BC coefficient or BC coefficient may be calculated semantic similarity is the result of the sum regarding Γ function.

(ステップS104)出力部15は、算出部14が算出した意味的類似度を出力する。 (Step S104) The output unit 15 outputs the semantic similarity calculation unit 14 has calculated. そして、ステップS101に戻る。 Then, the process returns to step S101.
なお、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。 In the flowchart of FIG. 2, the process by powering off or interruption processing termination ends.

次に、本実施の形態による類似度算出装置1の動作について、具体例を用いて説明する。 Next, the operation of the similarity calculating apparatus 1 according to this embodiment will be described with reference to specific examples.
まず、簡単な例について説明する。 First, a description will be given simple example. その例では、言語表現w ,w ,w ,w を考える。 In that example, consider the language representation w 0, w 1, w 2 , w 3. そして、c(w ,f )=10、c(w ,f )=2、c(w ,f )=10、c(w ,f )=20とする。 Then, the c (w 0, f 1) = 10, c (w 1, f 1) = 2, c (w 2, f 1) = 10, c (w 3, f 1) = 20. また、1次元しか考慮しないとすると、p(f |w )は、すべてのiについて1.0となる。 Also, if only one-dimensional does not take into account, p (f 1 | w i ) is a 1.0 for all i. また、K=10000、すべてのkについてα =β =1.0とすると、本実施の形態において、(3)式を用いて算出した意味的類似度は、次のようになる。 Further, K = 10000, for all k When alpha k = beta k = 1.0, in the present embodiment, semantic similarity calculated using equation (3) is as follows.

sim (w 、w )=0.785368 sim b (w 0, w 1 ) = 0.785368
sim (w 、w )=0.785421 sim b (w 0, w 2 ) = 0.785421
sim (w 、w )=0.785463 sim b (w 0, w 3 ) = 0.785463

このように、従来例であればすべて同じ確率となっていた意味的類似度が、本実施の形態による類似度算出装置1を用いることによって、頻度の高いものほどより大きな意味的類似度を有するようになっていることが分かる。 Thus, the semantic similarity had all if conventional a same probability, by using the similarity calculation device 1 according to this embodiment has a greater semantic similarity as those frequent it can be seen that is so.

なお、本実施の形態による類似度算出装置1によって意味的類似度を算出した場合には、同じ言語表現に対する意味的類似度が1にならないことになる。 Note that when calculating the semantic similarity by the similarity calculating apparatus 1 according to this embodiment, the semantic similarity to the same language representation will not become 1. 例えば、前述の例の場合、sim (w 、w )=0.78542となる。 For example, the preceding example, the sim b (w 0, w 0 ) = 0.78542. 本来、同じ言語表現の意味的類似度は1.0となるものであるため、受付部11が同じ言語表現である第1及び第2の言語表現を受け付けた場合には、出力部15は、算出部14による算出結果にかかわらず、意味的類似度「1.0」を出力するようにしてもよい。 Essentially, since the semantic similarity of the same language representation is made 1.0, if the receiving unit 11 has received the first and second language expression in the same language representation, the output unit 15, regardless of the calculation result by the calculating section 14, may output the semantic similarity of "1.0". なお、その場合には、取得部13による取得や、算出部14による算出を行わなくてもよい。 Incidentally, in this case, and acquiring the acquisition unit 13 may not perform the calculation by the calculation section 14.

次に、具体的な言語表現が受け付けられた場合について説明する。 Next, the case where specific language representation is accepted. ユーザが、第1及び第2の言語表現「銅めっき」「亜鉛めっき」を入力したとする。 User, and enter the first and second language expression "copper plating" "galvanizing". すると、それらが受付部11で受け付けられ(ステップS101)、取得部13に渡される。 Then, they are received by the receiving unit 11 (step S101), it is passed to the acquisition unit 13. 取得部13は、各言語表現「銅めっき」「亜鉛めっき」について、コーパス記憶部12で記憶されているコーパスを用いて、各要素が共起頻度である文脈ベクトルを取得し(ステップS102)、その取得した文脈ベクトルを算出部14に渡す。 Acquisition unit 13, for each language expression "copper plating" "galvanizing", using a corpus stored in corpus storage unit 12, acquires the context vector elements are co-occurrence frequency (step S102), passing the acquired context vectors to the calculation unit 14. 算出部14は、受け取った文脈ベクトルを用いて、α'やβ'を算出し、その算出結果を用いて、前述の(3)式の値を計算する(ステップS103)。 Calculating unit 14, using context vectors received, to calculate the alpha 'and beta', using the calculation result, to calculate the value of the above (3) (step S103). なお、すべてのkについて、α =β =1.0であり、μ=1.0であるとした。 It should be noted that, for all k, is α k = β k = 1.0, it was to be μ = 1.0. すると、算出部14が算出した意味的類似度は、「0.105」となった。 Then, semantic similarity calculation unit 14 is calculated, becomes "0.105". 出力部15は、その意味的類似度を、記録媒体16に蓄積する(ステップS104)。 The output unit 15, the semantic similarity, accumulates the recording medium 16 (step S104). なお、その蓄積の際に、出力部15は、意味的類似度の算出対象となった2個の言語表現「銅めっき」「亜鉛めっき」に対応付けて、意味的類似度「0.105」を蓄積してもよい。 At the time of the accumulation, the output unit 15 in association with the two language expressions became calculating semantic similarity target "copper plating" "galvanized" semantic similarity "0.105" it may be accumulated. このようにして、入力された2個の言語表現に対応する意味的類似度の算出が行われることになる。 In this manner, so that the calculation of the semantic similarity corresponding to the two language expressions entered is made.

次に、評価実験について説明する。 Next, the evaluation experiment will be described. この評価実験では、日本語の名詞間の意味的類似度を算出した。 In this evaluation experiment, to calculate the semantic similarity between the Japanese noun. すなわち、この評価実験では、言語表現は名詞の単語である。 That is, in this evaluation experiment, language representation is the word of the noun. また、類似関数としては、BC係数を用いた。 As the similarity function, using the BC coefficients. すなわち、上記の(3)式において、d=1/2とした。 That is, in the above (3) was set to d = 1/2. また、すべてのkについてμ=1とした。 In addition, it was μ = 1 for all k. また、人間によって単語が類似かどうか評価することは非常に困難であり、高コストであるため、自動評価を行うことにした。 Moreover, it is very difficult word by humans to evaluate whether similar, because of the high cost, and to perform automatic evaluation. その方法については、例えば、次の文献の方法に従った。 For instructions, for example, according to the method of the following document.
文献:Patrick Pantel,Eric Crestan,Arkady Borkovsky,AnaMaria Popescu,Vishnu Vyas、「Web−scale distributional similarity and entity set expansion」、In Proceedings of EMNLP2009,p. Literature: Patrick Pantel, Eric Crestan, Arkady Borkovsky, AnaMaria Popescu, Vishnu Vyas, "Web-scale distributional similarity and entity set expansion", In Proceedings of EMNLP2009, p. 938−947、2009年 938-947, 2009

類似の単語を有する単語セットに含まれる各単語は、同じ単語セットに含まれる他の単語と高い意味的類似度を有すると考えられる。 Each word contained in the set of words with similar words are considered to have other words a high semantic similarity included in the same word set. したがって、その単語セットに含まれる各単語(インプット)と、同じ単語セットに含まれる他の単語(アンサー)とをペアにしたインプット&アンサーペアを構成した。 Thus, each word (input) contained in the word set, and configure the input and answer pairs of other words (Answer) and the pairs in the same word set.

また、その評価において、各単語(インプット)について、意味的類似度が高い順に500個のリストを出力し、そのリストに含まれる各単語がアンサーに含まれているかどうか判断した。 Further, in the evaluation, for each word (input), the semantic similarity outputs 500 listed in descending order, each word included in the list is determined whether they contain the answer. また評価の指標として、上位T個の適合率(Precision)の平均(ここで、上位T個の適合率を「P@T」とし、その平均を「MP@T」とする)と、適合率平均の平均(ここで、適合率平均を「AP(average precision)」とし、その平均を「MAP」とする)とを用いた。 Also as an indicator of the evaluation, the higher the T compliance rate and the average of (Precision) (here, the higher the T matching rate to as "P @ T", and the average as "MP @ T"), matching rate mean average (here, the adaptation rate average is "AP (average precision)", that is "MAP" average) was used and. ここで、P@Tと、APとの定義は次の通りである。 Here, the P @ T, the definition of the AP is as follows.

ここで、δ(w ∈ans)は、w がアンサーに含まれた場合に1となり、そうでない場合に0となる関数である。 Here, δ (w i ∈ans) is next 1 if w i is included in the answer, a function which becomes 0 otherwise. また、N(=500)は、アウトプットの個数である。 Further, N (= 500) is the number of output. また、Rは、アンサーの個数である。 In addition, R is the number of the answer. MP@T、MAPは、これらの値のすべてのインプットに対する平均である。 MP @ T, MAP is the average for all of the input of these values.

また、この評価実験では、文脈ベクトルとして、係り受け関係の共起頻度を用いた。 Further, in this evaluation experiment, as context vectors was used co-occurrence frequency of modification relationship. そして、日本語のウェブ文書の大規模コーパス(検索エンジン研究基盤TSUBAKI)の約1億ページ・60億文のデータから名詞−動詞と名詞−名詞との係り受け関係タイプを抽出し、そのコーパスにおける頻度を計算した。 Then, noun from the data of about 100 million page 6000000000 sentence of a large corpus of Japanese web documents (search engine research infrastructure TSUBAKI) - verb and noun - to extract the dependency relationship type of a noun, in the corpus the frequency was calculated. 名詞nが単語wに関係rで係る場合には、係り受け関係(n,<w,r>)を取得した。 If the noun n is applied in relation to the word w r is, dependency relationship was obtained (n, <w, r>) a. ここで、文脈f は、<w,r>である。 Here, the context f k is a <w, r>.

名詞−動詞の係り受けの場合、助詞が関係の種類を示すことになる。 Noun - For receiving dependency verb, will exhibit a type of particle is involved. 例えば、文「ワインを買う」から、係り受け関係(ワイン,<買う,を>)を取得する。 For example, from the statement "buy wine", dependency relationship (wine, <buy, wo>) to get. ここでは、助詞「を」が、動詞の目的語を表すために使用されている。 Here, particle "wo" are used to represent the object of the verb. なお、種々の助動詞の接尾語(例えば、「れる」など)は、単語wの一部であるとした。 It should be noted that the suffix of a variety of auxiliary verb (for example, "is", etc.), it was to be part of the word w. その助動詞は、係り受けにおいて名詞nの種類を大きく変化させるからである。 Its auxiliary verb is because large changes the type of the noun n in dependency. 名詞−名詞の係り受けの場合、表現「n のn 」から、係り受け関係(n ,<n ,の>)を取得する。 Noun - If noun dependency of expression from the "n 2 of n 1", dependency relation (n 1, <n 2, of>) to get the.

なお、前述の大規模コーパスから、約4億7000万個の異なる係り受け関係を抽出した。 It should be noted that, from a large corpus of the above-mentioned, were extracted about 470 million pieces of different dependency relationship. その係り受け関係には、約3100万個の単語(複合名詞を含む)、約2200万個の文脈f が含まれていた。 Its dependency on the relationship, about 31 million units of words (including the compound nouns), contained about 22 million cells contexts f k. そして、共起する文脈の数に応じて名詞をソートし、共起する名詞の数に応じて文脈をソートした。 Then, depending on the number of the context of co-occurrence sorting nouns, sorting the context according to the number of nouns co-occur. そして、共起する文脈の多い方から100万個の名詞を選択し、共起する名詞の多い方から10万個の文脈を選択した。 Then, select the one million of the noun from the one with a lot of the context of co-occurrence, was selected the 100,000 pieces of context from the one with a lot of nouns co-occur. この評価実験では、その選択した名詞と文脈との両方を含む約2億6000万個の係り受け関係のみを使用した。 In this evaluation experiment, using only about 260 million units of dependency relationships include both the selected noun and context.

[テストセット] Test Set
手作業で構築されたシソーラスにおいて共通の上位語を持つ単語(すなわち、兄弟語)は、類似の単語を有する単語セットとなりうる。 Manual words with a common hypernym in constructed thesaurus with (i.e., sibling language) can be a set of words with similar words. そこで、単語−概念間の写像と、概念の階層関係とを有する日本語の辞書(EDR V3.0)から、そのような複数のセットを抽出した。 Therefore, the word - from Japanese dictionary with a mapping between concepts, and a hierarchical relationship of concepts (EDR V3.0), and extracted such a plurality of sets. その日本語の辞書は、304884個の名詞を有している。 The Japanese dictionary has a 304,884 pieces of noun. そして、6703個の兄弟語のセットが抽出された。 Then, 6703 pieces of sets of brothers word is extracted. そのセットに含まれる単語数の平均は、45.96である。 The average number of words contained in the set is 45.96. その抽出したセットから、セットA、セットBとして、それぞれランダムに200個のセットずつを選択した。 From the set and the extracted, as set A, set B, were selected by 200 sets randomly respectively. セットAは、ハイパーパラメータの値を調整するために用いられるものである。 Set A, and is used to adjust the value of the hyper-parameters. セットBは、その調整されたハイパーパラメータの確認のために用いられるものである。 Set B are those used for the confirmation of the adjusted hyper parameters.

なお、この評価実験では、そのようなセットの構成において、また類似度の算出において、単語の多義性に関する処理を行っていない。 In this evaluation experiment, in the configuration of such a set, and in the calculation of similarity, it does not perform the processing related words ambiguity. すなわち、ある単語は複数のセットに存在しうることになり、そのような単語に対するアンサーは、その単語の属する複数のセットに含まれる単語の集合である(もちろん、その単語自体は除かれることになる)。 That is, a word becomes can exist multiple sets, answer to such words, its is a collection of words included in the plurality of sets belongs word (of course, that the word itself is to be removed Become).

さらに、これらのテストセットに含まれる単語が、大規模コーパスから選択した100万語の全単語と異なっていることがある。 In addition, there is that word that is included in these test set is different from all the words of the million words selected from a large corpus. したがって、テストセットから、その100万語に含まれていない単語を取り除くと共に、その後に単語数が2未満になった単語セットを取り除いた。 Therefore, from the test set, along with the removal of the words that are not included in the million words, was removed and then set of words number of words it is less than 2 in. その結果、セットAは、3740単語を含んでおり、平均115アンサーを含んでいた。 As a result, the set A includes a word 3740, it contained an average 115 answers. また、セットBは、3657単語を含んでおり、平均65アンサーを含んでいた。 Also, the set B includes a word 3657, it contained a mean 65 answers. このセットA、Bから、前述のインプット&アンサーペアが構成されることになる。 This set A, the B, so that the aforementioned input and answer pair is configured.

[比較対象の類似度] [Degree of similarity of the comparison]
本実施の形態による類似度算出装置1を用いて算出した意味的類似度(この意味的類似度をBC とする)を、次の意味的類似度JS、PMI−cos、Cls−JS、BC、BC と比較した。 Semantic similarity calculated using the similarity calculation device 1 according to the present embodiment the (the semantic similarity and BC b), the following semantic similarity JS, PMI-cos, Cls- JS, BC , it was compared with BC a.

JS:p(f |w )と、p(f |w )との間のJensen−Shannonダイバージェンスである。 JS: | a (w 1 f k), p p | is the Jensen-Shannon divergence between the (f k w 2). この類似度については、次の文献を参照されたい。 This similarity, reference is made to the following literature.
文献:Ido Dagan,Fernando Pereira,Lillian Lee、「Similarity−based estimation of word cooccurrence probabilities」、In Proceedings of ACL94、1994年 文献:Ido Dagan,Lillian Lee,Fernando Pereira、「Similarity−based models of word cooccurrence probabilities」、Machine Learning,34(1−3):43−69、1999年 Literature: Ido Dagan, Fernando Pereira, Lillian Lee, "Similarity-based estimation of word cooccurrence probabilities", In Proceedings of ACL94, 1994 years literature: Ido Dagan, Lillian Lee, Fernando Pereira, "Similarity-based models of word cooccurrence probabilities" , Machine Learning, 34 (1-3): 43-69, 1999 year

PMI−cos:文脈ベクトルのコサインである。 PMI-cos: it is the cosine of the context vectors. ここで、k番目の次元は、w とf との間のPMIであり、次のように定義される。 Here, k-th dimension is the PMI between w i and f k, is defined as follows.
また、この類似度については、次の文献を参照されたい。 Further, this similarity, see the following document. ただし、2002年の文献で記述されているPMIの値のディスカウントは使用しなかった。 However, the discount of the value of PMI, which is described in the 2002 document was not used.
文献:Patrick Pantel、Dekang Lin、「Discovering word senses from text」、In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining,p. Literature: Patrick Pantel, Dekang Lin, "Discovering word senses from text", In Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, p. 613−619、2002年 文献:Patrick Pantel,Eric Crestan,Arkady Borkovsky,AnaMaria Popescu,Vishnu Vyas. 613-619, 2002 literature: Patrick Pantel, Eric Crestan, Arkady Borkovsky, AnaMaria Popescu, Vishnu Vyas. 「Web−scale distributional similarity and entity set expansion」、In Proceedings of EMNLP 2009,p. "Web-scale distributional similarity and entity set expansion", In Proceedings of EMNLP 2009, p. 938−947、2009年 938-947, 2009

Cls−JS:後記するKazama et al. Cls-JS: later to Kazama et al. (2009)は、隠れクラス分布p(c|w )、p(c|w )の間のJensen−Shannonダイバージェンスを用いることを提案している。 (2009), hidden class distribution p proposes using the Jensen-Shannon divergence between | | (w 2 c) ( c w 1), p. その隠れクラス分布は、後記するKazama and Torisawa(2008)で示されるように、次式の隠れクラスモデルによる係り受け関係のEMベースクラスタリングを使うことによって得られるものである。 Its hidden class distribution, as indicated by the below-described Kazama and Torisawa (2008), is obtained by using the EM-based clustering modification relationship by hidden class model follows.

EMクラスタリングの局所最小の効果を軽減するために、異なる初期パラメータを用いて得られるいくつかの異なるクラスタリングの結果によって類似度の平均をとることが提案されている。 To reduce the local minimum of the effect of EM clustering, it is proposed to take the average of the similarity by the results of several different clustering obtained with different initial parameters. 今回の評価実験では、「s1+s2」によって示される2個のクラスタリング結果を結合させた。 In this evaluation experiment, it was bound to two of the clustering results shown by the "s1 + s2". なお、各クラスタリング結果「s1」「s2」は、それぞれ2000個の隠れクラスを有している。 In addition, each clustering result "s1", "s2" each have a 2,000 hidden class. クラスタリングは、データスパースネスを扱うもう一つの方法であると考えられるため、このCls−JSを比較対象に含めた。 Clustering, since it is considered to be another way of dealing with data sparseness, including the Cls-JS in comparison.
文献(Kazama et al.):風間淳一、Stijn De Saeger、鳥澤健太郎、村田真樹、「係り受けの確率的クラスタリングを用いた大規模類似語リストの作成」、言語処理学会第15回年次大会,p. Literature (Kazama et al.): Junichi Kazama, Stijn De Saeger, Torisawa Kentaro, Masaki Murata, "Creating a large-scale similar word list using a probabilistic clustering of receiving dependency", the Association for Natural Language Processing 15th annual convention, p. 84−87,Tottori,2009年3月 文献(Kazama and Torisawa):Jun'ichi Kazama and Kentaro Torisawa、「Inducing gazetteers for named entity recognition by large−scale clustering of dependency relations」、In Proceedings of ACL−08:HLT、2008年 84-87, Tottori, 2009, March literature (Kazama and Torisawa): Jun'ichi Kazama and Kentaro Torisawa, "Inducing gazetteers for named entity recognition by large-scale clustering of dependency relations", In Proceedings of ACL-08: HLT , 2008

BC:p(f |w )と、p(f |w )との間のBC係数である。 BC: | a (w 1 f k), p p | is the BC coefficient between the (f k w 2). これは、BC のベースラインとなるものである。 This is to be the baseline BC b. この類似度については、次の文献を参照されたい。 This similarity, reference is made to the following literature.
文献:A. Literature: A. Bhattacharyya、「On a measure of divergence between two statistical populations defined by their probability distributions」、Bull. Bhattacharyya, "On a measure of divergence between two statistical populations defined by their probability distributions", Bull. Calcutta Math. Calcutta Math. Soc. Soc. ,49:214−224、1943年 , 49: 214-224, 1943

BC :アブソリュートディスカウンティング(absolute discounting)を用いたBC係数である。 BC a: a BC coefficients using absolute discounting (absolute discounting). それは、p(f |w )を算出する際に、c(w ,f )からディスカウンティング値αを差し引き、その残りの確率質量を頻度がゼロである文脈に均等に分配したものである。 That when calculating the | (w i f k), c (w i, f k) subtracting the discounting value α from, and evenly distribute the remaining probability mass in the context frequency is zero it, p it is. これは、単純なスムージング方法の例として含めたものである。 This is, including as an example of a simple smoothing method.

なお、ある単語と、他のすべての単語(この評価実験では100万個)との意味的類似度を算出することは非常に負荷が大きいため、c(w ,f )のスパースネスを利用した近似方法を用いた。 Incidentally, use and a word, because very load to calculate a semantic similarity between all other words (one million in this evaluation experiment) is large, c (w i, f k) the sparseness of using the approximation method. 似たような近似方法は、前出のPantel and Lin(2002)や、Kazama et al. Approximate a similar way is, and before out of Pantel and Lin (2002), Kazama et al. (2009)、Pantel et al. (2009), Pantel et al. (2009)においても同様に使用されている。 Have been used as well in (2009). ある単語w に対して、文脈をc(w ,f )の降順となるようにソートし、上位L個の文脈を選択する。 For a word w i, sorting so that the context c (w i, f k) and descending, selects the higher the L context. そして、それぞれ選択した各文脈について、単語をc(w ,f )の降順となるようにソートし、上位M個の単語を選択する。 Then, for each context that each selected word c (w i, f k) are sorted such that the descending selects top M words. なお、この評価実験では、L=M=1600とした。 It should be noted that, in this evaluation experiment, was L = M = 1600. そして、その選択した1600個の単語をあわせたものを候補の単語とし、その候補の単語についてのみ意味的類似度を算出した。 Then, the candidate words to the combined 1600 words and the selected and calculated semantic similarity only for the word of the candidate. すなわち、本実施の形態による類似度算出装置1は、ある単語(インプット)w と、それに対応する1600個の候補の単語とを順次受け付け、その1600個のペアについて、意味的類似度を算出する。 In other words, the similarity calculation device 1 according to this embodiment, calculates a certain word (input) w i, sequentially accepts the word 1600 candidates corresponding thereto, for the 1600 pairs, the semantic similarity to. そして、類似度算出装置1が記録媒体16に蓄積した1600個のペアに対する意味的類似度から、意味的類似度の高い上位500個の単語を取得した。 Then, the similarity calculation device 1 from semantic similarity to 1600 pairs accumulated in the recording medium 16, and acquires the high-level 500 words semantically similarity. この500個の単語がインプットに対するアウトプットとなる。 This 500 word is output to the input. この処理を、テストセットに含まれる各インプットに対して行った。 This process was performed on each input to be included in the test set.

なお、この評価実験において、そのままのカウントc(w ,f )ではなく、修正したカウント「log(c(w ,f ))+1」を用いた。 Incidentally, in this evaluation experiment, we count c (w i, f k) instead of modifying the count "log (c (w i, f k)) + 1 " was used. これは、ウェブデータで見られうる異常に頻度の高い係り受けの影響を低減するためである。 This is to reduce the effect of receiving unusually frequent relates that can be seen in the web data.

また、BC として、すべてのハイパーパラメータは同じ値とした。 Further, as the BC b, all the hyper parameters were the same value. すなわち、すべてのkについて、α =αとした。 In other words, for all k, was α k = α. 過度に大きいハイパーパラメータαは、観測を無視することを意味するため、適切ではないことは明らかである。 Is excessively large hyper parameter alpha, it means to ignore the observations, it is clear that not appropriate. そのため、ハイパーパラメータαは、調整されなくてはならない。 Therefore, the hyper parameter alpha, must be adjusted. BC のディスカウンティング値も同様に調整されることになる。 Discounting value of BC a well would be similarly adjusted.

図3は、セットAの結果を示すものである。 Figure 3 shows the results of a set A. その結果において、各意味的類似度のMAPと、上位1,5,10,20のMPとが表示されている。 In result, the MAP of the semantic similarity, and MP of the upper 1,5,10,20 are displayed. BC とBC については、調整後のαに対応するものと、他のいくつかのαに対応するものとが示されている。 The BC b and BC a, and one corresponding to the adjusted alpha, have been shown and corresponds to a number of other alpha. 図4は、MAPに関して、BC のハイパーパラメータのチューニングを示すものである(「ベイズ」で示されるグラフ)。 4, with respect to MAP, illustrates tuning of hyper parameters of BC b (graph indicated by "Bayesian"). なお、図4では、BC についても示している(「アブソリュートディスカウンティング」で示されるグラフ)。 Note that (graph indicated by "absolute discounting") of FIG. 4 also shows the BC a. また、図5は、MPに関する同様の結果である。 Further, FIG. 5 is a view similar to results for MP. 図4,図5から、MAPとMPとは相関があることが分かる。 4, FIG. 5, it can be seen that there is a correlation between MAP and MP. また、これらの結果から、BC は、BCよりも確実に優れていることが分かる。 Further, from these results, BC b it can be seen that reliably better than BC. すなわち、α=0.0016の場合には、MAPにおいて6.6%優れており、MP@1において14.7%優れていることになる。 That is, in the case of alpha = 0.0016 is excellent 6.6% in MAP, will be excellent 14.7% in MP @ 1. この状況においては、他の比較対象の意味的類似度に対して、BC が最も優れた結果となっている。 In this situation, against the semantic similarity of another comparison, BC b is in the best results. BC もBCに対しては優れているが、BC ほどではない。 BC a are excellent even for BC, but not as much as BC b. 図3では、logの修正を行わなかった結果も示している。 In Figure 3 also shows the results do not fix the log. その修正を行うことによって改善が見られる(PMI−cosでは、その改善が小さかったり、はっきりしなかったりするが)。 Improved by performing the correction is seen (in PMI-cos, or smaller is the improvement, but or not clear).

ハイパーパラメータの調整では、オーバーフィッティング(過剰適合)の問題を含んでいるため、その頑健性が評価されなくてはならない。 In the adjustment of hyper-parameters, because it contains overfitting of (overfitting) problems, must not its robustness is evaluated. したがって、セットAで調整したハイパーパラメータαを、セットBで適切に使用できるかどうかを確認した。 Thus, the hyper parameter α adjusted in set A, to confirm whether suitably be used as a set B. その結果は、図6で示されるものである。 The result is that shown in Figure 6. 図6で示される実験結果から、セットAに対して最適なハイパーパラメータα(=0.0016)は、セットBに対しても同様に適切に使用できることが分かる。 The experimental results shown in Figure 6, optimum hyper parameters α (= 0.0016) for the set A, it is understood that equally suitably used for a set B. すなわち、この評価実験で示されるように、すべての単語の少数の部分集合を用いることによって、頑健にハイパーパラメータαを調整できたと思われる。 That is, as shown in this evaluation experiment, by using a small number of subsets of all words are robustly seems to be adjusted hyper parameter alpha. したがって、前述のハイパーパラメータαの調整は、実際、現実的なものであると考えられる。 Therefore, the adjustment of hyper parameters α described above, in fact, considered to be realistic.

以上のように、本実施の形態による類似度算出装置1によれば、言語表現から得られた文脈ベクトルの不確実性を考慮に入れた意味的類似度を算出することができる。 As described above, according to the similarity calculation device 1 according to this embodiment, it is possible to calculate the semantic similarity takes into account the uncertainty of the context vectors obtained from the language representation. また、前述した言語表現w ,w ,w ,w の具体例から分かるように、従来例であればすべて同じ値となっていた意味的類似度が、頻度の高いものほどより大きな意味的類似度を有するようになる。 As can be seen from the specific examples of the language expression w 0, w 1, w 2 , w 3 described above, semantic similarity has the same value all if conventional example, a large and more as those frequent It will have a semantic similarity. また、前述の評価実験から分かるように、本実施の形態による類似度算出装置1によって、従来の他の方法と比較して精度の高い意味的類似度を算出することができる。 As can be seen from the above evaluation tests, the similarity calculation device 1 according to this embodiment, it is possible to calculate a high semantic similarity accuracy as compared with other conventional methods. また、本実施の形態の類似度算出装置1による意味的類似度の計算は確率分布を考慮しているにもかかわらず、他の方法と比較して負荷がそれほど重たくならない。 The calculation of the semantic similarity by the similarity calculating apparatus 1 of this embodiment even though considering probability distributions, the load is not so heavy as compared to other methods. 例えば、Cls−JSでは、一つのクラスタリング結果を得るために、24CPUコアで1週間かかったが、本実施の形態による類似度算出装置1の準備のためには、シングルコアで1時間かかっただけであった。 For example, the Cls-JS, in order to obtain one of the clustering result, it took one week 24CPU core, in preparation for the similarity calculation device 1 according to this embodiment, only it took 1 hour at single core Met. また、100万個の単語すべてについて上位500個の意味的類似度の高い名詞を計算するのに、本実施の形態による類似度算出装置1では、16CPUコアを用いて約100時間かかったのに対して、JSの場合には、約57時間かかった。 Moreover, to calculate the high-level 500 semantic similarity noun for all one million words, the similarity calculation device 1 according to this embodiment, although it took about 100 hours using a 16CPU core in contrast, in the case of JS is, it took about 57 hours. この程度の余分な時間であれば、許容可能であると考えられる。 If extra time this extent, considered acceptable.

本実施の形態による類似度算出装置1は、例えば、情報検索において用いることができる。 Similarity calculation device 1 according to this embodiment, for example, it can be used in information retrieval. 具体的には、検索キーとして「スーパー」が入力された場合に、その「スーパー」と他の言語表現との意味的類似度を類似度算出装置1によって算出し、その結果を用いて、「スーパー」と意味的類似度が大きい「ショッピングセンター」を特定することができる。 Specifically, if the "super" is input as the search key, its a "super" semantic similarity with other language expression calculated by the similarity calculation device 1, with the result, " Super "and semantic similarity is large," it is possible to identify the shopping center. " そして、その「ショッピングセンター」も検索キーに加えて、検索を行ってもよい。 Then, the "shopping center" be added to the search key, it may be subjected to a search. このようにすることで、検索キー「スーパー」にヒットする文書のみでなく、それに類似する検索キー「ショッピングセンター」にヒットする文書も検索することができる。 By doing so, not only documents that hit the search key "super", can also be retrieved documents to hit the search key "shopping center" similar to it.

また、発想支援において用いることもできる。 In addition, it can also be used in creativity support. 例えば、工業技術の開発において、「銅メッキ」の代わりに、その「銅メッキ」と意味的類似度の高い「亜鉛メッキ」や「光触媒コーティング」を用いるという別の可能性を提示することもできる。 For example, possible in the development of industrial technologies, instead of "copper plating", also present another possibility of using the high semantic similarity as "copper plating" "galvanized" or "photocatalytic coating" .

また、対話システムにおいて用いることもできる。 It can also be used in an interactive system. 例えば、ユーザが「AAA車」の話題を取り上げた際に、その「AAA車」と意味的類似度の高い「BBB車」を出すことによって、話題をふくらませることもできる。 For example, when the user picks up the topic of "AAA car", by issuing its high of semantic similarity "AAA car", "BBB car", it is also possible to inflate the topic.

また、リコメンデーションにおいて用いることもできる。 It can also be used in the recommendation. 例えば、過去に「野沢菜漬け」を購入した客に、その「野沢菜漬け」と意味的類似度の高い「高菜漬け」を勧めることができる。 For example, it is possible to customers who purchase the "Nozawana pickled" in the past, we recommend that high "Nozawana pickled" and semantic similarity "mustard pickles".

また、マーケティングにおいて用いることもできる。 It can also be used in marketing. 例えば、今年、他社の販売した「ラー油」が流行している場合に、その「ラー油」と意味的類似度の高い「豆板醤」を新商品として投入することを検討することができる。 For example, this year, it is possible to consider that it has sold other companies "chili oil" is if you are prevalent, to introduce its high of semantic similarity with the "chili oil", "doubanjiang" as a new product. あるいは逆に、昨年の流行とは意味的類似度の低い商品をあえて投入することを検討することもできる。 Or conversely, the last year of the epidemic it is also possible to consider dare put a low commodity of semantic similarity.

このように、本実施の形態による類似度算出装置1を用いて、ある言語表現Aと意味的類似度の高い言語表現を取得する場合には、図示しない記録媒体において、種々の言語表現を記憶しておき、類似度算出装置1は、その第1の言語表現Aと、記憶されている種々の言語表現である第2の言語表現との意味的類似度を算出し、その結果を用いて、第1の言語表現Aと意味的類似度の高い第2の言語表現を特定してもよい。 Thus, using a similarity calculation device 1 according to this embodiment, when acquiring the semantic similarity high language expression with a certain language expression A, there is provided a recording medium (not shown), stores various linguistic expression ; then, the similarity calculating unit 1, its first language expressions a, calculates a semantic similarity between the second language expression are various language expressions stored, with the result it may identify the semantic similarity high second language expression and first language expression a. 具体的には、意味的類似度の降順となるように第2の言語表現をソートし、意味的類似度の上位から所定の個数(1個または複数)の第2の言語表現を取得してもよく、意味的類似度の上位から所定の割合の第2の言語表現を取得してもよい。 Specifically, it sorts the second language expression to be a descending semantic similarity, to obtain a second language representation of the number from the top of the semantic similarity of a predetermined (one or more) At best, it may acquire a second language expression ratio from a higher semantic similarity predetermined. その所定の個数や所定の割合は、あらかじめ決まっていてもよく、あるいは、その算出時に決められてもよい。 The predetermined number or a predetermined percentage, which may be predetermined, or may be determined at the time of calculation.

なお、前述の評価実験において約3100万個の名詞から100万個の名詞を選択した際のソートについて、共起する文脈の多い方から4万個の単語ごとに、BC とBCとのMP@20を比較してみた。 Incidentally, MP for sorting when selecting nouns from about 31 million units of nouns 1,000,000 in the foregoing evaluation experiment, every 40,000 words from one with a lot of context of co-occurrence, the BC b and BC @ 20 I tried to compare. その結果、共起する文脈の多い単語については、BCと比較したBC による精度の改善幅が小さくなっていることが分かった。 As a result, for many words of the context of co-occurrence, it has been found that improved width of accuracy by BC b compared to BC is small. また、全体的な傾向として、共起する文脈の数が小さくなるにつれて、BC による精度の改善幅が大きくなっていることも分かった。 Further, the overall trend, as the number of the context of co-occurrence decreases were also found to improve the width precision due to BC b is larger. なお、共起する文脈の多い単語は、おおよそ、コーパスにおける頻度の高い単語である。 Incidentally, many words of the context of co-occurrence is roughly, a frequent words in the corpus. したがって、使用される頻度の高い単語については、異なるハイパーパラメータ(より小さい値)が適している可能性がある。 Thus, for frequent words that are used, it is possible that different hyperparameter (smaller value) suitable. したがって、算出部14は、受付部11が受け付けた第1及び第2の言語表現の頻度に応じて、ハイパーパラメータαの値を多少、上下させてもよい。 Therefore, calculation unit 14, depending on the frequency of the first and second language expressions accepting unit 11 accepts, the value of the hyper parameter α less may be moved up and down. 具体的には、頻度が高くなるほど、ハイパーパラメータαが小さくなり、頻度が低くなるほど、ハイパーパラメータαが大きくなるように、ハイパーパラメータαの値を調整してもよい。 Specifically, as the frequency increases, the hyper parameter alpha is reduced, as the frequency becomes lower, so the hyper parameter alpha is increased, it may adjust the value of the hyper-parameter alpha.

また、前述の評価実験では、すべてのkについてα =αとしたが、準備のためにさらに時間がかかってもよいのであれば、α のそれぞれを調整するようにしてもよい。 Further, in the above evaluation test, although the alpha k = alpha for all k, if the or takes more time for preparation, may be adjusted each alpha k. この場合には、さらに精度の高い結果が得られるものと考えられる。 In this case, it is believed that further accurate results can be obtained.

ここで、前述の(3)式の導出について、簡単に説明する。 Here, the derivation of the above equation (3) will be briefly described. まず、ディリクレ分布の規格化因子を導出するために用いられる次の関係がある。 First, the following relationship to be used to derive the normalization factor of the Dirichlet distribution.

したがって、(2)式と、BC係数を拡張した類似関数gと、(A)式とを用いると、意味的類似度は、次式のようになる。 Therefore, the equation (2), a similar function g that extends BC coefficient, the use of the formula (A), the semantic similarity is expressed by the following equation.

ここで、(A)式を用いると、上記式のBの部分は、次のようになる。 Here, the use of formula (A), part of the above formula B is as follows.
この結果、前述の(3)式のようになる。 As a result, as described above (3).

また、前述したように、類似度算出装置1においてコーパスを用いない場合には、類似度算出装置1は、コーパス記憶部12を備えていなくてもよい。 Further, as described above, in the case of not using the corpus in similarity calculation device 1, the similarity calculation device 1 may not include the corpus storing unit 12. また、出力部15が意味的類似度を記録媒体16に蓄積しない場合には、類似度算出装置1は、記録媒体16を備えていなくてもよい。 Further, when the output unit 15 does not accumulate semantic similarity in the recording medium 16, the similarity calculation device 1 may not include the recording medium 16.

また、上記実施の形態では、類似度算出装置1がスタンドアロンである場合について説明したが、類似度算出装置1は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。 Further, in the above embodiment, the similarity calculating apparatus 1 has been described as a stand-alone, the similarity calculation device 1 may be a stand-alone device, a server apparatus in a server-client system good. 後者の場合には、出力部や受付部は、通信回線を介して入力を受け付けたり、情報を出力したりしてもよい。 In the latter case, the output unit and the receiving unit, and accepts an input via a communication line, or to output the information.

また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。 Further, in the above embodiments, each process or each function may be realized by integrated processing by a single apparatus or a single system or distributed processing by a plurality of devices or systems it may be implemented by Rukoto.

また、上記実施の形態において、各構成要素が実行する処理に関係する情報、例えば、各構成要素が受け付けたり、取得したり、選択したり、生成したり、送信したり、受信したりした情報や、各構成要素が処理で用いるしきい値や数式、アドレス等の情報等は、上記説明で明記していない場合であっても、図示しない記録媒体において、一時的に、あるいは長期にわたって保持されていてもよい。 Information In the above-described embodiment, information relating to the processing of each component to perform, for example, the or accepted each component, or acquired, to select, generated or, send, and or received and the threshold and formulas each component used in the process, information such as addresses, even if not specified in the above description, a recording medium (not shown), is held for temporary or long-term, it may be. また、その図示しない記録媒体への情報の蓄積を、各構成要素、あるいは、図示しない蓄積部が行ってもよい。 Moreover, the accumulation of information in the storage medium (not shown), each of the components, or the storage unit (not shown) may be performed. また、その図示しない記録媒体からの情報の読み出しを、各構成要素、あるいは、図示しない読み出し部が行ってもよい。 Moreover, reading information from a storage medium (not shown), each of the components, or reading unit (not shown) may be performed.

また、上記実施の形態において、各構成要素等で用いられる情報、例えば、各構成要素が処理で用いるしきい値やアドレス、各種の設定値等の情報がユーザによって変更されてもよい場合には、上記説明で明記していない場合であっても、ユーザが適宜、それらの情報を変更できるようにしてもよく、あるいは、そうでなくてもよい。 Further, in the above embodiment, information used in the components such as, for example, when the threshold and address each component used in the process, the information of various setting values ​​may be changed by the user , even if not specified in the above description, the user may conveniently be allowed to change their information, or may not. それらの情報をユーザが変更可能な場合には、その変更は、例えば、ユーザからの変更指示を受け付ける図示しない受付部と、その変更指示に応じて情報を変更する図示しない変更部とによって実現されてもよい。 If the user can change their information, the change is implemented, for example, a receiving unit (not shown) receives a change instruction from the user, by the changing unit (not shown) to change the information in response to the change instruction it may be. その図示しない受付部による変更指示の受け付けは、例えば、入力デバイスからの受け付けでもよく、通信回線を介して送信された情報の受信でもよく、所定の記録媒体から読み出された情報の受け付けでもよい。 Reception of the change instruction by the receiving unit that is not shown, for example, may be at the reception of the input device may be the reception of information transmitted via a communication line, or at the reception of information read from a predetermined recording medium .

また、上記実施の形態において、類似度算出装置1に含まれる2以上の構成要素が通信デバイスや入力デバイス等を有する場合に、2以上の構成要素が物理的に単一のデバイスを有してもよく、あるいは、別々のデバイスを有してもよい。 Further, in the above embodiment, when two or more components included in the similarity calculation device 1 has a communication device and input devices such as, two or more components have physically a single device At best, or it may have a separate device.

また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。 Further, in the above embodiments, each component may be constituted by dedicated hardware, or components that can be implemented by software may be realized by executing a program. 例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。 For example, by performing a hard disk or a semiconductor memory such as a software program recorded on a recording medium by reading the program execution unit such as a CPU, the components can be achieved. なお、上記実施の形態における類似度算出装置を実現するソフトウェアは、以下のようなプログラムである。 The software that realizes the similarity calculation device of the above embodiment is the following program. つまり、このプログラムは、コンピュータを、意味的類似度の算出の対象となる第1の言語表現w 及び第2の言語表現w を受け付ける受付部、コーパスにおける前記第1の言語表現w の出現に関する情報である第1の文脈ベクトルと、前記コーパスにおける前記第2の言語表現w の出現に関する情報である第2の文脈ベクトルとを取得する取得部、2個の文脈ベクトルφ 、φ の類似度を計算する類似関数g(φ 、φ )と、前記第1及び第2の文脈ベクトルからベイズ推定を用いて得られた確率分布とを用いて、前記第1の言語表現に対応する文脈ベクトルと、前記第2の言語表現に対応する文脈ベクトルとの類似度の期待値である意味的類似度を算出する算出部、前記算出部が算出した意味的類似度を出力する出力部と In other words, the program, computer, semantic first language expression w 1 and receiving unit for the second accepting language expression w 2 to be similarity calculation, the in corpus first language expression w 1 first and context vector of the information about the appearance, acquisition unit for acquiring a second context vector which is the second occurrence information about the language expression w 2 in the corpus, two context vectors phi 1, phi similarity function g (phi 1, phi 2) to calculate the second similarity and, by using the probability distribution obtained by using a Bayesian estimation from the first and second context vector, the first language expression a context vector corresponding to, and outputs the semantic similarity calculation unit for calculating a semantic similarity is the expected value of the similarity between the context vector, wherein the calculation unit has calculated that corresponds to the second language expression and an output unit して機能させるためのものである。 It is intended to function with.

なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。 In this program, functions realized by the program do not include the ability can not be realized only by hardware. 例えば、情報を取得する取得部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。 For example, the acquisition unit and for acquiring information, the function can not be realized only by hardware such as a modem or an interface card in such output unit that outputs information does not include at least the functions realized by the program.

また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。 Further, that the program may be executed by being downloaded from a server, the predetermined recording medium (e.g., CD-ROM such as optical disks and magnetic disks, semiconductor memories, etc.) the program recorded is read it may be performed by. また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。 The program may be used as a program of the program product.

また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。 Further, the computer that executes this program may be a single, or a plurality. すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。 That may perform centralized processing or may be performed distributed processing.

図7は、上記プログラムを実行して、上記実施の形態による類似度算出装置1を実現するコンピュータの外観の一例を示す模式図である。 7 executes the program, which is a schematic diagram showing an example of an appearance of a computer that realizes the similarity calculation device 1 according to the above embodiment. 上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。 The above embodiments may be implemented by computer hardware and a computer program executed thereon.

図7において、コンピュータシステム900は、CD−ROM(Compact Disk Read Only Memory)ドライブ905、FD(Floppy(登録商標) Disk)ドライブ906を含むコンピュータ901と、キーボード902と、マウス903と、モニタ904とを備える。 7, computer system 900 includes a CD-ROM (Compact Disk Read Only Memory) drive 905, FD (Floppy (registered trademark) Disk) computer 901 including a drive 906, a keyboard 902, a mouse 903, a monitor 904 equipped with a.

図8は、コンピュータシステム900の内部構成を示す図である。 Figure 8 is a diagram showing the internal configuration of the computer system 900. 図8において、コンピュータ901は、CD−ROMドライブ905、FDドライブ906に加えて、MPU(Micro Processing Unit)911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)913と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク914と、MPU911、ROM912等を相互に接続するバス915とを備える。 8, the computer 901 includes, in addition to the CD-ROM drive 905, FD drive 906, a MPU (Micro Processing Unit) 911, a ROM912 for storing a program such as a startup program is connected to MPU911, application temporarily stores a program of instructions, and RAM (Random Access memory) 913 which provide temporary storage space, application programs, system programs, and a hard disk 914 for storing data, connected to each other MPU911, ROM 912, etc. and a bus 915. なお、コンピュータ901は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。 Note that the computer 901 may include a network card (not shown) for providing a connection to a LAN.

コンピュータシステム900に、上記実施の形態による類似度算出装置1の機能を実行させるプログラムは、CD−ROM921、またはFD922に記憶されて、CD−ROMドライブ905、またはFDドライブ906に挿入され、ハードディスク914に転送されてもよい。 The computer system 900, a program for executing the function of the similarity calculation device 1 according to the above embodiment, are stored in the CD-ROM 921 or FD922,, is inserted in the CD-ROM drive 905 or the FD drive 906, a hard disk 914 it may be transferred to. これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ901に送信され、ハードディスク914に記憶されてもよい。 Alternatively, the program may be transmitted via a network (not shown) to the computer 901, it may be stored in the hard disk 914. プログラムは実行の際にRAM913にロードされる。 Program is loaded into the RAM913 at the time of execution. なお、プログラムは、CD−ROM921やFD922、またはネットワークから直接、ロードされてもよい。 In addition, the program, CD-ROM921 and FD922 or directly from the network, it may be loaded.

プログラムは、コンピュータ901に、上記実施の形態による類似度算出装置1の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。 Program, the computer 901 may not include an operating system to execute the functions of the similarity calculation device 1 according to the above embodiment (OS), or a third-party program or the like necessarily. プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。 The program calls the appropriate function (module) in a controlled manner, may include only a portion of the instruction to obtain desired results. コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。 About how it works computer system 900 is well known, detailed description thereof will be omitted.

また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。 Further, the present invention is not limited to the above embodiment, and various modifications may be made, and naturally these modifications are included within the scope of the present invention.

以上より、本発明による類似度算出装置等によれば、文脈ベクトルの値が不確実であるという事実を考慮した適切な意味的類似度を算出することができ、意味的類似度を算出する装置等として有用である。 As described above, according to the similarity calculation device, etc. according to the present invention, it is possible that the value of the context vectors to calculate the appropriate semantic similarity in consideration of the fact that it is uncertain, to calculate a semantic similarity apparatus it is useful as such.

1 類似度算出装置 11 受付部 12 コーパス記憶部 13 取得部 14 算出部 15 出力部 16 記録媒体 1 similarity calculating unit 11 reception unit 12 corpus storing unit 13 acquiring unit 14 calculation unit 15 output unit 16 recording medium

Claims (6)

  1. 意味的類似度の算出の対象となる第1の言語表現w 及び第2の言語表現w を受け付ける受付部と、 A receiver for receiving the first language expression w 1 and the second language expression w 2 to be calculated semantic similarity,
    コーパスにおける前記第1の言語表現w の出現に関する情報である第1の文脈ベクトルと、前記コーパスにおける前記第2の言語表現w の出現に関する情報である第2の文脈ベクトルとを取得する取得部と、 Acquiring for acquiring first and context vector of which is information relating to the appearance of the first language expression w 1 in the corpus, and a second context vector which is the second occurrence information about the language expression w 2 in the corpus and parts,
    2個の文脈ベクトルφ 、φ の類似度を計算する類似関数g(φ 、φ )と、前記第1及び第2の文脈ベクトルからベイズ推定を用いて得られた確率分布とを用いて、前記第1の言語表現w に対応する文脈ベクトルと、前記第2の言語表現w に対応する文脈ベクトルとの類似度の期待値である意味的類似度を算出する算出部と、 Two context vectors phi 1, a similar function to calculate the phi 2 similarity g (φ 1, φ 2) , and a probability distribution obtained by using a Bayesian estimation from the first and second context vector used, and context vector corresponding to the first language expression w 1, and a calculation unit for calculating a semantic similarity is the expected value of the similarity between the context vector corresponding to the linguistic description w 2 of the second ,
    前記算出部が算出した意味的類似度を出力する出力部と、を備え And an output unit for outputting a semantic similarity which the calculation unit is calculated,
    前記文脈ベクトルは共起頻度を示すものであって多項分布であり、 The context vectors is multinomial distribution which shows an occurrence frequency,
    前記ベイズ推定の事前分布はディリクレ分布であり、 The prior distribution of Bayesian estimation is a Dirichlet distribution,
    前記算出部は、 The calculating unit,
    前記文脈ベクトルを用いてハイパーパラメータを補正した事後分布であるディリクレ分布の確率分布を用いて、前記意味的類似度を算出する、類似度算出装置。 Using the probability distribution of the Dirichlet distribution is the posterior distribution obtained by correcting the hyper parameters using the context vectors, calculates the semantic similarity, the similarity calculation device.
  2. 類似関数g(φ 、φ )は、 Similarity function g (φ 1, φ 2) is
    であり(ただし、φ 1k 、φ 2kはそれぞれ文脈ベクトルφ 、φ のk番目の要素であり、Kは文脈ベクトルφ 、φ の要素数であり、dは0より大きい実数であり、f は文脈ベクトルのk番目の要素を算出するために用いられる文脈であり、μ(w、f )は言語表現wと文脈f とに対する重みである)、請求項記載の類似度算出装置。 By and (however, φ 1k, φ 2k each context vector phi 1, a k-th element of phi 2, K the context vector phi 1, a number of elements phi 2, d is 0 real number larger than , f k is the context that is used for calculating the k-th element of the context vectors, μ (w, f k) is the weight for the language expression w and context f k), similar claim 1, wherein degree calculating device.
  3. 前記算出部は、 The calculating unit,
    前記第1及び第2の言語表現w 、w の意味的類似度sim (w 、w )を、 It said first and second language expression w 1, w 2 of semantic similarity sim b a (w 1, w 2),
    によって算出する(ただし、 Calculated by (However,
    c(w、f )は前記コーパスにおけるwとf との共起頻度であり、α は第1の文脈ベクトルに対応する事前分布であるディリクレ分布のk番目の要素のハイパーパラメータであり、β は第2の文脈ベクトルに対応する事前分布であるディリクレ分布のk番目の要素のハイパーパラメータである)、請求項記載の類似度算出装置。 c (w, f k) is the co-occurrence frequency of w and f k in the corpus, alpha k is hyper parameters of the k-th element of the Dirichlet distribution with prior distribution corresponding to the first context vectors , beta k is the hyper-parameters of the k-th element of the Dirichlet distribution with prior distribution corresponding to the second context vector), the similarity calculating apparatus according to claim 2, wherein.
  4. すべてのkについてμ(w 、f )=μ(w 、f )=1であり、d=1/2である、請求項または請求項記載の類似度算出装置。 For all k μ (w 1, f k ) = μ a (w 2, f k) = 1, a d = 1/2, the similarity calculation device according to claim 2 or claim 3, wherein.
  5. 受付部と、取得部と、算出部と,出力部とを用いて処理される類似度算出方法であって、 A receiving unit, an acquiring unit, a calculation unit, a and a similarity calculation method to be processed by using the output unit,
    前記受付部が、意味的類似度の算出の対象となる第1の言語表現w 及び第2の言語表現w を受け付ける受付ステップと、 The reception unit includes a reception step of receiving first language expression w 1 and the second language expression w 2 to be calculated semantic similarity,
    前記取得部が、コーパスにおける前記第1の言語表現w の出現に関する情報である第1の文脈ベクトルと、前記コーパスにおける前記第2の言語表現w の出現に関する情報である第2の文脈ベクトルとを取得する取得ステップと、 The acquisition unit, the second context vector, which is information first and context vectors of a first information about the appearance of linguistic expression w 1 in the corpus, to the appearance of the second language expression w 2 in the corpus an acquisition step of acquiring the door,
    前記算出部が、2個の文脈ベクトルφ 、φ の類似度を計算する類似関数g(φ 、φ )と、前記第1及び第2の文脈ベクトルからベイズ推定を用いて得られた確率分布とを用いて、前記第1の言語表現w に対応する文脈ベクトルと、前記第2の言語表現w に対応する文脈ベクトルとの類似度の期待値である意味的類似度を算出する算出ステップと、 The calculating section, two context vectors phi 1, similarity function g (phi 1, phi 2) to calculate the phi 2 of the similarity between, obtained using Bayesian inference from the first and second context vector by using the probability distribution, and context vector corresponding to the first language expression w 1, the semantic similarity is the expected value of the similarity between the context vector corresponding to the linguistic description w 2 of the second a calculation step of calculating to,
    前記出力部が、前記算出ステップで算出した意味的類似度を出力する出力ステップと、を備え The output unit, and an output step of outputting the semantic similarity calculated in the calculation step,
    前記文脈ベクトルは共起頻度を示すものであって多項分布であり、 The context vectors is multinomial distribution which shows an occurrence frequency,
    前記ベイズ推定の事前分布はディリクレ分布であり、 The prior distribution of Bayesian estimation is a Dirichlet distribution,
    前記算出ステップでは、 In the calculation step,
    前記文脈ベクトルを用いてハイパーパラメータを補正した事後分布であるディリクレ分布の確率分布を用いて、前記意味的類似度を算出する、類似度算出方法。 Using the probability distribution of the Dirichlet distribution is the posterior distribution obtained by correcting the hyper parameters using the context vectors, calculates the semantic similarity, the similarity calculation method.
  6. コンピュータを、 The computer,
    意味的類似度の算出の対象となる第1の言語表現w 及び第2の言語表現w を受け付ける受付部、 Receiver for receiving the first language expression w 1 and the second language expression w 2 to be calculated semantic similarity,
    コーパスにおける前記第1の言語表現w の出現に関する情報である第1の文脈ベクトルと、前記コーパスにおける前記第2の言語表現w の出現に関する情報である第2の文脈ベクトルとを取得する取得部、 Acquiring for acquiring first and context vector of which is information relating to the appearance of the first language expression w 1 in the corpus, and a second context vector which is the second occurrence information about the language expression w 2 in the corpus Department,
    2個の文脈ベクトルφ 、φ の類似度を計算する類似関数g(φ 、φ )と、前記第1及び第2の文脈ベクトルからベイズ推定を用いて得られた確率分布とを用いて、前記第1の言語表現w に対応する文脈ベクトルと、前記第2の言語表現w に対応する文脈ベクトルとの類似度の期待値である意味的類似度を算出する算出部、 Two context vectors phi 1, a similar function to calculate the phi 2 similarity g (φ 1, φ 2) , and a probability distribution obtained by using a Bayesian estimation from the first and second context vector used, and context vector corresponding to the first language expression w 1, wherein the calculation unit for calculating a semantic similarity is the expected value of the similarity between the context vector corresponding to a second language expression w 2,
    前記算出部が算出した意味的類似度を出力する出力部として機能させ To function as an output unit for outputting a semantic similarity which the calculation unit is calculated,
    前記文脈ベクトルは共起頻度を示すものであって多項分布であり、 The context vectors is multinomial distribution which shows an occurrence frequency,
    前記ベイズ推定の事前分布はディリクレ分布であり、 The prior distribution of Bayesian estimation is a Dirichlet distribution,
    前記算出部は、 The calculating unit,
    前記文脈ベクトルを用いてハイパーパラメータを補正した事後分布であるディリクレ分布の確率分布を用いて、前記意味的類似度を算出する、プログラム。 Using the probability distribution of the Dirichlet distribution is the posterior distribution obtained by correcting the hyper parameters using the context vectors, calculates the semantic similarity program.
JP2010150713A 2010-07-01 2010-07-01 Similarity calculation device, similarity calculation method, and a program Active JP5522389B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010150713A JP5522389B2 (en) 2010-07-01 2010-07-01 Similarity calculation device, similarity calculation method, and a program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010150713A JP5522389B2 (en) 2010-07-01 2010-07-01 Similarity calculation device, similarity calculation method, and a program

Publications (2)

Publication Number Publication Date
JP2012014476A true JP2012014476A (en) 2012-01-19
JP5522389B2 true JP5522389B2 (en) 2014-06-18

Family

ID=45600816

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010150713A Active JP5522389B2 (en) 2010-07-01 2010-07-01 Similarity calculation device, similarity calculation method, and a program

Country Status (1)

Country Link
JP (1) JP5522389B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068986B (en) * 2015-07-15 2018-03-16 浙江理工大学 Based on two-way iterative updates and automatically build a corpus of spam filtering methods
JP6019304B1 (en) * 2016-01-22 2016-11-02 ジャパンモード株式会社 Problem solving support system

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000148762A (en) * 1998-11-04 2000-05-30 Nippon Telegr & Teleph Corp <Ntt> Device and method for verb clustering and record medium where verb clustering program is recorded
JP2000231572A (en) * 1999-02-10 2000-08-22 Nippon Telegr & Teleph Corp <Ntt> Method and device for registering unknown word with noun thesaurus and recording medium with unknown word registration program recorded therein
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues

Also Published As

Publication number Publication date Type
JP2012014476A (en) 2012-01-19 application

Similar Documents

Publication Publication Date Title
Shahnaz et al. Document clustering using nonnegative matrix factorization
Cimiano et al. Learning taxonomic relations from heterogeneous sources of evidence
Zhai Statistical language models for information retrieval
Li et al. Sentence similarity based on semantic nets and corpus statistics
Hamilton et al. Diachronic word embeddings reveal statistical laws of semantic change
Coussement et al. Improving customer complaint management by automatic email classification using linguistic style features as predictors
Rousseau Journal evaluation: Technical and practical issues
Sarker et al. Portable automatic text classification for adverse drug reaction detection via multi-corpus training
Gao et al. Dependence language model for information retrieval
Mihalcea Unsupervised large-vocabulary word sense disambiguation with graph-based algorithms for sequence data labeling
US7496548B1 (en) Neural network for electronic search applications
Cheatham et al. String similarity metrics for ontology alignment
Peng et al. Context sensitive stemming for web search
Tang et al. A combination approach to web user profiling
US20030101187A1 (en) Methods, systems, and articles of manufacture for soft hierarchical clustering of co-occurring objects
US8090724B1 (en) Document analysis and multi-word term detector
US20060259481A1 (en) Method of analyzing documents
US20060217962A1 (en) Information processing device, information processing method, program, and recording medium
US20130018824A1 (en) Sentiment classifiers based on feature extraction
US20140067370A1 (en) Learning opinion-related patterns for contextual and domain-dependent opinion detection
Godin et al. Using topic models for twitter hashtag recommendation
Read et al. Weakly supervised techniques for domain-independent sentiment classification
Litvak et al. A new approach to improving multilingual summarization using a genetic algorithm
Ganesan et al. Micropinion generation: an unsupervised approach to generating ultra-concise summaries of opinions
Liu et al. Combining user preferences and user opinions for accurate recommendation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130624

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140207

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140318

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140325

R150 Certificate of patent or registration of utility model

Ref document number: 5522389

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250