JP6158105B2 - 言語モデル作成装置、音声認識装置、その方法及びプログラム - Google Patents

言語モデル作成装置、音声認識装置、その方法及びプログラム Download PDF

Info

Publication number
JP6158105B2
JP6158105B2 JP2014015223A JP2014015223A JP6158105B2 JP 6158105 B2 JP6158105 B2 JP 6158105B2 JP 2014015223 A JP2014015223 A JP 2014015223A JP 2014015223 A JP2014015223 A JP 2014015223A JP 6158105 B2 JP6158105 B2 JP 6158105B2
Authority
JP
Japan
Prior art keywords
topic
language model
model
speech recognition
rsm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014015223A
Other languages
English (en)
Other versions
JP2015141368A (ja
Inventor
陽太郎 久保
陽太郎 久保
堀 貴明
貴明 堀
中村 篤
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014015223A priority Critical patent/JP6158105B2/ja
Publication of JP2015141368A publication Critical patent/JP2015141368A/ja
Application granted granted Critical
Publication of JP6158105B2 publication Critical patent/JP6158105B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、トピックに応じた言語モデルを作成する技術、及びそのトピックに応じた言語モデルを用いる音声認識技術に関する。
音声認識装置は一般的に音響信号パターンと音素や単語の対応スコアを計算するための音響モデルと、音素や単語の並び方そのものをスコアリングするための言語モデルが格納されている。音声認識装置はこれらのモデル(音響モデル/言語モデル)のパラメタとして、大量のデータを用いた統計的推定技術による推定値を利用する。しかし、どれだけ大量にデータを集めても、音声認識装置の全利用状況に対応することは不可能である。そこで、これらのモデルのパラメタについて、実際の運用環境から得た少量の適応データによって、適応を行なう技術が考案されている。特に、音響モデルの適応技術では実際の運用時における話者の違いや環境の違いを吸収するために適応を行なう技術が導入される。一方、言語モデルの適応技術では、実際の運用時における発話のトピックの違いを吸収するために適応を行なう技術(以下、「トピック適応」ともいう)が利用される。
言語モデルのトピック適応では、まず、実際に音声認識装置が利用された際の少量のデータ(例えば、音声認識装置利用時の最初の数発話や直前の発話)を用いて、発話のトピックが何であるかを推定する。次に、そのトピックに応じた言語モデル(以下「トピック依存言語モデル」ともいう)を用いて音声認識を行なうことで音声認識精度を向上させる。一般的にこうした用途のためには、あらかじめ大量のテキスト学習データのトピックをなんらかの基準で分類しておき、そのトピックに応じた言語モデルのパラメタを用意しておく。そしてトピック適応時には、少量の適応データからどのトピックであるかを推定し、もしくは、確率的に記述し、そのトピックに応じた言語モデルのパラメタを利用して音声認識を行なう。文書から「何らかの話題(=トピック)」を推定するための統計的なモデルをトピックモデルという。言語モデルのトピック適応を実現する際に用いられるトピックモデルには大別して以下の二種類がある。なお、後者は前者の発展形である。
・probabilistic Latent Semantic Indexing (以下「pLSI」ともいう):各文書(音声認識の場合、ひとまとまりの発話に対応)が一つのトピックに属すると仮定し、そのトピック毎にどの単語が出現しやすいかについての確率分布を持つ(非特許文献1参照)
・Latent Dirichlet Allocation (以下「LDA」ともいう):文書内の単語それぞれが個別のトピックを持ち、各文書毎にトピックの出現頻度を示す確率分布を持つ(非特許文献2参照)
LDAはpLSIと異なり、文書が複合的なトピックを扱うことができる。すなわち文書が「政治」トピックの単語と「科学技術」トピックの単語を同数程度持つと考えることでこの文書が「科学技術政策」を表わすといったような表現ができる。
T. Hofmann, "Learning the Similarity of Documents: An information-geometric approach to document retrieval and categorization", Advances in Neural Information Processing Systems, 2000, pp. 914-920. D. Blei, A. Ng, M. Jordan, "Latent Dirichlet Allocation", Journal of Machine Learning Research, 2003, Vol. 3 pp. 993-1022.
LDAでは「科学技術政策」トピックに表われる単語の分布は「科学技術」トピックで表われる単語の分布と「政治」トピックで表われる単語の分布の混合の形でしか表現されない。従って、「科学技術」と「政治」が組み合わさった場合に特にあらわれやすい単語や表われにくい単語を適切に表現することが難しい。
LDAやpLSIといったトピックモデルは音声認識の適応処理にも適用され成果を上げている。しかし、近年の音声認識の適用範囲の広がりに伴い、より詳細にトピックを考慮する必要性が増加してきた。
本発明は、従来技術よりも詳細にトピックを考慮した言語モデル作成技術を提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、言語モデル作成装置は、ReplicatedSoftmaxModel(以下「RSM」)に基づくトピックモデルが格納されるRSM格納部と、N-gram言語モデルが格納される言語モデル格納部と、音声認識用音声データの潜在的なトピックの推定値であって、各要素が対応するトピックに属するか否かを表すベクトルからなるトピック変数と、トピックモデルのパラメタとを用いて、N-gram言語モデルを、音声認識用音声データの潜在的なトピックを考慮した言語モデルであるトピック依存言語モデルに変更するUnigramRescale部と、を含む。
上記の課題を解決するために、本発明の他の態様によれば、言語モデル作成方法は、ReplicatedSoftmaxModel(以下「RSM」)に基づくトピックモデルとN-gram言語モデルとが予め記憶されているものとし、音声認識用音声データの潜在的なトピックの推定値であって、各要素が対応するトピックに属するか否かを表すベクトルからなるトピック変数と、トピックモデルのパラメタとを用いて、N-gram言語モデルを、音声認識用音声データの潜在的なトピックを考慮した言語モデルであるトピック依存言語モデルに変更するUnigramRescaleステップを含む。
本発明によれば、従来技術よりも詳細にトピックを考慮した言語モデルを作成することができるという効果を奏する。さらに、トピック適応後の言語モデルを用いて従来技術よりも詳細にトピックを考慮した、認識精度の高い音声認識を行うことができるという効果を奏する。
従来の音声認識装置の機能ブロック図。 従来の音声認識装置の処理フローを示す図。 第一実施形態に係る学習装置の機能ブロック図。 第一実施形態に係る学習装置の処理フローの例を示す図。 第一実施形態に係る音声認識装置の機能ブロック図。 第一実施形態に係る音声認識装置の処理フローの例を示す図。 実験結果を説明するための図。
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」、「~」等は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態>
本実施形態では、Replicated Softmax Model(以下「RSM」ともいう)と呼ばれる、単語ひとつひとつが複合トピックに従って出現していると考えるトピックモデルを用いて、言語モデルのトピック適応を行う。さらに、トピック適応後のトピック依存言語モデルを用いて音声認識を行う。
まず、本実施形態に係る音声認識装置を説明する前に、前提となる従来の音声認識装置、言語モデル、トピックモデル、トピック適応技術について説明する。
<従来の音声認識装置>
図1は従来の音声認識装置9の機能ブロック図、図2はその処理フローを示す図である。
音声認識装置9は、特徴量抽出部91、単語列探索部92、音響モデル格納部93、言語モデル格納部94を備える。
特徴量抽出部91は、音声データを受け取り、この音声データの音声特徴量を抽出し(s91)、音声特徴量の時系列を単語列探索部92に出力する。
音響モデル格納部93には、予め構築しておいた音響モデルが格納されている。言語モデル格納部94には、予め構築しておいた言語モデルが格納されている。
単語列探索部92は音響モデルと言語モデルを読み込み、音声特徴量の時系列を受け取る。単語列探索部92は、まず、音響モデルに基づき、音声特徴量の時系列に対する1つ以上のシンボル系列を生成して、シンボル系列毎に音響スコアを算出する。なお、シンボル系列とは音素や単語等からなるシンボルの系列である。次に、言語モデルに基づき、シンボル系列毎に言語スコアを算出する。さらに、音響スコアと言語スコアとを統合して、1つ以上のシンボル系列の中から、音声データに対応する文として最も確からしい(最も音響スコアと言語スコアとを統合したスコアが高い)シンボル系列を探索し(s92)、そのシンボル系列を認識結果(単語列)として出力する。
本実施形態は、音声認識装置の実行に用いるトピック依存言語モデルの作成方法および作成したトピック依存言語モデルを用いた音声認識方法に関するものである。
<N-gram言語モデル>
音声認識装置の言語モデルは、単語列L={l1,l2,…,lj,…}(ここでl(エル)jは単語を表し、例えば自然数で記述した単語IDで表わされる)の出現確率P(L)を計算するモデルである。音声認識装置の言語モデルとして従来は広くN-gram言語モデルと呼ばれるモデルが用いられてきた。N-gram言語モデルでは、各単語は直前の数単語に依存して生成されると仮定され、以下のような数式を用いて単語列の確率を計算する。
Figure 0006158105
ここで、NはN-gram言語モデルの文脈長と呼ばれるパラメタであり、一般的に2から5くらいの値が用いられる。またΘはN-gram言語モデルを表し、N-gram言語モデルΘはN-gram確率P(lj|lj-1,lj-2,…,lj-N+1)等をパラメタとして含む。N-gram言語モデルは、単語の順序を表わす上で重要なモデルであるが、トピックを表現するような変数が介在しないため、トピック適応の用途にそのまま使うことはできない。
<トピックモデル>
トピックモデルでは、一般的にN-gram言語モデルと異なり、単語の順序ではなく、単語の出現頻度に着目する。ひとつの単語の出現分布は、単純にはどの単語が表われやすいか否かを示す確率となるが、ここに潜在的なトピックを示すトピック変数tを導入しP(lj|t)を考えることによって、トピックt毎に異なる単語の分布を考えることができる。トピック変数tを補助的に導入することで、少量の適応データからトピック変数tもしくはトピック確率分布のパラメタのみを推定し、言語モデルのトピック適応を行なうことができる。また、人手によって、トピック変数tもしくはトピック確率分布のパラメタを与える(調整する)ことによって、トピックを考慮した音声認識を行うことができるように調整することが可能になる。以下に、従来のトピック適応に用いられてきたトピックモデルpLSI及びLDAを説明する。また、本実施形態で用いるトピックモデルであるRSMを説明する。さらに、言語モデルのトピック適応で用いられるUnigram rescalingについて説明する。
<pLSI>
既存のトピックモデルとして最も単純なものは、単語列Lについて、以下のような単語分布を置くpLSIと呼ばれる方法である。
Figure 0006158105
なお、Θtはトピック変数tに対応するトピックにおける単語の出現確率の集合(Θt={θt,1t,2,…,θt,l_j,…})を、ΛはΘtの集合(Λ={Θ12,…,Θt,…})を、Ψはトピック変数tの分布を示すパラメタ(例えばトピック変数tの出現確率ψtの集合(Ψ={ψ12,…,ψt,…}))を表す。ここで、P(ljt)=θt,l_j(下付添え字のl_jはljを表す)、及びP(t|Ψ)=ψtは離散確率分布でモデル化される。すなわち、
Figure 0006158105
である。トピックとそれに対応する単語列が既知の場合は、θt,l_j及びP(t|Ψ)を単純に離散確率分布の推定法によって推定することができる。しかし、単語列に対しトピックを人手で付与するコストは高く、またそのようにして人手で付与したトピックが本当に有益か否かは分からない。そこで、トピックの個数のみを与え、トピックが何を意味するか、またそのトピックが与えられたときの単語の分布はどのようになっているかを単語列のみの学習データから自動で学習することが広く行なわれる。
pLSIを言語モデルのトピック適応に用いる場合は、適応データを用いて単一のトピック変数t、または、パラメタΨを推定し、推定した値を用いて、トピック適応を行う。
<LDA>
pLSIは各単語列につき一つのトピックを考え、そのトピックに対応した単語分布から単語が出現していると考えるモデルである。しかし、実際の文書は内部に複数のトピックを含むことも多く、pLSIはそのような複数のトピックを含む単語列に対して適切にモデル化できないと考えられる。
LDAは、単語列中の単語毎に異なるトピックtjを用い、単語列の出現確率を以下のように定義する。
Figure 0006158105
なお、T={t1,t2,…,tj,…}、^Η={η12,…}、Α={α12,…}であり、tjは単語ljのトピックであり、^Ηはトピック変数の出現確率ηを要素とするベクトルであり、Αはベクトル^Ηの確率分布P(^Η|Α)のパラメタである。P(ljt)およびP(tj|^Η)は離散確率分布で、P(^Η|Α)は離散確率分布のパラメタに関する確率分布として良く用いられるディリクレ分布を用いてモデル化される。この方法では各単語に割り当てられているトピックtjとそのトピックtjの出現確率ηとの組合せがトピック変数として用いられている。
LDAを言語モデルのトピック適応にLDAを用いる場合は、適応データを用いてパラメタΑを推定し、推定した値を用いてトピック適応を行う。
<Replicated Softmax Model(以下「RSM」ともいう)>
本実施形態では、言語モデルのトピック適応にRSMを用いる。RSMは、それぞれ別々のトピックに属する単語を集めることで複数のトピックを含む単語列とするLDAと異なる。RSMでは、ひとつひとつの単語(または単語列)が、複数のトピックを含む(に属している)と考える。RSMの単語の生成確率を以下に示す。
Figure 0006158105
ここで、Λ={wk,l,bk,cl|∀l,∀k}はパラメタ集合である。トピックの総数をKとし、各トピックをkで表し、k={1,2,…,K}であり、トピック変数はH∈{0,1}Kであり、K次元のバイナリベクトルで表わされる。hkはトピック変数Hのk番目の要素であり、ある単語が、トピックkに属する場合にはhk=1とし、属さない場合にはhk=0とする。wk,lはトピックと単語の関係を示すパラメタであり、bkはトピックの選ばれやすさを表すパラメタであり、clは単語の起こりやすさを表すパラメタである。pLSIやLDAでのトピックは一つの自然数(もしくはその確率分布)で表わされていたのに対し、RSMでは各トピックkはオン(1)とオフ(0)の二つの状態を持つ変数hkで表され、各単語(または各単語列)がどのトピックに属するかはK個の要素hkをもつベクトルで表わされる。このベクトルをトピック変数Hとする。
RSMを用いた文書のモデリングはLDAと比べ高精度であることが知られており(参考文献1参照)、音声認識の分野においても、この精度を活かした適応処理が期待できるが、これまで、RSMを音声認識に用いる言語モデルのトピック適応に利用した例はなかった。
(参考文献1)R. Salakhutdinov, G. Hinton, "Replicated softmax: an undirected topic model", Advances in neural information processing systems, 2009, pp. 1607-1614.
<Unigram Rescaling>
音声認識の言語モデルは認識結果に文法の制約を課すことが求められることから、単語の出現順序を考慮した確率モデル(前述のN-gram言語モデル等)であることが求められる。一方、トピックモデルはトピックの性質を記述するためのものであるため、文法的な制約を必要とせず、全ての出現順序を無視した単語の出現確率モデルとなっている。
音声認識にpLSIやLDAのトピックモデルを用いてN-gram言語モデルのトピック適応をする場合、Unigram Rescalingと呼ばれる手法が用いられる。Unigram Rescalingではトピック変数H(pLSIであればt、LDAであれば^Η)、および直前の数単語(以下では(N-1)単語の場合を示す)が与えられた際の単語の予測分布を以下のように表現する。
Figure 0006158105
ここでΛはトピックモデルのパラメタ(pLSIであればtまたはΨ、LDAであればΑ)、
ΘはN-gram言語モデルでありN-gram確率等のパラメタを含み、Γはユニグラム(N=1のN-gram)言語モデルであり、Uni-gram確率等のパラメタを含む。一般的にN-gram言語モデルΘは内部にユニグラム言語モデルΓを含むことが多いことからΓをΘと置き換えてもよい。
なんらかのトピック変数Hが定まれば、Unigram Rescalingによってトピックと単語の順序の両方を考慮したトピック依存言語モデルを作成することができる。
<本実施形態のポイント>
講義のような複合的なトピックに基づいて発話される音声の認識を正確に行なうには、RSMで示されるような、ひとつひとつの単語(または単語列)が、複数のトピックに属するとするトピックモデルを用いて、音声認識の言語モデルをトピック適応する必要がある。しかし、これまでのRSMは、単なる文書のモデリングテクニックとして利用されており音声認識に利用されてこなかった。音声認識に利用するためには、例えば、Unigram Rescalingのような技術を用いてN-gram言語モデルのような単語列の系列を捉えるモデルとの統合が必要である。
言語モデルのトピック適応には、あらかじめ人手で適応データを書き起こすことによって行なう教師あり適応と、音声データのみからトピック適応を行なう教師なし適応がある。教師なし適応は可用性が高いが、トピックモデルに基づく教師なし適応を行なうためには、音声データのみからトピックを推定する必要がある。
本実施形態では、RSMを用いてトピック適応を行った言語モデルを用いて音声認識を行う。そのために、Unigram Rescalingを用いてRSMとN-gram言語モデルとを統合する。言い換えると、RSMのトピックモデルを用いてN-gram言語モデルのトピック適応をする。なお、トピック適応前の言語モデルを用いて音声認識を行い、その認識結果を用いてトピックを推定し、推定したトピックに基づきトピック適応を行う。
<本実施形態に係るRSM学習及び音声認識>
本実施形態では、あらかじめ大量の文書データによって、各トピックの分類とトピック毎の性質を表わすRSMを学習する。さらに、学習されたRSMを用いて、トピックを推定し、そのトピックに合わせた言語モデルで音声認識を行なう。
<学習時:RSMの学習>
本実施形態におけるRSMは以下の実施形態によって学習されたものに限らないが、本実施形態では一例として参考文献1と同様、テキストデータに対するContrastive Divergence法を用いた例を紹介する。
Contrastive Divergence 法以外では、例えば、以下のような手法も利用可能である。
・Maximum pseudo likelihood 法
・Maximum composite likelihood 法
・Score matching 法
学習データとして^L:={L1,L2,…,Ln,…,LM}が与えられている時、Contrastive Divergence法による学習では、以下の目的関数を最大化することを試みる。
Figure 0006158105
目的関数を最大化する手法としてStochastic Gradient Descentを適用すると、以下の更新則を繰り返し適用することによって最適なΛ={wk,l,bk,cl|∀k,∀l}が得られる。
Figure 0006158105
ここでηは学習率と呼ばれる正の実数、rは自然数{1,2,…,L}の中からランダムに選ばれた一つのインデックスである。本実施形態では一つのインデックスrのみを用いて更新をすることを考えるが、ここで複数のrをランダムに選び、上述の偏微分係数をその複数のr に関する平均にしても良い。
更新式中の偏微分は以下のように表わすことができる。
Figure 0006158105
ここで<s(・)>q(・)はs(・)の確率分布q(・)に関する期待値である。実際に計算機上で、この偏微分係数を計算し、式(8)による更新を行うのは、以下の理由により、困難である。一般に、期待値を計算するためには確率がゼロではない全ての値を列挙する必要があるが、式(9)の期待値計算の場合、そのような値の通り数は語彙数をV、文書長をL、トピック数をKとした場合、最大VL2K個となることがあり、非常に困難である。
そこでContrastive Divergence 法は、式(9)中に登場する確率分布(ここではqと置く)についての関数sについての期待値計算を、その分布から得られたサンプル値x〜q(x)による関数で<s(・)>q(・)≒s(x)のように近似する。式(9)中に登場するP(hk,L'|Λ)からのサンプル値を得るには繰り返し計算の必要なマルコフ連鎖モンテカルロ法を用いる必要があるが、Contrastive Divergence法では、一般的に、このマルコフ連鎖モンテカルロ法の繰り返し数を大幅に削減し、打ち切って利用する。ただし、打ち切らずに十分な回数繰り返し、正確な値を求めても良い。本実施形態では、繰り返し回数を1回に制限した特に単純なContrastive Divergence法について紹介する。繰り返し回数が一回の場合、上述の偏微分係数は以下のように近似される。
Figure 0006158105
ここで、トピック変数Hのk番目の要素hkの一回目のサンプル値h(1) k∈{0,1}は、以下の確率分布からサンプルした変数である。ただしfはシグモイド関数と呼ばれる関数である。
Figure 0006158105
Contrastive Divergence法では式(9)の期待値計算を有限回のサンプリングに基づく計算(式(10))で近似する。トピック変数を上述のサンプルで得られたH(1)とした場合の各単語の出現回数のサンプル値は以下のように、サンプルされた単語列L(1)中の該当単語の回数を数えることによって得られる。
Figure 0006158105
ここでサンプルされた単語列L(1):={l(1) 1,l(1) 2,…,l(1) j,…}の各要素は以下の確率分布から生成される。
Figure 0006158105
トピック変数Hのk番目の要素hkの二回目サンプル値h(2) k∈{0,1}は、このようにして求めたc(1) lを単語の出現回数だと考えたトピックの分布から以下のようにサンプルした変数である。
Figure 0006158105
RSMのContrastive Divergence法は以上のサンプリングと更新を繰り返すことによって実行される。
<認識時>
ここでは、学習モデルを実際に適応に用いる方法の一例を紹介する。
<トピック推定処理>
本実施形態では、音声認識装置に入力された音声を適切なタイミングで切り分け、それを一つの文書だと考え、トピックを推定することで言語モデルのトピック適応を行なう。LDAによる従来技術のように(参考文献2参照)、RSMモデルのパラメタの一部(RSMの場合、トピックの選ばれやすさを表すパラメタbk)を再推定することによるトピック適応も考えられるが、本実施形態ではそれは用いず、発話に関連するトピックそのものを推定することでトピック適応することを考える。
(参考文献2)S. Watanabe, T. Iwata, T. Hori, A. Sako, Y. Ariki, "Topic tracking language model for speech recognition", Computer Speech and Language, 2011, Vol. 25, No. 2, pp 440-461.
一般的に、音声認識装置の入力は音声であり、トピック推定の手掛りに利用できるテキストが与えられていることは少ない。そこで、本実施形態では、トピック適応前の言語モデルを用いて、入力音声データに対して音声認識処理を行い、認識結果の単語列~Lを用いて、トピックを推定し、そのトピック、もしくはトピックの確率分布が与えられている元での単語の確率分布を計算することによって言語モデルのトピック適応を行なう。
すなわち、入力音声データから抽出した音声特徴量の時系列Xに対し、音響モデルΦ及びN-gram言語モデルΘを用いて、以下の認識処理を行なう。
Figure 0006158105
その後に、得られた認識結果~Lを用いて、トピック推定を行なう(以下の例では、最尤トピックを取得する方法を用いた)。
Figure 0006158105
ここで最尤トピックを取得する以外に、確率分布P(H'|~L)に基づいてサンプリングを行なう手法(例えば、式(11)の確率分布からサンプリングしてトピック変数Hを求める)や、確率分布関数そのものをトピックだと見做して利用する手法(例えば、式(11)の確率分布関数を並べたベクトルH=[P(h=1|~L), P(h2=1|~L), …] )などが利用可能である。
<音声認識処理>
実際の音声認識は、Unigram Rescalingによって、N-gram言語モデルをRSMでトピック適応したモデル(トピック依存言語モデル)を用いて行なう。
先述したUnigram Rescaling法を実現する式(6)にRSMのトピックモデルの確率分布を導入することで次式を得る(次式では簡単のため式(6)のΓをΘと等しいとした)。
Figure 0006158105
ここでΘはN-gram言語モデルであり、N-gram確率等のパラメタを含む。本実施形態では、RSMのトピックモデルと従来のN-gram言語モデルとの中間の確率値を与える言語モデルを利用可能にするため、補完係数α(ただし0<α≦1)を導入して、以下のような確率分布として用いた。
Figure 0006158105
式(18)はα=1のときに式(17)と同等となる。
この確率分布関数は従来のN-gram言語モデルと同様に利用することができ、音声認識にそのまま利用可能である。
<学習装置>
以上の理論を装置上に構成するための学習装置について説明する。
図3は本実施形態に係る学習装置100の機能ブロック図、図4はその処理フローの例を示す図である。学習装置100は、学習用テキスト格納部101、RSM更新部102、トピックサンプラー103、テキストサンプラー104、乱数生成器105、RSMパラメタ格納部106及びRSM初期化部107を含む。
乱数生成器105は、乱数列を生成し、それぞれRSM初期化部107、テキストサンプラー104及びトピックサンプラー103に出力する。
学習用テキスト格納部101には、大量のテキストデータが格納されている。なお、このテキストデータには、音声認識用音声データ中に出現しうるトピックと同様のトピックが含まれることが望ましい。
(s1)
RSM初期化部107は、RSMのパラメタΛ={wk,l,bk,cl|∀l,∀k}の初期値を設定し(s1)、RSMパラメタ格納部106に格納する。なお、前述の通り、wk,lはトピックと単語の関係を示すパラメタであり、bkはトピックの選ばれやすさを表すパラメタであり、clは単語の起こりやすさを表すパラメタである。
なお、初期値はどのような値でも良いが、本実施形態では、まず、RSM初期化部107は、乱数列を受け取り、その乱数を以下のような平均0、分散εの正規分布乱数に変換した後、それをwk,lの初期値として設定する。
Figure 0006158105
続いて、次式のように、0をbkの初期値に、学習データ中の出現頻度の対数をclの初期値に設定する。
Figure 0006158105
この初期化法の利点はε→0の極限において、P(L|H)の確率分布関数が、ユニグラム言語モデルの確率分布関数と一致する点がある。他の初期化法としては、単に全てを乱数で初期化する方法などが考えられる。
(s2)
まず、トピックサンプラー103は、乱数列を受け取り、それに基づき、学習用テキスト格納部101からRSM学習用のテキストデータを選択する(s2)。例えば、乱数列中の一つの乱数をテキストデータの総数で除算し、剰余を式(8)で利用される乱数rとして用いる。
Figure 0006158105
次に、トピックサンプラー103は、学習用テキスト格納部101から乱数rに対応する単語列LrをRSM学習用のテキストデータとして読み込む。
(s3)
さらに、トピックサンプラー103は、RSMパラメタ格納部106からRSMのパラメタΛ={wk,l,bk,cl|∀l,∀k}を取り出し、単語列Lrを受け取り、式(11)に従って、単語列Lrに関連付いたトピックを乱数生成器から受け取った乱数に基づいてサンプリングする(s3)。
Figure 0006158105
サンプリングしたトピックに対応するトピック変数の推定値H(1):={h(1) 1,h(1) 2,…,h(1) K}をテキストサンプラー104に出力する。
(s4)
テキストサンプラー104は、RSMパラメタ格納部106からRSMのパラメタΛを取り出し、トピックサンプラー103からトピック変数の推定値H(1)を受け取り、これらの値を用いて、式(13)により、乱数生成器の乱数に基づいて疑似テキストL(1):={l(1) 1,l(1) 2,…,l(1) j,…}をサンプリングする。L(1):={l(1) 1,l(1) 2,…,l(1) j,…}の各要素は以下の確率分布から生成される。
Figure 0006158105
さらに、テキストサンプラー104は、疑似テキストL(1)から単語の起こりやすさを表すパラメタの一回目のサンプル値c(1) lを式(12)に従って求め、トピックサンプラー103に出力する。
Figure 0006158105
なお、式(13)のような離散確率分布の有限回独立なサンプルから得られる回数が多項分布に従うという性質を利用し、直接多項分布からのサンプルを行ない高速化してもよい。
(s5)
トピックサンプラー103は、サンプル値c(1) lを受け取り、この値と乱数生成器から出力される乱数および、RSMのパラメタΛを利用して、式(14)に従って疑似トピック変数H(2):={h(2) 1,h(2) 2,…,h(2) K}をサンプリングする(s5)。
Figure 0006158105
(s6)
RSM更新部102は、トピックサンプラー103から推定値H(1)と疑似トピック変数H(2)とを受け取る。また、テキストサンプラー104からサンプル値c(1) lを受け取る。これらの値を用いて、式(8)で用いる近似偏微分係数を式(10)に基づき求める。
Figure 0006158105
さらに、近似偏微分係数を用いて、式(8)により、RSMのパラメタΛ={wk,l,bk,cl|∀K,∀l}の更新を行なう(s6)。
Figure 0006158105
更新したパラメタΛはRSMパラメタ格納部106に格納し、次の更新に用いる。
(s7)
RSM更新部102での処理を終える度に、収束チェックを行ない(s7)、収束していたらアルゴリズムを終了する。収束していない場合には、s2から処理を再度やり直す。
なお、収束ステップは主に外部要因(一定時間の経過など)によって行なわれるため、構成図中にこれを実行する箇所は記載していない。ただし、収束判定部を設けてもよい。収束判定には一般的に、c(1) lとC(l;Lr)の差の二乗を全てのrについて累積したもの等が用いられるが、特にそれに限定されることなく、例えば一定時間の経過後に収束したと判断しても良い。例えば、図示しない収束判定部において、c(1) lとC(l;Lr)の差の二乗を全てのrについて累積したものが閾値よりも小さい場合や一定時間の経過した場合に収束したと判定し、各部に処理を停止させるための制御信号を出力する構成としてもよい。
<音声認識装置>
図5は本実施形態に係る音声認識装置200の機能ブロック図、図6はその処理フローの例を示す図である。
音声認識装置200は、特徴量抽出部201、音声特徴量格納部202、第一単語列探索部203、音響モデル格納部204、言語モデル格納部205、トピック推定部206、RSMパラメタ格納部207、第二単語列探索部208及びUnigram Rescale部209を含む。
音声認識装置200は、音声データを受け取り、音声認識を実行し、認識結果である単語列を出力する。
<各格納部>
音響モデル格納部204及び言語モデル格納部205には、それぞれ既存の作成技術を用いて、作成された音響モデル及びN-gram言語モデルが音声認識に先立ち格納されている。
RSMパラメタ格納部207には、RSMに基づくトピックモデルが音声認識に先立ち格納されている。RSMに基づくトピックモデルは、例えば、学習装置100で学習したRSMパラメタを含む。
音響モデルは、音声の音響的特徴をモデル化したものであり、音響モデルを参照することにより音声データを音素や単語といったシンボルに変換する。通常、音響モデルでは、各音素をLeft to rightのHMM(Hidden Markov Model:隠れマルコフモデル)で、HMM状態の出力確率分布をGMM(Gaussian Mixture Model:混合ガウス分布モデル)で表現する。そのため、実際に音響モデルとして音響モデル格納部204に記録されているのは、音素などの各シンボルにおけるHMMの状態遷移確率、GMMの混合重み因子、及びガウス分布の平均ベクトル及び共分散行列等となる。これらを音響モデルパラメータと呼び、その集合をΦとする。
<特徴量抽出部201>
特徴量抽出部201は、音声データを受け取り、この音声データの音声特徴量を抽出し(s11)、音声特徴量格納部202に格納する。音声特徴量は、例えばMFCC(Mel-Frequency Cepstrum Coefficient)、MFCCの変化量であるΔMFCCであり、後述する第一単語列探索部203、第二単語列探索部208で用いることができるものであればよい。音声特徴量の抽出は、既存の技術を用いればよい。
<第一単語列探索部203>
第一単語列探索部203は、音響モデルとトピック適応前のN-gram言語モデルとを用いて、音声データに対して音声認識処理を行い、認識結果の単語列を探索する(s203)。
例えば、音声特徴量格納部202に格納された音声特徴量を取り出す。また、第一単語列探索部203は、音響モデル格納部204に格納されている音響モデル、言語モデル格納部205に格納されているN-gram言語モデルを読み込む。第一単語列探索部203は、音響モデルとN-gram言語モデルとを用いて、式(15)に基づき、音声特徴量の時系列Xに対する音声認識を行い(s12)、音声認識結果~Lをトピック推定部206に出力する。
Figure 0006158105
なお、式(15)は、音響モデルΦとN-gram言語モデルΘとを用いて、1つ以上のシンボル系列の中から、音声データから抽出した音声特徴量の時系列Xに対応する文として最も確からしい(最も音響スコアと言語スコアとを統合したスコアが高い)シンボル系列を探索することを意味する。この最も確からしいシンボル系列を音声認識結果~Lとして出力する。
音声認識は、既存の技術を用いればよい。例えば、単語列探索部92と同様の方法で音声認識を行ってもよい。トピックを推定することができれば十分であるため、比較的軽い処理の音声認識技術を用いればよい。なお、音声認識の際に取得される音響スコアを第二単語列探索部208に出力してもよい。
<トピック推定部206>
トピック推定部206は、音声認識結果~Lを受け取り、音声認識結果~Lを用いて、式(16)に基づいて、トピック変数Hを推定し(s13)、Unigram Rescale部209に出力する。
Figure 0006158105
この推定処理は式(11)のP(h=1|~L)が0.5より大きくなる場合にh=1、そうでない場合にh=0と設定することで実行される。
<Unigram Rescale部209>
Unigram Rescale部209は、トピック変数Hを受け取る。さらに、言語モデル格納部205に格納されているN-gram言語モデルΘと、RSMパラメタ格納部207に格納されているRSMパラメタΛとを読み込む。
Unigram Rescale部209は、トピック変数Hと、RSMパラメタΛとを用いて、次式で定義される音声データの潜在的なトピックを考慮したN-gram確率P(lj|lj-1,lj-2,…,lj-N+1,H,Λ,Θ)を求め、N-gram言語モデルΘを、音声データの潜在的なトピックを考慮した言語モデルであるトピック依存言語モデルΘ(2)に変更し(s14)、第二単語列探索部208に出力する。
Figure 0006158105
ただし、
Figure 0006158105
である。換言すると、N-gram言語モデルΘとトピック変数HとRSMパラメタΛとを用いて、トピック依存言語モデルΘ(2)を作成する。
<第二単語列探索部208>
第二単語列探索部208は、音声特徴量格納部202に格納された音声特徴量を取り出す。また、第二単語列探索部208は、音響モデル格納部204に格納されている音響モデルΦを読み込む。また、トピック依存言語モデルΘ(2)を受け取る。第二単語列探索部208は、音響モデルΦとトピック依存言語モデルΘ(2)とを用いて、次式に基づき、特徴量ベクトルに対する音声認識を行い(s15)、音声認識結果Lを音声認識装置200の出力値として出力する。
Figure 0006158105
つまり、従来のN-gram言語モデルΘに代えて、トピック依存言語モデルΘ(2)を用いればよい。
<実験結果>
実験に用いるコーパスとしてMITの英語講義音声を用いた。学習セットと評価セットの発話数はそれぞれ438,156発話と6,989発話である。学習セット中に含まれる語彙の数は49099種類、未知語、すなわち評価セットに含まれていて学習セットに含まれていない語彙は存在しなかった。
また、各種パラメタの調整には711文の開発セットを用いた。潜在トピックの数Kは32とした。評価セットの音声認識単語エラー率を図7に示す。結果より本実施形態によって発話トピックに合わせて音声認識を行なうことで認識精度を改善可能であることが示された。
<効果>
本実施形態によれば、従来技術よりも詳細にトピックを考慮した言語モデルを用いて音声認識を行うことができるという効果を奏する。
音声認識の言語モデルを、実際に利用される状況でのトピックに合わせて詳細に調整できる。また、従来法と異なり、複合的なトピックを直接考慮することが可能なため、学習データ中に表われなかったトピックのための言語モデルを、トピックを表わす変数を人手によって調整することによって作成することもできる。
<変形例>
本実施形態で説明した方法で、従来技術よりも詳細にトピックを考慮した言語モデルを作成することができる。トピック依存言語モデルを作成する場合には、言語モデル作成装置は、少なくともRSMパラメタ格納部207、言語モデル格納部205及びUnigram Rescale部209を含めばよい。トピック変数Hは、音声認識用音声データがどのようなトピックを含んでいるかが事前に分かっている場合には、人手により入力すればよい。例えば、特定の分野のコールセンターの通話内容等に対する音声認識のためのトピック依存言語モデルであれば、事前にどのようなトピックに属するか予め人手により入力することができる。事前にどのようなトピックに属するか予め人手により入力することができない場合であって、認識結果L'(テキストデータ)を入力とすることができる場合には、上記構成にトピック推定部206を加えればよい。さらに、認識結果L'(テキストデータ)を入力とすることができない場合には、トピック推定用音声データに対して音声認識を行うために、音響モデル格納部204を加えればよい。なお、必ずしも音声特徴量を音声特徴量格納部202に格納する必要はなく、特徴量抽出部201で抽出した音声特徴量を直接各部に出力してもよい。何れの方法によって作成されたトピック依存言語モデルを用いたとしても、本実施形態に係る音声認識装置と同様の効果を奏する。
なお、トピック推定用の音声データとして、音声認識用の音声データの一部を用いてもよいし、音声認識用の音声データとは別の音声データを用いてもよい。ただし、トピック推定用の音声データは、音声認識用の音声データと同様の潜在的なトピックを持つと推定されるものでなければならない。
なお、本実施形態では、第一単語列探索部203と第二単語列探索部208で同じ音響モデルを用いているが、異なる音響モデルを用いてもよい。例えば、第一単語列探索部203では、データ量の少ない音響モデルを用いて、演算量の少ない方法で音響スコアを求めてもよい。
本実施形態では、学習装置100と音声認識装置200を別装置として説明しているが、1つの装置内でこれらの処理を行ってもよい。この場合、RSMパラメタ格納部106とRSMパラメタ格納部207とを同一の記憶部としてもよい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. Replicated Softmax Model(以下「RSM」)に基づくトピックモデルが格納されるRSM格納部と、
    N-gram言語モデルが格納される言語モデル格納部と、
    音声認識用音声データの潜在的なトピックの推定値であって、各要素が対応するトピックに属するか否かを表すベクトルからなるトピック変数と、前記トピックモデルのパラメタとを用いて、前記N-gram言語モデルを、前記音声認識用音声データの潜在的なトピックを考慮した言語モデルであるトピック依存言語モデルに変更するUnigram Rescale部と、を含む、
    言語モデル作成装置。
  2. 請求項1の言語モデル作成装置であって、
    ljは単語を表し、L={l1,l2,…,lj,…}、k=1,2,…,K、トピック変数をH={h1,h2,…,hK}とし、RSMに基づくトピックモデルにおけるトピックと単語の関係を示すパラメタをwk,lとし、RSMに基づくトピックモデルにおけるトピックの選ばれやすさを示すパラメタをbkとし、RSMに基づくトピックモデルにおける単語の出現確率をclとし、Λ={wk,l,bk,cl|∀l,∀k}、N-gram言語モデルをΘとし、N-gram確率をP(lj|lj-1,lj-2,…,lj-N+1,Θ)とし、Uni-gram確率をP(lj|Θ)とし、トピック依存言語モデルのトピックに依存するN-gram確率をP(lj|lj-1,lj-2,…,lj-N+1,H,Λ,Θ)とし、0<α≦1とし、
    前記Unigram Rescale部は、次式により定義されるN-gram確率P(lj|lj-1,lj-2,…,lj-N+1,H,Λ,Θ)を求め、前記N-gram言語モデルを前記トピック依存言語モデルに変更する、
    Figure 0006158105

    Figure 0006158105

    言語モデル作成装置。
  3. 請求項1または2の言語モデル作成装置であって、
    前記音声認識用音声データと同様の潜在的なトピックを持つと推定されるトピック推定用音声データに対応するトピック推定用テキストデータを用いて、前記トピック変数を求めるトピック推定部を、さらに含む、
    言語モデル作成装置。
  4. 請求項3の言語モデル作成装置であって、
    音響モデルが格納される音響モデル格納部と、
    前記音響モデルと前記N-gram言語モデルとを用いて、トピック推定用音声データに対して音声認識処理を行い、前記トピック推定用テキストデータを認識結果の単語列として探索する第一単語列探索部と、をさらに含む、
    言語モデル作成装置。
  5. 請求項1から4の何れかの言語モデル作成装置で作成した前記トピック依存言語モデルと音響モデルとを用いて、前記音声認識用音声データに対して音声認識処理を行い、認識結果の単語列を探索する第二単語列探索部を含む、
    音声認識装置。
  6. Replicated Softmax Model(以下「RSM」)に基づくトピックモデルとN-gram言語モデルとが予め記憶されているものとし、
    音声認識用音声データの潜在的なトピックの推定値であって、各要素が対応するトピックに属するか否かを表すベクトルからなるトピック変数と、前記トピックモデルのパラメタとを用いて、前記N-gram言語モデルを、前記音声認識用音声データの潜在的なトピックを考慮した言語モデルであるトピック依存言語モデルに変更するUnigram Rescaleステップを含む、
    言語モデル作成装置が実行する言語モデル作成方法。
  7. 請求項6の言語モデル作成方法で作成した前記トピック依存言語モデルと音響モデルとを用いて、前記音声認識用音声データに対して音声認識処理を行い、認識結果の単語列を探索する第二単語列探索ステップを含む、
    音声認識装置が実行する音声認識方法。
  8. 請求項1〜4の何れかの言語モデル生成装置、または、請求項5の音声認識装置として、コンピュータを機能させるためのプログラム。
JP2014015223A 2014-01-30 2014-01-30 言語モデル作成装置、音声認識装置、その方法及びプログラム Active JP6158105B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014015223A JP6158105B2 (ja) 2014-01-30 2014-01-30 言語モデル作成装置、音声認識装置、その方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014015223A JP6158105B2 (ja) 2014-01-30 2014-01-30 言語モデル作成装置、音声認識装置、その方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2015141368A JP2015141368A (ja) 2015-08-03
JP6158105B2 true JP6158105B2 (ja) 2017-07-05

Family

ID=53771742

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014015223A Active JP6158105B2 (ja) 2014-01-30 2014-01-30 言語モデル作成装置、音声認識装置、その方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6158105B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299692A (zh) * 2018-09-26 2019-02-01 深圳壹账通智能科技有限公司 一种身份识别方法、计算机可读存储介质及终端设备
CN110853617B (zh) * 2019-11-19 2022-03-01 腾讯科技(深圳)有限公司 一种模型训练的方法、语种识别的方法、装置及设备
JP7369110B2 (ja) * 2020-09-30 2023-10-25 本田技研工業株式会社 会話支援装置、会話支援システム、会話支援方法およびプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010100853A1 (ja) * 2009-03-04 2010-09-10 日本電気株式会社 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体

Also Published As

Publication number Publication date
JP2015141368A (ja) 2015-08-03

Similar Documents

Publication Publication Date Title
JP6686154B2 (ja) 発話認識方法及び装置
TWI530940B (zh) 聲學模型訓練方法和裝置
EP2973546B1 (en) Multilingual deep neural network
JP6831343B2 (ja) 学習装置、学習方法及び学習プログラム
CN108538285B (zh) 一种基于多任务神经网络的多样例关键词检测方法
JP5982297B2 (ja) 音声認識装置、音響モデル学習装置、その方法及びプログラム
JP2010170137A (ja) 音声理解装置
Kurimo et al. Modeling under-resourced languages for speech recognition
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
Manjunath et al. Indian Languages ASR: A Multilingual Phone Recognition Framework with IPA Based Common Phone-set, Predicted Articulatory Features and Feature fusion.
JP6158105B2 (ja) 言語モデル作成装置、音声認識装置、その方法及びプログラム
Jyothi et al. Lexical access experiments with context-dependent articulatory feature-based models
JP2013117683A (ja) 音声認識装置、誤り傾向学習方法、及びプログラム
JP6646337B2 (ja) 音声データ処理装置、音声データ処理方法および音声データ処理プログラム
JP4881357B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP6350935B2 (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
Chung et al. Unsupervised discovery of structured acoustic tokens with applications to spoken term detection
JP2019078857A (ja) 音響モデルの学習方法及びコンピュータプログラム
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP6235922B2 (ja) 重み付き有限状態オートマトン作成装置、記号列変換装置、音声認識装置、それらの方法、及びプログラム
JP6699945B2 (ja) 音響モデル学習装置、その方法、及びプログラム
Ravi et al. Phoneme segmentation-based unsupervised pattern discovery and clustering of speech signals
JP2020129061A (ja) 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
Sahraeian Acoustic modeling of under-resourced languages

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170221

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170607

R150 Certificate of patent or registration of utility model

Ref document number: 6158105

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150