JP6731802B2 - 検出装置、検出方法及び検出プログラム - Google Patents

検出装置、検出方法及び検出プログラム Download PDF

Info

Publication number
JP6731802B2
JP6731802B2 JP2016135403A JP2016135403A JP6731802B2 JP 6731802 B2 JP6731802 B2 JP 6731802B2 JP 2016135403 A JP2016135403 A JP 2016135403A JP 2016135403 A JP2016135403 A JP 2016135403A JP 6731802 B2 JP6731802 B2 JP 6731802B2
Authority
JP
Japan
Prior art keywords
voice
acoustic signal
detection
posterior probability
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016135403A
Other languages
English (en)
Other versions
JP2018005122A (ja
Inventor
悠哉 藤田
悠哉 藤田
健一 磯
健一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2016135403A priority Critical patent/JP6731802B2/ja
Publication of JP2018005122A publication Critical patent/JP2018005122A/ja
Application granted granted Critical
Publication of JP6731802B2 publication Critical patent/JP6731802B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検出装置、検出方法及び検出プログラムに関する。
近年、自動音声認識(Automatic Speech Recognition)を利用した技術が普及している。例えば、従来ではテキストデータを入力することで行われていた情報処理が、音響信号の入力によって行われる場合がある。すなわち、入力された音響信号がテキストデータとして認識され、テキストデータに変換されて情報処理が行われる。また、認識精度の向上のため、音声認識の前段として、入力された音響信号のうちいずれの区間が音声であるかを検出する音声区間検出(Voice Activity Detection)といった技術が知られている。
音声区間検出に関する技術として、例えば、話者が3名以上であっても音声信号ストリーム中の複数の話者による対話状況の区切りや対話状況を推定する技術が知られている。
特開2008−139654号公報
しかしながら、従来技術では、音声認識の精度を向上させることができない場合がある。例えば、入力される音響信号には、話者の特徴が明確でないテレビやラジオ等の背景発話(Background speech)が含まれる場合がある。従来技術では、背景発話についても音声として認識されてしまい、適切に音声区間検出が行われない場合がある。そして、音声区間検出が適切に行われない場合、音声ではない部分(ノイズ)や背景発話がテキストに変換されることがあるため、音声認識の精度が低下するという問題があった。
本願の開示する技術は、上記に鑑みてなされたものであって、音声認識の精度を向上させることができる検出装置、検出方法及び検出プログラムを提供することを目的とする。
本願に係る検出装置は、所定の時間長の音響信号を取得する取得部と、音響信号における音素の尤度を測定する音響モデルを用いて、前記取得部によって取得された音響信号から、処理対象とする音声である目的音声と、目的音声以外の音声である背景発話とを識別する識別部と、前記識別部によって識別された結果に基づいて、前記所定の時間長の音響信号の中から目的音声が含まれる音声区間を検出する検出部と、を備えることを特徴とする。
実施形態の一態様によれば、音声認識の精度を向上させることができるという効果を奏する。
図1は、実施形態に係る検出処理の一例を示す図である。 図2は、実施形態に係る検出処理の概要を説明する図である。 図3は、実施形態に係る検出処理システムの構成例を示す図である。 図4は、実施形態に係る検出装置の構成例を示す図である。 図5は、実施形態に係る学習データ記憶部の一例を示す図である。 図6は、実施形態に係る音響モデル記憶部の一例を示す図である。 図7は、実施形態に係る処理手順を示すフローチャートである。 図8は、検出装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本願に係る検出装置、検出方法及び検出プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る検出装置、検出方法及び検出プログラムが限定されるものではない。また、各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
〔1.検出処理の一例〕
まず、図1を用いて、実施形態に係る検出処理の一例について説明する。図1は、実施形態に係る検出処理の一例を示す図である。図1では、本願に係る検出装置100が、ユーザが利用する端末装置であるユーザ端末10から音響信号を取得し、取得した音響信号から音声区間を検出する処理の一例を示している。
図1に示す検出装置100は、音響信号を取得し、取得した音響信号から音声区間を検出する処理を行うサーバ装置である。具体的には、検出装置100は、自動音声認識を利用したサービス(例えば、音声認識を利用して検索を行うウェブ検索サービス)をユーザが利用する場合に、自動音声認識の前段の処理として、ユーザ端末10から送信される音響信号を取得する。そして、検出装置100は、取得した所定の時間長の音響信号において、いずれの区間に音声(例えば、ユーザがユーザ端末10に入力した音声)が含まれているかを識別する。さらに、検出装置100は、音声と識別した区間を、音声検出区間として切り出す。そして、検出装置100は、音声検出区間として切り出した音響信号を、自動音声認識の後段の処理を行う所定の情報処理装置に送信する。
図1に示すユーザ端末10は、ユーザによって利用されるスマートフォン等の情報処理端末である。ユーザは、ユーザ端末10を介して、ウェブサーバから提供される検索サービス等のサービスコンテンツを利用する。この場合、ユーザ端末10は、ユーザから音声の入力を受け付ける。具体的には、ユーザ端末10は、内蔵したマイクロフォン等の音声入力装置を利用して、ユーザが発する音声を取得する。そして、ユーザ端末10は、取得した音声を含む音響信号を検出装置100に送信する。なお、本明細書中においては、ユーザとユーザ端末10とを同一視する場合がある。例えば、「ユーザが音響信号を送信する」とは、実際には、「ユーザが利用するユーザ端末10が音響信号を送信する」ことを意味する場合がある。
検出装置100は、検出処理にあたり、まずユーザ端末10から取得した音響信号が音声であるか非音声であるかを判定する。取得した音響信号が音声でなく単なるノイズであれば、検出装置100は、そのような音響信号に対して処理を行うことを要さない。すなわち、検出装置100は、音響信号のうち音声のみを処理対象とすることで、後段の処理を行う装置等の処理負荷を軽減させることができる。
ところで、ユーザ端末10がユーザの音声を取得する環境は様々であることが想定される。例えば、ユーザが自動車内でユーザ端末10を利用する場合には、ユーザ端末10は、ユーザの音声の他に、ユーザ端末10に音声を入力しようとするユーザ以外の音声(例えば、同乗者の音声)を取得する場合がある。また、図1に示すように、テレビ20やラジオ30がユーザ端末10の付近に存在する場合、ユーザ端末10は、ユーザの音声の他に、テレビ20やラジオ30から発せられる音声を取得する場合がある。
ユーザの置かれた環境において、ユーザの音声のような処理の対象とすべき音声(以下、「目的音声」と表記する)以外の音声である背景発話が存在すると、ユーザ端末10によって取得される音声は、目的音声と背景発話とが混在する音声となる。そして、これらの音声を含む音響信号から音声区間検出を行った場合、背景発話を含む音声を検出することになるため、本来の処理対象である目的音声を含む区間の検出精度が低下する場合がある。そして、音声区間検出の精度が低下することで、後段の音声認識処理等の精度も低下するおそれがある。
そこで、実施形態に係る検出装置100は、下記に説明する処理によって、背景発話を含む音声であっても、目的音声を含む区間を精度よく検出する。これにより、検出装置100は、音声認識の精度を向上させる。以下、図1を用いて、検出装置100によって行われる検出処理の一例を流れに沿って説明する。
まず、音声認識を用いたサービスを利用しようとするユーザは、ユーザ端末10に音声を入力する。ユーザ端末10は、ユーザから発せられた音声の入力を受け付け、受け付けた音声を取得する(ステップS11)。ユーザ端末10は、所定時間(例えば、10秒など)、ユーザから音声の入力を受け付けることで、音声を含んだ所定の時間長の音響信号を生成する。
このとき、ユーザ端末10の付近には、テレビ20やラジオ30があり、音声を発しているものとする。このため、ユーザ端末10は、目的音声であるユーザの音声のみならず、テレビ20やラジオ30から発せられる背景発話による音声も取得しているものとする。すなわち、ユーザ端末10が生成する音響信号には、ユーザの発した音声のみならず、背景発話による音声も含まれる。
ユーザ端末10は、生成した音響信号を検出装置100に送信する(ステップS12)。例えば、ユーザ端末10は、音声検索サービスにおける検索クエリとして、入力された音声を含んだ音響信号を検出装置100に送信する。
検出装置100は、ユーザ端末10から送信された音響信号を取得する。そして、検出装置100は、音響信号のうち目的音声を含んだ音声区間を検出する(ステップS13)。かかる処理について、図2を用いて説明する。
図2は、実施形態に係る検出処理の概要を説明する図である。図2では、検出装置100によって行われる検出処理のダイアグラムを示している。
まず、検出装置100は、取得した音響信号について、音響信号が音声を含むか否かを判定する処理を行う。例えば、検出装置100は、所定の学習処理を経たDNN(Deep Neural Network)を利用して、音響信号に関して音声・非音声の判定を行う(ステップS13A)。具体的には、検出装置100は、学習に充分な数の音声データをDNNで学習させることで、音声・非音声を判定するモデルを生成しておく。より具体的には、検出装置100は、例えば10ミリ秒ごとに音声をフレーム処理し、音響信号における、ある時間のフレームが音声か非音声かを識別するようDNNで学習を行うことで、音声・非音声を判定するモデルを生成する。そして、検出装置100は、取得した音響信号をモデルに入力することによって、当該音響信号が音声を含むか否かを判定する。
検出装置100は、ステップS13Aにおいて非音声と判定された音響信号については処理の対象から棄却する。一方、検出装置100は、ステップS13Aにおいて音声と判定された音響信号については、さらに検出処理を進める。上述のように、音響信号が含む音声は、ユーザから発せられた目的音声と、テレビ20やラジオ30等から発せられた背景発話とを含む。このため、ステップS13Aを経た音響信号にも、目的音声の他に背景発話による音声が含まれる。
ここで、検出装置100は、上記モデルとして、一般的には音声認識で用いられるモデルである音響モデル(Acoustic Model)を実施形態に係る検出処理において利用するものとする。音響モデルは、音響信号の所定の時間長(フレーム)において、どの音素が発話されているかを識別又は予測するモデルである。なお、音素とは、個別の言語において音声の基本となる要素であり、例えば日本語であれば、「/a/、/i/、/u/、/e/、/o/」の母音や、「/k/、/g/、/s/」等の子音が該当する。例えば、音響モデルは、入力された音響信号の所定のフレームがどのような音素で表されるかを識別して、音素の尤もらしさを示す尤度を出力する。
検出装置100は、実施形態において、音響モデルの音素事後確率(所定のフレームにおいて音素を特定する確率、すなわち、音響信号に含まれる音声が音素であると識別される確率であり、どの音素が尤もらしいかを示す値)を算出する。そして、検出装置100は、算出された音素事後確率に基づいて、目的音声と背景発話とを識別する。これは、目的音声と背景発話において、音響モデルの音素事後確率が異なる値をとると想定されることによる。一般に、背景発話は、マイクロフォン等の入力装置(図1の例では、ユーザ端末10が該当する)に対して、目的音声を発した話者よりも遠くの位置から発せられた音声であることが多い。このため、背景発話は、目的音声と比較して、音声以外の音(ノイズ)による影響や、部屋の残響などの影響を受け易い。すると、音響モデルでは、どの音素が発話されているのか厳密に識別できないため、複数の音素の事後確率が大きな値をとる。言い換えれば、背景発話は、目的音声と比較して、音響モデルの音素事後確率にばらつきが生じやすい。検出装置100は、このような音素事後確率を判定基準とすることにより、目的音声と背景発話とを識別する。
具体的には、検出装置100は、処理対象とする音響信号において、音響モデルの音素事後確率のエントロピーを算出する(ステップS13B)。音響モデルの音素事後確率のばらつきが生じるということは、すなわち、音素事後確率のエントロピーの値が大きくなることを意味する。このため、検出装置100は、音響モデルの音素事後確率のエントロピーを算出し、算出した値を判定基準とすることで、目的音声と背景発話とを識別することができる。例えば、検出装置100は、所定の閾値を設定し、算出したエントロピーの値が所定の閾値を超える場合には、当該区間の音声を背景発話であると推定する。言い換えれば、検出装置100は、算出したエントロピーの値が所定の閾値を超えない場合には、当該区間の音声を目的音声であると推定する。
図2に示すように、検出装置100は、ステップS13Bで算出したエントロピーの値に基づいて、処理対象とする音響信号のうち、背景発話と推定した区間を棄却する。そして、検出装置100は、背景発話と推定して棄却した区間を除いた区間を、目的音声を含む音声区間として検出する(ステップS13C)。検出装置100は、目的音声を含む音声区間を検出したのちに、検出結果を後段の情報処理装置(例えば、音声認識装置)に送信する。情報処理装置は、音声区間の検出処理が行われた音響信号を処理することにより処理負荷を軽減することができる。また、情報処理装置は、音声以外の音をテキストに変換するような処理を避けることができるため、音声認識の精度を向上させることができる。
このように、実施形態に係る検出装置100は、所定の時間長の音響信号を取得する。続いて、検出装置100は、音響信号における音素の尤度を測定する音響モデルを用いて、取得された音響信号から、処理対象とする音声である目的音声と、目的音声以外の音声である背景発話とを識別する。そして、検出装置100は、識別された結果に基づいて、所定の時間長の音響信号のうち、目的音声が含まれる音声区間を検出する。
これにより、実施形態に係る検出装置100は、目的音声に背景発話が混在するような音声を含む音響信号からも、精度良く目的音声を含む音声区間検出を行うことができる。具体的には、検出装置100は、音響モデルを用いて背景発話を識別し、背景発話と識別された区間を棄却することにより、頑健な音声区間検出を実現する。このため、検出装置100は、音声認識の精度を向上させることができる。以下、このような処理を行う検出装置100、及び、検出装置100を含む検出処理システム1の構成等について、詳細に説明する。
〔2.検出処理システムの構成〕
図3を用いて、実施形態に係る検出装置100が含まれる検出処理システム1の構成について説明する。図3は、実施形態に係る検出処理システム1の構成例を示す図である。図3に例示するように、実施形態に係る検出処理システム1には、ユーザ端末10と、検出装置100と、情報処理装置200とが含まれる。これらの各種装置は、ネットワークN(例えば、インターネット)を介して、有線又は無線により通信可能に接続される。なお、図3に示した検出処理システム1に含まれる装置は、図3に示した台数に限られない。例えば、検出処理システム1は、複数台のユーザ端末10を含んでもよい。
ユーザ端末10は、例えば、スマートフォンや、デスクトップ型PC(Personal Computer)や、ノート型PCや、タブレット型端末や、携帯電話機、PDA(Personal Digital Assistant)、ウェアラブルデバイス(Wearable Device)等の情報処理装置である。
ユーザ端末10は、ユーザによる操作に従って所定のウェブサーバにアクセスすることで、ウェブサーバから提供されるウェブページを取得する。そして、ユーザ端末10は、取得したウェブページを表示装置(例えば、液晶ディスプレイ)に表示する。また、ユーザ端末10は、ウェブページが音声入力によるサービス等を行うサービスページである場合、ユーザから入力された音声を含む音響信号をサービス側に送信する。この場合、ウェブサーバは、本願に係る検出装置100と一体であってもよい。また、ウェブサーバと検出装置100が別の装置である場合、ウェブサーバは、ユーザ端末10から送信された音響信号を検出装置100に送信するような構成であってもよい。
検出装置100は、ユーザ端末10から取得した音響信号から、目的音声を含む音声区間を検出するサーバ装置である。すなわち、検出装置100は、後述する情報処理装置200の処理の前段として、目的音声を含む音声区間を検出することで、音声認識等の処理の精度を向上させる。なお、検出装置100は、情報処理装置200と一体に構成されてもよい。
情報処理装置200は、音響信号に関する情報処理を実行するサーバ装置である。情報処理装置200は、検出装置100によって音声区間の検出処理が施された音響信号を取得し、情報処理を実行する。例えば、情報処理装置200は、音響信号に含まれる音声を認識し、テキストデータへ変換する。あるいは、情報処理装置200は、音響信号を圧縮したり編集したりする処理を行ってもよい。
〔3.検出装置の構成〕
次に、図4を用いて、実施形態に係る検出装置100の構成について説明する。図4は、実施形態に係る検出装置100の構成例を示す図である。図4に示すように、検出装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、検出装置100は、検出装置100を利用する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
(通信部110について)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。かかる通信部110は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、ユーザ端末10や、情報処理装置200との間で情報の送受信を行う。
(記憶部120について)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、学習データ記憶部121と、音響モデル記憶部122とを有する。
(学習データ記憶部121について)
学習データ記憶部121は、実施形態に係る処理に用いるモデルを学習するための学習データに関する情報を記憶する。図5に、実施形態に係る学習データ記憶部121の一例を示す。図5は、実施形態に係る学習データ記憶部121の一例を示す図である。図5に示した例では、学習データ記憶部121は、「学習データID」、「学習データ」といった項目を有する。
「学習データID」は、学習データを識別する識別情報を示す。「学習データ」は、モデルを学習するためのデータを示す。図5では、学習データの項目を「E01」等の概念で示しているが、実際には、学習データの項目には、学習に用いるための多数のデータファイル等が記憶される。学習データは、例えば音声認識の場合では、多数の話者による多数の発話データ(例えば数千時間分)である。モデルは、学習するデータによって異なる判定基準を有することになるため、図5に示すように、複数の種別の学習データが学習データ記憶部121に記憶されてもよい。例えば、検出装置100は、話者の言語別に学習データを有していてもよい。
すなわち、図5に示した例では、学習データID「C01」で識別される学習データとして学習データ「E01」というデータ群と、学習データID「C02」で識別される学習データとして学習データ「E02」というデータ群とが学習データ記憶部121に記憶されていることを示している。
(音響モデル記憶部122について)
音響モデル記憶部122は、識別処理に用いられるモデルに関する情報を記憶する。図6に、実施形態に係る音響モデル記憶部122の一例を示す。図6は、実施形態に係る音響モデル記憶部122の一例を示す図である。図6に示した例では、音響モデル記憶部122は、「音響モデルID」、「学習に用いるデータ」といった項目を有する。
「音響モデルID」は、音響信号の所定の時間長(フレーム)において、どの音素が発話されているかを識別又は予測する音響モデルを識別する識別情報である。図6に示すように、音響モデル記憶部122には、複数の音響モデルが記憶されてもよい。例えば、検出装置100は、異なる判定基準(例えば、言語ごと)を有する音響モデルを複数有していてもよい。なお、音響モデルは、十分な数の学習データで学習された、音声・非音声を判定するモデルでもある。例えば、実施形態に係る音響モデルは、複数のニューロンによって形成される入力層と、複数のニューロンを含む多段のニューロン群の層によって形成される隠れ層(中間層ともいう)と、複数のニューロンによって形成される出力層によって構成される、DNN等の階層型ニューラルネットワークである。
「学習に用いるデータ」は、図5に示した学習データに対応する。すなわち、学習に用いるデータは、モデルを学習する際に利用される学習データを示す。
すなわち、図6に示した例では、音響モデルID「A01」によって識別される音響モデルと、音響モデルID「A02」によって識別される音響モデルとが音響モデル記憶部122に記憶されていることを示している。また、音響モデルID「A01」によって識別される音響モデルは、学習データ「E01」によって学習され、音響モデルID「A02」によって識別される音響モデルは、学習データ「E02」によって学習されていることを示している。
(制御部130について)
制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、検出装置100内部の記憶装置に記憶されている各種プログラム(検出プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
図4に示すように、制御部130は、取得部131と、識別部132と、判定部133と、算出部134と、検出部135と、送信部136とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図4に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、図4に示した接続関係に限られず、他の接続関係であってもよい。
(取得部131について)
取得部131は、各種情報を取得する。具体的には、取得部131は、ユーザ端末10から、所定の時間長の音響信号を取得する。取得部131は、取得した音響信号を識別部132に送る。なお、音響信号は、音声認識の処理対象となる話者から発せられた音声(目的音声)、目的音声以外のノイズや、目的音声以外の音声である背景発話等を含む場合がある。また、音響信号は、ユーザ端末10に音声が入力された際の音の大きさ(音圧)や、音の高さ(周波数)や、音の種類(波形)等の情報を含むものであってもよい。
(識別部132について)
識別部132は、取得部131によって取得された音響信号が示す情報が音声か非音声であるかを識別する。例えば、識別部132は、音響信号における音素の尤度を測定する音響モデルを用いて、取得部131によって取得された音響信号から、処理対象とする音声である目的音声と、目的音声以外の音声である背景発話とを識別する。図4に示すように、実施形態に係る識別部132は、判定部133と、算出部134とが協働することにより、処理を実現する。すなわち、以下の説明において、判定部133や算出部134が実行する処理は、識別部132が実行する処理と読み替えてもよい。
(判定部133について)
判定部133は、音響信号が音声であるか否かを予め学習した音響モデルを用いて、取得部131によって取得された音響信号に音声が含まれるか否かを判定する。例えば、判定部133は、多数の話者の発話データを学習データとして学習されたDNNを用いて、音響信号の所定の区間が音声を含むか否かを判定する。
判定部133は、モデルやDNNに関する学習処理について、種々の既知の手法を利用するようにしてもよい。また、図2で示したように、判定部133は、後述する算出部134の前段として機能する。すなわち、算出部134は、取得部131によって取得された音響信号のうち、判定部133によって非音声と判定された区間は、処理対象から棄却してもよい。なお、判定部133は、所定のフレーム単位で音声・非音声を判定した場合、音声と判定したフレームに対応する区間のみを音声区間として算出部134に渡してもよいし、音声と判定したフレーム同士に挟まれた範囲の区間を音声区間として算出部134に渡してもよい。
(算出部134について)
算出部134は、音響モデルの音素事後確率を算出する。そして、算出部134は、音響信号の所定の区間において、算出された音素事後確率に基づいて、目的音声と背景発話とを識別する。
具体的には、算出部134は、音響信号における音響モデルの音素事後確率のエントロピーを算出する。上述のように、音響モデルの音素事後確率のエントロピーは、音素事後確率のばらつきを示す値となりうる。このため、算出部134は、算出されたエントロピーの値と所定の閾値とを比較することによって、当該区間における音声が、目的音声であるか背景発話であるかを識別することができる。
以下、判定部133及び算出部134を含む識別部132が音声を識別する処理に関して、処理の流れに沿って具体的に説明する。なお、以下で説明する数式等は、あくまで一例であり、他の算出手法を用いてもよい。
入力される音響信号のフレームtにおける特徴量をx(t)とし、WmをDNNにおける第m層の重み行列(weight matrix)、bを第m層におけるバイアスベクトル(bias vector)とすると、音声・非音声を示す事後確率は、以下の流れによって算出される。
まず、DNNにおける第1の隠れ層(中間層)の出力は、下記式(1)および(2)で示される。
Figure 0006731802
Figure 0006731802
また、第m層{m=2、3、4、・・・、M}の出力は、下記式(3)および(4)で示される。
Figure 0006731802
Figure 0006731802
ここで、上記式(2)および(4)のgは、第m層における非線形活性化関数を示す。また、第m層目の活性化関数は、例えば下記式(5)で定義されるシグモイド関数(sigmoid function)を用いる。なお、第m層目の活性化関数は、下記式(5)以外にも、正規化線形関数(Rectified Linear)等であってもよい。そして、最後のM層目では恒等関数、すなわち、g(y)=yという関数を用いる。
Figure 0006731802
そして、最終的な第M層の出力は、ソフトマックス関数(softmax function)を用いて、下記式(6)で示すような事後確率へと変換される。
Figure 0006731802
この場合、音声Hと非音声Hの事後確率は、下記式(7)及び(8)から算出される。
Figure 0006731802
Figure 0006731802
上記式(7)および(8)において、「S」は、音声(Speech)の状態に対応するインデックスの集合を示し、「N」は、非音声(Non-speech)の状態に対応するインデックスの集合を示す。ここで、下記式(9)で示す条件を満たす場合に、識別部132は、フレームtにおける音声が音声フレームであると識別する。
Figure 0006731802
そして、識別部132は、事後確率のエントロピーに関しても、上記判定基準(閾値)を利用して識別を行うことができる。事後確率のエントロピーは、例えば下記式(10)によって算出される。
Figure 0006731802
よって、下記式(11)で示す条件を満たす場合に、識別部132は、フレームtにおける音声が目的音声を含むフレームであると識別することができる(τは所定の閾値を示す)。
Figure 0006731802
上記式(11)で示すように、エントロピーの値(e(t))が所定の閾値を超えない場合、識別部132は、フレームtにおける音声が目的音声を含むフレームであると識別する。上述のように、背景発話における音素の事後確率は、音声が入力される距離や部屋の残響等の影響から、目的音声と比較して一様になる(すなわち、どの音素かを特定し難い)傾向となる。言い換えれば、背景発話における事後確率のエントロピーの値は、目的音声と比較して高くなる傾向にある。このため、識別部132は、エントロピーの値が閾値以上の場合には、フレームtにおける音声が背景発話による音声を含むフレームであると識別する。このように、識別部132は、エントロピーの値を閾値と比較することによって、目的音声と背景発話とを識別することができる。
(検出部135について)
検出部135は、識別部132によって識別された結果に基づいて、所定の時間長の音響信号の中から目的音声が含まれる音声区間を検出する。例えば、検出部135は、識別部132によって算出されたエントロピーが所定の閾値を超えない区間を、目的音声が含まれる音声区間として検出する。
なお、上述のように識別部132が所定のフレーム(10ミリ秒など)の単位で音声を識別する処理を行う場合、検出部135は、目的音声が含まれると識別されたフレームに対応する区間のみを音声区間として検出してもよいし、目的音声が含まれると識別されたフレームに挟まれた範囲の区間を音声区間として検出してもよい。
(送信部136について)
送信部136は、各種情報を送信する。例えば、送信部136は、検出部135によって検出された音声区間に関する情報を情報処理装置200に送信する。なお、音声区間に関する情報は、実際に音声区間として切り出された範囲の音響信号であってもよいし、音響信号のうち、いずれの範囲が目的音声を含む音声区間であるかを示す情報であってもよい。
〔4.処理手順〕
次に、図7を用いて、実施形態に係る検出装置100による処理の手順について説明する。図7は、実施形態に係る処理手順を示すフローチャートである。
図7に示すように、検出装置100は、ユーザ端末10から音響信号を取得したか否かを判定する(ステップS101)。検出装置100は、音響信号を取得していない場合(ステップS101;No)、取得するまで待機する。一方、検出装置100は、音響信号を取得した場合(ステップS101;Yes)、取得した音響信号を、DNNを利用した音響モデルに音響信号を入力する(ステップS102)。そして、検出装置100は、入力された音響信号における所定のフレームが音声であるか否かを判定する(ステップS103)。
検出装置100は、処理対象とするフレームが音声でないと判定した場合(ステップS103;No)、すなわち非音声と判定した場合、当該フレームを処理の対象から棄却する(ステップS104)。そして、検出装置100は、音響信号の全てのフレームを処理し終えたか否かを判定する(ステップS105)。
検出装置100は、音響信号の全てのフレームを処理し終えた場合(ステップS105;Yes)、それまでの処理の結果に基づいて音声区間を検出する(ステップS111)。一方、検出装置100は、音響信号の全てのフレームを処理し終えていない場合には(ステップS105;No)、次のフレームに処理を進めて(ステップS106)、識別処理を繰り返す。
ステップS103において、処理対象とするフレームが音声であると判定した場合(ステップS103;Yes)、検出装置100は、音響モデルの音素事後確率のエントロピーを算出する(ステップS107)。
そして、検出装置100は、エントロピーが閾値よりも大きいか否かを判定する(ステップS108)。所定のフレームにおけるエントロピーが閾値以上である場合(ステップS108;Yes)、検出装置100は、そのフレームを背景発話と推定して棄却する(ステップS109)。
一方、検出装置100は、所定のフレームにおけるエントロピーが閾値よりも小さい場合(ステップS108;No)、検出装置100は、そのフレームが目的音声を含む区間であると推定する。そして、検出装置100は、音響信号の全てのフレームを処理し終えたか否かを判定する(ステップS110)。
処理を終えていない場合(ステップS110;No)、検出装置100は、音響信号の全てのフレームを処理し終えるまで、処理対象を次のフレームに進めたのち、ステップS103に処理を戻す。一方、検出装置100は、音響信号の全てのフレームを処理し終えた場合には(ステップS110;Yes)、目的音声と背景発話との識別結果に基づいて、非音声や背景発話のフレームを除いた区間を、音響信号における目的音声を含む音声区間として検出する(ステップS111)。
〔5.変形例〕
上述した検出装置100は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、検出装置100の他の実施形態について説明する。
〔5−1.学習処理〕
上記実施形態では、エントロピーの値が所定の閾値を超えるか否かに基づいて、目的音声と背景発話とを識別する処理を説明した。ここで、所定の閾値は、予め定められた一定の値に限られず、種々の学習処理を経て最適化されるようにしてもよい。
例えば、検出装置100は、目的音声と識別した結果について、正解データのフィードバックを取得する。例えば、検出装置100は、目的音声と識別した結果が、真に目的音声であったか否かのフィードバックを取得する。そして、検出装置100は、フィードバックの結果に基づいて、閾値の値を学習する。例えば、検出装置100は、目的音声として出力する結果と、真に目的音声であったとするフィードバックとの一致率を上昇させるよう、閾値の値を学習する。これにより、検出装置100は、処理を行う回数が増すにつれ、閾値として設定する値を最適化することができる。
〔5−2.モデル〕
上記実施形態では、音声か非音声かを判定するモデルと、目的音声と背景発話とを識別するモデルとを同じ音響モデルとして示した。しかし、これらの処理を実現する音響モデルは、別々のモデルであってもよい。例えば、実施形態に係る音響モデルは、音声と非音声を判定する判定モデルと、発話データによって発せられた音素を識別する識別モデルとで実現されてもよい。これらのモデルは、それぞれDNNによって多数の発話者の発話データを学習する。そして、判定モデルは、発話データによって音声か非音声かを判定する処理を学習する。また、識別モデルは、発話データによって発せられた音素を学習する。このように、実施形態に係る処理は、DNNによって学習された別々のモデルによって実現されてもよい。
〔5−3.学習〕
上記実施形態では、DNNを利用して学習されたモデルを用いることを示した。しかし、検出装置100は、DNNに限らず、他の学習処理を利用して学習されたモデルを利用してもよい。例えば、検出装置100は、既知の機械学習によって学習されたモデルを利用してもよい。すなわち、検出装置100は、上記のように音素の事後確率のエントロピーを算出可能なモデルであれば、任意のモデルを用いてもよい。
〔6.ハードウェア構成〕
上述してきた実施形態に係る検出装置100や、ユーザ端末10や、情報処理装置200は、例えば図8に示すような構成のコンピュータ1000によって実現される。以下、検出装置100を例に挙げて説明する。図8は、検出装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
CPU1100は、ROM1300又はHDD1400に記憶されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を記憶する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を記憶する。通信インターフェイス1500は、通信網500(図3に示したネットワークNに対応)を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを、通信網500を介して他の機器へ送信する。
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、入出力インターフェイス1600を介して生成したデータを出力装置へ出力する。
メディアインターフェイス1700は、記録媒体1800に記憶されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係る検出装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、HDD1400には、記憶部120内のデータが記憶される。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から通信網500を介してこれらのプログラムを取得してもよい。
〔7.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、図4に示した識別部132と検出部135とは統合されてもよい。また、例えば、記憶部120に記憶される情報は、ネットワークNを介して、外部に備えられた所定の記憶装置に記憶されてもよい。
また、上記実施形態では、検出装置100が、音響信号を取得する取得処理と、音声区間を検出する検出処理と、検出した結果を送信する送信処理とを行う例を示した。しかし、上述した検出装置100は、音響信号を取得する取得装置と、音声区間を検出する検出装置と、検出した結果を送信する送信装置とに分離されてもよい。この場合、取得装置は、少なくとも取得部131を有する。検出装置は、少なくとも検出部135を有する。また、送信装置は、少なくとも送信部136を有する。そして、上述してきた検出装置100による処理は、取得装置と、検出装置と、送信装置との各装置を有する検出処理システム1によって実現される。
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
〔8.効果〕
上述してきたように、実施形態に係る検出装置100は、取得部131と、識別部132と、検出部135とを有する。取得部131は、所定の時間長の音響信号を取得する。識別部132は、音響信号における音素の尤度を測定する音響モデルを用いて、取得部131によって取得された音響信号から、処理対象とする音声である目的音声と、目的音声以外の音声である背景発話とを識別する。検出部135は、識別部132によって識別された結果に基づいて、所定の時間長の音響信号の中から目的音声が含まれる音声区間を検出する。
このように、実施形態に係る検出装置100は、音響モデルを用いて音声区間検出を行うことにより、目的音声に背景発話が混在するような音声を含む音響信号からも、精度良く目的音声を含む音声区間検出を行うことができる。具体的には、検出装置100は、音響モデルを用いて背景発話を識別し、背景発話と識別された区間を棄却することにより、頑健な音声区間検出を実現する。これにより、検出装置100は、後段の処理として音声認識を行う情報処理装置200に、精度良く音声区間が検出された音響信号を送信することができるため、結果として、音声認識の精度を向上させることができる。
また、識別部132は、音響モデルの音素事後確率に基づいて、目的音声と背景発話とを識別する。
このように、実施形態に係る検出装置100は、音響モデルによって識別される音素の事後確率を求めることによって、目的音声と比較して音素が不明瞭になる傾向にある背景発話を識別する。これにより、検出装置100は、目的音声と背景発話とを高い精度で識別することができるため、音声区間の検出精度を向上させることができる。
また、識別部132は、音響信号における音響モデルの音素事後確率のエントロピーを算出する。検出部135は、識別部132によって算出されたエントロピーが所定の閾値を超えない区間を、目的音声が含まれる音声区間として検出する。
このように、実施形態に係る検出装置100は、音響モデルの音素事後確率のエントロピーを算出し、算出した値に基づいて目的音声を含む区間を検出する。このように、検出装置100は、エントロピーという指標値に基づいて目的音声と背景発話とを識別することができるため、より頑健な音声区間の検出処理を行うことができる。
また、識別部132は、音響信号が音声であるか否かを学習した音響モデルを用いて、取得部131によって取得された音響信号に音声が含まれるか否かを判定し、音声が含まれると判定された音響信号から、音響モデルを用いて目的音声と背景発話とを識別する。
このように、実施形態に係る検出装置100は、予め音声か非音声かを判定するためのモデルを学習しておき、かかる処理を経て、目的音声と背景発話とを識別する処理を行う。すなわち、検出装置100は、音声検出処理において多段的な処理を行うことにより、音声区間の検出処理の精度を向上させることができる。
以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
1 検出処理システム
10 ユーザ端末
100 検出装置
110 通信部
120 記憶部
121 学習データ記憶部
122 音響モデル記憶部
130 制御部
131 取得部
132 識別部
133 判定部
134 算出部
135 検出部
136 送信部
200 情報処理装置

Claims (6)

  1. 所定の時間長の音響信号を取得する取得部と、
    音響信号における音素の尤度を測定する音響モデルを用いて、前記取得部によって取得された音響信号の所定のフレームから、音声の状態に属する特徴量の事後確率と、非音声の状態に属する当該特徴量の事後確率とを算出し、算出された音声の状態に属する特徴量の事後確率と、算出された非音声の状態に属する当該特徴量の事後確率とを比較し、比較結果に基づいて、当該所定のフレームが音声であるかを判定し、当該所定のフレームが音声であると判定された場合に、当該音声の状態又は当該非音声の状態に属する当該特徴量の事後確率のエントロピーを算出し、算出されたエントロピーが閾値よりも小さい場合に、当該所定のフレームを、処理対象とする音声である目的音声として識別し算出されたエントロピーが閾値以上である場合に、当該所定のフレームを、目的音声以外の音声である背景発話として識別する識別部と、
    前記識別部によって識別された結果に基づいて、前記所定の時間長の音響信号の中から目的音声が含まれる音声区間を検出する検出部と、
    を備えることを特徴とする検出装置。
  2. 前記識別部は、
    前記音響モデルの音素事後確率に基づいて、前記目的音声と前記背景発話とを識別する、
    ことを特徴とする請求項1に記載の検出装置。
  3. 前記識別部は、
    前記音響信号における前記音響モデルの音素事後確率のエントロピーを算出し、
    前記検出部は、
    前記識別部によって算出されたエントロピーが所定の閾値を超えない区間を、前記目的音声が含まれる音声区間として検出する、
    ことを特徴とする請求項1又は2に記載の検出装置。
  4. 前記識別部は、
    音響信号が音声であるか否かを学習した前記音響モデルを用いて、前記取得部によって取得された音響信号に音声が含まれるか否かを判定し、音声が含まれると判定された音響信号から、前記音響モデルを用いて前記目的音声と前記背景発話とを識別する、
    ことを特徴とする請求項1〜3のいずれか一つに記載の検出装置。
  5. コンピュータが実行する検出方法であって、
    所定の時間長の音響信号を取得する取得工程と、
    音響信号における音素の尤度を測定する音響モデルを用いて、前記取得工程によって取得された音響信号の所定のフレームから、音声の状態に属する特徴量の事後確率と、非音声の状態に属する当該特徴量の事後確率とを算出し、算出された音声の状態に属する特徴量の事後確率と、算出された非音声の状態に属する当該特徴量の事後確率とを比較し、比較結果に基づいて、当該所定のフレームが音声であるかを判定し、当該所定のフレームが音声であると判定された場合に、当該音声の状態又は当該非音声の状態に属する当該特徴量の事後確率のエントロピーを算出し、算出されたエントロピーが閾値よりも小さい場合に、当該所定のフレームを、処理対象とする音声である目的音声として識別し算出されたエントロピーが閾値以上である場合に、当該所定のフレームを、目的音声以外の音声である背景発話として識別する識別工程と、
    前記識別工程によって識別された結果に基づいて、前記所定の時間長の音響信号の中から目的音声が含まれる音声区間を検出する検出工程と、
    を含んだことを特徴とする検出方法。
  6. 所定の時間長の音響信号を取得する取得手順と、
    音響信号における音素の尤度を測定する音響モデルを用いて、前記取得手順によって取得された音響信号の所定のフレームから、音声の状態に属する特徴量の事後確率と、非音声の状態に属する当該特徴量の事後確率とを算出し、算出された音声の状態に属する特徴量の事後確率と、算出された非音声の状態に属する当該特徴量の事後確率とを比較し、比較結果に基づいて、当該所定のフレームが音声であるかを判定し、当該所定のフレームが音声であると判定された場合に、当該音声の状態又は当該非音声の状態に属する当該特徴量の事後確率のエントロピーを算出し、算出されたエントロピーが閾値よりも小さい場合に、当該所定のフレームを、処理対象とする音声である目的音声として識別し算出されたエントロピーが閾値以上である場合に、当該所定のフレームを、目的音声以外の音声である背景発話として識別する識別手順と、
    前記識別手順によって識別された結果に基づいて、前記所定の時間長の音響信号の中から目的音声が含まれる音声区間を検出する検出手順と、
    をコンピュータに実行させることを特徴とする検出プログラム。
JP2016135403A 2016-07-07 2016-07-07 検出装置、検出方法及び検出プログラム Active JP6731802B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016135403A JP6731802B2 (ja) 2016-07-07 2016-07-07 検出装置、検出方法及び検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016135403A JP6731802B2 (ja) 2016-07-07 2016-07-07 検出装置、検出方法及び検出プログラム

Publications (2)

Publication Number Publication Date
JP2018005122A JP2018005122A (ja) 2018-01-11
JP6731802B2 true JP6731802B2 (ja) 2020-07-29

Family

ID=60946284

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016135403A Active JP6731802B2 (ja) 2016-07-07 2016-07-07 検出装置、検出方法及び検出プログラム

Country Status (1)

Country Link
JP (1) JP6731802B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7222265B2 (ja) * 2018-03-22 2023-02-15 カシオ計算機株式会社 音声区間検出装置、音声区間検出方法及びプログラム
US11276390B2 (en) 2018-03-22 2022-03-15 Casio Computer Co., Ltd. Audio interval detection apparatus, method, and recording medium to eliminate a specified interval that does not represent speech based on a divided phoneme
US20230005488A1 (en) * 2019-12-17 2023-01-05 Sony Group Corporation Signal processing device, signal processing method, program, and signal processing system
CN112002347B (zh) * 2020-08-14 2024-05-14 海宁奕斯伟集成电路设计有限公司 语音检测方法、装置和电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6436088B2 (ja) * 2013-10-22 2018-12-12 日本電気株式会社 音声検出装置、音声検出方法及びプログラム
US20160275968A1 (en) * 2013-10-22 2016-09-22 Nec Corporation Speech detection device, speech detection method, and medium

Also Published As

Publication number Publication date
JP2018005122A (ja) 2018-01-11

Similar Documents

Publication Publication Date Title
JP6916352B2 (ja) 分類器モデル及びコンテキストパラメータを使用した遠隔メディア分類クエリに対する応答
JP2021527840A (ja) 声紋識別方法、モデルトレーニング方法、サーバ、及びコンピュータプログラム
US7620547B2 (en) Spoken man-machine interface with speaker identification
EP3770905A1 (en) Speech recognition method, apparatus and device, and storage medium
JP6350148B2 (ja) 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム
EP3444809B1 (en) Personalized speech recognition method and system
US20160189715A1 (en) Speech recognition device and method
US20090119103A1 (en) Speaker recognition system
JP6731802B2 (ja) 検出装置、検出方法及び検出プログラム
US20200219384A1 (en) Methods and systems for ambient system control
US11393459B2 (en) Method and apparatus for recognizing a voice
WO2019213443A1 (en) Audio analytics for natural language processing
JP6246636B2 (ja) パターン識別装置、パターン識別方法およびプログラム
US11769492B2 (en) Voice conversation analysis method and apparatus using artificial intelligence
CN108039181B (zh) 一种声音信号的情感信息分析方法和装置
JP6892426B2 (ja) 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム
GB2576960A (en) Speaker recognition
US20210249033A1 (en) Speech processing method, information device, and computer program product
JP2008146054A (ja) 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
CN111429919B (zh) 基于会议实录系统的防串音方法、电子装置及存储介质
KR102113879B1 (ko) 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치
CN113689886B (zh) 语音数据情感检测方法、装置、电子设备和存储介质
KR101925248B1 (ko) 음성 인증 최적화를 위해 음성 특징벡터를 활용하는 방법 및 장치
EP1387350A1 (en) Spoken man-machine interface with speaker identification
Jaiswal et al. CAQoE: a novel no-reference context-aware speech quality prediction metric

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190325

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200609

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200707

R150 Certificate of patent or registration of utility model

Ref document number: 6731802

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350