JP2022001930A - アクティブラーニングシステム及びアクティブラーニングプログラム - Google Patents

アクティブラーニングシステム及びアクティブラーニングプログラム Download PDF

Info

Publication number
JP2022001930A
JP2022001930A JP2020107356A JP2020107356A JP2022001930A JP 2022001930 A JP2022001930 A JP 2022001930A JP 2020107356 A JP2020107356 A JP 2020107356A JP 2020107356 A JP2020107356 A JP 2020107356A JP 2022001930 A JP2022001930 A JP 2022001930A
Authority
JP
Japan
Prior art keywords
character information
recognition model
voice
voice recognition
transcription
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020107356A
Other languages
English (en)
Other versions
JP6824547B1 (ja
Inventor
徹 江崎
Toru Ezaki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP2020107356A priority Critical patent/JP6824547B1/ja
Application granted granted Critical
Publication of JP6824547B1 publication Critical patent/JP6824547B1/ja
Publication of JP2022001930A publication Critical patent/JP2022001930A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】音声認識モデルの認識精度を効率よく向上させる。【解決手段】第1サーバ1は、話者の音声と対応する文字のセットを学習させることで第1モデルm1を生成するモデル生成部102を備える。端末装置3は、対象話者の音声を第1音声認識モデルm1に入力して得た第1文字を文字起こし情報として生成する文字起こし情報生成部304と、第1文字と対象話者の音声を第2音声認識モデルm2に入力して得た第2文字との相違部分を特定する相違部分特定部301と、相違部分に対応する第1文字と第2文字のうちのいずれかを選択可能な選択部303と、選択された文字が第2文字の場合、文字起こし情報の相違部分に対応する第1文字を第2文字に修正する文字起こし情報修正部305と、を備える。音声認識モデル生成部は、選択された文字が第2文字の場合、当該文字と対応する対象話者の音声のセットを追加学習させることで第1モデルm1を再生成する。【選択図】図4

Description

本発明は、音声認識モデルの認識精度を向上させることが可能なアクティブラーニングに関するものである。
対象話者の音声に基づき、その音声から認識可能な文字情報を出力する技術が知られている。
この種の技術は、予め様々な話者の音声(質問)と、対応する文字情報(教師データ)との組合せ(データセット)を多数学習させることにより、いわゆる音声認識モデルと呼ばれるプログラムを生成し、この音声認識モデルに未知の対象話者の音声を入力することで、その音声に対応する文字情報を出力するように構成されている。
例えば、amazon(登録商標)社やマイクロソフト(登録商標)社などの事業者は、自身が保有する音声認識モデルに基づくAPI(Application Programming Interface)を提供しており、当該APIを用いた自動文字起こし(音声文字変換)サービスが提供されている。
ところで、音声認識モデルにおける認識精度(文字正解率)を向上させるための一手法として、アクティブラーニングが知られている(例えば、特許文献1参照)。システムによる識別結果(抽出対象となるエンティティ)を人手で修正し、適切なエンティティのみを新たなエンティティ集合として、繰り返し学習を行う半自動の技術(非特許文献2等参照)が提案されているシステムによる識別結果(抽出対象となるエンティティ)を人手で修正し、適切なエンティティのみを新たなエンティティ集合として、繰り返し学習を行う半自動の技術(非特許文献2等参照)が提案されているシステムによる識別結果(抽出対象となるエンティティ)を人手で修正し、適切なエンティティのみを新たなエンティティ集合として、繰り返し学習を行う半自動の技術(非特許文献2等参照)が提案されている
アクティブラーニングは、入出力モデルの認識結果を人手で修正するものであり、例えば、信頼度の低いデータに対して人間がラベル付け(アノテーション)を行ったものを追加学習することで、入出力モデルの認識精度を向上させることができるものである。
特開2012−146003号公報
しかしながら、アクティブラーニングにおいては、アノテーションのためだけに多くの人手や時間が必要であり、その分のコストがかかる点において問題があった。
本発明は、以上のような事情に鑑みなされたものであり、独立した複数の音声認識モデルを利用することで、所定の音声認識モデルの認識精度を効率よく向上したり、また、これを文字起こし処理と組み合わせることで、より効率よく音声認識モデルの認識精度を向上させることが可能なアクティブラーニングシステム及びアクティブラーニングプログラムの提供を目的とする。
上記課題を達成するため、本発明のアクティブラーニングシステムは、話者の音声を入力とし、当該音声に対応する文字情報を出力とするデータセットを学習させることで第1音声認識モデルを生成する音声認識モデル生成部と、対象話者の音声を前記第1音声認識モデルに入力することにより当該第1音声認識モデルから出力された第1文字情報を、文字起こし情報として生成する文字起こし情報生成部と、前記第1音声認識モデルから出力された第1文字情報と、前記対象話者の音声を前記第1音声認識モデルとは異なる第2音声認識モデルに入力することにより当該第2音声認識モデルから出力された第2文字情報と、の相違部分を特定する相違部分特定部と、操作に応じ、前記相違部分に対応する第1文字情報と第2文字情報のうちのいずれか一方を選択可能な選択部と、前記選択部により選択された文字情報が前記第2文字情報の場合、前記文字起こし情報生成部により生成された文字起こし情報における前記相違部分に対応する前記第1文字情報を前記第2文字情報に修正する文字起こし情報修正部と、を備え、前記音声認識モデル生成部は、前記選択部により選択された文字情報が前記第2文字情報の場合、当該第2文字情報を出力とし、対応する前記対象話者の音声を入力とするデータセットを追加学習させることで前記第1音声認識モデルを再生成するようにしてある。
本発明によれば、音声認識モデルの認識精度を効率よく向上させることができる。
本発明の第1実施形態のアクティブラーニングシステムの概略構成図である。 (a)は第1サーバのハードウェア構成図であり、(b)は第2サーバのハードウェア構成図である。 端末装置のハードウェア構成図である。 第1実施形態のアクティブラーニングシステムの機能を示すブロック図である。 データセットの一例である。 (a)は第1音声認識モデルのイメージ図、(b)は第2音声認識モデルのイメージ図である。 「It is important.」を含む音声を第1音声認識モデル及び第2音声認識モデルに入力したときの出力結果を示す図である。 (a)は第1文字情報と第2文字情報との相違部分の表示例を示す図であり、(b)は第1文字情報と第2文字情報のうち第2文字情報が選択されたことを示す図である。 第1文字情報に基づいて生成された文字起こし情報を示す図である。 文字起こし情報が修正されたことを示す図である。 データセットが追加されたことを示す図である。 追加されたデータセットに基づく追加学習によって高精度の第1音声認識モデルに更新されたことを示す図である。 第1実施形態のアクティブラーニングシステム及びアクティブラーニングプログラムのフローチャートである。 第2実施形態のアクティブラーニングシステムの機能を示すブロック図である。 第3実施形態のアクティブラーニングシステムの機能を示すブロック図である。 第4実施形態のアクティブラーニングシステムの機能を示すブロック図である。 (a)はWeb会議における応用例、(b)はスマートグラスにおける応用例を示す図である。
[第1実施形態]
本発明の第1実施形態のアクティブラーニングシステムについて図面を参照して説明する。
図1は、第1実施形態のアクティブラーニングシステムの概略構成図である。
図1に示すように、第1実施形態のアクティブラーニングシステムは、第1サーバ1と、第2サーバ2と、端末装置3とを備え、これらがインターネットなどのネットワーク4を介して通信可能に接続されている。
第1サーバ1及び第2サーバ2は、いわゆる文字起こしサービスをAPI(Web−API)により端末装置3に対して提供可能なAPIサーバである。
端末装置3は、利用者が利用する端末機器であり、例えばスマートフォン、パーソナルコンピュータ、スマートグラス(ウェアラブル端末)などを想定している。
図2(a)は第1サーバ1のハードウェア構成図であり、図2(b)は第2サーバ2のハードウェア構成図である。
図2(a)に示すように、第1サーバ1は、プロセッサ11と、メモリ12と、ストレージ13と、通信装置14とを備えるコンピュータである。
プロセッサ11は、制御部、演算部、レジスタ等を含む中央処理部(CPU)を備え、コンピュータ全体を制御する。
プロセッサ11は、プログラム(本発明のアクティブラーニングプログラムを含む)及びデータ等を、ストレージ13や通信装置14からメモリ12に読み出し、これらに従って各種の処理を実行する。
メモリ12は、コンピュータが読み取り可能な記録媒体であり、例えば、ROM、EPROM、EEPROM、RAM等である。
ストレージ13は、コンピュータが読み取り可能な記録媒体であり、例えば、ハードディスクドライブ、フラッシュメモリ等である。
第1サーバ1のストレージ13には、音声認識モデル(第1音声認識モデルm1)が記憶されており、また、この第1音声認識モデルm1を生成するためのデータセットを記憶できるようになっている。
通信装置14は、有線及び/又は無線による通信回線を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等である。
なお、第2サーバ2のハードウェア構成は、第1サーバ1のハードウェア構成は同じである。
異なる点として、第2サーバ2のストレージ23には、第2音声認識モデルm2が記憶されており、また、この第2音声認識モデルm2を生成するためのデータセットを記憶できるようになっている。
その他の構成は、第1サーバ1と同様であるため、説明を省略する。
図3は、端末装置3のハードウェア構成図である。
図3に示すように、端末装置3は、プロセッサ31と、メモリ32と、ストレージ33と、入力装置34と、出力装置35と、通信装置16とを備えるコンピュータである。
プロセッサ31は、制御部、演算部、レジスタ等を含む中央処理部(CPU)を備え、コンピュータ全体を制御する。
プロセッサ31は、プログラム(本発明のアクティブラーニングプログラムを含む)及びデータ等を、ストレージ33や通信装置36からメモリ32に読み出し、これらに従って各種の処理を実行する。
メモリ32は、コンピュータが読み取り可能な記録媒体であり、例えば、ROM、EPROM、EEPROM、RAM等である。
ストレージ33は、コンピュータが読み取り可能な記録媒体であり、例えば、ハードディスクドライブ、フラッシュメモリ等である。
入力装置34は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。
このうち、キーボードやマウスは、端末装置3がパーソナルコンピュータの場合の操作手段として機能し、ボタンやセンサは、端末装置3がスマートフォンの場合の操作手段として機能し、スイッチやボタンは、端末装置3がスマートグラスの場合の操作手段として機能する。
出力装置35は、外部への出力を実施する出力デバイス(例えば、モニター、ディスプレイ、表示パネル、スピーカー、LEDランプなど)である。
本実施形態の端末装置3は、出力装置35として、モニター、ディスプレイ、表示パネルなどの表示部351を備えている。
通信装置36は、有線及び/又は無線による通信回線を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等である。
図4は、第1サーバ1、第2サーバ2、及び端末装置3の各機能構成を示すブロック図である。
図4に示すように、第1サーバ1は、データセット記憶部101と、音声認識モデル生成部102と、第1音声認識モデルm1と、を備える。
第2サーバ2は、第2音声認識モデルm2を備える。
端末装置3は、相違部分特定部301と、相違部分表示部302と、選択部303と、文字起こし情報生成部304と、文字起こし情報修正部305と、を備える。
第1サーバ1及び第2サーバ2は、プロセッサ11がアクティブラーニングプログラムを実行して各部を制御することで、以下に示す機能が実現され、端末装置3は、プロセッサ31がアクティブラーニングプログラムを実行して各部を制御することで、以下に示す機能が実現される。
第1サーバ1は、データセット記憶部101が、話者の音声を入力とし、当該音声に対応する文字情報(教師データ)を出力とするデータセットをストレージ13に記憶する。
図5は、当初の第1音声認識モデルm1の生成時に用いられたデータセットの一例である
図5に示すように、データセットは、話者が「あ」と発したときの音声情報と、その教師データである文字情報「あ」とが対応付けて構成される。
「あ」、「い」のように短音単位で文字情報がラベリングされたものや、「りんご」のように単語単位で文字情報がラベリング(対応付け)されたものや、「わたしはりんごをもっています」のように、フレーズ単位で文字情報がラベリングされたものがある。
また、「apple」や「I have an apple」のように、英語の短音、単語、フレーズごとに文字情報をラベリングしたものを用いることもできる。
なお、図5は、一例であり、実際には、多数のデータセットが用意され、これら多数のデータセットに基づき、第1音声認識モデルm1が生成される。
データセットは、日本語だけで構成してもよく、英語だけで構成してもよく、日本語や英語以外の言語を単独で又は組み合わせて構成することもできる。
また、図5は、説明の便宜上、音声を波形によって模式的に表現しているが、音声を識別可能な定量的なデータ(特徴情報など)を用いることができる。
第1サーバ1の音声認識モデル生成部102は、データセットを機械学習させることで第1音声認識モデルm1を生成する。
図6(a)は、第1音声認識モデルm1のイメージ図である。
機械学習では、公知の深層学習(ディープラーニング)などのニューラルネットワークが用いられる。
すなわち、音声認識モデルは、大量のデータセットをニューラルネットワークに学習させることで生成される。
例えば、ニューラルネットワークにおいて、入力層に、図5(a)の音声(既知の音声)を入力することで、出力層から図5(b)の文字情報((a)の音声に対応する教師データとしての文字情報)が出力されるように重みやバイアスを学習(最適化)させることで、未知の音声を入力するとその音声に対応する文字情報(入力した音声に対応する正解の文字情報)を高確率に出力可能な入出プログラムが音声認識モデル(第1音声認識モデルm1)として生成される(図6(a))。
公知のCNN(畳み込みニューラルネットワーク)、RNN(再帰型ニューラルネットワーク)、LSTM等を用いることもできる。
第1サーバ1は、音声認識モデル生成部102により生成された第1音声認識モデルm1をストレージ13に記憶している。
第2サーバ2は、第2音声認識モデルm2をストレージ23に記憶している。
図6(b)は、第2音声認識モデルm2のイメージ図である。
すなわち、第1サーバ1及び第2サーバ2は、それぞれ音声認識モデルを保有している。
これにより、ネットワーク4に接続された端末装置3では、入力した音声を文字に変換する文字起こし処理を、第1サーバ1及び第2サーバ2が提供するAPIを介して実行できるようになっている。
ただし、第1音声認識モデルm1と第2音声認識モデルm2は、それぞれは、データセットやニューラルネットワークの構成(層数その他)が異なるなど、独立した相異なる音声認識モデルである。
例えば、第1音声認識モデルm1は、事業者A(Amazon社)により運営されているサーバ(第1サーバ1)に保有され、このサーバにより提供される文字起こしサービス(Amazon Transcribe)に用いられる音声認識モデルを想定することができる。
一方、第2音声認識モデルm2は、事業者B(マイクロソフト社)により運営されているサーバ(第2サーバ2)に保有され、このサーバにより提供される文字起こしサービス(Speech to text)に用いられる音声認識モデルを想定することができる。
このため、同一の対象話者の音声(未知の音声)を、第1音声認識モデルm1と第2音声認識モデルm2入力した場合でも、異なる文字情報が出力される可能性がある。
これは、第1音声認識モデルm1と第2音声認識モデルm2は、いずれも、その正解率が100%でないことからも当然の事象である。
ただし、第1音声認識モデルm1と第2音声認識モデルm2は、いずれも、その正解率は高確率(例えば事業用のもので85%〜95%との報告がある)であることを前提としている。
このため、第1音声認識モデルm1と第2音声認識モデルm2に、それぞれ未知の音声を入力したときに、どちらもが誤った文字情報を出力する可能性は低い。
また、同一の対象話者の音声を、第1音声認識モデルm1と第2音声認識モデルm2のそれぞれに入力して文字情報を出力させた場合において、それらの文字情報が相異なる場合、論理的には、一方の文字情報は正しく、他方の文字情報は誤っている可能性が高い。
端末装置3は、第1サーバ1や第2サーバ2の機能を利用することにより、当該端末装置3において、入力した対象話者の音声を文字情報に変換して表示したり、保存することができる。
具体的には、端末装置3において、マイクロフォンから対象話者の音声を入力すると、音声送信部300が、第1サーバ1に当該対象話者の音声を送信する。
第1サーバ1は、端末装置3から受信した対象話者の音声を第1音声認識モデルm1に入力し、当該第1音声認識モデルm1から第1文字情報を出力させる。
第1サーバ1は、この第1文字情報を端末装置3に送信する。
また、端末装置3の音声送信部300は、マイクロフォンから入力された対象話者の音声を、第2サーバ2にも送信する。
第2サーバ2は、端末装置3から受信した対象話者の音声を第2音声認識モデルm2に入力し、当該第2音声認識モデルm2から第2文字情報を出力させる。
第2サーバ2は、この第2文字情報を端末装置3に送信する。
端末装置3は、第1サーバ1から受信した第1音声情報と、第2サーバ2から受信した第2音声情報と、入力した対象話者の音声とを対応付けてメモリ32に記憶する。
図7は、(a)が、対象話者の音声「・・It is important.・・」を第1音声認識モデルm1に入力したときに出力された第1文字情報「・・It is imported.・・」を示す図であり、(b)が、対象話者の音声を第2音声認識モデルm2に入力したときに出力された第2文字情報「・・It is important.・・」を示す図ある。
端末装置3は、文字起こし情報生成部304が、第1サーバ1から受信した第1文字情報に基づいて議事録などの文字起こし情報Rを生成する。
生成された文字起こし情報Rは表示部351に表示したり、ストレージ33に記憶することができる。
例えば、利用者が、対象話者と打合せや会議を行う場面において、当該対象話者と対話しながらその音声の文字情報(文字起こし情報R)をリアルタイムに見ることができる。
図8(a)は、対象話者が「・・It is important.・・」と発音した場合において、その音声に対応する第1文字情報「・・It is imported.・・」が文字起こし情報Rとして表示部351の上部領域に表示されたことを示している。
図9は、ストレージ33に記憶された文字起こし情報Rを模式的に示す図である。
ストレージ33に記憶された文字起こし情報Rは、プリンタにより印刷したり、外部に送信したり、リムーバブルメディアに記憶させるなどして利用することができる。
文字起こし情報Rは、第1音声認識モデルm1の出力結果である第1文字情報に基づいて生成されるところ、図8(a)及び図9は、その出力結果が誤っているために(正しくは「important」)、表示又は記憶される文字起こし情報Rにおいても、誤った文字情報(「imported」)が含まれていることを示している。
このように、文字起こし情報生成部304は、第1文字情報に基づいて文字起こし情報Rを生成するが、第2文字情報に基づいて文字起こし情報Rを生成しない。
ただし、文字起こし情報Rを、第2文字情報に基づいて生成したり、第1文字情報と第2文字情報とに基づく2つの文字起こし情報Rを生成することもできる。
相違部分特定部301は、第1サーバ1から受信した第1文字情報と、第2サーバ2から受信した文字情報との相違部分を特定する。
具体的には、メモリ32を参照することにより、第1サーバ1から受信した第1文字情報と第2サーバ2から受信した第2文字情報とを比較し、これらの相違部分を特定する。
相違部分の有無は、一定の文字数毎、フレーズごと、単語毎、行毎、ページ毎など、様々な単位で判断することができ、また、所定のタイミングで判断することができる。
図7の例においては、第1文字情報「・・It is imported.・・」と第2文字情報「・・It is important.・・」との比較により、第1文字情報「imported」と第2文字情報「important」とが相違部分として特定される。
相違部分表示部302は、相違部分特定部301により特定された相違部分の文字情報(第1文字情報と第2文字情報)を表示部351に表示する
図8(a)は、相違部分表示部302により第1文字情報「imported」と第2文字情報「important」とが表示部351の下部領域に表示されていることを示している。
同図に示すように、対象話者が発話するのと同時に文字起こし情報Rを表示しながら、相違部分を示す情報(例えば下線)を表示することができる(上部領域)。
また、このとき、相違部分に対応する第1文字情報と第2文字情報のうち、利用者が正しいと判断する方の文字情報の選択を促す情報(・・・or・・・?)を表示することもできる(下部領域)。
選択部303は、操作に応じ、相違部分に対応する第1文字情報と第2文字情報のうちのいずれか一方を選択する。
具体的には、利用者が、所定の操作手段(例えば、マウス操作やボタン操作)により、表示されている第1文字情報と第2文字情報のうち一方の文字情報が選択される。
これは、第1音声認識モデルm1の出力結果である第1文字情報と、第2音声認識モデルm2の出力結果である第2文字情報とが異なる場合、一方が正しく他方が誤っている可能性が高いため、どちらが正しいかを利用者の選択操作を介して選択させるためである。
図8(b)は、利用者の操作によって「important」(第2文字情報)が選択されたことを示している。
つまり、同図は、利用者が、対象話者の音声を聞いたことにより把握した言葉と合う文字情報として、第2文字情報「important」が正しい(つまり、第1文字情報「imported」が誤り)と判断したために、第2文字情報「important」を選択したことを示している。
文字起こし情報修正部305は、選択部303により選択された文字情報が第2文字情報の場合、文字起こし情報生成部304により生成された文字起こし情報Rの相違部分に対応する第1文字情報を第2文字情報に修正して記憶する。
例えば、第1文字情報「imported」と第2文字情報「important」のうち、第2文字情報が選択された場合、第2文字情報が正しく、第1文字情報は誤りの可能性が高いため、第1文字情報に基づいて生成されている文字起こし情報Rにおける「imported」の部分を第2文字情報「important」に修正する。
図10は、文字起こし情報R(図9)における「imported」の部分が「important」に修正されたことを示している。
端末装置3は、選択部303により第2文字情報が選択された場合、当該第2文字情報を第1サーバ1に送信する。
第1サーバ1は、端末装置3から第2文字情報を受信すると、データセット記憶部101が、当該第2文字情報を出力(教師データ)とし、対応する対象話者の音声を入力とするデータセットを追加して記憶する。
図11は、元のデータセット(図5)に、選択部303により選択された第2文字情報を出力(教師データ)とし、対応する対象話者の音声を入力とするデータセットが追加されたことを示している。
そして、音声認識モデル生成部102が、追加されたデータセットを追加学習させることにより音声認識モデル(第1音声認識モデルm1)を再生成(更新)する。
図12は、更新された第1音声認識モデルm1−1に音声「・・It is important.・・」を入力した場合に、出力結果として正しい文字情報「・・It is important.・・」が出力されたことを示している。
つまり、同図は、更新された第1音声認識モデルm1−1に音声「・・It is important.・・」を入力した場合には、正しい出力結果が得られる可能性が高くなることを示している。
次に、第1実施形態のアクティブラーニングシステムにおける処理手順、すなわち、アクティブラーニングプログラムの動作手順について、図13を参照しながら説明する。
まず、対象話者の音声を第1音声認識モデルm1に入力すると共に、第2音声認識モデルm2に入力する(S1)。
具体的には、端末装置3において対象話者の音声を入力すると、音声送信部300が第1サーバ1及び第2サーバ2にその音声をそれぞれ送信する。
第1サーバ1は、端末装置3から受信した音声を第1音声認識モデルm1に入力する。
第2サーバ2は、端末装置3から受信した音声を第2音声認識モデルm2に入力する。
これにより、第1音声認識モデルm1から第1文字情報が出力され、第2音声認識モデルm2から第2文字情報が出力される(S2)。
第1サーバ1は、出力された第1文字情報を端末装置3に送信する。
第2サーバ2は、出力された第2文字情報を端末装置3に送信する。
端末装置3は、第1サーバ1から受信した第1文字情報及び第2サーバ2から受信した第2文字情報を、入力された対象話者の音声と対応付けてメモリ32に記憶する。
端末装置3は、第1文字情報に基づいて文字起こし情報Rを生成する(S3)。
具体的には、文字起こし情報生成部304が、第1サーバ1から受信した第1文字情報に基づいて文字起こし情報Rを生成する。
生成された文字起こし情報Rは、表示部351に表示したり、ストレージ33に記憶される。
続いて、第1文字情報と第2文字情報の相違部分が有るか否かを判定する(S4)。
具体的には、相違部分特定部301が、メモリ32を参照することにより、第1サーバ1から受信した第1文字情報と第2サーバ2から受信した第2文字情報とを対比し、異なる文字があるか否かを判定する。
S4において、相違部分が有ることが判定された場合(S4−Yes)、相違部分の第1文字情報と第2文字情報を表示する(S5)。
具体的には、相違部分表示部302が、相違部分特定部301により特定された相違部分の第1文字情報と第2文字情報とを選択可能な態様で表示する。
ここで、利用者の操作に応じ、第1文字情報と第2文字情報のうちのいずれか一方を選択する(S6)。
つまり、第1文字情報と第2文字情報のうちどちらが正しいかを利用者に選択させる。
第2文字情報が選択された場合(S7−Yes)、当該第2文字情報に基づいて文字起こし情報Rを修正する(S8)。
具体的には、S3において生成された文字起こし情報Rにおける、相違部分の第1文字情報を、S7において選択された第2文字情報に修正する。
また、第2文字情報(出力)と、これに対応する対象話者の音声(入力)とをデータセットとして追加学習させることにより、第1音声認識モデルm1を再生成する(S9)。
具体的には、S7において選択された第2文字情報(出力)と、S4において判定された相違部分の第2文字情報と対応する対象話者の音声(メモリ32において、その第2文字情報と対応付けて記憶されてある対象話者の音声)を入力とするデータセットを追加して記憶し、音声認識モデル生成部102が、追加されたデータセットを追加学習することによって新たな第1音声認識モデルm1−1を生成(更新)する。
なお、S4において、相違部分が有ることが判定されなかった場合(S4−No)、以降の処理(S5〜S9)は実行しない)。
第1文字情報と第2文字情報との相違部分がない場合、第1音声認識モデルm1の出力結果と第2音声認識モデルm2の出力結果はどちらも正しい可能性が高く、文字起こし情報Rを修正したり、第1音声認識モデルm1を修正する必要性がないからである。
また、S7において、第2文字情報が選択されなかった場合(S7−No)、つまり、第1文字情報が選択された場合、文字起こし情報Rの修正(S8)は行わない。
そもそも、文字起こし情報Rは第1文字情報に基づいて生成されているため、修正する必要がないからである。
また、この場合、第1音声認識モデルm1の再生成(S9)も行わない。
第1音声認識モデルm1の出力結果は正しい可能性が高く、第1音声認識モデルm1の更新の必要がないからである。
ただし、この場合でも、選択された第1文字情報を出力(教師データ)とし、対応する対象話者の音声を入力とするデータセットを学習させることで、第1音声認識モデルm1を再生成することもできる。
[第2実施形態]
図14は、第2実施形態のアクティブラーニングシステムの機能を示すブロック図である。
第2実施形態のアクティブラーニングシステムは、端末装置3が文字起こし情報生成部304や文字起こし情報修正部305など、文字起こし処理に関する構成を備えていない点において第1実施形態のアクティブラーニングシステムと異なる。他の構成は、第1実施形態のアクティブラーニングシステムと共通する。
つまり、第2実施形態のアクティブラーニングシステムにおいては、対象話者の音声を第1音声認識モデルm1と第2音声認識モデルm2に入力し、その出力結果である第1文字情報と第2文字情報との相違部分について、正しい文字情報として第2文字情報が利用者の操作により選択された場合は、当該第2文字情報を含むデータセットを学習させることで第1音声認識モデルm1を更新する。
このように、文字起こし処理に関する構成を備えなくとも、利用者の選択操作だけで第1音声認識モデルm1の更新を効率よく行うことができる。
[第3実施形態]
図15は、第3実施形態のアクティブラーニングシステムの機能を示すブロック図である。
第3実施形態のアクティブラーニングシステムは、第1サーバ1が保有する第1音声認識モデルm1と、第2サーバ2が保有する第2音声認識モデルm2の両方を更新可能にしている点で第1実施形態や第2実施形態のアクティブラーニングシステムと異なる。他の構成は第2実施形態のアクティブラーニングシステムと共通する。
具体的には、第2サーバ2において、データセット記憶部201や音声認識モデル生成部202といった音声認識モデルの生成処理に関する構成を備えている。
そのうえで、端末装置3は、選択部303により選択された文字情報が第2文字情報の場合、当該第2文字情報を第1サーバ1に送信し、選択部303により選択された文字情報が第1文字情報の場合、当該第1文字情報を第2サーバ2に送信する。
第1サーバ1は、データセット記憶部101において、端末装置3から受信した第2文字情報を出力(教師データ)とし、対応する対象話者の音声を入力とするデータセットを追加して記憶し、当該追加されたデータセットを追加学習することで第1音声認識モデルm1を再生成する。
第2サーバ2は、データセット記憶部101において、端末装置3から受信した第1文字情報を出力(教師データ)とし、対応する対象話者の音声を入力とするデータセットを追加して記憶し、当該追加されたデータセットを追加学習することで第2音声認識モデルm2を再生成する。
これにより、第1文字情報と第2文字情報とが異なる場合は、必ず、誤っている方の音声認識モデルを更新することができる。
[第4実施形態]
図16は、第4実施形態のアクティブラーニングシステムの機能を示すブロック図である。
図16に示すように、第4実施形態のアクティブラーニングシステムは、第1実施形態の構成と第3実施形態の構成を組み合わせた構成にしている。
このため対象話者の音声に基づいて文字起こし情報Rの生成や修正を行いつつ、第1音声認識モデルm1や第2音声認識モデルm2の更新を行うことができる。
(応用例)
第1〜第4実施形態のアクティブラーニングシステムは、Web−APIとして直接的に提供される文字起こしサービスに適用されるほか、ZOOM(登録商標)などのWeb会議システムにおいてオプション的に提供される文字起こしサービスに適用することができる。
この場合、図17(a)に示すように、Web会議画面に、会議相手の音声の文字起こし情報Rを表示部351に表示することができる。
これにより、利用者はWeb会議をしながら、会議相手の音声の文字起こし情報Rをリアルタイムに見ることや、文字起こし情報Rの修正を簡単に行うことができ、この結果、誤記の少ない文字起こし情報R(議事録)を生成しつつ、認識精度の高い音声認識モデルへの更新を行うことができる。
また、第1〜第4実施形態のアクティブラーニングシステムは、端末装置3にスマートグラスを適用することができる。
この場合、図17(b)に示すように、レンズ部等に設けられた表示部351に文字起こし情報Rを表示することができる。
これにより、利用者は、スマートグラスを装着するだけで、対象話者と対話しながら当該話者の音声の文字起こし情報Rをリアルタイムに見ることができる。
この場合も、利用者は例えば会議や打合せをしながら、相手の音声の文字起こし情報Rをリアルタイムに見ることや、文字起こし情報Rの修正を行うことができ、この結果、誤記の少ない文字起こし情報R(議事録)を生成しつつ、認識精度の高い音声認識モデルへの更新を行うことができる。
以上説明したように、本発明のアクティブラーニングシステムは、サーバと端末装置3とを備えたアクティブラーニングシステムにおいて、サーバは、話者の音声を入力とし、当該音声に対応する文字情報を出力とするデータセットを学習させることで第1音声認識モデルm1を生成する音声認識モデル生成部102を備え、端末装置3は、対象話者の音声を第1音声認識モデルm1に入力することにより当該第1音声認識モデルm1から出力された第1文字情報を、文字起こし情報Rとして生成する文字起こし情報生成部304と、第1音声認識モデルm1から出力された第1文字情報と、前記対象話者の音声を第1音声認識モデルm1とは異なる第2音声認識モデルm2に入力することにより当該第2音声認識モデルm2から出力された第2文字情報と、の相違部分を特定する相違部分特定部301と、操作に応じ、前記相違部分に対応する第1文字情報と第2文字情報のうちのいずれか一方を選択可能な選択部303と、選択部303により選択された文字情報が第2文字情報の場合、文字起こし情報生成部304により生成された文字起こし情報Rにおける前記相違部分に対応する第1文字情報を第2文字情報に修正する文字起こし情報修正部305と、を備え、音声認識モデル生成部102は、選択部303により選択された文字情報が第2文字情報の場合、当該第2文字情報を出力とし、対応する前記対象話者の音声を入力とするデータセットを追加学習させることで第1音声認識モデルm1を再生成するようにしてある。
また、本発明のアクティブラーニングプログラムは、サーバ(第1サーバ1と第2サーバ2)と端末装置3とを備えたシステムにおける各装置のコンピュータを、話者の音声を入力とし、当該音声に対応する文字情報を出力とするデータセットを学習させることで第1音声認識モデルm1を生成する音声認識モデル生成部102、対象話者の音声を第1音声認識モデルm1に入力することにより当該第1音声認識モデルm1から出力された第1文字情報を、文字起こし情報Rとして生成する文字起こし情報生成部304、第1音声認識モデルm1から出力された第1文字情報と、前記対象話者の音声を第1音声認識モデルm1とは異なる第2音声認識モデルm2に入力することにより当該第2音声認識モデルm2から出力された第2文字情報と、の相違部分を特定する相違部分特定部301、操作に応じ、前記相違部分に対応する第1文字情報と第2文字情報のうちのいずれか一方を選択可能な選択部303、選択部303により選択された文字情報が第2文字情報の場合、文字起こし情報生成部304により生成された文字起こし情報Rにおける前記相違部分に対応する第1文字情報を第2文字情報に修正する文字起こし情報修正部305、として機能させ、音声認識モデル生成部102は、選択部303により選択された文字情報が第2文字情報の場合、当該第2文字情報を出力とし、対応する前記対象話者の音声を入力とするデータセットを追加学習させることで第1音声認識モデルm1を再生成するようにしてある。
このような本発明のアクティブラーニングシステム及びアクティブラーニングプログラムによれば、アノテーションのためだけに多くの人手や時間をかけずに音声認識モデルのアクティブラーニングを行うことができる。
特に、音声認識モデルを用いて提供される文字起こしサービスにおいて文字起こし情報Rの簡単な修正操作を行いながら誤記の少ない文字起こし情報Rを作成しつつ、認識精度の高い音声認識モデルへの更新(アクティブラーニング)を行うことができる。
このため、音声認識モデルの認識精度を効率よく向上させることができる。
以上、本発明のアクティブラーニングシステム及びアクティブラーニングプログラムについて、好ましい実施形態を示して説明したが、本発明のアクティブラーニングシステム等は、前述した実施形態にのみ限定されるものではなく、本発明の範囲で種々の変更実施が可能であることは言うまでもない。
例えば、上述した各実施形態は、Web−APIの一例であり、各構成がサーバや端末装置に分散して設けられているが、1つの情報処理装置(サーバや端末装置)に全ての構成を備えさせることでも本発明を実現することができる。
具体的には、パーソナルコンピュータに各構成を実施可能なアクティブラーニングプログラムをインストールすればよく、この場合は、複数の音声認識モデルは内部(記憶手段)に設けてもよく、外部の装置(記憶装置や他の情報処理装置)に設けてもよい。
また、上述の実施形態では、選択部303は、利用者の操作に応じ、相違部分に対応する第1文字情報と第2文字情報のうち利用者が正しいと判断した方の文字情報を選択する構成について説明した。
すなわち、上述の実施形態においては、利用者が正しい文字情報と判断して一方の文字情報(第2文字情報)を選択した場合に、誤っているであろう他方の文字情報(第1文字情報)から生成された文字起こし情報Rをその一方の文字情報に修正し、誤っているであろう他方の文字情報を出力した音声認識モデル(第1音声認識モデルm1)の再生成を行う構成としている。
これに限らず、選択部303は、利用者の操作に応じ、相違部分に対応する第1文字情報と第2文字情報のうち利用者が誤っていると判断した方の文字情報を選択する構成とすることもできる
すなわち、利用者が誤っている文字情報と判断して一方の文字情報(第1文字情報)を選択した場合に、正しいであろうその一方の文字情報(第1文字情報)から生成された文字起こし情報Rを他方の文字情報(第2文字情報)に修正し、誤っているであろう一方の文字情報を出力した音声認識モデル(第1音声認識モデルm1)の再生成を行う構成とすることができる。
また、3つ以上の音声認識モデルを用いてアクティブラーニングシステムを構成することもできる。
この場合も、相違部分が検出された場合に、正しい文字情報によって誤った文字起こし情報Rを修正し、誤った音声認識モデルにおける追加学習を行えばよい。
本発明は、音声認識モデルを利用したWeb会議システム等における文字起こしサービスに好適に利用可能であり、この文字起こしサービスの提供を介して音声認識モデルの音声認識精度を向上させることが可能である。
1 第1サーバ
101 データセット記憶部
102 音声認識モデル生成部
2 第2サーバ
201 データセット記憶部
202 音声認識モデル生成部
3 端末装置
32 メモリ
33 ストレージ
351 表示部
300 音声送信部
301 相違部分特定部
302 相違部分表示部
303 選択部
304 文字起こし情報生成部
305 文字起こし情報修正部
4 ネットワーク
m1 第1音声認識モデル
m2 第2音声認識モデル
R 文字起こし情報
対象話者の音声に基づき、その音声から認識可能な文字情報を出力する技術が知られている。
この種の技術は、予め様々な話者の音声(質問)と、対応する文字情報(教師データ)との組合せ(データセット)を多数学習させることにより、いわゆる音声認識モデルと呼ばれるプログラムを生成し、この音声認識モデルに未知の対象話者の音声を入力することで、その音声に対応する文字情報を出力するように構成されている。
例えば、amazon(登録商標)社やマイクロソフト(登録商標)社などの事業者は、自身が保有する音声認識モデルに基づくAPI(Application Programming Interface)を提供しており、当該APIを用いた自動文字起こし(音声文字変換)サービスが提供されている。
ところで、音声認識モデルにおける認識精度(文字正解率)を向上させるための一手法として、アクティブラーニングが知られている(例えば、特許文献1参照)システムによる識別結果(抽出対象となるエンティティ)を人手で修正し、適切なエンティティのみを新たなエンティティ集合として、繰り返し学習を行う半自動の技術(非特許文献2等参照)が提案されているシステムによる識別結果(抽出対象となるエンティティ)を人手で修正し、適切なエンティティのみを新たなエンティティ集合として、繰り返し学習を行う半自動の技術(非特許文献2等参照)が提案されているシステムによる識別結果(抽出対象となるエンティティ)を人手で修正し、適切なエンティティのみを新たなエンティティ集合として、繰り返し学習を行う半自動の技術(非特許文献2等参照)が提案されている
アクティブラーニングは、入出力モデルの認識結果を人手で修正するものであり、例えば、信頼度の低いデータに対して人間がラベル付け(アノテーション)を行ったものを追加学習することで、入出力モデルの認識精度を向上させることができるものである。

Claims (3)

  1. 話者の音声を入力とし、当該音声に対応する文字情報を出力とするデータセットを学習させることで第1音声認識モデルを生成する音声認識モデル生成部と、
    対象話者の音声を前記第1音声認識モデルに入力することにより当該第1音声認識モデルから出力された第1文字情報を、文字起こし情報として生成する文字起こし情報生成部と、
    前記第1音声認識モデルから出力された第1文字情報と、前記対象話者の音声を前記第1音声認識モデルとは異なる第2音声認識モデルに入力することにより当該第2音声認識モデルから出力された第2文字情報と、の相違部分を特定する相違部分特定部と、
    操作に応じ、前記相違部分に対応する第1文字情報と第2文字情報のうちのいずれか一方を選択可能な選択部と、
    前記選択部により選択された文字情報が前記第2文字情報の場合、前記文字起こし情報生成部により生成された文字起こし情報における前記相違部分に対応する前記第1文字情報を前記第2文字情報に修正する文字起こし情報修正部と、を備え、
    前記音声認識モデル生成部は、
    前記選択部により選択された文字情報が前記第2文字情報の場合、当該第2文字情報を出力とし、対応する前記対象話者の音声を入力とするデータセットを追加学習させることで前記第1音声認識モデルを再生成する
    ことを特徴とするアクティブラーニングシステム。
  2. コンピュータを、
    話者の音声を入力とし、当該音声に対応する文字情報を出力とするデータセットを学習させることで第1音声認識モデルを生成する音声認識モデル生成部、
    対象話者の音声を前記第1音声認識モデルに入力することにより当該第1音声認識モデルから出力された第1文字情報を、文字起こし情報として生成する文字起こし情報生成部、
    前記第1音声認識モデルから出力された第1文字情報と、前記対象話者の音声を前記第1音声認識モデルとは異なる第2音声認識モデルに入力することにより当該第2音声認識モデルから出力された第2文字情報と、の相違部分を特定する相違部分特定部、
    操作に応じ、前記相違部分に対応する第1文字情報と第2文字情報のうちのいずれか一方を選択可能な選択部、
    前記選択部により選択された文字情報が前記第2文字情報の場合、前記文字起こし情報生成部により生成された文字起こし情報における前記相違部分に対応する前記第1文字情報を前記第2文字情報に修正する文字起こし情報修正部、として機能させ、
    前記音声認識モデル生成部は、
    前記選択部により選択された文字情報が前記第2文字情報の場合、当該第2文字情報を出力とし、対応する前記対象話者の音声を入力とするデータセットを追加学習させることで前記第1音声認識モデルを再生成する
    ことを特徴とするアクティブラーニングプログラム。
  3. コンピュータを、
    話者の音声を入力とし、当該音声に対応する文字情報を出力とするデータセットを学習させることで第1音声認識モデルを生成する音声認識モデル生成部、
    対象話者の音声を前記第1音声認識モデルに入力することにより当該第1音声認識モデルから出力された第1文字情報と、前記対象話者の音声を前記第1音声認識モデルとは異なる第2音声認識モデルに入力することにより当該第2音声認識モデルから出力された第2文字情報と、の相違部分を特定する相違部分特定部、
    操作に応じ、前記相違部分に対応する第1文字情報と第2文字情報のうちのいずれか一方を選択可能な選択部、として機能させ、
    前記音声認識モデル生成部は、
    前記選択部により選択された文字情報が前記第2文字情報の場合、当該第2文字情報を出力とし、対応する前記対象話者の音声を入力とするデータセットを追加学習させることで前記第1音声認識モデルを再生成する
    ことを特徴とするアクティブラーニングプログラム。
JP2020107356A 2020-06-22 2020-06-22 アクティブラーニングシステム及びアクティブラーニングプログラム Active JP6824547B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020107356A JP6824547B1 (ja) 2020-06-22 2020-06-22 アクティブラーニングシステム及びアクティブラーニングプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020107356A JP6824547B1 (ja) 2020-06-22 2020-06-22 アクティブラーニングシステム及びアクティブラーニングプログラム

Publications (2)

Publication Number Publication Date
JP6824547B1 JP6824547B1 (ja) 2021-02-03
JP2022001930A true JP2022001930A (ja) 2022-01-06

Family

ID=74228040

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020107356A Active JP6824547B1 (ja) 2020-06-22 2020-06-22 アクティブラーニングシステム及びアクティブラーニングプログラム

Country Status (1)

Country Link
JP (1) JP6824547B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7236570B1 (ja) 2022-01-11 2023-03-09 ソフトバンク株式会社 システム、通信端末、及び方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010085536A (ja) * 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP2012063537A (ja) * 2010-09-15 2012-03-29 Ntt Docomo Inc 通信端末、音声認識方法、および音声認識プログラム
JP2012088370A (ja) * 2010-10-15 2012-05-10 Denso Corp 音声認識システム、音声認識端末、およびセンター
WO2014129033A1 (ja) * 2013-02-25 2014-08-28 三菱電機株式会社 音声認識システムおよび音声認識装置
US20150287413A1 (en) * 2014-04-07 2015-10-08 Samsung Electronics Co., Ltd. Speech recognition using electronic device and server
JP2018132626A (ja) * 2017-02-15 2018-08-23 クラリオン株式会社 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法
JP2019045788A (ja) * 2017-09-06 2019-03-22 株式会社日立情報通信エンジニアリング 通話音声認識システム及びその音声認識制御方法
WO2020065840A1 (ja) * 2018-09-27 2020-04-02 株式会社オプティム コンピュータシステム、音声認識方法及びプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010085536A (ja) * 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP2012063537A (ja) * 2010-09-15 2012-03-29 Ntt Docomo Inc 通信端末、音声認識方法、および音声認識プログラム
JP2012088370A (ja) * 2010-10-15 2012-05-10 Denso Corp 音声認識システム、音声認識端末、およびセンター
WO2014129033A1 (ja) * 2013-02-25 2014-08-28 三菱電機株式会社 音声認識システムおよび音声認識装置
US20150287413A1 (en) * 2014-04-07 2015-10-08 Samsung Electronics Co., Ltd. Speech recognition using electronic device and server
JP2018132626A (ja) * 2017-02-15 2018-08-23 クラリオン株式会社 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法
JP2019045788A (ja) * 2017-09-06 2019-03-22 株式会社日立情報通信エンジニアリング 通話音声認識システム及びその音声認識制御方法
WO2020065840A1 (ja) * 2018-09-27 2020-04-02 株式会社オプティム コンピュータシステム、音声認識方法及びプログラム

Also Published As

Publication number Publication date
JP6824547B1 (ja) 2021-02-03

Similar Documents

Publication Publication Date Title
US10217464B2 (en) Vocabulary generation system
US11450311B2 (en) System and methods for accent and dialect modification
CN104252864B (zh) 实时语音分析方法和系统
US20190034414A1 (en) Method for providing dialogue service with chatbot assisted by human agents
US8849666B2 (en) Conference call service with speech processing for heavily accented speakers
US10839788B2 (en) Systems and methods for selecting accent and dialect based on context
US11183187B2 (en) Dialog method, dialog system, dialog apparatus and program that gives impression that dialog system understands content of dialog
JP5756555B1 (ja) 発話評価装置、発話評価方法及びプログラム
JP6705956B1 (ja) 教育支援システム、方法及びプログラム
KR101819459B1 (ko) 음성 인식 오류 수정을 지원하는 음성 인식 시스템 및 장치
US20240161372A1 (en) Method and system for providing service for conversing with virtual person simulating deceased person
JP6824547B1 (ja) アクティブラーニングシステム及びアクティブラーニングプログラム
KR20070053802A (ko) 대화 시스템의 충실도를 향상시키는 방법 및 컴퓨터이용가능 매체
US20190073994A1 (en) Self-correcting computer based name entity pronunciations for speech recognition and synthesis
JP6166831B1 (ja) 単語学習支援装置、単語学習支援プログラム、単語学習支援方法
US20230130777A1 (en) Method and system for generating voice in an ongoing call session based on artificial intelligent techniques
JP2017021245A (ja) 語学学習支援装置、語学学習支援方法および語学学習支援プログラム
JP5818753B2 (ja) 音声対話システム及び音声対話方法
US20220093086A1 (en) Method and a system for capturing conversations
JPH06337627A (ja) 手話通訳装置
US11508260B2 (en) Deaf-specific language learning system and method
CN112309183A (zh) 适用于外语教学的交互式听说练习系统
US20230182005A1 (en) Controlling multicomputer interaction with deep learning and artificial intelligence
WO2024111387A1 (ja) 処理装置、処理方法、及び記録媒体
KR102128812B1 (ko) 로봇의 사회 지능 평가 방법 및 이를 위한 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200808

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200808

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200808

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201009

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210105

R150 Certificate of patent or registration of utility model

Ref document number: 6824547

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150