JP2022001930A

JP2022001930A - アクティブラーニングシステム及びアクティブラーニングプログラム

Info

Publication number: JP2022001930A
Application number: JP2020107356A
Authority: JP
Inventors: 徹江崎; Toru Ezaki
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2022-01-06
Anticipated expiration: 2040-06-22
Also published as: JP6824547B1

Abstract

【課題】音声認識モデルの認識精度を効率よく向上させる。【解決手段】第１サーバ１は、話者の音声と対応する文字のセットを学習させることで第１モデルｍ１を生成するモデル生成部１０２を備える。端末装置３は、対象話者の音声を第１音声認識モデルｍ１に入力して得た第１文字を文字起こし情報として生成する文字起こし情報生成部３０４と、第１文字と対象話者の音声を第２音声認識モデルｍ２に入力して得た第２文字との相違部分を特定する相違部分特定部３０１と、相違部分に対応する第１文字と第２文字のうちのいずれかを選択可能な選択部３０３と、選択された文字が第２文字の場合、文字起こし情報の相違部分に対応する第１文字を第２文字に修正する文字起こし情報修正部３０５と、を備える。音声認識モデル生成部は、選択された文字が第２文字の場合、当該文字と対応する対象話者の音声のセットを追加学習させることで第１モデルｍ１を再生成する。【選択図】図４

Description

本発明は、音声認識モデルの認識精度を向上させることが可能なアクティブラーニングに関するものである。

対象話者の音声に基づき、その音声から認識可能な文字情報を出力する技術が知られている。
この種の技術は、予め様々な話者の音声（質問）と、対応する文字情報（教師データ）との組合せ（データセット）を多数学習させることにより、いわゆる音声認識モデルと呼ばれるプログラムを生成し、この音声認識モデルに未知の対象話者の音声を入力することで、その音声に対応する文字情報を出力するように構成されている。
例えば、amazon（登録商標）社やマイクロソフト（登録商標）社などの事業者は、自身が保有する音声認識モデルに基づくＡＰＩ（Application Programming Interface）を提供しており、当該ＡＰＩを用いた自動文字起こし（音声文字変換）サービスが提供されている。
ところで、音声認識モデルにおける認識精度（文字正解率）を向上させるための一手法として、アクティブラーニングが知られている（例えば、特許文献１参照）。システムによる識別結果（抽出対象となるエンティティ）を人手で修正し、適切なエンティティのみを新たなエンティティ集合として、繰り返し学習を行う半自動の技術（非特許文献２等参照）が提案されているシステムによる識別結果（抽出対象となるエンティティ）を人手で修正し、適切なエンティティのみを新たなエンティティ集合として、繰り返し学習を行う半自動の技術（非特許文献２等参照）が提案されているシステムによる識別結果（抽出対象となるエンティティ）を人手で修正し、適切なエンティティのみを新たなエンティティ集合として、繰り返し学習を行う半自動の技術（非特許文献２等参照）が提案されている
アクティブラーニングは、入出力モデルの認識結果を人手で修正するものであり、例えば、信頼度の低いデータに対して人間がラベル付け（アノテーション）を行ったものを追加学習することで、入出力モデルの認識精度を向上させることができるものである。

特開２０１２−１４６００３号公報

しかしながら、アクティブラーニングにおいては、アノテーションのためだけに多くの人手や時間が必要であり、その分のコストがかかる点において問題があった。

本発明は、以上のような事情に鑑みなされたものであり、独立した複数の音声認識モデルを利用することで、所定の音声認識モデルの認識精度を効率よく向上したり、また、これを文字起こし処理と組み合わせることで、より効率よく音声認識モデルの認識精度を向上させることが可能なアクティブラーニングシステム及びアクティブラーニングプログラムの提供を目的とする。

上記課題を達成するため、本発明のアクティブラーニングシステムは、話者の音声を入力とし、当該音声に対応する文字情報を出力とするデータセットを学習させることで第１音声認識モデルを生成する音声認識モデル生成部と、対象話者の音声を前記第１音声認識モデルに入力することにより当該第１音声認識モデルから出力された第１文字情報を、文字起こし情報として生成する文字起こし情報生成部と、前記第１音声認識モデルから出力された第１文字情報と、前記対象話者の音声を前記第１音声認識モデルとは異なる第２音声認識モデルに入力することにより当該第２音声認識モデルから出力された第２文字情報と、の相違部分を特定する相違部分特定部と、操作に応じ、前記相違部分に対応する第１文字情報と第２文字情報のうちのいずれか一方を選択可能な選択部と、前記選択部により選択された文字情報が前記第２文字情報の場合、前記文字起こし情報生成部により生成された文字起こし情報における前記相違部分に対応する前記第１文字情報を前記第２文字情報に修正する文字起こし情報修正部と、を備え、前記音声認識モデル生成部は、前記選択部により選択された文字情報が前記第２文字情報の場合、当該第２文字情報を出力とし、対応する前記対象話者の音声を入力とするデータセットを追加学習させることで前記第１音声認識モデルを再生成するようにしてある。

本発明によれば、音声認識モデルの認識精度を効率よく向上させることができる。

本発明の第１実施形態のアクティブラーニングシステムの概略構成図である。（ａ）は第１サーバのハードウェア構成図であり、（ｂ）は第２サーバのハードウェア構成図である。端末装置のハードウェア構成図である。第１実施形態のアクティブラーニングシステムの機能を示すブロック図である。データセットの一例である。（ａ）は第１音声認識モデルのイメージ図、（ｂ）は第２音声認識モデルのイメージ図である。「It is important.」を含む音声を第１音声認識モデル及び第２音声認識モデルに入力したときの出力結果を示す図である。（ａ）は第１文字情報と第２文字情報との相違部分の表示例を示す図であり、（ｂ）は第１文字情報と第２文字情報のうち第２文字情報が選択されたことを示す図である。第１文字情報に基づいて生成された文字起こし情報を示す図である。文字起こし情報が修正されたことを示す図である。データセットが追加されたことを示す図である。追加されたデータセットに基づく追加学習によって高精度の第１音声認識モデルに更新されたことを示す図である。第１実施形態のアクティブラーニングシステム及びアクティブラーニングプログラムのフローチャートである。第２実施形態のアクティブラーニングシステムの機能を示すブロック図である。第３実施形態のアクティブラーニングシステムの機能を示すブロック図である。第４実施形態のアクティブラーニングシステムの機能を示すブロック図である。（ａ）はＷｅｂ会議における応用例、（ｂ）はスマートグラスにおける応用例を示す図である。

［第１実施形態］
本発明の第１実施形態のアクティブラーニングシステムについて図面を参照して説明する。
図１は、第１実施形態のアクティブラーニングシステムの概略構成図である。
図１に示すように、第１実施形態のアクティブラーニングシステムは、第１サーバ１と、第２サーバ２と、端末装置３とを備え、これらがインターネットなどのネットワーク４を介して通信可能に接続されている。
第１サーバ１及び第２サーバ２は、いわゆる文字起こしサービスをＡＰＩ（Ｗｅｂ−ＡＰＩ）により端末装置３に対して提供可能なＡＰＩサーバである。
端末装置３は、利用者が利用する端末機器であり、例えばスマートフォン、パーソナルコンピュータ、スマートグラス（ウェアラブル端末）などを想定している。

図２（ａ）は第１サーバ１のハードウェア構成図であり、図２（ｂ）は第２サーバ２のハードウェア構成図である。
図２（ａ）に示すように、第１サーバ１は、プロセッサ１１と、メモリ１２と、ストレージ１３と、通信装置１４とを備えるコンピュータである。
プロセッサ１１は、制御部、演算部、レジスタ等を含む中央処理部（ＣＰＵ）を備え、コンピュータ全体を制御する。
プロセッサ１１は、プログラム（本発明のアクティブラーニングプログラムを含む）及びデータ等を、ストレージ１３や通信装置１４からメモリ１２に読み出し、これらに従って各種の処理を実行する。
メモリ１２は、コンピュータが読み取り可能な記録媒体であり、例えば、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＲＡＭ等である。

ストレージ１３は、コンピュータが読み取り可能な記録媒体であり、例えば、ハードディスクドライブ、フラッシュメモリ等である。
第１サーバ１のストレージ１３には、音声認識モデル（第１音声認識モデルｍ１）が記憶されており、また、この第１音声認識モデルｍ１を生成するためのデータセットを記憶できるようになっている。
通信装置１４は、有線及び／又は無線による通信回線を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等である。
なお、第２サーバ２のハードウェア構成は、第１サーバ１のハードウェア構成は同じである。
異なる点として、第２サーバ２のストレージ２３には、第２音声認識モデルｍ２が記憶されており、また、この第２音声認識モデルｍ２を生成するためのデータセットを記憶できるようになっている。
その他の構成は、第１サーバ１と同様であるため、説明を省略する。

図３は、端末装置３のハードウェア構成図である。
図３に示すように、端末装置３は、プロセッサ３１と、メモリ３２と、ストレージ３３と、入力装置３４と、出力装置３５と、通信装置１６とを備えるコンピュータである。
プロセッサ３１は、制御部、演算部、レジスタ等を含む中央処理部（ＣＰＵ）を備え、コンピュータ全体を制御する。
プロセッサ３１は、プログラム（本発明のアクティブラーニングプログラムを含む）及びデータ等を、ストレージ３３や通信装置３６からメモリ３２に読み出し、これらに従って各種の処理を実行する。
メモリ３２は、コンピュータが読み取り可能な記録媒体であり、例えば、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＲＡＭ等である。

ストレージ３３は、コンピュータが読み取り可能な記録媒体であり、例えば、ハードディスクドライブ、フラッシュメモリ等である。
入力装置３４は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。
このうち、キーボードやマウスは、端末装置３がパーソナルコンピュータの場合の操作手段として機能し、ボタンやセンサは、端末装置３がスマートフォンの場合の操作手段として機能し、スイッチやボタンは、端末装置３がスマートグラスの場合の操作手段として機能する。
出力装置３５は、外部への出力を実施する出力デバイス（例えば、モニター、ディスプレイ、表示パネル、スピーカー、ＬＥＤランプなど）である。
本実施形態の端末装置３は、出力装置３５として、モニター、ディスプレイ、表示パネルなどの表示部３５１を備えている。
通信装置３６は、有線及び／又は無線による通信回線を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等である。

図４は、第１サーバ１、第２サーバ２、及び端末装置３の各機能構成を示すブロック図である。
図４に示すように、第１サーバ１は、データセット記憶部１０１と、音声認識モデル生成部１０２と、第１音声認識モデルｍ１と、を備える。
第２サーバ２は、第２音声認識モデルｍ２を備える。
端末装置３は、相違部分特定部３０１と、相違部分表示部３０２と、選択部３０３と、文字起こし情報生成部３０４と、文字起こし情報修正部３０５と、を備える。
第１サーバ１及び第２サーバ２は、プロセッサ１１がアクティブラーニングプログラムを実行して各部を制御することで、以下に示す機能が実現され、端末装置３は、プロセッサ３１がアクティブラーニングプログラムを実行して各部を制御することで、以下に示す機能が実現される。

第１サーバ１は、データセット記憶部１０１が、話者の音声を入力とし、当該音声に対応する文字情報（教師データ）を出力とするデータセットをストレージ１３に記憶する。
図５は、当初の第１音声認識モデルｍ１の生成時に用いられたデータセットの一例である
図５に示すように、データセットは、話者が「あ」と発したときの音声情報と、その教師データである文字情報「あ」とが対応付けて構成される。
「あ」、「い」のように短音単位で文字情報がラベリングされたものや、「りんご」のように単語単位で文字情報がラベリング（対応付け）されたものや、「わたしはりんごをもっています」のように、フレーズ単位で文字情報がラベリングされたものがある。
また、「apple」や「I have an apple」のように、英語の短音、単語、フレーズごとに文字情報をラベリングしたものを用いることもできる。
なお、図５は、一例であり、実際には、多数のデータセットが用意され、これら多数のデータセットに基づき、第１音声認識モデルｍ１が生成される。
データセットは、日本語だけで構成してもよく、英語だけで構成してもよく、日本語や英語以外の言語を単独で又は組み合わせて構成することもできる。
また、図５は、説明の便宜上、音声を波形によって模式的に表現しているが、音声を識別可能な定量的なデータ（特徴情報など）を用いることができる。

第１サーバ１の音声認識モデル生成部１０２は、データセットを機械学習させることで第１音声認識モデルｍ１を生成する。
図６（ａ）は、第１音声認識モデルｍ１のイメージ図である。
機械学習では、公知の深層学習（ディープラーニング）などのニューラルネットワークが用いられる。
すなわち、音声認識モデルは、大量のデータセットをニューラルネットワークに学習させることで生成される。
例えば、ニューラルネットワークにおいて、入力層に、図５（ａ）の音声（既知の音声）を入力することで、出力層から図５（ｂ）の文字情報（（ａ）の音声に対応する教師データとしての文字情報）が出力されるように重みやバイアスを学習（最適化）させることで、未知の音声を入力するとその音声に対応する文字情報（入力した音声に対応する正解の文字情報）を高確率に出力可能な入出プログラムが音声認識モデル（第１音声認識モデルｍ１）として生成される（図６（ａ））。
公知のＣＮＮ（畳み込みニューラルネットワーク）、ＲＮＮ（再帰型ニューラルネットワーク）、ＬＳＴＭ等を用いることもできる。
第１サーバ１は、音声認識モデル生成部１０２により生成された第１音声認識モデルｍ１をストレージ１３に記憶している。

第２サーバ２は、第２音声認識モデルｍ２をストレージ２３に記憶している。
図６（ｂ）は、第２音声認識モデルｍ２のイメージ図である。
すなわち、第１サーバ１及び第２サーバ２は、それぞれ音声認識モデルを保有している。
これにより、ネットワーク４に接続された端末装置３では、入力した音声を文字に変換する文字起こし処理を、第１サーバ１及び第２サーバ２が提供するＡＰＩを介して実行できるようになっている。
ただし、第１音声認識モデルｍ１と第２音声認識モデルｍ２は、それぞれは、データセットやニューラルネットワークの構成（層数その他）が異なるなど、独立した相異なる音声認識モデルである。
例えば、第１音声認識モデルｍ１は、事業者Ａ（Amazon社）により運営されているサーバ（第１サーバ１）に保有され、このサーバにより提供される文字起こしサービス（Amazon Transcribe）に用いられる音声認識モデルを想定することができる。
一方、第２音声認識モデルｍ２は、事業者Ｂ（マイクロソフト社）により運営されているサーバ（第２サーバ２）に保有され、このサーバにより提供される文字起こしサービス（Speech to text）に用いられる音声認識モデルを想定することができる。

このため、同一の対象話者の音声（未知の音声）を、第１音声認識モデルｍ１と第２音声認識モデルｍ２入力した場合でも、異なる文字情報が出力される可能性がある。
これは、第１音声認識モデルｍ１と第２音声認識モデルｍ２は、いずれも、その正解率が１００％でないことからも当然の事象である。
ただし、第１音声認識モデルｍ１と第２音声認識モデルｍ２は、いずれも、その正解率は高確率（例えば事業用のもので８５％〜９５％との報告がある）であることを前提としている。
このため、第１音声認識モデルｍ１と第２音声認識モデルｍ２に、それぞれ未知の音声を入力したときに、どちらもが誤った文字情報を出力する可能性は低い。
また、同一の対象話者の音声を、第１音声認識モデルｍ１と第２音声認識モデルｍ２のそれぞれに入力して文字情報を出力させた場合において、それらの文字情報が相異なる場合、論理的には、一方の文字情報は正しく、他方の文字情報は誤っている可能性が高い。

端末装置３は、第１サーバ１や第２サーバ２の機能を利用することにより、当該端末装置３において、入力した対象話者の音声を文字情報に変換して表示したり、保存することができる。
具体的には、端末装置３において、マイクロフォンから対象話者の音声を入力すると、音声送信部３００が、第１サーバ１に当該対象話者の音声を送信する。
第１サーバ１は、端末装置３から受信した対象話者の音声を第１音声認識モデルｍ１に入力し、当該第１音声認識モデルｍ１から第１文字情報を出力させる。
第１サーバ１は、この第１文字情報を端末装置３に送信する。
また、端末装置３の音声送信部３００は、マイクロフォンから入力された対象話者の音声を、第２サーバ２にも送信する。
第２サーバ２は、端末装置３から受信した対象話者の音声を第２音声認識モデルｍ２に入力し、当該第２音声認識モデルｍ２から第２文字情報を出力させる。
第２サーバ２は、この第２文字情報を端末装置３に送信する。
端末装置３は、第１サーバ１から受信した第１音声情報と、第２サーバ２から受信した第２音声情報と、入力した対象話者の音声とを対応付けてメモリ３２に記憶する。
図７は、（ａ）が、対象話者の音声「・・It is important.・・」を第１音声認識モデルｍ１に入力したときに出力された第１文字情報「・・It is imported.・・」を示す図であり、（ｂ）が、対象話者の音声を第２音声認識モデルｍ２に入力したときに出力された第２文字情報「・・It is important.・・」を示す図ある。

端末装置３は、文字起こし情報生成部３０４が、第１サーバ１から受信した第１文字情報に基づいて議事録などの文字起こし情報Ｒを生成する。
生成された文字起こし情報Ｒは表示部３５１に表示したり、ストレージ３３に記憶することができる。
例えば、利用者が、対象話者と打合せや会議を行う場面において、当該対象話者と対話しながらその音声の文字情報（文字起こし情報Ｒ）をリアルタイムに見ることができる。
図８（ａ）は、対象話者が「・・It is important.・・」と発音した場合において、その音声に対応する第１文字情報「・・It is imported.・・」が文字起こし情報Ｒとして表示部３５１の上部領域に表示されたことを示している。
図９は、ストレージ３３に記憶された文字起こし情報Ｒを模式的に示す図である。
ストレージ３３に記憶された文字起こし情報Ｒは、プリンタにより印刷したり、外部に送信したり、リムーバブルメディアに記憶させるなどして利用することができる。
文字起こし情報Ｒは、第１音声認識モデルｍ１の出力結果である第１文字情報に基づいて生成されるところ、図８（ａ）及び図９は、その出力結果が誤っているために（正しくは「important」）、表示又は記憶される文字起こし情報Ｒにおいても、誤った文字情報（「imported」）が含まれていることを示している。
このように、文字起こし情報生成部３０４は、第１文字情報に基づいて文字起こし情報Ｒを生成するが、第２文字情報に基づいて文字起こし情報Ｒを生成しない。
ただし、文字起こし情報Ｒを、第２文字情報に基づいて生成したり、第１文字情報と第２文字情報とに基づく２つの文字起こし情報Ｒを生成することもできる。

相違部分特定部３０１は、第１サーバ１から受信した第１文字情報と、第２サーバ２から受信した文字情報との相違部分を特定する。
具体的には、メモリ３２を参照することにより、第１サーバ１から受信した第１文字情報と第２サーバ２から受信した第２文字情報とを比較し、これらの相違部分を特定する。
相違部分の有無は、一定の文字数毎、フレーズごと、単語毎、行毎、ページ毎など、様々な単位で判断することができ、また、所定のタイミングで判断することができる。
図７の例においては、第１文字情報「・・It is imported.・・」と第２文字情報「・・It is important.・・」との比較により、第１文字情報「imported」と第２文字情報「important」とが相違部分として特定される。

相違部分表示部３０２は、相違部分特定部３０１により特定された相違部分の文字情報（第１文字情報と第２文字情報）を表示部３５１に表示する
図８（ａ）は、相違部分表示部３０２により第１文字情報「imported」と第２文字情報「important」とが表示部３５１の下部領域に表示されていることを示している。
同図に示すように、対象話者が発話するのと同時に文字起こし情報Ｒを表示しながら、相違部分を示す情報（例えば下線）を表示することができる（上部領域）。
また、このとき、相違部分に対応する第1文字情報と第２文字情報のうち、利用者が正しいと判断する方の文字情報の選択を促す情報（・・・or・・・？）を表示することもできる（下部領域）。

選択部３０３は、操作に応じ、相違部分に対応する第１文字情報と第２文字情報のうちのいずれか一方を選択する。
具体的には、利用者が、所定の操作手段（例えば、マウス操作やボタン操作）により、表示されている第１文字情報と第２文字情報のうち一方の文字情報が選択される。
これは、第１音声認識モデルｍ１の出力結果である第１文字情報と、第２音声認識モデルｍ２の出力結果である第２文字情報とが異なる場合、一方が正しく他方が誤っている可能性が高いため、どちらが正しいかを利用者の選択操作を介して選択させるためである。
図８（ｂ）は、利用者の操作によって「important」（第２文字情報）が選択されたことを示している。
つまり、同図は、利用者が、対象話者の音声を聞いたことにより把握した言葉と合う文字情報として、第２文字情報「important」が正しい（つまり、第１文字情報「imported」が誤り）と判断したために、第２文字情報「important」を選択したことを示している。

文字起こし情報修正部３０５は、選択部３０３により選択された文字情報が第２文字情報の場合、文字起こし情報生成部３０４により生成された文字起こし情報Ｒの相違部分に対応する第１文字情報を第２文字情報に修正して記憶する。
例えば、第１文字情報「imported」と第２文字情報「important」のうち、第２文字情報が選択された場合、第２文字情報が正しく、第１文字情報は誤りの可能性が高いため、第１文字情報に基づいて生成されている文字起こし情報Ｒにおける「imported」の部分を第２文字情報「important」に修正する。
図１０は、文字起こし情報Ｒ（図９）における「imported」の部分が「important」に修正されたことを示している。

端末装置３は、選択部３０３により第２文字情報が選択された場合、当該第２文字情報を第１サーバ１に送信する。
第１サーバ１は、端末装置３から第２文字情報を受信すると、データセット記憶部１０１が、当該第２文字情報を出力（教師データ）とし、対応する対象話者の音声を入力とするデータセットを追加して記憶する。
図１１は、元のデータセット（図５）に、選択部３０３により選択された第２文字情報を出力（教師データ）とし、対応する対象話者の音声を入力とするデータセットが追加されたことを示している。
そして、音声認識モデル生成部１０２が、追加されたデータセットを追加学習させることにより音声認識モデル（第１音声認識モデルｍ１）を再生成（更新）する。
図１２は、更新された第１音声認識モデルｍ１−１に音声「・・It is important.・・」を入力した場合に、出力結果として正しい文字情報「・・It is important.・・」が出力されたことを示している。
つまり、同図は、更新された第１音声認識モデルｍ１−１に音声「・・It is important.・・」を入力した場合には、正しい出力結果が得られる可能性が高くなることを示している。

次に、第１実施形態のアクティブラーニングシステムにおける処理手順、すなわち、アクティブラーニングプログラムの動作手順について、図１３を参照しながら説明する。
まず、対象話者の音声を第１音声認識モデルｍ１に入力すると共に、第２音声認識モデルｍ２に入力する（Ｓ１）。
具体的には、端末装置３において対象話者の音声を入力すると、音声送信部３００が第１サーバ１及び第２サーバ２にその音声をそれぞれ送信する。
第１サーバ１は、端末装置３から受信した音声を第１音声認識モデルｍ１に入力する。
第２サーバ２は、端末装置３から受信した音声を第２音声認識モデルｍ２に入力する。
これにより、第１音声認識モデルｍ１から第１文字情報が出力され、第２音声認識モデルｍ２から第２文字情報が出力される（Ｓ２）。
第１サーバ１は、出力された第１文字情報を端末装置３に送信する。
第２サーバ２は、出力された第２文字情報を端末装置３に送信する。
端末装置３は、第１サーバ１から受信した第１文字情報及び第２サーバ２から受信した第２文字情報を、入力された対象話者の音声と対応付けてメモリ３２に記憶する。

端末装置３は、第１文字情報に基づいて文字起こし情報Ｒを生成する（Ｓ３）。
具体的には、文字起こし情報生成部３０４が、第１サーバ１から受信した第１文字情報に基づいて文字起こし情報Ｒを生成する。
生成された文字起こし情報Ｒは、表示部３５１に表示したり、ストレージ３３に記憶される。
続いて、第１文字情報と第２文字情報の相違部分が有るか否かを判定する（Ｓ４）。
具体的には、相違部分特定部３０１が、メモリ３２を参照することにより、第１サーバ１から受信した第１文字情報と第２サーバ２から受信した第２文字情報とを対比し、異なる文字があるか否かを判定する。

Ｓ４において、相違部分が有ることが判定された場合（Ｓ４−Ｙｅｓ）、相違部分の第１文字情報と第２文字情報を表示する（Ｓ５）。
具体的には、相違部分表示部３０２が、相違部分特定部３０１により特定された相違部分の第１文字情報と第２文字情報とを選択可能な態様で表示する。
ここで、利用者の操作に応じ、第１文字情報と第２文字情報のうちのいずれか一方を選択する（Ｓ６）。
つまり、第１文字情報と第２文字情報のうちどちらが正しいかを利用者に選択させる。

第２文字情報が選択された場合（Ｓ７−Ｙｅｓ）、当該第２文字情報に基づいて文字起こし情報Ｒを修正する（Ｓ８）。
具体的には、Ｓ３において生成された文字起こし情報Ｒにおける、相違部分の第１文字情報を、Ｓ７において選択された第２文字情報に修正する。
また、第２文字情報（出力）と、これに対応する対象話者の音声（入力）とをデータセットとして追加学習させることにより、第１音声認識モデルｍ１を再生成する（Ｓ９）。
具体的には、Ｓ７において選択された第２文字情報（出力）と、Ｓ４において判定された相違部分の第２文字情報と対応する対象話者の音声（メモリ３２において、その第２文字情報と対応付けて記憶されてある対象話者の音声）を入力とするデータセットを追加して記憶し、音声認識モデル生成部１０２が、追加されたデータセットを追加学習することによって新たな第１音声認識モデルｍ１−１を生成（更新）する。
なお、Ｓ４において、相違部分が有ることが判定されなかった場合（Ｓ４−Ｎｏ）、以降の処理（Ｓ５〜Ｓ９）は実行しない）。
第１文字情報と第２文字情報との相違部分がない場合、第１音声認識モデルｍ１の出力結果と第２音声認識モデルｍ２の出力結果はどちらも正しい可能性が高く、文字起こし情報Ｒを修正したり、第１音声認識モデルｍ１を修正する必要性がないからである。
また、Ｓ７において、第２文字情報が選択されなかった場合（Ｓ７−Ｎｏ）、つまり、第１文字情報が選択された場合、文字起こし情報Ｒの修正（Ｓ８）は行わない。
そもそも、文字起こし情報Ｒは第１文字情報に基づいて生成されているため、修正する必要がないからである。
また、この場合、第１音声認識モデルｍ１の再生成（Ｓ９）も行わない。
第１音声認識モデルｍ１の出力結果は正しい可能性が高く、第１音声認識モデルｍ１の更新の必要がないからである。
ただし、この場合でも、選択された第１文字情報を出力（教師データ）とし、対応する対象話者の音声を入力とするデータセットを学習させることで、第１音声認識モデルｍ１を再生成することもできる。

［第２実施形態］
図１４は、第２実施形態のアクティブラーニングシステムの機能を示すブロック図である。
第２実施形態のアクティブラーニングシステムは、端末装置３が文字起こし情報生成部３０４や文字起こし情報修正部３０５など、文字起こし処理に関する構成を備えていない点において第１実施形態のアクティブラーニングシステムと異なる。他の構成は、第１実施形態のアクティブラーニングシステムと共通する。
つまり、第２実施形態のアクティブラーニングシステムにおいては、対象話者の音声を第１音声認識モデルｍ１と第２音声認識モデルｍ２に入力し、その出力結果である第１文字情報と第２文字情報との相違部分について、正しい文字情報として第２文字情報が利用者の操作により選択された場合は、当該第２文字情報を含むデータセットを学習させることで第１音声認識モデルｍ１を更新する。
このように、文字起こし処理に関する構成を備えなくとも、利用者の選択操作だけで第１音声認識モデルｍ１の更新を効率よく行うことができる。

［第３実施形態］
図１５は、第３実施形態のアクティブラーニングシステムの機能を示すブロック図である。
第３実施形態のアクティブラーニングシステムは、第１サーバ１が保有する第１音声認識モデルｍ１と、第２サーバ２が保有する第２音声認識モデルｍ２の両方を更新可能にしている点で第１実施形態や第２実施形態のアクティブラーニングシステムと異なる。他の構成は第２実施形態のアクティブラーニングシステムと共通する。
具体的には、第２サーバ２において、データセット記憶部２０１や音声認識モデル生成部２０２といった音声認識モデルの生成処理に関する構成を備えている。
そのうえで、端末装置３は、選択部３０３により選択された文字情報が第２文字情報の場合、当該第２文字情報を第１サーバ１に送信し、選択部３０３により選択された文字情報が第１文字情報の場合、当該第１文字情報を第２サーバ２に送信する。
第１サーバ１は、データセット記憶部１０１において、端末装置３から受信した第２文字情報を出力（教師データ）とし、対応する対象話者の音声を入力とするデータセットを追加して記憶し、当該追加されたデータセットを追加学習することで第１音声認識モデルｍ１を再生成する。
第２サーバ２は、データセット記憶部１０１において、端末装置３から受信した第１文字情報を出力（教師データ）とし、対応する対象話者の音声を入力とするデータセットを追加して記憶し、当該追加されたデータセットを追加学習することで第２音声認識モデルｍ２を再生成する。
これにより、第１文字情報と第２文字情報とが異なる場合は、必ず、誤っている方の音声認識モデルを更新することができる。

［第４実施形態］
図１６は、第４実施形態のアクティブラーニングシステムの機能を示すブロック図である。
図１６に示すように、第４実施形態のアクティブラーニングシステムは、第１実施形態の構成と第３実施形態の構成を組み合わせた構成にしている。
このため対象話者の音声に基づいて文字起こし情報Ｒの生成や修正を行いつつ、第１音声認識モデルｍ１や第２音声認識モデルｍ２の更新を行うことができる。

（応用例）
第１〜第４実施形態のアクティブラーニングシステムは、Ｗｅｂ−ＡＰＩとして直接的に提供される文字起こしサービスに適用されるほか、ＺＯＯＭ（登録商標）などのＷｅｂ会議システムにおいてオプション的に提供される文字起こしサービスに適用することができる。
この場合、図１７（ａ）に示すように、Ｗｅｂ会議画面に、会議相手の音声の文字起こし情報Ｒを表示部３５１に表示することができる。
これにより、利用者はＷｅｂ会議をしながら、会議相手の音声の文字起こし情報Ｒをリアルタイムに見ることや、文字起こし情報Ｒの修正を簡単に行うことができ、この結果、誤記の少ない文字起こし情報Ｒ（議事録）を生成しつつ、認識精度の高い音声認識モデルへの更新を行うことができる。
また、第１〜第４実施形態のアクティブラーニングシステムは、端末装置３にスマートグラスを適用することができる。
この場合、図１７（ｂ）に示すように、レンズ部等に設けられた表示部３５１に文字起こし情報Ｒを表示することができる。
これにより、利用者は、スマートグラスを装着するだけで、対象話者と対話しながら当該話者の音声の文字起こし情報Ｒをリアルタイムに見ることができる。
この場合も、利用者は例えば会議や打合せをしながら、相手の音声の文字起こし情報Ｒをリアルタイムに見ることや、文字起こし情報Ｒの修正を行うことができ、この結果、誤記の少ない文字起こし情報Ｒ（議事録）を生成しつつ、認識精度の高い音声認識モデルへの更新を行うことができる。

以上説明したように、本発明のアクティブラーニングシステムは、サーバと端末装置３とを備えたアクティブラーニングシステムにおいて、サーバは、話者の音声を入力とし、当該音声に対応する文字情報を出力とするデータセットを学習させることで第１音声認識モデルｍ１を生成する音声認識モデル生成部１０２を備え、端末装置３は、対象話者の音声を第１音声認識モデルｍ１に入力することにより当該第１音声認識モデルｍ１から出力された第１文字情報を、文字起こし情報Ｒとして生成する文字起こし情報生成部３０４と、第１音声認識モデルｍ１から出力された第１文字情報と、前記対象話者の音声を第１音声認識モデルｍ１とは異なる第２音声認識モデルｍ２に入力することにより当該第２音声認識モデルｍ２から出力された第２文字情報と、の相違部分を特定する相違部分特定部３０１と、操作に応じ、前記相違部分に対応する第１文字情報と第２文字情報のうちのいずれか一方を選択可能な選択部３０３と、選択部３０３により選択された文字情報が第２文字情報の場合、文字起こし情報生成部３０４により生成された文字起こし情報Ｒにおける前記相違部分に対応する第１文字情報を第２文字情報に修正する文字起こし情報修正部３０５と、を備え、音声認識モデル生成部１０２は、選択部３０３により選択された文字情報が第２文字情報の場合、当該第２文字情報を出力とし、対応する前記対象話者の音声を入力とするデータセットを追加学習させることで第１音声認識モデルｍ１を再生成するようにしてある。

また、本発明のアクティブラーニングプログラムは、サーバ（第１サーバ１と第２サーバ２）と端末装置３とを備えたシステムにおける各装置のコンピュータを、話者の音声を入力とし、当該音声に対応する文字情報を出力とするデータセットを学習させることで第１音声認識モデルｍ１を生成する音声認識モデル生成部１０２、対象話者の音声を第１音声認識モデルｍ１に入力することにより当該第１音声認識モデルｍ１から出力された第１文字情報を、文字起こし情報Ｒとして生成する文字起こし情報生成部３０４、第１音声認識モデルｍ１から出力された第１文字情報と、前記対象話者の音声を第１音声認識モデルｍ１とは異なる第２音声認識モデルｍ２に入力することにより当該第２音声認識モデルｍ２から出力された第２文字情報と、の相違部分を特定する相違部分特定部３０１、操作に応じ、前記相違部分に対応する第１文字情報と第２文字情報のうちのいずれか一方を選択可能な選択部３０３、選択部３０３により選択された文字情報が第２文字情報の場合、文字起こし情報生成部３０４により生成された文字起こし情報Ｒにおける前記相違部分に対応する第１文字情報を第２文字情報に修正する文字起こし情報修正部３０５、として機能させ、音声認識モデル生成部１０２は、選択部３０３により選択された文字情報が第２文字情報の場合、当該第２文字情報を出力とし、対応する前記対象話者の音声を入力とするデータセットを追加学習させることで第１音声認識モデルｍ１を再生成するようにしてある。

このような本発明のアクティブラーニングシステム及びアクティブラーニングプログラムによれば、アノテーションのためだけに多くの人手や時間をかけずに音声認識モデルのアクティブラーニングを行うことができる。
特に、音声認識モデルを用いて提供される文字起こしサービスにおいて文字起こし情報Ｒの簡単な修正操作を行いながら誤記の少ない文字起こし情報Ｒを作成しつつ、認識精度の高い音声認識モデルへの更新（アクティブラーニング）を行うことができる。
このため、音声認識モデルの認識精度を効率よく向上させることができる。

以上、本発明のアクティブラーニングシステム及びアクティブラーニングプログラムについて、好ましい実施形態を示して説明したが、本発明のアクティブラーニングシステム等は、前述した実施形態にのみ限定されるものではなく、本発明の範囲で種々の変更実施が可能であることは言うまでもない。
例えば、上述した各実施形態は、Ｗｅｂ−ＡＰＩの一例であり、各構成がサーバや端末装置に分散して設けられているが、１つの情報処理装置（サーバや端末装置）に全ての構成を備えさせることでも本発明を実現することができる。
具体的には、パーソナルコンピュータに各構成を実施可能なアクティブラーニングプログラムをインストールすればよく、この場合は、複数の音声認識モデルは内部（記憶手段）に設けてもよく、外部の装置（記憶装置や他の情報処理装置）に設けてもよい。

また、上述の実施形態では、選択部３０３は、利用者の操作に応じ、相違部分に対応する第１文字情報と第２文字情報のうち利用者が正しいと判断した方の文字情報を選択する構成について説明した。
すなわち、上述の実施形態においては、利用者が正しい文字情報と判断して一方の文字情報（第２文字情報）を選択した場合に、誤っているであろう他方の文字情報（第１文字情報）から生成された文字起こし情報Ｒをその一方の文字情報に修正し、誤っているであろう他方の文字情報を出力した音声認識モデル（第１音声認識モデルｍ１）の再生成を行う構成としている。
これに限らず、選択部３０３は、利用者の操作に応じ、相違部分に対応する第１文字情報と第２文字情報のうち利用者が誤っていると判断した方の文字情報を選択する構成とすることもできる
すなわち、利用者が誤っている文字情報と判断して一方の文字情報（第１文字情報）を選択した場合に、正しいであろうその一方の文字情報（第１文字情報）から生成された文字起こし情報Ｒを他方の文字情報（第２文字情報）に修正し、誤っているであろう一方の文字情報を出力した音声認識モデル（第１音声認識モデルｍ１）の再生成を行う構成とすることができる。

また、３つ以上の音声認識モデルを用いてアクティブラーニングシステムを構成することもできる。
この場合も、相違部分が検出された場合に、正しい文字情報によって誤った文字起こし情報Ｒを修正し、誤った音声認識モデルにおける追加学習を行えばよい。

本発明は、音声認識モデルを利用したＷｅｂ会議システム等における文字起こしサービスに好適に利用可能であり、この文字起こしサービスの提供を介して音声認識モデルの音声認識精度を向上させることが可能である。

１第１サーバ
１０１データセット記憶部
１０２音声認識モデル生成部
２第２サーバ
２０１データセット記憶部
２０２音声認識モデル生成部
３端末装置
３２メモリ
３３ストレージ
３５１表示部
３００音声送信部
３０１相違部分特定部
３０２相違部分表示部
３０３選択部
３０４文字起こし情報生成部
３０５文字起こし情報修正部
４ネットワーク
ｍ１第１音声認識モデル
ｍ２第２音声認識モデル
Ｒ文字起こし情報

Claims

話者の音声を入力とし、当該音声に対応する文字情報を出力とするデータセットを学習させることで第１音声認識モデルを生成する音声認識モデル生成部と、
対象話者の音声を前記第１音声認識モデルに入力することにより当該第１音声認識モデルから出力された第１文字情報を、文字起こし情報として生成する文字起こし情報生成部と、
前記第１音声認識モデルから出力された第１文字情報と、前記対象話者の音声を前記第１音声認識モデルとは異なる第２音声認識モデルに入力することにより当該第２音声認識モデルから出力された第２文字情報と、の相違部分を特定する相違部分特定部と、
操作に応じ、前記相違部分に対応する第１文字情報と第２文字情報のうちのいずれか一方を選択可能な選択部と、
前記選択部により選択された文字情報が前記第２文字情報の場合、前記文字起こし情報生成部により生成された文字起こし情報における前記相違部分に対応する前記第１文字情報を前記第２文字情報に修正する文字起こし情報修正部と、を備え、
前記音声認識モデル生成部は、
前記選択部により選択された文字情報が前記第２文字情報の場合、当該第２文字情報を出力とし、対応する前記対象話者の音声を入力とするデータセットを追加学習させることで前記第１音声認識モデルを再生成する
ことを特徴とするアクティブラーニングシステム。
コンピュータを、
話者の音声を入力とし、当該音声に対応する文字情報を出力とするデータセットを学習させることで第１音声認識モデルを生成する音声認識モデル生成部、
対象話者の音声を前記第１音声認識モデルに入力することにより当該第１音声認識モデルから出力された第１文字情報を、文字起こし情報として生成する文字起こし情報生成部、
前記第１音声認識モデルから出力された第１文字情報と、前記対象話者の音声を前記第１音声認識モデルとは異なる第２音声認識モデルに入力することにより当該第２音声認識モデルから出力された第２文字情報と、の相違部分を特定する相違部分特定部、
操作に応じ、前記相違部分に対応する第１文字情報と第２文字情報のうちのいずれか一方を選択可能な選択部、
前記選択部により選択された文字情報が前記第２文字情報の場合、前記文字起こし情報生成部により生成された文字起こし情報における前記相違部分に対応する前記第１文字情報を前記第２文字情報に修正する文字起こし情報修正部、として機能させ、
前記音声認識モデル生成部は、
前記選択部により選択された文字情報が前記第２文字情報の場合、当該第２文字情報を出力とし、対応する前記対象話者の音声を入力とするデータセットを追加学習させることで前記第１音声認識モデルを再生成する
ことを特徴とするアクティブラーニングプログラム。
コンピュータを、
話者の音声を入力とし、当該音声に対応する文字情報を出力とするデータセットを学習させることで第１音声認識モデルを生成する音声認識モデル生成部、
対象話者の音声を前記第１音声認識モデルに入力することにより当該第１音声認識モデルから出力された第１文字情報と、前記対象話者の音声を前記第1音声認識モデルとは異なる第２音声認識モデルに入力することにより当該第２音声認識モデルから出力された第２文字情報と、の相違部分を特定する相違部分特定部、
操作に応じ、前記相違部分に対応する第１文字情報と第２文字情報のうちのいずれか一方を選択可能な選択部、として機能させ、
前記音声認識モデル生成部は、
前記選択部により選択された文字情報が前記第２文字情報の場合、当該第２文字情報を出力とし、対応する前記対象話者の音声を入力とするデータセットを追加学習させることで前記第１音声認識モデルを再生成する
ことを特徴とするアクティブラーニングプログラム。