JP2022108803A

JP2022108803A - 音声認識システム、音声認識方法およびプログラム

Info

Publication number: JP2022108803A
Application number: JP2021003947A
Authority: JP
Inventors: 将樹能勢; Masaki Nose
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2022-07-27

Abstract

【課題】ユーザが発声した音声の録音環境に応じた教師データを生成することで、音声認識精度を向上させることが可能な音声認識システム、音声認識方法およびプログラムを提供する。【解決手段】音声認識システムにおいて、ユーザが発声した音声に対して音声認識エンジン１２を用いた音声認識処理を行うクラウドサーバの音声認識サーバは、ユーザが発声した音声の録音データが、当該録音データが取得された録音環境に基づく所定の条件に該当する場合、当該録音データの音響特性変換を行う音響特性変換部１６（音響特性変換手段の一例）と、を備える。音響特性変換部１６によって変換された変換データを、音声認識エンジン１２の機械学習に用いる。【選択図】図７

Description

本開示内容は、音声認識システム、音声認識方法およびプログラムに関する。

音声認識を用いたスマートスピーカ、多言語翻訳システム等が注目を集めている。スマートスピーカは、音声コマンドにより、室内器具の操作や、天気予報等の情報の提供を実現する装置である。多言語翻訳システムは、スマートフォン、専用端末等を用いた翻訳装置である。多言語翻訳システムでは、例えば、人の音声がマイクに入力され、入力された音声が音声認識により文字化された後、翻訳処理によって所望の言語に翻訳され、スピーカから出力される。さらに、コールセンタでの顧客との対話録を生成するシステム、会議録を自動生成するシステム等の実用化が進み、これらのシステムも音声認識の技術を活用している。

特許文献１には、人の音声以外の雑音（ノイズ）による音声誤認識を低減して、音声認識の認識率を高める内容が開示されている。また、特許文献２には、装置使用者以外の声や騒音による誤動作や、音声入力時に声が外部に漏れることを防止する音声入力装置と遮音マスクの組合せ装置が開示されている。

しかしながら、従来の方法では、例えば、音声認識の対象となる音声を発するユーザがマスク等の被覆物を装着しているような状況が想定されていないため、音声認識精度を高める上で改善の余地があるという課題があった。

上述した課題を解決すべく、請求項１に係る発明は、ユーザが発声した音声に対して音声認識エンジンを用いた音声認識処理を行う音声認識システムであって、前記音声の録音データが、当該録音データが取得された録音環境に基づく所定の条件に該当する場合、当該録音データの音響特性変換を行う音響特性変換手段と、を備え、前記音響特性変換手段によって変換された変換データを前記音声認識エンジンの機械学習に用いる音声認識システムである。

本発明によれば、ユーザが発声した音声の録音環境に応じた教師データを生成することで、音声認識精度を向上させることができるという効果を奏する。

音声認識システムの全体構成の一例を示す図である。音声認識システムの利用シーンの一例を説明するための図である。データ取得装置の外観図の一例を示す図である。音声認識サーバおよびデータ管理サーバのハードウエア構成の一例を示す図である。（Ａ）はデータ取得装置のハードウエア構成の一例を示す図であり、（Ｂ）は音声出力装置のハードウエア構成の一例を示す図である。制御装置および通信端末のハードウエア構成の一例を示す図である。音声認識サーバ、データ管理サーバおよび通信端末の機能構成の一例を示す図である。音声認識エンジン、読唇処理部および統合部の動作の一例を説明するための図である。音声認識エンジン、読唇処理部および統合部の動作の一例を説明するための図である。機械読唇に用いる画像特徴量の一例を説明するための図である。データ取得装置、制御装置および音声出力装置の機能構成の一例を示す図である。音声認識エンジンの機械学習に用いる教師データの生成処理の一例を示すシーケンス図である。音声認識エンジンの機械学習に用いる教師データの生成処理の一例を示すシーケンス図である。音声認識サーバにおける音響特性変換処理の一例を示すフローチャートである。（Ａ）（Ｂ）音響特性変換の一例であるマスク装着風の擬似変換結果の一例を示す図である。教師データに付与される教師ラベルの一例を示す概念図である。（Ａ）（Ｂ）被覆物付き音声出力装置の一例を示す図である。被覆物付き音声出力装置を用いた再生収録の一例を説明するための図である。

以下、図面を参照しながら、発明を実施するための形態を説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明は省略する。

●実施形態●
●音声認識システムの概略
まず、図１を用いて、実施形態に係る音声認識システムの構成の概略について説明する。図１は、音声認識システムの全体構成の一例を示す図である。図１に示されている音声認識システム１は、例えば、ユーザが飛沫感染防止のためにマスク等を装着したり、会議室にアクリル板等のパーテーションが設けられたりする新たな会議の場において、高い認識精度を実現するためのシステムである。

図１に示されているように、音声認識システム１は、音声認識サーバ１０およびデータ管理サーバ３０から構成されるクラウドサーバ３、データ取得装置５０、制御装置６０、音声出力装置７０並びに通信端末９０を含む。音声認識システム１を構成するクラウドサーバ３、制御装置６０および通信端末９０は、通信ネットワーク５を介して通信することができる。通信ネットワーク５は、インターネット、移動体通信網、ＬＡＮ(Local Area Network)等によって構築されている。なお、通信ネットワーク５には、有線通信だけでなく、３Ｇ(3rd Generation)、４Ｇ(4th Generation)、５Ｇ（5th Generation）、Ｗｉ－Ｆｉ(Wireless Fidelity)（登録商標）、ＷｉＭＡＸ(Worldwide Interoperability for Microwave Access)またはＬＴＥ(Long Term Evolution)等の無線通信によるネットワークが含まれてもよい。

音声認識サーバ１０は、データ取得装置５０によって取得された音声データに対する音声認識エンジンを用いた音声認識処理を行うためのサーバコンピュータである。データ管理サーバ３０は、音声認識エンジンの機械学習に用いる教師データを管理するためのサーバコンピュータである。また、データ管理サーバ３０は、音声データの再生収録を行う場合に、制御装置６０に対して録音データを送信して再生収録を制御する。なお、音声認識サーバ１０およびデータ管理サーバ３０は、一台のサーバコンピュータによって構成されてもよい。

通信端末９０は、音声認識エンジンの機械学習に未使用の音声データのアノテーションを行うアノテータが使用するノートＰＣ等のコンピュータである。アノテータは、音声認識エンジンの機械学習として教師あり学習を行うための書き起こしおよびタイムスタンプ処理等を行う。

データ取得装置５０、制御装置６０および音声出力装置７０は、会議等の音声の録音データの再生収録を行う場合に使用される。データ取得装置５０および音声出力装置７０は、制御装置６０を介して、クラウドサーバ３との通信を行うことができる。データ取得装置５０は、ユーザが発声した音声の音声データ、音声を発声したユーザまたはユーザの周囲を撮像した撮像データを取得する。音声出力装置７０は、再生収録を行う場合に録音データを再生して音声を出力する。制御装置６０は、データ取得装置５０および音声出力装置７０の処理または動作を制御する。

なお、データ取得装置５０は、録音データの再生収録の場面のみならず、例えば、会議等でのリアルタイムの音声認識処理にも用いられる。また、制御装置６０は、その機能の一部または全てをデータ取得装置５０に備える構成であってもよい。すなわち、データ取得装置５０は、通信ネットワーク５を介して、クラウドサーバ３と直接通信可能な構成であってもよい。

図２は、音声認識システムの利用シーンの一例を説明するための図である。図２は、音声認識システム１の利用シーンの一例として、複数のユーザが出席する会議の例を示す。図２は、会議室８００に設置されるテーブル８１０、テーブル８１０の周囲に存在する複数の（会議出席者８１～８６）、データ取得装置５０およびクラウドサーバ３を示す。

音声認識システム１は、１または複数の会議出席者８１～８６の音声をマイクで取得し、取得した音声の内容を示すデータである音声データを機械学習に利用することにより、音声認識精度を高めるように構成されている。また、音声認識システム１は、１または複数の会議出席者８１～８６をカメラで撮像し、撮像した画像の内容を示すデータである撮像データを機械学習に利用することにより、音声認識精度を高めるように構成されている。なお、音声認識システム１は、音声データのみを収集して音声認識精度を向上させる構成であってもよい。ただし、音声認識システム１は、音声データに加えて撮像データを収集することにより、音声認識精度をより一層高めることができる。

音声認識システム１は、テーブル８１０の中央に設置されるデータ取得装置５０、会議室８００の壁とテーブル８１０の間に設置されるホワイトボード８３０、およびクラウドサーバ３を含む。データ取得装置５０で取得された音声データは、ホワイトボード８３０を介してクラウドサーバ３に送信され、クラウドサーバ３に実装されている音声認識エンジン等で音声認識の処理が行われる。音声認識の結果得られたテキストデータは、ホワイトボード８３０に送られ、ホワイトボード８３０で字幕表示が行われる。また、当該テキストデータを利用して議事録として発話内容がまとめられる。なお、音声認識の処理により、会議、講演会、インタビューなどの発言を自動でテキスト化する技術、議事録作成する技術は、公知であるため、詳細な説明は省略する。

データ取得装置５０は、テーブル８１０の周囲に存在する複数の会議出席者８１～８６の音声を取得する装置である。なお、データ取得装置５０は、音声以外にも、複数の会議出席者８１～８６または会議出席者８１～８６の周囲の画像を取得するように構成される。

また、図２に示されているように、会議出席者８１～８６は、マスクやフェイスシールド等の被覆物を装着している。また、会議出席者の間の空間には、パーテーションが設置されている。これは、例えば、２０２０年に流行した新型コロナウイルスへの感染防止対策が図られた会議の一例であり、今後このような感染防止対策を図った会議利用は常態化していくものと考えられている。

このようなマスクの装着等が常態化したような利用シーンにおいて、従来の音声認識技術では認識精度の面で改善の余地がある。例えば、図２に示されているようなテーブルの中心に一つのマイクが設置されている場合、人の口元からマイクまでの距離が相対的に遠くなるため、Ｓ／Ｎ比の低い不明瞭な音声が入力されてしまう。これに対して、音声認識精度を優先して会議出席者のそれぞれにマイクを装着させる方法も考えられるが、わざわざ装着する煩わしさや、新型コロナウイルス等の影響による衛生面の観点から他人との共用を避ける傾向によって、音声認識精度を高める対策としては好ましくない。したがって、音声認識を会議で活用する場合の最もリーズナブルな手段は、テーブルにマイクを配置する方法であり、さらにその状況下で記録した音声データを音声認識エンジンの機械学習に大量投入することが認識精度を高める有効な手段であった。

そこで、音声認識システム１は、音声認識の性能に大きく影響するマスクの装着等が常態化した利用シーンに対応するべく、マスク装着等の新たな利用シーンに対応させた音声認識エンジンの機械学習に用いる教師データを生成する。音声認識システム１は、過去に収集した学習データと、収集した学習データを用いて変換した変換データとを効果的に利用することで、音声認識精度を向上させることができる。また、ユーザ（発話者）とマイクが所定の距離以上（例えば、１ｍ以上）離れている環境での音声認識である、いわゆるＦａｒ－Ｆｉｅｌｄ音声認識においても、マスクの装着等が常態化した状況に対応させた高い音声認識精度を実現することができる。

図３は、データ取得装置の外観図の一例を示す図である。図３は、データ取得装置５０の外観と共に、データ取得装置５０で撮像される会議室８００の風景を示す。データ取得装置５０は、筐体部４０、音声検出部であるマイク４００、撮像部であるカメラ４１０を備える。マイク４００には、複数チャンネルの音声を取得可能なマルチマイクが利用される。カメラ４１０には、複数チャンネルの画像を取得可能なマルチカメラが利用される。マルチカメラは、例えば、それぞれの画角が９０°以上の撮像部を複数組み合わせたものである。

筐体部４０は、テーブル８１０に設置される円盤状の台座部５１０ａ、および台座部５１０ａから鉛直方向に伸び複数のマイク４００等をテーブル８１０から離れた位置に配置する柱状の延伸部５１０ｂを備える。また、筐体部４０は、延伸部５１０ｂの上部に設けられ複数のマルチマイク、およびマルチカメラが配置される円盤状のユニット設置部５１０ｃを備える。なお、筐体部４０の形状は、少なくとも１以上のカメラ４１０およびマイク４００を設けることができる構造であればよく、図示例に限定されるものではない。

複数のマイク４００のうち、一つのマイク４００は、ユニット設置部５１０ｃの上部に設けられる。残りのマイク４００は、ユニット設置部５１０ｃの上部以外の場所、例えば、ユニット設置部５１０ｃの側面部に設けられる。側面部は、ユニット設置部５１０ｃの外周部全体のうち、例えば、鉛直方向と直交する水平面に平行な仮想面を含む部分である。ユニット設置部５１０ｃの側面部には、周方向に互いに離れるようにして複数のマイク４００が設置される。このように、データ取得装置５０は、複数のマイク４００が設置されることにより、複数の会議出席者８１～８６がテーブル８１０を囲むように存在する場合であっても、それぞれの会議出席者と向き合うように個々のマイク４００が配置される形となる。そのため、データ取得装置５０は、マイク４００からそれぞれの会議出席者までの距離を短くでき、Ｓ／Ｎ比の高い音声を入力できる。

●ハードウエア構成
続いて、図４乃至図６を用いて、実施形態に係る音声認識システムを構成する装置または端末のハードウエア構成を説明する。なお、図４乃至図６に示されているハードウエア構成は、必要に応じて構成要素が追加または削除されてもよい。

○音声認識サーバのハードウエア構成○
まず、図４を用いて、音声認識サーバ１０のハードウエア構成を説明する。図４は、音声認識サーバのハードウエア構成の一例を示す図である。音声認識サーバ１０の各ハードウエア構成は、１００番台の符号で示されている。音声認識サーバ１０は、コンピュータによって構築されており、図４に示されているように、プロセッサ１０１、メモリ１０２、ネットワークＩ／Ｆ(Interface)１０３およびバスライン１０９を備えている。

プロセッサ１０１は、マイクロコンピュータ、ＧＰＵ（General Purpose Graphics Processing Unit）、システムＬＳＩ（Large Scale Integration）等で構成される演算手段である。メモリ１０２は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等で構成される記憶手段である。ネットワークＩ／Ｆ１０３は、通信ネットワーク５を利用してデータ通信をするためのインターフェースである。バスライン１０９は、図４に示されているプロセッサ１０１等の各構成要素を電気的に接続するためのアドレスバスまたはデータバス等である。

音声認識サーバ１０は、例えば、プロセッサ１０１がメモリ１０２に記憶された仮想マシンソフトウェア（仮想化アプリケーション）をインストールすることによって、仮想マシンを稼働させる。仮想マシンソフトウェアは、ホストＯＳ（Operating System）上で個別のハードウエアをエミュレーションすることで、個別のＯＳをインストールする。これにより、単一のシステム上で、複数の仮想マシンを互いに独立して実行することが可能になる。クラウド環境において、データ取得装置５０からのデータを収集するソフトウエア（データ収集ソフト）、当該データを解析するソフトウェア（解析ソフト）等が構築される。この仮想化技術を利用することで、リソースの効率的な活用、ハードウエアの初期投資コストの抑制、省電力および省スペース等が実現できる。

○データ管理サーバのハードウエア構成○
図４は、データ管理サーバのハードウエア構成の一例を示す図である。データ管理サーバ３０の各ハードウエア構成は、括弧内の３００番台の符号で示されている。データ管理サーバ３０は、コンピュータによって構築されており、図４に示されているように、音声認識サーバ１０と同様の構成を備えているため、各ハードウエア構成の説明を省略する。

○データ取得装置のハードウエア構成○
図５（Ａ）は、データ取得装置のハードウエア構成の一例を示す図である。データ取得装置５０は、ＣＰＵ５０１、ＲＯＭ５０２、ＲＡＭ５０３、通信Ｉ／Ｆ５０４、マイク４００－１～４００－ｎ（ｎは１以上の整数）、カメラ４１０－１～４１０－ｎ（ｎは１以上の整数）、およびバスライン５０９を備えている。

ＣＰＵ５０１は、データ取得装置５０全体の動作を制御する。ＣＰＵ５０１は、ＲＯＭ５０２に格納されたプログラム等の各種データをＲＡＭ５０３上に読み出し、処理を実行することで、データ取得装置５０の各機能を実現する演算装置である。ＲＯＭ５０２は、ＣＰＵ５０１が実行するプログラム等の各種データを記憶する不揮発性のメモリである。ＲＡＭ６０３は、ＣＰＵ５０１のワークエリア（作業領域）として使用される揮発性のメモリである。通信Ｉ／Ｆ５０４は、例えば、外部機器の一例であるホワイトボード８３０または制御装置６０に接続するためのインターフェースである。バスライン５０９は、図５（Ａ）に示されているＣＰＵ５０１等の各構成要素を電気的に接続するためのアドレスバスまたはデータバス等である。

○音声出力装置のハードウエア構成○
図５（Ｂ）は、音声出力装置のハードウエア構成の一例を示す図である。音声出力装置７０は、ＣＰＵ７０１、ＲＯＭ７０２、ＲＡＭ７０３、通信Ｉ／Ｆ７０４、スピーカ７０５、およびバスライン７０９を備えている。

ＣＰＵ７０１は、音声出力装置７０全体の動作を制御する。ＣＰＵ７０１は、ＲＯＭ７０２に格納されたプログラム等の各種データをＲＡＭ７０３上に読み出し、処理を実行することで、音声出力装置７０の各機能を実現する演算装置である。ＲＯＭ７０２は、ＣＰＵ７０１が実行するプログラム等の各種データを記憶する不揮発性のメモリである。ＲＡＭ７０３は、ＣＰＵ７０１のワークエリア（作業領域）として使用される揮発性のメモリである。通信Ｉ／Ｆ７０４は、例えば、外部機器の一例である制御装置６０に接続するためのインターフェースである。スピーカ７０５は、ＣＰＵ７０１の制御に従って音信号を出力する出力部の一種である。バスライン７０９は、図５（Ｂ）に示されているＣＰＵ７０１等の各構成要素を電気的に接続するためのアドレスバスまたはデータバス等である。

○制御装置のハードウエア構成○
図６は、制御装置のハードウエア構成の一例を示す図である。制御装置６０の各ハードウエア構成は、６００番台の符号で示されている。制御装置６０は、コンピュータによって構築されており、図６に示されているように、ＣＰＵ６０１、ＲＯＭ６０２、ＲＡＭ６０３、ＨＤ(Hard Disk)６０４、ＨＤＤ(Hard Disk Drive)コントローラ６０５、ディスプレイ６０６、外部機器接続Ｉ／Ｆ６０８、ネットワークＩ／Ｆ６０９、バスライン６１０、キーボード６１１、ポインティングデバイス６１２、ＤＶＤ－ＲＷ(Digital Versatile Disk Rewritable)ドライブ６１４、およびメディアＩ／Ｆ６１６を備えている。

ＣＰＵ６０１は、制御装置６０全体の動作を制御する。ＣＰＵ６０１は、ＲＯＭ６０２またはＨＤ６０４等に格納されたプログラム等の各種データをＲＡＭ６０３上に読み出し、処理を実行することで、制御装置６０の各機能を実現する演算装置である。ＲＯＭ６０２は、ＣＰＵ６０１が実行するプログラム等の各種データを記憶する不揮発性のメモリである。ＲＡＭ６０３は、ＣＰＵ６０１のワークエリア（作業領域）として使用される揮発性のメモリである。ＨＤ６０４は、プログラム等の各種データを記憶する。ＨＤＤコントローラ６０５は、ＣＰＵ６０１の制御にしたがってＨＤ６０４に対する各種データの読み出しまたは書き込みを制御する。ディスプレイ６０６は、カーソル、メニュー、ウィンドウ、文字、または画像等の各種情報を表示する。なお、ディスプレイ６０６は、入力手段を備えたタッチパネルディスプレイであってもよい。外部機器接続Ｉ／Ｆ６０８は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、データ取得装置５０または音声出力装置７０等である。ネットワークＩ／Ｆ６０９は、通信ネットワーク５を利用してデータ通信をするためのインターフェースである。バスライン６１０は、図６に示されているＣＰＵ６０１等の各構成要素を電気的に接続するためのアドレスバスまたはデータバス等である。

また、キーボード６１１は、文字、数値、各種指示等の入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス６１２は、各種指示の選択もしくは実行、処理対象の選択、またはカーソルの移動等を行う入力手段の一種である。なお、入力手段は、キーボード６１１およびポインティングデバイス６１２のみならず、タッチパネル等であってもよい。ＤＶＤ－ＲＷドライブ６１４は、着脱可能な記録媒体の一例としてのＤＶＤ－ＲＷ６１３に対する各種データの読み出しまたは書き込みを制御する。なお、着脱可能な記録媒体は、ＤＶＤ－ＲＷに限らず、ＤＶＤ－ＲまたはＢｌｕ-ｒａｙ（登録商標）Ｄｉｓｃ（ブルーレイディスク）等であってもよい。メディアＩ／Ｆ６１６は、フラッシュメモリ等の記録メディア１１５に対するデータの読み出しまたは書き込み（記憶）を制御する。

○通信端末のハードウエア構成○
図６は、通信端末のハードウエア構成の一例を示す図である。通信端末９０の各ハードウエア構成は、括弧内の９００番台の符号で示されている。通信端末９０は、コンピュータによって構築されており、図６に示されているように、制御装置６０と同様の構成を備えているため、各ハードウエア構成の説明を省略する。

なお、上記各プログラムは、インストール可能な形式または実行可能な形式のファイルで、コンピュータで読み取り可能な記録媒体に記録して流通させるようにしてもよい。記録媒体の例として、ＣＤ－Ｒ(Compact Disc Recordable)、ＤＶＤ(Digital Versatile Disk)、Ｂｌｕ-ｒａｙＤｉｓｃ、ＳＤカード、ＵＳＢメモリ等が挙げられる。また、記録媒体は、プログラム製品(Program Product)として、国内または国外へ提供されることができる。例えば、クラウドサーバ３は、本発明に係るプログラムが実行されることで本発明に係る音声認識方法を実現する。

●機能構成
続いて、図７乃至図１１を用いて、実施形態に係る音声認識システムの機能構成について説明する。図７は、音声認識サーバ、データ管理サーバおよび通信端末の機能構成の一例を示す図である。図１１は、データ取得装置、制御装置および音声出力装置の機能構成の一例を示す図である。なお、図７乃至図１１は、図１に示されている装置または端末のうち、後述の処理または動作に関連しているものを示す。

○音声認識サーバの機能構成○
まず、図７を用いて、音声認識サーバ１０の機能構成について説明する。音声認識サーバ１０は、送受信部１１、音声認識エンジン１２、読唇処理部１３、統合部１４、判定部１５、音響特性変換部１６およびデータ入出力部１７を有している。これら各部は、図４に示されている各構成要素のいずれかが、メモリ１０２に記憶された音声認識サーバ用プログラムに従ったプロセッサ１０１からの命令によって動作することで実現される機能または手段である。

送受信部１１は、主に、ネットワークＩ／Ｆ１０３に対するプロセッサ１０１の処理によって実現され、通信ネットワーク５を介して、他の装置または端末との間で各種データまたは情報の送受信を行う。

音声認識エンジン１２は、音声特徴量抽出部１２ａおよび音声認識部１２ｂを備える。読唇処理部１３は、画像特徴量抽出部１３ａおよび機械読唇部１３ｂを備える。

ここで、図８および図９を参照して、音声認識エンジン１２、読唇処理部１３および統合部１４の動作を説明する。図８および図９は、音声認識エンジン、読唇処理部および統合部の動作の一例を説明するための図である。音声特徴量抽出部１２ａでは、データ取得装置５０からの音声データの中から機械学習用の入力値としての特徴量である音声特徴量が抽出される。音声特徴量抽出部１２ａは、例えば、データ取得装置５０で取得された複数の音声データを入力して、それぞれの音声データを単位時間ごと（フレームごと）に切り出して、例えば、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficients：メル周波数ケプストラム係数）やメルケプストラム特徴量等のフレームごとの音声信号のスペクトル特徴量を計算し、これを正規化する。

音声認識部１２ｂは、音声特徴量抽出部１２ａで抽出された特徴量を用いて機械学習を行うと共に音声を認識する。音声認識部１２ｂは、音声の特徴量を識別する識別器である。音声認識部１２ｂは、ＤＮＮ（Deep Neural Network）を例示できる。ＤＮＮは、入力層、隠れ層と呼ばれる中間層、および出力層を有する。ＤＮＮは、中間層の数を増やして重層構造にする構成が採られる。ＤＮＮを用いて音声を認識するためには、ＤＮＮに対して、教師ラベルまたは訓練データと呼ばれる情報を利用して、教師あり学習を行うのが最も有効である。なお、ＤＮＮを実現するためには、高い演算能力が必要なため、ＤＮＮは、音声認識サーバ１０で実現することが望ましいが、データ取得装置５０が高い演算能力を有するＧＰＵなどを搭載する場合、データ取得装置５０で実現してもよい。また、音声認識部１２ｂには、ＤＮＮのほか、例えば、ＳＶＭ(Support Vector Machine)、ＳＩＦＴ（Scale-Invariant Feature Transform）等の手法を用いてもよい。

音声認識に用いるＤＮＮは様々あり、近年頭角を現しているものとしてＥｎｄｔｏＥｎｄモデルがある。ＥｎｄｔｏＥｎｄモデルとは、音響モデル、言語モデル、辞書等の複数の機能へ分割せずに、一つのニューラルネットワークを介して、入力された音声を文字に直接変換するモデルであり、一気通貫モデルとも称される。ＥｎｄｔｏＥｎｄモデルは、構造がシンプルなため、実装が容易、応答速度が速いなどのメリットがある一方、大量の学習データを要する。また、音声認識の前段に、ノイズキャンセル等の音響的な処理を行うフロントエンドを実装することが多いが、フロントエンドでノイズキャンセル等を行わず、ノイズを含んだ音声をそのまま用いて音声認識を学習させる方が頑健な認識性能をもたらすことができる。同様に、マスク等を装着した状態で発声された音声をフロントエンドで明瞭に変換してから音声認識を行うよりも、マスクの装着でこもった音声をそのまま音声認識に学習させた方が有効である。

画像特徴量抽出部１３ａでは、例えば、データ取得装置５０からの撮像データの中から機械学習用の入力値としての特徴量である画像特徴量を抽出する。機械読唇に用いる画像特徴量の例を図１０に示す。

図１０は、機械読唇に用いる画像特徴量の一例を説明するための図である。まず、画像特徴量抽出部１３ａは、カメラ４１０で撮影された画像全体の中から、例えば、会議出席者の顔を認識する。顔認識は、一般的なアルゴリズムを使用してもよい。次に、画像特徴量抽出部１３ａは、認識した顔の中から口唇を抽出する。そして、画像特徴量抽出部１３ａは、抽出した口唇の画像から、図１０に示されているようにプロットされた複数の点のそれぞれの時系列な動きを、特徴量して抽出する。抽出される特徴量は、機械読唇を行うためにカメラ４１０で撮像された会議参加者の口元（口唇）の特徴量である。機械読唇部１３ｂは、抽出された特徴量を用いて機械学習を行う。例えば、雑音が多い会議の場合、機械読唇部１３ｂは、複数の会議出席者のそれぞれの口元の特徴量を利用して機械学習を行う。なお、特徴量の抽出方法は、公知であるため、詳細な説明は省略する。

統合部１４は、音声認識部１２ｂによる音声認識結果に、機械読唇部１３ｂによる機械読唇の結果を融合させる。音声認識部１２ｂによる音声認識結果だけでなく、発声時の口唇の動画像を用いる手法は、マルチモーダル音声認識と呼ばれる。マルチモーダル音声認識では、入力動画像を時系列の画像特徴量に変換し、この画像特徴量と音声特徴量とを融合させて音響画像特徴量を生成する。そして、この音響画像特徴量を用いることにより、音声認識を行う。マルチモーダル音声認識は、会議での音声認識精度を高める有益な手段である。

図７に戻り、判定部１５は、プロセッサ１０１の処理によって実現され、再生収録に用いる録音データが、録音データが取得された録音環境に基づく所定の条件に該当するか否かを判定する。ここで、録音環境に基づく所定の条件は、例えば、録音データが取得された録音日時が所定の日時以前であるか否か、録音データが特定の音響特性を有するか否か、録音データに係る音声を発声したユーザの被覆物の装着の有無、または録音データに係る音声を発声したユーザの周囲における遮蔽物の設置の有無等である。また、特定の音響特性は、被覆物を装着したユーザから発声された音声または遮蔽物を介して取得された音声と同等または類似する音響特性である。また、被覆物は、例えば、ユーザが装着する家庭用もしくは医療用等のマスクまたはフェイスシールド（フェイスガード、マスクガードとも称される）等である。さらに、遮蔽物は、透明なアクリル板またはビニールカーテン等からなる飛沫防止のためのパーテーションである。

音響特性変換部１６は、プロセッサ１０１の処理によって実現され、判定部１５によって録音データが所定の条件に該当すると判定された場合、録音データの音響特性変換を行う。音響特性変換部１６は、例えば、音声を発声したユーザが被覆物を装着している場合の音響特性、または音声を発声したユーザの周囲に遮蔽物が設置されている場合の音響特性に、録音データに係る音声を擬似的に変換する。

データ入出力部１７は、主に、ネットワークＩ／Ｆ１０３に対するプロセッサ１０１の処理によって実現され、データ管理サーバ３０との間でデータの入出力（送受信）を行う。

○データ管理サーバの機能構成○
次に、図７を用いて、データ管理サーバ３０の機能構成について説明する。データ管理サーバ３０は、送受信部３１、再生収録制御部３２、データ管理部３３およびデータ入出力部３４を有している。これら各部は、図４に示されている各構成要素のいずれかが、メモリ３０２に記憶されたデータ管理サーバ用プログラムに従ったプロセッサ３０１からの命令によって動作することで実現される機能または手段である。また、データ管理サーバ３０は、図４に示されているメモリ３０２によって構築される記憶部３０００を有している。記憶部３０００は、音声認識エンジン１２の機械学習に用いる教師データを記憶する。

送受信部３１は、主に、ネットワークＩ／Ｆ３０３に対するプロセッサ３０１の処理によって実現され、通信ネットワーク５を介して、他の装置または端末との間で各種データまたは情報の送受信を行う。

再生収録制御部３２は、主に、プロセッサ３０１の処理によって実現され、記憶された録音データを用いた再生収録を制御する。

データ管理部３３は、主に、プロセッサ３０１の処理によって実現され、音声認識エンジン１２の機械学習に用いる教師データを管理する。ここで、教師データは、音声認識サーバ１０で処理された学習データ、音響特性変換部１６による変換データ、および通信端末９０によってアノテーション処理された処理データ（例えば、教師フラグ）等を含む。また、学習データは、音声認識サーバ１０による処理前後の音声データ（録音データ）および画像データ（撮像データ）、並びに音声データからテキスト変換されたテキストデータ（文字列）を含む。

データ入出力部３４は、主に、ネットワークＩ／Ｆ３０３に対するプロセッサ３０１の処理によって実現され、音声認識サーバ１０との間で各種データの入出力（送受信）を行う。

○通信端末の機能構成○
次に、図７を用いて、通信端末９０の機能構成について説明する。通信端末９０は、送受信部９１、受付部９２、表示制御部９３およびアノテーション処理部９４を有している。これら各部は、図６に示されている各構成要素のいずれかが、ＨＤ９０４からＲＡＭ９０３上に展開された通信端末用プログラムに従ったＣＰＵ９０１からの命令によって動作することで実現される機能または手段である。

送受信部９１は、主に、ネットワークＩ／Ｆ９０９に対するＣＰＵ９０１の処理によって実現され、通信ネットワーク５を介して、他の装置または端末との間で各種データまたは情報の送受信を行う。

受付部９２は、主に、キーボード９１１またはポインティングデバイス９１２に対するＣＰＵ９０１の処理によって実現され、利用者（アノテータ）から各種の選択または入力を受け付ける。表示制御部９３は、主に、ＣＰＵ９０１の処理によって実現され、ディスプレイ９０６等の表示部に各種画面を表示させる。

アノテーション処理部９４は、主に、ＣＰＵ９０１の処理によって実現され、音声認識エンジン１２の機械学習に使用されていない音声データのアノテーション処理を行う。

○データ取得装置の機能構成○
次に、図１１を用いて、データ取得装置５０の機能構成について説明する。データ取得装置５０は、開始／終了制御部５１、同期制御部５２、記録制御部５３および通信制御部５４を有している。これら各部は、図５（Ａ）に示されている各構成要素のいずれかが、ＲＯＭ５０２からＲＡＭ５０３上に展開されたデータ取得装置用プログラムに従ったＣＰＵ５０１からの命令によって動作することで実現される機能または手段である。また、データ取得装置５０は、図５（Ａ）に示されているＲＯＭ５０２によって構築される記憶部５０００を有している。

開始／終了制御部５１は、主に、ＣＰＵ９０１の処理によって実現され、例えば、複数のマイク４００－１～４００－ｎによる録音開始および録音終了を制御すると共に、複数のカメラ４１０－１～４１０－ｎによる撮像開始および撮像終了を制御する。同期制御部５２は、主に、ＣＰＵ９０１の処理によって実現され、１または複数のマイク４００で取得された複数の音声データを同期させる制御を行うと共に、１または複数のカメラ４１０で撮像された１または複数の撮像データを同期させる制御を行う。

記録制御部５３は、主に、ＣＰＵ５０１の処理によって実現され、マイク４００とカメラ４１０で取得した音声データおよび撮像データの記憶部５０００への記録制御を行う。通信制御部５４は、主に、通信Ｉ／Ｆ５０４に対するＣＰＵ５０１の処理によって実現され、ホワイトボード８３０または制御装置６０等の外部機器との通信制御を行う。通信制御は、例えば、同期制御部５２で制御された複数の音声データおよび撮像データを、ホワイトボード８３０または制御装置６０を介して、クラウドサーバ３へ送信する制御である。

○制御装置の機能構成○
次に、図１１を用いて、制御装置６０の機能構成について説明する。制御装置６０は、送受信部６１、録音制御部６２および再生制御部６３を有している。これら各部は、図６に示されている各構成要素のいずれかが、ＨＤ６０４からＲＡＭ６０３上に展開された制御装置用プログラムに従ったＣＰＵ６０１からの命令によって動作することで実現される機能または手段である。

送受信部６１は、主に、ネットワークＩ／Ｆ６０９に対するＣＰＵ６０１の処理によって実現され、通信ネットワーク５を介して、他の装置または端末との間で各種データまたは情報の送受信を行う。

録音制御部６２は、主に、外部機器接続Ｉ／Ｆ６０８に対するＣＰＵ６０１の処理によって実現され、データ取得装置５０における録音および録画等のデータ取得処理を制御する。再生制御部６３は、主に、外部機器接続Ｉ／Ｆ６０８に対するＣＰＵ６０１の処理によって実現され、音声出力装置７０における録音データの再生処理を制御する。

○音声出力装置の機能構成○
次に、図１１を用いて、音声出力装置７０の機能構成について説明する。音声出力装置７０は、再生データ取得部７１および再生処理部７２を有している。これら各部は、図５（Ｂ）に示されている各構成要素のいずれかが、ＲＯＭ７０２からＲＡＭ７０３上に展開された音声出力装置用プログラムに従ったＣＰＵ７０１からの命令によって動作することで実現される機能または手段である。

再生データ取得部７１は、主に、通信Ｉ／Ｆ７０４に対するＣＰＵ７０１の処理によって実現され、再生収録の対象となる再生データ（録音データ）を取得する。再生処理部７２は、主に、ＣＰＵ７０１の処理によって実現され、再生データ取得部７１によって取得された再生データ（録音データ）に係る音声の再生処理を行う。

●実施形態の処理または動作
○教師データの生成処理○
続いて、図１２乃至図１８を用いて、実施形態に係る音声認識システムの処理または動作について説明する。まず、図１２乃至図１６を用いて、過去に収録した録音データの再生収録を用いて、マスク装着等が常態化した新たな利用シーンに対応させた教師データを生成する処理について説明する。図１２および図１３は、音声認識エンジンの機械学習に用いる教師データの生成処理の一例を示すシーケンス図である。図１２および図１３は、将来常態化することが想定されるユーザがマスク等の被覆物を装着した会議等の新たな利用シーンにおける音声認識精度を向上させるため、教師データの質および量を向上させるための処理を示す。

まず、データ管理サーバ３０の送受信部３１は、制御装置６０に対して、録音データの再生収録を要求する旨を示す再生収録要求を送信する(ステップＳ１１)。具体的には、データ管理サーバ３０の再生収録制御部３２は、記憶部３０００に記憶された録音データの再生収録要求を受け付ける。そして、送受信部３１は、再生収録制御部３２によって受け付けられた再生収録要求を、制御装置６０に対して送信する。この再生収録要求は、記憶部５０００に記憶された録音データのうち、再生収録の対象となる録音データを含む。これにより、制御装置６０の送受信部６１は、データ管理サーバ３０から送信された再生収録要求を受信する。

また、データ管理サーバ３０のデータ入出力部３４は、音声認識サーバ１０に対して、録音データの再生収録を開始する旨を示す再生収録開始通知を送信する（ステップＳ１２）。この再生収録開始通知は、記憶部５０００に記憶された教師データのうち、再生収録の対象となる録音データおよび録音データに同期された撮像データを含む。これにより、音声認識サーバ１０のデータ入出力部１７は、データ管理サーバ３０から送信された再生収録開始通知を受信する。

次に、制御装置６０の再生制御部６３は、音声出力装置７０に対して、録音データの再生開始を要求する旨を示す再生開始要求を送信する（ステップＳ１３）。この再生開始要求は、ステップＳ１１で受信された録音データを含む。これにより、音声出力装置７０の再生データ取得部７１は、制御装置６０から送信された再生開始要求を受信する。また、制御装置６０の録音制御部６２は、データ取得装置５０に対して、データ取得の開始を要求する旨を示すデータ取得開始要求を送信する（ステップＳ１４）。これにより、データ取得装置５０の通信制御部５４は、制御装置６０から送信されたデータ取得開始要求を受信する。

音声出力装置７０の再生処理部７２は、ステップＳ１３で受信された録音データに係る音声の再生処理を実行する（ステップＳ１５）。また、データ取得装置５０の開始／終了制御部５１は、ステップＳ１４で受信されたデータ取得開始要求に応じて、マイク４００による録音とカメラ４１０による録画を開始する（ステップＳ１６）。そして、同期制御部５２は、複数のマイク４００で収音された音声データ、および複数のカメラ４１０で撮像された撮像データを同期させる処理を行う(ステップＳ１７)。

マイク４００の配置位置と向きや、会議出席者からそれぞれのマイク４００までの距離によって、特定の人から発せられた声が、会議室８００の壁に反射してからマイク４００に届く場合と直接マイク４００に届く場合があり、マイク４００への音声の残響に差が生じることである。この場合、同一の人が発した音声であっても、所定のマイク４００で取得される特徴点の波形（音圧レベル）は、他のマイク４００で取得される音声の当該特徴点の波形（音圧レベル）と異なることもある。そのため、同期制御部５２は、波形が相違する複数の音声データの取得のタイミングを一致させることで、特定の特徴点のタイミングを各マイクで相互に合わせる。この結果、音声の特徴点が抽出されたタイミングを合わせて音声認識サーバ１０に入力することができ、音声認識の精度を効率的に向上させることができる。また、同期制御部５２は、同様の方法で、音声データとともに、カメラ４１０で撮像された撮像データの同期処理を行う。これにより、音声認識システム１は、音声認識と画像認識における機械学習の教師ラベルを共通化でき、低コストで効率的に音声認識と画像認識の機械学習を進めることができる。

データ取得装置５０の通信制御部５４は、制御装置６０に対して、ステップＳ１６およびステップＳ１７で取得された音声データおよび撮像データを送信する（ステップＳ１８）。これにより、制御装置６０の録音制御部６２は、データ取得装置５０から送信された音声データおよび撮像データを受信する。そして、制御装置６０の送受信部６１は、音声認識サーバ１０に対して、ステップＳ１８で受信された音声データおよび撮像データを送信する（ステップＳ１９）。これにより、音声認識サーバ１０の送受信部１１は、制御装置６０から送信された音声データおよび撮像データを受信する。

なお、ステップＳ１１における再生収録要求は、データ管理サーバ３０から送信される例を示したが、制御装置６０に対する所定の入力操作によって受け付けられる構成であってもよい。ステップＳ１８およびステップＳ１９で送受信されるデータは、データ取得装置５０によって取得された音声データのみであってもよい。

次に、図１３において、音声認識サーバ１０は、ステップＳ１９で受信された音声データの音声認識処理を実行する（ステップＳ２０）。この音声認識処理は、図７乃至図９において説明した処理と同様である。なお、ステップＳ２０の処理は、再生収録であるため、読唇処理部１３による処理は不要である。

次に、音声認識サーバ１０は、ステップＳ２０で音声認識処理が施された音声データの音響特性変換処理を実行する（ステップＳ２１）。ここで、図１４を用いて、音声認識サーバ１０における音響特性変換処理の詳細を説明する。図１４は、音声認識サーバにおける音響特性変換処理の一例を示すフローチャートである。

まず、判定部１５は、ステップＳ１２で受信された再生収録の対象である録音データの録音日時が所定の日時以前であるか否かを判定する（ステップＳ２１１）。ここで、判定部１５は、例えば、新型コロナウイルスが流行した２０２０年を所定の日時として、録音日時が２０２０年以前である否かを判定する。これは、２０２０年以降の会議等の場では、新型コロナウイルスの流行によって音声を発声したユーザがマスクやフェイスシールド等の被覆物を装着している可能性が高いためである。なお、判定部１５の判定条件として用いられる所定の日時は、これに限られず、会議等の開催方法等に応じて適宜変更することができる。

判定部１５は、録音日時が所定の日時以前であると判定した場合（ステップＳ２１１のＹＥＳ）、処理をステップＳ２１５へ移行させる。一方で、判定部１５は、録音日時が所定の日時以前でないと判定した場合（ステップＳ２１１のＮＯ）、処理をステップＳ２１２へ移行させる。

次に、判定部１５は、録音データに係る音声を発声したユーザ（例えば、図２に示されている会議出席者）がマスクを装着しているか否かを判定する（ステップＳ２１２）。具体的には、判定部１５は、例えば、録音データに同期された撮像データを用いた顔認識によって、撮像データに写っているユーザがマスクを装着しているか否かを判定する。また、判定部１５は、例えば、録音データがマスクを装着したユーザから発声された音声と同等または類似する特定の音響特性を有するか否かを判定する。

判定部１５は、ユーザがマスクを装着していると判定した場合（ステップＳ２１２のＹＥＳ）、音響特性変換が不要であるため、処理を終了する。一方で、判定部１５は、ユーザがマスクを装着していないと判定した場合（ステップＳ２１２のＮＯ）、処理をステップＳ２１３へ移行させる。

次に、判定部１５は、録音データに係る音声を発声したユーザ（例えば、図２に示されている会議出席者）がフェイスシールドを装着しているか否かを判定する（ステップＳ２１３）。具体的には、具体的には、判定部１５は、例えば、録音データに同期された撮像データを用いた顔認識によって、撮像データに写っているユーザがフェイスシールドを装着しているか否かを判定する。また、判定部１５は、例えば、録音データがフェイスシールドを装着したユーザから発声された音声と同等または類似する特定の音響特性を有するか否かを判定する。

判定部１５は、ユーザがフェイスシールドを装着していると判定した場合（ステップＳ２１３のＹＥＳ）、音響特性変換が不要であるため、処理を終了する。一方で、判定部１５は、ユーザがフェイスシールドを装着していないと判定した場合（ステップＳ２１３のＮＯ）、処理をステップＳ２１４へ移行させる。

次に、判定部１５は、録音データに係る音声を発声したユーザ（例えば、図２に示されている会議出席者）の周囲におけるパーテーションの設置の有無を判定する（ステップＳ２１４）。具体的には、判定部１５は、例えば、録音データに同期された撮像データを用いた顔認識によって、撮像データに写っているユーザの周囲におけるパーテーションの設置の有無を判定する。また、判定部１５は、例えば、録音データがパーテーションを介して取得された音声と同等または類似する音響特性を有するか否かを判定する。

判定部１５は、ユーザの周囲にパーテーションが設置されていると判定した場合（ステップＳ２１４のＹＥＳ）、音響特性変換が不要であるため、処理を終了する。一方で、判定部１５は、ユーザの周囲にパーテーションが設置されていないと判定した場合（ステップＳ２１４のＮＯ）、処理をステップＳ２１５へ移行させる。なお、上述のステップＳ２１２～Ｓ２１４における撮像データを用いた判定は、顔認識をベースにした画像判定を行えばよいため、音声認識よりも比較的容易である。また、上述のステップＳ２１１～Ｓ２１４における判定部１５における処理は、録音データが取得された録音環境に基づく所定の条件を用いた判定処理の一例である。さらに、上述のステップＳ２１２～Ｓ２１４における録音データを用いた判定は、例えば、ＤＮＮを用いて、音声の周波数特性等の特徴量から所定の条件に該当するかを判定することで、高精度な判定を行うことができる。

そして、音響特性変換部１６は、ステップＳ２０で音声認識処理が施された音声データの音響特性変換処理を実行する（ステップＳ２１５）。具体的には、音響特性変換部１６は、特定の音響特性に擬似変換する。ここで、特定の音響特性への擬似変換は、例えば、マスクまたはフェイスシールド等の被覆物を装着したユーザから発声された音声と同等または類似する音響特性への擬似変換、またはパーテーション等の遮蔽物を介して取得された音声と同等または類似する音響特性への擬似変換である。

音響特性の擬似変換には多くのアプローチがあり、最も簡便な手法は、ローパスフィルタのようなフィルタ処理である。図１５は、音響特性変換の一例であるマスク装着風の擬似変換結果の一例を示す図である。図１５（Ａ）は、ユーザ（発話者）とマイクが所定の距離以上（例えば、１ｍ以上）離れているようなＦａｒ－Ｆｉｅｌｄ音声認識において、ユーザがマスクを装着していない（ノーマスク）状況を想定した擬似変換結果を示す。一方で、図１５（Ｂ）は、Ｆａｒ－Ｆｉｅｌｄ音声認識において、ユーザがマスクを装着している状況を想定した擬似変換結果を示す。なお、音響特性の擬似変換は、ローパスフィルタによるフィルタ処理のほか、ＤＮＮを構築し、ユーザがマスクを装着しているような音声に変換するアプローチもある。

このように、音声認識サーバ１０は、マスク装着の常態化等の録音環境の新たな利用シーンに対応した所定の条件に該当するか否かを自動判定し、判定結果に基づいて音響特性の擬似変換を行うことで、音声認識エンジン１２の機械学習に用いる教師データを、マスク等の被覆物の装着が常態化したような新たな利用シーンに対応させることができる。

図１３に戻り、音声認識サーバ１０のデータ入出力部１７は、データ管理サーバ３０に対して、ステップＳ１９で受信された音声データおよび撮像データを含む学習データ、ステップＳ２１で変換された変換データ、およびステップＳ２１における変換種別を示す変換種別フラグを送信する（ステップＳ２２）、このうち、変換種別フラグは、ステップＳ２１５における擬似変換の内容を識別するための情報である。これにより、データ管理サーバ３０データ入出力部３４は、音声認識サーバ１０から送信された学習データ、変換データおよび変換種別フラグを受信する。

次に、データ管理サーバ３０の送受信部３１は、通信端末９０に対して、ステップＳ２２で受信された学習データを送信する（ステップＳ２３）。これにより、通信端末９０の送受信部９１は、データ管理サーバ３０から送信された学習データを受信する。

次に、通信端末９０のアノテーション処理部９４は、ステップＳ２３で受信された学習データを用いたアノテーション処理を実行する（ステップＳ２４）、具体的には、アノテーション処理部９４は、通信端末９０を使用するアノテータの入力に応じて、受信された学習データのテキスト（文字列）への書き起こし、タイムスタンプ処理および後述する教師ラベルの生成処理を行う。

通信端末９０の送受信部９１は、データ管理サーバ３０に対して、ステップＳ２４でアノテーション処理された処理データを送信する（ステップＳ２５）。これにより、データ管理サーバ３０の送受信部３１は、通信端末９０から送信された処理データを受信する。そして、データ管理サーバ３０のデータ管理部３３は、ステップＳ２５で受信された処理データ、およびステップＳ２２で受信された各種データを含む教師データを、記憶部３０００に記憶させる(ステップＳ２６)。

ここで、図１６を用いて、データ管理サーバ３０に記憶される教師データに付与された教師ラベルについて説明する。図１６は、教師データに付与された教師ラベルの一例を示す概念図である。図１６に示されている教師ラベルは、ステップＳ２４でのアノテーション処理によって処理されたアノテーション済のデータである。

教師ラベルは、例えば、「発話Ｎｏ」が「０００１」の「あらゆる現実をすべて自分のほうへねじ曲げたのだ。」という発話内容（ラベル）である。図１６には、これ以外にも、複数の教師ラベルの例が示される。「カメラＩＤ」は、複数のカメラ４１０のそれぞれを識別する番号である。「話者ＩＤ」は、発話する人と個別に特定する番号である。その他、「性別ＩＤ」、発話が開始された時間を表す「開始時間」、発話が終了した時間を表す「終了時間」等が対応付けられている。

また、「種別ＩＤ」は、音声の種別を識別する番号である。種別ＩＤは、例えば、マスクが装着されていない場合の音声、および実際にマスクが装着された場合の音声を識別する。例えば、マスクが装着されていない場合の音声には「０」、実際にマスクが装着された場合の音声の場合には「１」が付与される。また、種別ＩＤは、異なる番号を不要することで、マスク装着のほか、フェイスシールド等の他の被覆物の装着やパーテーション等の遮蔽物の設置等を識別することもできる。

さらに、「種別ＩＤ」は、マスクが装着されていない場合の音声に対して行われた擬似変換の変換種別を識別する。例えば、マスク装着に対応する音響特性への擬似変換が行われた音声には「１１」、フェイスシールドの装着に対応する音響特性への擬似変換が行われた音声には「１２」、遮蔽物の設置に対応する音響特性への擬似変換が行われた音声には「１３」が付与される。

なお、教師ラベルは、音声データを聴いて人手で書き起こしやタイムスタンプを行い、それを学習に用いる方法、または既存の音声認識エンジン１２から出力されたテキスト（音声認識の出力）のうち、確信度の高い出力結果を教師ラベルとして抽出する方法や出力されたテキストを事前学習（Pre-Training）データとして用いる方法などがある。前者の人手によって全ての教師ラベルを作成し、機械学習を行う方法は教師あり学習と称され、後者の人手を介さず、確信度の高い出力結果を教師ラベルとして利用する方法は半教師あり学習と称される。音声認識システム１において、半教師あり学習を行う場合、複数のマイク４００で取得した音声データによる認識結果がいずれも同じ内容だった場合、確信度が高いと見なし、それを教師ラベルとして用いることが考えられる。過去に用いた学習データは、アノテーション済で、教師データとして用いることができるものである。

このように、音声認識システム１は、マスク等の被覆物の装着が常態化した新たな利用シーンに対応する音響特性の擬似変換およびアノテーション処理が行われた学習データを、教師データとしてクラウドサーバ３に記憶し、蓄積させた教師データを音声認識エンジン１２の機械学習に用いることで、教師データを用いた音声認識精度を向上させることができる。

○被覆物付き音声出力装置を用いた再生収録の例○
続いて、図１７および図１８を用いて、音声の出力部にマスク等の被覆物を装着させた音声出力装置７０を用いて再生収録を行う場合の例を説明する。図１７は、被覆物付き音声出力装置の一例を示す図である。

図１７（Ａ）は、ダミーヘッド７９０にマスク７５０を装着させ、マスク７５０の内側に音声の出力部であるスピーカ７０５が設けられた音声出力装置７０である。図１７（Ａ）に示されている音声出力装置７０は、スピーカ７０５をマスク７５０で覆うように設けており、マスク７５０に覆われたスピーカ７０５から録音データの再生を行うことで、マスクを装着している場合の音声を収録させることができる。一方で、図１７（Ｂ）は、ダミーヘッド７９０にフェイスシールド７６０（フェイスガード、マスクガードとも称する）を装着させ、フェイスシールド７６０の内側に音声の出力部であるスピーカ７０５が設けられた音声出力装置７０である。図１７（Ｂ）に示されている音声出力装置７０は、スピーカ７０５をフェイスシールド７６０で覆うように設けており、フェイスシールド７６０に覆われたスピーカ７０５から録音データの再生を行うことで、フェイスシールドを装着している場合の音声を収録させることができる。

また、図１８に示されているように、録音データの再生収録の際に、データ取得装置５０と音声出力装置７０の設置位置を所定の距離（例えば、１ｍ以上）離して設置することで、録音データをＦａｒ－Ｆｉｅｌｄ音声認識に適した音声データに変換することができる。さらに、データ取得装置５０の設置位置と音声出力装置７０の設置位置の間の空間に、空間を部分的に遮蔽するパーテーション８５０等の遮蔽物を設置することで、例えば、新型コロナウイルスへの感染防止対策が図られた会議の場をより忠実に再現することができる。パーテーション８５０は、例えば、飛沫防止のために設置された透明のアクリル板やビニールカーテン等である。

このように、音声認識システム１は、図１７に示されているような音声出力装置７０および図１８に示されているようなパーテーション８５０を設置した収録環境による再生収録を行うことで、実際に会議等が行われた録音環境をより想定した再生収録を行うことができる。図１７および図１８に示すような収録環境での再生収録処理の流れは、図１２および図１３に示されている処理と同様である。なお、この場合、被覆物を装着した場合の音声または遮蔽物が設置された場合の音声を取得可能であるため、ステップＳ２１の音響特性変換処理は不要である。

●実施形態の効果
以上説明したように、音声認識システム１は、音声認識の性能に大きく影響するマスクの装着等が常態化した新たな利用シーンに対応するべく、過去に収集した学習データと、収集した学習データを用いて音響特性変換された変換データとを音声認識エンジン１２の機械学習に利用することで、音声認識精度を向上させることができる。また、ユーザとマイクが所定の距離以上離れているようなＦａｒ－Ｆｉｅｌｄ音声認識においても、マスクの装着等が常態化した状況に対応させた高い音声認識精度を実現することができる。

●まとめ●
以上説明したように、本発明の一実施形態に係る音声認識システムは、ユーザが発声した音声に対して音声認識エンジン１２を用いた音声認識処理を行う音声認識システム１であって、ユーザが発声した音声の録音データを記憶する記憶部３０００（記憶手段の一例）と、記憶された録音データが、当該録音データが取得された録音環境に基づく所定の条件に該当する場合、当該録音データの音響特性変換を行う音響特性変換部１６（音響特性変換手段の一例）と、を備え、音響特性変換部１６によって変換された変換データを音声認識エンジン１２の機械学習に用いる。これにより、音声認識システム１は、ユーザが発声した音声の録音環境に応じた教師データを生成することで、音声認識精度を向上させることができる。

また、本発明の一実施形態に係る音声認識システムにおいて、音響特性変換部１６（音響特性変換手段の一例）は、音声を発声したユーザが被覆物（例えば、マスクまたはフェイスシールド）を装着している場合の音響特性、または音声を発声したユーザの周囲に遮蔽物（例えば、アクリル板またはビニールカーテン等のパーテーション）が設置されている場合の音響特性に擬似的に変換する。これにより、音声認識システム１は、記憶された録音データを用いて特定の音響特性への擬似変換を行った変換データを機械学習の教師データとして利用することで、例えば、マスク装着等が常態化した新たな利用シーンにおける音声認識精度を向上させることができる。

さらに、本発明の一実施形態に係る音声認識システムは、記憶された録音データが所定の条件に該当するか否かを判定する判定部１５（判定手段の一例）を備え、判定部１５によって所定の条件に該当すると判定された場合、音響特性変換部１６（音響特性変換手段の一例）は、当該録音データの音響特性変換を行う。これにより、音声認識システム１は、記憶された録音データと録音データから音響特性変換された変換データとを機械学習に効果的に利用することで、例えば、マスク装着等が常態化した新たな利用シーンにおける音声認識精度を向上させることができる。

所定の条件は、当該録音データの録音日時であり、判定部１５によって録音日時が所定の日時以前であると判定された場合、音響特性変換部１６は、当該録音データの音響特性変換を行う。また、所定の条件は、特定の音響特性であり、判定部１５によって録音データが特定の音響特性を有しないと判定された場合、音響特性変換部１６は、当該録音データの音響特性変換を行う。さらに、所定の条件は、ユーザの被覆物（例えば、マスクまたはフェイスシールド）の装着の有無であり、記憶部３０００（記憶手段の一例）は、録音データに同期されたユーザの撮像データを、当該録音データに関連づけて記憶し、判定部１５は、撮像データを用いて被覆物の装着の有無を判定し、判定部１５によって被覆物を装着していないと判定された場合、音響特性変換部１６は、当該録音データの音響特性変換を行う。また、所定の条件は、ユーザの周囲における遮蔽物（例えば、アクリル板またはビニールカーテン等のパーテーション）の設置の有無であり、記憶部３０００は、録音データに同期されたユーザの周囲の撮像データを、当該録音データに関連づけて記憶し、判定部１５は、撮像データを用いて遮蔽物の設置の有無を判定し、判定部１５によって遮蔽物が設置されていないと判定された場合、音響特性変換部１６は、当該録音データの音響特性変換を行う。

また、本発明の一実施形態に係る音声認識システムは、記憶された録音データに係る音声を出力する音声出力装置７０と、音声出力装置７０によって出力された音声データを取得するデータ取得装置５０と、を備え、音響特性変換部１６（音響特性変換手段の一例）は、データ取得装置５０によって取得された音声データが所定の条件に該当する場合、当該音声データの音響特性変換を行う。また、音声出力装置７０は、音声を出力するスピーカ７０５（出力部の一例）を覆う被覆物（例えば、マスク７５０またはフェイスシールド７６０）を備え、データ取得装置５０によって取得された音声データを音声認識エンジン１２の機械学習に用いる。さらに、音声出力装置７０の設置位置とデータ取得装置５０の設置位置の間の空間に、当該空間を部分的に遮蔽する遮蔽物（例えば、アクリル板またはビニールカーテン等のパーテーション８５０）が設置されている。これにより、音声認識システム１は、マスク装着等が常態化した実際に会議等が行われた録音環境をより想定した再生収録を行うことができる。

●補足●
上記で説明した実施形態の各機能は、一または複数の処理回路によって実現することが可能である。ここで、本実施形態における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウエアによって各機能を実行するようプログラミングされたプロセッサ、並びに上記で説明した各機能を実行するよう設計されたASIC（Application Specific Integrated Circuit）、DSP（digital signal processor）、FPGA（field programmable gate array）、SOC(System on a chip)、GPU(Graphics Processing Unit)および従来の回路モジュール等のデバイスを含むものとする。

また、上記で説明した実施形態の各種テーブルは、機械学習の学習効果によって生成されたものでもよく、関連づけられている各項目のデータを機械学習にて分類付けすることで、テーブルを使用しなくてもよい。ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり，コンピュータが，データ識別等の判断に必要なアルゴリズムを、事前に取り込まれる学習データから自律的に生成し，新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習および深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。

これまで本発明の一実施形態に係る音声認識システム、音声認識方法およびプログラムについて説明してきたが、本発明は上述した実施形態に限定されるものではなく、他の実施形態の追加、変更または削除等、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。

１音声認識システム
３クラウドサーバ
５通信ネットワーク
１０音声認識サーバ
１１送受信部
１２音声認識エンジン
１３読唇処理部
１４統合部
１５判定部（判定手段の一例）
１６音響特性変換部（音響特性変換手段の一例）
１７データ入出力部
３０データ管理サーバ
３１送受信部
３３データ管理部
３４データ入出力部
５０データ取得装置
６０制御装置
７０音声出力装置
８１～８５会議出席者（ユーザの一例）
７０５スピーカ（出力部の一例）
７５０マスク（被覆物の一例）
７６０フェイスシールド（被覆物の一例）
８５０パーテーション（遮蔽物の一例）
３０００記憶部（記憶手段の一例）

特許５７９７００９号公報特開平５－１９９５７８号公報

Claims

ユーザが発声した音声に対して音声認識エンジンを用いた音声認識処理を行う音声認識システムであって、
前記音声の録音データが、当該録音データが取得された録音環境に基づく所定の条件に該当する場合、当該録音データの音響特性変換を行う音響特性変換手段と、を備え、
前記音響特性変換手段によって変換された変換データを前記音声認識エンジンの機械学習に用いる音声認識システム。
前記音響特性変換手段は、前記音声を発声したユーザが被覆物を装着している場合の音響特性、または前記音声を発声したユーザの周囲に遮蔽物が設置されている場合の音響特性に擬似的に変換する請求項１に記載の音声認識システム。
請求項１または２に記載の音声認識システムであって、更に、
前記録音データが前記所定の条件に該当するか否かを判定する判定手段を備え、
前記判定手段によって前記所定の条件に該当すると判定された場合、前記音響特性変換手段は、当該録音データの音響特性変換を行う音声認識システム。
前記所定の条件は、当該録音データの録音日時であり、
前記判定手段によって前記録音日時が所定の日時以前であると判定された場合、前記音響特性変換手段は、当該録音データの音響特性変換を行う請求項３に記載の音声認識システム。
前記所定の条件は、特定の音響特性であり、
前記判定手段によって前記録音データが前記特定の音響特性を有しないと判定された場合、前記音響特性変換手段は、当該録音データの音響特性変換を行う請求項３または４に記載の音声認識システム。
前記所定の条件は、前記ユーザの被覆物の装着の有無であり、
前記判定手段は、前記録音データに同期された前記ユーザの撮像データを用いて前記被覆物の装着の有無を判定し、
前記判定手段によって前記被覆物を装着していないと判定された場合、前記音響特性変換手段は、当該録音データの音響特性変換を行う請求項３乃至５のいずれか一項に記載の音声認識システム。
前記所定の条件は、前記ユーザの周囲における遮蔽物の設置の有無であり、
前記判定手段は、前記録音データに同期された前記ユーザの周囲の撮像データを用いて前記遮蔽物の設置の有無を判定し、
前記判定手段によって前記遮蔽物が設置されていないと判定された場合、前記音響特性変換手段は、当該録音データの音響特性変換を行う請求項３乃至５のいずれか一項に記載の音声認識システム。
請求項１乃至７のいずれか一項に記載の音声認識システムであって、
前記録音データに係る音声を出力する音声出力装置と、
前記音声出力装置によって出力された音声データを取得するデータ取得装置と、を備え、
前記音響特性変換手段は、前記データ取得装置によって取得された音声データが前記所定の条件に該当する場合、当該音声データの音響特性変換を行う音声認識システム。
請求項８に記載の音声認識システムであって、
前記音声出力装置は、更に、前記音声を出力する出力部を覆う被覆物を備え、
前記データ取得装置によって取得された音声データを前記音声認識エンジンの機械学習に用いる音声認識システム。
前記被覆物は、マスクまたはフェイスシールドである請求項９に記載の音声認識システム。
前記音声出力装置の設置位置と前記データ取得装置の設置位置の間の空間に、当該空間を部分的に遮蔽する遮蔽物が設置されている請求項８乃至１０のいずれか一項に記載の音声認識システム。
請求項１乃至１１のいずれか一項に記載の音声認識システムであって、更に、
前記録音データを記憶する記憶手段を備え、
前記音響特性変換手段は、記憶された前記録音データの音響特性変換を行う音声認識システム。
ユーザが発声した音声に対して音声認識エンジンを用いた音声認識処理を行う音声認識システムが実行する音声認識方法であって、
前記音声認識システムは、
前記音声の録音データが、当該録音データが取得された録音環境に基づく所定の条件に該当する場合、当該録音データの音響特性変換を行う音響特性変換ステップを実行し、
前記音響特性変換ステップによって変換された変換データを前記音声認識エンジンの機械学習に用いる音声認識方法。
コンピュータに、請求項１３に記載の音声認識方法を実行させるプログラム。