JP2022108803A - 音声認識システム、音声認識方法およびプログラム - Google Patents

音声認識システム、音声認識方法およびプログラム Download PDF

Info

Publication number
JP2022108803A
JP2022108803A JP2021003947A JP2021003947A JP2022108803A JP 2022108803 A JP2022108803 A JP 2022108803A JP 2021003947 A JP2021003947 A JP 2021003947A JP 2021003947 A JP2021003947 A JP 2021003947A JP 2022108803 A JP2022108803 A JP 2022108803A
Authority
JP
Japan
Prior art keywords
speech recognition
data
recognition system
recorded data
acoustic characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021003947A
Other languages
English (en)
Inventor
将樹 能勢
Masaki Nose
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2021003947A priority Critical patent/JP2022108803A/ja
Publication of JP2022108803A publication Critical patent/JP2022108803A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

【課題】ユーザが発声した音声の録音環境に応じた教師データを生成することで、音声認識精度を向上させることが可能な音声認識システム、音声認識方法およびプログラムを提供する。【解決手段】音声認識システムにおいて、ユーザが発声した音声に対して音声認識エンジン12を用いた音声認識処理を行うクラウドサーバの音声認識サーバは、ユーザが発声した音声の録音データが、当該録音データが取得された録音環境に基づく所定の条件に該当する場合、当該録音データの音響特性変換を行う音響特性変換部16(音響特性変換手段の一例)と、を備える。音響特性変換部16によって変換された変換データを、音声認識エンジン12の機械学習に用いる。【選択図】図7

Description

本開示内容は、音声認識システム、音声認識方法およびプログラムに関する。
音声認識を用いたスマートスピーカ、多言語翻訳システム等が注目を集めている。スマートスピーカは、音声コマンドにより、室内器具の操作や、天気予報等の情報の提供を実現する装置である。多言語翻訳システムは、スマートフォン、専用端末等を用いた翻訳装置である。多言語翻訳システムでは、例えば、人の音声がマイクに入力され、入力された音声が音声認識により文字化された後、翻訳処理によって所望の言語に翻訳され、スピーカから出力される。さらに、コールセンタでの顧客との対話録を生成するシステム、会議録を自動生成するシステム等の実用化が進み、これらのシステムも音声認識の技術を活用している。
特許文献1には、人の音声以外の雑音(ノイズ)による音声誤認識を低減して、音声認識の認識率を高める内容が開示されている。また、特許文献2には、装置使用者以外の声や騒音による誤動作や、音声入力時に声が外部に漏れることを防止する音声入力装置と遮音マスクの組合せ装置が開示されている。
しかしながら、従来の方法では、例えば、音声認識の対象となる音声を発するユーザがマスク等の被覆物を装着しているような状況が想定されていないため、音声認識精度を高める上で改善の余地があるという課題があった。
上述した課題を解決すべく、請求項1に係る発明は、ユーザが発声した音声に対して音声認識エンジンを用いた音声認識処理を行う音声認識システムであって、前記音声の録音データが、当該録音データが取得された録音環境に基づく所定の条件に該当する場合、当該録音データの音響特性変換を行う音響特性変換手段と、を備え、前記音響特性変換手段によって変換された変換データを前記音声認識エンジンの機械学習に用いる音声認識システムである。
本発明によれば、ユーザが発声した音声の録音環境に応じた教師データを生成することで、音声認識精度を向上させることができるという効果を奏する。
音声認識システムの全体構成の一例を示す図である。 音声認識システムの利用シーンの一例を説明するための図である。 データ取得装置の外観図の一例を示す図である。 音声認識サーバおよびデータ管理サーバのハードウエア構成の一例を示す図である。 (A)はデータ取得装置のハードウエア構成の一例を示す図であり、(B)は音声出力装置のハードウエア構成の一例を示す図である。 制御装置および通信端末のハードウエア構成の一例を示す図である。 音声認識サーバ、データ管理サーバおよび通信端末の機能構成の一例を示す図である。 音声認識エンジン、読唇処理部および統合部の動作の一例を説明するための図である。 音声認識エンジン、読唇処理部および統合部の動作の一例を説明するための図である。 機械読唇に用いる画像特徴量の一例を説明するための図である。 データ取得装置、制御装置および音声出力装置の機能構成の一例を示す図である。 音声認識エンジンの機械学習に用いる教師データの生成処理の一例を示すシーケンス図である。 音声認識エンジンの機械学習に用いる教師データの生成処理の一例を示すシーケンス図である。 音声認識サーバにおける音響特性変換処理の一例を示すフローチャートである。 (A)(B)音響特性変換の一例であるマスク装着風の擬似変換結果の一例を示す図である。 教師データに付与される教師ラベルの一例を示す概念図である。 (A)(B)被覆物付き音声出力装置の一例を示す図である。 被覆物付き音声出力装置を用いた再生収録の一例を説明するための図である。
以下、図面を参照しながら、発明を実施するための形態を説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明は省略する。
●実施形態●
●音声認識システムの概略
まず、図1を用いて、実施形態に係る音声認識システムの構成の概略について説明する。図1は、音声認識システムの全体構成の一例を示す図である。図1に示されている音声認識システム1は、例えば、ユーザが飛沫感染防止のためにマスク等を装着したり、会議室にアクリル板等のパーテーションが設けられたりする新たな会議の場において、高い認識精度を実現するためのシステムである。
図1に示されているように、音声認識システム1は、音声認識サーバ10およびデータ管理サーバ30から構成されるクラウドサーバ3、データ取得装置50、制御装置60、音声出力装置70並びに通信端末90を含む。音声認識システム1を構成するクラウドサーバ3、制御装置60および通信端末90は、通信ネットワーク5を介して通信することができる。通信ネットワーク5は、インターネット、移動体通信網、LAN(Local Area Network)等によって構築されている。なお、通信ネットワーク5には、有線通信だけでなく、3G(3rd Generation)、4G(4th Generation)、5G(5th Generation)、Wi-Fi(Wireless Fidelity)(登録商標)、WiMAX(Worldwide Interoperability for Microwave Access)またはLTE(Long Term Evolution)等の無線通信によるネットワークが含まれてもよい。
音声認識サーバ10は、データ取得装置50によって取得された音声データに対する音声認識エンジンを用いた音声認識処理を行うためのサーバコンピュータである。データ管理サーバ30は、音声認識エンジンの機械学習に用いる教師データを管理するためのサーバコンピュータである。また、データ管理サーバ30は、音声データの再生収録を行う場合に、制御装置60に対して録音データを送信して再生収録を制御する。なお、音声認識サーバ10およびデータ管理サーバ30は、一台のサーバコンピュータによって構成されてもよい。
通信端末90は、音声認識エンジンの機械学習に未使用の音声データのアノテーションを行うアノテータが使用するノートPC等のコンピュータである。アノテータは、音声認識エンジンの機械学習として教師あり学習を行うための書き起こしおよびタイムスタンプ処理等を行う。
データ取得装置50、制御装置60および音声出力装置70は、会議等の音声の録音データの再生収録を行う場合に使用される。データ取得装置50および音声出力装置70は、制御装置60を介して、クラウドサーバ3との通信を行うことができる。データ取得装置50は、ユーザが発声した音声の音声データ、音声を発声したユーザまたはユーザの周囲を撮像した撮像データを取得する。音声出力装置70は、再生収録を行う場合に録音データを再生して音声を出力する。制御装置60は、データ取得装置50および音声出力装置70の処理または動作を制御する。
なお、データ取得装置50は、録音データの再生収録の場面のみならず、例えば、会議等でのリアルタイムの音声認識処理にも用いられる。また、制御装置60は、その機能の一部または全てをデータ取得装置50に備える構成であってもよい。すなわち、データ取得装置50は、通信ネットワーク5を介して、クラウドサーバ3と直接通信可能な構成であってもよい。
図2は、音声認識システムの利用シーンの一例を説明するための図である。図2は、音声認識システム1の利用シーンの一例として、複数のユーザが出席する会議の例を示す。図2は、会議室800に設置されるテーブル810、テーブル810の周囲に存在する複数の(会議出席者81~86)、データ取得装置50およびクラウドサーバ3を示す。
音声認識システム1は、1または複数の会議出席者81~86の音声をマイクで取得し、取得した音声の内容を示すデータである音声データを機械学習に利用することにより、音声認識精度を高めるように構成されている。また、音声認識システム1は、1または複数の会議出席者81~86をカメラで撮像し、撮像した画像の内容を示すデータである撮像データを機械学習に利用することにより、音声認識精度を高めるように構成されている。なお、音声認識システム1は、音声データのみを収集して音声認識精度を向上させる構成であってもよい。ただし、音声認識システム1は、音声データに加えて撮像データを収集することにより、音声認識精度をより一層高めることができる。
音声認識システム1は、テーブル810の中央に設置されるデータ取得装置50、会議室800の壁とテーブル810の間に設置されるホワイトボード830、およびクラウドサーバ3を含む。データ取得装置50で取得された音声データは、ホワイトボード830を介してクラウドサーバ3に送信され、クラウドサーバ3に実装されている音声認識エンジン等で音声認識の処理が行われる。音声認識の結果得られたテキストデータは、ホワイトボード830に送られ、ホワイトボード830で字幕表示が行われる。また、当該テキストデータを利用して議事録として発話内容がまとめられる。なお、音声認識の処理により、会議、講演会、インタビューなどの発言を自動でテキスト化する技術、議事録作成する技術は、公知であるため、詳細な説明は省略する。
データ取得装置50は、テーブル810の周囲に存在する複数の会議出席者81~86の音声を取得する装置である。なお、データ取得装置50は、音声以外にも、複数の会議出席者81~86または会議出席者81~86の周囲の画像を取得するように構成される。
また、図2に示されているように、会議出席者81~86は、マスクやフェイスシールド等の被覆物を装着している。また、会議出席者の間の空間には、パーテーションが設置されている。これは、例えば、2020年に流行した新型コロナウイルスへの感染防止対策が図られた会議の一例であり、今後このような感染防止対策を図った会議利用は常態化していくものと考えられている。
このようなマスクの装着等が常態化したような利用シーンにおいて、従来の音声認識技術では認識精度の面で改善の余地がある。例えば、図2に示されているようなテーブルの中心に一つのマイクが設置されている場合、人の口元からマイクまでの距離が相対的に遠くなるため、S/N比の低い不明瞭な音声が入力されてしまう。これに対して、音声認識精度を優先して会議出席者のそれぞれにマイクを装着させる方法も考えられるが、わざわざ装着する煩わしさや、新型コロナウイルス等の影響による衛生面の観点から他人との共用を避ける傾向によって、音声認識精度を高める対策としては好ましくない。したがって、音声認識を会議で活用する場合の最もリーズナブルな手段は、テーブルにマイクを配置する方法であり、さらにその状況下で記録した音声データを音声認識エンジンの機械学習に大量投入することが認識精度を高める有効な手段であった。
そこで、音声認識システム1は、音声認識の性能に大きく影響するマスクの装着等が常態化した利用シーンに対応するべく、マスク装着等の新たな利用シーンに対応させた音声認識エンジンの機械学習に用いる教師データを生成する。音声認識システム1は、過去に収集した学習データと、収集した学習データを用いて変換した変換データとを効果的に利用することで、音声認識精度を向上させることができる。また、ユーザ(発話者)とマイクが所定の距離以上(例えば、1m以上)離れている環境での音声認識である、いわゆるFar-Field音声認識においても、マスクの装着等が常態化した状況に対応させた高い音声認識精度を実現することができる。
図3は、データ取得装置の外観図の一例を示す図である。図3は、データ取得装置50の外観と共に、データ取得装置50で撮像される会議室800の風景を示す。データ取得装置50は、筐体部40、音声検出部であるマイク400、撮像部であるカメラ410を備える。マイク400には、複数チャンネルの音声を取得可能なマルチマイクが利用される。カメラ410には、複数チャンネルの画像を取得可能なマルチカメラが利用される。マルチカメラは、例えば、それぞれの画角が90°以上の撮像部を複数組み合わせたものである。
筐体部40は、テーブル810に設置される円盤状の台座部510a、および台座部510aから鉛直方向に伸び複数のマイク400等をテーブル810から離れた位置に配置する柱状の延伸部510bを備える。また、筐体部40は、延伸部510bの上部に設けられ複数のマルチマイク、およびマルチカメラが配置される円盤状のユニット設置部510cを備える。なお、筐体部40の形状は、少なくとも1以上のカメラ410およびマイク400を設けることができる構造であればよく、図示例に限定されるものではない。
複数のマイク400のうち、一つのマイク400は、ユニット設置部510cの上部に設けられる。残りのマイク400は、ユニット設置部510cの上部以外の場所、例えば、ユニット設置部510cの側面部に設けられる。側面部は、ユニット設置部510cの外周部全体のうち、例えば、鉛直方向と直交する水平面に平行な仮想面を含む部分である。ユニット設置部510cの側面部には、周方向に互いに離れるようにして複数のマイク400が設置される。このように、データ取得装置50は、複数のマイク400が設置されることにより、複数の会議出席者81~86がテーブル810を囲むように存在する場合であっても、それぞれの会議出席者と向き合うように個々のマイク400が配置される形となる。そのため、データ取得装置50は、マイク400からそれぞれの会議出席者までの距離を短くでき、S/N比の高い音声を入力できる。
●ハードウエア構成
続いて、図4乃至図6を用いて、実施形態に係る音声認識システムを構成する装置または端末のハードウエア構成を説明する。なお、図4乃至図6に示されているハードウエア構成は、必要に応じて構成要素が追加または削除されてもよい。
○音声認識サーバのハードウエア構成○
まず、図4を用いて、音声認識サーバ10のハードウエア構成を説明する。図4は、音声認識サーバのハードウエア構成の一例を示す図である。音声認識サーバ10の各ハードウエア構成は、100番台の符号で示されている。音声認識サーバ10は、コンピュータによって構築されており、図4に示されているように、プロセッサ101、メモリ102、ネットワークI/F(Interface)103およびバスライン109を備えている。
プロセッサ101は、マイクロコンピュータ、GPU(General Purpose Graphics Processing Unit)、システムLSI(Large Scale Integration)等で構成される演算手段である。メモリ102は、RAM(Random Access Memory)、ROM(Read Only Memory)等で構成される記憶手段である。ネットワークI/F103は、通信ネットワーク5を利用してデータ通信をするためのインターフェースである。バスライン109は、図4に示されているプロセッサ101等の各構成要素を電気的に接続するためのアドレスバスまたはデータバス等である。
音声認識サーバ10は、例えば、プロセッサ101がメモリ102に記憶された仮想マシンソフトウェア(仮想化アプリケーション)をインストールすることによって、仮想マシンを稼働させる。仮想マシンソフトウェアは、ホストOS(Operating System)上で個別のハードウエアをエミュレーションすることで、個別のOSをインストールする。これにより、単一のシステム上で、複数の仮想マシンを互いに独立して実行することが可能になる。クラウド環境において、データ取得装置50からのデータを収集するソフトウエア(データ収集ソフト)、当該データを解析するソフトウェア(解析ソフト)等が構築される。この仮想化技術を利用することで、リソースの効率的な活用、ハードウエアの初期投資コストの抑制、省電力および省スペース等が実現できる。
○データ管理サーバのハードウエア構成○
図4は、データ管理サーバのハードウエア構成の一例を示す図である。データ管理サーバ30の各ハードウエア構成は、括弧内の300番台の符号で示されている。データ管理サーバ30は、コンピュータによって構築されており、図4に示されているように、音声認識サーバ10と同様の構成を備えているため、各ハードウエア構成の説明を省略する。
○データ取得装置のハードウエア構成○
図5(A)は、データ取得装置のハードウエア構成の一例を示す図である。データ取得装置50は、CPU501、ROM502、RAM503、通信I/F504、マイク400-1~400-n(nは1以上の整数)、カメラ410-1~410-n(nは1以上の整数)、およびバスライン509を備えている。
CPU501は、データ取得装置50全体の動作を制御する。CPU501は、ROM502に格納されたプログラム等の各種データをRAM503上に読み出し、処理を実行することで、データ取得装置50の各機能を実現する演算装置である。ROM502は、CPU501が実行するプログラム等の各種データを記憶する不揮発性のメモリである。RAM603は、CPU501のワークエリア(作業領域)として使用される揮発性のメモリである。通信I/F504は、例えば、外部機器の一例であるホワイトボード830または制御装置60に接続するためのインターフェースである。バスライン509は、図5(A)に示されているCPU501等の各構成要素を電気的に接続するためのアドレスバスまたはデータバス等である。
○音声出力装置のハードウエア構成○
図5(B)は、音声出力装置のハードウエア構成の一例を示す図である。音声出力装置70は、CPU701、ROM702、RAM703、通信I/F704、スピーカ705、およびバスライン709を備えている。
CPU701は、音声出力装置70全体の動作を制御する。CPU701は、ROM702に格納されたプログラム等の各種データをRAM703上に読み出し、処理を実行することで、音声出力装置70の各機能を実現する演算装置である。ROM702は、CPU701が実行するプログラム等の各種データを記憶する不揮発性のメモリである。RAM703は、CPU701のワークエリア(作業領域)として使用される揮発性のメモリである。通信I/F704は、例えば、外部機器の一例である制御装置60に接続するためのインターフェースである。スピーカ705は、CPU701の制御に従って音信号を出力する出力部の一種である。バスライン709は、図5(B)に示されているCPU701等の各構成要素を電気的に接続するためのアドレスバスまたはデータバス等である。
○制御装置のハードウエア構成○
図6は、制御装置のハードウエア構成の一例を示す図である。制御装置60の各ハードウエア構成は、600番台の符号で示されている。制御装置60は、コンピュータによって構築されており、図6に示されているように、CPU601、ROM602、RAM603、HD(Hard Disk)604、HDD(Hard Disk Drive)コントローラ605、ディスプレイ606、外部機器接続I/F608、ネットワークI/F609、バスライン610、キーボード611、ポインティングデバイス612、DVD-RW(Digital Versatile Disk Rewritable)ドライブ614、およびメディアI/F616を備えている。
CPU601は、制御装置60全体の動作を制御する。CPU601は、ROM602またはHD604等に格納されたプログラム等の各種データをRAM603上に読み出し、処理を実行することで、制御装置60の各機能を実現する演算装置である。ROM602は、CPU601が実行するプログラム等の各種データを記憶する不揮発性のメモリである。RAM603は、CPU601のワークエリア(作業領域)として使用される揮発性のメモリである。HD604は、プログラム等の各種データを記憶する。HDDコントローラ605は、CPU601の制御にしたがってHD604に対する各種データの読み出しまたは書き込みを制御する。ディスプレイ606は、カーソル、メニュー、ウィンドウ、文字、または画像等の各種情報を表示する。なお、ディスプレイ606は、入力手段を備えたタッチパネルディスプレイであってもよい。外部機器接続I/F608は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、データ取得装置50または音声出力装置70等である。ネットワークI/F609は、通信ネットワーク5を利用してデータ通信をするためのインターフェースである。バスライン610は、図6に示されているCPU601等の各構成要素を電気的に接続するためのアドレスバスまたはデータバス等である。
また、キーボード611は、文字、数値、各種指示等の入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス612は、各種指示の選択もしくは実行、処理対象の選択、またはカーソルの移動等を行う入力手段の一種である。なお、入力手段は、キーボード611およびポインティングデバイス612のみならず、タッチパネル等であってもよい。DVD-RWドライブ614は、着脱可能な記録媒体の一例としてのDVD-RW613に対する各種データの読み出しまたは書き込みを制御する。なお、着脱可能な記録媒体は、DVD-RWに限らず、DVD-RまたはBlu-ray(登録商標) Disc(ブルーレイディスク)等であってもよい。メディアI/F616は、フラッシュメモリ等の記録メディア115に対するデータの読み出しまたは書き込み(記憶)を制御する。
○通信端末のハードウエア構成○
図6は、通信端末のハードウエア構成の一例を示す図である。通信端末90の各ハードウエア構成は、括弧内の900番台の符号で示されている。通信端末90は、コンピュータによって構築されており、図6に示されているように、制御装置60と同様の構成を備えているため、各ハードウエア構成の説明を省略する。
なお、上記各プログラムは、インストール可能な形式または実行可能な形式のファイルで、コンピュータで読み取り可能な記録媒体に記録して流通させるようにしてもよい。記録媒体の例として、CD-R(Compact Disc Recordable)、DVD(Digital Versatile Disk)、Blu-ray Disc、SDカード、USBメモリ等が挙げられる。また、記録媒体は、プログラム製品(Program Product)として、国内または国外へ提供されることができる。例えば、クラウドサーバ3は、本発明に係るプログラムが実行されることで本発明に係る音声認識方法を実現する。
●機能構成
続いて、図7乃至図11を用いて、実施形態に係る音声認識システムの機能構成について説明する。図7は、音声認識サーバ、データ管理サーバおよび通信端末の機能構成の一例を示す図である。図11は、データ取得装置、制御装置および音声出力装置の機能構成の一例を示す図である。なお、図7乃至図11は、図1に示されている装置または端末のうち、後述の処理または動作に関連しているものを示す。
○音声認識サーバの機能構成○
まず、図7を用いて、音声認識サーバ10の機能構成について説明する。音声認識サーバ10は、送受信部11、音声認識エンジン12、読唇処理部13、統合部14、判定部15、音響特性変換部16およびデータ入出力部17を有している。これら各部は、図4に示されている各構成要素のいずれかが、メモリ102に記憶された音声認識サーバ用プログラムに従ったプロセッサ101からの命令によって動作することで実現される機能または手段である。
送受信部11は、主に、ネットワークI/F103に対するプロセッサ101の処理によって実現され、通信ネットワーク5を介して、他の装置または端末との間で各種データまたは情報の送受信を行う。
音声認識エンジン12は、音声特徴量抽出部12aおよび音声認識部12bを備える。読唇処理部13は、画像特徴量抽出部13aおよび機械読唇部13bを備える。
ここで、図8および図9を参照して、音声認識エンジン12、読唇処理部13および統合部14の動作を説明する。図8および図9は、音声認識エンジン、読唇処理部および統合部の動作の一例を説明するための図である。音声特徴量抽出部12aでは、データ取得装置50からの音声データの中から機械学習用の入力値としての特徴量である音声特徴量が抽出される。音声特徴量抽出部12aは、例えば、データ取得装置50で取得された複数の音声データを入力して、それぞれの音声データを単位時間ごと(フレームごと)に切り出して、例えば、MFCC(Mel-Frequency Cepstrum Coefficients:メル周波数ケプストラム係数)やメルケプストラム特徴量等のフレームごとの音声信号のスペクトル特徴量を計算し、これを正規化する。
音声認識部12bは、音声特徴量抽出部12aで抽出された特徴量を用いて機械学習を行うと共に音声を認識する。音声認識部12bは、音声の特徴量を識別する識別器である。音声認識部12bは、DNN(Deep Neural Network)を例示できる。DNNは、入力層、隠れ層と呼ばれる中間層、および出力層を有する。DNNは、中間層の数を増やして重層構造にする構成が採られる。DNNを用いて音声を認識するためには、DNNに対して、教師ラベルまたは訓練データと呼ばれる情報を利用して、教師あり学習を行うのが最も有効である。なお、DNNを実現するためには、高い演算能力が必要なため、DNNは、音声認識サーバ10で実現することが望ましいが、データ取得装置50が高い演算能力を有するGPUなどを搭載する場合、データ取得装置50で実現してもよい。また、音声認識部12bには、DNNのほか、例えば、SVM(Support Vector Machine)、SIFT(Scale-Invariant Feature Transform)等の手法を用いてもよい。
音声認識に用いるDNNは様々あり、近年頭角を現しているものとしてEndtoEndモデルがある。EndtoEndモデルとは、音響モデル、言語モデル、辞書等の複数の機能へ分割せずに、一つのニューラルネットワークを介して、入力された音声を文字に直接変換するモデルであり、一気通貫モデルとも称される。EndtoEndモデルは、構造がシンプルなため、実装が容易、応答速度が速いなどのメリットがある一方、大量の学習データを要する。また、音声認識の前段に、ノイズキャンセル等の音響的な処理を行うフロントエンドを実装することが多いが、フロントエンドでノイズキャンセル等を行わず、ノイズを含んだ音声をそのまま用いて音声認識を学習させる方が頑健な認識性能をもたらすことができる。同様に、マスク等を装着した状態で発声された音声をフロントエンドで明瞭に変換してから音声認識を行うよりも、マスクの装着でこもった音声をそのまま音声認識に学習させた方が有効である。
画像特徴量抽出部13aでは、例えば、データ取得装置50からの撮像データの中から機械学習用の入力値としての特徴量である画像特徴量を抽出する。機械読唇に用いる画像特徴量の例を図10に示す。
図10は、機械読唇に用いる画像特徴量の一例を説明するための図である。まず、画像特徴量抽出部13aは、カメラ410で撮影された画像全体の中から、例えば、会議出席者の顔を認識する。顔認識は、一般的なアルゴリズムを使用してもよい。次に、画像特徴量抽出部13aは、認識した顔の中から口唇を抽出する。そして、画像特徴量抽出部13aは、抽出した口唇の画像から、図10に示されているようにプロットされた複数の点のそれぞれの時系列な動きを、特徴量して抽出する。抽出される特徴量は、機械読唇を行うためにカメラ410で撮像された会議参加者の口元(口唇)の特徴量である。機械読唇部13bは、抽出された特徴量を用いて機械学習を行う。例えば、雑音が多い会議の場合、機械読唇部13bは、複数の会議出席者のそれぞれの口元の特徴量を利用して機械学習を行う。なお、特徴量の抽出方法は、公知であるため、詳細な説明は省略する。
統合部14は、音声認識部12bによる音声認識結果に、機械読唇部13bによる機械読唇の結果を融合させる。音声認識部12bによる音声認識結果だけでなく、発声時の口唇の動画像を用いる手法は、マルチモーダル音声認識と呼ばれる。マルチモーダル音声認識では、入力動画像を時系列の画像特徴量に変換し、この画像特徴量と音声特徴量とを融合させて音響画像特徴量を生成する。そして、この音響画像特徴量を用いることにより、音声認識を行う。マルチモーダル音声認識は、会議での音声認識精度を高める有益な手段である。
図7に戻り、判定部15は、プロセッサ101の処理によって実現され、再生収録に用いる録音データが、録音データが取得された録音環境に基づく所定の条件に該当するか否かを判定する。ここで、録音環境に基づく所定の条件は、例えば、録音データが取得された録音日時が所定の日時以前であるか否か、録音データが特定の音響特性を有するか否か、録音データに係る音声を発声したユーザの被覆物の装着の有無、または録音データに係る音声を発声したユーザの周囲における遮蔽物の設置の有無等である。また、特定の音響特性は、被覆物を装着したユーザから発声された音声または遮蔽物を介して取得された音声と同等または類似する音響特性である。また、被覆物は、例えば、ユーザが装着する家庭用もしくは医療用等のマスクまたはフェイスシールド(フェイスガード、マスクガードとも称される)等である。さらに、遮蔽物は、透明なアクリル板またはビニールカーテン等からなる飛沫防止のためのパーテーションである。
音響特性変換部16は、プロセッサ101の処理によって実現され、判定部15によって録音データが所定の条件に該当すると判定された場合、録音データの音響特性変換を行う。音響特性変換部16は、例えば、音声を発声したユーザが被覆物を装着している場合の音響特性、または音声を発声したユーザの周囲に遮蔽物が設置されている場合の音響特性に、録音データに係る音声を擬似的に変換する。
データ入出力部17は、主に、ネットワークI/F103に対するプロセッサ101の処理によって実現され、データ管理サーバ30との間でデータの入出力(送受信)を行う。
○データ管理サーバの機能構成○
次に、図7を用いて、データ管理サーバ30の機能構成について説明する。データ管理サーバ30は、送受信部31、再生収録制御部32、データ管理部33およびデータ入出力部34を有している。これら各部は、図4に示されている各構成要素のいずれかが、メモリ302に記憶されたデータ管理サーバ用プログラムに従ったプロセッサ301からの命令によって動作することで実現される機能または手段である。また、データ管理サーバ30は、図4に示されているメモリ302によって構築される記憶部3000を有している。記憶部3000は、音声認識エンジン12の機械学習に用いる教師データを記憶する。
送受信部31は、主に、ネットワークI/F303に対するプロセッサ301の処理によって実現され、通信ネットワーク5を介して、他の装置または端末との間で各種データまたは情報の送受信を行う。
再生収録制御部32は、主に、プロセッサ301の処理によって実現され、記憶された録音データを用いた再生収録を制御する。
データ管理部33は、主に、プロセッサ301の処理によって実現され、音声認識エンジン12の機械学習に用いる教師データを管理する。ここで、教師データは、音声認識サーバ10で処理された学習データ、音響特性変換部16による変換データ、および通信端末90によってアノテーション処理された処理データ(例えば、教師フラグ)等を含む。また、学習データは、音声認識サーバ10による処理前後の音声データ(録音データ)および画像データ(撮像データ)、並びに音声データからテキスト変換されたテキストデータ(文字列)を含む。
データ入出力部34は、主に、ネットワークI/F303に対するプロセッサ301の処理によって実現され、音声認識サーバ10との間で各種データの入出力(送受信)を行う。
○通信端末の機能構成○
次に、図7を用いて、通信端末90の機能構成について説明する。通信端末90は、送受信部91、受付部92、表示制御部93およびアノテーション処理部94を有している。これら各部は、図6に示されている各構成要素のいずれかが、HD904からRAM903上に展開された通信端末用プログラムに従ったCPU901からの命令によって動作することで実現される機能または手段である。
送受信部91は、主に、ネットワークI/F909に対するCPU901の処理によって実現され、通信ネットワーク5を介して、他の装置または端末との間で各種データまたは情報の送受信を行う。
受付部92は、主に、キーボード911またはポインティングデバイス912に対するCPU901の処理によって実現され、利用者(アノテータ)から各種の選択または入力を受け付ける。表示制御部93は、主に、CPU901の処理によって実現され、ディスプレイ906等の表示部に各種画面を表示させる。
アノテーション処理部94は、主に、CPU901の処理によって実現され、音声認識エンジン12の機械学習に使用されていない音声データのアノテーション処理を行う。
○データ取得装置の機能構成○
次に、図11を用いて、データ取得装置50の機能構成について説明する。データ取得装置50は、開始/終了制御部51、同期制御部52、記録制御部53および通信制御部54を有している。これら各部は、図5(A)に示されている各構成要素のいずれかが、ROM502からRAM503上に展開されたデータ取得装置用プログラムに従ったCPU501からの命令によって動作することで実現される機能または手段である。また、データ取得装置50は、図5(A)に示されているROM502によって構築される記憶部5000を有している。
開始/終了制御部51は、主に、CPU901の処理によって実現され、例えば、複数のマイク400-1~400-nによる録音開始および録音終了を制御すると共に、複数のカメラ410-1~410-nによる撮像開始および撮像終了を制御する。同期制御部52は、主に、CPU901の処理によって実現され、1または複数のマイク400で取得された複数の音声データを同期させる制御を行うと共に、1または複数のカメラ410で撮像された1または複数の撮像データを同期させる制御を行う。
記録制御部53は、主に、CPU501の処理によって実現され、マイク400とカメラ410で取得した音声データおよび撮像データの記憶部5000への記録制御を行う。通信制御部54は、主に、通信I/F504に対するCPU501の処理によって実現され、ホワイトボード830または制御装置60等の外部機器との通信制御を行う。通信制御は、例えば、同期制御部52で制御された複数の音声データおよび撮像データを、ホワイトボード830または制御装置60を介して、クラウドサーバ3へ送信する制御である。
○制御装置の機能構成○
次に、図11を用いて、制御装置60の機能構成について説明する。制御装置60は、送受信部61、録音制御部62および再生制御部63を有している。これら各部は、図6に示されている各構成要素のいずれかが、HD604からRAM603上に展開された制御装置用プログラムに従ったCPU601からの命令によって動作することで実現される機能または手段である。
送受信部61は、主に、ネットワークI/F609に対するCPU601の処理によって実現され、通信ネットワーク5を介して、他の装置または端末との間で各種データまたは情報の送受信を行う。
録音制御部62は、主に、外部機器接続I/F608に対するCPU601の処理によって実現され、データ取得装置50における録音および録画等のデータ取得処理を制御する。再生制御部63は、主に、外部機器接続I/F608に対するCPU601の処理によって実現され、音声出力装置70における録音データの再生処理を制御する。
○音声出力装置の機能構成○
次に、図11を用いて、音声出力装置70の機能構成について説明する。音声出力装置70は、再生データ取得部71および再生処理部72を有している。これら各部は、図5(B)に示されている各構成要素のいずれかが、ROM702からRAM703上に展開された音声出力装置用プログラムに従ったCPU701からの命令によって動作することで実現される機能または手段である。
再生データ取得部71は、主に、通信I/F704に対するCPU701の処理によって実現され、再生収録の対象となる再生データ(録音データ)を取得する。再生処理部72は、主に、CPU701の処理によって実現され、再生データ取得部71によって取得された再生データ(録音データ)に係る音声の再生処理を行う。
●実施形態の処理または動作
○教師データの生成処理○
続いて、図12乃至図18を用いて、実施形態に係る音声認識システムの処理または動作について説明する。まず、図12乃至図16を用いて、過去に収録した録音データの再生収録を用いて、マスク装着等が常態化した新たな利用シーンに対応させた教師データを生成する処理について説明する。図12および図13は、音声認識エンジンの機械学習に用いる教師データの生成処理の一例を示すシーケンス図である。図12および図13は、将来常態化することが想定されるユーザがマスク等の被覆物を装着した会議等の新たな利用シーンにおける音声認識精度を向上させるため、教師データの質および量を向上させるための処理を示す。
まず、データ管理サーバ30の送受信部31は、制御装置60に対して、録音データの再生収録を要求する旨を示す再生収録要求を送信する(ステップS11)。具体的には、データ管理サーバ30の再生収録制御部32は、記憶部3000に記憶された録音データの再生収録要求を受け付ける。そして、送受信部31は、再生収録制御部32によって受け付けられた再生収録要求を、制御装置60に対して送信する。この再生収録要求は、記憶部5000に記憶された録音データのうち、再生収録の対象となる録音データを含む。これにより、制御装置60の送受信部61は、データ管理サーバ30から送信された再生収録要求を受信する。
また、データ管理サーバ30のデータ入出力部34は、音声認識サーバ10に対して、録音データの再生収録を開始する旨を示す再生収録開始通知を送信する(ステップS12)。この再生収録開始通知は、記憶部5000に記憶された教師データのうち、再生収録の対象となる録音データおよび録音データに同期された撮像データを含む。これにより、音声認識サーバ10のデータ入出力部17は、データ管理サーバ30から送信された再生収録開始通知を受信する。
次に、制御装置60の再生制御部63は、音声出力装置70に対して、録音データの再生開始を要求する旨を示す再生開始要求を送信する(ステップS13)。この再生開始要求は、ステップS11で受信された録音データを含む。これにより、音声出力装置70の再生データ取得部71は、制御装置60から送信された再生開始要求を受信する。また、制御装置60の録音制御部62は、データ取得装置50に対して、データ取得の開始を要求する旨を示すデータ取得開始要求を送信する(ステップS14)。これにより、データ取得装置50の通信制御部54は、制御装置60から送信されたデータ取得開始要求を受信する。
音声出力装置70の再生処理部72は、ステップS13で受信された録音データに係る音声の再生処理を実行する(ステップS15)。また、データ取得装置50の開始/終了制御部51は、ステップS14で受信されたデータ取得開始要求に応じて、マイク400による録音とカメラ410による録画を開始する(ステップS16)。そして、同期制御部52は、複数のマイク400で収音された音声データ、および複数のカメラ410で撮像された撮像データを同期させる処理を行う(ステップS17)。
マイク400の配置位置と向きや、会議出席者からそれぞれのマイク400までの距離によって、特定の人から発せられた声が、会議室800の壁に反射してからマイク400に届く場合と直接マイク400に届く場合があり、マイク400への音声の残響に差が生じることである。この場合、同一の人が発した音声であっても、所定のマイク400で取得される特徴点の波形(音圧レベル)は、他のマイク400で取得される音声の当該特徴点の波形(音圧レベル)と異なることもある。そのため、同期制御部52は、波形が相違する複数の音声データの取得のタイミングを一致させることで、特定の特徴点のタイミングを各マイクで相互に合わせる。この結果、音声の特徴点が抽出されたタイミングを合わせて音声認識サーバ10に入力することができ、音声認識の精度を効率的に向上させることができる。また、同期制御部52は、同様の方法で、音声データとともに、カメラ410で撮像された撮像データの同期処理を行う。これにより、音声認識システム1は、音声認識と画像認識における機械学習の教師ラベルを共通化でき、低コストで効率的に音声認識と画像認識の機械学習を進めることができる。
データ取得装置50の通信制御部54は、制御装置60に対して、ステップS16およびステップS17で取得された音声データおよび撮像データを送信する(ステップS18)。これにより、制御装置60の録音制御部62は、データ取得装置50から送信された音声データおよび撮像データを受信する。そして、制御装置60の送受信部61は、音声認識サーバ10に対して、ステップS18で受信された音声データおよび撮像データを送信する(ステップS19)。これにより、音声認識サーバ10の送受信部11は、制御装置60から送信された音声データおよび撮像データを受信する。
なお、ステップS11における再生収録要求は、データ管理サーバ30から送信される例を示したが、制御装置60に対する所定の入力操作によって受け付けられる構成であってもよい。ステップS18およびステップS19で送受信されるデータは、データ取得装置50によって取得された音声データのみであってもよい。
次に、図13において、音声認識サーバ10は、ステップS19で受信された音声データの音声認識処理を実行する(ステップS20)。この音声認識処理は、図7乃至図9において説明した処理と同様である。なお、ステップS20の処理は、再生収録であるため、読唇処理部13による処理は不要である。
次に、音声認識サーバ10は、ステップS20で音声認識処理が施された音声データの音響特性変換処理を実行する(ステップS21)。ここで、図14を用いて、音声認識サーバ10における音響特性変換処理の詳細を説明する。図14は、音声認識サーバにおける音響特性変換処理の一例を示すフローチャートである。
まず、判定部15は、ステップS12で受信された再生収録の対象である録音データの録音日時が所定の日時以前であるか否かを判定する(ステップS211)。ここで、判定部15は、例えば、新型コロナウイルスが流行した2020年を所定の日時として、録音日時が2020年以前である否かを判定する。これは、2020年以降の会議等の場では、新型コロナウイルスの流行によって音声を発声したユーザがマスクやフェイスシールド等の被覆物を装着している可能性が高いためである。なお、判定部15の判定条件として用いられる所定の日時は、これに限られず、会議等の開催方法等に応じて適宜変更することができる。
判定部15は、録音日時が所定の日時以前であると判定した場合(ステップS211のYES)、処理をステップS215へ移行させる。一方で、判定部15は、録音日時が所定の日時以前でないと判定した場合(ステップS211のNO)、処理をステップS212へ移行させる。
次に、判定部15は、録音データに係る音声を発声したユーザ(例えば、図2に示されている会議出席者)がマスクを装着しているか否かを判定する(ステップS212)。具体的には、判定部15は、例えば、録音データに同期された撮像データを用いた顔認識によって、撮像データに写っているユーザがマスクを装着しているか否かを判定する。また、判定部15は、例えば、録音データがマスクを装着したユーザから発声された音声と同等または類似する特定の音響特性を有するか否かを判定する。
判定部15は、ユーザがマスクを装着していると判定した場合(ステップS212のYES)、音響特性変換が不要であるため、処理を終了する。一方で、判定部15は、ユーザがマスクを装着していないと判定した場合(ステップS212のNO)、処理をステップS213へ移行させる。
次に、判定部15は、録音データに係る音声を発声したユーザ(例えば、図2に示されている会議出席者)がフェイスシールドを装着しているか否かを判定する(ステップS213)。具体的には、具体的には、判定部15は、例えば、録音データに同期された撮像データを用いた顔認識によって、撮像データに写っているユーザがフェイスシールドを装着しているか否かを判定する。また、判定部15は、例えば、録音データがフェイスシールドを装着したユーザから発声された音声と同等または類似する特定の音響特性を有するか否かを判定する。
判定部15は、ユーザがフェイスシールドを装着していると判定した場合(ステップS213のYES)、音響特性変換が不要であるため、処理を終了する。一方で、判定部15は、ユーザがフェイスシールドを装着していないと判定した場合(ステップS213のNO)、処理をステップS214へ移行させる。
次に、判定部15は、録音データに係る音声を発声したユーザ(例えば、図2に示されている会議出席者)の周囲におけるパーテーションの設置の有無を判定する(ステップS214)。具体的には、判定部15は、例えば、録音データに同期された撮像データを用いた顔認識によって、撮像データに写っているユーザの周囲におけるパーテーションの設置の有無を判定する。また、判定部15は、例えば、録音データがパーテーションを介して取得された音声と同等または類似する音響特性を有するか否かを判定する。
判定部15は、ユーザの周囲にパーテーションが設置されていると判定した場合(ステップS214のYES)、音響特性変換が不要であるため、処理を終了する。一方で、判定部15は、ユーザの周囲にパーテーションが設置されていないと判定した場合(ステップS214のNO)、処理をステップS215へ移行させる。なお、上述のステップS212~S214における撮像データを用いた判定は、顔認識をベースにした画像判定を行えばよいため、音声認識よりも比較的容易である。また、上述のステップS211~S214における判定部15における処理は、録音データが取得された録音環境に基づく所定の条件を用いた判定処理の一例である。さらに、上述のステップS212~S214における録音データを用いた判定は、例えば、DNNを用いて、音声の周波数特性等の特徴量から所定の条件に該当するかを判定することで、高精度な判定を行うことができる。
そして、音響特性変換部16は、ステップS20で音声認識処理が施された音声データの音響特性変換処理を実行する(ステップS215)。具体的には、音響特性変換部16は、特定の音響特性に擬似変換する。ここで、特定の音響特性への擬似変換は、例えば、マスクまたはフェイスシールド等の被覆物を装着したユーザから発声された音声と同等または類似する音響特性への擬似変換、またはパーテーション等の遮蔽物を介して取得された音声と同等または類似する音響特性への擬似変換である。
音響特性の擬似変換には多くのアプローチがあり、最も簡便な手法は、ローパスフィルタのようなフィルタ処理である。図15は、音響特性変換の一例であるマスク装着風の擬似変換結果の一例を示す図である。図15(A)は、ユーザ(発話者)とマイクが所定の距離以上(例えば、1m以上)離れているようなFar-Field音声認識において、ユーザがマスクを装着していない(ノーマスク)状況を想定した擬似変換結果を示す。一方で、図15(B)は、Far-Field音声認識において、ユーザがマスクを装着している状況を想定した擬似変換結果を示す。なお、音響特性の擬似変換は、ローパスフィルタによるフィルタ処理のほか、DNNを構築し、ユーザがマスクを装着しているような音声に変換するアプローチもある。
このように、音声認識サーバ10は、マスク装着の常態化等の録音環境の新たな利用シーンに対応した所定の条件に該当するか否かを自動判定し、判定結果に基づいて音響特性の擬似変換を行うことで、音声認識エンジン12の機械学習に用いる教師データを、マスク等の被覆物の装着が常態化したような新たな利用シーンに対応させることができる。
図13に戻り、音声認識サーバ10のデータ入出力部17は、データ管理サーバ30に対して、ステップS19で受信された音声データおよび撮像データを含む学習データ、ステップS21で変換された変換データ、およびステップS21における変換種別を示す変換種別フラグを送信する(ステップS22)、このうち、変換種別フラグは、ステップS215における擬似変換の内容を識別するための情報である。これにより、データ管理サーバ30データ入出力部34は、音声認識サーバ10から送信された学習データ、変換データおよび変換種別フラグを受信する。
次に、データ管理サーバ30の送受信部31は、通信端末90に対して、ステップS22で受信された学習データを送信する(ステップS23)。これにより、通信端末90の送受信部91は、データ管理サーバ30から送信された学習データを受信する。
次に、通信端末90のアノテーション処理部94は、ステップS23で受信された学習データを用いたアノテーション処理を実行する(ステップS24)、具体的には、アノテーション処理部94は、通信端末90を使用するアノテータの入力に応じて、受信された学習データのテキスト(文字列)への書き起こし、タイムスタンプ処理および後述する教師ラベルの生成処理を行う。
通信端末90の送受信部91は、データ管理サーバ30に対して、ステップS24でアノテーション処理された処理データを送信する(ステップS25)。これにより、データ管理サーバ30の送受信部31は、通信端末90から送信された処理データを受信する。そして、データ管理サーバ30のデータ管理部33は、ステップS25で受信された処理データ、およびステップS22で受信された各種データを含む教師データを、記憶部3000に記憶させる(ステップS26)。
ここで、図16を用いて、データ管理サーバ30に記憶される教師データに付与された教師ラベルについて説明する。図16は、教師データに付与された教師ラベルの一例を示す概念図である。図16に示されている教師ラベルは、ステップS24でのアノテーション処理によって処理されたアノテーション済のデータである。
教師ラベルは、例えば、「発話No」が「0001」の「あらゆる現実をすべて自分のほうへねじ曲げたのだ。」という発話内容(ラベル)である。図16には、これ以外にも、複数の教師ラベルの例が示される。「カメラID」は、複数のカメラ410のそれぞれを識別する番号である。「話者ID」は、発話する人と個別に特定する番号である。その他、「性別ID」、発話が開始された時間を表す「開始時間」、発話が終了した時間を表す「終了時間」等が対応付けられている。
また、「種別ID」は、音声の種別を識別する番号である。種別IDは、例えば、マスクが装着されていない場合の音声、および実際にマスクが装着された場合の音声を識別する。例えば、マスクが装着されていない場合の音声には「0」、実際にマスクが装着された場合の音声の場合には「1」が付与される。また、種別IDは、異なる番号を不要することで、マスク装着のほか、フェイスシールド等の他の被覆物の装着やパーテーション等の遮蔽物の設置等を識別することもできる。
さらに、「種別ID」は、マスクが装着されていない場合の音声に対して行われた擬似変換の変換種別を識別する。例えば、マスク装着に対応する音響特性への擬似変換が行われた音声には「11」、フェイスシールドの装着に対応する音響特性への擬似変換が行われた音声には「12」、遮蔽物の設置に対応する音響特性への擬似変換が行われた音声には「13」が付与される。
なお、教師ラベルは、音声データを聴いて人手で書き起こしやタイムスタンプを行い、それを学習に用いる方法、または既存の音声認識エンジン12から出力されたテキスト(音声認識の出力)のうち、確信度の高い出力結果を教師ラベルとして抽出する方法や出力されたテキストを事前学習(Pre-Training)データとして用いる方法などがある。前者の人手によって全ての教師ラベルを作成し、機械学習を行う方法は教師あり学習と称され、後者の人手を介さず、確信度の高い出力結果を教師ラベルとして利用する方法は半教師あり学習と称される。音声認識システム1において、半教師あり学習を行う場合、複数のマイク400で取得した音声データによる認識結果がいずれも同じ内容だった場合、確信度が高いと見なし、それを教師ラベルとして用いることが考えられる。過去に用いた学習データは、アノテーション済で、教師データとして用いることができるものである。
このように、音声認識システム1は、マスク等の被覆物の装着が常態化した新たな利用シーンに対応する音響特性の擬似変換およびアノテーション処理が行われた学習データを、教師データとしてクラウドサーバ3に記憶し、蓄積させた教師データを音声認識エンジン12の機械学習に用いることで、教師データを用いた音声認識精度を向上させることができる。
○被覆物付き音声出力装置を用いた再生収録の例○
続いて、図17および図18を用いて、音声の出力部にマスク等の被覆物を装着させた音声出力装置70を用いて再生収録を行う場合の例を説明する。図17は、被覆物付き音声出力装置の一例を示す図である。
図17(A)は、ダミーヘッド790にマスク750を装着させ、マスク750の内側に音声の出力部であるスピーカ705が設けられた音声出力装置70である。図17(A)に示されている音声出力装置70は、スピーカ705をマスク750で覆うように設けており、マスク750に覆われたスピーカ705から録音データの再生を行うことで、マスクを装着している場合の音声を収録させることができる。一方で、図17(B)は、ダミーヘッド790にフェイスシールド760(フェイスガード、マスクガードとも称する)を装着させ、フェイスシールド760の内側に音声の出力部であるスピーカ705が設けられた音声出力装置70である。図17(B)に示されている音声出力装置70は、スピーカ705をフェイスシールド760で覆うように設けており、フェイスシールド760に覆われたスピーカ705から録音データの再生を行うことで、フェイスシールドを装着している場合の音声を収録させることができる。
また、図18に示されているように、録音データの再生収録の際に、データ取得装置50と音声出力装置70の設置位置を所定の距離(例えば、1m以上)離して設置することで、録音データをFar-Field音声認識に適した音声データに変換することができる。さらに、データ取得装置50の設置位置と音声出力装置70の設置位置の間の空間に、空間を部分的に遮蔽するパーテーション850等の遮蔽物を設置することで、例えば、新型コロナウイルスへの感染防止対策が図られた会議の場をより忠実に再現することができる。パーテーション850は、例えば、飛沫防止のために設置された透明のアクリル板やビニールカーテン等である。
このように、音声認識システム1は、図17に示されているような音声出力装置70および図18に示されているようなパーテーション850を設置した収録環境による再生収録を行うことで、実際に会議等が行われた録音環境をより想定した再生収録を行うことができる。図17および図18に示すような収録環境での再生収録処理の流れは、図12および図13に示されている処理と同様である。なお、この場合、被覆物を装着した場合の音声または遮蔽物が設置された場合の音声を取得可能であるため、ステップS21の音響特性変換処理は不要である。
●実施形態の効果
以上説明したように、音声認識システム1は、音声認識の性能に大きく影響するマスクの装着等が常態化した新たな利用シーンに対応するべく、過去に収集した学習データと、収集した学習データを用いて音響特性変換された変換データとを音声認識エンジン12の機械学習に利用することで、音声認識精度を向上させることができる。また、ユーザとマイクが所定の距離以上離れているようなFar-Field音声認識においても、マスクの装着等が常態化した状況に対応させた高い音声認識精度を実現することができる。
●まとめ●
以上説明したように、本発明の一実施形態に係る音声認識システムは、ユーザが発声した音声に対して音声認識エンジン12を用いた音声認識処理を行う音声認識システム1であって、ユーザが発声した音声の録音データを記憶する記憶部3000(記憶手段の一例)と、記憶された録音データが、当該録音データが取得された録音環境に基づく所定の条件に該当する場合、当該録音データの音響特性変換を行う音響特性変換部16(音響特性変換手段の一例)と、を備え、音響特性変換部16によって変換された変換データを音声認識エンジン12の機械学習に用いる。これにより、音声認識システム1は、ユーザが発声した音声の録音環境に応じた教師データを生成することで、音声認識精度を向上させることができる。
また、本発明の一実施形態に係る音声認識システムにおいて、音響特性変換部16(音響特性変換手段の一例)は、音声を発声したユーザが被覆物(例えば、マスクまたはフェイスシールド)を装着している場合の音響特性、または音声を発声したユーザの周囲に遮蔽物(例えば、アクリル板またはビニールカーテン等のパーテーション)が設置されている場合の音響特性に擬似的に変換する。これにより、音声認識システム1は、記憶された録音データを用いて特定の音響特性への擬似変換を行った変換データを機械学習の教師データとして利用することで、例えば、マスク装着等が常態化した新たな利用シーンにおける音声認識精度を向上させることができる。
さらに、本発明の一実施形態に係る音声認識システムは、記憶された録音データが所定の条件に該当するか否かを判定する判定部15(判定手段の一例)を備え、判定部15によって所定の条件に該当すると判定された場合、音響特性変換部16(音響特性変換手段の一例)は、当該録音データの音響特性変換を行う。これにより、音声認識システム1は、記憶された録音データと録音データから音響特性変換された変換データとを機械学習に効果的に利用することで、例えば、マスク装着等が常態化した新たな利用シーンにおける音声認識精度を向上させることができる。
所定の条件は、当該録音データの録音日時であり、判定部15によって録音日時が所定の日時以前であると判定された場合、音響特性変換部16は、当該録音データの音響特性変換を行う。また、所定の条件は、特定の音響特性であり、判定部15によって録音データが特定の音響特性を有しないと判定された場合、音響特性変換部16は、当該録音データの音響特性変換を行う。さらに、所定の条件は、ユーザの被覆物(例えば、マスクまたはフェイスシールド)の装着の有無であり、記憶部3000(記憶手段の一例)は、録音データに同期されたユーザの撮像データを、当該録音データに関連づけて記憶し、判定部15は、撮像データを用いて被覆物の装着の有無を判定し、判定部15によって被覆物を装着していないと判定された場合、音響特性変換部16は、当該録音データの音響特性変換を行う。また、所定の条件は、ユーザの周囲における遮蔽物(例えば、アクリル板またはビニールカーテン等のパーテーション)の設置の有無であり、記憶部3000は、録音データに同期されたユーザの周囲の撮像データを、当該録音データに関連づけて記憶し、判定部15は、撮像データを用いて遮蔽物の設置の有無を判定し、判定部15によって遮蔽物が設置されていないと判定された場合、音響特性変換部16は、当該録音データの音響特性変換を行う。
また、本発明の一実施形態に係る音声認識システムは、記憶された録音データに係る音声を出力する音声出力装置70と、音声出力装置70によって出力された音声データを取得するデータ取得装置50と、を備え、音響特性変換部16(音響特性変換手段の一例)は、データ取得装置50によって取得された音声データが所定の条件に該当する場合、当該音声データの音響特性変換を行う。また、音声出力装置70は、音声を出力するスピーカ705(出力部の一例)を覆う被覆物(例えば、マスク750またはフェイスシールド760)を備え、データ取得装置50によって取得された音声データを音声認識エンジン12の機械学習に用いる。さらに、音声出力装置70の設置位置とデータ取得装置50の設置位置の間の空間に、当該空間を部分的に遮蔽する遮蔽物(例えば、アクリル板またはビニールカーテン等のパーテーション850)が設置されている。これにより、音声認識システム1は、マスク装着等が常態化した実際に会議等が行われた録音環境をより想定した再生収録を行うことができる。
●補足●
上記で説明した実施形態の各機能は、一または複数の処理回路によって実現することが可能である。ここで、本実施形態における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウエアによって各機能を実行するようプログラミングされたプロセッサ、並びに上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)、SOC(System on a chip)、GPU(Graphics Processing Unit)および従来の回路モジュール等のデバイスを含むものとする。
また、上記で説明した実施形態の各種テーブルは、機械学習の学習効果によって生成されたものでもよく、関連づけられている各項目のデータを機械学習にて分類付けすることで、テーブルを使用しなくてもよい。ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり,コンピュータが,データ識別等の判断に必要なアルゴリズムを、事前に取り込まれる学習データから自律的に生成し,新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習および深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。
これまで本発明の一実施形態に係る音声認識システム、音声認識方法およびプログラムについて説明してきたが、本発明は上述した実施形態に限定されるものではなく、他の実施形態の追加、変更または削除等、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。
1 音声認識システム
3 クラウドサーバ
5 通信ネットワーク
10 音声認識サーバ
11 送受信部
12 音声認識エンジン
13 読唇処理部
14 統合部
15 判定部(判定手段の一例)
16 音響特性変換部(音響特性変換手段の一例)
17 データ入出力部
30 データ管理サーバ
31 送受信部
33 データ管理部
34 データ入出力部
50 データ取得装置
60 制御装置
70 音声出力装置
81~85 会議出席者(ユーザの一例)
705 スピーカ(出力部の一例)
750 マスク(被覆物の一例)
760 フェイスシールド(被覆物の一例)
850 パーテーション(遮蔽物の一例)
3000 記憶部(記憶手段の一例)
特許5797009号公報 特開平5-199578号公報

Claims (14)

  1. ユーザが発声した音声に対して音声認識エンジンを用いた音声認識処理を行う音声認識システムであって、
    前記音声の録音データが、当該録音データが取得された録音環境に基づく所定の条件に該当する場合、当該録音データの音響特性変換を行う音響特性変換手段と、を備え、
    前記音響特性変換手段によって変換された変換データを前記音声認識エンジンの機械学習に用いる音声認識システム。
  2. 前記音響特性変換手段は、前記音声を発声したユーザが被覆物を装着している場合の音響特性、または前記音声を発声したユーザの周囲に遮蔽物が設置されている場合の音響特性に擬似的に変換する請求項1に記載の音声認識システム。
  3. 請求項1または2に記載の音声認識システムであって、更に、
    前記録音データが前記所定の条件に該当するか否かを判定する判定手段を備え、
    前記判定手段によって前記所定の条件に該当すると判定された場合、前記音響特性変換手段は、当該録音データの音響特性変換を行う音声認識システム。
  4. 前記所定の条件は、当該録音データの録音日時であり、
    前記判定手段によって前記録音日時が所定の日時以前であると判定された場合、前記音響特性変換手段は、当該録音データの音響特性変換を行う請求項3に記載の音声認識システム。
  5. 前記所定の条件は、特定の音響特性であり、
    前記判定手段によって前記録音データが前記特定の音響特性を有しないと判定された場合、前記音響特性変換手段は、当該録音データの音響特性変換を行う請求項3または4に記載の音声認識システム。
  6. 前記所定の条件は、前記ユーザの被覆物の装着の有無であり、
    前記判定手段は、前記録音データに同期された前記ユーザの撮像データを用いて前記被覆物の装着の有無を判定し、
    前記判定手段によって前記被覆物を装着していないと判定された場合、前記音響特性変換手段は、当該録音データの音響特性変換を行う請求項3乃至5のいずれか一項に記載の音声認識システム。
  7. 前記所定の条件は、前記ユーザの周囲における遮蔽物の設置の有無であり、
    前記判定手段は、前記録音データに同期された前記ユーザの周囲の撮像データを用いて前記遮蔽物の設置の有無を判定し、
    前記判定手段によって前記遮蔽物が設置されていないと判定された場合、前記音響特性変換手段は、当該録音データの音響特性変換を行う請求項3乃至5のいずれか一項に記載の音声認識システム。
  8. 請求項1乃至7のいずれか一項に記載の音声認識システムであって、
    前記録音データに係る音声を出力する音声出力装置と、
    前記音声出力装置によって出力された音声データを取得するデータ取得装置と、を備え、
    前記音響特性変換手段は、前記データ取得装置によって取得された音声データが前記所定の条件に該当する場合、当該音声データの音響特性変換を行う音声認識システム。
  9. 請求項8に記載の音声認識システムであって、
    前記音声出力装置は、更に、前記音声を出力する出力部を覆う被覆物を備え、
    前記データ取得装置によって取得された音声データを前記音声認識エンジンの機械学習に用いる音声認識システム。
  10. 前記被覆物は、マスクまたはフェイスシールドである請求項9に記載の音声認識システム。
  11. 前記音声出力装置の設置位置と前記データ取得装置の設置位置の間の空間に、当該空間を部分的に遮蔽する遮蔽物が設置されている請求項8乃至10のいずれか一項に記載の音声認識システム。
  12. 請求項1乃至11のいずれか一項に記載の音声認識システムであって、更に、
    前記録音データを記憶する記憶手段を備え、
    前記音響特性変換手段は、記憶された前記録音データの音響特性変換を行う音声認識システム。
  13. ユーザが発声した音声に対して音声認識エンジンを用いた音声認識処理を行う音声認識システムが実行する音声認識方法であって、
    前記音声認識システムは、
    前記音声の録音データが、当該録音データが取得された録音環境に基づく所定の条件に該当する場合、当該録音データの音響特性変換を行う音響特性変換ステップを実行し、
    前記音響特性変換ステップによって変換された変換データを前記音声認識エンジンの機械学習に用いる音声認識方法。
  14. コンピュータに、請求項13に記載の音声認識方法を実行させるプログラム。
JP2021003947A 2021-01-14 2021-01-14 音声認識システム、音声認識方法およびプログラム Pending JP2022108803A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021003947A JP2022108803A (ja) 2021-01-14 2021-01-14 音声認識システム、音声認識方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021003947A JP2022108803A (ja) 2021-01-14 2021-01-14 音声認識システム、音声認識方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2022108803A true JP2022108803A (ja) 2022-07-27

Family

ID=82556899

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021003947A Pending JP2022108803A (ja) 2021-01-14 2021-01-14 音声認識システム、音声認識方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2022108803A (ja)

Similar Documents

Publication Publication Date Title
Czyzewski et al. An audio-visual corpus for multimodal automatic speech recognition
CN110460872B (zh) 视频直播的信息显示方法、装置、设备和存储介质
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
TW201926079A (zh) 雙向語音翻譯系統、雙向語音翻譯方法和電腦程式產品
KR20070118038A (ko) 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램
CN110517689A (zh) 一种语音数据处理方法、装置及存储介质
US20140241702A1 (en) Dynamic audio perspective change during video playback
Gillick et al. Robust Laughter Detection in Noisy Environments.
JP5917270B2 (ja) 音検出装置及びその制御方法、プログラム
Tao et al. Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection.
Gao et al. Wearable audio monitoring: Content-based processing methodology and implementation
JP6314837B2 (ja) 記憶制御装置、再生制御装置および記録媒体
JP7266390B2 (ja) 行動識別方法、行動識別装置、行動識別プログラム、機械学習方法、機械学習装置及び機械学習プログラム
CN111462732B (zh) 语音识别方法和装置
US10347299B2 (en) Method to automate media stream curation utilizing speech and non-speech audio cue analysis
JP7400364B2 (ja) 音声認識システム及び情報処理方法
Ronzhin et al. Speaker turn detection based on multimodal situation analysis
JP2017064853A (ja) ロボット、コンテンツ決定装置、コンテンツ決定方法、及びプログラム
JP2022108803A (ja) 音声認識システム、音声認識方法およびプログラム
WO2013008869A1 (ja) 電子機器及びデータ生成方法
JP2022142374A (ja) 音声認識システム、音声認識方法およびプログラム
CN112466306A (zh) 会议纪要生成方法、装置、计算机设备及存储介质
WO2020200081A1 (zh) 一种直播控制方法、装置、直播设备及存储介质
US20230267942A1 (en) Audio-visual hearing aid
CN113823300B (zh) 语音处理方法及装置、存储介质、电子设备

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20231020

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231114