JP2021039293A

JP2021039293A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2021039293A
Application number: JP2019161765A
Authority: JP
Inventors: 和博荒井; Kazuhiro Arai; 浩和政瀧; Hirokazu Masataki
Original assignee: NTT TechnoCross Corp
Current assignee: NTT TechnoCross Corp
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2021-03-11
Anticipated expiration: 2039-09-05
Also published as: JP7010905B2

Abstract

【課題】音響モデルの学習データとして、元の音声データが表す情報を復元できないように細分化したデータを作成すること。【解決手段】情報処理装置が、入力された音声データから、特徴量の時系列データを抽出する抽出手段と、前記抽出手段により抽出された時系列データから、所定の時間幅毎に特徴量を切り出すことで複数の部分時系列データを作成する部分時系列作成手段と、前記部分時系列作成手段により作成された複数の部分時系列データのそれぞれをランダムに接続して、音響モデルの学習に用いられる学習データを作成する学習データ作成手段と、を有することを特徴とする。【選択図】図１

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

人間の声等をコンピュータに認識させる技術として、音声認識が従来から知られている。音声認識では、音響モデル、認識辞書及び言語モデルと呼ばれる３つのモデルを用いて、入力された音声の認識が行われる（例えば、非特許文献１参照）。音響モデルとは音素と声の特徴とを対応付けたモデルであり、音素の音響的な特徴を構造化し、確率値として表現したものである。

音響モデルの性能は、その学習に用いられる音声データの質と量とに依存する。このため、音響モデルの学習には、十分な品質の音声データを大量に準備（例えば、合計再生時間が１０００時間を超える分量の音声データを準備）する必要がある。

政瀧浩和，柴田大輔，中澤裕一，小橋川哲，小川厚徳，大附克年，"顧客との自然な会話を聞き取る自由発話音声認識技術「VoiceRex」"，NTT技術ジャーナル 2006年 Vol.18 No.11

しかしながら、音声データには個人情報や機密情報等が含まれる場合があるため、大量の音声データの入手が困難なことがある。例えば、音声認識を利用したサービスを提供するサービス提供者と音声データの所有者とが異なる者である場合には、サービス提供者は、個人情報や機密情報等が含まれる可能性がある音声データの提供を所有者から受けることは一般に困難である。

このため、例えば、個人情報や機密情報等が含まれないことが確認された比較的少量の音声データ（例えば、合計再生時間が数時間〜数十時間程度の分量の音声データ）で音響モデルを学習することになり、音響モデルの性能が十分でない場合があった。

一方で、各音声データの再生時間が非常に短い時間（例えば、数百ミリ秒以下）であっても、音声データが大量にあれば、音響モデルは十分な性能を獲得可能であることが知られている。このため、音響モデルの学習には、個人情報や機密情報等が聴取可能な再生時間（例えば、１秒〜数秒以上）の音声データは必ずしも必要ない。

本発明の実施形態は、上記の点に鑑みてなされたもので、音響モデルの学習データとして、元の音声データが表す情報を復元できないように細分化したデータを作成することを目的とする。

上記目的を達成するため、本実施形態に係る情報処理装置は、入力された音声データから、特徴量の時系列データを抽出する抽出手段と、前記抽出手段により抽出された時系列データから、所定の時間幅毎に特徴量を切り出すことで複数の部分時系列データを作成する部分時系列作成手段と、前記部分時系列作成手段により作成された複数の部分時系列データのそれぞれをランダムに接続して、音響モデルの学習に用いられる学習データを作成する学習データ作成手段と、を有することを特徴とする。

音響モデルの学習データとして、元の音声データが表す情報を復元できないように細分化したデータを作成することができる。

本実施形態の全体構成の一例を示す図である。学習データの作成及び音響モデルの学習の一例を示すフローチャートである。学習データ作成の流れを模式的に説明するための図（その１）である。学習データ作成の流れを模式的に説明するための図（その２）である。

以下、本発明の実施形態（以降、「本実施形態」とも表す。）について説明する。本実施形態では、音声によって表現された情報を聴取可能な再生時間（例えば、１秒〜数秒以上）の音声データを用いて、この音声データが表す情報を復元できないように細分化することで、音響モデルの学習データを作成する場合について説明する。

ここで、本実施形態が想定する音声データとしては、例えば、コールセンタの通話記録を表す音声データ等が挙げられる。このような音声データには顧客の個人情報（例えば、氏名や住所等）が含まれることが多いためである。そこで、本実施形態では、音声データとしてコールセンタの通話記録を想定し、当該音声データには個人情報が含まれるものとする。ただし、これは一例であって、本実施形態は任意の音声データに対して適用可能である。なお、機密情報が含まれる音声データの一例としては、会議の議事記録を表す音声データ等が挙げられる。

＜全体構成＞
まず、本実施形態の全体構成について、図１を参照しながら説明する。図１は、本実施形態の全体構成の一例を示す図である。

図１に示すように、本実施形態では、音響モデルの学習データを作成する学習データ作成装置１０と、この学習データを用いて音響モデルの学習（チューニング）を行う音響モデル学習装置２０とが用いられる。学習データ作成装置１０及び音響モデル学習装置２０は、例えば、ＰＣ（パーソナルコンピュータ）や汎用サーバ等のコンピュータ（情報処理装置）又はコンピュータシステム（情報処理システム）で実現される。なお、学習データ作成装置１０及び音響モデル学習装置２０は、例えば、スマートフォンやタブレット端末等で実現されてもよい。

学習データ作成装置１０は、音声データ１０００を入力として、この音声データ１０００が表す情報を聴取可能でない時間に細分化することで学習データ２０００を作成する。なお、音声データ１０００には個人情報が含まれているものとする。

ここで、学習データ作成装置１０は、特徴量抽出部１０１と、部分時系列作成部１０２と、ノイズ付加部１０３と、順序並べ替え部１０４と、学習データ作成部１０５とを有する。これら各機能部は、学習データ作成装置１０のメモリ装置（例えば、補助記憶装置等）に格納されている１以上のプログラムがプロセッサ等に実行させる処理により実現される。なお、これらの１以上のプログラムは、例えば、学習データ作成装置１０に接続された外部記録媒体（例えば、ＣＤ、ＤＶＤ、ＵＳＢメモリ等）に格納されていてもよい。

特徴量抽出部１０１は、音響的な特徴を表す特徴量を音声データ１０００から抽出して、特徴量の時系列データ（以降、「特徴量時系列」とも表す。）を作成する。この特徴量時系列は、音声データ１０００に対して既知の手法（例えば、ケプストラム分析等）を適用することで得ることが可能である。なお、この特徴量時系列を逆変換することにより元の音声データ１０００に復元することが可能であるため、この特徴量時系列には個人情報が含まれているということができる。

なお、特徴量抽出部１０１は、メモリ装置に格納されている音声データ１０００を入力してもよいし、外部記録媒体に格納されている音声データ１０００を入力してもよいし、通信ネットワークを介して接続されるサーバ装置等に格納されている音声データ１０００をダウンロードして入力してもよい。

部分時系列作成部１０２は、特徴量抽出部１０１によって作成された特徴量時系列を所定の切り出し時間幅（以降、「フレーム長」とも表す。）単位で切り出した時系列データ（以降、「部分時系列」とも表す。）を作成する。このとき、部分時系列作成部１０２は、フレーム長よりも短い所定の時間幅（以降、「フレームシフト量」とも表す。）ずつ、切り出し開始時刻をシフト（スライド）させながら特徴量時系列から部分時系列を作成する。なお、各部分時系列には、音響モデルの学習の際に用いられる正解ラベル（つまり、正解の音素を表す情報）が付与される。

ノイズ付加部１０３は、部分時系列作成部１０２によって作成された複数の部分時系列のそれぞれに対してノイズを付加する。これは、後述するように、複数の部分時系列から元の特徴量時系列を復元することが可能であるため、ノイズを付加することで元の特徴量時系列に復元することができないようにするためである。

順序並べ替え部１０４は、ノイズ付加部１０３によってノイズが付加された複数の部分時系列の順序をランダムに並べ替える。これは、元の特徴量時系列への復元をより困難にするためである。

学習データ作成部１０５は、順序並べ替え部１０４によって並べ替えられた部分時系列同士を結合した学習データを作成する。この学習データは、学習データ作成装置１０のメモリ装置等に格納されてもよいし、音響モデル学習装置２０に渡されてもよい。なお、学習データが音響モデル学習装置２０に渡される際には、通信ネットワークを介して学習データが送信されてもよいし、学習データが格納された外部記録媒体等を介して学習データが渡されてもよい。

音響モデル学習装置２０は、学習データ２０００を入力として、この学習データ２０００を用いて音響モデル３０００を学習（チューニング）する。

ここで、音響モデル学習装置２０は、音響モデル学習部２０１を有する。音響モデル学習部２０１は、音響モデル学習装置２０のメモリ装置（例えば、補助記憶装置等）に格納されている１以上のプログラムがプロセッサ等に実行させる処理により実現される。なお、これらの１以上プログラムは、例えば、音響モデル学習装置２０に接続された外部記録媒体（例えば、ＣＤ、ＤＶＤ、ＵＳＢメモリ等）に格納されていてもよい。

音響モデル学習部２０１は、学習データ作成装置１０から渡された学習データを用いて、音響モデル学習装置２０のメモリ装置等に格納されている音響モデル３０００を学習（チューニング）する。このとき、音響モデル学習部２０１は、上述したフレーム長と同じ時間幅毎に学習データを切り出した上で、これらの切り出されたデータ（つまり、ノイズが付加された部分時系列とその正解ラベル）を用いて音響モデル３０００を学習する。なお、音響モデル３０００としては音素と特徴量とを対応付けた任意のモデルを用いることが可能であるが、例えば、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）等を用いることが可能である。また、音響モデル３０００を学習するための学習アルゴリズムとしてはモデルに応じて任意のアルゴリズムを用いることが可能であるが、例えば、ＥＭ（Expectation-Maximization）アルゴリズム等を用いることが可能である。

なお、図１に示す例では、学習データ作成装置１０と音響モデル学習装置２０とが異なる装置である場合について説明したが、これに限られず、学習データ作成装置１０と音響モデル学習装置２０とが一体で構成されていてもよい。

＜処理の流れ＞
次に、本実施形態に係る学習データ作成装置１０で学習データ２０００を作成した上で、本実施形態に係る音響モデル学習装置２０で当該学習データ２０００を用いて音響モデル３０００を学習する場合の処理の流れについて、図２を参照しながら説明する。図２は、学習データの作成及び音響モデルの学習の一例を示すフローチャートである。

まず、学習データ作成装置１０の特徴量抽出部１０１は、入力した音声データ１０００から特徴量を抽出して特徴量時系列を作成する（ステップＳ１０１）。例えば、図３に示すように、「おでんわありがとう」との音声を表す音声データ１０００が入力された場合、特徴量抽出部１０１は、この音声データ１０００から特徴量を抽出して特徴量時系列１１００を作成する。なお、特徴量抽出部１０１は、上述したように、例えばケプストラム分析等の既知の手法により音声データ１０００から特徴量を抽出して特徴量時系列を作成することができる。

次に、学習データ作成装置１０の部分時系列作成部１０２は、フレームシフト量ずつ切り出し開始時刻をシフトさせながら、フレーム長の特徴量を特徴量時系列１１００から切り出すことで、複数の部分時系列を作成する（ステップＳ１０２）。例えば、フレームシフト量及びフレーム長は共に固定であるものとしてそれぞれをΔ及びＴと表した場合、図３に示すように、部分時系列作成部１０２は、特徴量時系列１１００の先頭からフレームシフト量Δずつ切り出し開始時刻をシフトさせながら、フレーム長Ｔの時間幅の特徴量を部分時系列１２００として切り出す。なお、フレーム長Ｔ及びフレームシフト量ΔはＴ＞Δを満たすことを条件として任意に設定することが可能であるが、例えば、フレーム長Ｔとしては数百ミリ秒程度、フレームシフト量Δとしては数十ミリ秒程度とすることが考えられる。

具体的には、まず、部分時系列作成部１０２は、切り出し開始時刻ｔ＝０から切り出し終了時刻ｔ＝Ｔまでの時間幅の特徴量を部分時系列１２００−１として特徴量時系列１１００から切り出す。次に、部分時系列作成部１０２は、切り出し開始時刻ｔ＝Δから切り出し終了時刻ｔ＝Ｔ＋Δまでの時間幅の特徴量を部分時系列１２００−２として特徴量時系列１１００から切り出す。以降も同様に、ｎ回目の切り出しを行う際には、部分時系列作成部１０２は、切り出し開始時刻ｔ＝（ｎ−１）Δから切り出し終了時刻ｔ＝Ｔ＋（ｎ−１）Δまでの時間幅の特徴量を部分時系列１２００−ｎとして特徴量時系列１１００から切り出す。

以上により、複数の部分時系列１２００が得られる。以降では、部分時系列１２００の総数をＮとして、各部分時系列１２００を区別して表す場合は「部分時系列１２００−１」、「部分時系列１２００−２」、・・・、「部分時系列１２００−Ｎ」とも表す。

ここで、各部分時系列１２００には、音響モデル３０００の学習の際に用いられる正解ラベルが付与される。図３に示す例では、部分時系列１２００−１に対しては正解ラベル「/o/」が付与されており、部分時系列１２００−２に対しては正解ラベル「/d/」が付与されている。また、部分時系列１２００−３に対しては正解ラベル「/e/」が付与されており、部分時系列１２００−４に対しては正解ラベル「/n/」が付与されている。これらの正解ラベルは任意の方法で各部分時系列１２００に付与されればよく、例えば、ユーザの手作業により正解ラベルが付与されてもよいし、音声データに対して音素単位にラベル付けを行うツール（例えば、音素セグメンテーションツール）等により正解ラベルが付与されてもよい。

次に、学習データ作成装置１０のノイズ付加部１０３は、複数の部分時系列１２００のそれぞれに対してノイズを付加する（ステップＳ１０３）。

上述したように、フレーム長Ｔ及びフレームシフト量ΔはＴ＞Δを満たすため、ｎ回目に切り出された部分時系列１２００−ｎとｎ＋１回目に切り出された部分時系列１２００−（ｎ＋１）とは少なくとも一部の時間区間が重畳し、この時間区間内で特徴量が同じ変化をすることになる。このため、複数の部分時系列１２００の中で特徴量が同じ変化をする時間区間が含まれる部分時系列１２００を探し出して、当該時間区間が重畳するように互いに結合させることで特徴量時系列１１００を復元することが可能となってしまう（つまり、部分時系列１２００から音声データ１０００を復元することが可能である。）。そこで、各部分時系列１２００のそれぞれに対して異なるノイズを付加することで、部分時系列１２００から特徴量時系列１１００を復元するこができないようにする。

ノイズ付加部１０３は、任意の方法によって各部分時系列１２００のそれぞれに対して異なるノイズを付加すればよいが、例えば、ｎ＝１，・・・，Ｎとして、部分時系列１２００−ｎに対して乱数ｒ_ｎを生成した上で、部分時系列１２００−ｎに含まれる各特徴量に対して乱数ｒ_ｎを加算（又は、減算等）することが考えられる。ただし、各乱数ｒ_ｎは、部分時系列１２００−ｎと部分時系列１２００−（ｎ＋１）とで重畳する時間区間の特徴量が異なるものとなり、かつ、音響モデル３０００の学習に影響が出ない程度の軽微な値とすることが好ましい。なお、以降では、ノイズが付加された部分時系列１２００も「部分時系列１２００」と表す。

次に、学習データ作成装置１０の順序並べ替え部１０４は、各部分時系列１２００の順序をランダムに並べ替える（ステップＳ１０４）。すなわち、例えば、図４に示すように、順序並べ替え部１０４は、部分時系列１２００−１、部分時系列１２００−２、・・・、部分時系列１２００−Ｎを、部分時系列１２００−ｎ_１、部分時系列１２００−ｎ_２、・・・、部分時系列１２００−ｎ_Ｎに並び替える。ここで、ｎ_１∈｛１，・・・，Ｎ｝，ｎ_２∈｛１，・・・，Ｎ｝＼｛ｎ_１｝，ｎ_３∈｛１，・・・，Ｎ｝＼｛ｎ_１，ｎ_２｝，・・・，ｎ_Ｎ∈｛１，・・・，Ｎ｝＼｛ｎ_１，・・・，ｎ_Ｎ−１｝である。なお、図４に示す例では、ｎ_１＝３、ｎ_２＝４、ｎ_３＝１、ｎ_４＝２である。

順序並べ替え部１０４は、任意の方法によって各部分時系列１２００の順序をランダムに並べ替えればよいが、例えば、ｎ＝１，・・・，Ｎとして、部分時系列１２００−ｎに対して乱数ｓ_ｎを生成した上で、乱数ｓ_ｎの昇順（又は降順）に部分時系列１２００−ｎを並べ替えることが考えられる。このとき、部分時系列１２００の総数Ｎを十分に超える範囲から乱数ｓ_ｎを生成する（例えば、ＳをＮより十分大きい整数として、［０，Ｓ］から乱数ｓ_ｎを生成する、又は［−Ｓ，Ｓ］から乱数ｓ_ｎを生成する等）ことが好ましい。また、異なる部分時系列１２００に対して同一の乱数が生成されないようにすることが好ましい。

以上により、部分時系列１２００−１、部分時系列１２００−２、・・・、部分時系列１２００−Ｎをランダムに並べ替えた部分時系列１２００−ｎ_１、部分時系列１２００−ｎ_２、・・・、部分時系列１２００−ｎ_Ｎが得られる。これにより、元の特徴量時系列１１００への復元がより困難となる。

次に、学習データ作成装置１０の学習データ作成部１０５は、並べ替え後の部分時系列１２００を結合して学習データ２０００を作成する（ステップＳ１０５）。すなわち、例えば、図４に示すように、学習データ作成部１０５は、ｍ＝１，・・・，Ｎ−１として、部分時系列１２００−ｎ_ｍと部分時系列１２００−ｎ_ｍ＋１とを互いに結合する（つまり、部分時系列１２００−ｎ_ｍの最終時刻の次の時刻を、部分時系列１２００−ｎ_ｍ＋１の開始時刻とする）ことで、学習データ２０００を作成する。これにより、学習データ２０００が作成される。なお、学習データ２０００を構成する各部分時系列１２００にはそれぞれ正解ラベルが付与されている。

続いて、音響モデル学習装置２０の音響モデル学習部２０１は、学習データ作成装置１０で作成された学習データ２０００を用いて、音響モデル３０００を学習する（ステップＳ１０６）。このとき、音響モデル学習部２０１は、学習データ２０００の先頭から順にフレーム長Ｔと同じ時間幅のデータを切り出した上で、これらの切り出したデータ及びその正解ラベルを用いて既知の学習アルゴリズムにより音響モデル３０００を学習する。なお、学習データ２０００の先頭から順にフレーム長Ｔと同じ時間幅のデータを切り出すことは、図４に示す部分時系列１２００−ｎ_１、部分時系列１２００−ｎ_２、・・・、部分時系列１２００−ｎ_Ｎを学習データ２０００から順に得ることを意味する。

＜まとめ＞
以上のように、本実施形態では、個人情報や機密情報等が含まれる音声データ１０００を用いて、この音声データ１０００が表す情報を復元できないように細分化した部分時系列１２００で構成される学習データ２０００を作成することができる。本実施形態を用いることで、学習データ２０００からは個人情報や機密情報等を復元することができないため、個人情報や機密情報等が含まれる音声データ１０００であっても音響モデル３０００の学習に利用することができるようになる。このため、例えば、音声認識を利用したサービスを提供するサービス提供者は、音響モデル３０００の学習に必要な学習データ２０００を容易に入手することができるようになり、音響モデル３０００の性能を向上させることが可能になる。

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変更や変更、公知技術との組み合わせ等が可能である。

１０学習データ作成装置
２０音響モデル学習装置
１０１特徴量抽出部
１０２部分時系列作成部
１０３ノイズ付加部
１０４順序並べ替え部
１０５学習データ作成部
２０１音響モデル学習部
１０００音声データ
２０００学習データ
３０００音響モデル

Claims

入力された音声データから、特徴量の時系列データを抽出する抽出手段と、
前記抽出手段により抽出された時系列データから、所定の時間幅毎に特徴量を切り出すことで複数の部分時系列データを作成する部分時系列作成手段と、
前記部分時系列作成手段により作成された複数の部分時系列データのそれぞれをランダムに接続して、音響モデルの学習に用いられる学習データを作成する学習データ作成手段と、
を有することを特徴とする情報処理装置。
前記部分時系列作成手段により作成された複数の部分時系列データのそれぞれに対してノイズを付加するノイズ付加手段を有し、
前記学習データ作成手段は、
前記ノイズ付加手段によりノイズがそれぞれ付加された複数の部分時系列データをランダムに接続して、前記学習データを作成する、ことを特徴とする請求項１に記載の情報処理装置。
前記ノイズ付加手段は、
前記複数の部分時系列データのそれぞれに対して生成した第１の乱数を前記ノイズとして付加し、
前記学習データ作成手段は、
前記ノイズ付加手段によりノイズがそれぞれ付加された複数の部分時系列データのそれぞれに対して第２の乱数を生成し、前記第２の乱数の昇順又は降順に前記複数の部分時系列データを接続して、前記学習データを作成する、ことを特徴とする請求項２に記載の情報処理装置。
前記学習データ作成手段により作成された学習データを前記所定の時間幅毎に切り出したデータと、前記データに付与された正解ラベルとを用いて、前記音響モデルを学習する学習手段を有する、ことを特徴とする請求項１乃至３の何れか一項に記載の情報処理装置。
入力された音声データから、特徴量の時系列データを抽出する抽出手順と、
前記抽出手順で抽出された時系列データから、所定の時間幅毎に特徴量を切り出すことで複数の部分時系列データを作成する部分時系列作成手順と、
前記部分時系列作成手順で作成された複数の部分時系列データのそれぞれをランダムに接続して、音響モデルの学習に用いられる学習データを作成する学習データ作成手順と、
をコンピュータが実行することを特徴とする情報処理方法。
コンピュータを、請求項１乃至４の何れか一項に記載の情報処理装置における各手段として機能させるためのプログラム。