JP2021026045A - Storage device, storage method and program - Google Patents
Storage device, storage method and program Download PDFInfo
- Publication number
- JP2021026045A JP2021026045A JP2019141515A JP2019141515A JP2021026045A JP 2021026045 A JP2021026045 A JP 2021026045A JP 2019141515 A JP2019141515 A JP 2019141515A JP 2019141515 A JP2019141515 A JP 2019141515A JP 2021026045 A JP2021026045 A JP 2021026045A
- Authority
- JP
- Japan
- Prior art keywords
- data
- utterance data
- voice
- unit
- storage device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
本発明は、音声認識のための音響モデルの学習に用いられる発話データを保存する技術に関する。 The present invention relates to a technique for storing utterance data used for learning an acoustic model for speech recognition.
音声認識の音響モデルを作る際には、実際に使われるドメイン内の音声データを使って学習を行うことが有効であり、これにより、音響モデルの性能を顕著に向上させることができる。しかしながら、ドメイン内のデータは個人情報を含むので話者のプライバシーを侵害するおそれがある。また、ドメイン内のデータから、話者がある集団に属していることを特定されてしまうおそれもある。したがって、一般的には、ドメイン内のデータは利用期間が過ぎると破棄される。 When creating an acoustic model for speech recognition, it is effective to perform learning using the speech data in the domain that is actually used, and this can significantly improve the performance of the acoustic model. However, since the data in the domain contains personal information, it may infringe on the privacy of the speaker. In addition, the data in the domain may identify the speaker as belonging to a certain group. Therefore, in general, the data in the domain is destroyed after the usage period.
しかし、いったんデータが破棄されてしまうと、より効果的なモデル構造が将来的に提案されたとしても再学習することができない。ドメイン内の音声データを秘匿化し、プライバシーを保護した状態で保存しておくことができることが望ましい。 However, once the data is destroyed, it cannot be retrained even if a more effective model structure is proposed in the future. It is desirable to be able to conceal the voice data in the domain and store it in a privacy-protected state.
一般には、特定のノイズを加えておく方法がある。例えば、特許文献1には、データ所有者がデータ分析者へデータを開示する時の、データ所有者およびデータ分析者のリスクを低減するため、データ公開の際にデータを劣化させる条件を定める方法が開示されている。また、非特許文献1,2には、計算方法の手順を秘匿化する方法が開示されている。
Generally, there is a method of adding specific noise. For example,
上記した特許文献1に記載されたデータにノイズを加える方法は、データ提供者とデータ利用者とが異なる場合であって、データ提供者にはデータ保護が必要ない場合には有効である。しかし、データ提供者とデータ利用者が同じ場合には、加えたノイズが分かってしまうとデータ保護の意味がない。
The method of adding noise to the data described in
また、非特許文献1,2に記載された方法は、秘匿化を行わない場合に比べて計算量が多く、モデル変更の際には操作のプロトコルを変更する必要がある。また、非特許文献1,2に記載された方法は、データ保護に使うことはできない。
そこで、本発明は、上記背景に鑑み、音響モデルの学習に用いられる発話データを、その内容を秘匿化して保存できる技術を提供することを目的とする。
Further, the methods described in
Therefore, in view of the above background, an object of the present invention is to provide a technique capable of concealing and storing the contents of utterance data used for learning an acoustic model.
本発明の保存装置は、音声に関するデータおよび当該音声に対応するテキストからなる発話データであって、音響モデルの学習に用いられる発話データを保存する保存装置であって、音声と当該音声に対応するテキストからなる複数のオリジナルの発話データを入力する入力部と、前記オリジナルの発話データを分割して、1以上の文節を含む音声および当該音声に対応するテキストからなる複数の断片データを生成する断片データ生成部と、複数の前記オリジナルの発話データから生成された複数の断片データをランダムに結合して所定の長さの複数の発話データを生成する断片データ結合部と、前記断片データ結合部にて生成された複数の発話データを保存する保存部とを備える。 The storage device of the present invention is a storage device that stores utterance data composed of data related to voice and text corresponding to the voice, and is used for learning an acoustic model, and corresponds to the voice and the voice. An input unit for inputting a plurality of original utterance data consisting of text, and a fragment for dividing the original utterance data to generate a plurality of fragment data consisting of a voice containing one or more phrases and text corresponding to the voice. The data generation unit, the fragment data combination unit that randomly combines a plurality of fragment data generated from the original speech data to generate a plurality of speech data of a predetermined length, and the fragment data combination unit. It is provided with a storage unit for storing a plurality of utterance data generated in the above.
このように入力された複数のオリジナルの発話データを分割して複数の断片データを生成し、複数の断片データをランダムに結合して、新しい発話データを生成することで、オリジナルの発話データの内容をわからなくすることができる。また、断片データは1以上の文節を含んでいるので、音響特徴量の時系列が保存されており、生成された発話データを音響モデルの学習に用いることができる。ここで、「文節」とは、1以上の自立語と0以上の付属語からなる、文の区切りの単位である。 The contents of the original utterance data are generated by dividing the plurality of original utterance data input in this way to generate a plurality of fragment data, and randomly combining the plurality of fragment data to generate new utterance data. Can be obscured. Further, since the fragment data includes one or more clauses, the time series of the acoustic features is stored, and the generated utterance data can be used for learning the acoustic model. Here, the "bunsetsu" is a sentence delimiter unit composed of one or more independent words and zero or more attached words.
本発明の保存装置は、前記入力部より入力される音声から音響特徴量を生成する音響特徴量生成部を備え、前記保存部は、前記音声に関するデータとして、前記発話データの音響特徴量を保存してもよい。このように音響特徴量を音声に関するデータとして保存することにより、背景のノイズ等に基づいて発話データを構成する断片データの結合位置を推測することを困難にすることができる。 The storage device of the present invention includes an acoustic feature amount generation unit that generates an acoustic feature amount from the voice input from the input unit, and the storage unit stores the acoustic feature amount of the utterance data as data related to the voice. You may. By storing the acoustic features as data related to speech in this way, it is possible to make it difficult to estimate the combined position of the fragment data constituting the utterance data based on the background noise and the like.
本発明の保存装置は、前記音響特徴量生成部にて生成された音響特徴量を正規化する特徴量正規化部を備え、前記保存部は、前記音声に関するデータとして、前記発話データの正規化された音響特徴量を保存してもよい。このように音響特徴量を正規化することにより、発話データを構成する断片データの結合位置を推測することをさらに困難にすることができる。 The storage device of the present invention includes a feature amount normalization unit that normalizes the acoustic feature amount generated by the acoustic feature amount generation unit, and the storage unit normalizes the speech data as data related to the voice. The generated acoustic features may be stored. By normalizing the acoustic features in this way, it is possible to make it more difficult to estimate the connection position of the fragment data constituting the utterance data.
本発明の保存装置において、前記入力部は、複数の前記オリジナルの発話データとともに当該発話データの話者の識別子の入力を受け付け、前記保存部は、前記断片データ結合部にて生成された発話データを、前記話者の識別子に関連付けて保存してもよい。このように、新たに生成した発話データの話者の識別子を保存することにより、保存したデータの用途が広がる。 In the storage device of the present invention, the input unit receives input of a speaker identifier of the utterance data together with a plurality of the original utterance data, and the storage unit receives the utterance data generated by the fragment data combination unit. May be stored in association with the speaker's identifier. By storing the speaker identifier of the newly generated utterance data in this way, the use of the stored data is expanded.
本発明の保存装置において、前記入力部は、複数の前記オリジナルの発話データとともに当該発話データの話者の識別子の入力を受け付け、前記断片データ結合部は、前記話者の識別子に基づいて、生成される各発話データに複数の話者から得た断片データを含めるようにしてもよい。このように新たに生成する発話データに複数の話者の発話データから得た断片データを含めることにより、発話データから話者を特定することを困難にすることができる。 In the storage device of the present invention, the input unit accepts input of a speaker identifier of the utterance data together with a plurality of the original utterance data, and the fragment data combining unit is generated based on the speaker identifier. Fragment data obtained from a plurality of speakers may be included in each utterance data to be made. By including the fragment data obtained from the utterance data of a plurality of speakers in the newly generated utterance data in this way, it is possible to make it difficult to identify the speaker from the utterance data.
本発明の保存装置は、複数の前記オリジナルの発話データに話者識別技術を適用して、話者の特徴量を求める話者特徴量算出部と、前記話者の特徴量に基づいて前記話者をクラスタリングするクラスタリング部とを備え、前記断片データ結合部は、生成される各発話データに、同じクラスタに含まれる複数の話者の発話データから得た断片データを含めるようにしてもよい。この構成により、類似する特徴量を持った複数の話者の音声が結合された発話データが生成されるので、発話データから話者を特定することがいっそう困難となる。なお、話者の特徴量としては、例えば、因子分析から作られるi-vectorや、話者識別ネットワークの中間層の出力から得られるx-vector/d-vectorを用いることができる。 The storage device of the present invention applies a speaker identification technique to a plurality of the original speech data to obtain a speaker feature amount calculation unit for obtaining a speaker feature amount, and the story based on the speaker feature amount. A clustering unit for clustering people may be provided, and the fragment data combining unit may include fragment data obtained from speech data of a plurality of speakers included in the same cluster in each generated speech data. With this configuration, utterance data in which the voices of a plurality of speakers having similar features are combined is generated, so that it becomes more difficult to identify the speaker from the utterance data. As the feature amount of the speaker, for example, an i-vector created from factor analysis or an x-vector / d-vector obtained from the output of the intermediate layer of the speaker identification network can be used.
本発明の保存装置は、前記音声から音響特徴量を生成する音響特徴量生成部と、同じクラスタに含まれる複数の話者の発話データの音響特徴量の正規化を行う特徴量正規化部とを備える。このように音響特徴量を正規化することにより、発話データから話者を特定することをいっそう困難にすることができる。 The storage device of the present invention includes an acoustic feature amount generation unit that generates an acoustic feature amount from the voice, and a feature amount normalization unit that normalizes the acoustic feature amount of speech data of a plurality of speakers included in the same cluster. To be equipped. By normalizing the acoustic features in this way, it is possible to make it more difficult to identify the speaker from the utterance data.
本発明の保存装置において、前記断片データ生成部は、入力された前記テキストに対して形態素解析及び構文解析を行って文節を求め、文節の区切り位置に基づいて、1以上の文節を含む断片データを生成してもよい。このようにテキストに対して形態素解析及び構文解析を用いることにより、発話データの文節を適切に求めることができる。 In the storage device of the present invention, the fragment data generation unit performs morphological analysis and syntactic analysis on the input text to obtain a clause, and based on the break position of the clause, fragment data including one or more clauses. May be generated. By using morphological analysis and parsing for the text in this way, it is possible to appropriately obtain the phrase of the utterance data.
本発明の保存装置において、前記断片データ生成部は、入力された音声において無発音区間を検出し、前記無発音区間を文節の区切り位置として、文節の区切り位置に基づいて、1以上の文節を含む断片データを生成してもよい。音声データの無発音区間は、文節の区切りと一致することが多いので、無発音区間を断片データの区切り位置として、断片データを生成することができる。また、無発音区間で区切ることにより、言葉のつながりに起因する発声変形による音韻の変化の影響を低減できる。 In the storage device of the present invention, the fragment data generation unit detects a non-pronounced section in the input voice, sets the non-pronounced section as a phrase delimiter position, and sets one or more phrases based on the phrase delimiter position. Fragment data containing may be generated. Since the unpronounced section of the voice data often coincides with the phrase delimiter, the fragment data can be generated by using the non-pronounced section as the delimiter position of the fragment data. In addition, by dividing into non-pronunciation sections, it is possible to reduce the influence of phonological changes due to vocalization deformation caused by the connection of words.
本発明の保存装置において、前記断片データ結合部は、複数の前記オリジナルの発話データの長さの分布に基づいて、生成する発話データの前記所定の長さを設定してもよい。発話データから生成された断片データは、オリジナルの発話データにおいて連続していた音素の情報を失う。具体的に説明すると、無発音区間のない発話データでは、発話文の先頭から末尾まで音素が連続しているので、前または後ろに音素のないことを示すNULLが含まれるのは、発話文の先頭と最後の2箇所だけである。この発話データを例えばN分割すると、各断片データの前後にNULLが存在することになるので、2×N(個)のNULLが発生してしまう。本発明では、入力された複数の発話データの長さの分布に基づく所定の長さの発話データを生成するので、音素のないことを示すNULLの数をオリジナルの発話データとほぼ同じにできる。ここで、「複数の前記オリジナルの発話データの長さの分布に基づ」くとは、複数の発話データの平均の長さを用いる態様や、オリジナルの複数の発話データと同じ分布を有する態様であってよい。 In the storage device of the present invention, the fragment data combining unit may set the predetermined length of the utterance data to be generated based on the distribution of the lengths of the plurality of original utterance data. The fragment data generated from the utterance data loses the phoneme information that was continuous in the original utterance data. Specifically, in utterance data without a non-pronounced section, phonemes are continuous from the beginning to the end of the utterance sentence, so it is the utterance sentence that contains NULL indicating that there is no phoneme before or after. There are only two places, the beginning and the end. If this utterance data is divided into N, for example, there will be NULL before and after each fragment data, so that 2 × N (pieces) of NULL will be generated. In the present invention, since the utterance data of a predetermined length is generated based on the distribution of the lengths of the plurality of input utterance data, the number of NULL indicating that there is no phoneme can be made substantially the same as the original utterance data. Here, "based on the distribution of the lengths of the plurality of original utterance data" means an embodiment in which the average length of the plurality of utterance data is used, or an embodiment having the same distribution as the original plurality of utterance data. It may be.
本発明の保存装置は、前記保存部に保存されたテキストに基づいて言語モデルを生成する言語モデル生成部と、前記言語モデルを前記オリジナルの発話データのテキストに適用して、言語予測を行う言語予測部とを備えてもよい。この構成により、生成された発話データの秘匿化の程度を定量的に求めることができる。生成された発話データのテキストから生成された言語モデルによって、オリジナルの発話データを精度良く予測できる場合は秘匿化の程度が低く、逆に、オリジナルの発話データを予測できない場合には秘匿化の程度が高いと判断できる。予測精度には例えば言語モデルのパープレキシティー(perplexity)の逆数を使うことができる。 The storage device of the present invention includes a language model generation unit that generates a language model based on the text stored in the storage unit, and a language that applies the language model to the text of the original utterance data to perform language prediction. It may be provided with a prediction unit. With this configuration, the degree of concealment of the generated utterance data can be quantitatively determined. The degree of concealment is low if the original utterance data can be predicted accurately by the language model generated from the text of the generated utterance data, and conversely, the degree of concealment if the original utterance data cannot be predicted. Can be judged to be high. For example, the reciprocal of the perplexity of the language model can be used for the prediction accuracy.
本発明の保存装置は、前記オリジナルの発話データのテキストに基づいて言語モデルを生成する言語モデル生成部と、前記言語モデルを前記保存部に保存されたテキストに適用して、言語予測を行う言語予測部とを備えてもよい。この構成により、生成された発話データの秘匿化の程度を定量的に求めることができる。オリジナルの発話データのテキストから生成された言語モデルによって、生成された発話データを精度良く予測できる場合は秘匿化の程度が低く、逆に、生成された発話データを予測できない場合には秘匿化の程度が高いと判断できる。 The storage device of the present invention is a language model generation unit that generates a language model based on the text of the original utterance data, and a language that applies the language model to the text stored in the storage unit to perform language prediction. It may be provided with a prediction unit. With this configuration, the degree of concealment of the generated utterance data can be quantitatively determined. If the generated utterance data can be predicted accurately by the language model generated from the text of the original utterance data, the degree of concealment is low, and conversely, if the generated utterance data cannot be predicted, concealment is performed. It can be judged that the degree is high.
本発明の保存装置において、前記言語予測部による予測精度が所定の閾値より高い場合には、前記断片データ生成部は、断片データの長さを短くしてもよい。この構成により、予測精度が高い場合、すなわち発話データの秘匿化が十分でない場合には、断片データをさらに細かくして秘匿化を行うことにより、発話データの秘匿化を実現できる。なお、所定の閾値は、予測精度の絶対値であってもよいし、相対値であってもよい。相対値を用いる場合には、オリジナルの発話データから生成した言語モデルと、生成された発話データから生成した言語モデルを準備し、それぞれの言語モデルでオリジナルのテキスト、または断片データを結合したデータの予測を行い、その予測精度を比較する。予測精度の差が所定の閾値より大きい場合には、発話データの秘匿化が十分に行われていると判断できる。 In the storage device of the present invention, when the prediction accuracy by the language prediction unit is higher than a predetermined threshold value, the fragment data generation unit may shorten the length of the fragment data. With this configuration, when the prediction accuracy is high, that is, when the utterance data is not sufficiently concealed, the utterance data can be concealed by making the fragment data finer and concealing it. The predetermined threshold value may be an absolute value of prediction accuracy or a relative value. When using relative values, prepare a language model generated from the original utterance data and a language model generated from the generated utterance data, and combine the original text or fragment data with each language model. Make predictions and compare their prediction accuracy. When the difference in prediction accuracy is larger than a predetermined threshold value, it can be determined that the utterance data is sufficiently concealed.
本発明の保存方法は、音声に関するデータおよび当該音声に対応するテキストからなる発話データであって、音響モデルの学習に用いられる発話データを保存装置に保存する方法であって、音声と当該音声に対応するテキストからなる複数のオリジナルの発話データを入力するステップと、前記オリジナルの発話データを分割して、1以上の文節を含む音声および当該音声に対応するテキストからなる複数の断片データを生成するステップと、複数の前記オリジナルの発話データから生成された複数の断片データをランダムに結合して所定の長さの複数の発話データを生成するステップと、生成された複数の発話データを前記保存装置に保存するステップとを備える。 The storage method of the present invention is a method of storing utterance data including data related to voice and text corresponding to the voice in a storage device, which is used for learning an acoustic model, and is stored in the voice and the voice. A step of inputting a plurality of original utterance data consisting of corresponding texts and the original utterance data are divided to generate a plurality of fragment data consisting of a voice containing one or more phrases and a text corresponding to the voice. The storage device includes a step, a step of randomly combining a plurality of fragment data generated from the plurality of original utterance data to generate a plurality of utterance data having a predetermined length, and a plurality of generated utterance data. It has a step to save to.
本発明のプログラムは、音声に関するデータおよび当該音声に対応するテキストからなる発話データであって、音響モデルの学習に用いられる発話データを保存装置に保存するためのプログラムであって、コンピュータに、音声と当該音声に対応するテキストからなる複数のオリジナルの発話データを入力するステップと、前記オリジナルの発話データを分割して、1以上の文節を含む音声および当該音声に対応するテキストからなる複数の断片データを生成するステップと、複数の前記オリジナルの発話データから生成された複数の断片データをランダムに結合して所定の長さの複数の発話データを生成するステップと、生成された複数の発話データを前記保存装置に保存するステップとを実行させる。 The program of the present invention is utterance data composed of data related to voice and text corresponding to the voice, and is a program for storing utterance data used for learning an acoustic model in a storage device, and is a program for storing voice in a computer. A step of inputting a plurality of original utterance data consisting of text corresponding to the voice and the original utterance data, and a plurality of fragments consisting of a voice containing one or more phrases and text corresponding to the voice by dividing the original utterance data. A step of generating data, a step of randomly combining a plurality of fragment data generated from the plurality of original utterance data to generate a plurality of utterance data of a predetermined length, and a plurality of generated utterance data. Is executed in the storage device.
本発明によれば、オリジナルの発話データの内容をわからなくした状態で、保存することができる。 According to the present invention, it is possible to save the contents of the original utterance data in a state where the contents are unknown.
以下、本発明の実施の形態にかかる保存装置について、図面を参照して説明する。
(第1の実施の形態)
図1は、第1の実施の形態の保存装置1の構成を示す図である。第1の実施の形態の保存装置1は、音声に関するデータおよび当該音声に対応するテキストからなる発話データであって、音響モデルの学習に用いられる発話データを保存する保存装置1である。
Hereinafter, the storage device according to the embodiment of the present invention will be described with reference to the drawings.
(First Embodiment)
FIG. 1 is a diagram showing a configuration of a
保存装置1は、オリジナルの発話データを入力する入力部10と、オリジナルの発話データを分割して複数の断片データを生成する断片データ生成部11と、複数の断片データをランダムに結合して所定の長さの複数の発話データを生成する断片データ結合部12と、断片データ結合部12にて生成された複数の発話データを保存する保存部13とを備えている。
The
以下、保存装置1の動作とともに保存装置1の各構成の詳細について説明する。保存装置1は、入力部10からオリジナルの発話データの入力を受け付ける。入力部10から入力されるオリジナルの発話データは、例えば、対象のドメインで取得されたドメイン内の発話データであり、音声と当該音声に対応するテキストからなる。音声に対応するテキストは、例えば、音声から書き起こしたテキストである。
Hereinafter, the operation of the
次に、断片データ生成部11は、入力されたオリジナルの発話データを分割し、複数の断片データを生成する。断片データ生成部11は、オリジナルの発話データを分割する際に、文節を最小単位として分割する。すなわち、断片データには、少なくとも1つ以上の文節が含まれるように分割する。断片データ生成部11が、発話データを区切って断片データを生成する方法としては、例えば、発話データのテキストに対して形態素解析を行って発話データを単語に分割し、その後、構文解析を行って同じ構文木に属している部分でカットするという方法が考えられる。また、構文解析に代えて、助詞などの付属語が出現した箇所を区切り位置としてカットしてもよい。
Next, the fragment
また、断片データ生成部11は、入力された音声において無発音区間(「ポーズ」ともいう)を検出し、無発音区間を文節の区切り位置として、文節の区切り位置に基づいて、1以上の文節を含む断片データを生成してもよい。具体的には、断片データ生成部11は、音素のアライメントをとり、無発音区間を文節の切れ目であると特定し、発話データを分割する。また、上述した方法によって求めた分割箇所のOR/ANDによって、文節の切れ目を決めてもよい。
Further, the fragment
続いて、断片データ結合部12は、断片データ生成部11にて生成された断片データをランダムに結合して新たな発話データを生成する。ここで、1つのオリジナルの発話データから得た断片データをランダムに結合するだけだと、オリジナルの発話データの中で順番を入れ替えるだけとなるので、オリジナルの発話データを推測されてしまう可能性が高い。断片データ結合部12は、複数のオリジナルの発話データから得た断片データをランダムに結合することで、オリジナルの発話データの内容を秘匿化する。
Subsequently, the fragment
断片データ結合部12が新たに生成する発話データの長さは、複数のオリジナルの発話データの長さに基づいて設定する。例えば、複数のオリジナルの発話データの長さの平均値を求め、当該平均値を四捨五入した値としてもよい。あるいは、複数のオリジナルの発話データの長さの分布(平均、分散)を求め、同じ分布となるように、新たな発話データの長さを設定してもよい。
そして、最後に、断片データ結合部12にて生成された新たな発話データを保存部13に保存する。
The length of the utterance data newly generated by the fragment
Finally, the new utterance data generated by the fragment
本実施の形態の保存装置1は、複数のオリジナルの発話データを断片データに分割し、複数の断片データをランダムに結合して新たな発話データを生成し、新たな発話データを保存するので、オリジナルの発話データの内容がわからない状態で、発話データを保存できる。ここで、断片データは1つ以上の文節を含んでいるおり、新たな発話データにおいても、音響特徴量の時系列が保持されているので、保存された発話データを使って音響モデルの学習を行うことができる。
The
また、本実施の形態の保存装置1は、オリジナルの発話データの長さの平均または分布と同じになるように、新たに生成される複数の発話データの長さを設定するので、新たに生成される複数の発話データに含まれる先頭の文字および末尾の文字の数を、複数のオリジナルの発話データに含まれる先頭の文字および末尾の文字の数と同程度にできる。これにより、保存された発話データにより、オリジナルの発話データと同様の学習を行える。
Further, since the
(第2の実施の形態)
図2は、第1の実施の形態を変形した第2の実施の形態の保存装置2の構成を示す図である。第2の実施の形態の保存装置2の基本的な構成は、第1の実施の形態と同じであるが、第2の実施の形態の保存装置2は、入力部10より入力される音声から音響特徴量を生成する音響特徴量生成部14を備えている。音響特徴量生成部14は、音声から生成した音響特徴量を断片データ生成部11に入力する。断片データ生成部11は、オリジナルの発話データのテキストまたは無発音区間に基づいて、断片データを生成するために発話データを区切る位置を求め、その区切り位置で音響特徴量データを区切って断片データを生成する。
(Second Embodiment)
FIG. 2 is a diagram showing a configuration of a
断片データ生成部11は、断片データ(音響特徴量とそれに対応するテキストからなる)を断片データ結合部12に渡す。断片データ結合部12は、第1の実施の形態の保存装置2と同様に、断片データをランダムに結合して新たな発話データを生成し、保存部13に保存する。本実施の形態の保存装置2が保存する発話データは、音声に関するデータとして音響特徴量を含んでいる。
The fragment
以上、第2の実施の形態の保存装置2について説明した。第2の実施の形態の保存装置2は、第1の実施の形態と同様に、内容を秘匿化した状態で発話データを保存できる。また、音声に関するデータとして音響特徴量を保存することにより、背景のノイズ等に基づいて発話データを構成する断片データの結合位置を推測することを困難にできる。
The
(第3の実施の形態)
図3は、第1の実施の形態を変形した第3の実施の形態の保存装置3の構成を示す図である。第3の実施の形態の保存装置3の基本的な構成は、第2の実施の形態と同じであるが、第3の実施の形態の保存装置3は、音響特徴量生成部14にて生成された音響特徴量を正規化する特徴量正規化部15を備えている。正規化された特徴量としては、例えば特徴量空間最尤線形回帰による線形変換された特徴量やニューラルネットワークのボトルネック特徴量を用いることができる。
(Third Embodiment)
FIG. 3 is a diagram showing a configuration of a
特徴量正規化部15は、正規化した音響特徴量を断片データ生成部11に入力する。断片データ生成部11は、オリジナルの発話データのテキストまたは無発音区間に基づいて、断片データを生成するために発話データを区切る位置を求め、その区切り位置で正規化された音響特徴量データを区切って断片データを生成する。
The feature
断片データ生成部11は、断片データ(正規化された音響特徴量とそれに対応するテキストからなる)を断片データ結合部12に渡す。断片データ結合部12は、第1の実施の形態の保存装置3と同様に、断片データをランダムに結合して新たな発話データを生成し、保存部13に保存する。本実施の形態の保存装置3が保存する発話データは、音声に関するデータとして、正規化された音響特徴量を含んでいる。
The fragment
以上、第3の実施の形態の保存装置3について説明した。第3の実施の形態の保存装置3は、第1の実施の形態と同様に、内容を秘匿化した状態で発話データを保存できる。また、音声に関するデータとして正規化された音響特徴量を保存することにより、背景のノイズ等に基づいて発話データを構成する断片データの結合位置を推測することをさらに困難にできる。
The
(第4の実施の形態)
図4は、第1の実施の形態を変形した第4の実施の形態の構成を示す図である。第4の実施の形態の保存装置4の基本的な構成は、第3の実施の形態と同じであるが、第4の実施の形態の保存装置4において、入力部10は、オリジナルの発話データとして、話者を特定する話者IDを含む発話データの入力を受け付ける。なお、本実施の形態では、一度に入力される複数の発話データの話者は1人であることを想定している。
(Fourth Embodiment)
FIG. 4 is a diagram showing a configuration of a fourth embodiment obtained by modifying the first embodiment. The basic configuration of the
第4の実施の形態の保存装置4は、第3の実施の形態の保存装置4と同様に、入力された複数の発話データから複数の断片データを生成し、生成した複数の断片データをランダムに結合して新たな発話データを生成し、保存部13に保存する。第4の実施の形態では、新たに生成する発話データに話者IDを付加する。断片データ結合部12は、新たな発話データを生成し、保存部13に保存する。
Similar to the
以上、第4の実施の形態の保存装置4について説明した。第4の実施の形態の保存装置4は、第1の実施の形態と同様に、内容を秘匿化した状態で発話データを保存できる。また、保存された発話データに話者IDが付加されていることにより、保存されたデータを利用する際に、例えば、同じ話者の発話データだけを用いて学習したり、逆に異なる複数の話者の発話データを用いて学習するなど、データの用途が広がる。
The
(第5の実施の形態)
図5は、第5の実施の形態の保存装置5の構成を示す図である。第1〜第4の実施の形態の保存装置5では、発話内容を秘匿化して発話データを保存する装置について説明したが、第5の実施の形態では、発話内容の秘匿化に加えて、発話者の特定をも困難にし、匿名性に配慮した発話データを保存する装置について説明する。
(Fifth Embodiment)
FIG. 5 is a diagram showing the configuration of the
第5の実施の形態の保存装置5の基本的な構成は、第4の実施の形態の保存装置4と同じである。第5の実施の形態の保存装置5は、一度に入力される複数の発話データに、複数の話者による発話データを含んでおり、各発話データに話者を識別する話者IDが付されている。
The basic configuration of the
第5の実施の形態においては、断片データ結合部12が新たな発話データを生成する際に、必ず複数の異なる話者の断片データを用いて、新たな発話データを生成する。すなわち、断片データ結合部12は、生成される各発話データに複数の話者から得た断片データを含める。断片データ結合部12は、第4の実施の形態とは異なり、生成された発話データに話者IDを付与することはしない。
In the fifth embodiment, when the fragment
以上、第5の実施の形態の保存装置5について説明した。第5の実施の形態の保存装置5は、第1〜第4の実施の形態と同様に、内容を秘匿化した状態で発話データを保存できる。また、保存された各発話データには、複数の異なる発話者から得た断片データが含まれるので、発話データから話者を特定することが困難になる。1つの発話にk人の話者の断片データを含めることとすれば、その発話データの話者の候補をk人以下に絞り込めないk−匿名化が達成できる。
The
(第6の実施の形態)
図6は、第2の実施の形態を変形した第6の実施の形態の保存装置6の構成を示す図である。第6の実施の形態の保存装置6の基本的な構成は、第1の実施の形態と同じであるが、第6の実施の形態の保存装置6は、第5の実施の形態の保存装置5の構成に加えて、話者特徴量算出部16と、クラスタリング部17を備えている。
(Sixth Embodiment)
FIG. 6 is a diagram showing a configuration of a
話者特徴量算出部16は、話者識別技術を用いて、発話データの音声から話者の特徴量を算出する機能を有する。本実施の形態では、話者の特徴量として、話者の埋め込みベクトル(分散表現)を用いる。このベクトルは、例えば因子分析から作られる量であるi-vectorや、話者識別ネットワークの中間層の出力より得られるx-vector/d-vectorなどを利用することができる。図7(a)は、話者1〜話者9の発話データに基づいて、話者ベクトルv1〜v9を求めることを示す概念図である。
The speaker feature
クラスタリング部17は、話者特徴量算出部16にて求めた埋め込みベクトルに基づき、オリジナルの発話データの話者をクラスタリングし、音響特徴量が近い話者が同じクラスタに含まれるようにする。
The
図7(b)は、話者ベクトルv1〜v9に基づいて、話者1〜話者9をクラスタリングした例を示す図である。話者1、話者4、話者5が同じクラスタc1にクラスタリングされているのは、ベクトルv1,v4,v5の話者の特徴量が類似しているからである。
FIG. 7B is a diagram showing an example of
クラスタリング部17は、クラスタIDとクラスタに含まれる話者の話者IDを断片データ結合部12に渡す。断片データ結合部12は、断片データ結合部12が新たな発話データを生成する際に、複数の話者の断片データを用いるが、このときに同じクラスタに含まれる複数の話者の断片データを用いる。
The
以上、第6の実施の形態の保存装置6について説明した。第6の実施の形態の保存装置6は、1つの発話データに、音響特徴量が近い複数の話者の断片データを含めるので、発話データから話者を特定することを困難にすることができる。また、音響特徴量が正規化されているので、発話データから話者を特定することをいっそう困難にすることができる。
The
なお、第6の実施の形態の保存装置6において、クラスタリング部17からクラスタIDとクラスタに含まれる話者の話者IDを特徴量正規化部15に渡し、特徴量正規化部15がクラスタのデータを用いて、同じクラスタに含まれる話者間で特徴量の正規化を行ってもよい。同じクラスタを正規化の単位とすることで、各話者の音響特徴量と正規化された音響特徴量との差異を小さくできる。
In the
(第7の実施の形態)
図8は、第7の実施の形態の保存装置7の構成を示す図である。第7の実施の形態の保存装置7は、保存部13に保存された発話データの秘匿化の程度を定量的に評価し、その評価結果に基づいて、発話データを生成する。
(7th Embodiment)
FIG. 8 is a diagram showing the configuration of the
第7の実施の形態の保存装置7は、第2の実施の形態の保存装置7の構成に加えて、保存装置7に保存された発話データに基づいて言語モデル生成部18と、生成された言語モデルを記憶した言語モデル記憶部19と、言語モデルに基づいて言語予測を行う言語予測部20とを備えている。
The
言語モデル生成部18は、保存部13に記憶された複数の発話データに基づいて言語モデルを生成する。生成する言語モデルとしては、例えば、n-gram言語モデルやrecurrent neural networkに基づく言語モデル等を使用することができる。
The language
言語予測部20は、生成された言語モデルを用いて、入力された発話データのテキストに対して言語予測を行い、言語予測の予測精度を求める。予測精度としては、例えばperplexityの逆数などを用いることができる。言語予測部20にて得られたperplexityの逆数がある閾値以上である場合には、入力された発話データの秘匿化が十分に行えていないと判定できる。なお、言語予測部20が予測精度を判定する方法は、別の方法を採用することができる。例えば、オリジナルの発話データのテキストに基づいて言語モデルを生成し、生成した言語モデルを用いてオリジナルの発話データの予測精度を求め、保存された発話データから生成した言語モデルと予測精度を比較してもよい。両言語モデルの予測精度の差が閾値以下の場合には、入力された発話データの秘匿化が十分に行えていないと判定できる。
The
言語予測部20は、秘匿化が十分に行えていない場合には、断片データ生成部11に対してその旨を通知する。断片データ生成部11は、この通知を受けると、生成する断片データの長さを短くする。例えば、元々、3文節前後からなる断片データを生成していたところ、秘匿化が十分でないと判定された場合には、断片データ生成部11は、2文節以下の断片データを生成する。より短くした断片化データを用いることで、オリジナルの発話データがより断片化されるので、秘匿化の程度を高めることができる。
If the concealment is not sufficiently performed, the
以上、第7の実施の形態の保存装置7について説明した。第7の実施の形態の保存装置7は、保存部13に保存された発話データの秘匿化の程度を定量的に判定できる。そして、秘匿化の程度が低い場合には、より細分化した断片データを生成して、新たな発話データを生成し、秘匿化のレベルを保った発話データを保存できる。
The
(第8の実施の形態)
図9は、第7の実施の形態を変形した第8の実施の形態の保存装置8の構成を示す図である。第8の実施の形態の保存装置8の基本的な構成は、第7の実施の形態と同じであるが、第8の実施の形態の保存装置8は、入力されたオリジナルの発話データに基づいて言語モデルを生成し、生成した言語モデルを、保存部13に保存された発話データに適用して言語予測を行う点が異なる。この構成によっても、保存部13に保存された発話データの秘匿化の程度を評価することができる。
(8th Embodiment)
FIG. 9 is a diagram showing a configuration of a storage device 8 according to an eighth embodiment, which is a modification of the seventh embodiment. The basic configuration of the storage device 8 of the eighth embodiment is the same as that of the seventh embodiment, but the storage device 8 of the eighth embodiment is based on the input original utterance data. The difference is that a language model is generated and the generated language model is applied to the utterance data stored in the
以上、本実施の形態の保存装置について説明したが、上記した保存装置のハードウェアの例は、CPU、RAM、ROM、ハードディスク、ディスプレイ、キーボード、マウス、通信インターフェース等を備えたコンピュータである。上記した各機能を実現するモジュールを有するプログラムをRAMまたはROMに格納しておき、CPUによって当該プログラムを実行することによって、上記した保存装置が実現される。このようなプログラムも本発明の範囲に含まれる。 Although the storage device of the present embodiment has been described above, an example of the hardware of the storage device described above is a computer provided with a CPU, RAM, ROM, hard disk, display, keyboard, mouse, communication interface, and the like. The above-mentioned storage device is realized by storing a program having a module that realizes each of the above-mentioned functions in a RAM or ROM and executing the program by a CPU. Such programs are also included in the scope of the present invention.
本発明は、音響モデルの学習に用いられる発話データを保存する技術として有用である。 The present invention is useful as a technique for storing utterance data used for learning an acoustic model.
1〜8 保存装置
10 入力部
11 断片データ生成部
12 断片データ結合部
13 保存部
14 音響特徴量生成部
15 特徴量正規化部
16 話者特徴量算出部
17 クラスタリング部
18 言語モデル生成部
19 言語モデル記憶部
20 言語予測部
1-8
Claims (15)
音声と当該音声に対応するテキストからなる複数のオリジナルの発話データを入力する入力部と、
前記オリジナルの発話データを分割して、1以上の文節を含む音声および当該音声に対応するテキストからなる複数の断片データを生成する断片データ生成部と、
複数の前記オリジナルの発話データから生成された複数の断片データをランダムに結合して所定の長さの複数の発話データを生成する断片データ結合部と、
前記断片データ結合部にて生成された複数の発話データを保存する保存部と、
を備える保存装置。 An utterance data consisting of voice data and text corresponding to the voice, and a storage device for storing utterance data used for learning an acoustic model.
An input unit for inputting multiple original utterance data consisting of a voice and text corresponding to the voice,
A fragment data generation unit that divides the original utterance data and generates a plurality of fragment data consisting of a voice containing one or more phrases and a text corresponding to the voice.
A fragment data combining unit that randomly combines a plurality of fragment data generated from the plurality of original utterance data to generate a plurality of utterance data having a predetermined length.
A storage unit that stores a plurality of utterance data generated by the fragment data combination unit, and a storage unit.
A storage device equipped with.
前記保存部は、前記音声に関するデータとして、前記発話データの音響特徴量を保存する請求項1に記載の保存装置。 It is provided with an acoustic feature amount generation unit that generates an acoustic feature amount from the voice input from the input unit.
The storage device according to claim 1, wherein the storage unit stores the acoustic feature amount of the utterance data as data related to the voice.
前記保存部は、前記音声に関するデータとして、前記発話データの正規化された音響特徴量を保存する請求項2に記載の保存装置。 It is provided with a feature amount normalization unit that normalizes the acoustic feature amount generated by the acoustic feature amount generation unit.
The storage device according to claim 2, wherein the storage unit stores a normalized acoustic feature amount of the utterance data as data related to the voice.
前記保存部は、前記断片データ結合部にて生成された発話データを、前記話者の識別子に関連付けて保存する請求項1から3のいずれか1項に記載の保存装置。 The input unit accepts the input of the speaker identifier of the utterance data together with the plurality of original utterance data.
The storage device according to any one of claims 1 to 3, wherein the storage unit stores the utterance data generated by the fragment data combination unit in association with the identifier of the speaker.
前記断片データ結合部は、前記話者の識別子に基づいて、生成される各発話データに複数の話者から得た断片データを含める、請求項1に記載の保存装置。 The input unit accepts the input of the speaker identifier of the utterance data together with the plurality of original utterance data.
The storage device according to claim 1, wherein the fragment data combining unit includes fragment data obtained from a plurality of speakers in each utterance data generated based on the identifier of the speaker.
前記話者の特徴量に基づいて前記話者をクラスタリングするクラスタリング部と、
を備え、
前記断片データ結合部は、生成される各発話データに、同じクラスタに含まれる複数の話者の発話データから得た断片データを含める、請求項5に記載の保存装置。 A speaker feature calculation unit that obtains speaker features by applying speaker identification technology to a plurality of the original utterance data, and a speaker feature calculation unit.
A clustering unit that clusters the speaker based on the feature amount of the speaker,
With
The storage device according to claim 5, wherein the fragment data combining unit includes fragment data obtained from utterance data of a plurality of speakers included in the same cluster in each utterance data generated.
同じクラスタに含まれる複数の話者の発話データの音響特徴量の正規化を行う特徴量正規化部と、
を備える請求項6に記載の保存装置。 An acoustic feature amount generation unit that generates an acoustic feature amount from the voice,
A feature normalization unit that normalizes the acoustic features of the utterance data of multiple speakers included in the same cluster,
The storage device according to claim 6.
前記言語モデルを前記オリジナルの発話データのテキストに適用して、言語予測を行う言語予測部と、
を備える、請求項1から10のいずれか1項に記載の保存装置。 A language model generation unit that generates a language model based on the text stored in the storage unit,
A language prediction unit that applies the language model to the text of the original utterance data to perform language prediction, and
The storage device according to any one of claims 1 to 10.
前記言語モデルを前記保存部に保存されたテキストに適用して、言語予測を行う言語予測部と、
を備える、請求項1から10のいずれか1項に記載の保存装置。 A language model generator that generates a language model based on the text of the original utterance data,
A language prediction unit that applies the language model to the text stored in the storage unit to perform language prediction,
The storage device according to any one of claims 1 to 10.
前記断片データ生成部は、断片データの長さを短くする請求項11または12に記載の保存装置。 When the prediction accuracy by the language prediction unit is higher than a predetermined threshold value,
The storage device according to claim 11 or 12, wherein the fragment data generation unit shortens the length of the fragment data.
音声と当該音声に対応するテキストからなる複数のオリジナルの発話データを入力するステップと、
前記オリジナルの発話データを分割して、1以上の文節を含む音声および当該音声に対応するテキストからなる複数の断片データを生成するステップと、
複数の前記オリジナルの発話データから生成された複数の断片データをランダムに結合して所定の長さの複数の発話データを生成するステップと、
生成された複数の発話データを前記保存装置に保存するステップと、
を備える保存方法。 It is utterance data consisting of data related to voice and text corresponding to the voice, and is a method of storing utterance data used for learning an acoustic model in a storage device.
Steps to input multiple original utterance data consisting of voice and text corresponding to the voice,
A step of dividing the original utterance data to generate a plurality of fragmentary data consisting of a voice containing one or more phrases and a text corresponding to the voice.
A step of randomly combining a plurality of fragment data generated from the plurality of original utterance data to generate a plurality of utterance data having a predetermined length, and
A step of storing a plurality of generated utterance data in the storage device, and
Preservation method with.
音声と当該音声に対応するテキストからなる複数のオリジナルの発話データを入力するステップと、
前記オリジナルの発話データを分割して、1以上の文節を含む音声および当該音声に対応するテキストからなる複数の断片データを生成するステップと、
複数の前記オリジナルの発話データから生成された複数の断片データをランダムに結合して所定の長さの複数の発話データを生成するステップと、
生成された複数の発話データを前記保存装置に保存するステップと、
を実行させるプログラム。 It is a utterance data consisting of data related to voice and text corresponding to the voice, and is a program for storing utterance data used for learning an acoustic model in a storage device, and is stored in a computer.
Steps to input multiple original utterance data consisting of voice and text corresponding to the voice,
A step of dividing the original utterance data to generate a plurality of fragmentary data consisting of a voice containing one or more phrases and a text corresponding to the voice.
A step of randomly combining a plurality of fragment data generated from the plurality of original utterance data to generate a plurality of utterance data having a predetermined length, and
A step of storing a plurality of generated utterance data in the storage device, and
A program that executes.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019141515A JP2021026045A (en) | 2019-07-31 | 2019-07-31 | Storage device, storage method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019141515A JP2021026045A (en) | 2019-07-31 | 2019-07-31 | Storage device, storage method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021026045A true JP2021026045A (en) | 2021-02-22 |
Family
ID=74664644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019141515A Pending JP2021026045A (en) | 2019-07-31 | 2019-07-31 | Storage device, storage method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021026045A (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003202893A (en) * | 2001-12-28 | 2003-07-18 | Toshiba Corp | Corpus processor for generating statistical language model, and method and program thereof |
JP2007322816A (en) * | 2006-06-01 | 2007-12-13 | Oki Electric Ind Co Ltd | Corpus design method, corpus design device, and corpus design program |
WO2016121493A1 (en) * | 2015-01-27 | 2016-08-04 | 株式会社エヌ・ティ・ティピー・シーコミュニケーションズ | Anonymization processing device, anonymization processing method, and program |
JP2017090716A (en) * | 2015-11-11 | 2017-05-25 | 株式会社フュートレック | Transcription text creation support system, transcription text creation support method, and transcription text creation support program |
-
2019
- 2019-07-31 JP JP2019141515A patent/JP2021026045A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003202893A (en) * | 2001-12-28 | 2003-07-18 | Toshiba Corp | Corpus processor for generating statistical language model, and method and program thereof |
JP2007322816A (en) * | 2006-06-01 | 2007-12-13 | Oki Electric Ind Co Ltd | Corpus design method, corpus design device, and corpus design program |
WO2016121493A1 (en) * | 2015-01-27 | 2016-08-04 | 株式会社エヌ・ティ・ティピー・シーコミュニケーションズ | Anonymization processing device, anonymization processing method, and program |
JP2017090716A (en) * | 2015-11-11 | 2017-05-25 | 株式会社フュートレック | Transcription text creation support system, transcription text creation support method, and transcription text creation support program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11854545B2 (en) | Privacy mode based on speaker identifier | |
US20200321008A1 (en) | Voiceprint recognition method and device based on memory bottleneck feature | |
US10027662B1 (en) | Dynamic user authentication | |
CN112102815B (en) | Speech recognition method, speech recognition device, computer equipment and storage medium | |
US10452352B2 (en) | Voice interaction apparatus, its processing method, and program | |
Mantena et al. | Query-by-example spoken term detection using frequency domain linear prediction and non-segmental dynamic time warping | |
JP2014502375A (en) | Passphrase modeling device and method for speaker verification, and speaker verification system | |
JP2005010691A (en) | Apparatus and method for speech recognition, apparatus and method for conversation control, and program therefor | |
JP7342915B2 (en) | Audio processing device, audio processing method, and program | |
US10504512B1 (en) | Natural language speech processing application selection | |
US11545136B2 (en) | System and method using parameterized speech synthesis to train acoustic models | |
JPWO2008087934A1 (en) | Extended recognition dictionary learning device and speech recognition system | |
Perero-Codosero et al. | X-vector anonymization using autoencoders and adversarial training for preserving speech privacy | |
CN112151015A (en) | Keyword detection method and device, electronic equipment and storage medium | |
Harwath et al. | Zero resource spoken audio corpus analysis | |
Savargiv et al. | Persian speech emotion recognition | |
CN118043885A (en) | Contrast twin network for semi-supervised speech recognition | |
CN116343747A (en) | Speech synthesis method, speech synthesis device, electronic device, and storage medium | |
US8639510B1 (en) | Acoustic scoring unit implemented on a single FPGA or ASIC | |
JP2008058341A (en) | Word classifying device, speech recognizing device, and word classifying program | |
KR102358485B1 (en) | Dialogue system by automatic domain classfication | |
JP6594251B2 (en) | Acoustic model learning device, speech synthesizer, method and program thereof | |
WO2016152132A1 (en) | Speech processing device, speech processing system, speech processing method, and recording medium | |
KR100776729B1 (en) | Speaker-independent variable-word keyword spotting system including garbage modeling unit using decision tree-based state clustering and method thereof | |
JP2007078943A (en) | Acoustic score calculating program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220830 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230307 |