JP2016161823A - Acoustic model learning support device and acoustic model learning support method - Google Patents
Acoustic model learning support device and acoustic model learning support method Download PDFInfo
- Publication number
- JP2016161823A JP2016161823A JP2015041467A JP2015041467A JP2016161823A JP 2016161823 A JP2016161823 A JP 2016161823A JP 2015041467 A JP2015041467 A JP 2015041467A JP 2015041467 A JP2015041467 A JP 2015041467A JP 2016161823 A JP2016161823 A JP 2016161823A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- acoustic model
- data
- speech
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
本発明は、ニューラルネットワークを用いて音声を識別する技術に関する。 The present invention relates to a technique for identifying speech using a neural network.
現在、多くのコールセンタにおいて、オペレータと顧客が話している内容は通話録音装置で録音されており、通話録音データベースのサイズは年々増加を続けている。このような通話録音データベースから特定のキーワードを含む通話を自動的に抽出することができれば、コールセンタ業務の品質や効率の向上やマーケティングへの活用に繋がると期待される。 Currently, in many call centers, what the operator and the customer are talking is recorded by a call recording device, and the size of the call recording database continues to increase year by year. If a call containing a specific keyword can be automatically extracted from such a call recording database, it is expected to improve the quality and efficiency of call center operations and use it for marketing.
通話録音データベースから通話を自動的に抽出するためには、音声認識により当該音声の文字表現を識別する必要がある。そこで、音声とその識別結果との間の対応関係をニューラルネットワークなどの自動学習器によって学習することにより、音声認識の精度を向上させることが考えられる。 In order to automatically extract a call from the call recording database, it is necessary to identify the character representation of the voice by voice recognition. Therefore, it is conceivable to improve the accuracy of speech recognition by learning the correspondence between speech and its identification result using an automatic learning device such as a neural network.
録音された音声は、その録音環境や対話内容に固有の特徴を有すると考えられる。例えばコールセンタにおけるオペレータと顧客との間の対話は、コールセンタ特有の音声品質の変動や劣化が生じ得る。音声品質が変動すると、先に自動学習した結果に基づき当該音声を識別しようとしても、入力された音声と学習済み音声が互いに乖離しているため、入力音声を精度よく識別することが困難であると考えられる。 The recorded voice is considered to have characteristics specific to the recording environment and dialogue contents. For example, conversation between an operator and a customer in a call center may cause fluctuations and deteriorations in call quality peculiar to the call center. If the voice quality fluctuates, it is difficult to accurately identify the input voice because the input voice and the learned voice are separated from each other even if the voice is identified based on the result of automatic learning. it is conceivable that.
音声識別の精度を向上させるためには、学習用音声データに音質変動を与えて多様な音声変動パターンを生成し、あらかじめこれら多様に変動した音声データとその識別結果との間の対応関係を学習しておくことが考えられる。下記特許文献1は、変動させたパラメータで計算された特徴量を用いてパターン認識モデルを学習する技術について開示している。
In order to improve the accuracy of voice recognition, various voice fluctuation patterns are generated by giving sound quality fluctuation to the voice data for learning, and the correspondence between the voice data that has fluctuated in advance and the identification result is learned. It is possible to keep it. The following
上記特許文献1記載の技術のように、認識モデルを学習する際に用いる学習データを変動させて多様な学習データを生成し、これら学習データを網羅的に全て学習すると、学習時間が多大になって学習効率が低下すると考えられる。また特徴量を変動させることによって生成した多様な学習データのなかには、必ずしも認識対象の特性に適していないものも含まれていると考えられ、このことも学習効率を低下させる要因となる。
If the learning data used when learning the recognition model is changed and various learning data is generated and all the learning data is comprehensively learned as in the technique described in
本発明は、上記のような課題に鑑みてなされたものであり、音声の文字表現を識別する音響モデルを効率的に学習するとともに、音響モデルによる音声識別精度を向上させることを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to efficiently learn an acoustic model for identifying a character representation of speech and to improve speech identification accuracy by the acoustic model.
本発明に係る音響モデル学習支援装置は、学習音声データの音声品質を変化させた変化音声データを識別する過程において得られた中間層出力値と、前記学習音声データを識別する過程において得られた中間層出力値との間の距離が大きい場合は、前記変化音声データを用いて追加学習を実施する。 The acoustic model learning support device according to the present invention is obtained in the process of identifying the learning layer data and the intermediate layer output value obtained in the process of identifying the changed sound data in which the sound quality of the learning sound data is changed. If the distance from the intermediate layer output value is large, additional learning is performed using the changed speech data.
本発明に係る音響モデル学習支援装置によれば、音響モデルによる識別精度を向上させるとともに学習効率を高めることができる。 According to the acoustic model learning support device of the present invention, it is possible to improve the identification accuracy by the acoustic model and increase the learning efficiency.
上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされるであろう。 Problems, configurations, and effects other than those described above will become apparent from the following description of embodiments.
<本発明の基本的な考え方について>
以下では本発明の理解を容易にするため、まず本発明の基本的な考え方について説明する。その後、その考え方を実現する本発明の実施形態について説明する。
<Basic concept of the present invention>
Below, in order to make an understanding of this invention easy, the basic idea of this invention is demonstrated first. Thereafter, an embodiment of the present invention that realizes the concept will be described.
一般に音響モデルの学習は、音声品質が比較的良好な音声データを用いて実施される。例えば静かな環境下において1人の話者が一定の話速で明確に発声した音声を録音し、その音声データを用いて学習を実施する。一方でコールセンタなどの環境においては、以下のような要因によりオペレータと顧客との間の対話音声の品質は必ずしもよくない。 In general, learning of an acoustic model is performed using speech data with relatively good speech quality. For example, in a quiet environment, a voice clearly uttered by a single speaker at a constant speaking speed is recorded, and learning is performed using the voice data. On the other hand, in an environment such as a call center, the quality of dialogue voice between an operator and a customer is not necessarily good due to the following factors.
(要因1)コールセンタに着呼する音声は、例えば携帯電話網などの通信路を通過する過程において劣化する場合が多い。
(要因2)通話音声の話者が複数存在するので(例えばオペレータと顧客との間の対話においては2人の話者)、話速や音声区間長などの音声特徴量の変動が大きい。
(要因3)コールセンタに着呼する音声は、不特定多数者からのものであるため、話者(特に顧客側の話者)の音声品質が話者毎に大きく異なる。
(要因4)コールセンタの録音には、呼出音や保留音などの大音量の信号が混在し、相対的に小さい話し声の音量が、著しく小さく録音されることがしばしばある。
(Factor 1) The voice that arrives at the call center often deteriorates in the process of passing through a communication path such as a cellular phone network.
(Factor 2) Since there are a plurality of call voice speakers (for example, two speakers in the dialogue between the operator and the customer), the fluctuation of the voice feature amount such as the speech speed and the voice section length is large.
(Factor 3) Since the voice to the call center is from an unspecified majority, the voice quality of the speaker (especially the customer's speaker) varies greatly from speaker to speaker.
(Factor 4) In the recording of the call center, a large volume signal such as a ringing tone or a holding tone is mixed, and the volume of a relatively small speaking voice is often recorded extremely low.
比較的音声品質の良好な学習音声データを用いて学習を実施した音響モデルを用いてこのような対話音声を識別したとしても、その識別精度は必ずしも良好ではない。これを解決するためには、最も単純には考え得る限り多様な音声品質の学習音声データを準備し、それらを網羅的に学習することが考えられる。しかしそのような多様な学習音声データのなかには、必ずしも運用環境(例えばコールセンタ)における音声を識別するのに適していないものも含まれていると考えられるので、学習時間が過大となり現実的でない。 Even if such conversational speech is identified using an acoustic model that has been trained using learning speech data with relatively good speech quality, the identification accuracy is not necessarily good. In order to solve this, the simplest possible way is to prepare learning speech data of various speech qualities as much as possible and to learn them comprehensively. However, it is considered that such various learning voice data does not necessarily include those suitable for identifying voices in the operating environment (for example, call center), so that the learning time is excessive and it is not realistic.
そこで本発明においては、運用環境における音声を識別するのに適した学習音声データをあらかじめピックアップし、学習の多様性を確保するとともに学習効率を向上させることを図る。これにより、識別精度と学習効率を両立させることができると考えられる。 Therefore, in the present invention, learning speech data suitable for identifying speech in the operating environment is picked up in advance to ensure learning diversity and improve learning efficiency. Thereby, it is considered that both the identification accuracy and the learning efficiency can be achieved.
<実施の形態1>
図1は、本発明の実施形態1に係る音響モデル学習支援装置100の機能ブロック図である。音響モデル学習支援装置100は、音響モデルを学習することを支援する装置である。ここでいう音響モデルとは、音声の特徴量を入力することによりその音声の文字表現を識別するニューラルネットワークである。例えば音響モデルに対して「日立」と発話した音声から、一部分を切り出した特徴量を入力すると、切り出した箇所に応じて、その特徴量に対応する音素が「h」「i」「t」「a」「c」「h」「i」である確率が高くなるように、各音素の出力確率がニューラルネットワークの出力値として出力される。
<
FIG. 1 is a functional block diagram of an acoustic model
音響モデル学習支援装置100は、以下に説明するステップを実施する機能部として、劣化方式選択部101、劣化音声生成部102、学習効果計算部103、学習効果提示部104、追加学習指示部105、追加学習部106、音響モデル出力部107、サンプル音声入力部108、サンプル分析部109、劣化案提示部110を備える。これら機能部の詳細については後述する。
The acoustic model
音響モデル学習支援装置100はさらに、学習音声データベース(DB)111、追加学習音声DB112、音響モデル113を備える。学習音声DB111は、音響モデル113を学習する際に用いた学習音声データを格納するデータベースである。追加学習音声DB112は、後述する劣化音声データのうち、音響モデルの追加学習を実施するのに適したものを格納するデータベースである。音響モデル113は、学習音声データを用いてあらかじめ学習を実施済みの音響モデルである。
The acoustic model
上記各機能部は、これらの機能を実現する回路デバイスなどのハードウェアを用いて構成することもできるし、これらの機能を実装したソフトウェアをCPU(Central Processing Unit)などの演算装置が実行することにより構成することもできる。上記各DBおよび音響モデル113は、ハードディスクなどの記憶装置にデータを格納することにより構成することができる。
Each of the above functional units can be configured using hardware such as a circuit device that realizes these functions, or a software that implements these functions is executed by an arithmetic device such as a CPU (Central Processing Unit). Can also be configured. Each DB and
図2は、音響モデル学習支援装置100の動作を説明するフローチャートである。以下図2の各ステップについて説明する。
FIG. 2 is a flowchart for explaining the operation of the acoustic model
(図2:ステップS201)
サンプル音声入力部108は、サンプル音声データを取得する。ここでいうサンプル音声データとは、学習音声データと比較して音声品質が劣化したものをいう。例えばコールセンタにおけるオペレータと顧客との間の実際の対話を録音したデータを、サンプル音声データとして用いることができる。本ステップにおけるサンプル音声データは、どの程度劣化した音声を音響モデルに追加学習させるとよいかについての指標を与える役割を有する。詳細は後述する。
(FIG. 2: Step S201)
The sample
(図2:ステップS202)
サンプル分析部109は、サンプル音声データを分析することによりその特徴量を取得する。特徴量の例については後述する。サンプル音声データの特徴量は、コールセンタにおいて実際にやり取りされる対話音声がどの程度劣化しているかの目安である。したがってその特徴量を分析することにより、どの程度劣化した音声を音響モデルに追加学習させればよいかを判断することができる。詳細は後述する。
(FIG. 2: Step S202)
The
(図2:ステップS203)
劣化案提示部110は、サンプル分析部109が取得したサンプル音声データの特徴量の一覧を、学習音声データに対して反映させる劣化量の候補として提示する。提示インターフェースの具体例については図5で改めて説明する。
(FIG. 2: Step S203)
The degradation
(図2:ステップS204〜S205)
ユーザは、劣化案提示部110が提示する提示インターフェース上において、サンプル音声データのいずれの特徴量を学習音声データに対して反映するかを選択し、劣化方式選択部101はその選択を受け取る(S204)。劣化音声生成部102は、劣化方式選択部101が受け取った選択項目に対応する特徴量を、学習音声DB111が格納している学習音声データに対して反映することにより、学習音声データの音声品質を劣化させた劣化音声データを生成する(S205)。
(FIG. 2: Steps S204 to S205)
The user selects which feature amount of the sample voice data is reflected on the learning voice data on the presentation interface presented by the degradation
(図2:ステップS206)
学習効果計算部103は、ステップS205において生成された劣化音声データを用いて音響モデルの追加学習を実施することによる効果を、計算する。本ステップの詳細については図3〜図4を用いて後述する。
(FIG. 2: Step S206)
The learning
(図2:ステップS207)
学習効果提示部104は、ステップS206において計算された学習効果を、提示インターフェースを介して提示する。本ステップの詳細については図5を用いて後述する。
(FIG. 2: Step S207)
The learning
(図2:ステップS208)
ユーザは、ステップS207において提示される学習効果が十分であると判断する場合は、学習効果提示部104が提示する提示インターフェース上において、劣化音声データを用いて音響モデルの追加学習を実施するよう指示する。追加学習指示部105はその指示を受け取り、当該劣化音声データを用いて追加学習を実施するよう追加学習部106に対して指示する。
(FIG. 2: Step S208)
If the user determines that the learning effect presented in step S207 is sufficient, the user instructs to perform additional learning of the acoustic model using the degraded speech data on the presentation interface presented by the learning
(図2:ステップS209〜S210)
追加学習部106は、追加学習指示部105からの指示にしたがって、劣化音声データを用いて音響モデルの追加学習を実施する(S209)。ユーザは提示インターフェースを介して、追加学習が完了した音響モデルを送信するように音響モデル学習支援装置100に対してリクエストし、音響モデル出力部107はそのリクエストにしたがって音響モデル113から音響モデルを取得して送信する(S210)。
(FIG. 2: Steps S209 to S210)
The
図3は、ステップS206の詳細を説明するフローチャートである。以下図3の各ステップについて説明する。 FIG. 3 is a flowchart for explaining details of step S206. Hereinafter, each step of FIG. 3 will be described.
(図3:ステップS301〜S302)
学習効果計算部103は、学習音声DB111が格納している学習音声データのうち、劣化音声生成部102が生成した劣化音声データと文字表現が同じものを取得する(S301)。学習効果計算部103は、学習音声データの特徴量を抽出し、音響モデル113が格納している音響モデルの入力層に対してその特徴量を入力する(S302)。
(FIG. 3: Steps S301 to S302)
The learning
(図3:ステップS303)
音響モデル(およびこれを用いる識別器)は、入力された特徴量を用いて、学習音声データの音素の文字表現を識別する。音響モデルを用いた識別処理の過程において、音響モデルの中間層はそれぞれ出力値を出力する。学習効果計算部103は、その中間層出力値を取得する。
(FIG. 3: Step S303)
The acoustic model (and a discriminator using the acoustic model) identifies the phoneme character representation of the learning speech data using the input feature amount. In the course of the identification process using the acoustic model, each intermediate layer of the acoustic model outputs an output value. The learning
(図3:ステップS304〜S306)
学習効果計算部103は、劣化音声生成部102が生成した劣化音声データに対して、ステップS301〜S303と同様の処理を実施する。これにより、文字表現としては同一である2つの音声データ(学習音声データと劣化音声データ)それぞれについて、その特徴量を表す中間層出力が得られることになる。
(FIG. 3: Steps S304 to S306)
The learning
(図3:ステップS307)
学習効果計算部103は、ステップS303とS306においてそれぞれ取得した2つの中間層出力間の距離を計算する。この距離としては、例えば特徴量ベクトル間のユークリッド距離を用いることができるが、その他適当な手法により距離を計算してもよい。
(FIG. 3: Step S307)
The learning
(図3:ステップS308〜S309)
ステップS307において計算した距離が所定閾値以上である場合(S308)、学習効果計算部103(または学習効果提示部104)はその劣化音声データを追加学習音声DB112に格納する(S309)。距離が閾値未満である場合(S308)、当該劣化音声データは音響モデルの追加学習の際に使用しないので、追加学習音声DB112には格納しない。追加学習音声DB112を設けることに代えて、例えば学習音声DB111が格納している学習音声データが追加学習に適しているか否かを示すフラグなどのフィールドを設けることにより、同様の動作を実現することもできる。
(FIG. 3: Steps S308 to S309)
When the distance calculated in step S307 is greater than or equal to the predetermined threshold (S308), the learning effect calculation unit 103 (or learning effect presentation unit 104) stores the deteriorated voice data in the additional learning voice DB 112 (S309). When the distance is less than the threshold value (S308), the degraded speech data is not used in the additional learning of the acoustic model and is not stored in the additional
図4は、ステップS301〜S306の処理イメージを示す図である。音響モデルに対して学習音声データの特徴量が入力され、ニューラルネットワークの後段に進むにしたがってその特徴量が集約され、当該音声が表している音素の確率が識別結果として出力層から出力される。音響モデルが学習音声データの特徴量を集約する過程において、中間層は学習音声データの特徴量に対応する値を出力すると考えられる。一方、劣化音声データの音素表現を識別する過程においても同様の処理が実施され、中間層は劣化音声データの特徴量に対応する値を出力すると考えられる。 FIG. 4 is a diagram showing a processing image of steps S301 to S306. Feature values of learning speech data are input to the acoustic model, and the feature amounts are aggregated as the neural network advances to the subsequent stage, and the probability of phonemes represented by the speech is output as an identification result from the output layer. In the process in which the acoustic model aggregates the feature values of the learning speech data, it is considered that the intermediate layer outputs a value corresponding to the feature amount of the learning speech data. On the other hand, it is considered that the same processing is performed in the process of identifying the phoneme representation of the degraded speech data, and the intermediate layer outputs a value corresponding to the feature amount of the degraded speech data.
中間層出力値は、音響モデルが各音声データの特徴量をどのように処理したかを表していると考えられる。学習音声データから得られた中間層出力値と、劣化音声データから得られた中間層出力値との間の距離が小さい場合、これら音声データは音響モデルの内部的には概ね同様の処理過程を経て識別されたと考えられるので、そのような劣化音声データを追加学習しても、学習の多様性を確保する観点からは冗長であると思われる。 The intermediate layer output value is considered to represent how the acoustic model processed the feature amount of each audio data. When the distance between the intermediate layer output value obtained from the learning speech data and the intermediate layer output value obtained from the degraded speech data is small, these speech data are processed in the acoustic model roughly in the same way. Therefore, even if additional learning is performed on such degraded speech data, it is considered redundant from the viewpoint of ensuring the diversity of learning.
一方で中間層出力値間の距離が大きい場合、これら音声データは音響モデルの内部的に異なる処理過程を経て識別されたと考えられる。そのような劣化音声データを追加学習することにより、音響モデルは新たな内部状態を学習することになるので、学習の多様性を確保することができると考えられる。また劣化音声データは運用環境(例えばコールセンタ)における実際の音声データに与えられる劣化を模擬したものであるから、追加学習によって識別精度が向上すると考えられる。 On the other hand, when the distance between the intermediate layer output values is large, it is considered that these audio data are identified through different processing processes inside the acoustic model. By additionally learning such degraded speech data, the acoustic model learns a new internal state, so it is considered that diversity of learning can be ensured. Moreover, since the degraded voice data simulates the degradation given to the actual voice data in the operational environment (for example, a call center), it is considered that the identification accuracy is improved by additional learning.
そこで学習効果計算部103は、図4に示すように中間層出力値間の距離を計算し、これが基準閾値以上である場合はその劣化音声データが追加学習に適していると判断して、追加学習音声DB112に格納することとした。なお劣化音声データに対応する学習音声データが複数存在する場合、後述するように基準閾値を満たす距離の平均値を、学習効果とみなすことができる。
Therefore, the learning
音響モデルが多段的に構成されている場合、各中間層の出力値はそれぞれ音声データの特徴量を表していると考えられるので、いずれの出力値を用いて距離を計算してもよい。ただしニューラルネットワークの出力層に近いほど、それより前段の情報が集約されて音声特徴量をより的確に反映していると考えられるので、出力層の1段前における中間層出力間の距離をS307において用いるのが望ましい。 When the acoustic model is configured in multiple stages, the output value of each intermediate layer is considered to represent the feature amount of the audio data, and the distance may be calculated using any output value. However, the closer to the output layer of the neural network, the more information in the previous stage is gathered and it is considered that the voice feature amount is more accurately reflected. Therefore, the distance between the intermediate layer outputs one stage before the output layer is expressed as S307. It is desirable to use in.
図5は、音響モデル学習支援装置100が提供する提示インターフェース500の画面イメージである。図5に示す提示インターフェース500は、例えば学習効果提示部104、劣化案提示部110、その他適当な機能部が、ディスプレイなどの表示装置を介してGUI(Graphical User Interface)として提供することができる。
FIG. 5 is a screen image of the
ユーザはステップS201において、サンプル音声データ指定欄501においてサンプル音声データを指定し、分析ボタン502を押下する。サンプル音声入力部108は指定されたサンプル音声データを取得し、サンプル分析部109は分析を開始する。
In step S <b> 201, the user specifies sample audio data in the sample audio
サンプル分析部109は、ステップS202においてサンプル音声データの特徴量を抽出する。抽出する特徴量としては、(a)音量、(b)コーデック、(c)周波数、(d)話速、(e)音声区間長、(f)声道長、などが考えられる。図5に示す例においては、(a)〜(c)を抽出した例を示した。サンプル分析部109は、サンプル音声データの上記特徴量を抽出し、ステップS203において図5の<パラメータ>欄に表示する。
In step S202, the
本実施形態1においてはコールセンタの対話を想定しているところ、コールセンタにおける顧客音声の劣化要因として最も顕著なのは、顧客音声の音量である。また顧客音声をコールセンタにおいて適当な符号化方式により符号化する際にも、その符号化方式に応じた劣化が生じ得る。そこで図5に示す例においては、これらをサンプル音声データの特徴量として抽出することとした。 In the first embodiment, when call center interaction is assumed, the most prominent factor of customer voice deterioration in the call center is the volume of the customer voice. In addition, when customer speech is encoded by an appropriate encoding method at a call center, deterioration corresponding to the encoding method may occur. Therefore, in the example shown in FIG. 5, these are extracted as feature amounts of sample audio data.
さらに、サンプル音声データの周波数のうちある範囲を超える(または下回る)ものがカットされている場合、当該サンプル音声データに対して周波数フィルタが適用されていると考えられる。これも音声品質を劣化させる要因となるので、図5に示す例においてはこれらフィルタが適用されているか否かおよびそのカット周波数をサンプル音声データの特徴量として抽出することとした。 Furthermore, when the frequency of sample audio data that exceeds (or falls below) a certain range is cut, it is considered that a frequency filter is applied to the sample audio data. Since this also causes a deterioration in voice quality, in the example shown in FIG. 5, whether or not these filters are applied and the cut frequency are extracted as feature quantities of the sample voice data.
ユーザはステップS204において、サンプル分析部109が抽出した特徴量のうちいずれを学習音声データに対して反映するかを、劣化方法欄503のチェックボックスにより選択する。併せて適用順序欄504においてその適用順序を指定することもできる。
In step S <b> 204, the user selects which of the feature amounts extracted by the
ステップS206においてユーザが学習効果測定ボタン505を押下すると、学習効果計算部103は図3〜図4で説明した中間層出力値間の距離を計算する。学習効果提示部104は、ステップS207においてその距離を学習効果として提示する。学習効果計算部103は、中間層出力値間の距離が基準閾値以上である劣化音声データを追加学習候補とみなすので、提示インターフェース500が提示する距離は、計算した距離のうち基準閾値を満たすものの平均である。
When the user presses the learning
学習効果計算部103はさらに、劣化音声データを用いて音響モデルの追加学習を実施する場合における学習データ量と所要追加学習時間を計算し、学習効果提示部104を介して提示することもできる。これらは基準閾値を満たす学習音声データおよび現在の音響モデルのサイズなどから計算することができる。
The learning
ユーザは、提示インターフェース500が提示する学習効果が十分であると判断する場合は、追加学習実施ボタン506を押下する。追加学習指示部105はその指示を受け取り、追加学習部106は当該劣化音声データを用いて追加学習を開始する。追加学習完了後の音響モデルをダウンロードする場合、ユーザは音響モデルダウンロードボタン507を押下し、音響モデル出力部107はこれに応じて音響モデル113から音響モデルを取得して送信する。
When the user determines that the learning effect presented by the
<実施の形態1:まとめ>
以上のように、本実施形態1に係る音響モデル学習支援装置100は、学習音声データを識別する過程において得られる中間層出力値と、劣化音声データを識別する過程において得られる中間層出力値との間の距離を計算し、この距離が大きい劣化音声データを用いて追加学習を実施する。これにより、劣化音声データのうち学習効果が大きいと想定されるものに絞って追加学習を実施することができるので、学習効率を高めることができる。
<Embodiment 1: Summary>
As described above, the acoustic model learning
本実施形態1に係る音響モデル学習支援装置100は、運用環境におけるサンプル音声データの音声品質を劣化させることにより劣化音声データを作成する。これにより、運用環境における音声識別に適した音声を学習することができるので、識別精度を向上させることができる。
The acoustic model learning
本実施形態1に係る音響モデル学習支援装置100は、サンプル音声データの特徴量を分析し、その特徴量を学習音声データに対して反映することにより、劣化音声データを生成する。これにより、運用環境における音声品質劣化を反映した追加学習を実施することができるので、識別精度を向上させることができる。
The acoustic model learning
<実施の形態2>
実施形態1においては、1つの学習音声データに対して図5の適用順序欄504に示す順序にしたがって劣化特徴量を反映することを説明した。このとき劣化音声生成部102は、同一の学習音声データから複数の劣化音声データを生成することもできる。例えば適用順序1位の特徴量を反映した第1劣化音声データと、適用順序2位の特徴量を反映した第2劣化音声データとを生成することができる。
<
In the first embodiment, it has been described that the deterioration feature amount is reflected on one learning voice data according to the order shown in the
第1劣化音声データと第2劣化音声データそれぞれについての中間層出力値が基準閾値を満たしている場合、学習効果計算部103は原則としてこれら2つとも追加学習音声DB112に格納する。ただしこれら2つの中間層出力値が近接している場合、いずれか一方のみでも十分な学習効果が得られると考えられる。そこで学習効果計算部103は、第1劣化音声データについて取得した中間層出力値と、第2劣化音声データについて取得した中間層出力値との間の距離をさらに計算し、これらが第2基準閾値以上である場合に限り双方とも追加学習音声DB112に格納し、第2基準閾値未満であればいずれか一方のみを格納する(あるいはいずれも格納しない)ようにしてもよい。これにより、多様な劣化音声データを生成して学習の多様性を確保するとともに、冗長な追加学習を抑制することができる。
When the intermediate layer output value for each of the first deteriorated sound data and the second deteriorated sound data satisfies the reference threshold, the learning
<本発明の変形例について>
本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。上記実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることもできる。また、ある実施形態の構成に他の実施形態の構成を加えることもできる。また、各実施形態の構成の一部について、他の構成を追加・削除・置換することもできる。
<Modification of the present invention>
The present invention is not limited to the embodiments described above, and includes various modifications. The above embodiment has been described in detail for easy understanding of the present invention, and is not necessarily limited to the one having all the configurations described. A part of the configuration of one embodiment can be replaced with the configuration of another embodiment. The configuration of another embodiment can be added to the configuration of a certain embodiment. Further, with respect to a part of the configuration of each embodiment, another configuration can be added, deleted, or replaced.
以上の実施形態においては、コールセンタにおける通話音声の品質が劣化することを想定し、劣化音声生成部102は学習音声データの音声品質を劣化させることを説明した。ただし運用環境によっては、音声品質以外の特徴量が識別精度に影響を与える可能性も考えられる。そこで運用環境によっては、劣化音声生成部102は運用環境の特性に応じて学習音声データの音声特徴量を変化させることにより変化音声データを生成し、学習効果計算部103は学習音声データの中間層出力値と変化音声データの中間層出力値との間の距離を計算する。これにより、コールセンタ以外の様々な運用環境において、識別精度を向上させるとともに学習効率を高めることができると考えられる。
In the above embodiment, it was assumed that the quality of the call voice at the call center deteriorates, and the deteriorated
上記各構成、機能、処理部、処理手段等は、それらの一部や全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記録装置、ICカード、SDカード、DVD等の記録媒体に格納することができる。 Each of the above-described configurations, functions, processing units, processing means, and the like may be realized in hardware by designing a part or all of them, for example, with an integrated circuit. Each of the above-described configurations, functions, and the like may be realized by software by interpreting and executing a program that realizes each function by the processor. Information such as programs, tables, and files for realizing each function can be stored in a recording device such as a memory, a hard disk, an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.
100:音響モデル学習支援装置、101:劣化方式選択部、102:劣化音声生成部、103:学習効果計算部、104:学習効果提示部、105:追加学習指示部、106:追加学習部、107:音響モデル出力部、108:サンプル音声入力部、109:サンプル分析部、110:劣化案提示部、111:学習音声DB、112:追加学習音声DB、113:音響モデル。 DESCRIPTION OF SYMBOLS 100: Acoustic model learning assistance apparatus, 101: Degradation method selection part, 102: Deterioration voice production | generation part, 103: Learning effect calculation part, 104: Learning effect presentation part, 105: Additional learning instruction | indication part, 106: Additional learning part, 107 : Acoustic model output unit, 108: sample voice input unit, 109: sample analysis unit, 110: degradation plan presentation unit, 111: learning voice DB, 112: additional learning voice DB, 113: acoustic model.
Claims (10)
前記音響モデルを記述した音響モデルデータを格納する記憶部、
前記音響モデルを学習するために用いる学習音声データの特徴量を変化させることにより変化音声データを生成する変化音声生成部、
前記音響モデルを用いて前記学習音声データを識別した結果得られた前記音響モデルの中間層出力値と、前記音響モデルを用いて前記変化音声データを識別した結果得られた前記音響モデルの中間層出力値との間の第1距離を算出する距離計算部、
前記第1距離が第1閾値以上である場合、前記変化音声データは前記音響モデルの追加学習を実施する際に用いるのに適した候補である旨を示すデータを出力する、学習効果提示部、
を備えることを特徴とする音響モデル学習支援装置。 An acoustic model learning support device that supports learning an acoustic model, which is a neural network that identifies a character representation of the speech by inputting a feature amount of the speech,
A storage unit for storing acoustic model data describing the acoustic model;
A change sound generation unit that generates change sound data by changing a feature amount of learning sound data used for learning the acoustic model;
An intermediate layer output value of the acoustic model obtained as a result of identifying the learning speech data using the acoustic model, and an intermediate layer of the acoustic model obtained as a result of identifying the changed speech data using the acoustic model A distance calculator for calculating a first distance between the output values;
A learning effect presentation unit that outputs data indicating that the change voice data is a candidate suitable for use in performing additional learning of the acoustic model when the first distance is equal to or greater than a first threshold;
An acoustic model learning support device comprising:
前記変化音声生成部は、前記サンプル分析部が取得した前記サンプル音声データの特徴量を前記学習音声データに対して反映することにより、前記学習音声データの特徴量を変化させる
ことを特徴とする請求項1記載の音響モデル学習支援装置。 The acoustic model learning support device includes a sample analysis unit that analyzes a feature amount of sample audio data,
The change speech generation unit changes the feature amount of the learning speech data by reflecting the feature amount of the sample speech data acquired by the sample analysis unit to the learning speech data. Item 4. The acoustic model learning support device according to Item 1.
前記音響モデルが前記学習音声データを識別した際に前記音響モデルの出力層の1つ前段の中間層出力値を取得するとともに、前記音響モデルが前記変化音声データを識別した際に前記出力層の1つ前段の中間層出力値を取得し、
取得した各前記中間層出力値間の距離を前記第1距離として算出する
ことを特徴とする請求項1記載の音響モデル学習支援装置。 The distance calculator is
When the acoustic model identifies the learning speech data, an intermediate layer output value immediately preceding the output layer of the acoustic model is acquired, and when the acoustic model identifies the change speech data, Get the previous middle layer output value,
The acoustic model learning support apparatus according to claim 1, wherein a distance between the acquired intermediate layer output values is calculated as the first distance.
前記距離計算部は、前記音響モデルを用いて第1の前記変化音声データを識別した結果得られた前記音響モデルの中間層出力値と、前記音響モデルを用いて第2の前記変化音声データを識別した結果得られた前記音響モデルの中間層出力値との間の第2距離を算出し、
前記学習効果提示部は、前記第1の変化音声データについて算出した前記第1距離が前記第1閾値以上であるとともに、前記第2距離が第2閾値以上である場合に限り、前記第1の変化音声データは前記音響モデルの追加学習を実施する際に用いるのに適した候補である旨を示すデータを出力する
ことを特徴とする請求項1記載の音響モデル学習支援装置。 The change sound generation unit generates a plurality of the change sound data using the same learning sound data,
The distance calculating unit obtains the intermediate layer output value of the acoustic model obtained as a result of identifying the first changed sound data using the acoustic model, and the second changed sound data using the acoustic model. Calculating a second distance between the acoustic model and the intermediate layer output value obtained as a result of the identification;
The learning effect presenting unit is configured so that the first distance calculated for the first change voice data is not less than the first threshold and the second distance is not less than the second threshold. The acoustic model learning support apparatus according to claim 1, wherein the change speech data outputs data indicating that the change speech data is a candidate suitable for use in performing additional learning of the acoustic model.
前記変化音声生成部は、前記操作インターフェースを介して指定された前記サンプル音声データの特徴量を前記変化音声データに対して反映する
ことを特徴とする請求項2記載の音響モデル学習支援装置。 The acoustic model learning support device presents the feature amount of the sample sound data acquired by the sample analysis unit and specifies the feature amount of the sample sound data to be reflected to the learning sound data. With
The acoustic model learning support device according to claim 2, wherein the change sound generation unit reflects the feature amount of the sample sound data designated via the operation interface to the change sound data.
前記音響モデル学習支援装置は、前記第1距離が前記第1閾値以上である場合、各前記学習音声データについての前記第1距離の平均を提示する、学習効果提示インターフェースを備える
ことを特徴とする請求項1記載の音響モデル学習支援装置。 The distance calculation unit calculates the first distance for a plurality of learning speech data,
The acoustic model learning support device includes a learning effect presentation interface that presents an average of the first distances for each of the learning speech data when the first distance is equal to or greater than the first threshold. The acoustic model learning support device according to claim 1.
前記サンプル音声データの音量、
前記サンプル音声データのコーデック、
前記サンプル音声データの周波数、
前記サンプル音声データの話速、
前記サンプル音声データの音声区間長、
前記サンプル音声データの声道長、
のうち少なくともいずれかを前記サンプル音声データの特徴量として分析する
ことを特徴とする請求項2記載の音響モデル学習支援装置。 The sample analysis unit
The volume of the sample audio data;
Codec of the sample audio data;
The frequency of the sample audio data;
The speaking speed of the sample voice data,
Voice interval length of the sample voice data,
Vocal tract length of the sample audio data,
The acoustic model learning support device according to claim 2, wherein at least one of them is analyzed as a feature amount of the sample audio data.
前記学習音声データの音量を変更する、
前記学習音声データのコーデックを変更する、
前記学習音声データの周波数を変更する、
前記学習音声データの話速を変更する、
前記学習音声データの音声区間長を変更する、
前記学習音声データの声道長を変更する、
のうち少なくともいずれかを実施することにより、前記学習音声データの特徴量を変化させる
ことを特徴とする請求項1記載の音響モデル学習支援装置。 The change sound generator is
Changing the volume of the learning voice data;
Changing the codec of the learning speech data;
Changing the frequency of the learning speech data;
Changing the speech speed of the learning voice data;
Changing the voice interval length of the learning voice data;
Changing the vocal tract length of the learning voice data;
The acoustic model learning support apparatus according to claim 1, wherein the feature amount of the learning speech data is changed by performing at least one of the following.
前記変化音声データを用いて前記音響モデルの追加学習を実施するよう前記音響モデル学習支援装置に対して指示する学習指示インターフェース、
前記学習指示インターフェースが受け取った指示に基づき前記変化音声データを用いて前記音響モデルの追加学習を実施する追加学習部、
を備えることを特徴とする請求項1記載の音響モデル学習支援装置。 The acoustic model learning support device includes:
A learning instruction interface for instructing the acoustic model learning support device to perform additional learning of the acoustic model using the change voice data;
An additional learning unit that performs additional learning of the acoustic model using the changed voice data based on an instruction received by the learning instruction interface;
The acoustic model learning support apparatus according to claim 1, further comprising:
前記音響モデルを記述した音響モデルデータを記憶部に格納するステップ、
前記音響モデルを学習するために用いる学習音声データの特徴量を変化させることにより変化音声データを生成する変化音声生成ステップ、
前記音響モデルを用いて前記学習音声データを識別した結果得られた前記音響モデルの中間層出力値と、前記音響モデルを用いて前記変化音声データを識別した結果得られた前記音響モデルの中間層出力値との間の第1距離を算出する距離計算ステップ、
前記第1距離が第1閾値以上である場合、前記変化音声データは前記音響モデルの追加学習を実施する際に用いるのに適した候補である旨を示すデータを出力する、学習効果提示ステップ、
を有することを特徴とする音響モデル学習支援方法。
An acoustic model learning support method for supporting learning of an acoustic model, which is a neural network that identifies character representations of speech by inputting speech feature values,
Storing acoustic model data describing the acoustic model in a storage unit;
A change sound generation step of generating change sound data by changing a feature amount of learning sound data used for learning the acoustic model;
An intermediate layer output value of the acoustic model obtained as a result of identifying the learning speech data using the acoustic model, and an intermediate layer of the acoustic model obtained as a result of identifying the changed speech data using the acoustic model A distance calculating step for calculating a first distance between the output values;
A learning effect presentation step of outputting data indicating that the change voice data is a candidate suitable for use in performing additional learning of the acoustic model when the first distance is equal to or greater than a first threshold;
An acoustic model learning support method characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015041467A JP6306528B2 (en) | 2015-03-03 | 2015-03-03 | Acoustic model learning support device and acoustic model learning support method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015041467A JP6306528B2 (en) | 2015-03-03 | 2015-03-03 | Acoustic model learning support device and acoustic model learning support method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016161823A true JP2016161823A (en) | 2016-09-05 |
JP6306528B2 JP6306528B2 (en) | 2018-04-04 |
Family
ID=56846917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015041467A Active JP6306528B2 (en) | 2015-03-03 | 2015-03-03 | Acoustic model learning support device and acoustic model learning support method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6306528B2 (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020071516A (en) * | 2018-10-29 | 2020-05-07 | 富士フイルム株式会社 | Information processing apparatus, information processing method, and program |
WO2020183807A1 (en) * | 2019-03-14 | 2020-09-17 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Information processing method and information processing system |
WO2021132099A1 (en) * | 2019-12-24 | 2021-07-01 | 株式会社 東京ウエルズ | Learning support device, learning device, learning support method, and learning support program |
WO2021234905A1 (en) * | 2020-05-21 | 2021-11-25 | 日本電信電話株式会社 | Learning data generation device, model learning device, learning data generation method, and program |
WO2021234904A1 (en) * | 2020-05-21 | 2021-11-25 | 日本電信電話株式会社 | Training data generation device, model training device, training data generation method, and program |
WO2023281640A1 (en) | 2021-07-07 | 2023-01-12 | 三菱電機株式会社 | Data processing device and data processing method |
JP7404924B2 (en) | 2019-04-30 | 2023-12-26 | 富士通株式会社 | Reduced training time with automatic data inflating |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04295894A (en) * | 1991-03-26 | 1992-10-20 | Sanyo Electric Co Ltd | Voice recognition method by neural network model |
JPH05181500A (en) * | 1991-11-26 | 1993-07-23 | Sekisui Chem Co Ltd | Word recognition system |
JPH08146996A (en) * | 1994-11-25 | 1996-06-07 | Sanyo Electric Co Ltd | Speech recognition device |
JPH0981190A (en) * | 1995-09-13 | 1997-03-28 | Sanyo Electric Co Ltd | Learning method for neural network and voice recognition device |
JP2005031258A (en) * | 2003-07-09 | 2005-02-03 | Canon Inc | Device and method for learning recognition model |
-
2015
- 2015-03-03 JP JP2015041467A patent/JP6306528B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04295894A (en) * | 1991-03-26 | 1992-10-20 | Sanyo Electric Co Ltd | Voice recognition method by neural network model |
JPH05181500A (en) * | 1991-11-26 | 1993-07-23 | Sekisui Chem Co Ltd | Word recognition system |
JPH08146996A (en) * | 1994-11-25 | 1996-06-07 | Sanyo Electric Co Ltd | Speech recognition device |
JPH0981190A (en) * | 1995-09-13 | 1997-03-28 | Sanyo Electric Co Ltd | Learning method for neural network and voice recognition device |
JP2005031258A (en) * | 2003-07-09 | 2005-02-03 | Canon Inc | Device and method for learning recognition model |
Non-Patent Citations (1)
Title |
---|
神田 直之, 外2名: "「Deep Neural Networkに基づく日本語音声認識の基礎評価」", 情報処理学会 研究報告 音声言語情報処理(SLP) 2013−SLP−97 [ONLINE], JPN6018006395, 26 July 2013 (2013-07-26), JP, pages 1 - 6, ISSN: 0003746360 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11710567B2 (en) | 2018-10-29 | 2023-07-25 | Fujifilm Corporation | Information processing apparatus, information processing method, and program |
JP7049974B2 (en) | 2018-10-29 | 2022-04-07 | 富士フイルム株式会社 | Information processing equipment, information processing methods, and programs |
JP2020071516A (en) * | 2018-10-29 | 2020-05-07 | 富士フイルム株式会社 | Information processing apparatus, information processing method, and program |
WO2020183807A1 (en) * | 2019-03-14 | 2020-09-17 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Information processing method and information processing system |
JP7348945B2 (en) | 2019-03-14 | 2023-09-21 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | Information processing method and information processing system |
JP7404924B2 (en) | 2019-04-30 | 2023-12-26 | 富士通株式会社 | Reduced training time with automatic data inflating |
WO2021132099A1 (en) * | 2019-12-24 | 2021-07-01 | 株式会社 東京ウエルズ | Learning support device, learning device, learning support method, and learning support program |
JP2021103344A (en) * | 2019-12-24 | 2021-07-15 | 株式会社 東京ウエルズ | Learning support device, learning device, learning support method and learning support program |
JP7298825B2 (en) | 2019-12-24 | 2023-06-27 | 株式会社 東京ウエルズ | Learning support device, learning device, learning support method, and learning support program |
WO2021234905A1 (en) * | 2020-05-21 | 2021-11-25 | 日本電信電話株式会社 | Learning data generation device, model learning device, learning data generation method, and program |
WO2021234904A1 (en) * | 2020-05-21 | 2021-11-25 | 日本電信電話株式会社 | Training data generation device, model training device, training data generation method, and program |
WO2023281640A1 (en) | 2021-07-07 | 2023-01-12 | 三菱電機株式会社 | Data processing device and data processing method |
KR20240001332A (en) | 2021-07-07 | 2024-01-03 | 미쓰비시덴키 가부시키가이샤 | Data processing devices and data processing methods |
Also Published As
Publication number | Publication date |
---|---|
JP6306528B2 (en) | 2018-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6306528B2 (en) | Acoustic model learning support device and acoustic model learning support method | |
US20190005954A1 (en) | Wake-on-voice method, terminal and storage medium | |
CN109767765A (en) | Talk about art matching process and device, storage medium, computer equipment | |
CN110473525B (en) | Method and device for acquiring voice training sample | |
CN111081280B (en) | Text-independent speech emotion recognition method and device and emotion recognition algorithm model generation method | |
KR20140025361A (en) | Location-based conversational understanding | |
JP2021099536A (en) | Information processing method, information processing device, and program | |
CN110136715B (en) | Speech recognition method and device | |
US20140207451A1 (en) | Method and Apparatus of Adaptive Textual Prediction of Voice Data | |
US10971149B2 (en) | Voice interaction system for interaction with a user by voice, voice interaction method, and program | |
KR20040088368A (en) | Method of speech recognition using variational inference with switching state space models | |
US8868419B2 (en) | Generalizing text content summary from speech content | |
JP2021101252A (en) | Information processing method, information processing apparatus, and program | |
CN107680584B (en) | Method and device for segmenting audio | |
CN111462727A (en) | Method, apparatus, electronic device and computer readable medium for generating speech | |
CN114663556A (en) | Data interaction method, device, equipment, storage medium and program product | |
US20200075042A1 (en) | Detection of music segment in audio signal | |
JP7340630B2 (en) | Multi-speaker diarization of speech input using neural networks | |
CN112863496A (en) | Voice endpoint detection method and device | |
CN113763968B (en) | Method, apparatus, device, medium, and product for recognizing speech | |
KR20200082240A (en) | Apparatus for determining title of user, system including the same, terminal and method for the same | |
CN114999440A (en) | Avatar generation method, apparatus, device, storage medium, and program product | |
CN113051426A (en) | Audio information classification method and device, electronic equipment and storage medium | |
JP4877112B2 (en) | Voice processing apparatus and program | |
CN113689844B (en) | Method, device, equipment and storage medium for determining speech synthesis model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170310 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180308 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6306528 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |