JP6936936B2

JP6936936B2 - ウェイクアップモデルの最適化方法、装置、デバイス及び記憶媒体

Info

Publication number: JP6936936B2
Application number: JP2019219602A
Authority: JP
Inventors: ヨンカオジャン、
Original assignee: バイドゥオンラインネットワークテクノロジー（ベイジン）カンパニーリミテッド; シャンハイシャオドゥテクノロジーカンパニーリミテッド
Priority date: 2019-06-27
Filing date: 2019-12-04
Publication date: 2021-09-22
Anticipated expiration: 2039-12-04
Also published as: JP2021006889A; US20200411000A1; CN110310628B; US11189287B2; CN110310628A

Description

本開示は、通信技術分野に関し、特にウェイクアップモデルの最適化方法、装置、デバイス及び記憶媒体に関する。

モバイルスマートデバイスの急速な普及に伴い、音声という人間にとって自然で便利な形態はヒューマンマシンインタラクションでは日々盛んになっている。現在、携帯電話の音声アシスタント、スマートスピーカー、音声対話ロボット、音声制御をサポートするテレビなどの音声対話機能を持つスマートデバイスは次々と現れて多くのインターネット企業や革新的な企業が次々と参入してきた。ユーザーフィードバック及びユーザー調査によると、音声対話は確かにユーザーの利便性を大きく向上させる。

ウェイクアップワード検出（ＨｏｔｗｏｒｄＤｅｔｅｃｔｉｏｎ）技術は音声関連技術の重要な構成要素として、音声対話全体を通して最初の環節であり、全体の対話作用の満足度にとって重要な役割を果たす。ウェイクアップシステムには、ウェイクアップ率と誤りウェイクアップという２つの重要な指標があり、ウェイクアップ率が可能な限り高く、同時に誤りウェイクアップが可能な限り低くする必要がある。しかし、ウェイクアップシステムの場合、これらの２つの指標は、高いウェイクアップ率を追求すると、より多くの誤りウェイクアップをトリガーしやすい―シーソーのような関係があり、例えば、市販されているスマートバックミラーの一部は、車内のユーザーがチャットする時、誤りウェイクアップをトリガーすることが多く、車内の他のユーザーに影響を与えるだけでなく、またドライバーの注意力を分散し、ユーザーの体験を大幅に低下させる。どのように誤りウェイクアップを大幅に削減しながら高いウェイクアップ率を確保することは、ユーザー体験を向上させる重要な一環である。

従来技術では、ウェイクアップワード検出技術は、元のテンプレートマッチングベースの検出技術から現在のニューラルネットワークベースの音響モデルモデリングスキームに進化しており、ウェイクアップワード検出技術は次第に成熟しており、同時にウェイクアップ性能に対する要件もますます高まっている。中でも、ニューラルネットワークに基づいてウェイクアップワードをモデリングするためのスキームの概略は、トレーニングセット及び検証セットを取得し、トレーニングセット及び検証セットに基づいて複数回の反復トレーニングを行い、ウェイクアップモデルを得て、続いてモデルを最適化し、予め収集されたチューニングセットによってウェイクアップモデルを最適化することである。ただし、チューニングセットでの誤りウェイクアップデータの数が限られているため、全体的な最適化段階の効果が遅くなる。また、ウェイクアップモデルが最適化されるにつれて、予め収集されたチューニングセットによる収益が急速に低下し、その結果、ウェイクアップモデルに対する最適化効率及び効果が悪くなり、モデルの安定性に影響を与える。

本開示の実施例は、ウェイクアップモデルに対する最適化効率及び効果を向上させ、ウェイクアップモデルの安定性及び適応性を改善でき、過剰適合を回避するために、ウェイクアップモデルの最適化方法、装置、デバイス及び記憶媒体を提供する。

本開示の実施例の第１態様にて提供されるウェイクアップモデルの最適化方法は、
トレーニングセット及び検証セットを取得するステップと、
前記トレーニングセット及び前記検証セットに基づいてウェイクアップモデルに対して反復トレーニングを行うステップと、
反復トレーニング過程で、周期的に前記ウェイクアップモデル及び予め設定されたコーパスに基づいて前記トレーニングセット及び前記検証セットを更新し、且つ更新後のトレーニングセット及び検証セットに基づいて前記ウェイクアップモデルに対して反復トレーニングを続けるステップと、
予め設定された中止条件に達すると、前記ウェイクアップモデルを出力するステップと、を含む。

本開示の実施例の第２態様にて提供されるウェイクアップモデルの最適化装置は、
トレーニングセット及び検証セットを取得するための取得モジュールと、
前記トレーニングセット及び前記検証セットに基づいてウェイクアップモデルに対して反復トレーニングを行うためのトレーニングモジュールと、
反復トレーニング過程で、周期的に前記ウェイクアップモデル及び予め設定されたコーパスに基づいて前記トレーニングセット及び前記検証セットを更新するためのチューニングモジュールと、
予め設定された中止条件に達すると、前記ウェイクアップモデルを出力するための出力モジュールと、を含み、
前記トレーニングモジュールは更に、更新後のトレーニングセット及び検証セットに基づいて前記ウェイクアップモデルに対して反復トレーニングを続けるために用いられる。

本開示の実施例の第３態様にて提供されるウェイクアップモデルの最適化デバイスは、
メモリと、
プロセッサと、
前記メモリに記憶され、且つ第１態様に記載の方法を実現するように前記プロセッサにより実行されるように配置されるコンピュータプログラムと、を含む。

本開示の実施例の第４態様にて提供されるコンピュータ読み取り可能な記憶媒体は、コンピュータプログラムが記憶されており、前記コンピュータプログラムがプロセッサに実行される時に第１態様に記載の方法を実現する。

本開示の実施例によるウェイクアップモデルの最適化方法、装置、デバイス及び記憶媒体は、トレーニングセット及び検証セットを取得し、前記トレーニングセット及び前記検証セットに基づいてウェイクアップモデルに対して反復トレーニングを行い、反復トレーニング過程で、周期的に前記ウェイクアップモデル及び予め設定されたコーパスに基づいて前記トレーニングセット及び前記検証セットを更新し、且つ更新後のトレーニングセット及び検証セットに基づいて前記ウェイクアップモデルに対して反復トレーニングを続け、予め設定された中止条件に達すると、前記ウェイクアップモデルを出力する。これにより、本開示の実施例は、反復過程で周期的にウェイクアップモデル及び予め設定されたコーパスに基づいてトレーニングセット及び検証セットを更新することにより、ウェイクアップモデルに対する最適化効率及び効果を向上でき、ウェイクアップモデルの安定性及び適応性を改善でき、過剰適合を回避する。

本開示の実施例、又は従来技術における技術的解決手段をより明確に説明するために、以下では、実施例、又は従来技術の説明で使用する必要のある図面を簡単に説明する。明らかなように、以下説明した図面は、本開示のいくつかの実施例だけであり、当業者にとって、創造的な労力を要することなく、これらの図面に基づいて他の図面を得ることができる。
本開示の実施例によるウェイクアップモデルの最適化方法のフローチャートである。本開示の別の実施例によるウェイクアップモデルの最適化方法のフローチャートである。本開示の別の実施例によるウェイクアップモデルの最適化方法のフローチャートである。本開示の別の実施例によるウェイクアップモデルの最適化方法のフローチャートである。本開示の実施例によるウェイクアップモデルの最適化装置の構造図である。本開示の実施例によるウェイクアップモデルの最適化デバイスの構造図である。

以下、本開示の実施例の図面を参照しながら、本開示の実施例における技術的解決手段を明確的且つ全面的に説明する。当然ながら、説明する実施例は、本開示の一部の実施例にすぎず、すべての実施例ではない。当業者によって本開示の実施例に基づいて創造的な労力を払わずに得られるすべてのその他の実施例は、本開示の範囲内に属する。

図１は、本開示の実施例によるウェイクアップモデルの最適化方法のフローチャートである。本実施例はウェイクアップモデルの最適化方法を提供し、該方法は具体的には、ステップＳ１０１〜ステップＳ１０４を含む。

Ｓ１０１、トレーニングセット及び検証セットを取得する。

本実施例では、トレーニングセットはウェイクアップモデルをトレーニングする音声データであり、検証セットはトレーニング後のウェイクアップモデルを検証し、ウェイクアップモデルの能力を予備的に評価する音声データである。具体的には、まず正例データ及び反例データを取得した後、正例データ及び反例データをトレーニングセット及び検証セットに分割し、当然ながら、本実施例では試験セットをさらに含んでもよく、ここでは説明を省略する。

より具体的には、図２に示すように、本実施例に記載の、トレーニングセット及び検証セットを取得するステップは、具体的には、
ウェイクアップワードセット及び誤りウェイクアップワードセットを取得するＳ１０１１と、
前記ウェイクアップワードセット及び前記誤りウェイクアップワードセットに基づいてそれぞれ正例データ及び反例データを取得するＳ１０１２と、
前記正例データ及び前記反例データから前記トレーニングセット及び前記検証セットを得るＳ１０１３と、を含んでもよい。

本実施例では、まず、ウェイクアップワードを有する音声データを含むウェイクアップワードセット、及び誤りウェイクアップワードを有する音声データを含む誤りウェイクアップワードセットを取得し、さらにウェイクアップワードセット内のデータを直接的に正例データとし、誤りウェイクアップワードセット内のデータを直接的に反例データとすることができ、当然ながら、ウェイクアップワードセット及び誤りウェイクアップワードセット内のデータに対して、例えばデータに対してデータ拡張操作を行うなど、予め定められた処理を行った後に正例データ及び反例データを得ることもでき、例を挙げると、ウェイクアップワードセット及び誤りウェイクアップワードセット内のデータに対して、予め設定されたノイズデータ及び／又はリバーブデータを重畳し、及び／又は前記目標データの再生話速を調整し、これにより実環境における人間の音声状況をシミュレーションする。正例データ及び反例データを取得した後、正例データ及び反例データを混合し、予め設定された割合でトレーニングセット及び検証セットに分割し、分割過程についてランダム分割を採用できる。

Ｓ１０２、前記トレーニングセット及び前記検証セットに基づいてウェイクアップモデルに対して反復トレーニングを行う。

本実施例では、ウェイクアップモデルはニューラルネットワークモデルであってよく、トレーニングセット及び検証セットによってニューラルネットワークモデルに対して反復トレーニングを行うことができ、具体的な反復トレーニング過程は当該技術分野で通常用いられている反復トレーニング方法を採用でき、ここでは説明を省略する。

Ｓ１０３、反復トレーニング過程で、周期的に前記ウェイクアップモデル及び予め設定されたコーパスに基づいて前記トレーニングセット及び前記検証セットを更新し、且つ更新後のトレーニングセット及び検証セットに基づいて前記ウェイクアップモデルに対して反復トレーニングを続ける。

本実施例では、ウェイクアップモデルに対して反復トレーニングを行う過程で、周期的にトレーニングセット及び検証セットを更新し、トレーニングセット及び検証セットに対するチューニング化を実現することができ、更新後のトレーニングセット及び検証セットに基づいて前記ウェイクアップモデルに対して反復トレーニングを続けると、モデルの安定性及び適応性を改善でき、過剰適合を回避する。本実施例では、前記予め設定されたコーパスとして、音楽、ドラマ、ニュース、チャットコーパス及びその他のノイズセットのような大量コーパスを選択し、現在のウェイクアップモデルに基づいて予め設定されたコーパスから一定数のセンテンス（音声データ）を選別し、トレーニングセット及び検証セットを更新することができる。さらに、通常ウェイクアップワードが固定的であるため、本実施例では現在のウェイクアップモデルのみに基づいて予め設定されたコーパスから予め設定された数の誤りウェイクアップの発生したセンテンスを選別し、トレーニングセット及び検証セット内の反例データを更新してよい。

Ｓ１０４、予め設定された中止条件に達すると、前記ウェイクアップモデルを出力する。

本実施例では、予め設定された中止条件は反復トレーニングの回数が予め設定された回数に達するか、又はウェイクアップモデルの正確度が予め設定された閾値に達すると、反復トレーニングを中止し、さらにウェイクアップモデルを出力することであり得る。

本実施例によるウェイクアップモデルの最適化方法は、トレーニングセット及び検証セットを取得し、前記トレーニングセット及び前記検証セットに基づいてウェイクアップモデルに対して反復トレーニングを行い、反復トレーニング過程で、周期的に前記ウェイクアップモデル及び予め設定されたコーパスに基づいて前記トレーニングセット及び前記検証セットを更新し、且つ更新後のトレーニングセット及び検証セットに基づいて前記ウェイクアップモデルに対して反復トレーニングを続け、予め設定された中止条件に達すると、前記ウェイクアップモデルを出力する。これにより、本実施例は、反復過程で周期的にウェイクアップモデル及び予め設定されたコーパスに基づいてトレーニングセット及び検証セットを更新することにより、ウェイクアップモデルに対する最適化効率及び効果を向上でき、ウェイクアップモデルの安定性及び適応性を改善でき、過剰適合を回避する。

上記実施例のうえで、図３に示すように、Ｓ１０３に記載の、周期的に前記ウェイクアップモデル及び予め設定されたコーパスに基づいて前記トレーニングセット及び前記検証セットを更新するステップは、具体的には、
予め設定された反復回数を１つの反復周期とし、各反復周期の終了時に、前記予め設定されたコーパス内のセンテンスを前記ウェイクアップモデルに入力し、ウェイクアップ結果を取得するＳ２０１と、
前記ウェイクアップ結果に基づき、予め設定された数の誤りウェイクアップの発生したセンテンスを取得するＳ２０２と、
前記予め設定された数の誤りウェイクアップの発生したセンテンスに基づいて前記トレーニングセット及び前記検証セット内の反例データを更新するＳ２０３と、を含むことができる。

本実施例では、予め設定された反復回数を１つの反復周期としてよく、例えば予め設定された反復回数をＴとし、現在の反復回数ｉを記録することにより、ｉがＴの整数倍に達する場合、つまり現在の反復周期が終了する場合、予め設定されたコーパス内のセンテンスを現在のウェイクアップモデルに入力し、ウェイクアップ結果を取得し、ウェイクアップ結果には、ウェイクアップ成功及びウェイクアップ失敗の両方を含み、ウェイクアップ成功の場合は、ウェイクアップワードによるウェイクアップ及び誤りウェイクアップの両方を含み、本実施例では、誤りウェイクアップの発生したセンテンスを選んでトレーニングセット及び検証セット内の反例データを更新する。具体的には、まず、ウェイクアップに成功するセンテンスを選別し、ウェイクアップに成功するセンテンスから非ウェイクアップワードのセンテンスを前記誤りウェイクアップのセンテンスとして選別することができる。当然ながら、他の手段を用いて、誤りウェイクアップの発生したセンテンスを取得してもよい。誤りウェイクアップの発生したセンテンスに対する選別が現在のウェイクアップモデルに基づく選別であるため、得られた選別結果はターゲット性が強く、次の反復トレーニング過程でウェイクアップモデルをよりよく最適化し、ウェイクアップモデルの適応性及び安定性を改善できる。本実施例では、正例データ及び反例データの割合が固定的であり、且つ正例データの数が一定に保たれるため、更新後の正例データ及び反例データの割合が一定に保たれるように、適切な、誤りウェイクアップの発生したセンテンスの数（つまり予め設定された数）を取得する必要がある。

上記実施例のうえで、図４に示すように、Ｓ２０２に記載の、前記ウェイクアップ結果に基づき、予め設定された数の誤りウェイクアップの発生したセンテンスを取得するステップは、
誤りウェイクアップの発生したセンテンスについて、誤りウェイクアップ確率を取得するＳ２０２１と、
前記誤りウェイクアップ確率に基づいて誤りウェイクアップの発生したセンテンスをソートし、その中で誤りウェイクアップ確率が比較的高い、予め設定された数の誤りウェイクアップの発生したセンテンスを選ぶＳ２０２２と、を含む。

本実施例では、誤りウェイクアップの発生したセンテンスを選別する時、その中で誤りウェイクアップが最も発生しやすいセンテンスを選別でき、具体的には、誤りウェイクアップの発生したセンテンスごとの誤りウェイクアップ確率を取得し、そしてその中で誤りウェイクアップ確率が比較的高い、予め設定された数の誤りウェイクアップの発生したセンテンスを選ぶことで、さらにウェイクアップモデルに対するターゲット性を向上でき、ウェイクアップモデルに対する最適化効果を向上させる。

さらに、上記実施例では、Ｓ２０３に記載の、前記予め設定された数の誤りウェイクアップの発生したセンテンスに基づいて前記トレーニングセット及び前記検証セット内の反例データを更新するステップは、具体的には、
前記予め設定された数の誤りウェイクアップの発生したセンテンスに対してデータ拡張操作を行った後に前記トレーニングセット及び前記検証セット内の反例データを更新するステップを含んでよい。

上記実施例では、トレーニングセット及び検証セット内の正例データ及び反例データがいずれもデータ拡張操作後のデータであってよいため、更新後のトレーニングセット及び検証セットが更新前のデータ構成と一致するように維持するために、取得した予め設定された数の誤りウェイクアップの発生したセンテンスに対してデータ拡張操作を行い、さらにトレーニングセット及び検証セット内の反例データを更新してもよく、ただし、データ拡張操作によって誤りウェイクアップの発生したセンテンスに対して予め設定されたノイズデータ及び／又はリバーブデータを重畳し、及び／又は前記誤りウェイクアップの発生したセンテンスの再生話速を調整することができる。

上記いずれかの実施例のうえで、本実施例では前記データ拡張操作を詳細に説明し、前記データ拡張操作は具体的には、
データ拡張操作が行われる目標データに対して、予め設定されたノイズデータ及び／又はリバーブデータを重畳すること、及び／又は前記目標データの再生話速を調整することを含むことができる。

本実施例では、予め設定されたノイズデータは、例えば公共の場所のノイズ、室内のノイズ、天候の異なる環境ノイズなどのような異なる環境のノイズデータを含むことができ、目標データに予め設定されたノイズデータを重畳する場合、さらに異なる信号対雑音比で重畳してもよく、これにより異なるノイズ環境での目標データをシミュレーションできる。予め設定されたリバーブデータは、異なる空間における目標データをシミュレーションするように、異なるリバーブパラメータ値を含むことができる。また、目標データの再生話速を調整することもできる。当然ながら、データ拡張操作は、上記の３種に限定されるものではなく、目標データの音響特性を調整できる他の操作であってもよい。本実施例では、上記の少なくとも１種のデータ拡張操作を用いて目標データを拡張し、異なる実環境における人間の音声のシミュレーションを実現し、異なる実環境におけるウェイクアップモデルの適応性及び安定性を改善できる。

図５は、本開示の実施例によるウェイクアップモデルの最適化装置の構造図である。本実施例によるウェイクアップモデルの最適化装置はウェイクアップモデルの最適化方法の実施例による処理フローを実行でき、図５に示すように、前記ウェイクアップモデルの最適化装置は、取得モジュール５１と、トレーニングモジュール５２と、チューニングモジュール５３と、出力モジュール５４と、を含む。

そのうち、取得モジュール５１は、トレーニングセット及び検証セットを取得するために用いられ、
トレーニングモジュール５２は、前記トレーニングセット及び前記検証セットに基づいてウェイクアップモデルに対して反復トレーニングを行うために用いられ、
チューニングモジュール５３は、反復トレーニング過程で、周期的に前記ウェイクアップモデル及び予め設定されたコーパスに基づいて前記トレーニングセット及び前記検証セットを更新するために用いられ、
トレーニングモジュール５２はまた、更新後のトレーニングセット及び検証セットに基づいて前記ウェイクアップモデルに対して反復トレーニングを続けるために用いられ、
出力モジュール５４は、予め設定された中止条件に達すると、前記ウェイクアップモデルを出力するために用いられる。

上記実施例のうえで、前記チューニングモジュール５３は、
予め設定された反復回数を１つの反復周期とし、各反復周期の終了時に、前記予め設定されたコーパス内のセンテンスを前記ウェイクアップモデルに入力し、ウェイクアップ結果を取得し、
前記ウェイクアップ結果に基づき、予め設定された数の誤りウェイクアップの発生したセンテンスを取得し、
前記予め設定された数の誤りウェイクアップの発生したセンテンスに基づいて前記トレーニングセット及び前記検証セット内の反例データを更新するために用いられる。

上記いずれかの実施例のうえで、前記チューニングモジュール５３は、
誤りウェイクアップの発生したセンテンスについて、誤りウェイクアップ確率を取得し、
前記誤りウェイクアップ確率に基づいて誤りウェイクアップの発生したセンテンスをソートし、その中で誤りウェイクアップ確率が比較的高い、予め設定された数の誤りウェイクアップの発生したセンテンスを選ぶために用いられる。

上記いずれかの実施例のうえで、前記取得モジュール５１は、
ウェイクアップワードセット及び誤りウェイクアップワードセットを取得し、
前記ウェイクアップワードセット及び前記誤りウェイクアップワードセットに基づいてそれぞれ正例データ及び反例データを取得し、
前記正例データ及び前記反例データから前記トレーニングセット及び前記検証セットを得るために用いられる。

上記いずれかの実施例のうえで、前記装置５０は、データ拡張モジュール５５をさらに含み、
取得モジュール５１により呼び出され、前記ウェイクアップワードセット及び前記誤りウェイクアップワードセット内のデータに対してデータ拡張操作を行い、前記正例データ及び前記反例データを得るために用いられる。

上記いずれかの実施例のうえで、前記データ拡張モジュール５５は更に、
前記チューニングモジュール５３により呼び出され、前記予め設定された数の誤りウェイクアップの発生したセンテンスに対してデータ拡張操作を行った後に前記トレーニングセット及び前記検証セット内の反例データを更新するために用いられる。

上記いずれかの実施例のうえで、前記データ拡張モジュール５５は、
データ拡張操作が行われる目標データに対して、予め設定されたノイズデータ及び／又はリバーブデータを重畳し、及び／又は
前記目標データの再生話速を調整するために用いられる。

本開示の実施例によるウェイクアップモデルの最適化装置は具体的には上記の図１〜図４による方法の実施例を実行するために用いられてもよく、具体的な機能についてここでは説明を省略する。

本開示の実施例によるウェイクアップモデルの最適化装置は、トレーニングセット及び検証セットを取得し、前記トレーニングセット及び前記検証セットに基づいてウェイクアップモデルに対して反復トレーニングを行い、反復トレーニング過程で、周期的に前記ウェイクアップモデル及び予め設定されたコーパスに基づいて前記トレーニングセット及び前記検証セットを更新し、且つ更新後のトレーニングセット及び検証セットに基づいて前記ウェイクアップモデルに対して反復トレーニングを続け、予め設定された中止条件に達すると、前記ウェイクアップモデルを出力する。これにより、本開示の実施例は、反復過程で周期的にウェイクアップモデル及び予め設定されたコーパスに基づいてトレーニングセット及び検証セットを更新することにより、ウェイクアップモデルに対する最適化効率及び効果を向上でき、ウェイクアップモデルの安定性及び適応性を改善でき、過剰適合を回避する。

図６は、本開示の実施例によるウェイクアップモデルの最適化デバイスの概略構造図である。本開示の実施例によるウェイクアップモデルの最適化デバイスはウェイクアップモデルの最適化方法の実施例による処理フローを実行でき、図６に示すように、ウェイクアップモデルの最適化デバイス６０は、メモリ６１と、プロセッサ６２と、コンピュータプログラムと、通信インタフェース６３と、を含む。そのうち、コンピュータプログラムは、メモリ６１に記憶され、且つプロセッサ６２により以上の実施例に記載のウェイクアップモデルの最適化方法を実行するように配置される。

図６に示される実施例のウェイクアップモデルの最適化デバイスは上記方法の実施例の技術的解決手段を実行するために用いることができ、その実現原理及び技術的効果は同様であるため、ここでは説明を省略する。

また、本実施例はコンピュータ読み取り可能な記憶媒体を更に提供し、コンピュータプログラムが記憶されており、上記実施例に記載のウェイクアップモデルの最適化方法を実現するように前記コンピュータプログラムがプロセッサに実行される。

理解されるように、本開示によるいくつかの実施例に開示されている装置及び方法は、その他の形態により実施されてもよい。例えば、以上に説明された装置の実施例は例示的なものにすぎない。例えば、前記ユニットの分割は、論理機能上の分割にすぎず、実際に実現する際に別の形態で分割されてもよく、例えば、複数のユニット又は部品を別のシステムに組み合わせるか又は集積させてもよいし、又は一部の特徴を無視するか、又は実行しなくてもよい。また、説明又は検討した互いの結合又は直接的な結合又は通信接続は、いくつかのインタフェース、装置又はユニットによる間接的結合又は通信接続であってよく、電気的形態、機械的形態又はその他の形態であってもよい。

前記分離される部品として説明されるユニットは、物理的に分離されるものでもよければ、分離されないものであってもよい。ユニットとして示される部品は、物理的なユニットであってもよいが、物理的なユニットでなくてもよい。即ち、同一の場所に設けられるものであってもよいが、複数のネットワークユニットに配置されるものであってもよい。必要に応じて、一部のユニットだけを用いるか、又はすべてのユニットを使用して本実施例に係る発明の目的を達成することができる。

また、本開示の各実施例において、各機能ユニットが１つの処理ユニットに集積されてもよいが、各ユニットが単独で物理的な部品として存在するか、又は２つ以上のユニットが１つのユニットに集積されてもよい。上記集積ユニットはハードウェアの形態として実現されてもよいし、ハードウェアとソフトウェアを組み合わせた機能ユニットの形態として実現されてもよい。

ソフトウェア機能ユニットの形で実現された上記集積ユニットは、コンピュータ読み取り可能な記憶媒体に記憶されることができる。上記ソフトウェア機能ユニットは、記憶媒体に記憶され、コンピュータ機器（パソコン、サーバ、又はネットワーク機器など）又はプロセッサ（ｐｒｏｃｅｓｓｏｒ）に本開示の各実施例による前記方法の一部のステップを実行させるためのいくつかのコマンドを含む。前記記憶媒体は、ＵＳＢフラッシュドライブ、モバイルハードディスク、読み出し専用メモリ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、磁気ディスク又はコンパクトディスクなど、プロクラムコードを記憶可能な様々な媒体を含む。

当業者に自明なように、説明の利便さ及び簡素化から、上記各機能モジュールの分割を例にして説明したが、実際に使用される時、必要に応じて、上記機能を異なる機能モジュールで完了してもよく、即ち、装置の内部構造を異なる機能モジュールに分割して、以上に説明したすべての機能又はその部分を完成する。上記説明された装置の具体的な作動過程については、前述した方法の実施例における対応過程を参照すればよいため、ここでは説明を省略する。

最後、以上の各実施例は、本開示の技術的解決手段を説明するためのものであって、これを制限するものではない。前述した各実施例を参照しながら、本開示について、詳細に説明したが、当業者であれば、前述した各実施例に説明されている技術的解決手段に対する修正や、そのうちの一部又はすべての技術的特徴に対する同等置換が可能であり、これらの修正や、置換が、対応する技術的解決手段の本質を本開示の各実施例の技術的解決手段の範囲から逸脱させないことは、当然理解されるものである。

Claims

ウェイクアップモデルの最適化方法であって、
トレーニングセット及び検証セットを取得するステップと、
前記トレーニングセット及び前記検証セットに基づいてウェイクアップモデルに対して反復トレーニングを行うステップと、
反復トレーニング過程で、周期的に前記ウェイクアップモデル及び予め設定されたコーパスに基づいて前記トレーニングセット及び前記検証セットを更新し、且つ更新後のトレーニングセット及び検証セットに基づいて前記ウェイクアップモデルに対して反復トレーニングを続けるステップと、
予め設定された中止条件に達すると、前記ウェイクアップモデルを出力するステップと、を含み、
ここで、周期的に前記ウェイクアップモデル及び予め設定されたコーパスに基づいて前記トレーニングセット及び前記検証セットを更新する前記ステップは、
予め設定された反復回数を１つの反復周期とし、各反復周期の終了時に、前記予め設定されたコーパス内のセンテンスを前記ウェイクアップモデルに入力し、ウェイクアップ結果を取得するステップと、
前記ウェイクアップ結果に基づき、予め設定された数の誤りウェイクアップの発生したセンテンスを取得するステップと、
前記予め設定された数の誤りウェイクアップの発生したセンテンスに基づいて前記トレーニングセット及び前記検証セット内の反例データを更新するステップと、を含むことを特徴とするウェイクアップモデルの最適化方法。
前記ウェイクアップ結果に基づき、予め設定された数の誤りウェイクアップの発生したセンテンスを取得する前記ステップは、
誤りウェイクアップの発生したセンテンスについて、誤りウェイクアップ確率を取得するステップと、
前記誤りウェイクアップ確率に基づいて誤りウェイクアップの発生したセンテンスをソートし、その中で誤りウェイクアップ確率が比較的高い、予め設定された数の誤りウェイクアップの発生したセンテンスを選ぶステップと、を含むことを特徴とする請求項１に記載の方法。
トレーニングセット及び検証セットを取得する前記ステップは、
ウェイクアップワードセット及び誤りウェイクアップワードセットを取得するステップと、
前記ウェイクアップワードセット及び前記誤りウェイクアップワードセットに基づいてそれぞれ正例データ及び反例データを取得するステップと、
前記正例データ及び前記反例データから前記トレーニングセット及び前記検証セットを得るステップと、を含むことを特徴とする請求項１に記載の方法。
前記ウェイクアップワードセット及び前記誤りウェイクアップワードセットに基づいてそれぞれ正例データ及び反例データを取得する前記ステップは、
前記ウェイクアップワードセット及び前記誤りウェイクアップワードセット内のデータに対してデータ拡張操作を行い、前記正例データ及び前記反例データを得るステップを含むことを特徴とする請求項３に記載の方法。
前記予め設定された数の誤りウェイクアップの発生したセンテンスに基づいて前記トレーニングセット及び前記検証セット内の反例データを更新する前記ステップは、
前記予め設定された数の誤りウェイクアップの発生したセンテンスに対してデータ拡張操作を行った後に前記トレーニングセット及び前記検証セット内の反例データを更新するステップを含むことを特徴とする請求項１に記載の方法。
前記データ拡張操作は、
データ拡張操作が行われる目標データに対して、予め設定されたノイズデータ及び／又はリバーブデータを重畳すること、及び／又は
前記目標データの再生話速を調整することを含むことを特徴とする請求項４又は請求項５に記載の方法。
ウェイクアップモデルの最適化装置であって、
トレーニングセット及び検証セットを取得するための取得モジュールと、
前記トレーニングセット及び前記検証セットに基づいてウェイクアップモデルに対して反復トレーニングを行うためのトレーニングモジュールと、
反復トレーニング過程で、周期的に前記ウェイクアップモデル及び予め設定されたコーパスに基づいて前記トレーニングセット及び前記検証セットを更新するためのチューニングモジュールと、
予め設定された中止条件に達すると、前記ウェイクアップモデルを出力するための出力モジュールと、を含み、
前記トレーニングモジュールは更に、更新後のトレーニングセット及び検証セットに基づいて前記ウェイクアップモデルに対して反復トレーニングを続けるために用いられ、
ここで、前記チューニングモジュールは更に、
予め設定された反復回数を１つの反復周期とし、各反復周期の終了時に、前記予め設定されたコーパス内のセンテンスを前記ウェイクアップモデルに入力し、ウェイクアップ結果を取得し、
前記ウェイクアップ結果に基づき、予め設定された数の誤りウェイクアップの発生したセンテンスを取得し、
前記予め設定された数の誤りウェイクアップの発生したセンテンスに基づいて前記トレーニングセット及び前記検証セット内の反例データを更新するために用いられることを特徴とするウェイクアップモデルの最適化装置。
前記チューニングモジュールは、
誤りウェイクアップの発生したセンテンスについて、誤りウェイクアップ確率を取得し、
前記誤りウェイクアップ確率に基づいて誤りウェイクアップの発生したセンテンスをソートし、その中で誤りウェイクアップ確率が比較的高い、予め設定された数の誤りウェイクアップの発生したセンテンスを選ぶために用いられることを特徴とする請求項７に記載の装置。
前記取得モジュールは、
ウェイクアップワードセット及び誤りウェイクアップワードセットを取得し、
前記ウェイクアップワードセット及び前記誤りウェイクアップワードセットに基づいてそれぞれ正例データ及び反例データを取得し、
前記正例データ及び前記反例データから前記トレーニングセット及び前記検証セットを得るために用いられることを特徴とする請求項７に記載の装置。
前記取得モジュールにより呼び出され、前記ウェイクアップワードセット及び前記誤りウェイクアップワードセット内のデータに対してデータ拡張操作を行い、前記正例データ及び前記反例データを得るためのデータ拡張モジュールをさらに含むことを特徴とする請求項９に記載の装置。
前記チューニングモジュールにより呼び出され、前記予め設定された数の誤りウェイクアップの発生したセンテンスに対してデータ拡張操作を行った後に前記トレーニングセット及び前記検証セット内の反例データを更新するためのデータ拡張モジュールをさらに含むことを特徴とする請求項７に記載の装置。
前記データ拡張モジュールは、
データ拡張操作が行われる目標データに対して、予め設定されたノイズデータ及び／又はリバーブデータを重畳し、及び／又は
前記目標データの再生話速を調整するために用いられることを特徴とする請求項１０又は請求項１１に記載の装置。
ウェイクアップモデルの最適化デバイスであって、
メモリと、
プロセッサと、
前記メモリに記憶され、且つ請求項１乃至請求項６のいずれか一項に記載の方法を実現するように前記プロセッサにより実行されるように配置されるコンピュータプログラムと、を含むことを特徴とするウェイクアップモデルの最適化デバイス。
コンピュータ読み取り可能な記憶媒体であって、
コンピュータプログラムが記憶されており、
前記コンピュータプログラムがプロセッサに実行される時に請求項１乃至請求項６のいずれか一項に記載の方法を実現することを特徴とするコンピュータ読み取り可能な記憶媒体。