JP7005099B2

JP7005099B2 - 音声キーワードの認識方法、装置、コンピュータ読み取り可能な記憶媒体、及びコンピュータデバイス

Info

Publication number: JP7005099B2
Application number: JP2020540799A
Authority: JP
Inventors: ▲ジュン▼ 王; 丹 ▲蘇▼; ▲棟▼ ▲兪▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-01-31
Filing date: 2019-01-22
Publication date: 2022-01-21
Anticipated expiration: 2039-01-22
Also published as: JP2021512362A; EP3748629C0; CN110444193A; EP3748629B1; WO2019149108A1; CN108305617B; EP3748629A4; CN110444195A; CN110444193B; US20200286465A1; CN108305617A; EP3748629A1; US11222623B2; CN110444195B

Description

本出願は、２０１８年０１月３１日に中国専利局に提出した、出願番号が２０１８１００９６４７２.Ｘであって、発明の名称が「音声キーワードの認識方法と装置」である中国特許出願の優先権を主張し、本出願で、その全ての内容を援用するものとする。

本出願は、コンピュータ技術の分野に関し、特に、音声キーワードの認識方法、装置、コンピュータ読み取り可能な記憶媒体、及びコンピュータデバイスに関する。

音声技術の開発とインタラクティブ体験の向上に伴い、ユーザは、特定のタスクを完了するために電子機器の音声制御など、音声を介して電子機器とインタラクションをする意欲をますます高めている。音声キーワードの認識とは、連続音声信号に所定のキーワードが存在するかどうかを認識することを指し、電子機器ウェイクアップ、対話型インタラクティブインターフェース初期化、音声インデックスと検索、及び音声パスワード認証などの方面で広く適用される。

従来の音声キーワード認識方法は、まず、認識対象音声信号から音響特徴を抽出し、当該音響特徴を１つの予めトレーニングされたディープニューラルネットワークモデルに入力し、さらに、当該ディープニューラルネットワークモデルによって出力された確率と、人為的に設定された決定ロジックに基づいて、当該音声信号に所定のキーワードが存在するかどうかを認識することである。ただし、従来の方法は、人為的に設定された決定ロジックに非常に敏感であり、通常、適用シナリオ又は所定のキーワードが変更されるたびに、新しい適用シナリオに適応させるために、人為的に決定ロジックを真面目に調整する必要があり、普遍性は高くない。

本出願で提供される様々な実施例によれば、音声キーワードの認識方法、装置、コンピュータ読み取り可能な記憶媒体、及びコンピュータデバイスを提供する。

ユーザ端末又はサーバが実行する音声キーワードの認識方法であって、
認識対象音声信号に基づいて、各第１の音声セグメントを取得するステップと、
事前設定された第１の分類モデルにより、各前記第１の音声セグメントにそれぞれ対応する各第１の確率を取得するステップであって、前記第１の確率には、前記第１の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率を含むステップと、
前記認識対象音声信号に基づいて各第２の音声セグメントを取得し、各前記第２の音声セグメントに対応する第１の音声セグメントに対応する第１の確率に基づいて、各前記第２の音声セグメントの第１の予測特徴をそれぞれ生成するステップと、
事前設定された第２の分類モデルにより、各前記第１の予測特徴に基づいて分類して、各前記第２の音声セグメントにそれぞれ対応する各第２の確率を取得するステップであって、前記第２の確率には、前記第２の音声セグメントが前記所定のキーワードに対応する確率及び前記所定のキーワードに対応しない確率の少なくとも１つを含むステップと、
前記第２の確率に基づいて、前記認識対象音声信号に前記所定のキーワードが存在するかどうかを決定するステップと、を含む。

音声キーワードの認識装置であって、
認識対象音声信号に基づいて、各第１の音声セグメントを取得するための第１の音声セグメント取得モジュールと、
事前設定された第１の分類モデルにより、各前記第１の音声セグメントにそれぞれ対応する各第１の確率を取得するための第１の確率取得モジュールであって、前記第１の確率には、前記第１の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率を含む第１の確率取得モジュールと、
前記認識対象音声信号に基づいて各第２の音声セグメントを取得し、各前記第２の音声セグメントに対応する第１の音声セグメントに対応する第１の確率に基づいて、各前記第２の音声セグメントの第１の予測特徴をそれぞれ生成するための予測特徴生成モジュールと、
事前設定された第２の分類モデルにより、各前記第１の予測特徴に基づいて分類して、各前記第２の音声セグメントにそれぞれ対応する各第２の確率を取得するための第２の確率取得モジュールであって、前記第２の確率には、前記第２の音声セグメントが前記所定のキーワードに対応する確率及び前記所定のキーワードに対応しない確率の少なくとも１つを含む第２の確率取得モジュールと、
前記第２の確率に基づいて、前記認識対象音声信号に前記所定のキーワードが存在するかどうかを決定するためのキーワード認識モジュールと、を含む。

コンピュータ読み取り可能な記憶媒体であって、コンピュータプログラムが記憶されており、前記コンピュータプログラムは、プロセッサによって実行される場合に、
認識対象音声信号に基づいて、各第１の音声セグメントを取得するステップと、
事前設定された第１の分類モデルにより、各前記第１の音声セグメントにそれぞれ対応する各第１の確率を取得するステップであって、前記第１の確率には、前記第１の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率を含むステップと、
前記認識対象音声信号に基づいて各第２の音声セグメントを取得し、各前記第２の音声セグメントに対応する第１の音声セグメントに対応する第１の確率に基づいて、各前記第２の音声セグメントの第１の予測特徴をそれぞれ生成するステップと、
事前設定された第２の分類モデルにより、各前記第１の予測特徴に基づいて分類して、各前記第２の音声セグメントにそれぞれ対応する各第２の確率を取得するステップであって、前記第２の確率には、前記第２の音声セグメントが前記所定のキーワードに対応する確率及び前記所定のキーワードに対応しない確率の少なくとも１つを含むステップと、
前記第２の確率に基づいて、前記認識対象音声信号に前記所定のキーワードが存在するかどうかを決定するステップと、を前記プロセッサに実行させる。

コンピュータデバイスであって、メモリとプロセッサとを含み、前記メモリにはコンピュータプログラムが記憶されており、前記コンピュータプログラムは、前記プロセッサによって実行される場合に、
認識対象音声信号に基づいて、各第１の音声セグメントを取得するステップと、
事前設定された第１の分類モデルにより、各前記第１の音声セグメントにそれぞれ対応する各第１の確率を取得するステップであって、前記第１の確率には、前記第１の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率を含むステップと、
前記認識対象音声信号に基づいて各第２の音声セグメントを取得し、各前記第２の音声セグメントに対応する第１の音声セグメントに対応する第１の確率に基づいて、各前記第２の音声セグメントの第１の予測特徴をそれぞれ生成するステップと、
事前設定された第２の分類モデルにより、各前記第１の予測特徴に基づいて分類して、各前記第２の音声セグメントにそれぞれ対応する各第２の確率を取得するステップであって、前記第２の確率には、前記第２の音声セグメントが前記所定のキーワードに対応する確率及び前記所定のキーワードに対応しない確率の少なくとも１つを含むステップと、
前記第２の確率に基づいて、前記認識対象音声信号に前記所定のキーワードが存在するかどうかを決定するステップとを、前記プロセッサに実行させる。

本出願の一つ又は複数の実施例の詳細は、以下の添付の図面及び説明において提供される。本出願の他の特徴、目的、及び利点は、明細書、添付の図面、及び特許請求の範囲から明らかになる。

本出願の実施例における技術案をより明確に説明するために、以下、実施例の説明において使用する必要がある図面を簡単に紹介し、もちろん、以下に記述の図面が本出願のいくつかの実施例に過ぎず、当業者にとって、創造的な労力をしない前提で、これらの図面に応じて他の図面を得ることもできる。

一実施例における音声キーワードの認識方法の適用環境の図である。一実施例における音声キーワードの認識方法の概略フローチャートである。一実施例におけるＣＮＮモデルのトポロジー構造の概略図である。一実施例における音声キーワードの認識システムのアーキテクチャの概略図である。一実施例における音声信号のスペクトル及び対応する第１の確率の概略図である。一実施例における所定の決定ロジックに基づく仮判断の概略フローチャートである。一実施例における図６に基づいて追加されたステップの概略フローチャートである。一実施例における所定の決定ロジックに基づく仮判断の概略フローチャートである。一実施例における第１の分類モデルをトレーニングする方法の概略フローチャートである。一実施例における第２の分類モデルをトレーニングする方法の概略フローチャートである。他の実施例における音声キーワードの認識方法の概略フローチャートである。一実施例における音声キーワードの認識装置の構成ブロック図である。一実施例におけるコンピュータデバイスの構成ブロック図である。一実施例におけるコンピュータデバイスの構成ブロック図である。

本出願の目的、技術案及び利点をより明確にするために、本出願について、添付の図面及び実施例と合わせて以下にさらに詳細に説明する。ここで記述される具体的な実施例は、本出願を解釈するためにのみ使用され、本出願を限定するために使用されないことを理解されたい。

他に定義されない限り、本明細書で使用される全ての技術用語及び科学用語は、本出願の技術分野に属する当業者によって一般的に理解されるのと同じ意味を有する。ここで、本出願の明細書で使用される用語は、具体的な実施例を説明することのみを目的としており、本出願を限定することを意図していない。

本出願の書類で使用される「第１」、「第２」などの用語は、類似するオブジェクトの命名を区別するためのものであり、ただし、これらのオブジェクト自体はこれらの用語によって制限されない。これらの用語は、本出願の範囲から逸脱することなく、適切な場合において交換可能である。

本出願の各実施例で提供される音声キーワードの認識方法は、図１に示される適用環境に適用することができる。当該適用環境は、ユーザ端末１１０及びサーバ１２０に関し得、ユーザ端末１１０とサーバ１２０はネットワークを介して通信する。

具体的に、ユーザ端末１１０は、認識対象音声信号を取得し、ネットワークを介して、認識対象音声信号をサーバ１２０に送信する。サーバ１２０は、認識対象音声信号に基づいて、各第１の音声セグメントを取得し、さらに、事前設定された第１の分類モデルにより、各第１の音声セグメントにそれぞれ対応する各第１の確率を取得し、第１の確率は、第１の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率を含み、その後、認識対象音声信号に基づいて各第２の音声セグメントを取得し、各前記第２の音声セグメントに対応する第１の音声セグメントに対応する第１の確率に基づいて、各第２の音声セグメントの第１の予測特徴をそれぞれ生成し、さらに、事前設定された第２の分類モデルにより、各第１の予測特徴に基づいて分類して、各第２の音声セグメントにそれぞれ対応する各第２の確率を取得し、第２の確率は、当該第２の音声セグメントが所定のキーワードに対応する確率及び所定のキーワードに対応しない確率の少なくとも１つを含み、最後に、第２の確率に基づいて、認識対象音声信号に所定のキーワードが存在するかどうかを決定する。

他の実施例では、ユーザ端末１１０は、認識対象音声信号を取得してから、第２の確率に基づいて、認識対象音声信号に所定のキーワードが存在するかどうかを決定するまでのステップを実行してもよく、サーバ１２０は参加する必要がない。

なお、ユーザ端末１１０は、モバイル端末又はデスクトップ端末であってもよく、モバイル端末は、携帯電話、スピーカ、ロボット、タブレット、ノートパソコン、パーソナル携帯情報機器、ウェアラブルデバイスなどのうちの少なくとも１つであってもよい。サーバ１２０は、独立した物理サーバ、又は、複数の物理サーバからなるサーバクラスタにより実現されてもよい。

一実施例では、図２に示すように、音声キーワードの認識方法を提供する。当該方法がコンピュータデバイス(図１におけるユーザ端末１１０又はサーバ１２０)によって実行されることを例として説明する。当該方法は以下のステップＳ２０２～Ｓ２１０を含むことができる。

Ｓ２０２において、認識対象音声信号に基づいて、各第１の音声セグメントを取得する。

認識対象音声信号とは、その中に所定のキーワードが存在するかどうかを決定する必要がある音声信号を指す。実際の応用では、一般的に、ユーザが実際のニーズに応じて音声信号を発し(例えば、ユーザが言葉を言った)、コンピュータデバイスは、当該音声信号を収集し、当該音声信号を電気信号に変換して、認識対象音声信号を取得する。

第１の音声セグメントとは、認識対象音声信号におけるユニットフレームに対応する第１のスプライシングフレームシーケンスを指す。具体的に、コンピュータデバイスは、認識対象音声信号を取得した後に、まず、当該認識対象音声信号に対してフレーム分割処理を行って各ユニットフレームを取得し、つまり、当該認識対象音声信号をいくつかのセグメントに分割し、各セグメントが１フレームのユニットフレームであり、さらに、コンピュータデバイスは、所定の第１のスプライシングルールに基づいて、各ユニットフレームと１対１に対応する各第１のスプライシングフレームシーケンス、即ち、各第１の音声セグメントを取得することができる。

一実施例では、ウィンドウ関数を移動することでフレーム分割処理を実現することができ、例えば、ウィンドウ関数のフレームウィンドウ長さを２５ｍｓ、ウィンドウシフトを１０ｍｓとして、フレーム分割処理を行うことで、得られた各ユニットフレームの長さはともに２５ｍｓであり、隣り合う２フレームのユニットフレームの間に１５ｍｓの重畳部分がある。

一実施例では、任意のユニットフレームについて、認識対象音声信号における当該ユニットフレームの現れる順番に基づき、当該ユニットフレームの前に現れた第１のプリセットフレーム数のユニットフレーム、当該ユニットフレーム自身、及び当該ユニットフレームの後に現れた第２のプリセットフレーム数のユニットフレームに対してスプライシング処理を行うことで、当該ユニットフレームに対応する第１の音声セグメントを取得することができる。

なお、第１のプリセットフレーム数、及び第２のプリセットフレーム数は、事前設定された第１の分類モデルに対応する所定のキーワードの所定の分割単語ユニットの長さに基づいて設定されてもよい。例えば、所定のキーワードが「耳朶」であり、第１の分類モデルに対応する当該所定のキーワードの各所定の分割単語ユニットはそれぞれ「ｅｒ」と「ｄｕｏ」である。この場合、第１のプリセットフレーム数を１０に設定し、第２のプリセットフレーム数を５に設定してもよく、任意のユニットフレームについて、当該ユニットフレームの前の１０フレーム、当該ユニットフレーム自身、及び当該ユニットフレームの後の５フレームに対してスプライシング処理を行うことができ、スプライシングによって得られた当該ユニットフレームに対応する第１の音声セグメントは、１６フレームのユニットフレームを含む。

なお、認識対象音声信号にはＮフレームのユニットフレームが含まれる場合、認識対象音声信号に現れる順番に基づき、当該Ｎフレームのユニットフレームは、前から、それぞれ、第１フレームユニットフレーム、第２フレームユニットフレーム、第３フレームユニットフレーム、…、第Ｎフレームユニットフレームである。あるフレームユニットフレームについて、当該ユニットフレームの前にあるユニットフレームの総数が第１のプリセットフレーム数未満である場合、複数のフレームのうち第１フレームユニットフレームをコピーして、第１のプリセットフレーム数を構成してもよい。例えば、第１のプリセットフレーム数が１０であり、第２のプリセットフレーム数が５である。第１フレームユニットフレームに対応する第１の音声セグメントについて、当該第１の音声セグメントは１１フレームの第１フレームユニットフレーム、及び第２～６フレームユニットフレーム、即ち、合計で１６フレームのユニットフレームを含み得、第３フレームユニットフレームに対応する第１の音声セグメントについて、当該第１の音声セグメントは９フレームの第１フレームユニットフレーム、及び第２～８フレームユニットフレーム、即ち、合計で１６フレームのユニットフレームを含み得る。

同様に、あるフレームユニットフレームについて、当該ユニットフレームの後にあるユニットフレームの総数が第２のプリセットフレーム数未満である場合、複数のフレームのうち第Ｎフレームユニットフレームをコピーして、第２のプリセットフレーム数を構成してもよい。

Ｓ２０４において、事前設定された第１の分類モデルにより、各第１の音声セグメントにそれぞれ対応する各第１の確率を取得する。

第１の分類モデルは、予めトレーニングされたニューラルネットワークモデルである。各第１の音声セグメントの音響特徴を第１の分類モデルに入力し、さらに、第１の分類モデルにより、各第１の音声セグメントの音響特徴に基づいて各第１の音声セグメントに対して分類処理を行うことにより、各第１の音声セグメントと１対１に対応する各第１の確率を取得することができる。なお、第１の音声セグメントに対応する第１の確率は、当該第１の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率を含むことができる。第１の確率は事後確率であってもよい。

その中、第１の音声セグメントの音響特徴は、当該第１の音声セグメントに含まれる各ユニットフレームの音響特徴を含んでもよい。一実施例では、第１の音声セグメントの音響特徴は、次元ｔ×ｆの特徴ベクトルであり、ｔが時間フレーム次元、即ち、第１の音声セグメントに含まれるユニットフレームの総数を表し、ｆがスペクトル次元、即ち、各ユニットフレームの音響特徴の次元を表す。

ユニットフレームの音響特徴は、ユニットフレームに対して音響特徴の抽出処理を行うことで得られる。具体的に、ユニットフレームに対応する波形を多次元ベクトルに変換し、当該多次元ベクトルは、当該ユニットフレームに含まれるコンテンツ情報を表すために使用されてもよく、当該ユニットフレームの音響特徴であってもよい。ユニットフレームの音響特徴はメルスペクトラム、対数メルスペクトラム(メルスペクトラムに対して対数演算を行うことで得られる)、メル周波数ケプストラム係数(ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ、ＭＦＣＣ)などのいずれか１つ又は任意の複数の組み合わせを含んでもよい。ユニットフレームから対数メルスペクトラムである音響特徴を抽出することを例にとると、当該ユニットフレームに対応する４０次元ベクトルを得ることができる。

各第１の音声セグメントがともに１６フレームのユニットフレームを含み、且つ、抽出された各ユニットフレームの音響特徴がともに４０次元の対数メルスペクトラム特徴であることを例にとると、ｔ＝１６、ｆ＝４０、即ち、各第１の音声セグメントの音響特徴はともに、次元１６×４０のベクトルを含む。

所定の分割単語ユニットは、所定の単語分割単位に基づいて所定のキーワードに対して単語分割処理を行うことで得られる。所定のキーワードが「耳朶」であり、所定の単語分割単位がピンインであることを例にとると、「耳朶」という所定のキーワードの各所定の分割単語ユニットはそれぞれ「ｅｒ」と「ｄｕｏ」であり得る。それに対応して、任意の第１の音声セグメントについて、第１の分類モデルによって出力される当該第１の音声セグメントに対応する第１の確率は、当該第１の音声セグメントが「ｅｒ」に対応する確率、及び当該第１の音声セグメントが「ｄｕｏ」に対応する確率を含み得る。また、例えば、所定のキーワードが「小藍精霊」であり、所定の単語分割単位がピンインである場合、「小藍精霊」という所定のキーワードの各所定の分割単語ユニットはそれぞれ「ｘｉａｏ」、「ｌａｎ」、「ｊｉｎｇ」及び「ｌｉｎｇ」であり、第１の分類モデルによって出力される当該第１の音声セグメントに対応する第１の確率は、当該第１の音声セグメントが「ｘｉａｏ」に対応する確率、当該第１の音声セグメントが「ｌａｎ」に対応する確率、当該第１の音声セグメントが「ｊｉｎｇ」に対応する確率、及び当該第１の音声セグメントが「ｌｉｎｇ」に対応する確率を含み得る。

一実施例では、第１の確率は、第１の音声セグメントが各所定の分割単語ユニットに対応する各確率加えて、第１の音声セグメントが第１のパディング情報に対応する確率も含んでもよい。第１のパディング情報とは、各所定の分割単語ユニット以外の他の情報を指す。例えば、各所定の分割単語ユニットがそれぞれ「ｅｒ」と「ｄｕｏ」である場合に、「ｅｒ」と「ｄｕｏ」以外の他の全ての情報は、第１のパディング情報である。また、例えば、各所定の分割単語ユニットが「ｘｉａｏ」、「ｌａｎ」、「ｊｉｎｇ」及び「ｌｉｎｇ」である場合に、「ｘｉａｏ」、「ｌａｎ」、「ｊｉｎｇ」及び「ｌｉｎｇ」以外の他の全ての情報は第１のパディング情報である。

第１の確率には、第１の音声セグメントが各所定の分割単語ユニットに対応する各確率、及び第１のパディング情報に対応する確率を含む場合に、任意の第１の音声セグメントについて、それに対応する第１の確率に含まれる各確率の和は１であり得る。

一実施例では、第１の分類モデルは、ＣＮＮ(ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、畳み込みニューラルネットワーク)、ＬＳＴＭ(ＬｏｎｇＳｈｏｒｔ-ＴｅｒｍＭｅｍｏｒｙ、長・短期記憶ネットワーク)、ＴＤＮＮ(Ｔｉｍｅ-ＤｅｌａｙＮｅｕｒａｌＮｅｔｗｏｒｋ、時間遅延ニューラルネットワーク)、又はゲート付き畳み込みニューラルネットワークなどであってもよい。

第１の分類モデルがＣＮＮであることを例として説明し、ＣＮＮは、畳み込み層、ｍａｘ-ｐｏｏｌｉｎｇ層、完全接続層及びｓｏｆｔｍａｘ層を含んでもよい。上記のように、第１の分類モデルの入力情報は、第１の音声セグメントの音響特徴(即ち、次元ｔ×ｆの特徴ベクトル)であり、図３に示すように、畳み込み層により、第１の音声セグメントに対応する次元ｔ×ｆの特徴ベクトルと、次元ｓ×ｖ×ｗの畳み込みカーネル(即ち、フィルタリング重み行列)とに対して、畳み込み処理を行うことで、ｓ個の特徴マップを取得することができ、ｖは、時間フレーム次元における各畳み込みカーネルの大きさであり、ｖ≦ｔであり、ｒは、スペクトル次元における各畳み込みカーネルの大きさであり、ｗ≦ｆであり、ｓは、畳み込みカーネルの数であり、つまり、当該ＣＮＮについて、合計でｓ個の次元ｖ×ｗの畳み込みカーネルがある。その後、ｍａｘ-ｐｏｏｌｉｎｇ層により、それぞれ、このｓ個の特徴マップに対して最大プーリング処理(即ち、近傍内の特徴点に対して最大値をとる処理であるサンプリング処理)を行うことで、時間周波数次元の大きさを低減し、ｓ個の次元削減された特徴マップを取得する。さらに、完全接続層により、ｓ個の次元削減された特徴マップに対して分類処理を行い、完全接続層の出力をｓｏｆｔｍａｘ層に入力する。最後に、ｓｏｆｔｍａｘ層により、完全接続層の出力に対して正規化処理を行うことで、当該第１の音声セグメントに対応する第１の確率を得る。

一実施例では、ネットワーク複雑さとシステムパフォーマンスとの間のトレードオフを考慮して、ＣＮＮは、１層の畳み込み層を採用し、畳み込みカーネルの時間フレーム次元の大きさを入力された特徴の時間フレーム次元の大きさと同じになるように設定してもよく、即ち、ｖ＝ｔ＝１６である。また、当該ＣＮＮは、５つの完全接続層を採用してもよく、その中、前の４つの層が５１２の隠し層を含み、最後の層が１２８の隠し層を含む。

Ｓ２０６において、認識対象音声信号に基づいて各第２の音声セグメントを取得し、各前記第２の音声セグメントに対応する第１の音声セグメントに対応する第１の確率に基づいて、各第２の音声セグメントの第１の予測特徴をそれぞれ生成する。

第２の音声セグメントとは、認識対象音声信号におけるユニットフレームに対応する第２のスプライシングフレームシーケンスを指す。第１の音声セグメントと同様に、コンピュータデバイスは、所定の第２のスプライシングルールに基づいて、各ユニットフレームと１対１に対応する各第２のスプライシングフレームシーケンス、即ち、各第２の音声セグメントを取得することができる。

一実施例では、任意のユニットフレームについて、認識対象音声信号における当該ユニットフレームの現れる順番に基づいて、当該ユニットフレームの前に現れた第３のプリセットフレーム数のユニットフレーム、当該ユニットフレーム自身、及び当該ユニットフレームの後に現れた第４のプリセットフレーム数のユニットフレームに対してスプライシング処理を行うことで、当該ユニットフレームに対応する第２の音声セグメントを取得することができる。

その中、第３のプリセットフレーム数と、第４のプリセットフレーム数は、所定のキーワードの長さに基づいて設定されてもよい。所定のキーワードが「耳朶」であることを例にとると、第３のプリセットフレーム数を４０に設定し、第４のプリセットフレーム数を２０に設定してもよく、即ち、任意のユニットフレームについて、当該ユニットフレームの前に現れた４０フレームのユニットフレーム、当該ユニットフレーム自身、及び当該ユニットフレームの後に現れた２０フレームのユニットフレームに対してスプライシング処理を行うことができ、スプライシングによって得られた当該ユニットフレームに対応する第２の音声セグメントは、６１フレームのユニットフレームを含む。

なお、第１の音声セグメントよりも、第２の音声セグメントに含まれるユニットフレームの総数は多くなる。そのため、第２の音声セグメントは、第１の音声セグメントよりも多い「コンテクスト」情報を含む。

第２の音声セグメントの第１の予測特徴は、当該第２の音声セグメントに対応する各第１の音声セグメントに対応する第１の確率に基づいて生成されてもよい。一実施例では、第２の音声セグメントの第１の予測特徴は、当該第２の音声セグメントに含まれる各ユニットフレームと１対１に対応する各第１の音声セグメントに対応する各第１の確率を含んでもよい。例えば、第２の音声セグメントは６１フレームのユニットフレームを含み、当該第２の音声セグメントに含まれる６１フレームのユニットフレームのそれぞれは、それに対応する第１の音声セグメントを有し、それによれば、当該第２の音声セグメントは６１個の第１の音声セグメントに対応し、且つ、各第１の音声セグメントは、それに対応する第１の確率を有するので、当該第２の音声セグメントの第１の予測特徴は、当該第２の音声セグメントに対応する６１個の第１の音声セグメントに対応する第１の確率を含む。

第２の音声セグメントが６１フレームのユニットフレームを含み、所定のキーワードが「耳朶」であり、各所定の分割単語ユニットがそれぞれ「ｅｒ」と「ｄｕｏ」であり、第１の分類モデルによって出力される第１の確率が、第１の音声セグメントが「ｅｒ」に対応する確率、「ｄｕｏ」に対応する確率、及び第１のパディング情報に対応する確率を含むことを例にとる。この場合、第２の音声セグメントの第１の予測特徴は、次元６１×３のベクトルを含んでもよい。

Ｓ２０８において、第２の分類モデルにより、各第１の予測特徴に基づいて分類して、各第２の音声セグメントにそれぞれ対応する各第２の確率を取得する。

第２の分類モデルも、予めトレーニングされたニューラルネットワークモデルである。各第２の音声セグメントの音響特徴を第１の分類モデルに入力し、さらに、第２の分類モデルにより、各第２の音声セグメントの音響特徴に基づいて各第１の音声セグメントに対して分類処理を行うことにより、各第２の音声セグメントと１対１に対応する各第２の確率を取得することができる。第２の音声セグメントに対応する第２の確率は、当該第２の音声セグメントが所定のキーワードに対応する確率及び所定のキーワードに対応しない確率の少なくとも１つを含み得る。第１の確率と同様に、第２の確率は事後確率であってもよい。

一実施例では、第２の確率は、第２の音声セグメントが所定のキーワードに対応する確率のみを含み得る。所定のキーワードが「耳朶」であることを例にとると、第２の音声セグメントに対応する第２の確率は、当該第２の音声セグメントが「ｅｒｄｕｏ」に対応する確率を含み得る。また、所定のキーワードが「小藍精霊」であることを例にとると、第２の音声セグメントに対応する第２の確率は、当該第２の音声セグメントが「ｘｉａｏｌａｎｊｉｎｇｌｉｎｇ」に対応する確率を含み得る。

他の実施例では、第２の確率は、第２の音声セグメントが所定のキーワードに対応しない(即ち、該当しない)確率のみを含み得る。所定のキーワードが「耳朶」であることを例にとると、第２の音声セグメントに対応する第２の確率は、当該第２の音声セグメントが「ｅｒｄｕｏ」以外の他の情報に対応する確率のみを含み得る。

さらに別の実施例では、第２の確率は、第２の音声セグメントが所定のキーワードに対応する確率と、第２の音声セグメントが所定のキーワードに対応しない確率とを同時に含み得る。この場合、第２の音声セグメントに対応する第２の確率に含まれる各確率の和は１であってもよい。

一実施例では、第２の分類モデルは、ＣＮＮ(ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、畳み込みニューラルネットワーク)、ＬＳＴＭ(ＬｏｎｇＳｈｏｒｔ-ＴｅｒｍＭｅｍｏｒｙ、長・短期記憶ネットワーク)、ＴＤＮＮ(Ｔｉｍｅ-ＤｅｌａｙＮｅｕｒａｌＮｅｔｗｏｒｋ、時間遅延ニューラルネットワーク)、ゲート付き畳み込みニューラルネットワーク、又は完全接続に基づくＦＣＤＮＮニューラルネットワークなどであってもよい。

また、第２の分類モデルが完全接続に基づくＦＣＤＮＮニューラルネットワークを採用する場合に、当該ニューラルネットワークは、２つの完全接続層を含んでもよく、各完全接続層は１２８のノードを含み、これにより、システムパフォーマンスを保証しながら複雑さを軽減させることを実現する。

Ｓ２１０において、第２の確率に基づいて、認識対象音声信号に所定のキーワードが存在するかどうかを決定する。

第２の確率を取得した後、各第２の音声セグメントと１対１に対応する各第２の確率は、所定の確率閾値と１つずつ比較され得る。一実施例では、認識対象音声信号における各第２の音声セグメントに対応するユニットフレームの現れる順番に基づいて、前から、各第２の音声セグメントと１対１に対応する各第２の確率を所定の確率閾値と１つずつ比較することができる。

一実施例では、第２の確率を所定の確率閾値と比較することは、具体的に、第２の確率に含まれる第２の音声セグメントが所定のキーワードに対応する確率、又は、含まれる第２の音声セグメントが所定のキーワードに対応しない確率が、対応する所定の確率閾値よりも大きいかどうかを判断することであってもよい。

第２の確率に含まれる第２の音声セグメントが所定のキーワードに対応する確率が、所定の確率閾値よりも大きいかどうかを判断することを例にとると、得られた第２の確率に基づいて認識対象音声信号に所定のキーワードが存在するかどうかを決定する手順は以下通りである。

１番目の第２の音声セグメント(それに対応するユニットフレームが認識対象音声信号の最初に現れた第２の音声セグメント)が所定のキーワードに対応する確率が、所定の確率閾値よりも大きい場合に、当該１番目の第２の音声セグメントに所定のキーワードが存在すると判定し、認識対象音声信号に所定のキーワードが存在することを表す認識結果を出力し、認識フローを終了する。逆に、当該１番目の第２の音声セグメントが所定のキーワードに対応する確率が、所定の確率閾値よりも小さい場合に、当該１番目の第２の音声セグメントに所定のキーワードが存在しないと判定し、２番目の第２の音声セグメントが所定のキーワードに対応する確率と所定の確率閾値の大きさとを比較し続ける。このような類推によって、ある第２の音声セグメントが所定のキーワードに対応する確率が所定の確率閾値よりも大きくなるまで、当該第２の音声セグメントに所定のキーワードが存在すると判定し、認識対象音声信号に所定のキーワードが存在することを表す認識結果を出力し、認識フローを終了する。最後の第２の音声セグメントが所定のキーワードに対応する確率が依然として所定の確率閾値よりも小さい場合に、当該認識対象音声信号に所定のキーワードが存在しないと判定し、認識対象音声信号に所定のキーワードが存在しないことを表す認識結果を出力し、認識フローを終了する。

上記の音声キーワードの認識方法によれば、第１の分類モデルに基づいて認識対象音声信号の各第１の音声セグメントにそれぞれ対応する第１の確率を取得した後、人為的に設定した決定ロジックに基づいて最終的に認識対象音声信号に所定のキーワードが存在するかどうかを決定する必要はなく、認識対象音声信号に基づいて各第２の音声セグメントを取得し、各第２の音声セグメントにそれぞれ対応する各第１の音声セグメントに対応する第１の確率に基づいて、各第２の音声セグメントの予測特徴を生成し、当該予測特徴を第２の分類モデルに入力することにより、各第２の音声セグメントが所定のキーワードに対応する確率、及び所定のキーワードに対応しない確率の少なくとも１つを取得し、さらに、第２の分類モデルによって出力される確率に基づいて、最終的に、当該認識対象音声信号に当該所定のキーワードが存在するかどうかを決定する。人為的に設定した決定ロジックに敏感であるという従来の方法の問題を効果的に克服することができ、これにより、普遍性を向上させる。

また、従来の方案は、所定の決定ロジックに敏感であり、また、製品の柔軟な開発及び迅速な立ち上げを制限し、システムの汎化能力は乏しい。それに対応して、上記の音声キーワードの認識方法は、上記の制限を軽減し、システムの汎化能力を向上させることもできる。

なお、音声キーワード認識について、再現率と誤認識率は、システムパフォーマンスを評価するための２つの重要な指標である。その中、再現率は、陽性のクラスが陽性のクラスとして認識される割合を表すためのものである。誤認識率は、陰性のクラスが陽性のクラスとして認識される割合を表すためのものである。電子機器のウェイクアップシナリオに適用される場合に、誤認識率は低くなり、これは、実際に認識対象音声信号に所定のキーワードが存在しない場合に、当該認識対象音声信号に所定のキーワードが存在すると誤認識された現象が発生する可能性が低いことを意味する。

一般に、システムの再現率と誤認識率との間のよいバランスをとるために、通常、キーワードを慎重に設定する必要がある。重要な設定条件の１つは、所定のキーワードの長さが十分に長くなければならず、また、所定のキーワードに含まれる音節又は音素が十分に豊かである必要があることである。例えば、所定のキーワードに「ＯｋａｙＧｏｏｇｌｅ」、「天猫精霊（ＴＩＡＮＭＡＯＪＩＮＧＬＩＮＧ）」、

「小愛同学（ＸＩＡＯＡＩＴＯＮＧＸＵＥ）」、及び

などの少なくとも４つの音節又は少なくとも５つの音素が含まれる。従来の方案は、所定のキーワードが長く、認識対象音声信号の背景環境が静かである場合にのみ、かろうじて満足できるシステムパフォーマンスを達成することができる。

しかしながら、本出願の各実施例では、第１の分類モデルと第２の分類モデルを用いて所定のキーワードの認識を段階的に行い、まず、各第１の音声セグメントと１対１に対応する第１の確率を取得し、次に、各第２の音声セグメントに対応する各第１の音声セグメントに対応する第１の確率に基づいて、各第２の音声セグメントと１対１に対応する第２の確率を取得する。第２の音声セグメントにはより多くの「コンテクスト」情報が含まれているので、認識の精度を効果的に向上させることができる。そして、本出願の各実施例における方案は、キーワードが長く、背景環境が静かである場合によく適用できるだけでなく、所定のキーワードが短く、認識対象音声信号の背景環境が真実の遠隔発話環境である場合に、システムの再現率と誤認識率との間のよいバランスが取れる。

一実施例では、各第１の確率と所定の決定ロジックとに基づいて、認識対象音声信号に所定のキーワードが存在すると判定した場合に、認識対象音声信号に基づいて各第２の音声セグメントを取得するステップに進む。

本実施例では、図４に示すように、第１の分類モデルによって出力される各第１の確率を取得した後、認識対象音声信号に基づいて各第２の音声セグメントを取得する前に、まず、各第１の確率と所定の決定ロジックとに基づいて、認識対象音声信号に所定のキーワードが存在するかどうかを仮判断することができる。所定のキーワードが存在すると仮判定した場合にのみ、認識対象音声信号に基づいて各第２の音声セグメントを取得するステップに進む。逆に、所定のキーワードが存在しないと仮判定した場合に、認識対象音声信号に所定のキーワードが存在しないことを表す認識結果を直接出力し、認識フローを終了する。一実施例では、決定ロジックは、隠れマルコフモデル(ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、ＨＭＭ)に基づいて実現されてもよい。

本実施例では、仮判断のステップが追加され、所定の決定ロジックに基づいて所定のキーワードが存在すると仮判定した場合にのみ、第２の分類モデルにより、分類処理を行う。一方、二重判断により認識の正確性を向上させることができる。一方、所定のキーワードが存在しない認識対象音声信号について、認識フローを早期に終了し、第２の分類モデルにより分類処理を行う必要はなく、無意味な動作を回避し、システムパフォーマンスを効果的に最適化できる。

また、システムは、所定の決定ロジックにより、比較的低い偽陰性率を達成することができる(実際に認識対象音声信号に所定のキーワードが存在する場合に、所定のキーワードが存在しないと誤認識された現象が発生する可能性は低くなる)。例えば、実際の適用において、システムの偽陰性率を０.０５未満にする。なお、所定の決定ロジックに基づいて仮判断する手順において、一時的に偽陽性率を考慮せず、第２の分類ネットワークにより所定の決定ロジックの構成に対して偽陽性率を最適化してもよい。

実際の適用において、所定のキーワードが「耳朶」である場合、「ｅｒｄｕｏ」に対応する音声信号Ａ、及び「ａｏｄｕｏ」に対応する音声信号Ｂについて、第１の分類モデルにより当該音声信号Ａを分類した後、出力された各第１の確率は、図５の左の座標軸の縦座標に示され、第１の分類モデルにより当該音声信号Ｂを分類した後、出力された各第１の確率は、図５の右の座標軸の縦座標に示される。また、図５の左のスペクトルグラフの白線は、第１の確率と所定の決定ロジックとに基づいて音声信号Ａにおける所定のキーワードの出現位置を認識したことを示し、図５の右のスペクトルグラフの白線は、第１の確率と所定の決定ロジックとに基づいて、音声信号Ｂにおける所定のキーワードの出現位置を認識したことを示す。これにより、第１の分類モデルと所定の決定ロジックとに基づいて仮認識するだけで、まだ誤認識が発生する(実際に所定のキーワードが存在しない音声信号Ｂについて、当該音声信号Ｂに所定のキーワードが存在すると認識された)可能性があることが分かる。しかし、本実施例では、所定の決定ロジックにより認識対象音声信号に所定のキーワードが存在すると仮判定した後、さらに、第２の分類モデルに基づいて認識するので、誤認識を効果的に低減することができ、これにより、認識精度を向上させる。

一実施例では、所定のキーワードの各所定の分割単語ユニットが認識対象音声信号に存在するかどうかをそれぞれ検出し、また、認識対象音声信号における各所定の分割単語ユニットの現れる順番が所定のキーワードにおける各所定の分割単語ユニットの現れる順番と一致するかどうかを検出する。

図６に示すように、一実施例では、各第１の確率と所定の決定ロジックとに基づいて認識対象音声信号に所定のキーワードが存在することを判定する方法は、以下のステップＳ６０２～Ｓ６０８を含むことができる。

Ｓ６０２において、現在の認識対象分割単語ユニットを決定する。

現在の認識対象分割単語ユニットは、所定のキーワードにおける各所定の分割単語ユニットの現れる順番に基づいて決定される、最初に現れた認識対象分割単語ユニットとして使用されたことのない所定の分割単語ユニットである。

所定のキーワードが「小藍精霊」であり、各所定の分割単語ユニットがそれぞれ「ｘｉａｏ」、「ｌａｎ」、「ｊｉｎｇ」及び「ｌｉｎｇ」であることを例にとる。１回の認識手順において、現在の認識対象分割単語ユニットを最初に決定する場合に、「ｘｉａｏ」、「ｌａｎ」、「ｊｉｎｇ」及び「ｌｉｎｇ」は、認識対象分割単語ユニットとして使用されたことのない所定の分割単語ユニットであり、この場合、最初に現れた「ｘｉａｏ」を、現在の認識対象分割単語ユニットとして決定する。現在の認識対象分割単語ユニットを２度目に決定する場合に、「ｌａｎ」、「ｊｉｎｇ」及び「ｌｉｎｇ」は、認識対象分割単語ユニットとして使用されたことのない所定の分割単語ユニットであり、最初に現れた「ｌａｎ」を、現在の認識対象分割単語ユニットとして決定し、このように類推する。

Ｓ６０４において、現在の判断対象音声セグメントを決定し、現在の判断対象音声セグメントは、認識対象音声信号における各第１の音声セグメントの現れる順番に基づき決定される、最初に現れた判断対象音声セグメントとして使用されたことのない第１の音声セグメントである。

認識対象音声信号にはＮフレームのユニットフレームを含む場合、それに対応してＮ個の第１の音声セグメントがある。認識対象音声信号における第１の音声セグメントに対応するユニットフレームの現れる順番に基づいて、各第１の音声セグメントは、前から、それぞれ、１番目の第１の音声セグメント、２番目の第１の音声セグメント、…、Ｎ番目の第１の音声セグメントである。一回の認識手順において、現在の判断対象音声セグメントを最初に決定する場合に、これらのＮ個の第１の音声セグメントは、判断対象音声セグメントとして使用されたことがなく、１番目の第１の音声セグメントを現在の認識対象音声セグメントとして決定する。現在の判断対象音声セグメントを２度目に決定する場合に、２番目の第１の音声セグメント、３番目の第１の音声セグメント…Ｎ番目の第１の音声セグメントは、判断対象音声セグメントとして使用されたことがなく、最初に現れた２番目の第１の音声セグメントを現在の判断対象音声セグメントとして決定し、このように類推する。

Ｓ６０６において、現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率が、所定の閾値よりも大きく、且つ、現在の認識対象分割単語ユニットが所定のキーワードのうち最後に現れた所定の分割単語ユニットではない場合に、現在の認識対象分割単語ユニットを決定するステップに戻る。

Ｓ６０８において、現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率が、所定の閾値よりも大きく、且つ、現在の認識対象分割単語ユニットが所定のキーワードのうち最後に現れた所定の分割単語ユニットである場合に、認識対象音声信号に所定のキーワードが存在すると判定する。

本実施例では、現在の認識対象分割単語ユニットと現在の判断対象音声セグメントとを決定した後、現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率が、所定の閾値よりも大きいかどうかを判断する。

所定の閾値よりも大きいと、現在の認識対象分割単語ユニットが現在の判断対象音声セグメントに存在することを意味する。このとき、現在の認識対象分割単語ユニットが所定のキーワードのうち最後に現れた所定の分割単語ユニットであるかどうかをさらに判断する。ＮＯの場合、現在、認識対象音声信号に現在の認識対象分割単語ユニットが存在するのみが検出され、当該認識対象音声信号に他の所定の分割単語ユニットが存在するかどうかをさらに検出する必要があることを意味するので、現在の認識対象分割単語ユニットを決定するステップに戻る。ＹＥＳの場合、認識対象音声信号に所定のキーワードの各所定の分割単語ユニットが存在することが既に検出されたことを意味するので、認識対象音声信号に所定のキーワードが存在すると仮判定することができる。

所定の閾値以下であると、現在の認識対象分割単語ユニットが現在の判断対象音声セグメントに存在しないことを意味する。一実施例では、所定の閾値以下であると判定した場合に、現在の判断対象音声セグメントを決定するステップに戻り、次の第１の音声セグメントを現在の判断対象音声セグメントとして決定し、現在の認識対象分割単語ユニットが当該次の第１の音声セグメントに存在するかどうかを検出し続けてもよい。

本実施例では、現在の判断対象音声セグメントが、認識対象音声信号のうち最後に現れた１フレームのユニットフレームに対応する第１の音声セグメントであり、且つ、当該第１の音声セグメントに所定のキーワードのうち最後に現れた所定の分割単語ユニットが存在しないことが検出された場合に、認識対象音声信号に所定のキーワードが存在しないと仮判定することができ、認識対象音声信号に所定のキーワードが存在しないことを表す認識結果を直接出力し、認識フローを終了する。

なお、上記のように、システムは、所定の決定ロジックにより、比較的低い偽陰性率を達成することができる。これに対応して、本実施例では、システムは、所定の閾値を調整することにより、比較的低い偽陰性率を達成することもできる。

一実施例では、図６に示された実施例に基づいて、図７に示すように、音声キーワードの認識方法は、以下のステップＳ７０２～Ｓ７０４をさらに含むことができる。

Ｓ７０２において、現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率が所定の閾値以下であり、且つ、所定の閾値よりも大きいと前回判定した際に対応する認識対象分割単語ユニットが有効な状態にある場合に、現在の判断対象音声セグメントを決定するステップ(Ｓ６０４)に戻る。

Ｓ７０４において、現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率が所定の閾値以下であり、且つ、所定の閾値よりも大きいと前回判定した際に対応する認識対象分割単語ユニットが無効な状態にある場合に、所定のキーワードの各所定の分割単語のうち最初に現れた所定の分割単語ユニットを、現在の認識対象分割単語ユニットとして決定し、現在の判断対象音声セグメントを決定するステップ(Ｓ６０４)に戻る。

なお、認識対象音声信号については、以下の場合が発生する可能性があり、当該認識対象音声信号に各所定のキーワードの各所定の分割単語ユニットが存在し、且つ、当該認識対象音声信号における各所定の分割単語ユニットの現れる順番も、所定のキーワードにおける当該各所定の分割単語ユニットの現れる順番と一致するが、当該認識対象音声信号において、各所定の分割単語ユニットが連続的に接続して所定のキーワードを構成することができず、他のパディング情報によって分離されている。例えば、所定のキーワードが「小藍精霊」であり、各所定の分割単語ユニットがそれぞれ「ｘｉａｏ」、「ｌａｎ」、「ｊｉｎｇ」及び「ｌｉｎｇ」であり、しかしながら、認識対象音声信号において、現れるのは「ｘｉａｏｌａｎｊｉｎｇｌｉｎｇ」ではなく、「ｘｉａｏｐｅｎｇｙｏｕａｉｌａｎｊｉｎｇｌｉｎｇ」であり、つまり、「ｐｅｎｇｙｏｕａｉ」によって分離されている。この場合、実際には認識対象音声信号に所定のキーワードが存在しないが、当該認識対象音声信号に所定のキーワードが存在すると認識される可能性があり、つまり、誤認識が発生する。

これに基づいて、本実施例では、現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率が所定の閾値以下であると判定した場合に、所定の閾値よりも大きいと前回判定した際に対応する認識対象分割単語が有効な状態にあるかどうかをさらに判断する。ＹＥＳの場合、現在の判断対象音声セグメントを決定するステップに直接戻る。ＮＯの場合、所定のキーワードの各所定の分割単語ユニットのうち最初に現れた所定の分割単語ユニットを、現在の認識対象分割単語ユニットとして決定し、その後、現在の判断対象音声セグメントを決定するステップに戻り、例えば、所定のキーワードが「小藍精霊」であり、各所定の分割単語ユニットがそれぞれ「ｘｉａｏ」、「ｌａｎ」、「ｊｉｎｇ」及び「ｌｉｎｇ」である場合、全ての所定の分割単語ユニットのうち最初に現れた「ｘｉａｏ」を、現在の認識対象分割単語ユニットとして決定し、その後、現在の判断対象音声セグメントを決定するステップに戻る。

一実施例では、カウント値により、所定の閾値よりも大きいと前回判定した際に対応する認識対象分割単語が有効な状態にあるかどうかを判断してもよい。現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率が所定の閾値よりも大きいと判定したが、現在の認識対象分割単語ユニットが所定のキーワードのうち最後に現れた所定の分割単語ユニットではない場合に、まず、現在のカウント値を所定のトリガー初期値に設置し(当該トリガー初期値はビジネス経験に基づいて設定される正の数であってもよく、例えば３０である)、その後、現在の認識対象分割単語ユニットを決定するステップに戻る。

現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率が、所定の閾値以下であると判定した場合に、現在のカウント値から所定の調整値を減算する(例えば１を減算する）ことによって、現在のカウント値を更新し、現在のカウント値が所定の基準値(例えば、０)よりも大きいかどうかを判断する。所定の基準値よりも大きい場合に、所定の閾値よりも大きいと前回判定した際に対応する認識対象分割単語が有効な状態にあることを意味するので、現在の判断対象音声セグメントを決定するステップに直接戻る。所定の基準値以下である場合に、所定の閾値よりも大きいと前回判定した際に対応する認識対象分割単語が既に無効な状態にあることを意味するので、所定のキーワードの各所定の分割単語ユニットのうち最初に現れた所定の分割単語ユニットを、現在の認識対象分割単語ユニットとして決定し、その後、現在の判断対象音声セグメントを決定するステップに戻る。

一実施例では、認識対象音声信号に基づいてＮ個の第１の音声セグメントを取得し、第１の音声セグメントのインデックス値をｎに設定すると、ｎ番目の第１の音声セグメントは、当該認識対象音声信号において現れる順番が前からｎ番目の第１の音声セグメントであり、ｎはＮ以下である。また、所定のキーワードは、Ｍ個の所定の分割単語ユニットを含み、所定の分割単語ユニットのインデックス値をｍに設定すると、ｍ番目の所定の分割単語ユニットは、所定のキーワードにおいて現れる順番が前からｍ番目の所定の分割単語ユニットであり、ｍは、Ｍ以下である。また、カウント値はｋであり、且つ、カウント値の初期トリガー値が３０であると仮定する。図８に示すように、本実施例では、所定の決定ロジックに基づいて、認識対象音声信号に所定のキーワードが存在するかどうかを仮判断するステップは、以下のステップＳ８０１～Ｓ８１１を含むことができる。

Ｓ８０１において、ｎを０、ｍを１、ｋを０に設定する。

Ｓ８０２において、ｎを１増やす。

Ｓ８０３において、ｎがＮよりも大きいかどうかを判断する。ＹＥＳの場合、ステップＳ８０４に進み、ＮＯの場合、ステップＳ８０５に進む。

Ｓ８０４において、認識対象音声信号に所定のキーワードが存在しないと仮判定し、フローを終了する。

Ｓ８０５において、ｎ番目の第１の音声セグメントがｍ番目の所定の分割単語ユニットに対応する確率が、所定の閾値よりも大きいかどうかを判断する。ＹＥＳの場合、ステップＳ８０６に進み、ＮＯの場合、ステップＳ８０８に進む。

Ｓ８０６において、ｍがＭに等しいかどうかを判断する。ＮＯの場合、ステップＳ８０７に進み、ＹＥＳの場合、ステップＳ８１１に進む。

Ｓ８０７において、ｋを３０に設定し、ｍを１増やし、ステップＳ８０２に戻る。

Ｓ８０８において、ｋを１減らす。

Ｓ８０９において、ｋが０よりも大きいかどうかを判断する。ＹＥＳの場合、ステップＳ８０２に戻り、ＮＯの場合、ステップＳ８１０に進む。

Ｓ８１０において、ｍを１に設定し、ステップＳ８０２に戻る。

Ｓ８１１において、認識対象音声信号に所定のキーワードが存在すると仮判定し、フローを終了する。

一実施例では、図９に示すように、第１の分類モデルを決定する方法は、以下のステップＳ９０２～Ｓ９０８を含むことができる。

Ｓ９０２において、汎用のコーパスを含む所定のコーパスに基づいて、サンプル音声信号を取得する。

Ｓ９０４において、各サンプル音声信号に基づいて第３の音声セグメントを取得する。

Ｓ９０６において、各第３の音声セグメントの第１の音響特徴と、各第３の音声セグメントに対応する第３の確率を取得し、第３の確率は、当該第３の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率を含む。

Ｓ９０８において、各第３の音声セグメントの第１の音響特徴と各第３の確率に基づいて、所定の第１のニューラルネットワークモデルをトレーニングして、第１の分類モデルを決定する。

第１の分類モデルにより分類処理を行う前に、まず、サンプルデータに基づいて所定のニューラルネットワークモデルをトレーニングして、第１の分類モデルを取得する必要があることが理解され得る。

従来の方案では、一般に、専用コーパスのみに基づいてサンプル音声信号を取得することができる。専用コーパスとは、所定のキーワードに対して専用に構築したコーパスを指し、専用コーパスには、様々な異なる音響条件下で収集した所定のキーワードに対応する音声信号が含まれる。異なる所定のキーワードごとに、異なる専用コーパスを構築する必要があり、専用コーパスの構築は非常に時間と労力を消費する作業であり、製品の柔軟な開発と迅速な立ち上げを制限することが理解され得る。

これに基づいて、本実施例では、汎用のコーパスに基づいてサンプル音声信号を取得することができ、上記の制限を効果的に低減することができる。そして、汎用のコーパスは、より広い音響条件をカバーし、より大きいデータ規模を有し、音声信号の品質が保証されるという利点を備えるので、所定のキーワードの認識を効率的且つロバストに実現することができる。

汎用のコーパスには、各音声信号に対応するラベルがあり、当該ラベルが対応する各音声信号のコンテンツ情報を表すために使用されることが理解され得る。本実施例では、サンプル音声信号を取得した後、認識対象音声信号の処理手順と同様に、フレーム分割処理、及びスプライシング処理により、各第３の音声セグメントを取得し、次に、第３の音声セグメントに含まれる各サンプルユニットフレームの音響特徴に基づいて、第３の音声セグメントの第１の音響特徴を取得する。ただし、認識対象音声信号の処理との違いは、サンプル音声信号を処理する際に、フレームアラインメント処理も必要になることであり、フレームアラインメント処理により、サンプル音声信号のどのフレームのサンプルユニットフレームからどのフレームのサンプルユニットフレームまでのラベルが、対応する所定の分割単語ユニットに対応するかを決定する。また、第１の音響特徴は、上記の第１の音声セグメントの音響特徴と類似し、ここで説明を省略する。

一実施例では、汎用のコーパスにおけるラベルに基づいて、各第３の音声セグメントが所定のキーワードの各所定の分割単語ユニットに対応する各確率を取得してもよい。他の実施例では、汎用のコーパスにおけるラベルに基づいて、各第３の音声セグメントが所定のキーワードの各所定の分割単語ユニットに対応する各確率、及び第２のパディング情報に対応する確率を取得してもよい。なお、第２のパディング情報は、上記の第１のパディング情報と類似し、ここで説明を省略する。

さらに、各第３の音声セグメントの第１の音響特徴と第３の確率とに基づいて、所定の第１のニューラルネットワークモデルをトレーニングし、即ち、第１のニューラルネットワークモデルに関する各モデルパラメーターを決定することにより、第１の分類モデルを取得する。

一実施例では、図９に示す実施例に基づいて、図１０に示すように、第２の分類モデルをトレーニングする方法は、以下のステップＳ１００２～Ｓ１００８を含むことができる。

Ｓ１００２において、各サンプル音声信号に基づいて第４の音声セグメントを取得する。

Ｓ１００４において、各第４の音声セグメントに対応する第３の音声セグメントに対応する第３の確率に基づいて、各前記第４の音声セグメントの第２の予測特徴をそれぞれ生成する。

Ｓ１００６において、各第４の音声セグメントにそれぞれ対応する各第４の確率を取得し、第４の確率は、当該第４の音声セグメントが所定のキーワードに対応する確率及び所定のキーワードに対応しない確率の少なくとも１つを含む。

Ｓ１００８において、各第４の音声セグメントの第２の予測特徴と各第４の確率とに基づいて、所定の第２のニューラルネットワークモデルをトレーニングして、第２の分類モデルを決定する。

第１の分類モデルと同様に、第２の分類モデルにより分類処理を行う前に、まず、サンプルデータに基づいて所定の第２のニューラルネットワークモデルをトレーニングして、第２の分類モデルを取得する必要がある。

本実施例では、サンプル音声信号に基づいて第４の音声セグメントを取得することは、認識対象音声信号に基づいて第２の音声セグメントを取得する処理手順と類似し、ここで説明を省略する。また、第４の確率と上記の第２の確率とは、オブジェクトが異なる(第２の確率は第２の音声セグメントに対するもので、第４の確率は第４の音声セグメントに対するものである)以外、他の性質が類似するので、ここで説明も省略する。

なお、クロスエントロピーの最適化を目標として、分散非同期勾配降下法を用いてトレーニングすることにより、第１のニューラルネットワークモデルと、第２のニューラルネットワークモデルとに関するモデルパラメーターを決定してもよい。

また、スプライシング処理を行うことで第２の音声セグメント、第３の音声セグメント、及び第４の音声セグメントを得るときに、特定のユニットフレームの前後のユニットフレームの総数が対応するプリセットフレーム数未満である場合に、上記のスプライシング処理を行うことで第１の音声セグメントを得る説明で述べたコピー処理方法を参照して、対応するプリセットフレーム数を構成することができ、ここで説明を省略する。

一実施例では、各第２の音声セグメントの第１の予測特徴を生成する前には、各第２の音声セグメントの第２の音響特徴を取得するステップをさらに含んでもよい。それによれば、第２の音声セグメントの第１の予測特徴は、当該第２の音声セグメントの第２の音響特徴、及び当該第２の音声セグメントに対応する各第１の音声セグメントに対応する第１の確率に基づいて生成される。

本実施例では、第２の音声セグメントの第１の予測特徴は、当該第２の音声セグメントに対応する各第１の音声セグメントに対応する第１の確率を含むことに加えて、当該第２の音声セグメントの第２の音響特徴を含んでもよい。第１の予測特徴には、より多い有効な特徴情報が含まれるので、認識の正確率を向上させることができる。また、第２の音響特徴は、上記の第１の音声セグメントの音響特徴と類似し、ここで説明を省略する。

一実施例では、所定のキーワードの各所定の分割単語ユニットの取得方法は、所定の単語分割単位に基づいて所定のキーワードに対して単語分割処理を行って、所定のキーワードの各所定の分割単語ユニットを取得するステップをさらに含み、所定の単語分割単位は、ピンイン、音素及び字の少なくとも１つを含んでもよい。

なお、上記の実施例では、所定の単語分割単位がピンインであることを例として説明した。本出願では、単語分割単位は、実際のニーズ(例えば、認識精度、システムパフォーマンスなど)に基づいて設定されてもよい。例えば、音素を所定の単語分割単位として、又は字を所定の単語分割単位として使用してもよい。

一実施例では、第１の分類モデルは、互いにカスケード接続された各サブ分類モデルを含み、サブ分類モデルのレベル数が２以上である。

それによれば、各第１の音声セグメントの音響特徴を予めトレーニングされた第１の分類モデルに入力して、各第１の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する第１の確率を取得するステップは、レベルごとに、各レベルのサブ分類モデルに対応する入力情報を各レベルのサブ分類モデルに入力して、各レベルのサブ分類モデルによって出力される第５の確率を取得することを含んでもよい。

なお、第１レベルのサブ分類モデルの入力情報は、当該第１レベルのサブ分類モデルに対応する各第１の音声セグメントの音響特徴を含み、第１レベルのサブ分類モデル以外の各レベルのサブ分類モデルの入力情報は、その上のレベルのサブ分類モデルによって出力される第５の確率に基づいて生成される。

また、任意のレベルのサブ分類モデルについて、当該レベルのサブ分類モデルによって出力される第５の確率は、当該レベルのサブ分類モデルに対応する各第１の音声セグメントが、所定のキーワードの当該レベルのサブ分類モデルに対応する所定の分割単語ユニットにそれぞれ対応する確率を含む。また、第１の分類モデルにおける最後のレベルのサブ分類モデルによって出力される第５の確率は第１の確率である。

なお、各レベルのサブ分類モデルのそれぞれは、第１の音声信号及び所定の分割単語ユニットに対応し、且つ、各レベルのサブ分類モデルに対応する第１の音声信号及び所定の分割単語ユニットは互いに異なる。また、実際のニーズ(例えば、システム複雑さ及びシステムパフォーマンスの要件)に基づいて、第１の分類モデルに含まれるサブ分類モデルのレベル数を設定することができる。

所定のキーワードが「小藍精霊」であり、所定の分割単語ユニットがピンインであることを例として、所定のキーワードに対して単語分割処理を行うことで、以下の３グループの所定の分割単語ユニットが得られる。第１のグループに含まれる各所定の分割単語ユニットはそれぞれ「ｘｉａｏ」、「ｌａｎ」、「ｊｉｎｇ」及び「ｌｉｎｇ」である。第２のグループに含まれる各所定の分割単語ユニットはそれぞれ「ｘｉａｏｌａｎ」、「ｌａｎｊｉｎｇ」及び「ｊｉｎｇｌｉｎｇ」である。第３のグループに含まれる各所定の分割単語ユニットはそれぞれ「ｘｉａｏｌａｎｊｉｎｇ」及び「ｌａｎｊｉｎｇｌｉｎｇ」である。

この場合、第１の分類モデルに含まれるサブ分類モデルのレベル数は３であってもよい。それに対応して、第１レベルの分類サブモデルに対応する各所定の分割単語ユニットは、第１のグループに含まれる各所定の分割単語ユニットであり、第２レベルの分類サブモデルに対応する各所定の分割単語ユニットは第２のグループに含まれる各所定の分割単語ユニットであり、第３レベルの分類サブモデルに対応する各所定の分割単語ユニットは第３のグループに含まれる各所定の分割単語ユニットである。

また、説明の便宜上、以下、第１レベル、第２レベル及び第３レベルのサブ分類モデルにそれぞれ対応する第１の音声セグメントを、１レベルの第１の音声セグメント、２レベルの第１の音声セグメント、３レベルの第１の音声セグメントとそれぞれ呼ぶことがある。

それに基づいて、本実施例では、まず、１レベルの第１の音声セグメントの音響特徴を第１レベルのサブ分類モデルに入力し、また、第１レベルのサブ分類モデルにより、１レベルの第１の音声セグメントの音響特徴に基づいて分類して、１レベルの第１の音声セグメントが「ｘｉａｏ」、「ｌａｎ」、「ｊｉｎｇ」及び「ｌｉｎｇ」にそれぞれ対応する確率を出力する。

そして、第１レベルのサブ分類モデルによって出力される確率に基づいて、２レベルの第１の音声セグメントの第３の予測特徴を生成する。さらに、各第３の予測特徴を第２レベルのサブ分類モデルに入力し、第２レベルのサブ分類モデルにより、各第３の予測特徴に基づいて分類して、２レベルの第１の音声セグメントが「ｘｉａｏｌａｎ」、「ｌａｎｊｉｎｇ」及び「ｊｉｎｇｌｉｎｇ」にそれぞれ対応する確率を出力する。

さらに、第２レベルのサブ分類モデルによって出力される確率に基づいて、３レベルの第１の音声セグメントの第４の予測特徴を生成する。また、各第４の予測特徴を第３レベルのサブ分類モデルに入力し、第３レベルのサブ分類モデルにより、各第４の予測特徴に基づいて分類して、３レベルの第１の音声セグメントが「ｘｉａｏｌａｎｊｉｎｇ」及び「ｌａｎｊｉｎｇｌｉｎｇ」にそれぞれ対応する確率を出力し、第３レベルのサブ分類モデルによって出力される確率は、第１の分類モデルによって出力される第１の確率である。さらに、各第２の音声セグメントに対応する各第１の音声セグメントの第１の確率に基づいて、各第２の音声セグメントの第１の予測特徴をそれぞれ生成し、次に、各第１の予測特徴を第２の分類モデルに入力して、対応する後続のステップを実行する。

一実施例では、図１１に示すように、音声キーワードの認識方法は、以下のステップＳ１１０１～Ｓ１１１１を含むことができる。

Ｓ１１０１において、認識対象音声信号に基づいて各第１の音声セグメントを取得し、事前設定された第１の分類モデルにより、前記第１の音声セグメントにそれぞれ対応する各第１の確率を取得し、前記第１の確率は、当該第１の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率を含む。

Ｓ１１０２において、現在の認識対象分割単語ユニットを決定し、現在の認識対象分割単語ユニットは、所定のキーワードにおける各所定の分割単語ユニットの現れる順番に基づき決定される、最初に現れた認識対象分割単語ユニットとして使用されたことのない所定の分割単語ユニットである。

Ｓ１１０３において、現在の判断対象音声セグメントを決定し、現在の判断対象音声セグメントは、認識対象音声信号における各第１の音声セグメントの現れる順番に基づき決定される、最初に現れた判断対象音声セグメントとして使用されたことのない第１の音声セグメントである。

Ｓ１１０４において、現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率が、所定の閾値よりも大きいかどうかを判断し、ＹＥＳの場合、Ｓ１１０５に進み、ＮＯの場合、Ｓ１１０７に進む。

Ｓ１１０５において、現在の認識対象分割単語ユニットが所定のキーワードのうち最後に現れた所定の分割単語ユニットであるかどうかを判断し、ＮＯの場合、Ｓ１１０２に戻り、ＹＥＳの場合、Ｓ１１０６に進む。

Ｓ１１０６において、認識対象音声信号に所定のキーワードが存在すると仮判定し、Ｓ１１０９に進む。

Ｓ１１０７において、所定の閾値よりも大きいと前回判定した際に対応する認識対象分割単語ユニットが有効な状態にあるかどうかを判断し、ＹＥＳの場合、Ｓ１１０３に戻り、ＮＯの場合、Ｓ１１０８に進む。

Ｓ１１０８において、所定のキーワードの各所定の分割単語のうち最初に現れた所定の分割単語ユニットを、現在の認識対象分割単語ユニットとして決定し、Ｓ１１０３に戻る。

Ｓ１１０９において、各第２の音声セグメントに対応する第１の音声セグメントに対応する第１の確率に基づいて、各第２の音声セグメントの第１の予測特徴をそれぞれ生成する。

Ｓ１１１０において、各第１の予測特徴を事前設定された第２の分類モデルに入力し、事前設定された第２の分類モデルにより、各第１の予測特徴に基づいて分類して、各第２の音声セグメントにそれぞれ対応する各第２の確率を取得し、第２の確率は、当該第２の音声セグメントが所定のキーワードに対応する確率及び所定のキーワードに対応しない確率の少なくとも１つを含む。

Ｓ１１１１において、第２の確率に基づいて、認識対象音声信号に所定のキーワードが存在するかどうかを決定する。

なお、本実施例における各ステップの技術的特徴は、上記の各実施例における対応するステップの技術的特徴と同じであってもよく、ここで説明を省略する。

合理的な条件下で、理解すべきことは、上記の各実施例に係るフローチャートにおける各ステップは、矢印の指示に従って順次に表示されるが、これらのステップは、必ずしも矢印によって示される順序に従って順次に実行されるわけではない。本明細書において明確に説明されていない限り、これらのステップの実行は、順序に対する厳しい制限がなく、これらのステップは他の順序で実行されてもよい。そして、各フローチャートにおける少なくとも一部のステップは、複数のサブステップ又は複数の段階を含むことができ、これらのサブステップ又は段階は、必ずしも同じ時刻において実行されるわけではなく、異なる時刻において実行されてもよく、これらのサブステップ又は段階の実行順序も必ずしも順次に実行されるわけではなく、他のステップ又は他のステップのサブステップ又は段階の少なくとも一部と順番又は交互に実行されてもよい。

なお、本出願の各実施例で提供される音声キーワードの認識方法は、電子機器ウェイクアップ、対話型インタラクティブインターフェース初期化、音声インデックスと検索、及び音声パスワード検証などのシナリオに適用可能である。また、当該認識方法は、自動音声認識システムの重要なフロントエンド処理モジュールとして使用でき、自動音声認識システムのリソースの占有と消費を大幅に節約し、ユーザエクスペリエンスを向上させることができる。より具体的には、スマートスピーカー、ＡＩＬａｂ（人工知能研究所）の音声認識、及びインテリジェント音声アシスタントなどに適用できる。

一実施例では、図１２に示すように、音声キーワードの認識装置１２００を提供し、以下のモジュール１２０２～１２１０を含むことができる。

第１の音声セグメント取得モジュール１２０２は、認識対象音声信号に基づいて、各第１の音声セグメントを取得するために使用される。

第１の確率取得モジュール１２０４は、事前設定された第１の分類モデルにより、各第１の音声セグメントにそれぞれ対応する各第１の確率を取得するために使用され、第１の音声セグメントの第１の確率は、当該第１の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率を含む。

予測特徴生成モジュール１２０６は、認識対象音声信号に基づいて各第２の音声セグメントを取得し、各前記第２の音声セグメントに対応する第１の音声セグメントに対応する第１の確率に基づいて、各第２の音声セグメントの第１の予測特徴をそれぞれ生成するために使用される。

第２の確率取得モジュール１２０８は、第２の分類モデルにより、各第１の予測特徴に基づいて分類して、各第２の音声セグメントにそれぞれ対応する各第２の確率を取得するために使用され、第２の音声セグメントに対応する第２の確率は、当該第２の音声セグメントが所定のキーワードに対応する確率及び所定のキーワードに対応しない確率の少なくとも１つを含む。

キーワード認識モジュール１２１０は、第２の確率に基づいて、認識対象音声信号に所定のキーワードが存在するかどうかを決定するために使用される。

上記の音声キーワードの認識装置によれば、第１の分類モデルに基づいて認識対象音声信号の各第１の音声セグメントにそれぞれ対応する第１の確率を取得した後、人為で設定した決定ロジックに基づいて最終的に認識対象音声信号に所定のキーワードが存在するかどうかを決定する必要がなく、認識対象音声信号に基づいて各第２の音声セグメントを取得し、各第２の音声セグメントにそれぞれ対応する各第１の音声セグメントに対応する第１の確率に基づいて、各第２の音声セグメントの予測特徴を生成し、当該予測特徴を第２の分類モデルに入力することにより、各第２の音声セグメントが所定のキーワードに対応する確率、及び所定のキーワードに対応しない確率の少なくとも１つを取得し、さらに、第２の分類モデルによって出力される確率に基づいて、最終的に、当該認識対象音声信号に当該所定のキーワードが存在するかどうかを決定する。従来の方法において人為で設定した決定ロジックに敏感であるという問題を効果的に克服することができ、これにより、普遍性を向上させる。

一実施例では、装置１２００は、仮認識モジュールさらに含んでもよい。当該仮認識モジュールは、各第１の確率と所定の決定ロジックとに基づいて、認識対象音声信号に所定のキーワードが存在すると判定した場合に、予測特徴生成モジュールを呼び出すために使用される。

一実施例では、仮認識モジュールは、現在の分割単語決定ユニット、現在のセグメント認識ユニット、第１の呼び出しユニット、及び仮判定ユニットをさらに含んでもよい。

その中、現在の分割単語決定ユニットは、現在の認識対象分割単語ユニットを決定するために使用され、現在の認識対象分割単語ユニットは、所定のキーワードにおける各所定の分割単語ユニットの現れる順番に基づき決定される、最初に現れた認識対象分割単語ユニットとして使用されたことのない所定の分割単語ユニットである。

現在のセグメント認識ユニットは、現在の判断対象音声セグメントを決定するために使用され、現在の判断対象音声セグメントは、認識対象音声信号における各第１の音声セグメントの現れる順番に基づき決定される、最初に現れた判断対象音声セグメントとして使用されたことのない第１の音声セグメントである。

第１の呼び出しユニットは、現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率が、所定の閾値よりも大きく、且つ、現在の認識対象分割単語ユニットが所定のキーワードのうち最後に現れた所定の分割単語ユニットではない場合に、前記現在の分割単語決定ユニットを呼び出すために使用される。

仮判定ユニットは、現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率が所定の閾値よりも大きく、且つ、現在の認識対象分割単語ユニットが所定のキーワードのうち最後に現れた所定の分割単語ユニットである場合に、認識対象音声信号に所定のキーワードが存在すると判定するために使用される。

一実施例では、仮認識モジュールは、第２の呼び出しユニットと、分割単語リセットユニットとをさらに含んでもよい。

その中、第２の呼び出しユニットは、現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率が所定の閾値以下であり、且つ、所定の閾値よりも大きいと前回判定した際に対応する認識対象分割単語ユニットが有効な状態にある場合に、前記現在のセグメント認識ユニットを呼び出すために使用される。

分割単語リセットユニットは、現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率が所定の閾値以下であり、且つ、所定の閾値よりも大きいと前回判定した際に対応する認識対象分割単語ユニットが無効な状態にある場合に、所定のキーワードの各所定の分割単語のうち最初に現れた所定の分割単語ユニットを、現在の認識対象分割単語ユニットとして決定し、前記現在のセグメント認識ユニットを呼び出すために使用される。

一実施例では、装置１２００は、サンプルデータ取得モジュール、第１のセグメント取得モジュール、第１のサンプル特徴取得モジュール、及び第１のモデルトレーニングモジュールをさらに含んでもよい。

その中、サンプルデータ取得モジュールは、汎用のコーパスを含む所定のコーパスに基づいて、サンプル音声信号を取得するために使用される。

第１のセグメント取得モジュールは、各サンプル音声信号に基づいて、第３の音声セグメントを取得するために使用される。

第１のサンプル特徴取得モジュールは、各第３の音声セグメントの第１の音響特徴と、各第３の音声セグメントにそれぞれ対応する各第３の確率を取得するために使用され、第３の音声セグメントの第３の確率は、当該第３の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率を含む。

第１のモデルトレーニングモジュールは、各第３の音声セグメントの第１の音響特徴と各第３の確率とに基づいて、所定の第１のニューラルネットワークモデルをトレーニングして、第１の分類モデルを決定するために使用される。

一実施例では、装置１２００は、第２のセグメント取得モジュール、第２のサンプル特徴取得モジュール、サンプル確率取得モジュール、及び第２のモデルトレーニングモジュールをさらに含んでもよい。

その中、第２のセグメント取得モジュールは、各サンプル音声信号に基づいて、第４の音声セグメントを取得するために使用される。

第２のサンプル特徴取得モジュールは、各第４の音声セグメントに対応する第３の音声セグメントに対応する第３の確率に基づいて、各第４の音声セグメントの第２の予測特徴をそれぞれ生成するために使用される。

サンプル確率取得モジュールは、各第４の音声セグメントにそれぞれ対応する各第４の確率を取得するために使用され、第４の確率は、当該第４の音声セグメントが所定のキーワードに対応する確率及び所定のキーワードに対応しない確率の少なくとも１つを含む。

第２のモデルトレーニングモジュールは、各第４の音声セグメントの第２の予測特徴と各第４の確率とに基づいて、所定の第２のニューラルネットワークモデルをトレーニングして、第２の分類モデルを決定するために使用される。

一実施例では、装置１２００は、各第２の音声セグメントの第２の音響特徴を取得する音響特徴取得モジュールをさらに含む。それによれば、第２のサンプル特徴取得モジュールは、各第２の音声セグメントの第２の音響特徴、及び各第２の音声セグメントに対応する第１の音声セグメントに対応する第１の確率に基づいて、各第２の音声セグメントの第１の予測特徴をそれぞれ生成するために使用される。

一実施例では、装置１２００は、単語分割処理モジュールをさらに含んでもよい。当該単語分割処理モジュールは、所定の単語分割単位に基づいて、所定のキーワードに対して単語分割処理を行って、所定のキーワードの各所定の分割単語ユニットを取得するためのものであり、所定の単語分割単位は、ピンイン、音素及び字の少なくとも１つを含む。

一実施例では、メモリとプロセッサを含むコンピュータデバイスを提供し、メモリは、コンピュータプログラムが記憶されており、コンピュータプログラムは、プロセッサによって実行される場合に、本出願のいずれかの実施例で提供される音声キーワードの認識方法のステップをプロセッサに実行させる。

一実施例では、当該コンピュータデバイスは、図１に示されるユーザ端末１１０であってもよく、その内部構成は、図１３に示されるものであってもよい。当該コンピュータデバイスは、システムバスで接続されるプロセッサ、メモリ、ネットワークインターフェース、ディスプレイ、入力装置、及び収音装置を含む。なお、プロセッサは、計算及び制御機能を提供するためのものである。メモリは、不揮発性記憶媒体及び内部メモリを含み、当該コンピュータデバイスの不揮発性記憶媒体は、オペレーティングシステム及びコンピュータプログラムが記憶されており、当該コンピュータプログラムは、プロセッサによって実行される場合に、本出願の各実施例で提供される音声キーワードの認識方法をプロセッサに実現させることができ、当該内部メモリは、不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータプログラムの実行のための環境を提供する。ネットワークインターフェースは、外部の端末とネットワーク接続を介して通信するためのものである。ディスプレイは、液晶ディスプレイ又は電子インクディスプレイであってもよい。入力装置は、ディスプレイを覆うタッチ層、或いは、コンピュータデバイスのハウジングに設置されるボタン、トラックボール、又はタッチパッド、或いは、外付けのキーボード、タッチパッド、マウスであってもよい。

別の実施例では、当該コンピュータデバイスは、図１に示されるサーバ１２０であってもよく、その内部構成図は、図１４に示されるものであってもよい。当該コンピュータデバイスは、システムバスで接続されるプロセッサ、メモリ、ネットワークインターフェースを含む。なお、当該プロセッサは、計算及び制御機能を提供するためのものである。当該メモリは、不揮発性記憶媒体及び内部メモリを含み、当該不揮発性記憶媒体は、オペレーティングシステム及びコンピュータプログラムが記憶されており、当該内部メモリは、不揮発性記憶媒体におけるオペレーティングシステム及びコンピュータプログラムの実行のための環境を提供し、当該コンピュータプログラムは、プロセッサによって実行される場合に、本出願のいずれかの実施例で提供される音声キーワードの認識方法を実現させる。当該ネットワークインターフェースは、外部の端末とネットワーク接続を介して通信するためのものである。

当業者は、図１３と図１４に示した構成が、本出願の方案に関連する一部の構成のブロック図のみであり、本出願の方案が適用されるコンピュータデバイスに対する限定を構成しないことを理解できる。具体的なコンピュータデバイスは、図１３に示されるものよりも多い又は少ない構成要素を含むか、又は特定の構成要素を組み合わせるか、又は異なる構成要素配置を有し得る。

一実施例では、本出願で提供される音声キーワードの認識装置は、コンピュータプログラムの形式として実現されてもよく、コンピュータプログラムは、図１３又は図１４に示したコンピュータデバイス上で実行されてもよい。コンピュータデバイスのメモリには、当該装置を構成する各プログラムモジュール、例えば、図１２に示した第１の確率取得モジュール１２０４、予測特徴生成モジュール１２０６、第２の確率取得モジュール１２０８、及びキーワード認識モジュール１２１０が記憶され得る。各プログラムモジュールから構成されるコンピュータプログラムは、本出願のいずれかの実施例で提供される音声キーワードの認識方法におけるステップをプロセッサに実行させる。

例えば、図１３又は図１４に示されたコンピュータデバイスは、図１２に示した音声キーワードの認識装置１２００における第１の確率取得モジュール１２０４によりステップＳ２０２を実行し、予測特徴生成モジュール１２０６によりステップＳ２０４などを実行することができる。

当業者は、上記の実施例の方法における全部又は一部の流れの実現が、コンピュータプログラムにより関連するハードウェアに命令することによって完成され得ることを理解することができる。プログラムは、不揮発性のコンピュータ読み取り可能な記憶媒体に記憶されることができ、当該プログラムが実行される際に、上記の各方法の実施例のようなフローが含まれ得る。なお、本出願で提供される各実施例で使用される、メモリ、ストレージ、データベース又は他の媒体に対する任意の参照は、不揮発性メモリ及び／又は揮発性メモリを含み得る。不揮発性メモリは、読み出し専用メモリ（ＲＯＭ）、プログラマブルＲＯＭ（ＰＲＯＭ）、電気的プログラマブルＲＯＭ（ＥＰＲＯＭ）、電気的消去可能プログラマブルＲＯＭ（ＥＥＰＲＯＭ）、又はフラッシュメモリを含み得る。揮発性メモリは、ランダムアクセスメモリ（ＲＡＭ）又は外部キャッシュメモリを含み得る。限定ではなく説明として、ＲＡＭは、スタティックＲＡＭ（ＳＲＡＭ）、ダイナミックＲＡＭ（ＤＲＡＭ）、同期ＤＲＡＭ（ＳＤＲＡＭ）、ダブルデータレートＳＤＲＡＭ（ＤＤＲＳＤＲＡＭ）、ｅｎｈａｎｃｅｄＳＤＲＡＭ（ＥＳＤＲＡＭ）、ＳｙｎｃｈｌｉｎｋＤＲＡＭ（ＳＬＤＲＡＭ）、Ｒａｍｂｕｓ直接ＲＡＭ(ＲＤＲＡＭ)、直接ＲａｍｂｕｓＲＡＭ（ＤＲＲＡＭ（登録商標））、ＲａｍｂｕｓダイナミックＲＡＭ(ＲＤＲＡＭ)などの様々な形態で得られる。

それによれば、一実施例では、コンピュータ読み取り可能な記憶媒体を提供し、コンピュータプログラムが記憶されており、コンピュータプログラムはプロセッサによって実行される場合に、本出願のいずれかの実施例方法のステップをプロセッサに実行させる。

上記の実施例の各技術的特徴は、任意に組み合わせてもよく、説明を簡潔にするために、上記の実施例内の各技術的特徴のすべての可能な組み合わせが説明されていないが、これらの技術的特徴の組み合わせが矛盾しない限り、本明細書に記載の範囲内であるとみなすべきである。

上記の実施例は、単に本出願のいくつかの実現態様を表すものであり、その説明は比較的具体的且つ詳細であるが、これらは、本出願の特許範囲への限定として解釈されるべきではない。当業者であれば、本出願の思想から逸脱することなく、様々な変更及び改良を行うことができ、これらの変更と改良が本出願の保護範囲に属することに留意されたい。従って、本出願の特許の保護範囲は添付の特許請求の範囲に従うべきである。

1200 音声キーワードの認識装置
1202 第１の音声セグメント取得モジュール
1204 第１の確率取得モジュール
1206 予測特徴生成モジュール
1208 第２の確率取得モジュール
1210 キーワード認識モジュール

Claims

ユーザ端末又はサーバが実行する、音声キーワードの認識方法であって、
認識対象音声信号に基づいて、各第１の音声セグメントを取得するステップと、
事前設定された第１の分類モデルにより、各前記第１の音声セグメントにそれぞれ対応する各第１の確率を取得するステップであって、前記第１の確率には、前記第１の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率を含むステップと、
前記認識対象音声信号に基づいて各第２の音声セグメントを取得し、各前記第２の音声セグメントに対応する第１の音声セグメントに対応する第１の確率に基づいて、各前記第２の音声セグメントの第１の予測特徴をそれぞれ生成するステップと、
事前設定された第２の分類モデルにより、各前記第１の予測特徴に基づいて分類して、各前記第２の音声セグメントにそれぞれ対応する各第２の確率を取得するステップであって、前記第２の確率には、前記第２の音声セグメントが前記所定のキーワードに対応する確率及び前記所定のキーワードに対応しない確率の少なくとも１つを含むステップと、
前記第２の確率に基づいて、前記認識対象音声信号に前記所定のキーワードが存在するかどうかを決定するステップと、を含み、
各前記第１の確率と所定の決定ロジックとに基づいて、前記認識対象音声信号に前記所定のキーワードが存在すると判定した場合に、前記の、前記認識対象音声信号に基づいて各第２の音声セグメントを取得するステップに進むことを特徴とする、方法。
各前記第１の確率と所定の決定ロジックとに基づいて、前記認識対象音声信号に前記所定のキーワードが存在することを判定する方法は、
現在の認識対象分割単語ユニットを決定するステップであって、前記現在の認識対象分割単語ユニットが、前記所定のキーワードにおける各前記所定の分割単語ユニットの現れる順番に基づき決定される、最初に現れた認識対象分割単語ユニットとして使用されたことのない所定の分割単語ユニットであるステップと、
現在の判断対象音声セグメントを決定するステップであって、前記現在の判断対象音声セグメントが、前記認識対象音声信号における各前記第１の音声セグメントの現れる順番に基づき決定される、最初に現れた判断対象音声セグメントとして使用されたことのない第１の音声セグメントであるステップと、
前記現在の判断対象音声セグメントが前記現在の認識対象分割単語ユニットに対応する確率が所定の閾値よりも大きく、且つ、前記現在の認識対象分割単語ユニットが前記所定のキーワードのうち最後に現れた前記所定の分割単語ユニットではない場合に、前記の、現在の認識対象分割単語ユニットを決定するステップに戻るステップと、
前記現在の判断対象音声セグメントが前記現在の認識対象分割単語ユニットに対応する確率が前記所定の閾値よりも大きく、且つ、前記現在の認識対象分割単語ユニットが前記所定のキーワードのうち最後に現れた前記所定の分割単語ユニットである場合に、前記認識対象音声信号に前記所定のキーワードが存在すると判定するステップと、を含むことを特徴とする請求項１に記載の方法。
前記方法は、さらに、
前記現在の判断対象音声セグメントが前記現在の認識対象分割単語ユニットに対応する確率が前記所定の閾値以下であり、且つ、前記所定の閾値よりも大きいと前回判定した際に対応する認識対象分割単語ユニットが有効な状態にある場合に、前記の、現在の判断対象音声セグメントを決定するステップに戻るステップと、
前記現在の判断対象音声セグメントが前記現在の認識対象分割単語ユニットに対応する確率が前記所定の閾値以下であり、且つ、前記所定の閾値よりも大きいと前回判断した際に対応する認識対象分割単語ユニットが無効な状態にある場合に、前記所定のキーワードの各前記所定の分割単語のうち最初に現れた前記所定の分割単語ユニットを現在の認識対象分割単語ユニットとして決定し、前記の、現在の判断対象音声セグメントを決定するステップに戻るステップと、を含むことを特徴とする請求項２に記載の方法。
前記第１の分類モデルを決定する方法は、
所定のコーパスに基づき、サンプル音声信号を取得するステップであって、前記所定のコーパスが汎用のコーパスを含む、ステップと、
各前記サンプル音声信号に基づき第３の音声セグメントを取得するステップと、
各前記第３の音声セグメントの第１の音響特徴及び各前記第３の音声セグメントにそれぞれ対応する各第３の確率を取得するステップであって、前記第３の確率に、前記第３の音声セグメントが、前記所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率が含まれる、ステップと、
各前記第３の音声セグメントの第１の音響特徴及び各前記第３の確率に基づき、所定の第１のニューラルネットワークモデルをトレーニングして、前記第１の分類モデルを決定するステップと、を含むことを特徴とする請求項１に記載の方法。
前記第２の分類モデルを決定する方法は、
各前記サンプル音声信号に基づき、第４の音声セグメントを取得するステップと、
各第４の音声セグメントに対応する第３の音声セグメントに対応する第３の確率に基づき、各前記第４の音声セグメントの第２の予測特徴をそれぞれ生成するステップと、
各前記第４の音声セグメントにそれぞれ対応する各第４の確率を取得するステップであって、前記第４の確率には、前記第４の音声セグメントが前記所定のキーワードに対応する確率及び前記所定のキーワードに対応しない確率の少なくとも１つが含まれる、ステップと、
各前記第４の音声セグメントの第２の予測特徴及び各前記第４の確率に基づき、所定の第２のニューラルネットワークモデルをトレーニングして、第２の分類モデルを決定するステップを含むことを特徴とする請求項４に記載の方法。
前記の、各前記第２の音声セグメントに対応する第１の音声セグメントに対応する第１の確率に基づいて、各前記第２の音声セグメントの第１の予測特徴をそれぞれ生成するステップの前に、
各前記第２の音声セグメントの第２の音響特徴を取得するステップをさらに含み、
前記の、各前記第２の音声セグメントに対応する第１の音声セグメントに対応する第１の確率に基づいて、各前記第２の音声セグメントの第１の予測特徴をそれぞれ生成するステップは、
各前記第２の音声セグメントの第２の音響特徴及び各第２の音声セグメントに対応する第１の音声セグメントに対応する第１の確率に基づき、各前記第２の音声セグメントの第１の予測特徴をそれぞれ生成するステップを含むことを特徴とする請求項１に記載の方法。
前記所定のキーワードの各所定の分割単語ユニットを取得する方法は、
所定の単語分割単位に基づいて前記所定のキーワードに対して単語分割処理を行って、前記所定のキーワードの各所定の分割単語ユニットを取得するステップを含み、
前記所定の単語分割単位に、ピンイン、音素、及び字の少なくとも１つが含まれることを特徴とする請求項１に記載の方法。
前記第１の分類モデルは、互いにカスケード接続された各サブ分類モデルを含み、前記サブ分類モデルのレベル数が２以上であることを特徴とする請求項１から７のいずれか１項に記載の方法。
音声キーワードの認識装置であって、
認識対象音声信号に基づいて、各第１の音声セグメントを取得するための第１の音声セグメント取得モジュールと、
事前設定された第１の分類モデルにより、各前記第１の音声セグメントにそれぞれ対応する各第１の確率を取得するための第１の確率取得モジュールであって、前記第１の確率には、前記第１の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率を含む、第１の確率取得モジュールと、
前記認識対象音声信号に基づいて各第２の音声セグメントを取得し、各前記第２の音声セグメントに対応する第１の音声セグメントに対応する第１の確率に基づいて、各前記第２の音声セグメントの第１の予測特徴をそれぞれ生成するための予測特徴生成モジュールと、
事前設定された第２の分類モデルにより、各前記第１の予測特徴に基づいて分類して、各前記第２の音声セグメントにそれぞれ対応する各第２の確率を取得するための第２の確率取得モジュールであって、前記第２の確率には、前記第２の音声セグメントが前記所定のキーワードに対応する確率及び前記所定のキーワードに対応しない確率の少なくとも１つを含む、第２の確率取得モジュールと、
前記第２の確率に基づいて、前記認識対象音声信号に前記所定のキーワードが存在するかどうかを決定するためのキーワード認識モジュールと、を含み、
各第１の確率と所定の決定ロジックとに基づいて、認識対象音声信号に所定のキーワードが存在すると判定した場合に、前記予測特徴生成モジュールを呼び出すための仮認識モジュールをさらに含むことを特徴とする、装置。
前記仮認識モジュールは、
現在の認識対象分割単語ユニットを決定するための現在の分割単語決定ユニットであって、前記現在の認識対象分割単語ユニットが、前記所定のキーワードにおける各所定の分割単語ユニットの現れる順番に基づき決定される、最初に現れた認識対象分割単語ユニットとして使用されたことのない所定の分割単語ユニットである、現在の分割単語決定ユニットと、
現在の判断対象音声セグメントを決定するための現在のセグメント認識ユニットであって、前記現在の判断対象音声セグメントが、認識対象音声信号における各第１の音声セグメントの出現順序に基づき決定される、最初に現れた判断対象音声セグメントとして使用されたことのない第１の音声セグメントである、現在のセグメント認識ユニットと、
現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率が所定の閾値よりも大きく、且つ、現在の認識対象分割単語ユニットが所定のキーワードのうち最後に現れた所定の分割単語ユニットではない場合に、前記現在の分割単語決定ユニットを呼び出すための第１の呼び出しユニットと、
現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率が所定の閾値よりも大きく、且つ、現在の認識対象分割単語ユニットが所定のキーワードのうち最後に現れた所定の分割単語ユニットである場合に、認識対象音声信号に所定のキーワードが存在すると判定するための仮判定ユニットとを含むことを特徴とする請求項９に記載の装置。
前記仮認識モジュールは、
現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率が、所定の閾値以下であり、且つ、所定の閾値よりも大きいと前回判定した際に対応する認識対象分割単語ユニットが有効な状態にある場合に、前記現在のセグメント認識ユニットを呼び出すための第２の呼び出しユニットと、
現在の判断対象音声セグメントが現在の認識対象分割単語ユニットに対応する確率、が所定の閾値以下であり、且つ、所定の閾値よりも大きいと前回判定した際に対応する認識対象分割単語ユニットが無効な状態にある場合に、所定のキーワードの各所定の分割単語のうち最初に現れた所定の分割単語ユニットを、現在の認識対象分割単語ユニットとして決定し、前記現在のセグメント認識ユニットを呼び出すための分割単語リセットユニットと、を含むことを特徴とする請求項１０に記載の装置。
所定のコーパスに基づいて、サンプル音声信号を取得するためのサンプルデータ取得モジュールであって、前記所定のコーパスが汎用のコーパスを含むサンプルデータ取得モジュールと、
各サンプル音声信号に基づき、第３の音声セグメントを取得するための第１のセグメント取得モジュールと、
各第３の音声セグメントの第１の音響特徴及び各第３の音声セグメントにそれぞれ対応する各第３の確率を取得するための第１のサンプル特徴取得モジュールであって、第３の確率に、前記第３の音声セグメントが所定のキーワードの各所定の分割単語ユニットにそれぞれ対応する各確率が含まれる、第１のサンプル特徴取得モジュールと、
各第３の音声セグメントの第１の音響特徴及び各第３の確率とに基づき、所定の第１のニューラルネットワークモデルをトレーニングして、第１の分類モデルを決定するための第１のモデルトレーニングモジュールと、をさらに含むことを特徴とする請求項９に記載の装置。
各サンプル音声信号に基づき、第４の音声セグメントを取得するための第２のセグメント取得モジュールと、
各第４の音声セグメントに対応する第３の音声セグメントに対応する第３の確率に基づき、各第４の音声セグメントの第２の予測特徴をそれぞれ生成するための第２のサンプル特徴取得モジュールと、
各第４の音声セグメントにそれぞれ対応する各第４の確率を取得するためのサンプル確率取得モジュールであって、第４の確率には、当該第４の音声セグメントが所定のキーワードに対応する確率及び所定のキーワードに対応しない確率の少なくとも１つが含まれる、サンプル確率取得モジュールと、
各第４の音声セグメントの第２の予測特徴及び各第４の確率とに基づき、所定の第２のニューラルネットワークモデルをトレーニングして、第２の分類モデルを決定するための第２のモデルトレーニングモジュールと、をさらに含むことを特徴とする請求項１２に記載の装置。
各第２の音声セグメントの第２の音響特徴を取得するための音響特徴取得モジュールをさらに含み、
第２のサンプル特徴取得モジュールは、各前記第２の音声セグメントの第２の音響特徴、及び各第２の音声セグメント対応する第１の音声セグメントに対応する第１の確率に基づいて、各前記第２の音声セグメントの第１の予測特徴をそれぞれ生成するために使用されることを特徴とする請求項９に記載の装置。
所定の単語分割単位に基づいて、所定のキーワードに対して単語分割処理を行って、所定のキーワードの各所定の分割単語ユニットを取得するための単語分割処理モジュールをさらに含み、
所定の単語分割単位に、ピンイン、音素、及び字の少なくとも１つが含まれることを特徴とする請求項９に記載の装置。
第１の分類モデルは、互いにカスケード接続された各サブ分類モデルを含み、サブ分類モデルのレベル数が２以上であることを特徴とする請求項９から１５のいずれか１項に記載の装置。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、プロセッサによって実行される場合に、請求項１から８のいずれか１項に記載の方法のステップを前記プロセッサに実行させる、コンピュータ読み取り可能な記憶媒体。
メモリとプロセッサとを含むコンピュータデバイスであって、前記メモリにコンピュータプログラムが記憶され、前記コンピュータプログラムは、前記プロセッサによって実行される場合に、請求項１から８のいずれか１項に記載の方法のステップを前記プロセッサに実行させるコンピュータデバイス。