JP2021086144A

JP2021086144A - 音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP2021086144A
Application number: JP2020095874A
Authority: JP
Inventors: シャオコンマー; Xiaokong Ma; ツーチャン; Ce Zhang; ジンフォンバイ; Jinfeng Bai; レイジア; Lei Jia
Original assignee: Baidu Online Network Technology Beijing Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd
Priority date: 2019-11-25
Filing date: 2020-06-02
Publication date: 2021-06-03
Anticipated expiration: 2040-06-02
Also published as: CN110992940B; US20210158816A1; CN110992940A; US11250854B2; JP7208951B2

Abstract

【課題】音声データが示す意図の種類を決定し、音声データの指示する対話動作を実行する、音声対話の方法、装置、デバイス及コンピュータ読み取り可能な記録媒体を提供する。【解決手段】音声対話の方法は、受信した音声データから短時間振幅スペクトル特性を示す音響的特徴を抽出するステップと、音響的特徴をトレーニング用音声データの音響的特徴に基づいて構築された種類識別モデルに入力することにより、音声データが示す対話型か非対話型かの意図の種類を決定するステップと、意図の種類が対話型と決定されたことに基づいて音声データの指示する対話動作を実行するステップと、を含む。【選択図】図２

Description

本開示の実施例は、主に音声処理の分野に関し、より具体的には、音声対話の方法、装置、デバイス及びコンピュータ読み取り可能な記憶媒体に関する。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）技術の開発及び進歩に伴い、音声対話は、人工知能分野の重要な下位分野として人々の日常生活に入る。音声対話の適用場合も徐々に増えている。スマートデバイス（例えば、移動端末、スマートボックス、車載端末、スマート家電等）は、入力された音声データを識別し、識別された結果に基づいて対話動作を実行することができる。

スマートデバイスと対話する際に、より自然言語に近いコミュニケーションを利用することが望まれる。従来の音声対話方法は、通常、予め定められたポリシーに基づいて簡単な音声対話を実行することに過ぎず、自然言語に近い対話の体験を実現することができない。

本開示の例示的な実施例によれば、音声対話の方案を提供する。

本開示の第１態様において、音声対話方法であって、受信した音声データから、前記音声データの短時間振幅スペクトル特性を示す音響的特徴を抽出するステップと、前記音響的特徴を、トレーニング用音声データの音響的特徴に基づいて構築された種類識別モデルに入力することにより、前記音声データが示す意図の種類を決定するステップであって、前記意図の種類は、対話型と非対話型とを有するステップと、前記意図の種類が対話型と決定されたことに応じて、前記音声データの指示する対話動作を実行するステップと、を含む、音声対話方法を提供する。

本開示の第２態様おいて、音声対話装置であって、受信した音声データから、前記音声データの短時間振幅スペクトル特性を示す音響的特徴を抽出するように構成された特徴抽出モジュールと、前記音響的特徴を、トレーニング用音声データの音響的特徴に基づいて構築された種類識別モデルに入力することにより、前記音声データが示す意図の種類を決定するように構成された種類識別モジュールであって、前記意図の種類は、対話型と非対話型とを有するモジュールと、前記意図の種類が対話型と決定されたことに応じて、前記音声データの指示する対話動作を実行するように構成された対話実行モジュールと、を含む、音声対話装置を提供する。

本開示の第３態様において、電子デバイスであって、１または複数のプロセッサと、１つ又は複数のプログラムを記憶するメモリと、を備え、前記１つ又は複数のプログラムが前記１つ又は複数のプロセッサに実行されると、本開示の第１態様に記載の方法を実現させる、電子デバイスを提供する。

本開示の第４態様において、プロセッサにより実行されることにより、本開示の第１態様に記載の方法を実現するプログラムを記録したコンピュータ読み取り可能な記録媒体を提供する。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。本発明のさらに他の目的、特徴や利点は、後述する本発明の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。

図面を参照して詳細に説明することにより、本発明の各実施例の上記の特徴及び他の特徴、利点及び側面は明らかになる。図において、同一または類似の図面には同一または類似の要素を示す。
本開示の複数の実施例に係る音声対話方案の環境の一例を示す図である。本発明のいくつかの実施例に係る音声対話方法のフローチャートである。本発明の実施例に係るフィルタバンク特徴抽出手順のフローチャートである。本開示を実施可能な複数の実施例に係る種類識別モデルの概略ブロック図である。本開示の複数の実施例に係る、種類識別モデルの構築方案の環境の一例を示す説明図である。本開示の複数の実施例を実施可能な音声対話装置の概略ブロック図である。本開示の複数の実施例を実施可能な演算装置の概略ブロック図である。

以下、図面を参照しながら本発明の実施例を詳細に記述する。本開示のいくつかの実施例を図面に示したが、本開示は、様々な形態で実施されることが可能であり、また、本明細書に示した実施例に限定されると解釈されるべきではない。逆に、これらの実施例は、本開示をより完全に理解するためのものである。本開示の図面及び実施例は、例示的なものであり、本開示の保護範囲を限定するものではないと理解すべきである。

本開示の実施例の説明において、用語「含まれる」及びその類似の用語は開放的に含むと解釈すべきであり、すなわち「含まれるが、限定されない」。また、用語「に基づく」は、「少なくとも一部にも基づく」と解釈されるべきである。また、「一実施例」または「当該実施例」の用語は、少なくとも1つの「実施例」として解釈されるべきものである。なお、「第１」、「第２」等の用語は、異なるオブジェクトを指してもよく、同一のオブジェクトを指してもよい。また、以下に、他に明示的な意味又は暗黙的な意味をも含む場合もある。

以上説明したように、人工知能技術の発展に伴い、スマートデバイスとの間の対話は徐々に人々の日常生活に入る。人間と人間との自然言語対話に類似した対話方式でスマートデバイスと対話を行うことが望まれている。

従来の音声対話の方案では、通常、特定のウェイクアップワードによってスマートデバイスをウェイクアップし、スマート装置は、ウェイクアップワード後の入力音声を、デフォルトでユーザの対話コマンドとして、対話動作を実行し、今回の対話動作の実行が完了した後、ウェイクアップワードのモニタリング状態に戻る。換言すれば、この時にユーザは、続けてスマート装置と音声対話しようとすると、再度ウェイクアップワードを利用してスマート装置をウェイクアップする必要である。このような方法では、スマートデバイスは、一回のウェイクアップで、一回のみ対話するものであるため、ユーザは、対話する度に、先ずウェイクアップワードによってウェイクアップ動作を実行する必要となり、複雑となってしまう欠点がある。特に、ユーザが短時間内に複数回対話する必要がある場合（例えば、ユーザは気象状況を調べようとする場合、目覚まし時計を設定しようとする場合、及び、音楽を再生しようとする場合など）では、ユーザ体験が非常に悪くなる。また、このような方法では、ウェイクアップされた後の入力音声の真実の意図を認識せずに、当該入力音声をデフォルトでユーザコマンドとするようにするため、ユーザ入力が断たれた場合（例えば、ユーザの音声が他の環境騒音に覆われる場合など）、又は装置が誤ってウェイクアップされた場合（例えば、スマート装置が周囲の環境騒音をウェイクアップワードとして誤認してウェイクアップ操作を実行する場合など）、ヒューマンコンピュータ対話手順を誤って実行するようになってしまう。

装置と対話するための他の従来方法では、ポリシーを定義し、ウェイクアップワードを増加することにより、一回のウェイクアップで複数回の対話を実現する方法が提供される。このような方法では、実施の効果がポリシーの合理性及びウェイクアップワードの正確性に依存するため、実行可能性も低くなり、効果もよくない。また、このような方法では、誤ってウェイクアップした場合にユーザの音声入力の対話意図を識別できない問題を依然として解決できず、本当の自然言語の対話の効果を実現することができない。

また、従来音声対話方法では、語調、ポーズ及び音量等の簡単な音声情報に基づく音声認識技術、又は、入力音声を複数の単語又は語句に分割して、入力音声の語義を認識する音声認識技術が多く利用されているが、これらの音声認識技術は、入力音声の音響的特徴をよりよく利用することができず、音声認識の正確性が高くない。

本開示の実施例によれば、音声対話のための方法を提供する。当該方法において、受信された音声データにおける複雑な音響的特徴（例えば、フィルタセット特徴及びメル周波数逆スペクトル係数特徴等）を抽出する。抽出された音響的特徴によれば、人間の耳が音声周波数の高低に対する非線形の心理的知覚から、音声の短時間振幅スペクトルの特徴を反映可能である。入力された音声データに対して、文字ずつ、或いは語句ずつ分析する必要がなく、また、受信された音声データの語調や、ポーズ等の特徴を分析する必要もなくなる。また、抽出された音響的特徴を、種類識別モデルに入力して、上記の音声データに示される意図の種類を決定する。ここで、種類識別モデルは、音声データの短時間振幅スペクトル特性を表すことができる音響的特徴に基づいて構築されたものであるので、文単位で音声認識することを実現することができる。種類識別モデルの出力結果に基づいて、入力された音声データの意図が対話型であるか、又は、非対話型であるかを判断することができる。さらに、音声データの種類に基づき、対話動作をトリガするか否かを決定する。このようにして、対話動作は、特定のウェイクアップワードに依存せず、一回のウェイクアップで複数回対話することを実現する。特に、ユーザが短時間内に複数回の対話を必要とする場合では、より自然言語に近い対話方式を提供することができる。また、本開示の方法は、特に、受信した音声データの意図種類を確定する動作を含むことにより、デバイスが誤ってウェイクアップされた状態にあっても、受信した音声データをデフォルトで対話動作実行用のコマンドとすることなく、不要な対話動作を回避することができる。

続いて、図面を参照しながら本開示の実施例を具体的に記述する。図１は、本開示の複数の実施例が適用可能な例示の環境１００を示す模式図である。当該例示の環境１００では、演算装置１２０は、音声データ１１０を受信可能である。本発明の実施例において、音声データ１１０は、受信したあらゆる音声データであってもよい。音声データ１１０の例として、例えば、ユーザからの音声データ、スマートデバイスからの音声データ、他のメディア資源から取得した音声データなどが挙げられ、これらは例示的なものであり、本開示は、何ら限定されない。

図１に示すように、算出装置１２０は、音声データ１１０を受信すると、音声データ１１０の音響的特徴を抽出し、抽出した音響的特徴を種類識別モデル１３０に入力し、種類識別モデル１３０から返信された結果に基づいて、音声データ１１０の意図的なジャンルを決定してもよい。音声データ１１０の意図の種類に基づいて、受信した音声データ１１０を正しく処理することができる。具体的には、音声データ１１０が対話型の意図種類である場合、演算装置１２０は、音声データ１１０の指示する対話動作を実行することができる。あるいは、演算装置１２０は、ユーザへ対話動作の動作結果を返信してもよい。

当業者には理解できるように、図１において、種類識別モデル１３０は、独立した枠として示されるが、これは、例示的なものである。本開示の実施例によれば、種類識別モデル１３０は、演算装置１２０内部の任意の記憶空間に記憶されてもよく、また、演算装置１２０がアクセス可能な任意の記憶装置に記憶されてもよく、本開示は、具体的な実現形態を限定するものではない。

以下、図２〜図４を参照しながら、本開示の複数の実施例に係る音声対話手順について、より詳細に説明する。図２は、本発明の実施例にかかる音声対話処理の手順２００を示すフローチャートである。処理２００は、図１の演算装置１２０により実行可能である。説明の便宜上、図１を参照して手順２００について説明する。

ボックス２１０では、演算装置１２０は、受信した音声データ１１０の音響的特徴を抽出する。音声データ１１０は様々な方法により取得されてもよく、本開示において具体的な実現方法を限定しない。例えば、いくつかの実施例において、演算装置１２０は、自身の収集装置により、ユーザ又は他の装置からの音声を直接取得してもよい。また、演算装置１２０は、ネットワークを介して音声データ１１０を有線的に、または無線的に受信してもよい。

本発明者は、現実には、２つの音調の周波差が臨界帯域幅よりも小さい場合に、人間が２つの音調を同一の音調として聴くことに気がついている。また、本発明者は、音圧が一定である場合に、雑音がある帯域幅に抑制されると、人間の耳に主観的に感知したラウドネスがその帯域幅内で一定となり、且つ、その帯域幅内で、複雑なエンベロープを有する信号のラウドネスが、信号自身の周波数分布にかかわらず、その帯域幅の中心周波数の位置における純音のラウドネスと等しいことにも気がついている。上記した音声データ１１０の特徴を踏まえ、本開示のいくつかの実施例では、音声データ１１０の音響的特徴として、フィルタバンク特徴を採用している。

図３を参照して、音響的特徴がフィルタバンク特徴である場合の抽出処理について具体的に説明する。図３は、本開示の実施形態に係るフィルタバンク特徴抽出手順３００を示すフローチャートである。手順３００は、図１の演算装置１２０により実現することができる。説明の便宜上、図１を参照して手順３００について説明する。

ステップ３１０では、演算装置１２０は、受信した音声データ１１０に対して、有限語長効果（finite word-length effect）の影響を受けにくくなるように、一次有限励起応答ハイパスフィルタにより、音声データ１１０のスペクトルを平坦化する予め強調処理を実行する。

次のブロック３２０では、演算装置１２０は、ハミングウィンドウを介して、予め強調されたデータに対しウィンドウ化を実行する。ハミングウィンドウとは、ある特定の区間において非ゼロの値とし、それ以外の区間においてゼロとする窓関数である。ハミングウィンドウによるウィンドウ化により、その分ギブス効果の影響が低減され、その出力結果は、フーリエ変換によりよく適することになる。

ステップ３３０では、演算装置１２０は、ウィンドウ化されたデータに対してフーリエ変換する。これは、音声データ１１０を時間領域で変換する場合では、音声データ１１０の特徴を表することが困難であるのに対し、音声データ１１０をフーリエ変換すると、音声データ１１０の周波数領域でのエネルギー分布を取得することができ、このような周波数領域でのエネルギー分布は音声データ１１０の音響的特徴をよく表すことができるからである。

フレーム３４０では、フーリエ変換されたデータを三角フィルタ関数プールに入力する。三角フィルタ関数プールは、スペクトルを平滑化して、高調波を除去するように作用するものであり、音声データ１１０の共鳴ピークをよりよく強調することができる。

以上の処理により、演算装置１２０は、音声データ１１０の音響的特徴（すなわち、フィルタバンク特徴）を得ることができる。

また、幾つかの実施例において、演算装置１２０は、音声データ１１０の音響的特徴として、音声データ１１０のメル周波数ケプストラム係数の特徴を抽出するようにしてもよい。メル周波数逆スペクトル係数特徴の抽出手順においては、フィルタバンク特徴の抽出手順に比べ、離散コサイン変換が追加される。離散コサイン変換は、パラメータ間の相関を除去することができ、より識別度の良い結果を出力できることに伴い、計算量が増やすことになる。

このようにして、人間の耳が音声周波数の高低に対する非線形の心理的知覚から、音声データ１１０の音響的特徴を取得し、音声データ１１０の短時間振幅スペクトルの特徴を反映することができる。音声データにから音声ガス、ポーズ、音量等の特徴を抽出する従来方法に比べ、フィルタバンク特徴及びメル周波数逆スペクトル係数特徴を利用することにより、音声データ１１０の音響特性がよりよく表され、音声データ１１０に対していかなる分割を行うことなく、文単位で音声認識することが実現される。

当業者には理解できるように、フィルタバンク特徴及びメル周波数逆スペクトル係数特徴は、好ましい実施形態であり、唯一な実現形態ではない。他の実施例において、他の音声データ１１０の短時間振幅スペクトル特性を表す他の音響的特徴を用いてもよく、本開示は、これを限定するものではない。

以上、演算装置１２０が音声データ１１０の音響的特徴を抽出する動作について詳細に説明した。図２に戻り、ステップ２２０において、演算装置１２０は、抽出された音響的特徴を種類識別モデル１３０に入力して、音声データ１１０の意図種類を決定し、すなわち、該音声データ１１０の意図種類が、対話型の意図種類であるか、又は、非対話型の意図種類であるかを決定する。なお、種類識別モデル１３０は、トレーニング用音声データの音響的特徴に基づいて構築されてもよい。例えば、上述したフィルタ群特徴やメル周波数ケプストラム特徴などの音響的特徴は、トレーニング用音声データの短時間振幅スペクトル特性を表す音響パラメータとされてもよい。

本開示のいくつかの実施例において、種類識別モデル１３０の構築において、入力された音響的特徴に対応する音声データ１１０が対話意図を有するか否かを判断することを目標としてトレーニングする。このようにして、音声データ１１０を分割する必要がなく、また、音声データ１１０における音声ガス、ポーズなどの特徴を識別する必要もなく、文単位の音声データ１１０の意図種類の判定を実現する。

本開示のいくつかの実施例において、種類識別モデル１３０は畳み込み長・短期記憶ディープニューラルネットワーク（ＣＬＤＮＮ）モデルであってもよい。次に、図４を参照して、本開示の一実施例に係るＣＬＤＮＮモデルについて説明する。

種類識別モデル１３０は、図４に示すように、ボリューム層４１０、正規化層４２０−１、長・短期記憶層４３０、正規化層４２０−２、平均層４４０、および全結合層４５０が順に結合して構成されており、正規化層４２０−１および正規化層４２０−２は、選択可能である。さらに、図４に示すように、長・短期記憶層４３０及び正規化層４２０−２は、順に直列して結合されたＮ個であってもよく、ただし、Ｎは１より大きい整数である。

図４に示すように、本開示のいくつかの実施例において、畳み込み長・短期記憶ディープニューラルネットワーク（ＣＬＤＮＮ）モデルは、全結合層４５０の前に、平均層４４０をさらに含む。平均層４４０は、異なる長さのデータの流れが、平均層４４０を通過することにより、同じ長さとなるために用いられる。このように、異なる音声データ１１０は一般的に時間領域に異なる長さを有し、平均層４４０により、音声データ１１０は時間領域に同じ長さを有することができる。異なる音声データ１１０の音響特性をより良好に表現することができる。

図２に戻り、ステップ２３０において、演算装置１２０は、音声データ１１０の意図種類が対話型であると判定した場合、対話動作を実行する。具体的には、演算装置１２０は、音声データ１１０の語義情報を取得し、さらに、該語義情報に対応する対話動作を決定して、対話手順を実行する。当業者には理解できるように、音声データ１１０の語義情報の取得、語義情報に対応する対話動作、及び対話手順の実行は、様々な方法により実行されでもよく、本開示は、これに対し限定するものではない。

本発明のいくつかの実施例において、演算装置１２０は、ウェイクアップした後の一定期間のみに、手順２００を実行する。当業者には理解できるように、演算装置１２０のウェイクアップは、様々な方法により実行されてもよく、例えば、ウェイクアップワード、特定のタッチ／ホバリング操作、特定のアプリケーションをトリガすること、又は予め定義されたウェイクアップポリシー（例えば、特定の時間、場所又は他のトリガ条件等）に基づくこと等が挙げられるが、それに限定されない。演算装置１２０は、ウェイクアップ指示を受信すると、モニタリング用のタイマを起動して、音声データ１１０を受信し、モニタリング用のタイマがタイムアウトすると、前記音声データ１１０の受信を停止する。このようにして、ユーザのプライバシーを良好に保護することができ、演算装置１２０の消費電力を低減することができる。

上述したように、種類識別モデル１３０は、トレーニング用音声データ５１０の音響的特徴に基づいて構築される。当業者には理解できるように、種類識別モデル１３０の構築と種類識別モデル１３０の使用とは、互いに独立して実行される二つの操作である。次に、図５を参照して、種類識別モデル１３０の構築について詳細に説明する。

図５は、本開示の複数の実施例に係る種類識別モデルの構築方法の例示の環境５００の一例を示す図である。図５に示すように、トレーニング用装置５２０は、トレーニング用音声データ５１０を取得し、トレーニング用音声データ５２０を用いて種類識別モデル１３０を構築する。当業者には理解できるように、トレーニング装置５２０は、図１に示す演算装置１２０と同じ装置とされてもよく、独立した２つの異なる装置とされてもよい。

まず、トレーニング用装置５２０は、トレーニング用音声データ５１０を取得する。当業者には理解できるように、トレーニング用音声データ５１０の取得は、様々な方法によって行われることができる。本開示のいくつかの実施例において、トレーニング用音声データ５１０は、他の音声認識プラットフォームからであってもよい。これらの音声プラットフォームは、大量の音声認識データを蓄積しており、そのうち、発音が明晰なデータだけでなく、雑音／背景音／環境雑音又は語義不明のデータも含まれる。音声認識プラットフォームは、当該データの語義が正しく認識されたか否かの情報をさらに提供してもよい。このように、大量のトレーニング用音声データ５１０を取得することができるので、十分な数のトレーニング用音声データ５１０の取得が確保される。

選択的に、トレーニング用音声データ５１０は、人工的に生成されたものであってもよく、または履歴からの対話指示などであってもよい。これらのデータには、対話型の意図が明確なデータだけでなく、非対話型の意図が明確なデータも含まれる。例えば、「今何時？」は、対話型の意図が明確なデータであると認定され、「出勤に行く」は、非対話型の意図が明確なデータであると認定されることになる。このようなデータは、種類識別モデルの構築上でより高い精度を有するので、高い精度の種類識別モデル１３０を構築することに重要な役割を有する。

選択的に、トレーニング用音声データ５１０は、さらに対話動作の結果に関するデータを含むことができる。これらのデータには、当該データの指示する対話動作が正常に実行されたデータだけでなく、当該データが示す対話動作が中断されたデータも含まれる。例えば、「今何時？」というデータについて、一般的にスマート装置が、正確に実行して対話の結果を戻すことができる。「テーブル上の本を取って来てください」について、実行の際に、中断されてしまう場合がよくある。幾つかのプラットフォーム又は機構は、このようなデータ、並びに、このようなデータの指示する対話動作が正常に実行されたか否かの結果を提供することができ、また、データの履歴実行情報を分析又は統計することによって上記情報を取得することも可能である。

当業者には理解できるように、他の実施例において、トレーニング用音声データ５１０の取得には、さらに、他の方法を利用することができ、本開示は、これを限定するものではない。当業者には理解できるように、取得されたトレーニング用音声データ５１０は、トレーニング用装置５２０がアクセス可能なあらゆる記憶空間に記憶することができる。また、トレーニング装置５２０は、有線／無線の接続方式により、ネットワークを介してトレーニング用音声データ５１０を取得してもよく、本開示のコントラストは限定するものではない。

以上説明したように、トレーニング用音声データ５１０を取得した後、種類識別モデル１３０を構築する時に、入力された音響的特徴に対応する音声データ１１０が対話型の意図を有するか否かの判断を目標としてトレーニングするので、トレーニング用音声データ５１０に対し、対話意図を示す正例のトレーニング用音声データ、又は、非対話意図を示す負例のトレーニング用音声データとしてアノテーションを付与することを必要とされる。

本開示のいくつかの実施例において、トレーニング用音声データの語義が正しく認識されたか否かに基づいて、トレーニング用音声データ５１０に対しアノテーションを付与することができる。具体的には、正しく認識されたトレーニング用音声データ５１０を正例のトレーニング用音声データとし、正しく認識されなかったトレーニング用音声データ５１０を負のトレーニング用音声データとする。

または、本開示のいくつかの実施例によれば、トレーニング用音声データ５１０がインタラクティブ意図を有するか否かに基づいてトレーニング用音声データ５１０にアノテーションを付与することができる。具体的には、対話型の意図を有するトレーニング用音声データ５１０は、正例のトレーニング用音声データとし、非対話型の意図を有するトレーニング用音声データ５１０は負例のトレーニング用音声データとするようにアノテーションが付与される。

または、本開示のいくつかの実施例において、トレーニング用音声データ５１０の指示する対話動作が正常に実行されたか否かに基づいてトレーニング用音声データ５１０にアノテーションを付与することもできる。具体的には、トレーニング用音声データ５１０の指示する対話動作が正常に実行されたトレーニング用音声データ５１０を正例のトレーニング用音声データとし、トレーニング用音声データ１６０の指示する対話動作が正常に実行されなかったトレーニング用音声データ５１０を負例のトレーニング用音声データとするようにアノテーションが付与される。

当業者には理解できるように、上述したアノテーション付与の方法は、ただ例示として示されるものに過ぎず、トレーニング用音声データ５１０のソース／意図種類への影響（正／負）によって、他の実施形態において、他のアノテーション付与の方法を利用することもでき、本開示は、これを限定するものではない。

このように、本開示のいくつかの実施例において、種類識別モデル１３０の構築時に、種類識別モデル１３０に入力されたトレーニング用音声データ５１０は、対話型の意図を示す正例のトレーニング用音声データ、又は、非対話型の意図を示す負例のトレーニング用音声データとしてアノテーションが付与される。例えば、トレーニング用音声データ５１０の語義が正しく認識されたか否か、トレーニング用音声データ５１０が対話型の意図を有するか否か、トレーニング用音声データ５１０の指示する対話動作が正しく実行されたか否かに基づいて、トレーニング用音声データに対しアノテーションを付与するようにしてもよい。このようにして、トレーニング用音声データ５１０のソースが、より柔軟で且つ多様とされ、トレーニング用の種類識別モデルの認識精度がより高くなる。

トレーニング用装置５２０は、アノテーションが付与されたトレーニング用音声データ５１０を用いて、種類識別モデル１３０を構築することができる。本開示のいくつかの実施例において、トレーニング装置５２０は、トレーニング用音声データ５１０の種類識別モデルの構築する精度の順次に、トレーニング用音声データ５１０を利用することにより、種類識別モデル１３０を構築することができる。具体的には、トレーニング用装置５２０は、トレーニング用音声データ５１０から、第１組のトレーニング用音声データと、第１組のトレーニング用音声データよりも、種類識別モデルの構築精度が高い第２組のトレーニング用音声データとを特定する。まず、トレーニング用装置５２０は、第１組のトレーニング用音声データの音響的特徴を利用して基礎的モデルを構築する。その後、トレーニング用装置５２０は、第２組のトレーニング用音声データの音響的特徴を用いて基礎的モデルを更新し、種類識別モデル１３０を得る。音響的特徴の抽出手順は、音響的特徴の抽出手順と同様であるので、簡潔のために、ここでは説明を繰り返さない。

説明のために、限定するためではない例を挙げると、トレーニング用音声データ５１０の語義が正しく認識されたか否か、およびトレーニング用音声データ５１０が示す対話動作が正しく実行されたか否かに応じて、アノテーションが付与されたトレーニング用音声データ５１０を用いて、基礎的モデルを構築し、そして、トレーニング用音声データ５１０が対話型の意図を有するか否かに応じて、基礎的モデルを更新することにより、前記タイプ認識モデル１３０を得ることができる。

当業者には理解できるように、上述の例は、本開示を限定するものではなく説明するためのものに過ぎず、種類識別モデル１３０の構築動作はより多くの段階に分割して（即ち、複数の基礎的モデルを構築して）実行されてもよい。例えば、まず、第１組のトレーニング用音声データを利用して第１の基礎的モデルを構築し、続いて、第２組のトレーニング用音声データを利用して第一基礎的モデルを更新して第２の基礎的モデルを構築し、それから、第Ｎ組のトレーニング用音声データを利用して、第Ｎ−１組の基礎的モデルを更新して種類識別型を構築するようにし、ただし、Ｎは、２より大きい整数である。

トレーニング用音声データ５２０を区別しない従来の構築方法と比較して、本開示の方法により、種類識別モデルの構築上でより高い精度を有するトレーニング用音声データ５１０を用いて、種類識別モデル１３０を最適化することで、種類識別モデル１３０を精度高く構築することができる。

選択的に、トレーニング用装置５２０は、トレーニング用音声データ５１０の種類識別モデルの構築精度に応じて、トレーニング用音声データ５１０を拡張し、拡張されたトレーニング用音声データの音響的特徴を用いて、種類識別モデル１３０を構築してもよい。具体的には、トレーニング用装置５２０は、トレーニング用音声データ５１０から、第１組のトレーニング用音声データと、第１組のトレーニング用音声データよりも種類識別モデルの構築精度の高い第２組のトレーニング用音声データとを特定し、そして、第２組のトレーニング用音声データの数を増やすことにより、トレーニング用音声データを拡張する。その後、トレーニング装置５２０は、拡張されたトレーニング用音声データの音響的特徴を利用して、種類識別モデル１３０を構築する。音響的特徴の抽出処理は、音響的特徴の抽出処理と同様であり、簡潔のため、ここでは説明を繰り返さない。

説明のために、限定するためではない例を挙げると、トレーニング用装置５２０は、トレーニング用音声データ５１０が対話型の意図を有するか否かに応じてトレーニングするためのトレーニング用音声データ５１０の数を増加させることで、トレーニング用音声データ５１０を拡張し、そして、拡張されたトレーニング用音声データの音響的特徴を用いて、種類識別モデル１３０を構築する。

第２組のトレーニング用音声データの数の増加は、様々な方法により行われでもよい。本開示のいくつかの実施例において、第２組のトレーニング用音声データ全体を複数回コピーするようにしてもよい。または、第２組のトレーニング用音声データのトレーニング用音声データを異なる割合で複製するようにしてもよい。他の実施例において、さらに他の任意の方式を採用して第２組のトレーニング用音声データの数を増加することができ、本開示は、これを限定するものではない。

当業者には理解できるように、上記種類識別モデル１３０の構築案同士が互いに組み合わせられてもよい。例えば、まず、トレーニング用音声データ５１０の種類識別モデルの構築精度に基づいて、トレーニング用音声データ５１０を拡張し、続いて、拡張されたトレーニング用音声データの種類識別モデルの構築精度に基づいて、拡張されたトレーニング用音声データを利用して複数の基礎的モデルを構築し、最終的に、種類識別モデル１３０を構築することができる。

このようにして、トレーニング用装置５２０は、トレーニング用音声データ５１０が種類識別モデルの構築精度上で差異を有することを考慮して、レーニング用音声データの全体に対する種類識別モデルの構築精度の高いトレーニング用音声データの５１０の割合を向上させることにより、構築される種類識別モデル１３０の精度を向上させることができる。

図６は、本開示の実施例に係る音声対話装置６００の概略ブロック図である。装置６００は、図１の演算装置１２０に含まれる。装置６００は、受信した音声データ１１０から、音声データ１１０の短時間振幅スペクトル特性を示す音響的特徴を抽出するように構成された特徴抽出モジュール６１０と、音響的特徴を、トレーニング用音声データ５１０の音響的特徴に基づいて構築された種類識別モデル１３０に入力することにより、音声データ１１０が示す意図の種類を決定するように構成された種類識別モジュール６２０であって、意図の種類は、対話型と非対話型とを有するモジュールと、意図の種類が対話型と決定されたことに応じて、音声データ１１０の指示する対話動作を実行するように構成された対話実行モジュール６３０と備える。

本開示のいくつかの実施例において、装置６００は、トレーニング用音声データ５１０に対し、対話型の意図を示す正例のトレーニング用音声データ、或いは、非対話型の意図を示す負例のトレーニング用音声データとして、アノテーションを付与するように構成されたアノテーションモジュールと、アノテーションが付与されたトレーニング用音声データを用いることにより、種類識別モデル１３０を構築するように構成された種類識別モデル構築モジュールをさらに備える。

本開示のいくつかの実施例において、アノテーションモジュールは、トレーニング用音声データ５１０の語義が正しく認識されたことと、トレーニング用音声データ５１０は対話型の意図を示すこと、トレーニング用音声データ５１０の指示する対話動作は正常に実行されたことと、のうちの少なくとも一項が確定されたことに応じて、トレーニング用音声データ５１０に対して、正例のトレーニング用音声データとしてアノテーションを付与するように構成された、正例のトレーニング用音声データアノテーションモジュールをさらに備える。

本開示のいくつかの実施例において、アノテーションモジュールは、トレーニング用音声データ５１０の語義が正しく認識されないことと、トレーニング用音声データ５１０は非対話型の意図を示すことと、トレーニング用音声データ５１０の指示する対話動作は正常に実行されないことと、のうちの少なくとも一項が確定されたことに応じて、トレーニング用音声データ５１０に対して、負例のトレーニング用音声データとしてアノテーションを付与するように構成された負例のトレーニング用音声データアノテーションモジュールをさらに備える。

本発明のいくつかの実施例において、装置６００は、トレーニング用音声データ５１０から、第１組のトレーニング用音声データと、第１組のトレーニング用音声データよりも高い精度で種類識別モデル１３０を構築可能な第２組のトレーニング用音声データと、を決定するように構成された第１のトレーニング用データ認識モジュールと、第１組のトレーニング用音声データの音響的特徴を利用して基礎的モデルを構築するように構成された基礎的モデル構築モジュールと、第２組のトレーニング用音声データの音響的特徴を利用して前記基礎的モデルを更新して、種類識別モデル１３０を得るように構成された第２の種類識別モデル構築モジュールと、をさらに備える。

本発明のいくつかの実施例において、装置６００は、トレーニング用音声データ５１０から、第１組のトレーニング用音声データと、第１組のトレーニング用音声データよりも、よりも高い精度で種類識別モデル１３０を構築可能な第２組のトレーニング用音声データと、を決定するように構成された第２のトレーニング用データ識別モジュールと、第２組のトレーニング用音声データの数を増やすことにより、トレーニング用音声データ５１０を拡張するように構成されたトレーニング用音声データ拡張モジュールと、拡張されたトレーニング用音声データ５１０の音響的特徴を利用して種類識別モデル１３０を構築するように構成された第３の種類識別モデル構築モジュールと、をさらに備える。

本開示のいくつかの実施例において、装置６００は、ウェイクアップコマンドを受信したと確定したことに応答して、モニタリング用のタイマを起動して、音声データ１１０を受信するように構成されるタイマ起動モジュールと、モニタリング用のタイマがタイムアウトとなると確定したことに応答し、音声データ１１０の受信を停止するように構成されるタイマ傍受モジュールをさらに備える。

本開示のいくつかの実施例において、種類識別モデル１３０は、畳み込み長・短期記憶ディープニューラルネットワーク（ＣＬＤＮＮ）モデルであり、ＣＬＤＮＮモデルは、少なくとも、異なる長さのデータストリームを、同じ長さにする処理を実行するための平均層を含む。

本開示のいくつかの実施例において、音響的特徴は、フィルタバンク特徴及びメル周波数逆スペクトル係数特徴の内の少なくとも一つを含む。

図７は、本開示の一実施形態に係る電子デバイス７００の概略構成を示すブロック図である。電子デバイス７００は、図１の演算装置１２０及び図５のトレーニング用装置５２０を実現するために利用することができる。同図に示すように、電子デバイス７００は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）７０２に記憶されているコンピュータプログラム指令、または記憶部７０８からＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）７０３にロードされたコンピュータプログラム指令に基づいて、各種の動作および処理を実行可能な演算部７０１を備えている。また、ＲＡＭ７０３には、装置７００の動作に必要な各種プログラムやデータが記憶されている。演算部７０１、ＲＯＭ７０２、およびＲＡＭ７０３は、バス７０４を介して相互に接続されている。バス７０４には、入出力（Ｉ／Ｏ）インタフェース７０５も接続されている。

Ｉ／Ｏインタフェース７０５には、例えば、キーボード、マウスなどの入力部７０６と、例えば、各種のディスプレイ、スピーカなどの出力部７０７と、例えば、磁気ディスク、光ディスクなどの記憶部７０８と、例えば、ネットワークカード、モデム、無線通信送受信機などの通信部７０９とを含むデバイス７００の複数の部分が接続されている。通信部７０９は、インターネット等のコンピュータネットワークや各種の電気通信網を介して他の装置と情報／データのやり取りを行うに用いられる。

演算部７０１は、様々な処理や演算機能を有する汎用的及び／又は専用的な処理コンポーネントであってよい。演算部７０１の例としては、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、各種専用のＡＩ（ＡｓｙｍｍｅｔｒｉｃＩｎｔｅｌｌｉｔｅ）演算チップ、各種動作機械学習モデルアルゴリズムの演算部、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、および、プロセッサ、コントローラ、マイクロコントローラなどが挙げられるが、上記に限定されるものではない。演算部７０１は、上述した手順２００等の各方法、処理を実行する。例えば、実施形態において、手順２００は、記憶部７０８等の機械可読媒体に格納されたコンピュータソフトウェアプログラムとして実現されてもよい。また、コンピュータプログラムの一部または全部を、ＲＯＭ７０２や通信部７０９を介して電子デバイス７００にロードしたり、電子デバイス７００にインストールしたりすることも可能である。コンピュータプログラムをＲＡＭ７０３にロードして演算装置７０１で実行することにより、上述した手順２００の各ステップを実行することができる。また、他の実施形態において、演算部７０１は、例えばファームウェアを利用するなど、他の任意の方法により手順２００を実行するように構成されてもよい。

なお、上述した各機能の少なくとも一部は、１または複数のハードウェア・ロジックによって実現されてもよい。例えば、限定的ではなく、使用可能な例示的なハードウェアロジック部品は、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準製品（ＡＳＳＰ）、オンチップシステムのシステム（ＳＯＣ）、負荷プログラマブルロジックデバイス（ＣＰＬＤ）などを含む。

本発明の方法を実施するためのプログラムコードは、１または複数のプログラミング言語の組み合わせで記述されていてもよい。これらのプログラムコードを汎用コンピュータや専用コンピュータ等のプログラマブルデータ処理装置のプロセッサやコントローラに供給し、プロセッサやコントローラで実行することにより、フローチャート及び／又はブロック図で規定された機能・動作を実現することができる。また、プログラムコードは、機械上で完全に実行されるものであってもよいし、機械上で部分的に実行されるものであってもよいし、リモートマシン上で部分的に実行されるものであってもよいし、リモートマシンまたはサーバ上で完全に実行されるものであってもよい。

本発明において、機械可読媒体は、コマンド実行システム、装置又は装置が使用する、又はコマンド実行システム、装置又は装置と組み合わせて使用するプログラムを含む、又は記憶した有形の媒体であってもよい。機械可読媒体は、機械可読信号媒体であってもよいし、機械可読記憶媒体であってもよい。機械可読媒体としては、電子的、磁気的、光学的、電磁的、赤外線的、半導体システム、装置、装置、またはこれらの任意の適切な組み合わせが挙げられるが、これらに限定されるものではない。機械的に読み取り可能な記憶媒体のより具体的な例としては、１又は複数のラインに基づく電気的接続、可搬型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去及び書換可能なリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、携帯可能なＣＤ−ＲＯＭ、光記憶装置、磁気記憶装置、又はこれらの任意の適切な組み合わせが挙げられる。

また、各動作は、ある順序で描画されているが、図示した順序、順序で実行されてもよいし、所望の結果が得られるように、全ての動作が実行されてもよい。ある環境において、マルチタスク及び並列処理が有利であると考えられる。同様に、上記において幾つかの具体的な実現詳細を含むが、これらは本開示の範囲を限定するものと解釈されるべきではない。また、各実施の形態の中で説明されている特徴のうち、一部の特徴を組み合わせて１つの実施の形態としてもよい。逆に、１つの実装形態で記述された様々な特徴は、単独でもよいし、任意の適切なサブコンビネーションで複数の実装形態で実装されてもよい。

以上、本発明の実施の形態について説明したが、本発明は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。逆に、上述した特定の特徴や作用は、あくまでも特許請求の範囲を実現するための例示的なものに過ぎない。

本開示の第５態様において、コンピュータプログラムであって、プロセッサにより実行されると、本発明の第１の観点による方法を実現するコンピュータプログラムを提供する。

Claims

音声対話方法であって、
受信した音声データから、前記音声データの短時間振幅スペクトル特性を示す音響的特徴を抽出するステップと、
前記音響的特徴を、トレーニング用音声データの音響的特徴に基づいて構築された種類識別モデルに入力することにより、前記音声データが示す意図の種類を決定するステップであって、前記意図の種類は、対話型と非対話型とを有するステップと、
前記意図の種類が対話型と決定されたことに応じて、前記音声データの指示する対話動作を実行するステップと、
を含む、音声対話方法。
前記トレーニング用音声データに対し、対話型の意図を示す正例のトレーニング用音声データ、或いは、非対話型の意図を示す負例のトレーニング用音声データとして、アノテーションを付与するステップと、
アノテーションが付与された前記トレーニング用音声データを用いることにより、前記種類識別モデルを構築するステップと、
をさらに含む、請求項１に記載の方法。
前記トレーニング用音声データに対しアノテーションを付与するステップは、
前記トレーニング用音声データの語義が正しく認識されたことと、
前記トレーニング用音声データは対話型の意図を示すことと、
前記トレーニング用音声データの指示する対話動作は正常に実行されたことと、のうちの少なくとも一項が確定されたことに応じて、前記トレーニング用音声データに対して、前記正例のトレーニング用音声データとしてアノテーションを付与するステップを含む、請求項２に記載の方法。
前記トレーニング用音声データに対しアノテーションを付与するステップは、
前記トレーニング用音声データの語義が正しく認識されないことと、
前記トレーニング用音声データは非対話型の意図を示すことと、
前記トレーニング用音声データの指示する対話動作は正常に実行されないことと、のうちの少なくとも一項が確定されたことに応じて、前記トレーニング用音声データに対して、前記負例のトレーニング用音声データとしてアノテーションを付与するステップを含む、請求項２に記載の方法。
前記トレーニング用音声データから、第１組のトレーニング用音声データと、前記第１組のトレーニング用音声データよりも高い精度で前記種類識別モデルを構築可能な第２組のトレーニング用音声データと、を決定するステップと、
前記第１組のトレーニング用音声データの前記音響的特徴を利用して基礎的モデルを構築するステップと、
前記第２組のトレーニング用音声データの前記音響的特徴を利用して前記基礎的モデルを更新して、前記種類識別モデルを得るステップと、
をさらに含む、請求項１に記載の方法。
前記トレーニング用音声データから、第１組のトレーニング用音声データと、前記第１組のトレーニング用音声データよりも、前記第１組のトレーニング用音声データよりも高い精度で前記種類識別モデルを構築可能な第２組のトレーニング用音声データと、を決定するステップと、
前記第２組のトレーニング用音声データの数を増やすことにより、前記トレーニング用音声データを拡張するステップと、
拡張された前記トレーニング用音声データの前記音響的特徴を利用して前記種類識別モデルを構築するステップと、
をさらに含む請求項１に記載の方法。
ウェイクアップコマンドを受信したと確定したことに応答して、モニタリング用のタイマを起動して、音声データを受信するステップと、
前記モニタリング用のタイマがタイムアウトとなると確定したことに応答し、前記音声データの受信を停止するステップと、
をさらに含む、請求項１に記載の方法。
前記種類識別モデルは、畳み込み長・短期記憶ディープニューラルネットワーク（ＣＬＤＮＮ）モデルであり、前記ＣＬＤＮＮモデルは、少なくとも、異なる長さのデータストリームを、同じ長さにする処理を実行するための平均層を含む、請求項１に記載の方法。
前記音響的特徴は、フィルタバンク特徴及びメル周波数逆スペクトル係数特徴の内の少なくとも一つを含む、請求項１に記載の方法。
音声対話装置であって、
受信した音声データから、前記音声データの短時間振幅スペクトル特性を示す音響的特徴を抽出するように構成された特徴抽出モジュールと、
前記音響的特徴を、トレーニング用音声データの音響的特徴に基づいて構築された種類識別モデルに入力することにより、前記音声データが示す意図の種類を決定するように構成された種類識別モジュールであって、前記意図の種類は、対話型と非対話型とを有するモジュールと、
前記意図の種類が対話型と決定されたことに応じて、前記音声データの指示する対話動作を実行するように構成された対話実行モジュールと、
を備える、音声対話装置。
前記トレーニング用音声データに対し、対話型の意図を示す正例のトレーニング用音声データ、或いは、非対話型の意図を示す負例のトレーニング用音声データとして、アノテーションを付与するように構成されたアノテーションモジュールと、
アノテーションが付与された前記トレーニング用音声データを用いることにより、前記種類識別モデルを構築するように構成された種類識別モデル構築モジュールと、
をさらに備える、請求項１０に記載の装置。
前記アノテーションモジュールは、
前記トレーニング用音声データの語義が正しく認識されたことと、
前記トレーニング用音声データは対話型の意図を示すことと、
前記トレーニング用音声データの指示する対話動作は正常に実行されたことと、
のうちの少なくとも一項が確定されたことに応じて、前記トレーニング用音声データに対して、前記正例のトレーニング用音声データとしてアノテーションを付与するように構成された、正例のトレーニング用音声データアノテーションモジュールをさらに備える、請求項１１に記載の装置。
前記アノテーションモジュールは、
前記トレーニング用音声データの語義が正しく認識されないことと、
前記トレーニング用音声データは非対話型の意図を示すことと、
前記トレーニング用音声データの指示する対話動作は正常に実行されないことと、のうちの少なくとも一項が確定されたことに応じて、前記トレーニング用音声データに対して、前記負例のトレーニング用音声データとしてアノテーションを付与するように構成された負例のトレーニング用音声データアノテーションモジュールをさらに備える、請求項１１に記載の装置。
前記トレーニング用音声データから、第１組のトレーニング用音声データと、前記第１組のトレーニング用音声データよりも高い精度で前記種類識別モデルを構築可能な第２組のトレーニング用音声データと、を決定するように構成された第１のトレーニング用データ認識モジュールと、
前記第１組のトレーニング用音声データの前記音響的特徴を利用して基礎的モデルを構築するように構成された基礎的モデル構築モジュールと、
前記第２組のトレーニング用音声データの前記音響的特徴を利用して前記基礎的モデルを更新して、前記種類識別モデルを得るように構成された第２の種類識別モデル構築モジュールと、
をさらに備える、請求項１０に記載の装置。
前記トレーニング用音声データから、第１組のトレーニング用音声データと、前記第１組のトレーニング用音声データよりも高い精度で前記種類識別モデルを構築可能な第２組のトレーニング用音声データと、を決定するように構成された第２のトレーニング用データ識別モジュールと、
前記第２組のトレーニング用音声データの数を増やすことにより、前記トレーニング用音声データを拡張するように構成されたトレーニング用音声データ拡張モジュールと、
拡張された前記トレーニング用音声データの前記音響的特徴を利用して前記種類識別モデルを構築するように構成された第３の種類識別モデル構築モジュールと、
をさらに備える、請求項１０に記載の装置。
ウェイクアップコマンドを受信したと確定したことに応答して、モニタリング用のタイマを起動して、音声データを受信するように構成されるタイマ起動モジュールと、
前記モニタリング用のタイマがタイムアウトとなると確定したことに応答し、前記音声データの受信を停止するように構成されるタイマ傍受モジュールと、
をさらに備える、請求項１０に記載の装置。
前記種類識別モデルは、畳み込み長・短期記憶ディープニューラルネットワーク（ＣＬＤＮＮ）モデルであり、前記ＣＬＤＮＮモデルは、少なくとも、異なる長さのデータストリームを、同じ長さにする処理を実行するための平均層を含む、請求項１０に記載の装置。
前記音響的特徴は、フィルタバンク特徴及びメル周波数逆スペクトル係数特徴の内の少なくとも一つを含む、請求項１０に記載の装置。
電子デバイスであって、
１または複数のプロセッサと、
１つ又は複数のプログラムを記憶するメモリと、を備え、
前記１つ又は複数のプログラムが前記１つ又は複数のプロセッサに実行されると、前記電子デバイスに請求項１〜９のいずれかに記載の方法を実現させる、電子デバイス。
プロセッサにより実行されることにより、請求項１〜９のいずれか１項に記載の方法を実現するプログラムを記録したコンピュータ読み取り可能な記録媒体。