JP6444530B2

JP6444530B2 - 音声言語理解システム

Info

Publication number: JP6444530B2
Application number: JP2017549836A
Authority: JP
Inventors: 渡部　晋治; 晋治渡部; ルアン、イ; ハーシャム、ブレット
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2015-08-17
Filing date: 2016-07-29
Publication date: 2018-12-26
Anticipated expiration: 2036-07-29
Also published as: US9607616B2; JP2018513405A; CN107924680B; US20170053646A1; WO2017030006A1; EP3338280A1; EP3338280B1; CN107924680A

Description

本発明は、包括的には音声処理に関し、より詳細には、音声対話システムを用いた対話中にユーザーから音声で表現された目標に基づいて、音声対話システムによって実行されるべき次の動作を決定する方法に関する。

図１に示すように、ユーザー１０１と従来の音声対話システム１４０との間の対話中、自動音声認識器（ＡＳＲ）１１０がユーザーの音声１０２を処理して、入力１１１を音声言語理解（ＳＬＵ）モジュール１２０に提供する。このＳＬＵへの入力は、当該技術分野においてよく知られているように、多様な形態とすることができる。通常、入力は単語のシーケンスである。単語は、関連する確率を有することができる。ＳＬＵは、入力から意味情報を抽出する。意味情報は、音声において表現されるユーザーの意図１２１を表す。意図は、単語のシーケンスが漸次処理されるにつれて変化する可能性がある。しかしながら、シーケンスにおける全ての単語が処理されると、意図を要約する目標が特定される。この目標に基づいて、対話マネージャ（ＤＭ）１３０が、音声対話システムによって実行されるべき次の動作１３１を決定する。

音声対話における２つの重要なタスクは、ユーザー意図の理解及びユーザー目標の推定である。ＳＬＵモジュールは、ユーザーの音声の意図された意味（intended meaning）（以下、「意図」と呼ばれる）を抽出する。ＤＭは、意図の結果、すなわち、目標に基づいて次の動作を決定する。

対話は、通常、ユーザーからの音声のシーケンスと、システムによる対応する発話及び動作とを含む。意図及び目標の推定は、単語理解よりも長い時間スケールにわたって行われる。目標の推定は、より多くの情報が取得されるにつれて対話中に変化する可能性があり、意図は明確にされる。目標推定性能は、ユーザーが正しい動作をより迅速に達成することを容易にし得るので、重要である。

目標１２１は対話マネージャ１３０への入力であり、この目標１２１は、ＳＬＵモジュールによってユーザー音声から抽出されたユーザーの意図された意味を表す。その後、音声対話システムは、意図理解の結果に基づいて、いずれの動作を次に取るかを決定する。この目的は、対話を完了することであり、対話は、目標指向の音声対話システムにおいて複数のユーザー及びシステムの発話／動作を含む可能性がある。

意図理解が意味論的発話分類問題として概念化される一方で、目標推定は対話全体の分類問題として概念化される。従来の意図理解及び目標推定は、バッグオブワード（ＢｏＷ：bag of word：語の袋）特徴、又は目標推定におけるバッグオブインテンション（bag of intention）特徴を、ブースティング、サポートベクトルマシン、及び／又はロジスティック回帰等の分類法への入力として用いることができる。

しかしながら、ＢｏＷ特徴をＳＬＵタスクに適用することの問題点のうちの１つは、特徴ベクトルが非常に疎になる傾向があるということである。各発話は、通常、比較的少数の単語のみを有し、これは、通常文書解析中に入手可能であるはるかに多数の単語とは異なる。したがって、ＢｏＷ特徴ベクトルは、時としてユーザー意図を正確に推定するのに十分な意味情報を欠く。

最も成功を収めているニューラルネットワーク手法のうちの１つは、ディープビリーフネットワーク（ＤＢＮ：deep belief networks：深層信念ネットワーク）であり、これは、制約付きボルツマンマシン（ＲＢＭ：restricted Boltzmann machines）のスタック等の、簡単な教師なしネットワークの構成として見ることができる。ＲＢＭのパラメーターを初期値として用いて、誤差逆伝播手順によるニューラルネットワークパラメーターが推定される。ＤＢＮの関連において、初期パラメーターを求める第１のステップはプレトレーニング（pretraining：事前学習）と呼ばれ、識別的なネットワークトレーニングの第２のステップはファインチューニング（fine tuning）と呼ばれる。

従来のニューラルネットワーク予測システム及びニューラルネットワークトレーニングシステムが、図６及び図７にそれぞれ示されている。予測について図６に示されているように、単語シーケンス６１０がネットワーク６２０に入力され、そしてネットワークパラメーター６３０に従って処理されてユーザー意図及び目標６２１が生成される。

図７は、プレトレーニングされたネットワークパラメーター６２５及びトレーニングシーケンス７１０を用いる、ネットワーク６２０のネットワークパラメーター６３０の対応するトレーニングを示している。

ＡＳＲ及び画像処理における深層ニューラルネットワーク（ＤＮＮ）及びＤＢＮトレーニングの成功に起因して、深層凸ネットワーク（Deep Convex Network）、リカレントニューラルネットワーク（ＲＮＮ）、及び長期短期記憶（ＬＳＴＭ：Long Short-Term Memory）ＲＮＮを含む、他のニューラルネットワークアーキテクチャがＳＬＵに適用されている。

しかしながら、これらの技法をＳＬＵに適用することにおいて、１つの大きな困難は、タスクのために十分なトレーニングデータが多くの場合に存在せず、また、トレーニングデータをアノテートすることは多大な時間を要する可能性があることである。低リソース条件においてトレーニングされたニューラルネットワークの性能は、通常、オーバートレーニングに起因して劣ったものとなる。

単語埋め込み
多くの自然言語処理（ＮＬＰ）システムは、ＢｏＷ又は「ワンホット（one-hot）単語」ベクトルを入力として用いており、これによって、極めて大きな次元の特徴ベクトルがもたらされる。一代替形態は、単語埋め込み（word embedding）であり、この単語埋め込みは、大きな疎の単語特徴ベクトルを、低次元の、密なベクトル表現に射影する。

単語ベクトルの学習には幾つかのモデル群が存在し、これには、潜在意味解析（ＬＳＡ）、低ランクマルチビュー学習（ＬＲ−ＭＶＬ：Low Rank Multi-View Learning）、対数双線形回帰モデル（log-bilinear regression model）（ＧｌｏＶｅ）等の行列分解方法、連続バッグオブワード（ＣＢＯＷ）、スキップグラム等の局所コンテキストウィンドウ上でモデル化する、ニューラルネットワーク言語モデル（ＮＮＬＭ）ベースの方法等が挙げられる。大半の単語ベクトル法は、単語表現の固有の品質を評価するための主要な方法として、単語ベクトルの対間の距離又は角度に依拠する。

Mikolov他は、単語類推に基づく評価スキームを用いており、これは、意味の次元を生成するモデルを支援する。非特許文献１を参照されたい。「GloVe: Global Vectors for Word Representation」は、単語類推タスクにおいてＣＢＯＷ及びスキップグラムに匹敵する結果を示している。

上記の方法のうち、ＧｌｏＶｅ、ＣＢＯＷ、及びスキップグラムが単語類推タスクにおける現在の最新技術である。ＧｌｏＶｅはグローバル単語共起カウント（global word-word co-occurrence counts）上でトレーニングし、大域的な統計を効率的に利用する。ＣＢＯＷはコンテキストに基づいて現在の単語を予測し、スキップグラムは現在の単語を所与として周囲の語を予測する。スキップグラム及びＣＢＯＷを実装するMikolovのツールキット「ｗｏｒｄ２ｖｅｃ」は、大規模スケールのコーパス上で非常に効率的にトレーニングすることができる。

潜在トピックモデル
潜在トピックモデルは、文書の集合から意味情報を発見することができる。情報索出において広く用いられるトピック埋め込み（topic embedding）は、文書をトピックの混合物として扱い、ベクトルを用いてトピック分布を表す。ＳＬＵに用いられてきた従来の潜在トピックモデルとしては、確率的潜在意味解析（ＰＬＳＡ）、潜在的ディリクレ配分（ＬＤＡ）、相関トピックモデル（ＣＴＭ：Correlated Topic Model）、及びパチンコ配分モデル（ＰＡＭ：Pachinko Allocation Model）が挙げられ、これら全てがベイズ推定を用いて潜在トピックの分布を求める。大半の潜在変数モデルは生成モデルであり、教師なしトレーニングにおいて用いることができる。

ＬＤＡは、大規模スケールのコーパス上で良好な性能を有することができ、このＬＤＡを効率的にトレーニングすることができる。しかしながら、ＬＤＡ埋め込みは、反復推論手順、例えば、変分期待値最小化（ＥＭ）、又はサンプリング法を用いて得られるため、ＬＤＡ埋め込みをニューラルネットワークフレームワーク内でファインチューニングするのは困難である。

Mikolov他「Efficient estimation of word representations in vector space」arXiv preprint arXiv:1301.3781, 2013

ユーザー音声からの意図理解及び目標推定等の音声言語理解（ＳＬＵ）タスクは、音声対話システムにおいて必須の構成要素である。ニューラルネットワークは種々のＳＬＵタスクに用いることができる。しかしながら、ＳＬＵの１つの主要な困難は、収集されたデータのアノテーションに多大な時間を要する可能性があることである。多くの場合、この結果、タスクのために利用可能なデータは不十分なものとなる。低リソース条件においてトレーニングされたニューラルネットワークの性能は、オーバートレーニングに起因して、通常劣ったものになる。

この性能を改善するために、本発明の実施形態は、単語埋め込み及び潜在トピックモデルに基づく大規模スケールのコーパスを用いた教師なしトレーニング方法を用いてＳＬＵネットワークをプレトレーニングする。

対話全体にわたる長期特徴を取得するために、本発明の実施形態は、マルチスケールリカレントニューラルネットワーク（ＭＳＲＮＮ）を用いてユーザー意図及び目標を予測する。ＭＳＲＮＮ予測システムは、第１のサブネットワーク及び第２のサブネットワークを用いて、音声対話の異なる時間スケール、例えば、単語のシーケンス及び意図のシーケンスによって表される異なる時間スケールを用いてモデル化する。単語のサブネットワークに用いられる時間スケールは、意図に用いられる時間スケールよりも短くかつ頻繁である。

ＭＳＲＮＮ予測システム内の結合モジュールは、サブネットワーク出力ベクトルを結合し、ユーザーの目標を予測カテゴリーごとのスコアを用いて予測する。このＭＳＲＮＮ予測システムのマルチスケールネットワークパラメーターは、トレーニング中に各サブネットワークのプレトレーニングされたサブネットワークパラメーターを用いることによって効率的に推定される。ＭＳＲＮＮベースの予測システムは、従来のＳＬＵシステムと比較して約１８％誤差を低減することができる。

プレトレーニングされたサブネットワークは、単語埋め込みネットワークを用いる。この単語埋め込みネットワークは、単語レベルのサブネットワークのために、ワンホット単語ベクトルを連続ベクトルに変換するので、ＭＳＲＮＮを効率的に構築することができる。ＭＳＲＮＮにおけるパラメーターを従来の誤差逆伝播手順を用いて経時的に最適化することができ、その場合、従来の単語埋め込みネットワークのパラメーターをＭＳＲＮＮの初期パラメーターとして、又は最適化プロセス中の正則化パラメーターとして用いることができる。

コンピューターによる従来の音声対話システムの流れ図である。本発明の実施形態によって用いられる浅層フィードフォワードニューラルネットワークの概略図である本発明の実施形態によるマルチスケールリカレントニューラルネットワーク（ＭＳＲＮＮ）の概略図である。本発明の実施形態によるマルチスケールリカレントニューラルネットワーク（ＭＳＲＮＮ）ベースの予測システムの流れ図である。本発明の実施形態によるマルチスケールリカレントニューラルネットワーク（ＭＳＲＮＮ）ベースのトレーニングシステムの流れ図である。従来のリカレントニューラルネットワークの予測システムの流れ図である。従来のリカレントニューラルネットワークのトレーニングシステムの流れ図である。

本発明の実施形態は、対話中にユーザーから音声で表現された目標に基づいて、音声対話システムによって実行されるべき次の動作を決定する方法を提供する。

線形入力ネットワークのファインチューニング
音声言語理解タスクに用いることができる本方法は、意図推定モデル及び目標推定モデルを表す識別手法を用いる。加えて、特徴量設計を介して様々な情報を組み込むことができる。多変量ロジスティック回帰を用いて、分類ターゲットｇ及び特徴ベクトルＸの事後確率Ｐ（ｇ｜Ｘ）を、以下のように求める。

ここで、［Ｙ］_ｇは、ベクトルＹの第ｇの未加工要素を意味する。ソフトマックス関数は、

であり、ここで、ｚは範囲［０，１］のベクトルであり、ｍ及びｋはインデックスである。

重み行列Ｗはトレーニング中に推定され、以下でより詳細に記載される。意図予測の場合、Ｘはバッグオブワード（ＢｏＷ）特徴ベクトルであり、ｇは意図カテゴリーである。目標推定タスクの場合、Ｘは対話履歴における各予測された意図についての信頼度スコアを含むバッグオブインテンション特徴ベクトルであり、ｇは目標カテゴリーである。

図２に示すように、ベースラインモデルを、１つの入力層２００と目標２０４を予測する１つのソフトマックス出力層２０３とを有する浅層ニューラルネットワークとして特徴付けることができる。

システムにｗｏｒｄ２ｖｅｃ埋め込みをインポートするために、単語埋め込みＸ_ｗ２０１をベースライン特徴Ｘ_ｂ２０２に連結する。すなわち、

である。

単語シーケンスＸ_ｗが、ターン又はセンテンスにおける各単語について正規化ｗｏｒｄ２ｖｅｃ特徴を合計することによって得られる。

ここで、Ｔは、センテンス又はターンにおける単語数である。Ｘ_ｗ（ｉ）は、大規模のコーパスを用いてプレトレーニングされた入力シーケンスにおける第ｉの単語のｗｏｒｄ２ｖｅｃ特徴量である。

ファインチューニングのために２つの構造を用いる。１つはフィードフォワード構造であり、このフィードフォワード構造を用いてｗｏｒｄ２ｖｅｃ埋め込みから取得されたアフィン変換をファインチューニングする。これは、浅層ベースラインネットワークに線形層を加えることに等しい。

代替的に、ＧｌｏＶｅ、ＬＲ−ＭＶＬ、及びＬＳＡもまた、種々の方法を用いてグローバル単語共起カウントをモデル化する有用な単語埋め込みである。ＬＳＡは、固有分解行列の分解（eigen-decomposition matrix factorisation）技法を用いて、単語共起行列をより低次元に射影する。ＬＲ−ＭＶＬは、データの低ランク近似の過去のビューと未来のビューとの間で正準相関分析（ＣＣＡ）を実行することによって、実数値のコンテキスト固有の単語埋め込みを学習する。ＬＲ−ＭＶＬは、バイグラム共起行列又はトライグラム共起行列上で機能する。ＬＲ−ＭＶＫは、ＬＳＡよりも長い単語シーケンス情報を用いて、コンテキスト固有の埋め込みを推定する。ＧｌｏＶｅは、単語共起カウントへの単語埋め込みの二乗誤差を最小化する。

他の構造は、異なる時間スケールにマルチスケールリカレントニューラルネットワーク（ＭＳＲＮＮ）を用いる。目標推定のためにＭＳＲＮＮを適用する。ＭＳＲＮＮはＡＳＲ結果と予測された意図との双方を入力として用いる。ｗｏｒｄ２ｖｅｃ埋め込みからのアフィン変換をＭＳＲＮＮのトレーニング中にファインチューニングすることができる。

フィードフォワードアーキテクチャ
図２に示すように、フィードフォワードアーキテクチャは、ＢｏＷ層２００と出力層２０３との間に線形隠れ層２０１及び２０２を加えることによってベースライン構造を変更する。

入力特徴を所与とした意図の事後確率は、ソフトマックスを用いて以下のように求められ、

である。

Ｘ_ＢＯＷは、語彙サイズＶの次元を有する、音声から取得されるＢｏＷベクトルである。φは、ｎ×Ｖの次元を有するｗｏｒｄ２ｖｅｃから最初に学習される単語埋め込み行列であり、ここでｎは単語埋め込みの次元である。式６はアフィン変換である。Ｗは隠れ層と出力層との間の重み行列である。ファインチューニングはφをＷとともに更新することによって達成される。Ｘ_Ｉは、意図カテゴリー数の次元を有するベクトルであり、Ｎベストの意図信頼度スコアを合計することによって取得される。同じＸ_Ｉがベースライン方法において用いられる。

フィードフォワードアーキテクチャは、タスクドメインへの調整に柔軟性をもたらし、実際に、純粋な特徴連結よりも良好な結果をもたらす。

マルチスケールリカレントニューラルネットワーク（ＭＳＲＮＮ）
図３に示すように、意図理解及び目標推定は、２つの入力シーケンス、すなわち、単語シーケンス３１０及び意図シーケンス３４０を有する。これらの２つのシーケンスは、異なる時間スケール上で処理される。単語に用いられる時間スケールは、意図に用いられる時間スケールよりも短くかつ頻繁である。

ベースラインアーキテクチャは、入力された単語をバッグオブワードとして扱い、これは入力のコンテキスト情報を無視する。双方の入力されたシーケンス、すなわち単語（３１０）及び意図（３４０）は、コンテキスト情報を含み、直観的には、この情報を取得するシステムは、この情報を取得しないシステムよりも良好に機能することができる。

したがって、ＭＳＲＮＮを用いて、図３に示されている、単語シーケンス及び意図シーケンスによって表される異なる時間スケールをモデル化する。

この図面における上半分３０１は、より短い第１の時間スケールＲＮＮ３２０を表しており、このより短い第１の時間スケールＲＮＮ３２０は、各発話における各単語の特徴ベクトル３１０を全体シーケンスとして受け取る。ＲＮＮ３２０は、図３に示すように、シーケンスにおける各新たな単語を受け取るにつれて、各入力ステップにおけるＲＮＮ３２０の新たな状態として、状態を変更することができる。この図面の下半分３０２は、より長い第２の時間スケールＲＮＮ３３０を表しており、このより長い第２の時間スケールＲＮＮ３３０は、各発話について単一の意図特徴ベクトル３４０を受け取る。ＲＮＮ３３０は、図３に示すように、対話シーケンス内の各新たな発話が処理されるにつれて、各入力ステップにおけるＲＮＮ３３０の新たな状態として、状態を変更することができる。

ＲＮＮ３２０は、ＲＮＮ３３０よりもはるかに頻繁に、例えば、発話中の各単語について更新する。目標は、対話ターンが処理された後のＲＮＮ３２０及び３３０の状態を用いて、この対話ターンのそれぞれの終了時に予測される。単語ＲＮＮ３２０の最後の層３２１及び意図ＲＮＮ３３０の最後の層３３１を用いて、目標２０４を予測する。換言すれば、層３２１及び３３１はそれぞれ、各ターンの終了時におけるＲＮＮ３２０及び３３０の状態を反映する。

上記のアーキテクチャは以下のように定式化される。

ここで、Ｘ＝｛Ｘ（１），Ｘ（２），．．．，Ｘ（Ｔ）｝３１０、及びＩ＝｛Ｉ（１），Ｉ（２），．．．，Ｉ（Ｍ）｝３４０であり、Ｔ及びＭはそれぞれ、単語シーケンス及び意図シーケンスの長さである。Ｘ（ｔ）及びＩ（ｍ）はそれぞれ、ワンホット単語ベクトル及びワンホット意図ベクトルである。ｈ_Ｗ（Ｔ）及びｈ_Ｉ（Ｍ）は、Ｔ及びＭにおける隠れアクティベーションベクトルであり、これは以下において説明される。

単語シーケンス及び意図シーケンスのリカレントモジュールは、以下のように求めることができる。

隠れ層において、以下のように定義されるシグモイド関数を用いる。

ここで、φ_Ｗ及びφ_Ｉは、入力ノードと隠れノードとの間の単語及び意図の重み行列である。φ_Ｗは、単語埋め込み行列によって初期化され、時間を通した誤差逆伝播を用いてφ_Ｗがファインチューニングされる。Ｗ_Ｗ及びＷ_Ｉは、コンテキストノードと隠れノードとの間の重み行列である。φ_Ｉ、Ｗ_Ｗ及びＷ_Ｉは、ランダムに初期化される。

図４に示すように、本発明の実施形態は、マルチスケールリカレントニューラルネットワーク（ＭＳＲＮＮ）を用いて対話全体にわたる長期特徴を取得し、予測システムにおいてユーザー意図及び目標を予測する。

予測システムに対する入力は、対応する第１のサブネットワーク３２０及び第２のサブネットワーク３３０に対する単語シーケンス３１０及び意図シーケンス３４０である。これらのサブネットワークは、音声対話の異なる時間スケール、例えば、単語シーケンス及び意図シーケンスによって表される異なる時間スケールをモデル化する。

結合モジュール４４０は、サブネットワークの出力ベクトルを結合してユーザー目標２０４を予測する。

図５に示すように、このＭＳＲＮＮ予測システムのマルチスケールネットワークパラメーター４３０は、トレーニング単語シーケンス５１０及び意図シーケンス５２０を用いてトレーニング中に各サブネットワーク４２０についてプレトレーニングされたサブネットワークパラメーター５２１を用いることによって推定される。

プレトレーニングされたサブネットワークは、単語埋め込みネットワークを用いる。この単語埋め込みネットワークは、単語レベルのサブネットワークのために、ワンホット単語ベクトルを連続ベクトルに変換するので、ＭＳＲＮＮを効率的に構築することができる。ＭＳＲＮＮ内のパラメーターは、従来の誤差逆伝播手順を用いて経時的に最適化することができ、その場合、従来の単語埋め込みネットワークのパラメーターをＭＳＲＮＮの初期パラメーターとして、又は最適化プロセス中の正則化パラメーターとして用いることができる。

発明の効果
本発明の実施形態は、低リソースのＳＬＵタスクのための効率的な学習のアーキテクチャを提供する。単語埋め込みは教師なしであり、特定のＳＬＵタスクのためにファインチューニングされる。対話全体にわたる長期特徴を取得するために、ＭＳＲＮＮを実施し、このＭＳＲＮＮは、２つのサブネットワークを用いて単語シーケンス及び意図シーケンスによって表される異なる時間スケールをモデル化する。

Claims

ユーザーの１つ以上の音声発話に対応する単語のシーケンスを受け取るステップと、
前記単語のシーケンスを音声言語理解モジュールに通して、意図のシーケンスを生成するステップと、
前記単語のシーケンスをマルチスケールリカレントニューラルネットワーク（ＭＳＲＮＮ）の第１のサブネットワークに通すステップと、
前記意図のシーケンスを前記マルチスケールリカレントニューラルネットワーク（ＭＳＲＮＮ）の第２のサブネットワークに通すステップと、
前記第１のサブネットワーク及び前記第２のサブネットワークの出力を結合して、前記ユーザーの目標を予測するステップと、
を含み、
前記ステップはプロセッサにおいて実行される、
音声言語理解（ＳＬＵ）システム。
前記単語のシーケンスは、自動音声認識（ＡＳＲ）システムの出力である、
請求項１に記載のシステム。
前記単語のシーケンスは、前記ユーザーの前記１つ以上の音声発話に対応する単語のセットにわたる確率分布である、
請求項２に記載のシステム。
前記目標は、音声対話システムによって実行されるべき動作を出力する対話マネージャに入力される、
請求項１に記載のシステム。
前記意図のシーケンスにおける各意図は、前記ユーザーの前記１つ以上の音声発話に対応する意図のセットにわたる確率分布である、
請求項１に記載のシステム。
前記マルチスケールリカレントニューラルネットワーク（ＭＳＲＮＮ）のネットワークパラメーターは、前記第１のサブネットワーク及び前記第２のサブネットワークについて別個にプレトレーニングされた初期化パラメーターを用いてともにトレーニングされる、
請求項１に記載のシステム。