JP6444530B2 - 音声言語理解システム - Google Patents

音声言語理解システム Download PDF

Info

Publication number
JP6444530B2
JP6444530B2 JP2017549836A JP2017549836A JP6444530B2 JP 6444530 B2 JP6444530 B2 JP 6444530B2 JP 2017549836 A JP2017549836 A JP 2017549836A JP 2017549836 A JP2017549836 A JP 2017549836A JP 6444530 B2 JP6444530 B2 JP 6444530B2
Authority
JP
Japan
Prior art keywords
sequence
word
network
words
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017549836A
Other languages
English (en)
Other versions
JP2018513405A (ja
Inventor
渡部 晋治
晋治 渡部
ルアン、イ
ハーシャム、ブレット
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2018513405A publication Critical patent/JP2018513405A/ja
Application granted granted Critical
Publication of JP6444530B2 publication Critical patent/JP6444530B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、包括的には音声処理に関し、より詳細には、音声対話システムを用いた対話中にユーザーから音声で表現された目標に基づいて、音声対話システムによって実行されるべき次の動作を決定する方法に関する。
図1に示すように、ユーザー101と従来の音声対話システム140との間の対話中、自動音声認識器(ASR)110がユーザーの音声102を処理して、入力111を音声言語理解(SLU)モジュール120に提供する。このSLUへの入力は、当該技術分野においてよく知られているように、多様な形態とすることができる。通常、入力は単語のシーケンスである。単語は、関連する確率を有することができる。SLUは、入力から意味情報を抽出する。意味情報は、音声において表現されるユーザーの意図121を表す。意図は、単語のシーケンスが漸次処理されるにつれて変化する可能性がある。しかしながら、シーケンスにおける全ての単語が処理されると、意図を要約する目標が特定される。この目標に基づいて、対話マネージャ(DM)130が、音声対話システムによって実行されるべき次の動作131を決定する。
音声対話における2つの重要なタスクは、ユーザー意図の理解及びユーザー目標の推定である。SLUモジュールは、ユーザーの音声の意図された意味(intended meaning)(以下、「意図」と呼ばれる)を抽出する。DMは、意図の結果、すなわち、目標に基づいて次の動作を決定する。
対話は、通常、ユーザーからの音声のシーケンスと、システムによる対応する発話及び動作とを含む。意図及び目標の推定は、単語理解よりも長い時間スケールにわたって行われる。目標の推定は、より多くの情報が取得されるにつれて対話中に変化する可能性があり、意図は明確にされる。目標推定性能は、ユーザーが正しい動作をより迅速に達成することを容易にし得るので、重要である。
目標121は対話マネージャ130への入力であり、この目標121は、SLUモジュールによってユーザー音声から抽出されたユーザーの意図された意味を表す。その後、音声対話システムは、意図理解の結果に基づいて、いずれの動作を次に取るかを決定する。この目的は、対話を完了することであり、対話は、目標指向の音声対話システムにおいて複数のユーザー及びシステムの発話/動作を含む可能性がある。
意図理解が意味論的発話分類問題として概念化される一方で、目標推定は対話全体の分類問題として概念化される。従来の意図理解及び目標推定は、バッグオブワード(BoW:bag of word:語の袋)特徴、又は目標推定におけるバッグオブインテンション(bag of intention)特徴を、ブースティング、サポートベクトルマシン、及び/又はロジスティック回帰等の分類法への入力として用いることができる。
しかしながら、BoW特徴をSLUタスクに適用することの問題点のうちの1つは、特徴ベクトルが非常に疎になる傾向があるということである。各発話は、通常、比較的少数の単語のみを有し、これは、通常文書解析中に入手可能であるはるかに多数の単語とは異なる。したがって、BoW特徴ベクトルは、時としてユーザー意図を正確に推定するのに十分な意味情報を欠く。
最も成功を収めているニューラルネットワーク手法のうちの1つは、ディープビリーフネットワーク(DBN:deep belief networks:深層信念ネットワーク)であり、これは、制約付きボルツマンマシン(RBM:restricted Boltzmann machines)のスタック等の、簡単な教師なしネットワークの構成として見ることができる。RBMのパラメーターを初期値として用いて、誤差逆伝播手順によるニューラルネットワークパラメーターが推定される。DBNの関連において、初期パラメーターを求める第1のステップはプレトレーニング(pretraining:事前学習)と呼ばれ、識別的なネットワークトレーニングの第2のステップはファインチューニング(fine tuning)と呼ばれる。
従来のニューラルネットワーク予測システム及びニューラルネットワークトレーニングシステムが、図6及び図7にそれぞれ示されている。予測について図6に示されているように、単語シーケンス610がネットワーク620に入力され、そしてネットワークパラメーター630に従って処理されてユーザー意図及び目標621が生成される。
図7は、プレトレーニングされたネットワークパラメーター625及びトレーニングシーケンス710を用いる、ネットワーク620のネットワークパラメーター630の対応するトレーニングを示している。
ASR及び画像処理における深層ニューラルネットワーク(DNN)及びDBNトレーニングの成功に起因して、深層凸ネットワーク(Deep Convex Network)、リカレントニューラルネットワーク(RNN)、及び長期短期記憶(LSTM:Long Short-Term Memory)RNNを含む、他のニューラルネットワークアーキテクチャがSLUに適用されている。
しかしながら、これらの技法をSLUに適用することにおいて、1つの大きな困難は、タスクのために十分なトレーニングデータが多くの場合に存在せず、また、トレーニングデータをアノテートすることは多大な時間を要する可能性があることである。低リソース条件においてトレーニングされたニューラルネットワークの性能は、通常、オーバートレーニングに起因して劣ったものとなる。
単語埋め込み
多くの自然言語処理(NLP)システムは、BoW又は「ワンホット(one-hot)単語」ベクトルを入力として用いており、これによって、極めて大きな次元の特徴ベクトルがもたらされる。一代替形態は、単語埋め込み(word embedding)であり、この単語埋め込みは、大きな疎の単語特徴ベクトルを、低次元の、密なベクトル表現に射影する。
単語ベクトルの学習には幾つかのモデル群が存在し、これには、潜在意味解析(LSA)、低ランクマルチビュー学習(LR−MVL:Low Rank Multi-View Learning)、対数双線形回帰モデル(log-bilinear regression model)(GloVe)等の行列分解方法、連続バッグオブワード(CBOW)、スキップグラム等の局所コンテキストウィンドウ上でモデル化する、ニューラルネットワーク言語モデル(NNLM)ベースの方法等が挙げられる。大半の単語ベクトル法は、単語表現の固有の品質を評価するための主要な方法として、単語ベクトルの対間の距離又は角度に依拠する。
Mikolov他は、単語類推に基づく評価スキームを用いており、これは、意味の次元を生成するモデルを支援する。非特許文献1を参照されたい。「GloVe: Global Vectors for Word Representation」は、単語類推タスクにおいてCBOW及びスキップグラムに匹敵する結果を示している。
上記の方法のうち、GloVe、CBOW、及びスキップグラムが単語類推タスクにおける現在の最新技術である。GloVeはグローバル単語共起カウント(global word-word co-occurrence counts)上でトレーニングし、大域的な統計を効率的に利用する。CBOWはコンテキストに基づいて現在の単語を予測し、スキップグラムは現在の単語を所与として周囲の語を予測する。スキップグラム及びCBOWを実装するMikolovのツールキット「word2vec」は、大規模スケールのコーパス上で非常に効率的にトレーニングすることができる。
潜在トピックモデル
潜在トピックモデルは、文書の集合から意味情報を発見することができる。情報索出において広く用いられるトピック埋め込み(topic embedding)は、文書をトピックの混合物として扱い、ベクトルを用いてトピック分布を表す。SLUに用いられてきた従来の潜在トピックモデルとしては、確率的潜在意味解析(PLSA)、潜在的ディリクレ配分(LDA)、相関トピックモデル(CTM:Correlated Topic Model)、及びパチンコ配分モデル(PAM:Pachinko Allocation Model)が挙げられ、これら全てがベイズ推定を用いて潜在トピックの分布を求める。大半の潜在変数モデルは生成モデルであり、教師なしトレーニングにおいて用いることができる。
LDAは、大規模スケールのコーパス上で良好な性能を有することができ、このLDAを効率的にトレーニングすることができる。しかしながら、LDA埋め込みは、反復推論手順、例えば、変分期待値最小化(EM)、又はサンプリング法を用いて得られるため、LDA埋め込みをニューラルネットワークフレームワーク内でファインチューニングするのは困難である。
Mikolov他「Efficient estimation of word representations in vector space」arXiv preprint arXiv:1301.3781, 2013
ユーザー音声からの意図理解及び目標推定等の音声言語理解(SLU)タスクは、音声対話システムにおいて必須の構成要素である。ニューラルネットワークは種々のSLUタスクに用いることができる。しかしながら、SLUの1つの主要な困難は、収集されたデータのアノテーションに多大な時間を要する可能性があることである。多くの場合、この結果、タスクのために利用可能なデータは不十分なものとなる。低リソース条件においてトレーニングされたニューラルネットワークの性能は、オーバートレーニングに起因して、通常劣ったものになる。
この性能を改善するために、本発明の実施形態は、単語埋め込み及び潜在トピックモデルに基づく大規模スケールのコーパスを用いた教師なしトレーニング方法を用いてSLUネットワークをプレトレーニングする。
対話全体にわたる長期特徴を取得するために、本発明の実施形態は、マルチスケールリカレントニューラルネットワーク(MSRNN)を用いてユーザー意図及び目標を予測する。MSRNN予測システムは、第1のサブネットワーク及び第2のサブネットワークを用いて、音声対話の異なる時間スケール、例えば、単語のシーケンス及び意図のシーケンスによって表される異なる時間スケールを用いてモデル化する。単語のサブネットワークに用いられる時間スケールは、意図に用いられる時間スケールよりも短くかつ頻繁である。
MSRNN予測システム内の結合モジュールは、サブネットワーク出力ベクトルを結合し、ユーザーの目標を予測カテゴリーごとのスコアを用いて予測する。このMSRNN予測システムのマルチスケールネットワークパラメーターは、トレーニング中に各サブネットワークのプレトレーニングされたサブネットワークパラメーターを用いることによって効率的に推定される。MSRNNベースの予測システムは、従来のSLUシステムと比較して約18%誤差を低減することができる。
プレトレーニングされたサブネットワークは、単語埋め込みネットワークを用いる。この単語埋め込みネットワークは、単語レベルのサブネットワークのために、ワンホット単語ベクトルを連続ベクトルに変換するので、MSRNNを効率的に構築することができる。MSRNNにおけるパラメーターを従来の誤差逆伝播手順を用いて経時的に最適化することができ、その場合、従来の単語埋め込みネットワークのパラメーターをMSRNNの初期パラメーターとして、又は最適化プロセス中の正則化パラメーターとして用いることができる。
コンピューターによる従来の音声対話システムの流れ図である。 本発明の実施形態によって用いられる浅層フィードフォワードニューラルネットワークの概略図である 本発明の実施形態によるマルチスケールリカレントニューラルネットワーク(MSRNN)の概略図である。 本発明の実施形態によるマルチスケールリカレントニューラルネットワーク(MSRNN)ベースの予測システムの流れ図である。 本発明の実施形態によるマルチスケールリカレントニューラルネットワーク(MSRNN)ベースのトレーニングシステムの流れ図である。 従来のリカレントニューラルネットワークの予測システムの流れ図である。 従来のリカレントニューラルネットワークのトレーニングシステムの流れ図である。
本発明の実施形態は、対話中にユーザーから音声で表現された目標に基づいて、音声対話システムによって実行されるべき次の動作を決定する方法を提供する。
線形入力ネットワークのファインチューニング
音声言語理解タスクに用いることができる本方法は、意図推定モデル及び目標推定モデルを表す識別手法を用いる。加えて、特徴量設計を介して様々な情報を組み込むことができる。多変量ロジスティック回帰を用いて、分類ターゲットg及び特徴ベクトルXの事後確率P(g|X)を、以下のように求める。
Figure 0006444530
ここで、[Y]は、ベクトルYの第gの未加工要素を意味する。ソフトマックス関数は、
Figure 0006444530
であり、ここで、zは範囲[0,1]のベクトルであり、m及びkはインデックスである。
重み行列Wはトレーニング中に推定され、以下でより詳細に記載される。意図予測の場合、Xはバッグオブワード(BoW)特徴ベクトルであり、gは意図カテゴリーである。目標推定タスクの場合、Xは対話履歴における各予測された意図についての信頼度スコアを含むバッグオブインテンション特徴ベクトルであり、gは目標カテゴリーである。
図2に示すように、ベースラインモデルを、1つの入力層200と目標204を予測する1つのソフトマックス出力層203とを有する浅層ニューラルネットワークとして特徴付けることができる。
システムにword2vec埋め込みをインポートするために、単語埋め込みX201をベースライン特徴X202に連結する。すなわち、
Figure 0006444530
である。
単語シーケンスXが、ターン又はセンテンスにおける各単語について正規化word2vec特徴を合計することによって得られる。
Figure 0006444530
ここで、Tは、センテンス又はターンにおける単語数である。X(i)は、大規模のコーパスを用いてプレトレーニングされた入力シーケンスにおける第iの単語のword2vec特徴量である。
ファインチューニングのために2つの構造を用いる。1つはフィードフォワード構造であり、このフィードフォワード構造を用いてword2vec埋め込みから取得されたアフィン変換をファインチューニングする。これは、浅層ベースラインネットワークに線形層を加えることに等しい。
代替的に、GloVe、LR−MVL、及びLSAもまた、種々の方法を用いてグローバル単語共起カウントをモデル化する有用な単語埋め込みである。LSAは、固有分解行列の分解(eigen-decomposition matrix factorisation)技法を用いて、単語共起行列をより低次元に射影する。LR−MVLは、データの低ランク近似の過去のビューと未来のビューとの間で正準相関分析(CCA)を実行することによって、実数値のコンテキスト固有の単語埋め込みを学習する。LR−MVLは、バイグラム共起行列又はトライグラム共起行列上で機能する。LR−MVKは、LSAよりも長い単語シーケンス情報を用いて、コンテキスト固有の埋め込みを推定する。GloVeは、単語共起カウントへの単語埋め込みの二乗誤差を最小化する。
他の構造は、異なる時間スケールにマルチスケールリカレントニューラルネットワーク(MSRNN)を用いる。目標推定のためにMSRNNを適用する。MSRNNはASR結果と予測された意図との双方を入力として用いる。word2vec埋め込みからのアフィン変換をMSRNNのトレーニング中にファインチューニングすることができる。
フィードフォワードアーキテクチャ
図2に示すように、フィードフォワードアーキテクチャは、BoW層200と出力層203との間に線形隠れ層201及び202を加えることによってベースライン構造を変更する。
入力特徴を所与とした意図の事後確率は、ソフトマックスを用いて以下のように求められ、
Figure 0006444530
である。
BOWは、語彙サイズVの次元を有する、音声から取得されるBoWベクトルである。φは、n×Vの次元を有するword2vecから最初に学習される単語埋め込み行列であり、ここでnは単語埋め込みの次元である。式6はアフィン変換である。Wは隠れ層と出力層との間の重み行列である。ファインチューニングはφをWとともに更新することによって達成される。Xは、意図カテゴリー数の次元を有するベクトルであり、Nベストの意図信頼度スコアを合計することによって取得される。同じXがベースライン方法において用いられる。
フィードフォワードアーキテクチャは、タスクドメインへの調整に柔軟性をもたらし、実際に、純粋な特徴連結よりも良好な結果をもたらす。
マルチスケールリカレントニューラルネットワーク(MSRNN)
図3に示すように、意図理解及び目標推定は、2つの入力シーケンス、すなわち、単語シーケンス310及び意図シーケンス340を有する。これらの2つのシーケンスは、異なる時間スケール上で処理される。単語に用いられる時間スケールは、意図に用いられる時間スケールよりも短くかつ頻繁である。
ベースラインアーキテクチャは、入力された単語をバッグオブワードとして扱い、これは入力のコンテキスト情報を無視する。双方の入力されたシーケンス、すなわち単語(310)及び意図(340)は、コンテキスト情報を含み、直観的には、この情報を取得するシステムは、この情報を取得しないシステムよりも良好に機能することができる。
したがって、MSRNNを用いて、図3に示されている、単語シーケンス及び意図シーケンスによって表される異なる時間スケールをモデル化する。
この図面における上半分301は、より短い第1の時間スケールRNN320を表しており、このより短い第1の時間スケールRNN320は、各発話における各単語の特徴ベクトル310を全体シーケンスとして受け取る。RNN320は、図3に示すように、シーケンスにおける各新たな単語を受け取るにつれて、各入力ステップにおけるRNN320の新たな状態として、状態を変更することができる。この図面の下半分302は、より長い第2の時間スケールRNN330を表しており、このより長い第2の時間スケールRNN330は、各発話について単一の意図特徴ベクトル340を受け取る。RNN330は、図3に示すように、対話シーケンス内の各新たな発話が処理されるにつれて、各入力ステップにおけるRNN330の新たな状態として、状態を変更することができる。
RNN320は、RNN330よりもはるかに頻繁に、例えば、発話中の各単語について更新する。目標は、対話ターンが処理された後のRNN320及び330の状態を用いて、この対話ターンのそれぞれの終了時に予測される。単語RNN320の最後の層321及び意図RNN330の最後の層331を用いて、目標204を予測する。換言すれば、層321及び331はそれぞれ、各ターンの終了時におけるRNN320及び330の状態を反映する。
上記のアーキテクチャは以下のように定式化される。
Figure 0006444530
ここで、X={X(1),X(2),...,X(T)} 310、及びI={I(1),I(2),...,I(M)} 340であり、T及びMはそれぞれ、単語シーケンス及び意図シーケンスの長さである。X(t)及びI(m)はそれぞれ、ワンホット単語ベクトル及びワンホット意図ベクトルである。h(T)及びh(M)は、T及びMにおける隠れアクティベーションベクトルであり、これは以下において説明される。
単語シーケンス及び意図シーケンスのリカレントモジュールは、以下のように求めることができる。
Figure 0006444530
隠れ層において、以下のように定義されるシグモイド関数を用いる。
Figure 0006444530
ここで、φ及びφは、入力ノードと隠れノードとの間の単語及び意図の重み行列である。φは、単語埋め込み行列によって初期化され、時間を通した誤差逆伝播を用いてφがファインチューニングされる。W及びWは、コンテキストノードと隠れノードとの間の重み行列である。φI、及びWは、ランダムに初期化される。
図4に示すように、本発明の実施形態は、マルチスケールリカレントニューラルネットワーク(MSRNN)を用いて対話全体にわたる長期特徴を取得し、予測システムにおいてユーザー意図及び目標を予測する。
予測システムに対する入力は、対応する第1のサブネットワーク320及び第2のサブネットワーク330に対する単語シーケンス310及び意図シーケンス340である。これらのサブネットワークは、音声対話の異なる時間スケール、例えば、単語シーケンス及び意図シーケンスによって表される異なる時間スケールをモデル化する。
結合モジュール440は、サブネットワークの出力ベクトルを結合してユーザー目標204を予測する。
図5に示すように、このMSRNN予測システムのマルチスケールネットワークパラメーター430は、トレーニング単語シーケンス510及び意図シーケンス520を用いてトレーニング中に各サブネットワーク420についてプレトレーニングされたサブネットワークパラメーター521を用いることによって推定される。
プレトレーニングされたサブネットワークは、単語埋め込みネットワークを用いる。この単語埋め込みネットワークは、単語レベルのサブネットワークのために、ワンホット単語ベクトルを連続ベクトルに変換するので、MSRNNを効率的に構築することができる。MSRNN内のパラメーターは、従来の誤差逆伝播手順を用いて経時的に最適化することができ、その場合、従来の単語埋め込みネットワークのパラメーターをMSRNNの初期パラメーターとして、又は最適化プロセス中の正則化パラメーターとして用いることができる。
発明の効果
本発明の実施形態は、低リソースのSLUタスクのための効率的な学習のアーキテクチャを提供する。単語埋め込みは教師なしであり、特定のSLUタスクのためにファインチューニングされる。対話全体にわたる長期特徴を取得するために、MSRNNを実施し、このMSRNNは、2つのサブネットワークを用いて単語シーケンス及び意図シーケンスによって表される異なる時間スケールをモデル化する。

Claims (6)

  1. ユーザーの1つ以上の音声発話に対応する単語のシーケンスを受け取るステップと、
    前記単語のシーケンスを音声言語理解モジュールに通して、意図のシーケンスを生成するステップと、
    前記単語のシーケンスをマルチスケールリカレントニューラルネットワーク(MSRNN)の第1のサブネットワークに通すステップと、
    前記意図のシーケンスを前記マルチスケールリカレントニューラルネットワーク(MSRNN)の第2のサブネットワークに通すステップと、
    前記第1のサブネットワーク及び前記第2のサブネットワークの出力を結合して、前記ユーザーの目標を予測するステップと、
    を含み、
    前記ステップはプロセッサにおいて実行される、
    音声言語理解(SLU)システム。
  2. 前記単語のシーケンスは、自動音声認識(ASR)システムの出力である、
    請求項1に記載のシステム。
  3. 前記単語のシーケンスは、前記ユーザーの前記1つ以上の音声発話に対応する単語のセットにわたる確率分布である、
    請求項2に記載のシステム。
  4. 前記目標は、音声対話システムによって実行されるべき動作を出力する対話マネージャに入力される、
    請求項1に記載のシステム。
  5. 前記意図のシーケンスにおける各意図は、前記ユーザーの前記1つ以上の音声発話に対応する意図のセットにわたる確率分布である、
    請求項1に記載のシステム。
  6. 前記マルチスケールリカレントニューラルネットワーク(MSRNN)のネットワークパラメーターは、前記第1のサブネットワーク及び前記第2のサブネットワークについて別個にプレトレーニングされた初期化パラメーターを用いてともにトレーニングされる、
    請求項1に記載のシステム。
JP2017549836A 2015-08-17 2016-07-29 音声言語理解システム Active JP6444530B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/827,669 US9607616B2 (en) 2015-08-17 2015-08-17 Method for using a multi-scale recurrent neural network with pretraining for spoken language understanding tasks
US14/827,669 2015-08-17
PCT/JP2016/073019 WO2017030006A1 (en) 2015-08-17 2016-07-29 Spoken language understanding system

Publications (2)

Publication Number Publication Date
JP2018513405A JP2018513405A (ja) 2018-05-24
JP6444530B2 true JP6444530B2 (ja) 2018-12-26

Family

ID=56877090

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017549836A Active JP6444530B2 (ja) 2015-08-17 2016-07-29 音声言語理解システム

Country Status (5)

Country Link
US (1) US9607616B2 (ja)
EP (1) EP3338280B1 (ja)
JP (1) JP6444530B2 (ja)
CN (1) CN107924680B (ja)
WO (1) WO2017030006A1 (ja)

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10083169B1 (en) * 2015-08-28 2018-09-25 Google Llc Topic-based sequence modeling neural networks
KR102437689B1 (ko) * 2015-09-16 2022-08-30 삼성전자주식회사 음성 인식 서버 및 그 제어 방법
KR102450853B1 (ko) * 2015-11-30 2022-10-04 삼성전자주식회사 음성 인식 장치 및 방법
US10931633B2 (en) * 2015-12-10 2021-02-23 Verisign, Inc. Syntactically and/or semantically relevant alternative domain name generation
US10229672B1 (en) 2015-12-31 2019-03-12 Google Llc Training acoustic models using connectionist temporal classification
US11263514B2 (en) * 2016-01-13 2022-03-01 Google Llc Processing and generating sets using recurrent neural networks
CN107220220A (zh) * 2016-03-22 2017-09-29 索尼公司 用于文本处理的电子设备和方法
US10431205B2 (en) * 2016-04-27 2019-10-01 Conduent Business Services, Llc Dialog device with dialog support generated using a mixture of language models combined using a recurrent neural network
US10242667B2 (en) * 2016-06-03 2019-03-26 Maluuba Inc. Natural language generation in a spoken dialogue system
WO2017217661A1 (ko) * 2016-06-15 2017-12-21 울산대학교 산학협력단 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법과, 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법
US11783173B2 (en) * 2016-06-23 2023-10-10 Microsoft Technology Licensing, Llc Multi-domain joint semantic frame parsing
US10268679B2 (en) * 2016-12-02 2019-04-23 Microsoft Technology Licensing, Llc Joint language understanding and dialogue management using binary classification based on forward and backward recurrent neural network
KR20180092582A (ko) * 2017-02-10 2018-08-20 삼성전자주식회사 Wfst 디코딩 시스템, 이를 포함하는 음성 인식 시스템 및 wfst 데이터 저장 방법
US10691886B2 (en) * 2017-03-09 2020-06-23 Samsung Electronics Co., Ltd. Electronic apparatus for compressing language model, electronic apparatus for providing recommendation word and operation methods thereof
US11354565B2 (en) * 2017-03-15 2022-06-07 Salesforce.Com, Inc. Probability-based guider
US10755174B2 (en) * 2017-04-11 2020-08-25 Sap Se Unsupervised neural attention model for aspect extraction
US20180307753A1 (en) * 2017-04-21 2018-10-25 Qualcomm Incorporated Acoustic event enabled geographic mapping
US10642875B2 (en) * 2017-04-28 2020-05-05 International Business Machines Corporation Accurate relationship extraction with word embeddings using minimal training data
CN107153642A (zh) * 2017-05-16 2017-09-12 华北电力大学 一种基于神经网络识别文本评论情感倾向的分析方法
US10853724B2 (en) 2017-06-02 2020-12-01 Xerox Corporation Symbolic priors for recurrent neural network based semantic parsing
CN107452374B (zh) * 2017-07-11 2020-05-05 上海交通大学 基于单向自标注辅助信息的多视角语言识别方法
JP7112075B2 (ja) * 2017-08-07 2022-08-03 国立研究開発法人情報通信研究機構 音声合成のためのフロントエンドの学習方法、コンピュータプログラム、音声合成システム、及び音声合成のためのフロントエンド処理方法
KR102410820B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
US10515625B1 (en) 2017-08-31 2019-12-24 Amazon Technologies, Inc. Multi-modal natural language processing
CN107578092A (zh) * 2017-09-01 2018-01-12 广州智慧城市发展研究院 一种基于情绪和意见挖掘的情感复合分析方法及系统
EP3488354B1 (en) * 2017-10-12 2022-04-20 Google LLC Determining state of automated assistant dialog
US10453454B2 (en) * 2017-10-26 2019-10-22 Hitachi, Ltd. Dialog system with self-learning natural language understanding
KR101932263B1 (ko) * 2017-11-03 2018-12-26 주식회사 머니브레인 적시에 실질적 답변을 제공함으로써 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
CN110119507A (zh) * 2018-02-05 2019-08-13 阿里巴巴集团控股有限公司 词向量生成方法、装置以及设备
US10431207B2 (en) 2018-02-06 2019-10-01 Robert Bosch Gmbh Methods and systems for intent detection and slot filling in spoken dialogue systems
US10713441B2 (en) * 2018-03-23 2020-07-14 Servicenow, Inc. Hybrid learning system for natural language intent extraction from a dialog utterance
US10902211B2 (en) * 2018-04-25 2021-01-26 Samsung Electronics Co., Ltd. Multi-models that understand natural language phrases
CN108682417B (zh) * 2018-05-14 2020-05-19 中国科学院自动化研究所 语音识别中的小数据语音声学建模方法
US10956790B1 (en) * 2018-05-29 2021-03-23 Indico Graphical user interface tool for dataset analysis
WO2019231346A1 (ru) * 2018-05-31 2019-12-05 Публичное Акционерное Общество "Сбербанк России" Способ и система для выстраивания диалога с пользователем в удобном для пользователя канале
CN108962224B (zh) * 2018-07-19 2020-06-26 苏州思必驰信息科技有限公司 口语理解和语言模型联合建模方法、对话方法及系统
RU2720952C2 (ru) 2018-09-14 2020-05-15 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для создания рекомендации цифрового содержимого
RU2720899C2 (ru) 2018-09-14 2020-05-14 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для определения зависящих от пользователя пропорций содержимого для рекомендации
RU2725659C2 (ru) 2018-10-08 2020-07-03 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для оценивания данных о взаимодействиях пользователь-элемент
US20220004545A1 (en) * 2018-10-13 2022-01-06 IPRally Technologies Oy Method of searching patent documents
US11037546B2 (en) * 2018-11-15 2021-06-15 Microsoft Technology Licensing, Llc Nudging neural conversational model with domain knowledge
CN109492759B (zh) * 2018-12-17 2022-05-20 北京百度网讯科技有限公司 神经网络模型预测方法、装置和终端
CN109545190B (zh) * 2018-12-29 2021-06-29 联动优势科技有限公司 一种基于关键词的语音识别方法
US10957320B2 (en) * 2019-01-25 2021-03-23 International Business Machines Corporation End-of-turn detection in spoken dialogues
US11935539B1 (en) * 2019-01-31 2024-03-19 Alan AI, Inc. Integrating voice controls into applications
US11955120B1 (en) 2019-01-31 2024-04-09 Alan AI, Inc. Systems and methods for integrating voice controls into applications
JP7103264B2 (ja) * 2019-02-20 2022-07-20 日本電信電話株式会社 生成装置、学習装置、生成方法及びプログラム
CN111738010B (zh) * 2019-03-20 2023-10-17 百度在线网络技术(北京)有限公司 用于生成语义匹配模型的方法和装置
US10991365B2 (en) * 2019-04-08 2021-04-27 Microsoft Technology Licensing, Llc Automated speech recognition confidence classifier
US10860809B2 (en) 2019-04-09 2020-12-08 Sas Institute Inc. Word embeddings and virtual terms
CN110222848A (zh) * 2019-05-05 2019-09-10 阿里巴巴集团控股有限公司 计算机执行的集成模型的确定方法及装置
CN110309317B (zh) * 2019-05-22 2021-07-23 中国传媒大学 中文语料的词向量生成方法、系统、电子装置及介质
CN110211573A (zh) * 2019-05-28 2019-09-06 重庆邮电大学 一种基于神经网络模型的任务驱动型对话决策方法
US11487945B2 (en) 2019-07-02 2022-11-01 Servicenow, Inc. Predictive similarity scoring subsystem in a natural language understanding (NLU) framework
US11599768B2 (en) 2019-07-18 2023-03-07 International Business Machines Corporation Cooperative neural network for recommending next user action
US11663814B2 (en) * 2019-08-23 2023-05-30 Arm Limited Skip predictor for pre-trained recurrent neural networks
RU2757406C1 (ru) 2019-09-09 2021-10-15 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для обеспечения уровня сервиса при рекламе элемента контента
KR20210062838A (ko) * 2019-11-22 2021-06-01 엘지전자 주식회사 인공지능 기반의 음성처리 방법
CN111274789B (zh) * 2020-02-06 2021-07-06 支付宝(杭州)信息技术有限公司 文本预测模型的训练方法及装置
CN111597342B (zh) * 2020-05-22 2024-01-26 北京慧闻科技(集团)有限公司 一种多任务意图分类方法、装置、设备及存储介质
CN112347247B (zh) * 2020-10-29 2023-10-13 南京大学 基于LDA和Bert的特定类别文本标题二分类方法
US20220199078A1 (en) * 2020-12-22 2022-06-23 Samsung Electronics Co., Ltd. Electronic apparatus, system comprising electronic apparatus and server and controlling method thereof
CN113707131B (zh) * 2021-08-30 2024-04-16 中国科学技术大学 语音识别方法、装置、设备及存储介质
US20230111052A1 (en) * 2021-10-13 2023-04-13 International Business Machines Corporation Self-learning annotations to generate rules to be utilized by rule-based system
WO2023062790A1 (ja) * 2021-10-14 2023-04-20 日本電信電話株式会社 ログデータ解析装置、ログデータ解析方法、およびプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1207517B1 (en) * 2000-11-16 2007-01-03 Sony Deutschland GmbH Method for recognizing speech
US8086462B1 (en) * 2004-09-09 2011-12-27 At&T Intellectual Property Ii, L.P. Automatic detection, summarization and reporting of business intelligence highlights from automated dialog systems
US9009046B1 (en) * 2005-09-27 2015-04-14 At&T Intellectual Property Ii, L.P. System and method for disambiguating multiple intents in a natural language dialog system
US8442828B2 (en) 2005-12-02 2013-05-14 Microsoft Corporation Conditional model for natural language understanding
CN101645064B (zh) * 2008-12-16 2011-04-06 中国科学院声学研究所 一种浅层自然口语理解系统及方法
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
CN102662931B (zh) * 2012-04-13 2015-03-25 厦门大学 一种基于协同神经网络的语义角色标注方法
US10867597B2 (en) 2013-09-02 2020-12-15 Microsoft Technology Licensing, Llc Assignment of semantic labels to a sequence of words using neural network architectures
CN103458056B (zh) * 2013-09-24 2017-04-26 世纪恒通科技股份有限公司 自动外呼系统基于自动分类技术的语音意图判定系统
DE112014005354T5 (de) * 2013-11-25 2016-08-04 Mitsubishi Electric Corporation Dialog-management-system und dialog-management-verfahren
US9239828B2 (en) * 2013-12-05 2016-01-19 Microsoft Technology Licensing, Llc Recurrent conditional random fields
CN104951428B (zh) * 2014-03-26 2019-04-16 阿里巴巴集团控股有限公司 用户意图识别方法及装置
CN104166643A (zh) * 2014-08-19 2014-11-26 南京金娃娃软件科技有限公司 一种智能问答系统中的对话行为分析方法
CN104360897B (zh) * 2014-10-29 2017-09-22 百度在线网络技术(北京)有限公司 对话处理方法和对话管理系统

Also Published As

Publication number Publication date
US9607616B2 (en) 2017-03-28
JP2018513405A (ja) 2018-05-24
CN107924680B (zh) 2021-08-31
US20170053646A1 (en) 2017-02-23
WO2017030006A1 (en) 2017-02-23
EP3338280A1 (en) 2018-06-27
EP3338280B1 (en) 2019-09-11
CN107924680A (zh) 2018-04-17

Similar Documents

Publication Publication Date Title
JP6444530B2 (ja) 音声言語理解システム
Deng et al. Use of kernel deep convex networks and end-to-end learning for spoken language understanding
Chien et al. Bayesian recurrent neural network for language modeling
Shannon Optimizing expected word error rate via sampling for speech recognition
CN109887484B (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
US11941366B2 (en) Context-based multi-turn dialogue method and storage medium
US20170372694A1 (en) Dialogue act estimation method, dialogue act estimation apparatus, and storage medium
CN110085215B (zh) 一种基于生成对抗网络的语言模型数据增强方法
WO2017094911A1 (en) Method for processing utterances
CN114830148A (zh) 可控制有基准的文本生成
US11580145B1 (en) Query rephrasing using encoder neural network and decoder neural network
Cui et al. Multi-view and multi-objective semi-supervised learning for hmm-based automatic speech recognition
Kadyan et al. A comparative study of deep neural network based Punjabi-ASR system
Tong et al. Cross-lingual adaptation of a CTC-based multilingual acoustic model
Ranjan et al. A comparative study on code-mixed data of Indian social media vs formal text
Mou et al. Backward and forward language modeling for constrained sentence generation
Lugosch et al. DONUT: CTC-based query-by-example keyword spotting
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
Chen et al. Deep neural networks for multi-class sentiment classification
CN111026848B (zh) 一种基于相似上下文和强化学习的中文词向量生成方法
CN112560440A (zh) 一种基于深度学习的面向方面级情感分析的句法依赖方法
Song et al. Exploiting different word clusterings for class-based RNN language modeling in speech recognition
Alisamir et al. An end-to-end deep learning model to recognize Farsi speech from raw input
Heymann et al. Improving ctc using stimulated learning for sequence modeling
Gupta et al. IIT (BHU) System for Indo-Aryan language identification (ILI) at VarDial 2018

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181127

R150 Certificate of patent or registration of utility model

Ref document number: 6444530

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250