JP2016517047A - 音声認識システム及びダイナミックベイジアンネットワークモデルの使用方法 - Google Patents

音声認識システム及びダイナミックベイジアンネットワークモデルの使用方法 Download PDF

Info

Publication number
JP2016517047A
JP2016517047A JP2016510953A JP2016510953A JP2016517047A JP 2016517047 A JP2016517047 A JP 2016517047A JP 2016510953 A JP2016510953 A JP 2016510953A JP 2016510953 A JP2016510953 A JP 2016510953A JP 2016517047 A JP2016517047 A JP 2016517047A
Authority
JP
Japan
Prior art keywords
computer
signal
observed
speech
analysis module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016510953A
Other languages
English (en)
Inventor
ジオルコ、バートス
ジャドツク、トマス
Original Assignee
アカデミア ゴルニツォ−ハットニツァ アイエム. スタニスラワ スタシツァ ダブリュー クラクフィ
アカデミア ゴルニツォ−ハットニツァ アイエム. スタニスラワ スタシツァ ダブリュー クラクフィ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アカデミア ゴルニツォ−ハットニツァ アイエム. スタニスラワ スタシツァ ダブリュー クラクフィ, アカデミア ゴルニツォ−ハットニツァ アイエム. スタニスラワ スタシツァ ダブリュー クラクフィ filed Critical アカデミア ゴルニツォ−ハットニツァ アイエム. スタニスラワ スタシツァ ダブリュー クラクフィ
Publication of JP2016517047A publication Critical patent/JP2016517047A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

入力デバイス(102A)により、音声を表す電気信号を登録し(201)、信号を周波数または時間周波数領域に変換するステップ(202)、単語(W)の仮説および観測された信号特徴(OA,OV)に基づくそれらの確率を生成するよう構成されたダイナミックベイジアンネットワーク(205)に基づく解析モジュールにおいて信号を分析するステップ、及び特定の単語(W)仮説及びそれらの確率に基づいて、音声を表す電気信号に対応するテキストを認識するステップ(209)を備える音声認識のコンピュータ実装方法。方法は、解析モジュール(205)に、各ラインに対して別個の時間セグメントに対する少なくとも2つの並列信号処理ライン(204a,204b,204c,204d,201a)における周波数または時間周波数領域(202)内の信号に対して決定される観測された信号特徴(308−312)を入力すること、及び、解析モジュール(205)において、少なくとも2つの別個の時間セグメントに対して観測された信号特徴(308−312)の間の関係を分析することを特徴とする。

Description

本発明の対象は、音声認識システム及びこの目的にためのベイジアンネットワークの使用方法である。特に、そのような自動音声認識システムは、広告及び情報提供の目的のための対話システムに適用できる。対話システムの実装は、顧客又は見物人との対話を始めて、適当なマルチメディアコンテンツを提供するインフォメーションキオスク又はブースの形をとってよい。
音声認識システムは、日常生活において、ますます一般的になっている。例えば、それらは、公共交通機関のためのような情報コールセンタにおいて実装されている。しかし、これらのシステムは、まだ、頻繁に、音声の代わりに、入力情報のソースとしてキーパッド及びテキストにより動作している。
ユーザとの対話を実施可能にする様々な種類のコンピュータ化されたインタラクティブキオスクが知られている。例えば、米国特許6256046号明細書は、人の存在を示す環境内の変化を検出するために動き及び色分析を使用することにより、視覚データを処理することにより人を検出するコンピュータ化されたキオスクにおけるアクティブパブリックユーザインターフェースを開示している。相互作用空間が規定され、システムは、無生物の加算又は減算を反映し、照明変化を補償するために経時的に更新されるその環境の初期モデルを記録する。システムが移動対象物のモデルを開発し、それにより、人が相互作用空間について移動する間、彼らを追跡することが可能となる。さらに、ステレオカメラシステムが、位置及び移動を検出するシステムの性能を向上する。キオスクは、それが「見る」ものに応じて、音声及び視覚的フィードバックを提供する。
米国特許出願公開第2008/0204450号明細書は、未承諾広告が自動化されたアバタにおいて具現化された仮想宇宙を提供するシステム、方法、及びプログラム製品を開示している。広告アバタを仮想宇宙に導入する登録システム、広告アバタが広告コンテンツの配信のためにユーザアバタを標的化する標的化システム、広告アバタが仮想宇宙内を移動する方法を定義する移動システム、及び広告アバタが広告コンテンツをユーザアバタに配信する方法を定義する広告配信システムを含むシステムが提供される。
上述のような既知の対話システムの欠点は、ユーザとの錯綜した対話を行うには不十分な音声認識性能を含む。
米国特許7203368号明細書は、HMM(隠れマルコフモデル)及びCHMM(連結隠れマルコフモデル)を用いる階層的な統計モデルを形成するパターン認識手順を開示している。階層的な統計モデルは、複数のスーパーノードを有する親レイヤ及び親レイヤの各スーパーノードに関連付けられた複数のノードを有する子レイヤをサポートする。トレーニングの後、階層的な統計モデルは、データセットから抽出される観測ベクトルを使用して、実質的に最適な状態シーケンスのセグメントを見つける。この処理の改良は、有利であろう。
HMMに基づく解より少ない制限を置くより一般的な解は、音声認識のベイジアンネットワークを使用する。ダイナミックベイジアンネットワーク(DBN)を含むベイジアンネットワークを使用する解は、以下の刊行物に提示されている。
M. Wester, J. Frankel, and S. King, "Asynchronous articulatory feature recognition using dynamic Bayesian networks" (Proceedings of IEICI Beyond HMM Workshop, 2004),
J. A. Bilmes and C. Bartels, "Graphical model architectures for speech recognition", IEEE Signal Processing Magazine, vol. 22, pp. 89-100, 2005,
J. Frankel, M. Wester, and S. King, "Articulatory feature recognition using dynamic Bayesian networks", Computer Speech and Language, vol. 21, no. 4, pp. 620-640, October 2007.
ベイジアンネットワークを利用する音声認識方法は、特徴ベクトルに係る音の持続時間のモデリングに基づく。DBNでは、継続時間を表す変数を音を表す変数に置き換えることが可能となった。それにもかかわらず、すべての従来技術の解は、所定の時間範囲内で音声分析を行った。
前述の先行技術を考慮すると、人と機械との間の対話効率を改善できる音声認識システム及び方法を設計及び実装する必要がある。
本発明の対象は、入力デバイスにより、音声を表す電気信号を登録し、信号を周波数または時間周波数領域に変換するステップ、単語(W)の仮説及び観測された信号特徴(OA,OV)に基づくそれらの確率を生成するよう構成されたDBNに基づく解析モジュールにおいて信号を分析するステップ、及び特定の単語(W)仮説及びそれらの確率に基づいて、音声を表す電気信号に対応するテキストを認識するステップを備える自動音声認識のコンピュータ実装方法である。方法は、解析モジュールに、各ラインに対して別個の時間セグメントに対する少なくとも2つの並列信号処理ラインにおける周波数又は時間周波数領域内の信号に対して決定される観測された信号特徴を入力すること、及び、解析モジュールにおいて、少なくとも2つの別個の時間セグメントに対して観測された信号特徴の間の関係を分析することを特徴とする。
好ましくは、時間セグメントは、所定の継続時間を有する。
好ましくは、時間セグメントは、音素、音節、単語のような音声セグメントのコンテンツに依存する。
好ましくは、方法は、さらに、解析モジュールにおいて、モデルを記述する変数の間の決定論的及び蓋然論的関係を定義する段階をさらに備え、蓋然論的関係は、少なくとも観測された信号特徴を現在の状態にリンクするために定義される。
好ましくは、方法は、さらに、異なる観測された信号特徴(OA,OV)を同時方法で分析する段階を備える。
本発明の別の対象は、音声を表す電気信号を登録する入力デバイス、音声を表す登録された電気信号を周波数または時間周波数領域に変換するモジュール、音声を表す信号を分析し、単語の仮説および観測された信号特徴(OA,OV)に基づくそれらの確率を生成するよう構成されたDBNに基づく解析モジュール、及び単語の定義された仮説及びそれらの確率に基づいて、音声を表す電気信号に対応するテキストを認識するモジュールを備える音声認識のコンピュータ実装システムである。システムは、さらに、各ラインに対して別個の時間セグメントに対する少なくとも2つの並列信号処理ラインにおいて、少なくとも2つの観測された信号特徴を、解析モジュールに対して決定する少なくとも2つの信号パラメータ化モジュールを備え、解析モジュールは、少なくとも2つの別個の時間セグメントに対して観測された信号特徴の間の依存性を分析するよう構成される。
本発明の対象は、コンピュータ上で実行されると、本発明に係るコンピュータ実装方法のすべてのステップを実行するプログラムコード化手段を備えるコンピュータプログラムでもあるとともに、コンピュータ上で実行されると、本発明に係るコンピュータ実装方法のすべてのステップを実行するコンピュータ実行可能命令を格納するコンピュータ可読媒体でもある。
本発明の対象は、以下の図面内の典型的な実施形態に提示されている。
本発明に係るシステムのブロック図を示す。 自動音声認識処理のブロック図を示す。 異なる長さの並列期間上のDBNを用いる音声のモデリングを示す。 単語のシーケンス(典型的な目的に対して簡素化されたバージョン)をデコードする、図3内に示される1つと同様のDBNの使用例を示す。
図1は、本発明に係るシステムのブロック図を示す。そのようなシステムは、対話システムを提供するインタラクティブ広告又は他の情報において使用されてよい。対話は、可能な限り実際の対話に近いものでなければならない。そのような前提の実装は、パターン認識、意味分析、オントロジ知識及び音声合成に続く自然言語生成の使用のような技術の使用により可能である。
本発明を使用することができる対話システムは、複数の高品質のディスプレイ又はイメージプロジェクタを備え得る。好ましい実施形態では、対話システムは、ユーザ存在検出、又はより進歩的な場合では、バイオメトリック検出器、顔認識モジュール等のユーザ特性検出器を装備してもよい。対話システムは、音声のより効率的な取得のための指向性マイクを備えてもよい。
出力情報は、対話のコンテキストに適合され、ユーザの好みを決定する。
対話システムは、好ましくは、ユーザが会話をする視覚的アバタ又は人のイメージを出力する。音声認識を採用する対話システムは、インタラクティブに一人の人又は複数の人101と通信する。人101は、音声入力モジュール、例えばマイク102Aに向かって話すことにより質問を入力する。マイクにより登録される音声は、音声認識モジュール102により処理され、続いて、自然言語を認識するためのモジュール103に配信される。
理解のためのモジュール103は、それらが機械に理解でき、容易且つ迅速に処理され得るような方法において、予想される応答の文脈で人101の陳述の認識の仮説を解釈する責任を伴う。例えば、システムが観光情報スポットで実装されている場合、それらの確率を用いる音声仮説のリストに基づく理解のためのモジュール103は、スピーカが、彼がそれがどのような場所であるか探している場合、特定の場所、又はサービス、公共交通機関が運営等する時間の情報を探しているかを判断するタスクを有する。最も単純なバージョンでは、モジュールは、この目的のためにキーワードを利用するが、ここでは、D. Jurafsky, J.H. Martin, "Speech and Language Processing", Second Edition, Pearson Education, Prentice Hall, 2009に提示されるシンタックスモデル(例えば、センテンスパーサ)及び/又はセマンティックモデル(例えば、Wordnet又はセマンティックHMM)に基づくより高度な解を使用してもよい。
自然言語103を理解するためのモジュール内で処理されると、センテンス又はセンテンスの仮説は、(例えば、D. Jurafsky, J.H. Martin, "Speech and Language Processing", Second Edition, Pearson Education, Prentice Hall, 2009に記載されているように)目標管理モジュール106及び目標データベース107と協同して、適切にオントロジーモジュール105にクエリすることによって、ユーザクエリに提示される応答を決定する対話管理モジュール104に送られる。
オントロジーモジュール105は、領域についての整然とした知識、例えば、どの製品が特定の種類で入手可能か、人が選択したものと一緒に何を購入したかなど情報を備える。オントロジーモジュールは、更に、例えば、対話中の人の友達が、人が訪問等する市内にいるかどうかをチェックするソーシャルサービスからの異なる種類のデータを備えてもよい。オントロジーモジュールは、コンピュータ又は他の機械が処理できるような方法で体系化されたあらゆる他の実用的な知識を備えてもよい。
目標管理モジュール106は、コンピュータ内に、本発明に係るシステムに義務が実行される専門家(例えば、商業従業員)を導く商業、広告、交渉等の既知のルールを実装するために使用される。
応答のコンテンツを決定した後、自然言語の応答が、自然言語108を生成するためのモジュール及び続いて音声生成モジュール109において生成される。音声の形成において生成された応答は、スピーカ又はシステムにインストールされた他の出力デバイス109Aを介して人101に出力される。
本発明において使用されるキー要素は、ベイジアンネットワークからなる分析のためのコンピュータ実装モジュールである。ベイジアンネットワークは、別個の要素が互いに依存し得る複雑な現象のモデリングを可能とする。基本モデルは、ノードがモデル(ランダム変数)の別個の要素を表す方向性非環式グラフとして生成される。ここで、エッジが、これらの要素間の依存関係を表す。
更に、エッジは、イベントの1つが、別のイベントが特定の値を仮定する条件の下で発生することを指定する、割り当てられた確率値を持つ。ベイズの定理を用いることにより、複雑な条件付き確率は、ベイジアンネットワークの特定のパスに対して計算され得る。これらの確率は、ネットワークの個々の要素により取られる値について推論するために使用されてもよい。
各ネットワーク変数は、それに接続されていない他の変数に条件付きで独立していなければならない。この方法で生成されたグラフは、イベントのコンパクトな表現、これらのイベントの発生の累積確率、及びグラフのノード間の条件付き独立性に関する前提として解釈されてよい。
DBNは、音声認識に採用してよい。複数のノードは、単一のランダム変数ではなく、変数のシーケンスを表す。これらは、時間の経過に応じて音声モデリングを可能にする時間シリーズとして解釈される。従って、複数の連続する観測状態は、最終状態への明確なパスを正当化する。
標準的なベイジアンネットワークの使用は、音の持続時間の予測に基づいて、調音特徴のベクトルに依存する。ネットワークは、各特徴に対する単一の離散変数及び音の持続時間に対する単一の連続変数を有する。ネットワークは、特徴間の関係を記述する。特徴を表現するノードの値は、ネットワークに入る値及び任意に他の特徴に依存する。持続時間を表すノードの値は、他のノードから受信される値のみに直接依存する隠れ層(HMMにおけるように)である。
DBNの導入は、継続時間を表す変数を音を表す変数に置き換えることを可能にする。特徴間の関係を有するネットワーク全体は、ネットワークの1つが、時間t−1で分析される信号及び時間tでの次の信号を表すようにコピーされる。両ネットワークは、時間的に変化する状態間の遷移の確率値を有するエッジで接続される。
本発明は、2つのサブネットワークを用いる場合のみに限定されるものではないことに留意すべきである。より多くのサブネットワーク、次の時間モーメントに対する各サブネットワークがあってもよい。一般的に、数100又は数1000のネットワークがあってもよい。そのような構造は、次の時間モーメントに何度もコピーされてもよい。更に、そのような局所ベイジアンネットワーク構造は、幾つかの場合には異なる時間の間で、それ自体を修正してもよい。
DBNモデルは、異なるソース、例えば音響特徴及び視覚特徴(唇の動きのような)から生じる信号についての情報を結合するために使用されてもよい。この種のシステムは、特に、異なる音響条件を有する場所での応用に有用である。低い値の信号対雑音比(SNR)は、ストリート、空港、工場等のような場所において、唯一の音響経路に由来する情報を使用すると、得られた結果の品質の顕著な低下をもたらす。同じタイプのノイズに敏感でない別の信号タイプから得られる情報を加えることで、生じる困難を除去し、そのような場所においても音声認識システムを使用することを可能にする。
本発明者等は、ベイジアンネットワークが、音声分析に使用される際のHMM方法と比較して、より少ない制限を課すことに気づいた。
図2は、音声認識処理のブロック図を示す。次の説明は、また、異なる長さの期間に関連する時間でDBNの使用とともに音声のモデリングを示す図3の幾つかの特徴を参照する。
図3に示されるように、DBNは、本明細書において、別個の観測が異なる持続時間を表すように音声をモデリングするために使用される。これらの異なる持続時間は、所定の長さ、例えば5ms、20ms、60msのセグメントであってもよく、音素、音節、単語、又は両タイプの組み合わせ、例えば5ms、20ms、音素、単語のような音声セグメントのコンテンツに依存する。
提示された方法は、状態確率(図3におけるSt1からSt6)を評価するためにDBNモデルを使用することで、異なる情報タイプの抽出及び取得した特徴の直接的融合を可能にする。
DBNにおける推論は、モデルを記述する変数間の2種類の関係、決定論的関係(図3に直線矢印としてマーク付けされる)及び蓋然論的関係(図3に波型矢印としてマーク付けされる)に基づく。
決定論的関係は、既知の事実、例えば与えられた単語Wtiを分析すると知られる位置Wps及び第1種の音素Ptiに基づいて定義される。そして、音素から次の音素への遷移Ptrが発生した又は発生しなかったことを知ることにより、単語内の現在の音素の位置が決定され得る。音素の遷移が起こらないと、時刻t+1でのWpsは時刻tでのWpsに等しく、上記の遷移が観察される場合、Wps+1に等しい。
1つの単語から別の単語への遷移Wtrに関する情報も、同様に得ることができる。書き表された単語の最後の音素からの遷移の発生は、別の単語Wtiの分析の必要を意味する。
関係の別のタイプは、蓋然論的関係である。変数に基づいて推論するために、蓋然論的関係が存在する間で、これらのイベントが発生する確率(確率密度関数PDF)を定義する関数を決定する必要がある。この種類の関係は、現在の状態Stiと観測された信号の特徴をリンクするために使用される。好適なPDF機能は、ガウス混合モデルGMMである。
幾つかの関係は、連続する単語Wtiのように決定論的及び蓋然論的の両方である。1つの単語から別の単語への遷移が発生しない場合、関係は決定論的であり、単語は時間t−1でのものと同じである。遷移が発生する場合、次の単語Wti+1は、言語モデルからの知識を用いる蓋然論的方法において決定される。
DBNにおける推論は、音響特徴の観測に基づいて影響する。しかし、あらゆる観測が測定誤差を受けやすい。同じグループ(例えば、図3内のOA11,OA23,及びOA33,又はOV11及びOV23)に属する関係する時間−変数観測の間の蓋然論的関係の導入は、そのような誤差を減少することを可能にする。
状態Sti及び前の状態Sti−1は、観測が与えられた音素(図3におけるPt1からPt6)を話す結果である確率を評価するために使用される。
与えられた音素の発生は、一時的状態Ptrに確率的に関係もする。音素Pti、音素遷移Ptr、単語Wps内の音素の位置、及び単語Wtrからの遷移は、記録された音が単語Wを含む仮説の正確さを評価することを可能とする。
音声は、特定の周波数特徴及びエネルギ特徴が短い期間内でほとんど一定である特性を有する。しかし、長い期間、それらは著しく変化する。それにもかかわらず、第1及び第2の状況が発生する特定の瞬間が定義されず、そのため、DBNモデルの使用が非常に有利である。異なるセグメント内の観測間の関係は、存在してもよいが、存在しなければならないものでもない。
例えば、4つの期間の構成の変形に対して、それらは、平行分析の5ms、20ms、音素、及び単語を仮定してよい。例えば、すべての4つの範囲の間の関係があるが、5ms及び20msの層と音素の層との間のみの関係がある、20msの層と音素の層との間のみの関係がある、又は音素の層と単語の層との間のみの関係がある可能な異なるモデル構成がある。
更に、範囲のそれぞれは、音声の異なる種類の特徴に関係する幾つかの観測タイプを有する。例えば、それらの1つは周波数特徴ベクトルであり、別の1つはエネルギ及びさらに別の1つは視覚的特徴ベクトルであってもよい。これらは、同じ種類、しかし異なる方法(例えば、WFT(ウェーブレットフーリエ変換)、MFCC(メル周波数ケプストラム係数))を用いて得られる音響特徴であってもよいし、同じ方法を用いて、しかし異なる時間範囲に対して、例えば、20msの移動ウィンドウに対して、50msの移動ウィンドウに対して、10msごとに抽出される両方に対して、得られる音響特徴であってもよい。
さらに、幾つかの範囲は、特定の種類の特徴の分析においてのみ発生し、他の種類では利用できない(図3、音響特徴1(308)の観測は最後の60ms、音響特徴2(310)の観測は最後の20ms、視覚特徴1(309)の観測は最後の30ms)。
同時に、分析の際に使用される信号を記述するより多くのタイプの特徴、例えばピッチ周波数、フォルマント周波数、又は音の有声/無声説明があってもよい。
図2に提示された方法は、ステップ201で音声信号を取得して開始する。次のステップ202は、例えばWFT又は短時間フーリエ変換(STFT)を用いる時間周波数変換により、信号を周波数領域に処理する。異なる時間の瞬間での異なる周波数サブバンドに含まれる情報(信号エネルギのような)の定量的記述を可能にする他の変換を適用することが可能である。
続いて、ステップ203では、時間周波数スペクトルは、例えば5ms、20ms、60ms等の一定のフレームに分割され、又は例えば以下に提示されるような所定のアルゴリズムに従ってセグメント化される。
P. Cardinal, G. Boulianne, and M. Comeau, "Segmentation of recordings based on partial transcriptions", Proceedings of Interspeech, pp. 3345-3348, 2005; or
K. Demuynck and T. Laureys, "A comparison of different approaches to automatic speech segmentation", Proceedings of the 5th International Conference on Text, Speech and Dialogue, pp. 277-284, 2002; or
Subramanya, J. Bilmes, and C. P. Chen, "Focused word segmentation for ASR", Proceedings of Interspeech 2005, pp. 393-396, 2005.
セグメント化モジュール(203)は、スペクトル分析の処理を独立にパラメータ化される複数のラインに分割する。
ラインの数は、前述の4と異なってもよい。図2の例は、5ms−204a、20ms−204b、音素−204c、及び単語−204dのフレームを有する4つの別個のラインを採用する。ここで、ラインのそれぞれから、ブロック204aから204dにおいて特定の時間での音声を表す特徴が抽出される。これらのパラメータ化ブロックは、MFCC、知覚線形予測(PLP)又はその他以下のような処理アルゴリズムを採用してよい。
H. Misra, S. Ikbal, H. Bourlard, and H. Hermansky, "Spectral entropy based feature for robust ASR", Proceedings of ICASSP, pp. I-193-196, 2004; and/or
L. Deng, J. Wu, J. Droppo, and A. Acero, "Analysis and comparison of two speech feature extraction/compensation algorithms", IEEE Signal Processing Letters, vol. 12, no. 6, pp. 477-480, 2005; and/or
D. Zhu and K. K. Paliwal, "Product of power spectrum and group delay function for speech recognition", Proceedings of ICASSP, pp. I-125-128, 2004.
モジュール204aから204dから得られる特徴は、信号エネルギ及び視覚的特徴ベクトルのような観測201aとともにDBN205に通される。ビタビデコード及び/又はBaum−Welchのような音声認識において使用されるダイナミックプログラミングアルゴリズムを使用し、また辞書206のコンテンツと言語モデル207、例えば単語のバイグラムに基づくBN、例えば変分メッセージ送信、期待プロパゲーション及び/又はギブスサンプリングに対して近似推論のその埋め込まれたアルゴリズムを使用するDBNモデルは、単語仮説を決定し、それらの確率を計算する。ほとんどの場合、DBNは同じ期間に異なる仮説を提示し得るため、仮説は部分的に重複し得る。仮説は、その後、認識音声テキスト209を得るために、さらなる言語モデル208(好ましくは、DBNで使用される第1の言語モデルより高度な)において処理されてもよい。
図3は、典型的なDBN構造を示す。アイテムW301は単語を意味し、Wtr302は単語遷移を意味し、Wps303は特定の単語内の音素の位置を意味し、Ptr304は音素遷移を意味し、Pt305は音素を意味し、Spt306は前の状態を意味し、S307は状態を意味し、OA1 308は60msの時間ウィンドウにおける第1種の観測された音響特徴を意味し、OV1 309は30msの時間ウィンドウにおける第1種の観測された視覚特徴を意味し、OA2 310は20msの時間ウィンドウにおける第2種の観測された音響特徴を意味し、OA3 311は10msの時間ウィンドウにおける第3種の観測された音響特徴を意味し、OV2 312は10msの時間ウィンドウにおける第2種の観測された視覚特徴を意味する。
矢印は、前述の通り、変数間の関係(依存性)を表す。遷移は、トレーニングデータに基づいて、ベイジアンネットワークのトレーニング処理の間に計算される条件付き確率分布(CPD)により定義される。
図4は、単語のシーケンスをデコードする、図3内に示されるDBNの使用例を示す。図3の音声認識と異なり、信号の1種の音響特徴が異なる長さの2つのフレームに対して使用される。ネットワークは、フレーズ「Cat is black」、発音表記
Figure 2016517047
のデコードの処理を与える。音素状態は、2種類の観測O1及びO2に依存する。時刻tでの前の状態306は、時刻t−1での状態307の正確なコピーである。分析は、単語303内の現在位置、別の単語304への音素遷移の発生、音素の状態306及び前の状態307に応じて、単語301の次の音素に適用される。音素遷移は、遷移確率の値が0.5以上の場合に発生する。図3からベイジアンネットワークの別個のノードのシンボルは、これらの状態の値に置き換えられている。302及び304に対し、それらの値は、それぞれ、次の単語又は次の音素の間の遷移の発生又は発生なしを意味するT(True)/F(False)である。単語303内の音素の位置に対して、それは、現在解析された音素(単語「cat」に対して1−3、単語「is」に対して1−2、単語「black」に対して1−4)のインデックスである。音素インデックスの変化は、時刻t−1の前の瞬間において、音素304の遷移が値「T」を得たときにのみ発生する。更に、単語301は、特定の単語内の最後のインデックスから音素遷移304の瞬間で得られる単語遷移302の発生の場所でのみ変化する。次の単語間の関係は、そのような場合において、言語モデルを使用する結果として、決定論的から蓋然論的へ変化する。バイグラム言語モデル(単語のカップルを利用するモデル)の典型的な値は、図面の上の表に示される。更に、言語モデルにおける初期単語確率の典型的な値が提示されている。様々な持続時間及び幾つかの種類の特徴を用いてセグメントを同時に処理することにより実現される技術的効果は、音声認識の質を増大することである。なぜなら、様々な方法で話される音素の1つのタイプは、時間セグメントの1つのタイプで良く認識され、他は異なるタイプのセグメントを必要とするが、各種の音素に対して適当な分析時間ウィンドウを判断することは複雑であるからである。更に、幾つかの特徴は、よりローカルな時間セグメントでの情報の精密な抽出を可能にする定常的な特性を与えるとともに、他はよりグローバルな時間セグメントを必要とする。図3に示すような構造を使用することで、一度に両方の種類の特徴が抽出され得る。従来のシステムでは、ローカルな特徴によってのみ又はグローバルな特徴によってのみ運ばれる情報の断片が使用される。更に、例えば、視覚特徴は音響特徴と異なる持続時間を有する、すなわち、例えば音を話すために向かい合う唇の観測は特定の音よりも長く又は短く続き得る。
上記の音声認識方法は、1又は複数のコンピュータプログラムにより実行され得る及び/又は制御され得ることは、当業者により容易に認識できる。そのようなコンピュータプログラムは、通常、パーソナルコンピュータ、携帯用情報端末、携帯電話、デジタルテレビの受信機及びデコーダ、インフォメーションキオスク等のような演算デバイスにおける演算リソースを利用することに実行される。アプリケーションは、不揮発性メモリ、例えばフラッシュメモリ又は揮発性メモリ、例えばRAMに格納され、プロセッサにより実行される。これらのメモリは、本明細書に提示される技術的思想に従ってコンピュータ実装方法のステップのすべてを実行するコンピュータ実行可能命令を備えるコンピュータプログラムを格納する典型的な記録媒体である。
本明細書に提示された発明が示され、記述され、特定の好ましい実施形態を参照して定義されているが、前述の明細書におけるそのような参照及び実施例はいかなる本発明の限定を意味するものではない。しかし、様々な修正及び変更が技術的思想のより広い範囲から逸脱することなくなされ得ることは明らかである。提示された好ましい実施形態は単なる典型であり、本明細書に提示された技術的思想の範囲を網羅するものではない。
従って、保護の範囲は、本明細書に記載された好ましい実施形態に限定されるものではなく、続く特許請求の範囲によってのみ限定される。
従って、保護の範囲は、本明細書に記載された好ましい実施形態に限定されるものではなく、続く特許請求の範囲によってのみ限定される。
本明細書によれば、以下の各項目に記載の構成もまた開示される。
[項目1]
音声認識のコンピュータ実装方法であって、
入力デバイス(102A)により、音声を表す電気信号を登録し、前記電気信号を周波数または時間周波数領域(202)に変換する段階(201)と、
ダイナミックベイジアンネットワーク(205)に基づいて解析モジュール内の前記電気信号を分析する段階であり、それにより、複数の単語(W)の複数の仮説および観測された複数の信号特徴(OA,OV)に基づくそれらの確率を生成する、段階と、
特定の複数の単語(W)仮説およびそれらの確率に基づいて、音声を表す前記電気信号に対応するテキストを認識する段階(209)と、
前記解析モジュール(205)に、各ラインに対して別個の複数の時間セグメントに対する少なくとも2つの並列信号処理ライン(204a、204b、204c、204d、201a)における周波数または時間周波数領域(202)内の前記電気信号に対して決定される観測された複数の信号特徴(308−312)を入力する段階と、
前記解析モジュール(205)において、少なくとも2つの別個の時間セグメントに対して観測された前記複数の信号特徴(308−312)の間の複数の関係を分析する段階と、
を備える、コンピュータ実装方法。
[項目2]
前記複数の時間セグメントは、所定の継続時間を有する、項目1に記載のコンピュータ実装方法。
[項目3]
前記複数の時間セグメントは、複数の音素、複数の音節、複数の単語のような複数の音声セグメントのコンテンツに依存する、項目1または2に記載のコンピュータ実装方法。
[項目4]
前記解析モジュール(205)において、モデルを記述する複数の変数の間の複数の決定論的及び蓋然論的関係を定義する段階をさらに備え、複数の前記蓋然論的関係は、少なくとも観測された前記複数の信号特徴を現在の状態(Sti)にリンクするために定義される、項目1から3のいずれか一項に記載のコンピュータ実装方法。
[項目5]
前記複数の関係を分析する段階は、異なる観測された複数の信号特徴(OA、OV)を同時に分析する段階(205)を含む、項目1から4のいずれか一項に記載のコンピュータ実装方法。
[項目6]
音声認識のコンピュータ実装システムであって、
音声を表す電気信号を登録する入力デバイス(102A)と、
音声を表す登録された前記電気信号を周波数または時間周波数領域に変換するモジュール(202)と、
音声を表す前記電気信号を分析し、複数の単語(W)の複数の仮説および観測された複数の信号特徴(OA,OV)に基づくそれらの確率を生成するダイナミックベイジアンネットワークに基づく解析モジュール(205)と、
複数の単語(W)の定義された前記複数の仮説及びそれらの確率に基づいて、音声を表す前記電気信号に対応するテキストを認識するモジュール(209)と、
各ラインに対して別個の複数の時間セグメントに対する少なくとも2つの並列信号処理ラインにおいて、少なくとも2つの観測された信号特徴(308−312)を、前記解析モジュール(205)に対して決定する少なくとも2つの信号パラメータ化モジュール(204a、204b、204c、204d、201a)と、
を備え、前記解析モジュール(205)は、少なくとも2つの別個の時間セグメントに対して観測された前記複数の信号特徴(308−312)の間の複数の依存性を分析する、コンピュータ実装システム。
[項目7]
コンピュータ上で実行されると、項目1から5のいずれか一項に記載のコンピュータ実装方法のすべての段階を実行するプログラムコード化手段を備えるコンピュータプログラム。
[項目8]
コンピュータ上で実行されると、項目1から5のいずれか一項に記載のコンピュータ実装方法のすべての段階を実行する複数のコンピュータ実行可能命令を格納するコンピュータ可読媒体。音声認識システム及びダイナミックベイジアンネットワークモデルの使用方法。

Claims (8)

  1. 音声認識のコンピュータ実装方法であって、
    入力デバイス(102A)により、音声を表す電気信号を登録し、前記電気信号を周波数または時間周波数領域(202)に変換する段階(201)と、
    ダイナミックベイジアンネットワーク(205)に基づいて解析モジュール内の前記電気信号を分析する段階であり、それにより、複数の単語(W)の複数の仮説および観測された複数の信号特徴(OA,OV)に基づくそれらの確率を生成する、段階と、
    特定の複数の単語(W)仮説およびそれらの確率に基づいて、音声を表す前記電気信号に対応するテキストを認識する段階(209)と、
    前記解析モジュール(205)に、各ラインに対して別個の複数の時間セグメントに対する少なくとも2つの並列信号処理ライン(204a、204b、204c、204d、201a)における周波数または時間周波数領域(202)内の前記電気信号に対して決定される観測された複数の信号特徴(308−312)を入力する段階と、
    前記解析モジュール(205)において、少なくとも2つの別個の時間セグメントに対して観測された前記複数の信号特徴(308−312)の間の複数の関係を分析する段階と、
    を備える、コンピュータ実装方法。
  2. 前記複数の時間セグメントは、所定の継続時間を有する、請求項1に記載のコンピュータ実装方法。
  3. 前記複数の時間セグメントは、複数の音素、複数の音節、複数の単語のような複数の音声セグメントのコンテンツに依存する、請求項1または2に記載のコンピュータ実装方法。
  4. 前記解析モジュール(205)において、モデルを記述する複数の変数の間の複数の決定論的及び蓋然論的関係を定義する段階をさらに備え、複数の前記蓋然論的関係は、少なくとも観測された前記複数の信号特徴を現在の状態(Sti)にリンクするために定義される、請求項1から3のいずれか一項に記載のコンピュータ実装方法。
  5. 前記複数の関係を分析する段階は、異なる観測された複数の信号特徴(OA、OV)を同時に分析する段階(205)を含む、請求項1から4のいずれか一項に記載のコンピュータ実装方法。
  6. 音声認識のコンピュータ実装システムであって、
    音声を表す電気信号を登録する入力デバイス(102A)と、
    音声を表す登録された前記電気信号を周波数または時間周波数領域に変換するモジュール(202)と、
    音声を表す前記電気信号を分析し、複数の単語(W)の複数の仮説および観測された複数の信号特徴(OA,OV)に基づくそれらの確率を生成するダイナミックベイジアンネットワークに基づく解析モジュール(205)と、
    複数の単語(W)の定義された前記複数の仮説及びそれらの確率に基づいて、音声を表す前記電気信号に対応するテキストを認識するモジュール(209)と、
    各ラインに対して別個の複数の時間セグメントに対する少なくとも2つの並列信号処理ラインにおいて、少なくとも2つの観測された信号特徴(308−312)を、前記解析モジュール(205)に対して決定する少なくとも2つの信号パラメータ化モジュール(204a、204b、204c、204d、201a)と、
    を備え、前記解析モジュール(205)は、少なくとも2つの別個の時間セグメントに対して観測された前記複数の信号特徴(308−312)の間の複数の依存性を分析する、コンピュータ実装システム。
  7. コンピュータ上で実行されると、請求項1から5のいずれか一項に記載のコンピュータ実装方法のすべての段階を実行するプログラムコード化手段を備えるコンピュータプログラム。
  8. コンピュータ上で実行されると、請求項1から5のいずれか一項に記載のコンピュータ実装方法のすべての段階を実行する複数のコンピュータ実行可能命令を格納するコンピュータ可読媒体。音声認識システム及びダイナミックベイジアンネットワークモデルの使用方法。
JP2016510953A 2013-05-01 2013-06-26 音声認識システム及びダイナミックベイジアンネットワークモデルの使用方法 Pending JP2016517047A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PL403724A PL403724A1 (pl) 2013-05-01 2013-05-01 System rozpoznawania mowy i sposób wykorzystania dynamicznych modeli i sieci Bayesa
PLP.403724 2013-05-01
PCT/EP2013/063330 WO2014177232A1 (en) 2013-05-01 2013-06-26 A speech recognition system and a method of using dynamic bayesian network models

Publications (1)

Publication Number Publication Date
JP2016517047A true JP2016517047A (ja) 2016-06-09

Family

ID=48699782

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016510953A Pending JP2016517047A (ja) 2013-05-01 2013-06-26 音声認識システム及びダイナミックベイジアンネットワークモデルの使用方法

Country Status (9)

Country Link
US (1) US9552811B2 (ja)
EP (1) EP2959475B1 (ja)
JP (1) JP2016517047A (ja)
CN (1) CN104541324B (ja)
AU (1) AU2013388411A1 (ja)
CA (1) CA2875727A1 (ja)
IN (1) IN2014DN10400A (ja)
PL (2) PL403724A1 (ja)
WO (1) WO2014177232A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016028495A1 (en) 2014-08-22 2016-02-25 Sri International Systems for speech-based assessment of a patient's state-of-mind
US10706873B2 (en) * 2015-09-18 2020-07-07 Sri International Real-time speaker state analytics platform
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
CN105654944B (zh) * 2015-12-30 2019-11-01 中国科学院自动化研究所 一种融合了短时与长时特征建模的环境声识别方法及装置
US9972313B2 (en) * 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
CN106297828B (zh) * 2016-08-12 2020-03-24 苏州驰声信息科技有限公司 一种基于深度学习的误发音检测的检测方法和装置
US10083689B2 (en) * 2016-12-23 2018-09-25 Intel Corporation Linear scoring for low power wake on voice
CN109313892B (zh) * 2017-05-17 2023-02-21 北京嘀嘀无限科技发展有限公司 稳健的语言识别方法和系统
US10902738B2 (en) * 2017-08-03 2021-01-26 Microsoft Technology Licensing, Llc Neural models for key phrase detection and question generation
CN107729381B (zh) * 2017-09-15 2020-05-08 广州嘉影软件有限公司 基于多维特征识别的交互多媒体资源聚合方法及系统
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
CN110838306B (zh) * 2019-11-12 2022-05-13 广州视源电子科技股份有限公司 语音信号检测方法、计算机存储介质及相关设备
US20220036087A1 (en) * 2020-07-29 2022-02-03 Optima Sports Systems S.L. Computing system and a computer-implemented method for sensing events from geospatial data
CN114612810B (zh) * 2020-11-23 2023-04-07 山东大卫国际建筑设计有限公司 一种动态自适应异常姿态识别方法及装置
CN115718536B (zh) * 2023-01-09 2023-04-18 苏州浪潮智能科技有限公司 一种调频方法、装置、电子设备及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6542866B1 (en) * 1999-09-22 2003-04-01 Microsoft Corporation Speech recognition method and apparatus utilizing multiple feature streams
US20040186718A1 (en) * 2003-03-19 2004-09-23 Nefian Ara Victor Coupled hidden markov model (CHMM) for continuous audiovisual speech recognition
JP2005070377A (ja) * 2003-08-25 2005-03-17 Casio Comput Co Ltd 音声認識装置、音声認識方法及び音声認識処理プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6256046B1 (en) 1997-04-18 2001-07-03 Compaq Computer Corporation Method and apparatus for visual sensing of humans for active public interfaces
US6292776B1 (en) * 1999-03-12 2001-09-18 Lucent Technologies Inc. Hierarchial subband linear predictive cepstral features for HMM-based speech recognition
US7346510B2 (en) * 2002-03-19 2008-03-18 Microsoft Corporation Method of speech recognition using variables representing dynamic aspects of speech
US20030212552A1 (en) * 2002-05-09 2003-11-13 Liang Lu Hong Face recognition procedure useful for audiovisual speech recognition
WO2004027685A2 (en) * 2002-09-19 2004-04-01 The Penn State Research Foundation Prosody based audio/visual co-analysis for co-verbal gesture recognition
US7203368B2 (en) 2003-01-06 2007-04-10 Intel Corporation Embedded bayesian network for pattern recognition
US7454336B2 (en) * 2003-06-20 2008-11-18 Microsoft Corporation Variational inference and learning for segmental switching state space models of hidden speech dynamics
US20050228673A1 (en) * 2004-03-30 2005-10-13 Nefian Ara V Techniques for separating and evaluating audio and video source data
JP4843987B2 (ja) * 2005-04-05 2011-12-21 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
EP2049983A2 (en) * 2006-08-07 2009-04-22 Yeda Research And Development Co. Ltd. Data similarity and importance using local and global evidence scores
US9589380B2 (en) 2007-02-27 2017-03-07 International Business Machines Corporation Avatar-based unsolicited advertisements in a virtual universe
US8972253B2 (en) * 2010-09-15 2015-03-03 Microsoft Technology Licensing, Llc Deep belief network for large vocabulary continuous speech recognition
US9183843B2 (en) * 2011-01-07 2015-11-10 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6542866B1 (en) * 1999-09-22 2003-04-01 Microsoft Corporation Speech recognition method and apparatus utilizing multiple feature streams
US20040186718A1 (en) * 2003-03-19 2004-09-23 Nefian Ara Victor Coupled hidden markov model (CHMM) for continuous audiovisual speech recognition
JP2005070377A (ja) * 2003-08-25 2005-03-17 Casio Comput Co Ltd 音声認識装置、音声認識方法及び音声認識処理プログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JHON N. GOWDY ET AL.: "DBN Based Multi-Stream Models for Audio-Visual Speech Recognition", PROC. OF IEEE ICASSP'04, JPN6017016242, 17 May 2004 (2004-05-17), pages pp.I-993‐I-996 *
TIMOTHY J. HAZSEN: "Visual Model Structures and Synchrony Constraints for Audio-Visual Speech Recognition", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 14, no. 3, JPN6017016240, 18 April 2006 (2006-04-18), pages 1082 - 1089, XP055112509, DOI: doi:10.1109/TSA.2005.857572 *
TODD A. STEPHENSON ET AL.: "Automatic Speech Recognition Using Dynamic Bayesian Networks with Both Acoustic and Articulatory Va", PROC. OF ICSLP2000, vol. Vol.2, JPN7017001521, 16 October 2000 (2000-10-16), pages 951 - 954 *
篠田浩一 他: "統計的手法を用いた音声モデリングの高度化とその音声認識への応用", 情報処理, vol. 45, no. 10, JPN6017016238, 15 October 2004 (2004-10-15), pages 1012 - 1019 *

Also Published As

Publication number Publication date
PL403724A1 (pl) 2014-11-10
WO2014177232A1 (en) 2014-11-06
US9552811B2 (en) 2017-01-24
CA2875727A1 (en) 2014-11-06
CN104541324A (zh) 2015-04-22
EP2959475B1 (en) 2017-02-08
IN2014DN10400A (ja) 2015-08-14
EP2959475A1 (en) 2015-12-30
PL2959475T3 (pl) 2018-04-30
CN104541324B (zh) 2019-09-13
US20160111086A1 (en) 2016-04-21
AU2013388411A1 (en) 2015-01-22

Similar Documents

Publication Publication Date Title
EP2959475B1 (en) A speech recognition system and a method of using dynamic bayesian network models
Li et al. A better and faster end-to-end model for streaming asr
US20230377312A1 (en) System and method for neural network orchestration
US20210312914A1 (en) Speech recognition using dialog history
Mariooryad et al. Compensating for speaker or lexical variabilities in speech for emotion recognition
US11132994B1 (en) Multi-domain dialog state tracking
Nasereddin et al. Classification techniques for automatic speech recognition (ASR) algorithms used with real time speech translation
JP2024502946A (ja) 音声認識トランスクリプトの句読点付け及び大文字化
CN112397053B (zh) 语音识别方法、装置、电子设备及可读存储介质
Vegesna et al. Dnn-hmm acoustic modeling for large vocabulary telugu speech recognition
Zhang et al. Cacnet: Cube attentional cnn for automatic speech recognition
Benetos et al. Approaches to complex sound scene analysis
Ohta et al. Response type selection for chat-like spoken dialog systems based on LSTM and multi-task learning
CN115273862A (zh) 语音处理的方法、装置、电子设备和介质
Wang et al. Hierarchical deep belief networks based point process model for keywords spotting in continuous speech
Errattahi et al. Recent advances in LVCSR: a benchmark comparison of performances
Anidjar et al. A thousand words are worth more than one recording: Nlp based speaker change point detection
Yoshida et al. Audio-visual voice activity detection based on an utterance state transition model
Westermann et al. Plug-and-play Text-based Emotion Recognition for Chatbots as Virtual Companions for Older People
US20240257804A1 (en) Language model customization techniques and applications thereof
Desai et al. Attention-based Region of Interest (ROI) Detection for Speech Emotion Recognition
Godewithana et al. Intelligent Hybrid Chatbot Solution for Archaeological Sites Tracking
Kulkarni et al. Project Vāc: Can a Text-to-Speech Engine Generate Human Sentiments?
Mamyrbayev et al. Neurorecognition visualization in multitask end-to-end speech
Seman et al. Bimodality streams integration for audio-visual speech recognition systems

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160408

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160408

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170509

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180123