JP2021005122A - 同一事象に対して時系列に発生した異なるメディアデータを統合した学習モデルを構築するプログラム、装置及び方法 - Google Patents
同一事象に対して時系列に発生した異なるメディアデータを統合した学習モデルを構築するプログラム、装置及び方法 Download PDFInfo
- Publication number
- JP2021005122A JP2021005122A JP2019116972A JP2019116972A JP2021005122A JP 2021005122 A JP2021005122 A JP 2021005122A JP 2019116972 A JP2019116972 A JP 2019116972A JP 2019116972 A JP2019116972 A JP 2019116972A JP 2021005122 A JP2021005122 A JP 2021005122A
- Authority
- JP
- Japan
- Prior art keywords
- time series
- neural network
- recurrent neural
- feature amount
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
第1〜第3の特徴量抽出部111〜113は、各メディアデータの生データから、個別モーダルの特徴を抽出するものである。例えば従来技術によれば、各メディアデータは、言語データのセンテンス単位に区切られたものもある。
第1〜第2の再帰型ニューラルネットワーク131及び132は、時系列パターンを認識するニューラルネットワークである。これは、内部に状態を持ち、各時点における入力値及び状態に基づいて、次の状態に遷移させることができる。
統合特徴学習部15は、第1の再帰型ニューラルネットワーク131の第1の特徴量と、第2の再帰型ニューラルネットワーク132の第2の特徴量と、第3の特徴量抽出部の言語特徴量とを入力し、統合的に特徴量を学習する。
また、非特許文献1に記載の技術によれば、言語アライメントの基準で特徴が区切られるため、感情に有意な特徴が活用されず、感情の認識精度を高めることができない。
第1のメディアデータから、時系列の第1の特徴量を抽出する第1の特徴量抽出手段と、
第2のメディアデータから、時系列の第2の特徴量を抽出する第2の特徴量抽出手段と、
時系列の第1の特徴量を入力する第1の再帰型ニューラルネットワークと、
時系列の第2の特徴量を入力する第2の再帰型ニューラルネットワークと、
第1の再帰型ニューラルネットワークにおける各時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークにおける全ての時系列段の隠れ層ベクトルに対する重み係数を算出する重み係数算出手段と
して機能させ、
第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段に基づく重み係数を重み付ける
ようにコンピュータを機能させることを特徴とする。
第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段の重み係数の総和に基づく重み係数を重み付ける
ようにコンピュータを機能させることも好ましい。
第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段の中で最も高い重み係数を重み付ける
ようにコンピュータを機能させることも好ましい。
時系列の第1の特徴量を、単位時間当たりの第1の時系列長に合わせて、第1の再帰型ニューラルネットワークへ出力する第1の時系列長調整手段と、
時系列の第2の特徴量を、単位時間当たりの第2の時系列長に合わせて、第2の再帰型ニューラルネットワークへ出力する第2の時系列長調整手段と
してコンピュータを機能させることも好ましい。
第1の時系列長調整手段は、第1の特徴抽出手段から出力された第1の特徴量の時系列が、単位時間当たりの第1の時系列長よりも短い場合、当該第1の特徴量を連続的に複製して第1の時系列長に合わせ、単位時間当たりの第1の時系列長よりも長い場合、当該第1の特徴量を間引いて第1の時系列長に合わせ、
第2の時系列長調整手段は、第2の特徴抽出手段から出力された第2の特徴量の時系列が、単位時間当たりの第2の時系列長よりも短い場合、当該第2の特徴量を連続的に複製して第2の時系列長に合わせ、単位時間当たりの第2の時系列長よりも長い場合、当該第2の特徴量を間引いて第2の時系列長に合わせる
ようにコンピュータを機能させることも好ましい。
重み係数算出手段は、第1の特徴量毎に、当該第1の特徴量と全ての第2の特徴量それぞれとの内積を用いて、Softmax関数による相関関係を表す確率を重み係数として算出するATTENTION機構である
ようにコンピュータを機能させることも好ましい。
再帰型ニューラルネットワーク(RNN(Recurrent Neural Network))は、LSTM(Long Short Term Memory)又はGRU(Gated Recurrent Unit)である
ようにコンピュータを機能させることも好ましい。
第1のメディアデータは、映像であり、
第2のメディアデータは、音声である
ようにコンピュータを機能させることも好ましい。
第3のメディアデータは、言語であり、
第3のメディアデータから、時系列の第3の特徴量を抽出する第3の特徴量抽出手段と、
時系列の第3の特徴量を入力する第3の再帰型ニューラルネットワークと、
第1の再帰型ニューラルネットワークの最終時系列段から出力された第1の特徴量と、第3の再帰型ニューラルネットワークの最終時系列段から出力された第3の特徴量とを入力し、統合特徴モデルを構築する統合特徴学習手段と
してコンピュータを機能させることも好ましい。
統合特徴学習手段は、第3のメディアデータに基づく感情言語と、第1のメディアデータ及び第2のメディアデータに基づく映像及び音声とを統合し、感情認識に基づく学習モデルを生成する
ようにコンピュータを機能させることも好ましい。
時系列の第3の特徴量を、単位時間当たりの第3の時系列長に合わせて、第3の再帰型ニューラルネットワークへ出力する第3の時系列長調整手段と
してコンピュータを機能させることも好ましい。
第1のメディアデータから、時系列の第1の特徴量を抽出する第1の特徴量抽出手段と、
第2のメディアデータから、時系列の第2の特徴量を抽出する第2の特徴量抽出手段と、
時系列の第1の特徴量を入力する第1の再帰型ニューラルネットワークと、
時系列の第2の特徴量を入力する第2の再帰型ニューラルネットワークと、
第1の再帰型ニューラルネットワークにおける各時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークにおける全ての時系列段の隠れ層ベクトルに対する重み係数を算出する重み係数算出手段と
を有し、
第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段に基づく重み係数を重み付ける
ことを特徴とする。
装置は、
第1のメディアデータから、時系列の第1の特徴量を抽出すると共に、第2のメディアデータから、時系列の第2の特徴量を抽出する第1のステップと、
時系列の第1の特徴量を第1の再帰型ニューラルネットワークへ入力すると共に、時系列の第2の特徴量を第2の再帰型ニューラルネットワークへ入力する第2のステップと、
第1の再帰型ニューラルネットワークにおける各時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークにおける全ての時系列段の隠れ層ベクトルに対する重み係数を算出する第3のステップと、
第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段に基づく重み係数を重み付ける第4のステップと
を有することを特徴とする。
第1の特徴量抽出部111は、映像データ(第1のメディアデータ)から、時系列の映像特徴量(第1の特徴量)を抽出する。映像特徴量としては、例えば68個の顔特徴点や、AU特徴、目線、表情などの特徴量がある。例えばAU特徴とは、顔の唇、目、眉の3領域の動きに対し 複数種類の動きからなるActionUnitを定義したものである。これは、FACS(Facial Action Coding System)という表情記述法で用いられる表情動作の最小単位であり、これらAUの組み合わせによって構成される。
第2の特徴量抽出部112は、音声データ(第2のメディアデータ)から、時系列の音声特徴量(第2の特徴量)を抽出する。音声特徴量としては、例えば音のピッチ特徴、スペクトログラム、メル周波数ケプストラムなどがある。
第3の特徴量抽出部113は、言語データ(第3のメディアデータ)から、時系列の言語特徴量(第3の特徴量)を抽出する。言語特徴量としては、例えばword2vecなどのツールでの単語レベル分散表現を用いて抽出されたものであって、最小単位がセンテンスとなる。
第1の時系列長調整部121は、第1の特徴抽出部111から出力された時系列の第1の特徴量を、単位時間当たりの第1の時系列長に合わせて、第1の再帰型ニューラルネットワーク131へ出力する。
第2の時系列長調整部122は、第2の特徴抽出部112から出力された時系列の第2の特徴量を、単位時間当たりの第2の時系列長に合わせて、第2の再帰型ニューラルネットワーク132へ出力する。
第3の時系列長調整部123は、第3の特徴抽出部113から出力された時系列の第3の特徴量を、単位時間当たりの第3の時系列長に合わせて、統合特徴学習部15へ出力する。
ここで、第1〜第3の時系列長は、第1〜第3のメディアデータそれぞれ、予め設定された最適粒度のものである。
(1)第nの特徴量の時系列が、単位時間当たりの第nの時系列長よりも短い場合、当該第nの特徴量を連続的に複製して(コピーして)第1の時系列長に合わせる
(2)第nの特徴量の時系列が、単位時間当たりの第nの時系列長よりも長い場合、当該第nの特徴量を間引いて(削除して)第nの時系列長に合わせる。
第1〜第3の時系列長調整部121〜123は、メディアデータ毎に、特徴の時系列長を一定に調整することによって、1つの学習データセットにまとめることができるようにしたものである。
第1の再帰型ニューラルネットワーク131は、第1の時系列長調整部121から出力された映像特徴量(第1の特徴量)における時系列パターンを認識するニューラルネットワークである。
第2の再帰型ニューラルネットワーク132は、第2の時系列長調整部122から出力された音声特徴量(第2の特徴量)における時系列パターンを認識するニューラルネットワークである。
重み係数算出部14は、第1の再帰型ニューラルネットワーク131における各時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワーク132における全ての時系列段の隠れ層ベクトルに対する重み係数を算出する。
m:映像データ用の第1の再帰型ニューラルネットワーク131における
各時系列段(1〜M)
vm:映像データ用の第1の再帰型ニューラルネットワーク131における
時系列段mの隠れ層ベクトル
n:音声データ用の第2の再帰型ニューラルネットワーク132における
各時系列段(1〜N)
an:音声データ用の第2の再帰型ニューラルネットワーク132における
時系列段nの隠れ層ベクトル
wmn:第1の再帰型ニューラルネットワーク131の時系列mと、
第2の再帰型ニューラルネットワーク132の時系列nとの重み係数
wmn=softmax(an)
(重み付け1)第1の再帰型ニューラルネットワーク131は、各時系列段mについて、当該時系列段mの隠れ層ベクトルvmに、第2の再帰型ニューラルネットワーク132の全ての時系列段1〜Nの「重み係数の総和に基づく重み係数」を重み付ける。
vmの重み係数(アテンション特徴量)=Σn=1 N(aiwmn)
vmaxの重み係数(アテンション特徴量)=MAX(aiwmn) i=1〜N
統合特徴学習部15は、第1の再帰型ニューラルネットワーク131の最終時系列段から出力された第1の特徴量と、第3の再帰型ニューラルネットワーク133の最終時系列段から出力された第3の特徴量とを入力し、統合特徴モデルを構築する。
ここで、第3の特徴量は、言語データに基づく感情言語である。この第3の特徴量に、音声データの第2の特徴量を重み付けた映像データの第1の特徴量を統合している。
これによって、人の感情を学習する場合、統合特徴学習部15に同時に入力される、第1の再帰型ニューラルネットワーク131から出力された第1の特徴量と、第3の時系列長調整部123から出力された第3の特徴量とは、人の感情に対して同一の有意な感情特徴から得られたものであると推定される。
これによって、有意な感情認識に基づく特徴量を学習した感情認識モデルを構築することができる。このような感情認識モデルを用いることによって、的確に人の感情を認識することができる。
111 第1の特徴量抽出部
112 第2の特徴量抽出部
113 第3の特徴量抽出部
121 第1の時系列長調整部
122 第2の時系列長調整部
123 第3の時系列長調整部
131 第1の再帰型ニューラルネットワーク
132 第2の再帰型ニューラルネットワーク
14 重み係数算出部
15 統合特徴学習部
Claims (13)
- 同一事象に対して、時系列に発生した第1のメディアデータ及び第2のメディアデータを統合した学習モデルを構築するようにコンピュータを機能させるプログラムであって、
第1のメディアデータから、時系列の第1の特徴量を抽出する第1の特徴量抽出手段と、
第2のメディアデータから、時系列の第2の特徴量を抽出する第2の特徴量抽出手段と、
時系列の第1の特徴量を入力する第1の再帰型ニューラルネットワークと、
時系列の第2の特徴量を入力する第2の再帰型ニューラルネットワークと、
第1の再帰型ニューラルネットワークにおける各時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークにおける全ての時系列段の隠れ層ベクトルに対する重み係数を算出する重み係数算出手段と
して機能させ、
第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段に基づく重み係数を重み付ける
ようにコンピュータを機能させることを特徴とするプログラム。 - 第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段の重み係数の総和に基づく重み係数を重み付ける
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。 - 第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段の中で最も高い重み係数を重み付ける
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。 - 時系列の第1の特徴量を、単位時間当たりの第1の時系列長に合わせて、第1の再帰型ニューラルネットワークへ出力する第1の時系列長調整手段と、
時系列の第2の特徴量を、単位時間当たりの第2の時系列長に合わせて、第2の再帰型ニューラルネットワークへ出力する第2の時系列長調整手段と
してコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。 - 第1の時系列長調整手段は、第1の特徴抽出手段から出力された第1の特徴量の時系列が、単位時間当たりの第1の時系列長よりも短い場合、当該第1の特徴量を連続的に複製して第1の時系列長に合わせ、単位時間当たりの第1の時系列長よりも長い場合、当該第1の特徴量を間引いて第1の時系列長に合わせ、
第2の時系列長調整手段は、第2の特徴抽出手段から出力された第2の特徴量の時系列が、単位時間当たりの第2の時系列長よりも短い場合、当該第2の特徴量を連続的に複製して第2の時系列長に合わせ、単位時間当たりの第2の時系列長よりも長い場合、当該第2の特徴量を間引いて第2の時系列長に合わせる
ようにコンピュータを機能させることを特徴とする請求項4に記載のプログラム。 - 前記重み係数算出手段は、第1の特徴量毎に、当該第1の特徴量と全ての第2の特徴量それぞれとの内積を用いて、Softmax関数による相関関係を表す確率を重み係数として算出するATTENTION機構である
ようにコンピュータを機能させることを特徴とする請求項1から5のいずれか1項に記載のプログラム。 - 再帰型ニューラルネットワーク(RNN(Recurrent Neural Network))は、LSTM(Long Short Term Memory)又はGRU(Gated Recurrent Unit)である
ようにコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載のプログラム。 - 第1のメディアデータは、映像であり、
第2のメディアデータは、音声である
ようにコンピュータを機能させることを特徴とする請求項1から7のいずれか1項に記載のプログラム。 - 第3のメディアデータは、言語であり、
第3のメディアデータから、時系列の第3の特徴量を抽出する第3の特徴量抽出手段と、
時系列の第3の特徴量を入力する第3の再帰型ニューラルネットワークと、
第1の再帰型ニューラルネットワークの最終時系列段から出力された第1の特徴量と、第3の再帰型ニューラルネットワークの最終時系列段から出力された第3の特徴量とを入力し、統合特徴モデルを構築する統合特徴学習手段と
してコンピュータを機能させることを特徴とする請求項8に記載のプログラム。 - 前記統合特徴学習手段は、第3のメディアデータに基づく感情言語と、第1のメディアデータ及び第2のメディアデータに基づく映像及び音声とを統合し、感情認識に基づく学習モデルを生成する
ようにコンピュータを機能させることを特徴とする請求項9に記載のプログラム。 - 時系列の第3の特徴量を、単位時間当たりの第3の時系列長に合わせて、第3の再帰型ニューラルネットワークへ出力する第3の時系列長調整手段と
してコンピュータを機能させることを特徴とする請求項9又は10に記載のプログラム。 - 同一事象に対して、時系列に発生した第1のメディアデータ及び第2のメディアデータを統合した学習モデルを構築する装置であって、
第1のメディアデータから、時系列の第1の特徴量を抽出する第1の特徴量抽出手段と、
第2のメディアデータから、時系列の第2の特徴量を抽出する第2の特徴量抽出手段と、
時系列の第1の特徴量を入力する第1の再帰型ニューラルネットワークと、
時系列の第2の特徴量を入力する第2の再帰型ニューラルネットワークと、
第1の再帰型ニューラルネットワークにおける各時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークにおける全ての時系列段の隠れ層ベクトルに対する重み係数を算出する重み係数算出手段と
を有し、
第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段に基づく重み係数を重み付ける
ことを特徴とする装置。 - 同一事象に対して、時系列に発生した第1のメディアデータ及び第2のメディアデータを入力する装置の学習モデル生成方法であって、
前記装置は、
第1のメディアデータから、時系列の第1の特徴量を抽出すると共に、第2のメディアデータから、時系列の第2の特徴量を抽出する第1のステップと、
時系列の第1の特徴量を第1の再帰型ニューラルネットワークへ入力すると共に、時系列の第2の特徴量を第2の再帰型ニューラルネットワークへ入力する第2のステップと、
第1の再帰型ニューラルネットワークにおける各時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークにおける全ての時系列段の隠れ層ベクトルに対する重み係数を算出する第3のステップと、
第1の再帰型ニューラルネットワークは、各時系列段について、当該時系列段の隠れ層ベクトルに、第2の再帰型ニューラルネットワークの全ての時系列段に基づく重み係数を重み付ける第4のステップと
を有することを特徴とする学習モデル生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019116972A JP7170594B2 (ja) | 2019-06-25 | 2019-06-25 | 同一事象に対して時系列に発生した異なるメディアデータを統合した学習モデルを構築するプログラム、装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019116972A JP7170594B2 (ja) | 2019-06-25 | 2019-06-25 | 同一事象に対して時系列に発生した異なるメディアデータを統合した学習モデルを構築するプログラム、装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021005122A true JP2021005122A (ja) | 2021-01-14 |
JP7170594B2 JP7170594B2 (ja) | 2022-11-14 |
Family
ID=74099165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019116972A Active JP7170594B2 (ja) | 2019-06-25 | 2019-06-25 | 同一事象に対して時系列に発生した異なるメディアデータを統合した学習モデルを構築するプログラム、装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7170594B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022135708A (ja) * | 2021-03-05 | 2022-09-15 | 株式会社東芝 | 音声区間検出装置、学習装置及び音声区間検出プログラム |
JP7557491B2 (ja) | 2022-03-10 | 2024-09-27 | Kddi株式会社 | 心理状態の埋め込み情報を生成するモデル、並びに該モデルを用いた評価プログラム、装置及び方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10228295A (ja) * | 1997-02-14 | 1998-08-25 | Atr Chino Eizo Tsushin Kenkyusho:Kk | 階層的感情認識装置 |
WO2018058046A1 (en) * | 2016-09-26 | 2018-03-29 | Google Llc | Neural machine translation systems |
JP2019079087A (ja) * | 2017-10-19 | 2019-05-23 | ヤフー株式会社 | 学習装置、プログラムパラメータおよび学習方法 |
-
2019
- 2019-06-25 JP JP2019116972A patent/JP7170594B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10228295A (ja) * | 1997-02-14 | 1998-08-25 | Atr Chino Eizo Tsushin Kenkyusho:Kk | 階層的感情認識装置 |
WO2018058046A1 (en) * | 2016-09-26 | 2018-03-29 | Google Llc | Neural machine translation systems |
JP2019079087A (ja) * | 2017-10-19 | 2019-05-23 | ヤフー株式会社 | 学習装置、プログラムパラメータおよび学習方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022135708A (ja) * | 2021-03-05 | 2022-09-15 | 株式会社東芝 | 音声区間検出装置、学習装置及び音声区間検出プログラム |
JP7467370B2 (ja) | 2021-03-05 | 2024-04-15 | 株式会社東芝 | 音声区間検出装置、学習装置及び音声区間検出プログラム |
JP7557491B2 (ja) | 2022-03-10 | 2024-09-27 | Kddi株式会社 | 心理状態の埋め込み情報を生成するモデル、並びに該モデルを用いた評価プログラム、装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7170594B2 (ja) | 2022-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kumar et al. | Multilayer Neural Network Based Speech Emotion Recognition for Smart Assistance. | |
JP6911208B2 (ja) | 発話スタイル転移 | |
Mannepalli et al. | A novel adaptive fractional deep belief networks for speaker emotion recognition | |
CN108711421B (zh) | 一种语音识别声学模型建立方法及装置和电子设备 | |
JP6815899B2 (ja) | 出力文生成装置、出力文生成方法および出力文生成プログラム | |
CN115329779B (zh) | 一种多人对话情感识别方法 | |
JP6787770B2 (ja) | 言語記憶方法及び言語対話システム | |
JP2019159654A (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
CN113837299B (zh) | 基于人工智能的网络训练方法及装置、电子设备 | |
Cardona et al. | Online phoneme recognition using multi-layer perceptron networks combined with recurrent non-linear autoregressive neural networks with exogenous inputs | |
Verkholyak et al. | Modeling short-term and long-term dependencies of the speech signal for paralinguistic emotion classification | |
CN118043885A (zh) | 用于半监督语音识别的对比孪生网络 | |
Gupta et al. | Speech emotion recognition using SVM with thresholding fusion | |
CN111862952A (zh) | 一种去混响模型训练方法及装置 | |
Peerzade et al. | A review: Speech emotion recognition | |
JP7170594B2 (ja) | 同一事象に対して時系列に発生した異なるメディアデータを統合した学習モデルを構築するプログラム、装置及び方法 | |
Kherdekar et al. | Convolution neural network model for recognition of speech for words used in mathematical expression | |
Gudmalwar et al. | Improving the performance of the speaker emotion recognition based on low dimension prosody features vector | |
Shareef et al. | A review: isolated Arabic words recognition using artificial intelligent techniques | |
Hamidi et al. | Emotion recognition from Persian speech with neural network | |
Andayani et al. | Recognition of emotion in speech-related audio files with lstm-transformer | |
Khan et al. | Speech emotion recognition using feature fusion: a hybrid approach to deep learning | |
Aishwarya et al. | Kannada speech recognition system for Aphasic people | |
Lakra et al. | Application of fuzzy mathematics to speech-to-text conversion by elimination of paralinguistic content | |
Dudhrejia et al. | Speech recognition using neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210601 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220520 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220705 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221021 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221101 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7170594 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |