JP2022158735A - 学習装置、学習方法、学習プログラム、探索装置、探索方法及び探索プログラム - Google Patents
学習装置、学習方法、学習プログラム、探索装置、探索方法及び探索プログラム Download PDFInfo
- Publication number
- JP2022158735A JP2022158735A JP2021066027A JP2021066027A JP2022158735A JP 2022158735 A JP2022158735 A JP 2022158735A JP 2021066027 A JP2021066027 A JP 2021066027A JP 2021066027 A JP2021066027 A JP 2021066027A JP 2022158735 A JP2022158735 A JP 2022158735A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- image
- feature amount
- audio
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 40
- 238000004364 calculation method Methods 0.000 claims abstract description 68
- 238000013507 mapping Methods 0.000 claims abstract description 35
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 16
- 230000000007 visual effect Effects 0.000 abstract description 6
- 239000013598 vector Substances 0.000 description 38
- 238000010586 diagram Methods 0.000 description 28
- 238000012545 processing Methods 0.000 description 27
- 238000013519 translation Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 239000011435 rock Substances 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
Description
第1の実施形態に係る学習装置は、入力された学習用データを用いて、画像エンコーダ及び音声エンコーダを訓練する。そして、学習装置は、訓練済みの各エンコーダを出力する。例えば、学習装置は、各エンコーダのパラメータを出力する。なお、学習装置は、複数の言語のそれぞれに対応した音声エンコーダを訓練してもよい。また、学習用データは、画像及当該画像と対応付けられた音声を含むデータである。
図1は、第1の実施形態に係る学習装置の構成例を示す図である。図1に示すように、学習装置10は、画像特徴量算出部111、音声特徴量算出部121、損失関数構成部131及び更新部132を有する。また、学習装置10は、画像エンコーダ情報112、音声エンコーダ情報122a、音声エンコーダ情報122b及び音声エンコーダ情報122cを記憶する。
参考文献1:K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in Proc. ICLR, 2015.
参考文献2:H. Zhang, I. Goodfellow, D. Metaxas, and A. Odena, “Self-attention generative adversarial networks,” in Proc. ICML, 2019.
参考文献3:D. Harwath, G. Chuang, and J. Glass, “Vision as an interlingua: Learning multilingual semantic embeddings of untranscribed speech,” in Proc. ICASSP, 2018.
参考文献4:G. Ilharco, Y. Zhang, and J. Baldridge, “Large-scale representation learning from visually grounded untranscribed speech,” in Proc. CoNLL, 2019.
図6は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。図6に示すように、まず、学習装置10には、画像と、画像に対応する1つ以上の音声キャプションが入力される(ステップS101)。
これまで説明してきたように、画像特徴量算出部111は、画像を入力とし、画像を潜在空間にマッピングした画像特徴量を出力とするモデル(画像エンコーダ)を用いて、画像特徴量を算出する。音声特徴量算出部121は、所定の言語の音声を入力とし、音声を潜在空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデル(音声エンコーダ)を用いて、音声特徴量を算出する。更新部132は、第1の画像の画像特徴量と、第1の画像に対応する音声の音声特徴量とが類似するように、画像特徴量算出部111及び音声特徴量算出部121によって用いられる各モデルのパラメータを更新する。このように、音声特徴量を出力するためのモデルは、自己注意機構により、画像を表現するために重要な単語の区間を特定することができる。その結果、本実施形態によれば、視覚的な情報と言語的な情報を精度良く対応付けることができる。
[第2の実施形態の構成]
第2の実施形態では、音声から画像を探索する探索装置について説明する。図7は、第2の実施形態に係る探索装置の構成例を示す図である。図7に示すように、探索装置20は、画像特徴量算出部211、音声特徴量算出部221、探索部232を有する。また、探索装置20は、画像エンコーダ情報212、音声エンコーダ情報222、及び画像特徴量情報231を記憶する。
図8は、第2の実施形態に係る探索装置の処理の流れを示すフローチャートである。図8に示すように、まず、探索装置20には、複数の画像と、クエリである音声キャプションが入力される(ステップS201)。
これまで説明してきたように、音声特徴量算出部221は、所定の言語の音声を入力とし、音声を潜在空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルであって、音声に対応する画像を潜在空間にマッピングした特徴量に音声特徴量が類似するように訓練されたモデルを用いて、音声特徴量を算出する。画像特徴量算出部211は、画像を入力とし、画像を潜在空間にマッピングした画像特徴量を出力とするモデルであって、画像に対応する音声を潜在空間にマッピングした特徴量に画像特徴量が類似するように訓練されたモデルを用いて、画像特徴量を算出する。探索部232は、音声特徴量及び画像特徴量を基に、類似する画像と音声の組み合わせを探索する。このように、第2の実施形態によれば、音声から画像を探索するクロスモーダル探索を行うことができる。
[第3の実施形態の構成]
第3の実施形態では、画像から音声を探索する探索装置について説明する。図9は、第3の実施形態に係る探索装置の構成例を示す図である。図9に示すように、探索装置20Aは、画像特徴量算出部211、音声特徴量算出部221、探索部232を有する。また、探索装置20Aは、画像エンコーダ情報212、音声エンコーダ情報222、及び音声特徴量情報233を記憶する。
図10は、第3の実施形態に係る探索装置の処理の流れを示すフローチャートである。図10に示すように、まず、探索装置20Aには、クエリである画像と、複数の音声キャプションが入力される(ステップS301)。
これまで説明してきたように、音声特徴量算出部221は、所定の言語の音声を入力とし、音声を潜在空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルであって、音声に対応する画像を潜在空間にマッピングした特徴量に音声特徴量が類似するように訓練されたモデルを用いて、音声特徴量を算出する。画像特徴量算出部211は、画像を入力とし、画像を潜在空間にマッピングした画像特徴量を出力とするモデルであって、画像に対応する音声を潜在空間にマッピングした特徴量に画像特徴量が類似するように訓練されたモデルを用いて、画像特徴量を算出する。探索部232は、音声特徴量及び画像特徴量を基に、類似する画像と音声の組み合わせを探索する。このように、第3の実施形態によれば、画像から音声を探索するクロスモーダル探索を行うことができる。
[第4の実施形態の構成]
第4の実施形態では、ある言語の音声から他の言語の音声を探索する探索装置について説明する。図11は、第4の実施形態に係る探索装置の構成例を示す図である。図11に示すように、探索装置20Bは、音声特徴量算出部221及び探索部232を有する。また、探索装置20Bは、音声エンコーダ情報222a及び音声エンコーダ情報222bを記憶する。例えば、音声エンコーダ情報222aからは英語に対応した音声エンコーダが構築される。また、音声エンコーダ情報222bからはヒンディ語に対応した音声エンコーダが構築される。
図12は、第4の実施形態に係る探索装置の処理の流れを示すフローチャートである。図12に示すように、まず、探索装置20Bには、クエリである第1の言語の音声キャプションと、複数の第2の言語の音声キャプションが入力される(ステップS401)。例えば、第1の言語の音声キャプションはヒンディ語の音声キャプションである。また、例えば、第2の言語の音声キャプションは英語の音声キャプションである。
これまで説明してきたように、音声特徴量算出部221は、所定の言語の音声を入力とし、音声を潜在空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルであって、音声に対応する画像を潜在空間にマッピングした特徴量に音声特徴量が類似するように訓練されたモデルを用いて、音声特徴量を算出する。このように、第4の実施形態によれば、言語が異なる音声間のクロスモーダル(クロスリンガル)探索を行うことができる。
第1の実施形態から第4の実施形態までの探索装置を用いて行った実験について説明する。実験では、第1の実施形態の学習装置により訓練したエンコーダを用いて、各実施形態の探索装置を用いて探索を行った。
音声キャプションの長さT:約30秒
潜在空間の次元数d:1024
損失関数:Triplet lossとMargin softmax loss(確率的勾配法により最小化)
損失関数のハイパーパラメータmargin:1
バッチサイズ:100
慣性項(Momentum):0.9
重み減衰(Weight Decay):5×10-7
学習率:初期値を0.001として、40epochsごとに1/10ずつ減衰するようにスケジューリング
評価尺度:Recall@N
[第5の実施形態の構成]
第5の実施形態では、探索装置は、異なる言語間の翻訳知識を獲得する。図16は、第5の実施形態に係る探索装置の構成例を示す図である。探索装置20Cの構成は、第4の実施形態の探索装置20Bの構成と同様である。ただし、探索装置20Cは、探索装置20Bと異なり、獲得部234を有する。
図17は、第5の実施形態に係る探索装置の処理の流れを示すフローチャートである。図17に示すように、まず、探索装置20Cには、第1の言語の音声キャプションと、第2の言語の音声キャプションが入力される(ステップS501)。例えば、第1の言語の音声キャプションはヒンディ語の音声キャプションである。また、例えば、第2の言語の音声キャプションは英語の音声キャプションである。
音声特徴量算出部221は、所定の言語の音声を入力とし、音声を潜在空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルであって、音声に対応する画像を潜在空間にマッピングした特徴量に音声特徴量が類似するように訓練されたモデルを用いて、同一の画像に対応する第1の言語の音声及び第2の言語の音声のそれぞれについて音声特徴量を算出する。獲得部234は、音声特徴量を基に、第1の言語の音声に含まれる単語と第2の言語の音声に含まれる単語との対応関係を示す情報を獲得する。このため、本実施形態によれば、言語間の翻訳知識を精度良く獲得することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
一実施形態として、学習装置10及び探索装置20は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習処理又は探索処理を実行するプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10又は探索装置20として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
20、20A、20B、20C 探索装置
112、212 画像エンコーダ情報
122a、122b、122c、222 音声エンコーダ情報
111、211 画像特徴量算出部
113 画像エンコーダ
121、221 音声特徴量算出部
123、123a、123b、123c 音声エンコーダ
131 損失関数構成部
132 更新部
151、191 画像
152a、152b、152c 音声キャプション
170 潜在空間
192a、192c 自己注意マップ
231 画像特徴量情報
232 探索部
233 音声特徴量情報
234 獲得部
Claims (11)
- 画像を入力とし、前記画像を第1の空間にマッピングした画像特徴量を出力とするモデルを用いて、前記画像特徴量を算出する画像特徴量算出部と、
所定の言語の音声を入力とし、前記音声を前記第1の空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルを用いて、前記音声特徴量を算出する音声特徴量算出部と、
第1の画像の前記画像特徴量と、前記第1の画像に対応する音声の前記音声特徴量とが類似するように、前記画像特徴量算出部及び前記音声特徴量算出部によって用いられる各モデルのパラメータを更新する更新部と、
を有することを特徴とする学習装置。 - 前記音声特徴量算出部は、複数の異なる言語のそれぞれに対応するモデルを用いて、前記複数の異なる言語の音声のそれぞれについて前記音声特徴量を算出し、
前記更新部は、前記音声特徴量及び前記言語のそれぞれについて算出された前記画像特徴量を含む各特徴量が互いに類似するように、前記パラメータを更新することを特徴とする請求項1に記載の学習装置。 - 前記音声特徴量算出部は、前記複数の異なる言語の音声であって、切り捨て又は0埋めにより固定長に揃えられた音声のそれぞれについて前記音声特徴量を算出することを特徴とする請求項2に記載の学習装置。
- 前記音声特徴量算出部は、前記音声特徴量の算出過程において得られる時間区間ごとの要素を持つ中間特徴量を基に、前記自己注意機構により、前記要素間の類似度を示す自己注意マップを出力し、前記自己注意マップを前記中間特徴量に掛けることにより前記音声特徴量を算出することを特徴とする請求項1から3のいずれか1項に記載の学習装置。
- 学習装置によって実行される学習方法であって、
画像を入力とし、前記画像を第1の空間にマッピングした画像特徴量を出力とするモデルを用いて、前記画像特徴量を算出する画像特徴量算出工程と、
所定の言語の音声を入力とし、前記音声を前記第1の空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルを用いて、前記音声特徴量を算出する音声特徴量算出工程と、
第1の画像の前記画像特徴量と、前記第1の画像に対応する音声の前記音声特徴量とが類似するように、前記画像特徴量算出工程及び前記音声特徴量算出工程によって用いられる各モデルのパラメータを更新する更新工程と、
を含むことを特徴とする学習方法。 - コンピュータを、請求項1から4のいずれか1項に記載の学習装置として機能させるための学習プログラム。
- 所定の言語の音声を入力とし、前記音声を第1の空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルであって、前記音声に対応する画像を前記第1の空間にマッピングした特徴量に前記音声特徴量が類似するように訓練されたモデルを用いて、前記音声特徴量を算出する音声特徴量算出部と、
前記音声特徴量を基に、類似する画像と音声の組み合わせ、又は、類似する音声の組み合わせを探索する探索部と、
を有することを特徴とする探索装置。 - 画像を入力とし、前記画像を前記第1の空間にマッピングした画像特徴量を出力とするモデルであって、前記画像に対応する音声を前記第1の空間にマッピングした特徴量に前記画像特徴量が類似するように訓練されたモデルを用いて、前記画像特徴量を算出する画像特徴量算出部をさらに有し、
前記探索部は、前記音声特徴量及び前記画像特徴量を基に、類似する画像と音声の組み合わせを探索することを特徴とする請求項7に記載の探索装置。 - 所定の言語の音声を入力とし、前記音声を第1の空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルであって、前記音声に対応する画像を前記第1の空間にマッピングした特徴量に前記音声特徴量が類似するように訓練されたモデルを用いて、同一の画像に対応する第1の言語の音声及び第2の言語の音声のそれぞれについて前記音声特徴量を算出する音声特徴量算出部と、
前記音声特徴量を基に、前記第1の言語の音声に含まれる単語と前記第2の言語の音声に含まれる単語との対応関係を示す情報を獲得する獲得部と、
を有することを特徴とする探索装置。 - 探索装置によって実行される探索方法であって、
所定の言語の音声を入力とし、前記音声を第1の空間にマッピングした音声特徴量を出力とするモデルであって、自己注意機構を備えたニューラルネットワークを含むモデルであって、前記音声に対応する画像を前記第1の空間にマッピングした特徴量に前記音声特徴量が類似するように訓練されたモデルを用いて、前記音声特徴量を算出する音声特徴量算出工程と、
前記音声特徴量を基に、類似する画像と音声の組み合わせ、又は、類似する音声の組み合わせを探索する探索工程と、
を含むことを特徴とする探索方法。 - コンピュータを、請求項7から9のいずれか1項に記載の探索装置として機能させるための探索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022137353A JP2022169757A (ja) | 2021-03-31 | 2022-08-30 | 探索装置、探索方法及び探索プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/218,165 US11817081B2 (en) | 2021-03-31 | 2021-03-31 | Learning device, learning method, learning program, retrieval device, retrieval method, and retrieval program |
US17/218,165 | 2021-03-31 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022137353A Division JP2022169757A (ja) | 2021-03-31 | 2022-08-30 | 探索装置、探索方法及び探索プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022158735A true JP2022158735A (ja) | 2022-10-17 |
Family
ID=83449977
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021066027A Pending JP2022158735A (ja) | 2021-03-31 | 2021-04-08 | 学習装置、学習方法、学習プログラム、探索装置、探索方法及び探索プログラム |
JP2022137353A Pending JP2022169757A (ja) | 2021-03-31 | 2022-08-30 | 探索装置、探索方法及び探索プログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022137353A Pending JP2022169757A (ja) | 2021-03-31 | 2022-08-30 | 探索装置、探索方法及び探索プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11817081B2 (ja) |
JP (2) | JP2022158735A (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11817081B2 (en) * | 2021-03-31 | 2023-11-14 | Nippon Telegraph And Telephone Corporation | Learning device, learning method, learning program, retrieval device, retrieval method, and retrieval program |
US11671696B2 (en) | 2021-04-19 | 2023-06-06 | Apple Inc. | User interfaces for managing visual content in media |
US11696017B2 (en) * | 2021-05-19 | 2023-07-04 | Apple Inc. | User interface for managing audible descriptions for visual media |
CN115640520B (zh) * | 2022-11-07 | 2023-07-14 | 北京百度网讯科技有限公司 | 跨语言跨模态模型的预训练方法、设备和存储介质 |
CN117036765A (zh) * | 2022-11-09 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 图像分类模型处理及图像分类方法、装置和计算机设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019219827A (ja) * | 2018-06-18 | 2019-12-26 | 日本放送協会 | 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017010514A1 (ja) * | 2015-07-15 | 2017-01-19 | 日本電信電話株式会社 | 画像検索装置及び方法、撮影時刻推定装置及び方法、反復構造抽出装置及び方法、並びにプログラム |
US10515292B2 (en) * | 2016-06-15 | 2019-12-24 | Massachusetts Institute Of Technology | Joint acoustic and visual processing |
US10817509B2 (en) * | 2017-03-16 | 2020-10-27 | Massachusetts Institute Of Technology | System and method for semantic mapping of natural language input to database entries via convolutional neural networks |
CN109885842B (zh) * | 2018-02-22 | 2023-06-20 | 谷歌有限责任公司 | 处理文本神经网络 |
US11170257B2 (en) * | 2018-10-15 | 2021-11-09 | Ancestry.Com Operations Inc. | Image captioning with weakly-supervised attention penalty |
US11100145B2 (en) * | 2019-09-11 | 2021-08-24 | International Business Machines Corporation | Dialog-based image retrieval with contextual information |
US11562147B2 (en) * | 2020-01-23 | 2023-01-24 | Salesforce.Com, Inc. | Unified vision and dialogue transformer with BERT |
US11663823B2 (en) * | 2020-08-10 | 2023-05-30 | International Business Machines Corporation | Dual-modality relation networks for audio-visual event localization |
US11817081B2 (en) * | 2021-03-31 | 2023-11-14 | Nippon Telegraph And Telephone Corporation | Learning device, learning method, learning program, retrieval device, retrieval method, and retrieval program |
US11830478B2 (en) * | 2021-04-01 | 2023-11-28 | Nippon Telegraph And Telephone Corporation | Learning device, learning method, and learning program for images and sound which uses a similarity matrix |
US20230252993A1 (en) * | 2022-02-04 | 2023-08-10 | Adobe Inc. | Visual speech recognition for digital videos utilizing generative adversarial learning |
-
2021
- 2021-03-31 US US17/218,165 patent/US11817081B2/en active Active
- 2021-04-08 JP JP2021066027A patent/JP2022158735A/ja active Pending
-
2022
- 2022-08-30 JP JP2022137353A patent/JP2022169757A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019219827A (ja) * | 2018-06-18 | 2019-12-26 | 日本放送協会 | 言語モデル学習装置およびそのプログラム、ならびに、単語推定装置およびそのプログラム |
Non-Patent Citations (1)
Title |
---|
大石康智ほか: "画像を説明する多言語音声データを利用したクロスモーダル探索", 電子情報通信学会技術研究報告 [ONLINE], vol. 119, no. 64, JPN6022025257, pages 283 - 288, ISSN: 0004955859 * |
Also Published As
Publication number | Publication date |
---|---|
JP2022169757A (ja) | 2022-11-09 |
US11817081B2 (en) | 2023-11-14 |
US20220319493A1 (en) | 2022-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11948066B2 (en) | Processing sequences using convolutional neural networks | |
CN109408526B (zh) | Sql语句生成方法、装置、计算机设备及存储介质 | |
JP2022158735A (ja) | 学習装置、学習方法、学習プログラム、探索装置、探索方法及び探索プログラム | |
US11741109B2 (en) | Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system | |
WO2022007823A1 (zh) | 一种文本数据处理方法及装置 | |
EP3683724A1 (en) | Training method for image-text matching model, bidirectional search method, and related apparatus | |
EP2727103B1 (en) | Speech recognition using variable-length context | |
US7966171B2 (en) | System and method for increasing accuracy of searches based on communities of interest | |
CN110827805B (zh) | 语音识别模型训练方法、语音识别方法和装置 | |
WO2021135438A1 (zh) | 多语种语音识别模型训练方法、装置、设备及存储介质 | |
CN107437417B (zh) | 基于循环神经网络语音识别中语音数据增强方法及装置 | |
CN113094578B (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
US20220292329A1 (en) | Neural architecture search with weight sharing | |
CN112786007A (zh) | 语音合成方法、装置、可读介质及电子设备 | |
JP7100737B1 (ja) | 学習装置、学習方法及び学習プログラム | |
US20220222442A1 (en) | Parameter learning apparatus, parameter learning method, and computer readable recording medium | |
CN115062621A (zh) | 标签提取方法、装置、电子设备和存储介质 | |
KR101478146B1 (ko) | 화자 그룹 기반 음성인식 장치 및 방법 | |
JP2020135289A (ja) | 質問応答装置、学習装置、質問応答方法及びプログラム | |
JP5914054B2 (ja) | 言語モデル作成装置、音声認識装置、およびそのプログラム | |
JP2015084047A (ja) | 文集合作成装置、文集合作成方法および文集合作成プログラム | |
CN114464163A (zh) | 语音合成模型的训练方法、装置、设备、存储介质和产品 | |
JP2018031812A (ja) | 音声データ処理装置、音声データ処理方法および音声データ処理プログラム | |
Bykov et al. | Improvement of the learning process of the automated speaker recognition system for critical use with HMM-DNN component | |
CN116453702B (zh) | 孤独症行为特征集的数据处理方法、设备、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210408 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20210506 |
|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20210423 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20210506 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220531 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220830 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230403 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230801 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230922 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20231226 |