JP7439564B2 - 非テキスト入力による感覚媒体間の関連付けを学習するためのシステム、プログラム及び方法 - Google Patents
非テキスト入力による感覚媒体間の関連付けを学習するためのシステム、プログラム及び方法 Download PDFInfo
- Publication number
- JP7439564B2 JP7439564B2 JP2020031669A JP2020031669A JP7439564B2 JP 7439564 B2 JP7439564 B2 JP 7439564B2 JP 2020031669 A JP2020031669 A JP 2020031669A JP 2020031669 A JP2020031669 A JP 2020031669A JP 7439564 B2 JP7439564 B2 JP 7439564B2
- Authority
- JP
- Japan
- Prior art keywords
- type
- autoencoder
- input
- text
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 44
- 230000001953 sensory effect Effects 0.000 title claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 230000005855 radiation Effects 0.000 claims description 15
- 238000013459 approach Methods 0.000 description 18
- 238000010801 machine learning Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 238000002372 labelling Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000015654 memory Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 208000032041 Hearing impaired Diseases 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/35—Categorising the entire scene, e.g. birthday party or wedding scene
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Description
ことをさらに含んでもよい。
Claims (20)
- 感覚媒体間の関連付けを学習するためにコンピュータによって実施される方法であって、
第1タイプの非テキスト入力と第2タイプの非テキスト入力とを受信し、
第1畳み込みニューラルネットワークを有する第1オートエンコーダを使用して前記第1タイプの非テキスト入力を符号化して復号するとともに、第2畳み込みニューラルネットワークを有する第2オートエンコーダを使用して前記第2タイプの非テキスト入力を符号化して復号し、
第1モダリティに関連した第1オートエンコーダ表現と第2モダリティに関連した第2オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、前記第1オートエンコーダ表現と前記第2オートエンコーダ表現とのブリッジングを行い、
前記符号化と前記復号と前記ブリッジングとに基づき、前記第1タイプの非テキスト入力あるいは前記第2タイプの非テキスト入力に基づいた、第1タイプの非テキスト出力及び第2タイプの非テキスト出力を、前記第1モダリティ及び前記第2モダリティのいずれか一方において生成すること、
を含む、コンピュータによって実施される方法。 - 前記第1タイプの非テキスト入力が音声であり、前記第2タイプの非テキスト入力が画像である、請求項1に記載のコンピュータによって実施される方法。
- 前記音声はマイクロホンによって検出され、前記画像はカメラによって検出される、請求項2に記載のコンピュータによって実施される方法。
- 前記第1タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの1つであり、
前記第2タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの他の1つである、請求項1に記載のコンピュータによって実施される方法。 - 前記第1タイプの非テキスト入力及び前記第2タイプの非テキスト入力が、訓練のために自律的なロボットに対して提供される、請求項1に記載のコンピュータによって実施される方法。
- テキストラベルが使用されず、
前記受信、前記符号化、前記復号、前記ブリッジング、及び前記生成は、言語非依存である、請求項1に記載のコンピュータによって実施される方法。 - 第3タイプの非テキスト入力を受信し、
第3畳み込みニューラルネットワークを有する第3オートエンコーダを使用して、前記第3タイプの非テキスト入力を符号化し、
前記第3オートエンコーダが、第3モダリティに関連した第3タイプの表現と、第1タイプの表現及び第2タイプの表現と、の間の対応付けを学習する前記深層ニューラルネットワークによって、前記第1オートエンコーダ及び前記第2オートエンコーダに対してブリッジングされ、
前記第1オートエンコーダ、前記第2オートエンコーダ、前記第1畳み込みニューラルネットワーク、及び前記第2畳み込みニューラルネットワークの再訓練を必要とすることなく、第3タイプの非テキスト出力を生成する
ことをさらに含む、請求項1に記載のコンピュータによって実施される方法。 - 第1タイプの非テキスト入力と第2タイプの非テキスト入力とを受信し、
第1畳み込みニューラルネットワークを有する第1オートエンコーダを使用して前記第1タイプの非テキスト入力を符号化して復号するとともに、第2畳み込みニューラルネットワークを有する第2オートエンコーダを使用して前記第2タイプの非テキスト入力を符号化して復号し、
第1モダリティに関連した第1オートエンコーダ表現と第2モダリティに関連した第2オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、前記第1オートエンコーダ表現と前記第2オートエンコーダ表現とのブリッジングを行い、
前記符号化と前記復号と前記ブリッジングとに基づき、前記第1タイプの非テキスト入力あるいは前記第2タイプの非テキスト入力に基づいた、第1タイプの非テキスト出力及び第2タイプの非テキスト出力を、前記第1モダリティ及び前記第2モダリティのいずれか一方において生成すること、
を含む方法をコンピュータに実行させる、プログラム。 - 前記第1タイプの非テキスト入力は音声であり、前記第2タイプの非テキスト入力は画像である、請求項8に記載のプログラム。
- 前記音声はマイクロホンによって検出され、前記画像は、カメラによって検出される、請求項9に記載のプログラム。
- 前記第1タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの1つであり、
前記第2タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの他の1つである、請求項8にプログラム。 - 前記第1タイプの非テキスト入力及び前記第2タイプの非テキスト入力は、訓練のために自律的なロボットに対して提供される、請求項8に記載のプログラム。
- テキストラベルが使用とされず、
前記受信、前記符号化、前記復号、前記ブリッジング、及び前記生成は、言語非依存である、請求項8に記載のプログラム。 - 前記方法が、
第3タイプの非テキスト入力を受信し、
第3畳み込みニューラルネットワークを有する第3オートエンコーダを使用して、前記第3タイプの非テキスト入力を符号化し、
前記第3オートエンコーダが、第3モダリティに関連した第3タイプの表現と、第1タイプの表現及び第2タイプの表現と、の間の対応付けを学習する前記深層ニューラルネットワークによって、前記第1オートエンコーダ及び前記第2オートエンコーダに対してブリッジングされ、
前記第1オートエンコーダ、前記第2オートエンコーダ、前記第1畳み込みニューラルネットワーク、及び前記第2畳み込みニューラルネットワークの再訓練を必要とすることなく、第3タイプの非テキスト出力を生成する
ことをさらに含む、請求項8に記載のプログラム。 - 感覚媒体間の関連付けを学習するためにコンピュータによって実施されるシステムであって、
第1タイプの非テキスト入力を受信する第1タイプのセンサ、及び、第2タイプの非テキスト入力を受信する第2タイプのセンサと、
前記第1タイプの非テキスト入力及び前記第2タイプの非テキスト入力を受信し、第1畳み込みニューラルネットワークを有する第1オートエンコーダを使用して前記第1タイプの非テキスト入力を符号化して復号し、第2畳み込みニューラルネットワークを有する第2オートエンコーダを使用して前記第2タイプの非テキスト入力を符号化して復号し、第1モダリティに関連した第1オートエンコーダ表現と第2モダリティに関連した第2オートエンコーダ表現との間の対応付けを学習する深層ニューラルネットワークによって、前記第1オートエンコーダ表現と前記第2オートエンコーダ表現とのブリッジングを行う、プロセッサと、
前記符号化と前記復号と前記ブリッジングとに基づき、前記第1タイプの非テキスト入力あるいは前記第2タイプの非テキスト入力に基づいた、第1タイプの非テキスト出力及び第2タイプの非テキスト出力を、前記第1モダリティ及び前記第2モダリティのいずれか一方において生成する出力装置と、
を含む、コンピュータによって実施されるシステム。 - 前記第1タイプのセンサはマイクロホンであり、前記第2タイプのセンサはカメラである、請求項15に記載のコンピュータによって実施されるシステム。
- 前記第1タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの1つであり、
前記第2タイプの非テキスト入力は、音声、画像、温度、接触、及び放射線のうちの他の1つである、請求項15に記載のコンピュータによって実施されるシステム。 - 前記第1タイプの非テキスト入力及び前記第2タイプの非テキスト入力は、訓練のために自律的なロボットに対して提供される、請求項15に記載のコンピュータによって実施されるシステム。
- テキストラベルが使用されず、
前記受信、前記符号化、前記復号、前記ブリッジング、及び前記生成は、言語非依存である、請求項15に記載のコンピュータによって実施されるシステム。 - 前記プロセッサがさらに、
第3タイプの非テキスト入力を受信し、
第3畳み込みニューラルネットワークを有する第3オートエンコーダを使用して、前記第3タイプの非テキスト入力を符号化し、
前記第3オートエンコーダが、第3モダリティに関連した第3タイプの表現と、第1タイプの表現及び第2タイプの表現と、の間の対応付けを学習する前記深層ニューラルネットワークによって、前記第1オートエンコーダ及び前記第2オートエンコーダに対してブリッジングされ、
前記第1オートエンコーダ、前記第2オートエンコーダ、前記第1畳み込みニューラルネットワーク、及び前記第2畳み込みニューラルネットワークの再訓練を必要とすることなく、第3タイプの非テキスト出力を生成する、
請求項15に記載のコンピュータによって実施されるシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/353991 | 2019-03-14 | ||
US16/353,991 US11587305B2 (en) | 2019-03-14 | 2019-03-14 | System and method for learning sensory media association without using text labels |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020149680A JP2020149680A (ja) | 2020-09-17 |
JP7439564B2 true JP7439564B2 (ja) | 2024-02-28 |
Family
ID=72423828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020031669A Active JP7439564B2 (ja) | 2019-03-14 | 2020-02-27 | 非テキスト入力による感覚媒体間の関連付けを学習するためのシステム、プログラム及び方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11587305B2 (ja) |
JP (1) | JP7439564B2 (ja) |
CN (1) | CN111695010A (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10931976B1 (en) * | 2019-10-14 | 2021-02-23 | Microsoft Technology Licensing, Llc | Face-speech bridging by cycle video/audio reconstruction |
EP3961434A1 (en) * | 2020-08-27 | 2022-03-02 | Samsung Electronics Co., Ltd. | Method and apparatus for concept matching |
KR20220055296A (ko) | 2020-10-26 | 2022-05-03 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
WO2023110285A1 (en) * | 2021-12-16 | 2023-06-22 | Asml Netherlands B.V. | Method and system of defect detection for inspection sample based on machine learning model |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017041206A (ja) | 2015-08-21 | 2017-02-23 | 日本電信電話株式会社 | 学習装置、探索装置、方法、及びプログラム |
US20180144746A1 (en) | 2010-06-07 | 2018-05-24 | Affectiva, Inc. | Audio analysis learning using video data |
JP2018526711A (ja) | 2015-06-03 | 2018-09-13 | インナーアイ リミテッドInnerEye Ltd. | ブレインコンピュータインタフェースによる画像の分類 |
WO2018213841A1 (en) | 2017-05-19 | 2018-11-22 | Google Llc | Multi-task multi-modal machine learning model |
US20190005976A1 (en) | 2017-07-03 | 2019-01-03 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. | Method and system for enhancing a speech signal of a human speaker in a video using visual information |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0410045A1 (en) | 1989-07-27 | 1991-01-30 | Koninklijke Philips Electronics N.V. | Image audio transformation system, particularly as a visual aid for the blind |
-
2019
- 2019-03-14 US US16/353,991 patent/US11587305B2/en active Active
-
2020
- 2020-02-12 CN CN202010088042.0A patent/CN111695010A/zh active Pending
- 2020-02-27 JP JP2020031669A patent/JP7439564B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180144746A1 (en) | 2010-06-07 | 2018-05-24 | Affectiva, Inc. | Audio analysis learning using video data |
JP2018526711A (ja) | 2015-06-03 | 2018-09-13 | インナーアイ リミテッドInnerEye Ltd. | ブレインコンピュータインタフェースによる画像の分類 |
JP2017041206A (ja) | 2015-08-21 | 2017-02-23 | 日本電信電話株式会社 | 学習装置、探索装置、方法、及びプログラム |
WO2018213841A1 (en) | 2017-05-19 | 2018-11-22 | Google Llc | Multi-task multi-modal machine learning model |
US20190005976A1 (en) | 2017-07-03 | 2019-01-03 | Yissum Research Development Company Of The Hebrew University Of Jerusalem Ltd. | Method and system for enhancing a speech signal of a human speaker in a video using visual information |
Non-Patent Citations (2)
Title |
---|
Jiquan Ngiam et al.,Multimodal Deep Learning,ICML'11: Proceedings of the 28th Internatinal Conference on Machine Learning,米国,2011年06月28日 |
Qiong Liu et al.,Sensory Media Association through Reciprocation Training ,2019 IEEE International Symposium on Multimedia (ISM),米国,IEEE,2019年12月09日,pp. 108-111 |
Also Published As
Publication number | Publication date |
---|---|
CN111695010A (zh) | 2020-09-22 |
JP2020149680A (ja) | 2020-09-17 |
US20200293826A1 (en) | 2020-09-17 |
US11587305B2 (en) | 2023-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7439564B2 (ja) | 非テキスト入力による感覚媒体間の関連付けを学習するためのシステム、プログラム及び方法 | |
US11769018B2 (en) | System and method for temporal attention behavioral analysis of multi-modal conversations in a question and answer system | |
JP2021015264A (ja) | 視覚支援スピーチ処理 | |
WO2018006375A1 (zh) | 一种虚拟机器人的交互方法、系统及机器人 | |
CN107097234B (zh) | 机器人控制系统 | |
Hrytsyk et al. | Augmented reality for people with disabilities | |
JP7292782B2 (ja) | 遠隔会議システム、遠隔会議のための方法、およびコンピュータ・プログラム | |
JP2021117967A (ja) | センサからの自動学習方法及びプログラム | |
CN114580425B (zh) | 命名实体识别的方法和装置,以及电子设备和存储介质 | |
CN117877125B (zh) | 动作识别及其模型训练方法、装置、电子设备、存储介质 | |
JP7537189B2 (ja) | 方法、プログラム、及び装置 | |
Rastgoo et al. | All you need in sign language production | |
Suman et al. | Sign Language Interpreter | |
CN113903338A (zh) | 面签方法、装置、电子设备和存储介质 | |
Rathod et al. | Transfer learning using whisper for dysarthric automatic speech recognition | |
US20230098678A1 (en) | Speech signal processing method and related device thereof | |
Abdullah et al. | Hierarchical attention approach in multimodal emotion recognition for human robot interaction | |
Lee et al. | AI TTS smartphone app for communication of speech impaired people | |
US11417093B1 (en) | Image capture with context data overlay | |
US11899846B2 (en) | Customizable gesture commands | |
CN113177457B (zh) | 用户服务方法、装置、设备及计算机可读存储介质 | |
WO2023208090A1 (en) | Method and system for personal identifiable information removal and data processing of human multimedia | |
JP7238579B2 (ja) | 端末装置、出席管理システム、出席管理方法、及びプログラム | |
CN117633703A (zh) | 一种基于智能手表的多模态交互系统及方法 | |
Palanivel et al. | Visual recognition system for hearing impairment using internet of things |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230120 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7439564 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |