JP2021124642A - 情報処理装置、車両、プログラム、及び情報処理方法 - Google Patents
情報処理装置、車両、プログラム、及び情報処理方法 Download PDFInfo
- Publication number
- JP2021124642A JP2021124642A JP2020019021A JP2020019021A JP2021124642A JP 2021124642 A JP2021124642 A JP 2021124642A JP 2020019021 A JP2020019021 A JP 2020019021A JP 2020019021 A JP2020019021 A JP 2020019021A JP 2021124642 A JP2021124642 A JP 2021124642A
- Authority
- JP
- Japan
- Prior art keywords
- vector
- feature amount
- output
- layer
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 55
- 238000003672 processing method Methods 0.000 title claims description 9
- 239000013598 vector Substances 0.000 claims abstract description 228
- 230000008451 emotion Effects 0.000 claims abstract description 77
- 238000013528 artificial neural network Methods 0.000 claims description 29
- 230000000306 recurrent effect Effects 0.000 claims description 16
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 description 17
- 230000015654 memory Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 238000000605 extraction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 206010015535 Euphoric mood Diseases 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/59—Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
- G06V20/597—Recognising the driver's state or behaviour, e.g. attention or drowsiness
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【解決手段】情報処理装置は、ユーザの発話音声から抽出された音響特徴量ベクトルと言語特徴量ベクトルとを取得する第1特徴量情報取得部と、ユーザの顔画像から抽出された画像特徴量ベクトルを取得する第2特徴量情報取得部と、を備える。さらに、音響特徴量ベクトルから生成された第1ベクトルV1及び画像特徴量ベクトルから生成された第2ベクトルV2を入力とする第1アテンションレイヤ241と、第1アテンションレイヤからの第1出力ベクトルとV4言語特徴量ベクトルから生成された第3ベクトルV3とを入力とする第2アテンションレイヤ242と、を有する学習済みモデルを有し、第2アテンションレイヤからの第2出力ベクトルV5に基づいて、ユーザの感情を推定する感情推定部を備える。
【選択図】図2
Description
[先行技術文献]
[特許文献]
[非特許文献1] Chiori Hori, Takaaki Hori, Teng-Yok Lee, Ziming Zhang, Bret Harsham, John R Hershey, Tim K Marks, and Kazuhiko Sumi, "Attention-based multimodal fusion for video description", Proceedings of the IEEE international conference on computer vision, 2017年10月, p. 4193-4202
[非特許文献2] Haiyang Xu, Hui Zhang, Kun Han, Yun Wang, Yiping Peng, and Xiangang Li, "Learning Alignment for Multimodal Emotion Recognition from Speech"、INTERSPEECH 2019、International Speech Communication Association, 2019年9月
12 機器
14 情報処理装置
16 センサ
80 乗員
200 処理部
201 音響特徴量取得部
202 画像特徴量抽出部
203 言語特徴量取得部
210 第1特徴量情報取得部
220 第2特徴量情報取得部
230 モデル
231 第1BGRUレイヤ
232 第2BGRUレイヤ
233 第3BGRUレイヤ
240 感情推定部
241 第1アテンションレイヤ
242 第2アテンションレイヤ
244 出力レイヤ
270 制御部
280 記憶部
292 マイク
294 カメラ
2000 コンピュータ
2010 ホストコントローラ
2012 CPU
2014 RAM
2020 入力/出力コントローラ
2022 通信インタフェース
2024 フラッシュメモリ
2026 ROM
2040 入力/出力チップ
Claims (10)
- ユーザの発話音声から抽出された音響特徴量ベクトルと言語特徴量ベクトルとを取得する第1特徴量情報取得部と、
前記ユーザの顔画像から抽出された画像特徴量ベクトルを取得する第2特徴量情報取得部と、
前記音響特徴量ベクトルと前記画像特徴量ベクトルとに基づいて第1出力ベクトルを生成する第1アテンションレイヤと、前記第1出力ベクトルと前記言語特徴量ベクトルとに基づいて第2出力ベクトルを生成する第2アテンションレイヤと、を有する学習済みモデルを有し、前記第2出力ベクトルに基づいて、前記ユーザの感情を推定する感情推定部と
を備える情報処理装置。 - 前記音響特徴量ベクトルは、音の高さの特徴量ベクトル、発話速度の特徴量ベクトル、及び音声強度の特徴量ベクトルの少なくとも一つを含む
請求項1に記載の情報処理装置。 - 前記学習済みモデルは、人物の発話音声から抽出された音響特徴量ベクトル及び言語特徴量ベクトルと、人物の顔画像から抽出された画像特徴量ベクトルと、人物の感情を示す情報とを教師データとする機械学習によって得られたニューラルネットワークモデルである
請求項1又は2に記載の情報処理装置。 - 前記学習済みモデルは、
第1の再帰型ニューラルネットワークレイヤを有し、前記音響特徴量ベクトルを入力とし第1ベクトルを出力する第1ニューラルネットワークレイヤと、
第2の再帰型ニューラルネットワークレイヤを有し、前記画像特徴量ベクトルを入力とし第2ベクトルを出力する第2ニューラルネットワークレイヤと、
第3の再帰型ニューラルネットワークレイヤを有し、前記言語特徴量ベクトルを入力とし第3ベクトルを出力する第3ニューラルネットワークレイヤと
を有し、
前記第1アテンションレイヤは、前記第1ベクトルと前記第2ベクトルとに基づいて前記第1出力ベクトルを出力し、
前記第2アテンションレイヤは、前記第1出力ベクトルと前記第3ベクトルとに基づいて前記第2出力ベクトルを出力する
請求項3に記載の情報処理装置。 - 前記第1の再帰型ニューラルネットワークレイヤ、前記第2の再帰型ニューラルネットワークレイヤ、及び前記第3の再帰型ニューラルネットワークレイヤは、GRU(Gated Recurrent Unit)レイヤ又はLSTM(Long short−term memory)レイヤである
請求項4に記載の情報処理装置。 - 前記ユーザの発話音声を取得する音声取得部と、
前記ユーザの画像を取得する画像取得部と、
前記感情推定部によって推定された前記ユーザの感情に基づいて、機器を制御する機器制御部と
をさらに備える請求項1から5のいずれか一項に記載の情報処理装置。 - 前記機器は、前記ユーザに音声を出力する音声出力装置であり、
前記機器制御部は、前記感情推定部によって推定された前記ユーザの感情に基づいて、前記音声出力装置から出力される音声データを生成する
請求項6に記載の情報処理装置。 - 請求項1から7のいずれか一項に記載の情報処理装置を備える車両。
- 請求項1から7いずれか一項に記載の情報処理装置として機能させるためのプログラム。
- ユーザの発話音声から抽出された音響特徴量ベクトルと言語特徴量ベクトルとを取得する段階と、
前記ユーザの顔画像から抽出された画像特徴量ベクトルを取得する段階と、
前記音響特徴量ベクトル及び前記画像特徴量ベクトルに基づいて第1出力ベクトルを生成する第1アテンションレイヤと、前記第1出力ベクトル及び前記言語特徴量ベクトルに基づいて第2出力ベクトルを生成する第2アテンションレイヤと、を有する学習済みモデルを用い、前記第2出力ベクトルに基づいて、前記ユーザの感情を推定する段階と
を備える情報処理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020019021A JP7413055B2 (ja) | 2020-02-06 | 2020-02-06 | 情報処理装置、車両、プログラム、及び情報処理方法 |
CN202110040937.1A CN113221933B (zh) | 2020-02-06 | 2021-01-13 | 信息处理装置、车辆、计算机可读存储介质以及信息处理方法 |
US17/165,947 US11710499B2 (en) | 2020-02-06 | 2021-02-03 | Information-processing device, vehicle, computer-readable storage medium, and information-processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020019021A JP7413055B2 (ja) | 2020-02-06 | 2020-02-06 | 情報処理装置、車両、プログラム、及び情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021124642A true JP2021124642A (ja) | 2021-08-30 |
JP7413055B2 JP7413055B2 (ja) | 2024-01-15 |
Family
ID=77083666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020019021A Active JP7413055B2 (ja) | 2020-02-06 | 2020-02-06 | 情報処理装置、車両、プログラム、及び情報処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11710499B2 (ja) |
JP (1) | JP7413055B2 (ja) |
CN (1) | CN113221933B (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023158060A1 (ko) * | 2022-02-18 | 2023-08-24 | 경북대학교 산학협력단 | 다중 센서 융합기반 운전자 모니터링 장치 및 방법 |
KR20230124837A (ko) * | 2022-02-18 | 2023-08-28 | 경북대학교 산학협력단 | 다중 센서 융합기반 운전자 모니터링 장치 및 방법 |
JP2023171101A (ja) * | 2022-05-20 | 2023-12-01 | エヌ・ティ・ティ レゾナント株式会社 | 学習装置、推定装置、学習方法、推定方法及びプログラム |
JP2023171107A (ja) * | 2022-05-20 | 2023-12-01 | エヌ・ティ・ティ レゾナント株式会社 | 学習装置、推定装置、学習方法、推定方法及びプログラム |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230267726A1 (en) * | 2022-02-18 | 2023-08-24 | Adobe Inc. | Systems and methods for image processing using natural language |
CN117649141A (zh) * | 2023-11-28 | 2024-03-05 | 广州方舟信息科技有限公司 | 一种客服服务质量评估方法、装置、设备及存储介质 |
CN117409780B (zh) * | 2023-12-14 | 2024-02-27 | 浙江宇宙奇点科技有限公司 | 一种应用于ai数字人语音交互方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140112556A1 (en) * | 2012-10-19 | 2014-04-24 | Sony Computer Entertainment Inc. | Multi-modal sensor based emotion recognition and emotional interface |
JP2018189720A (ja) * | 2017-04-28 | 2018-11-29 | パナソニックIpマネジメント株式会社 | 情報出力制御装置、情報出力制御方法、情報出力システム、およびプログラム |
WO2019102884A1 (ja) * | 2017-11-21 | 2019-05-31 | 日本電信電話株式会社 | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 |
WO2019144542A1 (en) * | 2018-01-26 | 2019-08-01 | Institute Of Software Chinese Academy Of Sciences | Affective interaction systems, devices, and methods based on affective computing user interface |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105609117A (zh) * | 2016-02-19 | 2016-05-25 | 郑洪亮 | 一种识别语音情感的装置和方法 |
CN107516511B (zh) * | 2016-06-13 | 2021-05-25 | 微软技术许可有限责任公司 | 意图识别和情绪的文本到语音学习系统 |
CN108549720A (zh) * | 2018-04-24 | 2018-09-18 | 京东方科技集团股份有限公司 | 一种基于情绪识别的安抚方法、装置及设备、存储介质 |
US11955026B2 (en) * | 2019-09-26 | 2024-04-09 | International Business Machines Corporation | Multimodal neural network for public speaking guidance |
US11386712B2 (en) * | 2019-12-31 | 2022-07-12 | Wipro Limited | Method and system for multimodal analysis based emotion recognition |
-
2020
- 2020-02-06 JP JP2020019021A patent/JP7413055B2/ja active Active
-
2021
- 2021-01-13 CN CN202110040937.1A patent/CN113221933B/zh active Active
- 2021-02-03 US US17/165,947 patent/US11710499B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140112556A1 (en) * | 2012-10-19 | 2014-04-24 | Sony Computer Entertainment Inc. | Multi-modal sensor based emotion recognition and emotional interface |
JP2018189720A (ja) * | 2017-04-28 | 2018-11-29 | パナソニックIpマネジメント株式会社 | 情報出力制御装置、情報出力制御方法、情報出力システム、およびプログラム |
WO2019102884A1 (ja) * | 2017-11-21 | 2019-05-31 | 日本電信電話株式会社 | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 |
WO2019144542A1 (en) * | 2018-01-26 | 2019-08-01 | Institute Of Software Chinese Academy Of Sciences | Affective interaction systems, devices, and methods based on affective computing user interface |
Non-Patent Citations (2)
Title |
---|
ANUPAMA RAY, ET AL.: "Multi-level Attention network using text, audio and video for Depression Prediction", [ONLINE], JPN7023003460, 3 September 2019 (2019-09-03), ISSN: 0005153598 * |
GHOSAL, DEEPANWAY ET AL.: "Contextual Inter-modal Attention for Multi-modal Sentiment Analysis", PROCEEDINGS OF THE 2018 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PRECESSING, JPN6023051514, 31 October 2018 (2018-10-31), pages 3454 - 3466, ISSN: 0005221174 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023158060A1 (ko) * | 2022-02-18 | 2023-08-24 | 경북대학교 산학협력단 | 다중 센서 융합기반 운전자 모니터링 장치 및 방법 |
KR20230124837A (ko) * | 2022-02-18 | 2023-08-28 | 경북대학교 산학협력단 | 다중 센서 융합기반 운전자 모니터링 장치 및 방법 |
KR102596957B1 (ko) * | 2022-02-18 | 2023-11-03 | 경북대학교 산학협력단 | 다중 센서 융합기반 운전자 모니터링 장치 및 방법 |
JP2023171101A (ja) * | 2022-05-20 | 2023-12-01 | エヌ・ティ・ティ レゾナント株式会社 | 学習装置、推定装置、学習方法、推定方法及びプログラム |
JP2023171107A (ja) * | 2022-05-20 | 2023-12-01 | エヌ・ティ・ティ レゾナント株式会社 | 学習装置、推定装置、学習方法、推定方法及びプログラム |
JP7411149B2 (ja) | 2022-05-20 | 2024-01-11 | 株式会社Nttドコモ | 学習装置、推定装置、学習方法、推定方法及びプログラム |
JP7419615B2 (ja) | 2022-05-20 | 2024-01-23 | 株式会社Nttドコモ | 学習装置、推定装置、学習方法、推定方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7413055B2 (ja) | 2024-01-15 |
US20210249034A1 (en) | 2021-08-12 |
CN113221933B (zh) | 2024-06-28 |
CN113221933A (zh) | 2021-08-06 |
US11710499B2 (en) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021124642A (ja) | 情報処理装置、車両、プログラム、及び情報処理方法 | |
JP6743300B2 (ja) | ニューラルネットワークを用いてハイブリッド音声認識結果をランク付けするためのシステム及び方法 | |
US20210358496A1 (en) | A voice assistant system for a vehicle cockpit system | |
US20150325240A1 (en) | Method and system for speech input | |
JP4729902B2 (ja) | 音声対話システム | |
CN113643693B (zh) | 以声音特征为条件的声学模型 | |
JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
JP2019020684A (ja) | 感情インタラクションモデル学習装置、感情認識装置、感情インタラクションモデル学習方法、感情認識方法、およびプログラム | |
JP2013205842A (ja) | プロミネンスを使用した音声対話システム | |
JP7178394B2 (ja) | 音声信号を処理するための方法、装置、機器、および媒体 | |
JP2003114696A (ja) | 音声認識装置、プログラム及びナビゲーションシステム | |
JP2003280686A (ja) | 音声認識装置、その音声認識方法及びプログラム | |
JP7420211B2 (ja) | 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム | |
WO2021166207A1 (ja) | 認識装置、学習装置、それらの方法、およびプログラム | |
US11545135B2 (en) | Acoustic model learning device, voice synthesis device, and program | |
US20090222266A1 (en) | Apparatus, method, and recording medium for clustering phoneme models | |
JP6580281B1 (ja) | 翻訳装置、翻訳方法、および翻訳プログラム | |
JPWO2017159207A1 (ja) | 処理実行装置、処理実行装置の制御方法、および制御プログラム | |
CN115113739A (zh) | 用于生成表情符号的装置、车辆和用于生成表情符号的方法 | |
KR20220071523A (ko) | 문자들의 시퀀스를 분할하는 방법 및 음성 합성 시스템 | |
Talai et al. | Remote spoken Arabic digits recognition using CNN | |
Schuller et al. | Speech communication and multimodal interfaces | |
Abdelaziz | Improving acoustic modeling using audio-visual speech | |
US20230223039A1 (en) | Emotion modeling method and apparatus thereof | |
JP2020101778A (ja) | 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230907 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230919 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231031 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7413055 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |