CN107358949A - 机器人发声自动调整系统 - Google Patents

机器人发声自动调整系统 Download PDF

Info

Publication number
CN107358949A
CN107358949A CN201710390548.5A CN201710390548A CN107358949A CN 107358949 A CN107358949 A CN 107358949A CN 201710390548 A CN201710390548 A CN 201710390548A CN 107358949 A CN107358949 A CN 107358949A
Authority
CN
China
Prior art keywords
module
robot
recognition module
voice
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710390548.5A
Other languages
English (en)
Inventor
陈琦
许壮志
徐健华
易昊
刘彬
范传奇
梅志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhu Xingtu Robot Technology Co Ltd
Original Assignee
Wuhu Xingtu Robot Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhu Xingtu Robot Technology Co Ltd filed Critical Wuhu Xingtu Robot Technology Co Ltd
Priority to CN201710390548.5A priority Critical patent/CN107358949A/zh
Publication of CN107358949A publication Critical patent/CN107358949A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了机器人发声自动调整系统,包括:控制器、语音采集模块、语音识别模块、图像采集模块、图像识别模块和机器人发声模块,语音采集模块与语音识别模块相连,图像采集模块与图像识别模块相连,语音识别模块、图像识别模块和机器人发声模块分别与控制器相连;语音识别模块利用麦克风阵列声学分析交互者的语音信息;图像识别模块对采集的交互者的脸部图像信息进行分析从而对交互者的年龄进行分类;控制器根据语音识别模块和图像识别模块的分析结果调节机器人发声模块,从而调节机器人的发声方式和语速。该机器人发声自动调整系统克服现有技术中的机器人在和用户进行语音交互时的发声方式和语速是确定的,导致用户的体验效果差的问题。

Description

机器人发声自动调整系统
技术领域
本发明涉及机器人控制系统领域,具体地,涉及一种机器人发声自动调整系统。
背景技术
机器人(Robot)是自动执行工作的机器装置。它既可以接受人类指挥,又可以运行预先编排的程序,也可以根据以人工智能技术制定的原则纲领行动,随着社会的发展,机器人的技术也得到了飞速地发展,因此,机器人的应用也越来越普遍了,对于机器人设计也各种各样。
机器人中有一类称为服务型机器人,一般用于服务行业来对客户进行专职服务的,所以对人性化地要求较高,对于不同年纪的用户,可以听清的语速也是不同的,比如老年人听力下降,和他沟通时也许适合慢一点的语速,但是现有技术中的机器人在和用户进行语音交互时的发声方式和语速是确定的,这样就导致用户的体验效果差,人性化程度不够。
因此,提供一种在使用过程中可以根据交互者的信息来判断交互者的年纪特征,从而自动调节发声方式和语速的机器人发声自动调整系统是本发明亟需解决的问题。
发明内容
针对上述技术问题,本发明的目的是克服现有技术中的机器人在和用户进行语音交互时的发声方式和语速是确定的,这样就导致用户的体验效果差,人性化程度不够的问题,从而提供一种在使用过程中可以根据交互者的信息来判断交互者的年纪特征,从而自动调节发声方式和语速的机器人发声自动调整系统。
为了实现上述目的,本发明提供了一种机器人发声自动调整系统,所述机器人发声自动调整系统包括:控制器、语音采集模块、语音识别模块、图像采集模块、图像识别模块和机器人发声模块,所述语音采集模块与所述语音识别模块相连,所述图像采集模块与所述图像识别模块相连,所述语音识别模块、所述图像识别模块和所述机器人发声模块分别与所述控制器相连;其中,所述语音采集模块用于采集交互者的语音信息;所述语音识别模块利用麦克风阵列声学分析交互者的语音信息;所述图像采集模块用于采集交互者的脸部图像信息;所述图像识别模块对采集的交互者的脸部图像信息进行分析从而对交互者的年龄进行分类;所述控制器根据所述语音识别模块和所述图像识别模块的分析结果调节所述机器人发声模块,从而调节机器人的发声方式和语速。
优选地,所述图像识别模块被配置首先对采集的交互者的脸部图像信息进行预处理,然后对脸部图像信息进行特征提取,再进行降维处理,最后对交互者的年龄进行分类。
优选地,所述图像识别模块对脸部图像信息进行的预处理包括:图像灰度化、几何归一化和直方图均衡化。
优选地,特征提取采用均匀LBP对脸部图像信息中人脸纹理的局部特征进行提取。
优选地,所述降维处理采用PCA算法。
优选地,在对交互者的年龄进行分类时利用K近邻算法。
优选地,所述图像采集模块包括:高清摄像头和AD转换器,所述高清摄像头用于对召唤者的图像进行采集,所述AD转换器用于将所述高清摄像头采集的模拟信号转换成数字信号,并输出至所述图像识别模块中。
根据上述技术方案,本发明提供的机器人发声自动调整系统中所述控制器用来分析和处理系统中各模块采集的数据,并且协调各模块之间有序地工作,在使用时,所述语音采集模块和所述图像采集模块分别采集交互者的语音信息和脸部图像信息,所述图像识别模块对采集的交互者的脸部图像信息进行分析从而对交互者的年龄进行分类,所述语音识别模块利用麦克风阵列声学分析交互者的语音信息,从而对交互者的年龄进行分类,所述控制器综合两者的分类结果进行交互者的年龄最后的估算,然后根据估算的结果控制所述发声模块发出适合的声音,这种适合指的是发声方式和语速合适该年龄段交互者,发声方式包括是男声还是女声,发声时的情感等,从而给交互者更加良好地交互体验。本发明的机器人发声自动调整系统克服现有技术中的机器人在和用户进行语音交互时的发声方式和语速是确定的,这样就导致用户的体验效果差,人性化程度不够的问题。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1是本发明的一种优选的实施方式中提供的机器人发声自动调整系统的结构框图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
如图1所示,本发明提供了一种机器人发声自动调整系统,所述机器人发声自动调整系统包括:控制器、语音采集模块、语音识别模块、图像采集模块、图像识别模块和机器人发声模块,所述语音采集模块与所述语音识别模块相连,所述图像采集模块与所述图像识别模块相连,所述语音识别模块、所述图像识别模块和所述机器人发声模块分别与所述控制器相连;其中,所述语音采集模块用于采集交互者的语音信息;所述语音识别模块利用麦克风阵列声学分析交互者的语音信息;所述图像采集模块用于采集交互者的脸部图像信息;所述图像识别模块对采集的交互者的脸部图像信息进行分析从而对交互者的年龄进行分类;所述控制器根据所述语音识别模块和所述图像识别模块的分析结果调节所述机器人发声模块,从而调节机器人的发声方式和语速。
根据上述技术方案,本发明提供的机器人发声自动调整系统中所述控制器用来分析和处理系统中各模块采集的数据,并且协调各模块之间有序地工作,在使用时,所述语音采集模块和所述图像采集模块分别采集交互者的语音信息和脸部图像信息,所述图像识别模块对采集的交互者的脸部图像信息进行分析从而对交互者的年龄进行分类,所述语音识别模块利用麦克风阵列声学分析交互者的语音信息,从而对交互者的年龄进行分类,所述控制器综合两者的分类结果进行交互者的年龄最后的估算,然后根据估算的结果控制所述发声模块发出适合的声音,这种适合指的是发声方式和语速合适该年龄段交互者,发声方式包括是男声还是女声,发声时的情感等,从而给交互者更加良好地交互体验。本发明的机器人发声自动调整系统克服现有技术中的机器人在和用户进行语音交互时的发声方式和语速是确定的,这样就导致用户的体验效果差,人性化程度不够的问题。
在本发明的一种优选的实施方式中,所述图像识别模块被配置首先对采集的交互者的脸部图像信息进行预处理,然后对脸部图像信息进行特征提取,再进行降维处理,最后对交互者的年龄进行分类,这样的识别方式更加地准确。
在本发明的一种优选的实施方式中,所述图像识别模块对脸部图像信息进行的预处理包括:图像灰度化、几何归一化和直方图均衡化,其中,图像灰度化是指将彩色图像转换成灰度图像,这样可以除去光照对人脸图像的影响,而且灰度图像占用的数据空间更小,所述几何归一化的目的是使人脸图像标准化,使所有的图像角度、位置、大小统一化,消除图像由于可能存在的几何结构变形而带来识别上的影响;通过直方图能够对图像进行有效的增强,而且易于计算和处理。
在本发明的一种优选的实施方式中,特征提取采用均匀LBP对脸部图像信息中人脸纹理的局部特征进行提取。LBP(局部二值模式)是一种有效的图像纹理描述算子,在人脸图像中对人脸纹理的局部特征进行有效地提取,这样分析的准确度更好。
在本发明的一种优选的实施方式中,所述降维处理采用PCA算法,在LBP特征提取后,存在维度比较高的问题,这样计算的效率差,而且识别率降低了,则采用降维算法对提取的特征进行降维。本发明中采用的降维算法为PCA算法,为了增大年龄估算的准确度,提高性能,在本发明中在使用PAC进行降维前,需要采用距离度量调节对使用LBP提取的特征进行一定的权重改变。
在本发明的一种优选的实施方式中,在对交互者的年龄进行分类时利用K近邻算法,这样具有一定的扩展性。
在本发明的一种优选的实施方式中,所述图像采集模块包括:高清摄像头和AD转换器,所述高清摄像头用于对召唤者的图像进行采集,所述AD转换器用于将所述高清摄像头采集的模拟信号转换成数字信号,并输出至所述图像识别模块中,所述高清摄像头用于采集人脸的图像信息,但是采集的信息为模拟信号,为了方便对信息进行分析,需要AD转换器将模拟信号转换成数字信号,从而便于图像识别模块进行图像分析和处理。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

Claims (7)

1.一种机器人发声自动调整系统,其特征在于,所述机器人发声自动调整系统包括:控制器、语音采集模块、语音识别模块、图像采集模块、图像识别模块和机器人发声模块,所述语音采集模块与所述语音识别模块相连,所述图像采集模块与所述图像识别模块相连,所述语音识别模块、所述图像识别模块和所述机器人发声模块分别与所述控制器相连;其中,
所述语音采集模块用于采集交互者的语音信息;所述语音识别模块利用麦克风阵列声学分析交互者的语音信息;所述图像采集模块用于采集交互者的脸部图像信息;所述图像识别模块对采集的交互者的脸部图像信息进行分析从而对交互者的年龄进行分类;所述控制器根据所述语音识别模块和所述图像识别模块的分析结果调节所述机器人发声模块,从而调节机器人的发声方式和语速。
2.根据权利要求1所述的机器人发声自动调整系统,其特征在于,所述图像识别模块被配置首先对采集的交互者的脸部图像信息进行预处理,然后对脸部图像信息进行特征提取,再进行降维处理,最后对交互者的年龄进行分类。
3.根据权利要求2所述的机器人发声自动调整系统,其特征在于,所述图像识别模块对脸部图像信息进行的预处理包括:图像灰度化、几何归一化和直方图均衡化。
4.根据权利要求2所述的机器人发声自动调整系统,其特征在于,特征提取采用均匀LBP对脸部图像信息中人脸纹理的局部特征进行提取。
5.根据权利要求4所述的机器人发声自动调整系统,其特征在于,所述降维处理采用PCA算法。
6.根据权利要求2所述的机器人发声自动调整系统,其特征在于,在对交互者的年龄进行分类时利用K近邻算法。
7.根据权利要求1所述的机器人发声自动调整系统,其特征在于,所述图像采集模块包括:高清摄像头和AD转换器,所述高清摄像头用于对召唤者的图像进行采集,所述AD转换器用于将所述高清摄像头采集的模拟信号转换成数字信号,并输出至所述图像识别模块中。
CN201710390548.5A 2017-05-27 2017-05-27 机器人发声自动调整系统 Pending CN107358949A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710390548.5A CN107358949A (zh) 2017-05-27 2017-05-27 机器人发声自动调整系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710390548.5A CN107358949A (zh) 2017-05-27 2017-05-27 机器人发声自动调整系统

Publications (1)

Publication Number Publication Date
CN107358949A true CN107358949A (zh) 2017-11-17

Family

ID=60271946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710390548.5A Pending CN107358949A (zh) 2017-05-27 2017-05-27 机器人发声自动调整系统

Country Status (1)

Country Link
CN (1) CN107358949A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108161933A (zh) * 2017-12-07 2018-06-15 北京康力优蓝机器人科技有限公司 交互模式选择方法、系统及接待机器人
CN108269572A (zh) * 2018-03-07 2018-07-10 佛山市云米电器科技有限公司 一种具有人脸识别功能的语音控制终端及其控制方法
CN108563657A (zh) * 2017-12-29 2018-09-21 上海与德科技有限公司 机器人应答模式的自适应调整方法及智能机器人
CN108766447A (zh) * 2018-08-13 2018-11-06 长虹美菱股份有限公司 一种冰箱的智能语音交互系统及方法
CN109147800A (zh) * 2018-08-30 2019-01-04 百度在线网络技术(北京)有限公司 应答方法和装置
CN109131355A (zh) * 2018-07-31 2019-01-04 上海博泰悦臻电子设备制造有限公司 车辆、车机设备及其基于用户识别的车载场景互动方法
CN110222731A (zh) * 2019-05-16 2019-09-10 深圳市百思智能科技有限公司 一种基于互联网的图像感知装置
CN110459200A (zh) * 2019-07-05 2019-11-15 深圳壹账通智能科技有限公司 语音合成方法、装置、计算机设备及存储介质
CN110610703A (zh) * 2019-07-26 2019-12-24 深圳壹账通智能科技有限公司 基于机器人识别的语音输出方法、装置、机器人及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009178783A (ja) * 2008-01-29 2009-08-13 Toyota Motor Corp コミュニケーションロボット及びその制御方法
CN103151039A (zh) * 2013-02-07 2013-06-12 中国科学院自动化研究所 一种基于向量机svm的说话者年龄段识别方法
CN103810490A (zh) * 2014-02-14 2014-05-21 海信集团有限公司 一种确定人脸图像的属性的方法和设备
CN105058393A (zh) * 2015-08-17 2015-11-18 李泉生 一种迎宾机器人
CN105868606A (zh) * 2016-03-25 2016-08-17 乐视控股(北京)有限公司 一种智能终端控制设备及方法
CN106139564A (zh) * 2016-08-01 2016-11-23 纳恩博(北京)科技有限公司 图像处理方法和装置
CN106407993A (zh) * 2016-09-13 2017-02-15 成都创慧科达科技有限公司 一种基于图像识别技术的智能语音机器人系统及方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009178783A (ja) * 2008-01-29 2009-08-13 Toyota Motor Corp コミュニケーションロボット及びその制御方法
CN103151039A (zh) * 2013-02-07 2013-06-12 中国科学院自动化研究所 一种基于向量机svm的说话者年龄段识别方法
CN103810490A (zh) * 2014-02-14 2014-05-21 海信集团有限公司 一种确定人脸图像的属性的方法和设备
CN105058393A (zh) * 2015-08-17 2015-11-18 李泉生 一种迎宾机器人
CN105868606A (zh) * 2016-03-25 2016-08-17 乐视控股(北京)有限公司 一种智能终端控制设备及方法
CN106139564A (zh) * 2016-08-01 2016-11-23 纳恩博(北京)科技有限公司 图像处理方法和装置
CN106407993A (zh) * 2016-09-13 2017-02-15 成都创慧科达科技有限公司 一种基于图像识别技术的智能语音机器人系统及方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108161933A (zh) * 2017-12-07 2018-06-15 北京康力优蓝机器人科技有限公司 交互模式选择方法、系统及接待机器人
CN108563657A (zh) * 2017-12-29 2018-09-21 上海与德科技有限公司 机器人应答模式的自适应调整方法及智能机器人
CN108269572A (zh) * 2018-03-07 2018-07-10 佛山市云米电器科技有限公司 一种具有人脸识别功能的语音控制终端及其控制方法
CN109131355A (zh) * 2018-07-31 2019-01-04 上海博泰悦臻电子设备制造有限公司 车辆、车机设备及其基于用户识别的车载场景互动方法
CN108766447A (zh) * 2018-08-13 2018-11-06 长虹美菱股份有限公司 一种冰箱的智能语音交互系统及方法
CN109147800A (zh) * 2018-08-30 2019-01-04 百度在线网络技术(北京)有限公司 应答方法和装置
US11475897B2 (en) 2018-08-30 2022-10-18 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for response using voice matching user category
CN110222731A (zh) * 2019-05-16 2019-09-10 深圳市百思智能科技有限公司 一种基于互联网的图像感知装置
CN110459200A (zh) * 2019-07-05 2019-11-15 深圳壹账通智能科技有限公司 语音合成方法、装置、计算机设备及存储介质
CN110610703A (zh) * 2019-07-26 2019-12-24 深圳壹账通智能科技有限公司 基于机器人识别的语音输出方法、装置、机器人及介质

Similar Documents

Publication Publication Date Title
CN107358949A (zh) 机器人发声自动调整系统
EP3627499B1 (en) Image processing apparatus and method
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
US11437032B2 (en) Image processing apparatus and method
US20200126555A1 (en) Image processing apparatus and method
CN111833899B (zh) 一种基于多音区的语音检测方法、相关装置及存储介质
CN110874137B (zh) 一种交互方法以及装置
CN113158727A (zh) 一种基于视频和语音信息的双模态融合情绪识别方法
Scanlon et al. Feature analysis for automatic speechreading
WO2002029784A1 (en) Audio visual speech processing
CN112016367A (zh) 一种情绪识别系统、方法及电子设备
JP2010511958A (ja) ジェスチャー/音声統合認識システム及び方法
US20140222425A1 (en) Speech recognition learning method using 3d geometric information and speech recognition method using 3d geometric information
Itkarkar et al. Hand gesture to speech conversion using Matlab
KR102265874B1 (ko) 멀티모달 기반 사용자 구별 방법 및 장치
KR102479031B1 (ko) 딥러닝 네트워크를 이용한 입 모양 생성 방법 및 장치
KR20210048271A (ko) 복수 객체에 대한 자동 오디오 포커싱 방법 및 장치
KR101171047B1 (ko) 음성 및 영상 인식 기능을 갖는 로봇 시스템 및 그의 인식 방법
KR101353936B1 (ko) 음성 인식 장치 및 음성 인식 방법
JP2023117068A (ja) 音声認識装置、音声認識方法、音声認識プログラム、音声認識システム
Canton-Ferrer et al. Audiovisual event detection towards scene understanding
Su et al. LipLearner: Customizing silent speech commands from voice input using one-shot lipreading
JP2019191339A (ja) 電子機器、制御プログラム、制御装置および制御方法
CN114666706B (zh) 音效增强方法、装置及系统
CN109584862B (zh) 图像处理装置和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171117