CN112347691B - 人工智能服务器 - Google Patents

人工智能服务器 Download PDF

Info

Publication number
CN112347691B
CN112347691B CN202010558065.3A CN202010558065A CN112347691B CN 112347691 B CN112347691 B CN 112347691B CN 202010558065 A CN202010558065 A CN 202010558065A CN 112347691 B CN112347691 B CN 112347691B
Authority
CN
China
Prior art keywords
domain
model
input data
artificial intelligence
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010558065.3A
Other languages
English (en)
Other versions
CN112347691A (zh
Inventor
韩钟祐
金载烘
金孝恩
李泰镐
田惠晶
郑韩吉
崔喜然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN112347691A publication Critical patent/CN112347691A/zh
Application granted granted Critical
Publication of CN112347691B publication Critical patent/CN112347691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Remote Sensing (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

公开了一种人工智能服务器。该人工智能服务器包括:输入单元,输入数据被输入到该输入单元;以及处理器,当由人工智能模型关于第一输入数据输出的第一输出值是正确的并且由人工智能模型关于第二输入数据输出的第二输出值是不正确的时,所述处理器被配置为使用第一输入数据和第二输入数据来获得导致不正确答案的第一域,并且训练人工智能模型针对第一域进行域自适应。

Description

人工智能服务器
技术领域
本发明涉及一种人工智能服务器,该人工智能服务器可以通过将人工智能模型训练为针对导致不正确答案的各个域进行域自适应(域自适应)来提高人工智能模型的性能。
背景技术
人工智能是计算机科学和信息技术领域,该领域研究计算机进行人类智能可以进行的思考、学习和自我发展的方法,并且意味着使计算机能够模仿人类智能行为。
另外,人工智能本身并不存在,而是与计算机科学的其它领域直接或间接相关。尤其是在当今时代,人工智能元素被引入信息技术的各个领域,因此使得人们一直积极尝试解决相应领域中的问题。
同时,已经积极地研究了使用人工智能识别和学习周围情况、以期望的形式提供用户期望的信息、或者执行期望操作或功能的技术。
然后,提供这样的各种操作和功能的电子设备可以被称为人工智能设备。
同时,AI模型在实验室环境中被训练并且被发布为产品。
然而,由于人工智能模型的实验室环境和实际使用环境可能不同,所以人工智能模型的性能可能低于实验室环境的性能。
例如,人工智能模型的设计者已经使用在安静环境(即,低噪声环境)中收集的语音数据来训练语音识别模型。然而,当在噪声环境(高噪声环境)中使用装配有语音识别模型的产品时,由于大声噪声数据被输入到语音识别模型中,因此语音识别模型的性能可能会降低。
因此,需要通过检测人工智能模型被训练的环境与实际使用环境之间的差异并且根据该差异来训练深度学习模型来提高性能。
发明内容
技术问题
本发明涉及一种人工智能服务器,该人工智能服务器可以通过将人工智能模型训练为针对导致不正确答案的各个域进行域自适应(域自适应)来提高人工智能模型的性能。
技术方案
根据本发明的一个实施方式,一种人工智能服务器包括:输入单元,输入数据被输入到该输入单元;以及处理器,当由人工智能模型关于第一输入数据输出的第一输出值是正确的并且由人工智能模型关于第二输入数据输出的第二输出值是不正确的时,该处理器被配置成使用第一输入数据和第二输入数据获得导致不正确答案的第一域,并且将人工智能模型训练为针对第一域进行域自适应。
有益效果
本发明具有通过重复执行域自适应来不断提高人工智能模型的性能的优点。
另外,由于本发明确定导致最不正确答案的域,并且首先对导致最不正确答案的域执行域自适应,因此具有更快地提高人工智能模型的性能的优点。
另外,根据本发明,由于在改变将成为域自适应的目标的域的同时重复执行域自适应,所以对各个域进行域自适应。因此,具有更快地提高人工智能模型的性能的优点。
另外,根据本发明,每当重复执行域自适应时,通过选择导致最不正确答案的域来执行域自适应。因此,具有更快地提高人工智能模型的性能的优点。
根据本发明,可以通过以各种组合执行域自适应并且选择具有最高性能的人工智能模型来提高AI模型的性能。
根据本发明,不另外训练多个人工智能模型中的一些人工智能模型,或者从存储器中删除一些人工智能模型,从而减少了计算和存储空间的量。
附图说明
图1示出了根据本发明的实施方式的AI设备100。
图2示出了根据本发明的实施方式的AI服务器200。
图3示出了根据本发明的实施方式的AI系统1。
图4是示出根据本发明的实施方式的AI服务器的操作方法的图。
图5至图7是用于描述根据本发明的实施方式的获取导致不正确答案的域的方法的图。
图8是示出域自适应方法的图。
图9是用于描述根据本发明的实施方式的使用神经网络的域对抗训练(DANN)的域自适应的图。
图10是用于描述选择具有最佳性能的人工智能模型同时重复执行域自适应并且然后管理历史的方法的图。
图11是用于描述根据本发明的实施方式的从口语文本中提取重要词语并且使用从重要词语中提取的特征来获取导致不正确答案的域的方法的图。
图12是用于描述根据本发明的实施方式的获取低置信度词语并且使用低置信度词语的重要性来区分低置信度词语的方法的图。
具体实施方式
在下文中,参考附图更详细地描述本公开的实施方式,并且不管附图符号如何,相同或相似的组件被分配有相同的附图标记,因此省略了对它们的重复描述。考虑到编写说明书的容易性,以下描述中使用的组件的后缀“模块”和“单元”被指派或混合,并且它们自身没有特殊含义或作用。在下面的描述中,将省略对公知功能或构造的详细描述,因为它们会在不必要的细节上使本发明模糊不清。另外,附图用于帮助容易地理解本文公开的实施方式,但是本公开的技术思想不限于此。应当理解,还包括本公开的概念和技术范围中包含的所有变型、等同物或替代物。
将理解的是,术语“第一”和“第二”在本文中用于描述各种组件,但是这些组件不应受到这些术语的限制。这些术语仅用于区分一个组件与其它组件。
在下面的本公开中,当一个部件(或元件、设备等)被称为“连接”到另一部件(或元件、设备等)时,应理解前者可以是经由中间部件(或元件、设备等)“直接连接”至后者,或“电连接”至后者。还将理解的是,当一个组件被称为“直接连接”或“直接链接”到另一个组件时,这意味着不存在中间组件。
<人工智能(AI)>
人工智能是指研究人工智能或用于制造人工智能的方法的领域,并且机器学习是指定义人工智能领域中处理的各种问题并且研究用于解决各种问题的方法的领域。机器学习被定义为通过对某项任务的稳定体验来提高某项任务的性能的算法。
人工神经网络(ANN)是在机器学习中使用的模型,并且可以表示解决问题能力的整体模型,该模型由通过突触连接形成网络的人工神经元(节点)组成。可以通过不同层中的神经元之间的连接模式、用于更新模型参数的学习过程以及用于生成输出值的激活函数来定义人工神经网络。
人工神经网络可以包括输入层、输出层以及可选地一个或更多个隐藏层。各个层包括一个或更多个神经元,并且人工神经网络可以包括将神经元链接到神经元的突触。在人工神经网络中,各个神经元可以输出针对通过突触输入的输入信号、权重和偏转的激活函数的函数值。
模型参数是指通过学习确定的参数,并且包括神经元的突触连接和偏转的权重值。超参数是指要在学习之前在机器学习算法中设置的参数,并且包括学习速率、重复次数、最小批量大小和初始化函数。
学习人工神经网络的目的可以是确定使损失函数最小化的模型参数。损失函数可以用作在人工神经网络的学习过程中确定最佳模型参数的指标。
根据学习方法,机器学习可以分类为监督学习、无监督学习和强化学习。
监督学习可以指在给出用于学习数据的标签的状态下学习人工神经网络的方法,并且该标签可以表示当学习数据被输入到人工神经网络时人工神经网络必须推断出的正确答案(或结果值)。无监督学习可以指在不给出用于学习数据的标签的状态下学习人工神经网络的方法。强化学习可以指这样一种学习方法,在该学习方法中,在特定环境中定义的主体(agent)学习选择使每个状态下的累积补偿最大化的行为或行为序列。
被实现为包括人工神经网络中的多个隐藏层的深度神经网络(DNN)的机器学习也被称为深度学习,并且深度运行是机器运行的一部分。在下文中,机器学习用于表示深度运行。
<机器人>
机器人可以指通过自身能力自动处理或操作给定任务的机器。特别地,具有识别环境并且执行自确定操作的功能的机器人可以被称为智能机器人。
根据使用目的或领域,机器人可以被分类为工业机器人、医疗机器人、家用机器人、军用机器人等。
机器人包括驱动单元,该驱动单元可以包括致动器或电动机,并且可以执行各种物理操作,诸如使机器人关节移动。另外,可移动机器人可以包括在驱动单元中的轮子、制动器、推进器等,并且可以通过驱动单元在地面上行走或在空中飞行。
<自动驾驶>
自动驾驶是指自己驾驶的技术,并且自动驾驶车辆是指在没有用户操作或用户最少操作的情况下行驶的车辆。
例如,自动驾驶可以包括用于在驾驶时保持车道的技术、用于自动调节速度的技术(诸如,自适应巡航控制)、用于沿着预定路线自动行驶的技术、以及用于在设置目的地时自动设置路线并且在该路线上行驶的技术。
车辆可以包括仅具有内燃机的车辆、具有内燃机和电动机的混合动力车辆以及仅具有电动机的电动车辆,并且不仅可以包括汽车,还可以包括火车、摩托车等。
此时,自动驾驶车辆可以被认为是具有自动驾驶功能的机器人。
<扩展现实(XR)>
扩展现实统称为虚拟现实(VR)、增强现实(AR)和混合现实(MR)。VR技术仅提供真实世界对象和背景作为CG图像,AR技术在真实对象图像上提供虚拟CG图像,而MR技术是将虚拟对象混合并且组合到真实世界中的计算机图形技术。
MR技术与AR技术的相似之处在于真实对象和虚拟对象被一起显示。然而,在AR技术中,以补充真实对象的形式使用虚拟对象,而在MR技术中,以同等的方式使用虚拟对象和真实对象。
XR技术可以应用于头戴式显示器(HMD)、平视显示器(HUD)、移动电话、平板电脑、笔记本电脑、台式机、电视、数字标牌等。应用了XR技术的设备可以称为XR设备。
图1示出了根据本发明的实施方式的AI设备100。
AI设备100可以由固定设备或移动设备来实现,诸如电视、投影仪、移动电话、智能电话、台式计算机、笔记本、数字广播终端、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航设备、平板电脑、可穿戴设备、机顶盒(STB)、DMB接收器、收音机、洗衣机、冰箱、台式计算机、数字标牌、机器人、车辆等。
参考图1,AI设备100可以包括通信单元110、输入单元120、学习处理器130、感测单元140、输出单元150、存储器170和处理器180。
通信单元110可以通过使用有线/无线通信技术向诸如其它AI设备100a至100e和AI服务器200的外部设备发送数据并且从其接收数据。例如,通信单元110可以向外部设备发送和从外部设备接收传感器信息、用户输入、学习模型以及控制信号。
通信单元110使用的通信技术包括GSM(全球移动通信系统)、CDMA(码分多址)、LTE(长期演进)、5G、WLAN(无线LAN)、Wi-Fi(无线-保真)、BluetoothTM、RFID(射频识别)、红外数据协会(IrDA)、ZigBee、NFC(近场通信)等。
输入单元120可以获取各种数据。
此时,输入单元120可以包括用于输入视频信号的相机、用于接收音频信号的麦克风以及用于从用户接收信息的用户输入单元。相机或麦克风可以被视为传感器,并且从相机或麦克风获取的信号可以被称为感测数据或传感器信息。
输入单元120可以获取用于模型学习的学习数据和当通过使用学习模型获取输出时要使用的输入数据。输入单元120可以获取原始输入数据。在这种情况下,处理器180或学习处理器130可以通过预处理输入数据来提取输入特征。
学习处理器130可以通过使用学习数据来学习由人工神经网络组成的模型。所学习的人工神经网络可以被称为学习模型。学习模型可以用于推断针对新输入数据而不是学习数据的结果值,并且推断的值可以用作确定执行特定操作的基础。
此时,学习处理器130可以与AI服务器200的学习处理器240一起执行AI处理。
此时,学习处理器130可以包括在AI设备100中集成或实现的存储器。另选地,学习处理器130可以通过使用存储器170、直接连接到AI设备100的外部存储器、或保持在外部设备中的存储器实现。
感测单元140可以通过使用各种传感器来获取关于AI设备100的内部信息、关于AI设备100的周围环境信息以及用户信息中的至少一项。
感测单元140中包括的传感器的示例可以包括接近传感器、照度传感器、加速度传感器、磁传感器、陀螺仪传感器、惯性传感器、RGB传感器、IR传感器、指纹识别传感器、超声传感器、光学传感器、麦克风、激光雷达和雷达。
输出单元150可以生成与视觉、听觉或触觉有关的输出。
此时,输出单元150可以包括用于输出时间信息的显示单元、用于输出听觉信息的扬声器以及用于输出触觉信息的触觉模块。
存储器170可以存储支持AI设备100的各种功能的数据。例如,存储器170可以存储由输入单元120获取的输入数据、学习数据、学习模型、学习历史等。
处理器180可以基于通过使用数据分析算法或机器学习算法确定或生成的信息来确定AI设备100的至少一个可执行操作。处理器180可以控制AI设备100的组件以执行所确定的操作。
为此,处理器180可以请求、搜索、接收或利用学习处理器130或存储器170的数据。处理器180可以控制AI设备100的组件执行预测的操作或至少一个可执行操作中的被确定为期望的操作。
当需要外部设备的连接来执行所确定的操作时,处理器180可以生成用于控制外部设备的控制信号,并且可以将所生成的控制信号发送到外部设备。
处理器180可以获取用于用户输入的意图信息,并且可以基于所获取的意图信息来确定用户的需求。
处理器180可以通过使用用于将语音输入转换为文本串的语音到文本(STT)引擎或用于获取自然语言的意图信息的自然语言处理(NLP)引擎中的至少一个来获取与用户输入相对应的意图信息。
STT引擎或NLP引擎中的至少一个可以被配置为人工神经网络,其至少一部分根据机器学习算法来学习。STT引擎或NLP引擎中的至少一个可以由学习处理器130学习,可以由AI服务器200的学习处理器240学习,或者可以通过它们的分布式处理来学习。
处理器180可以收集包括AI装置100的操作内容或用户对该操作的反馈的历史信息,并且可以将所收集的历史信息存储在存储器170或学习处理器130中,或者将所收集的历史信息发送至诸如AI服务器200的外部设备。所收集的历史信息可用于更新学习模型。
处理器180可以控制AI设备100的组件的至少一部分,以驱动存储在存储器170中的应用程序。此外,处理器180可以组合操作AI设备100中包括的两个或更多个组件以驱动应用程序。
图2示出了根据本发明的实施方式的AI服务器200。
参考图2,AI服务器200可以指通过使用机器学习算法来学习人工神经网络或使用所学习的人工神经网络的设备。AI服务器200可以包括执行分布式处理的多个服务器,或者可以被定义为5G网络。此时,AI服务器200可以被包括为AI设备100的部分配置,并且可以一起执行AI处理的至少部分。
AI服务器200可以包括通信单元210、存储器230、学习处理器240、处理器260等。
通信单元210可以向诸如AI设备100的外部设备发送数据并且从其接收数据。
存储器230可以包括模型存储单元231。模型存储单元231可以通过学习处理器240存储学习或被学习的模型(或人工神经网络231a)。
学习处理器240可以通过使用学习数据来学习人工神经网络231a。学习模型可以在被安装在人工神经网络的AI服务器200上的状态下使用,或者可以在被安装在诸如AI设备100的外部设备上的状态下使用。
学习模型可以以硬件、软件或硬件和软件的组合来实现。如果全部或部分学习模型以软件实现,则构成学习模型的一条或多条指令可以被存储在存储器230中。
处理器260可以通过使用学习模型来推断针对新输入数据的结果值,并且可以基于所推断的结果值来生成响应或控制命令。
图3示出了根据本发明的实施方式的AI系统1。
参考图3,在AI系统1中,AI服务器200、机器人100a、自动驾驶车辆100b、XR设备100c、智能手机100d或家用电器100e中的至少一个连接到云网络10。机器人100a、自动驾驶车辆100b、XR设备100c、智能手机100d或(应用了AI技术的)家用电器100e可以称为AI设备100a至100e。
云网络10可以指形成云计算基础设施的部分或存在于云计算基础设施中的网络。可以通过使用3G网络、4G或LTE网络或5G网络来配置云网络10。
也就是说,构成AI系统1的设备100a至100e和200可以通过云网络10彼此连接。特别地,设备100a至100e和200中的每个可以通过基站彼此通信,但是可以直接相互通信而无需使用基站。
AI服务器200可以包括执行AI处理的服务器和对大数据执行操作的服务器。
AI服务器200可以通过云网络10连接到构成AI系统1的AI设备(即,机器人100a、自动驾驶车辆100b、XR设备100c、智能电话100d或家用电器100e)中的至少一个,并且可以协助所连接的AI设备100a至100e的AI处理的至少部分。
此时,AI服务器200而不是AI设备100a至100e可以根据机器学习算法来学习人工神经网络,并且可以直接存储学习模型或将学习模型发送到AI设备100a至100e。
此时,AI服务器200可以从AI设备100a到100e接收输入数据,可以通过使用学习模型来推断针对接收到的输入数据的结果值,可以基于所推断的结果值来生成响应或控制命令,并且可以将响应或控制命令发送到AI设备100a至100e。
另选地,AI设备100a至100e可以通过直接使用学习模型来推断针对输入数据的结果值,并且可以基于推断结果来生成响应或控制命令。
在下文中,将描述应用了上述技术的AI设备100a至100e的各种实施方式。图3所示的AI设备100a至100e可以被视为图1所示的AI设备100的特定实施方式。
<AI+机器人>
应用了AI技术的机器人100a可以被实现为引导机器人、搬运机器人、清洁机器人、可穿戴机器人、娱乐机器人、宠物机器人、无人飞行机器人等。
机器人100a可以包括用于控制操作的机器人控制模块,并且机器人控制模块可以指软件模块或通过硬件实现软件模块的芯片。
机器人100a可以通过使用从各种传感器获取的传感器信息来获取关于机器人100a的状态信息,可以检测(识别)周围环境和对象,可以生成地图数据,可以确定路线和行驶计划,可以确定对用户交互的响应,或者可以确定操作。
机器人100a可以使用从激光雷达、雷达和相机中的至少一个传感器获取的传感器信息,以确定行驶路线和行驶计划。
机器人100a可以通过使用由至少一个人工神经网络组成的学习模型来执行上述操作。例如,机器人100a可以通过使用学习模型来识别周围环境和对象,并且可以通过使用识别出的周围信息或对象信息来确定操作。学习模型可以直接从机器人100a直接获知,或者可以从诸如AI服务器200的外部设备获知。
此时,机器人100a可以通过直接使用学习模型生成结果来执行操作,但是传感器信息可以被发送到诸如AI服务器200的外部设备,并且所生成的结果可以被接收以执行操作。
机器人100a可以使用地图数据、从传感器信息检测到的对象信息、或从外部装置获取的对象信息中的至少一个来确定行驶路线和行驶计划,并且可以控制驱动单元使得机器人100a沿着所确定的行驶路线和行驶计划行驶。
地图数据可以包括与布置在机器人100a移动的空间中的各种对象有关的对象识别信息。例如,地图数据可以包括与诸如墙壁和门的固定对象以及诸如花粉和书桌的可移动对象有关的对象识别信息。对象识别信息可以包括名称、类型、距离和位置。
另外,机器人100a可以通过基于用户的控制/交互控制驱动单元来执行操作或行驶。此时,机器人100a可以获取由于用户的操作或语音表达导致的交互的意图信息,并且可以基于所获取的意图信息来确定响应,并且可以执行操作。
<AI+自动驾驶>
应用了AI技术的自动驾驶车辆100b可以被实现为移动机器人、车辆、无人驾驶飞行器等。
自动驾驶车辆100b可以包括用于控制自动驾驶功能的自动驾驶控制模块,并且自动驾驶控制模块可以指软件模块或通过硬件实现软件模块的芯片。自动驾驶控制模块可以作为其组件被包括在自动驾驶车辆100b中,但是可以用单独硬件来实现并且连接到自动驾驶车辆100b的外部。
自动驾驶车辆100b可以通过使用从各种传感器获取的传感器信息来获取关于自动驾驶车辆100b的状态信息,可以检测(识别)周围环境和对象,可以生成地图数据,可以确定路线和行驶计划,或者可以确定操作。
与机器人100a一样,自动驾驶车辆100b可以使用从激光雷达、雷达和相机中的至少一个传感器获取的传感器信息,以确定行驶路线和行驶计划。
特别地,自动驾驶车辆100b可以通过从外部设备接收传感器信息来识别针对由视场覆盖的区域或一定距离内的区域的环境或对象,或者可以从外部设备接收直接识别的信息。
自动驾驶车辆100b可以通过使用由至少一个人工神经网络组成的学习模型来执行上述操作。例如,自动驾驶车辆100b可以通过使用学习模型来识别周围环境和对象,并且可以通过使用识别出的周围信息或对象信息来确定行驶运动线路。学习模型可以直接从自动驾驶车辆100a学习,或者可以从诸如AI服务器200的外部设备学习。
此时,自动驾驶车辆100b可以通过直接使用学习模型生成结果来执行操作,但是传感器信息可以被发送到诸如AI服务器200的外部设备,并且所生成的结果可以被接收以执行操作。
自动驾驶车辆100b可以使用地图数据、从传感器信息检测到的对象信息、或者从外部装置获取的对象信息中的至少一个来确定行驶路线和行驶计划,并且可以控制驱动单元,以使自动驾驶车辆100b沿着所确定的行驶路线和行驶计划行驶。
地图数据可以包括与布置在自动驾驶车辆100b行驶的空间(例如,道路)中的各种对象有关的对象识别信息。例如,地图数据可以包括与诸如路灯、岩石和建筑物的固定对象以及诸如车辆和行人的可移动对象有关的对象识别信息。对象识别信息可以包括名称、类型、距离和位置。
另外,自动驾驶车辆100b可以通过基于用户的控制/交互控制驱动单元来执行操作或行驶。此时,自动驾驶车辆100b可以获取由于用户的操作或语音表达导致的交互的意图信息,并且可以基于所获取的意图信息来确定响应,并且可以执行该操作。
<AI+XR>
应用了AI技术的XR设备100c可以通过头戴式显示器(HMD)、车辆中设置的平视显示器(HUD)、电视、移动电话、智能手机、计算机、可穿戴设备、家用电器,数字标牌、车辆、固定机器人、移动机器人等实现。
XR设备100c可以分析从各种传感器或外部设备获取的三维点云数据或图像数据,生成三维点的位置数据和属性数据,获取与周围空间或真实对象有关的信息,并且进行渲染以输出要输出的XR对象。例如,XR设备100c可以对应于识别出的对象输出包括与识别出的对象有关的附加信息的XR对象。
XR设备100c可以通过使用由至少一个人工神经网络组成的学习模型来执行上述操作。例如,XR设备100c可以通过使用学习模型从三维点云数据或图像数据中识别真实对象,并且可以提供与识别出的真实对象相对应的信息。学习模型可以从XR设备100c直接学习,或者可以从诸如AI服务器200的外部设备学习。
此时,XR设备100c可以通过直接使用学习模型生成结果来执行操作,但是可以将传感器信息发送到诸如AI服务器200的外部设备,并且可以接收所生成的结果以执行操作。
<AI+机器人+自动驾驶>
应用了AI技术和自动驾驶技术的机器人100a可以被实现为引导机器人、搬运机器人、清洁机器人、可穿戴机器人、娱乐机器人、宠物机器人、无人飞行机器人等。
应用了AI技术和自动驾驶技术的机器人100a可以指具有自动驾驶功能的机器人本身或与自动驾驶车辆100b交互的机器人100a。
具有自动驾驶功能的机器人100a可以统称为在没有用户控制的情况下沿着给定运动线路自己移动的设备,或者通过自己确定运动线路自己移动的设备。
具有自动驾驶功能的机器人100a和自动驾驶车辆100b可以使用共同的感测方法来确定行驶路线或行驶计划中的至少一个。例如,具有自动驾驶功能的机器人100a和自动驾驶车辆100b可以通过使用经由激光雷达、雷达和相机感测到的信息来确定行驶路线或行驶计划中的至少一个。
与自动驾驶车辆100b交互的机器人100a与自动驾驶车辆100b单独存在,并且可以执行与自动驾驶车辆100b的自动驾驶功能相互配合或与乘坐自动驾驶车辆100b的用户相互配合的操作。
此时,与自动驾驶车辆100b交互的机器人100a可以通过获取代表自动驾驶车辆100b的传感器信息并且将传感器信息提供给自动驾驶车辆100b,或者通过获取传感器信息,生成环境信息或对象信息,并且将该信息提供给自动驾驶车辆100b来控制或辅助自动驾驶车辆100b的自动驾驶功能。
另选地,与自动驾驶车辆100b交互的机器人100a可以监视登上自动驾驶车辆100b的用户,或者可以通过与用户的交互来控制自动驾驶车辆100b的功能。例如,当确定驾驶员处于困倦状态时,机器人100a可以激活自动驾驶车辆100b的自动驾驶功能或辅助对自动驾驶车辆100b的驱动单元的控制。由机器人100a控制的自动驾驶车辆100b的功能不仅可以包括自动驾驶功能,还可以包括由自动驾驶车辆100b中提供的导航系统或音频系统提供的功能。
另选地,与自动驾驶车辆100b交互的机器人100a可以向自动驾驶车辆100b外部的自动驾驶车辆100b提供信息或辅助所述功能。例如,机器人100a可以向自动驾驶车辆100b提供包括信号信息等的交通信息(诸如智能信号),并且通过与自动驾驶车辆100b交互将充电器自动连接到充电端口,就像电动车辆的自动充电器一样。
<AI+机器人+XR>
应用AI技术和XR技术的机器人100a可以被实现为引导机器人、搬运机器人、清洁机器人、可穿戴机器人、娱乐机器人、宠物机器人、无人飞行机器人、无人驾驶飞行器等。
应用XR技术的机器人100a可以指在XR图像中经受控制/交互的机器人。在这种情况下,机器人100a可以与XR设备100c分离并且彼此相互配合。
当在XR图像中经受控制/交互的机器人100a可以从包括相机的传感器获取传感器信息时,机器人100a或XR设备100c可以基于传感器信息生成XR图像,并且XR设备100c可以输出所生成的XR图像。机器人100a可以基于通过XR设备100c或用户的交互输入的控制信号进行操作。
例如,用户可以确认与机器人100a通过诸如XR设备100c的外部设备远程相互配合的时间点相对应的XR图像,通过交互来调整机器人100a的自动驾驶行驶路径,控制操作或驾驶,或确认有关周围对象的信息。
<AI+自动驾驶+XR>
应用AI技术和XR技术的自动驾驶车辆100b可以被实现为移动机器人、车辆、无人驾驶飞行器等。
应用XR技术的自动驾驶车辆100b可以指具有用于提供XR图像的装置的自动驾驶车辆或在XR图像中经受控制/交互的自动驾驶车辆。特别地,可以将在XR图像中经受控制/交互的自动驾驶车辆100b与XR设备100c区分开并且彼此相互配合。
具有用于提供XR图像的装置的自动驾驶车辆100b可以从包括相机的传感器获取传感器信息,并且基于所获取的传感器信息输出所生成的XR图像。例如,自动驾驶车辆100b可以包括HUD以输出XR图像,从而向乘客提供真实对象或与屏幕中的对象相对应的XR对象。
此时,当将XR对象输出到HUD时,可以输出XR对象的至少部分,以便与乘客的视线所指向的实际对象交叠。另外,当将XR对象输出到设置在自动驾驶车辆100b中的显示器时,可以输出XR对象的至少部分以使其与屏幕中的对象交叠。例如,自动驾驶车辆100b可以输出与诸如车道、另一车辆、交通信号灯、交通标志、两轮车、行人、建筑物等的对象相对应的XR对象。
当在XR图像中经受控制/交互的自动驾驶车辆100b可以从包括相机的传感器获取传感器信息时,自动驾驶车辆100b或XR设备100c可以基于传感器信息生成XR图像,并且XR设备100c可以输出所生成的XR图像。自动驾驶车辆100b可以基于通过诸如XR设备100c的外部设备或用户的交互输入的控制信号来操作。
以下是人工智能的简要描述。
人工智能(AI)是计算机工程和信息技术的一个领域,用于研究使计算机能够执行可以由人类智能执行的思考、学习和自我发展的方法,并且可以表示计算机模仿人类的智能行为。
此外,AI直接/间接地与计算机工程的其它领域相关联,而不单独提供。特别地,目前,在信息技术的各个领域中,正在积极地尝试引入AI组件并且使用AI组件来解决相应领域的问题。
机器学习是AI的一个领域,并且是使计算机无需显式程序即可执行学习的研究领域。
详细地,机器学习可以是研究并且建立用于基于经验数据执行学习、执行预测并自主增强性能和与之相关的算法的技术。机器学习算法可以使用建立一种用于基于输入数据获取预测或决策的特定模型的方法,而不是执行严格预定义的程序指令的方法。
术语“机器学习”可以被称为“机器学习”。
在机器学习中,已经开发了用于对数据进行分类的许多机器学习算法。决策树、贝叶斯网络、支持向量机(SVM)和人工神经网络(ANN)是机器学习算法的代表示例。
决策树是通过将决策规则图式化为树结构来执行分类和预测的分析方法。
贝叶斯网络是多个变量之间的概率关系(条件独立性)被表示为图形结构的模型。贝叶斯网络适于基于无监督学习的数据挖掘。
SVM是用于模式识别和数据分析的监督学习模型并且主要用于分类和回归。
ANN是实现生物神经元的操作原理和神经元之间的连接关系的模型,并且是称为节点或处理元件的多个神经元以层结构的形式相互连接的信息处理系统。
ANN是用于机器学习的模型,并且是从机器学习和认知科学中的生物学的神经网络(例如,动物的中枢神经系统中的大脑)得到启发的统计学习算法。
详细地,ANN可以表示通过突触的连接形成的网络的人工神经元(节点)通过学习改变突触的连接强度从而获得解决问题的能力的所有模型。
术语“ANN”可以被称为“神经网络”。
ANN可以包括多个层,并且多个层中的每个可以包括多个神经元。而且,ANN可以包括将一个神经元连接到另一个神经元的突触。
ANN通常可以由以下因素定义:(1)不同层的神经元之间的连接模式;(2)更新连接权重的学习过程;以及(3)用于根据从前一层接收的输入的权重和生成输出值的激活函数。
ANN可以包括网络模型,诸如深度神经网络(DNN)、递归神经网络(RNN)、双向递归深度神经网络(BRDNN)、多层感知器(MLP)和卷积神经网络(CNN),但不限于此。
在本说明书中,术语“层”可以被称为“层”。
可以基于层数将ANN归类为单层神经网络和多层神经网络。
普通的单层神经网络配置有输入层和输出层。
此外,普通的多层神经网络配置有输入层、至少一个隐藏层和输出层。
输入层是接收外部数据的层,并且输入层的神经元数量与输入变量的数量相同,并且隐藏层位于输入层和输出层之间并且从输入层接收信号以从接收到的信号中提取特征,并且可以将所提取的特征传输到输出层。输出层从隐藏层接收信号,并且基于接收到的信号输出输出值。神经元之间的输入信号可以乘以各个连接强度(权重),并且可以将通过乘法获得的值相加。当总和大于神经元的阈值时,神经元可以被激活并且可以输出通过激活函数获得的输出值。
在输入层和输出层之间包括多个隐藏层的DNN可以是实现深度学习的代表性ANN,深度学习是一种机器学习技术。
术语“深度学习”可以被称为“深度学习”。
可以通过使用训练数据来训练ANN。这里,训练可以表示确定ANN的参数的过程,以实现诸如对输入数据进行分类、回归或聚类的目的。ANN的参数的代表性示例可以包括分配给突触的权重或应用至神经元的偏差。
基于训练数据训练的ANN可以基于输入数据的模式对输入数据进行分类或聚类。
在本说明书中,基于训练数据训练的ANN可以被称为训练模型。
接下来,将描述ANN的学习方法。
ANN的学习方法可以大致分为监督学习、无监督学习、半监督学习和强化学习。
监督学习可以是一种用于根据训练数据类推一个函数的机器学习方法。
此外,在类推的函数中,输出连续值的函数可以被称为回归,而预测和输出输入向量的类的函数可以被称为分类。
在监督学习中,可以在分配训练数据的标签的状态下训练ANN。
这里,标签可以表示当训练数据被输入到ANN时由ANN推断出的正确答案(或结果值)。
在本说明书中,当训练数据被输入到ANN时由ANN推断出的正确答案(或结果值)可以被称为标签或标记数据。
此外,在本说明书中,将标签分配给用于学习ANN的训练数据的过程可以称为将标记数据标记为训练数据的过程。
在这种情况下,训练数据和与训练数据相对应的标签可以配置一个训练集,并且可以以训练集的形式被输入到ANN。
训练数据可以表示多个特征,并且被标记为训练数据的标签可以表示该标签被分配给由训练数据表示的特征。在这种情况下,训练数据可以将输入对象的特征表示为向量类型。
ANN可以通过使用训练数据和标记数据来类推与训练数据和标记数据之间的关联关系相对应的函数。而且,可以通过评估类推的函数来确定(优化)ANN的参数。
无监督学习是一种机器学习,并且在这种情况下,标签可能不被分配给训练数据。
详细地,无监督学习可以是训练ANN以便从训练数据本身检测模式并且对训练数据进行分类的学习方法,而不是检测训练数据和与训练数据对应的标签之间的关联关系。
无监督学习的示例可以包括聚类和独立成分分析。
在本说明书中,术语“聚类”可以被称为“聚类”。
使用无监督学习的ANN的示例可以包括生成式对抗网络(GAN)和自动编码器(AE)。
GAN是通过称为生成器和鉴别器的两个不同AI之间的竞争来提高性能的方法。
在这种情况下,生成器是用于基于原始数据生成新数据并且创建新数据的模型。
此外,鉴别器是用于识别数据模式的模型,并且确定输入数据是原始数据还是从生成器生成的伪造数据。
此外,可以通过接收和使用不欺骗鉴别器的数据来训练生成器,并且可以通过接收和使用由生成器生成的欺骗数据来训练鉴别器。因此,生成器可以进化以便尽可能多地欺骗鉴别器,并且鉴别器可以进化以将原始数据与生成器生成的数据区分开。
AE是用于将输入再现为输出的神经网络。
AE可以包括输入层、至少一个隐藏层和输出层。
在这种情况下,隐藏层的节点的数量可以小于输入层的节点的数量,因此可以减小数据的尺寸,从而可以执行压缩或编码。
此外,从隐藏层输出的数据可以进入输出层。在这种情况下,输出层的节点的数量可以大于隐藏层的节点的数量,因此数据的尺寸可以增大,并且因此可以执行解压缩或解码。
AE可以通过学习来控制神经元的连接强度,因此输入数据可以被表达为隐藏层数据。在隐藏层中,可以通过使用比输入层更少数量的神经元来表达信息,并且被再现为输出的输入数据可以表示隐藏层从输入数据中检测出并且表达了隐藏模式。
半监督学习是一种机器学习,并且可以表示既使用分配有标签的训练数据又使用未分配标签的训练数据的一种学习方法。
作为一种类型的半监督学习技术,存在推断没有分配标签的训练数据的标签并且通过使用推断出的标签进行学习的技术,并且这样的技术可用于标记时花费的成本很高的情况。
强化学习可以是一种理论,在该理论中中,当提供主体(agent)能够确定每时每刻要采取的行动的环境时,在没有数据的情况下通过经验获得最佳方式。
可以通过马尔可夫决策过程(Markov decision process,MDP)进行强化学习。
为了描述MDP,首先可以提供一种环境,在该环境中可以提供采取主体的下一个行为所需的多条信息,其次,可以定义该主体在该环境中将要采取的行为,第三,可以定义基于主体的良好行为提供的奖励和基于主体的不良行为提供的惩罚,并且第四,可以通过经验得出最佳策略,该最佳策略被重复,直到未来奖励达到最高分数为止。
人工神经网络具有由模型配置、激活函数、损失函数或成本函数、学习算法、优化算法等指定的结构,并且可以在学习之前预先设置超参数,并且可以通过学习来设置模型参数以指定内容。
例如,用于确定人工神经网络的结构的元素可以包括隐藏层的数量、每个隐藏层中包括的隐藏节点的数量、输入特征向量、目标特征向量等。
超参数包括必须为学习而初始设置的几个参数,诸如模型参数的初始值。另外,模型参数包括要通过学习确定的各种参数。
例如,超参数可以包括节点之间的权重初始值、节点之间的偏差初始值、最小批量大小、学习重复的次数、学习率等。然后,模型参数可以包括节点之间的权重、节点之间的偏差等。
损失函数可以用于在人工神经网络的训练过程中确定最佳模型参数的指标(基准)。在人工神经网络中,训练是指调整模型参数以减小损失函数的过程,而训练的目的可以被视为确定使损失函数最小化的模型参数。
损失函数可以主要使用均方误差(MSE)或交叉熵误差(CEE),但是本发明不限于此。
当正确答案标签被独热编码(one-hot encoded)时,可以使用CEE。独热编码是仅针对与正确答案相对应的神经元将正确答案标签值设置为1并且针对与不正确答案相对应的神经元将正确答案标签设置为0的编码方法。
学习优化算法可用于在机器学习或深度学习时使损失函数最小化,因为学习优化算法,不存在梯度下降(GD)、随机梯度下降(SGD)、动量、NAG(涅斯捷罗夫加速梯度)、Adagrad、AdaDelta、RMSProp、Adam和Nadam。
GD是在考虑到当前状态下的损失函数的梯度的情况下调整模型参数使得损失函数值减小的技术。
调整模型参数的方向被称为步长方向,并且调整的大小被称为步长大小。
此时,步长可以指学习率。
梯度下降方法可以通过利用模型参数中的每个对损失函数进行部分微分来获得斜率,并且可以通过在所获得的梯度方向上的学习率改变学习参数来进行更新。
SGD是通过将训练数据划分成迷你批量并且针对每个迷你批量执行GD来增加梯度下降的频率的技术。
SGD中的Adagrad、AdaDelta和RMSProp是通过调整步长大小来提高优化精度的技术。SGD中的动量和NAG是通过调整步长方向来提高优化精度的技术。Adam是通过结合动量和RMSProp调整步长大小和步长方向来提高优化精度的技术。Nadam是通过结合NAG和RMSProp调整步长大小和步长方向来提高优化精度的技术。
人工神经网络的学习速度和精度极大地不仅取决于人工神经网络的结构和学习优化算法的种类,而且还取决于超参数。因此,为了获得良好的训练模型,重要的是不仅确定人工神经网络的合适结构,而且设置合适的超参数。
通常,通过实验将超参数设置为各种值以训练人工神经网络,并且设置为使用训练结果提供稳定的学习速度和精度的最佳值。
另外,术语“AI装置100”可以与术语“AI服务器100”互换使用。
输入单元可以包括通信单元,并且输入数据可以通过输入单元被输入到AI服务器。
图4是示出根据本发明的实施方式的AI服务器的操作方法的图。
根据本发明的实施方式的AI服务器可以包括:当由AI模型关于第一输入数据输出的第一输出值是正确的并且由AI模型关于第二输入数据输出的第二输出值是不正确的时,使用第一输入数据和第二输入数据获得导致不正确答案的第一域(S410),将AI模型训练为针对第一域进行域自适应(S430),当由训练后的AI模型关于第三输入数据输出的第三输出值是正确的并且由训练后的AI模型关于第四输入数据输出的第四输出值是不正确的时,使用第三输入数据和第四输入数据来获得导致不正确答案的第二域(S450),将训练后的AI模型重新训练为针对第二域进行域自适应(S470)。
图5至图7是用于描述根据本发明的实施方式的获取导致不正确答案的域的方法的图。
图5是用于描述根据本发明的实施方式的图像识别模型中的域的图。
根据本发明的实施方式的AI模型可以是图像识别模型。另外,图像识别模型可以是被训练为对图像进行分类的神经网络。
具体地,学习设备200可以通过使用训练图像数据和与训练图像数据相对应的标记数据训练神经网络来生成图像识别模型。在此,标记数据可以是图像的名称。
另外,图像识别模型可以被安装在终端上。
另外,当输入图像数据时,图像识别模型可以输出与输入图像数据相对应的结果值。
详细地,当输入图像数据时,图像识别模型可以从图像数据中提取一个或更多个特征。另外,图像识别模型可以使用一个或更多个特征输出将接收到的图像数据分类为多个类中的任一个的结果值。
这里,由图像识别模型提取的特征可以表示输入数据的亮度、饱和度、对比度、纹理、颜色、清晰度等。
同时,域可以表示图像数据的成分,该成分影响通过图像识别模型对图像数据的分类。
例如,域可以包括亮度、饱和度、对比度、纹理、颜色、清晰度等。
然后,影响通过图像识别模型对图像数据进行分类的第一成分(例如,亮度)可以是第一域,并且影响通过图像识别模型对图像数据进行分类的第二成分(例如,颜色)可以是第二域。
另一方面,当接收到图像数据时,图像识别模型可以提取表示多个域的特征,使用所提取的特征对图像数据进行分类,并且输出结果值。在这种情况下,结果值可能是正确的或是不正确的。
例如,如图5所示,当输入猫的图像数据时,图像识别模型可以输出作为正确答案的第一输出值(猫)和作为不正确答案的第二输出值(狗)。
然后,输出不正确答案的原因可能是,在实验室环境中用于生成图像识别模型的训练输入数据的特征和在实际使用环境中被提供给图像识别模型的输入数据的特征可能不同。
例如,用于生成图像识别模型的训练输入数据可以是在高亮度环境中收集的图像数据。例如,用于生成图像识别模型的训练输入数据可以是在高亮度环境中收集的图像数据。
另外,由于对在低亮度环境中收集的图像数据的训练不足,因此图像识别模型可能输出不正确答案,从而导致图像识别模型的性能下降的问题。
图6是用于描述根据本发明的实施方式的语音识别模型中的域的图。
根据本发明的实施方式的AI模型可以是语音识别模型。另外,语音识别模型可以是被训练为对语音进行分类的神经网络。
具体地,学习设备200可以通过使用训练语音数据和与训练语音数据相对应的标记数据训练神经网络来生成语音识别模型。在此,标记数据可以是与语音数据相对应的字符串或语音数据的语言含义。
另外,语音识别模型可以安装在终端上。
另外,当输入语音数据时,语音识别模型可以输出与输入语音数据相对应的结果值。
详细地,当输入语音数据时,语音识别模型可以从语音数据中提取一个或更多个特征。另外,语音识别模型可以使用一个或更多个特征输出将接收到的语音数据分类为多个类中的任一个的结果值。
这里,由语音识别模型提取的特征包括输入数据的信号电平、噪声电平、信噪比(SNR)、峰值和语音速度、或说话者信息(性别、年龄或区域中的至少一个)。
另外,域可以指语音数据的成分,该成分影响通过语音识别模型对语音数据进行分类。
例如,该域可以包括信号电平、噪声电平、SNR、峰值、语音速度、性别、年龄或区域。
然后,通过语音识别模型影响对语音数据进行分类的第一成分(例如,性别)可以是第一域,并且影响由语音识别模型对语音数据进行分类的第二成分(例如,噪声级)可以是第二域。
另一方面,当接收到语音数据时,语音识别模型可以提取表示多个域的特征,使用所提取的特征对语音数据进行分类,并且输出结果值。在这种情况下,结果值可能是正确的或不正确的。
例如,如图6所示,当输入语音数据“hello”时,语音识别模型可以输出作为正确答案的第一输出值(hello)或作为不正确答案的第二输出值(hallo)。
然后,输出不正确答案的原因可能是,在实验室环境中用于生成语音识别模型的训练输入数据的特征和在实际使用环境中被提供给语音识别模型的输入数据的特征可能不同。
例如,用于生成语音识别模型的训练输入数据可以是在低噪声环境中收集的语音数据。例如,在实际使用环境中提供给语音识别模型的输入数据可以是在噪声环境中收集的语音数据。
另外,由于对在噪声环境中收集的语音数据的训练不足,因此语音识别模型可能输出不正确答案,从而导致语音识别模型的性能下降的问题。
另一方面,可以收集正确案例和不正确案例,并且可以基于正确案例和不正确案例的特性差异来训练AI模型。
将参考图7对此进行描述。
图7是用于描述根据本发明的实施方式的确定作为域自适应的目标的域的方法的图。
AI服务器的处理器可以收集输入到AI模型中的输入数据。输入数据可能不是指一个输入数据,而是可以共同指提供给一个或更多个AI模型的各种输入数据。
在这种情况下,AI服务器的处理器可以通过通信单元从配备有AI模型的多个终端接收输入数据。
此外,AI服务器的处理器可以收集AI模型输出正确答案的输入数据和AI模型输出不正确答案的输入数据。
具体地,如果由AI模型关于第一输入数据输出的第一输出值是正确的,并且由AI模型关于第二输入数据输出的第二输出值是不正确的,则AI服务器的处理器可以收集第一输入数据和第二输入数据。
这里,第一输入数据也可以不表示一个输入数据,而是表示提供给一个或多个AI模型以输出正确答案的各种输入数据。
另外,第二输入数据也可以不表示一个输入数据,而是表示提供给一个或多个AI模型以输出不正确答案的各种输入数据。
另外,AI服务器的处理器可以使用第一输入数据和第二输入数据来获取导致不正确回答的第一域。
详细地,当AI模型使用与多个域相对应的特征来输出输出值时,AI服务器的处理器可以使用针对多个域中的每个域的正确案例的分布和不正确案例的分布来获取导致不正确答案的第一域。
更具体地,AI服务器的处理器可以针对每个域执行第一输入数据和第二输入数据的分布相似性测量。
例如,对于第一域(例如,噪声级),AI服务器的处理器可以测量第一输入数据(导致正确答案的数据)和第二输入数据(导致不正确答案的数据)之间的分布相似性。
对于另一个示例,对于第二域(例如,性别),AI服务器的处理器可以测量第一输入数据(导致正确答案的数据)和第二输入数据(导致不正确答案的数据)之间的分布相似性。
即,对于每个域,AI服务器的处理器可以计算第一输入数据(导致正确答案的数据)的分布710与第二输入数据(导致不正确答案的数据)的分布720之间的距离。
分布相似性测量可以通过KL-散度、詹森-香农(Jensen-Shannon,JS)散度、推土机距离(EMD)、巴氏距离(Bhattacharyya distance)等来执行。
另外,可以通过诸如神经网络的域对抗训练(DANN)等的域对抗训练方法、诸如针对两个样本问题的核心方法的分布测量方法(MMD)、用于深域自适应的相关性对准(DeepCORAL)等、以及DB分类分析方法来执行分布相似性测量。
这里,如果存在A、B和C三个域,则DB分类分析方法可以是利用每个域中训练的AI模型在另一个域中测量性能的方法。在这种情况下,对于具有相似分布的域,AI模型可能表现出较高的性能,并且对于具有相似分布的域,AI模型可能表现出较低的性能。
另外,AI服务器的处理器可以获取多个域中的导致不正确答案的第一域。
具体地,AI服务器的处理器可以获取第一域,在该第一域中,第一输入数据(导致正确答案的数据)的分布710与第二输入数据(导致不正确答案的数据)的分布720之间的距离大于多个域中的预设值。在此,分布可以表示每个域中的特征的分布。
另外,当AI模型通过使用与多个域相对应的特征来输出输出值时,AI服务器的处理器可以获取多个域中的导致最不正确答案的第一域。
详细地,AI服务器的处理器可以通过使用针对多个域中的每个域的第一输入数据(导致正确答案的数据)和第二输入数据(导致不正确答案的数据)的分布来获取多个域中的导致最不正确答案的第一域。在此,分布可以表示每个域中的特征的分布。
更具体地,AI服务器的处理器可以获取多个域中的在第一输入数据(导致正确答案的数据)和第二输入数据(导致不正确答案的数据)的分布之间具有最大距离的第一域。
例如,假设第一输入数据(导致正确答案的数据)和第二输入数据(导致不正确答案的数据)的分布之间的距离在多个域中的第一域(例如,性别)中是最大的,则第一输入数据(导致正确答案的数据)的分布与第二输入数据(导致不正确答案的数据)的分布之间的距离在多个域中的第二域(例如,噪声的幅值)中是中等的,并且第一输入数据(导致正确答案的数据)和第二输入数据(导致不正确答案的数据)的分布之间的距离在多个域中的第三域(例如,SNR)中是最小的。
并且,第一输入数据(导致正确答案的数据)的分布与第二输入数据(导致不正确答案的数据)的分布之间的距离在第一域(例如,性别)中最大可以表示第一域对输出不正确答案的AI模型影响最大。
因此,AI服务器的处理器可以获取多个域中的在第一输入数据(导致正确答案的数据)和第二输入数据(导致不正确答案的数据)的分布之间具有最大距离的第一域(性别)。
换句话说,AI服务器的处理器可以获取多个域中的在第一输入数据(导致正确答案的数据)的分布与第二输入数据(导致不正确答案的数据)的分布之间具有最小分布相似度的第一域(性别)。
在此,在第一输入数据(导致正确答案的数据)的分布与第二输入数据(导致不正确答案的数据)的分布之间具有最大距离的第一域是区分正确答案和不正确答案的特征最频繁的域。
例如,如果第一输入数据(导致正确答案的数据)是在明亮亮度下拍摄的图像,第二输入数据(导致不正确答案的数据)是在黑暗亮度下拍摄的图像,并且亮度是最能影响正确答案与不正确答案之间的区别的因子,则“亮度”域可能是区分正确答案与不正确答案的特征最频繁的域。
因此,在第一输入数据(导致正确答案的数据)的分布与第二输入数据(导致不正确答案的数据)的分布之间具有最大距离的第一域可以是多个域中的最能导致不正确答案的域。即,第一域可以是多个域中的对AI模型的性能劣化具有最大影响的域。
另外,可以通过使用各种聚类的特征选择技术来确定将正确答案与不正确答案区分开的域,即,导致不正确答案的域。在此,作为特征选择技术,可以使用递归特征消除(RFE)或累积局部效果(ALE)。
另外,处理器可以将第一域划分为两个子域,并且在这里,子域可以包括1-1域和1-2域。
这里,1-1域可以是被分类为正确答案的特征在第一域中频繁出现的域。另外,1-2域可以是被分类为不正确答案的特征在第二域中频繁出现的域。
换句话说,1-1域可以是在第一域中极大地导致正确答案的域。另外,1-2域可以是在第二域中极大地导致不正确答案的域。
例如,如果亮度是区分正确答案和不正确答案的最重要因素,第一输入数据(导致正确答案的数据)是在明亮亮度下拍摄的图像,并且第二输入数据(导致不正确答案的数据)是在黑暗亮度下拍摄的图像,则1-1域可以是明亮亮度,而1-2域可以是黑暗亮度。
然后,智能门的处理器可以基于参考值A将训练数据分类为1-1域和1-2域。
例如,智能门的处理器可以将具有小于参考值A的噪声级的输入数据分类到1-1域,并且可以将具有大于参考值A的噪声级的输入数据分类到1-2域。
然后,处理器可以将AI模型训练为针对第一域进行域自适应。
这将参考图8来描述。
图8是示出域自适应方法的图。
域自适应(DA)是使用已经获取的知识来提高针对新输入数据的正确答案的概率的技术。
也就是说,域自适应(DA)在源与目标之间执行映射,以允许在源域上执行训练的AI模型在目标域(源域)中有效操作。
并且,当执行源与目标之间的映射时,源域的分布与目标域的分布可以是相似的。
另外,在本发明中,源域可以是与正确答案相对应的1-1域。另外,在本发明中,目标域(源域)可以是与不正确答案相对应的1-2域。
此外,为了使AI模型关于第一域是域自适应的,处理器可以使用与1-1域相对应的输入数据和与1-2域相对应的输入数据来训练AI模型。
具体地,处理器可以将AI模型训练为允许由AI模型关于与1-1域相对应的输入数据提取的特征以及由AI模型关于与1-2域相对应的输入数据提取的特征被映射到相同的区域。
例如,第一域可以是噪声,1-1域可以是小噪声,而1-2域可以是大噪声。
然后,如果第一域(噪声)是导致最不正确答案的域,则与1-1域相对应的输入数据的特征向量的映射区域和与1-2域相对应的输入数据的特征向量的映射区域之间的距离会是最大的。
在这种情况下,处理器可以将AI模型训练为允许由AI模型关于与1-1域相对应的输入数据提取的特征向量和由AI模型关于与1-2域相对应的输入数据提取的特征向量被映射到相同的区域。
下面描述使用神经网络的域对抗训练(DANN)的域自适应。
图9是用于描述根据本发明的实施方式的使用神经网络的域对抗训练(DANN)进行域自适应的图。
参考图9,AI模型900可以包括使用输入数据提取特征的特征提取器910、使用所提取的特征对类进行分类的类分类器920、以及使用所提取的特征对域进行分类的域分类器930。
这里,安装在终端中的AI模型900可以包括特征提取器910和类分类器920。另外,在AI服务器中执行域自适应的过程中,可以将域分类器930添加到AI模型900中。
此外,AI服务器将与类有关的信息和与域有关的信息标记到与1-1域相对应的输入数据和与1-2域相对应的输入数据,以训练AI模型。
详细地,AI服务器可以通过使用与1-1域相对应的输入数据和与1-2域相对应的输入数据作为输入到特征提取器910的输入值,使用与类有关的信息作为从类分类器920输出的第一输出值,并且使用与域有关的信息作为从域分类器930输出的第二输出值,来训练特征提取器910。
这里,与类有关的信息可以表示类分类器920需要使用由特征提取器910提取的特征来推断的正确答案(或要分类的结果值)。此外,类可以表示终端上安装的AI模型应推断出的正确答案。例如,如果AI模型是图像识别模型,则两个类可以是狗和猫。
此外,与域有关的信息可以表示域分类器930使用由特征提取器910提取的特征应该推断的正确答案。
此外,域可以是子域。例如,如果第一域是噪声,则域分类器930应该推断出的正确答案可以是1-1域(输入数据是否为低噪声数据)或1-2域(输入数据是否为高噪声数据)。
另外,1-1域可以是与正确答案相对应的域,并且1-2域可以是与不正确答案相对应的域。因此,要由域分类器930推断出的正确答案可以是在域自适应之前由AI模型确定为正确答案的输入数据,或者是在域自适应之前由AI模型确定为不正确答案的输入数据。
此外,处理器可以训练AI模型,使得类分类器920对类进行分类,并且域分类器不对1-1域和1-2域进行分类。
首先,当关于类分类器920进行描述时,处理器可以在使类分类器920中的损失函数值最小化的方向上调整特征提取器910的参数。
例如,当使用梯度下降方法时,处理器可以通过利用各个模型参数对类分类器920中的损失函数进行部分微分来获得斜率,并且通过沿着所获得的梯度方向将学习参数改变学习率来更新。
另一方面,当关于域分类器930进行描述时,处理器可以按顺序在梯度反转反向传播中进行训练,以便不区分输入数据是对应于1-1域的数据还是对应于1-2域的数据,
详细地,域分类器930使用由特征提取器910提取的特征对域进行分类。然后,域分类器930可以调整特征提取器910的模型参数,以便不使用由特征提取器910提取的特征来区分域。
为此,当域分类器930很好地区分域时(即,域分类器930区分输入数据是对应于1-1域还是1-2域),处理器可以以使梯度反转的方式调整特征提取器910的参数。即,当域分类器930很好地区分域时,处理器可以将惩罚分配给特征提取器910。
另外,应当将AI模型训练为提高分类器的性能并且降低域分类器的性能。因此,可以同时对相同的输入数据执行调整特征提取器910的模型参数以提高类分类器920的性能的过程和调整特征提取器910的模型参数以降低域分类器930的性能的过程。
当以这种方式重复训练时,可以逐渐减少由特征提取器910提取的特征当中的对第一域具有高度依赖性的特征。
具体地,由特征提取器910在训练之前提取的特征对第一域(例如,亮度)具有最高依赖性,并且基于这些特征,对类进行分类的类分类器的性能较低。
然而,通过重复训练,对第一域(亮度)具有高度依赖性的特征可能逐渐减少,并且高度依赖于可以对类进行分类的新域(例如,对比度、清晰度、形状等)的特征可以增加。
并且,由于类分类器使用高度依赖于可以对类进行分类的新域的特征对类进行分类,因此可以提高类分类器的分类性能。
换句话说,AI模型最常使用对应于第一域的特征。举一个极端的例子,如果第一域是亮度,则由于AI模型将与1-1域(高亮度)相对应的输入数据分类为狗,而将与1-2域(低亮度)相对应的输入数据分类为猫,则有很多不正确答案。
然而,在域自适应之后,输出特征向量,使得不可能区分输入数据是对应于1-1域(高亮度)还是1-2域(低亮度)。因此,由于降低了对导致最不正确答案的第一域的依赖性,因此提高了AI模型的性能。
另一方面,可以在改变域的状态下重复上述处理。将再次参考图8对此进行描述。
训练后的AI模型(被训练为对第一域进行域自适应的AI模型)可以在AI服务器上运行,或者可以在终端上分布和运行。
然后,AI服务器的处理可以收集输入到训练后的AI模型的输入数据。
具体地,AI服务器的处理器可以收集训练后的AI模型根据其输出正确答案的输入数据和AI模型根据其输出不正确答案的输入数据。
更具体地,当由训练后的AI模型关于第三输入数据输出的第三输出值是正确答案并且由训练后的AI模型关于第四输入数据输出的第四输出值是不正确答案时,AI服务器的处理器可以收集第三输入数据和第四输入数据。
然后,AI服务器的处理器可以使用第三输入数据和第四输入数据来获取导致不正确答案的第二域。
具体地,当训练后的AI模型使用与多个域相对应的特征来输出输出值时,AI服务器的处理器可以通过使用针对多个域中的各个域的正确答案案例的分布和不正确答案案例的分布来获得导致不正确答案的第二域。
更具体地,AI服务器的处理器可以针对各个域执行第三输入数据和第四输入数据的分布相似性测量。
也就是说,对于各个域,AI服务器的处理器可以计算第三输入数据(导致正确答案的数据)的分布与第四输入数据(导致不正确答案的数据)的分布之间的距离。
此外,AI服务器的处理器可以获取多个域中的导致不正确答案的第二域。
具体地,AI服务器的处理器可以获取多个域中的第二域,在第二域中,第三输入数据(导致正确答案的数据)的分布与第四输入数据(导致不正确答案的数据)的分布之间的距离大于预设值。
另外,当训练后的AI模型通过使用与多个域相对应的特征来输出输出值时,AI服务器的处理器可以获取多个域中的导致最不正确答案的第二域。
详细地,AI服务器的处理器可以通过使用针对多个域中的每个域的第三输入数据(导致正确答案的数据)和第四输入数据(导致不正确答案的数据)的分布来获取多个域中的导致最不正确答案的第二域。
更具体地,AI服务器的处理器可以获取多个域中的在第三输入数据(导致正确答案的数据)和第四输入数据(导致不正确答案的数据)的分布之间具有最大距离的第二域。
这里,在第三输入数据(导致正确答案的数据)的分布与第四输入数据(导致不正确答案的数据)的分布之间具有最大距离的第二域是区分正确答案和不正确答案的特征最频繁的域。
因此,在第三输入数据(导致正确答案的数据)的分布与第四输入数据(导致不正确答案的数据)的分布之间具有最大距离的第二域可以是多个域中的最可能导致不正确答案的域。即,第二域可以是多个域中的对训练后的AI模型的性能劣化具有最大影响的域。
此外,第二域可以与第一域不同。
具体地,假设并描述了第一域是噪声。
参考图8的(a),当AI模型输出不正确答案时,导致最不正确答案的域是第一域(噪声)。因此,处理器处于将AI模型训练为针对第一域进行域自适应的状态。
并且,参考图8的(b),当AI模型被训练为针对第一域进行域自适应时,可以看出,从与1-1域相对应的输入数据中提取的特征向量(低噪声域)和从与1-2域(高噪声域)相对应的输入数据中提取的特征向量被映射到相似区域。
因此,如果训练后的AI模型输出不正确答案,则导致最不正确答案的域可以改变为与第一域(噪声)不同的第二域(年龄)。
此外,处理器可以将第二域划分为两个子域,并且此处,子域可以包括2-1域和2-2域。
这里,2-1域可以是被分类为正确答案的特征在第二域中频繁出现的域。另外,2-2域可以是被分类为不正确答案的特征在第二域中频繁出现的域。
换句话说,2-1域可以是在第二域中极大地导致正确答案的域。另外,2-2域可以是在第二域中极大地导致不正确答案的域。
例如,如果年龄是区分正确答案和不正确答案的最重要因素,则第一输入数据(导致正确答案的数据)是成年人的语音数据,并且第二输入数据(导致不正确答案的数据)是儿童的语音数据,2-1域可能是成人,并且2-2域可能是儿童。
然后,处理器可以重新训练被训练为针对第二域进行域自适应的AI模型。
具体地,为了使训练后的AI模型针对第二域进行域自适应,处理器可以使用与2-1域相对应的输入数据和与2-2域相对应的输入数据来对训练后的AI模型进行重新训练。
具体地,处理器可以将训练后的AI模型重新训练为允许由AI模型关于与2-1域对应的输入数据提取的特征和由AI模型关于与2-2域相对应的输入数据提取的特征被映射到相同的区域。
另外,处理器将与类别有关的信息和与域有关的信息标记为与2-1域相对应的输入数据和与2-2域相对应的输入数据,从而对训练后的AI模型进行重新训练。
详细地,AI服务器可以通过使用与2-1域相对应的输入数据和与2-2域相对应的输入数据作为输入到特征提取器910的输入值,使用与类有关的信息作为从类分类器920输出的第一输出值,并且使用与域有关的信息作为从域分类器930输出的第二输出值,来训练特征提取器910。
然后,处理器可以重新训练训练后的AI模型,使得类分类器920对类进行分类,并且域分类器不对2-1域和2-2域进行分类。
图8的(b)示出了AI模型被训练为针对第一域(噪声大小)进行域自适应的状态。
并且,参考图8的(b),当重新训练被训练为针对第一域进行域自适应的AI模型时,可以看出从与2-1域(成人)对应的输入数据中提取的特征向量和从与2-2域(儿童)相对应的输入数据中提取的特征向量被映射到相似区域。
另外,处理器可以连续地重复该过程。
也就是说,处理器可以重新训练被训练为针对第一域进行域自适应并且针对第二域进行域自适应的AI模型。另外,处理器可以重新训练被训练为针对第一域进行域自适应并且被训练为针对第二域进行域自适应的AI模型,以便针对第三域进行域自适应。
表1示出了对通过本发明提出的方法训练的AI模型的性能进行实验的结果。
[表1]
首先,当AI模型被训练为针对导致最不正确答案的第一域进行域自适应时,训练后的AI模型的性能为70.17,并且当AI模型被训练为针对导致第二不正确答案的第二域进行域自适应时,训练后的AI模型的性能为69.5。这可能意味着通过将域自适应应用于具有导致正确答案的输入数据的分布与导致不正确答案的输入数据的分布之间的较大差异的域,可以进一步提高AI模型的性能。另外,当AI模型被训练为针对第一域(噪声大小)进行域自适应时,训练后的AI模型的性能为70.17,而当AI模型被重新训练为针对第一域(噪声大小)进行域自适应时,重新训练后的AI模型的性能为71.69。此外,当AI模型被训练为针对第二域(性别)进行域自适应时,训练后的AI模型的性能为69.5,并且当AI模型被重新训练为针对第二域(性别)进行域自适应时,重新训练后的AI模型的性能为70.08。这意味着,即使针对相同域重复执行域自适应,性能也可能继续提高。
另外,当AI模型被训练为针对第一域(噪声大小)进行域自适应并且AI模型被重新训练为针对第一域(噪声大小)进行域自适应时,重新训练后的AI模型的性能为71.69。相反,当AI模型被训练为针对第一域(噪声大小)进行域自适应并且AI模型被重新训练为针对第二域(性别)进行域自适应时,重新训练后的AI模型的性能为72.27。这意味着当在改变域的同时执行域自适应时,性能会进一步提高。
这样,本发明具有通过重复执行域自适应来不断提高AI模型的性能的优点。
另外,由于本发明确定导致最不正确答案的域,并且首先对导致最不正确答案的域执行域自适应,因此具有更快地提高AI模型的性能的优点。
另外,根据本发明,由于在改变将成为域自适应的目标的域的同时重复执行域自适应,所以对各个域进行域自适应。因此,具有更快地提高AI模型的性能的优点。
另外,根据本发明,每当重复执行域自适应时,通过选择导致最不正确答案的域来执行域自适应。因此,具有更快地提高AI模型的性能的优点。
另一方面,每当重复执行域自适应时,代替通过选择导致最不正确答案的域来执行域自适应,可以按照导致不正确答案的顺序依次执行域自适应。
具体地,如果由AI模型针对第一输入数据输出的第一输出值是正确答案并且由AI模型针对第二输入数据输出的第二输出值是不正确答案,则处理器可以通过使用第一输入数据和第二输入数据,获得多个域中的导致最不正确答案的第一域和导致第二不正确答案的第二域。然后,处理器可以将AI模型训练为针对第一域进行域自适应。然后,处理器可以重新训练被训练为针对第二域进行域自适应的AI模型。
图10是用于描述在重复执行域自适应的同时选择具有最佳性能的AI模型并且然后管理历史的方法的图。
处理器可以在多个AI模型中选择最高性能AI模型,在所述多个AI模型中,域自适应的数量、域自适应的目标域或域自适应的顺序中的至少一个是不同的。
具体地,参考图10,处理器可以以各种组合来执行域自适应。
详细地,参考阶段1,处理器通过对第一域(性别)执行域自适应来训练初始AI模型(1005)。以这种方式训练的AI模型可以被称为第一AI模型。
另一方面,处理器可以训练AI模型,以使一步先前(one-step previous)AI模型针对新域进行域自适应。
具体地,参考阶段1,处理器通过对第二域(噪声的大小)执行域自适应来训练第一AI模型(对第一域(性别)执行域自适应)(1010)。以这种方式训练的AI模型可以被称为第二AI模型。然后,第二AI模型可以是被训练为针对第一域(性别)进行域自适应并且针对第二域(噪声的大小)进行域自适应的AI模型。
这里,处理器可以训练AI模型,以便一步先前AI模型针对新域进行域自适应。
详细地,参考阶段2,处理器通过对第三域(信号的大小)执行域自适应来训练第二AI模型(1015)。以这种方式训练的AI模型可以被称为第三AI模型。然后,第三AI模型可以是被训练为针对第一域(性别)进行域自适应的AI模型、被训练为针对第二域(噪声的大小)进行域自适应的AI模型、以及被训练为针对第三域(信号的大小)进行域自适应的AI模型。
另外,参考阶段3,处理器通过对第四域(SNR)执行域自适应来训练第三AI模型(1025)。以这种方式训练的AI模型可以被称为第五AI模型。然后,第五AI模型可以是被训练为针对第一域(性别)进行域自适应的AI模型、被训练为针对第二域(噪声的大小)进行域自适应的AI模型、被训练为针对第三域(信号的大小)进行域自适应的AI模型、以及被训练为针对第四域(SNR)进行域自适应的AI模型。
另外,处理器可以训练AI模型,使得多步先前AI模型针对新域进行域自适应。
例如,参考阶段2,处理器通过对第三域(信号的大小)执行域自适应来训练第二AI模型(1020)。以这种方式训练的AI模型可以被称为第四AI模型。然后,第二AI模型可以是被训练为针对第一域(性别)进行域自适应并且针对第三域(信号的大小)进行域自适应的AI模型。换句话说,处理器可以训练两步先前AI模型(第一AI模型),使得两步先前AI模型(第一AI模型)针对新域(信号的大小)进行域自适应。
作为另一示例,参考阶段3,处理器通过对第四域(SNR)执行域自适应来训练第二AI模型(1030)。以这种方式训练的AI模型可以被称为第六AI模型。然后,第六AI模型可以是被训练为针对第一域(性别)进行域自适应的AI模型、被训练为针对第二域(噪声的大小)进行域自适应的AI模型、以及被训练为针对第四域(SNR)进行域自适应的AI模型。换句话说,处理器可以训练两步先前AI模型(第二AI模型),使得两步先前AI模型(第二AI模型)针对新域(SNR)进行域自适应。
以这种方式,处理器可以生成在域自适应的数量、域自适应的目标域或域自适应的顺序中的至少一个方面不同的多个AI模型,并且在所生成的多个AI模型中选择最高性能AI模型。
这里,性能的确定参考可以表示AI模型的分类(预测)的精度。
然后,处理器可以将所选择的AI模型发送到一个或更多个终端。在这种情况下,终端可以下载AI模型并且使用下载的AI模型获得结果值。
另一方面,域自适应的不同顺序可以表示对多个域执行域自适应的顺序。例如,第二AI模型可以是被训练为针对第一域进行域自适应并且针对第二域进行域自适应的AI模型。作为另一示例,第三AI模型可以是被训练为针对第二域进行域自适应并且然后针对第一域进行域自适应的AI模型。
以这种方式,根据本发明,可以通过以各种组合执行域自适应并且选择具有最高性能的AI模型来提高AI模型的性能。
例如,由于通过将初始AI模型训练为在初始AI模型中针对导致最不正确答案的第一域进行域自适应来生成第一AI模型、通过将第一AI模型训练为在第一AI模型中针对导致最不正确答案的第二域进行域自适应来生成第二AI模型、以及通过将第二AI模型训练为在第二AI模型中针对导致最不正确答案的第三域进行域自适应来生成第三AI模型的方法集中于以下事实:对导致最不正确答案的域的重复域自适应很可能产生最佳性能,还存在其它组合表现更好的可能性。
因此,本发明具有通过以各种组合执行域自适应并且选择最高性能AI模型来提高AI模型的性能的优点。
例如,再次参考阶段2,处理器可以通过将第一AI模型训练为针对第一域进行域自适应来生成第二AI模型(1010),并且可以通过将第二AI模型训练为针对第二域进行域自适应来生成第三AI模型(1015)。另外,处理器可以通过将第一AI模型训练为针对第二域进行域自适应来生成第四AI模型(1020)。在这种情况下,尽管第三AI模型的域自适应数量较大,但是第四AI模型的性能可能高于第三AI模型的性能。在这种情况下,处理器可以从第三AI模型和第四AI模型中选择作为较高性能AI模型的第四AI模型。
对于另一示例,处理器可以通过将AI模型训练为针对第一域进行域自适应来生成第二AI模型(1010),并且通过将第二AI模型训练为针对第二域进行域自适应来生成第三AI模型(1015)。另外,处理器可以在第二AI模型和第三AI模型中选择更高性能AI模型。
另一方面,随着组合数量的增加,选择具有最佳性能的AI模型的可能性增加,但是由于计算量和存储空间的限制,不可能保存全部组合。
因此,处理器可以从先前生成并存储在存储器中的多个AI模型中删除一些AI模型,或者停止对AI模型进行进一步训练。
具体地,处理器可以通过将AI模型训练为针对第一域进行域自适应的AI模型来生成第二AI模型,并且通过将第二AI模型训练为针对第二域进行域自适应来生成第三AI模型。另外,处理器可以将第二AI模型和第三AI模型存储在存储器中。
然后,当在第二AI模型和第三AI模型中第二AI模型的性能较高时,处理器可以选择第二AI模型并且从存储器中删除第三AI模型。
也就是说,由于第三AI模型是性能低于先前AI模型的性能的模型,因此可以从存储器中删除第三AI模型。并且,由于从存储器中删除了第三AI模型,因此可以不执行针对第三AI模型的附加训练(域自适应)。
作为另一实施方式,处理器可以通过将AI模型训练为针对第一域进行域自适应来生成第二AI模型,并且通过将第二AI模型训练为针对第二域进行域自适应来生成第三AI模型。
然后,当第三AI模型的性能与第二AI模型的性能相比增加小于或等于预定值时,处理器可以不另外训练第三AI模型。即,当第三AI模型的性能提高低时,以第三AI模型作为起点的分支也会表现出低性能。因此,通过不另外训练第三AI模型,处理器可以不生成将第三AI模型作为起点的分支。
在这种情况下,处理器可以选择另一个分支并且继续针对域自适应进行训练。
例如,处理器可以通过将AI模型训练为针对第一域进行域自适应来生成第二AI模型,并且通过将第二AI模型训练为针对第三域进行域自适应来生成第四AI模型。
然后,当第四AI模型的性能与第二AI模型的性能相比增加小于或等于预定值时,处理器可以选择第四AI模型。另外,处理器可以另外训练第四AI模型用于域自适应。
在另一个实施方式中,处理器可以不另外训练多个AI模型中的在预定时间段内未被选择为最高性能AI模型的AI模型。
对于实施方式,处理器可以通过将AI模型训练为针对第一域进行域自适应来生成第二AI模型,并且可以通过将第二AI模型训练为针对第三域进行域自适应来生成第三AI模型。然后,由于第三AI模型的性能比第二AI模型的性能提高了预定值或更多,因此处理器将第三AI模型存储并保存在存储器中。
另一方面,处理器可以选择多个AI模型中的最高性能AI模型。
此外,AI服务器具有第三AI模型,但是在预定时间段内,第三AI模型未被选择为最高性能AI模型。在这种情况下,处理器可以不再重新训练第三AI模型,从而防止从第三AI模型开始的分支的生成。另外,处理器可以将第三AI模型从存储器中删除。
以这种方式,根据本发明,不另外训练多个AI模型中的一些AI模型,或者从存储器中删除一些AI模型,从而减少了计算量和存储空间。
图11是用于描述根据本发明的实施方式的从口语文本中提取重要词语并且使用从重要词语中提取的特征来获取导致不正确答案的域的方法的图。
假定并且描述用户的口语文本(即,输入数据)由三个词语(咳嗽、歌曲和播放)组成。
这里,“咳嗽”可以是咳嗽声。
处理器可以提取输入数据中包括的多个词语,并且计算所提取的多个词语中的每个词语的重要性。
更详细地,处理器可以在删除输入数据中包括的多个词语中的某些词语(例如,一个词语)的同时执行自然语言处理。
更具体地,参考图11,当输入数据包括第一词语、第二词语和第三词语时,处理器可以对包括除了第一词语之外的第二词语和第三词语的输入数据执行自然语言处理。
例如,当接收到“咳嗽播放歌曲”的输入数据时,处理器可以通过将“播放歌曲”的输入数据提供给自然语言处理模型来执行自然语言处理。在这种情况下,自然语言处理模型可以输出与输入数据有关的语义分析结果和置信度得分。例如,自然语言处理模型可以输出歌曲播放的语义分析结果和99%的置信度得分。
另外,当输入数据包括第一词语、第二词语和第三词语时,处理器可以对包括第三词语以外的第一词语和第二词语的输入数据执行自然语言处理。
例如,当接收到“咳嗽播放歌曲”的输入数据时,处理器可以通过将“咳嗽歌曲”的输入数据提供给自然语言处理模型来执行自然语言处理。在这种情况下,语音识别模型可以输出与输入数据有关的语义分析结果和置信度得分。例如,自然语言处理模型可以输出歌曲播放的语义分析结果和80%的置信度得分。
另外,当输入数据包括第一词语、第二词语和第三词语时,处理器可以对包括除了第二词语之外的第一词语和第三词语的输入数据执行自然语言处理。
例如,当接收到“咳嗽播放歌曲”的输入数据时,处理器可以通过将“咳嗽播放”的输入数据提供给自然语言处理模型来执行自然语言处理。在这种情况下,自然语言处理模型可以输出与输入数据有关的语义分析结果和置信度得分。例如,自然语言处理模型可以输出网络搜索执行的语义分析结果和45%的置信度得分。
此外,处理器可以通过使用通过逐一删除包括在输入数据中的多个词语而获得的语义分析结果和置信度得分来获取重要词语和不必要词语。
具体地,当基于对除了特定词语之外的特定输入数据的自然语言处理的结果而使口语文本的含义与语义分析的结果相互对应,并且获得具有最高置信度得分的输出值时,处理器可以将特定词语确定为不必要词语。
例如,如果基于除“咳嗽”之外的“播放歌曲”的自然语言处理的结果输出了歌曲回放的语义分析结果和99%的置信度得分,则处理器可以将“咳嗽”确定为不必要词语。
另外,当基于除特定词语之外的特定输入数据的自然语言处理的结果,口语文本的含义与语义分析结果相互不对应,并且获得具有最低置信度得分的输出值时,处理器可以将特定词语确定为重要词语。
例如,如果基于除“歌曲”之外的“咳嗽播放”的自然语言处理的结果输出网络搜索执行的语义分析结果,则处理器可以将“歌曲”确定为重要词语。作为另一示例,如果基于除“歌曲”之外的“咳嗽播放”的自然语言处理结果输出歌曲播放的语义分析结果和30%的置信度得分,则处理器可以将“歌曲”确定为重要词语。
然后,处理器可以通过使用从重要词语中提取的特征来获取导致不正确答案的域。
具体地,如果由AI模型针对第一输入数据输出的第一输出值是正确答案,并且由AI模型针对第二输入数据输出的第二输出值是不正确答案,则处理器可以从第一输入数据中包括的重要词语提取第一特征并且从第二输入数据中包括的重要词语提取第二特征。
另外,处理器可以执行第一特征数据和第二特征数据的分布相似性测量。
另外,处理器可以获取多个域中的导致最不正确答案的第一域。详细地,处理器可以获得多个域中的在第一特征的分布与第二特征的分布之间具有最大距离的第一域。
换句话说,根据本发明,由于从重要词语中提取的特征用于获得导致最不正确答案的域,因此具有进一步提高重要词语的识别性能的优点。
图12是用于描述根据本发明的实施方式的获取低置信度词语并且使用低置信度词语的重要性来区分低置信度词语的方法的图。
这里,置信度词语可以指语音识别模型的置信度得分是预定值(例如,低于50%)的词语。
假设并描述了用户的口语文本(即,输入数据)由三个词语(咳嗽、歌曲和播放)组成。
处理器可以提取输入数据中包括的多个词语,并且计算所提取的多个词语中的每个词语的置信度得分。
详细地,处理器可以将输入数据输入到语音识别模型中。在这种情况下,语音识别模型可以输出多个词语中的每个词语的识别结果和多个词语中的每个词语的置信度得分。
例如,语音识别模型可以针对“咳嗽”输出40%的置信度得分,针对“歌曲”输出90%的置信度得分,针对“播放”输出60%的置信度得分。然后,处理器可以将语音识别模型的置信度得分小于预定值的词语确定为低置信度词语。例如,如果预设值为50%,则处理器可以将“咳嗽”确定为低置信度词语。
对于另一示例,对于输入数据“播放歌曲(小声音)”,语音识别模型可以输出针对“歌曲”为35%的置信度得分,针对“播放”为90%的置信度得分。然后,处理器可以选择置信度得分小于50%的“歌曲(小声音)”的低置信度词语。
此外,处理器可以通过使用低置信度词语的重要性将低置信度词语分类为重要词语和不必要词语。
详细地,处理器可以通过删除输入数据中包括的多个词语中的低置信度词语来执行自然语言处理。
例如,处理器可以针对输入数据“咳嗽播放歌曲”中的“咳嗽”以外的“播放歌曲”执行自然语言处理。
对于另一示例,处理器可以针对输入数据“播放歌曲(小声音)”中的“歌曲(小声音)”以外的“播放”执行自然语言处理。
在这种情况下,自然语言处理模型可以输出与输入数据有关的语义分析结果和置信度得分。
另一方面,处理器可以使用从自然语言处理模型输出的语义分析结果和置信度得分来获得重要词语和不必要词语。
具体地,当口头文本的含义和语义分析结果彼此对应,并且基于对低置信度词语之外的输入数据的自然语言处理的结果获得具有一定置信度得分或更高置信度得分的输出值时,处理器可以将低置信度词语确定为不必要词语。
例如,当对输入数据“咳嗽播放歌曲”中的“咳嗽”以外的“播放歌曲”执行自然语言处理,并且自然语言处理模型输出“播放歌曲”的语义分析结果和90%的置信度得分时,处理器可以将“咳嗽”确定为不必要词语。
另外,当口头文本的含义和语义分析结果彼此不对应,并且基于对低置信度词语之外的输入数据的自然语言处理的结果获得具有最低置信度得分的输出时,处理器可以将低置信度词语确定为不必要词语。
例如,当执行输入数据“播放歌曲(小声音)”中的除“歌曲(小声音)”之外的“播放”的自然语言处理,并且自然语言处理模型输出“播放歌曲”的语义分析结果和30%的置信度得分时,处理器可以将“咳嗽”确定为重要词语。
同时,处理器可以在存储器中存储不必要词语和重要词语。
另外,处理器可以使用不必要词语和重要词语作为训练数据来训练AI模型。
作为实施方式,如上所述,处理器可以通过使用从重要词语中提取的特征来获取导致不正确答案的域。
在另一个实施方式中,处理器可以使用具有各个域和各个子域的重要词语作为训练数据来训练AI模型。
例如,处理器可以通过使用作为在噪声环境中收集的语音的“歌曲”、作为在中间噪声环境中收集的语音的“歌曲”、作为在低噪声环境中收集的语音的“歌曲”、作为男人说话的语音的“歌曲”和作为女人说话的语音的“歌曲”作为输入值,并且通过使用词语“歌曲”作为输出值,来训练AI模型。
下面描述域自适应方法。当由AI模型关于第一输入数据输出的第一输出值是正确答案并且由AI模型关于第二输入数据输出的第二输出值是不正确答案时,根据本发明的实施方式的域自适应方法可以包括:使用第一输入数据和第二输入数据获得导致不正确答案的第一域,并且训练AI模型针对第一域进行域自适应。
在这种情况下,当由训练后的AI模型关于第三输入数据输出的第三输出值是正确答案并且由训练后的AI模型关于第四输入数据输出的第四输出值是不正确答案时,该方法还包括使用第三输入数据和第四输入数据获得导致不正确答案的第二域,并且将训练后的AI模型重新训练为针对第二域进行域自适应。第二域可以与第一域不同。
上述本发明还可以利用计算机可读记录介质中的计算机可读代码来实现。该计算机可读记录介质是可以存储此后可以由计算机系统读取的数据的任何数据存储设备。计算机可读记录介质的示例包括硬盘驱动器(HDD)、固态磁盘(SSD)、硅盘驱动器(SDD)、ROM、RAM、CD-ROM、磁带、软盘和光学数据存储器。而且,计算机可以包括终端的控制单元180。因此,详细描述不应被解释为在所有方面都受到限制,而应被认为是说明性的。本发明的范围应该由所附权利要求的合理解释来确定,并且在本发明的等同范围内的所有修改都被包括在本发明的范围内。

Claims (7)

1.一种人工智能服务器,所述人工智能服务器被配置为执行通过监督机器学习来训练的人工智能模型,所述人工智能模型包括被训练成对图像数据进行分类的图像识别模型或被训练成对语音数据进行分类的语音识别模型,所述人工智能服务器包括:
输入接口,所述图像数据或所述语音数据的输入数据被输入到所述输入接口;以及
处理器,所述处理器被配置为:
提取表示多个域的所述输入数据的特征,其中,所述输入数据包括第一输入数据和第二输入数据;
使用所提取的特征对所述输入数据进行分类;
输出针对所述输入数据的输出值;
当由人工智能模型关于所述第一输入数据输出的第一输出值是正确的并且由人工智能模型关于所述第二输入数据输出的第二输出值是不正确的时,所述处理器使用所述第一输入数据和所述第二输入数据获得导致不正确答案的第一域;并且将所述人工智能模型训练为针对所述第一域进行域自适应,
其中,获得所述第一域是为了确定所述多个域中的域,在所述多个域中的所述域中,所述第一输入数据的分布和所述第二输入数据的分布具有最低的相似性,并且
其中,所述第一域被划分为第一子域和第二子域,并且所述域自适应是将从与所述第一子域相对应的目标输入数据中提取的第一特征向量和从与所述第二子域相对应的源输入数据中提取的第二特征向量映射到所述第一域中的相同或相似的区域。
2.根据权利要求1所述的人工智能服务器,其中,当由训练后的人工智能模型关于第三输入数据输出的第三输出值是正确的并且由所述训练后的人工智能模型关于第四输入数据输出的第四输出值是不正确的时,所述处理器使用所述第三输入数据和所述第四输入数据获得导致不正确答案的第二域;并且将所述训练后的人工智能模型重新训练为针对所述第二域进行域自适应,
其中,所述第二域不同于所述第一域。
3.根据权利要求2所述的人工智能服务器,其中,所述处理器被配置为获得所述多个域中的导致最不正确答案的第二域。
4.根据权利要求3所述的人工智能服务器,其中,所述处理器被配置为通过使用针对所述多个域中的每个域的所述第一输入数据的分布和所述第二输入数据的分布来获得所述多个域中的导致最不正确答案的第二域。
5.根据权利要求2所述的人工智能服务器,其中,所述第二域包括第一子域和第二子域,
其中,所述处理器被配置为对所述训练后的人工智能模型进行重新训练,以允许由所述训练后的人工智能模型关于与所述第二域的所述第一子域相对应的输入数据提取的特征和由所述人工智能模型关于与所述第二域的所述第二子域相对应的输入数据提取的特征被映射到相同的区域。
6.根据权利要求2所述的人工智能服务器,其中,所述人工智能模型包括:
特征提取器,所述特征提取器被配置为使用输入数据提取特征;
类分类器,所述类分类器被配置为使用所提取的特征对类进行分类;以及
域分类器,所述域分类器被配置为使用所提取的特征对域进行分类。
7.根据权利要求6所述的人工智能服务器,其中,所述处理器被配置为将所述人工智能模型训练为允许所述类分类器对所述类进行分类并且防止所述域分类器对所述第二域的所述第一子域和所述第二子域进行分类。
CN202010558065.3A 2019-08-08 2020-06-18 人工智能服务器 Active CN112347691B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KRPCT/KR2019/010013 2019-08-08
PCT/KR2019/010013 WO2021025217A1 (ko) 2019-08-08 2019-08-08 인공지능 서버

Publications (2)

Publication Number Publication Date
CN112347691A CN112347691A (zh) 2021-02-09
CN112347691B true CN112347691B (zh) 2024-05-28

Family

ID=68098748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010558065.3A Active CN112347691B (zh) 2019-08-08 2020-06-18 人工智能服务器

Country Status (5)

Country Link
US (1) US20210287128A1 (zh)
EP (1) EP3772710A1 (zh)
KR (1) KR20190110500A (zh)
CN (1) CN112347691B (zh)
WO (1) WO2021025217A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210150281A1 (en) * 2019-11-14 2021-05-20 Nec Laboratories America, Inc. Domain adaptation for semantic segmentation via exploiting weak labels
KR102118588B1 (ko) 2019-12-19 2020-06-03 주식회사 유니온플레이스 전용 인공 지능 시스템
CN111401138B (zh) * 2020-02-24 2023-11-07 上海理工大学 生成对抗神经网络训练过程的对抗优化方法
US11556647B2 (en) * 2020-03-30 2023-01-17 Bae Systems Information And Electronic Systems Integration Inc. System for detecting trojans in an artificial network and method therof
KR20210125719A (ko) 2020-04-09 2021-10-19 한국전자통신연구원 인공지능 서비스를 위한 서버 클라이언트 통신 장치 및 방법
KR102264571B1 (ko) * 2020-10-30 2021-06-15 주식회사 애자일소다 계층 구조를 갖는 의사결정 에이전트
KR20220148648A (ko) 2021-04-29 2022-11-07 한국전력공사 전력 수요 예측 정확도 향상을 위한 전력 사용량 데이터 예측 장치 및 방법
EP4174517A1 (en) * 2021-10-29 2023-05-03 GM Cruise Holdings LLC Domain adaptation of autonomous vehicle sensor data

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260734A (zh) * 2015-10-10 2016-01-20 燕山大学 一种具有自建模功能的商品油表面激光标码识别方法
CN109074502A (zh) * 2018-07-26 2018-12-21 深圳前海达闼云端智能科技有限公司 训练人工智能模型的方法、装置、存储介质及机器人
CN109564505A (zh) * 2016-01-27 2019-04-02 伯尼塞艾公司 被配置为使用教学编程语言进行工作以训练经训练的人工智能模型的人工智能引擎
CN109660297A (zh) * 2018-12-19 2019-04-19 中国矿业大学 一种基于机器学习的物理层可见光通信方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103221952B (zh) * 2010-09-24 2016-01-20 国际商业机器公司 词法答案类型置信度估计和应用的方法和系统
KR102146398B1 (ko) * 2015-07-14 2020-08-20 삼성전자주식회사 3차원 컨텐츠 생성 장치 및 그 3차원 컨텐츠 생성 방법
CN107229972A (zh) * 2017-03-10 2017-10-03 东莞理工学院 一种基于拉马克获得性遗传原理的全局优化、搜索和机器学习方法
CN109232293A (zh) * 2017-07-11 2019-01-18 中国医学科学院药物研究所 芬乐胺晶g型、制备方法和其组合物与用途
JP6867276B2 (ja) * 2017-12-04 2021-04-28 日本電信電話株式会社 モデル学習装置、モデル学習方法、および、予測システム
US20190325861A1 (en) * 2018-04-18 2019-10-24 Maneesh Kumar Singh Systems and Methods for Automatic Speech Recognition Using Domain Adaptation Techniques
US11586930B2 (en) * 2019-04-16 2023-02-21 Microsoft Technology Licensing, Llc Conditional teacher-student learning for model training

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260734A (zh) * 2015-10-10 2016-01-20 燕山大学 一种具有自建模功能的商品油表面激光标码识别方法
CN109564505A (zh) * 2016-01-27 2019-04-02 伯尼塞艾公司 被配置为使用教学编程语言进行工作以训练经训练的人工智能模型的人工智能引擎
CN109074502A (zh) * 2018-07-26 2018-12-21 深圳前海达闼云端智能科技有限公司 训练人工智能模型的方法、装置、存储介质及机器人
CN109660297A (zh) * 2018-12-19 2019-04-19 中国矿业大学 一种基于机器学习的物理层可见光通信方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"A Robust Learning Approach to Dom ain Adaptive Object Detection";Mehran Khodabandeh等;《https://arxiv.org/pdf/1904.02361v1.pdf》;第480-490页 *

Also Published As

Publication number Publication date
WO2021025217A1 (ko) 2021-02-11
EP3772710A1 (en) 2021-02-10
KR20190110500A (ko) 2019-09-30
US20210287128A1 (en) 2021-09-16
CN112347691A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN112347691B (zh) 人工智能服务器
US11593588B2 (en) Artificial intelligence apparatus for generating training data, artificial intelligence server, and method for the same
US11449045B2 (en) Artificial intelligence device and method of diagnosing malfunction using operation log and artificial intelligence model
US11663516B2 (en) Artificial intelligence apparatus and method for updating artificial intelligence model
US20200050894A1 (en) Artificial intelligence apparatus and method for providing location information of vehicle
US11710036B2 (en) Artificial intelligence server
KR20210072362A (ko) 인공 지능 모델에 대한 학습 데이터를 생성하는 인공 지능 장치 및 그 방법
KR102306393B1 (ko) 음성 처리 장치 및 음성 처리 방법
KR20190107626A (ko) 인공지능 서버
US20190385592A1 (en) Speech recognition device and speech recognition method
KR102421488B1 (ko) 복수개의 출력 레이어를 이용한 인공 지능 장치 및 방법
KR20190094317A (ko) 사용자 환경에서의 음성 인식 모델의 성능을 예측하는 인공 지능 장치 및 그 방법
KR20210073252A (ko) 인공 지능 장치 및 그의 동작 방법
KR102327441B1 (ko) 인공지능 장치
US11721319B2 (en) Artificial intelligence device and method for generating speech having a different speech style
US11556623B2 (en) Artificial intelligence apparatus and method for controlling authority to use external device based on user identification using image recognition
KR102354145B1 (ko) 증가 학습을 위한 Logit 조정 및 메모리 관리 기법
US20230140893A1 (en) Artificial intelligence apparatus and method for detecting unseen class items thereof
US20240203013A1 (en) Artificial intelligence device and 3d agency motion controlling method thereof
US20240061907A1 (en) Artificial intelligence apparatus and method for estimating sound source localization thereof
US20240153262A1 (en) Device for managing a visual saliency model and control method thereof
KR20230150722A (ko) 인공 지능 장치 및 그의 화자 자동 인식 방법
KR20230068983A (ko) 인공 지능 장치 및 그의 신규 클래스 물품 검출 방법
KR20210087335A (ko) 로컬 장치의 성능 향상
KR20220054133A (ko) 보행경로예측장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant