CN111754998B - 人工智能设备以及操作人工智能设备的方法 - Google Patents

人工智能设备以及操作人工智能设备的方法 Download PDF

Info

Publication number
CN111754998B
CN111754998B CN202010126719.5A CN202010126719A CN111754998B CN 111754998 B CN111754998 B CN 111754998B CN 202010126719 A CN202010126719 A CN 202010126719A CN 111754998 B CN111754998 B CN 111754998B
Authority
CN
China
Prior art keywords
artificial intelligence
intelligence device
command
wake
quality level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010126719.5A
Other languages
English (en)
Other versions
CN111754998A (zh
Inventor
韩钟祐
郑韩吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of CN111754998A publication Critical patent/CN111754998A/zh
Application granted granted Critical
Publication of CN111754998B publication Critical patent/CN111754998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B3/00Audible signalling systems; Audible personal calling systems
    • G08B3/10Audible signalling systems; Audible personal calling systems using electric transmission; using electromagnetic transmission
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • H04L12/2823Reporting information sensed by appliance or service execution status of appliance services in a home automation network
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Automation & Control Theory (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Electromagnetism (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

人工智能设备以及操作人工智能设备的方法。一种人工智能设备包括被配置为接收语音命令的麦克风、扬声器、被配置为执行与外部人工智能设备的通信的通信单元以及处理器,处理器被配置为经由麦克风接收唤醒命令,获取接收到的唤醒命令的第一语音质量水平,经由通信单元从外部人工智能设备接收输入到外部人工智能设备的唤醒命令的第二语音质量水平,当第一语音质量水平大于第二语音质量水平时经由扬声器输出指示人工智能设备被选择作为要被控制的对象的通知,经由麦克风接收操作命令,获取接收到的操作命令的意图,并且经由通信单元根据所获取的意图将操作命令发送到将执行与操作命令相对应的操作的外部人工智能设备。

Description

人工智能设备以及操作人工智能设备的方法
技术领域
本发明涉及人工智能设备,并且尤其涉及能够响应于用户的唤醒命令来选择要被激活的设备的人工智能设备。
背景技术
在智能电话中开始的语音识别技术的竞争被预期随着物联网(IoT)的扩展而在家居中变得更加激烈。
特别地,能够使用语音发出命令并且能够进行谈话的人工智能(AI)设备尤其引人注意。
语音识别服务具有用于使用大量的数据库对用户的问题选择最佳应答的结构。
语音搜索功能是指在云服务器中将输入的语音数据转换为文本,分析该文本并且向设备重传实时搜索结果的方法。
云服务器具有能够根据性别、年龄和语调(intonation)将大量的词语划分为语音数据并且实时存储和处理语音数据的计算能力。
随着更多的语音数据被累积,语音识别将是精确的,从而实现人类奇偶校验(human parity)。
近来,能够执行语音识别的多个人工智能设备位于家庭中。
为了选择要被控制的人工智能设备,用户发出用于激活人工智能设备的唤醒命令。
然而,当多个人工智能设备位于家庭中时,多个人工智能设备可能响应于由用户发出的唤醒命令而被激活,从而使得用户难于选择要被控制的设备。
发明内容
技术问题
本发明的目的在于解决上面描述的问题和其它问题。
本发明的另一目的在于提供一种能够使用由用户发出的唤醒命令的语音质量从多个人工智能设备当中选择要被控制的设备的人工智能设备。
本发明的另一目的在于提供一种能够根据由用户发出的唤醒命令的音量从多个人工智能设备当中选择要被控制的设备的人工智能设备。
技术方案
根据本发明一个实施例的人工智能设备能够将通过其接收的唤醒命令的第一语音质量与从外部人工智能设备接收的唤醒命令的第二语音质量进行比较,从而选择已接收到具有更好质量的唤醒命令的设备。
根据本发明一个实施例的人工智能设备能够确定唤醒命令的音量是否在合适的话语音量范围内并且当音量在合适的话语音量范围内时选择人工智能设备本身作为要被控制的设备。
通过下面的详细描述,本发明的适用性的进一步的范围将变得明晰。然而,应该理解,由于在本发明的精神和范围内的各种变化和修改对于本领域普通技术人员将变得明显,所以诸如本发明优选实施例的详细描述和具体示例仅以说明的方式给出。
有益效果
根据本发明的实施例,由于根据唤醒命令的语音质量来选择要被控制的设备,因此用户能够容易地选择要被控制的设备。
根据本发明的实施例,由于根据唤醒命令的音量来选择要被控制的设备,因此用户能够通过仅改变他们声音的音量而没有混淆地选择要被控制的设备。
附图说明
图1是示出根据本发明的人工智能设备的框图。
图2是示出根据本发明的一个实施例的语音系统的图。
图3是示出根据本发明的一个实施例的从语音信号中提取用户的话语特征的处理的图。
图4是示出根据本发明的一个实施例的将语音信号转换为功率谱的示例的图。
图5是示出根据本发明的一个实施例的操作人工智能系统的方法的图。
图6是示出根据本发明的一个实施例的测量语音质量水平的示例的图。
图7是示出操作图5中所示的人工智能系统的方法的实际使用场景的图。
图8是示出根据本发明的一个实施例的操作人工智能设备的方法的流程图。
图9和图10是示出根据本发明的一个实施例响应于用户的唤醒命令从多个人工智能设备当中选择任意一个设备作为要被控制的对象的处理的图。
图11是示出根据本发明的另一实施例的操作人工智能系统的方法的梯形图。
图12和图13是示出当障碍物位于用户和人工智能设备之间时校正唤醒命令的音量的方法的图。
图14是示出根据本发明的另一实施例的操作人工智能设备的方法的流程图。
图15和图16是示出根据用户移动检测自动调节音量的合适的范围的处理的图。
图17是示出根据本发明的一个实施例的当多个人工智能设备设置在固定位置中时注册每一个设备的合适的话语音量范围的处理的图。
具体实施方式
现在将参照附图根据本文公开的示例性实施例进行详细描述。为了参照附图进行简要描述,对相同或者等同的部件可以提供相同的附图标记,并且将不重复对其的描述。一般而言,诸如“模块”或者“单元”的后缀可以用于指代元件或者部件。本文使用这样的后缀仅仅意在便于说明书的描述,并且后缀本身并不意在具有任何特殊的含义或功能。在本公开中,为了简洁,一般省去了对于本领域普通技术人员而言公知的技术。附图用于帮助更容易地理解各种技术特征并且应该理解,本文呈现的实施例并不受附图限制。由此,本公开应该被解释为延伸到除了在附图中特别指出的内容之外的任何改变、等效或者替换。
尽管可能使用包括“第一”、“第二”等的序数来描述各种部件,但是这些表示并不意在对部件进行限制。这些表述可以用于将一个部件与另一部件区分开。
当表述为部件“联接到/联接于”或“连接到”另一部件时,应该理解为该一个部件直接地或者经由位于其间的任何其它部件连接到该另一部件。另一方面,当表述为部件“直接连接到”或“直接联接到”另一部件时,应该理解为在部件之间不存在其它部件。
在本说明书中描述的人工智能设备可以包括蜂窝电话、智能电话、膝上型计算机、数字广播人工智能设备、个人数字助理(PDA)、便携式多媒体播放器(PMP)、导航器、便携式计算机(PC)、板型PC、平板PC、超级本、可穿戴设备(例如,智能手表、智能眼镜、头戴式显示器(HMD))等等。
然而,在本说明书中描述的人工智能设备100可以应用于诸如智能TV、桌面型计算机或者数字标牌的固定人工智能设备。
此外,根据本发明实施例的人工智能设备100能够应用于固定或者移动的机器人。
此外,根据本发明实施例的人工智能设备100可以执行语音代理(speech agent)的功能。语音代理可以是用于识别用户的语音并且可听地输出适合于用户的被识别的语音的响应的程序。
人工智能设备100可以包括无线通信单元110、输入单元120、学习处理器130、感测单元140、输出单元150、接口160、存储器170、处理器180和电源190。
无线通信单元110可以包括广播接收模块111、移动通信模块112、无线互联网模块113、短程通信模块114和位置信息模块115中的至少一个。
广播接收模块111经由广播信道从外部广播管理服务器接收广播信号和/或广播相关信息。
移动通信设备112可以通过根据用于移动通信的技术标准或通信方法(例如,全球移动通信系统(GSM)、码分多址(CDMA)、CDMA 2000(码分多址2000)、EV-DO(增强型语音数据优化或者仅增强型语音数据)、宽带CDMA(WCDMA)、高速下行链路分组接入(HSDPA)、HSUPA(高速上行链路分组接入)、长期演进(LTE)、LTE-A(长期演进高级)等)而建立的移动通信网络来向基站、外部终端和服务器等中的至少一个发送无线信号和/或从基站、外部终端和服务器等中的至少一个接收无线信号。
无线互联网模块113被配置为便于无线互联网接入。该模块可以被安装在人工智能设备100的内部或者外部。无线互联网模块113可以根据无线互联网技术经由通信网络发送和/或接收无线信号。
这样的无线互联网接入的示例包括无线LAN(WLAN)、无线保真度(Wi-Fi)、Wi-Fi直接互联、数字现场网络联盟(DLNA)、无线宽带(WiBro)、微波接入全球互通(WiMAX)、高速下行链路分组接入(HSDPA)、HSUPA(高速上行链路分组接入)、长期演进(LTE)和LTE-A(长期演进高级)等。
短程通信模块114被配置为便利于短程通信并且支持使用BluetoothTM、射频识别(RFID)、红外数据关联(IrDA)、超宽带(UWE)、ZigBee、近场通信(NFC)、无线保真度(Wi-Fi)、Wi-Fi直接互联和无线USB(无线通用串行总线)等的短程通信。
位置信息模块115通常被配置为获取移动人工智能设备的位置(或者当前位置)。其代表性示例包括全球定位系统(GPS)模块或Wi-Fi模块。作为一个示例,当人工智能设备使用GPS模块时,可以使用从GPS卫星发送的信号来获取移动人工智能设备的位置。
输入单元120可以包括用于接收视频信号的相机121、用于接收音频信号的麦克风122以及用于从用户接收信息的用户输入单元123。
通过输入单元120收集的声音数据或图像数据可以被分析和处理为用户的控制命令。
输入设备120可以接收视频信息(或者信号)、音频信息(或者信号)、数据或者用户输入信息。对于视频信息的接收,人工智能设备100可以包括一个或多个相机121。
相机121可以处理在视频呼叫模式或图像捕获模式下通过图像传感器获得的静止图像或者移动图像的图像帧。经处理的图像帧可以被显示在显示器151上或者被存储在存储器170中。
麦克风122将外部声学信号处理为电音频数据。经处理的音频数据可以根据在人工智能设备100中执行的功能(应用程序)而以各种方式被使用。同时,麦克风122可以包括各种噪声去除算法以去除在接收外部声学信号的过程中产生的噪声。
当经由用户输入单元123接收信息时,用户输入单元123从用户接收信息。
处理器180可以与输入的信息相对应地控制人工智能设备100的操作。
用户输入单元123可以包括机械输入元件(例如,机械按键、位于人工智能设备100的前表面和/或后表面或者侧表面上的按钮、圆顶开关(dome switch)、滚轮和滚轮开关等)或者触摸输入元件。作为一个示例,触摸输入元件可以是通过软件处理而显示在触摸屏上的虚拟键、软键或者可视键,或者位于除了触摸屏之外的位置的触摸键。
学习处理器130可以被配置为对要用于数据挖掘、数据分析、智能决策、机器学习算法和技术的信息进行接收、分类、存储和输出。
学习处理器130可以包括一个或多个存储器单元,所述一个或多个存储器单元被配置为存储由人工智能设备按照预定方式或者另一方式接收、检测、感测、生成或者输出的数据或者由另一部件、设备、人工智能设备或者与人工智能设备通信的设备按照预定方式或者另一方式接收、检测、感测、生成或者输出的数据。
学习处理器130可以包括与人工智能设备集成或者实现在人工智能设备中的存储器。在一些实施例中,学习处理器130可以使用存储器170实现。
选择性地或者另外地,学习处理器130可以使用例如直接联接到人工智能设备的外部存储器或者被保持在与人工智能设备通信的服务器中的存储器之类的与人工智能设备相关的存储器来实现。
在另一实施例中,学习处理器130可以使用被保持在云计算环境或者可由人工智能设备经由诸如网络的通信方案而访问的另一远程存储器中的存储器来实现。
学习处理器130可以被配置为将数据存储在一个或多个数据库中以便识别、索引、分类、操纵、存储、检索和输出要用于监督学习或者非监督学习、数据挖掘、预测分析或者其它机器的数据。
存储在学习处理器130中的信息可以由人工智能设备的一个或多个其它控制器或者由使用不同类型的数据分析算法和机器学习算法中的任意一种的处理器180使用。
这样的算法的示例包括K最邻近系统、模糊逻辑(例如,可能性理论)、神经网络、玻尔兹曼机、矢量量化、脉冲神经网络、支持向量机、最大余量分类器、爬山、归纳逻辑系统贝叶斯网络、佩特里网(Petri Net)(例如,有限状态机、Mealy机或者摩尔有限状态机)、分类树(例如,感知树、支持向量树、马尔科夫树、决策树森林、随机森林)、投注模型和系统、人工融合、传感器融合、图像融合、强化学习、增强现实、模式识别和自动规划。
处理器180可以使用数据分析和机器学习算法来做出决策并且基于生成的信息确定或预测人工智能设备的至少一个可执行操作。为此,处理器180可以请求、检索、接收或者使用处理器130的数据并且控制人工智能设备执行至少一个可执行操作的优选操作或者预测操作。
处理器180可以执行用于实现智能仿真的各种功能(即,基于知识的系统、推断系统和知识获取系统)。这可应用于包括自适应系统、机器学习系统、人工神经系统等的各种类型的系统(例如,模糊逻辑系统)。
处理器180可以包括用于使得能够进行涉及语音和自然语言语音处理的操作的子模块,例如I/O处理模块、环境条件模块、语音到文本(STT)处理模块、自然语言处理模块、工作流处理模块和服务处理模块。
每一个这样的子模块可以访问在人工智能设备处的一个或多个系统或数据和模型,或者其子集或者超集(superset)。此外,每一个子模块可以提供包括词汇索引、用户数据、工作流模型、服务模型和自动语音识别(ASR)系统的各种功能。
在另一实施例中,处理器180或者人工智能设备的其它方面可以经由上述的子模块、系统或者数据和模型实现。
在一些实施例中,基于学习处理器130的数据,处理器180可以被配置为基于上下文条件或者在用户输入或自然语言输入中表达的用户的意图来检测和感测要求。
处理器180可以基于上下文条件或者用户的意图而主动地推导(derive)和获取(acquire)完全确定要求所需的信息。例如,处理器180可以通过分析包括历史输入和输出的历史数据、模式匹配、非模糊词语和输入意图等而主动地推导确定要求所需的信息。
处理器180可以确定用于执行对基于上下文条件和用户的意图的要求进行响应的功能的任务流。
处理器180可以被配置为经由人工智能设备处的一个或多个感测部件来收集、感测、提取、检测和/或接收用于数据分析和机器学习操作的信号或数据,以便从学习处理器130收集用于处理和存储的信息。
信息收集可以包括经由传感器感测信息、提取存储在存储器170中的信息,或者经由通信单元从另一人工智能设备、实体或者外部存储设备接收信息。
处理器180可以从人工智能设备收集和存储使用历史信息。
处理器180可以使用所存储的使用历史信息和预测建模确定用于执行特定功能的最佳匹配。
处理器180可以经由感测单元140接收或者感测周围环境信息或者其它信息。
处理器180可以经由无线通信单元110接收广播信号和/或广播相关信息、无线信号或无线数据。
处理器180可以从输入单元120接收图像信息(或者与其相对应的信号)、音频信号(或者与其相对应的信号)、数据或者用户输入信息。
处理器180可以实时收集信息、处理或者分类信息(例如,知识图表、命令策略、个性化数据库、对话引擎等),并且将经处理的信息存储在存储器170或者学习处理器130中。
当基于数据分析以及机器学习算法和技术确定人工智能设备的操作时,处理器180可以控制人工智能设备的部件以便执行所确定的操作。处理器180可以根据控制命令控制终端并且执行经所确定的操作。
当执行特定操作时,处理器180可以经由数据分析以及机器学习算法和技术来分析指示特定操作的执行的历史信息,并且基于经分析的信息来更新先前学习的信息。
因此,处理器180可以连同学习处理器130一起基于经更新的信息改善数据分析以及机器学习算法和技术的将来性能的精确度。
感测单元140可以包括被配置为感测移动人工智能设备的内部信息、移动人工智能设备的周围环境和用户信息等的一个或多个传感器。
例如,感测单元140可以包括邻近传感器141、照明传感器142、触摸传感器、加速度传感器、磁传感器、重力传感器、陀螺仪传感器、运动传感器、RGB传感器、红外(IR)传感器、指纹扫描传感器、超声传感器、光学传感器(例如,相机121)、麦克风122、电池量表、环境传感器(例如,气压计、湿度计、温度计、辐射检测传感器、热传感器和气体传感器)、化学传感器(例如,电子鼻、健康护理传感器和生物传感器等)。本说明书中公开的移动人工智能设备可以被配置为组合并利用从这样的传感器中的至少两个传感器获得的信息。
输出单元150一般被配置为输出各种类型的信息,例如音频、视频和触觉输出等。输出单元150可以包括显示器151、音频输出模块152、触觉模块(haptic module)153和光输出单元154。
显示器151通常被配置为显示(输出)在人工智能设备100中处理的信息。例如,显示器151可以显示由人工智能设备100执行的应用程序的执行屏幕信息或者根据经执行的屏幕信息的用户界面(UI)和图形用户界面(GUI)信息。
显示器151可以具有带有触摸传感器的夹层(inter-layered)结构或集成结构以便实现触摸屏。触摸屏可以在人工智能设备100与用户之间提供输出接口,并且用作在人工智能设备100和用户之间提供输入接口的用户输入单元123。
音频输出模块152通常被配置为在呼叫信号接收模式、呼叫模式、记录模式、语音识别模式和广播接收模式等中输出从无线通信单元110接收到的或者存储在存储器170中的音频数据。
音频输出模块152还可以包括接收器、扬声器或蜂鸣器等。
触觉模块153可以被配置为生成用户感觉到的各种触感效应(tactile effect)。由触觉模块153生成的触感效应的典型示例是振动。
光输出单元154可以使用人工智能设备100的光源的光输出用于指示事件生成的信号。在人工智能设备100中生成的事件的示例可以包括消息接收、呼叫信号接收、未接来电、警报、调度通知、电子邮件接收和经由应用等的信息接收等。
接口160用作要与人工智能设备100连接的外部设备的接口。接口160可以包括有线或者无线耳麦(headset)端口、外部电源端口、有线或者无线数据端口、存储器卡端口、用于连接具有识别模块的设备的端口、音频输入/输出(I/O)端口、视频I/O端口或耳机端口等。人工智能设备100可以与外部设备到接口160的连接相对应地执行与所连接的外部设备相关的合适控制。
识别模块可以是存储用于准许人工智能设备的使用授权的各种信息的芯片并且可以包括用户识别模块(UIM)、订户识别模块(SIM)和通用订户识别模块(USIM)等。此外,具有识别模块的设备(本文也被称为“识别设备”)可以采取智能卡的形式。因此,识别设备能够经由接口160与人工智能设备100连接。
存储器170可以存储支持人工智能设备100的各种功能的数据。
存储器170可以存储在人工智能设备100中执行的多个应用程序或者应用,用于人工智能设备100的操作的数据和命令,以及用于学习处理器130的操作的数据(例如,用于机器学习的至少一条算法信息)。
除了与应用程序有关的操作之外,处理器180通常控制人工智能设备100的整体操作。处理器180可以处理经由上面描述的部件而输入或者输出的信号、数据、信息等或者执行存储在存储器170中的应用程序,从而处理或者向用户提供合适的信息或功能。
此外,处理器180可以控制参照图1描述的部件中的至少一些以便执行存储在存储器170中的应用程序。进而,处理器180可以操作被包括在人工智能设备100中的部件中的至少两个的组合,以便执行应用程序。
电源190接收外部电力或者内部电力并且在控制器180的控制下供应操作被包括在人工智能设备100中的各个部件所需的合适的电力。电源190可以包括电池,并且电池可以是内置的或者可充电电池。
同时,如上所述,处理器180控制与人工智能设备100的应用程序和整体操作相关的操作。例如,当移动人工智能设备的状态满足设置的条件时,处理器180可以执行或者释放用于对应用限制用户的控制命令的输入的锁定功能。
图2是示出根据本发明的实施例的语音系统的图。
参照图2,语音系统1包括人工智能设备100、语音到文本(STT)服务器10、自然语言处理(NLP)服务器20和语音合成服务器30。
人工智能设备100可以向STT服务器10发送语音数据。
STT服务器10可以将从人工智能设备100接收的语音数据转换为文本数据。
STT服务器10可以使用语言模型增加语音文本转换的精确度。
语言模型可以意指能够在给出在前词语时计算句子的概率或者输出下一个词语的概率的模型。
例如,语言模型可以包括诸如一元语法模型(unigram model)、二元语法模型和N元语法(N-gram)模型等的概率语言模型。
一元语法模型是指假设所有词语的使用完全独立于彼此并且通过词语的概率的乘积来计算词语串的概率的模型。
二元语法模型是指假设词语的使用仅取决于一个在前词语的模型。
N-gram模型是指假设词语的使用取决于(n-1)个在前词语的模型。
即,STT服务器10可以使用语言模型确定语音数据何时被适当地转换为文本数据,从而增加转换为文本数据的精确度。
NLP服务器20可以从STT服务器10接收文本数据。NLP服务器20可以基于接收到的文本数据分析文本数据的意图。
NLP服务器20可以向人工智能设备100发送指示执行意图分析的结果的意图分析信息。
NLP服务器20可以依次执行针对文本数据的语素(morpheme)分析步骤、句法分析步骤、语音行为分析步骤、对话处理步骤,从而生成意图分析信息。
语素分析步骤是指将与用户发出的语音相对应的文本数据分类为作为具有意义的最小单位的语素,并且确定经分类的语素中的每一个的语音部分的步骤。
句法分析步骤是指使用语素分析步骤的结果将文本数据分类为名词短语、动词短语、形容词短语等并且确定经分类的短语之间的关系的步骤。
经由句法分析步骤,可以确定由用户发出的语音的主语、谓语和修饰词。
语音行为分析步骤是指使用句法分析步骤的结果分析由用户发出的语音的意图的步骤。具体地,语音行为步骤是指确定句子的意图(例如用户是询问问题、做出请求还是表达简单的情感)的步骤。
对话处理步骤是指确定是回答用户的话语(utterance)、对用户的话语做出响应还是询问更多信息。
NLP服务器20可以在对话处理步骤之后生成意图分析信息,意图分析信息包括回答用户的话语、响应用户的话语或者询问关于用户的话语的意图的更多信息中的至少一个。
同时,NLP服务器20可以从人工智能设备100接收文本数据。例如,当人工智能设备100支持语音到文本转换功能时,人工智能设备100可以将语音数据转换为文本数据并且将经转换的文本数据发送到NLP服务器20。
语音合成服务器30可以合成预存储的语音数据以生成经合成的语音。
语音合成服务器30可以记录被选择作为模型的用户的语音并且将所记录的语音划分为音节(syllable)或者词语。语音合成服务器30可以将经划分的语音以音节或者词语为单位存储在内部或外部数据库中。
语音合成服务器30可以从数据库检索与给定的文本数据相对应的音节或者词语并且合成所检索到的音节或者词语,从而生成经合成的语音。
语音合成服务器30可以存储分别与多个语言相对应的多个语音语言组。
例如,语音合成服务器30可以包括以韩语记录的第一语音语言组和以英语记录的第二语音语言组。
语音合成服务器30可以将第一语言的文本数据翻译为第二语言的文本并且使用第二语音语言组生成与经翻译的第二语言的文本相对应的经合成的语音。
语音合成服务器30可以向人工智能设备100发送经合成的语音。
语音合成服务器30可以从NLP服务器20接收意图分析信息。
语音合成服务器30可以基于意图分析信息生成包括用户的意图的经合成的语音。
在一个实施例中,STT服务器10、NLP服务器20和语音合成服务器30可以被实现为一个服务器。
STT服务器10、NLP服务器20和语音合成服务器30的相应功能也可以在人工智能设备100中执行。为此,人工智能设备100可以包括多个处理器。
图3是示出根据本发明的一个实施例的从语音信号提取用户的话语特征的处理的图。
图1中示出的人工智能设备100可以进一步包括音频处理器181。
音频处理器181可以被实现为与处理器180分开的芯片或者被包括在处理器180中的芯片。
音频处理器181可以从语音信号中去除噪声。
音频处理器181可以将语音信号转换为文本数据。为此,音频处理器181可以包括STT引擎。
音频处理器181可以识别用于激活人工智能设备100的语音识别的唤醒词语。音频处理器181可以将经由麦克风122接收的唤醒词语转换为文本数据并且当经转换的文本数据与预存储的唤醒词语相对应时确定唤醒词语被识别。
音频处理器181可以将噪声被去除的语音信号转换为功率谱(power spectrum)。
功率谱可以是指示被包括在随着时间变化的语音信号的波形中的频率分量及其幅值的参数。
功率谱示出了根据语音信号的波形的频率的幅值平方值的分布。
这将参照图4进行描述。
图4是示出根据本发明的一个实施例的将语音信号转换为功率谱的示例的图。
参照图4,示出了语音信号410。语音信号410可以经由麦克风122被接收或者被预存储在存储器170中。
语音信号410的x轴表示时间并且y轴表示幅值。
音频处理器181可以将x轴是时间轴的语音信号410转换为x轴是频率轴的功率谱430。
音频处理器181可以使用快速傅里叶变换(FFT)将语音信号410转换为功率谱430。
功率谱430的x轴表示频率并且功率谱430的y轴表示幅值的平方值。
将再次描述图3。
处理器180可以使用从音频处理器181接收的功率谱430或者文本数据中的至少一个来确定用户的话语特征。
用户的话语特征可以包括用户的性别、用户的语调(pitch)、用户的音调(tone)、用户发出的主题、用户的话语速度、用户的声音的音量等。
处理器180可以使用功率谱430获取语音信号410的频率以及与频率相对应的幅值。
处理器180可以使用功率谱430的频带来确定发出语音的用户的性别。
例如,当功率谱430的频带在预定的第一频带范围内时,处理器180可以确定用户的性别为男。
当功率谱430的频带在预定的第二频带范围内时,处理器180可以确定用户的性别为女。这里,第二频带范围可以大于第一频带范围。
处理器180可以使用功率谱430的频带来确定语音的语调。
例如,处理器180可以根据特定频带范围内的幅值确定语音的语调。
处理器180可以使用功率谱430的频带来确定用户的音调。例如,处理器180可以确定将功率谱430的频带中具有某一幅值或者更大幅值的频带确定为用户的主声区(register)并且将所确定的主声区确定为用户的音调。
处理器180可以根据经转换的文本数据经由每单位时间发出的音节的数量来确定用户的话语速度。
处理器180可以使用针对经转换的文本数据的词袋模型方案来确定用户发出的主题。
词袋模型方案是指用于基于词语在句子中的频率来提取主要使用的词语的方案。具体地,词袋模型方案是指用于从句子中提取独特的词语、通过向量表示所提取的词语的频率并且将发出的主题确定为特征的方案。
例如,当词语<跑步>、<物理强度>等频繁出现在文本数据中时,处理器180可以将用户发出的主题分类为运动。
处理器180可以使用公知的文本分类方案根据文本数据来确定用户发出的主题。处理器180可以从文本数据提取关键字并且确定用户发出的主题。
处理器180可以考虑整个频带中的幅值信息来确定用户的声音的音量。
例如,处理器180可以基于功率谱的每一个频带中的幅值的平均值或者加权平均值来确定用户的声音的音量。
参照图3和图4描述的音频处理器181和处理器180的功能可以在NLP服务器20或者语音合成服务器30中的任意一个中执行。
例如,NLP服务器20可以使用语音信号提取功率谱并且使用所提取的功率谱确定用户的话语特征。
图5是示出根据本发明的一个实施例的操作人工智能系统的方法的图。
人工智能系统可以包括人工智能设备100-1、第一外部人工智能设备100-2和第二外部人工智能设备100-3。
人工智能设备100-1、第一外部人工智能设备100-2和第二外部人工智能设备100-3中的每一个可以包括图1中示出的所有部件。
同时,尽管图5中的人工智能系统包括三个人工智能设备,但是这只是示例并且可以包括更多的人工智能设备。
人工智能设备100-1的麦克风122和第一外部人工智能设备100-2的麦克风122接收到唤醒命令(步骤S501和S503)。
在一个实施例中,唤醒命令可以是用于激活特定人工智能设备的用户的语音命令。
尽管在图5中仅示出了人工智能设备100-1和第一外部人工智能设备100-2接收到唤醒命令,但是这只是示例并且第二人工智能设备100-3也可以接收到唤醒命令。
人工智能设备100-1的处理器180获取接收到的唤醒命令的第一语音质量水平(S505),并且第一外部人工智能设备100-2获取唤醒命令的第二语音质量水平(S507)。
处理器180可以获取指示接收到的唤醒命令的语音水平的第一语音质量水平。
例如,处理器180可以获取在时间轴上的关键字语音与环境噪声比(KSANR)作为第一语音质量水平。
即,处理器180可以针对接收到的唤醒命令测量在时间轴上的关键字语音的功率与环境噪声的功率的比率并且获取所测量的比率作为第一语音质量水平。
在另一示例中,处理器180可以测量在频率域中的关键字语音区段的信号与噪声区段的信号的比率(信噪比(SNR))并且获取所测量的比率作为第一语音质量水平。
即,处理器180可以针对接收到的唤醒命令获取在频率域中的关键字语音区段的信噪比作为第一语音质量水平。
类似地,第一外部人工智能设备100-2的处理器180可以获取接收到的唤醒命令的KSANR或SNR中的任意一个作为第二语音质量水平。
同时,处理器180可以从唤醒命令中提取关键字语音、语音噪声和环境噪声。处理器180可以使用提取的结果来测量诸如KSANR或SNR的语音质量水平。
在另一示例中,语音质量水平可以指示唤醒命令的音量是否在合适的范围内。
例如,当由人工智能设备100-1接收的唤醒命令的音量在合适的范围内并且由第一外部人工智能设备100-2接收的唤醒命令的音量不在合适的范围内时,可以确定由人工智能设备100-1接收的唤醒命令的第一语音质量水平大于由第一外部人工智能设备100-2接收的唤醒命令的第二语音质量水平。
在这种情况下,语音质量水平可以包括由外部人工智能设备接收的唤醒命令的音量或者指示唤醒命令的音量是否在合适范围内的信息。
图6是示出根据本发明的一个实施例的测量语音质量水平的示例的图。
参照图6,示出了与经由麦克风122输入的唤醒命令相对应的语音信号610以及语音信号610的功率谱630。
音频处理器181可以从语音信号610提取关键字语音611、语音噪声613和615以及环境噪声617和619。
当语音信号610的特定区段的语音模式以某一比率或者更大比率与预定的噪声模式匹配时,音频处理器181将该区段分类为语音噪声。
类似地,当语音信号610的特定区段的语音模式以某一比率或者更大比率与预定的环境噪声模式匹配时,音频处理器181将该区段分类为环境噪声。
音频处理器181可以将从语音信号610排除语音噪声和环境噪声后的区段确定为关键字语音。
音频处理器181或者处理器180可以使用从语音信号610提取的关键字语音611、语音噪声613和615以及环境噪声617和619来获取语音质量水平。
例如,音频处理器181或者处理器180可以测量对应于关键字语音611的功率和对应于环境噪声617和619的功率之间的比率并且获取所测量的比率作为语音质量水平。这里,功率可以是幅值或者通过幅值计算出的功率。
在另一示例中,音频处理器181或者处理器180可以测量对应于关键字语音611的功率谱的功率与对应于噪声613、615、617和619的功率谱的功率的比率并且获取所测量的比率作为语音质量水平。
将再次描述图5。
人工智能设备100-1的处理器180经由无线通信单元110从第一外部人工智能设备100-2接收第二语音质量水平(S509)。
处理器180可以经由短程通信模块114从第一外部人工智能设备100-2接收第二语音质量水平。
人工智能设备100-1的处理器180将第一语音质量水平与第二语音质量水平进行比较并且确定第一语音质量水平是否大于第二语音质量水平(S511)。
在一个实施例中,处理器180可以通过比较确定由人工智能设备100-1接收的唤醒命令的KSANR和由第一外部人工智能设备100-2接收的唤醒命令的KSANR中的哪一个更大。
当由人工智能设备100-1接收的唤醒命令的KSANR大于由第一外部人工智能设备100-2接收的唤醒命令的KSANR时,处理器180可以确定第一语音质量水平大于第二语音质量水平。
相反,当由人工智能设备100-1接收的唤醒命令的KSANR小于由第一外部人工智能设备100-2接收的唤醒命令的KSANR时,处理器180可以确定第一语音质量水平小于第二语音质量水平。
在另一示例中,处理器180可以通过比较确定由人工智能设备100-1接收的唤醒命令的SNR和由第一外部人工智能设备100-2接收的唤醒命令的SNR中的哪一个更大。
当由人工智能设备100-1接收的唤醒命令的SNR大于由第一外部人工智能设备100-2接收的唤醒命令的SNR时,处理器180可以确定第一语音质量水平大于第二语音质量水平。
相反,当由人工智能设备100-1接收的唤醒命令的SNR小于由第一外部人工智能设备100-2接收的唤醒命令的SNR时,处理器180可以确定第一语音质量水平小于第二语音质量水平。
当第一语音质量水平大于第二语音质量水平时,人工智能设备100-1的处理器180输出指示人工智能设备100-1被选择作为要被控制的对象的通知(S513)。
当第一语音质量水平大于第二语音质量水平时,处理器180可以输出指示人工智能设备100-1根据用户的唤醒命令而被选择的通知。
即,可以输出人工智能设备100-1已经根据唤醒命令而被激活的通知。
处理器180可以经由声音输出单元152可听地输出通知或者经由光输出单元154输出特定的光。
处理器180可以在可听地输出通知的同时输出特定的光。
之后,人工智能设备100-1的麦克风122接收操作命令(S515),并且处理器180获取接收到的操作命令的意图(S517)。
例如,处理器180可以将操作命令转换为文本并且将经转换的文本发送到图2中所示的NLP服务器20。
处理器180可以从NLP服务器20接收NLP服务器20的意图分析结果。
意图分析结果可以包括将执行操作命令的人工智能设备以及将由外部人工智能设备执行的操作。
在另一示例中,处理器180可以自主地获取操作命令的意图。
处理器180可以包括能够执行NLP服务器20的功能的自然语言处理引擎并且使用自然语言处理引擎分析操作命令的意图。
人工智能设备100-1的处理器180基于所获取的意图确定将执行与操作命令相对应的操作的设备(S519)。
处理器180可以根据所获取的意图在多个外部人工智能设备当中确定能够执行操作的设备。多个外部人工智能设备中的每一个可以是连接到人工智能设备100-1的设备或者可连接的设备。
处理器180可以根据所获取的意图从人工智能设备100-1、第一外部人工智能设备100-2和第二外部人工智能设备100-3当中选择能够执行操作的设备。
人工智能设备100-1的处理器180经由无线通信单元110向所确定的第二外部人工智能设备100-2发送操作命令(S521)。
第二外部人工智能设备100-2可以从人工智能设备100-1接收操作命令并且执行与接收到的操作命令相对应的操作。
同时,在确定第一语音质量水平小于第二语音质量水平时,人工智能设备100-1的处理器180将比较语音质量水平的结果发送到第一外部人工智能设备100-2(S523)。
比较语音质量水平的结果可以包括指示第一语音质量水平和第二语音质量水平中的哪一个更大的信息。
除了比较语音质量水平的结果之外,处理器180可以向第一外部人工智能设备100-2发送指示第一外部人工智能设备100-2根据用户的话语被选择作为要被控制的设备的消息。
当第一语音质量水平小于第二语音质量水平时,人工智能设备100-1可以根据唤醒命令的接收而不被激活并且可以被维持在未激活状态。
第一外部人工智能设备100-2基于接收到的比较语音质量水平的结果输出指示第一外部人工智能设备100-2被选择作为要被控制的对象的通知(S525)。
图7是示出操作图5中示出的人工智能系统的方法的实际使用场景的图。
参照图7,假设人工智能设备100-1是智能TV,第一外部人工智能设备100-2是空气过滤器,并且第二外部人工智能设备100-3是清洁机器人。
此外,人工智能设备100-1和第一外部人工智能设备100-2位于起居室中并且第二外部人工智能设备100-3位于主室中。
假设第二外部人工智能设备100-3远离用户而不接收或者识别用户发出的语音命令。
用户发出唤醒命令<嗨!LG>。
人工智能设备100-1和第一外部人工智能设备100-2接收到用户发出的唤醒命令<嗨!LG>。
人工智能设备100-1可以获取由此接收的唤醒命令的第一语音质量水平。
此外,人工智能设备100-1可以从第一外部人工智能设备100-2接收由第一外部人工智能设备100-2接收的唤醒命令的第二语音质量水平。
人工智能设备100-1可以将第一语音质量水平与第二语音质量水平进行比较并且当第一语音质量水平大于第二语音质量水平时输出人工智能设备100-1自身被选择作为要被控制的对象的通知。
同时,人工智能设备100-1可以向第一外部人工智能设备100-2发送指示人工智能设备100-1被选择作为要被控制的对象的消息。
尽管已经从用户接收到了唤醒命令,但是第一外部人工智能设备100-2可以根据从人工智能设备100-1接收到的消息而不被激活。
根据本发明的实施例,多个人工智能设备中的由一个唤醒命令激活的仅任意一个可以被选择作为要被控制的对象。
因此,能够避免多个人工智能设备被一个唤醒命令激活,从而防止混淆。
图8是示出根据本发明的一个实施例的操作人工智能设备的方法的流程图。
人工智能设备100的麦克风122接收唤醒命令(S801)。
人工智能设备100的处理器180测量接收到的唤醒命令的音量(S803)。
当唤醒命令通过麦克风122被接收时,处理器180可以测量接收到的唤醒命令的音量。
所测量的音量可以以分贝表示,但是这仅是示例。
人工智能设备100的处理器180确定所测量的音量是否在合适的范围内(S805)。
在一个实施例中,合适的范围可以是人工智能设备100根据唤醒命令改变到激活状态所需的音量的范围。
例如,合适的范围可以是从40到60,但是这只是示例。
当每一个人工智能设备设置在家庭中时,合适的范围可以由用户设置。即,合适的范围可以根据用户输入而被注册在每一个设备中。
在确定所测量的音量在合适的范围内时,人工智能设备100的处理器180输出指示人工智能设备100被选择作为要被控制的对象的通知(S807)。
在确定所测量的音量在合适的范围内时,处理器180可以响应于唤醒命令而将人工智能设备100的未激活状态改变为激活状态。
人工智能设备100的未激活状态可以是其中人工智能设备不对用户发出的操作命令做出响应的状态。
人工智能设备100的激活状态可以是其中人工智能设备100可以响应于由用户发出的操作命令而执行与操作命令相对应的操作的状态。
在确定所测量的音量在合适的范围内时,处理器180可以经由声音输出单元152或者光输出单元154而输出指示人工智能设备100被选择作为要被控制的对象的通知。
同时,在确定所测量的音量不在合适的范围内时,人工智能设备100的处理器180维持未激活状态(S809)。
即,即使用户发出的操作命令被输入到麦克风122,处理器180也可以不执行任何操作。
图9和图10是示出根据本发明的一个实施例的响应于用户的唤醒命令而从多个人工智能设备当中选择任意一个设备作为要被控制的对象的处理的图。
参照图9和图10,设置了人工智能设备100-1、第一外部人工智能设备100-2和第二外部人工智能设备100-3。
假设被设置为将人工智能设备100-1、第一外部人工智能设备100-2和第二外部人工智能设备100-3改变到激活状态的音量的合适的范围均为40到60。
合适的范围可以是从上限值910到下限值930的范围。
此外,假设用户和人工智能设备100-1之间的距离大于用户和第一外部人工智能设备100-2之间的第二距离并且用户和第二外部人工智能设备100-3之间的第三距离小于第二距离。
首先,参照图9,用户大声地发出唤醒命令901<嗨!LG>。
人工智能设备100-1可以确定经由麦克风122输入的唤醒命令901的第一语音信号951的音量是否在上限值910和下限值930之间。
如图9所示,当唤醒命令901的第一语音信号951的音量在上限值910和下限值930之间时,人工智能设备100-1可以通过唤醒命令901而被选择作为要被控制的对象。
即,人工智能设备100-1可以根据唤醒命令901而被激活。
由于经由麦克风122输入的第二语音信号953的音量大于下限值930并且超出了上限值910,因此第一外部人工智能设备100-2可以确定第二语音信号953的音量不在合适的范围内。
即,由于唤醒命令901的音量不在合适的范围内,所以即使唤醒命令901被输入到麦克风122,第一外部人工智能设备100-2也可以不被激活。
由于在经由麦克风122输入的唤醒命令901的第三语音信号955在整个范围中的音量都超出上限值910,因此第二外部人工智能设备100-3可以确定第三语音信号955的音量不在合适的范围内。
即,由于唤醒命令901的音量不在合适的范围内,因此即使唤醒命令901被输入到麦克风122,第二外部人工智能设备100-3也可以不被激活。
根据本发明的实施例,用户可以在视觉上确定距要被控制的设备的距离并且当要被控制的设备距其较远时大声地发出唤醒命令,从而容易地选择期望的设备作为要被控制的对象。
接下来,参照图10,用户低声地发出唤醒命令1001<嗨!LG>。
每一个人工智能设备可以确定经由麦克风输入的唤醒命令1001的音量是否在合适的范围内。
人工智能设备100-1可以确定第四语音信号1010的音量不在合适的范围内,因为输入到其麦克风122的唤醒命令1001的第四语音信号1010的音量小于下限值930。
即,人工智能设备100-1可以响应于唤醒命令而不被激活。
第一外部人工智能设备100-2可以确定第五语音信号1030的音量不在合适的范围内,因为输入到其麦克风122的唤醒命令1001的第五语音信号1030的音量小于下限值930。
即,第一外部人工智能设备100-2可以响应于唤醒命令1001而不被激活。
第二外部人工智能设备100-3可以通过唤醒命令1001而被选择作为要被控制的对象,因为输入到其麦克风122的唤醒命令1001的第六语音信号1050在整个范围中都在合适的范围内。
根据本发明的实施例,用户可以在视觉上确定距要被控制的设备的距离并且当要被控制的设备距其较近时低声地发出唤醒命令,从而容易地选择期望的设备作为要被控制的对象。
此外,在图9和图10的实施例中,由于根据相同唤醒命令的话语而激活仅一个设备,因此能够防止多个设备被激活,从而防止拥塞。
图11是示出根据本发明另一实施例的操作人工智能系统的方法的梯形图。
特别地,图11是示出其中多个人工智能设备中的任意一个成为主设备(masterdevice)以根据唤醒命令选择要被控制的对象的图。
参照图11,人工智能设备100-1、第一外部人工智能设备100-2和第二外部人工智能设备100-3中的每一个经由麦克风122接收唤醒命令(S1101、S1103和S1105)。
人工智能设备100-1的处理器180测量唤醒命令的第一音量(S1107)、第一外部人工智能设备100-2测量唤醒命令的第二音量(S1108),并且第二外部人工智能设备100-3测量唤醒命令的第三音量(S1111)。
人工智能设备100-1的处理器180经由无线通信单元110从第一外部人工智能设备100-2接收包括第二音量的音量信息(S1113),并且从第二外部人工智能设备100-3接收包括第三音量的音量信息(S1115)。
人工智能设备100-1的处理器180确定第一音量、第二音量和第三音量中的任意一个是否在合适的范围内(S1117)。
当任意一个音量在合适的范围内时,人工智能设备100-1的处理器180确定与该音量相对应的设备作为要被控制的对象(S1119)。
人工智能设备100-1的处理器180经由无线通信单元110向所确定的设备发送指示所确定的设备被选择作为要被控制的对象的消息(S1121)。
例如,当与第一外部人工智能设备100-2相对应的第二音量在合适的范围内时,处理器180可以经由无线通信单元110向第一外部人工智能设备100-2发送指示第一外部人工智能设备100-2被选择作为要被控制的对象的消息。
第一外部人工智能设备100-2可以根据从人工智能设备100-1接收到的消息将其状态改变为激活状态。
当人工智能设备100-1被选择作为要被控制的对象时,处理器180可以省去步骤S1121。
当人工智能设备100-1被选择作为要被控制的对象时,处理器180可以输出对此进行指示的通知。
在图11的实施例中,主设备可以根据用户的唤醒命令的话语而有效地选择要被控制的对象。
同时,当在用户和人工智能设备之间存在障碍物时,唤醒命令的语音信号会由障碍物反射,从而激活用户不期望的设备。
因此,需要考虑由障碍物反射的语音信号来选择要被控制的对象。
图12和图13是示出当障碍物位于用户和人工智能设备之间时校正唤醒命令的音量的方法的图。
在图12中,障碍物1200被进一步设置在图9的实施例中。
用户大声地发出唤醒命令901以便在人工智能设备当中选择最远的人工智能设备100-1。
然而,由于障碍物1200的存在,唤醒命令901的语音信号可能会由障碍物反射并且经反射的信号可能会被输入到第二外部人工智能设备100-3。
即,唤醒命令901的语音信号955与通过在障碍物1200处反射语音信号955而生成的经反射的信号1310可能会被输入到第二外部人工智能设备100-3的麦克风122。
当经反射的信号1310在合适的范围内时,尽管用户大声地发出唤醒命令901以便选择人工智能设备100-1,第二外部人工智能设备100-3也可能被激活。
当人工智能设备100-1和第二外部人工智能设备100-3响应于唤醒命令901而被激活时,两个设备对用户的操作命令做出响应,从而增加了混淆。
为此,每一个人工智能设备可以测量唤醒命令901的回声时间(echo time),从而测量障碍物的存在。
回声时间是指将经由麦克风122接收的语音信号的音量降低60dB所需的时间。
当与唤醒命令901相对应的语音信号的回声时间等于或者大约预定时间时,第二外部人工智能设备100-3可以确定检测到障碍物。
输入到第二外部人工智能设备100-3的信号可以包括语音信号955以及在由障碍物1200反射之后在具有时间差的情况下被输入的经反射的信号1310。
当语音信号955和经反射的信号1310被输入时,由于在具有时间差的情况下被输入的经反射的信号1310的影响,回声时间通常会超出预定时间。
当回声时间等于或者大于预定时间并且确定障碍物被检测到时,第二外部人工智能设备100-3可以分析通过合成语音信号955和经反射的信号1310而获得的经合成的信号1330的波形。
第二外部人工智能设备100-3可以从经合成的信号1330提取由于语音信号955和经反射的信号1310之间的时间差而生成的时间差信号1331和1333。
第二外部人工智能设备100-3可以在确定经合成的语音1330的音量是否在合适的范围内时不考虑经提取的时间差信号1331和1333。
即,第二外部人工智能设备100-3可以将经提取的时间差信号1331和1333确定为错误信号并且确定除去经提取的时间差信号1331和1333之后剩余的经合成的信号的音量是否在合适的范围内。
由于除去时间差信号1331和1333的剩余的经合成的信号中的一些超出上限值910,第二外部人工智能设备100-3可以确定剩余的经合成的信号的音量不在合适的范围内。
因此,第二外部人工智能设备100-3可以根据唤醒命令901的输入而不被激活。
根据本发明的实施例,即使存在障碍物,用户也能够根据唤醒命令的音量选择期望的要被控制的设备。
同时,在其中选择了要被控制的对象的状态下,用户可以在移动的同时发出操作命令。当用户在移动的同时发出操作命令时,由设备接收到的操作命令的音量可能被改变并且因而音量可能不在合适的范围内。
因此,在本发明中,提出了检测用户的移动并且自适应地调节音量的合适的范围的方法。
图14是示出根据本发明另一实施例的操作人工智能设备的方法的流程图。
图14示出了在选择了要被控制的设备的状态下执行的处理。
参照图14,人工智能设备100的处理器180确定是否检测到用户的移动(S1401)。
例如,人工智能设备100可以使用超声传感器、红外传感器或者激光传感器中的一个检测用户的移动。
超声传感器可以发射声波并且重复地测量接收到从对象反射的声波所需的时间。
红外传感器可以发射红外线并且重复地测量接收到从对象反射的红外线所需的时间。
激光传感器可以发射激光束并且重复地测量接收到从对象反射的激光束所需的时间。
处理器180可以使用所测量的时间获取用户与人工智能设备100之间的距离。此外,处理器180可以根据所测量的时间的改变来获取距离改变并且确定用户是否正在移动远离或者靠近人工智能设备100。
当没有检测到用户的移动时,处理器180维持音量的合适的范围(S1403)。
当检测到用户的移动时,人工智能设备100的处理器180调节音量的合适的范围(S1405)。
处理器180可以根据用户与人工智能设备100之间的距离自适应地调节音量的合适的范围。
当用户与人工智能设备100之间的距离增加时,处理器180可以降低合适的范围的上限值和下限值。
相反,当用户与人工智能设备100之间的距离降低时,处理器180可以增加合适的范围的上限值和下限值。
这将参照图15和图16进行描述。
图15和图16是示出根据用户移动检测而自动调节音量的合适的范围的处理的图。
参照图15,示出了当用户位于位置A处时由人工智能设备100-1接收的语音的音量的合适的范围(上限值:910,下限值:930)。
即,在用户位于位置A处时操作命令被接收的情况下,人工智能设备100-1可以确定与接收到的操作命令相对应的语音信号1501的音量是否在合适的范围内。
当语音信号1501的音量在合适的范围内时,人工智能设备100-1可以执行与操作命令相对应的操作。
人工智能设备100-1可以检测用户从位置A到位置B的移动。
人工智能设备100-1可以测量已移动到位置B的用户与人工智能设备100-1之间的距离。
人工智能设备100-1可以使用所测量的距离来调节音量的合适的范围。
参照图16,当用户位于位置A处时,与操作命令相对应的语音信号1501在合适的范围内。假设合适的范围的下限值是40并且合适的范围的上限值是60。
当在其中用户从位置A移动到位置B的状态下具有相同音量的操作命令被接收时,由于人工智能设备100-1与用户之间的距离增加,语音信号1601的音量可能不在合适的范围内。
在这种情况下,用户的操作命令的操作可能不会被执行,从而导致不便。
当用户已移动到位置B时,人工智能设备100-1可以测量用户与人工智能设备100-1之间的距离并且使用所测量的距离调节合适的范围的上限值和下限值。
例如,当所测量的距离比现有距离更远时,人工智能设备100-1可以将上限值从60改变到45并且将下限值从40改变到25。
因此,当用户在位置B处发出操作命令1500时,操作命令1500的语音信号1601可以在经改变的合适的范围内。
人工智能设备100-1可以在维持上限值与下限值之间的差值的同时调节上限值和下限值。
根据本发明的实施例,即使用户移动,音量的合适的范围也可以被调节以使得用户继续控制期望的要被控制的设备。
用户可以不必根据其移动调节其发出的语音的音量来控制要被控制的设备。
将再次描述图14。
处理器180经由麦克风122接收操作命令(S1407),并且测量操作命令的音量(S1409)。
处理器180确定所测量的音量是否在经调节的合适的范围内(S1411)。
当所测量的音量在合适的范围内时,处理器180执行与操作命令相对应的操作(S1413)。
图17是示出根据本发明的一个实施例的当多个人工智能设备被设置在固定位置处时注册每一个设备的合适的话语音量范围的处理的图。
参照图17,人工智能设备100-1、第一外部人工智能设备100-2和第二外部人工智能设备100-3中的每一个可以设置家庭中的固定位置处。
假设用户与第一外部人工智能设备100-2之间的距离最大并且用户与第二外部人工智能设备100-3之间的距离最小。
用户可以注册在设备被固定的位置处的每一个设备的合适的话语音量范围。
例如,假设用户注册人工智能设备100-1的合适的话语音量范围。
用户发出具有特定音量的唤醒命令1700。
人工智能设备100-1的处理器180可以测量接收到的唤醒命令1700的音量并且设置与所测量的音量相对应的合适的话语音量范围(S1701)。
合适的话语音量范围可以具有上限值910和下限值930。
例如,当唤醒命令1700的音量为50时,处理器180可以注册40到60的范围作为合适的话语音量范围,其具有40的上限值910和60的下限值930。
同时,第一外部人工智能设备100-2可以将合适的话语音量范围的下限值1730设置为低于40(S1703)。
相反,第二外部人工智能设备100-3可以将上限值1710设置为低于60(S1705)。
当S1701、S1703和S1705在用户的特定位置或者另一位置被重复执行时,每一个人工智能设备可以将上限值的平均值和下限值的平均值注册为合适的话语音量范围。
前述描述中提到的本发明也能够被体现为计算机可读记录介质上的计算机可读代码。可能的计算机可读介质的示例包括HDD(硬盘驱动器)、SSD(固态盘)、SDD(硅磁盘驱动)、ROM、RAM、CD-ROM、磁带、软盘、光学数据存储设备等。计算机可以包括人工智能设备的处理器180。

Claims (14)

1.一种人工智能设备,该人工智能设备包括:
麦克风,所述麦克风被配置为接收语音命令;
扬声器;
通信单元,所述通信单元被配置为执行与外部人工智能设备的通信;以及
处理器,所述处理器被配置为:
经由所述麦克风接收唤醒命令,
获取接收到的所述唤醒命令的第一语音质量水平,
经由所述通信单元从第一外部人工智能设备接收被输入到所述第一外部人工智能设备的麦克风的所述唤醒命令的第二语音质量水平,
当所述第一语音质量水平大于所述第二语音质量水平时,经由所述扬声器输出指示所述人工智能设备被选择作为要被控制的对象的通知,
经由所述麦克风接收操作命令,
获取接收到的所述操作命令的意图,其中,所获取的所述意图指示由第二外部人工智能设备执行对应于所述操作命令的操作,并且
经由所述通信单元根据所获取的所述意图将用于执行所述操作的所述操作命令发送到所述第二外部人工智能设备。
2.根据权利要求1所述的人工智能设备,其中,所述第一语音质量水平和所述第二语音质量水平中的每一个是所述唤醒命令的关键字语音的功率与环境噪声的功率的比率或者关键字语音区段的信号与噪声区段的信号的比率中的任意一个。
3.根据权利要求1所述的人工智能设备,其中,当所述第一语音质量水平小于所述第二语音质量水平时,所述处理器经由所述通信单元向所述第一外部人工智能设备发送指示所述第一外部人工智能设备被选择作为要被控制的对象的消息。
4.根据权利要求1所述的人工智能设备,其中,当所述第一语音质量水平小于所述第二语音质量水平时,所述处理器将所述人工智能设备维持在未激活状态。
5.根据权利要求1所述的人工智能设备,其中,所述处理器经由所述通信单元向所述第一外部人工智能设备发送指示所述人工智能设备被选择作为要被控制的对象的消息。
6.根据权利要求1所述的人工智能设备,其中,所述处理器将接收到的所述操作命令发送到自然语言处理服务器,从所述自然语言处理服务器接收意图分析结果,并且基于接收到的所述意图分析结果获取所述操作命令的意图。
7.根据权利要求1所述的人工智能设备,其中,当由所述人工智能设备接收的所述唤醒命令的音量在合适的范围内并且由所述第一外部人工智能设备接收的所述唤醒命令的音量不在合适的范围内时,所述处理器确定所述第一语音质量水平大于所述第二语音质量水平。
8.一种操作人工智能设备的方法,所述方法包括以下步骤:
接收唤醒命令;
获取接收到的所述唤醒命令的第一语音质量水平;
从第一外部人工智能设备接收被输入到所述第一外部人工智能设备的麦克风的所述唤醒命令的第二语音质量水平;
当所述第一语音质量水平大于所述第二语音质量水平时,输出指示所述人工智能设备被选择作为要被控制的对象的通知;
接收操作命令;
获取接收到的所述操作命令的意图,其中,所获取的所述意图指示由第二外部人工智能设备执行对应于所述操作命令的操作;以及
根据所获取的所述意图将用于执行所述操作的所述操作命令发送到所述第二外部人工智能设备。
9.根据权利要求8所述的方法,其中,所述第一语音质量水平和所述第二语音质量水平中的每一个是所述唤醒命令的关键字语音的功率与环境噪声的功率的比率或者关键字语音区段的信号与噪声区段的信号的比率中的任意一个。
10.根据权利要求8所述的方法,所述方法还包括以下步骤:当所述第一语音质量水平小于所述第二语音质量水平时向所述第一外部人工智能设备发送指示所述第一外部人工智能设备被选择作为要被控制的对象的消息。
11.根据权利要求8所述的方法,所述方法还包括以下步骤:当所述第一语音质量水平小于所述第二语音质量水平时将所述人工智能设备维持在未激活状态。
12.根据权利要求8所述的方法,所述方法还包括以下步骤:经由通信单元向所述第一外部人工智能设备发送指示所述人工智能设备被选择作为要被控制的对象的消息。
13.根据权利要求8所述的方法,其中,获取所述意图的步骤包括以下步骤:
向自然语言处理服务器发送接收到的所述操作命令,
从所述自然语言处理服务器接收意图分析结果,并且
基于接收到的所述意图分析结果获取所述操作命令的意图。
14.根据权利要求8所述的方法,所述方法还包括以下步骤:当由所述人工智能设备接收的所述唤醒命令的音量在合适的范围内并且由所述外部人工智能设备接收的所述唤醒命令的音量不在合适的范围内时,确定所述第一语音质量水平大于所述第二语音质量水平。
CN202010126719.5A 2019-03-27 2020-02-28 人工智能设备以及操作人工智能设备的方法 Active CN111754998B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KRPCT/KR2019/003584 2019-03-27
PCT/KR2019/003584 WO2020196955A1 (ko) 2019-03-27 2019-03-27 인공 지능 기기 및 인공 지능 기기의 동작 방법

Publications (2)

Publication Number Publication Date
CN111754998A CN111754998A (zh) 2020-10-09
CN111754998B true CN111754998B (zh) 2023-12-01

Family

ID=67624613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010126719.5A Active CN111754998B (zh) 2019-03-27 2020-02-28 人工智能设备以及操作人工智能设备的方法

Country Status (5)

Country Link
US (1) US11580969B2 (zh)
EP (1) EP3716266B1 (zh)
KR (1) KR20190094301A (zh)
CN (1) CN111754998B (zh)
WO (1) WO2020196955A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110890092B (zh) * 2019-11-07 2022-08-05 北京小米移动软件有限公司 唤醒控制方法及装置、计算机存储介质
CN111276139B (zh) * 2020-01-07 2023-09-19 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
KR102223294B1 (ko) * 2020-02-20 2021-03-05 한국과학기술원 복수 사용자의 움직임 추적을 통한 인공지능 스피커와의 대화 상호작용 흐름 관리 기술
CN113489627A (zh) * 2020-03-16 2021-10-08 深圳市艾特智能科技有限公司 一种智能设备语音唤醒方法、系统、可读存储介质及电子设备
US11308962B2 (en) * 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
CN112435663A (zh) * 2020-11-11 2021-03-02 青岛歌尔智能传感器有限公司 命令语音管理方法、装置、设备及介质
CN112562666B (zh) * 2020-11-30 2022-11-04 海信视像科技股份有限公司 一种筛选设备的方法及服务设备
US20220293109A1 (en) * 2021-03-11 2022-09-15 Google Llc Device arbitration for local execution of automatic speech recognition

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
CN103456306A (zh) * 2012-05-29 2013-12-18 三星电子株式会社 用于在电子装置中执行语音命令的方法和设备
CN108320742A (zh) * 2018-01-31 2018-07-24 广东美的制冷设备有限公司 语音交互方法、智能设备及存储介质
CN108962258A (zh) * 2017-05-24 2018-12-07 哈曼国际工业有限公司 多个语音识别设备之间的协调

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9472205B2 (en) 2013-05-06 2016-10-18 Honeywell International Inc. Device voice recognition systems and methods
US9830924B1 (en) * 2013-12-04 2017-11-28 Amazon Technologies, Inc. Matching output volume to a command volume
US9812128B2 (en) * 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US10832665B2 (en) * 2016-05-27 2020-11-10 Centurylink Intellectual Property Llc Internet of things (IoT) human interface apparatus, system, and method
US9972320B2 (en) * 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
KR20180046550A (ko) 2016-10-28 2018-05-09 이재윤 인공지능을 이용한 대화 장치 및 방법
KR102421487B1 (ko) 2017-04-24 2022-07-15 엘지전자 주식회사 인공 지능 기기
US10573171B2 (en) 2017-05-23 2020-02-25 Lenovo (Singapore) Pte. Ltd. Method of associating user input with a device
US20180366097A1 (en) * 2017-06-14 2018-12-20 Kent E. Lovelace Method and system for automatically generating lyrics of a song
KR102160744B1 (ko) 2017-08-18 2020-09-28 에스케이텔레콤 주식회사 인공지능 서비스를 인터페이싱하는 장치 및 방법
US10546583B2 (en) * 2017-08-30 2020-01-28 Amazon Technologies, Inc. Context-based device arbitration
KR102395013B1 (ko) 2017-09-05 2022-05-04 엘지전자 주식회사 인공지능 홈 어플라이언스 및 음성 인식 서버 시스템의 동작 방법
US10762900B2 (en) * 2018-03-07 2020-09-01 Microsoft Technology Licensing, Llc Identification and processing of commands by digital assistants in group device environments
US10705789B2 (en) * 2018-07-25 2020-07-07 Sensory, Incorporated Dynamic volume adjustment for virtual assistants

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8340975B1 (en) * 2011-10-04 2012-12-25 Theodore Alfred Rosenberger Interactive speech recognition device and system for hands-free building control
CN103456306A (zh) * 2012-05-29 2013-12-18 三星电子株式会社 用于在电子装置中执行语音命令的方法和设备
CN108962258A (zh) * 2017-05-24 2018-12-07 哈曼国际工业有限公司 多个语音识别设备之间的协调
CN108320742A (zh) * 2018-01-31 2018-07-24 广东美的制冷设备有限公司 语音交互方法、智能设备及存储介质

Also Published As

Publication number Publication date
WO2020196955A1 (ko) 2020-10-01
KR20190094301A (ko) 2019-08-13
US11580969B2 (en) 2023-02-14
EP3716266B1 (en) 2023-10-25
CN111754998A (zh) 2020-10-09
EP3716266A1 (en) 2020-09-30
US20210366474A1 (en) 2021-11-25

Similar Documents

Publication Publication Date Title
US11393491B2 (en) Artificial intelligence device capable of controlling operation of another device and method of operating the same
CN111754998B (zh) 人工智能设备以及操作人工智能设备的方法
US11211062B2 (en) Intelligent voice recognizing method with improved noise cancellation, voice recognizing apparatus, intelligent computing device and server
US11705105B2 (en) Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same
US11200888B2 (en) Artificial intelligence device for providing speech recognition function and method of operating artificial intelligence device
KR102281504B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법
US11568853B2 (en) Voice recognition method using artificial intelligence and apparatus thereof
US11189282B2 (en) Intelligent voice recognizing method, apparatus, and intelligent computing device
US11657800B2 (en) Electronic device with wakeup word determined multi-mode operation
US11521621B2 (en) Gathering user&#39;s speech samples
US20210110815A1 (en) Method and apparatus for determining semantic meaning of pronoun
US11417313B2 (en) Speech synthesizer using artificial intelligence, method of operating speech synthesizer and computer-readable recording medium
KR102631143B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
KR102642617B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
US20230136611A1 (en) Artificial intelligence apparatus and method for controlling the same
KR102603282B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant