CN108461082A

CN108461082A - 控制执行多语音处理的人工智能系统的方法

Info

Publication number: CN108461082A
Application number: CN201810153548.8A
Authority: CN
Inventors: 郑奎赫
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2017-02-20
Filing date: 2018-02-22
Publication date: 2018-08-28
Anticipated expiration: 2038-02-22
Also published as: US20180240456A1; US20200160837A1; EP3373292A2; KR102384641B1; CN108461082B; EP3373292A3; US10580400B2; KR20180096183A

Abstract

本发明提供一种控制执行多语音处理的人工智能系统的方法。本说明书涉及一种控制基于人工智能技术执行多语言处理的人工智能系统的方法。控制执行多语言处理的人工智能系统的方法包括：通过麦克风接收语音信息；基于预设参考来确定语音信息的语言；基于确定结果，从处理不同语言的多个语音识别服务器选择特定语音识别服务器；以及将语音信息发送到所选择的特定语音识别服务器。

Description

控制执行多语音处理的人工智能系统的方法

技术领域

本说明书涉及一种控制基于人工智能技术执行多语言处理的人工智能系统的方法。

背景技术

人工智能是计算机工程和信息技术领域，其研究一种代替人类智能的使计算机思考、学习、自我发展等的方法。这意味着一种使计算机模仿人类智能行为的方法。

此外，人工智能本身并不存在，但与其他计算机科学领域直接或间接相关。特别是现在，通过将人工智能引入信息技术领域，正在积极地尝试解决信息技术许多领域出现的问题。

例如，人工智能已经被应用于自然语言处理的领域，用于诸如自动翻译的系统的实际使用。

此外，诸如英语、汉语、韩语和西班牙语的各种语言命令可以被输入到诸如机场和地铁的挤满使用各种语言的人群的地方的公共设备。

在输入各种语言命令的情况下，对于单个服务器来说在技术上难以将所有语言转换成文本并分析转换的语言的含义。例如，商业服务器基本上根据每种语言使用不同的语音识别/自然语言处理模型。

发明内容

因此，详细描述的一个方面是为了提供一种控制人工智能系统的方法，该人工智能系统执行多语言处理，能够根据输入的语音信息的语言将语音信息发送到不同的服务器，并且能够接收处理结果。

为了实现这些和其他优点并根据本说明书的目的，如在此具体化和广泛描述的，提供一种控制多语言音频处理系统的方法，该方法包括：经由麦克风接收语音信息；基于预设的参考语言信息确定所接收的语音信息中的至少一个语言；基于所确定的至少一个语言从多个语音识别服务器选择特定语音识别服务器，其中多个语音识别服务器对应于不同的语言并且特定语音识别服务器对应于至少一个确定的语言；以及生成包括所接收的语音信息的查询并且将查询发送到所选择的特定语音识别服务器。

根据本发明的控制执行多语言处理的人工智能系统的方法可具有以下优点。

根据本发明的至少一个实施例，由于根据发音的类型(语言类型)语音信息被发送到不同的服务器，因此可以首先在客户端步骤(client step)中分配最佳服务器。这可以允许提供快速/精确的服务。

根据另一实施例，用户可以通过输入特定请求(语言转换请求)来选择要执行语言处理的服务器。

根据在下文中给出的详细描述，本申请的应用的进一步范围将变得更加显然。然而，应理解的是，仅通过说明给出指示本公开的优选实施例的特定示例和详细描述，因为对本领域的技术人员来说从详细描述中本公开的精神和范围内的各种变化和修改将变得显然。

附图说明

附图被包括以提供对本公开的进一步理解，并且被并入且组成本说明书的一部分，附图图示示例性实施例并且连同描述一起用于解释本公开的原理。

在附图中：

图1A是图示根据本发明的移动终端的框图；

图1B和1C是根据本发明的从不同方向看到的移动终端的概念图；

图2是用于解释根据本发明的控制执行多语言处理的人工智能系统的方法的流程图；

图3是用于解释根据本发明的控制执行多语言处理的人工智能系统的方法的概念图；

图4是用于解释当一个语音信息包括多个语言时控制人工智能系统的方法的概念图；

图5是用于解释控制使用存储器执行多语言处理的人工智能系统的方法的概念图；以及

图6是用于解释当另外输入语言转换请求时控制人工智能系统的方法的概念图。

具体实施方式

参考附图，现在将根据在此公开的示例性实施例详细地给出描述。为了参考附图简要描述，相同的或者等效的组件可以被设有相同或者相似的附图标记，并且其描述将不会被重复。通常，诸如“模块”和“单元”的后缀可以被用于指代元件或者组件。这样的后缀的使用在此旨在仅有助于说明书的描述，并且后缀本身旨在没有给予任何特定意义或者功能。在本公开中，为了简要，通常已经省略了在相关领域中对于普通技术人员来说公知的那些。附图被用于帮助容易地理解各种技术特征并且应理解附图没有限制在此提出的实施例。正因如此，本公开应被解释为延伸到除了在附图中特别陈述的之外的任何改变、等同物以及替代。

将要理解的是，尽管在此可以使用术语第一、第二等等以描述各种元件，但是这些元件不应被这些术语限制。这些术语通常仅被用于区分一个元件与另一元件。

将要理解的是，当元件被称为“连接”另一元件时，元件能够与另一元件连接或者也可以存在中间元件。相反地，当元件被称为“直接地连接”另一元件时，则不存在中间元件。

单数表示可以包括复数表示，除非根据上下文其表示明确不同的意义。

在此使用诸如“包括”或者“具有”的术语并且应理解它们旨在指示在本说明书中公开的特征、数目、步骤、功能、数个组件或者组合的存在，并且也应理解可以同样地利用更多或者更少的特征、数目、步骤、功能、数个组件或者其组合。

可以使用各种不同类型的终端实现在此提出的移动终端。这样的终端的示例包括蜂窝电话、智能电话、用户装置、膝上型计算机、数字广播终端、个人数字助手(PDA)、便携式多媒体播放器(PMP)、导航仪、便携式计算机(PC)、板式PC、平板PC、超级本、可佩戴装置(例如，智能手表、智能眼镜、头戴式显示器(HMD))等等。

仅通过非限制性示例，将会参考特定类型的移动终端进行进一步的描述。然而，这样的教导同等地应用于其他类型的终端，诸如在上面注明的那些类型。另外，这样的教导也可以被应用于诸如数字TV、桌上型计算机等等的固定终端。

图1A是图示根据本发明的移动终端的框图。并且图1B和1C是根据本发明的从不同方向看到的移动终端的概念图。

示出移动终端100，其具有诸如无线通信单元110、输入单元120、人工智能(AI)单元130、感测单元140、输出单元150、接口单元160、存储器170、控制器180、以及电源单元190的各种组件。要理解的是，不要求实现所有图示的组件，并且可以替换地实现更多或者更少的组件。

更加详细地，无线通信单元110通常包括一个或者多个模块，其允许诸如在移动终端100和无线通信系统之间的无线通信的通信、在移动终端100和另一移动终端之间的通信、在移动终端100与外部服务器之间通信。此外，无线通信单元110通常包括将移动终端100连接到一个或者多个网络的一个或者多个模块。

无线通信单元110可以包括广播接收模块111、移动通信模块112、无线互联网模块113、短程通信模块114、以及位置信息模块115中的一个或者多个。

输入单元120包括：用于获得图像或者视频的相机121；麦克风122，该麦克风122是一种用于输入音频信号的音频输入装置；以及用于允许用户输入信息的用户输入单元123(例如，触摸键、机械键等等)。数据(例如，音频、视频、图像等等)通过输入单元120被获得并且可以根据装置参数、用户命令、以及其组合通过控制器180分析和处理。

人工智能单元130起到基于人工智能技术处理信息的作用，并且可以包括至少一个模块，用于执行信息的学习、信息的推理、信息的感知以及自然语言的处理中的至少一个。

人工智能单元130可以使用机器学习技术来执行诸如存储在移动终端中的信息、与移动终端有关的周围环境信息、存储在可通信的外部存储器中的信息等的大量信息(大数据)的学习、推理和处理中的至少一个。并且，人工智能单元130可以基于使用机器学习技术学习的信息来预测(或推断)移动终端的至少一个可执行操作，并且控制移动终端以执行至少一个预测操作之中最可行的操作。

机器学习技术是基于至少一个算法来收集和学习大量信息并且基于所学习的信息来确定和预测信息的技术。信息的学习是掌握信息特征、规则和判断标准、量化信息与信息之间的关系以及使用量化模式预测新数据的一种操作。

机器学习技术所使用的算法可以是基于统计的算法，例如，使用树结构类型作为预测模型的决策树、模仿活体生物的神经网络结构和功能的人工神经网络、基于生物进化算法的遗传规划、将观察到的示例分布到集群(clusters)的子集的聚类、使用随机提取的随机数将函数值计算为概率的蒙特卡罗方法等。

作为机器学习技术的一个领域，深度学习是使用人工神经网络算法执行学习、确定和处理信息中的至少一个的技术。人工神经网络可以具有链接层和在层之间传输数据的结构。这种深度学习技术可以被采用以使用针对并行计算优化的图形处理单元(GPU)的人工神经网络来学习大量的信息。

同时，人工智能单元130可以收集(感测、监视、提取、检测、接收)在移动终端的组件之中输入或输出的信号，数据和信息，以便收集用于应用机器学习技术的大量信息。此外，人工智能单元130可以收集(感测、监视、提取、检测、接收)存储在通过通信连接的外部存储器(例如，云服务器)中的数据、信息等。更具体地，信息的收集可以被理解为包括通过传感器感测信息，提取存储在存储器170中的信息或通过通信从外部存储器接收信息的操作的术语。

人工智能单元130可以通过感测单元140感测移动终端内的信息、与移动终端有关的周围环境信息以及用户信息。另外，人工智能单元130可以通过无线通信单元110接收广播信号和/或广播有关的信息、无线信号、无线数据等等。人工智能单元130也可以从用户输入接收图像信息(或信号)、音频信息(或信号)、数据或用户输入信息。

人工智能单元130可以在背景中实时收集大量信息，学习收集的信息，将学习的信息处理成适当形式的信息(例如，知识图、命令策略、个性化数据库、对话引擎等)，并将处理后的信息存储在存储器170中。

当基于使用机器学习技术学习的信息预测移动终端的操作时，人工智能单元130可以控制移动终端的组件以执行预测操作或者向控制器180传输用于执行预测的控制命令操作。然后，控制器180可以基于控制命令通过控制移动终端来执行预测的操作。

同时，当执行特定操作时，人工智能单元130可以通过机器学习技术来分析指示执行特定操作的历史信息，并且基于分析的信息执行先前学习的信息的更新。因此，人工智能单元130能够提高这种信息预测的准确性。

同时，在本说明书中，人工智能单元130和控制器180可以被理解为相同的组件。在本实例中，在此描述的控制器180中执行的功能可以被表示为在人工智能单元130中执行，并且控制器180可以被命名为人工智能单元130，或者相反地，人工智能单元130可以被称为控制器180。

另一方面，在本说明书中，人工智能单元130和控制器180可以被理解为分离的组件。在本实例中，人工智能单元130和控制器180可以通过彼此的数据交换而在移动终端上执行各种控制。控制器180可以基于从人工智能单元130得到的结果来执行移动终端上的至少一个功能或者控制移动终端的至少一个组件。此外，人工智能单元130还可以在控制器180的控制下来操作。

通常使用被配置成感测移动终端的内部信息、移动终端的周围环境、用户信息等等的一个或者多个传感器来实现感测单元140。感测单元140可以包括接近传感器141、照度传感器142、触摸传感器、加速度传感器、磁传感器、G传感器、陀螺仪传感器、运动传感器、RGB传感器、红外(IR)传感器、手指扫描传感器、超声传感器、光学传感器(例如，相机121)、麦克风122、电池量表、环境传感器(例如，气压计、湿度计、温度计、辐射检测传感器、热传感器、以及气体传感器等)、以及化学传感器(例如，电子鼻、医疗传感器、生物传感器等等)中的至少一个。在此公开的移动终端100可以被配置成利用从感测单元140的一个或者多个传感器及其组合获得的信息。

输出单元150通常被配置成输出诸如音频、视频、触觉输出等等的各种类型的信息。示出具有显示单元151、音频输出模块152、触觉模块153、以及光学输出模块154中的至少一个的输出单元150。显示单元151可以具有带有触摸传感器的层间结构或者集成结构以便于促成触摸屏幕。触摸屏幕可以在移动终端100和用户之间提供输出接口，并且用作在移动终端100和用户之间提供输入接口的用户输入单元123。

接口单元160用作与能够被耦合到移动终端100的各种类型的外部设备的接口。例如，接口单元160可以包括任何有线或者无线端口、外部电源端口、有线或者无线数据端口、存储卡端口、用于连接具有标识模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。在一些情况下，响应于外部设备被连接到接口单元160，移动终端100可以执行与连接的外部设备相关联的各种控制功能。

存储器170通常被实现为存储数据以支持移动终端100的各种功能。例如，存储器170可以被配置成存储在移动终端100中执行的应用程序或者应用、用于移动终端100的操作的数据或者指令、以及用于人工智能单元130的操作的数据(例如，用于机器学习的至少一个算法信息等等)。经由无线通信可以从外部服务器下载这些应用程序中的一些。在制造或者装运时其他应用程序可以被安装在移动终端100内(例如，接听电话、拨打电话、接收消息、发送消息等等)。同时，应用程序被存储在存储器170中并且安装在移动终端100中，并且通过控制器180执行以执行移动终端100的操作(或者功能)。

除了与应用程序相关联的操作之外，控制器180通常用作控制移动终端100的整体操作。控制器180能够通过处理通过前述的各种组件输入或者输出的信号、数据、信息等等，或者激活存储在存储器170中的应用程序来提供或者处理适合于用户的信息或者功能。

此外，控制器180控制在图1A中图示的一些或者全部组件以便于执行已经被存储在存储器170中的应用程序。另外，控制器180可以控制被包括在移动终端中的这些组件中的至少两个以激活应用程序。

电源单元190被配置成接收外部电力或者提供内部电力以便于供应对于操作被包括在移动终端100中的元件和组件所要求的适当的电力。电源单元190可以包括电池，并且电池可以被配置成被嵌入在终端主体中，或者被配置成从终端主体可拆卸。

根据在此公开的各种实施例，组件的至少部分可以协作地操作以实现移动终端的操作、控制或控制方法。此外，可以通过激活存储在存储器170中的至少一个应用程序而在移动终端上实现移动终端的操作、控制或控制方法。

在下文中，在描述通过移动终端100实现的各种实施例之前，将参考图1A给出前述的组件的更加详细的描述。

首先，关于无线通信单元110，广播接收模块111通常被配置成经由广播信道从外部广播管理实体接收广播信号和/或广播相关信息。广播信道可以包括卫星信道、陆地信道、或者这两者。在一些实施例中，可以利用两个或者更多个广播接收模块111以有助于同时接收两个或者更多个广播信道，或者支持广播信道之中的切换。

移动通信模块112能够将无线信号发送到一个或者多个网络实体并且/或者从一个或者多个网络实体接收无线信号。网络实体的典型示例包括基站、外部移动终端、服务器等等。这样的网络实体形成移动通信网络的一部分，移动通信网络根据用于移动通信(例如，全球移动通信系统(GSM)、码分多址(CDMA)、CDMA 2000(码分多址2000)、EV-DO(增强的语音数据优化或者仅增强的语音数据)、宽带CDMA(WCDMA)、高速下行链路分组接入(HSDPA)、高速上行链路分组接入(HSUPA)、长期演进(LTE)、高级长期演进(LTE-A)等等)的技术标准或者通信方法构造。

经由移动通信模块112发送和/或接收的无线信号的示例包括音频呼叫信号、视频(电话)呼叫信号、或者各种格式的数据以支持文本和多媒体消息的通信。

无线互联网模块113被配置成有助于无线互联网接入。此模块可以被内部地或者外部地耦合到移动终端100。无线互联网模块113可以根据无线互联网技术经由通信网络发送和/或接收无线信号。

这样的无线互联网接入的示例包括无线LAN(WLAN)、无线保真(Wi-Fi)、Wi-Fi直连、数字生活网络联盟(DLNA)、无线宽带(Wibro)、全球微波接入互操作(Wimax)、高速下行链路分组接入(HSDPA)、高速上行链路分组接入(HSUPA)、长期演进(LTE)、高级LTE(LTE-A)等等。无线互联网模块113可以根据一个或者多个这样的无线互联网技术，或者其他互联网技术来发送/接收数据。

在一些实施例中，当根据作为移动通信网络的一部分的例如WiBro、HSDPA、HSUPA、GSM、CDMA、WCDMA、LTE、LTE-A等等实现无线互联网接入时，无线互联网模块113执行这样的无线互联网接入。这样，无线互联网模块113可以与移动通信模块112协作，或者用作移动通信模块112。

短程通信模块114被配置成有助于短程通信。适合于实现这样的短程通信的技术包括：蓝牙(BLUETOOTHTM)、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、紫蜂(ZigBee)、近场通信(NFC)、无线保真(Wi-Fi)、Wi-Fi直连、无线USB(无线通用串行总线)等等。经由无线局域网，短程通信模块114通常支持在移动终端100和无线通信系统之间的无线通信，在移动终端100和另一移动终端100之间的通信、或者在移动终端和另一移动终端100(或者外部服务器)位于的网络之间的通信。无线局域网的一个示例是无线个域网。

在此，另一移动终端(可以类似于移动终端100来配置)可以是可佩戴设备，例如，智能手表、智能眼镜或者头戴式显示器(HMD)，其能够与移动终端100交换数据(或者以其他方式与移动终端100协作)。短程通信模块114可以感测或者识别可佩戴设备，并且允许在可佩戴设备和移动终端100之间的通信。另外，当感测到的可佩戴设备是被授权与移动终端100通信的设备时，例如，控制器180可以使在移动终端100中处理的数据的至少一部分经由短程通信模块114传输到可佩戴设备。因此，可佩戴设备的用户可以在可佩戴设备上使用在移动终端100中处理的数据。例如，当在移动终端100中接收到呼叫时，用户可以使用可佩戴设备应答呼叫。此外，当在移动终端100中接收到消息时，用户能够使用可佩戴设备查看接收到的消息。

位置信息模块115通常被配置成检测、计算、导出或者以其他方式识别移动终端的位置(或者当前位置)。作为示例，位置信息模块115包括全球定位系统(GPS)模块、Wi-Fi模块、或者这两者。例如，当移动终端使用GPS模块时，可以使用从GPS卫星发送的信号获取移动终端的位置。作为另一示例，当移动终端使用Wi-Fi模块时，能够基于将无线信号发送到Wi-Fi模块或者从Wi-Fi模块接收无线信号的无线接入点(AP)有关的信息获取移动终端的位置。如果需要，位置信息模块115可以可替选地或附加地与无线通信单元110的任何其他模块一起工作，以获得与移动终端的位置有关的数据。位置信息模块115是用于获取位置(或当前位置)的模块，并可以不限于直接计算或获取移动终端的位置的模块。

输入单元120可以被配置成允许对移动终端100的各种类型的输入(信息或者信号)。这样的输入的示例包括音频、图像、视频、数据、以及用户输入。经常使用一个或者多个相机121获得图像和视频输入。这样的相机121可以处理在视频或者图像捕获模式下通过图像传感器获得的静止图片或者视频的图像帧。被处理的图像帧能够被显示在显示单元151上或者被存储在存储器170中。同时，相机121可以以矩阵结构排列以允许具有多个角度或者焦点的多个图像被输入到移动终端100。此外，相机121可以立体布置以获取用于实现立体图像的左图像和右图像。

麦克风122将外部音频信号处理为电音频(声音)数据。经处理的音频数据能够根据在移动终端100中执行的功能(或应用程序)以各种方式使用。如有必要，麦克风122可以包括各种噪声去除算法以去除在接收外部音频信号的过程中产生的不想要的噪声。

用户输入单元123是允许用户输入的组件。当通过用户输入单元123输入信息时这样的用户输入可以使控制器180能够控制移动终端100的操作。用户输入单元123可以包括机械输入元件中的一个或者多个(例如，机械键、位于移动终端100的前表面和/或后表面或者侧表面上的按钮、圆顶开关(dome switch)、转向轮(jog wheel)、转向开关(jog switch)等等)、或者触摸灵敏的输入元件等等。作为一个示例，触摸灵敏的输入元件可以是通过软件处理被显示在触摸屏上的虚拟键或者软键或者视觉键、或者位于在除了触摸屏之外的位置处的移动终端上的触摸键。另一方面，虚拟键或者视觉键可以以例如，图形、文本、图标、视频、或者其组合的各种形状显示在触摸屏上。

感测单元140通常被配置成感测移动终端的内部信息、移动终端的周围环境信息、用户信息等等中的一个或者多个，并且生成相对应的感测信号。控制器180通常与感测单元140协作以基于感测信号控制移动终端100的操作或执行数据处理、与被安装在移动终端中的应用程序相关联的功能或者操作。使用任何种类的传感器可以实现感测单元140，现在将会更加详细地描述其中的一些。

接近传感器141指的是在没有机械接触的情况下通过使用磁场、红外线等等感测接近表面的对象、或者位于表面附近的对象的存在或者不存在的传感器。接近传感器141可以被布置在通过触摸屏覆盖的移动终端的内部区域处，或者触摸屏附近。

例如，接近传感器141可以包括任何透射型光电传感器、直接反射型光电传感器、镜反射型光电传感器、高频振荡接近传感器、电容型接近传感器、磁型接近传感器、红外线接近传感器等等。当触摸屏被实现为电容型时，接近传感器141能够通过响应于具有导电性的对象的接近的电磁场变化来感测指示器相对于触摸屏的接近。在这样的情况下，触摸屏(触摸传感器)也可以被归类成接近传感器。

术语“接触触摸”将会在此被经常引用以表示其中指示器物理接触触摸屏的场景。对于与指示器相对于触摸屏的接近触摸相对应的位置，这样的位置将会对应于其中指示器垂直于触摸屏的位置。接近传感器141可以感测接近触摸和接近触摸模式(例如，距离、方向、速度、时间、位置、移动状态等等)。通常，控制器180处理与由接近传感器141感测的接近触摸和接近触摸模式相对应的数据，并且使在触摸屏上输出视觉信息。另外，控制器180能够控制移动终端100以根据对触摸屏上的点的触摸是接近触摸还是接触触摸来执行不同的操作或者处理不同的数据(或信息)。

使用任何各种触摸方法中的任何一种，触摸传感器能够感测被施加到诸如显示单元151的触摸屏的触摸(或者触摸输入)。这样的触摸方法的示例包括电阻型、电容型、红外型、以及磁场型等等。

作为一个示例，触摸传感器可以被配置成将被施加到显示单元151的特定部分的压力的变化转换成电输入信号，或者将在显示单元151的特定部分处出现的电容转换成电输入信号。触摸传感器也可以被配置成不仅感测被触摸的位置和被触摸的区域，而且感测触摸压力和/或触摸电容。触摸对象通常被用于将触摸输入施加到触摸传感器。典型的触摸对象的示例包括手指、触摸笔、触笔、指示器等等。

当通过触摸传感器感测触摸输入时，相应的信号可以被发送到触摸控制器。触摸控制器可以处理接收到的信号，并且然后将相应的数据传送到控制器180。因此，控制器180可以感测已经触摸了显示单元151的哪一个区域。在此，触摸控制器可以是与控制器180分离的组件、控制器180、或者其组合。

同时，控制器180可以根据触摸触摸屏或者除了触摸屏之外被设置的触摸键的触摸对象的类型执行相同或者不同的控制。例如，基于移动终端100的当前操作状态或者当前执行的应用程序，可以决定根据提供触摸输入的对象是否执行相同或者不同的控制。

触摸传感器和接近传感器可以被单独地或者组合实现，以感测各种类型的触摸。这样的触摸包括短(或者轻敲)触摸、长触摸、多点触摸、拖动触摸、轻击触摸、捏缩触摸、捏放触摸、滑动触摸、悬停触摸等等。

如有必要，超声传感器可以被实现以使用超声波识别与触摸对象有关的位置信息。例如，控制器180可以基于通过照度传感器和多个超声传感器感测到的信息计算波生成源的位置。因为光比超声波快得多，所以光到达光学传感器的时间远远比超声波到达超声传感器的时间短。使用此事实可以计算波生成源的位置。例如，可以基于光作为参考信号使用与超声波到达传感器的时间的时间差计算波生成源的位置。

相机121，已经被描述为输入单元120的组件，通常包括至少一个相机传感器(CCD、CMOS等等)、光传感器(或者图像传感器)、以及激光传感器。

实现具有激光传感器的相机121可以允许相对于3D立体图像的物理对象的触摸的检测。光传感器可以被层压在显示设备上，或者与显示设备重叠。光传感器可以被配置成扫描接近触摸屏的物理对象的移动。更加详细地，光传感器可以包括在行和列处的光电二极管和晶体管以使用根据被施加的光的量改变的电信号扫描在光传感器处接收到的内容。即，光传感器可以根据光的变化计算物理对象的坐标从而获得物理对象的位置信息。

显示单元151通常被配置成输出在移动终端100中处理的信息。例如，显示单元151可以显示在移动终端100处执行的应用程序的执行屏幕信息或者响应于执行屏幕信息的用户界面(UI)和图形用户界面(GUI)信息。

此外，显示单元151可以被实现为用于显示立体图像的立体显示单元。

典型的立体显示单元可以采用诸如立体方案(眼镜方案)、自动立体方案(无眼镜方案)、投影方案(全息方案)等等的立体显示方案。

音频输出模块152通常被配置成输出音频数据。可以从多个不同的源中的任何一个获得这样的音频数据，使得可以从无线通信单元110接收音频数据或者可能已经将其存储在存储器170中。可以在诸如信号接收模式、呼叫模式、记录模式、语音识别模式、广播接收模式等等的模式期间输出音频数据。音频输出模块152能够提供与由移动终端100执行的特定功能(例如，呼叫信号接收声音、消息接收声音等等)有关的音频输出。音频输出模块152也可以被实现为接收器、扬声器、蜂鸣器等等。

触觉模块153能够被配置成产生用户能够感觉、感知、或者以其他方式体验的各种触觉效果。通过触觉模块153产生的触觉效果的典型示例是振动。能够通过用户选择或者通过控制器进行设置来控制通过触觉模块155产生的振动的强度、模式等等。例如，触觉模块153可以以组合的方式或者顺序的方式输出不同的振动。

除了振动之外，触觉模块153还能够生成各种其他触觉效果，包括通过诸如垂直移动以接触皮肤的针排列的刺激的效果、通过喷孔或者吸入口的空气的喷射力或者吸力、对皮肤的触摸、电极的接触、静电力、通过使用能够吸收或者产生热的元件再现冷和暖的感觉的效果等等。

触觉模块153也能够被实现为允许用户通过诸如用户的手指或者手臂的肌肉感觉来感觉触觉效果，以及通过直接接触传递触觉效果。根据移动终端100的特定配置也可以设置两个或者更多个触觉模块153。

光学输出模块154能够使用光源的光输出用于指示事件产生的信号。在移动终端100中产生的事件的示例可以包括消息接收、呼叫信号接收、未接来电、报警、日程表通知、电子邮件接收、通过应用的信息接收等等。

也可以以移动终端发射单色光或者具有多个颜色的光的方式实现通过光学输出模块154输出的信号。例如，当移动终端感测用户已经查看了产生的事件时，信号输出可以结束。

接口单元160用作要连接到移动终端100的外部设备的接口。例如，接口单元160能够接收从外部设备发送的数据，接收电力以传送到移动终端100内的元件和组件，或者将移动终端100的内部数据发送到这样的外部设备。接口单元160可以包括有线或者无线头戴式受话器端口、外部电源端口、有线或者无线数据端口、存储卡端口、用于连接具有标识模块的设备的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。

标识模块可以是存储用于认证使用移动终端100的权限的各种信息的芯片并且可以包括用户标识模块(UIM)、订户标识模块(SIM)、通用订户标识模块(USIM)等等。另外，具有标识模块的设备(在此也被称为“识别设备”)可以采用智能卡的形式。因此，识别设备经由接口单元160能够与终端100连接。

当移动终端100与外部托架相连接时，接口单元160能够用作允许电力从托架供应到移动终端100的通道或者可以用作允许用户从托架输入的各种命令信号传递到移动终端的通道。从托架输入的各种命令信号或者电力可以作为用于识别移动终端被正确地安装在托架上的信号来操作。

存储器170能够存储程序以支持移动终端180的操作并且存储输入/输出数据(例如，电话簿、消息、静止图像、视频等等)。存储器170可以存储与响应于触摸屏上的触摸输入输出的各种模式的振动和音频有关的数据。

存储器170可以包括一种或者多种类型的存储介质，包括闪存型、硬盘型、固态盘(SSD)型、硅盘驱动器(SDD)型、多媒体卡微型、卡型存储器(例如，SD或DX存储器等)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘、光盘等等。也可以关于在诸如互联网的网络上执行存储器170的存储功能的网络存储设备操作移动终端100。

控制器180可以典型地控制与移动终端100的应用程序和一般操作有关的操作。例如，当移动终端的状态满足预设条件时，控制器180可以设置或者释放用于限制用户输入与应用有关的控制命令的锁定状态。

控制器180也能够执行与语音呼叫、数据通信、视频呼叫等等相关联的控制和处理，或者执行模式识别处理以将在触摸屏上执行的手写输入或者绘图输入分别识别为字符或者图像。另外，控制器180能够控制这些组件中的一个或者组合以便于实现在此公开的各种示例性实施例。

电源单元190接收外部电力或者提供内部电力并且供应对于操作被包括在移动终端100中的各个元件和组件所需的适当的电力。电源单元190可以包括电池，该电池通常是可充电的或者可拆卸地耦合到终端主体，用于充电。

电源单元190可以包括连接端口。连接端口可以被配置成接口单元160的一个示例，用于供应电力以对电池再充电的外部充电器被电气地连接到该接口单元160。

作为另一示例，电源单元190可以被配置成在没有使用连接端口的情况下以无线的方式对电池再充电。在本示例中，使用以磁感应为基础的感应耦合方法或者以电磁谐振为基础的电磁谐振耦合方法，电源单元190能够接收从外部无线电力发射器传送的电力。

可以使用例如软件、硬件、或者其任何组合，以计算机可读介质、机器可读介质、或者类似介质实现在此描述的各种实施例。

参考图1B和图1C，参考直板式终端主体，描述移动终端100。然而，移动终端100可以替选地以各种不同的配置中的任意一种来实现。这样的配置的示例包括手表式、夹式、眼镜式、或者折叠式、翻盖式、滑盖式、摇摆式、旋转式以及其组合的各种结构，在旋转式中两个或者更多个主体以相对可移动的方式被相互组合。在此的讨论将常常涉及特定型的移动终端(例如，直板式、手表式、眼镜式等等)。然而关于特定型移动终端的这种教导通常也将适用于其他类型的移动终端。

移动终端100通常将包括形成终端的外观的壳体(例如，框架、壳体、盖等)。在本实施例中，壳体可以被划分成前壳体101和后壳体102。各种电子组件可以被包含在前壳体101和后壳体102之间形成的空间中。至少一个中间壳体可以被附加地布置在前壳体101和后壳体102之间。

显示单元151能够被布置在终端主体的前表面上以输出信息。如所图示的，显示单元151的窗口151a能够被安装到前壳体101使得与前壳体101一起形成终端主体的前表面。

在一些实施例中，电子组件也可以被安装到后壳体102。这样的电子组件的示例可以包括可拆卸的电池、标识模块、存储卡等。用于覆盖电子组件的后盖103可以被可拆卸地耦合到后壳体102。因此，当从后壳体102拆卸后盖103时，被安装到后壳体102的电子组件可以被外部地暴露。

如所图示的，当后盖103被耦合到后壳体102时，后壳体102的侧表面可以被部分地暴露。在一些情况下，在耦合时，后壳体102也可以被后盖103完全地遮盖。在一些实施例中，后盖103可以包括用于外部地暴露相机121b或者音频输出模块152b的开口。

壳体101、102、103可以通过注入模制合成树脂(injection-molding syntheticresin)形成或者可以由例如不锈钢(STS)、铝(Al)、钛(Ti)等的金属形成。

作为多个壳体形成用于容纳组件的内部空间的示例的替选，移动终端100可以被配置使得一个壳体形成内部空间。在本实例中，以合成树脂或者金属从侧表面延伸到后表面的方式形成具有一体的移动终端100。

如有必要，移动终端100可以包括防水单元(未示出)，用于防止水引入到终端主体。例如，防水单元可以包括防水构件，其位于窗口151a和前壳体101之间、在壳体101和后壳体102之间、或者后壳体102和后盖103之间，当这些壳体被耦合时密闭地密封内部空间。

图1B和图1C描述被布置在移动终端上的某些组件。然而，应当理解，可替选的布置是可能的，并且在本公开的教导内。一些组件可以省略或者重新布置。例如，第一操纵单元123a可以不布置在终端主体的另一表面上，并且第二音频输出模块152b可以被布置在终端主体的侧表面上。

显示单元151输出在移动终端100中处理的信息。显示单元151能够使用一个或多个合适的显示设备。例如，这样合适的显示装置的示例包括液晶显示器(LCD)、薄膜晶体管-液晶显示器(TFT-LCD)、有机发光二极管(OLED)、柔性显示器、3维(3D)显示器、电子墨显示器以及其组合。

可以使用能够实现相同或者不同显示技术的两个显示设备来实现显示单元151。例如，多个显示单元151可以被布置在一个侧面上，相互分开，或者这些设备可以被集成，或者这些设备可以被布置在不同的表面上。

显示单元151也可以包括触摸传感器，该触摸传感器感测在显示单元处接收到的触摸输入。当触摸被输入到显示单元151时，触摸传感器可以被配置成感测此触摸，并且例如，控制器180可以生成与触摸相对应的控制命令或者其他信号。以触摸方式输入的内容可以是文本或者数值，或者能够以各种模式指示或者指定的菜单项目。

触摸传感器可以以被布置在窗口151a和窗口151a的后表面上的显示器之间的具有触摸图案的膜的形式，或者被直接地构图在窗口151a的后表面上的金属线来配置。可替选地，触摸传感器可以与显示器集成地形成。例如，触摸传感器可以被布置在显示器的基板上或者显示器内。

显示单元151也可以与触摸传感器一起形成触摸屏。在此，触摸屏可以用作用户输入单元123(参见图1A)。因此，触摸屏可以替换第一操纵单元123a的功能中的至少一些。

第一音频输出模块152a可以以向用户的耳朵发送呼叫声的接收器的形式来实现，并且第二音频输出模块152b可以以扬声器的形式来实现以输出警报声音或者多媒体再现声音。

显示单元151的窗口151a将典型地包括用于允许由第一音频输出模块152a生成的音频通过的孔径。一个备选是允许音频沿着结构主体之间的组装间隙(例如，窗口151a和前壳体101之间的间隙)释放。在本实例中，被独立地形成以输出音频声音的孔可以不被看到或者在外观上以其他方式被隐藏，从而进一步简化移动终端100的外观的制造。

光学输出模块154可以被配置成输出用于指示事件发生的光。在移动终端100中生成的事件的示例包括消息接收、呼叫信号接收、未接来电、报警、日程表通知、电子邮件接收、通过应用的信息接收等。当感测到用户已经查看了生成的事件时，控制器能够控制光学输出单元154以停止光的输出。

第一相机121a能够处理在视频呼叫模式或者捕获模式下通过图像传感器获得的诸如静止或者运动图像的图像帧。因此，处理的图像帧能够被显示在显示单元151上或者被存储在存储器170中。

第一和第二操纵单元123a和123b是用户输入单元123的示例，通过用户可以对其进行操纵以将输入提供给移动终端100。通常，第一和第二操纵单元123a和123b也可以被称为操纵部分，并且可以采用允许用户执行诸如触摸、推动、滚动等等的操纵的任何触觉方法。第一和第二操纵单元123a和123b也可以采用允许用户执行诸如接近触摸、悬停等等的操纵的任何非触觉的方法。

图1B图示作为触摸键的第一操纵单元123a，但是可能的替选包括机械键、推动键、触摸键以及其组合。

可以以各种方式使用在第一和第二操纵单元123a和123b处接收到的输入。例如，第一操纵单元123a可以由用户使用以将输入提供给菜单、主屏键、取消、搜索等等，并且第二操纵单元123b可以由用户使用以提供输入以控制从第一或者第二音频输出模块152a或者152b输出的音量级，切换到显示单元151的触摸识别模式等等。

作为用户输入单元123的另一示例，后输入单元(未示出)可以位于终端主体的后表面上。后输入单元能够由用户操纵以将输入提供给移动终端100。可以以各种不同的方式使用输入。例如，用户可以使用后输入单元以提供用于电源开/关、开始、结束、滚动、从第一或者第二音频输出模块152a或者152b输出的控制音量级的输入，切换到显示单元151的触摸识别模式等等。后输入单元可以被配置成允许触摸输入、推动输入或者其组合。

后输入单元可以被设置成在终端主体的厚度方向中重叠前侧的显示单元151。作为一个示例，后输入单元可以被位于在终端主体的后侧的上端部分上，使得当用户使用一只手抓住终端主体时用户能够使用食指容易地操纵它。可替选地，后输入单元能够被定位在终端主体的后侧的至多任何位置处。

包括后输入单元的实施例可以实现后输入单元中的第一操纵单元123a的功能的一些或者全部。这样，在从前侧省略第一操纵单元123a的情形下，显示单元151能够具有更大的屏幕。

作为又一个替选，移动终端100可以包括手指扫描传感器，该手指扫描传感器扫描用户的指纹。因此，控制器180可以使用通过手指扫描传感器感测的指纹信息作为认证过程的一部分。手指扫描传感器可以被安装在显示单元151或者用户输入单元123中。

麦克风122被示出为位于移动终端100的末端处，但是其他位置是可能的。如有必要，多个麦克风可以被实现，这样的布置允许接收立体声音。

接口单元160可以用作允许移动终端100与外部设备接口的路径。例如，接口单元160可以包括用于连接到另一设备(例如，耳机、外部扬声器等)的连接端子、用于近场通信的端口(例如，红外数据协会(IrDA)端口、蓝牙端口、无线LAN端口等)、或者用于将电力供应到移动终端100的电源端子中的一个或多个。接口单元160可以以用于容纳诸如订户标识模块(SIM)、用户标识模块(UIM)、或者用于信息存储的存储器卡的外部卡的插槽的形式来实现。

第二相机121b被示出为位于终端主体的后侧处，并且包括与第一相机单元121a的图像捕获方向大体上相反的图像捕获方向。如有必要，第二相机121b可以可替选地位于其他位置，或者使其可移动，以便于具有与被示出的图像捕获方向不同的图像捕获方向。

第二相机121b能够包括沿着至少一条线布置的多个透镜。多个透镜也可以以矩阵结构来布置。相机可以被称为“阵列相机”。当第二相机121b被实现为阵列相机时，可以使用多个透镜以各种方式捕获图像并且图像具有更好的质量。

闪光灯124被示出为与第二相机121b相邻。当通过相机121b捕获对象的图像时，闪光灯124可以照亮该对象。

第二音频输出模块152b能够位于终端主体上。第二音频输出模块152b可以结合第一音频输出模块152a来实现立体声功能，并且也可以被用于实现用于呼叫通信的扬声器电话模式。

用于无线通信的至少一个天线可以位于终端主体上。天线可以被安装在终端主体中或者通过壳体形成。例如，配置广播接收模块111(参考图1A)的一部分的天线可以缩回到终端主体中。可替选地，使用被贴附到后盖103的内表面的膜、或者包括导电材料的壳体，可以形成天线。

用于将电力供应到移动终端100(参考图1A)的电源单元190可以包括电池191，该电池191被安装在终端主体中或者可拆卸地耦合到终端主体的外部。

电池191可以经由连接到接口单元160的电源线缆来接收电力。此外，能够使用无线充电器以无线方式对电池191充电。通过磁感应或者电磁谐振可以实现无线充电。

后盖103被示出为耦合到用于屏蔽电池191的后壳体102，以防止电池191的分离，并且保护电池191免受外部冲击或者外来物质的影响。当从终端主体可拆卸电池191时，后盖103可以被可拆卸地耦合到后壳体102。

用于保护外观或者协助或者扩展移动终端100的功能的附件也可以被提供在移动终端100上。作为附件的一个示例，可以提供用于覆盖或者容纳移动终端100的至少一个表面的盖或者袋。盖或者袋可以与显示单元151协作以扩展移动终端100的功能。附件的另一示例是用于协助或者扩展对触摸屏的触摸输入的触摸笔。

本发明提供一种控制具有前述的移动终端作为组件的人工智能系统的方法。在解释本发明之前，将更详细地解释人工智能系统

人工智能系统意指为了特定目的代替用户执行任务的自治系统。人工智能系统可以主要具有两个组件。更具体地，人工智能系统包括客户端和服务器，该客户端被配置成执行与用户的交互、以及该服务器被配置成从客户端接收用户的命令并且执行与用户的命令相对应的功能。

因为客户端服务于用户与服务器之间的中介，所以客户端应该被设置有用于与用户交互的输入单元和输出单元，并且应设置有用于与服务器交互的无线通信设备。前述移动终端设置有输入单元(麦克风、触摸屏等)和输出单元(扬声器、触摸屏等)，并且设置有无线通信单元。因此，移动终端可以作为客户端。在本说明书中，假定前述的移动终端用作客户端。但是，本发明不限于此。也就是说，客户端可以被配置成包括能够接收命令信息的组件的附加设备。

在下文中，将根据信息流来解释人工智能系统的组件。

客户端从用户接收命令信息。

命令信息意指从用户接收的信息，以便人工智能系统执行特定功能。也就是说，命令信息可以被理解为针对人工智能系统的用户的控制命令。

命令信息可以以各种形式来配置。更具体地，命令信息可以被配置成语音信息、文本等。例如，如果命令信息被配置成语音信息，则用户可以发出特定命令词，使得人工智能系统可以执行特定功能。

根据命令信息的类型，客户端通过使用不同的装置来接收命令信息。例如，当命令信息是语音信息时，客户端通过麦克风接收命令信息。另一方面，当命令信息是文本时，客户端通过触摸屏或键盘接收命令信息。

在本说明书中，假设客户端通过接收语音信息来执行特定功能。然而，根据本发明的人工智能系统可以通过接收各种类型的命令信息来执行相应的功能。

更具体地，人工智能系统通过包括在移动终端100中的组件来接收来自用户的命令信息，并且基于接收到的命令信息来确定要执行的特定功能。然后，代理通过包括在移动终端100中的组件来接收执行特定功能所要求的信息。

在接收到来自用户的命令信息之后，客户端将所接收的命令信息发送给服务器。服务器解释所接收的命令信息的含义，并且基于解释的含义来执行特定功能。

如果服务器接收到配置为语音信息的命令信息，则服务器另外执行语音识别过程。更具体地说，服务器将语音信息转换成文本，并解释转换文本的含义。

在将语音信息转换为文本并解释转换文本的含义的过程中，可以使用机器学习技术。特别地，如果在解释被转换的文本的含义的过程中利用机器学习技术，则即使以自然语言形成命令信息，也可以高准确度地分析命令信息的含义。因此，用户可以以与人类的对话方式将命令信息应用于人工智能系统。

当执行与命令信息有关的功能时，服务器可以利用各种类型的资源。例如，当服务器执行与搜寻特定关键词有关的功能时，可以使用多个不同的搜索引擎。作为另一示例，当服务器执行订购特定产品的功能时，服务器可访问能够购买特定产品的另一服务器。服务器通过与各种资源的交互执行用户想要的功能。当服务器选择执行特定功能所需的资源类型时，可以利用机器学习技术。也就是说，根据本发明的人工智能系统可以自动收集与用户有关的信息并且学习，从而选择执行特定功能所需的资源类型。

在执行与命令信息相对应的功能之后，服务器将与所执行的功能相关的响应信息发送给客户端。响应信息可以是在执行与命令信息对应的功能之后获得的结果，或者可以是指示功能的执行状态的信息。例如，响应信息可以是针对特定关键字的搜索结果，或者可以是指示特定产品已经被成功订购的信息。也就是说，响应信息可以根据与命令信息相对应的功能而变化。

在从服务器接收到响应信息之后，客户端将接收到的响应信息提供给用户。在这种情况下，客户端可以将接收到的响应信息按原样提供给用户，或者可以通过使用接收到的响应信息向用户提供对命令信息的响应。

当客户端提供对命令信息的响应时，执行针对用户的命令信息的反馈。因此，用户可以检查是否已经执行了关于特定控制命令的功能。

如前述的，人工智能系统通过利用机器学习技术来自主地执行特定功能。因为机器学习技术以收集的数据为基础，所以人工智能系统的性能可能根据所收集的数据而变化。例如，如果为了机器学习技术而利用的大部分数据以特定语言形成，那么人工智能系统可能仅在特定语言方面表现出高性能。

如前述的，人工智能系统的性能可能根据用户的语言而变化。为了解决这个问题，根据本发明的人工智能系统包括多个不同的服务器。在下文中，将解释控制使用多个服务器执行多语言处理的人工智能系统的方法。

图2是用于解释根据本发明的控制执行多语言处理的人工智能系统的方法的流程图。在图2中，包括在人工智能系统中的客户端是移动终端100。然而，本发明不限于此。

参考图2，通过麦克风接收语音信息(S310)。移动终端100通过麦克风接收用户的语音。在这里，可能接收到诸如周围的噪音或对话的声音。例如，可以接收到从电视机输出的人的语音。

为了区分周围的噪声和命令信息，移动终端100仅在识别特定关键词的语音时将稍后接收到的语音信息识别为命令信息。

然后，基于预设的参考来确定语音信息的语言(S320)。

然后，基于确定的结果，从处理不同语言的多个语音识别服务器选择特定语音识别服务器(S330)。

然后，语音信息被发送到选择的特定语音识别服务器(S340)。

在下文中，将解释详细的实施例。

确定语音信息的语言(S320)可以包括通过以音素(phoneme)为单位划分语音信息来确定语音信息的语言。

确定语音信息的语言(S320)可以包括以音素为单位划分语音信息；以及如果语音信息包括多个音素，则确定多个音素中的每个的语言。

然后，从处理不同语言的多个语音识别服务器选择特定语音识别服务器(S330)。

多个语音识别服务器中的每个可以被指定为不同的语言。在本发明中，选择指定给用户语言的服务器。

在多个音素以多个不同语言形成的情况下，选择的特定语音识别服务器可以包括选择不同于处理多个语言中的每个的语音识别服务器的语音识别服务器。

根据本发明的控制方法可以进一步包括：在将语音信息发送到特定语音识别服务器之后，从特定语音识别服务器接收对语音信息的响应信息；以及基于响应信息执行对语音信息的回复。

在本发明中，可以通过回复向用户提供针对语音信息的反馈。

根据本发明的控制方法可以进一步包括：存储语音信息；在存储语音信息之后通过麦克风接收新的语音信息；确定新的语音信息与存储的语音信息之间的相似度(similarity)；以及当相似度满足预设条件时，执行与针对语音信息的反馈相同的回复。

利用这样的配置，可以降低针对重复控制命令的处理速度。

根据本发明的控制方法可以进一步包括：向特定语音识别服务器请求针对语音信息的语言转换，使得语音信息的语言从第一语言转换成第二语言；从特定语音识别服务器接收针对语音信息的语言转换数据；以及将语言转换数据发送到处理第二语言的语音识别服务器。

利用这样的配置，在本发明中，可以从多个服务器接收针对一个语音信息的处理结果，并且可以执行回复。

如前述的，执行多语言处理的人工智能系统可以在前述移动终端100中实现，或者可以实现为固定终端或另一附加设备。

如果人工智能系统被实现为附加设备，则人工智能系统还可以包括图1A所示的移动终端100的组件，即，扬声器、麦克风、显示单元、控制器、人工智能单元、通信单元等。

在下文中，将参考图3至6来解释根据本发明的执行多语言处理的人工智能系统的详细实施例。

图3是用于解释根据本发明的用于控制执行多语言处理的人工智能系统的方法的概念图。

参考图3，一旦用户通过麦克风输入语音信息，则根据本发明的人工智能系统400可以基于预设的参考来确定输入的语音信息的语言(语言类型)。

更具体地，语音信息，由用户发出的语音可以被划分成音素。音素可以被定义为用于辨别语言的语音系统中的词的含义的最小声音的单位。

例如，人工智能系统400可以以音素为单位划分输入的语音信息，并且可以确定语音信息是英语、日语、汉语、韩语等。

然后，可以从处理不同语言的多个语音识别服务器选择处理所确定的语言的特定语音识别服务器，并且可以将语音信息发送到所选择的特定语音识别服务器。即，语音信息被发送到根据语言的类型分配的服务器。

多个语音识别服务器中的每个可以被指定为不同的语言。例如，第一服务器在韩语中具有比其他任何语言更优秀的性能，并且第二服务器在英语中具有比其他语言更优秀的性能。

在本发明中，语音信息被发送到在多个服务器之中被指定为形成语音信息的语言的服务器。这可以增强识别语音的精度。

例如，如果语音信息被确定为韩语，则语音信息可以被发送到在韩语中具有比任何其他语言更优秀的性能的第一服务器。类似地，如果语音信息被确定为英语，则语音信息可以被发送到在英语中具有比任何其他语言更优秀的性能的第二服务器。

在将语音信息发送到特定语音识别服务器之后，人工智能系统400可以从特定语音识别服务器接收与语音信息有关的响应信息。然后，人工智能系统400可以基于响应信息执行与语音信息相对应的回复。

为了计算与语音信息有关的响应信息，特定语音识别服务器可以与特定系统交换数据。指定给特定服务器的特定系统可以是另一服务器，或者可以以能够计算与语音信息有关的响应信息的各种形式(例如，搜索引擎等)来实现。

然而，本发明不限于此。也就是说，特定语音识别服务器本身可以计算与语音信息相关的响应信息。

响应信息(对语音信息的回复)可以以语音信息的语言来执行。例如，如果以第一语言接收语音信息，则可以以第一语言执行对语音信息的回复。

例如，如果以韩语接收到语音信息，则可以通过扬声器或显示单元以韩语输出对语音信息的回复。

在本发明中，因为根据用户的母语确定被用于回复的语言，所以讲不同语言的用户可以容易地使用人工智能系统。

如前述的，在根据本发明的人工智能系统中，由客户端分配将根据用户的母语执行多语言处理的服务器。这可以允许快速执行多语言处理。此外，因为语音信息由指定为形成语音信息的语言的服务器处理，所以人工智能系统可以高精度地处理应用于其的任何类型的语言。

从用户接收的语音信息可以包括多个不同的语言。在下文中，将解释用于处理包括多个不同语言的语音信息的方法。

图4是用于解释当一个语音信息包括多个语言时控制人工智能系统的方法的概念图。

参考图4，根据本发明的人工智能系统400可以以音素为单位划分接收到的语音信息，并且如果语音信息包括多个音素，则可以确定多个音素中的每个的语言。

在这种情况下，如果多个音素以多个不同语言形成，则可以选择指定给混合语言处理的服务器，而不是处理多个语言中的每个的语音识别服务器。

更具体地，如果语音信息以第一语言和第二语言的混合语言形成的，则语音信息被发送到被指定为混合语言处理的服务器，而不是被指定为第一语言的服务器和指定为第二种语言的服务器。

例如，如果用户说出“Please order coffee”，则语音信息的语言可以被确定为英语和韩语。在这种情况下，可以将语音信息发送到指定为混合语言处理的第三服务器，而不是指定为韩语的第一服务器和指定为英语的第二服务器。指定为混合语言处理的服务器可以通过针对特定语言彼此混合的语音信息的重复学习来形成。例如，执行混合语言处理的服务器可以通过对韩语和英语彼此混合的语音信息进行机器学习来形成。

如前述的，在本发明中，将以混合语言形成的语音信息分配给指定为混合语言处理的服务器，而不是指定为特定语言的服务器。这可以增强针对混合语言的处理能力。

然后，人工智能系统可以从第三服务器接收对应于语音信息的回复。

这里，可以以第一语言或第二语言或者以第一和第二语言的混合语言来执行与语音信息相对应的回复。

例如，响应于语音信息“Please order coffee”，可以以韩语“是(Ne)”或英语“是(Yes)”执行回复。或者，可以用韩语和英语两种方式执行回复(例如，“You’ve orderedcoffee”)。

这里，可以以多个语言之中的满足预设条件的语言来执行与以多个不同语言形成的语音信息相对应的回复。更具体地，用于执行回复的语言可以是多个语言之中的在语音信息中具有最高使用率的语言。相对于构成语音信息的音素的总数，可以基于以特定语言形成的音素的数量来计算使用率。

例如，由于语音信息(“Please order coffee”)中韩语的使用率高于英语，所以用于执行该回复的语言可以是韩语。

利用这样的配置，在本发明中，可以基于用户的语言使用模式以用户期望的语言执行回复。

到目前为止，已经解释了处理混合语言的人工智能系统。在下文中，将解释缩短针对重复命令的处理时间的方法。

图5是用于解释控制使用存储器执行多语言处理的人工智能系统的方法的概念图。

参考图5，根据本发明的人工智能系统400可以存储通过麦克风接收的语音信息。然后，如果通过麦克风接收到新的语音信息，则人工智能系统400可以确定新的语音信息和所存储的语音信息之间的相似度。

相似度的确定由客户端(移动终端)执行。客户端(移动终端)可以不通过将语音信息转换成文本来确定语音信息的相似度，但是可以确定语音信息本身的相似度。这可以减少确定语音信息的相似度所需的资源量。

如果确定的相似度大于预定水平，则人工智能系统可以执行与对应于语音信息的反馈相同的回复。也就是说，人工智能系统可以执行对应于语音信息的回复，而不将语音信息发送给特定服务器。

例如，当接收到语音信息(“Where is the capital of Korea？”)时，人工智能系统可以将语音信息发送到处理以韩语输入的语音信息的第一服务器。

当从第一服务器接收到对语音信息的回复时，人工智能系统可以以韩语输出响应信息(“Seoul”)。语音信息(“Where is the capital of Korea？”)和响应信息(“Seoul”)被存储在存储器中。

当接收到语音信息(“What’s the name of the capital of Korea？”)时，人工智能系统400可以计算语音信息与存储的语音信息(“Where is the capital of Korea？”)之间的相似度。

客户端可以将包括在重复接收的语音信息中的特定单词设置为关键词。例如，在重复收到的语音信息(“What’s the name of the capital of Korea？”)中，客户可以将“Korea”和“Capital”设置为关键词。然后，如果从接收到的语音信息中检测到对应于“Korea”和“Capital”的语音信息，则客户端可以确定接收到的语音信息与预设语音信息具有高的相似度。

在设置关键词时，客户端可以利用从服务器接收的响应信息。更具体地，服务器将语音信息转换为文本以便于处理语音信息。这里，客户端可以从服务器接收转换后的文本，并且可以基于接收到的文本设置重复地接收的语音信息的关键词。

然后，为了执行对语音信息的回复(“What’s the name of the capital ofKorea？”)，根据本发明的人工智能系统400可以获得响应信息，而不选择服务器或发送语音信息。

也就是说，从存储器中读取对与预设语音信息具有高相似度的语音信息的回复，因此被采纳为响应信息。这可以允许执行快速处理。

到目前为止，已经解释了处理重复输入的语音信息的方法。在下文中，将解释使用被指定为不同语言的多个服务器以处理语音信息的方法。

多个服务器中的每个使用与其相关的系统来执行与语音信息有关的功能。在这种情况下，根据与服务器相关的系统的性能，与语音信息有关的服务器的处理能力可以是可变化的。当从用户接收到的语音信息被发送到具有不同处理能力的多个服务器中的每个时，可以从多个服务器中的每个接收响应信息，并且然后可以基于接收到的响应信息来执行回复。在这种情况下，可以增强处理语音信息的准确性。

然而，因为多个服务器被指定为不同的语言，因此如果接收到以其他语言而不是指定语言形成的语音信息，则可能降低处理语音信息的准确性。为了解决这个问题，在本发明中利用语言转换功能。

参考图6，用户可以向处理第一语言的特定语音识别服务器请求针对语音信息的语言转换，使得语音信息的语言可以从第一语言转换成第二语言。

结果，人工智能系统400可以从特定语音识别服务器接收针对语音信息的语言转换数据，并且可以将语言转换数据发送到处理第二语言的语音识别服务器。

在实施例中，用户可以以第一语言输入语音信息，并且然后可以输入将第一语言转换(翻译)成第二语言的附加请求。因此，人工智能系统400可以向处理第一语言的第一语音识别服务器请求针对语音信息的语言转换(翻译)。

然后，人工智能系统400可以从第一语音识别服务器接收转换成第二语言的数据。然后，人工智能系统400可以将数据发送到处理第二语言的第二语音识别服务器。

也就是说，用户另外请求语言转换(翻译)，并且然后接收响应信息，从而从多个服务器接收针对一个语音信息的处理结果。这可以允许用户使用具有更优异性能的服务器、优选的服务器等。

如前述的，在本发明的至少一个实施例中，根据发音的类型(语言类型)将语音信息发送到不同的服务器。结果，因为最优服务器首先在客户端步骤被分配，所以可以提供快速/精确的服务。

根据另一实施例，用户可以通过输入特定请求(语言转换请求)来选择要执行多语言处理的服务器。

本发明能够被实现为程序记录介质中的计算机可读代码。计算机可读介质可以包括所有类型的记录设备，这些记录设备均存储由计算机系统读取的数据。这种计算机可读介质的示例可以包括硬盘驱动器(HDD)、固态盘(SSD)、硅盘驱动器(SDD)、ROM、RAM、CD-ROM、磁带、软盘、光学数据存储元件等等。此外，计算机可读介质还可以被实现为载波的格式(例如，经由因特网的传输)。计算机可以包括终端的控制器180。因此，还应理解的是，除非另有说明，否则上述实施例不受前述说明的任何细节的限制，而是应该在所附权利要求限定的范围内被宽泛地解释，并且因此所附权利要求旨在包含落入权利要求的边界和范围，或者此边界和范围的等同物内的所有变化和修改。

Claims

1.一种控制多语言音频处理系统的方法，所述方法包括：

经由麦克风接收语音信息；

基于预设的参考语言信息，确定接收到的语音信息中的至少一个语言；

基于确定的至少一个语言，从多个语音识别服务器选择特定语音识别服务器，其中所述多个语音识别服务器对应于不同的语言，并且所述特定语音识别服务器对应于所述至少一个确定的语言；以及

生成包括所述接收到的语音信息的查询并且将所述查询发送到所述选择的特定语音识别服务器。

2.根据权利要求1所述的方法，其中，所述预设的参考语言信息被存储在所述系统的客户端的存储器中，并且所述客户端确定所述接收到的语音信息中的至少一个语言以选择所述特定语音识别服务器。

3.根据权利要求1所述的方法，进一步包括：将所述语音信息分离成多个音素以确定所述接收到的语音信息的语言。

4.根据权利要求3所述的方法，进一步包括：确定所述多个音素中的每个的语言。

5.根据权利要求4所述的方法，其中：

所述多个音素被确定为包括多个语言；以及

所述选择的特定语音识别服务器被配置成处理混合语言语音信息。

6.根据权利要求1所述的方法，其中，所述确定的至少一个语言对应于单一语言，以及所述选择的特定语音识别服务器被配置成仅处理单一语言中的语音信息。

7.根据权利要求1所述的方法，进一步包括：

从所述特定语音识别服务器接收对所述生成的查询的响应；

基于接收到的响应来生成对所述接收到的语音信息的回复信息；以及

响应于所述接收到的语音信息，输出生成的回复。

8.根据权利要求7所述的方法，其中，所述输出的生成的回复是以音频输出的形式。

9.根据权利要求8所述的方法，其中，以确定的所述接收到的语音信息的语言来执行所述生成的回复的音频输出。

10.根据权利要求7所述的方法，其中，所述输出的生成的回复被显示在所述系统的客户终端的显示器上。

11.根据权利要求7所述的方法，进一步包括：

将所述接收到的语音信息存储在所述系统的客户终端处的存储器中；

经由所述麦克风接收另一语音信息；

从所述存储器检索存储的语音信息；

生成所述另一语音信息与检索到的存储的语音信息之间的相似度值；以及

当生成的相似度值等于或大于阈值时，输出在所述存储器中存储的并且与所述存储的语音信息相关联的回复。

12.根据权利要求7所述的方法，其中，当所述语音信息包括多个不同的语言时，生成的对所述语音信息的回复是以被确定为优选语言的多个语言中的一个。

13.根据权利要求1所述的方法，进一步包括：

向用于将所述语音信息从第一语言翻译成第二语言的所述特定语音识别服务器请求针对所述语音信息的语言翻译；

从所述特定语音识别服务器接收用于所述语音信息的语言翻译数据；

基于接收到的语言翻译数据，生成对所述接收到的语音信息的回复信息；以及

响应于所述接收到的语音信息，输出生成的回复。

14.根据权利要求13所述的方法，其中，输出的生成的回复是以音频输出的形式。

15.一种多语言音频处理终端，所述终端包括：

麦克风，所述麦克风被配置成接收音频信息；

收发器，所述收发器被配置成发送和接收信息；以及

控制器，所述控制器被配置成：

经由所述麦克风接收语音信息；

经由所述收发器，将包括所述接收到的语音信息的查询发送到所述选择的特定语音识别服务器。