RU2792288C1

RU2792288C1 - Electronic device and its control method

Info

Publication number: RU2792288C1
Application number: RU2022100335A
Authority: RU
Inventors: Ынджи ЛИ; Хёнмок КО; Кенхун ЛИ; Сэбом ДЖАН; Пурым ДЖУН; Сунджа ЧОЙ; Чханхо ПЭОН; Джиён ХОН; Инчул ХВАН
Original assignee: Самсунг Электроникс Ко., Лтд.
Priority date: 2019-06-26
Filing date: 2020-06-24
Publication date: 2023-03-21

Abstract

FIELD: voice technology.

SUBSTANCE: invention relates to voice input means. An electronic device for performing an application operation using a natural language understanding model includes: a storage device for storing at least one instruction and a processor for executing at least one instruction for receiving usage information for an application installed in an electronic device, receiving a natural language understanding model from a variety of natural language understanding models corresponding to the application, based on usage information, performing natural language understanding for user voice input, associated with the application, based on the fact that the natural language understanding model corresponds to the application, and performing the application operation based on a pre-formed understanding of the natural language. At the same time, the natural language understanding model corresponding to the application is received from an external server based on the number of application performances included in the usage information, or the execution time of the application.

EFFECT: increase in the efficiency of performing operations of applications of an electronic device based on voice input.

13 cl, 9 dwg, 3 tbl

Description

Область техники, к которой относится изобретениеThe field of technology to which the invention belongs

[1] Изобретение относится к электронному устройству для получения модели понимания естественного языка и к способу управления им.[1] The invention relates to an electronic device for obtaining a natural language understanding model and to a method for controlling it.

Уровень техникиState of the art

[2] Модель понимания естественного языка представляет собой модель, которая анализирует голос пользователя и выясняет намерение пользователя, включенное в голос пользователя. Такая модель понимания естественного языка может существовать отдельно для каждого из различных приложений.[2] The natural language understanding model is a model that analyzes the user's voice and finds out the user's intent included in the user's voice. Such a natural language understanding model may exist separately for each of the various applications.

[3] Тем не менее, для сохранения модели понимания естественного языка для всех приложений, установленных на электронном устройстве, таком как смартфон, возможно, потребуется увеличение емкости памяти электронного устройства.[3] However, in order to maintain the natural language understanding model for all applications installed on an electronic device, such as a smartphone, it may be necessary to increase the storage capacity of the electronic device.

[4] Помимо этого, когда модель понимания естественного языка принимается из сервера и используется при необходимости, должно пройти некоторое время для приёма модели понимания естественного языка. Кроме того, модель понимания естественного языка не принимается в ситуации, в которой отсутствует соединение с сетью.[4] In addition, when the natural language understanding model is received from the server and used as needed, some time must pass for the natural language understanding model to be received. In addition, the natural language understanding model is not adopted in a situation in which there is no network connection.

Раскрытие изобретенияDisclosure of invention

Техническая задачаTechnical task

[5] Изобретение предусматривает электронное устройство для получения модели понимания естественного языка, соответствующей операции приложения, часто используемого пользователем, и способ управления им.[5] The invention provides an electronic device for obtaining a natural language understanding model corresponding to an operation of an application frequently used by a user, and a method for controlling it.

[6] Дополнительные аспекты вариантов осуществления частично изложены в нижеприведённом описании и частично являются очевидными из описания или могут быть установлены при практическом осуществлении представленных вариантов осуществления.[6] Additional aspects of the embodiments are set forth in part in the description below and in part are obvious from the description or may be ascertained by practice of the presented embodiments.

Решение задачиThe solution of the problem

[7] В соответствии с аспектом изобретения, электронное устройство включает в себя: запоминающее устройство, выполненное с возможностью сохранения по меньшей мере одной инструкции; и процессор, выполненный с возможностью выполнения по меньшей мере одной инструкции для: получения информации использования для приложения, установленного в электронном устройстве, получения модели понимания естественного языка из множества моделей понимания естественного языка, соответствующих приложению, на основании информации использования, выполнения понимания естественного языка для пользовательского голосового ввода, связанного с приложением, на основании модели понимания естественного языка, соответствующей приложению, и выполнения операции приложения на основании предварительно сформированного понимания естественного языка.[7] According to an aspect of the invention, an electronic device includes: a storage device configured to store at least one instruction; and a processor configured to execute at least one instruction for: obtaining usage information for an application installed in the electronic device, obtaining a natural language comprehension model from a plurality of natural language comprehension models corresponding to the application, based on the usage information, performing natural language comprehension for user voice input associated with the application based on the natural language understanding model corresponding to the application, and performing an application operation based on the pre-generated natural language understanding.

[8] Кроме того, электронное устройство дополнительно содержит интерфейс связи, и при этом процессор дополнительно выполнен с возможностью выполнения по меньшей мере одной инструкции для: получения информации использования, включающей в себя по меньшей мере одно из числа выполнений приложения и времени выполнения приложения, управления интерфейсом связи для передачи полученной информации использования на внешний сервер, приёма модели понимания естественного языка, соответствующей приложению, из множества моделей понимания естественного языка, соответствующих множеству приложений, с внешнего сервера через интерфейс связи, и сохранения модели понимания естественного языка в запоминающем устройстве.[8] In addition, the electronic device further comprises a communication interface, wherein the processor is further configured to execute at least one instruction for: obtaining usage information including at least one of the number of application executions and application execution time, control a communication interface for transmitting the received usage information to the external server, receiving the natural language understanding model corresponding to the application from the plurality of natural language understanding models corresponding to the plurality of applications from the external server via the communication interface, and storing the natural language understanding model in a storage device.

[9] Кроме того, при этом модель понимания естественного языка, соответствующая приложению, принимается из внешнего сервера на основании того, что число выполнений приложения, включенного в информацию использования, равно или больше порогового числа, либо на основании того, что время выполнения приложения равно или больше порогового времени.[9] In addition, wherein the natural language understanding model corresponding to the application is received from the external server based on that the number of executions of the application included in the usage information is equal to or greater than the threshold number, or on the basis that the execution time of the application is or more than the threshold time.

[10] Кроме того, приложение включает в себя информацию ресурсов, которая совпадает с информацией относительно заданного голосового высказывания, и информацию по операции, соответствующую заданному голосовому высказыванию; и процессор дополнительно выполнен с возможностью выполнения на основании того, что информация использования для приложения удовлетворяет заданному условию, по меньшей мере одной инструкции для формирования модели понимания естественного языка, соответствующей приложению, согласно информации относительно заданного голосового высказывания и информации по операции, соответствующей заданному голосовому высказыванию.[10] In addition, the application includes resource information that matches information about a given voice utterance and operation information corresponding to a given voice utterance; and the processor is further configured to execute, based on that the usage information for the application satisfies the predetermined condition, at least one instruction for generating a natural language understanding model corresponding to the application according to the information regarding the predetermined voice utterance and the operation information corresponding to the predetermined voice utterance. .

[11] Кроме того, процессор дополнительно выполнен с возможностью выполнения по меньшей мере одной инструкции для запроса первого пользовательского голосового ввода, соответствующего операции приложения, для которого на основании информации использования определено, что оно выполняется число раз, большее или равное пороговому числу раз, либо в течение времени, большего или равного пороговому времени.[11] In addition, the processor is further configured to execute at least one instruction to request a first user voice input corresponding to an application operation that is determined, based on the usage information, to be executed a number of times greater than or equal to a threshold number of times, or for a time greater than or equal to the threshold time.

[12] Кроме того, процессор дополнительно выполнен с возможностью выполнения по меньшей мере одной инструкции для:[12] In addition, the processor is further configured to execute at least one instruction for:

- определения, конфликтует ли первый пользовательский голосовой ввод с пользовательским голосовым вводом, сохраненным в запоминающем устройстве, на основании первого пользовательского голосового ввода, вводимого согласно запросу; запроса второго пользовательского голосового ввода, отличного от первого пользовательского голосового ввода, на основании определения того, что первый пользовательский голосовой ввод конфликтует с сохраненным пользовательским голосовым вводом; и сохранения в запоминающем устройстве первого пользовательского голосового ввода в соответствии с операцией приложения на основании определения того, что первый пользовательский голосовой ввод не конфликтует с сохраненным пользовательским голосовым вводом.- determining whether the first user voice input conflicts with the user voice input stored in the storage device, based on the first user voice input entered according to the request; requesting a second user voice input different from the first user voice input based on determining that the first user voice input conflicts with the stored user voice input; and storing in the storage device the first user voice input according to the application operation based on the determination that the first user voice input does not conflict with the stored user voice input.

[13] Кроме того, процессор дополнительно выполнен с возможностью выполнения по меньшей мере одной инструкции для запроса с внешнего сервера модели понимания естественного языка, соответствующей приложению, на основании того, что приложение установлено в электронном устройстве.[13] In addition, the processor is further configured to execute at least one instruction to request from an external server a natural language understanding model corresponding to the application based on the fact that the application is installed in the electronic device.

[14] При этом модель понимания естественного языка включает в себя по меньшей мере одно из персональной модели, сформированной на основании голосового высказывания пользователя с использованием электронного устройства, и публичной модели, сформированной на основании голосового высказывания публичного пользователя; и процессор дополнительно выполнен с возможностью выполнения по меньшей мере одной инструкции для: выполнения понимания естественного языка для пользовательского голосового ввода в персональной модели, выполнения понимания естественного языка для пользовательского голосового ввода в публичной модели, на основании того, что понимание естественного языка для пользовательского голосового ввода в персональной модели не было успешным, и передачи пользовательского голосового ввода на внешний сервер для выполнения понимания естественного языка для пользовательского голосового ввода на основании того, что понимание естественного языка для пользовательского голосового ввода в публичной модели не было успешным.[14] Wherein, the natural language understanding model includes at least one of a personal model generated based on the user's voice utterance using an electronic device and a public model generated based on the public user's voice utterance; and the processor is further configured to execute at least one instruction for: performing natural language comprehension for the user's voice input in the personal model, performing natural language comprehension for the user's voice input in the public model, based on that the natural language comprehension for the user's voice input in the personal model was not successful, and transmitting the user voice input to an external server to perform natural language comprehension for the user voice input based on the fact that natural language understanding for the user voice input in the public model was not successful.

[15] Кроме того, процессор дополнительно выполнен с возможностью выполнения по меньшей мере одной инструкции для удаления полученной модели понимания естественного языка на основании того, что пользовательский голосовой ввод не вводится число раз, большее или равное пороговому числу раз, либо в течение времени, большего или равного пороговому времени.[15] In addition, the processor is further configured to execute at least one instruction to delete the obtained natural language understanding model based on the fact that the user voice input is not entered a number of times greater than or equal to a threshold number of times, or for a time greater than or equal to the threshold time.

[16] В соответствии с другим аспектом изобретения способ управления электронного устройства включает в себя: получение информации использования для приложения, установленного в электронном устройстве; получение на основании информации использования модели понимания естественного языка из множества моделей понимания естественного языка, соответствующих приложению; выполнение понимания естественного языка для пользовательского голосового ввода, связанного с приложением, на основании модели понимания естественного языка, соответствующей приложению; и выполнение операции приложения на основании выполненного понимания естественного языка.[16] According to another aspect of the invention, a method for controlling an electronic device includes: obtaining usage information for an application installed in the electronic device; deriving, based on the usage information, a natural language understanding model from a plurality of natural language understanding models corresponding to the application; performing natural language understanding for the user voice input associated with the application based on the natural language understanding model corresponding to the application; and performing an application operation based on the natural language understanding performed.

[17] В соответствии с другим аспектом изобретения постоянный машиночитаемый носитель записи имеет записанные на нём инструкции, выполняемые посредством по меньшей мере одного процессора для осуществления способа управления электронным устройством, причем способ управления включает в себя: получение информации использования для приложения, установленного в электронном устройстве; получение на основании информации использования модели понимания естественного языка из множества моделей понимания естественного языка, соответствующих приложению; выполнение понимания естественного языка для пользовательского голосового ввода, связанного с приложением, на основании модели понимания естественного языка, соответствующей приложению; и выполнение операции приложения на основании выполненного понимания естественного языка.[17] In accordance with another aspect of the invention, a persistent computer-readable recording medium has instructions recorded thereon, executable by at least one processor for implementing a method for controlling an electronic device, the method of controlling including: obtaining usage information for an application installed in the electronic device ; deriving, based on the usage information, a natural language understanding model from a plurality of natural language understanding models corresponding to the application; performing natural language understanding for the user voice input associated with the application based on the natural language understanding model corresponding to the application; and performing an application operation based on the natural language understanding performed.

Преимущества изобретенияBenefits of the Invention

[18] Согласно различным вариантам осуществления, когда модель понимания естественного языка получается на электронном устройстве 100, операция, соответствующая голосу пользователя, может выполняться полученной модели понимания естественного языка.[18] According to various embodiments, when a natural language understanding model is obtained on the electronic device 100, an operation corresponding to the user's voice may be performed by the obtained natural language understanding model.

Краткое описание чертежейBrief description of the drawings

[19] Вышеуказанные и другие примерные аспекты, признаки и преимущества конкретных вариантов осуществления настоящего изобретения должны становиться более понятными из нижеприведенного подробного описания, рассматриваемого вместе с сопровождающими чертежами, на которых:[19] The above and other exemplary aspects, features and advantages of particular embodiments of the present invention will become more apparent from the following detailed description taken in conjunction with the accompanying drawings, in which:

[20] Фиг. 1 является схемой для описания конфигурации электронной системы согласно варианту осуществления;[20] FIG. 1 is a diagram for describing the configuration of an electronic system according to the embodiment;

[21] Фиг. 2 является схемой, иллюстрирующей блок-схему процесса получения модели понимания естественного языка для выполнения понимания естественного языка согласно варианту осуществления;[21] FIG. 2 is a diagram illustrating a flowchart of a process for obtaining a natural language comprehension model for performing natural language comprehension according to an embodiment;

[22] Фиг. 3A является блок-схемой случая, в котором модель понимания естественного языка принимается из сервера согласно варианту осуществления;[22] FIG. 3A is a flowchart of a case in which a natural language understanding model is received from a server according to an embodiment;

[23] Фиг. 3B является схемой для описания процесса, в котором модель понимания естественного языка принимается из сервера согласно варианту осуществления;[23] FIG. 3B is a diagram for describing a process in which a natural language understanding model is received from a server according to the embodiment;

[24] Фиг. 4A является блок-схемой случая, в котором модель понимания естественного языка формируется согласно другому варианту осуществления;[24] FIG. 4A is a flowchart of a case in which a natural language understanding model is generated according to another embodiment;

[25] Фиг. 4B является схемой для описания процесса, в котором модель понимания естественного языка формируется посредством электронного устройства согласно другому варианту осуществления;[25] FIG. 4B is a diagram for describing a process in which a natural language understanding model is generated by an electronic device according to another embodiment;

[26] Фиг. 5 является блок-схемой, иллюстрирующей электронное устройство и сервер согласно варианту осуществления;[26] FIG. 5 is a block diagram illustrating an electronic device and a server according to an embodiment;

[27] Фиг. 6 является видом для описания последовательности, в которой модель понимания естественного языка работает согласно варианту осуществления; и[27] FIG. 6 is a view for describing the sequence in which the natural language understanding model operates according to the embodiment; And

[28] Фиг. 7 является схемой последовательности операций для описания примера, в котором электронное устройство и сервер совместно работают с возможностью выполнения функции приложения согласно голосу пользователя, согласно варианту осуществления.[28] FIG. 7 is a flowchart for describing an example in which an electronic device and a server work together to perform an application function according to a user's voice, according to an embodiment.

Осуществление изобретенияImplementation of the invention

[29] Далее изобретение будет подробно описано с обращением к сопровождающим чертежам.[29] The invention will now be described in detail with reference to the accompanying drawings.

[30] Фиг. 1 является схемой для описания конфигурации электронной системы 1000 согласно варианту осуществления.[30] FIG. 1 is a diagram for describing the configuration of the electronic system 1000 according to the embodiment.

[31] Обращаясь к фиг. 1, электронная система 1000 согласно варианту осуществления включает в себя электронное устройство 100 и сервер 200.[31] Referring to FIG. 1, an electronic system 1000 according to an embodiment includes an electronic device 100 and a server 200.

[32] Электронное устройство 100 может быть реализовано или выполнено с возможностью выполнения понимания естественного языка для голоса пользователя с использованием модели на основании искусственного интеллекта (либо нейронной сетевой модели, обучающей или тренированной сетевой модели и т.д.) и выполнять функцию приложения на основании результата выполняемого понимания естественного языка. Здесь, понимание естественного языка означает выяснение или понимание намерения пользователя, включенного в естественный язык, который обычно используется без соблюдения только правил, в которых задается фразеология, в отличие от искусственного языка, такого как язык программирования. Модель на основании искусственного интеллекта, выполняющая такое понимание естественного языка, совместно называется «моделью понимания естественного языка».[32] The electronic device 100 may be implemented or configured to perform natural language comprehension of the user's voice using an artificial intelligence based model (or a neural network model, a trained or trained network model, etc.) and perform an application function based on the result of the natural language understanding being performed. Here, understanding natural language means finding out or understanding the intent of the user included in natural language, which is usually used without following only the rules in which phraseology is specified, as opposed to an artificial language such as a programming language. An AI-based model performing such natural language understanding is collectively referred to as a "natural language understanding model".

[33] Функции, связанные с искусственным интеллектом согласно варианту осуществления, работают через процессор (например по меньшей мере один процессор) и запоминающее устройство (например по меньшей мере одно запоминающее устройство). Процессор может быть сконфигурирован как один или множество процессоров. В это время, один или множество процессоров могут представлять собой процессор общего назначения, к примеру, центральный процессор (CPU), процессор приложений (AP), процессор цифровых сигналов (DSP), специализированный графический процессор, к примеру, графический процессор (GPU) или процессор на основании машинного зрения (VPU), либо специализированный процессор на основании искусственного интеллекта, к примеру, нейронный процессор (NPU). Один или множество процессоров осуществляют управление таким образом, чтобы обрабатывать входные данные согласно предварительно заданным правилам работы или моделям на основании искусственного интеллекта, сохраненным в запоминающем устройстве. В качестве альтернативы, когда один или множество процессоров представляют собой специализированный процессор на основании искусственного интеллекта, специализированный процессор на основании искусственного интеллекта может проектироваться в аппаратной архитектуре, специально предназначенной для обработки конкретной модели на основании искусственного интеллекта.[33] The artificial intelligence related functions of an embodiment operate through a processor (eg, at least one processor) and a storage device (eg, at least one storage device). The processor may be configured as one or multiple processors. At this time, one or more processors may be a general purpose processor such as a central processing unit (CPU), an application processor (AP), a digital signal processor (DSP), a dedicated graphics processor such as a graphics processing unit (GPU), or a machine vision processor (VPU) or a specialized artificial intelligence processor such as a neural processor (NPU). One or a plurality of processors are controlled to process input data according to predetermined rules of operation or artificial intelligence models stored in a storage device. Alternatively, when one or more of the processors is a dedicated AI processor, the dedicated AI processor may be designed in a hardware architecture specifically designed to process a particular AI model.

[34] Предварительно заданные правила работы или модели на основании искусственного интеллекта отличаются посредством создания (или обновления) через обучение (или тренировку). Здесь, создание посредством обучения означает то, что базовая модель на основании искусственного интеллекта обучается (или тренируется) посредством использования множества обучающих данных (или тренировочных данных) посредством обучающего алгоритма (или тренировочного алгоритма), за счет этого создавая предварительно заданный набор правил работы или моделей на основании искусственного интеллекта, чтобы выполнять требуемую характеристику (или цель). Такое обучение может выполняться в самом устройстве, в котором искусственный интеллект согласно варианту осуществления выполняется, либо также может выполняться через отдельный сервер и/или систему. Пример обучающего алгоритма включает в себя контролируемое обучение, неконтролируемое обучение, полуконтролируемое обучение или стимулированное обучение, но обучающий алгоритм не ограничен примерами, описанными выше.[34] Predefined rules of operation or models based on artificial intelligence are distinguished by creation (or updating) through learning (or training). Here, creation by training means that the base model based on artificial intelligence is trained (or trained) by using a set of training data (or training data) by a training algorithm (or training algorithm), thereby creating a predetermined set of operation rules or models. based on artificial intelligence in order to fulfill the required characteristic (or goal). Such training may be performed within the device itself in which the artificial intelligence according to the embodiment is performed, or may also be performed via a separate server and/or system. An example of the learning algorithm includes supervised learning, unsupervised learning, semi-supervised learning, or stimulated learning, but the learning algorithm is not limited to the examples described above.

[35] Модель на основании искусственного интеллекта может включать в себя множество нейронных сетевых уровней. Каждый из множества из нейронных сетевых уровней имеет множество значений весовых коэффициентов и выполняет нейронную сетевую операцию через операцию между результатом выполнения операции предыдущего уровня и множеством весовых коэффициентов. Множество значений весовых коэффициентов множества нейронных сетевых уровней могут оптимизироваться посредством результата обучения модели на основании искусственного интеллекта. Например, множество значений весовых коэффициентов могут обновляться таким образом, что значение потерь или значение затрат, полученное из модели на основании искусственного интеллекта, уменьшается или минимизируется во время процесса обучения. Искусственная нейронная сеть может включать в себя глубокую нейронную сеть (DNN), сверточную нейронную сеть (CNN), рекуррентную нейронную сеть (RNN), ограниченную машину Больцмана (RBM), глубокую сеть доверия (DBN), двунаправленную рекуррентную глубокую нейронную сеть (BRDNN) или глубокие Q-сети, но не ограничена этим.[35] An AI-based model may include a plurality of neural network layers. Each of the plurality of neural network layers has a plurality of weight values and performs a neural network operation through an operation between the operation result of the previous layer and the plurality of weight coefficients. The plurality of weight values of the plurality of neural network layers may be optimized by the learning outcome of the AI model. For example, the set of weight values may be updated such that the loss value or cost value derived from the AI model is reduced or minimized during the learning process. Artificial Neural Network may include Deep Neural Network (DNN), Convolutional Neural Network (CNN), Recurrent Neural Network (RNN), Restricted Boltzmann Machine (RBM), Deep Belief Network (DBN), Bidirectional Recurrent Deep Neural Network (BRDNN) or deep Q-nets, but is not limited to these.

[36] Согласно варианту осуществления, при условии, что модель на основании искусственного интеллекта представляет собой модель понимания естественного языка, электронное устройство 100 включает в себя модель понимания естественного языка, которая распознаёт намерение пользователя, и дополнительно может обеспечивать с её помощью функцию (или операцию) виртуального секретаря. Электронное устройство 100 может быть реализовано в различных формах, таких как смартфон, планшетный персональный компьютер (PC), мобильный телефон, телефон с камерой, устройство для чтения электронных книг, настольный персональный компьютер (PC), портативный персональный компьютер (PC), нетбук, рабочая станция, сервер, карманный персональный компьютер (PDA), портативный мультимедийный проигрыватель (PMP), проигрыватель MP3, медицинское устройство, камера, носимое устройство и т.д.[36] According to an embodiment, as long as the AI-based model is a natural language understanding model, the electronic device 100 includes a natural language understanding model that recognizes the user's intent, and can further provide a function (or operation) with it. ) virtual secretary. The electronic device 100 may be implemented in various forms such as a smartphone, tablet personal computer (PC), mobile phone, camera phone, e-book reader, desktop personal computer (PC), laptop personal computer (PC), netbook, workstation, server, personal digital assistant (PDA), portable media player (PMP), MP3 player, medical device, camera, wearable device, etc.

[37] Такая модель понимания естественного языка может существовать отдельно согласно приложению, и одна или множество моделей понимания естественного языка, соответствующих одному приложению, могут существовать. Поскольку операция, выполняемая для каждого из различных приложений, может отличаться, содержимое ввода голосового высказывания пользователя для каждого приложения также может отличаться. Соответственно, модель понимания естественного языка может представлять собой модель, специально предназначенную для соответствующего приложения. Помимо этого, модель понимания естественного языка может разделяться на персональную модель и публичную модель. Здесь, персональная модель представляет собой модель, сформированную или обученную на основании голосового высказывания пользователя электронного устройства 100, и может представлять собой модель, персонализированную для пользователя электронного устройства 100. Помимо этого, публичная модель может представлять собой модель, сформированную или обученную на основании голосовых высказываний множества пользователей (например, множества публичных пользователей).[37] Such a natural language understanding model may exist separately according to an application, and one or a plurality of natural language understanding models corresponding to one application may exist. Since the operation performed for each of the various applications may be different, the input content of the user's voice utterance for each application may also be different. Accordingly, the natural language understanding model may be a model tailored to the respective application. In addition, the natural language understanding model can be divided into a personal model and a public model. Here, the private model is a model generated or trained based on the voice utterance of the user of the electronic device 100, and may be a model personalized for the user of the electronic device 100. In addition, the public model may be a model generated or trained based on the voice utterances sets of users (for example, sets of public users).

[38] Сервер 200 представляет собой устройство для управления множеством моделей понимания естественного языка и может быть реализован как центральный сервер или облачный сервер.[38] The server 200 is a device for managing multiple natural language understanding models and can be implemented as a central server or a cloud server.

[39] Согласно варианту осуществления, сервер 200 может передавать соответствующую модель понимания естественного языка в электронное устройство 100 на основании запроса электронного устройства 100. В частности, сервер 200 может передавать предварительно обученную публичную модель в электронное устройство 100 на основании данных публичных пользователей и также может передавать персональную модель в электронное устройство 100.[39] According to an embodiment, the server 200 may transmit an appropriate natural language understanding model to the electronic device 100 based on a request from the electronic device 100. In particular, the server 200 may transmit a pre-trained public model to the electronic device 100 based on public user data, and may also transfer the personal model to the electronic device 100.

[40] Согласно другому варианту осуществления, модель понимания естественного языка может формироваться в электронном устройстве 100 на основании информации ресурсов, включенной в приложение, установленное на электронном устройстве 100. Здесь, информация ресурсов может включать в себя информацию относительно заданного голосового высказывания, информацию по операции, соответствующую заданному голосовому высказыванию, информацию условия для формирования модели понимания естественного языка, информацию функции приложения, соответствующего заданному голосовому высказыванию, и т.п.[40] According to another embodiment, a natural language comprehension model may be generated in the electronic device 100 based on resource information included in an application installed on the electronic device 100. Here, the resource information may include information regarding a given voice utterance, operation information corresponding to the predetermined voice utterance, condition information for generating a natural language comprehension model, application function information corresponding to the predetermined voice utterance, and the like.

[41] Электронное устройство 100 может формировать или обучать модель понимания естественного языка на основании информации ресурсов, принимаемой из сервера 200. Помимо этого, электронное устройство 100 может принимать список операций и список временных квантов из сервера 200 и обучать публичную модель в качестве персональной модели. Это описано подробно ниже с обращением к чертежам.[41] The electronic device 100 may generate or train a natural language understanding model based on the resource information received from the server 200. In addition, the electronic device 100 may receive the operation list and the slot list from the server 200 and train the public model as a private model. This is described in detail below with reference to the drawings.

[42] Согласно различным вариантам осуществления, когда (либо на основании того, что) модель понимания естественного языка получается на электронном устройстве 100, операция, соответствующая голосу пользователя, может выполняться на основании полученной модели понимания естественного языка.[42] According to various embodiments, when (or based on) a natural language understanding model is obtained on the electronic device 100, an operation corresponding to the user's voice may be performed based on the obtained natural language understanding model.

[43] Кроме того, согласно различным вариантам осуществления, поскольку электронное устройство 100 получает (или получает) модель понимания естественного языка, соответствующую операции приложения, часто используемого пользователем, необязательно сохранять все модели понимания естественного языка в электронном устройстве 100. Следовательно, даже в электронном устройстве, имеющем небольшую емкость запоминающего устройства, понимание естественного языка для голоса пользователя может эффективно выполняться.[43] In addition, according to various embodiments, since the electronic device 100 obtains (or obtains) the natural language understanding model corresponding to the operation of the application frequently used by the user, it is not necessary to store all natural language understanding models in the electronic device 100. Therefore, even in the electronic device having a small storage capacity, natural language understanding of the user's voice can be efficiently performed.

[44] Помимо этого, поскольку модель понимания естественного языка получается заранее в электронном устройстве 100 согласно частоте использования приложения, нет необходимости загружать модель понимания естественного языка из внешнего сервера в реальном времени, благодаря чему обеспечивается возможность эффективного выполнения понимания естественного языка для голоса пользователя, даже когда сетевое соединение отсутствует.[44] In addition, since the natural language comprehension model is obtained in advance in the electronic device 100 according to the usage frequency of the application, it is not necessary to download the natural language comprehension model from an external server in real time, which makes it possible to efficiently perform natural language comprehension for the user's voice, even when there is no network connection.

[45] Фиг. 2 является схемой, иллюстрирующей блок-схему процесса получения модели понимания естественного языка, чтобы выполнять функцию (или операцию) приложения согласно варианту осуществления.[45] FIG. 2 is a diagram illustrating a flowchart of a process for obtaining a natural language understanding model to perform an application function (or operation) according to an embodiment.

[46] Обращаясь к фиг. 2, электронное устройство 100 может получать информацию использования для приложения, установленного в электронном устройстве 100 (этап S210). Здесь информация использования может включать в себя по меньшей мере одно из информации пользовательского ввода, связанной с приложением, и информации использования приложения согласно пользовательскому вводу. Например, информация использования может включать в себя по меньшей мере одно из информации относительно числа пользовательских вводов для выполнения приложения, информации относительно операций, выполняемых в приложении, информации времени, когда приложение выполняется, и т.д.[46] Referring to FIG. 2, the electronic device 100 can obtain usage information for an application installed in the electronic device 100 (step S210). Here, the usage information may include at least one of the user input information associated with the application and the application usage information according to the user input. For example, the usage information may include at least one of information regarding the number of user inputs to execute the application, information regarding operations performed in the application, time information when the application is executed, and so on.

[47] Согласно варианту осуществления, пользовательский ввод может включать в себя ввод посредством пера или касания пользователя. Например, пользовательский ввод может представлять собой пользовательский сенсорный ввод для значка приложения или значка, выполняющего функцию, включенную в приложение, чтобы выполнять приложение или функцию, включенную в приложение.[47] According to an embodiment, user input may include stylus or user touch input. For example, the user input may be a user touch input for an application icon or an icon that performs a function included in the application to perform an application or a function included in the application.

[48] Согласно другому варианту осуществления, пользовательский ввод может включать в себя пользовательский ввод, который вводится через виртуального секретаря. В качестве примера, согласно пользовательскому вводу посредством голоса пользователя, касания пользователя, касания посредством пера и т.п., в то время когда услуга виртуального секретаря выполняется, операция, соответствующая пользовательскому вводу, может выполняться.[48] According to another embodiment, the user input may include a user input that is input via a virtual assistant. As an example, according to a user input by a user's voice, a user's touch, a pen touch, or the like, while the virtual secretary service is being performed, an operation corresponding to the user's input can be performed.

[49] Здесь услуга виртуального секретаря означает услугу для выполнения распознавания голоса для введенного пользовательского голоса с использованием модели на основании искусственного интеллекта, распознавания (или определения) намерения пользователя и выдачи информации ответа, соответствующей голосу пользователя, в качестве результата. Помимо этого, услуга виртуального секретаря может быть обеспечена в виде специализированной программы, отличной от другого программного обеспечения (SW), и может быть реализована с возможностью выполнения модели AI через отдельный специализированный процессор AI. Когда услуга виртуального секретаря (или услуга виртуального помощника) использует множество моделей на основании искусственного интеллекта, некоторые модели на основании искусственного интеллекта могут быть реализованы с возможностью выполнения через специализированный процессор AI.[49] Here, the virtual secretary service means a service for performing voice recognition for an inputted user voice using an artificial intelligence model, recognizing (or determining) the user's intention, and outputting response information corresponding to the user's voice as a result. In addition, the virtual secretary service may be provided as a dedicated program other than other software (SW), and may be implemented to execute the AI model through a separate dedicated AI processor. When the virtual secretary service (or virtual assistant service) uses a plurality of artificial intelligence models, some of the artificial intelligence models may be executable via a dedicated AI processor.

[50] В качестве другого примера, электронное устройство 100 может получать информацию относительно операции приложения, выполняемой согласно пользовательскому вводу. В это время, информация относительно операции приложения может включать в себя информацию относительно типа операции приложения, информацию относительно времени выполнения, информацию относительно числа выполнений и т.п.[50] As another example, the electronic device 100 may receive information regarding an application operation performed according to user input. At this time, information regarding the application operation may include information regarding the type of application operation, information regarding the execution time, information regarding the number of executions, and the like.

[51] Модуль отслеживания информации использования, включенный в электронное устройство 100, может отслеживать информацию использования пользовательского ввода и сохранять полученную информацию использования в запоминающем устройстве.[51] The usage information tracking unit included in the electronic device 100 can track the usage information of the user input and store the obtained usage information in a storage device.

[52] Электронное устройство 100 может получать модель понимания естественного языка, соответствующую установленному приложению, из множества моделей понимания естественного языка на основании информации использования (этап S220). В частности, если число выполнений приложения больше или равно пороговому числу (например, предварительно установленному или заданному пороговому числу), и/или если время выполнения больше или равно пороговому времени (например, предварительно установленному или заданному пороговому времени), электронное устройство 100 может получать модель понимания естественного языка, соответствующую установленному приложению. Другими словами, электронное устройство 100 может получать модель понимания естественного языка для приложения, часто используемого пользователем, и может эффективно обрабатывать голосовой ввод пользователя.[52] The electronic device 100 may obtain a natural language understanding model corresponding to the installed application from a plurality of natural language understanding models based on the usage information (step S220). In particular, if the number of application executions is greater than or equal to a threshold number (e.g., a preset or predetermined threshold number), and/or if the execution time is greater than or equal to a threshold time (e.g., a predetermined or predetermined threshold time), the electronic device 100 may receive the natural language understanding model appropriate for the installed application. In other words, the electronic device 100 can obtain a natural language understanding model for an application frequently used by the user, and can efficiently process the user's voice input.

[53] Согласно варианту осуществления, электронное устройство 100 может принимать и получать модель понимания естественного языка, соответствующую приложению, идентифицированному на основании информации использования, из сервера 200. Это подробно описано с обращением к фиг. 3B.[53] According to an embodiment, the electronic device 100 can receive and obtain a natural language understanding model corresponding to the application identified based on the usage information from the server 200. This is described in detail with reference to FIG. 3b.

[54] Согласно другому варианту осуществления, электронное устройство 100 также может формировать модель понимания естественного языка, соответствующую приложению, идентифицированному на основании информации использования, на электронном устройстве 100. Это подробно описано с обращением к фиг. 4B.[54] According to another embodiment, the electronic device 100 can also generate a natural language understanding model corresponding to an application identified based on the usage information on the electronic device 100. This is described in detail with reference to FIG. 4b.

[55] Помимо этого, электронное устройство 100 может получать информацию ресурсов, соответствующую операции приложения, на основании числа выполнений или времени выполнения операции приложения, а также числа выполнений или времени выполнения приложения, и может получать модель понимания естественного языка, обученную или тренированную на основании полученной информации ресурсов. В частности, если число выполнений операции приложения больше или равно пороговому числу, и/или если время выполнения больше или равно пороговому времени, электронное устройство 100 может получать информацию ресурсов, соответствующую операции выполняемого приложения, и получать модель понимания естественного языка, обученную на основании полученной информации ресурсов.[55] In addition, the electronic device 100 may obtain resource information corresponding to an application operation based on the number of executions or execution time of the application operation, as well as the number of executions or execution time of the application, and may obtain a natural language understanding model trained or trained based on received resource information. In particular, if the number of executions of an application operation is greater than or equal to a threshold number, and/or if the execution time is greater than or equal to a threshold time, the electronic device 100 can obtain resource information corresponding to the operation of the application being executed, and obtain a natural language understanding model trained based on the received resource information.

[56] Когда (или на основании того, что) голос пользователя, связанный с приложением, вводится, электронное устройство 100 может выполнять понимание естественного языка для голоса пользователя на основании модели понимания естественного языка, соответствующей приложению (этап S230). Здесь, модель понимания естественного языка, соответствующая приложению, может представлять собой модель, полученную на этапе S220.[56] When (or based on) the user's voice associated with the application is input, the electronic device 100 may perform natural language understanding for the user's voice based on the natural language understanding model corresponding to the application (step S230). Here, the natural language understanding model corresponding to the application may be the model obtained in step S220.

[57] В частности, модуль понимания естественного языка может выяснять намерение пользователя посредством выполнения синтаксического анализа или семантического анализа для голоса пользователя. Соответственно, модель понимания естественного языка может получать предметную область, намерение или параметр (или временной квант), требуемый для того, чтобы представлять намерение пользовательского ввода. Здесь, предметная область может означать категорию, классифицированную согласно субъекту голоса пользователя или типу команды управления, соответствующей голосу пользователя, и, например, может представлять собой вид или тип приложения, которое предназначается посредством голоса пользователя. Такой предметная область может идентифицироваться посредством модели на основании классификатора предметных областей. В качестве примера, если голос пользователя вводится, модель на основании классификатора предметных областей может идентифицировать приложение, соответствующее голосу пользователя. Например, когда голосом пользователя вводится «Включить режим съемки автопортрета приложения A для работы с камерой», модель на основании классификатора предметных областей может идентифицировать «приложение A для работы с камерой» из голосового ввода пользователя в качестве области, представляющей предметную область. Иными словами, модель на основании классификатора предметных областей может идентифицировать предметную область соответствующего голоса пользователя в качестве «приложения A для работы с камерой». В качестве другого примера, если голос пользователя вводится, модель на основании классификатора предметных областей может идентифицировать широкий диапазон категорий, связанных с намерением пользователя. Например, модель на основании классификатора предметных областей может идентифицировать, связана ли категория, связанная с намерением пользователя, с расписанием, сообщением или напоминанием.[57] In particular, the natural language understanding module may ascertain the intent of the user by performing parsing or semantic analysis on the user's voice. Accordingly, the natural language understanding model may receive the domain, intent, or parameter (or time slice) required to represent the intent of the user input. Here, the subject area may mean a category classified according to the subject of the user's voice or the type of control command corresponding to the user's voice, and, for example, may represent a kind or type of application that is targeted by the user's voice. Such a subject area may be identified by a model based on a subject area classifier. As an example, if the user's voice is input, the domain classifier model can identify the application corresponding to the user's voice. For example, when "Enable camera app A self-portrait capture mode" is entered by the user's voice, the model can identify "camera app A" from the user's voice input as a domain representing the subject area based on the domain classifier. In other words, the model, based on the domain classifier, can identify the domain of the corresponding user voice as "camera application A". As another example, if the user's voice is input, the domain classifier model can identify a wide range of categories associated with the user's intent. For example, a model based on a domain classifier can identify whether a category associated with a user intent is associated with a schedule, message, or reminder.

[58] После этого, модель понимания естественного языка может выполнять понимание естественного языка, включенное в голос пользователя, на основании идентифицированной предметной области.[58] Thereafter, the natural language understanding model may perform natural language understanding included in the user's voice based on the identified subject area.

[59] Электронное устройство 100 может выполнять функцию приложения на основании результата выполняемого понимания естественного языка (этап S240). Например, когда (либо на основании того, что) результат модели понимания естественного языка заключается в том, чтобы выполнять приложение "A" для работы с камерой, электронное устройство 100 может выполнять приложение A для работы с камерой.[59] The electronic device 100 may perform an application function based on the result of the natural language understanding being performed (step S240). For example, when (or based on) the result of the natural language understanding model is to execute camera application "A", electronic device 100 may execute camera application A.

[60] Фиг. 3A является блок-схемой случая, в котором модель понимания естественного языка принимается из сервера 200 согласно варианту осуществления.[60] FIG. 3A is a flowchart of a case in which a natural language understanding model is received from the server 200 according to the embodiment.

[61] Электронное устройство 100 может включать в себя запоминающее устройство 110 (например по меньшей мере одно запоминающее устройство), интерфейс 120 связи (например по меньшей мере один интерфейс связи) и процессор 130 (например по меньшей мере один процессор).[61] Electronic device 100 may include a storage device 110 (eg, at least one storage device), a communication interface 120 (eg, at least one communication interface), and a processor 130 (eg, at least one processor).

[62] Запоминающее устройство 110 может электрически соединяться с процессором 130 и сохранять данные, используемые в различных вариантах осуществления (например, инструкции, выполняемые посредством процессора 130).[62] Memory 110 may be electrically coupled to processor 130 and store data used in various embodiments (eg, instructions executed by processor 130).

[63] Согласно варианту осуществления, запоминающее устройство 110 может сохранять модуль отслеживания информации использования (например, инструкции) и модуль подтверждения голосовых конфликтов (например, инструкции). Запоминающее устройство 110 также может сохранять модель понимания естественного языка, передаваемую посредством сервера 200. Помимо этого, запоминающее устройство 110 также может включать в себя модель на основании классификатора предметных областей.[63] According to an embodiment, the storage device 110 may store a usage information tracking module (eg, instructions) and a voice conflict confirmation module (eg, instructions). The storage device 110 may also store a natural language understanding model transmitted by the server 200. In addition, the storage device 110 may also include a model based on a domain classifier.

[64] Здесь, модуль отслеживания информации использования может представлять собой модуль, который отслеживает информацию пользовательского ввода, связанную с приложением, и информацию использования приложения согласно пользовательскому вводу. Помимо этого, модуль отслеживания информации использования может отслеживать информацию использования для информации предметной области и намерений, связанной с голосом пользователя, полученным через модель на основании искусственного интеллекта услуги виртуального секретаря.[64] Here, the usage information tracking module may be a module that tracks user input information associated with an application and application usage information according to user input. In addition, the usage information tracking module can track usage information for domain and intent information related to the user's voice obtained through the AI model of the virtual assistant service.

[65] Согласно примеру, модуль отслеживания информации использования может отслеживать информацию использования для приложения. В частности, модуль отслеживания информации использования может отслеживать число раз, когда соответствующая операция выполняется, и время, когда приложение выполняется, посредством касания значка приложения или значка, выполняющего функцию, включенную в приложение, посредством пера или тела (например, пальца) пользователя.[65] According to an example, the usage information tracking module can track usage information for an application. Specifically, the usage information tracking module can track the number of times a corresponding operation is performed and the time an application is executed by touching an application icon or an icon performing a function included in the application with a stylus or body (e.g., finger) of the user.

[66] Согласно другому примеру, модуль отслеживания информации использования может отслеживать информацию использования относительно виртуального секретаря. В качестве примера, если голос пользователя вводится, модель на основании распознавания голоса из моделей на основании искусственного интеллекта услуги виртуального секретаря может преобразовывать голос пользователя в текст. Помимо этого, если голос пользователя преобразуется в текст по меньшей мере одна предметная область, связанная с голосом пользователя, может идентифицироваться через модель на основании классификатора предметных областей, включенную в модель понимания естественного языка, из моделей на основании искусственного интеллекта услуги виртуального секретаря. Здесь, предметная область может представлять собой информацию, связанную с приложением. Например, предметная область может означать непосредственно приложение или категорию приложения. Иными словами, предметная область приложения A, связанного с музыкой, может представлять собой непосредственно приложение A или музыкальную категорию.[66] According to another example, the usage information tracking module may track usage information regarding the virtual secretary. As an example, if the user's voice is input, the voice recognition model of the virtual secretary service AI models can convert the user's voice into text. In addition, if the user's voice is converted to text, at least one subject area associated with the user's voice can be identified through the model based on the subject area classifier included in the natural language understanding model from the artificial intelligence based models of the virtual assistant service. Here, the subject area may be information associated with the application. For example, the subject area can mean the application itself or the category of the application. In other words, the subject area of application A related to music may be the application A itself or the music category.

[67] Модуль отслеживания информации использования может отслеживать число раз, когда идентифицирована конкретная предметная область через модель на основании искусственного интеллекта услуги виртуального секретаря, и может передавать идентификационную информацию по соответствующей предметной области на сервер 200, когда (либо на основании того, что) число раз, когда идентифицирована одна предметная область, больше или равно пороговому числу. Идентификационная информация по предметной области может означать информацию, которая может идентифицировать одну предметную область, которая должна отличаться от других предметных, областей и может включать в себя по меньшей мере одно из названия (заголовка) предметной области, идентификационной информации (идентификатора), идентификатора и т.п. Соответственно, электронное устройство 100 может принимать модель понимания естественного языка, соответствующую надлежащей предметной области, из сервера 200. В качестве альтернативы, сервер 200 может запрашивать электронное устройство 100 на предмет того, чтобы передавать информацию относительно числа идентификаций предметной области с заданным периодом. В этом случае, электронное устройство 100 может передавать информацию относительно числа идентификаций предметной области на сервер 200, даже когда число идентификаций предметной области меньше порогового числа, и сервер 200 может накапливать информацию относительно числа идентификаций предметной области, периодически принимаемую для определения, является ли число идентификаций предметной области равным или большим, чем пороговое число. Когда (за один раз, в ответ на либо на основании) определяется то, что число идентификаций конкретной предметной области составляет пороговое число или больше, сервер 200 может передавать модель понимания естественного языка, соответствующую надлежащей предметной области, в электронное устройство 100.[67] The usage information tracking module may track the number of times a particular subject area is identified through the AI model of the virtual secretary service, and may transmit the identification information on the corresponding subject area to the server 200 when (or based on) the number times when one subject area is identified, is greater than or equal to the threshold number. Domain identification information may mean information that can identify one subject area, which must be different from other subject areas, and may include at least one of a domain name (title), identification information (identifier), identifier, etc. .P. Accordingly, the electronic device 100 may receive a natural language understanding model corresponding to the appropriate domain from the server 200. Alternatively, the server 200 may request the electronic device 100 to transmit information regarding the number of domain identifications with a given period. In this case, the electronic device 100 may transmit information regarding the number of domain identifications to the server 200 even when the number of domain identifications is less than a threshold number, and the server 200 may accumulate information regarding the number of domain identifications periodically received to determine whether the number of identifications is subject area equal to or greater than the threshold number. When it is determined (at one time, in response to or based on) that the number of identifications of a particular domain is a threshold number or more, the server 200 may transmit a natural language understanding model corresponding to the appropriate domain to the electronic device 100.

[68] В качестве другого примера, после того, как по меньшей мере одна предметная область, связанная с голосом пользователя, идентифицирована через модель на основании классификатора предметных областей, понимание естественного языка текста, соответствующего голосу пользователя, может выполняться через модель понимания естественного языка из моделей на основании искусственного интеллекта услуги виртуального секретаря для получения информации намерений пользователя, соответствующей голосу пользователя.[68] As another example, after at least one subject area associated with the user's voice is identified through the model based on the domain classifier, natural language understanding of the text corresponding to the user's voice can be performed through the natural language understanding model of virtual secretary service AI models to obtain user intent information corresponding to the user's voice.

[69] Модуль отслеживания информации использования может отслеживать число раз, когда идентифицирована информация конкретных намерений, через модель на основании искусственного интеллекта услуги виртуального секретаря и может передавать идентификационную информацию по соответствующей информации намерений на сервер 200, когда число раз, когда идентифицирована одна информация намерений, больше или равно пороговому числу. Идентификационная информация по информации намерений может означать информацию, которая может идентифицировать одну информацию намерений, которая должна отличаться от другой информации намерений, и может включать в себя по меньшей мере одно из названия (заголовка) информации намерений, идентификационной информации (идентификатора), идентификатора и т.п. Соответственно, электронное устройство 100 может принимать модель понимания естественного языка, соответствующую надлежащему намерению, из сервера 200. В качестве альтернативы, сервер 200 может запрашивать электронное устройство 100 на предмет передачи информации использования для информации намерений с заданным периодом или на основании заданного события. В этом случае, электронное устройство 100 может передавать идентификационную информацию по информации намерений на сервер 200, даже когда число идентификаций информации намерений меньше порогового числа, и сервер 200 может накапливать идентификационную информацию по информации намерений, периодически принимаемую для определения того, является ли число идентификаций информации намерений большим или равным пороговому числу. Если определено, что число идентификаций информации намерений больше или равно пороговому числу, сервер 200 может передавать модель понимания естественного языка, соответствующую надлежащей информации намерений, в электронное устройство 100.[69] The usage information tracking module may track the number of times specific intent information is identified through the AI model of the virtual secretary service, and may transmit identification information on the corresponding intent information to the server 200 when the number of times one intent information is identified, greater than or equal to the threshold number. The intent information identification information may mean information that can identify one intent information to be different from other intent information, and may include at least one of an intent information name (header), an identification information (identifier), an identifier, etc. .P. Accordingly, the electronic device 100 may receive a natural language understanding model corresponding to a proper intent from the server 200. Alternatively, the server 200 may request the electronic device 100 to transmit usage information for the intent information with a predetermined period or based on a predetermined event. In this case, the electronic device 100 may transmit the intent information identification information to the server 200 even when the number of intent information identifications is less than a threshold number, and the server 200 may accumulate the intent information identification information periodically received to determine whether the number of intent information identifications is intentions greater than or equal to the threshold number. If it is determined that the number of intent information identifications is greater than or equal to a threshold number, the server 200 may transmit a natural language understanding model corresponding to the appropriate intent information to the electronic device 100.

[70] Другими словами, модуль отслеживания информации использования может получать информацию использования для информации предметной области и намерений, идентифицированной в услуге виртуального секретаря, даже до того, как выполняется приложение. Поскольку информация использования для информации предметной области и намерений передается на сервер 200, модель понимания естественного языка, соответствующая информации предметной области и намерений, может приниматься из сервера 200 независимо от выполнения приложения.[70] In other words, the usage information tracking module can obtain usage information for domain and intent information identified in the virtual secretary service even before the application is executed. Since the usage information for the domain and intent information is transmitted to the server 200, a natural language understanding model corresponding to the domain information and intent can be received from the server 200 regardless of the execution of the application.

[71] В качестве другого примера, модуль отслеживания информации использования может отслеживать число выполнений приложения через виртуальный секретарь или число выполнений функции, включенной в приложение. Например, модель на основании виртуального секретаря может сохранять информацию использования на основании пользовательского ввода в запоминающем устройстве 110 или отдельном запоминающем устройстве, соединенном с виртуальным секретарем, и модуль отслеживания информации использования может получать сохраненную информацию использования.[71] As another example, the usage information tracking module may track the number of executions of an application via the virtual secretary or the number of executions of a function included in the application. For example, the virtual assistant-based model may store usage information based on user input in the storage device 110 or a separate storage device connected to the virtual assistant, and the usage information tracking module may obtain the stored usage information.

[72] Между тем, в вышеописанном варианте осуществления, модуль отслеживания информации использования описан как осуществляющий отслеживание на основании информации предметной области или информации намерений, но это представляет собой лишь пример. В качестве другого примера, модуль отслеживания информации использования может отслеживать информацию по операции приложения. Иными словами, модуль отслеживания информации использования может отслеживать число раз, когда идентифицирована информация по операции приложения, соответствующего пользовательскому вводу, и может передавать идентификационную информацию по соответствующей информации по операции и идентификационную информацию по информации для приложения, выполняющего соответствующую операцию, на сервер 200, когда число раз, когда идентифицирована одна информация по операции, больше или равно пороговому числу. Идентификационная информация по информации по операции может означать информацию, которая может идентифицировать одну операцию, которая должна отличаться от других операций, и может включать в себя по меньшей мере одно из названия (заголовка) информации по операции, идентификационной информации (идентификатора), информации временного кванта, включенной в операцию, и т.п. Соответственно, электронное устройство 100 может принимать информацию ресурсов и информацию приложения, соответствующую надлежащей операции, из сервера 200, и может обучать или формировать модель понимания естественного языка на основании информации ресурсов и информации приложения, принимаемой из сервера 200. В качестве альтернативы, сервер 200 может обучать или формировать модель понимания естественного языка на основании идентификационной информации операции и идентификационной информации приложения, принимаемой из электронного устройства 100, и передавать обученную или сформированную модель понимания естественного языка в электронное устройство 100.[72] Meanwhile, in the above embodiment, the usage information tracking module is described as performing tracking based on domain information or intent information, but this is just an example. As another example, the usage information tracking module may track application transaction information. In other words, the usage information tracking module can keep track of the number of times the operation information of the application corresponding to the user input is identified, and can transmit the identification information of the corresponding operation information and the information identification information of the application performing the corresponding operation to the server 200 when the number of times one transaction information is identified is greater than or equal to the threshold number. Transaction information identification information may mean information that can identify one operation to be different from other transactions, and may include at least one of the operation information name (header), identification information (identifier), time slot information included in the operation, etc. Accordingly, the electronic device 100 may receive resource information and application information corresponding to the appropriate operation from the server 200, and may train or generate a natural language understanding model based on the resource information and application information received from the server 200. Alternatively, the server 200 may train or generate a natural language understanding model based on the operation identification information and the application identification information received from the electronic device 100, and transmit the trained or generated natural language understanding model to the electronic device 100.

[73] В качестве альтернативы, сервер 200 может запрашивать электронное устройство 100 на предмет передачи информации использования для информации по операции с заданным периодом или на основании заданного события. В этом случае, электронное устройство 100 может передавать идентификационную информацию по информации по операции на сервер 200, даже когда число идентификаций информации по операции меньше порогового числа, и сервер 200 может накапливать идентификационную информацию по операции, периодически принимаемую для определения, является ли число идентификаций информации по операции большим или равным пороговому числу. Если определено, что число идентификаций информации по операции больше или равно пороговому числу, сервер 200 может передавать информацию ресурсов или модель понимания естественного языка, соответствующую надлежащей информации по операции, в электронное устройство 100.[73] Alternatively, the server 200 may query the electronic device 100 to transmit usage information for transaction information with a predetermined period or based on a predetermined event. In this case, the electronic device 100 may transmit the transaction information identification information to the server 200 even when the number of transaction information identifications is less than a threshold number, and the server 200 may accumulate the transaction identification information periodically received to determine whether the number of information identifications is by operation greater than or equal to the threshold number. If it is determined that the number of transaction information identifications is greater than or equal to a threshold number, the server 200 may transmit resource information or a natural language understanding model corresponding to the appropriate transaction information to the electronic device 100.

[74] Между тем, модуль отслеживания информации использования описан выше как включенный в электронное устройство 100, но модуль отслеживания информации использования также может быть включён в сервер 200. В частности, когда понимание естественного языка для голоса пользователя выполняется на сервере 200, сервер 200 также может отслеживать информацию использования для приложения через модуль отслеживания информации использования.[74] Meanwhile, the usage information tracking module is described above as being included in the electronic device 100, but the usage information tracking module may also be included in the server 200. In particular, when natural language understanding for the user's voice is performed on the server 200, the server 200 also can track usage information for an application through the usage information tracking module.

[75] В частности, когда голос пользователя вводится в электронное устройство 100, электронное устройство 100 может получать текст, соответствующий голосу пользователя, через модель на основании распознавания голоса. В это время, текст, соответствующий голосу пользователя, может получаться через модель на основании распознавания голоса, существующую в электронном устройстве 100, но это представляет собой только пример, и текст может получаться через модель на основании распознавания голоса другого сервера.[75] Specifically, when the user's voice is input to the electronic device 100, the electronic device 100 can obtain text corresponding to the user's voice through the model based on the voice recognition. At this time, the text corresponding to the user's voice may be obtained through the model based on the voice recognition existing in the electronic device 100, but this is only an example, and the text may be obtained through the model based on the voice recognition of another server.

[76] Помимо этого, электронное устройство 100 может передавать текст, полученный для понимания естественного языка, на сервер 200. Сервер 200 может использовать полученный текст в качестве входных данных модели на основании классификатора предметных областей, включенной в модель понимания естественного языка. Сервер 200 может получать информацию предметной области или намерений, связанную с текстом, полученным через модель на основании классификатора предметных областей. Тем не менее, сервер 200 не ограничен этим и может принимать голос пользователя из электронного устройства 100 и получать текст, соответствующий голосу пользователя, через модель на основании распознавания голоса, предусмотренную на сервере 200, как описано выше. Между тем, электронное устройство 100 передает голос пользователя или текст, соответствующий голосу пользователя, на сервер 200 следующим образом.[76] In addition, the electronic device 100 may transmit the text obtained for natural language understanding to the server 200. The server 200 may use the received text as input to a model based on a domain classifier included in the natural language understanding model. The server 200 may receive domain or intent information associated with the text obtained through the model based on the domain classifier. However, the server 200 is not limited to this, and can receive the user's voice from the electronic device 100 and obtain text corresponding to the user's voice through the voice recognition model provided in the server 200 as described above. Meanwhile, the electronic device 100 transmits the user's voice or text corresponding to the user's voice to the server 200 as follows.

[77] В качестве примера, предполагается, что модель на основании классификатора предметных областей электронного устройства 100 не идентифицирует предметную область из текста, соответствующего голосу пользователя, вводимому в электронное устройство 100. В этом случае, электронное устройство 100 может передавать голос пользователя или текст, соответствующий голосу пользователя, на сервер 200. Когда предметная область для голоса пользователя или текста, принимаемого из электронного устройства 100, идентифицируется через модель на основании классификатора предметных областей сервера 200, модуль отслеживания информации использования сервера 200 может отслеживать число идентификаций для каждой предметной области, т.е. информацию использования относительно предметной области для каждой предметной области. Помимо этого, когда идентифицирована информация намерений для голоса пользователя или текста после идентификации предметной области, модуль отслеживания информации использования сервера 200 может отслеживать число идентификаций для каждой информации намерений, т.е. информацию использования для информации намерений для каждой информации намерений.[77] As an example, it is assumed that the model based on the domain classifier of the electronic device 100 does not identify the subject area from the text corresponding to the user's voice input to the electronic device 100. In this case, the electronic device 100 may transmit the user's voice or text, corresponding to the user's voice to the server 200. When a subject area for the user's voice or text received from the electronic device 100 is identified through the model based on the subject area classifier of the server 200, the usage information tracking module of the server 200 may track the number of identifications for each subject area, t .e. domain usage information for each domain. In addition, when the intent information for the user's voice or text after the domain identification is identified, the usage information tracking module of the server 200 may keep track of the number of identifications for each intent information, i. e. usage information for intent information for each intent information.

[78] В качестве другого примера, когда идентифицирована предметная область через модель на основании классификатора предметных областей электронного устройства 100 из текста, соответствующего голосу пользователя, вводимому в электронное устройство 100, но информация намерений не идентифицирована, электронное устройство 100 может передавать идентифицированную информацию предметной области и голос пользователя или текст на сервер 200. Сервер 200 может идентифицировать информацию намерений на голосе пользователя на основании принимаемой информации предметной области и голоса пользователя или текста. Помимо этого, модуль отслеживания информации использования сервера 200 может отслеживать число идентификаций для каждой информации намерений, т.е. информацию использования для информации намерений для каждой информации намерений.[78] As another example, when a domain is identified through a model based on the domain classifier of the electronic device 100 from the text corresponding to the user's voice input to the electronic device 100, but the intent information is not identified, the electronic device 100 can transmit the identified domain information and the user's voice or text to the server 200. The server 200 may identify intent information on the user's voice based on the received domain information and the user's voice or text. In addition, the usage information tracking module of the server 200 can track the number of identities for each intent information, i. e. usage information for intent information for each intent information.

[79] Как описано выше, когда на сервере 200 идентифицирована информация предметной области или намерений, модуль отслеживания информации использования сервера 200 может получать информацию использования для информации предметной области или намерений. В этом случае, модуль отслеживания информации использования сервера 200 может суммировать информацию использования, ранее принятую из электронного устройства 100, и информацию использования, полученную из сервера 200. Соответственно, сервер 200 может идентифицировать модель понимания естественного языка, соответствующую суммированной информации использования, и передавать идентифицированную модель понимания естественного языка в электронное устройство 100.[79] As described above, when domain or intent information is identified at the server 200, the usage information tracking module of the server 200 can obtain usage information for the domain or intent information. In this case, the usage information tracking module of the server 200 can summarize the usage information previously received from the electronic device 100 and the usage information received from the server 200. Accordingly, the server 200 can identify a natural language understanding model corresponding to the summarized usage information, and transmit the identified natural language understanding model into the electronic device 100.

[80] Поскольку модель понимания естественного языка, связанная с голосом пользователя или текстом, соответствующим голосу пользователя, не включается в электронное устройство 100, электронное устройство 100 может запрашивать сервер 200, чтобы идентифицировать информацию предметной области или намерений, связанную с голосом пользователя (или текстом), как описано выше. Помимо этого, электронное устройство 100 может включать в себя модель понимания естественного языка, соответствующую голосу пользователя (тексту), принимаемому из сервера 200. В этом случае, когда голос пользователя (или текст), связанный с моделью понимания естественного языка, принимаемой из сервера 200, вводится в электронное устройство 100, электронное устройство 100 может идентифицировать информацию предметной области или намерений, связанную с голосом пользователя, и может в силу этого не запрашивать отдельно идентификацию предметной области или информацию намерений на сервере 200.[80] Because the natural language understanding model associated with the user's voice or text corresponding to the user's voice is not included in the electronic device 100, the electronic device 100 may query the server 200 to identify domain or intent information associated with the user's voice (or text). ) as described above. In addition, the electronic device 100 may include a natural language understanding model corresponding to the user's voice (text) received from the server 200. In this case, when the user's voice (or text) associated with the natural language understanding model received from the server 200 , is input to the electronic device 100, the electronic device 100 may identify the domain or intent information associated with the user's voice, and may therefore not separately request the domain identification or intent information from the server 200.

[81] Другими словами, электронное устройство 100 может идентифицировать предметную область, связанную с голосом пользователя или текстом, соответствующим голосу пользователя, через модель на основании классификатора предметных областей электронного устройства 100, и когда идентифицирована информация намерений в предметной области, т.е. информация относительно конкретной функции приложения, электронное устройство 100 может не запрашивать отдельно идентификацию предметной области или информацию намерений из сервера 200 и может передавать полученную информацию использования на сервер 200, когда заданное условие удовлетворяется, либо при запросе сервера 200.[81] In other words, the electronic device 100 can identify the subject area associated with the user's voice or text corresponding to the user's voice through a model based on the subject area classifier of the electronic device 100, and when intent information in the subject area is identified, i. information regarding a particular application function, the electronic device 100 may not separately request domain identification or intent information from the server 200, and may transmit the received usage information to the server 200 when a predetermined condition is met or requested by the server 200.

[82] Модуль подтверждения голосовых конфликтов представляет собой модуль, который подтверждает, имеет ли место конфликт, на основании подобия ранее зарегистрированному голосу пользователя или тексту, соответствующему голосу пользователя, когда голос пользователя, соответствующий заданной операции для приложения, или текст, соответствующий голосу пользователя, заново регистрируется. Другими словами, модуль подтверждения голосовых конфликтов представляет собой модуль, который может подтверждать, имеет ли место конфликт текста, а также голоса. Это подробно описано далее.[82] The voice conflict confirmation module is a module that confirms whether there is a conflict based on the similarity to a previously registered user voice or text corresponding to the user's voice when the user's voice corresponding to a specified operation for the application, or text corresponding to the user's voice, is re-registered. In other words, the voice conflict confirmation module is a module that can confirm whether there is a text conflict as well as a voice conflict. This is detailed below.

[83] Интерфейс 120 связи включает в себя схему и представляет собой компонент, допускающий обмен данными с сервером 200.[83] The communication interface 120 includes a circuit and is a component capable of communicating with the server 200.

[84] Интерфейс 120 связи может передавать информацию использования на сервер 200 через проводную или беспроводную связь и принимать модель понимания естественного языка, соответствующую идентифицированному приложению, на основании информации использования из сервера 200. В этом случае, интерфейс 120 связи может передавать идентификационную информацию электронного устройства 100, а также информации использования под управлением процессора 130. Здесь, идентификационная информация может включать в себя по меньшей мере одно из адреса по Интернет-протоколу (IP), названия модели, названия устройства и серийного номера электронного устройства 100. Сервер 200 может определять цель для передачи модели понимания естественного языка на основании передаваемой идентификационной информации.[84] The communication interface 120 may transmit the usage information to the server 200 via a wired or wireless connection and receive a natural language understanding model corresponding to the identified application based on the usage information from the server 200. In this case, the communication interface 120 may transmit the identification information of the electronic device 100 as well as usage information under the control of the processor 130. Here, the identification information may include at least one of an Internet Protocol (IP) address, a model name, a device name, and a serial number of the electronic device 100. The server 200 may determine the target for transmitting a natural language understanding model based on the transmitted identification information.

[85] Процессор 130 электрически соединяется с запоминающим устройством 110 и полностью управляет работой электронного устройства 100. Процессор 130, в общем, управляет операциями электронного устройства 100 с использованием различных инструкций или программ, сохраненных в запоминающем устройстве 110. В частности, согласно варианту осуществления, главный CPU может копировать программу в оперативное запоминающее устройство (RAM) согласно инструкциям, сохраненным в постоянном запоминающем устройстве (ROM), и осуществлять доступ к RAM, чтобы выполнять программу. Здесь, программа может включать в себя модель понимания естественного языка и т.п.[85] The processor 130 is electrically coupled to the memory device 110 and fully controls the operation of the electronic device 100. The processor 130 generally controls the operations of the electronic device 100 using various instructions or programs stored in the memory device 110. Specifically, according to an embodiment, the main CPU may copy the program to random access memory (RAM) according to instructions stored in read only memory (ROM) and access the RAM to execute the program. Here, the program may include a natural language understanding model or the like.

[86] Процессор 130 может загружать модуль отслеживания информации использования, модель понимания естественного языка, модуль подтверждения голосовых конфликтов и модель на основании классификатора предметных областей, сохраненные в запоминающем устройстве 110, в процессор 130. Например, процессор 130 может загружать модуль отслеживания информации использования, модель понимания естественного языка, модуль подтверждения голосовых конфликтов и модель на основании классификатора предметных областей, сохраненные в запоминающем устройстве 110, за пределы процессора 130 в запоминающее устройство в процессоре 130. Между тем, ниже с обращением к фиг. 3B подробно описан процесс, в котором электронное устройство 100 принимает модель понимания естественного языка из сервера 200 на основании информации использования для приложения.[86] The processor 130 may download the usage information tracking module, the natural language understanding model, the voice conflict confirmation module, and the model based on the domain classifier stored in the storage device 110 to the processor 130. For example, the processor 130 can download the usage information tracking module, the natural language understanding model, the voice conflict validation module, and the model based on the domain classifier stored in the storage device 110 outside the processor 130 to the storage device in the processor 130. Meanwhile, with reference to FIG. 3B describes in detail the process in which the electronic device 100 receives a natural language understanding model from the server 200 based on usage information for the application.

[87] Фиг. 3B является схемой для описания процесса, в котором модель понимания естественного языка принимается из сервера согласно варианту осуществления изобретения.[87] FIG. 3B is a diagram for describing a process in which a natural language understanding model is received from a server according to an embodiment of the invention.

[88] Приложение может быть установлено в электронном устройстве 100 (этап S310). Приложение может устанавливаться во время изготовления электронного устройства 100, к примеру, в качестве встроенного приложения, либо может устанавливаться по выбору пользователя.[88] The application may be installed in the electronic device 100 (step S310). The application may be installed during manufacture of the electronic device 100, such as as a built-in application, or may be installed at the user's option.

[89] После этого, модуль отслеживания информации использования может отслеживать информацию использования установленного приложения (этап S320). Помимо этого, модуль отслеживания информации использования может отслеживать информацию использования для информации предметной области и намерений, связанной с голосом пользователя, полученным через модель на основании искусственного интеллекта услуги виртуального секретаря.[89] Thereafter, the usage information tracking module may monitor the usage information of the installed application (step S320). In addition, the usage information tracking module can track usage information for domain and intent information related to the user's voice obtained through the AI model of the virtual assistant service.

[90] Модуль отслеживания информации использования может отслеживать информацию пользовательского ввода, связанную с приложением, и информацию использования приложения согласно пользовательскому вводу. Например, модуль отслеживания информации использования может отслеживать число раз, когда приложение "B" доставки еды выполняется, согласно пользовательскому вводу. Случай, в котором приложение B доставки еды выполняется согласно пользовательскому вводу, может включать в себя случай, в котором приложение B доставки еды выбирается и выполняется посредством касания пользователя или пера на дисплее, и случай, в котором приложение B доставки еды выполняется посредством голоса пользователя. В этом случае, модель на основании классификатора предметных областей может идентифицировать такую информацию, что предметная область, включенная в голос пользователя, представляет собой приложение B. Например, «приложение B» может быть непосредственно включено в голос пользователя или может не быть непосредственно включено в голос пользователя, а вместо этого могут быть включены слова в отношении доставки (к примеру, «Хочу заказать доставку еды» или «Заказать доставку еды»). Во втором случае, модель на основании классификатора предметных областей может идентифицировать предметную область голоса пользователя в качестве приложения B на основании «доставки», включенной в голос пользователя.[90] The usage information tracking module can track user input information associated with the application and application usage information according to the user input. For example, the usage information tracking module may track the number of times food delivery application "B" is executed according to user input. A case in which the food delivery application B is executed according to user input may include a case in which the food delivery application B is selected and executed by touching the user or a pen on the display, and a case in which the food delivery application B is executed by the user's voice. In this case, the domain classifier-based model may identify information such that the domain included in the user's voice is application B. For example, "application B" may be directly included in the user's voice or may not be directly included in the user's voice. user, and words related to delivery may be included instead (for example, "I want to order food delivery" or "Order food delivery"). In the second case, the domain classifier-based model may identify the user's voice domain as application B based on the "delivery" included in the user's voice.

[91] Помимо этого, модуль отслеживания информации использования может отслеживать число раз, когда идентифицирована конкретная предметная область через модель на основании искусственного интеллекта услуги виртуального секретаря. Например, когда голос пользователя для «приложения B» вводится через виртуальный секретарь, голос пользователя для «приложения B» может преобразовываться в текст через модель на основании распознавания голоса. Модель на основании классификатора предметных областей из моделей на основании искусственного интеллекта услуги виртуального секретаря может идентифицировать предметную область, связанную с голосом пользователя, в качестве «приложения B» с использованием преобразованного текста в качестве входных данных. Модуль отслеживания информации использования может отслеживать число раз, когда идентифицирована предметная область, как описано выше, т.е. информацию использования относительно предметной области.[91] In addition, the usage information tracking module can track the number of times a particular subject area is identified through the AI-based model of the virtual secretary service. For example, when the user's voice for "Application B" is input via the virtual assistant, the user's voice for "Application B" may be converted to text through the model based on the voice recognition. The domain classifier-based model of the AI-based virtual assistant service models can identify the domain associated with the user's voice as "Application B" using the converted text as input. The usage information tracking module may keep track of the number of times a subject area is identified as described above, ie. usage information regarding the subject area.

[92] В качестве альтернативы, модуль отслеживания информации использования может отслеживать число идентификаций информации намерений. Например, информация намерений пользователя может идентифицироваться в качестве выбора китайского меню «приложения B», которое представляет собой приложение доставки еды. Модуль отслеживания информации использования может отслеживать число раз, когда идентифицирована информация намерений, как описано выше, т.е. информацию использования для информации намерений.[92] Alternatively, the usage information tracking module may track the number of identifications of the intent information. For example, the user's intent information may be identified as a selection of the Chinese menu "application B", which is a food delivery application. The usage information tracking module may track the number of times the intent information is identified as described above, ie. usage information for intent information.

[93] В качестве альтернативы, модуль отслеживания информации использования может отслеживать число идентификаций информации по операции. Например, когда информация по пользовательской операции представляет собой операцию фотосъемки приложения A для работы с камерой, модуль отслеживания информации использования может идентифицировать "CapturePhoto" и «приложение A для работы с камерой», что представляет собой информацию для приложения, которое выполняет операцию, в качестве информации по операции. Помимо этого, модуль отслеживания информации использования может отслеживать число раз, когда идентифицирована информация по операции, как описано выше, т.е. информацию использования для информации по операции.[93] Alternatively, the usage information tracking module may track the number of transaction information identifications. For example, when the user operation information is a photographing operation of the camera application A, the usage information tracker can identify "CapturePhoto" and "Camera application A", which is information for the application that performs the operation, as information on the operation. In addition, the usage information tracking module may track the number of times transaction information is identified as described above, ie. usage information for transaction information.

[94] Модуль отслеживания информации использования может сохранять полученную информацию использования в запоминающем устройстве 110. Модуль отслеживания информации использования может сохранять измененную (или обновленную) информацию использования в запоминающем устройстве 110 каждый раз, когда возникает изменение информации использования, либо сохранять информацию использования периодически в запоминающем устройстве 110.[94] The usage information tracking module may store the received usage information in the storage device 110. The usage information tracking module may store the changed (or updated) usage information in the storage device 110 every time a usage information change occurs, or store the usage information periodically in the storage device. device 110.

[95] Модуль отслеживания информации использования может идентифицировать, удовлетворяет ли отслеживаемая информация использования заданному условию (этап S330).[95] The usage information tracking module may identify whether the monitored usage information satisfies a predetermined condition (step S330).

[96] Если информация использования удовлетворяет заданному условию (Y на этапе S330), модуль отслеживания информации использования может передавать информацию использования на сервер 200 через интерфейс 120 связи (этап S340). Например, когда приложение B выполняется три или более раз, либо накопленное время, когда приложение B выполняется, составляет 1 час или больше, модуль отслеживания информации использования может передавать информацию использования для приложения B на сервер 200. Здесь, информация использования может включать в себя по меньшей мере одно из информации приложения, которое должно выполняться, числа выполнений приложения B, времени выполнения приложения B и т.д. Например, информация относительно числа выполнений в отношении того, что число выполнений равно 5, и идентификационная информация в отношении того, что выполняемое приложение представляет собой B, могут передаваться на сервер 200 вместе. Помимо этого, модуль отслеживания информации использования также может передавать идентификационную информацию электронного устройства 100 на сервер 200. Здесь, идентификационная информация может включать в себя по меньшей мере одно из IP-адреса, названия модели, названия устройства и серийного номера электронного устройства 100. Сервер 200 может определять цель для передачи модели понимания естественного языка на основании передаваемой идентификационной информации.[96] If the usage information satisfies the predetermined condition (Y in step S330), the usage information tracking module may transmit the usage information to the server 200 via the communication interface 120 (step S340). For example, when Application B is executed three or more times, or the accumulated time when Application B is executed is 1 hour or more, the usage information tracking module may transmit usage information for Application B to the server 200. Here, the usage information may include at least one of the application information to be executed, the number of executions of application B, the execution time of application B, and so on. For example, information regarding the number of executions that the number of executions is 5 and identification information that the application being executed is B may be transmitted to the server 200 together. In addition, the usage information tracking module may also transmit the identification information of the electronic device 100 to the server 200. Here, the identification information may include at least one of an IP address, a model name, a device name, and a serial number of the electronic device 100. The server 200 may determine a target for transmitting a natural language understanding model based on the transmitted identification information.

[97] В качестве другого примера, когда предметная область, связанная с приложением B, идентифицирована три или более раз, либо когда информация намерений для выбора конкретной функции в приложении B идентифицирована три или более раз, модуль отслеживания информации использования может передавать идентификационную информацию по информации предметной области или намерений на сервер 200.[97] As another example, when the subject area associated with Appendix B is identified three or more times, or when intent information for selecting a specific function in Appendix B is identified three or more times, the usage information tracking module may transmit identification information on the information domain or intent to server 200.

[98] Другими словами, заданное условие может представлять собой условие, связанное с информацией использования для приложения или информацией использования для информации предметной области и намерений в услуге виртуального секретаря. Тем не менее, заданное условие не ограничено этим и может представлять собой возникновение заданного события или наступление заданного времени. Например, модуль отслеживания информации использования может передавать полученную информацию использования на сервер 200 каждые 50 часов. Помимо этого, сервер 200 накапливает и сохраняет принимаемую информацию использования, и когда число выполнений приложения, число идентификаций предметной области или число идентификаций информации намерений превышает или равно пороговому числу на основании накопленной информации использования, сервер 200 также может передавать модель понимания естественного языка, соответствующую ему, электронному устройству 100.[98] In other words, the predetermined condition may be a condition associated with usage information for an application or usage information for domain and intent information in a virtual secretary service. However, the predetermined condition is not limited to this, and may be the occurrence of the predetermined event or the occurrence of the predetermined time. For example, the usage information tracking module may send the received usage information to the server 200 every 50 hours. In addition, the server 200 accumulates and stores the received usage information, and when the number of application executions, the number of domain identifications, or the number of intent information identifications is greater than or equal to a threshold number based on the accumulated usage information, the server 200 can also transmit a natural language understanding model corresponding to it. , electronic device 100.

[99] В качестве другого примера, когда идентифицировано, что операция приложения C выполняется три или более раз, модуль отслеживания информации использования может передавать информацию по операции и информацию в отношении приложения, которое выполняет операцию, на сервер 200.[99] As another example, when it is identified that an operation of application C is performed three or more times, the usage information tracking module may transmit information on the operation and information regarding the application that performs the operation to the server 200.

[100] Между тем, если информация использования не удовлетворяет заданному условию (N на этапе S330), модуль отслеживания информации использования может продолжать отслеживать информацию использования для приложения или информацию использования для информации предметной области и намерений в виртуальном секретаре.[100] Meanwhile, if the usage information does not satisfy the predetermined condition (N in step S330), the usage information tracking module may continue to monitor usage information for the application or usage information for domain and intent information in the virtual secretary.

[101] Между тем, модуль отслеживания информации использования периодически подтверждает, удовлетворяет ли информация использования заданному условию, или сервер 200 также может передавать сигнал запроса, для подтверждения, удовлетворяет ли информация использования заданному условию, в электронное устройство 100.[101] Meanwhile, the usage information tracking module periodically confirms whether the usage information satisfies the predetermined condition, or the server 200 may also transmit a query signal to confirm whether the usage information satisfies the predetermined condition to the electronic device 100.

[102] Сервер 200 может идентифицировать, включено ли приложение, выполняемое на электронном устройстве 100, среди одного или более приложений, управляемых посредством сервера 200, на основании информации использования. В частности, сервер 200 идентифицирует, является ли приложение, идентифицированное посредством модели на основании классификатора предметных областей электронного устройства 100, приложением, управляемым посредством сервера 200. Если идентифицировано, что приложение, выполняемое на электронном устройстве 100, управляется посредством сервера 200, сервер 200 может передавать модель понимания естественного языка, соответствующую надлежащему приложению, из множества моделей понимания естественного языка в электронное устройство 100. Например, если модель понимания естественного языка, соответствующая приложению B, идентифицирована из множества моделей понимания естественного языка, сервер 200 может передавать идентифицированную модель понимания естественного языка в электронное устройство 100.[102] The server 200 can identify whether an application running on the electronic device 100 is included among one or more applications managed by the server 200 based on the usage information. In particular, the server 200 identifies whether the application identified by the model based on the domain classifier of the electronic device 100 is an application managed by the server 200. If it is determined that the application running on the electronic device 100 is managed by the server 200, the server 200 may transmit the natural language comprehension model corresponding to the appropriate application from the plurality of natural language comprehension models to the electronic device 100. For example, if the natural language comprehension model corresponding to application B is identified from the plurality of natural language comprehension models, the server 200 may transmit the identified natural language comprehension model into an electronic device 100.

[103] В качестве примера, сервер 200 может передавать модель понимания естественного языка, соответствующую конкретной функциональной операции (или функции), в электронное устройство 100 на основании информации использования, передаваемой из электронного устройства 100, из моделей понимания естественного языка, соответствующих соответствующему приложению. Например, когда приложение A для работы с камерой выполняется согласно пользовательскому вводу, и автопортрет часто снимается через приложение A для работы с камерой, сервер 200 может передавать модель понимания естественного языка для операции съёмки автопортрета приложения A для работы с камерой в электронное устройство 100 на основании информации использования, включающей в себя такую предысторию использования.[103] As an example, the server 200 may transmit a natural language understanding model corresponding to a particular functional operation (or function) to the electronic device 100 based on usage information transmitted from the electronic device 100 from the natural language understanding models corresponding to the corresponding application. For example, when the camera application A is executed according to user input, and a self-portrait is often captured through the camera application A, the server 200 may transmit a natural language understanding model for the self-portrait capture operation of the camera application A to the electronic device 100 based on usage information including such usage history.

[104] Процессор 130 может принимать модель понимания естественного языка, передаваемую из сервера 200, через интерфейс 120 связи (этап S350). В это время, принимаемая модель понимания естественного языка может представлять собой публичную модель. Принимаемая публичная модель понимания на основании естественного языка может включать в себя информацию относительно заданного голосового высказывания и информацию по операции, соответствующую голосовому высказыванию. Например, принимаемая публичная модель понимания на основании естественного языка может включать в себя информацию относительно голосовых высказываний, к примеру, «Включить приложение A», «Приложение A» и т.п., и информацию по операции, с выполнением приложения A в ответ на это. В это время, процессор 130 может принимать саму модель понимания естественного языка, но также может получать информацию ресурсов для обучения или формирования модели понимания естественного языка.[104] The processor 130 may receive the natural language understanding model transmitted from the server 200 via the communication interface 120 (step S350). At this time, the adopted natural language understanding model may be a public model. The received public understanding model based on natural language may include information regarding a given voice utterance and information on the operation corresponding to the voice utterance. For example, the public comprehension model received based on natural language may include information regarding voice utterances, for example, "Include application A", "Appendix A", etc., and information on operation, with the execution of application A in response to This. At this time, processor 130 may receive the natural language understanding model itself, but may also receive resource information for training or generating a natural language understanding model.

[105] Модуль подтверждения голосовых конфликтов может подтверждать, имеет ли место конфликт (или конфликт) между информацией относительно голосового высказывания, включенной в модель понимания естественного языка, и ранее зарегистрированной пользовательской голосовой информацией (этап S360). Здесь, каждая из информации относительно голосового высказывания и ранее зарегистрированной пользовательской голосовой информации включает в себя голос или текст, соответствующий голосу.[105] The voice conflict confirmation module may confirm whether there is a conflict (or conflict) between the voice utterance information included in the natural language understanding model and the previously registered user voice information (step S360). Here, each of the voice utterance information and the previously registered user voice information includes a voice or text corresponding to a voice.

[106] В качестве примера, когда текст, соответствующий голосовому высказыванию, и текст, соответствующий ранее зарегистрированному голосу пользователя, получаются через модель на основании распознавания голоса, модуль подтверждения голосовых конфликтов может подтверждать, имеет ли место конфликт между текстом, соответствующим голосовому высказыванию, и текстом, соответствующим ранее зарегистрированному голосу пользователя.[106] As an example, when the text corresponding to the voice utterance and the text corresponding to the previously registered voice of the user are obtained through the model based on voice recognition, the voice conflict confirmation module may confirm whether there is a conflict between the text corresponding to the voice utterance and text corresponding to the user's previously registered voice.

[107] Например, в случае, если ранее зарегистрированный голос пользователя представляет собой произношение, аналогичное «приложению A» или такому же названию, но на электронном устройстве 100 имеется другое приложение A, голосовому «приложению A» или тексту, соответствующему голосу могут соответствовать различные операции. В связи с этим, если голосовой конфликт подтверждается (Y на этапе S360), модуль подтверждения голосовых конфликтов может запрашивать другое голосовое высказывание, соответствующее «операции выполнения приложения A» (этап S370). Соответственно, когда другое голосовое высказывание заново вводится, чтобы выполнять приложение A, модуль подтверждения голосовых конфликтов может подтверждать заново введенный голос или текст, соответствующий голосу, для подтверждения, конфликтует ли введенное голосовое высказывание с ранее зарегистрированным голосом пользователя. Если идентифицировано, что голосовой конфликт отсутствует, модуль подтверждения голосовых конфликтов может регистрировать информацию относительно заново введенного пользовательского голоса или текста, соответствующего голосу пользователя, в качестве голоса или текста, увязанного с «операцией выполнения приложения A». В это время, процессор 130 может отображать пользовательский интерфейс (UI) для регистрации другого голосового высказывания и может регистрировать информацию относительно другого голосового высказывания, вводимого через UI.[107] For example, in the case where the user's previously registered voice is a pronunciation similar to "Application A" or the same name, but there is another application A on the electronic device 100, the voice "Application A" or text corresponding to the voice may correspond to different operations. In this regard, if the voice conflict is confirmed (Y in step S360), the voice conflict confirmation module may request another voice statement corresponding to the "application A execution operation" (step S370). Accordingly, when another voice utterance is newly entered to execute Application A, the voice conflict confirmation module may confirm the newly entered voice or text corresponding to the voice to confirm whether the entered voice utterance conflicts with the user's previously registered voice. If it is determined that there is no voice conflict, the voice conflict confirmation module may register information regarding the newly entered user voice or text corresponding to the user's voice as the voice or text associated with the "application A execution operation". At this time, the processor 130 may display a user interface (UI) for registering another voice statement, and may register information regarding another voice statement input via the UI.

[108] Согласно другому примеру, если число выполнений приложения больше или равно пороговому числу, либо время выполнения приложения больше или равно пороговому времени, т.е. если выполняется заданное условие, электронное устройство 100 может запрашивать голос пользователя, соответствующий конкретной операции приложения. Модуль подтверждения голосовых конфликтов может идентифицировать, конфликтует ли введённый голос пользователя с ранее зарегистрированным голосом пользователя, сохраненным в запоминающем устройстве 110, когда голос пользователя вводится согласно запросу, запрашивать голос, отличающийся от входного голоса пользователя, когда входной голос пользователя конфликтует с ранее зарегистрированным голосом пользователя, и увязывать входной голос пользователя с операцией приложения и сохранять его в запоминающем устройстве 110, когда ранее зарегистрированный голос, который конфликтует с входным голосом пользователя, не идентифицирован.[108] According to another example, if the number of application executions is greater than or equal to the threshold number, or the application execution time is greater than or equal to the threshold time, i. e. if the predetermined condition is met, the electronic device 100 may request the user's voice corresponding to the specific operation of the application. The voice conflict confirmation module can identify whether the entered user voice conflicts with the previously registered user voice stored in the storage device 110 when the user's voice is input according to the request, request a voice different from the input user voice when the input user voice conflicts with the previously registered user voice. , and associate the user's input voice with the application operation and store it in the storage device 110 when a previously registered voice that conflicts with the user's input voice is not identified.

[109] Между тем, если идентифицировано, что информация относительно голосового высказывания, включенного в модель понимания естественного языка, не конфликтует с ранее зарегистрированной пользовательской голосовой информацией (N на этапе S360), модуль подтверждения голосовых конфликтов может регистрировать информацию относительно голосового высказывания (этап S380).[109] Meanwhile, if it is determined that the information regarding the voice utterance included in the natural language understanding model does not conflict with the previously registered user voice information (N in step S360), the voice conflict confirmation module may register information regarding the voice utterance (step S380 ).

[110] Тем не менее, следует понимать, что один или более других вариантов осуществления не ограничены этим. Например, согласно другому варианту осуществления, в котором модель понимания естественного языка передается из сервера 200, то, имеется ли голосовой конфликт, подтверждается на сервере 200 заранее, и операция отдельного подтверждения голосового конфликта на электронном устройстве 100 также может быть исключена.[110] However, it should be understood that one or more other embodiments are not limited to this. For example, according to another embodiment in which the natural language comprehension model is transmitted from the server 200, whether there is a voice conflict is confirmed on the server 200 in advance, and the operation of separately confirming the voice conflict on the electronic device 100 can also be omitted.

[111] Процессор 130 может сохранять модель понимания естественного языка в запоминающем устройстве 110 (этап S390). В это время, сохраненная модель понимания естественного языка может представлять собой указываемую пользователем персональную модель. После этого, если голос пользователя вводится, процессор 130 может загружать модель понимания естественного языка, сохраненную в запоминающем устройстве 110, в процессор 130, чтобы выяснять намерение пользователя, включенное в голос пользователя, на основании модели понимания естественного языка.[111] The processor 130 may store the natural language understanding model in the storage device 110 (step S390). At this time, the stored natural language understanding model may be a user-specified personal model. Thereafter, if the user's voice is input, the processor 130 may load the natural language understanding model stored in the memory 110 to the processor 130 to ascertain the user's intention included in the user's voice based on the natural language understanding model.

[112] Между тем, согласно другому варианту осуществления, если приложение установлено на электронном устройстве 100, электронное устройство 100 может запрашивать модель понимания естественного языка, соответствующую приложению, с внешнего сервера. Другими словами, если приложение установлено на электронном устройстве 100, независимо от информации использования для приложения или информации относительно числа идентификаций для информации конкретной предметной области или конкретных намерений, электронное устройство 100 может запрашивать модель понимания естественного языка, соответствующую установленному приложению, с внешнего сервера. Дополнительно и в качестве примера, если информация использования для приложения не удовлетворяет заданному условию (например, числу использований или числу вводов голоса пользователя в течение заданного периода времени после установки), модель понимания естественного языка может удаляться из электронного устройства 100.[112] Meanwhile, according to another embodiment, if the application is installed on the electronic device 100, the electronic device 100 may request a natural language understanding model corresponding to the application from an external server. In other words, if an application is installed on the electronic device 100, regardless of the usage information for the application or information regarding the number of identifications for the specific domain information or specific intents, the electronic device 100 can request a natural language understanding model corresponding to the installed application from an external server. Additionally and by way of example, if the usage information for an application does not satisfy a predetermined condition (e.g., the number of uses or the number of inputs of the user's voice within a predetermined period of time after installation), the natural language understanding model may be removed from the electronic device 100.

[113] Фиг. 4A является блок-схемой случая, в котором модель понимания естественного языка формируется согласно другому варианту осуществления.[113] FIG. 4A is a flowchart of a case in which a natural language understanding model is generated according to another embodiment.

[114] Если приложение устанавливается на электронном устройстве 100, приложение может сохраняться в запоминающем устройстве 110. Процессор 130 может формировать модель понимания естественного языка на основании информации ресурсов, включенной в приложение. Как проиллюстрировано на фиг. 4A, информация ресурсов может включать в себя по меньшей мере одно из информации голосового высказывания, информации по операции, информации относительно заданного условия и т.п. Здесь, информация голосового высказывания может представлять собой характерное произнесение, заданное посредством разработчика, и информация голосового высказывания может включать в себя информацию временного кванта. Информация временного кванта может использоваться в качестве параметра функции для выполнения. Информация по операции может означать событие, которое должно отслеживаться. Информация относительно заданного условия может означать модуль понимания естественного языка, соответствующий приложению или условию для регистрации заданного высказывания. Помимо этого, информация ресурсов дополнительно может включать в себя информацию функции для выполнения, и информация функции для выполнения может сохранять информацию относительно функции приложения, которое должно соединяться с соответствующим высказыванием.[114] If the application is installed on the electronic device 100, the application may be stored in the storage device 110. The processor 130 may generate a natural language understanding model based on the resource information included in the application. As illustrated in FIG. 4A, the resource information may include at least one of voice utterance information, operation information, predetermined condition information, and the like. Here, the voice utterance information may be a characteristic utterance specified by the designer, and the voice utterance information may include slot information. The timeslice information can be used as a function parameter for execution. The transaction information may indicate an event to be tracked. The information regarding a given condition may mean a natural language understanding module corresponding to an application or condition for registering a given utterance. In addition, the resource information may further include function information to be executed, and the function information to be executed may store information regarding an application function to be connected with the corresponding utterance.

[115] Информация ресурсов может согласовываться с информацией относительно заданного голосового высказывания, информацией по операции, соответствующей заданному голосовому высказыванию, информацией условия для формирования модели понимания естественного языка, и информацией функции приложения, соответствующего заданному голосовому высказыванию, соответственно, и сохраняться в форме шаблона. Например, как проиллюстрировано в нижеприведенной таблице 1, информация ресурсов может сохраняться в запоминающем устройстве 110.[115] The resource information may be consistent with information on a given voice utterance, operation information corresponding to a given voice utterance, condition information for generating a natural language understanding model, and application function information corresponding to a given voice utterance, respectively, and stored in a template form. For example, as illustrated in Table 1 below, resource information may be stored in memory 110.

[116] Табл. 1[116] Tab. 1

Характерное высказываниеCharacteristic saying Описание действияAction Description Инициирующее условиеtrigger condition Функция для выполненияFunction to execute Снять фотоTake a photo ACTION_IMAGE_C APTUREACTION_IMAGE_C APTURE > Используется 3 раза после установки>Used 3 times after installed startActivityForResult (new Intent(MediaStore.ACTIO N_IMAGE_CAPTURE)startActivityForResult(new Intent(MediaStore.ACTIO N_IMAGE_CAPTURE) Сохранить в семейном альбоме [Entity_AlbumName]Save to Family Album [Entity_AlbumName] ACTION_IMAGE_S AVE_
[Entity_Album_Name]ACTION_IMAGE_S AVE_
[Entity_Album_Name] > Используется 5 раз после установки>Used 5 times after installation savePhto(Entity_Album_Name)savePhto(Entity_Album_Name)

[117] Информация ресурсов может включаться в данные приложения, когда приложение устанавливается. Помимо этого, запоминающее устройство 110 может сохранять список операций и список временных квантов на основании действий и временных квантов (или объектов), заданных в публичной модели, чтобы расширять охват публичной модели. Список операций может сохраняться посредством согласования по меньшей мере с одним характерным высказыванием, соответствующим операции, как проиллюстрировано в нижеприведенной таблице 2.[117] The resource information may be included in the application data when the application is installed. In addition, the storage device 110 may store a list of operations and a list of timeslots based on actions and timeslots (or objects) defined in the public model to expand the scope of the public model. The list of operations may be stored by matching at least one characteristic statement corresponding to the operation, as illustrated in Table 2 below.

[118] Табл. 2[118] Tab. 2

ShowContentsShowContents Показать фотографию, Показать фотографии [Entity_Building], Покажешь фото?...Show photo, Show photos [Entity_Building], Show photo?... SavePhotoSavePhoto Сохранить фотографию, Сохранение фотографии, Сохранить фотографию в [Entity_folder]...Save photo, Save photo, Save photo in [Entity_folder]...

[119] Помимо этого, список временных квантов может сохранять по меньшей мере одно общее существительное, которое может включаться в один временной квант, как проиллюстрировано в нижеприведенной таблице 3.[119] In addition, the slot list may store at least one common noun that may be included in one slot, as illustrated in Table 3 below.

[120] Табл. 3[120] Tab. 3

ЗданиеBuilding Отель A, отель B, здание C, многоэтажное здание D...Hotel A, Hotel B, Building C, High-rise Building D... АвтомобильAutomobile XXX, YYY, ZZZ...XXX, YYY, ZZZ...

[121] Между тем, вышеописанная информация ресурсов, список операций и список временных квантов могут сохраняться на сервере 200, и электронное устройство 100 может принимать и сохранять информацию ресурсов, список операций и список временных квантов из сервера 200. В этом случае, когда приложение устанавливается, электронное устройство 100 может принимать и сохранять информацию ресурсов, список операций и список временных квантов из сервера 200 и может принимать и сохранять информацию ресурсов, список операций и список временных квантов из сервера 200, когда заданное условие удовлетворяется. Помимо этого, электронное устройство 100 может автоматически формировать информацию ресурсов посредством анализа данных приложения. В частности, когда приложение без информации ресурсов формы шаблона устанавливается, электронное устройство 100 может формировать значение поля шаблона посредством анализа данных приложения. Более конкретно, электронное устройство 100 может получать информацию по операции посредством описательной информации операции извлечения из данных приложения. Помимо этого, электронное устройство 100 может получать характерное высказывание, соответствующее информации по операции, на основании списка операций, принимаемого из сервера 200. В качестве альтернативы, электронное устройство 100 может получать характерное высказывание, соответствующее информации по операции, на основании модели формирования текстов на естественном языке, сохраненной в электронном устройстве 100. Помимо этого, электронное устройство 100 может получать информацию относительно заданного условия на основании информации ресурсов другой формы шаблона. Как описано выше, электронное устройство 100 может получать информацию ресурсов формы шаблона на основании полученного характерного высказывания, информации по операции и информации относительно заданного условия.[121] Meanwhile, the above-described resource information, the operation list and the slot list may be stored in the server 200, and the electronic device 100 may receive and store the resource information, the operation list and the slot list from the server 200. In this case, when the application is installed , the electronic device 100 may receive and store the resource information, the operation list and the slot list from the server 200, and may receive and store the resource information, the operation list and the slot list from the server 200 when a predetermined condition is satisfied. In addition, the electronic device 100 can automatically generate resource information by analyzing application data. Specifically, when an application without template form resource information is installed, the electronic device 100 can generate the value of the template field by parsing the application data. More specifically, the electronic device 100 can obtain information on the operation through descriptive information of the extraction operation from the application data. In addition, the electronic device 100 may obtain a characteristic utterance corresponding to the transaction information based on the list of transactions received from the server 200. Alternatively, the electronic device 100 may obtain a characteristic utterance corresponding to the transaction information based on a natural language text generation the language stored in the electronic device 100. In addition, the electronic device 100 can obtain information regarding the predetermined condition based on the resource information of another pattern form. As described above, the electronic device 100 can obtain the template form resource information based on the received characteristic utterance, the operation information, and the information regarding the predetermined condition.

[122] В частности, процессор 130 может загружать информацию ресурсов, модуль отслеживания информации использования, модель понимания естественного языка, модуль подтверждения голосовых конфликтов и модель на основании классификатора предметных областей, сохраненные в запоминающем устройстве 110 в процессор 130, и формировать модель понимания естественного языка. Ниже с обращением к фиг. 4B подробно описан процесс формирования модели понимания естественного языка.[122] In particular, the processor 130 may download the resource information, the usage information tracking module, the natural language understanding model, the voice conflict confirmation module, and the model based on the domain classifier stored in the storage device 110 to the processor 130, and generate a natural language understanding model. . Below with reference to FIG. 4B describes in detail the process of forming a natural language understanding model.

[123] Фиг. 4B является схемой для описания процесса, в котором модель понимания естественного языка формируется посредством электронного устройства 100 согласно другому варианту осуществления.[123] FIG. 4B is a diagram for describing a process in which a natural language understanding model is generated by the electronic device 100 according to another embodiment.

[124] Электронное устройство 100 может устанавливать приложение в электронном устройстве 100 (этап S410). Приложение может устанавливаться во время изготовления электронного устройства 100, к примеру, как встроенное приложение или может устанавливаться по выбору пользователя. Установка приложения в электронном устройстве 100 может означать, что информация в отношении приложения сохраняется в запоминающем устройстве 110, и когда команда выполнения приложений вводится, информация в отношении приложения загружается в процессор 130 таким образом, что различные функции, включенные в приложение, могут выполняться. Здесь, информация в отношении приложения может включать в себя информацию ресурсов. Как описано выше, информация ресурсов может включать в себя по меньшей мере одно из информации относительно заданного голосового высказывания, информации по операции, соответствующей заданному голосовому высказыванию, информации заданного условия для формирования модели понимания естественного языка, информации функции приложения, соответствующего заданному голосовому высказыванию, и т.п.[124] The electronic device 100 may install the application on the electronic device 100 (step S410). The application may be installed during manufacture of the electronic device 100, such as as a built-in application, or may be installed at the user's option. Installing an application in the electronic device 100 may mean that information regarding the application is stored in the storage device 110, and when an application execution command is input, the information regarding the application is loaded into the processor 130 such that various functions included in the application can be executed. Here, the application-related information may include resource information. As described above, the resource information may include at least one of information regarding a given utterance, information on an operation corresponding to a given utterance, information of a given condition for generating a natural language understanding model, application function information corresponding to a given utterance, and etc.

[125] Между тем, модуль отслеживания информации использования может отслеживать информацию использования установленного приложения (этап S420).[125] Meanwhile, the usage information tracking module may track the usage information of the installed application (step S420).

[126] Помимо этого, модуль отслеживания информации использования может идентифицировать, удовлетворяет ли полученная информация использования заданному условию, включенному в информацию ресурсов (этап S430). Например, если заданное условие, включенное в информацию ресурсов, представляет собой условие для выполнения приложения три или более раз, и информация использования удовлетворяет такому условию (Y на этапе S430), процессор 130 может формировать модель понимания естественного языка, соответствующую надлежащему приложению (этап S440). В это время, модель понимания естественного языка может представлять собой публичную модель, сформированную на основании информации ресурсов приложения. Тем не менее, заданное условие, включенное в информацию ресурсов, не ограничено этим и может представлять собой то, что идентификационный номер конкретной предметной области, информация конкретных намерений или конкретная операция через модель на основании искусственного интеллекта услуги виртуального секретаря может составлять заданное число или больше.[126] In addition, the usage information tracking module may identify whether the received usage information satisfies a predetermined condition included in the resource information (step S430). For example, if the predetermined condition included in the resource information is a condition for executing an application three or more times, and the usage information satisfies such a condition (Y in step S430), the processor 130 may generate a natural language understanding model corresponding to the appropriate application (step S440 ). At this time, the natural language understanding model may be a public model generated based on the application resource information. However, the predetermined condition included in the resource information is not limited to this, and may be that the specific domain identification number, the specific intent information, or the specific operation through the virtual secretary service AI model may be a predetermined number or more.

[127] В частности, процессор 130 может формировать (или обучать) модель понимания естественного языка на основании увязки информации голосового высказывания, включенной в информацию ресурсов, с соответствующей информацией по операции. Например, процессор 130 может формировать или обучать модель понимания естественного языка на основании информации голосового высказывания «Включить камеру A», включенной в информацию ресурсов, и операции выполнения приложения A для работы с камерой. Соответственно, когда голосовое высказывание «Включить камеру A» распознается, посредством модели на основании классификатора предметных областей идентифицируется, что предметная область, включенная в голос пользователя, представляет собой «приложение A для работы с камерой», и может формироваться модель понимания естественного языка, соответствующая «приложению A для работы с камерой», для идентификации того, что намерение, включенное в голос пользователя, представляет собой операцию выполнения приложения A для работы с камерой.[127] Specifically, processor 130 may generate (or train) a natural language understanding model based on associating voice utterance information included in resource information with corresponding operation information. For example, the processor 130 may generate or train a natural language understanding model based on the "Turn on camera A" voice utterance information included in the resource information and the execution operation of the camera application A. Accordingly, when the voice utterance "Turn on camera A" is recognized, it is identified by the model based on the domain classifier that the domain included in the user's voice is "camera application A", and a natural language understanding model corresponding to "camera application A" to identify that the intent included in the user's voice is an operation of executing the camera application A.

[128] В качестве другого примера, процессор 130 может формировать информацию плана операций посредством анализа информации по операции приложения и получать характерное высказывание на основании сформированной информации плана операций. Помимо этого, процессор 130 может формировать модель понимания естественного языка на основании информации по операции и характерного высказывания.[128] As another example, the processor 130 may generate the operation plan information by parsing the application operation information and obtain a characteristic statement based on the generated operation plan information. In addition, processor 130 may generate a natural language understanding model based on the transaction information and the characteristic utterance.

[129] В частности, процессор 130 может формировать список для плана операций посредством анализа операции приложения заранее. Иными словами, процессор 130 может формировать список для плана операций посредством записи операции приложения, когда пользователь выполняет приложение. Помимо этого, процессор 130 может передавать список для плана операций на сервер 200, чтобы получать характерное высказывание модели понимания естественного языка, соответствующей соответствующему приложению. В качестве альтернативы, процессор 130 может анализировать смысл списка для плана операций через модуль трансляции и транслировать проанализированный смысл в характерное высказывание. В частности, поскольку план операций представляет собой множество команд, процессор 130 может получать множество слов через план операций. Например, если (1) [Активность: Выполнить][Свойство: Baemin] (2) [Активность: Поиск][Свойство: Китайская еда] и (3) [Активность: отобразить][Свойство: результат поиска] в качестве плана действий получается, процессор 130 может получать (1) в Baemin (2) искать китайскую еду и (3) отобразить результат поиска в качестве множества слов. Помимо этого, процессор 130 может формировать множество слов в качестве одного предложения на естественном языке через модуль формирования текстов на естественном языке. В это время, процессор 130 может получать предложение на естественном языке посредством назначения значения весового коэффициента для каждой операции. В частности, процессор 130 может назначать высокое значение весового коэффициента операции, которая включает в себя именованный объект, и назначать низкое значение весового коэффициента последующей операции. Например, процессор 130 может получать предложение на естественном языке, к примеру, «Найти и показать китайскую еду в Baemin», или «Найти китайскую еду в Baemin», посредством ввода множества слов, описанных выше, в модуль формирования текстов на естественном языке. В это время, именованный объект, включенный в название приложения или операцию, может получаться на основании списка временных квантов. Помимо этого, процессор 130 может формировать или обучать модель понимания естественного языка на основании полученного плана операций и предложения на естественном языке.[129] In particular, the processor 130 may generate a list for the operation plan by analyzing the operation of the application in advance. In other words, the processor 130 may generate a list for the operation plan by recording the operation of the application when the user executes the application. In addition, the processor 130 may send a list for the plan of operations to the server 200 to obtain a characteristic utterance of the natural language understanding model corresponding to the corresponding application. Alternatively, processor 130 may parse the meaning of the list for the plan of operations via a translation module and translate the parsed meaning into a characteristic utterance. In particular, since the operation plan is a plurality of instructions, the processor 130 can receive a plurality of words through the operation plan. For example, if (1) [Activity: Execute][Property: Baemin] (2) [Activity: Search][Property: Chinese food] and (3) [Activity: Display][Property: Search Result] as the action plan is , the processor 130 may receive (1) Baemin (2) search for Chinese food, and (3) display the search result as a plurality of words. In addition, the processor 130 may generate multiple words as a single natural language sentence via the natural language generation module. At this time, processor 130 may obtain a natural language sentence by assigning a weight value to each operation. In particular, processor 130 may assign a high weight value to an operation that includes the named object and assign a low weight value to a subsequent operation. For example, the processor 130 may receive a natural language sentence such as "Find and display Chinese food in Baemin" or "Find Chinese food in Baemin" by inputting the plurality of words described above into the natural language generation module. At this time, the named object included in the application name or operation may be obtained based on the slot list. In addition, processor 130 may generate or train a natural language understanding model based on the received action plan and natural language sentence.

[130] Если информация использования не удовлетворяет заданному условию для формирования модели понимания естественного языка (N в S430), модуль отслеживания информации использования может непрерывно отслеживать информацию использования для приложения либо информацию использования для информации конкретной предметной области или конкретных намерений через модель на основании искусственного интеллекта услуги виртуального секретаря.[130] If the usage information does not satisfy a predetermined condition for generating a natural language understanding model (N in S430), the usage information tracking module may continuously monitor usage information for an application or usage information for specific domain or specific intent information through the AI-based model. virtual secretary services.

[131] Между тем, модуль подтверждения голосовых конфликтов может подтверждать, имеет ли место конфликт между информацией относительно голосового высказывания, включенной в информацию ресурсов, и ранее зарегистрированной пользовательской голосовой информацией (этап S450). В качестве альтернативы, модуль подтверждения голосовых конфликтов может подтверждать, имеет ли место конфликт между текстом, соответствующим голосовому высказыванию, и текстом, соответствующим ранее зарегистрированному голосу пользователя.[131] Meanwhile, the voice conflict confirmation unit may confirm whether there is a conflict between the voice statement information included in the resource information and the previously registered user voice information (step S450). Alternatively, the voice conflict confirmation module may confirm whether there is a conflict between the text corresponding to the voice utterance and the text corresponding to the user's previously registered voice.

[132] В частности, модуль подтверждения голосовых конфликтов может подтверждать, имеет ли место конфликт, на основании подобия между информацией голосового высказывания (или текстовой информацией, соответствующей ему), включенной в информацию ресурсов, и ранее зарегистрированным голосом пользователя (или текстом, соответствующим ему). Например, предполагается, что имеется голосовой ввод «Включить камеру A» в ранее зарегистрированном голосе пользователя, и что операция, соответствующая ему, включает в себя операцию выполнения приложения A для работы с камерой и съемки через тыловую камеру. В этом случае, поскольку различные операции соответствуют идентичному голосовому вводу «Включить камеру A», модуль подтверждения голосовых конфликтов может идентифицировать, что имеет место голосовой конфликт.[132] In particular, the voice conflict confirmation module can confirm whether there is a conflict based on the similarity between the voice utterance information (or text information corresponding to it) included in the resource information and the user's previously registered voice (or text corresponding to it). ). For example, it is assumed that there is a voice input "Turn on camera A" in a previously registered user's voice, and that the operation corresponding to it includes the operation of executing camera application A and shooting through the rear camera. In this case, since different operations correspond to the same voice input "Turn on camera A", the voice conflict confirmation module can identify that there is a voice conflict.

[133] В связи с этим, если голосовой конфликт подтверждается (Y на этапе S450), модуль подтверждения голосовых конфликтов может запрашивать голосовое высказывание, отличающееся от информации голосового высказывания, включенной в информацию ресурсов (этап S460).[133] In this regard, if the voice conflict is confirmed (Y in step S450), the voice conflict confirmation unit may request a voice statement different from the voice statement information included in the resource information (step S460).

[134] Например, процессор 130 может управлять динамиком, чтобы выводить команду «Выполните голосовой ввод, отличный от «Включить камеру A»», или может управлять дисплеем для отображения окна UI, которое включает в себя «Выполните голосовой ввод, отличный от «Включить камеру A»».[134] For example, the processor 130 may control the speaker to output the command “Perform voice input other than “Turn on camera A””, or may control the display to display a UI window that includes “Perform voice input other than “Turn on camera A”. camera A".

[135] Соответственно, когда другое голосовое высказывание заново вводится, чтобы выполнять приложение A для работы с камерой, модуль подтверждения голосовых конфликтов может подтверждать, конфликтует ли введенное голосовое высказывание с ранее зарегистрированным голосом пользователя. Если идентифицировано, что голосовой конфликт отсутствует, модуль подтверждения голосовых конфликтов может формировать модуль понимания естественного языка, соответствующий приложению A для работы с камерой в состоянии, в котором информация относительно заново введенного голоса пользователя регистрируется в качестве голоса, увязанного с «операцией выполнения приложения A для работы с камерой». В качестве примера, голосовой ввод пользователя, такой как «Активировать камеру A», отличающийся от «Включить камеру A», может вводиться или регистрироваться в качестве голоса (или голосового ввода), соответствующего операции выполнения приложения A для работы с камерой. Следовательно, на основании сформированной модели понимания естественного языка, когда вводится «Активировать камеру A», выполняется операция выполнения приложения A для работы с камерой, а когда вводится «Включить камеру A», выполняется операция съемки через тыловую камеру посредством выполнения приложения A для работы с камерой, что может отличаться друг от друга.[135] Accordingly, when another voice utterance is newly input to execute camera application A, the voice conflict confirmation module may confirm whether the entered voice utterance conflicts with the user's previously registered voice. If it is determined that there is no voice conflict, the voice conflict confirmation module may generate a natural language understanding module corresponding to the application A for operating the camera in a state in which information regarding the newly entered user voice is registered as the voice associated with the "execution operation of the application A for camera work. As an example, a user's voice input such as "Activate camera A" other than "Enable camera A" may be input or registered as a voice (or voice input) corresponding to an execution operation of the camera application A. Therefore, based on the generated natural language comprehension model, when "Activate camera A" is input, an operation of executing the camera application A is performed, and when "Enable camera A" is input, a shooting operation is performed through the rear camera by executing the camera application A camera, which may differ from each other.

[136] В качестве примера описан случай, в котором информация голосового высказывания, включенная в информацию ресурсов, является той же, что и ранее зарегистрированный голос пользователя, но даже если информация голосового высказывания, включенная в информацию ресурсов, аналогична ранее зарегистрированному голосу пользователя, и модель понимания естественного языка может вероятно неверно интерпретировать намерение пользователя, модуль подтверждения голосовых конфликтов может запрашивать голосовое высказывание, отличное от информации голосового высказывания, включенной в информацию ресурсов.[136] As an example, a case is described in which the voice utterance information included in the resource information is the same as the user's previously registered voice, but even if the voice utterance information included in the resource information is the same as the previously registered user's voice, and the natural language understanding model may likely misinterpret the user's intent, the voice conflict confirmation module may request a voice utterance different from the voice utterance information included in the resource information.

[137] Между тем, если идентифицировано, что информация относительно голосового высказывания, включенная в модель понимания естественного языка, не конфликтует с ранее зарегистрированной пользовательской голосовой информацией (N на этапе S450), модуль подтверждения голосовых конфликтов может регистрировать информацию относительно голосового высказывания в качестве голоса, соответствующего операции выполнения приложения A для работы с камерой.[137] Meanwhile, if it is determined that the voice utterance information included in the natural language understanding model does not conflict with the previously registered user voice information (N in step S450), the voice conflict confirmation module may register the voice utterance information as a voice. , corresponding to the execution operation of application A for working with the camera.

[138] Процессор 130 может сохранять модель понимания естественного языка, в которой голос пользователя регистрируется в запоминающем устройстве 110 (этап S470). В это время, сохраненная модель понимания естественного языка может представлять собой персональную модель.[138] The processor 130 may store a natural language understanding model in which the user's voice is registered in the memory 110 (step S470). At this time, the stored natural language understanding model may be a personal model.

[139] После этого, если голос пользователя вводится, процессор 130 может загружать модель понимания естественного языка, сохраненную в запоминающем устройстве 110, в процессор 130, чтобы выяснять (или определять) намерение пользователя, включенное в голос пользователя, на основании модели понимания естественного языка.[139] Thereafter, if the user's voice is input, the processor 130 may load the natural language understanding model stored in the memory 110 to the processor 130 to ascertain (or determine) the user's intent included in the user's voice based on the natural language understanding model. .

[140] Между тем, согласно вышеописанным вариантам осуществления, модель понимания естественного языка может получаться посредством способа, принимаемого из сервера 200 или сформированного на электронном устройстве 100 на основании информации использования. Помимо этого, электронное устройство 100 может удалять (или стирать) полученную, сформированную или сохраненную модель понимания естественного языка из электронного устройства 100, когда заданное условие удовлетворяется (например, если пользовательский ввод, соответствующий полученной модели понимания естественного языка, не вводится пороговое число раз или более в течение заданного периода времени). То, если пользовательский ввод не вводится пороговое число раз или более, указывает то, что частота использования приложения, соответствующего модели понимания естественного языка, является низкой, электронное устройство 100 может удалять модель понимания естественного языка, имеющую низкую частоту использования, из электронного устройства 100.[140] Meanwhile, according to the above-described embodiments, the natural language understanding model can be obtained by a method received from the server 200 or generated on the electronic device 100 based on the usage information. In addition, the electronic device 100 may delete (or erase) the received, generated, or stored natural language comprehension model from the electronic device 100 when a predetermined condition is met (for example, if a user input corresponding to the received natural language comprehension model is not entered a threshold number of times, or over a given period of time). If the user input is not entered by a threshold number of times or more, indicating that the frequency of use of the application corresponding to the natural language understanding model is low, the electronic device 100 may remove the natural language understanding model having a low frequency of use from the electronic device 100.

[141] Фиг. 5 является блок-схемой, иллюстрирующей электронное устройство 100 и сервер 200 согласно варианту осуществления.[141] FIG. 5 is a block diagram illustrating the electronic device 100 and the server 200 according to the embodiment.

[142] Обращаясь к фиг. 5, электронное устройство 100 включает в себя запоминающее устройство 110 (например по меньшей мере одно запоминающее устройство), интерфейс 120 связи (например по меньшей мере один интерфейс связи) и процессор 130 (например по меньшей мере один процессор), и сервер 200 включает в себя запоминающее устройство 210 (например по меньшей мере одно запоминающее устройство), интерфейс 220 связи (например по меньшей мере один интерфейс связи) и процессор 230 (например по меньшей мере один процессор).[142] Referring to FIG. 5, the electronic device 100 includes a storage device 110 (eg, at least one storage device), a communication interface 120 (eg, at least one communication interface), and a processor 130 (eg, at least one processor), and the server 200 includes a storage device 210 (eg, at least one storage device), a communication interface 220 (eg, at least one communication interface), and a processor 230 (eg, at least one processor).

[143] Запоминающее устройство 110 может электрически соединяться с процессором 130 и сохранять данные, используемые в различных вариантах осуществления.[143] Memory 110 may be electrically coupled to processor 130 and store data used in various embodiments.

[144] Запоминающее устройство 110 может быть реализовано в виде запоминающего устройства, встроенного в электронное устройство 100, или также может быть реализовано в виде запоминающего устройства, выполненного с возможностью соединения и съемного относительно электронного устройства 100, в зависимости от цели хранения данных. Например, данные для работы электронного устройства 100 могут сохраняться в запоминающем устройстве, встроенном в электронное устройство 100, и данные для расширенных функций электронного устройства 100 могут сохраняться в запоминающем устройстве, присоединяемом и съемном относительно электронного устройства 100. Между тем, запоминающее устройство, встроенное в электронное устройство 100, может быть реализовано в виде по меньшей мере одного из энергозависимого запоминающего устройства (например, динамического оперативного запоминающего устройства (DRAM), статического RAM (SRAM), синхронного динамическое RAM (SDRAM) и т.п.) или энергонезависимого запоминающего устройства (например, однократно программируемого постоянного запоминающего устройства (OTPROM), программируемого ROM (PROM), стираемого и программируемого ROM (EPROM), электрически стираемого программируемого ROM (EEPROM), ROM с маскированием, флэш-ROM, флэш-памяти (например, NAND-флэш-памяти, флэш-памяти типа NOR и т.п.), жесткого диска или полупроводникового накопителя (SSD)). Запоминающее устройство, выполненное с возможностью соединения и съемное относительно электронного устройства 100, может быть реализовано в такой форме, как карта памяти (например, карта памяти в формате Compact Flash (CF), карта памяти по стандарту Secure Digital (SD), карта памяти по стандарту Micro Secure Digital (microSD), карта памяти по стандарту Mini Secure Digital (MiniSD), карта памяти по стандарту Extreme Digital (xD), мультимедийная карта (MMC) и т.п.), внешнее запоминающее устройство (например, запоминающее устройство USB), соединяемая с USB-портом, и т.п.[144] The storage device 110 may be implemented as a storage device built into the electronic device 100, or may also be implemented as a storage device that is connectable and removable with respect to the electronic device 100, depending on the purpose of storing the data. For example, data for operating the electronic device 100 may be stored in a storage device built into the electronic device 100, and data for advanced functions of the electronic device 100 may be stored in a storage device attached and removable with respect to the electronic device 100. Meanwhile, the storage device built into electronic device 100 may be implemented as at least one of volatile memory (e.g., dynamic random access memory (DRAM), static RAM (SRAM), synchronous dynamic RAM (SDRAM), etc.) or non-volatile memory (e.g., one-time programmable read-only memory (OTPROM), programmable ROM (PROM), erasable and programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), masked ROM, flash ROM, flash memory (e.g. NAND- flash memory, NOR flash memory, etc.), hard disk or solid-state drive (SSD)). The storage device, which is connectable and removable with respect to the electronic device 100, may be implemented in such a form as a memory card (for example, a Compact Flash (CF) memory card, a Secure Digital (SD) memory card, a Micro Secure Digital (microSD), Mini Secure Digital (MiniSD) memory card, Extreme Digital (xD) memory card, multimedia card (MMC), etc.), external storage device (such as USB memory ) connected to the USB port, etc.

[145] Согласно варианту осуществления, запоминающее устройство 110 может сохранять модуль отслеживания информации использования, модуль подтверждения голосовых конфликтов, модель понимания естественного языка и модель на основании классификатора предметных областей.[145] According to an embodiment, the storage device 110 may store a usage information tracking module, a voice conflict confirmation module, a natural language understanding model, and a model based on a domain classifier.

[146] Интерфейс 120 связи включает в себя схему и представляет собой компонент, допускающий обмен данными с сервером 200.[146] The communication interface 120 includes a circuit and is a component capable of communicating with the server 200.

[147] Интерфейс 120 связи может включать в себя модуль Wi-Fi, модуль Bluetooth, инфракрасный (IR) модуль, модуль локальной сети (LAN), модуль Ethernet и т.п. Здесь каждый модуль связи может быть реализован в виде по меньшей мере одной аппаратной микросхемы. Модуль беспроводной связи может включать в себя по меньшей мере одну микросхему связи, которая выполняет связь согласно различным протоколам беспроводной связи, таким как ZigBee, универсальная последовательная шина (USB), последовательный интерфейс камеры для интерфейса мобильных промышленных процессоров (MIPI CSI), стандарт третьего поколения (3G), стандарт Партнерского проекта третьего поколения (3GPP), стандарт долгосрочного развития (LTE), усовершенствованный стандарт LTE (LTE-A), стандарт четвертого поколения (4G), стандарт пятого поколения (5G) и т.п., в дополнение к вышеуказанным способам связи. Тем не менее, это представляет собой только пример, и интерфейс 120 связи может использовать по меньшей мере один модуль связи из различных модулей связи. Помимо этого, интерфейс 120 связи может обмениваться данными с сервером через проводную связь.[147] The communication interface 120 may include a Wi-Fi module, a Bluetooth module, an infrared (IR) module, a local area network (LAN) module, an Ethernet module, and the like. Here, each communication module can be implemented as at least one hardware chip. The wireless communication module may include at least one communication chip that communicates according to various wireless communication protocols such as ZigBee, Universal Serial Bus (USB), Camera Serial Interface for Mobile Industrial Processor Interface (MIPI CSI), third generation standard (3G), 3rd Generation Partnership Project (3GPP) standard, Long Term Evolution (LTE), LTE-Advanced (LTE-A), fourth generation (4G), fifth generation (5G), etc., in addition to the above methods of communication. However, this is only an example, and communication interface 120 may use at least one communication module from various communication modules. In addition, the communication interface 120 can communicate with the server via a wired connection.

[148] В конфигурации, проиллюстрированной на фиг. 5, запоминающее устройство 210 и интерфейс 220 связи, включенные в сервер 200, выполняют аналогичные функции относительно запоминающего устройства 110 и интерфейса 120 связи, включенных в электронное устройство 100, и их повторное описание ниже не приводится.[148] In the configuration illustrated in FIG. 5, the storage device 210 and the communication interface 220 included in the server 200 perform similar functions with respect to the storage device 110 and the communication interface 120 included in the electronic device 100, and their description will not be repeated below.

[149] Между тем, процессор 130 может передавать информацию использования для приложения на сервер 200 через интерфейс 120 связи. Процессор 230 сервера 200 может принимать информацию использования через интерфейс 220 связи и идентифицировать, является ли приложение, выполняемое на электронном устройстве 100, приложением, сохраненным в запоминающем устройстве 210, на основании принимаемой информации использования. Если идентифицировано, что приложение, выполняемое на электронном устройстве 100, представляет собой приложение, сохраненное в запоминающем устройстве 210, процессор 230 может идентифицировать модель понимания естественного языка, соответствующую надлежащему приложению, из множества моделей понимания естественного языка на запоминающем устройстве 210. После этого, процессор 230 может управлять интерфейсом 220 связи таким образом, чтобы передавать идентифицированную модель понимания естественного языка в электронное устройство 100. Процессор 130 может сохранять модель понимания естественного языка, передаваемую из сервера 200, в запоминающем устройстве 110.[149] Meanwhile, the processor 130 may transmit usage information for the application to the server 200 via the communication interface 120 . The processor 230 of the server 200 may receive the usage information via the communication interface 220 and identify whether an application running on the electronic device 100 is an application stored in the storage device 210 based on the received usage information. If it is determined that the application running on the electronic device 100 is an application stored on the storage device 210, the processor 230 may identify a natural language understanding model corresponding to the appropriate application from the plurality of natural language understanding models on the storage device 210. Thereafter, the processor 230 may control communication interface 220 to transmit the identified natural language comprehension model to electronic device 100. Processor 130 may store the natural language comprehension model transmitted from server 200 in storage device 110.

[150] Фиг. 6 является видом для описания последовательности, в которой модель понимания естественного языка работает согласно варианту осуществления.[150] FIG. 6 is a view for describing the sequence in which the natural language understanding model operates according to the embodiment.

[151] Обращаясь к фиг. 6, электронное устройство 100 может принимать голос пользователя (например, пользовательский голосовой ввод) (этап S610). Если голос пользователя вводится в электронное устройство 100, электронное устройство 100 может получать текст, соответствующий голосу пользователя, через модель на основании распознавания голоса. Тем не менее, следует понимать, что один или более других вариантов осуществления не ограничены этим, и распознавание голоса для голоса пользователя может выполняться посредством внешнего устройства, внешнего сервера и т.п., и электронное устройство 100 также может принимать текстовые данные, соответствующие голосу пользователя, снаружи. Помимо этого, модель на основании классификатора предметных областей, включенная в электронное устройство 100, может идентифицировать предметную область, соответствующую полученному тексту. Электронное устройство 100 может идентифицировать модель понимания естественного языка, связанную с идентифицированной предметной областью. В этом случае, электронное устройство 100 может идентифицировать, можно ли выполнять понимание естественного языка для голоса пользователя, через персональную модель из моделей понимания естественного языка, связанных с идентифицированной предметной областью (этап S620).[151] Referring to FIG. 6, the electronic device 100 may receive the user's voice (eg, user voice input) (step S610). If the user's voice is input to the electronic device 100, the electronic device 100 can obtain text corresponding to the user's voice through the model based on the voice recognition. However, it should be understood that one or more other embodiments are not limited to this, and voice recognition for the user's voice may be performed by an external device, an external server, or the like, and the electronic device 100 may also receive text data corresponding to the voice. user, outside. In addition, the domain classifier-based model included in the electronic device 100 can identify a domain corresponding to the received text. The electronic device 100 can identify a natural language understanding model associated with the identified domain. In this case, the electronic device 100 can identify whether natural language comprehension can be performed on the user's voice through a personal model from the natural language comprehension models associated with the identified domain (step S620).

[152] Здесь, персональная модель представляет собой модель, сформированную или обученную на основании голосового высказывания пользователя электронного устройства 100, и может представлять собой модель, персонализированную для пользователя электронного устройства 100. Например, персональная модель может представлять собой персонализированную модель на основании модели понимания естественного языка, принимаемой из сервера 200 или сформированной в электронном устройстве 100 на основании информации использования, полученной через модуль отслеживания информации использования. Другими словами, персональная модель может представлять собой модель понимания естественного языка, связанную с конкретным приложением, которое часто используется пользователем, по сравнению с публичной моделью, описанной ниже.[152] Here, the personal model is a model generated or trained based on the voice utterance of the user of the electronic device 100, and may be a model personalized for the user of the electronic device 100. For example, the personal model may be a personalized model based on a natural understanding model. language received from the server 200 or generated in the electronic device 100 based on the usage information obtained through the usage information tracking module. In other words, the personal model may be a natural language understanding model associated with a particular application that is frequently used by the user, compared to the public model described below.

[153] Если в персональной модели идентифицировано, что можно выполнять понимание естественного языка для голоса пользователя (Y на этапе S620), электронное устройство 100 может выполнять понимание естественного языка через соответствующую персональную модель (этап S630) и может выполнять функцию приложения на основании результата понимания естественного языка (этап S680).[153] If it is identified in the personal model that it is possible to perform natural language understanding for the user's voice (Y in step S620), the electronic device 100 can perform natural language understanding through the corresponding personal model (step S630) and can perform an application function based on the understanding result. natural language (step S680).

[154] Между тем, если невозможно выполнять понимание естественного языка для голоса пользователя в персональной модели (N на этапе S620), электронное устройство 100 может идентифицировать, можно ли выполнять понимание естественного языка для голоса пользователя в публичной модели. Здесь, публичная модель представляет собой модель, которая формируется или обучается на основании голосового высказывания публичного пользователя (например, другого пользователя или пользователя, который является представителем общественности), и может представлять собой модель, используемую для того, чтобы понимать естественный язык, включенный в общий голос публичного пользователя. Например, публичная модель может представлять собой модель понимания естественного языка, связанную со встроенным приложением, которое по существу установлено в электронном устройстве 100 при изготовлении электронного устройства 100, или модель понимания естественного языка, сформированную на основании информации ресурсов приложения.[154] Meanwhile, if it is impossible to perform natural language comprehension for the user's voice in the personal model (N in step S620), the electronic device 100 may identify whether it is possible to perform natural language comprehension for the user's voice in the public model. Here, the public model is a model that is generated or trained based on the voice utterance of a public user (for example, another user or a user who is a member of the public), and may be a model used to understand natural language included in the public public user voice. For example, the public model may be a natural language understanding model associated with an embedded application that is substantially installed in the electronic device 100 when the electronic device 100 is manufactured, or a natural language understanding model generated based on application resource information.

[155] Если в публичной модели идентифицировано, что можно выполнять понимание естественного языка для голоса пользователя (Y на этапе S640), электронное устройство 100 может выполнять понимание естественного языка через соответствующую публичную модель (этап S650) и может выполнять функцию приложения на основании результата понимания естественного языка (этап S680).[155] If it is determined in the public model that it is possible to perform natural language understanding for the user's voice (Y in step S640), the electronic device 100 may perform natural language understanding through the corresponding public model (step S650) and may perform an application function based on the understanding result natural language (step S680).

[156] Между тем, если невозможно выполнять понимание естественного языка для голоса пользователя в публичной модели (N на этапе S640), электронное устройство 100 может передавать голос пользователя или текст, соответствующий голосу пользователя, на сервер 200 (этап S660). Поскольку модель понимания естественного языка, допускающая выполнение понимания естественного языка для голоса пользователя, не предусмотрена в электронном устройстве 100, электронное устройство 100 может передавать голос пользователя или текст, соответствующий голосу пользователя, на сервер 200, включающий в себя множество моделей понимания естественного языка, чтобы выполнять понимание естественного языка для голоса пользователя.[156] Meanwhile, if it is not possible to perform natural language understanding for the user's voice in the public model (N in step S640), the electronic device 100 may transmit the user's voice or text corresponding to the user's voice to the server 200 (step S660). Since a natural language understanding model capable of performing natural language understanding for the user's voice is not provided in the electronic device 100, the electronic device 100 can transmit the user's voice or text corresponding to the user's voice to the server 200 including a plurality of natural language understanding models to perform natural language understanding for the user's voice.

[157] После этого, модель на основании классификатора предметных областей, включенная в сервер 200, может идентифицировать предметную область, соответствующую принимаемому голосу пользователя или тексту, соответствующему голосу пользователя. Сервер 200 может идентифицировать модель понимания естественного языка, связанную с идентифицированной предметной областью, и выполнять понимание естественного языка для голоса пользователя (или текста, соответствующего голосу пользователя) через идентифицированную модель понимания естественного языка.[157] Thereafter, the model based on the domain classifier included in the server 200 can identify the domain corresponding to the user's received voice or text corresponding to the user's voice. The server 200 may identify a natural language understanding model associated with the identified domain and perform natural language understanding for the user's voice (or text corresponding to the user's voice) via the identified natural language understanding model.

[158] Электронное устройство 100 может принимать информацию относительно результата понимания естественного языка из сервера 200 (этап S670). После этого, электронное устройство 100 может выполнять функцию приложения на основании результата понимания естественного языка (этап S680).[158] The electronic device 100 may receive information regarding a natural language understanding result from the server 200 (step S670). Thereafter, the electronic device 100 may perform an application function based on the natural language understanding result (step S680).

[159] Фиг. 7 является схемой последовательности операций для описания примера, в котором электронное устройство 100 и сервер 200 совместно работают с возможностью выполнения функции приложения согласно голосу пользователя, согласно варианту осуществления.[159] FIG. 7 is a flowchart for describing an example in which the electronic device 100 and the server 200 work together to perform the application function according to the user's voice, according to the embodiment.

[160] Обращаясь к фиг. 7, электронное устройство 100 может принимать голос пользователя (например, пользовательский голосовой ввод) (этап S710). Если голос пользователя вводится в электронное устройство 100, электронное устройство 100 может получать текст, соответствующий голосу пользователя, через модель на основании распознавания голоса. Тем не менее, следует понимать, что один или более других вариантов осуществления не ограничены этим, и распознавание голоса для голоса пользователя может выполняться посредством внешнего устройства, внешнего сервера и т.п., и электронное устройство 100 также может принимать текстовые данные, соответствующие голосу пользователя, снаружи.[160] Referring to FIG. 7, the electronic device 100 may receive the user's voice (eg, user voice input) (step S710). If the user's voice is input to the electronic device 100, the electronic device 100 can obtain text corresponding to the user's voice through the model based on the voice recognition. However, it should be understood that one or more other embodiments are not limited to this, and voice recognition for the user's voice may be performed by an external device, an external server, or the like, and the electronic device 100 may also receive text data corresponding to the voice. user, outside.

[161] Электронное устройство 100 может классифицировать предметную область, соответствующую голосу пользователя (этап S720). В частности, электронное устройство 100 может идентифицировать предметную область, соответствующую полученному тексту, с использованием модели на основании классификатора предметных областей, включенной в электронное устройство 100.[161] The electronic device 100 may classify the subject area corresponding to the user's voice (step S720). In particular, the electronic device 100 can identify a subject area corresponding to the received text using a model based on the subject area classifier included in the electronic device 100.

[162] Электронное устройство 100 может определять, имеется ли приложение, соответствующее классифицированной предметной области (этап S730). Иными словами, электронное устройство 100 может определять, имеется ли модель понимания естественного языка, соответствующая приложению, соответствующему классифицированной предметной области, в электронном устройстве 100. Если отсутствует приложение, соответствующее классифицированной предметной области (N на этапе S730), электронное устройство 100 может передавать информацию в отношении голоса пользователя на сервер 200 (этап S735).[162] The electronic device 100 may determine whether there is an application corresponding to the classified subject area (step S730). In other words, the electronic device 100 can determine whether there is a natural language understanding model corresponding to the application corresponding to the classified domain in the electronic device 100. If there is no application corresponding to the classified domain (N in step S730), the electronic device 100 can transmit information with respect to the user's voice to the server 200 (step S735).

[163] Если определяется то, что имеется приложение, соответствующее классифицированной предметной области (Y на этапе S730), электронное устройство 100 может определять, увязывается ли информация по операции, соответствующая тексту (этап S740). Если информация по операции, соответствующая тексту, не увязывается в электронном устройстве 100 (N на этапе S745), электронное устройство 100 может передавать информацию в отношении голоса пользователя и информацию в отношении приложения на сервер 200 (этап S745).[163] If it is determined that there is an application corresponding to the classified subject area (Y in step S730), the electronic device 100 may determine whether the operation information corresponding to the text is associated (step S740). If the operation information corresponding to the text is not linked in the electronic device 100 (N in step S745), the electronic device 100 may transmit information regarding the user's voice and information regarding the application to the server 200 (step S745).

[164] Если информация по операции, соответствующая тексту, увязывается в электронном устройстве 100 (Y на этапе S745), электронное устройство 100 может получать информацию по операции на основании модели понимания естественного языка (этап S750). Помимо этого, электронное устройство 100 может выполнять функцию приложения согласно полученной информации по операции (этап S770).[164] If the transaction information corresponding to the text is linked in the electronic device 100 (Y in step S745), the electronic device 100 can obtain the transaction information based on the natural language understanding model (step S750). In addition, the electronic device 100 can perform an application function according to the received operation information (step S770).

[165] В качестве альтернативы, сервер 200 может получать информацию по операции с использованием модели понимания естественного языка, сохраненной на сервере 200, на основании информации в отношении голоса пользователя (например, текстовой информации) или информации в отношении приложения, принимаемой из электронного устройства 100 (этап S760). Помимо этого, сервер 200 может передавать полученную информацию по операции в электронное устройство 100 (этап S765), и электронное устройство 100 может выполнять функцию приложения согласно полученной информации по операции (этап S770).[165] Alternatively, the server 200 may obtain transaction information using the natural language understanding model stored in the server 200 based on the user's voice information (eg, text information) or application information received from the electronic device 100 (step S760). In addition, the server 200 may transmit the received transaction information to the electronic device 100 (step S765), and the electronic device 100 can perform an application function according to the received transaction information (step S770).

[166] Следует понимать, что способы согласно одному или более вариантам осуществления изобретения, описанным выше, могут быть реализованы в форме приложения, установленного в электронном устройстве.[166] It should be understood that the methods according to one or more embodiments of the invention described above may be implemented in the form of an application installed in an electronic device.

[167] Помимо этого, способы согласно одному или более вариантам осуществления изобретения, описанного выше, могут быть реализованы только посредством обновления программного обеспечения или модернизации аппаратных средств электронного устройства из уровня техники.[167] In addition, the methods according to one or more embodiments of the invention described above can only be implemented by updating the software or upgrading the hardware of the prior art electronic device.

[168] Помимо этого, один или более вариантов осуществления, описанных выше, также могут выполняться через встроенный сервер, включенный в электронное устройство, или по меньшей мере один внешний сервер относительно электронного устройства.[168] In addition, one or more of the embodiments described above can also be performed via an embedded server included in the electronic device, or at least one external server relative to the electronic device.

[169] Между тем, один или более вариантов осуществления, описанных выше, могут быть реализованы посредством программного обеспечения, включающего в себя инструкции, которые сохраняются на машиночитаемых (например, считываемых компьютером) носителях хранения данных. Машина представляет собой устройство, которое активирует сохраненные инструкции из носителей хранения данных и выполнено с возможностью функционирования согласно активированным инструкциям и может включать в себя электронное устройство согласно раскрытым вариантам осуществления. Когда инструкции выполняются посредством процессора, процессор может выполнять функции, соответствующие инструкциям, непосредственно или с использованием других компонентов под управлением процессора. Инструкции могут включать в себя коды, сформированные или выполняемые посредством компилятора или интерпретатора. Машиночитаемый носитель хранения данных может быть предусмотрен в виде постоянного носителя хранения данных. Здесь термин «постоянный» означает, что носитель хранения данных не включает в себя сигнал и является физическим, но не проводит различия между тем, сохраняются ли данные полупостоянным или временным образом на носителе хранения данных. Например, «постоянный носитель хранения данных» может включать в себя буфер, в котором данные сохраняются временно.[169] Meanwhile, one or more of the embodiments described above may be implemented by software including instructions that are stored on computer-readable (eg, computer-readable) storage media. A machine is a device that activates stored instructions from storage media and is configured to operate according to the activated instructions, and may include an electronic device according to the disclosed embodiments. When instructions are executed by the processor, the processor may perform the functions corresponding to the instructions directly or through other components under the control of the processor. The instructions may include codes generated or executed by a compiler or interpreter. The computer-readable storage medium may be provided as a permanent storage medium. Here, the term "permanent" means that the storage medium does not include a signal and is physical, but does not distinguish between whether the data is stored semi-permanently or temporarily on the storage medium. For example, a "persistent storage medium" may include a buffer in which data is stored temporarily.

[170] Помимо этого, способ согласно одному или более вариантам осуществления, описанным выше, может быть включён в компьютерный программный продукт и обеспечен в нём. Компьютерный программный продукт может быть предметом торговли в качестве продукта между продавцом и покупателем. Компьютерный программный продукт может распространяться в виде машиночитаемых носителей хранения данных (например, постоянного запоминающего устройства на компакт-дисках (CD-ROM)) или онлайн через магазин приложений (например, PLAYSTORE™). В случае распространения через Интернет по меньшей мере часть компьютерного программного продукта может по меньшей мере временно сохраняться на носителе хранения данных, таком как запоминающее устройство сервера изготовителя, сервера магазина приложений или ретрансляционного сервера, либо может формироваться временно.[170] In addition, the method according to one or more of the embodiments described above may be included in and provided in a computer program product. A computer program product may be traded as a product between a seller and a buyer. The computer program product may be distributed in the form of computer-readable storage media (eg, compact disc read only memory (CD-ROM)) or online through an application store (eg, PLAYSTORE™). In the case of Internet distribution, at least a portion of the computer program product may be at least temporarily stored on a storage medium such as a storage device of a manufacturer's server, an application store server, or a relay server, or may be temporarily generated.

[171] Помимо этого, один или более вариантов осуществления, описанных выше, могут быть реализованы на машиночитаемом или аналогичным образом считываемом устройством носителе записи с использованием программного обеспечения, аппаратных средств либо их сочетания. В некоторых случаях, варианты осуществления могут быть реализованы посредством самого процессора. Согласно программной реализации, процедуры и функции, описанные выше, могут быть реализованы в виде отдельных программных модулей. Каждый из программных модулей может выполнять одну или более функций и операций, описанных выше.[171] In addition, one or more of the embodiments described above may be implemented on a computer-readable or similarly device-readable recording medium using software, hardware, or a combination thereof. In some cases, embodiments may be implemented by the processor itself. According to software implementation, the procedures and functions described above may be implemented as separate software modules. Each of the software modules may perform one or more of the functions and operations described above.

[172] Между тем, компьютерные инструкции для операций выполнения обработки устройства согласно одному или более вариантов осуществления, описанных выше, могут сохраняться на постоянном машиночитаемом носителе. Компьютерные инструкции, сохраненные на постоянном машиночитаемом носителе, позволяют конкретному устройству выполнять операции обработки устройства согласно одному или более вариантов осуществления, описанных выше, при выполнении посредством процессора конкретного устройства.[172] Meanwhile, computer instructions for performing device processing operations according to one or more of the embodiments described above may be stored in a non-volatile computer-readable medium. Computer instructions stored on a non-volatile computer-readable medium allow a particular device to perform the device processing operations of one or more of the embodiments described above when executed by the processor of the particular device.

[173] Постоянный машиночитаемый носитель не представляет собой носитель, который сохраняет данные в течение короткого времени, такой как регистр, кэш, запоминающее устройство и т.п., а означает машиночитаемый носитель, который полупостоянным образом сохраняет данные. Конкретный пример постоянного машиночитаемого носителя может включать в себя компакт-диск (CD), универсальный цифровой диск (DVD), жесткий диск, диск Blu-Ray, универсальную последовательную шину (USB), карту памяти, постоянное запоминающее устройство (ROM) и т.п.[173] A persistent computer-readable medium is not a medium that stores data for a short time, such as a register, a cache, a storage device, and the like, but means a computer-readable medium that stores data in a semi-permanent manner. A specific example of a permanent computer readable medium may include a compact disc (CD), a digital versatile disc (DVD), a hard disk drive, a Blu-ray disc, a universal serial bus (USB), a memory card, a read only memory (ROM), etc. P.

[174] Помимо этого, каждый из компонентов (например, модулей или программ) согласно вариантам осуществления, описанным выше, может включать в себя один объект или множество объектов, и некоторые субкомпоненты из субкомпонентов, описанных выше, могут быть исключены, или другие субкомпоненты могут быть дополнительно включены в различных вариантах осуществления. В качестве альтернативы или дополнения, некоторые компоненты (например, модули или программы) могут интегрироваться в один объект, чтобы выполнять идентичные или аналогичные функции, выполняемые посредством соответствующих компонентов до интеграции. Операции, выполняемые посредством модуля, программы или другого компонента, в соответствии с различными вариантами осуществления, могут выполняться последовательным, параллельным, итеративным или эвристическим способом, либо по меньшей мере некоторые операции могут выполняться в другом порядке или могут быть исключены, либо могут быть добавлены другие операции.[174] In addition, each of the components (e.g., modules or programs) according to the embodiments described above may include one object or multiple objects, and some subcomponents of the subcomponents described above may be omitted, or other subcomponents may be further included in various embodiments. Alternatively or in addition, some components (eg, modules or programs) may be integrated into one entity to perform identical or similar functions performed by the respective components prior to integration. Operations performed by a module, program, or other component, in accordance with various embodiments, may be performed in a sequential, parallel, iterative, or heuristic manner, or at least some of the operations may be performed in a different order, or may be omitted or others may be added. operations.

[175] Хотя варианты осуществления изобретения проиллюстрированы и описаны выше, изобретение не ограничено вышеуказанными конкретными вариантами осуществления, но может модифицироваться различными способами специалистами в области техники, к которой относится изобретение, без отступления от сущности изобретения, раскрытой по меньшей мере в прилагаемой формуле изобретения. Следует также понимать, что эти модификации попадают в пределы объема и сущности изобретения.[175] Although embodiments of the invention have been illustrated and described above, the invention is not limited to the above specific embodiments, but may be modified in various ways by those skilled in the art to which the invention pertains without departing from the spirit of the invention as disclosed in at least the appended claims. It should also be understood that these modifications fall within the scope and spirit of the invention.

[176] Между тем, общие термины, которые в данный момент широко используются, могут представлять собой термины, используемые в вышеприведенном описании вариантов осуществления с учетом функций в изобретении, но могут изменяться в зависимости от намерения специалистов в данной области техники или судебного прецедента, появления новой технологии и т.п. Помимо этого, в конкретном случае, термины, произвольно выбранные заявителем, могут существовать. В этом случае, смысл таких терминов может подробно упоминаться в соответствующей части описания изобретения. Следовательно, термины, используемые в данном описании, должны определяться на основании смысла терминов и их содержания во всем описании, а не на основании лишь названий этих терминов.[176] Meanwhile, the general terms that are currently widely used may be the terms used in the above description of the embodiments in view of the functions in the invention, but may change depending on the intent of those skilled in the art or judicial precedent, occurrence new technology, etc. In addition, in a particular case, terms arbitrarily chosen by the applicant may exist. In this case, the meaning of such terms may be mentioned in detail in the relevant part of the specification. Therefore, the terms used in this description should be defined based on the meaning of the terms and their content throughout the description, and not on the basis of only the names of these terms.

[177] Выражения в единственном числе включают в себя выражения во множественном числе, если контекст явно не указывает иное. Следует дополнительно понимать, что термины «включать в себя» или «составлять», используемые в настоящей заявке, указывают на наличие признаков, числительных, этапов, операций, компонентов, частей или их сочетаний, упомянутых в этом подробном описании, но не исключают присутствие или добавление одного или более других признаков, числительных, этапов, операций, компонентов, частей либо комбинаций вышеозначенного.[177] Singular expressions include plural expressions unless the context clearly indicates otherwise. It should be further understood that the terms "comprise" or "comprise" as used herein indicate the presence of features, numbers, steps, operations, components, parts, or combinations thereof mentioned in this detailed description, but do not exclude the presence or the addition of one or more other features, numbers, steps, operations, components, parts, or combinations of the foregoing.

[178] Следует понимать, что такие выражения, как «по меньшей мере одно из A и/или B», представляют либо "A" или "B", либо "A" и "B".[178] It should be understood that expressions such as "at least one of A and/or B" represent either "A" or "B", or "A" and "B".

[179] Выражения «первый», «второй» и т.п., используемые в изобретении, могут указывать различные компоненты независимо от последовательности и/или важности компонентов и используются только для того, чтобы отличать один компонент от других компонентов, и не ограничивают в иных отношениях соответствующие компоненты.[179] The expressions "first", "second", etc. used in the invention may indicate different components regardless of the sequence and/or importance of the components and are used only to distinguish one component from other components, and do not limit otherwise relevant components.

[180] Если указано, что какой-либо компонент (например, первый компонент) (функционально или с возможностью осуществления связи) связан или соединён с другим компонентом (например, вторым компонентом), следует понимать, что какой-либо компонент непосредственно соединён с другим компонентом либо может быть соединён с упомянутым другим компонентом через другой компонент (например, третий компонент).[180] If it is indicated that any component (for example, the first component) is (functionally or with the possibility of communication) associated with or connected to another component (for example, the second component), it should be understood that any component is directly connected to another component or can be connected to said other component via another component (for example, a third component).

[181] В данном описании «модуль» или «блок» может выполнять по меньшей мере одну функцию или операцию и может быть реализован посредством аппаратных средств или программного обеспечения либо может быть реализован посредством сочетания аппаратных средств и программного обеспечения. Помимо этого, множество «модулей» или множество «блоков» могут быть объединены по меньшей мере в одном модуле и реализованы посредством по меньшей мере одного процессора, за исключением «модуля» или «блока», который необходимо реализовать конкретными аппаратными средствами. В этом подробном описании термин «пользователь» может означать человека, использующего терминальное устройство (или терминальное устройство) либо устройство (например, электронное устройство с искусственным интеллектом), использующее терминальное устройство.[181] As used herein, a "module" or "unit" may perform at least one function or operation and may be implemented by hardware or software, or may be implemented by a combination of hardware and software. In addition, a plurality of "modules" or a plurality of "blocks" may be combined in at least one module and implemented by at least one processor, with the exception of a "module" or "block", which needs to be implemented by specific hardware. In this detailed description, the term "user" can mean a person using a terminal device (or terminal device) or a device (eg, an artificial intelligence electronic device) using a terminal device.

[182] Хотя варианты осуществления изобретения проиллюстрированы и описаны выше, изобретение не ограничено вышеуказанными конкретными вариантами осуществления, но может быть изменено различными способами специалистами в области техники, к которой относится изобретение, без отступления от сущности изобретения, раскрытой по меньшей мере в прилагаемой формуле изобретения. Следует также понимать, что эти изменения находятся в пределах объема и сущности изобретения.[182] Although embodiments of the invention have been illustrated and described above, the invention is not limited to the above specific embodiments, but may be varied in various ways by those skilled in the art to which the invention pertains without departing from the spirit of the invention as disclosed in at least the appended claims. . It should also be understood that these changes are within the scope and spirit of the invention.

Claims

1. An electronic device for performing an application operation using a natural language understanding model, comprising:

- a storage device configured to store at least one instruction; and a processor configured to execute at least one instruction for:

- obtaining usage information for the application installed in the electronic device,

- obtaining a natural language understanding model from a plurality of natural language understanding models corresponding to the application, based on the usage information,

- performing natural language comprehension for user voice input associated with the application, based on the natural language understanding model corresponding to the application, and

- performing an application operation based on a pre-formed natural language understanding,

wherein the natural language understanding model corresponding to the application is received from the external server based on that the number of application executions included in the usage information is equal to or greater than the threshold number, or on the basis that the application execution time is equal to or greater than threshold time.

2. An electronic device according to claim 1, further comprising:

- communication interface,

wherein the processor is further configured to execute at least one instruction for:

- obtaining usage information including at least one of the number of executions of the application and the execution time of the application, controlling a communication interface to transmit the received usage information to an external server,

- receiving a natural language understanding model corresponding to an application from a plurality of natural language understanding models corresponding to a plurality of applications from an external server via a communication interface, and

storing the natural language understanding model in a storage device.

3. An electronic device according to claim 1, in which:

- the application includes resource information that matches information about the given voice statement and operation information corresponding to the given voice statement; And

the processor is further configured to execute at least one instruction based on that the usage information for the application meets the predetermined condition to generate a natural language understanding model corresponding to the application according to the information regarding the predetermined voice utterance and the operation information corresponding to the predetermined voice utterance.

4. The electronic device of claim 1, wherein the processor is further configured to execute at least one instruction to request a first user voice input corresponding to an application operation determined based on the usage information to have been executed a number of times greater than or equal to a threshold number of times, or for a time greater than or equal to the threshold time.

5. The electronic device of claim 4, wherein the processor is further configured to execute at least one instruction for:

- determining whether the first user voice input conflicts with the user voice input stored in the storage device, based on the first user voice input entered according to the request;

- requesting a second user voice input different from the first user voice input based on the determination that the first user voice input conflicts with the stored user voice input; And

- storing in the storage device the first user voice input in accordance with the operation of the application, based on the determination that the first user voice input does not conflict with the stored user voice input.

6. The electronic device of claim. 1, wherein the processor is further configured to execute at least one instruction to request from an external server a natural language understanding model corresponding to an application based on an application installed in the electronic device.

7. An electronic device according to claim 1, in which:

the natural language understanding model includes at least one of a personal model generated based on the user's voice utterance using an electronic device and a public model generated based on the public user's voice utterance; and the processor is further configured to execute at least one instruction for:

- performing natural language understanding for user voice input in the personal model,

- performing natural language comprehension for the user's voice input in the public model based on the fact that natural language comprehension for the user's voice input in the personal model was not successful, and

- transmitting the user's voice input to an external server to perform natural language comprehension for the user's voice input based on the fact that natural language comprehension for the user's voice input in the public model was not successful.

8. The electronic device of claim. 1, wherein the processor is further configured to execute at least one instruction to remove the received natural language understanding model based on the fact that the user's voice input is not entered a number of times greater than or equal to a threshold number of times, or for a time greater than or equal to the threshold time.

9. A method for controlling an electronic device, wherein the control method comprises the steps of:

- receive usage information for the application installed in the electronic device;

obtaining, based on the usage information, a natural language understanding model from a plurality of natural language understanding models corresponding to the application;

- performing natural language understanding for the user voice input associated with the application, based on the natural language understanding model corresponding to the application; And

- performing an application operation based on the performed natural language understanding,

wherein the natural language understanding model corresponding to the application is received from the external server on the basis that the number of application executions included in the usage information is equal to or greater than the threshold number, or on the basis that the application execution time is equal to or greater than the threshold time.

10. The control method according to claim 9, in which:

- the usage information contains at least one of the number of executions of the application and the execution time of the application, and wherein obtaining a natural language understanding model comprises the steps of:

- transmitting the received usage information to an external server,

- receiving a natural language understanding model corresponding to an application from a plurality of natural language understanding models corresponding to a plurality of applications from an external server, and

storing a natural language understanding model in the electronic device.

11. The control method according to claim 9, in which:

- the application includes resource information that matches information about the given voice statement and operation information corresponding to the given voice statement; and deriving the natural language comprehension model comprises, based on the usage information for the application meeting the predetermined condition, generating a natural language understanding model corresponding to the application according to the information regarding the predetermined voice utterance and the operation information corresponding to the predetermined voice utterance.

12. The control method according to claim 9, further comprising requesting a first user voice input corresponding to an operation of the application, which is determined based on the usage information as being executed a number of times greater than or equal to a threshold number of times, or for a time greater than or equal to the threshold time.

13. The control method according to claim 9, further comprising the steps of:

determining whether the first user voice input conflicts with the input user voice stored in the electronic device based on the first user voice input input according to the request;

requesting a second user voice input different from the first user voice input based on the determination that the first user voice input conflicts with the stored user voice input; And

- storing in the electronic device the first user voice input in accordance with the operation of the application based on the determination that the first user voice input does not conflict with the stored user voice input.