JP2019120935A - Method for providing service using plural wake word in artificial intelligence device and system thereof - Google Patents

Method for providing service using plural wake word in artificial intelligence device and system thereof Download PDF

Info

Publication number
JP2019120935A
JP2019120935A JP2018233018A JP2018233018A JP2019120935A JP 2019120935 A JP2019120935 A JP 2019120935A JP 2018233018 A JP2018233018 A JP 2018233018A JP 2018233018 A JP2018233018 A JP 2018233018A JP 2019120935 A JP2019120935 A JP 2019120935A
Authority
JP
Japan
Prior art keywords
voice
response information
electronic device
query
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018233018A
Other languages
Japanese (ja)
Other versions
JP6728319B2 (en
Inventor
ヨンジェ キム
Youngjae Kim
ヨンジェ キム
ミンヒ イ
Minhee Lee
ミンヒ イ
ミンヨン チョン
Minyoung Jeong
ミンヨン チョン
スマン パク
Suman Park
スマン パク
ジュンホ シン
Joong Ho Shin
ジュンホ シン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Z Intermediate Global Corp
Naver Corp
Original Assignee
Line Corp
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Line Corp, Naver Corp filed Critical Line Corp
Publication of JP2019120935A publication Critical patent/JP2019120935A/en
Application granted granted Critical
Publication of JP6728319B2 publication Critical patent/JP6728319B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Abstract

To provide a method for providing a service using a plurality of wake word in an artificial intelligence device, and to provide a system thereof.SOLUTION: A service-providing system includes: a step of defining a plurality of wake words to be used as a dialog-activating trigger for activating a dialog function of an electronic apparatus, and of setting desired reply information range to each of wake words; a step of activating the dialog function when one specified wake word is recognized among the plurality of wake words by an audio interface of the electronic apparatus; and a step of providing reply information based on the desired reply information range corresponding to the specific wake word, to an audio query inputted in a state where the dialog function is activated.SELECTED DRAWING: Figure 6

Description

以下の説明は、人工知能対話システムに関する。   The following description relates to an artificial intelligence dialogue system.

一般的に、個人秘書システム、人工知能(AI)スピーカ、チャットボットプラットフォーム(chatbot platform)などで使用される人工知能対話システムは、人間が発した命令語の意図を理解し、それに対応する返答文を提供する方式を採用している。   In general, artificial intelligence dialogue systems used in personal secretarial systems, artificial intelligence (AI) speakers, chatbot platforms, etc. understand the intentions of command words issued by humans and the corresponding responses Has adopted a scheme to provide

主に、人工知能対話システムは、人間から機能的な要求が伝達されると、このような人間の要求に対する解答を装置が提供する方式をとっており、マイク(microphone)でユーザの音声入力を受信し、受信した音声入力に基づいてデバイスの動作やコンテンツの提供を制御するようになる。   In the artificial intelligence dialogue system, mainly, when a functional request is transmitted from a human, an apparatus provides an answer to such a human request, and a voice of a user is input by a microphone. Based on the received and received voice input, control of the operation of the device and the provision of content is performed.

例えば、特許文献1(公開日2011年12月30日)には、ホームネットワークサービスにおいて、ホーム内の複数のマルチメディア機器をユーザの音声命令によってマルチコントロールすることができる技術が開示されている。   For example, Patent Document 1 (publication date: December 30, 2011) discloses a technique capable of multi-controlling a plurality of multimedia devices in a home according to a user's voice command in a home network service.

一般的な人工知能対話システムは、事前に定められたウェイクワード(例えば、機器の名称など)を、機器を活性化させるための対話活性トリガとして使用している。これにより、人工知能機器は、ウェイクワードに基づいて音声認識機能を実行するようになる。例えば、ユーザが機器名を発すると機器は活性化され、これに続くユーザの音声クエリを受信するための待機モードに入るようになる。   A typical artificial intelligence dialogue system uses a pre-defined wake word (e.g. the name of the instrument etc) as an interaction activation trigger to activate the instrument. This causes the artificial intelligence device to perform the speech recognition function based on the wake word. For example, when the user gives a device name, the device is activated, and then enters a standby mode to receive the user's voice query.

韓国公開特許第10−2011−0139797号公報Korean Published Patent No. 10-2011-0139797

音声基盤インタフェースを提供する人工知能機器の2つ以上のウェイクワードを区分し、各ウェイクワードに応じてサービス対象を区分することができる方法およびシステムを提供する。   Provided are methods and systems that can partition two or more wakewords of an artificial intelligence device providing a voice-based interface, and partition service targets according to each wakeword.

コンピュータによって実現される電子機器で実行される音声基盤サービス提供方法であって、前記電子機器の対話機能を活性化させるための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定する段階、前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか1つの特定のウェイクワードが認識されると、前記対話機能を活性化させる段階、および前記対話機能が活性化した状態で入力された音声クエリに対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する段階を含む、音声基盤サービス提供方法を提供する。   A method for providing voice-based services implemented in a computer-implemented electronic device, comprising: defining a plurality of wake words to be used as an interactive activity trigger for activating an interactive function of the electronic device; each wake word Setting a desired response information range in the step of activating the interactive function when a specific wake word of the plurality of wake words is recognized by the voice interface of the electronic device; A method of providing a voice-based service, comprising providing response information based on a desired response information range corresponding to the specific wakeword to a voice query input in a state where an interactive function is activated.

一側面によると、前記複数のウェイクワードと各ウェイクワードの希望返答情報範囲は、前記電子機器のユーザによって直接設定されてよい。   According to one aspect, the plurality of wake words and the desired response information range of each wake word may be directly set by the user of the electronic device.

他の側面によると、前記提供する段階は、前記音声インタフェースに受信された音声入力に対し、前記希望返答情報範囲を含むクエリを構成してサーバに伝達する段階、および前記クエリに対する応答として、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を、前記サーバから受信して前記音声インタフェースで出力する段階を含んでよい。   According to another aspect, the providing step comprises, in response to the voice input received by the voice interface, constructing and transmitting a query including the desired response information range to the server, and as a response to the query. Receiving response information from the server based on a desired response information range corresponding to a specific wakeword may be output at the voice interface.

また他の側面によると、前記提供する段階は、前記音声インタフェースに受信された音声入力を、前記特定のウェイクワードに関する情報と共にサービス要請のためのクエリとしてサーバに伝達する段階、および前記クエリに対する応答として、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を、前記サーバから受信して前記音声インタフェースで出力する段階を含んでよい。   According to yet another aspect, the providing step includes communicating voice input received at the voice interface as a query for a service request along with information regarding the particular wakeword, and responding to the query. The method may include the step of: receiving, from the server, response information based on a desired response information range corresponding to the particular wakeword and outputting the response information at the voice interface.

また他の側面によると、前記返答情報は、前記希望返答情報範囲に該当する検索結果を、前記希望返答情報範囲に該当しない検索結果よりも高い優先順位で含んでよい。   According to another aspect, the response information may include a search result corresponding to the desired response information range at a higher priority than a search result not corresponding to the desired response information range.

また他の側面によると、前記返答情報は、前記希望返答情報範囲に該当する検索結果に限定されてよい。   According to another aspect, the response information may be limited to search results corresponding to the desired response information range.

また他の側面によると、前記返答情報は、前記電子機器のユーザの過去の利用内訳を考慮した個人化情報に基づいて構成されてよい。   Further, according to another aspect, the response information may be configured based on personalization information in consideration of past usage details of the user of the electronic device.

また他の側面によると、前記複数のウェイクワードに対し、各ウェイクワードに年齢層が設定されてよい。   According to another aspect, an age group may be set for each wake word for the plurality of wake words.

さらに他の側面によると、前記提供する段階は、前記特定のウェイクワードの年齢層に対応する検索情報を前記返答情報として提供するか、或いは前記特定のウェイクワードの年齢層に対応する出力形態で前記返答情報を提供してよい。   According to still another aspect, the providing may provide search information corresponding to an age group of the particular wakeword as the response information, or in an output form corresponding to an age group of the particular wakeword. The response information may be provided.

コンピュータによって実現されるサーバで実行される音声基盤サービス提供方法であって、電子機器の対話機能を活性化させるための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定する段階、前記複数のウェイクワードのうち、前記対話機能の活性化に利用された特定のウェイクワードに関する情報を含むクエリを前記電子機器から受信する段階、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を構成する段階、および前記受信したクエリに対する応答として、前記構成した返答情報を前記電子機器に提供する段階を含む、音声基盤サービス提供方法を提供する。   A method of providing a voice-based service executed by a computer implemented by a server, comprising: defining a plurality of wake words to be used as an interaction activation trigger for activating an interaction function of an electronic device; and requesting each wake word Setting a response information range, receiving from the electronic device a query including information on a particular wakeword used to activate the interactive function among the plurality of wakewords, for the particular wakeword A method of providing a voice-based service, comprising: configuring response information based on a corresponding desired response information range; and providing the configured response information to the electronic device as a response to the received query.

コンピュータと結合して前記音声基盤サービス提供方法をコンピュータに実行させるためにコンピュータで読み取り可能な記録媒体に格納された、コンピュータプログラムを提供する。   According to another aspect of the present invention, there is provided a computer program stored in a computer-readable recording medium for causing a computer to execute the method for providing voice-based services in combination with a computer.

前記音声基盤サービス提供方法をコンピュータに実行させるためのプログラムが記録されていることを特徴とする、コンピュータで読み取り可能な記録媒体を提供する。   According to another aspect of the present invention, there is provided a computer-readable recording medium having recorded thereon a program for causing a computer to execute the method for providing voice-based services.

コンピュータによって実現される電子機器の音声基盤サービス提供システムであって、コンピュータで読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサを含み、前記少なくとも1つのプロセッサは、前記電子機器の対話機能を活性化させるための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定するウェイクワード設定部、前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか1つの特定のウェイクワードが認識されると、前記対話機能を活性化させる音声処理部、および前記対話機能が活性化した状態で入力された音声クエリに対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する応答処理部を備える、音声基盤サービス提供システムを提供する。   A system for providing voice-based services of an electronic device implemented by a computer, comprising at least one processor implemented to execute computer readable instructions, the at least one processor interacting with the electronic device A wake word setting unit that defines a plurality of wake words used as an interaction activation trigger for activating a function, and sets a desired response information range for each wake word, the plurality of wake words in the voice interface of the electronic device A voice processing unit that activates the dialog function when any one of the specific wake words is recognized, and the specific wake for a voice query input with the dialog function activated. Provide response information based on the desired response information range corresponding to the word It includes a response processing unit, to provide a voice-based service providing system.

本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の例を示した図である。FIG. 1 illustrates an example of a service environment utilizing a voice based interface in accordance with one embodiment of the present invention. 本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の他の例を示した図である。FIG. 7 is a diagram illustrating another example of a service environment utilizing a voice-based interface according to an embodiment of the present invention. 本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。FIG. 5 illustrates an example of a cloud artificial intelligence platform in one embodiment of the present invention. 本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。It is a block diagram for demonstrating the internal structure of an electronic device and a server in one Embodiment of this invention. 本発明の一実施形態における、電子機器のプロセッサが含むことのできる構成要素の例を示した図である。FIG. 5 illustrates an example of a component that may be included in a processor of an electronic device in an embodiment of the present invention. 本発明の一実施形態における、電子機器が実行することのできる方法の例を示したフローチャートである。5 is a flowchart illustrating an example of a method that an electronic device may perform in an embodiment of the present invention. 本発明の一実施形態における、サービス対象が特定されたウェイクワードを説明するための例示図である。FIG. 6 is an exemplary view for explaining a wakeword for which a service target is identified according to an embodiment of the present invention. 本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示した図である。FIG. 6 illustrates an example of components that may be included in a processor of a server in an embodiment of the present invention. 本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。FIG. 5 is a flow chart illustrating an example of a method that the server may perform in an embodiment of the present invention.

以下、本発明の実施形態について、添付の図面を参照しながら詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the attached drawings.

本発明の実施形態に係る音声基盤サービス提供システムは、ユーザとの対話に基づいて動作するインタフェースを提供する電子機器によって実現されてよい。このとき、音声基盤サービス提供システムは、機器を活性化させるために2つ以上のウェイクワードを利用し、各ウェイクワードに応じて機器の動作を区分してよい。   The voice-based service providing system according to an embodiment of the present invention may be implemented by an electronic device that provides an interface that operates based on interaction with a user. At this time, the voice-based service providing system may use two or more wake words to activate the device, and may divide the operation of the device according to each wake word.

本発明の実施形態に係る音声基盤サービス提供方法は、上述した電子機器によって実行されてよい。このとき、電子機器には、本発明の一実施形態に係るコンピュータプログラムがインストールおよび駆動されてよく、電子機器は、駆動するコンピュータプログラムの制御にしたがって本発明の一実施形態に係る音声基盤サービス提供方法を実行してよい。上述したコンピュータプログラムは、コンピュータで実現される電子機器と結合して音声基盤サービス提供方法をコンピュータに実行させるために、コンピュータで読み取り可能な記録媒体に格納されてよい。   The voice-based service providing method according to an embodiment of the present invention may be performed by the electronic device described above. At this time, a computer program according to an embodiment of the present invention may be installed and driven in the electronic device, and the electronic device may provide voice-based service according to an embodiment of the present invention according to control of the computer program to be driven. You may carry out the method. The computer program described above may be stored in a computer readable recording medium in order to cause a computer to execute a voice based service providing method in combination with a computer-implemented electronic device.

図1は、本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の例を示した図である。図1の実施形態では、スマートホーム(smart home)やホームネットワークサービスのように宅内のデバイスを連結して制御する技術において、音声に基づいて動作するインタフェースを提供する電子機器100が、ユーザ110の発話によって受信した音声入力「電気を消して」を認識および分析し、宅内で電子機器100と内部ネットワークを介して繋がっている宅内照明機器120の電源を制御する例について示している。   FIG. 1 is a diagram showing an example of a service environment utilizing a voice-based interface in an embodiment of the present invention. In the embodiment of FIG. 1, in the technology of connecting and controlling devices in the home such as a smart home (smart home) and home network service, the electronic device 100 which provides an interface operating based on voice is the user 110 An example of recognizing and analyzing the voice input “turn off the electricity” received by speech and controlling the power supply of the indoor lighting device 120 connected to the electronic device 100 via the internal network in the home is shown.

例えば、宅内のデバイスは、上述した宅内照明機器120の他にも、テレビ、PC(Personal Computer)、周辺機器、エアコン、冷蔵庫、ロボット清掃機などのような家電製品はもちろん、水道、電気、冷暖房機器などのようなエネルギー消費装置、ドアロックや監視カメラなどのような保安機器など、オンライン上で連結して制御される多様なデバイスを含んでよい。また、内部ネットワークは、イーサネット(登録商標(Ethernet))、HomePNA、IEEE 1394のような有線ネットワーク技術や、ブルートゥース(登録商標(Bluetooth))、UWB(ultra Wide Band)、ジグビー(ZigBee)、Wireless 1394、Home RFのような無線ネットワーク技術などが活用されてよい。   For example, in addition to the in-home lighting device 120 described above, home-use devices include household appliances such as TVs, personal computers (PCs), peripheral devices, air conditioners, refrigerators, and robot cleaners, as well as water, electricity, and air conditioning. A variety of devices connected and controlled online may be included, such as energy consuming devices such as devices, security devices such as door locks and surveillance cameras, etc. Also, the internal network may be wired network technology such as Ethernet (registered trademark (Ethernet)), HomePNA, IEEE 1394, Bluetooth (registered trademark (Bluetooth)), UWB (ultra Wide Band), ZigBee, Wireless 1394 Wireless network technology such as Home RF may be utilized.

電子機器100は、宅内のデバイスのうちの1つであってよい。例えば、電子機器100は、宅内に備えられた人工知能スピーカやロボット清掃機などのようなデバイスのうちの1つであってよい。また、電子機器100は、スマートフォン(smart phone)、携帯電話、ナビゲーション、ノート型パンコン、デジタル放送用端末、PDA(Personal Digital Assistants)、PMP(Portable Multimedia Player)、タブレット、ゲームコンソール、ウェアラブルデバイス、IoT(internet of things)デバイス、VR(virtual reality)デバイス、AR(augmented reality)デバイスなどのようなユーザ110のモバイル機器であってもよい。このように、電子機器100は、ユーザ110の音声入力を受信して宅内のデバイスを制御するために宅内のデバイスと連結可能な機能を含む機器であれば、特に制限されることはない。また、実施形態によっては、上述したユーザ110のモバイル機器が宅内のデバイスとして含まれてもよい。   The electronic device 100 may be one of in-home devices. For example, the electronic device 100 may be one of devices such as an artificial intelligence speaker or a robot cleaner provided in a house. In addition, the electronic device 100 includes a smart phone (smart phone), a mobile phone, navigation, a notebook pancon, a terminal for digital broadcasting, a PDA (Personal Digital Assistants), a PMP (Portable Multimedia Player), a tablet, a game console, a wearable device, IoT It may be a mobile device of the user 110 such as an (internet of things) device, a virtual reality (VR) device, an augmented reality (AR) device or the like. As described above, the electronic device 100 is not particularly limited as long as it is a device including a function that can be connected to the in-home device in order to receive the voice input of the user 110 and control the in-home device. Also, depending on the embodiment, the mobile device of the user 110 described above may be included as an in-home device.

図2は、本発明の一実施形態における、音声基盤インタフェースを活用したサービス環境の他の例を示した図である。図2は、音声に基づいて動作するインタフェースを提供する電子機器100が、ユーザ110の発話によって受信した音声入力「今日の天気」を認識および分析し、外部ネットワークを介して外部サーバ210から今日の天気に関する情報を取得し、取得した情報を「今日の天気は・・・」のように音声で出力する例について示している。   FIG. 2 is a diagram showing another example of a service environment utilizing a voice-based interface in an embodiment of the present invention. FIG. 2 shows that the electronic device 100 providing an interface operating based on speech recognizes and analyzes the speech input “today's weather” received by the speech of the user 110, and transmits it from the external server 210 through the external network. An example of acquiring information on the weather and outputting the acquired information by voice as "Today's weather is ..." is shown.

例えば、外部ネットワークは、PAN(personal area network)、LAN(local area network)、CAN(campus area network)、MAN(metropolitan area network)、WAN(wide area network)、BBN(broadband network)、インターネットなどのネットワークのうちの1つ以上の任意のネットワークを含んでよい。   For example, the external network may be a personal area network (PAN), a local area network (LAN), a campus area network (CAN), a metropolitan area network (MAN), a wide area network (WAN), a broadband network (BBN), the Internet, etc. Any one or more of the networks may be included.

図2の実施形態でも、電子機器100は、宅内のデバイスのうちの1つであるか、ユーザ110のモバイル機器のうちの1つであってよく、ユーザ110の音声入力を受信して処理するための機能と、外部ネットワークを介して外部サーバ210に接続して外部サーバ210が提供するサービスやコンテンツをユーザ110に提供するための機能を含む機器であれば、特に制限されることはない。   Also in the embodiment of FIG. 2, the electronic device 100 may be one of the in-home devices or one of the mobile devices of the user 110, and receives and processes the voice input of the user 110. The device is not particularly limited as long as it is a device including a function to connect to the external server 210 via the external network and a function to provide the user 110 with a service or content provided by the external server 210.

このように、本発明の実施形態に係る電子機器100は、音声基盤インタフェースでユーザ110の発話によって受信される音声入力を含むユーザ命令を処理することのできる機器であれば、特に制限されなくてよい。例えば、電子機器100は、ユーザの音声入力を直接に認識および分析して音声入力に適した動作を実行することによってユーザ命令を処理してよいが、実施形態によっては、ユーザの音声入力に対する認識や認識された音声入力の分析、ユーザに提供される音声の合成などの処理を、電子機器100と連係する外部のプラットフォームで実行してもよい。   As described above, the electronic device 100 according to the embodiment of the present invention is not particularly limited as long as it is a device capable of processing user commands including voice input received by the speech of the user 110 at the voice-based interface. Good. For example, the electronic device 100 may process user instructions by directly recognizing and analyzing the user's voice input and performing an operation suitable for the voice input, but in some embodiments, the user's voice input is recognized Processing such as analysis of recognized speech input, synthesis of speech provided to the user, and the like may be performed on an external platform linked with the electronic device 100.

図3は、本発明の一実施形態における、クラウド人工知能プラットフォームの例を示した図である。図3は、電子機器310とクラウド人工知能プラットフォーム320(ブレイン(Brain))、およびコンテンツ・サービス330を示している。   FIG. 3 is a diagram showing an example of a cloud artificial intelligence platform in an embodiment of the present invention. FIG. 3 shows the electronics 310 and the cloud artificial intelligence platform 320 (Brain), and the content service 330.

一例として、電子機器310は、宅内に備えられるデバイスを意味してよく、少なくとも上述した電子機器100を含んでよい。このような電子機器310や電子機器310にインストールおよび駆動されるアプリケーション(以下、アプリとする)は、インタフェースコネクト340を介してクラウド人工知能プラットフォーム320と連係してよい。ここで、インタフェースコネクト340は、電子機器310や電子機器310にインストールおよび駆動されるアプリの開発のためのSDK(Software Development Kit)および/または開発文書を開発者に提供してよい。また、インタフェースコネクト340は、電子機器310や電子機器310にインストールおよび駆動されるアプリが、クラウド人工知能プラットフォーム320が提供する機能を活用することのできるAPI(Application Program Interface)を提供してよい。具体的な例として、開発者は、インタフェースコネクト340が提供するSDK(Software Development Kit)および/または開発文書を利用して開発した機器やアプリは、インタフェースコネクト340が提供するAPIを利用してクラウド人工知能プラットフォーム320が提供する機能を活用できるようになる。   As an example, the electronic device 310 may mean a device provided in a home, and may include at least the electronic device 100 described above. Such an electronic device 310 or an application installed and driven on the electronic device 310 (hereinafter referred to as an application) may be linked to the cloud artificial intelligence platform 320 via the interface connect 340. Here, the interface connect 340 may provide a developer with a software development kit (SDK) and / or a development document for developing an application installed and driven in the electronic device 310 or the electronic device 310. In addition, the interface connect 340 may provide an application program interface (API) that allows an application installed and driven in the electronic device 310 or the electronic device 310 to utilize a function provided by the cloud artificial intelligence platform 320. As a specific example, a developer may use an SDK (Software Development Kit) provided by Interface Connect 340 and / or a device or application developed using a development document using a cloud provided by Interface Connect 340. The functions provided by the artificial intelligence platform 320 can be utilized.

ここで、クラウド人工知能プラットフォーム320は、音声基盤のサービスを提供するための機能を提供してよい。例えば、クラウド人工知能プラットフォーム320は、受信した音声を認識し、出力する音声を合成するための音声処理モジュール321、受信した映像や動画を分析して処理するためのビジョン処理モジュール322、受信した音声に適した音声を出力するために適切な対話を決定するための対話処理モジュール323、受信した音声に適した機能を勧めるための推薦モジュール324、人工知能がデータ学習に基づいて文章単位で言語を翻訳するように支援するニューラル機械翻訳(Neural Machine Translation:NMT)325などのように、音声基盤サービスを提供するための多様なモジュールを含んでよい。   Here, the cloud artificial intelligence platform 320 may provide functionality to provide voice based services. For example, the cloud artificial intelligence platform 320 recognizes a received voice, and a voice processing module 321 for synthesizing an output voice, a vision processing module 322 for analyzing and processing a received video or video, and a received voice Dialog processing module 323 for determining the appropriate dialog to output a suitable voice, a recommendation module 324 for recommending a function suitable for the received voice, artificial intelligence uses language on a sentence basis based on data learning Various modules may be included to provide voice-based services, such as Neural Machine Translation (NMT) 325, which assists in translating.

例えば、図1および図2の実施形態において、電子機器100は、ユーザ110の音声入力をインタフェースコネクト340で提供するAPIを利用してクラウド人工知能プラットフォーム320に送信してよい。この場合、クラウド人工知能プラットフォーム320は、受信した音声入力を上述したモジュール321〜325を活用して認識および分析してよく、受信した音声入力に応じて適切な返答音声を合成して提供したり、適切な動作を推薦したりしてよい。   For example, in the embodiments of FIGS. 1 and 2, the electronic device 100 may transmit to the cloud artificial intelligence platform 320 using an API that provides the user 110 voice input at the interface connect 340. In this case, the cloud artificial intelligence platform 320 may recognize and analyze the received voice input using the above-described modules 321 to 325, and synthesize and provide an appropriate response voice according to the received voice input. , And may recommend appropriate action.

また、拡張キット350は、第三者コンテンツ開発者または会社がクラウド人工知能プラットフォーム320を基盤とした新たな音声基盤機能を実現することのできる開発キットを提供してよい。例えば、図2の実施形態において、電子機器100は、ユーザ110の音声入力を外部サーバ210に送信してよく、外部サーバ210は、拡張キット350で提供されるAPIを利用してクラウド人工知能プラットフォーム320に音声入力を送信してよい。この場合、上述と同じように、クラウド人工知能プラットフォーム320は、受信した音声入力を認識および分析して適切な返答音声を合成して提供したり、音声入力によって処理されなければならない機能に対する推薦情報を外部サーバ210に提供したりしてよい。一例として、図2において、外部サーバ210は、音声入力「今日の天気」をクラウド人工知能プラットフォーム320に送信してよく、クラウド人工知能プラットフォーム320から音声入力「今日の天気」の認識によって抽出されるキーワード「今日の」および「天気」を受信したとする。この場合、外部サーバ210は、キーワード「今日の」および「天気」に基づいて「今日の天気は・・・」のようなテキスト情報を生成し、クラウド人工知能プラットフォーム320に生成されたテキスト情報を再送してよい。このとき、クラウド人工知能プラットフォーム320は、テキスト情報を音声で合成して外部サーバ210に提供してよい。外部サーバ210は、合成された音声を電子機器100に送信してよく、電子機器100は、合成された音声「今日の天気は・・・」をスピーカから出力することにより、ユーザ110から受信した音声入力「今日の天気」が処理されてよい。このとき、電子機器100は、ユーザとの対話に基づいてデバイス動作やコンテンツ提供を実施するためのものである。   In addition, the extension kit 350 may provide a development kit that allows a third party content developer or company to realize new voice infrastructure functions based on the cloud artificial intelligence platform 320. For example, in the embodiment of FIG. 2, the electronic device 100 may transmit the voice input of the user 110 to the external server 210, and the external server 210 utilizes the API provided by the expansion kit 350 to provide a cloud artificial intelligence platform. An audio input may be sent to 320. In this case, as described above, the cloud artificial intelligence platform 320 recognizes and analyzes the received voice input and synthesizes and provides an appropriate response voice, or provides recommendation information for functions to be processed by the voice input. May be provided to the external server 210. As an example, in FIG. 2, the external server 210 may send the speech input "today's weather" to the cloud artificial intelligence platform 320, which is extracted from the cloud artificial intelligence platform 320 by recognizing the speech input "today's weather" Suppose that the keywords "Today's" and "Weather" are received. In this case, the external server 210 generates text information such as "Today's weather is ..." based on the keywords "Today's" and "Weather", and the text information generated by the cloud artificial intelligence platform 320 is May be resent. At this time, the cloud artificial intelligence platform 320 may synthesize the text information by speech and provide it to the external server 210. The external server 210 may transmit the synthesized voice to the electronic device 100, and the electronic device 100 is received from the user 110 by outputting the synthesized voice "Today's weather ..." from the speaker Voice input "today's weather" may be processed. At this time, the electronic device 100 is for implementing device operation and content provision based on the interaction with the user.

図4は、本発明の一実施形態における、電子機器およびサーバの内部構成を説明するためのブロック図である。図4の電子機器410は、上述した電子機器100に対応してよく、サーバ420は、上述した外部サーバ210またはクラウド人工知能プラットフォーム320を実現する1つのコンピュータ装置に対応してよい。   FIG. 4 is a block diagram for explaining an internal configuration of the electronic device and the server in the embodiment of the present invention. The electronic device 410 of FIG. 4 may correspond to the electronic device 100 described above, and the server 420 may correspond to one computer device that implements the external server 210 or the cloud artificial intelligence platform 320 described above.

電子機器410とサーバ420は、メモリ411、421、プロセッサ412、422、通信モジュール413、423、および入力/出力インタフェース414、424を含んでよい。メモリ411、421は、コンピュータで読み取り可能な記録媒体であって、RAM(random access memory)、ROM(read only memory)、ディスクドライブ、SSD(solid state drive)、フラッシュメモリ(flash memory)などのような永久大容量記憶装置(permanent mass storage device)を含んでよい。ここで、ROM、SSD、フラッシュメモリ、ディスドライブなどのような永久大容量記憶装置は、メモリ411、421とは区分される別の永久格納装置として電子機器410やサーバ420に含まれてもよい。また、メモリ411、421には、オペレーティングシステムと、少なくとも1つのプログラムコード(一例として、電気機器410にインストールされ、特定のサービスの提供のために電子機器410で駆動するアプリケーションなどのためのコード)が格納されてよい。このようなソフトウェア構成要素は、メモリ411、421とは別のコンピュータで読み取り可能な記録媒体からロードされてよい。このような別のコンピュータで読み取り可能な記録媒体は、フロッピー(登録商標)ドライブ、ディスク、テープ、DVD/CD−ROMドライブ、メモリカードなどのコンピュータで読み取り可能な記録媒体を含んでよい。他の実施形態において、ソフトウェア構成要素は、コンピュータで読み取り可能な記録媒体ではない通信モジュール413、423を通じてメモリ411、421にロードされてもよい。例えば、少なくとも1つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システムがネットワーク430を介して提供するファイルによってインストールされるコンピュータプログラム(一例として、上述したアプリケーション)に基づいて電子機器410のメモリ411にロードされてよい。   The electronic device 410 and the server 420 may include memories 411, 421, processors 412, 422, communication modules 413, 423, and input / output interfaces 414, 424. The memories 411 and 421 are computer readable recording media such as random access memory (RAM), read only memory (ROM), disk drive, solid state drive (SSD), flash memory, and the like. Permanent mass storage device. Here, a permanent mass storage device such as a ROM, an SSD, a flash memory, a disk drive, etc. may be included in the electronic device 410 or the server 420 as another permanent storage device divided from the memories 411 and 421. . In addition, the memory 411, 421 includes an operating system and at least one program code (for example, a code for an application installed on the electric device 410 and driven by the electronic device 410 for providing a specific service, etc.) May be stored. Such software components may be loaded from a computer readable recording medium separate from the memories 411, 421. Such other computer readable recording media may include computer readable recording media such as floppy drives, disks, tapes, DVD / CD-ROM drives, memory cards and the like. In other embodiments, software components may be loaded into the memory 411, 421 through the communication module 413, 423 which is not a computer readable recording medium. For example, at least one program may be an electronic device 410 based on a computer program (for example, the application described above) installed by a file provided by a file distribution system that distributes a developer or an application installation file via the network 430. May be loaded into the memory 411 of

プロセッサ412、422は、基本的な算術演算、論理演算、および入力/出力演算を実行することにより、コンピュータプログラムの命令を処理するように構成されてよい。命令は、メモリ411、421または通信モジュール413、423によって、プロセッサ412、422に提供されてよい。例えば、プロセッサ412、422は、メモリ411、421のような記録装置に格納されたプログラムコードにしたがって受信される命令を実行するように構成されてよい。   Processors 412, 422 may be configured to process computer program instructions by performing basic arithmetic operations, logical operations, and input / output operations. The instructions may be provided to the processor 412, 422 by the memory 411, 421 or the communication module 413, 423. For example, the processors 412, 422 may be configured to execute instructions received in accordance with program code stored in a recording device, such as the memories 411, 421.

通信モジュール413、423は、ネットワーク430を介して電子機器410とサーバ420とが互いに通信するための機能を提供してもよいし、電子機器410および/またはサーバ420が他の電子機器または他のサーバと通信するための機能を提供してもよい。一例として、電子機器410のプロセッサ412がメモリ411のような記録装置に格納されたプログラムコードにしたがって生成した要求が、通信モジュール413の制御にしたがってネットワーク430を介してサーバ420に伝達されてよい。これとは逆に、サーバ420のプロセッサ422の制御にしたがって提供される制御信号や命令、コンテンツ、ファイルなどが、通信モジュール423とネットワーク430を経て電子機器410の通信モジュール413を通じて電子機器410に受信されてもよい。例えば、通信モジュール413を通じて受信したサーバ420の制御信号や命令、コンテンツ、ファイルなどは、プロセッサ412やメモリ411に伝達されてよく、コンテンツやファイルなどは、電子機器410がさらに含むことのできる格納媒体(上述した永久格納装置)に格納されてよい。   The communication module 413, 423 may provide a function for the electronic device 410 and the server 420 to communicate with each other via the network 430, and the electronic device 410 and / or the server 420 may be other electronic devices or other It may provide functionality to communicate with the server. As an example, a request generated by the processor 412 of the electronic device 410 according to the program code stored in the recording device such as the memory 411 may be transmitted to the server 420 via the network 430 according to the control of the communication module 413. Conversely, control signals, instructions, contents, files, etc. provided under the control of the processor 422 of the server 420 are received by the electronic device 410 through the communication module 423 and the network 430 and the communication module 413 of the electronic device 410. It may be done. For example, control signals, commands, contents, files and the like of the server 420 received through the communication module 413 may be transmitted to the processor 412 and the memory 411, and the contents and files may be further included in the electronic device 410. (It may be stored in the above-mentioned permanent storage device).

入力/出力インタフェース414は、入力/出力装置415とのインタフェースのための手段であってよい。例えば、入力装置は、キーボード、マウス、マイクロフォン、カメラなどの装置を含んでよく、出力装置は、ディスプレイ、スピーカ、ハプティックフィードバックデバイス(haptic feedback device)などのような装置を含んでよい。他の例として、入力/出力インタフェース414は、タッチスクリーンのように入力と出力のための機能が1つに統合された装置とのインタフェースのための手段であってもよい。入力/出力装置415は、電子機器410と1つの装置で構成されてもよい。また、サーバ420の入力/出力インタフェース424は、サーバ420と連結するかサーバ420が含むことのできる入力または出力のための装置(図示せず)とのインタフェースのための手段であってもよい。より具体的な例として、電子機器410のプロセッサ412がメモリ411にロードされたコンピュータプログラムの命令を処理するにあたり、サーバ420や他の電子機器が提供するデータを利用して構成されるサービス画面やコンテンツが、入力/出力インタフェース414を経てディスプレイに表示されてよい。   Input / output interface 414 may be a means for interfacing with input / output device 415. For example, the input device may include devices such as a keyboard, a mouse, a microphone, a camera and the like, and the output device may include devices such as a display, a speaker, a haptic feedback device and the like. As another example, the input / output interface 414 may be a means for interfacing with a device such as a touch screen in which functions for input and output are integrated. The input / output device 415 may be configured of the electronic device 410 and one device. Also, the input / output interface 424 of the server 420 may be a means for interfacing with the server 420 or with an input or output device (not shown) that the server 420 can include. As a more specific example, when the processor 412 of the electronic device 410 processes the instructions of the computer program loaded in the memory 411, a service screen or the like configured using data provided by the server 420 or another electronic device Content may be displayed on a display via input / output interface 414.

また、他の実施形態において、電子機器410およびサーバ420は、図4に示される構成要素よりも少ない又は多い構成要素を含んでもよい。大部分の従来技術による構成要素は本願では詳細には説明されない。電子機器410は、例えば、上述した入力/出力装置415のうちの少なくとも一部を含むように実現されてもよいし、トランシーバ、GPS(Global Positioning System)モジュール、カメラ、各種センサ、データベースなどのような他の構成要素をさらに含んでもよい。より具体的な例として、電子機器410がスマートフォンである場合、一般的にスマートフォンが含んでいる加速度センサやジャイロセンサ、動作センサ、カメラモジュール、物理的な各種ボタン、タッチパネルを利用したボタン、入力/出力ポート、振動のための振動器などのような多様な構成要素3、電子機器410にさらに含まれるように実現されてよい。   Also, in other embodiments, the electronic device 410 and the server 420 may include fewer or more components than those shown in FIG. Most prior art components are not described in detail herein. The electronic device 410 may be realized to include, for example, at least a part of the input / output device 415 described above, and may be a transceiver, a GPS (Global Positioning System) module, a camera, various sensors, a database, etc. May also include other components. As a more specific example, when the electronic device 410 is a smartphone, an acceleration sensor or a gyro sensor generally included in the smartphone, an operation sensor, a camera module, physical various buttons, a button using a touch panel, an input / input It may be realized to be further included in various components 3 such as an output port, a vibrator for vibration, etc., and an electronic device 410.

本実施形態において、電子機器410は、ユーザの音声入力を受信するためのマイクを入力/出力装置415として基本的に含んでよく、ユーザの音声入力に対応する返答音声やオーディオコンテンツのような音を出力するためのスピーカを入力/出力装置415としてさらに含んでよい。   In this embodiment, the electronic device 410 may basically include, as the input / output device 415, a microphone for receiving the user's voice input, and sounds such as response voice and audio content corresponding to the user's voice input May be further included as an input / output device 415.

このような音声インタフェースを提供する電子機器410は、ウェイクワードによって活性化し、活性化状態でユーザが発話する音声入力をクエリとして受信するようになる。活性化はアクティベート又はイネーブル等と言及されてもよく、非活性化はデアクティベート又はディセーブル等と言及されてよい。電子機器410の活性化状態で入力された音声クエリはサーバ420に伝達され、音声クエリに適合するようにサーバ420がデータを検索して返答情報を構成し、最終的には返答情報が電子機器410で出力される。   The electronic device 410 providing such an audio interface is activated by the wakeword and receives an audio input uttered by the user in the activated state as a query. Activation may be referred to as activation or enable, etc., and deactivation may be referred to as deactivate or disable, etc. The voice query input in the activated state of the electronic device 410 is transmitted to the server 420, and the server 420 searches data to construct response information so as to conform to the voice query, and finally the response information is the electronic device. It is output at 410.

音声インタフェースの場合、音声クエリに対応する結果を音声出力によって提供するため、出力することのできる情報が極めて限定的であり、より選別された情報を提供する必要がある。通常の選別過程は、例えば、検索されたデータの上位結果のうちの極一部だけを提供する形態であることから、ユーザのクエリに適合する情報を判別する負担が大きく、その結果も個人の好みによって大きく左右される。   In the case of the voice interface, since the result corresponding to the voice query is provided by voice output, the information that can be output is extremely limited, and it is necessary to provide more sorted information. Since the usual sorting process is, for example, in the form of providing only a small portion of the high-order results of the retrieved data, the burden of determining the information conforming to the user's query is heavy, and the result is also an individual's It depends on your preference.

これを解決するために、ボイス認証(voice ID)を機械学習に基づいてデータ化する方法、ユーザの関心事を事前に設定する方法、過去の記録(例えば、利用記録又は利用履歴)に基づいてユーザの趣向を把握する方法などによって個人化(即ち、個別的なカスタマイズ)を達成してよい。しかし、このような個人化方法は、学習過程や設定過程が別途必要であったり、長期間の利用記録が必要であるという問題を抱えており、さらには個人化された情報の流出によってプライバシーに関する問題が懸念されることもある。   In order to solve this, a method of digitizing voice authentication (voice ID) based on machine learning, a method of setting in advance the user's interest, and based on a past record (for example, usage record or usage history) Personalization (i.e., individual customization) may be achieved, such as by a method of capturing user preferences. However, such personalization methods have the problem that a learning process and a setting process are separately required, and long-term usage records are required, and furthermore, privacy is related by the outflow of personalized information. Problems may be of concern.

本発明では、別途の個人化過程を経なくても、機器の活性化のためのウェイクワードを、ユーザの関心分野のサービスに限定するための用途として利用することができる。本発明に係る電子機器410は、サービス対象のカテゴリを特定することのできる複数のウェイクワードが設定された状態で、ユーザが機器活性化のために発話したウェイクワードに基づき、該当のウェイクワードに対応するカテゴリのサービスを提供することができる。   In the present invention, the wakeword for activating the device can be used as an application for limiting the service to the user's area of interest, without going through a separate personalization process. The electronic device 410 according to the present invention, in a state in which a plurality of wake words capable of specifying a category to be serviced is set, determines the corresponding wake word based on the wake word spoken by the user for device activation. A corresponding category of service can be provided.

図5は、本発明の一実施形態における、電子機器のプロセッサが含むことのできる構成要素の例を示したブロック図であり、図6は、本発明の一実施形態における、電子機器が実行することのできる方法の例を示したフローチャートである。   FIG. 5 is a block diagram illustrating an example of components that may be included in a processor of an electronic device according to an embodiment of the present invention, and FIG. 6 is executed by the electronic device according to an embodiment of the present invention. FIG. 6 is a flow chart illustrating an example of a possible method.

本実施形態に係る電子機器410には、音声基盤サービス提供システムが構成されてよい。音声基盤サービス提供システムは、PC基盤のプログラムまたはモバイル端末専用のアプリケーションで構成されてよい。本実施形態における音声基盤サービス提供システムは、独立的に動作するプログラム形態で実現されるか、あるいは特定のアプリケーションのイン−アプリ(in−app)形態で構成されて前記特定アプリケーション上で動作可能なように実現されてよい。   A voice-based service providing system may be configured in the electronic device 410 according to the present embodiment. The voice based service providing system may be configured as a PC based program or an application dedicated to a mobile terminal. The voice-based service providing system according to the present embodiment may be realized in the form of an independently operating program, or may be configured in an in-app form of a specific application and operable on the specific application. May be realized.

例えば、電子機器410にインストールされたアプリケーションが提供する命令に基づき、電子機器410に実現された音声基盤サービス提供システムは、音声基盤サービス提供方法を実行してよい。図6に係る音声基盤サービス提供方法を実行するために、電子機器410のプロセッサ412は、構成要素として、図5に示すように、ウェイクワード設定部510、音声処理部520、クエリ伝達部、および応答処理部を備えてよい。実施形態によっては、プロセッサ412の構成要素は、選択的にプロセッサ412に含まれても除外されてもよい。また、実施形態によっては、プロセッサ412の構成要素は、プロセッサ412の機能の表現のために分離されても併合されてもよい。   For example, based on instructions provided by an application installed in the electronic device 410, the voice-based service providing system implemented in the electronic device 410 may execute the voice-based service providing method. In order to execute the voice-based service providing method according to FIG. 6, the processor 412 of the electronic device 410 includes the wakeword setting unit 510, the voice processing unit 520, the query transfer unit, and the components as shown in FIG. A response processor may be provided. In some embodiments, components of processor 412 may optionally be included or excluded from processor 412. Also, in some embodiments, the components of processor 412 may be separate or merged to represent the functionality of processor 412.

このようなプロセッサ412およびプロセッサ412の構成要素は、図6の音声基盤サービス提供方法が含む段階610〜650を実行するように電子機器410を制御してよい。例えば、プロセッサ412およびプロセッサ412の構成要素は、メモリ411が含むオペレーティングシステムのコードと、少なくとも1つのプログラムのコードによる命令(instruction)を実行するように実現されてよい。   The processor 412 and the components of the processor 412 may control the electronic device 410 to execute the steps 610 to 650 included in the voice-based service providing method of FIG. 6. For example, processor 412 and components of processor 412 may be implemented to execute instructions in code of the operating system that memory 411 includes and code of at least one program.

ここで、プロセッサ412の構成要素は、電子機器410に格納されたプログラムコードが提供する命令(一例として、電子機器410で駆動するアプリケーションが提供する命令)にしたがってプロセッサ412によって実行される、プロセッサ412の互いに異なる機能(different functions)の表現であってよい。例えば、電子機器410がユーザ発話による音声入力を処理するように上述した命令にしたがって電子機器410を制御するプロセッサ412の機能的表現として、音声処理部520が利用されてよい。   Here, the components of the processor 412 are executed by the processor 412 in accordance with instructions provided by program code stored in the electronic device 410 (for example, instructions provided by an application driven by the electronic device 410). It may be a representation of different functions of For example, voice processor 520 may be utilized as a functional representation of processor 412 that controls electronic device 410 according to the instructions described above such that electronic device 410 processes voice input by user speech.

段階610で、プロセッサ412は、電子機器410の制御と関連する命令がロードされたメモリ411から必要な命令を読み取ってよい。この場合、前記読み取った命令には、プロセッサ412が以下で説明される段階620〜650を実行するように制御するための命令が含まれてよい。   At step 610, the processor 412 may read the necessary instructions from the memory 411 into which the instructions associated with the control of the electronic device 410 have been loaded. In this case, the read instruction may include an instruction to control the processor 412 to execute steps 620 to 650 described below.

段階620で、ウェイクワード設定部510は、電子機器410の対話機能を活性化させるための対話活性トリガとして使用されるウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定してよい。本発明において、ウェイクワードは、電子機器410の対話機能を活性化させるための対話活性トリガとして使用されると同時に、ユーザが希望するサービス対象である希望返答情報範囲を特定するための用途として使用される。ウェイクワードは、ユーザを対象に提供可能なサービス対象に対し、各カテゴリ別に定義されて設定されてよく、ユーザによって任意で設定されてもよい。希望返答情報範囲とは、サービス対象、すなわち、情報を検索するための範囲を特定するものであり、本明細書ではサービス対象を区分するカテゴリを代表的な例として説明する。   In operation 620, the wakeword setting unit 510 may define a wakeword to be used as an interaction activation trigger for activating the interaction function of the electronic device 410, and set a desired response information range for each wakeword. In the present invention, the wake word is used as an interaction activation trigger for activating the interaction function of the electronic device 410, and at the same time as an application for specifying a desired response information range which is a service object desired by the user. Be done. The wake words may be defined and set for each category for the service targets that can be provided to the user, and may be set arbitrarily by the user. The desired response information range specifies a service target, that is, a range for searching information, and in this specification, a category for dividing the service target will be described as a representative example.

図7を参照すると、複数のウェイクワード701が定義されており、各ウェイクワード701には、サービス対象のカテゴリ702、言語703、追加検索語704が特定されている。ウェイクワード設定部510(図5)は、ユーザによる定義によって図7に示されるようなウェイクワード701、カテゴリ702、言語703、追加検索語704を設定してよく、以後に追加、修正、削除などが可能な編集機能を提供してよい。例えば、図7に示すように、カテゴリを特定せずにサービス全体を対象とする基本ウェイクワードは「シリ」として設定され(この場合、カテゴリは「All」として設定される)、「野球」というカテゴリを対象とするウェイクワードは「野球博士」として設定され、「料理」というカテゴリを対象として検索語に追加検索語(「料理法」または「レシピ」)を追加するウェイクワードは「シェフ」として設定され、英語コンテンツだけに限定するウェイクワードは「コニー」として設定されてもよい。、このように多様なウェイクワード701により、情報サービスの分野を示すカテゴリ702、提供される情報の言語を示す言語703、情報検索時に追加で使用される検索語を示す追加検索語704が特定されてよい。ウェイクワード701は、サービスを利用するすべてのユーザに同じように適用される公用語であってよいが、他の例としては、ユーザが頻繁に利用したり関心を持っているサービス対象には任意の用語が直接的に指定されることも可能である。ユーザがサービスを受けたい情報のカテゴリ(例えば、育児情報は「ジェーンママ」)または言語(例えば、中国語コンテンツを望む場合は「ニーハオ」)に対して、任意のウェイクワード701が設定されてもよい。図に示されてはいないが、所望するコンテンツの種類(イメージ、動画、地図など)、コンテンツソース(グループ、ブログ、特定のウェブサイトなど)、検索日(ここ最近1週間以内、2002年6月など)などを限定することも可能である。さらに、ウェイクワードを2つ以上に区分することで、サービス利用者や年齢層を区分することも可能である。例えば、「ジェームス」は大人の利用者を対象とし、「ブラウン」は子供の利用者を対象としてよい。すなわち、各ウェイクワードにより、サービス対象だけではなく、サービスの利用者層を特定することも可能である。共通で事前に定義されるかユーザによって直接設定されたウェイクワード701および各ウェイクワード701のサービス対象カテゴリ702は、電子機器410とサーバ420上に格納され、相互連動によってサービス対象を区分するために利用されてよい。ウェイクワード701は、電子機器410とサーバ420上に音声形態や文字値などで搭載されてよい。   Referring to FIG. 7, a plurality of wake words 701 are defined, and in each wake word 701, a category 702 to be served, a language 703, and an additional search word 704 are specified. The wake word setting unit 510 (FIG. 5) may set the wake word 701, the category 702, the language 703, and the additional search word 704 as shown in FIG. May provide an editable function. For example, as shown in FIG. 7, the basic wakeword targeting the entire service without specifying the category is set as "Siri" (in this case, the category is set as "All"), and "baseball" is called. The wake word for the category is set as "Dr. Baseball", and the wake word for adding an additional search term ("Cooking method" or "Recipe") to the search word for the category "Cooking" as "Chef" The wake word set and limited to only English content may be set as "Connie." Thus, various wake words 701 identify a category 702 indicating the field of information service, a language 703 indicating the language of information to be provided, and an additional search term 704 indicating a search term additionally used at the time of information search. You may The wake word 701 may be an official language that applies equally to all users who use the service, but as another example, it may be any service target that the user frequently uses or is interested in It is also possible that the term is directly specified. Even if an optional wake word 701 is set for the category of information that the user wants to receive service (for example, child care information is "Jane mom") or a language (for example, "ne Hao" if Chinese content is desired) Good. Although not shown in the figure, the type of content desired (image, video, map, etc.), content source (group, blog, specific website, etc.), search date (within the last week, June 2002) Etc. can also be limited. Furthermore, it is also possible to divide service users and age groups by dividing wake words into two or more. For example, "James" may be for adult users and "Brown" may be for children users. That is, each wake word can specify not only the service target but also the user layer of the service. A common, predefined or user-defined wakeword 701 and service target category 702 of each wakeword 701 are stored on the electronic device 410 and the server 420 and are used to distinguish service targets by interworking. May be used. The wake word 701 may be mounted on the electronic device 410 and the server 420 in an audio form, a character value, or the like.

再び図6において、段階630で、音声処理部520は、サービス対象のカテゴリを特定することのできる複数のウェイクワードのうちのいずれか1つの特定のウェイクワードが認識されると、電子機器410の対話機能を活性化させてよい。音声処理部520は、電子機器410の対話機能が非活性化の状態で、音声インタフェース(例えば、スピーカ)に受信された音声入力が複数のウェイクワードのうちのいずれか1つのウェイクワードに該当する場合、対話機能を自動で活性化させてよい。このとき、音声活性化部520は、音声インタフェースに受信された音声入力に対して雑音除去などの前処理過程を行った後、前処理された音声がウェイクワードに該当するかを識別してよい。   Referring back to FIG. 6, in operation 630, the voice processing unit 520 detects the wake of one of the plurality of wake words that can identify the category of the service target. The interactive function may be activated. The audio processing unit 520 is configured such that the audio input received by the audio interface (for example, a speaker) corresponds to any one wake word among the plurality of wake words when the interactive function of the electronic device 410 is inactivated. If so, the interactive function may be activated automatically. At this time, the voice activation unit 520 may identify whether the preprocessed voice corresponds to a wakeword after performing a preprocessing process such as noise removal on the voice input received by the voice interface. .

段階640で、クエリ伝達部530は、電子機器410の対話機能が活性化した状態で音声インタフェースに受信された音声入力に対し、対話機能の活性化に利用された特定のウェイクワードに対応する希望返答情報範囲を含むクエリを構成してサーバ420に伝達してよい。言い換えれば、クエリ伝達部530は、音声インタフェースに受信された音声入力に対し、サービス対象が対話機能の活性化に利用された特定のウェイクワードに対応するカテゴリに特定されたクエリを構成してサーバ420に伝達してよい。一例として、クエリ伝達部530は、対話機能が活性化した状態で受信された音声入力を、特定のウェイクワードに関する情報と共にサービス要請のためのクエリとして伝達してよい。このとき、クエリ伝達部530は、音声インタフェースに受信された特定のウェイクワードと特定のウェイクワードに続いて受信された音声入力を、音声信号形態をそのままクエリとして構成してもよいし、あるいは音声インタフェースに受信された音声信号を音声認識技術によってテキスト化した文字値をクエリとして構成してもよい。クエリ伝達部530は、特定のウェイクワードとウェイクワード後の音声入力をサーバ420に同時に伝達してよく、あるいは順に伝達することも可能である。サービス要請のためのクエリは、ユーザが要請しようとするサービス対象が限定されてよく、これは、ユーザが利用したウェイクワードに対応するカテゴリに特定されてよい。電子機器410からサーバ420に伝達されるクエリには、ユーザが利用したウェイクワード自体や識別コードが含まれるか、あるいはユーザが利用したウェイクワードに対応するカテゴリ情報などが含まれてよい。例えば図7のウェイクワードの例の場合において、ユーザがウェイクワード「シリ」を利用しながら「シリ、今日のプロ野球の結果は?」のように発話した場合には、サービス対象が限定されていないクエリがサーバ420に伝達される一方、「野球博士、今日のプロ野球の結果は?」のように発話した場合には、サービス対象のカテゴリが「野球」に特定されたクエリがサーバ420に伝達されてよい。   In operation 640, the query transfer unit 530 may respond to a specific wake word used to activate the interactive function for voice input received by the voice interface with the interactive function of the electronic device 410 activated. The query including the reply information range may be configured and communicated to server 420. In other words, the query transfer unit 530 configures the query specified in the category corresponding to the specific wake word for which the service target is used for activating the interactive function, in response to the voice input received by the voice interface, It may be communicated to 420. As an example, the query transfer unit 530 may transfer voice input received with the interactive function activated as a query for a service request along with information on a specific wakeword. At this time, the query transfer unit 530 may configure the particular wakeword received by the voice interface and the voice input received following the particular wakeword as the query of the voice signal form as it is, or Character values obtained by converting speech signals received by the interface into text by speech recognition technology may be configured as queries. The query transfer unit 530 may simultaneously transmit the wake word and the voice input after the wake word to the server 420 or may transmit them in order. The query for the service request may be limited to the service target that the user intends to request, and this may be specified in the category corresponding to the wakeword used by the user. The query transmitted from the electronic device 410 to the server 420 may include the wakeword itself or the identification code used by the user, or may include category information corresponding to the wakeword used by the user. For example, in the case of the wake word example of FIG. 7, when the user utters as "Siri, what is the result of today's professional baseball?" While using the wake word "Siri", the service target is limited If there is no query transmitted to the server 420, but uttered like "Dr. baseball, what is the result of professional baseball today?", The query in which the category of service target is specified as "baseball" is sent to the server 420. It may be transmitted.

段階650で、応答処理部540は、サーバ420からクエリに対する応答として、ユーザが利用したウェイクワードに対応する希望返答情報範囲に基づいた返答情報、すなわち、対話機能の活性化に利用された特定のウェイクワードに対応するカテゴリのサービス情報を含む返答情報を受信して出力してよい。サーバ420は、電子機器410のユーザが機器の活性化に利用したウェイクワードの特徴に符号するサービス情報を、他のサービスよりも高い優先順位で、検索した結果を返答情報として提供してよく、応答処理部540は、サーバ420から提供された返答情報を音声インタフェースで出力してよい。言い換えれば、本発明では、サービスを特定するための複雑な個人化過程を経なくても、機器の活性化に利用されたウェイクワードだけでサービス対象を特定することができ、ウェイクワードによって特定されたサービスをより高い優先順位として、検索した返答情報を提供することができる。このとき、ウェイクワードによってサービスの利用者層が特定されていた場合、サーバ420が利用者層に対応する返答情報を提供してもよいし、あるいは応答処理部540が利用者層に適した出力形態によって返答情報を出力してもよい。例えば、子供の利用者には、大人の利用者とは異なるトーンの声で返答情報を出力してよく、音声インタフェースから発話される返答文章の形式も子供の水準に合うように生成されてよい。したがって、電子機器410の活性化に利用されたウェイクワードによってサービス対象が特定されることにより、同じクエリ(即ち、ウェイクワード以降の質問内容が同じ)であったとしても、提供される情報がウェイクワードごとに異なるようになり、これによってユーザが別途の設定過程を経なくても、個人の関心事や年齢層に合った情報を得ることができるようになる。また、応答処理部540は、クエリに対する応答として受信した返答情報を音声インタフェースから音声で出力する他にも、映像やその他の形態で出力することも可能であり、このような返答情報には、視覚的、聴覚的、触覚的出力などが可能な互いに異なる情報が含まれてよい。   In step 650, the response processing unit 540, as a response to the query from the server 420, response information based on the desired response information range corresponding to the wakeword used by the user, that is, the specific information used for activating the interactive function. The reply information including the service information of the category corresponding to the wake word may be received and output. The server 420 may provide the service information encoded with the feature of the wake word used by the user of the electronic device 410 for activation of the device, as a response, the result of the search with higher priority than other services. The response processing unit 540 may output the response information provided from the server 420 by using a voice interface. In other words, according to the present invention, it is possible to identify the service target only by the wake word used for activating the device without the complicated personalization process for identifying the service, and the wake word is specified by the wake word. It is possible to provide the retrieved response information with higher priority to the service. At this time, when the user layer of the service is specified by the wake word, the server 420 may provide the response information corresponding to the user layer, or the response processing unit 540 may output the information suitable for the user layer. The response information may be output depending on the form. For example, the child user may output the response information in a voice different from that of the adult user, and the form of the response sentence uttered from the voice interface may be generated to meet the child's level. . Therefore, by specifying the service target by the wake word used to activate the electronic device 410, the provided information will wake even if the same query (that is, the query content after the wake word is the same). Each word is different, which allows the user to obtain information suitable for personal interests and age groups without having to go through a separate setting process. Further, the response processing unit 540 can also output the received response information as a response to the query in the form of video and other forms in addition to voice output from the voice interface, and such response information can be Different information may be included, such as visual, auditory, tactile output etc.

図8は、本発明の一実施形態における、サーバのプロセッサが含むことのできる構成要素の例を示した図であり、図9は、本発明の一実施形態における、サーバが実行することのできる方法の例を示したフローチャートである。   FIG. 8 is a diagram showing an example of components that can be included in a processor of a server in an embodiment of the present invention, and FIG. 9 is a server that can be executed in an embodiment of the present invention 3 is a flow chart illustrating an example of a method.

本実施形態に係るサーバ420には、音声基盤サービス提供システムが構成されてよい。サーバ420はクライアントである電子機器410を対象に音声基盤のサービスを提供するものであり、電子機器410から受信したサービス要請に対する返答情報を提供してよい。   A voice-based service providing system may be configured in the server 420 according to the present embodiment. The server 420 provides voice-based services to the client electronic device 410, and may provide response information to the service request received from the electronic device 410.

図9に係る音声基盤サービス提供方法を実行するために、サーバ420のプロセッサ422は、構成要素として、図8に示すように、情報構成部810および情報提供部820を備えてよい。実施形態によっては、プロセッサ422の構成要素は、選択的にプロセッサ422に含まれても除外されてもよい。また、実施形態によっては、プロセッサ422の構成要素は、プロセッサ422の機能の表現のために分離されても併合されてもよい。   In order to execute the voice-based service providing method according to FIG. 9, the processor 422 of the server 420 may include an information configuration unit 810 and an information providing unit 820 as components as shown in FIG. In some embodiments, components of processor 422 may optionally be included or excluded from processor 422. Also, in some embodiments, the components of processor 422 may be separate or merged to represent the functionality of processor 422.

このようなプロセッサ422およびプロセッサ422の構成要素は、図9の音声基盤サービス提供方法が含む段階910〜930を実行するように電子機器410を制御してよい。例えば、プロセッサ422およびプロセッサ422の構成要素は、メモリ421が含むオペレーティングシステムのコードと少なくとも1つのプログラムのコードによる命令を実行するように実現されてよい。   The processor 422 and the components of the processor 422 may control the electronic device 410 to execute steps 910 to 930 included in the voice-based service providing method of FIG. 9. For example, the processor 422 and the components of the processor 422 may be implemented to execute instructions according to the code of the operating system that the memory 421 includes and the code of the at least one program.

ここで、プロセッサ422の構成要素は、サーバ420に格納されたプログラムコードが提供する命令にしたがってプロセッサ422によって実行される、プロセッサ422の互いに異なる機能の表現であってよい。例えば、サーバ420が返答情報を構成するように上述した命令にしたがってサーバ420を制御するプロセッサ422の機能的表現として、情報構成部810が利用されてよい。   Here, the components of the processor 422 may be representations of different functions of the processor 422 that are executed by the processor 422 in accordance with instructions provided by program code stored in the server 420. For example, the information configuration unit 810 may be used as a functional representation of the processor 422 that controls the server 420 according to the instructions described above so that the server 420 configures reply information.

段階910で、プロセッサ422は、サーバ420の制御と関連する命令がロードされたメモリ421から必要な命令を読み取ってよい。この場合、前記読み取った命令には、プロセッサ422が以下で説明される段階920および930を実行するように制御するための命令が含まれてよい。   At stage 910, the processor 422 may read the necessary instructions from the memory 421 into which the instructions associated with the control of the server 420 have been loaded. In this case, the read instructions may include instructions for controlling the processor 422 to perform steps 920 and 930 described below.

段階920で、情報構成部810は、電子機器410から受信したクエリに対し、クエリ内の特定のウェイクワードに対応するカテゴリのサービス情報を含む返答情報を構成してよい。先ず、情報構成部810は、電子機器410から受信したクエリを自然語処理して該当のクエリの意図と目標などを抽出してよい。電子機器410から受信したクエリには、ユーザが機器の活性化に利用した特定のウェイクワードに関する情報が含まれているかもしれない。サーバ420には、電子機器410のユーザに対し、ウェイクワードに対するユーザ定義(図7を参照しながら説明したウェイクワード701、カテゴリ702、言語703、追加検索語704を含む)が搭載(又は記憶)されている。このユーザ定義に基づき、情報構成部810は、クエリに含まれる特定のウェイクワードからユーザが望むサービス対象を把握してよい。一例として、情報構成部810は、電子機器410のユーザが機器の活性化に利用したウェイクワードに対応するカテゴリのサービス情報を他のサービスよりも高い優先順位として、検索した結果を、クエリに対する返答情報として構成してよい。他の例として、情報構成部810は、クエリに対するサービス対象を電子機器410のユーザが機器の活性化に利用したウェイクワードに対応するカテゴリに限定し、限定されたサービスの情報によって返答情報を構成してよい。したがって、情報構成部810は、ユーザが機器の活性化に利用したウェイクワードを、返答情報を構成するための情報選別基準として活用することができる。   In operation 920, the information configuration unit 810 may configure, in response to the query received from the electronic device 410, response information including service information of a category corresponding to a specific wake word in the query. First, the information configuration unit 810 may perform natural language processing on the query received from the electronic device 410 to extract the intention and target of the corresponding query. The query received from the electronic device 410 may include information on the particular wakeword that the user has used to activate the device. The server 420 includes (or stores) user definitions for the wake word (including the wake word 701, the category 702, the language 703, and the additional search word 704 described above with reference to FIG. 7) for the user of the electronic device 410. It is done. Based on this user definition, the information configuration unit 810 may grasp a service target desired by the user from a specific wakeword included in the query. As an example, the information configuration unit 810 returns a result of searching for service information of a category corresponding to a wake word used by the user of the electronic device 410 for activation of the device with higher priority than other services. It may be configured as information. As another example, the information configuration unit 810 limits the service target for the query to the category corresponding to the wake word used by the user of the electronic device 410 to activate the device, and configures the response information by the information of the limited service. You may Therefore, the information configuration unit 810 can use the wake word used by the user to activate the device as the information selection criterion for forming the response information.

情報構成部810は、クエリに含まれた特定のウェイクワードからユーザが望むサービスを把握することにより、応答する情報の量と質を調節してよい。また、情報構成部810は、電子機器410から受信したクエリに対し、電子機器410のユーザと関連する過去の利用内訳を考慮した個人化情報を追加して返答情報を構成してよい。過去の利用内訳は、ユーザ別にサーバ420上に格納されてよく、クエリと返答情報に対する記録を含んでよい。例えば、「野球博士、今日のプロ野球チームXの試合はどうだった?」というクエリから、ユーザが「プロ野球チームX」に関心があることが分かり、ユーザの関心事が例えばデータベースに記録される。以後に「野球博士、今日の試合はどうだった?」というクエリが発話された場合には、ユーザの以前のクエリによる個人化情報に基づき、「プロ野球チームX」の野球情報を返答情報として構成してよい。これにより、ユーザがクエリを発話するたびに同じような形式の質問をする必要がなくなり、より簡略な質問によってユーザが望む情報を得ることができるようになる。音声返答は、ユーザが最後まですべて聞かなければならない時間消耗的な情報伝達方法であることから、重要な情報をできるだけ簡略な返答で構成することが、ユーザ経験において重要となる。最終的には、過去の利用内訳に基づいて返答をできるだけ短く、核心内容に着目して構成することが、個人化の役割であると言える。また他の例として、同じ質問に対し、過去の利用内訳との比較により、「プロ野球チームXがプロ野球チームYに3:5で負けました」と短く返答したときに「敗因はなに?」や「S選手は登板したの?」などのように追加の質問を続けたユーザである場合には、次回同じことを質問された場合により豊富な返答情報を構成することも可能である。例えば、「野球博士、今日のプロ野球チームXの試合はどうだった?」のような後日の同じ質問に対し、過去の利用内訳に基づいてここ最近の返答などと比較しながら、「今日は先日の試合とは異なり、プロ野球チームXがプロ野球チームYに3:5で負けました。MVP選手であるS選手は、今日は登板しませんでした。」のような返答情報が構成されてもよい。または、ここ最近の一連の質問リストに基づき「今日のプロ野球チームYとの試合でプロ野球チームXは8:1で勝ちました。勝利の決め手はS選手の8回裏の2ランホームランです。ハイライトは4回表と8回裏です。」のように、より質の高い豊富な情報によって返答情報を構成することが可能になる。   The information configuration unit 810 may adjust the amount and quality of information to respond by grasping the service that the user desires from the specific wakewords included in the query. In addition, the information configuration unit 810 may configure response information by adding personalization information in consideration of the past usage details associated with the user of the electronic device 410 to the query received from the electronic device 410. The past usage breakdown may be stored on the server 420 for each user and may include records for query and reply information. For example, from the query “Dr. Baseball, how was the game of today's professional baseball team X?”, It can be understood that the user is interested in “professional baseball team X”, and the user's interests are recorded in the database, for example Ru. Thereafter, when the query “Dr. baseball, how was the game today?” Is uttered, the baseball information of “professional baseball team X” is used as the reply information based on the personalization information by the user's previous query. It may be configured. This eliminates the need for the user to ask the same type of query each time the user speaks a query, and allows the user to obtain the desired information with a simpler query. Since the voice response is a time consuming communication method in which the user must listen to everything until the end, it is important in the user experience to compose the important information with the simplest possible reply. Ultimately, it is possible to say that the role of personalization is to configure responses by focusing on the core contents as short as possible based on the breakdown of past usage. Also, as another example, when the short answer “Professional baseball team X lost 3: 5 to professional baseball team Y” is made in response to the same question in comparison with the past usage breakdown “What is the cause of loss? If you are a user who continued to ask additional questions, such as “?” Or “S, did you pitch a board,” it is also possible to construct more rich response information if asked the same thing next time. . For example, against the same later question such as “Dr. Baseball, how was the game of today's professional baseball team X”, while comparing with recent responses based on the past usage breakdown, “Today Unlike the previous day's game, the professional baseball team X lost 3: 5 to the professional baseball team Y. The S player, who is the MVP player, did not get on the board today. May be Or, based on the list of recent questions, “Pro baseball team X won 8: 1 in a match with today's pro baseball team Y. The decisive factor for the victory is the S-player's eight back 2 run home runs. The highlight is 4 times the front and 8 times the back. ”It is possible to compose the response information by rich and rich information of high quality.

段階930で、情報提供部820は、電子機器410から受信したクエリに対する応答として、段階920で構成された返答情報を電子機器410に提供してよい。返答情報には、ユーザが機器の活性化に利用したウェイクワードの特徴に符合するサービス情報が優先的に含まれてよく、音声出力はもちろん、映像や他の形態による出力が可能な情報が含まれてよい。   In operation 930, the information provider 820 may provide the electronic device 410 with the response information configured in operation 920 as a response to the query received from the electronic device 410. The response information may preferentially include service information that conforms to the characteristics of the wakeword used by the user to activate the device, and may include audio output, as well as information capable of video and other forms of output. It is good.

したがって、サーバ420は、ユーザが機器の活性化に利用したウェイクワードによってユーザの関心事を直ぐに把握することができるため、ユーザクエリに対する返答情報を効果的に選別して構成することができる。ユーザは、関心のある分野について検索しようとするとき、該当の分野に特定されたウェイクワードを利用することにより、所望の結果を受けることができる。言い換えれば、複数のウェイクワードに対し、各ウェイクワードに応じて提供される情報が異なるようにし、これにより、ユーザが個人化過程を経なくても、特定の使用層や個人の関心事、または知識水準などに合った情報を受けることができる。   Therefore, since the server 420 can immediately grasp the user's interest by the wake word used by the user to activate the device, the server 420 can effectively sort and configure the response information to the user query. When the user tries to search for a field of interest, the user can receive a desired result by using the wake word specified for the field. In other words, for multiple wakewords, the information provided may be different for each wakeword, so that the user does not go through a personalization process, for a particular consumer or personal interest, or You can receive information that matches your knowledge level.

上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、および/またはハードウェア構成要素とソフトウェア構成要素との組み合わせによって実現されてよい。例えば、実施形態で説明された装置および構成要素は、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ、マイクロコンピュータ、FPGA(field programmable gate array)、PLU(programmable logic unit)、マイクロプロセッサ、または命令を実行して応答することができる様々な装置のように、1つ以上の汎用コンピュータまたは特殊目的コンピュータを利用して実現されてよい。処理装置は、オペレーティングシステム(OS)および前記OS上で実行される1つ以上のソフトウェアアプリケーションを実行してよい。また、処理装置は、ソフトウェアの実行に応答し、データにアクセスし、データを格納、操作、処理、および生成してもよい。理解の便宜のために、1つの処理装置が使用されるとして説明される場合もあるが、当業者は、処理装置が複数個の処理要素および/または複数種類の処理要素を含んでもよいことが理解できるであろう。例えば、処理装置は、複数個のプロセッサまたは1つのプロセッサおよび1つのコントローラを含んでよい。また、並列プロセッサのような、他の処理構成も可能である。   The above-described apparatus may be realized by hardware components, software components, and / or a combination of hardware components and software components. For example, the devices and components described in the embodiments include a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA), a programmable logic unit (PLU), and a microprocessor. Or may be implemented using one or more general purpose or special purpose computers, as various devices capable of executing and responding to instructions. The processing device may execute an operating system (OS) and one or more software applications running on the OS. The processing device may also respond to software execution, access data, and store, manipulate, process, and generate data. Although one processor may be described as being used for the convenience of understanding, it is understood by those skilled in the art that the processor may include a plurality of processing elements and / or a plurality of types of processing elements. You will understand. For example, the processing device may include multiple processors or one processor and one controller. Other processing arrangements are also possible, such as parallel processors.

ソフトウェアは、コンピュータプログラム、コード、命令、またはこれらのうちの1つ以上の組み合わせを含んでもよく、思うままに動作するように処理装置を構成したり、独立的または集合的に処理装置に命令したりしてよい。ソフトウェアおよび/またはデータは、処理装置に基づいて解釈されたり、処理装置に命令またはデータを提供したりするために、いかなる種類の機械、コンポーネント、物理装置、コンピュータ格納媒体または装置に具現化されてよい。ソフトウェアは、ネットワークによって接続されたコンピュータシステム上に分散され、分散された状態で格納されても実行されてもよい。ソフトウェアおよびデータは、1つ以上のコンピュータで読み取り可能な記録媒体に格納されてよい。   The software may include a computer program, code, instructions, or a combination of one or more of these, configuring the processing unit to operate as desired, instructing the processing unit to operate independently or collectively. You may The software and / or data may be embodied in any type of machine, component, physical device, computer storage medium or device to be interpreted based on the processing device or to provide instructions or data to the processing device. Good. The software may be distributed on computer systems connected by a network, and may be stored or executed in a distributed manner. The software and data may be stored on one or more computer readable recording media.

実施形態に係る方法は、多様なコンピュータ手段によって実行可能なプログラム命令の形態で実現されてコンピュータで読み取り可能な媒体に記録されてよい。このとき、媒体は、コンピュータで実行可能なプログラムを継続して格納するものであっても、実行またはダウンロードのために臨時格納するものであってもよい。また、媒体は、単一または複数のハードウェアが結合した形態の多様な記録手段または格納手段であってよく、あるコンピュータシステムに直接に接続する媒体に限定されてはならず、ネットワーク上に分散存在するものであってもよい。媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、および磁気テープのような磁気媒体、CD−ROM、DVDのような光媒体、フロプティカルディスク(floptical disk)のような光磁気媒体、およびROM、RAM、フラッシュメモリなどを含み、プログラム命令が格納されるように構成されたものであってよい。また、媒体の他の例として、アプリケーションを流通するアプリストアやその他の多様なソフトウェアを供給あるいは流通するサイト、サーバなどで管理する記録媒体あるいは格納媒体が挙げられてもよい。   The method according to the embodiments may be realized in the form of program instructions executable by various computer means and recorded on a computer readable medium. At this time, the medium may continuously store the computer executable program or may temporarily store it for execution or download. Also, the medium may be various recording means or storage means in the form of combination of one or more hardware, and should not be limited to the medium directly connected to a certain computer system, and distributed on the network It may be present. Examples of media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs, DVDs, magneto-optical media such as floppy disks, And ROM, RAM, flash memory, etc., and may be configured to store program instructions. In addition, as another example of the medium, an application store that distributes an application, a site that supplies or distributes various other software, a recording medium managed by a server, or a storage medium may be mentioned.

以上のように、実施形態を、限定された実施形態と図面に基づいて説明したが、当業者であれば、上述した記載から多様な修正および変形が可能であろう。例えば、説明された技術が、説明された方法とは異なる順序で実行されたり、かつ/あるいは、説明されたシステム、構造、装置、回路などの構成要素が、説明された方法とは異なる形態で結合されたりまたは組み合わされたり、他の構成要素または均等物によって対置されたり置換されたとしても、適切な結果を達成することができる。   Although the embodiments have been described based on the limited embodiments and the drawings as described above, various modifications and variations can be made by those skilled in the art from the above description. For example, components described in the systems, structures, devices, circuits, and the like may be performed in a different order from that of the methods described and / or different from those described in the methods described. Appropriate results can also be achieved if combined or combined, or counter-located or replaced by other components or equivalents.

したがって、異なる実施形態であっても、特許請求の範囲と均等なものであれば、添付される特許請求の範囲に属する。   Therefore, even different embodiments, which are equivalent to the scope of the claims, belong to the appended claims.

412:プロセッサ
510:ウェイクワード設定部
520:音声処理部
530:クエリ伝達部
540:応答処理部
412: processor 510: wake word setting unit 520: voice processing unit 530: query transfer unit 540: response processing unit

Claims (20)

コンピュータによって実現される電子機器で実行される音声基盤サービス提供方法であって、
前記電子機器の対話機能を活性化させるための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定する段階、
前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか1つの特定のウェイクワードが認識されると、前記対話機能を活性化させる段階、および
前記対話機能が活性化した状態で入力された音声クエリに対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する段階
を含む、音声基盤サービス提供方法。
A voice-based service providing method implemented by an electronic device realized by a computer, comprising:
Defining a plurality of wake words used as a dialog activation trigger for activating the dialog function of the electronic device, and setting a desired response information range for each wake word;
Activating the interactivity function when the specific wakeword of the plurality of wakewords is recognized in the audio interface of the electronic device, and the interactivity function is input in an activated state; Providing a response information based on a desired response information range corresponding to the specific wakeword to the voice query.
前記複数のウェイクワードと各ウェイクワードの希望返答情報範囲は、前記電子機器のユーザによって直接設定される、請求項1に記載の音声基盤サービス提供方法。   The method of claim 1, wherein the plurality of wake words and the desired response information range of each wake word are directly set by a user of the electronic device. 前記提供する段階は、
前記音声インタフェースに受信された音声入力に対し、前記希望返答情報範囲を含むクエリを構成してサーバに伝達する段階、および
前記クエリに対する応答として、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を、前記サーバから受信して前記音声インタフェースで出力する段階
を含む、請求項1に記載の音声基盤サービス提供方法。
The providing step may
In response to the voice input received by the voice interface, constructing a query including the desired response information range and transmitting it to the server, and as a response to the query, the desired response information range corresponding to the specific wakeword The method according to claim 1, further comprising the step of: receiving the response information from the server and outputting the response information on the voice interface.
前記提供する段階は、
前記音声インタフェースに受信された音声入力を、前記特定のウェイクワードに関する情報と共にサービス要請のためのクエリとしてサーバに伝達する段階、および
前記クエリに対する応答として、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を、前記サーバから受信して前記音声インタフェースで出力する段階
を含む、請求項1に記載の音声基盤サービス提供方法。
The providing step may
Conveying to the server a voice input received at the voice interface as a query for a service request along with information on the particular wakeword, and as a response to the query, desired reply information corresponding to the particular wakeword The voice based service providing method according to claim 1, further comprising the step of receiving from the server response information based on a range and outputting the information on the voice interface.
前記返答情報は、前記希望返答情報範囲に該当する検索結果を、前記希望返答情報範囲に該当しない検索結果よりも高い優先順位で含む、請求項1に記載の音声基盤サービス提供方法。   The method according to claim 1, wherein the response information includes a search result corresponding to the desired response information range in a higher priority than a search result not corresponding to the desired response information range. 前記返答情報は、前記希望返答情報範囲に該当する検索結果に限定される、請求項1に記載の音声基盤サービス提供方法。   The method according to claim 1, wherein the response information is limited to a search result corresponding to the desired response information range. 前記返答情報は、前記電子機器のユーザの過去の利用内訳を考慮した個人化情報に基づいて構成される、請求項1に記載の音声基盤サービス提供方法。   The method according to claim 1, wherein the response information is configured based on personalization information in consideration of past usage details of the user of the electronic device. 前記複数のウェイクワードに対し、各ウェイクワードに年齢層が設定される、請求項1に記載の音声基盤サービス提供方法。   The method of claim 1, wherein an age range is set for each wake word for the plurality of wake words. 前記提供する段階は、
前記特定のウェイクワードの年齢層に対応する検索情報を前記返答情報として提供するか、或いは前記特定のウェイクワードの年齢層に対応する出力形態で前記返答情報を提供する、請求項8に記載の音声基盤サービス提供方法。
The providing step may
The search information corresponding to the age group of the particular wakeword may be provided as the response information, or the response information may be provided in an output form corresponding to the age group of the particular wakeword. Voice based service delivery method.
コンピュータによって実現されるサーバで実行される音声基盤サービス提供方法であって、
電子機器の対話機能を活性化させるための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定する段階、
前記複数のウェイクワードのうち、前記対話機能の活性化に利用された特定のウェイクワードに対する情報を含むクエリを、前記電子機器から受信する段階、
前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を構成する段階、および
前記受信されたクエリに対する応答として、前記構成された返答情報を前記電子機器に提供する段階
を含む、音声基盤サービス提供方法。
A method of providing a voice-based service executed by a server realized by a computer, comprising:
Defining a plurality of wake words to be used as a dialog activation trigger for activating the interaction function of the electronic device, and setting a desired response information range for each wake word;
Receiving from the electronic device a query including information on a specific wakeword used to activate the interactive function among the plurality of wakewords;
Configuring voice response information based on a desired response information range corresponding to the particular wakeword, and providing the configured response information to the electronic device as a response to the received query. Basic service provision method.
請求項1〜10のうちのいずれか一項に記載の音声基盤サービス提供方法をコンピュータに実行させる、コンピュータプログラム。   A computer program that causes a computer to execute the method for providing voice-based service according to any one of claims 1 to 10. 請求項1〜10のうちのいずれか一項に記載の音声基盤サービス提供方法をコンピュータに実行させるためのプログラムが記録されていることを特徴とする、コンピュータで読み取り可能な記録媒体。   A computer-readable recording medium having a program recorded thereon for causing a computer to execute the method for providing voice-based service according to any one of claims 1 to 10. コンピュータによって実現される電子機器の音声基盤サービス提供システムであって、
コンピュータで読み取り可能な命令を実行するように実現される少なくとも1つのプロセッサ
を含み、
前記少なくとも1つのプロセッサは、
前記電子機器の対話機能を活性化するための対話活性トリガとして使用される複数のウェイクワードを定義し、各ウェイクワードに希望返答情報範囲を設定するウェイクワード設定部、
前記電子機器の音声インタフェースで前記複数のウェイクワードのうちのいずれか1つの特定のウェイクワードが認識されると、前記対話機能を活性化させる音声処理部、および
前記対話機能が活性化した状態で入力された音声クエリに対し、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を提供する応答処理部
を備える、音声基盤サービス提供システム。
A voice-based service providing system for electronic devices realized by a computer, comprising:
At least one processor implemented to execute computer readable instructions;
The at least one processor is
A wake word setting unit that defines a plurality of wake words used as a dialog activation trigger for activating a dialog function of the electronic device, and sets a desired response information range for each wake word;
A voice processing unit that activates the dialog function when the wake interface of the electronic device recognizes a specific wake word of the plurality of wake words, and the dialog function is activated A voice-based service providing system, comprising: a response processing unit that provides response information based on a desired response information range corresponding to the specific wakeword in response to an input voice query.
前記複数のウェイクワードと各ウェイクワードの希望返答情報範囲は、前記電子機器のユーザによって直接設定される、請求項13に記載の音声基盤サービス提供システム。   The system of claim 13, wherein the plurality of wake words and the desired response information range of each wake word are directly set by a user of the electronic device. 前記少なくとも1つのプロセッサは、
前記音声インタフェースで受信された音声入力に対し、サービス対象が前記希望返答情報範囲を含むクエリを構成してサーバに伝達するクエリ伝達部
をさらに備え、
前記応答処理部は、
前記クエリに対する応答として、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を、前記サーバから受信して前記音声インタフェースで出力する、請求項13に記載の音声基盤サービス提供システム。
The at least one processor is
The system further comprises: a query transfer unit configured to transmit a query including a desired response information range to the service target in response to voice input received by the voice interface;
The response processing unit
The voice-based service providing system according to claim 13, wherein response information based on a desired response information range corresponding to the specific wakeword is received from the server and output through the voice interface as a response to the query.
前記少なくとも1つのプロセッサは、
前記音声インタフェースに受信された音声入力を、前記特定のウェイクワードに関する情報と共にサービス要請のためのクエリとしてサーバに伝達するクエリ伝達部
をさらに備え、
前記応答処理部は、
前記クエリに対する応答として、前記特定のウェイクワードに対応する希望返答情報範囲に基づいた返答情報を、前記サーバから受信して前記音声インタフェースで出力する、請求項13に記載の音声基盤サービス提供システム。
The at least one processor is
The system further comprises a query transfer unit for transferring the voice input received by the voice interface to the server as a query for a service request together with information on the particular wakeword,
The response processing unit
The voice-based service providing system according to claim 13, wherein response information based on a desired response information range corresponding to the specific wakeword is received from the server and output through the voice interface as a response to the query.
前記返答情報は、前記希望返答情報範囲に該当する検索結果を、前記希望返答情報範囲に該当しない検索結果よりも高い優先順位で含む、請求項13に記載の音声基盤サービス提供システム。   The voice base service providing system according to claim 13, wherein the response information includes a search result corresponding to the desired response information range in a higher priority than a search result not corresponding to the desired response information range. 前記返答情報は、前記希望返答情報範囲に該当する検索結果に限定される、請求項13に記載の音声基盤サービス提供システム。   The system according to claim 13, wherein the response information is limited to a search result corresponding to the desired response information range. 前記返答情報は、前記電子機器のユーザの過去の利用内訳を考慮した個人化情報に基づいて構成される、請求項13に記載の音声基盤サービス提供システム。   The voice-based service providing system according to claim 13, wherein the response information is configured based on personalization information in consideration of a past usage breakdown of the user of the electronic device. 前記複数のウェイクワードに対し、各ウェイクワードに年齢層が設定され、
前記応答処理部は、
前記特定のウェイクワードの年齢層に対応する検索情報を前記返答情報として提供するか、或いは前記特定のウェイクワードの年齢層に対応する出力形態で前記返答情報を提供する、請求項13に記載の音声基盤サービス提供システム。
For each of the plurality of wake words, an age group is set for each wake word,
The response processing unit
The search information corresponding to the age group of the particular wakeword may be provided as the response information, or the response information may be provided in an output form corresponding to the age group of the particular wakeword. Voice based service delivery system.
JP2018233018A 2017-12-28 2018-12-13 Service providing method and system using a plurality of wake words in an artificial intelligence device Active JP6728319B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170181758A KR102079979B1 (en) 2017-12-28 2017-12-28 Method for providing service using plurality wake up word in artificial intelligence device, and system thereof
KR10-2017-0181758 2017-12-28

Publications (2)

Publication Number Publication Date
JP2019120935A true JP2019120935A (en) 2019-07-22
JP6728319B2 JP6728319B2 (en) 2020-07-22

Family

ID=67255946

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018233018A Active JP6728319B2 (en) 2017-12-28 2018-12-13 Service providing method and system using a plurality of wake words in an artificial intelligence device

Country Status (2)

Country Link
JP (1) JP6728319B2 (en)
KR (1) KR102079979B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021021860A (en) * 2019-07-29 2021-02-18 三菱自動車工業株式会社 Voice assistance system and vehicle
JP2021033083A (en) * 2019-08-26 2021-03-01 株式会社第一興商 Karaoke input device
CN112927698A (en) * 2021-02-27 2021-06-08 北京基智科技有限公司 Smart phone voice system based on deep learning

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200085143A (en) 2019-01-04 2020-07-14 삼성전자주식회사 Conversational control system and method for registering external apparatus
KR102256182B1 (en) * 2020-07-15 2021-05-25 건국대학교 산학협력단 Method and apparatus for providing automatic question and answer chatbot service for video remote lecture
CN113284502A (en) * 2021-05-08 2021-08-20 埃顿能源科技(四川)有限公司 Intelligent customer service voice interaction method and system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060070605A (en) * 2004-12-21 2006-06-26 한국전자통신연구원 Using domain dialogue model and language model in intelligent robot speech recognition service device and method
JP2013205523A (en) * 2012-03-27 2013-10-07 Yahoo Japan Corp Response generation apparatus, response generation method and response generation program
JP2014109889A (en) * 2012-11-30 2014-06-12 Toshiba Corp Content retrieval device, content retrieval method and control program
JP2015038710A (en) * 2013-08-19 2015-02-26 株式会社東芝 Method, electronic device, and program
JP2016095383A (en) * 2014-11-14 2016-05-26 株式会社ATR−Trek Voice recognition client device and server-type voice recognition device
JP2016532146A (en) * 2013-07-08 2016-10-13 クゥアルコム・インコーポレイテッドQualcomm Incorporated Method and apparatus for assigning a keyword model to a voice action function

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140123369A (en) * 2013-04-12 2014-10-22 얄리주식회사 Question answering system using speech recognition and its application method thereof
US9940929B2 (en) * 2015-12-09 2018-04-10 Lenovo (Singapore) Pte. Ltd. Extending the period of voice recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060070605A (en) * 2004-12-21 2006-06-26 한국전자통신연구원 Using domain dialogue model and language model in intelligent robot speech recognition service device and method
JP2013205523A (en) * 2012-03-27 2013-10-07 Yahoo Japan Corp Response generation apparatus, response generation method and response generation program
JP2014109889A (en) * 2012-11-30 2014-06-12 Toshiba Corp Content retrieval device, content retrieval method and control program
JP2016532146A (en) * 2013-07-08 2016-10-13 クゥアルコム・インコーポレイテッドQualcomm Incorporated Method and apparatus for assigning a keyword model to a voice action function
JP2015038710A (en) * 2013-08-19 2015-02-26 株式会社東芝 Method, electronic device, and program
JP2016095383A (en) * 2014-11-14 2016-05-26 株式会社ATR−Trek Voice recognition client device and server-type voice recognition device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021021860A (en) * 2019-07-29 2021-02-18 三菱自動車工業株式会社 Voice assistance system and vehicle
JP2021033083A (en) * 2019-08-26 2021-03-01 株式会社第一興商 Karaoke input device
JP7335115B2 (en) 2019-08-26 2023-08-29 株式会社第一興商 Karaoke input device
CN112927698A (en) * 2021-02-27 2021-06-08 北京基智科技有限公司 Smart phone voice system based on deep learning

Also Published As

Publication number Publication date
JP6728319B2 (en) 2020-07-22
KR102079979B1 (en) 2020-02-21
KR20190079791A (en) 2019-07-08

Similar Documents

Publication Publication Date Title
JP6728319B2 (en) Service providing method and system using a plurality of wake words in an artificial intelligence device
US10657963B2 (en) Method and system for processing user command to provide and adjust operation of electronic device by analyzing presentation of user speech
JP7005694B2 (en) Computer-based selection of synthetic speech for agents
US11302337B2 (en) Voiceprint recognition method and apparatus
KR102213637B1 (en) Encapsulating and synchronizing state interactions between devices
US10885091B1 (en) System and method for content playback
JP6752870B2 (en) Methods and systems for controlling artificial intelligence devices using multiple wake words
CN112074898B (en) Machine generation of context-free grammar for intent reasoning
KR102189855B1 (en) Parameter collection and automatic dialog generation in dialog systems
US20200349940A1 (en) Server for determining target device based on speech input of user and controlling target device, and operation method of the server
US10803859B1 (en) Speech processing for public devices
US10860289B2 (en) Flexible voice-based information retrieval system for virtual assistant
JP2022551788A (en) Generate proactive content for ancillary systems
KR20220035278A (en) Voice user interface shortcuts for an assistant application
KR102027471B1 (en) Method and system for expansion to daily life language by using word vectorization technique based on social network content
JP6607999B2 (en) Media selection for providing information in response to voice requests
KR20210120960A (en) Server for seleting a target device according to a voice input, and controlling the selected target device, and method for operating the same
KR102209092B1 (en) Method and system for controlling artificial intelligence device using plurality wake up word
JP6920398B2 (en) Continuous conversation function in artificial intelligence equipment
KR102596841B1 (en) Electronic device and method for providing one or more items responding to speech of user
US20220020358A1 (en) Electronic device for processing user utterance and operation method therefor
TW202301081A (en) Task execution based on real-world text detection for assistant systems
TW202301080A (en) Multi-device mediation for assistant systems
KR20220165993A (en) Method and system for generating artificial intelligence character
Chang Enabling progressive system integration for AIoT and speech-based HCI through semantic-aware computing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200421

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200701

R150 Certificate of patent or registration of utility model

Ref document number: 6728319

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350