KR20210144443A

KR20210144443A - 인공지능 가상 비서 서비스에서의 텍스트 출력 방법 및 이를 지원하는 전자 장치

Info

Publication number: KR20210144443A
Application number: KR1020200061810A
Authority: KR
Inventors: 김기철; 박윤재; 변주용; 김영규; 박병건; 장수원; 정창용; 진성빈; 여재영
Original assignee: 삼성전자주식회사
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2021-11-30
Also published as: WO2021235890A1; US20230145198A1; US11922127B2

Abstract

다양한 실시 예에 따른 전자 장치는, 메모리, 통신부 및 메모리 및 통신부와 작동적으로 연결된 프로세서를 포함하고, 프로세서는, 사용자 발화 음성에 대응되는 발화 텍스트를 획득하고, 발화 음성 및 발화 텍스트에 기초하여 발화 텍스트의 의도 및 감정 정보를 획득하고, 발화 텍스트의 의도 및 감정 정보에 기초하여 발화 텍스트에 대한 응답 텍스트를 획득하고, 발화 텍스트의 의도, 감정 정보 또는 응답 텍스트 중 적어도 하나에 기초하여 응답 텍스트의 텍스트 출력 단위에 대한 정보를 포함하는 마크업 언어를 획득하고, 마크업 언어를 응답 텍스트에 부가하여 제공하고, 텍스트 출력 단위는, 음소 단위, 자소 단위, 음절 단위 또는 어절 단위 중에서 적어도 하나가 선택되는 것일 수 있다. 그 밖의 다양한 실시 예가 가능하다.
한편, 인공지능 모델을 이용하여 전자 장치의 인공지능 가상 비서 서비스에서의 텍스트 출력 방법을 수행할 수도 있다.

Description

인공지능 가상 비서 서비스에서의 텍스트 출력 방법 및 이를 지원하는 전자 장치 { METHOD FOR OUTPUTTING TEXT IN ARTIFICIAL INTELLIGENCE VIRTUAL ASSISTANT SERVICE AND ELECTRONIC DEVICE FOR SUPPORTING THE SAME }

본 개시의 일 실시 예는, 인공지능 가상 비서 서비스에서의 텍스트 출력 방법 및 이를 지원하는 전자 장치에 관한 것이다.

근래에는 인공지능 시스템이 다양한 분야에서 이용되고 있다. 인공 지능 시스템은 기존의 룰(rule) 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 똑똑해지는 시스템이다. 인공 지능 시스템은 사용할수록 인식률이 향상되고 사용자 취향을 보다 정확하게 이해할 수 있게 되어, 기존 룰 기반 스마트 시스템은 점차 딥러닝 기반 인공 지능 시스템으로 대체되고 있다.

근래에는 사용자 음성 입력에 대한 응답을 제공하는 인공지능 가상 비서(예로, 빅스비^TM, 어시스턴트^TM, 알렉사^TM 등)를 이용한 다양한 서비스들이 제공되고 있다.

인공지능 가상 비서(AI 비서)는 사용자에게 편리한 기능을 제공할 뿐 아니라, 기업과 기기를 대표하는 제품으로 사용자와 감정적인 유대(Emotional Bonding)를 시도하고 있다. 사용자와 인공지능 가상 비서 감정적인 유대란 사용자가 마치 인공지능 가상 비서를 하나의 생명체로 취급하고 정서적 교감을 하는 것을 의미한다.

인공지능 가상 비서의 응답은 크게 음성 응답과 텍스트 응답이 있다. 음성 응답은 스피커로 나오는 소리 응답이며, 텍스트 응답은 기기에 디스플레이가 존재하는 경우 디스플레이에 표시되는 응답이다. 기존 기술 중에는 음성과 말투를 세밀하게 조작하기 위해서 SSML이 사용되기도 한다. SSML(speech synthesis markup language)을 활용하면 음성의 빠르기, 목소리의 높이, 효과음 등을 활용할 수 있기 때문에 널리 쓰이고 있다.

하지만 현재의 기술들은 텍스트 응답을 효과적으로 전달하지 못하고 있다. 인공지능 가상 비서의 응답이 화면에 텍스트로 표시될 때는 모든 텍스트가 한번에 화면에 뜨기 때문에 감정이나 느낌을 표현하는데 한계가 있다.

따라서 사용자는 인공지능 가상 비서가 표현하고자 하는 감정을 충분히 경험하지 못하고 어색함을 느끼게 된다. 인공지능 가상 비서가 퀴즈를 내는 경우에도 이미 정답이 디스플레이에 보여주고 있는 상황이 되어 문제를 푸는 느낌이 들지 않거나, 으스스한 이야기를 SSML등을 사용하여 으스스한 효과음과 제공되고 있음에도 이미 디스플레이에 있는 텍스트로 결말을 알 수 있는 등 사용자 경험에서 감정적인 유대를 구성하기 어려워진다.

또한, 인공지능 가상 비서가 '사용자를 걱정하는 응답', '사용자의 말을 이해하지 못해서 당황한 응답', '무서운/재미있는 이야기를 들려주는 응답'을 비록 응답에 있는 문장은 다르지만, 이를 표현하는 방식이 일관되기 때문에 사용자와 감정적인 유대에 어려움을 겪게 된다.

다양한 실시 예에 따르면, 전자 장치는, 메모리, 통신부 및 상기 메모리 및 상기 통신부와 작동적으로 연결된 프로세서를 포함하고, 상기 프로세서는, 사용자 발화 음성에 대응되는 발화 텍스트를 획득하고, 상기 발화 음성 및 상기 발화 텍스트에 기초하여 상기 발화 텍스트의 의도 및 감정 정보를 획득하고, 상기 발화 텍스트의 의도 및 상기 감정 정보에 기초하여 상기 발화 텍스트에 대한 응답 텍스트를 획득하고, 상기 발화 텍스트의 의도, 상기 감정 정보 또는 상기 응답 텍스트 중 적어도 하나에 기초하여 상기 응답 텍스트의 텍스트 출력 단위에 대한 정보를 포함하는 마크업 언어를 획득하고, 상기 마크업 언어를 상기 응답 텍스트에 부가하여 제공하고, 상기 텍스트 출력 단위는, 음소 단위, 자소 단위, 음절 단위 또는 어절 단위 중에서 적어도 하나가 선택되는 것일 수 있다.

다양한 실시 예에 따르면, 전자 장치의 제어 방법은, 사용자 발화 음성에 대응되는 발화 텍스트를 획득하는 동작, 상기 발화 음성 및 상기 발화 텍스트에 기초하여 상기 발화 텍스트의 의도 및 감정 정보를 획득하는 동작, 상기 발화 텍스트의 의도 및 상기 감정 정보에 기초하여 상기 발화 텍스트에 대한 응답 텍스트를 획득하는 동작, 상기 발화 텍스트의 의도, 상기 감정 정보 또는 상기 응답 텍스트 중 적어도 하나에 기초하여 상기 응답 텍스트의 텍스트 출력 단위에 대한 정보를 포함하는 마크업 언어를 획득하는 동작 및 상기 마크업 언어를 상기 응답 텍스트에 부가하여 제공하는 동작을 포함하고, 상기 텍스트 출력 단위는, 음소 단위, 자소 단위, 음절 단위 또는 어절 단위 중에서 적어도 하나가 선택될 수 있다.

다양한 실시 예에 따르면, 단말 장치는, 마이크, 디스플레이, 통신부, 프로세서를 포함하고, 상기 프로세서는, 상기 마이크로부터 수신된 사용자 발화 음성을 외부 서버로 전송하고, 상기 외부 서버로부터 상기 사용자 발화 음성에 대응되는 응답 텍스트를 수신하고, 상기 응답 텍스트에 부가된, 텍스트 출력 단위에 대한 정보를 포함하는 마크업 언어에 기초하여, 음소 단위, 자소 단위, 음절 단위 또는 어절 단위 중 선택된 적어도 하나의 텍스트 출력 단위로 상기 응답 텍스트를 상기 디스플레이에 표시할 수 있다.

본 개시의 다양한 실시 예에 따르면, 인공지능 가상 비서 서비스는, 사용자 발화 음성에 대한 응답을 제공함에 있어서, 사용자의 발화 의도 및 감정 정보에 따라 응답 텍스트에 마크업 언어를 부가하고, 마크업 언어를 반영하여 응답 텍스트를 표시함으로써, 인공지능 가상 비서와의 향상된 감정적인 유대(emotional bonding)를 제공할 수 있다.

도 1은 일 실시 예에 따른, 네트워크 환경 내의 전자 장치의 블록도이다.
도 2는 일 실시 예에 따른, 인공지능 가상 비서 서비스를 제공하기 위한 시스템을 설명하기 위한 도면이다.
도 3은 일 실시 예에 따른, 인공지능 가상 비서 서비스의 텍스트 출력 동작을 설명하기 위한 도면이다.
도 4는 텍스트 출력에 사용되는 마크업 언어의 다양한 실시 예를 설명하기 위한 도면이다.
도 5는 일 실시 예에 따른, 인공지능 가상 비서 서비스를 사용하는 단말 장치의 텍스트 출력 동작을 설명하기 위한 도면이다.
도 6은 일 실시 예에 따른, 인공지능 가상 비서 서비스를 사용하는 단말 장치의 텍스트 출력 동작을 설명하기 위한 도면이다.
도 7은 일 실시 예에 따른, 텍스트 출력 화면을 설명하기 위한 도면이다.
도 8은 일 실시 예에 따른, 마크업 언어에 따른 텍스트 출력 동작을 설명하기 위한 도면이다.
도 9는 일 실시 예에 따른, 마크업 언어에 따른 텍스트 출력 동작을 설명하기 위한 도면이다.
도 10은 일 실시 예에 따른, 마크업 언어에 따른 텍스트 출력 동작을 설명하기 위한 도면이다.
도 11은 일 실시 예에 따른, 마크업 언어에 따른 텍스트 출력 동작을 설명하기 위한 도면이다.
도 12는 일 실시 예에 따른, 개발자로부터의 응답 텍스트 또는 마크업 언어 수신 동작을 설명하기 위한 도면이다.
도 13은 일 실시 예에 따른, 개발자에 의해 응답 텍스트 또는 마크업 언어를 입력하기 위한 UI를 설명하기 위한 도면이다.

본 개시의 다양한 실시예들에 따른 인공지능 가상 비서 서비스에서의 전자 장치의 텍스트 출력 방법에 있어서, 텍스트 출력을 위한 마크업 언어를 획득하기 위해 사용자의 음성을 인식하고 의도를 해석하기 위한 방법으로, 통신부를 통해 외부 장치로부터 사용자 발화 음성 신호를 수신하거나, 마이크를 통해 아날로그 신호인 음성 신호를 수신하고, ASR(Automatic Speech Recognition)모델을 이용하여 음성 부분을 컴퓨터로 판독 가능한 텍스트로 변환할 수 있다. 자연어 이해(Natural Language Understanding, NLU) 모델을 이용하여 변환된 텍스트를 해석하여, 사용자의 발화 의도가 획득될 수 있다. 여기서 ASR 모델 또는 NLU 모델은 인공지능 모델일 수 있다. 인공지능 모델은 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계된 인공지능 전용 프로세서에 의해 처리될 수 있다. 인공지능 모델은 학습을 통해 획득될 수 있다. 여기서, 학습을 통해 획득된다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 획득됨을 의미할 수 있다. 인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다.

언어적 이해는 인간의 언어/문자를 인식하고 응용/처리하는 기술로서, 자연어 처리(Natural Language Processing), 기계 번역(Machine Translation), 대화 시스템(Dialog System), 질의 응답(Question Answering), 음성 인식/합성(Speech Recognition/Synthesis) 등을 포함한다.

도 1은, 일 실시 예에 따른, 네트워크 환경(100) 내의 전자 장치(101)의 블럭도이다. 도 1을 참조하면, 네트워크 환경(100)에서 전자 장치(101)는 제 1 네트워크(198)(예: 근거리 무선 통신 네트워크)를 통하여 전자 장치(102)와 통신하거나, 또는 제 2 네트워크(199)(예: 원거리 무선 통신 네트워크)를 통하여 전자 장치(104) 또는 서버(108)와 통신할 수 있다. 일실시 예에 따르면, 전자 장치(101)는 서버(108)를 통하여 전자 장치(104)와 통신할 수 있다. 일실시 예에 따르면, 전자 장치(101)는 프로세서(120), 메모리(130), 입력 장치(150), 음향 출력 장치(155), 표시 장치(160), 오디오 모듈(170), 센서 모듈(176), 인터페이스(177), 햅틱 모듈(179), 카메라 모듈(180), 전력 관리 모듈(188), 배터리(189), 통신 모듈(190), 가입자 식별 모듈(196), 또는 안테나 모듈(197)을 포함할 수 있다. 어떤 실시 예에서는, 전자 장치(101)에는, 이 구성요소들 중 적어도 하나(예: 표시 장치(160) 또는 카메라 모듈(180))가 생략되거나, 하나 이상의 다른 구성 요소가 추가될 수 있다. 어떤 실시 예에서는, 이 구성요소들 중 일부들은 하나의 통합된 회로로 구현될 수 있다. 예를 들면, 센서 모듈(176)(예: 지문 센서, 홍채 센서, 또는 조도 센서)은 표시 장치(160)(예: 디스플레이)에 임베디드된 채 구현될 수 있다

프로세서(120)는, 예를 들면, 소프트웨어(예: 프로그램(140))를 실행하여 프로세서(120)에 연결된 전자 장치(101)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)을 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다. 일실시 예에 따르면, 데이터 처리 또는 연산의 적어도 일부로서, 프로세서(120)는 다른 구성요소(예: 센서 모듈(176) 또는 통신 모듈(190))로부터 수신된 명령 또는 데이터를 휘발성 메모리(132)에 로드하고, 휘발성 메모리(132)에 저장된 명령 또는 데이터를 처리하고, 결과 데이터를 비휘발성 메모리(134)에 저장할 수 있다. 일실시 예에 따르면, 프로세서(120)는 메인 프로세서(121)(예: 중앙 처리 장치 또는 어플리케이션 프로세서), 및 이와는 독립적으로 또는 함께 운영 가능한 보조 프로세서(123)(예: 그래픽 처리 장치, 이미지 시그널 프로세서, 센서 허브 프로세서, 또는 커뮤니케이션 프로세서)를 포함할 수 있다. 추가적으로 또는 대체적으로, 보조 프로세서(123)은 메인 프로세서(121)보다 저전력을 사용하거나, 또는 지정된 기능에 특화되도록 설정될 수 있다. 보조 프로세서(123)는 메인 프로세서(121)와 별개로, 또는 그 일부로서 구현될 수 있다.

보조 프로세서(123)는, 예를 들면, 메인 프로세서(121)가 인액티브(예: 슬립) 상태에 있는 동안 메인 프로세서(121)를 대신하여, 또는 메인 프로세서(121)가 액티브(예: 어플리케이션 실행) 상태에 있는 동안 메인 프로세서(121)와 함께, 전자 장치(101)의 구성요소들 중 적어도 하나의 구성요소(예: 표시 장치(160), 센서 모듈(176), 또는 통신 모듈(190))와 관련된 기능 또는 상태들의 적어도 일부를 제어할 수 있다. 일실시 예에 따르면, 보조 프로세서(123)(예: 이미지 시그널 프로세서 또는 커뮤니케이션 프로세서)는 기능적으로 관련 있는 다른 구성 요소(예: 카메라 모듈(180) 또는 통신 모듈(190))의 일부로서 구현될 수 있다.

메모리(130)는, 전자 장치(101)의 적어도 하나의 구성요소(예: 프로세서(120) 또는 센서모듈(176))에 의해 사용되는 다양한 데이터를 저장할 수 있다. 데이터는, 예를 들어, 소프트웨어(예: 프로그램(140)) 및, 이와 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 메모리(130)는, 휘발성 메모리(132) 또는 비휘발성 메모리(134)를 포함할 수 있다.

프로그램(140)은 메모리(130)에 소프트웨어로서 저장될 수 있으며, 예를 들면, 운영 체제(142), 미들 웨어(144) 또는 어플리케이션(146)을 포함할 수 있다.

입력 장치(150)는, 전자 장치(101)의 구성요소(예: 프로세서(120))에 사용될 명령 또는 데이터를 전자 장치(101)의 외부(예: 사용자)로부터 수신할 수 있다. 입력 장치(150)은, 예를 들면, 마이크, 마우스, 키보드, 또는 디지털 펜(예:스타일러스 펜)을 포함할 수 있다.

음향 출력 장치(155)는 음향 신호를 전자 장치(101)의 외부로 출력할 수 있다. 음향 출력 장치(155)는, 예를 들면, 스피커 또는 리시버를 포함할 수 있다. 스피커는 멀티미디어 재생 또는 녹음 재생과 같이 일반적인 용도로 사용될 수 있고, 리시버는 착신 전화를 수신하기 위해 사용될 수 있다. 일실시 예에 따르면, 리시버는 스피커와 별개로, 또는 그 일부로서 구현될 수 있다.

표시 장치(160)는 전자 장치(101)의 외부(예: 사용자)로 정보를 시각적으로 제공할 수 있다. 표시 장치(160)은, 예를 들면, 디스플레이, 홀로그램 장치, 또는 프로젝터 및 해당 장치를 제어하기 위한 제어 회로를 포함할 수 있다. 일실시 예에 따르면, 표시 장치(160)는 터치를 감지하도록 설정된 터치 회로(touch circuitry), 또는 상기 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 센서 회로(예: 압력 센서)를 포함할 수 있다.

오디오 모듈(170)은 소리를 전기 신호로 변환시키거나, 반대로 전기 신호를 소리로 변환시킬 수 있다. 일실시 예에 따르면, 오디오 모듈(170)은, 입력 장치(150)를 통해 소리를 획득하거나, 음향 출력 장치(155), 또는 전자 장치(101)와 직접 또는 무선으로 연결된 외부 전자 장치(예: 전자 장치(102)) (예: 스피커 또는 헤드폰))를 통해 소리를 출력할 수 있다.

센서 모듈(176)은 전자 장치(101)의 작동 상태(예: 전력 또는 온도), 또는 외부의 환경 상태(예: 사용자 상태)를 감지하고, 감지된 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 일실시 예에 따르면, 센서 모듈(176)은, 예를 들면, 제스처 센서, 자이로 센서, 기압 센서, 마그네틱 센서, 가속도 센서, 그립 센서, 근접 센서, 컬러 센서, IR(infrared) 센서, 생체 센서, 온도 센서, 습도 센서, 또는 조도 센서를 포함할 수 있다.

인터페이스(177)는 전자 장치(101)이 외부 전자 장치(예: 전자 장치(102))와 직접 또는 무선으로 연결되기 위해 사용될 수 있는 하나 이상의 지정된 프로토콜들을 지원할 수 있다. 일실시 예에 따르면, 인터페이스(177)는, 예를 들면, HDMI(high definition multimedia interface), USB(universal serial bus) 인터페이스, SD카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.

연결 단자(178)는, 그를 통해서 전자 장치(101)가 외부 전자 장치(예: 전자 장치(102))와 물리적으로 연결될 수 있는 커넥터를 포함할 수 있다. 일실시 예에 따르면, 연결 단자(178)은, 예를 들면, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예: 헤드폰 커넥터)를 포함할 수 있다.

햅틱 모듈(179)은 전기적 신호를 사용자가 촉각 또는 운동 감각을 통해서 인지할 수 있는 기계적인 자극(예: 진동 또는 움직임) 또는 전기적인 자극으로 변환할 수 있다. 일실시 예에 따르면, 햅틱 모듈(179)은, 예를 들면, 모터, 압전 소자, 또는 전기 자극 장치를 포함할 수 있다.

카메라 모듈(180)은 정지 영상 및 동영상을 촬영할 수 있다. 일실시 예에 따르면, 카메라 모듈(180)은 하나 이상의 렌즈들, 이미지 센서들, 이미지 시그널 프로세서들, 또는 플래시들을 포함할 수 있다.

전력 관리 모듈(188)은 전자 장치(101)에 공급되는 전력을 관리할 수 있다. 일실시 예에 따르면, 전력 관리 모듈(188)은, 예를 들면, PMIC(power management integrated circuit)의 적어도 일부로서 구현될 수 있다.

배터리(189)는 전자 장치(101)의 적어도 하나의 구성 요소에 전력을 공급할 수 있다. 일실시 예에 따르면, 배터리(189)는, 예를 들면, 재충전 불가능한 1차 전지, 재충전 가능한 2차 전지 또는 연료 전지를 포함할 수 있다.

통신 모듈(190)은 전자 장치(101)와 외부 전자 장치(예: 전자 장치(102), 전자 장치(104), 또는 서버(108))간의 직접(예: 유선) 통신 채널 또는 무선 통신 채널의 수립, 및 수립된 통신 채널을 통한 통신 수행을 지원할 수 있다. 통신 모듈(190)은 프로세서(120)(예: 어플리케이션 프로세서)와 독립적으로 운영되고, 직접(예: 유선) 통신 또는 무선 통신을 지원하는 하나 이상의 커뮤니케이션 프로세서를 포함할 수 있다. 일실시 예에 따르면, 통신 모듈(190)은 무선 통신 모듈(192)(예: 셀룰러 통신 모듈, 근거리 무선 통신 모듈, 또는 GNSS(global navigation satellite system) 통신 모듈) 또는 유선 통신 모듈(194)(예: LAN(local area network) 통신 모듈, 또는 전력선 통신 모듈)을 포함할 수 있다. 이들 통신 모듈 중 해당하는 통신 모듈은 제 1 네트워크(198)(예: 블루투스, WiFi direct 또는 IrDA(infrared data association) 같은 근거리 통신 네트워크) 또는 제 2 네트워크(199)(예: 셀룰러 네트워크, 인터넷, 또는 컴퓨터 네트워크(예: LAN 또는 WAN)와 같은 원거리 통신 네트워크)를 통하여 외부 전자 장치와 통신할 수 있다. 이런 여러 종류의 통신 모듈들은 하나의 구성 요소(예: 단일 칩)으로 통합되거나, 또는 서로 별도의 복수의 구성 요소들(예: 복수 칩들)로 구현될 수 있다. 무선 통신 모듈(192)은 가입자 식별 모듈(196)에 저장된 가입자 정보(예: 국제 모바일 가입자 식별자(IMSI))를 이용하여 제 1 네트워크(198) 또는 제 2 네트워크(199)와 같은 통신 네트워크 내에서 전자 장치(101)를 확인 및 인증할 수 있다.

안테나 모듈(197)은 신호 또는 전력을 외부(예: 외부 전자 장치)로 송신하거나 외부로부터 수신할 수 있다. 일실시 예에 따르면, 안테나 모듈은 서브스트레이트(예: PCB) 위에 형성된 도전체 또는 도전성 패턴으로 이루어진 방사체를 포함하는 하나의 안테나를 포함할 수 있다. 일실시 예에 따르면, 안테나 모듈(197)은 복수의 안테나들을 포함할 수 있다. 이런 경우, 제 1 네트워크(198) 또는 제 2 네트워크(199)와 같은 통신 네트워크에서 사용되는 통신 방식에 적합한 적어도 하나의 안테나가, 예를 들면, 통신 모듈(190)에 의하여 상기 복수의 안테나들로부터 선택될 수 있다. 신호 또는 전력은 상기 선택된 적어도 하나의 안테나를 통하여 통신 모듈(190)과 외부 전자 장치 간에 송신되거나 수신될 수 있다. 어떤 실시 예에 따르면, 방사체 이외에 다른 부품(예: RFIC)이 추가로 안테나 모듈(197)의 일부로 형성될 수 있다.

상기 구성요소들 중 적어도 일부는 주변 기기들간 통신 방식(예: 버스, GPIO(general purpose input and output), SPI(serial peripheral interface), 또는 MIPI(mobile industry processor interface))를 통해 서로 연결되고 신호(예: 명령 또는 데이터)를 상호간에 교환할 수 있다.

일 실시 예에 따르면, 명령 또는 데이터는 제 2 네트워크(199)에 연결된 서버(108)를 통해서 전자 장치(101)와 외부의 전자 장치(104)간에 송신 또는 수신될 수 있다. 전자 장치(102, 104) 각각은 전자 장치(101)와 동일한 또는 다른 종류의 장치일 수 있다. 일실시 예에 따르면, 전자 장치(101)에서 실행되는 동작들의 전부 또는 일부는 외부 전자 장치들(102, 104, 또는 108) 중 하나 이상의 외부 장치들에서 실행될 수 있다. 예를 들면, 전자 장치(101)가 어떤 기능이나 서비스를 자동으로, 또는 사용자 또는 다른 장치로부터의 요청에 반응하여 수행해야 할 경우에, 전자 장치(101)는 기능 또는 서비스를 자체적으로 실행시키는 대신에 또는 추가적으로, 하나 이상의 외부 전자 장치들에게 그 기능 또는 그 서비스의 적어도 일부를 수행하라고 요청할 수 있다. 상기 요청을 수신한 하나 이상의 외부 전자 장치들은 요청된 기능 또는 서비스의 적어도 일부, 또는 상기 요청과 관련된 추가 기능 또는 서비스를 실행하고, 그 실행의 결과를 전자 장치(101)로 전달할 수 있다. 전자 장치(101)는 상기 결과를, 그대로 또는 추가적으로 처리하여, 상기 요청에 대한 응답의 적어도 일부로서 제공할 수 있다.. 이를 위하여, 예를 들면, 클라우드 컴퓨팅, 분산 컴퓨팅, 또는 클라이언트-서버 컴퓨팅 기술이 이용될 수 있다.

도 2는 일 실시 예에 따른, 인공지능 가상 비서 서비스를 제공하기 위한 시스템을 설명하기 위한 도면이다.

다양한 실시 예에 따라, 인공지능 가상 비서 서비스를 제공하기 위한 시스템(1000)은 전자 장치(101)(예: 도 1의 전자 장치(101), 이하 '사용자의 단말 장치(101)로 지칭하기로 함), 응답 생성을 위한 전자 장치(108)(예: 도 1 의 서버(108), 이하 '서버(108)'로 지칭하기로 함) 및 전자 장치(201)(이하 '개발자의 단말 장치(201)'로 지칭하기로 함) 중 적어도 하나를 포함 할 수 있다. 다양한 실시 예에 따라, 전자 장치(201)는 도 1의 전자 장치(101)과 적어도 일부가 유사한 장치일 수 있다. 예를 들어, 전자 장치(201)는 컴퓨터 장치를 포함할 수 있으나, 이에 한정되지 않는다.

다양한 실시 예에 따라, 사용자의 단말 장치(101)는 음성 입력 모듈(150)(예: 도 1의 입력 장치(150)), 디스플레이(160)(예: 도 1의 표시 장치(160)) 및 프로세서(120)(예: 도 1의 프로세서(120))를 포함할 수 있다.

다양한 실시 예에 따라, 사용자의 단말 장치(101)는 음성 입력 모듈(150)을 통해 사용자의 발화 음성을 수신할 수 있다. 예를 들어, 음성 입력 모듈(150)은 마이크일 수 있다. 입력 모듈(150)은 사용자의 단말 장치(101)에 포함된 것으로 도시되었지만 이에 한정하는 것은 아니다. 예를 들어, 사용자의 단말 장치(101)와 연결된 외부의 마이크를 포함할 수도 있다. 일 실시예에서, 사용자의 단말 장치(101)는 사용자로부터 인공지능 가상 비서 서비스를 제공하기 위한 어플리케이션의 실행을 나타내는 요청을 수신하고 상기 어플리케이션을 실행하여 마이크를 통해 사용자 발화 음성을 수신할 수 있다.

다양한 실시 예에 따라, 사용자의 단말 장치(101)는 통신부(미도시)(예: 도 1 의 통신 모듈(190))를 통해 수신된 사용자 발화 음성을 서버(108)에 전송할 수 있다.

다양한 실시 예에 따라, 서버(108)는 ASR 모듈(210), 감정 및 의도 이해 모듈(220), 응답 생성 모듈(230) 및 메모리(240)를 포함할 수 있다. 다양한 실시 예에 따라, ASR 모듈(210), 감정 및 의도 이해 모듈(220) 또는 응답 생성 모듈(230)은 서버(108)의 적어도 하나의 프로세서(20)에 포함될 수 있다. 예를 들어, 프로세서(20)에 의해 실행되는 소프트웨어로 포함될 수 있다. 또 다른 실시 예로, 서버(108)는 둘 이상의 서버로 구성될 수 있으며, ASR 모듈(210), 감정 및 의도 이해 모듈(220) 또는 응답 생성 모듈(230)의 적어도 일부의 동작은 서로 다른 서버에서 수행될 수도 있다.

다양한 실시 예에 따라, 서버(108)는 통신부(미도시)를 통해 사용자의 단말 장치(101)로부터 사용자 발화 음성을 수신하면, ASR(automatic speech recognition) 모듈(210)을 통해 수신된 사용자 발화 음성을 발화 텍스트로 변환할 수 있다.

다양한 실시 예에 따라, ASR 모듈은, 수신된 사용자 발화 음성(예컨대, 사용자 문의)을 텍스트 데이터로 변환할 수 있다. 예를 들어, ASR 모듈은 발화 인식 모듈을 포함할 수 있다. 상기 ASR 모듈은 음향(acoustic) 모델 및 언어(language) 모델을 포함할 수 있다. 예를 들어, 음향 모델은 발성에 관련된 정보를 포함할 수 있고, 언어 모델은 단위 음소 정보 및 단위 음소 정보의 조합에 대한 정보를 포함할 수 있다. ASR 모듈은 발성에 관련된 정보 및 단위 음소 정보에 대한 정보를 이용하여 사용자 발화를 텍스트 데이터로 변환할 수 있다.

한편, 도 2에서는 사용자 발화 음성이 입력되면, ASR 모듈(210)을 통해 사용자 발화 음성에 대한 발화 텍스트를 획득하는 내용만이 개시되어 있으나, 다른 실시 예에서, 인공지능 가상 비서 기능 실행 후 사용자는 텍스트 입력을 통해 질의를 입력할 수 있으며, 텍스트가 입력된 경우에는 입력된 텍스트를 감정 및 의도 이해 모듈(220)로 입력할 수도 있다.

다양한 실시 예에 따라, 서버(108)는 감정 및 의도 이해 모듈(220)을 통해 수신된 사용자 발화 음성의 의도 및 감정 정보를 획득할 수 있다. 감정 및 의도 이해 모듈(220)은 메모리(240)에 포함된 학습된 인공지능 모델을 이용할 수 있으며, 학습된 인공지능 모델은 텍스트 및 음성을 입력 데이터로 하여 입력된 텍스트의 의도 및 감정 정보를 출력할 수 있다. 예를 들어, 서버(108)는 수신된 사용자 발화 음성 및 ASR 모듈(210)로부터 획득된 발화 텍스트를 감정 및 의도 이해 모듈(220)에 입력하여 사용자 발화 음성의 의도 및 감정 정보를 획득할 수 있다. 예를 들어, 감정 정보는 사용자 발화 음성에서 느껴지는 기쁨, 슬픔, 분노와 같은 감정 상태를 나타내는 정보를 포함할 수 있다.

다양한 실시 예에 따라, 감정 및 의도 이해 모듈(220)은 자연어 감정 이해 모듈(221), 음성 감정 이해 모듈(222) 및 발화 의도 이해 모듈(223)을 포함할 수 있다.

다양한 실시 예에 따라, 자연어 감정 이해 모듈(221)은 발화 텍스트의 언어적 정보에서 제1 감정 정보를 획득할 수 있다. 예를 들어, 자연어 감정 이해 모듈(221)은 발화 텍스트에 포함된 특정 단어를 기반으로 제1 감정 정보를 획득할 수 있다. 예를 들어, 발화 텍스트가 "좋은 아침이야"인 경우, 자연어 감정 이해 모듈(221)은 발화 텍스트에 포함된 "좋은", "아침"을 기반으로 "happy"의 제1 감정 정보를 획득할 수 있다.

또 다른 실시 예로, 자연어 감정 이해 모듈(221)은 대화 문맥이 유지되는 상황에서는 이전 응답에 대한 긍정 또는 부정 등의 상호 작용에 대한 정보를 제1 감정 정보로 획득할 수도 있다.

다양한 실시 예에 따라, 자연어 감정 이해 모듈(221)로부터 발화 텍스트의 제1 감정 정보를 획득할 수 없다면, 감정 및 의도 이해 모듈(220)은, 음성 감정 이해 모듈(222)에서 획득된 제2 감정 정보만을 발화 텍스트의 감정 정보로 획득할 수 있다.

다양한 실시 예에 따라, 음성 감정 이해 모듈(222)은 수신된 사용자 발화 음성의 비언어적 정보에서 제2 감정 정보를 획득할 수 있다. 예를 들어, 음성 감정 이해 모듈(222)은 사용자 발화 음성의 속도, 강세, 톤, 억양 등을 분석하여 제2 감정 정보를 획득할 수 있다. 예를 들어, 음성 감정 이해 모듈(222)은 사용자 발화 음성의 스펙트럼을 분석하여 주파수 특성을 획득할 수 있다. 예를 들어, 음성 감정 이해 모듈(222)은 사용자 발화 음성의 주파수, 진폭, 주기, 데시벨 중 적어도 하나를 포함하는 사용자 발화 음성의 특성을 이용하여 사용자 발화 음성의 높낮이와 같은 주파수 특성을 획득하고, 주파수 및/또는 진폭 주기의 변화를 이용하여 음성의 높낮이 변화와 같은 주파수 특성을 획득할 수 있다.

다양한 실시 예에 따라, 음성 감정 이해 모듈(222)은 획득된 사용자 발화 음성의 높낮이 및 높낮이의 변화에 기초하여 사용자 발화 음성에 대응되는 속도, 강세, 톤, 억양 중 적어도 하나를 확인하고, 확인된 사용자 발화 음성의 속도, 강세, 톤, 억양 등에 기초하여 사용자 발화 음성의 제2 감정 정보를 획득할 수 있다. 예를 들어, 발화 텍스트가 "좋은 아침이야"인 경우, 음성 감정 이해 모듈(222)은 발화 음성의 속도, 강세, 톤, 억양 중 적어도 하나(예: 높은 톤, 흥얼거리는 듯한 높낮이 변화)를 기반으로 "happy"의 제2 감정 정보를 획득할 수 있다.

다양한 실시 예에 따라, 감정 및 의도 이해 모듈(220)은, 제1 감정 정보 및 제2 감정 정보에 기초하여 세분화된 감정 정보를 획득할 수 있다. 예를 들어, 감정 및 의도 이해 모듈(220)은, 제1 감정 정보 및 제2 감정 정보에 기초하여 "angry"의 정도를 포함한 감정 정보를 획득할 수 있다. 또 다른 실시 예로, 감정 및 의도 이해 모듈(220)은, 제1 감정 정보 및 제2 감정 정보의 감정이 다른 경우, 제2 감정 정보를 우선하거나, 각 감정 정보의 가중치를 고려하여 제1 감정 정보 또는 제2 감정 정보 중 가중치가 높은 감정 정보를 선택할 수도 있다.

한편, 이상에서는 자연어 감정 이해 모듈(221) 및 음성 감정 이해 모듈(222)은 별개의 구성인 것으로 도시하였으나, 다양한 실시 예에 따라, 발화 텍스트 및 사용자 발화 음성을 입력 데이터로 하는 하나의 인공지능 모델로 구현될 수도 있다.

다양한 실시 예에 따라, 발화 의도 이해 모듈(223)은 ASR 모듈(221)로부터 출력된 발화 텍스트에 기초하여 사용자 의도를 파악할 수 있는 자연어 이해(natural language understanding, NLU) 모듈일 수 있다.

다양한 실시 예에 따라, 발화 의도 이해 모듈(223)은 문법적 분석(syntactic analyze) 또는 의미적 분석(semantic analyze)을 수행하여 사용자 의도를 파악할 수 있다. 문법적 분석은 사용자 입력을 문법적 단위(예: 단어, 구, 형태소)로 나누고, 나누어진 단위가 어떤 문법적인 요소를 갖는지 파악할 수 있다. 의미적 분석은 의미(semantic) 매칭, 룰(rule) 매칭, 포뮬러(formula) 매칭 중 적어도 하나의 방법을 이용하여 수행할 수 있다. 이에 따라, 자연어 이해 모듈은 사용자 입력이 어느 도메인(domain), 의도(intent) 또는 의도를 표현하는데 필요한 파라미터(parameter)(또는, 슬롯(slot))를 획득할 수 있다.

다양한 실시 예에 따라, 발화 의도 이해 모듈(223)은 도메인(domain), 의도(intend) 및 의도를 파악하는데 필요한 파라미터(parameter)(또는, 슬롯(slot))로 나누어진 매칭 규칙을 이용하여 사용자의 의도 및 파라미터를 결정할 수 있다. 예를 들어, 상기 하나의 도메인(예: 알람)은 복수의 의도(예: 알람 설정, 알람 해제)를 포함할 수 있고, 하나의 의도는 복수의 파라미터(예: 시간, 반복 횟수, 알람음)을 포함할 수 있다. 복수의 룰은, 예를 들어, 하나 이상의 필수 요소 파라미터를 포함할 수 있다. 다양한 실시 예에 따라, 매칭 규칙은 메모리(240)에 포함된 자연어 이해 데이터베이스(natural language understanding database)(NLU DB)에 저장될 수 있다.

다양한 실시 예에 따라, 발화 의도 이해 모듈(223)은 형태소, 구와 같은 언어적 특성(예: 문법적 요소)을 이용하여 사용자 입력으로부터 추출된 단어의 의미를 파악하고, 파악된 단어의 의미를 도메인 및 의도에 매칭시켜 사용자의 의도를 결정할 수 있다. 예를 들어, 발화 의도 이해 모듈(223)은 각각의 도메인 및 의도에 사용자 입력에서 추출된 단어가 얼마나 포함되어 있는 지를 계산하여 사용자 의도를 결정할 수 있다. 다양한 실시 예에 따르면, 발화 의도 이해 모듈(223)은 의도를 파악하는데 기초가 된 단어를 이용하여 사용자 입력의 파라미터를 결정할 수 있다. 다양한 실시 예에 따르면, 발화 의도 이해 모듈(223)은 사용자 입력의 의도를 파악하기 위한 언어적 특성이 저장된 자연어 이해 데이터베이스를 이용하여 사용자의 의도를 결정할 수 있다.

다양한 실시 예에 따라, 응답 생성 모듈(230)은 감정 및 의도 이해 모듈(220)로부터 출력된 발화 텍스트의 의도 및 감정 정보에 기초하여 발화 텍스트에 대응되는 응답 텍스트를 획득할 수 있다. 예를 들어, 응답 생성 모듈(230)은 메모리(240)에 포함된 응답 데이터베이스에 저장된 복수의 응답 텍스트 중 발화 텍스트의 의도 및 감정 정보에 기초하여 발화 텍스트에 대응되는 응답 텍스트를 선택할 수 있다. 다양한 실시 예에 따라, 응답 데이터베이스에 포함된 복수의 응답 텍스트 중 적어도 일부는 개발자의 단말 장치(201)로부터 수신된 후, 응답 데이터베이스에 저장된 것일 수 있다. 다양한 실시 예에 따라, 응답 데이터베이스에 포함된 복수의 응답 텍스트 중 적어도 일부는 텍스트만으로 구성된 것이고, 적어도 일부는 마크업 언어(markup language)가 부가된 텍스트로 구성된 것일 수 있다. 마크업 언어는 응답 텍스트의 배치, 크기, 모양과 같은 표시 양식을 표현하기 위한 언어를 지칭할 수 있다.

다양한 실시 예에 따라, 응답 생성 모듈(230)은 획득된 응답 텍스트의 표시와 관련된 마크업 언어를 획득할 수 있다. 예를 들어, 획득된 응답 텍스트가 마크업 언어가 포함되지 않은 텍스트만으로 구성된 경우, 응답 생성 모듈(230)은 마크업 언어 데이터베이스에서 마크업 언어를 획득하거나, 획득된 응답 텍스트가 마크업 언어를 포함하고 있으면, 포함된 마크업 언어를 획득하거나, 획득된 응답 텍스트가 마크업 언어를 포함하고 있어도 마크업 언어 데이터베이스에서 마크업 언어를 획득할 수도 있다.

다양한 실시 예에 따라, 응답 생성 모듈(230)은 발화 텍스트의 의도, 감정 정보 또는 응답 텍스트 중 적어도 하나에 기초하여 응답 텍스트의 텍스트 출력 단위에 대한 정보를 포함하는 마크업 언어를 획득할 수 있다. 예를 들어, 텍스트 출력 단위는, 응답 텍스트의 재생(예: 표시)와 관련된 단위이며, 음소(phoneme) 단위, 자소(consonant & vowel) 단위, 음절(syllable) 단위 또는 어절(word) 단위 중 적어도 하나가 선택되는 것일 수 있다. 다양한 실시 예에 따라, 각국의 언어의 특징에 따라 텍스트 출력 단위는 획(stroke) 단위, 글자(character) 단위를 더 포함할 수도 있다.

다양한 실시 예에 따라, 마크업 언어는 텍스트의 재생 속도, 글자체, 글자색, 글자 크기 또는 텍스트 재생 일시 정지 중 적어도 하나의 정보를 더 포함할 수 있다. 다양한 실시 예에 따라, 마크업 언어는 응답 텍스트의 적어도 일부의 오타를 표시하고, 오타를 삭제 후 상기 응답 텍스트의 적어도 일부를 표시하는 동작에 대한 정보를 포함할 수 있다. 마크업 언어의 다양한 실시 예는 이하 도 7 내지 도 11을 참고하여 설명하기로 한다.

다양한 실시 예에 따라, 응답 생성 모듈(230)은 응답 텍스트에 대응되는 음성 출력의 속도에 기초하여 응답 텍스트에 대응되는 텍스트 출력(예: 표시)의 속도에 대한 정보를 포함하는 마크업 언어를 획득할 수 있다. 예를 들어, 응답 생성 모듈(230)은 응답 텍스트 중 각 텍스트에 대한 음성 출력과 응답 텍스트 중 각 텍스트에 대한 텍스트 표시가 시간적으로 일치하도록 마크업 언어를 획득할 수 있다.

다양한 실시 예에 따르면, 응답 생성 모듈(230)은 메모리(240)에 저장된 복수의 마크업 언어 중 응답 텍스트, 발화 텍스트의 의도 또는 감정 정보 중 적어도 하나에 기초하여 적어도 하나의 마크업 언어를 선택할 수 있다. 예를 들어, 응답 생성 모듈(230)은 메모리(240)에 포함된 마크업 언어 데이터베이스에 저장된 복수의 마크업 언어 중 응답 텍스트, 발화 텍스트의 의도 또는 감정 정보 중 적어도 하나에 기초하여 적어도 하나의 마크업 언어를 선택할 수 있다.

다양한 실시 예에 따르면, 메모리(240)에 저장된 복수의 마크업 언어 각각은 응답 텍스트, 발화 텍스트의 의도 또는 감정 정보 중 적어도 하나와 매칭되어 저장된 것일 수 있다. 예를 들어, 복수의 마크업 언어 각각은 응답 텍스트, 발화 텍스트의 의도 또는 감정 정보 중 적어도 하나에 대한 감정적 교류를 포함한 응답이 되도록 매칭된 것일 수 있다.

다양한 실시 예에 따라, 응답 생성 모듈(230)은 저장된 복수의 마크업 언어 중 응답 텍스트, 발화 텍스트의 의도 또는 감정 정보에 매칭되는 마크업 언어가 없으면, 응답 텍스트, 발화 텍스트의 의도 또는 감정 정보와 가장 유사도가 높은 응답 텍스트, 발화 텍스트의 의도 또는 감정 정보 중 적어도 하나에 대응되는 마크업 언어를 선택할 수 있다. 예를 들어, 응답 생성 모듈(230)은 저장된 복수의 마크업 언어 중 응답 텍스트 또는, 의도 및 감정 이해 모듈(220)에 의해 획득된 발화 텍스트의 의도 또는 감정 정보 중 적어도 하나에 매칭되는 마크업 언어가 없으면, 저장된 복수의 마크업 언어 각각에 매칭된 응답 텍스트, 발화 텍스트의 의도 또는 감정 정보들 중 가장 유사도가 높은 응답 텍스트, 의도 또는 감정 정보를 확인하고, 확인된 응답 텍스트, 의도 또는 감정 정보에 대응되는 마크업 언어를 선택할 수 있다. 다양한 실시 예에 따라, 유사도가 가장 높다는 것은 응답 텍스트, 의도 또는 감정 정보를 식별하기 위한 파라미터 값의 차이가 가장 작은 것을 의미할 수 있다.

다양한 실시 예에 따라, 복수의 마크업 언어 중 적어도 일부는 응답 텍스트와 매칭된 것일 수 있으며, 개발자의 단말 장치(201)로부터 수신된 응답 텍스트 및 매칭된 마크업 언어가 메모리(240)에 포함된 마크업 언어 데이터베이스에 저장된 것일 수 있다. 예를 들어, 개발자의 단말 장치(201)는 개발자로부터 응답 입력 모듈(251)을 통해 응답 텍스트를 수신할 수 있다. 다양한 실시 예에 따라, 응답 입력 모듈(251)은 개발자가 응답 텍스트를 입력할 수 있는 키보드, 마우스, 터치 스크린, 디스플레이 중 적어도 하나를 포함할 수 있다. 예를 들어, 개발자의 단말 장치(201)는 개발자로부터 디스플레이를 통해 표시된 응답 입력 화면을 통해 응답 텍스트를 입력 받을 수 있다. 응답 입력 화면의 일 실시예에 대해서는 이하 도 13을 참조하여 설명하기로 한다.

다양한 실시 예에 따라, 개발자로부터 응답 입력 모듈(251)을 통해 응답 텍스트가 입력되면, 개발자의 단말 장치(201)(예: 개발자의 단말 장치의 프로세서(250))는 개발자의 단말 장치(201)의 통신부를 통해 서버(108)에 입력된 응답 텍스트를 전송할 수 있다.

다양한 실시 예에 따라, 서버(108)(예: 서버의 프로세서(20))는 개발자의 단말 장치(201)로부터 응답 텍스트를 수신하면, 메모리(240)에 저장된 복수의 응답 텍스트 중 수신된 응답 텍스트와의 유사도가 기설정된 값 이상인 적어도 하나의 응답 텍스트를 확인할 수 있다.

다양한 실시 예에 따라, 서버(108)는 메모리(240)에 저장된 복수의 마크업 언어 중 수신된 응답 텍스트와의 유사도가 기설정된 값 이상인 적어도 하나의 응답 텍스트에 대해 사용된 적어도 하나의 마크업 언어를 응답 텍스트에 대한 마크업 언어로 개발자의 단말 장치(201)에 제공할 수 있다. 예를 들어, 응답 텍스트와의 유사도는, 텍스트 자체 또는 텍스트의 의도 중 적어도 하나의 유사도를 의미할 수 있다.

다양한 실시 예에 따라, 개발자로부터 응답 입력 모듈(251)을 통해 응답 텍스트뿐만 아니라 감정 정보가 더 입력되면, 서버(108)는 응답 텍스트 뿐만 아니라, 감정 정보를 더 고려하여 적어도 하나의 마크업 언어를 개발자의 단말 장치(201)에 제공할 수 있다.

다양한 실시 예에 따라, 개발자의 단말 장치(201)의 마크업(Markup) 추천 모듈(252)은 서버(108)로부터 수신된 적어도 하나의 마크업 언어를 추천 마크업 언어로써 단말 장치(201)의 디스플레이에 표시할 수 있다. 예를 들어, 개발자의 단말 장치(201)의 마크업 추천 모듈(252)은 응답 입력 화면을 통해 개발자의 단말 장치(201)에 저장된 또는 서버(108)로부터 수신된 적어도 하나의 마크업 언어를 추천 마크업 언어로써 개발자에게 제공할 수 있다.

다양한 실시 예에 따라, 마크업(Markup) 추천 모듈(252)은 개발자의 단말 장치(201)의 프로세서(250)에 포함될 수 있다. 예를 들어, 소프트웨어로서 프로세서에 의해 실행될 수 있다.

다양한 실시 예에 따라, 개발자는 입력한 응답 텍스트에 대한 마크업 언어로, 추천된 적어도 하나의 마크업 언어를 선택하거나, 응답 입력 모듈(251)을 통해 직접 입력할 수 있다.

다양한 실시 예에 따라, 개발자의 단말 장치(201)는 선택되거나 입력된 마크업 언어를 서버(108)로 전송하고, 서버(108)는 상기 선택된 마크업 언어 또는 상기 입력된 마크업 언어를 개발자의 단말 장치(201)에서 수신된 응답 텍스트와 매칭하여 메모리(240)에 저장할 수 있다.

다양한 실시 예에 따라, 응답 생성 모듈(230)은 획득된 마크업 언어를 획득된 응답 텍스트에 부가하고, 사용자의 전자 장치(101)로 제공할 수 있다. 예를 들어, 응답 생성 모듈(230)은 마크업 언어가 부가된 응답 텍스트를 서버(108)의 통신부(미도시)를 통해 사용자의 전자 장치(101)로 전송할 수 있다.

다양한 실시 예에 따라, 사용자의 전자 장치(101)의 프로세서(120)는 서버(108)로부터 마크업 언어가 부가된 응답 텍스트가 수신되면, 마크업 언어를 반영하여 응답 텍스트를 표시하도록 디스플레이(160)를 제어할 수 있다. 예를 들어, 프로세서(120)는 응답 텍스트에 부가된 텍스트 출력 단위에 대한 정보를 포함하는 마크업 언어에 기초하여, 응답 텍스트를 음소 단위, 자소 단위, 음절 단위 또는 어절 단위 중 선택된 적어도 하나의 텍스트 출력 단위로 순차적으로 디스플레이(160)에 표시할 수 있다. 마크업 언어에 따른 텍스트의 출력 형태의 다양한 실시예들은 는 이하 도 7 내지 도 11을 참조하여 설명하기로 한다.

다양한 실시 예에 따라, 프로세서(120)는 서버(108)로부터 마크업 언어가 부가된 응답 텍스트가 수신되면, 부가된 마크업 언어로부터 재생에 필요한 태그를 추출하고, 추출된 태그를 이용하여 응답 텍스트를 디스플레이(160)에 표시할 수 있다.

다양한 실시 예에 따라, 서버(108)의 적어도 일부의 동작이 사용자의 단말 장치(101)에서 수행되도록 구현될 수도 있다. 예를 들어, ASR 모듈(210), 의도 및 감정 이해 모듈(220) 또는 응답 생성 모듈(230) 적어도 일부의 동작이 사용자의 단말 장치(101)에서 구현될 수도 있으며, 생성된 응답 텍스트는 디스플레이(160)를 통해 표시될 수 있다.

상술한 바와 같이, 다양한 실시 예에 따라, 사용자 발화 음성에 대한 응답을 제공함에 있어서, 사용자의 발화 의도 감정 정보, 응답 텍스트 중 적어도 하나에 따라 응답 텍스트에 마크업 언어를 부가하고, 마크업 언어를 반영하여 응답 텍스트를 표시함으로써, 사용자는 인공지능 가상 비서와의의 향상된 감정적인 유대(emotional bonding)를 경험할 수 있다.

도 3은 일 실시 예에 따른, 인공지능 가상 비서 서비스의 텍스트 출력 동작을 설명하기 위한 도면이다.

다양한 실시 예에 따르면, 동작 310 내지 동작 350은 전자 장치(예: 도 1의 서버(108))의 프로세서(20)에서 수행되는 것으로 이해될 수 있다.

다양한 실시 예에 따르면, 전자 장치(예: 도 1의 서버(108))는, 310 동작에서, 사용자 발화 음성에 대응되는 발화 텍스트를 획득할 수 있다. 다양한 실시 예에 따라, 사용자 발화 음성은 전자 장치(예: 도 1의 서버(108))와 연결된 사용자의 단말 장치(예: 도 2의 사용자의 단말 장치(101))에 구비된 마이크를 통해 입력된 것으로, 통신부를 통해 사용자의 단말 장치(101)로부터 수신된 것일 수 있다. 다양한 실시 예에 따라, 전자 장치가 단말 장치로 구현되는 경우, 전자 장치에 구비된 마이크를 통해 사용자 발화 음성을 입력받을 수도 있다.

다양한 실시 예에 따라, 전자 장치(예: 도 1의 서버(108))는, ASR 모듈(예: 도 2의 ASR 모듈(210))을 통해 사용자 발화 음성에 대응되는 발화 텍스트를 획득할 수 있다. 예를 들어, 사용자 발화 음성이 "안녕"인 경우, 전자 장치(예: 도 1의 서버(108))는, 사용자 발화 음성에 대응되는 발화 텍스트인 "안녕"을 획득할 수 있다.

다양한 실시 예에 따라, 사용자의 단말 장치(예: 도 2의 사용자의 단말 장치(101))를 통해 사용자의 질의 텍스트가 입력된 경우, 사용자의 단말 장치(예: 도 2의 사용자의 단말 장치(101))는 질의 텍스트를 전자 장치(예: 도 1의 서버(108))에 전송하고, 전자 장치(예: 도 1의 서버(108))는 본 개시의 다양한 실시에들에 따라 수신된 질의 텍스트에 대한 응답을 획득할 수 있다.

다양한 실시 예에 따르면, 전자 장치(예: 도 1의 서버(108))는, 320 동작에서, 발화 음성 및 발화 텍스트의 의도 및 감정 정보를 획득할 수 있다. 예를 들어, 전자 장치(예: 도 1의 서버(108))는, 학습된 인공지능 모델을 이용하여 발화 음성 및 발화 텍스트의 의도 및 감정 정보를 획득할 수 있다. 다양한 실시 예에 따라, 학습된 인공지능 모델은 텍스트 및 음성을 입력 데이터로 하여 입력된 텍스트의 의도 및 감정 정보를 출력할 수 있다. 예를 들어, 학습된 인공지능 모델에 입력된 발화 텍스트가 "안녕"이면, 발화 텍스트의 의도로 "인사(greeting)" 및 감정 정보로 "행복(happy)"이 출력될 수 있다.

다양한 실시 예에 따르면, 전자 장치(예: 도 1의 서버(108))는, 330 동작에서, 발화 텍스트의 의도 및 감정 정보에 기초하여 발화 텍스트에 대한 응답 텍스트를 획득할 수 있다. 예를 들어, 전자 장치(예: 도 1의 서버(108))는 응답 데이터베이스에 저장된 복수의 응답 텍스트 중 발화 텍스트의 의도 및 감정 정보에 기초하여 발화 텍스트에 대한 응답 텍스트를 선택할 수 있다. 다양한 실시 예에 따라, 응답 데이터베이스에 저장된 복수의 응답 텍스트는 개발자에 의해 저장된 것일 수 있다. 예를 들어, 전자 장치(예: 도 1의 서버(108))는, 발화 텍스트의 의도인 "인사(greeting)" 및 감정 정보인 "행복(happy)"에 기초하여, 응답 텍스트인 "좋은 아침이에요"를 획득할 수 있다.

다양한 실시 예에 따르면, 전자 장치(예: 도 1의 서버(108))는, 340 동작에서, 발화 텍스트의 의도, 감정 정보 및 응답 텍스트에 기초하여 응답 텍스트의 텍스트 출력 단위에 대한 정보를 포함하는 마크업 언어를 획득할 수 있다. 예를 들어, 전자 장치(예: 도 1의 서버(108))는, 마크업 언어 데이터베이스에서 마크업 언어를 획득하거나, 획득된 응답 텍스트가 마크업 언어를 포함하고 있으면, 포함된 마크업 언어를 획득하거나, 획득된 응답 텍스트가 마크업 언어를 포함하고 있어도 마크업 언어 데이터베이스에서 마크업 언어를 획득할 수도 있다.

다양한 실시 예에 따르면, 전자 장치(예: 도 1의 서버(108))는, 사용자가 발화한 "안녕"의 의도, 감정 정보 또는 응답 텍스트 중 적어도 하나에 기초하여, [표 1]과 같이 마크업 언어를 획득할 수 있다. 예를 들어, 전자 장치(예: 도 1의 서버(108))는, 사용자의 발화 음성의 의도, 감정 정보 또는 응답 텍스트 중 적어도 하나에 기초하여 응답 타입을 결정하고, 결정된 응답 타입에 기초하여 마크업 언어를 획득할 수 있다.

의도	감정	응답 타입	마크업
인사	Happy	보통	<text>좋은 아침이에요</text>
인사	Angry	당황	<text> <typo replace=”좋은”> ㅈㅎ은</typo> <break time=”3s”>아침이에요</break> </text>
인사	Normal	차분	<text> <typewriter type=”syllable” time=0.01s> 좋은 아침이에요 </typewriter> </text>

다양한 실시 예에 따라, 전자 장치(예: 도 1의 서버(108))는, 발화 텍스트의 의도, 감정 정보 또는 응답 텍스트 중 적어도 하나에 기초하여 응답 텍스트의 텍스트 출력 단위에 대한 정보를 포함하는 마크업 언어를 획득할 수 있다. 예를 들어, 텍스트 출력 단위는, 응답 텍스트의 재생(예: 표시)와 관련된 단위이며, 음소 단위, 자소 단위, 음절 단위 또는 어절 단위 중 적어도 하나가 선택되는 것일 수 있다. 다양한 실시 예에 따라, 각국의 언어 특징에 기초하여 텍스트 출력 단위는 획 단위, 글자 단위를 더 포함할 수도 있다.

다양한 실시 예에 따라, 마크업 언어는 텍스트의 재생 속도, 글자체, 글자색, 글자 크기 또는 텍스트 재생 일시 정지 중 적어도 하나의 정보, 또는 응답 텍스트의 적어도 일부의 오타를 표시하고, 오타를 삭제 후 상기 응답 텍스트의 적어도 일부를 표시하는 동작에 대한 정보를 더 포함할 수 있다. 예를 들어, 사용자 발화 음성이 “친구 A의 연락처 빨리 알려줘”인 경우, 전자 장치(예: 도 1의 서버(108))는, 발화 텍스트의 의도가 ‘정보 요청’인 것으로 확인하고, 발화 텍스트에 “빨리”가 포함되어 있고, 사용자 발화 음성의 속도가 빠르고 톤이 높음에 기초하여 “조급함”이라는 감정 정보를 획득할 수 있다. 다양한 실시 예에 따라, 전자 장치(예: 도 1의 서버(108))는, 텍스트의 재생 속도가 빠르도록 마크업 언어를 획득할 수 있다.

다른 실시 예로, 마크업 언어에는 사용자를 놀라게 하기 위해 특정 텍스트의 글자 크기를 크게 표시하거나, 사용자에게 공포감을 조성하기 위해 특정 텍스트의 글자 색을 빨간색으로 표시하는 동작에 대한 정보가 포함될 수 있다. 또 다른 실시 예로, 전자 장치(예: 도 1의 서버(108))는, 사용자 발화 음성에서 획득된 사용자의 화난 감정 정보에 응답하여, 당황스러운 감정을 표현하기 위해 응답 텍스트의 적어도 일부의 오타를 표시하고, 오타를 삭제 후 상기 응답 텍스트의 적어도 일부를 표시하는 동작에 대한 정보가 포함된 마크업 언어를 획득할 수 있다.

또 다른 실시 예로, 사용자 발화 음성이 “내일 오전 11시 스케줄 뭐야?”인 경우, 전자 장치(예: 도 1의 서버(108))는 사용자 발화 텍스트 의도가 ‘정보 요청’인 것으로 판단하고, 응답 텍스트인 “내일 오전 11시 스케줄은, 친구 A와의 점심 약속입니다.”에 대하여, “내일 오전 11시 스케줄은,”은 글자 단위로 순차적으로 출력되고, “친구 A와의 점심 약속”은 한번에 출력되고, “입니다.”는 글자 단위로 순차적으로 출력되도록 마크업 언어를 획득할 수 있다. 이로 인해 전자 장치(예: 도 1의 서버(108))는 사용자가 인공지능 비서와 대화하는 느낌을 느끼도록 하면서도, 요청된 정보는 강조하여 제공할 수 있다.

또 다른 실시 예로, 사용자 발화 음성이 “뭐 재밌는 거 없을까”인 경우, 전자 장치(예: 도 1의 서버(108))는 사용자 발화 텍스트 의도가 ‘넌센스 퀴즈 풀기’인 것으로 판단하고, 응답 텍스트인 퀴즈 문제와 정답 사이에 일정 시간 동안 텍스트 출력이 일시 정지되도록 마크업 언어를 획득하여 사용자로 하여금 흥미를 유발하게 할 수 있다.

다양한 실시 예에 따라, 전자 장치(예: 도 1의 서버(108))는, 응답 텍스트에 대응되는 음성 출력의 속도에 기초하여 응답 텍스트에 대응되는 텍스트 출력(예: 표시)의 속도에 대한 정보를 포함하는 마크업 언어를 획득할 수도 있다.

다양한 실시 예에 따르면, 전자 장치(예: 도 1의 서버(108))는, 350 동작에서, 마크업 언어를 상기 응답 텍스트에 부가하여 제공할 수 있다. 예를 들어, 전자 장치(예: 도 1의 서버(108))는, 획득된 응답 텍스트에 획득된 마크업 언어를 부가하여 사용자의 단말 장치(예: 도 1의 전자 장치(101))에 전송할 수 있다. 다른 실시 예로, 전자 장치가 단말 장치로 구현되는 경우, 전자 장치는 전자 장치에 구비된 디스플레이를 통해 마크업 언어를 반영하여 응답 텍스트를 표시할 수 있다.

도 4는 텍스트 출력에 사용되는 마크업 언어의 다양한 실시 예를 설명하기 위한 도면이다.

다양한 실시 예에 따라, 마크업 언어는 복수의 태그(tag)로 구성되며, 응답 텍스트에 부가된 태그에 기초하여 응답 텍스트의 출력 형태가 다양해질 수 있다. 예를 들어, 응답 텍스트에 <text>가 부가되면, 마크업(markup)으로 확장된 텍스트인 것으로 식별될 수 있다.

다양한 실시 예에 따라, 응답 텍스트에 <typewriter>가 부가되면, 응답 텍스트 전체가 한꺼번에 표시되는 것이 아닌 한글자씩 순차적으로 표시되며, 텍스트 출력의 단위가 음소 단위, 자소 단위, 음절 단위, 어절 단위 중 적어도 하나일 수 있다. 다양한 실시 예에 따라, 각국의 언어 특징에 기초하여 텍스트 출력 단위에 획 단위, 글자 단위가 더 포함될 수 있다.

다양한 실시 예에 따라, 마크업 언어의 종류에는 오타를 내는 효과를 위한 태그인 <typo>, 지정된 시간 동안 텍스트 출력을 일시 정지하기 위한 태그인 <break>, 문장 사이에 텍스트 출력을 일시 정지하기 위한 태그인 <s> 등이 있으며, 별도의 태그가 아니지만 태그에 삽입될 수 있는 속성으로써, 타이핑 속도를 제어하기 위한 "time" 또는 주어진 시간 후에 글자를 변환할 수 있는 "replace-time" 이 포함될 수 있다. 마크업 언어는 상술한 예시에 한정되지 않으며, 태그 또는 속성에 대응되는 기능은 사용자에 의해 설정될 수도 있다.

도 5는 일 실시 예에 따른, 인공지능 가상 비서 서비스를 사용하는 단말 장치의 텍스트 출력 동작을 설명하기 위한 도면이다.

다양한 실시 예에 따르면, 동작 510 내지 동작 530은 단말 장치(예: 도 1의 전자 장치(101))의 프로세서(120)에서 수행되는 것으로 이해될 수 있다.

다양한 실시 예에 따르면, 단말 장치(예: 도 1의 전자 장치(101))는, 510 동작에서, 마이크로부터 수신된 사용자 발화 음성을 외부 서버(예: 서버(108))로 전송할 수 있다. 다양한 실시 예에 따라, 단말 장치(예: 도 1의 전자 장치(101))는, 단말 장치(예: 도 1의 전자 장치(101))에 구비된 마이크(예: 입력 장치(150))를 통해 사용자 발화 음성을 수신하거나, 단말 장치(예: 도 1의 전자 장치(101))에 연결된 외부 마이크를 통해 사용자 발화 음성을 수신할 수 있으며, 수신된 사용자 발화 음성을 통신부(예: 통신 모듈(190))을 통해 외부 서버(예: 서버(108))로 전송할 수 있다.

다양한 실시 예에 따르면, 단말 장치(예: 도 1의 전자 장치(101))는, 520 동작에서, 외부 서버(예: 서버(108))로부터 사용자 발화 음성에 대응되는 응답 텍스트를 수신할 수 있다. 다양한 실시 예에 따라, 단말 장치(예: 도 1의 전자 장치(101))는, 통신부(예: 통신 모듈(190))을 통해 외부 서버(예: 서버(108))로부터 텍스트 출력을 위한 마크업 언어가 부가된 응답 텍스트를 수신할 수 있다.

다양한 실시 예에 따르면, 단말 장치(예: 도 1의 전자 장치(101))는, 530 동작에서, 응답 텍스트에 부가된, 텍스트 출력 단위에 대한 정보를 포함하는 마크업 언어에 기초하여, 음소 단위, 자소 단위, 음절 단위 또는 어절 단위 중 선택된 적어도 하나의 텍스트 출력 단위로 상기 응답 텍스트를 표시할 수 있다. 예를 들어, 선택된 텍스트 출력 단위에 기초하여 응답 텍스트가 순차적으로 디스플레이(예: 표시 장치(160))에 표시될 수 있다.

다양한 실시 예에 따라, 응답 텍스트에 부가된 마크업 언어는 텍스트 재생 속도, 글자체, 글자 크기, 글자색 또는 텍스트 재생 일시 정지 중 적어도 하나를 더 포함할 수 있다.

도 6은 일 실시 예에 따른, 인공지능 가상 비서 서비스를 사용하는 단말 장치의 텍스트 출력 화면을 설명하기 위한 도면이다.

도 6을 참조하면, 다양한 실시 예에 따라, 단말 장치(예: 도 1의 전자 장치(101))의 화면(610, 620, 630, 640)에 표시되는 텍스트는, 입력된 사용자 발화 음성에 대응되는 응답 텍스트일 수 있다. 예를 들어, 사용자가 단말 장치(예: 도 1의 전자 장치(101)) 인공지능 가상 비서 서비스를 활성화하고, "뭐 재밌는 거 없을까?"라는 음성을 발화한 경우, 단말 장치(예: 도 1의 전자 장치(101))는 응답 생성을 위한 서버(예: 도 1의 서버(108))에 사용자 발화 음성을 전송하고, 서버(예: 도 1의 서버(108))로부터 전송된 사용자 발화 음성에 대한 응답 텍스트를 수신할 수 있다. 다양한 실시 예에 따라, 수신된 응답 텍스트에는 응답 텍스트, 사용자 발화 음성의 의도 또는 감정 정보 중 적어도 하나에 기초하여 선택된 텍스트 출력을 위한 마크업 언어가 포함될 수 있다. 예를 들어, 도 6을 참조하면, 마크업 언어는, 응답 텍스트인 "생각할 때마다 웃음이 나는 이야기에요. 발이 두 개 달린 소는? 이발소!", 발화 텍스트의 의도인 '넌센스 퀴즈 풀기' 또는 감정 정보인 '지루함' 중 적어도 하나에 기초하여 획득된 것 수 있다.

예를 들어, 수신된 응답 텍스트에는 아래 [표 2]과 같이 마크업 언어가 포함될 수 있다.

<text>
<s>생각할 때마다 웃음이 나는 이야기에요.</s>발이 두 개 달린 소는?<break time="3s">이발소!
</text>

다양한 실시 예에 따라, 단말 장치(예: 도 1의 전자 장치(101))는, 응답 생성을 위한 서버(예: 도 1의 서버(108))로부터 [표 2]과 같이 마크업 언어가 부가된 응답 텍스트를 수신하고, 부가된 마크업 언어를 분석하여 텍스트를 순차적으로 표시할 수 있다.

예를 들어, 단말 장치(예: 도 1의 전자 장치(101))는, <s> 태그에 기반하여 제1 화면(610)과 같이 첫번째 문장인 "생각할 때마다 웃음이 나는 이야기에요"를 표시하고 일시정지한 후, 제2 화면(620)과 같이 두번째 문장인 "발이 두 개 달린 소는?"을 표시할 수 있다. 단말 장치(예: 도 1의 전자 장치(101))는, <break time="3s"> 태그에 기반하여 제3 화면(630)과 같이 3초간 일시정지한 후, 제4 화면(640)과 같이 "이발소!"를 표시할 수 있다.

응답 텍스트가 퀴즈인 경우, 종래의 비교예에서는 퀴즈와 답이 한번에 표시되었던 반면, 상술한 바와 같이, 본 개시의 일 실시예에 따르면, 몇 초간 일시 정지 후 퀴즈의 정답을 표시하여 사용자의 기대를 높임으로써, 사용자가 인공지능 가상 비서 서비스와의 향상된 감정적인 유대(emotional bonding)를 경험할 수 있다.

도 7 내지 11은 일 실시 예에 따른, 마크업 언어에 따른 텍스트 출력 동작을 설명하기 위한 도면이다.

도 7을 참조하면, 다양한 실시 예에 따라, 마크업 언어가 부가된 응답 텍스트(710)에는 음소(phoneme) 단위의 텍스트 출력 단위가 포함될 수 있다. 음소는 의미 구별 기능을 갖는 음성 상의 최소 단위를 의미하는 것으로, 응답 텍스트인 "국물이 너무 맛있어요"는 응답 텍스트를 음성으로 들었을 때 소리로 구분할 수 있는 최소 단위로 순차적으로 표시될 수 있다.

예를 들어, 전자 장치(예: 도 2의 전자 장치(101))는 <typewriter type=”phoneme” time=”0.01s”> 태그에 기반하여 응답 텍스트인 “국물이 너무 맛있어요”의 읽는 소리인 [궁물이 너무 마시써요]에 대한 중간 출력을 0.01초 단위로, 'ㄱ', '구', '궁', '궁ㅁ', '궁무', '궁물', '궁물ㅇ', '궁물이'와 같이, 음소 단위로 순차적으로 디스플레이(예: 도 1의 표시 장치(160))에 표시하다가, 최종적으로는 '궁물이 너무 마시써요'를 디스플레이(예: 도 1의 표시 장치(160))에 표시할 수 있다.

다양한 실시 예에 따라, 응답 텍스트가 영어인 "school"인 경우, 전자 장치(예: 도 2의 전자 장치(101))는, 중간 출력인 's', 'sk', 'skuː'을 음소 단위로 순차적으로 디스플레이(예: 도 1의 표시 장치(160))에 표시하고, 최종 출력으로 'skuːl'을 디스플레이(예: 도 1의 표시 장치(160))에 표시할 수 있다.

도 8을 참조하면, 다양한 실시 예에 따라, 마크업 언어가 부가된 응답 텍스트(810)에는 자소(consonant & vowel) 단위의 텍스트 출력 단위가 포함될 수 있다. 자소는 의미 구별 기능을 갖는 문자 상의 최소 단위를 의미하는 것으로, 응답 텍스트인 "국물이 너무 맛있어요"는 응답 텍스트를 문자 상의 최소 단위로 순차적으로 표시될 수 있다.

예를 들어, 전자 장치(예: 도 2의 전자 장치(101))는 <typewriter type=”consonant” time=”0.01s”> 태그에 기반하여 응답 텍스트인 “국물이 너무 맛있어요”에 대한 중간 출력을 0.01초 단위로, 'ㄱ', '구', '국', '국ㅁ', '국무', '국물', '국물ㅇ', '국물이'와 같이, 자소 단위로 순차적으로 디스플레이(예: 도 1의 표시 장치(160))에 표시하다가, 최종적으로는 '국물이 너무 맛있어요'를 디스플레이(예: 도 1의 표시 장치(160))에 표시할 수 있다.

다양한 실시 예에 따라, 응답 텍스트가 영어인 "school"인 경우, 전자 장치(예: 도 2의 전자 장치(101))는, 중간 출력인 's', 'sch', 'schoo'을 자소 단위로 순차적으로 디스플레이(예: 도 1의 표시 장치(160))에 표시하고, 최종 출력으로 'school'을 디스플레이(예: 도 1의 표시 장치(160))에 표시할 수 있다.

도 9를 참조하면, 다양한 실시 예에 따라, 마크업 언어가 부가된 응답 텍스트(910)에는 음절(syllble) 단위의 텍스트 출력 단위가 포함될 수 있다. 음절은 하나의 종합된 음의 느낌을 주는 말소리의 단위를 의미하는 것으로, 응답 텍스트인 "국물이 너무 맛있어요"는 응답 텍스트를 한 번에 발음할 수 있는 글자 단위로 순차적으로 표시될 수 있다.

예를 들어, 전자 장치(예: 도 2의 전자 장치(101))는 <typewriter type=”syllable” time=”0.01s”> 태그에 기반하여 응답 텍스트인 “국물이 너무 맛있어요”에 대한 중간 출력을 0.01초 단위로, '국', '국물', '국물이', '국물이 너'와 같이, 음절 단위로 순차적으로 디스플레이(예: 도 1의 표시 장치(160))에표시하다가, 최종적으로는 '국물이 너무 맛있어요'를 디스플레이(예: 도 1의 표시 장치(160))에 표시할 수 있다.

다양한 실시 예에 따라, 응답 텍스트가 영어인 "watermelon"인 경우, 전자 장치(예: 도 2의 전자 장치(101))는, 중간 출력인 'wa', 'water', 'watermel' 음절 단위로 순차적으로 디스플레이(예: 도 1의 표시 장치(160))에 표시하고, 최종 출력으로 'watermelon'을 디스플레이(예: 도 1의 표시 장치(160))에 표시할 수 있다. 다양한 실시 예에 따라, 응답 텍스트가 영어인 경우, 텍스트 출력 단위가 글자(character) 단위라고 한다면, 전자 장치(예: 도 2의 전자 장치(101))는, 중간 출력인 'w', 'wa', 'wat', 'wate', 'water'를 글자 단위로 순차적으로 디스플레이(예: 도 1의 표시 장치(160))에 표시하다가, 최종 출력으로 디스플레이(예: 도 1의 표시 장치(160))에 'watermelon'을 표시할 수 있다.

도 10을 참조하면, 다양한 실시 예에 따라, 마크업 언어가 부가된 응답 텍스트(1010)에는 어절(word) 단위의 텍스트 출력 단위가 포함될 수 있다. 어절은 문장을 구성하는 각각의 마디를 의미하는 것으로, 응답 텍스트인 "국물이 너무 맛있어요"는 응답 텍스트를 띄어쓰기로 구분된 마디 단위로 순차적으로 표시될 수 있다.

예를 들어, 전자 장치(예: 도 2의 전자 장치(101))는 <typewriter type=”word” time=”0.01s”> 태그에 기반하여 응답 텍스트인 “국물이 너무 맛있어요”에 대한 중간 출력을 0.01초 단위로, '국물이', '국물이 너무'와 같이, 어절 단위로 순차적으로 디스플레이(예: 도 1의 표시 장치(160))에 표시하다가, 최종적으로는 '국물이 너무 맛있어요'를 디스플레이(예: 도 1의 표시 장치(160))에 표시할 수 있다.

다양한 실시 예에 따라, 응답 텍스트가 영어인 "This soup is delicious"인 경우, 전자 장치(예: 도 2의 전자 장치(101))는, 중간 출력인 'This', 'This soup', 'This soup is'을 어절 단위로 순차적으로 디스플레이(예: 도 1의 표시 장치(160))에 표시하고, 최종 출력으로 'This soup is delicious'을 디스플레이(예: 도 1의 표시 장치(160))에 표시할 수 있다.

도 11을 참조하면, 다양한 실시 예에 따라, 마크업 언어가 부가된 응답 텍스트(1110)에는 응답 텍스트의 적어도 일부에 대한 의도적인 오타를 표시하고, 오타 삭제 후 응답 텍스트를 표시하는 마크업 언어가 포함될 수 있다.

예를 들어, 전자 장치(예: 도 2의 전자 장치(101))는 <typo replace=”하루”> 태그에 기반하여 응답 텍스트에 대한 중간 출력인, '안녕하세요. 오늘', '안녕하세요. 오늘 ㅎㅏ루', '안녕하세요. 오늘', '안녕하세요. 오늘 하루'와 같이 오타 표시 및 삭제를 순차적으로 디스플레이(예: 도 1의 표시 장치(160))에 표시하다가, 최종적으로는 '안녕하세요. 오늘 하루 잘 보내세요'를 디스플레이(예: 도 1의 표시 장치(160))에 표시할 수 있다.

다양한 실시 예에 따라, 도 11의 마크업 언어에도 텍스트 출력 단위를 더 포함할 수 있으며, 이 경우, 선택된 텍스트 출력 단위에 기초하여 응답 텍스가 표시될 수 있다.

도 12는 일 실시 예에 따른, 개발자로부터의 응답 텍스트 또는 마크업 언어 수신 동작을 설명하기 위한 도면이다.

다양한 실시 예에 따르면, 동작 1210 내지 동작 1240은 전자 장치(예: 도 2의 개발자의 단말 장치(201))의 프로세서(250)에서 수행되는 것으로 이해될 수 있다.

도 13은 일 실시 예에 따른, 개발자에 의해 응답 텍스트 또는 마크업 언어를 입력하기 위한 UI를 설명하기 위한 도면이다.

도 12 및 도 13을 참조하면, 다양한 실시 예에 따르면, 전자 장치(예: 도 2의 개발자의 단말 장치(201))는, 1210 동작에서, 응답 텍스트 입력을 수신할 수 있다. 다양한 실시 예에 따라, 전자 장치(예: 도 2의 개발자의 단말 장치(201))는, 도 13에 도시된 바와 같이 응답 텍스트 입력을 위한 화면을 표시할 수 있다. 예를 들어, 응답 텍스트 입력을 위한 화면은 응답 텍스트 입력 영역(1310), 마크업 언어 추천 영역(1320), 마크업 언어 수동 입력 영역(1330), 응답 텍스트 재생 영역(1340)을 포함할 수 있다. 다양한 실시 예에 따라, 도 13에는 도시되지 않았지만, 응답 텍스트 입력을 위한 화면에는 응답 텍스트에 대한 감정 정보를 입력하는 영역이 더 포함될 수 있다.

다양한 실시 예에 따라, 전자 장치(예: 도 2의 개발자의 단말 장치(201))는, 응답 텍스트 입력 영역(1310)에 개발자에 의해 입력된 응답 텍스트를 수신할 수 있다.

다양한 실시 예에 따르면, 전자 장치(예: 도 2의 개발자의 단말 장치(201))는, 1220 동작에서, 저장된 복수의 응답 텍스트 중 입력된 응답 텍스트에 대응되는 마크업 언어를 제공할 수 있다. 예를 들어, 전자 장치(예: 도 2의 개발자의 단말 장치(201))는, 전자 장치(예: 도 2의 개발자의 단말 장치(201))에 저장된 복수의 응답 텍스트 중 입력된 응답 텍스트에 대응되는 마크업 언어를 마크업 언어 추천 영역(1320)에 표시하거나, 입력된 응답 텍스트를 서버(예: 도 2의 서버(108))에 전송하고, 서버(예: 도 2의 서버(108))로부터 응답 텍스트에 대응되는 마크업 언어를 수신하면, 수신된 마크업 언어를 마크업 언어 추천 영역(1320)에 표시할 수 있다.

다양한 실시 예에 따르면, 전자 장치(예: 도 2의 개발자의 단말 장치(201))는 사용자가 응답 텍스트 입력 영역(1310)에 입력한 응답 텍스트를 자연어 분석하여 마크업 언어를 제공하거나, 사용자가 감정 정보를 더 입력하면, 감정 정보를 더 고려하여 마크업 언어를 제공할 수 있다.

다양한 실시 예에 따르면, 전자 장치(예: 도 2의 개발자의 단말 장치(201))는, 1230 동작에서, 제공된 마크업 언어 선택 또는 마크업 언어 입력을 수신할 수 있다. 예를 들어, 전자 장치(예: 도 2의 개발자의 단말 장치(201))는, 마크업 언어 추천 영역(1320)에 표시된 적어도 하나의 마크업 언어 중 하나를 선택하는 개발자의 입력을 수신하거나, 마크업 언어 수동 입력 영역(1330)을 통해 개발자가 직접 입력한 마크업 언어를 수신할 수 있다.

다양한 실시 예에 따르면, 전자 장치(예: 도 2의 개발자의 단말 장치(201))는, 1240 동작에서, 선택된 마크업 언어 또는 수신된 마크업 언어와 응답 텍스트를 매칭하여 저장할 수 있다. 예를 들어, 전자 장치(예: 도 2의 개발자의 단말 장치(201))는, 선택된 마크업 언어 또는 수신된 마크업 언어와 마크업 언어 입력 영역(1310)에 입력된 응답 텍스트를 매칭하여 전자 장치(예: 도 2의 개발자의 단말 장치(201))의 메모리에 저장하거나, 서버(예: 도 2의 서버(108))의 응답 데이터베이스에 저장되도록 응답 텍스트 및 마크업 언어를 매칭하여 서버(예: 도 2의 서버(108))에 전송할 수 있다. 다양한 실시 예에 따라, 사용자로부터 감정 정보가 입력되었다면, 전자 장치(예: 도 2의 개발자의 단말 장치(201))는 선택 또는 수신된 마크업 언어, 마크업 언어 입력 영역(1310)에 입력된 응답 텍스트 및 입력된 감정 정보를 매칭하여 전자 장치(예: 도 2의 개발자의 단말 장치(201))의 메모리에 저장하거나, 응답 텍스트, 마크업 언어 및 감정 정보를 매칭하여 서버(예: 도 2의 서버(108))에 전송할 수 있다.

본 개시의 다양한 실시 예에 따르면, 사용자 발화 음성에 대한 응답을 제공함에 있어서, 사용자의 발화 의도 및 감정 정보에 따라 응답 텍스트에 마크업 언어를 부가하고, 마크업 언어를 반영하여 응답 텍스트를 표시함으로써, 인공지능 가상 비서 서비스는 사용자에게 향상된 감정적인 유대(emotional bonding)를 제공할 수 있다.

다양한 실시 예에 따르면, 상기 마크업 언어는, 텍스트 재생 속도, 글자체, 글자색 또는 텍스트 재생 일시 정지 중 적어도 하나의 정보를 더 포함할 수 있다.

다양한 실시 예에 따르면, 상기 프로세서는, 상기 응답 텍스트에 대응되는 음성 출력의 속도에 기초하여 상기 응답 텍스트에 대응되는 텍스트 출력의 속도에 대한 정보를 포함하는 마크업 언어를 획득할 수 있다.

다양한 실시 예에 따르면, 상기 마크업 언어는, 상기 응답 텍스트의 적어도 일부의 오타를 표시하고, 상기 오타를 삭제 후 상기 응답 텍스트의 적어도 일부를 표시하는 동작에 대한 정보를 더 포함할 수 있다.

다양한 실시 예에 따르면, 상기 마크업 언어는, 상기 응답 텍스트, 상기 발화 텍스트의 의도 또는 상기 감정 정보 중 적어도 하나에 기초하여, 상기 메모리에 기저장된 복수의 마크업 언어 중 선택되며, 상기 복수의 마크업 언어는, 복수의 응답 텍스트, 복수의 발화 텍스트의 의도 또는 복수의 감정 정보 중 적어도 하나와 각각 매칭된 것이며, 상기 프로세서는, 상기 복수의 마크업 언어 중 상기 응답 텍스트, 상기 발화 텍스트의 의도 또는 상기 감정 정보에 매칭되는 마크업 언어가 없으면, 상기 응답 텍스트, 상기 발화 텍스트의 의도 또는 상기 감정 정보와 가장 유사도가 높은 응답 텍스트, 발화 텍스트의 의도 또는 감정 정보 중 적어도 하나에 대응되는 마크업 언어를 선택할 수 있다.

다양한 실시 예에 따르면, 상기 마크업 언어는, 상기 응답 텍스트에 매칭된 것이며, 상기 응답 텍스트 및 상기 매칭된 마크업 언어는 개발자의 단말 장치로부터 수신되어 상기 메모리에 저장될 수 있다.

다양한 실시 예에 따르면, 상기 프로세서는, 상기 개발자의 단말 장치로부터 상기 응답 텍스트가 수신되면, 상기 메모리에 기저장된 복수의 응답 텍스트 중 상기 응답 텍스트와의 유사도가 기설정된 값 이상인 적어도 하나의 응답 텍스트를 확인하고, 상기 메모리에 기저장된 복수의 마크업 언어 중 상기 적어도 하나의 응답 텍스트에 대해 사용된 적어도 하나의 마크업 언어를 상기 응답 텍스트에 대한 마크업 언어로 상기 개발자의 단말 장치에 제공하고, 상기 개발자의 단말 장치에서 상기 적어도 하나의 마크업 언어 중 하나가 선택되거나, 상기 응답 텍스트에 대응되는 마크업 언어가 입력되면, 상기 선택된 마크업 언어 또는 상기 입력된 마크업 언어를 상기 응답 텍스트에 매칭하여 상기 메모리에 저장할 수 있다.

다양한 실시 예에 따르면, 상기 메모리에는, 텍스트 및 음성을 입력 데이터로 하여 입력된 텍스트의 의도 및 감정 정보를 출력하는 학습된 인공지능 모델이 포함되고, 상기 프로세서는, 상기 학습된 인공지능 모델을 이용하여 상기 발화 텍스트 및 상기 사용자 발화 음성에 대한 상기 발화 텍스트의 의도 및 상기 감정 정보를 획득할 수 있다.

다양한 실시 예에 따르면, 디스플레이를 더 포함하며, 상기 프로세서는, 상기 선택된 텍스트 출력 단위로 상기 응답 텍스트를 상기 디스플레이에 표시할 수 있다.

다양한 실시 예에 따르면, 상기 마크업 언어는, 텍스트 재생 속도, 글자체, 글자색, 글자 크기 또는 텍스트 재생 일시 정지 중 적어도 하나의 정보를 더 포함할 수 있다.

다양한 실시 예에 따르면, 상기 마크업 언어를 획득하는 동작은, 상기 응답 텍스트에 대응되는 음성 출력의 속도에 기초하여 상기 응답 텍스트에 대응되는 텍스트 출력의 속도에 대한 정보를 포함하는 마크업 언어를 획득할 수 있다.

다양한 실시 예에 따르면, 상기 마크업 언어는, 상기 응답 텍스트, 상기 발화 텍스트의 의도 또는 상기 감정 정보 중 적어도 하나에 기초하여, 상기 전자 장치의 메모리에 기저장된 복수의 마크업 언어 중 선택되며, 상기 복수의 마크업 언어는, 복수의 응답 텍스트, 복수의 발화 텍스트의 의도 또는 복수의 감정 정보 중 적어도 하나와 각각 매칭된 것이며, 상기 마크업 언어를 획득하는 동작은, 상기 복수의 마크업 언어 중 상기 응답 텍스트, 상기 발화 텍스트의 의도 또는 상기 감정 정보에 매칭되는 마크업 언어가 없으면, 상기 응답 텍스트, 상기 발화 텍스트의 의도 또는 상기 감정 정보와 가장 유사도가 높은 응답 텍스트, 발화 텍스트의 의도 또는 감정 정보 중 적어도 하나에 대응되는 마크업 언어를 선택할 수 있다.

다양한 실시 예에 따르면, 상기 개발자의 단말 장치로부터 상기 응답 텍스트가 수신되면, 상기 메모리에 기저장된 복수의 응답 텍스트 중 상기 응답 텍스트와의 유사도가 기설정된 값 이상인 적어도 하나의 응답 텍스트를 확인하는 동작, 상기 메모리에 기저장된 복수의 마크업 언어 중 상기 적어도 하나의 응답 텍스트에 대해 사용된 적어도 하나의 마크업 언어를 상기 응답 텍스트에 대한 마크업 언어로 상기 개발자의 단말 장치에 제공하는 동작 및 상기 개발자의 단말 장치에서 상기 적어도 하나의 마크업 언어 중 하나가 선택되거나, 상기 응답 텍스트에 대응되는 마크업 언어가 입력되면, 상기 선택된 마크업 언어 또는 상기 입력된 마크업 언어를 상기 응답 텍스트에 매칭하여 상기 메모리에 저장하는 동작을 더 포함할 수 있다.

다양한 실시 예에 따르면, 상기 전자 장치의 메모리에는, 텍스트 및 음성을 입력 데이터로 하여 입력된 텍스트의 의도 및 감정 정보를 출력하는 학습된 인공지능 모델이 포함되고, 상기 발화 텍스트의 의도 및 상기 감정 정보를 동작은, 상기 학습된 인공지능 모델을 이용하여 상기 발화 텍스트 및 상기 사용자 발화 음성에 대한 상기 발화 텍스트의 의도 및 상기 감정 정보를 획득할 수 있다.

다양한 실시 예에 따르면, 상기 선택된 텍스트 출력 단위로 상기 응답 텍스트를 상기 전자 장치의 디스플레이에 표시하는 동작을 더 포함할 수 있다.

다양한 실시 예에 따르면, 상기 마크업 언어는, 텍스트 재생 속도, 글자체, 글자색, 글자 크기 또는 텍스트 재생 일시 정지 중 적어도 하나를 더 포함할 수 있다.

본 개시의 일 실시 예에 따른 전자 장치(101)는 다양한 형태의 장치가 될 수 있다. 전자 장치는, 예를 들면, 휴대용 통신 장치 (예: 스마트폰, 태블릿 PC, e-book 등), 컴퓨터 장치, 휴대용 멀티미디어 장치, 휴대용 의료 기기, 카메라, 웨어러블 장치, 또는 가전 장치를 포함할 수 있다. 본 개시의 실시예에 따른 전자 장치는 전술한 기기들에 한정되지 않는다.

본 개시의 일 실시 예들 및 이에 사용된 용어들은 본 개시에 기재된 기술적 특징들을 특정한 실시예들로 한정하려는 것이 아니며, 해당 실시예의 다양한 변경, 균등물, 또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 또는 관련된 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 아이템에 대응하는 명사의 단수 형은 관련된 문맥상 명백하게 다르게 지시하지 않는 한, 상기 아이템 한 개 또는 복수 개를 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및 B 중 적어도 하나",“A 또는 B 중 적어도 하나,”"A, B 또는 C," "A, B 및 C 중 적어도 하나,”및 “A, B, 또는 C 중 적어도 하나"와 같은 문구들 각각은 그 문구들 중 해당하는 문구에 함께 나열된 항목들 중 어느 하나, 또는 그들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", 또는 "첫째" 또는 "둘째"와 같은 용어들은 단순히 해당 구성요소를 다른 해당 구성요소와 구분하기 위해 사용될 수 있으며, 해당 구성요소들을 다른 측면(예: 중요성 또는 순서)에서 한정하지 않는다. 어떤(예: 제 1) 구성요소가 다른(예: 제 2) 구성요소에, “기능적으로” 또는 “통신적으로”라는 용어와 함께 또는 이런 용어 없이, “커플드” 또는 “커넥티드”라고 언급된 경우, 그것은 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로(예: 유선으로), 무선으로, 또는 제 3 구성요소를 통하여 연결될 수 있다는 것을 의미한다.

본 개시에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는, 상기 부품의 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 일 실시예에 따르면, 모듈은 ASIC(application-specific integrated circuit)의 형태로 구현될 수 있다.

본 문서의 일 실시 예들은 기기(machine)(예: 전자 장치(101)) 의해 읽을 수 있는 저장 매체(storage medium)(예: 내장 메모리(136) 또는 외장 메모리(138))에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어(예: 프로그램(140))로서 구현될 수 있다. 예를 들면, 기기(예: 전자 장치(101))의 프로세서(예: 프로세서(120))는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 기기가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체 는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, ‘비일시적’은 저장매체가 실재(tangible)하는 장치이고, 신호(signal)(예: 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.

일실시예에 따르면, 본 문서에 개시된 일 실시 예에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.

일 실시 예에 따르면, 상기 기술한 구성요소들의 각각의 구성요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 일 실시 예에 따르면, 전술한 해당 구성요소들 중 하나 이상의 구성요소들 또는 동작들이 생략되거나, 또는 하나 이상의 다른 구성요소들 또는 동작들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성요소들(예: 모듈 또는 프로그램)은 하나의 구성요소로 통합될 수 있다. 이런 경우, 통합된 구성요소는 상기 복수의 구성요소들 각각의 구성요소의 하나 이상의 기능들을 상기 통합 이전에 상기 복수의 구성요소들 중 해당 구성요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 일 실시 예에 따르면, 모듈, 프로그램 또는 다른 구성요소에 의해 수행되는 동작들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 상기 동작들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 동작들이 추가될 수 있다.

Claims

전자 장치에 있어서,
메모리;
통신부; 및
상기 메모리 및 상기 통신부와 작동적으로 연결된 프로세서;를 포함하고,
상기 프로세서는,
사용자 발화 음성에 대응되는 발화 텍스트를 획득하고,
상기 발화 음성 및 상기 발화 텍스트에 기초하여 상기 발화 텍스트의 의도 및 감정 정보를 획득하고,
상기 발화 텍스트의 의도 및 상기 감정 정보에 기초하여 상기 발화 텍스트에 대한 응답 텍스트를 획득하고,
상기 발화 텍스트의 의도, 상기 감정 정보 또는 상기 응답 텍스트 중 적어도 하나에 기초하여 상기 응답 텍스트의 텍스트 출력 단위에 대한 정보를 포함하는 마크업 언어를 획득하고,
상기 마크업 언어를 상기 응답 텍스트에 부가하여 제공하고,
상기 텍스트 출력 단위는,
음소 단위, 자소 단위, 음절 단위 또는 어절 단위 중에서 적어도 하나가 선택되는 것인 전자 장치.
제1항에 있어서,
상기 마크업 언어는,
텍스트 재생 속도, 글자체, 글자색 또는 텍스트 재생 일시 정지 중 적어도 하나의 정보를 더 포함하는 것인, 전자 장치.
제1항에 있어서,
상기 프로세서는,
상기 응답 텍스트에 대응되는 음성 출력의 속도에 기초하여 상기 응답 텍스트에 대응되는 텍스트 출력의 속도에 대한 정보를 포함하는 마크업 언어를 획득하는 전자 장치.
제1항에 있어서,
상기 마크업 언어는,
상기 응답 텍스트의 적어도 일부의 오타를 표시하고, 상기 오타를 삭제 후 상기 응답 텍스트의 적어도 일부를 표시하는 동작에 대한 정보를 더 포함하는 것인, 전자 장치.
제1항에 있어서,
상기 마크업 언어는,
상기 응답 텍스트, 상기 발화 텍스트의 의도 또는 상기 감정 정보 중 적어도 하나에 기초하여, 상기 메모리에 기저장된 복수의 마크업 언어 중 선택되며,
상기 복수의 마크업 언어는,
복수의 응답 텍스트, 복수의 발화 텍스트의 의도 또는 복수의 감정 정보 중 적어도 하나와 각각 매칭된 것이며,
상기 프로세서는,
상기 복수의 마크업 언어 중 상기 응답 텍스트, 상기 발화 텍스트의 의도 또는 상기 감정 정보에 매칭되는 마크업 언어가 없으면, 상기 응답 텍스트, 상기 발화 텍스트의 의도 또는 상기 감정 정보와 가장 유사도가 높은 응답 텍스트, 발화 텍스트의 의도 또는 감정 정보 중 적어도 하나에 대응되는 마크업 언어를 선택하는, 전자 장치.
제1항에 있어서,
상기 마크업 언어는,
상기 응답 텍스트에 매칭된 것이며,
상기 응답 텍스트 및 상기 매칭된 마크업 언어는 개발자의 단말 장치로부터 수신되어 상기 메모리에 저장된 것인, 전자 장치.
제6항에 있어서,
상기 프로세서는,
상기 개발자의 단말 장치로부터 상기 응답 텍스트가 수신되면, 상기 메모리에 기저장된 복수의 응답 텍스트 중 상기 응답 텍스트와의 유사도가 기설정된 값 이상인 적어도 하나의 응답 텍스트를 확인하고,
상기 메모리에 기저장된 복수의 마크업 언어 중 상기 적어도 하나의 응답 텍스트에 대해 사용된 적어도 하나의 마크업 언어를 상기 응답 텍스트에 대한 마크업 언어로 상기 개발자의 단말 장치에 제공하고,
상기 개발자의 단말 장치에서 상기 적어도 하나의 마크업 언어 중 하나가 선택되거나, 상기 응답 텍스트에 대응되는 마크업 언어가 입력되면, 상기 선택된 마크업 언어 또는 상기 입력된 마크업 언어를 상기 응답 텍스트에 매칭하여 상기 메모리에 저장하는 전자 장치.
제1항에 있어서,
상기 메모리에는, 텍스트 및 음성을 입력 데이터로 하여 입력된 텍스트의 의도 및 감정 정보를 출력하는 학습된 인공지능 모델이 포함되고,
상기 프로세서는,
상기 학습된 인공지능 모델을 이용하여 상기 발화 텍스트 및 상기 사용자 발화 음성에 대한 상기 발화 텍스트의 의도 및 상기 감정 정보를 획득하는 전자 장치.
제1항에 있어서,
디스플레이;를 더 포함하며,
상기 프로세서는,
상기 선택된 텍스트 출력 단위로 상기 응답 텍스트를 상기 디스플레이에 표시하는 전자 장치.
전자 장치의 제어 방법에 있어서,
사용자 발화 음성에 대응되는 발화 텍스트를 획득하는 동작;
상기 발화 음성 및 상기 발화 텍스트에 기초하여 상기 발화 텍스트의 의도 및 감정 정보를 획득하는 동작;
상기 발화 텍스트의 의도 및 상기 감정 정보에 기초하여 상기 발화 텍스트에 대한 응답 텍스트를 획득하는 동작;
상기 발화 텍스트의 의도, 상기 감정 정보 또는 상기 응답 텍스트 중 적어도 하나에 기초하여 상기 응답 텍스트의 텍스트 출력 단위에 대한 정보를 포함하는 마크업 언어를 획득하는 동작; 및
상기 마크업 언어를 상기 응답 텍스트에 부가하여 제공하는 동작;을 포함하고,
상기 텍스트 출력 단위는,
음소 단위, 자소 단위, 음절 단위 또는 어절 단위 중에서 적어도 하나가 선택되는 것인 전자 장치의 제어 방법.
제10항에 있어서,
상기 마크업 언어는,
텍스트 재생 속도, 글자체, 글자색, 글자 크기 또는 텍스트 재생 일시 정지 중 적어도 하나의 정보를 더 포함하는 것인, 전자 장치의 제어 방법.
제10항에 있어서,
상기 마크업 언어를 획득하는 동작은,
상기 응답 텍스트에 대응되는 음성 출력의 속도에 기초하여 상기 응답 텍스트에 대응되는 텍스트 출력의 속도에 대한 정보를 포함하는 마크업 언어를 획득하는 전자 장치의 제어 방법.
제10항에 있어서,
상기 마크업 언어는,
상기 응답 텍스트의 적어도 일부의 오타를 표시하고, 상기 오타를 삭제 후 상기 응답 텍스트의 적어도 일부를 표시하는 동작에 대한 정보를 더 포함하는 것인, 전자 장치의 제어 방법.
제10항에 있어서,
상기 마크업 언어는,
상기 응답 텍스트, 상기 발화 텍스트의 의도 또는 상기 감정 정보 중 적어도 하나에 기초하여, 상기 전자 장치의 메모리에 기저장된 복수의 마크업 언어 중 선택되며,
상기 복수의 마크업 언어는,
복수의 응답 텍스트, 복수의 발화 텍스트의 의도 또는 복수의 감정 정보 중 적어도 하나와 각각 매칭된 것이며,
상기 마크업 언어를 획득하는 동작은,
상기 복수의 마크업 언어 중 상기 응답 텍스트, 상기 발화 텍스트의 의도 또는 상기 감정 정보에 매칭되는 마크업 언어가 없으면, 상기 응답 텍스트, 상기 발화 텍스트의 의도 또는 상기 감정 정보와 가장 유사도가 높은 응답 텍스트, 발화 텍스트의 의도 또는 감정 정보 중 적어도 하나에 대응되는 마크업 언어를 선택하는, 전자 장치의 제어 방법.
제14항에 있어서,
상기 마크업 언어는,
상기 응답 텍스트에 매칭된 것이며,
상기 응답 텍스트 및 상기 매칭된 마크업 언어는 개발자의 단말 장치로부터 수신되어 상기 메모리에 저장된 것인, 전자 장치의 제어 방법.
제15항에 있어서,
상기 개발자의 단말 장치로부터 상기 응답 텍스트가 수신되면, 상기 메모리에 기저장된 복수의 응답 텍스트 중 상기 응답 텍스트와의 유사도가 기설정된 값 이상인 적어도 하나의 응답 텍스트를 확인하는 동작;
상기 메모리에 기저장된 복수의 마크업 언어 중 상기 적어도 하나의 응답 텍스트에 대해 사용된 적어도 하나의 마크업 언어를 상기 응답 텍스트에 대한 마크업 언어로 상기 개발자의 단말 장치에 제공하는 동작; 및
상기 개발자의 단말 장치에서 상기 적어도 하나의 마크업 언어 중 하나가 선택되거나, 상기 응답 텍스트에 대응되는 마크업 언어가 입력되면, 상기 선택된 마크업 언어 또는 상기 입력된 마크업 언어를 상기 응답 텍스트에 매칭하여 상기 메모리에 저장하는 동작;을 더 포함하는 전자 장치의 제어 방법.
제10항에 있어서,
상기 전자 장치의 메모리에는, 텍스트 및 음성을 입력 데이터로 하여 입력된 텍스트의 의도 및 감정 정보를 출력하는 학습된 인공지능 모델이 포함되고,
상기 발화 텍스트의 의도 및 상기 감정 정보를 동작은,
상기 학습된 인공지능 모델을 이용하여 상기 발화 텍스트 및 상기 사용자 발화 음성에 대한 상기 발화 텍스트의 의도 및 상기 감정 정보를 획득하는 전자 장치의 제어 방법.
제10항에 있어서,
상기 선택된 텍스트 출력 단위로 상기 응답 텍스트를 상기 전자 장치의 디스플레이에 표시하는 동작;을 더 포함하는 전자 장치의 제어 방법.
단말 장치에 있어서,
마이크;
디스플레이;
통신부;
프로세서;를 포함하고,
상기 프로세서는,
상기 마이크로부터 수신된 사용자 발화 음성을 외부 서버로 전송하고,
상기 외부 서버로부터 상기 사용자 발화 음성에 대응되는 응답 텍스트를 수신하고,
상기 응답 텍스트에 부가된, 텍스트 출력 단위에 대한 정보를 포함하는 마크업 언어에 기초하여, 음소 단위, 자소 단위, 음절 단위 또는 어절 단위 중 선택된 적어도 하나의 텍스트 출력 단위로 상기 응답 텍스트를 상기 디스플레이에 표시하는 전자 장치.
제19항에 있어서,
상기 마크업 언어는,
텍스트 재생 속도, 글자체, 글자색, 글자 크기 또는 텍스트 재생 일시 정지 중 적어도 하나를 더 포함하는 것인, 단말 장치.