WO2021100918A1

WO2021100918A1 - 지능형 대화 서비스 제공 방법 및 지능형 대화 시스템

Info

Publication number: WO2021100918A1
Application number: PCT/KR2019/016040
Authority: WO
Inventors: 신아영; 이용환; 박민규
Original assignee: 엘지전자 주식회사
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2021-05-27

Abstract

지능형 대화 서비스 제공 방법 및 차량용 지능형 대화 시스템이 개시된다. 본 명세서에 따른 지능형 대화 서비스 제공 방법은, 차량용 지능형 대화 시스템의 대화 서비스 제공 방법에 있어서, 상기 시스템에 발화문을 입력하는 단계, 언어 종류별로 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문을 텍스트로 변환하는 단계, 상기 텍스트의 인텐트(Intent)를 분석하는 단계, 상기 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 단계 및 상기 생성된 응답을 출력하는 단계를 포함할 수 있다. 본 명세서는 발화자가 여러명이거나 여러 언어로 말하는 경우에도 자동으로 언어를 인식하여 대화할 수 있는 효과가 있다.

Description

지능형 대화 서비스 제공 방법 및 지능형 대화 시스템

본 명세서는 지능형 대화 서비스 제공 방법 및 지능형 대화 시스템에 관한 것이다.

음성 인식은 사용자의 음성을 인식하는 기술이다. 최근, 음성 인식 기술의 발달로 인하여, 사람과 대화할 수 있는 인공지능을 활용한 대화 시스템 또는 그 시스템을 실행할 수 있는 장치 등이 활발히 개발되고 있다.

인공지능을 활용한 대화 시스템에서 활용되는 대표적인 기술은, 자동 음성 인식(Auto Speech Recognition, ASR), 자연어 이해(Natural Language Understanding, NLU), 텍스트 음성 변환(Text-to-Speech, TTS) 등이 있다.

다만, 위 기술들을 활용하는 기존의 지능형 대화 시스템은 한가지 언어로만 대화가 가능하거나, 여러 언어로 대화하려면 사용자가 직접 설정을 변경해야 하는 등 여러 언어에 대응하지 못하는 문제점이 있었다.

본 명세서는 발화자가 여러명이거나 여러 언어로 말하는 경우에도 자동으로 언어를 인식하여 대화할 수 있는 지능형 대화 서비스 제공 방법 및 지능형 대화 시스템을 제공하는 것을 목적으로 한다.

또한, 본 명세서는 발화자가 여러명이거나 여러 언어로 말하는 경우에도 각 대화의 콘텍스트를 파악하여 대화를 이어나갈 수 있는 지능형 대화 서비스 제공 방법 및 지능형 대화 시스템을 제공하는 것을 목적으로 한다.

또한, 본 명세서는 지능형 대화 서비스 제공 방법 및 지능형 대화 시스템을 제공하기 위하여 복수의 자동 음성 인식 모듈을 동시에 실행하는 것을 목적으로 한다.

또한, 본 명세서는 지능형 대화 서비스 제공 방법 및 지능형 대화 시스템을 제공하기 위하여 콘텍스트 테이블을 이용하여 발화문에 대한 응답을 생성하는 것을 목적으로 한다.

상술한 과제를 해결하기 위하여, 본 명세서는, 차량용 지능형 대화 시스템의 대화 서비스 제공 방법에 있어서, 상기 시스템에 발화문을 입력하는 단계; 언어 종류별로 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문을 텍스트로 변환하는 단계; 상기 텍스트의 인텐트(Intent)를 분석하는 단계; 상기 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 단계; 및 상기 생성된 응답을 출력하는 단계;를 포함할 수 있다.

이때, 상기 변환하는 단계는, 상기 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문에 대하여 상기 언어 종류별 텍스트 및 신뢰값을 도출하는 단계; 및 상기 신뢰값들 중 기설정된 값보다 큰 신뢰값을 가지는 텍스트를 선택하는 단계;를 포함할 수 있다.

또한, 상기 변환하는 단계는, 상기 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문에 대하여 상기 언어 종류별 텍스트 및 신뢰값들을 도출하는 단계; 및 상기 신뢰값들 중 제1 조건 및 제2 조건을 만족하는 신뢰값을 가지는 텍스트를 선택하는 단계;를 포함할 수 있다.

[제1 조건]

신뢰값 ≥ 기설정된 제1 값

[제2 조건]

(상기 제1 조건을 만족하는 신뢰값 - 나머지 각각의 신뢰값) ≥ 기설정된 제2 값

또한, 상기 변환하는 단계는, 상기 선택된 텍스트가 복수개인 경우, 새로운 발화문의 입력을 안내하는 알람을 출력하는 단계;를 더 포함할 수 있다.

또한, 상기 분석하는 단계는, 상기 텍스트의 콘텍스트(context)를 추출하고, 상기 추출된 콘텍스트를 기초로 상기 발화문의 상기 인텐트를 분석할 수 있다.

또한, 상기 분석하는 단계는, 상기 텍스트만으로 의미가 해석되는 제1 단어 그룹과, 상기 텍스트만으로 의미가 해석되지 않는 제2 단어 그룹을 나누는 단계; 상기 추출된 콘텍스트를 기초로, 상기 제2 단어 그룹에 속하는 단어의 의미를 해석하는 단계; 상기 제2 단어 그룹에 속하는 단어를 상기 해석된 의미로 대체하는 단계; 및 상기 대체된 단어를 포함하는 상기 텍스트에 대하여 자연어 이해(NLU)를 실행하는 단계;를 포함할 수 있다.

또한, 상기 분석하는 단계는, 다른 발화문으로부터 추출되어 기저장된 콘텍스트를 기초로 상기 발화문의 상기 인텐트를 분석할 수 있다.

상기 콘텍스트 테이블은, 상황별 인텐트, 상기 상황별 인텐트에 따른 엔티티(Entity) 및 상기 엔티티에 따른 세부 키워드를 포함하며, 상기 세부 키워드는 언어 종류별로 저장될 수 있다.

또한, 상기 생성하는 단계는, 상기 분석된 인텐트와 상기 콘텍스트 테이블의 상기 상황별 인텐트를 매칭하는 단계; 및 상기 매칭된 상황별 인텐트에 따른 상기 엔티티 및 상기 엔티티에 따른 세부 키워드를 기초로 상기 응답을 생성하는 단계;를 포함할 수 있다.

또한, 본 명세서는, 차량용 지능형 대화 시스템의 대화 서비스 제공 방법에 있어서, 상기 시스템에 입력된 발화문을 무선 통신부를 통해 외부 서버로 전송하는 단계; 언어 종류별로 상기 외부 서버에 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문을 텍스트로 변환하는 단계; 상기 외부 서버에서 상기 텍스트의 인텐트(Intent)를 분석하는 단계; 상기 외부 서버에서 상기 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 단계; 상기 생성된 응답을 상기 외부 서버에서 상기 무선 통신부를 통해 상기 시스템으로 전송하는 단계; 및 상기 시스템에서 상기 전송된 응답을 출력하는 단계;를 포함할 수 있다.

또한, 상기 시스템과 상기 외부 서버는 V2X 통신을 이용하여 정보를 전송할 수 있다.

또한, 본 명세서는, 발화문이 입력되는 입력장치; 언어 종류별로 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문을 텍스트로 변환하고, 상기 텍스트의 인텐트(Intent)를 분석하며, 상기 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 프로세서; 및 상기 응답을 출력하는 출력장치;를 포함할 수 있다.

또한, 상기 복수의 자동 음성 인식 모듈은, 상기 발화문에 대하여 언어 종류별로 신뢰값들을 각각 계산하고, 상기 발화문을 텍스트로 각각 변환할 수 있다.

또한, 상기 프로세서는, 상기 신뢰값들을 기초로 상기 텍스트들 중 하나를 선택할 수 있다.

또한, 상기 프로세서는, 상기 신뢰값들 중 기설정된 값보다 큰 신뢰값을 가지는 언어의 텍스트를 선택할 수 있다.

상기 프로세서는, 상기 신뢰값들이 제1 조건 및 상기 제2 조건을 만족하는 언어의 텍스트를 선택할 수 있다.

[제1 조건]

신뢰값 ≥ 기설정된 제1 값

[제2 조건]

또한, 상기 프로세서가 상기 텍스트들 중 하나의 텍스트를 선택할 수 없는 경우, 상기 출력부는 새로운 발화문의 입력을 안내하는 알람을 출력할 수 있다.

상기 프로세서는, 상기 텍스트들 중 하나의 텍스트를 선택할 수 없는 경우, 상기 신뢰값들 중 가장 높은 신뢰값을 가지는 언어의 텍스트를 하나 선택할 수 있다.

또한, 상기 지능형 대화 시스템은, 상기 프로세서가 설치되는 외부 서버; 및 상기 외부 서버와 상기 시스템이 통신할 수 있는 통신장치;를 더 포함할 수 있다.

이때, 상기 통신장치는, V2X 통신을 이용하여 정보를 전송할 수 있다.

본 명세서는 발화자가 여러명이거나 여러 언어로 말하는 경우에도 자동으로 언어를 인식하여 대화할 수 있는 효과가 있다.

또한, 본 명세서는 발화자가 여러명이거나 여러 언어로 말하는 경우에도 각 대화의 콘텍스트를 파악하여 대화를 이어나갈 수 있는 효과가 있다.

또한, 본 명세서는 복수의 자동 음성 인식 모듈을 동시에 실행하여 지능형 대화를 위한 최적의 언어를 선택할 수 있는 효과가 있다.

또한, 본 명세서는 다양한 언어에 대한 콘텍스트 테이블을 이용하여 관리함으로써 보다 효율적으로 지능형 대화 서비스를 제공할 수 있는 효과가 있다.

본 명세서에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 명세서가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 명세서에서 제안하는 방법들이 적용될 수 있는 무선 통신 시스템의 블록 구성도를 예시한다.

도 2는 무선 통신 시스템에서 신호 송/수신 방법의 일 예를 나타낸다.

도 3은 5G 통신 시스템에서 자율 주행 차량과 5G 네트워크의 기본 동작의 일 예를 나타낸다.

도 4는 5G 통신을 이용한 차량 대 차량 간의 기본 동작의 일 예를 나타낸다.

도 5는 본 명세서가 적용될 수 있는 V2X 통신의 예시이다.

도 6은 V2X가 사용되는 사이드링크에서의 자원 할당 방법을 예시한다.

도 7은 PC5를 이용한 V2X 통신의 브로드캐스트 모드에 대한 절차를 예시하는 도면이다.

도 8은 고전적인 자연어 처리를 나타낸 도면이다.

도 9는 딥 러닝을 이용한 자연어 처리를 나타낸 도면이다.

도 10은 제1 실시예에 따른 지능형 대화 서비스 제공 방법을 나타낸 도면이다.

도 11은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 발화문을 텍스트로 변환하는 단계(S200)를 나타낸 도면이다.

도 12는 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 발화문을 텍스트로 변환하는 단계(S200)를 나타낸 도면이다.

도 13은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 텍스트의 인텐트(Intent)를 분석하는 단계(S300)를 나타낸 도면이다.

도 14는 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 텍스트의 인텐트(Intent)를 분석하는 단계(S300)를 나타낸 도면이다.

도 15는 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 텍스트의 인텐트(Intent)를 분석하는 단계(S300)를 적용한 예시이다.

도 16은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 텍스트의 의미를 해석하고 응답을 생성하는 단계(S400)를 나타낸 도면이다.

도 17은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 사용되는콘텍스트 테이블의 예시이다.

도 18은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 무선 통신을 이용하여 지능형 대화 서비스를 제공하는 방법을 나타낸 도면이다.

도 19는 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 제1 발화문의 콘텍스트를 이용하여 제2 발화문에 대한 응답을 생성하는 방법을 나타낸 도면이다.

도 20은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 신뢰값을 활용하여 발화문을 텍스트로 변환하는 예시를 나타낸 도면이다.

도 21은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 변환된 텍스트의 의미를 해석하고 그 응답을 생성하는 예시를 나타낸 도면이다.

도 22는 제2 실시예에 따른 차량용 지능형 대화 시스템을 나타낸다.

도 23은 제2 실시예에 따른 차량용 지능형 대화 시스템을 나타낸다.

도 24는 제2 실시예에 따른 차량용 지능형 대화 시스템이 차량에 설치된 예시이다.

도 25는 제2 실시예에 따른 외부 서버를 이용하는 차량용 지능형 대화 시스템을 나타낸다.

도 26은 제2 실시예에 따른 외부 서버를 이용하는 차량용 지능형 대화 시스템을 나타낸다.

본 명세서에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 명세서에 대한 실시예를 제공하고, 상세한 설명과 함께 본 명세서의 기술적 특징을 설명한다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 명세서의 사상 및 기술 범위에 포함되는 모든 보충, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

A. UE 및 5G 네트워크 블록도 예시

도 1을 참조하면, 자율 주행 모듈을 포함하는 장치(자율 주행 장치)를 제1 통신 장치로 정의(도 1의 910)하고, 프로세서(911)가 자율 주행 상세 동작을 수행할 수 있다.

자율 주행 장치와 통신하는 다른 차량을 포함하는 5G 네트워크를 제2 통신 장치로 정의(도 1의 920)하고, 프로세서(921)가 자율 주행 상세 동작을 수행할 수 있다.

5G 네트워크가 제 1 통신 장치로, 자율 주행 장치가 제 2 통신 장치로 표현될 수도 있다.

예를 들어, 상기 제 1 통신 장치 또는 상기 제 2 통신 장치는 기지국, 네트워크 노드, 전송 단말, 수신 단말, 무선 장치, 무선 통신 장치, 자율 주행 장치 등일 수 있다.

예를 들어, 단말 또는 UE(User Equipment)는 차량(vehicle), 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털 방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 네비게이션, 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를 들어, 워치형 단말기 (smartwatch), 글래스형 단말기 (smart glass), HMD(head mounted display)) 등을 포함할 수 있다. 예를 들어, HMD는 머리에 착용하는 형태의 디스플레이 장치일 수 있다. 예를 들어, HMD는 VR, AR 또는 MR을 구현하기 위해 사용될 수 있다. 도 1을 참고하면, 제 1 통신 장치(910)와 제 2 통신 장치(920)은 프로세서(processor, 911,921), 메모리(memory, 914,924), 하나 이상의 Tx/Rx RF 모듈(radio frequency module, 915,925), Tx 프로세서(912,922), Rx 프로세서(913,923), 안테나 (916,926)를 포함한다. Tx/Rx 모듈은 트랜시버라고도 한다. 각각의 Tx/Rx 모듈(915)는 각각의 안테나 (926)을 통해 신호를 전송한다. 프로세서는 앞서 살핀 기능, 과정 및/또는 방법을 구현한다. 프로세서 (921)는 프로그램 코드 및 데이터를 저장하는 메모리 (924)와 관련될 수 있다. 메모리는 컴퓨터 판독 가능 매체로서 지칭될 수 있다. 보다 구체적으로, DL(제 1 통신 장치에서 제 2 통신 장치로의 통신)에서, 전송(TX) 프로세서(912)는 L1 계층(즉, 물리 계층)에 대한 다양한 신호 처리 기능을 구현한다. 수신(RX) 프로세서는 L1(즉, 물리 계층)의 다양한 신호 프로세싱 기능을 구현한다.

UL(제 2 통신 장치에서 제 1 통신 장치로의 통신)은 제 2 통신 장치(920)에서 수신기 기능과 관련하여 기술된 것과 유사한 방식으로 제 1 통신 장치(910)에서 처리된다. 각각의 Tx/Rx 모듈(925)는 각각의 안테나(926)을 통해 신호를 수신한다. 각각의 Tx/Rx 모듈은 RF 반송파 및 정보를 RX 프로세서(923)에 제공한다. 프로세서 (921)는 프로그램 코드 및 데이터를 저장하는 메모리 (924)와 관련될 수 있다. 메모리는 컴퓨터 판독 가능 매체로서 지칭될 수 있다.

B. 무선 통신 시스템에서 신호 송/수신 방법

도 2는 무선 통신 시스템에서 신호 송/수신 방법의 일례를 나타낸 도이다.

도 2를 참고하면, UE는 전원이 켜지거나 새로이 셀에 진입한 경우 BS와 동기를 맞추는 등의 초기 셀 탐색(initial cell search) 작업을 수행한다(S201). 이를 위해, UE는 BS로부터 1차 동기 채널(primary synchronization channel, P-SCH) 및 2차 동기 채널(secondary synchronization channel, S-SCH)을 수신하여 BS와 동기를 맞추고, 셀 ID 등의 정보를 획득할 수 있다. LTE 시스템과 NR 시스템에서 P-SCH와 S-SCH는 각각 1차 동기 신호(primary synchronization signal, PSS)와 2차 동기 신호(secondary synchronization signal, SSS)로 불린다. 초기 셀 탐색 후, UE는 BS로부터 물리 브로드캐스트 채널(physical broadcast channel, PBCH)를 수신하여 셀 내 브로드캐스트 정보를 획득할 수 있다. 한편, UE는 초기 셀 탐색 단계에서 하향링크 참조 신호(downlink reference Signal, DL RS)를 수신하여 하향링크 채널 상태를 확인할 수 있다. 초기 셀 탐색을 마친 UE는 물리 하향링크 제어 채널(physical downlink control channel, PDCCH) 및 상기 PDCCH에 실린 정보에 따라 물리 하향링크 공유 채널(physical downlink shared Channel, PDSCH)을 수신함으로써 좀더 구체적인 시스템 정보를 획득할 수 있다(S202).

한편, BS에 최초로 접속하거나 신호 전송을 위한 무선 자원이 없는 경우 UE는 BS에 대해 임의 접속 과정(random access procedure, RACH)을 수행할 수 있다(단계 S203 내지 단계 S206). 이를 위해, UE는 물리 임의 접속 채널(physical random access Channel, PRACH)을 통해 특정 시퀀스를 프리앰블로서 전송하고(S203 및 S205), PDCCH 및 대응하는 PDSCH를 통해 프리앰블에 대한 임의 접속 응답(random access response, RAR) 메시지를 수신할 수 있다(S204 및 S206). 경쟁 기반 RACH의 경우, 추가적으로 충돌 해결 과정(contention resolution procedure)를 수행할 수 있다.

상술한 바와 같은 과정을 수행한 UE는 이후 일반적인 상향링크/하향링크 신호 전송 과정으로서 PDCCH/PDSCH 수신(S207) 및 물리 상향링크 공유 채널(physical uplink shared Channel, PUSCH)/물리 상향링크 제어 채널(physical uplink control channel, PUCCH) 전송(S208)을 수행할 수 있다. 특히 UE는 PDCCH를 통하여 하향링크 제어 정보(downlink control information, DCI)를 수신한다. UE는 해당 탐색 공간 설정(configuration)들에 따라 서빙 셀 상의 하나 이상의 제어 요소 세트(control element set, CORESET)들에 설정된 모니터링 기회(occasion)들에서 PDCCH 후보(candidate)들의 세트를 모니터링한다. UE가 모니터할 PDCCH 후보들의 세트는 탐색 공간 세트들의 면에서 정의되며, 탐색 공간 세트는 공통 탐색 공간 세트 또는 UE-특정 탐색 공간 세트일 수 있다. CORESET은 1~3개 OFDM 심볼들의 시간 지속기간을 갖는 (물리) 자원 블록들의 세트로 구성된다. 네트워크는 UE가 복수의 CORESET들을 갖도록 설정할 수 있다. UE는 하나 이상의 탐색 공간 세트들 내 PDCCH 후보들을 모니터링한다. 여기서 모니터링이라 함은 탐색 공간 내 PDCCH 후보(들)에 대한 디코딩 시도하는 것을 의미한다. UE가 탐색 공간 내 PDCCH 후보들 중 하나에 대한 디코딩에 성공하면, 상기 UE는 해당 PDCCH 후보에서 PDCCH를 검출했다고 판단하고, 상기 검출된 PDCCH 내 DCI를 기반으로 PDSCH 수신 혹은 PUSCH 전송을 수행한다. PDCCH는 PDSCH 상의 DL 전송들 및 PUSCH 상의 UL 전송들을 스케줄링하는 데 사용될 수 있다. 여기서 PDCCH 상의 DCI는 하향링크 공유 채널과 관련된, 변조(modulation) 및 코딩 포맷과 자원 할당(resource allocation) 정보를 적어도 포함하는 하향링크 배정(assignment)(즉, downlink grant; DL grant), 또는 상향링크 공유 채널과 관련된, 변조 및 코딩 포맷과 자원 할당 정보를 포함하는 상향링크 그랜트(uplink grant; UL grant)를 포함한다.

도 2를 참고하여, 5G 통신 시스템에서의 초기 접속(Initial Access, IA) 절차에 대해 추가적으로 살펴본다.

UE는 SSB에 기반하여 셀 탐색(search), 시스템 정보 획득, 초기 접속을 위한 빔 정렬, DL 측정 등을 수행할 수 있다. SSB는 SS/PBCH(Synchronization Signal/Physical Broadcast channel) 블록과 혼용된다.

SSB는 PSS, SSS와 PBCH로 구성된다. SSB는 4개의 연속된 OFDM 심볼들에 구성되며, OFDM 심볼별로 PSS, PBCH, SSS/PBCH 또는 PBCH가 전송된다. PSS와 SSS는 각각 1개의 OFDM 심볼과 127개의 부반송파들로 구성되고, PBCH는 3개의 OFDM 심볼과 576개의 부반송파들로 구성된다.

셀 탐색은 UE가 셀의 시간/주파수 동기를 획득하고, 상기 셀의 셀 ID(Identifier)(예, Physical layer Cell ID, PCI)를 검출하는 과정을 의미한다. PSS는 셀 ID 그룹 내에서 셀 ID를 검출하는데 사용되고, SSS는 셀 ID 그룹을 검출하는데 사용된다. PBCH는 SSB (시간) 인덱스 검출 및 하프-프레임 검출에 사용된다.

336개의 셀 ID 그룹이 존재하고, 셀 ID 그룹 별로 3개의 셀 ID가 존재한다. 총 1008개의 셀 ID가 존재한다. 셀의 셀 ID가 속한 셀 ID 그룹에 관한 정보는 상기 셀의 SSS를 통해 제공/획득되며, 상기 셀 ID 내 336개 셀들 중 상기 셀 ID에 관한 정보는 PSS를 통해 제공/획득된다

SSB는 SSB 주기(periodicity)에 맞춰 주기적으로 전송된다. 초기 셀 탐색 시에 UE가 가정하는 SSB 기본 주기는 20ms로 정의된다. 셀 접속 후, SSB 주기는 네트워크(예, BS)에 의해 {5ms, 10ms, 20ms, 40ms, 80ms, 160ms} 중 하나로 설정될 수 있다.

다음으로, 시스템 정보 (system information; SI) 획득에 대해 살펴본다.

SI는 마스터 정보 블록(master information block, MIB)와 복수의 시스템 정보 블록(system information block, SIB)들로 나눠진다. MIB 외의 SI는 RMSI(Remaining Minimum System Information)으로 지칭될 수 있다. MIB는 SIB1(SystemInformationBlock1)을 나르는 PDSCH를 스케줄링하는 PDCCH의 모니터링을 위한 정보/파라미터를 포함하며 SSB의 PBCH를 통해 BS에 의해 전송된다. SIB1은 나머지 SIB들(이하, SIBx, x는 2 이상의 정수)의 가용성(availability) 및 스케줄링(예, 전송 주기, SI-윈도우 크기)과 관련된 정보를 포함한다. SIBx는 SI 메시지에 포함되며 PDSCH를 통해 전송된다. 각각의 SI 메시지는 주기적으로 발생하는 시간 윈도우(즉, SI-윈도우) 내에서 전송된다.

도 2를 참고하여, 5G 통신 시스템에서의 임의 접속(Random Access, RA) 과정에 대해 추가적으로 살펴본다.

임의 접속 과정은 다양한 용도로 사용된다. 예를 들어, 임의 접속 과정은 네트워크 초기 접속, 핸드오버, UE-트리거드(triggered) UL 데이터 전송에 사용될 수 있다. UE는 임의 접속 과정을 통해 UL 동기와 UL 전송 자원을 획득할 수 있다. 임의 접속 과정은 경쟁 기반(contention-based) 임의 접속 과정과 경쟁 프리(contention free) 임의 접속 과정으로 구분된다. 경쟁 기반의 임의 접속 과정에 대한 구체적인 절차는 아래와 같다.

UE가 UL에서 임의 접속 과정의 Msg1로서 임의 접속 프리앰블을 PRACH를 통해 전송할 수 있다. 서로 다른 두 길이를 가지는 임의 접속 프리앰블 시퀀스들이 지원된다. 긴 시퀀스 길이 839는 1.25 및 5 kHz의 부반송파 간격(subcarrier spacing)에 대해 적용되며, 짧은 시퀀스 길이 139는 15, 30, 60 및 120 kHz의 부반송파 간격에 대해 적용된다.

BS가 UE로부터 임의 접속 프리앰블을 수신하면, BS는 임의 접속 응답(random access response, RAR) 메시지(Msg2)를 상기 UE에게 전송한다. RAR을 나르는 PDSCH를 스케줄링하는 PDCCH는 임의 접속(random access, RA) 무선 네트워크 임시 식별자(radio network temporary identifier, RNTI)(RA-RNTI)로 CRC 마스킹되어 전송된다. RA-RNTI로 마스킹된 PDCCH를 검출한 UE는 상기 PDCCH가 나르는 DCI가 스케줄링하는 PDSCH로부터 RAR을 수신할 수 있다. UE는 자신이 전송한 프리앰블, 즉, Msg1에 대한 임의 접속 응답 정보가 상기 RAR 내에 있는지 확인한다. 자신이 전송한 Msg1에 대한 임의 접속 정보가 존재하는지 여부는 상기 UE가 전송한 프리앰블에 대한 임의 접속 프리앰블 ID가 존재하는지 여부에 의해 판단될 수 있다. Msg1에 대한 응답이 없으면, UE는 전력 램핑(power ramping)을 수행하면서 RACH 프리앰블을 소정의 횟수 이내에서 재전송할 수 있다. UE는 가장 최근의 경로 손실 및 전력 램핑 카운터를 기반으로 프리앰블의 재전송에 대한 PRACH 전송 전력을 계산한다.

상기 UE는 임의 접속 응답 정보를 기반으로 상향링크 공유 채널 상에서 UL 전송을 임의 접속 과정의 Msg3로서 전송할 수 있다. Msg3은 RRC 연결 요청 및 UE 식별자를 포함할 수 있다. Msg3에 대한 응답으로서, 네트워크는 Msg4를 전송할 수 있으며, 이는 DL 상에서의 경쟁 해결 메시지로 취급될 수 있다. Msg4를 수신함으로써, UE는 RRC 연결된 상태에 진입할 수 있다.

C. 5G 통신 시스템의 빔 관리(Beam Management, BM) 절차

BM 과정은 (1) SSB 또는 CSI-RS를 이용하는 DL BM 과정과, (2) SRS(sounding reference signal)을 이용하는 UL BM 과정으로 구분될 수 있다. 또한, 각 BM 과정은 Tx 빔을 결정하기 위한 Tx 빔 스위핑과 Rx 빔을 결정하기 위한 Rx 빔 스위핑을 포함할 수 있다.

SSB를 이용한 DL BM 과정에 대해 살펴본다.

SSB를 이용한 빔 보고(beam report)에 대한 설정은 RRC_CONNECTED에서 채널 상태 정보(channel state information, CSI)/빔 설정 시에 수행된다.

- UE는 BM을 위해 사용되는 SSB 자원들에 대한 CSI-SSB-ResourceSetList를 포함하는 CSI-ResourceConfig IE를 BS로부터 수신한다. RRC 파라미터 csi-SSB-ResourceSetList는 하나의 자원 세트에서 빔 관리 및 보고을 위해 사용되는 SSB 자원들의 리스트를 나타낸다. 여기서, SSB 자원 세트는 {SSBx1, SSBx2, SSBx3, SSBx4, 쪋}으로 설정될 수 있다. SSB 인덱스는 0부터 63까지 정의될 수 있다.

- UE는 상기 CSI-SSB-ResourceSetList에 기초하여 SSB 자원들 상의 신호들을 상기 BS로부터 수신한다.

- SSBRI 및 참조 신호 수신 전력(reference signal received power, RSRP)에 대한 보고와 관련된 CSI-RS reportConfig가 설정된 경우, 상기 UE는 최선(best) SSBRI 및 이에 대응하는 RSRP를 BS에게 보고한다. 예를 들어, 상기 CSI-RS reportConfig IE의 reportQuantity가 'ssb-Index-RSRP'로 설정된 경우, UE는 BS으로 최선 SSBRI 및 이에 대응하는 RSRP를 보고한다.

UE는 SSB와 동일한 OFDM 심볼(들)에 CSI-RS 자원이 설정되고, 'QCL-TypeD'가 적용 가능한 경우, 상기 UE는 CSI-RS와 SSB가 'QCL-TypeD' 관점에서 유사 동일 위치된(quasi co-located, QCL) 것으로 가정할 수 있다. 여기서, QCL-TypeD는 공간(spatial) Rx 파라미터 관점에서 안테나(111) 포트들 간에 QCL되어 있음을 의미할 수 있다. UE가 QCL-TypeD 관계에 있는 복수의 DL 안테나(111) 포트들의 신호들을 수신 시에는 동일한 수신 빔을 적용해도 무방하다.

다음으로, CSI-RS를 이용한 DL BM 과정에 대해 살펴본다.

CSI-RS를 이용한 UE의 Rx 빔 결정(또는 정제(refinement)) 과정과 BS의 Tx 빔 스위핑 과정에 대해 차례대로 살펴본다. UE의 Rx 빔 결정 과정은 반복 파라미터가 'ON'으로 설정되며, BS의 Tx 빔 스위핑 과정은 반복 파라미터가 'OFF'로 설정된다.

먼저, UE의 Rx 빔 결정 과정에 대해 살펴본다.

- UE는 'repetition'에 관한 RRC 파라미터를 포함하는 NZP CSI-RS resource set IE를 RRC 시그널링을 통해 BS로부터 수신한다. 여기서, 상기 RRC 파라미터 'repetition'이 'ON'으로 세팅되어 있다.

- UE는 상기 RRC 파라미터 'repetition'이 'ON'으로 설정된 CSI-RS 자원 세트 내의 자원(들) 상에서의 신호들을 BS의 동일 Tx 빔(또는 DL 공간 도메인 전송 필터)을 통해 서로 다른 OFDM 심볼에서 반복 수신한다.

- UE는 자신의 Rx 빔을 결정한다.

- UE는 CSI 보고를 생략한다. 즉, UE는 상가 RRC 파라미터 'repetition'이 'ON'으로 설정된 경우, CSI 보고를 생략할 수 있다.

다음으로, BS의 Tx 빔 결정 과정에 대해 살펴본다.

- UE는 'repetition'에 관한 RRC 파라미터를 포함하는 NZP CSI-RS resource set IE를 RRC 시그널링을 통해 BS로부터 수신한다. 여기서, 상기 RRC 파라미터 'repetition'이 'OFF'로 세팅되어 있으며, BS의 Tx 빔 스위핑 과정과 관련된다.

- UE는 상기 RRC 파라미터 'repetition'이 'OFF'로 설정된 CSI-RS 자원 세트 내의 자원들 상에서의 신호들을 BS의 서로 다른 Tx 빔(DL 공간 도메인 전송 필터)을 통해 수신한다.

- UE는 최상의(best) 빔을 선택(또는 결정)한다.

- UE는 선택된 빔에 대한 ID(예, CRI) 및 관련 품질 정보(예, RSRP)를 BS으로 보고한다. 즉, UE는 CSI-RS가 BM을 위해 전송되는 경우 CRI와 이에 대한 RSRP를 BS으로 보고한다.

다음으로, SRS를 이용한 UL BM 과정에 대해 살펴본다.

- UE는 'beam management'로 설정된 (RRC 파라미터) 용도 파라미터를 포함하는 RRC 시그널링(예, SRS-Config IE)를 BS로부터 수신한다. SRS-Config IE는 SRS 전송 설정을 위해 사용된다. SRS-Config IE는 SRS-Resources의 리스트와 SRS-ResourceSet들의 리스트를 포함한다. 각 SRS 자원 세트는 SRS-resource들의 세트를 의미한다.

- UE는 상기 SRS-Config IE에 포함된 SRS-SpatialRelation Info에 기초하여 전송할 SRS 자원에 대한 Tx 빔포밍을 결정한다. 여기서, SRS-SpatialRelation Info는 SRS 자원별로 설정되고, SRS 자원별로 SSB, CSI-RS 또는 SRS에서 사용되는 빔포밍과 동일한 빔포밍을 적용할지를 나타낸다.

- 만약 SRS 자원에 SRS-SpatialRelationInfo가 설정되면 SSB, CSI-RS 또는 SRS에서 사용되는 빔포밍과 동일한 빔포밍을 적용하여 전송한다. 하지만, SRS 자원에 SRS-SpatialRelationInfo가 설정되지 않으면, 상기 UE는 임의로 Tx 빔포밍을 결정하여 결정된 Tx 빔포밍을 통해 SRS를 전송한다.

다음으로, 빔 실패 복구(beam failure recovery, BFR) 과정에 대해 살펴본다.

빔포밍된 시스템에서, RLF(Radio Link Failure)는 UE의 회전(rotation), 이동(movement) 또는 빔포밍 블로키지(blockage)로 인해 자주 발생할 수 있다. 따라서, 잦은 RLF가 발생하는 것을 방지하기 위해 BFR이 NR에서 지원된다. BFR은 무선 링크 실패 복구 과정과 유사하고, UE가 새로운 후보 빔(들)을 아는 경우에 지원될 수 있다. 빔 실패 검출을 위해, BS는 UE에게 빔 실패 검출 참조 신호들을 설정하고, 상기 UE는 상기 UE의 물리 계층으로부터의 빔 실패 지시(indication)들의 횟수가 BS의 RRC 시그널링에 의해 설정된 기간(period) 내에 RRC 시그널링에 의해 설정된 임계치(threshold)에 이르면(reach), 빔 실패를 선언(declare)한다. 빔 실패가 검출된 후, 상기 UE는 PCell 상의 임의 접속 과정을 개시(initiate)함으로써 빔 실패 복구를 트리거하고; 적절한(suitable) 빔을 선택하여 빔 실패 복구를 수행한다(BS가 어떤(certain) 빔들에 대해 전용 임의 접속 자원들을 제공한 경우, 이들이 상기 UE에 의해 우선화된다). 상기 임의 접속 절차의 완료(completion) 시, 빔 실패 복구가 완료된 것으로 간주된다.

D. URLLC (Ultra-Reliable and Low Latency Communication)

NR에서 정의하는 URLLC 전송은 (1) 상대적으로 낮은 트래픽 크기, (2) 상대적으로 낮은 도착 레이트(low arrival rate), (3) 극도의 낮은 레이턴시 요구사항(requirement)(예, 0.5, 1ms), (4) 상대적으로 짧은 전송 지속기간(duration)(예, 2 OFDM symbols), (5) 긴급한 서비스/메시지 등에 대한 전송을 의미할 수 있다. UL의 경우, 보다 엄격(stringent)한 레이턴시 요구 사항(latency requirement)을 만족시키기 위해 특정 타입의 트래픽(예컨대, URLLC)에 대한 전송이 앞서서 스케줄링된 다른 전송(예컨대, eMBB)과 다중화(multiplexing)되어야 할 필요가 있다. 이와 관련하여 한 가지 방안으로, 앞서 스케줄링 받은 UE에게 특정 자원에 대해서 프리엠션(preemption)될 것이라는 정보를 주고, 해당 자원을 URLLC UE가 UL 전송에 사용하도록 한다.

NR의 경우, eMBB와 URLLC 사이의 동적 자원 공유(sharing)이 지원된다. eMBB와 URLLC 서비스들은 비-중첩(non-overlapping) 시간/주파수 자원들 상에서 스케줄될 수 있으며, URLLC 전송은 진행 중인(ongoing) eMBB 트래픽에 대해 스케줄된 자원들에서 발생할 수 있다. eMBB UE는 해당 UE의 PDSCH 전송이 부분적으로 펑처링(puncturing)되었는지 여부를 알 수 없을 수 있고, 손상된 코딩된 비트(corrupted coded bit)들로 인해 UE는 PDSCH를 디코딩하지 못할 수 있다. 이 점을 고려하여, NR에서는 프리엠션 지시(preemption indication)을 제공한다. 상기 프리엠션 지시(preemption indication)는 중단된 전송 지시(interrupted transmission indication)으로 지칭될 수도 있다.

프리엠션 지시와 관련하여, UE는 BS로부터의 RRC 시그널링을 통해 DownlinkPreemption IE를 수신한다. UE가 DownlinkPreemption IE를 제공받으면, DCI 포맷 2_1을 운반(convey)하는 PDCCH의 모니터링을 위해 상기 UE는 DownlinkPreemption IE 내 파라미터 int-RNTI에 의해 제공된 INT-RNTI를 가지고 설정된다. 상기 UE는 추가적으로 servingCellID에 의해 제공되는 서빙 셀 인덱스들의 세트를 포함하는 INT-ConfigurationPerServing Cell에 의해 서빙 셀들의 세트와 positionInDCI에 의해 DCI 포맷 2_1 내 필드들을 위한 위치들의 해당 세트를 가지고 설정되고, dci-PayloadSize에 의해 DCI 포맷 2_1을 위한 정보 페이로드 크기를 가지고 설졍되며, timeFrequencySect에 의한 시간-주파수 자원들의 지시 입도(granularity)를 가지고 설정된다.

상기 UE는 상기 DownlinkPreemption IE에 기초하여 DCI 포맷 2_1을 상기 BS로부터 수신한다.

UE가 서빙 셀들의 설정된 세트 내 서빙 셀에 대한 DCI 포맷 2_1을 검출하면, 상기 UE는 상기 DCI 포맷 2_1이 속한 모니터링 기간의 바로 앞(last) 모니터링 기간의 PRB들의 세트 및 심볼들의 세트 중 상기 DCI 포맷 2_1에 의해 지시되는 PRB들 및 심볼들 내에는 상기 UE로의 아무런 전송도 없다고 가정할 수 있다. 예를 들어, UE는 프리엠션에 의해 지시된 시간-주파수 자원 내 신호는 자신에게 스케줄링된 DL 전송이 아니라고 보고 나머지 자원 영역에서 수신된 신호들을 기반으로 데이터를 디코딩한다.

E. mMTC (massive MTC)

mMTC(massive Machine Type Communication)은 많은 수의 UE와 동시에 통신하는 초연결 서비스를 지원하기 위한 5G의 시나리오 중 하나이다. 이 환경에서, UE는 굉장히 낮은 전송 속도와 이동성을 가지고 간헐적으로 통신하게 된다. 따라서, mMTC는 UE를 얼마나 낮은 비용으로 오랫동안 구동할 수 있는지를 주요 목표로 하고 있다. mMTC 기술과 관련하여 3GPP에서는 MTC와 NB(NarrowBand)-IoT를 다루고 있다.

mMTC 기술은 PDCCH, PUCCH, PDSCH(physical downlink shared channel), PUSCH 등의 반복 전송, 주파수 호핑(hopping), 리튜닝(retuning), 가드 구간(guard period) 등의 특징을 가진다.

즉, 특정 정보를 포함하는 PUSCH(또는 PUCCH(특히, long PUCCH) 또는 PRACH) 및 특정 정보에 대한 응답을 포함하는 PDSCH(또는 PDCCH)가 반복 전송된다. 반복 전송은 주파수 호핑(frequency hopping)을 통해 수행되며, 반복 전송을 위해, 제 1 주파수 자원에서 제 2 주파수 자원으로 가드 구간(guard period)에서 (RF) 리튜닝(retuning)이 수행되고, 특정 정보 및 특정 정보에 대한 응답은 협대역(narrowband)(ex. 6 RB (resource block) or 1 RB)를 통해 송/수신될 수 있다.

F. 5G 통신을 이용한 자율 주행 차량 간 기본 동작

자율 주행 차량(Autonomous Vehicle)은 특정 정보 전송을 5G 네트워크로 전송한다(S1). 상기 특정 정보는 자율 주행 관련 정보를 포함할 수 있다. 그리고, 상기 5G 네트워크는 차량의 원격 제어 여부를 결정할 수 있다(S2). 여기서, 상기 5G 네트워크는 자율 주행 관련 원격 제어를 수행하는 서버 또는 모듈을 포함할 수 있다. 그리고, 상기 5G 네트워크는 원격 제어와 관련된 정보(또는 신호)를 상기 자율 주행 차량으로 전송할 수 있다(S3).

G. 5G 통신 시스템에서 자율 주행 차량과 5G 네트워크 간의 응용 동작

이하, 도 1 및 도 2와 앞서 살핀 무선 통신 기술(BM 절차, URLLC, Mmtc 등)을 참고하여 5G 통신을 이용한 자율 주행 차량의 동작에 대해 보다 구체적으로 살펴본다.

먼저, 후술할 본 명세서에서 제안하는 방법과 5G 통신의 eMBB 기술이 적용되는 응용 동작의 기본 절차에 대해 설명한다.

도 3의 S1 단계 및 S3 단계와 같이, 자율 주행 차량이 5G 네트워크와 신호, 정보 등을 송/수신하기 위해, 자율 주행 차량은 도 3의 S1 단계 이전에 5G 네트워크와 초기 접속(initial access) 절차 및 임의 접속(random access) 절차를 수행한다.

보다 구체적으로, 자율 주행 차량은 DL 동기 및 시스템 정보를 획득하기 위해 SSB에 기초하여 5G 네트워크와 초기 접속 절차를 수행한다. 상기 초기 접속 절차 과정에서 빔 관리(beam management, BM) 과정, 빔 실패 복구(beam failure recovery) 과정이 추가될 수 있으며, 자율 주행 차량이 5G 네트워크로부터 신호를 수신하는 과정에서 QCL(quasi-co location) 관계가 추가될 수 있다.

또한, 자율 주행 차량은 UL 동기 획득 및/또는 UL 전송을 위해 5G 네트워크와 임의 접속 절차를 수행한다. 그리고, 상기 5G 네트워크는 상기 자율 주행 차량으로 특정 정보의 전송을 스케쥴링하기 위한 UL grant를 전송할 수 있다. 따라서, 상기 자율 주행 차량은 상기 UL grant에 기초하여 상기 5G 네트워크로 특정 정보를 전송한다. 그리고, 상기 5G 네트워크는 상기 자율 주행 차량으로 상기 특정 정보에 대한 5G 프로세싱 결과의 전송을 스케쥴링하기 위한 DL grant를 전송한다. 따라서, 상기 5G 네트워크는 상기 DL grant에 기초하여 상기 자율 주행 차량으로 원격 제어와 관련된 정보(또는 신호)를 전송할 수 있다.

다음으로, 후술할 본 명세서에서 제안하는 방법과 5G 통신의 URLLC 기술이 적용되는 응용 동작의 기본 절차에 대해 설명한다.

앞서 설명한 바와 같이, 자율 주행 차량은 5G 네트워크와 초기 접속 절차 및/또는 임의 접속 절차를 수행한 후, 자율 주행 차량은 5G 네트워크로부터 DownlinkPreemption IE를 수신할 수 있다. 그리고, 자율 주행 차량은 DownlinkPreemption IE에 기초하여 프리엠션 지시(pre-emption indication)을 포함하는 DCI 포맷 2_1을 5G 네트워크로부터 수신한다. 그리고, 자율 주행 차량은 프리엠션 지시(pre-emption indication)에 의해 지시된 자원(PRB 및/또는 OFDM 심볼)에서 eMBB data의 수신을 수행(또는 기대 또는 가정)하지 않는다. 이후, 자율 주행 차량은 특정 정보를 전송할 필요가 있는 경우 5G 네트워크로부터 UL grant를 수신할 수 있다.

다음으로, 후술할 본 명세서에서 제안하는 방법과 5G 통신의 mMTC 기술이 적용되는 응용 동작의 기본 절차에 대해 설명한다.

도 3의 단계들 중 mMTC 기술의 적용으로 달라지는 부분 위주로 설명하기로 한다.

도 3의 S1 단계에서, 자율 주행 차량은 특정 정보를 5G 네트워크로 전송하기 위해 5G 네트워크로부터 UL grant를 수신한다. 여기서, 상기 UL grant는 상기 특정 정보의 전송에 대한 반복 횟수에 대한 정보를 포함하고, 상기 특정 정보는 상기 반복 횟수에 대한 정보에 기초하여 반복하여 전송될 수 있다. 즉, 상기 자율 주행 차량은 상기 UL grant에 기초하여 특정 정보를 5G 네트워크로 전송한다. 그리고, 특정 정보의 반복 전송은 주파수 호핑을 통해 수행되고, 첫 번째 특정 정보의 전송은 제 1 주파수 자원에서, 두 번째 특정 정보의 전송은 제 2 주파수 자원에서 전송될 수 있다. 상기 특정 정보는 6RB(Resource Block) 또는 1RB(Resource Block)의 협대역(narrowband)을 통해 전송될 수 있다.

H. 5G 통신을 이용한 차량 대 차량 간의 자율 주행 동작

도 4는 5G 통신을 이용한 차량 대 차량 간의 기본 동작의 일 예를 예시한다.

제1 차량은 특정 정보를 제2 차량으로 전송한다(S61). 제2 차량은 특정 정보에 대한 응답을 제1 차량으로 전송한다(S62).

한편, 5G 네트워크가 상기 특정 정보, 상기 특정 정보에 대한 응답의 자원 할당에 직접적(사이드 링크 통신 전송 모드 3) 또는 간접적으로(사이드링크 통신 전송 모드 4) 관여하는지에 따라 차량 대 차량 간 응용 동작의 구성이 달라질 수 있다.

다음으로, 5G 통신을 이용한 차량 대 차량 간의 응용 동작에 대해 살펴본다.

먼저, 5G 네트워크가 차량 대 차량 간의 신호 전송/수신의 자원 할당에 직접적으로 관여하는 방법을 설명한다.

5G 네트워크는, 모드 3 전송(PSCCH 및/또는 PSSCH 전송)의 스케줄링을 위해 DCI 포맷 5A를 제1 차량에 전송할 수 있다. 여기서, PSCCH(physical sidelink control channel)는 특정 정보 전송의 스케줄링을 위한 5G 물리 채널이고, PSSCH(physical sidelink shared channel)는 특정 정보를 전송하는 5G 물리 채널이다. 그리고, 제1 차량은 특정 정보 전송의 스케줄링을 위한 SCI 포맷 1을 PSCCH 상에서 제2 차량으로 전송한다. 그리고, 제1 차량이 특정 정보를 PSSCH 상에서 제2 차량으로 전송한다.

다음으로, 5G 네트워크가 신호 전송/수신의 자원 할당에 간접적으로 관여하는 방법에 대해 살펴본다.

제1 차량은 모드 4 전송을 위한 자원을 제1 윈도우에서 센싱한다. 그리고, 제1 차량은, 상기 센싱 결과에 기초하여 제2 윈도우에서 모드 4 전송을 위한 자원을 선택한다. 여기서, 제1 윈도우는 센싱 윈도우(sensing window)를 의미하고, 제2 윈도우는 선택 윈도우(selection window)를 의미한다. 제1 차량은 상기 선택된 자원을 기초로 특정 정보 전송의 스케줄링을 위한 SCI 포맷 1을 PSCCH 상에서 제2 차량으로 전송한다. 그리고, 제1 차량은 특정 정보를 PSSCH 상에서 제2 차량으로 전송한다.

V2X (Vehicle-to-Everything)

도 5는 본 명세서가 적용될 수 있는 V2X 통신의 예시이다.

V2X 통신은 차량 사이의 통신(communication between vehicles)을 지칭하는 V2V(Vehicle-to-Vehicle), 차량과 eNB 또는 RSU(Road Side Unit) 사이의 통신을 지칭하는 V2I(Vehicle to Infrastructure), 차량 및 개인(보행자, 자전거 운전자, 차량 운전자 또는 승객)이 소지하고 있는 UE 간 통신을 지칭하는 V2P(Vehicle-to-Pedestrian), V2N(vehicle-to-network) 등 차량과 모든 개체들 간 통신을 포함한다.

V2X 통신은 V2X 사이드링크 또는 NR V2X와 동일한 의미를 나타내거나 또는 V2X 사이드링크 또는 NR V2X를 포함하는 보다 넓은 의미를 나타낼 수 있다.

V2X 통신은 예를 들어, 전방 충돌 경고, 자동 주차 시스템, 협력 조정형 크루즈 컨트롤(Cooperative adaptive cruise control: CACC), 제어 상실 경고, 교통행렬 경고, 교통 취약자 안전 경고, 긴급 차량 경보, 굽은 도로 주행 시 속도 경고, 트래픽 흐름 제어 등 다양한 서비스에 적용 가능하다.

V2X 통신은 PC5 인터페이스 및/또는 Uu 인터페이스를 통해 제공될 수 있다. 이 경우, V2X 통신을 지원하는 무선 통신 시스템에는, 상기 차량과 모든 개체들 간의 통신을 지원하기 위한 특정 네트워크 개체(network entity)들이 존재할 수 있다. 예를 들어, 상기 네트워크 개체는, BS(eNB), RSU(road side unit), UE, 또는 어플리케이션 서버(application server)(예, 교통 안전 서버(traffic safety server)) 등일 수 있다.

또한, V2X 통신을 수행하는 UE는, 일반적인 휴대용 UE(handheld UE)뿐만 아니라, 차량 UE(V-UE(Vehicle UE)), 보행자 UE(pedestrian UE), BS 타입(eNB type)의 RSU, 또는 UE 타입(UE type)의 RSU, 통신 모듈을 구비한 로봇 등을 의미할 수 있다.

V2X 통신은 UE들 간에 직접 수행되거나, 상기 네트워크 개체(들)를 통해 수행될 수 있다. 이러한 V2X 통신의 수행 방식에 따라 V2X 동작 모드가 구분될 수 있다.

V2X 통신은, 사업자(operator) 또는 제3자가 V2X가 지원되는 지역 내에서 UE 식별자를 트랙킹할 수 없도록, V2X 어플리케이션의 사용 시에 UE의 익명성(pseudonymity) 및 개인보호(privacy)를 지원할 것이 요구된다.

V2X 통신에서 자주 사용되는 용어는 다음과 같이 정의된다.

- RSU (Road Side Unit): RSU는 V2I 서비스를 사용하여 이동 차량과 전송/수신 할 수 있는 V2X 서비스 가능 장치이다. 또한, RSU는 V2X 어플리케이션을 지원하는 고정 인프라 엔터티로서, V2X 어플리케이션을 지원하는 다른 엔터티와 메시지를 교환할 수 있다. RSU는 기존 ITS 스펙에서 자주 사용되는 용어이며, 3GPP 스펙에 이 용어를 도입한 이유는 ITS 산업에서 문서를 더 쉽게 읽을 수 있도록 하기 위해서이다. RSU는 V2X 어플리케이션 로직을 BS(BS-타입 RSU라고 함) 또는 UE(UE-타입 RSU라고 함)의 기능과 결합하는 논리적 엔티티이다.

- V2I 서비스: V2X 서비스의 일 타입으로, 한 쪽은 차량(vehicle)이고 다른 쪽은 기반시설(infrastructure)에 속하는 엔티티.

- V2P 서비스: V2X 서비스의 일 타입으로, 한 쪽은 차량이고, 다른 쪽은 개인이 휴대하는 기기(예, 보행자, 자전거 타는 사람, 운전자 또는 동승자가 휴대하는 휴대용 UE기).

- V2X 서비스: 차량에 전송 또는 수신 장치가 관계된 3GPP 통신 서비스 타입.

- V2X 가능(enabled) UE: V2X 서비스를 지원하는 UE.

- V2V 서비스: V2X 서비스의 타입으로, 통신의 양쪽 모두 차량이다.

- V2V 통신 범위: V2V 서비스에 참여하는 두 차량 간의 직접 통신 범위.

V2X(Vehicle-to-Everything)라고 불리는 V2X 어플리케이션은 살핀 것처럼, (1) 차량 대 차량 (V2V), (2) 차량 대 인프라 (V2I), (3) 차량 대 네트워크 (V2N), (4) 차량 대 보행자 (V2P)의 4가지 타입이 있다.

사이드링크에서는 서로 다른 사이드링크 제어 채널(physical sidelink control channel, PSCCH)들이 주파수 도메인에서 이격되어 할당되고 서로 다른 사이드링크 공유 채널(physical sidelink shared channel, PSSCH)들이 이격되어 할당될 수 있다. 또는, 서로 다른 PSCCH들이 주파수 도메인에서 연속하여 할당되고, PSSCH들도 주파수 도메인에서 연속하여 할당될 수도 있다.

NR V2X

3GPP 릴리즈 14 및 15 동안 자동차 산업으로 3GPP 플랫폼을 확장하기 위해, LTE에서 V2V 및 V2X 서비스에 대한 지원이 소개되었다.

개선된(enhanced) V2X 사용 예(use case)에 대한 지원을 위한 요구사항(requirement)들은 크게 4개의 사용 예 그룹들로 정리된다.

(1) 차량 플래투닝 (vehicle Platooning)은 차량들이 함께 움직이는 플래툰(platoon)을 동적으로 형성할 수 있게 한다. 플래툰의 모든 차량은 이 플래툰을 관리하기 위해 선두 차량으로부터 정보를 얻는다. 이러한 정보는 차량이 정상 방향보다 조화롭게 운전되고, 같은 방향으로 가고 함께 운행할 수 있게 한다.

(2) 확장된 센서(extended sensor)들은 차량, 도로 사이트 유닛(road site unit), 보행자 장치(pedestrian device) 및 V2X 어플리케이션 서버에서 로컬 센서 또는 동영상 이미지(live video image)를 통해 수집된 원시(raw) 또는 처리된 데이터를 교환할 수 있게 한다. 차량은 자신의 센서가 감지할 수 있는 것 이상으로 환경에 대한 인식을 높일 수 있으며, 지역 상황을 보다 광범위하고 총체적으로 파악할 수 있다. 높은 데이터 전송 레이트가 주요 특징 중 하나이다.

(3) 진화된 운전(advanced driving)은 반-자동 또는 완전-자동 운전을 가능하게 한다. 각 차량 및/또는 RSU는 로컬 센서에서 얻은 자체 인식 데이터를 근접 차량과 공유하고, 차량이 궤도(trajectory) 또는 기동(manoeuvre)을 동기화 및 조정할 수 있게 한다. 각 차량은 근접 운전 차량과 운전 의도를 공유한다.

(4) 원격 운전(remote driving)은 원격 운전자 또는 V2X 어플리케이션이 스스로 또는 위험한 환경에 있는 원격 차량으로 주행 할 수 없는 승객을 위해 원격 차량을 운전할 수 있게 한다. 변동이 제한적이고, 대중 교통과 같이 경로를 예측할 수 있는 경우, 클라우드 컴퓨팅을 기반으로 한 운전을 사용할 수 있다. 높은 신뢰성과 낮은 대기 시간이 주요 요구 사항이다.

PC5를 통해 V2X 통신을 하기위한 식별자

각 단말은 하나 이상의 PC5를 통해 V2통신을 하기 위한 Layer-2 식별자를 갖는다. 이는 소스(source) Layer-2 ID 와 목적지(Destination) Layer-2 ID를 포함한다.

소스 및 목적지 Layer-2 ID는 Layer-2 프레임에 포함되며, Layer-2 프레임은 프레임상의 Layer-2의 소스 및 목적지를 식별하는 PC5의 layer-2 링크를 통해 전송된다.

단말의 소스 및 목적지 Layer-2 ID 선택은 layer-2 링크의 PC5의 V2X 통신의 통신모드에 근거한다. 소스 Layer-2 ID는 다른 통신모드간에 다를 수 있다.

IP 기반의 V2X 통신이 허용되는 경우, 단말은 링크 로컬 IPv6 주소를 소스 IP 주소로 사용하도록 설정한다. 단말은 중복주소 탐색을 위한 Neighbor Solicitation and Neighbor Advertisement 메시지를 보내지 않고도, PC5의 V2X 통신을 위해 이 IP 주소를 사용할 수 있다.

일 단말이 현재 지리적 영역에서 지원되는 개인정보 보호가 요구되는 활성화 된 V2X application을 갖는다면, 소스 단말(예를 들어, 차량)이 추적당하거나 특정시간 동안만 다른 단말로부터 식별되기 위해, 소스 Layer-2 ID는 시간이 지남에 따라 보충되고, 무작위화 될 수 있다. IP 기반의 V2X 통신의 경우, 소스 IP 주소도 시간이 지남에 따라 보충되어야 하고, 무작위화 되어야 한다.

소스 단말의 식별자들의 보충은 PC5에 사용되는 계층에서 동기화되어야 한다. 즉, 어플리케이션 계층 식별자가 보충된다면, 소스 Layer-2 ID 와 소스 IP 주소의 보충도 요구된다.

브로드캐스트 모드(Broadcast mode)

도 7는 PC5를 이용한 V2X 통신의 브로드캐스트 모드에 대한 절차를 예시하는 도면이다.

1. 수신 단말은 브로드캐스트 수신을 위한 목적지(destination) Layer-2 ID를 결정한다. 목적지 Layer-2 ID는 수신을 위해, 수신 단말의 AS 계층으로 전달된다.

2. 송신 단말의 V2X application layer는 데이터 유닛을 제공하고, V2X 어플리케이션 요구사항(Application Requirements)을 제공할 수 있다.

3. 송신 단말은 브로드캐스트를 위한, 목적지 Layer-2 ID를 결정한다. 송신 단말은 소스(source) Layer-2 ID를 자체 할당한다.

4. 송신 단말이 전송하는 하나의 브로드캐스트 메시지는 소스 Layer-2 ID 와 목적지 Layer-2 ID를 이용하여, V2X 서비스 데이터를 전송한다.

고전적인 자연어 처리(Natural Language Processing)

도 8은 고전적인 자연어 처리를 나타낸 도면이다.

자연어(Natural Language)란, 한국어, 영어 등과 같이 인간사회의 형성과 함께 자연발생적으로 생겨나고 진화하고 의사소통을 행하기 위한 수단으로서 사용되고 있는 언어를 의미한다. 이러한 자연어를 가공 및 처리하는 것을 자연어 처리(Natural Language Processing)라고 한다.

자연어 처리는, 자연어 이해(Natural Language Understanding), 자연어 생성(Natural Language Generation), 기계 번역(Machine Translation), 질의 응답 시스템(Question Answering System), 전산 언어학(Computational Linguistics), 음성 인식(Speech Recognition), 음성 합성(Speech Systhesis), 음성 이해(Speech Understanding), 정보 검색(Information Retrieval), 문서 분류(Text Categorization), 텍스트 마이닝(Text Mining) 등의 여러분야를 포함할 수 있다.

도 8에 따르면, 고전적인 자연어 처리는 (1) 전처리(Pre-processing), (2) 모델링(modeling), (3) 출력(Output) 등으로 구분될 수 있다.

도 8에 따르면, 상기 전처리는, 해당 언어의 특성에 맞게 텍스트를 가공하여 그 특징을 추출하기 용이하도록 처리하는 프로세싱을 말할 수 있다. 즉, 상기 전처리 프로세싱은 ① 토큰화(Tokenizatoin) 단계, ② 포스 태깅(PoS Tagging) 단계 및 ③ 스탑워드 제거(Stopword Removal) 단계 등을 포함할 수 있다.

토큰화 단계는 텍스트를 문서, 문단, 문장 등의 기본 단위로 구분하는 작업을 의미할 수 있다. 이는 언어의 특징에 따라 서로 달라질 수 있다. 일 예로, 중국어의 경우는 띄어쓰기가 없고 한국어의 경우 띄어쓰기 규칙을 잘 지키지 않는 경향이 존재하는 등의 차이가 존재할 수 있다.

포스 태깅 단계는 상기 토큰화 단계에서 토큰으로 구분된 단어를 품사로 매칭하는 단계를 말할 수 있다. 동일한 단어라도 명사인지, 동사인지, 형용사인지에 따라서 중요도나 의미가 달라질 수 있기 때문이다.

스탑워드 제거(Stopword Removal) 단계는 불용어(Stopword)를 제거하는 것을 말할 수 있다. 불용어란, 텍스트에서 큰 의미를 가지지 않는 것들을 의미할 수 있다. 일 예시로, 영어의 경우는 it, there 등과 같은 대명사를 의미할 수 있다.

도 8에 따르면, 상기 모델링은, 상기 전처리된 텍스트의 특징을 추출하여 원하는 결과를 도출하기 위한 프로세싱을 말할 수 있다. 즉, 상기 모델링 프로세싱은, ① 특징 추출(Feature Extraction) 단계, ② 특징들을 모델링(Modeling)하는 단계, 및 ③ 특징들을 바탕으로 의미를 추론(Inference)하는 단계를 포함할 수 있다.

도 8에 따르면, 상기 출력은, ① 정서(sentiment), ② 분류(Classification), ③ 엔티티(Entity) 추출, ④ 번역(Translation), ⑤ 토픽 모델링(Topic Modeling)을 포함할 수 있다.

딥 러닝을 기초로 하는 자연어 처리(Natural Language Processing)

도 9는 딥 러닝을 기초로 하는 자연어 처리를 나타낸 도면이다.

딥 러닝(Deep Learing)은 사물이나 데이터를 군집화하거나 분류하는 데 사용하는 기술을 의미한다. 최근, 딥 러닝 기술의 발전으로 인하여, 자연어 처리에도 딥 러닝의 기술을 적용하는 경우 자연어 처리가 매우 효과적이라는 사실이 알려져 있다.

도 9에 따르면, (1) 텍스트를 전처리하는 단계, (2) 임베딩 단계, (3) 히든 레이어(Hidden layer)를 통과하는 단계 및 (4) 출력 단계를 포함할 수 있다.

상기 텍스트를 전처리하는 단계는, 해당 언어의 특성에 맞게 텍스트를 가공하여 그 특징을 추출하기 용이하도록 처리하는 프로세싱을 말할 수 있다. 즉, 상기 텍스트를 전처리하는 단계는 ①토큰화(Tokenizatoin) 단계, ②포스 태깅(PoS Tagging) 단계 및 ③스탑워드 제거(Stopword Removal) 단계 등을 포함할 수 있다. 이는 상술한 내용에 자세히 설명되어 있으므로 이하 생략한다.

상기 임베딩(Embedding) 단계는, 단어 임베딩, 문장 임베딩 등을 포함할 수 있다. 임베딩은 자연어를 숫자의 나열인 벡터로 바꾼 결과 혹은 그 일련의 과정 전체를 가리키는 용어를 의미한다.

상기 히든 레이어(Hidden layer)를 통과하는 단계는, 여러 층의 비선형의 히든 레이어(Hidden layer)를 포함하고 있는 신경망(artificial neural network)으로 여러 비선형 변환(non-linear activation)의 조합을 통해 높은 수준의 추상화(abstraction)를 시도하여 새로운 자질의 조합 혹은 표현을 학습하는 단계를 의미할 수 있다.

상기 출력 단계는, ①정서(sentiment), ②분류(Classification), ③엔티티(Entity) 추출, ④번역(Translation), ⑤토픽 모델링(Topic Modeling)을 출력할 수 있다.

지능형 대화 서비스 제공 방법

이하, 상술한 내용들을 바탕으로 본 명세서의 바람직한 제1 실시예에 따른, 지능형 대화 서비스 제공 방법에 관하여 상세히 설명하면 다음과 같다.

또한, 본 명세서의 바람직한 제1 실시예에 따른, 지능형 대화 서비스 제공 방법은, 후술할 본 명세서의 제2 실시예에 따른, 차량용 지능형 대화 시스템에서 수행될 수 있다.

도 10에 따르면, 본 명세서의 제1 실시예에 따른 지능형 대화 서비스 제공 방법은, 발화문이 입력되는 단계(S100), 언어 종류별로 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 입력된 발화문을 텍스트로 변환하는 단계(S200), 변환된 텍스트로부터 인텐트(Intent)를 분석하는 단계(S300), 분석된 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 단계(S400), 및 상기 생성된 응답을 출력하는 단계(S500)를 포함할 수 있다.

또한, 도 10에 따르면, 본 명세서의 제1 실시예에 따른 지능형 대화 서비스 제공 방법은, 발화문을 텍스트로 변환하는 단계(S200)에서 입력된 발화문만으로 텍스트 변환이 이루어지지 않는 경우 또는 텍스트 변환 결과 하나의 텍스트가 선택되지 않는 경우를 대비할 수 있다. 이때, 본 명세서의 지능형 대화 서비스 제공 방법은, 새로운 발화문의 입력을 안내하는 알람을 출력하는 단계 (S2001)를 실행할 수 있다. 상기 알람이 출력되면, 발화자는 새로운 발화문을 말하게 되고, 이때 새로운 발화문이 시스템에 입력(S100)된다.

상기 새로운 발화문의 입력을 안내하는 알람이란, 일예로 "다시 말씀해 주세요." 등의 발화자의 발화를 다시 유도하는 문장을 포함할 수 있다.

위와 같이, 상기 알람을 곧바로 출력하는 단계(S2001)를 통하여, 본 명세서에 따른 제1 실시예는 보다 정확한 발화문을 입력받을 수 있는 효과가 있다. 보다 정확한 발화문이 입력될수록, 그에 알맞은 응답을 생성할 수 있는 확률이 높아진다.

또한, 발화문을 텍스트로 변환하는 단계(S200)는 일반적인 자동 음성 인식을 수행하는 것을 포함할 수 있다. 자동 음성 인식은, 이를 위하여 구성된 자동 음성 인식 모듈에서 실행될 수 있다. 자동 음성 인식이란, 화자의 음성 데이터를 텍스트로 변환하는 것을 의미할 수 있다.

다만, 본 명세서의 제1 실시예에 있어서, 발화자가 어떠한 언어를 구사하는지 알 수 없으므로, 각국의 언어별로 자동 음성 인식이 가능한 복수의 자동 음성 인식 모듈을 이용할 수 있다.

복수의 자동 음성 인식 모듈은, 발화문의 정확한 언어의 종류를 알아내기 위하여 신뢰값이라는 구성을 이용할 수 있다. 신뢰값(Confidance value)이란, 해당 언어를 자연어 처리하였을 때, 각국 언어별 신뢰도를 의미할 수 있다. 이때, 신뢰도는 발화문을 텍스트로 변환하였을 때, 변환된 텍스트의 의미, 변환된 정도, 매칭되는 단어의 존재 등을 수치화하여 점수로 표현한 것이다. 즉, 신뢰값은 입력된 발화문의 패턴과 저장된 언어의 패턴을 비교하여 얼마나 동일한 패턴을 가지는지를 수치화한 값을 말할 수 있다.

본 명세서의 자동 음성 인식 모듈에서는 신뢰값의 범위를 0부터 1까지로 측정한다. 0에 가까울수록 발화문의 패턴과 저장된 언어의 패턴이 다르며, 1에 가까울수록 발화문의 패턴과 저장된 언어의 패턴이 동일하다고 해석될 수 있다.

도 11 및 도 12는 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 발화문을 텍스트로 변환하는 단계(S200)를 나타낸 도면이다.

도 11에 따르면, 본 명세서의 제1 실시예에 따른 지능형 대화 서비스 제공 방법은, 발화문을 텍스트로 변환하는 단계(S200)를 다음과 같이 구성할 수 있다.

발화문을 텍스트로 변환하는 단계(S200)는, 상기 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문에 대하여 상기 언어 종류별 텍스트 및 신뢰값을 도출하는 단계(S210), 상기 신뢰값들 중 기설정된 값보다 큰 신뢰값을 가지는 텍스트를 선택하는 단계(S220)를 포함할 수 있다.

또한, 도 12에 따르면, 본 명세서의 발화문을 텍스트로 변환하는 단계(S200)는, 상기 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문에 대하여 상기 언어 종류별 텍스트 및 신뢰값들을 도출하는 단계(S211), 및 상기 신뢰값들 중 제1 조건 및 제2 조건을 만족하는 신뢰값을 가지는 텍스트를 선택하는 단계(S221)를 포함할 수 있다.

상기 제1 조건 및 제2 조건은 다음과 같다.

[제1 조건]

신뢰값 ≥ 기설정된 제1 값

[제2 조건]

이때, 발화문을 텍스트로 변환하는 단계(S200)에서 신뢰값들을 기초로 언어를 선택하기 위한 제1 조건은, 신뢰값들 중 기설정된 제1 값보다 크거나 동일한 신뢰값을 가지는 것일 수 있다. 상기 기설정된 제1 값은 0.6 내지 1 사이의 값일 수 있으며, 0.9인 것이 바람직하나 이에 한정되는 것은 아니다.

즉, 신뢰값들이 기설정된 제1 값보다 작다면, 정확한 신뢰값을 계산해내지 못한 것으로 해석될 수 있다. 또한, 상기 기설정된 제1 값이 0.6 보다 작다면, 정확한 신뢰값을 계산해내기 어려울 수 있다.

또한, 발화문을 텍스트로 변환하는 단계(S200)에서 신뢰값들을 기초로 언어를 선택하기 위한 제2 조건은, 신뢰값들 사이의 차이값이 기설정된 제2 값보다 크거나 동일한 것일 수 있다. 상기 기설정된 제2 값은 0.1 내지 0.6 사이의 값일 수 있으며, 0.5인 것이 바람직하나 이에 한정되는 것은 아니다.

즉, 신뢰값들 사이의 차이값이 기설정된 제2 값보다 작다면, 정확한 신뢰값을 계산해내지 못한 것으로 해석될 수 있다. 또한, 상기 기설정된 제2 값이 0.1 보다 작거나 0.6 보다 크다면, 정확한 신뢰값을 계산해내기 어려울 수 있다.

발화문을 텍스트로 변환하는 단계(S200)는 위 제1 조건 또는, 제1 조건 및 제2 조건을 적용하여 가장 높은 신뢰값을 가지는 언어를 선택할 수 있다.

만일, 위 조건(들)을 만족하는 신뢰값을 가지는 언어가 없는 경우, 새로운 발화문의 입력을 안내하는 알람을 출력하는 단계(S2001)가 실행될 수 있다.

또한, 새로운 발화문의 입력을 안내하는 알람을 출력하는 단계(S2001) 이후 새로 발화문이 입력되어도 위 조건(들)을 만족하는 신뢰값을 가지는 언어가 없는 경우, (1) 새로운 발화문의 입력을 안내하는 알람을 출력하는 단계(S2001)가 다시 실행되거나, 또는 (2) 기존의 계산된 신뢰값 중 가장 큰 신뢰값을 가지는 언어를 선택하는 단계(미도시)가 실행될 수 있다.

위와 같이, 신뢰값을 활용하여 발화문을 텍스트로 변환하는 자동 음성 인식 기술을 이용하여, 발화문을 보다 정확한 언어의 텍스트로 변환할 수 있는 효과가 있다. 발화문이 정확한 텍스트로 변환될수록, 상기 발화문에 알맞은 응답을 생성할 수 있다.

도 13에 따르면, 텍스트의 인텐트(Intent)를 분석하는 단계(S300)는 상기 텍스트에서 상기 콘텍스트를 추출할 필요가 있는지 분석하는 단계(S310)를 포함할 수 있다.

도 13에 따르면, 상기 콘텍스트를 추출할 필요가 있다고 분석되는 경우, 텍스트의 인텐트(Intent)를 분석하는 단계(S300)는, 상기 텍스트의 콘텍스트를 추출하는 단계(S320), 상기 추출된 콘텍스트를 기초로 상기 발화문의 상기 인텐트를 분석하는 단계(S330)를 더 포함할 수 있다.

또한, 도 13에 따르면, 상기 콘텍스트를 추출할 필요가 없다고 분석되는 경우, 별도의 콘텍스트 추출 등의 단계를 거치지 않고, 곧바로 상기 텍스트의 상기 인텐트를 분석하는 단계(S3201)를 더 포함할 수 있다.

발화문의 인텐트를 분석하여 그에 맞는 응답을 생성하기 위해서는, 화자의 정확한 의도(인텐트)를 파악하는 것이 매우 중요하다. 인텐트를 정확히 분석하기 위해서는, 발화문의 단어를 분석해야 한다. 이때, 발화문만을 기초로 발화문을 구성하는 단어의 의미를 모두 파악할 수 없는 경우가 생길 수 있으며, 이 경우에는 해당 발화문을 보충해주는 과정이 필요하다. 즉, 해당 발화문을 보충해주는 과정이란, 발화문 상에서 그 의미를 분명하게 알 수 없는 단어가 존재하는 경우, 해당 단어의 의미를 전후 문장의 맥락을 기초로 파악하여 해당 의미로 대체하는 것을 의미할 수 있다. 이에 대한 내용은 도 14 및 도 15에 나타나 있으므로 후술한다.

도 14는 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 텍스트의 인텐트(Intent)를 분석하는 단계(S300)를 나타낸 도면이며, 도 15는 그 예시이다.

도 14에 따르면, 인텐트(Intent)를 분석하는 단계(S300)는, 상기 발화문만으로 의미가 해석되는 제1 단어 그룹과, 상기 발화문만으로 의미가 해석되지 않는 제2 단어 그룹을 나누는 단계(S331), 상기 추출된 콘텍스트를 기초로, 상기 제2 단어 그룹에 속하는 단어의 의미를 해석하는 단계(S332), 상기 제2 단어 그룹에 속하는 단어를 상기 해석된 의미로 대체하는 단계(S333), 및 상기 대체된 단어를 포함하는 상기 텍스트에 대하여 자연어 이해(NLU)를 실행하는 단계(S334)를 포함할 수 있다.

도 15에 따라, 도 14에서 설명하고 있는 단계들이 어떠한 방식으로 응용되는지 설명하면 다음과 같다.

도 15에는 [발화문 1]과 [발화문 2]가 있다. 현재, 의미를 해석하고 응답을 생성해야 하는 문장은 [발화문 2]라고 가정한다.

[발화문 2] - 명동을 경유하여 방금 말했던 곳으로 가는 길을 알려줘.

[발화문 2]를 단어 각각으로 나워서 살펴보면, "명동", "경유", "방금 말했던 곳", "가는 길" 및 "알려줘" 등으로 나뉜다. 이때, "명동", "경유", "가는 길" 및 "알려줘"는 해당 발화문만으로도 그 의미를 명확하게 알 수 있다. 다만, "방금 말했던 곳"은 해당 발화문만으로는 어떤 장소를 의미하는지를 명확히 알 수 없다. 이 경우, 앞선 발화인 [발화문 1]을 살펴보아야 한다.

[발화문 1] - 남산타워는 어디에 있니?

[발화문 1]을 단어 각각으로 나눠서 살펴보면, "남산타워", "어디에", "있니" 등으로 나뉜다. 이때, "남산타워", "어디에", "있니"는 해당 발화문만으로도 그 의미를 명확하게 알 수 있다. 또한, [발화문 2]에서의 "방금 말했던 곳"이 [발화문 1]의 남산타워임을 추측할 수 있다. 따라서, [발화문 2]의 "방금 말했던 곳"을 "남산타워"로 대체할 수 있다.

[수정된 발화문 2] - 명동을 경유하여 남산타워로 가는 길을 알려줘.

이처럼, 해당 발화문만으로 그 의미를 알 수 있는 단어들을 제1 단어 그룹이라고 하고, 해당 발화문만으로 그 의미를 알 수 없는 단어들을 제2 단어 그룹이라고 할 수 있다. 이처럼, 발화문을 제1 단어 그룹 및 제2 단어 그룹으로 나누고, 제2 단어 그룹에 대하여 콘텍스트를 기초로 그 의미를 해석한 후 대체할 수 있다. 이를 통하여, 추후 자연어 이해 등을 수행하는 경우 보다 정확한 의미 해석과 응답 생성이 가능할 수 있다.

다만, 위와 같은 구체적인 예시는, 본 명세서의 제1 실시예에 따른 지능형 대화 서비스 제공 방법의 일 예시일 뿐, 본 명세서의 권리범위를 한정하지 않는다.

도 16은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 텍스트의 의미를 해석하고 응답을 생성하는 단계(S400)를 나타낸 도면이며, 도 17은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 사용되는 콘텍스트 테이블의 예시이다.

도 16에 따르면, 인텐트와 콘텍스트 테이블을 기초로 의미 해석 및 응답 생성 단계(S400)는, 상기 분석된 인텐트와 상기 콘텍스트 테이블의 상기 상황별 인텐트를 매칭하는 단계(S410), 상기 매칭된 인텐트에 대한 상기 엔티티 및 상기 엔티티에 대한 상기 세부 키워드를 기초로 상기 응답을 생성하는 단계(S420)를 포함할 수 있다.

콘텍스트 테이블은 기설정된 인텐트, 상기 기설정된 인텐트에 따라 기설정된 엔티티(Entity) 및 상기 엔티티에 따라 기설정된 세부 키워드를 포함할 수 있다. 이때, 인텐트(Intent)란, 발화자의 의도 또는 발화문의 주제를 의미할 수 있으며, 엔티티(Entity)란 상기 인텐트 별로 미리 설정된 키워드를 의미할 수 있다.

도 17에 따른 콘텍스트 테이블을 사용하는 방법에 대한 구체적인 일 예시는 다음과 같다.

상기 [수정된 발화문 2]의 인텐트를 파악한다. 상기 [수정된 발화문 2]의 화자의 의도는, 네비게이션 기능을 활용하여 경로에 대한 정보를 요청하는 것이다. 따라서, 해당 발화문의 인텐트는 "네비게이션(Navigation)"으로 분석할 수 있다. 즉, 상기 분석된 인텐트인 "네비게이션(Navigation)"에 해당하는 단어가 콘텍스트 테이블에 포함되어 있는지를 찾아서 매칭시킬 수 있다.

도 17의 콘텍스트 테이블을 보면, "Navigation"의 인텐트가 미리 설정되어 있다. 따라서, 상기 분석된 인텐트는 콘텍스트 테이블의 "Navigation"와 매칭된다(S410).

상기 매칭된 결과에 따라, 콘텍스트 테이블의 "Navigation"에 대하여 미리 설정된 엔티티인 "Destination"과 "Route"에 대응되는 단어가 해당 발화문에 존재하는지를 살펴볼 수 있다. 상기 [수정된 발화문 2]에서는 "Destination"에 대응되는 세부 키워드가 "남산타워"이며, "Route"에 대응되는 세부 키워드가 "명동"이란 것이 확인된다. 이때, "남산타워"와 "명동"은 콘텍스트 테이블에서 각국의 언어별로 번역되어 미리 저장되는 것이 바람직하다.

다만, 경우에 따라 복수의 엔티티 중에서 일부가 존재하는지를 살펴볼 수도 있다. 위 예시에 따르면, "Destination"에 대응되는 세부 키워드가 존재하는 경우 "Route"에 대응되는 세부 키워드가 상기 발화문에 없더라도, 화자가 원하는 응답을 생성할 수 있다. 즉, 복수의 엔티티가 있는 경우 각각의 엔티티의 중요도에 따라 문장해석에 사용할 수 있으며, 항상 모든 엔티티를 이용하여야 하는 것은 아니다. 이때, 각각의 엔티티의 중요도는 미리 설정될 수 있다.

도 17에 따르면, 이처럼 다양한 경우의 수를 예상한 엔티티를 미리 설정할 수 있다. 또한, 엔티티에 맞게 사용될 수 있는 세부 키워드들을 각국 언어별로 번역하여 미리 설정할 수 있다. 해당 엔티티와 각국 언어별로 번역된 세부 키워드들을 저정한 것이 콘텍스트 테이블이다.

콘텍스트 테이블에 따라, 상기 [수정된 발화문 2]의 인텐트 및 엔티티를 매칭하였으므로, 상기 매칭된 결과에 따른 응답을 생성할 수 있다(S420). 해당 예시에서는, 네비게이션 프로그램을 작동하여 "남산타워"까지 가는 경로를 검색하고, 해당 경로 중 "명동"을 거쳐갈 수 있는 경로를 선택하여, 화자에게 안내할 수 있다.

이와 같이, 콘텍스트 테이블을 활용함으로써 언어 종류별로 응답을 생성하는 복수의 모듈을 구비할 필요가 없게 된다. 즉, 콘텍스트 테이블을 구비한 하나의 모듈만으로 언어종류별 발화문에 알맞은 응답을 생성할 수 있는 효과가 있다.

추가적으로, 콘텍스트 테이블을 활용한 예시들은 아래와 같을 수 있다.

첫째, 발화자가 "이 도시의 날씨는 어때?"라고 말하면, 프로세서(20)는 상기 발화문에 대하여 언어(여기서는 한국어)에 맞는 텍스트를 선택한다. 프로세서(20)는, 콘텍스트를 기초로 "이 도시"의 위치를 찾을 수 있다. 또한, GPS 등을 사용하여 "이 도시"의 위치를 찾을 수도 있다. "이 도시"가 "뉴욕"인 경우, 프로세서(20)는 해당 발화문의 인텐트를 "날씨(Weather)"로 분석한다. 따라서, 프로세서(20)는, 외부 서버에 "뉴욕"의 날씨정보를 요청할 수 있다. 프로세서(20)는 "뉴욕"의 날씨 정보를 수신하고 이를 텍스트화하여 음성으로 출력할 수 있도록 응답을 생성할 수 있다.

둘째, 발화자가 "존에게 전화걸어줘"라고 말하면, 프로세서(20)는 상기 발화문에 대하여 언어(여기서는 한국어)에 맞는 텍스트를 선택한다. 프로세서(20)는, 상기 발화문의 인텐트를 "전화(Call)"로 추출한다. 콘텍스트 테이블에 따르면, "전화(Call)"에 따른 엔티티는 "연락처(Contact)"가 될 수 있다. 프로세서(20)는 존의 연락처를 검색하고, 존의 연락처로 전화를 걸 수 있다. 프로세서(20)는, 존에게 전화를 걸고 있다는 응답을 생성하고, 출력장치(30)는 생성된 응답을 출력한다.

이와 같은 구체적인 예시를 통하여, 콘텍스트 테이블을 이용하여 발화문의 인텐트(Intent)와 엔티티(Entity)를 찾아내어 응답을 생성하는 과정을 설명하였다. 다만, 위와 같은 구체적인 예시는, 콘텍스트 테이블을 이용하는 과정을 일 예시로서 설명할 뿐, 본 명세서의 권리범위를 한정하지 않는다.

도 18은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 통신을 이용하여 지능형 대화 서비스를 제공하는 방법을 나타낸 도면이다.

도 18에 따르면, 차량용 지능형 대화 시스템의 대화 서비스 제공 방법에 있어서, 시스템에 입력된 발화문을 무선 통신부를 통해 외부 서버로 전송하는 단계(S1100), 언어 종류별로 상기 외부 서버에 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문을 텍스트로 변환하는 단계(S1200), 상기 외부 서버에서 상기 텍스트의 인텐트(Intent)를 분석하는 단계(S1300), 상기 외부 서버에서 상기 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 단계(S1400), 상기 생성된 응답을 상기 외부 서버에서 상기 시스템으로 전송하는 단계(S1500) 및 상기 전송된 응답을 출력하는 단계(S1600)를 포함할 수 있다.

최근 차량은 인공지능을 탑재하는 등 컴퓨팅 디바이스로서 사용되는 추세이다. 특히, 운전 중에는 음성으로 명령을 하는 경우가 빈번하게 발생하며 운전자가 사용하는 언어가 바뀌는 경우, 운전 중에 수동으로 언어 설정을 바꿔야 하는 등의 문제가 발생할 수 있다.

또한, 차량 내부의 컴퓨팅 디바이스에서 자동 음성 인식, 자연어 처리 등을 수행하여 운전자에게 응답을 제공할 수 있다. 다만, 최근 4G, 5G 등 무선 네트워크 기술이 발전함에 따라, 본 명세서의 제1 실시예에 따른 지능형 대화 서비스 제공 방법은 V2X 통신으로 대표되는 무선 네트워크를 이용할 수도 있다. 이때 사용되는 V2X 통신에 대한 내용은, 도 5 내지 도 7에서 상술한 내용과 동일하므로 생략한다.

도 18에 따르면, 발화문이 차량에 입력되면, 입력된 음성 데이터를 무선 통신 등을 통하여 외부 서버로 전송할 수 있다. 외부 서버에서 콘텍스트 테이블을 이용한 응답을 생성하고 다시 차량으로 전송하고, 차량은 전송된 응답을 출력할 수 있다.

도 19에 따르면, 발화문의 인텐트를 분석하기 위하여 사용되는 콘텍스트는 해당 발화문에서만 추출할 것이 아니라, 이전 발화문에서 추출되어 저장될 수 있다. 이를 구체적으로 살펴보면 다음과 같다.

도 19에 따르면, 본 명세서의 제1 실시예에 따른 지능형 대화 서비스 제공방법은, 상기 시스템에 제1 발화문을 입력하는 단계(S2100), 상기 제1 발화문으로부터 콘텍스트를 추출하여 저장하는 단계(S2200), 상기 시스템에 제2 발화문을 입력하는 단계(S2300), 언어 종류별로 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 제2 발화문을 텍스트로 변환하는 단계(S2400), 기저장된 콘텍스트를 기초로 상기 텍스트의 인텐트(Intent)를 분석하는 단계(S2500), 상기 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 단계(S2600) 및 상기 생성된 응답을 출력하는 단계(S2700)를 포함할 수 있다.

이때, 상기 제1 발화문과 상기 제2 발화문의 언어 종류는 서로 다를 수 있다. 예를 들어, 영어 발화문을 통하여 대화하다가 이후 한국어 발화문을 통하여 대화하더라도, 기존의 영어 발화문을 통한 대화에서의 콘텍스트를 기초로 한국어 발화문의 의미를 해석할 수 있다.

또한, 상기 제1 발화문과 상기 제2 발화문의 언어 종류가 동일할 수도 있다. 이 경우, 복수의 화자가 존재하더라도 화자별로 대화가 단절되지 않고 복수의 발화문들의 콘텍스트를 기초로 지속적인 대화 서비스 제공이 가능하다.

도 19에 도시되어 있지는 않지만, 복수의 콘텍스트가 추출되어 저장될 수 있다. 현재 입력되는 발화문을 해석하기 위하여 기존에 저장된 콘텍스트 중 어느 콘텍스트까지 이용하여 해석할지가 문제될 수 있다. 즉, 현재 화자의 의도와 상관없는 이전 대화의 콘텍스트가 활용된다면, 잘못된 응답이 도출될 수 있다.

따라서, 기저장된 콘텍스트를 기초로 상기 텍스트의 인텐트(Intent)를 분석하는 단계(S2500)는 복수의 콘텍스트를 시간순서로 정렬하는 단계(미도시) 및 상기 정렬된 콘텍스트 중 기설정된 개수의 콘텍스트만 사용하여 발화문을 해석하는 단계(미도시)를 포함할 수 있다. 바람직하게는 가장 최근에 입력된 콘텍스트 1개만을 이용할 수 있으나, 본 명세서의 권리범위는 해당 개수에 한정되지 않는다.

도 20은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 신뢰값을 활용하여 발화문을 텍스트로 변환하는 예시를 나타낸 도면이며, 도 21은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 변환된 텍스트의 의미를 해석하고 그 응답을 생성하는 예시를 나타낸 도면이다.

도 20에 따르면, 발화문(음성)이 입력되면, 언어 종류별로 구비된 복수의 자동 음성 인식 모듈에서 동시에 입력된 발화문에 대하여 신뢰값을 산출하고 텍스트로 변환한다.

이때, 각각의 신뢰값들을 비교하여, 그 중 1개 신뢰값만 0.9보다 크거나 같은지에 대한 제1 조건을 충족하는지를 분석한다. 또한, 상기 제1 조건을 충족하는 신뢰값과, 다른 신뢰값들을 비교하여 그 차이값이 0.5보다 크거나 같은지에 대한 제2 조건을 충족하는지를 분석한다.

도 20에 따르면, 발화문에 대한 신뢰값 중 0.9보다 큰 것은 "C언어"의신뢰값으로 0.98로 확인된다. 또한, 다른 언어들의 신뢰값은 0.7, 0.03, 0.1 등으로 확인되므로 "C언어"의 신뢰값 0.98과 다른 신뢰값들의 차이는 0.5보다 크다.

결국, 유일하게 C언어의 신뢰값이 상기 제1 조건 및 상기 제2 조건을 충족하므로, 선택부는 C언어를 선택하여 다음 단계로 넘어간다.

도 21에 따르면, 도 20의 제1 조건 및 제2 조건을 충족하는 C언어의 텍스트에 대하여 콘텍스트를 기초로 인텐트를 분석할 수 있다. 이때, 인텐트 분석을 위하여 1차적으로 자연어 이해(NLU)가 실행될 수 있다. 상기 자연어 이해를 통하여, 발화문의 인텐트(Intent) 및 엔티티(Entity)를 파악할 수 있다. 파악된 인텐트 및 엔티티를 기초로 상기 텍스트의 의미를 해석하고 응답을 생성할 수 있다.

지능형 대화 시스템

이하, 상술한 내용들을 바탕으로 본 명세서의 바람직한 제2 실시예에 따른, 차량용 지능형 대화 시스템에 관하여 상세히 설명하면 다음과 같다.

또한, 본 명세서의 제2 실시예에 따른 차량용 지능형 대화 시스템은, 차량뿐만 아니라 음성 비서, 컴퓨터, 모바일 장치 등에 설치될 수 있을 것이다.

또한, 본 명세서의 제2 실시예에 따른 차량용 지능형 대화 시스템은, 상술한 제1 실시예에 따른 지능형 대화 서비스 제공 방법을 수행하는 주체일 수 있다.

도 22는 제2 실시예에 따른 차량용 지능형 대화 시스템을 나타낸 도면이다.

도 22에 따르면, 본 명세서의 제2 실시예에 따른 차량용 지능형 대화 시스템은, 입력장치(10), 프로세서(20) 및 출력장치(30)를 포함할 수 있다.

입력장치(10)에는 발화자의 발화문이 입력된다. 또한, 입력장치(10)에는 발화문 뿐만 아니라 텍스트, 이미지 또는 영상 등이 입력될 수 있다. 이를 위하여, 입력장치(10)는 마이크, 키보드, 스캐너 또는 카메라일 수 있다. 다만, 지능형 대화를 위한 것이므로, 발화문이 입력되는 마이크인 것이 바람직하다.

입력장치(10)는 상술한 제1 실시예의 발화문이 입력되는 단계(S100)가 실시되는 구성일 수 있다.

본 명세서의 제2 실시예에 따른 프로세서(20)는, 연산을 수행하고 다른 장치를 제어할 수 있는 구성이다. 주로, 중앙 연산 장치(CPU), 어플리케이션 프로세서(AP) 등을 의미할 수 있다. 또한, CPU 또는 AP는 그 내부에 하나 또는 그 이상의 코어들을 포함할 수 있으며, CPU 또는 AP는 작동 전압과 클락 신호를 이용하여 작동할 수 있다.

프로세서(20)는 입력된 발화문을 텍스트로 변환한다. 프로세서(20)가 발화문을 텍스트로 변환하여야 본 시스템에서 상기 텍스트를 처리하여 인식할 수 있다.

이때, 프로세서(20)는 본 발명의 제1 실시예의 발화문을 텍스트로 변환하는 단계(S200)를 실행할 수 있다. S200 단계는 제1 실시예에서 자세히 설명하였으므로, 해당 내용에 대한 설명은 생략한다.

출력장치(30)는, 응답을 출력하는 장치로서 음성, 이미지, 영상 등으로 응답을 출력할 수 있다. 따라서, 출력장치(30)는 스피커, 디스플레이 등이 될 수 있다. 다만, 본 명세서의 제2 실시예는 차량에 사용되는 것이 바람직하므로, 운전자의 주행에 방해되지 않도록 음성으로 출력하는 것이 바람직하다.

즉, 출력장치(30)는, S200 단계의 조건(들)을 만족하는 신뢰값을 가지는 언어가 없는 경우, 음성으로 "다시 말씀해 주십시오" 등을 출력하거나, 이미지로 동일한 내용을 출력할 수 있다.

프로세서(20)는 변환된 텍스트를 분석하여 의미를 인식하고 그 의미에 알맞은 응답을 형성할 수 있다. 즉, 프로세서(20)는 도 8 및 도 9와 같은 자연어 처리를 수행하는 구성일 수 있다.

프로세서(20)는, 텍스트의 인텐트(Intent)를 분석할 수 있다. 일반적으로, 발화문에는 해당 발화문만으로는 그 의미를 알 수 없는 대명사 등의 단어가 포함될 수 있다. 이 경우, 콘텍스트를 기초로 해당 대명사 등의 단어가 지칭하는 의미를 분석하여 그 의미에 맞는 단어로 대체할 수 있다. 또한, 프로세서(20)는, 이전 발화문에서 추출된 콘텍스트를 사용하여 인텐트를 분석할 수 있다.

프로세서(20)는, 의미가 명확할 수 있도록 수정된 텍스트에 대하여 자연어 이해(NLU)를 수행할 수 있다.

프로세서(20)는, 분석된 인텐트와 콘텍스트 테이블을 기초로 텍스트의 의미를 해석하고 응답을 생성하는 단계(S400)를 수행할 수 있다.

출력장치(30)가 음성을 통하여 응답을 출력하는 경우, 텍스트 음성 변환(Text-to-Speech, TTS) 기술을 사용할 수 있다. 즉, 프로세서(20)에서 형성된 응답은 텍스트 형식이며, 출력장치(30)는 이를 음성으로 변환하여 출력할 수 있다.

출력장치(30)가 이미지 또는 영상을 통하여 응답을 출력하는 경우, 프로세서(20)에서 형성된 텍스트 형식의 응답을 그대로 디스플레이(미도시)에 표시하거나, 이미지화 또는 애니메이션화하여 표시할 수 있다.

또한, 본 명세서의 제2 실시예에 따른 차량용 지능형 대화 시스템은, 지난 발화문으로부터 추출된 콘텍스트, 및 콘텍스트 테이블 등을 저장할 수 있는 저장장치(미도시)를 더 포함할 수 있다.

저장장치(미도시)는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM 등을 포함할 수 있으나, 이러한 예시에 제한되지 않는다.

도 23은 제2 실시예에 따른 차량용 지능형 대화 시스템을 나타낸 도면이다.

도 23에 따르면, 프로세서(20)는 언어 종류별로 설치된 복수의 자동 음성 인식(Auto Speech Recognition, ASR) 모듈(210)을 포함할 수 있다. 자동 음성 인식이란, 컴퓨터 등의 시스템과 사용자의 의사소통을 위하여 사용자의 음성을 자동으로 인식하는 것을 말한다. 자동 음성 인식 모듈(210)은, 자동 음성 인식을 위한 소프트웨어가 설치되어 실행되는 단위 구성요소를 말할 수 있다.

자동 음성 인식은, (1) 음성 패턴을 입력 받는 단계, (2) 입력 받은 음성 패턴의 특징을 추출하는 단계, (3) 기저장된 DB의 음성 패턴과 비교하여 상기 음성 패턴을 인식하는 단계 및 (4) 상기 인식된 음성 패턴을 출력하는 단계를 포함할 수 있다.

이때, 기저장된 DB는 다수의 사용자로부터 추출한 빅데이터일 수 있다. 상기 빅데이터는 자동 음성 인식 모듈(210)에 저장될 수 있으나, 일반적으로 클라우드 서버로부터 불러올 수 있다. 또한, 기저장된 DB의 음성 패턴과 비교하여 상기 음성 패턴을 인식하기 위하여 최근 딥러닝(Deep Learning) 기술을 활용한 자연어 이해(Natural Language Understanding, NLU)를 사용할 수 있다.

본 명세서의 복수의 자동 음성 인식 모듈(210)은, 입력된 발화문에 대하여 언어 종류별로 신뢰값들을 각각 계산하고, 상기 발화문을 텍스트로 각각 변환할 수 있다. 이때, 복수의 자동 음성 인식 모듈(210)은 가급적이면 동시에 실행되는 것이 바람직하나, 경우에 따라 순차적으로 실행될 수도 있다.

신뢰값(Confidence Value)이란, 입력된 발화문의 패턴과 저장된 언어의 패턴을 비교하여 얼마나 동일한 패턴을 가지는지를 수치화한 값을 말할 수 있으며, 이는 본 명세서의 제1 실시예에서 설명한 것과 동일하므로 자세한 설명은 생략한다.

프로세서(20)는, 복수의 자동 음성 인식 모듈(210)로부터 계산된 신뢰값들을 비교한다. 프로세서(20)는 신뢰값들을 비교하여 특정 조건을 충족하는 신뢰값을 가지는 언어를 선택할 수 있다. 즉, 프로세서(20)는, 신뢰값들을 비교하여 특정 조건을 충족하는 신뢰값을 가지는 언어를 가지는 텍스트를 선택할 수 있다. 이때, 텍스트는 자동 음성 인식 모듈(210)에서 발화문으로부터 변환된 텍스트를 말한다.

프로세서(20)는, 복수의 자연어 이해 모듈(220)을 더 포함할 수 있다. 지연어 이해(Natural Language Understanding, NLU)란, 컴퓨터가 인간의 의사소통 수단인 자연어를 이해하는 것을 의미할 수 있다.

자연어 이해는, (1) 신호처리(Signal Processing), (2) 구문분석(Syntactic Analysis), (3) 의미분석(Semantic Analysis), (4) 담화통합(Discourse Integration) 및 (5) 화용분석 (Pragmatic analysis)을 포함할 수 있다.

상기 신호처리는, 음성 신호를 디지털화 하고 단어 조각(word segments) 들을 구분한다. 이때, 취급되는 언어 요소는 phonemes(음소, 음성의 최소단위) 이다.

상기 구문분석은, 각각의 단어들의 관계를 구조적으로 분석한다. 상기 의미분석은, 상기 구문분석에 의하여 형성된 구조들에 의미를 부여하며, 각 의미를 서로 결합하여 전체적인 의미를 분석한다. 상기 담화통합은, 각각의 문장들의 의미는 그 앞의 문장에 의하여 영향을 받을 수 있으므로, 이들을 통합한다. 상기 화용분석은, 통합된 대화 전체를 보아 단순히 표현뿐만이 아니라 실제로 의미하는 바를 분석한다.

프로세서(20)은 복수의 자연어 이해 모듈(220)은 각국 언어종류별로 포함할 수 있다. 즉, 복수의 자연어 이해 모듈(220)은, 복수의 자동 음성 인식 모듈이 각각 인식할 수 있는 언어의 종류에 대응될 수 있다.

도 23에 따르면, 영어로 이루어진 발화문이 입력부에 입력되면, 입력부를 통하여 탐지부로 음성 신호가 전송된다. 프로세서(20)가 신뢰값에 기초하여 언어를 선택한다. 해당 발화문은 영어로 이루어져 있으므로, 변환 텍스트 중 신뢰값은 영어로 변환된 텍스트가 가장 높은 신뢰값을 가질 것이다.

따라서, 도 23에 따르면, 프로세서(20)에 의하여 영문 텍스트가 선택되고, 상기 영문 텍스트에 대한 자연어 이해를 수행하기 위하여 영어 자연어 이해 모듈(220)이 실행될 수 있다.

따라서, 도 23에 따르면, 프로세서(20)는 영어 자연어 이해 모듈(220)을 이용하여 영문 텍스트의 의미를 해석하고, 그에 알맞은 응답을 생성한다. 행성된 응답은 출력장치(30)를 통하여 출력된다.

도 24에 따르면, 운전자가 차량에 설치된 입력장치(10)에 말하면, 해당 발화문을 차량에 설치된 프로세서(20)에서 분석할 수 있다. 프로세서(20)는 그 의미를 해석하고 응답을 생성하며, 생성된 응답은 출력장치(30)에서 출력될 수 있다.

도 25는 제2 실시예에 따른 외부 서버를 이용하는 차량용 지능형 대화 시스템을 나타낸 도면이다.

도 25에 따르면, 차량용 지능형 대화 시스템은 외부 서버(50)와 통신장치(40)를 더 포함할 수 있다.

즉, 차량용 지능형 대화 시스템에 있어서, 실제 연산을 수행하는 것은 외부 서버(50) 내에 존재하는 프로세서(20)이며, 발화문이 입력장치(10)에 입력되면, 통신장치(40)를 통하여 발화문의 음성 데이터가 외부 서버(50)로 전송될 수 있다. 외부 서버(50)의 프로세서(20)에서 상기 음성 데이터를 텍스트화하고, 이를 기초로 의미를 해석하고 응답을 생성하면, 프로세서(20)는 생성된 응답을 다시 통신장치(40)로 전송한다. 통신장치(40)에서 출력장치(30)로 응답을 전송하면, 해당 응답은 출력장치(30)를 통하여 출력된다.

통신장치(40)는 V2X 통신을 이용하여 외부 서버(50)와 통신할 수 있다. 따라서, 통신장치(40)와 외부 서버(50)는 RSU(Road Side Unit)을 통하여 통신할 수 있다. 이때 사용되는 V2X 통신에 대한 내용은, 도 5 내지 도 7에서 상술한 내용과 동일하므로 생략한다.

무선 통신을 사용하는 통신장치(40)의 경우, 내/외장 안테나(미도시)와 접속되고, 안테나(미도시)를 통해 기지국과 정보의 송수신을 실행한다. 무선 통신을 사용하는 통신장치(40)는 변조부, 복조부, 신호 처리부 등을 갖는 무선 통신 모듈(미도시)을 포함한다.

상기 무선 통신은 통신사들이 기존에 설치해둔 통신 시설과 그 주파수를 사용하는 무선 통신망을 사용한 통신을 말한다. 이때, CDMA(code division multiple access), FDMA(frequency division multiple access), TDMA(time division multiple access), OFDMA(orthogonal frequency division multiple access), SC-FDMA(single carrier frequency division multiple access) 등과 같은 다양한 무선 통신 시스템에 사용될 수 있으며, 뿐만 아니라, 3GPP(3rd generation partnership project) LTE(long term evolution)가 사용될 수 있다. 또한, 최근 상용화 중인 5G 통신을 주로 사용할 수 있으며, 추후 상용화가 예정되어 있는 6G 등도 사용될 수 있다. 다만, 본 명세서는 이와 같은 무선 통신 방식에 구애됨이 없이 기설치된 통신망을 활용할 수 있다.

도 26은 제2 실시예에 따른 외부 서버를 이용하는 차량용 지능형 대화 시스템을 나타낸 도면이다.

도 26에 따르면, 제2 실시예에 따른 차량용 지능형 대화 시스템은, 통신장치(40), 차량에 설치된 제1 프로세서(21), 외부 서버(50) 및 외부 서버(50)에 설치된 제2 프로세서(22)를 포함할 수 있다.

제1 프로세서(21)는 상술한 프로세서(20)와 동일한 기능 및 역할을 수행할 수 있다. 다만, 제1 프로세서(21)는 차량에 설치된 것으로서 차량 운행과 관련된 연산을 주로 수행해야 할 수 있다. 따라서, 제1 프로세서(21)는 통신장치(40)가 활성화되어 있는지를 확인하고, 통신장치(40)가 활성화된 경우 입력된 발화문의 음성 데이터를 통신장치(40)를 통하여 외부 서버(50)로 전송한다.

제1 프로세서(21)는 통신장치(40)가 활성화되어 있지 않은 경우, 차량 내부에 저장된 데이터들을 기초로 입력된 발화문에 대한 의미 해석 및 응답 생성을 수행할 수도 있다. 이때, 제1 프로세서(21)의 기능 및 역할은 상술한 프로세서(20)의 기능 및 역할과 동일할 수 있다.

제2 프로세서(22)는 외부 서버(50)에 설치된 것으로서, 상술한 프로세서(20)와 동일한 기능 및 역할을 수행할 수 있다. 제2 프로세서(22)는 통신장치(40)로부터 음성 데이터를 전송받고, 해당 발화문의 의미를 해석하고 그 응답을 생성할 수 있다. 생성된 응답은 통신장치(40)를 통하여 제1 프로세서(21)로 전송될 수 있다.

제1 프로세서(21) 및 제2 프로세서(22)는, 중앙 연산 장치(CPU), 어플리케이션 프로세서(AP) 등을 의미할 수 있다. 또한, CPU 또는 AP는 그 내부에 하나 또는 그 이상의 코어들을 포함할 수 있으며, CPU 또는 AP는 작동 전압과 클락 신호를 이용하여 작동할 수 있다. 다만, 외부 서버(50)에 설치된 제2 프로세서(22)는 보다 많은 전력을 소비할 수 있는 환경에 있으므로, 제1 프로세서(21)보다 더 높은 클럭과 연산 속도를 가질 수 있다.

전술한 본 명세서는, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 명세서의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 명세서의 등가적 범위 내에서의 모든 보충은 본 명세서의 범위에 포함된다.

또한, 이상에서 실시 예들을 중심으로 설명하였으나 이는 단지 예시일 뿐 본 명세서를 한정하는 것이 아니며, 본 명세서가 속하는 분야의 통상의 지식을 가진 자라면 본 실시 예의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 실시 예들에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부한 청구 범위에서 규정하는 본 명세서의 범위에 포함되는 것으로 해석되어야 할 것이다.

부호의 설명

1: 차량용 지능형 대화 시스템

10: 입력장치

20: 프로세서

30: 출력장치

40: 통신장치

50: 외부 서버

Claims

차량용 지능형 대화 시스템의 대화 서비스 제공 방법에 있어서,상기 시스템에 발화문을 입력하는 단계;

언어 종류별로 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문을 텍스트로 변환하는 단계;

상기 텍스트의 인텐트(Intent)를 분석하는 단계;

상기 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 단계; 및상기 생성된 응답을 출력하는 단계;를 포함하는, 지능형 대화 서비스 제공 방법.
제1항에 있어서,

상기 변환하는 단계는,

상기 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문에 대하여 상기 언어 종류별 텍스트 및 신뢰값을 도출하는 단계; 및상기 신뢰값들 중 기설정된 값보다 큰 신뢰값을 가지는 텍스트를 선택하는 단계;를 포함하는 것인, 지능형 대화 서비스 제공 방법.
제1항에 있어서,

상기 변환하는 단계는,

상기 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문에 대하여 상기 언어 종류별 텍스트 및 신뢰값들을 도출하는 단계; 및

상기 신뢰값들 중 제1 조건 및 제2 조건을 만족하는 신뢰값을 가지는 텍스트를 선택하는 단계;를 포함하는 것인, 지능형 대화 서비스 제공 방법.

[제1 조건]

신뢰값 ≥ 기설정된 제1 값

[제2 조건]

(상기 제1 조건을 만족하는 신뢰값 - 나머지 각각의 신뢰값) ≥ 기설정된 제2 값
제2항 또는 제3항에 있어서,

상기 변환하는 단계는,

상기 선택된 텍스트가 복수개인 경우, 새로운 발화문의 입력을 안내하는 알람을 출력하는 단계;를 더 포함하는 것인, 지능형 대화 서비스 제공 방법.
제1항에 있어서,

상기 분석하는 단계는,

상기 텍스트의 콘텍스트(context)를 추출하고, 상기 추출된 콘텍스트를 기초로 상기 발화문의 상기 인텐트를 분석하는 것인, 지능형 대화 서비스 제공 방법.
제5항에 있어서,

상기 분석하는 단계는,

상기 텍스트만으로 의미가 해석되는 제1 단어 그룹과, 상기 텍스트만으로 의미가 해석되지 않는 제2 단어 그룹을 나누는 단계;

상기 추출된 콘텍스트를 기초로, 상기 제2 단어 그룹에 속하는 단어의 의미를 해석하는 단계;

상기 제2 단어 그룹에 속하는 단어를 상기 해석된 의미로 대체하는 단계; 및

상기 대체된 단어를 포함하는 상기 텍스트에 대하여 자연어 이해(NLU)를 실행하는 단계;를 포함하는 것인, 지능형 대화 서비스 제공 방법.
제1항에 있어서,

상기 분석하는 단계는,

다른 발화문으로부터 추출되어 기저장된 콘텍스트를 기초로 상기 발화문의 상기 인텐트를 분석하는 것인, 지능형 대화 서비스 제공 방법.
제1항에 있어서,

상기 콘텍스트 테이블은,

상황별 인텐트, 상기 상황별 인텐트에 따른 엔티티(Entity) 및 상기 엔티티에 따른 세부 키워드를 포함하며, 상기 세부 키워드는 언어 종류별로 저장되는 것인, 지능형 대화 서비스 제공 방법.
제8항에 있어서,

상기 생성하는 단계는,

상기 분석된 인텐트와 상기 콘텍스트 테이블의 상기 상황별 인텐트를 매칭하는 단계; 및

상기 매칭된 상황별 인텐트에 따른 상기 엔티티 및 상기 엔티티에 따른 세부 키워드를 기초로 상기 응답을 생성하는 단계;를 포함하는, 지능형 대화 서비스 제공 방법.
차량용 지능형 대화 시스템의 대화 서비스 제공 방법에 있어서,

상기 시스템에 입력된 발화문을 무선 통신부를 통해 외부 서버로 전송하는 단계;

언어 종류별로 상기 외부 서버에 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문을 텍스트로 변환하는 단계;

상기 외부 서버에서 상기 텍스트의 인텐트(Intent)를 분석하는 단계;

상기 외부 서버에서 상기 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 단계;

상기 생성된 응답을 상기 외부 서버에서 상기 무선 통신부를 통해 상기 시스템으로 전송하는 단계; 및

상기 시스템에서 상기 전송된 응답을 출력하는 단계;를 포함하는, 지능형 대화 서비스 제공 방법.
제10항에 있어서,

상기 시스템과 상기 외부 서버는 V2X 통신을 이용하여 정보를 전송하는 것인, 지능형 대화 서비스 제공 방법.
발화문이 입력되는 입력장치;

언어 종류별로 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문을 텍스트로 변환하고, 상기 텍스트의 인텐트(Intent)를 분석하며, 상기 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 프로세서; 및

상기 응답을 출력하는 출력장치;를 포함하는, 차량용 지능형 대화 시스템.
제12항에 있어서,

상기 복수의 자동 음성 인식 모듈은,

상기 발화문에 대하여 언어 종류별로 신뢰값들을 각각 계산하고, 상기 발화문을 텍스트로 각각 변환하는 것인, 차량용 지능형 대화 시스템.
제13항에 있어서,

상기 프로세서는,

상기 신뢰값들을 기초로 상기 텍스트들 중 하나를 선택하는 것인, 차량용 지능형 대화 시스템.
제14항에 있어서,

상기 프로세서는,상기 신뢰값들 중 기설정된 값보다 큰 신뢰값을 가지는 언어의 텍스트 를 선택하는 것인, 차량용 지능형 대화 시스템.
제14항에 있어서,

상기 프로세서는,

상기 신뢰값들이 제1 조건 및 상기 제2 조건을 만족하는 언어의 텍스트를 선택하는 것인, 차량용 지능형 대화 시스템.

[제1 조건]

신뢰값 ≥ 기설정된 제1 값

[제2 조건]

(상기 제1 조건을 만족하는 신뢰값 - 나머지 각각의 신뢰값) ≥ 기설정된 제2 값
제14항에 있어서,

상기 프로세서가 상기 텍스트들 중 하나의 텍스트를 선택할 수 없는 경우, 상기 출력부는 새로운 발화문의 입력을 안내하는 알람을 출력하는 것인, 차량용 지능형 대화 시스템.
제14항에 있어서,

상기 프로세서는,

상기 텍스트들 중 하나의 텍스트를 선택할 수 없는 경우, 상기 신뢰값들 중 가장 높은 신뢰값을 가지는 언어의 텍스트를 하나 선택하는 것인, 차량용 지능형 대화 시스템.
제12항에 있어서,

상기 지능형 대화 시스템은,

상기 프로세서가 설치되는 외부 서버; 및

상기 외부 서버와 상기 시스템이 통신할 수 있는 통신장치;를 더 포함하는 것인, 차량용 지능형 대화 시스템.
제19항에 있어서,

상기 통신장치는,

V2X 통신을 이용하여 정보를 전송하는 것인, 차량용 지능형 대화 시스템.