WO2021100918A1 - 지능형 대화 서비스 제공 방법 및 지능형 대화 시스템 - Google Patents

지능형 대화 서비스 제공 방법 및 지능형 대화 시스템 Download PDF

Info

Publication number
WO2021100918A1
WO2021100918A1 PCT/KR2019/016040 KR2019016040W WO2021100918A1 WO 2021100918 A1 WO2021100918 A1 WO 2021100918A1 KR 2019016040 W KR2019016040 W KR 2019016040W WO 2021100918 A1 WO2021100918 A1 WO 2021100918A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
speech
intent
context
vehicle
Prior art date
Application number
PCT/KR2019/016040
Other languages
English (en)
French (fr)
Inventor
신아영
이용환
박민규
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to PCT/KR2019/016040 priority Critical patent/WO2021100918A1/ko
Publication of WO2021100918A1 publication Critical patent/WO2021100918A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]

Definitions

  • the present specification relates to an intelligent conversation service providing method and an intelligent conversation system.
  • Voice recognition is a technology that recognizes the user's voice. Recently, due to the development of speech recognition technology, a conversation system using artificial intelligence capable of communicating with a person or a device capable of executing the system has been actively developed.
  • ASR Auto Speech Recognition
  • NLU Natural Language Understanding
  • TTS Text-to-Speech
  • the existing intelligent conversation system using the above technologies has a problem in that it is not possible to cope with multiple languages, such as conversations in only one language, or in order to communicate in multiple languages, the user has to change settings directly.
  • An object of the present specification is to provide an intelligent conversation service providing method and an intelligent conversation system capable of automatically recognizing a language to communicate even when there are multiple speakers or speaking in multiple languages.
  • the present specification aims to provide an intelligent conversation service providing method and an intelligent conversation system capable of continuing conversation by grasping the context of each conversation even when there are multiple speakers or speaking in multiple languages.
  • the present specification aims to simultaneously execute a plurality of automatic speech recognition modules in order to provide an intelligent conversation service providing method and an intelligent conversation system.
  • the present specification aims to generate a response to a speech sentence by using a context table in order to provide an intelligent dialogue service providing method and an intelligent dialogue system.
  • the present specification provides a method for providing a conversation service of an intelligent conversation system for a vehicle, the method comprising: inputting a speech sentence into the system; Converting the speech into text by simultaneously executing a plurality of automatic speech recognition models installed for each language type; Analyzing an intent of the text; Interpreting the meaning of the text and generating a response based on the intent and context table; And outputting the generated response.
  • the converting may include simultaneously executing the plurality of automatic speech recognition models to derive text and confidence values for each language type for the speech; And selecting text having a confidence value greater than a preset value among the confidence values.
  • the converting may include simultaneously executing the plurality of automatic speech recognition models to derive text and confidence values for each language type for the speech; And selecting a text having a confidence value that satisfies the first condition and the second condition among the confidence values.
  • the converting may further include outputting an alarm guiding the input of a new speech sentence when the selected text is plural.
  • the analyzing may include extracting a context of the text, and analyzing the intent of the speech based on the extracted context.
  • the analyzing may include dividing a first word group whose meaning is interpreted only by the text and a second word group whose meaning is not interpreted only by the text; Interpreting the meaning of words belonging to the second word group based on the extracted context; Replacing a word belonging to the second word group with the interpreted meaning; And performing natural language understanding (NLU) on the text including the replaced word.
  • NLU natural language understanding
  • the intent of the speech sentence may be analyzed based on a pre-stored context extracted from another speech sentence.
  • the context table includes a context-specific intent, an entity according to the context-specific intent, and a detailed keyword according to the entity, and the detailed keywords may be stored for each language type.
  • the generating may include matching the analyzed intent with the context-specific intent of the context table; And generating the response based on the entity according to the matched context-specific intent and the detailed keyword according to the entity.
  • the present specification provides a method for providing a conversation service of an intelligent conversation system for a vehicle, the method comprising: transmitting a speech sentence input to the system to an external server through a wireless communication unit; Converting the speech into text by simultaneously executing a plurality of automatic speech recognition models installed in the external server for each language type; Analyzing an intent of the text in the external server; Interpreting the meaning of the text and generating a response based on the intent and context table in the external server; Transmitting the generated response from the external server to the system through the wireless communication unit; And outputting the transmitted response from the system.
  • system and the external server may transmit information using V2X communication.
  • an input device for inputting a speech sentence; Simultaneously execute a plurality of automatic speech recognition models installed for each language type to convert the speech into text, analyze the intent of the text, and interpret the meaning of the text based on the intent and context table
  • a processor for generating a response;
  • an output device that outputs the response.
  • the plurality of automatic speech recognition modules may calculate confidence values for each language type for the speech sentence, and convert the speech sentence into text, respectively.
  • the processor may select one of the texts based on the confidence values.
  • the processor may select a text of a language having a confidence value greater than a preset value among the confidence values.
  • the processor may select text of a language in which the confidence values satisfy the first condition and the second condition.
  • the output unit may output an alarm guiding the input of a new speech sentence.
  • the processor may select one text of a language having the highest confidence value among the confidence values.
  • the intelligent conversation system may include an external server on which the processor is installed; And a communication device capable of communicating between the external server and the system.
  • the communication device may transmit information using V2X communication.
  • the present specification has an effect of grasping the context of each conversation and continuing the conversation even when there are multiple speakers or speaking in multiple languages.
  • the present specification has an effect of being able to select an optimal language for intelligent conversation by simultaneously executing a plurality of automatic speech recognition modules.
  • the present specification has an effect of providing an intelligent conversation service more efficiently by managing using context tables for various languages.
  • FIG. 1 illustrates a block diagram of a wireless communication system to which the methods proposed in the present specification can be applied.
  • FIG. 2 shows an example of a signal transmission/reception method in a wireless communication system.
  • FIG 3 shows an example of a basic operation of an autonomous vehicle and a 5G network in a 5G communication system.
  • V2X communication is an example of V2X communication to which the present specification can be applied.
  • FIG. 6 illustrates a resource allocation method in a sidelink in which V2X is used.
  • FIG. 7 is a diagram illustrating a procedure for a broadcast mode of V2X communication using PC5.
  • 9 is a diagram showing natural language processing using deep learning.
  • FIG. 10 is a diagram illustrating a method of providing an intelligent conversation service according to the first embodiment.
  • FIG. 11 is a diagram illustrating a step S200 of converting a speech to text in the method for providing an intelligent conversation service according to the first embodiment.
  • FIG. 12 is a diagram illustrating a step S200 of converting a speech text into text in the method for providing an intelligent conversation service according to the first embodiment.
  • FIG. 13 is a diagram illustrating a step S300 of analyzing an intent of a text in the method for providing an intelligent conversation service according to the first embodiment.
  • FIG. 14 is a diagram illustrating a step S300 of analyzing an intent of a text in the method for providing an intelligent conversation service according to the first embodiment.
  • FIG. 15 is an example of applying the step (S300) of analyzing an intent of a text in the method of providing an intelligent conversation service according to the first embodiment.
  • 16 is a diagram illustrating a step (S400) of interpreting a meaning of a text and generating a response in the method for providing an intelligent conversation service according to the first embodiment.
  • 17 is an example of a context table used in the method for providing an intelligent conversation service according to the first embodiment.
  • FIG. 18 is a diagram illustrating a method of providing an intelligent conversation service using wireless communication in the method of providing an intelligent conversation service according to the first embodiment.
  • 19 is a diagram illustrating a method of generating a response to a second speech sentence by using the context of a first speech sentence in the method for providing an intelligent conversation service according to the first embodiment.
  • FIG. 20 is a diagram illustrating an example of converting a speech into text using a confidence value in the method for providing an intelligent conversation service according to the first embodiment.
  • 21 is a diagram illustrating an example of interpreting the meaning of a converted text and generating a response thereof in the method for providing an intelligent conversation service according to the first embodiment.
  • FIG. 22 shows an intelligent conversation system for a vehicle according to the second embodiment.
  • FIG. 23 shows an intelligent conversation system for a vehicle according to the second embodiment.
  • 24 is an example in which an intelligent conversation system for a vehicle according to the second embodiment is installed in a vehicle.
  • 25 shows an intelligent conversation system for a vehicle using an external server according to the second embodiment.
  • 26 shows an intelligent conversation system for a vehicle using an external server according to the second embodiment.
  • FIG. 1 illustrates a block diagram of a wireless communication system to which the methods proposed in the present specification can be applied.
  • a device including an autonomous driving module is defined as a first communication device (910 in FIG. 1 ), and a processor 911 may perform a detailed autonomous driving operation.
  • a 5G network including other vehicles communicating with the autonomous driving device may be defined as a second communication device (920 in FIG. 1), and the processor 921 may perform a detailed autonomous driving operation.
  • the 5G network may be referred to as a first communication device and an autonomous driving device may be referred to as a second communication device.
  • the first communication device or the second communication device may be a base station, a network node, a transmission terminal, a reception terminal, a wireless device, a wireless communication device, an autonomous driving device, and the like.
  • a terminal or user equipment is a vehicle, mobile phone, smart phone, laptop computer, digital broadcasting terminal, personal digital assistants (PDA), portable multimedia player (PMP). , Navigation, slate PC, tablet PC, ultrabook, wearable device, for example, smartwatch, smart glass, HMD ( head mounted display)).
  • the HMD may be a display device worn on the head.
  • HMD can be used to implement VR, AR or MR.
  • a first communication device 910 and a second communication device 920 include a processor (processor, 911,921), memory (914,924), one or more Tx/Rx RF modules (radio frequency module, 915,925).
  • the Tx/Rx module is also called a transceiver. Each Tx/Rx module 915 transmits a signal through a respective antenna 926.
  • the processor implements the previously salpin functions, processes and/or methods.
  • the processor 921 may be associated with a memory 924 that stores program code and data. The memory may be referred to as a computer-readable medium. More specifically, in the DL (communication from the first communication device to the second communication device), the transmission (TX) processor 912 implements various signal processing functions for the L1 layer (ie, the physical layer).
  • the receive (RX) processor implements the various signal processing functions of L1 (ie, the physical layer).
  • the UL (communication from the second communication device to the first communication device) is handled in the first communication device 910 in a manner similar to that described with respect to the receiver function in the second communication device 920.
  • Each Tx/Rx module 925 receives a signal through a respective antenna 926.
  • Each Tx/Rx module provides an RF carrier and information to the RX processor 923.
  • the processor 921 may be associated with a memory 924 that stores program code and data.
  • the memory may be referred to as a computer-readable medium.
  • FIG. 2 is a diagram illustrating an example of a method of transmitting/receiving a signal in a wireless communication system.
  • the UE when the UE is powered on or newly enters a cell, the UE performs an initial cell search operation such as synchronizing with the BS (S201). To this end, the UE receives a primary synchronization channel (P-SCH) and a secondary synchronization channel (S-SCH) from the BS, synchronizes with the BS, and obtains information such as cell ID. can do.
  • P-SCH primary synchronization channel
  • S-SCH secondary synchronization channel
  • the UE may obtain intra-cell broadcast information by receiving a physical broadcast channel (PBCH) from the BS.
  • PBCH physical broadcast channel
  • the UE may check a downlink channel state by receiving a downlink reference signal (DL RS) in the initial cell search step.
  • DL RS downlink reference signal
  • the UE acquires more detailed system information by receiving a physical downlink control channel (PDCCH) and a physical downlink shared channel (PDSCH) according to the information carried on the PDCCH. It can be done (S202).
  • PDCCH physical downlink control channel
  • PDSCH physical downlink shared channel
  • the UE may perform a random access procedure (RACH) for the BS (steps S203 to S206).
  • RACH random access procedure
  • the UE transmits a specific sequence as a preamble through a physical random access channel (PRACH) (S203 and S205), and a random access response to the preamble through the PDCCH and the corresponding PDSCH (random access response, RAR) message can be received (S204 and S206).
  • PRACH physical random access channel
  • RAR random access response
  • a contention resolution procedure may be additionally performed.
  • the UE receives PDCCH/PDSCH (S207) and physical uplink shared channel (PUSCH)/physical uplink control channel as a general uplink/downlink signal transmission process.
  • Uplink control channel, PUCCH) transmission (S208) may be performed.
  • the UE receives downlink control information (DCI) through the PDCCH.
  • DCI downlink control information
  • the UE monitors the set of PDCCH candidates from monitoring opportunities set in one or more control element sets (CORESET) on the serving cell according to the corresponding search space configurations.
  • the set of PDCCH candidates to be monitored by the UE is defined in terms of search space sets, and the search space set may be a common search space set or a UE-specific search space set.
  • the CORESET consists of a set of (physical) resource blocks with a time duration of 1 to 3 OFDM symbols.
  • the network can configure the UE to have multiple CORESETs.
  • the UE monitors PDCCH candidates in one or more search space sets. Here, monitoring means attempting to decode PDCCH candidate(s) in the search space. If the UE succeeds in decoding one of the PDCCH candidates in the discovery space, the UE determines that the PDCCH is detected in the corresponding PDCCH candidate, and performs PDSCH reception or PUSCH transmission based on the detected DCI in the PDCCH.
  • the PDCCH can be used to schedule DL transmissions on the PDSCH and UL transmissions on the PUSCH.
  • the DCI on the PDCCH is a downlink assignment (ie, downlink grant; DL grant) including at least information on modulation and coding format and resource allocation related to a downlink shared channel, or uplink It includes an uplink grant (UL grant) including modulation and coding format and resource allocation information related to the shared channel.
  • downlink grant ie, downlink grant; DL grant
  • uplink grant UL grant
  • the UE may perform cell search, system information acquisition, beam alignment for initial access, and DL measurement based on the SSB.
  • SSB is used interchangeably with a Synchronization Signal/Physical Broadcast Channel (SS/PBCH) block.
  • SS/PBCH Synchronization Signal/Physical Broadcast Channel
  • the SSB consists of PSS, SSS and PBCH.
  • the SSB is composed of four consecutive OFDM symbols, and PSS, PBCH, SSS/PBCH or PBCH are transmitted for each OFDM symbol.
  • the PSS and SSS are each composed of 1 OFDM symbol and 127 subcarriers, and the PBCH is composed of 3 OFDM symbols and 576 subcarriers.
  • Cell discovery refers to a process in which the UE acquires time/frequency synchronization of a cell and detects a cell identifier (eg, Physical layer Cell ID, PCI) of the cell.
  • PSS is used to detect a cell ID within a cell ID group
  • SSS is used to detect a cell ID group.
  • PBCH is used for SSB (time) index detection and half-frame detection.
  • 336 cell ID groups There are 336 cell ID groups, and 3 cell IDs exist for each cell ID group. There are a total of 1008 cell IDs. Information on the cell ID group to which the cell ID of the cell belongs is provided/obtained through the SSS of the cell, and information on the cell ID among 336 cells in the cell ID is provided/obtained through the PSS.
  • the SSB is transmitted periodically according to the SSB period.
  • the SSB basic period assumed by the UE during initial cell search is defined as 20 ms. After cell access, the SSB period may be set to one of ⁇ 5ms, 10ms, 20ms, 40ms, 80ms, 160ms ⁇ by the network (eg, BS).
  • SI is divided into a master information block (MIB) and a plurality of system information blocks (SIB). SI other than MIB may be referred to as RMSI (Remaining Minimum System Information).
  • the MIB includes information/parameters for monitoring the PDCCH that schedules the PDSCH carrying System Information Block1 (SIB1), and is transmitted by the BS through the PBCH of the SSB.
  • SIB1 includes information related to availability and scheduling (eg, transmission period, SI-window size) of the remaining SIBs (hereinafter, SIBx, x is an integer greater than or equal to 2). SIBx is included in the SI message and is transmitted through the PDSCH. Each SI message is transmitted within a periodic time window (ie, SI-window).
  • RA random access
  • the random access process is used for various purposes.
  • the random access procedure may be used for initial network access, handover, and UE-triggered UL data transmission.
  • the UE may acquire UL synchronization and UL transmission resources through a random access process.
  • the random access process is divided into a contention-based random access process and a contention free random access process.
  • the detailed procedure for the contention-based random access process is as follows.
  • the UE may transmit the random access preamble as Msg1 of the random access procedure in the UL through the PRACH. Random access preamble sequences having two different lengths are supported.
  • the long sequence length 839 is applied for subcarrier spacing of 1.25 and 5 kHz, and the short sequence length 139 is applied for subcarrier spacing of 15, 30, 60 and 120 kHz.
  • the BS When the BS receives the random access preamble from the UE, the BS transmits a random access response (RAR) message (Msg2) to the UE.
  • RAR random access response
  • the PDCCH for scheduling the PDSCH carrying RAR is transmitted after being CRC masked with a random access (RA) radio network temporary identifier (RNTI) (RA-RNTI).
  • RA-RNTI random access radio network temporary identifier
  • a UE that detects a PDCCH masked with RA-RNTI may receive an RAR from a PDSCH scheduled by a DCI carried by the PDCCH.
  • the UE checks whether the preamble transmitted by the UE, that is, random access response information for Msg1, is in the RAR.
  • Whether there is random access information for Msg1 transmitted by the UE may be determined based on whether there is a random access preamble ID for the preamble transmitted by the UE. If there is no response to Msg1, the UE may retransmit the RACH preamble within a predetermined number of times while performing power ramping. The UE calculates the PRACH transmission power for retransmission of the preamble based on the most recent path loss and power ramping counter.
  • the UE may transmit UL transmission as Msg3 in a random access procedure on an uplink shared channel based on random access response information.
  • Msg3 may include an RRC connection request and a UE identifier.
  • the network may send Msg4, which may be treated as a contention resolution message on the DL. By receiving Msg4, the UE can enter the RRC connected state.
  • the BM process may be divided into (1) a DL BM process using SSB or CSI-RS and (2) a UL BM process using a sounding reference signal (SRS).
  • each BM process may include Tx beam sweeping to determine the Tx beam and Rx beam sweeping to determine the Rx beam.
  • CSI channel state information
  • the UE receives a CSI-ResourceConfig IE including CSI-SSB-ResourceSetList for SSB resources used for BM from BS.
  • the RRC parameter csi-SSB-ResourceSetList represents a list of SSB resources used for beam management and reporting in one resource set.
  • the SSB resource set may be set to ⁇ SSBx1, SSBx2, SSBx3, SSBx4, ⁇ .
  • the SSB index may be defined from 0 to 63.
  • the UE receives signals on SSB resources from the BS based on the CSI-SSB-ResourceSetList.
  • the UE reports the best SSBRI and RSRP corresponding thereto to the BS. For example, when the reportQuantity of the CSI-RS reportConfig IE is set to'ssb-Index-RSRP', the UE reports the best SSBRI and corresponding RSRP to the BS.
  • the reportQuantity of the CSI-RS reportConfig IE is set to'ssb-Index-RSRP', the UE reports the best SSBRI and corresponding RSRP to the BS.
  • the UE When the UE is configured with CSI-RS resources in the same OFDM symbol(s) as the SSB, and'QCL-TypeD' is applicable, the UE is similarly co-located in terms of'QCL-TypeD' of the CSI-RS and SSB ( quasi co-located, QCL).
  • QCL-TypeD may mean that QCL is performed between the antenna 111 ports in terms of a spatial Rx parameter.
  • the UE receives signals from a plurality of DL antenna 111 ports in a QCL-TypeD relationship, the same reception beam may be applied.
  • the Rx beam determination (or refinement) process of the UE using CSI-RS and the Tx beam sweeping process of the BS are sequentially described.
  • the repetition parameter is set to'ON'
  • the repetition parameter is set to'OFF'.
  • the UE receives the NZP CSI-RS resource set IE including the RRC parameter for'repetition' from the BS through RRC signaling.
  • the RRC parameter'repetition' is set to'ON'.
  • the UE repeats signals on the resource(s) in the CSI-RS resource set in which the RRC parameter'repetition' is set to'ON' in different OFDM symbols through the same Tx beam (or DL spatial domain transmission filter) of the BS Receive.
  • the UE determines its own Rx beam.
  • the UE omits CSI reporting. That is, the UE may omit CSI reporting when the shopping price RRC parameter'repetition' is set to'ON'.
  • the UE receives the NZP CSI-RS resource set IE including the RRC parameter for'repetition' from the BS through RRC signaling.
  • the RRC parameter'repetition' is set to'OFF', and is related to the Tx beam sweeping process of the BS.
  • the UE receives signals on resources in the CSI-RS resource set in which the RRC parameter'repetition' is set to'OFF' through different Tx beams (DL spatial domain transmission filters) of the BS.
  • Tx beams DL spatial domain transmission filters
  • the UE selects (or determines) the best beam.
  • the UE reports the ID (eg, CRI) and related quality information (eg, RSRP) for the selected beam to the BS. That is, when the CSI-RS is transmitted for the BM, the UE reports the CRI and the RSRP for it to the BS.
  • ID eg, CRI
  • RSRP related quality information
  • the UE receives RRC signaling (eg, SRS-Config IE) including a usage parameter set to'beam management' (RRC parameter) from the BS.
  • SRS-Config IE is used for SRS transmission configuration.
  • the SRS-Config IE includes a list of SRS-Resources and a list of SRS-ResourceSets. Each SRS resource set means a set of SRS-resources.
  • the UE determines Tx beamforming for the SRS resource to be transmitted based on the SRS-SpatialRelation Info included in the SRS-Config IE.
  • the SRS-SpatialRelation Info is set for each SRS resource, and indicates whether to apply the same beamforming as the beamforming used in SSB, CSI-RS or SRS for each SRS resource.
  • SRS-SpatialRelationInfo is set in the SRS resource, the same beamforming as the beamforming used in SSB, CSI-RS or SRS is applied and transmitted. However, if SRS-SpatialRelationInfo is not set in the SRS resource, the UE randomly determines Tx beamforming and transmits the SRS through the determined Tx beamforming.
  • BFR beam failure recovery
  • Radio Link Failure may frequently occur due to rotation, movement, or beamforming blockage of the UE. Therefore, BFR is supported in NR to prevent frequent RLF from occurring. BFR is similar to the radio link failure recovery process, and may be supported when the UE knows the new candidate beam(s).
  • the BS sets beam failure detection reference signals to the UE, and the UE sets the number of beam failure indications from the physical layer of the UE within a period set by RRC signaling of the BS. When a threshold set by RRC signaling is reached, a beam failure is declared.
  • the UE triggers beam failure recovery by initiating a random access procedure on the PCell; Beam failure recovery is performed by selecting a suitable beam (if the BS has provided dedicated random access resources for certain beams, these are prioritized by the UE). Upon completion of the random access procedure, it is considered that the beam failure recovery is complete.
  • URLLC transmission as defined by NR is (1) relatively low traffic size, (2) relatively low arrival rate, (3) extremely low latency requirement (e.g. 0.5, 1ms), (4) It may mean a relatively short transmission duration (eg, 2 OFDM symbols), and (5) transmission of an urgent service/message.
  • transmission for a specific type of traffic e.g., URLLC
  • eMBB another transmission
  • URLLC UE uses the corresponding resource for UL transmission.
  • eMBB and URLLC services can be scheduled on non-overlapping time/frequency resources, and URLLC transmission can occur on resources scheduled for ongoing eMBB traffic.
  • the eMBB UE may not be able to know whether the PDSCH transmission of the corresponding UE is partially punctured, and the UE may not be able to decode the PDSCH due to corrupted coded bits.
  • the NR provides a preemption indication.
  • the preemption indication may be referred to as an interrupted transmission indication.
  • the UE receives the DownlinkPreemption IE through RRC signaling from the BS.
  • the UE is configured with the INT-RNTI provided by the parameter int-RNTI in the DownlinkPreemption IE for monitoring of the PDCCH carrying DCI format 2_1.
  • the UE is additionally configured with a set of serving cells by INT-ConfigurationPerServing Cell including a set of serving cell indexes provided by servingCellID and a corresponding set of positions for fields in DCI format 2_1 by positionInDCI, and dci-PayloadSize It is set with the information payload size for DCI format 2_1 by and is set with the indication granularity of time-frequency resources by timeFrequencySect.
  • the UE receives DCI format 2_1 from the BS based on the DownlinkPreemption IE.
  • the UE When the UE detects the DCI format 2_1 for the serving cell in the set set of serving cells, the UE is the DCI format among the set of PRBs and symbols of the monitoring period immediately preceding the monitoring period to which the DCI format 2_1 belongs. It may be assumed that there is no transmission to the UE in the PRBs and symbols indicated by 2_1. For example, the UE considers that the signal in the time-frequency resource indicated by the preemption is not a DL transmission scheduled to it, and decodes data based on the signals received in the remaining resource regions.
  • Massive Machine Type Communication is one of 5G scenarios to support hyper-connection services that communicate with a large number of UEs simultaneously.
  • the UE communicates intermittently with a very low transmission rate and mobility. Therefore, mMTC aims at how long the UE can be driven at a low cost for a long time.
  • 3GPP deals with MTC and NB (NarrowBand)-IoT.
  • the mMTC technology has features such as repetitive transmission of PDCCH, PUCCH, physical downlink shared channel (PDSCH), and PUSCH, frequency hopping, retuning, and guard period.
  • a PUSCH (or PUCCH (especially, long PUCCH) or PRACH) including specific information and a PDSCH (or PDCCH) including a response to specific information are repeatedly transmitted.
  • Repetitive transmission is performed through frequency hopping, and for repetitive transmission, (RF) retuning is performed in a guard period from a first frequency resource to a second frequency resource, and specific information
  • RF repetitive transmission
  • a response to specific information may be transmitted/received through a narrowband (ex. 6 resource block (RB) or 1 RB).
  • FIG 3 shows an example of a basic operation of an autonomous vehicle and a 5G network in a 5G communication system.
  • the autonomous vehicle transmits specific information transmission to the 5G network (S1).
  • the specific information may include autonomous driving related information.
  • the 5G network may determine whether to remotely control the vehicle (S2).
  • the 5G network may include a server or module that performs remote control related to autonomous driving.
  • the 5G network may transmit information (or signals) related to remote control to the autonomous vehicle (S3).
  • the autonomous vehicle in order for the autonomous vehicle to transmit/receive the 5G network, signals, and information, the autonomous vehicle performs an initial access procedure with the 5G network before step S1 of FIG. And a random access procedure.
  • the autonomous vehicle performs an initial access procedure with the 5G network based on the SSB in order to obtain DL synchronization and system information.
  • a beam management (BM) process and a beam failure recovery process may be added.
  • a quasi-co location (QCL) ) Relationships can be added.
  • the autonomous vehicle performs a random access procedure with the 5G network to obtain UL synchronization and/or transmit UL.
  • the 5G network may transmit a UL grant for scheduling transmission of specific information to the autonomous vehicle. Accordingly, the autonomous vehicle transmits specific information to the 5G network based on the UL grant.
  • the 5G network transmits a DL grant for scheduling transmission of a 5G processing result for the specific information to the autonomous vehicle. Accordingly, the 5G network may transmit information (or signals) related to remote control to the autonomous vehicle based on the DL grant.
  • the autonomous vehicle may receive a DownlinkPreemption IE from the 5G network.
  • the autonomous vehicle receives DCI format 2_1 including a pre-emption indication from the 5G network based on the DownlinkPreemption IE.
  • the autonomous vehicle does not perform (or expect or assume) the reception of eMBB data in the resource (PRB and/or OFDM symbol) indicated by the pre-emption indication.
  • the autonomous vehicle may receive a UL grant from the 5G network when it is necessary to transmit specific information.
  • the autonomous vehicle receives a UL grant from the 5G network to transmit specific information to the 5G network.
  • the UL grant includes information on the number of repetitions for transmission of the specific information, and the specific information may be repeatedly transmitted based on the information on the number of repetitions. That is, the autonomous vehicle transmits specific information to the 5G network based on the UL grant.
  • repetitive transmission of specific information may be performed through frequency hopping, transmission of first specific information may be transmitted in a first frequency resource, and transmission of second specific information may be transmitted in a second frequency resource.
  • the specific information may be transmitted through a narrowband of 6RB (Resource Block) or 1RB (Resource Block).
  • FIG. 4 illustrates an example of a vehicle-to-vehicle basic operation using 5G communication.
  • the first vehicle transmits specific information to the second vehicle (S61).
  • the second vehicle transmits a response to the specific information to the first vehicle (S62).
  • the composition may vary depending on whether the 5G network directly (side link communication transmission mode 3) or indirectly (sidelink communication transmission mode 4) is involved in the resource allocation of the specific information and the response to the specific information
  • the composition may vary.
  • the 5G network may transmit DCI format 5A to the first vehicle for scheduling of mode 3 transmission (PSCCH and/or PSSCH transmission).
  • a physical sidelink control channel (PSCCH) is a 5G physical channel for scheduling specific information transmission
  • a physical sidelink shared channel (PSSCH) is a 5G physical channel for transmitting specific information.
  • the first vehicle transmits SCI format 1 for scheduling specific information transmission to the second vehicle on the PSCCH. Then, the first vehicle transmits specific information to the second vehicle on the PSSCH.
  • the first vehicle senses a resource for mode 4 transmission in the first window. Then, the first vehicle selects a resource for mode 4 transmission in the second window based on the sensing result.
  • the first window means a sensing window
  • the second window means a selection window.
  • the first vehicle transmits SCI format 1 for scheduling specific information transmission to the second vehicle on the PSCCH based on the selected resource. Then, the first vehicle transmits specific information to the second vehicle on the PSSCH.
  • V2X Vehicle-to-Everything
  • V2X communication is an example of V2X communication to which the present specification can be applied.
  • V2X communication is V2V (Vehicle-to-Vehicle), which refers to communication between vehicles, V2I (Vehicle to Infrastructure), which refers to communication between a vehicle and an eNB or RSU (Road Side Unit), and vehicle and individual. It includes communication between the vehicle and all entities such as V2P (Vehicle-to-Pedestrian) and V2N (vehicle-to-network), which refer to communication between UEs possessed by (pedestrian, cyclist, vehicle driver, or passenger).
  • V2V Vehicle-to-Vehicle
  • V2I Vehicle to Infrastructure
  • eNB or RSU Raad Side Unit
  • V2P Vehicle-to-Pedestrian
  • V2N vehicle-to-network
  • V2X communication may represent the same meaning as V2X sidelink or NR V2X, or may represent a broader meaning including V2X sidelink or NR V2X.
  • V2X communication includes, for example, forward collision warning, automatic parking system, cooperative adaptive cruise control (CACC), control loss warning, traffic matrix warning, traffic vulnerable safety warning, emergency vehicle warning, and driving on curved roads. It can be applied to various services such as speed warning and traffic flow control.
  • CACC cooperative adaptive cruise control
  • V2X communication may be provided through a PC5 interface and/or a Uu interface.
  • specific network entities for supporting communication between the vehicle and all entities may exist.
  • the network entity may be a BS (eNB), a road side unit (RSU), a UE, or an application server (eg, a traffic safety server).
  • the UE performing V2X communication is not only a general portable UE (handheld UE), but also a vehicle UE (V-UE (Vehicle UE)), a pedestrian UE (pedestrian UE), a BS type (eNB type) RSU, or a UE It may refer to a type (UE type) RSU, a robot equipped with a communication module, or the like.
  • V2X communication may be performed directly between UEs or may be performed through the network entity(s).
  • V2X operation modes can be classified according to the V2X communication method.
  • V2X communication is required to support the pseudonymity and privacy of the UE when using the V2X application so that an operator or a third party cannot track the UE identifier within the region where V2X is supported. do.
  • RSU is a V2X service capable device that can transmit/receive with a mobile vehicle using V2I service.
  • RSU is a fixed infrastructure entity that supports V2X applications, and can exchange messages with other entities that support V2X applications.
  • RSU is a term frequently used in the existing ITS specification, and the reason for introducing this term in the 3GPP specification is to make the document easier to read in the ITS industry.
  • the RSU is a logical entity that combines the V2X application logic with the function of the BS (referred to as BS-type RSU) or UE (referred to as UE-type RSU).
  • V2I service A type of V2X service, an entity belonging to one side of the vehicle and the other side of the infrastructure.
  • V2P service A type of V2X service, with one side being a vehicle and the other side being a personal device (eg, a portable UE device carried by a pedestrian, cyclist, driver, or passenger).
  • a personal device eg, a portable UE device carried by a pedestrian, cyclist, driver, or passenger.
  • -V2X service 3GPP communication service type in which a transmitting or receiving device is related to a vehicle.
  • -V2X enabled (enabled) UE UE that supports V2X service.
  • V2X service This is a type of V2X service, both of which are vehicles.
  • -V2V communication range Direct communication range between two vehicles participating in V2V service.
  • V2X Vehicle-to-Everything
  • V2V Vehicle to Vehicle
  • V2I Vehicle to Infrastructure
  • V2N Vehicle to Network
  • V2P Vehicle-to-Everything
  • FIG. 6 illustrates a resource allocation method in a sidelink in which V2X is used.
  • different sidelink control channels may be allocated spaced apart from each other in the frequency domain
  • different sidelink shared channels may be allocated spaced apart from each other.
  • different PSCCHs may be consecutively allocated in the frequency domain
  • PSSCHs may be consecutively allocated in the frequency domain.
  • Vehicle Platooning enables vehicles to dynamically form a platoon that moves together. All of Platoon's vehicles get information from the leading vehicle to manage this Platoon. This information allows vehicles to drive more harmoniously than normal, go in the same direction and travel together.
  • Extended sensors are raw data collected from vehicles, road site units, pedestrian devices, and V2X application servers via local sensors or live video images.
  • Vehicles can increase their awareness of the environment beyond what their own sensors can detect, and can grasp the local situation more broadly and holistically.
  • a high data transfer rate is one of its main features.
  • Each vehicle and/or RSU shares its own recognition data from local sensors with nearby vehicles, allowing the vehicle to synchronize and adjust trajectory or manoeuvre.
  • Each vehicle shares a driving intention with a nearby driving vehicle.
  • Remote driving allows remote drivers or V2X applications to drive remote vehicles for passengers who cannot drive themselves or with remote vehicles in hazardous environments.
  • driving based on cloud computing can be used. High reliability and low latency are the main requirements.
  • Each terminal has a Layer-2 identifier for V2 communication through one or more PC5s. This includes the source Layer-2 ID and the destination Layer-2 ID.
  • the source and destination Layer-2 IDs are included in the Layer-2 frame, and the Layer-2 frame is transmitted through a layer-2 link of PC5 that identifies the source and destination of Layer-2 on the frame.
  • the UE's source and destination Layer-2 ID selection is based on the communication mode of the V2X communication of the PC5 of the layer-2 link.
  • the source Layer-2 ID can be different between different communication modes.
  • the terminal configures the link-local IPv6 address to be used as the source IP address.
  • the UE can use this IP address for V2X communication of PC5 without sending a Neighbor Solicitation and Neighbor Advertisement message for redundant address discovery.
  • the source terminal eg, vehicle
  • the source terminal is tracked or identified from other terminals only for a specific time, so that the source layer- 2 IDs are replenished over time and can be randomized.
  • the source IP address must also be replenished and randomized over time.
  • Supplementation of the identifiers of the source terminal must be synchronized in the layer used for PC5. That is, if the application layer identifier is supplemented, supplementation of the source Layer-2 ID and the source IP address is also required.
  • FIG. 7 is a diagram illustrating a procedure for a broadcast mode of V2X communication using PC5.
  • the receiving terminal determines a destination Layer-2 ID for broadcast reception.
  • the destination Layer-2 ID is transmitted to the AS layer of the receiving terminal for reception.
  • the V2X application layer of the transmitting terminal can provide data units and V2X application requirements.
  • the transmitting terminal determines a destination Layer-2 ID for broadcast.
  • the transmitting terminal allocates itself with a source Layer-2 ID.
  • One broadcast message transmitted by the transmitting terminal transmits V2X service data using the source Layer-2 ID and the destination Layer-2 ID.
  • Natural language refers to a language, such as Korean and English, that naturally arises and evolves with the formation of human society, and is used as a means for communication. Processing and processing of such natural language is called natural language processing.
  • Natural language processing includes Natural Language Understanding, Natural Language Generation, Machine Translation, Question Answering System, Computational Linguistics, Speech Recognition, Various fields such as Speech Systhesis, Speech Understanding, Information Retrieval, Text Categorization, and Text Mining may be included.
  • classical natural language processing can be classified into (1) pre-processing, (2) modeling, and (3) output.
  • the pre-processing may refer to processing in which text is processed according to the characteristics of a corresponding language and processed to facilitate extraction of the characteristics. That is, the pre-processing may include 1 tokenization step, 2 force tagging step, and 3 stopword removal step.
  • the tokenization step may mean dividing text into basic units such as documents, paragraphs, and sentences. These may differ from each other depending on the characteristics of the language. For example, in the case of Chinese, there may be no spaces, and in the case of Korean, there may be a difference, such as a tendency to not observe the spacing rules well.
  • the force tagging step may refer to a step of matching words separated by tokens by POS in the tokenization step. This is because the importance or meaning of the same word may differ depending on whether it is a noun, verb, or adjective.
  • the Stopword Removal step may refer to removing Stopwords. Stop words can mean things that don't have much meaning in the text. As an example, in the case of English, it may mean a pronoun such as it or there.
  • the modeling may refer to processing for extracting features of the preprocessed text to derive a desired result. That is, the modeling processing may include a step of 1 feature extraction, 2 a step of modeling features, and 3 a step of inferring meaning based on the features.
  • the output may include 1 sentiment, 2 classification, 3 entity extraction, 4 translation, and 5 topic modeling.
  • 9 is a diagram showing natural language processing based on deep learning.
  • Deep learning refers to a technique used to cluster or classify objects or data. Recently, due to the development of deep learning technology, it is known that natural language processing is very effective when the deep learning technology is applied to natural language processing as well.
  • (1) preprocessing text, (2) embedding, (3) passing through a hidden layer, and (4) outputting may be included.
  • the pre-processing of the text may refer to processing in which the text is processed according to the characteristics of the language and processed to facilitate extracting the characteristics. That is, the step of pre-processing the text may include 1 tokenization step, 2 POS tagging step, and 3 stopword removal step. This is described in detail in the above description and thus will be omitted.
  • the embedding step may include word embedding, sentence embedding, and the like.
  • Embedding refers to a term that refers to the result of converting a natural language into a vector, which is an array of numbers, or the entire series of processes.
  • the step of passing through the hidden layer is a high level through a combination of several non-linear activations with an artificial neural network including several layers of nonlinear hidden layers. It may refer to the step of learning a combination or expression of new qualities by attempting the abstraction of.
  • 1 sentiment, 2 classification, 3 entity extraction, 4 translation, and 5 topic modeling may be output.
  • the method for providing an intelligent conversation service according to the first exemplary embodiment of the present specification may be performed in an intelligent conversation system for a vehicle according to the second exemplary embodiment of the present specification to be described later.
  • FIG. 10 is a diagram illustrating a method of providing an intelligent conversation service according to the first embodiment.
  • the input speech is inputted by simultaneously executing a plurality of automatic speech recognition models installed for each language type (S100). Converting to text (S200), analyzing an intent from the converted text (S300), interpreting the meaning of the text and generating a response based on the analyzed intent and context table (S400) ), and outputting the generated response (S500).
  • the step (S2001) of outputting an alarm guiding the input of a new speech sentence may be executed.
  • the alarm is output, the talker speaks a new speech statement, and at this time, the new speech statement is input to the system (S100).
  • An alarm that guides the input of the new speech above is an example, "Please tell me again.” It may include a sentence that induces the talker's speech, such as the back.
  • the first embodiment according to the present specification has an effect of receiving a more accurate speech sentence.
  • the step of converting the speech text to text may include performing general automatic speech recognition.
  • Automatic speech recognition may be performed in an automatic speech recognition module configured for this purpose.
  • Automatic speech recognition may mean converting speech data of a speaker into text.
  • the plurality of automatic speech recognition modules may use a configuration called a confidence value in order to find out the type of the correct language of the speech.
  • the confidence value may mean the reliability of each language when the corresponding language is processed in natural language. At this time, the reliability is expressed as a score by quantifying the meaning of the converted text, the degree of conversion, and the existence of matching words when the speech is converted into text. That is, the confidence value may refer to a numerical value obtained by comparing the pattern of the input speech and the pattern of the stored language and how much the same pattern is obtained.
  • the range of the confidence value is measured from 0 to 1. It can be interpreted that the closer to 0, the pattern of the speech sentence and the pattern of the stored language are different, and the closer to 1, the pattern of the speech sentence and the stored language are the same.
  • 11 and 12 are diagrams illustrating a step S200 of converting a speech to text in the method for providing an intelligent conversation service according to the first embodiment.
  • the step S200 of converting a speech sentence into text may be configured as follows.
  • a step of selecting text having a confidence value greater than the set value (S220) may be included.
  • the step of converting the speech sentence of the present specification into text is a step of simultaneously executing the plurality of automatic speech recognition models to derive text and confidence values for each language type for the speech sentence. (S211), and selecting a text having a confidence value that satisfies the first condition and the second condition among the confidence values (S221).
  • the first and second conditions are as follows.
  • the first condition for selecting a language based on the confidence values in the step of converting the speech to text (S200) may be one having a confidence value that is greater than or equal to a predetermined first value among the confidence values.
  • the preset first value may be a value between 0.6 and 1, and is preferably 0.9, but is not limited thereto.
  • the confidence values are smaller than the preset first value, it may be interpreted that the correct confidence value has not been calculated.
  • the preset first value is less than 0.6, it may be difficult to calculate an accurate confidence value.
  • the second condition for selecting a language based on the confidence values in the step of converting the speech to text (S200) may be that a difference value between the confidence values is greater than or equal to a preset second value.
  • the preset second value may be a value between 0.1 and 0.6, and is preferably 0.5, but is not limited thereto.
  • the difference value between the confidence values is smaller than the preset second value, it may be interpreted that an accurate confidence value has not been calculated.
  • the preset second value is less than 0.1 or greater than 0.6, it may be difficult to calculate an accurate confidence value.
  • a language having the highest confidence value may be selected by applying the first condition or the first condition and the second condition.
  • a step S2001 of outputting an alarm guiding the input of a new speech sentence may be performed.
  • the step of outputting an alarm guiding the input of a new utterance (S2001)
  • the input of a new utterance is guided
  • the step of outputting an alarm (S2001) may be executed again, or (2) a step of selecting a language having the largest confidence value among the previously calculated confidence values (not shown) may be performed.
  • FIG. 13 is a diagram illustrating a step S300 of analyzing an intent of a text in the method for providing an intelligent conversation service according to the first embodiment.
  • analyzing the intent of the text may include analyzing whether it is necessary to extract the context from the text (S310).
  • the step of analyzing the intent of the text includes the step of extracting the context of the text (S320), and the extracted context
  • the step of analyzing the intent of the speech sentence (S330) may be further included.
  • a step (S3201) of immediately analyzing the intent of the text without going through a separate step of extracting the context may be further included.
  • the process of supplementing the corresponding utterance means that if there is a word whose meaning is not clearly known in the utterance, the meaning of the word is grasped based on the context of the preceding sentence and replaced with the corresponding meaning. I can. The contents thereof are shown in FIGS. 14 and 15 and will be described later.
  • FIG. 14 is a diagram illustrating a step S300 of analyzing an intent of a text in the method for providing an intelligent conversation service according to the first embodiment, and FIG. 15 is an example thereof.
  • the step of analyzing an intent includes dividing a first word group whose meaning is interpreted only by the spoken sentence and a second word group whose meaning is not interpreted only by the spoken sentence ( S331), based on the extracted context, interpreting the meaning of the word belonging to the second word group (S332), replacing the word belonging to the second word group with the interpreted meaning (S333), And performing natural language understanding (NLU) on the text including the replaced word (S334).
  • words whose meaning can be known only by the corresponding speech sentence may be referred to as a first word group, and words whose meaning is not known only by the corresponding speech sentence may be referred to as a second word group.
  • the spoken sentence may be divided into a first word group and a second word group, and the meaning of the second word group may be interpreted based on the context, and then replaced. Through this, more accurate interpretation of meaning and generation of responses may be possible when natural language understanding is performed later.
  • FIG. 16 is a diagram showing a step (S400) of interpreting the meaning of a text and generating a response in the method for providing an intelligent conversation service according to the first embodiment
  • FIG. 17 is used in the method for providing an intelligent conversation service according to the first embodiment. This is an example of a context table.
  • the semantic analysis and response generation step (S400) based on an intent and a context table includes matching the analyzed intent with the context-specific intent of the context table (S410), and the matched It may include generating the response based on the entity for the intent and the detailed keyword for the entity (S420).
  • the context table may include a preset intent, an entity preset according to the preset intent, and detailed keywords preset according to the entity.
  • the intent may refer to the intention of the speaker or the subject of the utterance
  • the entity may refer to a keyword preset for each intent.
  • a specific example of a method of using the context table according to FIG. 17 is as follows.
  • the speaker's intention of the [Revised Speech 2] is to request information on the route by using the navigation function. Therefore, the intent of the corresponding speech can be analyzed as "Navigation”. That is, it is possible to find and match whether a word corresponding to the analyzed intent "Navigation" is included in the context table.
  • the speaker may generate a desired response. That is, when there are multiple entities, it can be used for sentence analysis according to the importance of each entity, and not all entities must be used all the time. In this case, the importance of each entity may be set in advance.
  • an entity predicting the number of various cases can be set in advance.
  • detailed keywords that can be used for an entity can be translated and set in advance for each language.
  • the context table stores detailed keywords translated for each entity and each language.
  • a response according to the matched result can be generated (S420).
  • a navigation program may be operated to search for a route to "Namsan Tower", select a route through "Myeong-dong” among the corresponding routes, and guide the speaker.
  • the processor 20 selects a text suitable for the language (here, Korean) for the speech.
  • the processor 20 may find the location of "this city” based on the context. You can also find the location of "this city” using GPS or the like.
  • the processor 20 analyzes the intent of the corresponding speech as "Weather”. Accordingly, the processor 20 may request weather information of "New York” from an external server. The processor 20 may generate a response to receive weather information of "New York", convert it into text, and output it as a voice.
  • the processor 20 selects a text suitable for the language (here, Korean) for the speech.
  • the processor 20 extracts the intent of the speech sentence as "Call".
  • the entity according to "Call” may be "Contact”.
  • the processor 20 may search for the contact information of the zone and make a call to the contact information of the zone.
  • the processor 20 generates a response indicating that John is calling, and the output device 30 outputs the generated response.
  • FIG. 18 is a diagram illustrating a method of providing an intelligent conversation service using communication in the method of providing an intelligent conversation service according to the first embodiment.
  • S1100 wireless communication unit
  • the computing device inside the vehicle may perform automatic speech recognition, natural language processing, and the like to provide a response to the driver.
  • the method of providing an intelligent conversation service according to the first embodiment of the present specification may use a wireless network typified by V2X communication.
  • the contents of the V2X communication used at this time are the same as those described above in FIGS. 5 to 7 and thus will be omitted.
  • the input voice data may be transmitted to an external server through wireless communication or the like.
  • An external server generates a response using the context table and transmits it back to the vehicle, and the vehicle can output the transmitted response.
  • 19 is a diagram illustrating a method of generating a response to a second speech sentence by using the context of a first speech sentence in the method for providing an intelligent conversation service according to the first embodiment.
  • the context used to analyze the intent of the speech sentence may not be extracted only from the corresponding speech sentence, but may be extracted and stored from the previous speech sentence. Looking at this in detail, it is as follows.
  • the method for providing an intelligent conversation service includes the steps of inputting a first speech sentence into the system (S2100), and extracting and storing a context from the first speech sentence ( S2200), inputting a second speech into the system (S2300), converting the second speech into text by simultaneously executing a plurality of automatic speech recognition models installed for each language type (S2400), a pre-stored context Analyzing the intent of the text based on (S2500), interpreting the meaning of the text based on the intent and context table and generating a response (S2600), and outputting the generated response It may include a step (S2700).
  • the first speech sentence and the second speech sentence may have different language types. For example, even if a conversation is made through an English utterance and then through a Korean utterance, the meaning of the Korean utterance can be interpreted based on the context in the conversation through the existing English utterance.
  • the first speech sentence and the second speech sentence may have the same language type. In this case, even if there are a plurality of speakers, the conversation is not disconnected for each speaker, and a continuous conversation service can be provided based on the context of the plurality of speech sentences.
  • a plurality of contexts may be extracted and stored. In order to interpret the currently input utterance, it may be a question of which context is used among the previously stored contexts to be interpreted. In other words, if the context of a previous conversation that is irrelevant to the current speaker's intention is utilized, an incorrect response may be derived.
  • the step of analyzing the intent of the text based on the previously stored context includes arranging a plurality of contexts in chronological order (not shown) and only a preset number of contexts among the sorted contexts. It may include the step of interpreting the speech by using (not shown). Preferably, only one of the most recently input contexts can be used, but the scope of the rights in the present specification is not limited to the number.
  • FIG. 20 is a diagram showing an example of converting a speech text into text using a confidence value in the method for providing an intelligent dialog service according to the first embodiment
  • FIG. 21 is a diagram showing an example of converting a speech text into text according to the first embodiment. It is a diagram showing an example of interpreting the meaning of text and generating its response.
  • a confidence value is calculated for a speech that is simultaneously input by a plurality of automatic speech recognition modules provided for each language type and converted into text.
  • each confidence value is compared, and it is analyzed whether only one of the confidence values satisfies the first condition for whether it is greater than or equal to 0.9.
  • a value greater than 0.9 among the confidence values for the spoken text is confirmed as 0.98 as the confidence value for the "C language".
  • the difference between the confidence value of "C language” of 0.98 and other confidence values is greater than 0.5.
  • the selection unit selects the C language and proceeds to the next step.
  • an intent may be analyzed based on a context for a C language text that satisfies the first condition and the second condition of FIG. 20.
  • natural language understanding may be primarily performed for intent analysis. Through the understanding of the natural language, it is possible to grasp an intent and an entity of the speech. Based on the identified intent and entity, the meaning of the text may be interpreted and a response may be generated.
  • the intelligent conversation system for a vehicle may be installed not only in a vehicle, but also in a voice assistant, a computer, a mobile device, and the like.
  • the intelligent conversation system for a vehicle may be a subject that performs the method for providing an intelligent conversation service according to the first exemplary embodiment described above.
  • FIG. 22 is a diagram showing an intelligent conversation system for a vehicle according to a second embodiment.
  • the intelligent conversation system for a vehicle may include an input device 10, a processor 20, and an output device 30.
  • the talker's speech is input.
  • text, images, or images, as well as speech text may be input to the input device 10.
  • the input device 10 may be a microphone, a keyboard, a scanner, or a camera. However, since it is for intelligent conversation, it is preferable that it is a microphone to which the speech is input.
  • the input device 10 may have a configuration in which the step S100 of inputting the speech sentence of the first embodiment described above is performed.
  • the processor 20 is a component capable of performing operations and controlling other devices. Mainly, it may mean a central processing unit (CPU), an application processor (AP), and the like. In addition, the CPU or AP may include one or more cores therein, and the CPU or AP may operate using an operating voltage and a clock signal.
  • CPU central processing unit
  • AP application processor
  • the CPU or AP may include one or more cores therein, and the CPU or AP may operate using an operating voltage and a clock signal.
  • the processor 20 converts the input speech into text.
  • the system can process and recognize the text.
  • the processor 20 may execute the step S200 of converting the speech text of the first embodiment of the present invention into text. Since step S200 has been described in detail in the first embodiment, a description of its contents will be omitted.
  • the output device 30 is a device that outputs a response and may output a response through voice, image, or video. Accordingly, the output device 30 may be a speaker, a display, or the like. However, since the second embodiment of the present specification is preferably used in a vehicle, it is preferable to output audio so as not to interfere with the driving of the driver.
  • the output device 30 may output "please say again” by voice or the same content as an image.
  • the processor 20 may analyze the converted text to recognize the meaning and form a response suitable for the meaning. That is, the processor 20 may be a component that performs natural language processing as shown in FIGS. 8 and 9.
  • the processor 20 may analyze an intent of the text.
  • the spoken sentence may include words such as pronouns whose meaning is unknown only by the corresponding spoken sentence.
  • the processor 20 may analyze the intent using the context extracted from the previous speech.
  • the processor 20 may perform natural language understanding (NLU) on the modified text so that the meaning is clear.
  • NLU natural language understanding
  • the processor 20 may perform an operation S400 of interpreting the meaning of the text and generating a response based on the analyzed intent and the context table.
  • TTS text-to-speech
  • the output device 30 When the output device 30 outputs a response through an image or an image, the response in a text format formed by the processor 20 may be displayed as it is on a display (not shown), or may be imaged or animated.
  • the intelligent conversation system for a vehicle may further include a storage device (not shown) capable of storing a context extracted from a previous speech and a context table.
  • the storage device may include a hard disk drive (HDD), a solid state disk (SSD), a silicon disk drive (SDD), a ROM, a RAM, etc., but is not limited thereto.
  • HDD hard disk drive
  • SSD solid state disk
  • SDD silicon disk drive
  • ROM read only memory
  • RAM random access memory
  • FIG. 23 is a diagram showing an intelligent conversation system for a vehicle according to the second embodiment.
  • the processor 20 may include a plurality of Auto Speech Recognition (ASR) modules 210 installed for each language type.
  • ASR Auto Speech Recognition
  • Automatic speech recognition refers to automatically recognizing a user's voice for communication between a user and a system such as a computer.
  • the automatic speech recognition module 210 may refer to a unit component in which software for automatic speech recognition is installed and executed.
  • the automatic speech recognition includes (1) receiving a speech pattern, (2) extracting features of the received speech pattern, (3) recognizing the speech pattern by comparing it with a speech pattern of a previously stored DB, and ( 4) It may include the step of outputting the recognized speech pattern.
  • the previously stored DB may be big data extracted from a plurality of users.
  • the big data may be stored in the automatic speech recognition module 210, but may generally be retrieved from a cloud server.
  • natural language understanding (NLU) using a recent deep learning technology may be used to recognize the speech pattern by comparing it with the speech pattern of a previously stored DB.
  • the plurality of automatic speech recognition modules 210 of the present specification may calculate confidence values for each language type for the input speech, and convert the speech to text, respectively. In this case, it is preferable that the plurality of automatic speech recognition modules 210 be executed simultaneously, if possible, but may be sequentially executed in some cases.
  • Confidence Value may refer to a numerical value obtained by comparing the pattern of the input speech and the pattern of the stored language to determine how much the same pattern has the same pattern, which is the same as described in the first embodiment of the present specification. Is omitted.
  • the processor 20 compares the confidence values calculated from the plurality of automatic speech recognition modules 210.
  • the processor 20 may compare the confidence values and select a language having a confidence value that satisfies a specific condition. That is, the processor 20 may compare the confidence values and select a text having a language having a confidence value that satisfies a specific condition.
  • the text refers to the text converted from the speech sentence by the automatic speech recognition module 210.
  • the processor 20 may further include a plurality of natural language understanding modules 220.
  • Natural Language Understanding can mean that computers understand natural language, which is a means of human communication.
  • Natural language understanding includes (1) Signal Processing, (2) Syntactic Analysis, (3) Semantic Analysis, (4) Discourse Integration, and (5) Speech Analysis ( Pragmatic analysis).
  • the signal processing digitizes the speech signal and separates word segments.
  • the language element handled is phonemes (the smallest unit of phoneme and voice).
  • the syntax analysis structurally analyzes the relationship of each word.
  • meaning is given to structures formed by the syntax analysis, and the overall meaning is analyzed by combining the meanings with each other.
  • the discourse integration since the meaning of each sentence can be influenced by the preceding sentence, they are integrated.
  • the phraseology analysis analyzes not only the expression but also what it actually means by looking at the whole integrated dialogue.
  • the processor 20 may include a plurality of natural language understanding modules 220 for each language type. That is, the plurality of natural language understanding modules 220 may correspond to types of languages that can be recognized by the plurality of automatic speech recognition modules, respectively.
  • a voice signal is transmitted to the detection unit through the input unit.
  • the processor 20 selects a language based on the confidence value. Since the spoken sentence is composed of English, the confidence value of the converted text will have the highest confidence value of the text converted to English.
  • an English text is selected by the processor 20, and the English natural language understanding module 220 may be executed to perform natural language understanding on the English text.
  • the processor 20 interprets the meaning of the English text using the English natural language understanding module 220 and generates a response appropriate thereto.
  • the planetary response is output through the output device 30.
  • 24 is an example in which an intelligent conversation system for a vehicle according to the second embodiment is installed in a vehicle.
  • the processor 20 interprets the meaning and generates a response, and the generated response may be output from the output device 30.
  • 25 is a diagram showing an intelligent conversation system for a vehicle using an external server according to a second embodiment.
  • the vehicle intelligent conversation system may further include an external server 50 and a communication device 40.
  • the processor 20 existing in the external server 50 performs the actual operation, and when the utterance statement is input to the input device 10, the utterance inquiry through the communication device 40 Voice data may be transmitted to the external server 50.
  • the processor 20 of the external server 50 converts the voice data into text, interprets the meaning based on this, and generates a response, the processor 20 transmits the generated response back to the communication device 40.
  • the response is output through the output device 30.
  • the communication device 40 may communicate with the external server 50 using V2X communication. Accordingly, the communication device 40 and the external server 50 can communicate through the RSU (Road Side Unit).
  • the contents of the V2X communication used at this time are the same as those described above in FIGS. 5 to 7 and thus will be omitted.
  • the communication device 40 using wireless communication it is connected to an internal/external antenna (not shown), and transmits/receives information to and from a base station through an antenna (not shown).
  • the communication device 40 using wireless communication includes a wireless communication module (not shown) having a modulator, a demodulator, a signal processing unit, and the like.
  • the wireless communication refers to communication using a communication facility previously installed by communication companies and a wireless communication network using the frequency.
  • various radios such as code division multiple access (CDMA), frequency division multiple access (FDMA), time division multiple access (TDMA), orthogonal frequency division multiple access (OFDMA), single carrier frequency division multiple access (SC-FDMA), etc.
  • CDMA code division multiple access
  • FDMA frequency division multiple access
  • TDMA time division multiple access
  • OFDMA orthogonal frequency division multiple access
  • SC-FDMA single carrier frequency division multiple access
  • 3GPP 3rd generation partnership project
  • 5G communication which is recently commercialized, can be mainly used
  • 6G which is scheduled for commercialization in the future, can also be used.
  • a pre-installed communication network may be used without being restricted to such a wireless communication method.
  • 26 is a diagram showing an intelligent conversation system for a vehicle using an external server according to a second embodiment.
  • the intelligent conversation system for a vehicle includes a communication device 40, a first processor 21 installed in the vehicle, an external server 50, and a second processor installed in the external server 50 ( 22) may be included.
  • the first processor 21 may perform the same functions and roles as the processor 20 described above. However, the first processor 21 is installed in a vehicle and may mainly perform an operation related to vehicle operation. Accordingly, the first processor 21 checks whether the communication device 40 is activated, and when the communication device 40 is activated, the voice data of the input speech is transmitted to the external server 50 through the communication device 40. Transfer to.
  • the first processor 21 may analyze the meaning of the input speech and generate a response based on the data stored in the vehicle.
  • the functions and roles of the first processor 21 may be the same as those of the processor 20 described above.
  • the second processor 22 is installed in the external server 50 and may perform the same functions and roles as the processor 20 described above.
  • the second processor 22 may receive voice data from the communication device 40, interpret the meaning of the spoken sentence, and generate a response thereof.
  • the generated response may be transmitted to the first processor 21 through the communication device 40.
  • the first processor 21 and the second processor 22 may refer to a central processing unit (CPU), an application processor (AP), or the like.
  • the CPU or AP may include one or more cores therein, and the CPU or AP may operate using an operating voltage and a clock signal.
  • the second processor 22 installed in the external server 50 is in an environment capable of consuming more power, it may have a higher clock and operation speed than the first processor 21.
  • the foregoing specification can be implemented as computer-readable code on a medium in which a program is recorded.
  • the computer-readable medium includes all types of recording devices that store data that can be read by a computer system. Examples of computer-readable media include hard disk drives (HDDs), solid state disks (SSDs), silicon disk drives (SDDs), ROMs, RAM, CD-ROMs, magnetic tapes, floppy disks, optical data storage devices, etc.
  • HDDs hard disk drives
  • SSDs solid state disks
  • SDDs silicon disk drives
  • ROMs read-only memory
  • RAM compact disc drives
  • CD-ROMs compact discs
  • magnetic tapes magnetic tapes
  • floppy disks magnetic tapes
  • optical data storage devices etc.
  • carrier wave for example, transmission over the Internet

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

지능형 대화 서비스 제공 방법 및 차량용 지능형 대화 시스템이 개시된다. 본 명세서에 따른 지능형 대화 서비스 제공 방법은, 차량용 지능형 대화 시스템의 대화 서비스 제공 방법에 있어서, 상기 시스템에 발화문을 입력하는 단계, 언어 종류별로 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문을 텍스트로 변환하는 단계, 상기 텍스트의 인텐트(Intent)를 분석하는 단계, 상기 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 단계 및 상기 생성된 응답을 출력하는 단계를 포함할 수 있다. 본 명세서는 발화자가 여러명이거나 여러 언어로 말하는 경우에도 자동으로 언어를 인식하여 대화할 수 있는 효과가 있다.

Description

지능형 대화 서비스 제공 방법 및 지능형 대화 시스템
본 명세서는 지능형 대화 서비스 제공 방법 및 지능형 대화 시스템에 관한 것이다.
음성 인식은 사용자의 음성을 인식하는 기술이다. 최근, 음성 인식 기술의 발달로 인하여, 사람과 대화할 수 있는 인공지능을 활용한 대화 시스템 또는 그 시스템을 실행할 수 있는 장치 등이 활발히 개발되고 있다.
인공지능을 활용한 대화 시스템에서 활용되는 대표적인 기술은, 자동 음성 인식(Auto Speech Recognition, ASR), 자연어 이해(Natural Language Understanding, NLU), 텍스트 음성 변환(Text-to-Speech, TTS) 등이 있다.
다만, 위 기술들을 활용하는 기존의 지능형 대화 시스템은 한가지 언어로만 대화가 가능하거나, 여러 언어로 대화하려면 사용자가 직접 설정을 변경해야 하는 등 여러 언어에 대응하지 못하는 문제점이 있었다.
본 명세서는 발화자가 여러명이거나 여러 언어로 말하는 경우에도 자동으로 언어를 인식하여 대화할 수 있는 지능형 대화 서비스 제공 방법 및 지능형 대화 시스템을 제공하는 것을 목적으로 한다.
또한, 본 명세서는 발화자가 여러명이거나 여러 언어로 말하는 경우에도 각 대화의 콘텍스트를 파악하여 대화를 이어나갈 수 있는 지능형 대화 서비스 제공 방법 및 지능형 대화 시스템을 제공하는 것을 목적으로 한다.
또한, 본 명세서는 지능형 대화 서비스 제공 방법 및 지능형 대화 시스템을 제공하기 위하여 복수의 자동 음성 인식 모듈을 동시에 실행하는 것을 목적으로 한다.
또한, 본 명세서는 지능형 대화 서비스 제공 방법 및 지능형 대화 시스템을 제공하기 위하여 콘텍스트 테이블을 이용하여 발화문에 대한 응답을 생성하는 것을 목적으로 한다.
상술한 과제를 해결하기 위하여, 본 명세서는, 차량용 지능형 대화 시스템의 대화 서비스 제공 방법에 있어서, 상기 시스템에 발화문을 입력하는 단계; 언어 종류별로 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문을 텍스트로 변환하는 단계; 상기 텍스트의 인텐트(Intent)를 분석하는 단계; 상기 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 단계; 및 상기 생성된 응답을 출력하는 단계;를 포함할 수 있다.
이때, 상기 변환하는 단계는, 상기 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문에 대하여 상기 언어 종류별 텍스트 및 신뢰값을 도출하는 단계; 및 상기 신뢰값들 중 기설정된 값보다 큰 신뢰값을 가지는 텍스트를 선택하는 단계;를 포함할 수 있다.
또한, 상기 변환하는 단계는, 상기 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문에 대하여 상기 언어 종류별 텍스트 및 신뢰값들을 도출하는 단계; 및 상기 신뢰값들 중 제1 조건 및 제2 조건을 만족하는 신뢰값을 가지는 텍스트를 선택하는 단계;를 포함할 수 있다.
[제1 조건]
신뢰값 ≥ 기설정된 제1 값
[제2 조건]
(상기 제1 조건을 만족하는 신뢰값 - 나머지 각각의 신뢰값) ≥ 기설정된 제2 값
또한, 상기 변환하는 단계는, 상기 선택된 텍스트가 복수개인 경우, 새로운 발화문의 입력을 안내하는 알람을 출력하는 단계;를 더 포함할 수 있다.
또한, 상기 분석하는 단계는, 상기 텍스트의 콘텍스트(context)를 추출하고, 상기 추출된 콘텍스트를 기초로 상기 발화문의 상기 인텐트를 분석할 수 있다.
또한, 상기 분석하는 단계는, 상기 텍스트만으로 의미가 해석되는 제1 단어 그룹과, 상기 텍스트만으로 의미가 해석되지 않는 제2 단어 그룹을 나누는 단계; 상기 추출된 콘텍스트를 기초로, 상기 제2 단어 그룹에 속하는 단어의 의미를 해석하는 단계; 상기 제2 단어 그룹에 속하는 단어를 상기 해석된 의미로 대체하는 단계; 및 상기 대체된 단어를 포함하는 상기 텍스트에 대하여 자연어 이해(NLU)를 실행하는 단계;를 포함할 수 있다.
또한, 상기 분석하는 단계는, 다른 발화문으로부터 추출되어 기저장된 콘텍스트를 기초로 상기 발화문의 상기 인텐트를 분석할 수 있다.
상기 콘텍스트 테이블은, 상황별 인텐트, 상기 상황별 인텐트에 따른 엔티티(Entity) 및 상기 엔티티에 따른 세부 키워드를 포함하며, 상기 세부 키워드는 언어 종류별로 저장될 수 있다.
또한, 상기 생성하는 단계는, 상기 분석된 인텐트와 상기 콘텍스트 테이블의 상기 상황별 인텐트를 매칭하는 단계; 및 상기 매칭된 상황별 인텐트에 따른 상기 엔티티 및 상기 엔티티에 따른 세부 키워드를 기초로 상기 응답을 생성하는 단계;를 포함할 수 있다.
또한, 본 명세서는, 차량용 지능형 대화 시스템의 대화 서비스 제공 방법에 있어서, 상기 시스템에 입력된 발화문을 무선 통신부를 통해 외부 서버로 전송하는 단계; 언어 종류별로 상기 외부 서버에 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문을 텍스트로 변환하는 단계; 상기 외부 서버에서 상기 텍스트의 인텐트(Intent)를 분석하는 단계; 상기 외부 서버에서 상기 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 단계; 상기 생성된 응답을 상기 외부 서버에서 상기 무선 통신부를 통해 상기 시스템으로 전송하는 단계; 및 상기 시스템에서 상기 전송된 응답을 출력하는 단계;를 포함할 수 있다.
또한, 상기 시스템과 상기 외부 서버는 V2X 통신을 이용하여 정보를 전송할 수 있다.
또한, 본 명세서는, 발화문이 입력되는 입력장치; 언어 종류별로 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문을 텍스트로 변환하고, 상기 텍스트의 인텐트(Intent)를 분석하며, 상기 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 프로세서; 및 상기 응답을 출력하는 출력장치;를 포함할 수 있다.
또한, 상기 복수의 자동 음성 인식 모듈은, 상기 발화문에 대하여 언어 종류별로 신뢰값들을 각각 계산하고, 상기 발화문을 텍스트로 각각 변환할 수 있다.
또한, 상기 프로세서는, 상기 신뢰값들을 기초로 상기 텍스트들 중 하나를 선택할 수 있다.
또한, 상기 프로세서는, 상기 신뢰값들 중 기설정된 값보다 큰 신뢰값을 가지는 언어의 텍스트를 선택할 수 있다.
상기 프로세서는, 상기 신뢰값들이 제1 조건 및 상기 제2 조건을 만족하는 언어의 텍스트를 선택할 수 있다.
[제1 조건]
신뢰값 ≥ 기설정된 제1 값
[제2 조건]
(상기 제1 조건을 만족하는 신뢰값 - 나머지 각각의 신뢰값) ≥ 기설정된 제2 값
또한, 상기 프로세서가 상기 텍스트들 중 하나의 텍스트를 선택할 수 없는 경우, 상기 출력부는 새로운 발화문의 입력을 안내하는 알람을 출력할 수 있다.
상기 프로세서는, 상기 텍스트들 중 하나의 텍스트를 선택할 수 없는 경우, 상기 신뢰값들 중 가장 높은 신뢰값을 가지는 언어의 텍스트를 하나 선택할 수 있다.
또한, 상기 지능형 대화 시스템은, 상기 프로세서가 설치되는 외부 서버; 및 상기 외부 서버와 상기 시스템이 통신할 수 있는 통신장치;를 더 포함할 수 있다.
이때, 상기 통신장치는, V2X 통신을 이용하여 정보를 전송할 수 있다.
본 명세서는 발화자가 여러명이거나 여러 언어로 말하는 경우에도 자동으로 언어를 인식하여 대화할 수 있는 효과가 있다.
또한, 본 명세서는 발화자가 여러명이거나 여러 언어로 말하는 경우에도 각 대화의 콘텍스트를 파악하여 대화를 이어나갈 수 있는 효과가 있다.
또한, 본 명세서는 복수의 자동 음성 인식 모듈을 동시에 실행하여 지능형 대화를 위한 최적의 언어를 선택할 수 있는 효과가 있다.
또한, 본 명세서는 다양한 언어에 대한 콘텍스트 테이블을 이용하여 관리함으로써 보다 효율적으로 지능형 대화 서비스를 제공할 수 있는 효과가 있다.
본 명세서에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 명세서가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 명세서에서 제안하는 방법들이 적용될 수 있는 무선 통신 시스템의 블록 구성도를 예시한다.
도 2는 무선 통신 시스템에서 신호 송/수신 방법의 일 예를 나타낸다.
도 3은 5G 통신 시스템에서 자율 주행 차량과 5G 네트워크의 기본 동작의 일 예를 나타낸다.
도 4는 5G 통신을 이용한 차량 대 차량 간의 기본 동작의 일 예를 나타낸다.
도 5는 본 명세서가 적용될 수 있는 V2X 통신의 예시이다.
도 6은 V2X가 사용되는 사이드링크에서의 자원 할당 방법을 예시한다.
도 7은 PC5를 이용한 V2X 통신의 브로드캐스트 모드에 대한 절차를 예시하는 도면이다.
도 8은 고전적인 자연어 처리를 나타낸 도면이다.
도 9는 딥 러닝을 이용한 자연어 처리를 나타낸 도면이다.
도 10은 제1 실시예에 따른 지능형 대화 서비스 제공 방법을 나타낸 도면이다.
도 11은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 발화문을 텍스트로 변환하는 단계(S200)를 나타낸 도면이다.
도 12는 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 발화문을 텍스트로 변환하는 단계(S200)를 나타낸 도면이다.
도 13은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 텍스트의 인텐트(Intent)를 분석하는 단계(S300)를 나타낸 도면이다.
도 14는 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 텍스트의 인텐트(Intent)를 분석하는 단계(S300)를 나타낸 도면이다.
도 15는 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 텍스트의 인텐트(Intent)를 분석하는 단계(S300)를 적용한 예시이다.
도 16은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 텍스트의 의미를 해석하고 응답을 생성하는 단계(S400)를 나타낸 도면이다.
도 17은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 사용되는콘텍스트 테이블의 예시이다.
도 18은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 무선 통신을 이용하여 지능형 대화 서비스를 제공하는 방법을 나타낸 도면이다.
도 19는 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 제1 발화문의 콘텍스트를 이용하여 제2 발화문에 대한 응답을 생성하는 방법을 나타낸 도면이다.
도 20은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 신뢰값을 활용하여 발화문을 텍스트로 변환하는 예시를 나타낸 도면이다.
도 21은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 변환된 텍스트의 의미를 해석하고 그 응답을 생성하는 예시를 나타낸 도면이다.
도 22는 제2 실시예에 따른 차량용 지능형 대화 시스템을 나타낸다.
도 23은 제2 실시예에 따른 차량용 지능형 대화 시스템을 나타낸다.
도 24는 제2 실시예에 따른 차량용 지능형 대화 시스템이 차량에 설치된 예시이다.
도 25는 제2 실시예에 따른 외부 서버를 이용하는 차량용 지능형 대화 시스템을 나타낸다.
도 26은 제2 실시예에 따른 외부 서버를 이용하는 차량용 지능형 대화 시스템을 나타낸다.
본 명세서에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 명세서에 대한 실시예를 제공하고, 상세한 설명과 함께 본 명세서의 기술적 특징을 설명한다.
이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 명세서의 사상 및 기술 범위에 포함되는 모든 보충, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
A. UE 및 5G 네트워크 블록도 예시
도 1은 본 명세서에서 제안하는 방법들이 적용될 수 있는 무선 통신 시스템의 블록 구성도를 예시한다.
도 1을 참조하면, 자율 주행 모듈을 포함하는 장치(자율 주행 장치)를 제1 통신 장치로 정의(도 1의 910)하고, 프로세서(911)가 자율 주행 상세 동작을 수행할 수 있다.
자율 주행 장치와 통신하는 다른 차량을 포함하는 5G 네트워크를 제2 통신 장치로 정의(도 1의 920)하고, 프로세서(921)가 자율 주행 상세 동작을 수행할 수 있다.
5G 네트워크가 제 1 통신 장치로, 자율 주행 장치가 제 2 통신 장치로 표현될 수도 있다.
예를 들어, 상기 제 1 통신 장치 또는 상기 제 2 통신 장치는 기지국, 네트워크 노드, 전송 단말, 수신 단말, 무선 장치, 무선 통신 장치, 자율 주행 장치 등일 수 있다.
예를 들어, 단말 또는 UE(User Equipment)는 차량(vehicle), 휴대폰, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 디지털 방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 네비게이션, 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를 들어, 워치형 단말기 (smartwatch), 글래스형 단말기 (smart glass), HMD(head mounted display)) 등을 포함할 수 있다. 예를 들어, HMD는 머리에 착용하는 형태의 디스플레이 장치일 수 있다. 예를 들어, HMD는 VR, AR 또는 MR을 구현하기 위해 사용될 수 있다. 도 1을 참고하면, 제 1 통신 장치(910)와 제 2 통신 장치(920)은 프로세서(processor, 911,921), 메모리(memory, 914,924), 하나 이상의 Tx/Rx RF 모듈(radio frequency module, 915,925), Tx 프로세서(912,922), Rx 프로세서(913,923), 안테나 (916,926)를 포함한다. Tx/Rx 모듈은 트랜시버라고도 한다. 각각의 Tx/Rx 모듈(915)는 각각의 안테나 (926)을 통해 신호를 전송한다. 프로세서는 앞서 살핀 기능, 과정 및/또는 방법을 구현한다. 프로세서 (921)는 프로그램 코드 및 데이터를 저장하는 메모리 (924)와 관련될 수 있다. 메모리는 컴퓨터 판독 가능 매체로서 지칭될 수 있다. 보다 구체적으로, DL(제 1 통신 장치에서 제 2 통신 장치로의 통신)에서, 전송(TX) 프로세서(912)는 L1 계층(즉, 물리 계층)에 대한 다양한 신호 처리 기능을 구현한다. 수신(RX) 프로세서는 L1(즉, 물리 계층)의 다양한 신호 프로세싱 기능을 구현한다.
UL(제 2 통신 장치에서 제 1 통신 장치로의 통신)은 제 2 통신 장치(920)에서 수신기 기능과 관련하여 기술된 것과 유사한 방식으로 제 1 통신 장치(910)에서 처리된다. 각각의 Tx/Rx 모듈(925)는 각각의 안테나(926)을 통해 신호를 수신한다. 각각의 Tx/Rx 모듈은 RF 반송파 및 정보를 RX 프로세서(923)에 제공한다. 프로세서 (921)는 프로그램 코드 및 데이터를 저장하는 메모리 (924)와 관련될 수 있다. 메모리는 컴퓨터 판독 가능 매체로서 지칭될 수 있다.
B. 무선 통신 시스템에서 신호 송/수신 방법
도 2는 무선 통신 시스템에서 신호 송/수신 방법의 일례를 나타낸 도이다.
도 2를 참고하면, UE는 전원이 켜지거나 새로이 셀에 진입한 경우 BS와 동기를 맞추는 등의 초기 셀 탐색(initial cell search) 작업을 수행한다(S201). 이를 위해, UE는 BS로부터 1차 동기 채널(primary synchronization channel, P-SCH) 및 2차 동기 채널(secondary synchronization channel, S-SCH)을 수신하여 BS와 동기를 맞추고, 셀 ID 등의 정보를 획득할 수 있다. LTE 시스템과 NR 시스템에서 P-SCH와 S-SCH는 각각 1차 동기 신호(primary synchronization signal, PSS)와 2차 동기 신호(secondary synchronization signal, SSS)로 불린다. 초기 셀 탐색 후, UE는 BS로부터 물리 브로드캐스트 채널(physical broadcast channel, PBCH)를 수신하여 셀 내 브로드캐스트 정보를 획득할 수 있다. 한편, UE는 초기 셀 탐색 단계에서 하향링크 참조 신호(downlink reference Signal, DL RS)를 수신하여 하향링크 채널 상태를 확인할 수 있다. 초기 셀 탐색을 마친 UE는 물리 하향링크 제어 채널(physical downlink control channel, PDCCH) 및 상기 PDCCH에 실린 정보에 따라 물리 하향링크 공유 채널(physical downlink shared Channel, PDSCH)을 수신함으로써 좀더 구체적인 시스템 정보를 획득할 수 있다(S202).
한편, BS에 최초로 접속하거나 신호 전송을 위한 무선 자원이 없는 경우 UE는 BS에 대해 임의 접속 과정(random access procedure, RACH)을 수행할 수 있다(단계 S203 내지 단계 S206). 이를 위해, UE는 물리 임의 접속 채널(physical random access Channel, PRACH)을 통해 특정 시퀀스를 프리앰블로서 전송하고(S203 및 S205), PDCCH 및 대응하는 PDSCH를 통해 프리앰블에 대한 임의 접속 응답(random access response, RAR) 메시지를 수신할 수 있다(S204 및 S206). 경쟁 기반 RACH의 경우, 추가적으로 충돌 해결 과정(contention resolution procedure)를 수행할 수 있다.
상술한 바와 같은 과정을 수행한 UE는 이후 일반적인 상향링크/하향링크 신호 전송 과정으로서 PDCCH/PDSCH 수신(S207) 및 물리 상향링크 공유 채널(physical uplink shared Channel, PUSCH)/물리 상향링크 제어 채널(physical uplink control channel, PUCCH) 전송(S208)을 수행할 수 있다. 특히 UE는 PDCCH를 통하여 하향링크 제어 정보(downlink control information, DCI)를 수신한다. UE는 해당 탐색 공간 설정(configuration)들에 따라 서빙 셀 상의 하나 이상의 제어 요소 세트(control element set, CORESET)들에 설정된 모니터링 기회(occasion)들에서 PDCCH 후보(candidate)들의 세트를 모니터링한다. UE가 모니터할 PDCCH 후보들의 세트는 탐색 공간 세트들의 면에서 정의되며, 탐색 공간 세트는 공통 탐색 공간 세트 또는 UE-특정 탐색 공간 세트일 수 있다. CORESET은 1~3개 OFDM 심볼들의 시간 지속기간을 갖는 (물리) 자원 블록들의 세트로 구성된다. 네트워크는 UE가 복수의 CORESET들을 갖도록 설정할 수 있다. UE는 하나 이상의 탐색 공간 세트들 내 PDCCH 후보들을 모니터링한다. 여기서 모니터링이라 함은 탐색 공간 내 PDCCH 후보(들)에 대한 디코딩 시도하는 것을 의미한다. UE가 탐색 공간 내 PDCCH 후보들 중 하나에 대한 디코딩에 성공하면, 상기 UE는 해당 PDCCH 후보에서 PDCCH를 검출했다고 판단하고, 상기 검출된 PDCCH 내 DCI를 기반으로 PDSCH 수신 혹은 PUSCH 전송을 수행한다. PDCCH는 PDSCH 상의 DL 전송들 및 PUSCH 상의 UL 전송들을 스케줄링하는 데 사용될 수 있다. 여기서 PDCCH 상의 DCI는 하향링크 공유 채널과 관련된, 변조(modulation) 및 코딩 포맷과 자원 할당(resource allocation) 정보를 적어도 포함하는 하향링크 배정(assignment)(즉, downlink grant; DL grant), 또는 상향링크 공유 채널과 관련된, 변조 및 코딩 포맷과 자원 할당 정보를 포함하는 상향링크 그랜트(uplink grant; UL grant)를 포함한다.
도 2를 참고하여, 5G 통신 시스템에서의 초기 접속(Initial Access, IA) 절차에 대해 추가적으로 살펴본다.
UE는 SSB에 기반하여 셀 탐색(search), 시스템 정보 획득, 초기 접속을 위한 빔 정렬, DL 측정 등을 수행할 수 있다. SSB는 SS/PBCH(Synchronization Signal/Physical Broadcast channel) 블록과 혼용된다.
SSB는 PSS, SSS와 PBCH로 구성된다. SSB는 4개의 연속된 OFDM 심볼들에 구성되며, OFDM 심볼별로 PSS, PBCH, SSS/PBCH 또는 PBCH가 전송된다. PSS와 SSS는 각각 1개의 OFDM 심볼과 127개의 부반송파들로 구성되고, PBCH는 3개의 OFDM 심볼과 576개의 부반송파들로 구성된다.
셀 탐색은 UE가 셀의 시간/주파수 동기를 획득하고, 상기 셀의 셀 ID(Identifier)(예, Physical layer Cell ID, PCI)를 검출하는 과정을 의미한다. PSS는 셀 ID 그룹 내에서 셀 ID를 검출하는데 사용되고, SSS는 셀 ID 그룹을 검출하는데 사용된다. PBCH는 SSB (시간) 인덱스 검출 및 하프-프레임 검출에 사용된다.
336개의 셀 ID 그룹이 존재하고, 셀 ID 그룹 별로 3개의 셀 ID가 존재한다. 총 1008개의 셀 ID가 존재한다. 셀의 셀 ID가 속한 셀 ID 그룹에 관한 정보는 상기 셀의 SSS를 통해 제공/획득되며, 상기 셀 ID 내 336개 셀들 중 상기 셀 ID에 관한 정보는 PSS를 통해 제공/획득된다
SSB는 SSB 주기(periodicity)에 맞춰 주기적으로 전송된다. 초기 셀 탐색 시에 UE가 가정하는 SSB 기본 주기는 20ms로 정의된다. 셀 접속 후, SSB 주기는 네트워크(예, BS)에 의해 {5ms, 10ms, 20ms, 40ms, 80ms, 160ms} 중 하나로 설정될 수 있다.
다음으로, 시스템 정보 (system information; SI) 획득에 대해 살펴본다.
SI는 마스터 정보 블록(master information block, MIB)와 복수의 시스템 정보 블록(system information block, SIB)들로 나눠진다. MIB 외의 SI는 RMSI(Remaining Minimum System Information)으로 지칭될 수 있다. MIB는 SIB1(SystemInformationBlock1)을 나르는 PDSCH를 스케줄링하는 PDCCH의 모니터링을 위한 정보/파라미터를 포함하며 SSB의 PBCH를 통해 BS에 의해 전송된다. SIB1은 나머지 SIB들(이하, SIBx, x는 2 이상의 정수)의 가용성(availability) 및 스케줄링(예, 전송 주기, SI-윈도우 크기)과 관련된 정보를 포함한다. SIBx는 SI 메시지에 포함되며 PDSCH를 통해 전송된다. 각각의 SI 메시지는 주기적으로 발생하는 시간 윈도우(즉, SI-윈도우) 내에서 전송된다.
도 2를 참고하여, 5G 통신 시스템에서의 임의 접속(Random Access, RA) 과정에 대해 추가적으로 살펴본다.
임의 접속 과정은 다양한 용도로 사용된다. 예를 들어, 임의 접속 과정은 네트워크 초기 접속, 핸드오버, UE-트리거드(triggered) UL 데이터 전송에 사용될 수 있다. UE는 임의 접속 과정을 통해 UL 동기와 UL 전송 자원을 획득할 수 있다. 임의 접속 과정은 경쟁 기반(contention-based) 임의 접속 과정과 경쟁 프리(contention free) 임의 접속 과정으로 구분된다. 경쟁 기반의 임의 접속 과정에 대한 구체적인 절차는 아래와 같다.
UE가 UL에서 임의 접속 과정의 Msg1로서 임의 접속 프리앰블을 PRACH를 통해 전송할 수 있다. 서로 다른 두 길이를 가지는 임의 접속 프리앰블 시퀀스들이 지원된다. 긴 시퀀스 길이 839는 1.25 및 5 kHz의 부반송파 간격(subcarrier spacing)에 대해 적용되며, 짧은 시퀀스 길이 139는 15, 30, 60 및 120 kHz의 부반송파 간격에 대해 적용된다.
BS가 UE로부터 임의 접속 프리앰블을 수신하면, BS는 임의 접속 응답(random access response, RAR) 메시지(Msg2)를 상기 UE에게 전송한다. RAR을 나르는 PDSCH를 스케줄링하는 PDCCH는 임의 접속(random access, RA) 무선 네트워크 임시 식별자(radio network temporary identifier, RNTI)(RA-RNTI)로 CRC 마스킹되어 전송된다. RA-RNTI로 마스킹된 PDCCH를 검출한 UE는 상기 PDCCH가 나르는 DCI가 스케줄링하는 PDSCH로부터 RAR을 수신할 수 있다. UE는 자신이 전송한 프리앰블, 즉, Msg1에 대한 임의 접속 응답 정보가 상기 RAR 내에 있는지 확인한다. 자신이 전송한 Msg1에 대한 임의 접속 정보가 존재하는지 여부는 상기 UE가 전송한 프리앰블에 대한 임의 접속 프리앰블 ID가 존재하는지 여부에 의해 판단될 수 있다. Msg1에 대한 응답이 없으면, UE는 전력 램핑(power ramping)을 수행하면서 RACH 프리앰블을 소정의 횟수 이내에서 재전송할 수 있다. UE는 가장 최근의 경로 손실 및 전력 램핑 카운터를 기반으로 프리앰블의 재전송에 대한 PRACH 전송 전력을 계산한다.
상기 UE는 임의 접속 응답 정보를 기반으로 상향링크 공유 채널 상에서 UL 전송을 임의 접속 과정의 Msg3로서 전송할 수 있다. Msg3은 RRC 연결 요청 및 UE 식별자를 포함할 수 있다. Msg3에 대한 응답으로서, 네트워크는 Msg4를 전송할 수 있으며, 이는 DL 상에서의 경쟁 해결 메시지로 취급될 수 있다. Msg4를 수신함으로써, UE는 RRC 연결된 상태에 진입할 수 있다.
C. 5G 통신 시스템의 빔 관리(Beam Management, BM) 절차
BM 과정은 (1) SSB 또는 CSI-RS를 이용하는 DL BM 과정과, (2) SRS(sounding reference signal)을 이용하는 UL BM 과정으로 구분될 수 있다. 또한, 각 BM 과정은 Tx 빔을 결정하기 위한 Tx 빔 스위핑과 Rx 빔을 결정하기 위한 Rx 빔 스위핑을 포함할 수 있다.
SSB를 이용한 DL BM 과정에 대해 살펴본다.
SSB를 이용한 빔 보고(beam report)에 대한 설정은 RRC_CONNECTED에서 채널 상태 정보(channel state information, CSI)/빔 설정 시에 수행된다.
- UE는 BM을 위해 사용되는 SSB 자원들에 대한 CSI-SSB-ResourceSetList를 포함하는 CSI-ResourceConfig IE를 BS로부터 수신한다. RRC 파라미터 csi-SSB-ResourceSetList는 하나의 자원 세트에서 빔 관리 및 보고을 위해 사용되는 SSB 자원들의 리스트를 나타낸다. 여기서, SSB 자원 세트는 {SSBx1, SSBx2, SSBx3, SSBx4, 쪋}으로 설정될 수 있다. SSB 인덱스는 0부터 63까지 정의될 수 있다.
- UE는 상기 CSI-SSB-ResourceSetList에 기초하여 SSB 자원들 상의 신호들을 상기 BS로부터 수신한다.
- SSBRI 및 참조 신호 수신 전력(reference signal received power, RSRP)에 대한 보고와 관련된 CSI-RS reportConfig가 설정된 경우, 상기 UE는 최선(best) SSBRI 및 이에 대응하는 RSRP를 BS에게 보고한다. 예를 들어, 상기 CSI-RS reportConfig IE의 reportQuantity가 'ssb-Index-RSRP'로 설정된 경우, UE는 BS으로 최선 SSBRI 및 이에 대응하는 RSRP를 보고한다.
UE는 SSB와 동일한 OFDM 심볼(들)에 CSI-RS 자원이 설정되고, 'QCL-TypeD'가 적용 가능한 경우, 상기 UE는 CSI-RS와 SSB가 'QCL-TypeD' 관점에서 유사 동일 위치된(quasi co-located, QCL) 것으로 가정할 수 있다. 여기서, QCL-TypeD는 공간(spatial) Rx 파라미터 관점에서 안테나(111) 포트들 간에 QCL되어 있음을 의미할 수 있다. UE가 QCL-TypeD 관계에 있는 복수의 DL 안테나(111) 포트들의 신호들을 수신 시에는 동일한 수신 빔을 적용해도 무방하다.
다음으로, CSI-RS를 이용한 DL BM 과정에 대해 살펴본다.
CSI-RS를 이용한 UE의 Rx 빔 결정(또는 정제(refinement)) 과정과 BS의 Tx 빔 스위핑 과정에 대해 차례대로 살펴본다. UE의 Rx 빔 결정 과정은 반복 파라미터가 'ON'으로 설정되며, BS의 Tx 빔 스위핑 과정은 반복 파라미터가 'OFF'로 설정된다.
먼저, UE의 Rx 빔 결정 과정에 대해 살펴본다.
- UE는 'repetition'에 관한 RRC 파라미터를 포함하는 NZP CSI-RS resource set IE를 RRC 시그널링을 통해 BS로부터 수신한다. 여기서, 상기 RRC 파라미터 'repetition'이 'ON'으로 세팅되어 있다.
- UE는 상기 RRC 파라미터 'repetition'이 'ON'으로 설정된 CSI-RS 자원 세트 내의 자원(들) 상에서의 신호들을 BS의 동일 Tx 빔(또는 DL 공간 도메인 전송 필터)을 통해 서로 다른 OFDM 심볼에서 반복 수신한다.
- UE는 자신의 Rx 빔을 결정한다.
- UE는 CSI 보고를 생략한다. 즉, UE는 상가 RRC 파라미터 'repetition'이 'ON'으로 설정된 경우, CSI 보고를 생략할 수 있다.
다음으로, BS의 Tx 빔 결정 과정에 대해 살펴본다.
- UE는 'repetition'에 관한 RRC 파라미터를 포함하는 NZP CSI-RS resource set IE를 RRC 시그널링을 통해 BS로부터 수신한다. 여기서, 상기 RRC 파라미터 'repetition'이 'OFF'로 세팅되어 있으며, BS의 Tx 빔 스위핑 과정과 관련된다.
- UE는 상기 RRC 파라미터 'repetition'이 'OFF'로 설정된 CSI-RS 자원 세트 내의 자원들 상에서의 신호들을 BS의 서로 다른 Tx 빔(DL 공간 도메인 전송 필터)을 통해 수신한다.
- UE는 최상의(best) 빔을 선택(또는 결정)한다.
- UE는 선택된 빔에 대한 ID(예, CRI) 및 관련 품질 정보(예, RSRP)를 BS으로 보고한다. 즉, UE는 CSI-RS가 BM을 위해 전송되는 경우 CRI와 이에 대한 RSRP를 BS으로 보고한다.
다음으로, SRS를 이용한 UL BM 과정에 대해 살펴본다.
- UE는 'beam management'로 설정된 (RRC 파라미터) 용도 파라미터를 포함하는 RRC 시그널링(예, SRS-Config IE)를 BS로부터 수신한다. SRS-Config IE는 SRS 전송 설정을 위해 사용된다. SRS-Config IE는 SRS-Resources의 리스트와 SRS-ResourceSet들의 리스트를 포함한다. 각 SRS 자원 세트는 SRS-resource들의 세트를 의미한다.
- UE는 상기 SRS-Config IE에 포함된 SRS-SpatialRelation Info에 기초하여 전송할 SRS 자원에 대한 Tx 빔포밍을 결정한다. 여기서, SRS-SpatialRelation Info는 SRS 자원별로 설정되고, SRS 자원별로 SSB, CSI-RS 또는 SRS에서 사용되는 빔포밍과 동일한 빔포밍을 적용할지를 나타낸다.
- 만약 SRS 자원에 SRS-SpatialRelationInfo가 설정되면 SSB, CSI-RS 또는 SRS에서 사용되는 빔포밍과 동일한 빔포밍을 적용하여 전송한다. 하지만, SRS 자원에 SRS-SpatialRelationInfo가 설정되지 않으면, 상기 UE는 임의로 Tx 빔포밍을 결정하여 결정된 Tx 빔포밍을 통해 SRS를 전송한다.
다음으로, 빔 실패 복구(beam failure recovery, BFR) 과정에 대해 살펴본다.
빔포밍된 시스템에서, RLF(Radio Link Failure)는 UE의 회전(rotation), 이동(movement) 또는 빔포밍 블로키지(blockage)로 인해 자주 발생할 수 있다. 따라서, 잦은 RLF가 발생하는 것을 방지하기 위해 BFR이 NR에서 지원된다. BFR은 무선 링크 실패 복구 과정과 유사하고, UE가 새로운 후보 빔(들)을 아는 경우에 지원될 수 있다. 빔 실패 검출을 위해, BS는 UE에게 빔 실패 검출 참조 신호들을 설정하고, 상기 UE는 상기 UE의 물리 계층으로부터의 빔 실패 지시(indication)들의 횟수가 BS의 RRC 시그널링에 의해 설정된 기간(period) 내에 RRC 시그널링에 의해 설정된 임계치(threshold)에 이르면(reach), 빔 실패를 선언(declare)한다. 빔 실패가 검출된 후, 상기 UE는 PCell 상의 임의 접속 과정을 개시(initiate)함으로써 빔 실패 복구를 트리거하고; 적절한(suitable) 빔을 선택하여 빔 실패 복구를 수행한다(BS가 어떤(certain) 빔들에 대해 전용 임의 접속 자원들을 제공한 경우, 이들이 상기 UE에 의해 우선화된다). 상기 임의 접속 절차의 완료(completion) 시, 빔 실패 복구가 완료된 것으로 간주된다.
D. URLLC (Ultra-Reliable and Low Latency Communication)
NR에서 정의하는 URLLC 전송은 (1) 상대적으로 낮은 트래픽 크기, (2) 상대적으로 낮은 도착 레이트(low arrival rate), (3) 극도의 낮은 레이턴시 요구사항(requirement)(예, 0.5, 1ms), (4) 상대적으로 짧은 전송 지속기간(duration)(예, 2 OFDM symbols), (5) 긴급한 서비스/메시지 등에 대한 전송을 의미할 수 있다. UL의 경우, 보다 엄격(stringent)한 레이턴시 요구 사항(latency requirement)을 만족시키기 위해 특정 타입의 트래픽(예컨대, URLLC)에 대한 전송이 앞서서 스케줄링된 다른 전송(예컨대, eMBB)과 다중화(multiplexing)되어야 할 필요가 있다. 이와 관련하여 한 가지 방안으로, 앞서 스케줄링 받은 UE에게 특정 자원에 대해서 프리엠션(preemption)될 것이라는 정보를 주고, 해당 자원을 URLLC UE가 UL 전송에 사용하도록 한다.
NR의 경우, eMBB와 URLLC 사이의 동적 자원 공유(sharing)이 지원된다. eMBB와 URLLC 서비스들은 비-중첩(non-overlapping) 시간/주파수 자원들 상에서 스케줄될 수 있으며, URLLC 전송은 진행 중인(ongoing) eMBB 트래픽에 대해 스케줄된 자원들에서 발생할 수 있다. eMBB UE는 해당 UE의 PDSCH 전송이 부분적으로 펑처링(puncturing)되었는지 여부를 알 수 없을 수 있고, 손상된 코딩된 비트(corrupted coded bit)들로 인해 UE는 PDSCH를 디코딩하지 못할 수 있다. 이 점을 고려하여, NR에서는 프리엠션 지시(preemption indication)을 제공한다. 상기 프리엠션 지시(preemption indication)는 중단된 전송 지시(interrupted transmission indication)으로 지칭될 수도 있다.
프리엠션 지시와 관련하여, UE는 BS로부터의 RRC 시그널링을 통해 DownlinkPreemption IE를 수신한다. UE가 DownlinkPreemption IE를 제공받으면, DCI 포맷 2_1을 운반(convey)하는 PDCCH의 모니터링을 위해 상기 UE는 DownlinkPreemption IE 내 파라미터 int-RNTI에 의해 제공된 INT-RNTI를 가지고 설정된다. 상기 UE는 추가적으로 servingCellID에 의해 제공되는 서빙 셀 인덱스들의 세트를 포함하는 INT-ConfigurationPerServing Cell에 의해 서빙 셀들의 세트와 positionInDCI에 의해 DCI 포맷 2_1 내 필드들을 위한 위치들의 해당 세트를 가지고 설정되고, dci-PayloadSize에 의해 DCI 포맷 2_1을 위한 정보 페이로드 크기를 가지고 설졍되며, timeFrequencySect에 의한 시간-주파수 자원들의 지시 입도(granularity)를 가지고 설정된다.
상기 UE는 상기 DownlinkPreemption IE에 기초하여 DCI 포맷 2_1을 상기 BS로부터 수신한다.
UE가 서빙 셀들의 설정된 세트 내 서빙 셀에 대한 DCI 포맷 2_1을 검출하면, 상기 UE는 상기 DCI 포맷 2_1이 속한 모니터링 기간의 바로 앞(last) 모니터링 기간의 PRB들의 세트 및 심볼들의 세트 중 상기 DCI 포맷 2_1에 의해 지시되는 PRB들 및 심볼들 내에는 상기 UE로의 아무런 전송도 없다고 가정할 수 있다. 예를 들어, UE는 프리엠션에 의해 지시된 시간-주파수 자원 내 신호는 자신에게 스케줄링된 DL 전송이 아니라고 보고 나머지 자원 영역에서 수신된 신호들을 기반으로 데이터를 디코딩한다.
E. mMTC (massive MTC)
mMTC(massive Machine Type Communication)은 많은 수의 UE와 동시에 통신하는 초연결 서비스를 지원하기 위한 5G의 시나리오 중 하나이다. 이 환경에서, UE는 굉장히 낮은 전송 속도와 이동성을 가지고 간헐적으로 통신하게 된다. 따라서, mMTC는 UE를 얼마나 낮은 비용으로 오랫동안 구동할 수 있는지를 주요 목표로 하고 있다. mMTC 기술과 관련하여 3GPP에서는 MTC와 NB(NarrowBand)-IoT를 다루고 있다.
mMTC 기술은 PDCCH, PUCCH, PDSCH(physical downlink shared channel), PUSCH 등의 반복 전송, 주파수 호핑(hopping), 리튜닝(retuning), 가드 구간(guard period) 등의 특징을 가진다.
즉, 특정 정보를 포함하는 PUSCH(또는 PUCCH(특히, long PUCCH) 또는 PRACH) 및 특정 정보에 대한 응답을 포함하는 PDSCH(또는 PDCCH)가 반복 전송된다. 반복 전송은 주파수 호핑(frequency hopping)을 통해 수행되며, 반복 전송을 위해, 제 1 주파수 자원에서 제 2 주파수 자원으로 가드 구간(guard period)에서 (RF) 리튜닝(retuning)이 수행되고, 특정 정보 및 특정 정보에 대한 응답은 협대역(narrowband)(ex. 6 RB (resource block) or 1 RB)를 통해 송/수신될 수 있다.
F. 5G 통신을 이용한 자율 주행 차량 간 기본 동작
도 3은 5G 통신 시스템에서 자율 주행 차량과 5G 네트워크의 기본 동작의 일 예를 나타낸다.
자율 주행 차량(Autonomous Vehicle)은 특정 정보 전송을 5G 네트워크로 전송한다(S1). 상기 특정 정보는 자율 주행 관련 정보를 포함할 수 있다. 그리고, 상기 5G 네트워크는 차량의 원격 제어 여부를 결정할 수 있다(S2). 여기서, 상기 5G 네트워크는 자율 주행 관련 원격 제어를 수행하는 서버 또는 모듈을 포함할 수 있다. 그리고, 상기 5G 네트워크는 원격 제어와 관련된 정보(또는 신호)를 상기 자율 주행 차량으로 전송할 수 있다(S3).
G. 5G 통신 시스템에서 자율 주행 차량과 5G 네트워크 간의 응용 동작
이하, 도 1 및 도 2와 앞서 살핀 무선 통신 기술(BM 절차, URLLC, Mmtc 등)을 참고하여 5G 통신을 이용한 자율 주행 차량의 동작에 대해 보다 구체적으로 살펴본다.
먼저, 후술할 본 명세서에서 제안하는 방법과 5G 통신의 eMBB 기술이 적용되는 응용 동작의 기본 절차에 대해 설명한다.
도 3의 S1 단계 및 S3 단계와 같이, 자율 주행 차량이 5G 네트워크와 신호, 정보 등을 송/수신하기 위해, 자율 주행 차량은 도 3의 S1 단계 이전에 5G 네트워크와 초기 접속(initial access) 절차 및 임의 접속(random access) 절차를 수행한다.
보다 구체적으로, 자율 주행 차량은 DL 동기 및 시스템 정보를 획득하기 위해 SSB에 기초하여 5G 네트워크와 초기 접속 절차를 수행한다. 상기 초기 접속 절차 과정에서 빔 관리(beam management, BM) 과정, 빔 실패 복구(beam failure recovery) 과정이 추가될 수 있으며, 자율 주행 차량이 5G 네트워크로부터 신호를 수신하는 과정에서 QCL(quasi-co location) 관계가 추가될 수 있다.
또한, 자율 주행 차량은 UL 동기 획득 및/또는 UL 전송을 위해 5G 네트워크와 임의 접속 절차를 수행한다. 그리고, 상기 5G 네트워크는 상기 자율 주행 차량으로 특정 정보의 전송을 스케쥴링하기 위한 UL grant를 전송할 수 있다. 따라서, 상기 자율 주행 차량은 상기 UL grant에 기초하여 상기 5G 네트워크로 특정 정보를 전송한다. 그리고, 상기 5G 네트워크는 상기 자율 주행 차량으로 상기 특정 정보에 대한 5G 프로세싱 결과의 전송을 스케쥴링하기 위한 DL grant를 전송한다. 따라서, 상기 5G 네트워크는 상기 DL grant에 기초하여 상기 자율 주행 차량으로 원격 제어와 관련된 정보(또는 신호)를 전송할 수 있다.
다음으로, 후술할 본 명세서에서 제안하는 방법과 5G 통신의 URLLC 기술이 적용되는 응용 동작의 기본 절차에 대해 설명한다.
앞서 설명한 바와 같이, 자율 주행 차량은 5G 네트워크와 초기 접속 절차 및/또는 임의 접속 절차를 수행한 후, 자율 주행 차량은 5G 네트워크로부터 DownlinkPreemption IE를 수신할 수 있다. 그리고, 자율 주행 차량은 DownlinkPreemption IE에 기초하여 프리엠션 지시(pre-emption indication)을 포함하는 DCI 포맷 2_1을 5G 네트워크로부터 수신한다. 그리고, 자율 주행 차량은 프리엠션 지시(pre-emption indication)에 의해 지시된 자원(PRB 및/또는 OFDM 심볼)에서 eMBB data의 수신을 수행(또는 기대 또는 가정)하지 않는다. 이후, 자율 주행 차량은 특정 정보를 전송할 필요가 있는 경우 5G 네트워크로부터 UL grant를 수신할 수 있다.
다음으로, 후술할 본 명세서에서 제안하는 방법과 5G 통신의 mMTC 기술이 적용되는 응용 동작의 기본 절차에 대해 설명한다.
도 3의 단계들 중 mMTC 기술의 적용으로 달라지는 부분 위주로 설명하기로 한다.
도 3의 S1 단계에서, 자율 주행 차량은 특정 정보를 5G 네트워크로 전송하기 위해 5G 네트워크로부터 UL grant를 수신한다. 여기서, 상기 UL grant는 상기 특정 정보의 전송에 대한 반복 횟수에 대한 정보를 포함하고, 상기 특정 정보는 상기 반복 횟수에 대한 정보에 기초하여 반복하여 전송될 수 있다. 즉, 상기 자율 주행 차량은 상기 UL grant에 기초하여 특정 정보를 5G 네트워크로 전송한다. 그리고, 특정 정보의 반복 전송은 주파수 호핑을 통해 수행되고, 첫 번째 특정 정보의 전송은 제 1 주파수 자원에서, 두 번째 특정 정보의 전송은 제 2 주파수 자원에서 전송될 수 있다. 상기 특정 정보는 6RB(Resource Block) 또는 1RB(Resource Block)의 협대역(narrowband)을 통해 전송될 수 있다.
H. 5G 통신을 이용한 차량 대 차량 간의 자율 주행 동작
도 4는 5G 통신을 이용한 차량 대 차량 간의 기본 동작의 일 예를 예시한다.
제1 차량은 특정 정보를 제2 차량으로 전송한다(S61). 제2 차량은 특정 정보에 대한 응답을 제1 차량으로 전송한다(S62).
한편, 5G 네트워크가 상기 특정 정보, 상기 특정 정보에 대한 응답의 자원 할당에 직접적(사이드 링크 통신 전송 모드 3) 또는 간접적으로(사이드링크 통신 전송 모드 4) 관여하는지에 따라 차량 대 차량 간 응용 동작의 구성이 달라질 수 있다.
다음으로, 5G 통신을 이용한 차량 대 차량 간의 응용 동작에 대해 살펴본다.
먼저, 5G 네트워크가 차량 대 차량 간의 신호 전송/수신의 자원 할당에 직접적으로 관여하는 방법을 설명한다.
5G 네트워크는, 모드 3 전송(PSCCH 및/또는 PSSCH 전송)의 스케줄링을 위해 DCI 포맷 5A를 제1 차량에 전송할 수 있다. 여기서, PSCCH(physical sidelink control channel)는 특정 정보 전송의 스케줄링을 위한 5G 물리 채널이고, PSSCH(physical sidelink shared channel)는 특정 정보를 전송하는 5G 물리 채널이다. 그리고, 제1 차량은 특정 정보 전송의 스케줄링을 위한 SCI 포맷 1을 PSCCH 상에서 제2 차량으로 전송한다. 그리고, 제1 차량이 특정 정보를 PSSCH 상에서 제2 차량으로 전송한다.
다음으로, 5G 네트워크가 신호 전송/수신의 자원 할당에 간접적으로 관여하는 방법에 대해 살펴본다.
제1 차량은 모드 4 전송을 위한 자원을 제1 윈도우에서 센싱한다. 그리고, 제1 차량은, 상기 센싱 결과에 기초하여 제2 윈도우에서 모드 4 전송을 위한 자원을 선택한다. 여기서, 제1 윈도우는 센싱 윈도우(sensing window)를 의미하고, 제2 윈도우는 선택 윈도우(selection window)를 의미한다. 제1 차량은 상기 선택된 자원을 기초로 특정 정보 전송의 스케줄링을 위한 SCI 포맷 1을 PSCCH 상에서 제2 차량으로 전송한다. 그리고, 제1 차량은 특정 정보를 PSSCH 상에서 제2 차량으로 전송한다.
V2X (Vehicle-to-Everything)
도 5는 본 명세서가 적용될 수 있는 V2X 통신의 예시이다.
V2X 통신은 차량 사이의 통신(communication between vehicles)을 지칭하는 V2V(Vehicle-to-Vehicle), 차량과 eNB 또는 RSU(Road Side Unit) 사이의 통신을 지칭하는 V2I(Vehicle to Infrastructure), 차량 및 개인(보행자, 자전거 운전자, 차량 운전자 또는 승객)이 소지하고 있는 UE 간 통신을 지칭하는 V2P(Vehicle-to-Pedestrian), V2N(vehicle-to-network) 등 차량과 모든 개체들 간 통신을 포함한다.
V2X 통신은 V2X 사이드링크 또는 NR V2X와 동일한 의미를 나타내거나 또는 V2X 사이드링크 또는 NR V2X를 포함하는 보다 넓은 의미를 나타낼 수 있다.
V2X 통신은 예를 들어, 전방 충돌 경고, 자동 주차 시스템, 협력 조정형 크루즈 컨트롤(Cooperative adaptive cruise control: CACC), 제어 상실 경고, 교통행렬 경고, 교통 취약자 안전 경고, 긴급 차량 경보, 굽은 도로 주행 시 속도 경고, 트래픽 흐름 제어 등 다양한 서비스에 적용 가능하다.
V2X 통신은 PC5 인터페이스 및/또는 Uu 인터페이스를 통해 제공될 수 있다. 이 경우, V2X 통신을 지원하는 무선 통신 시스템에는, 상기 차량과 모든 개체들 간의 통신을 지원하기 위한 특정 네트워크 개체(network entity)들이 존재할 수 있다. 예를 들어, 상기 네트워크 개체는, BS(eNB), RSU(road side unit), UE, 또는 어플리케이션 서버(application server)(예, 교통 안전 서버(traffic safety server)) 등일 수 있다.
또한, V2X 통신을 수행하는 UE는, 일반적인 휴대용 UE(handheld UE)뿐만 아니라, 차량 UE(V-UE(Vehicle UE)), 보행자 UE(pedestrian UE), BS 타입(eNB type)의 RSU, 또는 UE 타입(UE type)의 RSU, 통신 모듈을 구비한 로봇 등을 의미할 수 있다.
V2X 통신은 UE들 간에 직접 수행되거나, 상기 네트워크 개체(들)를 통해 수행될 수 있다. 이러한 V2X 통신의 수행 방식에 따라 V2X 동작 모드가 구분될 수 있다.
V2X 통신은, 사업자(operator) 또는 제3자가 V2X가 지원되는 지역 내에서 UE 식별자를 트랙킹할 수 없도록, V2X 어플리케이션의 사용 시에 UE의 익명성(pseudonymity) 및 개인보호(privacy)를 지원할 것이 요구된다.
V2X 통신에서 자주 사용되는 용어는 다음과 같이 정의된다.
- RSU (Road Side Unit): RSU는 V2I 서비스를 사용하여 이동 차량과 전송/수신 할 수 있는 V2X 서비스 가능 장치이다. 또한, RSU는 V2X 어플리케이션을 지원하는 고정 인프라 엔터티로서, V2X 어플리케이션을 지원하는 다른 엔터티와 메시지를 교환할 수 있다. RSU는 기존 ITS 스펙에서 자주 사용되는 용어이며, 3GPP 스펙에 이 용어를 도입한 이유는 ITS 산업에서 문서를 더 쉽게 읽을 수 있도록 하기 위해서이다. RSU는 V2X 어플리케이션 로직을 BS(BS-타입 RSU라고 함) 또는 UE(UE-타입 RSU라고 함)의 기능과 결합하는 논리적 엔티티이다.
- V2I 서비스: V2X 서비스의 일 타입으로, 한 쪽은 차량(vehicle)이고 다른 쪽은 기반시설(infrastructure)에 속하는 엔티티.
- V2P 서비스: V2X 서비스의 일 타입으로, 한 쪽은 차량이고, 다른 쪽은 개인이 휴대하는 기기(예, 보행자, 자전거 타는 사람, 운전자 또는 동승자가 휴대하는 휴대용 UE기).
- V2X 서비스: 차량에 전송 또는 수신 장치가 관계된 3GPP 통신 서비스 타입.
- V2X 가능(enabled) UE: V2X 서비스를 지원하는 UE.
- V2V 서비스: V2X 서비스의 타입으로, 통신의 양쪽 모두 차량이다.
- V2V 통신 범위: V2V 서비스에 참여하는 두 차량 간의 직접 통신 범위.
V2X(Vehicle-to-Everything)라고 불리는 V2X 어플리케이션은 살핀 것처럼, (1) 차량 대 차량 (V2V), (2) 차량 대 인프라 (V2I), (3) 차량 대 네트워크 (V2N), (4) 차량 대 보행자 (V2P)의 4가지 타입이 있다.
도 6은 V2X가 사용되는 사이드링크에서의 자원 할당 방법을 예시한다.
사이드링크에서는 서로 다른 사이드링크 제어 채널(physical sidelink control channel, PSCCH)들이 주파수 도메인에서 이격되어 할당되고 서로 다른 사이드링크 공유 채널(physical sidelink shared channel, PSSCH)들이 이격되어 할당될 수 있다. 또는, 서로 다른 PSCCH들이 주파수 도메인에서 연속하여 할당되고, PSSCH들도 주파수 도메인에서 연속하여 할당될 수도 있다.
NR V2X
3GPP 릴리즈 14 및 15 동안 자동차 산업으로 3GPP 플랫폼을 확장하기 위해, LTE에서 V2V 및 V2X 서비스에 대한 지원이 소개되었다.
개선된(enhanced) V2X 사용 예(use case)에 대한 지원을 위한 요구사항(requirement)들은 크게 4개의 사용 예 그룹들로 정리된다.
(1) 차량 플래투닝 (vehicle Platooning)은 차량들이 함께 움직이는 플래툰(platoon)을 동적으로 형성할 수 있게 한다. 플래툰의 모든 차량은 이 플래툰을 관리하기 위해 선두 차량으로부터 정보를 얻는다. 이러한 정보는 차량이 정상 방향보다 조화롭게 운전되고, 같은 방향으로 가고 함께 운행할 수 있게 한다.
(2) 확장된 센서(extended sensor)들은 차량, 도로 사이트 유닛(road site unit), 보행자 장치(pedestrian device) 및 V2X 어플리케이션 서버에서 로컬 센서 또는 동영상 이미지(live video image)를 통해 수집된 원시(raw) 또는 처리된 데이터를 교환할 수 있게 한다. 차량은 자신의 센서가 감지할 수 있는 것 이상으로 환경에 대한 인식을 높일 수 있으며, 지역 상황을 보다 광범위하고 총체적으로 파악할 수 있다. 높은 데이터 전송 레이트가 주요 특징 중 하나이다.
(3) 진화된 운전(advanced driving)은 반-자동 또는 완전-자동 운전을 가능하게 한다. 각 차량 및/또는 RSU는 로컬 센서에서 얻은 자체 인식 데이터를 근접 차량과 공유하고, 차량이 궤도(trajectory) 또는 기동(manoeuvre)을 동기화 및 조정할 수 있게 한다. 각 차량은 근접 운전 차량과 운전 의도를 공유한다.
(4) 원격 운전(remote driving)은 원격 운전자 또는 V2X 어플리케이션이 스스로 또는 위험한 환경에 있는 원격 차량으로 주행 할 수 없는 승객을 위해 원격 차량을 운전할 수 있게 한다. 변동이 제한적이고, 대중 교통과 같이 경로를 예측할 수 있는 경우, 클라우드 컴퓨팅을 기반으로 한 운전을 사용할 수 있다. 높은 신뢰성과 낮은 대기 시간이 주요 요구 사항이다.
PC5를 통해 V2X 통신을 하기위한 식별자
각 단말은 하나 이상의 PC5를 통해 V2통신을 하기 위한 Layer-2 식별자를 갖는다. 이는 소스(source) Layer-2 ID 와 목적지(Destination) Layer-2 ID를 포함한다.
소스 및 목적지 Layer-2 ID는 Layer-2 프레임에 포함되며, Layer-2 프레임은 프레임상의 Layer-2의 소스 및 목적지를 식별하는 PC5의 layer-2 링크를 통해 전송된다.
단말의 소스 및 목적지 Layer-2 ID 선택은 layer-2 링크의 PC5의 V2X 통신의 통신모드에 근거한다. 소스 Layer-2 ID는 다른 통신모드간에 다를 수 있다.
IP 기반의 V2X 통신이 허용되는 경우, 단말은 링크 로컬 IPv6 주소를 소스 IP 주소로 사용하도록 설정한다. 단말은 중복주소 탐색을 위한 Neighbor Solicitation and Neighbor Advertisement 메시지를 보내지 않고도, PC5의 V2X 통신을 위해 이 IP 주소를 사용할 수 있다.
일 단말이 현재 지리적 영역에서 지원되는 개인정보 보호가 요구되는 활성화 된 V2X application을 갖는다면, 소스 단말(예를 들어, 차량)이 추적당하거나 특정시간 동안만 다른 단말로부터 식별되기 위해, 소스 Layer-2 ID는 시간이 지남에 따라 보충되고, 무작위화 될 수 있다. IP 기반의 V2X 통신의 경우, 소스 IP 주소도 시간이 지남에 따라 보충되어야 하고, 무작위화 되어야 한다.
소스 단말의 식별자들의 보충은 PC5에 사용되는 계층에서 동기화되어야 한다. 즉, 어플리케이션 계층 식별자가 보충된다면, 소스 Layer-2 ID 와 소스 IP 주소의 보충도 요구된다.
브로드캐스트 모드(Broadcast mode)
도 7는 PC5를 이용한 V2X 통신의 브로드캐스트 모드에 대한 절차를 예시하는 도면이다.
1. 수신 단말은 브로드캐스트 수신을 위한 목적지(destination) Layer-2 ID를 결정한다. 목적지 Layer-2 ID는 수신을 위해, 수신 단말의 AS 계층으로 전달된다.
2. 송신 단말의 V2X application layer는 데이터 유닛을 제공하고, V2X 어플리케이션 요구사항(Application Requirements)을 제공할 수 있다.
3. 송신 단말은 브로드캐스트를 위한, 목적지 Layer-2 ID를 결정한다. 송신 단말은 소스(source) Layer-2 ID를 자체 할당한다.
4. 송신 단말이 전송하는 하나의 브로드캐스트 메시지는 소스 Layer-2 ID 와 목적지 Layer-2 ID를 이용하여, V2X 서비스 데이터를 전송한다.
고전적인 자연어 처리(Natural Language Processing)
도 8은 고전적인 자연어 처리를 나타낸 도면이다.
자연어(Natural Language)란, 한국어, 영어 등과 같이 인간사회의 형성과 함께 자연발생적으로 생겨나고 진화하고 의사소통을 행하기 위한 수단으로서 사용되고 있는 언어를 의미한다. 이러한 자연어를 가공 및 처리하는 것을 자연어 처리(Natural Language Processing)라고 한다.
자연어 처리는, 자연어 이해(Natural Language Understanding), 자연어 생성(Natural Language Generation), 기계 번역(Machine Translation), 질의 응답 시스템(Question Answering System), 전산 언어학(Computational Linguistics), 음성 인식(Speech Recognition), 음성 합성(Speech Systhesis), 음성 이해(Speech Understanding), 정보 검색(Information Retrieval), 문서 분류(Text Categorization), 텍스트 마이닝(Text Mining) 등의 여러분야를 포함할 수 있다.
도 8에 따르면, 고전적인 자연어 처리는 (1) 전처리(Pre-processing), (2) 모델링(modeling), (3) 출력(Output) 등으로 구분될 수 있다.
도 8에 따르면, 상기 전처리는, 해당 언어의 특성에 맞게 텍스트를 가공하여 그 특징을 추출하기 용이하도록 처리하는 프로세싱을 말할 수 있다. 즉, 상기 전처리 프로세싱은 ① 토큰화(Tokenizatoin) 단계, ② 포스 태깅(PoS Tagging) 단계 및 ③ 스탑워드 제거(Stopword Removal) 단계 등을 포함할 수 있다.
토큰화 단계는 텍스트를 문서, 문단, 문장 등의 기본 단위로 구분하는 작업을 의미할 수 있다. 이는 언어의 특징에 따라 서로 달라질 수 있다. 일 예로, 중국어의 경우는 띄어쓰기가 없고 한국어의 경우 띄어쓰기 규칙을 잘 지키지 않는 경향이 존재하는 등의 차이가 존재할 수 있다.
포스 태깅 단계는 상기 토큰화 단계에서 토큰으로 구분된 단어를 품사로 매칭하는 단계를 말할 수 있다. 동일한 단어라도 명사인지, 동사인지, 형용사인지에 따라서 중요도나 의미가 달라질 수 있기 때문이다.
스탑워드 제거(Stopword Removal) 단계는 불용어(Stopword)를 제거하는 것을 말할 수 있다. 불용어란, 텍스트에서 큰 의미를 가지지 않는 것들을 의미할 수 있다. 일 예시로, 영어의 경우는 it, there 등과 같은 대명사를 의미할 수 있다.
도 8에 따르면, 상기 모델링은, 상기 전처리된 텍스트의 특징을 추출하여 원하는 결과를 도출하기 위한 프로세싱을 말할 수 있다. 즉, 상기 모델링 프로세싱은, ① 특징 추출(Feature Extraction) 단계, ② 특징들을 모델링(Modeling)하는 단계, 및 ③ 특징들을 바탕으로 의미를 추론(Inference)하는 단계를 포함할 수 있다.
도 8에 따르면, 상기 출력은, ① 정서(sentiment), ② 분류(Classification), ③ 엔티티(Entity) 추출, ④ 번역(Translation), ⑤ 토픽 모델링(Topic Modeling)을 포함할 수 있다.
딥 러닝을 기초로 하는 자연어 처리(Natural Language Processing)
도 9는 딥 러닝을 기초로 하는 자연어 처리를 나타낸 도면이다.
딥 러닝(Deep Learing)은 사물이나 데이터를 군집화하거나 분류하는 데 사용하는 기술을 의미한다. 최근, 딥 러닝 기술의 발전으로 인하여, 자연어 처리에도 딥 러닝의 기술을 적용하는 경우 자연어 처리가 매우 효과적이라는 사실이 알려져 있다.
도 9에 따르면, (1) 텍스트를 전처리하는 단계, (2) 임베딩 단계, (3) 히든 레이어(Hidden layer)를 통과하는 단계 및 (4) 출력 단계를 포함할 수 있다.
상기 텍스트를 전처리하는 단계는, 해당 언어의 특성에 맞게 텍스트를 가공하여 그 특징을 추출하기 용이하도록 처리하는 프로세싱을 말할 수 있다. 즉, 상기 텍스트를 전처리하는 단계는 ①토큰화(Tokenizatoin) 단계, ②포스 태깅(PoS Tagging) 단계 및 ③스탑워드 제거(Stopword Removal) 단계 등을 포함할 수 있다. 이는 상술한 내용에 자세히 설명되어 있으므로 이하 생략한다.
상기 임베딩(Embedding) 단계는, 단어 임베딩, 문장 임베딩 등을 포함할 수 있다. 임베딩은 자연어를 숫자의 나열인 벡터로 바꾼 결과 혹은 그 일련의 과정 전체를 가리키는 용어를 의미한다.
상기 히든 레이어(Hidden layer)를 통과하는 단계는, 여러 층의 비선형의 히든 레이어(Hidden layer)를 포함하고 있는 신경망(artificial neural network)으로 여러 비선형 변환(non-linear activation)의 조합을 통해 높은 수준의 추상화(abstraction)를 시도하여 새로운 자질의 조합 혹은 표현을 학습하는 단계를 의미할 수 있다.
상기 출력 단계는, ①정서(sentiment), ②분류(Classification), ③엔티티(Entity) 추출, ④번역(Translation), ⑤토픽 모델링(Topic Modeling)을 출력할 수 있다.
지능형 대화 서비스 제공 방법
이하, 상술한 내용들을 바탕으로 본 명세서의 바람직한 제1 실시예에 따른, 지능형 대화 서비스 제공 방법에 관하여 상세히 설명하면 다음과 같다.
또한, 본 명세서의 바람직한 제1 실시예에 따른, 지능형 대화 서비스 제공 방법은, 후술할 본 명세서의 제2 실시예에 따른, 차량용 지능형 대화 시스템에서 수행될 수 있다.
도 10은 제1 실시예에 따른 지능형 대화 서비스 제공 방법을 나타낸 도면이다.
도 10에 따르면, 본 명세서의 제1 실시예에 따른 지능형 대화 서비스 제공 방법은, 발화문이 입력되는 단계(S100), 언어 종류별로 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 입력된 발화문을 텍스트로 변환하는 단계(S200), 변환된 텍스트로부터 인텐트(Intent)를 분석하는 단계(S300), 분석된 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 단계(S400), 및 상기 생성된 응답을 출력하는 단계(S500)를 포함할 수 있다.
또한, 도 10에 따르면, 본 명세서의 제1 실시예에 따른 지능형 대화 서비스 제공 방법은, 발화문을 텍스트로 변환하는 단계(S200)에서 입력된 발화문만으로 텍스트 변환이 이루어지지 않는 경우 또는 텍스트 변환 결과 하나의 텍스트가 선택되지 않는 경우를 대비할 수 있다. 이때, 본 명세서의 지능형 대화 서비스 제공 방법은, 새로운 발화문의 입력을 안내하는 알람을 출력하는 단계 (S2001)를 실행할 수 있다. 상기 알람이 출력되면, 발화자는 새로운 발화문을 말하게 되고, 이때 새로운 발화문이 시스템에 입력(S100)된다.
상기 새로운 발화문의 입력을 안내하는 알람이란, 일예로 "다시 말씀해 주세요." 등의 발화자의 발화를 다시 유도하는 문장을 포함할 수 있다.
위와 같이, 상기 알람을 곧바로 출력하는 단계(S2001)를 통하여, 본 명세서에 따른 제1 실시예는 보다 정확한 발화문을 입력받을 수 있는 효과가 있다. 보다 정확한 발화문이 입력될수록, 그에 알맞은 응답을 생성할 수 있는 확률이 높아진다.
또한, 발화문을 텍스트로 변환하는 단계(S200)는 일반적인 자동 음성 인식을 수행하는 것을 포함할 수 있다. 자동 음성 인식은, 이를 위하여 구성된 자동 음성 인식 모듈에서 실행될 수 있다. 자동 음성 인식이란, 화자의 음성 데이터를 텍스트로 변환하는 것을 의미할 수 있다.
다만, 본 명세서의 제1 실시예에 있어서, 발화자가 어떠한 언어를 구사하는지 알 수 없으므로, 각국의 언어별로 자동 음성 인식이 가능한 복수의 자동 음성 인식 모듈을 이용할 수 있다.
복수의 자동 음성 인식 모듈은, 발화문의 정확한 언어의 종류를 알아내기 위하여 신뢰값이라는 구성을 이용할 수 있다. 신뢰값(Confidance value)이란, 해당 언어를 자연어 처리하였을 때, 각국 언어별 신뢰도를 의미할 수 있다. 이때, 신뢰도는 발화문을 텍스트로 변환하였을 때, 변환된 텍스트의 의미, 변환된 정도, 매칭되는 단어의 존재 등을 수치화하여 점수로 표현한 것이다. 즉, 신뢰값은 입력된 발화문의 패턴과 저장된 언어의 패턴을 비교하여 얼마나 동일한 패턴을 가지는지를 수치화한 값을 말할 수 있다.
본 명세서의 자동 음성 인식 모듈에서는 신뢰값의 범위를 0부터 1까지로 측정한다. 0에 가까울수록 발화문의 패턴과 저장된 언어의 패턴이 다르며, 1에 가까울수록 발화문의 패턴과 저장된 언어의 패턴이 동일하다고 해석될 수 있다.
도 11 및 도 12는 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 발화문을 텍스트로 변환하는 단계(S200)를 나타낸 도면이다.
도 11에 따르면, 본 명세서의 제1 실시예에 따른 지능형 대화 서비스 제공 방법은, 발화문을 텍스트로 변환하는 단계(S200)를 다음과 같이 구성할 수 있다.
발화문을 텍스트로 변환하는 단계(S200)는, 상기 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문에 대하여 상기 언어 종류별 텍스트 및 신뢰값을 도출하는 단계(S210), 상기 신뢰값들 중 기설정된 값보다 큰 신뢰값을 가지는 텍스트를 선택하는 단계(S220)를 포함할 수 있다.
또한, 도 12에 따르면, 본 명세서의 발화문을 텍스트로 변환하는 단계(S200)는, 상기 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문에 대하여 상기 언어 종류별 텍스트 및 신뢰값들을 도출하는 단계(S211), 및 상기 신뢰값들 중 제1 조건 및 제2 조건을 만족하는 신뢰값을 가지는 텍스트를 선택하는 단계(S221)를 포함할 수 있다.
상기 제1 조건 및 제2 조건은 다음과 같다.
[제1 조건]
신뢰값 ≥ 기설정된 제1 값
[제2 조건]
(상기 제1 조건을 만족하는 신뢰값 - 나머지 각각의 신뢰값) ≥ 기설정된 제2 값
이때, 발화문을 텍스트로 변환하는 단계(S200)에서 신뢰값들을 기초로 언어를 선택하기 위한 제1 조건은, 신뢰값들 중 기설정된 제1 값보다 크거나 동일한 신뢰값을 가지는 것일 수 있다. 상기 기설정된 제1 값은 0.6 내지 1 사이의 값일 수 있으며, 0.9인 것이 바람직하나 이에 한정되는 것은 아니다.
즉, 신뢰값들이 기설정된 제1 값보다 작다면, 정확한 신뢰값을 계산해내지 못한 것으로 해석될 수 있다. 또한, 상기 기설정된 제1 값이 0.6 보다 작다면, 정확한 신뢰값을 계산해내기 어려울 수 있다.
또한, 발화문을 텍스트로 변환하는 단계(S200)에서 신뢰값들을 기초로 언어를 선택하기 위한 제2 조건은, 신뢰값들 사이의 차이값이 기설정된 제2 값보다 크거나 동일한 것일 수 있다. 상기 기설정된 제2 값은 0.1 내지 0.6 사이의 값일 수 있으며, 0.5인 것이 바람직하나 이에 한정되는 것은 아니다.
즉, 신뢰값들 사이의 차이값이 기설정된 제2 값보다 작다면, 정확한 신뢰값을 계산해내지 못한 것으로 해석될 수 있다. 또한, 상기 기설정된 제2 값이 0.1 보다 작거나 0.6 보다 크다면, 정확한 신뢰값을 계산해내기 어려울 수 있다.
발화문을 텍스트로 변환하는 단계(S200)는 위 제1 조건 또는, 제1 조건 및 제2 조건을 적용하여 가장 높은 신뢰값을 가지는 언어를 선택할 수 있다.
만일, 위 조건(들)을 만족하는 신뢰값을 가지는 언어가 없는 경우, 새로운 발화문의 입력을 안내하는 알람을 출력하는 단계(S2001)가 실행될 수 있다.
또한, 새로운 발화문의 입력을 안내하는 알람을 출력하는 단계(S2001) 이후 새로 발화문이 입력되어도 위 조건(들)을 만족하는 신뢰값을 가지는 언어가 없는 경우, (1) 새로운 발화문의 입력을 안내하는 알람을 출력하는 단계(S2001)가 다시 실행되거나, 또는 (2) 기존의 계산된 신뢰값 중 가장 큰 신뢰값을 가지는 언어를 선택하는 단계(미도시)가 실행될 수 있다.
위와 같이, 신뢰값을 활용하여 발화문을 텍스트로 변환하는 자동 음성 인식 기술을 이용하여, 발화문을 보다 정확한 언어의 텍스트로 변환할 수 있는 효과가 있다. 발화문이 정확한 텍스트로 변환될수록, 상기 발화문에 알맞은 응답을 생성할 수 있다.
도 13은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 텍스트의 인텐트(Intent)를 분석하는 단계(S300)를 나타낸 도면이다.
도 13에 따르면, 텍스트의 인텐트(Intent)를 분석하는 단계(S300)는 상기 텍스트에서 상기 콘텍스트를 추출할 필요가 있는지 분석하는 단계(S310)를 포함할 수 있다.
도 13에 따르면, 상기 콘텍스트를 추출할 필요가 있다고 분석되는 경우, 텍스트의 인텐트(Intent)를 분석하는 단계(S300)는, 상기 텍스트의 콘텍스트를 추출하는 단계(S320), 상기 추출된 콘텍스트를 기초로 상기 발화문의 상기 인텐트를 분석하는 단계(S330)를 더 포함할 수 있다.
또한, 도 13에 따르면, 상기 콘텍스트를 추출할 필요가 없다고 분석되는 경우, 별도의 콘텍스트 추출 등의 단계를 거치지 않고, 곧바로 상기 텍스트의 상기 인텐트를 분석하는 단계(S3201)를 더 포함할 수 있다.
발화문의 인텐트를 분석하여 그에 맞는 응답을 생성하기 위해서는, 화자의 정확한 의도(인텐트)를 파악하는 것이 매우 중요하다. 인텐트를 정확히 분석하기 위해서는, 발화문의 단어를 분석해야 한다. 이때, 발화문만을 기초로 발화문을 구성하는 단어의 의미를 모두 파악할 수 없는 경우가 생길 수 있으며, 이 경우에는 해당 발화문을 보충해주는 과정이 필요하다. 즉, 해당 발화문을 보충해주는 과정이란, 발화문 상에서 그 의미를 분명하게 알 수 없는 단어가 존재하는 경우, 해당 단어의 의미를 전후 문장의 맥락을 기초로 파악하여 해당 의미로 대체하는 것을 의미할 수 있다. 이에 대한 내용은 도 14 및 도 15에 나타나 있으므로 후술한다.
도 14는 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 텍스트의 인텐트(Intent)를 분석하는 단계(S300)를 나타낸 도면이며, 도 15는 그 예시이다.
도 14에 따르면, 인텐트(Intent)를 분석하는 단계(S300)는, 상기 발화문만으로 의미가 해석되는 제1 단어 그룹과, 상기 발화문만으로 의미가 해석되지 않는 제2 단어 그룹을 나누는 단계(S331), 상기 추출된 콘텍스트를 기초로, 상기 제2 단어 그룹에 속하는 단어의 의미를 해석하는 단계(S332), 상기 제2 단어 그룹에 속하는 단어를 상기 해석된 의미로 대체하는 단계(S333), 및 상기 대체된 단어를 포함하는 상기 텍스트에 대하여 자연어 이해(NLU)를 실행하는 단계(S334)를 포함할 수 있다.
도 15에 따라, 도 14에서 설명하고 있는 단계들이 어떠한 방식으로 응용되는지 설명하면 다음과 같다.
도 15에는 [발화문 1]과 [발화문 2]가 있다. 현재, 의미를 해석하고 응답을 생성해야 하는 문장은 [발화문 2]라고 가정한다.
[발화문 2] - 명동을 경유하여 방금 말했던 곳으로 가는 길을 알려줘.
[발화문 2]를 단어 각각으로 나워서 살펴보면, "명동", "경유", "방금 말했던 곳", "가는 길" 및 "알려줘" 등으로 나뉜다. 이때, "명동", "경유", "가는 길" 및 "알려줘"는 해당 발화문만으로도 그 의미를 명확하게 알 수 있다. 다만, "방금 말했던 곳"은 해당 발화문만으로는 어떤 장소를 의미하는지를 명확히 알 수 없다. 이 경우, 앞선 발화인 [발화문 1]을 살펴보아야 한다.
[발화문 1] - 남산타워는 어디에 있니?
[발화문 1]을 단어 각각으로 나눠서 살펴보면, "남산타워", "어디에", "있니" 등으로 나뉜다. 이때, "남산타워", "어디에", "있니"는 해당 발화문만으로도 그 의미를 명확하게 알 수 있다. 또한, [발화문 2]에서의 "방금 말했던 곳"이 [발화문 1]의 남산타워임을 추측할 수 있다. 따라서, [발화문 2]의 "방금 말했던 곳"을 "남산타워"로 대체할 수 있다.
[수정된 발화문 2] - 명동을 경유하여 남산타워로 가는 길을 알려줘.
이처럼, 해당 발화문만으로 그 의미를 알 수 있는 단어들을 제1 단어 그룹이라고 하고, 해당 발화문만으로 그 의미를 알 수 없는 단어들을 제2 단어 그룹이라고 할 수 있다. 이처럼, 발화문을 제1 단어 그룹 및 제2 단어 그룹으로 나누고, 제2 단어 그룹에 대하여 콘텍스트를 기초로 그 의미를 해석한 후 대체할 수 있다. 이를 통하여, 추후 자연어 이해 등을 수행하는 경우 보다 정확한 의미 해석과 응답 생성이 가능할 수 있다.
다만, 위와 같은 구체적인 예시는, 본 명세서의 제1 실시예에 따른 지능형 대화 서비스 제공 방법의 일 예시일 뿐, 본 명세서의 권리범위를 한정하지 않는다.
도 16은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 텍스트의 의미를 해석하고 응답을 생성하는 단계(S400)를 나타낸 도면이며, 도 17은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 사용되는 콘텍스트 테이블의 예시이다.
도 16에 따르면, 인텐트와 콘텍스트 테이블을 기초로 의미 해석 및 응답 생성 단계(S400)는, 상기 분석된 인텐트와 상기 콘텍스트 테이블의 상기 상황별 인텐트를 매칭하는 단계(S410), 상기 매칭된 인텐트에 대한 상기 엔티티 및 상기 엔티티에 대한 상기 세부 키워드를 기초로 상기 응답을 생성하는 단계(S420)를 포함할 수 있다.
콘텍스트 테이블은 기설정된 인텐트, 상기 기설정된 인텐트에 따라 기설정된 엔티티(Entity) 및 상기 엔티티에 따라 기설정된 세부 키워드를 포함할 수 있다. 이때, 인텐트(Intent)란, 발화자의 의도 또는 발화문의 주제를 의미할 수 있으며, 엔티티(Entity)란 상기 인텐트 별로 미리 설정된 키워드를 의미할 수 있다.
도 17에 따른 콘텍스트 테이블을 사용하는 방법에 대한 구체적인 일 예시는 다음과 같다.
[수정된 발화문 2] - 명동을 경유하여 남산타워로 가는 길을 알려줘.
상기 [수정된 발화문 2]의 인텐트를 파악한다. 상기 [수정된 발화문 2]의 화자의 의도는, 네비게이션 기능을 활용하여 경로에 대한 정보를 요청하는 것이다. 따라서, 해당 발화문의 인텐트는 "네비게이션(Navigation)"으로 분석할 수 있다. 즉, 상기 분석된 인텐트인 "네비게이션(Navigation)"에 해당하는 단어가 콘텍스트 테이블에 포함되어 있는지를 찾아서 매칭시킬 수 있다.
도 17의 콘텍스트 테이블을 보면, "Navigation"의 인텐트가 미리 설정되어 있다. 따라서, 상기 분석된 인텐트는 콘텍스트 테이블의 "Navigation"와 매칭된다(S410).
상기 매칭된 결과에 따라, 콘텍스트 테이블의 "Navigation"에 대하여 미리 설정된 엔티티인 "Destination"과 "Route"에 대응되는 단어가 해당 발화문에 존재하는지를 살펴볼 수 있다. 상기 [수정된 발화문 2]에서는 "Destination"에 대응되는 세부 키워드가 "남산타워"이며, "Route"에 대응되는 세부 키워드가 "명동"이란 것이 확인된다. 이때, "남산타워"와 "명동"은 콘텍스트 테이블에서 각국의 언어별로 번역되어 미리 저장되는 것이 바람직하다.
다만, 경우에 따라 복수의 엔티티 중에서 일부가 존재하는지를 살펴볼 수도 있다. 위 예시에 따르면, "Destination"에 대응되는 세부 키워드가 존재하는 경우 "Route"에 대응되는 세부 키워드가 상기 발화문에 없더라도, 화자가 원하는 응답을 생성할 수 있다. 즉, 복수의 엔티티가 있는 경우 각각의 엔티티의 중요도에 따라 문장해석에 사용할 수 있으며, 항상 모든 엔티티를 이용하여야 하는 것은 아니다. 이때, 각각의 엔티티의 중요도는 미리 설정될 수 있다.
도 17에 따르면, 이처럼 다양한 경우의 수를 예상한 엔티티를 미리 설정할 수 있다. 또한, 엔티티에 맞게 사용될 수 있는 세부 키워드들을 각국 언어별로 번역하여 미리 설정할 수 있다. 해당 엔티티와 각국 언어별로 번역된 세부 키워드들을 저정한 것이 콘텍스트 테이블이다.
콘텍스트 테이블에 따라, 상기 [수정된 발화문 2]의 인텐트 및 엔티티를 매칭하였으므로, 상기 매칭된 결과에 따른 응답을 생성할 수 있다(S420). 해당 예시에서는, 네비게이션 프로그램을 작동하여 "남산타워"까지 가는 경로를 검색하고, 해당 경로 중 "명동"을 거쳐갈 수 있는 경로를 선택하여, 화자에게 안내할 수 있다.
이와 같이, 콘텍스트 테이블을 활용함으로써 언어 종류별로 응답을 생성하는 복수의 모듈을 구비할 필요가 없게 된다. 즉, 콘텍스트 테이블을 구비한 하나의 모듈만으로 언어종류별 발화문에 알맞은 응답을 생성할 수 있는 효과가 있다.
추가적으로, 콘텍스트 테이블을 활용한 예시들은 아래와 같을 수 있다.
첫째, 발화자가 "이 도시의 날씨는 어때?"라고 말하면, 프로세서(20)는 상기 발화문에 대하여 언어(여기서는 한국어)에 맞는 텍스트를 선택한다. 프로세서(20)는, 콘텍스트를 기초로 "이 도시"의 위치를 찾을 수 있다. 또한, GPS 등을 사용하여 "이 도시"의 위치를 찾을 수도 있다. "이 도시"가 "뉴욕"인 경우, 프로세서(20)는 해당 발화문의 인텐트를 "날씨(Weather)"로 분석한다. 따라서, 프로세서(20)는, 외부 서버에 "뉴욕"의 날씨정보를 요청할 수 있다. 프로세서(20)는 "뉴욕"의 날씨 정보를 수신하고 이를 텍스트화하여 음성으로 출력할 수 있도록 응답을 생성할 수 있다.
둘째, 발화자가 "존에게 전화걸어줘"라고 말하면, 프로세서(20)는 상기 발화문에 대하여 언어(여기서는 한국어)에 맞는 텍스트를 선택한다. 프로세서(20)는, 상기 발화문의 인텐트를 "전화(Call)"로 추출한다. 콘텍스트 테이블에 따르면, "전화(Call)"에 따른 엔티티는 "연락처(Contact)"가 될 수 있다. 프로세서(20)는 존의 연락처를 검색하고, 존의 연락처로 전화를 걸 수 있다. 프로세서(20)는, 존에게 전화를 걸고 있다는 응답을 생성하고, 출력장치(30)는 생성된 응답을 출력한다.
이와 같은 구체적인 예시를 통하여, 콘텍스트 테이블을 이용하여 발화문의 인텐트(Intent)와 엔티티(Entity)를 찾아내어 응답을 생성하는 과정을 설명하였다. 다만, 위와 같은 구체적인 예시는, 콘텍스트 테이블을 이용하는 과정을 일 예시로서 설명할 뿐, 본 명세서의 권리범위를 한정하지 않는다.
도 18은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 통신을 이용하여 지능형 대화 서비스를 제공하는 방법을 나타낸 도면이다.
도 18에 따르면, 차량용 지능형 대화 시스템의 대화 서비스 제공 방법에 있어서, 시스템에 입력된 발화문을 무선 통신부를 통해 외부 서버로 전송하는 단계(S1100), 언어 종류별로 상기 외부 서버에 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문을 텍스트로 변환하는 단계(S1200), 상기 외부 서버에서 상기 텍스트의 인텐트(Intent)를 분석하는 단계(S1300), 상기 외부 서버에서 상기 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 단계(S1400), 상기 생성된 응답을 상기 외부 서버에서 상기 시스템으로 전송하는 단계(S1500) 및 상기 전송된 응답을 출력하는 단계(S1600)를 포함할 수 있다.
최근 차량은 인공지능을 탑재하는 등 컴퓨팅 디바이스로서 사용되는 추세이다. 특히, 운전 중에는 음성으로 명령을 하는 경우가 빈번하게 발생하며 운전자가 사용하는 언어가 바뀌는 경우, 운전 중에 수동으로 언어 설정을 바꿔야 하는 등의 문제가 발생할 수 있다.
또한, 차량 내부의 컴퓨팅 디바이스에서 자동 음성 인식, 자연어 처리 등을 수행하여 운전자에게 응답을 제공할 수 있다. 다만, 최근 4G, 5G 등 무선 네트워크 기술이 발전함에 따라, 본 명세서의 제1 실시예에 따른 지능형 대화 서비스 제공 방법은 V2X 통신으로 대표되는 무선 네트워크를 이용할 수도 있다. 이때 사용되는 V2X 통신에 대한 내용은, 도 5 내지 도 7에서 상술한 내용과 동일하므로 생략한다.
도 18에 따르면, 발화문이 차량에 입력되면, 입력된 음성 데이터를 무선 통신 등을 통하여 외부 서버로 전송할 수 있다. 외부 서버에서 콘텍스트 테이블을 이용한 응답을 생성하고 다시 차량으로 전송하고, 차량은 전송된 응답을 출력할 수 있다.
도 19는 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 제1 발화문의 콘텍스트를 이용하여 제2 발화문에 대한 응답을 생성하는 방법을 나타낸 도면이다.
도 19에 따르면, 발화문의 인텐트를 분석하기 위하여 사용되는 콘텍스트는 해당 발화문에서만 추출할 것이 아니라, 이전 발화문에서 추출되어 저장될 수 있다. 이를 구체적으로 살펴보면 다음과 같다.
도 19에 따르면, 본 명세서의 제1 실시예에 따른 지능형 대화 서비스 제공방법은, 상기 시스템에 제1 발화문을 입력하는 단계(S2100), 상기 제1 발화문으로부터 콘텍스트를 추출하여 저장하는 단계(S2200), 상기 시스템에 제2 발화문을 입력하는 단계(S2300), 언어 종류별로 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 제2 발화문을 텍스트로 변환하는 단계(S2400), 기저장된 콘텍스트를 기초로 상기 텍스트의 인텐트(Intent)를 분석하는 단계(S2500), 상기 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 단계(S2600) 및 상기 생성된 응답을 출력하는 단계(S2700)를 포함할 수 있다.
이때, 상기 제1 발화문과 상기 제2 발화문의 언어 종류는 서로 다를 수 있다. 예를 들어, 영어 발화문을 통하여 대화하다가 이후 한국어 발화문을 통하여 대화하더라도, 기존의 영어 발화문을 통한 대화에서의 콘텍스트를 기초로 한국어 발화문의 의미를 해석할 수 있다.
또한, 상기 제1 발화문과 상기 제2 발화문의 언어 종류가 동일할 수도 있다. 이 경우, 복수의 화자가 존재하더라도 화자별로 대화가 단절되지 않고 복수의 발화문들의 콘텍스트를 기초로 지속적인 대화 서비스 제공이 가능하다.
도 19에 도시되어 있지는 않지만, 복수의 콘텍스트가 추출되어 저장될 수 있다. 현재 입력되는 발화문을 해석하기 위하여 기존에 저장된 콘텍스트 중 어느 콘텍스트까지 이용하여 해석할지가 문제될 수 있다. 즉, 현재 화자의 의도와 상관없는 이전 대화의 콘텍스트가 활용된다면, 잘못된 응답이 도출될 수 있다.
따라서, 기저장된 콘텍스트를 기초로 상기 텍스트의 인텐트(Intent)를 분석하는 단계(S2500)는 복수의 콘텍스트를 시간순서로 정렬하는 단계(미도시) 및 상기 정렬된 콘텍스트 중 기설정된 개수의 콘텍스트만 사용하여 발화문을 해석하는 단계(미도시)를 포함할 수 있다. 바람직하게는 가장 최근에 입력된 콘텍스트 1개만을 이용할 수 있으나, 본 명세서의 권리범위는 해당 개수에 한정되지 않는다.
도 20은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 신뢰값을 활용하여 발화문을 텍스트로 변환하는 예시를 나타낸 도면이며, 도 21은 제1 실시예에 따른 지능형 대화 서비스 제공 방법에서 변환된 텍스트의 의미를 해석하고 그 응답을 생성하는 예시를 나타낸 도면이다.
도 20에 따르면, 발화문(음성)이 입력되면, 언어 종류별로 구비된 복수의 자동 음성 인식 모듈에서 동시에 입력된 발화문에 대하여 신뢰값을 산출하고 텍스트로 변환한다.
이때, 각각의 신뢰값들을 비교하여, 그 중 1개 신뢰값만 0.9보다 크거나 같은지에 대한 제1 조건을 충족하는지를 분석한다. 또한, 상기 제1 조건을 충족하는 신뢰값과, 다른 신뢰값들을 비교하여 그 차이값이 0.5보다 크거나 같은지에 대한 제2 조건을 충족하는지를 분석한다.
도 20에 따르면, 발화문에 대한 신뢰값 중 0.9보다 큰 것은 "C언어"의신뢰값으로 0.98로 확인된다. 또한, 다른 언어들의 신뢰값은 0.7, 0.03, 0.1 등으로 확인되므로 "C언어"의 신뢰값 0.98과 다른 신뢰값들의 차이는 0.5보다 크다.
결국, 유일하게 C언어의 신뢰값이 상기 제1 조건 및 상기 제2 조건을 충족하므로, 선택부는 C언어를 선택하여 다음 단계로 넘어간다.
도 21에 따르면, 도 20의 제1 조건 및 제2 조건을 충족하는 C언어의 텍스트에 대하여 콘텍스트를 기초로 인텐트를 분석할 수 있다. 이때, 인텐트 분석을 위하여 1차적으로 자연어 이해(NLU)가 실행될 수 있다. 상기 자연어 이해를 통하여, 발화문의 인텐트(Intent) 및 엔티티(Entity)를 파악할 수 있다. 파악된 인텐트 및 엔티티를 기초로 상기 텍스트의 의미를 해석하고 응답을 생성할 수 있다.
지능형 대화 시스템
이하, 상술한 내용들을 바탕으로 본 명세서의 바람직한 제2 실시예에 따른, 차량용 지능형 대화 시스템에 관하여 상세히 설명하면 다음과 같다.
또한, 본 명세서의 제2 실시예에 따른 차량용 지능형 대화 시스템은, 차량뿐만 아니라 음성 비서, 컴퓨터, 모바일 장치 등에 설치될 수 있을 것이다.
또한, 본 명세서의 제2 실시예에 따른 차량용 지능형 대화 시스템은, 상술한 제1 실시예에 따른 지능형 대화 서비스 제공 방법을 수행하는 주체일 수 있다.
도 22는 제2 실시예에 따른 차량용 지능형 대화 시스템을 나타낸 도면이다.
도 22에 따르면, 본 명세서의 제2 실시예에 따른 차량용 지능형 대화 시스템은, 입력장치(10), 프로세서(20) 및 출력장치(30)를 포함할 수 있다.
입력장치(10)에는 발화자의 발화문이 입력된다. 또한, 입력장치(10)에는 발화문 뿐만 아니라 텍스트, 이미지 또는 영상 등이 입력될 수 있다. 이를 위하여, 입력장치(10)는 마이크, 키보드, 스캐너 또는 카메라일 수 있다. 다만, 지능형 대화를 위한 것이므로, 발화문이 입력되는 마이크인 것이 바람직하다.
입력장치(10)는 상술한 제1 실시예의 발화문이 입력되는 단계(S100)가 실시되는 구성일 수 있다.
본 명세서의 제2 실시예에 따른 프로세서(20)는, 연산을 수행하고 다른 장치를 제어할 수 있는 구성이다. 주로, 중앙 연산 장치(CPU), 어플리케이션 프로세서(AP) 등을 의미할 수 있다. 또한, CPU 또는 AP는 그 내부에 하나 또는 그 이상의 코어들을 포함할 수 있으며, CPU 또는 AP는 작동 전압과 클락 신호를 이용하여 작동할 수 있다.
프로세서(20)는 입력된 발화문을 텍스트로 변환한다. 프로세서(20)가 발화문을 텍스트로 변환하여야 본 시스템에서 상기 텍스트를 처리하여 인식할 수 있다.
이때, 프로세서(20)는 본 발명의 제1 실시예의 발화문을 텍스트로 변환하는 단계(S200)를 실행할 수 있다. S200 단계는 제1 실시예에서 자세히 설명하였으므로, 해당 내용에 대한 설명은 생략한다.
출력장치(30)는, 응답을 출력하는 장치로서 음성, 이미지, 영상 등으로 응답을 출력할 수 있다. 따라서, 출력장치(30)는 스피커, 디스플레이 등이 될 수 있다. 다만, 본 명세서의 제2 실시예는 차량에 사용되는 것이 바람직하므로, 운전자의 주행에 방해되지 않도록 음성으로 출력하는 것이 바람직하다.
즉, 출력장치(30)는, S200 단계의 조건(들)을 만족하는 신뢰값을 가지는 언어가 없는 경우, 음성으로 "다시 말씀해 주십시오" 등을 출력하거나, 이미지로 동일한 내용을 출력할 수 있다.
프로세서(20)는 변환된 텍스트를 분석하여 의미를 인식하고 그 의미에 알맞은 응답을 형성할 수 있다. 즉, 프로세서(20)는 도 8 및 도 9와 같은 자연어 처리를 수행하는 구성일 수 있다.
프로세서(20)는, 텍스트의 인텐트(Intent)를 분석할 수 있다. 일반적으로, 발화문에는 해당 발화문만으로는 그 의미를 알 수 없는 대명사 등의 단어가 포함될 수 있다. 이 경우, 콘텍스트를 기초로 해당 대명사 등의 단어가 지칭하는 의미를 분석하여 그 의미에 맞는 단어로 대체할 수 있다. 또한, 프로세서(20)는, 이전 발화문에서 추출된 콘텍스트를 사용하여 인텐트를 분석할 수 있다.
프로세서(20)는, 의미가 명확할 수 있도록 수정된 텍스트에 대하여 자연어 이해(NLU)를 수행할 수 있다.
프로세서(20)는, 분석된 인텐트와 콘텍스트 테이블을 기초로 텍스트의 의미를 해석하고 응답을 생성하는 단계(S400)를 수행할 수 있다.
출력장치(30)가 음성을 통하여 응답을 출력하는 경우, 텍스트 음성 변환(Text-to-Speech, TTS) 기술을 사용할 수 있다. 즉, 프로세서(20)에서 형성된 응답은 텍스트 형식이며, 출력장치(30)는 이를 음성으로 변환하여 출력할 수 있다.
출력장치(30)가 이미지 또는 영상을 통하여 응답을 출력하는 경우, 프로세서(20)에서 형성된 텍스트 형식의 응답을 그대로 디스플레이(미도시)에 표시하거나, 이미지화 또는 애니메이션화하여 표시할 수 있다.
또한, 본 명세서의 제2 실시예에 따른 차량용 지능형 대화 시스템은, 지난 발화문으로부터 추출된 콘텍스트, 및 콘텍스트 테이블 등을 저장할 수 있는 저장장치(미도시)를 더 포함할 수 있다.
저장장치(미도시)는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM 등을 포함할 수 있으나, 이러한 예시에 제한되지 않는다.
도 23은 제2 실시예에 따른 차량용 지능형 대화 시스템을 나타낸 도면이다.
도 23에 따르면, 프로세서(20)는 언어 종류별로 설치된 복수의 자동 음성 인식(Auto Speech Recognition, ASR) 모듈(210)을 포함할 수 있다. 자동 음성 인식이란, 컴퓨터 등의 시스템과 사용자의 의사소통을 위하여 사용자의 음성을 자동으로 인식하는 것을 말한다. 자동 음성 인식 모듈(210)은, 자동 음성 인식을 위한 소프트웨어가 설치되어 실행되는 단위 구성요소를 말할 수 있다.
자동 음성 인식은, (1) 음성 패턴을 입력 받는 단계, (2) 입력 받은 음성 패턴의 특징을 추출하는 단계, (3) 기저장된 DB의 음성 패턴과 비교하여 상기 음성 패턴을 인식하는 단계 및 (4) 상기 인식된 음성 패턴을 출력하는 단계를 포함할 수 있다.
이때, 기저장된 DB는 다수의 사용자로부터 추출한 빅데이터일 수 있다. 상기 빅데이터는 자동 음성 인식 모듈(210)에 저장될 수 있으나, 일반적으로 클라우드 서버로부터 불러올 수 있다. 또한, 기저장된 DB의 음성 패턴과 비교하여 상기 음성 패턴을 인식하기 위하여 최근 딥러닝(Deep Learning) 기술을 활용한 자연어 이해(Natural Language Understanding, NLU)를 사용할 수 있다.
본 명세서의 복수의 자동 음성 인식 모듈(210)은, 입력된 발화문에 대하여 언어 종류별로 신뢰값들을 각각 계산하고, 상기 발화문을 텍스트로 각각 변환할 수 있다. 이때, 복수의 자동 음성 인식 모듈(210)은 가급적이면 동시에 실행되는 것이 바람직하나, 경우에 따라 순차적으로 실행될 수도 있다.
신뢰값(Confidence Value)이란, 입력된 발화문의 패턴과 저장된 언어의 패턴을 비교하여 얼마나 동일한 패턴을 가지는지를 수치화한 값을 말할 수 있으며, 이는 본 명세서의 제1 실시예에서 설명한 것과 동일하므로 자세한 설명은 생략한다.
프로세서(20)는, 복수의 자동 음성 인식 모듈(210)로부터 계산된 신뢰값들을 비교한다. 프로세서(20)는 신뢰값들을 비교하여 특정 조건을 충족하는 신뢰값을 가지는 언어를 선택할 수 있다. 즉, 프로세서(20)는, 신뢰값들을 비교하여 특정 조건을 충족하는 신뢰값을 가지는 언어를 가지는 텍스트를 선택할 수 있다. 이때, 텍스트는 자동 음성 인식 모듈(210)에서 발화문으로부터 변환된 텍스트를 말한다.
프로세서(20)는, 복수의 자연어 이해 모듈(220)을 더 포함할 수 있다. 지연어 이해(Natural Language Understanding, NLU)란, 컴퓨터가 인간의 의사소통 수단인 자연어를 이해하는 것을 의미할 수 있다.
자연어 이해는, (1) 신호처리(Signal Processing), (2) 구문분석(Syntactic Analysis), (3) 의미분석(Semantic Analysis), (4) 담화통합(Discourse Integration) 및 (5) 화용분석 (Pragmatic analysis)을 포함할 수 있다.
상기 신호처리는, 음성 신호를 디지털화 하고 단어 조각(word segments) 들을 구분한다. 이때, 취급되는 언어 요소는 phonemes(음소, 음성의 최소단위) 이다.
상기 구문분석은, 각각의 단어들의 관계를 구조적으로 분석한다. 상기 의미분석은, 상기 구문분석에 의하여 형성된 구조들에 의미를 부여하며, 각 의미를 서로 결합하여 전체적인 의미를 분석한다. 상기 담화통합은, 각각의 문장들의 의미는 그 앞의 문장에 의하여 영향을 받을 수 있으므로, 이들을 통합한다. 상기 화용분석은, 통합된 대화 전체를 보아 단순히 표현뿐만이 아니라 실제로 의미하는 바를 분석한다.
프로세서(20)은 복수의 자연어 이해 모듈(220)은 각국 언어종류별로 포함할 수 있다. 즉, 복수의 자연어 이해 모듈(220)은, 복수의 자동 음성 인식 모듈이 각각 인식할 수 있는 언어의 종류에 대응될 수 있다.
도 23에 따르면, 영어로 이루어진 발화문이 입력부에 입력되면, 입력부를 통하여 탐지부로 음성 신호가 전송된다. 프로세서(20)가 신뢰값에 기초하여 언어를 선택한다. 해당 발화문은 영어로 이루어져 있으므로, 변환 텍스트 중 신뢰값은 영어로 변환된 텍스트가 가장 높은 신뢰값을 가질 것이다.
따라서, 도 23에 따르면, 프로세서(20)에 의하여 영문 텍스트가 선택되고, 상기 영문 텍스트에 대한 자연어 이해를 수행하기 위하여 영어 자연어 이해 모듈(220)이 실행될 수 있다.
따라서, 도 23에 따르면, 프로세서(20)는 영어 자연어 이해 모듈(220)을 이용하여 영문 텍스트의 의미를 해석하고, 그에 알맞은 응답을 생성한다. 행성된 응답은 출력장치(30)를 통하여 출력된다.
도 24는 제2 실시예에 따른 차량용 지능형 대화 시스템이 차량에 설치된 예시이다.
도 24에 따르면, 운전자가 차량에 설치된 입력장치(10)에 말하면, 해당 발화문을 차량에 설치된 프로세서(20)에서 분석할 수 있다. 프로세서(20)는 그 의미를 해석하고 응답을 생성하며, 생성된 응답은 출력장치(30)에서 출력될 수 있다.
도 25는 제2 실시예에 따른 외부 서버를 이용하는 차량용 지능형 대화 시스템을 나타낸 도면이다.
도 25에 따르면, 차량용 지능형 대화 시스템은 외부 서버(50)와 통신장치(40)를 더 포함할 수 있다.
즉, 차량용 지능형 대화 시스템에 있어서, 실제 연산을 수행하는 것은 외부 서버(50) 내에 존재하는 프로세서(20)이며, 발화문이 입력장치(10)에 입력되면, 통신장치(40)를 통하여 발화문의 음성 데이터가 외부 서버(50)로 전송될 수 있다. 외부 서버(50)의 프로세서(20)에서 상기 음성 데이터를 텍스트화하고, 이를 기초로 의미를 해석하고 응답을 생성하면, 프로세서(20)는 생성된 응답을 다시 통신장치(40)로 전송한다. 통신장치(40)에서 출력장치(30)로 응답을 전송하면, 해당 응답은 출력장치(30)를 통하여 출력된다.
통신장치(40)는 V2X 통신을 이용하여 외부 서버(50)와 통신할 수 있다. 따라서, 통신장치(40)와 외부 서버(50)는 RSU(Road Side Unit)을 통하여 통신할 수 있다. 이때 사용되는 V2X 통신에 대한 내용은, 도 5 내지 도 7에서 상술한 내용과 동일하므로 생략한다.
무선 통신을 사용하는 통신장치(40)의 경우, 내/외장 안테나(미도시)와 접속되고, 안테나(미도시)를 통해 기지국과 정보의 송수신을 실행한다. 무선 통신을 사용하는 통신장치(40)는 변조부, 복조부, 신호 처리부 등을 갖는 무선 통신 모듈(미도시)을 포함한다.
상기 무선 통신은 통신사들이 기존에 설치해둔 통신 시설과 그 주파수를 사용하는 무선 통신망을 사용한 통신을 말한다. 이때, CDMA(code division multiple access), FDMA(frequency division multiple access), TDMA(time division multiple access), OFDMA(orthogonal frequency division multiple access), SC-FDMA(single carrier frequency division multiple access) 등과 같은 다양한 무선 통신 시스템에 사용될 수 있으며, 뿐만 아니라, 3GPP(3rd generation partnership project) LTE(long term evolution)가 사용될 수 있다. 또한, 최근 상용화 중인 5G 통신을 주로 사용할 수 있으며, 추후 상용화가 예정되어 있는 6G 등도 사용될 수 있다. 다만, 본 명세서는 이와 같은 무선 통신 방식에 구애됨이 없이 기설치된 통신망을 활용할 수 있다.
도 26은 제2 실시예에 따른 외부 서버를 이용하는 차량용 지능형 대화 시스템을 나타낸 도면이다.
도 26에 따르면, 제2 실시예에 따른 차량용 지능형 대화 시스템은, 통신장치(40), 차량에 설치된 제1 프로세서(21), 외부 서버(50) 및 외부 서버(50)에 설치된 제2 프로세서(22)를 포함할 수 있다.
제1 프로세서(21)는 상술한 프로세서(20)와 동일한 기능 및 역할을 수행할 수 있다. 다만, 제1 프로세서(21)는 차량에 설치된 것으로서 차량 운행과 관련된 연산을 주로 수행해야 할 수 있다. 따라서, 제1 프로세서(21)는 통신장치(40)가 활성화되어 있는지를 확인하고, 통신장치(40)가 활성화된 경우 입력된 발화문의 음성 데이터를 통신장치(40)를 통하여 외부 서버(50)로 전송한다.
제1 프로세서(21)는 통신장치(40)가 활성화되어 있지 않은 경우, 차량 내부에 저장된 데이터들을 기초로 입력된 발화문에 대한 의미 해석 및 응답 생성을 수행할 수도 있다. 이때, 제1 프로세서(21)의 기능 및 역할은 상술한 프로세서(20)의 기능 및 역할과 동일할 수 있다.
제2 프로세서(22)는 외부 서버(50)에 설치된 것으로서, 상술한 프로세서(20)와 동일한 기능 및 역할을 수행할 수 있다. 제2 프로세서(22)는 통신장치(40)로부터 음성 데이터를 전송받고, 해당 발화문의 의미를 해석하고 그 응답을 생성할 수 있다. 생성된 응답은 통신장치(40)를 통하여 제1 프로세서(21)로 전송될 수 있다.
제1 프로세서(21) 및 제2 프로세서(22)는, 중앙 연산 장치(CPU), 어플리케이션 프로세서(AP) 등을 의미할 수 있다. 또한, CPU 또는 AP는 그 내부에 하나 또는 그 이상의 코어들을 포함할 수 있으며, CPU 또는 AP는 작동 전압과 클락 신호를 이용하여 작동할 수 있다. 다만, 외부 서버(50)에 설치된 제2 프로세서(22)는 보다 많은 전력을 소비할 수 있는 환경에 있으므로, 제1 프로세서(21)보다 더 높은 클럭과 연산 속도를 가질 수 있다.
전술한 본 명세서는, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 명세서의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 명세서의 등가적 범위 내에서의 모든 보충은 본 명세서의 범위에 포함된다.
또한, 이상에서 실시 예들을 중심으로 설명하였으나 이는 단지 예시일 뿐 본 명세서를 한정하는 것이 아니며, 본 명세서가 속하는 분야의 통상의 지식을 가진 자라면 본 실시 예의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 실시 예들에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부한 청구 범위에서 규정하는 본 명세서의 범위에 포함되는 것으로 해석되어야 할 것이다.
부호의 설명
1: 차량용 지능형 대화 시스템
10: 입력장치
20: 프로세서
30: 출력장치
40: 통신장치
50: 외부 서버

Claims (20)

  1. 차량용 지능형 대화 시스템의 대화 서비스 제공 방법에 있어서,상기 시스템에 발화문을 입력하는 단계;
    언어 종류별로 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문을 텍스트로 변환하는 단계;
    상기 텍스트의 인텐트(Intent)를 분석하는 단계;
    상기 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 단계; 및상기 생성된 응답을 출력하는 단계;를 포함하는, 지능형 대화 서비스 제공 방법.
  2. 제1항에 있어서,
    상기 변환하는 단계는,
    상기 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문에 대하여 상기 언어 종류별 텍스트 및 신뢰값을 도출하는 단계; 및상기 신뢰값들 중 기설정된 값보다 큰 신뢰값을 가지는 텍스트를 선택하는 단계;를 포함하는 것인, 지능형 대화 서비스 제공 방법.
  3. 제1항에 있어서,
    상기 변환하는 단계는,
    상기 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문에 대하여 상기 언어 종류별 텍스트 및 신뢰값들을 도출하는 단계; 및
    상기 신뢰값들 중 제1 조건 및 제2 조건을 만족하는 신뢰값을 가지는 텍스트를 선택하는 단계;를 포함하는 것인, 지능형 대화 서비스 제공 방법.
    [제1 조건]
    신뢰값 ≥ 기설정된 제1 값
    [제2 조건]
    (상기 제1 조건을 만족하는 신뢰값 - 나머지 각각의 신뢰값) ≥ 기설정된 제2 값
  4. 제2항 또는 제3항에 있어서,
    상기 변환하는 단계는,
    상기 선택된 텍스트가 복수개인 경우, 새로운 발화문의 입력을 안내하는 알람을 출력하는 단계;를 더 포함하는 것인, 지능형 대화 서비스 제공 방법.
  5. 제1항에 있어서,
    상기 분석하는 단계는,
    상기 텍스트의 콘텍스트(context)를 추출하고, 상기 추출된 콘텍스트를 기초로 상기 발화문의 상기 인텐트를 분석하는 것인, 지능형 대화 서비스 제공 방법.
  6. 제5항에 있어서,
    상기 분석하는 단계는,
    상기 텍스트만으로 의미가 해석되는 제1 단어 그룹과, 상기 텍스트만으로 의미가 해석되지 않는 제2 단어 그룹을 나누는 단계;
    상기 추출된 콘텍스트를 기초로, 상기 제2 단어 그룹에 속하는 단어의 의미를 해석하는 단계;
    상기 제2 단어 그룹에 속하는 단어를 상기 해석된 의미로 대체하는 단계; 및
    상기 대체된 단어를 포함하는 상기 텍스트에 대하여 자연어 이해(NLU)를 실행하는 단계;를 포함하는 것인, 지능형 대화 서비스 제공 방법.
  7. 제1항에 있어서,
    상기 분석하는 단계는,
    다른 발화문으로부터 추출되어 기저장된 콘텍스트를 기초로 상기 발화문의 상기 인텐트를 분석하는 것인, 지능형 대화 서비스 제공 방법.
  8. 제1항에 있어서,
    상기 콘텍스트 테이블은,
    상황별 인텐트, 상기 상황별 인텐트에 따른 엔티티(Entity) 및 상기 엔티티에 따른 세부 키워드를 포함하며, 상기 세부 키워드는 언어 종류별로 저장되는 것인, 지능형 대화 서비스 제공 방법.
  9. 제8항에 있어서,
    상기 생성하는 단계는,
    상기 분석된 인텐트와 상기 콘텍스트 테이블의 상기 상황별 인텐트를 매칭하는 단계; 및
    상기 매칭된 상황별 인텐트에 따른 상기 엔티티 및 상기 엔티티에 따른 세부 키워드를 기초로 상기 응답을 생성하는 단계;를 포함하는, 지능형 대화 서비스 제공 방법.
  10. 차량용 지능형 대화 시스템의 대화 서비스 제공 방법에 있어서,
    상기 시스템에 입력된 발화문을 무선 통신부를 통해 외부 서버로 전송하는 단계;
    언어 종류별로 상기 외부 서버에 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문을 텍스트로 변환하는 단계;
    상기 외부 서버에서 상기 텍스트의 인텐트(Intent)를 분석하는 단계;
    상기 외부 서버에서 상기 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 단계;
    상기 생성된 응답을 상기 외부 서버에서 상기 무선 통신부를 통해 상기 시스템으로 전송하는 단계; 및
    상기 시스템에서 상기 전송된 응답을 출력하는 단계;를 포함하는, 지능형 대화 서비스 제공 방법.
  11. 제10항에 있어서,
    상기 시스템과 상기 외부 서버는 V2X 통신을 이용하여 정보를 전송하는 것인, 지능형 대화 서비스 제공 방법.
  12. 발화문이 입력되는 입력장치;
    언어 종류별로 설치된 복수의 자동 음성 인식 모델을 동시에 실행하여 상기 발화문을 텍스트로 변환하고, 상기 텍스트의 인텐트(Intent)를 분석하며, 상기 인텐트와 콘텍스트 테이블을 기초로 상기 텍스트의 의미를 해석하고 응답을 생성하는 프로세서; 및
    상기 응답을 출력하는 출력장치;를 포함하는, 차량용 지능형 대화 시스템.
  13. 제12항에 있어서,
    상기 복수의 자동 음성 인식 모듈은,
    상기 발화문에 대하여 언어 종류별로 신뢰값들을 각각 계산하고, 상기 발화문을 텍스트로 각각 변환하는 것인, 차량용 지능형 대화 시스템.
  14. 제13항에 있어서,
    상기 프로세서는,
    상기 신뢰값들을 기초로 상기 텍스트들 중 하나를 선택하는 것인, 차량용 지능형 대화 시스템.
  15. 제14항에 있어서,
    상기 프로세서는,상기 신뢰값들 중 기설정된 값보다 큰 신뢰값을 가지는 언어의 텍스트 를 선택하는 것인, 차량용 지능형 대화 시스템.
  16. 제14항에 있어서,
    상기 프로세서는,
    상기 신뢰값들이 제1 조건 및 상기 제2 조건을 만족하는 언어의 텍스트를 선택하는 것인, 차량용 지능형 대화 시스템.
    [제1 조건]
    신뢰값 ≥ 기설정된 제1 값
    [제2 조건]
    (상기 제1 조건을 만족하는 신뢰값 - 나머지 각각의 신뢰값) ≥ 기설정된 제2 값
  17. 제14항에 있어서,
    상기 프로세서가 상기 텍스트들 중 하나의 텍스트를 선택할 수 없는 경우, 상기 출력부는 새로운 발화문의 입력을 안내하는 알람을 출력하는 것인, 차량용 지능형 대화 시스템.
  18. 제14항에 있어서,
    상기 프로세서는,
    상기 텍스트들 중 하나의 텍스트를 선택할 수 없는 경우, 상기 신뢰값들 중 가장 높은 신뢰값을 가지는 언어의 텍스트를 하나 선택하는 것인, 차량용 지능형 대화 시스템.
  19. 제12항에 있어서,
    상기 지능형 대화 시스템은,
    상기 프로세서가 설치되는 외부 서버; 및
    상기 외부 서버와 상기 시스템이 통신할 수 있는 통신장치;를 더 포함하는 것인, 차량용 지능형 대화 시스템.
  20. 제19항에 있어서,
    상기 통신장치는,
    V2X 통신을 이용하여 정보를 전송하는 것인, 차량용 지능형 대화 시스템.
PCT/KR2019/016040 2019-11-21 2019-11-21 지능형 대화 서비스 제공 방법 및 지능형 대화 시스템 WO2021100918A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2019/016040 WO2021100918A1 (ko) 2019-11-21 2019-11-21 지능형 대화 서비스 제공 방법 및 지능형 대화 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2019/016040 WO2021100918A1 (ko) 2019-11-21 2019-11-21 지능형 대화 서비스 제공 방법 및 지능형 대화 시스템

Publications (1)

Publication Number Publication Date
WO2021100918A1 true WO2021100918A1 (ko) 2021-05-27

Family

ID=75979980

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/016040 WO2021100918A1 (ko) 2019-11-21 2019-11-21 지능형 대화 서비스 제공 방법 및 지능형 대화 시스템

Country Status (1)

Country Link
WO (1) WO2021100918A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220293095A1 (en) * 2019-12-23 2022-09-15 Lg Electronics Inc Artificial intelligence apparatus for recognizing speech including multiple languages, and method for the same

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961699B1 (en) * 1999-02-19 2005-11-01 Custom Speech Usa, Inc. Automated transcription system and method using two speech converting instances and computer-assisted correction
KR20110068490A (ko) * 2009-12-16 2011-06-22 포항공과대학교 산학협력단 외국어 학습 장치 및 그 제공 방법
WO2015062312A1 (en) * 2013-10-31 2015-05-07 Tencent Technology (Shenzhen) Company Limited Method, device and system for providing language service
US20160133254A1 (en) * 2014-11-06 2016-05-12 Microsoft Technology Licensing, Llc Context-based actions
US20180308479A1 (en) * 2009-02-20 2018-10-25 Vb Assets, Llc System and method for processing multi-modal device interactions in a natural language voice services environment
KR101930462B1 (ko) * 2017-09-25 2018-12-17 엘지전자 주식회사 차량 제어 장치 및 그것을 포함하는 차량

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6961699B1 (en) * 1999-02-19 2005-11-01 Custom Speech Usa, Inc. Automated transcription system and method using two speech converting instances and computer-assisted correction
US20180308479A1 (en) * 2009-02-20 2018-10-25 Vb Assets, Llc System and method for processing multi-modal device interactions in a natural language voice services environment
KR20110068490A (ko) * 2009-12-16 2011-06-22 포항공과대학교 산학협력단 외국어 학습 장치 및 그 제공 방법
WO2015062312A1 (en) * 2013-10-31 2015-05-07 Tencent Technology (Shenzhen) Company Limited Method, device and system for providing language service
US20160133254A1 (en) * 2014-11-06 2016-05-12 Microsoft Technology Licensing, Llc Context-based actions
KR101930462B1 (ko) * 2017-09-25 2018-12-17 엘지전자 주식회사 차량 제어 장치 및 그것을 포함하는 차량

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220293095A1 (en) * 2019-12-23 2022-09-15 Lg Electronics Inc Artificial intelligence apparatus for recognizing speech including multiple languages, and method for the same
US11682388B2 (en) * 2019-12-23 2023-06-20 Lg Electronics Inc Artificial intelligence apparatus for recognizing speech including multiple languages, and method for the same

Similar Documents

Publication Publication Date Title
WO2020218634A1 (ko) 응답 기기 결정 방법 및 장치
WO2020218645A1 (ko) 지능형 음성 인에이블 디바이스 검색 방법 및 장치
WO2020246649A1 (ko) 엣지 컴퓨팅 디바이스에서 음성 인식 방법
WO2021025187A1 (ko) 자율주행 차량 해킹 대응 방법 및 그 장치
WO2019160331A1 (en) Method and device for communicating synchronization signal
WO2018030825A1 (en) Method and apparatus for selecting resources in v2x communications
WO2019078576A1 (ko) 음성 신호를 제어하기 위한 전자 장치 및 방법
WO2020213767A1 (ko) 다중 디바이스 제어 시스템과 방법 및 이를 실행하기 위한 컴포넌트가 저장된 비 일시적 컴퓨터 판독 가능 매체
EP3342220A1 (en) Transmission and receipt processing method and device for time-frequency synchronization between v2x terminals
WO2019066475A1 (en) SYNCHRONIZATION REFERENCE SOURCE SELECTION METHOD AND EQUIPMENT FOR MULTI-CARRIER SIDE LINK COMMUNICATION
WO2019027245A1 (en) POSITIONING METHOD AND DEVICE FOR USER EQUIPMENT, AND USER EQUIPMENT
WO2020262718A1 (ko) 자율주행시스템에서 원격주행을 위한 센싱정보 전송방법 및 이를 위한 장치
WO2016122231A1 (en) Method, user equipment and base station for transmitting uplink signals
WO2021010506A1 (ko) 지능형 공기 청정기를 이용한 실내 공기질 제어방법 및 제어 장치
WO2021006401A1 (ko) 자율주행시스템에서 차량의 제어 방법 및 그 장치
WO2020246641A1 (ko) 복수의 화자 설정이 가능한 음성 합성 방법 및 음성 합성 장치
WO2020256174A1 (ko) 자율주행시스템에서 차량의 리소스 관리 방법 및 이를 위한 장치
WO2017135650A1 (en) Transmission and receipt processing method and device for time-frequency synchronization between v2x terminals
WO2021010530A1 (ko) 운전자 휴게 패턴에 따른 휴게 정보 제공 방법 및 이를 위한 장치
WO2020091390A1 (en) Method and apparatus of paging transmission and reception, system information window determination and uplink carrier selection
WO2018084575A1 (ko) 무선 통신 시스템에서 자원 풀 결정 방법 및 장치
WO2019112295A1 (ko) 외부 장치의 네트워크 셋업을 위한 전자 장치 및 그의 동작 방법
WO2020218650A1 (ko) 전자기기
WO2021100918A1 (ko) 지능형 대화 서비스 제공 방법 및 지능형 대화 시스템
WO2020226188A1 (ko) 주변 상황 인지에 따라 통화연결 디바이스를 선택하는 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19953264

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19953264

Country of ref document: EP

Kind code of ref document: A1