CN111798843A - 对话处理装置、具有它的车辆和对话处理方法 - Google Patents
对话处理装置、具有它的车辆和对话处理方法 Download PDFInfo
- Publication number
- CN111798843A CN111798843A CN201911191195.1A CN201911191195A CN111798843A CN 111798843 A CN111798843 A CN 111798843A CN 201911191195 A CN201911191195 A CN 201911191195A CN 111798843 A CN111798843 A CN 111798843A
- Authority
- CN
- China
- Prior art keywords
- user
- response
- feedback
- conversation partner
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims description 20
- 230000004044 response Effects 0.000 claims abstract description 303
- 238000004891 communication Methods 0.000 claims abstract description 50
- 230000000007 visual effect Effects 0.000 claims abstract description 9
- 230000008451 emotion Effects 0.000 claims description 22
- 238000010586 diagram Methods 0.000 description 9
- 230000003993 interaction Effects 0.000 description 3
- 238000000034 method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 210000003423 ankle Anatomy 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R16/00—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
- B60R16/02—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
- B60R16/03—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for supply of electrical power to vehicle subsystems or for
- B60R16/0315—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for supply of electrical power to vehicle subsystems or for using multiplexing techniques
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R16/00—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
- B60R16/02—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
- B60R16/037—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
- B60R16/0373—Voice control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mechanical Engineering (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种对话处理装置包括:语音输入单元,被配置为接收用户的语音;通信设备,被配置为从外部设备接收用户的对话历史信息;输出设备,被配置为在视觉方式或听觉方式输出与用户的语音对应的应答;和控制器。控制器被配置为:当接收到用户的语音时,基于对话历史信息,确定用户偏好应答;基于用户偏好应答,生成与用户的语音对应的应答;以及控制输出设备以输出所生成的应答。
Description
技术领域
本公开涉及被配置为通过与用户对话识别用户的意图来提供用户所需的信息或服务的对话处理装置、具有该对话处理装置的车辆和对话处理方法。
背景技术
对话处理装置是与用户执行对话的装置。对话处理装置可以识别用户的语音,通过语音识别结果识别用户的意图,并且输出用于向用户提供必要的信息或服务的应答。
另一方面,当输出应答以便与用户进行对话时,传统的对话处理装置在基于存储的数据使用预定的词汇和音调输出应答时具有限制。由于实际的人与人对话是根据讲话者或用户的状况以及讲话者的情绪或偏好,使用各种词汇或语音音调进行的,因此需要用于生成和输出反映了用户的情绪或偏好的对话应答的技术。
发明内容
本公开的实施例提供能够接收用户的语音且输出与用户的语音对应的应答的对话处理装置、具有该对话处理装置的车辆和对话处理方法。
本公开的附加方面部分地在以下描述中阐述,部分地可以从描述中理解,或者可以通过本公开的实践学习。
根据本公开的一个方面,一种对话处理装置包括:语音输入单元,被配置为接收用户的语音;通信设备,被配置为从外部设备接收用户的对话历史信息;输出设备,被配置为以视觉方式或听觉方式输出与用户的语音对应的应答;和控制器。控制器被配置为:当接收到用户的语音时,基于对话历史信息,确定用户偏好应答;基于用户偏好应答,生成与用户的语音对应的应答;以及控制输出设备以输出所生成的应答。
控制器可以基于对话历史信息,确定用户的话语、与用户的话语对应的对话伙伴的应答、以及与对话伙伴的应答对应的用户的反馈。控制器可以基于用户的反馈,确定用户偏好应答。
当满足关于用户的反馈的预定条件时,控制器可以将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
当用户的反馈中包括预定关键字时,控制器可以将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
控制器可以提取包括在用户的反馈中的关键字。当所提取的关键字和预先存储的肯定关键字信息之间的相似度等于或大于预定阈值时,控制器可以将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
控制器可以提取包括在用户的反馈内容中的表情图标或图标。当所提取的表情图标或图标的类型是预定类型时,控制器可以将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
当在预定应答时间内执行了用户对对话伙伴的应答的反馈时,控制器可以将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
控制器可以基于用户的反馈来确定用户的情绪。当用户的情绪是预定类型的情绪时,控制器可以将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
控制器可以:基于用户反馈,确定针对对话伙伴的每个应答的用户偏好;基于用户偏好,确定用户偏好的对话伙伴;以及将用户偏好的对话伙伴的应答确定为用户偏好应答。
控制器可以:基于对话历史信息,确定每个对话伙伴的联系频率;基于联系频率,对用户偏好施加权重;以及基于加权的用户偏好,确定用户偏好应答。
对话处理装置还可以包括存储装置,存储装置被配置为存储所确定的用户偏好应答。控制器可以:通过识别用户的语音,生成语音识别结果;基于语音识别结果,确定用户的意图;以及控制存储装置以存储针对用户的每个意图的用户偏好应答。
根据本公开的另一个方面,一种对话处理装置的对话处理方法,对话处理装置包括被配置为接收用户的语音的语音输入单元、以及被配置为以视觉方式或听觉方式输出与用户的语音对应的应答的输出设备。对话处理方法包括:从外部设备接收用户的对话历史信息;基于对话历史信息,确定用户偏好应答;存储所确定的用户偏好应答;当接收到用户的语音时,基于用户偏好应答,生成与用户的语音对应的应答;以及输出所生成的应答。
基于对话历史信息确定用户偏好应答可以包括:基于对话历史信息,确定用户的话语、与用户的话语对应的对话伙伴的应答、以及与对话伙伴的应答对应的用户的反馈;以及基于用户的反馈,确定用户偏好应答。
基于用户的反馈确定用户偏好应答可以包括:当满足关于用户的反馈的预定条件时,将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
基于用户的反馈确定用户偏好应答可以包括:当用户的反馈中包括预的关键字、预定类型的表情图标或预定类型的图标时,将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
基于用户的反馈确定用户偏好应答可以包括:当在预定应答时间内执行了用户对对话伙伴的应答的反馈时,将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
基于用户的反馈确定用户偏好应答可以包括:基于用户的反馈,确定用户的情绪;以及当用户的情绪是预定类型的情绪时,将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
基于用户的反馈确定用户偏好应答可以包括:基于用户反馈,确定针对对话伙伴的每个应答的用户偏好;基于用户偏好,确定用户偏好的对话伙伴;以及将用户偏好的对话伙伴的应答确定为用户偏好应答。
基于用户的反馈确定用户偏好应答可以包括:基于对话历史信息,确定每个对话伙伴的联系频率;基于联系频率,对用户偏好施加权重;以及基于加权的用户偏好,确定用户偏好应答。
根据本公开的另一个方面,一种车辆包括:语音输入单元,被配置为接收用户的语音;通信设备,被配置为从外部设备接收用户的对话历史信息;输出设备,被配置为以视觉方式或听觉方式输出与用户的语音对应的应答;和控制器。控制器被配置为:基于对话历史信息,确定用户偏好应答;当接收到用户的语音时,基于用户偏好应答生成与用户的语音对应的应答;以及控制输出设备以输出所生成的应答。
控制器可以被配置为:基于对话历史信息,确定用户的话语、与用户的话语对应的对话伙伴的应答、以及与对话伙伴的应答对应的用户的反馈。控制器还可以被配置为:基于用户的反馈,确定用户偏好应答。
附图说明
图1A是根据本公开的实施例的对话处理装置的控制框图。
图1B是根据本公开的实施例的用于设置在车辆中的对话处理装置的图示。
图2A是用于描述根据本公开的实施例的通过对话处理装置确定用户偏好应答的操作的图示。
图2B是用于描述根据本公开的实施例的通过对话处理装置确定用户偏好应答的操作的图示。
图3是示出根据本公开的实施例的通过对话处理装置获取的用户偏好应答的示例的图示。
图4是示出根据本公开的实施例的对话处理方法的流程图。
图5是示出根据本公开的实施例的对话处理方法的流程图。
具体实施方式
贯穿该文献,相同的附图标记和符号用于指代相同或相似的部件。在本公开的以下描述中,当可能致使本公开的主题相当不清楚时,省略对本文中所包括的已知功能和配置的详细描述。如贯穿说明书使用的术语诸如“~部”、“~模块”、“~构件”、“~块”等,可以用软件和/或硬件实现,并且多个“~部”、“~模块”、“~构件”或“~块”可以用单个元件实现,或者单个“~部”、“~模块”、“~构件”或“~块”可以包括多个元件。
在本文中应当理解,当提及一部分“连接到”另一部分时,该部分不仅可以“直接连接到”另一部分,而且该部分也可以“间接”连接到另一部分。当提及该部分间接连接到另一部分时,该部分可以经由无线通信网络连接到另一部分。
应当理解,本文中使用的术语“包括”、“包含”、“具有”及其任何变型旨在覆盖非排他性的包括,除非有相反地明确描述。
虽然术语“第一”、“第二”、“A”、“B”等可以用于描述各种部件,但是术语不限制对应的部件,而是仅用于将一个部件与另一部件区分开的目的。
本文使用的对单数形式的部件的描述旨在包括对复数形式的部件的描述,除非有相反地明确描述。
各阶段中的附图标记或符号仅用于将相应阶段与其它阶段区分开,而未必描述各阶段的次序。可以与描述的次序不同的次序执行各阶段,除非在上下文中描述具体次序。
在下文中,参考附图详细描述根据本公开的方面的车辆及其控制方法的实施例。
图1A是根据本公开的实施例的对话处理装置的控制框图,图1B是根据本公开的实施例的用于设置在车辆中的对话处理装置的图示。
参照图1A,根据实施例的对话处理装置100可以包括:语音输入设备110,被配置为接收用户的语音;通信设备120,被配置为与外部设备执行通信;控制器130,被配置为总体控制对话处理装置100的至少一个配置;输出设备140;以及存储装置150。
语音输入设备110可以接收用户的语音。语音输入设备110可以包括麦克风,其接收声音并将声音转换成电信号。
通信设备120可以从外部设备接收与用户相关的对话历史信息。在该情况下,对话历史信息可以指代用于识别用户与不特定对话伙伴执行的对话的信息。用户的对话可以包括通过电话呼叫的语音对话以及使用消息服务或即时通讯的文本对话。
此外,用户的对话可以包括通过社交网络服务(SNS)(例如,Facebook、Twitter、Instagram和KakaoTalk)进行的交互。例如,通过与SNS交互,用户可以在使用Facebook服务的同时,在特定人分享的内容上输入“like”图标。在该情况下,诸如用户输入“like”图标的内容和目标内容的类型的信息可以被包括在用户的对话中作为交互历史。
对话历史信息可以不仅包括上面提及的对话内容,也包括关于对话频率的信息。对话历史信息可以包括电话信息、文本信息或SNS信息中的至少一个。电话信息可以包括用户的呼叫列表或电话簿信息中的至少一个。文本信息可以包括关于由用户发送或接收的消息的信息或关于交换了消息的对方的信息。SNS信息可以包括通过前面提及的SNS进行的交互信息。
然而,对话历史信息不限于上述示例。对话历史信息可以包括与用户和不特定伙伴执行的通信相关的所有信息。为此,通信设备120可以与外部设备执行通信。外部设备可以包括用户终端或外部服务器。
用户终端可以被实现为能够通过网络连接到车辆200(图1B中所示)的计算机或便携式终端。在该实施例中,计算机可以包括例如笔记本计算机、台式计算机、膝上型PC、平板PC、平板个人PC等,这些中的每个配备有WEB浏览器。便携式终端可以是移动无线通信设备,并且可以包括:所有类型的手持无线通信设备,例如个人通信系统(PCS)、全球移动通信系统(GSM)、个人数字蜂窝(PDC)、个人手机系统(PHS)、个人数字助理(PDA)、国际移动电信(IMT)-2000、码分多址(CDMA)-2000、宽带码分多址(W-CDMA)、无线宽带因特网(WiBro)终端、智能电话等;以及可穿戴设备,例如手表、戒指、手镯、踝链、项链、眼镜、隐形眼镜或头戴式设备(HMD)。
另一方面,通信设备120可以包括使得能够与外部设备(例如,短距离通信模块、有线通信模块和无线通信模块中的至少一个)通信的至少一个部件。
短距离通信模块可以包括在短距离内使用无线通信网络发送和接收信号的各种短距离通信模块,即蓝牙模块、红外通信模块、射频识别(RFID)通信模块、无线局域网(WLAN)通信模块、NFC通信模块和Zigbee通信模块。
有线通信模块可以包括各种有线通信模块,即控制器区域网(CAN)通信模块、局域网(LAN)模块、广域网(WAN)模块或增值网络通信(VAN)模块;以及各种电缆通信模块,例如通用串行总线(USB)模块、高清晰度多媒体接口(HDMI)模块、数字视频接口(DVI)模块、推荐标准-232(RS-232)模块、电力线通信模块或普通老式电话服务(POTS)模块。
无线通信模块可以包括支持各种无线通信方法的无线通信模块,即Wi-Fi模块、无线宽带(Wibro)模块、全球移动通信系统(GSM)模块、码分多址(CDMA)模块、宽带码分多址(WCDMA)模块、通用移动电信系统(UMTS)模块、时分多址(TDMA)模块、长期演进(LTE)模块等。
无线通信模块可以包括含有天线和用于发送信号的发射机的无线通信接口。此外,无线通信模块还可以包括用于在控制单元的控制下将从控制器130通过无线通信接口输出的数字控制信号转换成模拟型无线信号的信号转换模块。
无线通信模块可以包括含有天线和用于接收信号的接收机的无线通信接口。此外,无线通信模块还可以包括用于将通过无线通信接口接收的模拟型无线信号解调成数字控制信号的信号转换模块。
输出设备140可以以视觉方式或听觉方式输出对应于用户的语音的应答。为此,输出设备140可以包括用于输出对应于用户的语音的应答作为声音的扬声器或用于输出对应于用户的语音的应答作为图像或文本的显示器中的至少一个。
当接收到用户的语音时,控制器130可以基于预先存储的用户偏好应答,生成对应于用户的语音的应答。控制器130可以控制输出设备140以输出所生成的应答。
为此,控制器130可以基于从通信设备120接收的或存储在存储装置150中的对话历史信息,确定用户偏好应答。控制器130可以将所确定的用户偏好应答存储在存储装置150中。
在该情况下,用户偏好应答可以指代用户偏好的对话应答,并且可以将与用户的语音对应的对话伙伴的应答称为用户偏好的对话伙伴的应答。下面描述用于确定用户偏好应答的详细操作。
控制器130可以识别从语音输入设备110输入的用户的语音,并且将用户的语音转换成文本。控制器130可以将自然语言理解算法应用于口语文本,以确定用户或对话伙伴的意图。此时,由控制器130识别的用户或对话伙伴的意图可以包括基于口语文本识别的对话主题或呼叫主题。
为此,控制器130可以包括语音识别模块,并且可以被实现为执行用于处理输入语音的操作的处理器(未示出)。
另一方面,如果用户与对话伙伴之间的对话包括语音对话(包括电话呼叫),则控制器130可以识别用户和对话伙伴的语音,并且将语音转换成对话历史信息形式的文本。控制器130可以将所转换的文本存储在存储装置150中。
此外,控制器130可以使至少一个用户偏好应答与用户或对话伙伴的意图匹配。替换地,控制器130可以控制存储装置150,以存储针对用户或对话伙伴的每个意图的用户偏好应答。
控制器130可以被实现为用于存储用于控制对话处理装置100中的部件的操作的算法或关于再现算法的程序的数据的存储器;以及用于使用存储在存储器中的数据执行上述操作的处理器(未示出)。在该情况下,存储器和处理器可以各自实现为单独的芯片。替换地,存储器和处理器可以被实现为单个芯片。
存储装置150可以存储关于对话处理装置100或车辆200(图1B中所示)的各种信息。
存储装置150可以存储由控制器130基于控制器130的控制信号获取的用户偏好应答。此外,存储装置150可以存储从通信设备120接收的用户信息。存储装置150可以存储对于识别用户的语音必要的各种信息。
为此,存储装置150可以被实现为以下中的至少一个:非易失性存储器设备,例如高速缓存、ROM(只读存储器)、PROM(可编程ROM)、EPROM(可擦除可编程ROM)、EEPROM(电可擦除可编程ROM)和闪存;易失性存储器设备,例如RAM(随机存取存储器);以及存储介质,例如HDD(硬盘驱动器)和CD-ROM,但不限于此。存储装置150可以是被实现为与和控制器130连接的上述处理器分离的芯片的存储器。存储装置150可以与处理器一起被实现为单个芯片。
参考图1B,对话处理装置100可以设置在车辆200中。根据实施例,车辆200可以包括前面提及的对话处理装置100的至少一个部件。在该情况下,用户可以是车辆200的驾驶员,但不限于此,并且可以包括乘客。
可以对应于图1A中示出的对话处理装置100的部件的性能添加或删除至少一个部件。本领域技术人员应当容易理解,可以对应于系统的性能或结构改变部件的相对位置。
图1A中所示的每个部件指代软件部件和/或硬件部件,例如现场可编程门阵列(FPGA)和专用集成电路(ASIC)。
在下文中,描述控制器130的详细操作。
图2A和图2B是用于描述根据本公开的实施例的通过对话处理装置确定用户偏好应答的操作的图示。图3是示出根据本公开的实施例的通过对话处理装置获取的用户偏好应答的示例的图示。
控制器130可以基于对话历史信息来确定用户偏好应答。详细地,控制器130可以基于对话历史信息,确定用户的话语、对应于用户的话语的对话伙伴的应答、以及用户对对话伙伴的应答的反馈。控制器130可基于用户的反馈,确定用户偏好应答。
例如,如图2A所示,当用户发出第一话语U1“Lets’hang out!”,对话伙伴可以应答于用户的话语U1,发出第二话语R1“Let’s go anywhere!”。
应答于对话伙伴的应答R1,如果存在用户已经发出了第三话语U2“You are thebest”(心形表情图标)的对话历史,则控制器130可以将第一话语U1“Lets’hang out!”确定为用户的话语。控制器130还可以将第二话语R1“Let’s go anywhere!”确定为与用户的话语U1对应的对话伙伴的应答。另外,控制器130可以将第三话语U2“You are the best”确定为与对话伙伴的应答R1对应的用户的反馈。其后,控制器130可以基于用户的反馈U2,确定用户偏好应答。
如果用户的反馈满足预定条件,则控制器130可以将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
在该情况下,预定条件是用于确定用户的应答是否是肯定的条件,并且可以包括用户的反馈内容或用户的反馈时间的条件中的至少一个。可以在装置设计阶段预先确定用于识别用户的肯定应答的预定条件,并且可以通过通信设备120接收预定条件。
详细地,当在用户的反馈的内容中包括预定关键字时,控制器130可以将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
为此,控制器130可以提取包括在用户的反馈的内容中的关键字,并且基于所提取的关键字,将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
控制器130可以确定包括在用户的反馈中的关键字与预先存储的肯定关键字信息之间的相似度。如果包括在用户的反馈中的关键字与预先存储的肯定关键字信息之间的相似度等于或大于预定相似度,则控制器130可以将与包括对应关键字的用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
在该情况下,肯定关键字信息是用于估计用户的肯定应答的关键字,并且可以包括例如诸如‘best’、‘great’或‘cool’的关键字。肯定关键字可以通过通信设备120接收,并且可以被存储在存储装置150中。
例如,当获得图2A中描述的对话历史信息时,控制器130可以提取包括在用户的反馈U2的内容中的‘best’的关键字。当关键字‘best’与预定的肯定关键字之间的相似度等于或大于预定阈值时,控制器130可以将与用户的反馈U2对应的对话伙伴的应答R1确定为用户偏好应答并存储它。
此外,控制器130可以提取包括在用户的反馈中的表情图标或图标。当所提取的表情图标或图标的类型是预定类型时,控制器130可以将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
当用户的反馈中包括该类型的表情图标或图标,或者用户的反馈中包括估计用户的肯定应答的表情图标或图标的类型时,控制器130可以将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
例如,当获得图2A中描述的对话历史信息时,控制器130可以提取包括在用户的反馈U2中的表情图标。当表情图标被确定为预定表情图标类型时,控制器130可以将与用户的反馈U2对应的对话伙伴的应答R1确定为用户偏好应答,并且控制器存储用户偏好应答。
在另一个示例中,如图2B所示,当获得了包括用户的话语U1’“What’s up?”、与用户的话语U1’对应的对话伙伴的应答R1’“It’s none of your business.”、以及用户的反馈U2’“Hmm…”的对话历史信息时,如果在用户的反馈U2’中不存在能够用于估计用户的肯定应答的关键字、表情图标或图标,则控制器可以不存储对话伙伴的应答R1’。
此外,当与对话伙伴的应答对应的用户的反馈的应答时间小于或等于预定时间时,控制器130可以将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。在该情况下,用户的反馈的应答时间可以指代自对话伙伴的应答时间起直到用户输入反馈的时间。
为此,控制器130可以从对话历史信息提取对话伙伴的应答时间和与之对应的用户的反馈时间。控制器130可以基于所提取的用户反馈的应答时间,确定用户偏好应答。
此外,控制器130可以基于用户的反馈来确定用户的情绪。如果用户的情绪是预定类型的情绪,则控制器130可以将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
在该情况下,控制器130可以基于用户的反馈内容,确定用户的情绪。控制器130可以使用通过通信设备120提前接收或存储的情绪图,确定用户的情绪关键字。当情绪关键字是预定类型时,控制器130可以将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。此外,为了确定用户的情绪,控制器130可以利用通过语音输入设备110接收的用户的语音的高度或音调信息。
此外,控制器130可以基于用户的反馈,确定用户对对话伙伴的每个应答的偏好。控制器130可以基于用户的偏好,确定用户偏好的对话伙伴,并且将用户偏好的对话伙伴的应答确定为用户的偏好应答。
用户对对话伙伴的应答中的每个的偏好可以指代用户对对话伙伴的应答的反馈满足上面提及的预定条件的程度,即用户对对话伙伴的应答的肯定应答的强度。
控制器130可以对满足上述用于用户的反馈的内容或时间的预定条件的程度进行量化,并且将量化的程度确定为偏好。
例如,控制器130可以对包括在与对话伙伴的应答对应的用户的反馈的内容中的关键字与预定关键字之间的相似度进行量化。控制器130可以基于相似度来确定用户的偏好。替换地,控制器130可以对包括在与对话伙伴的应答对应的用户的反馈的内容中的表情图标或图标的类型与预定关键字之间的相似度进行量化。控制器130还可以基于相似度来确定用户的偏好。
控制器130可以将输入用户的偏好等于或大于预定偏好的应答的对话伙伴确定为用户偏好的对话伙伴。控制器130可以将用户偏好的对话伙伴的应答确定为用户偏好的应答。在该情况下,控制器130可以提取与用户偏好的对话伙伴的对话历史信息,并且可以基于所提取的对话历史信息,根据意图存储用户偏好的对话伙伴的应答。
控制器130可以基于对话历史信息,确定每个对话伙伴的联系频率,并且可以基于联系频率,对用户的偏好施加权重。控制器130可以基于加权的用户的偏好,确定用户偏好应答。
例如,控制器130可以与联系频率成比例地将权重施加到用户的偏好。控制器130可以将最高权重施加到关于具有最高联系频率的对话伙伴的应答的用户的偏好。控制器130可以将具有施加了权重的最高用户的偏好的对话伙伴的应答确定为用户偏好应答。
用户偏好应答可以存储在存储装置150中,并且可以根据用户的对话意图存储在存储装置150中。此外,与对话伙伴的应答对应的用户的偏好也可以与对话伙伴的应答数据匹配。
例如,如图3所示,对应于至少一个意图(即,问候、天气_问候、询问_名字、询问_年龄或再见)的至少一个应答数据分别与存储装置150的用户偏好应答数据库(DB)151匹配。在该情况下,至少一个应答数据可以与对应的偏好匹配,并且被存储。
当输入了用户的语音时,控制器130可以基于存储在用户偏好应答DB 151中的用户偏好应答,生成与用户的语音对应的应答。控制器130可以从用户的语音的语音识别结果识别用户的意图,并且从用户偏好应答DB 151检索与用户的意图对应的应答。
在该情况下,控制器130可以通过按原样使用检索到的用户偏好应答来生成与用户的语音对应的最终应答。替换地,控制器130可以通过根据具体情形改变检索到的用户偏好应答,来生成与用户的语音对应的最终应答。
替换地,当确定存在与用户的意图对应的多个用户偏好应答时,控制器130可以基于用户的偏好,生成与用户的语音对应的应答。
控制器130可以控制输出设备140以输出与用户的语音对应的应答。输出设备140可以以视觉方式或听觉方式输出所生成的应答。
由于用户可以使用用户偏好的对话伙伴的对话应答执行对话,所以用户可以感觉像是他/她正在与用户的最喜欢的对话伙伴进行对话。因此,可以增加用户的便利性和满意度。
图4是示出根据本公开的实施例的对话处理方法的流程图。
参照图4,根据实施例的对话处理装置100可以接收对话历史信息(401)。在该情况下,对话历史信息可以指代用于识别与不特定对话伙伴执行的用户的对话的信息。用户的对话可以包括通过电话呼叫的语音对话和使用消息服务或即时通讯的文本对话。此外,用户的对话可以包括通过社交网络服务(SNS)的交互,例如Facebook、Twitter、Instagram和KakaoTalk。其详细描述与上面描述的相同。
对话处理装置100可以基于接收到的对话历史信息,确定用户偏好应答(402)。在该情况下,用户偏好应答可以指代由用户偏好的对话应答。用户偏好应答也可以将与用户的语音对应的对话伙伴的应答称为用户偏好的对话伙伴的应答。
详细地,对话处理装置100可以基于对话历史信息,确定用户的话语、与用户的话语对应的对话伙伴的应答、以及用户对对话伙伴的应答的反馈。对话处理装置100可以基于用户的反馈,确定用户偏好应答。
如果用户的反馈满足预定条件,则对话处理装置100可以将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。在该情况下,预定条件是用于确定用户的应答是否是肯定的条件,并且可以包括用户的反馈内容或用户的反馈时间的条件中的至少一个。
详细地,当用户的反馈的内容中包括预定关键字时,对话处理装置100可以将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。对话处理装置100可以确定包括在用户的反馈中的关键字与预先存储的肯定关键字信息之间的相似度。如果包括在用户的反馈中的关键字与预先存储的肯定关键字信息之间的相似度等于或大于预定相似度,则对话处理装置100可以将与包括对应关键字的用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
此外,对话处理装置100可以提取包括在用户的反馈中的表情图标或图标。当所提取的表情图标或图标的类型是预定类型时,对话处理装置100可以将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
另外,当与对话伙伴的应答对应的用户的反馈的应答时间小于或等于预定时间时,对话处理装置100可以将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。在该情况下,用户的反馈的应答时间可以指代自对话伙伴的应答时间起直到用户输入反馈的时间。
此外,对话处理装置100可以基于用户的反馈,确定用户的情绪。如果用户的情绪是预定类型的情绪,则对话处理装置100可以将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
另外,对话处理装置100可以基于用户的反馈,确定用户对对话伙伴的每个应答的偏好。对话处理装置100可以基于用户的偏好,确定用户偏好的对话伙伴,并且可以将用户偏好的对话伙伴的应答确定为用户偏好应答。
用户对对话伙伴的应答中的每个的偏好可以指代用户对对话伙伴的应答的反馈满足上面提及的预定条件的程度,即用户对对话伙伴的应答的肯定应答的强度。
对话处理装置100可以对满足上述用于用户的反馈的内容或时间的预定条件的程度进行量化。对话处理装置100可以将量化的程度确定为偏好。对话处理装置100可以将输入用户的偏好等于或大于预定偏好的应答的对话伙伴确定为用户偏好的对话伙伴。对话处理装置100可以将用户偏好的对话伙伴的应答确定为用户偏好应答。
此外,对话处理装置100可以基于对话历史信息,确定每个对话伙伴的联系频率,并且可以基于联系频率,将权重施加到用户的偏好。对话处理装置100可以基于加权的用户的偏好,确定用户偏好应答。
用于基于这些预定条件确定用户偏好应答的对话处理装置100的操作与上述相同。
一旦确定了用户偏好应答,对话处理装置100就可以存储用户偏好应答(403)。此时,对话处理装置100根据用户的对话意图将用户偏好应答存储在存储装置150中。此外,对话处理装置100可以将与对话伙伴的应答对应的用户的偏好与对话伙伴的应答数据匹配。
此外,对话处理装置100可以提取与用户偏好的对话伙伴的对话历史信息。对话处理装置100可以基于所提取的对话历史信息,根据意图存储由用户偏好的对话伙伴的应答。
可以基于用户的对话历史信息来识别用户偏好的对话应答,并且通过存储针对用户的每个对话意图的用户偏好的对话应答,根据用户的个人偏好提供对话服务。因此,可以增加用户的便利性。
图5是示出根据本公开的实施例的对话处理方法的流程图。
参照图5,根据实施例的对话处理装置100可以确定是否接收到用户的语音(501)。当接收到用户的语音(501的“是”)时,对话装置100可以生成用户的语音的语音识别结果(502)。在该情况下,对话处理装置100可以将用户的语音转换成文本型语音,作为用户的语音识别的结果,并且通过将自然语言理解算法应用于用户的语音,确定用户或对话伙伴的意图(503)。
之后,对话处理装置100可以基于所存储的用户偏好应答,生成与用户的语音识别结果对应的应答(504)。对话处理装置100可以从用户偏好应答DB 151检索与用户的意图对应的应答,并且可以基于与检索到的用户的意图对应的应答数据,生成应答。
在该情况下,对话处理装置100可以通过按原样使用检索到的用户偏好应答,生成与用户的语音对应的最终应答。替换地,对话处理装置100可以通过根据具体情形改变检索到的用户偏好应答,生成与用户的语音对应的最终应答。
替换地,当确定存在与用户的意图对应的多个用户偏好应答时,对话处理装置100可以基于用户的偏好,生成与用户的语音对应的应答。
对话处理装置100可以以视觉方式或听觉方式输出与用户的语音对应的应答(505)。
由于用户可以使用用户偏好的对话伙伴的对话应答执行对话,所以用户可以感觉像是他/她正在与用户的最喜欢的对话伙伴进行对话。因此,可以增加用户的便利性和满意度。
可以存储由计算机可执行的指令的记录介质的形式实施所公开的实施例。指令可以程序代码的形式存储,并且当由处理器执行时,程序模块可以被创建以执行所公开实施例的操作。记录介质可以被实施为计算机可读记录介质。
计算机可读记录介质包括所有种类的记录介质,在所有种类的记录介质中存储可由计算机解密的指令。例如,可以存在ROM(只读存储器)、RAM(随机存取存储器)、磁带、磁盘、闪速存储器、光学数据存储设备等。
如从上面显而易见的,根据对话处理设备、包括该对话处理设备的车辆和根据本公开的方面的对话处理方法,由于提供满足个体偏好的对话服务,所以存在用户便利性和满意度的增加。
上面已经描述参考附图公开的实施例。本领域普通技术人员应当理解,可以在其中进行各种形式和细节改变,而不脱离如由所附权利要求书限定的本公开的精神和范围。所公开的实施例是例示性的,并且不应当被解释为限制性的。
Claims (21)
1.一种对话处理装置,包括:
语音输入单元,被配置为:接收用户的语音;
通信设备,被配置为:从外部设备接收用户的对话历史信息;
输出设备,被配置为:以视觉方式或听觉方式输出与用户的语音对应的应答;和
控制器,被配置为:
基于对话历史信息,确定用户偏好应答;
当接收到用户的语音时,基于用户偏好应答来生成与用户的语音对应的应答;以及
控制所述输出设备以输出所生成的应答。
2.根据权利要求1所述的对话处理装置,其中,所述控制器被配置为:
基于对话历史信息,确定用户的话语、与用户的话语对应的对话伙伴的应答、以及与对话伙伴的应答对应的用户的反馈;以及
基于用户的反馈,确定用户偏好应答。
3.根据权利要求2所述的对话处理装置,其中,当满足关于用户的反馈的预定条件时,所述控制器被配置为:
将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
4.根据权利要求3所述的对话处理装置,其中,当用户的反馈中包括预定关键字时,所述控制器被配置为:
将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
5.根据权利要求4所述的对话处理装置,其中,所述控制器被配置为:
提取包括在用户的反馈中的关键字;以及
当所提取的关键字与预先存储的肯定关键字信息之间的相似度等于或大于预定阈值时,将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
6.根据权利要求3所述的对话处理装置,其中,所述控制器被配置为:
提取包括在用户的反馈内容中的表情图标或图标;以及
当所提取的表情图标或图标的类型是预定类型时,将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
7.根据权利要求3所述的对话处理装置,其中,所述控制器被配置为:
当在预定应答时间内执行了用户对对话伙伴的应答的反馈时,将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
8.根据权利要求3所述的对话处理装置,其中,所述控制器被配置为:
基于用户的反馈来确定用户的情绪;以及
当用户的情绪是预定类型的情绪时,将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
9.根据权利要求3所述的对话处理装置,其中,所述控制器被配置为:
基于用户反馈,确定针对对话伙伴的每个应答的用户偏好;
基于用户偏好,确定用户偏好的对话伙伴;以及
将用户偏好的对话伙伴的应答确定为用户偏好应答。
10.根据权利要求9所述的对话处理装置,其中,所述控制器被配置为:
基于对话历史信息,确定每个对话伙伴的联系频率;
基于联系频率,对用户偏好施加权重;以及
基于加权的用户偏好,确定用户偏好应答。
11.根据权利要求1所述的对话处理装置,还包括存储装置,所述存储装置被配置为:存储所确定的用户偏好应答,
其中,所述控制器被配置为:
通过识别用户的语音,生成语音识别结果;
基于语音识别结果,确定用户的意图;以及
控制所述存储装置以存储针对用户的每个意图的用户偏好应答。
12.一种对话处理装置的对话处理方法,所述对话处理装置包括被配置为接收用户的语音的语音输入单元、以及被配置为以视觉方式或听觉方式输出与用户的语音对应的应答的输出设备,所述对话处理方法包括以下步骤:
从外部设备接收用户的对话历史信息;
基于对话历史信息,确定用户偏好应答;
存储所确定的用户偏好应答;
当接收到用户的语音时,基于用户偏好应答来生成与用户的语音对应的应答;以及
输出所生成的应答。
13.根据权利要求12所述的对话处理方法,其中,基于对话历史信息确定用户偏好应答的步骤包括:
基于对话历史信息,确定用户的话语、与用户的话语对应的对话伙伴的应答、以及与对话伙伴的应答对应的用户的反馈;以及
基于用户的反馈,确定用户偏好应答。
14.根据权利要求13所述的对话处理方法,其中,基于用户的反馈确定用户偏好应答的步骤包括:
当满足关于用户的反馈的预定条件时,将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
15.根据权利要求14所述的对话处理方法,其中,基于用户的反馈确定用户偏好应答的步骤包括:
当用户的反馈中包括预定关键字、预定类型的表情图标或预定类型的图标时,将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
16.根据权利要求14所述的对话处理方法,其中,基于用户的反馈确定用户偏好应答的步骤包括:
当在预定应答时间内执行了用户对对话伙伴的应答的反馈时,将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
17.根据权利要求14所述的对话处理方法,其中,基于用户的反馈确定用户偏好应答的步骤包括:
基于用户的反馈,确定用户的情绪;以及
当用户的情绪是预定类型的情绪时,将与用户的反馈对应的对话伙伴的应答确定为用户偏好应答。
18.根据权利要求14所述的对话处理方法,其中,基于用户的反馈确定用户偏好应答的步骤包括:
基于用户反馈,确定针对对话伙伴的每个应答的用户偏好;
基于用户偏好,确定用户偏好的对话伙伴;以及
将用户偏好的对话伙伴的应答确定为用户偏好应答。
19.根据权利要求18所述的对话处理方法,其中,基于用户的反馈确定用户偏好应答的步骤包括:
基于对话历史信息,确定每个对话伙伴的联系频率;
基于联系频率,对用户偏好施加权重;以及
基于加权的用户偏好,确定用户偏好应答。
20.一种车辆,包括:
语音输入单元,被配置为:接收用户的语音;
通信设备,被配置为:从外部设备接收用户的对话历史信息;
输出设备,被配置为:以视觉方式或听觉方式输出与用户的语音对应的应答;以及
控制器,被配置为:
基于对话历史信息,确定用户偏好应答;
当接收到用户的语音时,基于用户偏好应答来生成与用户的语音对应的应答;以及
控制所述输出设备以输出所生成的应答。
21.根据权利要求20所述的车辆,其中,所述控制器被配置为:
基于对话历史信息,确定用户的话语、与用户的话语对应的对话伙伴的应答、以及与对话伙伴的应答对应的用户的反馈;以及
基于用户的反馈,确定用户偏好应答。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2019-0038360 | 2019-04-02 | ||
KR1020190038360A KR20200116688A (ko) | 2019-04-02 | 2019-04-02 | 대화 처리 장치, 이를 포함하는 차량 및 대화 처리 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111798843A true CN111798843A (zh) | 2020-10-20 |
Family
ID=72662445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911191195.1A Pending CN111798843A (zh) | 2019-04-02 | 2019-11-28 | 对话处理装置、具有它的车辆和对话处理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200320993A1 (zh) |
KR (1) | KR20200116688A (zh) |
CN (1) | CN111798843A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114296680A (zh) * | 2021-12-24 | 2022-04-08 | 领悦数字信息技术有限公司 | 基于面部图像识别的虚拟试驾装置、方法和存储介质 |
CN115017280A (zh) * | 2022-05-17 | 2022-09-06 | 美的集团(上海)有限公司 | 对话管理方法及装置 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220086342A (ko) * | 2020-12-16 | 2022-06-23 | 삼성전자주식회사 | 음성 입력의 응답 제공 방법 및 이를 지원하는 전자 장치 |
KR20220095973A (ko) * | 2020-12-30 | 2022-07-07 | 삼성전자주식회사 | 음성 입력에 응답하는 방법 및 이를 지원하는 전자 장치 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102004056166A1 (de) * | 2004-11-18 | 2006-05-24 | Deutsche Telekom Ag | Sprachdialogsystem und Verfahren zum Betreiben |
CN101482884A (zh) * | 2009-01-21 | 2009-07-15 | 华东师范大学 | 一种基于用户偏好评分分布的协作推荐系统 |
US7725317B2 (en) * | 2004-02-27 | 2010-05-25 | Fujitsu Limited | Interactive control system and method |
US20140040748A1 (en) * | 2011-09-30 | 2014-02-06 | Apple Inc. | Interface for a Virtual Digital Assistant |
CN103763302A (zh) * | 2013-12-16 | 2014-04-30 | 东南大学 | 一种web服务组合生成方法 |
US8954317B1 (en) * | 2011-07-01 | 2015-02-10 | West Corporation | Method and apparatus of processing user text input information |
CN105512349A (zh) * | 2016-02-23 | 2016-04-20 | 首都师范大学 | 一种用于学习者自适应学习的问答方法及装置 |
JP2018054850A (ja) * | 2016-09-28 | 2018-04-05 | 株式会社東芝 | 情報処理システム、情報処理装置、情報処理方法、及びプログラム |
US20180114531A1 (en) * | 2016-06-20 | 2018-04-26 | A9.Com, Inc. | Using voice information to influence importance of search result categories |
CN108346430A (zh) * | 2017-01-23 | 2018-07-31 | 现代自动车株式会社 | 对话系统、具有对话系统的车辆以及对话处理方法 |
US20180332118A1 (en) * | 2017-05-12 | 2018-11-15 | Apple Inc. | Synchronization and task delegation of a digital assistant |
KR20190011458A (ko) * | 2017-07-25 | 2019-02-07 | 현대자동차주식회사 | 차량, 그와 통신하는 모바일 기기 및 차량의 제어 방법 |
-
2019
- 2019-04-02 KR KR1020190038360A patent/KR20200116688A/ko active Search and Examination
- 2019-11-04 US US16/673,624 patent/US20200320993A1/en not_active Abandoned
- 2019-11-28 CN CN201911191195.1A patent/CN111798843A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7725317B2 (en) * | 2004-02-27 | 2010-05-25 | Fujitsu Limited | Interactive control system and method |
DE102004056166A1 (de) * | 2004-11-18 | 2006-05-24 | Deutsche Telekom Ag | Sprachdialogsystem und Verfahren zum Betreiben |
CN101482884A (zh) * | 2009-01-21 | 2009-07-15 | 华东师范大学 | 一种基于用户偏好评分分布的协作推荐系统 |
US8954317B1 (en) * | 2011-07-01 | 2015-02-10 | West Corporation | Method and apparatus of processing user text input information |
US9195641B1 (en) * | 2011-07-01 | 2015-11-24 | West Corporation | Method and apparatus of processing user text input information |
US20140040748A1 (en) * | 2011-09-30 | 2014-02-06 | Apple Inc. | Interface for a Virtual Digital Assistant |
CN103763302A (zh) * | 2013-12-16 | 2014-04-30 | 东南大学 | 一种web服务组合生成方法 |
CN105512349A (zh) * | 2016-02-23 | 2016-04-20 | 首都师范大学 | 一种用于学习者自适应学习的问答方法及装置 |
US20180114531A1 (en) * | 2016-06-20 | 2018-04-26 | A9.Com, Inc. | Using voice information to influence importance of search result categories |
JP2018054850A (ja) * | 2016-09-28 | 2018-04-05 | 株式会社東芝 | 情報処理システム、情報処理装置、情報処理方法、及びプログラム |
WO2018061774A1 (ja) * | 2016-09-28 | 2018-04-05 | 株式会社東芝 | 情報処理システム、情報処理装置、情報処理方法、及び記憶媒体 |
CN108346430A (zh) * | 2017-01-23 | 2018-07-31 | 现代自动车株式会社 | 对话系统、具有对话系统的车辆以及对话处理方法 |
US20180332118A1 (en) * | 2017-05-12 | 2018-11-15 | Apple Inc. | Synchronization and task delegation of a digital assistant |
KR20190011458A (ko) * | 2017-07-25 | 2019-02-07 | 현대자동차주식회사 | 차량, 그와 통신하는 모바일 기기 및 차량의 제어 방법 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114296680A (zh) * | 2021-12-24 | 2022-04-08 | 领悦数字信息技术有限公司 | 基于面部图像识别的虚拟试驾装置、方法和存储介质 |
CN114296680B (zh) * | 2021-12-24 | 2024-04-02 | 领悦数字信息技术有限公司 | 基于面部图像识别的虚拟试驾装置、方法和存储介质 |
CN115017280A (zh) * | 2022-05-17 | 2022-09-06 | 美的集团(上海)有限公司 | 对话管理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
KR20200116688A (ko) | 2020-10-13 |
US20200320993A1 (en) | 2020-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107895578B (zh) | 语音交互方法和装置 | |
CN111798843A (zh) | 对话处理装置、具有它的车辆和对话处理方法 | |
US10832686B2 (en) | Method and apparatus for pushing information | |
CN109785828B (zh) | 基于用户语音风格的自然语言生成 | |
EP2491550B1 (en) | Personalized text-to-speech synthesis and personalized speech feature extraction | |
EP2008193B1 (en) | Hosted voice recognition system for wireless devices | |
KR101330328B1 (ko) | 음성 인식 방법 및 이를 위한 시스템 | |
EP2224705B1 (en) | Mobile wireless communications device with speech to text conversion and related method | |
US8811638B2 (en) | Audible assistance | |
US9812121B2 (en) | Method of converting a text to a voice and outputting via a communications terminal | |
Husnjak et al. | Possibilities of using speech recognition systems of smart terminal devices in traffic environment | |
US11189276B2 (en) | Vehicle and control method thereof | |
EP1804237A1 (en) | System and method for personalized text to voice synthesis | |
US20060093098A1 (en) | System and method for communicating instant messages from one type to another | |
EP3113175A1 (en) | Method for converting text to individual speech, and apparatus for converting text to individual speech | |
KR102193656B1 (ko) | 상담 내용 분석을 지원하는 녹취 서비스 제공 시스템 및 방법 | |
CN110931014A (zh) | 基于正则匹配规则的语音识别方法及装置 | |
KR102666658B1 (ko) | 차량 및 그 제어방법 | |
WO2014108981A1 (ja) | 車載情報システムおよび音声認識適応方法 | |
KR102584436B1 (ko) | 화자분리 기반 자동통역 서비스를 제공하는 시스템, 사용자 단말 및 방법 | |
KR102606456B1 (ko) | 피싱 분석 장치 및 그 방법 | |
JP4978982B2 (ja) | 携帯情報端末、文字入力支援プログラム及び方法 | |
CN113449197A (zh) | 信息处理方法、装置、电子设备以及存储介质 | |
KR102510958B1 (ko) | 이동 단말기 및 그 구동 방법, 이동 통신 시스템 | |
KR102193654B1 (ko) | 상담 상황을 반영한 녹취 서비스 제공 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |