CN114529641A - 智能网联汽车助手对话和形象管理系统和方法 - Google Patents
智能网联汽车助手对话和形象管理系统和方法 Download PDFInfo
- Publication number
- CN114529641A CN114529641A CN202210158057.9A CN202210158057A CN114529641A CN 114529641 A CN114529641 A CN 114529641A CN 202210158057 A CN202210158057 A CN 202210158057A CN 114529641 A CN114529641 A CN 114529641A
- Authority
- CN
- China
- Prior art keywords
- action
- image
- module
- vehicle
- cloud
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000009471 action Effects 0.000 claims abstract description 114
- 230000002996 emotional effect Effects 0.000 claims abstract description 18
- 230000008451 emotion Effects 0.000 claims abstract description 13
- 230000006855 networking Effects 0.000 claims abstract description 10
- 238000004891 communication Methods 0.000 claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims description 38
- 238000007726 management method Methods 0.000 claims description 31
- 238000009877 rendering Methods 0.000 claims description 31
- 230000000875 corresponding effect Effects 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 9
- 230000006399 behavior Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 230000006378 damage Effects 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000000007 visual effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明涉及一种智能网联汽车助手对话和形象管理系统和方法,系统包括车载主机终端和云端;所述车载主机终端包括设备层和应用层,所述应用层为车载主机内所搭载的智能网联汽车助手APP;所述设备层用于智能网联汽车助手形象动作展示;所述云端包括NLU模块、DM模块、NLG模块、云端动作执行引擎;所述应用层与云端通信连接,所述设备层与云端通过TSP实现通信连接。本发明提供了一种将NLU、DM和动作执行引擎相结合的技术,解决了智能网联汽车助手语音回复内容与形象动作联动的问题,让形象动作兼具情感性与专业性,提供给车载主机终端良好的动画反馈,满足用户对情感化、形象化3D形象车载语音助手的需求。
Description
技术领域
本发明属于车载语音技术服务技术领域,具体涉及一种智能网联汽车助手对话和形象管理系统和方法。
背景技术
语音助手已经逐渐成为智能网联汽车的标配,语音交互已经成为车内人机交互的重要方式,用户通过语音控制车内硬件、软件是智能网联汽车最基础的功能。一方面用户对车载语音助手的专业知识覆盖能力的要求越来越高,另一方面用户希望通过直观的、更形象生动的形式获取关于汽车问题的知识。对于问答型对话如何将对话输出结果与形象展示有机结合,成为了提升智能网联汽车使用体验的关键。
现有技术方法缺点:1.大部分智能网联汽车助手均采用抽象的几何动图作为语音助手与用户交互反馈的补充,几何形象无法准确反映对话结果中所要表现的含义;2.语音交互逐渐由抽象到拟人化转变,几何形象动作状态的情感化设计体验相对较差,几何形象无法准确表达对话输出结果中的情感状态。
发明内容
针对现有技术的上述不足,本发明要解决的技术问题是提供一种智能网联汽车助手对话和形象管理系统和方法,避免智能网联汽车助手语音回复内容与形象动作联动性不足的问题,取得智能网联汽车助手的形象动作兼具情感性、专业性的效果。
为解决上述技术问题,本发明采用如下技术方案:
智能网联汽车助手对话和形象管理系统,包括车载主机终端和云端,车载主机终端接收来自云端的动作指令从而完成智能网联汽车助手形象动作执行,所述云端用于为所述智能网联汽车助手形象动作配置情感类型标签、问题类型标签以及相应的动作类型标签,并在所述动作类型标签下配置相应的形象动作资源;
所述车载主机终端包括设备层和应用层,所述应用层为车载主机内所搭载的智能网联汽车助手APP,用于形象动作执行、形象动作渲染和语音问答呈现;所述设备层用于智能网联汽车助手形象动作展示;
所述云端包括NLU模块、DM模块、NLG模块、云端动作执行引擎;
所述应用层与云端通信连接,所述设备层与云端通过TSP实现通信连接。
进一步完善上述技术方案,所述设备层包括麦克风,所述麦克风将语音转换为文本,并通过TSP将文本上传至云端的NLU模块;所述应用层还包括TTS模块,用于朗读所述NLG模块生成的系统语言。
进一步地,所述NLU模块用于对文本进行预处理及词法分析、句法分析、语义分析和情感倾向分析,并映射用户对话行为,获得对话内容的情感类型标签和问题类型标签从而初步确定形象动作标签的类型;所述DM模块用于维护和更新对话的状态,对用户所提出的问题进行分类,并基于当前的对话状态选择接下来合适的动作;所述NLG模块用于生成系统语言;所述云端动作执行引擎根据DM模块的处理结果,在NLU模块所给定的形象动作标签类型中指定相应的形象动作作为反馈结果,以实现将动作与语音问答回复相匹配。
进一步地,所述TTS模块进行朗读系统语言与所述设备层进行智能网联汽车助手形象动作展示为同步进行。
进一步地,所述TTS模块的输出结果为言语波形,并通过设备层的扬声器进行播放,以实现朗读NLG模块生成的系统语言。
进一步地,在NLU模块中,所述情感类型标签包括:积极、中性和消极;所述问题类型标签包括:车控类、应用控制类;在DM模块中对用户所提出的问题进行分类,类型包括:闲聊型、问答型和多轮对话型。
本发明还涉及智能网联汽车助手对话和形象管理方法,采用上述的智能网联汽车助手对话和形象管理系统,具体包括以下步骤:
S1:ASR-NLP-TTS的车载主机终端用户认证信息管理,采用token认证,验证token成功后返回资源数据到车载主机终端;
S2:ASR过程,车载主机终端的麦克风将接收到的语音转换成文本,并将文本通过TSP发送给云端;
S3:NLU过程,云端的NLU模块对文本进行处理,初步确定智能网联汽车助手形象动作标签的类型;
S4:对话管理过程,云端的DM模块维护和更新对话的状态,包含所有可能会影响到接下来决策的信息,并对问题进行分类,然后基于当前的对话状态,选择接下来合适的动作;
S5:TTS过程,TTS模块收到NLG模块下发的系统语言文本后,对文本进行语言学分析,将语言学描述转化成言语波形并通过设备层的扬声器进行播放;
S6:形象动作执行,云端动作执行引擎实现将动作与语音问答回复相匹配后,下发对应的动作指令给车载主机终端的动作渲染SDK,动作渲染SDK根据所收到的动作指令查找云端对应的可执行文件路径,获取云端对应的形象动作资源并在渲染引擎中执行;
S7:形象动作渲染,在智能网联汽车助手APP中初始化渲染引擎并最终完成动作执行。
进一步完善上述技术方案,所述步骤S1中,用户通过用户名和密码发送请求,在完成服务器中的程序验证后返回一个签名的token给车载主机终端储存,所述签名的token每次用于发送请求。
进一步地,所述步骤S3中,NLU模块对文本进行预处理、词法分析、句法分析、语义分析和情感倾向分析,在情感倾向分析中采用支持向量机,解决小样本、非线性及高维识别。
进一步地,所述步骤S7中,在车载主机终端的智能网联汽车助手APP中初始化渲染引擎,在需要显示的形象动作的XML布局文件里添加视图并设置好大小,初始化视图,调用渲染SDK接口加载资源展示形象动作并确定要显示的模式,调用渲染SDK接口绑定生命周期,加载资源文件,资源加载成功后执行动作,执行动作完成后调用渲染SDK接口释放资源完成视图销毁。
相比现有技术,本发明具有如下有益效果:
1、本发明的智能网联汽车助手对话和形象管理系统,提供了一种将NLU、DM和动作执行引擎相结合的技术,解决了智能网联汽车助手语音回复内容与形象动作联动的问题,让形象动作兼具情感性与专业性,提供给车载主机终端良好的动画反馈,满足用户对情感化、形象化3D形象车载语音助手的需求。
2、本发明的智能网联汽车助手对话和形象管理方法,在NLU过程增加情感分析与问题类型分析,分析结果与DM模块处理结果融合。当DM模块处理结果为闲聊情感化回复时,云端动作执行引擎将执行相应情感类型的拟人化形象动作,结合输出的情感化TTS语音,以达到声情并茂的效果;当DM模块处理结果为问答型回复时,云端动作执行引擎执行问题类型对应的拟人化形象动作,结合汽车专业问答知识的回复,能够更加形象地阐释相应的汽车专业知识。
附图说明
图1为实施例的智能网联汽车助手对话和形象管理系统的结构框图;
图2为实施例的智能网联汽车助手对话和形象管理方法的逻辑框图;
图3为实施例的智能网联汽车助手对话和形象管理系统中车载主机终端实现智能网联汽车助手形象动作的执行流程图;
图4为图3中“调用接口执行动作”渲染流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
请参见图1,具体实施例的智能网联汽车助手对话和形象管理系统,包括车载主机终端和云端,车载主机终端接收来自云端的动作指令从而完成智能网联汽车助手形象动作执行,所述云端用于为所述智能网联汽车助手形象动作配置情感类型标签、问题类型标签以及相应的动作类型标签,并在所述动作类型标签下配置相应的形象动作资源;
所述车载主机终端包括设备层和应用层,所述应用层为车载主机内所搭载的智能网联汽车助手APP,用于形象动作执行、形象动作渲染和语音问答呈现;所述设备层用于智能网联汽车助手形象动作展示;
所述云端包括NLU(Natural Language Understanding,自然语言理解)模块、DM(Dialog Management,对话管理)模块、NLG(Natural Language Generation,自然语言生成)模块、云端动作执行引擎;
所述应用层与云端通信连接,所述设备层与云端通过TSP(Telematics ServiceProvider,汽车远程服务提供商)实现通信连接。
实施例的智能网联汽车助手对话和形象管理系统提供了一种将NLU、DM和动作执行引擎相结合的技术,解决了智能网联汽车助手语音回复内容与形象动作联动的问题,让形象动作兼具情感性与专业性,提供给车载主机终端良好的动画反馈,满足用户对情感化、形象化3D形象车载语音助手的需求。
请继续参见图1和图2,所述设备层包括麦克风,所述麦克风将语音转换为文本,并通过TSP将文本上传至云端的NLU模块;所述应用层还包括TTS(Text To Speech,从文本到语音)模块,用于朗读所述NLG模块生成的系统语言。
所述NLU模块用于对文本进行预处理及词法分析、句法分析、语义分析和情感倾向分析,并映射用户对话行为,获得对话内容的情感类型标签和问题类型标签从而初步确定形象动作标签的类型;所述DM模块用于维护和更新对话的状态,对用户所提出的问题进行分类,并基于当前的对话状态选择接下来合适的动作;所述NLG模块用于生成系统语言;所述云端动作执行引擎根据DM模块的处理结果,在NLU模块所给定的形象动作标签类型中指定相应的形象动作作为反馈结果,以实现将动作与语音问答回复相匹配。
实施时NLU模块映射用户对话行为后,如果该行为需要系统和用户交互,那么DM模块选择执行该行为,NLG模块被触发,从而生成系统语言。
其中,所述TTS模块进行朗读系统语言与所述设备层进行智能网联汽车助手形象动作展示为同步进行。
其中,所述TTS模块的输出结果为言语波形,并通过设备层的扬声器进行播放,以实现朗读NLG模块生成的系统语言。
其中,在NLU模块中,所述情感类型标签包括:积极、中性和消极;所述问题类型标签包括:车控类、应用控制类;在DM模块中对用户所提出的问题进行分类,类型包括:闲聊型、问答型和多轮对话型。
本发明还提供智能网联汽车助手对话和形象管理方法,采用上述的智能网联汽车助手对话和形象管理系统,具体包括以下步骤:
S1:ASR-NLP-TTS的车载主机终端用户认证信息管理,采用token认证,验证token成功后返回资源数据到车载主机终端;
S2:ASR(Automatic Speech Recognition,自动语音识别技术)过程,车载主机终端的麦克风将接收到的语音转换成文本,并将文本通过TSP发送给云端;
S3:NLU过程,云端的NLU模块对文本进行处理,初步确定智能网联汽车助手形象动作标签的类型;
S4:对话管理过程,云端的DM模块维护和更新对话的状态,包含所有可能会影响到接下来决策的信息,并对问题进行分类,然后基于当前的对话状态,选择接下来合适的动作;
S5:TTS过程,TTS模块收到NLG模块下发的系统语言文本后,对文本进行语言学分析,将语言学描述转化成言语波形并通过设备层的扬声器进行播放;
S6:形象动作执行,云端动作执行引擎实现将动作与语音问答回复相匹配后,下发对应的动作指令给车载主机终端的动作渲染SDK(Software Development Kit,软件开发工具包),动作渲染SDK根据所收到的动作指令查找云端对应的可执行文件路径,获取云端对应的形象动作资源并在渲染引擎中执行;
S7:形象动作渲染,在智能网联汽车助手APP中初始化渲染引擎并最终完成动作执行。
本发明所提供的智能网联汽车助手对话和形象管理方法,在NLU过程增加情感分析与问题类型分析,分析结果与DM模块处理结果融合。当DM模块处理结果为闲聊情感化回复时,云端动作执行引擎将执行相应情感类型的拟人化形象动作,结合输出的情感化TTS语音,以达到声情并茂的效果;当DM模块处理结果为问答型回复时,云端动作执行引擎执行问题类型对应的拟人化形象动作,结合汽车专业问答知识的回复,能够更加形象地阐释相应的汽车专业知识。
实施时,NLP(Natural Language Processing,自然语言处理)过程包括NLU过程和NLG过程。
在ASR过程中,车载主机终端的麦克风对语音进行信号处理,按帧(毫秒级)拆分,并对拆分出的小段波形按照人耳特征变成多维向量信息,将这些帧信息识别成状态,再将状态组合形成音素,最后将音素组成字词并串连成句,从而实现将语音转换成文字。
在TTS过程中,对输入的系统语言文本进行语言学分析,逐句进行词汇的、语法的和语义的分析,以确定句子的低层结构和每个字的音素的组成,把处理好的文本所对应的单字或短语从语音合成库中提取,把语言学描述转化成言语波形,通过车载主机终端的扬声器(音响)播放。
且步骤S5中的TTS模块进行最终的播放应与步骤S7中的智能网联汽车助手APP进行形象动作执行为同步进行,从而达到声情并茂的效果。
其中,所述步骤S1中,用户通过用户名和密码发送请求,在完成服务器中的程序验证后返回一个签名的token给车载主机终端储存,所述签名的token每次用于发送请求。
其中,所述步骤S3中,NLU模块对文本进行预处理、词法分析、句法分析、语义分析和情感倾向分析,在情感倾向分析中采用支持向量机,首先通过ASR过程后得到的文本,NLU模块按照非线性变换将输入空间映射到一个高维特征空间,然后根据核函数在这个新空间中求取最优线性分类平面,解决小样本、非线性及高维识别。此技术为现有技术,故不作详细说明。
其中,所述步骤S7中,在车载主机终端的智能网联汽车助手APP中初始化渲染引擎,在需要显示的形象动作的XML布局文件里添加视图并设置好大小,初始化视图,调用渲染SDK接口加载资源展示形象动作并确定要显示的模式,所述模式可以是仅显示头部,也可以是显示半身或者全身;然后调用渲染SDK接口绑定生命周期,加载资源文件,资源加载成功后执行动作,执行动作完成后调用渲染SDK接口释放资源完成视图销毁。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.智能网联汽车助手对话和形象管理系统,包括车载主机终端和云端,其特征在于:车载主机终端接收来自云端的动作指令从而完成智能网联汽车助手形象动作执行,所述云端用于为所述智能网联汽车助手形象动作配置情感类型标签、问题类型标签以及相应的动作类型标签,并在所述动作类型标签下配置相应的形象动作资源;
所述车载主机终端包括设备层和应用层,所述应用层为车载主机内所搭载的智能网联汽车助手APP,用于形象动作执行、形象动作渲染和语音问答呈现;所述设备层用于智能网联汽车助手形象动作展示;
所述云端包括NLU模块、DM模块、NLG模块、云端动作执行引擎;
所述应用层与云端通信连接,所述设备层与云端通过TSP实现通信连接。
2.根据权利要求1所述智能网联汽车助手对话和形象管理系统,其特征在于:所述设备层包括麦克风,所述麦克风将语音转换为文本,并通过TSP将文本上传至云端的NLU模块;所述应用层还包括TTS模块,用于朗读所述NLG模块生成的系统语言。
3.根据权利要求2所述智能网联汽车助手对话和形象管理系统,其特征在于: 所述NLU模块用于对文本进行预处理及词法分析、句法分析、语义分析和情感倾向分析,并映射用户对话行为,获得对话内容的情感类型标签和问题类型标签从而初步确定形象动作标签的类型;
所述DM模块用于维护和更新对话的状态,对用户所提出的问题进行分类,并基于当前的对话状态选择接下来合适的动作;
所述NLG模块用于生成系统语言;
所述云端动作执行引擎根据DM模块的处理结果,在NLU模块所给定的形象动作标签类型中指定相应的形象动作作为反馈结果,以实现将动作与语音问答回复相匹配。
4.根据权利要求3所述智能网联汽车助手对话和形象管理系统,其特征在于:所述TTS模块进行朗读系统语言与所述设备层进行智能网联汽车助手形象动作展示为同步进行。
5.根据权利要求4所述智能网联汽车助手对话和形象管理系统,其特征在于:所述TTS模块的输出结果为言语波形,并通过设备层的扬声器进行播放,以实现朗读NLG模块生成的系统语言。
6.根据权利要求3所述智能网联汽车助手对话和形象管理系统,其特征在于:在NLU模块中,所述情感类型标签包括:积极、中性和消极;所述问题类型标签包括:车控类、应用控制类;
在DM模块中对用户所提出的问题进行分类,类型包括:闲聊型、问答型和多轮对话型。
7.智能网联汽车助手对话和形象管理方法,其特征在于:采用如权利要求1所述的智能网联汽车助手对话和形象管理系统,具体包括以下步骤:
S1:ASR-NLP-TTS的车载主机终端用户认证信息管理,采用token认证,验证token成功后返回资源数据到车载主机终端;
S2:ASR过程,车载主机终端的麦克风将接收到的语音转换成文本,并将文本通过TSP发送给云端;
S3:NLU过程,云端的NLU模块对文本进行处理,初步确定智能网联汽车助手形象动作标签的类型;
S4:对话管理过程,云端的DM模块维护和更新对话的状态,包含所有可能会影响到接下来决策的信息,并对问题进行分类,然后基于当前的对话状态,选择接下来合适的动作;
S5:TTS过程,TTS模块收到NLG模块下发的系统语言文本后,对文本进行语言学分析,将语言学描述转化成言语波形并通过设备层的扬声器进行播放;
S6:形象动作执行,云端动作执行引擎实现将动作与语音问答回复相匹配后,下发对应的动作指令给车载主机终端的动作渲染SDK,动作渲染SDK根据所收到的动作指令查找云端对应的可执行文件路径,获取云端对应的形象动作资源并在渲染引擎中执行;
S7:形象动作渲染,在智能网联汽车助手APP中初始化渲染引擎并最终完成动作执行。
8.根据权利要求7所述智能网联汽车助手对话和形象管理方法,其特征在于:所述步骤S1中,用户通过用户名和密码发送请求,在完成服务器中的程序验证后返回一个签名的token给车载主机终端储存,所述签名的token每次用于发送请求。
9.根据权利要求7所述智能网联汽车助手对话和形象管理方法,其特征在于:所述步骤S3中,NLU模块对文本进行预处理、词法分析、句法分析、语义分析和情感倾向分析,在情感倾向分析中采用支持向量机,解决小样本、非线性及高维识别。
10.根据权利要求7所述智能网联汽车助手对话和形象管理方法,其特征在于:所述步骤S7中,在车载主机终端的智能网联汽车助手APP中初始化渲染引擎,在需要显示的形象动作的XML布局文件里添加视图并设置好大小,初始化视图,调用渲染SDK接口加载资源展示形象动作并确定要显示的模式,调用渲染SDK接口绑定生命周期,加载资源文件,资源加载成功后执行动作,执行动作完成后调用渲染SDK接口释放资源完成视图销毁。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210158057.9A CN114529641A (zh) | 2022-02-21 | 2022-02-21 | 智能网联汽车助手对话和形象管理系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210158057.9A CN114529641A (zh) | 2022-02-21 | 2022-02-21 | 智能网联汽车助手对话和形象管理系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114529641A true CN114529641A (zh) | 2022-05-24 |
Family
ID=81625216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210158057.9A Pending CN114529641A (zh) | 2022-02-21 | 2022-02-21 | 智能网联汽车助手对话和形象管理系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114529641A (zh) |
-
2022
- 2022-02-21 CN CN202210158057.9A patent/CN114529641A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108962217B (zh) | 语音合成方法及相关设备 | |
CN112162628A (zh) | 基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端 | |
US20210280190A1 (en) | Human-machine interaction | |
CN107657017A (zh) | 用于提供语音服务的方法和装置 | |
CN112099628A (zh) | 基于人工智能的vr互动方法、装置、计算机设备及介质 | |
KR102429407B1 (ko) | 사용자 구성의 맞춤형 인터렉티브 대화 애플리케이션 | |
CN111145777A (zh) | 一种虚拟形象展示方法、装置、电子设备及存储介质 | |
KR20200056261A (ko) | 전자 장치 및 이의 제어 방법 | |
CN109325091A (zh) | 兴趣点属性信息的更新方法、装置、设备及介质 | |
CN109543021B (zh) | 一种面向智能机器人的故事数据处理方法及系统 | |
CN110600033A (zh) | 学习情况的评估方法、装置、存储介质及电子设备 | |
US20230099732A1 (en) | Computing system for domain expressive text to speech | |
CN112750187A (zh) | 一种动画生成方法、装置、设备及计算机可读存储介质 | |
WO2022242706A1 (zh) | 基于多模态的反应式响应生成 | |
CN111696521A (zh) | 语音克隆模型的训练方法、可读存储介质和语音克隆方法 | |
CN109065019B (zh) | 一种面向智能机器人的故事数据处理方法及系统 | |
WO2023226767A1 (zh) | 模型训练方法和装置及语音含义的理解方法和装置 | |
CN112163084A (zh) | 问题反馈方法、装置、介质以及电子设备 | |
CN116821290A (zh) | 面向多任务对话的大语言模型训练方法和交互方法 | |
CN112927721A (zh) | 人车互动方法、系统以及车辆和计算机可读存储介质 | |
CN115798456A (zh) | 跨语言情感语音合成方法、装置及计算机设备 | |
CN114529641A (zh) | 智能网联汽车助手对话和形象管理系统和方法 | |
CN115442495A (zh) | 一种ai演播室系统 | |
CN114201596A (zh) | 虚拟数字人使用方法、电子设备和存储介质 | |
CN111966803A (zh) | 对话模拟方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |