CN117373439A - 提供车载语音服务的方法和系统 - Google Patents
提供车载语音服务的方法和系统 Download PDFInfo
- Publication number
- CN117373439A CN117373439A CN202210768319.3A CN202210768319A CN117373439A CN 117373439 A CN117373439 A CN 117373439A CN 202210768319 A CN202210768319 A CN 202210768319A CN 117373439 A CN117373439 A CN 117373439A
- Authority
- CN
- China
- Prior art keywords
- voice
- cloud
- module
- vehicle
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000004044 response Effects 0.000 claims abstract description 67
- 230000006978 adaptation Effects 0.000 claims abstract description 50
- 238000006243 chemical reaction Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 6
- 239000000758 substrate Substances 0.000 claims 1
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种提供车载语音服务的方法和系统。方法包括:由车机端的麦克风对用户的语音进行录音,形成用户语音音频文件;将用户语音音频文件经由云端适配服务模块发送至第一云语音服务端;由第一云语音服务端对用户语音音频文件进行语音识别,生成云端识别结果;由第一云语音服务端调用第一内容提供者生成第一业务响应信息;由第二云语音服务端调用第二内容提供者生成第二业务响应信息;由第二云语音服务端的技能仲裁模块对第一业务响应信息和第二业务响应信息的置信度进行仲裁,生成仲裁结果;将仲裁结果发送回车机端进行语音播报。本发明提高了车载语音服务的准确率,提升了用户体验。
Description
技术领域
本发明的实施方式总体上涉及车载语音领域,更具体地,涉及一种提供车载语音服务的方法和系统。
背景技术
目前车载语音大部分采用的是直接使用语音供应商的服务,这样就造成功能与实现的隔离,并且服务部署在语音供应商,用户的数据也存在供应商,用户的数据安全可能会受到威胁。对于云端的用户数据安全,主要通过在方案或者合同上添加一些条款进行约束,而无法在技术上实现数据安全。
另外,当需要对语音服务进行二次开发或者优化时,通过提交需求的方式来告知语音供应商开发新增功能点或者对现有的功能点进行优化,流程较长,时效性较低,从而部署不够灵活。
发明内容
为了解决现有技术中的上述问题,在第一方面,本发明的实施方式提供了一种提供车载语音服务的方法,所述方法包括:由车机端的麦克风对用户的语音进行录音,形成用户语音音频文件;由所述车机端的Linux系统侧的语音对话系统引擎将所述用户语音音频文件经由云端适配服务模块发送至第一云语音服务端;由所述第一云语音服务端的自动语音识别模块对所述用户语音音频文件进行语音识别,生成云端识别结果;由所述第一云语音服务端的自然语言理解模块和对话管理模块对所述云端识别结果进行语义理解和对话管理,生成第一业务请求信息;由所述第一云语音服务端将所述第一业务请求信息发送至第一内容提供者;由所述第一云语音服务端从所述第一内容提供者接收针对所述第一业务请求信息的第一业务响应信息;由所述第一云语音服务端经由所述云端适配服务模块将所述第一业务响应信息发送至第二云语音服务端的技能仲裁模块;由所述第一云语音服务端将所述云端识别结果经由所述云端适配服务模块发送至第二云语音服务端;由所述第二云语音服务端的自然语言理解模块和对话管理模块对所述云端识别结果进行语义理解和对话管理,生成第二业务请求信息;由所述第二云语音服务端将所述第二业务请求信息发送至第二内容提供者;由所述第二云语音服务端从所述第二内容提供者接收针对所述第二业务请求信息的第二业务响应信息;由所述第二云语音服务端的所述技能仲裁模块对所述第一业务响应信息和所述第二业务响应信息的置信度进行仲裁,生成仲裁结果;由所述第二云语音服务端将所述仲裁结果经由所述云端适配服务模块发送至所述车机端的Linux系统侧的所述语音对话系统引擎;由所述车机端的Linux系统侧的所述语音对话系统引擎将所述仲裁结果发送至所述车机端的安卓系统侧的对话管理模块;由所述车机端的安卓系统侧的对话管理模块请求所述车机端的安卓系统侧的语音用户接口对所述仲裁结果进行显示;由所述车机端的安卓系统侧的对话管理模块对所述仲裁结果进行文本-语音转换,生成仲裁文本-语音转换文言,并且将所述仲裁文本-语音转换文言发送至所述车机端的Linux系统侧的所述语音对话系统引擎;由所述车机端的Linux系统侧的语音对话系统引擎根据所述仲裁文本-语音转换文言进行语音播报。
在一些实施方式中,所述方法还包括:由所述第一云语音服务端的自动语音识别模块将生成的所述云端识别结果经由所述云端适配服务模块发送至所述车机端的Linux系统侧的语音对话系统引擎;由所述车机端的Linux系统侧的语音对话系统引擎中的自然语言理解模块对所述云端识别结果进行语义理解,生成本地业务请求信息,其中所述本地业务请求信息与车辆控制器相关联;由所述车机端的人机接口根据所述本地业务信息向相关联的车辆控制器发送控制指令。
在一些实施方式中,所述方法还包括:由所述车机端的Linux系统侧的语音对话系统引擎中的自动语音识别模块对所述用户语音音频文件进行语音识别,生成本地识别结果;由所述车机端的Linux系统侧的语音对话系统引擎将所述本地识别结果发送至所述车机端的安卓系统侧的对话管理模块;由所述车机端的安卓系统侧的对话管理模块请求所述车机端的安卓系统侧的语音用户接口对所述本地识别结果进行显示。
在一些实施方式中,所述方法还包括:由所述车机端的Linux系统侧的语音对话系统引擎中的自然语言理解模块对所述本地识别结果进行语义理解,生成本地语义理解结果;在来自所述第二云语音服务端的仲裁结果超时的情况下,由所述车机端的Linux系统侧的语音对话系统引擎根据所述本地语义理解结果生成本地响应信息,并将所述本地响应信息发送至所述车机端的安卓系统侧的对话管理模块;由所述车机端的安卓系统侧的对话管理模块对所述本地响应信息进行文本-语音转换,生成本地响应文本-语音转换文言,并且将所述本地响应文本-语音转换文言发送至所述车机端的Linux系统侧的所述语音对话系统引擎;由所述车机端的Linux系统侧的语音对话系统引擎根据所述本地响应文本-语音转换文言进行语音播报。
在一些实施方式中,所述方法还包括:由所述第二云语音服务端的自然语言理解模块和对话管理模块对所述云端识别结果进行语义理解和对话管理,判断所述第二业务请求信息是否与预存知识库有关;在所述第二业务请求信息与预存知识库有关的情况下,由所述第二云语音服务端的所述技能仲裁模块将所述第二业务请求信息发送至预存知识库查询模块;由所述第二云语音服务端的所述技能仲裁模块接收所述预存知识库查询模块针对所述第二业务请求信息的知识库响应信息,并且将所述知识库响应信息作为所述仲裁结果。
在一些实施方式中,所述方法还包括:由所述第一云语音服务端的自动语音识别模块将生成的所述云端识别结果经由所述云端适配服务模块发送至所述车机端的Linux系统侧的语音对话系统引擎;由所述车机端的Linux系统侧的所述语音对话系统引擎将所述云端识别结果发送至所述车机端的安卓系统侧的对话管理模块;由所述车机端的安卓系统侧的对话管理模块请求所述车机端的安卓系统侧的语音用户接口利用所述云端识别结果来覆盖所述本地识别结果。
在一些实施方式中,所述第一云语音服务端是第三方云语音服务端,所述第二云语音服务端是私有云部署语音服务端。
在一些实施方式中,所述业务请求信息包括业务领域、用户意图和词槽。
在一些实施方式中,将所述仲裁结果发送至所述车机端的安卓系统侧的对话管理模块包括:依次经由所述车机端的Linux系统侧的逻辑管理模块、所述车机端的Linux系统侧的语音对话系统引擎服务模块、所述车机端的安卓系统侧的语音对话系统引擎客户端模块,将所述仲裁结果发送至所述车机端的安卓系统侧的对话管理模块。并且,将所述仲裁文本-语音转换文言发送至所述车机端的Linux系统侧的语音对话系统引擎包括:依次经由所述车机端的安卓系统侧的语音对话系统引擎客户端模块、所述车机端的Linux系统侧的语音对话系统引擎服务模块和所述车机端的Linux系统侧的逻辑管理模块,将所述仲裁文本-语音转换文言发送至所述车机端的Linux系统侧的语音对话系统引擎。
在第二方面,本发明的实施方式提出了一种提供车载语音服务的系统,所述系统包括车机端和云端,其中,所述车机端包括Linux系统侧和安卓系统侧,所述云端包括第一云语音服务端、第二云语音服务端和云端适配服务模块。所述车机端用于:通过麦克风对用户的语音进行录音,形成用户语音音频文件;通过Linux系统侧的语音对话系统引擎将所述用户语音音频文件经由云端适配服务模块发送至第一云语音服务端;通过所述车机端的Linux系统侧的所述语音对话系统引擎将所述仲裁结果发送至所述车机端的安卓系统侧的对话管理模块;通过所述车机端的安卓系统侧的对话管理模块请求所述车机端的安卓系统侧的语音用户接口对所述仲裁结果进行显示;通过所述车机端的安卓系统侧的对话管理模块对所述仲裁结果进行文本-语音转换,生成仲裁文本-语音转换文言,并且将所述仲裁文本-语音转换文言发送至所述车机端的Linux系统侧的所述语音对话系统引擎;通过所述车机端的Linux系统侧的语音对话系统引擎根据所述仲裁文本-语音转换文言进行语音播报。所述第一云语音服务端用于:通过所述第一云语音服务端的自动语音识别模块对所述用户语音音频文件进行语音识别,生成云端识别结果;通过所述第一云语音服务端的第一自然语言理解模块和第一对话管理模块对所述云端识别结果进行语义理解和对话管理,生成第一业务请求信息;将所述第一业务请求信息发送至第一内容提供者;从所述第一内容提供者接收针对所述第一业务请求信息的第一业务响应信息;经由所述云端适配服务模块将所述第一业务响应信息发送至第二云语音服务端的技能仲裁模块;将所述云端识别结果经由所述云端适配服务模块发送至第二云语音服务端。所述第二云语音服务端用于:通过所述第二云语音服务端的自然语言理解模块和对话管理模块对所述云端识别结果进行语义理解和对话管理,生成第二业务请求信息;将所述第二业务请求信息发送至第二内容提供者;从所述第二内容提供者接收针对所述第二业务请求信息的第二业务响应信息;通过所述第二云语音服务端的所述技能仲裁模块对所述第一业务响应信息和所述第二业务响应信息的置信度进行仲裁,生成仲裁结果;将所述仲裁结果经由所述云端适配服务模块发送至所述车机端的Linux系统侧的所述语音对话系统引擎。
本发明的实施方式提出的提供车载语音服务的方法和系统,通过第一云语音服务端和第二云语音服务端分别对用户的音频输入进行语义理解并分别调用内容提供者的内容,产生两个不同的响应,通过设置技能仲裁模块对两个响应进行置信度仲裁,选取更加可信的响应反馈给用户,提高了车载语音服务的准确率,提升了用户体验。
本发明的实施方式除了车机端的语音引擎之外,增加了私有云部署语音服务,对语音服务进行私有化部署。实现了语音服务的私有化部署,用户的所有数据可以留在企业内部,安全等级更高,提高了数据安全性。
另外,车载语音服务私有化部署之后,可以更灵活的对语音产品进行个性化定制、二次开发。
附图说明
通过参考附图阅读下文的详细描述,本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示出了根据本发明的实施方式的提供车载语音服务的方法的流程图;
图2示出了根据本发明的实施方式的提供车载语音服务的系统的一个示例的框图;
图3示出了根据本发明的实施方式的天气查询应用场景的时序图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。
在一个方面,本发明的实施方式提供了一种提供车载语音服务的方法。参考图1-图2,其中图1示出了根据本发明的实施方式的提供车载语音服务的方法100的流程图,图2示出了根据本发明的实施方式的提供车载语音服务的系统的一个示例的框图。下文结合图2所示的系统的一个具体示例的架构,对本发明的实施方式提出的提供车载语音服务的方法进行描述。
如图2所示,本发明的实施方式提出的提供车载语音服务的系统包括车机端和云端,其中,车机端采用双系统,包括Linux系统侧和安卓(Android)系统侧,云端包括第一云语音服务端、第二云语音服务端和云端适配服务模块。仅作为本发明的一个实施方式,第一云语音服务端可以是第三方云语音服务端,第二云语音服务端可以是私有云部署语音服务端,也可以称为主机厂家自建语音服务端。
在车机端的Linux系统侧部署的是ASR(自动语音识别,Automatic SpeechRecognition)、NLU(自然语言理解,Natural Language Understanding)和TTS(Text ToSpeech,从文本到语音)引擎,其中ASR引擎是用来做文本识别,就是输入语音,输出文本信息。NLU引擎是用来做语义识别,输出的是domain(领域,例如天气)、intent(意图,例如查询天气)、词槽(明天、长春)等信息。TTS引擎是将文本转换为一段语音进行播放。在Android系统侧部署的是DM引擎(负责对话管理和语义保持)和大部分的APP应用,其中DM引擎是用来实现对话管理,例如多轮对话等。通过DM来调用具体的APP,实现具体的功能,如打开音乐播放软件等。
如图1所示,方法100包括步骤S101-S117。
在步骤S101中,由车机端的麦克风接收用户语音输入,对用户的语音进行录音,形成用户语音音频文件。例如,可以通过车机端的Linux应用中的音频(Audio)应用进行录音,音频应用用来对音频进行处理包括收音、播放等。车机端Linux系统侧的Linux应用中除了音频应用之外,还可以包括导航、电话和其他应用。
在步骤S102中,由车机端的Linux系统侧的语音对话系统(Speech DialogueSystem,SDS)引擎将用户语音音频文件经由云端适配服务模块发送至第一云语音服务端。图2中所示的车机SDS(Onboard SDS)模块用于对语音进行一系列处理,还包括SDS适配层和逻辑管理层,其中,SDS适配层(SDS Adapter)主要集成了一些列接口,可以进行分发调用。逻辑管理层(Logical Management)负责语音接口调用管理,例如接口调用返回值处理,根据不同返回值,调用不同逻辑。
如图2所示,云端适配服务模块可以包括长连接模块、协议适配模块、缓存管理模块和网关模块,主要进行鉴权、安全认证、协议适配等。这些模块是为了使得云端适配服务模块实现本发明的实施方式提出的提供车载语音服务的方法中所需的功能而进行的配置,例如网关可以用来管理授权、流量控制等,只要能够辅助云端适配服务模块实现所需的功能即可,本发明在此方面不做限制。
在步骤S103中,由第一云语音服务端的自动语音识别(Automatic SpeechRecognition,ASR)模块对用户语音音频文件进行语音识别,将语音转换为文字,生成云端识别结果,图2中示出为ASR结果。
在步骤S104中,由第一云语音服务端的自然语言理解(Natural LanguageUnderstanding,NLU)模块和对话管理(Dialogue Management,DM)模块对云端识别结果进行语义理解和对话管理,生成第一业务请求信息。作为本发明的一个实施方式,业务请求信息可以包括业务领域、用户意图和词槽。NLU模块可以识别出文字的意图,DM模块可以结合对话的上下文进行语义理解,从而调用具体服务接口。
在步骤S105中,由第一云语音服务端将第一业务请求信息发送至第一内容提供者(Content Provider,CP,也可以称为内容提供商)。作为示例,第一云语音服务端通过语音服务适配层与第一内容提供者进行通信。
在步骤S106中,由第一云语音服务端从第一内容提供者接收针对第一业务请求信息的第一业务响应信息。
在步骤S107中,由第一云语音服务端经由云端适配服务模块将第一业务响应信息发送至第二云语音服务端的技能仲裁(Arbitrator)模块。
在步骤S108中,由第一云语音服务端将云端识别结果(ASR结果)经由云端适配服务模块发送至第二云语音服务端。
在步骤S109中,由第二云语音服务端的自然语言理解(Natural LanguageUnderstanding,NLU)模块和对话管理(Dialogue Management,DM)模块对云端识别结果进行语义理解和对话管理,生成第二业务请求信息。
在步骤S110中,由第二云语音服务端将第二业务请求信息发送至第二内容提供者(Content Provider,CP)。作为示例,第二云语音服务端还可以包括分发(Distribution)模块和适配层(Adapter)模块,均是用于在与其他端进行通信时进行分发调用。
在步骤S111中,由第二云语音服务端从第二内容提供者接收针对第二业务请求信息的第二业务响应信息。
在步骤S112中,由第二云语音服务端的技能仲裁(Arbitrator)模块对第一业务响应信息和第二业务响应信息的置信度进行仲裁,生成仲裁结果。技能仲裁(Arbitrator)模块可以选取第一业务响应信息和第二业务响应信息中置信度最高的结果作为仲裁结果。
在步骤S113中,由第二云语音服务端将仲裁结果经由云端适配服务模块发送至车机端的Linux系统侧的语音对话系统(SDS)引擎。
在步骤S114中,由车机端的Linux系统侧的语音对话系统引擎将仲裁结果发送至车机端的安卓系统侧的对话管理(DM)模块。
作为本发明的一个实施方式,将仲裁结果发送至车机端的安卓系统侧的对话管理模块包括:依次经由车机端的Linux系统侧的逻辑管理模块(图2中示出为逻辑管理层)、车机端的Linux系统侧的语音对话系统引擎服务模块(示出为SDS服务端)、车机端的安卓系统侧的语音对话系统引擎客户端模块(示出为SDS客户端),将仲裁结果发送至车机端的安卓系统侧的对话管理模块。仅作为示例,Linux系统侧的SDS服务端与安卓系统侧的SDS客户端通过F-Dbus方式进行进程间通信。
仅作为示例,如图2所示,安卓系统侧的SDS客户端与安卓系统侧的应用(包括VUI、DM、彩色服务应用等)通过应用(APP)服务层进行通信。APP服务层是APP接口的集成。SDS客户端与应用服务层通过JNI进行通信,其中JNI是实现Java和C++通信的API。
在步骤S115中,由车机端的安卓系统侧的对话管理模块请求车机端的安卓系统侧的语音用户接口(Voice User Interface,VUI)对仲裁结果进行显示。
在步骤S116中,由车机端的安卓系统侧的对话管理模块对仲裁结果进行文本-语音(Text To Speech,TTS)转换,生成仲裁文本-语音转换文言,并且将仲裁文本-语音转换文言发送至车机端的Linux系统侧的语音对话系统引擎。
在步骤S117中,由车机端的Linux系统侧的语音对话系统引擎根据仲裁文本-语音转换文言进行语音播报,图2中将播报语音示出为TTS音频。
下文从系统的角度对本发明的实施方式提出的技术方案进行相应描述。
车机端用于:通过麦克风对用户的语音进行录音,形成用户语音音频文件;通过Linux系统侧的语音对话系统引擎将用户语音音频文件经由云端适配服务模块发送至第一云语音服务端;通过车机端的Linux系统侧的语音对话系统引擎将仲裁结果发送至车机端的安卓系统侧的对话管理模块;通过车机端的安卓系统侧的对话管理模块请求车机端的安卓系统侧的语音用户接口对仲裁结果进行显示;通过车机端的安卓系统侧的对话管理模块对仲裁结果进行文本-语音转换,生成仲裁文本-语音转换文言,并且将仲裁文本-语音转换文言发送至车机端的Linux系统侧的语音对话系统引擎;通过车机端的Linux系统侧的语音对话系统引擎根据仲裁文本-语音转换文言进行语音播报。
第一云语音服务端用于:通过第一云语音服务端的自动语音识别模块对用户语音音频文件进行语音识别,生成云端识别结果;通过第一云语音服务端的第一自然语言理解模块和第一对话管理模块对云端识别结果进行语义理解和对话管理,生成第一业务请求信息;将第一业务请求信息发送至第一内容提供者;从第一内容提供者接收针对第一业务请求信息的第一业务响应信息;经由云端适配服务模块将第一业务响应信息发送至第二云语音服务端的技能仲裁模块;将云端识别结果经由云端适配服务模块发送至第二云语音服务端。
第二云语音服务端用于:通过第二云语音服务端的自然语言理解模块和对话管理模块对云端识别结果进行语义理解和对话管理,生成第二业务请求信息;将第二业务请求信息发送至第二内容提供者;从第二内容提供者接收针对第二业务请求信息的第二业务响应信息;通过第二云语音服务端的技能仲裁模块对第一业务响应信息和第二业务响应信息的置信度进行仲裁,生成仲裁结果;将仲裁结果经由云端适配服务模块发送至车机端的Linux系统侧的语音对话系统引擎。
可选地,如图2所示,在云端可以设置AI+平台,从而可以灵活地进行语音开发。
参考图3,其示出了根据本发明的实施方式的天气查询应用场景的时序图。下文结合图3对天气查询应用场景下的方法流程进行示例描述。
图3中,前三列“SDS引擎”、“逻辑管理层”和“SDS适配层”设置在车机端的Linux系统侧,第五列“第三方语音服务”、第七列“语音服务适配层”和第九列“天气后台”设置在第一云语音服务端,第四列“适配服务”、第六列“技能仲裁”和第八列“智能搜索”设置在第二云语音服务端,第十列中的“SDS服务端”设置在车机端的Linux系统侧,“SDS客户端”设置在车机端的安卓系统侧,第十一列至第十三列“APP服务”、“DM”和“SDS VUI”设置在车机端的安卓系统侧。
当车辆内的用户说“查一下明天长春的天气”时,用户说的话会通过车上的麦克风(Mic)进行录音,形成音频文件。音频文件在车机端的SDS引擎模块进行解析,解析主要指的是通过ASR将音频转换成文字,然后将文字展示在显示屏上。
同时这个音频文件会经过逻辑管理(数据请求、语音接口调用管理)模块同步上传到云端。在云端首先要经过“适配服务层”,在这里主要会进行鉴权、安全认证、协议适配等。然后会将音频给到第三方云语音服务端,在第三方云语音服务端,经过ASR、NLU、DM对音频文件进行处理,识别用户意图。ASR的结果要同步给到“私有云部署语音服务端”模块,也要进行NLU、DM的处理。其中NLU是理解用户的意图,例如本例中经过NLU的处理就会识别出领域(domain)=天气(weather,)意图(intent)=天气查询(weather_check),词槽(slot)=长春,明天(Changchun,tomorrow)。DM用来进行对话管理,通过“语音服务适配层”来调用相对应的接口(CP)。接口返回来的结果,要在第二云语音服务端进行云端仲裁。例如,第一云语音服务端可以是第三方云语音服务端,第二云语音服务端可以是私有云部署语音服务端,也可以称为主机厂家自建语音服务端。将第三方能力搜索的结果与主机厂自己搜索的结果进行比较,选取结果更可靠的一方。最后天气查询的结果返回给车机端。
在车机端(Linux系统)收到结果之后,会将结果给到安卓(Android)端,跨系统间通信采用的是F-Dbus。SDS客户端收到结果之后,会陆续传给APP服务模块(消息下发、接口调用)、DM(语义、SDS状态同步),在DM模块中会请求VUI对结果进行展示,最终在显示屏上展示搜索结果,并且在DM中会生成播报文言,并将文言传给TTS模块(Linux端)进行播报。
在这个过程中可能会出现一种异常情况,即云端的结果返回超时。那么此时会采用本地的NLU结果,给到DM模块,生成兜底的TTS文言,并进行相对应的播报,告知用户,从而在车机端本地进行兜底回复,例如,语音播报告知用户“天气信息没查到”。作为本发明的一个实施方式,具体地,可以包括:由车机端的Linux系统侧的语音对话系统引擎中的自然语言理解模块对本地识别结果进行语义理解,生成本地语义理解结果;在来自第二云语音服务端的仲裁结果超时的情况下,由车机端的Linux系统侧的语音对话系统引擎根据本地语义理解结果生成本地响应信息,并将本地响应信息发送至车机端的安卓系统侧的对话管理模块;由车机端的安卓系统侧的对话管理模块对本地响应信息进行文本-语音转换,生成本地响应文本-语音转换文言,并且将本地响应文本-语音转换文言发送至车机端的Linux系统侧的语音对话系统引擎;由车机端的Linux系统侧的语音对话系统引擎根据本地响应文本-语音转换文言进行语音播报。
在一些情况下,用户的语音涉及控车指令,即,需要对车辆上的控制器进行控制,例如,用户说“打开空调”。作为本发明的一个实施方式,在控车的场景下,该方法还可以包括:由第一云语音服务端的自动语音识别模块将生成的云端识别结果经由云端适配服务模块发送至车机端的Linux系统侧的语音对话系统引擎;由车机端的Linux系统侧的语音对话系统引擎中的自然语言理解模块对云端识别结果进行语义理解,生成本地业务请求信息,其中本地业务请求信息与车辆控制器相关联;由车机端的人机接口(Human MachineInterface,HMI)根据本地业务信息向相关联的车辆控制器(ECU)发送控制指令。可选地,此时可以生成播报文言“正在为您打开空调”,同时,可以将ASR生成的文字在安卓系统侧的VUI处进行显示。可选地,在这种情况下,第一云语音服务端通过ASR、NLU和DM对音频进行处理,识别出用户语音音频涉及的领域是与车辆控制有关时,则停止进行后面的处理。最终,根据车机端本地处理的结果对车辆进行控制。
作为本发明的一个实施方式,车机本地也可以对用户音频进行识别,并且对识别结果进行显示。具体地,可以包括:由车机端的Linux系统侧的语音对话系统引擎中的自动语音识别(ASR)模块对用户语音音频文件进行语音识别,生成本地识别结果;由车机端的Linux系统侧的语音对话系统引擎将本地识别结果发送至车机端的安卓系统侧的对话管理模块;由车机端的安卓系统侧的对话管理模块请求车机端的安卓系统侧的语音用户接口对本地识别结果进行显示。
另外,车机端的引擎可以用来做一些本地业务或者对用户隐私要求比较高的业务,例如语音打电话。如图2所示,车机端的SDS引擎还可以包括ECNR&BF和唤醒语音(wakeup)功能,ECNR&BF用于回声消除和波束形成,主要消除音频文件中的杂音、回声等,确定声音的方位。
一般地,云端的计算能力比车机端本地的计算能力强,因此语音识别效果要比车机端更好一些,所以任务型技能可以采用云端的识别结果。云端识别结果反馈到本地之后,使用云端识别结果对在前显示的本地识别结果进行修正或者覆盖,从而提高识别结果准确度。具体地,可以包括:由第一云语音服务端的自动语音识别模块将生成的云端识别结果经由云端适配服务模块发送至车机端的Linux系统侧的语音对话系统引擎;由车机端的Linux系统侧的语音对话系统引擎将云端识别结果发送至车机端的安卓系统侧的对话管理模块;由车机端的安卓系统侧的对话管理模块请求车机端的安卓系统侧的语音用户接口利用云端识别结果来覆盖本地识别结果。
作为本发明的一个实施方式,用户的语音音频可能会涉及例如车辆知识、车操作手册等常见问题(Frequently Asked Questions,FAQ),或称经常出现的问题。针对这种场景,该方法还可以包括:由第二云语音服务端的自然语言理解模块和对话管理模块对云端识别结果进行语义理解和对话管理,判断第二业务请求信息是否与预存知识库有关;在第二业务请求信息与预存知识库有关的情况下,由第二云语音服务端的技能仲裁模块将第二业务请求信息发送至预存知识库查询模块(图2中所示的FAQ);由第二云语音服务端的技能仲裁模块接收预存知识库查询模块针对第二业务请求信息的知识库响应信息,并且将知识库响应信息作为仲裁结果。如图2所示,FAQ模块通过FAQ准入模块将知识库响应信息传输至仲裁模块。
在该实施方式中,将仲裁文本-语音转换文言发送至车机端的Linux系统侧的语音对话系统引擎包括:依次经由车机端的安卓系统侧的语音对话系统引擎客户端模块、车机端的Linux系统侧的语音对话系统引擎服务模块和车机端的Linux系统侧的逻辑管理模块,将仲裁文本-语音转换文言发送至车机端的Linux系统侧的语音对话系统引擎。
本发明的实施方式提出的提供车载语音服务的方法和系统,通过第一云语音服务端和第二云语音服务端分别对用户的音频输入进行语义理解并分别调用内容提供者的内容,产生两个不同的响应,通过设置技能仲裁模块对两个响应进行置信度仲裁,选取更加可信的响应反馈给用户,提高了车载语音服务的准确率,提升了用户体验。
本发明的实施方式除了车机端的语音引擎之外,增加了私有云部署语音服务,对语音服务进行私有化部署。实现了语音服务的私有化部署,用户的所有数据可以留在企业内部,安全等级更高,提高了数据安全性。
另外,车载语音服务私有化部署之后,可以更灵活的对语音产品进行个性化定制、二次开发。
出于示意的目的,已经给出了本发明的实施方式的前述说明,其并非是穷举性的也并非要将本发明限制为所公开的确切形式。本领域技术人员可以理解的是,在不偏离本发明的范围的情况下可以做出各种变化,并且可以将其中的元件替换为等同物。另外,在不偏离本发明的基本范围的情况下,可以进行很多修改以使得特定的情况或材料适应于本发明的教导。因此,本发明不试图限制于所公开的作为用于实现本发明所预期的最佳模式的特定实施方式,本发明将包括落入所附的权利要求的范围内的所有实施方式。
Claims (10)
1.一种提供车载语音服务的方法,其特征在于,所述方法包括:
由车机端的麦克风对用户的语音进行录音,形成用户语音音频文件;
由所述车机端的Linux系统侧的语音对话系统引擎将所述用户语音音频文件经由云端适配服务模块发送至第一云语音服务端;
由所述第一云语音服务端的自动语音识别模块对所述用户语音音频文件进行语音识别,生成云端识别结果;
由所述第一云语音服务端的自然语言理解模块和对话管理模块对所述云端识别结果进行语义理解和对话管理,生成第一业务请求信息;
由所述第一云语音服务端将所述第一业务请求信息发送至第一内容提供者;
由所述第一云语音服务端从所述第一内容提供者接收针对所述第一业务请求信息的第一业务响应信息;
由所述第一云语音服务端经由所述云端适配服务模块将所述第一业务响应信息发送至第二云语音服务端的技能仲裁模块;
由所述第一云语音服务端将所述云端识别结果经由所述云端适配服务模块发送至第二云语音服务端;
由所述第二云语音服务端的自然语言理解模块和对话管理模块对所述云端识别结果进行语义理解和对话管理,生成第二业务请求信息;
由所述第二云语音服务端将所述第二业务请求信息发送至第二内容提供者;
由所述第二云语音服务端从所述第二内容提供者接收针对所述第二业务请求信息的第二业务响应信息;
由所述第二云语音服务端的所述技能仲裁模块对所述第一业务响应信息和所述第二业务响应信息的置信度进行仲裁,生成仲裁结果;
由所述第二云语音服务端将所述仲裁结果经由所述云端适配服务模块发送至所述车机端的Linux系统侧的所述语音对话系统引擎;
由所述车机端的Linux系统侧的所述语音对话系统引擎将所述仲裁结果发送至所述车机端的安卓系统侧的对话管理模块;
由所述车机端的安卓系统侧的对话管理模块请求所述车机端的安卓系统侧的语音用户接口对所述仲裁结果进行显示;
由所述车机端的安卓系统侧的对话管理模块对所述仲裁结果进行文本-语音转换,生成仲裁文本-语音转换文言,并且将所述仲裁文本-语音转换文言发送至所述车机端的Linux系统侧的所述语音对话系统引擎;
由所述车机端的Linux系统侧的语音对话系统引擎根据所述仲裁文本-语音转换文言进行语音播报。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
由所述第一云语音服务端的自动语音识别模块将生成的所述云端识别结果经由所述云端适配服务模块发送至所述车机端的Linux系统侧的语音对话系统引擎;
由所述车机端的Linux系统侧的语音对话系统引擎中的自然语言理解模块对所述云端识别结果进行语义理解,生成本地业务请求信息,其中所述本地业务请求信息与车辆控制器相关联;
由所述车机端的人机接口根据所述本地业务信息向相关联的车辆控制器发送控制指令。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
由所述车机端的Linux系统侧的语音对话系统引擎中的自动语音识别模块对所述用户语音音频文件进行语音识别,生成本地识别结果;
由所述车机端的Linux系统侧的语音对话系统引擎将所述本地识别结果发送至所述车机端的安卓系统侧的对话管理模块;
由所述车机端的安卓系统侧的对话管理模块请求所述车机端的安卓系统侧的语音用户接口对所述本地识别结果进行显示。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
由所述车机端的Linux系统侧的语音对话系统引擎中的自然语言理解模块对所述本地识别结果进行语义理解,生成本地语义理解结果;
在来自所述第二云语音服务端的仲裁结果超时的情况下,由所述车机端的Linux系统侧的语音对话系统引擎根据所述本地语义理解结果生成本地响应信息,并将所述本地响应信息发送至所述车机端的安卓系统侧的对话管理模块;
由所述车机端的安卓系统侧的对话管理模块对所述本地响应信息进行文本-语音转换,生成本地响应文本-语音转换文言,并且将所述本地响应文本-语音转换文言发送至所述车机端的Linux系统侧的所述语音对话系统引擎;
由所述车机端的Linux系统侧的语音对话系统引擎根据所述本地响应文本-语音转换文言进行语音播报。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
由所述第二云语音服务端的自然语言理解模块和对话管理模块对所述云端识别结果进行语义理解和对话管理,判断所述第二业务请求信息是否与预存知识库有关;
在所述第二业务请求信息与预存知识库有关的情况下,由所述第二云语音服务端的所述技能仲裁模块将所述第二业务请求信息发送至预存知识库查询模块;
由所述第二云语音服务端的所述技能仲裁模块接收所述预存知识库查询模块针对所述第二业务请求信息的知识库响应信息,并且将所述知识库响应信息作为所述仲裁结果。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
由所述第一云语音服务端的自动语音识别模块将生成的所述云端识别结果经由所述云端适配服务模块发送至所述车机端的Linux系统侧的语音对话系统引擎;
由所述车机端的Linux系统侧的所述语音对话系统引擎将所述云端识别结果发送至所述车机端的安卓系统侧的对话管理模块;
由所述车机端的安卓系统侧的对话管理模块请求所述车机端的安卓系统侧的语音用户接口利用所述云端识别结果来覆盖所述本地识别结果。
7.根据权利要求1所述的方法,其特征在于,所述第一云语音服务端是第三方云语音服务端,所述第二云语音服务端是私有云部署语音服务端。
8.根据权利要求1所述的方法,其特征在于,所述业务请求信息包括业务领域、用户意图和词槽。
9.根据权利要求1所述的方法,其特征在于,
将所述仲裁结果发送至所述车机端的安卓系统侧的对话管理模块包括:
依次经由所述车机端的Linux系统侧的逻辑管理模块、所述车机端的Linux系统侧的语音对话系统引擎服务模块、所述车机端的安卓系统侧的语音对话系统引擎客户端模块,将所述仲裁结果发送至所述车机端的安卓系统侧的对话管理模块;
并且,
将所述仲裁文本-语音转换文言发送至所述车机端的Linux系统侧的语音对话系统引擎包括:
依次经由所述车机端的安卓系统侧的语音对话系统引擎客户端模块、所述车机端的Linux系统侧的语音对话系统引擎服务模块和所述车机端的Linux系统侧的逻辑管理模块,将所述仲裁文本-语音转换文言发送至所述车机端的Linux系统侧的语音对话系统引擎。
10.一种提供车载语音服务的系统,其特征在于,所述系统包括车机端和云端,其中,所述车机端包括Linux系统侧和安卓系统侧,所述云端包括第一云语音服务端、第二云语音服务端和云端适配服务模块,
所述车机端用于:通过麦克风对用户的语音进行录音,形成用户语音音频文件;通过Linux系统侧的语音对话系统引擎将所述用户语音音频文件经由云端适配服务模块发送至第一云语音服务端;通过所述车机端的Linux系统侧的所述语音对话系统引擎将所述仲裁结果发送至所述车机端的安卓系统侧的对话管理模块;通过所述车机端的安卓系统侧的对话管理模块请求所述车机端的安卓系统侧的语音用户接口对所述仲裁结果进行显示;通过所述车机端的安卓系统侧的对话管理模块对所述仲裁结果进行文本-语音转换,生成仲裁文本-语音转换文言,并且将所述仲裁文本-语音转换文言发送至所述车机端的Linux系统侧的所述语音对话系统引擎;通过所述车机端的Linux系统侧的语音对话系统引擎根据所述仲裁文本-语音转换文言进行语音播报;
所述第一云语音服务端用于:通过所述第一云语音服务端的自动语音识别模块对所述用户语音音频文件进行语音识别,生成云端识别结果;通过所述第一云语音服务端的第一自然语言理解模块和第一对话管理模块对所述云端识别结果进行语义理解和对话管理,生成第一业务请求信息;将所述第一业务请求信息发送至第一内容提供者;从所述第一内容提供者接收针对所述第一业务请求信息的第一业务响应信息;经由所述云端适配服务模块将所述第一业务响应信息发送至第二云语音服务端的技能仲裁模块;将所述云端识别结果经由所述云端适配服务模块发送至第二云语音服务端;
所述第二云语音服务端用于:通过所述第二云语音服务端的自然语言理解模块和对话管理模块对所述云端识别结果进行语义理解和对话管理,生成第二业务请求信息;将所述第二业务请求信息发送至第二内容提供者;从所述第二内容提供者接收针对所述第二业务请求信息的第二业务响应信息;通过所述第二云语音服务端的所述技能仲裁模块对所述第一业务响应信息和所述第二业务响应信息的置信度进行仲裁,生成仲裁结果;将所述仲裁结果经由所述云端适配服务模块发送至所述车机端的Linux系统侧的所述语音对话系统引擎。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210768319.3A CN117373439A (zh) | 2022-06-30 | 2022-06-30 | 提供车载语音服务的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210768319.3A CN117373439A (zh) | 2022-06-30 | 2022-06-30 | 提供车载语音服务的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117373439A true CN117373439A (zh) | 2024-01-09 |
Family
ID=89406481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210768319.3A Pending CN117373439A (zh) | 2022-06-30 | 2022-06-30 | 提供车载语音服务的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117373439A (zh) |
-
2022
- 2022-06-30 CN CN202210768319.3A patent/CN117373439A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107204185B (zh) | 车载语音交互方法、系统及计算机可读存储介质 | |
US7177634B2 (en) | Method of voice access for vehicle services | |
EP1661122B1 (en) | System and method of operating a speech recognition system in a vehicle | |
US7480546B2 (en) | System and method for providing language translation in a vehicle telematics device | |
US8909153B2 (en) | Vehicle communications using a mobile device | |
US7844246B2 (en) | Method and system for communications between a telematics call center and a telematics unit | |
US8000452B2 (en) | Method and system for predictive interactive voice recognition | |
US20070136069A1 (en) | Method and system for customizing speech recognition in a mobile vehicle communication system | |
US20040193420A1 (en) | Mobile systems and methods for responding to natural language speech utterance | |
CN103124318B (zh) | 开始免提会议呼叫的方法 | |
US20150056951A1 (en) | Vehicle telematics unit and method of operating the same | |
KR20020071851A (ko) | 로컬 인터럽트 검출을 기반으로한 음성인식 기술 | |
US20060265217A1 (en) | Method and system for eliminating redundant voice recognition feedback | |
US20070211880A1 (en) | Method and system for providing menu tree assistance | |
EP3226239B1 (en) | Voice command system | |
US7555533B2 (en) | System for communicating information from a server via a mobile communication device | |
US7596370B2 (en) | Management of nametags in a vehicle communications system | |
CN111094924A (zh) | 用于执行基于语音的人机交互的数据处理装置和方法 | |
CN113270093A (zh) | 代理装置、代理系统以及非暂时性记录介质 | |
KR20220143683A (ko) | 전자 개인 비서 조정 | |
US8782171B2 (en) | Voice-enabled web portal system | |
CN117373439A (zh) | 提供车载语音服务的方法和系统 | |
US20110166858A1 (en) | Method of recognizing speech | |
US11646031B2 (en) | Method, device and computer-readable storage medium having instructions for processing a speech input, transportation vehicle, and user terminal with speech processing | |
US20200219508A1 (en) | Method for commanding a plurality of virtual personal assistants and associated devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |