CN109326288A - 一种ai语音对话系统 - Google Patents

一种ai语音对话系统 Download PDF

Info

Publication number
CN109326288A
CN109326288A CN201811292305.9A CN201811292305A CN109326288A CN 109326288 A CN109326288 A CN 109326288A CN 201811292305 A CN201811292305 A CN 201811292305A CN 109326288 A CN109326288 A CN 109326288A
Authority
CN
China
Prior art keywords
module
voice
speech
engine
cloud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811292305.9A
Other languages
English (en)
Inventor
李足红
李洋全
黄涛涛
陈贵凤
田婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201811292305.9A priority Critical patent/CN109326288A/zh
Publication of CN109326288A publication Critical patent/CN109326288A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种AI语音对话系统,包括终端系统和云端系统:本发明解决了原核心架构在终端,迭代速度慢;各个核心子系统之间耦合较深,不易独立扩展。该架构是着眼于未来AI语音对话系统的技术发展趋势而设计的,让人工智能语音电视持续发展具备了坚实基础。

Description

一种AI语音对话系统
技术领域
本发明涉及人工智能语音技术领域,尤其涉及一种AI语音对话系统。
背景技术
近年来,随着人工智能的迅速发展,人工智能语音技术更是受到智能电视行业的追捧,不少电视厂商纷纷发布了具有语音交互功能的电视新品,而且智能电视语音交互也成为了吸引消费者的重要因素之一。而如何打造一款既稳定高效,又有具有高可扩展性和松耦合的AI语音对话系统,就成为首先要解决的架构问题,因为只有首先保证AI语音对话系统架构的先进性,我们才能基于此持续快速地开发更多语音功能。
以前,我们语音系统的核心架构主要在终端,而云端仅仅提供一些必要的识别和服务接口,这就导致,一方面架构的调整需要升级终端,另一方面,各个子系统耦合较高,不利于各自的扩展。而本发明提供一种创新的架构方法,将相对固定的语音处理逻辑放在终端,而将相对容易变化的意图分发、服务接入等子系统放在云端,形成了各子系统端云一体,但又相对独立的端云架构,这也为长虹智能电视在人工智能语音领域持续领先于行业提供了坚实的技术基础。
发明内容
本发明的目的就在于为了解决上述问题而提供一种AI语音对话系统,本发明通过以下技术方案来实现上述目的:
一种AI语音对话系统,包括终端系统和云端系统:
所述终端系统包括名称为AI Voice UI的终端语音系统,所述终端语音系统包括核心逻辑引擎、语音处理引擎和UI引擎三个模块;
所述核心逻辑引擎包括录音、语音识别、语义处理、功能执行、UI展示和播报六个核心逻辑,“录音”模块负责获取各种输入设备的音频数据,并将其作为输出,发送给下一个模块“语音识别”;“语音识别”模块将输入的录音数据转换为文本数据,输出给下一个模块“语义处理”;“语义处理”模块将输入的文本数据转换为结构化数据,输出给后面三个模块“功能执行”、“UI展示”和“语音播报”,“功能执行”模块负责调用本地功能接口,“UI展示”模块负责向用户以图形化的方式展示结果,“语音播报”模块负责以声音的方式给用户展示结果;
所述语音处理引擎包括ASR、NLP和TTS,提供抽象接口和具体实现,语音处理引擎提供抽象接口,供具体的ASR、NLP和TTS实现,同时供前述的核心逻辑引擎调用;
所述UI引擎主要提供对本地UI模板和云端UI模板的方式,而云端UI模板支持标准的H5方式和小程序方式,本地UI模板支持的样式固定且有限,供语音技能开发者选取;云端UI模板支持语音技能开发者自定义,以满足其个性化需求;
所述云端系统包括云端中控决策系统和语音开放平台;
所述中控决策模块包括核心策略模块、意图识别模块、语义接入模块和服务接口模块,“核心策略”模块以用户请求作为输入,并先调用“意图识别”模块,以获得用户的意图,然后根据用户意图调用“语义接入”模块,最后再根据语义结果调用对应的“服务接入”模块,最终将服务数据输出给请求端;
所述语音开放平台为语音技能开发者提供开发、测试和发布语音技能的平台,语音技能开发者登录语音开放平台,输入技能名称、添加技能的意图数据、选取技能的UI模板、上传服务数据获取脚本,最后提交。
更进一步的方案是:
所述核心逻辑引擎包含6类基本逻辑:录音、语音识别、语义理解、功能执行、UI展示和语音播报。
更进一步的方案是:
所述UI引擎支持本地UI模板、Web UI模板两种方式。
本发明的有益效果在于:
本发明的一种AI语音对话系统,解决原核心架构在终端,迭代速度慢;各个核心子系统之间耦合较深,不易独立扩展。该架构是着眼于未来AI语音对话系统的技术发展趋势而设计的,让人工智能语音电视持续发展具备了坚实基础。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要实用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1本发明的系统示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
如图1所示,一种AI语音对话系统,包括终端系统和云端系统:
所述终端系统包括名称为AI Voice UI的终端语音系统,所述终端语音系统包括核心逻辑引擎、语音处理引擎和UI引擎三个模块;
所述核心逻辑引擎包括录音、语音识别、语义处理、功能执行、UI展示和播报六个核心逻辑,“录音”模块负责获取各种输入设备的音频数据,并将其作为输出,发送给下一个模块“语音识别”;“语音识别”模块将输入的录音数据转换为文本数据,输出给下一个模块“语义处理”;“语义处理”模块将输入的文本数据转换为结构化数据,输出给后面三个模块“功能执行”、“UI展示”和“语音播报”,“功能执行”模块负责调用本地功能接口,“UI展示”模块负责向用户以图形化的方式展示结果,“语音播报”模块负责以声音的方式给用户展示结果;
所述语音处理引擎包括ASR(语音识别)、NLP(语义处理)和TTS(语音播报),提供抽象接口和具体实现,语音处理引擎提供抽象接口,供具体的ASR、NLP和TTS实现,同时供前述的核心逻辑引擎调用;ASR接口模块和TTS接口模块处理的数据最终分别储存至相应的云端平台;
所述UI引擎主要提供对本地UI模板和云端UI模板的方式,而云端UI模板支持标准的H5方式和小程序方式,本地UI模板支持的样式固定且有限,供语音技能开发者选取;云端UI模板支持语音技能开发者自定义,以满足其个性化需求;
所述云端系统包括云端中控决策系统和语音开放平台;
所述中控决策模块包括核心策略模块、意图识别模块、语义接入模块和服务接口模块,“核心策略”模块以用户请求作为输入,并先调用“意图识别”模块,以获得用户的意图,然后根据用户意图调用“语义接入”模块,最后再根据语义结果调用对应的“服务接入”模块,最终将服务数据输出给请求端;
所述语音开放平台为语音技能开发者提供开发、测试和发布语音技能的平台,语音技能开发者登录语音开放平台,输入技能名称、添加技能的意图数据、选取技能的UI模板、上传服务数据获取脚本,最后提交。
所述核心逻辑引擎包含6类基本逻辑:录音、语音识别、语义理解、功能执行、UI展示和语音播报。所述UI引擎支持本地UI模板、Web UI模板两种方式。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

Claims (3)

1.一种AI语音对话系统,其特征在于,包括终端系统和云端系统:
所述终端系统包括名称为AI Voice UI的终端语音系统,所述终端语音系统包括核心逻辑引擎、语音处理引擎和UI引擎三个模块;
所述核心逻辑引擎包括录音、语音识别、语义处理、功能执行、UI展示和播报六个核心逻辑,“录音”模块负责获取各种输入设备的音频数据,并将其作为输出,发送给下一个模块“语音识别”;“语音识别”模块将输入的录音数据转换为文本数据,输出给下一个模块“语义处理”;“语义处理”模块将输入的文本数据转换为结构化数据,输出给后面三个模块“功能执行”、“UI展示”和“语音播报”,“功能执行”模块负责调用本地功能接口,“UI展示”模块负责向用户以图形化的方式展示结果,“语音播报”模块负责以声音的方式给用户展示结果;
所述语音处理引擎包括ASR、NLP和TTS,提供抽象接口和具体实现,语音处理引擎提供抽象接口,供具体的ASR、NLP和TTS实现,同时供前述的核心逻辑引擎调用;
所述UI引擎主要提供对本地UI模板和云端UI模板的方式,而云端UI模板支持标准的H5方式和小程序方式,本地UI模板支持的样式固定且有限,供语音技能开发者选取;云端UI模板支持语音技能开发者自定义,以满足其个性化需求;
所述云端系统包括云端中控决策系统和语音开放平台;
所述中控决策模块包括核心策略模块、意图识别模块、语义接入模块和服务接口模块,“核心策略”模块以用户请求作为输入,并先调用“意图识别”模块,以获得用户的意图,然后根据用户意图调用“语义接入”模块,最后再根据语义结果调用对应的“服务接入”模块,最终将服务数据输出给请求端;
所述语音开放平台为语音技能开发者提供开发、测试和发布语音技能的平台,语音技能开发者登录语音开放平台,输入技能名称、添加技能的意图数据、选取技能的UI模板、上传服务数据获取脚本,最后提交。
2.如权利要求1所述的一种AI语音对话系统,其特征在于,所述核心逻辑引擎包含6类基本逻辑:录音、语音识别、语义理解、功能执行、UI展示和语音播报。
3.如权利要求1所述的一种AI语音对话系统,其特征在于,所述UI引擎支持本地UI模板、Web UI模板两种方式。
CN201811292305.9A 2018-10-31 2018-10-31 一种ai语音对话系统 Pending CN109326288A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811292305.9A CN109326288A (zh) 2018-10-31 2018-10-31 一种ai语音对话系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811292305.9A CN109326288A (zh) 2018-10-31 2018-10-31 一种ai语音对话系统

Publications (1)

Publication Number Publication Date
CN109326288A true CN109326288A (zh) 2019-02-12

Family

ID=65259987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811292305.9A Pending CN109326288A (zh) 2018-10-31 2018-10-31 一种ai语音对话系统

Country Status (1)

Country Link
CN (1) CN109326288A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706701A (zh) * 2019-10-08 2020-01-17 百度在线网络技术(北京)有限公司 语音技能推荐方法、装置、设备及存储介质
CN111599362A (zh) * 2020-05-20 2020-08-28 湖南华诺科技有限公司 一种自定义智能音箱技能的系统、方法及存储介质
CN112259087A (zh) * 2020-10-16 2021-01-22 四川长虹电器股份有限公司 基于时序神经网络模型补全语音数据的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050091058A1 (en) * 2002-02-13 2005-04-28 France Telecom Interactive telephone voice services
CN105045122A (zh) * 2015-06-24 2015-11-11 张子兴 一种基于音频和视频的智能家居自然交互系统
CN108415698A (zh) * 2018-03-14 2018-08-17 苏州思必驰信息科技有限公司 在语音对话平台的技能中添加控件的方法
CN108446117A (zh) * 2018-03-20 2018-08-24 苏州思必驰信息科技有限公司 在语音对话平台的产品中配置ui的方法及系统
CN108564946A (zh) * 2018-03-16 2018-09-21 苏州思必驰信息科技有限公司 在语音对话平台创建技能、语音对话产品的方法及系统
CN108664568A (zh) * 2018-04-24 2018-10-16 科大讯飞股份有限公司 语义技能创建方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050091058A1 (en) * 2002-02-13 2005-04-28 France Telecom Interactive telephone voice services
CN105045122A (zh) * 2015-06-24 2015-11-11 张子兴 一种基于音频和视频的智能家居自然交互系统
CN108415698A (zh) * 2018-03-14 2018-08-17 苏州思必驰信息科技有限公司 在语音对话平台的技能中添加控件的方法
CN108564946A (zh) * 2018-03-16 2018-09-21 苏州思必驰信息科技有限公司 在语音对话平台创建技能、语音对话产品的方法及系统
CN108446117A (zh) * 2018-03-20 2018-08-24 苏州思必驰信息科技有限公司 在语音对话平台的产品中配置ui的方法及系统
CN108664568A (zh) * 2018-04-24 2018-10-16 科大讯飞股份有限公司 语义技能创建方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706701A (zh) * 2019-10-08 2020-01-17 百度在线网络技术(北京)有限公司 语音技能推荐方法、装置、设备及存储介质
CN110706701B (zh) * 2019-10-08 2023-04-18 百度在线网络技术(北京)有限公司 语音技能推荐方法、装置、设备及存储介质
CN111599362A (zh) * 2020-05-20 2020-08-28 湖南华诺科技有限公司 一种自定义智能音箱技能的系统、方法及存储介质
CN112259087A (zh) * 2020-10-16 2021-01-22 四川长虹电器股份有限公司 基于时序神经网络模型补全语音数据的方法

Similar Documents

Publication Publication Date Title
CN109326288A (zh) 一种ai语音对话系统
CN108766441B (zh) 一种基于离线声纹识别和语音识别的语音控制方法及装置
EP4016330A1 (en) Speech dialog processing method and apparatus
CN109101545A (zh) 基于人机交互的自然语言处理方法、装置、设备和介质
CN108597509A (zh) 智能语音交互实现方法、装置、计算机设备及存储介质
CN111261151B (zh) 一种语音处理方法、装置、电子设备及存储介质
CN109584860A (zh) 一种语音唤醒词定义方法和系统
CN111881280A (zh) 一种用于电力行业的智能人机交互系统及方法
CN110718208A (zh) 基于多任务声学模型的语音合成方法及系统
CN107808007A (zh) 信息处理方法和装置
CN106057194A (zh) 一种语音交互系统
CN107680595A (zh) 一种智能语音手机或智能语音平板
CN111128175B (zh) 口语对话管理方法及系统
CN117059068A (zh) 语音处理方法、装置、存储介质及计算机设备
CN109830232A (zh) 人机交互方法、装置和存储介质
CN111739541A (zh) 一种基于语音的会议协助方法及系统、存储介质及终端
CN112163084A (zh) 问题反馈方法、装置、介质以及电子设备
CN112102807A (zh) 语音合成方法、装置、计算机设备和存储介质
CN106251717A (zh) 智能机器人语言跟读学习方法和装置
CN103383844B (zh) 语音合成方法及系统
CN115116458A (zh) 语音数据转换方法、装置、计算机设备及存储介质
CN111754811A (zh) 一种用于停车设备的交互系统和方法
CN112399020A (zh) 一种智能语音客服系统
CN111611407A (zh) 客服服务交互方法、装置、存储介质及设备
CN110782873A (zh) 基于语音交互的适用于电子设备的可重构模块化测试系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190212