CN105516520B - 一种互动式语音应答装置 - Google Patents

一种互动式语音应答装置 Download PDF

Info

Publication number
CN105516520B
CN105516520B CN201610078455.4A CN201610078455A CN105516520B CN 105516520 B CN105516520 B CN 105516520B CN 201610078455 A CN201610078455 A CN 201610078455A CN 105516520 B CN105516520 B CN 105516520B
Authority
CN
China
Prior art keywords
module
interactive voice
speech
semantic feature
logic control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610078455.4A
Other languages
English (en)
Other versions
CN105516520A (zh
Inventor
严江浩
彭小明
蒋楠
邱婕
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201610078455.4A priority Critical patent/CN105516520B/zh
Publication of CN105516520A publication Critical patent/CN105516520A/zh
Application granted granted Critical
Publication of CN105516520B publication Critical patent/CN105516520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4936Speech interaction details
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • H04M2201/405Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition involving speaker-dependent recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供了一种互动式语音应答装置,所述装置包括语音识别模组、语音交互模组、语音逻辑控制模组;所述语音识别模组用于识别用户语音内容产生语义要素并发送给所述语音交互模组;所述语音交互模组将所述语义要素发送给所述语音逻辑控制模组;所述语音逻辑控制模组用于根据语音要素查找出相应的播报内容或者服务项目并发送给所述语音交互模组;所述语音交互模组还用于播报内容或者转向相应的服务项目为客户提供服务;所述语音识别模组可拆卸地与所述语音交互模组连接,所述语音逻辑控制模组可拆卸地与所述语音交互模组连接,使得用户可按需求来配置业务逻辑,业务逻辑可脱离互动式语音应答装置进行逻辑迁移,减少迁移业务逻辑的开销。

Description

一种互动式语音应答装置
技术领域
本发明涉及互动式语音应答领域,尤其涉及一种互动式语音应答装置。
背景技术
目前互动式语音应答(Interactive Voice Response,IVR)系统在实现上需要依赖厂商的自助语音平台,如edify,需要在edify的基础上进行二次开发书写业务逻辑。如先根据ASR(自动语音识别技术,Automatic Speech Recognition,ASR)识别出来的结果对应的关键字来进行匹配,比如客户说“我要查询一下我的信用卡账单情况是怎么样的”,ASR会匹配到“信用卡”,“账单”等关键字来判断客户是要转到信用卡账单这个服务项目,然后将这个结果返回给IVR。IVR进行下一步流程处理。如客户表述的有问题,那么ASR也会将结果返回给IVR,由IVR流转到下一次交互。这种方式交互效果不太理想,且依赖厂商的产品edify,移植性差。如当某个业务逻辑更改时,需要调整大量的代码才可以完成相应的业务。一旦厂商不再合作,或者厂商不再支持该产品,就需要把二次开发在厂商产品基础上的业务逻辑进行迁移或者在新的厂商基础上再进行二次开发。这样导致迁移或者开发的成本非常大。
发明内容
本发明提供一种互动式语音应答装置,该装置将业务逻辑部分与IVR独立开来,实现了无需调整代码即可按需求来配置业务逻辑,同时可脱离IVR进行逻辑迁移,减少迁移业务逻辑的开销。
一种互动式语音应答装置,所述装置包括语音识别模组、语音交互模组、语音逻辑控制模组;所述语音识别模组用于识别用户语音内容产生语义要素并发送给所述语音交互模组;所述语音交互模组将所述语义要素发送给所述语音逻辑控制模组;所述语音逻辑控制模组用于根据语音要素查找出相应的播报内容或者服务项目并发送给所述语音交互模组;所述语音交互模组还用于播报内容或者转向相应的服务项目为客户提供服务;所述语音识别模组可拆卸地与所述语音交互模组连接,所述语音逻辑控制模组可拆卸地与所述语音交互模组连接。
以上装置的音逻辑控制模组可拆卸地与语音交互模组连接,使得用户可按需求来配置业务逻辑,业务逻辑可脱离互动式语音应答装置进行逻辑迁移,减少迁移业务逻辑的开销。
附图说明
图1为一种互动式语音应答装置的模组结构图。
图2为语音识别模组的子功能框图。
图3为语音逻辑控制模组的子功能框图。
图4为语音交互模组的子功能框图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的具体实施方式作进一步的详细描述。
图1为一种互动式语音应答装置的模组结构图。该互动式语音应答装置100包括语音识别模组10、语音逻辑控制模组20以及语音交互模组30。其中,语音逻辑控制模组20和语音识别模组10分别可拆卸地与语音交互模组30连接。
请参看图2,语音识别模组10包括语音识别模组接口11、第一获取单元12、语义识别单元13、拆分单元14。其中,语音识别模组10通过语音识别模组接口11与语音交互模组30连接。第一获取单元12用于获取语音交互模组30获取的用户语音内容。语义识别单元13用于将用户语音内容进行语义识别,可以通过ASR技术进行语义识别,也可以通过其他可行的方式进行语义识别。拆分单元14用于将识别的语义拆分成语义要素并通过语音识别模组接口11将语义要素发送给语音交互模组30。其中语义要素包括但不局限于对象、行为、系列、属性。如语义信用卡本期账单查询对应的语义要素:对象=账单、行为=查询、系列=信用卡、属性=本期。如语义信用卡账单查询,对应的语义要素:对象=账单、行为=查询、系列=信用卡,属性=任意。
请参看图3,语音逻辑控制模组20包括语音逻辑控制模组接口21。语音逻辑控制模组20通过语音逻辑控制模组接口21与语音交互模组30连接。
语音逻辑控制模组20还包括有数据库22,数据库22中存储的为业务逻辑的数据,包括语义要素,该语义要素包括完整语义所对应的语义要素及不完整语义所对应的语义要素。数据库中存储的数据还包括完整语义的语义要素所对应的服务项目、不完整语义的语义要素所对应的播报内容。其中,一条不完整语义中包含的语义要素是不完整的,且无法定位一个服务项目,一条完整语义能定位一个服务项目。
如语义为查询信用卡账单或者为信用卡账单查询,对应的语义要素:对象=账单、行为=查询、系列=信用卡,属性=任意。那么查询信用卡账单的语义或者信用卡账单查询的语义,不知道要查询哪期的信用卡账单,无法定位一个服务项目,即为不完整语义。语义为查询信用卡账单或者为信用卡账单查询为不完整语义,所对应的播报内容可以为“您要查询本期的信用卡账单吗”或者“您要查询哪一期的信用卡账单”或者“您要查询本期的信用卡账单还是历史信用卡账单”等。如语义为查询信用卡本期账单或者信用卡本期账单查询,则对应的语义要素:对象=账单、行为=查询、系列=信用卡,属性=本期。那么查询信用卡本期账单的语义或者信用卡本期账单查询的语义即为完整语义,可以定位一个服务项目,该服务项目为信用卡本期账单查询。
语音逻辑控制模组20还包括第二接收单元23、查询单元24。第二接收单元23用于接收语音交互模组30发送的语义识别结果即语义要素。查询单元24用于根据语义要素查询数据库22中该语义要素所对应的播报内容或者服务项目并通过语音逻辑控制模组接口21将查询得到的播报内容或者服务项目返回给语音交互模组30。
如语义为信用卡账单查询,对应的语义要素:对象=账单、行为=查询、系列=信用卡,属性=任意。第二接收单元23接收该语义要素后,查询单元24在数据库中查询该语义要素对应的播报内容为“您要查询哪一期的信用卡账单”,通过语音逻辑控制模组接口21将查询得到的播报内容发送给语音交互模组30。
请参看图4,语音交互模组30包括语音交互模组接口31、第三获取单元32、第三接收单元33、播报单元34、执行单元35。其中,语音交互模组30通过语音交互模组接口31与语音逻辑控制模组20和语音识别模组10连接。第三获取单元32用于获取用户的语音内容并通过语音交互模组接口31将获取的用户语音内容发送给语音识别模组10进行语义识别。第三接收单元33用于接收语音识别模组10返回的语义识别结果并通过语音交互模组接口31将接收到的语义识别结果发送给语音逻辑控制模组20。第三接收单元33还用于接收语音逻辑控制模组20返回的播报内容或者服务项目。播报单元34用于将语音逻辑控制模组20返回的播报内容向用户进行播报。执行单元35用于当接收到语音逻辑控制模组20返回的服务项目时,转向该服务项目为用户提供服务。
如语音交互模组30的第三接收单元32接收到语音逻辑控制模组20发挥的播报内容“您要查询哪一期的信用卡账单”,播报单元34向用户播报该播报内容。如果用户回答“本期的”,语音交互模组30的第三获取单元32获取用户的语音内容“本期的”,通过语音交互模组接口31将获取的用户语音内容发送给语音识别模组10进行语义识别。语音识别模组10识别的结果为属性=本期,至此,得到语义要素对象=账单、行为=查询、系列=信用卡,属性=本期。语音交互模组30的第三接收单元32接收语音识别模组10返回的语音识别结果,并通过语音交互模组接口31将接收到的语音识别结果发送给语音逻辑控制模组20,语音逻辑控制模组20查询数据库中存储的业务逻辑,得到服务项目为信用卡本期账单查询并把该服务项目返回给语音交互模组30,语音交互模组30的执行单元35转向该服务项目为用户提供服务。
语音识别模组10通过语音识别模组接口11与语音交互模组30连接,语音交互模组30通过语音交互模组接口31与语音逻辑控制模组20和语音识别模组10连接,语音逻辑控制模组20通过语音逻辑控制模组接口21与语音交互模组30连接。
以上互动式语音应答装置包括语音识别模组10、语音逻辑控制模组20、语音交互模组30,语音识别模组10可拆卸地与语音交互模组30连接,语音逻辑控制模组20可拆卸地与语音交互模组30连接,通过语音交互模组30获取用户语音内容并发送给语音识别模组10进行语义识别,语音识别模组10将用户语音的语义识别结果返回给语音交互模组30,语音交互模组30接收语义识别结果并发送给语音逻辑控制模组20,语音逻辑控制模组20查询数据库中该语义识别结果所对应的播报内容或者是服务项目并把播报内容或者服务项目返回给语音交互模组30,如果是播报内容,语音交互模组30向用户播报相应的播报内容,如果是服务项目,语音交互模组30转向该服务项目为用户提供服务。语音逻辑控制模组20可拆卸地与语音交互模组30连接,语音识别模组10可拆卸地与语音交互模组30连接,使得用户可按需求来配置业务逻辑,业务逻辑可脱离互动式语音应答装置进行逻辑迁移,减少迁移业务逻辑的开销。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种互动式语音应答装置,其特征在于:所述装置包括语音识别模组、语音交互模组、语音逻辑控制模组,所述语音逻辑控制模组包括数据库,所述数据库中存储的数据包括语义要素、语义要素所对应的播报内容或者服务项目,具体地,包括不完整语义要素和完整语义要素、不完整语义要素所对应的播报内容、完整语义要素所对应的服务项目;所述语音识别模组用于识别用户语音内容产生语义要素并发送给所述语音交互模组;所述语音交互模组将所述语义要素发送给所述语音逻辑控制模组;所述语音逻辑控制模组用于根据语义要素查找出相应的播报内容或者服务项目并发送给所述语音交互模组;所述语音交互模组还用于播报内容或者转向相应的服务项目为客户提供服务;所述语音识别模组可拆卸地与所述语音交互模组连接,所述语音逻辑控制模组可拆卸地与所述语音交互模组连接。
2.如权利要求1所述的装置,其特征在于:所述语音识别模组包括语音识别模组接口、第一获取单元、语义识别单元、拆分单元;所述语音识别模组通过所述语音识别模组接口与所述语音交互模组连接;所述第一获取单元用于获取用户语音内容;所述语义识别单元用于将用户语音内容进行语义识别;所述拆分单元用于将识别的语义拆分成语义要素并通过语音识别模组接口发送给所述语音交互模组。
3.如权利要求1所述的装置,其特征在于:所述语音逻辑控制模组还包括语音逻辑控制模组接口、第二接收单元、查询单元;所述语音逻辑控制模组通过所述语音逻辑控制模组接口与所述语音交互模组连接;所述第二接收单元用于接收语音交互模组发送的语义要素;所述查询单元用于根据语义要素查询数据库中该语义要素所对应的播报内容或者服务项目并通过语音逻辑控制模组接口将查询得到的播报内容或者服务项目发送给所述语音交互模组。
4.如权利要求1所述的装置,其特征在于:所述语音交互模组包括语音交互模组接口、第三获取单元、第三接收单元、播报单元;所述语音交互模组通过语音交互模组接口与所述语音识别模组和所述语音逻辑控制模组连接;所述第三获取单元用于获取用户语音内容并通过所述语音交互模组接口将获取的用户语音内容发送给所述语音识别模组进行语义识别;所述第三接收单元用于接收所述语音识别模组返回的语义要素并通过所述语音交互模组接口将接收到的语义要素发送给所述语音逻辑控制模组;所述第三接收单元还用于接收所述语音逻辑控制模组返回的播报内容;所述播报单元用于将所述语音逻辑控制模组返回的播报内容向用户进行播报。
5.如权利要求4所述的装置,其特征在于:所述语音交互模组还包括转向单元;所述第三接收单元还用于接收所述语音逻辑控制模组返回的服务项目;所述转向单元用于当接收到所述语音逻辑控制模组返回的服务项目时,转向该服务项目为用户提供服务。
CN201610078455.4A 2016-02-04 2016-02-04 一种互动式语音应答装置 Active CN105516520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610078455.4A CN105516520B (zh) 2016-02-04 2016-02-04 一种互动式语音应答装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610078455.4A CN105516520B (zh) 2016-02-04 2016-02-04 一种互动式语音应答装置

Publications (2)

Publication Number Publication Date
CN105516520A CN105516520A (zh) 2016-04-20
CN105516520B true CN105516520B (zh) 2018-09-18

Family

ID=55724139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610078455.4A Active CN105516520B (zh) 2016-02-04 2016-02-04 一种互动式语音应答装置

Country Status (1)

Country Link
CN (1) CN105516520B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110033764A (zh) * 2019-03-08 2019-07-19 中国科学院深圳先进技术研究院 无人机的语音控制方法、装置、系统及可读存储介质
CN111128168A (zh) * 2019-12-30 2020-05-08 斑马网络技术有限公司 语音控制方法、装置及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044088A (ja) * 2001-07-27 2003-02-14 Sony Corp プログラム、記録媒体、並びに音声対話装置および方法
CN101001287A (zh) * 2006-12-26 2007-07-18 华为技术有限公司 语音服务器及语音应答方法
CN101609673B (zh) * 2009-07-09 2012-08-29 交通银行股份有限公司 一种基于电话银行的用户语音处理方法及服务器
CN105338204A (zh) * 2014-08-15 2016-02-17 中兴通讯股份有限公司 一种交互式语音应答方法及装置

Also Published As

Publication number Publication date
CN105516520A (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
US10733983B2 (en) Parameter collection and automatic dialog generation in dialog systems
CN109804428B (zh) 计算代理的合成语音选择
US11823661B2 (en) Expediting interaction with a digital assistant by predicting user responses
CN109983460A (zh) 用于开发对话驱动式应用程序的服务
CN110770736A (zh) 将对话驱动式应用程序导出到数字通信平台
Beringer et al. Promise-a procedure for multimodal interactive system evaluation
CN100504844C (zh) 对话系统
CN112202978A (zh) 智能外呼系统、方法、计算机系统及存储介质
Baez et al. Chatbot integration in few patterns
CN111261151B (zh) 一种语音处理方法、装置、电子设备及存储介质
KR20190046631A (ko) 자연어 프로세싱을 위한 시스템 및 방법
CN106486120B (zh) 交互式语音应答方法及应答系统
CN103035240A (zh) 用于使用上下文信息的语音识别修复的方法和系统
CN108170734A (zh) 一种智能化运维机器人
CN112131358A (zh) 场景流程结构及所应用的智能客服系统
WO2006076304A1 (en) Method and system for controlling input modalties in a multimodal dialog system
CN109408799A (zh) 语义决策方法和系统
CN105516520B (zh) 一种互动式语音应答装置
KR20210001082A (ko) 사용자 발화를 처리하는 전자 장치와 그 동작 방법
US9767501B1 (en) Voice-assisted scanning
CN113901192A (zh) 一种对话节点参数预填充的对话方法、装置、设备和介质
US20060031853A1 (en) System and method for optimizing processing speed to run multiple dialogs between multiple users and a virtual agent
CN110442698A (zh) 对话内容生成方法及系统
CN114860910A (zh) 智能对话方法及系统
CN113868396A (zh) 基于知识图谱的任务类智能对话构建方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant