CN105516520B

CN105516520B - 一种互动式语音应答装置

Info

Publication number: CN105516520B
Application number: CN201610078455.4A
Authority: CN
Inventors: 严江浩; 彭小明; 蒋楠; 邱婕; 张鹏
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2016-02-04
Filing date: 2016-02-04
Publication date: 2018-09-18
Anticipated expiration: 2036-02-04
Also published as: CN105516520A

Abstract

本发明提供了一种互动式语音应答装置，所述装置包括语音识别模组、语音交互模组、语音逻辑控制模组；所述语音识别模组用于识别用户语音内容产生语义要素并发送给所述语音交互模组；所述语音交互模组将所述语义要素发送给所述语音逻辑控制模组；所述语音逻辑控制模组用于根据语音要素查找出相应的播报内容或者服务项目并发送给所述语音交互模组；所述语音交互模组还用于播报内容或者转向相应的服务项目为客户提供服务；所述语音识别模组可拆卸地与所述语音交互模组连接，所述语音逻辑控制模组可拆卸地与所述语音交互模组连接，使得用户可按需求来配置业务逻辑，业务逻辑可脱离互动式语音应答装置进行逻辑迁移，减少迁移业务逻辑的开销。

Description

一种互动式语音应答装置

技术领域

本发明涉及互动式语音应答领域，尤其涉及一种互动式语音应答装置。

背景技术

目前互动式语音应答(Interactive Voice Response，IVR)系统在实现上需要依赖厂商的自助语音平台，如edify，需要在edify的基础上进行二次开发书写业务逻辑。如先根据ASR(自动语音识别技术，Automatic Speech Recognition，ASR)识别出来的结果对应的关键字来进行匹配，比如客户说“我要查询一下我的信用卡账单情况是怎么样的”，ASR会匹配到“信用卡”，“账单”等关键字来判断客户是要转到信用卡账单这个服务项目，然后将这个结果返回给IVR。IVR进行下一步流程处理。如客户表述的有问题，那么ASR也会将结果返回给IVR，由IVR流转到下一次交互。这种方式交互效果不太理想，且依赖厂商的产品edify，移植性差。如当某个业务逻辑更改时，需要调整大量的代码才可以完成相应的业务。一旦厂商不再合作，或者厂商不再支持该产品，就需要把二次开发在厂商产品基础上的业务逻辑进行迁移或者在新的厂商基础上再进行二次开发。这样导致迁移或者开发的成本非常大。

发明内容

本发明提供一种互动式语音应答装置，该装置将业务逻辑部分与IVR独立开来，实现了无需调整代码即可按需求来配置业务逻辑，同时可脱离IVR进行逻辑迁移，减少迁移业务逻辑的开销。

一种互动式语音应答装置，所述装置包括语音识别模组、语音交互模组、语音逻辑控制模组；所述语音识别模组用于识别用户语音内容产生语义要素并发送给所述语音交互模组；所述语音交互模组将所述语义要素发送给所述语音逻辑控制模组；所述语音逻辑控制模组用于根据语音要素查找出相应的播报内容或者服务项目并发送给所述语音交互模组；所述语音交互模组还用于播报内容或者转向相应的服务项目为客户提供服务；所述语音识别模组可拆卸地与所述语音交互模组连接，所述语音逻辑控制模组可拆卸地与所述语音交互模组连接。

以上装置的音逻辑控制模组可拆卸地与语音交互模组连接，使得用户可按需求来配置业务逻辑，业务逻辑可脱离互动式语音应答装置进行逻辑迁移，减少迁移业务逻辑的开销。

附图说明

图1为一种互动式语音应答装置的模组结构图。

图2为语音识别模组的子功能框图。

图3为语音逻辑控制模组的子功能框图。

图4为语音交互模组的子功能框图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的具体实施方式作进一步的详细描述。

图1为一种互动式语音应答装置的模组结构图。该互动式语音应答装置100包括语音识别模组10、语音逻辑控制模组20以及语音交互模组30。其中，语音逻辑控制模组20和语音识别模组10分别可拆卸地与语音交互模组30连接。

请参看图2，语音识别模组10包括语音识别模组接口11、第一获取单元12、语义识别单元13、拆分单元14。其中，语音识别模组10通过语音识别模组接口11与语音交互模组30连接。第一获取单元12用于获取语音交互模组30获取的用户语音内容。语义识别单元13用于将用户语音内容进行语义识别，可以通过ASR技术进行语义识别，也可以通过其他可行的方式进行语义识别。拆分单元14用于将识别的语义拆分成语义要素并通过语音识别模组接口11将语义要素发送给语音交互模组30。其中语义要素包括但不局限于对象、行为、系列、属性。如语义信用卡本期账单查询对应的语义要素：对象＝账单、行为＝查询、系列＝信用卡、属性＝本期。如语义信用卡账单查询，对应的语义要素：对象＝账单、行为＝查询、系列＝信用卡，属性＝任意。

请参看图3，语音逻辑控制模组20包括语音逻辑控制模组接口21。语音逻辑控制模组20通过语音逻辑控制模组接口21与语音交互模组30连接。

语音逻辑控制模组20还包括有数据库22，数据库22中存储的为业务逻辑的数据，包括语义要素，该语义要素包括完整语义所对应的语义要素及不完整语义所对应的语义要素。数据库中存储的数据还包括完整语义的语义要素所对应的服务项目、不完整语义的语义要素所对应的播报内容。其中，一条不完整语义中包含的语义要素是不完整的，且无法定位一个服务项目，一条完整语义能定位一个服务项目。

如语义为查询信用卡账单或者为信用卡账单查询，对应的语义要素：对象＝账单、行为＝查询、系列＝信用卡，属性＝任意。那么查询信用卡账单的语义或者信用卡账单查询的语义，不知道要查询哪期的信用卡账单，无法定位一个服务项目，即为不完整语义。语义为查询信用卡账单或者为信用卡账单查询为不完整语义，所对应的播报内容可以为“您要查询本期的信用卡账单吗”或者“您要查询哪一期的信用卡账单”或者“您要查询本期的信用卡账单还是历史信用卡账单”等。如语义为查询信用卡本期账单或者信用卡本期账单查询，则对应的语义要素：对象＝账单、行为＝查询、系列＝信用卡，属性＝本期。那么查询信用卡本期账单的语义或者信用卡本期账单查询的语义即为完整语义，可以定位一个服务项目，该服务项目为信用卡本期账单查询。

语音逻辑控制模组20还包括第二接收单元23、查询单元24。第二接收单元23用于接收语音交互模组30发送的语义识别结果即语义要素。查询单元24用于根据语义要素查询数据库22中该语义要素所对应的播报内容或者服务项目并通过语音逻辑控制模组接口21将查询得到的播报内容或者服务项目返回给语音交互模组30。

如语义为信用卡账单查询，对应的语义要素：对象＝账单、行为＝查询、系列＝信用卡，属性＝任意。第二接收单元23接收该语义要素后，查询单元24在数据库中查询该语义要素对应的播报内容为“您要查询哪一期的信用卡账单”，通过语音逻辑控制模组接口21将查询得到的播报内容发送给语音交互模组30。

请参看图4，语音交互模组30包括语音交互模组接口31、第三获取单元32、第三接收单元33、播报单元34、执行单元35。其中，语音交互模组30通过语音交互模组接口31与语音逻辑控制模组20和语音识别模组10连接。第三获取单元32用于获取用户的语音内容并通过语音交互模组接口31将获取的用户语音内容发送给语音识别模组10进行语义识别。第三接收单元33用于接收语音识别模组10返回的语义识别结果并通过语音交互模组接口31将接收到的语义识别结果发送给语音逻辑控制模组20。第三接收单元33还用于接收语音逻辑控制模组20返回的播报内容或者服务项目。播报单元34用于将语音逻辑控制模组20返回的播报内容向用户进行播报。执行单元35用于当接收到语音逻辑控制模组20返回的服务项目时，转向该服务项目为用户提供服务。

如语音交互模组30的第三接收单元32接收到语音逻辑控制模组20发挥的播报内容“您要查询哪一期的信用卡账单”，播报单元34向用户播报该播报内容。如果用户回答“本期的”，语音交互模组30的第三获取单元32获取用户的语音内容“本期的”，通过语音交互模组接口31将获取的用户语音内容发送给语音识别模组10进行语义识别。语音识别模组10识别的结果为属性＝本期，至此，得到语义要素对象＝账单、行为＝查询、系列＝信用卡，属性＝本期。语音交互模组30的第三接收单元32接收语音识别模组10返回的语音识别结果，并通过语音交互模组接口31将接收到的语音识别结果发送给语音逻辑控制模组20，语音逻辑控制模组20查询数据库中存储的业务逻辑，得到服务项目为信用卡本期账单查询并把该服务项目返回给语音交互模组30，语音交互模组30的执行单元35转向该服务项目为用户提供服务。

语音识别模组10通过语音识别模组接口11与语音交互模组30连接，语音交互模组30通过语音交互模组接口31与语音逻辑控制模组20和语音识别模组10连接，语音逻辑控制模组20通过语音逻辑控制模组接口21与语音交互模组30连接。

以上互动式语音应答装置包括语音识别模组10、语音逻辑控制模组20、语音交互模组30，语音识别模组10可拆卸地与语音交互模组30连接，语音逻辑控制模组20可拆卸地与语音交互模组30连接，通过语音交互模组30获取用户语音内容并发送给语音识别模组10进行语义识别，语音识别模组10将用户语音的语义识别结果返回给语音交互模组30，语音交互模组30接收语义识别结果并发送给语音逻辑控制模组20，语音逻辑控制模组20查询数据库中该语义识别结果所对应的播报内容或者是服务项目并把播报内容或者服务项目返回给语音交互模组30，如果是播报内容，语音交互模组30向用户播报相应的播报内容，如果是服务项目，语音交互模组30转向该服务项目为用户提供服务。语音逻辑控制模组20可拆卸地与语音交互模组30连接，语音识别模组10可拆卸地与语音交互模组30连接，使得用户可按需求来配置业务逻辑，业务逻辑可脱离互动式语音应答装置进行逻辑迁移，减少迁移业务逻辑的开销。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种互动式语音应答装置，其特征在于：所述装置包括语音识别模组、语音交互模组、语音逻辑控制模组，所述语音逻辑控制模组包括数据库，所述数据库中存储的数据包括语义要素、语义要素所对应的播报内容或者服务项目，具体地，包括不完整语义要素和完整语义要素、不完整语义要素所对应的播报内容、完整语义要素所对应的服务项目；所述语音识别模组用于识别用户语音内容产生语义要素并发送给所述语音交互模组；所述语音交互模组将所述语义要素发送给所述语音逻辑控制模组；所述语音逻辑控制模组用于根据语义要素查找出相应的播报内容或者服务项目并发送给所述语音交互模组；所述语音交互模组还用于播报内容或者转向相应的服务项目为客户提供服务；所述语音识别模组可拆卸地与所述语音交互模组连接，所述语音逻辑控制模组可拆卸地与所述语音交互模组连接。

2.如权利要求1所述的装置，其特征在于：所述语音识别模组包括语音识别模组接口、第一获取单元、语义识别单元、拆分单元；所述语音识别模组通过所述语音识别模组接口与所述语音交互模组连接；所述第一获取单元用于获取用户语音内容；所述语义识别单元用于将用户语音内容进行语义识别；所述拆分单元用于将识别的语义拆分成语义要素并通过语音识别模组接口发送给所述语音交互模组。

3.如权利要求1所述的装置，其特征在于：所述语音逻辑控制模组还包括语音逻辑控制模组接口、第二接收单元、查询单元；所述语音逻辑控制模组通过所述语音逻辑控制模组接口与所述语音交互模组连接；所述第二接收单元用于接收语音交互模组发送的语义要素；所述查询单元用于根据语义要素查询数据库中该语义要素所对应的播报内容或者服务项目并通过语音逻辑控制模组接口将查询得到的播报内容或者服务项目发送给所述语音交互模组。

4.如权利要求1所述的装置，其特征在于：所述语音交互模组包括语音交互模组接口、第三获取单元、第三接收单元、播报单元；所述语音交互模组通过语音交互模组接口与所述语音识别模组和所述语音逻辑控制模组连接；所述第三获取单元用于获取用户语音内容并通过所述语音交互模组接口将获取的用户语音内容发送给所述语音识别模组进行语义识别；所述第三接收单元用于接收所述语音识别模组返回的语义要素并通过所述语音交互模组接口将接收到的语义要素发送给所述语音逻辑控制模组；所述第三接收单元还用于接收所述语音逻辑控制模组返回的播报内容；所述播报单元用于将所述语音逻辑控制模组返回的播报内容向用户进行播报。

5.如权利要求4所述的装置，其特征在于：所述语音交互模组还包括转向单元；所述第三接收单元还用于接收所述语音逻辑控制模组返回的服务项目；所述转向单元用于当接收到所述语音逻辑控制模组返回的服务项目时，转向该服务项目为用户提供服务。