CN110880326B

CN110880326B - 语音交互系统及方法

Info

Publication number: CN110880326B
Application number: CN201811098361.9A
Authority: CN
Inventors: 陈旭
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2022-06-14
Anticipated expiration: 2038-09-05
Also published as: CN110880326A

Abstract

本发明提供了一种语音交互系统及方法，所述语音交互系统包括交互终端，所述交互终端包括采集模块、特征模块、连接模块、交互模块、远程检索模块，其中：所述交互模块包括本地语音交互特征库。本发明通过提取用户输入的语音信号中的用户特征数据，并根据用户特征数据输出对应的应答语音，可针对不同的用户输入的同种语音内容实现差异化语音交互，使语音交互过程更智能。

Description

语音交互系统及方法

技术领域

本发明涉及语音处理技术领域，更具体地说，涉及一种语音交互系统及方法。

背景技术

随着语音交互、人工智能等技术应用越来越普遍。目前，典型语音交互场景主要是根据用户发出的语音信息，语音识别设备识别语音内容后，搜索匹配的应答语音信息并播放。但是，现有的语音交互局限性在于，对于不同用户提出的同一个问题，答复反馈内容一致，没有根据用户的不同身份特征进行差异化处理，语音交互过程的智能化程度及用户体验度有待提高。

发明内容

本发明要解决的技术问题在于，针对上述语音交互技术方案存在的不足，提供一种语音交互系统及方法，通过对用户的身份特征的差异化处理，改进和提升用户交互体验。

本发明解决上述技术问题的技术方案是，提供一种语音交互系统，所述语音交互系统包括交互终端，所述交互终端包括采集模块、特征模块、连接模块、交互模块、远程检索模块，其中：

所述采集模块，用于采集用户输入的语音信号；

所述特征模块，用于根据所述语音信号提取用户特征数据，并验证用户身份；

所述连接模块，用于连接所述交互终端与云端服务器；

所述交互模块包括本地语音交互特征库，所述交互模块用于在用户身份验证通过后，识别所述语音信号的第一语音内容，并根据所述用户特征数据及所述第一语音内容，在所述本地语音交互特征库中检索所述第一语音内容对应的第一应答语音内容，在第一应答语音内容满足预设条件时输出第一应答语音信号；在所述第一应答语音内容未满足预设条件时，所述交互模块提取第二语音内容，所述远程检索模块根据所述第二语音内容获取所述第二语音内容对应的第二应答语音内容，所述交互模块将所述第一应答语音内容和第二语音内容合成后输出第二应答语音信号；所述交互模块解析所述第一应答语音信号或第二应答语音信号，以播放第一应答语音或第二应答语音。

在发明所述的语音交互系统中，所述特征模块包括将预存的用户特征数据与根据所述语音信号提取的用户特征数据进行匹配，在匹配度超过第一阈值时，通过用户身份验证后，根据提取的用户特征数据更新用户特征数据。

在发明所述的语音交互系统中，所述交互模块根据所述用户特征数据生成所述本地语音交互特征库；所述预设条件包括所述第一应答语音内容与所述第一语音内容的对应度大于或等于第二阈值；所述第二语音内容包括提取所述第一语音内容中所述第一应答语音内容与第一语音内容未对应的语音内容。

在发明所述的语音交互系统中，所述交互终端包括反馈模块，所述反馈模块用于采集用户对所述第一应答语音和所述第二应答语音的满意度及准确度，并统计所述第一应答语音和所述第二应答语音的输出频次，在满意度大于或等于第三阈值、准确度大于或等于第四阈值且输出频率大于或等于第五阈值时，所述交互模块更新所述本地语音交互特征库的数据。

在发明所述的语音交互系统中，所述交互终端包括第一同步模块，所述语音交互系统还包括云端服务器，所述云端服务器包括云端语音交互特征库及第二同步模块，所述云端服务器分别连接多个交互终端；所述云端语音交互特征库用于接收和存储所述第一同步模块发送的更新后的本地语音交互特征库的数据，以更新所述云端语音交互特征库的数据；所述第二同步模块用于将所述云端语音交互特征库更新的数据发送至与所述云端服务器连接的其它交互终端，以更新所述其它交互终端的本地语音交互特征库的数据。

本发明还提供一种语音交互方法，所述方法包括以下步骤：

(a)采集用户输入的语音信号，根据所述语音信号提取用户特征数据，并验证用户身份；

(b)在用户身份验证通过后，识别所述语音信号的第一语音内容，并根据所述用户特征数据及所述第一语音内容，在本地语音交互特征库中检索所述第一语音内容对应的第一应答语音内容，并在第一应答语音内容满足预设条件时输出第一应答语音信号；

(c)在所述第一应答语音内容未满足预设条件时，提取第二语音内容，根据所述第二语音内容远程检索获得对应的第二应答语音内容，并将所述第一应答语音内容和第二语音内容合成后输出第二应答语音信号；

(d)解析所述第一应答语音信号或第二应答语音信号，以播放第一应答语音或第二应答语音。

在本发明所述的语音交互方法中，所述步骤(a)包括：

(a1)将预存的用户特征数据与根据所述语音信号提取的用户特征数据进行匹配，在匹配度超过第一阈值时，用户身份验证通过；

(a2)在用户身份验证通过后，更新用户特征数据。

在本发明所述的语音交互方法中，根据所述用户特征数据生成所述本地语音交互特征库；所述预设条件包括所述第一应答语音内容与所述第一语音内容的对应度大于或等于第二阈值；所述第二语音内容包括提取所述第一语音内容中所述第一应答语音内容与第一语音内容未对应的语音内容。

在本发明所述的语音交互方法中，所述步骤(d)之后包括步骤(e)：

采集用户对所述第一应答语音和所述第二应答语音的满意度及准确度，并统计所述第一应答语音和所述第二应答语音的输出频次，在满意度大于或等于第三阈值、准确度大于或等于第四阈值且输出频率大于或等于第五阈值时，更新所述本地语音交互特征库的数据。

在本发明所述的语音交互方法中，所述步骤(e)还包括：

(e1)将所述本地语音交互特征库更新后的数据发送至云端语音交互特征库，以更新所述云端语音交互特征库的数据；

(e2)所述云端语音交互特征库将更新后的数据发送至其它交互终端，以更新所述其它交互终端的本地语音交互特征库的数据。

本发明的语音交互系统及方法，通过交互终端中的采集模块、特征模块、连接模块、交互模块及反馈模块，提取用户输入的语音信号中的用户特征数据，并根据用户特征数据输出对应的应答语音，针对不同的用户输入的同种语音内容实现差异化语音交互，使语音交互过程更智能。同时，本发明语音交互系统及方法通过交互终端与云端数据库连接，可以拓展本地语音交互特征库，提供与用户输入语音信号匹配度更高的应答语音内容，进而提高语音交互的准确性和满意度。此外，本发明的方法和系统根据用户的反馈情况及应答语音的输出频次，可以不断更新和完善本地语音交互特征库的应答语音内容，为用户提供更好地语音互动体验。

附图说明

图1是本发明语音交互方法实施例的流程示意图；

图2是本发明语音交互系统实施例的功能模块示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，是本发明语音交互方法实施例的流程示意图。提供一种语音交互方法，所述方法包括以下步骤：

步骤S11：采集用户输入的语音信号，根据所述语音信号提取用户特征数据，并验证用户身份。

进一步地，在步骤S11还包括：将预存的用户特征数据与根据所述语音信号提取的用户特征数据进行匹配，在匹配度超过第一阈值时，用户身份验证通过；在用户身份验证通过后，根据提取的用户特征数据更新用户特征数据。其中，用户特征数据是定义语音交互用户的画像标签，包括基本属性(如姓名、性别、年龄、收入)，行为属性(如工作、娱乐、社交、学习等)，心理属性(如爱好、星座、习惯、情感等)，使用属性(如使用频次、偏好)等信息。通过验证用户身份信息，并据此获得用户进行语音交互的权限，可提高互动过程中的安全性，且通过不断更新用户特征数据，可以提高用户身份验证的有效性。

步骤S12：在用户身份验证通过后，识别所述语音信号的第一语音内容，并根据所述用户特征数据及所述第一语音内容，在本地语音交互特征库中检索所述第一语音内容对应的第一应答语音内容，并在第一应答语音内容满足预设条件时输出第一应答语音信号。

进一步地，在该步骤中，根据所述用户特征数据生成所述本地语音交互特征库。所述预设条件包括所述第一应答语音内容与所述第一语音内容的对应度大于或等于第二阈值。例如，5岁的小女孩对交互终端说：“我想听白雪公主”。根据用户输入的语音信号通过用户身份验证，提取出用户特征数据为5岁的小女孩、最喜欢玩具名称是“多莉”，并识别第一语音内容为“讲述白雪公主故事”后，根据所述用户特征数据及第一语音内容从本地语音交互特征库检索出“多莉”以及“讲述白雪公主故事”的第一应答语音内容，在应答小女孩的语音信号时，开始输出“多莉宝贝，……”的第一应答语音信号。

步骤S13：在所述第一应答语音内容未满足预设条件时，提取第二语音内容，根据所述第二语音内容远程检索获得对应的第二应答语音内容，并将所述第一应答语音内容和第二语音内容合成后输出第二应答语音信号。

进一步地，在该步骤中，所述第二语音内容包括提取所述第一语音内容中所述第一应答语音内容与第一语音内容未对应的语音内容。即，如果从本地语音交互特征库中未能检索出符合预设条件的第一语音内容对应的应答语音内容时，提取第一语音内容中所述第一应答语音内容与第一语音内容未对应的语音内容作为第二语音内容，并根据所述第二语音内容远程检索获得对应的第二应答语音内容，最后将第一应答语音内容和第二语音内容合成后输出第二应答语音信号。通过本地检索以及远程检索相结合，降低每次交互内容都必须远程检索访问的频次，能够有效缩短交互反应响应时间，提高交互效率和准确性，提升用户体验。

步骤S14：解析所述第一应答语音信号或第二应答语音信号，以播放第一应答语音或第二应答语音。

在步骤S14之后，上述方法还包括步骤S15：采集用户对所述第一应答语音和所述第二应答语音的满意度及准确度，并统计所述第一应答语音和所述第二应答语音的输出频次，在满意度大于或等于第三阈值、准确度大于或等于第四阈值且输出频率大于或等于第五阈值时，更新所述本地语音交互特征库的数据。

进一步地，步骤S15还包括：将所述本地语音交互特征库更新后的数据发送至云端语音交互特征库，以更新所述云端语音交互特征库的数据；所述云端语音交互特征库将更新后的数据发送至其它交互终端，以更新所述其它交互终端的本地语音交互特征库的数据。云端语音交互特征库对最新的本地语音交互特征库数据进行备份，提高语音交互数据的安全性；并且，通过云端语音交互特征库将最新的本地语音交互特征库数据发送至其它本地语音交互特征库，以更新其它本地语音交互特征库的数据，可以不断完善语音交互过程。

本发明的语音交互方法，提取用户输入的语音信号中的用户特征数据，并根据用户特征数据输出对应的应答语音，针对不同的用户输入的同种语音内容实现差异化语音交互，使语音交互过程更智能。同时，本发明语音交互系统及方法通过交互终端与云端数据库连接，可以拓展本地语音交互特征库，提供与用户输入语音信号匹配度更高的应答语音内容，进而提高语音交互的准确性和满意度。此外，本发明的方法和系统根据用户的反馈情况及应答语音的输出频次，可以不断更新和完善本地语音交互特征库的应答语音内容，为用户提供更好地语音互动体验。

如图2所示，是本发明语音交互系统实施例的功能模块的示意图，本实施例的语音交互系统包括第一交互终端21、第二交互终端22及云端服务器23，所述云端服务器23分别连接所述第一交互终端21、第二交互终端22。所述第一交互终端21包括采集模块211、特征模块212、连接模块213、交互模块214、远程检索模块215、反馈模块216及第一同步模块216，所述第二交互终端22包括采集模块221、特征模块222、连接模块223、交互模块224、远程检索模块225、反馈模块226及第一同步模块227，所述云端服务器23包括云端语音交互特征数据库231及第二同步模块232，其中：

所述采集模块211及采集模块221，用于采集用户输入的语音信号。其中，采集语音信息可以是用户的原始输入的语音信号，也可以是通过文本等不同形式转换为语音信号输入。

所述特征模块212及所述特征模块222，用于根据所述语音信号提取用户特征数据，并验证用户身份；所述特征模块212及所述特征模块222包括将预存的用户特征数据与根据所述语音信号提取的用户特征数据进行匹配，在匹配度超过第一阈值时，在通过用户身份验证后，根据提取的用户特征数据存储并更新用户特征数据。其中，用户特征数据是定义语音交互用户的画像标签，包括基本属性(如姓名、性别、年龄、收入)，行为属性(如工作、娱乐、社交、学习等)，心理属性(如爱好、星座、习惯、情感等)，使用属性(如使用频次、偏好)等信息。通过验证用户身份信息，并据此获得用户进行语音交互的权限，可提高互动过程中的安全性，且通过不断更新用户特征数据，可以提高用户身份验证的有效性。

所述连接模块213及所述连接模块223可以通过蓝牙、WIFI、4G/5G等不同方式分别建立第一交互终端21及第二交互终端22与云端服务器23的通信连接，以便能够通过云端语音交互特征数据库231获取用户输入的语音信号对应的应答内容。

所述交互模块214及所述交互模块224包括本地语音交互特征库，所述交互模块214及所述交互模块224用于在用户身份验证通过后，交互模块214及所述交互模块224识别所述语音信号的第一语音内容，并根据所述用户特征数据及所述第一语音内容，在本地语音交互特征库中检索所述第一语音内容对应的第一应答语音内容，并在第一应答语音内容满足预设条件时输出第一应答语音信号。所述交互模块214及所述交互模块224在所述第一应答语音内容未满足预设条件时，提取第二语音内容，所述远程检索模块215及所述远程检索模块225根据所述第二语音内容远程检索获得所述第二语音内容对应的第二应答语音内容，并将所述第一应答语音内容和第二语音内容合成后输出第二应答语音信号。所述交互模块214及所述交互模块224解析所述第一应答语音信号或第二应答语音信号，以播放第一应答语音或第二应答语音。所述交互模块214及所述交互模块224根据用户特征数据及语音内容输出应答语音，可实现对不同的用户差异化语音交互，提高语音交互系统智能化水平，能够有效改进和提升用户语音交互体验。此外，通过本地检索以及远程检索相结合，降低每次交互内容都必须远程检索访问的频次，能够有效缩短交互反应响应时间，提高交互效率和准确性，提升用户体验。

进一步地，所述交互模块214及所述交互模块224根据所述用户特征数据生成所述本地语音交互特征库；其中，所述预设条件包括所述第一应答语音内容与所述第一语音内容的对应度大于或等于第二阈值。

进一步地，所述第二语音内容包括提取所述第一语音内容中所述第一应答语音内容与第一语音内容未对应的语音内容。即，如果所述交互模块214及所述交互模块224从本地语音交互特征库中未能检索出符合预设条件的第一语音内容对应的应答语音内容时，所述交互模块214及所述交互模块224提取第一语音内容中所述第一应答语音内容与第一语音内容未对应的语音内容作为第二语音内容，所述远程检索模块根据第二语音内容获得所述第二语音内容对应的第二应答语音内容，最后将第一应答语音内容和第二语音内容合成后输出第二应答语音信号。

上述第一交互终端21及第二交互终端22还包括反馈模块216及反馈模块226。第一交互终端21的所述反馈模块215采集用户对所述第一应答语音和所述第二应答语音的满意度及准确度，并统计所述第一应答语音和所述第二应答语音的输出频次，在满意度大于或等于第三阈值、准确度大于或等于第四阈值且输出频率大于或等于第五阈值时，所述交互模块214更新所述本地语音交互特征库的数据。且，所述第一同步模块217将所述交互模块214的更新后的本地语音交互特征库的数据发送至所述云端服务器23，以更新所述云端语音交互特征库231的数据；所述第二同步模块232将所述云端语音交互特征库231更新的数据发送至与第二交互终端22，以更新所述第二交互终端22的本地语音交互特征库的数据。因此，本地语音交互特征库的数据可根据用户的反馈情况及应答语音的输出频次不断更新和完善，提供更准确的应答语音内容，为用户提供更好地语音互动体验。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

因此，以上所述，仅为本发明较佳的具体实施方式，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种语音交互系统，其特征在于，所述语音交互系统包括交互终端，所述交互终端包括采集模块、特征模块、连接模块、交互模块、远程检索模块，其中：

所述采集模块，用于采集用户输入的语音信号；

所述连接模块，用于连接所述交互终端与云端服务器；

所述交互模块包括本地语音交互特征库，所述交互模块用于在用户身份验证通过后，识别所述语音信号的第一语音内容，并根据所述用户特征数据及所述第一语音内容，在所述本地语音交互特征库中检索所述第一语音内容对应的第一应答语音内容，在第一应答语音内容满足预设条件时输出第一应答语音信号；在所述第一应答语音内容未满足预设条件时，所述交互模块提取第二语音内容，所述远程检索模块根据所述第二语音内容获取所述第二语音内容对应的第二应答语音内容，所述交互模块将所述第一应答语音内容和第二语音内容合成后输出第二应答语音信号；所述交互模块解析所述第一应答语音信号或第二应答语音信号，以播放第一应答语音或第二应答语音；

所述特征模块包括将预存的用户特征数据与根据所述语音信号提取的用户特征数据进行匹配，在匹配度超过第一阈值时，通过用户身份验证后，根据提取的用户特征数据更新用户特征数据；

所述交互模块根据所述用户特征数据生成所述本地语音交互特征库；所述预设条件包括所述第一应答语音内容与所述第一语音内容的对应度大于或等于第二阈值；所述第二语音内容包括提取所述第一语音内容中所述第一应答语音内容与第一语音内容未对应的语音内容；

所述交互终端包括反馈模块，所述反馈模块用于采集用户对所述第一应答语音和所述第二应答语音的满意度及准确度，并统计所述第一应答语音和所述第二应答语音的输出频次，在满意度大于或等于第三阈值、准确度大于或等于第四阈值且输出频率大于或等于第五阈值时，所述交互模块更新所述本地语音交互特征库的数据。

2.根据权利要求1所述的语音交互系统，其特征在于，所述交互终端包括第一同步模块，所述语音交互系统还包括云端服务器，所述云端服务器包括云端语音交互特征库及第二同步模块，所述云端服务器分别连接多个交互终端；所述云端语音交互特征库用于接收和存储所述第一同步模块发送的更新后的本地语音交互特征库的数据，以更新所述云端语音交互特征库的数据；所述第二同步模块用于将所述云端语音交互特征库更新的数据发送至与所述云端服务器连接的其它交互终端，以更新所述其它交互终端的本地语音交互特征库的数据。

3.一种语音交互方法，其特征在于，所述方法包括以下步骤：

(d)解析所述第一应答语音信号或第二应答语音信号，以播放第一应答语音或第二应答语音；

所述步骤(a)包括：

(a2)在用户身份验证通过后，更新用户特征数据；

根据所述用户特征数据生成所述本地语音交互特征库；所述预设条件包括所述第一应答语音内容与所述第一语音内容的对应度大于或等于第二阈值；所述第二语音内容包括提取所述第一语音内容中所述第一应答语音内容与第一语音内容未对应的语音内容；

所述步骤(d)之后包括步骤(e)：

4.根据权利要求3所述的语音交互方法，其特征在于，所述步骤(e)还包括：