CN103413549A

CN103413549A - 语音交互的方法、系统以及交互终端

Info

Publication number: CN103413549A
Application number: CN2013103303514A
Authority: CN
Inventors: 付春元; 雷倍一
Original assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Current assignee: Shenzhen Skyworth RGB Electronics Co Ltd
Priority date: 2013-07-31
Filing date: 2013-07-31
Publication date: 2013-11-27
Anticipated expiration: 2033-07-31
Also published as: CN103413549B; WO2015014122A1

Abstract

本发明公开了一种语音交互的方法，包括：将用户输入的当前语音信息发送至语音识别服务器，接收语音识别服务器根据该当前语音信息转换得到的字符串；根据从与用户对话过程中的上下文中提取出来并保存的当前对话场景的关键信息词，判断字符串是否符合当前对话场景；若是，则根据预置的匹配规则和关键信息词，匹配字符串；将匹配后的字符串发送至语义解析服务器，接收到语义解析服务器根据字符串所返回的操作指令后，执行该操作指令，向用户做出回答。本发明还公开了相应的系统和一种交互终端。采用本发明所公开的方案，提升了人机对话的体验感，并且为用户提供了人性化的服务，实现了人性化的人机交互。

Description

语音交互的方法、系统以及交互终端

技术领域

本发明涉及到电子产品技术领域，特别涉及到一种语音交互的方法、系统以及交互终端。

背景技术

语音交互是与机器进行语言交流，让机器明白你说的是什么，并给出相应的答案，当输入语音信号时，机器先通过识别和理解过程把语音信号转变为相应的文本或命令，然后归为不同的类别，最后根据不同的类别信息分析出对应的答案。目前，该技术已经进入工业、家电、通信、汽车电子、消费电子产品等各个领域。但是，现有的语音交互主要是停留在一问一答的形式上，用户问什么，智能终端就回答什么，略显呆板；在很多情况下智能终端不能理解用户输入语句的意思，或者不能理解用户输入的缺少关键信息的语句或者省略句的意思；并且，由于智能终端不能根据上下文语义环境分析当前用户输入的语句的意思，因而不能根据当前对话环境给用户必要的提示和引导。这样，就会导致人机对话的体验感较差，使交互欠缺人性化。

发明内容

本发明的主要目的为提供一种语音交互的方法、系统以及交互终端，旨在提升人机对话的体验感，并且为用户提供人性化的服务，实现人性化的交互。

本发明提供一种语音交互的方法，包括步骤：

将用户输入的当前语音信息发送至语音识别服务器，接收语音识别服务器根据该当前语音信息转换得到的字符串；

根据保存的当前对话场景的关键信息词，判断所述字符串是否符合所述当前对话场景；若是，则根据预置的匹配规则和所述关键信息词，匹配所述字符串；

将匹配后的所述字符串发送至语义解析服务器，接收到语义解析服务器根据所述字符串所返回的操作指令后，执行该操作指令，向用户做出回答。

优选地，在所述将用户输入的当前语音信息发送至语音识别服务器，接收语音识别服务器根据该当前语音信息转换得到的字符串的步骤之前，还包括：

解析用户输入的语音信息，提取该语音信息中的关键信息词，将该关键信息词保存至对应的对话场景中。

优选地，所述根据预置的匹配规则匹配所述字符串与所述关键信息词的步骤包括：

计算所述字符串与所述关键信息词的相似度；

根据计算出的相似度以及预置的匹配规则，判断所述字符串与所述关键信息词是否完全匹配；

若所述字符串与所述关键信息词部分匹配，则根据所述关键信息词以及该字符串缺失的信息，补全该字符串。

优选地，所述字符串与所述关键信息词的相似度通过以下方法计算：

假设上一次语音信息为A，当前语音信息为B，A包含的关键信息词为A1、A2、A3、…、An，B包含的关键信息词为B1、B2、B3、…、Bm，则A和B的相似度S（A，B）为：

S (A, B) = (\frac{Σ_{i - 1}^{m} a_{i}}{m} + \frac{Σ_{i - 1}^{n} a_{i}}{n}) / 2;

其中：

a_i=max(s(A_i,B₁),s(A_i,B₂)......s(A_i,B_m))

b_i=max(s(A₁,B_i),s(A₂,B_i)......s(A_n,B_i))。

优选地，在所述判断字符串是否符合所述当前对话场景的步骤之后，还包括：

若所述字符串不符合所述当前对话场景，比对该字符串与其他对话场景对应的关键信息词，确定所述字符串所符合的对话场景，并将当前对话场景修改为该对话场景。

本发明还提供一种交互终端，包括：

发送及接收模块，用于将用户输入的当前语音信息发送至语音识别服务器，接收语音识别服务器根据该当前语音信息转换得到的字符串；

判断模块，用于根据保存的当前对话场景的关键信息词，判断所述字符串是否符合所述当前对话场景；

匹配模块，用于根据预置的匹配规则和所述关键信息词，匹配所述字符串；

操作模块，用于将匹配后的所述字符串发送至语义解析服务器，接收到语义解析服务器根据所述字符串所返回的操作指令后，执行该操作指令，向用户做出回答。

优选地，交互终端还包括：

解析及保存模块，用于解析用户输入的语音信息，提取该语音信息中的关键信息词，将该关键信息词保存至对应的对话场景中。

优选地，所述匹配模块包括：

计算单元，用于计算所述字符串与所述关键信息词的相似度；

判断单元，用于根据计算出的相似度以及预置的匹配规则，判断所述字符串与所述关键信息词是否完全匹配；

补全单元，用于根据所述关键信息词以及该字符串缺失的信息，补全该字符串。

优选地，交互终端还包括：

比对模块，用于比对所述字符串与其他对话场景对应的关键信息词；

确定及修改模块，用于确定所述字符串所符合的对话场景，并将当前对话场景修改为该对话场景。

本发明进一步提供一种语音交互的系统，包括交互终端、语音识别服务器和语义解析服务器，其中：

所述交互终端包括：

操作模块，用于将匹配后的所述字符串发送至语义解析服务器，接收到语义解析服务器根据所述字符串所返回的操作指令后，执行该操作指令，向用户做出回答；

所述语音识别服务器，用于接收所述交互终端发送的用户输入的当前语音信息，将该当前语音信息转换为对应的字符串；

所述语义解析服务器，用于接收所述交互终端发送的匹配后的字符串，解析所述字符串对应的语义，并生成相应的操作指令。

本发明通过接收到用户输入的当前语音信息后，将其发送至语音识别服务器，并在接收到语音识别服务器根据该当前语音信息转换得到的字符串后，根据保存的当前对话场景的关键信息词，判断字符串是否符合当前对话场景；若是，根据预置的匹配规则和关键信息词，匹配字符串；然后将匹配后的字符串发送至语义解析服务器，在接收到语义解析服务器根据字符串所返回的操作指令后，执行该操作指令，向用户做出回答，从而提升了人机对话的体验感，并且为用户提供了人性化的服务，实现了人性化的人机交互。

附图说明

图1为本发明语音交互的方法第一实施例的流程示意图；

图2为本发明语音交互的方法中匹配字符串与关键信息词的流程示意图；

图3为本发明语音交互的方法第二实施例的流程示意图；

图4为本发明语音交互的方法第三实施例的流程示意图；

图5为本发明交互终端第一实施例的结构示意图；

图6为本发明交互终端的匹配模块的结构示意图；

图7为本发明交互终端第二实施例的结构示意图；

图8为本发明交互终端第三实施例的结构示意图；

图9为本发明语音交互的系统第一实施例的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种语音交互的方法。在接收到用户输入的当前语音信息后，根据上下文语义的关联性，判断当前语音信息是否符合当前对话场景，并在符合时执行相应的操作指令以及向用户回答。

参照图1，图1为本发明语音交互的方法第一实施例的流程示意图。

本实施例所提供的语音交互的方法，包括：

步骤S10，将用户输入的当前语音信息发送至语音识别服务器，接收语音识别服务器根据该当前语音信息转换得到的字符串；

在用户与交互终端进行语音交互的过程中，接收到用户通过语音输入设备所输入的当前语音信息后，将该当前语音信息发送至语音识别服务器，语音识别服务器对该当前语音信息进行识别，并将音频文件转换为对应的以文字信息表示的字符串，将该字符串返回至交互终端。

步骤S20，根据保存的当前对话场景的关键信息词，判断字符串是否符合当前对话场景；若是，则执行步骤S21；

步骤S21，根据预置的匹配规则和关键信息词，匹配字符串；

接收到语音识别服务器返回的字符串后，根据交互终端中所保存的当前对话场景的关键信息词，判断该字符串是否符合当前对话场景。本实施例中，可以包括多种对话场景，例如：聊天场景、天气场景、地图场景、电影音乐场景、股票场景、菜谱场景、笑话场景、周公解梦场景、日期查询场景、翻译场景和网页浏览场景等可以通过和交互终端对话得到回答的对话场景；在每一种对话场景下进行语音交互时，交互终端都会保存用户对话过程中的关键信息词，并将其与相应的对话场景进行对应。

当判断出字符串符合当前对话场景，即字符串所对应的当前语音信息为当前对话场景下的内容时，根据预置的匹配规则以及当前对话场景对应的关键信息词，匹配字符串。本实施例中，预置的匹配规则为预先设定的用于对字符串进行处理的规则，以完善字符串的信息；匹配规则可以包括分词处理、相似度计算、匹配方式和补全信息等步骤。

请一并参照图2，图2为本发明语音交互的方法中匹配字符串与关键信息词的流程示意图。

在本实施例中，步骤S21具体包括：

步骤S211，计算字符串与关键信息词的相似度；

在判断出字符串符合当前对话场景时，根据所保存的当前对话场景下的上一次语音信息，计算当前语音信息和上一次语音信息的相似度，可以根据以下公式计算：

假设上一次语音信息为A，当前语音信息为B，A包含的关键信息词为A1、A2、A3、…、An，B包含的关键信息词为B1、B2、B3、…、Bm，则A和B的相似度为：

S (A, B) = (\frac{Σ_{i - 1}^{m} a_{i}}{m} + \frac{Σ_{i - 1}^{n} a_{i}}{n}) / 2

其中：

a_i=max(s(A_i,B₁),s(A_i,B₂)......s(A_i,B_m))

b_i=max(s(A₁,B_i),s(A₂,B_i)......s(A_n,B_i))

在相似度计算时，充分考虑了句子的每个词的深层含义。

步骤S212，根据计算出的相似度以及预置的匹配规则，判断字符串与关键信息词是否完全匹配；

本实施例中，预置的匹配规则中的匹配方法包括精确匹配、中心匹配和广泛匹配；其中，精确匹配是指当前语音信息和上一次语音信息的关键信息词完全相同，中心匹配是指当前语音信息中包含上一次语音信息的关键信息词即可，而广泛匹配是指当前语音信息中包含上一次语音信息的关键信息词或包括与该关键信息词相关的词。在计算出当前语音信息和上一次语音信息的相似度后，根据匹配方法，判断字符串与关键信息词是否完全匹配，即是否符合精确匹配的条件。如符合，则说明根据该字符串即可得到完整的语义。

步骤S213，若字符串与关键信息词部分匹配，则根据关键信息词以及该字符串缺失的信息，补全该字符串。

如字符串不符合精确匹配的条件，即字符串与关键信息词部分匹配，则根据关键信息词判断字符串的关键词中所缺失的信息，补全该字符串，使其与当前对话场景下的关键信息词完全匹配。

步骤S30，将匹配后的字符串发送至语义解析服务器，接收到语义解析服务器根据字符串所返回的操作指令后，执行该操作指令，向用户做出回答。

在根据预置的匹配规则和关键信息词匹配字符串，使其与当前对话场景下的关键信息词完全匹配后，将匹配后的包括完整关键信息词的字符串发送至语义解析服务器，供语义解析服务器解析该字符串的完整语义，语义解析服务器解析出字符串的完整语义后，根据该字符串的语义生成进行相关操作的操作指令，并发送至交互终端。交互终端在接收到语义解析服务器根据字符串所返回的操作指令后，执行该操作指令，并向用户做出相应的回答。

本实施例通过接收到用户输入的当前语音信息后，将其发送至语音识别服务器，并在接收到语音识别服务器根据该当前语音信息转换得到的字符串后，根据保存的当前对话场景的关键信息词，判断字符串是否符合当前对话场景；若是，根据预置的匹配规则和关键信息词，匹配字符串；然后将匹配后的字符串发送至语义解析服务器，在接收到语义解析服务器根据字符串所返回的操作指令后，执行该操作指令，向用户做出回答，从而提升了人机对话的体验感，并且为用户提供了人性化的服务，实现了人性化的人机交互。

参照图3，图3为本发明语音交互的方法第二实施例的流程示意图。

在本发明语音交互的方法第一实施例的基础上，在执行步骤S10之前，该方法还包括：

步骤S40，解析用户输入的语音信息，提取该语音信息中的关键信息词，将该关键信息词保存至对应的对话场景中。

本实施例中，在相应的对话场景下，接收到用户输入的语音信息，解析该语音信息，并提取出其中的关键信息词，保存至该对话场景下，对每次接收到的语音信息都进行该处理，在之后所接收到当前语音信息时，通过所保存的上一次语音信息的关键信息词，即可以判断出当前语音信息是否符合当前对话场景。例如，在聊天场景中，如用户输入“小李是我的朋友”，交互终端就会通过分词处理得到关键信息“小李/nr”、“我/r”、“朋友/n”，对话场景会记录为“聊天场景”；当用户再输入“谁是我的朋友”时，交互终端就会根据聊天场景解析该语音信息，并采用预置的匹配规则匹配已经记录的关键信息后给出答案“小李”。

在相应的对话场景下，接收到用户输入的语音信息，解析该语音信息，并提取出其中的关键信息词，保存至该对话场景下，在之后所接收到当前语音信息时，通过所保存的上一次语音信息的关键信息词，即可以判断出当前语音信息是否符合当前对话场景，从而为更加智能地识别用户输入的语音信息提供了基础。

参照图4，图4为本发明语音交互的方法第三实施例的流程示意图。

在本发明语音交互的方法第一实施例和第二实施例的基础上，在执行步骤S20之后，该方法还包括：

步骤S50，若字符串不符合当前对话场景，比对该字符串与其他对话场景对应的关键信息词，确定字符串所符合的对话场景，并将当前对话场景修改为该对话场景。

在根据交互终端中所保存的当前对话场景的关键信息词，判断出该字符串不符合当前对话场景时，比对该字符串与交互终端中所保存的其他对话场景对应的关键信息词，并根据比对结果确定字符串所符合的对话场景，即当字符串与某一个对话场景的关键信息词相匹配时，则确定该字符串符合该对话场景，同时，将当前对话场景修改为字符串所符合的对话场景。

在判断出字符串不符合当前对话场景时，比对该字符串与交互终端中所保存的其他对话场景对应的关键信息词，确定该字符串符合的对话场景，并将当前对话场景修改为所确定的对话场景，进一步提升了人机对话的体验感，并进一步保证了能够为用户提供人性化的服务。

本发明还提供一种交互终端。

参照图5，图5为本发明交互终端第一实施例的结构示意图。

本实施例所提供的交互终端，包括：

发送及接收模块101，用于将用户输入的当前语音信息发送至语音识别服务器，接收语音识别服务器根据该当前语音信息转换得到的字符串；

判断模块102，用于根据保存的当前对话场景的关键信息词，判断字符串是否符合当前对话场景；

匹配模块103，用于根据预置的匹配规则和关键信息词，匹配字符串；

操作模块104，用于将匹配后的字符串发送至语义解析服务器，接收到语义解析服务器根据字符串所返回的操作指令后，执行该操作指令，向用户做出回答。

在用户与交互终端进行语音交互的过程中，接收到用户通过语音输入设备所输入的当前语音信息后，发送及接收模块101将该当前语音信息发送至语音识别服务器，语音识别服务器对该当前语音信息进行识别，并将音频文件转换为对应的以文字信息表示的字符串，将该字符串返回至交互终端。

发送及接收模块101接收到语音识别服务器返回的字符串后，判断模块102根据交互终端中所保存的当前对话场景的关键信息词，判断该字符串是否符合当前对话场景。本实施例中，可以包括多种对话场景，例如：聊天场景、天气场景、地图场景、电影音乐场景、股票场景、菜谱场景、笑话场景、周公解梦场景、日期查询场景、翻译场景和网页浏览场景等可以通过和交互终端对话得到回答的对话场景；在每一种对话场景下进行语音交互时，交互终端都会保存用户对话过程中的关键信息词，并将其与相应的对话场景进行对应。

当判断出字符串符合当前对话场景，即字符串所对应的当前语音信息为当前对话场景下的内容时，匹配模块103根据预置的匹配规则以及当前对话场景对应的关键信息词，匹配字符串。本实施例中，预置的匹配规则为预先设定的用于对字符串进行处理的规则，以完善字符串的信息；匹配规则可以包括分词处理、相似度计算、匹配方式和补全信息等步骤。

请一并参照图6，图6为本发明交互终端的匹配模块的结构示意图。

在本实施例中，匹配模块103包括：

计算单元1031，用于计算字符串与关键信息词的相似度；

判断单元1032，用于根据计算出的相似度以及预置的匹配规则，判断字符串与关键信息词是否完全匹配；

补全单元1033，用于根据关键信息词以及该字符串缺失的信息，补全该字符串。

在判断出字符串符合当前对话场景时，根据所保存的当前对话场景下的上一次语音信息，通过计算单元1031计算当前语音信息和上一次语音信息的相似度，可以根据以下公式计算：

假设上一次语音信息为A，当前语音信息为B，A包含的关键信息词为A1、A2、A3、…、An，B包含的关键信息词为B1、B2、B3、…、Bm，这两个句子的相似度为：

S (A, B) = (\frac{Σ_{i - 1}^{m} a_{i}}{m} + \frac{Σ_{i - 1}^{n} a_{i}}{n}) / 2

其中：

a_i=max(s(A_i,B₁),s(A_i,B₂)......s(A_i,B_m))

b_i=max(s(A₁,B_i),s(A₂,B_i)......s(A_n,B_i))

在相似度计算时，充分考虑了句子的每个词的深层含义。

本实施例中，预置的匹配规则中的匹配方法包括精确匹配、中心匹配和广泛匹配；其中，精确匹配是指当前语音信息和上一次语音信息的关键信息词完全相同，中心匹配是指当前语音信息中包含上一次语音信息的关键信息词即可，而广泛匹配是指当前语音信息中包含上一次语音信息的关键信息词或包括与该关键信息词相关的词。在计算出当前语音信息和上一次语音信息的相似度后，判断单元1032根据匹配方法，判断字符串与关键信息词是否完全匹配，即是否符合精确匹配的条件。如符合，则说明根据该字符串即可得到完整的语义。

如字符串不符合精确匹配的条件，即字符串与关键信息词部分匹配，则通过补全单元1033，根据关键信息词判断字符串的关键词中所缺失的信息，补全该字符串，使其与当前对话场景下的关键信息词完全匹配。

在根据预置的匹配规则和关键信息词匹配字符串，使其与当前对话场景下的关键信息词完全匹配后，将匹配后的包括完整关键信息词的字符串发送至语义解析服务器，供语义解析服务器解析该字符串的完整语义，语义解析服务器解析出字符串的完整语义后，根据该字符串的语义生成进行相关操作的操作指令，并发送至交互终端。交互终端在接收到语义解析服务器根据字符串所返回的操作指令后，通过操作模块104执行该操作指令，并向用户做出相应的回答。

参照图7，图7为本发明交互终端第二实施例的结构示意图。

在本发明交互终端第一实施例的基础上，该交互终端还包括：

解析及保存模块105，用于解析用户输入的语音信息，提取该语音信息中的关键信息词，将该关键信息词保存至对应的对话场景中。

本实施例中，在相应的对话场景下，接收到用户输入的语音信息，解析及保存模块105解析该语音信息，并提取出其中的关键信息词，保存至该对话场景下，对每次接收到的语音信息都进行该处理，在之后所接收到当前语音信息时，通过所保存的上一次语音信息的关键信息词，即可以判断出当前语音信息是否符合当前对话场景。例如，在聊天场景中，如用户输入“小李是我的朋友”，交互终端就会通过分词处理得到关键信息“小李/nr”、“我/r”、“朋友/n”，对话场景会记录为“聊天场景”；当用户再输入“谁是我的朋友”时，交互终端就会根据聊天场景解析该语音信息，并采用预置的匹配规则匹配已经记录的关键信息后给出答案“小李”。

参照图8，图8为本发明交互终端第三实施例的结构示意图。

在本发明交互终端第一实施例和第二实施例的基础上，该交互终端还包括：

比对模块106，用于比对字符串与其他对话场景对应的关键信息词；

确定及修改模块107，用于确定字符串所符合的对话场景，并将当前对话场景修改为该对话场景。

在根据交互终端中所保存的当前对话场景的关键信息词，判断出该字符串不符合当前对话场景时，通过比对模块106比对该字符串与交互终端中所保存的其他对话场景对应的关键信息词，确定及修改模块107根据比对结果确定字符串所符合的对话场景，即当字符串与某一个对话场景的关键信息词相匹配时，则确定该字符串符合该对话场景，同时，确定及修改模块107将当前对话场景修改为字符串所符合的对话场景。

本发明进一步还提供一种语音交互的系统。

参照图9，图9为本发明语音交互的系统第一实施例的结构示意图。

本实施例所提供的语音交互的系统，包括交互终端100、语音识别服务器200和语义解析服务器300，其中：

交互终端100包括：

操作模块104，用于将匹配后的字符串发送至语义解析服务器，接收到语义解析服务器根据字符串所返回的操作指令后，执行该操作指令，向用户做出回答；

语音识别服务器200，用于接收交互终端100发送的用户输入的当前语音信息，将该当前语音信息转换为对应的字符串；

语义解析服务器300，用于接收交互终端发送的匹配后的字符串，解析字符串对应的语义，并生成相应的操作指令。

本语音交互的系统包括了上述交互终端全部实施例的全部技术方案，所达到的技术效果也完全相同，在此不做赘述。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围。

Claims

1.一种语音交互的方法，其特征在于，包括步骤：

2.根据权利要求1所述的语音交互的方法，其特征在于，在所述将用户输入的当前语音信息发送至语音识别服务器，接收语音识别服务器根据该当前语音信息转换得到的字符串的步骤之前，还包括：

3.根据权利要求2所述的语音交互的方法，其特征在于，所述根据预置的匹配规则匹配所述字符串与所述关键信息词的步骤包括：

计算所述字符串与所述关键信息词的相似度；

4.根据权利要求3所述的语音交互的方法，其特征在于，所述字符串与所述关键信息词的相似度通过以下方法计算：

S (A, B) = (\frac{Σ_{i - 1}^{m} a_{i}}{m} + \frac{Σ_{i - 1}^{n} a_{i}}{n}) / 2;

其中：

a_i=max(s(A_i,B₁),s(A_i,B₂)......s(A_i,B_m))

b_i=max(s(A₁,B_i),s(A₂,B_i)......s(A_n,B_i))。

5.根据权利要求1至4中任一项所述的语音交互的方法，其特征在于，在所述判断字符串是否符合所述当前对话场景的步骤之后，还包括：

6.一种交互终端，其特征在于，包括：

7.根据权利要求6所述的交互终端，其特征在于，还包括：

8.根据权利要求7所述的交互终端，其特征在于，所述匹配模块包括：

9.根据权利要求6至8中任一项所述的交互终端，其特征在于，还包括：

10.一种语音交互的系统，包括如权利要求6至9中任一项所述的交互终端、语音识别服务器和语义解析服务器，其特征在于，其中：

所述交互终端包括：

匹配模块，用于根据预置的匹配规则匹配所述字符串与所述关键信息词；