CN105513593B

CN105513593B - 一种语音驱动的智能人机交互方法

Info

Publication number: CN105513593B
Application number: CN201510823784.2A
Authority: CN
Inventors: 朱阿兴; 刘军志; 王德生; 缪亚敏
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2015-11-24
Filing date: 2015-11-24
Publication date: 2019-09-17
Anticipated expiration: 2035-11-24
Also published as: CN105513593A

Abstract

本发明公开了一种语音驱动的智能人机交互方法。其处理流程为：用户在客户端通过语音告诉系统自己的需求；系统接收到语音指令后，利用语音识别技术将语音识别成字符串，进而根据语义库就解析用户输入的语义；系统的对话管理器结合知识库和对话上下文，组织回答语句，并以语音方式回答用户；用户得到应答后根据个人需求继续与系统对话，直到满足用户需求为止。与传统的人机交互途径(如鼠标、键盘、触摸屏等)相比，本发明的方法解放了人们的双手，使人机交互更符合人类认知和语言习惯，同时也提高了人机交互的趣味性，在网络购物、信息查询等所有需要与计算机和互联网进行交互的领域均具有广阔应用前景。

Description

一种语音驱动的智能人机交互方法

技术领域

本发明涉及一种语音驱动的智能人机交互方法，技术应用领域为电子商务与信息查询。

背景技术

自然语言符合人类认知习惯，是一种最为自然和方便快捷的交流方式。随着语音识别、语音合成、自然语言处理和人工智能等技术的发展，人与计算机之间语音方式的交流成为可能。语音驱动的人机交互方式为人机交互提供了一种新途径，解放了人们的双手，能有效提高人机交互的便捷性和易用性。

由于语音识别存在一定误差以及口语交流过程中用户意图往往存在一定模糊性，人机自然语言交互是一种非精确的信息交互。一次人机语音对话一般需要人机之间的多次往复交流，因此人机对话系统需要循环执行语音识别和理解、对话生成、语音合成等各个环节，以完成与用户的沟通。自20世纪90年代以来，出现了三代人机对话系统。第一代系统为信息型，其交互模式比较固定，即系统提供一些信息查询的选项，用户指定查询哪些信息，系统以语音方式将信息返回给用户，主要应用于包裹追踪、简单的金融应用、以及航班状态信息查询等方面。第二代系统为交易型，多面向流程比较固定的应用、采用预先定义的流程进行人机交互，例如银行间移动资金、股票交易。第三代系统为问题解决型，其交互形式从严格的指导对话转向使用更加自然的语言，人机对话方式更为灵活，系统也更为智能化，但目前第三类系统尚处于研究阶段，尚未出现成熟的语音驱动智能人机交互方法及相关系统。

发明内容

本发明解决的技术问题是：为克服现有技术存在的缺陷，针对当前人机交互方式复杂，智能化程度低的问题，提出了一种语音驱动的基于知识的智能人机交互方法，该方法采用语音的方式，基于主题知识进行智能交互，使得用户能够以一种类似于人与人之间自然流畅的交流方式进行信息查询等操作。

本发明的技术解决方案为：一种语音驱动的智能人机交互方法，步骤如下：

(1)语音输入界面接收用户输入的语音；

(2)语音识别模块识别用户语音输入，得到识别结果：字符串S；

(3)语义理解模块对字符串S进行分词，并根据文法对分词结果中的每个短语添加语义标签；文法包括语言模型和语义分类器：语言模型定义了所有可能由语音识别器处理的词汇空间，由文法的规则描述或统计文法领域的n元组集合定义；语义分类器将词汇短语映射到语义标签的一个有限集，由训练好的统计分类器实现；

(4)对话管理器根据语义理解模块的语义解析结果，结合知识库确定将要执行的操作：①如果用户的语音输入指定了所感兴趣事物的属性，对话管理器将查询后台的领域知识库，确定对话主题的必要属性信息、可选属性信息和属性优先级；如果用户提供的属性信息不足，对话管理器下一步将询问用户缺少的必要属性信息；如果用户提供的属性信息覆盖了对话主题的必要属性信息，对话管理器下一步将让用户确认所感兴趣事物的信息；②如果用户的语音输入为查询某一问题或名词，对话管理器将调用第三方搜索引擎查询、筛选和重新组织相关信息，并在下一步将结果返回给用户；

(5)对话管理器根据步骤(4)确定的操作组织回答语句，并调用语音播放引擎向用户播放语句；组织回答语句的过程分为查找语句模板和填充信息两步，在查找语句模板的步骤中，语句模板的类型由上一步所确定的操作类型决定：如果系统需要向用户询问相关信息，需使用询问疑问句，如“请问[事物名称]的[属性名称]是什么？”(中括号内的内容需根据实际情况进行替换)；如果系统需要让用户确认信息，使用确认疑问句，如“请问您所要[操作类型](如购买)的[事物名称]是[属性信息列表]吗？”；如果系统需要将结果返回给用户，则使用陈述句，如“[事物名称]是指[对事物的解释]”；如果交互过程中出现语音识别拒识(如因网络或识别引擎等问题造成用户语音输入后未返回识别结果)、超时(如用户未在指定时间内说话)、低可信度(返回的识别结果的可信度参数值低于可信度阈值)等问题，对话管理器将调用这些问题对应的提示语句；以上所有语句的模板均存储在知识库中，对话管理器根据对话主题和查询类型提取语句模板；对话管理器确定语句模板之后，根据语义设置模板中的参数值，从而生成回答语句。

(6)用户接收到语音播放引擎的语音提示后，根据提示进一步输入语音进行对话，直到对话管理器确认用户的需要已得到满足，并结束当前会话；

(7)将会话所涉及的关键信息存储到用户案例库中，用于提高系统的智能化水平。

本发明以语音识别(Speech Recognition，SR)、语音合成(Text To Speech，TTS)、自然语言处理(Natural Language Processing，NLP)等技术为基础，通过语音对话方式实现智能化的人机互动交流，为用户使用计算机和互联网提供方便快捷的交互界面。同传统的人机交互途径(如鼠标、键盘、触摸屏等)相比，本发明的方法解放了人们的双手，使人机交互更加方便快捷，更符合人们的认知和语言习惯，提高了人机交互的智能化程度和易用性，在网络购物、信息查询等所有需要与计算机和互联网进行交互的领域均具有广阔应用前景。

附图说明

图1为本发明的总体流程图；

图2为本发明的知识库中主题知识组织结构示意图。

具体实施方式

下面结合如图1所示的流程图，以通过网络购买电视的应用情景为例，说明本发明的具体实施过程：

(1)打开系统后，系统会提示“请问有什么可以帮您？”，用户通过根据需要输入语音，本案例中假设用户输入为：“我需要买台电视”；

(2)语音识别模块识别用户语音输入，得到字符串S“我需要买台电视”；

(3)语义理解模块对字符串S进行分词，得到分词结果：“我/需要/买/台/电视”，提取的关键词为“买”、“电视”；然后，根据文法为分词结果添加语义标签，“买”的语义标签为“BUY”，“电视”的语义标签“TV”；

(4)对话管理器根据用户输入的语义上下文和后台领域知识库，确定需要询问用户或者与用户确定的信息。在接收到语义理解模块得到的语义参数(BUY、TV)后，对话管理器发起一个主题为“BUY TV”的会话。首先，通过查询系统知识库(知识库具有可扩展性，可根据需要不断添加相关领域的知识，当前情景所用的知识库是电子商务类别下、家用电器子类下的电视知识库，如图2所示)，找到电视知识库中与“BUY”相关的信息，包括电视的价格、尺寸、品牌、类型、服务等属性信息；然后，根据知识节点中属性的优先级(在构建知识库时这些属性被赋予了一定优先级)，得到购买电视时首先考虑的是“价格”和“尺寸”参数，即系统需要询问用户要购买的电视“价格”和“尺寸”。

(5)对话管理器组织回答语句，并调用语音播放引擎播放回答语句。该案例中系统需要询问用户信息，因此从知识库中提取疑问句模板，如“请问[物品]的[属性列表]是多少？”。将[物品]用“您所需购买的电视”替换，将[属性列表]用“尺寸和价格”替换，得到回答语句“请问您所需购买的电视尺寸和价格是多少？”，并调用语音播放引擎向用户播放询问语句；然后，系统等待用户反馈。如果出现“拒识”、“超时”、“低可信度”的问题，系统将提示用户“我没有听清楚，请您重复一遍”；

(6)用户接收到系统的语音提示后，根据提示回答“45到60寸，1万以下”，系统接收到用户的输入后，重复进行语音识别、语义理解、回答语句组织和播放等步骤。与上一轮对话不同，在该轮对话中用户定义了产品的基本属性，系统理解用户输入语义后采取如下操作：根据用户提供的条件进行查询，并将查询结果以陈述句的方式播放给用户。例如，系统可能回复：“共查询到150种产品，综合排名前5位的分别是：第一款，TCL D49A561U 49英寸4K超清安卓4.2内置WIFI智能云电视(黑色)；第二款，LG 49LF540049英寸超薄超窄边框IPS硬屏LED液晶电视；…”。

(7)用户与系统循环对话，直到系统根据知识库判断购买电视所必需的信息已经得到满足，并向用户确定是否购买某款产品，经用户确认后，系统将替用户完成购买操作。后续对话的例子如下：

用户：介绍第一款电视。

系统：这款是TCL D49A561U 49英寸4K超清安卓4.2内置WIFI智能云电视(黑色)……

(详情略)

用户：介绍第二款。

系统：这款是……(详情略)

……

用户：我买第二款。

系统：好的，您所要购买的是XX，确定吗？

用户：确定。

系统：收到，购买中……

(系统提示用户输入或选择账户信息和配送地址，并完成购买)

系统：购买完毕，XX公司将在XX天内将货送到XX地点。

(8)系统将本次会话所涉及的关键信息存储到用户案例库中，辅助提高系统的智能化水平。系统在完成一次对话后，将询问用户是否还有别的需求。如果用户还有其它方面的需求，可以继续向系统发出请求，系统会重新建立一次新的会话；如果用户没有其他需求，系统将结束与用户的对话。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

所有上述仅是本发明的一个实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视作本发明的保护范围。

Claims

1.一种语音驱动的智能人机交互方法，其特征在于，该方法的实现步骤如下：

(1)语音输入界面接收用户输入的语音；

(2)语音识别模块识别用户输入的语音，得到识别结果：字符串S；

(3)语义理解模块对字符串S进行分词，并根据文法对分词结果中的每个短语添加语义标签；所述文法包括语言模型和语义分类器，其中，语言模型定义了所有由语音识别器处理的词汇空间，由文法的规则描述或统计文法领域的n元组集合定义；语义分类器将词汇短语映射到语义标签的一个有限集，由训练好的统计分类器实现；

(4)对话管理器根据语义理解模块的语义解析结果，结合知识库确定将要执行的操作，具体为：

①如果用户的语音输入指定了所感兴趣事物的属性，对话管理器将查询后台的领域知识库，确定对话主题的必要属性信息、可选属性信息和属性优先级；如果用户提供的属性信息不足，对话管理器将询问用户缺少的必要属性信息；如果用户提供的属性信息覆盖了对话主题的必要属性信息，对话管理器将让用户确认所感兴趣事物的信息；②如果用户的语音输入为查询某一问题或名词，对话管理器将调用第三方搜索引擎查询、筛选和重新组织相关信息，并在下一步将结果返回给用户；

(5)对话管理器根据上一步确定的操作组织回答语句，并调用语音播放引擎向用户播放语句；其中，组织回答语句的过程分为查找语句模板和填充信息两步：在查找语句模板的步骤中，语句模板的类型由上一步所确定的操作类型决定：如果系统需要向用户询问相关信息，需使用询问疑问句；如果系统需要让用户确认信息，使用确认疑问句；如果系统需要将结果返回给用户，则使用陈述句；如果交互过程中出现语音识别拒识、超时、低可信度的问题，对话管理器将调用这些问题对应的提示语句；以上所有语句模板均存储在知识库中，对话管理器根据对话主题和查询类型提取语句模板；对话管理器确定语句模板之后，根据语义设置模板中的参数值，从而生成回答语句；