CN110866099A

CN110866099A - 一种基于智能音箱语音交互的智能管家服务方法及系统

Info

Publication number: CN110866099A
Application number: CN201911041909.0A
Authority: CN
Inventors: 郭俊廷; 张献涛; 张猛; 林小俊
Original assignee: Nanchang Zhonghui Zhiying Information Technology Co Ltd
Current assignee: Shanghai Yishang Network Technology Co ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-03-06
Anticipated expiration: 2039-10-30
Also published as: CN110866099B

Abstract

本发明公开了一种基于智能音箱语音交互的智能管家服务方法及系统。本方法为：1)智能音箱响应收到的用户唤醒指令；2)智能音箱将收到的用户语音指令转换为文本信息；3)智能音箱根据所述文本信息识别出的用户意图，并根据不同用户意图执行对应的服务；4)智能音箱将执行服务结果反馈输出。本发明是基于语料库的统计方法或机器学习方法，自动地与用户进行对话交互，能够为用户提供更好的交互体验。

Description

一种基于智能音箱语音交互的智能管家服务方法及系统

技术领域

本发明属于信息技术、数据挖掘技术领域，特别是一种基于智能音箱语音交互的智能管家服务方法及系统。

背景技术

随着科学技术的不断发展，智能化系统越来越广泛。以旅游服务为例，当前，旅游已经成为经济发展的重要推动力之一，越来越多的用户选择外出旅行。人们在外出旅游时大部分都需要在酒店住宿，由此产生了大量的住宿需求。酒店的数量急剧增长的同时，酒店的竞争也愈发激烈。在酒店同质化日益严重的情况下，如何体现个性化，如何更好地为用户服务成为酒店竞争中的一个重要部分。利用人工智能方式帮助体现酒店个性化，成为当前智能化系统研发的一个研究热点。

随着科技的进步，智能音箱技术逐渐成熟与商业化。智能音箱本身可以输出播放语音、音乐等，还能接受用户的语音与用户进行对话的交互。目前市面上的智能酒店方案的控制入口都是用APP，但是，最自然最原始的交互方式就是语音交互。让住客更加方便的方案就是采用客房智能音箱作为酒店的控制入口，直接通过说话就可以直接享受智能客房带来的方便。

如何将智能音箱用在酒店中，充当智能管家的服务是一个重要的需求。如果只是简单的从用户提问中提取关键词，检索问题库的话，无法满足用户的智能化需求，需要利用智能音箱为消费者提供更优质的服务。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种基于智能音箱语音交互的智能管家服务方法及系统。本发明是基于语料库的统计方法或机器学习方法，自动地与用户进行对话交互。

本发明采用的技术方案如下：

一种基于智能音箱语音交互的智能管家服务方法，包括如下步骤：

1、音箱响应用户唤醒指令；

2、接收用户语音指令，转换为文本信息，并进行分词等处理；

3、识别出用户的意图，选择候选的系统行为：

3.1如果是查询意图，系统会根据酒店的基本信息，得到查询结果；

3.2如果是闲聊意图，系统会根据用户和酒店的信息，进行闲聊；

3.3如果是任务意图，系统会根据已有的任务技能，进行任务识别，计算指定任务优先级，进行任务消息的分发；

4、输出多模态(语音、图片、视频等)对用户进行响应。

进一步地，步骤1)用户通过说出固定的唤醒词，触发系统的音箱进行响应。

进一步地，步骤2)系统会通过音箱接收用户的语音信息，并将语音信息转化为文本。然后对文本采用基于词典的最大匹配分词方法进行分词，针对分词有歧义的部分采用序列标注的分词方法得到正确的分词结果；所述序列标注的分词方法将词的切分问题转换为字的分类问题，每个字根据其在词中的不同位置，赋予不同的位置类别标记，基于这样的标记序列确定句子的切分方式。

进一步地，步骤3)将分词后的文本进行向量化的表示，即以固定的一个向量dtext进行表示，进行意图分类。

进一步地，步骤3.1)若意图类别为查询类，则使用结合知识库的问答模型，生成问题对应的答案。

进一步地，步骤3.2)若意图类别为闲聊类，则使用融入订单信息的闲聊对话模型，生成符合入住场景与用户身份的回复。

进一步地，步骤3.3)若意图类别为任务类，则使用基于多模态输入的任务识别与优先度打分模型，并分析该任务的紧急程度。

进一步地，步骤4)根据步骤3)中的处理结果，进行多模态的响应，比如进行语音播报，对于有显示屏的音箱可以展示二维码、播放视频等。

本发明还提供一种基于智能音箱语音交互的智能管家服务系统，其特征在于，包括一智能音箱响；所述智能音箱响，用于当收到用户唤醒指令后与用户进行交互；交互过程中，智能音箱用于将收到的用户语音指令转换为文本信息，然后根据所述文本信息识别出的用户意图，并根据不同用户意图执行对应的服务；然后将执行服务结果反馈输出。

与现有技术相比，本发明的积极效果为：

本发明能够为用户提供更好的交互体验。基于特别设计神经网络的结构的问答结果也更具个性化、差别化和准确性。

附图说明

图1是本发明的步骤流程图；

图2是查询类服务答案生成方法流程图；

图3是闲聊类服务方法流程图；

图4是任务优先度确定方法流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步说明。

以智能化系统在酒店的应用为例，本发明具体描述基于智能音箱语音交互的酒店智能管家服务系统，本系统可以利用语音交互手段，完成酒店管家的服务功能，提升用户体验。本发明首先会响应用户的唤醒命令，等待接收语音指令。然后对接收的指令进行分词等处理，在此基础上完成文本的向量表示；根据文本进行意图的分类判断，依据不同的判断结果，进行问答类、闲聊类和任务类的不同分析处理。最后，根据上一步判断分析的结果，进行多模态的信息输出。

图1是本发明方法的步骤流程图，下面是具体的实施步骤：

步骤1：响应用户唤醒命令。用户可以通过预定的唤醒词(例如“小慧小慧”，“智能管家”等)，唤醒音箱后，智能管家服务系统播放提示语(例如“我在，您有什么吩咐”等)，等待用户的下一句话。

步骤2：接收语音指令，转化为文本，对文本进行分词后，将文本转化为向量，为下一步进行意图分类做准备。

中文分词是中文自然语言处理的基础步骤，本发明分词采用词典分词和统计分词融合的方法。首先采用基于词典的最大匹配分词方法，针对分词有歧义的部分再采用序列标注的分词方法。用户说的一句话可以由若干的分好的词组成，可以表示为

其中max表示允许的句子的最大的长度。本系统会把每一个词映射为一个低维连续向量。这里可以采用文本深度表示模型(如Word2Vec)将文本段中的句子进行表征获得词向量。word2vec是一个将词语转换成向量形式的工具。之后根据词向量进行加和操作获得句子的语义向量的表示d_text。

最大匹配方法的词典以及有监督的条件随机场模型的训练学习语料都来自本发明人工标注的10万条用户点评。

步骤3：对文本进行意图识别，提供给候选系统，进一步分析。

本发明使用一种基于语义信息的分类器用于实现意图识别。训练方法包括：1.预先采集用户原始命令内容文本(本方法采集10万组)；2.标注每条数据的意图类别(查询类、闲聊类和任务类)；3.人工清洗、确认后，根据命令文本与意图类别构建训练集(corpus)；4.利用预训练的分词方法与word2vec词向量模型对文本进行编码处理得到d_text；5.由2中的意图类别与4中的d_text，训练基于长短期记忆神经网络(LSTM)的意图分类模型。

意图分类模型利用基于输入的原始命令文本，经过长短期神经网络进行语义特征信息抽取后，可以利用每个词自身的语义信息以及上下文语义信息，得到该原始命令对应的意图类别。

利用意图分类模型对d_text进行分类，意图分类模型可以根据输入的文本的表示，得到可能的意图类别，本系统定义了三种意图类别：查询类、闲聊类和任务类。

查询类是指用户询问酒店相关的信息，例如“酒店餐厅在几楼”、“最近的银行在哪里”等；闲聊类是指用户出于打发时间的目的，休闲娱乐类的问句，例如“一个人呆在酒店真没意思”，“给我讲个笑话”等；任务类是指用户有着明确的酒店服务类的需求，例如“帮我拿一双拖鞋”，“让服务员修理一下花洒”等。

步骤3.1对于查询类问句进行分析

本发明定义用户本轮的查询内容为CurrentQuery(例如“在几楼呢”)，上一次查询内容为LastQuery(例如“酒店有餐厅么”)。CurrentQuery和LastQuery中包含的词语，则可以表示为{w₁,w₂,…w_max}(例如“酒店有餐厅么”、“在几楼呢”)，其中max表示允许的句子的最大的长度(max值的选择基于前文中训练语料corpus中统计的句子长度，涵盖超过95％的句子，若句子长度超过max，则截断保留前max个单词)。同时，本发明定义用户两次文本指令的间隔时间为Time，例如15秒。此外，本发明定义知识库KB，可以包含n个知识，表示为{Knowledge₁,Knowledge₂,…,Knowledge_n}。其中每一条知识Knowledge表示为{i,j,r}，代表实体i与实体j间存在r关系(例如“{餐厅，3楼，所在楼层}”)。最后，本发明定义当前时刻模型生成的答案为Answer，其中的词语则可以表示为{w₁,w₂,…w_max}(例如“酒店餐厅在3楼”)。

如图2所示，是为系统特殊设计的模型结构。在此模型中，首先利用预训练的分词模型以及word2vec模型处理本轮查询内容CurrentQuery，上轮查询信息(包括上一次的查询内容LastQuery与查询间隔Time)，以及知识库KB；然后利用查询编码单元、上轮查询编码单元、知识库编码单元分别对上述信息进行编码，得到对应的向量表示(分别用CurrentQueryVector,LastQueryVector,{k₁,k₂,…k_n}表示)。其中，查询编码单元、上轮查询编码单元采用步骤2中的编码方式，对各个单词的词向量表示进行求和，得到句子编码。知识库编码详细过程描述如下：将知识库KB中的每一条知识Knowledge作为知识库编码单元的输入，经过预训练的分词模型得到每条知识的单词表示(

此处的i,j,r代表上文的i,j,r),例如{餐厅，3楼，所在楼层}的单词表示为{[餐厅],[3楼],[所在楼层]}，利用预训练的word2vec模型与LSTM网络得到每一条知识的语义向量表示(

分别代表i,j,r的语义向量表示，此处的i,j,r与上文意义一致例如{[0.2138,0.7224,…,0,5576],[0.3423,0.8772,…,0.9234],[0.3221,0.5462,…,0.9441]})，此处使用常用的拼接方法合并i,j,r的语义向量得到每条知识的语义向量表示d_knowledge。对于每一条知识进行如上操作，得到知识库的语义向量表示[k₁,k₂,…k_n](例如[[0.2138,0.7224,…,0.9441],[0.1124,0.9972,…,0.7223],…,[0.6631,0.5434,…,0.1254]]，)。得到上述各信息编码后，将查询内容的向量CurrentQueryVector与上轮查询的向量LastQueryVector作为查询融合单元的输入，通过计算当前查询内容与上轮查询的重要性得到各自权重，并根据权重进行加权求和，得到融合上轮信息的查询内容语义向量QueryVector。将知识库的语义向量[k₁,k₂,…k_n]与融合上轮信息的查询内容语义向量QueryVector送入知识排序单元，知识排序单元利用注意力机制(AttentionMechanism)计算知识库中每条知识的语义向量ki与融合上轮信息的查询内容语义向量QueryVector的相关性，根据相关性进行排序后，选择相关性最高的知识向量作为候选知识向量k,再将查询内容语义向量CurrentQueryVector与候选知识向量k经过向量拼接后，送入问答解码单元中，问答解码单元利用语义向量生成单词序列，即与查询内容对应的答案Answer。

特别地，如图2所示此模型利用了利用注意力机制(Attention Mechanism)的seq2seq模型(参考Sutskever I,Vinyals O,Le Q V.Sequence to Sequence Learningwith Neural Networks.Advances in neural information processing systems,2014)。Seq2seq模型由Encoder与Decoder组成。在本模型中，3个编码单元(知识库编码单元、查询编码单元、上轮查询编码单元)，查询融合单元、知识排序单元作为Encoder。上述单元利用预训练的word2vec模型与长短期记忆神经网络(LSTM网络)，学习单词之间、单词与句子间、以及句子之间的关系，将输入(查询内容，上轮的查询内容，间隔时间，知识库)编码为2个固定长度的语义向量,分别表示查询内容的语义信息(即CurrentQueryVector)与候选知识向量的语义信息(即k)。Decoder利用Encoder输出的语义向量(即CurrentQueryVector与k)和前一时刻解码的输出(即上一个单词，初始时的单词w₀用特殊设置的符号<Start>表示)，推测出当前各个单词的概率。例如:t时刻时，前一时刻选择的单词w_t-1为“酒店”，经过Decoder计算得到当前时刻各个单词的概率为{p(酒店)＝0.05,p(餐厅)＝0.9,p(在)＝0.01,p(3楼)＝0.04}，选择概率最大的单词“餐厅”为w_t，w_t结合CurrentQueryVector、k，计算t+1时刻的单词概率分布，迭代处理，直到句子长度达到max或Decoder输出<End>标识时停止，此时得到单词序列“<Start>酒店餐厅在3楼<End>”，去除特殊标识<Start>,<End>后得到最终答案序列“酒店餐厅在3楼”。特别地，查询融合单元利用如下方法实现，具体算式如下：

此处α为模型中设定的固定参数

其中，*表示标量乘法。经实际检验，此方法在该模型中取得很好的效果。

步骤3.2对于闲聊类问句进行分析

本发明定义用户当前的闲聊内容为Chat(例如“呆在房间好无聊”)，其中包含的词语，则可以表示为{w₁,w₂,…w_max}(例如“呆在房间好无聊”)，其中max表示允许的句子的最大的长度。同时，本发明定义用户入住登记的订单信息(包括性别，年龄，订单金额，房型信息，入住时长)为Info，表示为{sex,age,price,roomtype,stay}(例如{男，30，300，大床房，3天})。最后，本发明定义当前时刻模型生成的回复为Response，其中的词语则可以表示为{w₁,w₂,…w_max}，例如“本酒店的大床房配套高保真影音系统，深受男士喜欢，欢迎您的体验”。

如图3所示，本发明首次提出了融入订单信息的闲聊对话模型。在此模型中，首先将经过预训练的分词模型与word2vec模型得到的当前闲聊内容向量表示Chat与利用独热编码(One-Hot Encoding)表示的订单信息Info经过向量拼接后，送入闲聊信息编码单元，得到融入订单信息的闲聊语义向量ChatInfoVector，再将闲聊语义向量ChatInfoVector送入闲聊解码单元中，得到闲聊回复Response(参考硕士论文《基于序列到序列模型的答案生成方法研究》，刘路，武汉科技大学)。

特别地，如图3所示，此模型由1个闲聊信息编码单元与1个闲聊解码单元组成。与3.1中类似，此模型的闲聊信息编码单元与闲聊解码单元均利用LSTM网络与注意力机制组成的seq2seq模型实现。

步骤3.3对于任务类问句进行分析

本发明定义用户当前的服务需求文本为Require(例如“帮我拿一双拖鞋”)，其中包含的词语，则可以表示为{w₁,w₂,…w_max}(例如“帮我拿一双拖鞋”)，其中max表示允许的句子的最大的长度。同时，本发明定义模型识别出的用户任务类型为Task，Content(比如{Task：送物,Content：拖鞋})，模型识别出该任务的优先度为Score(Score为0～100之间的整数)。最后，本发明定义用户的服务需求声音抽取的梅尔倒谱系数特征(Mel-scaleFrequency Cepstral Coefficients，简称MFCC)为Sound。

如图4所示，本发明特殊设计了客需服务优先度计算模型。在此模型中，首先将用户的服务需求文本Require作为输入送入任务识别单元，任务识别单元利用预配置的模板进行匹配抽取，例如模板“(帮|替|给|为)(我)？(拿|送)[一(双|副|盒|套)(.){4,6}”对应的任务类型为“送物”，服务内容为“(.){4,6}”，得到用户任务类型Task，与服务内容信息Content。然后，将用户的服务需求文本Require作为输入送入文本编码单元，得到文本编码RequireVector。同时，将用户任务类型Task与服务内容信息为Content作为输入送入任务编码单元，得到任务编码TaskVector，将服务需求声音Sound送入声音编码单元，得到声音编码SoundVector。最后，将文本编码RequireVector，任务编码TaskVector与声音编码SoundVector送入优先度计算单元，得到任务优先度Score。

特别地，如图4所示，此模型由任务识别单元，文本编码单元，任务编码单元，声音编码单元，以及优先度计算单元组成。任务识别单元利用从步骤3中训练集(corpus)中人工总结和配置的模板规则实现。任务编码单元利用LSTM网络与注意力机制实现，文本编码单元利用卷积神经网络(CNN)与最大池化层(MaxPooling)实现。声音编码单元利用多层神经网络(DNN)实现。最后，特别地，优先度计算单元利用如下方法实现，具体算式如下：

Score＝Sigmoid(Li₂(e_i ^{RequireVector}+1)+Li₂(e^TaskVector+1)+Li₂(e^SoundVector+1))*100

经检验，此方法在实际应用中效果较好。

以上模型通过随机梯度下降，最小化评价函数，对所有参数进行学习与更新。

经过上述模型，得到带有优先度的消息Message(Task,Content,Score)，例如(送物，拖鞋，60)，针对此消息，可以在系统后台进行消息分发。消息的接收端可以各种是各类设备的终端。如电脑网页、手机短信、手机APP消息等等。酒店的前台人员、维修人员或者服务人员等，可能接受到多条的消息，可以根据消息的优先度得分，对任务做不同紧急程度的安排处理。

步骤4：对于步骤3中的处理结果，进行多模态的响应。

步骤3中的处理结果，需要通过智能音箱进行展示。对同一个需要输出的信息，系统可以有多重的模态展示方式。包括语音、文字、视频、图片等等，增强交互性。例如，用户在询问，“是否可以开发票”时，音箱不仅可以直接语音回答“可以”，并且还在屏幕中展示此回答的文字，进一步的会将开票的二维码等图片信息直接展示音箱屏幕上，方便用户的使用。

在酒店集团的多个酒店试验结果表明，本发明提出的基于智能音箱语音交互的酒店智能管家服务系统是有效的。整体的用户满意度可以达到90％以上。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种基于智能音箱语音交互的智能管家服务方法，其步骤包括：

1)智能音箱响应收到的用户唤醒指令；

2)智能音箱将收到的用户语音指令转换为文本信息；

3)智能音箱根据所述文本信息识别出的用户意图，并根据不同用户意图执行对应的服务；

4)智能音箱将执行服务结果反馈输出。

2.如权利要求1所述的方法，其特征在于，所述智能音箱对所述文本信息进行分词，根据分词后的文本生成一向量d_text并输入到意图分类模型，所述意图分类模型对输入向量d_text进行语义特征信息抽取，利用向量d_text中每个分词自身的语义信息以及上下文语义信息，得到对应的用户意图。

3.如权利要求2所述的方法，其特征在于，训练得到所述意图分类模型的方法为：预先采集多个用户原始命令内容文本；然后标注每条用户原始命令内容文本的意图类别，生成训练集；然后对该训练集中每一样本进行编码处理得到对应的向量d_texti；然后根据各向量d_texti及其对应的意图类别，训练基于长短期记忆神经网络LSTM的意图分类模型。

4.如权利要求1～3任一所述的方法，其特征在于，所述用户意图包括查询类用户意图、闲聊类用户意图和任务类用户意图。

5.如权利要求4所述的方法，其特征在于，对于查询类用户意图执行的服务方法为：

311)将本轮的查询内容记为CurrentQuery，上一轮的查询内容记为LastQuery；提取CurrentQuery中包含的词语和LastQuery中包含的词语，记为{w₁，w₂，...w_max}；查询间隔时间为Time；

312)定义知识库KB，包含n个知识{Knowledge₁，Knowledge₂，...，Knowledge_n}；其中每一条知识Knowledge表示为{i，j，r}，代表实体i与实体j间存在r关系；定义当前时刻生成的答案为Answer，其中的词语则表示为{w₁，w₂，...w_max}；

313)知识库编码单元对知识库KB中的每一条知识Knowledge进行分词，得到每条知识的单词表示

然后利用预训练的word2vec模型与LSTM网络得到每一条知识的语义向量表示

分别代表i，j，r的语义向量表示；将i，j，r的语义向量拼接后对应知识的语义向量表示，从而得到知识库KB的语义向量表示[k₁，k₂，...k_n]；

314)将查询内容CurrentQuery输入查询编码单元，生成对应的向量CurrentQueryVector；将查询内容LastQuery与间隔时间Time拼接后输入上轮查询编码单元，得到上轮查询信息的向量LastQueryVector；

315)将语义向量CurrentQueryVector与向量LastQueryVector作为查询融合单元的输入，得到融合上轮信息的查询内容语义向量QueryVector；

316)将知识库的语义向量表示[k₁，k₂，...k_n]与融合上轮信息的查询内容语义向量QueryVector送入知识排序单元，知识排序单元利用注意力机制计算知识库中每条知识的语义向量k_i与融合上轮信息的查询内容语义向量QueryVector的相关性，根据相关性排序后，选择相关性最高的知识向量作为候选知识向量k；然后将向量CurrentQueryVector与候选知识向量k送入问答解码单元中，生成单词序列，即答案Answer。

6.如权利要求5所述的方法，其特征在于，融合上轮信息的查询内容语义向量

其中，函数

函数

α为设定的固定参数。

7.如权利要求4所述的方法，其特征在于，对于聊天类用户意图执行的服务方法为：

321)将用户语音指令对应的闲聊内容记为Chat，其包含的词语表示为{w₁，w₂，...w_max}，

将用户的订单信息记为Info；定义生成的回复为Response，其中的词语则表示为{w₁，w₂，...w_max}；

322)将当前闲聊内容Chat对应的语义向量与利用独热编码表示的订单信息Inf_o经过向量拼接后送入闲聊信息编码单元，得到融入订单信息的闲聊语义向量编码ChatInfoVector，再将闲聊语义向量编码ChatInfoVector送入闲聊解码单元中，得到闲聊回复Response。

8.如权利要求4所述的方法，其特征在于，对于任务类用户意图执行的服务方法为：

331)将用户语音指令对应的服务需求文本记为Require，抽取该用户语音指令的梅尔倒谱系数特征，记为Sound；

332)将服务需求文本Require输入任务识别单元，任务识别单元利用预配置的模板进行匹配抽取对应的任务类型和服务内容，得到用户任务类型Task与服务内容信息Content；然后将服务需求文本Require输入文本编码单元得到文本编码RequireVector，将用户任务类型Task与服务内容信息为Content输入任务编码单元，得到任务编码TaskVector；将Sound送入声音编码单元得到声音编码SoundVector；然后将文本编码RequireVector、任务编码TaskVector与声音编码SoundVector送入优先度计算单元，得到任务优先度Score；

333)将带有优先度的消息Message(Task，Content，Score)发送给设定消息的接收端。

9.如权利要求8所述的方法，其特征在于，计算任务优先度Score的方法为：Score＝Sigmoid(Li₂(e_i ^{RequireVector}+1)+Li₂(e^TaskVector+1)+Li₂(e^SoundVector+1))*100；其中，函数

函数

10.一种基于智能音箱语音交互的智能管家服务系统，其特征在于，包括一智能音箱响；所述智能音箱响，用于当收到用户唤醒指令后与用户进行交互；交互过程中，智能音箱用于将收到的用户语音指令转换为文本信息，然后根据所述文本信息识别出的用户意图，并根据不同用户意图执行对应的服务；然后将执行服务结果反馈输出。