CN106875941B

CN106875941B - 一种服务机器人的语音语义识别方法

Info

Publication number: CN106875941B
Application number: CN201710211576.6A
Authority: CN
Inventors: 彭楚奥
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-04-01
Filing date: 2017-04-01
Publication date: 2020-02-18
Anticipated expiration: 2037-04-01
Also published as: CN106875941A

Abstract

本发明提供一种服务机器人的语音语义识别方法，具体包括如下步骤：系统词库建模：建立词库数据库；建立语义框架数据库；建立唇语模式库；系统通过语音识别系统采集用户输入的语音指令和面部视频，分别进行语音语义识别和视频片段唇语识别，根据二者结合识别的结果，将判断的所述中文语义通过显示界面显示。本发明针对不同服务领域设置名词数据库和语义框架数据库，机器人通过词库数据库、语义框架数据库与唇语模式库的结合，来理解所识别的语音指令所需要表达的中文含义，使得语音语义的识别更加准确。

Description

一种服务机器人的语音语义识别方法

技术领域

本发明涉及一种语音语义识别方法，尤其涉及一种服务机器人的语音语义识别方法。

背景技术

计算机科学领域的一个重要分支就是“人工智能”，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。

在自然语言处理方面，如何让机器人识别和理解人类的语言，并且模拟人类思维方式去思考、推理问题，是完成“人工智能”这个人类伟大理想的重要举措。不管是中文，还是英文的语言环境中，除了“你”“我”“他”等这类个别的例外之外，词组才是人类表达语义的最小单位。

什么是语义？语义就是自然语言文本的涵义。对机器人来说，就是当机器人遇到这个文本输入的时候，应该进行的回答或响应。例如，当用户问“北京明天什么天气”，计算机能够理解这句话的意图是问天气信息，且城市是北京，时间是明天，从而执行的操作是从特定数据源中查询到北京明天的天气信息并呈现给用户。

语义技术比较适合的应用类型至少有两种：一是操控类的应用，通过语音可以直接发出指令，如语音拨号，发短信等；二是信息查询类的应用，特别是查询条件比较多的情况，传统的交互方式需要用户用文字输入很多查询条件，这对用户来说很繁琐。而语义的交互方式可以让用户通过一句话或者多回合的对话方式获取其所要的信息。

中国服务机器人的应用领域包括金融、家庭服务、教育、医疗、物流、国防、住宿餐饮、电子商务等。对于服务型机器人我们现阶段主要有的就是餐饮机器人、家居机器人、娱乐机器人以及医疗看护机器人等。而且现在的这种类型的机器人已经逐渐被人们接受，使用率也越来越高。

对于服务机器人来说，语音语义技术需要实现的技术目标，是使服务机器人能够理解人类对他输入的句子的意思，这里需要强调的是“理解”，而不是“识别”。识别指的是语音识别，具体是指通过语音识别分析出这句话说的是什么；而理解指的是语义识别，具体是指语义识别分析出这句话是什么意思。机器人要正确理解用户的意思并作出反应，语义识别实际上更为关键。

现有的服务机器人大部分设置有摄像头，通过摄像头的视频录制和实施人工监控，使得即使在嘈杂的环境中，语音识别的正确率仍能保持，在多音源的情况下，识别的准确度需要其他功能的辅助提升语音语义识别的准确度。目前的服务机器人在语音语义识别过程中，仍存在诸多的问题，例如语音设备在采集过程或采集设备本身会带来干扰，导致其准确率不高，或者语音识别基本能涵盖准确识别结果，但是在实时识别过程中需要采用大型的计算机硬件设备，计算量大。

因此，对于服务机器人来说，不仅如何快速、准确识别用户发出的语音指令并对指令的语义进行理解后，做出相应的响应或者回复是体现一个服务机器人性能的重要指标，能否将识别设备变得轻巧、可移动和便携，是一个新的客体要求。

对比文件1：CN102681982A公开一种可让计算机理解的自然语言句子的自动语义识别的方法，涉及到一种可以准确的识别汉语语言的方法。具体它包括以下步聚：a、在某个领域建立本体库；b、基于领域本体建立语义框架知识库；c、基于语义框架的本体映射，实现自然语言句子到语义结构的直观匹配；根据框架模式进行匹配性识别。在出现干扰时，其语音语义识别度容易出现误差，具有局限性。

对比文件2：CN104409075A公开一种语音识别方法，在接收到语音信号时，控制图像采集装置进行图像采集，并在所述语音信号结束时，控制所述图像采集装置停止图像采集；对接收到的语音信号进行识别，以得到语音信号识别结果；对采集到的图像中包含唇部的图像进行唇语识别，以得到唇语识别结果；计算所述语音信号识别结果和唇语识别结果的准确度，将准确度较高的识别结果作为当前的语音识别结果。其通过对所采集的视频进行唇语识别，耗费时间长，计算机计算量大，且需要较大型计算机硬件设备进行支持。

发明内容

本发明要解决的技术问题是提供一种服务机器人的语音语义识别方法，该语音语义识别方法能快速、准确地识别用户发出的语音指令，并对语音指令的语义进行理解后作出相应的回复或者响应；通过唇语识别，对语音语义识别进行辅助后匹配，使得准确率更高。

为了解决上述技术问题，本发明采用以下技术方案：

提供一种服务机器人的语音语义识别方法，具体包括如下步骤：

S1、系统词库建模：

S101、建立词库数据库，所述词库数据库包括代词数据库、动词数据库和名词数据库，将中文汉字中为代词、动词和名词属性的词语和成语分别存入相应的代词数据库、动词数据库和名词数据库；

S102、同时，建立语义框架数据库，所述语义框架数据库包括存入的词语可能的组合方式及组合在一起对应的中文意思；

S103、同时建立唇语模式库，所建立模式库由面部唇语视频运算识别得到模式特征码或由中文文字反推得到标准模式特征码；

S2、系统通过语音识别系统采集用户输入的语音指令和面部视频，将语音指令识别为中文语句，然后将中文语句进行拆解，拆解形式为：代词+动词+名词，并对应词库数据库和语义框架数据库，得到该语音指令的中文语义；

S3、根据语义解析矫正语音识别结果，并输出综合评价概率Pa，其中，Pa为归一化值；

S4、取参数C0，当Pa<C0时，进入S5；否则进入S10；

S5、输出各语义片段识别结果可信概率Ps(1)～Ps(N)；

S6、取参数C1、K，当某语音片段识别结果可信概率Ps(n)<C1(n＝1～N)时，语义识别输出可信概率最大的K个识别结果(K≥2)，否则进入S9；

S7、获取步骤S6中K个识别结果的唇语模式特征RTs(k)，其中k＝1～K；

S8、根据语音识别系统截取的对应的面部视频片段，通过视频唇部运动模式提取，并形成唇部运动模式特征码RTs0；

S8、使用模式匹配算法，以RTs0和RTs(1)～RTs(k)作为输入，获得VP(1)～VP(K)，并取最小值，即Vpmin＝min//RTs(k)-RTs0//(k＝1～K),其中//为距离算子；

S9、输出Vpmin对应的结果作为识别结果，进入S5循环直至N片段识别完成，进入S10；

S10、所述中文语义通过显示界面显示。

进一步地，

所述步骤S101中所述名词数据库中的名词按不同服务领域进行分类存储，所述服务领域包括餐饮、医疗、购物、运动、住宿、交通；步骤S102中对应的语音框架数据库也根据不同服务领域进行分类存储。

比如：我要吃“饭/小龙虾”，对应的是餐饮领域；

比如：我要看“病”，对应的是医疗领域；

比如：我要买“手机/书本”，对应的是购物领域；

比如：我要打“球/健身”，对应的是运动领域；

比如：我要找“酒店/住宿”，对应的是住宿领域；

再比如：我要去“机场”，对应的是交通领域。

进一步地，

步骤S2中，当系统识别的语音指令的中文语义中包含用户“要”、“想要”、“需要”某件物品或者做某件事情或者“将要”做某件事情的语义时；

所述语音语义识别方法还包括步骤：

S11、系统获取当前用户的位置，同时在该位置附近对包含某件事情或者某件物品的名词相关的事务进行搜索，搜索结果通过显示界面显示。

例如：当用户输入的语音指令为“我要买书”时，系统会获取到用户的当前位置，将附近可以的书店或者可以买书的商家关联对接起来，再查询出价格和库存等信息后对用户进行反馈，并将结果显示在显示界面上。

进一步地，

语音语义识别方法还包括步骤：

S12、用户根据显示界面的搜索结果，进行进一步确认，服务机器人对用户输入的确认指令做出相应回复或响应。

以买书为例，用户根据显示界面上反馈的搜索结果，根据书店或者商家的位置及书的价格等，确定在哪个书店购买书后，可以直接通过服务机器人进行进一步的确认后，直接下单或购买完成。

进一步地，

步骤S1中的词库数据库通过人工录入或者字典采集的方式分类存入不同属性的成语或者词语。

进一步地，

所述步骤S4中，当C0＝1时，进入S5；当C0＝0时，进入S10。

进一步地，

所述语音语义识别方法还包括系统对每次语音指令识别并转化成中文语义后作出的相应操作进行记录和统计并存储，以便于后续操作中的修正和优化。

进一步地，

所述步骤S2中的语音指令通过麦克风输入，为了使语音指令输入更加清晰准确，用户距离麦克风的距离优选在15m范围内。

进一步地，

所述步骤S10中的中文语义也可以进一步转化成语音信息，通过服务机器人的扬声器输出，方便用户进一步确认，服务机器人对语音指令的识别是否准确。

例如：当用户输入的语音指令为“我要买书”时，服务机器人系统会将该语音指令识别成中文语义“用户要买书”，这一中文语义可以通过文本信息显示在显示界面上，也可以进一步转化成语音信息“您是要买书吗？”通过扬声器输出，以便与用户做更进一步确认。

进一步地，

所述服务机器人的系统通过网络与云平台或者后台管理服务器连接，所述云平台或者后台管理服务器存储有包含某件事情或者某件物品的名词相关的信息，当系统输入搜索指令后，系统会通过网络获取相关信息。

进一步地，

所述步骤S8中，设定Vpmin小于常数C2，否则给出识别提示。

本发明的有益效果：

本发明针对不同服务领域设置名词数据库，可以解决以往汉语语言中，由于前提不明确，语境不清楚等原因造成的语义模糊的问题；以语音语义识别为基础获得中间特征码，然后运用某种距离算子来对语音识别的结果进行判别和选取。

本发明中针对不同的服务领域建立相应的名词数据库，让其在特定的服务环境下，具备明确的语义，然后再建立相应的语义框架数据库，机器人通过词库数据库与语义框架数据库的结合，来理解所识别的语音指令所需要表达的中文含义，同时对识别的含义进行相应的评估，而后进行唇语识别，通过对评价概率低的片段进行唇语识别，实现对语音语义识别的辅助识别。

本发明中的语音语义识别方法中采用唇语识别作为辅助识别手段，解决现有技术中在嘈杂的环境或较远的距离下，使用语音语音语义识别时准确率低的问题；采用片段式唇语识别，对于后续研发轻便、可携带或便携式设备来说，具有重要的意义。

语音和片段视频的结合使用，大大减轻计算量，可以满足可结束的实时需求；使得服务机器人对于用户的语音指令做出更加智能化的响应，提高服务机器人的人工智能化程度。

本发明提供的多个可调整的参数和反馈，为更广泛适配语音识别和唇语识别带来了新的方向。

具体实施方式

下面结合实施例对发明进一步说明，但不用来限制本发明的范围。

实施例1

本实施例提供一种服务机器人的语音语义识别方法，具体包括如下步骤：

S1、系统词库建模：

步骤S101中所述名词数据库中的名词进一步按不同服务领域进行分类存储，所述服务领域包括餐饮、医疗、购物、运动、住宿、交通等；步骤S102中对应的语音框架数据库也根据不同服务领域进行分类存储。

比如：我要吃“饭/小龙虾”，对应的是餐饮领域；

比如：我要看“病”，对应的是医疗领域；

比如：我要买“手机/书本”，对应的是购物领域；

比如：我要打“球/健身”，对应的是运动领域；

比如：我要找“酒店/住宿”，对应的是住宿领域；

再比如：我要去“机场”，对应的是交通领域。

S2、打开设备的摄像头，启动语音识别系统，通过语音识别系统采集用户输入的语音指令和面部视频；系统将语音指令识别为中文语句，然后将中文语句进行拆解，拆解形式为：代词+动词+名词，并对应词库数据库和语义框架数据库，得到该语音指令的中文语义。

S4、取参数C0，当Pa<C0时，进入S5；否则进入S10；特别地，当C0＝1时，进入S5；当C0＝0时，进入S10；C0为唇语识别综合介入系数；特别的，当C0＝1时，必定进入下一步；当C0＝0时，必定直接输出语音识别结果。根据语音识别的正确率来选取，当语音识别正确率低时，C0可适当取小一些，当语音识别正确率高时，可适当取大一些，其为可调节参数；

S5、输出各语义片段识别结果可信概率Ps(1)～Ps(N)；

S6、取参数C1、K，当某语音片段识别结果可信概率Ps(n)<C1(n＝1～N)时，语义识别输出可信概率最大的K个识别结果(K≥2)，否则进入S9；C1语音片段唇语识别介入系数，类似C0；K为唇语识别判别深度，即语音识别可能性最大的词语并参与唇语识别判别的个数。其中C1的选取标准同C0；K则正好跟C0的选取模式相反；

S7、获取步骤S6中K个识别结果的唇语模式特征RTs(k)，其中k＝1～K；语音识别根据不同的方法，需要改进算法使得其输出可能性最大的K个语音识别结果；

S8、根据语音识别系统截取的对应的面部视频片段，通过视频唇部运动模式提取，并形成唇部运动模式特征码RTs0；RTs0反映唇部运动模式的一串类似指纹数据的编码；特别地，设定Vpmin小于常数C2，否则给出识别提示；

S8、使用模式匹配算法，以RTs0和RTs(1)～RTs(k)作为输入，获得VP(1)～VP(K)，并取最小值，即Vpmin＝min//RTs(k)-RTs0//(k＝1～K)，其中//RTs(k)-RTs0//为距离算子；

S9、输出Vpmin对应的结果作为识别结果，进入S5循环直至N片段识别完成(循环往复完成N个片段，即重复S6～S9步骤N次)，进入S10；

S10、所述中文语义通过显示界面显示。

为了进一步与用户确认中文语义的准确性，步骤S10中的中文语义也可以进一步转化成语音信息，通过服务机器人的扬声器输出，方便用户进一步确认，服务机器人对语音指令的识别是否准确。

所述语音语义识别方法还包括步骤：

本实施例中的语音语义识别方法还包括步骤：

步骤S1中的词库数据库可以通过人工录入或者字典采集的方式分类存入不同属性的成语或者词语。

本实施例中为了方便后续操作中对于语义识别的修正和优化，提高语义识别的准确性，所述语音语义识别方法还包括系统对每次语音指令识别并转化成中文语义后作出的相应操作进行记录和统计并存储。

语音语义与唇语进行匹配，若匹配结果有误，则提示本次命令无效，提示使用者重新输入。通过语音语义识别和唇语识别的结果匹配相同，则在界面显示该命令，同时服务机器人执行该命令。通过二者的相互印证和补充，使得识别效果更好。

在识别过程中，涉及目前公知的高清图像处理技术和特征提取技术。在本文中未提及的，视为公知常识。

本实施例针对不同服务领域设置名词数据库，可以解决以往汉语语言中，由于前提不明确，语境不清楚等原因造成的语义模糊的问题。本发明中针对不同的服务领域建立相应的名词数据库，让其在特定的服务环境下，具备明确的语义，然后再建立相应的语义框架数据库，机器人通过词库数据库与语义框架数据库的结合，来理解所识别的语音指令所需要表达的中文含义，使得语音语义的识别更加准确。

本实施例中的语音语义识别方法可以通过网络连接到云平台或者后台管理服务器，对识别的中文语义中包含的用户需要的某件物品或想要做的某件事情在用户当前位置的附近进行相关信息的搜索，并将搜索结果反馈给用户做出进一步确认。使得服务机器人对于用户的语音指令做出更加智能化的响应，提高服务机器人的人工智能化程度。

本实施例中的语音语义识别方法中识别语音指令得到的中文语义既可以转化成转化成文本信息通过服务机器人的显示界面显示，也可以进一步转化成语音信息通过服务机器人的扬声器输出，以便用户做出进一步确认中文语义的识别是否准确，并且系统会对每次语音语义识别后作出的相应操作进行记录和统计并存储，以便于后续操作中的修正和优化，提高语义识别的准确性，提高机器人的人工智能化。

通过语音语义和唇语的相互配合，提高服务机器人的人机交互能力，在一定程度上扩展现有人机交互能力。

对于目前语音识别方法，采用与语音识别的同步视频进行唇语识别，其需要采用大型的计算机硬件设备进行，计算量可想而知。本发明提供的方法是以语音语义识别的结果为基础，对筛选的部分片段进行唇语识别，将语音语义识别的结果作为中间特征码，然后运用某种距离算子对语音识别的多个词组进行对应的判别和截取，相比现有直接对语音识别和唇语识别进行独立评价的运算，本发明的运算量明显减少，本发明以语音语义识别为主，以片段唇语识别为辅，降低运算量同时，为可移动设备或便携设备实时识别带来方向。

目前的语音识别处于一个临界态，即准确率较高，但是若语音采集设备和采集过程中收到多音源或外界干扰时，其准确率出现波动；本发明使用唇语识别的特征码对语音识别进行辅助识别可以解决该问题。

本发明通过语音识别，辅助唇语识别，大大减轻计算量，且本发明提供的方法有多个可调整的参数和反馈，为广泛适配语音语义识别和唇语识别带来了益处。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种服务机器人的语音语义识别方法，其特征在于，具体包括如下步骤：

S1、系统词库建模：

S4、取参数C0，当Pa<C0时，进入S5；否则进入S10；

S5、输出各语义片段识别结果可信概率Ps(1)～Ps(N)；

S7、建立唇语模式库，获取步骤S6中K个识别结果的唇语模式特征RTs(k)，其中k＝1～K；

S10、所述中文语义通过显示界面显示。

2.根据权利要求1所述的一种服务机器人的语音语义识别方法，其特征在于，

3.根据权利要求1所述的一种服务机器人的语音语义识别方法，其特征在于，

所述语音语义识别方法还包括步骤：

4.根据权利要求3所述的一种服务机器人的语音语义识别方法，其特征在于，

语音语义识别方法还包括步骤：

5.根据权利要求1所述的一种服务机器人的语音语义识别方法，其特征在于，

6.根据权利要求1所述的一种服务机器人的语音语义识别方法，其特征在于，

7.根据权利要求1所述的一种服务机器人的语音语义识别方法，其特征在于，

所述步骤S4中，当C0＝1时，进入S5；当C0＝0时，进入S10。

8.根据权利要求1所述的一种服务机器人的语音语义识别方法，其特征在于，

9.根据权利要求3所述的一种服务机器人的语音语义识别方法，其特征在于，

10.根据权利要求1所述的一种服务机器人的语音语义识别方法，其特征在于，

所述步骤S8中，设定VPmin小于常数C2，否则给出识别提示。