CN106653005A

CN106653005A - 一种机器人的语音处理方法

Info

Publication number: CN106653005A
Application number: CN201611037902.8A
Authority: CN
Inventors: 彭建盛; 覃勇; 彭金松; 苗剑
Original assignee: Hechi University
Current assignee: Hechi University
Priority date: 2016-11-23
Filing date: 2016-11-23
Publication date: 2017-05-10

Abstract

本发明公开了一种机器人的语音处理方法，所述语音处理方法包括以下步骤：S1：预处理阶段，按照特殊字符将待分析文本进行断句，将待切分的文本切分为只有中文的短句，所述短句是下一步分词处理的基本单位；其中，所述特殊字符包括英文字母、数字和标点符号；S2：对短句出来的句子进行双向最大匹配分词，按照双向匹配、长词优先的原则进行，分词后的结果作为S3的输入；S3：对上一步分词得到的结果进行比较，判断是否存在歧义，如果存在歧义，就进行一定的歧义消解；S4：重复S2、S3，直到处理完步骤一中断句所切分出的所有句子单元。

Description

一种机器人的语音处理方法

技术领域

本发明属于互联网技术领域，尤其涉及一种机器人的语音处理方法。

背景技术

随着社会的发展，通讯工具变得越来越多样化，各种即时通讯应用程序大大丰富了人们之间的相互流通与交流的方式，在各种电子终端上就可以发送文字、语音、视频消息，更具有各种群组功能。然而，现有的各种即时通讯应用程序一般都是按照一个客户端一个用户的方式设计的，也就是说输出消息的对象就是当前的用户，而且播放、输出消息的操作也依赖于当前用户的交互操作。

用户在聊天时的一个显著特点是所提出的话题一般都是比较短小的，而不是长篇大论，不具有段落篇章结构，绝大多数就是少数几句话。基于统计的分词方法适用于有段落、篇章结构以及上下文关系的文段。基于理解的分词方法目前并不成熟，且时间复杂度高，速度慢。

因此，需要一种新的机器人的语音处理方法来克服上述技术中的缺陷。

发明内容

针对现有技术的不足，本发明的目的是提供一种新的机器人的语音处理方法，使得机器人能够在短时间以内识别更多语言，简单方便快速的进行沟通。

一种机器人的语音处理方法，所述语音处理方法包括以下步骤：

S1：预处理阶段，按照特殊字符将待分析文本进行断句，将待切分的文本切分为只有中文的短句，所述短句是下一步分词处理的基本单位；其中，所述特殊字符包括英文字母、数字和标点符号。

S2：对短句出来的句子进行双向最大匹配分词，按照双向匹配、长词优先的原则进行，分词后的结果作为S3的输入；

S3：对上一步分词得到的结果进行比较，判断是否存在歧义，如果存在歧义，就进行一定的歧义消解；

S4：重复S2、S3，直到处理完步骤一中断句所切分出的所有句子单元。

本发明的技术方案具有以下有益效果：

本发明提供的一种机器人的语音处理方法，使得机器人对语言的词句完整度理解非常精准，并且处理速度很快，是科技的一大进步，也解决了现有技术中存在的缺陷。

具体实施方式

为了清楚了解本发明的技术方案，将在下面的描述中提出其详细的结构。显然，本发明实施例的具体施行并不足限于本领域的技术人员所熟习的特殊细节。本发明的优选实施例详细描述如下，除详细描述的这些实施例外，还可以具有其他实施方式。

下面结合实施例对本发明做进一步详细说明。

本实施例提供的一种机器人的语音处理方法，包括以下步骤：

S1：预处理阶段，按照特殊字符(英文字母、数字、标点符号等)将待分析文本进行断句，将待切分的文本切分为只有中文的短句子，这些句子是下一步分词处理的基本单位；(举个例子：输入“asdfadf东北师范大学哈哈哈dfadflakfl(*^__^*)嘻嘻，，，，”，simi只会对其中的中文“东北师范大学哈哈哈嘻嘻”做出响应；输入“(*^__^*)”时，输出“Ihavenoresponse.”)；

S2：对断句出来的句子进行双向最大匹配(双向匹配，长词优先)分词，分词后的结果作为S3的输入；(举个例子：输入“东京古巴比伦”，正向与反向切词结果均为《东京，古巴比伦》，长词优先，所以simi只对“古巴比伦”做出响应；输入“古巴比伦埃菲尔铁塔”，正向与反向切词结果均为《古巴比伦，埃菲尔铁塔》，此时Simi对“埃菲尔铁塔”做出响应)；

S4：重复S2、S3，直到处理完步骤一中断句所切分出的所有句子单元。这里给出与机器人对话的例子：我问机器人：“埃菲尔铁塔上45度角仰望星空”。

S1：双向最大匹配分词：正向反向均为《埃菲尔铁塔上，45度角，仰望星空》，没有歧义。长词优先，系统选择了“埃菲尔铁塔上”作为关键词；

S2：系统在知识库中用刚才说的哈希函数f(埃菲尔铁塔上)，找到比如[埃，11，P]的表项，顺着指针找到6字词的索引，顺着索引找到6字词表，遍历词表，找到<埃菲尔铁塔上，，，>结构体；

S3：系统随机选择该结构体Ans域中的一个回答(也有可能是根据频率高低来选择)，比如“两年之后等着你”。

S4：输出回答，匹配结束。功时重新切取的策略，机械分词法可以分为增字法和减字法。

基于词典的“双向最大匹配”法是目前中文信息处理中最简单有效的方法，有这样的统计：汉语文本中90％左右的句子，其与双向最大匹配的结果相吻合，而且是正确的分词结果，当正、反向最大匹配算法得出来的切分结果不一样时，就必须对其进行歧义处理，在此不再赘述。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的权利要求保护范围之内。

Claims

1.一种机器人的语音处理方法，其特征在于，所述语音处理方法包括以下步骤：

S1：预处理阶段，按照特殊字符将待分析文本进行断句，将待切分的文本切分为只有中文的短句，所述短句是下一步分词处理的基本单位；其中，所述特殊字符包括英文字母、数字和标点符号；