CN106653005A - 一种机器人的语音处理方法 - Google Patents

一种机器人的语音处理方法 Download PDF

Info

Publication number
CN106653005A
CN106653005A CN201611037902.8A CN201611037902A CN106653005A CN 106653005 A CN106653005 A CN 106653005A CN 201611037902 A CN201611037902 A CN 201611037902A CN 106653005 A CN106653005 A CN 106653005A
Authority
CN
China
Prior art keywords
sentence
ambiguity
speech processing
text
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611037902.8A
Other languages
English (en)
Inventor
彭建盛
覃勇
彭金松
苗剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hechi University
Original Assignee
Hechi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hechi University filed Critical Hechi University
Priority to CN201611037902.8A priority Critical patent/CN106653005A/zh
Publication of CN106653005A publication Critical patent/CN106653005A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

本发明公开了一种机器人的语音处理方法,所述语音处理方法包括以下步骤:S1:预处理阶段,按照特殊字符将待分析文本进行断句,将待切分的文本切分为只有中文的短句,所述短句是下一步分词处理的基本单位;其中,所述特殊字符包括英文字母、数字和标点符号;S2:对短句出来的句子进行双向最大匹配分词,按照双向匹配、长词优先的原则进行,分词后的结果作为S3的输入;S3:对上一步分词得到的结果进行比较,判断是否存在歧义,如果存在歧义,就进行一定的歧义消解;S4:重复S2、S3,直到处理完步骤一中断句所切分出的所有句子单元。

Description

一种机器人的语音处理方法
技术领域
本发明属于互联网技术领域,尤其涉及一种机器人的语音处理方法。
背景技术
随着社会的发展,通讯工具变得越来越多样化,各种即时通讯应用程序大大丰富了人们之间的相互流通与交流的方式,在各种电子终端上就可以发送文字、语音、视频消息,更具有各种群组功能。然而,现有的各种即时通讯应用程序一般都是按照一个客户端一个用户的方式设计的,也就是说输出消息的对象就是当前的用户,而且播放、输出消息的操作也依赖于当前用户的交互操作。
用户在聊天时的一个显著特点是所提出的话题一般都是比较短小的,而不是长篇大论,不具有段落篇章结构,绝大多数就是少数几句话。基于统计的分词方法适用于有段落、篇章结构以及上下文关系的文段。基于理解的分词方法目前并不成熟,且时间复杂度高,速度慢。
因此,需要一种新的机器人的语音处理方法来克服上述技术中的缺陷。
发明内容
针对现有技术的不足,本发明的目的是提供一种新的机器人的语音处理方法,使得机器人能够在短时间以内识别更多语言,简单方便快速的进行沟通。
一种机器人的语音处理方法,所述语音处理方法包括以下步骤:
S1:预处理阶段,按照特殊字符将待分析文本进行断句,将待切分的文本切分为只有中文的短句,所述短句是下一步分词处理的基本单位;其中,所述特殊字符包括英文字母、数字和标点符号。
S2:对短句出来的句子进行双向最大匹配分词,按照双向匹配、长词优先的原则进行,分词后的结果作为S3的输入;
S3:对上一步分词得到的结果进行比较,判断是否存在歧义,如果存在歧义,就进行一定的歧义消解;
S4:重复S2、S3,直到处理完步骤一中断句所切分出的所有句子单元。
本发明的技术方案具有以下有益效果:
本发明提供的一种机器人的语音处理方法,使得机器人对语言的词句完整度理解非常精准,并且处理速度很快,是科技的一大进步,也解决了现有技术中存在的缺陷。
具体实施方式
为了清楚了解本发明的技术方案,将在下面的描述中提出其详细的结构。显然,本发明实施例的具体施行并不足限于本领域的技术人员所熟习的特殊细节。本发明的优选实施例详细描述如下,除详细描述的这些实施例外,还可以具有其他实施方式。
下面结合实施例对本发明做进一步详细说明。
本实施例提供的一种机器人的语音处理方法,包括以下步骤:
S1:预处理阶段,按照特殊字符(英文字母、数字、标点符号等)将待分析文本进行断句,将待切分的文本切分为只有中文的短句子,这些句子是下一步分词处理的基本单位;(举个例子:输入“asdfadf东北师范大学哈哈哈dfadflakfl(*^__^*)嘻嘻,, ,,”,simi只会对其中的中文“东北师范大学哈哈哈嘻嘻”做出响应;输入“(*^__^*)”时,输出“Ihavenoresponse.”);
S2:对断句出来的句子进行双向最大匹配(双向匹配,长词优先)分词,分词后的结果作为S3的输入;(举个例子:输入“东京古巴比伦”,正向与反向切词结果均为《东京,古巴比伦》,长词优先,所以simi只对“古巴比伦”做出响应;输入“古巴比伦埃菲尔铁塔”,正向与反向切词结果均为《古巴比伦,埃菲尔铁塔》,此时Simi对“埃菲尔铁塔”做出响应);
S3:对上一步分词得到的结果进行比较,判断是否存在歧义,如果存在歧义,就进行一定的歧义消解;
S4:重复S2、S3,直到处理完步骤一中断句所切分出的所有句子单元。这里给出与机器人对话的例子:我问机器人:“埃菲尔铁塔上45度角仰望星空”。
S1:双向最大匹配分词:正向反向均为《埃菲尔铁塔上,45度角,仰望星空》,没有歧义。长词优先,系统选择了“埃菲尔铁塔上”作为关键词;
S2:系统在知识库中用刚才说的哈希函数f(埃菲尔铁塔上),找到比如[埃,11,P]的表项,顺着指针找到6字词的索引,顺着索引找到6字词表,遍历词表,找到<埃菲尔铁塔上,,,>结构体;
S3:系统随机选择该结构体Ans域中的一个回答(也有可能是根据频率高低来选择),比如“两年之后等着你”。
S4:输出回答,匹配结束。功时重新切取的策略,机械分词法可以分为增字法和减字法。
基于词典的“双向最大匹配”法是目前中文信息处理中最简单有效的方法,有这样的统计:汉语文本中90%左右的句子,其与双向最大匹配的结果相吻合,而且是正确的分词结果,当正、反向最大匹配算法得出来的切分结果不一样时,就必须对其进行歧义处理,在此不再赘述。
本发明提供的一种机器人的语音处理方法,使得机器人对语言的词句完整度理解非常精准,并且处理速度很快,是科技的一大进步,也解决了现有技术中存在的缺陷。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的权利要求保护范围之内。

Claims (1)

1.一种机器人的语音处理方法,其特征在于,所述语音处理方法包括以下步骤:
S1:预处理阶段,按照特殊字符将待分析文本进行断句,将待切分的文本切分为只有中文的短句,所述短句是下一步分词处理的基本单位;其中,所述特殊字符包括英文字母、数字和标点符号;
S2:对短句出来的句子进行双向最大匹配分词,按照双向匹配、长词优先的原则进行,分词后的结果作为S3的输入;
S3:对上一步分词得到的结果进行比较,判断是否存在歧义,如果存在歧义,就进行一定的歧义消解;
S4:重复S2、S3,直到处理完步骤一中断句所切分出的所有句子单元。
CN201611037902.8A 2016-11-23 2016-11-23 一种机器人的语音处理方法 Pending CN106653005A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611037902.8A CN106653005A (zh) 2016-11-23 2016-11-23 一种机器人的语音处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611037902.8A CN106653005A (zh) 2016-11-23 2016-11-23 一种机器人的语音处理方法

Publications (1)

Publication Number Publication Date
CN106653005A true CN106653005A (zh) 2017-05-10

Family

ID=58812692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611037902.8A Pending CN106653005A (zh) 2016-11-23 2016-11-23 一种机器人的语音处理方法

Country Status (1)

Country Link
CN (1) CN106653005A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002189490A (ja) * 2000-12-01 2002-07-05 Leadtek Research Inc ピンイン音声入力の方法
CN101193093A (zh) * 2007-01-30 2008-06-04 中兴通讯股份有限公司 双向串行通信断链的自动恢复方法和装置及使用系统
CN102063424A (zh) * 2010-12-24 2011-05-18 上海电机学院 一种中文分词方法
CN103577391A (zh) * 2012-07-28 2014-02-12 江苏新瑞峰信息科技有限公司 一种基于中文检索的双向分词方法及装置
CN105022805A (zh) * 2015-07-02 2015-11-04 四川大学 一种基于so-pmi商品评价信息的情感分析方法
CN106325095A (zh) * 2016-10-25 2017-01-11 广州华睿电子科技有限公司 一种智能语音管家机器人系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002189490A (ja) * 2000-12-01 2002-07-05 Leadtek Research Inc ピンイン音声入力の方法
CN101193093A (zh) * 2007-01-30 2008-06-04 中兴通讯股份有限公司 双向串行通信断链的自动恢复方法和装置及使用系统
CN102063424A (zh) * 2010-12-24 2011-05-18 上海电机学院 一种中文分词方法
CN103577391A (zh) * 2012-07-28 2014-02-12 江苏新瑞峰信息科技有限公司 一种基于中文检索的双向分词方法及装置
CN105022805A (zh) * 2015-07-02 2015-11-04 四川大学 一种基于so-pmi商品评价信息的情感分析方法
CN106325095A (zh) * 2016-10-25 2017-01-11 广州华睿电子科技有限公司 一种智能语音管家机器人系统

Similar Documents

Publication Publication Date Title
TWI636452B (zh) 語音識別方法及系統
CN104050256B (zh) 基于主动学习的问答方法及采用该方法的问答系统
KR102316063B1 (ko) 오디오 중의 키 프레이즈를 인식하기 위한 방법과 장치, 기기 및 매체
CN105138514B (zh) 一种基于词典的正向逐次加一字最大匹配中文分词方法
CN101599071B (zh) 对话文本主题的自动提取方法
US20200193217A1 (en) Method for determining sentence similarity
AU2017408800B2 (en) Method and system of mining information, electronic device and readable storable medium
CN103646018B (zh) 一种基于hash散列表词典结构的中文分词方法
CN101382844A (zh) 一种输入间隔分词的方法
CN105912522A (zh) 基于成分分析的英语语料自动提取方法和提取器
CN106383814A (zh) 一种英文社交媒体短文本分词方法
CN113360001A (zh) 输入文本的处理方法、装置、电子设备和存储介质
WO2016197265A1 (zh) 一种输入生僻字的方法
CN108763355A (zh) 一种基于用户的智能机器人交互数据处理系统及方法
CN110413972A (zh) 一种基于nlp技术的表名字段名智能补全方法
CN107491441B (zh) 一种基于强制解码的动态抽取翻译模板的方法
Jain et al. Text independent root word identification in Hindi language using natural language processing
CN107992479A (zh) 基于转移方法的字级别中文组块分析方法
Stolz et al. When some dots turn a different color…: Thoughts on how (not) to determine whether or not reduplication is universal
CN104239294B (zh) 藏汉翻译系统的多策略藏语长句切分方法
WO2020199590A1 (zh) 情绪检测分析方法及相关装置
CN1114165C (zh) 中文文本中的字词分割方法
CN110688837A (zh) 数据处理的方法及装置
CN110750632A (zh) 一种改进的中文alice智能问答方法及系统
CN106653005A (zh) 一种机器人的语音处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170510