CN106653005A - 一种机器人的语音处理方法 - Google Patents
一种机器人的语音处理方法 Download PDFInfo
- Publication number
- CN106653005A CN106653005A CN201611037902.8A CN201611037902A CN106653005A CN 106653005 A CN106653005 A CN 106653005A CN 201611037902 A CN201611037902 A CN 201611037902A CN 106653005 A CN106653005 A CN 106653005A
- Authority
- CN
- China
- Prior art keywords
- sentence
- ambiguity
- speech processing
- text
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Abstract
本发明公开了一种机器人的语音处理方法,所述语音处理方法包括以下步骤:S1:预处理阶段,按照特殊字符将待分析文本进行断句,将待切分的文本切分为只有中文的短句,所述短句是下一步分词处理的基本单位;其中,所述特殊字符包括英文字母、数字和标点符号;S2:对短句出来的句子进行双向最大匹配分词,按照双向匹配、长词优先的原则进行,分词后的结果作为S3的输入;S3:对上一步分词得到的结果进行比较,判断是否存在歧义,如果存在歧义,就进行一定的歧义消解;S4:重复S2、S3,直到处理完步骤一中断句所切分出的所有句子单元。
Description
技术领域
本发明属于互联网技术领域,尤其涉及一种机器人的语音处理方法。
背景技术
随着社会的发展,通讯工具变得越来越多样化,各种即时通讯应用程序大大丰富了人们之间的相互流通与交流的方式,在各种电子终端上就可以发送文字、语音、视频消息,更具有各种群组功能。然而,现有的各种即时通讯应用程序一般都是按照一个客户端一个用户的方式设计的,也就是说输出消息的对象就是当前的用户,而且播放、输出消息的操作也依赖于当前用户的交互操作。
用户在聊天时的一个显著特点是所提出的话题一般都是比较短小的,而不是长篇大论,不具有段落篇章结构,绝大多数就是少数几句话。基于统计的分词方法适用于有段落、篇章结构以及上下文关系的文段。基于理解的分词方法目前并不成熟,且时间复杂度高,速度慢。
因此,需要一种新的机器人的语音处理方法来克服上述技术中的缺陷。
发明内容
针对现有技术的不足,本发明的目的是提供一种新的机器人的语音处理方法,使得机器人能够在短时间以内识别更多语言,简单方便快速的进行沟通。
一种机器人的语音处理方法,所述语音处理方法包括以下步骤:
S1:预处理阶段,按照特殊字符将待分析文本进行断句,将待切分的文本切分为只有中文的短句,所述短句是下一步分词处理的基本单位;其中,所述特殊字符包括英文字母、数字和标点符号。
S2:对短句出来的句子进行双向最大匹配分词,按照双向匹配、长词优先的原则进行,分词后的结果作为S3的输入;
S3:对上一步分词得到的结果进行比较,判断是否存在歧义,如果存在歧义,就进行一定的歧义消解;
S4:重复S2、S3,直到处理完步骤一中断句所切分出的所有句子单元。
本发明的技术方案具有以下有益效果:
本发明提供的一种机器人的语音处理方法,使得机器人对语言的词句完整度理解非常精准,并且处理速度很快,是科技的一大进步,也解决了现有技术中存在的缺陷。
具体实施方式
为了清楚了解本发明的技术方案,将在下面的描述中提出其详细的结构。显然,本发明实施例的具体施行并不足限于本领域的技术人员所熟习的特殊细节。本发明的优选实施例详细描述如下,除详细描述的这些实施例外,还可以具有其他实施方式。
下面结合实施例对本发明做进一步详细说明。
本实施例提供的一种机器人的语音处理方法,包括以下步骤:
S1:预处理阶段,按照特殊字符(英文字母、数字、标点符号等)将待分析文本进行断句,将待切分的文本切分为只有中文的短句子,这些句子是下一步分词处理的基本单位;(举个例子:输入“asdfadf东北师范大学哈哈哈dfadflakfl(*^__^*)嘻嘻,, ,,”,simi只会对其中的中文“东北师范大学哈哈哈嘻嘻”做出响应;输入“(*^__^*)”时,输出“Ihavenoresponse.”);
S2:对断句出来的句子进行双向最大匹配(双向匹配,长词优先)分词,分词后的结果作为S3的输入;(举个例子:输入“东京古巴比伦”,正向与反向切词结果均为《东京,古巴比伦》,长词优先,所以simi只对“古巴比伦”做出响应;输入“古巴比伦埃菲尔铁塔”,正向与反向切词结果均为《古巴比伦,埃菲尔铁塔》,此时Simi对“埃菲尔铁塔”做出响应);
S3:对上一步分词得到的结果进行比较,判断是否存在歧义,如果存在歧义,就进行一定的歧义消解;
S4:重复S2、S3,直到处理完步骤一中断句所切分出的所有句子单元。这里给出与机器人对话的例子:我问机器人:“埃菲尔铁塔上45度角仰望星空”。
S1:双向最大匹配分词:正向反向均为《埃菲尔铁塔上,45度角,仰望星空》,没有歧义。长词优先,系统选择了“埃菲尔铁塔上”作为关键词;
S2:系统在知识库中用刚才说的哈希函数f(埃菲尔铁塔上),找到比如[埃,11,P]的表项,顺着指针找到6字词的索引,顺着索引找到6字词表,遍历词表,找到<埃菲尔铁塔上,,,>结构体;
S3:系统随机选择该结构体Ans域中的一个回答(也有可能是根据频率高低来选择),比如“两年之后等着你”。
S4:输出回答,匹配结束。功时重新切取的策略,机械分词法可以分为增字法和减字法。
基于词典的“双向最大匹配”法是目前中文信息处理中最简单有效的方法,有这样的统计:汉语文本中90%左右的句子,其与双向最大匹配的结果相吻合,而且是正确的分词结果,当正、反向最大匹配算法得出来的切分结果不一样时,就必须对其进行歧义处理,在此不再赘述。
本发明提供的一种机器人的语音处理方法,使得机器人对语言的词句完整度理解非常精准,并且处理速度很快,是科技的一大进步,也解决了现有技术中存在的缺陷。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的权利要求保护范围之内。
Claims (1)
1.一种机器人的语音处理方法,其特征在于,所述语音处理方法包括以下步骤:
S1:预处理阶段,按照特殊字符将待分析文本进行断句,将待切分的文本切分为只有中文的短句,所述短句是下一步分词处理的基本单位;其中,所述特殊字符包括英文字母、数字和标点符号;
S2:对短句出来的句子进行双向最大匹配分词,按照双向匹配、长词优先的原则进行,分词后的结果作为S3的输入;
S3:对上一步分词得到的结果进行比较,判断是否存在歧义,如果存在歧义,就进行一定的歧义消解;
S4:重复S2、S3,直到处理完步骤一中断句所切分出的所有句子单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611037902.8A CN106653005A (zh) | 2016-11-23 | 2016-11-23 | 一种机器人的语音处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611037902.8A CN106653005A (zh) | 2016-11-23 | 2016-11-23 | 一种机器人的语音处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106653005A true CN106653005A (zh) | 2017-05-10 |
Family
ID=58812692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611037902.8A Pending CN106653005A (zh) | 2016-11-23 | 2016-11-23 | 一种机器人的语音处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106653005A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002189490A (ja) * | 2000-12-01 | 2002-07-05 | Leadtek Research Inc | ピンイン音声入力の方法 |
CN101193093A (zh) * | 2007-01-30 | 2008-06-04 | 中兴通讯股份有限公司 | 双向串行通信断链的自动恢复方法和装置及使用系统 |
CN102063424A (zh) * | 2010-12-24 | 2011-05-18 | 上海电机学院 | 一种中文分词方法 |
CN103577391A (zh) * | 2012-07-28 | 2014-02-12 | 江苏新瑞峰信息科技有限公司 | 一种基于中文检索的双向分词方法及装置 |
CN105022805A (zh) * | 2015-07-02 | 2015-11-04 | 四川大学 | 一种基于so-pmi商品评价信息的情感分析方法 |
CN106325095A (zh) * | 2016-10-25 | 2017-01-11 | 广州华睿电子科技有限公司 | 一种智能语音管家机器人系统 |
-
2016
- 2016-11-23 CN CN201611037902.8A patent/CN106653005A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002189490A (ja) * | 2000-12-01 | 2002-07-05 | Leadtek Research Inc | ピンイン音声入力の方法 |
CN101193093A (zh) * | 2007-01-30 | 2008-06-04 | 中兴通讯股份有限公司 | 双向串行通信断链的自动恢复方法和装置及使用系统 |
CN102063424A (zh) * | 2010-12-24 | 2011-05-18 | 上海电机学院 | 一种中文分词方法 |
CN103577391A (zh) * | 2012-07-28 | 2014-02-12 | 江苏新瑞峰信息科技有限公司 | 一种基于中文检索的双向分词方法及装置 |
CN105022805A (zh) * | 2015-07-02 | 2015-11-04 | 四川大学 | 一种基于so-pmi商品评价信息的情感分析方法 |
CN106325095A (zh) * | 2016-10-25 | 2017-01-11 | 广州华睿电子科技有限公司 | 一种智能语音管家机器人系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI636452B (zh) | 語音識別方法及系統 | |
CN104050256B (zh) | 基于主动学习的问答方法及采用该方法的问答系统 | |
KR102316063B1 (ko) | 오디오 중의 키 프레이즈를 인식하기 위한 방법과 장치, 기기 및 매체 | |
CN105138514B (zh) | 一种基于词典的正向逐次加一字最大匹配中文分词方法 | |
CN101599071B (zh) | 对话文本主题的自动提取方法 | |
US20200193217A1 (en) | Method for determining sentence similarity | |
AU2017408800B2 (en) | Method and system of mining information, electronic device and readable storable medium | |
CN103646018B (zh) | 一种基于hash散列表词典结构的中文分词方法 | |
CN101382844A (zh) | 一种输入间隔分词的方法 | |
CN105912522A (zh) | 基于成分分析的英语语料自动提取方法和提取器 | |
CN106383814A (zh) | 一种英文社交媒体短文本分词方法 | |
CN113360001A (zh) | 输入文本的处理方法、装置、电子设备和存储介质 | |
WO2016197265A1 (zh) | 一种输入生僻字的方法 | |
CN108763355A (zh) | 一种基于用户的智能机器人交互数据处理系统及方法 | |
CN110413972A (zh) | 一种基于nlp技术的表名字段名智能补全方法 | |
CN107491441B (zh) | 一种基于强制解码的动态抽取翻译模板的方法 | |
Jain et al. | Text independent root word identification in Hindi language using natural language processing | |
CN107992479A (zh) | 基于转移方法的字级别中文组块分析方法 | |
Stolz et al. | When some dots turn a different color…: Thoughts on how (not) to determine whether or not reduplication is universal | |
CN104239294B (zh) | 藏汉翻译系统的多策略藏语长句切分方法 | |
WO2020199590A1 (zh) | 情绪检测分析方法及相关装置 | |
CN1114165C (zh) | 中文文本中的字词分割方法 | |
CN110688837A (zh) | 数据处理的方法及装置 | |
CN110750632A (zh) | 一种改进的中文alice智能问答方法及系统 | |
CN106653005A (zh) | 一种机器人的语音处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170510 |