CN104572619A - 智能机器人交互系统在投融资领域的应用 - Google Patents
智能机器人交互系统在投融资领域的应用 Download PDFInfo
- Publication number
- CN104572619A CN104572619A CN201410853540.4A CN201410853540A CN104572619A CN 104572619 A CN104572619 A CN 104572619A CN 201410853540 A CN201410853540 A CN 201410853540A CN 104572619 A CN104572619 A CN 104572619A
- Authority
- CN
- China
- Prior art keywords
- word
- chat
- application
- user
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明属于智能机器人技术领域,尤其涉及一种智能机器人交互系统在投融资领域的应用,其特征在于该系统的功能及业务处理步骤为:用户发送聊天内容:用户通过招财猫手机APP发送聊天内容给聊天顾问;敏感词过滤:服务器接受到用户发送的聊天内容,执行敏感词过滤;智能分词:将执行完敏感词过滤后的用户聊天内容,进行分成处理;查找应答库返回应答内容:检查当前用户是否有顾问,如果没有则查找应答库返回应答内容,如果有且当前顾问并未与该用户聊天,则查找应答库返回应答内容。本发明的有益效果是:可以很好的解决中文聊天中的问题,同时利用大数据自训练学习功能不断提高应答匹配度,能很好的达成聊天客服的基本功能。
Description
技术领域
本发明属于智能机器人技术领域,尤其涉及一种智能机器人交互系统在投融资领域的应用。
背景技术
中文分词指的是将一个汉字序列切分成一个一个单独的词。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。对于所有的智能聊天机器人,简单地说,就是基于人工智能原理、通过对聊天文本进行分析后给出应答的一类程序。世界上最早的聊天机器人诞生于20世纪80年代,而由于中文对“词”划分的模糊及歧义繁多等等原因,中文聊天机器人发展得相对较慢。
现有存在的中文分词技术,是由于中文在基本文法上有其特殊性,具体表现在:与英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文由于继承自古代汉语的传统,词语之间没有分隔,古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要,而现代汉语中双字或多字词居多,一个字不再等同于一个词。在中文里,“词”和“词组”边界模糊。现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,但由于人们认识水平的不同,对词和短语的边界很难去区分。例如:“对随地吐痰者给予处罚”,“随地吐痰者”本身是一个词还是一个短语,不同的人会有不同的标准,同样的“海上”“酒厂”等等,即使是同一个人也可能做出不同判断,如果汉语真的要分词书写,必然会出现混乱,难度很大。
中文分词对于智能聊天机器人来说,最重要的并不是找到所有结果,因为在上千万的应答库中找到所有结果没有太多的意义,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。从定性分析来说,智能聊天机器人的分词算法不同,词库的不同都会影响应答库的返回结果。在中文分词过程中,有两大难题一直没有完全突破。
第一个问题是歧义识别:主要的歧义有两种:交集型歧义和组合型歧义,例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面的”和“表面的”。这种称为交集型歧义(交叉歧义)。像这种交集型歧义十分常见,前面举的“和服”的例子,其实就是因 为交集型歧义引起的错误。“化妆和服装”可以分成“化妆和服装”或者“化妆和服装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交集型歧义相对组合型歧义来说是还算比较容易处理,组合型歧义就必须根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
如果交集型歧义和组合型歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓球拍卖完了”、也可切分成“乒乓球拍卖完了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。
第二个问题是新词识别:命名实体(人名、地名)、新词,专业术语称为未登录词。也就是那些在分词词典中没有收录,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解。句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项既不划算又巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?
除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。如何解决让电脑理解句中的语义成为现阶段中文人工智能的难题。
发明内容
为了克服上述现有技术的不足,本发明的目的是提供一种智能机器人交互系统在投融资领域的应用,可以很好的解决中文聊天中的问题,同时利用大数据自训练学习功能不断提高应答匹配度,能很好的达成聊天客服的基本功能。
为了实现上述目的,本发明采用如下技术方案:
一种智能机器人交互系统在投融资领域的应用,其特征在于该系统的功能及业务处理步骤为:
用户发送聊天内容:用户通过招财猫手机APP发送聊天内容给聊天顾问;
敏感词过滤:服务器接受到用户发送的聊天内容,执行敏感词过滤;
智能分词:将执行完敏感词过滤后的用户聊天内容,进行分成处理;
查找应答库返回应答内容:检查当前用户是否有顾问,如果没有则查找应答库返回应答内容,如果有且当前顾问并未与该用户聊天,则查找应答库返回应答内容。
所述智能分词步骤包括分词处理系统和语义处理系统,所述分词处理系统通过短语的长短进行分词,所述语义处理系统利用树形语义容器对语义指向进行判断分析,以期达到电脑理解语义的目的。
所述语义处理系统的处理步骤具体为:最大名词的处理,定位为短语,利用中文分词确定最大名词,即为主要语义,聊天过程中配合下文带入名词;唯一语义的处理,给短语认定为单一语义,不对多语义进行判断,以第一语义为准;辅词容器的处理,对语义中的辅词进行定义,比如动词、形容词、量词等,建立树形辅词容器,比如多久、多长时间、多快时间、时间等作为时间容器,让电脑方便理解语义。
所述最大名词的处理的处理步骤中,定位的短语一般不超过20个字。
所述分词处理系统包括主分析器、词元处理子单元、词典配置管理模块,所述词元处理子单元包括主词处理、辅词处理、其他词处理,所述词典配置管理模块包括词典数据、词典加载管理、词典检索算法单元。
所述分词器选用正向迭代最细粒度切分算法和歧义分析算法。
本发明的有益效果是:采用了多子分词器的分词模式,支持主词库、辅词库、其他词库等的分词处理;采用正向迭代最细粒度切分算法,支持细粒度和智能分词两种模式;采用歧义分析算法,比较有效文本长度、比较词元个数越少越好、路径跨度越大越好,根据统计学结论逆向切分概率高于正向切分因此位置越靠后的优先,词长越平均越好,提高分词准确率。智能应答聊天系统能够代替客服与顾客自由的聊天,辅助客服更好的使用招财猫移动智能投融资系统软件,并能对您提出的各种业务咨询进行回答。该系统定位于短语解析,一个主题,一个语义指示,找出最适合的应答内容回复给客户。该系统采用的词处理系统和语义处理系统是一种轻量级的数据交换格式,比XML更小、更快、更易解析,主要是用于响应手机端用户聊天的智能应答内容的传输;同时利用树形语义容器对语义指向进行判断分析,以期达到电脑理解语义的目的。
附图说明
图1为本发明的业务处理流程图;
图2为本发明分词处理系统结构示意图。
具体实施方式
下面结合附图对本发明的一种具体实施方式做出说明。
如图1所示,本发明提供一种智能机器人交互系统在投融资领域的应用,其特征在于该系统的功能及业务处理步骤为:
用户发送聊天内容:用户通过招财猫手机APP发送聊天内容给聊天顾问;
敏感词过滤:服务器接受到用户发送的聊天内容,执行敏感词过滤;
智能分词:将执行完敏感词过滤后的用户聊天内容,进行分成处理;
查找应答库返回应答内容:检查当前用户是否有顾问,如果没有则查找应答库返回应答内容,如果有且当前顾问并未与该用户聊天,则查找应答库返回应答内容。
所述智能分词步骤包括分词处理系统和语义处理系统,所述分词处理系统通过短语的长短进行分词,所述语义处理系统利用树形语义容器对语义指向进行判断分析,以期达到电脑理解语义的目的。
所述语义处理系统的处理步骤具体为:最大名词的处理,定位为短语,利用中文分词确定最大名词,即为主要语义,聊天过程中配合下文带入名词;唯一语义的处理,给短语认定为单一语义,不对多语义进行判断,以第一语义为准;辅词容器的处理,对语义中的辅词进行定义,比如动词、形容词、量词等,建立树形辅词容器,比如多久、多长时间、多快时间、时间等作为时间容器,让电脑方便理解语义。
所述最大名词的处理的处理步骤中,定位的短语一般不超过20个字。
如图2所示,所述分词处理系统包括主分析器、词元处理子单元、词典配置管理模块,所述词元处理子单元包括主词处理、辅词处理、其他词处理,所述词典配置管理模块包括词典数据、词典加载管理、词典检索算法单元。
所述分词器选用采用正向迭代最细粒度切分算法,支持细粒度和智能分词两种模式;采用歧义分析算法,比较有效文本长度、比较词元个数越少越好、路径跨度越大越好,根据统计学结论逆向切分概率高于正向切分因此位置越靠后的优先,词长越平均越好,提高分词准确率。
以上对本发明的一个实例进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。
Claims (6)
1.一种智能机器人交互系统在投融资领域的应用,其特征在于该系统的功能及业务处理步骤为:
用户发送聊天内容:用户通过招财猫手机APP发送聊天内容给聊天顾问;
敏感词过滤:服务器接受到用户发送的聊天内容,执行敏感词过滤;
智能分词:将执行完敏感词过滤后的用户聊天内容,进行分成处理;
查找应答库返回应答内容:检查当前用户是否有顾问,如果没有则查找应答库返回应答内容,如果有且当前顾问并未与该用户聊天,则查找应答库返回应答内容。
2.根据权利要求1所述的智能机器人交互系统在投融资领域的应用,其特征在于所述智能分词步骤包括分词处理系统和语义处理系统,所述分词处理系统通过短语的长短进行分词,所述语义处理系统利用树形语义容器对语义指向进行判断分析,以期达到电脑理解语义的目的。
3.根据权利要求2所述的智能机器人交互系统在投融资领域的应用,其特征在于所述语义处理系统的处理步骤具体为:最大名词的处理,定位为短语,利用中文分词确定最大名词,即为主要语义,聊天过程中配合下文带入名词;唯一语义的处理,给短语认定为单一语义,不对多语义进行判断,以第一语义为准;辅词容器的处理,对语义中的辅词进行定义,比如动词、形容词、量词等,建立树形辅词容器,比如多久、多长时间、多快时间、时间等作为时间容器,让电脑方便理解语义。
4.根据权利要求3所述的智能机器人交互系统在投融资领域的应用,其特征在于所述最大名词的处理的处理步骤中,定位的短语一般不超过20个字。
5.根据权利要求2所述的智能机器人交互系统在投融资领域的应用,其特征在于所述分词处理系统包括主分析器、词元处理子单元、词典配置管理模块,所述词元处理子单元包括主词处理、辅词处理、其他词处理,所述词典配置管理模块包括词典数据、词典加载管理、词典检索算法单元。
6.根据权利要求5所述的智能机器人交互系统在投融资领域的应用,其特征在于所述分词器选用正向迭代最细粒度切分算法和歧义分析算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410853540.4A CN104572619A (zh) | 2014-12-31 | 2014-12-31 | 智能机器人交互系统在投融资领域的应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410853540.4A CN104572619A (zh) | 2014-12-31 | 2014-12-31 | 智能机器人交互系统在投融资领域的应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104572619A true CN104572619A (zh) | 2015-04-29 |
Family
ID=53088723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410853540.4A Pending CN104572619A (zh) | 2014-12-31 | 2014-12-31 | 智能机器人交互系统在投融资领域的应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104572619A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022480A (zh) * | 2016-05-13 | 2016-10-12 | 北京工业大学 | 基于d-s证据理论的机器人功能模块粒度划分评价方法 |
CN106294309A (zh) * | 2015-05-19 | 2017-01-04 | 深圳市腾讯计算机系统有限公司 | 组合型歧义词识别方法及装置 |
WO2019000170A1 (en) * | 2017-06-26 | 2019-01-03 | Microsoft Technology Licensing, Llc | GENERATION OF ANSWERS IN AN AUTOMATED ONLINE CONVERSATION |
CN110582762A (zh) * | 2017-07-14 | 2019-12-17 | 日商Je国际股份有限公司 | 自动响应服务器装置、终端装置、响应系统、响应方法及程序 |
CN113407658A (zh) * | 2021-07-06 | 2021-09-17 | 北京容联七陌科技有限公司 | 在线客服场景下的文本内容敏感词过滤替换的方法及系统 |
-
2014
- 2014-12-31 CN CN201410853540.4A patent/CN104572619A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294309A (zh) * | 2015-05-19 | 2017-01-04 | 深圳市腾讯计算机系统有限公司 | 组合型歧义词识别方法及装置 |
CN106294309B (zh) * | 2015-05-19 | 2021-05-28 | 深圳市腾讯计算机系统有限公司 | 组合型歧义词识别方法及装置 |
CN106022480A (zh) * | 2016-05-13 | 2016-10-12 | 北京工业大学 | 基于d-s证据理论的机器人功能模块粒度划分评价方法 |
CN106022480B (zh) * | 2016-05-13 | 2018-11-02 | 北京工业大学 | 基于d-s证据理论的机器人功能模块粒度划分评价方法 |
WO2019000170A1 (en) * | 2017-06-26 | 2019-01-03 | Microsoft Technology Licensing, Llc | GENERATION OF ANSWERS IN AN AUTOMATED ONLINE CONVERSATION |
US11586810B2 (en) | 2017-06-26 | 2023-02-21 | Microsoft Technology Licensing, Llc | Generating responses in automated chatting |
CN110582762A (zh) * | 2017-07-14 | 2019-12-17 | 日商Je国际股份有限公司 | 自动响应服务器装置、终端装置、响应系统、响应方法及程序 |
CN113407658A (zh) * | 2021-07-06 | 2021-09-17 | 北京容联七陌科技有限公司 | 在线客服场景下的文本内容敏感词过滤替换的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107480143B (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
JP6309644B2 (ja) | スマート質問回答の実現方法、システム、および記憶媒体 | |
CN109726274B (zh) | 问题生成方法、装置及存储介质 | |
CN111460787A (zh) | 一种话题提取方法、装置、终端设备及存储介质 | |
CN109522418B (zh) | 一种半自动的知识图谱构建方法 | |
CN110502642B (zh) | 一种基于依存句法分析与规则的实体关系抽取方法 | |
WO2017181834A1 (zh) | 一种智能问答方法及装置 | |
CN104050256A (zh) | 基于主动学习的问答方法及采用该方法的问答系统 | |
WO2014209810A2 (en) | Methods and apparatuses for mining synonymous phrases, and for searching related content | |
CN106202153A (zh) | 一种es搜索引擎的拼写纠错方法及系统 | |
CN108197116B (zh) | 一种中文文本分词的方法、装置、分词设备及存储介质 | |
CN104951469B (zh) | 优化语料库的方法和装置 | |
CN104572619A (zh) | 智能机器人交互系统在投融资领域的应用 | |
JP2011118689A (ja) | 検索方法及びシステム | |
CN103440252A (zh) | 一种中文句子中并列信息提取方法及装置 | |
CN104598441B (zh) | 一种计算机拆分汉语句子的方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN111160041A (zh) | 语义理解方法、装置、电子设备和存储介质 | |
CN104391837A (zh) | 一种基于格语义的智能语法分析方法 | |
US20220365956A1 (en) | Method and apparatus for generating patent summary information, and electronic device and medium | |
CN111090755B (zh) | 一种文本关联关系判别方法及存储介质 | |
CN110413972B (zh) | 一种基于nlp技术的表名字段名智能补全方法 | |
CN111428031A (zh) | 一种融合浅层语义信息的图模型过滤方法 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN106776590A (zh) | 一种获取词条译文的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150429 |
|
WD01 | Invention patent application deemed withdrawn after publication |