CN107992513B - 一种信息处理系统及其实现信息处理的方法 - Google Patents
一种信息处理系统及其实现信息处理的方法 Download PDFInfo
- Publication number
- CN107992513B CN107992513B CN201711010979.0A CN201711010979A CN107992513B CN 107992513 B CN107992513 B CN 107992513B CN 201711010979 A CN201711010979 A CN 201711010979A CN 107992513 B CN107992513 B CN 107992513B
- Authority
- CN
- China
- Prior art keywords
- user
- information
- data
- answer
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012545 processing Methods 0.000 claims abstract description 52
- 238000007781 pre-processing Methods 0.000 claims abstract description 21
- 239000000126 substance Substances 0.000 claims description 11
- 230000001360 synchronised effect Effects 0.000 claims description 11
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000012986 modification Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 238000007792 addition Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 54
- 230000004044 response Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 12
- 238000002372 labelling Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 239000000463 material Substances 0.000 description 9
- 230000006855 networking Effects 0.000 description 9
- 235000019640 taste Nutrition 0.000 description 8
- 238000001914 filtration Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 241001122767 Theaceae Species 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 208000001613 Gambling Diseases 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 102100034761 Cilia- and flagella-associated protein 418 Human genes 0.000 description 1
- 101100439214 Homo sapiens CFAP418 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000002574 poison Substances 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种信息处理系统及其实现信息处理的方法,包括:采集来自社交网络和/或社交平台的基于用户标识(ID)的数据;对采集到的数据进行处理以形成基于用户ID的数据信息并存储;获取用户提出的问题,根据存储的基于用户ID的数据信息,对获得的用户提出的问题进行预处理,得到针对该用户提出的问题的答案。由于本发明实施例中对基于用户ID的数据进行了采集,分析出了用户的个人喜好,因此,针对用户提出的问题给出的答案会更接近用户想要的答案,对于提出问题的用户来讲是够具体的、更贴近用户需求的,从而更好地提供了针对用户的推荐信息。
Description
技术领域
本申请涉及但不限于计算机技术,尤指一种信息处理系统及其实现信息处理的方法。
背景技术
目前,智能问答系统在接收到用户问题后,通过对用户问题进行格式标准化、语义分析、问题检索、相似度计算等处理后,从智能问答数据库中得到匹配或推荐的答案并返回给用户。其中,智能问答数据库的数据来源是通过人工添加、用户提问以及网络学习这几种渠道获取的,这里,通过网络学习是指广义的网络环境,并不包含与用户个人相关的社交网络环境中的语料数据。由此可见,智能问答数据库中的语料范围很宽泛,而针对用户本身的个性化、定制化的内容却很少,和用户生活的圈子也基本没有关联,因此,对于不同用户提出的同样的问题,智能问答系统就会给出同一个标准答案。这样的答案虽然从一问一答的角度来看是正确的,但是对于提出问题的用户来讲是不够具体的、不贴近用户需求的,这样,智能问答系统最终返回给用户的答案很大程度上并不是该用户最想获得的信息,也就是说,目前的智能问答系统不能很好地针对用户提供推荐信息。
发明内容
为了解决上述技术问题,本发明提供一种信息处理系统及其实现信息处理的方法,能够很好地提供针对用户的推荐信息。
为了达到本发明目的,本发明提供了一种信息处理系统,包括:数据采集单元、学习单元、第一存储单元、收发单元,以及第一信息处理单元;其中,
数据采集单元,用于采集与用户标识ID相关联的信息;
学习单元,用于对采集到的信息进行处理以形成基于用户ID的数据信息并存储在第一存储单元中;
收发单元,用于接收用户提出的问题;将得到的针对用户提出的问题的答案返回给该用户;
第一信息处理单元,用于根据第一存储单元中存储的基于用户ID的数据信息,对获得的用户提出的问题进行预处理,得到针对该用户提出的问题的答案。
可选地,所述与用户标识ID相关联的信息来自于社交网络和/或社交平台;
社交网络包括一个或一个以上,社交平台包括一个或一个以上。
可选地,还包括:
同步单元,用于将需要同步的所述用户提出的问题同步到所述第一存储单元中;调用所述信息处理系统与所述社交网络和/或社交平台的接口,将所述用户提出的问题发布到所述社交网络和/或社交平台上。
可选地,还包括:管理单元,用于配置定时任务,按照定时任务定时触发所述数据采集单元对来自所述社交网络和/或社交平台的数据进行采集。
可选地,所述管理单元还用于:对所述第一存储单元中存储的基于用户ID的数据信息进行管理和维护。
可选地,所述管理单元还用于:对所述第一存储单元中的基于用户ID的数据信息进行增删改查操作。
可选地,所述管理单元还用于:对不同类型的所述基于用户ID的数据信息进行权限设置。
可选地,还包括:第二存储单元,用于存储已有语料信息;
所述第一信息处理单元具体用于:结合所述第一存储单元中存储的基于用户ID的数据信息和第二存储单元中存储的已有语料信息,对获得的所述用户提出的问题进行预处理,得到针对该用户提出的问题的答案。
可选地,所述学习单元包括:生成模块、标注模块、临时元素表;其中,
生成模块,用于根据来自所述数据采集单元的数据生成临时文件;
标注模块,每生成一个临时文件,用于对临时文件进行标注,将标注后的临时文件信息保存在临时元素表中。
可选地,所述学习单元还包括:获取模块、比对模块;其中,
获取模块,用于定时从所述第二存储单元中读取语料信息;
比对模块,用于将临时元素表中的数据和所述获取模块获得的语料信息进行比较,将所述第二存储单元中不存在的临时元素存储到所述第一存储单元中。
可选地,所述第一信息处理单元还用于:根据得到的所述答案的相关信息进行相似度比较,得到得分最高的答案作为所述针对用户提出的问题的答案。
本申请还提供了一种实现信息处理的方法,包括:
采集与用户标识ID相关联的信息;
对采集到的信息进行处理以形成基于用户ID的数据信息并存储;
获取用户提出的问题,根据存储的基于用户ID的数据信息,对获得的用户提出的问题进行预处理,得到针对该用户提出的问题的答案。
可选地,所述与用户标识ID相关联的信息来自于社交网络和/或社交平台;
社交网络包括一个或一个以上,社交平台包括一个或一个以上。
可选地,所述方法还包括:
同步需要同步的所述用户提出的问题并存储;
将所述同步的用户提出的问题发布到所述社交网络和/或社交平台上。
可选地,所述方法还包括:
配置定时任务,按照定时任务定时触发所述采集。
可选地,所述方法还包括:对所述存储的基于用户ID的数据信息进行管理和维护。
可选地,所述方法还包括:对所述存储的基于用户ID的数据信息进行增删改查操作。
可选地,所述方法还包括:对不同类型的所述基于用户ID的数据信息进行权限设置。
可选地,还包括:
存储已有语料信息;
结合存储的基于用户ID的数据信息和存储的已有语料信息,对获得的所述用户提出的问题进行预处理,得到针对该用户提出的问题的答案。
可选地,所述对采集到的信息进行处理以形成基于用户ID的数据信息包括:
根据所述采集到的信息生成临时文件;
每生成一个临时文件,对临时文件进行标注并将标注后的临时文件信息保存在临时元素表中。
可选地,所述方法还包括:
定时读取所述已有语料信息;
比较所述临时元素表中的数据和所述读取的已有语料信息,存储所述读取的已有语料信息中不存在的临时元素。
可选地,所述方法还包括:根据得到的所述答案的相关信息进行相似度比较,得到得分最高的答案作为所述针对用户提出的问题的答案。
本申请又提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一项实现信息处理的方法。
本申请再提供了一种实现信息处理的装置,包括处理器、存储器以及存储在存储器上可在处理器上运行的计算机程序:采集与用户标识ID相关联的信息;对采集到的信息进行处理以形成基于用户ID的数据信息并存储;获取用户提出的问题,根据存储的基于用户ID的数据信息,对获得的用户提出的问题进行预处理,得到针对该用户提出的问题的答案。
本申请还提供了一种信息处理装置,生成模块、标注模块、临时元素表;其中,
生成模块,用于根据采集到的数据生成临时文件;
标注模块,每生成一个临时文件,用于对临时文件进行标注,将标注后的临时文件信息保存在临时元素表中。
可选地,所述学习单元还包括:获取模块、比对模块;其中,
获取模块,用于定时从第二存储单元中读取语料信息;
比对模块,用于将临时元素表中的数据和所述获取模块获得的语料信息进行比较,将第二存储单元中不存在的临时元素存储到第一存储单元中。
本申请又提供了一种实现信息处理的方法,包括:根据采集到的信息生成临时文件;
每生成一个临时文件,对临时文件进行标注并将标注后的临时文件信息保存在临时元素表中。
可选地,所述方法还包括:
定时读取所述已有语料信息;
比较所述临时元素表中的数据和所述读取的已有语料信息,存储所述读取的已有语料信息中不存在的临时元素。
与现有技术相比,本申请技术方案至少包括:采集来自社交网络和/或社交平台的基于用户标识(ID)的数据;对采集到的数据进行处理以形成基于用户ID的数据信息并存储;获取用户提出的问题,根据存储的基于用户ID的数据信息,对获得的用户提出的问题进行预处理,得到针对该用户提出的问题的答案。由于本发明实施例中对基于用户ID的数据进行了采集,分析出了用户的个人喜好,因此,针对用户提出的问题给出的答案会更接近用户想要的答案,对于提出问题的用户来讲是够具体的、更贴近用户需求的,从而更好地提供了针对用户的推荐信息。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请信息处理系统的组成结构示意图;
图2为本申请信息处理系统中学习单元的组成结构示意图;
图3为本申请实现信息处理的方法的流程图;
图4为本申请第一实施例中的组网架构示意图;
图5为本申请第一实施例中实现信息处理的流程示意图;
图6为本申请第二实施例中的组网架构示意图;
图7为本申请第二实施例中实现信息处理的流程示意图;
图8为本申请第三实施例中的组网架构示意图;
图9为本申请第三实施例中实现信息处理的流程示意图;
图10为本申请第四实施例中的组网架构示意图;
图11为本申请第四实施例中实现信息处理的流程示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
以一个用户希望智能问答系统推荐附近好吃的餐馆为例,比如:当用户通过用户界面向智能问答系统提出“推荐个附近好吃的餐馆”的问题时,智能问答系统可以根据用户当前所在位置推荐附近的餐馆;再如:当用户提出“符合我口味的餐馆推荐下”的问题时,智能问答系统可以根据用户当前所在位置推荐附近的餐馆,推荐的餐馆通常是按照点评从高到低的顺序给出的,由于智能问答系统并不知道用户个人喜好的口味,因此,只能按照预先设置好的规则如按照评分高低推荐附近的餐馆,而推荐不出符合用户口味的餐馆。又如:当用户提出“从我家怎么去南京南站”的问题时,用户是想知道从自己家到南京南站的路径,但是智能问答系统只能根据用户当前所在位置给出用户当前所在位置到南京南站的路径。
本申请发明人分析后认为:一般用户自己圈子里的朋友口味相近的可能性会大很多,而且熟识的朋友也会对该用户的工作和生活区域更为了解,如果用户和亲朋好友在社交网络和/或社交平台中讨论过这些话题、共享过位置信息、或者朋友发布过相关的内容,要是基于智能推荐引擎的问答系统能结合这些语料再给出建议和回复,那么,答案会更接近用户想要的答案,对于提出问题的用户来讲是够具体的、更贴近用户需求的,从而能够更好地提供针对用户的推荐信息。
本文中,社交网络强调的是一个公开的网络环境,社交网络中的成员之间的关系是单向的,包括关注与被关注。社交网络中的每个成员发布的信息陌生人都可以看到,粉丝可以设置为被动接收关注对象新发布的内容。常见的社交网络如微博或推特(Twitter)等。社交平台强调的是一个较为封闭的网络环境,社交平台的成员之间的关系是双向的,成员之间一旦加为好友,双方发布的信息相互都可以看到。常见的社交平台如微信或脸书(facebook)等。
图1为本申请信息处理系统的组成结构示意图,如图1所示,至少包括:数据采集单元、学习单元、第一存储单元、收发单元,以及第一信息处理单元;其中,
本申请信息处理系统中的数据采集单元,用于采集与用户ID相关联的信息如来自社交网络和/或社交平台的信息。
本申请信息处理系统中的数据采集单元可以通过第三方社交网络和/或社交平台开放的接口采集来自社交网络和/或社交平台的基于用户标识(ID)的数据。数据包括但不限于:用户登记的个人信息、本人原创的朋友圈信息、帖子、图片、音频、视频、转发的帖子中的任意组合、用户好友或关注人或粉丝原创的朋友圈信息、帖子、图片、音频、视频、转发的帖子中的任意组合、用户本人或好友或关注人或粉丝加入的群组、社区、关注的公众号中存在的帖子、图片、音频、视频中的任意组合。
本申请中与用户ID相关联的数据可以分为两类:静态数据和动态数据。其中,静态数据包括但不限于:用户的性别、职业、工作城市、毕业学校等。动态数据包括但不限于:在某个时间回答了一个问题、给一个回答点赞、发表了一篇文章、在某一回答页面停了多久、评论用了多久等;更深层次的动态数据还可以包括:用户发表的文章、言论等基于内容的、能表达用户思想的数据。
相关技术中提供的语料数据库中并没有涉及与用户ID有关的数据,本发明实施例中对基于用户ID的数据进行了采集,可以分析出用户自身的信息及想法,从而可以为后续给出符合用户个人需求的答案提供依据。
本申请中的社交网络和/或社交平台可以是一个或一个以上对本发明信息处理系统开放了接口的社交网络和/或社交平台,或者是本发明信息处理系统通过网络爬虫或搜索方式获取到的来自社交网络和/或社交平台的信息。
本发明信息处理系统与社交网络和/或社交平台之间可以通过接口IF1交互以获得与用户ID有关的数据。
本申请信息处理系统中的学习单元,用于对采集到的信息进行处理以形成基于用户ID的数据信息,并转换为信息处理系统要求的格式存储在第一存储单元中。
可选地,对采集到的信息进行处理可以包括但不限于:关键词提取、领域分类、相似度计算,以及归一化等机器学习算法处理,形成基于用户ID的数据信息。
图2为本申请信息处理系统中学习单元的组成结构示意图,如图2所示,至少包括:生成模块、标注模块、临时元素表;其中,
生成模块,用于根据来自数据采集单元的数据生成临时文件。
可选地,可以按照预先设置的规则生成临时文件。
数据采集单元是通过接口采集数据的,返回的响应消息中会包含如用户名、发表时间、发表内容等信息,将这些信息形成文件,需要制定生成文件名的规则,比如“用户名+时间戳”,文件内容每行发表一条内容、回车表示另起一行、或者也可用各种标点符号分隔等规则,这些规则都是生成临时文件前设置好的。
标注模块,每生成一个临时文件,用于对临时文件进行标注,将标注后的临时文件信息保存在临时元素表中。
需要说明的是,临时文件被标注后则形成如词、短语、句子之类的元素的临时文件信息,临时元素表中存储的标注后的临时文件指的是这些元素。
可选地,可以采用数据自动标注工具如采用根据历史语料标注记录训练得到的模型,并结合人工审核的方式对临时文本进行标注。其中,数据自动标注工具主要用于对各类数据,如文本、图片、视频实现自动化标注,具体实现并不用于限定本申请的保护范围。自动标注工具的准确率由现有数据训练集的完整度和算法模型共同决定。
进一步地,本申请信息处理系统中学习单元还包括:获取模块、比对模块;其中,
获取模块,用于定时从本申请信息处理系统已有数据库如第二存储单元中读取如FAQ、寒暄语、等价句等各种语料信息。
比对模块,用于将临时元素表中的数据和获取模块获得的已有数据库中的语料信息进行比较,将已有数据库中不存在的临时元素通过管理门户存储到第一存储单元中。
这里,管理人员可以通过管理门户是对临时元素进行审核,审核通过后的临时元素会写入第一存储单元中。
本申请信息处理系统中的收发单元,用于通过如客户端/万维网(WEB)网页/短信/彩信/互动式语音应答(IVR,Interactive Voice Response)方式等接收用户提出的问题;将得到的针对用户提出的问题的答案返回给该用户。
可选地,可以接入各种第三方应用(APP)或微信或网站中,也可以和运营商的短信/彩信/语音中心对接,以获取用户提出的问题。
本发明信息处理系统中第一信息处理单元与第一存储单元之间可以通过接口IF2获取与用户提出的问题对应的答案。
本申请信息处理系统中的第一信息处理单元,用于根据第一存储单元中存储的基于用户ID的数据信息,对获得的用户提出的问题进行敏感词过滤、标准化等预处理,得到针对该用户提出的问题的答案。
可选地,第一信息处理单元还用于:根据得到的答案的相关信息如内容、来源渠道、权限、权重进行相似度比较,得到得分最高且满足本申请信息处理系统预先设置的阈值的答案作为所述针对用户提出的问题的答案。这里强调的是,在相似度的计算过程中考虑到了来源渠道、权限、权重等因素,而如何实现相似度的计算可以采用多种相关技术中的方法来实现,并不用于限定本申请的保护范围。
可选地,本申请信息处理系统还包括同步单元,用于将需要同步的用户提出的问题同步到第一存储单元中,再由第一信息处理单元调用和社交网络和/或社交平台的接口,发布到社交网络和/或社交平台上。如果用户选择将对本申请信息处理系统提出的问题同时发布到社交网络和/或社交平台上,那么,如果本申请信息处理系统对提出的问题没有给出最满意的答案,用户也可能获得社交网络和/或社交平台中亲朋好友给出的解决方案。进一步地,社交网络和/或社交平台中亲朋好友给出的解决方案同样可以被本申请信息处理系统学习到并存储在第一存储单元中,为后续的答案查询提供了补充和完善。
这样,用户的社交圈子里的人就可以给出针对发布出去的问题的建议和回答。后续这些答案将再次被数据采集单元采集并被学习单元学习到。
本发明信息处理系统中同步单元与第一存储单元之间可以通过接口IF3同步用户提出的问题。
举例来看,比如:如果用户通过用户界面向本申请提供的信息处理系统提出的问题包括:推荐个附近好吃的餐馆或者推荐个符合我口味的餐馆;本申请信息处理系统根据该用户在社交网络发表过的帖子或在社交平台和亲朋好友交流过的个人口味的信息,分析出该用户喜欢粤菜,那么,本申请信息处理系统会再结合用户当前的位置信息,给出距离该用户最近且得分较高的粤菜餐馆。再如:如果用户通过用户界面向本申请提供的信息处理系统提出的问题包括:从我家怎么去南京南站;本申请信息处理系统会根据用户在社交网络中早上或晚上等休息时间发表过的位置信息的帖子或在社交平台和亲朋好友交流过的家庭住址、小区信息等,给出从该用户家到南京南站的路径地图。
可选地,本申请信息处理系统还包括:管理单元,用于配置定时任务,按照定时任务定时触发数据采集单元对来自社交网络和/或社交平台的数据进行采集。具体实现中,系统管理员可以通过管理门户配置所述定时任务。
管理单元,除了可以管理通用问答数据库里的语料,还用于:对第一存储单元中存储的基于用户ID的数据信息进行管理和维护,比如:设置基于用户ID的数据信息的权重、和/或设置用户查询基于用户ID的数据信息时的权限、和/或保证用户的隐私安全。具体实现中,系统管理员可以通过管理门户对基于用户ID的数据信息进行管理和维护。
管理单元还用于:对第一存储单元中的基于用户ID的数据信息进行增删改查操作。可选地,系统管理员可以通过管理门户对基于用户ID的数据信息进行增删改查操作。进一步地,系统管理员还可以通过管理门户对不同类型的基于用户ID的数据信息进行权限设置,规定不同的基于用户ID的数据信息的访问权限,如公开、好友可见或只能自己查看等。进一步地,还可以对来源不同、类型不同的基于用户ID的数据信息设置权重,这样,在本申请信息处理系统检索答案以及进行相似度计算时,可以结合权重对多个答案进行排序,从而获得得分最高且满足本申请信息处理系统预先设置的阈值的答案。
可选地,本申请信息处理系统还包括:第二存储单元,用于存储已有语料信息;相应地,
第一信息处理单元,具体用于结合第一存储单元中存储的基于用户ID的数据信息和第二存储单元中存储的已有语料信息,对获得的用户提出的问题进行敏感词过滤、标准化等预处理,得到针对该用户提出的问题的答案。
需要说明的是,第二存储单元和第一存储单元在实现上可以是同一个数据库。
图3为本申请实现信息处理的方法的流程图,如图3所示,包括:
步骤300:采集与用户标识ID相关联的信息如来自社交网络和/或社交平台的基于用户标识(ID)的数据。
本步骤中,采集可以通过第一数据请求消息和第一数据响应消息获取与用户ID有关的数据,其中,第一数据请求消息包括但不限于表1所示的以下字段:
表1
其中,第一数据响应消息包括但不限于表2所示的以下字段:
表2
表2中第一数据响应消息中的发布的数据内容(content)字段中包括如表3所示的以下参数:
表3
第一数据响应消息中的发布的数据内容(content)字段中的地理位置参数中包括如表4所示的以下参数:
表4
步骤301:对采集到的数据进行处理以形成基于用户ID的数据信息并存储。
可选地,本步骤中可以通过机器学习算法的处理并转换为预先要求的格式后形成基于用户ID的数据信息,再存储得到的基于用户ID的数据信息。
可选地,机器学习算法可以包括但不限于:关键词提取、领域分类、相似度计算,以及归一化等机器学习算法处理,形成基于用户ID的数据信息。
可选地,本步骤中存储的基于用户ID的数据信息如语料存储在图1所示的第一存储单元中,包括如表5所示的字段:
表5
可选地,步骤301具体包括:
按照预先设置的规则将采集到的数据生成临时文件;
每生成一个临时文件,对该临时文件进行标注,并将标注后的临时文件信息保存在临时元素表中。
需要说明的是,临时文件被标注后则形成如词、短语、句子之类的元素等的临时文件信息,临时元素表中存储的标注后的临时文件指的是这些元素。
数据采集单元是通过接口采集数据的,返回的响应消息中会包含如用户名、发表时间、发表内容等信息,将这些信息形成文件,需要制定生成文件名的规则,比如“用户名+时间戳”,文件内容每行发表一条内容、回车表示另起一行、或者也可用各种标点符号分隔等规则,这些规则都是生成临时文件前设置好的。
可选地,可以采用数据自动标注工具如采用根据历史语料标注记录训练得到的模型,并结合人工审核的方式对临时文本进行标注。其中,数据自动标注工具主要用于对各类数据,如文本、图片、视频实现自动化标注,具体实现并不用于限定本申请的保护范围。自动标注工具的准确率由现有数据训练集的完整度和算法模型共同决定。
可选地,还包括:
定时从已有数据库如图1中所示的第二存储单元中读取如FAQ、寒暄语、等价句等各种语料信息;
将临时元素表中的数据和获取模块获得的已有数据库中的语料信息进行比较,存储已有数据库中不存在的临时元素。
步骤302:获取用户提出的问题,根据存储的基于用户ID的数据信息,对获得的用户提出的问题进行预处理,得到针对该用户提出的问题的答案。
可选地,可以通过如客户端/万维网(WEB)网页/短信/彩信/互动式语音应答(IVR,Interactive Voice Response)方式等接收用户提出的问题。
可以通过第二数据请求消息和第二数据响应消息获取与用户提出的问题对应的答案,其中,第二数据请求消息包括但不限于表6所示的以下字段:
表6
其中,第二数据响应消息包括但不限于表7所示的以下字段:
参数 | 类型 | 必选 | 描述 |
ResultCode | 整型(int) | 是 | 返回码 |
answerList | answer | 是 | 答案列表 |
表7
表7中第二数据响应消息中的发布的答案列表(answerList)字段中包括如表8所示的以下参数:
表8
可选地,本步骤中的对获得的用户提出的问题进行预处理包括但不限于:对获得的用户提出的问题进行敏感词过滤、标准化等预处理。
本步骤还包括:根据得到的答案的相关信息如内容、来源渠道、权限、权重进行相似度比较,得到得分最高且满足预先设置的阈值的答案,并作为返回提出问题的用户的答案。这里强调的是,在相似度的计算过程中考虑到了来源渠道、权限、权重等因素,而如何实现相似度的计算可以采用多种相关技术中的方法来实现,并不用于限定本申请的保护范围。
本发明图3所示的方法还包括:同步需要同步的用户提出的问题,并发布到社交网络和/或社交平台上。
可选地,社交网络和/或社交平台中亲朋好友针对同步的问题给出的解决方案同样可以被学习到并存储在如图1所示的第一存储单元中,为后续的答案查询提供了补充和完善。
可以通过第三数据请求消息和第三数据响应消息同步用户提出的问题,其中,第三数据请求消息包括但不限于表9所示的以下字段:
参数 | 类型 | 必选 | 描述 |
ID | 字符串(string) | 是 | 问题ID |
UserID | 字符串(string) | 是 | 用户ID |
question | 字符串(string) | 是 | 问题描述 |
questionChannel | 整型(int) | 是 | 问题发布渠道 |
表9
其中,第三数据响应消息包括但不限于表10所示的以下字段:
参数 | 类型 | 必选 | 描述 |
ResultCode | 整型(int) | 是 | 返回码 |
表10
本发明图3所示的方法还包括:
配置定时任务,按照定时任务定时触发对来自社交网络和/或社交平台的数据的采集。具体实现中,系统管理员可以通过管理门户配置所述定时任务。
可选地,还包括:对存储的基于用户ID的数据信息进行管理和维护。比如:设置基于用户ID的数据信息的权重、和/或设置用户查询基于用户ID的数据信息时的权限、和/或保证用户的隐私安全。具体实现中,系统管理员可以通过管理门户对基于用户ID的数据信息进行管理和维护。
可选地,还包括:对存储的基于用户ID的数据信息进行增删改查操作。比如,系统管理员可以通过管理门户对基于用户ID的数据信息进行增删改查操作。进一步地,系统管理员还可以通过管理门户对不同类型的基于用户ID的数据信息进行权限设置,规定不同的基于用户ID的数据信息的访问权限,如公开、好友可见或只能自己查看等。进一步地,还可以对来源不同、类型不同的基于用户ID的数据信息设置权重,这样,在本申请信息处理系统检索答案以及进行相似度计算时,可以结合权重对多个答案进行排序,从而获得得分最高且满足本申请信息处理系统预先设置的阈值的答案。
本发明图3所示的方法还包括:
结合存储的基于用户ID的数据信息和存储的已有语料信息,对获得的用户提出的问题进行如敏感词过滤、标准化等预处理,得到针对该用户提出的问题的答案。
本发明还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行本发明任一项实现信息处理的方法。
本发明还提供了一种实现信息处理的装置,包括处理器、存储器以及存储在存储器上可在处理器上运行的计算机程序:采集与用户标识ID相关联的信息如来自社交网络和/或社交平台的基于用户标识(ID)的信息;对采集到的信息进行处理以形成基于用户ID的数据信息并存储;获取用户提出的问题,根据存储的基于用户ID的数据信息,对获得的用户提出的问题进行预处理,得到针对该用户提出的问题的答案。
下面结合具体实施例对本申请实施例进行详细描述。
第一实施例中,假设信息处理系统为独立于社交网络的语料管理和智能问答系统,语料从某社交网络通过开放的接口获取。
图4为本申请第一实施例中的组网架构示意图,如图4所示,其中的语料管理模块至少包括图1中的管理单元、数据采集单元和学习单元、第一存储单元;其中的逻辑处理模块至少包括图1中的收发单元、第一信息处理单元。图5为本申请第一实施例中实现信息处理的流程示意图,如图5所示,具体包括以下步骤:
步骤500:语料管理模块根据管理员配置的定时任务,定期调用社交网络开放的接口,向社交网络发起获取用户语料请求。
通过用户语料请求以获取用户个人信息、用户本人/关注人/粉丝发布的内容,以及评论内容等,作为系统的语料素材。
步骤501~步骤502:语料管理模块调用语料查询接口IF1,从社交网络查询用户数据。
本实施例中,语料管理模块向社交网络发送如表11所示的第一数据请求消息:
表11
社交网络在收到表11所示的第一数据请求消息后,会向语料管理模块返回如表12所示格式的第一数据响应消息:
表12
表12中的发布的数据内容参数的具体内容如表13所示:
表13
表13中地理位置的具体内容如表14所示:
表14
步骤503:语料管理模块按一定格式将获得的语料素材写入社交语料临时文件,每完成一个临时文件便自动进行语料标注,标注后的数据写入临时元素表。
这样,管理员已设置的定时任务会从已有语料库中读取语料,与临时元素表中的语料进行比对,如果是已有语料库中不存在的新语料,则写入本申请的第一存储单元即社交语料数据库中。
按照管理员预先设置的新语料测试规则,满足规则且分数达标的新语料会自动保存到社交语料数据库中,或者由管理员审核后存入数据库中。保存的数据中携带语料的渠道、权限、权重、生成时间等属性。所有关联在同一个用户ID下的社交语料组成该用户的个人语料数据集。这里,新语料测试规则可以包括但不限于:如选择新词作为关键词,每个新词选择100条用户问句,测试新词加入后对问答准确率的影响。如果准确率满足要求的得分,就将新词加入社交语料数据库中等。
如表11~表14所示的数据,语料管理模块分析出的地理位置关键词是“广州市”、“越秀区”、“北园酒家”,以及“走过这么多地方,最爱的还是家乡的早茶和肠粉”中的关键词“早茶”和“肠粉”,这样,可以联想和推理出关键词“粤菜”、“餐馆”,这里,联想和推到的实现可以通过在系统中预先设置实体词和上位词的包含关系来实现,即实体词属于上位词的子类,这样可以根据实体词如本实施例中的早茶、肠粉查出它们的父类即上位词为粤菜或餐馆。。本实施例中,假设比对后发现已有语料库中该用户不存在这些关键词,并且这些新增关键词符合管理员设置的新语料测试规则,因此,将这些关键词写入社交语料数据库,同时标注关键词属性,比如:渠道为“微博”,权限为“公开”,权重为“70%”,生成时间为“20170603000125”,其中权重可以由管理员根据经验、历史测试数据等人工设置。
步骤504~步骤506:用户打开本申请提供的信息处理系统的交互网页如问答页面,用户可以使用本申请信息处理系统已对接的几种社交网络的个人账号登录,从而根据用户ID获取该用户的用户个人信息和语料数据;也可以让用户通过问答页面注册账号并绑定几种和本申请信息处理系统已对接的社交网络的个人账号。
步骤507:用户在问答页面提出问题。
本实施例中,假设用户不登录问答页面的情况下只能搜索通用渠道的语料即已有的数据信息即本申请中的第二存储单元,用户在登陆后,可以由用户或系统管理员指定搜索范围,比如搜索范围是通用渠道的语料库、或是指定某几个社交网络的语料库、或是全部渠道的语料库等。
上文举例中,比如用户登录后输入问题为:符合我口味的餐馆推荐下?并且指定搜索范围为:通用渠道的语料库+微博渠道的语料库。
步骤508:问答页面向逻辑处理模块发起查询答案请求。
步骤509:逻辑处理模块对问题进行标准化处理去除特殊符号、过滤掉敏感词等预处理。
这里,特殊符号通常指各种标点符号,敏感词指政治、涉黄、赌博、毒品这类词语。敏感词通常指一些设计黄赌毒的词。
步骤510~步骤511:逻辑处理模块对“符合我口味的餐馆推荐下”这个问题,调用自身与语料模块的接口IF2,向语料模块发起查询答案请求;经过等价句查询、同义词替换及查询关键词、查询FAQ等处理后,假设本实施例中查询到若干个答案:
本地值得推荐的川菜餐馆有aaa,bbb,ccc...
本地值得推荐的苏菜餐馆有eee,ffff,ggg...
本地值得推荐的湘菜餐馆有hhh,iii,jjj...
本地值得推荐的粤菜餐馆有xxx,yyy,zzz...
步骤512:语料模块将查询到的若个个问题答案返回给逻辑模块。
步骤513:逻辑处理模块对得到的所有答案进行相似度计算,并结合查询到的渠道、权限、权重等参数,假设得出得分最高的答案为“本地值得推荐的粤菜餐馆有xxx,yyy,zzz...”。
步骤514:逻辑处理模块将答案“本地值得推荐的粤菜餐馆有xxx,yyy,zzz...”返回给问答页面。
步骤515:问答页面将结果展示给用户。
第二实施例中,假设问答页面集成在某社交平台中,语料从社交平台接口获取。
图6为本申请第二实施例中的组网架构示意图,如图6所示,其中的语料管理模块至少包括图1中的管理单元、数据采集单元和学习单元、第一存储单元;其中的逻辑处理模块至少包括图1中的收发单元、第一信息处理单元。图7为本申请第二实施例中实现信息处理的流程示意图,如图5所示,具体包括以下步骤:
步骤700:语料管理模块定期从社交平台数据库同步用户数据。
本步骤中,通过社交平台的内部接口,根据用户ID可以获得该用户的用户个人信息,以及该用户本人和/或好友发布的内容、评论的内容,或者聊天内容等,作为语料素材。
步骤701~步骤702:语料管理模块根据机器学习算法对获取的语料素材进行自学习,并根据管理员预先设置的规则自动触发语料测试,得分答标的语料自动保存到语料管理模块中,或者由管理员审核后保存到语料管理模块中。保存的数据中携带有语料的渠道属性。
步骤703~步骤707:用户登录社交平台。
大致包括:用户登录到社交平台的门户中,门户到数据库中查询用户信息,对用户鉴权,然后在登录响应中返回鉴权结果给用户。
步骤708:用户一键登录集成在社交平台中的问答页面,并通过问答页面提出问题。
步骤709:问答页面将向逻辑处理模块发起查询答案请求。
步骤710:逻辑处理模块对问题进行标准化处理、敏感词过滤等预处理。
步骤711:逻辑处理模块通过接口IF2向语料管理模块发起查询答案请求。
步骤712~步骤713:语料管理模块查询数据库获得问题答案。
步骤714:语料管理模块通过接口IF2将查询结果返回给逻辑处理模块。
步骤715:逻辑处理模块对查询到的所有答案进行相似度计算,并结合查询到的渠道、权限、权重等参数,综合得到得分最高的答案。
步骤716:逻辑处理模块将结果返回给问答页面。
步骤717:问答页面将结果展示给用户。
第三实施例中,假设用户所提出的问题被同步到社交网络,答案被本申请信息处理系统再次学习。
图8为本申请第三实施例中的组网架构示意图,如图8所示,其中的语料管理模块至少包括图1中的管理单元、数据采集单元和学习单元、第一存储单元;其中的逻辑处理模块至少包括图1中的收发单元、第一信息处理单元。图9为本申请第三实施例中实现信息处理的流程示意图,如图9所示,具体包括以下步骤:
步骤900:用户打开本申请信息处理系统的问答网页,可以让用户用本申请信息处理系统已对接的几种社交网络的个人账号登录,从而根据用户ID获取该用户的用户个人信息和语料数据。
也可以让用户在本申请信息处理系统中注册账号,并绑定几种和本申请信息处理系统已对接的社交网络的个人账号。
步骤901:问答页面鉴权账户信息。
步骤902:问答页面通过登录响应将登录结果返回给用户。
步骤903:用户通过问答页面提出问题,问答页面根据用户已关联账号的情况,可以在问答页面下方给出多选列表,用户可以采用如勾选的方式确定是否将问题同步到社交网络。
如果用户未登录本申请信息处理系统或未关联社交网络账号的用户页面,则不会显示多选列表。
步骤904:问答页面保存用户需要同步的问题的同步选项。
步骤905:问答页面向逻辑处理模块发起查询答案请求。
步骤906:逻辑处理模块对问题进行标准化处理、敏感词过滤等预处理。
步骤907:逻辑处理模块调用接口IF2向语料管理模块发起查询答案请求。
步骤908:语料管理模块从语料数据库中查询问题的答案。
步骤909:语料管理模块将查询到的问题的答案(列表)携带在查询答案响应返回给逻辑处理模块。
步骤910:逻辑处理模块对查询到的所有答案进行相似度计算,并结合查询到的渠道、权限、权重等,综合得到得分最高的答案。
步骤911:逻辑处理模块将结果携带在查询答案响应返回给问答页面。
步骤912:问答页面将结果展示给用户。
步骤913:如果用户选择的是同时发布问题到社交网络,那么,本申请信息处理系统将用户想要发布的问题发布到社交网络上;问答页面同步问题给逻辑处理模块。
步骤914:逻辑处理模块调用接口IF3,将问题同步给语料管理模块。
步骤915:语料管理模块通过社交网络开放的第三方接口向社交网络发起问题发布请求。
步骤916:社交网络将发布出用户提出的问题。
步骤917:社交网络通过问题发布响应向语料管理模块返回发布结果。
步骤918~步骤919:语料管理模块将问题同步响应返回给逻辑处理模块,最终返回给问答页面。
步骤920:用户的朋友看到发布的问题后,可以给出评论或私信。
这样,用户同时能得到本申请信息处理系统给出的答案,也能收到自己社交圈子里好友或粉丝给出的评论。
步骤921:本申请信息处理系统的语料管理模块定期调用社交网络开放的第三方接口,同步用户语料,同时也能获得这些评论内容,作为语料素材。
步骤922:社交网络查询用户数据。
步骤923:社交网络将用户数据返回给语料管理模块。
步骤924:语料管理模块根据机器学习算法重新学习这部分内容,并保存到语料数据库中。
如此按照第三实施例的循环,用户个人的语料数据集就能不断地得到修正。这样,当用户再次提出类似或相关的问题时,本申请信息处理系统就有更丰富的语料作为参考,给出更贴近用户需求、准确率更高的答案。
第四实施例,假设语料管理模块应用在本申请信息处理系统中。
图10为本申请第四实施例中的组网架构示意图,如图10所示,其中的语料管理模块至少包括图1中的管理单元、数据采集单元和学习单元、第一存储单元;其中的逻辑处理模块至少包括图1中的收发单元、第一信息处理单元。图11为本申请第四实施例中实现信息处理的流程示意图,如图11所示,具体包括以下步骤:
步骤1100:用户的朋友和用户互动,评论用户发布在社交网络上的帖子。
步骤1101:语料管理模块定期向社交网络发出用户数据查询请求,以获取用户发表的文字,同时获取到这些评论内容,作为语料素材。
步骤1102~步骤1103:社交网络将朋友对用户文字的评论内容返回给语料管理模块。
步骤1104:语料管理模块根据机器学习算法学习这些数据,分析出每个用户的关键词、问题和相应答案等新增语料,并将语料的属性如权限、权重等保存到语料数据库中。
步骤1105:用户打开某对接了本申请信息处理系统的门户网站,并通过本申请信息处理系统已对接的几种社交网络的个人账号登录,从而根据用户ID获取该用户的用户个人信息和语料数据。
用户也可以通过门户网站注册新账号并绑定几种和本申请信息处理系统已对接的社交网络的个人账号。
步骤1106:门户网站调用本申请信息处理系统的相关接口查询数据库对用户进行鉴权。
步骤1107:如果鉴权失败,门户向用户返回登录失败响应;如果鉴权成功,门户向本申请信息处理系统中的逻辑处理模块发起查询用户热点词汇请求。
步骤1108:逻辑处理模块向语料管理模块发起查询用户热点词汇请求。
步骤1109:语料管理模块查询语料数据库,综合打分后按照预先设置的规则将排名靠前的关键词作为用户热点词汇列表。
步骤1110:语料管理模块通过查询用户热点词汇响应向逻辑处理模块返回用户热点词汇列表。
步骤1111:逻辑处理模块根据业务需要综合处理后得到推荐内容列表。
这里,业务需要综合处理主要是指结合推荐网站自己的业务特点,比如购物网站,可能会筛选上一步获取的热点词汇中和日常生活、商品、购物相关的热词等。再如,如果是App下载网站,可能会筛选游戏、娱乐相关的热词等。
步骤1112:逻辑处理模块将推荐内容列表返回给门户。
步骤1113:门户返回登录成功响应并向用户展示推荐内容。
以上所述,仅为本发明的较佳实例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (24)
1.一种信息处理系统,其特征在于,包括:数据采集单元、学习单元、第一存储单元、收发单元,以及第一信息处理单元;其中,
数据采集单元,用于采集与用户标识ID相关联的信息,所述与用户标识ID相关联的信息来自于第三方社交网络和/或社交平台,所述ID相关联的信息通过指定搜索范围确定,所述搜索范围包括至少两种渠道的语料库,所述语料库为通用渠道的语料库或指定社交网络的语料库;
学习单元,用于对采集到的信息进行处理以形成基于用户ID的数据信息并存储在第一存储单元中;
收发单元,用于接收用户提出的问题;将得到的针对用户提出的问题的答案返回给该用户;
第一信息处理单元,用于根据第一存储单元中存储的基于用户ID的数据信息,对获得的用户提出的问题进行预处理,根据用户ID的数据信息分析出用户的信息及想法,以得到针对该用户提出的问题的答案;
第一信息处理单元还用于:根据得到的答案的相关信息进行相似度比较,得到得分最高且满足本申请信息处理系统预先设置的阈值的答案作为所述针对用户提出的问题的答案;所述相关信息包括答案的来源渠道和权重。
2.根据权利要求1所述的信息处理系统,其特征在于,
所述社交网络包括一个或一个以上,所述社交平台包括一个或一个以上。
3.根据权利要求2所述的信息处理系统,其特征在于,还包括:
同步单元,用于将需要同步的所述用户提出的问题同步到所述第一存储单元中;调用所述信息处理系统与所述社交网络和/或社交平台的接口,将所述用户提出的问题发布到所述社交网络和/或社交平台上。
4.根据权利要求2所述的信息处理系统,其特征在于,还包括:管理单元,用于配置定时任务,按照定时任务定时触发所述数据采集单元对来自所述社交网络和/或社交平台的数据进行采集。
5.根据权利要求4所述的信息处理系统,其特征在于,所述管理单元还用于:对所述第一存储单元中存储的基于用户ID的数据信息进行管理和维护。
6.根据权利要求4所述的信息处理系统,其特征在于,所述管理单元还用于:对所述第一存储单元中的基于用户ID的数据信息进行增删改查操作。
7.根据权利要求4所述的信息处理系统,其特征在于,所述管理单元还用于:对不同类型的所述基于用户ID的数据信息进行权限设置。
8.根据权利要求1~4任一项所述的信息处理系统,其特征在于,还包括:第二存储单元,用于存储已有语料信息;
所述第一信息处理单元具体用于:结合所述第一存储单元中存储的基于用户ID的数据信息和第二存储单元中存储的已有语料信息,对获得的所述用户提出的问题进行预处理,得到针对该用户提出的问题的答案。
9.根据权利要求8所述的信息处理系统,其特征在于,所述学习单元包括:生成模块、标注模块、临时元素表;其中,
生成模块,用于根据来自所述数据采集单元的数据生成临时文件;
标注模块,每生成一个临时文件,用于对临时文件进行标注,将标注后的临时文件信息保存在临时元素表中。
10.根据权利要求9所述的信息处理系统,其特征在于,所述学习单元还包括:获取模块、比对模块;其中,
获取模块,用于定时从所述第二存储单元中读取语料信息;
比对模块,用于将临时元素表中的数据和所述获取模块获得的语料信息进行比较,将所述第二存储单元中不存在的临时元素存储到所述第一存储单元中。
11.根据权利要求1~4任一项所述的信息处理系统,其特征在于,所述第一信息处理单元还用于:根据得到的所述答案的相关信息进行相似度比较,得到得分最高的答案作为所述针对用户提出的问题的答案。
12.一种实现信息处理的方法,其特征在于,包括:
采集与用户标识ID相关联的信息,所述与用户标识ID相关联的信息来自于第三方社交网络和/或社交平台,所述ID相关联的信息通过指定搜索范围确定,所述搜索范围包括至少两种渠道的语料库,所述语料库为通用渠道的语料库或指定社交网络的语料库;
对采集到的信息进行处理以形成基于用户ID的数据信息并存储;
获取用户提出的问题,根据存储的基于用户ID的数据信息,对获得的用户提出的问题进行预处理,根据用户ID的数据信息分析出用户的信息及想法,得到针对该用户提出的问题的答案;
根据得到的答案的相关信息进行相似度比较,得到得分最高且满足本申请信息处理系统预先设置的阈值的答案作为所述针对用户提出的问题的答案;所述相关信息包括答案的来源渠道和权重。
13.根据权利要求12所述的方法,其特征在于,所述社交网络包括一个或一个以上,所述社交平台包括一个或一个以上。
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:
同步需要同步的所述用户提出的问题并存储;
将所述同步的用户提出的问题发布到所述社交网络和/或社交平台上。
15.根据权利要求13所述的方法,其特征在于,所述方法还包括:
配置定时任务,按照定时任务定时触发所述采集。
16.根据权利要求15所述的方法,其特征在于,所述方法还包括:对所述存储的基于用户ID的数据信息进行管理和维护。
17.根据权利要求15所述的方法,其特征在于,所述方法还包括:对所述存储的基于用户ID的数据信息进行增删改查操作。
18.根据权利要求15所述的方法,其特征在于,所述方法还包括:对不同类型的所述基于用户ID的数据信息进行权限设置。
19.根据权利要求12~15任一项所述的方法,其特征在于,还包括:
存储已有语料信息;
结合存储的基于用户ID的数据信息和存储的已有语料信息,对获得的所述用户提出的问题进行预处理,得到针对该用户提出的问题的答案。
20.根据权利要求19所述的方法,其特征在于,所述对采集到的信息进行处理以形成基于用户ID的数据信息包括:
根据所述采集到的信息生成临时文件;
每生成一个临时文件,对临时文件进行标注并将标注后的临时文件信息保存在临时元素表中。
21.根据权利要求20所述的方法,其特征在于,所述方法还包括:
定时读取所述已有语料信息;
比较所述临时元素表中的数据和所述读取的已有语料信息,存储所述读取的已有语料信息中不存在的临时元素。
22.根据权利要求12~15任一项所述的方法,其特征在于,所述方法还包括:根据得到的所述答案的相关信息进行相似度比较,得到得分最高的答案作为所述针对用户提出的问题的答案。
23.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求12~权利要求22任一项实现信息处理的方法。
24.一种实现信息处理的装置,包括处理器、存储器以及存储在存储器上可在处理器上运行的计算机程序:采集与用户标识ID相关联的信息,所述与用户标识ID相关联的信息来自于第三方社交网络和/或社交平台,所述ID相关联的信息通过指定搜索范围确定,所述搜索范围包括至少两种渠道的语料库,所述语料库为通用渠道的语料库或指定社交网络的语料库;对采集到的信息进行处理以形成基于用户ID的数据信息并存储;获取用户提出的问题,根据存储的基于用户ID的数据信息,对获得的用户提出的问题进行预处理,根据用户ID的数据信息分析出用户的信息及想法,得到针对该用户提出的问题的答案;根据得到的答案的相关信息进行相似度比较,得到得分最高且满足本申请信息处理系统预先设置的阈值的答案作为所述针对用户提出的问题的答案;所述相关信息包括答案的来源渠道和权重。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711010979.0A CN107992513B (zh) | 2017-10-25 | 2017-10-25 | 一种信息处理系统及其实现信息处理的方法 |
PCT/CN2018/111962 WO2019080910A1 (zh) | 2017-10-25 | 2018-10-25 | 一种信息处理系统及其实现信息处理的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711010979.0A CN107992513B (zh) | 2017-10-25 | 2017-10-25 | 一种信息处理系统及其实现信息处理的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107992513A CN107992513A (zh) | 2018-05-04 |
CN107992513B true CN107992513B (zh) | 2021-07-13 |
Family
ID=62030034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711010979.0A Active CN107992513B (zh) | 2017-10-25 | 2017-10-25 | 一种信息处理系统及其实现信息处理的方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN107992513B (zh) |
WO (1) | WO2019080910A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992513B (zh) * | 2017-10-25 | 2021-07-13 | 中兴通讯股份有限公司 | 一种信息处理系统及其实现信息处理的方法 |
CN109241456A (zh) * | 2018-09-13 | 2019-01-18 | 上海宇佑船舶科技有限公司 | 地点推荐方法、装置及服务器 |
CN109815324A (zh) * | 2019-01-10 | 2019-05-28 | 平安科技(深圳)有限公司 | 校园信息的查询方法、装置、计算机设备和存储介质 |
CN111488738B (zh) * | 2019-01-25 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 非法信息的识别方法、装置 |
CN110347818B (zh) * | 2019-07-18 | 2022-03-25 | 广州虎牙科技有限公司 | 分词统计方法、装置、电子设备及计算机可读存储介质 |
CN111192155A (zh) * | 2019-12-25 | 2020-05-22 | 杭州龙席网络科技股份有限公司 | 一种基于saas的社媒询盘识别及推荐方法 |
CN111488500B (zh) * | 2020-03-19 | 2023-12-12 | 华南师范大学 | 一种医学问题信息处理方法、装置和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982076A (zh) * | 2012-10-30 | 2013-03-20 | 新华通讯社 | 基于语义标签库的多维度内容标注方法 |
CN106897334A (zh) * | 2016-06-24 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 一种问题推送方法和设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101232468A (zh) * | 2008-02-28 | 2008-07-30 | 黄伟才 | 问答方法及问答系统 |
US20140142920A1 (en) * | 2008-08-13 | 2014-05-22 | International Business Machines Corporation | Method and apparatus for Utilizing Structural Information in Semi-Structured Documents to Generate Candidates for Question Answering Systems |
CN103279528A (zh) * | 2013-05-31 | 2013-09-04 | 俞志晨 | 一种基于人机结合的问答系统及方法 |
CN103823844B (zh) * | 2014-01-26 | 2017-02-15 | 北京邮电大学 | 社区问答服务中基于主客观上下文的问题转发系统和方法 |
CN105843897B (zh) * | 2016-03-23 | 2019-03-26 | 青岛海尔软件有限公司 | 一种面向垂直领域的智能问答系统 |
CN107992513B (zh) * | 2017-10-25 | 2021-07-13 | 中兴通讯股份有限公司 | 一种信息处理系统及其实现信息处理的方法 |
-
2017
- 2017-10-25 CN CN201711010979.0A patent/CN107992513B/zh active Active
-
2018
- 2018-10-25 WO PCT/CN2018/111962 patent/WO2019080910A1/zh active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102982076A (zh) * | 2012-10-30 | 2013-03-20 | 新华通讯社 | 基于语义标签库的多维度内容标注方法 |
CN106897334A (zh) * | 2016-06-24 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 一种问题推送方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107992513A (zh) | 2018-05-04 |
WO2019080910A1 (zh) | 2019-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107992513B (zh) | 一种信息处理系统及其实现信息处理的方法 | |
US9710518B2 (en) | Method and system for semantic search against a document collection | |
US10223465B2 (en) | Customizable, real time intelligence channel | |
US20190108273A1 (en) | Data Processing Method, Apparatus and Electronic Device | |
KR101605430B1 (ko) | 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법 | |
US9443007B2 (en) | Tools and techniques for extracting knowledge from unstructured data retrieved from personal data sources | |
US11288331B2 (en) | Selective presentation of content types and sources in search | |
US11675824B2 (en) | Method and system for entity extraction and disambiguation | |
US20140344261A1 (en) | Method and system for analyzing a request | |
US20140143241A1 (en) | Internet news platform and related social network | |
US20090106307A1 (en) | System of a knowledge management and networking environment and method for providing advanced functions therefor | |
US10621181B2 (en) | System and method for screening social media content | |
US20120016661A1 (en) | System, method and device for intelligent textual conversation system | |
US11080287B2 (en) | Methods, systems and techniques for ranking blended content retrieved from multiple disparate content sources | |
CN102483756A (zh) | 使用社区交流的语义分析的助理顾问 | |
US20090100032A1 (en) | Method and system for creation of user/guide profile in a human-aided search system | |
CN106921795B (zh) | 一种联系人数据管理方法及其系统 | |
US20060248160A1 (en) | Facilitation of online discussion | |
EP3667586A1 (en) | Electronic communication system with drafting assistant and method of using same | |
US11232522B2 (en) | Methods, systems and techniques for blending online content from multiple disparate content sources including a personal content source or a semi-personal content source | |
Knight et al. | CANELC: Constructing an e-language corpus | |
CN106789559A (zh) | 用于微信公众平台的信息处理方法、装置、及系统 | |
US11836169B2 (en) | Methods, systems and techniques for providing search query suggestions based on non-personal data and user personal data according to availability of user personal data | |
KR20200049256A (ko) | 인공지능 챗봇을 기반으로 한 대화형 의료서비스 제공 시스템 | |
CN105893396B (zh) | 基于附近位置来解释用户查询 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |