CN108446333B - 一种大数据文本挖掘处理系统及其方法 - Google Patents

一种大数据文本挖掘处理系统及其方法 Download PDF

Info

Publication number
CN108446333B
CN108446333B CN201810154185.XA CN201810154185A CN108446333B CN 108446333 B CN108446333 B CN 108446333B CN 201810154185 A CN201810154185 A CN 201810154185A CN 108446333 B CN108446333 B CN 108446333B
Authority
CN
China
Prior art keywords
text
text data
chain
data unit
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810154185.XA
Other languages
English (en)
Other versions
CN108446333A (zh
Inventor
寇毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kou Yi
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201810154185.XA priority Critical patent/CN108446333B/zh
Publication of CN108446333A publication Critical patent/CN108446333A/zh
Application granted granted Critical
Publication of CN108446333B publication Critical patent/CN108446333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明提供了一种大数据文本挖掘处理系统及其方法,本发明可以应用于搜索引擎、社交网络、即时通信、新闻资讯站点、电子商务、休闲娱乐应用等互联网服务平台,首先获取海量用户浏览、交流、分享、搜索、下载等行为关联的文本大数据,对文本大数据执行数据清理、分词、去停用词等预处理,并且基于用户行为机制,将关键词、长文本、短文本等各种形态的文本数据聚合为文本链,针对文本链执行权重动态分配基础上的特征提取,根据提取的文本链特征实现挖掘分析。

Description

一种大数据文本挖掘处理系统及其方法
技术领域
本发明涉及大数据信息处理与分析领域,具体为一种大数据文本挖掘处理系统及其方法。
背景技术
近年来,随着网络通信和计算机技术的发展进步,信息系统对数据的存储、传输、计算能力跨越式增长,使“大数据时代”成为了现实。文本大数据是大数据信息当中非常重要的组成部分。文本大数据信息是在搜索引擎、社交网络、即时通信、新闻资讯站点、电子商务、休闲娱乐应用等各种信息平台上海量存在的以文本作为表现形式的数据信息。通过文本大数据挖掘从文本分散的信息中获得有价值的规律性信息。
所谓文本大数据挖掘,是以文本大数据为对象,利用适当的信息挖掘和分析手段,获得文本关键词、文本分类、文本聚类等文本中潜在蕴含的规律性结果。文本大数据挖掘主要包括以下步骤:文本预处理、文本特征提取以及文本特征分析。文本预处理具体包括文本大数据的获取、文本数据清洗、文本分词与去停用词;文本大数据的获取可以利用网页爬虫等工具从各种信息平台提取并汇集文本大数据;文本数据清洗包括对内容相同的文本进行去重或者合并、滤除网页等载体当中的HTML标记或者图片等非文本字符、统一ASCII、unicode等文本编码格式等;文本分词是将整句、整段乃至整篇的文本分隔为一个一个独立的单词,特别是由于中文不像英文那样利用空格来分隔每一个单词,因此要借助字典树匹配等方法实现分词;去停用词是针对分词处理之后的文本,从分词形成的全部独立单词当中去除无分析价值的单词,例如“的”、“地”、“得”、“着”等,这些无分析价值的单词就是停用词,一般通过引用停用词表实现去停用词。文本特征提取是通过统计单词词频的方式,针对预处理之后的文本,从中提炼出最具有代表性的单词,并且利用这些单词的词频生成特征向量,用以代表该文本的内容。进而,文本特征分析即是利用所提取的文本特征向量,代入分析模型进行分析,从而实现文本关键词提取、文本分类、文本聚类等。现有的文本挖掘偏重于依靠面向文本内容本身的计算和分析实现有价值信息的挖掘,其挖掘结果能够相对准确描述文本内容的语义内核,因此其结果能够比较好地适用于对文本的分类、标记等方面。
然而,当运用于搜索引擎、社交网络、即时通信、新闻资讯站点、电子商务、休闲娱乐应用等互联网服务场景下,需要围绕用户为中心实现文本大数据的分析。也就是说,对文本大数据的分析,不仅仅是面向文本的语义内容本身,还需要结合用户对文本内容进行浏览、交流、分享、搜索、下载等操作,使文本大数据挖掘与用户关注的内核相互匹配。现有的文本大数据挖掘技术不能以特定用户为中心,对特定用户关注的内核进行有效提取和表示。
现有技术的缺陷表现在以下方面:首先,不能适应面向特定用户的多样化文本形态的挖掘分析,随着网络平台与服务的多样化,特定用户相关的文本大数据的形态愈加丰富,包括关键词、标签等离散形态的文本,也包括论文、博客、新闻报道、网站帖子等整篇文章形式的长文本,还包括微博评论、朋友圈留言等由寥寥几句话组成的短文本,也就是说,与特定用户相关的文本大数据是多样化形态的文本数据的集合体,而现有的文本大数据挖掘分析方法难以对包含多样化形态的文本数据集合实现统一有效的语义特征挖掘,特别是现有文本挖掘分析方法主要适用于长文本,对于用户生成的短文本和关键词文本就难以展开有效挖掘。其次,现有文本挖掘分析方法所提取的是文本中代表性单词的分布特征,往往不能良好匹配并描述出用户对于文本表现出来的关注与兴趣方面的特征,例如用户浏览了某个网页的一篇文章,但是其关注与兴趣并不一定是被确定为该文章特征的代表性内容,而可能只是该文章某些非代表性的局部细节,因此孤立性展开文本挖掘常常会偏离用户兴趣的真正所在。第三,用户对文本内容进行浏览、交流、分享、搜索、下载等行为与文本内容本身兼具宏观上的关联性以及一定的随意性,大数据挖掘过程中需要排除用户针对文本数据的一些随意性行为的干扰。
发明内容
(一)解决的技术问题
针对现有技术的上述需求,本发明提供了一种大数据文本挖掘处理系统及其方法,本发明可以应用于搜索引擎、社交网络、即时通信、新闻资讯站点、电子商务、休闲娱乐应用等互联网服务平台,首先获取海量用户浏览、交流、分享、搜索、下载等行为关联的文本大数据,对文本大数据执行数据清理、分词、去停用词等预处理,并且基于用户行为机制,将关键词、长文本、短文本等各种形态的文本数据聚合为文本链,针对文本链执行权重动态分配基础上的特征提取,根据提取的文本链特征实现挖掘分析。
(二)技术方案
本发明涉及一种大数据文本挖掘处理系统,其特征在于,包括:文本大数据获取模块、文本预处理模块、文本链聚合模块、权重评估模块、文本链特征向量提取模块、文本特征分析模块;
所述文本大数据获取模块用于从至少一个数据源获取文本数据;
所述文本预处理模块对从文本大数据获取模块取得的所述文本数据执行预处理,生成作为挖掘处理对象的文本数据单元;所述预处理包括数据清洗处理、文本分词处理和去停用词处理中的至少一种;
所述文本链聚合模块用于通过用户平台接口获得用户针对所述文本数据的操作行为;并且基于所述操作行为确定文本数据之间的关联性,进而将关联性量化为累积值;根据关联性的累积值,将文本数据聚合为文本链;
权重评估模块,用于针对文本链当中的文本数据单元,确定每个文本数据单元在该文本链中的特征权重;
所述文本链特征向量提取模块,用于针对所述文本链,根据其中文本数据单元的量化特征以及特征权重,生成表示该文本链的特征向量;
所述文本特征分析模块用于利用所述文本链的特征向量,执行针对文本链的文本特征分析。
优选的是,所述文本预处理模块包括:数据清洗子模块,用于对从数据源抽取的原始状态的文本数据执行文本数据清洗处理;分词处理子模块,用于对清洗后的文本数据进行文本分词,将文本数据分隔为单词;去停用词处理子模块用于从文本数据分词获得的单词中滤除停用词,经滤除之后保留下来的单词作为文本数据单元。
优选的是,所述文本链聚合模块包括:关联性识别子模块,用于通过所述用户平台接口取得任何用户的操作行为以及行为对象,并且根据行为对象的标识符,查询行为对象相应的文本数据单元,基于用户各个操作行为的关联性,初步识别文本数据之间的关联性;关联性累积子模块,用于追踪记录所述初步识别的文本数据之间关联性的累积值;文本链确定子模块,用于根据关联性累积子模块追踪记录的累积值,判断由关联性识别子模块初步识别的文本数据之间的关联性的累积值是否高于预设的一个确定阈值,如果高于该确定阈值则建立文本链。
优选的是,所述权重评估模块基于文本数据单元本身的类型属性以及其在文本链当中的位置,确定文本数据单元的特征权重。
优选的是,文本链特征向量提取模块针对所述文本链,统计其中每个文本数据单元经过TF-IDF处理之后的词频,作为该文本数据单元的量化特征值,再利用所述特征权重,对每个文本数据单元的量化特征值进行修正,将修正后的文本数据单元及其量化特征值组成表示该文本链的空间特征向量。
本发明提供了一种大数据文本挖掘处理方法,其特征在于,包括:
文本大数据获取步骤,从至少一个数据源获取文本数据;
文本预处理步骤,对取得的所述文本数据执行预处理,生成作为挖掘处理对象的文本数据单元;所述预处理包括数据清洗处理、文本分词处理和去停用词处理中的至少一种;
文本链聚合步骤,获得用户针对所述文本数据的操作行为;并且基于所述操作行为确定文本数据之间的关联性,进而将关联性量化为累积值;根据关联性的累积值,将文本数据聚合为文本链;
权重评估步骤,针对文本链当中的文本数据单元,确定每个文本数据单元在该文本链中的特征权重;
文本链特征向量提取步骤,用于针对所述文本链,根据其中文本数据单元的量化特征以及特征权重,生成表示该文本链的特征向量;
文本特征分析步骤,用于利用所述文本链的特征向量,执行针对文本链的文本特征分析。
优选的是,所述文本预处理步骤包括:数据清洗子步骤,用于对从数据源抽取的原始状态的文本数据执行文本数据清洗处理;分词处理子步骤,用于对清洗后的文本数据进行文本分词,将文本数据分隔为单词;去停用词处理子步骤用于从文本数据分词获得的单词中滤除停用词,经滤除之后保留下来的单词作为文本数据单元。
优选的是,所述文本链聚合步骤包括:关联性识别子步骤,用于通过所述用户平台接口取得任何用户的操作行为以及行为对象,并且根据行为对象的标识符,查询行为对象相应的文本数据单元,基于用户各个操作行为的关联性,初步识别文本数据之间的关联性;关联性累积子步骤,用于追踪记录所述初步识别的文本数据之间关联性的累积值;文本链确定子步骤,用于根据关联性累积子步骤追踪记录的累积值,判断由关联性识别子步骤初步识别的文本数据之间的关联性的累积值是否高于预设的一个确定阈值,如果高于该确定阈值则建立文本链。
优选的是,所述权重评估步骤基于文本数据单元本身的类型属性以及其在文本链当中的位置,确定文本数据单元的特征权重。
优选的是,文本链特征向量提取步骤针对所述文本链,统计其中每个文本数据单元经过TF-IDF处理之后的词频,作为该文本数据单元的量化特征值,再利用所述特征权重,对每个文本数据单元的量化特征值进行修正,将修正后的文本数据单元及其量化特征值组成表示该文本链的空间特征向量。
(三)有益效果
与现有技术相比,本发明提供具备以下有益效果:本发明的大数据文本挖掘处理系统及其方法适应以用户关注为内核的信息挖掘,结果可以反映用户偏好、关注趋势与热度等规律,进而可以实现对用户需求的合理预测、有针对性的文本内容优化、目标精确的消息及广告推送等应用场景,最终个性化地改善文本可读性、信息服务和用户体验。
附图说明
图1为本发明所述大数据文本挖掘处理系统整体结构示意图;
图2为本发明所述文本预处理模块的具体结构示意图;
图3为本发明所述文本链聚合模块具体结构示意图;
图4为本发明形成的文本数据关联链条示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明所述大数据文本挖掘处理系统整体结构示意图。本系统整体架构包括:文本大数据获取模块101、文本预处理模块102、文本链聚合模块103、权重评估模块104、文本链特征向量提取模块105、文本特征分析模块106。
其中,所述文本大数据获取模块101用于从至少一个数据源获取文本数据。提供文本数据的数据源可以是搜索引擎、社交网络、即时通信、新闻资讯站点、电子商务、休闲娱乐应用等提供各种互联网服务的信息平台,以上信息平台提供的文本数据可以包括:网页页面登载的新闻、文章、帖子、博客等长文本,微博评论、朋友圈留言、产品说明等短文本,以及搜索引擎输入的关键词、对产品、多媒体、新闻添加的标签等关键词形态的文本。文本大数据获取模块101可以通过网络爬虫应用从数据源的页面抽取文本数据,也可以利用作为数据源的各个信息平台在其后台提供的大数据接口,直接从后台获取各个形态的文本数据。
所述文本预处理模块102对从文本大数据获取模块101取得的所述文本数据执行预处理,生成作为挖掘处理对象的文本数据单元。文本预处理模块102所执行的预处理包括数据清洗处理、文本分词处理和去停用词处理中的至少一种。如图2所示,所述文本预处理模块102包括:数据清洗子模块102A、分词处理子模块102B、去停用词处理子模块102C。对于通过文本大数据获取模块101从各个数据源抽取的文本数据,数据清洗子模块102A对原始状态的文本数据执行文本数据清洗处理,包括:对内容相同的文本进行去重或者合并、滤除网页等载体当中的HTML标记或者图片等非文本字符、统一ASCII、unicode等文本编码格式。分词处理子模块102B对清洗后的文本数据进行文本分词,从而将文本数据分隔为一个一个独立的单词;分词处理子模块102B可以基于预先构造并存储的字典树,运用正向最大匹配、反向最大匹配、双向最大匹配、最短路径算法等算法规则,对文本数据实现分词。去停用词处理子模块102C针对分词处理之后的文本执行去停用词处理,从分词形成的全部独立单词当中去除无分析价值的单词,例如“的”、“地”、“得”、“着”等,这些无分析价值的单词就是停用词;去停用词处理子模块102C通过引用停用词表,将分词后的所有单词与停用词表比较,匹配的则作为停用词滤除,从而实现去停用词,经过去停用词处理之后保留下来的单词作为挖掘处理对象的文本数据单元,由文本预处理模块102输出,进行后续处理。文本预处理模块102可以建立文本单元数据库,用于存储输出的文本数据单元。
所述文本链聚合模块103用于通过用户平台接口获得用户针对所述文本数据的操作行为;并且基于所述操作行为确定文本数据之间的关联性,进而将关联性量化为累积值;根据关联性的累积值,将文本数据聚合为文本链。用户在上述搜索引擎、社交网络、即时通信、新闻资讯站点、电子商务、休闲娱乐应用等信息平台上针对任何一个文本数据的操作行为都会被该信息平台的后台记录下来,包括但不限于,用户在搜索引擎上输入关键词文本以便进行搜索,以及用户通过点击搜索引擎提供的搜索结果链接而进入某个网页,对网页记载的文本进行浏览;用户在微博、朋友圈等社交媒体对记载某个文本内容的网页的链接进行转发、分享,或者在社交媒体发表文本内容;用户通过记载某个文本内容的交互网页提供的评论功能进行评论文本输入等。上述信息平台的后台记录用户的操作行为,并且将用户操作行为与作为这些行为对象的搜索式记录、网页链接、标识社交媒体或者交互网页输入内容的内容ID等行为对象标识符共同进行登记。所述文本链聚合模块103通过用户平台接口与信息平台的后台进行通信,获得以上操作行为及其行为对象。如图3所示,文本链聚合模块103包括关联性识别子模块103A、关联性累积子模块103B、文本链确定子模块103C。关联性识别子模块103A通过所述用户平台接口取得操作行为以及行为对象,并且根据行为对象的标识符,向文本预处理模块102查询行为对象相应的文本数据单元;例如,用户浏览了某个网页记载的文本内容,则关联性识别子模块103A可以根据该网页的网页链接URL,向文本预处理模块102查询获得该网页文本内容经过所述预处理之后的文本数据单元;类似,关联性识别子模块103A也可以利用行为对象标识符,查询获得用户进行关键词搜索、社交媒体共享、交互网页评论等操作对应的关键词文本、短文本等文本数据经过文本预处理模块102预处理之后产生的文本数据单元。关联性识别子模块103A进而基于用户各个操作行为的关联性,初步识别文本数据之间的关联性。例如,某用户在某个搜索引擎当中输入关键词文本“Messi”进行搜索,对于搜索引擎提供的搜索结果网页链接,该用户对其中“梅西获得本年度世界足球先生”、“梅西本赛季最佳进球”、“球星梅西代言XX品牌足球鞋”三个网页链接进行了浏览,针对“梅西本赛季最佳进球”该网页输入了评论“梅西这个进球真精彩,世界波”,并且将该网页与评论微博或者朋友圈进行分享。则关联性识别子模块103A可以根据网页链接之间的跳转,识别该用户的这一系列操作行为的关联,并且查询获得以上关键词“Messi”、三个网页的网页内容、用户评论这些文本数据经过文本预处理模块102预处理之后相应的文本数据单元,识别这些文本数据单元之间的关联性。依次类推,关联性识别子模块103A根据每一个用户的操作行为及其行为对象的关联,可以将不同信息平台上的各个形态的文本数据初步聚合为一个相互关联的复杂链条系,比如另一个用户也输入了关键词“Messi”,并且根据该关键词对其它的网页链接进行了浏览、评论以及分享,或者某一个其他用户也浏览了“梅西本赛季最佳进球”这一网页并输入了其他内容的评论,则关联性识别子模块103A识别各个用户上述操作行为及其行为对象之间的相互关联,将全部这些行为对象的文本数据聚合为如图4所示的关联链条,这一聚合是基于追踪分析海量用户的行为关联而实现的,因此相对于现有技术单纯依靠文本特征词的分布相似或者搜索引擎算法的命中率来聚合文本拥有更强的针对性,对用户关注兴趣分布及其动态变化具有更良好的适应性。用户对文本内容的操作行为与文本内容本身兼具宏观上的关联性以及一定的随意性,因此,对于关联性识别子模块103A初步识别的文本数据之间的关联链条,由关联性累积子模块103B追踪记录文本数据之间关联性的累积值;每当某个用户的操作行为及行为对象之间的关联性与由关联性识别子模块103A初步识别的文本数据之间的关联链条相匹配,则增加该文本数据之间的关联链条的累积值。例如,上面的例子中,建立了关键词文本“Messi”与网页链接“梅西本赛季最佳进球”的文本数据之间的关联性,则给该关联链条赋予一个初始的累积值;此后,每当有用户以同样的关键词文本“Messi”进行搜索并同样浏览了该网页,则基于用户操作行为及其行为对象,对关键词文本“Messi”与网页链接“梅西本赛季最佳进球”的文本数据之间的关联性的累积值增加一个单位。文本链确定子模块103C根据关联性累积子模块103B追踪的累积值,判断由关联性识别子模块103A初步识别的文本数据之间的关联链条的累积值是否高于预设的一个确定阈值,如果高于该确定阈值则在该文本数据之间确定具有稳定的文本链;从而,文本链确定子模块103C将初步识别的文本数据关联性过滤汇集为稳定的文本链,将文本链确定子模块103C确定的文本链作为后续文本挖掘的基础数据。
权重评估模块104,用于针对文本链当中的文本数据单元,确定每个文本数据单元在该文本链中的特征权重。权重评估模块104基于文本数据单元本身的类型属性以及其在文本链当中的位置,确定文本数据单元的特征权重。将权重评估模块104根据类型属性为每个文本数据单元确定的权重值表示为Wt,将权重评估模块104根据文本数据单元在文本链当中的位置确定的权重值表示为Wp。在类型属性方面,权重评估模块104按照关键词型文本权重最大、短文本权重次之、长文本权重最低的规则,预设每一类型的文本数据单元的特征权重值Wt。同时,针对任意一个被确定的文本链,权重评估模块104根据文本数据单元在该文本链当中所在的位置,越靠近文本链根部的文本数据单元的特征权重值越高Wp,反之,越靠近文本链末梢的文本数据单元的特征权重值Wp越低。例如,上文中由关键词文本“Messi”、网页“梅西本赛季最佳进球”和评论“梅西这个进球真精彩,世界波”形成的文本链,则其中关键词文本“Messi”属于根部,其特征权重最高;反之,评论文本获得的文本数据单元所占特征权重最低。将由文本数据单元本身的类型属性决定的特征权重值Wt和由文本在文本链当中的位置确定的特征权重值Wp二者进行加权平均,获得最终的针对文本链当中的文本数据单元的特征权重值W=(1-α)Wt+αWp,其中α为预先设置的加权系数,可以根据不同挖掘场景中对文本数据类型与文本链位置二者的偏重而决定加权系数的取值。
所述文本链特征向量提取模块105,用于针对所述文本链,根据其中文本数据单元的量化特征以及特征权重,生成表示该文本链的特征向量。由所述文本链聚合模块103形成的每个文本链均是聚合了大量长文本、短文本、关键词文本等文本数据的文本数据单元的集合体。其中作为文本数据单元的单词可以在一定程度上表征该文本链,对每个文本数据单元对该文本链的代表性程度的度量依据该单词的词频来实现,在作为文本链的文本集合当中,某个单词的词频越高,则一般认为其越能够代表本文本链,反之,词频越低,则越不能代表该文本链,例如上面的例子当中“梅西”的出现词频就高于其它词,因此可以将文本数据单元的单词的词频作为表示该文本链的量化特征。当然,基于词频统计的量化需要考虑反文档概率问题,因为任何语言中都存在一些非常常见的单词,常见到每一段任何内容的文本中这些常见单词都存在不低的词频。针对以上反文档概率的问题,可以利用TF-IDF方法(Term Frequency-Inverse Document Frequency),计算IDF值,对统计获得的词频利用IDF值进行修正处理。因此,本发明中,所述文本链特征向量提取模块105针对所述文本链,统计其中每个文本数据单元经过TF-IDF处理之后的词频TFIDF,作为该文本数据单元的量化特征值,再利用前面介绍的特征权重W,对每个文本数据单元的量化特征值继续进行修正,计算TFIDF W,将修正后的文本数据单元及其量化特征值TFIDF W组成表示该文本链的空间特征向量。
所述文本特征分析模块106用于利用所述文本链的特征向量,执行针对文本链的文本特征分析。文本特征分析模块106利用文本链的特征向量,可以进行的文本特征分析包括聚类分析、分类分析等。例如,可以针对不同的文本链,利用各自的特征向量进行聚类,信息平台可以根据聚类结果向用户推送属于同类文本链的文本内容。
从而,本发明的大数据文本挖掘处理系统及其方法适应以用户关注为内核的信息挖掘,结果可以反映用户偏好、关注趋势与热度等规律,进而可以实现对用户需求的合理预测、有针对性的文本内容优化、目标精确的消息及广告推送等应用场景,最终个性化地改善文本可读性、信息服务和用户体验。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种大数据文本挖掘处理系统,其特征在于,包括:文本大数据获取模块、文本预处理模块、文本链聚合模块、权重评估模块、文本链特征向量提取模块、文本特征分析模块;
所述文本大数据获取模块用于从至少一个数据源获取文本数据;
所述文本预处理模块对从文本大数据获取模块取得的所述文本数据执行预处理,生成作为挖掘处理对象的文本数据单元;所述预处理包括数据清洗处理、文本分词处理和去停用词处理中的至少一种;
所述文本链聚合模块用于通过用户平台接口获得用户针对所述文本数据的操作行为;并且基于所述操作行为确定文本数据之间的关联性,进而将关联性量化为累积值;根据关联性的累积值,将文本数据聚合为文本链;其中,用户针对所述文本数据的操作行为包括:用户在搜索引擎上输入作为关键词的文本数据以便进行搜索,以及用户通过点击搜索引擎提供的搜索结果链接而进入某个网页,对网页记载的文本进行浏览;用户在社交媒体对记载某个文本数据的网页的链接进行转发或分享,或者在社交媒体发表文本数据;用户通过记载某个文本数据的交互网页提供的评论功能进行评论文本输入;所述文本链聚合模块通过用户平台接口与信息平台的后台进行通信,获得以上操作行为及其行为对象;
权重评估模块,用于针对文本链当中的文本数据单元,基于文本数据单元本身的类型属性以及其在文本链当中的位置,确定每个文本数据单元在该文本链中的特征权重;其中,所述权重评估模块根据类型属性为每个文本数据单元确定的权重值表示为Wt,并且按照关键词型文本权重最大、短文本权重次之、长文本权重最低的规则,预设每一类型的文本数据单元的特征权重值Wt;所述权重评估模块根据文本数据单元在文本链当中的位置确定的权重值表示为Wp,并且根据文本数据单元在该文本链当中所在的位置,越靠近文本链根部的文本数据单元的特征权重值越高Wp,反之,越靠近文本链末梢的文本数据单元的特征权重值Wp越低;所述权重评估模块将由文本数据单元本身的类型属性决定的特征权重值Wt和由文本在文本链当中的位置确定的特征权重值Wp二者进行加权平均,获得最终的针对文本链当中的文本数据单元的特征权重值W=(1-α)*Wt+α*Wp,其中α为预先设置的加权系数,根据不同挖掘场景中对文本数据类型与文本链位置二者的偏重而决定加权系数的取值;
所述文本链特征向量提取模块,用于针对所述文本链,根据其中文本数据单元的量化特征以及特征权重,生成表示该文本链的特征向量;其中,文本链特征向量提取模块针对所述文本链,统计其中每个文本数据单元经过TF-IDF处理之后的词频,作为该文本数据单元的量化特征值,再利用所述特征权重,对每个文本数据单元的量化特征值进行修正,将修正后的文本数据单元及其量化特征值组成表示该文本链的空间特征向量;
所述文本特征分析模块用于利用所述文本链的特征向量,执行针对文本链的文本特征分析。
2.根据权利要求1所述的大数据文本挖掘处理系统,其特征在于,所述文本预处理模块包括:数据清洗子模块,用于对从数据源抽取的原始状态的文本数据执行文本数据清洗处理;分词处理子模块,用于对清洗后的文本数据进行文本分词,将文本数据分隔为单词;去停用词处理子模块用于从文本数据分词获得的单词中滤除停用词,经滤除之后保留下来的单词作为文本数据单元。
3.根据权利要求1所述的大数据文本挖掘处理系统,其特征在于,所述文本链聚合模块包括:关联性识别子模块,用于通过所述用户平台接口取得任何用户的操作行为以及行为对象,并且根据行为对象的标识符,查询行为对象相应的文本数据单元,基于用户各个操作行为的关联性,初步识别文本数据之间的关联性;关联性累积子模块,用于追踪记录所述初步识别的文本数据之间关联性的累积值;文本链确定子模块,用于根据关联性累积子模块追踪记录的累积值,判断由关联性识别子模块初步识别的文本数据之间的关联性的累积值是否高于预设的一个确定阈值,如果高于该确定阈值则建立文本链。
4.一种大数据文本挖掘处理方法,其特征在于,包括:
文本大数据获取步骤,从至少一个数据源获取文本数据;
文本预处理步骤,对取得的所述文本数据执行预处理,生成作为挖掘处理对象的文本数据单元;所述预处理包括数据清洗处理、文本分词处理和去停用词处理中的至少一种;
文本链聚合步骤,获得用户针对所述文本数据的操作行为;并且基于所述操作行为确定文本数据之间的关联性,进而将关联性量化为累积值;根据关联性的累积值,将文本数据聚合为文本链;其中,用户针对所述文本数据的操作行为包括:用户在搜索引擎上输入作为关键词的文本数据以便进行搜索,以及用户通过点击搜索引擎提供的搜索结果链接而进入某个网页,对网页记载的文本进行浏览;用户在社交媒体对记载某个文本数据的网页的链接进行转发或分享,或者在社交媒体发表文本数据;用户通过记载某个文本数据的交互网页提供的评论功能进行评论文本输入;通过用户平台接口与信息平台的后台进行通信,获得以上操作行为及其行为对象;
权重评估步骤,针对文本链当中的文本数据单元,基于文本数据单元本身的类型属性以及其在文本链当中的位置,确定每个文本数据单元在该文本链中的特征权重;其中,根据类型属性为每个文本数据单元确定的权重值表示为Wt,并且按照关键词型文本权重最大、短文本权重次之、长文本权重最低的规则,预设每一类型的文本数据单元的特征权重值Wt;根据文本数据单元在文本链当中的位置确定的权重值表示为Wp,并且根据文本数据单元在该文本链当中所在的位置,越靠近文本链根部的文本数据单元的特征权重值越高Wp,反之,越靠近文本链末梢的文本数据单元的特征权重值Wp越低;将由文本数据单元本身的类型属性决定的特征权重值Wt和由文本在文本链当中的位置确定的特征权重值Wp二者进行加权平均,获得最终的针对文本链当中的文本数据单元的特征权重值W=(1-α)*Wt+α*Wp,其中α为预先设置的加权系数,根据不同挖掘场景中对文本数据类型与文本链位置二者的偏重而决定加权系数的取值;
文本链特征向量提取步骤,用于针对所述文本链,根据其中文本数据单元的量化特征以及特征权重,生成表示该文本链的特征向量;其中,针对所述文本链,统计其中每个文本数据单元经过TF-IDF处理之后的词频,作为该文本数据单元的量化特征值,再利用所述特征权重,对每个文本数据单元的量化特征值进行修正,将修正后的文本数据单元及其量化特征值组成表示该文本链的空间特征向量;
文本特征分析步骤,用于利用所述文本链的特征向量,执行针对文本链的文本特征分析。
5.根据权利要求4所述的大数据文本挖掘处理方法,其特征在于,所述文本预处理步骤包括:数据清洗子步骤,用于对从数据源抽取的原始状态的文本数据执行文本数据清洗处理;分词处理子步骤,用于对清洗后的文本数据进行文本分词,将文本数据分隔为单词;去停用词处理子步骤用于从文本数据分词获得的单词中滤除停用词,经滤除之后保留下来的单词作为文本数据单元。
6.根据权利要求4所述的大数据文本挖掘处理方法,其特征在于,所述文本链聚合步骤包括:关联性识别子步骤,用于通过所述用户平台接口取得任何用户的操作行为以及行为对象,并且根据行为对象的标识符,查询行为对象相应的文本数据单元,基于用户各个操作行为的关联性,初步识别文本数据之间的关联性;关联性累积子步骤,用于追踪记录所述初步识别的文本数据之间关联性的累积值;文本链确定子步骤,用于根据关联性累积子步骤追踪记录的累积值,判断由关联性识别子步骤初步识别的文本数据之间的关联性的累积值是否高于预设的一个确定阈值,如果高于该确定阈值则建立文本链。
CN201810154185.XA 2018-02-22 2018-02-22 一种大数据文本挖掘处理系统及其方法 Active CN108446333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810154185.XA CN108446333B (zh) 2018-02-22 2018-02-22 一种大数据文本挖掘处理系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810154185.XA CN108446333B (zh) 2018-02-22 2018-02-22 一种大数据文本挖掘处理系统及其方法

Publications (2)

Publication Number Publication Date
CN108446333A CN108446333A (zh) 2018-08-24
CN108446333B true CN108446333B (zh) 2022-01-18

Family

ID=63192724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810154185.XA Active CN108446333B (zh) 2018-02-22 2018-02-22 一种大数据文本挖掘处理系统及其方法

Country Status (1)

Country Link
CN (1) CN108446333B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825939B (zh) * 2019-09-19 2023-10-13 五八有限公司 帖子的分数生成、排序方法、装置、电子设备及存储介质
CN110968795B (zh) * 2019-11-27 2023-06-02 国网能源研究院有限公司 一种公司形象提升系统的数据关联匹配系统
CN113641788B (zh) * 2021-08-06 2024-02-23 人民网股份有限公司 一种基于无监督的长短影评细粒度观点挖掘方法
CN116737928B (zh) * 2023-06-12 2024-02-06 深圳市逗娱科技有限公司 平台用户需求的文本挖掘方法、系统及云平台

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206674A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 以商品为媒介的增强型相关搜索系统及其方法
CN102651012A (zh) * 2012-03-09 2012-08-29 华中科技大学 互联网新闻文本之间的转载关系识别方法
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN103235823A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据相关网页和当前行为确定用户当前兴趣的方法和系统
CN104166668A (zh) * 2014-06-09 2014-11-26 南京邮电大学 基于folfm模型的新闻推荐系统及方法
CN105224695A (zh) * 2015-11-12 2016-01-06 中南大学 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
CN105718579A (zh) * 2016-01-22 2016-06-29 浙江大学 一种基于上网日志挖掘和用户活动识别的信息推送方法
CN106294733A (zh) * 2016-08-10 2017-01-04 成都轻车快马网络科技有限公司 基于文本分析的网页检测方法
CN107066449A (zh) * 2017-05-09 2017-08-18 北京京东尚科信息技术有限公司 信息推送方法和装置
CN107577690A (zh) * 2017-05-17 2018-01-12 中广核工程有限公司 海量信息数据的推荐方法及推荐装置
CN107590255A (zh) * 2017-09-19 2018-01-16 百度在线网络技术(北京)有限公司 信息推送方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558266B1 (en) * 2012-09-24 2017-01-31 Anthony Bernard Diepenbrock, IV System and method for discovering groups whose members have a given attribute
US9645999B1 (en) * 2016-08-02 2017-05-09 Quid, Inc. Adjustment of document relationship graphs

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206674A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 以商品为媒介的增强型相关搜索系统及其方法
CN102651012A (zh) * 2012-03-09 2012-08-29 华中科技大学 互联网新闻文本之间的转载关系识别方法
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN103235823A (zh) * 2013-05-06 2013-08-07 上海河广信息科技有限公司 根据相关网页和当前行为确定用户当前兴趣的方法和系统
CN104166668A (zh) * 2014-06-09 2014-11-26 南京邮电大学 基于folfm模型的新闻推荐系统及方法
CN105224695A (zh) * 2015-11-12 2016-01-06 中南大学 一种基于信息熵的文本特征量化方法和装置及文本分类方法和装置
CN105718579A (zh) * 2016-01-22 2016-06-29 浙江大学 一种基于上网日志挖掘和用户活动识别的信息推送方法
CN106294733A (zh) * 2016-08-10 2017-01-04 成都轻车快马网络科技有限公司 基于文本分析的网页检测方法
CN107066449A (zh) * 2017-05-09 2017-08-18 北京京东尚科信息技术有限公司 信息推送方法和装置
CN107577690A (zh) * 2017-05-17 2018-01-12 中广核工程有限公司 海量信息数据的推荐方法及推荐装置
CN107590255A (zh) * 2017-09-19 2018-01-16 百度在线网络技术(北京)有限公司 信息推送方法和装置

Also Published As

Publication number Publication date
CN108446333A (zh) 2018-08-24

Similar Documents

Publication Publication Date Title
CN109359244B (zh) 一种个性化信息推荐方法和装置
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN101430695B (zh) 用于计算单词之间的差相关度的系统和方法
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
CN108446333B (zh) 一种大数据文本挖掘处理系统及其方法
CN107862022B (zh) 文化资源推荐系统
US20130332460A1 (en) Structured and Social Data Aggregator
US20090319449A1 (en) Providing context for web articles
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
CN112785397A (zh) 一种产品推荐方法、装置及存储介质
WO2016000555A1 (zh) 基于社交网络的内容、新闻推荐方法和系统
CN111797239B (zh) 应用程序的分类方法、装置及终端设备
CN108763321A (zh) 一种基于大规模相关实体网络的相关实体推荐方法
CN110263248A (zh) 一种信息推送方法、装置、存储介质和服务器
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN111444304A (zh) 搜索排序的方法和装置
CN110866778A (zh) 一种基于互联网平台的广告推送方法
US20180089193A1 (en) Category-based data analysis system for processing stored data-units and calculating their relevance to a subject domain with exemplary precision, and a computer-implemented method for identifying from a broad range of data sources, social entities that perform the function of Social Influencers
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
CN110245357B (zh) 主实体识别方法和装置
CN108509449B (zh) 一种信息处理的方法及服务器
CN112733006B (zh) 用户画像的生成方法、装置、设备及存储介质
Lee et al. Web document classification using topic modeling based document ranking
CN114282119B (zh) 一种基于异构信息网络的科技信息资源检索方法及系统
CN110717089A (zh) 一种基于网络日志的用户行为分析系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211119

Address after: 200050 No. 900, Changning District, Shanghai, West Yan'an Road

Applicant after: Kou Yi

Address before: Room 601-27, Cailian building, No. 393, chunshenhu Middle Road, Yuanhe street, Xiangcheng District, Suzhou, Jiangsu 215131

Applicant before: MUWO DATA TECHNOLOGY (SUZHOU) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant