CN109254993A - 一种基于文本的性格数据分析方法及系统 - Google Patents
一种基于文本的性格数据分析方法及系统 Download PDFInfo
- Publication number
- CN109254993A CN109254993A CN201710553081.1A CN201710553081A CN109254993A CN 109254993 A CN109254993 A CN 109254993A CN 201710553081 A CN201710553081 A CN 201710553081A CN 109254993 A CN109254993 A CN 109254993A
- Authority
- CN
- China
- Prior art keywords
- data
- word
- analysis data
- character analysis
- dimensions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种基于文本的性格数据分析方法和系统,所述方法包括:通过源数据模块部署分布式数据存储系统,所述分布式数据存储系统中存储有源数据;通过分词模块对所述源数据进行分词处理,并标注词性,得到未整理的元数据库;通过维度评分模块对性格分析数据按照三个维度进行评分,得到所述三个维度的评分赋值为K1、K2和K3;根据从所述元数据库中得出的所述性格分析数据对应主题下三个维度的加权值,以及所述性格分析数据的评分结果,通过判定模块判定所述性格分析数据对应主体的性格归属。本申请基于文本信息将复杂的现实要素降到三个维度进行分析,以三个维度来分析人们的个体或群体性格,能够根据少量样本,对整体特征进行预测。
Description
技术领域
本申请涉及数据分析技术领域,特别地,涉及一种基于文本的性格数据分析方法和系统。
背景技术
信息化社会背景下,基于互联网及移动互联网产生的在线沟通日益成为人与人之间沟通的主要方式,也成为人们获取信息、做出判断、表达自我的核心方式,更逐渐成为掌握、预测个体未来思想发展及群体舆论发酵的方式。
最接近的现有技术是基于大数据的用户画像构建技术。用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。构建用户画像的核心工作是给用户贴“标签”,而标签是通过对用户信息进行分析得出的高度精炼的特征标识。用户画像可用来精准营销,分析产品潜在客户,针对特定群体利用短信、邮件等方式进行营销;还可以用来用户的统计排名,比如统计中国大学购买书籍人数TOP10、全国各城市奶爸指数等;还可以用来进行效果评估、完善产品运营、提升服务质量等;还可以对服务或产品进行私人定制,即通过个性化的服务某类群体甚至每一位用户。如某公司想推出一款面向5-10岁儿童的玩具,通过用户画像进行分析,发现形象=“喜洋洋”、价格区间=“中等”的偏好比重最大,那么就可以给公司的新产品开发提供非常客观的决策依据。
其技术方案参照图1。
基础数据收集大致分为网络行为数据、服务内行为数据、用户内容偏好数据和用户交易数据四大类。
网络行为数据包括:活跃人数、页面浏览量、访问时长、激活率、外部触点、社交数据等;
服务内行为数据包括:浏览路径、页面停留时间、访问深度、唯一页面浏览次数等;
用户内容偏好数据包括:浏览/收藏内容、评论内容、互动内容、生活形态偏好、品牌偏好等;
用户交易数据(限交易类服务)包括:贡献率、客单价、连带率、回头率、流失率等。
在基础数据收集时收集到的数据不会是100%准确的,都具有不确定性。这就需要后续的行为建模来对收集到的数据进行再判断。比如某用户的性别一栏填的“男”,但通过其行为偏好可判断其性别为“女”的概率为80%。
同时,储存用户行为数据时同时储存发生该行为的场景,以便更好地进行数据地分析。
行为建模阶段是对基础数据收集阶段收集到的数据的处理,进行行为建模,以抽象出用户的标签。这个阶段注重的应是大概率事件,通过数学算法模型尽可能地排除用户的偶然行为。这时要用到机器学习,对用户的行为、偏好进行猜测,类似y=kx+b的算法,x代表已知信息,y代表用户偏好,通过不断精确k 和b来精确y。
这个阶段需要用到很多模型给用户贴“标签”。如用户汽车模型,根据用户对“汽车”话题的关注或购买相关产品的情况来判断用户是否有车、是否准备买车;再如用户忠诚度模型,通过判断+聚类算法判断用户的忠诚度;再如身高体型模型,根据用户购买服装鞋帽等用品来判断;再如文艺青年模型,根据用户发言、评论等行为判断用户是否为文艺青年;用户价值模型,判断用户对于网站的价值,对于提高用户留存率非常有用。还有消费能力、违约概率、流失概率等诸多模型。
构建画像阶段,是对行为建模阶段的一个深入,要把用户的基本属性(年龄、性别、地域)、购买能力、行为特征、兴趣爱好、心理特征、社交网络大致地标签化。所述构建画像阶段是用户画像的基本成型,因为用户画像不可能 100%地描述一个人,只能做到不断逼近一个人,因此,用户画像既应根据变化的基础数据不断修正,又要根据已知数据来抽象出新的标签使用户画像越来越立体。
关于“标签”,一般采用多级标签、多级分类,比如第一级标签是基本信息 (姓名、性别),第二级是消费习惯、用户行为;第一级分类有人口属性,人口属性又有消费习惯、地理位置等二级分类,地理位置又分工作地址和家庭地址的三级分类。
将基本成型的用户画像用于数据可视化分析,此步骤一般是针对群体的分析,比如可以根据用户价值来细分出核心用户、评估某一群体的潜在价值空间,以作出针对性的运营。
这种通用的用户画像技术好处在于能够得到对用户特征的一般性结论,能够指导商业营销和舆论分析等各方面的工作。其缺点主要为:(1)数学模型完全依靠试错方式,在大数据机器学习算法下取最优解,计算量非常巨大,耗费硬件资源很多,计算周期长;(2)在有限的周期及硬件资源下内取得的数据准确度较低;(3)不具备通用性,没有反应人们行为规律的核心特点,随着样本容量的变化,结论也会有很大变化,往往需要重新计算。
而且,通过互联网中个体发布的文本信息来真正了解个体性格(虽然不对应到现实中人的脱敏信息)及群体性格成为国家级各行业舆论引导、用户分析、营造口碑的重要方向。但是,目前的数据分析技术还没有建立起一套有效的心理学模型来实现基于文本信息的准确地分析判断。
发明内容
本申请提供一种基于文本的性格数据分析方法和系统,用于解决现有技术无法根据文字信息准确描述个体或群体性格特点的问题。
本申请公开的一种基于文本的性格数据分析方法,其特征在于,包括:
通过源数据模块部署分布式数据存储系统,所述分布式数据存储系统中存储有源数据;
通过分词模块对所述源数据进行分词处理,并标注词性,得到未整理的元数据库;
通过维度评分模块对性格分析数据按照三个维度进行评分,得到所述三个维度的评分赋值为K1、K2和K3;
根据从所述元数据库中得出的所述性格分析数据对应主题下三个维度的加权值,以及所述性格分析数据的评分结果,通过判定模块判定所述性格分析数据对应主体的性格归属。
优选地,所述部署分布式数据存储系统,具体包括:
在多台计算机上部署分布式数据存储系统,所述分布式数据存储系统存储分布式数据库,对每台所述计算机设备的分布式数据库进行分段管理;
将所有计算机设备及分段管理的信息形成数据矩阵,与事件元数据信息库结合形成数据调用的索引库。
优选地,所述对所述源数据进行分词处理,具体包括:
所述分词处理基于字符串匹配的机械分词算法进行分词,将待分的字符串与机器词典中的词条进行匹配,可采用正向最大匹配、逆向最大匹配和/或最少切分法;
所述分词处理还可以将分词与词性标注结合;
所述分词处理还可以为双向匹配法,将正向最大匹配法和逆向最大匹配法组合:根据标点对文档进行粗划分,把文档分解成若干个句子;对所述句子分别用正向最大匹配法和逆向最大匹配法进行扫描切分:如果两种分词方法得到的匹配结果相同,则分词正确;否则,按最小集处理。
优选地,所述对性格分析数据按照三个维度进行评分,所述三个维度包括理性/感性维度、真实/修饰维度和激烈/平和维度。
优选地,对所述性格分析数据按照理性/感性维度进行评分,具体包括:
将一篇文章或一段言论作为性格分析数据,对所述性格分析数据进行分词后标注其词性,得到M个词;
从所述M个词中找出表达逻辑关系的助词,每有一个表达逻辑关系的助词,则计数加1;若逻辑词不完整,则计数加0.5;得到逻辑词语的赋值得分为 X1;
将所述性格分析数据中的关键词与元数据库中关键词云表比对,确定所述性格分析数据的主题,并调取所述主题的核心关键词与所述性格分析数据的关键词进行比对,将所述性格分析数据关键词包含于所述主题的核心关键词的个数记为Y1;
将元数据库中所述主题下平均每M个词出现的逻辑词数量记为A1,平均每篇内容出现的关键词数量记为B1;
将X1与Y1的和与A1与B1的和的商作为所述性格分析数据的理性/感性维度评分赋值K1:若K1大于1则偏理性,K1小于1则偏感性。
优选地,对所述性格分析数据按照真实/修饰维度进行评分,具体包括:
将一篇文章或一段言论作为性格分析数据,对所述性格分析数据进行分词后标注其词性,得到M个词;
从所述M个词中找出表达转折关系的助词,每有一个表达转折关系的助词,则计数加1,得到转折词语的赋值得分为X2;
将所述性格分析数据中的关键词与元数据库中的大数据关键词云表比对,确定所述分析数据的主题,确定所述性格分析数据在所述主题下涉猎的表达不同含义的核心关键词,将所述性格分析数据中属于所述性格分析数据的主题下不同含义的关键词个数记为Y2;
将元数据库中所述主题下平均每M个词出现的转折词数量记为A2,平均每篇内容中不同含义的关键词数量记为B2;
将X2与Y2的和与A2与B2的和的商作为所述分析数据的真实/修饰维度评分赋值K2:若K2大于1则偏修饰,K2小于1则偏真实。
优选地,对所述性格分析数据按照激烈/平和维度进行评分,具体包括:
将一篇文章或一段言论作为分析数据,对所述分析数据进行分词后标注其词性,得到M个词;
从所述M个词标注其情感强烈程度,每有一个表示强烈感情的词语或符号,则计数加1,得到感情激烈词语的赋值得分为X3;
将所述性格分析数据中的关键词与元数据库中的大数据关键词云表比对,确定所述分析数据的主题,根据所述性格分析数据的句子的长短进一步确定感情激烈程度:通过标点符号和/或空格划分句子和短语,将所有短语的数量记为 Y3;
将元数据库中所述主题下平均每M个词出现的情感激烈词数量记为A3,短语数量记为B3;
将X3与A3的商与Y3与B3的商的和作为所述分析数据的激烈/平和维度评分赋值K3:若K3大于2则偏激烈,K3小于2则偏平和。
优选地,所述根据所述评分结果判定性格归属,具体包括:
通过大数据及其智能算法学习,得出最能反映所述评分结果对应的性格分析数据的主题下三个维度最适合的加权值为μ1、μ2和μ3;
比较μ1与K1乘积的绝对值、μ2与K2乘积的绝对值和μ3与K3乘积的绝对值的大小,取最大的两个值,确定性格分析的主要维度;
根据所述主要维度的评分赋值对应性格特征表判定所述性格分析数据的主体的性格归属。
本申请公开的一种基于文本的性格数据分析系统,其特征在于,包括:
源数据模块,用于部署分布式数据存储系统,所述分布式数据存储系统中存储有源数据;
分词模块,用于对所述源数据进行分词处理,并标注词性,得到未整理的元数据库;
维度评分模块,用于对性格分析数据按照三个维度进行评分,得到所述三个维度的评分赋值为K1、K2和K3;
判定模块,用于根据从所述元数据库中得出的所述性格分析数据对应主题下三个维度的加权值,以及所述性格分析数据的评分结果,判定所述性格分析数据对应主体的性格归属。
优选的,所述判定模块,具体包括:
维度加权确定单元,用于通过大数据及其智能算法学习,得出最能反映所述评分结果对应的性格分析数据的主题下三个维度最适合的加权值为μ1、μ2和μ3;
主要维度确定单元,用于比较μ1与K1乘积的绝对值、μ2与K2乘积的绝对值和μ3与K3乘积的绝对值的大小,取最大的两个值,确定性格分析的主要维度;
判定单元,用于根据所述主要维度的评分赋值对应性格特征表判定性格归属。
与现有技术相比,本申请具有以下优点:本申请通过计算机根据人们发布的文字信息来判断信息发布者对信息相关事物的情感倾向及所体现的性格特征,从而准确描述个体或群体的性格特点,预测个体或群体的行为特征。本申请通过分析人们对某一事物的本质性格特征来进行人物画像,而不是泛泛地分析某种模糊的偏好;将复杂的现实要素降到三个维度进行分析,即以三个最有代表性,其间组合能够反映性格特征的维度进行分析;打造了从数据采集、数据清洗、文本挖掘到分析结论的完整系统;具有预测性,能够根据性格归属判定结果在时间方面预测未来趋势,能够根据少量样本,对整体特征进行预测。突破性的建立了有效的将现实因素降低到三个维度,以三个维度来分析人们个体与群体性格,并广泛应用的技术。
附图说明
附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请背景技术中用户画像技术方案示意图;
图2为本申请实施例一种基于文本的性格数据分析方法的流程图;
图3为本申请实施例一种基于文本的性格数据分析系统的结构示意图;
图4为本申请应用的系统结构。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。术语“包括”、“包含”及类似术语应该被理解为是开放性的术语,即“包括/包含但不限于”。术语“基于”是“至少部分地基于”。术语“一实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。
参照图2,示出了本申请实施例一种基于文本的性格数据分析方法的流程图,本优选方法实施例包括以下步骤:
步骤S101:通过源数据模块部署分布式数据存储系统,所述分布式数据存储系统中存储有源数据。
本申请的数据库是基于结构化数据库和非结构化数据库结合方案形成的,在多台计算机(服务器)上部署的分布式数据存储系统。
所述分布式数据存储系统存储分布式数据库,此分布式数据库将所有设备视为大数据池,每台存储设备为小数据池,每台所述计算机设备的分布式数据库进行分段管理。
将所有设备及分段管理的信息形成大的数据矩阵,以备与事件元数据信息库结合,形成数据调用的索引库。
步骤S102:通过分词模块对所述源数据进行分词处理,并标注词性,得到未整理的元数据库。
词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析,即分词是中文信息处理的基础与关键。
一般的分词处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分和全切分等。
本申请分词模块调用索引库中的数据进行分词处理。
优选地,本申请分词步骤S102,具体包括:
所述分词处理基于字符串匹配的机械分词算法进行分词,将待分的字符串与一个充分大的机器词典中的词条进行匹配。分为正向匹配和逆向匹配、最大长度匹配和最小长度匹配以及单纯分词和分词、标注过程相结合的一体化方法。
本申请可采用正向最大匹配、逆向最大匹配和/或最少切分法。
实际应用中,将机械分词作为处分手段,利用语言信息提高切分准确率。优先识别具有明显特征的词,以这些词为断点,将原字符串分为较小字符串再机械匹配,以减少匹配错误率;或所述分词处理还可以将分词与词类标注结合。
所述分词处理还可以为双向匹配法,将正向最大匹配法和逆向最大匹配法组合:先根据标点对文档进行粗划分,把文档分解成若干个句子;对所述句子分别用正向最大匹配法和逆向最大匹配法进行扫描切分:如果两种分词方法得到的匹配结果相同,则分词正确;否则,按最小集处理。其中,所述最小集包含两种分词方法分出来的元素数量的最少集合,即两种分词方法的并集。
步骤S103:通过维度评分模块对性格分析数据按照三个维度进行评分,得到所述三个维度的评分赋值为K1、K2和K3。
本申请通过设想模型及大数据分析验证确立了对性格数据进行分析的三个维度及算法,每个维度有两种相反的倾向,组合形成12种性格特征。
第一个维度称为“理性/感性(Logic/Sensibility)”维度(简称LS维度),实质是描述人的表达是基于理性分析还是感性而做出,主要基于文本中逻辑词、词语间逻辑联系强弱判定。
第二个维度称为“真实/修饰(True/Dissemble)”维度(简称TD维度),实质是描述人的表达是本意表达还是经过修饰,主要基于文中意见单一还是复杂,是否存在转折关系判定。
第三个维度称为“激动/平和(Intense/Peace)”维度(简称IP维度),实质是描述人在表达中情绪是激烈还是平和,主要通过强烈情感词及句子长度、句子信息密度进行判定。
优选地,本申请步骤S103将一篇文章或一段言论作为性格分析数据,对所述性格分析数据进行分词后标注其词性,得到M个词。
对所述性格分析数据按照LS维度进行评分,具体包括:
步骤(1):从所述M个词中找出表达逻辑关系的助词,如“与、或、非”,“因为……所以”,“不但……而且”等词语,每有一个表达逻辑关系的这种助词,则计数加1;若逻辑词不完整,例如只有“不但”,后面没有与之对应的词语,则计数加0.5;得到所述性格分析数据通过逻辑相关词语的赋值得分为X1。
步骤(2):将所述性格分析数据中的关键词与元数据库中建立的大数据关键词云表比对,确定所述性格分析数据的主题,并调取所述主题的核心关键词,与所述性格分析数据的关键词进行比对,将所述性格分析数据关键词属于所述主题的核心关键词的个数记为Y1。
步骤(3):将元数据库中所述主题下平均每M个词出现的逻辑词数量记为 A1,平均每篇内容出现的关键词数量记为B1;
步骤(4):计算所述性格分析数据在LS维度的评分赋值K1计算公式为:
即将X1与Y1的和与A1与B1的和的商作为所述性格分析数据的LS维度评分赋值K1:若K1大于1则偏理性,K1小于1则偏感性。
对所述性格分析数据按照TD维度进行评分,具体包括:
步骤(1):从所述M个词中找出表达转折关系的助词,如“但是”,“不过”,“然而”等,每有一个表达转折关系的助词,则计数加1,得到所述性格分析数据通过转折词语的赋值得分为X2。
步骤(2):将所述性格分析数据中的关键词与元数据库中的大数据关键词云表比对,确定所述分析数据的主题,确定所述性格分析数据在所述主题下涉猎了哪些表达不同含义的核心关键词,记所述性格分析数据中有Y2个词是属于所述性格分析数据的主题下不同含义的关键词。
步骤(3):将元数据库中所述主题下平均每M个词出现的表示转折词关系的词数量记为A2,平均每篇内容中不同含义的关键词数量记为B2。
步骤(4):计算所述性格分析数据在TD维度的评分赋值K2计算公式为:
即将X2与Y2的和与A2与B2的和的商作为所述分析数据的TD维度评分赋值K2:若K2大于1则偏修饰,K2小于1则偏真实。
对所述性格分析数据按照IP维度进行评分,具体包括:
步骤(1):从所述M个词标注其情感强烈程度,每出现一个表示强烈感情的词语或符号,则计数加1,得到所述性格分析数据通过感情激烈词语的赋值得分为X3。
步骤(2):将所述性格分析数据中的关键词与元数据库中的大数据关键词云表比对,确定所述分析数据的主题,根据所述性格分析数据的句子的长短进一步确定感情激烈程度。越使用短句,则情感越发激烈。通过标点符号和/或空格来划分句子和短语,将所有短语的数量记为Y3。
步骤(3):将元数据库中所述主题下平均每M个词出现的情感激烈词数量记为A3,短语数量记为B3;
步骤(4):计算所述性格分析数据在IP维度的评分赋值K3计算公式为:
即将X3与A3的商与Y3与B3的商的和作为所述分析数据的IP维度评分赋值K3:若K3大于2则偏激烈,K3小于2则偏平和。
步骤S104:根据从所述元数据库中得出的所述性格分析数据对应主题下三个维度的加权值,以及所述性格分析数据的评分结果,通过判定模块判定所述性格分析数据对应主体的性格归属。
在分析完三个维度的信息后,会根据其值大小与系统根据样本分析出的各性格特征中三维度加权值的大小关系,综合判定属于哪一种性格特征。
通过大数据及其智能算法学习,得出最能反映所述评分结果对应的性格分析数据的主题下三个维度最适合的加权值为μ1、μ2和μ3。
这里的μ1、μ2和μ3通过人工神经网络(Artificial Neural Networks, ANN)系统计算,采用BP(Back Propagation)算法,即误差反向传播算法来监督式学习。
人工神经网络首先要以一定的学习准则进行学习,我们通过经验和资源,形成监督训练的参考样本数据作为学习,通过μ1、μ2和μ3的数值,能够在判定性格正确时输出1,判断不正确为0。
所以网络学习的准则应该是:如果网络作出错误的判决,则通过网络的学习,使得网络减少下次犯同样错误的可能性。首先,给加权值赋予(0,1)区间内的随机值,将“A”所对应的图像模式输入给网络,网络将输入模式加权求和、与门限比较、再进行非线性运算,得到网络的输出。在此情况下,网络输出为“1”和“0”的概率各为50%,也就是说是完全随机的。这时如果输出为“1”(结果正确),则使连接权值增大,以便使网络再次遇到某一性格模式输入时,仍然能作出正确的判断。如果输出为“0”(即结果错误),则把网络连接权值朝着减小综合输入加权值的方向调整,其目的在于使网络下次再遇到某一性格模式输入时,减小犯同样错误的可能性。如此操作调整,当给网络轮番输入若干个数据后,经过网络按以上学习方法进行若干次学习后,网络判断的正确率将大大提高,最终得出最适合的加权值为μ1、μ2和μ3。
比较|μ1*K1|、|μ2*K2|、|μ3*K3|,即μ1与K1乘积的绝对值、μ2与K2乘积的绝对值和μ3与K3乘积的绝对值的大小,取其最大的两个,确定性格分析的主要维度。
根据所述主要维度的评分赋值对应性格特征表判定所述性格分析数据的主体的性格归属。
本申请界定性格特征为12种,取三个维度中最为显性的两个维度的倾向值构成。用表格1表示如下:
表1性格特征表
理性(L) | 真实(T) | 激烈(I) | 感性(S) | 修饰(D) | 平和(P) | |
理性(L) | 理性纯真 | 热情理性 | 细致闷骚 | 理性温和 | ||
真实(T) | 理性纯真 | 纯真热情 | 真实感性 | 活泼主动 | ||
激烈(I) | 热情理性 | 纯真热情 | 开朗随性 | 活泼主动 | ||
感性(S) | 真实感性 | 开朗随性 | 敏感 | 平和内敛 | ||
修饰(D) | 细致闷骚 | 活泼主动 | 敏感 | 低调内涵 | ||
平和(P) | 理性温和 | 活泼主动 | 平和内敛 | 低调内涵 |
例如,若某个人的性格分析数据中通过三个维度的评分赋值判断,|μ1* K1|和|μ2*K2|都大于|μ3*K3|,则确定此人主要性格维度是LS和TD两个维度。如果此人K1大于1,K2大于1,则两个维度分别取理性和修饰,对应上表可确定此人为“细致闷骚型”。
通过本申请三个维度的计算模型,通过人工智能中的神经网络算法进行大数据演算,并确定各话题下性格与维度间值的加权参数,人工神经网络算法模拟生物神经网络,是一类模式匹配算法。通常用于解决分类和回归问题。人工神经网络是机器学习的一个庞大的分支,有几百种不同的算法,我们采用一种含隐含层的半监督神经网络算法。并逐步调优参数,来将词语及文章与词语间的匹配关系进行归类。
本申请中实现的功能和算法是一个应用于舆论监控、未来趋势模式、用户行为分析和精准营销等多种系统中的核心分析组件。这类系统的一般性结构参照图4。本申请是用于人群画像的中单技术,能够有效支撑后续的舆论分析、精准营销、事件发展推演等工作。
对于前述的各方法实施例,为了描述简单,故将其都表述为一系列的动作组合,但是本领域的技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为根据本申请,某些步骤可以采用其他顺序或同时执行;其次,本领域技术人员也应该知悉,上述方法实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
参照图3,示出了本申请实施例一种基于文本的性格数据分析系统的结构示意图,包括:
源数据模块21,用于部署分布式数据存储系统,所述分布式数据存储系统中存储有源数据;
分词模块22,用于对所述源数据进行分词处理,并标注词性,得到未整理的元数据库;
维度评分模块23,用于对性格分析数据按照三个维度进行评分,得到所述三个维度的评分赋值为K1、K2和K3;
判定模块24,用于根据从所述元数据库中得出的所述性格分析数据对应主题下三个维度的加权值,以及所述性格分析数据的评分结果,判定所述性格分析数据对应主体的性格归属。
优选的,所述判定模块24,具体包括:
维度加权确定单元,用于通过大数据及其智能算法学习,得出最能反映所述评分结果对应的性格分析数据的主题下三个维度最适合的加权值为μ1、μ2和μ3;
主要维度确定单元,用于比较μ1与K1乘积的绝对值、μ2与K2乘积的绝对值和μ3与K3乘积的绝对值的大小,取最大的两个值,确定性格分析的主要维度;
判定单元,用于根据所述主要维度的评分赋值对应性格特征表判定性格归属。
需要说明的是,上述系统实施例属于优选实施例,所涉及的单元和模块并不一定是本申请所必须的。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于本申请的系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请所提供的一种基于文本的性格数据分析方法和系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种基于文本的性格数据分析方法,其特征在于,包括:
通过源数据模块部署分布式数据存储系统,所述分布式数据存储系统中存储有源数据;
通过分词模块对所述源数据进行分词处理,并标注词性,得到未整理的元数据库;
通过维度评分模块对性格分析数据按照三个维度进行评分,得到所述三个维度的评分赋值为K1、K2和K3;
根据从所述元数据库中得出的所述性格分析数据对应主题下三个维度的加权值,以及所述性格分析数据的评分结果,通过判定模块判定所述性格分析数据对应主体的性格归属。
2.根据权利要求1所述的方法,其特征在于,所述部署分布式数据存储系统,具体包括:
在多台计算机上部署分布式数据存储系统,所述分布式数据存储系统存储分布式数据库,对每台所述计算机设备的分布式数据库进行分段管理;
将所有计算机设备及分段管理的信息形成数据矩阵,与事件元数据信息库结合形成数据调用的索引库。
3.根据权利要求1所述的方法,其特征在于,所述对所述源数据进行分词处理,具体包括:
所述分词处理基于字符串匹配的机械分词算法进行分词,将待分的字符串与机器词典中的词条进行匹配,可采用正向最大匹配、逆向最大匹配和/或最少切分法;
所述分词处理还可以将分词与词性标注结合;
所述分词处理还可以为双向匹配法,将正向最大匹配法和逆向最大匹配法组合:根据标点对文档进行粗划分,把文档分解成若干个句子;对所述句子分别用正向最大匹配法和逆向最大匹配法进行扫描切分:如果两种分词方法得到的匹配结果相同,则分词正确;否则,按最小集处理。
4.根据权利要求1所述的方法,其特征在于,所述对性格分析数据按照三个维度进行评分,所述三个维度包括理性/感性维度、真实/修饰维度和激烈/平和维度。
5.根据权利要求4所述的方法,其特征在于,对所述性格分析数据按照理性/感性维度进行评分,具体包括:
将一篇文章或一段言论作为性格分析数据,对所述性格分析数据进行分词后标注其词性,得到M个词;
从所述M个词中找出表达逻辑关系的助词,每有一个表达逻辑关系的助词,则计数加1;若逻辑词不完整,则计数加0.5;得到逻辑词语的赋值得分为X1;
将所述性格分析数据中的关键词与元数据库中关键词云表比对,确定所述性格分析数据的主题,并调取所述主题的核心关键词与所述性格分析数据的关键词进行比对,将所述性格分析数据关键词包含于所述主题的核心关键词的个数记为Y1;
将元数据库中所述主题下平均每M个词出现的逻辑词数量记为A1,平均每篇内容出现的关键词数量记为B1;
将X1与Y1的和与A1与B1的和的商作为所述性格分析数据的理性/感性维度评分赋值K1:若K1大于1则偏理性,K1小于1则偏感性。
6.根据权利要求4所述的方法,其特征在于,对所述性格分析数据按照真实/修饰维度进行评分,具体包括:
将一篇文章或一段言论作为性格分析数据,对所述性格分析数据进行分词后标注其词性,得到M个词;
从所述M个词中找出表达转折关系的助词,每有一个表达转折关系的助词,则计数加1,得到转折词语的赋值得分为X2;
将所述性格分析数据中的关键词与元数据库中的大数据关键词云表比对,确定所述分析数据的主题,确定所述性格分析数据在所述主题下涉猎的表达不同含义的核心关键词,将所述性格分析数据中属于所述性格分析数据的主题下不同含义的关键词个数记为Y2;
将元数据库中所述主题下平均每M个词出现的转折词数量记为A2,平均每篇内容中不同含义的关键词数量记为B2;
将X2与Y2的和与A2与B2的和的商作为所述分析数据的真实/修饰维度评分赋值K2:若K2大于1则偏修饰,K2小于1则偏真实。
7.根据权利要求4所述的方法,其特征在于,对所述性格分析数据按照激烈/平和维度进行评分,具体包括:
将一篇文章或一段言论作为分析数据,对所述分析数据进行分词后标注其词性,得到M个词;
从所述M个词标注其情感强烈程度,每有一个表示强烈感情的词语或符号,则计数加1,得到感情激烈词语的赋值得分为X3;
将所述性格分析数据中的关键词与元数据库中的大数据关键词云表比对,确定所述分析数据的主题,根据所述性格分析数据的句子的长短进一步确定感情激烈程度:通过标点符号和/或空格划分句子和短语,将所有短语的数量记为Y3;
将元数据库中所述主题下平均每M个词出现的情感激烈词数量记为A3,短语数量记为B3;
将X3与A3的商与Y3与B3的商的和作为所述分析数据的激烈/平和维度评分赋值K3:若K3大于2则偏激烈,K3小于2则偏平和。
8.根据权利要求1所述的方法,其特征在于,所述根据所述评分结果判定性格归属,具体包括:
通过大数据及其智能算法学习,得出最能反映所述评分结果对应的性格分析数据的主题下三个维度最适合的加权值为μ1、μ2和μ3;
比较μ1与K1乘积的绝对值、μ2与K2乘积的绝对值和μ3与K3乘积的绝对值的大小,取最大的两个值,确定性格分析的主要维度;
根据所述主要维度的评分赋值对应性格特征表判定所述性格分析数据的主体的性格归属。
9.一种基于文本的性格数据分析系统,其特征在于,包括:
源数据模块,用于部署分布式数据存储系统,所述分布式数据存储系统中存储有源数据;
分词模块,用于对所述源数据进行分词处理,并标注词性,得到未整理的元数据库;
维度评分模块,用于对性格分析数据按照三个维度进行评分,得到所述三个维度的评分赋值为K1、K2和K3;
判定模块,用于根据从所述元数据库中得出的所述性格分析数据对应主题下三个维度的加权值,以及所述性格分析数据的评分结果,判定所述性格分析数据对应主体的性格归属。
10.根据权利要求9所述的系统,其特征在于,所述判定模块,具体包括:
维度加权确定单元,用于通过大数据及其智能算法学习,得出最能反映所述评分结果对应的性格分析数据的主题下三个维度最适合的加权值为μ1、μ2和μ3;
主要维度确定单元,用于比较μ1与K1乘积的绝对值、μ2与K2乘积的绝对值和μ3与K3乘积的绝对值的大小,取最大的两个值,确定性格分析的主要维度;
判定单元,用于根据所述主要维度的评分赋值对应性格特征表判定性格归属。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710553081.1A CN109254993B (zh) | 2017-07-07 | 2017-07-07 | 一种基于文本的性格数据分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710553081.1A CN109254993B (zh) | 2017-07-07 | 2017-07-07 | 一种基于文本的性格数据分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109254993A true CN109254993A (zh) | 2019-01-22 |
CN109254993B CN109254993B (zh) | 2021-06-01 |
Family
ID=65050935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710553081.1A Expired - Fee Related CN109254993B (zh) | 2017-07-07 | 2017-07-07 | 一种基于文本的性格数据分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109254993B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021114841A1 (zh) * | 2020-05-14 | 2021-06-17 | 平安科技(深圳)有限公司 | 一种用户报告的生成方法及终端设备 |
CN116628317A (zh) * | 2023-04-19 | 2023-08-22 | 上海顺多网络科技有限公司 | 一种使用少量信息定向用户群体偏好分析的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130304683A1 (en) * | 2010-01-19 | 2013-11-14 | James Ting-Ho Lo | Artificial Neural Networks based on a Low-Order Model of Biological Neural Networks |
CN103955452A (zh) * | 2014-05-21 | 2014-07-30 | 北京邮电大学 | 一种基于文本信息的幸福感智能检测方法和设备 |
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
CN105095183A (zh) * | 2014-05-22 | 2015-11-25 | 株式会社日立制作所 | 文本情感倾向判断方法与系统 |
CN105912563A (zh) * | 2016-03-23 | 2016-08-31 | 北京数字跃动科技有限公司 | 一种基于心理学知识赋予机器人工智能学习的方法 |
CN106611375A (zh) * | 2015-10-22 | 2017-05-03 | 北京大学 | 一种基于文本分析的信用风险评估方法及装置 |
-
2017
- 2017-07-07 CN CN201710553081.1A patent/CN109254993B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130304683A1 (en) * | 2010-01-19 | 2013-11-14 | James Ting-Ho Lo | Artificial Neural Networks based on a Low-Order Model of Biological Neural Networks |
CN103955452A (zh) * | 2014-05-21 | 2014-07-30 | 北京邮电大学 | 一种基于文本信息的幸福感智能检测方法和设备 |
CN105095183A (zh) * | 2014-05-22 | 2015-11-25 | 株式会社日立制作所 | 文本情感倾向判断方法与系统 |
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
CN106611375A (zh) * | 2015-10-22 | 2017-05-03 | 北京大学 | 一种基于文本分析的信用风险评估方法及装置 |
CN105912563A (zh) * | 2016-03-23 | 2016-08-31 | 北京数字跃动科技有限公司 | 一种基于心理学知识赋予机器人工智能学习的方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021114841A1 (zh) * | 2020-05-14 | 2021-06-17 | 平安科技(深圳)有限公司 | 一种用户报告的生成方法及终端设备 |
CN116628317A (zh) * | 2023-04-19 | 2023-08-22 | 上海顺多网络科技有限公司 | 一种使用少量信息定向用户群体偏好分析的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109254993B (zh) | 2021-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xue et al. | Personality recognition on social media with label distribution learning | |
CN111914096A (zh) | 基于舆情知识图谱的公共交通乘客满意度评价方法及系统 | |
CN112199608B (zh) | 基于网络信息传播图建模的社交媒体谣言检测方法 | |
Mukherjee et al. | Detecting sarcasm in customer tweets: an NLP based approach | |
Gupta et al. | Application and techniques of opinion mining | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
Liu et al. | Learning to predict population-level label distributions | |
Altheneyan et al. | Big data ML-based fake news detection using distributed learning | |
CN115017303A (zh) | 基于新闻文本进行企业风险评估的方法、计算设备和介质 | |
Amali et al. | Classification of cyberbullying Sinhala language comments on social media | |
Garg et al. | Comparison of machine learning algorithms for content based personality resolution of tweets | |
CN114138968A (zh) | 一种网络热点的挖掘方法、装置、设备及存储介质 | |
Iparraguirre-Villanueva et al. | Sentiment analysis of tweets using unsupervised learning techniques and the k-means algorithm | |
Ogudo et al. | Sentiment analysis application and natural language processing for mobile network operators’ support on social media | |
Oyewola et al. | Optimizing sentiment analysis of Nigerian 2023 presidential election using two-stage residual long short term memory | |
Dedeepya et al. | Detecting cyber bullying on twitter using support vector machine | |
Rahman et al. | Sentiment analysis on Twitter data: comparative study on different approaches | |
CN109254993A (zh) | 一种基于文本的性格数据分析方法及系统 | |
Patil et al. | Personality prediction using Digital footprints | |
Rauniyar | A survey on deep learning based various methods analysis of text summarization | |
Snyder | An Introduction to Topic Modeling as an Unsupervised Machine Learning Way to Organize Text Information. | |
Matwin et al. | Generative Methods for Social Media Analysis | |
Venkataraman et al. | FBO‐RNN: Fuzzy butterfly optimization‐based RNN‐LSTM for extracting sentiments from Twitter Emoji database | |
Jasim et al. | Analyzing Social Media Sentiment: Twitter as a Case Study | |
Khan et al. | Big Data Approach Of Sentiment Analysis Of Twitter Data Using K-Mean Clustering Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 02-2001, 17 / F, building 2, yard 8, worker's Stadium North Road, Chaoyang District, Beijing 100027 Applicant after: Zhangwoyun Technology (Beijing) Co., Ltd Address before: 100020 Block C 403, Baijiazhuang Business Center, 3 Baijiazhuang Road, Chaoyang District, Beijing Applicant before: Beijing Zhangwoyun Vision Media Culture Media Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210601 Termination date: 20210707 |
|
CF01 | Termination of patent right due to non-payment of annual fee |