CN112115231A - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN112115231A
CN112115231A CN202010981098.9A CN202010981098A CN112115231A CN 112115231 A CN112115231 A CN 112115231A CN 202010981098 A CN202010981098 A CN 202010981098A CN 112115231 A CN112115231 A CN 112115231A
Authority
CN
China
Prior art keywords
user
emotion
virtual object
tag
behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010981098.9A
Other languages
English (en)
Inventor
刘杉
张苗如
谭绮婷
杜明轩
夏睿
钱辰扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN202010981098.9A priority Critical patent/CN112115231A/zh
Publication of CN112115231A publication Critical patent/CN112115231A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本公开涉及一种数据处理方法及装置,该方法包括:获取用于描述用户的基本信息的属性标签;利用所述属性标签确定用于表征所述用户的第一虚拟对象。本公开通过获取用于描述用户的基本信息的属性标签并利用所述属性标签确定用于表征所述用户的第一虚拟对象,能够将数据更加生动和细致的呈现出来,提升用户互动交流的欲望和体验感。

Description

一种数据处理方法及装置
技术领域
本公开涉及互联网信息分析技术领域,尤其涉及一种数据处理方法及装置。
背景技术
现有的舆情分析系统面向政府、企业和个人,能够登录复杂网站对舆情数据进行准确的提取,根据获取到的舆情数据提供舆情情报分析、建议、图表及个性化的日报、月报、年报等服务,并且可以通过云架构和大数据处理实现对舆情的全方位实时监测。
现有的舆情分析系统在对舆情数据进行处理后主要以图文和视频这种“平面化”方式呈现舆情数据,舆情数据的呈现方式单一。而随着5G时代的来临,通信速率的提升会给用户带来更大的信息流。不管是处理舆情数据,还是处理除舆情数据之外的其他数据,使用现有的呈现方式,都会使用户在消化信息流时花费更多的时间和精力。
因此,如何创新数据的呈现方式,是一个有待解决的问题。
发明内容
有鉴于此,本公开提出了一种数据处理方法及装置,至少解决了以上提到的技术问题。
根据本公开的第一方面,提供了一种数据处理方法,所述方法包括:获取用于描述用户的基本信息的属性标签;利用所述属性标签确定用于表征所述用户的第一虚拟对象。
根据本公开的第二方面,提供了一种数据处理装置,其特征在于,所述装置包括:属性标签获取模块,用于获取用于描述用户的基本信息的属性标签;第一虚拟对象确定模块,用于利用所述属性标签确定用于表征所述用户的第一虚拟对象。
根据本公开的第三方面,提供了一种数据处理装置,所述装置包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以上任一所述的方法。
根据本公开的第四方面,提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行以上任一所述的方法。
根据本公开实施例的数据处理方法及装置,通过获取用于描述用户的基本信息的属性标签并利用所述属性标签确定用于表征所述用户的第一虚拟对象,本公开能够将数据更加生动和细致的呈现出来,提升用户互动交流的欲望和体验感。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开实施例的数据处理方法的步骤流程图;
图2示出根据本公开实施例的数据处理方法的步骤流程图;
图3示出根据本公开实施例的数据处理方法的步骤流程图;
图4示出根据本公开实施例的数据处理方法的步骤流程图;
图5示出根据本公开实施例的数据处理方法的步骤流程图;
图6示出根据本公开实施例的数据处理方法的步骤流程图;
图7示出根据本公开实施例的数据处理方法的步骤流程图;
图8示出根据本公开实施例的数据处理系统的层次示意图;
图9示出根据本公开实施例的数据处理装置的框图;
图10是根据示例性实施例示出的一种用于数据处理的装置的框图;
图11是根据一示例性实施例示出的一种用于数据处理的装置的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
在本申请提及的数据可包括舆情数据。舆情数据可以包括通过互联网采集、问卷调查等获得的反映舆情的数据,包括不限于一定的社会空间内,围绕事件的发生、发展和变化,民众所持有的社会态度的相关数据。
本领域技术人员应当理解的是,所述“舆情数据”只是一种命名方式,本领域技术人员完全可以利用本公开实施例的数据处理方法处理除“舆情数据”之外的其他数据,例如,可以利用本公开实施例的处理方法处理某购物网站的数据。应当理解的是,以下使用“舆情数据”的部分是示意性的而非限定性的。本公开对于所述数据并不限定。
在一种可能的实现方式中,可以利用网络信息采集技术和/或文本挖掘技术从网络数据源采集舆情数据,所述网络数据源包括搜索引擎、新闻媒体、社交网站和网络论坛等。其中,所述网络信息采集技术是指用于爬取网络数据源的数据的技术,包括且不限于搜索引擎、网络蜘蛛、网页搜索算法和主题蜘蛛等。所述文本挖掘技术则是可以从网络数据源抽取有价值的信息进行进一步的处理的技术。
在一种可能的实现方式中,还可以使用跨语言信息检索技术(Cross LanguageInformation Retrieval,CLIR)从网络数据源采集所述舆情数据。跨语言信息检索技术是一种可以使用一种提问语言检索出另一种语言文本信息的技术。具体的,利用跨语言检索技术的检索系统,快速检索出不同语种的舆情数据,并对检索出的不同语种的舆情数据进行标引,使检索语言和被检索语言相对应,从而形成跨语言的索引数据库。
在一种可能的实现方式中,所述舆情数据可以存储在数据库中,例如Hive、MySQL、HBase等。Hive(一种数据仓库工具)可用于存储数据计算结果,MySQL(一种数据库管理系统)可用于存储和监控相关数据,HBase(一种分布式开源数据库)可用于存储实时调用类数据。除此之外,还可以使用Spark(一种专为大规模数据处理而设计的快速通用的计算引擎)对舆情数据进行处理。本公开对处理舆情数据所采用的具体架构并不限定。
在一种可能的实现方式中,可以使用大数据技术获取用户的舆情数据。例如,可以使用大数据处理框架SparkStreaming对用户的舆情数据进行实时分析处理。SparkStreaming是Spark(专为大规模数据处理而设计的快速通用的计算引擎核心)API的一个扩展,也是一套框架,可以实现高吞吐量的、具备容错机制的实时流数据处理。SparkStreaming使用高级函数对从多个网络数据源采集的舆情数据进行处理,并将处理结果存储到计算机的文件系统、数据库等。另外,SparkStreaming还可以结合自然语言处理技术对所述用户的舆情数据进行预处理,根据所述用户的舆情数据进行情感倾向性、统计等方面的分析。
以下将参照图1来描述本申请实施例的数据处理方法。图1示出根据本公开实施例的数据处理方法的步骤流程图。
如图1所示,步骤S11,获取用于描述用户的基本信息的属性标签。
在一种可能的实现方式中,用户的基本信息可以包括所述用户的年龄、性别、姓名、籍贯、教育程度和/或家庭住址等。所述用户的基本信息可以从所述用户输入的表单中获取。所述用户的表单可以是用户使用应用程序时的注册信息。例如,用户的注册信息中直接公开了自己的昵称和性别,则所述用户的表单会记录用户的昵称和性别等信息。
在一种可能的实现方式中,从所述用户输入的表单中获取所述基本信息作为属性标签,其中,所述表单包括按照键值对方式存储的所述基本信息。例如,用户公开了自己的性别为女,则键值对方式可以记录为“性别=女”,这里的“性别”是键,表征了用户属性,“女”是值,表征了用户属性的值,两者成对出现。通过按照键值对方式存储所述基本信息,能够使得所述表单结构清晰。
在一种可能的实现方式中,从所述用户输入的表单中获取所述基本信息作为属性标签。所述属性标签可以通过统计获取,也可以通过规则和/或预测获取。例如,部分用户都公开了自己的性别为女,则可以通过统计直接将“女性”作为这部分用户的属性标签。又例如,一部分用户公开了自己的籍贯为南京,另一部分用户公开了自己的籍贯为苏州,则可以设置规则(例如,规定只要该用户公开的籍贯位于江苏省内即为江苏人),将“江苏人”作为这两部分用户的属性标签。再例如,一部分用户公开了自己的性别,其余用户没有公开自己的性别,则可以使用机器学习等方法预测所述其余用户的性别,并将预测结果作为所述其余用户的属性标签。
步骤S12,利用所述属性标签确定用于表征所述用户的第一虚拟对象。
在一种可能的实现方式中,利用所述属性标签确定表征所述用户的第一虚拟对象包括:从预设的虚拟对象库中,确定与各个属性标签均对应的虚拟对象作为第一虚拟对象,其中,所述虚拟对象库包括按照与各自的属性标签对应存储的至少一个虚拟对象。
在一种可能的实现方式中,所述虚拟对象库可以由任何可能的方式生成。例如,可以使用Animoji技术(一种生成3D动画表情符号的技术)生成所述虚拟对象库,也可使用伪3D表情技术预设生成所述虚拟对象库。生成的所述虚拟对象库中的虚拟对象可以是3D的,也可以是2D的。本公开对如何生成虚拟对象库并不限定。
在一种可能的实现方式中,所述虚拟对象库可以包括按照与各自的属性标签对应存储的至少一个虚拟对象。例如,所述属性标签为“女性”,则所述虚拟对象库中存储有对应“女性”标签的一个或多个虚拟对象,所述虚拟对象可以是身穿汉服的女性,也可以是长发的女性。如果该用户的属性标签除了“女性”之外,还确定了“古风”这个属性标签,则可以通过求交集,在所述虚拟对象库中搜索对应身着古装的女性的虚拟对象。
在一种可能的实现方式中,一个所述属性标签可以对应至少一个所述虚拟对象库中的虚拟对象,一个所述虚拟对象库中的虚拟对象也可以对应至少一个所述属性标签,所述属性标签和所述虚拟对象库中的虚拟对象之间的映射关系可以灵活确定。例如,所述虚拟对象库中存储有身着汉服的虚拟对象,可以对应“古风”的属性标签,也可以对应“古典美”的属性标签。所述属性标签为“古风”,可以对应服饰为汉服的虚拟对象,也可以对应拥有发簪的虚拟对象。本公开对所述属性标签和所述虚拟对象库中的虚拟对象之间的映射关系并不限定。
图2示出根据本公开实施例的数据处理方法的步骤流程图。如图2所示,
在一种可能的实现方式中,所述数据处理方法还包括:步骤S21:获取用户针对应用程序执行操作而获取的用户操作数据。
在一种可能的实现方式中,所述用户操作数据包括所述用户的历史浏览信息以及所述用户在所述应用程序的文本框内输入的文本信息。例如,所述历史浏览信息可以是用户在使用浏览器时留下的历史浏览信息。又例如,所述文本信息可以是用户在使用微博客户端时针对某一热点事件发表的评论。如果用户发表的评论中含有图片或视频等非文本形式的信息,则可以通过计算机文本识别和/或语音识别等技术先将非文本形式的信息转换为文本信息。本公开对于如何将非文本信息转换为文本信息并不限定。
步骤S22:从所述用户操作数据中获取用于描述用户的社会行为的行为标签。
在一种可能的实现方式中,所述社会行为包括所述用户的兴趣爱好、职业领域、消费习惯和/或用户收入等。与所述属性标签类似,所述行为标签也可以通过统计、规则和/或预测获取。例如,某用户的历史浏览信息中显示,该用户多次访问游戏类网站,则可以将“游戏爱好者”作为该用户的“行为标签”。
在利用设置的规则来确定标签的情况下,可通过例如设置游戏次数的阈值来确定标签,举例来说,可通过将阈值设置为10次,将每月访问游戏类网站次数超过10次的用户的“行为标签”确定为“游戏爱好者”。
此外,对于部分缺少历史浏览信息的用户,可根据用户的已有行为信息预测该用户的“行为标签”。例如,经常访问游戏类网站的用户会在购物网站购买相应的游戏装备,则可以根据部分用户对于相应的游戏装备的购买记录,预测该部分用户的“行为标签”是否也包括“游戏爱好者”。
在一种可能的实现方式中,从所述用户操作数据中获取用于描述用户的社会行为的行为标签包括:利用预设的与行为相关的行为实体抽取方式,将从所述行为数据中提取出的行为实体作为所述行为标签。所述与行为相关的行为实体可以是用户的具体行为的抽象,例如,在某购物网站上每个月的消费金额超过一定额度,则可以确定所述行为实体为“土豪”。
所述预设的与行为相关的行为实体抽取方式,可以是通过统计、规则和/或预测等方式。例如,利用机器学习方法,对已知的训练数据做统计分析从而获得规律,再运用规律对未知数据做预测。在实施中,可以将所述行为数据分为两类,一部分作为训练集,对建立的预测模型进行训练,不断调整预测模型的参数,直至预测的准确度达到预设阈值,另一部分作为测试集,用于测试训练好的预测模型。
步骤S23:确定与所述行为标签对应的第一子图像元素。
在一种可能的实现方式中,利用第一子图像元素对第一虚拟对象进行修正,生成第二虚拟对象。例如,某用户的所述行为标签为“土豪”,则所述第一图像子元素可以包括脖子上戴金链子的第一子图像元素。在第一虚拟对象已经表征了所述属性标签(例如,“江苏人”)的情况下,则对该用户的第一虚拟对象进行修正,将该用户的第一虚拟对象的脖子上戴上金链子。
在一种可能的实现方式中,第一子图像元素包括用于表征所述用户的穿衣方式和/或肢体呈现方式的图像元素。例如,某用户公开的个人信息表明自己的年龄为16岁,性别为女,职业为学生,则第一子图像元素可以包括具有身穿校服的图像元素,也可以包括具有青春气息的姿势(例如,“比心”手势)的图像元素。
步骤S24:利用第一子图像元素对第一虚拟对象进行修正,生成第二虚拟对象。
在一种可能的实现方式中,可以将第一子图像元素和第一虚拟对象进行结合。例如,第一子图像元素为身穿校服的图像元素,第一虚拟对象为女性,则利用第一子图像元素对第一虚拟对象进行修正后的第二虚拟对象为身穿校服的女性。
在一种可能的实现方式中,所述第二虚拟对象的生成,可能会伴随着算法黑箱和信息茧房现象。算法黑箱,是指由于各种原因,相关人员无法获得算法目标、算法设计者、机器生成内容的责任等信息,也无法对算法进行评判和监督,算法犹如一个“黑箱”。由于生成所述虚拟对象的过程中,会利用算法进行处理,算法本身的复杂性可能会导致算法黑箱。信息茧房现象,是指人们习惯性地被自己的兴趣所引导,将自我的思想空间限制在自己的感兴趣领域,犹如困在“茧房”中消化信息。由于所述虚拟对象是以用户操作数据为基础的,而用户操作数据是用户兴趣的直接反映,因此不能全面反应用户的特征,导致信息茧房现象。为了避免算法黑箱和信息茧房现象,还可以对第二虚拟对象进一步修正。
图3示出根据本公开实施例的数据处理方法的步骤流程图。如图3所示,所述方法还包括:步骤S32:从所述用户操作数据中确定用于描述所述用户的主观情感的情感标签。
在一种可能的实现方式中,从所述用户操作数据中确定用于描述所述用户的主观情感的情感标签。例如,用户使用微博客户端发布了自己针对某一事件的评论,内容是“祝愿伟大祖国繁荣昌盛”,则可以利用计算机文本识别技术识别用户发布的内容,然后利用自然语言处理技术对所述内容进行处理,确定此评论中用户的主观情感为正向情感。
所述计算机文本识别技术可以识别来自不同网络数据源、不同形式的数据。所述自然语言处理技术(Natural Language Processing,NLP)可以进行关键词提取、自动摘要、中文分词、倾向性分析等处理。所述自然语言处理技术包括自然语言理解(NaturalLanguage Understanding,NLU)和自然语言生成(Natural Language Generation,NLG)。前者主要从语法角度识别所述用户发布的内容,理解所述内容信息的语义关系,进而明确所述内容信息要表达的意义。后者主要从想要表达的意义出发确定词语,根据词语间的语义关系造出符合语法和逻辑的语句。
在一种可能的实现方式中,可以使用非监督机器学习模型获取所述标签。例如,可以使用Labeled-LDA模型对特征化后的用户数据进行分类。Labeled-LDA(LatentDirichlet Allocation,隐含狄利克雷分配)模型是一种附加了类别标签的具有文本主题表示能力的非监督机器学习模型。基于Labeled-LDA模型,对数据文本进行建模,用训练好的模型进行分类,可以进行特征选择,学习出类别分布,并计算隐含主题在各类别上的分配量,克服了传统LDA模型用于分类时强制分配隐含主题的缺陷,更加准确地对文本进行分类。
在一种可能的实现方式中,可以使用NER技术对所述用户在使用过程中的系列评价和反应进行处理,完成NLP的过程。NER(Name Entity Recognition,命名实体识别)可以用于识别文本中命名实体并分类为预先定义的类别,例如人员、位置等。
在一种可能的实现方式中,可以使用TF-IDF技术用以评估所述数据中的特定情感词汇对于用户的重要程度与出现频次,以此特定词汇优化来所述虚拟对象。TF-IDF(termfrequency–inverse document frequency,词频-逆文本频率)是一种信息检索与数据挖掘的常用加权技术。
在一种可能的实现方式中,还可以利用数据分析引擎和专家系统对所述用户操作数据进行处理。数据分析引擎是整个分析过程的核心部分之一,可以完成话题检测、话题跟踪、倾向性分析,并且对话题进行自动摘要,也可以对相关话题进行归纳和排序,将分析结果存入数据库中。所述话题可以是某一文章的主题,也可以是某一热点的主要的讨论点。
专家系统是一种模拟人类专家解决领域问题的计算机程序系统。基于已有的专家提供的知识和经验,专家系统模拟人类专家的决策过程,进行推理和判断,以解决特定域中的最复杂问题。可以使用专家系统,结合已有的知识库进行推理和判断来修正所述第二虚拟对象。
在一种可能的实现方式中,所述主观情感包括具有按照情感强度而划分的情感等级的正向情感、中立情感或负向情感。所述情感等级的划分可以采用人工方式,事先将所述情感等级划分为正向情感、中立情感或负向情感。也可以采用其他方式划分情感等级,例如积极情感、消极情感等,本公开对如何划分情感等级并不限定。
步骤S33:确定与所述情感标签对应的第二子图像元素。
在一种可能的实现方式中,第二子图像元素包括用于表征用户表情的图像元素。例如,在已经确定所述情感标签属于正向情感的情况,可以确定所述第二子图像元素为具有笑脸的表情。所述表情可以使用Animoji技术(一种生成3D动画表情符号的技术)生成,也可以使用伪3D表情技术生成,本公开对于如何生成所述表情并不限定。此外,所述表情可以是3D的,也可以是2D的。
步骤S34:利用第二子图像元素对第二虚拟对象进行修正,生成第三虚拟对象。
在一种可能的实现方式中,可以将第二子图像元素和第二虚拟对象进行结合。例如,第二子图像元素为带有笑脸的表情,第二虚拟对象为带有金戒指的“土豪”,则利用第二子图像元素对第二虚拟对象进行修正生成的第三虚拟对象可以是带有笑脸的“土豪”。
在一种可能的实现方式中,所述第一虚拟对象、第二虚拟对象和第三虚拟对象可以各自单独生成,也可以相互完全结合或部分结合生成新的虚拟对象。例如,所述第一虚拟对象所映射的标签和所述第二虚拟对象所映射的标签可以自由混合,将混合后的标签用于生成新的虚拟对象。在一个示例中,所述第一虚拟对象所映射的标签包括“女性”和“高中生”,所述第二虚拟对象所映射的标签包括“可爱”,则可以确定“可爱”、“女性”和“高中生”三个标签所映射的新的虚拟对象。本公开对所述第一虚拟对象、第二虚拟对象和第三虚拟对象如何结合并不限定。
在一种可能的实现方式中,通过对第二虚拟形象进一步修正,生成第三虚拟形象,并明确生成第三虚拟形象的具体过程,能够使该方法更容易被评判和监督,更全面地模拟真实用户,避免了算法黑箱和信息信息茧房现象。图4示出根据本公开实施例的数据处理方法的步骤流程图。
如图4所示,所述方法包括:步骤S321:利用预设的情感词典,获取所述用户操作数据中的情感分词。
在一种可能的实现方式中,利用预设的情感词典,获取所述用户操作数据中的情感分词。具体的,分词是将连续的字序列按照一定的规范重新组合成词序列的过程,中文分词将一个汉字序列(例如,句子)切分成一个个独立的单词。例如,可以使用Python(一种计算机程序设计语言)中的结巴工具对文本进行分词。在对所述用户操作数据进行分词之后,可以将跟情感关联性较高的词语提取出来,作为情感分词。将所述情感分词输入到情感机器学习模型组件,从而生成包括用户情感以及对应的情感等级的情感标签。例如,用户操作数据可以是“我今天开心地工作了一天”,将此句话进行分词,丢弃和情感关联性不大的分词(例如,“一天”),提取和情感关联性较高的词语“开心”,然后将“开心”输入到情感机器学习模型组件进行训练,生成“正向情感”这个情感标签。
步骤S322:将所述情感分词输入到情感机器学习模型组件,生成包括用户情感以及对应的情感等级的情感标签。
在一种可能的实现方式中,所述情感机器学习模型组件是利用训练库中的训练情感分词以及对应的训练情感标签进行训练完成的组件。例如,事先将“开心”对应的情感标签标注为“正向情感”,作为训练库。训练库可以从互联网进行搜集,也可以手动编辑和修改。
图5示出根据本公开实施例的数据处理方法的步骤流程图。
如图5所述,所述方法还包括:步骤S42:从所述用户操作数据提取出用于表征用户观点的文本分词。
步骤S43:对所述文本分词执行聚类处理,获取到聚类后的文本分词。
步骤S44:利用聚类后的文本分词生成所述用户的评论分句。
在一个示例中,某用户在微博发表评论:“我同意且赞成加强国防建设”。将所述用户操作数据中的用户评论进行文本分词,提取出表征用户观点的文本分词“赞成”和“同意”,并对“赞成”和“同意”进行聚类处理。文本聚类是一种无监督的学习过程,不需要事先对文本进行手工分类,而是根据文本对象彼此之间的相似度关系,按照某种准则进行集合划分。对“赞成”和“同意”进行聚类的文本分词可以为“支持”,则利用聚类后的文本分词可以生成所述用户的评论分句为:“我支持国防建设”。
图6示出根据本公开实施例的数据处理方法的步骤流程图。如图6所示,所述方法还包括:步骤S45:相关联地呈现所述评论分句与第一虚拟对象。
在一种可能的实现方式中,相关联地呈现所述评论分句与第一虚拟对象。例如,第一虚拟对象为一个女高中生,在呈现所述女高中生的同时,可以在该第一虚拟对象口部的附近,展示“我支持国防建设”这个评论分句。所述评论分句可以嵌入在展示的文本框内。
在一种可能的实现方式中,可以利用虚拟现实技术重现舆情的发生环境。通过增强临场感,可以给用户产生一种身临其境的感受,提升对用户的吸引度、互动度和可信度。同时,虚拟现实环境中的全景信息内容还可以提供平面视频无法提供的更多维度的感知,提高用户的学习程度。
在一种可能的实现方式中,可以利用增强现实技术重现所述舆情数据中的多媒体信息。所述多媒体信息不仅包括文本信息,也包括图片、音频、视频等信息。其中,文本、图片的UI(用户界面)可以由UGUI系统(一种UI实现系统)实现。利用增强现实技术对所述多媒体信息和现实环境进行无缝混合,并导入和所述多媒体相关的情感态度指数,可以更加生动地呈现所述舆情数据。
在一种可能的实现方式中,可以根据所述舆情数据对舆情发生的现场进行呈现。例如,通过记者对现场的记录以及目击者的反馈,将某个事件的现场呈现为类似谷歌地图的可旋转式视图,更真实的还原事发现场的情况。在一个示例中,还可以根据所述舆情数据,例如新闻的类型、地域和热度等进行分类,生成事件发展的时间轴和讨论的热点地图等,并据此对重要时间节点的舆情进行回溯,也可以推演舆情走向,判断下一个新闻爆点出现的可能。
在一种可能的实现方式中,可以通过虚拟环境呈现所述数据,呈现的内容可以包括新闻类细节(例如,事件类型、发生时间、发生地点和发生过程等)、用户类细节(例如,当事人性别和年龄等)和宏观类细节(例如,多个事件的地理分布等)。
在一种可能的实现方式中,所述虚拟环境可以基于非传统的虚拟现实技术生成,所述非传统的虚拟现实技术强化和人的主观性因素紧密相关的部分,弱化和和人的主观性因素相关较少的部分。所述虚拟环境可以通过减少数学建模、动作仿真和即时反馈等和呈现关联性较小的部分,添加情感表达等和呈现关联性较大的部分来实现。例如,某个事件的当事人可以用所述虚拟对象来模拟,从而重现事件发生的现场。
在一种可能的实现方式中,当所述用户的数据发生扩充或修改时,可以返回到步骤S11或者S21,以便更加精确、及时地对已经生成的所述虚拟对象做出实时调整。
图7示出根据本公开实施例的数据处理方法的步骤流程图。如图7所示,所述方法还包括:步骤S46:获取所述用户输入的询问信息。
步骤S47:生成所述询问信息的答复信息。
在一个示例中,在鲍毓明事件中,用户可以向所述虚拟对象提问鲍毓明事件的始末、发酵节点,所述虚拟对象可以通过表情、动作和/或人性化的语句进行回答。
在一种可能的实现方式中,可以通过交流入口获取所述用户输入的询问信息,所述交流入口可以是计算机的浏览器,也可以是平板电脑、手机等其他终端的浏览器,也可以是某个应用程序。例如,手机的应用程序可以获取用户的实时语音,并将所述语音转换成文本。所述虚拟对象在获取到转换后的文本后,作出相应的反馈,包括输出表情、动作和/或人性化的语句等。
在一种可能的实现方式中,生成所述询问信息的答复信息包括:将所述询问信息输入到训练完成的对话机器学习模型组件,获取所述答复信息。
在一种可能的实现方式中,所述对话机器学习模型组件可以利用理解与技术交互平台(Understanding and Interaction Technology,UNIT)实现。理解与技术交互平台是一种为第三方开发者打造的对话系统开发平台。通过理解与技术交互平台可以使所述虚拟对象和所述用户之间的互动更加智能化。具体的,可以利用理解与技术交互平台新建对话意图,并添多个词槽信息,配置回复的触发规则。当满足相应规则时,即可触发相应回复。也可以根据规则将一句话拆解成不同的部分,将不同的部分进行标注,据此训练出对话机器学习模型,结合大量对话样本和已有的对话模板,使对话更加精确。为了使所述虚拟对象更好的理解对话,还可以在对话模型中配置特征词辅助匹配用户的查询,并在训练过程中适时调整对话模板的某些阈值,以达成更精准的匹配。
图8示出根据本公开实施例的数据处理系统的层次示意图。如图8所示,所述数据处理系统可以包括管理层、数据层、呈现层以及互动层。
管理层主要负责数据规划,包括数据规划的目的、主题和工作路线等内容。具体的,数据规划还明确了数据规划的对象、功能架构以及角色分配、风险管理等,有利于实施者从宏观上把握整个技术方案。实施者可以按照自己的实际需求进行数据规划,本公开对此不做限定。在一个示例中,管理层可以先对目标进行解读,明确服务对象,包括运营人员和数据分析人员,还可以进行需求调研,并确认应用场景。
数据层主要完成数据的采集、分析和处理,可分为数据采集和数据分析两个部分。数据层的核心部分是数据分析引擎,可以进行话题检测、跟踪以及情感倾向性分析,并将各类热点话题及倾向性进行自动摘要,将分析结果存入数据库。数据分析引擎的主要技术涉及文本聚类、文本分类以及情感分析等所采用的模型。除了数据分析引擎,可以采用其他关联技术(例如,专家系统)对数据进行进一步的处理和分析。
呈现层主要面向用户提供诸如数据分析、统计报告和趋势分析等服务,并结合所述虚拟对象和细化后的数据进行呈现。
互动层主要是用户和虚拟对象之间、用户和用户之间以及虚拟对象和虚拟对象之间的交互。
本公开的关键在于呈现层和互动层,通过获取用于描述用户的基本信息的属性标签并利用所述属性标签确定用于表征所述用户的第一虚拟对象,能够将数据更加生动和细致的呈现出来,提升用户互动交流的欲望和体验感。具体来说,本公开基于虚拟现实技术来实现所述虚拟对象的可视化呈现,对于具体的社会热点事件,能够沉浸式还原事件发生的场景。同时基于人工智能的关联技术(例如,自然语言处理技术)实现了舆情呈现和互动的细化,不仅细化了舆情数据呈现的细节(例如,生成事件发展的事件轴和新闻热点地图等),也考虑了用户的因素,利用所述用户的数据生成所述虚拟对象进行呈现和互动,从而提升了用户体验。
图9示出根据本公开实施例的数据处理装置的框图,如图9所示,所述数据处理装置90,包括属性标签获取模块91以及第一虚拟对象确定模块92。
属性标签获取模块91用于获取用于描述用户的基本信息的属性标签。第一虚拟对象确定模块92用于利用所述属性标签确定用于表征所述用户的第一虚拟对象。
在一种可能的实现方式中,所述属性标签获取模块用于从所述用户输入的表单中获取所述基本信息作为属性标签,其中,所述表单包括按照键值对方式存储的所述基本信息。
在一种可能的实现方式中,所述第一虚拟对象确定模块用于从预设的虚拟对象库中,确定与各个属性标签均对应的虚拟对象作为第一虚拟对象,其中,所述虚拟对象库包括按照与各自的属性标签对应存储的至少一个虚拟对象。
在一种可能的实现方式中,所述数据处理装置90还包括用户操作数据获取模块,其中,用户操作数据获取模块用于获取用户针对应用程序执行操作而获取的用户操作数据。
在一种可能的实现方式中,所述用户操作数据包括所述用户的历史浏览信息以及所述用户在所述应用程序的文本框内输入的文本信息。
在一种可能的实现方式中,所述装置还包括行为标签获取模块,其中,所述行为标签获取模块用于从所述用户操作数据中获取用于描述用户的社会行为的行为标签。
在一种可能的实现方式中,所述行为标签获取模块用于利用预设的与行为相关的行为实体抽取方式,将从所述行为数据中提取出的行为实体作为所述行为标签。
在一种可能的实现方式中,所述装置还包括第一子图像元素确定模块和第二虚拟对象生成模块。在实施中,第一子图像元素确定模块,用于确定与所述行为标签对应的第一子图像元素。第二虚拟对象生成模块,用于利用第一子图像元素对第一虚拟对象进行修正,生成第二虚拟对象。
在一种可能的实现方式中,第一子图像元素包括用于表征所述用户的穿衣方式和/或肢体呈现方式的图像元素。
在一种可能的实现方式中,所述数据处理装置90还包括情感标签获取模块,其中,情感标签获取模块用于从所述用户操作数据中确定用于描述所述用户的主观情感的情感标签。
在一种可能的实现方式中,所述主观情感包括具有按照情感强度而划分的情感等级的正向情感、中立情感或负向情感。
在一种可能的实现方式中,所述情感标签获取模块包括情感分词获取模块以及情感标签生成模块。
情感分词获取模块用于利用预设的情感词典,获取所述用户操作数据中的情感分词。情感标签生成模块用于将所述情感分词输入到情感机器学习模型组件,生成包括用户情感以及对应的情感等级的情感标签。
在一种可能的实现方式中,所述情感机器学习模型组件是利用训练库中的训练情感分词以及对应的训练情感标签进行训练完成的组件。
在一种可能的实现方式中,所述装置还包括第二子图像元素确定模块和第三虚拟对象生成模块,其中,第二子图像元素确定模块用于确定与所述情感标签对应的第二子图像元素,第三虚拟对象生成模块,用于利用第二子图像元素对第二虚拟对象进行修正,生成第三虚拟对象。
在一种可能的实现方式中,第二子图像元素包括用于表征用户表情的图像元素。
在一种可能的实现方式中,所述数据处理装置90还包括文本分词提取模块、文本分词获取模块以及评论分句生成模块。
文本分词提取模块用于从所述用户操作数据提取出用于表征用户观点的文本分词。文本分词聚类模块用于对所述文本分词执行聚类处理,获取到聚类后的文本分词。评论分句生成模块用于利用聚类后的文本分词生成所述用户的评论分句。
在一种可能的实现方式中,所述数据处理装置90还包括呈现模块,用于相关联地呈现所述评论分句与第一虚拟对象。
在一种可能的实现方式中,所述呈现模块包括询问模块以及答复模块。
询问模块用于获取所述用户输入的询问信息。答复模块用于生成所述询问信息的答复信息。
在一种可能的实现方式中,所述答复模块用于将所述询问信息输入到训练完成的对话机器学习模型组件,获取所述答复信息。
在一种可能的实现方式中,所述数据处理方法可以由所述数据处理装置实现。所述属性标签获取模块、行为标签获取模块和情感标签获取模块可以各自独立使用,也可以两两结合使用,还可以根据需要按照一定顺序执行或者同时执行。本公开对所述属性标签获取模块、行为标签获取模块和情感标签获取模块的选择和执行顺序并不限定。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。
此外,本公开还提供了上述装置、电子设备、计算机可读存储介质、程序,上述均可用来实现本公开提供的任一种数据处理方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
本公开还提出一种数据处理装置,包括处理器和用于存储处理器可执行指令的存储器;其中,所述处理器通过调用所述可执行指令实现本公开任一方法实施例,具体工作过程以及设置方式均可以参照本公开上述相应方法实施例的具体描述,限于篇幅,在此不再赘述。
本公开实施例还提出一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述任一方法实施例。计算机可读存储介质可以是非易失性计算机可读存储介质。
图10是根据示例性实施例示出的一种用于数据处理的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图10,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器804,上述计算机程序指令可由装置800的处理器820执行以完成上述方法。
图11是根据一示例性实施例示出的一种用于数据处理的装置1900的框图。例如,装置1900可以被提供为一服务器。参照图11,装置1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由装置1900的处理组件1922执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (40)

1.一种数据处理方法,其特征在于,所述方法包括:
获取用于描述用户的基本信息的属性标签;
利用所述属性标签确定用于表征所述用户的第一虚拟对象。
2.如权利要求1所述的方法,其特征在于,获取用于描述用户的基本信息的属性标签包括:
从所述用户输入的表单中获取所述基本信息作为属性标签,其中,所述表单包括按照键值对方式存储的所述基本信息。
3.如权利要求1所述的方法,其特征在于,利用所述属性标签确定表征所述用户的第一虚拟对象包括:
从预设的虚拟对象库中,确定与各个属性标签均对应的虚拟对象作为第一虚拟对象,其中,所述虚拟对象库包括按照与各自的属性标签对应存储的至少一个虚拟对象。
4.如权利要求1所述的方法,其特征在于,还包括:
获取用户针对应用程序执行操作而获取的用户操作数据。
5.如权利要求4所述的方法,其特征在于,所述用户操作数据包括所述用户的历史浏览信息以及所述用户在所述应用程序的文本框内输入的文本信息。
6.如权利要求4所述的方法,其特征在于,还包括:
从所述用户操作数据中获取用于描述用户的社会行为的行为标签。
7.如权利要求6所述的方法,其特征在于,从所述用户操作数据中获取用于描述用户的社会行为的行为标签包括:
利用预设的与行为相关的行为实体抽取方式,将从所述行为数据中提取出的行为实体作为所述行为标签。
8.如权利要求7所述的方法,其特征在于,所述方法还包括:
确定与所述行为标签对应的第一子图像元素;
利用第一子图像元素对第一虚拟对象进行修正,生成第二虚拟对象。
9.如权利要求8所述的方法,其特征在于,第一子图像元素包括用于表征所述用户的穿衣方式和/或肢体呈现方式的图像元素。
10.如权利要求8所述的方法,其特征在于,所述方法还包括:
从所述用户操作数据中确定用于描述所述用户的主观情感的情感标签。
11.如权利要求10所述的方法,其特征在于,所述主观情感包括具有按照情感强度而划分的情感等级的正向情感、中立情感或负向情感。
12.如权利要求11所述的方法,其特征在于,从所述用户操作数据中确定用于描述所述用户的主观情感的情感标签包括:
利用预设的情感词典,获取所述用户操作数据中的情感分词;
将所述情感分词输入到情感机器学习模型组件,生成包括用户情感以及对应的情感等级的情感标签。
13.如权利要求12所述的方法,其特征在于,所述情感机器学习模型组件是利用训练库中的训练情感分词以及对应的训练情感标签进行训练完成的组件。
14.如权利要求10所述的方法,其特征在于,所述方法还包括:
确定与所述情感标签对应的第二子图像元素;
利用第二子图像元素对第二虚拟对象进行修正,生成第三虚拟对象。
15.如权利要求14所述的方法,其特征在于,第二子图像元素包括用于表征用户表情的图像元素。
16.如权利要求4所述的方法,其特征在于,所述方法还包括:
从所述用户操作数据提取出用于表征用户观点的文本分词;
对所述文本分词执行聚类处理,获取到聚类后的文本分词;
利用聚类后的文本分词生成所述用户的评论分句。
17.如权利要求16所述的方法,其特征在于,所述方法还包括:
相关联地呈现所述评论分句与第一虚拟对象。
18.如权利要求17所述的方法,其特征在于,所述方法还包括:
获取所述用户输入的询问信息;
生成所述询问信息的答复信息。
19.如权利要求18所述的方法,其特征在于,生成所述询问信息的答复信息包括:
将所述询问信息输入到训练完成的对话机器学习模型组件,获取所述答复信息。
20.一种数据处理装置,其特征在于,所述装置包括:
属性标签获取模块,用于获取用于描述用户的基本信息的属性标签;
第一虚拟对象确定模块,用于利用所述属性标签确定用于表征所述用户的第一虚拟对象。
21.根据权利要求20所述的装置,其特征在于,所述属性标签获取模块用于从所述用户输入的表单中获取所述基本信息作为属性标签,其中,所述表单包括按照键值对方式存储的所述基本信息。
22.根据权利要求20所述的装置,其特征在于,所述第一虚拟对象确定模块用于从预设的虚拟对象库中,确定与各个属性标签均对应的虚拟对象作为第一虚拟对象,其中,所述虚拟对象库包括按照与各自的属性标签对应存储的至少一个虚拟对象。
23.根据权利要求20所述的装置,其特征在于,所述装置还包括:
用户操作数据获取模块,用于获取用户针对应用程序执行操作而获取的用户操作数据。
24.根据权利要求23所述的装置,其特征在于,所述用户操作数据包括所述用户的历史浏览信息以及所述用户在所述应用程序的文本框内输入的文本信息。
25.根据权利要求23所述的装置,其特征在于,所述装置还包括:
行为标签获取模块,用于从所述用户操作数据中获取用于描述用户的社会行为的行为标签。
26.如权利要求25所述的装置,其特征在于,所述行为标签获取模块用于利用预设的与行为相关的行为实体抽取方式,将从所述行为数据中提取出的行为实体作为所述行为标签。
27.如权利要求26所述的装置,其特征在于,所述装置还包括:
第一子图像元素确定模块,用于确定与所述行为标签对应的第一子图像元素;
第二虚拟对象生成模块,用于利用第一子图像元素对第一虚拟对象进行修正,生成第二虚拟对象。
28.根据权利要求27所述的装置,其特征在于,第一子图像元素包括用于表征所述用户的穿衣方式和/或肢体呈现方式的图像元素。
29.根据权利要求27所述的装置,其特征在于,所述装置还包括:
情感标签确定模块,用于从所述用户操作数据中确定用于描述所述用户的主观情感的情感标签。
30.根据权利要求29所述的装置,其特征在于,所述主观情感包括具有按照情感强度而划分的情感等级的正向情感、中立情感或负向情感。
31.根据权利要求30所述的装置,其特征在于,所述情感标签确定模块包括:
情感分词获取模块,用于利用预设的情感词典,获取所述用户操作数据中的情感分词;
情感标签生成模块,用于将所述情感分词输入到情感机器学习模型组件,生成包括用户情感以及对应的情感等级的情感标签。
32.根据权利要求31所述的装置,其特征在于,所述情感机器学习模型组件是利用训练库中的训练情感分词以及对应的训练情感标签进行训练完成的组件。
33.根据权利要求28所述的装置,其特征在于,所述装置还包括:
第二子图像元素确定模块,用于确定与所述情感标签对应的第二子图像元素;
第三虚拟对象生成模块,用于利用第二子图像元素对第二虚拟对象进行修正,生成第三虚拟对象。
34.如权利要求33所述的方法,其特征在于,第二子图像元素包括用于表征用户表情的图像元素。
35.根据权利要求23所述的装置,其特征在于,所述装置还包括:
文本分词提取模块,用于从所述用户操作数据提取出用于表征用户观点的文本分词;
文本分词聚类模块,用于对所述文本分词执行聚类处理,获取到聚类后的文本分词;
评论分句生成模块,用于利用聚类后的文本分词生成所述用户的评论分句。
36.根据权利要求35所述的装置,其特征在于,所述装置还包括:
呈现模块,用于相关联地呈现所述评论分句与第一虚拟对象。
37.根据权利要求36所述的装置,其特征在于,所述呈现模块包括:
询问模块,用于获取所述用户输入的询问信息;
答复模块,用于生成所述询问信息的答复信息。
38.根据权利要求37所述的装置,其特征在于,所述答复模块具体用于将所述询问信息输入到训练完成的对话机器学习模型组件,获取所述答复信息。
39.一种数据处理装置,所述装置包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行权利要求1至19中的任一权利要求所述的方法。
40.一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现权利要求1至19中的任一权利要求所述的方法。
CN202010981098.9A 2020-09-17 2020-09-17 一种数据处理方法及装置 Pending CN112115231A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010981098.9A CN112115231A (zh) 2020-09-17 2020-09-17 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010981098.9A CN112115231A (zh) 2020-09-17 2020-09-17 一种数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN112115231A true CN112115231A (zh) 2020-12-22

Family

ID=73799900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010981098.9A Pending CN112115231A (zh) 2020-09-17 2020-09-17 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN112115231A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114866506A (zh) * 2022-04-08 2022-08-05 北京百度网讯科技有限公司 展示虚拟形象的方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951447A (zh) * 2014-03-25 2015-09-30 上海市玻森数据科技有限公司 全网舆情监控系统
CN109829628A (zh) * 2019-01-07 2019-05-31 平安科技(深圳)有限公司 基于大数据的风险预警方法、装置和计算机设备
US20190197105A1 (en) * 2017-12-21 2019-06-27 International Business Machines Corporation Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources
CN110688008A (zh) * 2019-09-27 2020-01-14 贵州小爱机器人科技有限公司 虚拟形象交互方法和装置
CN110812843A (zh) * 2019-10-30 2020-02-21 腾讯科技(深圳)有限公司 基于虚拟形象的交互方法及装置、计算机存储介质
CN110825876A (zh) * 2019-11-07 2020-02-21 上海德拓信息技术股份有限公司 电影评论观点情感倾向性分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951447A (zh) * 2014-03-25 2015-09-30 上海市玻森数据科技有限公司 全网舆情监控系统
US20190197105A1 (en) * 2017-12-21 2019-06-27 International Business Machines Corporation Unsupervised neural based hybrid model for sentiment analysis of web/mobile application using public data sources
CN109829628A (zh) * 2019-01-07 2019-05-31 平安科技(深圳)有限公司 基于大数据的风险预警方法、装置和计算机设备
CN110688008A (zh) * 2019-09-27 2020-01-14 贵州小爱机器人科技有限公司 虚拟形象交互方法和装置
CN110812843A (zh) * 2019-10-30 2020-02-21 腾讯科技(深圳)有限公司 基于虚拟形象的交互方法及装置、计算机存储介质
CN110825876A (zh) * 2019-11-07 2020-02-21 上海德拓信息技术股份有限公司 电影评论观点情感倾向性分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114866506A (zh) * 2022-04-08 2022-08-05 北京百度网讯科技有限公司 展示虚拟形象的方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US11809829B2 (en) Virtual assistant for generating personalized responses within a communication session
CN110892395B (zh) 提供增强的通信会话服务的虚拟助手
US10324591B2 (en) System for creating and retrieving contextual links between user interface objects
Song et al. “Is a picture really worth a thousand words?”: A case study on classifying user attributes on Instagram
CN111339404A (zh) 基于人工智能的内容热度预测方法、装置和计算机设备
US11126682B1 (en) Hyperlink based multimedia processing
US10770072B2 (en) Cognitive triggering of human interaction strategies to facilitate collaboration, productivity, and learning
US11756567B2 (en) Autocreation of conversational image representation
CN113111264B (zh) 界面内容显示方法、装置、电子设备及存储介质
CN111460267B (zh) 对象识别方法、装置和系统
CN113573128A (zh) 一种音频处理方法、装置、终端以及存储介质
CN112115231A (zh) 一种数据处理方法及装置
Wu et al. Toward predicting active participants in tweet streams: A case study on two civil rights events
US11558471B1 (en) Multimedia content differentiation
CN116610717A (zh) 数据处理方法、装置、电子设备以及存储介质
CN116980665A (zh) 一种视频处理方法、装置、计算机设备、介质及产品
KR20240036715A (ko) 메시징 시스템에서의 화제들의 진화
US11809481B2 (en) Content generation based on multi-source content analysis
Baldwin et al. A Character Recognition Tool for Automatic Detection of Social Characters in Visual Media Content
US11010935B2 (en) Context aware dynamic image augmentation
WO2020206392A1 (en) Voice-based social network
US20230091949A1 (en) Data realization for virtual collaboration environment
Sezen Machine gaze on women: How everyday machine-vision-technologies see women in films
Tropnikov The Description of the Structure of Social Identity in the Information Space, Using Automated Data Processing Tools
Joseph et al. Exploring the Application of Natural Language Processing for Social Media Sentiment Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination