CN107273362B - 数据处理方法及其设备 - Google Patents

数据处理方法及其设备 Download PDF

Info

Publication number
CN107273362B
CN107273362B CN201710537066.8A CN201710537066A CN107273362B CN 107273362 B CN107273362 B CN 107273362B CN 201710537066 A CN201710537066 A CN 201710537066A CN 107273362 B CN107273362 B CN 107273362B
Authority
CN
China
Prior art keywords
sentence
data
corpus
subject term
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710537066.8A
Other languages
English (en)
Other versions
CN107273362A (zh
Inventor
刘帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN201710537066.8A priority Critical patent/CN107273362B/zh
Publication of CN107273362A publication Critical patent/CN107273362A/zh
Application granted granted Critical
Publication of CN107273362B publication Critical patent/CN107273362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种数据处理方法,该方法包括:获取语料数据,其中,与语料数据对应的语料包含至少一个语句;基于语料数据对语料进行分句处理,以得到至少一个语句数据,其中,每个语句数据对应的语句包含一个或者多个;基于分句处理结果,确定至少一个语句数据中第一语句数据包含的主题词集合;以及按照预设规则从主题词集合中选出满足预设条件的主题词作为第一语句数据的主题词。本公开还提供了一种数据处理系统以及一种数据处理设备。

Description

数据处理方法及其设备
技术领域
本公开涉及一种数据处理方法及其设备。
背景技术
随着电子商务技术和互联网技术的发展,用户可以通过多种渠道对其关注的企业或者产品发布评价,这些评论一般会涉及企业或者产品的多个主题,如何对这些海量的评论语料进行处理,识别出评论语料的主题,对舆情分析有非常重要的指导意义。
在实现本公开的过程中,发明人发现现有技术中至少存在如下问题,面对海量的语料,难以准确地识别出评论语料的主题。
针对相关技术中的上述问题,目前还未提出有效的解决方案。
发明内容
有鉴于此,本公开提供了一种数据处理方法、数据处理系统及数据处理设备。
本公开的一个方面提供了一种数据处理方法,包括:获取语料数据,其中,与上述语料数据对应的语料包含至少一个语句;基于上述语料数据对上述语料进行分句处理,以得到至少一个语句数据,其中,每个语句数据对应的语句包含一个或者多个;基于分句处理结果,确定上述至少一个语句数据中第一语句数据包含的主题词集合;以及按照预设规则从上述主题词集合中选出满足预设条件的主题词作为上述第一语句数据的主题词。
可选地,基于上述语料数据对上述语料进行分句处理,以得到至少一个语句数据包括:确定上述语料的语料来源,其中,不同的语料来源对应于不同的语料分句处理规则;基于确定出的语料来源,获取用于对上述语料的第一语料进行分句处理的规则;以及基于上述第一 语料分句处理规则和上述语料数据对上述语料进行分句处理,以得到至少一个语句数据。
可选地,确定上述至少一个语句数据中第一语句数据包含的主题词集合包括:从上述至少一个语句数据中确定出关键句,其中,上述关键句根据上述至少一个语句数据中各语句数据之间的相似度确定;分析获取上述关键句包含的主题词集合,以及按照预设规则从上述主题词集合中选出满足预设条件的主题词作为上述第一语句数据的主题词包括:按照主题词权重值的大小从上述关键句包含的主题词集合中选出权重值最高的主题词作为上述关键句的主题词。
可选地,当确定上述至少一个语句数据中的第二语句数据不是上述关键句时,确定上述第二语句数据的主题词集合;获取与上述第二语句数据相邻的第三语句数据的主题词;若上述第二语句数据的主题词集合包含上述第三语句的主题词,则将上述第三语句数据的主题词作为上述第二语句的主题词;或者若上述第二语句数据的主题词集合不包含上述第三语句的主题词,则按照主题词权重值的大小从上述第二语句数据的主题词集合中选出权重值最高的主题词作为上述第二语句数据的主题词。
可选地,若上述第二语句数据的主题词集合为空集,则将上述第三语句数据的主题词作为上述第二语句的主题词,或按照主题词权重值的大小从上述第三语句数据的主题词集合中选出权重值最高的主题词作为上述第二语句数据的主题词。
可选地,当上述第二语句数据为上述关键句的相邻句时,上述第三语句数据为上述关键句。
本公开的另一个方面提供了一种数据处理系统,包括:获取模块,用于获取语料数据,其中,与上述语料数据对应的语料包含至少一个语句;处理模块,用于基于上述语料数据对上述语料进行分句处理,以得到至少一个语句数据,其中,每个语句数据对应的语句包含一个或者多个;确定模块,用于确定上述至少一个语句数据中第一语句数据包含的主题词集合;以及选择模块,用于按照预设规则从上述主题词集合中选出满足预设条件的主题词作为上述第一语句数据的主题词。
可选地,上述处理模块包括:第一确定单元,用于确定上述语料的语料来源,其中,不同的语料来源对应于不同的语料分句处理规则;第一获取单元,用于基于确定出的语料来源,获取用于对上述语料的第一语料进行分句处理的规则;以及处理单元,用于基于上述第一语料分句处理规则和上述语料数据对上述语料进行分句处理,以得到至少一个语句数据。
可选地,上述确定模块包括:第二确定单元,用于从上述至少一个语句数据中确定出关键句,其中,上述关键句根据上述至少一个语句数据中各语句数据之间的相似度确定;第二获取单元,用于分析获取上述关键句包含的主题词集合,以及上述选择模块,还用于按照主题词权重值的大小从上述关键句包含的主题词集合中选出权重值最高的主题词作为上述关键句的主题词。
本公开的另一个方面还提供了一种数据处理设备,包括:一个或多个存储器,用于存储可执行指令;以及一个或多个处理器,用于执行上述可执行指令,以实现任一项上述的数据处理方法。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以应用数据处理方法的示例性系统架构;
图2示意性示出了根据本公开实施例的数据处理方法的流程图;
图3示意性示出了根据本公开实施例基于语料数据对语料进行分句处理,以得到至少一个语句数据的流程图;
图4示意性示出了根据本公开实施例的数据处理系统的框图;
图5示意性示出了根据本公开实施例的处理模块的框图;以及
图6示意性示出了应用本公开实施例的适于实现数据处理方法的计算机系统的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的术语“包括”、“包含”等表明了上述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。
因此,本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中,计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
本公开的实施例提供了一种数据处理方法及其设备。该方法包括数据获取阶段和数据处理阶段。在数据获取阶段,既需要获取不同来源的语料数据,也需要获取这些语料数据的来源信息。在完成数据获取之后,进入数据处理阶段,此时可以基于获取的语料数据和语料数据的来源对语料进行分句处理,得到至少一个语句数据,基于分句处理结果,确定至少一个语句数据中第一语句数据包含的主题词集合,按照预设规则从主题词集合中选出满足预设条件的主题词作为第一语句数据的主题词。
图1示意性示出了根据本公开实施例的可以应用数据处理方法的示例性系统架构。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
需要说明的是,本公开实施例所提供的数据处理方法一般可以由服务器105执行。相应地,本公开实施例所提供的数据处理系统一般 可以设置于服务器105中。本公开实施例所提供的数据处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的数据处理系统也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
随着电子商务技术和互联网技术的发展,用户可以通过多种渠道对其关注的企业或者产品发布评价,这些评论一般会涉及企业或者产品的多个主题,业务部门对产品舆情分为很多个关注主题,识别一篇用户评论语料的特定主题是一个难点,如何对这些海量的评论语料进行处理,准确识别出评论语料的主题,对舆情分析有非常重要的指导意义。
本公开的实施例提供了一种数据处理方法及其系统,该方法包括:获取语料数据,其中,与语料数据对应的语料包含至少一个语句;基于语料数据对语料进行分句处理,以得到至少一个语句数据,其中,每个语句数据对应的语句包含一个或者多个;基于分句处理结果,确定至少一个语句数据中第一语句数据包含的主题词集合;以及按照预设规则从主题词集合中选出满足预设条件的主题词作为第一语句数据的主题词。
本公开的实施例提供了一种数据处理方法。
图2示意性示出了根据本公开实施例的数据处理方法的流程图。
如图2所示,该数据处理方法可以包括操作S201~S204,其中:
在操作S201,获取语料数据,其中,与语料数据对应的语料包含至少一个语句。
需要说明的是,语料是语言学范畴的概念,通常也称为文本,语料数据是与语料相关的数据,每个语料都有自己的语料数据,其中,语料数据包括但不限于用户评论的文本信息,评论的渠道、长短和类型,评论的主题等等,例如语料可以包括但不限于用户通过多种渠道对其关注的企业或者产品发布的评论信息,发布渠道可以包括但不限于购买商品的电商网站、各论坛发帖、各门户网站等,在此不做限定。这些评论信息可以涉及产品或者企业的一个或者多个主题,例如用户 在某电商平台购买一款手机,与手机相关的主题可以包括但不限于手机的屏幕、电池、外观、系统等等。用户发布的评论信息包含一个或多个语句,在此不做限定。一般情况下,用户对某一主题的评论内容一般具有一定的逻辑性。换言之,用户在发布评论时通常都会围绕一个主题来展开评论,可能有3种情况:情况1,围绕首句展开评论;情况2,围绕中间句展开评论;情况3,围绕尾句展开评论。
获取评论数据可以包括多种方式/手段,在此不做限定。例如可以通过爬虫软件,汇总产品的各电商评论、论坛主贴、各门户网站新闻等评论数据。
在操作S202,基于语料数据对语料进行分句处理,以得到至少一个语句数据,其中,每个语句数据对应的语句包含一个或者多个。
需要说明的是,每个语料数据对应的语句包含一个或者多个语句,对语料数据进行分句处理,得到一个或多个语句数据,以下将以分句后包含5个语句的语料数据为例对本公开的实施例进行说明,并非对本公开的限定。将该语料数据表示为句1、句2、句3、句4、句5的形式,其中,句1是整个语料数据的首句,句5为整个语料数据的尾句,句2、句3和句4这三句为整个语料数据的中间句,且句1、句2、句3、句4和句5互为邻句的关系,如句2为句1的右邻句,句2为句3的左邻句。
在操作S203,基于分句处理结果,确定至少一个语句数据中第一语句数据包含的主题词集合。
需要说明的是,在获取语料数据之后,根据获取的语料数据,构建产品的各主题以及主题映射词典,主题词典的内容为特定主题下的主题词以及该主题词与主题的权重,其中,构建主题词典可以包括多种方式/手段,在此不做限定。例如可以使用文本聚类和卡方选词的方法离线构建主题词映射词典。基于分句处理结果,确定至少一个语句数据中第一语句数据包含的主题词集合,例如基于分句处理结果,根据主题词典,对分句后的得到的5个语句中的第一语句数据,例如可以是句1,通过命中主题词权重的方式确定句1包含的主题词集合1。
在操作S204,按照预设规则从主题词集合中选出满足预设条件的主题词作为第一语句数据的主题词。
需要说明的是,在获得第一语句数据的主题词集合后,按照预设规则从主题词集合中选出满足预设条件的主题词作为第一语句的主题词。例如可以是从句1包含的主题词集合1中选出满足预设条件的主题词作为句1的主题词,最终根据各句确定的主题,得到各主题对应的分句语料。
通过本公开的实施例,对语料数据进行分句处理,确定至少一个语句数据中第一语句数据包含的主题词集合,按照预设规则从中选出满足预设条件的主题词作为第一语句的主题词,可以实现准确识别出评论语料的主题的技术效果。
图3示意性示出了根据本公开实施例基于语料数据对语料进行分句处理,以得到至少一个语句数据的流程图。
如图3所示,基于语料数据对语料进行分句处理,以得到至少一个语句数据可以包括操作S301~S304,其中:
在操作S301,确定语料的语料来源,其中,不同的语料来源对应于不同的语料分句处理规则。
在操作S302,基于确定出的语料来源,获取用于对语料的第一语料进行分句处理的规则。
在操作S303,基于第一语料分句处理规则和语料数据对语料进行分句处理,以得到至少一个语句数据。
需要说明的是,通过获取的语料数据,确定语料的语料来源,针对不同的语料来源,将会有不同的语料分句处理规则,例如,电商网站评论采用短句的划分逻辑,新闻语料采用长句的划分逻辑等,在此不做限定。基于获取的语料处理规则和语料数据对语料进行分句处理,得到至少一个语句数据,例如可以是将电商网站的评论按照短句处理规则得到5个语句,将该语料数据表示为句1、句2、句3、句4、句5的形式。
通过本公开的实施例,针对不同数据源,不同的文本长度和类型,采用不同的分句逻辑,充分考虑语料的主题覆盖情况,描述连贯性, 以及语料中各语句之间关系等因素的综合考量,得到较为理想的主题分句结果,给后续分析挖掘用户评论的特定模式规律奠定了良好的数据基础。
根据本公开实施例,确定至少一个语句数据中第一语句数据包含的主题词集合包括:从至少一个语句数据中确定出关键句,其中,关键句根据至少一个语句数据中各语句数据之间的相似度确定;分析获取关键句包含的主题词集合,以及按照预设规则从主题词集合中选出满足预设条件的主题词作为第一语句数据的主题词包括:按照主题词权重值的大小从关键句包含的主题词集合中选出权重值最高的主题词作为关键句的主题词。
需要说明的是,确定关键句可以包括多种方法/方式,在此不做限定。例如可以通过网页排序(简称为PageRank)算法、文本排序(简称为TextRank)算法识别出关键句,具体地,对语料数据进行分句处理后得到的5个语句,构建这5个语句之间的语句关系图,并采用基于PageRank算法计算关系图中5个语句之间的相似度,比较每个句子和其他句子的相似度值,如可以是两个语句之间的距离,将和其余语句的相似度较高的那个语句确定5个语句中的关键句。具体地,关键句确定结果可以包括3种情况:情况1,句1为关键句;情况2,句2、句3或句4中的任意一句为关键句;情况3,句5为关键句。
在识别出关键句之后,将关键句映射到离线构建好的主题词典,得到关键句中包含的主题词集合以及各主题词与主题的权重值,并按照权重值的大小对主题中的各个主题词进行排序,选出权重值最高的主题词作为关键句的主题词。
通过本公开的实施例,从至少一个语句数据中确定出关键句,充分考虑语料包含的各语句之间的关系,将关键句包含的主题词集合中权重值最高的主题词作为关键句的主题词,得到较为理想的主题词识别结果。
根据本公开实施例,当确定至少一个语句数据中的第二语句数据不是关键句时,确定第二语句数据的主题词集合;获取与第二语句数据相邻的第三语句数据的主题词;若第二语句数据的主题词集合包含 第三语句的主题词,则将第三语句数据的主题词作为第二语句的主题词;或者若第二语句数据的主题词集合不包含第三语句的主题词,则按照主题词权重值的大小从第二语句数据的主题词集合中选出权重值最高的主题词作为第二语句数据的主题词。
根据本公开实施例,若第二语句数据的主题词集合为空集,则将第三语句数据的主题词作为第二语句的主题词,或按照主题词权重值的大小从第三语句数据的主题词集合中选出权重值最高的主题词作为第二语句数据的主题词。
根据本公开实施例,当第二语句数据为关键句的相邻句时,第三语句数据为关键句。
需要说明的是,对应于关键句在语料数据中的3种情况,第二语句的主题词确定方法也可以包括以下3种情况:
情况1,在句1为关键句的情况下,句2、句3、句4和句5都可以是第二语句,确定句2的主题词集合,如果句2的主题词集合包含关键句的主题词,则句2的主题词为关键句的主题词;在句2的主题词为关键句的主题词的情况下,确定句3的主题词集合,如果句3的主题词集合包含关键句的主题词,则句3的主题词为关键句的主题词;以此类推,确定句4、句5的主题词,在此不再赘述。
如果句2的主题词集合不包含关键句的主题词,则从句2的主题词集合中选择权重值最高的主题词作为句2的主题词,确定句3的主题词集合,如果句3的主题词集合不包含句2的主题词集合中选择权重值最高的主题词,则从句3的主题词集合中选择权重值最高的主题词作为句2的主题词,以此类推,确定句4、句5的主题词,在此不再赘述。
如果句2的主题词集合为空集,则句2的主题词为关键句的主题词,以此类推,确定句3、句4、句5的主题词,在此不再赘述。
情况2,在句2为关键句的情况下,与句2相邻的句1或者句3可以是第二语句,同理,在句3为关键句的情况下,句2或者句4可以是第二语句,在句4为关键句的情况下,句3或者句5可以是第二语句,以下以句3为关键句说明。在句3为关键句的情况下,确定与 句3左邻的句2或者右邻的句4的主题词集合,如果句2或者句4的主题词集合包含句3的主题词,则句2或者句4的主题词为句3的主题词,同理确定句1和句5的主题词,在此不再赘述。
如果句2或者句4的主题词集合不包含句3的主题词,则从句2或者句4的主题词集合中选择权重值最高的主题词作为句2或者句4的主题词,同理确定句1和句5的主题词,在此不再赘述。
如果句2或者句4的主题词集合为空集,则句2或者句4的主题词为关键句的主题词,同理确定句1和句5的主题词,在此不再赘述。
在句3和句4为关键句的情况下,其他句的主题词确定方法同句2为关键句的情况下,其他句的主题词确定方法,在此不再赘述。
情况3,在句5为关键句的情况下,其他句主题词的确定方法同句1为关键句的情况时,其他句主题词的确定方法,在此不再赘述。
通过本公开的实施例,从至少一个语句中识别出关键句,确定出关键句的主题词,获得与关键句在语料中位置相邻的语句的主题词集合,基于关键句的主题词和邻句的主题词集合,根据预设规则确定出邻句的主题词,依次迭代,最终确定出各句的主题,得到各主题对应的分句语料,各语句在主题词的确定过程中,充分考虑语料描述的连贯性和主题覆盖情况,使得主题词识别结果可靠性更高。
本公开的实施例还提供了一种能够用于执行数据处理方法的数据处理系统。
图4示意性示出了根据本公开实施例的数据处理系统的框图。
如图4所示,该数据处理设备包括:获取模块410、处理模块420、确定模块430、选择模块440。
获取模块410用于获取语料数据,其中,与语料数据对应的语料包含至少一个语句。
处理模块420用于基于语料数据对语料进行分句处理,以得到至少一个语句数据,其中,每个语句数据对应的语句包含一个或者多个。
确定模块430用于确定至少一个语句数据中第一语句数据包含的主题词集合。
选择模块440用于按照预设规则从主题词集合中选出满足预设条件的主题词作为第一语句数据的主题词。
需要说明的是,语料是语言学范畴的概念,通常也称为文本,语料数据是与语料相关的数据,每个语料都有自己的语料数据,其中,语料数据包括但不限于用户评论的文本信息,评论的渠道、长短和类型,评论的主题等等,例如语料可以包括但不限于用户通过多种渠道对其关注的企业或者产品发布的评论信息,发布渠道可以包括但不限于购买商品的电商网站、各论坛发帖、各门户网站等,在此不做限定。这些评论信息可以涉及产品或者企业的一个或者多个主题,例如用户在某电商平台购买一款手机,与手机相关的主题可以包括但不限于手机的屏幕、电池、外观、系统等等。用户发布的评论信息包含一个或多个语句,在此不做限定。一般情况下,用户对某一主题的评论内容一般具有一定的逻辑性。换言之,用户在发布评论时通常都会围绕一个主题来展开评论,可能有3种情况:情况1,围绕首句展开评论;情况2,围绕中间句展开评论;情况3,围绕尾句展开评论。
获取评论数据可以包括多种方式/手段,在此不做限定。例如可以通过爬虫软件,汇总产品的各电商评论、论坛主贴、各门户网站新闻等评论数据。
需要说明的是,每个语料数据对应的语句包含一个或者多个语句,对语料数据进行分句处理,得到一个或多个语句数据,以下将以分句后包含5个语句的语料数据为例对本公开的实施例进行说明,并非对本公开的限定。将该语料数据表示为句1、句2、句3、句4、句5的形式,其中,句1是整个语料数据的首句,句5为整个语料数据的尾句,句2、句3和句4这三句为整个语料数据的中间句,且句1、句2、句3,句4和句5互为邻句的关系,如句2为句1的右邻句,句2为句3的左邻句。
需要说明的是,在获取语料数据之后,根据获取的语料数据,构建产品的各主题以及主题映射词典,主题词典的内容为特定主题下的主题词以及该主题词与主题的权重,其中,构建主题词典可以包括多种方式/手段,在此不做限定。例如可以使用文本聚类和卡方选词的方 法离线构建主题词映射词典。基于分句处理结果,确定至少一个语句数据中第一语句数据包含的主题词集合,例如基于分句处理结果,根据主题词典,对分句后的得到的5个语句中的第一语句数据,例如可以是句1,通过命中主题词权重的方式确定句1包含的主题词集合1。
需要说明的是,在获得第一语句数据的主题词集合后,按照预设规则从主题词集合中选出满足预设条件的主题词作为第一语句的主题词。例如可以是从句1包含的主题词集合1中选出满足预设条件的主题词作为句1的主题词,最终根据各句确定的主题,得到各主题对应的分句语料。
通过本公开的实施例,对语料数据进行分句处理,确定至少一个语句数据中第一语句数据包含的主题词集合,按照预设规则从中选出满足预设条件的主题词作为第一语句的主题词,可以实现准确识别出评论语料的主题的技术效果。
图5示意性示出了根据本公开实施例的处理模块的框图。
如图5所示,处理模块420包括:第一确定单元510、第一获取单元520、处理单元530。
第一确定单元510用于确定语料的语料来源,其中,不同的语料来源对应于不同的语料分句处理规则。
第一获取单元520用于基于确定出的语料来源,获取用于对语料的第一语料进行分句处理的规则。
处理单元530用于基于第一语料分句处理规则和语料数据对语料进行分句处理,以得到至少一个语句数据。
需要说明的是,通过获取的语料数据,确定语料的语料来源,针对不同的语料来源,将会有不同的语料分句处理规则,例如,电商网站评论采用短句的划分逻辑,新闻语料采用长句的划分逻辑等,在此不做限定。基于获取的语料处理规则和语料数据对语料进行分句处理,得到至少一个语句数据,例如可以是将电商网站的评论按照短句处理规则得到5个语句,将该语料数据表示为句1、句2、句3、句4、句5的形式。
通过本公开的实施例,针对不同数据源,不同的文本长度和类型,采用不同的分句逻辑,充分考虑语料的主题覆盖情况,描述连贯性,以及语料中各语句之间关系等因素的综合考量,得到较为理想的主题分句结果,给后续分析挖掘用户评论的特定模式规律奠定了良好的数据基础。
根据本公开的实施例,确定模块包括:第二确定单元和第二获取单元,其中:第二确定单元用于从至少一个语句数据中确定出关键句,其中,关键句根据至少一个语句数据中各语句数据之间的相似度确定,第二获取单元用于分析获取关键句包含的主题词集合以及选择模块还用于按照主题词权重值的大小从关键句包含的主题词集合中选出权重值最高的主题词作为关键句的主题词。
通过本公开的实施例,从至少一个语句数据中确定出关键句,充分考虑语料包含的各语句之间的关系,将关键句包含的主题词集合中权重值最高的主题词作为关键句的主题词,得到较为理想的主题词识别结果。
需要说明的是,系统部分各实施例中的模块/单元/子单元的实现方式/手段、所实现的功能、所解决的技术问题、以及所达到的技术效果与方法部分各实施例中对应的操作的实现方式/手段、所实现的功能、所解决的技术问题、以及所达到的技术效果相同或类似,在此不再赘述。
本公开的另一方面还提供了一种数据处理设备,包括:一个或多个存储器,用于存储可执行指令;以及一个或多个处理器,用于执行可执行指令,以实现上述任一项的数据处理方法。
图6示意性示出了应用本公开实施例的适于实现数据处理方法及其系统的计算机系统的框图。图6示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,根据本公开实施例的计算机系统600包括处理器610、可读存储介质620。该计算机系统600可以执行上面参考图2~图3描述的方法,以实现获得语料数据主题词的目的。
具体地,处理器610例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等 等。处理器610还可以包括用于缓存用途的板载存储器。处理器610可以是用于执行参考图2~图3描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
可读存储介质620,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。
可读存储介质620可以包括计算机程序621,该计算机程序621可以包括代码/计算机可执行指令,其在由处理器610执行时使得处理器610执行例如上面结合图2~图3所描述的方法流程及其任何变形。
计算机程序621可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序621中的代码可以包括一个或多个程序模块,例如包括621A、模块621B、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器610执行时,使得处理器610可以执行例如上面结合图2~图3所描述的方法流程及其任何变形。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。

Claims (10)

1.一种数据处理方法,用于处理评论语料数据,包括:
获取语料数据并构建主题映射词典,其中,与语料数据对应的语料包含至少一个语句,所述主题映射词典的内容为特定主题下的主题词以及该主题词与主题的权重;
基于语料数据对语料进行分句处理,以得到至少一个语句数据,其中,每个语句数据对应的语句包含一个或者多个;
基于分句处理结果和所述主题映射词典,确定至少一个语句数据中第一语句数据包含的主题词集合,包括:
从至少一个语句数据中确定出关键句,将所述关键句映射到所述主题映射词典,得到所述关键句中包含的所述主题词集合以及各主题词与主题的权重值;
分析获取关键句包含的主题词集合,以及
按照预设规则从主题词集合中选出满足预设条件的主题词作为第一语句数据的主题词,包括:
按照主题词权重值的大小从关键句包含的主题词集合中选出权重值最高的主题词作为关键句的主题词。
2.根据权利要求1的方法,其中,基于语料数据对语料进行分句处理,以得到至少一个语句数据包括:
确定语料的语料来源,其中,不同的语料来源对应于不同的语料分句处理规则;
基于确定出的语料来源,获取用于对语料的第一语料进行分句处理的规则;以及
基于第一语料分句处理规则和语料数据对语料进行分句处理,以得到至少一个语句数据。
3.根据权利要求1的方法,其中:
关键句根据至少一个语句数据中各语句数据之间的相似度确定。
4.根据权利要求3的方法,其中:
当确定至少一个语句数据中的第二语句数据不是关键句时,确定第二语句数据的主题词集合;
获取与第二语句数据相邻的第三语句数据的主题词;
若第二语句数据的主题词集合包含第三语句的主题词,则将第三语句数据的主题词作为第二语句的主题词;或者
若第二语句数据的主题词集合不包含第三语句的主题词,则按照主题词权重值的大小从第二语句数据的主题词集合中选出权重值最高的主题词作为第二语句数据的主题词。
5.根据权利要求4的方法,其中:
若第二语句数据的主题词集合为空集,则将第三语句数据的主题词作为第二语句的主题词,或按照主题词权重值的大小从第三语句数据的主题词集合中选出权重值最高的主题词作为第二语句数据的主题词。
6.根据权利要求4的方法,其中:
当第二语句数据为关键句的相邻句时,第三语句数据为关键句。
7.一种数据处理系统,用于处理评论语料数据,包括:
获取模块,用于获取语料数据和构建主题映射词典,其中,与语料数据对应的语料包含至少一个语句,所述主题映射词典的内容为特定主题下的主题词以及该主题词与主题的权重;
处理模块,用于基于语料数据对语料进行分句处理,以得到至少一个语句数据,其中,每个语句数据对应的语句包含一个或者多个;
确定模块,用于基于分句处理结果和所述主题映射词典,确定至少一个语句数据中第一语句数据包含的主题词集合,包括:
第二确定单元,用于从至少一个语句数据中确定出关键句,将所述关键句映射到所述主题映射词典,得到所述关键句中包含的所述主题词集合以及各主题词与主题的权重值;
第二获取单元,用于分析获取关键句包含的主题词集合;以及
选择模块,用于按照预设规则从主题词集合中选出满足预设条件的主题词作为第一语句数据的主题词,按照主题词权重值的大小从关键句包含的主题词集合中选出权重值最高的主题词作为关键句的主题词。
8.根据权利要求7的系统,其中,处理模块包括:
第一确定单元,用于确定语料的语料来源,其中,不同的语料来源对应于不同的语料分句处理规则;
第一获取单元,用于基于确定出的语料来源,获取用于对语料的第一语料进行分句处理的规则;以及
处理单元,用于基于第一语料分句处理规则和语料数据对语料进行分句处理,以得到至少一个语句数据。
9.根据权利要求7的系统,其中:关键句根据至少一个语句数据中各语句数据之间的相似度确定。
10.一种数据处理设备,包括:
一个或多个存储器,用于存储可执行指令;以及
一个或多个处理器,用于执行可执行指令,以实现权利要求1至6中任一项的数据处理方法。
CN201710537066.8A 2017-07-04 2017-07-04 数据处理方法及其设备 Active CN107273362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710537066.8A CN107273362B (zh) 2017-07-04 2017-07-04 数据处理方法及其设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710537066.8A CN107273362B (zh) 2017-07-04 2017-07-04 数据处理方法及其设备

Publications (2)

Publication Number Publication Date
CN107273362A CN107273362A (zh) 2017-10-20
CN107273362B true CN107273362B (zh) 2020-10-30

Family

ID=60069995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710537066.8A Active CN107273362B (zh) 2017-07-04 2017-07-04 数据处理方法及其设备

Country Status (1)

Country Link
CN (1) CN107273362B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304387B (zh) * 2018-03-09 2021-06-15 联想(北京)有限公司 文本中噪音词的识别方法、装置、服务器组及存储介质
CN108717637B (zh) * 2018-03-22 2020-11-17 浙江大学 一种电商安全相关实体的自动挖掘方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050302B (zh) * 2014-07-10 2017-05-24 华东师范大学 一种基于图谱模型的话题探测系统
CN104298709A (zh) * 2014-09-05 2015-01-21 上海中和软件有限公司 基于句间关联图的文本主题挖掘方法

Also Published As

Publication number Publication date
CN107273362A (zh) 2017-10-20

Similar Documents

Publication Publication Date Title
US11669579B2 (en) Method and apparatus for providing search results
US20190005121A1 (en) Method and apparatus for pushing information
US20200250732A1 (en) Method and apparatus for use in determining tags of interest to user
US9043412B2 (en) Computer device for reading e-book and server for being connected with the same
US9720904B2 (en) Generating training data for disambiguation
CN109241403B (zh) 项目推荐方法、装置、机器设备和计算机可读存储介质
US9386107B1 (en) Analyzing distributed group discussions
US9524526B2 (en) Disambiguating authors in social media communications
CN107526718B (zh) 用于生成文本的方法和装置
CN108932320B (zh) 文章搜索方法、装置及电子设备
US9514113B1 (en) Methods for automatic footnote generation
US11250204B2 (en) Context-aware knowledge base system
CN111198967A (zh) 基于关系图谱的用户分组方法、装置及电子设备
US9460163B1 (en) Configurable extractions in social media
US11049024B2 (en) Enhancement of massive data ingestion by similarity linkage of documents
US20170091188A1 (en) Presenting answers from concept-based representation of a topic oriented pipeline
CN107273362B (zh) 数据处理方法及其设备
CN110110184B (zh) 信息查询方法、系统、计算机系统及存储介质
CN109241238B (zh) 文章搜索方法、装置及电子设备
US10380257B2 (en) Generating answers from concept-based representation of a topic oriented pipeline
CN107291923B (zh) 信息处理方法和装置
US10725618B2 (en) Populating contact information
CN111382365A (zh) 用于输出信息的方法和装置
US20180365252A1 (en) Presenting content on a webpage in a desired format
CN110888583B (zh) 页面显示方法、系统、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant