CN109426661A - 语料分析方法及相关装置 - Google Patents

语料分析方法及相关装置 Download PDF

Info

Publication number
CN109426661A
CN109426661A CN201710737257.9A CN201710737257A CN109426661A CN 109426661 A CN109426661 A CN 109426661A CN 201710737257 A CN201710737257 A CN 201710737257A CN 109426661 A CN109426661 A CN 109426661A
Authority
CN
China
Prior art keywords
phrase
corpus
viewpoint
combination
target viewpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710737257.9A
Other languages
English (en)
Other versions
CN109426661B (zh
Inventor
王艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Network Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710737257.9A priority Critical patent/CN109426661B/zh
Publication of CN109426661A publication Critical patent/CN109426661A/zh
Application granted granted Critical
Publication of CN109426661B publication Critical patent/CN109426661B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种语料分析方法,可以从语料中提取出词组组合,将满足词频条件的词组组合作为原始观点。由于一些原始观点是相关关联的,这种关联性可以体现在原始观点所对应的原始语料之间存在交集,将相互关联的原始观点合并后可以得到目标观点。可见,相较于单个热点词,本申请得到的目标观点经过词组的合并,包含至少两个词组,可以更好地体现语料的意图。另外,本申请还提供了语料意图的确定装置,用以保证所述方法在实际中的应用及实现。

Description

语料分析方法及相关装置
技术领域
本申请涉及语言分析技术领域,更具体地,是语料分析方法及相关装置。
背景技术
用户会经常通过网络发表、陈述或提出一些内容等,基于大数据分析的思想,收集这些素材可以用来挖掘用户想要表达的主题意图。
一种具体的应用场景是网站收集用户反馈,来挖掘用户使用网站遇到的问题是哪些。例如,用户在使用电子商务网站的过程中,可能会向客服反映购物过程中遇到的一些问题,如“我买的商品使用了红包,但是退货后红包没有返还!!”、“人工客服怎么一直没人?”等等。电子商务网站可以通过分析用户的反馈,来确定用户遇到的问题是什么,进而可以确定出网站设计及运行中的问题。
目前的分析方式只是提取单个词作为热点词,但单个词并不能很好地反映用户的表达意图,例如提取到的单个热点词为“签到”,但用户反馈的问题可能是签到失败、签到页面打不开或签到没给积分等。可见,确定的单个热点词并不能准确体现用户想要表达的意图。
发明内容
有鉴于此,本申请提供了一种语料分析方法,用于解决现有技术中选择的单个热点词不能准确体现语料表达的意图的技术问题。另外,本申请还提供了语料意图的确定装置,用以保证所述方法在实际中的应用及实现。
为实现所述目的,本申请提供的技术方案如下:
第一方面,本申请提供了一种语料分析方法,包括:
获得语料;
确定所述语料中满足预设词频条件的词组组合;
将所述词组组合中具有关联性的词组组合合并,得到目标观点。
第二方面,本申请提供了一种语料分析设备,包括:处理器和存储器,所述处理器通过运行存储在所述存储器内的软件程序、调用存储在所述存储器内的数据,至少执行如下步骤:
获得语料;
确定所述语料中满足预设词频条件的词组组合;
将所述词组组合中具有关联性的词组组合合并,得到目标观点。
由以上技术方案可知,本申请提供的语料分析方法,可以从语料中提取出词组组合,将满足词频条件的词组组合作为原始观点。由于一些原始观点是相关联的,这种关联性可以体现在原始观点所对应的语料之间存在交集,将相互关联的原始观点合并后可以得到目标观点。可见,相较于单个热点词,本申请得到的目标观点经过词组的合并,包含至少两个词组,可以更好地体现语料的意图。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的语料分析方法的一个流程图;
图2为本申请提供的原始观点对应的原始语料存在交集的一个示意图;
图3A-3B为本申请提供的使用最大团挖掘算法合并原始观点的一种示意图;
图4为本申请提供的语料分析方法的另一个流程图;
图5为本申请提供的显示目标观点的一个流程图;
图6为本申请提供的目标观点相互连接的一个示意图;
图7为本申请提供的使用树结构显示目标观点及原始语料的一个示意图;
图8为本申请提供的语料分析设备的一种结构示意图;
图9为本申请提供的语料分析设备的另一种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
收集用户在网络上发表提出的内容,可以用来分析用户想要表达的主题意图。
在一种应用场景中,收集的素材可以是用户向网站方反馈的使用网站过程中遇到的问题,例如,用户在使用淘宝网的过程中,可能会向客服反映一些问题,如“我买的宝贝使用了红包,但是退货后红包没有返还!!”、“人工客服怎么一直没人?”等等。当然,本申请使用的素材并不局限于反馈的问题,在不同的应用场景中,素材的内容可能是不同的。在另一种应用场景中,素材可以并非完全由用户输出,可能一部分由用户输出一部分由机器自主生成,或者完全由机器自主生成,不管是何种内容类型的素材及素材的生成主体是何种类型,可以将这些素材统称为原始语料。
目前对原始语料的分析方式主要有两种。一种是人工挖掘,但这种方式需要耗费较长时间进行人工统计及分析,耗时较长且人工成本较高。另一种是提取单个词作为热点词,但单个词并不能准确体现语料想要表达的意图。
对此,本申请提供了一种语料分析方法,该方法可以通过无监督机器学习过程,自动地从原始语料中挖掘语料的表达意图。这种方式不仅可以省去人工挖掘的成本,而且可以将多个观点词组合为一个意图观点,从而准确地体现原始语料所包含的意图或观点。
见图1,其示出了本申请提供的语料分析方法的一个实施例的流程,该流程具体包括S101~S103。
S101:获得目标语料。
其中,目标语料可以是收集到的实际应用场景中的语料,该语料可以称为原始语料,例如原始语料为用户在网页中发表的内容。不同用户的表达方式会有不同,而且有些用户发表的内容可能包含不规范用语,因此可以对原始语料进行预处理。需要说明的是,目标语料可以包括原始语料,也可以包括经过预处理后的语料,或者两者均包括。另外,目标语料可以简称为语料。
一种预处理方式是,对原始语料进行分词,获得若干词组;对词组进行归一化处理、停用词处理及去噪处理中的任意一种或多种处理。
其中,归一化处理指的是将某些词组替换为预设的词组。具体来讲,不同用户对同一观点的表达方式可能不同,例如“宝贝”、“货物”、“东西”及“商品”都指的是用户购买的“商品”,但这些词语有些较为口语化,因此可以将这些词语统一替换为预设的词语。替换为相同的预设词语后,可以更加方便进行后续处理,例如确定原始语料之间的关联性。
停用词处理指的是将某些不规范的词组删除。例如,某些词组不文明甚至不合法,因此可以将这些词组进行删除。当然,所删除词组的类型并不局限于以上两种,还可以是其他,例如所反馈的负面情绪较为激烈的词组等等。
去噪处理指的是将一些无意义的词组删除。无意义的词组也可以称为干扰词组,具体可以包括不能表达意图的词组,例如连接词、转折词等。分词后的词组还可能包含标点符号等各种形式的符号,去噪处理也可以包括将符号形式的词组删除。或者,某些词组在语义上可以通过其他词组推断出来,这种词组较为冗余,因此去噪处理也可以将这些词组删除。
通过具体示例对上述三种处理进行说明。例如,原始语料为“我买的宝贝使用了红包,但是退货后红包没有返还!!”经过分词处理后得到的词组为“我”“买”“的”“宝贝”“使用”“了”“红包”“,”“但是”“退货”“后”“红包”“没有”“返还”“!!”。归一化处理可以将“宝贝”替换为“商品”,将“买”替换为“购买”;去噪处理可以将“我”“的”“使用”“了”“红包”“,”“但是”“后”删除。经过上述处理后得到的词组为“购买”“商品”“使用”“红包”“退货”“红包”“没有”“返还”。
对各条原始语料进行上述预处理后,可以得到每条原始语料各自对应的标准语料。经过预处理后的词组较为规范和标准,因此可以将处理后的原始语料称为标准语料。当然,在实际应用中,预处理的步骤并非必要,可以省去。例如,获得的原始语料本身比较规范,则可以不执行预处理步骤。另外,语料预处理也可以称为语料归一化。
S102:确定目标语料中的词组组合,并将满足预设词频条件的词组组合确定为原始观点。
其中,每条目标语料中均包含若干词组,将所有目标语料的所有词组作为一个词组集合,将该词组集合中的所有词组分别一一组合、两两组合、三三组合……直到将所有个数的词组作为一个词组组合。分别统计每个词组组合在不同的目标语料中出现的次数,判断出现次数是否满足预设词频条件,并将满足预设词频条件的词组组合提取出来。
需要说明的是,上述描述中,一一组合指的是将单个的词组作为一个词组组合,这可以认为是一种特殊的词组组合。另外,在实际应用中可以设置词组组合最少包含的词组个数,例如最少包含的词组个数为2,则这样便不会生成单个词组形式的词组组合。另外,本步骤是在目标语料中确定N种长度的词组组合,其中长度表示的是词组组合包含的词组的个数。N的数值可以根据实际应用情况而设置。并且,每种长度所包含的词组的个数也是可以设置的,例如选择三种长度的词组组合,且分别为长度为2、3及4。
另外,在统计词组组合出现的次数时,是统计词组组合在不同目标语料中出现的次数,也就是说,词组组合在同一个目标语料中不论出现多少次,均认为该词组组合在该目标语料中出现了一次。在判断一个词组组合是否在一个目标语料中出现时,并不对词组的出现顺序进行要求,也就是说,只要目标语料中有该词组组合中的词组即可,并不要求词组必须紧邻且顺序与词组组合中的顺序一致。
以下通过具体示例对本步骤进行说明。
例如,预处理得到的3条目标语料为“购买商品付款返利没有到账”“没有使用红包订单显示红包不能返利”及“使用红包得不到返利怎么办”,各自包含的词组分别为:{“购买”“商品”“付款”“返利”“没有”“到账”}、{“没有”“使用”“红包”“订单”“显示”“红包”“不能”“返利”}及{“使用”“红包”“得不到”“返利”“怎么办”}。
将该3条目标语料包含的词组作为一个词组集合,并分别将各个词组进行一一组合、两两组合、三三组合……直到所有的词组作为一个组合,得到的词组组合包括:
一一组合生成的词组组合:“购买”“商品”……“怎么办”;
两两组合生成的词组组合:“购买_商品”“购买_付款”……“购买_怎么办”“商品_付款”“商品_返利”……“商品_怎么办”……“返利_怎么办”;
三三组合生成的词组组合:“购买_商品_付款”“购买_商品_返利”……“购买_商品_怎么办”“购买_付款_返利”“购买_付款_没有”……“购买_付款_怎么办”……“得不到_返利_怎么办”;
……
所有词组生成的词组组合:“购买_商品_付款_返利_没有_到账_没有_使用_红包_订单_显示_红包_不能_返利_使用_红包_得不到_返利_怎么办”。
统计每个词组组合在不同目标语料中出现的次数时,例如,“购买”在不同语料中出现的次数为1,“返利”在不同语料中出现的次数为3,“购买_商品”在不同语料中出现的次数为1,“使用_红包”在不同语料中出现的次数为2。假设出现次数阈值为2,则“返利”及“使用_红包”的出现次数达到了该出现次数阈值,因此该两个词组组合便可以被提取出来。同理,将所有的词组组合的出现次数与出现次数阈值进行比对后,将达到出现次数阈值的词组组合提取出来。
提取出的词组组合包含一个或多个词组,能够在一定程度上更加全面地反映原始语料包含的意图观点,但这些观点需要进一步组合筛选,因此,可以将这些词组组合称为原始观点。由于生成的词组组合中,包含的词组个数有多种,如一个、两个、三个等等,因此得到的原始观点的长度也包含多种。
需要说明的是,词频条件可以是各种形式。在一个示例中,词频条件可以指的是词组组合出现的次数阈值,其中出现的次数阈值可以是根据原始语料的条数确定出来的,例如原始语料为1000条,则出现的次数阈值可以是小于或等于1000的一个数值如500。在这种情况下,词组组合满足预设词频条件指的是,词组组合的出现次数达到预设的出现次数阈值。在另一示例中,词频条件可以指的是词组组合出现的概率阈值,其中出现的概率阈值可以是小于或等于100%的一个数值如50%。在这种情况下,词组组合满足预设词频条件指的是,词组组合的出现次数与原始语料条数的比值,达到预设的出现概率阈值。
另外,词频条件中的数值本申请并不做具体限定,但可以理解的是,该数值设置得越高,则所提取到的词组组合越能反映原始语料的意图。另外,词频条件还可以是其他形式,本申请并不做具体限定。
需要说明的是,通过以上的说明可知,组成原始观点的词组组合需要达到一定的词频,且能准确描述目标语料的语义。满足这种要求的词组组合可以称为频繁项集,因此本步骤可以通过频繁项挖掘算法如Apriori算法(关联规则算法)来实现。频繁项集挖掘算法可以挖掘出满足一定词频范围的所有可能的语义词组,这些语义词组的集合可以称为频繁项集。在频繁项挖掘算法中,词组组合出现的次数和用于判断出现次数的预设词频条件可以具体称为支持度。支持度定义为:支持度support(X->Y)=|X交Y|/N;其中,在本申请的应用场景中,X及Y表示词组,N表示目标语料的条数,|X交Y|/N表示的是词组X和词组Y在一条目标语料中同时出现的次数与目标语料条数的比值。例如支持度support({啤酒}->{尿布})=啤酒和尿布同时出现在一条目标语料中的次数/目标语料条数=3/5=60%。
S103:在原始观点中确定相互关联的多个原始观点,将该多个原始观点合并后得到目标观点。
具体地,确定出来的相互关联的原始观点为多个,将多个相互关联的原始观点合并后得到目标观点,不论单个原始观点中包含的词组有一个还是多个,合并后得到的目标观点中必然包括至少两个词组,因此,这种方式得到的目标观点必然比单个热点词更能体现原始语料所要表达的意图。
在一种实现方式中,多个原始观点相互关联可以体现为:原始观点对应的原始语料之间存在交集,或者更进一步地,交集内的原始语料条数均需要满足预设阈值条件。其中原始语料之间存在交集体现为原始语料中包含相同的内容,预设阈值条件可以是比值,满足预设阈值条件可以具体为达到该比值。因此,可以查找到存在交集的原始语料,再确定出这些原始语料所对应的原始观点,将这些原始观点合并后得到目标观点。
需要说明的是,多个原始观点中的任何两个原始观点对应的原始语料之间均需要存在交集,这种才能形成图中的团。另外,原始语料存在交集,并不要求该多个原始语料包含同一种交集,也可以包含多种交集。例如图2所示,原始观点1对应的原始语料可以称为原始语料1,有100条;原始观点2对应的原始语料可以称为原始语料2,有200条;原始观点3对应的原始语料可以称为原始语料3,有150条。原始语料1与原始语料2中,有30条原始语料是相同的,即这30条原始语料是交集;原始语料2与原始语料3中,有20条原始语料是相同的,即这20条原始语料是交集;原始语料1与原始语料3中,有10条原始语料是相同,即这10条原始语料是交集。由于原始语料1、原始语料2及原始语料3之间是存在交集的,因此,原始观点1、原始观点2及原始观点3之间具有关联,这三个观点是可以合并的。
更进一步地,在合并前,可以对交集内的原始语料条数进行判断,交集内的原始语料条数均满足预设阈值条件时,才确定原始观点之间存在关联,进而才能将关联的原始观点进行合并。例如,预设阈值条件为10%,原始语料1与原始语料2的交集包含30条,原始语料1与原始语料2中较少的数量为100条,30/100=30%,30%大于预设阈值条件10%。同理,原始语料2与原始语料3的交集包含20条,原始语料2与原始语料3中较少的数量为150条,20/150≈13%,13%同样大于预设阈值条件10%。同理,原始语料1与原始语料3的交集包含10条,原始语料1与原始语料3中较少的数量为100条,10/100=10%,10%达到了预设阈值条件10%。因此,原始观点1、原始观点2及原始观点3之间具有关联,这三个观点是可以合并的。
合并原始观点的步骤是可以循环执行的,即:将一部分相互关联的原始观点合并,合并后的观点可以作为目标观点;然后可以继续确定该目标观点与未合并的原始观点之间是否相互关联,将相互关联的观点再进行合并,合并后的观点也可以作为目标观点。
在实际应用中,可以使用最大团挖掘算法,来合并原始观点从而得到目标观点。
见图3A-3B,其示出了使用最大团挖掘算法合并原始观点的一种流程。
如图3A所示,其示出了由原始观点组成的图结构的一种示意。该图中的节点表示原始观点,节点与节点之间的连线表示该两个节点之间具有连通性,也就是说,在生成图结构图时,需要判断所有的两个原始观点之间是否具有连通性,若具有连通性,则在该两个节点之间生成连线,若不具有连通性,则不在该两个节点之间生成连线,从而得到如图3A所示的图。
需要说明的是,判断两个原始观点之间是否具有连通性的一种具体方式是,判断两个原始观点所对应的原始语料之间是否具有交集,且交集中的原始语料条数是否满足预设条数条件。其中预设条数条件可以是预设条数阈值,相应地,满足预设条数条件可以指的是达到预设条数阈值。
具体来讲,每个原始观点具有各自对应的原始语料,对应的指的是原始语料中包含该原始观点中的词组,也就是说,只要原始语料中包含该原始观点中的词组,那么该原始观点就与该原始语料具有对应关系。原始观点对应的原始语料之间是否具有交集指的是,原始观点对应的原始语料之中是否有相同的原始语料。如果相同的原始语料条数满足预设条数条件,则原始观点之间具有连通性。
为了更加形象地说明原始观点之间的连通性,可以认为原始观点对应的原始语料挂在图3A中的节点上,各个原始观点所对应的原始语料的数量不尽相同,因此各个节点挂的原始语料的条数也不尽相同,但只要两个节点所挂的原始语料之中有相同的原始语料,且相同的原始语料的条数达到预设条数阈值,则这两个节点之间便存在连线。
原始观点之间的连通性也可以表示,原始观点之间满足最低相似性的要求。由以上说明可以看出,原始观点之间的相似性体现在原始观点对应的原始语料之间具有相似性。只要原始语料满足最低相似性要求,就可以认为原始观点之间具有连通性。具有连通性的原始观点之间便可以存在边,从而形成如图3A所示的图结构(或简称为图)。
假设生成的图为图3A所示的图,循环查找图中的最大团。为了说明如何挖掘最大团,首先对图、团、极大团、最大团的定义进行说明。
图指的是节点(或称为顶点)及边的集合。团指的是图中任意两两之间有边的节点的集合,也就是说,团中的任意两两节点之间都有边,都是直接连通的。极大团指的是,如果一个团不是其他任何团的真子集,即这个团不被其他任何一个团所包含,则这个团被称为极大团。极大团也可以认为是如果增加任何一个节点都不再符合团定义的团。顶点最多的极大团即最大团。
最大团挖掘算法在查找图中的最大团时,是循环查找的。具体地,得到图结构后,第一次循环时查找该图中的最大团,若查找到,则将最大团合并为一个节点,并输出该节点。然后再确定该节点与图中其他节点之间是否存在连通性,如果存在连通性,则生成该节点与该其他节点之间的边,得到新的图结构,同样按照第一次循环中的处理过程进行后续的循环,直至并不再输出最大团合并成的节点。需要说明的是,每次循环时,若查找到多个极大团,且顶点最多的极大团为多个,则所得到的最大团也为多个。
以图3A所示的图结构为例,在该图中第一次循环时查找到的最大团为虚线矩形框选的部分。假设最大团中包含的四个原始观点分别为“新版_老版”、“老版_怀念”、“新版_体验_不好”、“换回_老版”,则将该四个原始观点合并为一个新的观点输出,合并后的观点为“新版_体验_不好_怀念_老版_换回”。如图3B所示,假设该新的观点(图中加粗的节点a)与图中节点b、节点c及节点d表示的观点之间存在连通性,则生成该新的观点与该节点b、节点c及节点d表示的观点之间的边,从而得到图3B所示的新的图结构,然后按照上述方法在该新的图结构中查找最大团,合并最大团包含的原始观点并输出。为了便于描述,可以将输出的观点称为目标观点。
由以上技术方案可以看出,本申请提供的语料分析方法,可以从语料中提取出词组组合,将满足词频条件的词组组合作为原始观点。原始观点中有一些原始观点是相关关联的,这种关联性可以体现在原始观点所对应的原始语料之间存在交集,将相互关联的原始观点合并后可以得到目标观点。可见,相较于单个热点词,本申请得到的目标观点经过词组的合并,包含至少两个词组,可以更好地体现语料的意图。
需要说明的是,以上实施例可以将相互关联的原始观点合并后作为目标观点,但那些并不相互关联的原始观点也是由满足词频条件的词组进行组合后得到的,可见原始观点相较于单个热点词来言,也能较好地体现原始语料的意图。因此,在上述实施例的基础上,还可以在并未合并为目标观点的原始观点中,选择满足条件的原始观点作为目标观点。
具体地,见图4,其示出了语料分析方法的另一实施例的流程。该实施例在图1所示的流程的基础上,还可以包括以下步骤S104~107。
S104:获得未被确定为目标观点的各个原始观点,并将其作为其他原始观点。
其中,图1所示的实施例中,将一部分原始观点合并为目标观点,本步骤则获取剩余的原始观点。另外,为了便于描述,可以将这些剩余的原始观点称为其他原始观点。
S105:判断其他原始观点对应的原始语料之间是否存在交集,若是,执行步骤S106。
前已述及,每个原始观点均具有其所对应的原始语料,这些原始语料即包含有该原始观点的语料。实际应用中可能存在一种情况是,同一条原始语料包含多个原始观点,则这条原始语料便与多个原始观点存在对应关系。
例如,步骤S102中得到了两个原始观点分别为“红包_数量_减少”及“新版_怀念”,某条原始语料为“旧版红包数量减少,怀念旧版啊!”,这条原始语料同时包含两个原始观点,因此这两个原始观点均与该条原始语料具有对应关系。因此,需要判断其他原始观点是否对应有相同的原始语料,若是,则说明同一条其他原始语料与至少两个其他原始观点存在对应关系,进而执行下一步骤为这些其他原始语料确定唯一对应的原始观点。
S106:为交集内的原始语料确定唯一对应的原始观点。
其中,这个步骤也可以称为原始语料的重分配。以下提供两种具体的重分配方式。
一种实现方式可以是,将包含的词组数量最多的原始观点确定为该其他原始观点唯一对应的原始观点。仍以上一示例为例,由于“红包_数量_减少”这个原始观点包含的词组个数为3,“新版_怀念”这个原始观点包含的词组个数为2,经过比较后,将原始观点“红包_数量_减少”确定为“旧版红包数量减少,怀念旧版啊!”唯一对应的原始观点。
也就是说,删除“旧版红包数量减少,怀念旧版啊!”与“新版_怀念”之间的对应关系,保留“旧版红包数量减少,怀念旧版啊!”与“红包_数量_减少”的对应关系。
另一种实现方式可以是,将对应的原始语料数量最多的原始观点确定为该其他原始观点唯一对应的原始观点。仍以上一示例为例,假设“红包_数量_减少”这个原始观点对应的原始语料有555条,“新版_怀念”这个原始观点对应的原始语料有755条,经过比较后,将原始观点“新版_怀念”确定为“旧版红包数量减少,怀念旧版啊!”唯一对应的原始观点。
也就是说,删除“旧版红包数量减少,怀念旧版啊!”与“红包_数量_减少”之间的对应关系,保留“旧版红包数量减少,怀念旧版啊!”与“新版_怀念”的对应关系。
可见,第一种重分配方式中考虑的是观点中包含的词组个数,第二种考虑的是观点对应的语料的条数。这两种实现方式也可以结合:例如对应的原始语料数量最多的原始观点为多个,则在该多个中选择包含的词组个数最多的原始观点,作为唯一对应的原始观点;或者,包含的词组个数最多的原始观点为多个,则在该多个中选择对应的原始语料数量最多的原始观点,作为唯一对应的原始观点。
S107:统计其他原始观点对应的原始语料的条数,将满足预设条数条件的其他原始观点确定为目标观点。
其中,将原始语料进行重新分配后,有些其他原始观点对应的原始语料的条数发生了变化,因此再重新统计每个其他原始观点所对应的原始语料的条数。在这些其他原始观点中,选择满足预设条数条件的其他原始观点,将这些其他原始观点确定为目标观点。其中预设条数条件可以具体是条数阈值,则满足预设条数条件的其他原始观点,即达到条数阈值的其他原始观点。
本步骤可以称为剪枝过程,即将一些表意泛泛且并没有与其他原始观点合并的原始观点删除。
综上所述,本实施例中,不仅步骤S103可以将一些原始观点合并后得到目标观点,步骤S107也可以将一些原始观点直接作为目标观点。可见,目标观点的输出有至少两种方式。
进一步地,可以将所确定出的目标观点显示给用户。为了方便用户理解,可以将目标观点以图或树的结构进行显示。
见图5,本申请提供的显示目标观点的流程包括以下步骤S501~S504。
S501:确定目标观点包含的词组,并生成词组对应的节点;其中相同词组对应的节点为一个。
其中,若目标观点为多个,则确定每个目标观点所包含的词组。每个目标观点所包含的词组可能有一个,也可能有多个。获得每个目标观点所包含的每个词组,生成每个词组各自对应的节点。
需要说明的是,若多个目标观点包含相同的词组,则为该词组生成一个节点。例如,假设有两个目标观点,分别为“返利_双十一_红包”及“红包_集分宝”,两个目标观点包含相同词组“红包”,则为红包生成一个节点。另外,第一个目标观点还包括“返利”及“双十一”两个词组,则还可以生成该两个词组各自对应的节点;第二个目标观点还包括词组“集分宝”,则还可以生成词组“集分宝”对应的节点。
S502:为对应相同目标观点的多个节点确定前后顺序。
其中,由于节点与词组具有对应关系,词组与目标观点之间也具有对应关系,因此节点与目标观点之间具有对应关系。查找出对应同一目标观点的节点,若节点为多个,则为该多个节点确定先后顺序。
例如,“返利”、“双十一”及“红包”三个节点对应相同的目标节点,因此,需要确定该三个节点之间的前后顺序。又如,“集分宝”及“红包”两个节点对应相同的目标节点,因此,也需要确定该两个节点之间的前后顺序。
节点之间的前后顺序可以由节点所对应的词组对应的原始语料的条数决定。其中节点所对应的词组对应的原始语料,指的是包含节点所对应的那个词组。具体地,按照原始语料的条数由多到少的顺序,确定节点的前后顺序。例如,“返利”、“双十一”及“红包”三个词组对应的原始语料条数依次降低,则“返利”、“双十一”及“红包”三个节点的前后顺序即该书写顺序。
S503:依据前后顺序,为对应相同目标观点的多个节点生成前后相连的连线。
其中,生成的连线包含方向,连线由前一节点指向后一节点。
S504:以图结构形式显示节点、节点对应的词组及节点之间的连线。
其中,词组可以显示在对应的节点内,或者词组可以显示在对应的节点外。节点、节点对应的词组及节点之间的连线可以形成一个图结构,该图结构中包含节点之间的前后顺序。
假设,有六个目标观点分别为:“返利_双十一_红包”、“返利_双十一_金额_少”“返利_双十一_到账”、“红包_集分宝”、“红包_集分宝_少”及“红包_怎么用”,该六个目标观点组成的图的示例如图6所示。
可见,该种显示方式中,将目标观点之间的公共词组生成一个节点,通过该公共的节点连接多个不同的目标观点。
以上显示方式中,目标观点之间的相互联系可以由图中的连线直观地体现出来,方便用户理解目标观点之间的联系。
在实际应用中,除了显示目标观点外,还可以显示目标观点对应的原始语料。由于原始语料为收集到的基础语料,数量较多,以图的方式较为不便,因此,可以使用树结构显示。
具体地,确定每个目标观点所对应的原始语料,使用图处理算法,将步骤S504生成的图结构转换为树结构,显示树结构及树结构中的目标观点对应的原始语料。
需要说明的是,图处理算法可以将图结构转换为树结构,生成的树结构中包含各个目标观点。目标观点具有对应的原始语料,树结构的层次结构可以由原始语料的数量由多到少的数量决定。当然,由于原始语料数量较多,则可以选择预设数量的原始语料显示。为了便于用户查看,原始语料中包含的目标观点可以标识出来,例如以不同的显示颜色显示。
见图7,其示出了包含目标观点及原始语料的一个树结构。如图7所示,opinion表示目标观点,目标观点使用方括号标示出来,反馈即原始语料,ID表示原始语料的标识,ID之后的数字即标识的具体内容。
图7中为每个目标观点选择2个原始语料进行显示,且原始语料中用于组成目标观点的词组均使用下划线进行了标示。图7中的各个目标观点基于公共词组形成了树形结构,这种结构可以便于用户理解目标观点之间的联系。
见图8,其示出了本申请提供了一种语料分析设备的结构。如图8所示,该语料分析设备可以具体包括:存储器801、处理器802及总线803。
存储器801,用于存储程序指令和/或数据。
处理器802,通过读取所述存储器801中存储的指令和/或数据,用于执行以下操作:获得语料;确定所述语料中满足预设词频条件的词组组合;以及将所述词组组合中具有关联性的词组组合合并,得到目标观点。
总线803,用于将语料分析设备的各个硬件组件耦合在一起。
在一个示例中,所述关联性表示的是:包含词组组合的语料之间存在交集。
在一个示例中,预设词频条件为出现次数阈值,则所述处理器用于确定所述语料中满足预设词频条件的词组组合,包括:处理器具体用于根据所述语料生成词组组合;以及统计词组组合在不同语料中出现的次数,并选择出现的次数达到出现次数阈值的词组组合。
在一个示例中,所述处理器用于根据所述语料生成词组组合,包括:处理器具体用于对所述语料进行分词操作,得到各个词组;以及将所述各个词组分别组合为长度不同的词组组合。
在一个示例中,所述处理器用于将所述词组组合中具有关联性的词组组合合并,得到目标观点,包括:处理器具体用于依据所述词组组合生成图;以及根据最大团挖掘算法,循环在所述图中确定最大团,并将所述最大团包含的词组组合合并,得到目标观点。
在一个示例中,所述处理器用于依据所述词组组合生成图,包括:处理器具体用于确定所有两个所述词组组合之间的联通性;以及生成所述词组组合对应的节点,并为具有联通性的词组组合生成连接对应节点的边;其中节点及边用于组成图。
在一个示例中,处理器还用于获得未生成为目标观点的其他词组组合及所述其他词组组合对应的语料;依据所述其他词组组合对应的语料,在所述其他词组组合中确定目标观点。
在一个示例中,所述处理器用于依据所述其他词组组合对应的语料,在所述其他词组组合中确定目标观点,包括:处理器具体用于若所述其他词组组合对应的语料之间存在交集,则为交集内的语料确定唯一对应的词组组合;以及统计其他词组组合对应的语料的条数,将条数满足预设条数条件的其他词组组合确定为目标观点。
在一个示例中,处理器还用于以图的形式表示所述目标观点包含的词组;其中所述图中的节点与目标观点包含的词组对应,节点之间的边表示词组之间的先后顺序;则如图9所示的另一种语料分析设备的结构,所述设备还包括:显示器804,用于显示所述图。
在一个示例中,所述处理器用于以图的形式表示所述目标观点包含的词组,包括:处理器具体用于为所述目标观点中包含的词组生成对应的节点,其中相同词组对应的节点为一个;为对应相同目标观点的多个所述节点确定前后顺序;依据所述前后顺序,为对应相同目标观点的多个所述节点生成前后相连的边;以及以图结构形式表示所述节点、所述节点对应的词组及所述节点之间的边。
在一个示例中,所述处理器用于为对应相同目标观点的多个所述节点确定前后顺序,包括:处理器具体用于查找出对应同一目标观点的节点,并统计同一目标观点的节点各自对应的语料条数;以及按照语料条数由多到少的顺序,确定同一目标观点的节点的前后顺序。
在一个示例中,处理器还用于将包含目标观点的图转换为树,并在所述树中添加目标观点对应的语料;显示器还用于显示所述树中的目标观点及所述目标观点对应的语料。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (24)

1.一种语料分析方法,其特征在于,包括:
获得语料;
确定所述语料中满足预设词频条件的词组组合;
将所述词组组合中具有关联性的词组组合合并,得到目标观点。
2.根据权利要求1所述的语料分析方法,其特征在于,所述关联性表示的是:包含词组组合的语料之间存在交集。
3.根据权利要求1所述的语料分析方法,其特征在于,预设词频条件为出现次数阈值,则所述确定所述语料中满足预设词频条件的词组组合,包括:
根据所述语料生成词组组合;
统计词组组合在不同语料中出现的次数,并选择出现的次数达到出现次数阈值的词组组合。
4.根据权利要求3所述的语料分析方法,其特征在于,所述根据所述语料生成词组组合,包括:
对所述语料进行分词操作,得到各个词组;
将所述各个词组分别组合为长度不同的词组组合。
5.根据权利要求1所述的语料分析方法,其特征在于,所述将所述词组组合中具有关联性的词组组合合并,得到目标观点,包括:
依据所述词组组合生成图;
根据最大团挖掘算法,循环在所述图中确定最大团,并将所述最大团包含的词组组合合并,得到目标观点。
6.根据权利要求5所述的语料分析方法,其特征在于,所述依据所述词组组合生成图,包括:
确定所有两个所述词组组合之间的联通性;
生成所述词组组合对应的节点,并为具有联通性的词组组合生成连接对应节点的边;其中节点及边用于组成图。
7.根据权利要求1所述的语料分析方法,其特征在于,还包括:
获得未生成为目标观点的其他词组组合及所述其他词组组合对应的语料;
依据所述其他词组组合对应的语料,在所述其他词组组合中确定目标观点。
8.根据权利要求7所述的语料分析方法,其特征在于,所述依据所述其他词组组合对应的语料,在所述其他词组组合中确定目标观点,包括:
若所述其他词组组合对应的语料之间存在交集,则为交集内的语料确定唯一对应的词组组合;
统计其他词组组合对应的语料的条数,将条数满足预设条数条件的其他词组组合确定为目标观点。
9.根据权利要求1或8所述的语料分析方法,其特征在于,还包括:
以图的形式显示所述目标观点包含的词组;其中所述图中的节点与目标观点包含的词组对应,节点之间的边表示词组之间的先后顺序。
10.根据权利要求9所述的语料分析方法,其特征在于,所述以图的形式显示所述目标观点包含的词组,包括:
为所述目标观点中包含的词组生成对应的节点,其中相同词组对应的节点为一个;
为对应相同目标观点的多个所述节点确定前后顺序;
依据所述前后顺序,为对应相同目标观点的多个所述节点生成前后相连的边;
以图结构形式显示所述节点、所述节点对应的词组及所述节点之间的边。
11.根据权利要求10所述的语料分析方法,其特征在于,所述为对应相同目标观点的多个所述节点确定前后顺序,包括:
查找出对应同一目标观点的节点,并统计同一目标观点的节点各自对应的语料条数;
按照语料条数由多到少的顺序,确定同一目标观点的节点的前后顺序。
12.根据权利要求9所述的语料分析方法,其特征在于,还包括:
将包含目标观点的图转换为树,并在所述树中添加目标观点对应的语料;
显示所述树中的目标观点及所述目标观点对应的语料。
13.一种语料分析设备,其特征在于,包括:处理器和存储器,所述处理器通过运行存储在所述存储器内的软件程序、调用存储在所述存储器内的数据,至少执行如下步骤:
获得语料;
确定所述语料中满足预设词频条件的词组组合;
将所述词组组合中具有关联性的词组组合合并,得到目标观点。
14.根据权利要求13所述的语料分析设备,其特征在于,所述关联性表示的是:包含词组组合的语料之间存在交集。
15.根据权利要求13所述的语料分析设备,其特征在于,预设词频条件为出现次数阈值,则所述处理器用于确定所述语料中满足预设词频条件的词组组合,包括:
处理器,具体用于根据所述语料生成词组组合;以及统计词组组合在不同语料中出现的次数,并选择出现的次数达到出现次数阈值的词组组合。
16.根据权利要求15所述的语料分析设备,其特征在于,所述处理器用于根据所述语料生成词组组合,包括:
处理器,具体用于对所述语料进行分词操作,得到各个词组;以及将所述各个词组分别组合为长度不同的词组组合。
17.根据权利要求13所述的语料分析设备,其特征在于,所述处理器用于将所述词组组合中具有关联性的词组组合合并,得到目标观点,包括:
处理器,具体用于依据所述词组组合生成图;以及根据最大团挖掘算法,循环在所述图中确定最大团,并将所述最大团包含的词组组合合并,得到目标观点。
18.根据权利要求17所述的语料分析设备,其特征在于,所述处理器用于依据所述词组组合生成图,包括:
处理器,具体用于确定所有两个所述词组组合之间的联通性;以及生成所述词组组合对应的节点,并为具有联通性的词组组合生成连接对应节点的边;其中节点及边用于组成图。
19.根据权利要求13所述的语料分析设备,其特征在于,
处理器,还用于获得未生成为目标观点的其他词组组合及所述其他词组组合对应的语料;依据所述其他词组组合对应的语料,在所述其他词组组合中确定目标观点。
20.根据权利要求19所述的语料分析设备,其特征在于,所述处理器用于依据所述其他词组组合对应的语料,在所述其他词组组合中确定目标观点,包括:
处理器,具体用于若所述其他词组组合对应的语料之间存在交集,则为交集内的语料确定唯一对应的词组组合;以及统计其他词组组合对应的语料的条数,将条数满足预设条数条件的其他词组组合确定为目标观点。
21.根据权利要求13或20所述的语料分析设备,其特征在于,
处理器,还用于以图的形式表示所述目标观点包含的词组;其中所述图中的节点与目标观点包含的词组对应,节点之间的边表示词组之间的先后顺序;
则所述设备还包括:
显示器,用于显示所述图。
22.根据权利要求21所述的语料分析设备,其特征在于,所述处理器用于以图的形式表示所述目标观点包含的词组,包括:
处理器,具体用于为所述目标观点中包含的词组生成对应的节点,其中相同词组对应的节点为一个;为对应相同目标观点的多个所述节点确定前后顺序;依据所述前后顺序,为对应相同目标观点的多个所述节点生成前后相连的边;以及以图结构形式表示所述节点、所述节点对应的词组及所述节点之间的边。
23.根据权利要求22所述的语料分析设备,其特征在于,所述处理器用于为对应相同目标观点的多个所述节点确定前后顺序,包括:
处理器,具体用于查找出对应同一目标观点的节点,并统计同一目标观点的节点各自对应的语料条数;以及按照语料条数由多到少的顺序,确定同一目标观点的节点的前后顺序。
24.根据权利要求21所述的语料分析设备,其特征在于,
处理器,还用于将包含目标观点的图转换为树,并在所述树中添加目标观点对应的语料;
显示器,还用于显示所述树中的目标观点及所述目标观点对应的语料。
CN201710737257.9A 2017-08-24 2017-08-24 语料分析方法及相关装置 Active CN109426661B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710737257.9A CN109426661B (zh) 2017-08-24 2017-08-24 语料分析方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710737257.9A CN109426661B (zh) 2017-08-24 2017-08-24 语料分析方法及相关装置

Publications (2)

Publication Number Publication Date
CN109426661A true CN109426661A (zh) 2019-03-05
CN109426661B CN109426661B (zh) 2023-08-18

Family

ID=65501121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710737257.9A Active CN109426661B (zh) 2017-08-24 2017-08-24 语料分析方法及相关装置

Country Status (1)

Country Link
CN (1) CN109426661B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346766A (zh) * 2011-09-20 2012-02-08 北京邮电大学 基于极大团发现的网络热点话题检测方法及装置
US20120323932A1 (en) * 2011-06-20 2012-12-20 Microsoft Corporation Iterative set expansion using samples
CN105426361A (zh) * 2015-12-02 2016-03-23 上海智臻智能网络科技股份有限公司 关键词提取方法及装置
CN106021413A (zh) * 2016-05-13 2016-10-12 清华大学 基于主题模型的自展式特征选择方法及系统
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN106528539A (zh) * 2016-12-09 2017-03-22 南京航空航天大学 一种对lda微博话题特征抽取结果优化的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120323932A1 (en) * 2011-06-20 2012-12-20 Microsoft Corporation Iterative set expansion using samples
CN102346766A (zh) * 2011-09-20 2012-02-08 北京邮电大学 基于极大团发现的网络热点话题检测方法及装置
CN105426361A (zh) * 2015-12-02 2016-03-23 上海智臻智能网络科技股份有限公司 关键词提取方法及装置
CN106021413A (zh) * 2016-05-13 2016-10-12 清华大学 基于主题模型的自展式特征选择方法及系统
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN106528539A (zh) * 2016-12-09 2017-03-22 南京航空航天大学 一种对lda微博话题特征抽取结果优化的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
尹兰等: "基于复杂网络重叠社团发现的微博话题检测", 《四川大学学报(自然科学版)》 *

Also Published As

Publication number Publication date
CN109426661B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN104899273B (zh) 一种基于话题和相对熵的网页个性化推荐方法
Cayrol et al. Bipolar abstract argumentation systems
CN106126521A (zh) 目标对象的社交账号挖掘方法及服务器
CN106846061A (zh) 潜在用户挖掘方法以及装置
CN104731776B (zh) 翻译信息的提供方法及系统
CN104598439B (zh) 信息对象的标题修正方法及装置和推送信息对象的方法
CN106649394A (zh) 融合知识库处理方法和装置,以及知识库管理系统
US8838610B2 (en) Listing tune-up system
CN107729336A (zh) 数据处理方法、设备及系统
CN101937447A (zh) 一种告警关联规则挖掘方法、规则挖掘引擎及系统
CN105488136B (zh) 选购热点标签的挖掘方法
CN108694647A (zh) 一种商户推荐理由的挖掘方法及装置,电子设备
CN110297853A (zh) 频繁集挖掘方法和装置
CN109255632A (zh) 一种用户团体识别方法、装置、设备及介质
CN106682049B (zh) 议题显示系统和议题显示方法
CN109408699A (zh) 一种同步缓存zTree树实现树节点快速检索的方法
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN109284549A (zh) 一种建筑模型参数管理方法、计算机装置及可读存储介质
CN109002432A (zh) 同义词的挖掘方法及装置、计算机可读介质、电子设备
CN104331523A (zh) 一种基于概念对象模型的问句检索方法
Nguyen et al. StreamEB: Stream Edge Bundling.
Babaie-Kafaki et al. Two hybrid nonlinear conjugate gradient methods based on a modified secant equation
CN106294463A (zh) 一种动态曲线的数据点更新方法和设备
CN105278808A (zh) 用于经由人机交互界面推送页面的方法和装置
US9384285B1 (en) Methods for identifying related documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230721

Address after: No. 699, Wangshang Road, Binjiang District, Hangzhou, Zhejiang

Applicant after: Alibaba (China) Network Technology Co.,Ltd.

Address before: Box 847, four, Grand Cayman capital, Cayman Islands, UK

Applicant before: ALIBABA GROUP HOLDING Ltd.

GR01 Patent grant
GR01 Patent grant