CN108153735A - 一种近义词的获取方法及系统 - Google Patents

一种近义词的获取方法及系统 Download PDF

Info

Publication number
CN108153735A
CN108153735A CN201711453916.2A CN201711453916A CN108153735A CN 108153735 A CN108153735 A CN 108153735A CN 201711453916 A CN201711453916 A CN 201711453916A CN 108153735 A CN108153735 A CN 108153735A
Authority
CN
China
Prior art keywords
word
evaluation
evaluating
specified
specified evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711453916.2A
Other languages
English (en)
Other versions
CN108153735B (zh
Inventor
谢忠玉
鲍新平
沈一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201711453916.2A priority Critical patent/CN108153735B/zh
Publication of CN108153735A publication Critical patent/CN108153735A/zh
Application granted granted Critical
Publication of CN108153735B publication Critical patent/CN108153735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种近义词的获取方法及系统,通过确定指定评价词与指定评价对象在文本中的共现频率,构建共现词矩阵,对共现词矩阵中的多个评价词进行降维处理,得到评价词向量,通过第一相似度计算方式计算评价词向量的第一相似度,确定与指定评价词相似度高于预定数值的候选评价词集合,通过第二相似度计算方式对候选评价词集合进行相似度排序,得到相似度排序结果,通过相似度排序结果,以及候选评价词集合与指定评价词的词性是否相同的判断结果来确定指定评价词的词义。本方案通过两次相似性计算,提高了确定的近义词的精度,同时,通过判断词性是否相同来确定近义词,避免了现有技术中可能出现的词性相反却确定为近义词的情况,准确率提高。

Description

一种近义词的获取方法及系统
技术领域
本发明涉及网络数据处理技术领域,尤其涉及一种近义词的获取方法及系统。
背景技术
近年来,随着微博等用户自媒体的爆炸式增长,在网络平台上发表观点、评论的用户群体越来越庞大,利用网络挖掘网民意见变得可行。
其中,在挖掘网民意见所讨论的对象的评价词时,不同用户可能通过不同的词表达同一个意见,例如:针对某一个明星的评价词:帅、帅炸,通过不同的词表达该明星帅的意思。
然而,目前,确定不同的词是否表达同一个意思,通常是基于词共现的方式确定两个不同的词是否为关键词,即首先确定针对一个评价对象的一个评价词,然后找出与该评价对象及该评价词共现的词有哪些,确定高频共现词为候选词,从候选词中选取相似性最高的为近义词。
然而,采用这种方式,其精确度较低,例如:有时候共现词在词性上可能不对等,甚至词义相反,这就降低了选取的近义词的准确度。
发明内容
有鉴于此,本发明提供一种近义词获取方法及系统,以解决现有技术中基于词共现的方式确定近义词,准确度较低的问题,其具体方案如下:
一种近义词的获取方法,包括:
确定指定评价词与指定评价对象在文本中的共现频率;
构建共现词矩阵,所述共现词矩阵包括:多个评价对象,多个评价词,以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个所述评价词的共现频率,其中,所述多个评价对象中至少包括所述指定评价对象,所述多个评价词中至少包括所述指定评价词;
对所述共现词矩阵中的所述多个评价词进行降维处理,得到评价词向量;
通过第一相似度计算方式计算所述评价词向量的第一相似度,确定与所述指定评价词相似度高于预定数值的候选评价词集合;
通过第二相似度计算方式对所述候选评价词集合进行相似度排序,得到相似度排序结果,通过所述相似度排序结果,以及所述候选评价词集合与所述指定评价词的词性是否相同的判断结果确定所述指定评价词的近义词。
进一步的,所述确定指定评价词与指定评价对象在文本中的共现频率,包括:
对包括指定评价对象及指定评价词的文本进行分词处理;
确定所述文本中指定评价对象在指定评价词预定范围内的共现频率。
进一步的,所述确定所述文本中指定评价对象在指定评价词预定范围内的共现频率,包括:
当所述指定评价对象出现在与所述指定评价词相距在预定数量之内的第一评价对象集合中时,确定所述指定评价对象在指定评价词预定范围内;
确定所述文本中指定评价对象在指定评价词预定范围内的共现频率。
进一步的,所述确定与所述指定评价词相似度高于预定数值的候选评价词集合,包括:
从与所述指定评价词相似度高于预定数值的多个评价词中确定指定数量的评价词作为候选评价词集合。
进一步的,所述通过所述相似度排序结果,以及所述候选评价词集合与所述指定评价词的词性是否相同的判断结果确定所述指定评价词的近义词,包括:
选取所述候选评价词集合中的各候选评价词与所述指定评价词的词性相同的评价词作为待选评价词集合;
将所述待选评价词集合中的各待选评价词与所述指定评价词进行相似度排序,得到相似度排序结果,根据所述相似度排序结果确定所述待选评价词集合中与所述指定评价词相似度最高的评价词作为所述指定评价词的近义词。
进一步的,所述构建共现词矩阵,所述共现词矩阵包括:多个评价对象,多个评价词,以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个所述评价词的共现频率,其中,所述多个评价对象中至少包括所述指定评价对象,所述多个评价词中至少包括所述指定评价词,包括:
构建词性相同的共现词矩阵,所述词性相同的共现词矩阵包括:多个评价对象,多个评价词,以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个所述评价词的共现频率,其中,所述多个评价对象中至少包括所述指定评价对象,所述多个评价词中至少包括所述指定评价词,其中,所述多个评价词的词性与所述指定评价词词性相同。
进一步的,所述通过所述相似度排序确定所述指定评价词的近义词,包括:
确定所述候选评价词集合中与所述指定评价词相似度最高的评价词为第一评价词;
判断与所述第一评价词相似度最高的评价词是否为所述指定评价词;
若是,将所述第一评价词确定为所述指定评价词的近义词。
一种近义词的获取系统,包括:频率确定单元,构建单元,降维单元,候选评价词集合确定单元及近义词确定单元,其中:
所述频率确定单元用于确定指定评价词与指定评价对象在文本中的共现频率;
所述构建单元用于构建共现词矩阵,所述共现词矩阵包括:多个评价对象,多个评价词,以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个评价词的共现频率,其中,所述多个评价对象中至少包括所述指定评价对象,所述多个评价词中至少包括所述指定评价词;
所述降维单元用于对所述共现词矩阵中的所述多个评价词进行降维处理,得到评价词向量;
所述候选评价词集合确定单元用于通过第一相似度计算方式计算所述评价词向量的第一相似度,确定与所述指定评价词相似度高于预定数值的候选评价词集合;
所述近义词确定单元用于通过第二相似度计算方式对所述候选评价词集合进行相似度排序,得到相似度排序结果,通过所述相似度排序结果,以及所述候选评价词集合与所述指定评价词的词性是否相同的判断结果确定所述指定评价词的近义词。
进一步的,所述频率确定单元用于:
对包括指定评价对象及指定评价词的文本进行分词处理,确定所述文本中指定评价对象在指定评价词预定范围内的共现频率。
进一步的,所述构建单元用于:
构建词性相同的共现词矩阵,所述词性相同的共现词矩阵包括:所述指定评价对象与多个评价词的共现频率,及所述指定评价词与多个评价对象的共现频率,其中,所述多个评价词的词性与所述指定评价词词性相同。
从上述技术方案可以看出,本申请公开的近义词的获取方法及系统,通过确定指定评价词与指定评价对象在文本中的共现频率,构建共现词矩阵,对共现词矩阵中的多个评价词进行降维处理,得到评价词向量,通过第一相似度计算方式计算评价词向量的第一相似度,确定与指定评价词相似度高于预定数值的候选评价词集合,通过第二相似度计算方式对候选评价词集合进行相似度排序,得到相似度排序结果,通过相似度排序结果,以及候选评价词集合与指定评价词的词性是否相同的判断结果来确定指定评价词的词义。本方案通过两次相似性计算,提高了确定的近义词的精度,同时,通过判断词性是否相同来确定近义词,避免了现有技术中可能出现的词性相反却确定为近义词的情况,准确率提高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种近义词获取方法的流程图;
图2为本发明实施例公开的另一种近义词获取方法的流程图;
图3为本发明实施例公开的又一种近义词获取方法的流程图;
图4为本发明实施例公开的一种近义词获取系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开了一种近义词的获取方法,其流程图如图1所示,包括:
步骤S11,确定指定评价词与指定评价对象在文本中的共现频率;
指定评价词与指定评价对象在文本中的共现频率,即指定评价词与指定评价对象在同一句话中共同出现的频率。
具体的,还可以为:在文本中指定评价对象出现在指定评价词的预定范围内的共现频率。
具体的,当指定评价对象出现在与指定评价词相距在预定数量之内的第一评价对象集合中时,确定指定评价对象在指定评价词预定范围内。
其中,可以设置一个共现窗口,只有指定评价对象与指定评价词同时出现在该共现窗口内,才认为该指定评价对象与该指定评价词共现,计一次共现频率。
而共现窗口具体是指,以一个指定评价词为基准,与其距离最近的指定数量的评价对象,即与该指定评价词在同一个共现窗口内,例如:在一个文本中,确定一个指定评价词,与该指定评价词距离最近的指定数量的评价对象。例如:共现窗口为4个,即与指定评价词距离最近的4个评价对象在其共现窗口内;
另外,还可以为:指定距离,即与指定评价词在指定距离内的评价对象与该指定评价词在同一个共现窗口内,该指定距离可以具体为比特位。例如:共现窗口为4比特位,即出现在该指定评价词的4比特位之内的评价对象为与该指定评价词在同一个共现窗口内。
当评价对象与评价词同时出现在一句话中,但两者之间距离太远,不在共现窗口内,此时,也不能视为一次共现,不能计共现频率。
具体的,对包括该指定评价对象及指定评价词的文本进行分词处理,对分词处理后的文本进行共现频率的统计。其中,分词处理可以采用NLP技术进行,在此不做具体论述。
步骤S12、构建共现词矩阵,共现词矩阵包括:多个评价对象,多个评价词,以及多个评价对象中每个评价对象与多个评价词中每个评价词的共现频率;
其中,多个评价对象中至少包括指定评价对象,多个评价词中至少包括指定评价词。
共现词矩阵,即评价对象与评价词共同出现的共现频率矩阵,具体的,可以为:横向为评价对象,纵向为评价词,针对每一个评价对象,出现评价词的概率在中间表格中填写,从而得到针对多个评价对象出现的不同的评价词的频率,多个评价对象中包括指定评价对象,多个评价词中包括指定评价词。
其中,共现词矩阵获取的方法,可以具体为:首先确定指定评价对象及指定评价词,之后确定指定评价对象所对应的多个评价词,以及指定评价词所对应的多个评价对象,从而确定一个共现词矩阵。
步骤S13、对共现词矩阵中的多个评价词进行降维处理,得到评价词向量;
评价词可能有很长的向量维度,利用PCA降维来简化评价词的特征,具体的,可以选取特征值大于85%的点作为特征选取的量化标准。
步骤S14、通过第一相似度计算方式计算评价词向量的第一相似度,确定与指定评价词相似度高于预定数值的候选评价词集合;
其中,第一相似度计算方式可以具体为:cos余弦相似度计算,第一相似度即cos余弦相似度。
通过计算评价词向量的cos余弦相似度,可以确定各评价词与指定评价词之间的相似度值,从中选取候选评价词集合。
其中,候选评价词集合可以为:从各评价词中选取与指定评价词的相似度最高的指定数量的评价词作为候选评价词集合,例如:选取各评价词中与指定评价词的相似度值最高的4个评价词作为候选评价词集合;也可以为:从各评价词中选取与指定评价词的相似度值高于预定数值的评价词作为候选评价词集合,例如:选取各评价词中与指定评价词的相似度高于预定数值的多个评价词中选取最高的4个作为候选评价词集合。
步骤S15、通过第二相似度计算方式对候选评价词集合进行相似度排序,得到相似度排序结果,通过相似度排序结果,以及候选评价词集合与指定评价词的词性是否相同的判断结果,确定指定评价词的近义词。
其中,第二相似度计算方式可以具体为:word2vector。
在通过cos余弦相似度计算之后,在选取中的候选评价词集合中再利用word2vector进行二次过滤,当利用word2vector确定的相似度仍然很高时,则认为该评价词与指定评价词的相似度确实很高。
此时,还需要确定候选评价词集合的词性与指定评价词的词性是否相同,具体的,选取候选评价词集合中与指定评价词的词性相同的评价词作为待选评价词集合,将待选评价词集合与指定评价词的相似度进行排序,得到相似度排序结果,根据相似度排序结果确定待选评价词集合中与指定评价词相似度最高的评价词作为指定评价词的近义词。
具体的,确定候选评价词集合中的候选评价词的词性与指定评价词的词性是否相同,如:均为表达正向情感的评价词,或,均为表现负向情感的评价词时,表明该评价词与指定评价词的词性相同;若,其中一个用于表达正向情感,另一个表达负向情感,则这两个评价词为词性不同的评价词,当候选评价词集合中有一个或多个候选评价词与指定评价词的词性不同,则无需再对该一个或多个候选评价词进行后续判断,直接认定该一个或多个候选评价词不为指定评价词的近义词即可。
当确定候选评价词集合中各评价词与指定评价词的词性相同时,再从候选评价词集合中选取通过word2vector确定的与指定评价词相似度最高的评价词作为近义词。
进一步的,也可以为:首先从候选评价词集合中选取通过word2vector确定的与指定评价词相似度最高的评价词,确定该相似度最高的评价词与指定评价词的词性是否相同,若相同,则确定该相似度最高的评价词为近义词。
本实施例公开的近义词的获取方法,通过确定指定评价词与指定评价对象在文本中的共现频率,构建共现词矩阵,对共现词矩阵中的多个评价词进行降维处理,得到评价词向量,通过第一相似度计算方式计算评价词向量的第一相似度,确定与指定评价词相似度高于预定数值的候选评价词集合,通过第二相似度计算方式对候选评价词集合进行相似度排序,得到相似度排序结果,通过相似度排序结果,以及候选评价词集合与指定评价词的词性是否相同的判断结果来确定指定评价词的词义。本方案通过两次相似性计算,提高了确定的近义词的精度,同时,通过判断词性是否相同来确定近义词,避免了现有技术中可能出现的词性相反却确定为近义词的情况,准确率提高。
本实施例公开了一种近义词的获取方法,其流程图如图2所示,包括:
步骤S21、确定指定评价词与指定评价对象在文本中的共现频率;
步骤S22、构建词性相同的共现词矩阵,词性相同的共现词矩阵包括:多个评价对象,多个评价词,以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个所述评价词的共现频率,其中,所述多个评价对象中至少包括所述指定评价对象,所述多个评价词中至少包括所述指定评价词,其中,多个评价词的词性与指定评价词词性相同;
在构建共现词矩阵时,即确定该共现词矩阵中的各评价词是否词性相同,当有词性不同的评价词时,确定该词性不同的评价词词性与指定评价词词性是否相同,若相同,则将该评价词放入共现词矩阵,若不同,则在共现词矩阵中剔除与指定评价词词性不同的一个或多个评价词。也可以为:将各评价词的词性与指定评价词的词性比较,看是否相同,若相同,则将各评价词构建如共现词矩阵,若不同,则将与指定评价词词性不同的评价词剔除出该共现词矩阵,以保持共现词矩阵中所有的评价词的词性均相同。
进一步的,也可以为:在构建共现词矩阵之前,首先确定各评价词的词性,只有词性与指定评价词的词性相同的评价词,才可以被放入该共现词矩阵中,以便于词性相同的各评价词进行比较。
步骤S23、对共现词矩阵中的多个评价词进行降维处理,得到评价词向量;
步骤S24、通过第一相似度计算方式计算评价词向量的第一相似度,确定与指定评价词相似度高于预定数值的候选评价词集合;
步骤S25、通过第二相似度计算方式对候选评价词集合进行相似度排序,得到相似度排序结果,通过相似度排序结果确定指定评价词的近义词。
本实施例公开的近义词的获取方法,通过确定指定评价词与指定评价对象在文本中的共现频率,构建词性相同的共现词矩阵,对共现词矩阵中的多个评价词进行降维处理,得到评价词向量,通过第一相似度计算方式计算评价词向量的第一相似度,确定与指定评价词相似度高于预定数值的候选评价词集合,通过第二相似度计算方式对候选评价词集合进行相似度排序,得到相似度排序结果,通过相似度排序结果来确定指定评价词的词义。本方案中在构建共现词矩阵时,即确定了该共现词矩阵中的多个评价词为词性相同的评价词,以便于在后续最终确定指定评价词的近义词时,仅通过一个相似度结果排序即可确定,无需在最终判断时,需要进行两次判断,当两次判断均符合时,才能确定为近义词,提高了工作效率。
本实施例公开了一种近义词的获取方法,其流程图如图3所示,包括:
步骤S31、确定指定评价词与指定评价对象在文本中的共现频率;
步骤S32、构建词性相同的共现词矩阵,词性相同的共现词矩阵包括:多个评价对象,多个评价词,以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个所述评价词的共现频率,其中,所述多个评价对象中至少包括所述指定评价对象,所述多个评价词中至少包括所述指定评价词,其中,多个评价词的词性与指定评价词词性相同;
步骤S33、对共现词矩阵中的多个评价词进行降维处理,得到评价词向量;
步骤S34、通过第一相似度计算方式计算评价词向量的第一相似度,确定与指定评价词相似度高于预定数值的候选评价词集合;
步骤S35、通过第二相似度计算方式对候选评价词集合进行相似度排序,得到相似度排序结果,根据相似度排序结果确定候选评价词集合中与指定评价词相似度最高的评价词为第一评价词;
步骤S36、判断与第一评价词相似度最高的评价词是否为指定评价词;
步骤S37、若是,将第一评价词确定为指定评价词的近义词。
确定候选评价词集合中各候选评价词及指定评价词中各评价词之间的相似度值,以确定在各候选评价词及指定评价词中各评价词之间相似度最高的是哪个评价词,例如:指定评价词为A,候选评价词集合中包括:B、C、D,其中,与指定评价词A相似度最高的候选评价词为C,将C确定为第一评价词,而与候选评价词C相似度最高的为B,即与第一评价词C相似度最高的并非指定评价词A,则不能将第一评价词C确定为指定评价词A的近义词,只有当在候选评价词集合中,与指定评价词A的相似度最高的是第一评价词C,同时,在各候选评价词及指定评价词中,与第一评价词C相似度最高的为指定评价词A时,才能将第一评价词C确定为近义词,从而提高近义词匹配的准确性。
本实施例公开的近义词获取方法,通过确定指定评价词与指定评价对象在文本中的共现频率,构建共现词矩阵,对共现词矩阵中的多个评价词进行降维处理,得到评价词向量,通过第一相似度计算方式计算评价词向量的第一相似度,确定与指定评价词相似度高于预定数值的候选评价词集合,通过第二相似度计算方式对候选评价词集合进行相似度排序,得到相似度排序结果,通过相似度排序结果确定候选评价词集合中与指定评价词相似度最高的评价词为第一评价词,只有当与第一评价词相似度最高的评价词是指定评价词时,才将第一评价词确定为指定评价词的近义词,即指定评价词与候选评价词互为相似度最高的评价词,提高了近义词匹配的准确性。
本实施例公开了一种近义词获取系统,其结构示意图如图4所示,包括:
频率确定单元41,构建单元42,降维单元43,候选评价词集合确定单元44及近义词确定单元45。
其中,频率确定单元41用于确定指定评价词与指定评价对象在文本中的共现频率;
指定评价词与指定评价对象在文本中的共现频率,即指定评价词与指定评价对象在同一句话中共同出现的频率。
具体的,还可以为:在文本中指定评价对象出现在指定评价词的预定范围内的共现频率。
具体的,当指定评价对象出现在与指定评价词相距在预定数量之内的第一评价对象集合中时,确定指定评价对象在指定评价词预定范围内。
其中,可以设置一个共现窗口,只有指定评价对象与指定评价词同时出现在该共现窗口内,才认为该指定评价对象与该指定评价词共现,计一次共现频率。
而共现窗口具体是指,以一个指定评价词为基准,与其距离最近的指定数量的评价对象,即与该指定评价词在同一个共现窗口内,例如:在一个文本中,确定一个指定评价词,与该指定评价词距离最近的指定数量的评价对象。例如:共现窗口为4个,即与指定评价词距离最近的4个评价对象在其共现窗口内;
另外,还可以为:指定距离,即与指定评价词在指定距离内的评价对象与该指定评价词在同一个共现窗口内,该指定距离可以具体为比特位。例如:共现窗口为4比特位,即出现在该指定评价词的4比特位之内的评价对象为与该指定评价词在同一个共现窗口内。
当评价对象与评价词同时出现在一句话中,但两者之间距离太远,不在共现窗口内,此时,也不能视为一次共现,不能计共现频率。
具体的,对包括该指定评价对象及指定评价词的文本进行分词处理,对分词处理后的文本进行共现频率的统计。其中,分词处理可以采用NLP技术进行,在此不做具体论述。
构建单元42用于构建共现词矩阵,共现词矩阵包括:多个评价对象,多个评价词,以及多个评价对象中每个评价对象与多个评价词中每个评价词的共现频率,其中,多个评价对象中至少包括指定评价对象,多个评价词中至少包括指定评价词;
共现词矩阵,即评价对象与评价词共同出现的共现频率矩阵,具体的,可以为:横向为评价对象,纵向为评价词,针对每一个评价对象,出现评价词的概率在中间表格中填写,从而得到针对多个评价对象出现的不同的评价词的频率,多个评价对象中包括指定评价对象,多个评价词中包括指定评价词。
其中,共现词矩阵获取的方法,可以具体为:首先确定指定评价对象及指定评价词,之后确定指定评价对象所对应的多个评价词,以及指定评价词所对应的多个评价对象,从而确定一个共现词矩阵。
构建单元42具体用于:构建词性相同的共现词矩阵,词性相同的共现词矩阵包括:多个评价对象,多个评价词,以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个所述评价词的共现频率,其中,所述多个评价对象中至少包括所述指定评价对象,所述多个评价词中至少包括所述指定评价词,其中,多个评价词的词性与指定评价词词性相同。
在构建共现词矩阵时,即确定该共现词矩阵中的各评价词是否词性相同,当有词性不同的评价词时,确定该词性不同的评价词词性与指定评价词词性是否相同,若相同,则将该评价词放入共现词矩阵,若不同,则在共现词矩阵中剔除与指定评价词词性不同的一个或多个评价词。也可以为:将各评价词的词性与指定评价词的词性比较,看是否相同,若相同,则将各评价词构建如共现词矩阵,若不同,则将与指定评价词词性不同的评价词剔除出该共现词矩阵,以保持共现词矩阵中所有的评价词的词性均相同。
进一步的,也可以为:在构建共现词矩阵之前,首先确定各评价词的词性,只有词性与指定评价词的词性相同的评价词,才可以被放入该共现词矩阵中,以便于词性相同的各评价词进行比较。
降维单元43用于对共现词矩阵中的多个评价词进行降维处理,得到评价词向量;
评价词可能有很长的向量维度,利用PCA降维来简化评价词的特征,具体的,可以选取特征值大于85%的点作为特征选取的量化标准。
候选评价词集合确定单元44用于通过第一相似度计算方式计算所述评价词向量的第一相似度,确定与指定评价词相似度高于预定数值的候选评价词集合;
其中,第一相似度计算方式可以具体为:cos余弦相似度计算,第一相似度即cos余弦相似度。
通过计算评价词向量的cos余弦相似度,可以确定各评价词与指定评价词之间的相似度值,从中选取候选评价词集合。
其中,候选评价词集合可以为:从各评价词中选取与指定评价词的相似度最高的指定数量的评价词作为候选评价词集合,例如:选取各评价词中与指定评价词的相似度值最高的4个评价词作为候选评价词集合;也可以为:从各评价词中选取与指定评价词的相似度值高于预定数值的评价词作为候选评价词集合,例如:选取各评价词中与指定评价词的相似度高于预定数值的多个评价词中选取最高的4个作为候选评价词集合。
近义词确定单元45用于通过第二相似度计算方式对候选评价词集合进行相似度排序,得到相似度排序结果,通过相似度排序结果,以及候选评价词集合与指定评价词的词性是否相同的判断结果确定指定评价词的近义词。
其中,第二相似度计算方式可以具体为:word2vector。
在通过cos余弦相似度计算之后,在选取中的候选评价词集合中再利用word2vector进行二次过滤,当利用word2vector确定的相似度仍然很高时,则认为该评价词与指定评价词的相似度确实很高。
此时,还需要确定候选评价词集合的词性与指定评价词的词性是否相同,具体的,选取候选评价词集合中与指定评价词的词性相同的评价词作为待选评价词集合,将待选评价词集合与指定评价词的相似度进行排序,得到相似度排序结果,根据相似度排序结果确定待选评价词集合中与指定评价词相似度最高的评价词作为指定评价词的近义词。
具体的,确定候选评价词集合中的候选评价词的词性与指定评价词的词性是否相同,如:均为表达正向情感的评价词,或,均为表现负向情感的评价词时,表明该评价词与指定评价词的词性相同;若,其中一个用于表达正向情感,另一个表达负向情感,则这两个评价词为词性不同的评价词,当候选评价词集合中有一个或多个候选评价词与指定评价词的词性不同,则无需再对该一个或多个候选评价词进行后续判断,直接认定该一个或多个候选评价词不为指定评价词的近义词即可。
当确定候选评价词集合中各评价词与指定评价词的词性相同时,再从候选评价词集合中选取通过word2vector确定的与指定评价词相似度最高的评价词作为近义词。
进一步的,也可以为:首先从候选评价词集合中选取通过word2vector确定的与指定评价词相似度最高的评价词,确定该相似度最高的评价词与指定评价词的词性是否相同,若相同,则确定该相似度最高的评价词为近义词。
近义词确定单元45具体用于:根据相似度判断结果确定候选评价词集合中与指定评价词相似度最高的评价词为第一评价词,判断与第一评价词相似度最高的评价词是否为指定评价词,若是,将第一评价词确定为指定评价词的近义词。
确定候选评价词集合中各候选评价词及指定评价词中各评价词之间的相似度值,以确定在各候选评价词及指定评价词中各评价词之间相似度最高的是哪个评价词,例如:指定评价词为A,候选评价词集合中包括:B、C、D,其中,与指定评价词A相似度最高的候选评价词为C,将C确定为第一评价词,而与候选评价词C相似度最高的为B,即与第一评价词C相似度最高的并非指定评价词A,则不能将第一评价词C确定为指定评价词A的近义词,只有当在候选评价词集合中,与指定评价词A的相似度最高的是第一评价词C,同时,在各候选评价词及指定评价词中,与第一评价词C相似度最高的为指定评价词A时,才能将第一评价词C确定为近义词,从而提高近义词匹配的准确性。
本实施例公开的近义词的获取系统,通过确定指定评价词与指定评价对象在文本中的共现频率,构建共现词矩阵,对共现词矩阵中的多个评价词进行降维处理,得到评价词向量,通过第一相似度计算方式计算评价词向量的第一相似度,确定与指定评价词相似度高于预定数值的候选评价词集合,通过第二相似度计算方式对候选评价词集合进行相似度排序,得到相似度排序结果,通过相似度排序结果,以及候选评价词集合与指定评价词的词性是否相同的判断结果来确定指定评价词的词义。本方案通过两次相似性计算,提高了确定的近义词的精度,同时,通过判断词性是否相同来确定近义词,避免了现有技术中可能出现的词性相反却确定为近义词的情况,准确率提高。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种近义词的获取方法,其特征在于,包括:
确定指定评价词与指定评价对象在文本中的共现频率;
构建共现词矩阵,所述共现词矩阵包括:多个评价对象,多个评价词,以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个所述评价词的共现频率,其中,所述多个评价对象中至少包括所述指定评价对象,所述多个评价词中至少包括所述指定评价词;
对所述共现词矩阵中的所述多个评价词进行降维处理,得到评价词向量;
通过第一相似度计算方式计算所述评价词向量的第一相似度,确定与所述指定评价词相似度高于预定数值的候选评价词集合;
通过第二相似度计算方式对所述候选评价词集合进行相似度排序,得到相似度排序结果,通过所述相似度排序结果,以及所述候选评价词集合与所述指定评价词的词性是否相同的判断结果确定所述指定评价词的近义词。
2.根据权利要求1所述的方法,其特征在于,所述确定指定评价词与指定评价对象在文本中的共现频率,包括:
对包括指定评价对象及指定评价词的文本进行分词处理;
确定所述文本中指定评价对象在指定评价词预定范围内的共现频率。
3.根据权利要求2所述的方法,其特征在于,所述确定所述文本中指定评价对象在指定评价词预定范围内的共现频率,包括:
当所述指定评价对象出现在与所述指定评价词相距在预定数量之内的第一评价对象集合中时,确定所述指定评价对象在指定评价词预定范围内;
确定所述文本中指定评价对象在指定评价词预定范围内的共现频率。
4.根据权利要求1所述的方法,其特征在于,所述确定与所述指定评价词相似度高于预定数值的候选评价词集合,包括:
从与所述指定评价词相似度高于预定数值的多个评价词中确定指定数量的评价词作为候选评价词集合。
5.根据权利要求1所述的方法,其特征在于,所述通过所述相似度排序结果,以及所述候选评价词集合与所述指定评价词的词性是否相同的判断结果确定所述指定评价词的近义词,包括:
选取所述候选评价词集合中的各候选评价词与所述指定评价词的词性相同的评价词作为待选评价词集合;
将所述待选评价词集合中的各待选评价词与所述指定评价词进行相似度排序,得到相似度排序结果,根据所述相似度排序结果确定所述待选评价词集合中与所述指定评价词相似度最高的评价词作为所述指定评价词的近义词。
6.根据权利要求1所述的方法,其特征在于,所述构建共现词矩阵,所述共现词矩阵包括:多个评价对象,多个评价词,以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个所述评价词的共现频率,其中,所述多个评价对象中至少包括所述指定评价对象,所述多个评价词中至少包括所述指定评价词,包括:
构建词性相同的共现词矩阵,所述词性相同的共现词矩阵包括:多个评价对象,多个评价词,以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个所述评价词的共现频率,其中,所述多个评价对象中至少包括所述指定评价对象,所述多个评价词中至少包括所述指定评价词,其中,所述多个评价词的词性与所述指定评价词词性相同。
7.根据权利要求6所述的方法,其特征在于,所述通过所述相似度排序确定所述指定评价词的近义词,包括:
确定所述候选评价词集合中与所述指定评价词相似度最高的评价词为第一评价词;
判断与所述第一评价词相似度最高的评价词是否为所述指定评价词;
若是,将所述第一评价词确定为所述指定评价词的近义词。
8.一种近义词的获取系统,其特征在于,包括:频率确定单元,构建单元,降维单元,候选评价词集合确定单元及近义词确定单元,其中:
所述频率确定单元用于确定指定评价词与指定评价对象在文本中的共现频率;
所述构建单元用于构建共现词矩阵,所述共现词矩阵包括:多个评价对象,多个评价词,以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个评价词的共现频率,其中,所述多个评价对象中至少包括所述指定评价对象,所述多个评价词中至少包括所述指定评价词;
所述降维单元用于对所述共现词矩阵中的所述多个评价词进行降维处理,得到评价词向量;
所述候选评价词集合确定单元用于通过第一相似度计算方式计算所述评价词向量的第一相似度,确定与所述指定评价词相似度高于预定数值的候选评价词集合;
所述近义词确定单元用于通过第二相似度计算方式对所述候选评价词集合进行相似度排序,得到相似度排序结果,通过所述相似度排序结果,以及所述候选评价词集合与所述指定评价词的词性是否相同的判断结果确定所述指定评价词的近义词。
9.根据权利要求8所述的系统,其特征在于,所述频率确定单元用于:
对包括指定评价对象及指定评价词的文本进行分词处理,确定所述文本中指定评价对象在指定评价词预定范围内的共现频率。
10.根据权利要求8所述的系统,其特征在于,所述构建单元用于:
构建词性相同的共现词矩阵,所述词性相同的共现词矩阵包括:多个评价对象,多个评价词,以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个所述评价词的共现频率,其中,所述多个评价对象中至少包括所述指定评价对象,所述多个评价词中至少包括所述指定评价词,其中,所述多个评价词的词性与所述指定评价词词性相同。
CN201711453916.2A 2017-12-28 2017-12-28 一种近义词的获取方法及系统 Active CN108153735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711453916.2A CN108153735B (zh) 2017-12-28 2017-12-28 一种近义词的获取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711453916.2A CN108153735B (zh) 2017-12-28 2017-12-28 一种近义词的获取方法及系统

Publications (2)

Publication Number Publication Date
CN108153735A true CN108153735A (zh) 2018-06-12
CN108153735B CN108153735B (zh) 2021-05-18

Family

ID=62463538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711453916.2A Active CN108153735B (zh) 2017-12-28 2017-12-28 一种近义词的获取方法及系统

Country Status (1)

Country Link
CN (1) CN108153735B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783778A (zh) * 2018-12-20 2019-05-21 北京中科闻歌科技股份有限公司 文本溯源方法、设备及存储介质
CN111428478A (zh) * 2020-03-20 2020-07-17 北京百度网讯科技有限公司 一种词条同义判别的寻证方法、装置、设备和存储介质
CN112232065A (zh) * 2020-10-29 2021-01-15 腾讯科技(深圳)有限公司 挖掘同义词的方法及装置
CN113326686A (zh) * 2020-02-28 2021-08-31 株式会社斯库林集团 相似度计算装置、记录介质以及相似度计算方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009044275A2 (en) * 2007-10-04 2009-04-09 Zi Corporation Of Canada, Inc. Systems and methods for character correction in communication devices
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
US8775160B1 (en) * 2009-12-17 2014-07-08 Shopzilla, Inc. Usage based query response
CN104699667A (zh) * 2015-02-15 2015-06-10 深圳市前海安测信息技术有限公司 改进的基于语义词典的词语相似度计算方法和装置
CN106156082A (zh) * 2015-03-31 2016-11-23 华为技术有限公司 一种本体对齐方法及装置
JP2016224483A (ja) * 2015-05-26 2016-12-28 日本電信電話株式会社 モデル学習装置、方法、及びプログラム
CN106844571A (zh) * 2017-01-03 2017-06-13 北京齐尔布莱特科技有限公司 识别同义词的方法、装置和计算设备
CN107451126A (zh) * 2017-08-21 2017-12-08 广州多益网络股份有限公司 一种近义词筛选方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009044275A2 (en) * 2007-10-04 2009-04-09 Zi Corporation Of Canada, Inc. Systems and methods for character correction in communication devices
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
US8775160B1 (en) * 2009-12-17 2014-07-08 Shopzilla, Inc. Usage based query response
CN104699667A (zh) * 2015-02-15 2015-06-10 深圳市前海安测信息技术有限公司 改进的基于语义词典的词语相似度计算方法和装置
CN106156082A (zh) * 2015-03-31 2016-11-23 华为技术有限公司 一种本体对齐方法及装置
JP2016224483A (ja) * 2015-05-26 2016-12-28 日本電信電話株式会社 モデル学習装置、方法、及びプログラム
CN106844571A (zh) * 2017-01-03 2017-06-13 北京齐尔布莱特科技有限公司 识别同义词的方法、装置和计算设备
CN107451126A (zh) * 2017-08-21 2017-12-08 广州多益网络股份有限公司 一种近义词筛选方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
裴楠 等: "基于计数模型的Word Embedding 算法", 《沈阳航空航天大学学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783778A (zh) * 2018-12-20 2019-05-21 北京中科闻歌科技股份有限公司 文本溯源方法、设备及存储介质
CN109783778B (zh) * 2018-12-20 2020-10-23 北京中科闻歌科技股份有限公司 文本溯源方法、设备及存储介质
CN113326686A (zh) * 2020-02-28 2021-08-31 株式会社斯库林集团 相似度计算装置、记录介质以及相似度计算方法
CN113326686B (zh) * 2020-02-28 2024-05-10 株式会社斯库林集团 相似度计算装置、记录介质以及相似度计算方法
CN111428478A (zh) * 2020-03-20 2020-07-17 北京百度网讯科技有限公司 一种词条同义判别的寻证方法、装置、设备和存储介质
CN111428478B (zh) * 2020-03-20 2023-08-15 北京百度网讯科技有限公司 一种词条同义判别的寻证方法、装置、设备和存储介质
CN112232065A (zh) * 2020-10-29 2021-01-15 腾讯科技(深圳)有限公司 挖掘同义词的方法及装置
CN112232065B (zh) * 2020-10-29 2024-05-14 腾讯科技(深圳)有限公司 挖掘同义词的方法及装置

Also Published As

Publication number Publication date
CN108153735B (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN108153735A (zh) 一种近义词的获取方法及系统
US11403284B2 (en) System for data sharing platform based on distributed data sharing environment based on block chain, method of searching for data in the system, and method of providing search index in the system
CN104376875B (zh) 存储设备寿命预测、确定方法及装置
CN106844314B (zh) 一种文章的查重方法及装置
CN110177094A (zh) 一种用户团体识别方法、装置、电子设备及存储介质
CN105069115B (zh) 一种基于历史报警分布式聚类的报警抑制方法
CN109766341A (zh) 一种建立哈希映射的方法、装置、存储介质
CN106598949B (zh) 一种词语对文本贡献度的确定方法及装置
CN108228556A (zh) 关键短语提取方法及装置
CN108287875A (zh) 人物共现关系确定方法、专家推荐方法、装置及设备
CN107688488A (zh) 一种基于元数据的任务调度的优化方法及装置
EP3356951A1 (en) Managing a database of patterns used to identify subsequences in logs
CN110222194A (zh) 基于自然语言处理的数据图表生成方法和相关装置
CN105930505A (zh) 一种信息搜索方法及装置
CN106407226B (zh) 一种数据处理方法、备份服务器及存储系统
CN108985559A (zh) 风控数据处理方法、装置、计算机设备及存储介质
CN106550208A (zh) 视频拆分方法、设备及视频分析系统
CN109977415A (zh) 一种文本纠错方法及装置
CN105160003B (zh) 一种基于地理位置的app检索排序方法及系统
CN114281256A (zh) 基于分布式存储系统的数据同步方法、装置、设备及介质
CN109635955A (zh) 一种特征组合方法、装置及设备
Lin et al. Uniformly most powerful Bayesian interval design for phase I dose‐finding trials
CN108255810B (zh) 近义词挖掘方法、装置及电子设备
CN104298614A (zh) 数据块在存储设备中存储方法和存储设备
CN105233484B (zh) 一种智能记分系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant