CN110472140B - 对象词推荐方法、装置及电子设备 - Google Patents

对象词推荐方法、装置及电子设备 Download PDF

Info

Publication number
CN110472140B
CN110472140B CN201910647587.8A CN201910647587A CN110472140B CN 110472140 B CN110472140 B CN 110472140B CN 201910647587 A CN201910647587 A CN 201910647587A CN 110472140 B CN110472140 B CN 110472140B
Authority
CN
China
Prior art keywords
word
corpus
candidate
target
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910647587.8A
Other languages
English (en)
Other versions
CN110472140A (zh
Inventor
张国校
张茜
李铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910647587.8A priority Critical patent/CN110472140B/zh
Publication of CN110472140A publication Critical patent/CN110472140A/zh
Application granted granted Critical
Publication of CN110472140B publication Critical patent/CN110472140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开的实施例提供了一种对象词推荐方法、装置及电子设备,属于计算机技术领域。该对象词推荐方法包括:获取属于第一领域的第一语料和属于第二领域的第二语料;获得所述第一语料的第一候选项和所述第二语料的第二候选项;根据所述第一候选项和所述第二候选项,确定所述第一语料的目标候选项;通过二分类模型对所述目标候选项进行处理,获得所述第一语料的对象词。本公开实施例的技术方案结合候选项发现技术和分类模型,利用人工智能中的机器学习技术能够较为快速、准确地自动发现语料中的对象词。

Description

对象词推荐方法、装置及电子设备
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种对象词推荐方法、装置及电子设备。
背景技术
针对网络上各种海量的用户评论数据,为了能够方便其他用户快速了解用户评论数据中的重点信息,或者快速找到其所希望了解的信息,需要提取出用户评论数据中的关键词、主题词或者对象词等,并显示在网页上。
现有技术中,人工通过浏览大量的用户评论数据,从中选择出对象词等,需要大量的人力物力,耗时且效率低下,同时由于人的主观因素,会导致筛选出来的对象词准确率较低。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开实施例的目的在于提供一种对象词推荐方法、装置及电子设备,进而至少在一定程度上能够提高对象词的发现效率和准确率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开实施例的一个方面,提供了一种对象词推荐方法,所述方法包括:获取属于第一领域的第一语料和属于第二领域的第二语料;获得所述第一语料的第一候选项和所述第二语料的第二候选项;根据所述第一候选项和所述第二候选项,确定所述第一语料的目标候选项;通过二分类模型对所述目标候选项进行处理,获得所述第一语料的对象词。
在本公开的一些示例性实施例中,所述方法还包括:获取训练数据集,所述训练数据集包括标注为正样本的对象词和标注为负样本的非对象词;提取各正样本和各负样本的数据特征;利用各正样本和各负样本的数据特征训练所述二分类模型。
在本公开的一些示例性实施例中,通过以下公式确定所述第一语料的频率阈值fthred
fthred=max(l,(log(N)+1-l)*l)
其中,l为设定常量值;N为所述第一语料中的信息条数。
在本公开的一些示例性实施例中,获得所述目标对象词的相关对象词,包括:获得所述第一语料的各第一候选项的特征向量;利用HDBSCAN聚类算法对各第一候选项的特征向量进行聚类,确定所述目标对象词的目标类别;将属于所述目标类别的第一候选项作为所述目标对象词的相关对象词。
根据本公开实施例的一个方面,提供了一种对象词推荐装置,所述装置包括:语料获取模块,配置为获取属于第一领域的第一语料和属于第二领域的第二语料;候选项获得模块,配置为获得所述第一语料的第一候选项和所述第二语料的第二候选项;目标项确定模块,配置为根据所述第一候选项和所述第二候选项,确定所述第一语料的目标候选项;对象词获得模块,配置为通过二分类模型对所述目标候选项进行处理,获得所述第一语料的对象词。
根据本公开实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的对象词推荐方法。
在本公开的一些实施例所提供的技术方案中,通过获取属于第一领域的第一语料和属于第二领域的第二语料;获得所述第一语料的第一候选项和所述第二语料的第二候选项;根据所述第一候选项和所述第二候选项,确定所述第一语料的目标候选项;通过二分类模型对所述目标候选项进行处理,获得所述第一语料的对象词。一方面,由于采用了候选项发现技术确定了第一语料的目标候选项,从而可以提高二分类模型对所述第一语料中的对象词的预测准确率;另一方面,通过候选项发现技术和二分类模型的结合使用,能够实现自动向用户推荐对象词,无需人为筛选,提高了对象词的发现效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本公开实施例的对象词推荐方法或对象词推荐装置的示例性系统架构的示意图;
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图;
图3示意性示出了根据本公开的一个实施例的对象词推荐方法的流程图;
图4示出了基于图3的步骤S320的一个实施例的流程图;
图5示出了基于图3的步骤S320的另一个实施例的流程图;
图6示出了基于图3的步骤S330的一个实施例的流程图;
图7示意性示出了根据本公开的另一个实施例的对象词推荐方法的流程图;
图8示出了基于图3的步骤S340的一个实施例的流程图;
图9示出了基于图8的步骤S341的一个实施例的流程图;
图10示出了基于图8的步骤S341的另一个实施例的流程图;
图11示意性示出了根据本公开的又一个实施例的对象词推荐方法的流程图;
图12示意性示出了根据本公开的再一个实施例的对象词推荐方法的流程图;
图13示出了基于图12的步骤S1220的一个实施例的流程图;
图14示出了HDBSCAN聚类的异质结构图;
图15示出了参数的自动选择机制的示意图;
图16示意性示出了一种对象词推荐的应用场景示意图;
图17示意性示出了另一种对象词推荐的应用场景示意图;
图18示意性示出了一种相关对象词推荐的应用场景示意图;
图19示意性示出了根据本公开的一个实施例的对象词推荐装置的框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本公开实施例提供的技术方案涉及人工智能。人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
具体的,本公开实施例提及的方案涉及人工智能的机器学习技术。其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
相关技术中,对象词发现算法主要是转换为序列标注问题来解决,属于有监督方法。但是,有监督的序列标注方法需要标注大量语料,很难扩展到大量不同类型游戏的全网游戏用户评论数据。同时,有监督方法耗时耗力。
图1示出了可以应用本公开实施例的对象词推荐方法或对象词推荐装置的示例性系统架构100的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一种或多种,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)输入针对某款游戏的用户评论数据,然后将该用户评论数据上传到服务器105。服务器105在接收到大量的针对该款游戏的用户评论数据之后,可以对将其作为属于第一领域的第一语料,之后,服务器105可以获取属于第二领域的第二语料;获得所述第一语料的第一候选项和所述第二语料的第二候选项;根据所述第一候选项和所述第二候选项,确定所述第一语料的目标候选项,服务器105可以通过二分类模型对所述目标候选项进行处理,获得所述第一语料的对象词。其中,服务器105可以将所述第一语料的对象词返回至终端设备103(也可以是终端设备101或102),终端设备103(也可以是终端设备101或102)将接收到的第一语料的对象词显示于其显示屏之上。
再例如用户利用终端设备103(也可以是终端设备101或102)输入或者从其上显示的对象词中选择针对某款游戏的目标对象词,然后将该目标对象词上传到服务器105。服务器105可以根据所述目标对象词发现所述目标对象词的相关对象词。其中,服务器105可以将所述目标对象词的相关对象词反馈至终端设备103(也可以是终端设备101或102),终端设备103(也可以是终端设备101或102)将接收到的相关对象词显示于其显示屏之上。
需要说明的是,本公开实施例所提供的对象词推荐方法一般由服务器105执行,相应地,对象词推荐装置一般设置于服务器105中。但是,在本公开的其它实施例中,终端也可以与服务器具有相似的功能,从而执行本公开实施例所提供的图像处理方案。
图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图2示出的电子设备的计算机系统200仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图2所示,计算机系统200包括中央处理单元(CPU)201,其可以根据存储在只读存储器(ROM)202中的程序或者从储存部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中,还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。
以下部件连接至I/O接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207;包括硬盘等的储存部分208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入储存部分208。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块和/或单元和/或子单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的模块和/或单元和/或子单元也可以设置在处理器中。其中,这些模块和/或单元和/或子单元的名称在某种情况下并不构成对该模块和/或单元和/或子单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图3、图4至图13所示的各个步骤。
以下对本公开实施例的技术方案的实现细节进行详细阐述:
图3示意性示出了根据本公开的一个实施例的对象词推荐方法的流程图,该对象词推荐方法可以适用于前述实施例中所述的电子设备。
参照图3所示,该对象词推荐方法可以包括以下步骤。
在步骤S310中,获取属于第一领域的第一语料和属于第二领域的第二语料。
在下面的举例说明中,均以所述第一领域为游戏领域,所述第一语料为具体某款游戏的全部用户评论数据;所述第二领域可以是指除了游戏领域以外的其他任意领域,例如餐饮领域、打车领域、电商领域等中的任意一种,所述第二语料为针对所述第二领域的全部用户评论数据为例进行举例说明,但本公开并不限定于此,本公开的技术方案可以应用至不同的应用场景。
为了监测每一款应用程序(application,APP)或者软件的用户反馈的评论数据,找出用户高频讨论的话题,从而获知该款软件或者APP的用户使用体验,可以设计一种知识库以实现该功能,这里以游戏领域为例,可以设计一种适用于游戏领域的知识库,用于监测每款网络游戏的用户评论数据。
在步骤S320中,获得所述第一语料的第一候选项和所述第二语料的第二候选项。
在步骤S330中,根据所述第一候选项和所述第二候选项,确定所述第一语料的目标候选项。
在步骤S340中,通过二分类模型对所述目标候选项进行处理,获得所述第一语料的对象词。
本公开实施例中,对象词是指某一领域的术语。例如,以游戏领域为例,对象词是指与某款游戏相关的术语。
本公开实施例中,所述二分类模型例如可以采用逻辑回归模型,但本公开并不限定于此,其他任意可以实现文本二分类的机器学习模型、神经网络模型等均可使用。
本公开实施方式提供的对象词推荐方法,通过获取属于第一领域的第一语料和属于第二领域的第二语料;获得所述第一语料的第一候选项和所述第二语料的第二候选项;根据所述第一候选项和所述第二候选项,确定所述第一语料的目标候选项;通过二分类模型对所述目标候选项进行处理,获得所述第一语料的对象词。一方面,由于采用了候选项发现技术确定了第一语料的目标候选项,从而可以提高二分类模型对所述第一语料中的对象词的预测准确率;另一方面,通过候选项发现技术和二分类模型的结合使用,能够实现自动向用户推荐对象词,无需人为筛选,提高了对象词的发现效率。
图4示出了基于图3的步骤S320的一个实施例的流程图。本公开实施例中,所述第一候选项可以包括第一词候选项和第一短语候选项。
如图4所示,本公开实施例中,上述步骤S320可以进一步包括以下步骤。
在步骤S321中,对所述第一语料进行分词,获得所述第一语料的第一词候选项。
例如,可以采用结巴分词等任意合适的分词工具对某款游戏的全部用户评论数据进行处理,提取出其中的词语,作为所述第一语料的第一词候选项。
在步骤S322中,计算第一词候选项之间的互信息,获得所述第一语料的第一短语候选项。
本公开实施例中,在候选项发现阶段,假设候选项包括词和短语。例如,对该款游戏的全部用户评论数据进行分词,获得第一词候选项,通过计算词和词之间的互信息,来组合成短语。其中,互信息主要利用了两个词之间的共现次数来计算词之间的相关性,互信息值越大表示两者越相关。
其中,可以通过以下公式(1)来计算两个第一词候选项之间的互信息:
上述公式中,I(a,b)表示a和b的互信息;a和b分别为待计算相关性的两个第一词候选项;X是a和b共同出现的用户评论数;Y是a出现但b未出现的用户评论数;Z是a未出现但b出现的用户评论数;N表示该款游戏的用户评论总数,这里的X、Y和Z均为大于等于0的整数,N为大于等于1的正整数。
图5示出了基于图3的步骤S320的另一个实施例的流程图。本公开实施例中,所述第二候选项可以包括第二词候选项和第二短语候选项。
如图5所示,本公开实施例中,上述步骤S320可以进一步包括以下步骤。
在步骤S323中,对所述第二语料进行分词,获得所述第二语料的第二词候选项。
例如,可以采用结巴分词等任意合适的分词工具对所述第二语料的全部用户评论数据进行处理,提取出其中的词语,作为所述第二语料的第二词候选项。
在步骤S324中,计算第二词候选项之间的互信息,获得所述第二语料的第二短语候选项。
例如,对所述第二语料的全部用户评论数据进行分词,获得第二词候选项,通过计算词和词之间的互信息,来组合成短语。第二词候选项之间的互信息的计算,可以参照上述公式(1)。即本公开实施例中,对于属于第一领域的第一语料和属于第二领域的第二语料,所述第一语料的第一候选项和所述第二语料的第二候选项可以采用相同的候选项发现策略。
图6示出了基于图3的步骤S330的一个实施例的流程图。
如图6所示,本公开实施例中,上述步骤S330可以进一步包括以下步骤。
在步骤S331中,根据所述第一候选项和所述第二候选项,获得所述第一语料和所述第二语料的候选项交集。
其中,所述候选项交集中存放的是相同的第一候选项和第二候选项。例如,若某个第一词候选项与某个第二词候选项相同,则可以将该第一词候选项或者该第二词候选项加入至所述候选项交集。再例如,若某个第一短语候选项与某个第二短语候选项相同,则可以将该第一短语候选项或该第二短语候选项加入至所述候选项交集。
在步骤S332中,将不属于所述候选项交集的第一候选项作为所述目标候选项。
本公开实施例中,在候选项选择阶段,使用到协同过滤策略,即将相同的候选项发现策略应用到两个不同领域的语料(例如一个是游戏语料,一个是餐饮语料)上,过滤掉两个语料的候选项集合的交集。
例如,对两个不同领域的第一语料和第二语料(假设分别属于A领域和B领域),出现在A领域的对象词通常不应该出现在B领域,出现在B领域的对象词不应该出现在A领域,这是因为对象词是所属领域具有独特性的一些词语或者短语,因此,这里将第一语料和第二语料两者的候选项交集中的第一词候选项和第一短语候选项剔除。
图7示意性示出了根据本公开的另一个实施例的对象词推荐方法的流程图。图7的实施例与上述实施例相比,其不同之处在于,还可以进一步包括以下步骤。
在步骤S710中,获取第一候选项在所述第一语料中的出现频率。
这里,某个第一候选项在所述第一语料中的出现频率是指在所述第一语料中,该第一候选项的出现次数与所述第一语料的用户评论总数(假设为N)的比值。该第一候选项在该第一语料的某条用户评论数据中出现,则其出现次数累加1,若该第一候选项在该第一语料的同一条用户评论数据中出现多次,其出现次数同样是累加1。
在步骤S720中,确定所述第一语料的频率阈值。
本公开实施例中,可以通过以下公式(2)确定所述第一语料的频率阈值fthred
fthred=max(l,(log(N)+1-l)*l) (2)
其中,上述公式中,l为设定常量值,表示固定的词频,例如可以是5或者10,但本公开对此不作限定,可以根据实际需求进行设定;N为所述第一语料中的信息条数(例如用户评论总数)。
在步骤S730中,若所述出现频率大于等于所述频率阈值,则将所述第一候选项作为所述目标候选项。
具体的,在对象词发现的候选项选择阶段,除了使用到上述的协同过滤策略,还可以采用针对不同游戏的自适应策略。因为每款游戏的情况可能是不一样的,例如对A款游戏来说,某个词语出现频率很高,但实际上是无意义的词语,此时可以通过上述的二分类模型对其进一步剔除;而对于B款游戏来说,评论很少,若某个第一候选项出现频率很低,则可以剔除低频词或者短语。即可以通过公式(2)来确定频率阈值,若某个第一候选项在第一语料(例如该款游戏的全部用户评论数据)中出现的频率低于该频率阈值,则判定其是低频项,予以剔除。即可以根据协同过滤策略和自适应策略确定所述第一语料中的目标候选项。
图8示出了基于图3的步骤S340的一个实施例的流程图。
如图8所示,本公开实施例中,上述步骤S340可以进一步包括以下步骤。
在步骤S341中,提取所述目标候选项的数据特征。
在示例性实施例中,所述目标候选项的数据特征可以包括目标候选项的特征向量、长度、句子复现率f1、词复现率f2、相对活跃频率f3、词频变异系数f4等中的至少一项。
其中,可以利用Word2Vec将每个目标候选项用特征向量表示。长度是指每个目标候选项中包括的字个数。
其中,句子复现率f1可以通过以下公式(3)计算获得:
f1=n/1000 (3)
其中,n表示在该第一语料中,包含某个目标候选项w的评论条数,n为大于等于0的整数。例如某条用户评论数据中包含该目标候选项w,且不管其在该条用户评论数据中出现一次还是多次,包含该目标候选项w的评论条数均累加1。
其中,词复现率f2可以通过以下公式(4)计算获得:
f2=m/1000 (4)
上述公式中,m表示某个目标候选项w在所述第一语料中的出现次数(词频),这里若同一条用户评论数据中k次出现了该目标候选项w,则m累加k,k和m均为大于等于0的整数。
在步骤S342中,将所述目标候选项的数据特征输入至所述二分类模型,获得所述目标候选项是否为所述第一语料的对象词的判断结果。
本公开实施方式提供的对象词推荐方法,提取输入至二分类模型中的数据特征,本质上属于数据驱动的,特征选择主要源于数据自身,因此,可以只通过极少数的标注样本即可训练得到一个准确的二分类模型用于对象词的判断和识别。
图9示出了基于图8的步骤S341的一个实施例的流程图。本公开实施例中,所述目标候选项的数据特征可以包括相对活跃频率f3。
如图9所示,本公开实施例中,上述步骤S341可以进一步包括以下步骤。
在步骤S3411中,获取所述目标候选项在所述第一语料中的词频。
例如,假设目标候选项w的词频为m。
在步骤S3412中,获得所述第一语料的最大词频。
例如,所述第一语料中最频繁出现的目标候选项的词频为m1,m1为大于等于1的正整数。
在步骤S3413中,根据所述目标候选项在所述第一语料中的词频和所述最大词频,计算所述目标候选项的相对活跃频率。
本公开实施例中,可以通过以下公式(5)计算获得目标候选项w的相对活跃频率f3:
f3=m/m1 (5)
图10示出了基于图8的步骤S341的另一个实施例的流程图。本公开实施例中,所述目标候选项的数据特征可以包括词频变异系数f4。
如图10所示,本公开实施例中,上述步骤S341可以进一步包括以下步骤。
在步骤S3414中,获得所述目标候选项的词频标准差。
例如,假设按天统计目标候选项w的词频,然后计算其连续多天的词频标准差为sd(w)。
在步骤S3415中,获得所述目标候选项的词频均值。
例如,假设mean(w)为该目标候选项w按天统计的词频均值。
在步骤S3416中,根据所述词频标准差和所述词频均值,计算所述目标候选项的词频变异系数。
本公开实施例中,可以通过以下公式(6)计算获得目标候选项w的词频变异系数f4:
f4=sd(w)/mean(w) (6)
需要说明的是,本公开实施例中对目标候选项的数据特征的提取,并不限于上述例举的种类,其还可以引入更多的第一语料中的上下文特征项,以用于输入至用于对象词判断的二分类模型中。
图11示意性示出了根据本公开的又一个实施例的对象词推荐方法的流程图。图11的实施例与上述实施例相比,其不同之处在于,还可以进一步包括以下步骤。
在步骤S1110中,获取训练数据集,所述训练数据集可以包括标注为正样本的对象词和标注为负样本的非对象词。
本公开实施例中,可以结合已有的知识库,即用户已经手工添加到知识库中的一些对象词,作为正样本,例如将正样本标注为“1”,再另外手动标注一些非对象词集合,用于构建负样本,例如将负样本标注为“0”,但本公开并不限定于此。
在步骤S1120中,提取各正样本和各负样本的数据特征。
例如,可以采用上述实施例给出的方式提取各正样本和各负样本的特征向量、长度、句子复现率、词复现率、相对活跃频率、词频变异系数等中的至少一项。
在步骤S1130中,利用各正样本和各负样本的数据特征训练所述二分类模型。
本公开实施例中,针对对象词发现,引入一些重要特征项,训练出一个二分类模型。在二分类模型的构建阶段,可以根据少量的正负样本集合及其对应的数据特征训练二分类模型,然后在预测阶段,将各个目标候选项的数据特征输入至训练好的二分类模型,即可判断各个目标候选项是否为对象词,从而可以将一些出现频率很高,但实际上是无意义词的目标候选项剔除。
本公开实施方式提供的对象词推荐方法,一方面,由于采用了候选项发现技术获得第一语料中的第一词候选项和第一短语候选项,使得在二分类模型的训练过程中,只需对训练数据集中的词或者短语进行样本标注,相比于相关技术中的有监督方法,需要对成千上万条句子中的每个词语首先进行实体识别,然后再判断每个词语是否要进行标注,降低了模型训练过程中的数据处理量,提升了模型训练效率和速度;另一方面,结合了候选项发现技术和二分类模型,提出一种近似无监督方法,在二分类模型的训练过程中,可以根据极少的种子样本(例如几百词语进行标注),既能够实现自动地、准确地发现第一语料中的对象词。
相关技术中,相关对象词发现算法,则是通过Word2Vec(word to vector,用来产生词向量的相关模型)等词向量方法,通过计算词相似度来获得。但是,通过词相似度来发现相关对象词,会有较多噪音干扰。同时,通过词相似度来发现相关对象词,很难给出一个阈值,用于选择相关对象词。
图12示意性示出了根据本公开的再一个实施例的对象词推荐方法的流程图。图12的实施例与上述实施例相比,其不同之处在于,还可以进一步包括以下步骤。
在步骤S1210中,确定所述第一语料的目标对象词。
例如,用户可以手动输入某款游戏的目标对象词,也可以从当前显示的推荐的多个对象词中点击选择某个对象词作为目标对象词。
在步骤S1220中,获得所述目标对象词的相关对象词。
这里,相关对象词是指给定某一对象词后,语义上和它相关的对象词集合。
本公开实施方式提供的对象词推荐方法,还能够根据确定的目标对象词,自动发现该目标对象词的相关对象词以推荐给用户。
图13示出了基于图12的步骤S1220的一个实施例的流程图。
如图13所示,本公开实施例中,上述步骤S1220可以进一步包括以下步骤。
在步骤S1221中,获得所述第一语料的各第一候选项的特征向量。
例如,可以利用Word2Vec等将各第一候选项用特征向量的形式表示。
在步骤S1222中,利用HDBSCAN(Hierarchical Density-Based SpatialClustering of Applications with Noise,基于层次密度的噪声应用空间聚类)聚类算法对各第一候选项的特征向量进行聚类,确定所述目标对象词的目标类别。
本公开实施例中,所述目标对象词属于所述第一候选项中的一个。提出使用HDBSCAN聚类算法,自动计算最优的类别数目,用于相关对象词推荐。
其中,HDBSCAN聚类算法通过将DBSCAN转换为分层聚类算法来扩展DBSCAN,然后基于聚类稳定性,使用了提取平面聚类地技术。HDBSCAN可以处理密度不同的聚类问题。
在步骤S1223中,将属于所述目标类别的第一候选项作为所述目标对象词的相关对象词。
需要说明的是,相关对象词发现部分,也可以引入一些有监督的方法。例如,可以利用样本数据训练一个机器学习模型或者神经网络模型,样本数据中的正样本为对象词及其相关对象词,负样本为对象词机器非相关对象词,在相关对象词的发现阶段,可以将所述目标对象词和所述第一语料中的其他第一候选项两两组对输入至训练好的机器学习模型或者神经网络模型,预测其两者之间是否存在语义上的相关性,若存在,则将相应的第一候选项作为该目标对象词的相关对象词;如不存在,则相应的第一候选项不是该目标对象词的相关对象词。在其他实施例中,可以将HDBSCAN聚类算法和有监督方法结合来发现相关对象词。
本公开实施方式提供的对象词推荐方法,提出使用HDBSCAN聚类算法,自动计算最优的类别数目,用于相关对象词推荐。
图14示出了HDBSCAN聚类的异质结构图。
如图14所示,左侧纵坐标是距离,右侧纵坐标是log(点数(Number of points))。
图15示出了参数的自动选择机制的示意图。
在候选项聚类阶段,通过Word2Vec词向量模型等获得各第一候选项的特征向量表示后,使用HDBSCAN算法,引入参数自动选择机制,算法会产生垃圾项预测,自动将第一候选项进行聚类。
如图15所示,假设某个第一候选项在图中的点为x,定义第k最近邻距离为当前点x到其第k近的点的距离,首先对所有点的第k最近邻距离进行排序,然后表示成一个曲线(例如图中的排序k-距离图,sorted k-dist graph),计算该曲线上的阈值点和假想线y=x的最远距离d,计算出每个类包含的样本数,出现次数最多的样本数自动作为最小类别所包含的样本数目。
本公开实施方式提供的对象词推荐方法,针对相关对象词发现,引入HDBSCAN聚类算法,能够实现自动确定最佳聚类数目的方法。经过词向量模型训练、候选项聚类和相关对象词预测三个步骤。各个第一候选项用特征向量表示,然后对第一候选项进行聚类,确定目标对象词的目标类别,然后将该目标类别类中的其他第一候选项作为该目标对象词的相关对象词。与其他无监督方法相比,该方法发现的结果具有较高的准确度和召回率。
图16示意性示出了一种对象词推荐的应用场景示意图。
如图16所示,以游戏领域为例,在知识库的显示界面上提供对象词推荐功能,用户可以不输入任何对象词,默认推荐该款游戏的对象词集合。用户在输入框中输入对象词后,则推荐相关对象词。
在图16的实施例中,假设推荐的对象词包括:“湖景村”、“修流”、“监管者”、“电机”、“求生者”、“封窗”、“无敌点”、“盲女”、“杰克”、“系统”、“园丁”、“小特”,用户可以选择各个对象词,将其添加至相应的话题标签下,目录例如可以包括“一级目录筛选”、“二级目录筛选”、“三级目录筛选”,当选择相应的目录后,点击确定添加虚拟按钮,将该对象词加入至知识库中的相应目录下。用户还可以点击下方的左右箭头或者页码进行翻页。
这里的知识库是用于对对象词和其多级话题标签进行编辑的工具。例如,数学这个对象词,其属于科学(一级目录)-自然科学(二级目录)多级话题下,具有多级话题标签。即用户通过这个工具,可以将每个对象词划分到相应的话题类别下。
针对用户评论数据,对用户讨论的话题进行分析,有着重要的价值,而一个话题往往是围绕着某一对象词展开。知识库设计就是针对对象词及其多级话题标签的编辑工具。为了能够提高用户对知识的编辑效率和实时更新一些新出现的对象词,推荐系统的引入至关重要。
图17示意性示出了另一种对象词推荐的应用场景示意图。
如图17所示,这里以另一款游戏为例,推荐的对象词可以包括:“ad”、“玩肉”、“王者局”、“司马懿”、“混分”、“野怪”、“qq区”、“v8”、“无脑英雄”、“补兵”、“社交软件”、“推塔”等。
图18示意性示出了一种相关对象词推荐的应用场景示意图。
如图18所示,以某个游戏的知识库为例,这里假设用户在输入框中输入目标对象词为“湖景村”,则系统自动推荐的相关对象词可以为“月亮河”、“月亮湖”、“疯人院”、“游乐场”、“游乐园”。
对比相关技术,本本公开实施例提供的对象词推荐方法,能够提高对象词和相关对象词的推荐准确率。为了对效果进行评估,针对同一款游戏,使用本公开实施例提供的方法推荐50个对象词,准确度超过80%;相关对象词推荐部分,选择一些对象词作为目标对象词,相关对象词推荐准确度也超过80%。
以下介绍本公开的装置实施例,可以用于执行本公开上述实施例中的对象词推荐方法。对于本公开装置实施例中未披露的细节,请参照本公开上述的对象词推荐方法的实施例。
图19示意性示出了根据本公开的一个实施例的对象词推荐装置的框图。该对象词推荐装置可以设置于前述实施例中所述的电子设备。
参照图19所示,根据本公开的一个实施例的对象词推荐装置1900可以包括:语料获取模块1910、候选项获得模块1920、目标项确定模块1930以及对象词获得模块1940。
其中,语料获取模块1910可以配置为获取属于第一领域的第一语料和属于第二领域的第二语料。候选项获得模块1920可以配置为获得所述第一语料的第一候选项和所述第二语料的第二候选项。目标项确定模块1930可以配置为根据所述第一候选项和所述第二候选项,确定所述第一语料的目标候选项。对象词获得模块1940可以配置为通过二分类模型对所述目标候选项进行处理,获得所述第一语料的对象词。
在示例性实施例中,对象词获得模块1940可以包括:特征提取单元,可以配置为提取所述目标候选项的数据特征;对象词判断单元,可以配置为将所述目标候选项的数据特征输入至所述二分类模型,获得所述目标候选项是否为所述第一语料的对象词的判断结果。
在示例性实施例中,所述目标候选项的数据特征可以包括目标候选项的特征向量、长度、句子复现率、词复现率、相对活跃频率、词频变异系数等中的至少一项。
在示例性实施例中,所述目标候选项的数据特征可以包括相对活跃频率。其中,所述特征提取单元可以包括:候选词频获取子单元,可以配置为获取所述目标候选项在所述第一语料中的词频;最大词频获得子单元,可以配置为获得所述第一语料的最大词频;活跃频率计算子单元,可以配置为根据所述目标候选项在所述第一语料中的词频和所述最大词频,计算所述目标候选项的相对活跃频率。
在示例性实施例中,所述目标候选项的数据特征可以包括词频变异系数。其中,所述特征提取单元可以包括:词频标准差获得子单元,可以配置为获得所述目标候选项的词频标准差;词频均值获得子单元,可以配置为获得所述目标候选项的词频均值;词频变异系数计算子单元,可以配置为根据所述词频标准差和所述词频均值,计算所述目标候选项的词频变异系数。
在示例性实施例中,对象词推荐装置1900还可以包括:训练集获取模块,可以配置为获取训练数据集,所述训练数据集包括标注为正样本的对象词和标注为负样本的非对象词;样本特征提取模块,可以配置为提取各正样本和各负样本的数据特征;模型训练模块,可以配置为利用各正样本和各负样本的数据特征训练所述二分类模型。
在示例性实施例中,所述第一候选项可以包括第一词候选项和第一短语候选项。其中,候选项获得模块1920可以包括:第一词候选项获得单元,可以配置为对所述第一语料进行分词,获得所述第一语料的第一词候选项;第一短语候选项获得单元,可以配置为计算第一词候选项之间的互信息,获得所述第一语料的第一短语候选项。
在示例性实施例中,所述第二候选项可以包括第二词候选项和第二短语候选项。其中,候选项获得模块1920可以包括:第二词候选项获得单元,可以配置为对所述第二语料进行分词,获得所述第二语料的第二词候选项;第二短语候选项获得单元,可以配置为计算第二词候选项之间的互信息,获得所述第二语料的第二短语候选项。
在示例性实施例中,目标项确定模块1930可以包括:候选项交集获得单元,可以配置为根据所述第一候选项和所述第二候选项,获得所述第一语料和所述第二语料的候选项交集;目标项筛选单元,可以配置为将不属于所述候选项交集的第一候选项作为所述目标候选项。
在示例性实施例中,对象词推荐装置1900还可以包括:出现频率获取模块,可以配置为获取第一候选项在所述第一语料中的出现频率;频率阈值确定模块,可以配置为确定所述第一语料的频率阈值;目标候选项判定模块,可以配置为若所述出现频率大于等于所述频率阈值,则将所述第一候选项作为所述目标候选项。
在示例性实施例中,所述频率阈值确定模块可以配置为通过以下公式确定所述第一语料的频率阈值fthred
fthred=max(l,(log(N)+1-l)*l)
其中,l为设定常量值;N为所述第一语料中的信息条数。
在示例性实施例中,对象词推荐装置1900还可以包括:目标对象词确定模块,可以配置为确定所述第一语料的目标对象词;相关对象词获得模块,可以配置为获得所述目标对象词的相关对象词。
在示例性实施例中,所述相关对象词获得模块可以包括:特征向量获得单元,可以配置为获得所述第一语料的各第一候选项的特征向量;聚类单元,可以配置为利用HDBSCAN聚类算法对各第一候选项的特征向量进行聚类,确定所述目标对象词的目标类别;相关对象词确定单元,可以配置为将属于所述目标类别的第一候选项作为所述目标对象词的相关对象词。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元或者子单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元或者子单元的特征和功能可以在一个模块或者单元或者子单元中具体化。反之,上文描述的一个模块或者单元或者子单元的特征和功能可以进一步划分为由多个模块或者单元或者子单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (21)

1.一种对象词推荐方法,其特征在于,包括:
获取属于第一领域的第一语料和属于第二领域的第二语料;
获得所述第一语料的第一候选项和所述第二语料的第二候选项,所述第一候选项包括第一词候选项和第一短语候选项,所述第二候选项包括第二词候选项和第二短语候选项;其中,获得所述第一语料的第一候选项,包括:对所述第一语料进行分词,获得所述第一语料的第一词候选项;计算第一词候选项之间的互信息,获得所述第一语料的第一短语候选项;其中,获得所述第二语料的第二候选项,包括:对所述第二语料进行分词,获得所述第二语料的第二词候选项;计算第二词候选项之间的互信息,获得所述第二语料的第二短语候选项;
根据所述第一候选项和所述第二候选项,确定所述第一语料的目标候选项,其包括:根据所述第一候选项和所述第二候选项,获得所述第一语料和所述第二语料的候选项交集;将不属于所述候选项交集的第一候选项作为所述目标候选项;
通过二分类模型对所述目标候选项进行处理,获得所述第一语料的对象词。
2.根据权利要求1所述的对象词推荐方法,其特征在于,通过二分类模型对所述目标候选项进行处理,获得所述第一语料的对象词,包括:
提取所述目标候选项的数据特征;
将所述目标候选项的数据特征输入至所述二分类模型,获得所述目标候选项是否为所述第一语料的对象词的判断结果。
3.根据权利要求2所述的对象词推荐方法,其特征在于,所述目标候选项的数据特征包括目标候选项的特征向量、长度、句子复现率、词复现率、相对活跃频率、词频变异系数中的至少一项。
4.根据权利要求2或3所述的对象词推荐方法,其特征在于,所述目标候选项的数据特征包括相对活跃频率;其中,提取所述目标候选项的数据特征,包括:
获取所述目标候选项在所述第一语料中的词频;
获得所述第一语料的最大词频;
根据所述目标候选项在所述第一语料中的词频和所述最大词频,计算所述目标候选项的相对活跃频率。
5.根据权利要求2或3所述的对象词推荐方法,其特征在于,所述目标候选项的数据特征包括词频变异系数;其中,提取所述目标候选项的数据特征,包括:
获得所述目标候选项的词频标准差;
获得所述目标候选项的词频均值;
根据所述词频标准差和所述词频均值,计算所述目标候选项的词频变异系数。
6.根据权利要求1所述的对象词推荐方法,其特征在于,还包括:
获取训练数据集,所述训练数据集包括标注为正样本的对象词和标注为负样本的非对象词;
提取各正样本和各负样本的数据特征;
利用各正样本和各负样本的数据特征训练所述二分类模型。
7.根据权利要求1所述的对象词推荐方法,其特征在于,还包括:
获取第一候选项在所述第一语料中的出现频率;
确定所述第一语料的频率阈值;
若所述出现频率大于等于所述频率阈值,则将所述第一候选项作为所述目标候选项。
8.根据权利要求7所述的对象词推荐方法,其特征在于,通过以下公式确定所述第一语料的频率阈值fthred
其中,l为设定常量值;N为所述第一语料中的信息条数。
9.根据权利要求1所述的对象词推荐方法,其特征在于,还包括:
确定所述第一语料的目标对象词;
获得所述目标对象词的相关对象词。
10.根据权利要求9所述的对象词推荐方法,其特征在于,获得所述目标对象词的相关对象词,包括:
获得所述第一语料的各第一候选项的特征向量;
利用HDBSCAN聚类算法对各第一候选项的特征向量进行聚类,确定所述目标对象词的目标类别;
将属于所述目标类别的第一候选项作为所述目标对象词的相关对象词。
11.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至10中任一项所述的对象词推荐方法。
12.一种对象词推荐装置,其特征在于,包括:
语料获取模块,配置为获取属于第一领域的第一语料和属于第二领域的第二语料;
候选项获得模块,配置为获得所述第一语料的第一候选项和所述第二语料的第二候选项,所述第一候选项包括第一词候选项和第一短语候选项,所述第二候选项包括第二词候选项和第二短语候选项;其中,所述候选项获得模块包括:第一词候选项获得单元,配置为对所述第一语料进行分词,获得所述第一语料的第一词候选项;第一短语候选项获得单元,配置为计算第一词候选项之间的互信息,获得所述第一语料的第一短语候选项;第二词候选项获得单元,配置为对所述第二语料进行分词,获得所述第二语料的第二词候选项;第二短语候选项获得单元,配置为计算第二词候选项之间的互信息,获得所述第二语料的第二短语候选项;
目标项确定模块,配置为根据所述第一候选项和所述第二候选项,确定所述第一语料的目标候选项,所述目标项确定模块包括:候选项交集获得单元,配置为根据所述第一候选项和所述第二候选项,获得所述第一语料和所述第二语料的候选项交集;目标项筛选单元,配置为将不属于所述候选项交集的第一候选项作为所述目标候选项;
对象词获得模块,配置为通过二分类模型对所述目标候选项进行处理,获得所述第一语料的对象词。
13.根据权利要求12所述的对象词推荐装置,其特征在于,所述对象词获得模块包括:
特征提取单元,配置为提取所述目标候选项的数据特征;
对象词判断单元,配置为将所述目标候选项的数据特征输入至所述二分类模型,获得所述目标候选项是否为所述第一语料的对象词的判断结果。
14.根据权利要求13所述的对象词推荐装置,其特征在于,所述目标候选项的数据特征包括目标候选项的特征向量、长度、句子复现率、词复现率、相对活跃频率、词频变异系数中的至少一项。
15.根据权利要求13或14所述的对象词推荐装置,其特征在于,所述目标候选项的数据特征包括相对活跃频率;其中,所述特征提取单元包括:
候选词频获取子单元,配置为获取所述目标候选项在所述第一语料中的词频;
最大词频获得子单元,配置为获得所述第一语料的最大词频;
活跃频率计算子单元,配置为根据所述目标候选项在所述第一语料中的词频和所述最大词频,计算所述目标候选项的相对活跃频率。
16.根据权利要求13或14所述的对象词推荐装置,其特征在于,所述目标候选项的数据特征包括词频变异系数;其中,所述特征提取单元包括:
词频标准差获得子单元,配置为获得所述目标候选项的词频标准差;
词频均值获得子单元,配置为获得所述目标候选项的词频均值;
词频变异系数计算子单元,配置为根据所述词频标准差和所述词频均值,计算所述目标候选项的词频变异系数。
17.根据权利要求12所述的对象词推荐装置,其特征在于,还包括:
训练集获取模块,配置为获取训练数据集,所述训练数据集包括标注为正样本的对象词和标注为负样本的非对象词;
样本特征提取模块,配置为提取各正样本和各负样本的数据特征;
模型训练模块,配置为利用各正样本和各负样本的数据特征训练所述二分类模型。
18.根据权利要求12所述的对象词推荐装置,其特征在于,还包括:
出现频率获取模块,配置为获取第一候选项在所述第一语料中的出现频率;
频率阈值确定模块,配置为确定所述第一语料的频率阈值;
目标候选项判定模块,配置为若所述出现频率大于等于所述频率阈值,则将所述第一候选项作为所述目标候选项。
19.根据权利要求18所述的对象词推荐装置,其特征在于,所述频率阈值确定模块配置为通过以下公式确定所述第一语料的频率阈值fthred
其中,l为设定常量值;N为所述第一语料中的信息条数。
20.根据权利要求12所述的对象词推荐装置,其特征在于,还包括:
目标对象词确定模块,配置为确定所述第一语料的目标对象词;
相关对象词获得模块,配置为获得所述目标对象词的相关对象词。
21.根据权利要求20所述的对象词推荐装置,其特征在于,所述相关对象词获得模块包括:
特征向量获得单元,配置为获得所述第一语料的各第一候选项的特征向量;
聚类单元,配置为利用HDBSCAN聚类算法对各第一候选项的特征向量进行聚类,确定所述目标对象词的目标类别;
相关对象词确定单元,配置为将属于所述目标类别的第一候选项作为所述目标对象词的相关对象词。
CN201910647587.8A 2019-07-17 2019-07-17 对象词推荐方法、装置及电子设备 Active CN110472140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910647587.8A CN110472140B (zh) 2019-07-17 2019-07-17 对象词推荐方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910647587.8A CN110472140B (zh) 2019-07-17 2019-07-17 对象词推荐方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110472140A CN110472140A (zh) 2019-11-19
CN110472140B true CN110472140B (zh) 2023-10-31

Family

ID=68509786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910647587.8A Active CN110472140B (zh) 2019-07-17 2019-07-17 对象词推荐方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110472140B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738000B (zh) * 2020-07-22 2020-11-24 腾讯科技(深圳)有限公司 一种短语推荐的方法以及相关装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488098A (zh) * 2015-10-28 2016-04-13 北京理工大学 一种基于领域差异性的新词提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10417268B2 (en) * 2017-09-22 2019-09-17 Druva Technologies Pte. Ltd. Keyphrase extraction system and method

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105488098A (zh) * 2015-10-28 2016-04-13 北京理工大学 一种基于领域差异性的新词提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《个性化搜索引擎中关键词推荐专利技术综述》;李欢;《信息技术》;全文 *

Also Published As

Publication number Publication date
CN110472140A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN107491534B (zh) 信息处理方法和装置
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN111460221B (zh) 评论信息处理方法、装置及电子设备
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
US20220172260A1 (en) Method, apparatus, storage medium, and device for generating user profile
CN112188312B (zh) 用于确定新闻的视频素材的方法和装置
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN110807086A (zh) 文本数据标注方法及装置、存储介质、电子设备
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111178399A (zh) 数据处理方法及装置、电子设备和计算机可读存储介质
CN110209782B (zh) 问答模型及应答语句的生成方法、装置、介质和电子设备
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN111626050A (zh) 基于表情词典与情感常识的微博情感分析方法
CN111931516A (zh) 一种基于强化学习的文本情感分析方法及系统
CN112926341A (zh) 文本数据处理方法、装置
CN110472140B (zh) 对象词推荐方法、装置及电子设备
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN116049376B (zh) 一种信创知识检索回复的方法、装置和系统
CN114970553B (zh) 基于大规模无标注语料的情报分析方法、装置及电子设备
CN116955591A (zh) 用于内容推荐的推荐语生成方法、相关装置和介质
Desai et al. A hybrid classification algorithm to classify engineering students' problems and perks
CN111538898B (zh) 基于组合特征提取的Web服务包推荐方法及系统
KR20070118154A (ko) 정보 처리 장치 및 방법, 및 프로그램 기록 매체
CN114116967A (zh) 数据的清洗方法、装置、电子设备及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant