CN110727851A - 物品别称挖掘方法、系统、电子设备及可读存储介质 - Google Patents
物品别称挖掘方法、系统、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN110727851A CN110727851A CN201810688792.4A CN201810688792A CN110727851A CN 110727851 A CN110727851 A CN 110727851A CN 201810688792 A CN201810688792 A CN 201810688792A CN 110727851 A CN110727851 A CN 110727851A
- Authority
- CN
- China
- Prior art keywords
- obtaining
- comment
- score
- search
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005065 mining Methods 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000010606 normalization Methods 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008030 elimination Effects 0.000 claims description 3
- 238000003379 elimination reaction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 8
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种物品别称挖掘方法、系统、电子设备及可读存储介质,所述物品别称挖掘方法包括:逆向关联获取一预设时间段内访问物品的所有检索关键词;获取每个检索关键词在所述预设时间段内的检索量;判断每个检索关键词的检索量是否大于预设阈值,若是,则将大于所述预设阈值的检索关键词作为所述候选词;获取所述物品的评论数据;对每个候选词,根据所述评论数据得到所述候选词与所述物品的关联度;判断所述关联度是否大于预设阈值,若是,则将关联度大于预设阈值的候选词作为所述物品的别称。本发明使用用户评论和用户检索数据作为挖掘数据源,数据成本低,数据来源广,同时数据来自用户自身,挖掘精度更高,用户体验更佳。
Description
技术领域
本发明属于信息处理技术领域,尤其涉及一种物品别称挖掘方法、系统、电子设备及可读存储介质。
背景技术
物品名称的俗称/简称/别称指的是代表物品名称的非标准称谓,如佳能EF 50mmf/1.8STM镜头俗称小痰盂或50定,铁三角ATH-MSR7耳机俗称陌生人妻,iPhone8手机俗称苹果8等。对于互联网网站,尤其是既售卖3C、大家电等类目物品,又售卖其他类目物品如生鲜等的综合互联网网站,对物品名称的别称的挖掘,是正确理解用户意图,在搜索中正确召回排序的基础。
目前对俗称简称的挖掘一般采用搜索关键词同义词挖掘的方法,其中最常见的是基于word2vec(将单词表征为实数值向量的自然语言处理模型)的词向量距离计算挖掘,以及基于词搜索结果共现的挖掘,但对于物品名称挖掘这个特殊问题,对于同一类物品,如果不是同一型号,其标题文字本身是非常相近的,例如以下两个物品:佳能EF 50mm f/1.8STM(型号)镜头和佳能EF 50mm f/1.4USM(型号)镜头,虽然分属两个不同的型号,但是描述文字非常接近,使得word2vec的语料比较稀疏且杂质过多,通过word2vec是无法区分上述两个物品的。
发明内容
本发明要解决的技术问题是为了克服现有技术中对物品检索时,单纯基于语义分析对搜索词或者其近义词进行挖掘检索时难以准确定位到目标物品的缺陷,提供一种物品别称挖掘方法、系统、电子设备及可读存储介质。
本发明是通过下述技术方案来解决上述技术问题:
一种基于用户评论的物品别称挖掘方法,所述物品别称挖掘方法包括:
逆向关联获取一预设时间段内访问物品的所有检索关键词;
获取每个检索关键词在所述预设时间段内的检索量;
判断每个检索关键词的检索量是否大于预设阈值,若是,则将大于所述预设阈值的检索关键词作为所述候选词;
获取所述物品的评论数据;
对每个候选词,根据所述评论数据得到所述候选词与所述物品的关联度;
判断所述关联度是否大于预设阈值,若是,则将关联度大于预设阈值的候选词作为所述物品的别称。
较佳地,所述根据所述评论数据得到所述候选词与所述物品的关联度的步骤具体包括:
从所述评论数据中获取所有评论的总评论数;
获取包含所述候选词的评论的分评论数;
根据所述总评论数和所述分评论数计算得到包含所述候选词的评论的占比;
根据所述占比得到所述关联度。
较佳地,所述获取包含所述候选词的评论的分评论数的步骤具体包括:
获取每条包含所述候选词的评论的单条长度;
计算得到所述所有评论的平均长度;
根据所述单条长度和所述平均长度计算得到所述包含所述候选词的评论的有效评论数;
将所有包含所述候选词的评论的有效评论数求和得到所述分评论数。
较佳地,所述根据所述评论数据得到所述候选词与所述物品的关联度的步骤还包括:
获取所述候选词在所述预设时间段内的第一搜索量;
所述根据所述占比得到所述关联度的步骤具体包括:
根据所述占比和所述第一搜索量得到所述关联度。
较佳地,所述根据所述评论数据得到所述候选词与所述物品的关联度的步骤之前,所述物品别称挖掘方法还包括:
获取所述物品的标准名称;
获取所述标准名称在所述预设时间段内的第二搜索量;
根据所述占比得到所述关联度的步骤具体包括:
根据所述占比、所述第一搜索量和所述第二搜索量得到所述关联度。
较佳地,所述根据所述占比、所述第一搜索量和所述第二搜索量得到所述关联度的步骤具体包括:
根据所述占比和所述第一搜索量计算得到表征所述候选词的重要度的第一分值;
根据所述占比、所述第一搜索量和所述第二搜索量计算得到表征所述候选词的专业度的第二分值;
分别对所述第一分值和所述第二分值赋予对应的权重;
对所述第一分值和所述第二分值加权求和得到所述关联度。
较佳地,通过以下公式计算所述关联度:
G=αA+βB,α+β=1
其中,a为总评论数,b为分评论数,k为占比,c为第一搜索量,d为第二搜索量,A为第一分值,B为第二分值,G为关联度,α为第一分值的权重,β为第二分值的权重。
较佳地,所述逆向关联获取一预设时间段内访问物品的所有检索关键词的步骤之后,所述物品别称挖掘方法还包括:
对所述检索关键词进行归一化处理,所述归一化处理包括符号处理、简繁体转换、大小写转换和量词剔除中至少一个;
所述获取每个检索关键词在所述预设时间段内的检索量的步骤中,对归一化后的检索关键词执行获取所述检索量的动作。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的基于用户评论的物品别称挖掘方法。
一种可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的基于用户评论的物品别称挖掘方法的步骤。
一种基于用户评论的物品别称挖掘系统,所述物品别称挖掘系统包括检索关键词获取模块、检索量获取模块、判断模块、候选词确定模块、评论数据获取模块、关联度获取模块和别称确定模块;
所述检索关键词获取模块用于逆向关联获取一预设时间段内访问物品的所有检索关键词;
所述检索量获取模块用于获取每个检索关键词在所述预设时间段内的检索量;
所述判断模块用于判断每个检索关键词的检索量是否大于预设阈值,若是,则调用所述候选词确定模块;
所述候选词确定模块用于将大于所述预设阈值的检索关键词作为所述候选词;
所述评论数据获取模块用于获取所述物品的评论数据;
所述关联度获取模块用于根据所述评论数据得到每个候选词与所述物品的关联度;
所述判断模块还用于判断所述关联度是否大于预设阈值,若是,则调用所述别称确定模块;
所述别称确定模块用于将关联度大于预设阈值的候选词作为所述物品的别称。
较佳地,所述关联度获取模块包括评论数获取单元和计算单元:
所述评论数获取单元用于从所述评论数据中获取所有评论的总评论数,还用于获取包含所述候选词的评论的分评论数;
所述计算单元用于根据所述总评论数和所述分评论数计算得到包含所述候选词的评论的占比;
所述关联度获取模块用于根据所述占比得到所述关联度。
较佳地,所述关联度获取模块还包括评论长度获取单元:
所述评论长度获取单元用于获取每条包含所述候选词的评论的单条长度;
所述计算单元还用于计算得到所述所有评论的平均长度,并根据所述单条长度和所述平均长度计算得到所述包含所述候选词的评论的有效评论数;
所述评论数获取单元用于将所有包含所述候选词的评论的有效评论数求和得到所述分评论数。
较佳地,所述关联度获取模块还包括搜索量获取单元:
所述搜索量获取单元用于获取所述候选词在所述预设时间段内的第一搜索量;
所述关联度获取模块用于根据所述占比和所述第一搜索量得到所述关联度。
较佳地,所述物品别称挖掘系统还包括标准名称获取模块;
所述标准名称获取模块用于获取所述物品的标准名称;
所述搜索量获取单元还用于获取所述标准名称在所述预设时间段内的第二搜索量;
所述关联度获取模块用于根据所述占比、所述第一搜索量和所述第二搜索量得到所述关联度。
较佳地,所述关联度获取模块还包括权重赋予单元;
所述计算单元还用于根据所述占比和所述第一搜索量计算得到表征所述候选词的重要度的第一分值,并
根据所述占比、所述第一搜索量和所述第二搜索量计算得到表征所述候选词的专业度的第二分值;
所述权重赋予单元用于分别对所述第一分值和所述第二分值赋予对应的权重;
所述计算单元还用于对所述第一分值和所述第二分值加权求和得到所述关联度。
较佳地,所述计算单元通过以下公式计算所述关联度:
G=αA+βB,α+β=1
其中,a为总评论数,b为分评论数,k为占比,c为第一搜索量,d为第二搜索量,A为第一分值,B为第二分值,G为关联度,α为第一分值的权重,β为第二分值的权重。
较佳地,所述物品别称挖掘方法还包括归一化模块;
所述归一化模块用于对所述检索关键词进行归一化处理,所述归一化处理包括符号处理、简繁体转换、大小写转换和量词剔除中至少一个;
所述检索量获取模块用于对归一化后的检索关键词执行获取所述检索量的动作。
本发明的积极进步效果在于:本发明使用用户评论和用户检索数据作为挖掘数据源,数据成本低,数据来源广,同时数据来自用户自身,挖掘精度更高,用户体验更佳。
附图说明
图1为本发明实施例1的基于用户评论的物品别称挖掘方法的流程图。
图2为本发明实施例1的基于用户评论的物品别称挖掘方法中步骤60的具体流程图。
图3为本发明实施例1的基于用户评论的物品别称挖掘方法中步骤62的具体流程图。
图4为本发明实施例1的基于用户评论的物品别称挖掘方法的另一种实现方式的流程图。
图5为本发明实施例2的基于用户评论的物品别称挖掘方法的流程图。
图6为本发明实施例2的基于用户评论的物品别称挖掘方法中步骤60的具体流程图。
图7为本发明实施例3的基于用户评论的物品别称挖掘方法的流程图。
图8为本发明实施例3的基于用户评论的物品别称挖掘方法中步骤60的具体流程图。
图9为本发明实施例3的基于用户评论的物品别称挖掘方法中步骤64-2的具体流程图。
图10为本发明实施例4的电子设备的结构示意图。
图11为本发明实施例6的基于用户评论的物品别称挖掘系统的结构框图。
图12为本发明实施例6的基于用户评论的物品别称挖掘系统中关联度获取模块的具体结构框图。
图13为本发明实施例7的基于用户评论的物品别称挖掘系统中关联度获取模块的具体结构框图。
图14为本发明实施例8的基于用户评论的物品别称挖掘系统的结构框图。
图15为本发明实施例8的基于用户评论的物品别称挖掘系统中关联度获取模块的具体结构框图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
一种基于用户评论的物品别称挖掘方法,如图1所示,所述物品别称挖掘方法包括:
步骤10、逆向关联获取一预设时间段内访问物品的所有检索关键词;
步骤20、获取每个检索关键词在预设时间段内的检索量;
步骤30、判断每个检索关键词的检索量是否大于预设阈值,若是,则执行步骤40;若否,则表示该检索关键词不能作为物品的候选词;
步骤40、将大于预设阈值的检索关键词作为候选词;
步骤50、获取物品的评论数据;
步骤60、对每个候选词,根据评论数据得到候选词与物品的关联度;
步骤70、判断关联度是否大于预设阈值,若是,则执行步骤80;若否,则返回步骤60,继续判断下一个候选词;
步骤80、将关联度大于预设阈值的候选词作为物品的别称。
需要说明的是,一般而言对于热门的如电子产品等,人们更喜欢取俗称和各式别称,这些热门电子产品别称的挖掘也是更能提升用户体验,因此,可以对特殊类目如3C、家电各产品类目下的型号按照近30天销量进行排序,选取各个类目下销量最高的5%的型号作为挖掘别称的物品对象。
本实施例中,如图2所示,步骤60具体包括:
步骤61、从评论数据中获取所有评论的总评论数;
步骤62、获取包含候选词的评论的分评论数;
步骤63、根据总评论数和分评论数计算得到包含候选词的评论的占比;
步骤64、根据占比得到关联度。
同时,在短评论中更可能只出现物品的别称,不出现其他型号的对比,因此,我们对候选词的分评论数进行修正,具体地,如图3所示,步骤62包括:
步骤621、获取每条包含候选词的评论的单条长度;
步骤622、计算得到所有评论的平均长度;
步骤623、根据单条长度和平均长度计算得到包含候选词的评论的有效评论数;
步骤624、将所有包含候选词的评论的有效评论数求和得到分评论数。
如图4所示,提供物品别称挖掘方法的另一种实现方式,步骤10之后,所述物品别称挖掘方法还包括:
步骤11、对检索关键词进行归一化处理;所述归一化处理包括符号处理、简繁体转换、大小写转换和量词剔除中至少一个;
用步骤20’替换步骤20,具体地:
步骤20’、获取每个归一化后的检索关键词在预设时间段内的检索量。
本实施例使用用户评论和用户检索数据作为挖掘数据源,数据成本低,数据来源广,同时数据来自用户自身,挖掘精度更高,用户体验更佳。
实施例2
本实施例的基于用户评论的物品别称挖掘方法是在实施例1的基础上进一步改进,不难理解,若一个候选词在对应型号的评论中出现的比例很高,在别的评论中出现的比例很低,这个候选词比较有可能真的指代这个物品,因此,如图5所示,步骤60之前,所述物品别称挖掘方法还包括:
步骤51、获取候选词在预设时间段内的第一搜索量;
相应的,如图6所示,步骤60中用步骤64-1替换步骤64,具体包括:
步骤64-1、根据占比和第一搜索量得到关联度。
比如,可以利用下述公式对关联度进行计算:
其中,a为总评论数,b为分评论数,k为占比,c为第一搜索量。
实施例3
本实施例的基于用户评论的物品别称挖掘方法是在实施例1的基础上进一步改进,若候选词本身是一个少见的词,却在该物品的评论中出现得很多,这个词就很可能指代这个物品,如图7所示,步骤60之前,物品别称挖掘方法还包括:
步骤52、获取物品的标准名称;
步骤53、获取标准名称在预设时间段内的第二搜索量;
相应的,如图8所示,步骤60中用步骤64-2替换步骤64,具体包括:
步骤64-2、根据占比、第一搜索量和第二搜索量得到关联度。
比如,可以利用下述公式对关联度进行计算:
其中,d为第二搜索量;
本实施例中,如图9所示,提供步骤64-2的另一种实现方式,包括:
步骤64-21、根据占比和第一搜索量计算得到表征候选词的重要度的第一分值;
步骤64-22、根据占比、第一搜索量和第二搜索量计算得到表征候选词的专业度的第二分值;
步骤64-23、分别对第一分值和第二分值赋予对应的权重;
步骤64-24、对第一分值和第二分值加权求和得到关联度。
比如,可以利用下述公式对关联度进行计算,
其中,A为第一分值,B为第二分值,G为关联度,α为第一分值的权重,β为第二分值的权重。
实施例4
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现实施例1至3任一个实施例所述的基于用户评论的物品别称挖掘方法。
图10为本发明实施例4提供的一种电子设备的结构示意图。图10示出了适于用来实现本发明实施方式的示例性电子设备90的框图。图10显示的电子设备90仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,电子设备90可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备90的组件可以包括但不限于:至少一个处理器91、至少一个存储器92、连接不同系统组件(包括存储器92和处理器91)的总线93。
总线93包括数据总线、地址总线和控制总线。
存储器92可以包括易失性存储器,例如随机存取存储器(RAM)921和/或高速缓存存储器922,还可以进一步包括只读存储器(ROM)923。
存储器92还可以包括具有一组(至少一个)程序模块924的程序工具925,这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器91通过运行存储在存储器92中的计算机程序,从而执行各种功能应用以及数据处理。
电子设备90也可以与一个或多个外部设备94(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口95进行。并且,电子设备90还可以通过网络适配器96与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器96通过总线93与电子设备90的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备90使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例5
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1-3中任意一个实施例所述的基于用户评论的物品别称挖掘方法的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1-3中任意一个实施例所述的基于用户评论的物品别称挖掘方法的步骤。
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
实施例6
一种基于用户评论的物品别称挖掘系统,如图11所示,所述物品别称挖掘系统包括检索关键词获取模块1、检索量获取模块2、判断模块3、候选词确定模块4、评论数据获取模块5、关联度获取模块6和别称确定模块7;
所述检索关键词获取模块1用于逆向关联获取一预设时间段内访问物品的所有检索关键词;
所述检索量获取模块2用于获取每个检索关键词在所述预设时间段内的检索量;
所述判断模块3用于判断每个检索关键词的检索量是否大于预设阈值,若是,则调用所述候选词确定模块4;
所述候选词确定模块4用于将大于所述预设阈值的检索关键词作为所述候选词;
所述评论数据获取模块5用于获取所述物品的评论数据;
所述关联度获取模块6用于根据所述评论数据得到每个候选词与所述物品的关联度;
所述判断模块3还用于判断所述关联度是否大于预设阈值,若是,则调用所述别称确定模块7;
所述别称确定模块7用于将关联度大于预设阈值的候选词作为所述物品的别称。
需要说明的是,一般而言对于热门的如电子产品等,人们更喜欢取俗称和各式别称,这些热门电子产品别称的挖掘也是更能提升用户体验,因此,可以对特殊类目如3C、家电各产品类目下的型号按照近30天销量进行排序,选取各个类目下销量最高的5%的型号作为挖掘别称的物品对象。
本实施例中,参见图10,所述物品别称挖掘方法还包括归一化模块8;
所述归一化模块8用于对所述检索关键词进行归一化处理,所述归一化处理包括符号处理、简繁体转换、大小写转换和量词剔除中至少一个;
所述检索量获取模块2用于对归一化后的检索关键词执行获取所述检索量的动作。
另外,如图12所示,所述关联度获取模块6包括评论数获取单元601和计算单元602;
所述评论数获取单元601用于从所述评论数据中获取所有评论的总评论数,还用于获取包含所述候选词的评论的分评论数;
所述计算单元602用于根据所述总评论数和所述分评论数计算得到包含所述候选词的评论的占比;
所述关联度获取模块6用于根据所述占比得到所述关联度。
同时,在短评论中更可能只出现物品的别称,不出现其他型号的对比,因此,我们对候选词的分评论数进行修正,具体地,参见图12,所述关联度获取模块6还包括评论长度获取单元603:
所述评论长度获取单元603用于获取每条包含所述候选词的评论的单条长度;
所述计算单元602还用于计算得到所述所有评论的平均长度,并根据所述单条长度和所述平均长度计算得到所述包含所述候选词的评论的有效评论数;
所述评论数获取单元601用于将所有包含所述候选词的评论的有效评论数求和得到所述分评论数。
本实施例使用用户评论和用户检索数据作为挖掘数据源,数据成本低,数据来源广,同时数据来自用户自身,挖掘精度更高,用户体验更佳。
实施例7
本实施例的物品别称挖掘方法是在实施例6的基础上进一步改进,不难理解,若一个候选词在对应型号的评论中出现的比例很高,在别的评论中出现的比例很低,这个候选词比较有可能真的指代这个物品,因此,如图13所示,所述关联度获取模块6还包括搜索量获取单元604:
所述搜索量获取单元604用于获取所述候选词在所述预设时间段内的第一搜索量;
所述关联度获取模块6用于根据所述占比和所述第一搜索量得到所述关联度。
比如,可以利用下述公式对关联度进行计算:
其中,a为总评论数,b为分评论数,k为占比,c为第一搜索量。
实施例8
本实施例的物品别称挖掘方法是在实施例7的基础上进一步改进,若候选词本身是一个少见的词,却在该物品的评论中出现得很多,这个词就很可能指代这个型号,如图14所示,所述物品别称挖掘系统还包括标准名称获取模块9;
所述标准名称获取模块9用于获取所述物品的标准名称;
所述搜索量获取单元604还用于获取所述标准名称在所述预设时间段内的第二搜索量;
所述关联度获取模块6用于根据所述占比、所述第一搜索量和所述第二搜索量得到所述关联度。
比如,可以利用下述公式对关联度进行计算:
其中,d为第二搜索量;
本实施例中,如图15所示,所述关联度获取模块6还包括权重赋予单元605;
所述计算单元602还用于根据所述占比和所述第一搜索量计算得到表征所述候选词的重要度的第一分值,并根据所述占比、所述第一搜索量和所述第二搜索量计算得到表征所述候选词的专业度的第二分值;
所述权重赋予单元605用于分别对所述第一分值和所述第二分值赋予对应的权重;
所述计算单元602还用于对所述第一分值和所述第二分值加权求和得到所述关联度。
比如,可以利用下述公式对关联度进行计算,
其中,A为第一分值,B为第二分值,G为关联度,α为第一分值的权重,β为第二分值的权重。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (18)
1.一种基于用户评论的物品别称挖掘方法,其特征在于,所述物品别称挖掘方法包括:
逆向关联获取一预设时间段内访问物品的所有检索关键词;
获取每个检索关键词在所述预设时间段内的检索量;
判断每个检索关键词的检索量是否大于预设阈值,若是,则将大于所述预设阈值的检索关键词作为所述候选词;
获取所述物品的评论数据;
对每个候选词,根据所述评论数据得到所述候选词与所述物品的关联度;
判断所述关联度是否大于预设阈值,若是,则将关联度大于预设阈值的候选词作为所述物品的别称。
2.如权利要求1所述的基于用户评论的物品别称挖掘方法,其特征在于,所述根据所述评论数据得到所述候选词与所述物品的关联度的步骤具体包括:
从所述评论数据中获取所有评论的总评论数;
获取包含所述候选词的评论的分评论数;
根据所述总评论数和所述分评论数计算得到包含所述候选词的评论的占比;
根据所述占比得到所述关联度。
3.如权利要求2所述的基于用户评论的物品别称挖掘方法,其特征在于,所述获取包含所述候选词的评论的分评论数的步骤具体包括:
获取每条包含所述候选词的评论的单条长度;
计算得到所述所有评论的平均长度;
根据所述单条长度和所述平均长度计算得到所述包含所述候选词的评论的有效评论数;
将所有包含所述候选词的评论的有效评论数求和得到所述分评论数。
4.如权利要求2所述的基于用户评论的物品别称挖掘方法,其特征在于,所述根据所述评论数据得到所述候选词与所述物品的关联度的步骤之前,所述物品别称挖掘方法还包括:
获取所述候选词在所述预设时间段内的第一搜索量;
所述根据所述占比得到所述关联度的步骤具体包括:
根据所述占比和所述第一搜索量得到所述关联度。
5.如权利要求4所述的基于用户评论的物品别称挖掘方法,其特征在于,所述根据所述评论数据得到所述候选词与所述物品的关联度的步骤之前,所述物品别称挖掘方法还包括:
获取所述物品的标准名称;
获取所述标准名称在所述预设时间段内的第二搜索量;
根据所述占比得到所述关联度的步骤具体包括:
根据所述占比、所述第一搜索量和所述第二搜索量得到所述关联度。
6.如权利要求5所述的基于用户评论的物品别称挖掘方法,其特征在于,所述根据所述占比、所述第一搜索量和所述第二搜索量得到所述关联度的步骤具体包括:
根据所述占比和所述第一搜索量计算得到表征所述候选词的重要度的第一分值;
根据所述占比、所述第一搜索量和所述第二搜索量计算得到表征所述候选词的专业度的第二分值;
分别对所述第一分值和所述第二分值赋予对应的权重;
对所述第一分值和所述第二分值加权求和得到所述关联度。
8.如权利要求1所述的基于用户评论的物品别称挖掘方法,其特征在于,所述逆向关联获取一预设时间段内访问物品的所有检索关键词的步骤之后,所述物品别称挖掘方法还包括:
对所述检索关键词进行归一化处理,所述归一化处理包括符号处理、简繁体转换、大小写转换和量词剔除中至少一个;
所述获取每个检索关键词在所述预设时间段内的检索量的步骤中,对归一化后的检索关键词执行获取所述检索量的动作。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述的基于用户评论的物品别称挖掘方法。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至8任一项所述的基于用户评论的物品别称挖掘方法的步骤。
11.一种基于用户评论的物品别称挖掘系统,其特征在于,所述物品别称挖掘系统包括检索关键词获取模块、检索量获取模块、判断模块、候选词确定模块、评论数据获取模块、关联度获取模块和别称确定模块;
所述检索关键词获取模块用于逆向关联获取一预设时间段内访问物品的所有检索关键词;
所述检索量获取模块用于获取每个检索关键词在所述预设时间段内的检索量;
所述判断模块用于判断每个检索关键词的检索量是否大于预设阈值,若是,则调用所述候选词确定模块;
所述候选词确定模块用于将大于所述预设阈值的检索关键词作为所述候选词;
所述评论数据获取模块用于获取所述物品的评论数据;
所述关联度获取模块用于根据所述评论数据得到每个候选词与所述物品的关联度;
所述判断模块还用于判断所述关联度是否大于预设阈值,若是,则调用所述别称确定模块;
所述别称确定模块用于将关联度大于预设阈值的候选词作为所述物品的别称。
12.如权利要求11所述的基于用户评论的物品别称挖掘系统,其特征在于,所述关联度获取模块包括评论数获取单元和计算单元:
所述评论数获取单元用于从所述评论数据中获取所有评论的总评论数,还用于获取包含所述候选词的评论的分评论数;
所述计算单元用于根据所述总评论数和所述分评论数计算得到包含所述候选词的评论的占比;
所述关联度获取模块用于根据所述占比得到所述关联度。
13.如权利要求12所述的基于用户评论的物品别称挖掘系统,其特征在于,所述关联度获取模块还包括评论长度获取单元:
所述评论长度获取单元用于获取每条包含所述候选词的评论的单条长度;
所述计算单元还用于计算得到所述所有评论的平均长度,并根据所述单条长度和所述平均长度计算得到所述包含所述候选词的评论的有效评论数;
所述评论数获取单元用于将所有包含所述候选词的评论的有效评论数求和得到所述分评论数。
14.如权利要求12所述的基于用户评论的物品别称挖掘系统,其特征在于,所述关联度获取模块还包括搜索量获取单元:
所述搜索量获取单元用于获取所述候选词在所述预设时间段内的第一搜索量;
所述关联度获取模块用于根据所述占比和所述第一搜索量得到所述关联度。
15.如权利要求14所述的基于用户评论的物品别称挖掘系统,其特征在于,所述物品别称挖掘系统还包括标准名称获取模块;
所述标准名称获取模块用于获取所述物品的标准名称;
所述搜索量获取单元还用于获取所述标准名称在所述预设时间段内的第二搜索量;
所述关联度获取模块用于根据所述占比、所述第一搜索量和所述第二搜索量得到所述关联度。
16.如权利要求15所述的基于用户评论的物品别称挖掘系统,其特征在于,所述关联度获取模块还包括权重赋予单元;
所述计算单元还用于根据所述占比和所述第一搜索量计算得到表征所述候选词的重要度的第一分值,并
根据所述占比、所述第一搜索量和所述第二搜索量计算得到表征所述候选词的专业度的第二分值;
所述权重赋予单元用于分别对所述第一分值和所述第二分值赋予对应的权重;
所述计算单元还用于对所述第一分值和所述第二分值加权求和得到所述关联度。
18.如权利要求11所述的基于用户评论的物品别称挖掘系统,其特征在于,所述物品别称挖掘方法还包括归一化模块;
所述归一化模块用于对所述检索关键词进行归一化处理,所述归一化处理包括符号处理、简繁体转换、大小写转换和量词剔除中至少一个;
所述检索量获取模块用于对归一化后的检索关键词执行获取所述检索量的动作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810688792.4A CN110727851B (zh) | 2018-06-28 | 2018-06-28 | 物品别称挖掘方法、系统、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810688792.4A CN110727851B (zh) | 2018-06-28 | 2018-06-28 | 物品别称挖掘方法、系统、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110727851A true CN110727851A (zh) | 2020-01-24 |
CN110727851B CN110727851B (zh) | 2023-11-03 |
Family
ID=69216708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810688792.4A Active CN110727851B (zh) | 2018-06-28 | 2018-06-28 | 物品别称挖掘方法、系统、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110727851B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727464A (zh) * | 2008-10-29 | 2010-06-09 | 北京搜狗科技发展有限公司 | 获取别称匹配对的方法及装置 |
US20150154681A1 (en) * | 2013-12-03 | 2015-06-04 | Microsoft Corporation | Enriching product catalog with product name keywords |
CN104820713A (zh) * | 2015-05-19 | 2015-08-05 | 苏州工讯科技有限公司 | 一种基于用户历史数据获得工业产品名称同义词的方法 |
CN105488028A (zh) * | 2015-11-30 | 2016-04-13 | 北大方正集团有限公司 | 一种人物别称的抽取方法及装置 |
CN107016055A (zh) * | 2017-03-03 | 2017-08-04 | 广州神马移动信息科技有限公司 | 用于挖掘实体别名的方法、设备及电子设备 |
CN107577655A (zh) * | 2016-07-05 | 2018-01-12 | 北京国双科技有限公司 | 名称获取方法和装置 |
CN107679119A (zh) * | 2017-09-19 | 2018-02-09 | 北京京东尚科信息技术有限公司 | 生成品牌衍生词的方法和装置 |
-
2018
- 2018-06-28 CN CN201810688792.4A patent/CN110727851B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727464A (zh) * | 2008-10-29 | 2010-06-09 | 北京搜狗科技发展有限公司 | 获取别称匹配对的方法及装置 |
US20150154681A1 (en) * | 2013-12-03 | 2015-06-04 | Microsoft Corporation | Enriching product catalog with product name keywords |
CN104820713A (zh) * | 2015-05-19 | 2015-08-05 | 苏州工讯科技有限公司 | 一种基于用户历史数据获得工业产品名称同义词的方法 |
CN105488028A (zh) * | 2015-11-30 | 2016-04-13 | 北大方正集团有限公司 | 一种人物别称的抽取方法及装置 |
CN107577655A (zh) * | 2016-07-05 | 2018-01-12 | 北京国双科技有限公司 | 名称获取方法和装置 |
CN107016055A (zh) * | 2017-03-03 | 2017-08-04 | 广州神马移动信息科技有限公司 | 用于挖掘实体别名的方法、设备及电子设备 |
CN107679119A (zh) * | 2017-09-19 | 2018-02-09 | 北京京东尚科信息技术有限公司 | 生成品牌衍生词的方法和装置 |
Non-Patent Citations (1)
Title |
---|
林琛;李弼程;周杰;: "网络新闻口语评论文本中人物对象识别方法", 中文信息学报 * |
Also Published As
Publication number | Publication date |
---|---|
CN110727851B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11182445B2 (en) | Method, apparatus, server, and storage medium for recalling for search | |
JP7282940B2 (ja) | 電子記録の文脈検索のためのシステム及び方法 | |
CN109408526B (zh) | Sql语句生成方法、装置、计算机设备及存储介质 | |
US11055354B2 (en) | Omni-platform question answering system | |
US11409813B2 (en) | Method and apparatus for mining general tag, server, and medium | |
WO2020042925A1 (zh) | 人机对话方法、装置、电子设备及计算机可读介质 | |
CN109325108B (zh) | 查询处理方法、装置、服务器及存储介质 | |
WO2019217096A1 (en) | System and method for automatically responding to user requests | |
US20220019739A1 (en) | Item Recall Method and System, Electronic Device and Readable Storage Medium | |
US20130339369A1 (en) | Search Method and Apparatus | |
CN110377750B (zh) | 评论生成及评论生成模型训练方法、装置及存储介质 | |
CN103885966A (zh) | 电子商务交易平台中的问答交互方法和系统 | |
CN110276009B (zh) | 一种联想词的推荐方法、装置、电子设备及存储介质 | |
CN113988157B (zh) | 语义检索网络训练方法、装置、电子设备及存储介质 | |
CN110727769B (zh) | 语料库生成方法及装置、人机交互处理方法及装置 | |
CN111612581A (zh) | 一种物品推荐的方法、装置、设备及存储介质 | |
AU2020372605B2 (en) | Mapping natural language utterances to operations over a knowledge graph | |
CN110245357B (zh) | 主实体识别方法和装置 | |
CN113806660A (zh) | 数据评估方法、训练方法、装置、电子设备以及存储介质 | |
CN113077312A (zh) | 酒店推荐方法、系统、设备及存储介质 | |
Juan | An effective similarity measurement for FAQ question answering system | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
US20230334075A1 (en) | Search platform for unstructured interaction summaries | |
CN110727851B (zh) | 物品别称挖掘方法、系统、电子设备及可读存储介质 | |
CN115422429A (zh) | 关联词的确定方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |