CN107133218A - 商品名称智能匹配方法、系统及计算机可读存储介质 - Google Patents

商品名称智能匹配方法、系统及计算机可读存储介质 Download PDF

Info

Publication number
CN107133218A
CN107133218A CN201710386266.8A CN201710386266A CN107133218A CN 107133218 A CN107133218 A CN 107133218A CN 201710386266 A CN201710386266 A CN 201710386266A CN 107133218 A CN107133218 A CN 107133218A
Authority
CN
China
Prior art keywords
trade name
contrast
fraction
mrow
registration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710386266.8A
Other languages
English (en)
Inventor
张程伟
刘顺峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hui Xing Xing Xing Network Technology Co Ltd
Original Assignee
Beijing Hui Xing Xing Xing Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hui Xing Xing Xing Network Technology Co Ltd filed Critical Beijing Hui Xing Xing Xing Network Technology Co Ltd
Priority to CN201710386266.8A priority Critical patent/CN107133218A/zh
Publication of CN107133218A publication Critical patent/CN107133218A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

公开了一种商品名称智能匹配方法、系统及计算机可读存储介质。该方法可以包括:基于商品名称,通过分析,创建关键词库,并提取商品名称的关键词;基于商品名称的关键词,获得商品名称与对比商品名称的重合度分数;基于重合度分数,获得对比商品名称的排序;以及基于对比商品名称的排序,关联对比商品。本发明通过计算重合度分数并排序,实现高精度、高效的商品名称智能匹配。

Description

商品名称智能匹配方法、系统及计算机可读存储介质
技术领域
本发明涉及计算机领域,更具体地,涉及一种商品名称智能匹配方法、系统及计算机可读存储介质。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。在自然语言处理面临很多挑战,包括自然语言理解,即计算机源于人为或自然语言输入的意思,和其他涉及到自然语言生成。由于实际情况中的商品名称是比较杂乱的,不是所有的商品名称都符合一种或几种规律。因此,有必要开发一种商品名称智能匹配方法、系统及计算机可读存储介质。
公开于本发明背景技术部分的信息仅仅旨在加深对本发明的一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
本发明提出了一种商品名称智能匹配方法、系统及计算机可读存储介质,其能够通过计算重合度分数并排序,实现高精度、高效的商品名称智能匹配。
根据本发明的一方面,提出了一种商品名称智能匹配方法。所述方法可以包括:基于商品名称,通过分析,创建关键词库,并提取所述商品名称的关键词;基于所述商品名称的关键词,获得所述商品名称与所述对比商品名称的重合度分数;基于所述重合度分数,获得所述对比商品名称的排序;以及基于所述对比商品名称的排序,关联所述对比商品。
根据本发明的另一方面,提出了一种商品名称智能匹配系统,所述系统可以包括:关键词库,用于存储所述关键词;处理器,基于商品名称,通过分析,并提取所述关键词库中所述商品名称的关键词;计算单元,基于所述商品名称的关键词,获得所述商品名称与所述对比商品名称的重合度分数,进而获得所述对比商品名称的排序;以及存储器,基于所述对比商品名称的排序,关联所述对比商品。
根据本发明的第三个方面,提出了一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现以下步骤:基于商品名称,通过分析,创建关键词库,并提取所述商品名称的关键词;基于所述商品名称的关键词,获得所述商品名称与所述对比商品名称的重合度分数;基于所述重合度分数,获得所述对比商品名称的排序;以及基于所述对比商品名称的排序,关联所述对比商品。
本发明的方法和装置具有其它的特性和优点,这些特性和优点从并入本文中的附图和随后的具体实施方式中将是显而易见的,或者将在并入本文中的附图和随后的具体实施方式中进行详细陈述,这些附图和具体实施方式共同用于解释本发明的特定原理。
附图说明
通过结合附图对本发明示例性实施方式进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显,其中,在本发明示例性实施方式中,相同的参考标号通常代表相同部件。
图1示出了根据本发明的商品名称智能匹配方法的步骤的流程图。
具体实施方式
下面将参照附图更详细地描述本发明。虽然附图中显示了本发明的优选实施方式,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
实施方式1
图1示出了根据本发明的商品名称智能匹配方法的步骤的流程图。
在该实施方式中,根据本发明的商品名称智能匹配方法可以包括:步骤101,基于商品名称,通过分析,创建关键词库,并提取商品名称的关键词;步骤102,基于商品名称的关键词,获得商品名称与对比商品名称的重合度分数;步骤103,基于重合度分数,获得对比商品名称的排序;以及步骤104,基于对比商品名称的排序,关联对比商品。
该实施方式通过计算重合度分数并排序,实现高精度、高效的商品名称智能匹配。
下面详细说明根据本发明的商品名称智能匹配方法的具体步骤。
在一个示例中,基于商品名称,通过分析,可以创建关键词库,并提取商品名称的关键词。
在一个示例中,关键词库可以包括:品牌库、型号库、规格库。
具体地,经过分析,商品名称中的内容含有品牌、型号、规格,例如Apple iPhone6s(Gold,64GB)中的品牌是Apple,型号是iPhone 6s,规格是Gold和64GB,创建关键词库包括:品牌库、型号库、规格库。
在一个示例中,基于商品名称的关键词,可以获得商品名称与对比商品名称的重合度分数。
在一个示例中,获得重合度分数可以包括:基于商品名称,通过预处理,获得商品名称的单词数量;基于对比商品名称,通过预处理,获得对比商品名称的单词数量;基于商品名称的单词数量与对比商品名称的单词数量,获得商品名称与对比商品名称相同的单词数量;以及基于商品名称的单词数量、对比商品名称的单词数量及商品名称与对比商品名称相同的单词数量,通过计算公式,获得重合度分数。
在一个示例中,计算公式可以为:
其中,V表示重合度分数,mc表示商品名称与对比商品名称相同的单词数量,w1表示商品名称的单词数量,w2表示对比商品名称的单词数量。
具体地,通过自然语言分析中的字符串的相似度算法,计算商品名称和对比商品名称的实际单词中的单词重合度,并综合两个商品名称中单词的数量,取一定的比例,计算重合度分数为公式(1)。
在一个示例中,基于重合度分数,可以获得对比商品名称的排序。
在一个示例中,获得对比商品名称的排序可以包括:基于重合度分数,设置阈值,根据阈值筛选对比商品,并根据重合度分数的高低,获得对比商品名称的排序。
具体地,对所有对比商品名称计算重合度分数后,设置一个合理的阈值,低于这个阈值的商品名称认为是相关度比较低的商品,将所有的对比商品名称的重合度分数的高低进行排序。本领域技术人员可以根据具体条件设置阈值。
在一个示例中,基于对比商品名称的排序,可以关联对比商品。
具体地,基于对比商品名称排序,根据业务逻辑,分析对比商品名称中各个关键词的权重,关联对比商品。
应用示例
为便于理解本发明实施方式的方案及其效果,以下给出一个具体应用示例。本领域技术人员应理解,该示例仅为了便于理解本发明,其任何具体细节并非意在以任何方式限制本发明。
分析商品名称中的内容含有品牌、型号、规格,创建关键词库包括:品牌库、型号库、规格库。
商品名称的字符串为s1’,对比商品名称的字符串为s2’,预处理后得到s1、s2,s1含有的单词数量为w1,s2含有的单词数量为w2。计算s2在s1中命中单词的个数,即商品名称与对比商品名称相同的单词数量mc,通过公式(1),计算商品名称和对比商品名称的实际单词中的单词重合度,获得重合度分数。对所有对比商品名称计算重合度分数后,设置一个合理的阈值为0.6,重合度分数低于0.6的商品名称认为是相关度比较低的商品,将所有的对比商品名称的重合度分数的高低进行排序。
基于对比商品名称排序,根据业务逻辑,分析对比商品名称中各个关键词的权重,关联对比商品。
综上所述,本方法通过计算重合度分数并排序,实现高精度、高效的商品名称智能匹配。
本领域技术人员应理解,上面对本发明的实施方式的描述的目的仅为了示例性地说明本发明的实施方式的有益效果,并不意在将本发明的实施方式限制于所给出的任何示例。
实施方式2
根据本发明的实施方式,提供了一种商品名称智能匹配系统,系统可以包括:关键词库,用于存储关键词;处理器,基于商品名称,通过分析,并提取关键词库中商品名称的关键词;计算单元,基于商品名称的关键词,获得商品名称与对比商品名称的重合度分数,进而获得对比商品名称的排序;以及存储器,基于对比商品名称的排序,关联对比商品。
该实施方式通过计算重合度分数并排序,实现高精度、高效的商品名称智能匹配。
在一个示例中,获得重合度分数可以包括:基于商品名称,通过预处理,获得商品名称的单词数量;基于对比商品名称,通过预处理,获得对比商品名称的单词数量;基于商品名称的单词数量与对比商品名称的单词数量,获得商品名称与对比商品名称相同的单词数量;以及基于商品名称的单词数量、对比商品名称的单词数量及商品名称与对比商品名称相同的单词数量,通过计算公式,获得重合度分数。
在一个示例中,计算公式可以为:
其中,V表示重合度分数,mc表示商品名称与对比商品名称相同的单词数量,w1表示商品名称的单词数量,w2表示对比商品名称的单词数量。
在一个示例中,获得对比商品名称的排序可以包括:基于重合度分数,设置阈值,根据阈值筛选对比商品,并根据重合度分数的高低,获得对比商品名称的排序。
本领域技术人员应理解,上面对本发明的实施方式的描述的目的仅为了示例性地说明本发明的实施方式的有益效果,并不意在将本发明的实施方式限制于所给出的任何示例。
实施方式3
根据本发明的实施方式,提供了一种计算机可读存储介质,其上存储有计算机程序,其中,程序被处理器执行时实现以下步骤:基于商品名称,通过分析,创建关键词库,并提取商品名称的关键词;基于商品名称的关键词,获得商品名称与对比商品名称的重合度分数;基于重合度分数,获得对比商品名称的排序;以及基于对比商品名称的排序,关联对比商品。
本发明通过计算重合度分数并排序,实现高精度、高效的商品名称智能匹配。
本领域技术人员应理解,上面对本发明的实施方式的描述的目的仅为了示例性地说明本发明的实施方式的有益效果,并不意在将本发明的实施方式限制于所给出的任何示例。
以上已经描述了本发明的各实施方式,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施方式。在不偏离所说明的各实施方式的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。

Claims (10)

1.一种商品名称智能匹配方法,包括:
基于商品名称,通过分析,创建关键词库,并提取所述商品名称的关键词;
基于所述商品名称的关键词,获得所述商品名称与所述对比商品名称的重合度分数;
基于所述重合度分数,获得所述对比商品名称的排序;以及
基于所述对比商品名称的排序,关联所述对比商品。
2.根据权利要求1所述的商品名称智能匹配方法,其中,获得所述重合度分数包括:
基于所述商品名称,通过预处理,获得所述商品名称的单词数量;
基于所述对比商品名称,通过预处理,获得所述对比商品名称的单词数量;
基于所述商品名称的单词数量与所述对比商品名称的单词数量,获得所述商品名称与所述对比商品名称相同的单词数量;以及
基于所述商品名称的单词数量、所述对比商品名称的单词数量及所述商品名称与所述对比商品名称相同的单词数量,通过计算公式,获得所述重合度分数。
3.根据权利要求2所述的商品名称智能匹配方法,其中,所述计算公式为:
<mrow> <mi>V</mi> <mo>=</mo> <mfrac> <mrow> <mfrac> <mrow> <mi>m</mi> <mi>c</mi> </mrow> <msub> <mi>w</mi> <mn>1</mn> </msub> </mfrac> <mo>+</mo> <mfrac> <mrow> <mi>m</mi> <mi>c</mi> </mrow> <msub> <mi>w</mi> <mn>2</mn> </msub> </mfrac> </mrow> <mn>2</mn> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中,V表示所述重合度分数,mc表示所述商品名称与所述对比商品名称相同的单词数量,w1表示所述商品名称的单词数量,w2表示所述对比商品名称的单词数量。
4.根据权利要求1所述的商品名称智能匹配方法,其中,获得所述对比商品名称的排序包括:基于所述重合度分数,设置阈值,根据所述阈值筛选所述对比商品,并根据所述重合度分数的高低,获得所述对比商品名称的排序。
5.根据权利要求1所述的商品名称智能匹配方法,其中,所述关键词库包括:品牌库、型号库、规格库。
6.一种商品名称智能匹配系统,包括:
关键词库,用于存储所述关键词;
处理器,基于商品名称,通过分析,并提取所述关键词库中所述商品名称的关键词;
计算单元,基于所述商品名称的关键词,获得所述商品名称与所述对比商品名称的重合度分数,进而获得所述对比商品名称的排序;以及
存储器,基于所述对比商品名称的排序,关联所述对比商品。
7.根据权利要求6所述的商品名称智能匹配系统,其中,获得所述重合度分数包括:
基于所述商品名称,通过预处理,获得所述商品名称的单词数量;
基于所述对比商品名称,通过预处理,获得所述对比商品名称的单词数量;
基于所述商品名称的单词数量与所述对比商品名称的单词数量,获得所述商品名称与所述对比商品名称相同的单词数量;以及
基于所述商品名称的单词数量、所述对比商品名称的单词数量及所述商品名称与所述对比商品名称相同的单词数量,通过计算公式,获得所述重合度分数。
8.根据权利要求7所述的商品名称智能匹配系统,其中,所述计算公式为:
<mrow> <mi>V</mi> <mo>=</mo> <mfrac> <mrow> <mfrac> <mrow> <mi>m</mi> <mi>c</mi> </mrow> <msub> <mi>w</mi> <mn>1</mn> </msub> </mfrac> <mo>+</mo> <mfrac> <mrow> <mi>m</mi> <mi>c</mi> </mrow> <msub> <mi>w</mi> <mn>2</mn> </msub> </mfrac> </mrow> <mn>2</mn> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中,V表示所述重合度分数,mc表示所述商品名称与所述对比商品名称相同的单词数量,w1表示所述商品名称的单词数量,w2表示所述对比商品名称的单词数量。
9.根据权利要求6所述的商品名称智能匹配系统,其中,获得所述对比商品名称的排序包括:基于所述重合度分数,设置阈值,根据所述阈值筛选所述对比商品,并根据所述重合度分数的高低,获得所述对比商品名称的排序。
10.一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现以下步骤:
基于商品名称,通过分析,创建关键词库,并提取所述商品名称的关键词;
基于所述商品名称的关键词,获得所述商品名称与所述对比商品名称的重合度分数;
基于所述重合度分数,获得所述对比商品名称的排序;以及
基于所述对比商品名称的排序,关联所述对比商品。
CN201710386266.8A 2017-05-26 2017-05-26 商品名称智能匹配方法、系统及计算机可读存储介质 Pending CN107133218A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710386266.8A CN107133218A (zh) 2017-05-26 2017-05-26 商品名称智能匹配方法、系统及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710386266.8A CN107133218A (zh) 2017-05-26 2017-05-26 商品名称智能匹配方法、系统及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN107133218A true CN107133218A (zh) 2017-09-05

Family

ID=59733376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710386266.8A Pending CN107133218A (zh) 2017-05-26 2017-05-26 商品名称智能匹配方法、系统及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN107133218A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134801A (zh) * 2019-04-28 2019-08-16 福建星网视易信息系统有限公司 一种作品名称与多媒体文件的匹配方法及存储介质
CN110377801A (zh) * 2019-07-24 2019-10-25 浙江诺诺网络科技有限公司 一种商品名称校正方法、装置和计算机可读存储介质
CN110533284A (zh) * 2019-07-22 2019-12-03 深圳市跨越新科技有限公司 基于预测商品规格安排取件车辆的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08147324A (ja) * 1994-11-24 1996-06-07 Nippon Telegr & Teleph Corp <Ntt> 単語間意味類似性判別方法
CN102004979A (zh) * 2009-09-03 2011-04-06 叶克 一种提供商品匹配推广服务的系统和方法
CN102081598A (zh) * 2011-01-27 2011-06-01 北京邮电大学 一种检测文本重复的方法
CN102332137A (zh) * 2011-09-23 2012-01-25 纽海信息技术(上海)有限公司 商品匹配方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08147324A (ja) * 1994-11-24 1996-06-07 Nippon Telegr & Teleph Corp <Ntt> 単語間意味類似性判別方法
CN102004979A (zh) * 2009-09-03 2011-04-06 叶克 一种提供商品匹配推广服务的系统和方法
CN102081598A (zh) * 2011-01-27 2011-06-01 北京邮电大学 一种检测文本重复的方法
CN102332137A (zh) * 2011-09-23 2012-01-25 纽海信息技术(上海)有限公司 商品匹配方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GCYXF: "Jaccard系数(Jaccard Coefficient)和tf-idf方法", 《HTTPS://BLOG.CSDN.NET/GCYXF/ARTICLE/DETAILS/39480425》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134801A (zh) * 2019-04-28 2019-08-16 福建星网视易信息系统有限公司 一种作品名称与多媒体文件的匹配方法及存储介质
CN110533284A (zh) * 2019-07-22 2019-12-03 深圳市跨越新科技有限公司 基于预测商品规格安排取件车辆的方法及装置
CN110533284B (zh) * 2019-07-22 2022-12-09 深圳市跨越新科技有限公司 基于预测商品规格安排取件车辆的方法及装置
CN110377801A (zh) * 2019-07-24 2019-10-25 浙江诺诺网络科技有限公司 一种商品名称校正方法、装置和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN104035917B (zh) 一种基于语义空间映射的知识图谱管理方法和系统
CN112329467B (zh) 地址识别方法、装置、电子设备以及存储介质
CN108287864B (zh) 一种兴趣群组划分方法、装置、介质及计算设备
JP6894534B2 (ja) 情報処理方法及び端末、コンピュータ記憶媒体
US11720611B2 (en) Entailment knowledge base in natural language processing systems
CN106156145A (zh) 一种地址数据的管理方法和装置
CN112101437A (zh) 基于图像检测的细粒度分类模型处理方法、及其相关设备
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN103473317A (zh) 提取关键词的方法和设备
CN105677857B (zh) 一种关键词与营销落地页的精准匹配方法和装置
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN104484380A (zh) 个性化搜索方法及装置
CN112632278A (zh) 一种基于多标签分类的标注方法、装置、设备及存储介质
CN114357117A (zh) 事务信息查询方法、装置、计算机设备及存储介质
CN104778283A (zh) 一种基于微博的用户职业分类方法及系统
CN107133218A (zh) 商品名称智能匹配方法、系统及计算机可读存储介质
CN112395390A (zh) 意图识别模型的训练语料生成方法及其相关设备
CN108021682A (zh) 开放式信息抽取背景下一种基于维基百科的实体语义化方法
CN106339366A (zh) 基于人工智能的需求识别的方法和装置
CN110210038A (zh) 核心实体确定方法及其系统、服务器和计算机可读介质
Sujana et al. Rumor detection on Twitter using multiloss hierarchical BiLSTM with an attenuation factor
CN113887941A (zh) 业务流程生成方法、装置、电子设备及介质
CN112632264A (zh) 智能问答方法、装置、电子设备及存储介质
CN116796730A (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质
CN111428486B (zh) 物品信息数据处理方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170905

RJ01 Rejection of invention patent application after publication