CN111814481B - 购物意图识别方法、装置、终端设备及存储介质 - Google Patents

购物意图识别方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN111814481B
CN111814481B CN202010858037.3A CN202010858037A CN111814481B CN 111814481 B CN111814481 B CN 111814481B CN 202010858037 A CN202010858037 A CN 202010858037A CN 111814481 B CN111814481 B CN 111814481B
Authority
CN
China
Prior art keywords
commodity
entity
words
word
marker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010858037.3A
Other languages
English (en)
Other versions
CN111814481A (zh
Inventor
曾冠荣
高心怡
姜罕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Shenzhen Huantai Technology Co Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Shenzhen Huantai Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd, Shenzhen Huantai Technology Co Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN202010858037.3A priority Critical patent/CN111814481B/zh
Publication of CN111814481A publication Critical patent/CN111814481A/zh
Application granted granted Critical
Publication of CN111814481B publication Critical patent/CN111814481B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于搜索技术领域,提供了一种购物意图识别方法、装置、终端设备及存储介质,包括:获取检索语句;对所述检索语句进行分词,得到N个词,N为大于零的整数;若所述N个词中存在商品实体词,则获取目标商品的目标文档,所述目标商品是指所述商品实体词对应的商品,所述目标商品的目标文档记录所述目标商品的相关信息;获取所述检索语句与所述目标商品的目标文档的相似度;若所述检索语句与所述目标商品的目标文档的相似度大于相似度阈值,则确定所述检索语句具有商品购物意图。通过本申请可提高商品购物意图的识别准确率。

Description

购物意图识别方法、装置、终端设备及存储介质
技术领域
本申请属于搜索技术领域,尤其涉及一种购物意图识别方法、装置、终端设备及存储介质。
背景技术
购物自互联网发展以来逐步成为巨大的流量入口,除了常见的淘宝、京东等存在直接针对购物的垂类搜索,还存在位于上游的综合搜索来满足庞大的用户购物需求,在综合搜索中,从海量用户的检索内容中抽取出具有购物意图的检索语句,是用户触达购物商品的关键。
目前,通常使用深度学习文本分类模型进行意图识别,深度学习文本分类模型是从语义层面识别意图。然而,针对购物意图,用户在搜索框输入的检索语句通常不能从语义层面理解其意图,降低了购物意图的识别准确率。
发明内容
本申请提供了一种购物意图识别方法、装置、终端设备及存储介质,以提高商品购物意图的识别准确率。
第一方面,本申请实施例提供了一种购物意图识别方法,所述购物意图识别方法包括:
获取检索语句;
对所述检索语句进行分词,得到N个词,N为大于零的整数;
若所述N个词中存在商品实体词,则获取目标商品的目标文档,所述目标商品是指所述商品实体词对应的商品,所述目标商品的目标文档记录所述目标商品的相关信息;
获取所述检索语句与所述目标商品的目标文档的相似度;
若所述检索语句与所述目标商品的目标文档的相似度大于相似度阈值,则确定所述检索语句具有商品购物意图。
第二方面,本申请实施例提供了一种购物意图识别装置,所述购物意图识别装置包括:
语句获取模块,用于获取检索语句;
语句分词模块,用于对所述检索语句进行分词,得到N个词,N为大于零的整数;
文档获取模块,用于若所述N个词中存在商品实体词,则获取目标商品的目标文档,所述目标商品是指所述商品实体词对应的商品,所述目标商品的目标文档记录所述目标商品的相关信息;
相似度获取模块,用于获取所述检索语句与所述目标商品的目标文档的相似度;
意图确定模块,用于若所述检索语句与所述目标商品的目标文档的相似度大于相似度阈值,则确定所述检索语句具有商品购物意图。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述购物意图识别方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述购物意图识别方法的步骤。
第五方面,本申请实施例提供了一种计算机程序产品,当所述计算机程序产品在终端设备上运行时,使得所述终端设备执行如上述第一方面所述购物意图识别方法的步骤。
由上可见,本申请通过对检索语句进行分词,可以检测检索语句中是否存在商品实体词,并在存在商品实体词时,确定检索语句可能具有商品购买意图,通过将检索语句与目标商品的目标文档的相似度与相似度阈值进行比较,可以有效过滤携带商品实体词但非商品购物意图的检索语句,从而更为精准地识别商品购物意图,提高商品购物意图的识别准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的购物意图识别方法的实现流程示意图;
图2是本申请实施例二提供的购物意图识别方法的实现流程示意图;
图3是本申请实施例三提供的购物意图识别装置的示意图;
图4是本申请实施例四提供的终端设备的结构示意图;
图5是本申请实施例五提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
具体实现中,本申请实施例中描述的终端设备包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机或平板计算机之类的其它便携式设备。还应当理解的是,在某些实施例中,所述终端设备并非便携式通信设备,而是具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的台式计算机。
在接下来的讨论中,描述了包括显示器和触摸敏感表面的终端设备。然而,应当理解的是,终端设备可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其它物理用户接口设备。
终端设备支持各种应用程序,例如以下中的一个或多个:绘图应用程序、演示应用程序、文字处理应用程序、网站创建应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄影机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。
可以在终端设备上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样,终端的公共物理架构(例如,触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。
应理解,本实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
为了说明本申请所述的技术方案,下面通过具体实施例来进行说明。
参见图1,是本申请实施例一提供的购物意图识别方法的实现流程示意图,该购物意图识别方法应用于终端设备,如图所示该购物意图识别方法可以包括以下步骤:
步骤101,获取检索语句。
其中,检索语句是指用户在搜索框输入的检索语句,例如在搜索框输入“我想买OPPO手机”,“我想买OPPO手机”即为检索语句。检索语句在搜索领域也可以称之为query。需要说明的是,“我想买OPPO手机”中的“”是为了说明该句为检索语句,检索语句本身并不包括“”。
步骤102,对检索语句进行分词,得到N个词。
其中,N为大于零的整数。
在本实施例中,可以根据预设分词算法,对检索语句进行分词,得到分词后的每个词,分词后所得词的数量即为N,例如对检索语句“我想买OPPO手机”进行分词,得到“我想买”、“OPPO”、“手机”等三个词,N即为3。其中,上述预设分词算法可以是指预先设置的任一种分词算法,例如正向最大匹配算法、逆向最大匹配算法等,在此不作限定。
步骤103,若N个词中存在商品实体词,则获取目标商品的目标文档。
其中,商品实体词可以是指描述商品名称的名词,例如在搜索框输入检索语句“手机和电脑”,那么检索语句中的“手机”和“电脑”均为商品实体词。需要说明的是,本申请中的商品也可以理解为商品实体,例如“手机”、“手表”、“口红”等商品均是常见的商品实体。
目标商品可以是指检索语句中商品实体词对应的商品,例如检索语句“我想买OPPO手机”中的“手机”这个词是商品实体词,该商品实体词对应的商品即为“手机”。目标商品的目标文档记录目标商品的相关信息,例如目标商品的实体品牌词、实体标签词等信息,实体品牌词可以是指商品的品牌名称,例如“OPPO”为手机的一个品牌名称,实体标签词可以是指商品的属性信息,包括但不限于商品的型号、颜色、性能等。目标文档在搜索领域也可以称之为Doc,是指可被检索的对象。
步骤104,获取检索语句与目标商品的目标文档的相似度。
在本实施例中,由于目标文档记录目标商品的相关信息,该相关信息在较大程度上表征了商品购物意图,故可以基于检索语句中的N个词,以及目标文档中的词,计算检索语句与目标文档的相似度。
可选地,获取检索语句与目标商品的目标文档的相似度包括:
获取N个词各自的权重;
检测N个词中每个词是否存在于目标商品的目标文档中,并确定存在于目标商品的目标文档中的词的数值为第一数值,确定不存在于目标商品的目标文档中的词的数值为第二数值,得到N个词各自的数值,第一数值大于第二数值;
根据N个词各自的权重和N个词各自的数值,获取检索语句与目标商品的目标文档的相似度。
在本实施例中,可以采用预训练逆向文件频率(Inverse Document Frequency,IDF)词典与调权的算法,获得检索语句中N个词各自的权重,记为[w1,w2,...,wN]。可以将N个词的数值记为[b1,b2,...,bN],为了简化相似度的计算,可以将第一数值设置为1,第二数值设置为0,根据公式可以计算检索语句与目标文档的相似度,wi表示第i个词的权重,bi表示第i个词的数值。其中,一个词的权重表征该词在商品购物意图识别中的重要程度,如果一个词能够较大程度地表征具有商品购物意图(即该词对商品购物意图的识别影响较大),则可以为该词设置较大的权重;如果一个词对商品购物意图的识别影响较小,则可以为该词设置较小的权重。
步骤105,若检索语句与目标商品的目标文档的相似度大于相似度阈值,则确定检索语句具有商品购物意图。
在本实施例中,在计算得到检索语句与目标文档的相似度之后,可以将检索语句与目标文档的相似度与相似度阈值进行比较,基于比较结果识别检索语句是否具有商品购物意图,具体的:若检索语句与目标文档的相似度大于相似度阈值,则确定检索语句具有商品购物意图;若检索语句与目标文档的相似度小于或等于相似度阈值,则确定检索语句不具有商品购物意图。其中,相似度阈值可以是指预先设置的用于判断检索语句是否具有商品购物意图的阈值,可以通过经验值获取。
需要说明的是,在检索语句中包括至少两种商品时,可以获取上述至少两种商品各自对应的目标文档,得到至少两个目标文档,获取上述至少两个目标文档中每个目标文档与检索语句的相似度,若检测到任一个目标文档与检索语句的相似度大于相似度阈值,则确定上述检索语句具有商品购物意图;若上述至少两个目标文档与检索语句的相似度均小于或等于相似度阈值,则确定上述检索语句不具有商品购物意图,即上述检索语句非商品购物意图。
例如检索语句“手机和电脑”,该检索语句包括两种商品,分别为“手机”、“电脑”,获取商品“手机”的目标文档,以及商品“电脑”的目标文档,为了区分两个商品的目标文档,可以将商品“手机”的目标文档称之为第一目标文档,商品“电脑”的目标文档称之为第二目标文档,可以先计算第一目标文档与检索语句的相似度,得到第一相似度,若第一相似度大于相似度阈值,则确定检索语句“手机和电脑”具有商品购物意图,若第一相似度小于或等于相似度阈值,则计算第二目标文档与检索语句的相似度,得到第二相似度,若第二相似度大于相似度阈值,则确定检索语句“手机和电脑”具有商品购物意图,若第二相似度小于或等于相似度阈值,则确定检索语句“手机和电脑”不具有商品购物意图。需要说明的是,也可以先计算第二目标文档与检索语句的相似度,根据该相似度与相似度阈值的比较结果再判定是否需要再计算第一目标文档与检索语句的相似度,即本申请对不同目标文档与检索语句的相似度的计算顺序不作限定。
本申请实施例通过对检索语句进行分词,可以检测检索语句中是否存在商品实体词,并在存在商品实体词时,确定检索语句可能具有商品购买意图,通过将检索语句与目标商品的目标文档的相似度与相似度阈值进行比较,可以有效过滤携带商品实体词但非商品购物意图的检索语句,从而更为精准地识别商品购物意图,提高商品购物意图的识别准确率。
参见图2,是本申请实施例二提供的购物意图识别方法的实现流程示意图,该购物意图识别方法应用于终端设备,如图所示该购物意图识别方法可以包括以下步骤:
步骤201,获取检索语句。
该步骤与步骤101相同,具体可参见步骤101的相关描述,在此不再赘述。
步骤202,对检索语句进行分词,得到N个词。
该步骤与步骤102相同,具体可参见步骤102的相关描述,在此不再赘述。
步骤203,基于预先构建的商品实体词词典,检测N个词中是否存在商品实体词。
其中,商品实体词词典中包括至少一种商品的商品实体词。
在本实施例中,可以检测N个词中是否存在位于商品实体词词典中的词,若N个词中存在位于商品实体词词典中的词,则确定位于商品实体词词典中的词为商品实体词,即N个词中存在商品实体词;若N个词中不存在位于商品实体词词典中的词,则确定N个词中不存在商品实体词。
可选地,若N个词中存在商品实体词,则获取目标商品的目标文档包括:
若N个词中存在商品实体词,则确定商品实体词的标记符为第一标记符,并检测至少一个意图模板中是否存在与第一标记符匹配的意图模板;
若存在与第一标记符匹配的意图模板,则获取目标商品的目标文档;
若不存在与第一标记符匹配的意图模板,则检测剩余词中是否存在实体特定词,实体特定词包括实体品牌词和/或实体标签词,实体标签词表征商品的属性信息,实体品牌词表征商品所属品牌,剩余词是指N个词中除商品实体词之外的词;
若剩余词中存在实体特定词,则确定实体特定词的标记符,并检测至少一个意图模板中是否存在与第一标记符及实体特定词的标记符匹配的意图模板,实体特定词的标记符包括第三标记符和/或第三标记符,第二标记符是实体品牌词的标记符,第三标记符是实体标签词的标记符;
若存在与第一标记符及实体标签词的标记符匹配的意图,则获取目标商品的目标文档。
在本实施例中,可以预先构建实体特定词词典,检测剩余词中是否存在位于实体特定词词典中的词,若存在位于实体特定词词典中的词,则确定该词为实体特定词,若不存在位于实体特定词词典中的词,则确定剩余词中不存在实体特定词,其中,实体特定词词典包括实体品牌词词典和/或实体标签词词典,实体品牌词词典存储较多的实体品牌词,用于检测检索语句或剩余词中是否存在实体品牌词,实体标签词词典存储较多的实体标签词,用于检测检索语句或剩余词中是否存在实体标签词。
意图模板可以是指预先设置的对检索语句是否具有商品购物意图进行初步筛选的模板,意图模板的格式是一种包含关系的格式,要求包含特定元素,且对各个特定元素之间的位置关系无要求,故意图模板在与标记符进行匹配时,具有较高的容忍度,且对检索语句中各个词的位置关系无要求,减小了对检索语句的局限性。其中,特定元素包括但不限于第一标记符、第二标记符和第三标记符。
例如特定元素为第一标记符和第二标记符,即意图模板为包括第一标记符和第二标记符,那么如果检测到检索语句中存在商品实体词与实体品牌词,则确定基于检索语句检测到第一标记符和第二标记符,即确定存在与第一标记符和第二标记符匹配的意图模板。
以检索语句为“我想买OPPO手机”为例,检测到检索语句中存在商品实体词“手机”,“手机”的标记符为第一标记符,若意图模板为包括第一标记符,则确定存在与第一标记符匹配的意图模板;若意图模板为第一标记符和第二标记符,则确定不存在与第一标记符匹配的意图模板,则检测检索语句中是否存在实体品牌词,检测到检索语句中存在实体品牌词“OPPO”,“OPPO”的标记符为第二标记符,则确定存在与第一标记符和第二标记符匹配的意图模板;若意图模板为第一标记符、第二标记符和第三标记符,则确定不存在与第一标记符和第二标记符匹配的意图模板,检测检索语句中是否存在实体标签词,检测到检索语句中不存在实体标签词,即未检测到第三标记符,则确定不存在与第一标记符和第二标记符匹配的意图模板。
需要说明的是,本申请通过借助意图模板匹配对检索语句是否具有商品购物意图进行初步筛选,可以减少后续相似度的匹配计算,从而降低终端设备的在商品购物意图识别过程中的功耗,降低了终端设备的部署成本。且意图模板匹配也能够使得本申请的购物意图识别算法获得干预能力,根据实际需求修改意图模板,从而实现根据实际需求上架商品或下架商品。
可选地,本实施例还包括:
若剩余词中不存在实体特定词,或者剩余词中存在实体特定词且不存在与第一标记符及实体特定词的标记符匹配的意图模板,则确定检索语句不具有商品购物意图。
在本实施例,若不存在与第一标记符匹配的意图模板且剩余词中不存在实体特定词,或者剩余词中存在实体特定词且不存在与第一标记符及实体特定词的标记符匹配的意图模板,则确定至少一个意图模板中不存在与检索语句匹配的意图模板,进而确定检索语句不具有商品购物意图。
可选地,购物意图识别方法还包括:
获取商品实体表,商品实体表包括M个商品各自对应的商品实体词、实体品牌词以及实体标签词,M为大于零的整数;
将商品实体表中所有商品实体词均标记为第一标记符,商品实体表中所有实体品牌词均标记为第二标记符,商品实体表中所有商品实体词均标记为第三标记符,第一标记符、第二标记符以及第三标记符为不同的标记符;
基于预设规则,将第一标记符、第二标记符和第三标记符聚合为至少一个意图模板;
汇总商品实体表中的所有商品的商品实体词,构建商品实体词词典;
将同一商品的实体品牌词和实体标签词聚合为一个文档,确定该文档为该商品的目标文档。
在本实施例中,可以从数据库中获取商品实体表,商品实体表包括但不限于至少一个商品的商品实体词、实体品牌词、实体标签词等。
在构建意图模板时,可以将商品实体词标记为第一标记符(例如Entity),实体品牌词标记为第二标记符(例如Brand),实体标签词标记为第三标记符(例如Tag),且第一标记符、第二标记符、第三标记符为不同的标记符,以能够对商品实体词、实体品牌词和实体标签词这三种词类型进行区分。
预设规则可以是指第一标记符、第二标记符和第三标记符的聚合规则,例如将第一标记符与第二标记符进行聚合,得到一个意图模板,该意图模板中的特定元素为第一标记符和第二标记符;或者将第一标记符、第二标记符和第三标记符进行聚合,得到一个意图模板,该意图模板中的特定元素为第一标记符、第二标记符和第三标记符。
商品实体词词典包括商品实体表中所有商品的商品实体词,即对所有商品的商品实体词进行汇总,以确保商品实体词词典具有较多的商品实体词,便于检索语句中商品实体词的检测。
将同一商品的实体品牌词和实体标签词聚合为一个文档可以是指将商品实体表中同一商品的所有实体品牌词和所有实体标签词均记录在一个文档中。对于一个商品的目标文档,可以为该商品的商品实体词和目标文档设置相同的标识信息,在检测到检索语句中存在商品实体词时,根据该商品实体词的标识信息,从文档库中查找与该商品实体词的标识信息相同的目标文档,该目标文档即为该商品的目标文档。其中,文档库可以包括商品实体词词典中所有商品实体词对应的商品的目标文档。
需要说明的是,在构建商品的目标文档时,可以构建更为规范化的目标文档,从而便于对目标文档中内容进行深度的语义抽取,结合上下文语义计算检索语句与目标文档的相似度,得到更为精准的购物意图识别结果。其中,进行语义抽取时,可以使用以word2vector为基础的深度学习模型进行抽取,也可以使用以bert为核心的微调模式进行提取,从而得到更为精准的购物意图识别结果,bert是一种基于transformer的预训练语言模型,word2vector是一种将词转化为向量的映射方法。
可选地,获取商品实体表包括:
基于商品资源平台,获取不同的商品标题;
基于不同的商品标题,获取商品实体表。
其中,商品资源平台可以是指能够提供各种商品标题的资源方,例如淘宝、京东、拼多多等。商品标题可以是指包含商品实体词、实体品牌词以及实体标签词的信息,商品标题也可以称之为title。
从商品资源平台提供的各种不同的商品标题中,可以挖掘出购物品类常用的商品实体词、实体品牌词以及实体标签词等信息,具体挖掘步骤如下:
(1)对商品标题进行正则化,该正则化包括但不限于大小写转换、全半角转换、繁简体转换、去除括号及括号中内容等,将不同商品标题统一为相同格式,例如商品标题中字母均为大写,词均为简体等;
(2)利用商品资源平台提供的商品品牌数据构建实体品牌词词典;
(3)对商品标题中同三级类目的品牌词及品牌词别名进行去重,保留一个品牌词,可以避免影响后续商品标题的分词效果,由于一个商品标题通常是针对一个品牌的商品,故一个商品标题中通常允许包含一个品牌词,对商品标题进行去重可达到该目的,其中,商品资源平台通常具有较为完善的类目体系,通常分为三个类目,分为为一级类目、二级类目和三级类目,一级类目的范围较大,第二级类目是第一级类目的细化,第三级类目是第二级类目的细化,在第三级类目下通常细化到商品的品牌,例如一级类目为:手机/数码;二级类目为:手机/手机配件/通信服务/影音娱乐/数码配件/电脑笔记本/智能设备;三级类目分别对二级类目下的内容进行细分,以二级类目下的手机为例,在三级类目下,手机包括:OPPO手机、苹果手机、vivo手机、华为手机等;
(4)若商品标题中存在空白符号,则基于空白符号进行分词,若基于空白符号分词后,所分的词中存在长度小于长度阈值的词,且该词的词性为名词,则该词为商品实体词;
(5)若商品标题中不存在空白符号,则可以根据预设分词算法对商品标题进行分词,若所分的词中存在数字与量词的组合,且该组合前的词为名词,则确定该名词为商品实体词,否则判断所分的词中最后一个词是否为名词,且该最后一个词不包含预设词,若该最后一个词为名词且该名词不包含预设词,则确定该名词为商品实体词,其中,预设词可以是指预先设置的词,例如常见的实体标签词“红色”、“蓝色”、“金色”等;
(6)对剩余文本重新进行分词作为实体标签词,并将分词后的单个词与前后词组合生成实体标签词,根据上述实体标签词构建实体标签词词典,其中,剩余文本是指从商品标题中挖掘出商品实体词和实体品牌词之后剩余的词;
(7)将商品标题中品牌词和品牌词别名均作为商品标题中商品实体词的品牌词;
(8)在本申请中还可以设置商品类目,可以将商品类目下表示同一商品的品牌词和标签词进行合并,得到该商品的实体品牌词和实体标签词,例如设置三级商品类目,第一级类目的范围较大,第二级类目是第一级类目的细化,第三级类目是第二级类目的细化,在第三级类目下通常包括具体的商品实体词,由于第二级类目是第三级类目的上位,第二级类目下可能包括同一商品的品牌词和标签词,故为了充分挖掘实体品牌词和实体标签词,可以将第三级类目下的品牌词和标签词与第二级类目下同一商品的品牌词和标签词进行合并;
(9)将上述挖掘出的所有商品实体词构建为商品实体词词典后,可以人工对商品实体词词典中的商品实体词进行检测,检测商品实体词词典中的商品实体词是否为正确的商品实体词,若不是正确的商品实体词(即是错误的商品实体词),则从商品实体词词典中删除该错误的商品实体词,以确保商品实体词词典中的商品实体词均为正确的商品实体词,提高后续检索语句中商品实体词的检测准确率。
可选地,可以将上述意图模板、各种词典等均采用Trie树构造,目标文档可以采用双层Trie树构造。其中,Trie树是一种树形的数据结构,在处理字符串匹配时具有很高的速度,其复杂度主要与最长的字符串有关,因此在进行匹配搜索时选用此数据结构能有效降低耗时。
需要说明的是,在获取到上述意图模板、各种词典、目标文档后,可以将其上传至数据库,以便于后续购物意图识别的使用。
为了能够自动化更新商品实体词词典,使得商品实体词词典具有一定的泛化能力,可以利用已标注的商品实体词、实体品牌词、实体标签词作为训练样本,构建命名实体识别模型,从而通过该命名实体识别模型自动识别出商品标题中的商品实体词、实体品牌词。
步骤204,若N个词中存在商品实体词,则获取目标商品的目标文档。
该步骤与步骤103相同,具体可参见步骤103的相关描述,在此不再赘述。
步骤205,获取检索语句与目标商品的目标文档的相似度。
该步骤与步骤104相同,具体可参见步骤104的相关描述,在此不再赘述。
步骤206,若检索语句与目标商品的目标文档的相似度大于相似度阈值,则确定检索语句具有商品购物意图。
该步骤与步骤105相同,具体可参见步骤105的相关描述,在此不再赘述。
本申请实施例在实施例一的基础上,基于预先构建的商品实体词词典,可以较为准确地检测检索语句中是否存在商品实体词,提高商品实体词的检测准确率。
参见图3,是本申请实施例三提供的购物意图识别装置的示意图,为了便于说明,仅示出了与本申请实施例相关的部分。
购物意图识别装置包括:
语句获取模块31,用于获取检索语句;
语句分词模块32,用于对检索语句进行分词,得到N个词,N为大于零的整数;
文档获取模块33,用于若N个词中存在商品实体词,则获取目标商品的目标文档,目标商品是指商品实体词对应的商品,目标商品的目标文档记录目标商品的相关信息;
相似度获取模块34,用于获取检索语句与目标商品的目标文档的相似度;
意图确定模块35,用于若检索语句与目标商品的目标文档的相似度大于相似度阈值,则确定检索语句具有商品购物意图。
可选地,购物意图识别装置还包括:
实体词检测模块,用于基于预先构建的商品实体词词典,检测N个词中是否存在商品实体词,商品实体词词典中包括至少一种商品的商品实体词。
可选地,文档获取模块33具体用于:
若N个词中存在商品实体词,则确定商品实体词的标记符为第一标记符,并检测至少一个意图模板中是否存在与第一标记符匹配的意图模板;
若存在与第一标记符匹配的意图模板,则获取目标商品的目标文档;
若不存在与第一标记符匹配的意图模板,则检测剩余词中是否存在实体特定词,实体特定词包括实体品牌词和/或实体标签词,实体标签词表征商品的属性信息,实体品牌词表征商品所属品牌,剩余词是指N个词中除商品实体词之外的词;
若剩余词中存在实体特定词,则确定实体特定词的标记符,并检测至少一个意图模板中是否存在与第一标记符及实体特定词的标记符匹配的意图模板,实体特定词的标记符包括第二标记符和/或第三标记符,第二标记符是实体品牌词的标记符,第三标记符是实体标签词的标记符,第一标记符、第二标记符以及第三标记符为不同的标记符;
若存在与第一标记符及实体特定词的标记符匹配的意图模板,则获取目标商品的目标文档。
可选地,购物意图识别装置包括:
非意图确定模块,用于若剩余词中不存在实体特定词,或者剩余词中存在实体特定词且不存在与第一标记符及实体特定词的标记符匹配的意图模板,则确定检索语句不具有商品购物意图。
可选地,购物意图识别装置还包括:
实体表获取模块,用于获取商品实体表,商品实体表包括M个商品各自对应的商品实体词、实体品牌词以及实体标签词,M为大于零的整数;
词标记模块,用于将商品实体表中所有商品实体词均标记为第一标记符,商品实体表中所有实体品牌词均标记为第二标记符,商品实体表中所有商品实体词均标记为第三标记符;
标记聚合模块,用于基于预设规则,将第一标记符、第二标记符和第三标记符聚合为至少一个意图模板;
词典构建模块,用于汇总商品实体表中的所有商品的商品实体词,构建商品实体词词典;
文档确定模块,用于将同一商品的实体品牌词和实体标签词聚合为一个文档,确定该文档为该商品的目标文档。
可选地,实体表获取模块具体用于:
基于商品资源平台,获取不同的商品标题,一个商品标题包括一个商品对应的商品实体词、实体品牌词以及实体标签词;
基于不同的商品标题,获取商品实体表。
可选地,相似度获取模块34具体用于:
获取N个词各自的权重;
检测N个词中每个词是否存在于目标商品的目标文档中,并确定存在于目标商品的目标文档中的词的数值为第一数值,确定不存在于目标商品的目标文档中的词的数值为第二数值,得到N个词各自的数值,第一数值大于第二数值;
根据N个词各自的权重和N个词各自的数值,获取检索语句与目标商品的目标文档的相似度。
本申请实施例提供的购物意图识别装置可以应用在前述方法实施例一和实施例二中,详情参见上述方法实施例一和实施例二的描述,在此不再赘述。
图4是本申请实施例四提供的终端设备的结构示意图。如图所示的该终端设备可以包括:一个或多个处理器401(图中仅示出一个);一个或多个输入设备402(图中仅示出一个),一个或多个输出设备403(图中仅示出一个)和存储器404。上述处理器401、输入设备402、输出设备403和存储器404通过总线405连接。存储器404用于存储指令,处理器401用于执行存储器404存储的指令实现上述各个购物意图识别方法实施例中的步骤。
应当理解,在本申请实施例中,所述处理器401可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备402可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风、数据接收接口等。输出设备403可以包括显示器(LCD等)、扬声器、数据发送接口等。
该存储器404可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器404的一部分还可以包括非易失性随机存取存储器。例如,存储器404还可以存储设备类型的信息。
具体实现中,本申请实施例中所描述的处理器401、输入设备402、输出设备403和存储器404可执行本申请实施例提供的购物意图识别方法的实施例中所描述的实现方式,也可执行实施例三所述购物意图识别装置中所描述的实现方式,在此不再赘述。
图5是本申请实施例五提供的终端设备的结构示意图。如图5所示,该实施例的终端设备5包括:一个或多个处理器50(图中仅示出一个)、存储器51以及存储在所述存储器51中并可在所述至少一个处理器50上运行的计算机程序52。所述处理器50执行所述计算机程序52时实现上述各个购物意图识别方法实施例中的步骤。
所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端设备5的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器50可以是中央处理单元CPU,还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC、现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本申请实现上述实施例方法中的全部或部分流程,也可以通过一种计算机程序产品来完成,当所述计算机程序产品在终端设备上运行时,使得所述终端设备执行时实现可实现上述各个方法实施例中的步骤。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (7)

1.一种购物意图识别方法,其特征在于,所述购物意图识别方法包括:
获取检索语句;
对所述检索语句进行分词,得到N个词,N为大于零的整数;
若所述N个词中存在商品实体词,则获取目标商品的目标文档,所述目标商品是指所述商品实体词对应的商品,所述目标商品的目标文档记录所述目标商品的相关信息;
获取所述检索语句与所述目标商品的目标文档的相似度;
若所述检索语句与所述目标商品的目标文档的相似度大于相似度阈值,则确定所述检索语句具有商品购物意图;
在对所述检索语句进行分词之后,包括:
基于预先构建的商品实体词词典,检测所述N个词中是否存在商品实体词,所述商品实体词词典中包括至少一种商品的商品实体词;
所述若所述N个词中存在商品实体词,则获取目标商品的目标文档包括:
若所述N个词中存在商品实体词,则确定所述商品实体词的标记符为第一标记符,并检测至少一个意图模板中是否存在与所述第一标记符匹配的意图模板;
若存在与所述第一标记符匹配的意图模板,则获取目标商品的目标文档;
若不存在与所述第一标记符匹配的意图模板,则检测剩余词中是否存在实体特定词,所述实体特定词包括实体品牌词和/或实体标签词,所述实体标签词表征商品的属性信息,所述实体品牌词表征商品所属品牌,所述剩余词是指所述N个词中除所述商品实体词之外的词;
若所述剩余词中存在所述实体特定词,则确定所述实体特定词的标记符,并检测至少一个意图模板中是否存在与所述第一标记符及所述实体特定词的标记符匹配的意图模板,所述实体特定词的标记符包括第二标记符和/或第三标记符,所述第二标记符是所述实体品牌词的标记符,所述第三标记符是所述实体标签词的标记符,所述第一标记符、所述第二标记符以及所述第三标记符为不同的标记符;
若存在与所述第一标记符及所述实体特定词的标记符匹配的意图模板,则获取目标商品的目标文档;
所述购物意图识别方法还包括:
获取商品实体表,所述商品实体表包括M个商品各自对应的商品实体词、实体品牌词以及实体标签词,M为大于零的整数;
将所述商品实体表中所有商品实体词均标记为第一标记符,所述商品实体表中所有实体品牌词均标记为第二标记符,所述商品实体表中所有商品实体词均标记为第三标记符;
基于预设规则,将所述第一标记符、所述第二标记符和所述第三标记符聚合为至少一个意图模板;
汇总所述商品实体表中的所有商品的商品实体词,构建所述商品实体词词典;
将同一商品的实体品牌词和实体标签词聚合为一个文档,确定该文档为该商品的目标文档。
2.如权利要求1所述的购物意图识别方法,其特征在于,所述购物意图识别方法还包括:
若所述剩余词中不存在实体特定词,或者所述剩余词中存在实体特定词且不存在与所述第一标记符及所述实体特定词的标记符匹配的意图模板,则确定所述检索语句不具有商品购物意图。
3.如权利要求1所述的购物意图识别方法,其特征在于,所述获取商品实体表包括:
基于商品资源平台,获取不同的商品标题,一个商品标题包括一个商品对应的商品实体词、实体品牌词以及实体标签词;
基于所述不同的商品标题,获取所述商品实体表。
4.如权利要求1至3任一项所述的购物意图识别方法,其特征在于,所述获取所述检索语句与所述目标商品的目标文档的相似度包括:
获取所述N个词各自的权重;
检测所述N个词中每个词是否存在于所述目标商品的目标文档中,并确定存在于所述目标商品的目标文档中的词的数值为第一数值,确定不存在于所述目标商品的目标文档中的词的数值为第二数值,得到所述N个词各自的数值,所述第一数值大于所述第二数值;
根据所述N个词各自的权重和所述N个词各自的数值,获取所述检索语句与所述目标商品的目标文档的相似度。
5.一种购物意图识别装置,其特征在于,所述购物意图识别装置用于实现如权利要求1至4任一项所述的方法。
6.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述购物意图识别方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述购物意图识别方法的步骤。
CN202010858037.3A 2020-08-24 2020-08-24 购物意图识别方法、装置、终端设备及存储介质 Active CN111814481B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010858037.3A CN111814481B (zh) 2020-08-24 2020-08-24 购物意图识别方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010858037.3A CN111814481B (zh) 2020-08-24 2020-08-24 购物意图识别方法、装置、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN111814481A CN111814481A (zh) 2020-10-23
CN111814481B true CN111814481B (zh) 2023-11-14

Family

ID=72859155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010858037.3A Active CN111814481B (zh) 2020-08-24 2020-08-24 购物意图识别方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN111814481B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818088B (zh) * 2021-02-23 2023-09-29 平安科技(深圳)有限公司 商品搜索数据处理方法、装置、设备及存储介质
CN113256379A (zh) * 2021-05-24 2021-08-13 北京小米移动软件有限公司 一种为商品关联购物需求的方法
CN113592523B (zh) * 2021-06-03 2024-03-26 山东大学 一种金融数据处理系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN108984577A (zh) * 2018-02-07 2018-12-11 广州集创佳禾知识产权运营有限公司 一种基于机器识别的线上商品专利获取方法及系统
CN109492222A (zh) * 2018-10-31 2019-03-19 平安科技(深圳)有限公司 基于概念树的意图识别方法、装置及计算机设备
WO2019210557A1 (zh) * 2018-05-03 2019-11-07 平安科技(深圳)有限公司 语音质检方法、装置、计算机设备及存储介质
CN111368049A (zh) * 2020-02-26 2020-07-03 京东方科技集团股份有限公司 信息获取方法、装置、电子设备及计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10832000B2 (en) * 2016-11-14 2020-11-10 International Business Machines Corporation Identification of textual similarity with references

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN108984577A (zh) * 2018-02-07 2018-12-11 广州集创佳禾知识产权运营有限公司 一种基于机器识别的线上商品专利获取方法及系统
WO2019210557A1 (zh) * 2018-05-03 2019-11-07 平安科技(深圳)有限公司 语音质检方法、装置、计算机设备及存储介质
CN109492222A (zh) * 2018-10-31 2019-03-19 平安科技(深圳)有限公司 基于概念树的意图识别方法、装置及计算机设备
WO2020087774A1 (zh) * 2018-10-31 2020-05-07 平安科技(深圳)有限公司 基于概念树的意图识别方法、装置及计算机设备
CN111368049A (zh) * 2020-02-26 2020-07-03 京东方科技集团股份有限公司 信息获取方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN111814481A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
US11216504B2 (en) Document recommendation method and device based on semantic tag
WO2022022045A1 (zh) 基于知识图谱的文本比对方法、装置、设备及存储介质
CN111814481B (zh) 购物意图识别方法、装置、终端设备及存储介质
Quan et al. Unsupervised product feature extraction for feature-oriented opinion determination
CN107463605B (zh) 低质新闻资源的识别方法及装置、计算机设备及可读介质
TWI544350B (zh) Input method and system for searching by way of circle
CN110019732B (zh) 一种智能问答方法以及相关装置
US20130060769A1 (en) System and method for identifying social media interactions
US20140212040A1 (en) Document Alteration Based on Native Text Analysis and OCR
CN112800848A (zh) 票据识别后信息结构化提取方法、装置和设备
CN110263311B (zh) 一种网络页面的生成方法及设备
CN111046221A (zh) 歌曲推荐方法、装置、终端设备以及存储介质
WO2021068932A1 (zh) 基于电子书的实体关联信息的展示方法及电子设备
CN112668320B (zh) 基于词嵌入的模型训练方法、装置、电子设备及存储介质
US10152540B2 (en) Linking thumbnail of image to web page
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
CN111209827A (zh) 一种基于特征检测的ocr识别票据问题的方法及系统
CN113221918B (zh) 目标检测方法、目标检测模型的训练方法及装置
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
CN113408323B (zh) 表格信息的提取方法、装置、设备及存储介质
WO2024114681A1 (zh) 一种搜索结果展示方法、装置、计算机设备及存储介质
M’rabet et al. TextFlow: a text similarity measure based on continuous sequences
CN108628875B (zh) 一种文本标签的提取方法、装置及服务器
CN115544214A (zh) 一种事件处理方法、设备及计算机可读存储介质
CN113157964A (zh) 一种语音搜索数据集的方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant