CN112070586B - 基于语义识别的物品推荐方法、装置、计算机设备及介质 - Google Patents

基于语义识别的物品推荐方法、装置、计算机设备及介质 Download PDF

Info

Publication number
CN112070586B
CN112070586B CN202010942681.9A CN202010942681A CN112070586B CN 112070586 B CN112070586 B CN 112070586B CN 202010942681 A CN202010942681 A CN 202010942681A CN 112070586 B CN112070586 B CN 112070586B
Authority
CN
China
Prior art keywords
word
user
information
identifier
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010942681.9A
Other languages
English (en)
Other versions
CN112070586A (zh
Inventor
李卓聪
吴德龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010942681.9A priority Critical patent/CN112070586B/zh
Publication of CN112070586A publication Critical patent/CN112070586A/zh
Application granted granted Critical
Publication of CN112070586B publication Critical patent/CN112070586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种基于语义识别的物品推荐方法、装置、计算机设备及介质,属于计算机技术领域。该方法包括:响应于未查询到用户标识的历史操作记录,获取用户标识的用户信息,分别对用户信息及多个物品标识的物品信息进行语义识别处理,得到用户标识的特征向量及多个物品标识的特征向量,对于每个物品标识,分别确定用户标识的特征向量与物品标识的特征向量中相互对应的特征值的统计值,根据确定的多个统计数值确定用户标识与物品标识之间的关联度,根据用户标识与多个物品标识之间的关联度,为用户标识推荐物品。通过采用语义识别的方式来获取特征向量,以保证特征向量的准确性,从而提高了物品推荐的准确性,保证了物品推荐的效果。

Description

基于语义识别的物品推荐方法、装置、计算机设备及介质
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种基于语义识别的物品推荐方法、装置、计算机设备及介质。
背景技术
随着计算机技术的发展,推荐系统的应用越来越广泛。通过推荐系统能够将用户感兴趣的物品推荐给用户,供用户浏览或者购买,丰富了信息量。
通常在向用户推荐物品时,会根据用户的历史操作记录,来确定用户感兴趣的物品,从而将用户感兴趣的物品推荐给用户。但是上述方法针对没有历史操作记录的用户将无法进行推荐,应用范围窄。
发明内容
本申请实施例提供了一种基于语义识别的物品推荐方法、装置、计算机设备及介质,能够提高物品推荐的准确性。所述技术方案如下:
一方面,提供了一种基于语义识别的物品推荐方法,所述方法包括:
响应于未查询到用户标识的历史操作记录,获取所述用户标识的用户信息;
分别对所述用户信息及多个物品标识的物品信息进行语义识别处理,得到所述用户标识的特征向量及所述多个物品标识的特征向量,所述用户标识的特征向量包括多个维度的特征值,所述物品标识的特征向量包括多个维度的特征值,且所述物品标识的特征向量中的维度数量与所述用户标识的特征向量中的维度数量相等;
对于每个物品标识,分别确定所述用户标识的特征向量与所述物品标识的特征向量中相互对应的特征值的统计值,根据确定的多个统计数值确定所述用户标识与所述物品标识之间的关联度;
根据所述用户标识与所述多个物品标识之间的关联度,为所述用户标识推荐物品。
另一方面,提供了一种基于语义识别的物品推荐装置,所述装置包括:
信息获取模块,用于响应于未查询到用户标识的历史操作记录,获取所述用户标识的用户信息;
识别处理模块,用于分别对所述用户信息及多个物品标识的物品信息进行语义识别处理,得到所述用户标识的特征向量及所述多个物品标识的特征向量,所述用户标识的特征向量包括多个维度的特征值,所述物品标识的特征向量包括多个维度的特征值,且所述物品标识的特征向量中的维度数量与所述用户标识的特征向量中的维度数量相等;
关联度确定模块,用于对于每个物品标识,分别确定所述用户标识的特征向量与所述物品标识的特征向量中相互对应的特征值的统计值,根据确定的多个统计数值确定所述用户标识与所述物品标识之间的关联度;
物品推荐模块,用于根据所述用户标识与所述多个物品标识之间的关联度,为所述用户标识推荐物品。
在一种可能实现方式中,所述特征提取单元,用于对于所述每个词语集合,调用词向量提取模型,对所述词语集合中的多个词语进行特征提取,得到所述词语集合对应的词向量集合。
在另一种可能实现方式中,所述融合处理单元,用于按照所述词语集合中多个词语的权重,对所述词向量集合中多个词向量进行加权处理,得到所述词语集合对应的特征向量。
在另一种可能实现方式中,所述装置还包括:
数目确定模块,用于分别确定所述词语集合中每个词语对应的出现数目,任一词语对应的出现数目为所述多个物品信息中包括所述词语的物品信息的数目;
权重确定模块,用于根据所述每个词语的出现数目及所述多个物品信息的总数目,确定所述每个词语的权重,所述每个词语的权重与对应的出现数目呈负相关关系。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现如上述方面所述的基于语义识别的物品推荐方法中所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如上述方面所述的基于语义识别的物品推荐方法中所执行的操作。
再一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机程序代码,所述计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行所述计算机程序代码,使得所述计算机设备实现如上述方面所述的基于语义识别的物品推荐方法中所执行的操作。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例提供的方法、装置、计算机设备及存储介质,在无法根据用户标识的历史操作记录进行物品推荐的情况下,采用语义识别的方式,对用户信息及物品信息进行处理,并根据处理结果获取用户与每个物品的关联度,以使根据关联度为用户推荐物品,通过采用语义识别的方式来获取特征向量,避免了人工标注的成本,以保证特征向量的准确性,从而提高了关联度的准确性,并根据用户与不同物品之间的关联度,为用户准确地推荐物品,从而提高了物品推荐的效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的结构示意图;
图2是本申请实施例提供的一种基于语义识别的物品推荐方法的流程图;
图3是本申请实施例提供的一种基于语义识别的物品推荐方法的流程图;
图4是本申请实施例提供的一种物品推荐的流程图;
图5是本申请实施例提供的一加权处理的示意图;
图6是本申请实施例提供的一种取词向量集合的流程图;
图7是本申请实施例提供的一种应用界面的示意图;
图8是本申请实施例提供的一种基于语义识别的物品推荐装置;
图9是本申请实施例提供的一种基于语义识别的物品推荐装置;
图10是本申请实施例提供的一种终端的结构示意图;
图11是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请所使用的术语“多个”、“每个”、“任一”,多个包括两个或两个以上,而每个是指对应的多个中的每一个,任一是指多个中的任意一个。举例来说,多个词语包括3个词语,而每个是指这3个词语中的每一个词语,任一是指这3个词语中的任意一个词语,可以是第一个词语,可以是第二个词语、也可以是第三个词语。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案,基于人工智能的自然语言处理及机器学习技术,能够训练出分词模型及词向量提取模型,后续利用训练后的分词模型及词向量提取模型,实现了基于语义识别的物品推荐方法。
本申请实施例提供的基于语义识别的物品推荐方法,能够用于计算机设备中,可选地,该计算机设备为终端或服务器。可选地,该服务器是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,终端是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
图1是本申请实施例提供的一种实施环境的结构示意图,如图1所示,该实施环境包括终端101和服务器102,终端101和服务器102之间通过无线或者有线网络连接。
可选地,终端101安装有目标应用,该目标应用提供有展示物品的功能,可选地,该目标应用还为用户提供有购买物品的功能,例如,该目标应用为电子商务类应用等,服务器102是为该目标应用提供服务的服务器。
可选地,终端101基于用户标识登录该目标应用,服务器102根据登录的用户标识为终端101推荐至少一个物品,以使终端101通过物品展示界面显示该至少一个物品。
本申请实施例提供的方法,可用于多种场景。
例如,物品推荐场景下:
终端基于用户标识首次登录购物应用,购物应用的服务器无法获取到用户的历史操作记录,则采用本申请实施例提供的基于语义识别的物品推荐方法,为用户推荐物品,终端通过该购物应用显示推荐的物品,供用户浏览或者购买。
再例如,视频推荐场景下:
终端中安装有视频应用,该视频应用为新发布的应用,终端基于用户标识在视频应用中注册并进行登录,该视频应用对应的服务器未查询到该用户标识的历史操作记录时,采用本申请实施例提供的基于语义识别的物品推荐方法,为用户推荐感兴趣的视频,终端显示推荐的视频,供用户观看。
图2是本申请实施例提供的一种基于语义识别的物品推荐方法的流程图,应用于计算机设备中,如图2所示,该方法包括:
201、计算机设备响应于未查询到用户标识的历史操作记录,获取用户标识的用户信息。
其中,用户标识是指示用户的唯一标识,不同用户的用户标识不同。用户标识的历史操作记录用于记录用户执行的历史操作。用户标识的用户信息用于表示用户特征的信息。在未查询到用户标识的历史操作记录时,将无法根据历史操作记录为用户标识推荐物品,因此,获取用户标识的用户信息,以便后续通过用户信息为用户标识推荐物品。
202、计算机设备分别对用户信息及多个物品标识的物品信息进行语义识别处理,得到用户标识的特征向量及多个物品标识的特征向量。
其中,用户标识的特征向量包括多个维度的特征值,物品标识的特征向量包括多个维度的特征值,且物品标识的特征向量中的维度数量与用户标识的特征向量中的维度数量相等。
203、计算机设备对于每个物品标识,分别确定用户标识的特征向量与物品标识的特征向量中相互对应的特征值的统计值,根据确定的多个统计数值确定用户标识与物品标识之间的关联度。
其中,用户标识与物品标识之间的关联度用于表示用户对物品的感兴趣程度。对于用户标识与任一物品标识之间的关联度,该关联度越高,则表示用户对该物品的感兴趣程度越高,关联度越低,则表示用户对该物品的感兴趣程度越低。
204、计算机设备根据用户标识分别与多个物品标识之间的关联度,为用户标识推荐物品。
其中,用户标识与物品标识之间的关联度,表示用户与物品之间的关联程度,关联度越大,表示用户与物品之间的关联程度越大。通过多个物品标识与用户标识之间的关联度,从多个物品标识中选择为用户标识推荐的物品,以保证物品推荐的准确性。
本申请实施例提供的方法,在无法根据用户标识的历史操作记录进行物品推荐的情况下,采用语义识别的方式,对用户信息及物品信息进行处理,并根据处理结果获取用户与每个物品的关联度,以使根据关联度为用户推荐物品,通过采用语义识别的方式来获取特征向量,避免了人工标注的成本,以保证特征向量的准确性,从而提高了关联度的准确性,并根据用户与不同物品之间的关联度,为用户准确地推荐物品,从而提高了物品推荐的效果。
图3是本申请实施例提供的一种基于语义识别的物品推荐方法的流程图,应用于计算机设备中,如图3所示,该方法包括:
301、计算机设备响应于未查询到用户标识的历史操作记录,获取用户标识的用户信息。
其中,用户标识是指示用户的唯一标识,不同用户的用户标识不同。可选地,该用户标识为手机号、身份证号、用户昵称或护照号等。用户信息用于表示用户特征的信息。可选地,该用户信息包括用户标签,该用户标签指示用户的喜好。例如,用户标签为美容美妆者,或者娱乐影音者。
历史操作记录用于记录用户执行的历史操作,可选地,历史操作记录包括历史浏览记录、历史购买记录或历史收藏记录等。其中,历史浏览记录包括物品标识,表示用户浏览过该物品标识对应的物品;历史购买记录包括物品标识,表示用户购买过该物品标识对应的物品;历史收藏记录包括物品标识,表示用户收藏过该物品标识对应的物品。可选地,计算机设备设置有数据库,该数据库中包括历史操作记录,通过查询该历史数据库,能够确定是否存储用户标识的历史操作记录。
如果未查询到用户标识的历史操作记录,表示该用户可能为新用户,还没有进行过操作,或者,该用户的历史操作记录丢失,此时无法根据历史操作记录进行推荐,因此,获取用户标识的用户信息,以使后续能够根据用户信息,为该用户推荐物品,以保证物品推荐的准确性。
在一种可能实现方式中,该步骤301包括:响应于未查询到用户标识的历史操作记录,从用户标识的注册信息中,提取用户信息。
其中,注册信息为该用户注册时填写的信息,可选地,该注册信息中包括姓名、性别、年龄、居住地、职业、喜好等。由于注册信息包括了用于描述用户的特征的信息,因此,能够从注册信息中提取到用于用户特征的用户信息。
可选地,在用户填写注册信息时,用户选择多个用户标签来指示用户的喜好。例如,该多个用户标签为美容美妆者、篮球爱好者或娱乐影音者等,则用户注册完成生成的注册信息中包括多个用户标签,后续在根据注册信息获取用户信息时,从注册信息中提取多个用户标签,作为用户信息。
可选地,该注册信息包括多个字段,不同的字段用于存储不同类型的信息,多个字段中的目标字段用于存储用户的用户标签,该用户标签用于指示用户的喜好,则从注册信息中提取目标字段中的信息,作为用户信息。
在一种可能实现方式中,该步骤301包括:响应于未查询到用户标识的历史操作记录,根据用户标识查询用户信息数据库,得到该用户标识对应的用户信息。
其中,用户信息数据库中包括用户标识与用户信息之间的对应关系。可选地,用户信息数据库以列表的形式存储多个用户标识及对应的用户信息。如表1所示,在用户信息数据库中,用户标识1与用户信息A对应存储,用户标识2与用户信息B对应存储,用户标识3与用户信息C对应存储,用户标识4与用户信息D对应存储。
表1
用户标识 用户信息
用户标识1 用户信息A
用户标识2 用户信息B
用户标识3 用户信息C
在一种可能实现方式中,该计算机设备为服务器,服务器设置有数据库,则该步骤301包括:接收终端发送的登录请求,该登录请求中携带用户标识,根据该用户标识,查询该数据库,响应于未查询到该用户标识的历史操作记录,获取该用户标识的用户信息。
302、计算机设备分别对用户信息及多个物品标识的物品信息进行语义分词处理,得到用户信息对应的词语集合及每个物品信息对应的词语集合。
在本申请实施例中,每个用户标识具有用户信息,每个物品标识具有物品信息,用户信息和物品信息均以文本形式存在,则通过对用户信息和物品信息进行语义分析,能够从用户信息中得到表示用户特征的特征向量,从物品信息中得到表示物品特征的特征向量。
在获取用户标识的特征向量及物品标识的特征向量时,先分别获取用户信息对应的词语集合及多个物品信息对应的词语集合,后续再对多个词语集合进行处理,从而得到用户标识及物品标识的特征向量。
其中,词语集合中包括多个词语,不同的物品信息对应的词语集合可能包括相同的词语,也可能包括不同的词语。且用户信息对应的词语集合与物品信息对应的词语集合中可能包括相同的词语,也可能包括不同的词语。用户信息对应的词语集合中的多个词语能够构成该用户信息,物品信息对应的词语集合中的多个词语能够构成该物品信息。例如,用户信息为“美容美妆者”,则该用户信息对应的词语集合包括“美容”、“美妆者”;用户信息为“娱乐影音者”,则该用户信息对应的词语集合包括“娱乐”、“影音者”。
由于用户信息和物品信息均是以文本形式存在,通过分别对用户信息及多个物品信息进行语义分词处理,得到用户信息对应的多个词语,及每个物品信息对应的多个词语,用户信息对应的多个词语构成用户信息对应的词语集合,每个物品信息对应的多个词语分别构成每个物品信息对应的词语集合,在多个词语集合中,通过采用语义分词的方式,避免了得到语义不清楚的词语,以保证得到的词语的准确性,从而保证了得到的词语集合的准确性。
在一种可能实现方式中,该步骤302包括:调用分词模型,分别对用户信息及多个物品信息进行语义分词处理,得到用户信息对应的词语集合及每个物品信息对应的词语集合。
其中,分词模型用于对物品信息进行分词处理。例如,该分词模型为结巴分词模型,或者其他分词模型。
在获取词语集合时,将用户信息输入至分词模型中,该分词模型对用户信息分词处理,输出该用户信息的词语集合,分别将每个物品信息输入至分词模型中,该分词模型对物品信息分词处理,分别输出每个物品信息的词语集合。通过该分词模型,按照用户信息及物品信息所表示的语义,分别对用户信息及多个物品信息进行分词处理,提高了得到的词语的准确性,从而提高了词语集合的准确性。
303、计算机设备对于每个词语集合,对词语集合中的多个词语进行特征提取,得到词语集合对应的词向量集合。
在本申请实施例中,词向量集合包括多个词语的词向量,一个词向量用于表示一个词语,不同词语的词向量不同。每个词向量包括多个维度的特征值,以该多个维度的特征值来表示对应的词语。通过对每个词语进行特征提取,得到每个词语的词向量,从而得到每个词语集合对应的词向量集合,以便后续能够根据多个词向量集合,获取用户标识的特征向量及物品标识的特征向量。
对于每个词语,通过Word Embedding(词嵌入),将每个词语映射到一个多维向量空间中,得到每个词语在该多维向量控件中的词向量,每个单词的词向量为实数域上的向量。并且,在该多维向量空间中,具有相似含义的多个词语对应的词向量距离近,具有相反含义的多个词语对应的词向量距离远。
在一种可能实现方式中,该步骤303包括:对于每个词语集合,调用词向量提取模型,对词语集合中的多个词语进行特征提取,得到词语集合对应的词向量集合。
其中,词向量提取模型用提取词语的向量。可选地,该词向量提取模型为Word2vec(word to vector,一种词向量提取模型),或者,其他模型。
在通过词向量提取模型提取词语的词向量时,将词语输入至词向量提取模型,由该词向量提取模型对该词语进行特征提取,并输出得到词向量,重复上述步骤,获取多个词语的词向量,将属于同一个词语集合的多个词语的词向量,构成一个词向量集合。通过词向量提取模型,提取词语的词向量,提高了词向量的准确性,从而提高了后续物品推荐的准确性。
304、计算机设备对词向量集合中的多个词向量进行融合处理,得到词语集合对应的特征向量。
在本申请实施例中,一个词向量集合对应一个词语集合,对词向量集合中的多个词向量进行融合处理,得到该词向量集合对应的特征向量,也即是得到该词语集合的特征向量。并且,用户标识的用户信息对应一个词语集合,每个物品标识的物品信息对应一个词语集合,在得到每个词语集合对应的特征向量后,也即是得到用户标识的特征向量,及每个物品标识的特征向量。
其中,用户标识的特征向量包括多个维度的特征值,物品标识的特征向量包括多个维度的特征值,且物品标识的特征向量中的维度数量与用户标识的特征向量中的维度数量相等。例如,用户标识的特征向量为[0.11,0.12,0.455,-0.23],物品标识的特征向量为[0.21,0.42,0.512,-0.45],即用户标识的特征向量和物品标识的特征向量均包括4个维度的特征值。
将同一个词向量集合中的多个词向量进行融合,得到个特征向量,以特征向量来表示对应的用户或者物品,以便后续能够根据用户标识的特征向量及物品标识的特征向量,获取用户标识与物品标识对应的关联度。
在一种可能实现方式中,该步骤304包括:对于任一词向量集合中的多个词向量,按照多个维度,分别获取多个词向量在每个维度上多个特征值的平均值,得到的多个维度的平均值,由多个维度平均值构成该词语集合对应的特征向量。
例如,词语集合中包括“电影票”和“优惠券”,在该词语集合对应的词向量集合中,“电影票”的词向量为[-0.88,1.13,0.29,0.98,0.48],“优惠券”的词向量为[1.83,1.13,0.39,0.68,0.40],获取两个词向量在每个维度上多个特征值的平均值,即第一个维度的平均值为0.475,第二个维度的平均值为1.13,第三个维度的平均值为0.83,第四个维度的平均值为0.44,由这四个维度的平均值构成该词语集合对应的特征向量为[0.475,1.13,0.34,0.83,0.44]。
在一种可能实现方式中,该步骤304包括:按照词语集合中多个词语的权重,对词向量集合中多个词向量进行加权处理,得到词语集合对应的特征向量。
其中,词语的权重用于表示词语的重要程度,词语的权重越大,则表示该词语的重要程度越高,词语的权重越小,则该词语的重要程度越低。按照多个词语的权重,将多个词语的词向量进行融合,以减小重要程度低的词向量对特征向量的影响,增强重要程度高的词向量对特征向量的影响,提高了特征向量的准确性,从而提高了物品推荐的准确性。
在一种可能实现方式中,获取每个词语的权重的过程,包括:分别确定词语集合中每个词语对应的出现数目,根据每个词语的出现数目及多个物品信息的总数目,确定每个词语的权重。
其中,任一词语对应的出现数目为多个物品信息中包括词语的物品信息的数目。例如,对于任一词语,有5个物品信息包括该词语,则该词语对应的出现数目为5。
对于任一词语,如果该词语对应的出现数目越大,表示包括该词语的物品信息的数目越大,通过该词语将多个物品信息区分开的可能性小,则该词语的权重小;如果该词语对应的出现数目越小,表示包括该词语的物品信息的数目越小,通过该词语将多个物品信息区分开的可能性大,则该词语的权重大。即每个词语的权重与对应的出现数目呈负相关关系。
在一种可能实现方式中,对于任一词语,该词语的权重D满足以下关系:
D=log[(1+M)/1+Mword]
其中,M表示多个物品信息的总数目,Mword表示该词语对应的出现数目。
相应地,对于任一词语集合,根据上述得到的词语的权重D,该词语集合对应的特征向量K满足以下关系:
K=∑D·wordvector
其中,wordvector表示任一词语的词向量。
在一种可能实现方式中,在确定词语集合中词语对应的出现数目后,将每个词语的的出现数目与多个物品信息的总数目之间的比值,分别作为每个词语的出现概率,根据每个词语的出现概率,分别获取每个词语的权重。
在一种可能实现方式中,对于任一词语,该词语的权重D满足以下关系:
其中,α为任意常数,例如α为0.001;p(word)表示词语的出现概率。
相应地,对于任一词语集合,根据上述得到的词语的权重D,该词语集合对应的特征向量K满足以下关系:
其中,α为任意常数,例如α为0.001;p(word)表示任一词语的出现概率,wordvector表示任一词语的词向量。
需要说明的是,本申请实施例是以通过词语组合和词向量组合,来获取用户标识的特征向量和物品标识的特征向量进行说明的,而在另一实施例中,能够采取其他方式,分别对用户信息及多个物品标识的物品信息进行语义识别处理,得到用户标识的特征向量及多个物品标识的特征向量。
305、计算机设备对于每个物品标识,分别确定用户标识的特征向量与物品标识的特征向量中相互对应的特征值的统计值,根据确定的多个统计数值确定用户标识与物品标识之间的关联度。
在本申请实施例中,由于用户标识的特征向量包括多个维度的特征值,物品标识的特征向量包括多个维度的特征值,且用户标识的特征向量中的维度数量与用户标识的特征向量中的维度数量相等,则在获取用户标识与任一物品标识之间的关联度时,将相同维度上的特征值进行统计,得到每个维度上的统计值,再对多个维度的统计值进行处理,从而得到用户标识与该物品标识之间的关联度。
在一种可能实现方式中,在获取用户标识与任一物品标识之间的关联度时,将相同维度上的特征值相乘,得到多个维度的乘积,将多个维度的乘积之和,作为用户标识与该物品标识之间的关联度。
在一种可能实现方式中,对于任一物品标识,用户标识的特征向量为[u1,u2,u3,...,un],物品标识的特征向量为[i1,i2,i3,...,in],用户标识与该物品标识之间的关联度Q满足以下关系:
其中,n表示用户标识的特征向量和物品标识的特征向量中的维度数量;j表示n个维度中的维度序号,j为大于0小于等于n的正整数;uj表示用户标识的特征向量中第j个维度上的特征值;u1表示用户标识的特征向量中第1个维度上的特征值;u2表示用户标识的特征向量中第2个维度上的特征值;u3表示用户标识的特征向量中第3个维度上的特征值;un表示用户标识的特征向量中第n个维度上的特征值;ij表示物品标识的特征向量中第j个维度上的特征值;i1表示物品标识的特征向量中第1个维度上的特征值;i2表示物品标识的特征向量中第2个维度上的特征值;i3表示物品标识的特征向量中第3个维度上的特征值;i4表示物品标识的特征向量中第4个维度上的特征值。
306、计算机设备根据用户标识与多个物品标识之间的关联度,为用户标识推荐物品。
在一种可能实现方式中,该步骤306包括:根据用户标识与多个物品标识之间的关联度,确定参考数目个目标物品标识,将参考数目个目标物品标识指示的物品推荐给用户。
其中,参考数目个目标物品标识对应的关联度,大于多个物品标识中除目标物品标识外的其他物品标识对应的关联度。参考数目为任意数目,如,参考数目为1、2或5等。
可选地,按照用户标识与多个物品标识之间的关联度由大到小的顺序,对多个物品标识进行排列,将参考数目个最大关联度对应的物品标识指示的物品,推荐给用户。
推荐系统是将用户感兴趣的信息、物品推荐给用户的个性化信息推荐系统。由于用户和待推荐的物品都是不断的增加的,所以会存在新用户和新物品,在推荐系统向新用户推荐物品时,或者,将新物品推荐给用户时,无法实现精准推荐。当没有新用户的历史操作记录时,则无法基于历史操作记录进行个性化推荐,导致用户冷启动问题;在没有获取到用户对新物品的历史操作记录,导致无法获取将新物品推荐给哪些用户,导致物品冷启动文件;对于一个新发布的应用,该应用上没有用户的行为数据,只有部分物品信息,这样就会导致新发布的应用无法在发布初期让用户体验到个性化推荐,从而导致冷启动问题。通过本申请实施例提供的方法,能够实现向新用户推荐物品,或者,将新物品推荐给用户,或者在新发布的应用中,实现对用户的个性化推荐,从而解决上述冷启动问题。
本申请实施例提供的方法,在无法根据用户标识的历史操作记录进行物品推荐的情况下,采用语义识别的方式,对用户信息及物品信息进行处理,并根据处理结果获取用户与每个物品的关联度,以使根据关联度为用户推荐物品,通过采用语义识别的方式来获取特征向量,避免了人工标注的成本,以保证特征向量的准确性,从而提高了关联度的准确性,并根据用户与不同物品之间的关联度,为用户准确地推荐物品,从而提高了物品推荐的效果。
并且,通过分词模型按照语义分别提取用户信息及物品信息对应的词语集合,避免了得到的词语集合中包括语义不清楚的词语,提高了词语的准确性,从而提高了物品推荐的准确性。
基于上述实施例,提供了一种物品推荐的流程,如图4所示,该流程包括以下步骤:
1、获取用户信息及每个物品标识的物品信息。
2、分别获取用户信息的词向量集合,及每个物品信息的词向量集合。
3、对每个词向量集合中的多个词向量进行加权处理,得到用户的特征向量及每个物品的特征向量。
如图5所示,在对多个词向量进行加权处理时,能够采用多种加权方法,如平均加权法、统计加权法(Term Frequency Inverse Document Frequency,TF&IDF)及平滑反频率加权法(Smooth Inverse Frequency weighting,SIF)。
4、分别确定用户的特征向量与每个物品的特征向量的内积,得到用户与每个物品之间的关联度。
5、根据用户与多个物品之间的关联度,将关联度最大的物品推荐给用户。
基于上述实施例,提供了一种获取词向量集合的流程,以用户信息为例,如图6所示,该流程包括以下步骤:
1、对用户信息进行分词处理,得到用户信息对应的词语集合。
2、分别对词语集合中多个词语进行特征提取,得到多个词向量,该多个词向量构成词向量集合。
基于上述实施例,提供了一种物品推荐的操作流程,该操作流程包括以下步骤:
1、终端启动目标应用,向服务器发送登录请求,该登录请求携带用户标识。
2、服务器接收该登录请求,根据该用户标识,确定该用户标识为目标应用的注册用户,生成授权登录通知。
3、服务器根据用户标识,查询该用户标识的历史操作信息,在未查询到该用户标识的历史操作信息的情况下,基于上述实施例所提供的方案,为该用户标识确定待推荐的目标物品的详情信息。
4、服务器向终端发送授权登录通知,该授权登录通知携带目标物品详情信息。
5、终端接收到授权通知,显示登录后的应用界面,并在该应用界面中显示目标物品的详情信息,供用户查看。
如图7所示,该目标应用电子锁管理应用,在应用启动后,在该电子锁管理应用的应用界面中,显示推荐的广告。
图8是本申请实施例提供的一种基于语义识别的物品推荐装置的结构示意图,如图8所示,该装置包括:
信息获取模块801,用于响应于未查询到用户标识的历史操作记录,获取用户标识的用户信息;
识别处理模块802,用于分别对用户信息及多个物品标识的物品信息进行语义识别处理,得到用户标识的特征向量及多个物品标识的特征向量,用户标识的特征向量包括多个维度的特征值,物品标识的特征向量包括多个维度的特征值,且物品标识的特征向量中的维度数量与用户标识的特征向量中的维度数量相等;
关联度确定模块803,用于对于每个物品标识,分别确定用户标识的特征向量与物品标识的特征向量中相互对应的特征值的统计值,根据确定的多个统计数值确定用户标识与物品标识之间的关联度;
物品推荐模块804,用于根据用户标识与多个物品标识之间的关联度,为用户标识推荐物品。
在一种可能实现方式中,如图9所示,信息获取模块801,包括:
信息提取单元8011,用于响应于未查询到用户标识的历史操作记录,从用户标识的注册信息中提取用户信息。
在另一种可能实现方式中,信息获取模块801,包括:
信息查询单元8012,用于响应于未查询到用户标识的历史操作记录,根据用户标识查询用户信息数据库,得到用户标识对应的用户信息,用户信息数据库中包括用户标识与用户信息之间的对应关系。
在另一种可能实现方式中,如图9所示,识别处理模块802,包括:
分词处理单元8021,用于分别对用户信息及多个物品信息进行语义分词处理,得到用户信息对应的词语集合及每个物品信息对应的词语集合,词语集合中包括多个词语;
特征提取单元8022,用于对于每个词语集合,对词语集合中的多个词语进行特征提取,得到词语集合对应的词向量集合,词向量集合包括多个词语的词向量;
融合处理单元8023,用于对词向量集合中的多个词向量进行融合处理,得到词语集合对应的特征向量。
在另一种可能实现方式中,分词处理单元8021,用于调用分词模型,分别对用户信息及多个物品信息进行语义分词处理,得到用户信息对应的词语集合及每个物品信息对应的词语集合。
在另一种可能实现方式中,特征提取单元8022,用于对于每个词语集合,调用词向量提取模型,对词语集合中的多个词语进行特征提取,得到词语集合对应的词向量集合。
在另一种可能实现方式中,融合处理单元8023,用于按照词语集合中多个词语的权重,对词向量集合中多个词向量进行加权处理,得到词语集合对应的特征向量。
在另一种可能实现方式中,如图9所示,装置还包括:
数目确定模块805,用于分别确定词语集合中每个词语对应的出现数目,任一词语对应的出现数目为多个物品信息中包括词语的物品信息的数目;
权重确定模块806,用于根据每个词语的出现数目及多个物品信息的总数目,确定每个词语的权重,每个词语的权重与对应的出现数目呈负相关关系。
图10示出了本申请一个示例性实施例提供的电子设备1000的结构框图。该电子设备1000可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。电子设备1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
电子设备1000包括有:处理器1001和存储器1002。
处理器1001可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1001可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1001可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1001还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1002可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1002中的非暂态的计算机可读存储介质用于存储至少一个程序代码,该至少一个程序代码用于被处理器1001所执行以实现本申请中方法实施例提供的基于语义识别的物品推荐方法。
在一些实施例中,电子设备1000还可选包括有:外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地,外围设备包括:射频电路1004、显示屏1005、摄像头组件1006、音频电路1007、定位组件1008和电源1009中的至少一种。
外围设备接口1003可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中,处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上;在一些其他实施例中,处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1004用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1004包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1004还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1005用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意集合。当显示屏1005是触摸显示屏时,显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时,显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1005可以为一个,设置在电子设备1000的前面板;在另一些实施例中,显示屏1005可以为至少两个,分别设置在电子设备1000的不同表面或呈折叠设计;在另一些实施例中,显示屏1005可以是柔性显示屏,设置在电子设备1000的弯曲表面上或折叠面上。甚至,显示屏1005还可以设置成非矩形的不规则图形,也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1006用于采集图像或视频。可选地,摄像头组件1006包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的集合,可以用于不同色温下的光线补偿。
音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1001进行处理,或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1007还可以包括耳机插孔。
定位组件1008用于定位电子设备1000的当前地理位置,以实现导航或LBS(Location Based Service,基于位置的服务)。定位组件1008可以是基于美国的GPS(Global Positioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源1009用于为电子设备1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,电子设备1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于:加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。
加速度传感器1011可以检测以电子设备1000建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号,控制显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1012可以检测电子设备1000的机体方向及转动角度,陀螺仪传感器1012可以与加速度传感器1011协同采集用户对电子设备1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1013可以设置在电子设备1000的侧边框和/或显示屏1005的下层。当压力传感器1013设置在电子设备1000的侧边框时,可以检测用户对电子设备1000的握持信号,由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在显示屏1005的下层时,由处理器1001根据用户对显示屏1005的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器1014用于采集用户的指纹,由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份,或者,由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1001授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置在电子设备1000的正面、背面或侧面。当电子设备1000上设置有物理按键或厂商Logo时,指纹传感器1014可以与物理按键或厂商Logo集成在一起。
光学传感器1015用于采集环境光强度。在一个实施例中,处理器1001可以根据光学传感器1015采集的环境光强度,控制显示屏1005的显示亮度。具体地,当环境光强度较高时,调高显示屏1005的显示亮度;当环境光强度较低时,调低显示屏1005的显示亮度。在另一个实施例中,处理器1001还可以根据光学传感器1015采集的环境光强度,动态调整摄像头组件1006的拍摄参数。
接近传感器1016,也称距离传感器,设置在电子设备1000的前面板。接近传感器1016用于采集用户与电子设备1000的正面之间的距离。在一个实施例中,当接近传感器1016检测到用户与电子设备1000的正面之间的距离逐渐变小时,由处理器1001控制显示屏1005从亮屏状态切换为息屏状态;当接近传感器1016检测到用户与电子设备1000的正面之间的距离逐渐变大时,由处理器1001控制显示屏1005从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图10中示出的结构并不构成对电子设备1000的限定,可以包括比图示更多或更少的组件,或者集合某些组件,或者采用不同的组件布置。
图11是本申请实施例提供的一种服务器的结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central ProcessingUnits,CPU)1101和一个或一个以上的存储器1102,其中,存储器1102中存储有至少一条程序代码,至少一条程序代码由处理器1101加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
服务器1100可以用于执行上述基于语义识别的物品推荐方法中服务器所执行的步骤。
本申请实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行以实现上述实施例的基于语义识别的物品推荐方法中所执行的操作。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行以实现上述实施例的基于语义识别的物品推荐方法中所执行的操作。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备实现如上述实施例的基于语义识别的物品推荐方法中所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请实施例的可选实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.一种基于语义识别的物品推荐方法,其特征在于,所述方法包括:
响应于未查询到用户标识的历史操作记录,获取所述用户标识的用户信息;
分别对所述用户信息及多个物品标识的物品信息进行语义分词处理,得到所述用户信息对应的词语集合和每个物品信息对应的词语集合,每个词语集合包括多个词语;
对于任一词语集合,对所述任一词语集合中的多个词语进行特征提取,得到所述任一词语集合对应的词向量集合,所述任一词语集合对应的词向量集合包括所述任一词语集合包括的多个词语的词向量;
按照所述任一词语集合中的多个词语的权重,对所述任一词语集合包括的多个词向量进行加权处理,得到所述任一词语集合对应的特征向量,所述用户信息对应的词语集合对应的特征向量为所述用户标识的特征向量,任一物品标识的物品信息对应的词语集合的对应的特征向量为所述任一物品标识的特征向量,所述用户标识的特征向量包括多个维度的特征值,所述物品标识的特征向量包括多个维度的特征值,且所述物品标识的特征向量中的维度数量与所述用户标识的特征向量中的维度数量相等;
对于每个物品标识,分别确定所述用户标识的特征向量与所述物品标识的特征向量中相互对应的特征值的统计值,根据确定的多个统计数值确定所述用户标识与所述物品标识之间的关联度;
根据所述用户标识与所述多个物品标识之间的关联度,为所述用户标识推荐物品;
其中,获取任一词语的权重的方式包括:
确定所述任一词语的出现数目,将所述任一词语的出现数目及多个物品信息的总数目之间的比值作为所述任一词语的出现概率,根据所述任一词语的出现概率,确定所述任一词语的权重;
所述任一词语的出现数目为所述多个物品信息中包括所述任一词语的物品信息的数目,所述任一词语的权重与所述任一词语的出现数目呈负相关关系。
2.根据权利要求1所述的方法,其特征在于,所述响应于未查询到用户标识的历史操作记录,获取所述用户标识的用户信息,包括:
响应于未查询到所述用户标识的历史操作记录,从所述用户标识的注册信息中提取所述用户信息。
3.根据权利要求1所述的方法,其特征在于,所述响应于未查询到用户标识的历史操作记录,获取所述用户标识的用户信息,包括:
响应于未查询到所述用户标识的历史操作记录,根据所述用户标识查询用户信息数据库,得到所述用户标识对应的用户信息,所述用户信息数据库中包括用户标识与用户信息之间的对应关系。
4.根据权利要求1所述的方法,其特征在于,所述分别对所述用户信息及多个物品信息进行语义分词处理,得到所述用户信息对应的词语集合及每个物品信息对应的词语集合,包括:
调用分词模型,分别对所述用户信息及所述多个物品信息进行语义分词处理,得到所述用户信息对应的词语集合及每个物品信息对应的词语集合。
5.根据权利要求1所述的方法,其特征在于,所述对于每个词语集合,对所述词语集合中的多个词语进行特征提取,得到所述词语集合对应的词向量集合,包括:
对于所述每个词语集合,调用词向量提取模型,对所述词语集合中的多个词语进行特征提取,得到所述词语集合对应的词向量集合。
6.一种基于语义识别的物品推荐装置,其特征在于,所述装置包括:
信息获取模块,用于响应于未查询到用户标识的历史操作记录,获取所述用户标识的用户信息;
识别处理模块包括分词处理单元、特征提取单元和融合处理单元,
所述分词处理单元,用于分别对所述用户信息及多个物品标识的物品信息进行语义分词处理,得到所述用户信息对应的词语集合和每个物品信息对应的词语集合,每个词语集合包括多个词语;
所述特征提取单元,用于对于任一词语集合,对所述任一词语集合中的多个词语进行特征提取,得到所述任一词语集合对应的词向量集合,所述任一词语集合对应的词向量集合包括所述任一词语集合包括的多个词语的词向量;
所述融合处理单元,用于按照所述任一词语集合中的多个词语的权重,对所述任一词语集合包括的多个词向量进行加权处理,得到所述任一词语集合对应的特征向量,所述用户信息对应的词语集合对应的特征向量为所述用户标识的特征向量,任一物品标识的物品信息对应的词语集合的对应的特征向量为所述任一物品标识的特征向量,所述用户标识的特征向量包括多个维度的特征值,所述物品标识的特征向量包括多个维度的特征值,且所述物品标识的特征向量中的维度数量与所述用户标识的特征向量中的维度数量相等;
关联度确定模块,用于对于每个物品标识,分别确定所述用户标识的特征向量与所述物品标识的特征向量中相互对应的特征值的统计值,根据确定的多个统计数值确定所述用户标识与所述物品标识之间的关联度;
物品推荐模块,用于根据所述用户标识与所述多个物品标识之间的关联度,为所述用户标识推荐物品;
其中,获取任一词语的权重的方式包括:
确定所述任一词语的出现数目,将所述任一词语的出现数目及多个物品信息的总数目之间的比值作为所述任一词语的出现概率,根据所述任一词语的出现概率,确定所述任一词语的权重;
所述任一词语的出现数目为所述多个物品信息中包括所述任一词语的物品信息的数目,所述任一词语的权重与所述任一词语的出现数目呈负相关关系。
7.根据权利要求6所述的装置,其特征在于,所述信息获取模块,包括:
信息提取单元,用于响应于未查询到所述用户标识的历史操作记录,从所述用户标识的注册信息中提取所述用户信息。
8.根据权利要求6所述的装置,其特征在于,所述信息获取模块,包括:
信息查询单元,用于响应于未查询到所述用户标识的历史操作记录,根据所述用户标识查询用户信息数据库,得到所述用户标识对应的用户信息,所述用户信息数据库中包括用户标识与用户信息之间的对应关系。
9.根据权利要求6所述的装置,其特征在于,所述分词处理单元,用于调用分词模型,分别对所述用户信息及所述多个物品信息进行语义分词处理,得到所述用户信息对应的词语集合及每个物品信息对应的词语集合。
10.根据权利要求6所述的装置,其特征在于,所述特征提取单元,用于对于所述每个词语集合,调用词向量提取模型,对所述词语集合中的多个词语进行特征提取,得到所述词语集合对应的词向量集合。
11.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条程序代码,所述至少一条程序代码由所述处理器加载并执行以实现如权利要求1至5任一权利要求所述的基于语义识别的物品推荐方法中所执行的操作。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如权利要求1至5任一权利要求所述的基于语义识别的物品推荐方法中所执行的操作。
CN202010942681.9A 2020-09-09 2020-09-09 基于语义识别的物品推荐方法、装置、计算机设备及介质 Active CN112070586B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010942681.9A CN112070586B (zh) 2020-09-09 2020-09-09 基于语义识别的物品推荐方法、装置、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010942681.9A CN112070586B (zh) 2020-09-09 2020-09-09 基于语义识别的物品推荐方法、装置、计算机设备及介质

Publications (2)

Publication Number Publication Date
CN112070586A CN112070586A (zh) 2020-12-11
CN112070586B true CN112070586B (zh) 2023-11-28

Family

ID=73663214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010942681.9A Active CN112070586B (zh) 2020-09-09 2020-09-09 基于语义识别的物品推荐方法、装置、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN112070586B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115115432B (zh) * 2022-07-19 2024-02-02 平安科技(深圳)有限公司 基于人工智能的产品信息推荐方法及装置

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499091A (zh) * 2009-03-17 2009-08-05 辽宁般若网络科技有限公司 网页代表词推荐方法
WO2010056723A1 (en) * 2008-11-12 2010-05-20 Collective Media, Inc. Method and system for semantic distance measurement
CN104965889A (zh) * 2015-06-17 2015-10-07 腾讯科技(深圳)有限公司 内容推荐方法及装置
JP2018116662A (ja) * 2017-01-20 2018-07-26 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理方法、およびプログラム
CN109815402A (zh) * 2019-01-23 2019-05-28 北京工业大学 基于用户特征的协同过滤推荐算法
CN110020303A (zh) * 2017-11-24 2019-07-16 腾讯科技(深圳)有限公司 确定备选展示内容的方法、装置及存储介质
CN110135463A (zh) * 2019-04-18 2019-08-16 微梦创科网络科技(中国)有限公司 一种商品推送方法及装置
CN110162700A (zh) * 2019-04-23 2019-08-23 腾讯科技(深圳)有限公司 信息推荐及模型的训练方法、装置、设备以及存储介质
CN110232152A (zh) * 2019-05-27 2019-09-13 腾讯科技(深圳)有限公司 内容推荐方法、装置、服务器以及存储介质
CN110427563A (zh) * 2019-08-30 2019-11-08 杭州智策略科技有限公司 一种基于知识图谱的专业领域系统冷启动推荐方法
KR20190135584A (ko) * 2018-05-28 2019-12-09 동국대학교 산학협력단 감성어 사전 구축 장치 및 이의 동작 방법
CN110633408A (zh) * 2018-06-20 2019-12-31 北京正和岛信息科技有限公司 智能商业资讯的推荐方法和系统
CN110851731A (zh) * 2019-09-25 2020-02-28 浙江工业大学 一种用户属性耦合相似和兴趣语义相似的协同过滤推荐方法
CN111582975A (zh) * 2020-04-23 2020-08-25 许立达 基于用户、产品和广告相结合的人工智能推荐方法及系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010056723A1 (en) * 2008-11-12 2010-05-20 Collective Media, Inc. Method and system for semantic distance measurement
CN101499091A (zh) * 2009-03-17 2009-08-05 辽宁般若网络科技有限公司 网页代表词推荐方法
CN104965889A (zh) * 2015-06-17 2015-10-07 腾讯科技(深圳)有限公司 内容推荐方法及装置
JP2018116662A (ja) * 2017-01-20 2018-07-26 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理方法、およびプログラム
CN110020303A (zh) * 2017-11-24 2019-07-16 腾讯科技(深圳)有限公司 确定备选展示内容的方法、装置及存储介质
KR20190135584A (ko) * 2018-05-28 2019-12-09 동국대학교 산학협력단 감성어 사전 구축 장치 및 이의 동작 방법
CN110633408A (zh) * 2018-06-20 2019-12-31 北京正和岛信息科技有限公司 智能商业资讯的推荐方法和系统
CN109815402A (zh) * 2019-01-23 2019-05-28 北京工业大学 基于用户特征的协同过滤推荐算法
CN110135463A (zh) * 2019-04-18 2019-08-16 微梦创科网络科技(中国)有限公司 一种商品推送方法及装置
CN110162700A (zh) * 2019-04-23 2019-08-23 腾讯科技(深圳)有限公司 信息推荐及模型的训练方法、装置、设备以及存储介质
CN110232152A (zh) * 2019-05-27 2019-09-13 腾讯科技(深圳)有限公司 内容推荐方法、装置、服务器以及存储介质
CN110427563A (zh) * 2019-08-30 2019-11-08 杭州智策略科技有限公司 一种基于知识图谱的专业领域系统冷启动推荐方法
CN110851731A (zh) * 2019-09-25 2020-02-28 浙江工业大学 一种用户属性耦合相似和兴趣语义相似的协同过滤推荐方法
CN111582975A (zh) * 2020-04-23 2020-08-25 许立达 基于用户、产品和广告相结合的人工智能推荐方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于可信联盟的服务推荐方法;王海艳;《计算机学报 》;第37卷(第2期);301-311 *
基于隐语义模型的个性化推荐;范慧婷;《计算机应用与软件》;第34卷(第12期);206-210 *

Also Published As

Publication number Publication date
CN112070586A (zh) 2020-12-11

Similar Documents

Publication Publication Date Title
CN111652678B (zh) 物品信息显示方法、装置、终端、服务器及可读存储介质
CN109918669B (zh) 实体确定方法、装置及存储介质
CN111897996B (zh) 话题标签推荐方法、装置、设备及存储介质
CN110852100A (zh) 关键词提取方法、装置、电子设备及介质
CN111506758B (zh) 物品名称确定方法、装置、计算机设备及存储介质
CN111737573A (zh) 资源推荐方法、装置、设备及存储介质
CN110020880B (zh) 广告投放方法、装置及设备
CN112749728A (zh) 学生模型训练方法、装置、计算机设备及存储介质
CN113205183B (zh) 物品推荐网络训练方法、装置、电子设备及存储介质
CN111581958A (zh) 对话状态确定方法、装置、计算机设备及存储介质
CN113269612A (zh) 物品推荐方法、装置、电子设备及存储介质
CN113987326B (zh) 资源推荐方法、装置、计算机设备及介质
CN113569042A (zh) 文本信息分类方法、装置、计算机设备及存储介质
CN114281936A (zh) 分类方法、装置、计算机设备及存储介质
CN112131473B (zh) 信息推荐方法、装置、设备及存储介质
CN111931075B (zh) 一种内容推荐方法、装置、计算机设备及存储介质
CN112070586B (zh) 基于语义识别的物品推荐方法、装置、计算机设备及介质
CN112287070A (zh) 词语的上下位关系确定方法、装置、计算机设备及介质
CN113569822B (zh) 图像分割方法、装置、计算机设备及存储介质
CN111597823B (zh) 中心词提取方法、装置、设备及存储介质
CN112560472B (zh) 一种识别敏感信息的方法及装置
CN111638819B (zh) 评论显示方法、装置、可读存储介质及系统
CN114764480A (zh) 群组类型识别方法、装置、计算机设备及介质
CN114328815A (zh) 文本映射模型的处理方法、装置、计算机设备及存储介质
CN114281937A (zh) 嵌套实体识别模型的训练方法、嵌套实体识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40034964

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant