CN112749344A - 信息推荐方法、装置、电子设备、存储介质及程序产品 - Google Patents

信息推荐方法、装置、电子设备、存储介质及程序产品 Download PDF

Info

Publication number
CN112749344A
CN112749344A CN202110156007.2A CN202110156007A CN112749344A CN 112749344 A CN112749344 A CN 112749344A CN 202110156007 A CN202110156007 A CN 202110156007A CN 112749344 A CN112749344 A CN 112749344A
Authority
CN
China
Prior art keywords
text
word
preset
intention
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110156007.2A
Other languages
English (en)
Other versions
CN112749344B (zh
Inventor
郭海文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110156007.2A priority Critical patent/CN112749344B/zh
Publication of CN112749344A publication Critical patent/CN112749344A/zh
Application granted granted Critical
Publication of CN112749344B publication Critical patent/CN112749344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种信息推荐方法、装置、电子设备、存储介质及程序产品,涉及计算机技术,具体涉及大数据和智能搜索技术领域。包括:获取用户搜索意图,确定用户搜索意图中的意图关键词,根据意图关键词和预设文本库,确定与意图关键词具有关联关系的实体词所对应的待推荐文本,预设文本库中包括至少一个文本,预设文本库中的每一文本被标注有至少一个实体词,将待推荐文本,推送给用户,通过被标注的至少一个实体词与意图关键词对待推荐文本进行确定,可使得待推荐文本与意图关键词之间的高度贴合,提高推荐的准确性和可靠性。

Description

信息推荐方法、装置、电子设备、存储介质及程序产品
技术领域
本申请涉及计算机技术,具体涉及大数据和智能搜索技术领域,尤其涉及一种信息推荐方法、装置、电子设备、存储介质及程序产品。
背景技术
随着互联网的发展和逐渐成熟,互联网上的内容也急速增加,各行业(如医美行业)出现了大量的文本(如帖子),如何提高用户的搜索需求和推荐需求成了亟待解决的问题。
在现有技术中,通常采用信息推荐方法为:根据用户的搜索意图对应的意图关键词,从各文本中选择与意图关键词相似度较高的文本,推送给用户。
然而,即便是两个词的相似度较高,也可能存在不相同的含义,因此,通过相似度比较可能造成为用户推荐时的可靠性偏低的问题。
发明内容
本申请提供了一种用于提高推荐可靠性的信息推荐方法、装置、电子设备、存储介质及程序产品。
根据本申请的第一方面,提供了一种信息推荐方法,包括:
获取用户搜索意图,并确定所述用户搜索意图中的意图关键词;
根据所述意图关键词和预设文本库,确定与所述意图关键词具有关联关系的实体词所对应的待推荐文本;其中,所述预设文本库中包括至少一个文本,所述预设文本库中的每一文本被标注有至少一个实体词;
将所述待推荐文本,推送给用户。
根据本申请的第二方面,提供了一种信息推荐装置,包括:
获取模块,用于获取用户搜索意图;
第一确定模块,用于确定所述用户搜索意图中的意图关键词;
第二确定模块,用于根据所述意图关键词和预设文本库,确定与所述意图关键词具有关联关系的实体词所对应的待推荐文本;其中,所述预设文本库中包括至少一个文本,所述预设文本库中的每一文本被标注有至少一个实体词;
推送模块,用于将所述待推荐文本,推送给用户。
根据本申请的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面所述的方法。
根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如第一方面所述的方法。
根据本申请的第五方面,提供了一种计算机程序产品,所述程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是可以实现本申请实施例的信息推荐方法的场景图;
图2是根据本申请第一实施例的示意图;
图3是根据本申请第二实施例的示意图;
图4是根据本申请第三实施例的示意图;
图5是根据本申请第四实施例的示意图;
图6是根据本申请实施例的标注文本的示意图;
图7是根据本申请第五实施例的示意图;
图8是根据本申请第六实施例的示意图;
图9是根据本申请第七实施例的示意图;
图10是根据本申请第八实施例的示意图;
图11是用来实现本申请实施例的信息推荐方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请实施例的信息推荐方法可以应用于,基于各行业的帖子和资讯等为用户做推荐的场景。例如,基于影视行业的帖子(或者资讯)为用户推荐电影;又如,基于医美行业的帖子(或者资讯)为用户推荐医美文本,等等,此处不再一一列举。
值得说明地是,相对如影视行业等其他行业而言,医美行业具有较强的专业性,相应地,医美行业的两个相似度较高的词之间的差异性相对较大,因此,当申请本实施例的信息推荐方法应用于医美行业时,可以进一步提高推荐推荐的可靠性和准确性。
图1是可以实现本申请实施例的信息推荐方法的场景图,在如图1所示的应用场景中,用户101可以通过用户设备102向服务器103发送搜索请求,搜索请求中可以携带用户搜索意图。
如图1所示,用户设备102可以包括:手机1021、笔记本电脑1022、以及台式电脑1023等,可以与服务器103(可以为云端服务器,也可以为本地服务器)进行交互的设备。
示例性地,若用户设备102为图1中所示的手机1021,则结合图1可知,手机1021可以包括显示屏,且可以在手机1021的显示屏上输出显示输入框,用户101可以基于显示框向服务器103发送搜索请求。
基于上述分析可知,本申请实施例的信息推荐方法可以应用于医美行业中的信息推荐,如医美行业中的医美文本(具体可以为医美帖子和医美资讯等)的推荐。
例如,用户101可以在显示框内输入“玻尿酸隆鼻的帖子”,并点击“搜索”虚拟按钮,相应地,手机1021向服务器103发送携带用户搜索意图为“玻尿酸隆鼻的帖子”的搜索请求。
相应地,服务器103可以接收由手机1021发送的搜索请求,并可以基于搜索请求确定用户搜索意图为“玻尿酸隆鼻的帖子”,则服务器103可以基于用户搜索意图确定与“玻尿酸隆鼻的帖子”相关的帖子,并将与“玻尿酸隆鼻的帖子”相关的帖子发送给手机1021。
相应地,手机1021可以接收由服务器103发送的与“玻尿酸隆鼻的帖子”相关的帖子,并可以通过显示屏对接收到的与“玻尿酸隆鼻的帖子”相关的帖子进行显示。
在相关技术中,通常采用的信息推荐方法为:确定与用户搜索请求对应的关键词,并基于关键词从各文本(如帖子)中选取与关键词对应的文本,并将选取出的文件推荐给用户。
然而,两个词之间的相似度比较高,也可能存在不相同的含义,如结合上述应用场景地描述,在医美行业中,两个相似度较高的词,可能属于完全不同的医美项目(包括皮肤整形项目和鼻部整形项目等),而当采用基于选取与关键词对应的医美文本为用户做推荐时,可能造成推荐的准确性偏低的问题。
本申请实施例的发明人经过创造性地劳动,得到了本申请实施例的发明构思:预先构建包括文本的预设文本库,且对文本进行标注,得到与文本对应的实体词,并基于用户搜索意图和实体词确定为用户推荐的文本。
本申请提供一种信息推荐方法、装置、电子设备、存储介质、以及程序产品,应用于计算机技术,具体涉及大数据和智能搜索技术领域,以达到为用户推荐的准确性和可靠性。
图2是根据本申请第一实施例的示意图,如图2所示,本实施例的信息推荐方法包括:
S201:获取用户搜索意图,并确定用户搜索意图中的意图关键词。
示例性地,本实施例地执行主体为信息推荐装置,信息推荐装置可以为服务器(包括云端服务器和本地服务器),也可以为终端设备,也可以为计算机设备,也可以为处理器,也可以为芯片等,本实施例不做限定。
例如,若本实施例的信息推荐方法应用于如图1所示的应用场景,则信息推荐装置可以为如图1中所示的服务器。
一个示例中,用户搜索意图可以为由信息推荐装置基于用户的搜索请求确定的。
例如,结合如图1所示的应用场景,信息推荐装置(即如图1中所示的服务器)可以接收用户通过用户设备发送的搜索请求(如上述示例中描述的“玻尿酸隆鼻的帖子”),并可以基于搜索请求获取用户搜索意图。
其中,该实施例可以理解为信息推荐装置可以基于用户的搜索请求为用户做推荐,即信息推荐装置可以为被动触发的为用户做推荐的装置。
另一个示例中,用户搜索意图可以为由信息推荐装置基于用户的历史搜索记录和/或历史浏览记录确定的。
例如,信息推荐装置可以定期或不定期地采集用户的历史浏览记录,并存储预设时间段(可以基于需求、历史记录、以及试验等进行设置)内用户的历史搜索请求,并结合历史浏览记录和历史搜索请求确定用户搜索意图。
具体地,信息推荐装置每周对用户在该周内的历史浏览记录进行采集,并存储最近两周内(即以当前时刻往前推两周)用户的历史搜索请求,并根据历史浏览记录和历史搜索记录确定用户搜索意图。
其中,该实施例可以理解为信息推荐装置可以基于用户的历史行为(即历史浏览记录和历史搜索请求)主动触发的为用户做推荐,即信息推荐装置可以为主动触发的为用户做推荐的装置。
示例性地,用户搜索意图可以理解为用户希望达到搜索目的的打算。例如,结合上述示例,若搜索请求为“玻尿酸隆鼻的帖子”,则用户搜索意图可以理解为用户希望达到搜索与玻尿酸隆鼻的帖子的目的的打算,即,用户希望信息推荐装置可以通过用户设备发送与玻尿酸隆鼻的帖子,以便其通过用户设备浏览与玻尿酸隆鼻的帖子。
示例性的,意图关键词可以理解为与用户搜索意图对应的关键词。例如,结合上述示例,若用户搜索意图可以理解为用户希望达到搜索与玻尿酸隆鼻的帖子的目的的打算,则意图关键词为“玻尿酸隆鼻”。
S202:根据意图关键词和预设文本库,确定与意图关键词具有关联关系的实体词所对应的待推荐文本。
其中,预设文本库中包括至少一个文本,预设文本库中的每一文本被标注有至少一个实体词。
示例性地,信息推荐装置可以预先构建预设文本库,预设文本库中可以包括一个或多个文本,针对预设文本库中的每一文本,可以标注有一个或多个实体词。
该步骤可以理解为,在信息推荐装置确定出意图关键词之后,可以将意图关键词与预设文本库进行匹配,且具体可以为将意图关键词与预设文本库中的实体词进行匹配,并从各个实体词中确定与意图关键词相匹配的实体词,即从各个实体词中确定与意图关键词具有关联关系的实体词,并确定与意图关键词具有关联关系的实体词对应待推荐文本,则该待推荐文本可以理解为预设文本库中与意图关键词相匹配的文本。
其中,结合如图1所示的应用场景,若信息推荐方法应用于医美文本的推荐,则待推荐文本为待推荐医美文本,至少一个文本为至少一个医美文本,至少一个实体词为至少一个医美实体词。
示例性地,医美实体词表征医美行业的术语。
值得说明地是,在本实施例中,引入了预设文本库的特征,且预设文本库中的每一文本被标注有至少一个实体词,当信息推荐装置在基于意图关键词和预设文本库确定用于为用户做推荐的文本(即待推荐文本)时,可以使得信息推荐装置确定出的用于为用户做推荐的文本(即待推荐文本)与意图关键词之间的高度贴合和匹配,从而提高确定出的用于为用户做推荐的文本(即待推荐文本)的准确性和可靠性的技术效果。
S203:将待推荐文本,推送给用户。
示例性地,结合如图1所示的应用场景,若信息推荐装置(即如图1中所示的服务器)确定出待推荐文本,则可以将待推荐文本发送给用户设备,相应地,用户设备可以接收由信息推荐装置(即如图1中所示的服务器)发送的待推荐文本,并可以对待推荐文本进行显示。
基于上述分析可知,本申请实施例提供了一种信息推荐方法,该方法包括:获取用户搜索意图,并确定用户搜索意图中的意图关键词,根据意图关键词和预设文本库,确定与意图关键词具有关联关系的实体词所对应的待推荐文本,其中,预设文本库中包括至少一个文本,预设文本库中的每一文本被标注有至少一个实体词,将待推荐文本,推送给用户,在本实施例中,通过结合意图关键词和预设文本库对待推荐文本进行确定,且具体为基于预设文本库中的每一文本被标注的至少一个实体词与意图关键词对待推荐文本进行确定,可以使得待推荐文本与意图关键词之间的高度贴合,提高推荐的准确性和可靠性的技术效果。
图3是根据本申请第二实施例的示意图,如图3所示,本实施例的信息推荐方法包括:
S301:获取用户搜索意图,并确定用户搜索意图中的意图关键词。
示例性地,关于S301地描述可以参见S201,此处不再赘述。
S302:确定意图关键词所属的文本类别。
示例性地,文本类别可以理解为文本的类别,且文本类别可以基于需求、历史记录、以及试验等进行划分。
例如,结合如图1所示的应用场景,类别可以以医美项目为基础,如皮肤整形和鼻部整形等;又如,类别可以以医美项目下的分类为基础,如皮肤整形可以包括:祛斑和美白等。
S303:从预设文本库中,选择标注有与意图关键词所属的文本类别相同的文本类别的文本。
其中,预设文本库中的每一文本被标注有文本类别。
示例性地,信息推荐装置可以对每一文本的文本类别进行标注,例如,结合上述示例,可以对每一文本标注如皮肤整形的文本类别,和/或,鼻部整形等文本类别。
值得说明地是,预设文本库中的任一文本的文本类别基于该文本的内容进行确定。例如,若某文本为针对皮肤整形的文本,则该文本的文本类别可以为皮肤整形文本类别;若某文本为针对鼻部整形的文本,则该文本的文本类别可以为鼻部整形文本类别等,此次不再一一列举。
本步骤可以理解为,信息推荐装置在确定出意图关键词所属的文本类别之后,可以确定预设文本库中的各个文本中,是否有标注了与意图关键词所属的文本类别相同的文本类别的文本。
例如,若意图关键词所属的文本类别为皮肤整形文本类别,则信息推荐装置可以从预设文本库被标注有文本类别的文本中,确定被标注有皮肤整形文本类别的文本。
S304:从相同的文本类别的文本中,确定与意图关键词具有关联关系的实体词。
结合上述示例,若意图关键词所属的文本类别为皮肤整形文本类别,则经S303选择出的医美文本的文本类别为皮肤整形文本类别,则信息推荐装置将意图关键词与皮肤整形文本类别的医美文本的医美实体词进行匹配,可以从中确定与意图关键词具有关联关系的医美实体词,并将与意图关键词具有关联关系的医美实体词对应的待推荐医美文本确定为待推荐医美文本。
S305:将待推荐文本,推送给用户。
示例性地,关于S305地描述可以参见S202,此次不再赘述。
值得说明地是,在本实施例中,预设文本库中的每一文本被标注有文本类别,信息推荐装置可以基于文本类别确定待推荐文本,且具体为从预设文本库的各个文本中选择标注的文本类别为与意图关键词所属的文本类别相同的文本,并基于选择出文本(选择出的文本的文本类别与意图关键词所属的文本类别为相同的文本类别)的实体词与意图关键词进行匹配,可以缩小匹配范围,提高匹配效率,从而可以提高确定待推荐文本的效率,进而可以提高推荐的效率的技术效果。
图4是根据本申请第三实施例的示意图,如图4所示,本实施例的信息推荐方法包括:
S401:获取用户搜索意图,并确定用户搜索意图中的多个意图关键词。
在本实施例中,意图关键词的数量可以为多个,关于S401地原理可以参见S201,此处不再赘述。
S402:针对多个意图关键词中的每一意图关键词,从预设文本库中确定与每一意图关键词具有关联关系的实体词所对应的文本。
示例性地,若意图关键词为n个,预设文本库中的文本的数量为m个,则信息推荐装置可以从m个文本中选择与n个意图关键词中的至少一个意图关键词具有关联关系的实体词所对应的文本。
其中,该步骤确定出的文本中可能包括有一个实体词与一个意图关键词具有关联关系的文本,也可以包括有多个实体词与多个意图关键词具有关联关系的文本。
S403:从与任意意图关键词对应的文本中,确定包括与多个意图关键词具有关联关系的实体词所对应的待推荐文本。
示例性地,若与任意意图关键词对应的文本的数量为k个,则信息推荐装置从该k文本中,选择与n个意图关键词均有关联关系的实体词所对应的待推荐文本。
S404:将待推荐文本,推送给用户。
示例性地,关于S404地描述可以参见S202,此次不再赘述。
应该理解地是,第三实施例的方案可以与第二实施例的方案相结合,也可以独立的方案(即如第三实施例所述的方案),本实施例不做限定。
值得说明地是,在本实施例中,针对多个意图关键词的场景,信息推荐装置确定与任意意图关键词具有关联关系的实体词所对应的文本,并从确定出的文本中筛选得到与所有意图关键词均具有关联关系的实体词多对应的待推荐文本,可以避免推荐时待推荐文本的遗漏,从而可以提高推荐的准确性和可靠性的技术效果。
图5是根据本申请第四实施例的示意图,如图5所示,本实施例的信息推荐方法包括:
S501:对获取到的每一文本进行分词处理,得到分词集合。
示例性地,信息推荐装置可以将获取到的每一文本进行分词处理,得到与获取到的文本对应的多个分词,并将包括多个分词的集合称为分词集合。
其中,获取到的文本的数量可以基于需求和试验等进行设置,本实施例不做限定,例如,获取到的文本的数量为300万个等。
在一些实施例中,S501可以包括:基于预设的词典对获取到的每一文本进行分词处理,得到分词集合。
其中,词典包括多个实体词。
示例性的,词典可以由信息推荐装置或者其他装置,基于获取到的实体词生成。例如,信息推荐装置可以对各个实体词进行获取并存储,并基于存储的各个实体词构建词典。
值得说明地是,在本实施例中,词典包括多个实体词,信息推荐装置根据词典对获取到的文本进行分词处理,可以使得得到的分词集合中的分词与实体词具有高度贴合的特性,从而可以实现分词的准确性和可靠性的技术效果。
例如,结合如图1所示的应用场景,若获取到的医美文本中包括“玻尿酸隆鼻”等内容,“玻尿酸隆鼻”为医美实体词,则当信息推荐装置结合医美词典对该医美文本进行分词时,得到的分词为“玻尿酸隆鼻”,可以避免将该医美文本拆分为“玻尿酸”和“隆鼻”两个分词,或者拆分为“玻尿”、“酸”、以及“隆鼻”三个分词,从而可以实现分词处理的准确性和可靠性的技术效果。
在一些实施例中,可以次用结巴(jieba)分词法对获取到的文本进行分词处理,也可以采用其他分词法对获取到的文本进行分词处理,本实施例不做限定。
值得说明地是,结巴分词法为轻量级的分词方法,若采用结巴分词法对获取到的文本进行分词处理,可以降低分词处理的难度,提高分词效率的技术效果。
在一些实施例中,获取到文本为基于过滤筛选后的文本,可以实现降低分析成本,提高分析效率的技术效果。
其中,过滤筛选的方式可以基于人工的方式实现,也可以由信息推荐装置基于预设过滤词等方式实现。
S502:根据关键词对分词集合中的分词进行聚类处理,得到预设词库。
示例性地,医美关键词可以表征医美行业的项目词,即与医美行业的项目对应的关键词。例如,医美关键词可以包括皮肤整形和鼻部整形等。
值得说明地是,在本实施例中,信息推荐装置通过结合关键词对分词集合中的分词进行聚类处理,得到预设词库,可以使得预设词库中的分词相对具有整齐归一化的特点,且可以得到相对比较完整和完善的包括实体词的预设词库,从而提高后续推荐的效率和可靠性的技术效果。
在一些实施例中,预设词库为知识图谱架构。
在一些实施例中,S502可以包括如下步骤:
步骤1:以关键词为聚类中心词,确定分词集合中的分词与聚类中心词之间的相似度。
示例性地,结合上述示例,分别以关键词皮肤整形和鼻部整形等为聚类中心词,确定分词集合中的分词与聚类中心词之间的相似度。
具体地,可以基于K-Means算法进行聚类,K-Means算法中的K可以理解为将分词集合中的分词被聚为K类或分为K类,Means可以理解为均值点,如K类中的每一类的均值点。K-Means算法可以理解为将分词集合中的各分词聚集为K个簇,每个簇中都有一个中心点称为均值点,簇中所有点到该簇的均值点的距离(可以理解为簇中所有点与该簇的均值点的相似度,即分词与聚类中心词之间的相似度)都较到其他簇的均值点更近。
步骤2:基于相似度对分词集合中的分词进行过滤处理,得到预设词库。
示例性地,可以通过设置相似度阈值,并基于分词集合中的每一分词与聚类中心词之间的相似度与相似度阈值的大小,对分词集合中的各分词进行过滤处理。
例如,若分词集合中的某分词与聚类中心词之间的相似度小于相似度阈值,则可以对该分词进行过滤处理。
值得说明地是,在本实施例中,通过以关键词为聚类中心词,对分词集合中的分词进行过滤处理,得到预设词库,可以使得预设词库具有较高的准确性和可靠性,进而可以实现后续推荐的准确性和可靠性的技术效果。
S503:根据预设词库对获取到的每一文本进行文章核心词提取,并对获取到的每一文本进行句子核心词提取。
值得说明地是,在本实施例中,信息推荐装置提取的核心词包括两个维度,一个维度为文章维度,得到文章核心词,另一个维度为句子维度,得到句子核心词。
在一些实施例中,信息推荐装置可以基于词频-逆文本频率指数(TermFrequency–Inverse Document Frequency,TF-IDF)技术分别提取文章核心词和句子核心词,具体提取方法可以参见相关技术,此次不再赘述。
S504:根据文章核心词和句子核心词,确定获取到的每一文本的实体词。
值得说明地是,在本实施例中,通过从文章维度对获取到的每一文本进行核心词提取,得到文章核心词,并从句子维度对获取到的每一文本进行核心词提取,得到句子核心词,并根据两个维度的核心词(即文章核心词和句子核心词)对获取到的每一文本的实体词进行确定,可以提高确定出的实体词的准确性和可靠性的技术效果。
在一些实施例中,S504可以包括如下步骤:
步骤1:根据预设词库为文章核心词分配第一权重,并根据预设词库为句子核心词分配第二权重。
其中,第一权重表征文章核心词对获取到的每一文本的表现力度。第二权重表征句子核心词对获取到的每一文本的表现力度。
示例性地,信息推荐装置确定文章核心词和句子核心词,并分别为文章核心词和句子核心词分配权重,某核心词的权重的值越大,则说明该核心词表现文本的力度则越大,即越能表现文本所要表述的内容。
在一些实施例中,文章核心词为从文本的整体的维度获取到的核心词,因此,文章核心词的第一权重可以大于句子核心词的第二权重。
步骤2:对第一权重和第二权重进行归一化处理,得到归一化处理结果,并根据归一化处理结果确定获取到的每一文本的实体词。
值得说明地是,在本实施例中,信息推荐装置基于预设词库对第一权重和第二权重进行分配,并根据第一权重和第二权重确定获取到的每一文本的实体词,可以使得确定出的实体词与预设词库高度贴合,从而提高确定出的实体词的准确性和可靠性的技术效果。
S505:获取用户搜索意图,并确定用户搜索意图中的意图关键词。
示例性地,关于S505地描述可以参见S201,此次不再赘述。
S506:根据意图关键词和预设文本库,确定与意图关键词具有关联关系的实体词所对应的待推荐文本。
其中,预设文本库中包括至少一个文本,预设文本库中的每一文本被标注有至少一个实体词。
示例性地,关于S506地描述可以参见S202,或者,可以参见S302至S304,或者,可以参见S402至S403,此次不再赘述。
在一些实施例中,预设文本库中的每一文本被标注的实体词、预设词库之间具有匹配关系。
其中,预设词库中包括至少一个关键词、以及与每一关键词对应的实体词。
示例性地,结合上述示例可知,信息推荐装置可以生成预设词库,且预设词库具体可以为知识图谱,预设文本库中包括至少一个文本,且预设文本库中的每一文本均被标注有一个或多个实体词,相应地,预设文本库中的每一文本被标注的实体词与预设词库之间具有匹配关系,如从预设词库可以确定预设文本库中的每一文本被标注的实体所属的关键词。
在一些实施例中,信息推进装置可以将关键词确定为如上述示例中所示的文本类别,即针对某一文本,可以基于该文本对应的关键词作为该文本的类别。
值得说明地是,在本实施例中,通过预设文本库中的每一文本被标注的实体词与预设词库之间的匹配关系,可以使得预设文本库中的各文本被标注的实体词的准确性和可靠性,进而实现推荐的准确性和可靠性的技术效果。
需要说明地是,预设文本库中的文本可以为至少部分获取到的文本,也即,预设文本库中的文本包括全部获取到的文本,也可以包括部分获取到的文本。
S507:将待推荐文本,推送给用户。
示例性地,关于S507地描述可以参见S202,此次不再赘述。
一个示例中,在S507之前,该方法还可以包括确定预设文本库中的每一文本对应的部位特征词的步骤。例如:信息推荐装置基于预先训练的部位特征词识别模型对预设文本库中的每一文本进行识别处理,得到与预设文本库中每一文本对应的部位特征词。
示例性地,部位特征词可以表征部位,如鼻子、皮肤、以及眼睛等。
其中,部位特征词识别模型可以基于采集样本文本,并基于样本文本对预设的网络模型(如卷积神经网络模型和强化学习模型等)进行训练生成。
相应地,S507可以包括:确定与意图关键词对应的部位特征词,从待推荐文本中确定包括与意图关键词对应的部位特征词的文本,并将与意图关键词对应的部位特征词的文本,推送给用户。
示例性地,结合上述示例,若意图关键词为“玻尿酸隆鼻”,则信息推荐装置确定出的与意图关键词对应的医美部位特征词为“鼻子”,则信息推荐装置从待推荐医美文本中确定包括“鼻子”的医美文本,并将该部分医美文本,推送给用户。
值得说明地是,在本实施例中,通过结合部位特征词为用户做推荐,可以进一步提高推荐的准确性和可靠性的技术效果。
另一个示例中,在S507之前,该方法还可以包括确定预设文本库中的每一文本的图片质量信息的步骤。例如:信息推进装置基于预先训练的图片质量识别模型对预设文本库中的每一文本进行识别处理,得到与预设文本库中每一文本对应的图片质量信息。
其中,图片质量信息包括清晰度和美观度。
同理,图片质量识别模型可以基于采集样本文本,并基于样本文本对预设的网络模型(如卷积神经网络模型和强化学习模型等)进行训练生成。
相应地,S507可以包括:从待推荐文本中,选择清晰度满足预设清晰度需求的文本,推送给用户;和/或,从待推荐文本中,选择美观度满足预设美观度需求的文本,推送给用户
也就是说,一个示例中,信息推荐装置可以将待推荐文本中的清晰度满足预设清晰度需求的文本,推送给用户;另一个示例中,信息推荐装置可以将待推荐文本中的美观度满足预设美观度需求的文本,推送给用户;再一个示例中,信息推荐装置可以将待推荐文本中,清晰度满足预设清晰度需求,且美观度满足预设美观度需求的文本,推送给用户。
示例性地,预设美观度需求可以基于需求、历史记录、以及试验等进行设置,同理,预设清晰度需求也可以基于需求、历史记录、以及试验等进行设置。
值得说明地是,在本实施例中,通过结合美观度和/或清晰度为用户做推荐,可以进一步提高推荐的准确性和可靠性的技术效果。
再一个示例中,信息推荐装置可以结合部位特征词和图片质量信息从待推荐文本中选择推送给用户的文本,其实现原理可以分别参见上述实施例,此次不再赘述。相应地,通过结合部位特征词和图片质量信息两个维度,从待推荐文本中选择推送给用户的文本,可以提高推荐的准确性和可靠性,提高用户的搜索体验的技术效果。
结合上述实施例可知,预设文本库中可以包括一个或多个文本,且预设文本库中的每一文本被标注有相关的信息,如实体词、文本类别、部位特征词、以及图片质量信息,在一些实施例中,可以由信息推荐装置生成上述被标注的信息,可以为其他装置生成上述被标注的信息,本实施例不做限定。且在一些实施例中,针对预设文本库中的每一文本,可以由信息推荐装置或者其他装置生成相应的标注文本,标注文本中可以包括上述被标注的信息,还可以包括其他的信息。
例如,针对预设文本库中的每一文本(也可以为针对获取到的每一文本),信息推荐装置(也可以为其他装置)对任一html格式的文本进行分析,生成包括相应地标注信息(如实体词、文本类别、部位特征词、以及图片质量信息等),的标注文本。
其中,标注文本可以理解为结构化的文本,且在一些实施例中,可以为json格式的结构化的文本。且在一些实施例中,标注文本可以参阅图6。
如图6所示,标注文本可以包括上述示例中所述的医美实体词:玻尿酸隆鼻、埋线隆鼻、以及纠正鼻尖;也可以包括如上述示例中的医美部位特征词:牙齿和鼻子;也可以包括如上述示例中所述的图片质量信息:清晰度(如90)、美观度(如95)、以及图片个数(如2);也可以包括文本内容相关的信息:段落个数(如4)、文本整体通顺度(如0.6)、文本结构美观度(如93)、文本整体得分(如95)、文本字数(如200)、表情符号个数(如8)、口语化词个数(如0);也可以包括图片与文本融合度(如20);也可以包括医美文本对应的权威度(如70);还可以包括泛娱乐信息(如张三、整形手术、以及演唱会)。
其中,图片与文本融合度可以理解为图片医美文本相符合的程度,可以通过构建融合度识别模型确定,构建融合度识别模型的原理可以参见上述构建医美部位特征词识别模型的原理,此处不再赘述。
权威度可以基于医美文本的发布者和发布平台等进行确定。
泛娱乐信息可以理解为与医美文本相关的娱乐信息。
值得说明地是,图6只是用于示范性地说明标注文本可能包括的内容以及输出格式,而不能理解为对标注文本的限定。
需要说明地是,一个方面,若标注文本中已经标注了对应医美文本的相关信息,如上述示例中的体词、文本类别、医美部位特征词、以及图片质量信息等,则在信息装置进行推荐时,可以基于意图关键词与预设文本库中的每一标注文本进行匹配,并确定待推荐医美文本,其实现原理可以参见上述示例,此次不再赘述。
另一方面,若标注文本中已经标注了对应医美文本的相关信息,则信息装置在做推荐,尤其做主动推荐时,可以基于对每一标注文本进行质量评价,如针对不同的标注信息,分配不同的权值,如医美部位特征词的权值高于图片质量信息的权值等,并基于各权值确定每一标注文本的加权平均质量信息,并基于每一加权平均质量信息为主动为用户最推荐,提高推荐的智能化和自动化,且提高推荐在准确性和可靠性的技术效果。
图7是根据本申请第五实施例的示意图,如图7所示,本实施例的信息推荐装置700包括:
获取模块701,用于获取用户搜索意图。
第一确定模块702,用于确定用户搜索意图中的意图关键词。
第二确定模块703,用于根据意图关键词和预设文本库,确定与意图关键词具有关联关系的实体词所对应的待推荐文本。
其中,预设文本库中包括至少一个文本,预设文本库中的每一文本被标注有至少一个实体词。
推送模块704,用于将待推荐文本,推送给用户。
图8是根据本申请第六实施例的示意图,如图8所示,本实施例的信息推荐装置包括:
获取模块801,用于获取用户搜索意图。
第一确定模块802,用于确定用户搜索意图中的意图关键词。
第二确定模块803,用于根据意图关键词和预设文本库,确定与意图关键词具有关联关系的实体词所对应的待推荐文本。
其中,预设文本库中包括至少一个文本,预设文本库中的每一文本被标注有至少一个实体词。
推送模块804,用于将待推荐文本,推送给用户。
如图8所示,一个示例中,预设文本库中的每一文本被标注有文本类别;第二确定模块803,包括:
第一确定子模块8031,用于确定意图关键词所属的文本类别。
选择子模块8032,用于从预设文本库中,选择标注有与意图关键词所属的文本类别相同的文本类别的文本。
第二确定子模块8033,用于从相同的文本类别的文本中,确定与意图关键词具有关联关系的实体词所对应的待推荐文本。
图9是根据本申请第七实施例的示意图,如图9所示,本实施例的信息推荐装置包括:
获取模块901,用于获取用户搜索意图。
第一确定模块902,用于确定用户搜索意图中的意图关键词。
第二确定模块903,用于根据意图关键词和预设文本库,确定与意图关键词具有关联关系的实体词所对应的待推荐文本。
其中,预设文本库中包括至少一个文本,预设文本库中的每一文本被标注有至少一个实体词。
推送模块904,用于将待推荐文本,推送给用户。
如图9所示,一个示例中,意图关键词的数量为多个;第二确定模块903,包括:
第三确定子模块9031,用于针对多个意图关键词中的任意意图关键词,从预设文本库中确定与任意意图关键词具有关联关系的实体词所对应的文本。
第四确定子模块9032,用于从与任意意图关键词对应的文本中,确定包括与多个意图关键词具有关联关系的实体词所对应的待推荐文本。
在一些实施例中,预设文本库中的每一文本被标注的实体词、预设词库之间具有匹配关系,其中,预设词库中包括至少一个关键词、以及与每一关键词对应的实体词。
在一些实施例中,预设词库为知识图谱的架构。
图10是根据本申请第八实施例的示意图,如图10所示,本实施例的信息推荐装置包括:
分词模块1001,用于对获取到的每一文本进行分词处理,得到分词集合。
在一些实施例中,分词模块1001用于,基于预设的词典对获取到的每一文本进行分词处理,得到分词集合,其中,词典包括多个实体词。
聚类模块1002,用于根据关键词对分词集合中的分词进行聚类处理,得到预设词库。
结合图10可知,在一些实施例中,聚类模块1002,包括:
第五确定子模块10021,用于以关键词为聚类中心词,确定分词集合中的分词与聚类中心词之间的相似度。
过滤子模块10022,用于基于相似度对分词集合中的分词进行过滤处理,得到预设词库。
提取模块1003,用于根据预设词库对获取到的每一文本进行文章核心词提取,并对获取到的每一文本进行句子核心词提取。
第三确定模块1004,用于根据文章核心词和句子核心词,确定获取到的每一文本的实体词。
结合图10可知,在一些实施例中,第三确定模块1004,包括:
分配子模块10041,用于根据预设词库为文章核心词分配第一权重,并根据预设词库为句子核心词分配第二权重;其中,第一权重表征文章核心词对获取到的每一文本的表现力度;第二权重表征句子核心词对获取到的每一文本的表现力度。
归一化处理子模块10042,用于对第一权重和第二权重进行归一化处理,得到归一化处理结果,并根据归一化处理结果确定获取到的每一文本的实体词。
获取模块1005,用于获取用户搜索意图。
第一确定模块1006,用于确定用户搜索意图中的意图关键词。
第二确定模块1007,用于根据意图关键词和预设文本库,确定与意图关键词具有关联关系的实体词所对应的待推荐文本。
其中,预设文本库中包括至少一个文本,预设文本库中的每一文本被标注有至少一个实体词。
第一识别模块1008,用于基于预先训练的部位特征词识别模型对预设文本库中的每一文本进行识别处理,得到与预设文本库中的每一文本对应的部位特征词。
第二识别模块1009,用于基于预先训练的图片质量识别模型对预设文本库中的每一文本进行识别处理,得到与预设文本库中每一文本对应的图片质量信息。
推送模块1010,用于确定与意图关键词对应的部位特征词,从待推荐文本中确定包括与意图关键词对应的部位特征词的文本,并选择与意图关键词对应的部位特征词的文本的清晰度满足预设清晰度需求的文本;和/或,选择与意图关键词对应的部位特征词的文本的美观度满足预设美观度需求的文本,推送给用户。
在一些实施例中,信息推荐装置应用于医美文本的推荐,待推荐文本为待推荐医美文本,至少一个文本为至少一个医美文本,至少一个实体词为至少一个医美实体词。
值得说明地是,在一些实施例中,图10所示的实施例还可以结合图8和/或图9所示的实施例,成为新的实施例,其原理可以参见上述示例的描述,此处不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
根据本申请的实施例,本申请还提供了一种计算机程序产品,程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
图11示出了可以用来实施本申请的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,电子设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如信息推荐方法。例如,在一些实施例中,信息推荐方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时,可以执行上文描述的信息推荐方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行信息推荐方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (29)

1.一种信息推荐方法,包括:
获取用户搜索意图,并确定所述用户搜索意图中的意图关键词;
根据所述意图关键词和预设文本库,确定与所述意图关键词具有关联关系的实体词所对应的待推荐文本;其中,所述预设文本库中包括至少一个文本,所述预设文本库中的每一文本被标注有至少一个实体词;
将所述待推荐文本,推送给用户。
2.根据权利要求1所述的方法,其中,所述预设文本库中的每一文本被标注有文本类别;根据所述意图关键词和预设文本库,确定与所述意图关键词具有关联关系的实体词所对应的待推荐文本,包括:
确定所述意图关键词所属的文本类别;
从所述预设文本库中,选择标注有与所述意图关键词所属的文本类别相同的文本类别的文本;
从所述相同的文本类别的文本中,确定与所述意图关键词具有关联关系的实体词所对应的待推荐文本。
3.根据权利要求1所述的方法,其中,所述意图关键词的数量为多个;根据所述意图关键词和预设文本库,确定与所述意图关键词具有关联关系的实体词所对应的待推荐文本,包括:
针对多个意图关键词中的任意意图关键词,从所述预设文本库中确定与所述任意意图关键词具有关联关系的实体词所对应的文本;
从与所述任意意图关键词对应的文本中,确定包括与所述多个意图关键词具有关联关系的实体词所对应的待推荐文本。
4.根据权利要求1所述的方法,其中,所述预设文本库中的每一文本被标注的实体词、预设词库之间具有匹配关系,其中,所述预设词库中包括至少一个关键词、以及与每一所述关键词对应的实体词。
5.根据权利要求4所述的方法,其中,所述预设词库为知识图谱的架构。
6.根据权利要求4所述的方法,所述方法,还包括:
对获取到的每一文本进行分词处理,得到分词集合;
根据所述关键词对所述分词集合中的分词进行聚类处理,得到所述预设词库。
7.根据权利要求6所述的方法,其中,根据所述关键词对所述分词集合中的分词进行聚类处理,得到所述预设词库,包括:
以所述关键词为聚类中心词,确定所述分词集合中的分词与所述聚类中心词之间的相似度;
基于所述相似度对所述分词集合中的分词进行过滤处理,得到所述预设词库。
8.根据权利要求6所述的方法,其中,对获取到的每一文本进行分词处理,得到分词集合,包括:
基于预设的词典对获取到的每一文本进行分词处理,得到分词集合,其中,所述词典包括多个实体词。
9.根据权利要求4所述的方法,所述方法,还包括:
根据所述预设词库对获取到的每一文本进行文章核心词提取,并对获取到的每一文本进行句子核心词提取;
根据所述文章核心词和所述句子核心词,确定获取到的每一文本的实体词。
10.根据权利要求9所述的方法,其中,根据所述文章核心词和所述句子核心词,确定获取到的每一文本的实体词,包括:
根据所述预设词库为所述文章核心词分配第一权重,并根据所述预设词库为所述句子核心词分配第二权重;其中,所述第一权重表征所述文章核心词对获取到的每一文本的表现力度;所述第二权重表征所述句子核心词对获取到的每一文本的表现力度;
对所述第一权重和第二权重进行归一化处理,得到归一化处理结果,并根据所述归一化处理结果确定获取到的每一文本的实体词。
11.根据权利要求1至10中任一项所述的方法,所述方法还包括:
基于预先训练的部位特征词识别模型对所述预设文本库中的每一文本进行识别处理,得到与所述预设文本库中的每一文本对应的部位特征词;
将所述待推荐文本,推送给用户,包括:确定与所述意图关键词对应的部位特征词,从所述待推荐文本中确定包括与所述意图关键词对应的部位特征词的文本,并将与所述意图关键词对应的部位特征词的文本,推送给用户。
12.根据权利要求11所述的方法,所述方法还包括:
基于预先训练的图片质量识别模型对所述预设文本库中的每一文本进行识别处理,得到与所述预设文本库中每一文本对应的图片质量信息,所述图片质量信息包括清晰度和美观度;
将与所述意图关键词对应的部位特征词的文本,推送给用户,包括:选择与所述意图关键词对应的部位特征词的文本的清晰度满足预设清晰度需求的文本;和/或,选择与所述意图关键词对应的部位特征词的文本的美观度满足预设美观度需求的文本,推送给用户。
13.根据权利要求1至10中任一项所述的方法,其中,所述信息推荐方法应用于医美文本的推荐,所述待推荐文本为待推荐医美文本,所述至少一个文本为至少一个医美文本,至少一个实体词为至少一个医美实体词。
14.一种信息推荐装置,包括:
获取模块,用于获取用户搜索意图;
第一确定模块,用于确定所述用户搜索意图中的意图关键词;
第二确定模块,用于根据所述意图关键词和预设文本库,确定与所述意图关键词具有关联关系的实体词所对应的待推荐文本;其中,所述预设文本库中包括至少一个文本,所述预设文本库中的每一文本被标注有至少一个实体词;
推送模块,用于将所述待推荐文本,推送给用户。
15.根据权利要求14所述的装置,其中,所述预设文本库中的每一文本被标注有文本类别;所述第二确定模块,包括:
第一确定子模块,用于确定所述意图关键词所属的文本类别;
选择子模块,用于从所述预设文本库中,选择标注有与所述意图关键词所属的文本类别相同的文本类别的文本;
第二确定子模块,用于从所述相同的文本类别的文本中,确定与所述意图关键词具有关联关系的实体词所对应的待推荐文本。
16.根据权利要求15所述的装置,其中,所述意图关键词的数量为多个;所述第二确定模块,包括:
第三确定子模块,用于针对多个意图关键词中的任意意图关键词,从所述预设文本库中确定与所述任意意图关键词具有关联关系的实体词所对应的文本;
第四确定子模块,用于从与所述任意意图关键词对应的文本中,确定包括与所述多个意图关键词具有关联关系的实体词所对应的待推荐文本。
17.根据权利要求14所述的装置,其中,所述预设文本库中的每一文本被标注的实体词、预设词库之间具有匹配关系,其中,所述预设词库中包括至少一个关键词、以及与每一所述关键词对应的实体词。
18.根据权利要求17所述的装置,其中,所述预设词库为知识图谱的架构。
19.根据权利要求17所述的装置,所述装置,还包括:
分词模块,用于对获取到的每一文本进行分词处理,得到分词集合;
聚类模块,用于根据所述关键词对所述分词集合中的分词进行聚类处理,得到所述预设词库。
20.根据权利要求19所述的装置,其中,所述聚类模块,包括:
第五确定子模块,用于以所述关键词为聚类中心词,确定所述分词集合中的分词与所述聚类中心词之间的相似度;
过滤子模块,用于基于所述相似度对所述分词集合中的分词进行过滤处理,得到所述预设词库。
21.根据权利要求19所述的装置,其中,所述分词模块用于,基于预设的词典对获取到的每一文本进行分词处理,得到分词集合,其中,所述词典包括多个实体词。
22.根据权利要求17所述的装置,所述装置,还包括:
提取模块,用于根据所述预设词库对获取到的每一文本进行文章核心词提取,并对获取到的每一文本进行句子核心词提取;
第三确定模块,用于根据所述文章核心词和所述句子核心词,确定获取到的每一文本的实体词。
23.根据权利要求22所述的装置,其中,所述第三确定模块,包括:
分配子模块,用于根据所述预设词库为所述文章核心词分配第一权重,并根据所述预设词库为所述句子核心词分配第二权重;其中,所述第一权重表征所述文章核心词对获取到的每一文本的表现力度;所述第二权重表征所述句子核心词对获取到的每一文本的表现力度;
归一化处理子模块,用于对所述第一权重和第二权重进行归一化处理,得到归一化处理结果,并根据所述归一化处理结果确定获取到的每一文本的实体词。
24.根据权利要求14至23中任一项所述的装置,所述装置还包括:
第一识别模块,用于基于预先训练的部位特征词识别模型对所述预设文本库中的每一文本进行识别处理,得到与所述预设文本库中的每一文本对应的部位特征词;
所述推送模块用于,确定与所述意图关键词对应的部位特征词,从所述待推荐文本中确定包括与所述意图关键词对应的部位特征词的文本,并将与所述意图关键词对应的部位特征词的文本,推送给用户。
25.根据权利要求24所述的装置,所述装置还包括:
第二识别模块,用于基于预先训练的图片质量识别模型对所述预设文本库中的每一文本进行识别处理,得到与所述预设文本库中每一文本对应的图片质量信息,所述图片质量信息包括清晰度和美观度;
所述推送模块用于,选择与所述意图关键词对应的部位特征词的文本的清晰度满足预设清晰度需求的文本;和/或,选择与所述意图关键词对应的部位特征词的文本的美观度满足预设美观度需求的文本,推送给用户。
26.根据权利要求14至23中任一项所述的装置,所述信息推荐装置应用于医美文本的推荐,所述待推荐文本为待推荐医美文本,所述至少一个文本为至少一个医美文本,所述至少一个实体词为至少一个医美实体词。
27.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-13中任一项所述的方法。
28.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-13中任一项所述的方法。
29.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-13中任一项所述的方法。
CN202110156007.2A 2021-02-04 2021-02-04 信息推荐方法、装置、电子设备、存储介质及程序产品 Active CN112749344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110156007.2A CN112749344B (zh) 2021-02-04 2021-02-04 信息推荐方法、装置、电子设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110156007.2A CN112749344B (zh) 2021-02-04 2021-02-04 信息推荐方法、装置、电子设备、存储介质及程序产品

Publications (2)

Publication Number Publication Date
CN112749344A true CN112749344A (zh) 2021-05-04
CN112749344B CN112749344B (zh) 2023-08-01

Family

ID=75653640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110156007.2A Active CN112749344B (zh) 2021-02-04 2021-02-04 信息推荐方法、装置、电子设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN112749344B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989761A (zh) * 2021-05-20 2021-06-18 腾讯科技(深圳)有限公司 文本分类方法及装置
CN113360779A (zh) * 2021-08-09 2021-09-07 智者四海(北京)技术有限公司 内容推荐方法及装置、计算机设备及可读介质
CN113505292A (zh) * 2021-06-15 2021-10-15 深圳追一科技有限公司 信息推送方法、装置、电子设备及存储介质
CN113515700A (zh) * 2021-07-01 2021-10-19 深圳追一科技有限公司 信息推送方法、装置、电子设备及存储介质
CN113553851A (zh) * 2021-07-15 2021-10-26 杭州网易云音乐科技有限公司 关键词的确定方法、装置、存储介质和计算设备
CN113570404A (zh) * 2021-06-30 2021-10-29 深圳市东信时代信息技术有限公司 一种目标用户定位的方法、装置及相关设备
CN113592695A (zh) * 2021-08-06 2021-11-02 国网安徽省电力有限公司电力科学研究院 一种身份信息安全授权系统与方法
CN113688229A (zh) * 2021-08-31 2021-11-23 济南大学 一种文本推荐方法、系统、存储介质和设备
CN113949834A (zh) * 2021-09-01 2022-01-18 北京新氧万维科技咨询有限公司 一种视频展示方法、装置、电子设备及存储介质
CN114492371A (zh) * 2022-02-11 2022-05-13 网易传媒科技(北京)有限公司 文本处理方法及装置、存储介质、电子设备
CN115098782A (zh) * 2022-07-15 2022-09-23 北京创世路信息技术有限公司 一种基于多方交互技术的信息推荐方法以及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590255A (zh) * 2017-09-19 2018-01-16 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN110888990A (zh) * 2019-11-22 2020-03-17 深圳前海微众银行股份有限公司 文本推荐方法、装置、设备及介质
WO2020057022A1 (zh) * 2018-09-18 2020-03-26 深圳壹账通智能科技有限公司 关联推荐方法、装置、计算机设备和存储介质
CN111061957A (zh) * 2019-12-26 2020-04-24 广东电网有限责任公司 一种文章相似度推荐方法和装置
CN111723293A (zh) * 2020-06-24 2020-09-29 上海风秩科技有限公司 一种文章内容的推荐方法、装置、电子设备及存储介质
CN111753198A (zh) * 2020-06-22 2020-10-09 北京百度网讯科技有限公司 信息推荐方法和装置、以及电子设备和可读存储介质
US20210027018A1 (en) * 2019-07-22 2021-01-28 Advanced New Technologies Co., Ltd. Generating recommendation information

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107590255A (zh) * 2017-09-19 2018-01-16 百度在线网络技术(北京)有限公司 信息推送方法和装置
WO2020057022A1 (zh) * 2018-09-18 2020-03-26 深圳壹账通智能科技有限公司 关联推荐方法、装置、计算机设备和存储介质
US20210027018A1 (en) * 2019-07-22 2021-01-28 Advanced New Technologies Co., Ltd. Generating recommendation information
CN110888990A (zh) * 2019-11-22 2020-03-17 深圳前海微众银行股份有限公司 文本推荐方法、装置、设备及介质
CN111061957A (zh) * 2019-12-26 2020-04-24 广东电网有限责任公司 一种文章相似度推荐方法和装置
CN111753198A (zh) * 2020-06-22 2020-10-09 北京百度网讯科技有限公司 信息推荐方法和装置、以及电子设备和可读存储介质
CN111723293A (zh) * 2020-06-24 2020-09-29 上海风秩科技有限公司 一种文章内容的推荐方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邱利茂;刘嘉勇;: "基于文档词典的文本关联关键词推荐技术", 现代计算机(专业版), no. 07 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989761B (zh) * 2021-05-20 2021-08-24 腾讯科技(深圳)有限公司 文本分类方法及装置
CN112989761A (zh) * 2021-05-20 2021-06-18 腾讯科技(深圳)有限公司 文本分类方法及装置
CN113505292A (zh) * 2021-06-15 2021-10-15 深圳追一科技有限公司 信息推送方法、装置、电子设备及存储介质
CN113570404B (zh) * 2021-06-30 2023-12-05 深圳市东信时代信息技术有限公司 一种目标用户定位的方法、装置及相关设备
CN113570404A (zh) * 2021-06-30 2021-10-29 深圳市东信时代信息技术有限公司 一种目标用户定位的方法、装置及相关设备
CN113515700A (zh) * 2021-07-01 2021-10-19 深圳追一科技有限公司 信息推送方法、装置、电子设备及存储介质
CN113515700B (zh) * 2021-07-01 2024-02-20 深圳追一科技有限公司 信息推送方法、装置、电子设备及存储介质
CN113553851A (zh) * 2021-07-15 2021-10-26 杭州网易云音乐科技有限公司 关键词的确定方法、装置、存储介质和计算设备
CN113592695A (zh) * 2021-08-06 2021-11-02 国网安徽省电力有限公司电力科学研究院 一种身份信息安全授权系统与方法
CN113592695B (zh) * 2021-08-06 2024-02-02 国网安徽省电力有限公司电力科学研究院 一种身份信息安全授权系统与方法
CN113360779A (zh) * 2021-08-09 2021-09-07 智者四海(北京)技术有限公司 内容推荐方法及装置、计算机设备及可读介质
CN113688229A (zh) * 2021-08-31 2021-11-23 济南大学 一种文本推荐方法、系统、存储介质和设备
CN113688229B (zh) * 2021-08-31 2024-04-23 济南大学 一种文本推荐方法、系统、存储介质和设备
CN113949834A (zh) * 2021-09-01 2022-01-18 北京新氧万维科技咨询有限公司 一种视频展示方法、装置、电子设备及存储介质
CN113949834B (zh) * 2021-09-01 2024-06-04 北京新氧万维科技咨询有限公司 一种视频展示方法、装置、电子设备及存储介质
CN114492371A (zh) * 2022-02-11 2022-05-13 网易传媒科技(北京)有限公司 文本处理方法及装置、存储介质、电子设备
CN115098782B (zh) * 2022-07-15 2022-11-18 北京创世路信息技术有限公司 一种基于多方交互技术的信息推荐方法以及系统
CN115098782A (zh) * 2022-07-15 2022-09-23 北京创世路信息技术有限公司 一种基于多方交互技术的信息推荐方法以及系统

Also Published As

Publication number Publication date
CN112749344B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN112749344A (zh) 信息推荐方法、装置、电子设备、存储介质及程序产品
CN110909165B (zh) 数据处理方法、装置、介质及电子设备
CN112733042B (zh) 推荐信息的生成方法、相关装置及计算机程序产品
US10102191B2 (en) Propagation of changes in master content to variant content
CN113590645B (zh) 搜索方法、装置、电子设备及存储介质
CN112559800B (zh) 用于处理视频的方法、装置、电子设备、介质和产品
CN111797226A (zh) 会议纪要的生成方法、装置、电子设备以及可读存储介质
CN111144120A (zh) 一种训练语句的获取方法、装置、存储介质及电子设备
CN113407850B (zh) 一种虚拟形象的确定和获取方法、装置以及电子设备
CN112818227B (zh) 内容推荐方法、装置、电子设备及存储介质
CN113836314B (zh) 知识图谱构建方法、装置、设备以及存储介质
CN112926308A (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN112560461A (zh) 新闻线索的生成方法、装置、电子设备及存储介质
CN112699237B (zh) 标签确定方法、设备和存储介质
CN115248890A (zh) 用户兴趣画像的生成方法、装置、电子设备以及存储介质
CN112925912A (zh) 文本处理方法、同义文本召回方法及装置
CN114880498B (zh) 事件信息展示方法及装置、设备和介质
CN114118049B (zh) 信息获取方法、装置、电子设备及存储介质
CN113505293B (zh) 信息推送方法、装置、电子设备及存储介质
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质
CN115098729A (zh) 视频处理方法、样本生成方法、模型训练方法及装置
CN113378015A (zh) 搜索方法、装置、电子设备、存储介质和程序产品
CN113806541A (zh) 情感分类的方法和情感分类模型的训练方法、装置
CN113239273A (zh) 用于生成文本的方法、装置、设备以及存储介质
CN113204616A (zh) 文本抽取模型的训练与文本抽取的方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant