CN112989177A - 信息处理方法、装置、电子设备及计算机存储介质 - Google Patents
信息处理方法、装置、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN112989177A CN112989177A CN201911277071.5A CN201911277071A CN112989177A CN 112989177 A CN112989177 A CN 112989177A CN 201911277071 A CN201911277071 A CN 201911277071A CN 112989177 A CN112989177 A CN 112989177A
- Authority
- CN
- China
- Prior art keywords
- search
- information
- vector
- user
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 50
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 405
- 238000000605 extraction Methods 0.000 claims abstract description 122
- 238000000034 method Methods 0.000 claims description 66
- 238000004364 calculation method Methods 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 30
- 238000004891 communication Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 21
- 208000007502 anemia Diseases 0.000 description 20
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 210000002784 stomach Anatomy 0.000 description 4
- 206010000060 Abdominal distension Diseases 0.000 description 3
- 208000024330 bloating Diseases 0.000 description 3
- 235000019219 chocolate Nutrition 0.000 description 3
- 238000005034 decoration Methods 0.000 description 3
- 235000012054 meals Nutrition 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 239000003973 paint Substances 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种信息处理方法、装置、电子设备及计算机存储介质。该信息处理方法,包括:将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型,其中,所述搜索辅助向量包括以下至少之一:输入所述搜索信息的用户的用户信息对应的用户向量、输入所述搜索信息时的时空信息对应的时空向量;基于所述搜索模型对所述搜索词向量和所述搜索辅助向量进行特征提取的结果,输出与所述搜索信息相关联的关联搜索信息。该信息处理方法可以提升输出的关联搜索信息的准确度。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种信息处理方法、装置、电子设备及计算机存储介质。
背景技术
搜索是根据用户输入的搜索信息如搜索关键词等,运用一定的搜索算法从互联网上采集信息,在对信息进行组织和处理后,将搜索到的相关信息展示给用户的一种功能。
在实际的搜索应用中,还有诸如:用户想要进一步了解与搜索信息相关联的其它信息的需求,比如其它人搜索的类似的问题;或者,基于该用户输入的搜索信息向用户推荐相关联的信息,等等不同的需求。为了解决这个问题,目前的一种常用方式是在搜索过程中应用协同过滤算法。例如,基于用户的协同过滤算法或者基于项目的协同过滤算法。其中,基于用户的协同过滤算法根据与目标用户最相似的若干用户对类似搜索的评分向目标用户推荐相关搜索结果信息;而基于项目的协同过滤算法则根据目标用户对与搜索信息相似的信息的评分向目标用户推荐相关搜索结果信息。
但是,不管上述哪种方式,因每个用户涉及的信息都相当有限,因此导致最终结果在准确度方面都表现欠佳。
发明内容
有鉴于此,本发明实施例提供一种信息处理方案,以至少部分解决上述问题。
根据本发明实施例的第一方面,提供了一种信息处理方法,包括:将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型,其中,所述搜索辅助向量包括以下至少之一:输入所述搜索信息的用户的用户信息对应的用户向量、输入所述搜索信息时的时空信息对应的时空向量;基于所述搜索模型对所述搜索词向量和所述搜索辅助向量进行特征提取的结果,输出与所述搜索信息相关联的关联搜索信息。
根据本发明实施例的第二方面,提供了一种信息处理装置,包括:向量输入模块,用于将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型,其中,所述搜索辅助向量包括以下至少之一:输入所述搜索信息的用户的用户信息对应的用户向量、输入所述搜索信息时的时空信息对应的时空向量;关联信息输出模块,用于基于所述搜索模型对所述搜索词向量和所述搜索辅助向量进行特征提取的结果,输出与所述搜索信息相关联的关联搜索信息。
根据本发明实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的信息处理方法对应的操作。
根据本发明实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的信息处理方法。
根据本发明实施例提供的信息处理方案,在基于用户输入的搜索信息提供关联搜索信息时,不仅以搜索信息为依据,还结合了与用户和搜索操作密切相关的辅助信息,包括输入搜索信息的用户的用户信息、输入搜索信息时的时空信息等。由此,对用户的搜索操作可能涉及的因素进行了综合考量,使得向用户推送的关联搜索信息与用户输入的搜索信息的关联度更高,准确度也更高,更能贴合用户的搜索需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1a为根据本发明实施例一的一种信息处理方法的步骤流程图;
图1b为根据本发明实施例一的一种信息处理过程的示意图;
图1c为根据本发明实施例一的第一种使用场景的示意图;
图1d为根据本发明实施例一的第二种使用场景的示意图;
图1e为根据本发明实施例一的第三种使用场景的示意图;
图2a为根据本发明实施例二的一种信息处理方法的步骤流程图;
图2b为根据本发明实施例二的搜索模型处理搜索信息的流程示意图;
图3a为根据本发明实施例三的一种信息处理方法的步骤流程图;
图3b为一种标题样本的示意图;
图3c为根据本发明实施例三的一种搜索模型的训练流程示意图;
图4为根据本发明实施例四的一种信息处理装置的结构框图;
图5为根据本发明实施例五的一种信息处理装置的结构框图;
图6为根据本发明实施例六的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
实施例一
参见图1a,示出了本发明实施例一的一种信息处理方法的步骤流程图。在本实施例中,所述信息处理方法包括以下步骤:
步骤S102:将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型。
本实施例中,所述搜索辅助向量包括以下至少之一:输入所述搜索信息的用户的用户信息对应的用户向量、输入所述搜索信息时的时空信息对应的时空向量。
其中,所述用户信息用于表征用户属性,包括但不限于:用户性别、年龄、偏好等等。所述时空信息用于表征输入所述搜索信息时的时空特性,包括但不限于:输入所述搜索信息时的时间信息、网络信息、地理位置信息等等。所述用户信息和所述时空信息是对所述搜索信息的有力补充,可以使后续的搜索模型在基于用户输入的搜索信息进行其它搜索信息推荐或关联时,可以全面考虑搜索操作的场景,以提供与搜索信息更为接近或贴合的关联搜索信息。
上述搜索信息对应的搜索词向量、用户信息对应的用户向量、时空信息对应的时空向量的获取方式均可由本领域技术人员根据实际需求采用任意适当的方式实现。例如,使用Word2vec算法、或Sentence2Vec算法或者随机初始化方式等获得各个信息对应的向量等。
此外,本实施例中,搜索模型用于基于用户输入的搜索信息输出与该搜索信息关联的其他搜索信息,搜索模型可以采用算法形式或者神经网络模型形式实现。
步骤S104:基于所述搜索模型对所述搜索词向量和所述搜索辅助向量进行特征提取的结果,输出与所述搜索信息相关联的关联搜索信息。
通过搜索模型对搜索词向量和搜索辅助向量进行特征提取,获得的特征提取的结果更能全面且突出地表征搜索操作的场景特点,以便于进一步获得与输入的搜索信息更为接近和贴合的关联搜索信息。
一种将上述过程应用于搜索引擎中为使用场景的示例如图1b所示。
在图1b所示的使用场景中,搜索模型配置于云端。需要说明的是,在客户端配置的硬件资源足够的情况下,搜索模型也可以配置于客户端。
图1b中,用户A通过终端A中具有搜索功能的应用APP提供的搜索界面输入搜索信息,应用APP在接收到该搜索信息后,会获取用户A的用户信息和用户A当前的时空信息(实际应用中可以仅包括用户信息和时空信息中的一种)。然后,应用APP将搜索信息、用户信息和时空信息一起发送给配置有搜索模型的云端。云端将搜索信息、用户信息和时空信息分别处理为搜索词向量、用户向量和时空向量。进而,将搜索词向量、用户向量和时空向量输入搜索模型进行处理,输出与搜索信息关联的关联搜索信息。
但不限于上述方式,在实际应用中,也可以由应用APP先将搜索信息发送给配置有搜索模型的云端;云端在接收到该搜索信息后再向应用APP请求用户信息和时空信息。在获得了用户信息和时空信息后,再与搜索信息一起进行向量化和输入搜索模型的处理,最终得到与搜索信息关联的关联搜索信息。
需要说明的是,本发明实施例提供的信息处理方案不限于上述普通搜索场景,还可应用于其它任意适当的可进行搜索的相关场景中。
例如,在电商场景中,可以对用户输入的商品搜索信息进行前述处理。此种情况下,在步骤S102之前,还包括:获取用户输入的所述商品搜索信息和所述商品搜索信息的辅助信息,其中,所述辅助信息包括以下至少之一:所述用户的用户信息、输入所述商品搜索信息时的时空信息;确定所述商品搜索信息对应的搜索词向量和所述辅助信息对应的搜索辅助向量。
可选地,在步骤S104之后还可以包括:接收所述用户对所述关联搜索信息的触发操作,根据所述触发操作展示所述关联搜索信息所链接的商品数据。
以图1c中所示为例,假如用户A输入了“礼品巧克力”,根据该商品搜索信息,以及用户A的用户信息(如指示用户A偏好创意礼物的信息)和进行该搜索输入时的时空信息(如时间信息),除了得到“礼品巧克力”对应的搜索结果外,基于搜索模型对上述信息对应的向量的处理(具体可如图1b中所示,在此不再赘述),还可得到与“礼品巧克力”相关联的关联搜索信息,如,最有创意的礼品、圣诞节送女友什么礼物,等等。若用户A对这些关联搜索信息进行了触发操作如点击操作,则跳转至相应的页面,展示相应的商品数据,例如,若用户A点击了“最有创意的礼品”,则将展示多个“最有创意的礼品”的相关数据和信息,包括但不限于图片信息、描述信息和链接信息等等。
又例如,在问答社区场景中,所述搜索信息会表现为问题信息的形式,则可以对用户输入的问题信息进行前述处理。此种情况下,在步骤S102之前,还包括:获取用户输入的所述问题信息和所述问题信息的辅助信息,其中,所述辅助信息包括以下至少之一:所述用户的用户信息、输入所述问题信息时的时空信息;确定所述问题信息对应的搜索词向量和所述辅助信息对应的搜索辅助向量。
可选地,所述关联搜索信息为关联问题信息;在步骤S104之后还可以包括:接收所述用户对所述关联问题信息的触发操作,根据所述触发操作展示所述关联问题信息所链接的问题数据。
以图1d中所示为例,假如用户B提出并输入了“房子墙面脏了怎么办?”,根据该问题信息,以及用户B的用户信息(如指示用户B年龄和性别的信息)和进行该输入时的时空信息(如地理位置信息),在得到“房子墙面脏了怎么办?”的回答信息(之前已有类似问题情形)或者将“房子墙面脏了怎么办?”这一问题发布至问答社区中(之前没有类似问题情形)外,基于搜索模型对上述信息对应的向量的处理(具体可如图1b中所示,在此不再赘述),还可得到与“房子墙面脏了怎么办?”相关联的关联问题信息,如,北京装修哪家好、哪个品牌的油漆最环保,等等。若用户B点击了“北京装修哪家好”,则将展示“北京装修哪家好”对应的问答页面。
再例如,在问诊场景中,所述搜索信息会表现为问诊信息的形式,则可以对用户输入的问诊信息进行前述处理。此种情况下,在步骤S102之前,还包括:获取用户输入的所述问诊信息和所述问诊信息的辅助信息,其中,所述辅助信息包括以下至少之一:所述用户的用户信息、输入所述问诊信息时的时空信息;确定所述问诊信息对应的搜索词向量和所述辅助信息对应的搜索辅助向量。
可选地,所述关联搜索信息为关联问诊信息;在步骤S104之后还可以包括:接收所述用户对所述关联问诊信息的触发操作,根据所述触发操作展示所述关联问诊信息所链接的问诊数据。
以图1e中所示为例,假如用户C提出并输入了“饭后经常胃胀是怎么回事?”,根据该问诊信息,以及用户C的用户信息(如指示用户C年龄和性别的信息)和进行该输入时的时空信息(如地理位置信息),除了得到对应于“饭后经常胃胀是怎么回事?”的搜索结果外,基于搜索模型对上述信息对应的向量的处理(具体可如图1b中所示,在此不再赘述),还可得到与“饭后经常胃胀是怎么回事?”相关联的关联问诊信息,如,301医院胃肠科的李大夫治胃病怎么样、哪个医院的胃肠科最好,等等。若用户C点击了“301医院胃肠科的李大夫治胃病怎么样”,则将展示“301医院胃肠科的李大夫治胃病怎么样”对应的页面,通过该页面展示诸如对李大夫的介绍、病人的评价等等问诊数据。与前述使用场景不同的是,本场景中,在用户C点击了“301医院胃肠科的李大夫治胃病怎么样”之后,仅将该搜索信息发送给云端进行处理,并从云端获得相对应的搜索结果。也即,在实际应用中,本领域技术人员可以将常规进行搜索的搜索信息处理方式与本发明实施例提供的搜索信息的处理方式根据需要结合使用。
可见,通过本实施例,在基于用户输入的搜索信息提供关联搜索信息时,不仅以搜索信息为依据,还结合了与用户和搜索操作密切相关的辅助信息,包括输入搜索信息的用户的用户信息、输入搜索信息时的时空信息等。由此,对用户的搜索操作可能涉及的因素进行了综合考量,使得向用户推送的关联搜索信息与用户输入的搜索信息的关联度更高,准确度也更高,更能贴合用户的搜索需求。
本实施例的信息处理方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例二
参见图2a,示出了本发明实施例二的一种信息处理方法的步骤流程图。
在本实施例中,对实施例一中的使用搜索模型获得关联搜索信息的过程进行说明。为此,相关步骤序号仍沿用前述实施例一中相应的序号。
首先,如图2b所示,本实施例的搜索模型包括:输入层、隐含层和输出层。
其中,在基于搜索信息进行其他信息推荐的过程中,输入层用于接收所述搜索词向量和所述搜索辅助向量。
隐含层用于对所述搜索词向量和所述搜索辅助向量进行特征提取,并输出特征提取的结果。其中,特征提取可以包括第一特征提取和第二特征提取。第一特征提取用于对搜索词向量进行特征提取,获得搜索特征向量。第二特征提取用于对搜索特征向量和搜索辅助向量的拼接向量进行特征提取,获得特征提取的结果。
输出层一方面基于特征提取的结果对输入的第一词向量进行调整,并对搜索模型进行训练;另一方面可以输出关联搜索信息。本实施例中,输出层主要用于输出与搜索信息关联的关联搜索信息。基于上述搜索模型的结构和功能,本实施例的信息处理方法包括以下步骤:
步骤S102:将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型。
其中,所述搜索辅助向量包括以下至少之一:输入所述搜索信息的用户的用户信息对应的用户向量、输入所述搜索信息时的时空信息对应的时空向量。
在一种可行方式中,搜索词向量可以通过以下方式生成:对所述搜索信息对应的文本进行切词,获得多个搜索分词;按照预设权重对所述多个搜索分词进行加权平均拼接,生成所述搜索词向量。
对搜索信息对应的文本进行切词可以采用现有的切词工具或算法实现,搜索信息对应的文本进行切词后将获得至少一个搜索分词,通过为多个。需要说明的是,本发明实施例中,若无特殊说明,“多个”、“多种”等与“多”有关的数量均意指两个及两个以上。
在按照预设权重对多个搜索分词进行加权平均拼接时,可以先将各个分词转换为词向量,再进行加权平均拼接。
其中,预设权重用于指示搜索信息中各个搜索分词对搜索意图的重要程度。在一种可行方式中,可以根据各个搜索分词在搜索信息中的关键性级别分别设置权重;在另一种可行方式中,可以根据用户的历史搜索数据,为搜索时间与当前搜索操作最接近时间的搜索分词设置较高的权重;在再一种可行方式中,可以根据用户的历史搜索数据,为搜索频率高的搜索分词设置较高的权重。但不限于此,在实际应用中,也可以复用其它针对搜索信息进行文本切词生成相应向量时使用的权重。
例如,当前搜索信息为“孕妇贫血怎么办”,搜索分词对应为“孕妇”、“贫血”、“怎么办”,针对这些搜索分词可以根据历史搜索数据中某一时间段(如距今最近的3个月)内这些搜索分词被搜索的次数确定对应的权重。
又例如,当前搜索信息为“孕妇贫血怎么办”,搜索分词对应为“孕妇”、“贫血”、“怎么办”,当根据历史搜索数据确定“孕妇”在距离当前时间一天之前在搜索信息中出现过,则为“孕妇”设置高权重。
上述示例中,权重的具体设置数值可以由本领域技术人员根据实际需求适当设置,本发明实施例对此不作限制。
加权平均是一种把权重计算在内的平均方法,基于加权平均的向量拼接则是对各个搜索分词的词向量进行加权平均后进行拼接,形成原有维度的拼接向量。例如,搜索分词A的词向量为(A1,A2,A3),假设搜索分词A的权重为0.8;搜索分词B的词向量为(B1,B2,B3),假设搜索分词B的权重为0.5。则,拼接后的向量为【(0.8*A1+0.5*B1)/2,(0.8*A2+0.5*B2)/2,(0.8*A3+0.5*B3)/2】。
通过对多个搜索分词的词向量进行加权平均拼接处理,使得获得的搜索词向量的维度与各搜索分词的词向量的维度相同,且充分保留了搜索信息对应的文本中的语义信息,并突出了搜索意图,获取的搜索词向量如图2b中所示的query embedding。
而对于搜索辅助向量,其根据搜索辅助信息生成,搜索辅助信息包括如前所述的用户信息和时空信息。其中,所述用户信息用于表征用户属性,所述用户信息至少包括用户偏好信息。可选地,还可以包括用户的性别和年龄等属性信息。所述时空信息用于表征输入所述搜索信息时的时空特性,所述时空信息包括以下至少之一:输入所述搜索信息时的时间信息、网络信息、地理位置信息。
在实际应用中,可以将用户信息中的用户偏好信息、性别信息、年龄信息进行结合后转换成与搜索词向量相同维度的用户向量。
类似地,可以将时空信息中的时间信息、网络信息、地理位置信息等进行结合后转换为与搜索词向量相同维度的时空向量。
步骤S104:基于所述搜索模型对所述搜索词向量和所述搜索辅助向量进行特征提取的结果,输出与所述搜索信息相关联的关联搜索信息。
在将搜索词向量和搜索辅助向量通过输入层输入搜索模型后,可以通过搜索模型的隐含层和输出层进行进一步处理。例如,在一可行方式中,步骤S104可以包括以下子步骤:
子步骤S1041:通过所述搜索模型对所述搜索词向量进行第一特征提取,获得对应的搜索特征向量。
在隐含层中,可以对搜索词向量进行卷积操作,以实现第一特征提取,获得对应的搜索特征向量。但不限于卷积计算的方式,其它可进行特征提取的方式也同样适用。
子步骤S1042:对所述搜索特征向量和所述搜索辅助向量进行向量拼接,获得拼接向量。
其中,拼接向量的维度为进行拼接的各个向量的维度总和。例如,搜索特征向量、用户向量和时空向量均为100维的向量,则三者拼接后形成300维的向量。
在搜索辅助向量包括用户向量和时空向量的情况下,将搜索特征向量、用户向量和时空向量直接进行拼接,形成拼接向量。
在搜索辅助向量仅包括用户向量或时空向量的情况下,将搜索特征向量和用户向量拼接形成拼接向量,或者将搜索特征向量和时空向量拼接形成拼接向量。
子步骤S1043:基于所述拼接向量进行第二特征提取,获得特征提取的结果。
本步骤中,第二特征提取可以采用特征表达的形式实现,以便从拼接向量中提取出重点特征。
在一具体实现中,可以通过激活函数对拼接向量进行第二特征提取,以获得其中的重点特征。其中,激活函数包括但不限于ReLU、tanh或其他适当的激活函数。
为了获得较好的特征表达,可以通过激活函数进行多次特征表达处理,如通过多个ReLU进行特征表达处理,以实现第二特征提取。
在进行第二特征提取后获得的特征提取的结果中,在搜索信息的基础上还融合了用户信息和/或时空信息,使得后续输出的关联搜索信息能够综合用户信息和/或时空信息,使关联搜索信息能够与用户输入的搜索信息的关联度更高。
子步骤S1044:基于所述特征提取的结果输出与所述搜索信息相关联的关联搜索信息。
可以通过搜索模型的输出层,基于特征提取的结果,确定出与搜索信息关联度高的N个关联搜索信息。在输出时,可以直接将N个关联搜索信息输出,或者从N个关联搜索信息中选取M个输出等,本实施例对此不作限制。
通过本实施例,由于向搜索模型输入了搜索辅助向量,从而使得搜索操作的搜索场景信息也被作为搜索推荐的考量因素,使得输出的与搜索信息关联的关联搜索信息更为接近搜索信息。
此外,在生成搜索词向量时,通过对多个搜索分词进行加权平均拼接处理,使得搜索词向量可以更好地突出搜索意图。
本实施例的信息处理方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例三
参见图3a,示出了本发明实施例三的一种信息处理方法的步骤流程图。
在本实施例中,主要对搜索模型的训练过程进行说明。本实施例的信息处理方法包括前述的步骤S102和步骤S104。其中,步骤S102和步骤S104均可以采用实施例一、实施例二中的方式实现。
该信息处理方法在步骤S102之前,还包括步骤S100。
步骤S100:使用搜索样本集,对所述搜索模型进行训练。
其中,所述搜索样本集包括:搜索输入样本、与所述搜索输入样本关联的标题样本。所述标题样本用于指示当前搜索操作之前的搜索操作对应的搜索结果中,被所述用户操作的搜索结果的结果标题;所述当前搜索操作为使用所述搜索输入样本进行的搜索操作。
一种标题样本的示意图如图3b所示,图3b中的界面1示出了用户通过搜索输入框搜索“孕妇体弱”,图3b中的界面2示出了针对“孕妇体弱”的多个搜索结果,每个搜索结果都对应有一个title,如多个虚线方框所示;假设用户点击了其中的一个搜索结果的title,如图3b中的界面3中的虚线圆框所示,则该title的信息将被记录下来;在接下来的搜索中,用户又输入了“孕妇贫血怎么办”(该搜索信息后续将作为搜索输入样本),如图3b中的界面4,则针对“孕妇贫血怎么办”的搜索操作,在之前搜索“孕妇体弱”的搜索结果中被用户点击的那个搜索结果的title,即图3b中的第三个界面中的虚线圆框所示的title将被作为与“孕妇贫血怎么办”关联的标题样本。此外,为了使得训练完成的搜索模型可以对搜索场景进行全面考虑,以输出为搜索信息更为接近的关联搜索信息,在搜索模型训练阶段,也需要借助于搜索辅助样本信息进行训练。为此,所述搜索样本集中还包括搜索辅助样本信息,所述搜索辅助样本信息包括以下至少之一:所述搜索输入样本对应的用户样本信息、所述搜索输入样本对应的时空样本信息,以提升训练效果。
本实施例中,用户样本信息中包括用户偏好信息、用户性别信息和用户年龄信息;时空样本信息中包括与搜索输入样本对应的时间信息、网络信息和地理位置信息。
通过使用包括搜索辅助样本信息的搜索样本集对搜索模型进行训练,使得训练的搜索模型能够学习到辅助样本信息与推荐样本的关系,从而可以在使用阶段,针对不同的用户、不同的时间或者地理位置,输出更加准确的关联搜索信息。
下面结合搜索模型的结构,对训练过程进行详细说明如下:
在本实施例中,如图3c所示,所述搜索模型包括输入层、隐含层和输出层,所述输出层包括第一输出层和第二输出层。
在训练阶段,当所述搜索样本集中还包括所述搜索辅助样本信息时,所述输入层用于接收输入的所述搜索输入样本对应的第一词向量、所述标题样本对应的第二词向量、和所述搜索辅助样本信息对应的第三向量。
所述隐含层用于对所述第一词向量和所述第二词向量分别进行第一特征提取,获得对应的第一特征向量和第二特征向量;对所述第一特征向量、所述第二特征向量和所述第三向量进行向量拼接,获得拼接向量;并对所述拼接向量进行第二特征提取,输出特征提取的结果。
在一种可行方式中,所述隐含层包括:第一特征提取层、向量拼接层、和第二特征提取层。
所述第一特征提取层,用于对所述第一词向量和所述第二词向量分别进行第一特征提取,输出对应的所述第一特征向量和所述第二特征向量。
所述向量拼接层,用于对所述第一特征向量、所述第二特征向量和所述第三向量进行向量拼接,输出拼接向量。
所述第二特征提取层,用于对所述拼接向量进行第二特征提取,输出特征提取的结果。
所述输出层中的第一输出层用于根据所述特征提取的结果对输入的第一词向量进行调整。所述输出层中的第二输出层用于根据所述特征提取的结果输出关联搜索样本。
在一种可行方式中,第一输出层用于根据所述特征提取的结果及输入的推荐样本进行损失计算,并根据计算结果对输入的第一词向量进行调整。此外,第一输出层还可以根据所述计算结果对所述搜索模型进行训练参数的调整。而第二输出层则用于将所述特征提取的结果与输入的推荐样本进行相似度计算,根据计算结果输出关联搜索样本。其中,进行损失计算使用的损失函数以及进行相似度计算使用的相似度计算方法均可由本领域技术人员根据实际需求适当设置,本发明实施例对此不作限制。
在输出层部分引入了推荐样本,其可以为基于所述搜索输入样本向用户推荐的搜索样本,通过推荐样本可以使得模型进行更有针对性的监督和学习,完善模型训练。其中,所述推荐样本包括正推荐样本和负推荐样本,所述正推荐样本表示基于所述搜索输入样本向用户推荐的搜索样本且被所述用户点击的样本;所述负推荐样本表示基于所述搜索输入样本向用户推荐的搜索样本且未被所述用户点击的样本。
为说明上述正推荐样本和负推荐样本的区别,简单示例如下,假设搜索输入样本为“孕妇贫血怎么办”,推荐样本可以包括“孕妇贫血吃什么”、“孕妇不贫血”、“治疗孕妇贫血”等。针对“孕妇贫血怎么办”的搜索输入样本,假期用户点击了“治疗孕妇贫血”,而未点击“孕妇贫血吃什么”、“孕妇不贫血”,则“治疗孕妇贫血”将被作为正推荐样本,“孕妇贫血吃什么”、“孕妇不贫血”将被作为负推荐样本。在实际应用中,基于大数据量的推荐样本集合,可以针对搜索输入样本,将被点击过的推荐样本作为正推荐样本,而负推荐样本则可从大量的其它搜索输入样本中随机采样,将这样获取的样本作为负推荐样本即可,以扩大负推荐样本数据量且降低样本实现成本。
为了使训练过程中搜索模型可以学习到更多负推荐样本,从而在使用阶段能够更加准确地识别出用户不会点击的关联搜索样本,以进行更为贴合搜索信息的其他搜索信息的推荐,在所述推荐样本中,所述负推荐样本的数量大于所述正推荐样本。优选地,所述负推荐样本的数量远大于所述正推荐样本。
为此,在本实施例中,所述负推荐样本与所述正推荐样本的数量配比满足预设配比阈值,该预设配比阈值能够使得负推荐样本在推荐样本总数量中占据绝大多数为准,以便获得较优的训练效果。在一种可行方式中,可以将预设配比阈值设置为1:10000。但不限于此,其它可满足需求的配比阈值也同样适用。
一种基于上述样本和搜索模型结构的示例如图3c所示,据此实现的训练过程如下:
首先,对搜索输入样本进行向量化处理获得对应的第一词向量(如图3c中所示的query embeding);对标题样本进行向量化处理获得对应的第二词向量(如图3c中所示的title embeding);对搜索辅助样本信息进行拼接和向量化处理获得对应的第三向量(包括user profile vector和context vector)。图3c中,以搜索辅助样本信息包括用户样本信息和时空样本信息为例。从图3c中可见,用户样本信息至少包括了用户性别信息、用户年龄信息和用户偏好信息;时空样本信息则至少包括时间信息、网络信息和地理位置信息。将用户样本信息中的各部分进行拼接并向量化后,获得如图3c中所示的user profile vector所示;对时空样本信息的各部分进行拼接并向量化后,获得如图3c中contex vector所示。需要说明的是,对于user profile vector和contex vector,两者的维度可以相同也可以不同;并且,两者与搜索输入样本和标题样本的维度也可以相同可不同。
然后,将第一词向量(query embeding)、第二词向量(title embeding)和第三向量(user profile vector和contex vector)输入搜索模型的输入层。
接着,搜索模型的输入层接收到第一词向量、第二词向量和第三向量后,将这些向量输入隐含层。需要说明的是,在一种可行方式中,还可向输入层输入后续使用的推荐样本,该推荐样本不参与前期的特征提取和向量拼接。但不限于此,其它可在该过程中引入推荐样本的方式也同样适用。
再接着,在隐含层中,第一词向量和第二词向量被分别输入到对应的第一特征提取层,图3c中示意为CNN层,第一特征提取层对第一词向量进行第一特征提取,获得第一特征向量,如图3c中所示的query vector;对第二词向量进行第一特征提取,获得第二特征向量,如图3c中所示的title vector。
然后,在向量拼接层,将第一特征向量(query vector)、第二特征向量(titlevector)和通过输入层输入的第三向量(user profile vector和contex vector)进行向量拼接,获得拼接向量。
之后,拼接向量输入到第二特征提取层中(如图3c中所示的ReLU层),由第二特征提取层进行第二特征提取,输出特征提取的结果(如图3c中所示的user embeddingvector)。
为了确保第二特征提取的效果,突出重点特征,在第二特征提取层中包括至少两层ReLU层,图3c中采用了三层ReLU层。当然,第二特征提取层也可以采用其它形式,如tanhsample层,本实施例对此不作限制。
再接着,输出的特征提取的结果被输入到第一输出层和第二输出层中。其中,第一输出层对特征提取的结果的处理和第二输出层对特征提取的结果的处理为相对独立的过程。
第一输出层在对user embedding vector进行处理时,引入了推荐样本(包括正推荐样本和负推荐样本),如图3c中所示的“candidate query embedding vector”,然后,通过softmax函数,基于user embedding vector和candidate query embedding vector进行损失计算,在获得计算结果后,一方面依据该计算结果调整搜索模型的训练参数;另一方面,根据该计算结果调整“query embeding”。这是因为,对于一个搜索文本来说,其可以通过多个不同的词向量表达其含义,而在一次训练中通常采用其中的一个作为“queryembeding”进行训练,而该“query embeding”有可能在关键分词表征上存在瑕疵,基于此,本实施例的搜索模型中的第一输出层在调整模型参数的同时,还可对输入的“queryembeding”进行调整,以使其更为符合用户的实际搜索需求。
在一种根据损失计算的计算结果调整“query embeding”的实现方式中,使用的softmax函数的预测值可以根据user embeding vector与多个candidate queryembedding vector的相似度计算结果获得,如将user embeding vector与每个candidatequery embedding vector进行相似度计算,获得对应的多个相似度结果。进而,根据该多个相似度结果确定预测值,进而根据样本标注的真实值和该预测值,进行损失计算。再根据该损失计算的结果进行“query embeding”的调整。具体到“query embeding”中的每个分词向量的调整策略,可由本领域技术人员根据实际情况适当设置。
例如,针对“孕妇贫血怎么办”,其被切分为“孕妇”、“贫血”、“怎么办”三个分词。初始时,“query embeding”可以采用初始向量表达,但实际用户更关注的是“孕妇”。而通过根据第一输出层的输出进行调整后,使得新的“query embeding”的向量表达更能够突显“孕妇”这一分词。后续可以使用调整后的“query embeding”对模型继续进行训练,从而,使得训练出的模型参数和结果更为精准。
此外,第一输出层中,softmax函数进行和进行损失计算的损失函数都可以采用常规函数。
与第一输出层类似,第二输出层在对user embedding vector进行处理时,也引入了推荐样本“candidate query embedding vector”。与第一输出层不同的是,第二输出层基于user embedding vector和多个candidate query embedding vector的相似度比较结果,输出符合需求的N个candidate query embedding vector。其中,N可以由本领域技术人员根据实际需求适当设定,N大于或等于1。另外,相似度比较可以采用任意适当的相似度算法实现,包括但不限于余弦距离、欧氏距离等方式。
将实现不同功能的第一输出层和第二输出层设置在同一搜索模型中,使得两个输出层共享搜索模型前面部分的输出结果,提高了模型训练效率,降低了模型训练成本。
上述过程迭代执行,一次训练结束后再获取新的样本(包括重新调整后的queryembeding或者从搜索样本集中获取的另外的搜索输入样本)进行下一次训练,直至满足训练终止条件。例如,训练次数达到预设次数,或者,损失计算获得的损失值满足预设阈值。
通过上述训练过程,基于搜索模型中训练完成的各个参数和某个搜索信息的词向量,即可获得与该搜索信息更为接近的关联搜索信息。
在搜索模型训练完成后,到了搜索模型的应用阶段,则可以根据用户输入的搜索信息,执行前述的步骤S102和步骤S104,输出与搜索信息对应的关联搜索信息,以达到基于用户输入的搜索信息进行更为有效的关联搜索信息推荐的效果。
通过使用包括搜索辅助样本信息的搜索样本集对搜索模型进行训练,使得训练的搜索模型能够学习到辅助样本信息与搜索输入样本的关系,从而可以在使用阶段,针对不同的用户、不同的时间或者地理位置,输出更加准确的关联搜索信息。
在训练过程中,使用了大量负推荐样本,使得搜索模型的学习更为全面,也更有针对性,训练效果更好。此外,在训练时不仅以搜索输入样本,和推荐样本为依据,还加入了搜索辅助样本,增强了搜索模型的表征能力和泛化能力。
本实施例的信息处理方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例四
参照图4,示出了根据本发明实施例四的一种信息处理装置的结构框图。
在本实施例中,信息处理装置包括:向量输入模块402,用于将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型,其中,所述搜索辅助向量包括以下至少之一:输入所述搜索信息的用户的用户信息对应的用户向量、输入所述搜索信息时的时空信息对应的时空向量;关联信息输出模块404,用于基于所述搜索模型对所述搜索词向量和所述搜索辅助向量进行特征提取的结果,输出与所述搜索信息相关联的关联搜索信息。
本实施例的信息处理装置在基于用户输入的搜索信息提供关联搜索信息时,不仅以搜索信息为依据,还结合了与用户和搜索操作密切相关的辅助信息,包括输入搜索信息的用户的用户信息、输入搜索信息时的时空信息等。由此,对用户的搜索操作可能涉及的因素进行了综合考量,使得向用户推送的关联搜索信息与用户输入的搜索信息的关联度更高,准确度也更高,更能贴合用户的搜索需求。
实施例五
参照图5,示出了根据本发明实施例五的一种信息处理装置的结构框图。
在本实施例中,信息处理装置包括:向量输入模块502,用于将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型,其中,所述搜索辅助向量包括以下至少之一:输入所述搜索信息的用户的用户信息对应的用户向量、输入所述搜索信息时的时空信息对应的时空向量;关联信息输出模块504,用于基于所述搜索模型对所述搜索词向量和所述搜索辅助向量进行特征提取的结果,输出与所述搜索信息相关联的关联搜索信息。
可选地,所述关联信息输出模块504包括:第一提取模块5041,用于通过所述搜索模型对所述搜索词向量进行第一特征提取,获得对应的搜索特征向量;拼接模块5042,用于对所述搜索特征向量和所述搜索辅助向量进行向量拼接,获得拼接向量;第二提取模块5043,用于基于所述拼接向量进行第二特征提取,获得特征提取的结果;关联信息推荐模块5044,用于基于所述特征提取的结果输出与所述搜索信息相关联的关联搜索信息。
可选地,所述装置还包括:训练模块500a,用于在所述向量输入模块将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型之前,使用搜索样本集,对所述搜索模型进行训练,其中,所述搜索样本集包括:搜索输入样本、与所述搜索输入样本关联的标题样本;其中,所述标题样本用于指示当前搜索操作之前的搜索操作对应的搜索结果中,被所述用户操作的搜索结果的结果标题;所述当前搜索操作为使用所述搜索输入样本进行的搜索操作。
可选地,所述搜索样本集中还包括搜索辅助样本信息,所述搜索辅助样本信息包括以下至少之一:所述搜索输入样本对应的用户样本信息、所述搜索输入样本对应的时空样本信息。
可选地,所述搜索模型包括输入层、隐含层和输出层;当所述搜索样本集中还包括所述搜索辅助样本信息时:所述输入层用于接收输入的所述搜索输入样本对应的第一词向量、所述标题样本对应的第二词向量、和所述搜索辅助样本信息对应的第三向量;所述隐含层用于对所述第一词向量和所述第二词向量分别进行第一特征提取,获得对应的第一特征向量和第二特征向量;对所述第一特征向量、所述第二特征向量和所述第三向量进行向量拼接,获得拼接向量;并对所述拼接向量进行第二特征提取,输出特征提取的结果;所述输出层包括第一输出层和第二输出层,所述第一输出层用于根据所述特征提取的结果对输入的第一词向量进行调整,所述第二输出层用于根据所述特征提取的结果输出关联搜索样本。
可选地,所述第一输出层用于根据所述特征提取的结果及输入的推荐样本进行损失计算,并根据计算结果对输入的第一词向量进行调整。
可选地,所述第二输出层用于将所述特征提取的结果与输入的推荐样本进行相似度计算,根据计算结果输出关联搜索样本。
可选地,所述推荐样本包括正推荐样本和负推荐样本,所述正推荐样本表示基于所述搜索输入样本向用户推荐的搜索样本且被所述用户点击的样本;所述负推荐样本表示基于所述搜索输入样本向用户推荐的搜索样本且未被所述用户点击的样本。
可选地,所述推荐样本中,所述负推荐样本的数量大于所述正推荐样本。
可选地,所述负推荐样本与所述正推荐样本的数量配比满足预设配比阈值。
可选地,所述隐含层包括:第一特征提取层、向量拼接层、和第二特征提取层;其中:所述第一特征提取层,用于对所述第一词向量和所述第二词向量分别进行第一特征提取,输出对应的所述第一特征向量和所述第二特征向量;所述向量拼接层,用于对所述第一特征向量、所述第二特征向量和所述第三向量进行向量拼接,输出拼接向量;所述第二特征提取层,用于对所述拼接向量进行第二特征提取,输出特征提取的结果。
可选地,所述第二特征提取层包括至少两层ReLU层。
可选地,所述用户信息用于表征用户属性,所述用户信息至少包括用户偏好信息。
可选地,所述时空信息用于表征输入所述搜索信息时的时空特性,所述时空信息包括以下至少之一:输入所述搜索信息时的时间信息、网络信息、地理位置信息。
可选地,所述装置还包括:生成模块500b,用于通过以下方式生成搜索词向量:对所述搜索信息对应的文本进行切词,获得多个搜索分词;按照预设权重对所述多个搜索分词进行加权平均拼接,生成所述搜索词向量。
可选地,所述搜索信息为商品搜索信息;向量输入模块502还用于在将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型之前,获取用户输入的所述商品搜索信息和所述商品搜索信息的辅助信息,其中,所述辅助信息包括以下至少之一:所述用户的用户信息、输入所述商品搜索信息时的时空信息;确定所述商品搜索信息对应的搜索词向量和所述辅助信息对应的搜索辅助向量。
可选地,关联信息输出模块506还用于接收所述用户对所述关联搜索信息的触发操作,根据所述触发操作展示所述关联搜索信息所链接的商品数据。
可选地,所述搜索信息为问题信息;向量输入模块502还用于在所述将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型之前,获取用户输入的所述问题信息和所述问题信息的辅助信息,其中,所述辅助信息包括以下至少之一:所述用户的用户信息、输入所述问题信息时的时空信息;确定所述问题信息对应的搜索词向量和所述辅助信息对应的搜索辅助向量。
可选地,所述关联搜索信息为关联问题信息;关联信息输出模块506还用于接收所述用户对所述关联问题信息的触发操作,根据所述触发操作展示所述关联问题信息所链接的问题数据。
可选地,所述搜索信息为问诊信息;向量输入模块502还用于在所述将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型之前,获取用户输入的所述问诊信息和所述问诊信息的辅助信息,其中,所述辅助信息包括以下至少之一:所述用户的用户信息、输入所述问诊信息时的时空信息;确定所述问诊信息对应的搜索词向量和所述辅助信息对应的搜索辅助向量。
可选地,所述关联搜索信息为关联问诊信息;关联信息输出模块506还用于接收所述用户对所述关联问诊信息的触发操作,根据所述触发操作展示所述关联问诊信息所链接的问诊数据。
本实施例的信息处理装置用于实现前述多个方法实施例中相应的信息处理方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的信息处理装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
实施例六
参照图6,示出了根据本发明实施例六的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图6所示,该电子设备可以包括:处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。
其中:
处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。
通信接口604,用于与其它电子设备或服务器进行通信。
处理器602,用于执行程序610,具体可以执行上述寄存器分配方法实施例中的相关步骤。
具体地,程序610可以包括程序代码,该程序代码包括计算机操作指令。
处理器62可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器606,用于存放程序610。存储器606可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序610具体可以用于使得处理器602执行以下操作:将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型,其中,所述搜索辅助向量包括以下至少之一:输入所述搜索信息的用户的用户信息对应的用户向量、输入所述搜索信息时的时空信息对应的时空向量;基于所述搜索模型对所述搜索词向量和所述搜索辅助向量进行特征提取的结果,输出与所述搜索信息相关联的关联搜索信息。
在一种可选的实施方式中,程序610还用于使得处理器602在基于所述搜索模型对所述搜索词向量和所述搜索辅助向量进行特征提取的结果,输出与所述搜索信息相关联的关联搜索信息时,通过所述搜索模型对所述搜索词向量进行第一特征提取,获得对应的搜索特征向量;对所述搜索特征向量和所述搜索辅助向量进行向量拼接,获得拼接向量;基于所述拼接向量进行第二特征提取,获得特征提取的结果;基于所述特征提取的结果输出与所述搜索信息相关联的关联搜索信息。
在一种可选的实施方式中,程序610还用于使得处理器602在所述将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型之前,使用搜索样本集,对所述搜索模型进行训练,其中,所述搜索样本集包括:搜索输入样本、与所述搜索输入样本关联的标题样本;其中,所述标题样本用于指示当前搜索操作之前的搜索操作对应的搜索结果中,被所述用户操作的搜索结果的结果标题;所述当前搜索操作为使用所述搜索输入样本进行的搜索操作。
在一种可选的实施方式中,所述搜索样本集中还包括搜索辅助样本信息,所述搜索辅助样本信息包括以下至少之一:所述搜索输入样本对应的用户样本信息、所述搜索输入样本对应的时空样本信息。
在一种可选的实施方式中,所述搜索模型包括输入层、隐含层和输出层;当所述搜索样本集中还包括所述搜索辅助样本信息时:所述输入层用于接收输入的所述搜索输入样本对应的第一词向量、所述标题样本对应的第二词向量、和所述搜索辅助样本信息对应的第三向量;所述隐含层用于对所述第一词向量和所述第二词向量分别进行第一特征提取,获得对应的第一特征向量和第二特征向量;对所述第一特征向量、所述第二特征向量和所述第三向量进行向量拼接,获得拼接向量;并对所述拼接向量进行第二特征提取,输出特征提取的结果;所述输出层包括第一输出层和第二输出层,所述第一输出层用于根据所述特征提取的结果对输入的第一词向量进行调整,所述第二输出层用于根据所述特征提取的结果输出关联搜索样本。
在一种可选的实施方式中,所述第一输出层用于根据所述特征提取的结果及输入的推荐样本进行损失计算,并根据计算结果对输入的第一词向量进行调整。
在一种可选的实施方式中,所述第二输出层用于将所述特征提取的结果与输入的推荐样本进行相似度计算,根据计算结果输出关联搜索样本。
在一种可选的实施方式中,所述推荐样本包括正推荐样本和负推荐样本,所述正推荐样本表示基于所述搜索输入样本向用户推荐的搜索样本且被所述用户点击的样本;所述负推荐样本表示基于所述搜索输入样本向用户推荐的搜索样本且未被所述用户点击的样本。
在一种可选的实施方式中,所述推荐样本中,所述负推荐样本的数量大于所述正推荐样本。
在一种可选的实施方式中,所述负推荐样本与所述正推荐样本的数量配比满足预设配比阈值。
在一种可选的实施方式中,所述隐含层包括:第一特征提取层、向量拼接层、和第二特征提取层;其中:所述第一特征提取层,用于对所述第一词向量和所述第二词向量分别进行第一特征提取,输出对应的所述第一特征向量和所述第二特征向量;所述向量拼接层,用于对所述第一特征向量、所述第二特征向量和所述第三向量进行向量拼接,输出拼接向量;所述第二特征提取层,用于对所述拼接向量进行第二特征提取,输出特征提取的结果。
在一种可选的实施方式中,所述第二特征提取层包括至少两层ReLU层。
在一种可选的实施方式中,所述用户信息用于表征用户属性,所述用户信息至少包括用户偏好信息。
在一种可选的实施方式中,所述时空信息用于表征输入所述搜索信息时时空特性,所述时空信息包括以下至少之一:输入所述搜索信息时的时间信息、网络信息、地理位置信息。
在一种可选的实施方式中,所述搜索词向量通过以下方式生成:对所述搜索信息对应的文本进行切词,获得多个搜索分词;按照预设权重对所述多个搜索分词进行加权平均拼接,生成所述搜索词向量。
在一种可选的实施方式中,所述搜索信息为商品搜索信息;程序610还用于使得处理器602在所述将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型之前,获取用户输入的所述商品搜索信息和所述商品搜索信息的辅助信息,其中,所述辅助信息包括以下至少之一:所述用户的用户信息、输入所述商品搜索信息时的时空信息;确定所述商品搜索信息对应的搜索词向量和所述辅助信息对应的搜索辅助向量。
在一种可选的实施方式中,程序610还用于使得处理器602接收所述用户对所述关联搜索信息的触发操作,根据所述触发操作展示所述关联搜索信息所链接的商品数据。
在一种可选的实施方式中,所述搜索信息为问题信息;程序610还用于使得处理器602在所述将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型之前,获取用户输入的所述问题信息和所述问题信息的辅助信息,其中,所述辅助信息包括以下至少之一:所述用户的用户信息、输入所述问题信息时的时空信息;确定所述问题信息对应的搜索词向量和所述辅助信息对应的搜索辅助向量。
在一种可选的实施方式中,所述关联搜索信息为关联问题信息;程序610还用于使得处理器602接收所述用户对所述关联问题信息的触发操作,根据所述触发操作展示所述关联问题信息所链接的问题数据。
在一种可选的实施方式中,所述搜索信息为问诊信息;程序610还用于使得处理器602在所述将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型之前,获取用户输入的所述问诊信息和所述问诊信息的辅助信息,其中,所述辅助信息包括以下至少之一:所述用户的用户信息、输入所述问诊信息时的时空信息;确定所述问诊信息对应的搜索词向量和所述辅助信息对应的搜索辅助向量。
在一种可选的实施方式中,所述关联搜索信息为关联问诊信息;程序610还用于使得处理器602接收所述用户对所述关联问诊信息的触发操作,根据所述触发操作展示所述关联问诊信息所链接的问诊数据。
程序610中各步骤的具体实现可以参见上述信息处理方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,在基于用户输入的搜索信息提供关联搜索信息时,不仅以搜索信息为依据,还结合了与用户和搜索操作密切相关的辅助信息,包括输入搜索信息的用户的用户信息、输入搜索信息时的时空信息等。由此,对用户的搜索操作可能涉及的因素进行了综合考量,使得向用户推送的关联搜索信息与用户输入的搜索信息的关联度更高,准确度也更高,更能贴合用户的搜索需求。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的信息处理方法。此外,当通用计算机访问用于实现在此示出的信息处理方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的信息处理方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。
Claims (24)
1.一种信息处理方法,包括:
将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型,其中,所述搜索辅助向量包括以下至少之一:输入所述搜索信息的用户的用户信息对应的用户向量、输入所述搜索信息时的时空信息对应的时空向量;
基于所述搜索模型对所述搜索词向量和所述搜索辅助向量进行特征提取的结果,输出与所述搜索信息相关联的关联搜索信息。
2.根据权利要求1所述的方法,其中,所述基于所述搜索模型对所述搜索词向量和所述搜索辅助向量进行特征提取的结果,输出与所述搜索信息相关联的关联搜索信息,包括:
通过所述搜索模型对所述搜索词向量进行第一特征提取,获得对应的搜索特征向量;
对所述搜索特征向量和所述搜索辅助向量进行向量拼接,获得拼接向量;
基于所述拼接向量进行第二特征提取,获得特征提取的结果;
基于所述特征提取的结果输出与所述搜索信息相关联的关联搜索信息。
3.根据权利要求1或2所述的方法,其中,在所述将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型之前,所述方法还包括:
使用搜索样本集,对所述搜索模型进行训练,其中,所述搜索样本集包括:搜索输入样本、与所述搜索输入样本关联的标题样本;
其中,所述标题样本用于指示当前搜索操作之前的搜索操作对应的搜索结果中,被所述用户操作的搜索结果的结果标题;所述当前搜索操作为使用所述搜索输入样本进行的搜索操作。
4.根据权利要求3所述的方法,其中,所述搜索样本集中还包括搜索辅助样本信息,所述搜索辅助样本信息包括以下至少之一:所述搜索输入样本对应的用户样本信息、所述搜索输入样本对应的时空样本信息。
5.根据权利要求4所述的方法,其中,所述搜索模型包括输入层、隐含层和输出层;
当所述搜索样本集中还包括所述搜索辅助样本信息时:
所述输入层用于接收输入的所述搜索输入样本对应的第一词向量、所述标题样本对应的第二词向量、和所述搜索辅助样本信息对应的第三向量;
所述隐含层用于对所述第一词向量和所述第二词向量分别进行第一特征提取,获得对应的第一特征向量和第二特征向量;对所述第一特征向量、所述第二特征向量和所述第三向量进行向量拼接,获得拼接向量;并对所述拼接向量进行第二特征提取,输出特征提取的结果;
所述输出层包括第一输出层和第二输出层,所述第一输出层用于根据所述特征提取的结果对输入的第一词向量进行调整,所述第二输出层用于根据所述特征提取的结果输出关联搜索样本。
6.根据权利要求5所述的方法,其中,所述第一输出层用于根据所述特征提取的结果及输入的推荐样本进行损失计算,并根据计算结果对输入的第一词向量进行调整。
7.根据权利要求5所述的方法,其中,所述第二输出层用于将所述特征提取的结果与输入的推荐样本进行相似度计算,根据计算结果输出关联搜索样本。
8.根据权利要求6或7所述的方法,其中,所述推荐样本包括正推荐样本和负推荐样本,所述正推荐样本表示基于所述搜索输入样本向用户推荐的搜索样本且被所述用户点击的样本;所述负推荐样本表示基于所述搜索输入样本向用户推荐的搜索样本且未被所述用户点击的样本。
9.根据权利要求8所述的方法,其中,所述推荐样本中,所述负推荐样本的数量大于所述正推荐样本。
10.根据权利要求9所述的方法,其中,所述负推荐样本与所述正推荐样本的数量配比满足预设配比阈值。
11.根据权利要求5所述的方法,其中,所述隐含层包括:第一特征提取层、向量拼接层、和第二特征提取层;
其中:
所述第一特征提取层,用于对所述第一词向量和所述第二词向量分别进行第一特征提取,输出对应的所述第一特征向量和所述第二特征向量;
所述向量拼接层,用于对所述第一特征向量、所述第二特征向量和所述第三向量进行向量拼接,输出拼接向量;
所述第二特征提取层,用于对所述拼接向量进行第二特征提取,输出特征提取的结果。
12.根据权利要求11所述的方法,其中,所述第二特征提取层包括至少两层ReLU层。
13.根据权利要求1所述的方法,其中,所述用户信息用于表征用户属性,所述用户信息至少包括用户偏好信息。
14.根据权利要求1所述的方法,其中,所述时空信息用于表征输入所述搜索信息时的时空特性,所述时空信息包括以下至少之一:输入所述搜索信息时的时间信息、网络信息、地理位置信息。
15.根据权利要求1所述的方法,其中,所述搜索词向量通过以下方式生成:
对所述搜索信息对应的文本进行切词,获得多个搜索分词;
按照预设权重对所述多个搜索分词进行加权平均拼接,生成所述搜索词向量。
16.根据权利要求1所述的方法,其中,所述搜索信息为商品搜索信息;
在所述将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型之前,所述方法还包括:
获取用户输入的所述商品搜索信息和所述商品搜索信息的辅助信息,其中,所述辅助信息包括以下至少之一:所述用户的用户信息、输入所述商品搜索信息时的时空信息;
确定所述商品搜索信息对应的搜索词向量和所述辅助信息对应的搜索辅助向量。
17.根据权利要求16所述的方法,其中,所述方法还包括:
接收所述用户对所述关联搜索信息的触发操作,根据所述触发操作展示所述关联搜索信息所链接的商品数据。
18.根据权利要求1所述的方法,其中,所述搜索信息为问题信息;
在所述将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型之前,所述方法还包括:
获取用户输入的所述问题信息和所述问题信息的辅助信息,其中,所述辅助信息包括以下至少之一:所述用户的用户信息、输入所述问题信息时的时空信息;
确定所述问题信息对应的搜索词向量和所述辅助信息对应的搜索辅助向量。
19.根据权利要求18所述的方法,其中,所述关联搜索信息为关联问题信息;所述方法还包括:
接收所述用户对所述关联问题信息的触发操作,根据所述触发操作展示所述关联问题信息所链接的问题数据。
20.根据权利要求1所述的方法,其中,所述搜索信息为问诊信息;
在所述将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型之前,所述方法还包括:
获取用户输入的所述问诊信息和所述问诊信息的辅助信息,其中,所述辅助信息包括以下至少之一:所述用户的用户信息、输入所述问诊信息时的时空信息;
确定所述问诊信息对应的搜索词向量和所述辅助信息对应的搜索辅助向量。
21.根据权利要求20所述的方法,其中,所述关联搜索信息为关联问诊信息;所述方法还包括:
接收所述用户对所述关联问诊信息的触发操作,根据所述触发操作展示所述关联问诊信息所链接的问诊数据。
22.一种信息处理装置,包括:
向量输入模块,用于将与输入的搜索信息对应的搜索词向量,以及搜索辅助向量输入搜索模型,其中,所述搜索辅助向量包括以下至少之一:输入所述搜索信息的用户的用户信息对应的用户向量、输入所述搜索信息时的时空信息对应的时空向量;
关联信息输出模块,用于基于所述搜索模型对所述搜索词向量和所述搜索辅助向量进行特征提取的结果,输出与所述搜索信息相关联的关联搜索信息。
23.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指示,所述可执行指示使所述处理器执行如权利要求1-21中任一项所述的信息处理方法对应的操作。
24.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-21中任一所述的信息处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911277071.5A CN112989177B (zh) | 2019-12-12 | 2019-12-12 | 信息处理方法、装置、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911277071.5A CN112989177B (zh) | 2019-12-12 | 2019-12-12 | 信息处理方法、装置、电子设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112989177A true CN112989177A (zh) | 2021-06-18 |
CN112989177B CN112989177B (zh) | 2024-05-03 |
Family
ID=76331892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911277071.5A Active CN112989177B (zh) | 2019-12-12 | 2019-12-12 | 信息处理方法、装置、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112989177B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656685A (zh) * | 2021-07-15 | 2021-11-16 | 北京达佳互联信息技术有限公司 | 一种搜索信息推荐方法、装置、电子设备及存储介质 |
CN113763123A (zh) * | 2021-08-12 | 2021-12-07 | 阿里巴巴(中国)有限公司 | 商品推荐与搜索方法、设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915369A (zh) * | 2015-03-27 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 信息推荐方法和信息推荐装置 |
CN105956011A (zh) * | 2016-04-21 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 搜索方法及装置 |
CN106547871A (zh) * | 2016-10-31 | 2017-03-29 | 北京百度网讯科技有限公司 | 基于神经网络的搜索结果的召回方法和装置 |
CN106776869A (zh) * | 2016-11-28 | 2017-05-31 | 北京百度网讯科技有限公司 | 基于神经网络的搜索优化方法、装置以及搜索引擎 |
CN108073576A (zh) * | 2016-11-09 | 2018-05-25 | 上海诺悦智能科技有限公司 | 智能搜索方法、搜索装置以及搜索引擎系统 |
US20180165288A1 (en) * | 2016-12-14 | 2018-06-14 | Microsoft Technology Licensing, Llc | Dynamic Tensor Attention for Information Retrieval Scoring |
CN108536791A (zh) * | 2018-03-30 | 2018-09-14 | 北京百度网讯科技有限公司 | 基于神经网络的搜索方法、设备及存储介质 |
US20180293241A1 (en) * | 2017-04-06 | 2018-10-11 | Salesforce.Com, Inc. | Predicting a type of a record searched for by a user |
CN109726276A (zh) * | 2018-12-29 | 2019-05-07 | 中山大学 | 一种基于深度网络学习的任务型对话系统 |
CN109871483A (zh) * | 2019-01-22 | 2019-06-11 | 珠海天燕科技有限公司 | 一种推荐信息的确定方法及装置 |
CN109993618A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 对象搜索方法、系统和计算机系统、计算机可读存储介质 |
CN110020148A (zh) * | 2017-11-29 | 2019-07-16 | 北京搜狗科技发展有限公司 | 一种信息推荐方法、装置和用于信息推荐的装置 |
-
2019
- 2019-12-12 CN CN201911277071.5A patent/CN112989177B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915369A (zh) * | 2015-03-27 | 2015-09-16 | 百度在线网络技术(北京)有限公司 | 信息推荐方法和信息推荐装置 |
CN105956011A (zh) * | 2016-04-21 | 2016-09-21 | 百度在线网络技术(北京)有限公司 | 搜索方法及装置 |
CN106547871A (zh) * | 2016-10-31 | 2017-03-29 | 北京百度网讯科技有限公司 | 基于神经网络的搜索结果的召回方法和装置 |
CN108073576A (zh) * | 2016-11-09 | 2018-05-25 | 上海诺悦智能科技有限公司 | 智能搜索方法、搜索装置以及搜索引擎系统 |
CN106776869A (zh) * | 2016-11-28 | 2017-05-31 | 北京百度网讯科技有限公司 | 基于神经网络的搜索优化方法、装置以及搜索引擎 |
US20180165288A1 (en) * | 2016-12-14 | 2018-06-14 | Microsoft Technology Licensing, Llc | Dynamic Tensor Attention for Information Retrieval Scoring |
US20180293241A1 (en) * | 2017-04-06 | 2018-10-11 | Salesforce.Com, Inc. | Predicting a type of a record searched for by a user |
CN110020148A (zh) * | 2017-11-29 | 2019-07-16 | 北京搜狗科技发展有限公司 | 一种信息推荐方法、装置和用于信息推荐的装置 |
CN109993618A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 对象搜索方法、系统和计算机系统、计算机可读存储介质 |
CN108536791A (zh) * | 2018-03-30 | 2018-09-14 | 北京百度网讯科技有限公司 | 基于神经网络的搜索方法、设备及存储介质 |
CN109726276A (zh) * | 2018-12-29 | 2019-05-07 | 中山大学 | 一种基于深度网络学习的任务型对话系统 |
CN109871483A (zh) * | 2019-01-22 | 2019-06-11 | 珠海天燕科技有限公司 | 一种推荐信息的确定方法及装置 |
Non-Patent Citations (2)
Title |
---|
何拥军;龚发根;: "基于用户辅助估计的相关网页搜索聚类", 计算机技术与发展, no. 07 * |
王剑;王健;高秉博;: "基于时空感知能力的农业信息搜索技术研究", 南方农业学报, no. 01 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113656685A (zh) * | 2021-07-15 | 2021-11-16 | 北京达佳互联信息技术有限公司 | 一种搜索信息推荐方法、装置、电子设备及存储介质 |
CN113763123A (zh) * | 2021-08-12 | 2021-12-07 | 阿里巴巴(中国)有限公司 | 商品推荐与搜索方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112989177B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111061946B (zh) | 场景化内容推荐方法、装置、电子设备及存储介质 | |
WO2021223567A1 (zh) | 内容处理方法、装置、计算机设备和存储介质 | |
CN112000819B (zh) | 多媒体资源推荐方法、装置、电子设备及存储介质 | |
US11288454B2 (en) | Article generation | |
CN111061945B (zh) | 推荐方法、装置、电子设备,存储介质 | |
CN111026842A (zh) | 自然语言处理方法、自然语言处理装置及智能问答系统 | |
CN105677931B (zh) | 信息搜索方法和装置 | |
CN108256044B (zh) | 直播间推荐方法、装置及电子设备 | |
CN112182166A (zh) | 一种文本匹配方法、装置、电子设备及存储介质 | |
CN112989169B (zh) | 目标对象识别方法、信息推荐方法、装置、设备及介质 | |
CN110297897B (zh) | 问答处理方法及相关产品 | |
CN113641811B (zh) | 促进购买行为的会话推荐方法、系统、设备及存储介质 | |
KR20210062522A (ko) | 사용자 참여형 키워드 선정 시스템의 제어 방법, 장치 및 프로그램 | |
CN106407381A (zh) | 一种基于人工智能的推送信息的方法和装置 | |
CN112529665A (zh) | 基于组合模型的产品推荐方法、装置及计算机设备 | |
KR102301663B1 (ko) | 시각 검색 쿼리를 사용하여 물리적 객체를 식별하는 기법 | |
CN112989177A (zh) | 信息处理方法、装置、电子设备及计算机存储介质 | |
CN113704623A (zh) | 一种数据推荐方法、装置、设备及存储介质 | |
CN112084307A (zh) | 一种数据处理方法、装置、服务器及计算机可读存储介质 | |
CN111666513A (zh) | 页面处理方法、装置、电子设备及可读存储介质 | |
CN114398909A (zh) | 用于对话训练的问题生成方法、装置、设备和存储介质 | |
CN117271818B (zh) | 视觉问答方法、系统、电子设备及存储介质 | |
CN115618121B (zh) | 个性化资讯推荐方法、装置、设备及存储介质 | |
CN116956183A (zh) | 多媒体资源推荐方法、模型训练方法、装置及存储介质 | |
CN111475720A (zh) | 推荐方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |