CN112784145A - 一种数据处理方法、装置和介质 - Google Patents

一种数据处理方法、装置和介质 Download PDF

Info

Publication number
CN112784145A
CN112784145A CN201911061966.5A CN201911061966A CN112784145A CN 112784145 A CN112784145 A CN 112784145A CN 201911061966 A CN201911061966 A CN 201911061966A CN 112784145 A CN112784145 A CN 112784145A
Authority
CN
China
Prior art keywords
vector
determining
weighting
webpage
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911061966.5A
Other languages
English (en)
Other versions
CN112784145B (zh
Inventor
邢硕
梁华参
陈炜鹏
许静芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201911061966.5A priority Critical patent/CN112784145B/zh
Priority claimed from CN201911061966.5A external-priority patent/CN112784145B/zh
Publication of CN112784145A publication Critical patent/CN112784145A/zh
Application granted granted Critical
Publication of CN112784145B publication Critical patent/CN112784145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据处理方法、装置和介质,其中的方法具体包括:确定查询词对应的第一向量,确定网页对应的第二向量;依据所述第一向量对于所述第二向量的第一注意力信息,对所述第二向量进行加权,以得到第一加权向量;依据所述第二向量对于所述第一向量的第二注意力信息,对所述第一向量进行加权,以得到第二加权向量;依据所述第一加权向量和所述第二加权向量,确定所述查询词与所述网页之间的相关性信息。本发明实施例可以提高相关性信息的准确度。

Description

一种数据处理方法、装置和介质
技术领域
本发明涉及通信技术领域,尤其涉及一种数据处理方法、一种数据处理装置、一种用于数据处理的装置和一种机器可读介质。
背景技术
随着互联网技术的发展,越来越多的用户通过互联网获得信息。互联网的发展所带来的信息量增大,使得用户在获取信息的时候越来越依靠于搜索引擎,伴随着互联网的发展成长起来的用户,在获取信息时更加依赖网络搜索。
目前,搜索引擎根据用户输入的查询词(query),确定对应的搜索结果,依据搜索结果与搜索词之间的相关性信息,对搜索结果进行排序,并向用户呈现排序后的搜索结果。相关性信息用于表征搜索结果与查询词之间的相关程度。
发明人在实施本发明实施例的过程中发现,目前的相关性信息的准确度较低,使得搜索结果的排序结果不够合理。
发明内容
本发明实施例提供一种数据处理方法、数据处理装置、用于数据处理的装置、以及一种机器可读介质,可以提高相关性信息的准确度。
为了解决上述问题,本发明实施例公开了一种数据处理方法,包括:
确定查询词对应的第一向量,确定网页对应的第二向量;
依据所述第一向量对于所述第二向量的第一注意力信息,对所述第二向量进行加权,以得到第一加权向量;
依据所述第二向量对于所述第一向量的第二注意力信息,对所述第一向量进行加权,以得到第二加权向量;
依据所述第一加权向量和所述第二加权向量,确定所述查询词与所述网页之间的相关性信息。
另一方面,本发明实施例公开了一种数据处理装置,包括:
向量确定模块,用于确定查询词对应的第一向量,确定网页对应的第二向量;
第一加权模块,用于依据所述第一向量对于所述第二向量的第一注意力信息,对所述第二向量进行加权,以得到第一加权向量;
第二加权模块,用于依据所述第二向量对于所述第一向量的第二注意力信息,对所述第一向量进行加权,以得到第二加权向量;以及
相关性信息确定模块,用于依据所述第一加权向量和所述第二加权向量,确定所述查询词与所述网页之间的相关性信息。
再一方面,本发明实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定查询词对应的第一向量,确定网页对应的第二向量;
依据所述第一向量对于所述第二向量的第一注意力信息,对所述第二向量进行加权,以得到第一加权向量;
依据所述第二向量对于所述第一向量的第二注意力信息,对所述第一向量进行加权,以得到第二加权向量;
依据所述第一加权向量和所述第二加权向量,确定所述查询词与所述网页之间的相关性信息。
为了解决上述问题,本发明实施例公开了一种数据处理方法,包括:
确定查询词对应的搜索结果;
依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据前述的方法得到;
输出排序后的搜索结果。
另一方面,本发明实施例公开了一种数据处理装置,所述装置包括:
搜索结果确定模块,用于确定查询词对应的搜索结果;
搜索结果排序模块,用于依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据前述的方法得到;以及
搜索结果输出模块,用于输出排序后的搜索结果。
再一方面,本发明实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定查询词对应的搜索结果;
依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据前述的方法得到;
输出排序后的搜索结果。
又一方面,本发明实施例公开了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行前述一个或多个所述的数据处理方法。
本发明实施例包括以下优点:
本发明实施例通过注意力信息表征查询词与网页之间的逻辑性和关联性。上述注意力信息可以包括:上述第一向量对于上述第二向量的第一注意力信息、以及上述第二向量对于上述第一向量的第二注意力信息。
第一注意力信息可以用于反映网页分词对查询词的重要性,依据第一注意力信息对第二向量进行加权,可以针对重要性较高的网页分词,增加权重,由此可以提高第一加权向量的表意能力。
第二注意力信息可以用于反映查询分词对网页的重要性,依据第二注意力信息对第一向量进行加权,可以针对重要性较高的查询分词,增加权重,由此可以提高第二加权向量的表意能力。
在提高第一加权向量和第二加权向量的表意能力的情况下,本发明实施例依据上述第一加权向量和上述第二加权向量,确定上述查询词与上述网页之间的相关性信息,可以提高相关性信息的准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种数据处理方法实施例一的步骤流程图;
图2是本发明的一种数据处理方法实施例二的步骤流程图;
图3是本发明的一种数据处理方法实施例三的步骤流程图;
图4是本发明的一种数据处理方法实施例四的步骤流程图;
图5是本发明的另一种数据处理装置实施例的结构框图;
图6是本发明的另一种数据处理装置实施例的结构框图;
图7是本发明的一种用于数据处理的装置900的框图;及
图8是本发明的一些实施例中服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种数据处理方案,该方案可以提高相关性信息的准确度。
该方案具体包括:确定查询词对应的第一向量,确定网页对应的第二向量;依据上述第一向量对于上述第二向量的第一注意力信息,对上述第二向量进行加权,以得到第一加权向量;依据上述第二向量对于上述第一向量的第二注意力信息,对上述第一向量进行加权,以得到第二加权向量;以及,依据上述第一加权向量和上述第二加权向量,确定上述查询词与上述网页之间的相关性信息。
本发明实施例通过注意力信息表征查询词与网页之间的逻辑性和关联性。上述注意力信息可以包括:上述第一向量对于上述第二向量的第一注意力信息、以及上述第二向量对于上述第一向量的第二注意力信息。
第一注意力信息可以用于反映网页分词对查询词的重要性,依据第一注意力信息对第二向量进行加权,可以针对重要性较高的网页分词,增加权重,由此可以提高第一加权向量的表意能力。
第二注意力信息可以用于反映查询分词对网页的重要性,依据第二注意力信息对第一向量进行加权,可以针对重要性较高的查询分词,增加权重,由此可以提高第二加权向量的表意能力。
在提高第一加权向量和第二加权向量的表意能力的情况下,本发明实施例依据上述第一加权向量和上述第二加权向量,确定上述查询词与上述网页之间的相关性信息,可以提高相关性信息的准确度。
本发明实施例可以应用于搜索等应用场景。在搜索场景中,网页可用于作为查询词对应的搜索结果,则可以依据上述相关性信息,对搜索结果进行排序;由于依据准确度更高的相关性信息进行排序,故可以提高搜索结果排序的合理性,由此将与查询词相关性更高的搜索结果优先提供给用户。
本发明实施例提供的数据处理方法可应用于客户端和服务端对应的应用环境中,客户端与服务端位于有线或无线网络中,通过该有线或无线网络,客户端与服务端进行数据交互。
可选地,客户端可以运行在终端上,上述终端具体包括但不限:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving Picture ExpertsGroup Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4,Moving PictureExperts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。可选地,客户端可以对应任意的应用程序,如搜索程序、搜索网站等,搜索程序和搜索网站可以与搜索引擎相应。
方法实施例一
参照图1,示出了本发明的一种数据处理方法实施例一的步骤流程图,具体可以包括:
步骤101、确定查询词对应的第一向量,确定网页对应的第二向量;
步骤102、依据上述第一向量对于上述第二向量的第一注意力信息,对上述第二向量进行加权,以得到第一加权向量;
步骤103、依据上述第二向量对于上述第一向量的第二注意力信息,对上述第一向量进行加权,以得到第二加权向量;
步骤104、依据上述第一加权向量和上述第二加权向量,确定上述查询词与上述网页之间的相关性信息。
图1所示方法实施例一可由服务端执行,当然本发明实施例对于方法实施例一对应的具体执行主体不加以限制。
步骤101中,查询词可用于表征向搜索引擎提交的字符串。
本发明实施例可以依据历史查询词集合得到上述查询词,例如,可以从历史查询词集合中确定出步骤101中的查询词。或者,可以构造得到上述查询词。可以理解,任意的查询词均在本发明实施例的查询词的保护范围之内,本发明实施例对于具体的查询词不加以限制。
网页是构成网站的基本元素,是承载各种网站应用的平台。在搜索场景中,网页可用于作为查询词对应的搜索结果。可选地,本发明实施例可以从预置网站对应的网页中确定出步骤101中的网页。可以理解,任意的网页的均在本发明实施例的网页的保护范围之内,本发明实施例对于棘突的网页不加以限制。
第一向量可用于表征查询词在向量空间内的表示,第二向量可用于表征网页在向量空间内的表示。
根据一种实施例,可以对查询词进行分词,并将查询词对应的查询分词嵌入向量空间,以得到查询词对应的第一向量。
例如,查询词A为“怎么样能转发微信语音”,可以依据查询词A得到q个查询分词,q=5,5个查询分词分别为:“怎么样”、“能”、“转发”、“微信”、“语音”;假设词的嵌入维度为P维,则查询词A中的每个查询分词可被映射为一个维度为P的向量,则q个查询分词可被表示为q×P维的向量。P的例子可以为128、256等。
根据一种实施例,可以将网页信息嵌入向量空间,以得到网页对应的第二向量。网页信息可以包括:网页标题、网页正文和网页站点中的至少一种。
可选地,可以对网页标题或网页正文进行分词,以得到对应多个网页分词。可以进一步将多个网页分词嵌入向量空间。
上述对网页正文进行分词,具体可以包括:从网页正文中抽取正文关键词。例如,可以采用词频-逆向文档频率(TF-IDF,term frequency–inverse document frequency)等方法,从网页正文中抽取正文关键词,本发明实施例对于从网页正文中抽取正文关键词的具体过程不加以限制。
例如,网页A的网页标题A为“微信语音怎么转发给好友”,可以依据网页标题A得到t个标题分词,t=6,6个标题分词分别为:“微信”、“语音”、“怎么”、“转发”、“给”、“好友”;假设词的嵌入维度为P维,则网页标题A中的每个标题分词可被映射为一个维度为P的向量,则t个标题分词可被表示为t×P维的向量。
又如,从网页A的网页正文中抽取了k个正文关键词,k=5,k个正文关键词分别为:“微信”、“语音”、“手机”、“点击”、“转发”;假设词的嵌入维度为P维,则网页A的网页正文中每个正文关键词可被映射为一个维度为P的向量,则k个正文关键词可被表示为k×P维的向量。其中,q、t、k、P可以为大于0的自然数。
可选地,网页站点可以对应有网页地址,可以依据网页地址与向量之间的映射关系,确定网页站点对应的向量,由此可以将网页站点嵌入向量空间。假设网页站点的嵌入维度为Q维,则网页站点可以表述为1×Q维的向量。Q可以为大于0的自然数,Q的例子可以为128、256等。
本发明实施例中,网页标题对应的向量可以称为标题向量,网页站点对应的向量可以称为站点向量,网页正文对应的向量可以称为正文向量。可选地,可以对标题向量、站点向量和正文向量中的至少两种进行融合,以得到网页对应的向量。
在本发明的一种可选实施例中,所述确定查询词对应的第一向量,具体包括:利用双向长短期记忆(双向LSTM,Bi Long Short-Term Memory)网络,对查询词对应的向量进行编码,以得到查询词对应的第一向量。双向LSTM可以包括:前向LSTM和后向LSTM,利用双向LSTM网络对查询词对应的向量进行编码,可以使编码后的第一向量带有多个查询分词对应的上下文信息。例如,可以首先将查询词对应的查询分词嵌入向量空间,以得到查询词向量,然后,利用双向LSTM网络将查询词向量进行编码,以得到第一向量。
在本发明的一种可选实施例中,上述确定网页对应的第二向量,具体可以包括:利用双向长短期记忆LSTM网络,对网页对应的向量进行编码,以得到网页对应的第二向量。利用双向LSTM网络对网页对应的向量进行编码,可以使编码后的第二向量带有多个网页分词对应的上下文信息。例如,可以对标题向量、站点向量和正文向量中的至少两种进行融合后,利用双向LSTM网络对得到的第一融合结果进行编码,以得到第二向量。
可以理解,本发明实施例中,一个分词对应一个向量,则多个分词可以对应多个向量。因此,本发明实施例中,查询词对应的第一向量可以为多个,网页对应的第二向量可以为多个。
本发明实施例对步骤102和步骤103的执行顺序不加以限制,两者可以先后执行、后先执行或者并列执行。
步骤102中,第一注意力信息可以用于反映网页分词对查询词的重要性,依据第一注意力信息对第二向量进行加权,可以针对重要性较高的网页分词增加权重,由此可以提高第一加权向量的表意能力。
本发明实施例中,可选的是,可以通过如下步骤确定所述第一向量对于所述第二向量的第一注意力信息:
依据转置后的第一向量和所述第二向量,确定第一匹配矩阵;可选地,可以将第二向量、模型参数矩阵和转置后的第一向量进行相乘,以得到第一匹配矩阵M。第一匹配矩阵M的行表征网页分词,第一匹配矩阵M的列表征查询分词,第一匹配矩阵M的第i行第j列表征第i个网页分词与第j个查询分词之间的匹配度。i、j可以为自然数。
对所述第一匹配矩阵M在行上进行归一化处理,以得到第二匹配矩阵;可以利用归一化函数,对所述第一匹配矩阵M在行上进行归一化处理,以得到第二匹配矩阵M’。归一化函数可以包括:softmax()等。
依据所述第二匹配矩阵和所述第一向量,确定第一注意力矩阵;所述第一注意力矩阵用于表征所述第一向量对于所述第二向量的第一注意力信息。可选地,可以将第二匹配矩阵M’与第一向量相乘,以得到第一注意力矩阵。
本发明实施例中,可选的是,上述对上述第二向量进行加权,具体可以包括:依据第一注意力矩阵,对第二向量进行加权。可选地,上述依据第一注意力矩阵,对第二向量进行加权,具体可以包括:对第一注意力矩阵和第二向量中对应的元素位取最大值,具体地,从第二向量中的第二元素值、以及第一注意力矩阵中与第二向量中的第二元素值相应的第一元素值中选取大的一者,作为第一目标元素值,并依据第一目标元素值得到加权后的第二向量。其中,第二元素值与第一元素值相应,可以指两者的位置相应。例如,第二匹配矩阵M’(i,j)与第i个网页分词对应第二向量的第j个位置相应。
可选地,在对上述第二向量进行加权的过程中,可以采用模型参数。本发明实施例的模型可以指数学模型。模型参数可以通过训练得到。本发明实施例中,不同的运算过程可以利用相同或不同的模型参数,本发明实施例对于具体的模型参数不加以限制。
数学模型是运用数理逻辑方法和数学语言建构的科学或工程模型,数学模型是针对参照某种事物系统的特征或数量依存关系,采用数学语言,概括地或近似地表述出的一种数学结构,这种数学结构是借助于数学符号刻画出来的关系结构。数学模型可以是一个或一组代数方程、微分方程、差分方程、积分方程或统计学方程及其组合,通过这些方程定量地或定性地描述系统各变量之间的相互关系或因果关系。除了用方程描述的数学模型外,还有用其他数学工具,如代数、几何、拓扑、数理逻辑等描述的模型。其中,数学模型描述的是系统的行为和特征而不是系统的实际结构。其中,可采用机器学习、深度学习方法等方法进行数学模型的训练,机器学习方法可包括:线性回归、决策树、随机森林等,深度学习方法可包括:卷积神经网络(Convolutional Neural Networks,CNN)、长短期记忆网络(LongShort-Term Memory,LSTM)、门控循环单元(Gated Recurrent Unit,GRU)等。
步骤103中,第二注意力信息可以用于反映查询分词对网页的重要性,依据第二注意力信息对第一向量进行加权,可以针对重要性较高的查询分词增加权重,由此可以提高第二加权向量的表意能力。
本发明实施例中,可选的是,通过如下步骤确定所述第二向量对于所述第一向量的第二注意力信息:
依据转置后的第二向量和所述第一向量,确定第三匹配矩阵;可选地,可以将第一向量、模型参数矩阵和转置后的第二向量进行相乘,以得到第三匹配矩阵N。第三匹配矩阵N的行表征查询分词,第三匹配矩阵N的列表征网页分词,第三匹配矩阵N的第i行第j列表征第i个查询分词与第j个网页分词之间的匹配度。
对所述第三匹配矩阵N在行上进行归一化处理,以得到第四匹配矩阵;可以利用归一化函数,对所述第三匹配矩阵在行上进行归一化处理,以得到第四匹配矩阵N’。归一化函数可以包括:softmax()等。
依据所述第四匹配矩阵和所述第二向量,确定第二注意力矩阵;所述第二注意力矩阵用于表征所述第二向量对于所述第一向量的第二注意力信息。可选地,可以将第四匹配矩阵N’与第二向量相乘,以得到第二注意力矩阵。
本发明实施例中,可选的是,上述对上述第一向量进行加权,具体可以包括:依据第二注意力矩阵,对第一向量进行加权。可选地,上述依据第二注意力矩阵,对第一向量进行加权,具体可以包括:对第二注意力矩阵和第一向量中对应的元素位取最大值,具体地,从第一向量中的第四元素值、以及第二注意力矩阵中与第一向量中的第四元素值相应的第三元素值中选取大的一者,作为第二目标元素值,并依据第二目标元素值得到加权后的第一向量。其中,第四元素值与第三元素值相应,可以指两者的位置相应。例如,第二匹配矩阵N’(i,j)与第i个查询分词对应第一向量的第j个位置相应。
步骤102和步骤103得到了表意能力更强的第一加权向量和第二加权向量,故步骤104依据所述第一加权向量和所述第二加权向量,确定所述查询词与所述网页之间的相关性信息,可以提高相关性信息的准确度。
可选地,上述确定所述查询词与所述网页之间的相关性信息,具体可以包括:
确定所述第一加权向量对应的第一语义向量和所述第二加权向量对应的第二语义向量;
依据所述第一语义向量和所述第二语义向量对应的一次项交互信息和二次项交互信息,确定所述查询词与所述网页之间的相关性信息。
第一语义向量和第二语义向量分别携带有语义信息。可选地,可以利用卷积神经网络(CNN,Convolutional Neural Networks),确定第一语义向量和第二语义向量。当然,本发明实施例对于确定第一语义向量和第二语义向量的具体过程不加以限制。
一次项交互信息的确定过程可以包括:对第一语义向量和第二语义向量进行融合得到第二融合结果,依据所述第二融合结果和模型参数,得到一次项交互信息。可选地,一次项交互信息的确定过程中可以利用模型参数。
二次项交互信息的确定过程可以包括:依据第一语义向量和第二语义向量的乘积,得到二次项交互信息。可选地,二次项交互信息的确定过程中可以利用模型参数。
本发明实施例可以对一次项交互信息和二次项交互信息进行融合,以得到相关性信息,融合过程中可以利用模型参数。
本发明实施例可以对步骤104得到的相关性进行保存,以备使用。
综上,本发明实施例的数据处理方法,通过注意力信息表征查询词与网页之间的逻辑性和关联性。上述注意力信息可以包括:上述第一向量对于上述第二向量的第一注意力信息、以及上述第二向量对于上述第一向量的第二注意力信息。
第一注意力信息可以用于反映网页分词对查询词的重要性,依据第一注意力信息对第二向量进行加权,可以针对重要性较高的网页分词,增加权重,由此可以提高第一加权向量的表意能力。
第二注意力信息可以用于反映查询分词对网页的重要性,依据第二注意力信息对第一向量进行加权,可以针对重要性较高的查询分词,增加权重,由此可以提高第二加权向量的表意能力。
在提高第一加权向量和第二加权向量的表意能力的情况下,本发明实施例依据上述第一加权向量和上述第二加权向量,确定上述查询词与上述网页之间的相关性信息,可以提高相关性信息的准确度。
方法实施例二
参照图2,示出了本发明的一种数据处理方法实施例二的步骤流程图,具体可以包括:
步骤201、确定查询词对应的第一向量;
步骤202、确定网页对应的第三向量;
步骤203、依据所述第一向量对于所述第三向量的第三注意力信息,对所述第三向量进行加权,以得到第三加权向量;
步骤204、依据所述第三加权向量,确定网页对应的第二向量;
步骤205、依据上述第一向量对于上述第二向量的第一注意力信息,对上述第二向量进行加权,以得到第一加权向量;
步骤206、依据上述第二向量对于上述第一向量的第二注意力信息,对上述第一向量进行加权,以得到第二加权向量;
步骤207、依据上述第一加权向量和上述第二加权向量,确定上述查询词与上述网页之间的相关性信息。
相对于图1所述方法实施例一,本实施例通过步骤202至步骤204细化了确定网页对应的第二向量的过程。
本发明实施例依据第一向量对于第三向量的第三注意力信息,对第三向量进行加权,可以使重要的网页分词得到更高的权重,因此可以增加加权后的第三向量(也即第三加权向量)的表意能力。在增加第三加权向量的表意能力的情况下,依据第三加权向量得到第二向量,可以提高第二向量的表意能力。
步骤202中,可以依据网页对应的正文关键词,确定网页对应的第三向量。例如,可以将正文关键词嵌入向量空间,以得到第三向量。
可选地,可以通过如下步骤确定第三注意力信息:
依据转置后的第一向量和所述第三向量,确定第五匹配矩阵;可选地,可以对第三向量、模型参数矩阵和转置后的第一向量进行相乘,以得到第五匹配矩S。第五匹配矩阵S的行表征网页分词,第五匹配矩阵的列表征查询分词,第五匹配矩阵M的第i行第j列表征第i个网页分词与第j个查询分词之间的匹配度。i、j可以为自然数。
对所述第五匹配矩阵在行上进行归一化处理,以得到第六匹配矩阵;可以利用归一化函数,对所述第五匹配矩阵在行上进行归一化处理,以得到第五匹配矩阵S’。归一化函数可以包括:softmax()等。
依据所述第六匹配矩阵和所述第一向量,确定第三注意力矩阵;所述第三注意力矩阵用于表征所述第一向量对于所述第三向量的第三注意力信息。可选地,可以将第六匹配矩阵S’与第一向量相乘,以得到第三注意力矩阵。
可选地,上述对所述第三向量进行加权的过程具体包括:依据第三注意力矩阵,对第三向量进行加权。可选地,上述依据第三注意力矩阵,对第三向量进行加权,具体可以包括:对第三注意力矩阵和第三向量中对应的元素位取最大值,具体地,从第三向量中的第六元素值、以及第三注意力矩阵中与第三向量中的第六元素值相应的第五元素值中选取大的一者,作为第三目标元素值,并依据第三目标元素值得到加权后的第三向量。其中,第六元素值与第五元素值相应,可以指两者的位置相应。例如,第三匹配矩阵M’(i,j)与第i个网页分词对应第三向量的第j个位置相应。
可选地,在对上述第三向量进行加权的过程中,可以采用模型参数。
在本发明的一种可选实施例中,所述依据所述第三加权向量,确定网页对应的第二向量,具体包括:对所述网页对应的第三加权向量、标题向量和站点向量进行融合,以得到网页对应的第二向量。
第三加权向量可以依据正文关键词得到,故可以对网页对应的正文向量、标题向量和站点向量进行融合,以提高第二向量所包含信息的丰富度。
本发明实施例中,可选的是,上述对所述网页对应的第三加权向量、标题向量和站点向量进行融合,包括:
对所述第三加权向量和站点向量进行融合,以得到融合向量;
将所述融合向量拼接到标题分词对应的标题向量后面,以得到网页对应的第二向量。
本发明实施例可以首先对第三加权向量和站点向量进行拼接。例如,第三加权向量为1×128维度,站点向量为1×128维度,则拼接得到的融合向量可以为1×256维度。
例如,一个标题分词对应的标题向量为1×128维度,则可以将1×256维度的融合向量拼接到每个标题分词对应的标题向量后面,以得到每个标题分词分别对应的第二向量,第二向量的维度可以为1×384维度。
综上,本发明实施例的数据处理方法,依据第一向量对于第三向量的第三注意力信息,对第三向量进行加权,可以使重要的网页分词得到更高的权重,因此可以增加加权后的第三向量(也即第三加权向量)的表意能力。在增加第三加权向量的表意能力的情况下,依据第三加权向量得到第二向量,可以提高第二向量的表意能力。
在增加第二向量的表意能力的情况下,依据注意力信息对第一向量和第二向量进行加权,并依据第一加权向量和第二加权向量,确定相关性信息,可以提高相关性信息的准确度。
方法实施例三
参照图3,示出了本发明的一种数据处理方法实施例三的步骤流程图,具体可以包括:
步骤301、确定查询词对应的第一向量;
步骤302、确定网页对应的第三向量;
步骤303、依据上述第一向量对于上述第三向量的第三注意力信息,对上述第三向量进行加权,以得到第三加权向量;
步骤304、对上述第三加权向量和站点向量进行融合,以得到融合向量;
步骤305、将上述融合向量拼接到标题分词对应的标题向量后面,以得到网页对应的第二向量;
步骤306、依据上述第一向量对于上述第二向量的第一注意力信息,对上述第二向量进行加权,以得到第一加权向量;
步骤307、依据上述第二向量对于上述第一向量的第二注意力信息,对上述第一向量进行加权,以得到第二加权向量;
步骤308、依据上述第一加权向量和上述第二加权向量,确定上述查询词与上述网页之间的相关性信息。
本发明实施例对网页对应的正文向量、标题向量和站点向量进行融合,可以提高第二向量所包含信息的丰富度。
在增加第二向量的丰富度的情况下,依据注意力信息对第一向量和第二向量进行加权,并依据第一加权向量和第二加权向量,确定相关性信息,可以提高相关性信息的准确度。
为使本领域技术人员更好地理解本发明实施例,在此提供本发明实施例的数据处理方法的具体示例,该示例具体可以包括如下步骤:
步骤S1、对查询词query和网页信息(可以包括但不限于包括网页标题、网页正文等)进行分词,假设从查询词中得到q查询分词,从网页标题中得到t个标题分词,从网页正文中提取出p个正文关键词;
例如,查询词A为“怎么样能转发微信语音”,可以依据查询词A得到q个查询分词,q=5,5个查询分词分别为:“怎么样”、“能”、“转发”、“微信”、“语音”。
假设网页A的网页标题A为“微信语音怎么转发给好友”,可以依据网页标题A得到t个标题分词,t=6,6个标题分词分别为:“微信”、“语音”、“怎么”、“转发”、“给”、“好友”。
假设从网页A的网页正文中抽取了k个正文关键词,k=5,k个正文关键词分别为:“微信”、“语音”、“手机”、“点击”、“转发”。
步骤S2、将query、网页标题、网页正文和网页站点嵌入向量空间,分别得到q_emb、t_emb、k_emb、docid_emb;
假设词的嵌入维度为P维,则查询词A中的每个查询分词可被映射为一个维度为P的向量,则q个查询分词可被表示为q×P维的向量q_emb。P的例子可以为128、256等。
假设词的嵌入维度为P维,则网页A的网页标题中的每个标题分词可被映射为一个维度为P的向量,则t个标题分词可被表示为t×P维的向量t_emb。
假设词的嵌入维度为P维,则网页A的网页正文中每个正文关键词可被映射为一个维度为P的向量,则k个正文关键词可被表示为k×P维的向量k_emb。
假设网页站点的嵌入维度为Q维,则网页站点可以表述为1×Q维的向量docid_emb。Q可以为大于0的自然数,Q的例子可以为128、256等。
步骤S3、依据q_emb对于k_emb的第三注意力信息,对k_emb进行加权,以得到第三加权向量k_att;
步骤S3将正文关键词与query做交互,根据query对重要的正文关键词进行加权(即从query到正文关键词做attention(注意力),针对每个正文关键词,分别遍历query中每个分词,计算得到k_emb中每个正文关键词的词义向量与q_emb中每个查询分词的词义向量之间的相似度),得到带有attention信息的第三加权向量k_att。
可选地,可以通过如下公式得到第三加权向量k_att:
M=k_emb*W1*q_embT (1)
M′=softmax(M) (2)
att_k=M′*q_emb (3)
k_att=W2*Max(k_emb,att_k) (4)
公式(1)表示计算两组向量的双线性相似度,其中“*”表示矩阵乘,W1表示模型参数矩阵,q_embT表示转置后的query向量,M表示得到query与正文关键词之间的匹配矩阵(矩阵M中行表示正文关键词,列表示查询分词,矩阵M中的第i行第j列表示第i个正文关键词与第j个查询词之间的相似度)。
公式(2)中softmax(·)表示对匹配矩阵M在行上做softmax处理,从而得到每一个正文关键词对query中每一个查询分词的匹配概率矩阵M′。
公式(3)表示由匹配概率矩阵M′与q_emb相乘得到正文关键词的注意力矩阵att_k。
公式(4)表示用注意力矩阵att_k对k_emb进行加权并做线性处理,其中Max(·)表示加权方式,即k_emb与att_k对应位取最大值,W1表示模型参数矩阵。
由上一步知,查询词A对应的q_emb为5*128,网页A的正文关键词对应的k_emb为5*128;设参数矩阵W1的维度为128*128,则由公式(1)计算出q_emb和k_emb对应的5*5维的匹配矩阵M,例如,M中第2行第3列表示了第2个正文关键词“语音”和第3个查询分词“转发”的相似度。由公式(2)计算每一个正文关键词对到哪一个查询分词上,即计算每一个正文关键词对每个查询分词的匹配概率,以得到5*5维的匹配概率矩阵M′.公式(3)用5*5维的矩阵M′与5*128维的q_emb做乘积,得到5*128维的k_emb的注意力矩阵att_k;然后对5*128维的k_emb与5*128维的att_k对应位取最大值,即用注意力矩阵att_k对k_emb进行加权,然后用1*5的模型参数矩阵乘上5*128维加权后的k_emb,得到最终的1*128的带有注意力信息的第三加权向量k_att;
步骤S4、对第三加权向量k_att、docid_emb和t_emb进行融合,得到网页综合信息向量t_docinfo;相应的融合方式可以包括但不限于:拼接、相加、拼接或相加后进行线性变换等。
可选地,可以首先将k_att与网页站点docid_emb进行拼接,得到docinfo向量;然后将docinfo向量拼接到t_emb的每个分词向量后面,得到网页信息向量t_docinfo。
例如,1*128维的k_att,1*128维的docid_emb直接在最后一维拼接得到1*256维的docinfo向量,1*256维docinfo向量拼接到6*128维的t_emb中的每个标题向量后面,得到6*384维的网页综合信息向量t_docinfo。
6*128维的t_emb包括6个标题向量,每个标题向量为1*128维。假设6个标题向量分别为t_emb_1、t_emb_2、t_emb_3、t_emb_4、t_emb_5和t_emb_6,则可以将1*256维docinfo向量分别拼接到t_emb_1、t_emb_2、t_emb_3、t_emb_4、t_emb_5和t_emb_6之后,得到6个1*384维的拼接向量,依据6个1*384维的拼接向量可以得到6*384维的网页综合信息向量t_docinfo。
经过步骤S4的处理,网页标题词向量t_emb中每一个标题分词都带有除标题外的其他网页信息。
步骤S5、将q_emb与网页综合信息向量t_docinfo通过神经网络进行编码并做线性变换降维,分别得到q_emb、t_docinfo编码后的向量q_enc,t_enc。
可选地,可以采用如下公式对q_emb与网页综合信息向量t_docinfo进行编码:
q_enc=biLSTM(q_emb)*W3 (5)
t_enc=biLSTM(t_docinfo)*W4 (6)
公式(5)、公式(6)中biLSTM(·)表示双向LSTM编码模型,W3、W4表示模型参数矩阵;
假设双向LSTM编码模型的神经元数量为100,W3维度200*100,W4维度为200*100;5*128维的q_emb通过双向biLSTM编码后,得到5*200维的编码向量,经过线性变换降维最终得到5*100维的query分词的编码向量q_enc;同理6*128维的t_docinfo最终编码为6*100维的t_docinfo的编码向量t_enc。
通过步骤S5的双向LSTM编码,可以得到带有上下文信息的查询词向量和网页向量。
步骤S6、将query、网页对应的编码向量q_enc与t_enc进行双向交互,分别从query->网页、网页->query两个方向进行注意力处理,并依据对应的注意力信息对q_enc与t_enc进行加权,分别得到带有注意力信息的q_att与t_docinfo_att。
例如,查询词A对应的编码向量q_enc为5*100,网页A“对应的编码词编码向量t_enc为6*100。
在针对query->网页方向进行注意力处理的情况下,可以首先确定带有网页信息及上下文信息的网页标题中的每一个网页分词对到带有上下文信息的query中的哪一个查询分词上,即计算得到匹配矩阵M和匹配概率矩阵M′,维度为6*5;匹配概率矩阵M′与5*100维的q_enc做乘积,得到6*100维的t_enc的加权矩阵att_t;然后用加权矩阵att_t对t_enc进行加权,加权过程中可以进行线性变换、或者不进行线性变换,得到最终的6*100维的带有注意力信息的网页综合信息向量t_docinfo_att。
在针对网页->query方向进行注意力处理的情况下,可以对匹配度矩阵M在行上做softmax(即softmax(MT)),计算得到匹配概率矩阵M”,维度为5*6;矩阵M”与6*100维的t_enc做乘积,得到5*100维的q_enc的加权矩阵att_q;然后用加权矩阵att_q对q_enc进行加权,加权过程中可以进行线性变换、或者不进行线性变换,得到最终的5*100维的带有注意力信息的查询向量q_att。
针对query->网页方向进行注意力处理,根据query,网页信息中的“微信”、“语音”、“如何”、“转发”与query的相关性较大,将会得到更高的权重。
针对网页->query方向进行注意力处理,根据网页信息,query中的“微信”、“语音”、“怎么样”、“转发”与网页信息的相关性较大,将会得到更高的权重。
步骤S7、依据卷积网络分别得到加权后的q_att与t_docinfo_att的语义向量q_final和t_docinfo_final,并确定query和网页之间的相关性信息score。
相关性信息涉及的公式如下:
q_final=CNN(q_att) (7)
t_docinfo_final=CNN(t_docinfo_att) (8)
score=σ(q_final*W5*(t_docinfo_att)T+[q_final,t_docinfo_final]*W6+b)(9)
公式(7)、公式(8)中CNN(·)表示卷积网络模型,公式(9)中W5、W6表示模型参数矩阵,[X,Y]表示对向量X、Y进行拼接,b表示偏置参数,σ(·)表示激活函数。公式(9)中加法运算的第一位和第二位分别表征二次项信息和一次项信息。
由上一步知:query的加权向量q_att的维度为5*100,网页信息的加权向量t_docinfo_att的维度为6*100;设CNN的神经元为512,CNN的全连接层最后的输出维度为256,W5的维度为256*256,W6的维度为512*1,b的维度为1;则由公式(7)得到q_final,维度为1*256,表示query最终的语义向量;由公式(8)得到t_docinfo_att,维度为1*256,表示网页最终的语义向量;由公式(9)得到query与网页之间的相关性信息score。
综上,本发明实施例根据query对正文关键词进行注意力加权,使重要的正文关键词得到更高的权重;并将带有注意力信息的正文关键词与网页站点和网页标题进行融合,使网页标题词中每一个分词都带有除标题外的其他网页信息。
并且,本发明实施例分别从query->网页、网页->query两个方向进行注意力加权,使query和网页信息中的重要的分词得到更高的权重。
本发明实施例的注意力加权,可以得到表示更为充分的语义向量,从而提高相关性信息的准确度。
方法实施例四
参照图4,示出了本发明的一种数据处理方法实施例四的步骤流程图,具体可以包括:
步骤401、确定查询词对应的搜索结果;
步骤402、依据上述查询词与上述搜索结果之间的相关性信息,对上述搜索结果进行排序;
其中,上述相关性信息为依据图1至图3任一所示的方法得到;
步骤403、输出排序后的搜索结果。
本发明实施例可以应用于搜索场景等应用场景。在搜索场景中,网页可用于作为查询词对应的搜索结果,则可以依据上述相关性信息,对搜索结果进行排序;由于依据准确度更高的相关性信息进行排序,故可以提高搜索结果的排序结果的合理性,由此将与查询词的相关性更高的搜索结果优先提供给用户。
步骤401中,可以依据用户输入的查询词,在搜索引擎的数据库中进行检索,以得到查询词对应的搜索结果。
步骤402中,可以将相关性信息作为排序特征,对上述搜索结果进行排序。可选地,除了相关性信息之外,排序特征还可以包括:用户特征、网页的热度特征等特征。
步骤403中,服务端可以向客户端输出排序后的搜索结果,或者,客户端可以向用户输出排序后的搜索结果。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的运动动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。
装置实施例
参照图5,示出了本发明的一种数据处理装置实施例的结构框图,具体可以包括:向量确定模块501、第一加权模块502、第二加权模块503和相关性信息确定模块504。
其中,向量确定模块501,用于确定查询词对应的第一向量,确定网页对应的第二向量;
第一加权模块502,用于依据所述第一向量对于所述第二向量的第一注意力信息,对所述第二向量进行加权,以得到第一加权向量;
第二加权模块503,用于依据所述第二向量对于所述第一向量的第二注意力信息,对所述第一向量进行加权,以得到第二加权向量;以及
相关性信息确定模块504,用于依据所述第一加权向量和所述第二加权向量,确定所述查询词与所述网页之间的相关性信息。
可选地,向量确定模块501具体可以包括:
第三向量确定模块,用于确定网页对应的第三向量;
第三向量加权模块,用于依据所述第一向量对于所述第三向量的第三注意力信息,对所述第三向量进行加权,以得到第三加权向量;
第二向量确定模块,用于依据所述第三加权向量,确定网页对应的第二向量。
可选地,所述第三向量确定模块,具体用于依据网页对应的正文关键词,确定网页对应的第三向量。
可选地,所述第二向量确定模块可以包括:
向量融合模块,用于对所述网页对应的第三加权向量、标题向量和站点向量进行融合,以得到网页对应的第二向量。
可选地,所述向量融合模块可以包括:
第一向量融合模块,用于对所述第三加权向量和站点向量进行融合,以得到融合向量;
第二向量融合模块,用于将所述融合向量拼接到标题分词对应的标题向量后面,以得到网页对应的第二向量。
可选地,所述向量确定模块可以包括:
第一编码模块,用于利用双向长短期记忆网络,对查询词对应的向量进行编码,以得到查询词对应的第一向量。
可选地,所述向量确定模块可以包括:
第二编码模块,用于利用双向长短期记忆网络,对网页对应的向量进行编码,以得到网页对应的第二向量。
可选地,相关性信息确定模块504可以包括:
语义向量确定模块,用于确定所述第一加权向量对应的第一语义向量,以及确定所述第二加权向量对应的第二语义向量;
基于交互的相关性信息确定模块,用于依据所述第一语义向量和所述第二语义向量对应的一次项交互信息和二次项交互信息,确定所述查询词与所述网页之间的相关性信息。
可选地,所述装置还可以包括:
第一匹配矩阵确定模块,用于依据转置后的第一向量和所述第二向量,确定第一匹配矩阵;
第二匹配矩阵确定模块,用于对所述第一匹配矩阵在行上进行归一化处理,以得到第二匹配矩阵;
第一注意力矩阵确定模块,用于依据所述第二匹配矩阵和所述第一向量,确定第一注意力矩阵;所述第一注意力矩阵用于表征所述第一向量对于所述第二向量的第一注意力信息。
可选地,所述装置还可以包括:
第三匹配矩阵确定模块,用于依据转置后的第二向量和所述第一向量,确定第三匹配矩阵;
第四匹配矩阵确定模块,用于对所述第三匹配矩阵在行上进行归一化处理,以得到第四匹配矩阵;
第二注意力矩阵确定模块,用于依据所述第四匹配矩阵和所述第二向量,确定第二注意力矩阵;所述第二注意力矩阵用于表征所述第二向量对于所述第一向量的第二注意力信息。
参照图6,示出了本发明的一种数据处理装置实施例的结构框图,具体可以包括:搜索结果确定模块601、搜索结果排序模块602和搜索结果输出模块604。
其中,搜索结果确定模块601,用于确定查询词对应的搜索结果;
搜索结果排序模块603,用于依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据前述的方法得到;以及
搜索结果输出模块603,用于输出排序后的搜索结果。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例还提供了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:确定查询词对应的第一向量,确定网页对应的第二向量;依据所述第一向量对于所述第二向量的第一注意力信息,对所述第二向量进行加权,以得到第一加权向量;依据所述第二向量对于所述第一向量的第二注意力信息,对所述第一向量进行加权,以得到第二加权向量;依据所述第一加权向量和所述第二加权向量,确定所述查询词与所述网页之间的相关性信息。
图7是根据一示例性实施例示出的一种用于数据处理的装置900作为终端时的结构框图。例如,装置900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为装置900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到设备900的打开/关闭状态,组件的相对定位,例如所述组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图8是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时,使得装置能够执行一种数据处理方法,所述方法包括:确定查询词对应的第一向量,确定网页对应的第二向量;依据所述第一向量对于所述第二向量的第一注意力信息,对所述第二向量进行加权,以得到第一加权向量;依据所述第二向量对于所述第一向量的第二注意力信息,对所述第一向量进行加权,以得到第二加权向量;依据所述第一加权向量和所述第二加权向量,确定所述查询词与所述网页之间的相关性信息。
本发明实施例公开了A1、一种数据处理方法,包括:
确定查询词对应的第一向量,确定网页对应的第二向量;
依据所述第一向量对于所述第二向量的第一注意力信息,对所述第二向量进行加权,以得到第一加权向量;
依据所述第二向量对于所述第一向量的第二注意力信息,对所述第一向量进行加权,以得到第二加权向量;
依据所述第一加权向量和所述第二加权向量,确定所述查询词与所述网页之间的相关性信息。
A2、根据A1所述的方法,所述确定网页对应的第二向量,包括:
确定网页对应的第三向量;
依据所述第一向量对于所述第三向量的第三注意力信息,对所述第三向量进行加权,以得到第三加权向量;
依据所述第三加权向量,确定网页对应的第二向量。
A3、根据A2所述的方法,所述确定网页对应的第三向量,包括:
依据网页对应的正文关键词,确定网页对应的第三向量。
A4、根据A3所述的方法,所述依据所述第三加权向量,确定网页对应的第二向量,包括:
对所述网页对应的第三加权向量、标题向量和站点向量进行融合,以得到网页对应的第二向量。
A5、根据A4所述的方法,所述对所述网页对应的第三加权向量、标题向量和站点向量进行融合,包括:
对所述第三加权向量和站点向量进行融合,以得到融合向量;
将所述融合向量拼接到标题分词对应的标题向量后面,以得到网页对应的第二向量。
A6、根据A1至A5中任一所述的方法,所述确定查询词对应的第一向量,包括:
利用双向长短期记忆网络,对查询词对应的向量进行编码,以得到查询词对应的第一向量。
A7、根据A1至A5中任一所述的方法,所述确定网页对应的第二向量,包括:
利用双向长短期记忆网络,对网页对应的向量进行编码,以得到网页对应的第二向量。
A8、根据A1至A5中任一所述的方法,所述确定所述查询词与所述网页之间的相关性信息,包括:
确定所述第一加权向量对应的第一语义向量,以及确定所述第二加权向量对应的第二语义向量;
依据所述第一语义向量和所述第二语义向量对应的一次项交互信息和二次项交互信息,确定所述查询词与所述网页之间的相关性信息。
A9、根据A1至A5中任一所述的方法,通过如下步骤确定所述第一向量对于所述第二向量的第一注意力信息:
依据转置后的第一向量和所述第二向量,确定第一匹配矩阵;
对所述第一匹配矩阵在行上进行归一化处理,以得到第二匹配矩阵;
依据所述第二匹配矩阵和所述第一向量,确定第一注意力矩阵;所述第一注意力矩阵用于表征所述第一向量对于所述第二向量的第一注意力信息。
A10、根据A1至A5中任一所述的方法,通过如下步骤确定所述第二向量对于所述第一向量的第二注意力信息:
依据转置后的第二向量和所述第一向量,确定第三匹配矩阵;
对所述第三匹配矩阵在行上进行归一化处理,以得到第四匹配矩阵;
依据所述第四匹配矩阵和所述第二向量,确定第二注意力矩阵;所述第二注意力矩阵用于表征所述第二向量对于所述第一向量的第二注意力信息。
本发明实施例公开了B11、一种数据处理装置,所述装置包括:
向量确定模块,用于确定查询词对应的第一向量,确定网页对应的第二向量;
第一加权模块,用于依据所述第一向量对于所述第二向量的第一注意力信息,对所述第二向量进行加权,以得到第一加权向量;
第二加权模块,用于依据所述第二向量对于所述第一向量的第二注意力信息,对所述第一向量进行加权,以得到第二加权向量;以及
相关性信息确定模块,用于依据所述第一加权向量和所述第二加权向量,确定所述查询词与所述网页之间的相关性信息。
B12、根据B11所述的装置,所述向量确定模块包括:
第三向量确定模块,用于确定网页对应的第三向量;
第三向量加权模块,用于依据所述第一向量对于所述第三向量的第三注意力信息,对所述第三向量进行加权,以得到第三加权向量;
第二向量确定模块,用于依据所述第三加权向量,确定网页对应的第二向量。
B13、根据B12所述的装置,所述第三向量确定模块,具体用于依据网页对应的正文关键词,确定网页对应的第三向量。
B14、根据B13所述的装置,所述第二向量确定模块包括:
向量融合模块,用于对所述网页对应的第三加权向量、标题向量和站点向量进行融合,以得到网页对应的第二向量。
B15、根据B14所述的装置,所述向量融合模块包括:
第一向量融合模块,用于对所述第三加权向量和站点向量进行融合,以得到融合向量;
第二向量融合模块,用于将所述融合向量拼接到标题分词对应的标题向量后面,以得到网页对应的第二向量。
B16、根据B11至B15中任一所述的装置,所述向量确定模块包括:
第一编码模块,用于利用双向长短期记忆网络,对查询词对应的向量进行编码,以得到查询词对应的第一向量。
B17、根据B11至B15中任一所述的装置,所述向量确定模块包括:
第二编码模块,用于利用双向长短期记忆网络,对网页对应的向量进行编码,以得到网页对应的第二向量。
B18、根据B11至B15中任一所述的装置,所述相关性信息确定模块包括:
语义向量确定模块,用于确定所述第一加权向量对应的第一语义向量,以及确定所述第二加权向量对应的第二语义向量;
基于交互的相关性信息确定模块,用于依据所述第一语义向量和所述第二语义向量对应的一次项交互信息和二次项交互信息,确定所述查询词与所述网页之间的相关性信息。
B19、根据B11至B15中任一所述的装置,所述装置还包括:
第一匹配矩阵确定模块,用于依据转置后的第一向量和所述第二向量,确定第一匹配矩阵;
第二匹配矩阵确定模块,用于对所述第一匹配矩阵在行上进行归一化处理,以得到第二匹配矩阵;
第一注意力矩阵确定模块,用于依据所述第二匹配矩阵和所述第一向量,确定第一注意力矩阵;所述第一注意力矩阵用于表征所述第一向量对于所述第二向量的第一注意力信息。
B20、根据B11至B15中任一所述的装置,所述装置还包括:
第三匹配矩阵确定模块,用于依据转置后的第二向量和所述第一向量,确定第三匹配矩阵;
第四匹配矩阵确定模块,用于对所述第三匹配矩阵在行上进行归一化处理,以得到第四匹配矩阵;
第二注意力矩阵确定模块,用于依据所述第四匹配矩阵和所述第二向量,确定第二注意力矩阵;所述第二注意力矩阵用于表征所述第二向量对于所述第一向量的第二注意力信息。
本发明实施例公开了C21、一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定查询词对应的第一向量,确定网页对应的第二向量;
依据所述第一向量对于所述第二向量的第一注意力信息,对所述第二向量进行加权,以得到第一加权向量;
依据所述第二向量对于所述第一向量的第二注意力信息,对所述第一向量进行加权,以得到第二加权向量;
依据所述第一加权向量和所述第二加权向量,确定所述查询词与所述网页之间的相关性信息。
C22、根据C21所述的装置,所述确定网页对应的第二向量,包括:
确定网页对应的第三向量;
依据所述第一向量对于所述第三向量的第三注意力信息,对所述第三向量进行加权,以得到第三加权向量;
依据所述第三加权向量,确定网页对应的第二向量。
C23、根据C22所述的装置,所述确定网页对应的第三向量,包括:
依据网页对应的正文关键词,确定网页对应的第三向量。
C24、根据C23所述的装置,所述依据所述第三加权向量,确定网页对应的第二向量,包括:
对所述网页对应的第三加权向量、标题向量和站点向量进行融合,以得到网页对应的第二向量。
C25、根据C24所述的装置,所述对所述网页对应的第三加权向量、标题向量和站点向量进行融合,包括:
对所述第三加权向量和站点向量进行融合,以得到融合向量;
将所述融合向量拼接到标题分词对应的标题向量后面,以得到网页对应的第二向量。
C26、根据C21至C25中任一所述的装置,所述确定查询词对应的第一向量,包括:
利用双向长短期记忆网络,对查询词对应的向量进行编码,以得到查询词对应的第一向量。
C27、根据C21至C25中任一所述的装置,所述确定网页对应的第二向量,包括:
利用双向长短期记忆网络,对网页对应的向量进行编码,以得到网页对应的第二向量。
C28、根据C21至C25中任一所述的装置,所述确定所述查询词与所述网页之间的相关性信息,包括:
确定所述第一加权向量对应的第一语义向量,以及确定所述第二加权向量对应的第二语义向量;
依据所述第一语义向量和所述第二语义向量对应的一次项交互信息和二次项交互信息,确定所述查询词与所述网页之间的相关性信息。
C29、根据C21至C25中任一所述的装置,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
依据转置后的第一向量和所述第二向量,确定第一匹配矩阵;
对所述第一匹配矩阵在行上进行归一化处理,以得到第二匹配矩阵;
依据所述第二匹配矩阵和所述第一向量,确定第一注意力矩阵;所述第一注意力矩阵用于表征所述第一向量对于所述第二向量的第一注意力信息。
C30、根据C21至C25中任一所述的装置,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
依据转置后的第二向量和所述第一向量,确定第三匹配矩阵;
对所述第三匹配矩阵在行上进行归一化处理,以得到第四匹配矩阵;
依据所述第四匹配矩阵和所述第二向量,确定第二注意力矩阵;所述第二注意力矩阵用于表征所述第二向量对于所述第一向量的第二注意力信息。
本发明实施例公开了D31、一种数据处理方法,所述方法包括:
确定查询词对应的搜索结果;
依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据A1至A10中任一所述的方法得到;
输出排序后的搜索结果。
本发明实施例公开了E32、一种数据处理装置,所述装置包括:
搜索结果确定模块,用于确定查询词对应的搜索结果;
搜索结果排序模块,用于依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据A1至A10中任一所述的方法得到;以及
搜索结果输出模块,用于输出排序后的搜索结果。
本发明实施例公开了F33、一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定查询词对应的搜索结果;
依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据A1至A10中任一所述的方法得到;
输出排序后的搜索结果。
本发明实施例公开了G34、一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如A1至A10中一个或多个所述的数据处理方法。
本发明实施例公开了H35、一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如D31所述的数据处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种用于数据处理的装置、以及一种机器可读介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
确定查询词对应的第一向量,确定网页对应的第二向量;
依据所述第一向量对于所述第二向量的第一注意力信息,对所述第二向量进行加权,以得到第一加权向量;
依据所述第二向量对于所述第一向量的第二注意力信息,对所述第一向量进行加权,以得到第二加权向量;
依据所述第一加权向量和所述第二加权向量,确定所述查询词与所述网页之间的相关性信息。
2.根据权利要求1所述的方法,其特征在于,所述确定网页对应的第二向量,包括:
确定网页对应的第三向量;
依据所述第一向量对于所述第三向量的第三注意力信息,对所述第三向量进行加权,以得到第三加权向量;
依据所述第三加权向量,确定网页对应的第二向量。
3.根据权利要求2所述的方法,其特征在于,所述确定网页对应的第三向量,包括:
依据网页对应的正文关键词,确定网页对应的第三向量。
4.一种数据处理装置,其特征在于,所述装置包括:
向量确定模块,用于确定查询词对应的第一向量,确定网页对应的第二向量;
第一加权模块,用于依据所述第一向量对于所述第二向量的第一注意力信息,对所述第二向量进行加权,以得到第一加权向量;
第二加权模块,用于依据所述第二向量对于所述第一向量的第二注意力信息,对所述第一向量进行加权,以得到第二加权向量;以及
相关性信息确定模块,用于依据所述第一加权向量和所述第二加权向量,确定所述查询词与所述网页之间的相关性信息。
5.一种用于数据处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定查询词对应的第一向量,确定网页对应的第二向量;
依据所述第一向量对于所述第二向量的第一注意力信息,对所述第二向量进行加权,以得到第一加权向量;
依据所述第二向量对于所述第一向量的第二注意力信息,对所述第一向量进行加权,以得到第二加权向量;
依据所述第一加权向量和所述第二加权向量,确定所述查询词与所述网页之间的相关性信息。
6.一种数据处理方法,其特征在于,所述方法包括:
确定查询词对应的搜索结果;
依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据权利要求1至10中任一所述的方法得到;
输出排序后的搜索结果。
7.一种数据处理装置,其特征在于,所述装置包括:
搜索结果确定模块,用于确定查询词对应的搜索结果;
搜索结果排序模块,用于依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据权利要求1至3中任一所述的方法得到;以及
搜索结果输出模块,用于输出排序后的搜索结果。
8.一种用于数据处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
确定查询词对应的搜索结果;
依据所述查询词与所述搜索结果之间的相关性信息,对所述搜索结果进行排序;其中,所述相关性信息为依据权利要求1至3中任一所述的方法得到;
输出排序后的搜索结果。
9.一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至3中一个或多个所述的数据处理方法。
10.一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求6所述的数据处理方法。
CN201911061966.5A 2019-11-01 一种数据处理方法、装置和介质 Active CN112784145B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911061966.5A CN112784145B (zh) 2019-11-01 一种数据处理方法、装置和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911061966.5A CN112784145B (zh) 2019-11-01 一种数据处理方法、装置和介质

Publications (2)

Publication Number Publication Date
CN112784145A true CN112784145A (zh) 2021-05-11
CN112784145B CN112784145B (zh) 2024-06-04

Family

ID=

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294681A (zh) * 2012-02-23 2013-09-11 北京百度网讯科技有限公司 一种搜索结果的生成方法和装置
US20190065505A1 (en) * 2017-08-31 2019-02-28 International Business Machines Corporation Document ranking by contextual vectors from natural language query
CN109977292A (zh) * 2019-03-21 2019-07-05 腾讯科技(深圳)有限公司 搜索方法、装置、计算设备和计算机可读存储介质
CN110188158A (zh) * 2019-05-06 2019-08-30 腾讯科技(深圳)有限公司 关键词及话题标签生成方法、装置、介质及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294681A (zh) * 2012-02-23 2013-09-11 北京百度网讯科技有限公司 一种搜索结果的生成方法和装置
US20190065505A1 (en) * 2017-08-31 2019-02-28 International Business Machines Corporation Document ranking by contextual vectors from natural language query
CN109977292A (zh) * 2019-03-21 2019-07-05 腾讯科技(深圳)有限公司 搜索方法、装置、计算设备和计算机可读存储介质
CN110188158A (zh) * 2019-05-06 2019-08-30 腾讯科技(深圳)有限公司 关键词及话题标签生成方法、装置、介质及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QINGYAN YANG ET AL: "Personalizing Web Page Recommendation Via Collaborative Filtering and Topic-aware Markov Model", 《2010 IEEE INTERNATIONAL CONFERENCE ON DATA MINING》, 20 January 2011 (2011-01-20), pages 1145 - 1150 *
曹应成 等: "基于主题注意力机制BiLSTM的Web服务分类", 《第九届中国计算机学会服务计算学术会议》, 31 December 2018 (2018-12-31), pages 1 - 8 *
王锋 等: "基于Bi-LSTM和分布式表示的网页主题相关度计算", 《计算机应用与软件》, vol. 35, no. 7, 12 July 2018 (2018-07-12), pages 57 - 62 *

Similar Documents

Publication Publication Date Title
CN109800325B (zh) 视频推荐方法、装置和计算机可读存储介质
CN107066464B (zh) 语义自然语言向量空间
CN112926339B (zh) 文本相似度确定方法、系统、存储介质以及电子设备
CN111612070B (zh) 基于场景图的图像描述生成方法及装置
CN107885852B (zh) 一种基于app使用记录的app推荐方法及系统
CN108073303B (zh) 一种输入方法、装置及电子设备
WO2021208666A1 (zh) 字符识别方法及装置、电子设备和存储介质
CN112148980B (zh) 基于用户点击的物品推荐方法、装置、设备和存储介质
CN111274389B (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN107436896B (zh) 一种输入推荐方法、装置及电子设备
CN112328809A (zh) 实体分类方法、装置及计算机可读存储介质
CN112784145B (zh) 一种数据处理方法、装置和介质
CN113157923B (zh) 实体分类方法、装置及可读存储介质
CN112052395B (zh) 一种数据处理方法及装置
CN112784145A (zh) 一种数据处理方法、装置和介质
CN112825076B (zh) 一种信息推荐方法、装置和电子设备
CN112579767B (zh) 搜索处理方法、装置和用于搜索处理的装置
CN110837596B (zh) 一种智能推荐方法、装置、计算机设备及存储介质
CN113256379A (zh) 一种为商品关联购物需求的方法
CN110020151B (zh) 一种数据处理方法、装置、电子设备以及存储介质
CN112883295B (zh) 一种数据处理方法、装置和介质
CN111368161B (zh) 一种搜索意图的识别方法、意图识别模型训练方法和装置
CN113326706A (zh) 一种跨语言检索方法、装置和电子设备
CN116069936B (zh) 一种数码传媒文章的生成方法和装置
CN110633399A (zh) 一种数据处理方法、装置和用于数据处理的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant