CN111291069B - 一种数据处理方法、装置和电子设备 - Google Patents

一种数据处理方法、装置和电子设备 Download PDF

Info

Publication number
CN111291069B
CN111291069B CN201811496044.2A CN201811496044A CN111291069B CN 111291069 B CN111291069 B CN 111291069B CN 201811496044 A CN201811496044 A CN 201811496044A CN 111291069 B CN111291069 B CN 111291069B
Authority
CN
China
Prior art keywords
search
search results
search information
matching model
search result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811496044.2A
Other languages
English (en)
Other versions
CN111291069A (zh
Inventor
沈炎军
贺宇
董国盛
马超
应蕾
孟莹
黄晓烽
周泽南
苏雪峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201811496044.2A priority Critical patent/CN111291069B/zh
Publication of CN111291069A publication Critical patent/CN111291069A/zh
Application granted granted Critical
Publication of CN111291069B publication Critical patent/CN111291069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据处理方法、装置和电子设备,其中,所述方法包括:接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的;分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果;进而能够为用户提供准确的搜索结果。且相对于现有技术用户需要进行多次输入或分辨搜索信息对应的法律节点才能获取搜索结果而言,本发明实施例中用户无需分辨搜索信息的法律节点,且进行一次输入就可以获取对应的搜索结果,搜索效率高。

Description

一种数据处理方法、装置和电子设备
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据处理方法、装置和电子设备。
背景技术
随着互联网技术的不断发展,以及搜索引擎的技术的发展,用户可以通过搜索平台进行信息查询,例如查询某个词的读音、含义,某个人物简介,某个问题的答案等等。
其中,互联网技术的发展使得互联网上的信息也呈现爆炸性的发展,这使得从大量数据中搜索较为准确的结果难度大大增加;例如在进行法律信息搜索时,从大量的数据中筛选出匹配度高的结果。目前包括两类用于法律信息搜索的方法,一种是设置法律结构树,但是这需要用户分辨法律节点才能进入对应法律节点查询相关文档;另一种是通过问答交互的方式解答用户疑问,但是这需要用户进行多轮的回复才能查询到相关文档;可见现有技术的这两种方法,用户操作繁琐,搜索效率低。
发明内容
本发明实施例提供一种数据处理方法,以提高搜索效率及搜索准确率。
相应的,本发明实施例还提供了一种数据处理装置和一种电子设备,用以保证上述方法的实现及应用。
为了解决上述问题,本发明实施例公开了一种数据处理方法,具体包括:接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的;分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果。
可选地,所述提取关键词,依据所述关键词从数据库中召回多条搜索结果,包括:对所述搜索信息进行分词处理,确定所述搜索信息对应的关键词;基于所述关键词查找倒排索引,确定对应的多个文档标识;从数据库中召回所述文档标识匹配的搜索结果。
可选地,所述分别计算各搜索结果与所述搜索信息的文本相似度,包括:针对一个搜索结果,确定所述搜索结果对应网页内容的标题;对所述标题进行分词处理,确定所述标题对应的关键词;依据所述标题对应的关键词与所述搜索信息对应的关键词,计算所述标题与搜索信息的杰卡德距离;依据所述标题与搜索信息的杰卡德距离,确定所述搜索结果与搜索信息的文本相似度。
可选地,所述依据所述文本相似度对所述搜索结果进行筛选,包括:选取文本相似度最高的前N个搜索结果;其中,N为正整数。
可选地,所述依据深度语义匹配模型对筛选后的搜索结果进行排序,包括:采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离;依据所述余弦距离,对所述筛选后的搜索结果进行排序;其中,所述深度语义匹配模型依据交叉熵代价函数进行反向训练。
可选地,所述采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离,包括:针对一个筛选后的搜索结果,确定所述筛选后的搜索结果对应网页内容的标题;将所述标题和搜索信息输入至深度语义匹配模型中,得到所述筛选后的搜索结果与搜索信息的余弦距离。
可选地,所述的方法还包括训练所述深度语义匹配模型的步骤:收集多组训练数据,其中,一组训练数据包括一个历史搜索信息、所述历史搜索信息匹配的一个历史搜索结果和至少一个其他历史搜索结果;将所述多组训练数据输入至所述匹配模型中,得到各组训练数据对应的余弦距离,其中,匹配的历史搜索结果为正样本,其他历史搜索结果为负样本;依据所述各余弦距离和交叉熵代价函数,对所述深度语义匹配模型的权值进行调整。
可选地,所述依据排序结果选取出目标搜索结果,包括:选取余弦距离最大的前M个搜索结果作为目标搜索结果;其中,M是正整数。
可选地,所述的方法还包括建立所述数据库的步骤:采用网络爬虫获取指定领域的结构化数据,依据所述结构化数据建立所述数据库。
可选地,所述指定领域包括法律领域。
本发明实施例还公开了一种数据处理装置,具体包括:召回模块,用于接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的;筛选模块,用于分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;排序模块,用于依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果。
可选地,所述召回模块,用于对所述搜索信息进行分词处理,确定所述搜索信息对应的关键词;基于所述关键词查找倒排索引,确定对应的多个文档标识;从数据库中召回所述文档标识匹配的搜索结果。
可选地,所述筛选模块包括:相似度计算子模块,用于针对一个搜索结果,确定所述搜索结果对应网页内容的标题;对所述标题进行分词处理,确定所述标题对应的关键词;依据所述标题对应的关键词与所述搜索信息对应的关键词,计算所述标题与搜索信息的杰卡德距离;依据所述标题与搜索信息的杰卡德距离,确定所述搜索结果与搜索信息的文本相似度。
可选地,所述筛选模块包括:结果筛选子模块,用于选取文本相似度最高的前N个搜索结果;其中,N为正整数。
可选地,所述排序模块包括:距离计算子模块,用于采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离;结果排序子模块,用于依据所述余弦距离,对所述筛选后的搜索结果进行排序;其中,所述深度语义匹配模型依据交叉熵代价函数进行反向训练。
可选地,所述距离计算子模块,用于针对一个筛选后的搜索结果,确定所述筛选后的搜索结果对应网页内容的标题;将所述标题和搜索信息输入至深度语义匹配模型中,得到所述筛选后的搜索结果与搜索信息的余弦距离。
可选地,所述的装置还包括:训练模块,用于收集多组训练数据,其中,一组训练数据包括一个历史搜索信息、所述历史搜索信息匹配的一个历史搜索结果和至少一个其他历史搜索结果;将所述多组训练数据输入至所述匹配模型中,得到各组训练数据对应的余弦距离,其中,匹配的历史搜索结果为正样本,其他历史搜索结果为负样本;依据所述各余弦距离和交叉熵代价函数,对所述深度语义匹配模型的权值进行调整。
可选地,所述排序模块包括:结果选取子模块,用于选取余弦距离最大的前M个搜索结果作为目标搜索结果;其中,M是正整数。
可选地,所述的装置还包括:数据库建立模块,用于采用网络爬虫获取指定领域的结构化数据,依据所述结构化数据建立数据库。
可选地,所述指定领域包括法律领域。
本发明实施例还公开了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如本发明实施例任一所述的数据处理方法。
本发明实施例还公开了一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的;分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果。
可选地,所述提取关键词,依据所述关键词从数据库中召回多条搜索结果,包括:对所述搜索信息进行分词处理,确定所述搜索信息对应的关键词;基于所述关键词查找倒排索引,确定对应的多个文档标识;从数据库中召回所述文档标识匹配的搜索结果。
可选地,所述分别计算各搜索结果与所述搜索信息的文本相似度,包括:针对一个搜索结果,确定所述搜索结果对应网页内容的标题;对所述标题进行分词处理,确定所述标题对应的关键词;依据所述标题对应的关键词与所述搜索信息对应的关键词,计算所述标题与搜索信息的杰卡德距离;依据所述标题与搜索信息的杰卡德距离,确定所述搜索结果与搜索信息的文本相似度。
可选地,所述依据所述文本相似度对所述搜索结果进行筛选,包括:选取文本相似度最高的前N个搜索结果;其中,N为正整数。
可选地,所述依据深度语义匹配模型对筛选后的搜索结果进行排序,包括:采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离;依据所述余弦距离,对所述筛选后的搜索结果进行排序;其中,所述深度语义匹配模型依据交叉熵代价函数进行反向训练。
可选地,所述采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离,包括:针对一个筛选后的搜索结果,确定所述筛选后的搜索结果对应网页内容的标题;将所述标题和搜索信息输入至深度语义匹配模型中,得到所述筛选后的搜索结果与搜索信息的余弦距离。
可选地,所述的电子设备还包含用于进行以下训练所述深度语义匹配模型操作的指令:收集多组训练数据,其中,一组训练数据包括一个历史搜索信息、所述历史搜索信息匹配的一个历史搜索结果和至少一个其他历史搜索结果;将所述多组训练数据输入至所述匹配模型中,得到各组训练数据对应的余弦距离,其中,匹配的历史搜索结果为正样本,其他历史搜索结果为负样本;依据所述各余弦距离和交叉熵代价函数,对所述深度语义匹配模型的权值进行调整。
可选地,所述依据排序结果选取出目标搜索结果,包括:选取余弦距离最大的前M个搜索结果作为目标搜索结果;其中,M是正整数。
可选地,所述的电子设备还包含用于进行以下建立所述数据库操作的指令:采用网络爬虫获取指定领域的结构化数据,依据所述结构化数据建立所述数据库。
可选地,所述指定领域包括法律领域。
本发明实施例包括以下优点:
本发明实施例中,在接收搜索信息后,可以从搜索信息中提取关键词,依据所述关键词从数据库中召回多条搜索结果,然后可以分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选,进而将文本相似度低的搜索结果过滤掉;然后再依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回,进而能够为用户提供准确的搜索结果。且相对于现有技术用户需要进行多次输入或分辨搜索信息对应的法律节点才能获取搜索结果而言,本发明实施例中用户无需分辨搜索信息的法律节点,且进行一次输入就可以获取对应的搜索结果,搜索效率高。此外,相对于现有技术仅仅能够给出一些相关的法律条文、案例网页的搜索结果,本发明的方案能够将网络上法律从业者整理的、通俗易懂的知识文档作为答案推送给用户,可以很好的提高用户体验,有效解决用户的需求。
附图说明
图1是本发明的一种数据处理方法实施例的步骤流程图;
图2a是本发明实施例的一种搜索界面示意图;
图2b是本发明实施例的一种搜索结果的排序结果示意图;
图2c是本发明实施例的一种倒排索引的示意图;
图3a是本发明的一种训练深度语义匹配模型实施例的步骤流程图;
图3b是本发明的一种训练深度语义匹配模型实施例的过程示意图;
图3c是本发明的一种ROC曲线示意图;
图4a是本发明的一种数据处理方法可选实施例的步骤流程图;
图4b是本发明实施例的一种深度语义匹配模型计算余弦相似度的过程示意图;
图5是本发明的一种数据处理装置实施例的结构框图;
图6是本发明的一种数据处理装置可选实施例的结构框图;
图7根据一示例性实施例示出的一种用于数据处理的电子设备的结构框图;
图8是本发明根据另一示例性实施例示出的一种用于数据处理的电子设备的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例的核心构思之一是,接收搜索信息后,依据搜索信息的关键词查找搜索结果,然后先对搜索结果进行筛选,再对筛选后的搜索结果进行排序;再依据排序结果选取目标搜索结果并返回,以给用户提供满足需求的搜索结果;进而用户进行一次输入就可以获取搜索结果,而无需进行多次输入,从而提高了搜索效率。
本发明实施例提供的数据处理方法,可以应用在垂直搜索领域,所述垂直搜索领域可以为任一指定领域,例如,包括法律领域、医学领域、生物领域、化学领域等等。
参照图1,示出了本发明的一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤102、接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的。
本发明实施例中,用户可以在搜索平台进行搜索,获取满足需求的搜索结果;其中,用户在使用搜索平台进行搜索的过程中,可以在搜索平台中输入搜索信息,所述搜索信息可以是任一指定领域的信息例如,所述搜索信息可以是与法律领域相关的信息、也可以是与医学领域相关的信息等等,所述搜索信息可以是句子,也可以是短语,本发明实施例对此不作限制,当然本发明实施例也不限制所述搜索信息对应的语言;然后执行搜索操作。进而搜索平台可以接收到对应的搜索指令,所述搜索指令中可以包括搜索信息,然后可以调用搜索引擎进行搜索。搜索引擎接收到所述搜索信息后,可以从所述搜索信息中提取关键词,然后基于关键词进行匹配如基于关键词查找倒排索引,从数据库中召回与所述搜索信息匹配的多条搜索结果。其中,可以预先从全网搜集指定领域的数据,然后依据搜集的数据建立所述指定领域对应的数据库,数据库的建立方法在后续进行说明。
步骤104、分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选。
步骤106、依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果。
其中,召回的多条搜索结果中有一些搜索结果与搜索信息相关度高,有一些结果与搜索信息相关度低,而用户需要查找与搜索信息相关度高的搜索结果;因此搜索引擎可以先对召回的搜索结果进行初步筛选,再对筛选后的搜索结果进行排序,以将相关度高的前M(M为正整数)条搜索结果作为目标搜索结果推荐给用户;使得用户可以快速查找到需要的搜索结果,进而提高搜索效率。本发明实施例中,可以采用文本相似度表征相关度,文本相似度可以是与相关度成正比,因此一种筛选搜索结果的方法可以是,分别计算各搜索结果与所述搜索信息的文本相似度,然后依据各搜索结果与搜索信息的文本相似度,对搜索结果进行筛选,例如可以筛选出文本相似度最高的前N(N为正整数)条搜索结果。然后可以采用预先训练的深度语义匹配模型对筛选后的搜索结果进行排序;其中,深度语义匹配模型的具体训练过在后续进行说明。
本发明实施例中,搜索引擎可以按照需求确定选取目标搜索结果的规则,例如若需要给用户提供较为全面的搜索结果,则可以从排序后的搜索结果中选取多条搜索结果作为目标搜索结果,其中,选取出多个目标搜索结果可以是排在最前的几条搜索结果;又例如若需要给用户提供精准的搜索结果,则可以从排序后的搜索结果中选取一条搜索结果作为目标搜索结果,其中,选取出的一条目标搜索结果,可以是排在最前的一个搜索结果;等等。然后搜索引擎可以将目标搜索结果返回给搜索平台,由搜索平台向用户展示所述目标搜索结果;进而用户可以从返回的搜索结果中选取满足需求的搜索结果,进入该搜索结果对应的网页页面获取有价值的信息。
本发明的一个示例中,可参照图2a,用户在搜索平台搜索框中输入搜索信息“离婚房子怎么判”,并点击搜索按钮后,搜索平台可以接收到搜索信息:“离婚房子怎么判”,然后可以将所述搜索信息发送给搜索引擎。进而搜索引擎可以接收到所述搜索信息,并从搜索信息中提取关键词如“离婚”、“房子”和“怎么判”,然后依据所述关键词从数据库中召回多条搜索结果例如若召回了20条搜索结果。再分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;例如从这20条搜索结果中筛选出6条搜索结果。然后依据深度语义匹配模型对筛选后的搜索结果进行排序,如图2b所示,展示了这6条搜索结果的排序结果;其中,每条排序结果可以包括多种信息,如搜索结果的排序分值、搜索结果的网页地址、搜索结果对应网页内容的标题等。再依据排序结果选取目标搜索结果并返回所述目标搜索结果,例如选取排序分值最高的搜索结果作为目标搜索结果,然后将目标搜索结果返回给搜索平台进行展示,如图2a所示。
本发明实施例中,在接收搜索信息后,可以从搜索信息中提取关键词,依据所述关键词从数据库中召回多条搜索结果,然后可以分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选,进而将文本相似度低的搜索结果过滤掉;然后再依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回,进而能够为用户提供准确的搜索结果。且相对于现有技术用户需要进行多次输入或分辨搜索信息对应的法律节点才能获取搜索结果而言,本发明实施例中用户无需分辨搜索信息的法律节点,且进行一次输入就可以获取对应的搜索结果,搜索效率高。此外,相对于现有技术仅仅能够给出一些相关的法律条文、案例网页的搜索结果,本发明的方案能够将网络上法律从业者整理的、通俗易懂的知识文档作为答案推送给用户,可以很好的提高用户体验,有效解决用户的需求。
本发明的另一个实施例中,可以预先对指定领域的数据进行累积,然后基于累积的数据建立所述指令领域对应的数据库;其中,可以采用网络爬虫获取指定领域的结构化数据,依据所述结构化数据建立数据库。以下以所述指定领域为法律领域进行说明:
本发明实施例中,可以通过网络爬虫,获取与法律领域相关信息的网页如法律论坛、法律网站和对应的网页内容,例如采用Scrapy(Scrapy,是Python(一种计算机程序设计语言)开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据)工具进行网页爬取,实现网页下载并提取出数据;其中,可以通过继承spider(爬虫),实现parse(语法分析)方法,实现网页下载。其中,针对每一个下载的网页,可以提取一条结构化数据,其中,可以将一条结构化数据称为一个文档(后续称为doc),并为该doc设置一个标识(后续可称为doc_ID),每个doc中可以包括网址、网页内容的标题和正文、doc_ID,当然还可以包括其他的信息如该网页内容的正文对应的历史搜索信息如问题,本发明实施例对此不作限制;然后可以采用各个网页对应的结构化数据(doc),建立法律领域对应的数据库。本发明实施例中,为了便于后续依据关键词从数据库中召回对应的搜索结果,可以基于结构化数据建立倒排索引;其中一种建立倒排索引的方法可以是,针对每个doc,可以先将该doc中的标题进行分词处理,得到对应的分词片段,然后依据所述分词片段确定标题对应的关键词(后续可称为词项(Term));然后对Term进行过滤,过滤掉没有意义的Term,再为每个Term建立对应的标识(后续可称为Term_ID);然后建立(Term_ID—doc_ID)对。再将具有相同Term_ID的doc_ID,归并到该Term_ID所对应的倒排记录表中,进而完成倒排索引的建立,其中,所述倒排索引可参照图2c。
本发明的另一个实施例中,可以预先对深度语义匹配模型进行训练,后续可以使用训练后的深度语义匹配模型对筛选后的搜索结果进行排序。
参考图3a,示出了本发明的一种训练深度语义匹配模型实施例的步骤流程图,可包括如下子步骤:
步骤302、收集多组训练数据,其中,一组训练数据包括一个历史搜索信息、所述历史搜索信息匹配的一个历史搜索结果和至少一个其他历史搜索结果。
步骤304、将所述多组训练数据输入至所述匹配模型中,得到各组训练数据对应的余弦距离,其中,匹配的历史搜索结果为正样本,其他历史搜索结果为负样本。
步骤306、依据所述各余弦距离和交叉熵代价函数,对所述深度语义匹配模型的权值进行调整。
本发明实施例可以收集所有的历史搜索信息,各历史搜索信息匹配的一个历史搜索结果和至少一个其他历史搜索结果,然后可以将一个历史搜索信息、所述历史搜索信息对应匹配的一个历史搜索结果和至少一个其他历史搜索结果,作为一组训练数据;进而可以得到多组训练数据。其中,可以将当前时间之前的所有的搜索信息称为历史搜索信息,将用户从历史搜索信息对应的搜索结果中选取的搜索结果,称为该历史搜索信息的历史搜索结果;针对每个历史搜索信息,可以将该历史搜索信息对应选取频次最高的历史搜索结果,作为该历史搜索信息匹配的历史搜索结果;以及可以将其他历史搜索信息匹配的历史搜索结果,称为与该历史搜索信息不匹配的历史搜索结果(后续可以称为其他历史搜索结果)。其中,所述匹配的历史搜索结果和其他历史搜索结果,均可以是doc。
然后可以采用收集的所有训练数据对所述深度语义匹配模型进行训练,其中,每次可以输入其中的多组训练数据进行训练。所述训练包括正向训练和反向训练:
正向训练:将每组训练数据中的历史输入信息、所述历史搜索信息匹配的一个历史搜索结果和至少一个其他历史搜索结果,输入至深度语义匹配模型中,其中,所述匹配的历史搜索结果作为正样本输入至所述深度语义匹配模型中,所述其他历史搜索结果作为负样本输入至所述深度语义匹配模型中。深度语义匹配模型对训练数据进行处理后,输出各组训练数据对应的余弦距离,其中,一组训练数据对应的余弦距离可以包括至少两个,其中,一个是历史搜索信息与匹配的历史搜索结果的余弦距离,至少一个是历史搜索信息与其他历史搜索结果的余弦距离。其中,所述输入至深度语义匹配模型中的匹配的历史搜索结果可以是其中网页内容的标题,输入至深度语义匹配模型中的其他历史搜索结果也可以是其中网页内容的标题。
本发明的一个示例中,可参考图3b,图3b中展现了将一组训练数据输入至深度语义匹配模型,对该深度语义匹配模型进行正向训练的过程;其中,可以在卷积层分别将历史搜索信息、正样本、负样本与卷积核进行卷积操作;其中,所述卷积核的数量可以按照需求设置如32个,卷积核的大小也可以设置需求设置如2个Term、3个Term、4个Term等。然后将卷积结果输出至池化层,对卷积结果进行池化操作,再将池化结果输入至全连接层进行处理;其中,全连接层的数量可以按照需求设置(图3b中示出了全连接层的数量为3)。再将全连接层输出的结果输入至余弦距离计算层,其中,余弦距离计算层在计算过程中,可以计算历史搜索信息的全连接层输出结果与正样本的全连接层输出结果的余弦距离,以及分别计算历史搜索信息的全连接层输出结果与各负样本的全连接层输出结果的余弦距离。其中,X是历史搜索信息,Y+是正样本,Y-是负样本,sim(X,Y+)是历史搜索信息与正样本的余弦距离,sim(X,Y-)是历史搜索信息与负样本的余弦距离。
反向训练:本发明实施例中,所述深度语义匹配模型可以采用交叉熵代价函数对进行反向训练,其中,可以依据所述各余弦距离和交叉熵代价函数,对所述深度语义匹配模型的权值进行调整,其中,可以将所述各余弦距离代入交叉熵代价函数中;然后依据代入余弦距离后的交叉熵代价函数,对所述深度语义匹配模型的权值进行调整,如对深度语义匹配模型卷积层、池化层等权值进行调整。其中,所述叉熵代价函数的公式如下:
其中,x包括正样本和负样本;n是正样本和负样本的总数量;a是历史搜索信息与正义本/负样本的余弦距离;y是期望输出值(0或1),若x是正样本,y是1,若x是负样本,y是0。
其中,历史搜索信息和正样本/负样本的余弦距离的计算公式可以如下:
其中,X是历史搜索信息,Y是正样本(Y+)或负样本(Y-),p是历史搜索信息的一个维度的词向量,q是正样本/负样本与历史搜索信息对应维度的词向量,k是词向量的总维度。
其中,现有技术对深度语义匹配模型进行反向训练采用的函数如下:
其中,Y'包括正样本和负样本,γ是超参数。
相对于现有技术的深度语义匹配模型而言,本发明实施例采用的深度语义匹配模型的性能更优;例如可以采用AUC(Area Under Curve)(所述被定义为ROC(receiveroperating characteristic curve,受试者工作特征曲线(简称ROC曲线))曲线下的面积),作为模型性能的衡量指标,其中,模型对应的AUC值越大,其性能越好。其中,可以将现有深度语义匹配模型称为模型1,本发明实施例的深度语义匹配模型称为模型2,其中,模型2的常用参数设置如下:输入文本最大长度为30,卷积核数量为32,输入信息对应词向量的总维度为200,全连接层1、2、3对应的输出维度分别为256、256、200。其中,可以参照图3c,图3c示出了模型1的ROC曲线和模型2的ROC曲线,模型1对应的AUC为0.82,模型2对应的AUC为0.86;可见本发明实施例的深度语义匹配模型性能优于现有技术深度语义匹配模型。此外,图3c中还示出了PairCNN-Ranking(用于排序的对神经卷积网络)模型(可称为模型3)对应的ROC曲线,模型3对应AUC为0.68;可见,本发明实施例中的深度语义匹配模型,性能优于现有技术中PairCNN-Ranking模型。当数据量十分庞大时,本发明实施例的深度语义匹配模型效果更加明显。因此本发明实施例采用交叉熵代价函数进行反向训练,能够提高计算文本相似度的准确性,进而提高返回的目标搜索结果的质量,从而进一步提高搜索准确率,实现指定领域的精准搜索。
参照图4a,示出了本发明的一种数据处理方法可选实施例的步骤流程图,具体可以包括如下步骤:
步骤402、接收搜索信息。
本发明实施例中,搜索平台可以接收到用户输入的搜索信息,例如以所述指令领域为法律领域为例,所述搜索信息可以是指与法律领域相关的信息,如“离婚房子怎么分”、“离婚孩子怎么判”、“专利侵权赔偿”等等;然后将所述搜索信息发送给搜索引擎,由搜索引擎搜索与所述搜索信息匹配的搜索结果。进而搜索引擎可以接收到所述搜索信息,然后可以基于预先建立的倒排索引,从数据库中召回与所述搜索信息匹配的多条搜索结果,可参照步骤402-步骤408。
步骤404、对所述搜索信息进行分词处理,确定所述搜索信息对应的关键词。
步骤406、基于所述关键词查找倒排索引,确定对应的多个文档标识。
步骤408、从数据库中召回所述文档标识匹配的搜索结果。
本发明实施例中,预先建立了倒排索引包括Term_ID和doc_ID的关系,因此可以对所述搜索信息进行分词处理,得到对应的多个分词片段,并依据所述多个分词片段确定所述搜索信息对应关键词。然后可以依据关键词对应的Term_ID和倒排索引,确定各关键词对应的doc_ID;再从数据库中查找各doc_ID对应的doc,然后将所有的doc均作为搜索结果。
步骤410、分别计算各搜索结果与所述搜索信息的文本相似度。
本发明实施例中,可以计算各搜索结果与所述搜索信息的文本相似度,然后依据所述文本相似度,对召回的多条搜索结果进行筛选;其中,一种计算搜索结果与搜索信息的文本相似度的方式,可以参照如下子步骤:
子步骤S12、针对一个搜索结果,确定所述搜索结果对应网页内容的标题。
子步骤S14、对所述标题进行分词处理,确定所述标题对应的关键词。
子步骤S16、依据所述标题对应的关键词与所述搜索信息对应的关键词,计算所述标题与搜索信息的杰卡德距离;
子步骤S18、依据所述标题与搜索信息的杰卡德距离,确定所述搜索结果与搜索信息的文本相似度。
本发明实施例中,针对每条搜索结果,可以获取该搜索结果中网页内容的标题,计算该搜索结果对应标题与搜索信息的杰卡德(Jaccard)距离;然后依据标题与搜索信息的Jaccard距离,确定对应搜索结果与搜索信息的文本相似度,其中,可以将所述Jaccard距离作为搜索结果与搜索信息的文本相似度,也可以将1与Jaccard距离的差值作为搜索结果与搜索信息的文本相似度,具体可以按照需求设置。
本发明实施例中,计算标题与所述搜索信息的杰卡德距离的一种方式可以是,对所述标题进行分词处理,确定对应的多个分词片段,然后可以依据所述标题对应的分词片段,确定所述标题对应的关键词;再采用所述标题对应的关键词和所述搜索信息对应的关键词进行比对,确定两者的交集和并集,然后依据所述交集和并集,确定所述标题与搜索信息的Jaccard距离。
其中,所述Jaccard距离的计算公式如下:
其中,A是搜索信息,B是标题。
步骤412、选取文本相似度最高的前N个搜索结果。
其中,若将1与Jaccard距离的差值作为文本相似度,则可以筛选出文本相似度最高的前N个搜索结果,其中,N是正整数。当然若将Jaccard距离作为文本相似度,则可以筛选出文本相似度最低的前N个搜索结果;本发明实施例对此不作限制。
然后可以采用训练后的深度语义匹配模型计算各筛选后的搜索结果与搜索信息的余弦距离,可参照图4b;再依据所述预先距离进行排序,具体如下:
步骤414、采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离。
其中,可以包括如下子步骤:
子步骤S22、针对一个筛选后的搜索结果,确定所述筛选后的搜索结果对应网页内容的标题。
子步骤S24、将所述标题和搜索信息输入至深度语义匹配模型中,得到所述筛选后的搜索结果与搜索信息对应的余弦距离。
本发明实施例中,所述深度语义匹配模型在训练过程中,输入的是历史搜索结果对应网页内容的标题,因此在采用深度语义匹配模型,计算各筛选后的搜索结果和搜索信息的文本相似度的过程中,可以针对每个筛选后的搜索结果,获取所述筛选后的搜索结果中网页内容的标题,然后将所述标题和搜索信息输入至深度语义匹配模型中,得到所述筛选后的搜索结果与搜索信息对应的余弦距离。
步骤416、依据所述余弦距离,对所述筛选后的搜索结果进行排序。
本发明实施例中,可以依据余弦距离对筛选后的搜索结果进行升序排序,也可以依据余弦距离对筛选后的搜索结果进行降序排序;具体按照需求设置。
步骤418、选取余弦距离最大的前M个搜索结果作为目标搜索结果。
本发明实施例中,可以选取余弦距离最大的前M个搜索结果作为目标搜索结果,以达到为用户提供准确答案的效果;其中,M是正整数。其中,若步骤416按照余弦距离进行了降序排序,则可以选取前M个搜索结果;若步骤416按照余弦距离进行了升序排序,则可以选取后M个搜索结果。
步骤420、返回所述目标搜索结果。
本发明实施例中,在选取出目标搜索结果后,搜索引擎可以返回目标搜索结果;其中,搜索引擎返回搜索结果的一种方式可以是,直接将所述目标搜索结果返回给搜索平台,搜索平台可以依据目标搜索结果中的标题生成对应的搜索结果项,依据所述目标搜索结果对应网页内容的正文,生成该搜索结果项对应的摘要;再在搜索结果页中显示该搜索结果项和对应的摘要。搜索引擎返回搜索结果的另一种方式可以是,依据可以依据目标搜索结果中的标题生成对应的搜索结果项,依据所述目标搜索结果对应网页内容的正文,生成该搜索结果项对应的摘要;然后将目标搜索结果对应的搜索结果项和对应的摘要返回给搜索平台,搜索平台在搜索结果也对所述搜索结果项进行展示即可。进而用户可以在搜索结果页针对所述搜索结果项执行查看操作如点击操作,搜索平台可以接收到对应的查看指令,然后可以打开该搜索结果项对应搜索结果的网址并展示对应的网页页面,用户可以通过浏览该网页页面中的内容获取有价值的信息。
本发明实施例中,在接收搜索信息后,可以从搜索信息中提取关键词,依据所述关键词从数据库中召回多条搜索结果,然后可以分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选,再依据深度语义匹配模型对筛选后的搜索结果进行排序,然后依据排序结果需求目标搜索结果并返回;进而能够为用户提供准确的搜索结果。
其次,本发明实施例中,所述深度语义匹配模型是采用交叉熵代价函数进行反向训练的,可以提高深度语义匹配模型计算文本相似度的准确性,使得选取出的目标搜索结果可以更好的满足用户需求,不仅进一步提高了搜索准确率,还节约了用户从目标搜索结果中查找满足需求的搜索结果,进一步提高了搜索效率。
进一步,本发明实施例中,先对搜索结果进行初步筛选,再采用深度语义匹配模型对筛选后的搜索结果进行排序;减少了深度语义匹配模型排序数据量,提高了排序效率,从而进一步提高了搜索效率。
再次,本发明实施例中,可以从多条搜索结果中,选取余弦距离最大的前M个的搜索结果作为目标搜索结果并返回;进而为用户提供准确的搜索结果,提高搜索结果的准确率且能够提高用户体验。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图5,示出了本发明的一种数据处理装置实施例的结构框图,具体可以包括如下模块:
召回模块502,用于接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的;
筛选模块504,用于分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;
排序模块506,用于采用深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果。
参照图6,示出了本发明的一种数据处理装置可选实施例的结构框图。
本发明一个可选的实施例中,所述召回模块502,用于对所述搜索信息进行分词处理,确定所述搜索信息对应的关键词;基于所述关键词查找倒排索引,确定对应的多个文档标识;从数据库中召回所述文档标识匹配的搜索结果。
本发明一个可选的实施例中,所述筛选模块504包括:
相似度计算子模块5042,用于针对一个搜索结果,确定所述搜索结果对应网页内容的标题;对所述标题进行分词处理,确定所述标题对应的关键词;依据所述标题对应的关键词与所述搜索信息对应的关键词,计算所述标题与搜索信息的杰卡德距离;依据所述标题与搜索信息的杰卡德距离,确定所述搜索结果与搜索信息的文本相似度。
本发明一个可选的实施例中,所述筛选模块504包括:
结果筛选子模块5044,用于筛选文本相似度最高的前N个搜索结果;其中,N是正整数。
本发明一个可选的实施例中,所述排序模块506包括:
距离计算子模块5062,用于采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离;
结果排序子模块5064,用于依据所述余弦距离,对所述筛选后的搜索结果进行排序;其中,所述深度语义匹配模型依据交叉熵代价函数进行反向训练。
本发明一个可选的实施例中,所述距离计算子模块5062,用于针对一个筛选后的搜索结果,确定所述筛选后的搜索结果对应网页内容的标题;将所述标题和搜索信息输入至深度语义匹配模型中,得到所述筛选后的搜索结果与搜索信息对应的余弦距离。
本发明一个可选的实施例中,所述的装置还包括:
训练模块508,用于收集多组训练数据,其中,一组训练数据包括一个历史搜索信息、所述历史搜索信息匹配的一个历史搜索结果和至少一个其他历史搜索结果;将所述多组训练数据输入至所述匹配模型中,得到各组训练数据对应的余弦距离,其中,匹配的历史搜索结果为正样本,其他历史搜索结果为负样本;依据所述各余弦距离和交叉熵代价函数,对所述深度语义匹配模型的权值进行调整。
本发明一个可选的实施例中,所述排序模块506包括:
结果选取子模块5066,用于选取余弦距离最大的前M个搜索结果作为目标搜索结果;其中,M是正整数。
本发明一个可选的实施例中,所述装置还包括:
数据库建立模块510,用于采用网络爬虫获取指定领域的结构化数据,依据所述结构化数据建立数据库。
本发明一个可选的实施例中,所述指令领域包括法律领域。
本发明实施例中,在接收搜索信息后,可以从搜索信息中提取关键词,依据所述关键词从数据库中召回多条搜索结果,然后可以分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选,进而将文本相似度低的搜索结果过滤掉;然后再依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回,进而能够为用户提供准确的搜索结果。且相对于现有技术用户需要进行多次输入或分辨搜索信息对应的法律节点才能获取搜索结果而言,本发明实施例中用户无需分辨搜索信息的法律节点,且进行一次输入就可以获取对应的搜索结果,搜索效率高。此外,相对于现有技术仅仅能够给出一些相关的法律条文、案例网页的搜索结果,本发明的方案能够将网络上法律从业者整理的、通俗易懂的知识文档作为答案推送给用户,可以很好的提高用户体验,有效解决用户的需求。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图7是根据一示例性实施例示出的一种用于数据处理的电子设备700的结构框图。例如,电子设备700可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,电子设备700可以包括以下一个或多个组件:处理组件702,存储器704,电力组件706,多媒体组件708,音频组件710,输入/输出(I/O)的接口712,传感器组件714,以及通信组件716。
处理组件702通常控制电子设备700的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件702可以包括一个或多个模块,便于处理组件702和其他组件之间的交互。例如,处理部件702可以包括多媒体模块,以方便多媒体组件708和处理组件702之间的交互。
存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件706为电子设备700的各种组件提供电力。电力组件706可以包括电源管理系统,一个或多个电源,及其他与为电子设备700生成、管理和分配电力相关联的组件。
多媒体组件708包括在所述电子设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件708包括一个前置摄像头和/或后置摄像头。当电子设备700处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件710被配置为输出和/或输入音频信号。例如,音频组件710包括一个麦克风(MIC),当电子设备700处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中,音频组件710还包括一个扬声器,用于输出音频信号。
I/O接口712为处理组件702和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件714包括一个或多个传感器,用于为电子设备700提供各个方面的状态评估。例如,传感器组件714可以检测到设备700的打开/关闭状态,组件的相对定位,例如所述组件为电子设备700的显示器和小键盘,传感器组件714还可以检测电子设备700或电子设备700一个组件的位置改变,用户与电子设备700接触的存在或不存在,电子设备700方位或加速/减速和电子设备700的温度变化。传感器组件714可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件714还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件714经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件714还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器704,上述指令可由电子设备700的处理器720执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种数据处理方法,所述方法包括:接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的;分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果。
可选地,所述提取关键词,依据所述关键词从数据库中召回多条搜索结果,包括:对所述搜索信息进行分词处理,确定所述搜索信息对应的关键词;基于所述关键词查找倒排索引,确定对应的多个文档标识;从数据库中召回所述文档标识匹配的搜索结果。
可选地,所述分别计算各搜索结果与所述搜索信息的文本相似度,包括:针对一个搜索结果,确定所述搜索结果对应网页内容的标题;对所述标题进行分词处理,确定所述标题对应的关键词;依据所述标题对应的关键词与所述搜索信息对应的关键词,计算所述标题与搜索信息的杰卡德距离;依据所述标题与搜索信息的杰卡德距离,确定所述搜索结果与搜索信息的文本相似度。
可选地,所述依据所述文本相似度对所述搜索结果进行筛选,包括:选取文本相似度最高的前N个搜索结果;其中,N为正整数。
可选地,所述依据深度语义匹配模型对筛选后的搜索结果进行排序,包括:采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离;依据所述余弦距离,对所述筛选后的搜索结果进行排序;其中,所述深度语义匹配模型依据交叉熵代价函数进行反向训练。
可选地,所述采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离,包括:针对一个筛选后的搜索结果,确定所述筛选后的搜索结果对应网页内容的标题;将所述标题和搜索信息输入至深度语义匹配模型中,得到所述筛选后的搜索结果与搜索信息的余弦距离。
可选地,所述的方法还包括训练所述深度语义匹配模型的步骤:收集多组训练数据,其中,一组训练数据包括一个历史搜索信息、所述历史搜索信息匹配的一个历史搜索结果和至少一个其他历史搜索结果;将所述多组训练数据输入至所述匹配模型中,得到各组训练数据对应的余弦距离,其中,匹配的历史搜索结果为正样本,其他历史搜索结果为负样本;依据所述各余弦距离和交叉熵代价函数,对所述深度语义匹配模型的权值进行调整。
可选地,所述依据排序结果选取出目标搜索结果,包括:选取余弦距离最大的前M个搜索结果作为目标搜索结果;其中,M是正整数。
可选地,所述的方法还包括建立所述数据库的步骤:采用网络爬虫获取指定领域的结构化数据,依据所述结构化数据建立所述数据库。
可选地,所述指定领域包括法律领域。
图8是本发明根据另一示例性实施例示出的一种用于数据处理的电子设备800的结构示意图。该电子设备800可以是服务器,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器822可以设置为与存储介质830通信,在服务器上执行存储介质830中的一系列指令操作。
服务器还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,一个或一个以上键盘856,和/或,一个或一个以上操作系统841,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的;分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果。
可选地,所述提取关键词,依据所述关键词从数据库中召回多条搜索结果,包括:对所述搜索信息进行分词处理,确定所述搜索信息对应的关键词;基于所述关键词查找倒排索引,确定对应的多个文档标识;从数据库中召回所述文档标识匹配的搜索结果。
可选地,所述分别计算各搜索结果与所述搜索信息的文本相似度,包括:针对一个搜索结果,确定所述搜索结果对应网页内容的标题;对所述标题进行分词处理,确定所述标题对应的关键词;依据所述标题对应的关键词与所述搜索信息对应的关键词,计算所述标题与搜索信息的杰卡德距离;依据所述标题与搜索信息的杰卡德距离,确定所述搜索结果与搜索信息的文本相似度。
可选地,所述依据所述文本相似度对所述搜索结果进行筛选,包括:选取文本相似度最高的前N个搜索结果;其中,N为正整数。
可选地,所述依据深度语义匹配模型对筛选后的搜索结果进行排序,包括:采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离;依据所述余弦距离,对所述筛选后的搜索结果进行排序;其中,所述深度语义匹配模型依据交叉熵代价函数进行反向训练。
可选地,所述采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离,包括:针对一个筛选后的搜索结果,确定所述筛选后的搜索结果对应网页内容的标题;将所述标题和搜索信息输入至深度语义匹配模型中,得到所述筛选后的搜索结果与搜索信息的余弦距离。
可选地,所述的电子设备还包含用于进行以下训练所述深度语义匹配模型操作的指令:收集多组训练数据,其中,一组训练数据包括一个历史搜索信息、所述历史搜索信息匹配的一个历史搜索结果和至少一个其他历史搜索结果;将所述多组训练数据输入至所述匹配模型中,得到各组训练数据对应的余弦距离,其中,匹配的历史搜索结果为正样本,其他历史搜索结果为负样本;依据所述各余弦距离和交叉熵代价函数,对所述深度语义匹配模型的权值进行调整。
可选地,所述依据排序结果选取出目标搜索结果,包括:选取余弦距离最大的前M个搜索结果作为目标搜索结果;其中,M是正整数。
可选地,所述的电子设备还包含用于进行以下建立所述数据库操作的指令:采用网络爬虫获取指定领域的结构化数据,依据所述结构化数据建立所述数据库。
可选地,所述指定领域包括法律领域。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种电子设备,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (25)

1.一种数据处理方法,其特征在于,包括:
接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的;
分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;
依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果;
所述的方法还包括训练所述深度语义匹配模型的步骤:
收集多组训练数据,其中,一组训练数据包括一个历史搜索信息、所述历史搜索信息匹配的一个历史搜索结果和至少一个其他历史搜索结果;
将所述多组训练数据输入至所述匹配模型中,得到各组训练数据对应的余弦距离,其中,匹配的历史搜索结果为正样本,其他历史搜索结果为负样本;
依据所述各余弦距离和交叉熵代价函数,对所述深度语义匹配模型的权值进行调整;
所述依据所述各余弦距离和交叉熵代价函数,对所述深度语义匹配模型的权值进行调整,包括:将所述各余弦距离代入所述交叉熵代价函数中;然后依据代入余弦距离后的交叉熵代价函数,对所述深度语义匹配模型的权值进行调整;其中,所述交叉熵代价函数的公式如下:
其中,x包括所述正样本和所述负样本;n是所述正样本和所述负样本的总数量;a是所述历史搜索信息与所述正样本/所述负样本的余弦距离;y是期望输出值(0或1),若所述x是正样本,所述y是1,若所述x是负样本,所述y是0;
所述的方法还包括建立所述数据库的步骤:
采用网络爬虫获取指定领域的结构化数据,依据所述结构化数据建立所述数据库。
2.根据权利要求1所述的方法,其特征在于,所述提取关键词,依据所述关键词从数据库中召回多条搜索结果,包括:
对所述搜索信息进行分词处理,确定所述搜索信息对应的关键词;
基于所述关键词查找倒排索引,确定对应的多个文档标识;
从数据库中召回所述文档标识匹配的搜索结果。
3.根据权利要求2所述的方法,其特征在于,所述分别计算各搜索结果与所述搜索信息的文本相似度,包括:
针对一个搜索结果,确定所述搜索结果对应网页内容的标题;
对所述标题进行分词处理,确定所述标题对应的关键词;
依据所述标题对应的关键词与所述搜索信息对应的关键词,计算所述标题与搜索信息的杰卡德距离;
依据所述标题与搜索信息的杰卡德距离,确定所述搜索结果与搜索信息的文本相似度。
4.根据权利要求1所述的方法,其特征在于,所述依据所述文本相似度对所述搜索结果进行筛选,包括:
选取文本相似度最高的前N个搜索结果;其中,N为正整数。
5.根据权利要求1所述的方法,其特征在于,所述依据深度语义匹配模型对筛选后的搜索结果进行排序,包括:
采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离;
依据所述余弦距离,对所述筛选后的搜索结果进行排序;
其中,所述深度语义匹配模型依据交叉熵代价函数进行反向训练。
6.根据权利要求5所述的方法,其特征在于,所述采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离,包括:
针对一个筛选后的搜索结果,确定所述筛选后的搜索结果对应网页内容的标题;
将所述标题和搜索信息输入至深度语义匹配模型中,得到所述筛选后的搜索结果与搜索信息的余弦距离。
7.根据权利要求5所述的方法,其特征在于,所述依据排序结果选取出目标搜索结果,包括:
选取余弦距离最大的前M个搜索结果作为目标搜索结果;其中,M是正整数。
8.根据权利要求1-7任一所述的方法,其特征在于,所述指定领域包括法律领域。
9.一种数据处理装置,其特征在于,包括:
召回模块,用于接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的;
筛选模块,用于分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;
排序模块,用于依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果;
所述的装置还包括:
训练模块,用于收集多组训练数据,其中,一组训练数据包括一个历史搜索信息、所述历史搜索信息匹配的一个历史搜索结果和至少一个其他历史搜索结果;将所述多组训练数据输入至所述匹配模型中,得到各组训练数据对应的余弦距离,其中,匹配的历史搜索结果为正样本,其他历史搜索结果为负样本;依据所述各余弦距离和交叉熵代价函数,对所述深度语义匹配模型的权值进行调整;
所述依据所述各余弦距离和交叉熵代价函数,对所述深度语义匹配模型的权值进行调整,包括:将所述各余弦距离代入所述交叉熵代价函数中;然后依据代入余弦距离后的交叉熵代价函数,对所述深度语义匹配模型的权值进行调整;其中,所述交叉熵代价函数的公式如下:
其中,x包括所述正样本和所述负样本;n是所述正样本和所述负样本的总数量;a是所述历史搜索信息与所述正样本/所述负样本的余弦距离;y是期望输出值(0或1),若所述x是正样本,所述y是1,若所述x是负样本,所述y是0;
数据库建立模块,用于采用网络爬虫获取指定领域的结构化数据,依据所述结构化数据建立数据库。
10.根据权利要求9所述的装置,其特征在于,
所述召回模块,用于对所述搜索信息进行分词处理,确定所述搜索信息对应的关键词;基于所述关键词查找倒排索引,确定对应的多个文档标识;从数据库中召回所述文档标识匹配的搜索结果。
11.根据权利要求10所述的装置,其特征在于,所述筛选模块包括:
相似度计算子模块,用于针对一个搜索结果,确定所述搜索结果对应网页内容的标题;对所述标题进行分词处理,确定所述标题对应的关键词;依据所述标题对应的关键词与所述搜索信息对应的关键词,计算所述标题与搜索信息的杰卡德距离;依据所述标题与搜索信息的杰卡德距离,确定所述搜索结果与搜索信息的文本相似度。
12.根据权利要求9所述的装置,其特征在于,所述筛选模块包括:
结果筛选子模块,用于选取文本相似度最高的前N个搜索结果;其中,N为正整数。
13.根据权利要求9所述的装置,其特征在于,所述排序模块包括:
距离计算子模块,用于采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离;
结果排序子模块,用于依据所述余弦距离,对所述筛选后的搜索结果进行排序;其中,所述深度语义匹配模型依据交叉熵代价函数进行反向训练。
14.根据权利要求13所述的装置,其特征在于,
所述距离计算子模块,用于针对一个筛选后的搜索结果,确定所述筛选后的搜索结果对应网页内容的标题;将所述标题和搜索信息输入至深度语义匹配模型中,得到所述筛选后的搜索结果与搜索信息的余弦距离。
15.根据权利要求13所述的装置,其特征在于,所述排序模块包括:
结果选取子模块,用于选取余弦距离最大的前M个搜索结果作为目标搜索结果;其中,M是正整数。
16.根据权利要求9-15任一所述的装置,其特征在于,所述指定领域包括法律领域。
17.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行权利要求1-8任一所述的数据处理方法。
18.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
接收搜索信息并提取关键词,依据所述关键词从数据库中召回多条搜索结果,其中,所述数据库是针对指定领域建立的;
分别计算各搜索结果与所述搜索信息的文本相似度,依据所述文本相似度对所述搜索结果进行筛选;
依据深度语义匹配模型对筛选后的搜索结果进行排序,依据排序结果选取目标搜索结果并返回所述目标搜索结果;
还包括训练所述深度语义匹配模型的步骤:
收集多组训练数据,其中,一组训练数据包括一个历史搜索信息、所述历史搜索信息匹配的一个历史搜索结果和至少一个其他历史搜索结果;
将所述多组训练数据输入至所述匹配模型中,得到各组训练数据对应的余弦距离,其中,匹配的历史搜索结果为正样本,其他历史搜索结果为负样本;
依据所述各余弦距离和交叉熵代价函数,对所述深度语义匹配模型的权值进行调整;
所述依据所述各余弦距离和交叉熵代价函数,对所述深度语义匹配模型的权值进行调整,包括:将所述各余弦距离代入所述交叉熵代价函数中;然后依据代入余弦距离后的交叉熵代价函数,对所述深度语义匹配模型的权值进行调整;其中,所述交叉熵代价函数的公式如下:
其中,x包括所述正样本和所述负样本;n是所述正样本和所述负样本的总数量;a是所述历史搜索信息与所述正样本/所述负样本的余弦距离;y是期望输出值(0或1),若所述x是正样本,所述y是1,若所述x是负样本,所述y是0;
还包括建立所述数据库的步骤:
采用网络爬虫获取指定领域的结构化数据,依据所述结构化数据建立所述数据库。
19.根据权利要求18所述的电子设备,其特征在于,所述提取关键词,依据所述关键词从数据库中召回多条搜索结果,包括:
对所述搜索信息进行分词处理,确定所述搜索信息对应的关键词;
基于所述关键词查找倒排索引,确定对应的多个文档标识;
从数据库中召回所述文档标识匹配的搜索结果。
20.根据权利要求19所述的电子设备,其特征在于,所述分别计算各搜索结果与所述搜索信息的文本相似度,包括:
针对一个搜索结果,确定所述搜索结果对应网页内容的标题;
对所述标题进行分词处理,确定所述标题对应的关键词;
依据所述标题对应的关键词与所述搜索信息对应的关键词,计算所述标题与搜索信息的杰卡德距离;
依据所述标题与搜索信息的杰卡德距离,确定所述搜索结果与搜索信息的文本相似度。
21.根据权利要求18所述的电子设备,其特征在于,所述依据所述文本相似度对所述搜索结果进行筛选,包括:
选取文本相似度最高的前N个搜索结果;其中,N为正整数。
22.根据权利要求18所述的电子设备,其特征在于,所述依据深度语义匹配模型对筛选后的搜索结果进行排序,包括:
采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离;
依据所述余弦距离,对所述筛选后的搜索结果进行排序;
其中,所述深度语义匹配模型依据交叉熵代价函数进行反向训练。
23.根据权利要求22所述的电子设备,其特征在于,所述采用深度语义匹配模型进行短文本相似度的计算,确定各筛选后的搜索结果与搜索信息的余弦距离,包括:
针对一个筛选后的搜索结果,确定所述筛选后的搜索结果对应网页内容的标题;
将所述标题和搜索信息输入至深度语义匹配模型中,得到所述筛选后的搜索结果与搜索信息的余弦距离。
24.根据权利要求22所述的电子设备,其特征在于,所述依据排序结果选取出目标搜索结果,包括:
选取余弦距离最大的前M个搜索结果作为目标搜索结果;其中,M是正整数。
25.根据权利要求18-24任一所述的电子设备,其特征在于,所述指定领域包括法律领域。
CN201811496044.2A 2018-12-07 2018-12-07 一种数据处理方法、装置和电子设备 Active CN111291069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811496044.2A CN111291069B (zh) 2018-12-07 2018-12-07 一种数据处理方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811496044.2A CN111291069B (zh) 2018-12-07 2018-12-07 一种数据处理方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN111291069A CN111291069A (zh) 2020-06-16
CN111291069B true CN111291069B (zh) 2024-03-22

Family

ID=71023282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811496044.2A Active CN111291069B (zh) 2018-12-07 2018-12-07 一种数据处理方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN111291069B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112163137A (zh) * 2020-09-02 2021-01-01 北京神鹰城讯科技股份有限公司 一种基于数据采集和信息抽取的房屋租赁信息搜索方法
CN111986771A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 医疗处方查询方法、装置、电子设备及存储介质
CN112182154B (zh) * 2020-09-25 2023-10-10 中国人民大学 一种利用个人词向量消除关键词歧义的个性化搜索模型
CN112434183B (zh) * 2020-11-30 2024-05-17 北京达佳互联信息技术有限公司 一种搜索结果的排序方法、装置、设备和存储介质
CN112800315B (zh) * 2021-01-29 2023-08-04 北京百度网讯科技有限公司 数据处理方法、装置、设备及存储介质
CN112905643B (zh) * 2021-03-11 2022-12-16 广西电力职业技术学院 一种从汽车故障案例库自动检索的方法和系统
CN113204655B (zh) * 2021-07-02 2021-11-23 北京搜狐新媒体信息技术有限公司 多媒体信息的推荐方法、相关装置及计算机存储介质
CN113806483B (zh) * 2021-09-17 2023-09-05 北京百度网讯科技有限公司 数据处理方法、装置、电子设备及计算机程序产品
CN115860769B (zh) * 2023-02-21 2023-05-05 中国环境科学研究院 一种基于匹配度和交叉熵的危险废物溯源方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015196907A1 (zh) * 2014-06-24 2015-12-30 北京奇虎科技有限公司 一种挖掘用户需求的搜索推送方法和装置
CN106407311A (zh) * 2016-08-30 2017-02-15 北京百度网讯科技有限公司 获取搜索结果的方法和装置
CN106547871A (zh) * 2016-10-31 2017-03-29 北京百度网讯科技有限公司 基于神经网络的搜索结果的召回方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015196907A1 (zh) * 2014-06-24 2015-12-30 北京奇虎科技有限公司 一种挖掘用户需求的搜索推送方法和装置
CN106407311A (zh) * 2016-08-30 2017-02-15 北京百度网讯科技有限公司 获取搜索结果的方法和装置
CN106547871A (zh) * 2016-10-31 2017-03-29 北京百度网讯科技有限公司 基于神经网络的搜索结果的召回方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于聚类算法的垂直搜索引擎技术研究;苗海;张仰森;岳明;;北京信息科技大学学报(自然科学版)(01);全文 *

Also Published As

Publication number Publication date
CN111291069A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN111291069B (zh) 一种数据处理方法、装置和电子设备
CN107526744B (zh) 一种基于搜索的信息展示方法和装置
CN107766426B (zh) 一种文本分类方法、装置及电子设备
US20170154104A1 (en) Real-time recommendation of reference documents
CN109614482B (zh) 标签的处理方法、装置、电子设备及存储介质
CN108121736B (zh) 一种主题词确定模型的建立方法、装置及电子设备
CN110232137B (zh) 一种数据处理方法、装置和电子设备
CN109815396B (zh) 搜索词权重确定方法及装置
CN110399548A (zh) 一种搜索处理方法、装置、电子设备以及存储介质
CN108073606B (zh) 一种新闻推荐方法和装置、一种用于新闻推荐的装置
CN107315487B (zh) 一种输入处理方法、装置及电子设备
CN109918565B (zh) 一种搜索数据的处理方法、装置及电子设备
CN106815291B (zh) 搜索结果项展现方法、装置和用于搜索结果项展现的装置
CN112508612B (zh) 训练广告创意生成模型、生成广告创意的方法及相关装置
CN112784142A (zh) 一种信息推荐方法及装置
CN110929176A (zh) 一种信息推荐方法、装置及电子设备
CN106774969A (zh) 一种输入方法和装置
CN112541110A (zh) 一种信息推荐方法、装置和电子设备
CN107665218B (zh) 一种搜索方法、装置及电子设备
CN112307281A (zh) 一种实体推荐方法及装置
CN113033163A (zh) 一种数据处理方法、装置和电子设备
CN110110046B (zh) 同名实体推荐方法及装置
CN111831132A (zh) 一种信息推荐方法、装置和电子设备
CN111597431A (zh) 一种推荐方法、装置和电子设备
CN107436896A (zh) 一种输入推荐方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant