CN111737560A - 内容搜索方法、领域预测模型训练方法、装置及存储介质 - Google Patents
内容搜索方法、领域预测模型训练方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111737560A CN111737560A CN202010700846.1A CN202010700846A CN111737560A CN 111737560 A CN111737560 A CN 111737560A CN 202010700846 A CN202010700846 A CN 202010700846A CN 111737560 A CN111737560 A CN 111737560A
- Authority
- CN
- China
- Prior art keywords
- keyword
- domain
- vector
- word
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能,应用于智慧城市中,使用自然语言处理提高搜索精度。具体公开了内容搜索、领域预测模型训练方法、装置及存储介质,搜索方法包括:获取搜索文本,对搜索文本进行分词以提取若干关键词;对关键词进行嵌入处理,得到各关键词的关键词向量;基于训练好的词性标注模型,根据关键词向量确定各关键词的词性;基于训练好的领域预测模型,根据关键词向量确定关键词是否为领域词;根据关键词的词性和关键词是否为领域词,确定各关键词的权重值,其中,为领域词的关键词的权重值大于不为领域词的关键词的权重值;基于搜索引擎,根据关键词及其权重值输出搜索结果。本申请还涉及区块链领域,训练好的领域预测模型可存储于区块链节点中。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种内容搜索方法、领域预测模型训练方法、装置及存储介质。
背景技术
在当今的信息化时代,用户对课程、知识、新闻、热点时事等信息的获取都离不开搜索工具,但在一些搜索引擎中,搜索引擎返回给用户搜索结果与用户所期望的搜索结果会有较大差别。
自然语言处理是人工智能领域重要的领域,对于人类来说基本的语义理解是一种日常必备的语言能力,而对于人工智能来说,却代表了最高水平的进展,很多研究机构都将自然语言处理Natural Language Processing(NLP)作为技术重点。而在搜索引擎领域采用自然语言处理技术来提升搜索效能的研究一直在持续布局。但是目前,大部分搜索技术返回的搜索结果无法偏向用户更重视的领域,搜索的准确性较低,需要用户在大量搜索结果中寻找自己想要的搜索结果。
发明内容
本申请提供了一种内容搜索方法、领域预测模型训练方法、装置及存储介质,能够较好地使得搜索引擎返回的搜索结果偏向用户更重视的领域,以提升搜索的准确性。
第一方面,本申请提供了一种内容搜索方法,所述方法包括:
获取搜索文本,对所述搜索文本进行分词以提取若干关键词;
对所述若干关键词进行嵌入处理,得到各所述关键词的关键词向量;
基于训练好的词性标注模型,根据所述关键词向量确定各所述关键词的词性;
基于训练好的领域预测模型,根据所述关键词向量确定各所述关键词是否为领域词;
根据各所述关键词的词性,和各所述关键词是否为领域词,确定各所述关键词的权重值,其中,为领域词的关键词的权重值大于不为领域词的关键词的权重值;
基于搜索引擎,根据所述关键词和所述关键词的权重值输出搜索结果。
第二方面,本申请提供了一种领域预测模型训练方法,所述方法包括:
获取训练数据,所述训练数据包括热门领域的内容文本和冷僻领域的内容文本;
基于第一领域预测模型,从所述热门领域的内容文本中提取隐状态序列以及对所述隐状态序列降维得到所述内容文本中各关键词被视为领域词的第一打分向量;
基于第一全连接层,对所述内容文本中各关键词被视为领域词的第一打分向量进行全连接处理,得到第一打分值;
基于第二领域预测模型,从所述冷僻领域的内容文本中提取隐状态序列以及对所述隐状态序列降维得到所述内容文本中各关键词被视为领域词的第二打分向量;
基于第二全连接层,对所述内容文本中各关键词被视为领域词的第二打分向量进行全连接处理,得到第二打分值;
根据所述第一打分值和所述第二打分值计算打分损失值以及根据所述第一打分向量和所述第二打分向量计算最大均值差异损失,并根据所述打分损失值以及最大均值差异损失计算联合损失值;
根据所述联合损失值调整所述第二领域预测模型的参数,并确定调整后的第二领域预测模型为所述领域预测模型。
第三方面,本申请提供了一种内容搜索装置,所述装置包括:
分词模块,用于获取搜索文本,对所述搜索文本进行分词以提取若干关键词;
嵌入模块,用于对所述若干关键词进行嵌入处理,得到各所述关键词的关键词向量;
词性确定模块,用于基于训练好的词性标注模型,根据所述关键词向量确定各所述关键词的词性;
领域确定模块,用于基于训练好的领域预测模型,根据所述关键词向量确定各所述关键词是否为领域词;
权重确定模块,用于根据各所述关键词的词性,和各所述关键词是否为领域词,确定各所述关键词的权重值,其中,为领域词的关键词的权重值大于不为领域词的关键词的权重值;
搜索模块,用于基于搜索引擎,根据所述关键词和所述关键词的权重值输出搜索结果。
第四方面,本申请提供了一种领域预测模型的训练装置,所述装置包括:
数据获取模块,用于获取训练数据,所述训练数据包括热门领域的内容文本和冷僻领域的内容文本;
第一向量处理模块,用于基于第一领域预测模型,从所述热门领域的内容文本中提取隐状态序列以及对所述隐状态序列降维得到所述内容文本中各关键词被视为领域词的第一打分向量;
第一连接模块,用于基于第一全连接层,对所述内容文本中各关键词被视为领域词的第一打分向量进行全连接处理,得到第一打分值;
第二向量处理模块,用于基于第二领域预测模型,从所述冷僻领域的内容文本中提取隐状态序列以及对所述隐状态序列降维得到所述内容文本中各关键词被视为领域词的第二打分向量;
第二连接模块,用于基于第二全连接层,对所述内容文本中各关键词被视为领域词的第二打分向量进行全连接处理,得到第二打分值;
损失确定模块,用于根据所述第一打分值和所述第二打分值计算打分损失值以及根据所述第一打分向量和所述第二打分向量计算最大均值差异损失,并根据所述打分损失以及最大均值差异损失计算联合损失值;
参数调整模块,用于根据所述联合损失值调整所述第二领域预测模型的参数,并确定调整后的第二领域预测模型为所述领域预测模型。
第五方面,本申请提供了一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器用于储存计算机程序;所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现上述的内容搜索方法和/或上述的领域预测模型训练方法。
第六方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,若所述计算机程序被处理器执行,实现上述的内容搜索方法和/或上述的领域预测模型训练方法。
本申请公开了一种内容搜索方法、领域预测模型训练方法、装置及存储介质,通过对获取的搜索文本进行分词以提取关键词、对关键词进行嵌入处理,然后通过词性标注模型对关键词进行词性标注,以及通过领域预测模型判断关键词是否为领域词,然后根据关键词的词性标注和关键词是否为领域词确定关键词在搜索文本中的权重,以使搜索引擎返回的搜索结果更接近用户的需求,实现基于人工智能,尤其是自然语言处理提升搜索文本的搜索准确度。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种内容搜索方法的流程示意图;
图2是本申请一实施例提供的一种领域预测模型训练方法的流程示意图;
图3是本申请一实施例提供的一种训练领域预测模型的示意图;
图4是本申请另一实施例提供的一种领域预测模型训练方法的流程示意图;
图5是本申请一实施例提供的一种词性预测模型训练方法的流程示意图;
图6是本申请一实施例提供的一种内容搜索装置的结构示意图;
图7是本申请一实施例提供的一种领域预测模型训练装置的结构示意图;
图8是本申请一实施例提供的一种计算机设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,虽然在装置示意图中进行了功能模块的划分,但是在某些情况下,可以以不同于装置示意图中的模块划分。
本申请的实施例提供了一种内容搜索方法、模型训练方法、装置、计算机设备及计算机可读存储介质。用于基于人工智能提升搜索准确性。示例性的,在智慧城市中,经常需要根据搜索文本从海量的数据中搜索需要的数据,例如,随着智慧城市的发展,积累了很多课程、直播等资源,可以根据本申请实施例的内容搜索方法从这些资源中获取需要的资源。
其中,该内容搜索方法、模型训练方法可以用于服务器,当然也可以用于终端,其中,终端可以是手机、平板电脑、笔记本电脑、台式电脑等电子设备;服务器例如可以为单独的服务器或服务器集群。但为了便于理解,以下实施例将以应用于服务器的内容搜索方法、模型训练方法进行详细介绍。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参阅图1,图1是本申请实施例提供的一种内容搜索方法的示意流程图。
如图1所示,该内容搜索方法可以包括以下步骤S110-步骤S160。
步骤S110、获取搜索文本,对所述搜索文本进行分词以提取若干关键词。
在一些实施方式中,搜索文本可以从用户的终端获取。
示例性地,用户在用户终端显示的搜索框中输入搜索文本;运行内容搜索方法的服务器获取从该用户终端发送出来的搜索文本,获取的搜索文本例如是包括“保额销售之养老金保障缺口计算原理”。
示例性地,可以基于分词模型对所述搜索文本进行分词。分词模型可以根据经标注的分词数据对神经网络模型进行训练得到,神经网络模型的参数可以基于在线机器学习的算法框架,从经标注的分词数据中学习调整得到。
例如,经标注的分词数据可以包括常用语料和/或业务语料的分词数据,其中,常用语料例如为开源的语料分词数据,业务语料数据可以为运行内容搜索方法的服务器上储存的业务语料分词数据。
示例性地,可以基于分词模型和字的序列标注对搜索文本进行分词。对于输入的搜索文本的字序列,分词模型可以给搜索文本中的每一个字标注一个标识词边界的标记,根据标识词边界的标记可以确定搜索文本中的若干关键词。
示例性地,还可以基于分词模型和经标注的分词数据对搜索文本进行分词。对于输入的搜索文本,分词模型可以让搜索文本与经标注的分词数据对比,根据对比结果,将相同或相近的词组确定为搜索文本中的若干关键词。
步骤S120、对所述若干关键词进行嵌入处理,得到各所述关键词的关键词向量。
由于深度学习模型接收的是数字的输入,而不是字符串,因而在获取到搜索文本并在搜索文本之中提取若干关键词之后,需要将这些关键词转换成词向量的形式。常见的词向量训练表示方法有word2vec和glove。
在一些实施方式中,可以基于Word2Vec模型对分词得到的若干关键词进行嵌入处理,得到关键词向量,实现将搜索文本向量化编码,并以该编码作为后续模型的输入数据。Word2Vec是一群常见的用来产生词向量的相关模型,通过学习词文本用向量的形式表征词的语义信息;模型将词与词之间的关系可视化,相似/相近的词组在Word2Vec的可视化图案中距离非常近。
示例性地,可以用genim函数库训练Word2Vec模型(如CBOW模型),可选地,可以使用各行业的专业领域语料作为训练Word2Vec模型的语料库。
在另一些实施方式中,将搜索文本以句子为单位划分,将句子中已提取的关键词进行嵌入处理,得到各所述关键词的关键词向量。
示例性地,将一个含有n个关键词的句子(词的序列)记作:x=(x1,x2,...,xi,...,xn)其中xi表示句子的第i个关键词在词典中的id,进而可以得到搜索文本中每个关键词对应的one-hot向量,维数是词典的大小。
示例性地,可以通过降维层,如look-up层对每个关键词对应的one-hot向量进行处理,以得到关键词向量。例如,可以利用经预训练或随机初始化的词嵌入(embedding)矩阵将句子中每个关键词xi由one-hot向量映射为低维稠密的关键词向量(characterembedding),xi∈Rd,d是词嵌入矩阵的维度,通过降维处理减少了数据量,粗略将每个关键词进行了分类,从而使关键词经过后续词性分类步骤后,词性分类的结果更精准。
步骤S130、基于训练好的词性标注模型,根据所述关键词向量确定各所述关键词的词性。
对于得到的各所述关键词的关键词向量,可以使用训练好的词性标注模型,例如训练好的Bilstm+crf的网络模型,确定每个关键词的词性。
示例性地,词性标注模型包括Bilstm层、线性层和CRF层。其中,Bilstm层是一种双向长短记忆网络,包括前向(forward)LSTM层和后向(backward)LSTM层,CRF是一种条件随机场网络。
在一些实施方式中,基于训练好的词性标注模型,根据所述关键词向量确定各所述关键词的词性包括步骤S131-步骤S134。
步骤S131、基于所述Bilstm层,从若干所述关键词向量的前向方向确定前向隐状态向量,以及从若干所述关键词向量的后向方向确定后向隐状态向量。
示例性地,由于搜索文本中的关键词经常存在前后的关联关系,排列在后边的关键词可能影响前面关键词的意思表达,所以,为了更好的处理关键词向量,Bilstm层在处理词语时会分别从前后两个不同的方向进行处理。
例如将由关键词向量组成的序列x=(x1,x2,...,xn)作为forward LSTM层和backward LSTM层各个时间步的输入,通过forward LSTM层从前向方向处理关键词向量,并输出前向隐状态向量,以及通过backward LSTM层从后向方向处理关键词向量,并输出后向隐状态向量。从前后两个方向进行处理避免了在处理关键词向量序列时只受到前一向量的影响,增加了关键词词性识别的准确性。
步骤S132、基于线性层,对所述前向隐状态向量和后向隐状态向量进行融合和降维,得到各所述关键词对应若干分类标签的分类打分值。
示例性地,通过线性层LSTM’s output,将前向隐状态向量和后向隐状态向量进行拼接或相加得到一完整的隐状态序列:ht=(h1,h2,...,hn)∈Rn×m,然后对该完整的隐状态序列进行从m维映射到k维的降维处理,k可以是词性类别标注集的词性类别数目,将降维之后的序列记作矩阵p=(p1,p2,...,pn)∈Rn×k,可以将pi∈Rk的每一维pij视为将关键词xi分类到第j个分类标签的分类打分值。
由于此时对上一步骤得到的矩阵p进行分类映射(softmax)处理,相当于对各个关键词独立进行k的分类,没有考虑句子对词性的影响,所以,为了将句子对词性的影响纳入考虑范围,接入一个CRF层来进行句子级的序列标注。
步骤S133、基于所述CRF层,根据不同分类标签之间的转移矩阵,和各关键词对应于若干分类标签的分类打分值,确定各关键词对应的若干分类标签的转移打分值。
示例性地,通过CRF层,矩阵p与CRF层中的转移矩阵A进行处理计算,计算结果Aij表示从第i个分类标签转移到第j个分类标签的转移得分,得到关键词向量对应若干分类标签的转移打分值。
示例性的,转移矩阵A是一个(k+2)×(k+2)的矩阵,k+2是因为在句子首部添加一个起始状态和在句子尾部添加一个终止状态,利用CRF层中的转移矩阵A可以将句子中关键词的词性之间的互相影响纳入考虑范围,得到更准确的词性分类结果。
步骤S134、根据各所述关键词对应于若干分类标签的分类打分值和转移打分值,确定各所述关键词的词性。
示例性地,将Bilstm层输出的pi和CRF层输出的Ai相加,并利用softmax计算,得出各关键词对应每个标签的概率,取最大概率对应的标签即可获得各关键词的词性。
例如,记一个标签序列长度为y=(y1,y2,...,yn),训练好的词性标注模型对于关键词x分类到y中所有标签的打分为:
利用softmax得到归一化后的频率为:
经过归一化后得到各关键词x对应y中所有标签的概率,取最大的概率便可确定关键词x的词性。
步骤S140、基于训练好的领域预测模型,根据所述关键词向量确定各所述关键词是否为领域词。
搜索文本通常包含用户需要的数据所涉及到的领域的信息,例如搜索文本“保额销售之要老金保障缺口计算原理”表示用户更希望搜索引擎返回“保额销售”领域的内容。通过确定搜索文本的关键词中得到领域词,可以提高搜索内容与搜索需求的匹配程度,提高搜索精度。
在一些实施方式中,训练好的领域预测模型包括:Bilstm层和线性层;所述基于训练好的领域预测模型,根据所述关键词向量确定各所述关键词是否为领域词,包括步骤S141-步骤S143。
步骤S141、基于所述Bilstm层,从若干所述关键词向量的前向方向确定第一隐状态向量,以及从若干所述关键词向量的后向方向确定第二隐状态向量。
示例性地,由关键词向量组成的序列(x1,x2,...,xn)作为forward LSTM层和backward LSTM层各个时间步的输入,通过forward LSTM层从前向方向处理关键词向量,并输出第一隐状态向量,以及通过backward LSTM层从后向方向处理关键词向量,并输出第二隐状态向量。
步骤S142、基于所述线性层,对所述第一隐状态向量和所述第二隐状态向量进行融合和降维,确定各所述关键词被视为领域词的领域打分值。
示例性地,通过线性层LSTM’s output,将由第一隐状态向量和第二隐状态向量进行拼接或相加得到第一完整隐状态序列:ht=(h1,h2,...,hn)∈Rn×m,然后对第一完整隐状态序列进行从m维映射到k维的降维处理,k可以是不同领域标签的数目,将降维之后的序列记作矩阵p=(p1,p2,...,pn)∈Rn×k,可以将pi∈Rk的每一维pij视为将关键词xi对应到第j个领域标签的领域打分值,得到各关键词被视为领域词的领域打分值。
步骤S143、根据各所述关键词被视为领域词的领域打分值,确定各所述关键词是否为领域词。
示例性地,可以确定打分值最高的若干关键词为领域词,或者确定打分值不小于打分阈值的若干关键词为领域词。
步骤S150、根据各所述关键词的词性,和各所述关键词是否为领域词,确定各所述关键词的权重值,其中,为领域词的关键词的权重值大于不为领域词的关键词的权重值。
通过为搜索文本中的领域词赋予更高的权重,可以提高搜索内容与搜索需求匹配程度,提高搜索精度。
在一些实施方式中,可以根据以下规则处理关键词的权重值:
a.领域词权重高于普通关键词,即为领域词的关键词的权重值大于普通关键词。
b.领域词中每个词按照各自对应的词性,进行权重排序;例如,都为领域词,领域词中名词的权重高于领域词中动词的权重。
c.普通关键词中每个词按照各自对应的词性,进行权重排序;例如,为名词的普通关键词的权重高于为动词的普通关键词的词性。
d.领域词、不同词性关键词的的权重合并归一化。
示例性的,可以根据以下算式计算关键词的权重值:
若第i个关键词不为领域词,则其权重值weight_i:
其中,n表示关键词的数量,等于领域词和非领域词的个数之和;POS表示词性所对应的权重,可以根据预设的词性权重排序得到预设POS,或者根据默认的词性权重排序表得到;m表示领域词的个数。
例如,对某搜索文本“保额销售之养老金保障缺口计算原理”分词后确定的关键词和所述关键词的权重值:
普通关键词和普通关键词对应的权重值:
保额0.0652,
销售0.05435,
之0.01087,
养老金0.0652,
保障0.05435,
缺口0.0652,
计算0.05435,
原理0.0652,
领域词和领域词对应的权重值:
保额销售0.63048。
可以看出,为领域词的“保额销售”权重值最大,搜索引擎返回的搜索结果会更偏向“保额销售”方面,更符合用户搜索需求,提升搜索结果精度。
步骤S160、基于搜索引擎,根据所述关键词和所述关键词的权重值输出搜索结果。
在一些实施方式中,将关键词和关键词的权重值返回给solr搜索引擎或者其他搜索引擎,这些搜索引擎对于每一个关键词能配置不同的查询,并根据权重值确定查询深度,因而可以根据所述关键词和所述关键词的权重值输出搜索结果,输出的搜索结果能更好的偏向用户搜索需求的领域。
示例性地,搜索引擎还可以对于不同的索引类型赋予不同的搜索权重,例如标题的权重值大于课程简介的权重值。
示例性地,搜索引擎还可以针对业务需要进行关键词的与或非(and,or,not)组合。最终实现突出用户关心的多个关键词获得更高的权重,同时覆盖用户全部意图不丢失召回结果的目的。
例如,搜索引擎可以根据用户使用与或组合关联的多个关键词输出搜索结果,比如用户输入(“保额销售”and“养老金”or“保额”or“销售”),与组合关联的关键词可以获得更高的相同的权重,或组合关联的关键词获得较低的权重,保证返回搜索结果偏向用户需求同时不丢失参与排序的结果。
示例性的,搜索引擎根据自身的文本相似度算法,返回期望的搜索结果,服务器可以将该搜索结果发送给用户终端。
在一些实施方式中,所述方法还包括:确定各所述关键词是否为关键命名实体。
示例性的,在步骤S140之后,还包括:确定各所述关键词是否为关键命名实体。
具体的,所述步骤S150根据各所述关键词的词性,和各所述关键词是否为领域词,确定各所述关键词的权重值,包括:
根据各所述关键词的词性,和各所述关键词是否为领域词以及各所述关键词是否为关键命名实体,确定所述各关键词的权重值;其中为关键命名实体的关键词权重值大于不为关键命名实体且不为领域词的关键词的权重值。
示例性地,所述命名实体就是地区名、人名、机构名以及其他所有以名称作为标识的实体。更广泛的实体还包括数字、日期、货币、地址等等。也包括业务名词、产品名词、日常用语名词。
示例性地,预先存储有业务专有命名实体表,可以根据业务专有命名实体表从关键词中筛选出关键命名实体。
例如,获取搜索文本并分词以提取关键词,并确定各关键词的词性和判断各关键词是否为领域词后,将各关键词与业务专有命名实体表对照,相同的词即为关键命名实体。
通过根据关键词是否为关键命名实体确定所述关键词的权重值,可以使得关键词权重值更准确,减少搜索结果中的噪声,尤其是搜索结果可以更偏向搜索文本中的关键命名实体,搜索的准确性更高。
请参阅图2,图2是本申请实施例提供的一种领域预测模型的训练方法的示意流程图。领域预测模型的训练方法可以用于训练前述的领域预测模型。可以将训练后的领域预测模型部署在终端或服务器,从而在执行前述的内容搜索方法时可以根据关键词向量确定关键词是否为领域词,以提高内容搜索的准确性。
在一些实施方式中,训练好的领域预测模型可存储于区块链节点中。其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
请参阅图2,所述领域预测模型的训练方法,具体包括步骤S210-步骤S270。
步骤S210、获取训练数据,所述训练数据包括热门领域的内容文本和冷僻领域的内容文本。
训练数据包括的内容文本在不同的领域可能存在分布不均匀的情况,例如近百万门课程提供了大量文本的训练数据,但在其中一些冷僻领域还是会出现数据量不足,或者还未被归入此领域的数据量,特别是一些新开的课。所以通过获取热门领域的内容文本和挖掘并获取冷门领域的内容文本,来解决训练数据内容文本的领域分布不均匀的问题,通过对相关领域数据的学习,以提高模型对数据量不足的领域数据的预测效果。
在一些实施方式中,所述方法还包括:对所述热门领域的内容文本进行分词和嵌入处理,得到所述热门领域的内容文本的若干关键词向量,以及对所述冷僻领域的内容文本进行分词和嵌入处理,得到所述冷僻领域的内容文本的若干关键词向量。
示例性地,可以基于分词模型对热门领域的内容文本和冷僻领域的内容文本分别进行分词以提取关键词,然后可以基于Word2Vec模型对分词得到的若干关键词进行嵌入处理,得到关键词向量,实现将搜索文本向量化编码,并以该向量作为后续模型的输入数据。
请参阅图3,图3是根据热门领域的内容文本和冷僻领域的内容文本训练领域预测模型的示意图。
步骤S220、基于第一领域预测模型,从所述热门领域的内容文本中提取隐状态序列以及对所述隐状态序列降维得到所述内容文本中各关键词被视为领域词的第一打分向量。
示例性地,可以基于第一领域预测模型,从所述热门领域的内容文本中以句子为单位,直接提取句子中的关键词特征,并将这些特征组合生成热门领域对应的隐状态序列,并对得到的隐状态序列降维计算出第一打分向量。
示例性地,也可以基于第一领域预测模型,从上述得到的热门领域的内容文本的若干关键词向量生成热门领域对应的隐状态序列,并对得到的隐状态序列降维计算出第一打分向量。
在一些实施方式中,所述第一领域模型包括:Bilstm层和线性层(LSTM’s output层)。步骤S220包括步骤S221-步骤S222。
步骤S221、基于所述第一领域预测模型的Bilstm层,从所述热门领域的内容文本的前向方向确定第一隐状态向量,以及从所述热门领域的内容文本的后向方向确定第二隐状态向量。
在一些实施方式中,从前向方向开始提取所述热门领域的内容文本的句子中的关键词特征,并把提取到的所有特征组合生成第一隐状态向量,同时从后向方向开始提取所述热门领域的内容文本的句子中的关键词特征,并把提取到的所有特征组合生成第二隐状态向量。
在另一些实施方式中,从前向方向开始提取关键词向量,并将所有向量组合生成第一隐状态向量,同时从后向方向开始提取关键词向量,并将所有向量组合生成第二隐状态向量。
步骤S222、基于所述第一领域预测模型的线性层,对所述第一隐状态向量和所述第二隐状态向量进行融合和降维,得到所述内容文本中各关键词被视为领域词的第一打分向量。
示例性地,将由第一隐状态向量和第二隐状态向量进行拼接或相加得到第一完整隐状态序列,然后对进行第一完整隐状态序列从m维映射到k维的降维处理,k可以是不同领域标签的数目,将降维之后的序列记作矩阵p=(p1,p2,...,pn)∈Rn×k,可以将pi∈Rk的每一维pij视为将关键词xi对应到第j个领域标签的领域打分向量。
步骤S230、基于第一全连接层(dense层),对所述内容文本中各关键词被视为领域词的第一打分向量进行全连接处理,得到第一打分值。
示例性地,得到各关键词被视为领域词的领域打分向量进入第一全连接层进行矩阵向量乘积计算处理,得到第一打分值。第一打分值表示所述热门领域的内容文本中被视为领域词的关键词对应的分值。
步骤S240、基于第二领域预测模型,从所述冷僻领域的内容文本中提取隐状态序列以及对所述隐状态序列降维得到所述内容文本中各关键词被视为领域词的第二打分向量。
示例性的,所述第二领域预测模型也包括:Bilstm层、线性层。所述基于第二领域预测模型,从所述冷僻领域的内容文本中提取隐状态序列以及对所述隐状态序列降维得到所述内容文本中各关键词被视为领域词的第二打分向量,包括:基于所述第二领域预测模型的BILSTM层,从所述冷僻领域的内容文本的前向方向确定第三隐状态向量,以及从所述冷僻领域的内容文本的后向方向确定第四隐状态向量;基于所述第二领域预测模型的线性层,对所述第三隐状态向量和所述第四隐状态向量进行融合和降维,得到所述内容文本中各关键词被视为领域词的第二打分向量。
参照步骤S220,对所述冷僻领域的内容文本中得到所述内容文本中各关键词被视为领域词的第二打分向量。例如,可以基于第二领域预测模型,从所述冷僻领域的内容文本中以句子为单位,直接提取句子中的关键词特征,并将这些特征组合生成冷僻领域对应的隐状态序列,并对该隐状态序列降维计算出第二打分向量。
步骤S250、基于第二全连接层,对所述内容文本中各关键词被视为领域词的第二打分向量进行全连接处理,得到第二打分值。
参照步骤S230,对所述第二打分向量与第二全连接层进行全连接处理之后得到第二打分值。第二打分值表示所述冷僻领域的内容文本中被视为领域词的关键词对应的分值。
步骤S260、根据所述第一打分向量和所述第二打分向量计算最大均值差异损失(maximize mean discrepancy,mmd)以及根据所述第一打分值和所述第二打分值计算打分损失值,并根据所述打分损失值以及最大均值差异损失计算联合损失值。
在一些实施方式中,将第一全连接层输出的第一打分值与第二全连接层输出的第二打分值进行计算,得到打分损失值,将在第一全连接层中的第一打分向量和在第二全连接层中的第二打分向量进行向量计算,得到最大均值差异损失。并以打分损失值和最大均值差异损失计算得到联合损失值,例如可以取平均值或进行加权求和。
步骤S270、根据所述联合损失值调整所述第二领域预测模型的参数,并确定调整后的第二领域预测模型为所述领域预测模型。
示例性地,联合损失值可以更好的体现第二领域预测模型对冷僻领域内的内容文本中领域词预测的偏差,通过根据该联合损失值调整第二领域预测模型的参数,可以使得第二领域预测模型能够更准确的识别冷僻领域内容文本中的领域词,从而提高领域预测模型在预测搜索文本中的领域词的预测精准度。
在另一些实施例中,请参阅图4,所述领域预测模型的训练方法具体包括步骤S310-步骤S340。
步骤S310、获取训练数据,所述训练数据包括内容文本和与内容文本对应的领域词标签。
其中,领域词标签可以由人工在内容文本对应的内容题目中确定,例如先从内容题目中提取关键词,然后从提取的关键词中人工筛选得到领域词并标注标签。
示例性地,从内容题目中提取的关键词可以定期更新,更新阈值可以为时限、数据限制、预测性能指标等。通过更新关键词可以使得训练数据中的领域词标签可以根据搜索文本,例如实际课程更新变化。
步骤S320、基于领域预测模型,确定所述训练数据中的内容文本中被视为领域词的领域打分值。
参照步骤S141-S142,通过领域预测模型,得到训练数据中的内容文本中每个词被视为领域词的领域打分值。
步骤S330、根据所述领域打分值和内容文本对应的领域词标签计算损失值。
示例性地,根据领域打分值可以确定内容文本中的若干领域词,再与相应内容文本对应的领域词标签进行对比计算,得出损失值。
步骤S340、根据所述损失值调整所述领域预测模型的参数。
示例性地,根据得出的损失值调整领域预测模型参数,可以使得领域预测模型进行领域预测时能更偏向用户期望搜索结果对应的领域,提高搜索精度。
在另一些实施例中,请参阅图5,图5是对词性标注模型进行训练的方法的流程示意图,所述词性标注模型的训练方法具体包括步骤S410-步骤S440。
步骤S410、获取训练数据,所述训练数据包括搜索日志、资源文本数据。
其中,搜索日志可以是用户每次搜索输入的文字信息;资源文本数据以知鸟app为例可以是课程资源的标题、内容简介、文本内容,视频直播课程的直播间名称、作者、标题、内容简介等文本内容。
示例性地,作为监督学习的训练数据需要经过人工标注。例如,对训练数据进行词性标注,可以根据标注好的数据训练Bilstm+CRF的RNN网络模型,以提高模型对搜索文本关键词的词性预测精准度。
示例性地,可以用BI0标注方法来进行人工标注,使用Bakeoff-3评测中所采用的的BIO标注集,即B-PER、I-PER代表人名首字、人名非首字,B-LOC、I-LOC代表地名首字、地名非首字,B-ORG、I-ORG代表组织机构名首字、组织机构名非首字,O代表该字不属于关键词的一部分。使用词性标注好的训练数据对Bilstm+CRF的RNN网络模型进行预测文本词性的训练。
步骤S420、从所述训练数据中分词以提取若干关键词,并对若干关键词进行嵌入处理,得到各所述关键词的关键词向量。
参照步骤S120,从所述训练数据中进行嵌入处理得到各所述关键词的关键词向量。
步骤S430、基于Bilstm+CRF的RNN网络模型,根据各所述关键词的向量确定各所述关键词的对应词性打分值。
参照步骤S131-S133,根据各所述关键词的向量得到各所述关键词的对应词性打分值。
步骤S440、根据各所述关键词的对应词性打分值,调整所述Bilstm+CRF的RNN网络模型参数,并确定调整后的Bilstm+CRF的RNN网络模型为所述训练好的词性标注模型。
示例性地,根据对应标签的分类打分值,可以利用对数似然函数最大化计算得到模型的参数。算出参数之后,调整所述Bilstm+CRF的RNN网络模型参数,得到训练好的词性标注模型。
请参阅图6,图6是本申请一实施例提供的一种内容搜索装置的示意图,该内容搜索装置可以配置于服务器或终端中,用于执行前述的内容搜索方法。
如图6所示,该内容搜索装置,包括:分词模块110、嵌入模块120、词性确定模块130、领域确定模块140、权重确定模块150、搜索模块160。
分词模块110,用于获取搜索文本,对所述搜索文本进行分词以提取若干关键词。
嵌入模块120,用于对所述若干关键词进行嵌入处理,得到各所述关键词的关键词向量。
词性确定模块130,用于基于训练好的词性标注模型,根据所述关键词向量确定各所述关键词的词性。
领域确定模块140,用于基于训练好的领域预测模型,根据所述关键词向量确定各所述关键词是否为领域词。
权重确定模块150,用于根据各所述关键词的词性,和各所述关键词是否为领域词,确定各所述关键词的权重值,其中,为领域词的关键词的权重值大于不为领域词的关键词的权重值。
搜索模块160,用于基于搜索引擎,根据所述关键词和所述关键词的权重值输出搜索结果。
在一些实施方式中,所述领域预测模型包括Bilstm层、线性层。领域确定模块140包括:
双向长短记忆网络(Bilstm层)子模块141,用于基于所述Bilstm层,从若干所述关键词向量的前向方向确定第一隐状态向量,以及从若干所述关键词向量的后向方向确定第二隐状态向量。
线性层(LSTM’s output层)子模块142,用于基于所述线性层,对所述第一隐状态向量和所述第二隐状态向量进行融合和降维,确定各所述关键词被视为领域词的领域打分值;
领域确定子模块143,用于根据各所述关键词被视为领域词的领域打分值,确定各所述关键词是否为领域词。
示例性地,该内容搜索装置还包括:命名实体确定模块170,用于确定各所述关键词是否为关键命名实体。
示例性地,权重确定模块150还用于根据各所述关键词的词性,和各所述关键词是否为领域词以及各所述关键词是否为关键命名实体,确定所述各关键词的权重值;其中,为关键命名实体的关键词的权重值大于不为关键命名实体且不为领域词的关键词的权重值。
请参阅图7,图7是本申请一实施例提供的一种领域预测模型训练装置的示意图,该领域预测模型训练装置可以配置于服务器或终端中,用于执行前述的领域预测模型的训练方法。
如图7所示,该领域预测模型训练装置,包括:数据获取模块210、第一向量处理模块220、第一连接模块230、第二向量处理模块240、第二连接模块250、损失确定模块260、参数调整模块270。
数据获取模块210,用于获取训练数据,所述训练数据包括热门领域的内容文本和冷僻领域的内容文本。
第一向量处理模块220,用于基于第一领域预测模型,从所述热门领域的内容文本中提取隐状态序列以及对所述隐状态序列降维得到所述内容文本中各关键词被视为领域词的第一打分向量。
第一连接模块230,用于基于第一全连接层,对所述内容文本中各关键词被视为领域词的第一打分向量进行全连接处理,得到第一打分值。
第二向量处理模块240,用于基于第二领域预测模型,从所述冷僻领域的内容文本中提取隐状态序列以及对所述隐状态序列降维得到所述内容文本中各关键词被视为领域词的第二打分向量。
第二连接模块250,用于基于第二全连接层,对所述内容文本中各关键词被视为领域词的第二打分向量进行全连接处理,得到第二打分值。
损失确定模块260,用于根据所述第一打分值和所述第二打分值计算打分损失值以及根据所述第一打分向量和所述第二打分向量计算最大均值差异损失,并根据所述打分损失值以及最大均值差异损失计算联合损失值。
参数调整模块270,用于根据所述联合损失值调整所述第二领域预测模型的参数,并确定调整后的第二领域预测模型为所述领域预测模型。
示例性地,数据获取模块210包括:
分词处理子模块211,用于对所述热门领域的内容文本进行分词,得到所述热门领域的内容文本的若干关键词,以及对所述冷僻领域的内容文本进行分词,得到所述冷僻领域的内容文本的若干关键词。
嵌入处理子模块212,用于对所述热门领域内容文本的若干关键词进行嵌入处理,得到所述热门领域内容文本的若干关键词向量,以及对所述冷僻领域内容文本的若干关键词进行嵌入处理,得到所述冷僻领域内容文本的若干关键词向量。
示例性地,所述第一打分向量处理模块220具体用于基于第一领域预测模型,从所述热门领域的内容文本的若干关键词向量中提取隐状态序列。
示例性地,所述第二向量处理模块240具体用于基于第二领域预测模型,从所述冷僻领域的内容文本的若干关键词向量中提取隐状态序列。
示例性的,所述第一领域预测模型包括:Bilstm层、线性层。
所述第一向量处理模块220具体用于基于所述BILSTM层,从所述热门领域的内容文本的前向方向确定第一隐状态向量,以及从所述热门领域的内容文本的后向方向确定第二隐状态向量;以及基于所述线性层,对所述第一隐状态向量和所述第二隐状态向量进行融合和降维,得到所述内容文本中各关键词被视为领域词的第一打分向量。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
示例性地,上述的方法、装置可以实现为一种计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。
请参阅图8,图8是本申请实施例提供的一种计算机设备的示意图。该计算机设备可以是服务器或终端。
如图8所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种内容搜索方法和/或前述的领域预测模型训练方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种内容搜索方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,该计算机设备的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一些实施方式中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:获取搜索文本,对所述搜索文本进行分词以提取若干关键词;对所述若干关键词进行嵌入处理,得到各所述关键词的关键词向量;基于训练好的词性标注模型,根据所述关键词向量确定各所述关键词的词性;基于训练好的领域预测模型,根据所述关键词向量确定各所述关键词是否为领域词;根据各所述关键词的词性,和各所述关键词是否为领域词,确定各所述关键词的权重值,其中,为领域词的关键词的权重值大于不为领域词的关键词的权重值;基于搜索引擎,根据所述关键词和所述关键词的权重值输出搜索结果。
示例性地,处理器用于实现基于训练好的领域预测模型,根据所述关键词向量确定各所述关键词是否为领域词时,实现:基于所述Bilstm层,从若干所述关键词向量的前向方向确定第一隐状态向量,以及从若干所述关键词向量的后向方向确定第二隐状态向量;基于所述线性层,对所述第一隐状态向量和所述第二隐状态向量进行融合和降维,确定各所述关键词被视为领域词的领域打分值;根据各所述关键词被视为领域词的领域打分值,确定各关键词是否为领域词。
示例性地,处理器用于实现根据各所述关键词的词性,和各所述关键词是否为领域词,确定各所述关键词的权重值,其中,为领域词的关键词的权重值大于不为领域词的关键词的权重值时,实现:确定各所述关键词是否为关键命名实体;根据各所述关键词的词性,和各所述关键词是否为领域词以及各所述关键词是否为关键命名实体,确定所述各关键词的权重值;其中,为关键命名实体的关键词的权重值大于不为关键命名实体且不为领域词的关键词的权重值。
在另一些实施方式中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:获取训练数据,所述训练数据包括热门领域的内容文本和冷僻领域的内容文本;基于第一领域预测模型,从所述热门领域的内容文本中提取隐状态序列以及对所述隐状态序列降维得到所述内容文本中各关键词被视为领域词的第一打分向量;基于第一全连接层,对所述内容文本中各关键词被视为领域词的第一打分向量进行全连接处理,得到第一打分值;基于第二领域预测模型,从所述冷僻领域的内容文本中提取隐状态序列以及对所述隐状态序列降维得到所述内容文本中各关键词被视为领域词的第二打分向量;基于第二全连接层,对所述内容文本中各关键词被视为领域词的第二打分向量进行全连接处理,得到第二打分值;根据所述第一打分向量和所述第二打分向量计算最大均值差异损失以及根据所述第一打分值和所述第二打分值计算打分损失值,并根据所述打分损失值以及最大均值差异损失计算联合损失值;根据所述联合损失值调整所述第二领域预测模型的参数,并确定调整后的第二领域预测模型为所述领域预测模型。
示例性地,处理器用于实现对获取训练数据,所述训练数据包括热门领域的内容文本和冷僻领域的内容文本时,实现:对所述热门领域的内容文本进行分词和嵌入处理,得到所述热门领域的内容文本的若干关键词向量,以及对所述冷僻领域的内容文本进行分词和嵌入处理,得到所述冷僻领域的内容文本的若干关键词向量;基于第一领域预测模型,从所述热门领域的内容文本的若干关键词向量中提取隐状态序列;基于第二领域预测模型,从所述冷僻领域的内容文本的若干关键词向量中提取隐状态序列。
示例性地,处理器用于实现对所述基于第一领域预测模型,从所述热门领域的内容文本中提取隐状态序列以及对所述隐状态序列降维得到所述内容文本中各关键词被视为领域词的第一打分向量,实现:基于所述Bilstm层,从所述热门领域的内容文本的前向方向确定第一隐状态向量,以及从所述热门领域的内容文本的后向方向确定第二隐状态向量;基于所述线性层,对所述第一隐状态向量和所述第二隐状态向量进行融合和降维,得到所述内容文本中各关键词被视为领域词的第一打分向量。
示例性的,领域预测模型的训练方法可以用于训练的领域预测模型。训练后的领域预测模型部署在终端或服务器,从而在执行内容搜索方法时可以基于该领域预测模型根据关键词向量确定关键词是否为领域词,以提高内容搜索的准确性。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法,如:
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项内容搜索方法;或者
实现上述任一项的内容搜索方法。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种内容搜索方法,其特征在于,所述方法包括:
获取搜索文本,对所述搜索文本进行分词以提取若干关键词;
对所述若干关键词进行嵌入处理,得到各所述关键词的关键词向量;
基于训练好的词性标注模型,根据所述关键词向量确定各所述关键词的词性;
基于训练好的领域预测模型,根据所述关键词向量确定各所述关键词是否为领域词;
根据各所述关键词的词性,和各所述关键词是否为领域词,确定各所述关键词的权重值,其中,为领域词的关键词的权重值大于不为领域词的关键词的权重值;
基于搜索引擎,根据所述关键词和所述关键词的权重值输出搜索结果。
2.根据权利要求1所述的内容搜索方法,其特征在于,所述领域预测模型包括Bilstm层、线性层;
所述基于训练好的领域预测模型,根据所述关键词向量确定各所述关键词是否为领域词,包括:
基于所述Bilstm层,从若干所述关键词向量的前向方向确定第一隐状态向量,以及从若干所述关键词向量的后向方向确定第二隐状态向量;
基于所述线性层,对所述第一隐状态向量和所述第二隐状态向量进行融合和降维,确定各所述关键词被视为领域词的领域打分值;
根据各所述关键词被视为领域词的领域打分值,确定各关键词是否为领域词。
3.根据权利要求1或2所述的内容搜索方法,其特征在于,所述方法还包括:
确定各所述关键词是否为关键命名实体;
所述根据各所述关键词的词性,和各所述关键词是否为领域词,确定各所述关键词的权重值包括:
根据各所述关键词的词性,和各所述关键词是否为领域词以及各所述关键词是否为关键命名实体,确定所述各关键词的权重值;
其中,为关键命名实体的关键词的权重值大于不为关键命名实体且不为领域词的关键词的权重值。
4.一种领域预测模型训练方法,其特征在于,所述方法包括:
获取训练数据,所述训练数据包括热门领域的内容文本和冷僻领域的内容文本;
基于第一领域预测模型,从所述热门领域的内容文本中提取隐状态序列以及对所述隐状态序列降维得到所述内容文本中各关键词被视为领域词的第一打分向量;
基于第一全连接层,对所述内容文本中各关键词被视为领域词的第一打分向量进行全连接处理,得到第一打分值;
基于第二领域预测模型,从所述冷僻领域的内容文本中提取隐状态序列以及对所述隐状态序列降维得到所述内容文本中各关键词被视为领域词的第二打分向量;
基于第二全连接层,对所述内容文本中各关键词被视为领域词的第二打分向量进行全连接处理,得到第二打分值;
根据所述第一打分值和所述第二打分值计算打分损失值以及根据所述第一打分向量和所述第二打分向量计算最大均值差异损失,并根据所述打分损失值以及最大均值差异损失计算联合损失值;
根据所述联合损失值调整所述第二领域预测模型的参数,并确定调整后的第二领域预测模型为所述领域预测模型。
5.根据权利要求4所述的领域预测模型训练方法,其特征在于,所述方法还包括:对所述热门领域的内容文本进行分词和嵌入处理,得到所述热门领域的内容文本的若干关键词向量,以及对所述冷僻领域的内容文本进行分词和嵌入处理,得到所述冷僻领域的内容文本的若干关键词向量;
所述基于第一领域预测模型,从所述热门领域的内容文本中提取隐状态序列,包括:基于第一领域预测模型,从所述热门领域的内容文本的若干关键词向量中提取隐状态序列;
所述基于第二领域预测模型,从所述冷僻领域的内容文本中提取隐状态序列,包括:基于第二领域预测模型,从所述冷僻领域的内容文本的若干关键词向量中提取隐状态序列。
6.根据权利要求4或5所述的领域预测模型训练方法,其特征在于,所述第一领域预测模型、所述第二领域预测模型均包括:Bilstm层、线性层;
所述基于第一领域预测模型,从所述热门领域的内容文本中提取隐状态序列以及对所述隐状态序列降维得到所述内容文本中各关键词被视为领域词的第一打分向量,包括:
基于所述第一领域预测模型的BILSTM层,从所述热门领域的内容文本的前向方向确定第一隐状态向量,以及从所述热门领域的内容文本的后向方向确定第二隐状态向量;
基于所述第一领域预测模型的线性层,对所述第一隐状态向量和所述第二隐状态向量进行融合和降维,得到所述内容文本中各关键词被视为领域词的第一打分向量;
所述基于第二领域预测模型,从所述冷僻领域的内容文本中提取隐状态序列以及对所述隐状态序列降维得到所述内容文本中各关键词被视为领域词的第二打分向量,包括:
基于所述第二领域预测模型的BILSTM层,从所述冷僻领域的内容文本的前向方向确定第三隐状态向量,以及从所述冷僻领域的内容文本的后向方向确定第四隐状态向量;
基于所述第二领域预测模型的线性层,对所述第三隐状态向量和所述第四隐状态向量进行融合和降维,得到所述内容文本中各关键词被视为领域词的第二打分向量。
7.一种内容搜索装置,其特征在于,包括:
分词模块,用于获取搜索文本,对所述搜索文本进行分词以提取若干关键词;
嵌入模块,用于对所述若干关键词进行嵌入处理,得到各所述关键词的关键词向量;
词性确定模块,用于基于训练好的词性标注模型,根据所述关键词向量确定各所述关键词的词性;
领域确定模块,用于基于训练好的领域预测模型,根据所述关键词向量确定各所述关键词是否为领域词;
权重确定模块,用于根据各所述关键词的词性,和各所述关键词是否为领域词,确定各所述关键词的权重值,其中,为领域词的关键词的权重值大于不为领域词的关键词的权重值;
搜索模块,用于基于搜索引擎,根据所述关键词和所述关键词的权重值输出搜索结果。
8.一种领域预测模型的训练装置,其特征在于,包括:
数据获取模块,用于获取训练数据,所述训练数据包括热门领域的内容文本和冷僻领域的内容文本;
第一向量处理模块,用于基于第一领域预测模型,从所述热门领域的内容文本中提取隐状态序列以及对所述隐状态序列降维得到所述内容文本中各关键词被视为领域词的第一打分向量;
第一连接模块,用于基于第一全连接层,对所述内容文本中各关键词被视为领域词的第一打分向量进行全连接处理,得到第一打分值;
第二向量处理模块,用于基于第二领域预测模型,从所述冷僻领域的内容文本中提取隐状态序列以及对所述隐状态序列降维得到所述内容文本中各关键词被视为领域词的第二打分向量;
第二连接模块,用于基于第二全连接层,对所述内容文本中各关键词被视为领域词的第二打分向量进行全连接处理,得到第二打分值;
损失确定模块,用于根据所述第一打分值和所述第二打分值计算打分损失值以及根据所述第一打分向量和所述第二打分向量计算最大均值差异损失,并根据所述打分损失值以及最大均值差异损失计算联合损失值;
参数调整模块,用于根据所述联合损失值调整所述第二领域预测模型的参数,并确定调整后的第二领域预测模型为所述领域预测模型。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现:
如权利要求1-3任一项所述的内容搜索方法;和/或
如权利要求4-6任一项所述的领域预测模型训练方法。
10.一种计算机可读存储介质,所述计算机的可读存储介质存储有计算机程序,其特征在于,若所述计算机程序被处理器执行,实现:
如权利要求1-3任一项所述的内容搜索方法;和/或
如权利要求4-6任一项所述的领域预测模型训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010700846.1A CN111737560B (zh) | 2020-07-20 | 2020-07-20 | 内容搜索方法、领域预测模型训练方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010700846.1A CN111737560B (zh) | 2020-07-20 | 2020-07-20 | 内容搜索方法、领域预测模型训练方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111737560A true CN111737560A (zh) | 2020-10-02 |
CN111737560B CN111737560B (zh) | 2021-01-08 |
Family
ID=72655180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010700846.1A Active CN111737560B (zh) | 2020-07-20 | 2020-07-20 | 内容搜索方法、领域预测模型训练方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737560B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507109A (zh) * | 2020-12-11 | 2021-03-16 | 重庆知识产权大数据研究院有限公司 | 一种基于语义分析与关键词识别的检索方法和装置 |
CN112559895A (zh) * | 2021-02-19 | 2021-03-26 | 深圳平安智汇企业信息管理有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN113434636A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 基于语义的近似文本搜索方法、装置、计算机设备及介质 |
CN113609248A (zh) * | 2021-08-20 | 2021-11-05 | 北京金山数字娱乐科技有限公司 | 词权重生成模型训练方法及装置、词权重生成方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081601A (zh) * | 2009-11-27 | 2011-06-01 | 北京金山软件有限公司 | 一种领域词识别方法和装置 |
CN105512224A (zh) * | 2015-11-30 | 2016-04-20 | 清华大学 | 基于光标位置序列的搜索引擎用户满意度自动评估方法 |
CN105808529A (zh) * | 2016-03-10 | 2016-07-27 | 武汉传神信息技术有限公司 | 一种语料划分领域的方法和装置 |
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
US20180101532A1 (en) * | 2016-10-06 | 2018-04-12 | Oracle International Corporation | Searching data sets |
CN109446514A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻实体识别模型的构建方法、装置和计算机设备 |
CN110162795A (zh) * | 2019-05-30 | 2019-08-23 | 重庆大学 | 一种自适应的跨领域命名实体识别方法与系统 |
US10592542B2 (en) * | 2017-08-31 | 2020-03-17 | International Business Machines Corporation | Document ranking by contextual vectors from natural language query |
-
2020
- 2020-07-20 CN CN202010700846.1A patent/CN111737560B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081601A (zh) * | 2009-11-27 | 2011-06-01 | 北京金山软件有限公司 | 一种领域词识别方法和装置 |
CN105512224A (zh) * | 2015-11-30 | 2016-04-20 | 清华大学 | 基于光标位置序列的搜索引擎用户满意度自动评估方法 |
CN105808529A (zh) * | 2016-03-10 | 2016-07-27 | 武汉传神信息技术有限公司 | 一种语料划分领域的方法和装置 |
US20180101532A1 (en) * | 2016-10-06 | 2018-04-12 | Oracle International Corporation | Searching data sets |
CN107133220A (zh) * | 2017-06-07 | 2017-09-05 | 东南大学 | 一种地理学科领域命名实体识别方法 |
US10592542B2 (en) * | 2017-08-31 | 2020-03-17 | International Business Machines Corporation | Document ranking by contextual vectors from natural language query |
CN109446514A (zh) * | 2018-09-18 | 2019-03-08 | 平安科技(深圳)有限公司 | 新闻实体识别模型的构建方法、装置和计算机设备 |
CN110162795A (zh) * | 2019-05-30 | 2019-08-23 | 重庆大学 | 一种自适应的跨领域命名实体识别方法与系统 |
Non-Patent Citations (1)
Title |
---|
钟文波: "搜索引擎中关键词分类方法评估及推荐应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507109A (zh) * | 2020-12-11 | 2021-03-16 | 重庆知识产权大数据研究院有限公司 | 一种基于语义分析与关键词识别的检索方法和装置 |
CN112559895A (zh) * | 2021-02-19 | 2021-03-26 | 深圳平安智汇企业信息管理有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN112559895B (zh) * | 2021-02-19 | 2021-05-18 | 深圳平安智汇企业信息管理有限公司 | 一种数据处理方法、装置、电子设备及存储介质 |
CN113434636A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 基于语义的近似文本搜索方法、装置、计算机设备及介质 |
CN113434636B (zh) * | 2021-06-30 | 2024-06-18 | 平安科技(深圳)有限公司 | 基于语义的近似文本搜索方法、装置、计算机设备及介质 |
CN113609248A (zh) * | 2021-08-20 | 2021-11-05 | 北京金山数字娱乐科技有限公司 | 词权重生成模型训练方法及装置、词权重生成方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111737560B (zh) | 2021-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106997382B (zh) | 基于大数据的创新创意标签自动标注方法及系统 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN111737560B (zh) | 内容搜索方法、领域预测模型训练方法、装置及存储介质 | |
Kausar et al. | A sentiment polarity categorization technique for online product reviews | |
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
Alami et al. | Unsupervised neural networks for automatic Arabic text summarization using document clustering and topic modeling | |
Sebastiani | Classification of text, automatic | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
CN110377725B (zh) | 数据生成方法、装置、计算机设备及存储介质 | |
CN113988057A (zh) | 基于概念抽取的标题生成方法、装置、设备及介质 | |
Klochikhin et al. | Text analysis | |
CN112270189B (zh) | 一种提问式的分析节点生成方法、系统及存储介质 | |
Andriyanov | Combining Text and Image Analysis Methods for Solving Multimodal Classification Problems | |
CN115878752A (zh) | 文本情感的分析方法、装置、设备、介质及程序产品 | |
Medić et al. | A survey of citation recommendation tasks and methods | |
CN117194616A (zh) | 一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质 | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
Anuradha et al. | Fuzzy based summarization of product reviews for better analysis | |
Sariki et al. | A book recommendation system based on named entities | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
CN113688633A (zh) | 一种提纲确定方法及装置 | |
Saeed et al. | An automated system to predict popular cybersecurity news using document embeddings | |
Kamath et al. | Semantic similarity based context-aware web service discovery using nlp techniques | |
Dasgupta et al. | A Survey of Numerous Text Similarity Approach | |
CN118170899B (zh) | 基于aigc的媒体新闻稿件生成方法以及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |