CN112487274B - 一种基于文本点击率的搜索结果推荐方法及系统 - Google Patents

一种基于文本点击率的搜索结果推荐方法及系统 Download PDF

Info

Publication number
CN112487274B
CN112487274B CN202011386336.8A CN202011386336A CN112487274B CN 112487274 B CN112487274 B CN 112487274B CN 202011386336 A CN202011386336 A CN 202011386336A CN 112487274 B CN112487274 B CN 112487274B
Authority
CN
China
Prior art keywords
title
query
word
text
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011386336.8A
Other languages
English (en)
Other versions
CN112487274A (zh
Inventor
高萌
王进
胡峰
杨小姜
华尹
彭浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Mofei Technology Co.,Ltd.
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202011386336.8A priority Critical patent/CN112487274B/zh
Publication of CN112487274A publication Critical patent/CN112487274A/zh
Application granted granted Critical
Publication of CN112487274B publication Critical patent/CN112487274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文本点击率的搜索结果推荐方法及系统,属于机器学习、和自然语言处理领域,所述方法包括:对搜索文本query和title进行预处理操作;对文本query和title构建特征工程;利用改进DRCN构建的RRSCN深度匹配模型进行特征提取;利用RRSCN深度匹配模型构建预训练模型;根据特征工程和RRSCN深度匹配模型构建三输入的全连接层网络;本发明根据文本query和title预测query下文本点击率,通过构建特征工程,特征选择工作,构建三输入深度学习文本匹配模型,从而可以更精确的预测文本预估点击率和相关性,准确的给用户推荐最有可能点击的搜索结果,提高用户的体验性。

Description

一种基于文本点击率的搜索结果推荐方法及系统
技术领域
本发明属于机器学习、深度学习、自然语言处理技术领域,具体涉及一种基于文本点击率的搜索结果推荐方法及系统。
背景技术
互联网的迅速发展带来了海量的信息数据,但是用户在海量数据中搜索自己想要的信息时无法准确快速的锁定自己想要获得的信息,使得用户对搜索数据信息的体验较差,而文本预估点击率和相关性匹配方法可以很好的解决这一问题。为了增强用户的搜索体验,使得用户可以快速准确的搜索到自己想要关注了解的信息,利用大量的历史搜索数据,通过分析不同用户的点击行为日志,给用户展示最可能被点击的文章标题,增强用户的体验,提高文章信息的点击率和转换率。
发明内容
针对上述现有技术的不足,本发明提出了一种基于文本点击率的搜索结果推荐方法及系统,通过改进的深度匹配模型利用预训练思想以及结合一些手工特征去获取搜索内容query和搜索结果title之间的关联,旨在准确有效地把用户最想要关注的文章展示给用户,可以提高文章信息产品的点击率,同时具有一定的实现意义。
根据本发明的一个方面,提供一种基于文本点击率的搜索结果推荐方法,所述方法包括:
步骤110,对搜索内容query和搜索结果title进行预处理操作;
步骤120,对query和title构建特征工程;所述特征工程包括:词粒度的统计特征,文本语义特征,相似度特征,历史信息特征;
步骤130,利用改进的深度紧密递归交互注意力机制的网络DRCN构建基于残差递归自注意力和交互注意力机制的网络RRSCN的深度匹配模型,来进行特征提取;
步骤140,根据步骤130得到的RRSCN深度匹配模型,通过流式读取方法训练全量数据加上微调迁移学习的方式获取RRSCN的预训练模型;
步骤150,根据特征工程和RRSCN深度匹配模型构建三输入的全连接层网络;
步骤160,利用构建的全连接层网络预测文本预估点击率和相关性,给用户推荐最优可能点击的搜索结果。
根据本发明的另一个方面,提供一种基于文本点击率的搜索结果推荐系统,包括用于存储海量可搜索标题title的文本服务器,以及用于用户输入搜索问题query和显示最优搜索结果的用户搜索界面,所述系统还包括以下模块:
文本预处理模块S110,用于分别从用户搜索界面和文本服务器获取搜索问题query和搜索标题title,对搜索问题query和搜索标题title进行预处理操作;
特征工程构建模块S120,用于对query和title构建特征工程;所述特征工程包括:词粒度的统计特征,文本语义特征,相似度特征,历史信息特征;
特征提取模块S130,用于利用改进的深度紧密递归交互注意力机制的网络DRCN构建基于残差递归自注意力和交互注意力机制的网络RRSCN的深度匹配模型,来进行特征提取;
预训练模型构建模块S140,用于根据特征提取模块S130得到的RRSCN深度匹配模型,通过流式读取方法训练全量数据加上微调迁移学习的方式获取RRSCN的预训练模型;
全连接层网络模块S150,用于根据特征工程和RRSCN深度匹配模型构建三输入的全连接层网络;
搜索结果输出模块S160,利用构建的全连接层网络预测文本预估点击率和相关性,将向用户推荐最优可能点击的搜索结果输出到用户搜索界面。
本发明的有益效果在于,提出了一种基于文本点击率的搜索结果推荐方法及系统,采用了自定义加权公式用于词向量转化句向量过程中,采用了自定义权重公式用于对搜索结果title质量的评分,同时利用自注意力机制和交互注意力机制的结合,不仅关注了词语在关联语句中的联系,也突出了词语在自身语句中所占的重要程度,类似于突出语句中的关键词,通过堆叠注意力机制,可以更深层次地去挖掘词与词之间,句与句之间的联系,提高了搜索结果的点击率、转化率以及用户的搜索体验。
附图说明
图1是本发明实施例提供的一种基于文本点击率的搜索结果推荐方法流程图;
图2是本发明实施例提供的一种基于文本点击率的搜索结果推荐方法的RRSCN深度匹配模型网络结构图;
图3是本发明实施例提供的一种基于文本点击率的搜索结果推荐方法的三输入微调全连接网络示意图;
图4是本发明实施例提供的一种基于文本点击率的搜索结果推荐系统结构示意图。
具体实施方式
下面对本发明具体的实施方式进行阐述,来进一步说明本发明的出发点以及相应的技术方案。
图1是本发明实施例提供的一种基于文本点击率的搜索结果推荐方法流程图,所述方法包括以下步骤:
步骤110,对搜索内容query和搜索结果title进行预处理操作,具体包括:
利用词语逆频率TF-IWF算法,对query提取2个关键词,对title提取3个关键词,并且根据TF-IWF权重值将query和title转化为稀疏向量,利用词向量word2vec将query和title转化为稠密向量。
步骤120,对query和title构建特征工程;所述特征工程为一个特征集合,包括:词粒度的统计特征,文本语义特征,相似度特征,历史信息特征。步骤120具体包括:
步骤121,计算词粒度的统计特征,用于描述搜索问题query和搜索标题title之间基于词的匹配信息,包含特征有:query or title长度、query长度-title长度、query是否完全包含title、query和title的公共词个数、query和title的公共词个数与query和title长度的占比、title出现的频次、query和title的最长连续公共子序列长度;
步骤122,计算文本语义特征,用于描述query和title之间语义上的联系,包含特征有:N-gram特征,query中第一、第二和第三个词语中的任两个是否相同,query中第一、第二和第三个词语在title中出现的位置,query首词或末词在title中的顺序以及出现位置;
获取query和title的共现语句s,计算与query和title语句的占比,得共现率特征:
Figure BDA0002811105050000041
其中len表示获取语句的长度;
步骤123,计算相似度特征,用于衡量query和title相似程度,包括:
步骤123a,通过词向量word2vec和快速文本分类器fasttext将文本进行词向量编码,通过以下公式给每个词赋予一个权重评价w:
Figure BDA0002811105050000042
Figure BDA0002811105050000043
Figure BDA0002811105050000051
Figure BDA0002811105050000052
其中m为文档总数,wi,j为词语i在第j篇文档中出现的次数,aj为第j篇文档词语的个数,itf表示为加强过后的tf,iidf表示加强过后的idf,itf和iidf为TFC算法,α为根据正负类别频率的平衡系数,ni为包含词语i的所有文档数,p(i1)为单词i在正例类别中的频率,p(i0)为单词i在反例类别中的频率;
步骤123b,利用权重值对query和title中的每个词进行加权求和得到query和title的句向量表示:
Figure BDA0002811105050000053
m是文中词语个数,vi为第i个词的词向量,sentence vec为计算得到的句向量;
步骤123c,对得到query和title的句向量进行余弦相似度、莱文斯坦levenshtein相似度、曼哈顿距离计算,把计算结果作为相似度特征。
步骤124,计算历史信息特征,用于根据历史数据去刻画title信息,包括:
步骤124a,根据步骤110得到的query和title的关键词提取query历史点击率、title历史点击率作为特征;
对于冷启动文本(即测试集中未在训练集中出现的样本),统计训练集title出现的次数count和点击次数click,click为0的填充为1,测试集中未出现的title的点击率设置为0.2;
步骤124b,计算title质量分数特征,一个query中用户点击的title和另一个query中用户点击的title,这两个title对于query的重要程度根据以下公式:
Figure BDA0002811105050000054
其中qt表示包含title的query,labelq表示该query的标签值,1为对当前query下的该title有点击,0为未点击,ctrq为该query的一个整体点击率,Scoretitle为一个title的最终得分,即是包含该title的所有query下该title的得分总和;
根据公式得到title对于不同query下的一个得分,然后title的最终得分是包含该title的所有query下该title得分的总和。
步骤130,利用改进的深度紧密递归交互注意力机制的网络DRCN构建基于残差递归自注意力和交互注意力机制的网络RRSCN的深度匹配模型,来进行特征提取。所述DRCN为深度紧密递归交互注意力机制的网络,RRSCN(Resnetly-connected Recurrent Self-attention and Co-attentive Information)为基于残差递归自注意力和交互注意力机制的网络。RRSCN是本发明基于DRCN改进的深度匹配模型。步骤130具体包括:
步骤131,设置query和title通过编码后的形式为:input1={x1,x2,…,xm},input2={x1,x2,…,xn};利用残差思路堆叠注意力机制来提取query和title的特征,先利用自注意力机制分别得到query和title与自身关联的表征,query中的xi与每个词x的匹配关系qi={w1,w2,...,wm},通过加权求和得到自注意力机制编码后的词语表征为
Figure BDA0002811105050000061
句子编码input11={x′1,x′2,...,x′m},同理得到title的句子编码input22
步骤132,然利用交互注意力机制得到query和title之间的相互关联的表征,query中的xi与title中每个词x的匹配关系q′i={w1,w2,...,wm},通过加权求和得到自注意力机制编码后的词语表征为
Figure BDA0002811105050000062
句子编码input12={x″1,x″2,...,x″m},同理得到title的句子编码input21
步骤133,分别结合query和title的输入和attention输出作为注意力机制块的输出:a_query=input1+input11+input12,a_title=input1+input11+input12,堆叠6层。
步骤140,根据步骤130得到的RRSCN深度匹配模型,通过流式读取方法训练全量数据加上微调迁移学习的方式获取RRSCN的预训练模型。步骤140具体包括:
通过文件流处理数据和分批次训练,读取10%数据进行训练,保存当前批次的训练权重参数,再读取下10%部分数据进行训练,下一部分的参数在上次训练保存的权重参数基础上进行增量训练,直至所有数据都训练完成,保存最终的权重参数。
步骤150,根据特征工程和RRSCN深度匹配模型构建三输入的全连接层网络。
首先根据步骤120得到模型特征,然后加载根据步骤140得到的预训练模型,从中获取倒数第二层的特征图feature map用于作为query和title利用深度匹配模型RRSCN提取到的特征,将query特征、title特征和通过步骤120得到的统计特征进行拼接,最后送入全连接层,用一部分数据微调整个网络。
步骤160,利用构建的全连接层网络预测文本预估点击率和相关性,给用户推荐最优可能点击的搜索结果。
图2是本发明实施例提供的一种基于文本点击率的搜索结果推荐方法的RRSCN深度匹配模型网络结构图,所述结构图流程包括以下步骤:
1、首先将搜索内容query和搜索结构分别通过词嵌入层进行编码;2、然后分别经过自注意力机制,和共同经过交互注意力机制;3、分别将query和title各自的自注意力机制和交互注意力机制的编码相加,得到注意力层的输出;4、将第3步的输出和第1步的输出相加并通过层归一化(LayerNormaliazation)得到残差块的输出;5、将残差块的输出循环进行第2步到第4步的操作,经过6次(其中N表示残差块的个数)。6、将最终残差块输出经过池化层和交互层,通过全连接层得到预测结果。
图3是本发明实施例提供的一种基于文本点击率的搜索结果推荐方法三输入微调全连接网络结构图,所述结构图流程包括以下步骤:
1、根据步骤140得到的预训练模型获取RRSCN深度匹配网络预训练模型的倒数第二层,即为query和title进行RRSCN编码后的query池化层和title池化层;2、加入步骤120得到的模型手工特征;3、通过交互层(其中q表示query池化层输出,t表示title池化的输出,s表示手工特征,q:s:t表示向量拼接操作,q+t表示向量对位相加操作,q-t表示向量对位相减操作);4、最后经过全连接层,预测输出结果。
图4是本发明实施例提供的一种基于文本点击率的搜索结果推荐系统,包括用于存储海量可搜索标题title的文本服务器,以及用于用户输入搜索问题query和显示最优搜索结果的用户搜索界面,所述系统还包括以下模块:
文本预处理模块S110,用于分别从用户搜索界面和文本服务器获取搜索问题query和搜索标题title,对搜索问题query和搜索标题title进行预处理操作;
特征工程构建模块S120,用于对query和title构建特征工程;所述特征工程包括:词粒度的统计特征,文本语义特征,相似度特征,历史信息特征;
特征提取模块S130,用于利用改进的深度紧密递归交互注意力机制的网络DRCN构建基于残差递归自注意力和交互注意力机制的网络RRSCN的深度匹配模型,来进行特征提取;
预训练模型构建模块S140,用于根据特征提取模块S130得到的RRSCN深度匹配模型,通过流式读取方法训练全量数据加上微调迁移学习的方式获取RRSCN的预训练模型;
全连接层网络模块S150,用于根据特征工程和RRSCN深度匹配模型构建三输入的全连接层网络;
搜索结果输出模块S160,利用构建的全连接层网络预测文本预估点击率和相关性,将向用户推荐最优可能点击的搜索结果输出到用户搜索界面。
优选的,特征工程构建模块S120具体包括:
词粒度的统计特征模块S121,用于计算描述搜索内容query和搜索结果title之间基于词的匹配信息,包含特征有:query或title长度、query长度-title长度、query是否完全包含title、query和title的公共词个数、query和title的公共词个数与query和title长度的占比、title出现的频次、query和title的最长连续公共子序列长度;
文本语义特征模块S122,用于计算描述query和title之间语义上的联系,包含特征有:N-gram特征,query中第一、第二和第三个词语中的任两个是否相同,query中第一、第二和第三个词语在title中出现的位置,query首词或末词在title中的顺序以及出现位置;
获取query和title的共现语句s,计算与query和title语句的占比,得共现率特征:
Figure BDA0002811105050000091
其中len表示获取语句的长度;
相似度特征模块S123,用于计算衡量query和title的相似程度,具体用于:
步骤S123a,通过词向量word2vec和快速文本分类器fasttext将文本进行词向量编码,通过以下公式给每个词赋予一个权重评价w:
Figure BDA0002811105050000092
Figure BDA0002811105050000093
Figure BDA0002811105050000094
Figure BDA0002811105050000095
其中m为文档总数,wi,j为词语i在第j篇文档中出现的次数,aj为第j篇文档词语的个数,itf表示为加强过后的tf,iidf表示加强过后的idf,itf和iidf为TFC算法,α为根据正负类别频率的平衡系数,ni为包含词语i的所有文档数,p(i1)为单词i在正例类别中的频率,p(i0)为单词i在反例类别中的频率;
步骤S123b,利用权重值对query和title中的每个词进行加权求和得到query和title的句向量表示:
Figure BDA0002811105050000101
m是文中词语个数,vi为第i个词的词向量,sentence vec为计算得到的句向量;
步骤S123c,对得到query和title的句向量进行余弦相似度、莱文斯坦levenshtein相似度、曼哈顿距离计算,把计算结果作为相似度特征。
历史信息特征模块S124,用于根据历史数据去刻画title信息,具体用于:
步骤S124a,根据步骤110得到的query和title的关键词提取query历史点击率、title历史点击率作为特征;
对于冷启动文本(即测试集中未在训练集中出现的样本),统计训练集title出现的次数count和点击次数click,click为0的填充为1,测试集中未出现的title的点击率设置为0.2;
步骤S124b,计算title质量分数特征,一个query中用户点击的title和另一个query中用户点击的title,这两个title对于query的重要程度根据以下公式:
Figure BDA0002811105050000102
其中qt表示包含title的query,labelq表示该query的标签值,1为对当前query下的该title有点击,0为未点击,ctrq为该query的一个整体点击率,Scoretitle为一个title的最终得分,即是包含该title的所有query下该title的得分总和;
根据公式得到title对于不同query下的一个得分,然后title的最终得分是包含该title的所有query下该title得分的总和。
优选的,特征提取模块S130具体用于:
步骤S131,query和title通过编码后的形式为:input1={x1,x2,...,xm},input2={x1,x2,…,xn};利用残差思路堆叠注意力机制来提取query和title的特征,先利用自注意力机制分别得到query和title与自身关联的表征,query中的xi与每个词x的匹配关系qi={w1,w2,...,wm},通过加权求和得到自注意力机制编码后的词语表征为
Figure BDA0002811105050000111
句子编码input11={x′1,x′2,...,x′m},同理得到title的句子编码input22
步骤S132,然利用交互注意力机制得到query和title之间的相互关联的表征,query中的xi与title中每个词x的匹配关系q′i={w1,w2,...,wm},通过加权求和得到自注意力机制编码后的词语表征为
Figure BDA0002811105050000112
句子编码input12={x″1,x″2,...,x″m},同理得到title的句子编码input21
步骤S133,分别结合query和title的输入和attention输出作为注意力机制块的输出:a_query=input1+input11+input12,a_title=input1+input11+input12,堆叠6层。
优选的,全连接层网络模块S150具体用于:
首先根据特征工程构建模块S120得到模型特征,然后加载根据预训练模型构建模块S140得到的预训练模型,从中获取倒数第二层的特征图feature map用于作为query和title利用深度匹配模型RRSCN提取到的特征,将query特征、title特征和通过特征工程构建模块S120得到的统计特征进行拼接,最后送入全连接层,用一部分数据微调整个网络。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

Claims (8)

1.一种基于文本点击率的搜索结果推荐方法,其特征在于,包括以下步骤:
步骤110,对搜索内容query和搜索结果title进行预处理操作;
步骤120,对query和title构建特征工程;所述特征工程包括:词粒度的统计特征,文本语义特征,相似度特征,历史信息特征;
步骤130,利用改进的深度紧密递归交互注意力机制的网络DRCN构建基于残差递归自注意力和交互注意力机制的网络RRSCN的深度匹配模型,来进行特征提取;
步骤140,根据步骤130得到的RRSCN深度匹配模型,通过流式读取方法训练全量数据加上微调迁移学习的方式获取RRSCN的预训练模型;
步骤150,根据特征工程和RRSCN深度匹配模型构建三输入的全连接层网络;
步骤160,利用构建的全连接层网络预测文本预估点击率和相关性,给用户推荐最有可能点击的搜索结果;
其中,所述步骤120具体包括:
步骤121,计算词粒度的统计特征,用于描述搜索问题query和搜索标题title之间基于词的匹配信息,包含特征有:query或title长度、query长度-title长度、query是否完全包含title、query和title的公共词个数、query和title的公共词个数与query和title长度的占比、title出现的频次、query和title的最长连续公共子序列长度;
步骤122,计算文本语义特征,用于描述query和title之间语义上的联系,包含特征有:N-gram特征,query中第一、第二和第三个词语中的任两个是否相同,query中第一、第二和第三个词语在title中出现的位置,query首词或末词在title中的顺序以及出现位置;
获取query和title的共现语句s,计算与query和title语句的占比,得共现率特征:
Figure FDA0003948892650000021
其中len表示获取语句的长度;
步骤123,计算相似度特征,用于衡量query和title相似程度,包括:
步骤123a,通过词向量word2vec和快速文本分类器fasttext将文本进行词向量编码,通过以下公式给每个词赋予一个权重评价w:
Figure FDA0003948892650000022
Figure FDA0003948892650000023
Figure FDA0003948892650000024
Figure FDA0003948892650000025
其中m为文档总数,wi,j为词语i在第j篇文档中出现的次数,aj为第j篇文档词语的个数,itf表示为加强过后的tf,iidf表示加强过后的idf,itf和iidf为TFC算法,α为根据正负类别频率的平衡系数,ni为包含词语i的所有文档数,p(i1)为单词i在正例类别中的频率,p(i0)为单词i在反例类别中的频率;
步骤123b,利用权重值对query和title中的每个词进行加权求和得到query和title的句向量表示:
Figure FDA0003948892650000026
其中m是文中词语个数,vi为第i个词的词向量,sentence vec为计算得到的句向量;
步骤123c,对得到query和title的句向量进行余弦相似度、莱文斯坦levenshtein相似度、曼哈顿距离计算,把计算结果作为相似度特征;
步骤124,计算历史信息特征,用于根据历史数据去刻画title信息,包括:
步骤124a,根据步骤110得到的query和title的关键词提取query历史点击率、title历史点击率作为特征;
对于冷启动文本,即测试集中未在训练集中出现的样本,统计训练集title出现的次数count和点击次数click,click为0的填充为1,测试集中未出现的title的点击率设置为0.2;
步骤124b,计算title质量分数特征,一个query中用户点击的title和另一个query中用户点击的title,这两个title对于query的重要程度根据以下公式:
Figure FDA0003948892650000031
其中qt表示包含title的query,labelq表示该query的标签值,1为对当前query下的该title有点击,0为未点击,ctrq为该query的一个整体点击率,Scoretitle为一个title的最终得分,即是包含该title的所有query下该title的得分总和;
根据公式得到title对于不同query下的一个得分,然后title的最终得分是包含该title的所有query下该title得分的总和。
2.根据权利要求1所述的方法,其特征在于,步骤110具体包括:
利用词语逆频率TF-IWF算法,对query提取2个关键词,对title提取3个关键词,并且根据TF-IWF权重值将query和title转化为稀疏向量,利用词向量word2vec将query和title转化为稠密向量。
3.根据权利要求1所述的方法,其特征在于,步骤130具体包括:
步骤131,设置query和title通过编码后的形式为:input1={x1,x2,...,xm},input2={x1,x2,...,xn};利用残差思路堆叠注意力机制来提取query和title的特征,先利用自注意力机制分别得到query和title与自身关联的表征,query中的xi与每个词x的匹配关系qi={w1,w2,...,wm},通过加权求和得到自注意力机制编码后的词语表征为
Figure FDA0003948892650000032
句子编码input11={x′1,x′2,...,x′m},同理得到title的句子编码input22
步骤132,然利用交互注意力机制得到query和title之间的相互关联的表征,query中的xi与title中每个词x的匹配关系q′i={w1,w2,...,wm},通过加权求和得到自注意力机制编码后的词语表征为
Figure FDA0003948892650000041
句子编码input12={x″1,x″2,....,x″m},同理得到title的句子编码input21
步骤133,分别结合query和title的输入和attention输出作为注意力机制块的输出:a_query=input1+input11+input12,a_title=input1+input11+input12,堆叠6层。
4.根据权利要求1所述的方法,其特征在于:步骤140具体包括:
通过文件流处理数据和分批次训练,读取10%数据进行训练,保存当前批次的训练权重参数,再读取下10%部分数据进行训练,下一部分的参数在上次训练保存的权重参数基础上进行增量训练,直至所有数据都训练完成,保存最终的权重参数。
5.根据权利要求1所述的方法,其特征在于:步骤150具体包括:
首先根据步骤120得到模型特征,然后加载根据步骤140得到的预训练模型,从中获取倒数第二层的特征图feature map用于作为query和title利用深度匹配模型RRSCN提取到的特征,将query特征、title特征和通过步骤120得到的统计特征进行拼接,最后送入全连接层,用一部分数据微调整个网络。
6.一种基于文本点击率的搜索结果推荐系统,包括用于存储海量可搜索标题title的文本服务器,以及用于用户输入搜索问题query和显示最优搜索结果的用户搜索界面,其特征在于,包括以下模块:
文本预处理模块S110,用于分别从用户搜索界面和文本服务器获取搜索问题query和搜索标题title,对搜索问题query和搜索标题title进行预处理操作;
特征工程构建模块S120,用于对query和title构建特征工程;所述特征工程包括:词粒度的统计特征,文本语义特征,相似度特征,历史信息特征;
特征提取模块S130,利用改进的深度紧密递归交互注意力机制的网络DRCN构建基于残差递归自注意力和交互注意力机制的网络RRSCN的深度匹配模型,来进行特征提取;
预训练模型构建模块S140,用于根据特征提取模块S130得到的RRSCN深度匹配模型,通过流式读取方法训练全量数据加上微调迁移学习的方式获取RRSCN的预训练模型;
全连接层网络模块S150,用于根据特征工程和RRSCN深度匹配模型构建三输入的全连接层网络;
搜索结果输出模块S160,利用构建的全连接层网络预测文本预估点击率和相关性,将向用户推荐最有可能点击的搜索结果输出到用户搜索界面;
其中,所述特征工程构建模块S120,具体包括:
词粒度的统计特征模块S121,用于计算描述搜索问题query和搜索标题title之间基于词的匹配信息,包含特征有:query或title长度、query长度-title长度、query是否完全包含title、query和title的公共词个数、query和title的公共词个数与query和title长度的占比、title出现的频次、query和title的最长连续公共子序列长度;
文本语义特征模块S122,用于计算描述query和title之间语义上的联系,包含特征有:N-gram特征,query中第一、第二和第三个词语中的任两个是否相同,query中第一、第二和第三个词语在title中出现的位置,query首词或末词在title中的顺序以及出现位置;
获取query和title的共现语句s,计算与query和title语句的占比,得共现率特征:
Figure FDA0003948892650000051
其中len表示获取语句的长度;
相似度特征模块S123,用于计算衡量query和title的相似程度,具体用于:
步骤S123a,通过词向量word2vec和快速文本分类器fasttext将文本进行词向量编码,通过以下公式给每个词赋予一个权重评价w:
Figure FDA0003948892650000061
Figure FDA0003948892650000062
Figure FDA0003948892650000063
Figure FDA0003948892650000064
其中m为文档总数,wi,j为词语i在第j篇文档中出现的次数,aj为第j篇文档词语的个数,itf表示为加强过后的tf,iidf表示加强过后的idf,itf和iidf为TFC算法,α为根据正负类别频率的平衡系数,ni为包含词语i的所有文档数,p(i1)为单词i在正例类别中的频率,p(i0)为单词i在反例类别中的频率;
步骤S123b,利用权重值对query和title中的每个词进行加权求和得到query和title的句向量表示:
Figure FDA0003948892650000065
m是文中词语个数,vi为第i个词的词向量,sentence vec为计算得到的句向量;
步骤S123c,对得到query和title的句向量进行余弦相似度、莱文斯坦levenshtein相似度、曼哈顿距离计算,把计算结果作为相似度特征;
历史信息特征模块S124,用于根据历史数据去刻画title信息,具体用于:
步骤S124a,根据步骤110得到的query和title的关键词提取query历史点击率、title历史点击率作为特征;
对于冷启动文本,即测试集中未在训练集中出现的样本,统计训练集title出现的次数count和点击次数click,click为0的填充为1,测试集中未出现的title的点击率设置为0.2;
步骤S124b,计算title质量分数特征,一个query中用户点击的title和另一个query中用户点击的title,这两个title对于query的重要程度根据以下公式:
Figure FDA0003948892650000071
其中qt表示包含title的query,labelq表示该query的标签值,1为对当前query下的该title有点击,0为未点击,ctrq为该query的一个整体点击率,Scoretitle为一个title的最终得分,即是包含该title的所有query下该title的得分总和;
根据公式得到title对于不同query下的一个得分,然后title的最终得分是包含该title的所有query下该title得分的总和。
7.根据权利要求6所述的系统,其特征在于,特征提取模块S130具体用于:
步骤S131,query和title通过编码后的形式为:input1={x1,x2,...,xm},input2={x1,x2,...,xn};利用残差思路堆叠注意力机制来提取query和title的特征,先利用自注意力机制分别得到query和title与自身关联的表征,query中的xi与每个词x的匹配关系qi={w1,w2,...,wm},通过加权求和得到自注意力机制编码后的词语表征为
Figure FDA0003948892650000072
句子编码input11={x′1,x′2,....,x′m},同理得到title的句子编码input22
步骤S132,然利用交互注意力机制得到query和title之间的相互关联的表征,query中的xi与title中每个词x的匹配关系q′i={w1,w2,...,wm},通过加权求和得到自注意力机制编码后的词语表征为
Figure FDA0003948892650000073
句子编码input12={x″1,x″2,....,x″m},同理得到title的句子编码input21
步骤S133,分别结合query和title的输入和attention输出作为注意力机制块的输出:a_query=input1+input11+input12,a_title=input1+input11+input12,堆叠6层。
8.根据权利要求6所述的系统,其特征在于:全连接层网络模块S150具体用于:
首先根据特征工程构建模块S120得到模型特征,然后加载根据预训练模型构建模块S140得到的预训练模型,从中获取倒数第二层的特征图feature map用于作为query和title利用深度匹配模型RRSCN提取到的特征,将query特征、title特征和通过特征工程构建模块S120得到的统计特征进行拼接,最后送入全连接层,用一部分数据微调整个网络。
CN202011386336.8A 2020-12-02 2020-12-02 一种基于文本点击率的搜索结果推荐方法及系统 Active CN112487274B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011386336.8A CN112487274B (zh) 2020-12-02 2020-12-02 一种基于文本点击率的搜索结果推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011386336.8A CN112487274B (zh) 2020-12-02 2020-12-02 一种基于文本点击率的搜索结果推荐方法及系统

Publications (2)

Publication Number Publication Date
CN112487274A CN112487274A (zh) 2021-03-12
CN112487274B true CN112487274B (zh) 2023-02-07

Family

ID=74938684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011386336.8A Active CN112487274B (zh) 2020-12-02 2020-12-02 一种基于文本点击率的搜索结果推荐方法及系统

Country Status (1)

Country Link
CN (1) CN112487274B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761383B (zh) * 2021-10-13 2023-06-20 中国人民大学 一种基于统一用户行为建模的搜索和推荐融合系统
CN117637153B (zh) * 2024-01-23 2024-03-29 吉林大学 患者安全护理的信息化管理系统及方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582868A (zh) * 2018-11-27 2019-04-05 湖南大学 基于词向量加权、支持向量回归和用户点击偏好的搜索推荐方法
CN110046240A (zh) * 2019-04-16 2019-07-23 浙江爱闻格环保科技有限公司 结合关键词检索与孪生神经网络的目标领域问答推送方法
CN110110045A (zh) * 2019-04-26 2019-08-09 腾讯科技(深圳)有限公司 一种检索相似文本的方法、装置以及存储介质
CN110209801A (zh) * 2019-05-15 2019-09-06 华南理工大学 一种基于自注意力网络的文本摘要自动生成方法
CN110826337A (zh) * 2019-10-08 2020-02-21 西安建筑科技大学 一种短文本语义训练模型获取方法及相似度匹配算法
CN111460303A (zh) * 2020-03-31 2020-07-28 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN111581401A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于深度相关性匹配的局部引文推荐系统及方法
CN111581510A (zh) * 2020-05-07 2020-08-25 腾讯科技(深圳)有限公司 分享内容处理方法、装置、计算机设备和存储介质
CN111858984A (zh) * 2020-07-13 2020-10-30 济南浪潮高新科技投资发展有限公司 一种基于注意力机制哈希检索的图像匹配方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8600668B2 (en) * 2007-01-10 2013-12-03 Tomtom International B.V. Navigation device and method for display of position in text readible form
KR100994677B1 (ko) * 2007-04-24 2010-11-17 한양대학교 산학협력단 발광 소자 및 그 제조 방법
CN105975558B (zh) * 2016-04-29 2018-08-10 百度在线网络技术(北京)有限公司 建立语句编辑模型的方法、语句自动编辑方法及对应装置
CN107402954B (zh) * 2017-05-26 2020-07-10 百度在线网络技术(北京)有限公司 建立排序模型的方法、基于该模型的应用方法和装置
CN110162593B (zh) * 2018-11-29 2023-03-21 腾讯科技(深圳)有限公司 一种搜索结果处理、相似度模型训练方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582868A (zh) * 2018-11-27 2019-04-05 湖南大学 基于词向量加权、支持向量回归和用户点击偏好的搜索推荐方法
CN110046240A (zh) * 2019-04-16 2019-07-23 浙江爱闻格环保科技有限公司 结合关键词检索与孪生神经网络的目标领域问答推送方法
CN110110045A (zh) * 2019-04-26 2019-08-09 腾讯科技(深圳)有限公司 一种检索相似文本的方法、装置以及存储介质
CN110209801A (zh) * 2019-05-15 2019-09-06 华南理工大学 一种基于自注意力网络的文本摘要自动生成方法
CN110826337A (zh) * 2019-10-08 2020-02-21 西安建筑科技大学 一种短文本语义训练模型获取方法及相似度匹配算法
CN111460303A (zh) * 2020-03-31 2020-07-28 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN111581401A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于深度相关性匹配的局部引文推荐系统及方法
CN111581510A (zh) * 2020-05-07 2020-08-25 腾讯科技(深圳)有限公司 分享内容处理方法、装置、计算机设备和存储介质
CN111858984A (zh) * 2020-07-13 2020-10-30 济南浪潮高新科技投资发展有限公司 一种基于注意力机制哈希检索的图像匹配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
QoS routing using lower layer information in ad hoc networks;Zhong Fan等;《IEEE》;20050103;第135-139页 *
基于注意力机制与文本信息的用户关系抽取;赵赟等;《中文信息学报》;20190315;第87-93页 *

Also Published As

Publication number Publication date
CN112487274A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
CN111310438B (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN111291188B (zh) 一种智能信息抽取方法及系统
CN109543017B (zh) 法律问题关键词生成方法及其系统
CN112035658B (zh) 基于深度学习的企业舆情监测方法
CN106708929B (zh) 视频节目的搜索方法和装置
CN112487274B (zh) 一种基于文本点击率的搜索结果推荐方法及系统
CN112307182B (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN113761890B (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN110390049B (zh) 一种面向软件开发问题的答案自动生成方法
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
CN114065758A (zh) 一种基于超图随机游走的文档关键词抽取方法
CN110866102A (zh) 检索处理方法
US20050228778A1 (en) System and method for retrieving documents based on mixture models
CN110990533A (zh) 确定查询文本所对应标准文本的方法及装置
CN113239148A (zh) 基于机器阅读理解的科技资源检索方法
Dehru et al. Text summarization techniques and applications
CN113516094A (zh) 一种用于为文档匹配评议专家的系统以及方法
CN117034135A (zh) 一种基于提示学习和双信息源融合的api推荐方法
CN116204622A (zh) 一种跨语言稠密检索中的查询表示增强方法
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
CN113538106A (zh) 基于评论整合挖掘的商品精细化推荐方法
CN113254586A (zh) 一种基于深度学习的无监督文本检索方法
CN112214511A (zh) 一种基于wtp-wcd算法的api推荐方法
CN111858830A (zh) 基于自然语言处理的卫生监督执法数据检索系统及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230724

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230816

Address after: Room 202, 2nd Floor, Building 4, Kengkou Electronic Digital Base, No. 9 Huaxi Road, Liwan District, Guangzhou City, Guangdong Province, 510145

Patentee after: Guangzhou Mofei Technology Co.,Ltd.

Address before: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Yami Technology (Guangzhou) Co.,Ltd.

TR01 Transfer of patent right