CN113553398B - 搜索词纠正方法、装置、电子设备及计算机存储介质 - Google Patents
搜索词纠正方法、装置、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN113553398B CN113553398B CN202110798742.3A CN202110798742A CN113553398B CN 113553398 B CN113553398 B CN 113553398B CN 202110798742 A CN202110798742 A CN 202110798742A CN 113553398 B CN113553398 B CN 113553398B
- Authority
- CN
- China
- Prior art keywords
- search
- candidate
- word
- words
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 186
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000001914 filtration Methods 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 325
- 238000012512 characterization method Methods 0.000 claims description 125
- 230000006870 function Effects 0.000 claims description 65
- 238000000605 extraction Methods 0.000 claims description 30
- 230000015654 memory Effects 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000007477 logistic regression Methods 0.000 claims description 7
- 238000003066 decision tree Methods 0.000 claims description 6
- 238000013136 deep learning model Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 17
- 238000001514 detection method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000157593 Milvus Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种搜索词纠正方法、装置、电子设备及计算机存储介质,所述方法包括:获取输入的搜索词,对所述搜索词进行特征提取,并确定候选集合中不同候选词的特征;根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合;过滤掉所述第一候选词集合中符合过滤条件的候选词,得到第二候选词集合;对所述第二候选词集合中的候选词进行评分;根据评分结果,确定评分满足要求的候选词为纠错词,并利用所述纠错词纠正所述搜索词。本申请实施例提供的技术方案与现有技术相比,提升了对搜索词的召回率的同时保证纠正搜索词准确率,提升了用户体验。
Description
技术领域
本申请涉及计算机技术领域,尤指一种搜索词纠正方法、装置、电子设备及计算机存储介质。
背景技术
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
如今,随着网络上的资源越来越丰富,搜索引擎的使用也越来越广泛。但在搜索引擎的使用过程中,用户有时难以给出准确的搜索词,或者因为笔误而造成了输入错误。例如输入的搜索词中的英文单词拼写错误、中文同音字错误,输入的搜索词与正确的搜索词语义相关但文字不相同等情况。从而,搜索引擎会根据错误的搜索词进行搜索,给出与用户期望的内容不同的搜索结果。
发明内容
本申请实施例提供一种搜索词纠正方法、装置、电子设备及计算机存储介质,用以解决现有技术中存在搜索词纠正效果不好的问题。
第一方面,本申请一实施例提供了一种搜索词纠正方法,包括:
获取输入的搜索词,对所述搜索词进行特征提取,并确定候选集合中不同候选词的特征;
根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合;
过滤掉所述第一候选词集合中符合过滤条件的候选词,得到第二候选词集合;
对所述第二候选词集合中的候选词进行评分;
根据评分结果,确定评分满足要求的候选词为纠错词,并利用所述纠错词纠正所述搜索词。
这样,通过对搜索词进行特征提取,与候选集合中的候选词进行相似度比较后召回,之后再对候选词进行过滤和评分,与现有技术相比提升了对搜索词的召回率的同时保证纠正搜索词准确率,提升了用户体验。
可选地,所述确定候选集合中不同候选词的特征,包括:
对所述候选集合中不同候选词按照至少一种语言元素的类型拆解,并提取拆解得到各类型的语言元素对应的向量;
将所述各类型的语言元素对应的向量利用长短期记忆人工神经网络LSTM模型进行特征提取;
将提取特征后得到各类型的语言元素对应的向量合并,得到所述候选词的表征向量;
其中,所述LSTM模型通过输入样本中有正确纠错关系的候选词,以输出对应的向量合并得到的表征向量与样本中搜索词的表征向量的相似度符合设定要求为目标进行训练;
所述对所述搜索词进行特征提取,包括:
将所述搜索词按照至少一种语言元素的类型拆解,并提取拆解得到各类型的语言元素对应的向量;
将所述各类型的语言元素对应的向量合并得到所述搜索词的表征向量。
这样,通过LSTM模型对候选词的特征进行编码与进一步地特征提取向量,最终能够提取得到与具有纠错关系的搜索词更为相似的向量。
可选地,所述将所述各类型的语言元素对应的向量合并得到所述搜索词的表征向量,具体包括:
将同类型的语言元素对应的向量,合并为该类型的语言元素对应的子向量;
将不同类型的语言元素的子向量合并,得到所述搜索词的表征向量。
这样,能够获得搜索词的表征向量,便于后续与候选词的特征进行比较相似度。
可选地,所述LSTM模型通过如下方式训练得到:
获取正例样本,所述正例样本包括搜索词和正确纠错词;
将所述正例样本中的搜索词、正确纠错词分别按照至少一种语言元素的类型拆解,并提取拆解得到的各类型语言元素对应的向量;
将针对搜索词提取的向量合并得到所述搜索词的表征向量;
将针对所述正确纠错词提取的各类型的语言元素对应的向量输入LSTM模型,根据所述LSTM模型的输出得到该类型的语言元素对应的向量,将各类型的语言元素对应的向量合并,得到所述正确纠错词的表征向量;
根据正确纠错词的表征向量与所述搜索词的表征向量的相似度得到损失函数值,根据所述损失函数值调整所述LSTM模型的参数;
其中,所述正确纠错词的表征向量与所述搜索词的表征向量的相似度越高,所述损失函数值越小。
这样,通过使用包括搜索词和正确纠错词的正例样本对LSTM模型进行训练,能够使LSTM模型学习到具有纠错关系的搜索词与正确纠错词之间的隐含关系。
可选地,所述LSTM模型通过如下方式训练得到:
获取负例样本,所述负例样本包括搜索词和错误纠错词;
将所述负例样本中的搜索词、错误纠错词分别按照至少一种语言元素的类型拆解,并提取拆解得到的各类型语言元素对应的向量;
将针对搜索词提取的向量合并得到所述搜索词的表征向量;
将针对所述错误纠错词提取的各类型的语言元素对应的向量输入所述LSTM模型,根据所述LSTM模型的输出得到该类型的语言元素对应的向量,将各类型的语言元素对应的向量合并,得到所述错误纠错词的表征向量;
根据错误纠错词的表征向量与所述搜索词的表征向量的相似度得到损失函数值,根据所述损失函数值调整所述LSTM模型的参数;
其中,所述错误纠错词的表征向量与所述搜索词的表征向量的相似度越高,所述损失函数值越大。
这样,通过使用包括搜索词和错误纠错词的负例样本对LSTM模型进行训练,能够使LSTM模型学习到不具有纠错关系的搜索词与错误纠错词之间的隐含关系。
可选地,所述根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合,包括:
利用向量检索引擎,确定所述搜索词的表征向量与所述不同候选词的表征向量的余弦相似度;
按照对应的所述余弦相似度的排序,从所述候选集合中召回预设数量的候选词,得到所述第一候选词集合。
这样,通过使用向量检索引擎,可以较快地完成搜索。
可选地,所述对所述搜索词进行特征提取,包括:
将所述搜索词按照至少一种语言元素的类型进行拆解,得到与所述搜索词对应的各类型的语言元素;
所述确定候选集合中不同候选词的特征,包括:
对所述候选集合中不同候选词按照至少一种语言元素的类型拆解,得到与各所述候选词对应的各类型的语言元素。
这样,通过直接使用拆解得到的语言元素作为特征,不再需要使用LSTM模型进行特征提取,简化了技术方案。
可选地,所述根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合,包括:
利用倒排索引算法,确定所述搜索词对应的各类型的语言元素与各所述候选词对应的各类型的语言元素的相似度;
按照对应的所述相似度的排序,从所述候选集合中召回预设数量的候选词,得到所述第一候选词集合。
这样,使用倒排索引算法的技术方案较为简单。
可选地,所述过滤条件包括如下至少一种:
所述搜索词与候选词的字符编辑距离大于预设字符编辑距离阈值;
所述搜索词的搜索操作参数与候选词的搜索操作参数的差异符合设定要求,所述搜索词的搜索操作参数为根据用户对所述搜索词的历史操作确定的参数,所述候选词搜索操作参数为根据用户对所述候选词的历史操作确定的参数。
这样,从语言元素对应的特征之外的维度对所述第一候选集合中的候选词进行过滤,可以过滤掉一些在字面含义上与搜索词较为相近,但实质语义上并不相近的候选词,以避免使用不合适的候选词对搜索词进行纠正。
可选地,所述语言元素的类型包括如下至少一种:
一元分词unigram、二元分词bigram、三元分词trigram、词语、发音。
这样,可以从不同的维度上提取搜索词和候选词的特征,以更好地发现对应的相似度关系。
可选地,所述对所述第二候选词集合中的候选词进行评分,包括:
根据所有所述搜索词的特征及所述第二候选词集合中的候选词的特征,及所述两者的交叉特征输入到评分模型;
利用所述评分模型预测所述候选词的评分;
其中,所述评分模型通过输入样本中存在特征差异的搜索词的特征、候选词的特征及对应的交叉特征,以输出与特征差异程度相对应的评分为目标进行训练。
这样,利用基于机器学习的评分模型对所述第二候选集合中的候选词进行评分,评分更加准确。
可选地,所述评分模型包括如下任一种:
逻辑斯蒂回归模型、深度学习模型、决策树模型。
可选地,输入到所述评分模型的所述搜索词的特征根据所述搜索词的搜索操作参数确定,输入到所述评分模型的所述候选词的特征根据所述候选词的搜索操作参数确定,所述搜索词的搜索操作参数为根据用户对所述搜索词的历史操作确定的参数,所述候选词的搜索操作参数为根据用户对所述候选词的历史操作确定的参数。
可选地,所述搜索操作参数包括如下至少一种:
搜索场景、搜索次数、搜索推荐值、搜索结果。
这样,能够从不同的非语言维度来发现搜索词与候选词之前的相关关系。
第二方面,本申请一实施例提供了一种搜索词纠正装置,包括:
特征提取单元,用于获取输入的搜索词,对所述搜索词进行特征提取,并确定候选集合中不同候选词的特征;
召回单元,用于根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合;
过滤单元,用于过滤掉所述第一候选词集合中符合过滤条件的候选词,得到第二候选词集合;
评分单元,用于对所述第二候选词集合中的候选词进行评分;
纠错单元,用于根据评分结果,确定评分满足要求的候选词为纠错词,并利用所述纠错词纠正所述搜索词。
可选地,所述确定候选集合中不同候选词的特征,包括:
对所述候选集合中不同候选词按照至少一种语言元素的类型拆解,并提取拆解得到各类型的语言元素对应的向量;
将所述各类型的语言元素对应的向量利用长短期记忆人工神经网络LSTM模型进行特征提取;
将提取特征后得到各类型的语言元素对应的向量合并,得到所述候选词的表征向量;
其中,所述LSTM模型通过输入样本中有正确纠错关系的候选词,以输出对应的向量合并得到的表征向量与样本中搜索词的表征向量的相似度符合设定要求为目标进行训练;
所述对所述搜索词进行特征提取,包括:
将所述搜索词按照至少一种语言元素的类型拆解,并提取拆解得到各类型的语言元素对应的向量;
将所述各类型的语言元素对应的向量合并得到所述搜索词的表征向量。
可选地,所述将所述各类型的语言元素对应的向量合并得到所述搜索词的表征向量,具体包括:
将同类型的语言元素对应的向量,合并为该类型的语言元素对应的子向量;
将不同类型的语言元素的子向量合并,得到所述搜索词的表征向量。
可选地,所述LSTM模型通过如下方式训练得到:
获取正例样本,所述正例样本包括搜索词和正确纠错词;
将所述正例样本中的搜索词、正确纠错词分别按照至少一种语言元素的类型拆解,并提取拆解得到的各类型语言元素对应的向量;
将针对搜索词提取的向量合并得到所述搜索词的表征向量;
将针对所述正确纠错词提取的各类型的语言元素对应的向量输入LSTM模型,根据所述LSTM模型的输出得到该类型的语言元素对应的向量,将各类型的语言元素对应的向量合并,得到所述正确纠错词的表征向量;
根据正确纠错词的表征向量与所述搜索词的表征向量的相似度得到损失函数值,根据所述损失函数值调整所述LSTM模型的参数;
其中,所述正确纠错词的表征向量与所述搜索词的表征向量的相似度越高,所述损失函数值越小。
可选地,所述LSTM模型通过如下方式训练得到:
获取负例样本,所述负例样本包括搜索词和错误纠错词;
将所述负例样本中的搜索词、错误纠错词分别按照至少一种语言元素的类型拆解,并提取拆解得到的各类型语言元素对应的向量;
将针对搜索词提取的向量合并得到所述搜索词的表征向量;
将针对所述错误纠错词提取的各类型的语言元素对应的向量输入所述LSTM模型,根据所述LSTM模型的输出得到该类型的语言元素对应的向量,将各类型的语言元素对应的向量合并,得到所述错误纠错词的表征向量;
根据错误纠错词的表征向量与所述搜索词的表征向量的相似度得到损失函数值,根据所述损失函数值调整所述LSTM模型的参数;
其中,所述错误纠错词的表征向量与所述搜索词的表征向量的相似度越高,所述损失函数值越大。
可选地,所述根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合,包括:
利用向量检索引擎,确定所述搜索词的表征向量与所述不同候选词的表征向量的余弦相似度;
按照对应的所述余弦相似度的排序,从所述候选集合中召回预设数量的候选词,得到所述第一候选词集合。
可选地,所述对所述搜索词进行特征提取,包括:
将所述搜索词按照至少一种语言元素的类型进行拆解,得到与所述搜索词对应的各类型的语言元素;
所述确定候选集合中不同候选词的特征,包括:
对所述候选集合中不同候选词按照至少一种语言元素的类型拆解,得到与各所述候选词对应的各类型的语言元素。
可选地,所述根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合,包括:
利用倒排索引算法,确定所述搜索词对应的各类型的语言元素与各所述候选词对应的各类型的语言元素的相似度;
按照对应的所述相似度的排序,从所述候选集合中召回预设数量的候选词,得到所述第一候选词集合。
可选地,所述过滤条件包括如下至少一种:
所述搜索词与候选词的字符编辑距离大于预设字符编辑距离阈值;
所述搜索词的搜索操作参数与候选词的搜索操作参数的差异符合设定要求,所述搜索词的搜索操作参数为根据用户对所述搜索词的历史操作确定的参数,所述候选词搜索操作参数为根据用户对所述候选词的历史操作确定的参数。
可选地,所述语言元素的类型包括如下至少一种:
一元分词unigram、二元分词bigram、三元分词trigram、词语、发音。
可选地,所述对所述第二候选词集合中的候选词进行评分,包括:
根据所有所述搜索词的特征及所述第二候选词集合中的候选词的特征,及所述两者的交叉特征输入到评分模型;
利用所述评分模型预测所述候选词的评分;
其中,所述评分模型通过输入样本中存在特征差异的搜索词的特征、候选词的特征及对应的交叉特征,以输出与特征差异程度相对应的评分为目标进行训练。
可选地,所述评分模型包括如下任一种:
逻辑斯蒂回归模型、深度学习模型、决策树模型。
可选地,输入到所述评分模型的所述搜索词的特征根据所述搜索词的搜索操作参数确定,输入到所述评分模型的所述候选词的特征根据所述候选词的搜索操作参数确定,所述搜索词的搜索操作参数为根据用户对所述搜索词的历史操作确定的参数,所述候选词的搜索操作参数为根据用户对所述候选词的历史操作确定的参数。
可选地,所述搜索操作参数包括如下至少一种:
搜索场景、搜索次数、搜索推荐值、搜索结果。
第三方面,本申请一实施例提供了一种电子设备,包括:处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面所述的搜索词纠正方法。
第四方面,本申请一实施例提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被用于实现如第一方面所述的搜索词纠正方法。
本发明有益效果如下:
本申请实施例提供的搜索词纠正方法、装置、电子设备及计算机存储介质,通过对搜索词进行特征提取,与候选集合中的候选词进行相似度比较后召回,之后再对候选词进行过滤和评分,在实施过程中提升了对搜索词的召回率的同时保证纠正搜索词准确率。
附图说明
通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,其中:
图1为本申请实施例提供的搜索词纠正方法的应用场景示意图;
图2为本申请一实施例提供的搜索词纠正方法的流程示意图;
图3为本申请一实施例提供的确定候选词表征向量的流程示意图;
图4为本申请一实施例提供的LSTM模型的示意图;
图5为本申请一实施例提供的提取搜索词与候选词表征向量并比较相似度的效果示意图;
图6为本申请一实施例提供的提取搜索词表征向量的流程示意图;
图7本申请一实施例提供的LSTM模型的训练流程示意图;
图8为本申请一实施例提供的利用向量检索引擎进行召回的流程示意图;
图9为本申请一实施例提供的利用倒排索引算法进行召回的流程示意图;
图10为本申请一实施例提供的利用评分模型对第二候选集合中的候选词进行评分的流程示意图;
图11为本申请一实施例提供的搜索词纠正装置的结构示意图;
图12为本申请一实施例提供的电子设备的结构示意图;
图13为本申请一实施例提供的计算机程序产品的结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本申请的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
为了方便理解,下面对本申请实施例中涉及的名词进行解释:
文本匹配:
文本匹配是自然语言处理中的一个核心问题,即判定两个文本之间的相关性或相似度,许多自然语言处理的问题都可以视为一个文本匹配的问题,比如信息检索可以被视为查询词和文档的匹配。在纠错任务中,可以用于计算用户输入查询词和候选纠错词的相关性并用于召回。
召回:
召回是推荐系统或搜索系统的一个环节。推荐系统或搜索系统一般由召回、排序、重排三个阶段组成,召回是指用一些高效的算法从整个大的推荐集中召回与用户输入内容相关度高的一部分内容作为排序阶段的候选集合。
长短期记忆人工神经网络(LSTM,Long Short-Term Memory)模型:
LSTM模型是一种时间循环神经网络模型,是为了解决一般的循环神经网络模型(Recurrent Neural Network,RNN)存在的长期依赖问题而专门设计出来的。相比普通的RNN,LSTM能够在更长的序列中有更好的表现,能够更好地解决长序列训练过程中的梯度消失和梯度爆炸问题。
损失函数(Loss Function):
损失函数是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。例如,在机器学习中,损失函数被用于模型的参数估计(Parameteric Estimation),基于损失函数得到的损失值可用来描述模型的预测值与实际值的差异程度。常见的损失函数有均方误差损失函数、支持向量机(Support VectorMachine,SVM)合页损失函数、交叉熵损失函数等。
倒排索引(Inverted index):
倒排索引也常被称为反向索引、置入档案或反向档案,是一种索引方法。倒排索引被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引有两种不同的反向索引形式:(1)一条记录的水平反向索引(或者反向档案索引),包含每个引用单词的文档的列表;(2)一个单词的水平反向索引(或者完全反向索引),又包含每个单词在一个文档中的位置。后者的形式提供了更多的兼容性(比如短语搜索),但是需要更多的时间和空间来创建。相比“签名文件”、“后缀树”等索引结构,“倒排索引”是实现单词到文档映射关系的最佳实现方式和最有效的索引结构。
丢弃Dropout算法:
在机器学习的模型中,如果模型的参数太多,而训练样本又太少,训练出来的模型很容易产生过拟合的现象。具体表现为:模型在训练数据上损失函数较小,预测准确率较高;但是在测试数据上损失函数比较大,预测准确率较低。Dropout算法是一种用于防止过拟合的算法。具体地,在每个训练批次中,Dropout算法通过忽略一定比例的特征检测器(让一定比例的隐层节点值为0),可以减少特征检测器(隐层节点)间的相互作用,可以明显地减少过拟合现象。
字符编辑距离:
字符编辑距离又称莱文斯坦(Levenshtein)距离,是一种计算两个字符串间的差异程度的字符串度量(string metric)。字符编辑距离为从一个字符串修改到另一个字符串时,其中编辑单个字符(比如修改、插入、删除)所需要的最少次数。例如,从字符串“kitten”修改为字符串“sitting”只需3次单字符编辑操作,即kitten→sitten→sittin→sitting,那么“kitten”和“sitting”的字符编辑距离为3。字符编辑距离通过如下方式计算:
其中,
其中,a和b分别为两个字符串,ai表示字符串a的第i个字符,bj表示字符串b的第j个字符,leva,b(i,j)表示a的前i个字符与b的前j个字符之间的字符编辑距离。①式表示若a和b至少一个为空字符串,那么二者的字符编辑距离为两者的字符串长度中最大的字符串长度,②式表示从a中删除某个字符到达b,③式代表从a中插入某个字符到达b,④式表示从a替换某个字符到达b。
准确率(Accuracy,ACC):
准确率表示分类正确的样本数占总样本数的比例。ACC的计算公式如下:
其中,TP(True positive)表示将正例样本预测成正例样本的样本数,TN(Truenegative)表示将负例样本预测成负例样本的样本数,FN(False negative)表示将正例样本预测成负例样本的样本数,FP(False positive)表示将负例样本预测成正例样本的样本数。
精确率(Precision):
精确率表示输出结果为正例样本中真正的正例样本所占比例。精确率P计算公式如下:
召回率(Recall):
召回率表示所有正例样本中输出正确结果的样本所占比例。召回率R计算公式如下:
准确率和召回率的调和均值F1:
由于准确率和召回率是一组矛盾数参数,为了能够兼顾精确率P与召回率R,在机器学习中会采用F1对机器学习模型进行评价。F1的计算公式如下:
下面参考本申请的若干代表性实施方式,详细阐释本申请的原理和精神。
发明概述
针对用户在搜索引擎的使用过程中,可能会输入不准确的搜索词或者由于笔误输入错误的搜索词,导致搜索引擎会根据不正确的搜索词进行搜索,给出与用户期望的内容不同的搜索结果的问题,相关技术中提供有使用语言模型对搜索词进行错误概率的检错计算,对较高错误概率的搜索词与候选集合中的候选词进行逐一比对查找正确的搜索词,再对查找到的正确的搜索词进行搜索并提供搜索结果的方案。但由于候选集合中的候选词数量极大,因此搜索过程非常耗时。为加快搜索速度,控制检错计算的错误概率阈值一般设置得较高。这样进行搜索时进行纠错比对的搜索词占比偏低,导致很大一部分错误搜索词得不到纠正,搜索纠错的效果不好。此外,相关技术中还有基于深度学习的序列-序列(sequence to sequence,seq2seq)模型技术来进行纠错的方案,主要思路为对输入词进行编码,然后解码得到纠错词。该方案的召回率高,但在实现过程中得到的纠错搜索词错误率(纠错搜索词与用户期望的正确搜索词不同的比率)较高。
为了解决上述问题,本申请提供了一种搜索词纠正方法,包括:获取输入的搜索词,对所述搜索词进行特征提取,并确定候选集合中不同候选词的特征;根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合;过滤掉所述第一候选词集合中符合过滤条件的候选词,得到第二候选词集合;对所述第二候选词集合中的候选词进行评分;根据评分结果,确定评分满足要求的候选词为纠错词,并利用所述纠错词纠正所述搜索词。本申请的搜索词纠正方法,通过对搜索词的特征进行提取,与候选集合中的不同候选词的特征进行相似度对比,召回相似度较高的候选词过滤评分后选出纠错词对搜索词进行纠正搜索,与现有技术相比能够更好地实现对搜索词的纠正。
在介绍了本申请的基本原理之后,下面具体介绍本申请的各种非限制性实施方式。
应用场景总览
参考图1,其为本申请实施例提供的搜索词纠正方法的应用场景示意图。在图1所示的应用场景中包括终端设备101和服务器102。其中,终端设备101和服务器102之间可通过无线通信网络或有线通信网络连接,终端设备101包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视、车载设备、个人数字助理(Personal Digital Assistant,PDA)等电子设备。服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
服务器102用于提供搜索服务,例如可以是音乐搜索服务、商品搜索服务、文献搜索服务等服务。终端设备101中安装有搜索服务客户端,用户可通过搜索服务客户端实现服务器102提供的搜索服务,或者用户也可以通过终端设备101内的浏览器访问搜索服务网站,以实现服务器102提供的搜索服务。例如,任一用户可通过搜索服务客户端向搜索服务平台对应的服务器102上传搜索词,服务器102获取输入的搜索词,对所述搜索词进行特征提取,并确定候选集合中不同候选词的特征;根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合;过滤掉所述第一候选词集合中符合过滤条件的候选词,得到第二候选词集合;对所述第二候选词集合中的候选词进行评分;根据评分结果,确定评分满足要求的候选词为纠错词,并利用所述纠错词纠正所述搜索词并进行搜索,将对应的搜索结果发送至所述用户的终端设备101。
需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
示例性方法
参考图2,本申请实施例提供了一种搜索词纠正方法,应用于服务器,包括:
S201、获取输入的搜索词,对所述搜索词进行特征提取,并确定候选集合中不同候选词的特征。
在具体实施过程中,对所述搜索词提取的特征和确定的候选词的特征可以为从语言维度提取的特征,例如组成所述搜索词或所述候选词的字、词语、发音等语言特征。
S202、根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合。
在具体实施过程中,所述搜索词的特征与所述不同候选词的特征的相似度可以通过例如欧几里得距离、皮尔逊相关系数、余弦相似度等进行计算。在召回时,可以将相似度要求设置为大于一个预设的相似度阈值;也可以将相似度要求设置为相似度按照大小进行排序,从最大相似度开始从中选取预设数量个相似度;在此不做限定。
S203、过滤掉所述第一候选词集合中符合过滤条件的候选词,得到第二候选词集合。
在具体实施过程中,由于在所述步骤S201中已经通过语言维度的特征之间的相似度对候选集合中的候选词进行了一次筛选召回,那么所述步骤S203可以从其它维度对所述第一候选词集合中的候选词进行进一步筛选,从而筛除一些在语言维度与搜索词较为相似,但实质语义与搜索词有着较大差异的候选词。以音乐搜索为例,在用户搜索歌手时,搜索词“王Tim”与其中某一个候选词“玉Tom”(此处仅为举例而虚构的人名)之间的语言维度的特征具有较高的相似度,但实质上从除语言维度之外的维度来看,搜索词和候选词实质上各自对应的是两名不同的歌手,这样搜索词是用户错误输入的可能性较小,那么应当将所述候选词过滤掉。
S204、对所述第二候选词集合中的候选词进行评分。
在具体实施过程中,可以从多种不同的维度对所述候选词进行评分,例如可以从语言维度、所述搜索词与所述候选词的搜索历史操作维度等其中一种或多种维度进行综合考虑,根据预测的相关性为所述候选词进行评分。
S205、根据评分结果,确定评分满足要求的候选词为纠错词,并利用所述纠错词纠正所述搜索词。
在具体实施过程中,评分要求可以设置为最大评分大于预设评分阈值。这样,可以在最大评分大于预设评分阈值时,确定用户输入的搜索词有较高可能为错误输入的搜索词,对该搜索词进行纠正;如果最大评分没有大于预设评分阈值时,那么有较大可能为用户输入的搜索词是正确的,也有一定可能为用户输入的搜索词是错误的但候选集合中没有合适的候选词进行纠正,这两种情况均不需要进行纠正。
本申请的搜索词纠正方法,通过对搜索词进行特征提取,与候选集合中的候选词进行相似度比较后召回,之后再对候选词进行过滤和评分,在实施过程中提升了对搜索词的召回率的同时保证纠正搜索词准确率。
以音乐搜索服务为例,搜索词为“好像爱这个世界啊”。对于现有的检错纠错方案,计算所述搜索词的错误概率较低,因而不会进行纠错。而在本申请的技术方案中则会通过最终通过召回、过滤、评分等步骤后将“好想爱这个世界啊”作为其纠错词。又例如,搜索词为“世间美好和你环环相扣”。对于现有的检错纠错方案,所述搜索词在所述候选集合中存在,因此现有的检错纠错方案会认定该搜索词无误并不予以纠错,在本申请的技术方案中则会发现候选词“世间美好与你环环相扣”与所述搜索词具有较高的相似度,在过滤后的评分也较高,因此会将“世间美好与你环环相扣”这个词条作为纠错词。
这样,对于音乐搜索服务,经过测试本申请的技术方案与现有技术的检错纠错方案相比,大幅提升了召回率的同时,保证了纠错的准确率较高,具体测试结果如下表所示:
表1本申请技术方案与现有技术检错纠错方案的效果比较表
技术方案 | 准确率 | 召回率 |
现有技术检错纠错方案 | 77.12% | 14.9% |
本申请技术方案 | 73% | 89% |
经过对音乐服务的线上的A/B测试,本申请技术方案与现有技术检错纠错方案相比,由于对音乐搜索服务大幅提升了召回率的同时保证了准确率,因而明显提升了音乐服务的用户点击率,经统计在全流量下提升音乐服务点击率2.3%左右。从而提升了用户体验。
在实施过程中,所述步骤S201可以有如下两种实施方案,一种是对所述搜索词和所述候选词从语言维度进行特征向量的提取,另一种是对所述搜索词和所述候选词从语言维度进行语言元素的提取。下面将分别对这两种方案进行详细说明。
方案1:
如图3所示,所述确定候选集合中不同候选词的特征,包括:
S301、对所述候选集合中不同候选词按照至少一种语言元素的类型拆解,并提取拆解得到各类型的语言元素对应的向量。
在具体实施过程中,可以通过查询向量表对各类型的语言元素提取对应的向量。
可选地,所述语言元素的类型包括如下至少一种:
一元分词unigram、二元分词bigram、三元分词trigram、词语、发音。
S302、将所述各类型的语言元素对应的向量利用LSTM模型进行特征提取。
如图4所示,同一类型的语言元素对应的向量以序列的顺序依次输入所述LSTM模型中进行特征提取。其中,图中字母的上标t代表时刻,embit是t时刻的输入(一个向量),ht-1(向量)是t-1时刻的隐层状态,ct-1是t-1时刻的长期状态(一个向量),yt是t时刻的输出。在t时刻,第i个元素类型的第t个元素对应的向量embit输入到所述LSTM模型中,首先会计算遗忘门ft(一个向量):
ft=σg(Wfembit+Ufht-1+bf)
上式中,Wf是一个矩阵,Wfembit的结果是一个向量,Uf同样是一个矩阵,Ufht-1是一个向量,bf则是一个向量。σg是一个激活函数。
之后类似的,计算输入门和输出门(均为一个向量):
it=σg(Wiembit+Uiht-1+bi)
ot=σg(Woembit+Uoht-1+bo)
最后根据这些门控向量以及上一个时刻的状态ht-1,ct-1,以及当前时刻的输入embit,计算当前时刻的状态。
ct=ft·ct-1+it·σc(Wcembit+Ucht-1+bc)
ht=ot·σh(ct)
LSTM模型在最后一个时刻的输出,经过一层全连接神经网络之后即可作为这个类型元素的表征向量embi:
embi=σ(Wht+b)
S303、将提取特征后得到各类型的语言元素对应的向量合并,得到所述候选词的表征向量。
其中,所述LSTM模型通过输入样本中有正确纠错关系的候选词,以输出对应的向量合并得到的表征向量与样本中搜索词的表征向量的相似度符合设定要求为目标进行训练。
以音乐搜索服务为例,如图5所示,所述候选词为歌词“长亭外,古道边”,在所述步骤S301中,从一元分词unigram、二元分词bigram、词语、发音4种语言元素的类型拆解,并提取得到一元分词unigram对应的6个向量,二元分词bigram对应的5个向量,词语对应的4个向量,发音对应的6个向量。在所述步骤S302中,分别将一元分词unigram对应的6个向量作为序列输入所述LSTM模型中进行特征提取得到1个向量,将二元分词bigram对应的5个向量作为序列输入所述LSTM模型中进行特征提取得到1个向量,将词语对应的4个向量作为序列输入所述LSTM模型中进行特征提取得到1个向量,将发音对应的6个向量作为序列输入所述LSTM模型中进行特征提取得到1个向量。在所述步骤S303中,将分别利用LSTM模型进行特征提取得到的4个向量进行合并,得到所述候选词的1个表征向量。所述候选词为歌词“古道西风瘦马”同理,故不再赘述。
如图6所示,所述对所述搜索词进行特征提取,包括:
S601、将所述搜索词按照至少一种语言元素的类型拆解,并提取拆解得到各类型的语言元素对应的向量。
在具体实施过程中,可以通过查询向量表对各类型的语言元素提取对应的向量。
S602、将所述各类型的语言元素对应的向量合并得到所述搜索词的表征向量。
在具体实施过程中,所述步骤S301与所述步骤S601中进行语言元素拆解时,所述搜索词拆解的语言元素的类型与所述候选词的语言元素的类型应当相同。例如在执行所述步骤S301时,对不同的候选词从发音和词语两种语言元素的类型进行拆解,那么在执行所述步骤S601时,对所述搜索词也应当从发音和词语两种语言元素的类型进行拆解。
进一步地,所述步骤S602、将所述各类型的语言元素对应的向量合并得到所述搜索词的表征向量,具体包括:
将同类型的语言元素对应的向量,合并为该类型的语言元素对应的子向量;
将不同类型的语言元素的子向量合并,得到所述搜索词的表征向量。
例如,对于音乐搜索服务,如图5所示,对于一个歌词搜索词“长城外,古道边”,从一元分词unigram、二元分词bigram、词语、发音四个类型进行拆解并提取向量,将分别得到一元分词unigram对应的6个向量、二元分词bigram对应的5个向量、词语对应的4个向量、发音对应的6个向量。那么先对同类型的语言元素对应的向量合并得到对应的4个子向量,再对4个类型的子向量进行合并得到所述搜索词的1个表征向量。
由于搜索词的特征向量与有正确纠错关系的候选词的直接提取的向量之间的相似度可能并不高,因此需要利用LSTM模型对候选词的直接提取的向量进行编码与进一步地特征提取,以提取得到与对应的搜索词更为相似的向量。例如,在音乐搜索服务中,错误的搜索词“北朵分”的语言维度的向量与具有正确纠错关系的候选词“贝多芬”直接提取的语言维度的向量相似度差异较大,通过使用LSTM模型进行向量编码和向量提取后,能够得到与错误的搜索词“北朵分”更为相似的向量,以能够成功将该候选词进行召回。
这样,通过LSTM模型对候选词的不同语言元素的类型对应原始的向量进行特征提取,能够根据同一类型的语言元素的上下文顺序提取出向量,从而将不同类型的向量合并得到的表征向量与搜索词的表征向量之间的相似度更高,从而提高搜索词召回率和纠正准确率。
相应地,如图7所示,本申请中使用的所述LSTM模型通过如下方式训练得到:
S700、判断是否完成训练。
若所述步骤S700的结果为否,执行所述步骤S711和/或所述步骤S721;
若所述步骤S700的结果为是,结束本次训练。
S711、获取正例样本,所述正例样本包括搜索词和正确纠错词。
S712、将所述正例样本中的搜索词、正确纠错词分别按照至少一种语言元素的类型拆解,并提取拆解得到的各类型语言元素对应的向量。
S713、将针对搜索词提取的向量合并得到所述搜索词的表征向量。
S714、将针对所述正确纠错词提取的各类型的语言元素对应的向量输入LSTM模型,根据所述LSTM模型的输出得到该类型的语言元素对应的向量,将各类型的语言元素对应的向量合并,得到所述正确纠错词的表征向量。
S715、根据正确纠错词的表征向量与所述搜索词的表征向量的相似度得到损失函数值,根据所述损失函数值调整所述LSTM模型的参数。返回所述步骤S700。
其中,所述正确纠错词的表征向量与所述搜索词的表征向量的相似度越高,所述损失函数值越小。
S721、获取负例样本,所述负例样本包括搜索词和错误纠错词。
S722、将所述负例样本中的搜索词、错误纠错词分别按照至少一种语言元素的类型拆解,并提取拆解得到的各类型语言元素对应的向量。
S723、将针对搜索词提取的向量合并得到所述搜索词的表征向量。
S724、将针对所述错误纠错词提取的各类型的语言元素对应的向量输入所述LSTM模型,根据所述LSTM模型的输出得到该类型的语言元素对应的向量,将各类型的语言元素对应的向量合并,得到所述错误纠错词的表征向量。
S725、根据错误纠错词的表征向量与所述搜索词的表征向量的相似度得到损失函数值,根据所述损失函数值调整所述LSTM模型的参数。返回所述步骤S700。
其中,所述错误纠错词的表征向量与所述搜索词的表征向量的相似度越高,所述损失函数值越大。
在具体实施过程中,所述损失函数可以为0-1损失函数、绝对值损失函数、指数损失函数、平方损失函数、Hinge损失函数、交叉熵损失函数等。
在具体实施过程中,所述正例样本中的搜索词和正确纠错词可以从已有的搜索操作记录中获取,而所述负例样本中的错误纠错词可以从所述候选集合中随机选取一个候选词作为所述错误纠错词。在同时使用正例样本和负例样本对所述LSTM模型进行训练时,可以为每个进行训练的搜索词确定一个正确纠错词组成对应的正例样本,并对同一个所述的搜索词确定一个错误搜索词组成对应的负例样本。
作为一种可选的实施方式,可以以30个训练批次训练所述LSTM模型,每批次包括128个训练样本。对于各训练样本,设置所述LSTM模型提取向量的序列长度为10(即,对于同一类型的元素对应的向量作为序列输入所述LSTM模型时,将不足10个向量的输入序列使用0向量补齐至10个向量,将超出10个向量的输入序列舍弃第10个向量之后的向量)。并设置各个元素对应的向量维度为64维,向量表维度为50000,学习率为1×10-3,Dropout中的保留比例为0.8,所述LSTM模型的评价指标为准确率ACC、受试者工作特征曲线下围面积(AreaUnder Receiver Operating Characteristic Curve,ROC-AUC)、F1。
作为一种可选的实施方式,所述LSTM模型的损失函数为交叉熵损失函数,具体为:
其中,M为训练的样本的种类的数量(在本申请中,当仅使用正例样本或仅使用负例样本进行训练时为1,同时使用正例样本和负例样本进行训练时为2),yic为指示变量(即当预测的类别和训练样本类别相同就是1,否则为0),pic为判断样本属于某类别的预测概率(例如,在本申请中,如果同时使用正例样本和负例样本进行训练,那么Pic包括预测训练样本属于正例样本的概率和预测训练样本属于负例样本的概率)。
在模型训练到损失函数值稳定时,得到LSTM模型的评价指标ACC=0.9386,ROC-AUC=0.9345,加权平均F1(F1 weighted)=0.95,宏平均F1(F1 macro)=0.93。
进一步地,如图8所示,所述步骤S202、根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合,包括:
S801、利用向量检索引擎,确定所述搜索词的表征向量与所述不同候选词的表征向量的余弦相似度。
余弦相似度的计算公式如下:
其中,cos为余弦相似度,embcan为所述候选词的表征向量,embq为所述搜索词的表征向量。
在具体实施过程中,向量检索引擎可以为临近算法(K-Nearest Neighbor,KNN)或近似临近算法(Approximate Nearest Neighbor,ANN)等,具体可以为FAISS、SPTAG、Milvus等向量检索引擎。
S802、按照对应的所述余弦相似度的排序,从所述候选集合中召回预设数量的候选词,得到所述第一候选词集合。
例如,将各候选词对应的余弦相似度按照由大至小的顺序排序,从最大的余弦相似度开始召回预设数量的候选词,得到所述第一候选词集合。
这样,通过使用向量检索引擎,可以较快地完成搜索。
方案2:
所述确定候选集合中不同候选词的特征,包括:
对所述候选集合中不同候选词按照至少一种语言元素的类型拆解,得到与各所述候选词对应的各类型的语言元素;
所述对所述搜索词进行语言特征提取,包括:
将所述搜索词按照至少一种语言元素的类型进行拆解,得到与所述搜索词词对应的各类型的语言元素。
可选地,所述语言元素的类型包括如下至少一种:
一元分词unigram、二元分词bigram、三元分词trigram、词语、发音。
方案2与方案1相比,直接将拆解得到的语言元素作为所述候选词或所述搜索词的特征,不再将拆解得到的语言元素转化为表征向量。在具体实施过程中,对所述候选词或所述搜索词的语言元素的类型拆解与方案1基本一致,故可以参见上文的实施方式,此处不再赘述。
这样,通过直接使用拆解得到的语言元素作为特征,不再需要使用LSTM模型进行特征提取,简化了技术方案。
进一步地,如图9所示,所述步骤S202、所述根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合,包括:
S901、利用倒排索引算法,确定所述搜索词对应的各类型的语言元素与各所述候选词对应的各类型的语言元素的相似度;
S902、按照对应的所述相似度的排序,从所述候选集合中召回预设数量的候选词,得到所述第一候选词集合。
与向量搜索引擎相比,倒排索引算法的技术方案较为简单。
可选地,所述过滤条件包括如下至少一种:
(1)所述搜索词与候选词的字符编辑距离大于预设字符编辑距离阈值。
(2)所述搜索词的搜索操作参数与候选词的搜索操作参数的差异符合设定要求。
其中,所述搜索词的搜索操作参数为根据用户对所述搜索词的历史操作确定的参数,所述候选词搜索操作参数为根据用户对所述候选词的历史操作确定的参数。
可选地,所述搜索操作参数包括如下至少一种:
①搜索场景:
例如,对于音乐搜索服务,当所述搜索词为一个与音乐无关的词语时,但通过上文所述的方案召回后得到的第一候选词集合中的其中一个相似度较高的候选词是某知名歌手的名字,那么根据搜索场景可以确定该候选词符合设定要求。
②搜索次数:
在实际实施过程中,用户输入的大部分搜索词都是正确的,输入错误的搜索词所占比例较小。那么,如果搜索词对应的搜索次数与候选词对应的搜索次数没有出现差距巨大,甚至数量级相当或数值相当时,所述搜索词是正确的搜索词的可能性较高。
③搜索推荐值:
在实施实施过程中,用户搜索的内容也是在不断变化的。如果搜索服务中出现全新的搜索结果,且对应的搜索词与其中一个候选词相似度较高。如果单纯考虑搜索次数,有可能该全新的搜索内容由于出现时间较短导致搜索次数较少,从而将所述搜索词认为是错误的搜索词进行纠正。那么,从搜索推荐值的角度可以区分出所述搜索词与相似度较高的候选词之间的差异,从而避免误纠正。
④搜索结果:
以音乐搜索服务为例,由于某些歌手的名字较为相近,因此在用户输入其中某歌手的名字时,可能会召回其他名字相似的歌手。那么可以根据搜索结果确定所述搜索词对应的一个歌手,判断用户输入的搜索词是正确的可能性较高,将名字相似的歌手从所述第一候选集合中过滤掉,以避免误纠正。
这样,从语言元素对应的特征之外的维度对所述第一候选集合中的候选词进行过滤,可以过滤掉一些在字面含义上与搜索词较为相近,但实质语义上并不相近的候选词,以避免使用不合适的候选词对搜索词进行纠正。
可选地,如图10所示,所述步骤S204、对所述第二候选词集合中的候选词进行评分,包括:
S1001、根据所有所述搜索词的特征及所述第二候选词集合中的候选词的特征,及所述两者的交叉特征输入到评分模型。
S1002、利用所述评分模型预测所述候选词的评分。
其中,所述评分模型通过输入样本中存在特征差异的搜索词的特征、候选词的特征及对应的交叉特征,以输出与特征差异程度相对应的评分为目标进行训练。
可选地,输入到所述评分模型的所述搜索词的特征根据所述搜索词的搜索操作参数确定,输入到所述评分模型的所述候选词的特征根据所述候选词的搜索操作参数确定;
所述搜索词的搜索操作参数为根据用户对所述搜索词的历史操作确定的参数,所述候选词的搜索操作参数为根据用户对所述候选词的历史操作确定的参数。可选地,所述搜索操作参数包括如下至少一种:搜索场景、搜索次数、搜索推荐值、搜索结果。
在所述步骤S203中只是对所述第一候选集合中的候选词进行粗略的过滤,需要通过所述步骤S204语言元素对应的特征之外的维度综合考虑所述搜索词与所述候选词存在纠错关系的可能性。
例如,输入到所述评分模型的所述搜索词的特征、输入到所述评分模型的所述候选词的特征为搜索次数,那么对应的交叉特征可以为用户输入所述搜索词进行搜索之后,再次输入所述候选词进行搜索的次数。这样,所述交叉特征也可以为判断所述搜索词与所述候选词之间是否存在纠错关系提供参考依据。
可选地,所述评分模型包括如下任一种:
逻辑斯蒂回归模型、深度学习模型、决策树模型。
作为一种可选的实施方式,逻辑斯蒂回归模型的评分通过如下方式计算:
其中,score为所述评分,X为输入到所述评分模型的所述搜索词的特征、输入到所述评分模型的所述候选词的特征、对应的交叉特征之和得到的矩阵,W为系数矩阵,且与X为同型矩阵。
示例性设备
在介绍了本申请示例性实施方式的方法之后,接下来对本申请示例性实施方式的搜索词纠正装置等进行介绍。
如图11所示,为本申请实施例提供的搜索词纠正装置1100的结构示意图。在一个实施例中,所述搜索词纠正装置1100包括:特征提取单元1101、召回单元1102、过滤单元1103、评分单元1104和纠错单元1105。
所述特征提取单元1101,用于获取输入的搜索词,对所述搜索词进行特征提取,并确定候选集合中不同候选词的特征;
所述召回单元1102,用于根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合;
所述过滤单元1103,用于过滤掉所述第一候选词集合中符合过滤条件的候选词,得到第二候选词集合;
所述评分单元1104,用于对所述第二候选词集合中的候选词进行评分;
所述纠错单元1105,用于根据评分结果,确定评分满足要求的候选词为纠错词,并利用所述纠错词纠正所述搜索词。
可选地,所述确定候选集合中不同候选词的特征,包括:
对所述候选集合中不同候选词按照至少一种语言元素的类型拆解,并提取拆解得到各类型的语言元素对应的向量;
将所述各类型的语言元素对应的向量利用长短期记忆人工神经网络LSTM模型进行特征提取;
将提取特征后得到各类型的语言元素对应的向量合并,得到所述候选词的表征向量;
其中,所述LSTM模型通过输入样本中有正确纠错关系的候选词,以输出对应的向量合并得到的表征向量与样本中搜索词的表征向量的相似度符合设定要求为目标进行训练;
所述对所述搜索词进行特征提取,包括:
将所述搜索词按照至少一种语言元素的类型拆解,并提取拆解得到各类型的语言元素对应的向量;
将所述各类型的语言元素对应的向量合并得到所述搜索词的表征向量。
可选地,所述将所述各类型的语言元素对应的向量合并得到所述搜索词的表征向量,具体包括:
将同类型的语言元素对应的向量,合并为该类型的语言元素对应的子向量;
将不同类型的语言元素的子向量合并,得到所述搜索词的表征向量。
可选地,所述LSTM模型通过如下方式训练得到:
获取正例样本,所述正例样本包括搜索词和正确纠错词;
将所述正例样本中的搜索词、正确纠错词分别按照至少一种语言元素的类型拆解,并提取拆解得到的各类型语言元素对应的向量;
将针对搜索词提取的向量合并得到所述搜索词的表征向量;
将针对所述正确纠错词提取的各类型的语言元素对应的向量输入LSTM模型,根据所述LSTM模型的输出得到该类型的语言元素对应的向量,将各类型的语言元素对应的向量合并,得到所述正确纠错词的表征向量;
根据正确纠错词的表征向量与所述搜索词的表征向量的相似度得到损失函数值,根据所述损失函数值调整所述LSTM模型的参数;
其中,所述正确纠错词的表征向量与所述搜索词的表征向量的相似度越高,所述损失函数值越小。
可选地,所述LSTM模型通过如下方式训练得到:
获取负例样本,所述负例样本包括搜索词和错误纠错词;
将所述负例样本中的搜索词、错误纠错词分别按照至少一种语言元素的类型拆解,并提取拆解得到的各类型语言元素对应的向量;
将针对搜索词提取的向量合并得到所述搜索词的表征向量;
将针对所述错误纠错词提取的各类型的语言元素对应的向量输入所述LSTM模型,根据所述LSTM模型的输出得到该类型的语言元素对应的向量,将各类型的语言元素对应的向量合并,得到所述错误纠错词的表征向量;
根据错误纠错词的表征向量与所述搜索词的表征向量的相似度得到损失函数值,根据所述损失函数值调整所述LSTM模型的参数;
其中,所述错误纠错词的表征向量与所述搜索词的表征向量的相似度越高,所述损失函数值越大。
可选地,所述根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合,包括:
利用向量检索引擎,确定所述搜索词的表征向量与所述不同候选词的表征向量的余弦相似度;
按照对应的所述余弦相似度的排序,从所述候选集合中召回预设数量的候选词,得到所述第一候选词集合。
可选地,所述对所述搜索词进行特征提取,包括:
将所述搜索词按照至少一种语言元素的类型进行拆解,得到与所述搜索词词对应的各类型的语言元素;
所述确定候选集合中不同候选词的特征,包括:
对所述候选集合中不同候选词按照至少一种语言元素的类型拆解,得到与各所述候选词对应的各类型的语言元素。
可选地,所述根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合,包括:
利用倒排索引算法,确定所述搜索词对应的各类型的语言元素与各所述候选词对应的各类型的语言元素的相似度;
按照对应的所述相似度的排序,从所述候选集合中召回预设数量的候选词,得到所述第一候选词集合。
可选地,所述过滤条件包括如下至少一种:
所述搜索词与候选词的字符编辑距离大于预设字符编辑距离阈值;
所述搜索词的搜索操作参数与候选词的搜索操作参数的差异符合设定要求,所述搜索词的搜索操作参数为根据用户对所述搜索词的历史操作确定的参数,所述候选词搜索操作参数为根据用户对所述候选词的历史操作确定的参数。
可选地,所述语言元素的类型包括如下至少一种:
一元分词unigram、二元分词bigram、三元分词trigram、词语、发音。
可选地,所述对所述第二候选词集合中的候选词进行评分,包括:
根据所有所述搜索词的特征及所述第二候选词集合中的候选词的特征,及所述两者的交叉特征输入到评分模型;
利用所述评分模型预测所述候选词的评分;
其中,所述评分模型通过输入样本中存在特征差异的搜索词的特征、候选词的特征及对应的交叉特征,以输出与特征差异程度相对应的评分为目标进行训练。
可选地,所述评分模型包括如下任一种:
逻辑斯蒂回归模型、深度学习模型、决策树模型。
可选地,输入到所述评分模型的所述搜索词的特征根据所述搜索词的搜索操作参数确定,输入到所述评分模型的所述候选词的特征根据所述候选词的搜索操作参数确定,所述搜索词的搜索操作参数为根据用户对所述搜索词的历史操作确定的参数,所述候选词的搜索操作参数为根据用户对所述候选词的历史操作确定的参数。
可选地,所述搜索操作参数包括如下至少一种:
搜索场景、搜索次数、搜索推荐值、搜索结果。
本申请实施例提供的搜索词纠正装置,与上述搜索词纠正方法采用了相同的发明构思,能够取得相同的有益效果,在此不再赘述。
基于与上述搜索词纠正方法相同的发明构思,本申请实施例还提供了一种电子设备,该电子设备具体可以为单个物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器等。
下面参照图12来描述所述电子设备1200。图12显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图12所示,所述电子设备1200可以通用计算设备的形式表现,例如其可以为终端设备所述电子设备1200的组件可以包括但不限于:上述至少一个处理单元1210、上述至少一个存储单元1220、连接不同系统组件(包括存储单元1220和处理单元1210)的总线1230。
处理单元1210可以是通用处理器,例如中央处理器(Central Processing Unit,CPU)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
总线1230表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储单元1220可以包括易失性存储器形式的可读介质,例如随机存取存储器(Random Access Memory,RAM)1221和/或高速缓存存储器1222,还可以进一步包括只读存储器(Read-Only Memory,ROM)1223。
存储单元1220还可以包括具有一组(至少一个)程序模块1224的程序/实用工具1225,这样的程序模块1224包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
当程序模块1224被处理单元1210执行时,使得处理单元1210执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的搜索词纠正方法中的各种步骤。
例如,处理单元1210可以执行如图2中所示的搜索词纠正方法,包括:S201、获取输入的搜索词,对所述搜索词进行特征提取,并确定候选集合中不同候选词的特征;S202、根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合;S203、过滤掉所述第一候选词集合中符合过滤条件的候选词,得到第二候选词集合;S204、对所述第二候选词集合中的候选词进行评分;S205、根据评分结果,确定评分满足要求的候选词为纠错词,并利用所述纠错词纠正所述搜索词。
所述电子设备1200也可以与一个或多个外部设备1240(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与所述电子设备1200交互的设备通信,和/或与使得所述电子设备1200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1250进行。并且,所述电子设备1200还可以通过网络适配器1260与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1260通过总线1230与所述电子设备1200的其它模块通信。应当明白,尽管图中未示出,可以结合所述电子设备1200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
示例性程序产品
本申请实施例提供了一种计算机可读存储介质,用于储存上述电子设备所用的计算机程序指令,其包含用于执行本申请任一示例性实施方式中的搜索词纠正的程序。
上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
在一些可能的实施方式中,如图13所示,本申请的各个方面还可以实现为一种计算机程序产品1300,其包括程序代码,当该计算机程序产品在服务器设备上运行时,该计算机程序产品用于使所述服务器设备执行本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的搜索词纠正方法中的步骤,例如,所述服务器设备可以执行如图2中所示的可以执行如图2中所示的搜索词纠正方法,包括:S201、获取输入的搜索词,对所述搜索词进行特征提取,并确定候选集合中不同候选词的特征;S202、根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合;S203、过滤掉所述第一候选词集合中符合过滤条件的候选词,得到第二候选词集合;S204、对所述第二候选词集合中的候选词进行评分;S205、根据评分结果,确定评分满足要求的候选词为纠错词,并利用所述纠错词纠正所述搜索词。
所述计算机程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
根据本申请的实施方式的用于搜索词纠正的计算机程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在服务器设备上运行。然而,本申请的程序产品不限于此,在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本申请的精神和原理,但是应该理解,本申请并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (28)
1.一种搜索词纠正方法,其特征在于,包括:
获取输入的搜索词,对所述搜索词进行特征提取,并确定候选集合中不同候选词的特征;
根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合;
过滤掉所述第一候选词集合中符合过滤条件的候选词,得到第二候选词集合;
对所述第二候选词集合中的候选词进行评分;
根据评分结果,确定评分满足要求的候选词为纠错词,并利用所述纠错词纠正所述搜索词;
所述对所述第二候选词集合中的候选词进行评分,包括:
根据所有所述搜索词的特征及所述第二候选词集合中的候选词的特征,及所述两者的交叉特征输入到评分模型;
利用所述评分模型预测所述候选词的评分;
其中,所述评分模型通过输入样本中存在特征差异的搜索词的特征、候选词的特征及对应的交叉特征,以输出与特征差异程度相对应的评分为目标进行训练。
2.如权利要求1所述的方法,其特征在于,所述确定候选集合中不同候选词的特征,包括:
对所述候选集合中不同候选词按照至少一种语言元素的类型拆解,并提取拆解得到各类型的语言元素对应的向量;
将所述各类型的语言元素对应的向量利用长短期记忆人工神经网络LSTM模型进行特征提取;
将提取特征后得到各类型的语言元素对应的向量合并,得到所述候选词的表征向量;
其中,所述LSTM模型通过输入样本中有正确纠错关系的候选词,以输出对应的向量合并得到的表征向量与样本中搜索词的表征向量的相似度符合设定要求为目标进行训练;
所述对所述搜索词进行特征提取,包括:
将所述搜索词按照至少一种语言元素的类型拆解,并提取拆解得到各类型的语言元素对应的向量;
将所述各类型的语言元素对应的向量合并得到所述搜索词的表征向量。
3.如权利要求2所述的方法,其特征在于,所述将所述各类型的语言元素对应的向量合并得到所述搜索词的表征向量,具体包括:
将同类型的语言元素对应的向量,合并为该类型的语言元素对应的子向量;
将不同类型的语言元素的子向量合并,得到所述搜索词的表征向量。
4.如权利要求2所述的方法,其特征在于,所述LSTM模型通过如下方式训练得到:
获取正例样本,所述正例样本包括搜索词和正确纠错词;
将所述正例样本中的搜索词、正确纠错词分别按照至少一种语言元素的类型拆解,并提取拆解得到的各类型语言元素对应的向量;
将针对搜索词提取的向量合并得到所述搜索词的表征向量;
将针对所述正确纠错词提取的各类型的语言元素对应的向量输入LSTM模型,根据所述LSTM模型的输出得到该类型的语言元素对应的向量,将各类型的语言元素对应的向量合并,得到所述正确纠错词的表征向量;
根据正确纠错词的表征向量与所述搜索词的表征向量的相似度得到损失函数值,根据所述损失函数值调整所述LSTM模型的参数;
其中,所述正确纠错词的表征向量与所述搜索词的表征向量的相似度越高,所述损失函数值越小。
5.如权利要求2所述的方法,其特征在于,所述LSTM模型通过如下方式训练得到:
获取负例样本,所述负例样本包括搜索词和错误纠错词;
将所述负例样本中的搜索词、错误纠错词分别按照至少一种语言元素的类型拆解,并提取拆解得到的各类型语言元素对应的向量;
将针对搜索词提取的向量合并得到所述搜索词的表征向量;
将针对所述错误纠错词提取的各类型的语言元素对应的向量输入所述LSTM模型,根据所述LSTM模型的输出得到该类型的语言元素对应的向量,将各类型的语言元素对应的向量合并,得到所述错误纠错词的表征向量;
根据错误纠错词的表征向量与所述搜索词的表征向量的相似度得到损失函数值,根据所述损失函数值调整所述LSTM模型的参数;
其中,所述错误纠错词的表征向量与所述搜索词的表征向量的相似度越高,所述损失函数值越大。
6.如权利要求2所述的方法,其特征在于,所述根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合,包括:
利用向量检索引擎,确定所述搜索词的表征向量与所述不同候选词的表征向量的余弦相似度;
按照对应的所述余弦相似度的排序,从所述候选集合中召回预设数量的候选词,得到所述第一候选词集合。
7.如权利要求1所述的方法,其特征在于,所述对所述搜索词进行特征提取,包括:
将所述搜索词按照至少一种语言元素的类型进行拆解,得到与所述搜索词对应的各类型的语言元素;
所述确定候选集合中不同候选词的特征,包括:
对所述候选集合中不同候选词按照至少一种语言元素的类型拆解,得到与各所述候选词对应的各类型的语言元素。
8.如权利要求7所述的方法,其特征在于,所述根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合,包括:
利用倒排索引算法,确定所述搜索词对应的各类型的语言元素与各所述候选词对应的各类型的语言元素的相似度;
按照对应的所述相似度的排序,从所述候选集合中召回预设数量的候选词,得到所述第一候选词集合。
9.如权利要求1所述的方法,其特征在于,所述过滤条件包括如下至少一种:
所述搜索词与候选词的字符编辑距离大于预设字符编辑距离阈值;
所述搜索词的搜索操作参数与候选词的搜索操作参数的差异符合设定要求,所述搜索词的搜索操作参数为根据用户对所述搜索词的历史操作确定的参数,所述候选词搜索操作参数为根据用户对所述候选词的历史操作确定的参数。
10.如权利要求2-8任一项所述的方法,其特征在于,所述语言元素的类型包括如下至少一种:
一元分词unigram、二元分词bigram、三元分词trigram、词语、发音。
11.如权利要求1所述的方法,其特征在于,所述评分模型包括如下任一种:
逻辑斯蒂回归模型、深度学习模型、决策树模型。
12.如权利要求1所述的方法,其特征在于,输入到所述评分模型的所述搜索词的特征根据所述搜索词的搜索操作参数确定,输入到所述评分模型的所述候选词的特征根据所述候选词的搜索操作参数确定,所述搜索词的搜索操作参数为根据用户对所述搜索词的历史操作确定的参数,所述候选词的搜索操作参数为根据用户对所述候选词的历史操作确定的参数。
13.如权利要求9或12所述的方法,其特征在于,所述搜索操作参数包括如下至少一种:
搜索场景、搜索次数、搜索推荐值、搜索结果。
14.一种搜索词纠正装置,其特征在于,包括:
特征提取单元,用于获取输入的搜索词,对所述搜索词进行特征提取,并确定候选集合中不同候选词的特征;
召回单元,用于根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合;
过滤单元,用于过滤掉所述第一候选词集合中符合过滤条件的候选词,得到第二候选词集合;
评分单元,用于对所述第二候选词集合中的候选词进行评分;
纠错单元,用于根据评分结果,确定评分满足要求的候选词为纠错词,并利用所述纠错词纠正所述搜索词;
所述对所述第二候选词集合中的候选词进行评分,包括:
根据所有所述搜索词的特征及所述第二候选词集合中的候选词的特征,及所述两者的交叉特征输入到评分模型;
利用所述评分模型预测所述候选词的评分;
其中,所述评分模型通过输入样本中存在特征差异的搜索词的特征、候选词的特征及对应的交叉特征,以输出与特征差异程度相对应的评分为目标进行训练。
15.如权利要求14所述的装置,其特征在于,所述确定候选集合中不同候选词的特征,包括:
对所述候选集合中不同候选词按照至少一种语言元素的类型拆解,并提取拆解得到各类型的语言元素对应的向量;
将所述各类型的语言元素对应的向量利用长短期记忆人工神经网络LSTM模型进行特征提取;
将提取特征后得到各类型的语言元素对应的向量合并,得到所述候选词的表征向量;
其中,所述LSTM模型通过输入样本中有正确纠错关系的候选词,以输出对应的向量合并得到的表征向量与样本中搜索词的表征向量的相似度符合设定要求为目标进行训练;
所述对所述搜索词进行特征提取,包括:
将所述搜索词按照至少一种语言元素的类型拆解,并提取拆解得到各类型的语言元素对应的向量;
将所述各类型的语言元素对应的向量合并得到所述搜索词的表征向量。
16.如权利要求15所述的装置,其特征在于,所述将所述各类型的语言元素对应的向量合并得到所述搜索词的表征向量,具体包括:
将同类型的语言元素对应的向量,合并为该类型的语言元素对应的子向量;
将不同类型的语言元素的子向量合并,得到所述搜索词的表征向量。
17.如权利要求15所述的装置,其特征在于,所述LSTM模型通过如下方式训练得到:
获取正例样本,所述正例样本包括搜索词和正确纠错词;
将所述正例样本中的搜索词、正确纠错词分别按照至少一种语言元素的类型拆解,并提取拆解得到的各类型语言元素对应的向量;
将针对搜索词提取的向量合并得到所述搜索词的表征向量;
将针对所述正确纠错词提取的各类型的语言元素对应的向量输入LSTM模型,根据所述LSTM模型的输出得到该类型的语言元素对应的向量,将各类型的语言元素对应的向量合并,得到所述正确纠错词的表征向量;
根据正确纠错词的表征向量与所述搜索词的表征向量的相似度得到损失函数值,根据所述损失函数值调整所述LSTM模型的参数;
其中,所述正确纠错词的表征向量与所述搜索词的表征向量的相似度越高,所述损失函数值越小。
18.如权利要求17所述的装置,其特征在于,所述LSTM模型通过如下方式训练得到:
获取负例样本,所述负例样本包括搜索词和错误纠错词;
将所述负例样本中的搜索词、错误纠错词分别按照至少一种语言元素的类型拆解,并提取拆解得到的各类型语言元素对应的向量;
将针对搜索词提取的向量合并得到所述搜索词的表征向量;
将针对所述错误纠错词提取的各类型的语言元素对应的向量输入所述LSTM模型,根据所述LSTM模型的输出得到该类型的语言元素对应的向量,将各类型的语言元素对应的向量合并,得到所述错误纠错词的表征向量;
根据错误纠错词的表征向量与所述搜索词的表征向量的相似度得到损失函数值,根据所述损失函数值调整所述LSTM模型的参数;
其中,所述错误纠错词的表征向量与所述搜索词的表征向量的相似度越高,所述损失函数值越大。
19.如权利要求15所述的装置,其特征在于,所述根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合,包括:
利用向量检索引擎,确定所述搜索词的表征向量与所述不同候选词的表征向量的余弦相似度;
按照对应的所述余弦相似度的排序,从所述候选集合中召回预设数量的候选词,得到所述第一候选词集合。
20.如权利要求14所述的装置,其特征在于,所述对所述搜索词进行特征提取,包括:
将所述搜索词按照至少一种语言元素的类型进行拆解,得到与所述搜索词对应的各类型的语言元素;
所述确定候选集合中不同候选词的特征,包括:
对所述候选集合中不同候选词按照至少一种语言元素的类型拆解,得到与各所述候选词对应的各类型的语言元素。
21.如权利要求20所述的装置,其特征在于,所述根据所述搜索词的特征与所述不同候选词的特征的相似度,从所述候选集合中召回相似度符合要求的第一候选词集合,包括:
利用倒排索引算法,确定所述搜索词对应的各类型的语言元素与各所述候选词对应的各类型的语言元素的相似度;
按照对应的所述相似度的排序,从所述候选集合中召回预设数量的候选词,得到所述第一候选词集合。
22.如权利要求14所述的装置,其特征在于,所述过滤条件包括如下至少一种:
所述搜索词与候选词的字符编辑距离大于预设字符编辑距离阈值;
所述搜索词的搜索操作参数与候选词的搜索操作参数的差异符合设定要求,所述搜索词的搜索操作参数为根据用户对所述搜索词的历史操作确定的参数,所述候选词搜索操作参数为根据用户对所述候选词的历史操作确定的参数。
23.如权利要求15-21任一项所述的装置,其特征在于,所述语言元素的类型包括如下至少一种:
一元分词unigram、二元分词bigram、三元分词trigram、词语、发音。
24.如权利要求14所述的装置,其特征在于,所述评分模型包括如下任一种:
逻辑斯蒂回归模型、深度学习模型、决策树模型。
25.如权利要求14所述的装置,其特征在于,输入到所述评分模型的所述搜索词的特征根据所述搜索词的搜索操作参数确定,输入到所述评分模型的所述候选词的特征根据所述候选词的搜索操作参数确定,所述搜索词的搜索操作参数为根据用户对所述搜索词的历史操作确定的参数,所述候选词的搜索操作参数为根据用户对所述候选词的历史操作确定的参数。
26.如权利要求22或25所述的装置,其特征在于,所述搜索操作参数包括如下至少一种:
搜索场景、搜索次数、搜索推荐值、搜索结果。
27.一种电子设备,其特征在于,包括:处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1-13任一项所述的搜索词纠正方法。
28.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被用于实现如权利要求1-13任一项所述的搜索词纠正方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110798742.3A CN113553398B (zh) | 2021-07-15 | 2021-07-15 | 搜索词纠正方法、装置、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110798742.3A CN113553398B (zh) | 2021-07-15 | 2021-07-15 | 搜索词纠正方法、装置、电子设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113553398A CN113553398A (zh) | 2021-10-26 |
CN113553398B true CN113553398B (zh) | 2024-01-26 |
Family
ID=78103163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110798742.3A Active CN113553398B (zh) | 2021-07-15 | 2021-07-15 | 搜索词纠正方法、装置、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113553398B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116112434B (zh) * | 2023-04-12 | 2023-06-09 | 深圳市网联天下科技有限公司 | 一种路由器数据智能缓存方法及系统 |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080039009A (ko) * | 2006-10-31 | 2008-05-07 | 포항공과대학교 산학협력단 | 음절 엔-그램을 이용한 띄어쓰기 및 철자 오류 동시 교정 장치 |
CN106202153A (zh) * | 2016-06-21 | 2016-12-07 | 广州智索信息科技有限公司 | 一种es搜索引擎的拼写纠错方法及系统 |
CN106708893A (zh) * | 2015-11-17 | 2017-05-24 | 华为技术有限公司 | 搜索查询词纠错方法和装置 |
CN106960001A (zh) * | 2017-02-08 | 2017-07-18 | 北京师范大学 | 一种检索词的实体链接方法及系统 |
CN107491518A (zh) * | 2017-08-15 | 2017-12-19 | 北京百度网讯科技有限公司 | 一种搜索召回方法和装置、服务器、存储介质 |
CN107729351A (zh) * | 2017-08-29 | 2018-02-23 | 天翼爱音乐文化科技有限公司 | 基于音乐搜索引擎的多层查询纠正方法及系统 |
CN107958039A (zh) * | 2017-11-21 | 2018-04-24 | 北京百度网讯科技有限公司 | 一种检索词纠错方法、装置及服务器 |
WO2018120889A1 (zh) * | 2016-12-28 | 2018-07-05 | 平安科技(深圳)有限公司 | 输入语句的纠错方法、装置、电子设备及介质 |
CN108763332A (zh) * | 2018-05-10 | 2018-11-06 | 北京奇艺世纪科技有限公司 | 一种搜索提示词的生成方法和装置 |
CN109828981A (zh) * | 2017-11-22 | 2019-05-31 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及计算设备 |
CN109918485A (zh) * | 2019-01-07 | 2019-06-21 | 口碑(上海)信息技术有限公司 | 语音识别菜品的方法及装置、存储介质、电子装置 |
CN110046350A (zh) * | 2019-04-12 | 2019-07-23 | 百度在线网络技术(北京)有限公司 | 文法错误识别方法、装置、计算机设备及存储介质 |
US10402490B1 (en) * | 2015-08-14 | 2019-09-03 | Shutterstock, Inc. | Edit distance based spellcheck |
CN110795617A (zh) * | 2019-08-12 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种搜索词的纠错方法及相关装置 |
CN111310440A (zh) * | 2018-11-27 | 2020-06-19 | 阿里巴巴集团控股有限公司 | 文本的纠错方法、装置和系统 |
CN111488426A (zh) * | 2020-04-17 | 2020-08-04 | 支付宝(杭州)信息技术有限公司 | 一种查询意图确定方法、装置及处理设备 |
CN111666417A (zh) * | 2020-04-13 | 2020-09-15 | 百度在线网络技术(北京)有限公司 | 生成同义词的方法、装置、电子设备以及可读存储介质 |
CN111950254A (zh) * | 2020-09-22 | 2020-11-17 | 北京百度网讯科技有限公司 | 搜索样本的词特征提取方法、装置、设备以及存储介质 |
CN112115232A (zh) * | 2020-09-24 | 2020-12-22 | 腾讯科技(深圳)有限公司 | 一种数据纠错方法、装置及服务器 |
CN112182353A (zh) * | 2020-12-01 | 2021-01-05 | 震坤行网络技术(南京)有限公司 | 用于信息搜索的方法、电子设备和存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7856598B2 (en) * | 2006-07-06 | 2010-12-21 | Oracle International Corp. | Spelling correction with liaoalphagrams and inverted index |
KR101648961B1 (ko) * | 2014-09-19 | 2016-08-18 | 네이버 주식회사 | 검색 질의 내 지식 오류 교정 방법 및 시스템 |
-
2021
- 2021-07-15 CN CN202110798742.3A patent/CN113553398B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080039009A (ko) * | 2006-10-31 | 2008-05-07 | 포항공과대학교 산학협력단 | 음절 엔-그램을 이용한 띄어쓰기 및 철자 오류 동시 교정 장치 |
US10402490B1 (en) * | 2015-08-14 | 2019-09-03 | Shutterstock, Inc. | Edit distance based spellcheck |
CN106708893A (zh) * | 2015-11-17 | 2017-05-24 | 华为技术有限公司 | 搜索查询词纠错方法和装置 |
CN106202153A (zh) * | 2016-06-21 | 2016-12-07 | 广州智索信息科技有限公司 | 一种es搜索引擎的拼写纠错方法及系统 |
WO2018120889A1 (zh) * | 2016-12-28 | 2018-07-05 | 平安科技(深圳)有限公司 | 输入语句的纠错方法、装置、电子设备及介质 |
CN106960001A (zh) * | 2017-02-08 | 2017-07-18 | 北京师范大学 | 一种检索词的实体链接方法及系统 |
CN107491518A (zh) * | 2017-08-15 | 2017-12-19 | 北京百度网讯科技有限公司 | 一种搜索召回方法和装置、服务器、存储介质 |
CN107729351A (zh) * | 2017-08-29 | 2018-02-23 | 天翼爱音乐文化科技有限公司 | 基于音乐搜索引擎的多层查询纠正方法及系统 |
CN107958039A (zh) * | 2017-11-21 | 2018-04-24 | 北京百度网讯科技有限公司 | 一种检索词纠错方法、装置及服务器 |
CN109828981A (zh) * | 2017-11-22 | 2019-05-31 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及计算设备 |
CN108763332A (zh) * | 2018-05-10 | 2018-11-06 | 北京奇艺世纪科技有限公司 | 一种搜索提示词的生成方法和装置 |
CN111310440A (zh) * | 2018-11-27 | 2020-06-19 | 阿里巴巴集团控股有限公司 | 文本的纠错方法、装置和系统 |
CN109918485A (zh) * | 2019-01-07 | 2019-06-21 | 口碑(上海)信息技术有限公司 | 语音识别菜品的方法及装置、存储介质、电子装置 |
CN110046350A (zh) * | 2019-04-12 | 2019-07-23 | 百度在线网络技术(北京)有限公司 | 文法错误识别方法、装置、计算机设备及存储介质 |
CN110795617A (zh) * | 2019-08-12 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 一种搜索词的纠错方法及相关装置 |
CN111666417A (zh) * | 2020-04-13 | 2020-09-15 | 百度在线网络技术(北京)有限公司 | 生成同义词的方法、装置、电子设备以及可读存储介质 |
CN111488426A (zh) * | 2020-04-17 | 2020-08-04 | 支付宝(杭州)信息技术有限公司 | 一种查询意图确定方法、装置及处理设备 |
CN111950254A (zh) * | 2020-09-22 | 2020-11-17 | 北京百度网讯科技有限公司 | 搜索样本的词特征提取方法、装置、设备以及存储介质 |
CN112115232A (zh) * | 2020-09-24 | 2020-12-22 | 腾讯科技(深圳)有限公司 | 一种数据纠错方法、装置及服务器 |
CN112182353A (zh) * | 2020-12-01 | 2021-01-05 | 震坤行网络技术(南京)有限公司 | 用于信息搜索的方法、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113553398A (zh) | 2021-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11468233B2 (en) | Intention identification method, intention identification apparatus, and computer-readable recording medium | |
EP3724785B1 (en) | Fast indexing with graphs and compact regression codes on online social networks | |
US11341419B2 (en) | Method of and system for generating a prediction model and determining an accuracy of a prediction model | |
CN111488426B (zh) | 一种查询意图确定方法、装置及处理设备 | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN108304373B (zh) | 语义词典的构建方法、装置、存储介质和电子装置 | |
CN110362824B (zh) | 一种自动纠错的方法、装置、终端设备及存储介质 | |
CN111985228B (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
JP2009535732A (ja) | ローカルなワードホイーリング/Webサーチのための人口統計に基づく分類 | |
WO2020232898A1 (zh) | 文本分类方法、装置、电子设备及计算机非易失性可读存储介质 | |
CN109033066B (zh) | 一种摘要形成方法及装置 | |
CN111382260A (zh) | 一种检索文本纠错方法、装置和存储介质 | |
CN111859967B (zh) | 实体识别方法、装置,电子设备 | |
WO2016095645A1 (zh) | 笔画输入方法、装置和系统 | |
CN111324771A (zh) | 视频标签的确定方法、装置、电子设备及存储介质 | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
CN113806482A (zh) | 视频文本跨模态检索方法、装置、存储介质和设备 | |
JP2020512651A (ja) | 検索方法、装置及び非一時的コンピュータ読取可能記憶媒体 | |
CN110727769B (zh) | 语料库生成方法及装置、人机交互处理方法及装置 | |
JP2023536103A (ja) | 制御可能なテキスト要約化のためのシステムおよび方法 | |
WO2023130951A1 (zh) | 语音断句方法、装置、电子设备及存储介质 | |
CN113553398B (zh) | 搜索词纠正方法、装置、电子设备及计算机存储介质 | |
CN111859079B (zh) | 信息搜索方法、装置、计算机设备及存储介质 | |
US20230096070A1 (en) | Natural-language processing across multiple languages | |
CN113535883A (zh) | 商业场所实体链接方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |