CN108446316A - 联想词的推荐方法、装置、电子设备及存储介质 - Google Patents
联想词的推荐方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN108446316A CN108446316A CN201810122954.8A CN201810122954A CN108446316A CN 108446316 A CN108446316 A CN 108446316A CN 201810122954 A CN201810122954 A CN 201810122954A CN 108446316 A CN108446316 A CN 108446316A
- Authority
- CN
- China
- Prior art keywords
- data directory
- recalled
- phonetic
- target text
- associational word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明实施例提供了联想词的推荐方法、装置、电子设备及存储介质,该方法包括:基于兴趣点文本内容建立多个数据索引,所述兴趣点文本内容包括地标名、商号和/或商品名;检测在客户端输入的搜索关键词;在所述多个数据索引中召回所述搜索关键词对应的联想词;将所述联想词返回所述客户端进行展示。通过提出新的构建数据索引的方式,在不同的维度构建不同的数据索引,能够对字体编码混合输入等多种情况进行正确召回,提高了召回的准确率。
Description
技术领域
本发明涉及计算机处理的技术领域,特别是涉及一种基于搜索的联想词的推荐方法、一种基于搜索的联想词的推荐装置、一种电子设备和一种计算机可读存储介质。
背景技术
随着网络的迅速发展,网络信息急剧增加,用户为了在海量的网络信息中寻找所需的网络信息,通常在各网站中使用搜索关键词进行搜索。
各网站接收到用户输入的搜索关键词,通常会对该搜索关键词进行联想,推荐相关的联想词给用户。
目前,联想词主要采用Lucene、Solor、ES模块等现有的框架生成,但是,此方法针对特定场景和需求,在汉字和拼音混合输入的召回场景下,召回的准确率较低,召回的结果较少。
发明内容
本发明实施例提出了联想词的推荐方法、装置、电子设备及存储介质,以解决召回的准确率较低,召回的结果较少的问题。
依据本发明的一个方面,提供了一种基于搜索的联想词的推荐方法,包括:
基于兴趣点文本内容建立多个数据索引,所述兴趣点文本内容包括地标名、商号和/或商品名;
检测在客户端输入的搜索关键词;
在所述多个数据索引中召回所述搜索关键词对应的联想词;
将所述联想词返回所述客户端进行展示。
可选地,所述基于兴趣点文本内容建立多个数据索引的步骤包括:
将兴趣点文本内容重组为一个或多个目标文本;
查询所述目标文本的拼音和所述拼音的首字母;
采用所述目标文本、所述拼音和所述首字母生成结构为有限状态转移机的数据索引。
可选地,所述将兴趣点文本内容重组为一个或多个目标文本的步骤包括:
对兴趣点文本内容进行分词,获得样本分词;
对排序最后的一个或多个样本分词进行组合,获得一个或多个目标文本。
可选地,有限状态转移机包括多个节点,所述节点表示状态;
所述采用所述目标文本、所述拼音和所述首字母生成结构为有限状态转移机的数据索引的步骤包括:
将所述目标文本排序最前的一个或多个状态设置为并列的汉字、拼音和首字母;
对所述目标文本的状态进行组合,生成结构为有限状态转移机的混编数据索引;
按照所述拼音的状态生成结构为有限状态转移机的拼音数据索引;
按照所述首字母的状态生成结构为有限状态转移机的首字母数据索引。
可选地,所述数据索引包括混编数据索引、拼音数据索引、首字母数据索引;
所述在所述多个数据索引中召回所述搜索关键词对应的联想词的步骤包括:
判断所述搜索关键词是否包含汉字;
若是,则依次在所述混编数据索引和所述拼音数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词;
若否,则依次在所述拼音数据索引和所述首字母数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词。
可选地,所述依次在所述混编数据索引和所述拼音数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词的步骤包括:
确定当前次召回的第一目标索引,所述第一目标索引在奇数次召回时为所述混编数据索引、在偶数次召回时为所述拼音数据索引;
在所述第一目标索引中查找与所述搜索关键词匹配的目标文本;
判断是否满足预设的召回条件,所述召回条件包括所述目标文本的数量超过预设的数量阈值,或者,召回的次数超过预设的次数阈值;
若是,则输出召回的目标文本;
若否,则在奇数次召回时、将所述搜索关键词转换为拼音,在偶数次召回时、对所述搜索关键词进行纠错处理,返回执行所述确定当前次召回的第一目标索引的步骤。
可选地,所述依次在所述拼音数据索引和所述首字母数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词的步骤包括:
确定当前次召回的第二目标索引,所述第二目标索引在奇数次召回时为所述拼音数据索引、在偶数次召回时为所述首字母数据索引;
在所述第二目标索引中查找与所述搜索关键词匹配的目标文本;
判断是否满足预设的召回条件,所述召回条件包括所述目标文本的数量超过预设的数量阈值,或者,召回的次数超过预设的次数阈值;
若是,则输出召回的目标文本;
若否,则在奇数次召回时、从所述搜索关键词中提取首字母,在偶数次召回时、对所述搜索关键词进行纠错处理,返回执行所述确定当前次召回的第一目标索引的步骤。
可选地,所述将所述联想词返回所述客户端进行展示的步骤包括:
获取所述联想词的特征信息;
将所述联想词的特征信息输入预置的点击期望模型,获得所述目标文本的评分信息;
按照所述评分信息对所述联想词进行排序;
将排序后的联想词返回所述客户端进行展示。
可选地,所述点击期望模型通过如下方式训练:
对所述数据索引中的目标文本标注是否点击;
获取所述目标文本的特征信息;
关联标注之后的目标文本与所述目标文本的特征信息,作为训练集;
采用所述训练集训练点击期望模型。
根据本发明的另一方面,提供了一种基于搜索的联想词的推荐装置,包括:
数据索引建立模块,用于基于兴趣点文本内容的编码信息建立多个数据索引,所述兴趣点文本内容包括地标名、商号和/或商品名;
搜索关键词检测模块,用于检测在客户端输入的搜索关键词;
联想词召回模块,用于在所述多个数据索引中召回所述搜索关键词对应的联想词;
联想词返回模块,用于将所述联想词返回所述客户端进行展示。
可选地,所述数据索引建立模块包括:
目标文本重组子模块,用于将兴趣点文本内容重组为一个或多个目标文本;
拼音信息查询子模块,用于查询所述目标文本的拼音和所述拼音的首字母;
有限状态转移机生成子模块,用于采用所述目标文本、所述拼音和所述首字母生成结构为有限状态转移机的数据索引。
可选地,所述目标文本重组子模块包括:
分词单元,用于对兴趣点文本内容进行分词,获得样本分词;
组合单元,用于对排序最后的一个或多个样本分词进行组合,获得一个或多个目标文本。
可选地,有限状态转移机包括多个节点,所述节点表示状态;
所述有限状态转移机生成子模块包括:
状态设置单元,用于将所述目标文本排序最前的一个或多个状态设置为并列的汉字、拼音和首字母;
混编数据索引生成单元,用于对所述目标文本的状态进行组合,生成结构为有限状态转移机的混编数据索引;
拼音数据索引生成单元,用于按照所述拼音的状态生成结构为有限状态转移机的拼音数据索引;
首字母数据索引生成单元,用于按照所述首字母的状态生成结构为有限状态转移机的首字母数据索引。
可选地,所述数据索引包括混编数据索引、拼音数据索引、首字母数据索引;
所述联想词召回模块包括:
汉字判断子模块,用于判断所述搜索关键词是否包含汉字;若是,则调用第一依次召回子模块,若否,则调用第二依次召回子模块;
第一依次召回子模块,用于依次在所述混编数据索引和所述拼音数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词;
第二依次召回子模块,用于依次在所述拼音数据索引和所述首字母数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词。
可选地,所述第一依次召回子模块包括:
第一目标索引确定单元,用于确定当前次召回的第一目标索引,所述第一目标索引在奇数次召回时为所述混编数据索引、在偶数次召回时为所述拼音数据索引;
第一目标文本查找单元,用于在所述第一目标索引中查找与所述搜索关键词匹配的目标文本;
第一召回条件判断单元,用于判断是否满足预设的召回条件,若是,则调用第一目标文本输出单元,若否,则调用第一搜索关键词处理单元,所述召回条件包括所述目标文本的数量超过预设的数量阈值,或者,召回的次数超过预设的次数阈值;
第一目标文本输出单元,用于输出召回的目标文本;
第一搜索关键词处理单元,用于在奇数次召回时、将所述搜索关键词转换为拼音,在偶数次召回时、对所述搜索关键词进行纠错处理,返回调用所述第一目标索引确定单元。
可选地,所述第二依次召回子模块包括:
第二目标索引确定单元,用于确定当前次召回的第二目标索引,所述第二目标索引在奇数次召回时为所述拼音数据索引、在偶数次召回时为所述首字母数据索引;
第二目标文本查找单元,用于在所述第二目标索引中查找与所述搜索关键词匹配的目标文本;
第二召回条件判断单元,用于判断是否满足预设的召回条件,若是,则调用第二目标文本输出单元,若否,则调用第二搜索关键词处理单元,所述召回条件包括所述目标文本的数量超过预设的数量阈值,或者,召回的次数超过预设的次数阈值;
第二目标文本输出单元,用于输出召回的目标文本;
第二搜索关键词处理单元,用于在奇数次召回时、从所述搜索关键词中提取首字母,在偶数次召回时、对所述搜索关键词进行纠错处理,返回调用所述第二目标索引确定单元。
可选地,所述联想词返回模块包括:
联想词特征获取子模块,用于获取所述联想词的特征信息;
特征信息输入子模块,用于将所述联想词的特征信息输入预置的点击期望模型,获得所述目标文本的评分信息;
联想词排序子模块,用于按照所述评分信息对所述联想词进行排序;
排序返回子模块,用于将排序后的联想词返回所述客户端进行展示。
可选地,所述点击期望模型通过调用如下模块训练:
目标文本标注模块,用于对所述数据索引中的目标文本标注是否点击;
目标文本特征获取模块,用于获取所述目标文本的特征信息;
信息关联模块,用于关联标注之后的目标文本与所述目标文本的特征信息,作为训练集;
点击期望模型训练模块,用于采用所述训练集训练点击期望模型。
根据本发明的另一方面,提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的方法。
本发明实施例包括以下优点:
本发明实施例通过对兴趣点文本内容建立多个数据索引,支持对客户端发送的搜索关键词,在多个数据索引中进行多次召回,并将召回的联想词返回客户端进行展示,通过提出新的构建数据索引的方式,在不同的维度构建不同的数据索引,能够对字体编码混合输入等多种情况进行正确召回,提高了召回的准确率。
附图说明
图1是本发明一个实施例的一种基于搜索的联想词的推荐方法的步骤流程图;
图2a至图2d是本发明一个实施例的一种数据索引的生成示例图;
图3是本发明一个实施例的一种基于搜索的联想词的推荐装置的结构框图;
图4是本发明实施例中服务器的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明一个实施例的一种基于搜索的联想词的推荐方法的步骤流程图,具体可以包括如下步骤:
步骤101,基于兴趣点文本内容建立多个数据索引。
在本发明实施例中,可以采集文本信息作为性缺点文本内容,基于该兴趣点文本内容及其编码信息(如拼音、笔画、五笔等)建立数据索引。
在具体实现中,兴趣点文本内容包括地标名、商号和/或商品名。
为使本领域技术人员更好地理解本发明实施例,在本说明书中,将拼音作为编码信息的一种示例进行说明。
在本发明的一个实施例中,编码信息包括拼音、拼音的首字母;则在本发明实施例中,步骤101可以包括如下子步骤:
子步骤S11,将兴趣点文本内容重组为一个或多个目标文本。
在具体实现中,可以对兴趣点文本内容进行分词,获得样本分词。
例如,对兴趣点文本内容“望京科技研发园”进行分词,获得“望京”、“科技”、“研发园”这三个样本分词。
又例如,对兴趣点文本内容“如家酒店北京店站”进行分词,获得“如家”、“酒店”、“北京店站”这三个样本分词。
对排序最后的一个或多个样本分词进行组合,获得一个或多个目标文本。
即对样本分词进行后缀组合,形成原兴趣点文本内容的不同后缀子串(即目标文本),作为存储数据元。
例如,如图2a所示,兴趣点文本内容“望京科技研发园”分词再组合的后缀子串包括“研发园”、“科技研发园”、“望京科技研发园”。
又例如,如图2a所示,兴趣点文本内容“如家酒店北京店站”分词再组合的后缀子串包括“北京店站”、“酒店北京店站”、“如家酒店北京店站”。
子步骤S12,查询所述目标文本的拼音和所述拼音的首字母。
在具体实现中,可以通过汉字反查拼音技术(可以看作是根据一个注音库对汉字进行注音的过程)等方式,查询目标文本的拼音,进而从该拼音中提取首字母。
例如,如图2b所示,对于目标文本“望京科技研发园”,其拼音为“wang jing ke jiyan fa yuan”,拼音的首字母为“wjkjyfy”。
子步骤S13,采用所述目标文本、所述拼音和所述首字母生成结构为有限状态转移机的数据索引。
在本发明实施例中,把存储数据元插入数据索引中,数据索引底层由有限状态转移机FST实现。
FST(Finite State Transducer,或者称为Mealy machine,有限状态转移机),可以用于检索term信息存储的位置。
term按照其字典顺序排序(term在存储时称为input),term相关的信息按照term排序的次序存储在磁盘上(其存储的位置为outPut),(input/output)二元组将以FST的形式存储在内存中(input和output都是有序的)。
检索时,根据input,通过计算FST中的路径上的权值信息,获取到output数据,最终在磁盘上定位term的其它附加信息。
实际上FST相当于term在内存中的一个索引,使用FST能够快速确定系统中是否存在查询的term,如果存在,能够快速定位其信息存放的具体位置。
在具体实现中,有限状态转移机包括多个节点,节点表示状态,对于不同的数据对象(即汉字、拼音、拼音首字母),可以分别建立有限状态转移机的数据索引(即混编数据索引、拼音数据索引、首字母数据索引):
1、将目标文本排序最前的一个或多个状态设置为并列的汉字、拼音和首字母;对目标文本的状态进行组合,生成结构为有限状态转移机的混编数据索引。
如图2c所示,在FST中,节点表示状态,最后一个状态表示接受状态,里面存储的是兴趣点文本内容的编号,用来寻址兴趣点文本内容,边存储的是转移字符。
在此情况中,汉字的转移机前四个状态也包含拼音、拼音的首字母
其中,汉字的转移机前四个状态也包含拼音和拼音首字母,例如,“望”,“wang”,“w”的转移状态是一致的,转移路径并列。
因此,不管用户输入的是汉字、拼音、拼音的首字母还是汉字拼音的混合,均可以召回正确的目标文本。
例如,用户输入“望j”,可以在混编数据索引召回“望京科技研发园”。
2、按照拼音的状态生成结构为有限状态转移机的拼音数据索引。
3、按照首字母的状态生成结构为有限状态转移机的首字母数据索引。
进一步而言,如图2d所示,若以归属的城市信息(city)等维度对兴趣点文本内容进行归类,则可以建议的方案(suggester),是针对每个城市信息(city1、city2……cityn)下的兴趣点文本内容生成相应的混编数据索引(即汉字FST)、拼音数据索引(即拼音FST)、首字母数据索引(即首拼FST)。
步骤102,检测在客户端输入的搜索关键词。
在具体实现中,用户可以启动浏览器、购物应用等客户端,打开相应的页面,在该页面中加载搜索框,用户可以在该搜索框输入搜索关键词或者语音数据,再将该语言数据进行语音识别,获得搜索关键词。
步骤103,在所述多个数据索引中召回所述搜索关键词对应的联想词。
在具体实现中,针对客户端发送的搜索关键词,可以经过编码转换、纠错等处理,多次进行召回流程,得到联想词的列表。
需要说明的是,对于客户端发送的搜索关键词,可以进行清洗,过滤特殊字符,如emoji表情等,采用清洗之后的搜索关键词在多个数据索引中多次召回联想词。
在本发明的一个实施例中,数据索引包括混编数据索引、拼音数据索引、首字母数据索引,其中,混编数据索引的结构是以汉字、拼音、拼音的首字母作为节点的有限状态转移机,拼音数据索引的结构是以拼音作为节点的有限状态转移机,首字母数据索引的结构是以拼音的首字母作为节点的有限状态转移机。
则在本发明实施例中,步骤103可以包括如下子步骤:
子步骤S21,判断所述搜索关键词是否包含汉字;若是,则执行子步骤S22,若否,则执行子步骤S23。
子步骤S22,依次在所述混编数据索引和所述拼音数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词。
若搜索关键词包含汉字(可能是纯汉字,也可能是汉字、拼音的混合),则可以对该搜索关键词进行编码转换,依次在混编数据索引和拼音数据索引召回匹配的目标文本作为联想词。
在本发明实施例的一个示例中,子步骤S22进一步可以包括如下子步骤:
子步骤S221,确定当前次召回的第一目标索引。
子步骤S222,在所述第一目标索引中查找与所述搜索关键词匹配的目标文本。
子步骤S223,判断是否满足预设的召回条件;若是,则执行子步骤S224,若否,则执行子步骤S225。
子步骤S224,输出召回的目标文本。
子步骤S225,在奇数次召回时、将所述搜索关键词转换为拼音,在偶数次召回时、对所述搜索关键词进行纠错处理,返回执行子步骤S221。
在本示例中,在每一次召回时,可以重新确定召回的数据索引,作为第一目标索引。
第一目标索引在奇数次(如第一次、第三次等)召回时为混编数据索引、在偶数次(如第二次、第四次等)召回时为拼音数据索引。
奇数次召回时可以使用原始或纠错后的搜索关键词在混编数据索引中进行召回,偶数次召回时可以使用原始或纠错后的搜索关键词的拼音在拼音数据索引中进行召回,如此循环,直至满足召回条件。
其中,召回条件可以包括目标文本的数量超过预设的数量阈值,或者,召回的次数超过预设的次数阈值,即目标文本的数量、召回的次数满足任一条件即可停止召回,对已召回的目标文本进行结合。
在第一次召回时,采用原始的搜索关键词在混编数据索引进行召回,并对原始的搜索关键词转换为拼音,在第二次召回时,采用原始的搜索关键词的拼音在拼音数据索引进行召回,并对原始的搜索关键词进行第一次纠错处理,在第三次找回时,采用第一次纠错处理的搜索关键词在混编数据索引进行召回,并对第一次纠错处理的搜索关键词转换为拼音,在第四次召回时,采用第一次纠错处理的搜索关键词的拼音在拼音数据索引进行召回,并对原始的搜索关键词进行第二次纠错处理,在第五次找回时,采用第二次纠错处理的搜索关键词在混编数据索引进行召回,如此类推。
需要说明的是,每一次纠错处理的参数一般是不相同的,例如,如果采取基于编辑距离进行纠错处理,即允许用户多输、少输或者输错字词,第一次纠错处理时,可以忽略编辑距离为1的错误,在第二次进行纠错处理时,可以忽略编辑距离为2的错误。
子步骤S23,依次在所述拼音数据索引和所述首字母数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词。
若搜索关键词不包含汉字(可能是拼音,也可能是拼音的首字母),则可以提取该搜索关键词的首字母,依次在拼音数据索引和首字母数据索引召回匹配的目标文本作为联想词。
在本发明实施例的一个示例中,子步骤S23进一步可以包括如下子步骤:
子步骤S231,确定当前次召回的第二目标索引。
子步骤S232,在所述第二目标索引中查找与所述搜索关键词匹配的目标文本;
子步骤S233,判断是否满足预设的召回条件;若是,则执行子步骤S234,若否,则执行子步骤S235。
子步骤S234,输出召回的目标文本;
子步骤S235,在奇数次召回时、从所述搜索关键词中提取首字母,在偶数次召回时、对所述搜索关键词进行纠错处理,返回执行子步骤S231。
在本示例中,在每一次召回时,可以重新确定召回的数据索引,作为第二目标索引。
第二目标索引在奇数次(如第一次、第三次等)召回时为拼音数据索引、在偶数次(如第二次、第四次等)召回时为首字母数据索引。
奇数次召回时可以使用原始或纠错后的搜索关键词在拼音数据索引中进行召回,偶数次召回时可以使用原始或纠错后的搜索关键词的首字母在首字母数据索引中进行召回,如此循环,直至满足召回条件。
其中,召回条件可以包括目标文本的数量超过预设的数量阈值,或者,召回的次数超过预设的次数阈值,即目标文本的数量、召回的次数满足任一条件即可停止召回,对已召回的目标文本进行结合。
在第一次召回时,采用原始的搜索关键词在拼音数据索引进行召回,并提取原始的搜索关键词的首字母,在第二次召回时,采用原始的搜索关键词的首字母在首字母数据索引进行召回,并对原始的搜索关键词进行第一次纠错处理,在第三次找回时,采用第一次纠错处理的搜索关键词在拼音数据索引进行召回,并提取第一次纠错处理的搜索关键词的首字母,在第四次召回时,采用第一次纠错处理的搜索关键词的首字母在首字母数据索引进行召回,并对原始的搜索关键词进行第二次纠错处理,在第五次找回时,采用第二次纠错处理的搜索关键词在首字母数据索引进行召回,如此类推。
需要说明的是,每一次纠错处理的参数一般是不相同的,例如,如果采取基于编辑距离进行纠错处理,即允许用户多输、少输或者输错字词,第一次纠错处理时,可以忽略编辑距离为1的错误,在第二次进行纠错处理时,可以忽略编辑距离为2的错误。
本发明实施例允许用户输入出错,辅助用户对搜索关键词进行纠错处理,通过混编数据索引、拼音数据索引、首字母数据索引中多次召回,支持汉字拼音混合输入,用户可以不用输入完整汉字,从而减少输入操作,提高搜索的效率。
步骤104,将所述联想词返回所述客户端进行展示。
在具体实现中,将联想词的列表返回至客户端,客户端可以在搜索框的下拉区域等位置,展示该联想词。
如果用户需要该联想词,则可以点击该联想词,作为新的搜索关键词生成搜索请求,发送至服务器,服务器检测与该联想词相关的信息并返回客户端进行展示。
如果用户不需要该联想词,则可以继续输入搜索关键词,点击相关的控件生成搜索请求,发送至服务器,服务器检测与该搜索关键词相关的信息并返回客户端进行展示。
本发明实施例通过对兴趣点文本内容建立多个数据索引,支持对客户端发送的搜索关键词,在多个数据索引中进行多次召回,并将召回的联想词返回客户端进行展示,通过提出新的构建数据索引的方式,在不同的维度构建不同的数据索引,能够对字体编码混合输入等多种情况进行正确召回,提高了召回的准确率。
进一步地,通过多次召回策略,提高了召回的结果数量,尽可能多地联想出用户最有可能搜索的搜索关键词。
在本发明的一个实施例中,步骤104可以包括如下子步骤:
子步骤S31,获取所述联想词的特征信息。
其中,联想词的特征信息包括查询次数、点击率、与搜索关键词的相似度中的一种或多种。
子步骤S32,将所述联想词的特征信息输入预置的点击期望模型,获得所述目标文本的评分信息。
应用本发明实施例,可以预先训练点击期望模型,用于预测用户对联想词的点击期望。
一般情况下,评分信息与点击期望正相关,即评分信息的值越高,点击期望越大,评分信息的值越低,点击期望越小。
在具体实现中,点击期望模型可以通过如下方式训练:
子步骤S321,对所述数据索引中的目标文本标注是否点击。
在具体实现中,可以获取目标文本作为联想词展示时的历史展示日志,作为模型训练的样本,依据目标文本的点击情况进行样本标注,例如,若点击,则标注为1,若未点击,则标注为0。
子步骤S322,获取所述目标文本的特征信息。
在实际应用中,可以获取用户的历史行为日志,从中抽取特征信息。
其中,目标文本的特征信包括查询次数、点击率、与搜索关键词的相似度中的一种或多种。
子步骤S323,关联标注之后的目标文本与所述目标文本的特征信息,作为训练集。
子步骤S324,采用所述训练集训练点击期望模型。
对标注的信息和特征信息进行关联,构建训练集,并用诸如GBDT(Gradient BoostDecision Tree,一种迭代的决策树算法)模型等机器学习进行模型训练,获得点击期望模型。
子步骤S33,按照所述评分信息对所述联想词进行排序。
一般情况下,可以按照评分信息的值对联想词进行顺序排序,即评分信息越高,排序越前,越优先展示给用户。
子步骤S34,将排序后的联想词返回所述客户端进行展示。
本发明实施例基于机器学习方法,识别出用户对联想词的点击期望,对召回的联想词进行个性化的排序,减少用户查找所需的联想词的操作步骤,从而提高了搜索的效率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明一个实施例的一种基于搜索的联想词的推荐装置的结构框图,具体可以包括如下模块:
数据索引建立模块301,用于基于兴趣点文本内容建立多个数据索引,所述兴趣点文本内容包括地标名、商号和/或商品名;
搜索关键词检测模块302,用于检测在客户端输入的搜索关键词;
联想词召回模块303,用于在所述多个数据索引中召回所述搜索关键词对应的联想词;
联想词返回模块304,用于将所述联想词返回所述客户端进行展示。
在本发明的一个实施例中,所述数据索引建立模块301包括:
目标文本重组子模块,用于将兴趣点文本内容重组为一个或多个目标文本;
拼音信息查询子模块,用于查询所述目标文本的拼音和所述拼音的首字母;
有限状态转移机生成子模块,用于采用所述目标文本、所述拼音和所述首字母生成结构为有限状态转移机的数据索引。
在本发明的一个实施例中,所述目标文本重组子模块包括:
分词单元,用于对兴趣点文本内容进行分词,获得样本分词;
组合单元,用于对排序最后的一个或多个样本分词进行组合,获得一个或多个目标文本。
在本发明的一个实施例中,有限状态转移机包括多个节点,所述节点表示状态;
所述有限状态转移机生成子模块包括:
状态设置单元,用于将所述目标文本排序最前的一个或多个状态设置为并列的汉字、拼音和首字母;
混编数据索引生成单元,用于对所述目标文本的状态进行组合,生成结构为有限状态转移机的混编数据索引;
拼音数据索引生成单元,用于按照所述拼音的状态生成结构为有限状态转移机的拼音数据索引;
首字母数据索引生成单元,用于按照所述首字母的状态生成结构为有限状态转移机的首字母数据索引。
在本发明的一个实施例中,所述数据索引包括混编数据索引、拼音数据索引、首字母数据索引;
所述联想词召回模块303包括:
汉字判断子模块,用于判断所述搜索关键词是否包含汉字;若是,则调用第一依次召回子模块,若否,则调用第二依次召回子模块;
第一依次召回子模块,用于依次在所述混编数据索引和所述拼音数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词;
第二依次召回子模块,用于依次在所述拼音数据索引和所述首字母数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词。
在本发明实施例的一个示例中,所述第一依次召回子模块包括:
第一目标索引确定单元,用于确定当前次召回的第一目标索引,所述第一目标索引在奇数次召回时为所述混编数据索引、在偶数次召回时为所述拼音数据索引;
第一目标文本查找单元,用于在所述第一目标索引中查找与所述搜索关键词匹配的目标文本;
第一召回条件判断单元,用于判断是否满足预设的召回条件,若是,则调用第一目标文本输出单元,若否,则调用第一搜索关键词处理单元,所述召回条件包括所述目标文本的数量超过预设的数量阈值,或者,召回的次数超过预设的次数阈值;
第一目标文本输出单元,用于输出召回的目标文本;
第一搜索关键词处理单元,用于在奇数次召回时、将所述搜索关键词转换为拼音,在偶数次召回时、对所述搜索关键词进行纠错处理,返回调用所述第一目标索引确定单元。
在本发明实施例的一个示例中,所述第二依次召回子模块包括:
第二目标索引确定单元,用于确定当前次召回的第二目标索引,所述第二目标索引在奇数次召回时为所述拼音数据索引、在偶数次召回时为所述首字母数据索引;
第二目标文本查找单元,用于在所述第二目标索引中查找与所述搜索关键词匹配的目标文本;
第二召回条件判断单元,用于判断是否满足预设的召回条件,若是,则调用第二目标文本输出单元,若否,则调用第二搜索关键词处理单元,所述召回条件包括所述目标文本的数量超过预设的数量阈值,或者,召回的次数超过预设的次数阈值;
第二目标文本输出单元,用于输出召回的目标文本;
第二搜索关键词处理单元,用于在奇数次召回时、从所述搜索关键词中提取首字母,在偶数次召回时、对所述搜索关键词进行纠错处理,返回调用所述第二目标索引确定单元。
在本发明的一个实施例中,所述联想词返回模块304包括:
联想词特征获取子模块,用于获取所述联想词的特征信息;
特征信息输入子模块,用于将所述联想词的特征信息输入预置的点击期望模型,获得所述目标文本的评分信息;
联想词排序子模块,用于按照所述评分信息对所述联想词进行排序;
排序返回子模块,用于将排序后的联想词返回所述客户端进行展示。
在本发明的一个实施例中,所述点击期望模型通过调用如下模块训练:
目标文本标注模块,用于对所述数据索引中的目标文本标注是否点击;
目标文本特征获取模块,用于获取所述目标文本的特征信息;
信息关联模块,用于关联标注之后的目标文本与所述目标文本的特征信息,作为训练集;
点击期望模型训练模块,用于采用所述训练集训练点击期望模型。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图4是本发明实施例中服务器的结构示意图。该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)422(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,一个或一个以上键盘456,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现一种基于搜索的联想词的推荐方法,所述方法包括:
基于兴趣点文本内容建立多个数据索引,所述兴趣点文本内容包括地标名、商号和/或商品名;
检测在客户端输入的搜索关键词;
在所述多个数据索引中召回所述搜索关键词对应的联想词;
将所述联想词返回所述客户端进行展示。
可选地,所述基于兴趣点文本内容建立多个数据索引的步骤包括:
将兴趣点文本内容重组为一个或多个目标文本;
查询所述目标文本的拼音和所述拼音的首字母;
采用所述目标文本、所述拼音和所述首字母生成结构为有限状态转移机的数据索引。
可选地,所述将兴趣点文本内容重组为一个或多个目标文本的步骤包括:
对兴趣点文本内容进行分词,获得样本分词;
对排序最后的一个或多个样本分词进行组合,获得一个或多个目标文本。
可选地,有限状态转移机包括多个节点,所述节点表示状态;
所述采用所述目标文本、所述拼音和所述首字母生成结构为有限状态转移机的数据索引的步骤包括:
将所述目标文本排序最前的一个或多个状态设置为并列的汉字、拼音和首字母;
对所述目标文本的状态进行组合,生成结构为有限状态转移机的混编数据索引;
按照所述拼音的状态生成结构为有限状态转移机的拼音数据索引;
按照所述首字母的状态生成结构为有限状态转移机的首字母数据索引。
可选地,所述数据索引包括混编数据索引、拼音数据索引、首字母数据索引;
所述在所述多个数据索引中召回所述搜索关键词对应的联想词的步骤包括:
判断所述搜索关键词是否包含汉字;
若是,则依次在所述混编数据索引和所述拼音数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词;
若否,则依次在所述拼音数据索引和所述首字母数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词。
可选地,所述依次在所述混编数据索引和所述拼音数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词的步骤包括:
确定当前次召回的第一目标索引,所述第一目标索引在奇数次召回时为所述混编数据索引、在偶数次召回时为所述拼音数据索引;
在所述第一目标索引中查找与所述搜索关键词匹配的目标文本;
判断是否满足预设的召回条件,所述召回条件包括所述目标文本的数量超过预设的数量阈值,或者,召回的次数超过预设的次数阈值;
若是,则输出召回的目标文本;
若否,则在奇数次召回时、将所述搜索关键词转换为拼音,在偶数次召回时、对所述搜索关键词进行纠错处理,返回执行所述确定当前次召回的第一目标索引的步骤。
可选地,所述依次在所述拼音数据索引和所述首字母数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词的步骤包括:
确定当前次召回的第二目标索引,所述第二目标索引在奇数次召回时为所述拼音数据索引、在偶数次召回时为所述首字母数据索引;
在所述第二目标索引中查找与所述搜索关键词匹配的目标文本;
判断是否满足预设的召回条件,所述召回条件包括所述目标文本的数量超过预设的数量阈值,或者,召回的次数超过预设的次数阈值;
若是,则输出召回的目标文本;
若否,则在奇数次召回时、从所述搜索关键词中提取首字母,在偶数次召回时、对所述搜索关键词进行纠错处理,返回执行所述确定当前次召回的第一目标索引的步骤。
可选地,所述将所述联想词返回所述客户端进行展示的步骤包括:
获取所述联想词的特征信息;
将所述联想词的特征信息输入预置的点击期望模型,获得所述目标文本的评分信息;
按照所述评分信息对所述联想词进行排序;
将排序后的联想词返回所述客户端进行展示。
可选地,所述点击期望模型通过如下方式训练:
对所述数据索引中的目标文本标注是否点击;
获取所述目标文本的特征信息;
关联标注之后的目标文本与所述目标文本的特征信息,作为训练集;
采用所述训练集训练点击期望模型。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种基于搜索的联想词的推荐方法、一种基于搜索的联想词的推荐装置、一种电子设备和一种计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (12)
1.一种基于搜索的联想词的推荐方法,其特征在于,包括:
基于兴趣点文本内容建立多个数据索引,所述兴趣点文本内容包括地标名、商号和/或商品名;
检测在客户端输入的搜索关键词;
在所述多个数据索引中召回所述搜索关键词对应的联想词;
将所述联想词返回所述客户端进行展示。
2.根据权利要求1所述的方法,其特征在于,所述基于兴趣点文本内容建立多个数据索引的步骤包括:
将兴趣点文本内容重组为一个或多个目标文本;
查询所述目标文本的拼音和所述拼音的首字母;
采用所述目标文本、所述拼音和所述首字母生成结构为有限状态转移机的数据索引。
3.根据权利要求2所述的方法,其特征在于,所述将兴趣点文本内容重组为一个或多个目标文本的步骤包括:
对兴趣点文本内容进行分词,获得样本分词;
对排序最后的一个或多个样本分词进行组合,获得一个或多个目标文本。
4.根据权利要求2所述的方法,其特征在于,有限状态转移机包括多个节点,所述节点表示状态;
所述采用所述目标文本、所述拼音和所述首字母生成结构为有限状态转移机的数据索引的步骤包括:
将所述目标文本排序最前的一个或多个状态设置为并列的汉字、拼音和首字母;
对所述目标文本的状态进行组合,生成结构为有限状态转移机的混编数据索引;
按照所述拼音的状态生成结构为有限状态转移机的拼音数据索引;
按照所述首字母的状态生成结构为有限状态转移机的首字母数据索引。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述数据索引包括混编数据索引、拼音数据索引、首字母数据索引;
所述在所述多个数据索引中召回所述搜索关键词对应的联想词的步骤包括:
判断所述搜索关键词是否包含汉字;
若是,则依次在所述混编数据索引和所述拼音数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词;
若否,则依次在所述拼音数据索引和所述首字母数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词。
6.根据权利要求5所述的方法,其特征在于,所述依次在所述混编数据索引和所述拼音数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词的步骤包括:
确定当前次召回的第一目标索引,所述第一目标索引在奇数次召回时为所述混编数据索引、在偶数次召回时为所述拼音数据索引;
在所述第一目标索引中查找与所述搜索关键词匹配的目标文本;
判断是否满足预设的召回条件,所述召回条件包括所述目标文本的数量超过预设的数量阈值,或者,召回的次数超过预设的次数阈值;
若是,则输出召回的目标文本;
若否,则在奇数次召回时、将所述搜索关键词转换为拼音,在偶数次召回时、对所述搜索关键词进行纠错处理,返回执行所述确定当前次召回的第一目标索引的步骤。
7.根据权利要求5所述的方法,其特征在于,所述依次在所述拼音数据索引和所述首字母数据索引中多次召回所述搜索关键词对应的目标文本,作为联想词的步骤包括:
确定当前次召回的第二目标索引,所述第二目标索引在奇数次召回时为所述拼音数据索引、在偶数次召回时为所述首字母数据索引;
在所述第二目标索引中查找与所述搜索关键词匹配的目标文本;
判断是否满足预设的召回条件,所述召回条件包括所述目标文本的数量超过预设的数量阈值,或者,召回的次数超过预设的次数阈值;
若是,则输出召回的目标文本;
若否,则在奇数次召回时、从所述搜索关键词中提取首字母,在偶数次召回时、对所述搜索关键词进行纠错处理,返回执行所述确定当前次召回的第一目标索引的步骤。
8.根据权利要求1至4任一项所述的方法,其特征在于,所述将所述联想词返回所述客户端进行展示的步骤包括:
获取所述联想词的特征信息;
将所述联想词的特征信息输入预置的点击期望模型,获得所述目标文本的评分信息;
按照所述评分信息对所述联想词进行排序;
将排序后的联想词返回所述客户端进行展示。
9.根据权利要求8所述的方法,其特征在于,所述点击期望模型通过如下方式训练:
对所述数据索引中的目标文本标注是否点击;
获取所述目标文本的特征信息;
关联标注之后的目标文本与所述目标文本的特征信息,作为训练集;
采用所述训练集训练点击期望模型。
10.一种基于搜索的联想词的推荐装置,其特征在于,包括:
数据索引建立模块,用于基于兴趣点文本内容的编码信息建立多个数据索引,所述兴趣点文本内容包括地标名、商号和/或商品名;
搜索关键词检测模块,用于检测在客户端输入的搜索关键词;
联想词召回模块,用于在所述多个数据索引中召回所述搜索关键词对应的联想词;
联想词返回模块,用于将所述联想词返回所述客户端进行展示。
11.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9之任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9之任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810122954.8A CN108446316B (zh) | 2018-02-07 | 2018-02-07 | 联想词的推荐方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810122954.8A CN108446316B (zh) | 2018-02-07 | 2018-02-07 | 联想词的推荐方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108446316A true CN108446316A (zh) | 2018-08-24 |
CN108446316B CN108446316B (zh) | 2019-12-17 |
Family
ID=63191647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810122954.8A Active CN108446316B (zh) | 2018-02-07 | 2018-02-07 | 联想词的推荐方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108446316B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522550A (zh) * | 2018-11-08 | 2019-03-26 | 和美(深圳)信息技术股份有限公司 | 文本信息纠错方法、装置、计算机设备和存储介质 |
CN109634983A (zh) * | 2018-12-13 | 2019-04-16 | 百度在线网络技术(北京)有限公司 | 召回兴趣点信息的确定方法、装置、设备和介质 |
CN111291551A (zh) * | 2020-01-22 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
CN111653328A (zh) * | 2020-06-04 | 2020-09-11 | 医渡云(北京)技术有限公司 | 病历信息推送方法、装置、存储介质及电子设备 |
CN112364126A (zh) * | 2020-10-21 | 2021-02-12 | 广州市百果园网络科技有限公司 | 一种关键词的提示方法、装置、计算机设备和存储介质 |
CN112507181A (zh) * | 2019-09-16 | 2021-03-16 | 百度在线网络技术(北京)有限公司 | 搜索请求分类方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120166182A1 (en) * | 2009-06-03 | 2012-06-28 | Ko David H | Autocompletion for Partially Entered Query |
CN103544266A (zh) * | 2013-10-16 | 2014-01-29 | 北京奇虎科技有限公司 | 一种搜索建议词生成的方法以及装置 |
CN103886094A (zh) * | 2014-04-03 | 2014-06-25 | 江苏物联网研究发展中心 | 电子商务搜索引擎纠错扩展方法 |
CN104199954A (zh) * | 2012-06-26 | 2014-12-10 | 北京奇虎科技有限公司 | 一种用于搜索输入的推荐系统及方法 |
CN105653697A (zh) * | 2015-12-30 | 2016-06-08 | 北京奇艺世纪科技有限公司 | 一种推荐词检索方法及系统 |
US9652529B1 (en) * | 2004-09-30 | 2017-05-16 | Google Inc. | Methods and systems for augmenting a token lexicon |
CN106919682A (zh) * | 2017-03-01 | 2017-07-04 | 北京再塑宝科技有限公司 | 一种基于redis技术的搜索联想词实现方法 |
CN107273537A (zh) * | 2017-06-30 | 2017-10-20 | 深圳创维数字技术有限公司 | 一种搜索词推荐方法、机顶盒和存储介质 |
CN107665217A (zh) * | 2016-07-29 | 2018-02-06 | 苏宁云商集团股份有限公司 | 一种用于搜索业务的词汇处理方法及系统 |
-
2018
- 2018-02-07 CN CN201810122954.8A patent/CN108446316B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9652529B1 (en) * | 2004-09-30 | 2017-05-16 | Google Inc. | Methods and systems for augmenting a token lexicon |
US20120166182A1 (en) * | 2009-06-03 | 2012-06-28 | Ko David H | Autocompletion for Partially Entered Query |
CN104199954A (zh) * | 2012-06-26 | 2014-12-10 | 北京奇虎科技有限公司 | 一种用于搜索输入的推荐系统及方法 |
CN103544266A (zh) * | 2013-10-16 | 2014-01-29 | 北京奇虎科技有限公司 | 一种搜索建议词生成的方法以及装置 |
CN103886094A (zh) * | 2014-04-03 | 2014-06-25 | 江苏物联网研究发展中心 | 电子商务搜索引擎纠错扩展方法 |
CN105653697A (zh) * | 2015-12-30 | 2016-06-08 | 北京奇艺世纪科技有限公司 | 一种推荐词检索方法及系统 |
CN107665217A (zh) * | 2016-07-29 | 2018-02-06 | 苏宁云商集团股份有限公司 | 一种用于搜索业务的词汇处理方法及系统 |
CN106919682A (zh) * | 2017-03-01 | 2017-07-04 | 北京再塑宝科技有限公司 | 一种基于redis技术的搜索联想词实现方法 |
CN107273537A (zh) * | 2017-06-30 | 2017-10-20 | 深圳创维数字技术有限公司 | 一种搜索词推荐方法、机顶盒和存储介质 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522550A (zh) * | 2018-11-08 | 2019-03-26 | 和美(深圳)信息技术股份有限公司 | 文本信息纠错方法、装置、计算机设备和存储介质 |
CN109522550B (zh) * | 2018-11-08 | 2023-04-07 | 和美(深圳)信息技术股份有限公司 | 文本信息纠错方法、装置、计算机设备和存储介质 |
CN109634983A (zh) * | 2018-12-13 | 2019-04-16 | 百度在线网络技术(北京)有限公司 | 召回兴趣点信息的确定方法、装置、设备和介质 |
CN112507181A (zh) * | 2019-09-16 | 2021-03-16 | 百度在线网络技术(北京)有限公司 | 搜索请求分类方法、装置、电子设备及存储介质 |
CN112507181B (zh) * | 2019-09-16 | 2023-09-29 | 百度在线网络技术(北京)有限公司 | 搜索请求分类方法、装置、电子设备及存储介质 |
CN111291551A (zh) * | 2020-01-22 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
CN111291551B (zh) * | 2020-01-22 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、电子设备及计算机可读存储介质 |
CN111653328A (zh) * | 2020-06-04 | 2020-09-11 | 医渡云(北京)技术有限公司 | 病历信息推送方法、装置、存储介质及电子设备 |
CN111653328B (zh) * | 2020-06-04 | 2023-03-21 | 医渡云(北京)技术有限公司 | 病历信息推送方法、装置、存储介质及电子设备 |
CN112364126A (zh) * | 2020-10-21 | 2021-02-12 | 广州市百果园网络科技有限公司 | 一种关键词的提示方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108446316B (zh) | 2019-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108446316A (zh) | 联想词的推荐方法、装置、电子设备及存储介质 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN111753060A (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN110298033A (zh) | 关键词语料标注训练提取工具 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN113590850A (zh) | 多媒体数据的搜索方法、装置、设备及存储介质 | |
CN110083683B (zh) | 基于随机游走的实体语义标注方法 | |
CN113157885A (zh) | 一种面向人工智能领域知识的高效智能问答系统 | |
CN111859953A (zh) | 训练数据的挖掘方法、装置、电子设备及存储介质 | |
CN115687572A (zh) | 一种数据信息的检索方法、装置、设备及存储介质 | |
CN112148874A (zh) | 可自动新增用户潜在意图的意图识别方法及系统 | |
CN115114419A (zh) | 问答处理方法、装置、电子设备和计算机可读介质 | |
CN114722149A (zh) | 一种语义相关性检索模型的确定方法及装置 | |
CN112560425B (zh) | 模板生成方法、装置、电子设备及存储介质 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN113408287A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN117708270A (zh) | 企业数据查询方法、装置、设备及存储介质 | |
CN114647719A (zh) | 一种基于知识图谱的问答方法及装置 | |
CN112182019A (zh) | 一种电网统计专业指标特征提取的语义解析搜索方法 | |
CN116523041A (zh) | 装备领域知识图谱构建方法、检索方法、系统及电子设备 | |
CN114443904B (zh) | 视频查询方法、装置、计算机设备及计算机可读存储介质 | |
CN116186259A (zh) | 一种会话线索评分方法、装置、设备及存储介质 | |
CN114547313A (zh) | 资源类型识别方法以及装置 | |
CN113627200A (zh) | 多机器翻译引擎驱动的国际组织科技术语主题句萃取方法 | |
CN111159999A (zh) | 一种填充词槽的方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |