CN110569441A - 一种搜索字符串纠错方法及装置 - Google Patents

一种搜索字符串纠错方法及装置 Download PDF

Info

Publication number
CN110569441A
CN110569441A CN201910870655.7A CN201910870655A CN110569441A CN 110569441 A CN110569441 A CN 110569441A CN 201910870655 A CN201910870655 A CN 201910870655A CN 110569441 A CN110569441 A CN 110569441A
Authority
CN
China
Prior art keywords
search
character string
error correction
string
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910870655.7A
Other languages
English (en)
Other versions
CN110569441B (zh
Inventor
康战辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910870655.7A priority Critical patent/CN110569441B/zh
Publication of CN110569441A publication Critical patent/CN110569441A/zh
Application granted granted Critical
Publication of CN110569441B publication Critical patent/CN110569441B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种搜索字符串纠错方法及装置,该方法包括:接收搜索字符串,根据第一纠错样本库中搜索字符串与纠错字符串之间的对应关系,对所述搜索字符串进行纠错;到达纠错时间窗口时,在至少两个时间段分别获取对应的搜索字符串;根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的搜索热度,搜索热度的变化幅度超过设定阈值的搜索字符串为新字符串;获取根据第二纠错样本库中搜索字符串与纠错字符串之间的关系纠错后的搜索结果,对所述新字符串进行纠错。利用本发明提供的对于搜索字符串的纠错方法基于NLP技术,在检出潜在新词后利用纠错能力强样本库进行纠错,解决对热词不敏感以及纠错能力差的问题,提高了搜索精度。

Description

一种搜索字符串纠错方法及装置
技术领域
本发明涉及搜索引擎技术领域,特别是涉及一种搜索字符串纠错方法及装置。
背景技术
搜索引擎作为用户在互联网中获取新鲜兴趣爱好信息的工具已越来越普及。对于突发的新事件,用户往往会迅速的在网上进行搜索,但此时这些突发事件的热词查询却往往会输入错误,例如之前“西虹市首富”这部喜剧电影成为大热门之时,此时我们发现用户往往在搜索输入框里输入的是“西红柿首富”而不是用户想要搜索到的“西虹市首富”,这使得用户即使输入了正确的词语也搜索不到正确的词条。
现有搜索引擎对于输入词语的纠错方案大多数是通过形同与音同然后再结合历史的用户查询日志来构建潜在的纠错词语候选选项,但显然在有新事件发生的时候“西红柿”-》“西虹市”的热词的变化趋势难以及时收集,而且“西红柿”这个词属于正常存在的实体,更难以被现有搜索引擎及时的纠正为“西虹市”。
综上所述,现有技术对查询词的纠错非常依赖于引擎收集足够的用户历史查询日志,这就使得热词纠错有很大的迟滞性,甚至在这些热点事件集中爆发的最初时间段也无法得到纠正,进而用户在引擎中得不到应有的搜索结果,影响了搜索精度。
发明内容
本发明提供了一种搜索字符串纠错方法和装置,用于解决现有技术对热词不敏感的纠错样本库,需要依赖于服务器引擎收集到足够的历史查询日志后,才能对查询词进行纠错,所存在的对热度值很高的词的纠错有很大的迟滞性,甚至在这些热点事件集中爆发的最初时间段无法得到纠正,进而在搜索中得不到应有的搜索结果,影响了搜索精度。
本发明的第一方面提供了一种搜索字符串纠错方法,该方法包括:
接收搜索字符串,根据第一纠错样本库中搜索字符串与纠错字符串之间的对应关系,对所述搜索字符串进行纠错;
到达纠错时间窗口时,在所述纠错时间窗口内的至少两个时间段分别获取对应的搜索字符串;
根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的搜索热度,确定搜索热度的变化幅度超过设定阈值的搜索字符串为新字符串;
获取根据第二纠错样本库中搜索字符串与纠错字符串之间的关系,对所述新字符串进行纠错后的搜索结果,根据所述搜索结果中的事件描述词对所述新字符串进行纠错。
本发明的第二方面提供了一种搜索字符串纠错的装置,一种搜索字符串纠错的装置,包括至少一个处理单元和至少一个存储单元;
其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行下列过程:
接收搜索字符串,根据第一纠错样本库中搜索字符串与纠错字符串之间的对应关系,对所述搜索字符串进行纠错;
到达纠错时间窗口时,在所述纠错时间窗口内的至少两个时间段分别获取对应的搜索字符串;
根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的搜索热度,确定搜索热度的变化幅度超过设定阈值的搜索字符为新字符串;
获取根据第二纠错样本库中搜索字符串与纠错字符串之间的关系,对所述新字符串进行纠错后的搜索结果,根据所述搜索结果中的事件描述词对所述新字符串进行纠错。
可选地,所述处理单元对所述新字符串进行纠错之后,还用于:
在所述第一纠错样本库中保存所述新字符串与纠错的事件描述词之间的关系。
可选地,所述处理单元具体用于到达纠错时间窗口时,在所述纠错时间窗口内相邻的第一时间段和第二时间段分别获取对应的搜索字符串。
可选地,所述处理单元具体用于:根据各搜索字符串在不同时间段的出现次数,构建映射同一字符串在不同时间段的搜索热度的卡方计算四格表;
根据所述卡方计算四格表计算卡方值/卡方值在卡方分布临界值表中对应的概率值,确定卡方值/概率值大于对应的设定阈值的搜索字符为新字符串。
可选地,所述处理单元具体用于:确定各搜索字符串在第一时间段出现的次数a,及除该搜索字符串外其他搜索字符串在第一时间段出现的总次数b,各搜索字符串在第二时间段出现的次数c,及除该搜索字符串外其他搜索字符串在第二时间段出现的总次数d;
基于所述次数a、次数b、次数c和次数d构建卡方计算四格表。
可选地,所述处理单元具体用于:根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的出现次数占比、出现次数;
将所述次数占比、出现次数进行加权求和,确定同一字符串在不同时间段的搜索热度。
可选地,所述处理单元具体用于:确定搜索结果中所包含的事件,及各事件对应的事件描述词;
确定各事件描述词在搜索结果中所包含的事件中出现的概率;
确定出现概率大于设定概率的事件描述词与所搜索时所用新字符串不符时,利用该事件描述词对所述新字符串进行纠错。
可选地,所述处理单元具体用于:
确定出现概率大于设定概率的事件描述词与所搜索时所用新字符串不符,与另一个新字符串相符,且另一新字符串进行纠错后的搜索结果中,出现概率大于设定概率的事件描述词与所述另一新字符串相符时,利用该事件描述词对所述新字符串进行纠错。
本发明的第三方面提供了一种搜索字符串纠错的装置,该装置包括:
第一纠错模块,用于接收搜索字符串,根据第一纠错样本库中搜索字符串与纠错字符串之间的对应关系,对所述搜索字符串进行纠错;
字符串获取模块,用于到达纠错时间窗口时,在所述纠错时间窗口内的至少两个时间段分别获取对应的搜索字符串;
新字符串确定模块,用于根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的搜索热度,确定搜索热度的变化幅度超过设定阈值的搜索字符串为新字符串;
第二纠错模块,用于获取根据第二纠错样本库中搜索字符串与纠错字符串之间的关系,对所述新字符串进行纠错后的搜索结果,根据所述搜索结果中的事件描述词对所述新字符串进行纠错。
可选地,所述第二纠错模块具体用于:对所述新字符串进行纠错之后,还包括:
在所述第一纠错样本库中保存所述新字符串与纠错的事件描述词之间的关系。
可选地,所述字符串获取模块具体用于:到达纠错时间窗口时,在所述纠错时间窗口内的至少两个时间段分别获取对应的搜索字符串,包括:
到达纠错时间窗口时,在所述纠错时间窗口内相邻的第一时间段和第二时间段分别获取对应的搜索字符串。
可选地,所述新字符串确定模块具体用于:根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的搜索热度,确定搜索热度的变化幅度超过设定阈值的搜索字符串为新字符串,包括:
根据各搜索字符串在不同时间段的出现次数,构建映射同一字符串在不同时间段的搜索热度的卡方计算四格表;
根据所述卡方计算四格表计算卡方值/卡方值在卡方分布临界值表中对应的概率值,确定卡方值/概率值大于对应的设定阈值的搜索字符为新字符串。
可选地,所述新字符串确定模块具体还用于:根据各搜索字符串在不同时间段的出现次数,构建映射同一字符串在不同时间段的搜索热度的卡方计算四格表,包括:
确定各搜索字符串在第一时间段出现的次数a,及除该搜索字符串外其他搜索字符串在第一时间段出现的总次数b,各搜索字符串在第二时间段出现的次数c,及除该搜索字符串外其他搜索字符串在第二时间段出现的总次数d;
基于所述次数a、次数b、次数c和次数d构建卡方计算四格表。
可选地,所述新字符串确定模块具体还用于:根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的搜索热度,包括:
根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的出现次数占比、出现次数;
将所述次数占比、出现次数进行加权求和,确定同一字符串在不同时间段的搜索热度。
可选地,所述第二纠错模块具体还用于:根据所述搜索结果中的事件描述词对所述新字符串进行纠错,包括:
确定搜索结果中所包含的事件,及各事件对应的事件描述词;
确定各事件描述词在搜索结果中所包含的事件中出现的概率;
确定出现概率大于设定概率的事件描述词与所搜索时所用新字符串不符时,利用该事件描述词对所述新字符串进行纠错。
可选地,所述第二纠错模块具体还用于:利用该事件描述词对所述新字符串进行纠错:
确定出现概率大于设定概率的事件描述词与所搜索时所用新字符串不符,与另一个新字符串相符,且另一新字符串进行纠错后的搜索结果中,出现概率大于设定概率的事件描述词与所述另一新字符串相符时,利用该事件描述词对所述新字符串进行纠错。
本发明的第四方面提供了一种计算机程序介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现上述搜索字符串纠错方法。
利用本发明提供的一种搜索字符串纠错方法及装置,首先基于搜索字符串的出现次数统计搜索热度,根据搜索热度的变化确定出潜在的新词,再基于对热词比较敏感的纠错样本库纠错后搜索,根据搜索结果在第一纠错样本库中增加对热词的纠错关系,从而解决对热词不敏感的纠错样本库依赖于历史的查询日志在短时间内的无法大量积累导致的搜索迟滞和搜索精度不够的问题,提高了对搜索字符串的纠错速度以及搜索精准度。
附图说明
图1为本发明实施提供的搜索字符串纠错方法的一种应用场景示意图;
图2为本发明实施例提供的搜索字符串纠错方法流程图;
图3a为本发明实施例中的纠错时间窗口中的时间段的设定方式示例1示意图;
图3b为本发明实施例中的纠错时间窗口中的时间段的设定方式示例2示意图;
图4为本发明实施例中搜索字符串的纠错方法的详细流程图;
图5为本发明实施例中外网服务器中搜索结果的搜索界面示意图;
图6为本发明实施例中通过外网服务器进行搜索字符串纠错的前后对比图示意图;
图7为本发明实施例中搜索字符串纠错的装置的结构示意图;
图8为本发明实施例中搜索字符串纠错的装置的具体结构示意图;
图9为本发明实施例中搜索字符串纠错的装置的模块结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了方便理解,下面对本发明实施例中涉及的名词进行解释:
1)卡方检测(chi-square test):用于统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。在本实施例中,用于检测两个时间段内之间的偏离程度,具体由卡方值来表示,卡方值越大,说明搜索字符串的波动越大,越可能为潜在新词。
2)语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一;
3)自然语言处理(Nature Language processing,NLP):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。具体的,在本发明中,通过获取搜索字符串,对搜索字符串进行文本处理以及语义理解,根据对搜索字符串的热度分析,筛选出搜索字符串中的新字符串,将新字符串在外网服务器中进行搜索,通过搜索词与新字符串的比对,建立一种新字符串与搜索词的纠错关系;
4)机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
下面结合说明书附图对本发明实施例作进一步详细描述。应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供的搜索字符串纠错方法应用于搜索引擎服务器,该方法在进行搜索字符串纠错时基于两个纠错样本库,第一纠错样本库为对热词不敏感的样本库,第二纠错样本库为对热词敏感的样本库,其中纠错样本库用于保存搜索字符串与纠错字符串之间的对应关系,具体可以通过形同/音同等规则,基于历史搜索记录,建立搜索字符串与纠错字符串之间的对应关系。上述两个纠错样本库可以存储在同一搜索引擎服务器,本实施例称为本地服务器,也可以分别存储在不同的搜索服务器。如果是存储在不同的搜索服务器,具体为第一纠错样本库存储在本地服务器,第二纠错样本库存储在与本地服务器连接的外网服务器,本地服务器可以是面向某一特定企业的服务器,外网服务器是面向多企业的服务器,或者,本地服务器是面向某一特定应用程序的服务器,外网服务器是面向另一应用程序的服务器,本发明实施例提供的搜索字符串纠错方法应用于本地服务器。
如图1为本发明实施例提供的搜索字符串应用场景示意图,在通过终端101登陆到应用程序APP进行搜索时,终端101获取输入的搜索字符串,将搜索字符串发送到本地服务器102中,其中发送到本地服务器102的方式,可以由移动网络发送到本地服务器102中,或通过WiFi路由器发送到本地服务器102中,其中本地服务器102基于第一纠错样本库,对所述搜索字符串进行纠错;其中本地服务器102用于根据各搜索字符串在不同时间段的搜索热度变化,判断搜索字符串是否为新字符串,其中外网服务器103用于基于第二纠错样本库对新字符串纠错后进行搜索,并将搜索结果反馈给本地服务器102,本地服务器根据搜索结果中的事件描述词确定是否需要对新字符串进行纠错,如果需要,则根据搜索结果中的事件描述词对新字符串进行纠错,其中外网服务器103与本地服务器102之间通过数据线本地连接或通过网络连接。
其中上述终端可以是蜂窝电话、无绳电话、会话启动协议(Session InitiationProtocol,SIP)电话、无线本地环路(WirelessLocal Loop,WLL)站、个人数字处理(Personal Digital Assistant,PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备以及5G网络中的移动台或者未来演进的公共陆地移动网(Public LandMobile Network,PLMN)网络中的订阅设备等。
本实施例中终端101获取输入的搜索字符串,可以直接接收输入的文本形式的搜索字符串,也可以接收语音形式、拼音形式的搜索信息,如果为语音形式可以利用上述语音技术对语音进行识别,将其转换为文本形式的搜索字符串;对于拼音形式的搜索信息,可以利用NLP技术按照音同形同等原则理解语义并进行转换,可能得到多个搜索字符串。
进一步地,在得到搜索字符串后,在进行搜索引擎过程中,通过NLP技术理解语义,根据语义查找相应的数据库得到搜索结果。
在利用NLP技术理解语义时,可以结合机器学习技术建立相应的分类模型,识别文本信息所属的场景和意图领域,之后按照对应的方式提取关键词并与相应的词库进行匹配,得到语义识别结果。其中在根据语义查找相应的数据库时,不同的场景可以对应不同的数据库。
实施例1
鉴于目前本地服务器基于第一纠错样本库进行搜索时对突发事件新闻的敏感性不足,搜索热词时有很大的迟滞性,甚至在这些热点事件集中爆发的最初时间段无法得到纠正,本实施例提供一种搜索字符串纠错方法,可以有效的在第一时间对新字符串进行错词纠正,如图2所示,本实施例提供的搜索字符串纠错方法包括以下步骤:
步骤S201,接收搜索字符串,根据第一纠错样本库中搜索字符串与纠错字符串之间的对应关系,对所述搜索字符串进行纠错;
其中第一纠错样本库位于本地服务器中,获取到输入的搜索字符串后,根据第一纠错样本库中预先储存的搜索字符串与纠错字符串建立的关系,对获取的搜索字符串进行纠错,例如:在第一纠错样本库中存储有多组纠错关系对,当输入:“再接再励”,第一纠错样本库中检测到有此纠错关系对,由本地服务器将“再接再励”纠错为“再接再厉”之后在数据库中进行搜索。实施中,可以直接将搜索字符串纠正为第一纠错样本库中对应的纠错字符串,进行搜索;或者将第一纠错样本库中的对应的多个纠错字符串输出并提示进行选择,根据选择结果在数据库中进行搜索。
步骤S202,到达纠错时间窗口时,在所述纠错时间窗口内的至少两个时间段分别获取对应的搜索字符串;
其中纠错时间窗口为在本地服务器中预先设定的一时间段,从纠错时间窗口内选择至少两个时间段进行搜索,其中至少两个时间段可以相邻,或多个时间段之间存在较小的间隔,通过纠错时间窗口的滑动,并在窗口内更细粒度的时间进行搜索字符串统计,实现更细粒度的监测搜索字符串搜索热度变化。
如图3a所示,其中在纠错时间窗口中的时间段的设定分为以下几种方式,其中一种设定方式为至少两个时间段相邻,具体可以在纠错时间窗口内设定相邻的第一时间段和第二时间段,具体的示例1如图3a所示,另一种设定方式为在多个间隔较小的时间段,具体的示例2如图3b所示。
本地服务器中基于第一纠错样本库中存储的搜索字符串与纠错字符串之间的对应关系,对搜索字符串进行纠错,作为一种可选的实施方式,纠错时间窗口内包括相邻的第一时间段和第二时间段,第一时间段与第二时间段的时间长短可以由系统设定或根据新词产生爆发的速度自适应进行对应的调整。例如服务器中设定在每日的每个整小时内设定纠错时间窗口,其中每个整小时内的前十分钟设定为第一时间段,每个整小时内的后十分钟设定为第二时间段。
作为一种可选的实施方式,在至少两个时间段内获取对应的搜索字符串的方法具体可以为,先找出在第一时间段与第二时间段内同时出现的搜索字符串,再在同时出现的搜索字符串中,确定同时出现的搜索字符串在第一时间段中出现的次数,以及除该同时出现的搜索字符串之外其他搜索字符串在第一时间段出现的次数,确定同时出现的搜索字符串在第二时间段中出现的次数,以及除该同时出现的搜索字符串之外其他搜索字符串在第二时间段出现的次数;此种方式的目的为减小搜索运算量,提高搜索的速度。
作为另一种可选的实施方式,在至少两个时间段内获取对应的搜索字符串的方法还可以为,确定各搜索字符串在第一时间段出现的次数,及除该搜索字符串外其他搜索字符串在第一时间段出现的次数;确定各搜索字符串在第二时间段出现的次数,及除该搜索字符串外其他搜索字符串在第二时间段出现的次数。
步骤S203,根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的搜索热度,确定搜索热度的变化幅度超过设定阈值的搜索字符串为新字符串;
搜索热度的确定方式可以为,根据各搜索字符串在不同时间段的出现次数,将其映射为反应搜索热度的至少一个参数值,根据该至少一个参数值计算搜索热度。
作为一种可选的实施方式,本实施例中利用卡方检测法来对于同一字符串在不同时间段的搜索热度的变化幅度进行判断,根据所述卡方计算四格表计算卡方值/卡方值在卡方分布临界值表中对应的概率值,确定卡方值/概率值大于对应的设定阈值的搜索字符为新字符串。
作为另一种可选的实施方式,统计同一字符串在不同时间段的搜索热度还可以通过统计同一字符串在不同时间段的出现次数占比、出现次数;将所述次数占比、出现次数进行加权求和,确定同一字符串在不同时间段的搜索热度。其中在将次数占比、出现次数进行加权求和时,可以将次数占比、出现次数按照一定归一化处理方式将其分别归一化处理为0~1之间的数值后,再进行加权求和。需要说明的时,上述出现次数的占比的权值为零时,依据同一字符串在不同时间段的出现次数确定搜索热度,上述同一字符串在不同时间段的出现次数的权值为零时,依据确定搜索热度同一字符串在不同时间段的出现次数占比确定搜索热度。
其中,将出现次数作为热度,当不同时间段内出现次数有明显的变化时,且次数变化超过设定的阈值,例如其阈值可以设定为当次数变化为30次,且根据搜索字符串占不同时间段内所有搜索字符串的比率,当不同时间段内出现占比有明显的变化时,按照上述将次数占比、出现次数进行加权求和的方法计算出的搜索热度较高,在该搜索热度超度设定阈值时,如大于0.5时,将搜索字符串设定为新字符串。
步骤S204,获取根据第二纠错样本库中搜索字符串与纠错字符串之间的关系,对所述新字符串进行纠错后的搜索结果,根据所述搜索结果中的事件描述词对所述新字符串进行纠错。
其中第二纠错样本库位于本地服务器中或位于外部的外网服务器中,由于第二纠错样本库面向不同的搜索使用对象,如不同搜索企业或不同的应用程序,收集搜索数据的速度更快,通常对于热词更加敏感,在有热词出现时,按照目前的搜索方式可以快速将热词纠错关系存储到第二纠错样本库中。
本实施例本地服务器在纠错时间窗口内监测到新字符串后,将其发送到外网服务器,其中发送的方式可以为由本地服务器将该纠错时间窗口中所有新字符串进行整理后,以新字符串包的形式发送到外网服务器中,或由终端直接向外网服务器发送每个新字符串,由外部搜索引擎服务器对每个新字符串进行整理。
本实施例将卡方检测方应用于搜索热度变化的判断时,可以监测到是否有在不同时间段出现爆发波动的新字符串。其中卡方检测是用来判断搜索字符串在第一时间段与第二时间段之间的热度波动情况,所述的热度波动情况具体是指在第一时间段内出现频次较低或未出现,在第二时间段内出现较高,上述情况可以判定为搜索字符串出现了热度波动。其中检测搜索字符串出现热度波动的方式不限于卡方检测,还可以使用其他的计算方式,如通过计算不同时间段的出现次数和/或次数占比来判断波动的情况。
其中根据各搜索字符串在不同时间段的出现次数分为以下几类,在第一时间段内获取到的搜索字符串的总次数,在第二时间段内获取到的搜索字符串的总次数,以及各个搜索字符串在第一时间段内和第二时间段内中出现的次数。所述出现的次数计算方法可以为,对应多次输入的搜索字符串完全相同才记做为同一个搜索字符串,还可以将包含有多个相同搜索字符的搜索字符串记做为同一个搜索字符串。
卡方检测检验的基本思想是根据样本数据推断实际频次与期望频次是否有显著性差异,所以卡方检测可以用于搜索字符串的是否出现搜索热度爆发式波动,本发明实施例中,将第一时间段内的搜索字符串和第二时间段内的搜索字符串的出现次数映射为同一字符串在不同时间段的搜索热度的卡方计算四格表,根据卡方计算四格表计算卡方值X2,如果某个搜索字符串的卡方值X2大于设定阈值,判断出第二时间段内相比于第一时间段内的搜索字符串有显著性的波动,即判断出该搜索字符串是否为新字符串。
具体地,将得到的卡方值X2与设定的热度明显波动的卡方值进行比较,得到同一字符串在不同时间段的搜索热度是否产生了明显的波动,其中本地服务器中可以设定一阈值,其中阈值的大小可以根据机器学习的训练得到,例如将历史时间中明显突增的搜索字符串以及搜索字符串的名称作为输入特征输入到新字符串阈值训练模型中,将该搜索字符串是新字符串的概率设定为100%作为输出特征,得到新字符串阈值训练模型,从而得到一判断搜索字符串是否为新字符串的卡方对应概率的阈值大小。
根据各搜索字符串在不同时间段的出现次数,构建映射同一字符串在不同时间段的搜索热度的卡方计算四格表,如表1所示,为根据第一时间段t0和第一时间段t1计算任一搜索字符串A的卡方计算四表格:
表1
如表1所示,作为一种可选的实施方式,搜索字符串A在纠错时间窗口内的第一时间段t0与第二时间段t1中对应的搜索字符串的出现总次数为a+c,如100个,在第一时间段内搜索字符串A出现的次数为10次,除A外其他搜索字符出现次数为b,第二时间段内,搜索字符串A出现的次数为60次,根据出现的次数和搜索的总次数可以计算出其他搜索字符串在第二时间段出现的总次数。根据本发明提供的卡方值计算公式,“词语1”与“词语2”在第一时间段出现的次数记做a,及除该搜索字符串外其他搜索字符串在第一时间段出现的总次数b,各搜索字符串在第二时间段出现的次数c,及除该搜索字符串外其他搜索字符串在第二时间段出现的总次数d,各搜索字符串在第一时间的段与第二时间段出现的总次数n,卡方值具体的,例如“词语1”在第一时间段出现次数为10次,对应的其他搜索字符在第一时间段出现次数为90次,“词语2”在第一时间段出现次数为10次,对应的其他搜索字符在第一时间段出现次数为90次,“词语1”在第二时间段出现次数为60次,对应的其他搜索字符在第二时间段出现次数为40次,“词语2”在第二时间段出现次数为30次,对应的其他搜索字符在第二时间段出现次数为70次,其中各搜索字符串在第一时间段与第二时间段出现总次数为200次,上式计算可以得到搜索字符串“词语1”卡方值为6.51,“词语2”卡方值为1.041,其中设定的新字符串的阈值为卡方值大于1时设定为新字符串,所以将上述两个搜索字符串均被设定为新字符串。
作为另一种可选的实施方式,根据所述卡方计算四格表计算卡方值的在卡方分布临界值表中对应的概率值,设定一新字符串的概率值的阈值,根据上式计算可以得到搜索字符串“词语1”卡方值为6.51,“词语2”卡方值为1.041,“词语1”、“词语2”带入卡方分布临界表中,其中根据卡方值得到的卡方分布临界表中对应的概率值,为本领域技术人员应知的方法,将“词语1”卡方值对应的概率值为0.99左右,“词语2”卡方值对应的概率值为0.7左右,设定当卡方值对应的概率值大于0.5时将搜索字符串设定为新字符串,所以将上述两个搜索字符串均被设定为新字符串。
其中外网服务器对于新字符串搜索的方法,为在第二纠错样本库中进行新字符串的纠错,并利用纠错后的纠错字符串进行搜索,得到包括多个事件。需要说明时,本地服务器和外网服务器对搜索字符串进行纠错时,可能纠错的结果为搜索字符串本身,也可能为另一新字符串,本实施例中统称经过纠错样本库查询的搜索字符串为纠错字符串。
搜索得到的每个事件包括事件内容和事件描述词,其中在基于纠错字符串在数据库中进行检索时,可以采用纠错字符串与事件描述词模糊匹配的方式进行检索,即事件的事件描述词中包含有纠错字符串或与纠错字符串相近时,记做纠错字符串与事件描述词有命中关系;设定一事件描述词命中概率值,其中事件描述词命中概率计算方式为把含有事件描述词的事件内容记做一篇命中的事件内容,含有该事件描述词的事件内容的篇数占所有的根据新字符串搜索到的事件内容的篇数的概率,记做事件描述词的命中概率值。
作为另一种可选的实施方式,在基于纠错字符串在数据库中进行检索时,可以采用纠错字符串与事件描述词精准匹配的方式进行搜索,即事件的事件描述词中有与纠错字符串完全相同的事件描述词,记做一篇新字符串与事件描述词有命中关系,其中命中概率值的计算方法与第一种实施方式相同,这里不再赘述。
其中在第二纠错样本库中设定一事件描述词命中概率阈值,当命中概率值大于命中概率阈值时,将该事件描述词设定为纠错字符串;当命中概率小于命中概率阈值时,认定该事件描述词不足以将新字符串进行纠错。
作为一种可选的实施方式,本地服务器根据外网服务器返回的搜索结果中的事件描述词对新字符串进行纠错,具体为:确定搜索结果中所包含的事件,及各事件对应的事件描述词;确定各事件描述词在搜索结果中所包含的事件中出现的概率;确定出现概率大于设定概率的事件描述词与所搜索时所用新字符串不符时,利用该事件描述词对所述新字符串进行纠错。
作为另一种可选的实施方式,也可以由外网服务器在第二纠错样本库根据新字符串搜索出纠错字符串后,将新字符串与纠错字符串进行匹配,匹配的方式为精准匹配,当新字符串与纠错字符串完全相同时,不对新字符串进行纠错。若新字符串与纠错字符串不完全相同时,将新字符串与纠错字符串建立纠错关系,将此种纠错关系发送到本地服务器中。
作为一种可选的实施方式,当置入的第二纠错样本库的该纠错时间窗口中的新字符串只有一条时,纠错字符串与该新字符串建立纠错关系,本地服务器在第一纠错样本库中保存该纠错关系,或者由外网服务器确定该此种纠错关系发送到本地服务器中。
作为另一种可选的实施方式,当置入的第二纠错样本库的该纠错时间窗口中新字符串有至少两条时,确定出现概率大于设定概率的事件描述词与所搜索时所用新字符串不符,与另一个新字符串相符,且另一新字符串进行纠错后的搜索结果中,出现概率大于设定概率的事件描述词与所述另一新字符串相符时,利用该事件描述词对所述新字符串进行纠错。
即将第一新字符串置入第二纠错样本库时,搜索到纠错字符串后,与第一新字符串不符,且与置入第二纠错样本库的另一新字符串相符,将另一新字符串置入第二纠错样本库后得到与第一新字符串相同的纠错字符串时,可以建立第一新字符串与纠错字符串或另一新字符串的纠错关系。
作为另一种可选的实施方式,当置入的第二纠错样本库的该纠错时间窗口中新字符串有至少两条时,至少两条对应的新字符串的语义相同或对应的拼音全拼相同且将至少两条对应的新字符串置入第二纠错样本库中得到的纠错字符串相同时,建立至少两条对应的新字符串与同一纠错字符串的纠错关系。
例如:纠错时间窗口中存在有“西红柿首富”、“西红柿首付”两个新字符串,因上述两个新字符串的拼音全拼均为“xihongshishoufu”,其对应的新字符串的纠错字符串均为“西虹市首富”,建立“西红柿首富”、“西红柿首付”与“西虹市首富”的纠错关系。
在建立新的纠错关系之后,将从第二纠错样本库中获取的纠错关系对发送到本地服务器中的第一纠错样本库中进行更新,当终端再次获取到搜索该新字符串时,基于第一纠错样本中的新的纠错对,对于搜索的新字符串进行纠错提示,具体纠错方法这里不做赘述。
采用上述方式可以基于热门事件中新闻标题及内容的分布的方法来对新词进行纠错,从来规避传统纠错方法强依赖于短时间内大量积累的用户查询日志的问题。
如图4所示,图4为对于搜索字符串的纠错方法的完整流程图,
步骤S401,由终端获取搜索字符串发送到中本地服务器的第一纠错样本库中;
步骤S402,当到达纠错时间窗口时,在纠错窗口相邻的第一时间段和第二时间段内获取搜索字符串的出现次数;
步骤S403,根据各搜索字符串在第一时间段内和第二时间段内得到的出现次数映射到卡方四格表中,得到该搜索字符串的卡方值/卡方值在卡方分布临界值表中对应的概率值;
步骤S404,根据得到的卡方值/卡方值在卡方分布临界值表中对应的概率值,确定卡方值/概率值大于对应的设定阈值,若大于设定阈值则执行步骤S405,若小于设定阈值,则判定该搜索字符串波动不大,不进行纠错关系的建立;
步骤S405,当卡方值/概率值大于设定阈值,判断为该搜索字符串出现了较大波动,将其定义为新字符串;
S406,将新字符串发送到外网服务器中,由外网服务器对新字符串的数量进行判断,若新字符串只有一个,执行步骤S409,否则执行步骤S407;
步骤S407,将新字符串从外网服务器置入到第二纠错样本库中,当新字符串有至少两个时,首先判断至少两个字符串中是否有语义或拼音全拼相同的新字符串,若没有,执行步骤S409,否则执行步骤S408;
步骤S408,将语义或拼音全拼相同的新字符串归为一组发送到第二纠错样本库中;
步骤S409,将各新字符串在第二纠错样本库中进行事件的搜索,判断是否有大于命中概率的事件描述词,若搜索到的事件包含的事件描述词中没有大于命中概率阈值的事件描述词,则判断外网服务器中的外部搜索引擎没有纠错字符串,不进行纠错关系的建立,否则执行步骤S410;
步骤S410,若有大于命中概率阈值的事件描述词,将该事件描述词设定为纠错字符串,判断纠错字符串与新字符串是否完全符合,若完全符合,则不进行纠错关系的建立,否则执行步骤S411;
步骤S411,判断纠错字符串与新字符串不完全符合,建立纠错字符串与新字符串的纠错关系,将对应的纠错关系发送到本地服务器的第一纠错样本库中进行纠错关系的更新。其中本发明实施例中对于新字符串的数量判断以及搜索是否有大于命中概率的事件描述词等步骤也可以在本地服务器中执行,其步骤与在外网服务器的步骤相同,这里不做赘述。
基于本发明实施例1提供的搜索字符串纠错方法,本发明可以应用于在终端某应用程序中进行搜索时,通过获取在应用程序中进行搜索时输入的搜索字符串,例如,在应用程序中搜索了某电影,其搜索记录为输入了“西红柿首富”,此种输入错误的情况在此时间段内发生的很频繁,通过获取第一时间段内与第二时间段内的实际统计数据,得到卡方值,将卡方值带入卡方分布临界值表中得到该输入错误输入词的偏离程度,检测到该搜索字符串有较大偏离程度,将其归为新字符串进行纠错关系的建立,此时将该新字符串置入如某度、某博等外部搜索引擎中,得到当前时段该新字符串搜索到的各个事件描述信息中含有“西虹市首富”的事件描述词的概率较高,且大于设定命中概率阈值时,将“西虹市首富”设定为纠错字符串,将该新字符串与纠错字符串进行匹配,纠错字符串与该新字符串不符,将“西虹市首富”和“西红柿首富”建立纠错关系,将“西虹市首富”作为“西红柿首富”的纠错字符串发送到本地服务器或终端中。
其中图5为“西红柿首富”在外网服务器中进行搜索的搜索界面,可以看出“西虹市首富”的事件描述词在“西红柿首富”的外网服务器的第二纠错样本库中的事件对应的事件描述信息中,所有事件描述信息中“西虹市首富”占比明显大于“西红柿首富”一词,其中第二纠错样本库界面501,新字符串输入窗口502,事件界面503,事件对应的描述词504,事件对应的中事件内容界面505。
其中图6为终端获取本地服务器的第一纠错样本库在外部的外网服务器进行搜索字符串的对比图,其中第一纠错样本库未通过外网服务器进行搜索字符串的原纠错界面601,第一纠错样本库通过外网服务器进行搜索字符串的纠错后界面602。
实施例2
本发明实施例提供了一种搜索字符串纠错的装置,所述装置包括至少一个处理单元700和至少一个存储单元701,所述存储单元701中存储有计算机程序,所述处理单元700用于执行所述存储单元701中的计算机程序,用于执行如下步骤:
接收搜索字符串,根据第一纠错样本库中搜索字符串与纠错字符串之间的对应关系,对所述搜索字符串进行纠错;
到达纠错时间窗口时,在所述纠错时间窗口内的至少两个时间段分别获取对应的搜索字符串;
根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的搜索热度,确定搜索热度的变化幅度超过设定阈值的搜索字符为新字符串;
获取根据第二纠错样本库中搜索字符串与纠错字符串之间的关系,对所述新字符串进行纠错后的搜索结果,根据所述搜索结果中的事件描述词对所述新字符串进行纠错。
可选地,对所述新字符串进行纠错之后,还包括:
在所述第一纠错样本库中保存所述新字符串与纠错的事件描述词之间的关系。
可选地,到达纠错时间窗口时,在所述纠错时间窗口内的至少两个时间段分别获取对应的搜索字符串,包括:
到达纠错时间窗口时,在所述纠错时间窗口内相邻的第一时间段和第二时间段分别获取对应的搜索字符串。
可选地,根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的搜索热度,确定搜索热度的变化幅度超过设定阈值的搜索字符串为新字符串,包括:
根据各搜索字符串在不同时间段的出现次数,构建映射同一字符串在不同时间段的搜索热度的卡方计算四格表;
根据所述卡方计算四格表计算卡方值/卡方值在卡方分布临界值表中对应的概率值,确定卡方值/概率值大于对应的设定阈值的搜索字符为新字符串。
可选地,根据各搜索字符串在不同时间段的出现次数,构建映射同一字符串在不同时间段的搜索热度的卡方计算四格表,包括:
确定各搜索字符串在第一时间段出现的次数a,及除该搜索字符串外其他搜索字符串在第一时间段出现的总次数b,各搜索字符串在第二时间段出现的次数c,及除该搜索字符串外其他搜索字符串在第二时间段出现的总次数d;
基于所述次数a、次数b、次数c和次数d构建卡方计算四格表。
可选地,根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的搜索热度,包括:
根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的出现次数占比、出现次数;
将所述次数占比、出现次数进行加权求和,确定同一字符串在不同时间段的搜索热度。
可选地,根据所述搜索结果中的事件描述词对所述新字符串进行纠错,包括:
确定搜索结果中所包含的事件,及各事件对应的事件描述词;
确定各事件描述词在搜索结果中所包含的事件中出现的概率;
确定出现概率大于设定概率的事件描述词与所搜索时所用新字符串不符时,利用该事件描述词对所述新字符串进行纠错。
可选地,利用该事件描述词对所述新字符串进行纠错:
确定出现概率大于设定概率的事件描述词与所搜索时所用新字符串不符,与另一个新字符串相符,且另一新字符串进行纠错后的搜索结果中,出现概率大于设定概率的事件描述词与所述另一新字符串相符时,利用该事件描述词对所述新字符串进行纠错。
另外,如图8所示,本发明实施例提供的装置800还包括:电源820、处理器830、存储器840、通信接口880、以及无线保真(Wireless Fidelity,WiFi)模块890等部件。本领域技术人员可以理解,图8中示出的装置的结构并不构成对装置的限定,本申请实施例提供的装置可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图8对所述装置800的各个构成部件进行具体的介绍:
WiFi技术属于短距离无线传输技术,所述装置800通过WiFi模块890可以连接的接入点(Access Point,AP),从而实现数据网络的访问。所述WiFi模块890可用于通信过程中,数据的接收和发送。
所述装置800可以通过所述通信接口880与其他装置实现物理连接。可选的,所述通信接口880与所述其他装置的通信接口通过电缆连接,实现所述装置800和其他装置之间的数据传输。
由于在本申请实施例中,所述装置800能够实现通信业务,向其他联系人发送信息,因此所述装置800需要具有数据传输功能,即所述装置800内部需要包含通信模块。所述WiFi模块890、和所述通信接口880等通信模块,但是可以理解的是,所述装置800中存在上述部件中的至少一个或者其他用于实现通信的通信模块(如蓝牙模块),以进行数据传输。
例如,当所述装置800为手机时,所述装置800可以包含所述WiFi模块890;当所述装置800为计算机时,所述装置800可以包含所述通信接口880,可以包含所述WiFi模块890;当所述装置800为平板电脑时,所述装置800可以包含所述WiFi模块。
所述存储器840可用于存储软件程序以及模块。所述处理器830通过运行存储在所述存储器840的软件程序以及模块,从而执行所述装置800的各种功能应用以及数据处理,并且当处理器830执行存储器840中的程序代码后,可以实现本发明实施例的部分或全部过程。
可选的,所述存储器840可以主要包括存储程序区和存储数据区。其中,存储程序区可存储操作系统、各种应用程序(比如通信应用)以及进行WLAN连接的各个模块等;存储数据区可存储根据所述装置的使用所创建的数据等。
此外,所述存储器840可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述处理器830是所述装置800的控制中心,利用各种接口和线路连接各个部件,通过运行或执行存储在所述存储器840内的软件程序和/或模块,以及调用存储在所述存储器840内的数据,执行所述装置800的各种功能和处理数据,从而实现基于所述装置的多种业务。
可选的,所述处理器830可包括一个或多个处理单元。可选的,所述处理器830可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到所述处理器830中。
所述装置800还包括用于给各个部件供电的电源820(比如电池)。可选的,所述电源820可以通过电源管理系统与所述处理器830逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗等功能。
尽管未示出,所述装置800还可以包括至少一种传感器、音频电路等,在此不再赘述。
实施例3
本发明实施例提供了一种搜索字符串纠错的装置,该装置包括:
第一纠错模块901,用于接收搜索字符串,根据第一纠错样本库中搜索字符串与纠错字符串之间的对应关系,对所述搜索字符串进行纠错;
字符串获取模块902,用于到达纠错时间窗口时,在所述纠错时间窗口内的至少两个时间段分别获取对应的搜索字符串;
新字符串确定模块903,用于根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的搜索热度,确定搜索热度的变化幅度超过设定阈值的搜索字符串为新字符串;
第二纠错模块904,用于获取根据第二纠错样本库中搜索字符串与纠错字符串之间的关系,对所述新字符串进行纠错后的搜索结果,根据所述搜索结果中的事件描述词对所述新字符串进行纠错。
可选地,所述第二纠错模块904具体用于:对所述新字符串进行纠错之后,还包括:
在所述第一纠错样本库中保存所述新字符串与纠错的事件描述词之间的关系。
可选地,所述字符串获取模块902具体用于:到达纠错时间窗口时,在所述纠错时间窗口内的至少两个时间段分别获取对应的搜索字符串,包括:
到达纠错时间窗口时,在所述纠错时间窗口内相邻的第一时间段和第二时间段分别获取对应的搜索字符串。
可选地,所述新字符串确定模块903具体用于:根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的搜索热度,确定搜索热度的变化幅度超过设定阈值的搜索字符串为新字符串,包括:
根据各搜索字符串在不同时间段的出现次数,构建映射同一字符串在不同时间段的搜索热度的卡方计算四格表;
根据所述卡方计算四格表计算卡方值/卡方值在卡方分布临界值表中对应的概率值,确定卡方值/概率值大于对应的设定阈值的搜索字符为新字符串。
可选地,所述新字符串确定模块903具体还用于:根据各搜索字符串在不同时间段的出现次数,构建映射同一字符串在不同时间段的搜索热度的卡方计算四格表,包括:
确定各搜索字符串在第一时间段出现的次数a,及除该搜索字符串外其他搜索字符串在第一时间段出现的总次数b,各搜索字符串在第二时间段出现的次数c,及除该搜索字符串外其他搜索字符串在第二时间段出现的总次数d;
基于所述次数a、次数b、次数c和次数d构建卡方计算四格表。
可选地,所述新字符串确定模块903具体还用于:根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的搜索热度,包括:
根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的出现次数占比、出现次数;
将所述次数占比、出现次数进行加权求和,确定同一字符串在不同时间段的搜索热度。
可选地,所述第二纠错模块904具体还用于:根据所述搜索结果中的事件描述词对所述新字符串进行纠错,包括:
确定搜索结果中所包含的事件,及各事件对应的事件描述词;
确定各事件描述词在搜索结果中所包含的事件中出现的概率;
确定出现概率大于设定概率的事件描述词与所搜索时所用新字符串不符时,利用该事件描述词对所述新字符串进行纠错。
可选地,所述第二纠错模块904具体还用于:利用该事件描述词对所述新字符串进行纠错:
确定出现概率大于设定概率的事件描述词与所搜索时所用新字符串不符,与另一个新字符串相符,且另一新字符串进行纠错后的搜索结果中,出现概率大于设定概率的事件描述词与所述另一新字符串相符时,利用该事件描述词对所述新字符串进行纠错。
实施例4
本发明实施例提供了一种计算机程序介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现上述搜索字符串纠错方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种搜索字符串纠错方法,其特征在于,该方法包括:
接收搜索字符串,根据第一纠错样本库中搜索字符串与纠错字符串之间的对应关系,对所述搜索字符串进行纠错;
到达纠错时间窗口时,在所述纠错时间窗口内的至少两个时间段分别获取对应的搜索字符串;
根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的搜索热度,确定搜索热度的变化幅度超过设定阈值的搜索字符串为新字符串;
获取根据第二纠错样本库中搜索字符串与纠错字符串之间的关系,对所述新字符串进行纠错后的搜索结果,根据所述搜索结果中的事件描述词对所述新字符串进行纠错。
2.根据权利要求1所述的方法,其特征在于,对所述新字符串进行纠错之后,还包括:
在所述第一纠错样本库中保存所述新字符串与纠错的事件描述词之间的关系。
3.根据权利要求1所述的方法,其特征在于,到达纠错时间窗口时,在所述纠错时间窗口内的至少两个时间段分别获取对应的搜索字符串,包括:
到达纠错时间窗口时,在所述纠错时间窗口内相邻的第一时间段和第二时间段分别获取对应的搜索字符串。
4.根据权利要求3所述的方法,其特征在于,根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的搜索热度,确定搜索热度的变化幅度超过设定阈值的搜索字符串为新字符串,包括:
根据各搜索字符串在不同时间段的出现次数,构建映射同一字符串在不同时间段的搜索热度的卡方计算四格表;
根据所述卡方计算四格表计算卡方值/卡方值在卡方分布临界值表中对应的概率值,确定卡方值/概率值大于对应的设定阈值的搜索字符为新字符串。
5.根据权利要求4所述的方法,其特征在于,根据各搜索字符串在不同时间段的出现次数,构建映射同一字符串在不同时间段的搜索热度的卡方计算四格表,包括:
确定各搜索字符串在第一时间段出现的次数a,及除该搜索字符串外其他搜索字符串在第一时间段出现的总次数b,各搜索字符串在第二时间段出现的次数c,及除该搜索字符串外其他搜索字符串在第二时间段出现的总次数d;
基于所述次数a、次数b、次数c和次数d构建卡方计算四格表。
6.根据权利要求1所述的方法,其特征在于,根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的搜索热度,包括:
根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的出现次数占比、出现次数;
将所述次数占比、出现次数进行加权求和,确定同一字符串在不同时间段的搜索热度。
7.根据权利要求1所述的方法,其特征在于,根据所述搜索结果中的事件描述词对所述新字符串进行纠错,包括:
确定搜索结果中所包含的事件,及各事件对应的事件描述词;
确定各事件描述词在搜索结果中所包含的事件中出现的概率;
确定出现概率大于设定概率的事件描述词与所搜索时所用新字符串不符时,利用该事件描述词对所述新字符串进行纠错。
8.根据权利要求7所述的方法,其特征在于,利用该事件描述词对所述新字符串进行纠错,包括:
确定出现概率大于设定概率的事件描述词与所搜索时所用新字符串不符,与另一个新字符串相符,且另一新字符串进行纠错后的搜索结果中,出现概率大于设定概率的事件描述词与所述另一新字符串相符时,利用该事件描述词对所述新字符串进行纠错。
9.一种搜索字符串纠错的装置,其特征在于,包括至少一个处理单元和至少一个存储单元;
其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行下列过程:
接收搜索字符串,根据第一纠错样本库中搜索字符串与纠错字符串之间的对应关系,对所述搜索字符串进行纠错;
到达纠错时间窗口时,在所述纠错时间窗口内的至少两个时间段分别获取对应的搜索字符串;
根据各搜索字符串在不同时间段的出现次数,统计同一字符串在不同时间段的搜索热度,确定搜索热度的变化幅度超过设定阈值的搜索字符为新字符串;
获取根据第二纠错样本库中搜索字符串与纠错字符串之间的关系,对所述新字符串进行纠错后的搜索结果,根据所述搜索结果中的事件描述词对所述新字符串进行纠错。
10.一种计算机程序介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现如权利要求1~7任一项所述搜索字符串纠错方法。
CN201910870655.7A 2019-09-16 2019-09-16 一种搜索字符串纠错方法及装置 Active CN110569441B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910870655.7A CN110569441B (zh) 2019-09-16 2019-09-16 一种搜索字符串纠错方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910870655.7A CN110569441B (zh) 2019-09-16 2019-09-16 一种搜索字符串纠错方法及装置

Publications (2)

Publication Number Publication Date
CN110569441A true CN110569441A (zh) 2019-12-13
CN110569441B CN110569441B (zh) 2022-05-17

Family

ID=68780402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910870655.7A Active CN110569441B (zh) 2019-09-16 2019-09-16 一种搜索字符串纠错方法及装置

Country Status (1)

Country Link
CN (1) CN110569441B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324718A (zh) * 2013-06-25 2013-09-25 百度在线网络技术(北京)有限公司 基于海量搜索日志挖掘话题脉络的方法和系统
CN104035966A (zh) * 2014-05-16 2014-09-10 百度在线网络技术(北京)有限公司 一种提供扩展搜索项的方法与装置
CN104156454A (zh) * 2014-08-18 2014-11-19 腾讯科技(深圳)有限公司 搜索词的纠错方法和装置
CN104252470A (zh) * 2013-06-26 2014-12-31 重庆新媒农信科技有限公司 一种热词推荐方法及系统
CN104504037A (zh) * 2014-12-15 2015-04-08 深圳市宜搜科技发展有限公司 实体词热度计算方法及装置
CN105512199A (zh) * 2015-11-27 2016-04-20 广州神马移动信息科技有限公司 搜索方法、搜索装置以及搜索服务器
CN105589895A (zh) * 2014-11-13 2016-05-18 深圳市腾讯计算机系统有限公司 资源排行数据生成方法和装置
CN106095778A (zh) * 2016-05-26 2016-11-09 达而观信息科技(上海)有限公司 搜索引擎的中文搜索词自动纠错方法
CN107066533A (zh) * 2017-03-01 2017-08-18 北京奇艺世纪科技有限公司 搜索查询纠错系统及方法
CN109002521A (zh) * 2018-07-12 2018-12-14 北京猫眼文化传媒有限公司 搜索关键词的纠错方法、装置和存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324718A (zh) * 2013-06-25 2013-09-25 百度在线网络技术(北京)有限公司 基于海量搜索日志挖掘话题脉络的方法和系统
CN104252470A (zh) * 2013-06-26 2014-12-31 重庆新媒农信科技有限公司 一种热词推荐方法及系统
CN104035966A (zh) * 2014-05-16 2014-09-10 百度在线网络技术(北京)有限公司 一种提供扩展搜索项的方法与装置
CN104156454A (zh) * 2014-08-18 2014-11-19 腾讯科技(深圳)有限公司 搜索词的纠错方法和装置
CN105589895A (zh) * 2014-11-13 2016-05-18 深圳市腾讯计算机系统有限公司 资源排行数据生成方法和装置
CN104504037A (zh) * 2014-12-15 2015-04-08 深圳市宜搜科技发展有限公司 实体词热度计算方法及装置
CN105512199A (zh) * 2015-11-27 2016-04-20 广州神马移动信息科技有限公司 搜索方法、搜索装置以及搜索服务器
CN106095778A (zh) * 2016-05-26 2016-11-09 达而观信息科技(上海)有限公司 搜索引擎的中文搜索词自动纠错方法
CN107066533A (zh) * 2017-03-01 2017-08-18 北京奇艺世纪科技有限公司 搜索查询纠错系统及方法
CN109002521A (zh) * 2018-07-12 2018-12-14 北京猫眼文化传媒有限公司 搜索关键词的纠错方法、装置和存储介质

Also Published As

Publication number Publication date
CN110569441B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN109101620B (zh) 相似度计算方法、聚类方法、装置、存储介质及电子设备
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
US20060184517A1 (en) Answers analytics: computing answers across discrete data
WO2014160282A1 (en) Classifying resources using a deep network
CN111046667B (zh) 一种语句识别方法、语句识别装置及智能设备
Kiktova-Vozarikova et al. Feature selection for acoustic events detection
CN111694940A (zh) 一种用户报告的生成方法及终端设备
CN111708942B (zh) 多媒体资源推送方法、装置、服务器及存储介质
JP7436077B2 (ja) スキルの音声ウェイクアップ方法および装置
CN110727769B (zh) 语料库生成方法及装置、人机交互处理方法及装置
CN109710732A (zh) 信息查询方法、装置、存储介质和电子设备
CN106326388A (zh) 一种信息处理方法和装置
CN111046653B (zh) 一种语句识别方法、语句识别装置及智能设备
US11238103B2 (en) Binary coding for improved semantic search
CN111192170A (zh) 题目推送方法、装置、设备和计算机可读存储介质
CN114756677A (zh) 样本生成方法、文本分类模型的训练方法及文本分类方法
CN104462347A (zh) 关键词的分类方法及装置
CN110569441B (zh) 一种搜索字符串纠错方法及装置
CN111143695A (zh) 一种搜索方法、装置、服务器及存储介质
WO2021082570A1 (zh) 基于人工智能的语义识别方法、装置和语义识别设备
CN114242047A (zh) 一种语音处理方法、装置、电子设备及存储介质
CN113609373A (zh) 知识推荐方法、装置、电子设备及存储介质
CN112463920A (zh) 一种信息应答方法及装置
CN110705275A (zh) 主题词提取方法、装置、存储介质及电子设备
CN110175241A (zh) 问答库构建方法、装置、电子设备及计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40019358

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant