CN102073736A - 疑难字搜索方法及搜索系统 - Google Patents
疑难字搜索方法及搜索系统 Download PDFInfo
- Publication number
- CN102073736A CN102073736A CN 201110022916 CN201110022916A CN102073736A CN 102073736 A CN102073736 A CN 102073736A CN 201110022916 CN201110022916 CN 201110022916 CN 201110022916 A CN201110022916 A CN 201110022916A CN 102073736 A CN102073736 A CN 102073736A
- Authority
- CN
- China
- Prior art keywords
- difficult word
- difficult
- query statement
- module
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种疑难字搜索方法,包括以下步骤:接收查询指令;通过查询指令分析模块分析所述查询指令中的疑难字片段;将所述疑难字片段在疑难字数据存储模块中进行检索,得到查询指令检索结果;输出所述查询指令检索结果。与现有技术相比,本发明的有益效果是:本发明可对用户在搜索引擎中输入的查询指令进行分析,判断用户的疑难字需求,并查找出用户需要了解的疑难字相关信息,提高用户检索效率,节约网络流量,提升用户使用体验。
Description
技术领域
本发明涉及搜索引擎技术,尤其涉及一种疑难字搜索方法及搜索系统。
背景技术
随着互联网上信息的飞速增长,网络上充斥了越来越多的冗余信息,而对于在网络上搜寻自己所需要信息的互联网用户而言,面对这些漫无边际的信息无疑像大海捞针。搜索引擎的出现无疑在一定程度上为用户的搜索需求带来了很大便利。搜索引擎是一种在网络上应用的软件系统,其以一定的策略在网络上搜集和发现信息,并在对信息进行处理和组织后,为用户提供互联网上的信息搜索服务。通常,这种软件系统提供一个网页界面,让用户在客户端通过浏览器软件提交搜索词,然后很快返回一个可能和用户输入的搜索内容相关的信息列表。这个列表通常会包括上万个条目,每个条目代表一篇搜索到的相关网页。
过去十几年以来,相应地,众多的互联网搜索引擎及对应的网站应运而生,这中间的佼佼者包括百度公司的百度搜索(www.baidu.com)和谷歌公司的谷歌搜索(www.google.cn)。
搜索引擎的一重要应用在于,当用户有疑问需要解答时,搜索引擎可帮助用户快速的搜索问题答案,而无须如以前一般,用户需要翻阅大量书籍、字典、网站等才可能找到相应答案。特别的,对于中文用户而言,搜索疑难字更是需要经常用到的:
人们在遇到疑难字不知怎么读或者印象中记得疑难字的组成部分但不知其结构时,经常会在搜索引擎中输入类似“三个雷怎么读”、“男女男念什么”、“开火是什么字”这样的查询指令。然而,一般地,现有搜索引擎只专注于用户所输入查询指令的字面本身,通过对用户输入的查询指令进行切词,按切词后得到的字符进行检索,造成了对用户的真正需求了解不深刻,以致检索结果不能很好的满足用户需求,检索效率较低,网络流量较大。例如:用户在搜索引擎中输入“三个雷怎么读”的查询指令,其想要搜索的并不是含有“三个”、“雷”、“怎么读”等字符的内容,而是想要搜索与“靐”这个字相关的内容。
为了解决查询疑难字的问题,现有技术已经公开了一些系统和方法,例如:中国专利申请第200810000783.8号,发明名称为“基于计算机网络通过汉字结构查询汉字的系统及其方法”,其系统包括安装了数据库的服务器端以及客户端,客户端设有结构查字条件选择装置,数据库由包括简体汉字和繁体汉字及属性库组成,服务器端设有用于客户端用户将查询指令通过网络发送到服务器端查询汉字的查询装置、用于汉字和汉字属性加工处理的工作平台、用于以网站形式将数据库内容发布公开供用户使用的发布平台、用于监控管理加工平台和发布平台的管理平台。其方法包括当客户端用户进入服务器查询装置时,结构查字条件选择装置显示在用户的界面上供用户进行结构选择,得到查询初步结果,并通过排序或筛选得到目标汉字及相关信息。然而,上述的查字系统和方法是通过用户选择字形结构进行查询的,且还需对查询初步结果进行排序和筛选,才能得到目标汉字,其查询效率较低、网络流量较大;另外,上述的查字系统和方法并不基于用户输入的查询指令,不适用于搜索引擎。
发明内容
本发明的目的在于提供一种改进的疑难字搜索方法,其可通过对用户输入的查询指令进行分析,判断用户的疑难字需求,并查找出用户需要了解的疑难字相关信息。
本发明的目的还在于提供一种实现上述疑难字搜索方法的疑难字搜索系统。
为实现上述发明目的之一,本发明的一种疑难字搜索方法的一实施方式,包括以下步骤:
S1、接收查询指令;
S3、通过查询指令分析模块分析所述查询指令中的疑难字片段;
S4、将所述疑难字片段在疑难字数据存储模块中进行检索,得到查询指令检索结果;
S6、输出所述查询指令检索结果。
作为本发明的进一步改进,在所述S1步骤后,还包括步骤S2:
判断所述查询指令是否为具有疑难字需求的查询指令;若是,则进入所述S3步骤;若否,则进入步骤S5:在普通搜索引擎索引中对所述查询指令进行搜索。
作为本发明的进一步改进,所述S3步骤具体包括:
S31、用户表达方式及疑难字片段挖掘模块输入用户表达模板和疑难字片段至所述查询指令分析模块;
S32、通过查询指令分析模块分析所述查询指令中的疑难字片段。
作为本发明的进一步改进,所述用户表达模板和疑难字片段的挖掘方法包括:
S100、设定已知的疑难字片段表述种子词;
S101、从接收到的查询指令日志中挖掘包含所述表述种子词的查询指令;
S102、从所述查询指令中将所述疑难字片段去除,生成用户表达模板;
S103、根据所述用户表达模板从查询指令日志中挖掘疑难字片段;
S104、判断是否有新疑难字片段;若有,则进入步骤S105、若无,则进入步骤S106;
S105、将所述新疑难字片段作为新种子词,并重复S101~S104步骤;
S106、结束挖掘。
作为本发明的进一步改进,所述疑难字数据存储模块存储的包括:疑难片段对应疑难字及疑难字相关信息。
作为本发明的进一步改进,所述疑难字数据存储模块为映射表。
作为本发明的进一步改进,所述疑难字相关信息包括:读音、部首、笔画、笔顺、四角号码、字义。
为实现上述发明目的之一,本发明的一种疑难字搜索方法的另一实施方式,包括以下步骤:
S11、接收查询指令;
S13、通过查询指令分析模块分析所述查询指令中的疑难字片段;
S14、将所述疑难字片段在所述疑难字数据存储模块和普通搜索引擎索引中进行检索,得到查询指令检索结果;
S16、输出所述查询指令检索结果。
作为本发明的进一步改进,在所述S11步骤后,还包括步骤S12:
判断所述查询指令是否为具有疑难字需求的查询指令;若是,则进入所述S13步骤;若否,则进入步骤S15:在普通搜索引擎索引中对所述查询指令进行搜索。
作为本发明的进一步改进,所述S13步骤具体包括:
S131、用户表达方式及疑难字片段挖掘模块输入用户表达模板和疑难字片段至所述查询指令分析模块;
S132、通过查询指令分析模块分析所述查询指令中的疑难字片段。
作为本发明的进一步改进,所述用户表达模板和疑难字片段的挖掘方法包括:
S100、设定已知的疑难字片段表述种子词;
S101、从接收到的查询指令日志中挖掘包含所述表述种子词的查询指令;
S102、从所述查询指令中将所述疑难字片段去除,生成用户表达模板;
S103、根据所述用户表达模板从查询指令日志中挖掘疑难字片段;
S104、判断是否有新疑难字片段;若有,则进入步骤S105、若无,则进入步骤S106;
S105、将所述新疑难字片段作为新种子词,并重复S101~S104步骤;
S106、结束挖掘。
作为本发明的进一步改进,所述疑难字数据存储模块存储的包括:疑难片段对应疑难字及疑难字相关信息。
作为本发明的进一步改进,所述疑难字数据存储模块为映射表。
作为本发明的进一步改进,所述疑难字相关信息包括:读音、部首、笔画、笔顺、四角号码、字义。
相应地,作为实现上述另一目的,本发明的一种疑难字搜索系统包括:
UI模块,用于接收查询指令,且所述UI模块还用于接收搜索模块返回的搜索结果,并将所述搜索结果拼装为结果页面后输出;
查询指令分析模块,用于分析所述查询指令中的疑难字片段;
搜索模块,用于将所述疑难字片段在疑难字数据存储模块中进行检索,得到查询指令检索结果;以及
疑难字数据存储模块,用于存储疑难字片段与其对应的疑难字及其疑难字相关信息。
作为本发明的进一步改进,所述疑难字搜索系统还包括:
web服务模块,用于通过网络协议接收客户端发出的查询指令,并将所述查询指令转到所述UI模块,且所述web服务模块还用于接收所述UI模块返回的结果页面,并将所述结果页面返回至所述客户端。
作为本发明的进一步改进,所述查询指令分析模块还用于判断所述查询指令是否为具有疑难字需求的查询指令。
作为本发明的进一步改进,所述搜索模块还用于并将非疑难字需求的查询指令在普通搜索引擎索引中进行检索,得到查询指令检索结果。
作为本发明的进一步改进,所述搜索模块还用于将所述疑难字片段在普通搜索引擎索引中进行检索,得到查询指令检索结果。
作为本发明的进一步改进,所述疑难字搜索系统还包括:
用户表达方式及疑难字片段挖掘模块,用于挖掘用户表达模板和疑难字片段;以及
疑难字数据挖掘模块,用于挖掘疑难字片段与其对应的疑难字及其疑难字相关信息。
作为本发明的进一步改进,所述用户表达方式及疑难字片段挖掘模块通过EM迭代算法对用户表达模板和疑难字片段进行挖掘。
作为本发明的进一步改进,所述疑难字数据挖掘模块通过网络问答系统web资源对疑难字片段与疑难字及其疑难字相关信息进行挖掘。
作为本发明的进一步改进,所述疑难字数据挖掘模块通过用户点击日志对疑难字片段与疑难字及其疑难字相关信息进行挖掘。
作为本发明的进一步改进,所述疑难字数据挖掘模块通过暗网资源对疑难字片段与疑难字及其疑难字相关信息进行挖掘。
作为本发明的进一步改进,所述疑难字数据存储模块为映射表。
作为本发明的进一步改进,所述疑难字相关信息包括:读音、部首、笔画、笔顺、四角号码、字义。
与现有技术相比,本发明的有益效果是:本发明可对用户在搜索引擎中输入的查询指令进行分析,判断用户的疑难字需求,并查找出用户需要了解的疑难字相关信息,提高用户检索效率,节约网络流量,提升用户使用体验。
附图说明
图1是本发明疑难字搜索系统与客户端实现互动的工作原理图;
图2是本发明疑难字搜索系统一实施方式的模块图;
图3是本发明疑难字搜索方法一实施方式的流程图;
图4是本发明疑难字搜索方法另一实施方式的流程图;
图5是本发明用户表达方式及疑难字片段挖掘方式的流程图;
图6是通过本发明疑难字搜索方法与搜索系统搜索出的结果页面;
图7是点击图6中首条搜索结果后弹出的相应页面。
具体实施方式
以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所轻易做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
图1所示的本发明的疑难字搜索系统10与客户端20实现互动的工作原理图。本实施方式中,该客户端20包括一浏览器,客户可通过该浏览器打开搜索引擎,并在搜索引擎中输入查询指令,一般的,该输入的查询指令为文本信息,当然,该查询指令还可以为图片信息、视频信息等等。所述疑难字搜索系统10通过网络接收客户输入至所述浏览器中的查询指令,并对该查询指令进行搜索后,将搜索结果返回至该浏览器。其中,该疑难字搜索系统10可以包括一台或多台服务器,该客户端20可以包括一个或多个用户终端设备,如个人计算机、笔记本电脑、无线电话、个人数字处理(PDA)、或其它计算机系统和通信系统。
这些服务器和终端设备在架构上都包含一些基本组件,如总线、处理系统、存储系统、一个或多个输入/输出系统、和通信接口等。总线可以包括一个或多个导线,用来实现服务器或终端设备各组件之间的通信。处理系统包括各类型的用来执行指令、处理进程或线程的处理器或微处理器。存储系统可以包括存储动态信息的随机访问存储器(RAM)等动态存储器,和存储静态信息的只读存储器(ROM)等静态存储器,以及包括磁或光学记录介质与相应驱动的大容量存储器。输入系统供用户输入信息到服务器或终端设备,如键盘、鼠标、手写笔、声音识别系统、或生物测定系统等。输出系统包括用来输出信息的显示器、打印机、扬声器等。通信接口用来使服务器或终端设备与其它系统或系统进行通信。通信接口之间可通过有线连接、无线连接、或光连接连接到网络中,使疑难字搜索系统10、客户端20间能够通过网络实现相互间的通信。网络可以包括局域网(LAN)、广域网(WAN)、电话网络如公共交换电话网(PSTN)、企业内部的互联网、因特网、或上述这些网络的结合等。
服务器和终端设备上均包含有用来管理系统资源、控制其它程序运行的操作系统软件,以及用来实现特定功能模块的应用软件。如图2所示,在本发明一实施方式中,所述疑难字搜索系统10可分为两部分,疑难字搜索部分和数据挖掘部分。其中,所述疑难字搜索部分包括了web服务模块101、与web服务模块101交互通信的UI模块102,与所述UI模块102交互通信的查询指令分析模块103,与所述查询指令分析模块103和所述UI模块102通信的搜索模块104,以及与所述搜索模块104通信的疑难字数据存储模块105;所述数据挖掘部分包括了与所述查询指令分析模块103通信的用户表达方式及疑难字片段挖掘模块106,以及与所述用户表达方式及疑难字片段挖掘模块106和所述疑难字数据存储模块105通信的疑难字数据挖掘模块107。值得一提的是,这些模块即可存储并运行于同一服务器中,也可存储并运行在多台服务器中。
所述web服务模块101用于通过网络协议接收从客户端20传来的查询指令,并将该查询指令转到UI模块102,另外,该web服务模块101还用于接收所述UI模块102返回的结果页面,并将所述结果页面返回至客户端20。
所述UI模块102用于接收所述web服务模块101传送的查询指令,并将该查询指令发送至所述查询指令分析模块103;另外,所述UI模块102还用于接收所述搜索模块104返回的搜索结果,并将所述搜索结果拼装为结果页面后,返回所述结果页面至所述web服务模块101。
所述查询指令分析模块103用于分析所述查询指令是否为一疑难字需求,若是,其疑难字片段为何。具体的,该查询指令分析模块103可接收所述用户表达方式及疑难字片段挖掘模块106输入的用户表达模板和疑难字片段,并根据所述用户表达模板和所述疑难字片段分析所述查询指令,以判断所述查询指令是否为一疑难字需求,以及其疑难字片段为何。例如:用户输入的查询指令是“三个雷念什么?”,而用户表达方式及疑难字片段挖掘模块106挖掘到的用户表达模板中包括“【疑难字片段表述】念什么”,挖掘到的疑难字片段包括“三个雷”,则可根据所述用户表达模块和所述疑难字片段分析出用户输入的查询指令是一个疑难字需求,且疑难字片段为“三个雷”。关于怎样通过用户表达方式及疑难字片段挖掘模块106挖掘用户表达模板,以及挖掘疑难字片段,将会结合下述关于数据挖掘部分进行详细介绍。
所述搜索模块104用于对所述查询指令进行搜索。优选地,若所述查询指令分析模块103分析出的查询指令并非一疑难字需求,则所述搜索模块104即在普通搜索引擎索引中对该查询指令进行搜索,并返回搜索结果至所述UI模块102,其中,所述搜索模块104在普通搜索引擎索引中对查询指令进行搜索已是本领域公知技术,本领域普通技术人员已能熟练掌握,在此不再赘述;若所述分析模块103分析出的查询指令是一疑难字需求,则所述搜索模块104即在所述疑难字数据存储模块105中进行搜索,并返回搜索结果至所述UI模块102;值得一提的是:在更多的实施方式中,若所述分析模块103分析出的查询指令是一疑难字需求,所述查询模块104即在偏普通搜索引擎索引中队该查询指令进行搜索,输出搜索结果至所述UI模块102,也在所述疑难字数据存储模块105中进行搜索,并输出搜索结果至所述UI模块102,UI模块102将这些搜索结果拼装为结果页面输出,优选地,在所述疑难字数据存储模块105中进行搜索的搜索结果排在所有搜索结果的前面。
所述疑难字数据存储模块105用于存储疑难字片段与其对应的疑难字及其疑难字相关信息。优选地,所述疑难字数据存储模块105存储的为一映射表,即将疑难片段与其对应的疑难字及疑难字相关信息建成一个映射表,在搜索模块104对所述疑难字数据存储模块105进行搜索时,可通过所述映射表查询获得疑难片段对应疑难字及疑难字相关信息,在本发明最佳实施方式中,所述疑难字相关信息包括读音、部首、笔画、笔顺、四角号码、字义等,如下表所示:
疑难字片段 | 疑难字 | 读音 | 部首 | 笔画 | 四角号码 | 字义 | |
三个雷 | 靐 | bìng | 雨 | 39 | 10661 | 雷声 | …… |
…… | …… | …… | …… | …… | …… | …… | …… |
用户表达方式及疑难字片段挖掘模块106用于挖掘用户表达模板和疑难字片段。所述用户表达模板是指,一般用户在有疑难字需求时,其输入的查询指令为何,例如:“【疑难字片段表述】念什么”、“【疑难字片段表述】是什么字”、“【疑难字片段表述】怎么读”等;所述疑难字片段是指用户在有疑难字需求时,其输入的查询指令中对疑难字的描述为何,例如:“三个雷”、“男女男”、“开火”等。在本发明的一实施方式中,该用户表达方式挖掘模块106是通过EM迭代算法对用户表达模板和疑难字片段进行挖掘的,具体为:首先设定一部份疑难字片段表述种子词,如“三个水”“三个牛”;然后从用户输入查询指令日志中挖掘包含此类种子词的查询指令,如“三个水念什么”、“三个牛怎么读”,然后从此类查询指令中将疑难字片段去除,生成用户表达模板,如“【疑难字片段表述】念什么”、“【疑难字片段表述】怎么读”,生成用户表达模板后,再根据所述用户表达模板从查询指令日志中去挖掘疑难字片段,迭代多次后,即可生成一较为全面的用户表达模板以及疑难字片段。
疑难字数据挖掘模块107用于挖掘疑难字片段与其对应的疑难字及其疑难字相关信息,优选地,该疑难字数据挖掘模块107可结合所述用户表达方式及疑难字片段挖掘模块106,以挖掘疑难字片段与其对应的疑难字及其疑难字相关信息。在本发明一实施方式中,该挖掘可包括三种手段:
(1)根据网络问答系统web资源,大规模挖掘疑难字片段与疑难字及其疑难字相关信息的映射关系:从网络问答系统的频道,如“百度知道”“搜搜问问”等中挖掘疑难字片段与疑难字及其疑难字相关信息的对应关系,如用户提出“三个牛念什么”的问题,其中“【疑难字片段表述】念什么”匹配到了挖掘到的用户表达模板,那此用户问的问题即为一个疑难字需求,然后从用户的回答问题的帖子中,对结果以投票方式进行验证,最终挖掘出“三个牛”和“犇”的对应关系,以及“犇”的相关信息。
(2)通过用户点击日志获取查询指令与web的对应关系,从而从web资源中挖掘与验证疑难字片段与疑难字及其疑难字相关信息的映射关系:此部分根据用户点击挖掘自然网页中存在的疑难字片段与疑难字及其疑难字相关信息的对应关系,根据用户搜索的带有疑难字需求的查询指令,以及用户点击的url,获得用户疑难字需求查询指令与web的对应关系,并在获得对应关系后,根据web中用户回答的结果,进行投票计算,得出疑难字片段与疑难字及其疑难字相关信息的对应关系。
(3)和第三方数据方合作,引入暗网资源中的疑难字片段与疑难字及其疑难字相关信息的映射关系:网络上存在暗网资源,此部分资源搜索引擎是抓取不到的,通过和暗网资源商合作,自动获取与更新疑难字片段与疑难字及其疑难字相关信息的对应关系。
如图3所示,在本发明的一实施方式中,疑难字搜索方法包括以下步骤:
S1、接收用户在客户端输入的查询指令;优选地,该查询指令是用户通过客户端上的浏览器输入的至web服务模块101,该web服务模块101在得到所述查询命令后,会将该查询命令转到UI模块102;
S2、判断所述查询指令是否为具有疑难字需求的查询指令;若是,则进入S3步骤,若否,则进入S5步骤;优选地,该步骤是在所述查询指令分析模块103中完成的,具体的,该查询指令分析模块103可接收所述用户表达方式及疑难字片段挖掘模块106输入的用户表达模板和疑难字片段,并根据所述用户表达模板和所述疑难字片段分析所述查询指令,以判断所述查询指令是否为一疑难字需求。例如:用户输入的查询指令是“三个雷念什么?”,而用户表达方式及疑难字片段挖掘模块106挖掘到的用户表达模板中包括“【疑难字片段表述】念什么”,挖掘到的疑难字片段包括“三个雷”,则可根据所述用户表达模块和所述疑难字片段分析出用户输入的查询指令是一个疑难字需求;
S3、分析所述具有疑难字需求的查询指令中的疑难字片段;优选地,该步骤是在所述查询指令分析模块103中完成的,具体的,该查询指令分析模块103可接收所述用户表达方式及疑难字片段挖掘模块106输入的用户表达模板和疑难字片段,并根据所述用户表达模板和所述疑难字片段分析所述查询指令,以判断所述查询指令的疑难字片段为何。例如:用户输入的查询指令是“三个雷念什么?”,而用户表达方式及疑难字片段挖掘模块106挖掘到的用户表达模板中包括“【疑难字片段表述】念什么”,挖掘到的疑难字片段包括“三个雷”,则可根据所述用户表达模块和所述疑难字片段分析出该疑难字片段为“三个雷”;
S4、将所述疑难字片段在所述疑难字数据存储模块进行检索;优选地,该步骤是在所述搜索模块中完成的,所述搜索模块104在所述疑难字数据存储模块105中进行搜索,并返回搜索结果至所述UI模块102;
S5、在普通搜索引擎索引中对所述查询指令进行搜索;优选地,该步骤是在所述搜索模块中完成的,所述搜索模块104在普通搜索引擎索引中对该查询指令进行搜索,并返回搜索结果至所述UI模块102;
S6、将S4或S5的搜索结果输出,优选地,该步骤是在所述UI模块102和所述web服务模块101中完成的,搜索结果从所述搜索模块104返回至所述UI模块102,并通过所述UI模块102将所述搜索结果拼装为结果页面后,返回所述结果页面至所述web服务模块101,从而通过所述web服务模块101返回至客户端浏览器。
值得一提的是:在本发明的其他实施方式中,也可不执行S2步骤,即是不判断所述查询指令是否为具有疑难字需求的查询指令,因为可以定义该疑难字搜索为一特定的搜索产品,在搜索前即会选择该疑难字搜索产品进行搜索。当然,在通过所述疑难字搜索产品进行搜索时,也无需执行S5步骤,其输出的搜索结果也只限于在S4的搜索结果。
如图4所示,在本发明的另一方式中,疑难字搜索方法包括以下步骤:
S11、接收用户在客户端输入的查询指令;优选地,该查询指令是用户通过客户端上的浏览器输入的至web服务模块101,该web服务模块101在得到所述查询命令后,会将该查询命令转到UI模块102;
S12、判断所述查询指令是否为具有疑难字需求的查询指令;若是,则进入S13步骤,若否,则进入S15步骤;优选地,该步骤是在所述查询指令分析模块103中完成的,具体的,该查询指令分析模块103可接收所述用户表达方式及疑难字片段挖掘模块106输入的用户表达模板和疑难字片段,并根据所述用户表达模板和所述疑难字片段分析所述查询指令,以判断所述查询指令是否为一疑难字需求。例如:用户输入的查询指令是“三个雷念什么?”,而用户表达方式及疑难字片段挖掘模块106挖掘到的用户表达模板中包括“【疑难字片段表述】念什么”,挖掘到的疑难字片段包括“三个雷”,则可根据所述用户表达模块和所述疑难字片段分析出用户输入的查询指令是一个疑难字需求;
S13、分析所述具有疑难字需求的查询指令中的疑难字片段;优选地,该步骤是在所述查询指令分析模块103中完成的,具体的,该查询指令分析模块103可接收所述用户表达方式及疑难字片段挖掘模块106输入的用户表达模板和疑难字片段,并根据所述用户表达模板和所述疑难字片段分析所述查询指令,以判断所述查询指令的疑难字片段为何。例如:用户输入的查询指令是“三个雷念什么?”,而用户表达方式及疑难字片段挖掘模块106挖掘到的用户表达模板中包括“【疑难字片段表述】念什么”,挖掘到的疑难字片段包括“三个雷”,则可根据所述用户表达模块和所述疑难字片段分析出该疑难字片段为“三个雷”;
S14、将所述疑难字片段在所述疑难字数据存储模块和普通搜索引擎索引进行检索;优选地,该步骤是在所述搜索模块中完成的,所述搜索模块104在所述疑难字数据存储模块105和所述普通搜索引擎索引中进行搜索,并返回搜索结果至所述UI模块102;
S15、在普通搜索引擎索引中对所述查询指令进行搜索;优选地,该步骤是在所述搜索模块中完成的,所述搜索模块104在普通搜索引擎索引中对该查询指令进行搜索,并返回搜索结果至所述UI模块102;
S16、将S14或S15的搜索结果输出;优选地,该步骤是在所述UI模块102和所述web服务模块101中完成的,搜索结果从所述搜索模块104返回至所述UI模块102,并通过所述UI模块102将所述搜索结果拼装为结果页面后,返回所述结果页面至所述web服务模块101,从而通过所述web服务模块101返回至客户端浏览器。
值得一提的是:在本发明的其他实施方式中,也可不执行S12步骤,即是不判断所述查询指令是否为具有疑难字需求的查询指令,因为可以定义该疑难字搜索为一特定的搜索产品,在搜索前即会选择该疑难字搜索产品进行搜索。当然,在通过所述疑难字搜索产品进行搜索时,也无需执行S15步骤,其输出的搜索结果也只限于在S14的搜索结果。
如图5所示,在本发明的一实施方式中,本发明的用户表达方式及疑难字片段挖掘方式,包括以下步骤:
S100、设定一部份疑难字片段表述种子词,如“三个水”“三个牛”;这部分疑难字片段可通过已知的疑难字片段得知,例如人为设定。
S101、从用户输入查询指令日志中挖掘包含此类种子词的查询指令,如“三个水念什么”、“三个牛怎么读”,
S102、从此类查询指令中将疑难字片段去除,生成用户表达模板,如“【疑难字片段表述】念什么”、“【疑难字片段表述】怎么读”;
S103、生成用户表达模板后,再根据所述用户表达模板从查询指令日志中去挖掘疑难字片段;
S104、判断是否有新的疑难字片段;若有,则进入S105,若无,则进入S106;
S105、将新疑难字片段作为种子词,并重复S101~S104步骤;
S106、结束挖掘。
通过上述描述可知,本发明可对用户在搜索引擎中输入的查询指令进行分析,判断用户的疑难字需求,并查找出用户需要了解的疑难字相关信息,提高用户检索效率,节约网络流量,提升用户使用体验。用户通过浏览器在搜索引擎中输入查询指令“三个雷念什么”,通过本发明的疑难字搜索方法和搜索系统,即可得到如图6所示的搜索结果,其中,可通过置顶结果摘要得知,该“三个雷”对应的疑难字是“靐”,读音为:[bìng],字义为:雷声。当然,若点击所述搜索结果,即可了解到关于疑难字“靐”的更多相关信息,如图7所示,包括了读音、部首、笔画、笔顺、四角号码、字义等信息。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。
Claims (26)
1.一种疑难字搜索方法,其特征在于,所述疑难字搜索方法包括以下步骤:
S1、接收查询指令;
S3、通过查询指令分析模块分析所述查询指令中的疑难字片段;
S4、将所述疑难字片段在疑难字数据存储模块中进行检索,得到查询指令检索结果;
S6、输出所述查询指令检索结果。
2.根据权利要求1所述的疑难字搜索方法,其特征在于,在所述S1步骤后,还包括步骤S2:
判断所述查询指令是否为具有疑难字需求的查询指令;若是,则进入所述S3步骤;若否,则进入步骤S5:在普通搜索引擎索引中对所述查询指令进行搜索。
3.根据权利要求1所述的疑难字搜索方法,其特征在于,所述S3步骤具体包括:
S31、用户表达方式及疑难字片段挖掘模块输入用户表达模板和疑难字片段至所述查询指令分析模块;
S32、通过查询指令分析模块分析所述查询指令中的疑难字片段。
4.根据权利要求3所述的疑难字搜索方法,其特征在于,所述用户表达模板和疑难字片段的挖掘方法包括:
S100、设定已知的疑难字片段表述种子词;
S101、从接收到的查询指令日志中挖掘包含所述表述种子词的查询指令;
S102、从所述查询指令中将所述疑难字片段去除,生成用户表达模板;
S103、根据所述用户表达模板从查询指令日志中挖掘疑难字片段;
S104、判断是否有新疑难字片段;若有,则进入步骤S105、若无,则进入步骤S106;
S105、将所述新疑难字片段作为新种子词,并重复S101~S104步骤;
S106、结束挖掘。
5.根据权利要求1至4中任意一项所述的疑难字搜索方法,其特征在于,所述疑难字数据存储模块存储的包括:疑难片段对应疑难字及疑难字相关信息。
6.根据权利要求5所述的疑难字搜索方法,其特征在于,所述疑难字数据存储模块为映射表。
7.根据权利要求6所述的疑难字搜索方法,其特征在于,所述疑难字相关信息包括:读音、部首、笔画、笔顺、四角号码、字义。
8.一种疑难字搜索方法,其特征在于,所述疑难字搜索方法包括以下步骤:
S11、接收查询指令;
S13、通过查询指令分析模块分析所述查询指令中的疑难字片段;
S14、将所述疑难字片段在所述疑难字数据存储模块和普通搜索引擎索引中进行检索,得到查询指令检索结果;
S16、输出所述查询指令检索结果。
9.根据权利要求8所述的疑难字搜索方法,其特征在于,在所述S11步骤后,还包括步骤S12:
判断所述查询指令是否为具有疑难字需求的查询指令;若是,则进入所述S13步骤;若否,则进入步骤S15:在普通搜索引擎索引中对所述查询指令进行搜索。
10.根据权利要求8所述的疑难字搜索方法,其特征在于,所述S13步骤具体包括:
S131、用户表达方式及疑难字片段挖掘模块输入用户表达模板和疑难字片段至所述查询指令分析模块;
S132、通过查询指令分析模块分析所述查询指令中的疑难字片段。
11.根据权利要求10所述的疑难字搜索方法,其特征在于,所述用户表达模板和疑难字片段的挖掘方法包括:
S100、设定已知的疑难字片段表述种子词;
S101、从接收到的查询指令日志中挖掘包含所述表述种子词的查询指令;
S102、从所述查询指令中将所述疑难字片段去除,生成用户表达模板;
S103、根据所述用户表达模板从查询指令日志中挖掘疑难字片段;
S104、判断是否有新疑难字片段;若有,则进入步骤S105、若无,则进入步骤S106;
S105、将所述新疑难字片段作为新种子词,并重复S101~S104步骤;
S106、结束挖掘。
12.根据权利要求8至11中任意一项所述的疑难字搜索方法,其特征在于,所述疑难字数据存储模块存储的包括:疑难片段对应疑难字及疑难字相关信息。
13.根据权利要求12所述的疑难字搜索方法,其特征在于,所述疑难字数据存储模块为映射表。
14.根据权利要求13所述的疑难字搜索方法,其特征在于,所述疑难字相关信息包括:读音、部首、笔画、笔顺、四角号码、字义。
15.一种疑难字搜索系统,其特征在于,所述疑难字搜索系统包括:
UI模块,用于接收查询指令,且所述UI模块还用于接收搜索模块返回的搜索结果,并将所述搜索结果拼装为结果页面后输出;
查询指令分析模块,用于分析所述查询指令中的疑难字片段;
搜索模块,用于将所述疑难字片段在疑难字数据存储模块中进行检索,得到查询指令检索结果;以及
疑难字数据存储模块,用于存储疑难字片段与其对应的疑难字及其疑难字相关信息。
16.根据权利要求15所述的疑难字搜索系统,其特征在于,所述疑难字搜索系统还包括:
web服务模块,用于通过网络协议接收客户端发出的查询指令,并将所述查询指令转到所述UI模块,且所述web服务模块还用于接收所述UI模块返回的结果页面,并将所述结果页面返回至所述客户端。
17.根据权利要求16所述的疑难字搜索系统,其特征在于,所述查询指令分析模块还用于判断所述查询指令是否为具有疑难字需求的查询指令。
18.根据权利要求15所述的疑难字搜索系统,其特征在于,所述搜索模块还用于并将非疑难字需求的查询指令在普通搜索引擎索引中进行检索,得到查询指令检索结果。
19.根据权利要求15所述的疑难字搜索系统,其特征在于,所述搜索模块还用于将所述疑难字片段在普通搜索引擎索引中进行检索,得到查询指令检索结果。
20.根据权利要求15所述的疑难字搜索系统,其特征在于,所述疑难字搜索系统还包括:
用户表达方式及疑难字片段挖掘模块,用于挖掘用户表达模板和疑难字片段;以及
疑难字数据挖掘模块,用于挖掘疑难字片段与其对应的疑难字及其疑难字相关信息。
21.根据权利要求20所述的疑难字搜索系统,其特征在于,所述用户表达方式及疑难字片段挖掘模块通过EM迭代算法对用户表达模板和疑难字片段进行挖掘。
22.根据权利要求20所述的疑难字搜索系统,其特征在于,所述疑难字数据挖掘模块通过网络问答系统web资源对疑难字片段与疑难字及其疑难字相关信息进行挖掘。
23.根据权利要求20所述的疑难字搜索系统,其特征在于,所述疑难字数据挖掘模块通过用户点击日志对疑难字片段与疑难字及其疑难字相关信息进行挖掘。
24.根据权利要求20所述的疑难字搜索系统,其特征在于,所述疑难字数据挖掘模块通过暗网资源对疑难字片段与疑难字及其疑难字相关信息进行挖掘。
25.根据权利要求15至24中任意一项所述的疑难字搜索系统,其特征在于,所述疑难字数据存储模块为映射表。
26.根据权利要求25所述的疑难字搜索系统,其特征在于,所述疑难字相关信息包括:读音、部首、笔画、笔顺、四角号码、字义。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110022916 CN102073736A (zh) | 2011-01-20 | 2011-01-20 | 疑难字搜索方法及搜索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110022916 CN102073736A (zh) | 2011-01-20 | 2011-01-20 | 疑难字搜索方法及搜索系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102073736A true CN102073736A (zh) | 2011-05-25 |
Family
ID=44032275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110022916 Pending CN102073736A (zh) | 2011-01-20 | 2011-01-20 | 疑难字搜索方法及搜索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102073736A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447080A (zh) * | 2015-11-05 | 2016-03-30 | 华建宇通科技(北京)有限责任公司 | 一种社区问答搜索中的查询补全方法 |
CN110222186A (zh) * | 2019-06-13 | 2019-09-10 | 出门问问信息科技有限公司 | 叠字类问题处理方法、处理装置、设备及存储介质 |
CN110309285A (zh) * | 2019-07-01 | 2019-10-08 | 出门问问信息科技有限公司 | 自动问答方法、装置、电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101118554A (zh) * | 2007-09-14 | 2008-02-06 | 中兴通讯股份有限公司 | 智能交互式问答系统及其处理方法 |
CN101882291A (zh) * | 2010-08-10 | 2010-11-10 | 万昌洵 | 一种基于搜索引擎技术的提问式商品信息咨询方法 |
-
2011
- 2011-01-20 CN CN 201110022916 patent/CN102073736A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101118554A (zh) * | 2007-09-14 | 2008-02-06 | 中兴通讯股份有限公司 | 智能交互式问答系统及其处理方法 |
CN101882291A (zh) * | 2010-08-10 | 2010-11-10 | 万昌洵 | 一种基于搜索引擎技术的提问式商品信息咨询方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105447080A (zh) * | 2015-11-05 | 2016-03-30 | 华建宇通科技(北京)有限责任公司 | 一种社区问答搜索中的查询补全方法 |
CN105447080B (zh) * | 2015-11-05 | 2018-10-26 | 华建宇通科技(北京)有限责任公司 | 一种社区问答搜索中的查询补全方法 |
CN110222186A (zh) * | 2019-06-13 | 2019-09-10 | 出门问问信息科技有限公司 | 叠字类问题处理方法、处理装置、设备及存储介质 |
CN110309285A (zh) * | 2019-07-01 | 2019-10-08 | 出门问问信息科技有限公司 | 自动问答方法、装置、电子设备和存储介质 |
CN110309285B (zh) * | 2019-07-01 | 2022-03-29 | 出门问问信息科技有限公司 | 自动问答方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102096717B (zh) | 搜索方法及搜索引擎 | |
CN103365833B (zh) | 一种基于上下文场景的输入候选词提示方法及系统 | |
CN102088419B (zh) | 一种在社交网络中查找好友信息的方法和系统 | |
CN102135985B (zh) | 调用第三方搜索引擎搜索结果的搜索方法和搜索系统 | |
US8959109B2 (en) | Business intelligent in-document suggestions | |
CN102314439B (zh) | 与应用接口相结合的输入方法和设备 | |
CN103631882B (zh) | 基于图挖掘技术的语义化业务生成系统和方法 | |
US8117225B1 (en) | Drill-down system, method, and computer program product for focusing a search | |
CN1936893B (zh) | 基于互联网信息的输入法词频库的生成方法和系统 | |
CN103023714B (zh) | 基于网络话题的活跃度与集群结构分析系统及方法 | |
CN101986306B (zh) | 一种用于基于查询序列获取黄页信息的方法与设备 | |
CN102073725A (zh) | 结构化数据的搜索方法和实现该搜索方法的搜索引擎系统 | |
CN102117331B (zh) | 视频搜索方法及系统 | |
CN102737021B (zh) | 搜索引擎及其实现方法 | |
CN102722498A (zh) | 搜索引擎及其实现方法 | |
CN102073735A (zh) | 搜索方法及搜索系统 | |
CN102722501A (zh) | 搜索引擎及其实现方法 | |
CN102523274A (zh) | 基于核心网侧的无线个性化精准信息主动推送系统及方法 | |
CN102110170A (zh) | 一种具有信息发布和搜索功能的系统及信息发布方法 | |
CN102722499A (zh) | 搜索引擎及其实现方法 | |
AU2021105938A4 (en) | Automatic and dynamic contextual analysis of sentiment of social content and feedback reviews based on machine learning model | |
CN109840254A (zh) | 一种数据虚拟化及查询方法、装置 | |
CN110968571A (zh) | 面向金融信息服务的大数据分析与处理平台 | |
CN102073736A (zh) | 疑难字搜索方法及搜索系统 | |
CN102156749A (zh) | 一种地图网站的自动搜索判别方法、系统及其分布式服务器系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110525 |