CN101082936A - 数据查询系统及方法 - Google Patents
数据查询系统及方法 Download PDFInfo
- Publication number
- CN101082936A CN101082936A CNA2007101260364A CN200710126036A CN101082936A CN 101082936 A CN101082936 A CN 101082936A CN A2007101260364 A CNA2007101260364 A CN A2007101260364A CN 200710126036 A CN200710126036 A CN 200710126036A CN 101082936 A CN101082936 A CN 101082936A
- Authority
- CN
- China
- Prior art keywords
- homonym
- word segmentation
- segmentation result
- search
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
本发明公开了一种数据查询系统及方法。其中,该数据查询系统包括:入口模块,用于接收用户欲查询的查询串;分词模块,用于对查询串进行初步分词,判断是否需要对初步分词结果进行同音词搜索,并根据判断结果对初步分词结果进行处理;以及查询模块,用于根据经过处理的最终分词结果进行数据查询。通过本发明,用户可以快捷方便地搜索到自己需要的信息,同时可以降低搜索引擎使用者的门槛。
Description
技术领域
本发明涉及搜索引擎领域,更具体地涉及一种数据查询系统及方法。
背景技术
搜索引擎系统是一种对信息资源进行搜集,并在对信息进行处理和组织之后,为用户提供信息查询的系统。用户可以输入想要查询的内容,搜索引擎系统根据用户的输入在海量信息中快速准确地定位用户需要的信息,并将搜索结果返回给用户。
目前,搜索引擎在进行用户输入串的查询分析时,一般采取以下几种方式:目录搜索方式,采用系统预置搜索词的方式,用户通过目录分级选择,选择关键词;直接将用户输入作为关键字进行查询;以及将用户的查询结果按照词典进行分词后,将分词结果作为关键字进行查询。
上述几种方式存在以下缺陷:
1)如果由用户选择系统事先预置的关键词,所选择的内容有限,不能满足各种用户需求。
2)如果采取目录方式选择关键词,由于分类众多、关键词众多,用户选择需要的关键词比较费时。
3)如果直接对用户输入关键字进行查询,则要求用户描述特别简洁,清晰。而由于搜索引擎面对的是海量数据,数据的来源众多,结构多样,信息的描述可能与用户输入不尽相同。所以容易造成用户无法得到真正需要的信息,搜索得到的信息相对较少的问题。若用户输入不准确,甚至有可能无法得到搜索结果。
4)如果按照词典进行分词,若用户输入错误,可能造成分词失败,则搜索引擎系统会直接将该词分为单字进行查询,这样搜索结果众多,且多数为垃圾结果,用户无法从这些海量数据中找到自己真正想要的结果。
发明内容
鉴于以上所述的一个或多个问题,本发明提供了一种数据查询系统及方法。
根据本发明的数据查询系统包括:入口模块,用于接收用户欲查询的查询串;分词模块,用于对查询串进行初步分词,判断是否需要对初步分词结果进行同音词搜索,并根据判断结果对初步分词结果进行处理;以及查询模块,用于根据经过处理的最终分词结果进行数据查询。
其中,分词模块包括:中文分词模块,用于根据特定规则对查询串进行初步分词,以及在不需要对初步分词结果进行同音词搜索的情况下,将初步分词结果发送至入口模块;搜索判断模块,用于判断是否需要对初步分词结果进行同音词搜索;以及同音词处理模块,用于在需要对初步分词结果进行同音词搜索的情况下,对初步分词结果进行拼音标注,并根据拼音标注信息对初步分词结果进行同音词搜索。
其中,同音词处理模块包括:拼音标注模块,用于对初步分词结果进行拼音标注;同音词搜索模块,用于根据拼音标注信息在同音词词典中对初步分词结果进行同音词搜索。
其中,查询模块包括:数据查询模块,用于根据初步分词结果或最终分词结果进行数据查询;数据索引模块,用于对需要查询的资料建立索引,并对索引进行维护。
根据本发明的数据查询系统还可以包括:同音词词典模块,用于生成并存储同音词词典,并对同音词词典进行实时更新。
根据本发明的数据查询方法,包括以下步骤:S302,接收用户欲查询的查询串;S304,对查询串进行初步分词,判断是否需要对初步分词结果进行同音词搜索,并根据判断结果对初步分词结果进行处理;以及S306,根据经过处理的最终分词结果进行数据查询。
其中,步骤S304包括以下步骤:S3042-1,对查询串进行初步分词;S3044-1,判断是否需要对初步分词结果进行同音词搜索;S3046-1,在不需要对初步分词结果进行同音词搜索的情况下,直接进行步骤S306。
其中,步骤S304包括以下步骤:S3042-2,对查询串进行初步分词;S3044-2,判断是否需要对初步分词结果进行同音词搜索;S3046-2,在需要对初步分词结果进行同音词搜索的情况下,在同音词词典中对初步分词结果进行同音词搜索,然后进行步骤S306。
其中,在步骤S306中,还对需要查询的资料建立索引,并对索引进行维护。根据本发明的数据查询方法还可以包括以下步骤:生成并存储同音词词典,并对同音词词典进行实时更新。
在本发明中,用户可以通过输入准确、简洁的关键字得到准确率高的结果,并可以通过输入拼音进行搜索。并且在用户输入的信息中出现同音别字或模糊音(如前鼻音、后鼻音等)别字时,本发明可以进行自动纠正,并得到正确的搜索结果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的数据查询系统的框图;
图2是根据本发明另一实施例的数据查询系统的框图;以及
图3A至图3C是图1和图2所示的系统完成的数据查询方法及步骤的流程图。
具体实施方式
下面参考附图,详细说明本发明的具体实施方式。
参考图1,说明根据本发明实施例的数据查询系统。如图1所示,该数据查询系统包括:入口模块102,用于接收用户欲查询的查询串;分词模块104,用于对查询串进行初步分词,判断是否需要对初步分词结果进行同音词搜索,并根据判断结果对初步分词结果进行处理;以及查询模块106,用于根据经过处理的最终分词结果进行数据查询。
其中,分词模块104包括:中文分词模块1042,用于根据特定规则对查询串进行初步分词,以及在不需要对初步分词结果进行同音词搜索的情况下,将初步分词结果发送至入口模块;搜索判断模块1044,用于判断是否需要对初步分词结果进行同音词搜索;以及同音词处理模块1046,用于在需要对初步分词结果进行同音词搜索的情况下,对初步分词结果进行拼音标注,并根据拼音标注信息对初步分词结果进行同音词搜索。
其中,同音词处理模块1046包括:拼音标注模块,用于对初步分词结果进行拼音标注;同音词搜索模块,用于根据拼音标注信息在同音词词典中对初步分词结果进行同音词搜索。
其中,查询模块106包括:数据查询模块1062,用于根据初步分词结果或最终分词结果进行数据查询;数据索引模块1064,用于对需要查询的资料建立索引,并对索引进行维护。
根据本发明的数据查询系统还可以包括:同音词词典模块,用于生成并存储同音词词典,并对同音词词典进行实时更新。
参考图2,说明根据本发明另一实施例的数据查询系统。如图2所示,该数据查询系统包括以下几个部分:
查询入口模块202,用于通过与外部系统的交互完成对用户输入内容的接收,并将接收到的文字内容发送给分词模块,以及用于接收从分词模块返回的分词信息,并将分词信息作为关键字进行搜索。
分词模块204,用于调用中文分词模块得到初步分词结果,并根据初步分词结果判断是否需要进行同音词搜索。若需要对分词信息进行同音词搜索,则将待处理信息发送给同音词处理模块,并接收从该模块返回的同音词信息。将同音词信息与其他分词信息一同返回给查询入口模块。
中文分词模块206,用于根据不同的分词策略对用户的输入信息进行切分。
同音词处理模块208,用于接收来自分词模块的文字信息,将文字信息发送给拼音标注模块,并接收从拼音标注模块返回的拼音标注信息。
拼音标注模块210,用于将文字信息转换为对应的拼音信息。在查询流程中,将标注结果发送给查询入口模块,在同音词词典维护流程中,将标注结果发送给同音词典维护模块。
同音词查找模块212,用于通过查找多音词词典的方式,提取出现频率最高的同音词,并将查找结果发送给同音词处理模块。
同音词典维护模块214,用于维护同音词系统需要使用的同音词词典。通过调用拼音标注模块对词典进行逐词标注,形成同音词词典。并在词典进行更新的时候同步更新同音词词典。在拼音标注过程中,多音字标注多个拼音,形成多个词条。同音词词典按照拼音顺序进行排序。
查询模块216,用于接收来自查询入口模块的关键字,根据关键字形成查询条件对索引文件进行查询,以得到匹配用户查询要求的结果,并将查询结果返回给用户
索引模块218,用于维护全文索引。索引模块通过扫描需要搜索的信息中的每一个词,对每一个词建立索引,指明该词在文章中出现的次数和位置。
在使用图2所示的数据查询系统进行数据查询时,用户与查询入口模块进行交互,向查询入口模块提交查询串。查询入口模块将查询串发送给分词模块,分词模块调用中文分词模块根据不同的分词策略对用户的查询串进行分词,并根据分词结果判断是否需要进行同音词搜索。如果判断不需进行同音词搜索,则直接返回分词结果给查询模块,进入数据搜索流程。如果判断需要进行同音词搜索,则将待处理信息发送给同音词处理模块。同音词处理模块接收待处理信息并将之发送给拼音标注模块,拼音标注模块对文本信息进行拼音标注,并将标注结果返回给同音词处理模块。同音词处理模块接收到拼音标注信息后,调用同音词查询模块在同音词词典中对拼音标注信息进行查找,得到查找结果后将信息返回给分词模块。分词模块整合从同音词处理模块返回的信息与其他分词所得的关键词信息,作为搜索的关键词返回给查询入口模块。查询入口模块将关键词发送给查询模块。查询模块利用得到的关键词对索引库进行查找,并将索引库中匹配的信息返回给查询入口模块。由查询入口模块对结果进行调整,返回给用户。另外,该数据查询系统还可以利用索引模块对需要搜索的资料建立索引,对索引进行维护,并且在源信息更新时,同步更新索引库信息。
参考图3A至图3C,说明图1和图2所示的系统完成的数据查询方法。如图3A所示,该数据查询方法包括以下步骤:S302,接收用户欲查询的查询串;S304,对查询串进行初步分词,判断是否需要对初步分词结果进行同音词搜索,并根据判断结果对初步分词结果进行处理;以及S306,根据经过处理的最终分词结果进行数据查询。
其中,如图3B所示,步骤S304包括以下步骤:S3042-1,对查询串进行初步分词;S3044-1,判断是否需要对初步分词结果进行同音词搜索;S3046-1,在不需要对初步分词结果进行同音词搜索的情况下,直接进行步骤S306。
其中,如图3C所示,步骤S304包括以下步骤:S3042-2,对查询串进行初步分词;S3044-2,判断是否需要对初步分词结果进行同音词搜索;S3046-2,在需要对初步分词结果进行同音词搜索的情况下,在同音词词典中对初步分词结果进行同音词搜索,然后进行步骤S306。
其中,在步骤S306中,还对需要查询的资料建立索引,并对索引进行维护。根据本发明的数据查询方法还可以包括以下步骤:生成并存储同音词词典,并对同音词词典进行实时更新。
本发明可以在对用户输入进行分析的时候,对用户输入的诸如同音字、模糊音等错误输入进行处理,将其自动转换为标准输入,在搜索后,返回用户查询结果,并对用户的错误输入进行提示。通过本发明,用户可以快捷方便地搜索到自己需要的信息,同时可以降低搜索引擎使用者的门槛。通过本发明,用户甚至可以通过直接输入拼音的形式对信息进行查找。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种数据查询系统,其特征在于,包括:
入口模块,用于接收用户欲查询的查询串;
分词模块,用于对所述查询串进行初步分词,判断是否需要对初步分词结果进行同音词搜索,并根据判断结果对所述初步分词结果进行处理;以及
查询模块,用于根据经过处理的最终分词结果进行数据查询。
2.根据权利要求1所述的数据查询系统,其特征在于,所述分词模块包括:
中文分词模块,用于根据特定规则对所述查询串进行初步分词,以及在不需要对所述初步分词结果进行同音词搜索的情况下,将所述初步分词结果发送至所述入口模块;
搜索判断模块,用于判断是否需要对所述初步分词结果进行同音词搜索;以及
同音词处理模块,用于在需要对所述初步分词结果进行同音词搜索的情况下,对所述初步分词结果进行拼音标注,并根据拼音标注信息对所述初步分词结果进行同音词搜索。
3.根据权利要求2所述的数据查询系统,其特征在于,所述同音词处理模块包括:
拼音标注模块,用于对所述初步分词结果进行拼音标注;
同音词搜索模块,用于根据所述拼音标注信息在同音词词典中对所述初步分词结果进行同音词搜索。
4.根据权利要求1至3中任一项所述的数据查询系统,其特征在于,所述查询模块包括:
数据查询模块,用于根据所述初步分词结果或所述最终分词结果进行数据查询;
数据索引模块,用于对需要查询的资料建立索引,并对所述索引进行维护。
5.根据权利要求4所述的数据查询系统,其特征在于,还包括:
同音词词典模块,用于生成并存储所述同音词词典,并对所述同音词词典进行实时更新。
6.一种数据查询方法,其特征在于,包括以下步骤:
S302,接收用户欲查询的查询串;
S304,对所述查询串进行初步分词,判断是否需要对初步分词结果进行同音词搜索,并根据判断结果对所述初步分词结果进行处理;以及
S306,根据经过处理的最终分词结果进行数据查询。
7.根据权利要求6所述的数据查询方法,其特征在于,所述步骤S304包括以下步骤:
S3042-1,对所述查询串进行初步分词;
S3044-1,判断是否需要对所述初步分词结果进行同音词搜索;
S3046-1,在不需要对所述初步分词结果进行同音词搜索的情况下,直接进行所述步骤S306。
8.根据权利要求6所述的数据查询方法,其特征在于,所述步骤S304包括以下步骤:
S3042-2,对所述查询串进行初步分词;
S3044-2,判断是否需要对所述初步分词结果进行同音词搜索;
S3046-2,在需要对所述初步分词结果进行同音词搜索的情况下,在同音词词典中对所述初步分词结果进行同音词搜索,然后进行所述步骤S306。
9.根据权利要求6至8中任一项所述的数据查询方法,其特征在于,在所述步骤S306中,还对需要查询的资料建立索引,并对所述索引进行维护。
10.根据权利要求9所述的数据查询方法,其特征在于,还包括以下步骤:
生成并存储所述同音词词典,并对所述同音词词典进行实时更新。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101260364A CN101082936A (zh) | 2007-06-29 | 2007-06-29 | 数据查询系统及方法 |
PCT/CN2007/003409 WO2009003328A1 (fr) | 2007-06-29 | 2007-11-30 | Système et procédé de requête de données |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2007101260364A CN101082936A (zh) | 2007-06-29 | 2007-06-29 | 数据查询系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101082936A true CN101082936A (zh) | 2007-12-05 |
Family
ID=38912505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007101260364A Pending CN101082936A (zh) | 2007-06-29 | 2007-06-29 | 数据查询系统及方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN101082936A (zh) |
WO (1) | WO2009003328A1 (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101685021A (zh) * | 2008-09-24 | 2010-03-31 | 高德软件有限公司 | 一种兴趣点信息获取方法及装置 |
CN101853280A (zh) * | 2010-05-19 | 2010-10-06 | 北京友录在线科技发展有限公司 | 一种手持设备中联系人查找方法 |
CN101699440B (zh) * | 2009-11-24 | 2011-12-07 | 中国电信股份有限公司 | 按业务检索的方法及系统 |
CN102467544A (zh) * | 2010-11-16 | 2012-05-23 | 中国电信股份有限公司 | 基于空间模糊编码的信息智能搜索方法及系统 |
CN103530380A (zh) * | 2013-10-17 | 2014-01-22 | 北京奇虎科技有限公司 | 一种垂直搜索设备及方法 |
WO2016154838A1 (zh) * | 2015-03-29 | 2016-10-06 | 王志强 | 显示商标同音词时的产品信息推送方法以及商标查询系统 |
CN103577591B (zh) * | 2013-11-12 | 2017-02-01 | 广东金宇恒软件科技有限公司 | 一种生成记账凭证的方法及装置 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109408794A (zh) * | 2017-08-17 | 2019-03-01 | 阿里巴巴集团控股有限公司 | 一种频次词典建立方法、分词方法、服务器和客户端设备 |
CN109977398B (zh) * | 2019-02-21 | 2023-06-06 | 江苏苏宁银行股份有限公司 | 一种特定领域的语音识别文本纠错方法 |
CN110851484A (zh) * | 2019-11-13 | 2020-02-28 | 北京香侬慧语科技有限责任公司 | 一种获取多指标问题答案的方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1335574A (zh) * | 2001-09-05 | 2002-02-13 | 罗笑南 | 智能语义搜索方法 |
DE10339697A1 (de) * | 2003-08-28 | 2005-04-07 | Siemens Ag | Verfahren, Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zu einer Bearbeitung einer Suchanfrage unter Verwendung mindestens einer Suchmaschine und mindestens eines Verzeichnisdienstes |
US20050187920A1 (en) * | 2004-01-23 | 2005-08-25 | Porto Ranelli, Sa | Contextual searching |
CN100401300C (zh) * | 2006-04-29 | 2008-07-09 | 上海世纪互联信息系统有限公司 | 具有自动分类功能的搜索引擎 |
CN100452042C (zh) * | 2006-06-23 | 2009-01-14 | 腾讯科技(深圳)有限公司 | 数字串模糊匹配的方法 |
CN100444591C (zh) * | 2006-08-18 | 2008-12-17 | 北京金山软件有限公司 | 获取网页关键字的方法及其应用系统 |
CN101075308B (zh) * | 2006-11-08 | 2010-12-15 | 腾讯科技(深圳)有限公司 | 一种编辑电子邮件的方法 |
-
2007
- 2007-06-29 CN CNA2007101260364A patent/CN101082936A/zh active Pending
- 2007-11-30 WO PCT/CN2007/003409 patent/WO2009003328A1/zh active Application Filing
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101685021A (zh) * | 2008-09-24 | 2010-03-31 | 高德软件有限公司 | 一种兴趣点信息获取方法及装置 |
CN101699440B (zh) * | 2009-11-24 | 2011-12-07 | 中国电信股份有限公司 | 按业务检索的方法及系统 |
CN101853280A (zh) * | 2010-05-19 | 2010-10-06 | 北京友录在线科技发展有限公司 | 一种手持设备中联系人查找方法 |
CN101853280B (zh) * | 2010-05-19 | 2012-07-04 | 北京友录在线科技发展有限公司 | 一种手持设备中联系人查找方法 |
CN102467544A (zh) * | 2010-11-16 | 2012-05-23 | 中国电信股份有限公司 | 基于空间模糊编码的信息智能搜索方法及系统 |
CN102467544B (zh) * | 2010-11-16 | 2015-01-21 | 中国电信股份有限公司 | 基于空间模糊编码的信息智能搜索方法及系统 |
CN103530380A (zh) * | 2013-10-17 | 2014-01-22 | 北京奇虎科技有限公司 | 一种垂直搜索设备及方法 |
CN103577591B (zh) * | 2013-11-12 | 2017-02-01 | 广东金宇恒软件科技有限公司 | 一种生成记账凭证的方法及装置 |
WO2016154838A1 (zh) * | 2015-03-29 | 2016-10-06 | 王志强 | 显示商标同音词时的产品信息推送方法以及商标查询系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2009003328A1 (fr) | 2009-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101082936A (zh) | 数据查询系统及方法 | |
CN109800284B (zh) | 一种面向任务的非结构化信息智能问答系统构建方法 | |
US8296288B2 (en) | Query processing for web search | |
US8560513B2 (en) | Searching for information based on generic attributes of the query | |
US7272558B1 (en) | Speech recognition training method for audio and video file indexing on a search engine | |
US20160275148A1 (en) | Database query method and device | |
CN103106282B (zh) | 一种网页搜索与展示的方法 | |
CN103365925B (zh) | 获取多音字拼音、基于拼音检索的方法及其相应装置 | |
US8296309B2 (en) | System and method for high precision and high recall relevancy searching | |
CN101149758A (zh) | 搜索系统及搜索方法 | |
CN105159938B (zh) | 检索方法和装置 | |
CN101697109A (zh) | 一种获取输入法候选项的方法及系统 | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
US20100131485A1 (en) | Method and system for automatic construction of information organization structure for related information browsing | |
CN103187052A (zh) | 一种建立用于语音识别的语言模型的方法及装置 | |
CN101952824A (zh) | 计算机执行的对数据库中的文献进行索引和检索的方法以及信息检索系统 | |
CN109241080B (zh) | 一种fql查询语言的构建使用方法及其系统 | |
KR101709055B1 (ko) | 오픈 웹 질의응답을 위한 질문분석 장치 및 방법 | |
CN105677725A (zh) | 一种用于旅游垂直搜索引擎的前置解析方法 | |
CN108345689B (zh) | 商标注册成功率查询方法、装置、商标注册方法、装置 | |
CN103177039A (zh) | 一种数据处理方法及装置 | |
CN112183110A (zh) | 一种基于数据中心的人工智能数据应用系统及应用方法 | |
CN110737677B (zh) | 一种数据搜索系统及方法 | |
CN103577397A (zh) | 计算机翻译数据处理方法及装置 | |
CN112965998A (zh) | 一种化合物数据库建立及检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Open date: 20071205 |