CN101079032A - 数字串模糊匹配的方法 - Google Patents

数字串模糊匹配的方法 Download PDF

Info

Publication number
CN101079032A
CN101079032A CN 200610036119 CN200610036119A CN101079032A CN 101079032 A CN101079032 A CN 101079032A CN 200610036119 CN200610036119 CN 200610036119 CN 200610036119 A CN200610036119 A CN 200610036119A CN 101079032 A CN101079032 A CN 101079032A
Authority
CN
China
Prior art keywords
user
participle
fuzzy matching
numeric string
neologisms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200610036119
Other languages
English (en)
Other versions
CN100452042C (zh
Inventor
谭文彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CNB200610036119XA priority Critical patent/CN100452042C/zh
Publication of CN101079032A publication Critical patent/CN101079032A/zh
Application granted granted Critical
Publication of CN100452042C publication Critical patent/CN100452042C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种数字串模糊匹配的方法,可应用于即时通信中,包括以下步骤:a.将用户输入的数字串进行分词;b.根据所述分词得到的新词与号码库里的词进行模糊匹配;c.根据所述模糊匹配得到的号码包含所述新词中数字的数量,对所述模糊匹配得到的号码进行排序,并将其返回给所述用户。本发明在号码库没有用户输入的号码时,找出最相似的号码推荐给用户,避免了用户重复查找号码。同时,也减少了用户对查询号码的请求次数,减轻了系统压力。

Description

数字串模糊匹配的方法
技术领域
本发明涉及计算机模糊搜索技术,更具体地说,涉及一种数字串模糊匹配的方法。
背景技术
目前的主要搜索引擎的模式都是,用户输入一些关键字或者句子,无论是那种,搜索引擎都会首先对用户的输入进行分词,这样可以增加搜索结果的准确性,这是和普通数据库搜索的不同点(普通的数据库搜索,只是简单的用like%关键字%),然后搜索引擎去海量的索引库去查找这些和用户输入相关的信息,显示的结果会包含网页的相关摘要。
中文搜索引擎相关的技术包含:网络蜘蛛,中文分词,索引库,网页摘要的提取,网页相似度,信息的分类。
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am astudent,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词(或称为切词)。我是一个学生,分词的结果是:我是一个学生。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。
现有的搜索引擎一般使用分词算法,实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词。这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。
但是,现有的分词技术,一般是针对中文的,而没有专门针对数字串的“分词”的匹配算法;而且,现有的分词技术需要通过查找词典进行分词,速度较慢;另外,现有的分词技术没有考虑每个词之间的顺序关系,而是分割成相互之间比较独立的词,没有保存原材料的词顺序关系。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述现有的分词技术缺陷,提供一种数字串模糊匹配的方法,可以对数字串进行分词并进行模糊匹配。
本发明解决其技术问题所采用的技术方案是:构造一种数字串模糊匹配的方法,可应用于即时通信中,包括以下步骤:
a.将用户输入的数字串进行分词;
b.根据所述分词得到的新词与号码库里的词进行模糊匹配;
c.根据所述模糊匹配得到的号码包含所述新词中数字的数量,对所述模糊匹配得到的号码进行排序,并将其返回给所述用户。
本发明所述的方法中,在所述步骤a之前进一步包括:对所述号码库里的号码进行分词。
本发明所述的方法中,所述分词的方法具体包括:从用户输入的数字串的第一位开始,按照预设长度进行移位分割,生成多个新词。
本发明所述的方法中,所述步骤b进一步包括:将所述分词得到的新词加上不同的系数,用于在排序时作为权重。
本发明所述的方法中,所述步骤c中,所述排序的方法具体包括:若所述模糊匹配得到的号码包含所述新词中数字的数量越多,则所述模糊匹配得到的号码的排序则越靠前。
本发明所述的方法中,所述步骤c进一步包括:将所述模糊匹配得到的号码按照排序的先后,选取预设个号码返回给所述用户。
本发明所述的方法中,对所述号码库的号码进行分词的预设长度与对所述用户输入的数字串进行分词的预设长度一样。
本发明的有益效果是,在号码库没有用户输入的号码时,找出最相似的号码推荐给用户,避免了用户重复查找号码。同时,也减少了用户对查询号码的请求次数,减轻了系统压力。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明的数字串模糊匹配的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下通过具体实施例并参见附图,对本发明进行详细说明。
本发明中,通过将用户输入的数字串按照长度进行分割,根据分割出来的词所处位置加上不同系数,在排序的时候当作权重,排序不同的词具有不同的权重,一般来说,排序越靠前的,权重越高。
然后,根据分词得到的词与号码库里的词进行匹配,选出包含用户输入的数字串(即分割出来的词)的数量最多的号码并将其进行排序。
下面参照图1示出的数字串模糊匹配的流程图为例进行说明,包括以下步骤:
步骤S100:用户输入数字串,如用户输入即时通信的ID号码。
步骤S105:对用户输入的数字串进行分词。如将用户输入的即时通信ID号码进行分割,从用户输入的数字串的第一位开始,按照预设长度进行移位分割,生成多个新词。若用户输入的号码为1345679,则可以将其按照长度为5(也可以为其它长度,这个长度可以由系统预先设定,也可以由用户预先设定)进行分割,如分割为:13456、34567、45679三个新词。
对用户输入的号码进行分割时,可以根据分割出来的词所处位置加上不同系数,在排序的时候当作权重。如开头的词权重较高。该系数可以根据业务特点制定。例如,一般认为:如果分割出来的词的首、尾数字匹配,应该就更好,则系数就会比较高。例如,可以将号码1234567分割出来的词:12345和34567的系数设置为3,而23456的系数设置为2。
步骤S110:根据分词得到的词与号码库里的词进行匹配。但是,预先要将号码库(如即时通信的所有ID库,一般存在服务器上)里的所有号码按照长度为5(也可以为其它长度,这个长度是预先设定的,但是要跟上述对用户的输入的分词长度一样)进行分割,如将1234567分割为:12345、23456、34567三个新词。
步骤S115:按照包含用户输入的词数量(相似系数)对号码进行排序。如前面所述的1345679和1234567有相同的词34567,因此这两个ID的相似系数是3。由于前后分割的词是有比较多重合的,因此,分出来的词已经充分考虑了词与词之间的顺序关系。一般来说,跟用户输入数字串最大匹配长度越长的(即相似系统越高),排序就会越靠前。
步骤120:选出包含用户输入的词数量最多的号码返回给用户。也就是将相似系数最高的号码返回给用户。例如,假设用户输入的数字串(即号码)包含5个新词W1~W5,其中W1的系数是3,W2~W5的系数是2。号码库里的号码Q1包含了词W1、W3;号码库里的号码Q2包含了词W2、W4。则号码Q1跟用户输入的数字串相似系数是5(即3+2=5),而号码Q2是4(即2+2=4)。因此号码Q1相似系数较高,则返回号码Q1给用户。
返回给用户的号码个数可以预先设定,例如可以预设设定返回给用户号码的个数为10个,那么系统就会将与用户输入的数字串最相似的前10个号码返回给用户。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。

Claims (7)

1、一种数字串模糊匹配的方法,可应用于即时通信中,其特征在于,包括以下步骤:
a.将用户输入的数字串进行分词;
b.根据所述分词得到的新词与号码库里的词进行模糊匹配;
c.根据所述模糊匹配得到的号码包含所述新词中数字的数量,对所述模糊匹配得到的号码进行排序,并将其返回给所述用户。
2、根据权利要求1所述的方法,其特征在于,在所述步骤a之前进一步包括:对所述号码库里的号码进行分词。
3、根据权利要求1或2所述的方法,其特征在于,所述分词的方法具体包括:从用户输入的数字串的第一位开始,按照预设长度进行移位分割,生成多个新词。
4、根据权利要求1所述的方法,其特征在于,所述步骤b进一步包括:将所述分词得到的新词加上不同的系数,用于在排序时作为权重。
5、根据权利要求1所述的方法,其特征在于,所述步骤c中,所述排序的方法具体包括:若所述模糊匹配得到的号码包含所述新词中数字的数量越多,则所述模糊匹配得到的号码的排序则越靠前。
6、根据权利要求1所述的方法,其特征在于,所述步骤c进一步包括:将所述模糊匹配得到的号码按照排序的先后,选取预设个号码返回给所述用户。
7、根据权利要求3所述的方法,其特征在于,对所述号码库的号码进行分词的预设长度与对所述用户输入的数字串进行分词的预设长度一样。
CNB200610036119XA 2006-06-23 2006-06-23 数字串模糊匹配的方法 Active CN100452042C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB200610036119XA CN100452042C (zh) 2006-06-23 2006-06-23 数字串模糊匹配的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB200610036119XA CN100452042C (zh) 2006-06-23 2006-06-23 数字串模糊匹配的方法

Publications (2)

Publication Number Publication Date
CN101079032A true CN101079032A (zh) 2007-11-28
CN100452042C CN100452042C (zh) 2009-01-14

Family

ID=38906511

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200610036119XA Active CN100452042C (zh) 2006-06-23 2006-06-23 数字串模糊匹配的方法

Country Status (1)

Country Link
CN (1) CN100452042C (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009003328A1 (fr) * 2007-06-29 2009-01-08 Zte Corporation Système et procédé de requête de données
CN102890719A (zh) * 2012-10-12 2013-01-23 浙江宇视科技有限公司 一种对车牌号进行模糊搜索的方法及装置
CN103064847A (zh) * 2011-10-20 2013-04-24 北京中搜网络技术股份有限公司 索引装置、索引方法、检索装置、检索方法和检索系统
CN103309991A (zh) * 2013-06-19 2013-09-18 南京邮电大学 一种基于高校危险品仓库管理程序中的查询方法
CN103544277A (zh) * 2013-10-22 2014-01-29 深圳市捷顺科技实业股份有限公司 一种查询目标文本的方法及装置
CN104881503A (zh) * 2015-06-24 2015-09-02 郑州悉知信息技术有限公司 一种数据处理方法和装置
CN106980686A (zh) * 2017-03-31 2017-07-25 努比亚技术有限公司 一种搜索词的分词方法及终端
CN108632212A (zh) * 2017-03-20 2018-10-09 展讯通信(上海)有限公司 多方通话中通话状态的更新方法、装置及多通终端
CN108629174A (zh) * 2018-05-08 2018-10-09 阿里巴巴集团控股有限公司 字符串校验的方法及装置
CN109255283A (zh) * 2017-07-14 2019-01-22 杭州海康威视数字技术股份有限公司 一种基于多帧的车牌号码确定方法、装置及电子设备
CN109840294A (zh) * 2018-12-28 2019-06-04 深圳市世强元件网络有限公司 电子元件配套资料查询方法、存储介质及终端
CN110889769A (zh) * 2018-08-21 2020-03-17 湖南共睹互联网科技有限责任公司 交易保障关联方法、计算机装置及计算机可读存储介质
CN111860657A (zh) * 2020-07-23 2020-10-30 中国建设银行股份有限公司 一种图像分类方法、装置、电子设备及存储介质
US11921770B2 (en) 2018-12-28 2024-03-05 Shenzhen Sekorm Component Network Co., Ltd Electronic element supporting data inquiry method, storage medium and terminal

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0709801B1 (en) * 1994-10-28 1999-12-29 Hewlett-Packard Company Method for performing string matching
US6922669B2 (en) * 1998-12-29 2005-07-26 Koninklijke Philips Electronics N.V. Knowledge-based strategies applied to N-best lists in automatic speech recognition systems
CN1300740C (zh) * 2005-01-25 2007-02-14 邮政科学上海研究所 邮政编码数字串识别方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009003328A1 (fr) * 2007-06-29 2009-01-08 Zte Corporation Système et procédé de requête de données
CN103064847A (zh) * 2011-10-20 2013-04-24 北京中搜网络技术股份有限公司 索引装置、索引方法、检索装置、检索方法和检索系统
CN102890719A (zh) * 2012-10-12 2013-01-23 浙江宇视科技有限公司 一种对车牌号进行模糊搜索的方法及装置
CN102890719B (zh) * 2012-10-12 2015-12-16 浙江宇视科技有限公司 一种对车牌号进行模糊搜索的方法及装置
CN103309991A (zh) * 2013-06-19 2013-09-18 南京邮电大学 一种基于高校危险品仓库管理程序中的查询方法
CN103544277A (zh) * 2013-10-22 2014-01-29 深圳市捷顺科技实业股份有限公司 一种查询目标文本的方法及装置
CN104881503A (zh) * 2015-06-24 2015-09-02 郑州悉知信息技术有限公司 一种数据处理方法和装置
CN108632212A (zh) * 2017-03-20 2018-10-09 展讯通信(上海)有限公司 多方通话中通话状态的更新方法、装置及多通终端
CN108632212B (zh) * 2017-03-20 2021-07-23 展讯通信(上海)有限公司 多方通话中通话状态的更新方法、装置及多通终端
CN106980686A (zh) * 2017-03-31 2017-07-25 努比亚技术有限公司 一种搜索词的分词方法及终端
CN109255283A (zh) * 2017-07-14 2019-01-22 杭州海康威视数字技术股份有限公司 一种基于多帧的车牌号码确定方法、装置及电子设备
CN109255283B (zh) * 2017-07-14 2021-06-04 杭州海康威视数字技术股份有限公司 一种基于多帧的车牌号码确定方法、装置及电子设备
CN108629174A (zh) * 2018-05-08 2018-10-09 阿里巴巴集团控股有限公司 字符串校验的方法及装置
CN110889769A (zh) * 2018-08-21 2020-03-17 湖南共睹互联网科技有限责任公司 交易保障关联方法、计算机装置及计算机可读存储介质
CN109840294A (zh) * 2018-12-28 2019-06-04 深圳市世强元件网络有限公司 电子元件配套资料查询方法、存储介质及终端
CN109840294B (zh) * 2018-12-28 2023-04-18 深圳市世强元件网络有限公司 电子元件配套资料查询方法、存储介质及终端
US11921770B2 (en) 2018-12-28 2024-03-05 Shenzhen Sekorm Component Network Co., Ltd Electronic element supporting data inquiry method, storage medium and terminal
CN111860657A (zh) * 2020-07-23 2020-10-30 中国建设银行股份有限公司 一种图像分类方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN100452042C (zh) 2009-01-14

Similar Documents

Publication Publication Date Title
CN101079032A (zh) 数字串模糊匹配的方法
CN101876981B (zh) 一种构建知识库的方法及装置
CN101950284B (zh) 中文分词方法及系统
KR101231560B1 (ko) 데이터 클러스터와 유의어의 탐색과 수정에 대한 방법 및 시스템
CN111104794A (zh) 一种基于主题词的文本相似度匹配方法
Chen et al. Template detection for large scale search engines
CN101079031A (zh) 一种网页主题提取系统和方法
US20050267915A1 (en) Method and apparatus for recognizing specific type of information files
CN105159998A (zh) 一种基于文档聚类关键词计算方法
CN103617174A (zh) 一种基于云计算的分布式搜索方法
KR20060048779A (ko) 정보 검색 시스템에서의 문구 식별
KR20060048780A (ko) 정보 검색 시스템에서의 문구 기반 인덱싱
CN1818908A (zh) 一种在搜索引擎中应用搜索者反馈信息的方法
CN101079025A (zh) 一种文档相关度计算系统和方法
CN102411617B (zh) 一种对海量url进行存储和查询方法
CN101075251A (zh) 一种基于数据挖掘的文本搜索方法
CN104077385A (zh) 一种文件的分类及检索方法
CN112052397B (zh) 用户特征生成方法、装置、电子设备及存储介质
US11334592B2 (en) Self-orchestrated system for extraction, analysis, and presentation of entity data
CN110019637B (zh) 一种标准文献检索的排序算法
CN112835923A (zh) 一种相关检索方法、装置和设备
CN1804834A (zh) 一种实现网站级搜索网页级展示的中英文搜索引擎
CN112395856B (zh) 文本匹配方法、装置、计算机系统及可读存储介质
CN114491232A (zh) 信息查询方法、装置、电子设备和存储介质
CN112989190A (zh) 一种商品挂载方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160106

Address after: The South Road in Guangdong province Shenzhen city Fiyta building 518057 floor 5-10 Nanshan District high tech Zone

Patentee after: Shenzhen Tencent Computer System Co., Ltd.

Address before: 518057 Guangdong city of Shenzhen province high tech Park high-tech South Road Fiyta high-tech building 5-10

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.