CN103778138A - 一种连续字符串的切分方法和装置 - Google Patents

一种连续字符串的切分方法和装置 Download PDF

Info

Publication number
CN103778138A
CN103778138A CN201210401107.8A CN201210401107A CN103778138A CN 103778138 A CN103778138 A CN 103778138A CN 201210401107 A CN201210401107 A CN 201210401107A CN 103778138 A CN103778138 A CN 103778138A
Authority
CN
China
Prior art keywords
character string
cutting
continuation character
query result
session
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210401107.8A
Other languages
English (en)
Inventor
李超
宋国龙
李磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shiji Guangsu Information Technology Co Ltd filed Critical Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority to CN201210401107.8A priority Critical patent/CN103778138A/zh
Publication of CN103778138A publication Critical patent/CN103778138A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种连续字符串的切分方法和装置,属于网络通信领域。方法包括:接收用户输入的连续字符串;获取所述连续字符串的切分资源;所述切分资源为与所述连续字符串相匹配且查询次数最多的字符串和/或与所述连续字符串相匹配且所述用户修改次数最多的字符串;根据获取的所述连续字符串的切分资源对所述连续字符串进行切分。装置包括:接收模块、获取模块和切分模块。本发明解决了现有技术对于新词技术无法匹配以及切分存在歧义导致的切分错误的问题,实现了对连续字符串的准确切分。

Description

一种连续字符串的切分方法和装置
技术领域
本发明涉及网络通信领域,特别涉及一种连续字符串的切分方法和装置。
背景技术
随着网络技术的飞速发展,用户越来越依赖于搜索引擎来搜索所需要的信息,在使用搜索引擎时,用户经常会输入连续字符串,这就需要对输入的连续字符串进行切分,以便更好的搜索到用户需要的信息。
目前对连续字符串的切分方法,主要是对连续英文串以及连续英文数字组合串利用固定的英文词典,对输入的连续英文串以及连续英文数字组合串进行匹配,然后得到切分结果,例如,输入“gohome”,“go”和“home”在词典中存在那么进行匹配,得到这个英文串是由“go”和“home”两个单词构成,那么切分结果为“go home”。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
现有对连续字符串中的连续英文串以及连续英文数字组合串利用英文词典进行切分的方法,一方面,由于互联网的网络上的新词不断更新,对于用户输入的这些新词时无法找到固定的词表来匹配,例如:win7,gaga等;另一方面,根据英文词典对连续英文串以及连续英文数字组合串进行匹配切分,会存在很大切分歧义,从而导致切分错误。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种连续字符串的切分方法和装置。所述技术方案如下:
一方面,提供了一种连续字符串的切分方法,所述方法包括:
接收用户输入的连续字符串;
获取所述连续字符串的切分资源;所述切分资源为与所述连续字符串相匹配且查询次数最多的字符串和/或与所述连续字符串相匹配且所述用户修改次数最多的字符串;
根据获取的所述连续字符串的切分资源对所述连续字符串进行切分。
具体地,所述获取所述连续字符串的切分资源,包括:
从搜索引擎的查询日志中获取所述连续字符串的切分资源;
和/或,
从所述搜索引擎中所述用户的会话日志中获取所述连续字符串的切分资源。
进一步地,所述从所述搜索引擎的查询日志中获取所述连续字符串的切分资源,具体包括:
在所述搜索引擎中获取预设时间内的查询日志,所述查询日志包括所有用户在搜索引擎中的查询记录;
从所述查询日志中查找与所述连续字符串相匹配的至少一个切分查询结果,并获取所述切分查询结果的查询次数以及所述连续字符串的查询次数;
当所述切分查询结果的查询次数大于所述连续字符串的查询次数时,从查询次数大于所述连续字符串的查询次数的切分查询结果中选择查询次数最多的切分查询结果作为所述连续字符串的切分资源。
进一步地,所述从所述搜索引擎中所述用户的会话日志中获取所述连续字符串的切分资源,具体包括:
在所述搜索引擎中获取保存的所述用户的会话日志,所述会话日志为根据预设的时间阈值进行划分的会话日志;
从所述用户的会话日志中查找与所述连续字符串相匹配的至少一个会话查询结果,并获取所述会话查询结果的修改次数;所述会话查询结果为所述用户在所述会话日志中对所述连续字符串进行改写且改写后被所述用户点击的字符串;
从获取的至少一个所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源。
进一步地,所述从获取的至少一个所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源,具体包括:
从所述搜索引擎中获取所述会话查询结果的检索次数和所述会话查询结果的点击次数,并获取所述连续字符串的检索次数和所述连续字符串的点击次数;
当所述会话查询结果的检索次数大于所述连续字符串的检索次数且所述会话查询结果的点击次数大于所述连续字符串的点击次数时,从检索次数和点击次数分别都大于所述连续字符串的检索次数和点击次数的所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源。
具体地,所述根据获取的所述连续字符串的切分资源对所述连续字符串进行切分之后,还包括:
在所述搜索引擎中显示所述连续字符串的切分结果。
另一方面,提供了一种连续字符串的切分装置,所述装置包括:
接收模块,用于接收用户输入的连续字符串;
获取模块,用于获取所述连续字符串的切分资源;所述切分资源为与所述连续字符串相匹配且查询次数最多的字符串和/或与所述连续字符串相匹配且所述用户修改次数最多的字符串;
切分模块,用于根据获取的所述连续字符串的切分资源对所述连续字符串进行切分。
具体地,所述获取模块,包括:
第一获取单元,用于从搜索引擎的查询日志中获取所述连续字符串的切分资源;
第二获取单元,用于从所述搜索引擎中所述用户的会话日志中获取所述连续字符串的切分资源。
进一步地,所述第一获取单元,具体包括:
查询日志子单元,用于在所述搜索引擎中获取预设时间内的查询日志,所述查询日志包括所有用户在搜索引擎中的查询记录;
切分查询结果子单元,用于从所述查询日志中查找与所述连续字符串相匹配的至少一个切分查询结果,并获取所述切分查询结果的查询次数以及所述连续字符串的查询次数;
选择切分查询子单元,用于当所述切分查询结果的查询次数大于所述连续字符串的查询次数时,从查询次数大于所述连续字符串的查询次数的切分查询结果中选择查询次数最多的切分查询结果作为所述连续字符串的切分资源。
进一步地,所述第二获取单元,具体包括:
会话日志子单元,用于在所述搜索引擎中获取保存的所述用户的会话日志,所述会话日志为根据预设的时间阈值进行划分的会话日志;
会话查询结果子单元,用于从所述用户的会话日志中查找与所述连续字符串相匹配的至少一个会话查询结果,并获取所述会话查询结果的修改次数;所述会话查询结果为所述用户在所述会话日志中对所述连续字符串进行改写且改写后被所述用户点击的字符串;
选择会话查询子单元,用于从获取的至少一个所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源。
进一步地,所述选择会话查询子单元,具体用于从所述搜索引擎中获取所述会话查询结果的检索次数和所述会话查询结果的点击次数,并获取所述连续字符串的检索次数和所述连续字符串的点击次数;
当所述会话查询结果的检索次数大于所述连续字符串的检索次数且所述会话查询结果的点击次数大于所述连续字符串的点击次数时,从检索次数和点击次数分别都大于所述连续字符串的检索次数和点击次数的所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源。
具体地,所述装置还包括:
显示模块,用于所述切分模块根据获取的所述连续字符串的切分资源对所述连续字符串进行切分之后,在所述搜索引擎中显示所述连续字符串的切分结果。
本发明实施例提供的技术方案带来的有益效果是:
通过获取用户在搜索引擎中输入的连续字符串的切分资源,根据从搜索引擎中获取的连续字符串的切分资源对连续字符串进行匹配切分,解决了现有技术对于新词技术无法匹配以及切分存在歧义导致的切分错误的问题,实现了对连续字符串的准确切分。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的连续字符串的切分方法流程图;
图2是本发明实施例二提供的连续字符串的切分方法流程图;
图3是本发明实施例三提供的连续字符串的切分方法流程图;
图4是本发明实施例四提供的连续字符串的切分方法流程图;
图5是本发明实施例五提供的连续字符串的切分装置第一种结构示意图;
图6是本发明实施例五提供的连续字符串的切分装置第二种结构示意图;
图7是本发明实施例五提供的连续字符串的切分装置第三种结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
参见图1,本发明实施例提供了一种连续字符串的切分方法,该方法包括:
101、接收用户输入的连续字符串;
102、获取连续字符串的切分资源;该切分资源为与连续字符串相匹配且查询次数最多的字符串和/或与连续字符串相匹配且用户修改次数最多的字符串;
103、根据获取的连续字符串的切分资源对连续字符串进行切分。
具体地,获取连续字符串的切分资源,包括:
从搜索引擎的查询日志中获取连续字符串的切分资源;
和/或,
从搜索引擎中用户的会话日志中获取连续字符串的切分资源。
进一步地,从搜索引擎的查询日志中获取连续字符串的切分资源,具体包括:
在搜索引擎中获取预设时间内的查询日志,查询日志包括所有用户在搜索引擎中的查询记录;
从查询日志中查找与连续字符串相匹配的至少一个切分查询结果,并获取切分查询结果的查询次数以及连续字符串的查询次数;
当切分查询结果的查询次数大于连续字符串的查询次数时,从查询次数大于连续字符串的查询次数的切分查询结果中选择查询次数最多的切分查询结果作为连续字符串的切分资源。
进一步地,从搜索引擎中用户的会话日志中获取连续字符串的切分资源,具体包括:
在搜索引擎中获取保存的用户的会话日志,会话日志为根据预设的时间阈值进行划分的会话日志;
从用户的会话日志中查找与连续字符串相匹配的至少一个会话查询结果,并获取会话查询结果的修改次数;该会话查询结果为用户在会话日志中对连续字符串进行改写且改写后被用户点击的字符串;
从获取的至少一个会话查询结果中选择修改次数最多的会话查询结果作为连续字符串的切分资源。
进一步地,从获取的至少一个会话查询结果中选择修改次数最多的会话查询结果作为连续字符串的切分资源,具体包括:
从搜索引擎中获取会话查询结果的检索次数和会话查询结果的点击次数,并获取连续字符串的检索次数和连续字符串的点击次数;
当会话查询结果的检索次数大于连续字符串的检索次数且会话查询结果的点击次数大于连续字符串的点击次数时,从检索次数和点击次数分别都大于连续字符串的检索次数和点击次数的会话查询结果中选择修改次数最多的会话查询结果作为连续字符串的切分资源。
具体地,根据获取的连续字符串的切分资源对连续字符串进行切分之后,还包括:
在搜索引擎中显示连续字符串的切分结果。
本发明实施例提供的方法,通过获取用户在搜索引擎中输入的连续字符串的切分资源,根据从搜索引擎中获取的连续字符串的切分资源对连续字符串进行匹配切分,解决了现有技术对于新词技术无法匹配以及切分存在歧义导致的切分错误的问题,实现了对连续字符串的准确切分。
实施例二
参见图2,本发明实施例提供了一种连续字符串的切分方法,该方法包括:
201、接收用户输入的连续字符串;
具体地,用户在搜索引擎中输入连续字符串,也可以为连续字符串和中文的组合,只需对其中的连续字符串处理即可;其中,本发明实施例中的连续数字英文数字串,可以是纯英文数字串如flashgetdownload,也可以是英文和数字的组合串,如win7。
202、从搜索引擎的查询日志中获取连续字符串的切分资源;该切分资源为与连续字符串相匹配且查询次数最多的字符串;
具体地,首先,在搜索引擎中获取预设时间内的查询日志,查询日志包括所有用户在搜索引擎中的查询记录;其中,预设时间可以根据情况灵活设置,比如可以设置90天;所获取的查询日志中包括所有的用户在搜索引擎中的查询记录,不仅仅是用户本身。
其次,从查询日志中查找与连续字符串相匹配的至少一个切分查询结果,并获取切分查询结果的查询次数以及连续字符串的查询次数;其中,本发明实施例中与连续字符串相匹配的切分查询结果是指与连续字符串只差空格的切分查询结果,该切分查询结果可能为一个也可能为多个;如表1所示:连续字符串dreamhigh2的查询次数为7181,在查询日志中的切分查询结果dream high2的查询次数为40062、切分查询结果dream high 2的查询次数为10000。
表1
连续字符串 查询次数 切分查询结果 查询次数
dreamhigh2 7181 dream high2 40062
dreamhigh2 7181 dream high 2 10000
htcg11 10900 ht cg11 56272
rollinginthedeep 276 rolling in the deep 30255
superjunior 4293 super junior 31932
最后,当切分查询结果的查询次数大于连续字符串的查询次数时,从查询次数大于连续字符串的查询次数的切分查询结果中选择查询次数最多的切分查询结果作为连续字符串的切分资源。如表1所示:htcg11的切分查询结果htc g11的查询次数为56272,htcg11的查询次数为10900,大于htcg11的查询次数,则选择htc g11作为htcg11的切分资源;如果一个连续字符串的切分查询结果有多个时,如表1所示dreamhigh2的切分查询结果dream high2的查询次数为40062、切分查询结果dream high 2的查询次数为10000,则选择查询次数最多的切分查询结果dream high2作为连续字符串dreamhigh2的切分资源。
203、根据获取的连续字符串的切分资源对连续字符串进行切分;
具体地,获取到连续字符串的切分资源后,则将获取到的切分资源存储到词表中,根据词表识别出用户输入的连续字符串中需要进行切分的部分。
204、在搜索引擎中显示连续字符串的切分结果。
具体地,在搜索引擎中对对连续字符串进行匹配切分之后得到相应的切分结果,将最终的连续字符串切分结果在搜索引擎中显示;在搜索引擎中显示连续字符串的切分结果后,相应在搜索引擎中对切分结果进行检索,得到切分结果的检索结果,以便用户更好的获取检索信息。
本发明实施例提供的方法,通过获取用户在搜索引擎中输入的连续字符串的切分资源,根据从搜索引擎中获取的连续字符串的切分资源对连续字符串进行匹配切分,解决了现有技术对于新词技术无法匹配以及切分存在歧义导致的切分错误的问题,实现了对连续字符串的准确切分。
实施例三
参见图3,本发明实施例提供了一种连续字符串的切分方法,该方法包括:
301、接收用户输入的连续字符串;
具体地,用户在搜索引擎中输入连续字符串,也可以为连续字符串和中文的组合,只需对其中的连续字符串处理即可;其中,本发明实施例中的连续数字英文数字串,可以是纯英文数字串如flashgetdownload,也可以是英文和数字的组合串,如win7。
302、从搜索引擎中用户的会话日志中获取连续字符串的切分资源;该切分资源为与连续字符串相匹配且用户修改次数最多的字符串;
具体地,首先,在搜索引擎中获取保存的用户的会话日志,会话日志为根据预设的时间阈值进行划分的会话日志;其中,用户的会话日志为同一用户为了一个目的而产生的一系列的查询请求包括对连续字符串的修改等操作,是根据预设时间阈值进行划分的,时间阈值可以根据情况灵活设置,比如设置2分钟,超过时间阈值的查询不为同一个会话。
其次,从用户的会话日志中查找与连续字符串相匹配的至少一个会话查询结果,并获取会话查询结果的修改次数;该会话查询结果为用户在会话日志中对连续字符串进行改写且改写后被用户点击的字符串,对于满足条件的改写后的字符串才为会话查询结果;如表2所示:g7vpn的改写次数为16。
表2
连续字符串 改写后的字符串 改写次数
katyperry katy perry 16
g7vpn g7vpn 16
nokiae10 nokia e10 10
photoshopcs photo shop cs 2
photoshopcs photoshop cs 30
再次,从搜索引擎中获取会话查询结果的检索次数和会话查询结果的点击次数,并获取连续字符串的检索次数和连续字符串的点击次数;
最后,当会话查询结果的检索次数大于连续字符串的检索次数且会话查询结果的点击次数大于连续字符串的点击次数时,从检索次数和点击次数分别都大于连续字符串的检索次数和点击次数的会话查询结果中选择修改次数最多的会话查询结果作为连续字符串的切分资源。
其中,所述的会话查询结果的检索次数还需要大于连续字符串的检索次数且会话查询结果的点击次数大于连续字符串的点击次数,如果不满足该条件则不对连续英文数字船进行切分。
当获取的用户的会话查询结果有多个且检索次数和点击次数分别都大于连续字符串的检索次数和点击次数的时,如表2所示的photoshopcs的会话查询结果为photo shop cs和photoshop cs,photo shop cs的修改次数为2,而photoshop cs的修改次数为30,则选择修改次数最多的会话查询结果如表2中的photoshop cs作为连续字符串的切分资源。
303、根据获取的连续字符串的切分资源对连续字符串进行切分;
具体地,获取到连续字符串的切分资源后,则将获取到的切分资源存储到词表中,根据词表识别出用户输入的连续字符串中需要进行切分的部分。
304、在搜索引擎中显示连续字符串的切分结果。
具体地,在搜索引擎中对对连续字符串进行匹配切分之后得到相应的切分结果,将最终的连续字符串切分结果在搜索引擎中显示;在搜索引擎中显示连续字符串的切分结果后,相应在搜索引擎中对切分结果进行检索,得到切分结果的检索结果,以便用户更好的获取检索信息。
本发明实施例提供的方法,通过获取用户在搜索引擎中输入的连续字符串的切分资源,根据从搜索引擎中获取的连续字符串的切分资源对连续字符串进行匹配切分,解决了现有技术对于新词技术无法匹配以及切分存在歧义导致的切分错误的问题,实现了对连续字符串的准确切分。
实施例四
参见图4,本发明实施例提供了一种连续字符串的切分方法,该方法包括:
401、接收用户输入的连续字符串;
具体地,用户在搜索引擎中输入连续字符串,也可以为连续字符串和中文的组合,只需对其中的连续字符串处理即可;其中,本发明实施例中的连续数字英文数字串,可以是纯英文数字串如flashgetdownload,也可以是英文和数字的组合串,如win7。
402、获取连续字符串的切分资源;该切分资源为与连续字符串相匹配且查询次数最多和用户修改次数最多的字符串;
具体地,首先,从搜索引擎的查询日志中获取与连续字符串相匹配且查询次数最多的字符串,具体包括:
a、在搜索引擎中获取预设时间内的查询日志,查询日志包括所有用户在搜索引擎中的查询记录;其中,预设时间可以根据情况灵活设置,比如可以设置90天;所获取的查询日志中包括所有的用户在搜索引擎中的查询记录,不仅仅是用户本身。
b、从查询日志中查找与连续字符串相匹配的至少一个切分查询结果,并获取切分查询结果的查询次数以及连续字符串的查询次数;其中,本发明实施例中与连续字符串相匹配的切分查询结果是指与连续字符串只差空格的切分查询结果,该切分查询结果可能为一个也可能为多个;如表1所示:连续字符串dreamhigh2的查询次数为7181,在查询日志中的切分查询结果dream high2的查询次数为40062、切分查询结果dream high 2的查询次数为10000。
c、当切分查询结果的查询次数大于连续字符串的查询次数时,从查询次数大于连续字符串的查询次数的切分查询结果中选择查询次数最多的切分查询结果作为连续字符串的切分资源。如表1所示:htcg11的切分查询结果htc g11的查询次数为56272,htcg11的查询次数为10900,大于htcg11的查询次数,则选择htc g11作为htcg11的切分资源;如果一个连续字符串的切分查询结果有多个时,如表1所示dreamhigh2的切分查询结果dream high2的查询次数为40062、切分查询结果dream high 2的查询次数为10000,则选择查询次数最多的切分查询结果dream high2作为连续字符串dreamhigh2的切分资源。
其次,从搜索引擎中用户的会话日志中获取与连续字符串相匹配且用户修改次数最多的字符串,具体包括:
a’、在搜索引擎中获取保存的用户的会话日志,会话日志为根据预设的时间阈值进行划分的会话日志;其中,用户的会话日志为同一用户为了一个目的而产生的一系列的查询请求包括对连续字符串的修改等操作,是根据预设时间阈值进行划分的,时间阈值可以根据情况灵活设置,比如设置2分钟,超过时间阈值的查询不为同一个会话。
b’、从用户的会话日志中查找与连续字符串相匹配的至少一个会话查询结果,并获取会话查询结果的修改次数;该会话查询结果为用户在会话日志中对连续字符串进行改写且改写后被用户点击的字符串,对于满足条件的改写后的字符串才为会话查询结果;如表2所示:g7vpn的改写次数为16。
c’、从搜索引擎中获取会话查询结果的检索次数和会话查询结果的点击次数,并获取连续字符串的检索次数和连续字符串的点击次数;
d’、当会话查询结果的检索次数大于连续字符串的检索次数且会话查询结果的点击次数大于连续字符串的点击次数时,从检索次数和点击次数分别都大于连续字符串的检索次数和点击次数的会话查询结果中选择修改次数最多的会话查询结果作为连续字符串的切分资源。
其中,所述的会话查询结果的检索次数还需要大于连续字符串的检索次数且会话查询结果的点击次数大于连续字符串的点击次数,如果不满足该条件则不对连续英文数字船进行切分。
当获取的用户的会话查询结果有多个且检索次数和点击次数分别都大于连续字符串的检索次数和点击次数的时,如表2所示的photoshopcs的会话查询结果为photo shop cs和photoshop cs,photo shop cs的修改次数为2,而photoshop cs的修改次数为30,则选择修改次数最多的会话查询结果如表2中的photoshop cs作为连续字符串的切分资源。
最后,从搜索引擎的查询日志中获取的与连续字符串相匹配且查询次数最多的字符串和从搜索引擎中用户的会话日志中获取的与连续字符串相匹配且用户修改次数最多的字符串相同时,则该字符串为连续字符串的切分资源。
需要说明的是,从搜索引擎的查询日志中获取的与连续字符串相匹配且查询次数最多的字符串和从搜索引擎中用户的会话日志中获取的与连续字符串相匹配且用户修改次数最多的字符串不同时,则没有满足条件的切分资源,进而不对连续字符串进行切分;还可以根据实际需要选择其中一种字符串作为切分资源对连续字符串进行切分。
403、根据获取的连续字符串的切分资源对连续字符串进行切分;
具体地,获取到连续字符串的切分资源后,则将获取到的切分资源存储到词表中,根据词表识别出用户输入的连续字符串中需要进行切分的部分。
404、在搜索引擎中显示连续字符串的切分结果。
具体地,在搜索引擎中对对连续字符串进行匹配切分之后得到相应的切分结果,将最终的连续字符串切分结果在搜索引擎中显示;在搜索引擎中显示连续字符串的切分结果后,相应在搜索引擎中对切分结果进行检索,得到切分结果的检索结果,以便用户更好的获取检索信息。
本发明实施例提供的方法,通过获取用户在搜索引擎中输入的连续字符串的切分资源,根据从搜索引擎中获取的连续字符串的切分资源对连续字符串进行匹配切分,解决了现有技术对于新词技术无法匹配以及切分存在歧义导致的切分错误的问题,实现了对连续字符串的准确切分。
实施例五
参见图5,本发明实施例提供了一种连续字符串的切分装置,该装置包括:
接收模块501,用于接收用户输入的连续字符串;
获取模块502,用于获取连续字符串的切分资源;该切分资源为与连续字符串相匹配且查询次数最多的字符串和/或与连续字符串相匹配且用户修改次数最多的字符串;
切分模块503,用于根据获取的连续字符串的切分资源对连续字符串进行切分。
具体地,参见图6,获取模块502,包括:
第一获取单元502a,用于从搜索引擎的查询日志中获取连续字符串的切分资源;
第二获取单元502b,用于从搜索引擎中用户的会话日志中获取连续字符串的切分资源。
进一步地,第一获取单元502a,具体包括:
查询日志子单元,用于在搜索引擎中获取预设时间内的查询日志,查询日志包括所有用户在搜索引擎中的查询记录;
切分查询结果子单元,用于从查询日志中查找与连续字符串相匹配的至少一个切分查询结果,并获取切分查询结果的查询次数以及连续字符串的查询次数;
选择切分查询子单元,用于当切分查询结果的查询次数大于连续字符串的查询次数时,从查询次数大于连续字符串的查询次数的切分查询结果中选择查询次数最多的切分查询结果作为连续字符串的切分资源。
进一步地,第二获取单元502b,具体包括:
会话日志子单元,用于在搜索引擎中获取保存的用户的会话日志,会话日志为根据预设的时间阈值进行划分的会话日志;
会话查询结果子单元,用于从用户的会话日志中查找与连续字符串相匹配的至少一个会话查询结果,并获取会话查询结果的修改次数;会话查询结果为用户在会话日志中对连续字符串进行改写且改写后被用户点击的字符串;
选择会话查询子单元,用于从获取的至少一个会话查询结果中选择修改次数最多的会话查询结果作为连续字符串的切分资源。
进一步地,选择会话查询子单元,具体用于从搜索引擎中获取会话查询结果的检索次数和会话查询结果的点击次数,并获取连续字符串的检索次数和连续字符串的点击次数;
当会话查询结果的检索次数大于连续字符串的检索次数且会话查询结果的点击次数大于连续字符串的点击次数时,从检索次数和点击次数分别都大于连续字符串的检索次数和点击次数的会话查询结果中选择修改次数最多的会话查询结果作为连续字符串的切分资源。
具体地,参见图7,该装置还包括:
显示模块504,用于切分模块根据获取的连续字符串的切分资源对连续字符串进行切分之后,在搜索引擎中显示连续字符串的切分结果。
本发明实施例提供的装置,通过获取用户在搜索引擎中输入的连续字符串的切分资源,根据从搜索引擎中获取的连续字符串的切分资源对连续字符串进行匹配切分,解决了现有技术对于新词技术无法匹配以及切分存在歧义导致的切分错误的问题,实现了对连续字符串的准确切分。
需要说明的是:上述实施例提供的连续字符串的切分装置在对连续字符串切分时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的连续字符串的切分装置与连续字符串的切分方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种连续字符串的切分方法,其特征在于,所述方法包括:
接收用户输入的连续字符串;
获取所述连续字符串的切分资源;所述切分资源为与所述连续字符串相匹配且查询次数最多的字符串和/或与所述连续字符串相匹配且所述用户修改次数最多的字符串;
根据获取的所述连续字符串的切分资源对所述连续字符串进行切分。
2.根据权利要求1所述的方法,其特征在于,所述获取所述连续字符串的切分资源,包括:
从搜索引擎的查询日志中获取所述连续字符串的切分资源;
和/或,
从所述搜索引擎中所述用户的会话日志中获取所述连续字符串的切分资源。
3.根据权利要求2所述的方法,其特征在于,所述从所述搜索引擎的查询日志中获取所述连续字符串的切分资源,具体包括:
在所述搜索引擎中获取预设时间内的查询日志,所述查询日志包括所有用户在搜索引擎中的查询记录;
从所述查询日志中查找与所述连续字符串相匹配的至少一个切分查询结果,并获取所述切分查询结果的查询次数以及所述连续字符串的查询次数;
当所述切分查询结果的查询次数大于所述连续字符串的查询次数时,从查询次数大于所述连续字符串的查询次数的切分查询结果中选择查询次数最多的切分查询结果作为所述连续字符串的切分资源。
4.根据权利要求2所述的方法,其特征在于,所述从所述搜索引擎中所述用户的会话日志中获取所述连续字符串的切分资源,具体包括:
在所述搜索引擎中获取保存的所述用户的会话日志,所述会话日志为根据预设的时间阈值进行划分的会话日志;
从所述用户的会话日志中查找与所述连续字符串相匹配的至少一个会话查询结果,并获取所述会话查询结果的修改次数;所述会话查询结果为所述用户在所述会话日志中对所述连续字符串进行改写且改写后被所述用户点击的字符串;
从获取的至少一个所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源。
5.根据权利要求4所述的方法,其特征在于,所述从获取的至少一个所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源,具体包括:
从所述搜索引擎中获取所述会话查询结果的检索次数和所述会话查询结果的点击次数,并获取所述连续字符串的检索次数和所述连续字符串的点击次数;
当所述会话查询结果的检索次数大于所述连续字符串的检索次数且所述会话查询结果的点击次数大于所述连续字符串的点击次数时,从检索次数和点击次数分别都大于所述连续字符串的检索次数和点击次数的所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源。
6.根据权利要求4所述的方法,其特征在于,所述根据获取的所述连续字符串的切分资源对所述连续字符串进行切分之后,还包括:
在所述搜索引擎中显示所述连续字符串的切分结果。
7.一种连续字符串的切分装置,其特征在于,所述装置包括:
接收模块,用于接收用户输入的连续字符串;
获取模块,用于获取所述连续字符串的切分资源;所述切分资源为与所述连续字符串相匹配且查询次数最多的字符串和/或与所述连续字符串相匹配且所述用户修改次数最多的字符串;
切分模块,用于根据获取的所述连续字符串的切分资源对所述连续字符串进行切分。
8.根据权利要求7所述的装置,其特征在于,所述获取模块,包括:
第一获取单元,用于从搜索引擎的查询日志中获取所述连续字符串的切分资源;
第二获取单元,用于从所述搜索引擎中所述用户的会话日志中获取所述连续字符串的切分资源。
9.根据权利要求8所述的装置,其特征在于,所述第一获取单元,具体包括:
查询日志子单元,用于在所述搜索引擎中获取预设时间内的查询日志,所述查询日志包括所有用户在搜索引擎中的查询记录;
切分查询结果子单元,用于从所述查询日志中查找与所述连续字符串相匹配的至少一个切分查询结果,并获取所述切分查询结果的查询次数以及所述连续字符串的查询次数;
选择切分查询子单元,用于当所述切分查询结果的查询次数大于所述连续字符串的查询次数时,从查询次数大于所述连续字符串的查询次数的切分查询结果中选择查询次数最多的切分查询结果作为所述连续字符串的切分资源。
10.根据权利要求8所述的装置,其特征在于,所述第二获取单元,具体包括:
会话日志子单元,用于在所述搜索引擎中获取保存的所述用户的会话日志,所述会话日志为根据预设的时间阈值进行划分的会话日志;
会话查询结果子单元,用于从所述用户的会话日志中查找与所述连续字符串相匹配的至少一个会话查询结果,并获取所述会话查询结果的修改次数;所述会话查询结果为所述用户在所述会话日志中对所述连续字符串进行改写且改写后被所述用户点击的字符串;
选择会话查询子单元,用于从获取的至少一个所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源。
11.根据权利要求10所述的装置,其特征在于,所述选择会话查询子单元,具体用于从所述搜索引擎中获取所述会话查询结果的检索次数和所述会话查询结果的点击次数,并获取所述连续字符串的检索次数和所述连续字符串的点击次数;
当所述会话查询结果的检索次数大于所述连续字符串的检索次数且所述会话查询结果的点击次数大于所述连续字符串的点击次数时,从检索次数和点击次数分别都大于所述连续字符串的检索次数和点击次数的所述会话查询结果中选择修改次数最多的会话查询结果作为所述连续字符串的切分资源。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
显示模块,用于所述切分模块根据获取的所述连续字符串的切分资源对所述连续字符串进行切分之后,在所述搜索引擎中显示所述连续字符串的切分结果。
CN201210401107.8A 2012-10-19 2012-10-19 一种连续字符串的切分方法和装置 Pending CN103778138A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210401107.8A CN103778138A (zh) 2012-10-19 2012-10-19 一种连续字符串的切分方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210401107.8A CN103778138A (zh) 2012-10-19 2012-10-19 一种连续字符串的切分方法和装置

Publications (1)

Publication Number Publication Date
CN103778138A true CN103778138A (zh) 2014-05-07

Family

ID=50570381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210401107.8A Pending CN103778138A (zh) 2012-10-19 2012-10-19 一种连续字符串的切分方法和装置

Country Status (1)

Country Link
CN (1) CN103778138A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294371A (zh) * 2015-05-15 2017-01-04 阿里巴巴集团控股有限公司 字符串值域切分方法及装置
CN106708798A (zh) * 2015-11-16 2017-05-24 阿里巴巴集团控股有限公司 一种字符串切分方法及装置
CN109408794A (zh) * 2017-08-17 2019-03-01 阿里巴巴集团控股有限公司 一种频次词典建立方法、分词方法、服务器和客户端设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294371A (zh) * 2015-05-15 2017-01-04 阿里巴巴集团控股有限公司 字符串值域切分方法及装置
CN106294371B (zh) * 2015-05-15 2019-08-16 阿里巴巴集团控股有限公司 字符串值域切分方法及装置
US10552441B2 (en) 2015-05-15 2020-02-04 Alibaba Group Holding Limited Method and apparatus for multithreading extraction of data from a database
CN106708798A (zh) * 2015-11-16 2017-05-24 阿里巴巴集团控股有限公司 一种字符串切分方法及装置
CN106708798B (zh) * 2015-11-16 2020-03-31 阿里巴巴集团控股有限公司 一种字符串切分方法及装置
CN109408794A (zh) * 2017-08-17 2019-03-01 阿里巴巴集团控股有限公司 一种频次词典建立方法、分词方法、服务器和客户端设备

Similar Documents

Publication Publication Date Title
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN105630938A (zh) 一种智能问答系统
EP2924594B1 (en) Data encoding and corresponding data structure in a column-store database
CN104809117B (zh) 视频数据聚合处理方法、聚合系统及视频搜索平台
CN103092943B (zh) 一种广告调度的方法和广告调度服务器
CN105976818A (zh) 指令识别的处理方法及装置
KR20190020119A (ko) 검색어를 위한 오류 정정 방법 및 기기
CN103514236A (zh) 检索应用中基于拼音的检索条件纠错提示处理方法
CN108804642A (zh) 检索方法、装置、计算机设备及存储介质
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
CN101794307A (zh) 基于互联网分词思想的车载导航poi搜索引擎
CN102411580B (zh) 可扩展标记语言文档的检索方法及装置
KR20060045535A (ko) 사용자 모델링을 통한 효율적인 대문자화 훈련 방법
CN103823799A (zh) 新一代行业知识全文检索方法
CN102867049B (zh) 一种基于单词查找树实现的汉语拼音快速分词方法
CN107463709A (zh) 一种基于多数据源的etl处理方法及装置
CN105468719A (zh) 一种查询纠错方法、装置和计算设备
CN104007836B (zh) 一种手写字输入的处理方法及终端设备
US20130066898A1 (en) Matching target strings to known strings
US11314819B2 (en) Systems, apparatuses, and method for document ingestion
US11409722B2 (en) Database live reindex
CN102193948A (zh) 特征匹配方法和装置
CN104462429A (zh) 数据库查询语句的生成方法及装置
CN111666372B (zh) 解析查询词query的方法、装置、电子设备和可读存储介质
CN103150409B (zh) 一种用户检索词推荐的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140507