CN103544165A - 新词挖掘方法和系统 - Google Patents

新词挖掘方法和系统 Download PDF

Info

Publication number
CN103544165A
CN103544165A CN201210241308.6A CN201210241308A CN103544165A CN 103544165 A CN103544165 A CN 103544165A CN 201210241308 A CN201210241308 A CN 201210241308A CN 103544165 A CN103544165 A CN 103544165A
Authority
CN
China
Prior art keywords
search
character
pattern
string
search string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210241308.6A
Other languages
English (en)
Inventor
刘严
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210241308.6A priority Critical patent/CN103544165A/zh
Publication of CN103544165A publication Critical patent/CN103544165A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种新词挖掘方法和系统。所述方法包括:获取通过种子词得到的搜索模式,所述搜索模式中包含与所述种子词对应的标记符;在搜索日志中查找与所述搜索模式匹配的;判断所述字符是否存在于词库中,若否,则将所述字符作为新词更新到词库中。所述系统包括:模式获取模块、处理模块以及更新模块。采用本发明能提高通用性和准确率。

Description

新词挖掘方法和系统
技术领域
本发明涉及数据处理技术,特别是涉及一种新词挖掘方法和系统。
背景技术
在互联网络的迅猛发展中大量信息通过互联网络迅速传播。互联网用户可以从互联网络中获取到巨大的信息量,进而再次通过互联网传播获取到的信息。随着信息的广泛传播以及互联网用户之间的不断交流扩展,各种新词层出不穷,因此需不断对互联网络产生的数据进行新词挖掘,以收录新词,进而为各种应用提供便利。
然而,在挖掘新词的过程中所使用的方法大致分为基于规则的新词获取方法和基于统计的新词获取方法。基于规则的新词获取方法是通过研究词汇的构词特征来建立规则,进而通过规则来识别对互联网中产生的数据进行识别以得到新词。基于规则的新词获取方法具备较高的准确率,但是由于规则的建立较为困难,并且需要针对每一场景制定相应的规则,所建立的一套规则无法适用于场景变换,通用性差,无法针对不同的场景实现新词挖掘中较高的准确率。
基于统计的新词获取方法对收录了各种信息的语料库所存储的文本进行大量的训练,以统计出词汇的出现概率,进而根据出现概率得到新词。基于统计的新词获取方法虽然能够不受场景的限制,可在任一场景较为迅速地实现新词的获取,但是需要大量的训练语料,并且新词挖掘的准确率较低,也无法针对不同的场景实现准确率的提高。
发明内容
基于此,有必要针对不同的场景无法提高新词挖掘准确率的问题,提供一种能提高通用性和准确率的新词挖掘方法。
此外,还有必要提供一种能提高通用性和准确性的新词挖掘系统。
一种新词挖掘方法,包括如下步骤:
获取通过种子词得到的搜索模式,所述搜索模式中包含与所述种子词对应的标记符;
在搜索日志中查找与所述搜索模式匹配的搜索串,并在所述匹配的搜索串中得到与所述搜索模式的标记符相对应的字符;
判断所述字符是否存在于词库中,若否,则将所述字符作为新词更新到词库中。
一种新词挖掘系统,包括:
模式获取模块,用于获取通过种子词得到的搜索模式,所述搜索模式中包含与所述种子词对应的标记符;
处理模块,用于在搜索日志中查找与所述搜索模式匹配的搜索串,并在所述匹配的搜索串中得到与所述搜索模式的标记符相对应的字符;
更新模块,用于判断所述字符是否存在于词库中,若否,则将所述字符作为新词更新到词库中。
上述新词挖掘方法和系统,通过搜索模式在搜索日志中查找得到匹配的搜索串,其中搜索模式中包含了与种子词对应的标记符,从搜索串中得到与标记符对应的字符,进而将词库中未收录的字符更新到词库中,由于搜索模式中包含了与种子词对应的标记符,可用于反映用户的搜索目的,成为种子词和未知的新词之间的联系,进而提高新词挖掘的准确性,并且任一场景都有相应的种子词,进而通过种子词得到搜索模式,使得任一场景下都可通过搜索模式在搜索日志中挖掘新词,提高了通用性。
附图说明
图1为一个实施例中新词挖掘方法的流程图;
图2为一个实施例中扫描搜索日志得到包含种子词的搜索串,并将搜索串中的种子词替换为标记符得到搜索模式的方法流程图;
图3为一个实施例中在搜索日志中查找与搜索模式匹配的搜索串,并在匹配的搜索串中得到与搜索模式的标记符相对应的字符;
图4为另一个实施例中新词挖掘方法的流程图;
图5为一个实施例中新词挖掘系统的结构示意图;
图6为另一个实施例中新词挖掘系统的结构示意图;
图7为图6中日志扫描模块的结构示意图;
图8为一个实施例中处理模块的结构示意图;
图9为另一个实施例中新词挖掘系统的结构示意图。
具体实施方式
如图1所示,在一个实施例中,一种新词挖掘方法,包括如下步骤:
步骤S110,获取通过种子词得到的搜索模式,所述搜索模式中包含所述种子词对应的标记符。
本实施例中,种子词是从现有的已知词汇中选取的若干个词汇,可以是从已有的搜索串中选取的词汇,用于代表任一搜索场景中的搜索串,并且处于同一搜索场景中的种子词将会对应了相似的搜索模式,例如在影视剧场景下,种子词可以是“车在囧途”、“武林外传”以及“士兵突击”等词汇;在汽车品牌这一场景下,可以将“保时捷”、“法拉利”作为种子词。在实际的运行过程中,只需选取1~3个已知词汇作为种子词即可通过选取得到的种子词得到相应的搜索模式。搜索模式是与所在的场景相关联的,反映了用户的搜索行为,每一场景均有相应的搜索模式,搜索模式指示了在相应场景下用户输入搜索串的格式,在影视剧这一场景下,用户输入某一电视剧的搜索串中种子词为电视剧名称,而搜索模式则与种子词共同组成搜索串。
在通过种子词得到的搜索模式中,标记符是与种子词相对应的部分,用于标识搜索模式中与种子词相对应的部分。例如,若种子词为保时捷,则搜索模式中与“保时捷”相对应的部分则即为标记符。
在另一个实施例中,上述步骤S 110之前还包括:扫描搜索日志得到包含种子词的搜索串,并将搜索串中的种子词替换为标记符得到搜索模式。
本实施例中,搜索串为用户在使用进行搜索的过程中输入的字符。在获取通过种子词得到的搜索模式之前还需预先通过种子词得到相应的搜索模式。具体的,获取搜索日志,对搜索日志进行扫描以查找得到搜索串,该搜索串中包含了种子词,并将搜索串中包含种子词的字符替换为标记符,此时替换后的搜索串即为搜索模式。在优选的实施例中,标记符为通配符“*”。例如,若搜索串为“高清士兵突击全集下载”,种子词为“士兵突击”,则会将搜索串中的“士兵突击”替换为通配符,得到的搜索模式为“高清*全集下载”。
如图2所示,在一个实施例中,上述扫描搜索日志得到包含种子词的搜索串,并将搜索串中的种子词替换为标记符得到搜索模式的具体过程包括:
步骤S210,从搜索日志中提取搜索串。
本实施例中,搜索日志是搜索引擎运行过程中产生的,记了录搜索过程中用户所输入的搜索串。例如,搜索日志中的每一条目可以是“时间/IP/用户标识/URL/来源参数/处理结果”的格式,搜索引擎中发生的一次搜索行为将对应了搜索日志中的一个条目,其中,时间为该次搜索行为发生的时间;IP为浏览器等客户端外网出口的网络地址;用户标识是进行触发搜索行为的浏览器cookie下的随机值,用于区分不同的浏览器;来源参数包括了referer(引用页)、URL中携带的来源参数或cookie中携带的来源参数;处理结果包括了该次搜索行为请求成功、失败、返回的结果数量等信息。搜索串设置于搜索日志的URL字段中,以urlencode(将字符以URL编码)的形式表示,其编码类型为gbk或UTF-8,进而将编码类型为gbk或UTF-8的搜索串统一转换为UTF-8编码的明文,并去除搜索串中的空串和不可见字符,以方便后续的处理。
搜索引擎的不同所对应的搜索日志格式也各不相同,在此并不限于如上所述的搜索日志格式。但是无论是何种搜索日志格式,均可从相对较为复杂的搜索日志中提取出搜索串,换而言之,搜索串为用户在搜索框中输入的原始信息。
在从搜索日志中提取到若干个搜索串之后还将统计每一搜索串的出现频度QF,进而将搜索串和出现频度相关联得到存储了搜索串以及相关联的出现频度的文本文件query_file,在文本文件query_file中每一搜索串Query以及相关联的出现频度QF占据一行形成一条记录,即[Query,QF]的形式,并按照出现频度QF进行排列,而文本文件query_file的多条记录中搜索串和出现频度各占据一列。
步骤S230,在提取的搜索串中进行查找得到包含种子词的搜索串。
本实施例中,获取选定的种子词,根据种子词在文本文件query_file中进行查找得包含了种子词的搜索串。具体的,若干个种子词以[seed1…seedn]的形式进行存储的,其中seedn为种子词,n为种子词个数。根据[seed1…seedn]在文本文件query_file进行查找,得到包含了任一种子词的搜索串。
步骤S250,替换搜索串中的种子词为标记符,并将替换后的搜索串存储为搜索模式。
本实施例中,在对搜索串中的种子词进行替换之后得到了相应的搜索模式pattern,并进行存储。具体的,通过文本文件query_file中所得到的搜索模式可能为多个,此时所得到的多个搜索模式将存储为[pattern1…pattern k]的形式,其中1≤k≤N,N为搜索模式的数量。
进一步的,还将对搜索模式进行计数得到该搜索模式的累计频度PF,进而将搜索模式与累计频度PF相关联得到数据结构map<pattern,PF>,其中搜索模式pattern以及与之相关联的累计频度PF是按照累计频度的大小进行顺序排列的,累计频度越高,则说明相关联的搜索模式越具备代表性,用于识别得到新词也就越准确。由于搜索模式是从大量的搜索日志得到的,捕捉了用户的搜索习惯,因此,具备了较高的稳定性和复用性。
步骤S130,在搜索日志中查找与搜索模式匹配的搜索串,并在匹配的搜索串中得到与搜索模式的标记符相对应的字符。
本实施例中,再次对搜索日志进行扫描,在搜索日志中查找出与搜索模式匹配的搜索串,进而从搜索串中得到与搜索模式中的标记符对应的字符。具体的,与某一搜索模式相匹配的搜索串满足了该搜索模式,例如,对于“高清爱情呼叫转移全集下载”的搜索串,满足了“高清*全集下载”的搜索模式,是与“高清*全集下载”这一搜索模式相匹配的,此时,与标记符“*”对于的字符即为“爱情呼叫转移”。
在对搜索日志进行扫描得到了与搜索模式相匹配的搜索串之后,以搜索模式为筛选条件,从匹配的搜索串中筛选出与搜索模式的标记符相对应的字符,其中,在相互匹配的搜索模式和搜索串之间,标记符与字符是相对应的,并且由于搜索模式是通过种子词得到的,种子词与搜索模式中的标记符相对应,因此,种子词也是与匹配的搜索模式中的字符相对应的。
步骤S150,判断字符是否存在于词库中,若否,则进入步骤S170,若是,则结束。
本实施例中,从搜索日志的搜索串中通过搜索模式得到了与标记符对应的字符,由于搜索模式是通过搜索日志中的搜索串得到的,反映了用户通过搜索引擎进行搜索时的搜索习惯,任一搜索模式均反映了相应的场景下用户所输入的搜索串形式,因此所得到的字符与得到该搜索模式的种子词为同类词汇的可能性非常高,即字符与种子词是属于同一场景的,进一步的,与标记符对应的字符是与种子词属于同一场景的已知词汇或新词。
词库是一组词汇的集合,在实际应用中,收录于词库中的词汇将认为是已知词汇,尚未被词库收录的词汇则认为是新词,在一个具体的实施例中,词库为词典的形式。在得到搜索串中与标记符对应的字符之后,将判断该字符是否已经收录于词库中,若否,则判定该字符为新词,需要将该字符更新到词库中,不断扩充词库所收录的词汇。
步骤S170,将字符作为新词更新到词库中。
本实施例中,将得到的新词补充到词库中,以提高搜索引擎进行搜索的准确率。在实际的运用过程中,在搜索引擎的搜索以及为各类场景提供的热词排行榜中,例如最热男歌手、最热影视剧等,不断更新的词库提供了方便,避免了词汇的遗漏,并且由于是通过搜索日志以及搜索模式自动得到的新词,不需要编辑进行人工维护,大大地减轻了人工工作量,降低成本。
如图3所示,在一个实施例中,上述步骤S130的具体过程包括:
步骤S131,根据搜索模式逐一对搜索日志中的搜索串进行查找,得到与搜索模式相匹配的搜索串。
本实施例中,对通过搜索日志得到的多个搜索串进行查找,以得到满足搜索模式的搜索串,此时满足搜索模式的搜索串实质上是与该搜索模式较为相似的。
步骤S133,根据搜索模式中标记符的前缀字符和后缀字符,在匹配的搜索串中去除与前缀字符和后缀字符对应的字符,得到与标记符相对应的字符。
本实施例中,用户通过搜索引擎输入搜索串进行搜索的过程中,通常会输入与搜索意图最为相关的关键字,即中心词,以供搜索引擎进行搜索。但是,为了进一步缩小搜索范围,用户将会在中心词的前后补充一些词汇。
例如,用户在搜索电视剧士兵突击的在线观看网站时,输入“士兵突击”这一中心词,但是,所得到的搜索结果包括了剧情、下载网站、评论网站以及在线观看网站等诸多信息,此时,用户将在“士兵突击”的前后补充相关的词汇得到搜索串“高清士兵突击在线观看”,相应的,通过这一搜索串以及种子词“士兵突击”所得到的搜索模式为“高清*在线观看”。
因此搜索模式包括了前缀字符、标记符以及后缀字符。也就是说,对于包含种子词的搜索串而言,所对应的形式为:Query=prefix+seed+postfix,其中prefix为前缀字符,postfix为后缀字符,并且前缀字符和后缀字符均可为空。将种子词替换为标记符即可得到相应的搜索模式:pattern=prefix+*+postfix。相应的,再次对搜索日志进行扫描以获取与标记符相对应的字符时,搜索串所对应的形式为Query=prefix+word+postfix,其中,word为中心词,并且中心词word中包括了种子词seed和新词。
将搜索模式和搜索串进行文本匹配得到与搜索模式匹配的搜索串,进而根据搜索模式中的前缀字符和后缀字符去除搜索串中的前缀字符和后缀字符即可得到与标记符对应的字符。
如图4所示,在另一个实施例中,上述步骤S150之前还包括如下步骤:
步骤S310,对与标记符相对应的字符进行计数得到该字符的出现频度。
本实施例中,在得到与标记符相对应的字符之后,将对该字符进行计数得到该字符的出现频度,并将该字符与出现频度相关联,按照出现频度的大小顺序排列该字符以及相关联的出现频度,得到字符和出现频度的列表,以便于查看。
步骤S330,判断该字符的出现频度是否大于阈值,若否,则进入步骤S350,若是,则进入步骤S150。
本实施例中,若判断到字符的出现频度并未大于阈值,则说明该字符为噪音或者垃圾,需滤除该字符,若判断到字符的出现频度是大于阈值的,则进一步判断该字符是否为新词。
步骤S350,滤除出现频度对应的字符。
如图5所示,在一个实施例中,一种新词挖掘系统,包括模式获取模块110、处理模块130以及更新模块150。
模式获取模块110,用于获取通过种子词得到的搜索模式,搜索模式中包含与种子词对应的标记符。
本实施例中,种子词是从现有的已知词汇中选取的若干个词汇,可以是从已有的搜索串中选取的词汇,用于代表任一搜索场景中的搜索串,并且处于同一搜索场景中的种子词将会对应了相似的搜索模式,例如在影视剧场景下,种子词可以是“车在囧途”、“武林外传”以及“士兵突击”等词汇;在汽车品牌这一场景下,可以将“保时捷”、“法拉利”作为种子词。在实际的运行过程中,只需选取1~3个已知词汇作为种子词即可通过选取得到的种子词得到相应的搜索模式,搜索模式是与所在的场景相关联的,反映了用户的搜索行为,每一场景均有相应的搜索模式,搜索模式指示了在相应场景下用户输入搜索串的格式,在影视剧这一场景下,用户输入某一电视剧的搜索串中种子词为电视剧名称,而搜索模式则与种子词共同组成搜索串。
模式获取模块110通过种子词得到的搜索模式中,标记符是与种子词相对应的部分,用于标识搜索模式中与种子词相对应的部分。例如,若种子词为保时捷,则搜索模式中与“保时捷”相对应的部分即为标记符。
如图6所示,在另一个实施例中,上述新词挖掘系统还包括日志扫描模块210。日志扫描模块210用于扫描搜索日志得到包含种子词的搜索串,并将搜索串中的种子词替换为标记符得到搜索模式。
本实施例中,搜索串为用户在使用进行搜索的过程中输入的字符。在获取通过种子词得到的搜索模式之前还需日志扫描模块210预先通过种子词得到相应的搜索模式。具体的,日志扫描模块210获取搜索日志,对搜索日志进行扫描以查找得到搜索串,该搜索串中包含了种子词,并将搜索串中包含种子词的字符替换为标记符,此时替换后的搜索串即为搜索模式。在优选的实施例中,标记符为通配符“*”。例如,若搜索串为“高清士兵突击全集下载”,种子词为“士兵突击”,则会将搜索串中的“士兵突击”替换为通配符,得到的搜索模式为“高清*全集下载”。
如图7所示,在一个实施例中,上述日志扫描模块210包括提取单元211、第一查找单元213以及替换单元215。
提取单元211,用于从搜索日志中提取搜索串。
本实施例中,搜索日志是搜索引擎运行过程中产生的,例如,搜索日志中的每一条目可以是“时间/IP/用户标识/URL/来源参数/处理结果”的格式,搜索引擎中发生的一次搜索行为将对应了搜索日志中的一个条目,其中,时间为该次搜索行为发生的时间;IP为浏览器等客户端外网出口的网络地址;用户标识是进行触发搜索行为的浏览器cookie下的随机值,用于区分不同的浏览器;来源参数包括了referer、URL中携带的来源参数或cookie中携带的来源参数;处理结果包括了该次搜索行为请求成功、失败、返回的结果数量等信息。搜索串设置于搜索日志的URL字段中,以urlencode(将字符以URL编码)的形式表示,其编码类型为gbk或UTF-8,进而将编码类型为gbk或UTF-8的搜索串统一转换为UTF-8编码的明文,并去除搜索串中的空串和不可见字符,以方便后续的处理。
搜索引擎的不同所对应的搜索日志格式也各不相同,在此并不限于如上所述的搜索日志格式。但是无论是何种搜索日志格式,提取单元211均可从相对较为复杂的搜索日志中提取出搜索串,换而言之,搜索串为用户在搜索框中输入的原始信息。
在从搜索日志中提取到若干个搜索串之后还将统计每一搜索串的出现频度QF,进而将搜索串和出现频度相关联得到存储了搜索串以及相关联的出现频度的文本文件query_file,在文本文件query_file中每一搜索串Query以及相关联的出现频度QF占据一行形成一条记录,即[Query,QF]的形式,并按照出现频度QF进行排列,而文本文件query_file的多条记录中搜索串和出现频度各占据一列。
第一查找单元213,用于在提取的搜索串中进行查找得到包含种子词的搜索串。
本实施例中,第一查找单元213获取选定的种子词,根据种子词在文本文件query_file中进行查找得包含了种子词的搜索串。具体的,若干个种子词以[seed1…seedn]的形式进行存储的,其中seedn为种子词,n为种子词个数。第一查找单元213根据[seed1…seedn]在文本文件query_file进行查找,得到包含了任一种子词的搜索串。
替换单元215,用于替换搜索串中的种子词为标记符,并将替换后的搜索串存储为搜索模式。
本实施例中,替换单元215对搜索串中的种子词进行替换之后得到了相应的搜索模式pattern,并进行存储。具体的,通过文本文件query_file中所得到的搜索模式可能为多个,此时所得到的多个搜索模式将存储为[pattern1…pattern k]的形式,其中1≤k≤N,N为搜索模式的数量。
进一步的,还将对搜索模式进行计数得到该搜索模式的累计频度PF,进而将搜索模式与累计频度PF相关联得到数据结构map<pattern,PF>,其中搜索模式pattern以及与之相关联的累计频度PF是按照累计频度的大小进行顺序排列的,累计频度越高,则说明相关联的搜索模式越具备代表性,用于识别得到新词也就越准确。由于搜索模式是从大量的搜索日志得到的,捕捉了用户的搜索习惯,因此,具备了较高稳定性和复用性。
处理模块130,用于在搜索日志中查找与搜索模式匹配的搜索串,并在匹配的搜索串中得到与搜索模式的标记符相对应的字符。
本实施例中,处理模块130再次对搜索日志进行扫描,在搜索日志中查找出与搜索模式匹配的搜索串,进而从搜索串中得到与搜索模式中的标记符对应的字符。具体的,与某一搜索模式相匹配的搜索串满足了该搜索模式,例如,对于“高清爱情呼叫转移全集下载”的搜索串,满足了“高清*全集下载”的搜索模式,是与“高清*全集下载”这一搜索模式相匹配的,此时,与标记符“*”对于的字符即为“爱情呼叫转移”。
处理模块130在对搜索日志进行扫描得到了与搜索模式相匹配的搜索串之后,以搜索模式为筛选条件,从匹配的搜索串中筛选出与搜索模式的标记符相对应的字符,其中,在相互匹配的搜索模式和搜索串之间,标记符与字符是相对应的,并且由于搜索模式是通过种子词得到的,种子词与搜索模式中的标记符相对应,因此,种子词也是与匹配的搜索模式中的字符相对应的。
更新模块150,用于判断字符是否存在于词库中,若否,则将字符作为新词更新到词库中,若是,则结束。
本实施例中,从搜索日志的搜索串中通过搜索模式得到了与标记符对应的字符,由于搜索模式是通过搜索日志中的搜索串得到的,反映了用户通过搜索引擎进行搜索时的搜索习惯,任一搜索模式均反映了相应的场景下用户所输入的搜索串形式,因此所得到的字符与得到该搜索模式的种子词为同类词汇的可能性非常高,即字符与种子词是属于同一场景的,进一步的,与标记符对应的字符是与种子词属于同一场景的已知词汇或新词。
词库是一组词汇的集合,在实际应用中,收录于词库中的词汇将认为是已知词汇,尚未被词库收录的词汇则认为是新词,在一个具体的实施例中,词库为词典的形式。在得到搜索串中与标记符对应的字符之后,更新模块150将判断该字符是否已经收录于词库中,若否,则判定该字符为新词,需要将该字符更新到词库中,不断扩充词库所收录的词汇。
如图8所示,在一个实施例中,上述处理模块130包括第二查找单元131以及字符去除单元133。
第二查找单元131,用于根据搜索模式逐一对搜索日志中的搜索串进行查找,得到与搜索模式相匹配的搜索串。
本实施例中,第二查找单元131对通过搜索日志得到的多个搜索串进行查找,以得到满足搜索模式的搜索串,此时满足搜索模式的搜索串实质上是与该搜索模式较为相似的。
字符去除单元133,用于根据搜索模式中标记符的前缀字符和后缀字符,在匹配的搜索串中去除与前缀字符和后缀字符对应的字符,得到与标记符相对应的字符。
本实施例中,用户通过搜索引擎输入搜索串进行搜索的过程中,通常会输入与搜索意图最为相关的关键字,即中心词,以供搜索引擎进行搜索。但是,为了进一步缩小搜索范围,用户将会在中心词的前后补充一些词汇。
例如,用户在搜索电视剧士兵突击的在线观看网站时,输入“士兵突击”这一中心词,但是,所得到的搜索结果包括了剧情、下载网站、评论网站以及在线观看网站等诸多信息,此时,用户将在“士兵突击”的前后补充相关的词汇得到搜索串“高清士兵突击在线观看”,相应的,通过这一搜索串以及种子词“士兵突击”所得到的搜索模式为“高清*在线观看”。
因此搜索模式包括了前缀字符、标记符以及后缀字符。也就是说,对于包含种子词的搜索串而言,所对应的形式为:Query=prefix+seed+postfix,其中prefix为前缀字符,postfix为后缀字符,并且前缀字符和后缀字符均可为空。将种子词替换为标记符即可得到相应的搜索模式:pattern=prefix+*+postfix。相应的,再次对搜索日志进行扫描以获取与标记符相对应的字符时,搜索串所对应的形式为Query=prefix+word+postfix,其中,word为中心词,并且中心词word中包括了种子词seed和新词。
字符去除单元133将搜索模式和搜索串进行文本匹配得到与搜索模式匹配的搜索串,进而根据搜索模式中的前缀字符和后缀字符去除搜索串中的前缀字符和后缀字符即可得到与标记符对应的字符。
如图9所示,在另一个实施例中,上述新词挖掘系统还包括计数模块310和字符过滤模块330。
计数模块310,用于对与标记符相对应的字符进行计数得到字符的出现频度。
本实施例中,在得到与标记符相对应的字符之后,计数模块310将对该字符进行计数得到该字符的出现频度,并将该字符与出现频度相关联,按照出现频度的大小顺序排列该字符以及相关联的出现频度,得到字符和出现频度的列表,以便于查看。
字符过滤模块330,用于判断字符的出现频度是否大于阈值,若否,则滤除出现频度对应的字符,若是,则通知更新模块150。
本实施例中,若字符过滤模块330判断到字符的出现频度并未大于阈值,则说明该字符为噪音或者垃圾,需滤除该字符,若判断到字符的出现频度是大于阈值的,则进一步判断该字符是否为新词。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种新词挖掘方法,包括如下步骤:
获取通过种子词得到的搜索模式,所述搜索模式中包含与所述种子词对应的标记符;
在搜索日志中查找与所述搜索模式匹配的搜索串,并在所述匹配的搜索串中得到与所述搜索模式的标记符相对应的字符;
判断所述字符是否存在于词库中,若否,则将所述字符作为新词更新到词库中。
2.根据权利要求1所述的新词挖掘方法,其特征在于,所述获取通过种子词得到的搜索模式的步骤之前还包括:
扫描搜索日志得到包含种子词的搜索串,并将所述搜索串中的种子词替换为标记符得到搜索模式。
3.根据权利要求2所述的新词挖掘方法,其特征在于,所述扫描搜索日志得到包含种子词的搜索串,并将所述搜索串中的种子词替换为标记符得到搜索模式的步骤为:
从搜索日志中提取搜索串;
在所述提取的搜索串中进行查找得到包含种子词的搜索串;
替换所述搜索串中的种子词为标记符,并将所述替换后的搜索串存储为搜索模式。
4.根据权利要求1所述的新词挖掘方法,其特征在于,所述在搜索日志中查找与所述搜索模式匹配的搜索串,并在所述匹配的搜索串中得到与所述搜索模式的标记符相对应的字符的步骤为:
根据所述搜索模式逐一对搜索日志中的搜索串进行查找,得到与所述搜索模式相匹配的搜索串;
根据所述搜索模式中标记符的前缀字符和后缀字符,在所述匹配的搜索串中去除与所述前缀字符和后缀字符对应的字符,得到与所述标记符相对应的字符。
5.根据权利要求1所述的新词挖掘方法,其特征在于,所述判断所述字符是否存在于词库中的步骤之前还包括:
对与所述标记符相对应的字符进行计数得到所述字符的出现频度;
判断所述字符的出现频度是否大于阈值,若否,则滤除所述出现频度对应的字符,若是,则进入所述判断所述字符是否存在于词库中的步骤。
6.一种新词挖掘系统,其特征在于,包括:
模式获取模块,用于获取通过种子词得到的搜索模式,所述搜索模式中包含与所述种子词对应的标记符;
处理模块,用于在搜索日志中查找与所述搜索模式匹配的搜索串,并在所述匹配的搜索串中得到与所述搜索模式的标记符相对应的字符;
更新模块,用于判断所述字符是否存在于词库中,若否,则将所述字符作为新词更新到词库中。
7.根据权利要求6所述的新词挖掘系统,其特征在于,还包括:
日志扫描模块,用于扫描搜索日志得到包含种子词的搜索串,并将所述搜索串中的种子词替换为标记符得到搜索模式。
8.根据权利要求7所述的新词挖掘系统,其特征在于,所述日志扫描模块包括:
提取单元,用于从搜索日志中提取搜索串;
第一查找单元,用于在所述提取的搜索串中进行查找得到包含种子词的搜索串;
替换单元,用于替换所述搜索串中的种子词为标记符,并将所述替换后的搜索串存储为搜索模式。
9.根据权利要求6所述的新挖掘系统,其特征在于,所述处理模块包括:
第二查找单元,用于根据所述搜索模式逐一对搜索日志中的搜索串进行查找,得到与所述搜索模式相匹配的搜索串;
字符去除单元,用于根据所述搜索模式中标记符的前缀字符和后缀字符,在所述匹配的搜索串中去除与所述前缀字符和后缀字符对应的字符,得到与所述标记符相对应的字符。
10.根据权利要求6所述的新词挖掘系统,其特征在于,还包括:
计数模块,用于对与所述标记符相对应的字符进行计数得到所述字符的出现频度;
字符过滤模块,用于判断所述字符的出现频度是否大于阈值,若否,则滤除所述出现频度对应的字符,若是,则通知所述更新模块。
CN201210241308.6A 2012-07-12 2012-07-12 新词挖掘方法和系统 Pending CN103544165A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210241308.6A CN103544165A (zh) 2012-07-12 2012-07-12 新词挖掘方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210241308.6A CN103544165A (zh) 2012-07-12 2012-07-12 新词挖掘方法和系统

Publications (1)

Publication Number Publication Date
CN103544165A true CN103544165A (zh) 2014-01-29

Family

ID=49967628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210241308.6A Pending CN103544165A (zh) 2012-07-12 2012-07-12 新词挖掘方法和系统

Country Status (1)

Country Link
CN (1) CN103544165A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095381A (zh) * 2015-06-30 2015-11-25 北京奇虎科技有限公司 新词识别方法和装置
CN105677709A (zh) * 2015-12-28 2016-06-15 北京搜狗科技发展有限公司 一种信息处理方法和装置、一种用于信息处理的装置
CN106294650A (zh) * 2016-08-03 2017-01-04 北京金和网络股份有限公司 基于搜索埋点的新词挖掘方法
CN106649308A (zh) * 2015-10-28 2017-05-10 卓望数码技术(深圳)有限公司 一种分词词库更新方法及系统
CN107480297A (zh) * 2017-08-30 2017-12-15 福建中金在线信息科技有限公司 一种文章收录方法及装置
CN108170678A (zh) * 2017-12-27 2018-06-15 广州市云润大数据服务有限公司 一种文本实体抽取方法与系统
CN108182174A (zh) * 2017-12-27 2018-06-19 掌阅科技股份有限公司 新词提取方法、电子设备及计算机存储介质
CN111488736A (zh) * 2020-03-31 2020-08-04 上海七印信息科技有限公司 自学习分词方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1226717A (zh) * 1997-12-18 1999-08-25 皮特尼鲍斯股份有限公司 用于具有虚拟计费功能的独立计费器的邮资计费系统和方法
CN1340804A (zh) * 2000-08-30 2002-03-20 国际商业机器公司 自动新词提取方法和系统
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN102023984A (zh) * 2009-09-10 2011-04-20 阿里巴巴集团控股有限公司 甄别重复实体数据的方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1226717A (zh) * 1997-12-18 1999-08-25 皮特尼鲍斯股份有限公司 用于具有虚拟计费功能的独立计费器的邮资计费系统和方法
CN1340804A (zh) * 2000-08-30 2002-03-20 国际商业机器公司 自动新词提取方法和系统
CN1226717C (zh) * 2000-08-30 2005-11-09 国际商业机器公司 自动新词提取方法和系统
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN102023984A (zh) * 2009-09-10 2011-04-20 阿里巴巴集团控股有限公司 甄别重复实体数据的方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"《数据结构》" *
MARIUS PASCA: "《Weakly-Supervised Discovery of Named Entities Using Web Search Queries》", 《PROCEEDING CIKM"07 PROCEEDING OF SIXTEENTH ACM CONFERENCE ON CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095381A (zh) * 2015-06-30 2015-11-25 北京奇虎科技有限公司 新词识别方法和装置
CN105095381B (zh) * 2015-06-30 2019-06-25 北京奇虎科技有限公司 新词识别方法和装置
CN106649308A (zh) * 2015-10-28 2017-05-10 卓望数码技术(深圳)有限公司 一种分词词库更新方法及系统
CN106649308B (zh) * 2015-10-28 2020-05-01 卓望数码技术(深圳)有限公司 一种分词词库更新方法及系统
CN105677709A (zh) * 2015-12-28 2016-06-15 北京搜狗科技发展有限公司 一种信息处理方法和装置、一种用于信息处理的装置
CN106294650A (zh) * 2016-08-03 2017-01-04 北京金和网络股份有限公司 基于搜索埋点的新词挖掘方法
CN106294650B (zh) * 2016-08-03 2019-08-20 北京金和网络股份有限公司 基于搜索埋点的新词挖掘方法
CN107480297A (zh) * 2017-08-30 2017-12-15 福建中金在线信息科技有限公司 一种文章收录方法及装置
CN108170678A (zh) * 2017-12-27 2018-06-15 广州市云润大数据服务有限公司 一种文本实体抽取方法与系统
CN108182174A (zh) * 2017-12-27 2018-06-19 掌阅科技股份有限公司 新词提取方法、电子设备及计算机存储介质
CN108182174B (zh) * 2017-12-27 2019-03-26 掌阅科技股份有限公司 新词提取方法、电子设备及计算机存储介质
CN111488736A (zh) * 2020-03-31 2020-08-04 上海七印信息科技有限公司 自学习分词方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN103544165A (zh) 新词挖掘方法和系统
US8935197B2 (en) Systems and methods for facilitating open source intelligence gathering
CN102279894B (zh) 基于语义的查找、集成和提供评论信息的方法及搜索系统
CN100485603C (zh) 用于从搜索查询中产生概念单元的系统和方法
CN101853300B (zh) 一种视频下载服务网站的识别、评估方法及系统
US20140201180A1 (en) Intelligent Supplemental Search Engine Optimization
US9665561B2 (en) System and method for performing analysis on information, such as social media
CN106844640B (zh) 一种网页数据分析处理方法
CN104219575A (zh) 相关视频推荐方法及系统
CN105378730A (zh) 社交媒体分析与输出
CN104885081A (zh) 搜索系统和相应方法
CN102831248A (zh) 网络热点挖掘方法及装置
CN103491205A (zh) 一种基于视频搜索的关联资源地址的推送方法和装置
CN108874812B (zh) 一种数据处理方法及服务器、计算机存储介质
CN103593418A (zh) 一种面向大数据的分布式主题发现方法及系统
CN104965905A (zh) 一种网页分类的方法和装置
CN103488787B (zh) 一种基于视频搜索的在线播放入口对象的推送方法和装置
CN104933191A (zh) 一种基于贝叶斯算法的垃圾评论识别方法、系统及终端
CN106021418A (zh) 新闻事件的聚类方法及装置
CN103207917A (zh) 标注多媒体内容的方法、生成推荐内容的方法及系统
CN103069825A (zh) 用于电视搜索助手的系统和方法
Shim et al. Predicting movie market revenue using social media data
US8943101B2 (en) Keyword acquiring device, content providing system, keyword acquiring method, a computer-readable recording medium and content providing method
CN103324641B (zh) 信息记录推荐方法和装置
CN103955480A (zh) 一种用于确定用户所对应的目标对象信息的方法与设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140129

RJ01 Rejection of invention patent application after publication