CN102929862B - 一种新词获取方法及系统 - Google Patents
一种新词获取方法及系统 Download PDFInfo
- Publication number
- CN102929862B CN102929862B CN201210438561.0A CN201210438561A CN102929862B CN 102929862 B CN102929862 B CN 102929862B CN 201210438561 A CN201210438561 A CN 201210438561A CN 102929862 B CN102929862 B CN 102929862B
- Authority
- CN
- China
- Prior art keywords
- new word
- candidate
- words
- new
- word set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000001914 filtration Methods 0.000 claims abstract description 58
- 238000005065 mining Methods 0.000 claims abstract description 30
- 238000013480 data collection Methods 0.000 claims description 3
- 230000001788 irregular Effects 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 abstract description 10
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000012896 Statistical algorithm Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 108010079923 lambda Spi-1 Proteins 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及互联网信息处理领域,提供了一种新词获取方法,包括,收集最新具有时效性的规范数据集和不规范数据集,以及,收集历史规范数据集;挖掘规范数据集中的可能新词作为第一候选新词集,挖掘不规范数据集中的可能新词作为第二候选新词集,挖掘历史规范数据集中的可能新词作为初始化的非词高频串;将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集;从第三候选新词集中过滤掉非词的高频串,获得新词集。本发明还提供了一种新词获取系统。采用本发明的技术方案,充分利用了不同数据集的特点,通过合理的过滤算法,大大提高了新词发现的准确性,减少了人工过滤的时间,提高了新词发现的效率。
Description
技术领域
本发明涉及互联网信息处理领域,尤其涉及一种新词获取方法与系统。
背景技术
在自然语言处理或计算机语言中,新词是指以前从来没有出现过的词汇,或者在词典中没有收录的词汇。
随着计算机网络技术的快速发展和推广,网络数据急剧膨胀,这些数据具有更新速度快,数据量庞大、数据组织形式不规范等特点,但也蕴藏着极多的有价值信息。另外由于人们相互交流需求的增加,网络成为信息发布、传播的平台。由此产生的一些网络用语、热门词汇,被广泛的运用到了实际生活中,影响着人们的生活,一些新词逐渐被人们所接受,扩充了汉语词汇。这些新出现的词汇呈现出产生速度快、覆盖领域广的特点,往往散落在海量的网络文本中,靠人工去查看和检索是不可想象的,因此亟需一个快速高效的新词发现方法。
为了能够获取新词,现有技术和专利主要提供了的方法如下:专利CN200910237979.3提供了中文网页新词自动获取方法,该方法利用不同时间的网页,进行一个时间序列的对比,去挖掘新词。这种新词获取方法,缺乏对不同网页内容特点的充分分析利用,挖掘出的新词结果数量巨大,人工过滤成本高。专利CN200710175229.9提供了一种新词发现方法和系统,从语料中挖掘高频字符串,然后到搜索引擎去检索,根据检索结果去判断新词。这种新词发现方法,首先没有对不同特定的语料进行重复利用;其次,对搜索引擎的检索结果依赖太大;还有就是要不停的去抓取搜索引擎的检索结果,可能需要很长的时间。专利CN201010113873.5提供了一种提供新词或热词的方法及系统,其中提到的新词发现方法:利用输入法的用户输入信息进行新词发现。这种新词发现的缺点有,一是输入法用户数据很难获取,其次,新词发现中过滤模块不完善,人工过滤工作量太大。
因此,现有的新词识别技术的主要缺点有:一是,选出的新词结果数量太庞大,需要大量的人工过滤;二是,对不同数据的特点没有充分的分析利用;三是,由于候选新词数量太庞大,在规则过滤时,可能过滤掉一些出现频次少的新词。
发明内容
本发明解决的技术问题在于提供了一种新词获取方法,以解决目前方案中工作量大,检索结果不准确的问题。本发明还提供了一种新词获取系统。
为解决上述问题,本发明提供了一种新词获取方法,包括,
收集最新具有时效性的规范数据集和不规范数据集,以及收集历史规范数据集;
挖掘规范数据集中的可能新词作为第一候选新词集,挖掘不规范数据集中的可能新词作为第二候选新词集,挖掘历史规范数据集中的可能新词作为初始化的非词高频串;
将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集;从第三候选新词集中过滤掉非词的高频串,获得新词集。
进一步地,上述的方法,还包括,
人工过滤新词集,得到最终的新词结果;
进一步地,上述的方法,还包括,
将不是新词的串加入到非词的高频串集合中。
上述的方法,其中,所述最新具有时效性的规范数据集包括一些新闻网页和最新编辑的正规网页数据;
所述最新具有时效性的不规范数据集包括用户查询日志、微博和聊天记录等一些短文本的数据;
历史规范数据集包括一些历史的规范网页数据。
上述的方法,其中,
所述第一候选新词包含,真正的新词、汉语高频串;
第二候选新词集中包含,真正的新词、汉语高频串、错误串。
上述的方法,其中,所述将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集具体包括,
将第一候选新词集和第二候选新词集匹配,过滤掉短文本中常用的错误串,同时发现在第二候选新词集中出现频次不高但是在第一候选新词集中出现的新词以挖掘出现频次不高的新词。
本发明还提供了一种新词获取系统,包括,
数据收集模块,用于收集最新具有时效性的规范数据集和不规范数据集,以及,收集历史规范数据集;
新词挖掘模块,用于挖掘规范数据集中的可能新词作为第一候选新词集,挖掘不规范数据集中的可能新词作为第二候选新词集,以及挖掘历史规范数据集中的可能新词作为初始化的非词高频串;
新词过滤模块,用于将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集;从第三候选新词集中过滤掉非词的高频串,获得新词集。
上述的方法,其中,所述新词过滤模块还用于,人工过滤新词集,得到最终的新词结果,以及将不是新词的串加入到非词的高频串集合中。
上述的方法,其中,所述最新具有时效性的规范数据集包括一些新闻网页和最新编辑的正规网页数据;
所述最新具有时效性的不规范数据集包括用户查询日志、微博和聊天记录等一些短文本的数据;
历史规范数据集包括一些历史的规范网页数据;
所述第一候选新词包含,真正的新词、汉语高频串;
第二候选新词集中包含,真正的新词、汉语高频串、错误串。
上述的方法,其中,所述新词过滤模块用于将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集具体包括,
所述新词过滤模块用于将第一候选新词集和第二候选新词集匹配,过滤掉短文本中常用的错误串,同时发现在第二候选新词集中出现频次不高但是在第一候选新词集中出现的新词以挖掘出现频次不高的新词。
采用本发明的技术方案,充分利用了不同数据集的特点,通过合理的过滤算法,大大提高了新词发现的准确性,减少了人工过滤的时间,提高了新词发现的效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明第一实施例流程图;
图2是本发明第二实施例结构图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例把规范网络数据集、不规范网络数据集和历史规范网络数据集结合起来作为新词发现的数据集,通过不同数据集的有效组合,然后挖掘数据集中的候选新词,然后利用三种数据集的不同特点对挖掘的新词通过合理的过滤后获取新词。这样获取的新词准确性高,数据量少,大大减少了人工过滤的时间。
如图1所示,是本发明第一实施例流程图,提供了一种新词获取方法及系统,具体包括,
步骤S101,收集最新具有时效性的规范数据集和不规范数据集,以及,收集历史规范数据集;
所述收集最新具有时效性的规范数据集具体包括,
所述最新具有时效性的规范数据集主要是指本月或者本周内一些新闻网页和最新编辑的正规网页数据,因为这些网页语言非常规范,内容中常常会用最新的一些新词;因此,可以收集最新的具有时效性的规范数据集作为新词发现的数据集。
最新数据确定时主要取决于新词挖掘的频率;收集数据的主要方法就是去网上抓取网页,然后解析抓取的网页,保存这些网页的内容。
所述收集最新具有时效性的规范数据集具体包括,
所述最新具有时效性的不规范数据集主要是指用户查询日志、微博和聊天记录等一些短文本的数据,这些短文本数据一般是所有的网民都可以编辑,语言往往不规范,但其内容中常常含有当前最新的新词用语;因此,可以收集最新的具有时效性的不规范数据集作为新词发现的数据集。
所述收集历史规范数据集具体包括,
历史规范数据集主要指一些历史的规范网页数据,由于常用的文本数据中往往包括一些常用的高频串,但是这些高频串已经不是一个词(一般历史数据集中的词都已经加入词典,在切词时可以识别),而是我们汉语语言中通用的一些语言词与词的连接习惯;因此,需要从历史网页数据中挖掘出常用的非词高频串,可以用于过滤候选新词。
步骤S102,挖掘规范数据集中的可能新词作为第一候选新词集,挖掘不规范数据集中的可能新词作为第二候选新词集,挖掘历史规范数据集中的可能新词作为初始化的非词高频串;
其中,所述挖掘规范数据集中的可能新词作为第一候选新词集具体包括,从规范数据集中挖掘出可能的新词作为第一候选新词集。所述第一候选新词一般可能包含:真正的新词、汉语高频串等。
挖掘新词的算法有很多,比如可以使用nagao串频统计算法来发现新词。
nagao串频统计算法是1954年由东京大学的长尾真(makoto nagao)提出的一种串频统计算法。这种算法的核心就是对文本中的射串进行排序构成一个有序射串。
nagao串频统计算法的处理流程如下:
(1)读入汉语语料库C,包括汉字、标点、段落分隔标识、文件分隔标识等所有字符,都看成一个很长的字符串读入内存,并以Unicode编码。每个字符占2字节空间。用Ci 表示C中第i 个字符。
(2)构造一个长为m的P 表:P 表的每一项Pi 保存一个指向C中子串Si的指针。Pi 指向的子串Si 定义为从Pi 所指字符Ci 到C 中最后一个字符Cm 中的m-i+1 个字符所组成的字符串。
(3)构造一个长为m的L表:在已排序的P 表的基础上构建记录相邻子串相同最长左子串长度的L 表,L 表与P 表大小相同,其中的表项Li 记录排序后相邻子串Spi-1 和Spi 相同最长左子串长度,即从串首开始相同字符的个数(L1=0)。
(4)提取N元统计串的输入包括:P表、L表、N,N是指要提取的几元串,输出是所有N元统计串及其频次。
提取流程如下:
P1指向的N元串赋给X,X的频次置为1
For i=2 to m
If Li>=N
X的频次加1
Else
输出X及其频次
Pi指向的N元串赋给X,X的频次置为1
输出最后的X及其频次。
其中,挖掘不规范数据集中可能新词作为第二候选新词集具体包括,
从不规范数据集中挖掘出可能的新词作为第二候选新词集。当然可以使用从规范数据集中挖掘新词的算法。第二候选新词集中可能包含:真正的新词、汉语高频串、错误的串等。
其中,挖掘历史规范数据集中可能新词作为初始化的非词高频串具体包括,
由于历史规范数据集中的词基本都在分词的词表中,几乎没有新词。因此,通过新词挖掘算法从历史规范数据集中挖掘的新词基本上全是非词的高频串,也就是汉语高频串。
从历史规范数据集中挖掘出可能的新词作为非词的高频串。当然挖掘算法可以使用从规范数据集中挖掘新词的算法。
步骤S103,将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集;从第三候选新词集中过滤掉非词的高频串,获得新词集;
所述将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集具体包括,
第一候选新词集主要是从规范数据集中挖掘的新词,这里面主要包括新词和汉语高频串。第二候选新词集中主要是从不规范数据集中挖掘的新词,这里面主要包括新词、汉语高频串和短文本中一些常用错误串。将第一候选新词集和第二候选新词集匹配,可以过滤掉短文本中常用的错误串,同时也可以发现在第二候选新词集中出现频次不高但是在第一候选新词集中出现的新词。
因此,将第一候选新词集和第二候选新词集进行加权匹配过滤得到的第三候选新词集,可以过滤掉一些常用错误串,充分利用规范数据集和不规范数据集的特点,挖掘一下出现频次不高的新词。
所述从第三候选新词集中过滤掉非词的高频串,获得新词集,具体包括,
经过过滤,第三候选新词集中错误串比例大幅度下降,但是还含有很多非词的高频串。
因此,从第三候选新词集中过滤掉非词的高频串,得到新词集。新词集4中的词基本上就是新词。
在该实施例中,还可以包括,
步骤S104,人工过滤新词集,得到最终的新词结果;同时,将不是新词的串加入到非词的高频串集合中。
具体地,人工过滤主要就是指人工审查一下挖掘出的新词,判断一下这些词是否是真正的新词,把真正的新词筛选出来,不是新词的串加入到非词的高频串集合中。
经过过滤算法后获得的新词集中噪音基本上非常小,新词集的数据量不好很庞大。然后,人工过滤一遍新词集,获得最终的新词结果;同时,将不是新词的串加入非词的高频串集合。
如图2所述,是本发明第二实施例结构图,提供了一种新词获取系统,具体包括,
数据收集模块201,用于收集最新具有时效性的规范数据集和不规范数据集,以及,收集历史规范数据集;
新词挖掘模块202,用于挖掘规范数据集中的可能新词作为第一候选新词集,挖掘不规范数据集中的可能新词作为第一候选新词集,以及挖掘历史规范数据集中的可能新词作为初始化的非词高频串;
新词过滤模块203,用于将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集;从第三候选新词集中过滤掉非词的高频串,获得新词集。
上述系统中,所述新词过滤模块还用于,人工过滤新词集,得到最终的新词结果,以及将不是新词的串加入到非词的高频串集合中。
上述系统中,所述最新具有时效性的规范数据集包括一些新闻网页和最新编辑的正规网页数据;
所述最新具有时效性的不规范数据集包括用户查询日志、微博和聊天记录等一些短文本的数据;
历史规范数据集包括一些历史的规范网页数据;
所述第一候选新词包含,真正的新词、汉语高频串;
第二候选新词集中包含,真正的新词、汉语高频串、错误串。
上述系统中,所述新词过滤模块用于将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集具体包括,
所述新词过滤模块用于将第一候选新词集和第二候选新词集匹配,过滤掉短文本中常用的错误串,同时发现在第二候选新词集中出现频次不高但是在第一候选新词集中出现的新词以挖掘出现频次不高的新词。
由上述技术方案可见,本发明实施例在发现新词时,充分利用了不同数据集的特点,采用了规范数据集与非规范数据集以及历史数据集结合的方法,通过合理的过滤算法,大大提高了新词发现的准确性,减少了人工过滤的时间,提高了新词发现的效率,有效的减省了人力。
上述说明示出并描述了本发明的一个优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (9)
1.一种新词获取方法,其特征在于,包括,
收集最新具有时效性的规范数据集和不规范数据集,以及,收集历史规范数据集;
挖掘规范数据集中的可能新词作为第一候选新词集,挖掘不规范数据集中的可能新词作为第二候选新词集,挖掘历史规范数据集中的可能新词作为初始化的非词高频串;
将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集;从第三候选新词集中过滤掉非词的高频串,获得新词集;其中,
所述最新具有时效性的规范数据集包括本月或本周内一些新闻网页和最新编辑的规范网页数据,所述规范网页数据是指网页语言规范的数据;
所述最新具有时效性的不规范数据集包括用户查询日志、微博和聊天记录一些短文本的数据;
历史规范数据集包括一些历史的规范网页数据。
2.根据权利要求1所述的方法,其特征在于,还包括,
人工过滤新词集,得到最终的新词结果。
3.根据权利要求2所述的方法,其特征在于,还包括,
将不是新词的串加入到非词的高频串集合中。
4.根据权利要求1至3任一所述的方法,其特征在于,
所述第一候选新词集包含,真正的新词、汉语高频串;
第二候选新词集中包含,真正的新词、汉语高频串、错误串。
5.根据权利要求4所述的方法,其特征在于,所述将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集具体包括,
将第一候选新词集和第二候选新词集匹配,过滤掉短文本中常用的错误串,同时发现在第二候选新词集中出现频次不高但是在第一候选新词集中出现的新词以挖掘出现频次不高的新词。
6.一种新词获取系统,其特征在于,包括,
数据收集模块,用于收集最新具有时效性的规范数据集和不规范数据集,以及,收集历史规范数据集;
新词挖掘模块,用于挖掘规范数据集中的可能新词作为第一候选新词集,挖掘不规范数据集中的可能新词作为第二候选新词集,以及挖掘历史规范数据集中的可能新词作为初始化的非词高频串;
新词过滤模块,用于将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集;从第三候选新词集中过滤掉非词的高频串,获得新词集;
所述最新具有时效性的规范数据集包括本月或本周内一些新闻网页和最新编辑的规范网页数据,所述规范网页数据是指网页语言规范的数据;
所述最新具有时效性的不规范数据集包括用户查询日志、微博和聊天记录一些短文本的数据;
历史规范数据集包括一些历史的规范网页数据。
7.根据权利要求6所述的系统,其特征在于,所述新词过滤模块还用于,人工过滤新词集,得到最终的新词结果,以及将不是新词的串加入到非词的高频串集合中。
8.根据权利要求7所述的系统,其特征在于,
所述第一候选新词集包含,真正的新词、汉语高频串;
第二候选新词集中包含,真正的新词、汉语高频串、错误串。
9.根据权利要求8所述的系统,其特征在于,所述新词过滤模块用于将第一候选新词集和第二候选新词集进行加权匹配过滤,得到第三候选新词集具体包括,
所述新词过滤模块用于将第一候选新词集和第二候选新词集匹配,过滤掉短文本中常用的错误串,同时发现在第二候选新词集中出现频次不高但是在第一候选新词集中出现的新词以挖掘出现频次不高的新词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210438561.0A CN102929862B (zh) | 2012-11-06 | 2012-11-06 | 一种新词获取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210438561.0A CN102929862B (zh) | 2012-11-06 | 2012-11-06 | 一种新词获取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102929862A CN102929862A (zh) | 2013-02-13 |
CN102929862B true CN102929862B (zh) | 2015-06-10 |
Family
ID=47644663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210438561.0A Active CN102929862B (zh) | 2012-11-06 | 2012-11-06 | 一种新词获取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102929862B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104216878A (zh) * | 2013-05-29 | 2014-12-17 | 酷盛(天津)科技有限公司 | 新词发现系统及方法 |
CN106970919B (zh) * | 2016-01-14 | 2020-05-12 | 北京国双科技有限公司 | 新词组发现的方法及装置 |
CN107391504B (zh) * | 2016-05-16 | 2021-01-29 | 华为技术有限公司 | 新词识别方法与装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1641634A (zh) * | 2004-01-15 | 2005-07-20 | 中国科学院计算技术研究所 | 一种中文新词语的检测方法及其检测系统 |
CN101706807A (zh) * | 2009-11-27 | 2010-05-12 | 清华大学 | 一种中文网页新词自动获取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008144964A1 (en) * | 2007-06-01 | 2008-12-04 | Google Inc. | Detecting name entities and new words |
-
2012
- 2012-11-06 CN CN201210438561.0A patent/CN102929862B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1641634A (zh) * | 2004-01-15 | 2005-07-20 | 中国科学院计算技术研究所 | 一种中文新词语的检测方法及其检测系统 |
CN101706807A (zh) * | 2009-11-27 | 2010-05-12 | 清华大学 | 一种中文网页新词自动获取方法 |
Non-Patent Citations (2)
Title |
---|
A Pragmatic Model for New Chinese Word Extraction;Haijun Zhang;《Natural Language Processing and Knowledge Engineering (NLP-KE), 2010 International Conference on》;20100823;第1-8页 * |
中文新词识别技术综述;张海军;《计算机科学》;20100331;第27卷(第3期);第6-10、16页 * |
Also Published As
Publication number | Publication date |
---|---|
CN102929862A (zh) | 2013-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100405371C (zh) | 一种提取新词的方法和系统 | |
US7424421B2 (en) | Word collection method and system for use in word-breaking | |
CN110020422B (zh) | 特征词的确定方法、装置和服务器 | |
US7783476B2 (en) | Word extraction method and system for use in word-breaking using statistical information | |
CN104598532A (zh) | 一种信息处理方法及装置 | |
CN103544255A (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
CN101593200A (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN102169496A (zh) | 基于锚文本分析的领域术语自动生成方法 | |
CN101149739A (zh) | 一种面向互联网的有意义串的挖掘方法和系统 | |
CN102279890A (zh) | 基于微博的情感词提取收集方法 | |
CN103873601A (zh) | 一种寻址类查询词的挖掘方法及系统 | |
CN101404033A (zh) | 本体层级结构的自动生成方法及系统 | |
CN104268283A (zh) | 一种自动解析互联网网页的方法 | |
CN102929862B (zh) | 一种新词获取方法及系统 | |
CN115238154A (zh) | 搜索引擎优化系统 | |
CN101673263B (zh) | 视频内容的搜索方法 | |
CN103365934A (zh) | 复杂命名实体抽取方法及装置 | |
CN113806483A (zh) | 数据处理方法、装置、电子设备及计算机程序产品 | |
CN104462552A (zh) | 问答页面核心词提取方法和装置 | |
CN103092838B (zh) | 一种获取英文词的方法及装置 | |
CN107291952B (zh) | 一种提取有意义串的方法及装置 | |
CN110597993A (zh) | 一种微博热点话题数据挖掘方法 | |
CN106649883B (zh) | 一种跨语言的主题网站自动发现方法 | |
CN104573055A (zh) | 一种网络账号快速检索的分词方法 | |
CN104572767A (zh) | 一种站点语种分类的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 518057 C Building 5, Nanshan District software industry base, Shenzhen, Guangdong 403-409, China Patentee after: Shenzhen easou world Polytron Technologies Inc Address before: 518026 Guangdong city of Shenzhen province Futian District Binhe Road and CaiTian Road Interchange Union Square Tower A, A5501-A Patentee before: Shenzhen Yisou Science & Technology Development Co., Ltd. |