CN101706807A - 一种中文网页新词自动获取方法 - Google Patents

一种中文网页新词自动获取方法 Download PDF

Info

Publication number
CN101706807A
CN101706807A CN200910237979A CN200910237979A CN101706807A CN 101706807 A CN101706807 A CN 101706807A CN 200910237979 A CN200910237979 A CN 200910237979A CN 200910237979 A CN200910237979 A CN 200910237979A CN 101706807 A CN101706807 A CN 101706807A
Authority
CN
China
Prior art keywords
speech
string
neologisms
word frequency
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910237979A
Other languages
English (en)
Other versions
CN101706807B (zh
Inventor
孙立远
袁睿翕
卞小丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN2009102379793A priority Critical patent/CN101706807B/zh
Publication of CN101706807A publication Critical patent/CN101706807A/zh
Application granted granted Critical
Publication of CN101706807B publication Critical patent/CN101706807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及中文网页新词自动获取的方法,属于互联网数据挖掘技术领域;该方法包括:从Internet采集不同类型的网页,解析出含有时间信息的网页正文文本,并进行预处理,对得到句子片段进行n-gram分词产生词串并统计词频,连同词串的时间信息一并存入原始数据库;根据词频阈值对原始数据库中的词串进行过滤,词频大于等于词频阈值的词串保留;对保留的词串做相邻串比较和父子串比较后进行再过滤,删除与停用词数据库中相同的词串,对得到初选新词串的时间信息进行时序分析,得到新词;还可再包括将由人工标记得到的过滤词串添加到过滤词数据库中。该方法扩大了获取新词的范围,中文分词方法简便易行,处理效率高,并提高了新词发现的准确率和科学性。

Description

一种中文网页新词自动获取方法
技术领域
本发明属于互联网数据挖掘技术领域,特别是涉及一种获取新词的方法。
背景技术
随着计算机网络技术的快速发展和推广,网络数据急剧膨胀,这些数据具有更新速度快、数据量庞大、数据组织形式不规范等特点,但也蕴藏着极多的有价值信息。另外由于人们相互交流需求的增加,网络成为信息发布、传播的平台。由此产生的一些网络用语、热门词汇,被广泛的运用到了实际生活中,影响着人们的生活,一些新词逐渐被人们所接受,扩充了汉语词汇。这些新出现的词汇呈现出产生速度快、覆盖领域广的特点,往往散落在海量的网络文本中,靠人工去查看和检索是不可想象的,因此亟需一个可以检测网络数据并自动发现新词的方法。
为了能够获取新词,现有技术提供了如下的三种方法:
第一种方法,获取搜索引擎的查询关键词或聊天数据,统计候选新词的频率信息,并结合基于候选新词上下文规则的分析,从候选新词中获取新词;
第二种方法,利用搜索引擎对候选新词进行精确搜索和模糊搜索,获取搜索结果,根据结果从候选新词中获取新词;
第三种方法,将候选新词与已有词典中的词进行比较,确定词典中不存在的候选新词为新词。
但是,现有技术至少存在以下问题:
第一种方法:搜索引擎的查询关键词和聊天记录这样的用户数据并不容易获取,而且使用不当还会有泄露用户隐私的问题;
第二种方法:在搜索引擎中对每一个候选新词进行搜索,算法效率低,适用性差;
第三种方法:存在时效性低以及新词查找范围不全的缺陷。
另外,由于中文自身的特点,词与词之间没有明确的边界,识别中文新词更加困难。目前获取中文新词的方法,都以中文文本的自动分词为基础,大多采用概率词法分析系统ICTCLAS或是类似的基于词典查找的方法切分中文文本内容得到词。
但是这种基于词典查找的方法创建和维护词典困难,对于要识别的新词没有处理能力。
综上所述,上述各种方法均存在新词获取方法效率低、实时性不足、新词查找范围不全或对中文支持性差的缺陷。
发明内容
本发明的目的在于克服已有技术的不足之处,提供一种中文网页新词自动获取的方法,该方法扩大了获取新词的范围,中文分词方法简便易行,处理效率高,并提高了新词发现的准确率和科学性。
为实现上述目的,本发明提供了一种中文网页新词自动获取的方法,其特征在于,首先设置原始数据库和停用词数据库;所述原始数据库初始设为空,用于存放本新词获取方法处理过程中产生的数据;所述的停用词数据库预先存放有根据汉语语言规则不可能出现的词,以及要删除的已用词;设置新词获取周期;
该方法包括以下步骤:
1)当新词获取周期到来时,从Internet采集不同类型的网页,解析出含有时间信息的网页正文文本,并对该正文文本进行预处理得到句子片段;
2)对预处理后的句子片段进行n-gram分词产生词串并统计词频,连同词串的时间信息一并存入原始数据库;
3)根据预先设定的词频阈值对原始数据库中的词串进行过滤,词频大于等于词频阈值的词串保留,否则从原始数据库中删除;词频阈值的取值范围为1-10;
4)对步骤3)保留的词串做相邻串比较和父子串比较后进行再过滤,最后删除与停用词数据库中相同的词串,得到初选新词串;
5)对初选新词串的时间信息进行时序分析,得到新词,并等待下一新词获取周期到来时,转步骤1);具体包括以下步骤:
51)设定:时序分析的开始日期s,基本时间单位g,基本时间单位数目n,时序分析阈值δ;基本时间单位g取值范围为1-15天,基本时间单位数目n取值范围为5-30个,时序分析阈值δ取值范围为0-30;
52)读出日期s的所有初选新词串,构成词串集合C;对C中每个词串t,查看其在从s开始,g*n天内的词频,得到g*n矩阵的词频数据,对该词频数据每g个为一组进行聚合得到1*n的矩阵词频数据a1,a2,...,an
53)设评价函数f(ai+1,ai):
f ( a i + 1 , a i ) = 1 , if a i + 1 > a i 0 , if a i + 1 = a i - 1 , if a i + 1 < a i
54)计算n个评价函数总和S的值:
Figure G2009102379793D0000022
如果S>δ即判定该初选新词串为新词,否则将该该初选新词串删除,等待下一新词获取周期到来时,转步骤1)。
为进一步提高新词获取的准确率,本发明基于上述方法还提出另一种中文网页新词自动获取的方法,其特征在于,首先设置原始数据库、停用词数据库和过滤词数据库;所述原始数据库和过滤词数据库初始设为空,用于存放本新词获取方法处理过程中产生的数据;所述的停用词数据库预先存放有根据汉语语言规则不可能出现的词,以及要删除的已用词;所述过滤词数据库用于存放在获取过程中标识出要删除的词;设置新词获取周期;
该方法包括以下步骤:
1)当新词获取周期到来时,从Internet采集不同类型的网页,解析出含有时间信息的网页正文文本,并对该正文文本进行预处理得到句子片段;
2)对预处理后的句子片段进行n-gram分词产生词串并统计词频,连同词串的时间信息一并存入原始数据库;
3)根据预先设定的词频阈值对原始数据库中的词串进行过滤,词频大于等于词频阈值的词串保留,否则从原始数据库中删除;词频阈值的取值范围为1-10;
4)对步骤3)保留的词串做相邻串比较和父子串比较后进行再过滤,最后删除与停用词数据库和当前过滤词数据库中相同的词串,得到初选新词串;
5)对初选新词串的时间信息进行时序分析,得到候选新词串;具体包括以下步骤:
51)设定:时序分析的开始日期s,基本时间单位g,基本时间单位数目n,时序分析阈值δ;基本时间单位g取值范围为1-15天,基本时间单位数目n取值范围为5-30个,时序分析阈值δ取值范围为0-30;
52)读出日期s的所有初选新词串,构成词串集合C;对C中每个词串t,查看其在从s开始,g*n天内的词频,得到g*n矩阵的词频数据,对该词频数据每g个为一组进行聚合得到1*n的矩阵词频数据a1,a2,...,an
53)设评价函数f(ai+1,ai):
f ( a i + 1 , a i ) = 1 , if a i + 1 > a i 0 , if a i + 1 = a i - 1 , if a i + 1 < a i
54)计算n个评价函数总和S的值:
Figure G2009102379793D0000032
如果S>δ即判定该初选新词串为候选新词串,否则将该该初选新词串删除;,
6)对步骤5)得到的候选新词串再由人工标记为新词或过滤词串,将过滤词串添加到步骤4)的过滤词数据库中,等待下一新词获取周期到来时,转步骤1)。
本发明的中文网页新词自动获取方法与现有的技术相比,具有以下优点:
1、利用易在互联网上获得的不同类型WEB数据寻找新词。
互联网已经渗透到人们日常生活的方方面面,各种网络应用方式如新闻网站、BBS、博客等逐渐成为信息发布、传播的新渠道。这些网络数据中包含大量的新词。
本发明中,使用网络渠道获取大规模中文文本,进行新词的自动获取工作,与从语料库中寻找新词相比具有实时性。获取的是已公布在网络上的新闻网站、BBS和博客的网页,因此不会涉及个人隐私的问题。另外,对BBS和博客网页的获取也扩充了单一新闻网页的获取,扩大了获取新词的范围。
2、采用n-gram方法中文分词。
相比基于词典查找的中文分词方法,n-gram方法简便易行,处理效率高,且不会遗漏任何可能的词,另外也没有创建和维护词典的麻烦。
3、根据汉语语言规则设置停用词数据库来过滤词串,提高过滤的准确率;
4、引入时间序列分析方法
新词的一种定义中认为,被普遍的认可、广泛应用的才是新词。满足这一特征的直接表现就是该词持续了一段时间,词频随时间而变化,是时间的函数。
本发明中引入时间序列分析方法来考察候选新词是否满足广泛应用性。通过对词频变化趋势的分析,获得了更多信息,进一步提高新词发现的准确率和科学性。
5、实现增量学习
停用词数据库可以不断更新添加,使整个新词获取方法成为一个动态积累的过程,使准确率逐步提高。
本发明还可设置过滤词数据库,每次词串过滤的结果用于更新过滤词数据库,形成了反馈,实现增量学习,进一步提高新词获取的准确率。
附图说明
图1为本发明提出的一种中文网页新词自动获取的方法流程图。
图2为本发明提出的另一种中文网页新词自动获取的方法流程图。
具体实施方式
本发明提出的一种中文网页新词自动获取方法,结合附图及实施例详细描述如下:
本发明提出的一种中文网页新词自动获取的方法,首先设置原始数据库和停用词数据库;所述原始数据库初始设为空,用于存放本新词获取方法处理过程中产生的数据;所述的停用词数据库预先存放有根据汉语语言规则不可能出现的词(还可根据需要随时更改),以及要删除的已用词;设置新词获取周期(周期的长短可以根据实际应用需要而定,若想获得近期内的新词则可设置周期短,否则可设置周期长一些,还可根据具体具体情况作适当调整;一般设为1-30天),
该方法内容如图1所示,包括以下步骤:
1)当新词获取周期到来时,从Internet采集不同类型的网页,解析出含有时间信息的网页正文文本,并对该正文文本进行预处理得到句子片段;具体包括以下步骤:
11)通过共享的网页爬虫程序或RSS获取软件采集不同类型的网页(例如利用一个共享的网页爬虫程序采集指定新闻网站和BBS的网页,利用一个共享的RSS获取软件采集指定的博客网页);
12)利用常用的网页解析软件从网页中提取正文的内容和正文的时间信息,获得网页上的中文文本,然后(利用共享的文件存储软件Lemur)将该中文文本存入硬盘;
上述网页的采集和解析也可以利用其他的软件,只要该软件能完成采集网页和解析网页的任务就可以。
13)对该中文文本进行预处理,去除网页标签、替换标识符、切分文本和去除非中文字符(因为获得的网页正文内容往往还包含未清除干净的网页标签、标识符等影响新词识别的字符,所以要进行文本的预处理);具体包括:
131)扫描整个文本,将找到的所有网页标签(一般为成对出现的尖括号)及其中的内容从文本中去除。
132)扫描步骤131)得到的文本,将找到的网页标识符替换成相应的字符(网页中常使用的标识符包括”&nbsp”、”&#36”、”&amp”和”&quot”,分别用空格、”$”、”&”和双引号替换;其他的网页标识符也可作相应符号替换);
133)利用文本中的标点符号或回车换行符作为切分文本的标志,把步骤132)处理后的文本切分为句子片段;
134)对切分后的每个句子片段进行扫描,保留在汉字编码范围内的字符,删除其他的字符(字符显示都是按照一定的编码方式,网页中采用较多的是unicode编码.又因为网页中的字符显示较为杂乱,一些不可能是新词的特殊字符会影响新词识别的效果,汉字在unicode中的编码范围是\u4e00-\u9fa5).
2)对预处理后的句子片段进行n-gram分词产生词串并统计词频(即相同词串出现的次数),连同词串的时间信息一并存入原始数据库;具体包括以下步骤:
21)利用n-gram方法对预处理后的每个句子片段进行划分,顺次将临近的n个汉字聚集在一起形成一个词串(比如一句话”我爱中国”,n取为2时,可以得到如下三个词串:”我爱”、”爱中”、”中国”,n可以取1、2和3,或根据需要取值,一般不超过4);
22)扫描n-gram分词得到的所有词串,统计每个词串出现的次数,记为词串的词频(例如在n-gram分词产生词串中出现词串”中国”的次数);
23)将划分出的所有词串、统计的词频,以及步骤12)提取出来的正文的时间信息一起存入原始数据库;本实施例的原始数据库中设有两个表,一个是文档索引表,存放文档信息,另一个表是词串表,按文档存放词串和词频。原始数据库的表结构如下:
文档索引表的结构:
  字段名称   字段说明
  TextId   主键,自动递增
  URL   网页的URL地址
  Pubdata   源html的日期
  Content   解析出的网页正文内容
  Type   网页类型,分为新闻网页、BBS和博客
词串表的结构:
  字段名称   字段说明
  Word   n-gram方法划分出的词串
  Frequency   该词出现的频率
  Articles   出现该词的文章,对应上表的TextId
3)根据预先设定的词频阈值对原始数据库中的词串进行过滤,词频大于等于词频阈值的词串保留,否则从原始数据库(词串表)中删除;词频阈值可以根据情况调整,一般取值范围为1-10,在实施例中,可设定的词频阈值是1;
4)对步骤3)保留的词串做相邻串比较和父子串比较后进行再过滤,最后删除与停用词数据库中相同的词串,得到初选新词串;
具体包括以下步骤:定义:连续的n-1个字或字符相等的,并且词长为n的两个词串称为相邻串(即第一个词串的首(尾)字与第二个词条的首(尾)字不同,其余字全部相同,如词串”我爱”与”爱中”是相邻串,“我爱中华人民共和”与“爱中华人民共和国”是相邻串),
如果较长的词串中包含另一个较短的词串,则把较长的词串称作父串,较短的词串称作子串(子串是由父串中连续若干个字符组成的,子串是相对父串而言的,如”爱中”是”爱中国”的子串);
41)如果两个相邻串的词频相同,则两个词都被删除,如果其中一个词串的词频高于另一个,则删除词频低的词串,保留词频高的词串;
42)扫描步骤41)保留的词串,比较每对子串和父串的词频,如果两者的词频完全相同,则删除子串,保留父串;
43)将步骤42)保留的词串用停用词数据库中的词串进行过滤,得到初选新词串;
(停用词数据库的停用词是根据汉语语言规则确定的字,在词串特定位置出现时一定不会构成一个有意义的词,停用词分为前停词、后停词和广义停词。前停词一般出现在词尾,很少出现在词首,如“儿、子、然、于、边、么、们、乎”。后停词典与前停词相反,很少出现在词尾,如“老、阿”。广义停词可以根据需要设定为已有的词或是预设定的要删除的词,如通用词典或专业词典中的词。这些前停词、后停词和广义停词构成了停用词数据库;过滤的方法是;若词串的第一个字为前停词,则删除该词串。若词串的最后一个字为后停词,则删除该词串。如果一个词串是广义停词,则删除该词串)
本实施例的停用词数据库的表结构:
  字段名称   字段说明
  StopWord   停用词
  Type   该停用词的类型:前停词、后停词或广义停词
5)对初选新词串的时间信息进行时序分析,得到新词;具体包括以下步骤:
51)设定:时序分析的开始日期s,基本时间单位g,基本时间单位数目n,时序分析阈值δ。基本时间单位g一般取值范围为1-15天,基本时间单位数目n一般取值范围为5-30个,时序分析阈值δ一般取值范围为0-30。(本实施例中g设为2天,n设为10个,δ设为5)。
52)读出日期s的所有初选新词串,构成词串集合C;对C中每个词串t,查看其在从s开始,g*n天内的词频,得到g*n矩阵的词频数据,对该词频数据每g个为一组进行聚合(本实施例中采用求算术平均值的方法)得到1*n的矩阵词频数据a1,a2,...,an
53)设评价函数f(ai+1,ai):本实施例中设置的评价函数如下:
f ( a i + 1 , a i ) = 1 , if a i + 1 > a i 0 , if a i + 1 = a i - 1 , if a i + 1 < a i
54)计算n个评价函数总和S的值:
Figure G2009102379793D0000072
如果S>δ即判定该初选新词串为新词,否则将该该初选新词串删除。
本发明还提出另一种方法,该方法在上述方法的基础上还可包括以下内容:
设置过滤词数据库初始为空;
在所述步骤4)中还包括若词串与当前过滤词数据库中的词相同,则删除该词串
6)对步骤5)得到的新词串再由人工标记分为新词和过滤词串,将过滤词串添加到步骤4)的过滤词数据库。(过滤词数据库存放的是本方法每次运行经过人机交互后确定的要过滤的词串。这些词串不是新词,又很难被机器识别。过滤词数据库可以增量添加,可进一步提高获取新词的精度。)
在实施例中过滤词数据库的表结构为:
  字段名称   字段说明
  FilterWord   要过滤的词串
  Time   添加到过滤词数据库中的时间

Claims (6)

1.一种中文网页新词自动获取的方法,其特征在于,首先设置原始数据库和停用词数据库;所述原始数据库初始设为空,用于存放本新词获取方法处理过程中产生的数据;所述的停用词数据库预先存放有根据汉语语言规则不可能出现的词,以及要删除的已用词;设置新词获取周期;
该方法包括以下步骤:
1)当新词获取周期到来时,从Internet采集不同类型的网页,解析出含有时间信息的网页正文文本,并对该正文文本进行预处理得到句子片段;
2)对预处理后的句子片段进行n-gram分词产生词串并统计词频,连同词串的时间信息一并存入原始数据库;
3)根据预先设定的词频阈值对原始数据库中的词串进行过滤,词频大于等于词频阈值的词串保留,否则从原始数据库中删除;词频阈值的取值范围为1-10;
4)对步骤3)保留的词串做相邻串比较和父子串比较后进行再过滤,最后删除与停用词数据库中相同的词串,得到初选新词串;
5)对初选新词串的时间信息进行时序分析,得到新词,并等待下一新词获取周期到来时,转步骤1);具体包括以下步骤:
51)设定:时序分析的开始日期s,基本时间单位g,基本时间单位数目n,时序分析阈值δ;基本时间单位g取值范围为1-15天,基本时间单位数目n取值范围为5-30个,时序分析阈值δ取值范围为0-30;
52)读出日期s的所有初选新词串,构成词串集合C;对C中每个词串t,查看其在从s开始,g*n天内的词频,得到g*n矩阵的词频数据,对该词频数据每g个为一组进行聚合得到l*n的矩阵词频数据a1,a2,...,an
53)设评价函数f(ai+1,ai):
f ( a i + 1 , a i ) = 1 , if a i + 1 > a i 0 , if a i + 1 = a i - 1 , if a i + 1 < a i
54)计算n个评价函数总和S的值:
Figure F2009102379793C0000012
如果S>δ即判定该初选新词串为新词,否则将该初选新词串删除,等待下一新词获取周期到来时,转步骤1)。
2.一种中文网页新词自动获取的方法,其特征在于,首先设置原始数据库、停用词数据库和过滤词数据库;所述原始数据库和过滤词数据库初始设为空,用于存放本新词获取方法处理过程中产生的数据;所述的停用词数据库预先存放有根据汉语语言规则不可能出现的词,以及要删除的已用词;所述过滤词数据库用于存放在获取过程中标识出的要删除的词;设置新词获取周期;
该方法包括以下步骤:
1)当新词获取周期到来时,从Internet采集不同类型的网页,解析出含有时间信息的网页正文文本,并对该正文文本进行预处理得到句子片段;
2)对预处理后的句子片段进行n-gram分词产生词串并统计词频,连同词串的时间信息一并存入原始数据库;
3)根据预先设定的词频阈值对原始数据库中的词串进行过滤,词频大于等于词频阈值的词串保留,否则从原始数据库中删除;词频阈值的取值范围为1-10;
4)对步骤3)保留的词串做相邻串比较和父子串比较后进行再过滤,最后删除与停用词数据库和当前过滤词数据库中相同的词串,得到初选新词串;
5)对初选新词串的时间信息进行时序分析,得到候选新词串;具体包括以下步骤:
51)设定:时序分析的开始日期s,基本时间单位g,基本时间单位数目n,时序分析阈值δ;基本时间单位g取值范围为1-15天,基本时间单位数目n取值范围为5-30个,时序分析阈值δ取值范围为0-30;
52)读出日期s的所有初选新词串,构成词串集合C;对C中每个词串t,查看其在从s开始,g*n天内的词频,得到g*n矩阵的词频数据,对该词频数据每g个为一组进行聚合得到l*n的矩阵词频数据a1,a2,...,an
53)设评价函数f(ai+1,ai):
f ( a i + 1 , a i ) = 1 , if a i + 1 > a i 0 , if a i + 1 = a i - 1 , if a i + 1 < a i
54)计算n个评价函数总和S的值:如果S>δ即判定该初选新词串为候选新词串,否则将该该初选新词串删除;,
6)对步骤5)得到的候选新词串再由人工标记为新词或过滤词串,将过滤词串添加到步骤4)的过滤词数据库中,等待下一新词获取周期到来时,转步骤1)。
3.如权利要求1或2所述方法,其特征在于,所述步骤1)具体包括以下步骤:
11)通过共享的网页爬虫程序或RSS获取软件采集不同类型的网页;
12)利用常用的网页解析软件从网页中提取正文的内容和正文的时间信息,获得网页上的中文文本,然后将该中文文本存入硬盘;
13)对该中文文本进行预处理,去除网页标签、替换标识符、切分文本和去除非中文字符。
4.如权利要求3所述方法,其特征在于,所述步骤31)具体包括:
131)扫描整个文本,将找到的所有网页标签及其中的内容从文本中去除;
132)扫描步骤131)得到的文本,将找到的网页标识符替换成相应的字符;
133)利用文本中的标点符号或回车换行符作为切分文本的标志,把步骤132)处理后的文本切分为句子片段;
134)对切分后的每个句子片段进行扫描,保留在汉字编码范围内的字符,删除其他的字符。
5.如权利要求1或2所述方法,其特征在于,所述步骤2)具体包括以下步骤:
21)利用n-gram方法对预处理后的每个句子片段进行划分,顺次将临近的n个汉字聚集在一起形成一个词串,n为1-4的整数;
22)扫描n-gram分词得到的所有词串,统计每个词串的词频;
23)将划分出的所有词串、统计的词频,以及步骤12)提取出来的正文的时间信息一起存入原始数据库;所述原始数据库中设有存放文档信息的文档索引表和存放词串和词频的词串表.
6.如权利要求1或2所述方法,其特征在于,所述步骤4)具体包括以下步骤:定义:连续的n-1个字或字符相等的,并且词长为n的两个词串称为相邻串,
如果较长的词串中包含另一个较短的词串,则把较长的词串称作父串,较短的词串称作子串;
41)如果两个相邻串的词频相同,则这两个词串都被删除,如果其中一个词串的词频高于另一个,则删除词频低的词串,保留词频高的词串;
42)扫描步骤41)保留的词串,比较每对子串和父串的词频,如果两者的词频完全相同,则删除子串,保留父串;
43)将步骤42)保留的词串用停用词数据库中的词串进行过滤,得到初选新词串;所述停用词数据库的停用词包括前停词、后停词和广义停词;过滤的方法是;若词串的第一个字为前停词,则删除该词串。若词串的最后一个字为后停词,则删除该词串。如果一个词串是广义停词,则删除该词串。
CN2009102379793A 2009-11-27 2009-11-27 一种中文网页新词自动获取方法 Active CN101706807B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102379793A CN101706807B (zh) 2009-11-27 2009-11-27 一种中文网页新词自动获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102379793A CN101706807B (zh) 2009-11-27 2009-11-27 一种中文网页新词自动获取方法

Publications (2)

Publication Number Publication Date
CN101706807A true CN101706807A (zh) 2010-05-12
CN101706807B CN101706807B (zh) 2011-06-01

Family

ID=42377032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102379793A Active CN101706807B (zh) 2009-11-27 2009-11-27 一种中文网页新词自动获取方法

Country Status (1)

Country Link
CN (1) CN101706807B (zh)

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207946A (zh) * 2010-06-29 2011-10-05 天津海量信息技术有限公司 一种知识网络的半自动生成方法
CN102207948A (zh) * 2010-07-13 2011-10-05 天津海量信息技术有限公司 一种事件陈述句素材库的生成方法
CN102231153A (zh) * 2011-05-25 2011-11-02 盛乐信息技术(上海)有限公司 一种新词发现方法和系统
CN102375863A (zh) * 2010-08-27 2012-03-14 北京四维图新科技股份有限公司 一种地理信息领域的关键字提取的方法及装置
CN102467548A (zh) * 2010-11-15 2012-05-23 腾讯科技(深圳)有限公司 一种新词的识别方法及系统
CN102567405A (zh) * 2010-12-31 2012-07-11 北京安码科技有限公司 一种基于改进的文本空间向量表示的热点发现方法
CN102591612A (zh) * 2011-12-27 2012-07-18 厦门市美亚柏科信息股份有限公司 一种基于标点连续性的通用网页正文提取方法及其系统
CN102637160A (zh) * 2012-03-15 2012-08-15 北京播思软件技术有限公司 一种基于收件人的快速编辑发送内容的方法及装置
CN102831194A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 一种基于查询日志的新词自动查找系统和方法
CN102902757A (zh) * 2012-09-25 2013-01-30 姚明东 一种电子商务字典自动生成方法
CN102929862A (zh) * 2012-11-06 2013-02-13 深圳市宜搜科技发展有限公司 一种新词获取方法及系统
CN102955771A (zh) * 2011-08-18 2013-03-06 华东师范大学 中文单字串模式和词缀模式的新词自动识别技术及系统
CN103106227A (zh) * 2012-08-03 2013-05-15 人民搜索网络股份公司 一种基于网页文本的新词查找系统及方法
CN103593427A (zh) * 2013-11-07 2014-02-19 清华大学 新词搜索方法及系统
CN103678282A (zh) * 2014-01-07 2014-03-26 苏州思必驰信息科技有限公司 一种分词方法及装置
CN103678373A (zh) * 2012-09-17 2014-03-26 腾讯科技(深圳)有限公司 一种垃圾模板文章识别方法和设备
CN105468792A (zh) * 2016-01-13 2016-04-06 山东合天智汇信息技术有限公司 一种基于大数据的模糊查询方法及系统
CN106951410A (zh) * 2017-03-21 2017-07-14 北京三快在线科技有限公司 词库的生成方法、装置及电子设备
WO2017133568A1 (zh) * 2016-02-05 2017-08-10 阿里巴巴集团控股有限公司 一种目标特征数据的挖掘方法和装置
CN107480822A (zh) * 2017-08-14 2017-12-15 国云科技股份有限公司 一种基于TrieTree的上市企业发展动态预测方法
WO2018141144A1 (zh) * 2017-02-06 2018-08-09 华为技术有限公司 一种文本和语音信息的处理方法以及终端
CN108647199A (zh) * 2018-03-23 2018-10-12 江苏速度信息科技股份有限公司 一种地名新词的发现方法
JP2018536920A (ja) * 2016-02-18 2018-12-13 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 テキスト情報処理方法およびデバイス
CN109472022A (zh) * 2018-10-15 2019-03-15 平安科技(深圳)有限公司 基于机器学习的新词识别方法及终端设备
CN109800412A (zh) * 2018-12-10 2019-05-24 鲁东大学 一种中文分词和大数据信息检索方法及装置
CN110069635A (zh) * 2019-04-30 2019-07-30 秒针信息技术有限公司 一种热度词的确定方法及装置
CN110427621A (zh) * 2019-07-23 2019-11-08 北京语言大学 一种汉语分类词语提取方法及系统
CN111563143A (zh) * 2020-07-20 2020-08-21 上海二三四五网络科技有限公司 一种新词的确定方法及装置
CN112541057A (zh) * 2019-09-04 2021-03-23 上海晶赞融宣科技有限公司 分布式新词发现方法、装置、计算机设备和存储介质
CN113255337A (zh) * 2021-05-21 2021-08-13 广州欢聚时代信息科技有限公司 词表构建方法、机器翻译方法及其装置、设备与介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100555276C (zh) * 2004-01-15 2009-10-28 中国科学院计算技术研究所 一种中文新词语的检测方法及其检测系统

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102207946A (zh) * 2010-06-29 2011-10-05 天津海量信息技术有限公司 一种知识网络的半自动生成方法
CN102207946B (zh) * 2010-06-29 2013-10-23 天津海量信息技术有限公司 一种知识网络的半自动生成方法
CN102207948A (zh) * 2010-07-13 2011-10-05 天津海量信息技术有限公司 一种事件陈述句素材库的生成方法
CN102207948B (zh) * 2010-07-13 2013-07-24 天津海量信息技术有限公司 一种事件陈述句素材库的生成方法
CN102375863A (zh) * 2010-08-27 2012-03-14 北京四维图新科技股份有限公司 一种地理信息领域的关键字提取的方法及装置
CN102467548A (zh) * 2010-11-15 2012-05-23 腾讯科技(深圳)有限公司 一种新词的识别方法及系统
CN102467548B (zh) * 2010-11-15 2015-09-16 腾讯科技(深圳)有限公司 一种新词的识别方法及系统
CN102567405A (zh) * 2010-12-31 2012-07-11 北京安码科技有限公司 一种基于改进的文本空间向量表示的热点发现方法
CN102231153A (zh) * 2011-05-25 2011-11-02 盛乐信息技术(上海)有限公司 一种新词发现方法和系统
CN102955771A (zh) * 2011-08-18 2013-03-06 华东师范大学 中文单字串模式和词缀模式的新词自动识别技术及系统
CN102591612A (zh) * 2011-12-27 2012-07-18 厦门市美亚柏科信息股份有限公司 一种基于标点连续性的通用网页正文提取方法及其系统
CN102591612B (zh) * 2011-12-27 2014-12-03 厦门市美亚柏科信息股份有限公司 一种基于标点连续性的通用网页正文提取方法及其系统
CN102637160B (zh) * 2012-03-15 2015-06-10 播思通讯技术(北京)有限公司 一种基于收件人的快速编辑发送内容的方法及装置
CN102637160A (zh) * 2012-03-15 2012-08-15 北京播思软件技术有限公司 一种基于收件人的快速编辑发送内容的方法及装置
CN102831194A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 一种基于查询日志的新词自动查找系统和方法
CN103106227A (zh) * 2012-08-03 2013-05-15 人民搜索网络股份公司 一种基于网页文本的新词查找系统及方法
CN103678373B (zh) * 2012-09-17 2017-11-17 腾讯科技(深圳)有限公司 一种垃圾模板文章识别方法和设备
CN103678373A (zh) * 2012-09-17 2014-03-26 腾讯科技(深圳)有限公司 一种垃圾模板文章识别方法和设备
CN102902757A (zh) * 2012-09-25 2013-01-30 姚明东 一种电子商务字典自动生成方法
CN102902757B (zh) * 2012-09-25 2015-07-29 姚明东 一种电子商务字典自动生成方法
CN102929862A (zh) * 2012-11-06 2013-02-13 深圳市宜搜科技发展有限公司 一种新词获取方法及系统
CN102929862B (zh) * 2012-11-06 2015-06-10 深圳市宜搜科技发展有限公司 一种新词获取方法及系统
CN103593427A (zh) * 2013-11-07 2014-02-19 清华大学 新词搜索方法及系统
CN103678282B (zh) * 2014-01-07 2016-05-25 苏州思必驰信息科技有限公司 一种分词方法及装置
CN103678282A (zh) * 2014-01-07 2014-03-26 苏州思必驰信息科技有限公司 一种分词方法及装置
CN105468792A (zh) * 2016-01-13 2016-04-06 山东合天智汇信息技术有限公司 一种基于大数据的模糊查询方法及系统
CN105468792B (zh) * 2016-01-13 2018-11-02 山东合天智汇信息技术有限公司 一种基于大数据的模糊查询方法及系统
WO2017133568A1 (zh) * 2016-02-05 2017-08-10 阿里巴巴集团控股有限公司 一种目标特征数据的挖掘方法和装置
US10496747B2 (en) 2016-02-18 2019-12-03 Tencent Technology (Shenzhen) Company Limited Text information processing method and apparatus
JP2018536920A (ja) * 2016-02-18 2018-12-13 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 テキスト情報処理方法およびデバイス
WO2018141144A1 (zh) * 2017-02-06 2018-08-09 华为技术有限公司 一种文本和语音信息的处理方法以及终端
CN108885614A (zh) * 2017-02-06 2018-11-23 华为技术有限公司 一种文本和语音信息的处理方法以及终端
US11308952B2 (en) 2017-02-06 2022-04-19 Huawei Technologies Co., Ltd. Text and voice information processing method and terminal
CN106951410A (zh) * 2017-03-21 2017-07-14 北京三快在线科技有限公司 词库的生成方法、装置及电子设备
CN107480822A (zh) * 2017-08-14 2017-12-15 国云科技股份有限公司 一种基于TrieTree的上市企业发展动态预测方法
CN108647199A (zh) * 2018-03-23 2018-10-12 江苏速度信息科技股份有限公司 一种地名新词的发现方法
CN109472022A (zh) * 2018-10-15 2019-03-15 平安科技(深圳)有限公司 基于机器学习的新词识别方法及终端设备
CN109800412A (zh) * 2018-12-10 2019-05-24 鲁东大学 一种中文分词和大数据信息检索方法及装置
CN110069635A (zh) * 2019-04-30 2019-07-30 秒针信息技术有限公司 一种热度词的确定方法及装置
CN110427621B (zh) * 2019-07-23 2020-11-20 北京语言大学 一种汉语分类词语提取方法及系统
CN110427621A (zh) * 2019-07-23 2019-11-08 北京语言大学 一种汉语分类词语提取方法及系统
CN112541057A (zh) * 2019-09-04 2021-03-23 上海晶赞融宣科技有限公司 分布式新词发现方法、装置、计算机设备和存储介质
CN111563143A (zh) * 2020-07-20 2020-08-21 上海二三四五网络科技有限公司 一种新词的确定方法及装置
CN113255337A (zh) * 2021-05-21 2021-08-13 广州欢聚时代信息科技有限公司 词表构建方法、机器翻译方法及其装置、设备与介质
CN113255337B (zh) * 2021-05-21 2024-02-02 广州欢聚时代信息科技有限公司 词表构建方法、机器翻译方法及其装置、设备与介质

Also Published As

Publication number Publication date
CN101706807B (zh) 2011-06-01

Similar Documents

Publication Publication Date Title
CN101706807B (zh) 一种中文网页新词自动获取方法
CN108829658B (zh) 新词发现的方法及装置
CN108052659B (zh) 基于人工智能的搜索方法、装置和电子设备
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
CN100405371C (zh) 一种提取新词的方法和系统
CN104199965B (zh) 一种语义信息检索方法
CN111831802B (zh) 一种基于lda主题模型的城市领域知识检测系统及方法
CN103544255A (zh) 基于文本语义相关的网络舆情信息分析方法
CN106844640B (zh) 一种网页数据分析处理方法
Chen et al. Template detection for large scale search engines
CN102737021B (zh) 搜索引擎及其实现方法
CN105068991A (zh) 一种基于大数据的舆情发现方法
CN101794307A (zh) 基于互联网分词思想的车载导航poi搜索引擎
CN102722498A (zh) 搜索引擎及其实现方法
CN103593410A (zh) 通过替换概念性词语进行搜索推荐系统
CN102567409A (zh) 一种提供检索关联词的方法及装置
CN103389998A (zh) 一种基于云服务的新型互联网商业情报语义分析技术
CN101393555A (zh) 一种垃圾博客检测方法
CN111104801B (zh) 基于网址域名的文本分词方法、系统、设备及介质
CN104965823A (zh) 一种基于大数据的观点抽取方法
CN103678412A (zh) 一种文档检索的方法及装置
CN102722499A (zh) 搜索引擎及其实现方法
CN103914570A (zh) 基于字符串相似度算法的智能客服搜索方法与系统
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
CN111859065A (zh) 一种基于大数据的舆情聆听系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant