CN108647199A - 一种地名新词的发现方法 - Google Patents

一种地名新词的发现方法 Download PDF

Info

Publication number
CN108647199A
CN108647199A CN201810246763.2A CN201810246763A CN108647199A CN 108647199 A CN108647199 A CN 108647199A CN 201810246763 A CN201810246763 A CN 201810246763A CN 108647199 A CN108647199 A CN 108647199A
Authority
CN
China
Prior art keywords
neologisms
dictionary
place name
text
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810246763.2A
Other languages
English (en)
Inventor
李俊
孙海峰
徐忠建
朱必亮
冯建亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Speed Information Polytron Technologies Inc
Original Assignee
Jiangsu Speed Information Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Speed Information Polytron Technologies Inc filed Critical Jiangsu Speed Information Polytron Technologies Inc
Priority to CN201810246763.2A priority Critical patent/CN108647199A/zh
Publication of CN108647199A publication Critical patent/CN108647199A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种地名新词的发现方法,包括以下步骤:S1:构建原始文档集合:利用网络爬虫程序或RSS的方法从互联网中对网页文本进行爬取,并利用网页解析软件对爬取的文本进行解析,形成原始的文档集合;S2:预处理原始文档:对步骤S1中构建的原始文档集合中的文档进行预处理;S3:分词处理:采用基于字符串匹配的方法和概率统计相结合的方法进行中文分词处理,设计分词词典;S4:提取地名新词:利用步骤S3中生成的分词词典,对分词词典进行分类,并将词典进行分割,得到有益于处理的长度,然后提取出地名新词。利用互联网上容易获取的网页资源进行地名新词的发现,提高了发现新词汇的机会且有效提高新词发现的精度与准确率。

Description

一种地名新词的发现方法
技术领域
本发明涉及信息技术抽取领域,特别是涉及一种地名新词的发现方法。
背景技术
随着网络技术和信息技术的飞速发展,产生了大量的信息,据调查显示,人类社会80%以上的信息资源与地理空间相关,这些信息具有更新速度快、数据量大、来源广泛、数据结构多样等特征,但也蕴藏着丰富的地名信息。目前我国正在进行地名信息化建设,地名信息更新维护周期长、成本高、效率低,因此,从大量信息中对地名信息进行抽取获得地名新词显得尤为重要。
目前国内采用的新词发现技术主要有以下两种:
(一)基于规则的新词发现:通过使用一个预设的分词词典,利用分词词典与一定的组词规则相结合来识别新词,其主要思想是根据语言学的原理和知识来制定一些共性和个性规则,用这些规则来自动处理分析中出现的问题。其优点是发现新词的准确率较高,然而由于制定的规则只是针对某一个领域,灵活性较差,同时由于规则的获取难度加大,规则的全面制定既耗时又耗力,新词的产生速度越来越快,基于规则的方法很难满足需求。
(二)基于统计的新词发现:通过观察语料中的特征信息,寻找描述新词特征的统计量,确定候选字符串,计算其内部聚合度和自由度,在此基础上确定阈值,寻找聚合度和自由度最高的字符串组合。其优点是实现方法简单,可以应用于很多领域,对于查找较短的短语比较适合,然后这种方法需要大量的训练语料,忽略了词语内部的结构和词与词之间的构词能力等特性,新词发现的质量不是很高。
综上所述,为了有效提高新词发现的准确度和精度,有必要开发研究一种将规则和统计相结合的地名新词的发现方法。
发明内容
本发明要解决的技术问题是,提供一种地名新词发现方法,从大量信息中过滤垃圾字符串和通用词,提高地名新词发现的准确率和精度,更好地为地名信息化服务。
为了解决上述技术问题,本发明采用的技术方案是:该地名新词的发现方法,包括以下步骤:
S1:构建原始文档集合:利用网络爬虫程序或RSS的方法从互联网中对网页文本进行爬取,并利用网页解析软件对爬取的文本进行解析,形成原始的文档集合;
S2:预处理原始文档:对步骤S1中构建的原始文档集合中的文档进行预处理;
S3:分词处理:采用基于字符串匹配的方法和概率统计相结合的方法进行中文分词处理,设计分词词典;
S4:提取地名新词:利用步骤S3中生成的分词词典,对分词词典进行分类,并将词典进行分割,得到有益于处理的长度,然后提取出地名新词。
采用上述技术方案,利用网络爬虫的方法对网页文本进行抽取,并利用相应的网页解析软件对网页文本进行解析,形成原始的文档集合;然后对文档进行去除网页标签、替换标识符、切分文本、过滤非中文字符等预处理操作,将所有的文档划分为字符串的组合,利用逆向最大匹配法与N-gram法相结合的方法对字符串进行分词处理,得到中文分词结果;然后通过设置最小支持度和最小置信度,采用Apriori算法对高频噪声词进行剔除,发现频繁项目集,生成关联规则,进而发现地名新词。
本发明进一步改进在于,所述步骤S2中对原始文件进行预处理的过程具体包括如下步骤:
S21:去除网页标签:将找到的所有网页标签及其中的内容从文本中删除;
S22:替换标识符:根据步骤S21中处理完成的文本,将文本中的标识符替换成相应的标识符;
S23:切分文本:利用中文文本中的标点符号或回车换行符号作为切分文本的标志,将步骤S22中处理完成的文本进行切分;
S24:过滤非中文字符:对原始文档中非中文字符全部过滤掉,并以非中文字符所在的位置为界,将文档中的字符划分为字符串的组合,每个字符串占文本文档的每一行,并删除原始文档的内容,将划分结果保存在原始文档中。
本发明进一步改进在于,所述步骤S3的具体过程具体包括以下步骤:
S31:首先利用逆向最大匹配法进行字符串的匹配,将匹配后的字符串用N-gram概率统计方法进行统计以发现新词;
S32:在进行中文分词前,先预设一个全面的专业词典,将词典的格式设计为最简单的数列的形式;然后在利用统计语言模型进行信息提取的过程中,设置一个字符串同现频度表,存放每个字符串及其前面一个字符串的同现频度;
S33:设计一个词典用于存储分词词典。其中预设的专利词典做到尽量全面。
本发明进一步改进在于,所述步骤S4包括预处理阶段和地名新词抽取阶段;所述预处理阶段具体包括预设专业词典、预设噪声词典、处理高频噪声词、分词切割四个步骤;所述地名新词抽取阶段具体包括发现频繁项目集和生成关联规则两个步骤。
可选地,所述预处理阶段具体包括以下步骤:
S411:预设专业词典:在进行地名新词抽取过程中,首先需要预设一个已知地名词汇的专业词典,用已知词汇抽取未知的词汇;
S412:预设噪声词典:由于分词词典中存在者大量的无关词汇,需要将这些无关词汇从分词词典中删除;从不同领域的文档进行收集,和分词词典进行比对,计算分词词典中每个词出现的频次,提取出现频次最高的词作为噪声词,加入到噪声词典中;
S413:处理高频噪声词:利用步骤S412中生成的噪声词典,对文档的高频词汇进行统计,挖掘出高频词汇,过滤出高频噪声词。
S414:分词切割:对文档进行分词切割处理,得到有益于处理的长度,为地名新词的发现做准备。
可选地,所述地名新词抽取阶段具体包括以下步骤:
S421:发现频繁项目集:首先对最小支持度进行设置,然后对所有词汇进行归纳,找出所有不同的词汇,并统计它们出现的频数,将它们的频数与最小支持度进行对比,取支持数大于最小支持数的所有词汇,每个词汇作为事务数据库的一条事务记录,将这些事务记录作为统一的事务集合,这个事务集合就是一个频繁项目集,然后使用递归的方法找出其它的频繁项目集,并最终找出最大频繁项目集;
S422:生成关联规则:首先对最小置信度进行设定,根据步骤S421中生成的频繁项目集生成关联规则,进而提取出地名新词。
本发明进一步改进在于,所述地名新词抽取阶段采用Apriori算法。
本发明进一步改进在于,该地名新词的发现方法所使用的系统包括控制模块、语料获取模块、新词抽取模块、预处理模块和中文分词模块;所述语料获取模块、新词抽取模块、预处理模块和中文分词模块均与所述控制模块形成双向传输连接;所述语料抽取模块用于从大量互联网信息中抽取网页文本,并对网页信息进行解析,生成对应的文本,形成最原始的文档集合;所述预处理模块用于对文本进行处理,生成字符串集合,使之适合后续处理的需要;所述中文分词模块对预处理的文档进行分词,所有的文档将被分为词的集合;所述新词抽取模块用于利用关联规则的方法对地名新词进行提取,并存储到新词词典中。
现有技术相比,本发明具有的有益效果是:
1)利用互联网上容易获取的网页资源进行地名新词的发现;
2)在中文分词方面采用逆向最大匹配法和N-gram法相结合的方法进行分词,提高了发现新词汇的机会;
3)将统计与规则相结合的方法进行新词发现,有效提高新词发现的精度与准确率。
附图说明
下面结合附图进一步描述本发明的技术方案:
图1是本发明的地名新词的发现方法的流程示意图;
图2是本发明的地名新词的发现方法的文档预处理流程示意图;
图3是本发明的地名新词的发现方法的中文分词流程示意图;
图4是本发明的地名新词的发现方法的地名新词抽取流程示意图;
图5是本发明的地名新词的发现方法的数据流向图;
图6是发明的地名新词的发现方法所使用的系统的框架图。
具体实施方式
为了加深对本发明的理解,下面将结合附图和实施例对本发明做进一步详细描述,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。
实施例1:如图1-5所示,该地名新词的发现方法,包括以下步骤:
S1:构建原始文档集合:利用网络爬虫程序或RSS的方法从互联网中对网页文本进行爬取,并利用网页解析软件对爬取的文本进行解析,形成原始的文档集合;
S2:预处理原始文档:对步骤S1中构建的原始文档集合中的文档进行预处理;其中所述步骤S2中对原始文件进行预处理的过程具体包括如下步骤:
S21:去除网页标签:将找到的所有网页标签及其中的内容从文本中删除;
S22:替换标识符:根据步骤S21中处理完成的文本,将文本中的标识符替换成相应的标识符;
S23:切分文本:利用中文文本中的标点符号或回车换行符号作为切分文本的标志,将步骤S22中处理完成的文本进行切分;
S24:过滤非中文字符:对原始文档中非中文字符全部过滤掉,并以非中文字符所在的位置为界,将文档中的字符划分为字符串的组合,每个字符串占文本文档的每一行,并删除原始文档的内容,将划分结果保存在原始文档中。
S3:分词处理:采用基于字符串匹配的方法和概率统计相结合的方法进行中文分词处理,设计分词词典;其中所述步骤S3的具体过程具体包括以下步骤:
S31:首先利用逆向最大匹配法进行字符串的匹配,将匹配后的字符串用N-gram概率统计方法进行统计以发现新词;
S32:在进行中文分词前,先预设一个全面的专业词典,将词典的格式设计为最简单的数列的形式;然后在利用统计语言模型进行信息提取的过程中,设置一个字符串同现频度表,存放每个字符串及其前面一个字符串的同现频度;
S33:设计一个词典用于存储分词词典;
S4:提取地名新词:利用步骤S3中生成的分词词典,对分词词典进行分类,并将词典进行分割,得到有益于处理的长度,然后提取出地名新词;所述步骤S4包括预处理阶段和地名新词抽取阶段;所述预处理阶段具体包括预设专业词典、预设噪声词典、处理高频噪声词、分词切割四个步骤;所述地名新词抽取阶段具体包括发现频繁项目集和生成关联规则两个步骤;
所述预处理阶段具体包括以下步骤:
S411:预设专业词典:在进行地名新词抽取过程中,首先需要预设一个已知地名词汇的专业词典,用已知词汇抽取未知的词汇;
S412:预设噪声词典:由于分词词典中存在者大量的无关词汇,需要将这些无关词汇从分词词典中删除;从不同领域的文档进行收集,和分词词典进行比对,计算分词词典中每个词出现的频次,提取出现频次最高的词作为噪声词,加入到噪声词典中;
S413:处理高频噪声词:利用步骤S412中生成的噪声词典,对文档的高频词汇进行统计,挖掘出高频词汇,过滤出高频噪声词。
S414:分词切割:对文档进行分词切割处理,得到有益于处理的长度,为地名新词的发现做准备。
所述地名新词抽取阶段采用Apriori算法,具体包括以下步骤:
S421:发现频繁项目集:首先对最小支持度进行设置,然后对所有词汇进行归纳,找出所有不同的词汇,并统计它们出现的频数,将它们的频数与最小支持度进行对比,取支持数大于最小支持数的所有词汇,每个词汇作为事务数据库的一条事务记录,将这些事务记录作为统一的事务集合,这个事务集合就是一个频繁项目集,然后使用递归的方法找出其它的频繁项目集,并最终找出最大频繁项目集;
S422:生成关联规则:首先对最小置信度进行设定,根据步骤S421中生成的频繁项目集生成关联规则,进而提取出地名新词。
采用上述技术方案,利用网络爬虫的方法对网页文本进行抽取,并利用相应的网页解析软件对网页文本进行解析,形成原始的文档集合;然后对文档进行去除网页标签、替换标识符、切分文本、过滤非中文字符等预处理操作,将所有的文档划分为字符串的组合,利用逆向最大匹配法与N-gram法相结合的方法对字符串进行分词处理,得到中文分词结果;然后通过设置最小支持度和最小置信度,采用Apriori算法对高频噪声词进行剔除,发现频繁项目集,生成关联规则,进而发现地名新词。
本实施例中的地名新词的发现方法所使用的系统包括控制模块、语料获取模块、新词抽取模块、预处理模块和中文分词模块;所述语料获取模块、新词抽取模块、预处理模块和中文分词模块均与所述控制模块形成双向传输连接;所述语料抽取模块用于从大量互联网信息中抽取网页文本,并对网页信息进行解析,生成对应的文本,形成最原始的文档集合;所述预处理模块用于对文本进行处理,生成字符串集合,使之适合后续处理的需要;所述中文分词模块对预处理的文档进行分词,所有的文档将被分为词的集合;所述新词抽取模块用于利用关联规则的方法对地名新词进行提取,并存储到新词词典中。
对于本领域的普通技术人员而言,具体实施例只是对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。

Claims (8)

1.一种地名新词的发现方法,其特征在于,包括以下步骤:
S1:构建原始文档集合:利用网络爬虫程序或RSS的方法从互联网中对网页文本进行爬取,并利用网页解析软件对爬取的文本进行解析,形成原始的文档集合;
S2:预处理原始文档:对步骤S1中构建的原始文档集合中的文档进行预处理;
S3:分词处理:采用基于字符串匹配的方法和概率统计相结合的方法进行中文分词处理,设计分词词典;
S4:提取地名新词:利用步骤S3中生成的分词词典,对分词词典进行分类,并将词典进行分割,得到有益于处理的长度,然后提取出地名新词。
2.根据权利要求1所述的地名新词的发现方法,其特征在于,所述步骤S2中对原始文件进行预处理的过程具体包括如下步骤:
S21:去除网页标签:将找到的所有网页标签及其中的内容从文本中删除;
S22:替换标识符:根据步骤S21中处理完成的文本,将文本中的标识符替换成相应的标识符;
S23:切分文本:利用中文文本中的标点符号或回车换行符号作为切分文本的标志,将步骤S22中处理完成的文本进行切分;
S24:过滤非中文字符:对原始文档中非中文字符全部过滤掉,并以非中文字符所在的位置为界,将文档中的字符划分为字符串的组合,每个字符串占文本文档的每一行,并删除原始文档的内容,将划分结果保存在原始文档中。
3.根据权利要求2所述的地名新词的发现方法,其特征在于,所述步骤S3的具体过程具体包括以下步骤:
S31:首先利用逆向最大匹配法进行字符串的匹配,将匹配后的字符串用N-gram概率统计方法进行统计以发现新词;
S32:在进行中文分词前,先预设一个全面的专业词典,将词典的格式设计为最简单的数列的形式;然后在利用统计语言模型进行信息提取的过程中,设置一个字符串同现频度表,存放每个字符串及其前面一个字符串的同现频度;
S33:设计一个词典用于存储分词词典。
4.根据权利要求2所述的地名新词的发现方法,其特征在于,所述步骤S4包括预处理阶段和地名新词抽取阶段;所述预处理阶段具体包括预设专业词典、预设噪声词典、处理高频噪声词、分词切割四个步骤;所述地名新词抽取阶段具体包括发现频繁项目集和生成关联规则两个步骤。
5.根据权利要求4所述的地名新词的发现方法,其特征在于,所述预处理阶段具体包括以下步骤:
S411:预设专业词典:在进行地名新词抽取过程中,首先需要预设一个已知地名词汇的专业词典,用已知词汇抽取未知的词汇;
S412:预设噪声词典:由于分词词典中存在者大量的无关词汇,需要将这些无关词汇从分词词典中删除;从不同领域的文档进行收集,和分词词典进行比对,计算分词词典中每个词出现的频次,提取出现频次最高的词作为噪声词,加入到噪声词典中;
S413:处理高频噪声词:利用步骤S412中生成的噪声词典,对文档的高频词汇进行统计,挖掘出高频词汇,过滤出高频噪声词。
S414:分词切割:对文档进行分词切割处理,得到有益于处理的长度,为地名新词的发现做准备。
6.根据权利要求5所述的地名新词的发现方法,其特征在于,所述地名新词抽取阶段具体包括以下步骤:
S421:发现频繁项目集:首先对最小支持度进行设置,然后对所有词汇进行归纳,找出所有不同的词汇,并统计它们出现的频数,将它们的频数与最小支持度进行对比,取支持数大于最小支持数的所有词汇,每个词汇作为事务数据库的一条事务记录,将这些事务记录作为统一的事务集合,这个事务集合就是一个频繁项目集,然后使用递归的方法找出其它的频繁项目集,并最终找出最大频繁项目集;
S422:生成关联规则:首先对最小置信度进行设定,根据步骤S421中生成的频繁项目集生成关联规则,进而提取出地名新词。
7.根据权利要求6所述的地名新词的发现方法,其特征在于,所述地名新词抽取阶段采用Apriori算法。
8.根据权利要求6所述的地名新词的发现方法,其特征在于,该地名新词的发现方法所使用的系统包括控制模块、语料获取模块、新词抽取模块、预处理模块和中文分词模块;所述语料获取模块、新词抽取模块、预处理模块和中文分词模块均与所述控制模块形成双向传输连接;所述语料抽取模块用于从大量互联网信息中抽取网页文本,并对网页信息进行解析,生成对应的文本,形成最原始的文档集合;所述预处理模块用于对文本进行处理,生成字符串集合,使之适合后续处理的需要;所述中文分词模块对预处理的文档进行分词,所有的文档将被分为词的集合;所述新词抽取模块用于利用关联规则的方法对地名新词进行提取,并存储到新词词典中。
CN201810246763.2A 2018-03-23 2018-03-23 一种地名新词的发现方法 Pending CN108647199A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810246763.2A CN108647199A (zh) 2018-03-23 2018-03-23 一种地名新词的发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810246763.2A CN108647199A (zh) 2018-03-23 2018-03-23 一种地名新词的发现方法

Publications (1)

Publication Number Publication Date
CN108647199A true CN108647199A (zh) 2018-10-12

Family

ID=63744407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810246763.2A Pending CN108647199A (zh) 2018-03-23 2018-03-23 一种地名新词的发现方法

Country Status (1)

Country Link
CN (1) CN108647199A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558589A (zh) * 2018-11-12 2019-04-02 速度时空信息科技股份有限公司 一种基于中文分词技术的畅想文书的方法及系统
CN109858025A (zh) * 2019-01-07 2019-06-07 中科鼎富(北京)科技发展有限公司 一种地址标准化语料的分词方法及系统
CN110580280A (zh) * 2019-09-09 2019-12-17 腾讯科技(深圳)有限公司 新词的发现方法、装置和存储介质
CN110795932A (zh) * 2019-09-30 2020-02-14 中国地质大学(武汉) 基于地质本体的地质报告文本信息提取方法
CN112214994A (zh) * 2020-10-10 2021-01-12 苏州大学 基于多级词典的分词方法、装置、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706807A (zh) * 2009-11-27 2010-05-12 清华大学 一种中文网页新词自动获取方法
CN103106227A (zh) * 2012-08-03 2013-05-15 人民搜索网络股份公司 一种基于网页文本的新词查找系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706807A (zh) * 2009-11-27 2010-05-12 清华大学 一种中文网页新词自动获取方法
CN103106227A (zh) * 2012-08-03 2013-05-15 人民搜索网络股份公司 一种基于网页文本的新词查找系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李明: "针对特定领域的中文新词发现技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558589A (zh) * 2018-11-12 2019-04-02 速度时空信息科技股份有限公司 一种基于中文分词技术的畅想文书的方法及系统
CN109858025A (zh) * 2019-01-07 2019-06-07 中科鼎富(北京)科技发展有限公司 一种地址标准化语料的分词方法及系统
CN110580280A (zh) * 2019-09-09 2019-12-17 腾讯科技(深圳)有限公司 新词的发现方法、装置和存储介质
CN110580280B (zh) * 2019-09-09 2023-11-14 腾讯科技(深圳)有限公司 新词的发现方法、装置和存储介质
CN110795932A (zh) * 2019-09-30 2020-02-14 中国地质大学(武汉) 基于地质本体的地质报告文本信息提取方法
CN112214994A (zh) * 2020-10-10 2021-01-12 苏州大学 基于多级词典的分词方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN108647199A (zh) 一种地名新词的发现方法
CN109492077B (zh) 基于知识图谱的石化领域问答方法及系统
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN106528532B (zh) 文本纠错方法、装置及终端
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN104156352B (zh) 一种中文事件的处理方法及系统
CN110727880B (zh) 一种基于词库与词向量模型的敏感语料检测方法
CN102043808B (zh) 利用网页结构抽取双语词条的方法及设备
CN101079024B (zh) 一种专业词表动态生成系统和方法
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN100489863C (zh) 一种新词发现方法和系统
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN109271477A (zh) 一种借助互联网构建分类语料库的方法及系统
CN103324626B (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN104778256B (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN103995885B (zh) 实体名的识别方法和装置
CN105512245A (zh) 一种基于回归模型建立企业画像的方法
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN105718585B (zh) 文档与标签词语义关联方法及其装置
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN105335487A (zh) 基于农业技术信息本体库的农业专家信息检索系统及方法
CN112559684A (zh) 一种关键词提取及信息检索方法
CN105608232A (zh) 一种基于图形数据库的bug知识建模方法
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210042 8 Blocks 699-22 Xuanwu Avenue, Xuanwu District, Nanjing City, Jiangsu Province

Applicant after: Speed Space-time Information Technology Co., Ltd.

Address before: 210000 8 -22, 699 Xuanwu Road, Xuanwu District, Nanjing, Jiangsu.

Applicant before: Jiangsu speed information Polytron Technologies Inc

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181012