CN105956192A - 一种基于网站首页信息获取组织机构名简称的方法及系统 - Google Patents

一种基于网站首页信息获取组织机构名简称的方法及系统 Download PDF

Info

Publication number
CN105956192A
CN105956192A CN201610424303.5A CN201610424303A CN105956192A CN 105956192 A CN105956192 A CN 105956192A CN 201610424303 A CN201610424303 A CN 201610424303A CN 105956192 A CN105956192 A CN 105956192A
Authority
CN
China
Prior art keywords
called
short
candidate
full name
organization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610424303.5A
Other languages
English (en)
Inventor
李晓东
张俊玲
耿光刚
延志伟
陈勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Internet Network Information Center
Original Assignee
China Internet Network Information Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Internet Network Information Center filed Critical China Internet Network Information Center
Priority to CN201610424303.5A priority Critical patent/CN105956192A/zh
Publication of CN105956192A publication Critical patent/CN105956192A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于网站首页信息获取组织机构名简称的方法及系统。该方法利用的是组织机构网站首页信息进行简称获取,能够有针对性的、高效的获取到相关组织机构的惯用简称;能够在不使用锚文本信息的情况下获取到组织机构名的简称,是对使用锚文本确定机构名简称的方法的补充;并且能够计算简称和全称之间的相似度,在简称获取方面有较高的准确率。

Description

一种基于网站首页信息获取组织机构名简称的方法及系统
技术领域
本发明涉及互联网数据分析技术领域,具体涉及一种基于网站首页信息获取组织机构名简称的方法及系统。
背景技术
组织机构泛指机关、团体或其他企事业单位,包括政府部门、科研单位、各类院校、公司企业、国际组织等。在日常生活中,对于一些字数较多的组织机构名,我们通常习惯于用其约定俗成的简称来代替全称,例如,“发展和改革委员会”通常简称“发改委”,“中国科学院计算技术研究所”通常简称“中科院计算所”,“北京邮电大学”通常简称“北邮”。随着互联网的普及以及各类信息的极速膨胀,越来越多的网民习惯于利用搜索引擎进行信息的查询和网站的查找,而且网民在进行搜索时也通常使用简称进行搜索。然而搜索引擎在处理全称与简称之间的对应关系时,以往只能使用人工添加的方式来实现,这样将耗费大量的人力,而且还容易出现更新不及时或遗漏的情形,造成覆盖不到相关的搜索结果,导致召回率低,用户体验差。
针对上述问题,百度曾提出一种基于网页锚文本确定机构名简称(别称)的方法,该方法在专利“一种机构别称的获取方法和装置”中进行了详细介绍。但是上述专利使用的基于锚文本的机构别称获取方法有一定的局限性,即并不是所有的机构名别称都会出现在锚文本中。对于存在机构别称但没有锚文本指向该机构网站时,上述专利所述方法就不再适用。
发明内容
本发明目的在于提供一种基于网站首页信息获取组织机构名简称的方法及系统。该方法能够在不使用锚文本信息的情况下获取到组织机构名的简称,并且能够计算简称和全称之间的相似度,且在简称获取方面有较高的准确率。
本发明的技术方案叙述如下:
一种基于网站首页信息获取组织机构名简称的方法,包括以下步骤:
(1)根据域名地址获取到组织机构网站首页的源代码(即HTML代码),从源代码中提取出该网站对应的组织机构全称。
(2)去除组织机构网站首页源代码中的所有HTML标签,保留全部的文本信息;
(3)从上述文本信息中提取出每个特征词之前(或之后)的字符串;
(4)从每个提取到的字符串中过滤掉未在组织机构全称中出现的字符,将过滤后不为空的字符串保存于候选简称集合(AbbrSet);
(5)计算候选简称集合中每个候选简称与组织机构全称的相似度;
(6)从候选简称中根据相似度选取组织机构的简称。
步骤(3)中根据预先构建的组织机构名上下文特征词集合,从上述文本信息中提取出每个特征词之前(或之后)的字符串。对于特征词集合的构建方法本发明不做限制。
步骤(3)中,提取的字符串长度为机构名全称的长度(因为机构名简称的长度一般都不会超过全称的长度)。
步骤(4)中,对每个提取到的字符串根据全称中的字符采用字符匹配的方式进行过滤。
步骤(5)中,候选简称与组织机构全称的相似度(Similarity)为:S除以组织机构全称分词后的词数,即:
Similarity(简称,全称)=S/(组织机构全称分词后的词数),其中,S为分词后的候选简称和分词后的组织机构全称的匹配得分。
S的计算方法如下:首先对组织机构全称进行分词,得到组织机构全称的关键词列表;再对候选简称集合中每个候选简称进行分词,得到候选简称的关键词列表,然后统计分词后的候选简称和分词后的组织机构全称的匹配得分,匹配记分方法为:1)如果候选简称的关键词列表中的一个关键词存在于组织机构全称的关键词列表中,则该候选简称得分加1;2)如果候选简称的关键词列表中的一个关键词出现于组织机构全称的关键词列表中某个关键词的开头位置,则该候选简称得分加1;3)如果候选简称的关键词列表中的一个关键词出现于组织机构全称的关键词列表中某个关键词的非开头位置,则该候选简称得分加0.5;4)如果候选简称的关键词列表中的第一个关键词位于全称的起始位置,则该候选简称得分加1,否则减1。
步骤(6)中,对候选简称根据相似度从大到小进行排序选取候选简称作为组织机构的简称,或者选取相似度值大于某一阈值的候选简称作为组织机构的简称。
一种基于网站首页信息获取组织机构名简称的系统,包括:
源代码提取及处理模块,用于根据域名地址获取到组织机构网站首页的源代码,从源代码中提取出该网站对应的组织机构全称,并去除组织机构网站首页源代码中的所有HTML标签,保留全部的文本信息;
候选简称集合构建模块,用于从源代码提取及处理模块获得的文本信息中提取出每个特征词之前(或之后)的字符串;并从每个提取到的字符串中过滤掉未在组织机构全称中出现的字符,将过滤后不为空的字符串保存于候选简称集合;
组织机构名简称获取模块,用于计算候选简称集合中每个候选简称与组织机构全称的相似度,并根据相似度从候选简称中选取组织机构的简称。
进一步地,上述系统还包括用于构建组织机构名上下文特征词集合的机构名上下文特征训练模块。
进一步地,所述候选简称集合构建模块根据组织机构名上下文特征词集合提取出每个特征词之前(或之后)的字符串。
本发明的有益效果如下:
(1)本发明利用的是组织机构网站首页信息进行简称获取,能够有针对性的、高效的获取到相关组织机构的惯用简称;
(2)本发明在不使用锚文本的情况下来确定组织机构的简称,是对使用锚文本确定机构名简称的方法的补充;
(3)利用组织机构网站首页信息提取候选简称,并利用分词进行相似度计算的方法,在简称获取方面有较高的准确率。
附图说明
图1是本发明提取组织机构名简称的方法的流程图。
具体实施方式
实施例一:
附图图1是组织机构简称提取方法的流程图。如图1所示,该方法主要包含以下四个主要步骤,下面将进行详细叙述。
步骤1:通过训练已知全称和简称的网站首页信息来提取伴随机构名称经常出现的词,即机构名的上下文特征词,用于之后大批量的机构名提取。由于全称和简称在上下文中具有互换性,因此我们在训练机构名上下文特征词时不区分全称和简称。下面详细介绍了特征词训练过程。
选取200个组织机构的域名地址,用人工标注的方式确定这些网站的机构名全称和简称,并记录为<域名地址,全称,简称1,简称2,……>格式,例如:
1)www.cas.ac.cn,中国科学院,中科院;
2)www.bit.edu.cn,北京理工大学,北理工,北理;
3)www.ndrc.gov.cn,中华人民共和国国家发展和改革委员会,国家发改委;
4)www.shfao.gov.cn,上海市人民政府外事办公室,上海外事办;
5)www.ihep.cas.cn,中国科学院高能物理研究所,高能所;
6)www.cmbchina.com,招商银行,招行;
根据<域名地址,全称,简称1,简称2,……>中的域名地址,获取到该域名地址对应网站的首页源代码(HTML代码),然后对源代码中的文本信息进行提取和分析。可以使用开源Java应用程序接口JSoup来获取域名地址对应的网页源代码,以及提取和分析源代码中的文本信息。对于提取到的文本信息,即去除HTML标签后的保留内容,然后使用开源Java中文分词工具包IKAnalyzer对其进行分词。在进行分词时将常用机构名称字典配置为IKAnalyzer的扩展字典,以确保分词器不对组织机构的全称和简称进行分词,且该常用机构名称字典包含上述200个组织机构的全称和简称;另外,在分词时也未使用停用词表,以确保分词后文本信息的完整性。对网页源代码中的文本信息进行分词后,从词语(包括单字)集合中识别出机构名全称和简称前后的词语,对于全称和简称之前的词语将其保存于文件word-before中,对于全称和简称之后的词语将其保存于文件word-after中。
所有的训练网页都处理完毕后,word-before文件中包含了机构名之前经常出现的候选特征词,word-after文件中则包含了机构名之后经常出现的候选特征词。然后分别统计这两个文件中各个特征词出现的次数,形成<特征词,出现频次>二元信息组。因为上述两个上下文特征词文件中可能存在着诸如人名、地名的干扰词,例如北京理工大学的首页中出现过语句“北京理工大学孙逢春受聘TCL杰出教授”,全称“北京理工大学”后就跟着一个人名,该人名就是一个干扰词,需要去除,因此,将出现频次少于10次的特征词去除,最后获得了用于从网页中识别机构名称的上下文特征词集合。
步骤2:确定相应域名地址所对应的组织机构的全称。通过观察各种组织机构的网站首页可以发现,组织机构的全称一般会出现于首页标题和页面末尾的版权声明部分,因此主要根据站点首页的标题(即title)和版权块信息来确定相应网站的全称。下面将详细介绍组织结构名全称的确定过程。
1.根据首页标题获取候选全称1
首先根据网站的域名地址获取到相应站点的首页源代码,根据首页的文档对象模型树获取到页面的标题。由于网站的首页页面标题有时候会含有一些干扰信息,例如宁夏大学的网站首页使用了“欢迎访问宁夏大学”作为首页标题,招商银行的网站首页使用了“一网通主页--招商银行官方网站”作为首页标题,因此需要对获取到的网页标题进行一些处理。根据标题中是否存在标点符号对标题进行区分处理:
1)对于不含标点的标题,我们判断标题中是否含有“欢迎”、“您”、“你”、“访问”、“登录”、“光临”、“来到”、“进入”、“首页”、“主页”、“站点首页”、“站点主页”、“网站首页”、“网站主页”、“官方网站”、“官网”、“门户网站”、“门户”等字词,若不含有这些字词,直接将标题作为候选全称1,若标题中含有上述字词,则去除标题中的上述字词,将去除上述字词之后的字符串作为候选全称1。
2)对于含有标点符号的标题,用所含的标点符号对标题进行拆分形成子串集合,然后判断子串集合中哪个子串可以作为候选全称1。首先采用特征词匹配的方式,若子串以特征词“网”、“网站”、“官网”、“官方网站”、“首页”、“主页”、“站点首页”、“站点主页”、“网站首页”、“网站主页”、“门户网站”、“门户”、“公司”、“集团”、“机构”等词结尾,则将该子串识别为候选名称,对该子串进行与不含标点的标题相同的处理,将处理后的子串作为候选全称1;若不能根据结尾特征词判断哪个子串可以作为候选全称1,则将第一个子串作为候选全称1,选择第一个子串作为候选全称1是出于以下两点考虑:a)许多机构的网站将全称放在网站标题的开头位置;b)若不能根据标题获得正确的全称,也可以根据版权块信息获取到全称。
2.根据版权块信息获取候选全称2
在分析站点首页信息获取标题的同时,根据“版权所有”、“copyright”等版权声明提示词识别到版权块所在位置,并获取版权块中版权声明提示词的上下文文本,从上述上下文文本中提取出候选全称2。若首页信息中不含有版权声明提示词,可将候选全称2置为空字符串。
3.综合候选全称1和2确定全称
一般网站首页标题不会为空,获取到的候选全称1也不会为空,而候选全称2可能为空,根据如下规则来确定网站对应的组织机构的全称:
1)如果候选全称1和2均不为空且内容相同,我们直接用候选全称1(或2)作为全称;
2)如果候选全称1和2均不为空但内容不同,考虑到网站在进行版权声明时一般使用全称,即版权块处的全称具有较高的可信度,所以我们使用候选全称2作为全称;
3)如果候选全称2为空字符串,我们就将候选全称1作为全称。
一般情况下,综合标题和版权块这两种来源的信息我们可以获取到大部分网站的全称。
步骤3:从网站首页的文本信息中提取出可能的候选简称。对于每一个域名地址,在获取其相应组织机构全称后,进行机构名简称的提取。具体的简称提取步骤叙述如下。
a)对于根据域名地址获取到的网站首页源代码,去除其中所有的HTML标签,从而获取到全部的文本信息;
b)利用步骤1训练获得的机构名上下文特征词集合,从上述文本信息中,提取出特征词集合中每个词之前(或之后)的字符串,考虑到机构名简称的长度一般都不会超过全称的长度,将提取的字符串长度设定为机构名全称的长度;
c)然后对于每个提取到的字符串,首先根据全称利用字符匹配的方式过滤掉未在全称中出现的所有字符,将经过过滤处理的字符串保存于候选简称集合AbbrSet,若过滤后字符串为空则不再加入AbbrSet中;
d)经过过滤处理后,虽然AbbrSet中每个字符串中的每个字符都在全称中出现,但是有可能会出现字符间顺序和全称顺序不同的情况,例如在获取中国科学院高能物理研究所的简称时,AbbrSet中就存在着这样的字符串“研高能所”,出现这种情况的原因,一方面是因为无法确定机构名简称的字数,只能提取最大的机构名全称长度的字符,因此提取到的简称包含有干扰信息,虽然经过过滤处理,但并不能保证干扰信息中不包含有全称中的字符;另一方面,在根据特征词进行字符串提取时,特征词之前(或之后)的字符串可能不是组织机构简称,但包含有全称中的某些字。针对这种情况,考虑到大部分机构名简称不会出现逆序的情况,可对AbbrSet中的每个字符串进行了拆分处理,使候选简称不包含有逆序的情况,将候选简称尽可能的分离出来。采用的策略为,对AbbrSet中的每个字符串,如果该字符串存在逆序,就将其拆分成不含逆序的若干子串,例如“研高能所”,我们就可以根据全称中各个字符的顺序将其拆分成“研”和“高能所”两个子串,然后将拆分后的各子串加入到AbbrSet中并删除原来的字符串。
经过上述步骤后,就获得了候选简称集合AbbrSet,但是AbbrSet中的字符串并不一定就是符合要求的、人们惯用的简称,所以需要进一步进行判定,也就是进行简称和相应全称的相似度计算。
步骤4:计算可能的候选简称与全称的相似度,并根据相似度值确定最终的简称。具体计算方法如下:
a)首先对候选简称进行分词,得到该候选简称的关键词列表abbrKeywordsList;
b)对abbrKeywordsList中的每个关键词判断它在全称关键词列表中的出现情况以及出现位置,并据此对该候选简称进行记分。记候选简称为abbr,对abbr分词后得到关键词列表abbrKeywordsList,abbr得分记为score[abbr]记分规则为:
1)对abbrKeywordsList中的一个关键词keyword1,如果它存在于fullNameKeywordsList中,则该候选简称得分加1;
2)对abbrKeywordsList中的一个关键词keyword1,如果它出现于fullNameKeywordsList中某个关键词的开头位置,则该候选简称得分加1;
3)对abbrKeywordsList中的一个关键词keyword1,如果它出现于fullNameKeywordsList中某个关键词的非开头位置,则该候选简称得分加0.5;
4)若abbrKeywordsList中的第一个关键词位于全称的起始位置,则该候选简称得分加1,否则减1。
c)通过上述记分规则累计获得候选简称总的匹配得分。
完成AbbrSet中每个候选简称的匹配得分后,将每个候选简称的匹配得分都除以全称关键词列表的长度,用该值作为相应候选简称与全称的相似度值,若相似度值大于1.0则以1.0计。最后判断候选简称的相似度值是否大于相似度阈值0.75,如果是,则将其判定为相应机构全称的简称。
申请人利用上述方法对1287个组织机构网站进行实验,利用组织机构网站首页信息提取候选简称,并利用分词进行相似度计算的方法,全称提取正确率达93.9%,简称的召回率和正确率分别达到了85.3%和90.8%,实验表明,该方法具有良好的效果。

Claims (10)

1.一种基于网站首页信息获取组织机构名简称的方法,包括以下步骤:
(1)根据域名地址获取到组织机构网站首页的源代码,从源代码中提取出该网站对应的组织机构全称;
(2)去除组织机构网站首页源代码中的所有HTML标签,保留全部的文本信息;
(3)从上述文本信息中提取出每个特征词之前或之后的字符串;
(4)从每个提取到的字符串中过滤掉未在组织机构全称中出现的字符,将过滤后不为空的字符串保存于候选简称集合;
(5)计算候选简称集合中每个候选简称与组织机构全称的相似度;
(6)从候选简称中根据相似度选取组织机构的简称。
2.如权利要求1所述的基于网站首页信息获取组织机构名简称的方法,其特征在于,步骤(3)中根据预先构建的组织机构名上下文特征词集合从上述文本信息中提取出每个特征词之前或之后的字符串。
3.如权利要求1所述的基于网站首页信息获取组织机构名简称的方法,其特征在于,步骤(3)中,提取的字符串长度为机构名全称的长度。
4.如权利要求1所述的基于网站首页信息获取组织机构名简称的方法,其特征在于,步骤(4)中,对每个提取到的字符串根据全称中的字符采用字符匹配的方式进行过滤。
5.如权利要求1所述的基于网站首页信息获取组织机构名简称的方法,其特征在于,步骤(5)中,候选简称与组织机构全称的相似度Similarity为:S除以组织机构全称分词后的词数,即:
Similarity(简称,全称)=S/组织机构全称分词后的词数,其中,S为分词后的候选简称和分词后的组织机构全称的匹配得分。
6.如权利要求5所述的基于网站首页信息获取组织机构名简称的方法,其特征在于,S的计算方法如下:首先对组织机构全称进行分词,得到组织机构全称的关键词列表;再对候选简称集合中每个候选简称进行分词,得到候选简称的关键词列表,然后统计分词后的候选简称和分词后的组织机构全称的匹配得分,匹配记分方法为:1)如果候选简称的关键词列表中的一个关键词存在于组织机构全称的关键词列表中,则该候选简称得分加1;2)如果候选简称的关键词列表中的一个关键词出现于组织机构全称的关键词列表中某个关键词的开头位置,则该候选简称得分加1;3)如果候选简称的关键词列表中的一个关键词出现于组织机构全称的关键词列表中某个关键词的非开头位置,则该候选简称得分加0.5;4)如果候选简称的关键词列表中的第一个关键词位于全称的起始位置,则该候选简称得分加1,否则减1。
7.如权利要求1所述的基于网站首页信息获取组织机构名简称的方法,其特征在于,步骤(6)中,对候选简称根据相似度从大到小进行排序选取候选简称作为组织机构的简称,或者选取相似度值大于某一阈值的候选简称作为组织机构的简称。
8.一种基于网站首页信息获取组织机构名简称的系统,包括:
源代码提取及处理模块,用于根据域名地址获取到组织机构网站首页的源代码,从源代码中提取出该网站对应的组织机构全称,并去除组织机构网站首页源代码中的所有HTML标签,保留全部的文本信息;
候选简称集合构建模块,用于从源代码提取及处理模块获得的文本信息中提取出每个特征词之前或之后的字符串;并从每个提取到的字符串中过滤掉未在组织机构全称中出现的字符,将过滤后不为空的字符串保存于候选简称集合;
组织机构名简称获取模块,用于计算候选简称集合中每个候选简称与组织机构全称的相似度,并根据相似度从候选简称中选取组织机构的简称。
9.如权利要求8所述的基于网站首页信息获取组织机构名简称的系统,其特征在于,还包括用于构建组织机构名上下文特征词集合的机构名上下文特征训练模块。
10.如权利要求8所述的基于网站首页信息获取组织机构名简称的系统,其特征在于,所述候选简称集合构建模块根据组织机构名上下文特征词集合提取出每个特征词之前或之后的字符串。
CN201610424303.5A 2016-06-15 2016-06-15 一种基于网站首页信息获取组织机构名简称的方法及系统 Pending CN105956192A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610424303.5A CN105956192A (zh) 2016-06-15 2016-06-15 一种基于网站首页信息获取组织机构名简称的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610424303.5A CN105956192A (zh) 2016-06-15 2016-06-15 一种基于网站首页信息获取组织机构名简称的方法及系统

Publications (1)

Publication Number Publication Date
CN105956192A true CN105956192A (zh) 2016-09-21

Family

ID=56906653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610424303.5A Pending CN105956192A (zh) 2016-06-15 2016-06-15 一种基于网站首页信息获取组织机构名简称的方法及系统

Country Status (1)

Country Link
CN (1) CN105956192A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766552A (zh) * 2019-01-08 2019-05-17 安徽省泰岳祥升软件有限公司 一种基于公告信息的指代消解方法及装置
CN110096571A (zh) * 2019-04-10 2019-08-06 北京明略软件系统有限公司 一种机构名简称生成方法和装置、计算机可读存储介质
CN110381115A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 信息推送方法、装置、计算机可读存储介质和计算机设备
CN110728150A (zh) * 2019-10-08 2020-01-24 支付宝(杭州)信息技术有限公司 一种命名实体筛取方法、装置、设备和可读介质
CN111695340A (zh) * 2020-06-16 2020-09-22 深圳前海微众银行股份有限公司 一种简称提取方法及装置
CN113901819A (zh) * 2021-09-30 2022-01-07 深信服科技股份有限公司 一种主体识别方法及相关装置
CN114357335A (zh) * 2022-01-04 2022-04-15 杭州网易竹书信息技术有限公司 信息获取方法、介质、装置和计算设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722562A (zh) * 2012-06-01 2012-10-10 浙江灵玖天下软件有限公司 基于互联网的组织机构信息整合与更新方法
CN102880647A (zh) * 2012-08-24 2013-01-16 北京百度网讯科技有限公司 一种机构别称的获取方法和装置
CN102955819A (zh) * 2011-08-31 2013-03-06 镇江诺尼基智能技术有限公司 一种从Web网页中获取汉语简称的方法
CN104035918A (zh) * 2014-06-12 2014-09-10 华东师范大学 一种采用上下文特征匹配的中文机构名简称识别系统
CN104899213A (zh) * 2014-03-06 2015-09-09 阿里巴巴集团控股有限公司 一种解析组织机构名的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955819A (zh) * 2011-08-31 2013-03-06 镇江诺尼基智能技术有限公司 一种从Web网页中获取汉语简称的方法
CN102722562A (zh) * 2012-06-01 2012-10-10 浙江灵玖天下软件有限公司 基于互联网的组织机构信息整合与更新方法
CN102880647A (zh) * 2012-08-24 2013-01-16 北京百度网讯科技有限公司 一种机构别称的获取方法和装置
CN104899213A (zh) * 2014-03-06 2015-09-09 阿里巴巴集团控股有限公司 一种解析组织机构名的方法和装置
CN104035918A (zh) * 2014-06-12 2014-09-10 华东师范大学 一种采用上下文特征匹配的中文机构名简称识别系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郝娟 等: "采用上下文特征匹配的中文机构名简称识别", 《小型微型计算机系统》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766552A (zh) * 2019-01-08 2019-05-17 安徽省泰岳祥升软件有限公司 一种基于公告信息的指代消解方法及装置
CN109766552B (zh) * 2019-01-08 2023-01-31 安徽省泰岳祥升软件有限公司 一种基于公告信息的指代消解方法及装置
CN110096571A (zh) * 2019-04-10 2019-08-06 北京明略软件系统有限公司 一种机构名简称生成方法和装置、计算机可读存储介质
CN110381115A (zh) * 2019-06-14 2019-10-25 平安科技(深圳)有限公司 信息推送方法、装置、计算机可读存储介质和计算机设备
CN110381115B (zh) * 2019-06-14 2022-03-11 平安科技(深圳)有限公司 信息推送方法、装置、计算机可读存储介质和计算机设备
CN110728150A (zh) * 2019-10-08 2020-01-24 支付宝(杭州)信息技术有限公司 一种命名实体筛取方法、装置、设备和可读介质
CN110728150B (zh) * 2019-10-08 2023-06-20 支付宝(杭州)信息技术有限公司 一种命名实体筛取方法、装置、设备和可读介质
CN111695340A (zh) * 2020-06-16 2020-09-22 深圳前海微众银行股份有限公司 一种简称提取方法及装置
CN111695340B (zh) * 2020-06-16 2021-12-28 深圳前海微众银行股份有限公司 一种简称提取方法及装置
CN113901819A (zh) * 2021-09-30 2022-01-07 深信服科技股份有限公司 一种主体识别方法及相关装置
CN114357335A (zh) * 2022-01-04 2022-04-15 杭州网易竹书信息技术有限公司 信息获取方法、介质、装置和计算设备

Similar Documents

Publication Publication Date Title
CN105956192A (zh) 一种基于网站首页信息获取组织机构名简称的方法及系统
CN103123618B (zh) 文本相似度获取方法和装置
Zheng et al. Template-independent news extraction based on visual consistency
CN110609983B (zh) 一种政策文件结构化分解方法
CN103106189B (zh) 一种挖掘同义属性词的方法和装置
CN106407235B (zh) 一种基于点评数据的语义词典构建方法
CN109597895B (zh) 一种基于知识图谱的公文搜索方法
CN111897914A (zh) 用于综合管廊领域的实体信息抽取及知识图谱构建方法
CN103313248A (zh) 一种识别垃圾信息的方法和装置
CN107656921B (zh) 一种基于深度学习的短文本依存分析方法
CN111104801B (zh) 基于网址域名的文本分词方法、系统、设备及介质
Darwish et al. Simple Effective Microblog Named Entity Recognition: Arabic as an Example.
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN106096040A (zh) 基于搜索引擎的机构网站归属地判别方法及其装置
CN106503256B (zh) 一种基于社交网络文档的热点信息挖掘方法
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
CN101334789A (zh) 利用搜索引擎鉴定文档抄袭的装置
CN108664642A (zh) 基于Apriori算法的词性标注规则自动获取方法
CN106126618B (zh) 基于人名的邮箱地址推荐方法及系统
Al-Sultany et al. Enriching tweets for topic modeling via linking to the wikipedia
KR101686114B1 (ko) 애드인 프로그램을 활용한 한글문장단위 한자 자동변환 방법
CN104504070B (zh) 一种搜索的方法和装置
CN109977193B (zh) 一种基于语义分析技术的赌博人员识别方法
CN112632985A (zh) 语料的处理方法、装置、存储介质及处理器
CN113095363A (zh) 一种使用弱监督的代码搜索意图分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160921