CN107748745A - 一种企业名称关键字提取方法 - Google Patents
一种企业名称关键字提取方法 Download PDFInfo
- Publication number
- CN107748745A CN107748745A CN201711088610.1A CN201711088610A CN107748745A CN 107748745 A CN107748745 A CN 107748745A CN 201711088610 A CN201711088610 A CN 201711088610A CN 107748745 A CN107748745 A CN 107748745A
- Authority
- CN
- China
- Prior art keywords
- word
- enterprise name
- participle
- arrs
- array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Abstract
本发明公开了一种企业名称关键字提取方法,包括以下步骤:搭建与企业名称相关的基础热词库;对用户输入的企业名称进行中文分词处理,输出分词结果;声明新的数组arrs_a,遍历所述分词结果,若遍历过程中分词结果中的某个分词匹配到所述基础热词库中的热词,则将该分词加入到数组arrs_a;依次根据分词词长、分词位置对数组arrs_a进行排序;对排序后的数组arrs_a中进行遍历,针对数组arrs_a中的每个分词,依序对企业名称进行替空操作,将得到的最终词作为企业名称关键字。本发明本发明能够根据企业名称快速提取出企业名称关键字,便于实现大数据量的、高覆盖率的企业名称关键字数据的获得。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种企业名称关键字提取方法。
背景技术
企业名称关键字是企业名称的最重要组成部分,也是企业核心数据资产,企业名称关键字在对企业数据进行处理过程中具有重要的作用。如果能够根据搜集到的企业名称,快速提取出企业名称关键字,就可以提供给第三方系统用于他途,包括但不仅限于搜索引擎,爬虫,舆情分析等应用场景。
企业名称通常包括行政区划、字号、行业、组织形式四个要素构成,其中字号是构成企业名称关键字的核心部分。由于企业字号的复杂性和多样性,导致利用数据处理技术提取企业名称关键字的难度加大。目前,对于企业名称关键字数据,还只能通过人工去甄别、补充,要想获得大数据量的、高覆盖率的企业名称关键字数据,在实际操作中需要投入大量的人力才能完成。
发明内容
本发明的目的在于提供一种企业名称关键字提取方法,其能够根据企业名称快速提取出企业名称关键字,便于实现大数据量的、高覆盖率的企业名称关键字数据的获得。
为实现上述目的,本发明采用以下技术方案:
一种企业名称关键字提取方法,包括以下步骤:
S1、搭建与企业名称相关的基础热词库;
S2、对用户输入的企业名称进行中文分词处理,输出分词结果;
S3、声明新的数组arrs_a,遍历所述分词结果,若遍历过程中分词结果中的某个分词匹配到所述基础热词库中的热词,则将该分词加入到数组arrs_a;
S4、依次根据分词词长、分词位置对数组arrs_a进行排序;
S5、对排序后的数组arrs_a中进行遍历,针对数组arrs_a中的每个分词,依序对企业名称进行替空操作,将得到的最终词作为企业名称关键字。
进一步地,还包括以下步骤:
S6、设定关键字长度阈值,判断所述步骤S5中得到的企业名称关键字长度是否达到关键字长度阈值,若达到,则判定企业名称关键字的提取结果正确,若为达到,则执行步骤S7;
S7、针对S5中得到的企业名称关键字与相邻词进行拼接,获得达到关键字长度阈值的企业名称关键字。
更进一步地,所述步骤S1还包括以下步骤:对所述基础热词库中的热词进行打标签处理,用以定义热词的标签类别;
所述步骤S7包括以下分步骤:
S71、依次根据分词位置、分词词长对所述数组arrs_a进行重新排序;
S72、找到步骤S5中得到的企业名称关键字的前、后位置的相邻词,并根据相邻词的标签类型选择是否拼接,拼接后记录拼接结果的词长和位置偏移量;
S73、判断拼接结果的词长是否达到关键字长度阈值,若达到,则停止拼接并认定该拼接结果为正确的企业名称关键字,若未达到,则基于拼接结果的词长和位置偏移量继续向后遍历。
优选地,步骤S1中的搭建与企业名称相关的基础热词库通过以下步骤实现:
S11、预先准备企业名称数据;
S12、对所述企业名称数据进行中文分词处理;
S13、对中文分词处理后获得分词进行词频分析;
S14、设定阈值,剔除出现词频低于阈值的分词,保留出现词频高于阈值的分词并构成所述基础热词库。
优选地,步骤S12中的所述中文分词处理,利用IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器进行中文分词处理。
优选地,步骤S13中的所述词频分析,利用传统关系型数据库或搜索引擎框架进行词频分析。
优选地,所述步骤S4具体为:针对数组arrs_a中的分词,优先按分词词长进行排序,相同词长的按照分词位置进行排序。
优选地,所述步骤S71具体为:针对数组arrs_a中的分词,优先按分词位置进行排序,分词位置相同的,按照分词词长进行排序。
优选地,所述标签类别至少包括热词、地域词、桥接词,当数组arrs_a中分词的类别为热词时,在拼接处理时选择拼接,当数组arrs_a中分词的类别为地域词时,在拼接处理时选择不拼接并找到下一个分词进行拼接,当数组arrs_a中分词的类别为桥接词时,在拼接处理时找到下一个分词进行拼接。
优选地,步骤S14中,对于基础热词库中的某些有干扰作用的属于企业关键字的热词,对这些热词进行禁用操作或者额外配置标签类型。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
本发明能够根据企业名称快速提取出企业名称关键字,便于实现大数据量的、高覆盖率的企业名称关键字数据的获得,而无需投入过多的人力。利用本发明获得的企业名称关键字数据,能够提供给第三方系统使用,有助于企业数据处理工作的开展。
附图说明
图1为本发明的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
请参阅图1,本发明公开了一种企业名称关键字提取方法,包括以下步骤:
S1、搭建与企业名称相关的基础热词库,对所述基础热词库中的热词进行打标签处理,用以定义热词的标签类别。基础热词库通过以下方法进行搭建:
S11、预先准备企业名称数据。本实施例中,企业名称数据通过网络爬虫采集,企业名称数据包含的企业名称数量在4000万条以上。
S12、对所述企业名称数据进行中文分词处理。中文分词处理是利用IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器进行中文分词处理,当然也可以采用其他分词器,本发明不做具体限定。
S13、对中文分词处理后获得分词进行词频分析。词频分析可以利用传统关系型数据库或搜索引擎框架进行词频分析,也可利用主流Mapreduce框架,如Hadoop,Spark,ElasticSearch进行热词排行分析统计。
S14、设定阈值,剔除出现词频低于阈值的分词,保留出现词频高于阈值的分词并构成所述基础热词库。对于基础热词库中的某些有干扰作用的属于企业关键字的热词,原因在于数千万个企业名称中有不少相近的名称,这些相近的名称出现频次高于阈值。对这些热词可进行禁用操作或者额外配置标签类型。
步骤S1中,标签可以扩展,可对标签进行编程。标签类别包括热词、地域词、桥接词,当数组arrs_a中分词的类别为热词时,在后续的拼接处理时选择拼接,当数组arrs_a中分词的类别为地域词时,在后续的拼接处理时选择不拼接并找到下一个分词进行拼接,当数组arrs_a中分词的类别为桥接词时,在后续的拼接处理时找到下一个分词进行拼接。标签类别还可以包括后缀词、特征词等标签类型。为便于更直观的理解,对各个标签类别进行举例说明:
地域词:如“厦门”,“厦门市”,“福建”,“福建省”等。
热词:如“冷冻食品”,“机电厂”,“建筑设计院”,“家具制造”,“有限公司”,“股份有限公司”等,其中热词又包含但不仅限于(可扩展):地域词,后缀词,特征词,桥接词等。
地域+热词:如“安居”,“六合”,“东海”,“乐业”,“龙游”,“北辰”,等即是地域词,又属于企业核心热词的双重属性的词。
后缀词:如“公司”,“有限公司”,“门市部”,“责任有限公司”等。
特征词:如“信息”,“系统”,“生物”,“科技”等。
桥接词:如“方中”,“中资”,“房地”等。
S2、对用户输入的企业名称进行中文分词处理,输出分词结果。
S3、声明新的数组arrs_a,遍历所述分词结果,若遍历过程中分词结果中的某个分词匹配到所述基础热词库中的热词,则将该分词加入到数组arrs_a。
S4、依次根据分词词长、分词位置对数组arrs_a进行排序。针对数组arrs_a中的分词,优先按分词词长进行排序,相同词长的按照分词位置进行排序。
S5、对排序后的数组arrs_a中进行遍历,针对数组arrs_a中的每个分词,依序对企业名称进行替空操作,将得到的最终词作为企业名称关键字。
S6、设定关键字长度阈值,判断所述步骤S5中得到的企业名称关键字长度是否达到关键字长度阈值,若达到,则判定企业名称关键字的提取结果正确,若为达到,则执行步骤S7。在本实施例中,设定关键字长度阈值为2。
S7、针对S5中得到的企业名称关键字与相邻词进行拼接,获得达到关键字长度阈值的企业名称关键字。本步骤通过以下分步骤实现:
S71、依次根据分词位置、分词词长对所述数组arrs_a进行重新排序。针对数组arrs_a中的分词,优先按分词位置进行排序,分词位置相同的,按照分词词长进行排序。
S72、找到步骤S5中得到的企业名称关键字的前、后位置的相邻词,并根据相邻词的标签类型选择是否拼接,拼接后记录拼接结果的词长和位置偏移量。
S73、判断拼接结果的词长是否达到关键字长度阈值,若达到,则停止拼接并认定该拼接结果为正确的企业名称关键字,若未达到,则基于拼接结果的词长和位置偏移量继续向后遍历。
为便于更清楚的理解本发明,针对步骤S2-S7的执行过程,通过具体实例进行详细说明。
实例1
1、步骤S2中,用户输入“厦门市美亚商鼎信息科技有限公司”,分词结果为:
{厦门,厦门市,美亚,亚商,信息科技有限公司,信息,科技有限公司,科技有限,科技,有限公司,有限,公司}
2、步骤S3中,得到的数组arrs_a(即与热词库相匹配的分词)为:
{厦门,厦门市,信息科技有限公司,信息,科技有限公司,科技有限,科技,有限公司,公司}
3、步骤S4中,排序后的数组arrs_a为:
{信息科技有限公司,科技有限公司,有限公司,科技有限,厦门市,公司,科技,信息,厦门}
4、步骤S5中,替空操作过程为:
最终结果为:美亚商鼎。
5、步骤S6中,判定“美亚商鼎”的长度大于2,企业名称关键字的提取结果正确。
实例2
1、用户输入“厦门北辰山川文化传播有限公司”,执行步骤S2-S6,企业名称被全部替空,得到的结果为“”,执行步骤S7。
2、步骤S7的执行过程为:
实例3
1、用户输入“厦门华中资源科技有限公司”,执行步骤S2-S6,企业名称被全部替空,得到的结果为“华”,执行步骤S7。
2、步骤S7的执行过程为:
词的分类繁多,如“形容词”,“动词”,“名词”,“定语”,“状语”,“特征词”,“前缀”,“后缀”等,如果能对所有的热词进行详细的分类,且通过插件思想植入关键词提取逻辑,就不仅仅是应用于提取企业关键词的用户场景,相信可以用到各种类型词汇,短语,全文的关键词提取。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种企业名称关键字提取方法,其特征在于,包括以下步骤:
S1、搭建与企业名称相关的基础热词库;
S2、对用户输入的企业名称进行中文分词处理,输出分词结果;
S3、声明新的数组arrs_a,遍历所述分词结果,若遍历过程中分词结果中的某个分词匹配到所述基础热词库中的热词,则将该分词加入到数组arrs_a;
S4、依次根据分词词长、分词位置对数组arrs_a进行排序;
S5、对排序后的数组arrs_a中进行遍历,针对数组arrs_a中的每个分词,依序对企业名称进行替空操作,将得到的最终词作为企业名称关键字。
2.如权利要求1所述的一种企业名称关键字提取方法,其特征在于,还包括以下步骤:
S6、设定关键字长度阈值,判断所述步骤S5中得到的企业名称关键字长度是否达到关键字长度阈值,若达到,则判定企业名称关键字的提取结果正确,若为达到,则执行步骤S7;
S7、针对S5中得到的企业名称关键字与相邻词进行拼接,获得达到关键字长度阈值的企业名称关键字。
3.如权利要求2所述的一种企业名称关键字提取方法,其特征在于:
所述步骤S1还包括以下步骤:对所述基础热词库中的热词进行打标签处理,用以定义热词的标签类别;
所述步骤S7包括以下分步骤:
S71、依次根据分词位置、分词词长对所述数组arrs_a进行重新排序;
S72、找到步骤S5中得到的企业名称关键字的前、后位置的相邻词,并根据相邻词的标签类型选择是否拼接,拼接后记录拼接结果的词长和位置偏移量;
S73、判断拼接结果的词长是否达到关键字长度阈值,若达到,则停止拼接并认定该拼接结果为正确的企业名称关键字,若未达到,则基于拼接结果的词长和位置偏移量继续向后遍历。
4.如权利要求1所述的一种企业名称关键字提取方法,其特征在于,步骤S1中的搭建与企业名称相关的基础热词库通过以下步骤实现:
S11、预先准备企业名称数据;
S12、对所述企业名称数据进行中文分词处理;
S13、对中文分词处理后获得分词进行词频分析;
S14、设定阈值,剔除出现词频低于阈值的分词,保留出现词频高于阈值的分词并构成所述基础热词库。
5.如权利要求4所述的一种企业名称关键字提取方法,其特征在于:步骤S12中的所述中文分词处理,利用IKAnalyzer分词器、word分词器、Ansj分词器或Stanford分词器进行中文分词处理。
6.如权利要求4所述的一种企业名称关键字提取方法,其特征在于:步骤S13中的所述词频分析,利用传统关系型数据库或搜索引擎框架进行词频分析。
7.如权利要求1所述的一种企业名称关键字提取方法,其特征在于,所述步骤S4具体为:针对数组arrs_a中的分词,优先按分词词长进行排序,相同词长的按照分词位置进行排序。
8.如权利要求1所述的一种企业名称关键字提取方法,其特征在于,所述步骤S71具体为:针对数组arrs_a中的分词,优先按分词位置进行排序,分词位置相同的,按照分词词长进行排序。
9.如权利要求3所述的一种企业名称关键字提取方法,其特征在于:所述标签类别至少包括热词、地域词、桥接词,当数组arrs_a中分词的类别为热词时,在拼接处理时选择拼接,当数组arrs_a中分词的类别为地域词时,在拼接处理时选择不拼接并找到下一个分词进行拼接,当数组arrs_a中分词的类别为桥接词时,在拼接处理时找到下一个分词进行拼接。
10.如权利要求3所述的一种企业名称关键字提取方法,其特征在于:步骤S14中,对于基础热词库中的某些有干扰作用的属于企业关键字的热词,对这些热词进行禁用操作或者额外配置标签类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711088610.1A CN107748745B (zh) | 2017-11-08 | 2017-11-08 | 一种企业名称关键字提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711088610.1A CN107748745B (zh) | 2017-11-08 | 2017-11-08 | 一种企业名称关键字提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107748745A true CN107748745A (zh) | 2018-03-02 |
CN107748745B CN107748745B (zh) | 2021-08-03 |
Family
ID=61252183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711088610.1A Active CN107748745B (zh) | 2017-11-08 | 2017-11-08 | 一种企业名称关键字提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107748745B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110241A (zh) * | 2019-04-30 | 2019-08-09 | 麦格创科技(深圳)有限公司 | 企业知识产权查询方法及相关产品 |
CN110134779A (zh) * | 2019-05-13 | 2019-08-16 | 极智(上海)企业管理咨询有限公司 | 一种企业名称处理的方法 |
CN110704719A (zh) * | 2019-09-29 | 2020-01-17 | 北京金堤科技有限公司 | 企业搜索文本分词方法和装置 |
CN112035621A (zh) * | 2020-09-03 | 2020-12-04 | 江苏经贸职业技术学院 | 一种基于统计学的企业名名称相似度检测方法 |
CN112364635A (zh) * | 2020-11-30 | 2021-02-12 | 中国银行股份有限公司 | 企业名称查重方法及装置 |
CN112732668A (zh) * | 2021-01-21 | 2021-04-30 | 浪潮云信息技术股份公司 | 一种大数据网页存储和分析的方法 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070198511A1 (en) * | 2006-02-23 | 2007-08-23 | Samsung Electronics Co., Ltd. | Method, medium, and system retrieving a media file based on extracted partial keyword |
CN102289523A (zh) * | 2011-09-20 | 2011-12-21 | 北京金和软件股份有限公司 | 一种文本智能提取标签的方法 |
CN102375863A (zh) * | 2010-08-27 | 2012-03-14 | 北京四维图新科技股份有限公司 | 一种地理信息领域的关键字提取的方法及装置 |
US20120239667A1 (en) * | 2011-03-15 | 2012-09-20 | Microsoft Corporation | Keyword extraction from uniform resource locators (urls) |
CN102930022A (zh) * | 2012-10-31 | 2013-02-13 | 中国运载火箭技术研究院 | 面向用户的信息搜索引擎系统及方法 |
CN103186662A (zh) * | 2012-12-28 | 2013-07-03 | 中联竞成(北京)科技有限公司 | 一种动态舆情关键词抽取系统和方法 |
CN103885937A (zh) * | 2014-04-14 | 2014-06-25 | 焦点科技股份有限公司 | 基于核心词相似度判断企业中文名称重复的方法 |
CN103914544A (zh) * | 2014-04-03 | 2014-07-09 | 浙江大学 | 一种基于地址特征词的多层次快速中文地址匹配方法 |
KR101422397B1 (ko) * | 2013-03-04 | 2014-07-29 | 유형주 | 일러스트 이미지 검색 및 사용권 중개 시스템 및 그 구동방법 |
CN104408191A (zh) * | 2014-12-15 | 2015-03-11 | 北京国双科技有限公司 | 关键词的关联关键词的获取方法和装置 |
CN104424177A (zh) * | 2013-08-26 | 2015-03-18 | 高德软件有限公司 | 一种抽取核心词的方法及装置 |
CN104461507A (zh) * | 2014-11-10 | 2015-03-25 | 吴涛军 | 信息片段的组织、呈现、用户响应以及多信息片段协同 |
CN105320645A (zh) * | 2015-09-24 | 2016-02-10 | 天津海量信息技术有限公司 | 中文企业名称的识别方法 |
CN105975555A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的企业简称提取方法 |
CN106547895A (zh) * | 2016-11-03 | 2017-03-29 | 北京锐安科技有限公司 | 一种网页信息的提取方法及装置 |
CN106708814A (zh) * | 2015-07-16 | 2017-05-24 | 威海捷讯通信技术有限公司 | 一种基于关系型数据库的检索方法及装置 |
CN106980667A (zh) * | 2017-03-22 | 2017-07-25 | 广州优视网络科技有限公司 | 一种给文章标注标签的方法和装置 |
CN107122432A (zh) * | 2017-04-18 | 2017-09-01 | 广东数相智能科技有限公司 | 企业社会责任分析方法、装置和系统 |
-
2017
- 2017-11-08 CN CN201711088610.1A patent/CN107748745B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070198511A1 (en) * | 2006-02-23 | 2007-08-23 | Samsung Electronics Co., Ltd. | Method, medium, and system retrieving a media file based on extracted partial keyword |
CN102375863A (zh) * | 2010-08-27 | 2012-03-14 | 北京四维图新科技股份有限公司 | 一种地理信息领域的关键字提取的方法及装置 |
US20120239667A1 (en) * | 2011-03-15 | 2012-09-20 | Microsoft Corporation | Keyword extraction from uniform resource locators (urls) |
CN102289523A (zh) * | 2011-09-20 | 2011-12-21 | 北京金和软件股份有限公司 | 一种文本智能提取标签的方法 |
CN102930022A (zh) * | 2012-10-31 | 2013-02-13 | 中国运载火箭技术研究院 | 面向用户的信息搜索引擎系统及方法 |
CN103186662A (zh) * | 2012-12-28 | 2013-07-03 | 中联竞成(北京)科技有限公司 | 一种动态舆情关键词抽取系统和方法 |
KR101422397B1 (ko) * | 2013-03-04 | 2014-07-29 | 유형주 | 일러스트 이미지 검색 및 사용권 중개 시스템 및 그 구동방법 |
CN104424177A (zh) * | 2013-08-26 | 2015-03-18 | 高德软件有限公司 | 一种抽取核心词的方法及装置 |
CN103914544A (zh) * | 2014-04-03 | 2014-07-09 | 浙江大学 | 一种基于地址特征词的多层次快速中文地址匹配方法 |
CN103885937A (zh) * | 2014-04-14 | 2014-06-25 | 焦点科技股份有限公司 | 基于核心词相似度判断企业中文名称重复的方法 |
CN104461507A (zh) * | 2014-11-10 | 2015-03-25 | 吴涛军 | 信息片段的组织、呈现、用户响应以及多信息片段协同 |
CN104408191A (zh) * | 2014-12-15 | 2015-03-11 | 北京国双科技有限公司 | 关键词的关联关键词的获取方法和装置 |
CN106708814A (zh) * | 2015-07-16 | 2017-05-24 | 威海捷讯通信技术有限公司 | 一种基于关系型数据库的检索方法及装置 |
CN105320645A (zh) * | 2015-09-24 | 2016-02-10 | 天津海量信息技术有限公司 | 中文企业名称的识别方法 |
CN105975555A (zh) * | 2016-05-03 | 2016-09-28 | 成都数联铭品科技有限公司 | 一种基于双向递归神经网络的企业简称提取方法 |
CN106547895A (zh) * | 2016-11-03 | 2017-03-29 | 北京锐安科技有限公司 | 一种网页信息的提取方法及装置 |
CN106980667A (zh) * | 2017-03-22 | 2017-07-25 | 广州优视网络科技有限公司 | 一种给文章标注标签的方法和装置 |
CN107122432A (zh) * | 2017-04-18 | 2017-09-01 | 广东数相智能科技有限公司 | 企业社会责任分析方法、装置和系统 |
Non-Patent Citations (9)
Title |
---|
CHITICARIU LAURA 等: "Enterprise information extraction: recent developments and open challenges", 《PROCEEDINGS OF THE 2010 ACM SIGMOD INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA》 * |
FERRET OLIVIER: "Finding document topics for improving topic segmentation", 《MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
JAKKRIT TECHO 等: "A corpus-based approach for keyword identification using supervised learning techniques", 《2008 5TH INTERNATIONAL CONFERENCE ON ELECTRICAL ENGINEERING/ELECTRONICS, COMPUTER, TELECOMMUNICATIONS AND INFORMATION TECHNOLOGY》 * |
刘利俊: "一种关键字过滤系统下的DFA分词算法设计与优化", 《计算机应用与软件》 * |
刘芳芳 等: "一种引入动态词库更新的中文分词架构", 《计算机系统应用》 * |
孙雷: "基于关键词的试卷检索系统设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
李剑风: "融合外部知识的中文命名实体识别研究及其医疗领域应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
王崤: "商品关键属性抽取系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
邵良杉 等: "企业核心竞争力的Web挖掘", 《辽宁工程技术大学学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110241A (zh) * | 2019-04-30 | 2019-08-09 | 麦格创科技(深圳)有限公司 | 企业知识产权查询方法及相关产品 |
CN110134779A (zh) * | 2019-05-13 | 2019-08-16 | 极智(上海)企业管理咨询有限公司 | 一种企业名称处理的方法 |
CN110704719A (zh) * | 2019-09-29 | 2020-01-17 | 北京金堤科技有限公司 | 企业搜索文本分词方法和装置 |
CN110704719B (zh) * | 2019-09-29 | 2022-03-08 | 北京金堤科技有限公司 | 企业搜索文本分词方法和装置 |
CN112035621A (zh) * | 2020-09-03 | 2020-12-04 | 江苏经贸职业技术学院 | 一种基于统计学的企业名名称相似度检测方法 |
CN112364635A (zh) * | 2020-11-30 | 2021-02-12 | 中国银行股份有限公司 | 企业名称查重方法及装置 |
CN112364635B (zh) * | 2020-11-30 | 2023-11-21 | 中国银行股份有限公司 | 企业名称查重方法及装置 |
CN112732668A (zh) * | 2021-01-21 | 2021-04-30 | 浪潮云信息技术股份公司 | 一种大数据网页存储和分析的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107748745B (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107748745A (zh) | 一种企业名称关键字提取方法 | |
CN103491205B (zh) | 一种基于视频搜索的关联资源地址的推送方法和装置 | |
CN104504150B (zh) | 新闻舆情监测系统 | |
Mittelman | Global Bricolage: emerging market powers and polycentric governance | |
CN104035975B (zh) | 一种利用中文在线资源实现远程监督人物关系抽取的方法 | |
CN101404036B (zh) | PowerPoint电子演示文稿的关键词抽取方法 | |
CN108959242A (zh) | 一种基于中文字符词性特征的目标实体识别方法及装置 | |
CN105930316A (zh) | 专利撰写辅助系统及其辅助方法 | |
CN103886067A (zh) | 使用标签隐含主题进行图书推荐的方法 | |
CN109815383A (zh) | 基于lstm的微博谣言检测及其资源库构建方法 | |
CN102122280A (zh) | 一种智能提取内容对象的方法及系统 | |
CN108170678A (zh) | 一种文本实体抽取方法与系统 | |
WO2014000130A1 (en) | Method or system for automated extraction of hyper-local events from one or more web pages | |
CN107329770A (zh) | 针对软件安全性bug修复的个性化推荐方法 | |
Xu et al. | Different data, different modalities! reinforced data splitting for effective multimodal information extraction from social media posts | |
CN109408726A (zh) | 问答网站中问题回答者推荐方法 | |
CN102479230A (zh) | 提取地理特征词的方法和装置 | |
CN103823868B (zh) | 一种面向在线百科的事件识别方法和事件关系抽取方法 | |
CN107145591A (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
John et al. | A visual approach for the comparative analysis of character networks in narrative texts | |
CN104156458B (zh) | 一种信息的提取方法及装置 | |
CN104133913A (zh) | 一种基于视频分析与搜索聚合的城市商铺信息库自动构建系统及方法 | |
Chion-Kenney | Search Consultants: Boon or Bane to Non-Traditional Candidates for the Superintendency?. | |
CN102682107A (zh) | 基于知网节形式的学术知识表现方法 | |
Wenan et al. | analysis and evaluation of TripAdvisor data: a case of Pokhara, Nepal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220408 Address after: 361000 unit 302, No. 16-2, guanri Road, phase II, software park, Xiamen, Fujian Patentee after: China Inspection Meiya (Xiamen) Technology Co.,Ltd. Address before: 361000 unit 0140, No. 366, Chengyi street, phase III, software park, Xiamen, Fujian Patentee before: XIAMEN MEIYA SHANGDING INFORMATION TECHNOLOGY CO.,LTD. |