CN108460016A - 一种实体名称分析识别方法 - Google Patents

一种实体名称分析识别方法 Download PDF

Info

Publication number
CN108460016A
CN108460016A CN201810136345.8A CN201810136345A CN108460016A CN 108460016 A CN108460016 A CN 108460016A CN 201810136345 A CN201810136345 A CN 201810136345A CN 108460016 A CN108460016 A CN 108460016A
Authority
CN
China
Prior art keywords
entity
word
candidate word
full name
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810136345.8A
Other languages
English (en)
Inventor
陈刚
何积丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Open Source Cloud Data Technology (shanghai) Co Ltd
Original Assignee
Open Source Cloud Data Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Open Source Cloud Data Technology (shanghai) Co Ltd filed Critical Open Source Cloud Data Technology (shanghai) Co Ltd
Priority to CN201810136345.8A priority Critical patent/CN108460016A/zh
Publication of CN108460016A publication Critical patent/CN108460016A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

本发明公开了一种实体名称分析识别方法,包括以下步骤,检索词获取步骤、数据库生成步骤、实体全称候选词集生成步骤、实体全称候选词筛选步骤、实体简称候选词集生成步骤、实体简称候选词筛选步骤。

Description

一种实体名称分析识别方法
技术领域
[0001] 本发明涉及自然语言处理等领域,具体为一种实体名称分析识别方法。
背景技术
[0002] 随着互联网的快速发展,产生了大量的、公开的网页数据,也因此催发了各种基于 大数据技术的新兴产业,比如互联网医疗、互联网教育、企业或者个人征信等。怎样从这些 大数据中有效的、快速的提取所需的数据是检索人员需要掌握的,同时也是数据开发这需 要不断完善的,在实体名称检索中,除了常见的按照“省市+关键字+行业+组织形式”的规则 来命名之外,还存在大量的例外,比如公司名没有使用省市作为开头,又或者在非正式文本 里,公司名可能以简写、缩写的方式出现,这直接导致了使用传统的方式来进行的信息解析 的召回率不高。
[0003] 现有的技术方案中,虽然也出现了许多通过双向递归神经网络来解决该问题的方 法,但方法较复杂。
发明内容
[0004] 本发明的目的是:提供一种实体名称分析识别方法,以解决现有技术中至少一技 术问题。
[0005] 实现上述目的的技术方案是:一种实体名称分析识别方法,包括以下步骤,检索词 获取步骤,获取输入的实体相关的检索词;数据库生成步骤,根据所述检索词分别生成对应 的实体基本信息库和实体舆情信息库;实体全称候选词集生成步骤,定义实体全称的特征 词,根据该特征词在实体基本信息库中检索特征词,并对检索到的特征词分析,生成实体全 称候选词;实体全称候选词筛选步骤,在实体全称候选词集中,根据自定义特征筛选出有效 的实体全称;实体简称候选词集生成步骤,对有效的实体全称进行排列组合,生成实体简称 候选词集;实体简称候选词筛选步骤,在实体舆情信息库中检索实体简称候选词集中的每 一实体简称候选词,根据检索到的结果进行分析,得到有效的实体简称。
[0006] 在本发明一较佳实施例中,所述数据库生成步骤包括实体基本信息库生成步骤, 根据与实体相关的检索词搜索与该检索词相关的实体基本信息,建立唯一的实体信息集 合,并生成实体基本信息库;以及实体舆情信息库生成步骤,根据与实体相关的检索词搜索 与该检索词相关的实体舆情信息,建立唯一的实体舆情信息集合,并生成实体舆情信息库。
[0007] 在本发明一较佳实施例中,所述实体舆情信息库生成步骤包括,利用分词方法、基 于停用词库TF-IDF的降维方法及文献相似度计算方法,对实体舆情信息进行筛选,去除重 复的实体舆情信息。
[0008] 在本发明一较佳实施例中,在所述实体全称候选词集生成步骤中,所述特征词为 边界词,包括开头词和结尾词,根据边界词在所述实体基本信息库中找出对应的边界词,将 开头词、结尾词以及开头次与结尾词之间的词作为实体全称候选词,并生成实体全称候选 词集。
[0009] 在本发明一较佳实施例中,开头词具体设定为国豕名称、省份名称、直辖帀 < 孙次 市名称,结尾词为厂或公司。 _
[0010] 在本发明一较佳实施例中,所述自定义特征包括候选词长度特征、候选词中标点 符号特征,当某一所述实体全称候选词的候选词长度特征满足预设值,且该实体全称候选 词的候选词中无标点符号特征,则该实体全称候选词为有效的实体全称,否则为无效的实 体全称。
[0011] 在本发明一较佳实施例中,所述实体简称候选词集生成步骤包括词组生成步骤, 选取有效的实体全称中的字并按照原有的前后顺序重新排列组合,得到词组集合;词组排 序步骤,对排列后的词组按照词组长短进行排列,并去除重复的词组,得到实体简称候选词 集。
[0012] 在本发明一较佳实施例中,所述实体简称候选词筛选步骤包括词频计算步骤,在 实体舆情信息库中,提取并计算所述实体简称候选词出现的词频;新闻信息条数统计步骤, 统计所述实体舆情信息库中的新闻信息条数;比值计算步骤,计算词频与新闻信息条数的 比值;比值判断步骤,判断该比值是否达到预设值,若是,则将该实体简称候选词作为有效 的实体简称。
[0013] 在本发明一较佳实施例中,所述实体基本信息指有实体全称或实体曾用名或实体 简介或实体描述的信息。
[0014] 在本发明一较佳实施例中,所述实体舆情信息指有关实体的新闻、评论数据。
[0015] 本发明的优点是:本发明的实体名称分析识别方法,基于实体名称相关词汇,利用 全网搜索的方法,获取实体简介,从而利用实体名称边界确定算法,能够有效快速的找出实 体的全称及曾用名。基于全称与简称之间的包含关系,即简称为全称的一部分组成,用简单 快速的全称分解、重组算法实现简称候选词的生成,比现有的多种人工智能算法快速且准 确。利用在网络上爬取的实体舆情信息,对算法识别出的全称及简称候选词进行筛选,充分 利用了大数据信息。
附图说明
[0016] 下面结合附图和实施例对本发明进行进一步解释。
[0017]图1:本发明实施例的实体名称分析识别方法步骤流程图。
[0018]图2:图1中实体简称候选词集生成步骤的具体步骤流程图。
[0019]图3:图1中实体简称候选词筛选步骤的具体步骤流程图。
具体实施方式
[0020]实施例,一种实体名称分析识别方法,包括步骤S1)-步骤S7)。
[0021 ]步骤S1)检索词获取步骤,获取输入的实体相关的检索词,举例说明,假设用户输 入的检索词是“芜湖造船厂”。
[0022]步骤S2)数据库生成步骤,根据所述检索词分别生成对应的实体基本信息库和实 体舆情信息库;在所述数据库生成步骤中,包括实体基本信息库生成步骤,根据与实体相关 的检索词搜索与该检索词相关的实体基本信息,建立唯一的实体信息集合,并生成实体基 本信息库;以及实体舆情信息库生成步骤,根据与实体相关的检索词搜索与该检索词相关 的实体舆情信息,建立唯一的实体舆情信息集合,并生成实体舆情信息库。所述实体基本信 息是指有实体全称或实体曾用名或实体简介或实体描述的信息。所述实体舆情信息是指有 关实体的新闻、评论数据。在所述实体舆情信息库生成步骤中包括基于检索词搜索及爬取 实体舆情信息后,利用分词方法、基于停用词库TFIDF的降维方法及文献相似度计算方法, 对实体舆情信息进行筛选,去除重复的实体舆情信息。基于停用词库筛选掉一部分词汇:如 “我”、“的”、“了”等对文章无代表性的词汇去掉,同时使用TF-IDF计算方式找出代表性强的 词汇作为计算文献相似度的特征值,相似度计算方式使用的是余弦相似度。如首先从公开 搜索引擎中检索“芜湖造船厂”,获得相关实体简介与企业实体舆情信息,构建企业实体基 本信息库与企业实体舆情信息库,企业实体基本信息库中部分内容如下:“芜湖新联造船有 限公司(原芜湖造船厂)位于中国安徽省芜湖市,是中国船舶出口的骨干企业、国家军用辅 助舰艇的重点生产基地之一。”;企业实体舆情信息库部分内容如下:“新闻标题:芜湖造船 建造安徽省首艘化学品船下水;新闻内容:由芜湖造船厂建造的安徽省第一艘28000吨化学 品/成品油船近日成功下水,百年老厂芜湖造船坚持推进“做大民品、做强军品、做赢非船” 的发展新战略,走多元化、高品质的道路,在竞争激烈的船舶市场中重又焕发生机。”其中需 要对企业舆情信息进行去重,保证企业实体舆情信息库中的信息无冗余数据。引用的去重 算法为基于内容的文本相似度计算方法。
[0023] 步骤S3)实体全称候选词集生成步骤,定义实体全称的特征词,根据该特征词在实 体基本信息库中检索特征词,并对检索到的特征词分析,生成实体全称候选词。所述特征词 为边界词,包括开头词和结尾词,根据边界词在所述实体基本信息库中找出对应的边界词, 将开头词、结尾词和开头次和结尾词之间的词作为实体全称候选词,并生成实体全称候选 词集。所述开头词设定为国家名称、省份名称、直辖市名称及市名称,结尾词为厂或公司。如 以国家名称或省市名称为前边界(芜湖),以〃厂〃和〃公司〃字段作为后边界;从企业实体基 本信息库中,找出“芜湖新联造船有限公司”与“芜湖造船厂”两个词汇。
[0024]步骤S4)实体全称候选词筛选步骤,在实体全称候选词集中,根据自定义特征筛选 出有效的实体全称;所述自定义特征包括候选词长度特征、候选词中标点符号特征,当某一 所述实体全称候选词的候选词长度特征满足预设值,且该实体全称候选词的候选词中无标 点符号特征,则该实体全称候选词为有效的实体全称,否则为无效的实体全称。对上一步中 找出的两个企业全称候选词:“芜湖新联造船有限公司”、“芜湖造船厂”进行特征提取且基 于两个维度进行判断:“芜湖新联造船有限公司”长度为10,有无标点符号:无,属于有效企 业全称;“芜湖造船厂”长度为5,有无标点符号:无,属于有效企业全称。
[0025]步骤S5)实体简称候选词集生成步骤,对有效的实体全称进行排列组合,生成实体 简称候选词集;所述实体简称候选词集生成步骤包括步骤S51)-步骤S52),其中,步骤S51) 词组生成步骤,选取有效的实体全称中的字并按照原有的前后顺序重新排列组合,得到词 组集合;步骤S52)词组排序步骤,对排列后的词组按照词组长短进行排列,并去除重复的词 组,得到实体简称候选词集。根据企业全称,基于全称分解重组算法生成企业简称候选词; “芜湖新联造船有限公司”将产生:’芜湖’、’湖新’、’新联’、’造船’、’有限’、’公司’、’新 造’、’湖造有公’、’造限公’、’造公’、’湖船有’、’宪限司’、’宪造船有司’、’宪湖造船有限公 司’...等候选词。“芜湖造船厂”将产生:’芜湖’、’造船’、’湖造’、’湖造厂’、’湖造船’、’造 船厂等候选词。之后对重新组合的公司列表从长到短的顺序排列并去重。最终企业实 体简称候选词为:’芜湖新联造船有限公司’,’芜湖造船厂’,’湖造船厂’,’芜湖船厂’, ’芜湖造船’,’造船厂’,’湖造厂’,’湖造船’,’芜造厂’,’芜湖厂’,’芜湖造’,’船 厂’,’造船’,’湖船’湖造’,’芜船’,’芜湖’,‘有限公司’,‘公司’,‘有限’…等候选 0
[0026]步骤S6)实体简称候选词筛选步骤,在实体舆情信息库中检索实体简称候选词集 中的每一实体简称候选词,根据检索到的结果进行分析,得到有效的实体简称;所述实体简 称候选词筛选步骤中包括步骤S61)-步骤S6);其中,步骤S61)词频计算步骤,在实体舆情信 息库中,提取并计算所述实体简称候选词出现的词频;步骤S62)新闻信息条数统计步骤,统 计所述实体舆情信息库中的新闻信息条数;步骤S63)比值计算步骤,计算词频与新闻信息 条数的比值;步骤se4)比值判断步骤,判断该比值是否达到预设值,若是,则进入步骤S65) 将该实体简称候选词作为有效的实体简称。如从企业实体简称候选词:’芜湖新联造船有限 公司’,’芜湖造船厂’,’湖造船厂’,’芜湖船厂’,’芜湖造船’,’造船厂’,’湖造厂’, ’湖造船’,’芜造厂’,’芜湖厂’,’芜湖造’,’船厂’,’造船’,’湖船’,’湖造’,’芜 船’,’芜湖’,‘有限公司’,‘公司’,‘有限’…等候选词中,先基于停用词库筛选掉一部分词 汇:如“有限公司”、“公司”、“芜湖”等省市名称,得到过滤后的企业实体简称候选词’芜湖新 联造船有限公司’,’芜湖造船厂’,’湖造船厂’,’芜湖船厂’,’芜湖造船’,’造船厂’, ’湖造厂’,’湖造船’,’芜造厂’,’芜湖厂’,’芜湖造’,’船厂’,’造船’,’湖船’,’湖 造’,’完船’,有限’…等候选词。提取该公司的所有新闻,计算每个名字在该公司新闻中 出现的词频-TF,之后再计算所有公司新闻总数中含有该公司名字的新闻条数,g卩IDF。最后 通过TF-IDF公式计算得到相应的值,得到排名前几的值,作为该公司别名。候选词及词频 (TF):(’芜湖造船厂’,15),(’芜湖’,10),(’造船’,2),(’船厂’,2),(’芜湖新联 造船有限公司’,2),(’造船厂’,1),(’湖造’,〇),(’湖造厂’,〇),(’芜造厂’,〇), (’芜湖造’,0),(’芜湖船厂’,0),(’芜船’,0),(’湖造船’,〇),(’湖造船厂’,〇), (’湖船’,〇),(’芜湖造船’,0),(’芜湖厂’,0)]。通过TF-IDF公式计算得到以下候选词 及它的tf_idf值:(’芜湖造船厂’,80.927123267753657),(’芜湖新联造船有限公司’, 10.790283102367153),(,芜湖造船’,9.1254272255),(’船厂,,2.5360143322769702), (’造船厂’,1.9939441695214213),(’造船’,1.9687310064474182),(’湖造,,0•0), (’芜湖船厂’,〇•〇),(’湖造船’,0•0),(’湖造船厂’,0•0),(’湖船’,〇.〇), 从中选择前面三个TF-IDF值较高的三个简称:芜湖造船厂,、’芜湖新联造船有限公 司’、’芜湖造船’。
[0027]步骤S7)实体全称和实体简称输出步骤,输出实体全称和对应的实体简称的表列。 [0028]以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和 原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围。

Claims (10)

1. 一种实体名称分析识别方法,其特征在于,包括以下步骤, 检索词获取步骤,获取输入的实体相关的检索词; 数据库生成步骤,根据所述检索词分别生成对应的实体基本信息库和实体舆情信息 库; 实体全称候选词集生成步骤,定义实体全称的特征词,根据该特征词在实体基本信息 库中检索特征词,并对检索到的特征词分析,生成实体全称候选词; 实体全称候选词筛选步骤,在实体全称候选词集中,根据自定义特征筛选出有效的实 体全称;实体简称候选词集生成步骤,对有效的实体全称进行排列组合,生成实体简称候选 词集; 实体简称候选词筛选步骤,在实体舆情信息库中检索实体简称候选词集中的每一实体 简称候选词,根据检索到的结果进行分析,得到有效的实体简称。
2. 根据权利要求1所述的实体名称分析识别方法,其特征在于,所述数据库生成步骤包 括 实体基本信息库生成步骤,根据与实体相关的检索词搜索与该检索词相关的实体基本 信息,建立唯一的实体信息集合,并生成实体基本信息库;以及 实体舆情信息库生成步骤,根据与实体相关的检索词搜索与该检索词相关的实体舆情 信息,建立唯一的实体舆情信息集合,并生成实体舆情信息库。
3. 根据权利要求2所述的实体名称分析识别方法,其特征在于,所述实体舆情信息库生 成步骤包括,利用分词方法、基于停用词库TF-IDF的降维方法及文献相似度计算方法,对实 体舆情信息进行筛选,去除重复的实体舆情信息。
4. 根据权利要求1所述的实体名称分析识别方法,其特征在于,在所述实体全称候选词 集生成步骤中,所述特征词为边界词,包括开头词和结尾词,根据边界词在所述实体基本信 息库中找出对应的边界词,将开头词、结尾词以及开头次与结尾词之间的词作为实体全称 候选词,并生成实体全称候选词集。
5. 根据权利要求4所述的实体名称分析识别方法,其特征在于,开头词具体设定为国家 名称、省份名称、直辖市名称及市名称,结尾词为厂或公司。
6. 根据权利要求1所述的实体名称分析识别方法,其特征在于,所述自定义特征包括候 选词长度特征、候选词中标点符号特征,当某一所述实体全称候选词的候选词长度特征满 足预设值,且该实体全称候选词的候选词中无标点符号特征,则该实体全称候选词为有效 的实体全称,否则为无效的实体全称。
7. 根据权利要求1所述的实体名称分析识别方法,其特征在于,所述实体简称候选词集 生成步骤包括词组生成步骤,选取有效的实体全称中的字并按照原有的前后顺序重新排列 组合,得到词组集合; 词组排序步骤,对排列后的词组按照词组长短进行排列,并去除重复的词组,得到实体 简称候选词集。
8. 根据权利要求1所述的实体名称分析识别方法,其特征在于,所述实体简称候选词筛 选步骤包括 词频计算步骤,在实体舆情信息库中,提取并计算所述实体简称候选词出现的词频; 新闻信息条数统计步骤,统计所述实体舆情信息库中的新闻信息条数; 比值计算步骤,计算词频与新闻信息条数的比值; 、、_ 、 ^ 比值判断步骤,判断该比值是否达到预设值,若是,则将该实体简称候选词作为有效的 实体简称。 > ^1
9. 根据权利要求2所述的实体名称分析识别方法,其特征在于,所述头体基本彳曰息指有 实体全称或实体曾用名或实体简介或实体描述的信息。
10. 根据权利要求2所述的实体名称分析识别方法,其特征在于,所述实体舆情信息指 有关实体的新闻、评论数据。
CN201810136345.8A 2018-02-09 2018-02-09 一种实体名称分析识别方法 Pending CN108460016A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810136345.8A CN108460016A (zh) 2018-02-09 2018-02-09 一种实体名称分析识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810136345.8A CN108460016A (zh) 2018-02-09 2018-02-09 一种实体名称分析识别方法

Publications (1)

Publication Number Publication Date
CN108460016A true CN108460016A (zh) 2018-08-28

Family

ID=63239925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810136345.8A Pending CN108460016A (zh) 2018-02-09 2018-02-09 一种实体名称分析识别方法

Country Status (1)

Country Link
CN (1) CN108460016A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021159757A1 (zh) * 2020-09-09 2021-08-19 平安科技(深圳)有限公司 基于模型的缩写数据的实体识别方法、装置和计算机设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118538A (zh) * 2007-09-17 2008-02-06 中国科学院计算技术研究所 中文命名实体中特征词项的识别方法和系统
US20080310718A1 (en) * 2007-06-18 2008-12-18 International Business Machines Corporation Information Extraction in a Natural Language Understanding System
CN102955818A (zh) * 2011-08-31 2013-03-06 镇江诺尼基智能技术有限公司 一种从Web网页中获取汉语全称的方法
CN105320645A (zh) * 2015-09-24 2016-02-10 天津海量信息技术有限公司 中文企业名称的识别方法
CN105354199A (zh) * 2014-08-20 2016-02-24 北京羽扇智信息科技有限公司 一种基于场景信息的实体含义识别方法和系统
CN105975491A (zh) * 2016-04-26 2016-09-28 重庆誉存企业信用管理有限公司 企业新闻分析方法及系统
CN106156181A (zh) * 2015-04-20 2016-11-23 华为技术有限公司 一种别名获取方法及装置
CN106777080A (zh) * 2016-12-13 2017-05-31 竹间智能科技(上海)有限公司 短摘要生成方法、数据库建立方法及人机对话方法
CN106991085A (zh) * 2017-04-01 2017-07-28 中国工商银行股份有限公司 一种实体的简称生成方法及装置
CN107066589A (zh) * 2017-04-17 2017-08-18 河南工业大学 一种基于综合知识的实体语义和词频的排序方法及装置
CN107423285A (zh) * 2017-06-23 2017-12-01 广州市万隆证券咨询顾问有限公司 一种基于文本规则的公司简称识别方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080310718A1 (en) * 2007-06-18 2008-12-18 International Business Machines Corporation Information Extraction in a Natural Language Understanding System
CN101118538A (zh) * 2007-09-17 2008-02-06 中国科学院计算技术研究所 中文命名实体中特征词项的识别方法和系统
CN102955818A (zh) * 2011-08-31 2013-03-06 镇江诺尼基智能技术有限公司 一种从Web网页中获取汉语全称的方法
CN105354199A (zh) * 2014-08-20 2016-02-24 北京羽扇智信息科技有限公司 一种基于场景信息的实体含义识别方法和系统
CN106156181A (zh) * 2015-04-20 2016-11-23 华为技术有限公司 一种别名获取方法及装置
CN105320645A (zh) * 2015-09-24 2016-02-10 天津海量信息技术有限公司 中文企业名称的识别方法
CN105975491A (zh) * 2016-04-26 2016-09-28 重庆誉存企业信用管理有限公司 企业新闻分析方法及系统
CN106777080A (zh) * 2016-12-13 2017-05-31 竹间智能科技(上海)有限公司 短摘要生成方法、数据库建立方法及人机对话方法
CN106991085A (zh) * 2017-04-01 2017-07-28 中国工商银行股份有限公司 一种实体的简称生成方法及装置
CN107066589A (zh) * 2017-04-17 2017-08-18 河南工业大学 一种基于综合知识的实体语义和词频的排序方法及装置
CN107423285A (zh) * 2017-06-23 2017-12-01 广州市万隆证券咨询顾问有限公司 一种基于文本规则的公司简称识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周文渊: "相关实体查找与主页查找研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021159757A1 (zh) * 2020-09-09 2021-08-19 平安科技(深圳)有限公司 基于模型的缩写数据的实体识别方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN108763333B (zh) 一种基于社会媒体的事件图谱构建方法
Alzahrani et al. Fuzzy semantic-based string similarity for extrinsic plagiarism detection
CN103218444B (zh) 基于语义的藏文网页文本分类方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN106202211A (zh) 一种基于微博类型的集成微博谣言识别方法
Naseem et al. Hybrid words representation for airlines sentiment analysis
CN104281653A (zh) 一种针对千万级规模微博文本的观点挖掘方法
CN105912524B (zh) 基于低秩矩阵分解的文章话题关键词提取方法和装置
CN106776574B (zh) 用户评论文本挖掘方法及装置
CN105808711A (zh) 一种基于文本语义的概念生成模型的系统和方法
Odeh et al. Arabic text categorization algorithm using vector evaluation method
Alghamdi et al. Topic detections in Arabic dark websites using improved vector space model
Tian et al. Research of product ranking technology based on opinion mining
Fan et al. Neural feedback text clustering with BiLSTM-CNN-Kmeans
Kaibi et al. A comparative evaluation of word embeddings techniques for twitter sentiment analysis
Huang et al. Contribution of improved character embedding and latent posting styles to authorship attribution of short texts
CN108460016A (zh) 一种实体名称分析识别方法
Campbell et al. Content+ context networks for user classification in twitter
Yang et al. Exploring word similarity to improve chinese personal name disambiguation
Brahmi et al. An arabic lemma-based stemmer for latent topic modeling.
Yang et al. A hot topic detection approach on Chinese microblogging
CN110222198A (zh) 有色金属行业知识图谱构建方法、电子装置及存储介质
Bhattacharjee et al. Survey and gap analysis of word sense disambiguation approaches on unstructured texts
Sanabila et al. Automatic Wayang Ontology Construction using Relation Extraction from Free Text
Tohti et al. Word2vec and dictionary based approach for uyghur text filtering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination