CN104933152B - 命名实体识别方法及装置 - Google Patents

命名实体识别方法及装置 Download PDF

Info

Publication number
CN104933152B
CN104933152B CN201510355113.8A CN201510355113A CN104933152B CN 104933152 B CN104933152 B CN 104933152B CN 201510355113 A CN201510355113 A CN 201510355113A CN 104933152 B CN104933152 B CN 104933152B
Authority
CN
China
Prior art keywords
entity
name entity
name
custom dictionaries
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510355113.8A
Other languages
English (en)
Other versions
CN104933152A (zh
Inventor
石东旭
姜文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201510355113.8A priority Critical patent/CN104933152B/zh
Publication of CN104933152A publication Critical patent/CN104933152A/zh
Application granted granted Critical
Publication of CN104933152B publication Critical patent/CN104933152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种命名实体识别方法及装置,能够实现对输入不完整信息进行命名实体识别。其中,该命名实体识别方法包括:利用命名实体识别模型对用户输入语料进行识别,得到多个初步识别命名实体;将多个初步识别命名实体组成查询词条在商品数据库中进行搜索,得到多个候选完整命名实体;分别计算多个候选完整命名实体与用户输入语料的相似度;选择相似度最高的候选完整命名实体作为最终识别命名实体,输出最终识别命名实体。

Description

命名实体识别方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种命名实体识别方法及装置。
背景技术
自然语言处理和机器学习是人工智能的一个重要方向,而命名实体识别(NameEntity Recognition,NER)是这些研究中重要且不可缺少的一步。在语言文本中,命名实体是信息的主要载体,用来表达文本的主要内容,同时命名实体识别也是文本处理的一个前提工作,识别的质量直接影响到后续的工作,因此命名实体识别是信息处理的前提和重要任务。
现有人机对话系统中,用户输入的问题中包含的信息可能并不完整,某些情况下只是简单的输入商品的简称,而系统需要识别出一个完整的命名实体信息,以便于能够更精准的对信息进行后续处理。现有技术尚不能满足这种情况下的实体识别的需求。
发明内容
有鉴于此,本发明提供一种命名实体识别方法及装置,能够实现对输入不完整信息进行命名实体识别。
为实现上述目的,根据本发明的一个方面,提供了一种命名实体识别方法,包括:利用命名实体识别模型对用户输入语料进行识别,得到多个初步识别命名实体;将所述多个初步识别命名实体组成查询词条在商品数据库中进行搜索,得到多个候选完整命名实体;分别计算所述多个候选完整命名实体与所述用户输入语料的相似度;选择所述相似度最高的所述候选完整命名实体作为最终识别命名实体,输出所述最终识别命名实体。
可选地,所述命名实体识别模型为隐马尔科夫模型、最大熵模型或条件随机场模型。
可选地,所述命名实体识别模型为条件随机场模型;所述利用命名实体识别模型对用户输入语料进行识别,得到多个初步识别命名实体的步骤之前还包括:建立至少一个自定义词典;从预先获得的语料中抽取训练文本串;参照所述至少一个自定义词典对所述训练文本串进行ansj分词,得到分词集合;对所述分词集合中的词进行词性标注和序列标注;将标注后的所述分词集合作为训练数据,使用CRF工具包进行训练从而得到所述命名实体识别模型。
可选地,所述至少一个自定义词典为商品分类自定义词典、商品品牌自定义词典、商品属性信息自定义词典中的至少之一。
为实现上述目的,根据本发明的另一个方面,提供了一种命名实体识别装置,包括:初步识别模块,用于利用命名实体识别模型对用户输入语料进行识别,得到多个初步识别命名实体;搜索模块,用于将所述多个初步识别命名实体组成查询词条在商品数据库中进行搜索,得到多个候选完整命名实体;相似度计算模块,用于分别计算所述多个候选完整命名实体与所述用户输入语料的相似度;选择输出模块,用于选择所述相似度最高的所述候选完整命名实体作为最终识别命名实体,输出所述最终识别命名实体。
可选地,所述命名实体识别模型为隐马尔科夫模型、最大熵模型或条件随机场模型。
可选地,所述命名实体识别模型为条件随机场模型;所述命名实体识别装置还包括模型训练模块,所述模型训练模块用于:建立至少一个自定义词典;从预先获得的语料中抽取训练文本串;参照所述至少一个自定义词典对所述训练文本串进行ansj分词,得到分词集合;对所述分词集合中的词进行词性标注和序列标注;将标注后的所述分词集合作为训练数据,使用CRF工具包进行训练从而得到所述命名实体识别模型。
可选地,所述至少一个自定义词典为商品分类自定义词典、商品品牌自定义词典、商品属性信息自定义词典中的至少之一。
根据本发明的技术方案,采用了实体识别模型和搜索引擎相结合的策略,在模型初步识别出的实体信息的基础上搜索出更完整的候选的实体信息,并根据相似度选择最相似度的完整实体信息输出,从而实现了对输入不完整信息进行命名实体识别,提高了命名实体识别信息的完整度,为系统后续的自然语言处理提供了更精准的基础。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的命名实体识别方法的主要步骤示意图;
图2是根据本发明实施例的命名实体识别装置的主要部件示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的命名实体识别方法的主要步骤示意图。如图1所示,该方法主要包括以下的步骤A至步骤D。
步骤A:利用命名实体识别模型对用户输入语料进行识别,得到多个初步识别命名实体。
步骤B:将多个初步识别命名实体组成查询词条在商品数据库中进行搜索,得到多个候选完整命名实体。需要说明的是,商品数据库中预先存储有大量的完整的命名实体词条。
步骤C:分别计算多个候选完整命名实体与用户输入语料的相似度。
步骤D:选择相似度最高的候选完整命名实体作为最终识别命名实体,输出最终识别命名实体。
根据上述实施例的命名实体识别方法,采用了实体识别模型和搜索引擎相结合的策略,在模型初步识别出的实体信息的基础上搜索出更完整的候选的实体信息,并根据相似度选择最相似度的完整实体信息输出,从而实现了对输入不完整信息进行命名实体识别,提高了命名实体识别信息的完整度,为系统后续的自然语言处理提供了更精准的基础。
在本发明的实施方式中,命名实体识别模型可以为隐马尔科夫模型(HiddenMarkov Model,HMM)、最大熵模型(Maximum Entropy Markov Model,MEMM)或条件随机场模型(Conditional Random Fields,CRF)。这三种模型是最常见的命名实体识别模型,具有技术成熟的优点。下面对这三种模型做简要介绍。
HMM模型是一个有限状态模型,基本思想是首先建立样本的概率密度模型,再利用模型进行推理预测,属于生产式模型。HMM只依赖于每一个状态和它对应的观察对象,为了定义一个观察值和标注值的联合概率,产生式模型必须列出所有可能的观察序列。
MEMM模型是对转移概率和表现概率建立联合概率,统计时统计的是条件概率,但因为MEMM只在局部做归一化,MEMM容易陷入局部最优。MEMM考虑到相邻状态之间依赖关系,且考虑整个观察序列,因此MEMM的表达能力更强。但是MEMM倾向于选择拥有更少转移的状态,容易产生标记偏置(label bias)。
CRF模型中,统计了全局概率,在做归一化时考虑了数据在全局的分布,而不是仅仅在局部归一化,这样就解决了MEMM中的标记偏置的问题。
在本发明的实施方式中,命名实体识别模型为条件随机场模型的情况下,步骤A之前还可以包括训练条件随机场模型的过程。训练条件随机场模型的过程具体包括如下步骤:建立至少一个自定义词典;从预先获得的语料中抽取训练文本串;参照所述至少一个自定义词典对所述训练文本串进行ansj分词,得到分词集合;对所述分词集合中的词进行词性标注和序列标注;将标注后的所述分词集合作为训练数据,使用CRF工具包进行训练从而得到命名实体识别模型。需要说明的是,至少一个自定义词典为商品分类自定义词典、商品品牌自定义词典、商品属性信息自定义词典中的至少之一。该实施方式中,通过引入自定义词典使得词性特征更加丰富,可以提高CRF模型的准确率。以及,通过引入序列标注作为数据特征,同样可以提高CRF模型的准确率。
为使本领域技术人员更好地理解本发明的命名实体识别方法,下面列举一个具体实施例进行说明。
(1)首先通过脚本从电商网站上抓取数据,然后对抓取到的数据进行人工标注词性并建立相应的自定义词典。例如:抓取到“华为”一词,为它标注上“brand(商品品牌)”标签,并加入到brand自定义词典中;抓取到“手机”一词,为它标注上“prodsort(商品分类)”标签,并加入到prodsort自定义词典中;抓取到“大屏幕”一词,为它标注上“property(商品属性)”标签,并加入到property自定义词典中。这些自定义词典可以通过ansj分词工具的UserDefineLibrary.insertWord加载到ansj中。
(2)从预先获得的语料(例如商品相关的聊天日志)中抽取训练文本串。参照自定义词典对训练文本串进行ansj分词,得到分词集合cutwordlist。然后对分词集合中的词进行词性标注和序列标注。假设有一个训练文本串为“我的vivo xplay 32g的手机,手机原装数据线坏了”,分词以及标注的结果如表1所示。
表1训练文本串分词及标注的结果
(3)将大量训练文本串对应的分词和标注结果作为训练数据,使用CRF工具包进行训练,形成基于条件随机场模型的命名实体训练模型,并对该模型进行交叉验证,评估CRF的准确率并进行调整。
(4)假设当前接收到的用户输入语料为“我想买手机,vivo xplay系列的,要内存最大的那款”。利用前面步骤得到的基于条件随机场模型的命名实体训练模型对该用户输入语料进行识别,可以得到三个初步识别命名实体的词为“手机”、“vivo”和“xplay”。
(5)将上面三个初步识别命名实体组成查询词条(searchquery)“手机vivoxplay”,通过搜索引擎在商品数据库中进行搜索,可以得到“vivo xplay手机32G”、“vivoxplay手机16G”、“vivo xplay手机白色”““vivo xplay手机黑色”等等多个候选完整命名实体,这些候选完整命名实体的集合可以存储为商品集合productlist。
(6)遍历商品集合productlist,分别计算多个候选完整命名实体与用户输入语料的相似度。语义相似度的具体算法可以灵活选择,本发明不做限定。
(7)计算后比较发现由于“32G”与“内存最大”语义上最相似,因此将相似度最高的候选完整命名实体“vivo xplay手机32G”作为最终识别命名实体输出,供后续处理。
在实验中,从人机对话系统以往的聊天日志中抽取35000条语句作为训练数据训练模型,然后随机地从上述聊天日志中抽取1500条作为测试数据。经测试,传统基于CRF模型的命名实体识别方法的识别准确率为83.7%,本发明的基于CRF模型加检索策略的命名实体方法的识别准确率为87.6%,在用户输入的实体信息不完整的情况下能返回比CRF模型更加完整的信息,提高了识别的完整度,从而提高了总体的识别准确率。
图2是根据本发明实施例的命名实体识别装置的主要部件示意图。如图2所示,该命名实体识别装置2主要包括:初步识别模块21、搜索模块22、相似度计算模块23和选择输出模块24。初步识别模块21用于利用命名实体识别模型对用户输入语料进行识别,得到多个初步识别命名实体。搜索模块22用于将多个初步识别命名实体组成查询词条在商品数据库中进行搜索,得到多个候选完整命名实体。相似度计算模块23用于分别计算多个候选完整命名实体与用户输入语料的相似度。选择输出模块24用于选择相似度最高的候选完整命名实体作为最终识别命名实体,输出最终识别命名实体。
根据上述实施例的命名实体识别方法,采用了实体识别模型和搜索引擎相结合的策略,在模型初步识别出的实体信息的基础上搜索出更完整的候选的实体信息,并根据相似度选择最相似度的完整实体信息输出,从而实现了对输入不完整信息进行命名实体识别,提高了命名实体识别信息的完整度,为系统后续的自然语言处理提供了更精准的基础。
在本发明的实施方式中,命名实体识别模型可以为隐马尔科夫模型、最大熵模型或条件随机场模型。这三种模型是最常见的命名实体识别模型,具有技术成熟的优点。
在本发明的实施方式中,命名实体识别模型为条件随机场模型的情况下,命名实体识别装置还可以包括模型训练模块(图2中未示出)。该模型训练模块用于训练条件随机场模型,具体过程为:建立至少一个自定义词典;从预先获得的语料中抽取训练文本串;参照至少一个自定义词典对训练文本串进行ansj分词,得到分词集合;对分词集合中的词进行词性标注和序列标注;将标注后的分词集合作为训练数据,使用CRF工具包进行训练从而得到命名实体识别模型。需要说明的是,至少一个自定义词典可以为商品分类自定义词典、商品品牌自定义词典、商品属性信息自定义词典中的至少之一。该实施方式中,通过引入自定义词典使得词性特征更加丰富,可以提高CRF模型的准确率。以及,通过引入序列标注作为数据特征,同样可以提高CRF模型的准确率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (8)

1.一种命名实体识别方法,其特征在于,包括:
利用命名实体识别模型对用户输入语料进行识别,得到多个初步识别命名实体;
将所述多个初步识别命名实体组成查询词条在商品数据库中进行搜索,得到多个候选完整命名实体;
分别计算所述多个候选完整命名实体与所述用户输入语料的相似度;
选择所述相似度最高的所述候选完整命名实体作为最终识别命名实体,输出所述最终识别命名实体;
其中,所述利用命名实体识别模型对用户输入语料进行识别,得到多个初步识别命名实体的步骤之前还包括:
建立至少一个自定义词典;
从预先获得的语料中抽取训练文本串;
参照所述至少一个自定义词典对所述训练文本串进行ansj分词,得到分词集合;
对所述分词集合中的词进行词性标注和序列标注;
将标注后的所述分词集合作为训练数据,使用CRF工具包进行训练从而得到所述命名实体识别模型。
2.根据权利要求1所述的命名实体识别方法,其特征在于,所述命名实体识别模型为隐马尔科夫模型、最大熵模型或条件随机场模型。
3.根据权利要求1所述的命名实体识别方法,其特征在于,所述至少一个自定义词典为商品分类自定义词典、商品品牌自定义词典、商品属性信息自定义词典中的至少之一。
4.一种命名实体识别装置,其特征在于,包括:
初步识别模块,用于利用命名实体识别模型对用户输入语料进行识别,得到多个初步识别命名实体;
搜索模块,用于将所述多个初步识别命名实体组成查询词条在商品数据库中进行搜索,得到多个候选完整命名实体;
相似度计算模块,用于分别计算所述多个候选完整命名实体与所述用户输入语料的相似度;
选择输出模块,用于选择所述相似度最高的所述候选完整命名实体作为最终识别命名实体,输出所述最终识别命名实体;
模型训练模块,用于建立至少一个自定义词典;从预先获得的语料中抽取训练文本串;参照所述至少一个自定义词典对所述训练文本串进行ansj分词,得到分词集合;对所述分词集合中的词进行词性标注和序列标注;将标注后的所述分词集合作为训练数据,使用CRF工具包进行训练从而得到所述命名实体识别模型。
5.根据权利要求4所述的命名实体识别装置,其特征在于,所述命名实体识别模型为隐马尔科夫模型、最大熵模型或条件随机场模型。
6.根据权利要求4所述的命名实体识别装置,其特征在于,所述至少一个自定义词典为商品分类自定义词典、商品品牌自定义词典、商品属性信息自定义词典中的至少之一。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3中任一所述的方法。
8.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-3中任一所述的方法。
CN201510355113.8A 2015-06-24 2015-06-24 命名实体识别方法及装置 Active CN104933152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510355113.8A CN104933152B (zh) 2015-06-24 2015-06-24 命名实体识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510355113.8A CN104933152B (zh) 2015-06-24 2015-06-24 命名实体识别方法及装置

Publications (2)

Publication Number Publication Date
CN104933152A CN104933152A (zh) 2015-09-23
CN104933152B true CN104933152B (zh) 2018-09-14

Family

ID=54120319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510355113.8A Active CN104933152B (zh) 2015-06-24 2015-06-24 命名实体识别方法及装置

Country Status (1)

Country Link
CN (1) CN104933152B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320645B (zh) * 2015-09-24 2019-07-12 天津海量信息技术股份有限公司 中文企业名称的识别方法
CN105550227B (zh) * 2015-12-07 2020-05-22 中国建设银行股份有限公司 一种命名实体识别方法及装置
CN105574089B (zh) * 2015-12-10 2020-08-28 百度在线网络技术(北京)有限公司 知识图谱的生成方法及装置、对象对比方法及装置
CN106202255A (zh) * 2016-06-30 2016-12-07 昆明理工大学 融合实体特性的越南语命名实体识别方法
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106570170A (zh) * 2016-11-09 2017-04-19 武汉泰迪智慧科技有限公司 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统
TWI620134B (zh) * 2016-11-16 2018-04-01 財團法人資訊工業策進會 整合裝置及其整合方法
CN108108344B (zh) * 2016-11-24 2021-07-06 北京智能管家科技有限公司 一种联合识别和连接命名实体的方法及装置
CN106528863B (zh) * 2016-11-29 2019-07-02 中国国防科技信息中心 一种crf识别器的训练及技术及其属性名关系对抽取方法
CN106844587B (zh) * 2017-01-11 2019-11-08 北京光年无限科技有限公司 一种用于对话交互系统的数据处理方法及装置
CN107657949A (zh) * 2017-04-14 2018-02-02 深圳市人马互动科技有限公司 游戏数据的获取方法及装置
CN107330011B (zh) * 2017-06-14 2019-03-26 北京神州泰岳软件股份有限公司 多策略融合的命名实体的识别方法及装置
CN107608959A (zh) * 2017-09-08 2018-01-19 电子科技大学 一种英文社交媒体短文本地名识别方法
US20190095525A1 (en) * 2017-09-27 2019-03-28 International Business Machines Corporation Extraction of expression for natural language processing
US10726198B2 (en) 2017-10-17 2020-07-28 Handycontract, LLC Method, device, and system, for identifying data elements in data structures
US11475209B2 (en) 2017-10-17 2022-10-18 Handycontract Llc Device, system, and method for extracting named entities from sectioned documents
CN108228788A (zh) * 2017-12-29 2018-06-29 长威信息科技发展股份有限公司 办事指南自动提取并关联的方法及电子设备
CN108509419B (zh) * 2018-03-21 2022-02-22 山东中医药大学 中医药古籍文献分词和词性标引方法及系统
CN108595430B (zh) * 2018-04-26 2022-02-22 携程旅游网络技术(上海)有限公司 航变信息提取方法及系统
CN108763205B (zh) * 2018-05-21 2022-05-03 创新先进技术有限公司 一种品牌别名识别方法、装置及电子设备
CN109710924B (zh) * 2018-12-07 2022-04-12 平安科技(深圳)有限公司 文本模型训练方法、文本识别方法、装置、设备及介质
CN109815952A (zh) * 2019-01-24 2019-05-28 珠海市筑巢科技有限公司 品牌名称识别方法、计算机装置及计算机可读存储介质
CN109902298B (zh) * 2019-02-13 2023-04-18 东北师范大学 一种自适应学习系统中领域知识建模及知识水平估测方法
CN110135189A (zh) * 2019-04-28 2019-08-16 上海市第六人民医院 一种面向医疗文本的患者隐私信息脱敏方法
CN111079435B (zh) * 2019-12-09 2021-04-06 深圳追一科技有限公司 命名实体消歧方法、装置、设备及存储介质
CN111666768A (zh) * 2020-06-10 2020-09-15 京东方科技集团股份有限公司 一种中文命名实体的识别方法、识别装置及电子设备
CN111723575A (zh) * 2020-06-12 2020-09-29 杭州未名信科科技有限公司 识别文本的方法、装置、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020230A (zh) * 2012-12-14 2013-04-03 中国科学院声学研究所 一种语义模糊匹配方法
CN104536991A (zh) * 2014-12-10 2015-04-22 乐娟 答案抽取方法及装置
CN104657514A (zh) * 2015-03-24 2015-05-27 成都知数科技有限公司 基于电商用户行为数据的近义词识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101499062B (zh) * 2008-01-29 2012-07-04 国际商业机器公司 用于收集实体别名的方法和设备
US9594831B2 (en) * 2012-06-22 2017-03-14 Microsoft Technology Licensing, Llc Targeted disambiguation of named entities

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020230A (zh) * 2012-12-14 2013-04-03 中国科学院声学研究所 一种语义模糊匹配方法
CN104536991A (zh) * 2014-12-10 2015-04-22 乐娟 答案抽取方法及装置
CN104657514A (zh) * 2015-03-24 2015-05-27 成都知数科技有限公司 基于电商用户行为数据的近义词识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种电子产品领域命名实体识别方法研究;邹涛;《万方学位论文》;20110328;第36-48页 *

Also Published As

Publication number Publication date
CN104933152A (zh) 2015-09-23

Similar Documents

Publication Publication Date Title
CN104933152B (zh) 命名实体识别方法及装置
CN110298033B (zh) 关键词语料标注训练提取系统
CN110968699B (zh) 一种基于事理推荐的逻辑图谱构建及预警方法和装置
CN105869634B (zh) 一种基于领域的带反馈语音识别后文本纠错方法及系统
US11250042B2 (en) Taxonomy enrichment using ensemble classifiers
CN111105209B (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN106095753B (zh) 一种基于信息熵和术语可信度的金融领域术语识别方法
CN111144723A (zh) 人岗匹配推荐方法及系统、存储介质
CN104765769A (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN106708929B (zh) 视频节目的搜索方法和装置
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
CN112270188B (zh) 一种提问式的分析路径推荐方法、系统及存储介质
CN111274371B (zh) 一种基于知识图谱的智能人机对话方法及设备
CN110910175B (zh) 一种旅游门票产品画像生成方法
CN115599902B (zh) 一种基于知识图谱的油气百科问答方法及系统
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
US20220114340A1 (en) System and method for an automatic search and comparison tool
CN112818093A (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN111930953B (zh) 一种文本属性特征的识别、分类及结构分析方法及装置
CN106570196B (zh) 视频节目的搜索方法和装置
Leonandya et al. A semi-supervised algorithm for Indonesian named entity recognition
Katumullage et al. Using neural network models for wine review classification
CN110795942A (zh) 基于语义识别的关键词确定方法、装置和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant