CN113255353A - 一种实体标准化方法 - Google Patents

一种实体标准化方法 Download PDF

Info

Publication number
CN113255353A
CN113255353A CN202110598353.6A CN202110598353A CN113255353A CN 113255353 A CN113255353 A CN 113255353A CN 202110598353 A CN202110598353 A CN 202110598353A CN 113255353 A CN113255353 A CN 113255353A
Authority
CN
China
Prior art keywords
entity
standard
candidate
words
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110598353.6A
Other languages
English (en)
Other versions
CN113255353B (zh
Inventor
曾志贤
马涛
倪斌
汪姿如
庄福振
安竹林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences
Original Assignee
Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences filed Critical Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences
Priority to CN202110598353.6A priority Critical patent/CN113255353B/zh
Publication of CN113255353A publication Critical patent/CN113255353A/zh
Application granted granted Critical
Publication of CN113255353B publication Critical patent/CN113255353B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种实体标准化方法,包括以下步骤:步骤一:建立标准实体词的知识库;步骤二:通过构建好的标准实体词的知识库,构建模型所需的训练数据;步骤三:利用构建好的训练数据分别训练实体分类模型以及实体匹配模型;步骤四:将待识别的实体输入候选实体生成模块,生成候选实体集合;步骤五:将候选实体集合中标准实体进行排序。本发明所述的一种实体标准化方法,相比于其他方法,不使用实体词的上下文信息,即能达到实体标准化的结果;通过添加实体的类型信息,作为实体匹配模型的一部分输入,就能有效的提高实体标准化的准确率,能较好的实现实体标准化任务。

Description

一种实体标准化方法
技术领域
本发明涉及数据处理领域,特别涉及一种实体标准化方法。
背景技术
随着互联网的迅速发展,网络上充斥着各类文本信息,其中包含了公司名、学校名和组织机构名等各种实体词。由于自然语言表达的多样性,一个标准实体往往可以被多种形式进行表示,包括别名、简称和英文名等。为了正确理解别名、简称和英文名的真实含义,可以将文本信息中的实体词标准化为实体知识库中的无歧义实体,为信息检索和抽取、知识工程等任务提供强有力的支撑。
实体标准化旨在将文本信息中的实体词转化为实体的标准形式,其潜在的应用包括信息提取、信息检索和知识库填充。传统的实体标准化任务主要是针对长文档,长文档拥有充分的上下文信息,能够辅助完成实体标准化任务。而在面对一些实体上下文信息匮乏的场景,且实体名称又具有多样性和模糊性的特性,导致实体标准化任务存在极大的挑战。因此,能够找到一种方法,不使用实体词的上下文信息,就能解决实体标准化任务,是非常有意义的。
为此,我们提出一种实体标准化方法。
发明内容
本发明的主要目的在于提供一种实体标准化方法,首先通过词条建立标准实体词知识库,再使用标准实体词知识库构建模型训练数据,利用训练数据训练实体分类模型以及实体匹配模型,最后输入待识别的实体词,生成待识别实体词的候选实体集合,再通过实体分类模型以及实体匹配模型,对候选实体进行排序,选取匹配概率最高的候选实体,作为待识别实体词的标准实体,从而完成实体标准化的任务,可以有效解决背景技术中的问题。
为实现上述目的,本发明采取的技术方案为:
一种实体标准化方法,包括输入模块、处理模块、运行模块和输出模块,所述输入模块和处理模块相连,所述处理模块和运行模块连接,所述运行模块连接有输出模块,所述输入模块能够对用户输入的待识别体进行接收;所述处理模块能够使用输入的待识别实体,通过预设的候选实体生成规则,从预选构建好的知识库中生成候选实体集合;所述运行模块能够对运实体分类模型和实体匹配模型运行,并且对候选实体集合中的实体进行排序;所述输出模块能够对待识别实体的标准化实体进行输出,该方法包括以下步骤:
步骤一:建立标准实体词的知识库;
步骤二:通过构建好的标准实体词的知识库,构建模型所需的训练数据;
步骤三:利用构建好的训练数据分别训练实体分类模型以及实体匹配模型;
步骤四:将待识别的实体输入候选实体生成模块,生成候选实体集合;
步骤五:将候选实体集合中标准实体进行排序。
进一步的,所述步骤三中的实体分类模型采用传统的TextCNN模型,所述步骤三中的实体分类流程如下步骤:
首先,输入待识别的实体词,在词嵌入层对实体词进行向量化;然后,在卷积层对词嵌入层进行卷积操作,以提取特征;然后,在池化层对卷积得到的结果进行最大池化;最后,在全连接层对得到的特征向量进行全连接操作,得到最后的实体词分类。
进一步的,将实体词分类的类型信息,作为一部分文本信息,融合到实体匹配模型中,所述实体匹配模型是基于BERT进行构建的,实体匹配流程如下步骤:
首先,将待识别的实体词及其实体类型和候选实体词及其候选实体类型用[SEP]分隔符隔开作为BERT的输入;然后,输入经过BERT层后得到BERT层的输出,输入到池化层中进行池化操作;然后,在全连接层中进行全连接操作;最后,输出待识别的实体词是否与候选实体词匹配,且可以得出匹配概率。
进一步的,所述步骤四的候选实体集合的生成方式如下:
(1)以字级别的形式,生成待识别实体与标准实体词知识库中的标准实体词的TF-IDF向量,再计算待识别实体与标准实体词的向量相似度,召回相似度前十的标准实体词加入到候选实体集合;
(2)通过计算待识别实体与标准实体词知识库中的标准实体词的词覆盖度,设定一个词覆盖度的阈值,返回高于阈值的标准实体词加入候选实体集合中;
(3)通过计算待识别实体与标准实体词知识库中的标准实体词的编辑距离,设定一个编辑距离的阈值,返回小于编辑距离阈值的标准实体加入到候选实体集合中;
通过上述三种方式生成待识别实体的候选实体集合。
进一步的,所述步骤五的候选排序流程如下步骤:首先,从候选实体词的集合中逐一与待识别实体进行实体匹配,得到待识别的实体与该候选实体正确匹配的概率;然后,通过对候选实体集合中的每一个候选实体都得出一个匹配概率;最后,选取匹配概率最高的候选实体,作为该待识别实体标准化后的实体。
进一步的,所述步骤一中的构建标准实体词的知识库,如下步骤:
首先,利用爬虫技术,通过分类索引,从实体页面中,可以获取到标准的实体名称E、标准实体的别名A以及实体的分类C加入到标准实体知识库中;然后,一个实体名称对应的实体别名数量不小于零,所以知识库中的一条记录可表示为{E,A1;A2···An,C};最后,爬取多个实体,即可构建标准实体词的知识库。
进一步的,所述步骤二中的构建模型的训练数据方法如下:
实体分类模型的训练数据是包括多组标注数据,每组标注数据包括标准的实体名称E以及该实体词的类型C,通过标准实体词知识库中的每条记录的标准实体名称E和实体的分类C字段,可构建[E,C]训练数据,构建多条[E,C]数据作为实体分类模型的训练数据;
实体匹配模型的训练数据,可通过标准实体词知识库中的每条记录的标准实体名称E和实体的别名A字段,来构造实体匹配模型的训练数据,构造标准实体名称及其别名则作为正样本,拼接标准实体名称以及其他标准实体名称的别名则作为负样本,正样本标签为0,负样本标签为1,标准实体词的知识库每条记录可构建多条训练数据[E&A1,0]、[E&A2,0]、[E&An,0]、[E&B1,1]、[E&B2,1]、[E&Bn,1]。
与现有技术相比,本发明具有如下有益效果:
1、不使用实体词的上下文信息,即能达到实体标准化的结果;
2、通过添加实体的类型信息,作为实体匹配模型的一部分输入,就能有效的提高实体标准化的准确率,能较好的实现实体标准化任务。
附图说明
为了更清楚地说明本发明的技术方案,下面将对本发明技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种实体标准化方法的整体流程图;
图2为本发明一种实体标准化方法的实体分类流程图;
图3为本发明一种实体标准化方法的实体匹配流程图;
图4为本发明一种实体标准化方法的候选实体排序流程图。
具体实施方式
下面结合具体实施方式对本发明作进一步的说明,其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制,为了更好地说明本发明的具体实施方式,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸,对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的,基于本发明中的具体实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式,都属于本发明保护的范围。
实施例1
如图1所示,一种实体标准化方法,包括输入模块、处理模块、运行模块和输出模块,输入模块和处理模块相连,处理模块和运行模块连接,运行模块连接有输出模块,输入模块能够对用户输入的待识别体进行接收;处理模块能够使用输入的待识别实体,通过预设的候选实体生成规则,从预选构建好的知识库中生成候选实体集合;运行模块能够对运实体分类模型和实体匹配模型运行,并且对候选实体集合中的实体进行排序;输出模块能够对待识别实体的标准化实体进行输出,该方法包括以下步骤:
步骤一:建立标准实体词的知识库;
步骤二:通过构建好的标准实体词的知识库,构建模型所需的训练数据;
步骤三:利用构建好的训练数据分别训练实体分类模型以及实体匹配模型;
步骤四:将待识别的实体输入候选实体生成模块,生成候选实体集合;
步骤五:将候选实体集合中标准实体进行排序。
通过采用上述技术方案:提供了一种实体标准化的方法,相比于其他方法,不使用实体词的上下文信息,即能达到实体标准化的结果,通过添加实体的类型信息,作为实体匹配模型的一部分输入,就能有效的提高实体标准化的准确率,能较好的实现实体标准化任务。
实施例2
如图1-4所示,一种实体标准化方法,包括输入模块、处理模块、运行模块和输出模块,输入模块和处理模块相连,处理模块和运行模块连接,运行模块连接有输出模块,输入模块能够对用户输入的待识别体进行接收;处理模块能够使用输入的待识别实体,通过预设的候选实体生成规则,从预选构建好的知识库中生成候选实体集合;运行模块能够对运实体分类模型和实体匹配模型运行,并且对候选实体集合中的实体进行排序;输出模块能够对待识别实体的标准化实体进行输出,该方法包括以下步骤:
步骤一:建立标准实体词的知识库;
首先,利用爬虫技术,通过分类索引,从实体页面中,可以获取到标准的实体名称E、标准实体的别名A以及实体的分类C加入到标准实体知识库中;然后,一个实体名称对应的实体别名数量不小于零,所以知识库中的一条记录可表示为{E,A1;A2···An,C};最后,爬取多个实体,即可构建标准实体词的知识库。
实体页面都描述一个实体,并包含集中于该实体的信息,一般而言每个页面的标题是本页面中描述的实体最常用的名称,所以每个页面的标题可作为标准的实体名称E;页面的第一段是对实体页面的总结,其中包含一些加粗短语,一般是该页面实体的简称、别名或英文名,所以页面首段加粗字段可作为该标准的实体名称E的别名A,实体页面的分类标签即作为该标准实体的分类C。
步骤二:通过构建好的标准实体词的知识库,构建模型所需的训练数据;
其中实体分类模型的训练数据是包括多组标注数据,每组标注数据包括标准的实体名称E以及该实体词的类型C,通过标准实体词知识库中的每条记录的标准实体名称E和实体的分类C字段,可构建[E,C]训练数据,构建多条[E,C]数据可作为实体分类模型的训练数据;实体匹配模型的训练数据,可通过标准实体词知识库中的每条记录的标准实体名称E和实体的别名A字段,来构造实体匹配模型的训练数据,构造标准实体名称及其别名则作为正样本,拼接标准实体名称以及其他标准实体名称的别名则作为负样本,正样本标签为0,负样本标签为1,标准实体词的知识库每条记录可构建多条训练数据[E&A1,0]、[E&A2,0]、[E&An,0]、[E&B1,1]、[E&B2,1]、[E&Bn,1],至此模型的训练数据构造完毕;
通过构建好的标准实体词的知识库,即可构建模型所需的训练数据。
步骤三:利用构建好的训练数据分别训练实体分类模型以及实体匹配模型;
实体分类流程如图二所示,实体分类模型采用传统的TextCNN模型,首先,输入待识别的实体词,在词嵌入层对实体词进行向量化;然后,在卷积层对词嵌入层进行卷积操作,以提取特征;然后,在池化层对卷积得到的结果进行最大池化;最后,在全连接层对得到的特征向量进行全连接操作,得到最后的实体词分类。
将实体词分类的类型信息,作为一部分文本信息,融合到实体匹配模型中,实体匹配流程如图三所示。实体匹配模型是基于BERT进行构建的,将待识别的实体词及其实体类型和候选实体词及其候选实体类型用[SEP]分隔符隔开作为BERT的输入,实体类型通过训练好的实体分类模型得出,候选实体类型从标准实体词的知识库中获取,输入经过BERT层后得到BERT层的输出,输入到池化层中进行池化操作,然后在全连接层中进行全连接操作,最后能够输出待识别的实体词是否与候选实体词匹配,且可以得出匹配概率。
利用构建好的训练数据输入到模型中,即可得到实体分类模型以及实体匹配模型。
步骤四:将待识别的实体输入候选实体生成模块,生成候选实体集合;
候选实体集合包含多个标准实体词。候选实体集合的生成方式如下:
(1)以字级别的形式,生成待识别实体与标准实体词知识库中的标准实体词的TF-IDF向量,再计算待识别实体与标准实体词的向量相似度,召回相似度前十的标准实体词加入到候选实体集合;
(2)通过计算待识别实体与标准实体词知识库中的标准实体词的词覆盖度,设定一个词覆盖度的阈值,返回高于阈值的标准实体词加入候选实体集合中;
(3)通过计算待识别实体与标准实体词知识库中的标准实体词的编辑距离,设定一个编辑距离的阈值,返回小于编辑距离阈值的标准实体加入到候选实体集合中。
通过以上三种方式生成待识别实体的候选实体集合。
步骤五:将候选实体集合中标准实体进行排序;
排序流程如图四所示,从候选实体词的集合中逐一与待识别实体进行实体匹配,得到待识别的实体与该候选实体正确匹配的概率,通过对候选实体集合中的每一个候选实体都得出一个匹配概率后,选取匹配概率最高的候选实体,作为该待识别实体标准化后的实体。
至此整个流程结束。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.一种实体标准化方法,包括输入模块、处理模块、运行模块和输出模块,所述输入模块和处理模块相连,所述处理模块和运行模块连接,所述运行模块连接有输出模块,其特征在于,所述输入模块能够对用户输入的待识别体进行接收;所述处理模块能够使用输入的待识别实体,通过预设的候选实体生成规则,从预选构建好的知识库中生成候选实体集合;所述运行模块能够对运实体分类模型和实体匹配模型运行,并且对候选实体集合中的实体进行排序;所述输出模块能够对待识别实体的标准化实体进行输出,该方法包括以下步骤:
步骤一:建立标准实体词的知识库;
步骤二:通过构建好的标准实体词的知识库,构建模型所需的训练数据;
步骤三:利用构建好的训练数据分别训练实体分类模型以及实体匹配模
型;
步骤四:将待识别的实体输入候选实体生成模块,生成候选实体集合;
步骤五:将候选实体集合中标准实体进行排序。
2.根据权利要求1所述的一种实体标准化方法,其特征在于,所述步骤三中的实体分类模型采用传统的TextCNN模型,所述步骤三中的实体分类流程如下步骤:
首先,输入待识别的实体词,在词嵌入层对实体词进行向量化;然后,在卷积层对词嵌入层进行卷积操作,以提取特征;然后,在池化层对卷积得到的结果进行最大池化;最后,在全连接层对得到的特征向量进行全连接操作,得到最后的实体词分类。
3.根据权利要求2所述的一种实体标准化方法,其特征在于,将实体词分类的类型信息,作为一部分文本信息,融合到实体匹配模型中,所述实体匹配模型是基于BERT进行构建的,实体匹配流程如下步骤:
首先,将待识别的实体词及其实体类型和候选实体词及其候选实体类型用[SEP]分隔符隔开作为BERT的输入;然后,输入经过BERT层后得到BERT层的输出,输入到池化层中进行池化操作;然后,在全连接层中进行全连接操作;最后,输出待识别的实体词是否与候选实体词匹配,且可以得出匹配概率。
4.根据权利要求1所述的一种实体标准化方法,其特征在于,所述步骤四的候选实体集合的生成方式如下:
(1)以字级别的形式,生成待识别实体与标准实体词知识库中的标准实体词的TF-IDF向量,再计算待识别实体与标准实体词的向量相似度,召回相似度前十的标准实体词加入到候选实体集合;
(2)通过计算待识别实体与标准实体词知识库中的标准实体词的词覆盖度,设定一个词覆盖度的阈值,返回高于阈值的标准实体词加入候选实体集合中;
(3)通过计算待识别实体与标准实体词知识库中的标准实体词的编辑距离,设定一个编辑距离的阈值,返回小于编辑距离阈值的标准实体加入到候选实体集合中;
通过上述三种方式生成待识别实体的候选实体集合。
5.根据权利要求1所述的一种实体标准化方法,其特征在于,所述步骤五的候选排序流程如下步骤:首先,从候选实体词的集合中逐一与待识别实体进行实体匹配,得到待识别的实体与该候选实体正确匹配的概率;然后,通过对候选实体集合中的每一个候选实体都得出一个匹配概率;最后,选取匹配概率最高的候选实体,作为该待识别实体标准化后的实体。
6.根据权利要求1所述的一种实体标准化方法,其特征在于,所述步骤一中的构建标准实体词的知识库,如下步骤:
首先,利用爬虫技术,通过分类索引,从实体页面中,可以获取到标准的实体名称E、标准实体的别名A以及实体的分类C加入到标准实体知识库中;然后,一个实体名称对应的实体别名数量不小于零,所以知识库中的一条记录可表示为{E,A1;A2···An,C};最后,爬取多个实体,即可构建标准实体词的知识库。
7.根据权利要求1所述的一种实体标准化方法,其特征在于,所述步骤二中的构建模型的训练数据方法如下:
实体分类模型的训练数据是包括多组标注数据,每组标注数据包括标准的
实体名称E以及该实体词的类型C,通过标准实体词知识库中的每条记录的标准实体名称E和实体的分类C字段,可构建[E,C]训练数据,构建多条[E,C]数据作为实体分类模型的训练数据;
实体匹配模型的训练数据,可通过标准实体词知识库中的每条记录的标准实体名称E和实体的别名A字段,来构造实体匹配模型的训练数据,构造标准实体名称及其别名则作为正样本,拼接标准实体名称以及其他标准实体名称的别名则作为负样本,正样本标签为0,负样本标签为1,标准实体词的知识库每条记录可构建多条训练数据[E&A1,0]、[E&A2,0]、[E&An,0]、[E&B1,1]、[E&B2,1]、[E&Bn,1]。
CN202110598353.6A 2021-05-31 2021-05-31 一种实体标准化方法 Active CN113255353B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110598353.6A CN113255353B (zh) 2021-05-31 2021-05-31 一种实体标准化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110598353.6A CN113255353B (zh) 2021-05-31 2021-05-31 一种实体标准化方法

Publications (2)

Publication Number Publication Date
CN113255353A true CN113255353A (zh) 2021-08-13
CN113255353B CN113255353B (zh) 2022-08-16

Family

ID=77185386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110598353.6A Active CN113255353B (zh) 2021-05-31 2021-05-31 一种实体标准化方法

Country Status (1)

Country Link
CN (1) CN113255353B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114819155A (zh) * 2022-05-16 2022-07-29 浪潮软件集团有限公司 基于编辑距离的医学术语归一化方法、系统及介质
CN117894482A (zh) * 2024-03-14 2024-04-16 北方健康医疗大数据科技有限公司 一种医学肿瘤的编码方法、系统、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110826326A (zh) * 2019-10-30 2020-02-21 中国人民解放军海军航空大学 一种基于文本分类的小样本数据描述规范化预处理方法
US20200167663A1 (en) * 2018-11-28 2020-05-28 International Business Machines Corporation Generating a candidate set of entities from a training set
US20200210466A1 (en) * 2018-12-26 2020-07-02 Microsoft Technology Licensing, Llc Hybrid entity matching to drive program execution
CN111522901A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 文本中地址信息的处理方法及装置
CN112667819A (zh) * 2020-12-07 2021-04-16 数据地平线(广州)科技有限公司 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置
CN112818692A (zh) * 2021-02-03 2021-05-18 招商银行股份有限公司 命名实体识别和处理方法、装置、设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200167663A1 (en) * 2018-11-28 2020-05-28 International Business Machines Corporation Generating a candidate set of entities from a training set
US20200210466A1 (en) * 2018-12-26 2020-07-02 Microsoft Technology Licensing, Llc Hybrid entity matching to drive program execution
CN110826326A (zh) * 2019-10-30 2020-02-21 中国人民解放军海军航空大学 一种基于文本分类的小样本数据描述规范化预处理方法
CN111522901A (zh) * 2020-03-18 2020-08-11 大箴(杭州)科技有限公司 文本中地址信息的处理方法及装置
CN112667819A (zh) * 2020-12-07 2021-04-16 数据地平线(广州)科技有限公司 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置
CN112818692A (zh) * 2021-02-03 2021-05-18 招商银行股份有限公司 命名实体识别和处理方法、装置、设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114819155A (zh) * 2022-05-16 2022-07-29 浪潮软件集团有限公司 基于编辑距离的医学术语归一化方法、系统及介质
CN117894482A (zh) * 2024-03-14 2024-04-16 北方健康医疗大数据科技有限公司 一种医学肿瘤的编码方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN113255353B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN108959242B (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
CN109960728B (zh) 一种开放域会议信息命名实体识别方法及系统
CN108319668A (zh) 生成文本摘要的方法及设备
CN113255353B (zh) 一种实体标准化方法
CN111666427A (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN113722490A (zh) 一种基于键值匹配关系的视觉富文档信息抽取方法
CN113449084A (zh) 基于图卷积的关系抽取方法
CN113986950A (zh) 一种sql语句处理方法、装置、设备及存储介质
CN110245349A (zh) 一种句法依存分析方法、装置及一种电子设备
CN112417878A (zh) 实体关系抽取方法、系统、电子设备及存储介质
CN113392191B (zh) 一种基于多维度语义联合学习的文本匹配方法和装置
CN116932730B (zh) 基于多叉树和大规模语言模型的文档问答方法及相关设备
CN112765985A (zh) 一种面向特定领域专利实施例的命名实体识别方法
CN116955644A (zh) 基于知识图谱的知识融合方法、系统及存储介质
CN112685538A (zh) 一种结合外部知识的文本向量检索方法
CN112765976A (zh) 文本相似度计算方法、装置、设备及存储介质
CN112015895A (zh) 一种专利文本分类方法及装置
CN107633259A (zh) 一种基于稀疏字典表示的跨模态学习方法
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN109670071B (zh) 一种序列化多特征指导的跨媒体哈希检索方法和系统
CN113139558A (zh) 确定物品的多级分类标签的方法和装置
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN115098707A (zh) 基于零样本学习的跨模态哈希检索方法及系统
CN114782958A (zh) 文本检错模型训练方法、文本检错方法及装置
CN111222342B (zh) 一种翻译方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: No. 208-3, Fengqi Road, phase III, software park, Jimei District, Xiamen, Fujian 361021

Applicant after: Zhongke (Xiamen) data Intelligence Research Institute

Address before: No. 208-3, Fengqi Road, phase III, software park, Jimei District, Xiamen, Fujian 361021

Applicant before: Xiamen Institute of data intelligence, Institute of computing technology, Chinese Academy of Sciences

GR01 Patent grant
GR01 Patent grant