CN110209830B - 实体链接方法、装置、设备、计算机可读存储介质 - Google Patents

实体链接方法、装置、设备、计算机可读存储介质 Download PDF

Info

Publication number
CN110209830B
CN110209830B CN201810146229.4A CN201810146229A CN110209830B CN 110209830 B CN110209830 B CN 110209830B CN 201810146229 A CN201810146229 A CN 201810146229A CN 110209830 B CN110209830 B CN 110209830B
Authority
CN
China
Prior art keywords
entity
model
disambiguation
text
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810146229.4A
Other languages
English (en)
Other versions
CN110209830A (zh
Inventor
丁磊
童毅轩
董滨
姜珊珊
张永伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CN201810146229.4A priority Critical patent/CN110209830B/zh
Priority to US16/242,365 priority patent/US10909319B2/en
Publication of CN110209830A publication Critical patent/CN110209830A/zh
Application granted granted Critical
Publication of CN110209830B publication Critical patent/CN110209830B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/134Hyperlinking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供了一种实体链接方法、装置、设备、计算机可读存储介质,属于数据处理技术领域。实体链接方法包括:通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体。本发明能够将文本信息中的实体词链接到无歧义实体。

Description

实体链接方法、装置、设备、计算机可读存储介质
技术领域
本发明涉及数据处理技术领域,特别是指一种实体链接方法、装置、设备、计算机可读存储介质。
背景技术
随着互联网语义知识库和文本信息平台的飞速发展,将文本信息中的实体词链接到互联网语义知识库的无歧义实体,可以为信息检索和抽取、知识工程等任务都提供功能强大的实体消歧系统做支撑。目前,实体链接方法需要人工标注工作及目标语言上的数据集作为训练数据,即需要耗费大量的人力去标注训练数据。
发明内容
本发明要解决的技术问题是提供一种实体链接方法、装置、设备、计算机可读存储介质,能够将文本信息中的实体词链接到无歧义实体。
为解决上述技术问题,本发明的实施例提供技术方案如下:
一方面,提供一种实体链接方法,包括:
通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;
利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;
将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体。
进一步地,所述通过已有的无歧义实体数据库构建训练数据包括:
将包括有至少一个实体词的文本复制为多条,并将每一条复制文本中的任意一个或多个实体词替换为对应的无歧义实体标识,所述无歧义实体标识唯一代表一无歧义实体。
进一步地,所述利用所述训练数据训练无歧义实体识别模型包括:
利用所述训练数据分别训练语言模型和主题模型,所述语言模型能够输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,所述主题模型能够输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度;
将所述训练数据分别输入所述语言模型和所述主题模型,利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型。
进一步地,所述利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型包括:
利用所述语言模型的输出结果、所述主题模型的输出结果以及所述训练数据中文本的实体词与某一无歧义实体的匹配概率对集成模型进行训练,所述集成模型能够输出所述语言模型的输出结果的权重和所述主题模型的输出结果的权重;
集成所述集成模型、所述语言模型和所述主题模型得到所述无歧义实体识别模型。
进一步地,所述无歧义实体识别模型输出的实体词与无歧义实体的匹配概率p=a*x+b*y,其中,a为所述集成模型输出的所述语言模型的输出结果的权重,b为所述集成模型输出的所述主题模型的输出结果的权重,x为所述语言模型的输出结果,y为所述主题模型的输出结果。
进一步地,所述利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型之前,所述方法还包括:
利用所述语言模型和所述主题模型对所述训练数据进行扩充。
进一步地,所述利用所述语言模型和所述主题模型对所述训练数据进行扩充包括:
将多组未标注数据输入所述语言模型,每组未标注数据包括携带有实体词的文本,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第一阈值的未标注数据输入所述主题模型,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第二阈值的未标注数据加入所述训练数据,并将所述相关度高于预设第二阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体;和/或
将多组未标注数据输入所述主题模型,每组未标注数据包括携带有实体词的文本,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第三阈值的未标注数据输入所述语言模型,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第四阈值的未标注数据加入所述训练数据,并将所述匹配度高于预设第四阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体。
进一步地,所述根据输出结果确定与所述待识别的实体词链接的无歧义实体包括:
将与所述实体词匹配概率大于预设第五阈值的无歧义实体确定为与所述实体词链接的无歧义实体。
本发明实施例还提供了一种实体链接装置,包括:
训练数据构建模块,用于通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;
训练模块,用于利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;
处理模块,用于将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体。
本发明实施例还提供了一种实现实体链接的电子设备,包括:
处理器;和
存储器,在所述存储器中存储有计算机程序指令,
其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器执行以下步骤:
通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;
利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;
将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器运行时,使得所述处理器执行以下步骤:
通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;
利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;
将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体。
本发明的实施例具有以下有益效果:
上述方案中,通过已有的无歧义实体数据库构建训练数据,训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体,利用训练数据训练无歧义实体识别模型,无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率,将包括有待识别的实体词的文本输入无歧义实体识别模型,根据输出结果确定与待识别的实体词链接的无歧义实体。通过本发明的技术方案,无需人工标注即可训练得到无歧义实体识别模型,并利用无歧义实体识别模型将文本信息中的实体词链接到无歧义实体,能够提高实体链接的自动化程度。
附图说明
图1为本发明实施例实体链接方法的流程示意图;
图2为本发明实施例通过已有的无歧义实体数据库构建训练数据的流程示意图;
图3为本发明实施例利用训练数据训练无歧义实体识别模型的流程示意图;
图4为本发明实施例利用语言模型、主题模型的输出结果以及训练数据训练得到无歧义实体识别模型的流程示意图;
图5为本发明实施例实体链接装置的结构框图;
图6为本发明实施例实现实体链接的电子设备的结构框图;
图7为本发明具体实施例实体链接方法的流程示意图;
图8为本发明实施例利用无歧义实体数据库中的一条文本构建训练数据的示意图;
图9A和图9B为本发明实施例通过语言模型和主题模型扩充训练数据的示意图。
具体实施方式
为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明的实施例提供一种实体链接方法、装置、设备、计算机可读存储介质,能够将文本信息中的实体词链接到无歧义实体。
实施例一
本发明的实施例提供一种实体链接方法,如图1所示,包括:
步骤101:通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;
步骤102:利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;
步骤103:将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体。
本实施例中,通过已有的无歧义实体数据库构建训练数据,训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体,利用训练数据训练无歧义实体识别模型,无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率,将包括有待识别的实体词的文本输入无歧义实体识别模型,根据输出结果确定与待识别的实体词链接的无歧义实体。通过本发明的技术方案,无需人工标注即可训练得到无歧义实体识别模型,并利用无歧义实体识别模型将文本信息中的实体词链接到无歧义实体,能够提高实体链接的自动化程度。
作为一个示例,如图2所示,所述步骤101包括:
步骤1011:将包括有至少一个实体词的文本复制为多条,并将每一条复制文本中的任意一个或多个实体词替换为对应的无歧义实体标识,所述无歧义实体标识唯一代表一无歧义实体。
作为一个示例,如图3所示,所述步骤102包括:
步骤1021:利用所述训练数据分别训练语言模型和主题模型,所述语言模型能够输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,所述主题模型能够输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度;
步骤1022:将所述训练数据分别输入所述语言模型和所述主题模型,利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型。
作为一个示例,如图4所示,所述步骤1022包括:
步骤10221:利用所述语言模型的输出结果、所述主题模型的输出结果以及所述训练数据中文本的实体词与某一无歧义实体的匹配概率对集成模型进行训练,所述集成模型能够输出所述语言模型的输出结果的权重和所述主题模型的输出结果的权重;
步骤10222:集成所述集成模型、所述语言模型和所述主题模型得到所述无歧义实体识别模型。
具体地,所述无歧义实体识别模型输出的实体词与无歧义实体的匹配概率p=a*x+b*y,其中,a为所述集成模型输出的所述语言模型的输出结果的权重,b为所述集成模型输出的所述主题模型的输出结果的权重,x为所述语言模型的输出结果,y为所述主题模型的输出结果。
作为一个示例,所述利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型之前,所述方法还包括:
利用所述语言模型和所述主题模型对所述训练数据进行扩充。
具体地,所述利用所述语言模型和所述主题模型对所述训练数据进行扩充包括:
将多组未标注数据输入所述语言模型,每组未标注数据包括携带有实体词的文本,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第一阈值的未标注数据输入所述主题模型,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第二阈值的未标注数据加入所述训练数据,并将所述相关度高于预设第二阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体;和/或
将多组未标注数据输入所述主题模型,每组未标注数据包括携带有实体词的文本,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第三阈值的未标注数据输入所述语言模型,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第四阈值的未标注数据加入所述训练数据,并将所述匹配度高于预设第四阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体。
作为一个示例,所述根据输出结果确定与所述待识别的实体词链接的无歧义实体包括:
将与所述实体词匹配概率大于预设第五阈值的无歧义实体确定为与所述实体词链接的无歧义实体。
实施例二
本发明实施例还提供了一种实体链接装置,如图5所示,包括:
训练数据构建模块21,用于通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;
训练模块22,用于利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;
处理模块23,用于将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体。
本实施例中,通过已有的无歧义实体数据库构建训练数据,训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体,利用训练数据训练无歧义实体识别模型,无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率,将包括有待识别的实体词的文本输入无歧义实体识别模型,根据输出结果确定与待识别的实体词链接的无歧义实体。通过本发明的技术方案,无需人工标注即可训练得到无歧义实体识别模型,并利用无歧义实体识别模型将文本信息中的实体词链接到无歧义实体,能够提高实体链接的自动化程度。
作为一个示例,训练数据构建模块21用于将包括有至少一个实体词的文本复制为多条,并将每一条复制文本中的任意一个或多个实体词替换为对应的无歧义实体标识,所述无歧义实体标识唯一代表一无歧义实体。
作为一个示例,训练模块22具体用于利用所述训练数据分别训练语言模型和主题模型,所述语言模型能够输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,所述主题模型能够输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度;将所述训练数据分别输入所述语言模型和所述主题模型,利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型。
作为一个示例,训练模块22具体用于利用所述语言模型的输出结果、所述主题模型的输出结果以及所述训练数据中文本的实体词与某一无歧义实体的匹配概率对集成模型进行训练,所述集成模型能够输出所述语言模型的输出结果的权重和所述主题模型的输出结果的权重;集成所述集成模型、所述语言模型和所述主题模型得到所述无歧义实体识别模型。
具体地,所述无歧义实体识别模型输出的实体词与无歧义实体的匹配概率p=a*x+b*y,其中,a为所述集成模型输出的所述语言模型的输出结果的权重,b为所述集成模型输出的所述主题模型的输出结果的权重,x为所述语言模型的输出结果,y为所述主题模型的输出结果。
作为一个示例,所述训练模块22还用于在利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型之前,利用所述语言模型和所述主题模型对所述训练数据进行扩充。
作为一个示例,所述训练模块22具体用于将多组未标注数据输入所述语言模型,每组未标注数据包括携带有实体词的文本,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第一阈值的未标注数据输入所述主题模型,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第二阈值的未标注数据加入所述训练数据,并将所述相关度高于预设第二阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体;和/或将多组未标注数据输入所述主题模型,每组未标注数据包括携带有实体词的文本,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第三阈值的未标注数据输入所述语言模型,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第四阈值的未标注数据加入所述训练数据,并将所述匹配度高于预设第四阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体。
作为一个示例,处理模块23具体用于将与所述实体词匹配概率大于预设第五阈值的无歧义实体确定为与所述实体词链接的无歧义实体。
实施例三
本发明实施例还提供了一种实现实体链接的电子设备30,如图6所示,包括:
处理器32;和
存储器34,在所述存储器34中存储有计算机程序指令,
其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器32执行以下步骤:
通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;
利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;
将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体。
进一步地,如图6所示,实现实体链接的电子设备30还包括网络接口31、输入设备33、硬盘35、和显示设备36。
上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器32代表的一个或者多个中央处理器(CPU),以及由存储器34代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解,总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,这些都是本领域所公知的,因此本文不再对其进行详细描述。
所述网络接口31,可以连接至网络(如因特网、局域网等),从网络中获取相关数据,例如无歧义实体数据库的数据,并可以保存在硬盘35中。
所述输入设备33,可以接收操作人员输入的各种指令,并发送给处理器32以供执行。所述输入设备33可以包括键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
所述显示设备36,可以将处理器32执行指令获得的结果进行显示。
所述存储器34,用于存储操作系统运行所必须的程序和数据,以及处理器32计算过程中的中间结果等数据。
可以理解,本发明实施例中的存储器34可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。本文描述的装置和方法的存储器34旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器34存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统341和应用程序342。
其中,操作系统341,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序342,包含各种应用程序,例如浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序342中。
上述处理器32,当调用并执行所述存储器34中所存储的应用程序和数据,具体的,可以是应用程序342中存储的程序或指令时,可以通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体。
本发明上述实施例揭示的方法可以应用于处理器32中,或者由处理器32实现。处理器32可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器32中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器32可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器34,处理器32读取存储器34中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
具体地,处理器32将包括有至少一个实体词的文本复制为多条,并将每一条复制文本中的任意一个或多个实体词替换为对应的无歧义实体标识,所述无歧义实体标识唯一代表一无歧义实体。
具体地,处理器32利用所述训练数据分别训练语言模型和主题模型,所述语言模型能够输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,所述主题模型能够输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度;将所述训练数据分别输入所述语言模型和所述主题模型,利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型。
具体地,处理器32利用所述语言模型的输出结果、所述主题模型的输出结果以及所述训练数据中文本的实体词与某一无歧义实体的匹配概率对集成模型进行训练,所述集成模型能够输出所述语言模型的输出结果的权重和所述主题模型的输出结果的权重;集成所述集成模型、所述语言模型和所述主题模型得到所述无歧义实体识别模型。
具体地,所述无歧义实体识别模型输出的实体词与无歧义实体的匹配概率p=a*x+b*y,其中,a为所述集成模型输出的所述语言模型的输出结果的权重,b为所述集成模型输出的所述主题模型的输出结果的权重,x为所述语言模型的输出结果,y为所述主题模型的输出结果。
具体地,处理器32利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型之前,利用所述语言模型和所述主题模型对所述训练数据进行扩充。
具体地,处理器32将多组未标注数据输入所述语言模型,每组未标注数据包括携带有实体词的文本,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第一阈值的未标注数据输入所述主题模型,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第二阈值的未标注数据加入所述训练数据,并将所述相关度高于预设第二阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体;和/或将多组未标注数据输入所述主题模型,每组未标注数据包括携带有实体词的文本,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第三阈值的未标注数据输入所述语言模型,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第四阈值的未标注数据加入所述训练数据,并将所述匹配度高于预设第四阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体。
具体地,处理器32将与所述实体词匹配概率大于预设第五阈值的无歧义实体确定为与所述实体词链接的无歧义实体。
本实施例中,通过已有的无歧义实体数据库构建训练数据,训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体,利用训练数据训练无歧义实体识别模型,无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率,将包括有待识别的实体词的文本输入无歧义实体识别模型,根据输出结果确定与待识别的实体词链接的无歧义实体。通过本发明的技术方案,无需人工标注即可训练得到无歧义实体识别模型,并利用无歧义实体识别模型将文本信息中的实体词链接到无歧义实体,能够提高实体链接的自动化程度。
实施例四
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器运行时,使得所述处理器执行以下步骤:
通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;
利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;
将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体。
实施例五
下面结合附图对本发明的实体链接方法进行进一步介绍,如图7所示,本发明实施例的实体链接方法具体包括以下步骤:
步骤401:通过已有的无歧义实体数据库构建训练数据;
其中,已有的无歧义实体数据库可以为互联网语义知识库,比如维基百科和百度百科等等,当然还可以为其他类型的数据库。在无歧义实体数据库中存储有大量的文本,每一文本中携带有一个或者多个实体词,每一实体词均可以链接到一无歧义实体。
可以利用无歧义实体数据库中的文本构建训练数据,以利用其中一条文本构建训练数据为例进行说明,将无歧义实体数据库中的其中一条文本复制为多条,如图8所示,无歧义实体数据库中的其中一条文本中包括多个实体词:multinational,electronics和company,将该条文本复制为多条文本,将每一条复制文本中的任意一个或者多个实体词替换为对应的无歧义实体标识,无歧义实体标识可以唯一代表一无歧义实体,比如E0001唯一代表multinational对应的无歧义实体,E0002唯一代表electronics对应的无歧义实体,E0003唯一代表company对应的无歧义实体。
对无歧义实体数据库中每一条文本都执行上述操作,可以得到大量的训练数据。
步骤402:利用训练数据对语言模型进行训练;
将大量的训练数据输入语言模型,对语言模型进行训练,语言模型能够输出一条文本中的实体词为某一无歧义实体时与文本上下文的匹配度,比如对于文本“Applepacked an AI chip into the iPhone X”,通过语言模型能够输出其中的实体词“Apple”与文本上下文的匹配度。再比如对于图8所示的文本,语言模型能够输出其中的实体词multinational为无歧义实体E0001时,与文本上下文的匹配度为1;语言模型能够输出实体词multinational为无歧义实体E0002时,与文本上下文的匹配度为0;语言模型能够输出实体词multinational为无歧义实体E0003时,与文本上下文的匹配度为0,当然,实体词为某一无歧义实体时与文本上下文的匹配度的取值并不局限为0和1,还可以为0到1之间的其他取值。
步骤403:利用训练数据对主题模型进行训练;
将大量的训练数据输入主题模型,对主题模型进行训练,主题模型能够输出一条文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,比如对于文本“Applepacked an AI chip into the iPhone X”,通过主题模型能够输出其中的实体词“Apple”与主题“‘Apple(fruit)’”、“iPhone”之间的相关度。再比如对于图8所示的文本,主题模型能够输出其中的实体词multinational为无歧义实体E0001时,与文本上下文主题的相关度为1;主题模型能够输出实体词multinational为无歧义实体E0002时,与文本上下文主题的相关度为0;主题模型能够输出实体词multinational为无歧义实体E0003时,与文本上下文主题的相关度为0。当然,实体词为某一无歧义实体时与文本上下文主题的相关度的取值并不局限为0和1,还可以为0到1之间的其他取值。
步骤404:利用语言模型和主题模型对训练数据进行扩充;
上述利用无歧义实体数据库构建的训练数据为初始的标注数据,即文本中的实体词已经链接到无歧义实体。为了提高模型的精度,还可以利用语言模型和主题模型以及大量的未标注数据对训练数据进行扩充。
具体地,如图9A所示,可以将多组未标注数据输入语言模型,每组未标注数据包括携带有实体词的文本,其中,实体词并未链接到无歧义实体,利用语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第一阈值的未标注数据作为高置信数据输入主题模型,并利用主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第二阈值的未标注数据作为高置信数据加入训练数据,其中,新加入的的训练数据中,在主题模型输出的相关度高于预设第二阈值时,文本中的实体词对应的无歧义实体作为与该实体词链接的无歧义实体。
同时如图9B所示,还可以将多组未标注数据输入主题模型,每组未标注数据包括携带有实体词的文本,其中,实体词并未链接到无歧义实体,利用主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第三阈值的未标注数据作为高置信数据输入语言模型,并利用语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第四阈值的未标注数据作为高置信数据加入训练数据,其中,新加入的的训练数据中,在语言模型输出的匹配度高于预设第四阈值时,文本中的实体词对应的无歧义实体作为与该实体词链接的无歧义实体。
如图9A和图9B所示,通过语言模型和主题模型交互进行训练,可以利用大量的未标注数据生成新的标注数据补充进训练数据,从而省去人工标注的过程,节省大量的人力,提高模型训练的自动化程度。
步骤405:利用语言模型、主题模型以及训练数据协同训练得到无歧义实体识别模型;
首先利用语言模型的输出结果、主题模型的输出结果以及训练数据中文本的实体词与某一无歧义实体的匹配概率对集成模型进行训练,集成模型能够输出语言模型的输出结果的权重和主题模型的输出结果的权重。比如训练数据中一文本中一实体词与一无歧义实体的匹配概率为M,将该文本输入语言模型得到的输出结果为x,将该文本输入主题模型的输出结果为y,将(M,x,y)作为集成模型的训练数据对集成模型进行训练,利用大量的训练数据使得集成模型不断调整a和b的值,最终使得a*x+b*y的值向M逼近,其中,a为集成模型输出的语言模型的输出结果的权重,b为集成模型输出的主题模型的输出结果的权重。
在训练完集成模型后,集成集成模型、语言模型和主题模型即可得到无歧义实体识别模型,无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率。在将包括有待识别的实体词的文本输入无歧义实体识别模型后,即可输出待识别的实体词与一个或多个无歧义实体的匹配概率p,p=a*x+b*y,其中,a为训练好的集成模型输出的语言模型的输出结果的权重,b为训练好的集成模型输出的主题模型的输出结果的权重,x为将包括有待识别的实体词的文本输入语言模型得到的输出结果,y为将包括有待识别的实体词的文本输入主题模型得到的输出结果。
步骤406:将包括有待识别的实体词的文本输入无歧义实体识别模型,得到与待识别的实体词链接的无歧义实体。
具体地,可以将包括有待识别的实体词的文本输入无歧义实体识别模型,得到该实体词与多个无歧义实体的匹配概率,可以选择其中匹配概率最高的无歧义实体作为与该实体词链接的无歧义实体;或者对得到的最高的匹配概率进行判断,在该最高的匹配概率大于预设第五阈值时,将该最高的匹配概率作为与该实体词链接的无歧义实体。
本实施例中,通过已有的无歧义实体数据库构建训练数据,训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体,利用训练数据训练无歧义实体识别模型,无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率,将包括有待识别的实体词的文本输入无歧义实体识别模型,根据输出结果确定与待识别的实体词链接的无歧义实体。通过本发明的技术方案,无需人工标注即可训练得到无歧义实体识别模型,并利用无歧义实体识别模型将文本信息中的实体词链接到无歧义实体,能够提高实体链接的自动化程度。
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种实体链接方法,其特征在于,包括:
通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;
利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;
将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体,
其中,所述利用所述训练数据训练无歧义实体识别模型包括:
利用所述训练数据分别训练语言模型和主题模型,所述语言模型能够输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,所述主题模型能够输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度;
将所述训练数据分别输入所述语言模型和所述主题模型,利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型,
所述利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型之前,所述方法还包括:
利用所述语言模型和所述主题模型对所述训练数据进行扩充,其中,通过所述语言模型和所述主题模型交互进行训练,利用未标注数据生成新的标注数据扩充进所述训练数据。
2.根据权利要求1所述的实体链接方法,其特征在于,所述通过已有的无歧义实体数据库构建训练数据包括:
将包括有至少一个实体词的文本复制为多条,并将每一条复制文本中的任意一个或多个实体词替换为对应的无歧义实体标识,所述无歧义实体标识唯一代表一无歧义实体。
3.根据权利要求1所述的实体链接方法,其特征在于,所述利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型包括:
利用所述语言模型的输出结果、所述主题模型的输出结果以及所述训练数据中文本的实体词与某一无歧义实体的匹配概率对集成模型进行训练,所述集成模型能够输出所述语言模型的输出结果的权重和所述主题模型的输出结果的权重;
集成所述集成模型、所述语言模型和所述主题模型得到所述无歧义实体识别模型。
4.根据权利要求3所述的实体链接方法,其特征在于,所述无歧义实体识别模型输出的实体词与无歧义实体的匹配概率p=a*x+b*y,其中,a为所述集成模型输出的所述语言模型的输出结果的权重,b为所述集成模型输出的所述主题模型的输出结果的权重,x为所述语言模型的输出结果,y为所述主题模型的输出结果。
5.根据权利要求1所述的实体链接方法,其特征在于,所述利用所述语言模型和所述主题模型对所述训练数据进行扩充包括:
将多组未标注数据输入所述语言模型,每组未标注数据包括携带有实体词的文本,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第一阈值的未标注数据输入所述主题模型,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第二阈值的未标注数据加入所述训练数据,并将所述相关度高于预设第二阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体;和/或
将多组未标注数据输入所述主题模型,每组未标注数据包括携带有实体词的文本,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第三阈值的未标注数据输入所述语言模型,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第四阈值的未标注数据加入所述训练数据,并将所述匹配度高于预设第四阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体。
6.根据权利要求1所述的实体链接方法,其特征在于,所述根据输出结果确定与所述待识别的实体词链接的无歧义实体包括:
将与所述实体词匹配概率大于预设第五阈值的无歧义实体确定为与所述实体词链接的无歧义实体。
7.一种实体链接装置,其特征在于,包括:
训练数据构建模块,用于通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;
训练模块,用于利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;
处理模块,用于将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体,
其中,所述训练模块用于:
利用所述训练数据分别训练语言模型和主题模型,所述语言模型能够输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,所述主题模型能够输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度;
将所述训练数据分别输入所述语言模型和所述主题模型,利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型,
所述训练模块还用于在利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型之前,利用所述语言模型和所述主题模型对所述训练数据进行扩充,其中,通过所述语言模型和所述主题模型交互进行训练,利用未标注数据生成新的标注数据扩充进所述训练数据。
8.一种实现实体链接的电子设备,其特征在于,包括:
处理器;和
存储器,在所述存储器中存储有计算机程序指令,
其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器执行以下步骤:
通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;
利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;
将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体,
其中,所述利用所述训练数据训练无歧义实体识别模型包括:
利用所述训练数据分别训练语言模型和主题模型,所述语言模型能够输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,所述主题模型能够输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度;
将所述训练数据分别输入所述语言模型和所述主题模型,利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型,
在执行所述利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型之前,还执行如下步骤:
利用所述语言模型和所述主题模型对所述训练数据进行扩充,其中,通过所述语言模型和所述主题模型交互进行训练,利用未标注数据生成新的标注数据扩充进所述训练数据。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器运行时,使得所述处理器执行以下步骤:
通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;
利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;
将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体,
其中,所述利用所述训练数据训练无歧义实体识别模型包括:
利用所述训练数据分别训练语言模型和主题模型,所述语言模型能够输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,所述主题模型能够输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度;
将所述训练数据分别输入所述语言模型和所述主题模型,利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型,
在执行所述利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型之前,还执行如下步骤:
利用所述语言模型和所述主题模型对所述训练数据进行扩充,其中,通过所述语言模型和所述主题模型交互进行训练,利用未标注数据生成新的标注数据扩充进所述训练数据。
CN201810146229.4A 2018-02-12 2018-02-12 实体链接方法、装置、设备、计算机可读存储介质 Active CN110209830B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810146229.4A CN110209830B (zh) 2018-02-12 2018-02-12 实体链接方法、装置、设备、计算机可读存储介质
US16/242,365 US10909319B2 (en) 2018-02-12 2019-01-08 Entity linking method, electronic device for performing entity linking, and non-transitory computer-readable recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810146229.4A CN110209830B (zh) 2018-02-12 2018-02-12 实体链接方法、装置、设备、计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110209830A CN110209830A (zh) 2019-09-06
CN110209830B true CN110209830B (zh) 2023-06-06

Family

ID=67541687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810146229.4A Active CN110209830B (zh) 2018-02-12 2018-02-12 实体链接方法、装置、设备、计算机可读存储介质

Country Status (2)

Country Link
US (1) US10909319B2 (zh)
CN (1) CN110209830B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110209830B (zh) * 2018-02-12 2023-06-06 株式会社理光 实体链接方法、装置、设备、计算机可读存储介质
WO2020033804A1 (en) * 2018-08-09 2020-02-13 Walmart Apollo, Llc System and method for electronic text classification
CN111563208B (zh) 2019-01-29 2023-06-30 株式会社理光 一种意图识别的方法、装置及计算机可读存储介质
CN111563209B (zh) 2019-01-29 2023-06-30 株式会社理光 一种意图识别的方法、装置及计算机可读存储介质
CN111738021B (zh) 2019-03-25 2023-10-31 株式会社理光 神经机器翻译模型的词向量处理方法、装置及存储介质
US11048887B1 (en) * 2019-07-24 2021-06-29 Intuit Inc. Cross-language models based on transfer learning
CN110598210B (zh) * 2019-08-29 2023-08-04 深圳市优必选科技股份有限公司 实体识别模型训练、实体识别方法、装置、设备及介质
CN110991187B (zh) * 2019-12-05 2024-03-08 北京奇艺世纪科技有限公司 一种实体链接的方法、装置、电子设备及介质
CN113032469B (zh) * 2019-12-24 2024-02-20 医渡云(北京)技术有限公司 文本结构化模型训练、医疗文本结构化方法及装置
CN113449113A (zh) * 2020-03-27 2021-09-28 京东数字科技控股有限公司 一种知识图谱构建方法、装置、电子设备及存储介质
CN111931509A (zh) * 2020-08-28 2020-11-13 北京百度网讯科技有限公司 实体链指方法、装置、电子设备及存储介质
CN114548102A (zh) 2020-11-25 2022-05-27 株式会社理光 实体文本的序列标注方法、装置及计算机可读存储介质
CN112560459B (zh) * 2020-12-04 2023-10-20 北京百度网讯科技有限公司 用于模型训练的样本筛选方法、装置、设备及存储介质
CN112464669B (zh) * 2020-12-07 2024-02-09 宁波深擎信息科技有限公司 股票实体词消歧方法、计算机设备及存储介质
CN112507718B (zh) * 2020-12-16 2024-02-13 中国科学技术大学 一种跨语种实体标注方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN106202382A (zh) * 2016-07-08 2016-12-07 南京缘长信息科技有限公司 链接实体方法和系统
CN106407180A (zh) * 2016-08-30 2017-02-15 北京奇艺世纪科技有限公司 一种实体消歧方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8244726B1 (en) * 2004-08-31 2012-08-14 Bruce Matesso Computer-aided extraction of semantics from keywords to confirm match of buyer offers to seller bids
US9892208B2 (en) * 2014-04-02 2018-02-13 Microsoft Technology Licensing, Llc Entity and attribute resolution in conversational applications
EP3516566A1 (en) * 2016-09-22 2019-07-31 nference, inc. Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities
US10142686B2 (en) * 2017-03-30 2018-11-27 Rovi Guides, Inc. System and methods for disambiguating an ambiguous entity in a search query based on the gaze of a user
CN110209830B (zh) * 2018-02-12 2023-06-06 株式会社理光 实体链接方法、装置、设备、计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN106202382A (zh) * 2016-07-08 2016-12-07 南京缘长信息科技有限公司 链接实体方法和系统
CN106407180A (zh) * 2016-08-30 2017-02-15 北京奇艺世纪科技有限公司 一种实体消歧方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于上下文特征的短文本实体链接研究;武川等;《情报科学》;20160229;第34卷(第2期);第144-147页 *

Also Published As

Publication number Publication date
US20190251164A1 (en) 2019-08-15
US10909319B2 (en) 2021-02-02
CN110209830A (zh) 2019-09-06

Similar Documents

Publication Publication Date Title
CN110209830B (zh) 实体链接方法、装置、设备、计算机可读存储介质
CN107992585B (zh) 通用标签挖掘方法、装置、服务器及介质
CN110110327B (zh) 一种基于对抗学习的文本标注方法和设备
JP6687741B2 (ja) 情報マイニング方法、システム、電子装置及び読み取り可能な記憶媒体
KR102464248B1 (ko) Spo의 추출 방법, 장치, 전자기기 및 저장 매체
CN112329465A (zh) 一种命名实体识别方法、装置及计算机可读存储介质
JP2021184237A (ja) データセット処理方法、装置、電子機器及び記憶媒体
EP3885963A1 (en) Method and apparatus for determining causality, electronic device and storage medium
JP7234483B2 (ja) エンティティリンキング方法、装置、電子デバイス、記憶媒体及びプログラム
EP3846069A1 (en) Pre-training method for sentiment analysis model, and electronic device
CN101241514A (zh) 一种生成纠错数据库的方法、自动纠错的方法和系统
CN110134780B (zh) 文档摘要的生成方法、装置、设备、计算机可读存储介质
CN108932218B (zh) 一种实例扩展方法、装置、设备和介质
CN110674306B (zh) 知识图谱的构建方法、装置、电子设备
CN110795938A (zh) 文本序列分词方法、装置及存储介质
CN113641830B (zh) 模型预训练方法、装置、电子设备和存储介质
CN111259262A (zh) 一种信息检索方法、装置、设备及介质
CN111626065A (zh) 神经机器翻译模型的训练方法、装置及存储介质
CN112528013A (zh) 文本摘要提取方法、装置、电子设备及存储介质
CN116245097A (zh) 训练实体识别模型的方法、实体识别方法及对应装置
CN112417875B (zh) 配置信息的更新方法、装置、计算机设备及介质
CN111339314A (zh) 一种三元组数据的生成方法、装置和电子设备
WO2019148797A1 (zh) 自然语言处理方法、装置、计算机设备和存储介质
CN113486169B (zh) 基于bert模型的同义语句生成方法、装置、设备及存储介质
CN111597224B (zh) 结构化信息的生成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant