CN111104520B - 一种基于人物身份的人物实体链接方法 - Google Patents
一种基于人物身份的人物实体链接方法 Download PDFInfo
- Publication number
- CN111104520B CN111104520B CN201911149062.8A CN201911149062A CN111104520B CN 111104520 B CN111104520 B CN 111104520B CN 201911149062 A CN201911149062 A CN 201911149062A CN 111104520 B CN111104520 B CN 111104520B
- Authority
- CN
- China
- Prior art keywords
- entity
- identity
- sim2
- entity linking
- linking method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及实体链接技术领域,具体地说,涉及一种基于人物身份的人物实体链接方法。其包括训练深度学习模型,从人物实体信息中进行身份抽取,找到人物名称在文中出现的句子,进行人物身份抽取,阈值判断。该基于人物身份的实体链接方式,人物身份信息的人物实体链接准确率高达93%+,特别对于文中带有人物身份描述的链接场景,效果更佳,采取深度学习模型从实体信息和文本中抽取人物身份信息,然后使用深度学习模型将身份信息转换为句向量,进而进行相似度比较,通过与阈值大小的比较,最终判断实体是否链接成功。
Description
技术领域
本发明涉及实体链接技术领域,具体地说,涉及一种基于人物身份的人物实体链接方法。
背景技术
随着网络数据以指数级别增长,网络已经成为最大的数据仓库之一,且大量的数据在网络上以自然语言的形式呈现。但是自然语言本身具有高度的歧义性,尤其是对于一些出现频率较高的实体,它们可能对应多个名称,而每个名称又可能对应多个同名实体。另一方面,类似像DBpdia,YAGO这样的实体知识库也在通过信息抽取等技术的发展而不断进行丰富和构建。因此,如果能够将网络数据与知识库连接起来,我们就可以对网络上的自然语言进行标注,这对我们理解网络数据的语义信息将提供很大的便利。而实现这一步的关键便是实体链接技术。给定一个富含一系列实体的知识库与已经标注好mention的语料,实体链接任务的目标是将每一个mention匹配到知识库中它所对应的实体上面,如果知识库中没有某一mention对应的实体项,则认为该mention不可链接到当前知识库,标记为NIL。实体链接技术在信息抽取,信息检索,内容分析,自动问答,知识库扩充等领域都有着广泛的应用。现有的实体链接方案大多是把实体信息与全文的文本信息进行比较,缺少对实体关键信息和全文中关于实体的有效相关信息的提取,致使引用了实体和全文中大量无用的噪声文本,导致链接准确率往往不够理想。
发明内容
本发明的目的在于提供一种基于人物身份的人物实体链接方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供一种基于人物身份的人物实体链接方法,其方法包括如下步骤:
步骤一:训练一个给定一段文本抽取出其中相应身份信息的深度学习模型,模型记做M;
步骤二:使用模型M从人物实体信息中进行身份抽取,记做a;
步骤三:找到人物名称在文中出现的句子,并将其拼接起来,记做S;
步骤四:使用模型M对拼接起来的句子S进行人物身份抽取,记做b;
步骤五:判断b是否为空,若为空,取S的第一句话记做S1,使用BERT分别计算a,S1的句向量,然后使用余弦定理计算a和S1的相似度,记做sim2,判断sim2与阈值SIM2的大小,若sim2>=SIM2,则表示链接成功,若sim2<SIM2,则表示链接失败;
步骤六:若b不为空,使用BERT分别计算a,b的句向量,然后使用余弦定理计算a和b的相似度,记做sim1,判断sim1与阈值SIM1的大小,若sim1>=SIM1,则表示链接成功。
作为优选,所述步骤一中,深度学习模型M架构为:word2vec+Bi-LSTM+CRF。
作为优选,所述word2vec为Google开源的一款将单词转换为向量的工具。
作为优选,所述LSTM的全称是Long Short-Term Memory,为RNN(RecurrentNeural Network)的一种。
作为优选,所述Bi-LSTM由前向LSTM与后向LSTM组合而成。
与现有技术相比,本发明的有益效果:该基于人物身份的人物实体链接方法中,基于人物身份的实体链接方式,人物身份信息的人物实体链接准确率高达93%+,特别对于文中带有人物身份描述的链接场景,效果更佳,采取深度学习模型从实体信息和文本中抽取人物身份信息,然后使用深度学习模型将身份信息转换为句向量,进而进行相似度比较,通过与阈值大小的比较,最终判断实体是否链接成功。
附图说明
图1为本发明整体流程图;
图2为本发明的抽取人物身份信息的模型架构图;
图3为本发明的抽取人物身份信息的模型效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图3所示,本发明提供一种技术方案:
本发明提供一种基于人物身份的人物实体链接方法,其方法步骤如下:
步骤一:训练一个给定一段文本抽取出其中相应身份信息的深度学习模型,模型记做M。模型架构为:word2vec+Bi-LSTM+CRF。其中word2vec是2013年Google开源了的一款将单词转换为向量的工具,在本专利中用于将文本中的单词转化为对应的词向量。LSTM的全称是Long Short-Term Memory,它是RNN(Recurrent Neural Network)的一种。LSTM由于其设计的特点,非常适合用于对时序数据的建模,如文本数据。Bi-LSTM是Bi-directionalLong Short-Term Memory的缩写,是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。Bi-LSTM相对于LSTM可以编码从后到前的信息,捕捉双向的语义依赖,故在本专利中我们采用效果更好的Bi-LSTM模型用于捕获文本序列的语义依赖。CRF中文名为条件随机场,CRF中有转移特征,它会考虑输出标签之间的顺序性,也会学习一些约束规则。CRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练过程中,这些约束可以通过CRF层自动学习到的。模型架构图如图2,最终模型效果如图3,上面为输入文本,下方为抽取出来的人物身份信息;
步骤二:使用模型M从人物实体信息中进行身份抽取,记做a;
步骤三:找到人物名称在文中出现的句子,并将其拼接起来,记做S;
步骤四:使用模型M对拼接起来的句子S进行人物身份抽取,记做b;
步骤五:判断b是否为空,若为空,取S的第一句话记做S1。使用BERT分别计算a,S1的句向量,然后使用余弦定理计算a和S1的相似度,记做sim2,判断sim2与阈值SIM2的大小,若sim2>=SIM2,则表示链接成功,若sim2<SIM2,则表示链接失败。其中BERT是一个新的语言表达模型(language representation model),全称是Bidirectional EncoderRepresentation Transformers。可以理解为这是一个通用的NLU(Natural LanguageUnderstanding)模型,为不同的NLP任务提供支持,是目前最优的语言模型。在本专利中用于将句子转换为对应的句向量。余弦定理用于计算两个向量之间的相似度;
步骤六:若b不为空,使用BERT分别计算a,b的句向量,然后使用余弦定理计算a和b的相似度,记做sim1。判断sim1与阈值SIM1的大小,若sim1>=SIM1,则表示链接成功。
本发明提出一种抽取人物身份信息的模型,基于人物身份信息的人物实体链接准确率高达93%+,特别对于文中带有人物身份描述的链接场景,效果更佳。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (4)
1.一种基于人物身份的人物实体链接方法,其方法包括如下步骤:
步骤一:训练一个给定一段文本抽取出其中相应身份信息的深度学习模型,模型记做M;
步骤二:使用模型M从人物实体信息中进行身份抽取,记做a;
步骤三:找到人物名称在文中出现的句子,并将其拼接起来,记做S;
步骤四:使用模型M对拼接起来的句子S进行人物身份抽取,记做b;
步骤五:判断b是否为空,若为空,取S的第一句话记做S1,使用BERT分别计算a,S1的句向量,然后使用余弦定理计算a和S1的相似度,记做sim2,判断sim2与阈值SIM2的大小,若sim2>=SIM2,则表示链接成功,若sim2<SIM2,则表示链接失败;
步骤六:若b不为空,使用BERT分别计算a,b的句向量,然后使用余弦定理计算a和b的相似度,记做sim1,判断sim1与阈值SIM1的大小,若sim1>=SIM1,则表示链接成功;
所述步骤一中,深度学习模型M架构为:word2vec+Bi-LSTM+CRF。
2.根据权利要求1所述的基于人物身份的人物实体链接方法,其特征在于:所述word2vec为Google开源的一款将单词转换为向量的工具。
3.根据权利要求2所述的基于人物身份的人物实体链接方法,其特征在于:所述LSTM的全称是Long Short-Term Memory,为RNN的一种。
4.根据权利要求2所述的基于人物身份的人物实体链接方法,其特征在于:所述Bi-LSTM由前向LSTM与后向LSTM组合而成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911149062.8A CN111104520B (zh) | 2019-11-21 | 2019-11-21 | 一种基于人物身份的人物实体链接方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911149062.8A CN111104520B (zh) | 2019-11-21 | 2019-11-21 | 一种基于人物身份的人物实体链接方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111104520A CN111104520A (zh) | 2020-05-05 |
CN111104520B true CN111104520B (zh) | 2023-06-30 |
Family
ID=70421438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911149062.8A Active CN111104520B (zh) | 2019-11-21 | 2019-11-21 | 一种基于人物身份的人物实体链接方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111104520B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666771B (zh) * | 2020-06-05 | 2024-03-08 | 北京百度网讯科技有限公司 | 文书的语义标签抽取、装置、电子设备及可读存储介质 |
CN112131343B (zh) * | 2020-09-14 | 2023-07-07 | 新讯数字科技(杭州)有限公司 | 一种中文小说对话人物识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959418A (zh) * | 2018-06-06 | 2018-12-07 | 中国人民解放军国防科技大学 | 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8655801B2 (en) * | 2005-10-26 | 2014-02-18 | Cortica, Ltd. | Computing device, a system and a method for parallel processing of data streams |
US8150813B2 (en) * | 2008-12-18 | 2012-04-03 | International Business Machines Corporation | Using relationships in candidate discovery |
US20150199378A1 (en) * | 2012-06-29 | 2015-07-16 | Nick Alex Lieven REYNTJEN | Method and apparatus for realizing a dynamically typed file or object system enabling a user to perform calculations over the fields associated with the files or objects in the system |
CN113506089A (zh) * | 2015-04-30 | 2021-10-15 | 微软技术许可有限责任公司 | 提取并显现来自数据源的用户工作属性 |
CN107704572B (zh) * | 2017-09-30 | 2021-07-13 | 北京奇虎科技有限公司 | 人物实体的创作角度挖掘方法及装置 |
US11144830B2 (en) * | 2017-11-21 | 2021-10-12 | Microsoft Technology Licensing, Llc | Entity linking via disambiguation using machine learning techniques |
CN108415902B (zh) * | 2018-02-10 | 2021-10-26 | 合肥工业大学 | 一种基于搜索引擎的命名实体链接方法 |
CN108959270B (zh) * | 2018-08-10 | 2022-08-19 | 新华智云科技有限公司 | 一种基于深度学习的实体链接方法 |
CN109582869B (zh) * | 2018-11-29 | 2022-09-30 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110263180B (zh) * | 2019-06-13 | 2021-06-04 | 北京百度网讯科技有限公司 | 意图知识图谱生成方法、意图识别方法及装置 |
-
2019
- 2019-11-21 CN CN201911149062.8A patent/CN111104520B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959418A (zh) * | 2018-06-06 | 2018-12-07 | 中国人民解放军国防科技大学 | 一种人物关系抽取方法、装置、计算机装置及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
"关系数据库中实体解析研究综述";高广尚等;《现代图书情报技术》;37-47 * |
Also Published As
Publication number | Publication date |
---|---|
CN111104520A (zh) | 2020-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829722B (zh) | 一种远程监督的Dual-Attention关系分类方法及系统 | |
CN108416058B (zh) | 一种基于Bi-LSTM输入信息增强的关系抽取方法 | |
CN108920461B (zh) | 一种多类型且含复杂关系的实体抽取方法及装置 | |
CN110781663B (zh) | 文本分析模型的训练方法及装置、文本分析方法及装置 | |
CN111160031A (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN110162749A (zh) | 信息提取方法、装置、计算机设备及计算机可读存储介质 | |
CN110110054A (zh) | 一种基于深度学习的从非结构化文本中获取问答对的方法 | |
CN111666758B (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN110765775A (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN110390049B (zh) | 一种面向软件开发问题的答案自动生成方法 | |
CN110046637B (zh) | 一种合同段落标注模型的训练方法、装置及设备 | |
CN111368542A (zh) | 一种基于递归神经网络的文本语言关联抽取方法和系统 | |
CN110347802A (zh) | 一种文本分析方法及装置 | |
CN116661805B (zh) | 代码表示的生成方法和装置、存储介质及电子设备 | |
CN111104520B (zh) | 一种基于人物身份的人物实体链接方法 | |
CN112507337A (zh) | 基于语义分析的恶意JavaScript代码检测模型的实现方法 | |
CN116595023A (zh) | 地址信息的更新方法和装置、电子设备及存储介质 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN110717316B (zh) | 字幕对话流的主题分割方法及装置 | |
CN114372454A (zh) | 文本信息抽取方法、模型训练方法、装置及存储介质 | |
CN114003708B (zh) | 基于人工智能的自动问答方法、装置、存储介质及服务器 | |
CN114330350B (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
CN110750632A (zh) | 一种改进的中文alice智能问答方法及系统 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |