CN111563147A - 一种知识问答系统中实体链接方法和装置 - Google Patents

一种知识问答系统中实体链接方法和装置 Download PDF

Info

Publication number
CN111563147A
CN111563147A CN202010261167.9A CN202010261167A CN111563147A CN 111563147 A CN111563147 A CN 111563147A CN 202010261167 A CN202010261167 A CN 202010261167A CN 111563147 A CN111563147 A CN 111563147A
Authority
CN
China
Prior art keywords
entity
initially selected
mention
characteristic information
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010261167.9A
Other languages
English (en)
Other versions
CN111563147B (zh
Inventor
张文剑
牟小峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202010261167.9A priority Critical patent/CN111563147B/zh
Publication of CN111563147A publication Critical patent/CN111563147A/zh
Application granted granted Critical
Publication of CN111563147B publication Critical patent/CN111563147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种知识问答系统中实体链接方法和装置。所述方法包括:获取问句中的实体提及;在知识库中获取每个实体提及对应的实体,得到初选实体;计算每个初选实体的特征信息,其中所述特征信息包括所述初选实体所匹配的实体提及的特征信息、所述初选实体和所述问句的特征信息以及所述初选实体的相邻关系的特征信息中的至少一个;根据所述每个知识库实体的特征信息,选出至少两个初选实体作为候选实体;从所述候选实体中确定所述问句中实体提及对应的实体链接结果。

Description

一种知识问答系统中实体链接方法和装置
技术领域
本申请实施例涉及信息处理领域,尤指一种知识问答系统中实体链接方法和装置。
背景技术
知识库由大量的三元组组成,三元组包括实体1、关系和实体2。例如:三元组为<蛋糕,主料,面粉>,蛋糕和面粉的关系是“主料”。
知识库问答系统是指基于知识库的问答系统,适用于人们生活的方方面面,例如在医疗、银行、保险、零售等行业建立相应专业知识的问答系统可以给用户提供更好的服务。知识库问答系统是一个拟人化的智能系统,它接收用户使用自然语言表达的问句,对问句进行语义解析和理解,利用知识库进行查询和推理,从而得出问句答案并返回给用户。实体链接是知识库问答系统中的关键性步骤,对整个知识库问答系统的准确性起着重要的影响。知识库问答系统中的实体链接是指将问句中的主题词(即用户想表达的主要事物)对应到知识库中的实体,并通过主题词、主题词在问句中的上下文、知识库实体及与知识库实体相邻的关系等信息筛选出正确的实体。
由于知识库中包含巨量的实体,为了保证主题词的召回率,问句会召回大量的实体提及,从而对后面候选实体筛选的准确性造成一定的干扰。在保证主题词被召回的情形下,如何从由实体提及匹配到的知识库实体中筛选出与问句主题词所匹配的那些知识库实体是影响实体链接效果的关键步骤。
在相关技术中,知识库问答系统中的实体链接方法主要分为以下几个步骤:1.通过建立好的实体词典和训练好的实体识别模型识别出那些可能成为问句主题词的字段,又称实体提及;2.将实体提及在知识库中进行精确匹配或模糊搜索,初步得到候选实体;3.计算候选实体相关的特征,筛选候选实体,得到问句的实体链接结果。
在有大量实体提及的情况下,利用上述手段很难准确地体现出问句中主题词所匹配到知识库中的实体。
发明内容
为了解决上述任一技术问题,本申请实施例提供了一种知识问答系统中实体链接方法和装置。
为了达到本申请实施例目的,本申请实施例提供了一种知识问答系统中实体链接方法,包括:
获取问句中的实体提及;
在知识库中获取每个实体提及对应的实体,得到初选实体;
计算每个初选实体的特征信息,其中所述特征信息包括所述初选实体所匹配的实体提及的特征信息、所述初选实体和所述问句的特征信息以及所述初选实体的相邻关系的特征信息中的至少一个;
根据所述每个知识库实体的特征信息,选出至少两个初选实体作为候选实体;
从所述候选实体中确定所述问句中实体提及对应的实体链接结果。
一种知识问答系统中实体链接装置,包括:
第一获取模块,被设置为获取问句中的实体提及;
第二获取模块,被设置为在知识库中获取每个实体提及对应的实体,得到初选实体;
计算模块,被设置为计算每个初选实体的特征信息,其中所述特征信息包括所述初选实体所匹配的实体提及的特征信息、所述初选实体和所述问句的特征信息以及所述初选实体的相邻关系的特征信息中的至少一个;
选择模块,被设置为根据所述每个知识库实体的特征信息,选出至少两个初选实体作为候选实体;
确定模块,被设置为从所述候选实体中确定所述问句中实体提及对应的实体链接结果。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上文中所述的方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上文中所述的方法。
上述技术方案中的一个技术方案具有如下优点或有益效果:
通过获取问句中的实体提及,在知识库中获取每个实体提及对应的实体,得到初选实体,再计算每个初选实体的特征信息,并根据所述每个知识库实体的特征信息,选出至少两个初选实体作为候选实体,从所述候选实体中确定所述问句中实体提及对应的实体链接结果,实现基于实体的特征进行实体提及所匹配的实体的选择,达到准确选择实体的目的。
本申请实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请实施例技术方案的进一步理解,并且构成说明书的一部分,与本申请实施例的实施例一起用于解释本申请实施例的技术方案,并不构成对本申请实施例技术方案的限制。
图1为本申请实施例提供的知识问答系统中实体链接方法的流程图;
图2为本申请实施例提供的知识问答系统中实体链接方法的示意图;
图3为本申请实施例提供的知识问答系统中实体链接装置的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请实施例的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请实施例中的实施例及实施例中的特征可以相互任意组合。
在实现本申请过程中,发明人对相关技术进行了技术分析,发现相关技术至少存在如下问题,包括:
在相关技术中筛选候选实体主要利用的特征是简单符号层方面的特征以及语义相似性特征,如实体提及长度、候选实体与问句的重叠字数、候选实体与问句的相似度等。如果仅是从符号层面进行匹配,是无法准确匹配到对应的实体的。
从人的思维方式来看,人类基本上不需要依靠知识库的信息而直接能根据问句便能判断出问句中的主题词,主要原因在于实体链接时所选取的特征没有深入地利用问句的语义信息。
在当前知识库问答系统的实体链接算法中,可以将实体词典和深度学习模型各自得到的实体提及结合在一起,由于深度学习模型能比较准确的得到问句中主题词,但无法达到知识库问答系统中主题词的召回率要求,这会影响整个问答系统回答问题的准确性。因此,如何充分的将深度学习模应用到当前知识库问答系统的实体链接方法中是一个亟待解决的问题。
图1为本申请实施例提供的知识问答系统中实体链接方法的流程图。图1所示方法包括:
步骤101、获取问句中的实体提及;
在一个示例性实施例中,通过实体词典和BERT-CRF(融合条件随机场的双向编码器表示)识别出问句中的所有实体提及,能够提取出问句中所有可能成为主题词的那些字段。
步骤102、在知识库中获取每个实体提及对应的实体,得到初选实体;
在一个示例性实施例中,通过在知识库中执行实体搜索,可以将所识别出来的实体提及通过精确匹配或模糊搜索对应到知识库中的实体。
步骤103、计算每个初选实体的特征信息,其中所述特征信息包括所述初选实体所匹配的实体提及的特征信息、所述初选实体和所述问句的特征信息以及所述初选实体的相邻关系的特征信息中的至少一个;
在一个示例性实施例中,实体特征是指计算其对应的实体提及、知识库实体、与知识库实体相邻的关系等自身特征和与问句间的特征。
步骤104、根据所述每个知识库实体的特征信息,选出至少两个初选实体作为候选实体;
在一个示例性实施例中,根据计算好的每个知识库实体的特征和训练好的多层感知机模型对每个实体进行打分,选出得分最高的5个实体作为实体链接算法所得到的候选实体。
步骤105、从所述候选实体中确定所述问句中实体提及对应的实体链接结果。
在一个示例性实施例中,选取不多于2个的候选实体作为每个实体提及匹配的实体;其中通过限制实体的个数可以有效控制实体提及所确定的数量,提高后续处理的效率。
本申请实施例提供的方法,通过获取问句中的实体提及,在知识库中获取每个实体提及对应的实体,得到初选实体,再计算每个初选实体的特征信息,并根据所述每个知识库实体的特征信息,选出至少两个初选实体作为候选实体,从所述候选实体中确定所述问句中实体提及对应的实体链接结果,实现基于实体的特征进行实体提及所匹配的实体的选择,达到准确选择实体的目的。
下面对本申请实施例提供的方法进行说明:
本申请实施例提供一种知识库问答系统中融合深度学习模型特征的实体链接方法,包括实体提及识别、知识库实体搜索、知识库实体特征计算、知识库实体筛选;其中该方法利用实体词典和命名实体识别模型相结合的实体提及识别方式得到问句中的实体提及,在候选实体的特征计算时,加入了由深度学习模型BERT-CRF(融合条件随机场的双向编码器表示)训练的实体识别模型特征,充分发挥出深度学习模型在命名实体识别任务中的高准确率,同时也保证了主题词的高召回率,明显提高了知识库问答系统中的实体链接部分以及整个问答系统的准确率。
图2为本申请实施例提供的知识问答系统中实体链接方法的示意图。如图2所示,图2所示方法包括:
步骤1:对于用户输入的问句,经过人工建立的实体词典和训练好的BERT-CRF(融合条件随机场的双向编码器表示)识别出问句中所有的实体提及。
在一个示例性实施例中,实体词典是将知识库中的所有实体聚合在一起所建立的词典。通过对问句进行切片,提取出现在实体词典中的字段,并过滤掉部分被包含在更长字段中那些字段,剩下的字段作为通过实体词典提取出来的实体提及。
BERT-CRF(融合条件随机场的双向编码器表示)模型是一个用于命名实体识别任务的深度学习模型。BERT-CRF模型以问句为输入,首先经过BERT(双向编码器表示)模型提取特征,再通过CRF(条件随机场)得到问句中每个字的实体标签结果,通过这个标签可以得到问句中的实体,将识别出来的所有实体作为实体提及。
步骤2:将所得到的所有实体提及通过精确匹配或模糊搜索得到对应的知识库中的实体。
步骤3:计算步骤2所得到的每个知识库实体的特征;
在一个示例性实施例中,所述初选实体所匹配的实体提及的特征信息包括实体提及的长度、实体提及在问句中的位置、实体提及的词频中的至少一个;
所述初选实体和所述问句的特征信息包括字重叠数、词重叠数、字集合距离、词集合距离以及语义相似性中的至少一个;
所述初选实体的相邻关系的特征信息包括如下至少一个:
与初选实体直接相邻的实体的总个数;
与初选实体有相邻关系的实体与所述问句的特征信息,包括字重叠数、词重叠数、字集合距离和词集合距离中的至少一个。
在上述实施例中,可以将特征信息划分为三类,分别为知识库实体所对应的实体提及特征、知识库实体特征、与知识库实体相邻的关系特征。其中:
知识库实体所对应的实体提及特征包括实体提及的长度、实体提及在问句中的位置、实体提及的词频等;
知识库实体特征包括知识库实体与问句的字重叠数和词重叠数、知识库实体与问句的字集合距离和词集合距离以及知识库实体与问句的语义相似性等;
与知识库实体相邻的关系特征包括知识库实体的所有相邻关系与问句的字重叠数和词重叠数、知识库实体的所有相邻关系与问句的字集合距离和词集合距离、知识库实体的流行度即与知识库实体直接相邻的关系的总个数等;
本申请实施例所提供的融合深度学习模型的特征属于知识库所对应的实体提及特征。由于BERT-CRF(融合条件随机场的双向编码器表示)模型比较好的学习到了问句的语义特征,当实体提及与由该模型所得到的实体提及越相近时,其更有可能成为主题词。
在一个示例性实施例中,所述初选实体所匹配的实体提及的特征信息可以通过如下方式得到,包括:
获取每个初选实体所匹配的实体提及e与问句的实体提及的集合H中每个实体提及ei的最大连续公共子串li,H={e1,e2,…,em},其中ei表示实体提及,i=1,2,…,m;
根据每个初选实体对应的最大连续公共子串li中各个子串,确定每个初选实体对应的目标实体提及ek,其中k为大于等于1且小于等于m;
利用每个初选实体所匹配的实体提及e以及目标实体提及ek,确定所述初选实体所匹配的实体提及的特征信息。
利用最大连续公共子串确定知识库实体所匹配的实体提及与问句中的实体提及的特征信息,建立实体与问句的语义信息的关联关系,提高实体对问句的语音信息的理解能力,从而提高对实体的选择准确度。
在一个示例性实施例中,所述确定每个初选实体对应的目标实体提及ek,包括:
获取每个初选实体对应的最大连续公共子串li中各个子串的字符串长度;
选择字符串长度的数值最大的最大连续公共子串lk,并将所述最大连续公共子串lk对应的实体提及的集合H中实体提及ek作为目标实体提及;
所述利用每个初选实体所匹配的实体提及e以及目标实体提及ek,确定所述初选实体所匹配的实体提及的特征信息,包括:
计算实体提及e的字符串长度g0以及目标实体提及ek的字符串长度h0
利用最大连续公共子串lk的字符串长度、字符串长度g0以及字符串长度h0,确定所述初选实体所匹配的实体提及的特征信息。
利用字符串长度信息确定实体提及的特征信息,在保证得到特征信息的前提下,优化特征信息的计算复杂度。
在上述示例性实施例中,该特征的计算过程如下:
1.将步骤1中由BERT-CRF(融合条件随机场的双向编码器表示)模型识别出来的实体提及记为集合H,H={e1,e2,…,em},其中ei表示实体提及,i=1,2,…,m;
2.对于每个知识库实体E,找到其对应的实体提及,即该实体是由哪个实体提及精确搜索或模糊匹配到的,记为e。计算实体提及e与集合H中每个实体提及ei的最大连续公共子串并记为li,i=1,2,…,m;
3.计算知识库实体E的深度学习模型特征sE,其具体计算过程为:
(1)取li的字符串长度的最大值,i=1,2,…,m,假设得到的最大值的下标为k,则e与集合H中每个实体提及ei的最大连续公共子串的最大值为lk
(2)计算实体提及e和ek的字符串长度,分别记为g0和h0,则SE等于2·lk/(g0+h0);
步骤4:将每个知识库实体按步骤3中方式计算好的特征代入由训练语料训练好的多层感知机模型,得到每个实体可能成为主实体的概率,保留下来5个候选实体。
在一个示例性实施例中,所述根据所述每个知识库实体的特征信息,选出至少两个初选实体作为候选实体,包括:
获取每个初选实体成为主实体的概率信息;
按照概率从高到低的顺序,确定每个初选实体的被选中的顺序;
选取顺序在前的至少1个初选实体存储在集合G作为候选实体,将集合G中的候选实体所对应的实体提及存储在集合T;
判断所述剩余的初选实体中顺序最靠前的初选实体对应的实体提及是否在所述集合T中满足预设的出现次数少的判断条件;如果满足所述判断条件,则将所述顺序最靠前的初选实体与其对应的初选实体提及分别存储到集合G和集合T中,否则,过滤掉所述顺序最靠前的初选实体;依此类推,直到集合G中候选实体的数量满足预设的个数阈值为止。
在筛选实体时,首先取概率最高的2个候选实体放入集合G,记录集合G中实体所对应的实体提及并放入集合T,接着取出概率第3高的实体以及它所对应的实体提及,将该实体提及与集合T进行比较,如果集合T没有包含该实体提及或者该实体提及在集合T中只出现过一次,则将这个实体与其对应的实体提及分别加入集合G和T中,否则过滤掉概率第3高的实体。依此类推,直到集合G中包含5个候选实体或者没有更多的实体来进行选择。最后得到的集合G中的候选实体即为知识库问答系统中实体链接算法所得到的结果。
述实施例中所使用的深度学习模型不局限于BERT-CRF模型,使用其它深度学习模型如LSTM-CRF(融合条件随机场的长短期记忆网络)或者未来出现的用于命名实体识别任务的模型皆可达到与本申请实施例相近的效果。
本申请实施例提供的知识库问答系统中融合深度学习模型特征的实体链接方法,在筛选候选实体时,加入BERT-CRF(融合条件随机场的双向编码器表示)模型特征,充分利用了BERT-CRF对问句的语义特征提取功能,给予最有可能成为主题词的实体提及较大的特征权重,从而使得最后链接到的知识库实体更能体现出问句的主题;同时,最后筛选出来的候选实体以每个实体提及至多只能保留两个对应的知识库实体为限制,有效地缓解了当BERT-CRF模型没有正确识别出主题词时所造成的负面影响,使得实体链接结果以及整个问答系统的准确率得到较大的提升。
图3为本申请实施例提供的知识问答系统中实体链接装置的结构图。如图3所示,图3所示装置包括:
第一获取模块,被设置为获取问句中的实体提及;
第二获取模块,被设置为在知识库中获取每个实体提及对应的实体,得到初选实体;
计算模块,被设置为计算每个初选实体的特征信息,其中所述特征信息包括所述初选实体所匹配的实体提及的特征信息、所述初选实体和所述问句的特征信息以及所述初选实体的相邻关系的特征信息中的至少一个;
选择模块,被设置为根据所述每个知识库实体的特征信息,选出至少两个初选实体作为候选实体;
确定模块,被设置为从所述候选实体中确定所述问句中实体提及对应的实体链接结果。
所述初选实体所匹配的实体提及的特征信息包括实体提及的长度、实体提及在问句中的位置、实体提及的词频中的至少一个;
所述初选实体和所述问句的特征信息包括字重叠数、词重叠数、字集合距离、词集合距离以及语义相似性中的至少一个;
所述初选实体的相邻关系的特征信息包括如下至少一个:
与初选实体直接相邻的实体的总个数;
与初选实体有相邻关系的实体与所述问句的特征信息,包括字重叠数、词重叠数、字集合距离和词集合距离中的至少一个。
在一个示例性实施例中,所述计算模块通过如下方式得到初选实体所匹配的实体提及的特征信息,包括:
获取每个初选实体所匹配的实体提及e与问句的实体提及的集合H中每个实体提及ei的最大连续公共子串li,H={e1,e2,…,em},其中ei表示实体提及,i=1,2,…,m;
根据每个初选实体对应的最大连续公共子串li中各个子串,确定每个初选实体对应的目标实体提及ek,其中k为大于等于1且小于等于m;
利用每个初选实体所匹配的实体提及e以及目标实体提及ek,确定所述初选实体所匹配的实体提及的特征信息。
在一个示例性实施例中,所述计算模块通过如下方式确定每个初选实体对应的目标实体提及ek,包括:
获取每个初选实体对应的最大连续公共子串li中各个子串的字符串长度;
选择字符串长度的数值最大的最大连续公共子串lk,并将所述最大连续公共子串lk对应的实体提及的集合H中实体提及ek作为目标实体提及;
所述计算模块通过如下方式利用每个初选实体所匹配的实体提及e以及目标实体提及ek,确定所述初选实体所匹配的实体提及的特征信息,包括:
计算实体提及e的字符串长度g0以及目标实体提及ek的字符串长度h0
利用最大连续公共子串lk的字符串长度、字符串长度g0以及字符串长度h0,确定所述初选实体所匹配的实体提及的特征信息。
根据所述每个知识库实体的特征信息,选出至少两个初选实体作为候选实体。
在一个示例性实施例中,所述选择模块包括:
获取单元,被设置为获取每个初选实体成为主实体的概率信息;
确定单元,被设置为按照概率从高到低的顺序,确定每个初选实体的被选中的顺序;
选取单元,被设置为选取顺序在前的至少1个初选实体存储在集合G作为候选实体,将集合G中的候选实体所对应的实体提及存储在集合T;判断所述剩余的初选实体中顺序最靠前的初选实体对应的实体提及是否在所述集合T中满足预设的出现次数少的判断条件;如果满足所述判断条件,则将所述顺序最靠前的初选实体与其对应的初选实体提及分别存储到集合G和集合T中,否则,过滤掉所述顺序最靠前的初选实体;依此类推,直到集合G中候选实体的数量满足预设的个数阈值为止。
本申请实施例提供的装置,通过获取问句中的实体提及,在知识库中获取每个实体提及对应的实体,得到初选实体,再计算每个初选实体的特征信息,并根据所述每个知识库实体的特征信息,选出至少两个初选实体作为候选实体,从所述候选实体中确定所述问句中实体提及对应的实体链接结果,实现基于实体的特征进行实体提及所匹配的实体的选择,达到准确选择实体的目的。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上文任一项中所述的方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上文任一项中所述的方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (10)

1.一种知识问答系统中实体链接方法,包括:
获取问句中的实体提及;
在知识库中获取每个实体提及对应的实体,得到初选实体;
计算每个初选实体的特征信息,其中所述特征信息包括所述初选实体所匹配的实体提及的特征信息、所述初选实体和所述问句的特征信息以及所述初选实体的相邻关系的特征信息中的至少一个;
根据所述每个知识库实体的特征信息,选出至少两个初选实体作为候选实体;
从所述候选实体中确定所述问句中实体提及对应的实体链接结果。
2.根据权利要求1所述的方法,其特征在于:
所述初选实体所匹配的实体提及的特征信息包括实体提及的长度、实体提及在问句中的位置、实体提及的词频中的至少一个;
所述初选实体和所述问句的特征信息包括字重叠数、词重叠数、字集合距离、词集合距离以及语义相似性中的至少一个;
所述初选实体的相邻关系的特征信息包括如下至少一个:
与初选实体直接相邻的实体的总个数;
与初选实体有相邻关系的实体与所述问句的特征信息,包括字重叠数、词重叠数、字集合距离和词集合距离中的至少一个。
3.根据权利要求1所述的方法,其特征在于,所述初选实体所匹配的实体提及的特征信息通过如下方式得到,包括:
获取每个初选实体所匹配的实体提及e与问句的实体提及的集合H中每个实体提及ei的最大连续公共子串li,H={e1,e2,…,em},其中ei表示实体提及,i=1,2,…,m;
根据每个初选实体对应的最大连续公共子串li中各个子串,确定每个初选实体对应的目标实体提及ek,其中k为大于等于1且小于等于m;
利用每个初选实体所匹配的实体提及e以及目标实体提及ek,确定所述初选实体所匹配的实体提及的特征信息。
4.根据权利要求3所述的方法,其特征在于:
所述确定每个初选实体对应的目标实体提及ek,包括:
获取每个初选实体对应的最大连续公共子串li中各个子串的字符串长度;
选择字符串长度的数值最大的最大连续公共子串lk,并将所述最大连续公共子串lk对应的实体提及的集合H中实体提及ek作为目标实体提及;
所述利用每个初选实体所匹配的实体提及e以及目标实体提及ek,确定所述初选实体所匹配的实体提及的特征信息,包括:
计算实体提及e的字符串长度g0以及目标实体提及ek的字符串长度h0
利用最大连续公共子串lk的字符串长度、字符串长度g0以及字符串长度h0,确定所述初选实体所匹配的实体提及的特征信息;
根据所述每个知识库实体的特征信息,选出至少两个初选实体作为候选实体。
5.根据权利要求1所述的方法,其特征在于,所述根据所述每个知识库实体的特征信息,选出至少两个初选实体作为候选实体,包括:
获取每个初选实体成为主实体的概率信息;
按照概率从高到低的顺序,确定每个初选实体的被选中的顺序;
选取顺序在前的至少1个初选实体存储在集合G作为候选实体,将集合G中的候选实体所对应的实体提及存储在集合T;
判断所述剩余的初选实体中顺序最靠前的初选实体对应的实体提及是否在所述集合T中满足预设的出现次数少的判断条件;如果满足所述判断条件,则将所述顺序最靠前的初选实体与其对应的初选实体提及分别存储到集合G和集合T中,否则,过滤掉所述顺序最靠前的初选实体;依此类推,直到集合G中候选实体的数量满足预设的个数阈值为止。
6.一种知识问答系统中实体链接装置,包括:
第一获取模块,被设置为获取问句中的实体提及;
第二获取模块,被设置为在知识库中获取每个实体提及对应的实体,得到初选实体;
计算模块,被设置为计算每个初选实体的特征信息,其中所述特征信息包括所述初选实体所匹配的实体提及的特征信息、所述初选实体和所述问句的特征信息以及所述初选实体的相邻关系的特征信息中的至少一个;
选择模块,被设置为根据所述每个知识库实体的特征信息,选出至少两个初选实体作为候选实体;
确定模块,被设置为从所述候选实体中确定所述问句中实体提及对应的实体链接结果。
7.根据权利要求6所述的装置,其特征在于,所述计算模块通过如下方式得到初选实体所匹配的实体提及的特征信息,包括:
获取每个初选实体所匹配的实体提及e与问句的实体提及的集合H中每个实体提及ei的最大连续公共子串li,H={e1,e2,…,em},其中ei表示实体提及,i=1,2,…,m;
根据每个初选实体对应的最大连续公共子串li中各个子串,确定每个初选实体对应的目标实体提及ek,其中k为大于等于1且小于等于m;
利用每个初选实体所匹配的实体提及e以及目标实体提及ek,确定所述初选实体所匹配的实体提及的特征信息。
8.根据权利要求6所述的装置,其特征在于,所述选择模块包括:
获取单元,被设置为获取每个初选实体成为主实体的概率信息;
确定单元,被设置为按照概率从高到低的顺序,确定每个初选实体的被选中的顺序;
选取单元,被设置为选取顺序在前的至少1个初选实体存储在集合G作为候选实体,将集合G中的候选实体所对应的实体提及存储在集合T;判断所述剩余的初选实体中顺序最靠前的初选实体对应的实体提及是否在所述集合T中满足预设的出现次数少的判断条件;如果满足所述判断条件,则将所述顺序最靠前的初选实体与其对应的初选实体提及分别存储到集合G和集合T中,否则,过滤掉所述顺序最靠前的初选实体;依此类推,直到集合G中候选实体的数量满足预设的个数阈值为止。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5任一项中所述的方法。
CN202010261167.9A 2020-04-03 2020-04-03 一种知识问答系统中实体链接方法和装置 Active CN111563147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010261167.9A CN111563147B (zh) 2020-04-03 2020-04-03 一种知识问答系统中实体链接方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010261167.9A CN111563147B (zh) 2020-04-03 2020-04-03 一种知识问答系统中实体链接方法和装置

Publications (2)

Publication Number Publication Date
CN111563147A true CN111563147A (zh) 2020-08-21
CN111563147B CN111563147B (zh) 2023-09-22

Family

ID=72070415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010261167.9A Active CN111563147B (zh) 2020-04-03 2020-04-03 一种知识问答系统中实体链接方法和装置

Country Status (1)

Country Link
CN (1) CN111563147B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052297A (zh) * 2020-09-07 2020-12-08 北京字节跳动网络技术有限公司 信息生成方法、装置、电子设备和计算机可读介质
CN113204628A (zh) * 2021-05-17 2021-08-03 上海明略人工智能(集团)有限公司 用于获取问句答案的方法、装置、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120078636A1 (en) * 2010-09-28 2012-03-29 International Business Machines Corporation Evidence diffusion among candidate answers during question answering
WO2017181834A1 (zh) * 2016-04-19 2017-10-26 中兴通讯股份有限公司 一种智能问答方法及装置
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN109271524A (zh) * 2018-08-02 2019-01-25 中国科学院计算技术研究所 知识库问答系统中的实体链接方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120078636A1 (en) * 2010-09-28 2012-03-29 International Business Machines Corporation Evidence diffusion among candidate answers during question answering
WO2017181834A1 (zh) * 2016-04-19 2017-10-26 中兴通讯股份有限公司 一种智能问答方法及装置
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法
CN109271524A (zh) * 2018-08-02 2019-01-25 中国科学院计算技术研究所 知识库问答系统中的实体链接方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052297A (zh) * 2020-09-07 2020-12-08 北京字节跳动网络技术有限公司 信息生成方法、装置、电子设备和计算机可读介质
CN112052297B (zh) * 2020-09-07 2024-03-22 抖音视界有限公司 信息生成方法、装置、电子设备和计算机可读介质
CN113204628A (zh) * 2021-05-17 2021-08-03 上海明略人工智能(集团)有限公司 用于获取问句答案的方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN111563147B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
CN111414465B (zh) 基于知识图谱的问答系统中的处理方法和装置
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN110363194A (zh) 基于nlp的智能阅卷方法、装置、设备及存储介质
CN108182177A (zh) 一种数学试题知识点自动化标注方法和装置
CN111291566B (zh) 一种事件主体识别方法、装置、存储介质
CN109271524B (zh) 知识库问答系统中的实体链接方法
CA3203944A1 (en) Deep-learning-based system and process for image recognition
KR20190108378A (ko) 이미지 캡션 자동 생성 방법 및 시스템
CN111832305B (zh) 一种用户意图识别方法、装置、服务器和介质
CN112257966A (zh) 模型处理方法、装置、电子设备及存储介质
CN111563147A (zh) 一种知识问答系统中实体链接方法和装置
CN110717021A (zh) 人工智能面试中获取输入文本和相关装置
EP3769270A1 (en) A method, an apparatus and a computer program product for an interpretable neural network representation
CN112131401A (zh) 一种概念知识图谱构建方法和装置
CN114925174A (zh) 文档检索方法、装置及电子设备
CN114722176A (zh) 一种智能答疑的方法、装置、介质及电子设备
CN114840685A (zh) 一种应急预案知识图谱构建方法
CN115757775B (zh) 基于文本蕴含的无触发词文本事件检测方法及系统
CN115730058A (zh) 一种基于知识融合的推理问答方法
CN115934883A (zh) 一种基于语义增强的多特征融合的实体关系联合抽取方法
CN116090450A (zh) 一种文本处理方法及计算设备
CN113378826B (zh) 一种数据处理方法、装置、设备及存储介质
WO2023173554A1 (zh) 坐席违规话术识别方法、装置、电子设备、存储介质
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant