CN112579752A - 实体关系的抽取方法及装置、存储介质、电子设备 - Google Patents
实体关系的抽取方法及装置、存储介质、电子设备 Download PDFInfo
- Publication number
- CN112579752A CN112579752A CN202011457766.4A CN202011457766A CN112579752A CN 112579752 A CN112579752 A CN 112579752A CN 202011457766 A CN202011457766 A CN 202011457766A CN 112579752 A CN112579752 A CN 112579752A
- Authority
- CN
- China
- Prior art keywords
- entity
- sentence
- knowledge base
- preset
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种实体关系的抽取方法及装置、存储介质、电子设备,属于人工智能领域。其中,该方法包括:获取待识别的原始自然语句;基于预设通用规则识别所述原始自然语句中的问题实体;采用预设神经网络模型抽取所述问题实体的实体关系,其中,所述预设神经网络模型基于通用语料训练得到,所述实体关系用于在基于知识库的问答系统KBQA中查询与所述问题实体相关的答案实体。通过本发明,解决了相关技术从自然语句中获取问题实体和实体关系效率低的技术问题,提高了问答系统在多个业务领域的可迁移性,解决了问答系统对领域数据的依赖问题,提高了问答系统效率和适用性。
Description
技术领域
本发明涉及人工智能领域,具体而言,涉及一种实体关系的抽取方法及装置、存储介质、电子设备。
背景技术
相关技术中,问答系统(Question Answering System,QA)是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户提出的问题。其研究兴起的主要原因是人们对快速、准确地获取信息的需求。其本质是一个从问句到答案的映射过程。近年来,随着知识库的快速发展,基于知识库的问答系统引起了大量的关注。
相关技术中的知识库问答方法包括基于规则的知识库问答和基于深度学习的问答方法。基于规则的知识库问答根据问题的语法,语义等手工地预定义一些规则,再利用这些规则对问题中的实体以及关系进行匹配;而基于深度学习的问答方法,则根据大量的已标注语料进行模型训练,利用训练好的模型对问题中实体和关系进行识别和抽取。基于规则的知识库问答方法逻辑简单明了,往往能够取得不错的效果,但是其规则的制定却十分繁琐冗杂,而且大量的规则不利于问答系统在不同领域的扩展和迁移,算法适用性较差。近年来,随着机器学习,深度学习的不断发展,利用深度学习在命名实体识别的任务上的优良表现,知识库问答系统也经常结合深度学习方法作问句中实体的召回,但是深度学习方法对训练数据集的数量和质量都有着较高的要求,这就需要耗费成本收集大量的数据并对原始数据进行标注和清洗,而且每当数据进行更新,就要针对最新的数据重新训练模型,导致模型的迁移能力和数据泛化能力较差,而拥有较高准确度的复杂模型(预训练模型)又会带来效率问题。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本发明实施例提供了一种实体关系的抽取方法及装置、存储介质、电子设备。
根据本申请实施例的一个方面,提供了一种实体关系的抽取方法,包括:获取待识别的原始自然语句;基于预设通用规则识别所述原始自然语句中的问题实体;采用预设神经网络模型抽取所述问题实体的实体关系,其中,所述预设神经网络模型基于通用语料训练得到,所述实体关系用于在基于知识库的问答系统KBQA中查询与所述问题实体相关的答案实体。
进一步,基于预设通用规则识别所述原始自然语句中的问题实体包括:对所述原始自然语句进行清洗,删除无关词和无关符号,得到去停之后的中间语句;基于所述中间语句从预设实体词典中召回M个候选知识库实体;分别计算所述M个候选知识库实体的目标特征,其中,所述目标特征包括字符级特征以及知识库特征;基于所述目标特征对所述M个候选知识库实体进行特征度排序,在序列中选择特征度最大的N个候选知识库实体作为问题实体,其中,N≤M,M,N均为正整数。
进一步,基于所述中间语句从预设实体词典中召回M个候选知识库实体包括以下至少之一:将所述中间语句切片为多个子语句,在所述多个子语句中选择命中所述预设实体词典的子语句作为候选知识库实体;将所述中间语句切片为多个子语句,计算每个子语句与所述预设实体词典的匹配度,选择匹配度大于预设值的子语句作为候选知识库实体。
进一步,基于所述目标特征对所述M个候选知识库实体进行特征度排序包括:获取所述目标特征的预设权重组合,其中,所述预设权重组合中的每个权值对应所述目标特征的一个特征维度,所述预设权重组合基于样本数据采用先验和后验的方式调节得到;采用所述权重组合加权求和所述目标特征的特征度;基于所述目标特征对所述M个候选知识库实体进行特征度排序。
进一步,采用预设神经网络模型抽取所述问题实体的实体关系包括:针对每个问题实体,采用查询语句在预设知识库中对所述问题实体进行关系搜索,召回所述问题实体的实体关系集合;分别计算所述实体关系集合的特征度,并基于所述特征度在所述实体关系集合中选择多个候选实体关系;分别计算所述多个候选实体关系与所述中间语句的文本相似度,并在所述多个候选实体关系中选择文本相似度最高的实体关系作为所述问题实体的实体关系,其中,所述中间语句是所述原始自然语句在去停之后得到的语句。
进一步,分别计算所述实体关系集合的特征度包括:针对所述实体关系集合中的每个实体关系,提取所述实体关系与所述问题实体组成的路径文本,以及提取所述原始自然语句在去停处理之后的中间语句文本;计算所述路径文本与所述中间语句文本之间的字符特征。
进一步,分别计算所述多个候选实体关系与所述中间语句的文本相似度包括:使用Word2vec模型获取多个候选实体关系和所述中间语句的特征向量,其中,所述Word2vec模型基于通用语料训练得到;基于所述特征向量分别计算所述多个候选实体关系与所述中间语句之间的余弦相似度。
根据本申请实施例的另一个方面,还提供了一种实体关系的抽取装置,包括:获取模块,用于获取待识别的原始自然语句;识别模块,用于基于预设通用规则识别所述原始自然语句中的问题实体;抽取模块,用于采用预设神经网络模型抽取所述问题实体的实体关系,其中,所述预设神经网络模型基于通用语料训练得到,所述实体关系用于在基于知识库的问答系统KBQA中查询与所述问题实体相关的答案实体。
进一步,所述识别模块包括:清洗单元,用于对所述原始自然语句进行清洗,删除无关词和无关符号,得到去停之后的中间语句;召回单元,用于基于所述中间语句从预设实体词典中召回M个候选知识库实体;计算单元,用于分别计算所述M个候选知识库实体的目标特征,其中,所述目标特征包括字符级特征以及知识库特征;选择单元,用于基于所述目标特征对所述M个候选知识库实体进行特征度排序,在序列中选择特征度最大的N个候选知识库实体作为问题实体,其中,N≤M,M,N均为正整数。
进一步,所述召回单元包括以下至少之一:第一召回子单元,用于将所述中间语句切片为多个子语句,在所述多个子语句中选择命中所述预设实体词典的子语句作为候选知识库实体;第二召回子单元,用于将所述中间语句切片为多个子语句,计算每个子语句与所述预设实体词典的匹配度,选择匹配度大于预设值的子语句作为候选知识库实体。
进一步,所述选择单元包括:获取子单元,用于获取所述目标特征的预设权重组合,其中,所述预设权重组合中的每个权值对应所述目标特征的一个特征维度,所述预设权重组合基于样本数据采用先验和后验的方式调节得到;计算子单元,用于采用所述权重组合加权求和所述目标特征的特征度;排序子单元,用于基于所述目标特征对所述M个候选知识库实体进行特征度排序。
进一步,所述抽取模块包括:召回单元,用于针对每个问题实体,采用查询语句在预设知识库中对所述问题实体进行关系搜索,召回所述问题实体的实体关系集合;第一选择单元,用于分别计算所述实体关系集合的特征度,并基于所述特征度在所述实体关系集合中选择多个候选实体关系;第二选择单元,用于分别计算所述多个候选实体关系与所述中间语句的文本相似度,并在所述多个候选实体关系中选择文本相似度最高的实体关系作为所述问题实体的实体关系,其中,所述中间语句是所述原始自然语句在去停之后得到的语句。
进一步,所述第一选择单元包括:提取子单元,用于针对所述实体关系集合中的每个实体关系,提取所述实体关系与所述问题实体组成的路径文本,以及提取所述原始自然语句在去停处理之后的中间语句文本;计算子单元,用于计算所述路径文本与所述中间语句文本之间的字符特征。
进一步,所述第二选择单元包括:获取子单元,用于使用Word2vec模型获取多个候选实体关系和所述中间语句的特征向量,其中,所述Word2vec模型基于通用语料训练得到;计算子单元,用于基于所述特征向量分别计算所述多个候选实体关系与所述中间语句之间的余弦相似度。
根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
根据本申请实施例的另一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的步骤。
通过本发明,获取待识别的原始自然语句,基于预设通用规则识别所述原始自然语句中的问题实体,采用预设神经网络模型抽取所述问题实体的实体关系,通过采用通用规则识别问题实体,采用神经网络模型抽取所述问题实体的实体关系,实现了一种基于规则和基于深度学习的知识库问答系统,不需要针对业务领域进行规则设定和模型样本处理,解决了相关技术从自然语句中获取问题实体和实体关系效率低的技术问题,提高了问答系统在多个业务领域的可迁移性,解决了问答系统对领域数据的依赖问题,提高了问答系统效率和适用性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种服务器的硬件结构框图;
图2是根据本发明实施例的一种实体关系的抽取方法的流程图;
图3是本发明实施例的一个实现流程图;
图4是根据本发明实施例的一种实体关系的抽取装置的结构框图;
图5是实施本发明实施例的一种电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
本申请实施例一所提供的方法实施例可以在服务器、计算机、或者类似的运算装置中执行。以运行在服务器上为例,图1是本发明实施例的一种服务器的硬件结构框图。如图1所示,服务器10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述服务器还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述服务器的结构造成限定。例如,服务器10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储服务器程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种实体关系的抽取方法对应的服务器程序,处理器102通过运行存储在存储器104内的服务器程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务器10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种实体关系的抽取方法,图2是根据本发明实施例的一种实体关系的抽取方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取待识别的原始自然语句;
在本实施例的原始自然语句可以是用户输入的自然语句,或者说语音识别或其他方式转化后的自然语句等。原始自然语句是一个提问的问题文本。
步骤S204,基于预设通用规则识别原始自然语句中的问题实体;
本实施例应用在基于知识库的问答系统(Question Answering System ofKnowledge Base,KBQA)中,KBQA的知识库中的数据以三元组的形式存储,即(实体1,实体关系,实体2),问题实体是三元组中的实体1,实体2是与其对应的是问答系统输出的答案实体。
本实施例的预设通用规则是所有类型,所有领域的自然语句通用的规则,基于原始自然语句影响问题答案的文本特征识别出其中包含的问题实体,不基于原始自然语句的语法和语义识别问题实体,极大地简化了人工规则制定的过程。
步骤S206,采用预设神经网络模型抽取问题实体的实体关系,其中,预设神经网络模型基于通用语料训练得到,实体关系用于在基于知识库的问答系统KBQA中查询与问题实体相关的答案实体;
可选的,在抽取到实体关系后,还可以将问题实体,以及对应的实体关系输入到KBQA中,进而输出原始自然语句的问题答案,即三元组中的实体2,最终返回给用户,完成一次人机交互的自动应答。
本实施例的预设神经网络模型,使用通用的语料作为训练数据,训练好的预设神经网络模型用于获取文本的词向量,不需要针对不同数据对模型做重复训练,可以大大减少对领域内标注数据的依赖,即便是不同领域的问答系统,同样具有较强的可复用性。
通过上述步骤,获取待识别的原始自然语句,基于预设通用规则识别所述原始自然语句中的问题实体,采用预设神经网络模型抽取所述问题实体的实体关系,通过采用通用规则识别问题实体,采用神经网络模型抽取所述问题实体的实体关系,实现了一种基于规则和基于深度学习的知识库问答系统,不需要针对业务领域进行规则设定和模型样本处理,解决了相关技术从自然语句中获取问题实体和实体关系效率低的技术问题,提高了问答系统在多个业务领域的可迁移性,解决了问答系统对领域数据的依赖问题,提高了问答系统效率和适用性。
在本实施例的一个实施方式中,基于预设通用规则识别原始自然语句中的问题实体包括:
S11,对原始自然语句进行清洗,删除无关词和无关符号,得到去停之后的中间语句;
可选的,无关词和无关符号,无关词可以是语气词,如“啊”、“哦”等,无关符号可以是最后的标点符号等,去停之后,得到原始自然语句的中间语句。
S12,基于中间语句从预设实体词典中召回M个候选知识库实体;
可选的,可以结合实体词典,利用精确匹配或者模糊搜索的方式进行知识库实体的初步召回,基于中间语句从预设实体词典中召回M个候选知识库实体包括以下至少之一:将中间语句切片为多个子语句,在多个子语句中选择命中预设实体词典的子语句作为候选知识库实体;将中间语句切片为多个子语句,计算每个子语句与预设实体词典的匹配度,选择匹配度大于预设值的子语句作为候选知识库实体。
模糊搜索相较于精确匹配,不要求切片后的子语句与预设实体词典中的实体完全一致,匹配结果更加广泛,但精确匹配的速度更快,在实际召回过程中,可以两者结合。
S13,分别计算M个候选知识库实体的目标特征,其中,目标特征包括字符级特征以及知识库特征;
S14,基于目标特征对M个候选知识库实体进行特征度排序,在序列中选择特征度最大的N个候选知识库实体作为问题实体,其中,N≤M,M,N均为正整数。
可选的,基于目标特征对M个候选知识库实体进行特征度排序包括:获取目标特征的预设权重组合,其中,预设权重组合中的每个权值对应目标特征的一个特征维度,预设权重组合基于样本数据采用先验和后验的方式训练得到;采用权重组合加权求和目标特征的特征度;基于目标特征对M个候选知识库实体进行特征度排序。
在本实施例的一个实施方式中,采用预设神经网络模型抽取问题实体的实体关系包括:
S21,针对每个问题实体,采用查询语句在预设知识库中对问题实体进行关系搜索,召回问题实体的实体关系集合;
S22,分别计算实体关系集合的特征度,并基于特征度在实体关系集合中选择多个候选实体关系;
可选的,分别计算实体关系集合的特征度包括:针对实体关系集合中的每个实体关系,提取实体关系与问题实体组成的路径文本,以及提取原始自然语句在去停处理之后的中间语句文本;计算路径文本与中间语句文本之间的字符特征。
在一些实例中,字符特征包括多个维度的特征,如字重叠特征、词重叠特征、字词关联特征等,在这种情况下,可以对字符特征在多个维度进行加权求和,并对结果进行排序。因为可能会存在同义词,近义词等通过权重调优难以进行区分的特例,故选择特征度前N(如5)的实体关系作为候选实体关系,用于进一步的解析。
S23,分别计算多个候选实体关系与中间语句的文本相似度,并在多个候选实体关系中选择文本相似度最高的实体关系作为问题实体的实体关系,其中,所述中间语句是所述原始自然语句在去停之后得到的语句。
可选的,分别计算多个候选实体关系与中间语句的文本相似度包括:使用Word2vec模型获取多个候选实体关系和中间语句的特征向量,其中,Word2vec模型基于通用语料训练得到;基于特征向量分别计算多个候选实体关系与中间语句之间的余弦相似度。
需要说明的是,本实施例的神经网络模型不局限于word2vec模型,也可以使用基于通用语料的预训练模型,如:BERT(Bidirectional Encoder Representation fromTransformers,双向Transformer的Encoder),但是由于预训练模型的复杂性,获取词向量的速率也会下降。可以考虑进行模型蒸馏进行优化。
图3是本发明实施例的一个实现流程图,应用在知识库问答系统中,包括实体识别和关系抽取。其中,实体识别过程主要包括:知识库实体识别,知识库实体特征计算,知识库实体筛选;关系抽取过程主要包括:实体关系的搜索,实体关系的特征筛选,实体关系相似度筛选。
知识库实体识别指从问句中识别出知识库中存在的实体,进行实体的初步召回;知识库实体特征计算指从对识别的实体进行特征计算,主要包括字符级特征,知识库特征等;知识库实体筛选指根据特征计算的结果,对实体进行排序,选取最有可能的实体。识别出问题中的实体之后就可以进行关系抽取的过程。实体关系的搜索是指根据知识库对实体的所有关系进行搜索查询,召回知识库中存在的关系;实体关系的特征筛选指对查询到的实体关系,进行特征计算,进而确定问句中的候选关系;实体关系相似度筛选指通过计算文本相似度对候选关系作进一步排序,确定最终关系,完成关系抽取过程。下面分别进行详细解释和说明:
实体识别的流程包括:
步骤311,制定通用规则,主要包含不影响问题答案的语气词,以及各种无关的标点符号。对于获取到的用户的原始输入问句,可以利用规则进行初步的清洗,得到去停之后的问句,从而减少无关词的影响和干扰,提高实体识别过程的运行效率;
步骤312,对于步骤311中得到的去停之后的问句,结合实体词典,利用精确匹配或者模糊搜索的方式进行知识库实体的初步召回。实体词典是利用知识库得到的所有知识库实体的集合。精确匹配是对问句进行切片,找出问句中所有在知识库中出现的实体,并以此作为候选实体做进一步筛选。模糊搜索相较于精确匹配,不要求切片与实体完全一致,匹配结果更加广泛;
步骤313,对候选知识库实体进行筛选的主要方法是特征计算。这里的特征主要包括字符级特征以及知识库特征。字符级特征有:实体长度特征,实体位置特征,实体与问句字、词重叠特征等;知识库特征有:实体的流行度特征,实体关系与问句字、词重叠特征等。其中实体流行度特征可以根据实体在知识库中的关系数来定义;
步骤314,候选实体上述特征计算完成后,采用加权求和的方式对候选实体排序。具体的对每个特征设置权重,结合先验和后验的方式不断对权重进行调节优化,以确定最佳的权重分配。根据加权求和的排序结果,取排名靠前的若干实体作为问句中的知识库实体,用于后续关系抽取,完成实体识别过程。
关系抽取的流程包括:
步骤321,使用知识库查询语句在对知识库实体进行关系搜索,获取所有知识库实体关系。
步骤322,对知识库实体关系进行特征计算主要是针对实体和关系组成的路径,与步骤311中得到的去停后的问句之间的字符特征,如:字、词重叠特征。依旧采用加权求和的方式进行排序。因为可能会存在同义词,近义词等通过权重调优难以进行区分的特例,故选择前N(如N=5)的知识库实体关系,用于进一步的解析。
步骤323,使用神经网络模型获取实体关系和问句文本的向量表达。利用向量表达计算实体关系文本的余弦相似度特征,选择相似度最高的实体关系作为最终抽取结果。神经网络模型使用基于通用训练语料的Word2vec模型,不需要针对数据作重复训练。最后,使用识别的实体和关系确定查询路径,在知识库中搜索相应的三元组,并将结果返回给用户。
本实施例实现了一种充分借鉴规则以及深度学习方法的问答系统,系统的人工规则只用于问句的无关词语的去停,主要包括通用的语气词和标点符号,极大地简化了人工规则制定的过程。同时该系统借鉴了深度学习模型的能力,使用通用的语料作为训练数据,训练好的模型只用于获取文本的词向量,不需要针对不同数据对模型做重复训练,可以大大减少对领域内标注数据的依赖,即便是不同领域的问答系统,同样具有较强的可复用性。因此,该系统保证了较高问答准确性的同时,又具有极强的可迁移性,可以快速实现对任意知识库的问答。
本实施例的方案有效结合了基于规则的问答系统和基于模型的问答系统,提高了问答系统的可迁移性,使用基于通用语料训练的神经网络模型获取文本向量,并进行相似度计算,解决对领域数据的依赖问题,并保证问答系统的准确与效率,有效地结合两种问答方法,取其所长,避其所短,在保证问答结果准确性的情况下,提供一种可迁移的,能够快速实现的知识库问答方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在本实施例中还提供了一种实体关系的抽取装置,用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明实施例的一种实体关系的抽取装置的结构框图,如图4所示,该装置包括:获取模块40,识别模块42,抽取模块44,其中,
获取模块40,用于获取待识别的原始自然语句;
识别模块42,用于基于预设通用规则识别所述原始自然语句中的问题实体;
抽取模块44,用于采用预设神经网络模型抽取所述问题实体的实体关系,其中,所述预设神经网络模型基于通用语料训练得到,所述实体关系用于在基于知识库的问答系统KBQA中查询与所述问题实体相关的答案实体。
可选的,所述识别模块包括:清洗单元,用于对所述原始自然语句进行清洗,删除无关词和无关符号,得到去停之后的中间语句;召回单元,用于基于所述中间语句从预设实体词典中召回M个候选知识库实体;计算单元,用于分别计算所述M个候选知识库实体的目标特征,其中,所述目标特征包括字符级特征以及知识库特征;选择单元,用于基于所述目标特征对所述M个候选知识库实体进行特征度排序,在序列中选择特征度最大的N个候选知识库实体作为问题实体,其中,N≤M,M,N均为正整数。
可选的,所述召回单元包括以下至少之一:第一召回子单元,用于将所述中间语句切片为多个子语句,在所述多个子语句中选择命中所述预设实体词典的子语句作为候选知识库实体;第二召回子单元,用于将所述中间语句切片为多个子语句,计算每个子语句与所述预设实体词典的匹配度,选择匹配度大于预设值的子语句作为候选知识库实体。
可选的,所述选择单元包括:获取子单元,用于获取所述目标特征的预设权重组合,其中,所述预设权重组合中的每个权值对应所述目标特征的一个特征维度,所述预设权重组合基于样本数据采用先验和后验的方式训练得到;计算子单元,用于采用所述权重组合加权求和所述目标特征的特征度;排序子单元,用于基于所述目标特征对所述M个候选知识库实体进行特征度排序。
可选的,所述抽取模块包括:召回单元,用于针对每个问题实体,采用查询语句在预设知识库中对所述问题实体进行关系搜索,召回所述问题实体的实体关系集合;第一选择单元,用于分别计算所述实体关系集合的特征度,并基于所述特征度在所述实体关系集合中选择多个候选实体关系;第二选择单元,用于分别计算所述多个候选实体关系与所述中间语句的文本相似度,并在所述多个候选实体关系中选择文本相似度最高的实体关系作为所述问题实体的实体关系,其中,所述中间语句是所述原始自然语句在去停之后得到的语句。
可选的,所述第一选择单元包括:提取子单元,用于针对所述实体关系集合中的每个实体关系,提取所述实体关系与所述问题实体组成的路径文本,以及提取所述原始自然语句在去停处理之后的中间语句文本;计算子单元,用于计算所述路径文本与所述中间语句文本之间的字符特征。
可选的,所述第二选择单元包括:获取子单元,用于使用Word2vec模型获取多个候选实体关系和所述中间语句的特征向量,其中,所述Word2vec模型基于通用语料训练得到;计算子单元,用于基于所述特征向量分别计算所述多个候选实体关系与所述中间语句之间的余弦相似度。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取待识别的原始自然语句;
S2,基于预设通用规则识别所述原始自然语句中的问题实体;
S3,采用预设神经网络模型抽取所述问题实体的实体关系,其中,所述预设神经网络模型基于通用语料训练得到,所述实体关系用于在基于知识库的问答系统KBQA中查询与所述问题实体相关的答案实体。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子设备,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子设备还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待识别的原始自然语句;
S2,基于预设通用规则识别所述原始自然语句中的问题实体;
S3,采用预设神经网络模型抽取所述问题实体的实体关系,其中,所述预设神经网络模型基于通用语料训练得到,所述实体关系用于在基于知识库的问答系统KBQA中查询与所述问题实体相关的答案实体。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
图5是本发明实施例的一种电子设备的结构图,如图5所示,包括处理器51、通信接口52、存储器53和通信总线54,其中,处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信,存储器53,用于存放计算机程序;处理器51,用于执行存储器53上所存放的程序。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种实体关系的抽取方法,其特征在于,包括:
获取待识别的原始自然语句;
基于预设通用规则识别所述原始自然语句中的问题实体;
采用预设神经网络模型抽取所述问题实体的实体关系,其中,所述预设神经网络模型基于通用语料训练得到,所述实体关系用于在基于知识库的问答系统KBQA中查询与所述问题实体相关的答案实体。
2.根据权利要求1所述的方法,其特征在于,基于预设通用规则识别所述原始自然语句中的问题实体包括:
对所述原始自然语句进行清洗,删除无关词和无关符号,得到去停之后的中间语句;
基于所述中间语句从预设实体词典中召回M个候选知识库实体;
分别计算所述M个候选知识库实体的目标特征,其中,所述目标特征包括字符级特征以及知识库特征;
基于所述目标特征对所述M个候选知识库实体进行特征度排序,在序列中选择特征度最大的N个候选知识库实体作为问题实体,其中,N≤M,M,N均为正整数。
3.根据权利要求2所述的方法,其特征在于,基于所述中间语句从预设实体词典中召回M个候选知识库实体包括以下至少之一:
将所述中间语句切片为多个子语句,在所述多个子语句中选择命中所述预设实体词典的子语句作为候选知识库实体;
将所述中间语句切片为多个子语句,计算每个子语句与所述预设实体词典的匹配度,选择匹配度大于预设值的子语句作为候选知识库实体。
4.根据权利要求2所述的方法,其特征在于,基于所述目标特征对所述M个候选知识库实体进行特征度排序包括:
获取所述目标特征的预设权重组合,其中,所述预设权重组合中的每个权值对应所述目标特征的一个特征维度,所述预设权重组合基于样本数据采用先验和后验的方式调节得到;
采用所述权重组合加权求和所述目标特征的特征度;
基于所述目标特征对所述M个候选知识库实体进行特征度排序。
5.根据权利要求1所述的方法,其特征在于,采用预设神经网络模型抽取所述问题实体的实体关系包括:
针对每个问题实体,采用查询语句在预设知识库中对所述问题实体进行关系搜索,召回所述问题实体的实体关系集合;
分别计算所述实体关系集合的特征度,并基于所述特征度在所述实体关系集合中选择多个候选实体关系;
分别计算所述多个候选实体关系与中间语句的文本相似度,并在所述多个候选实体关系中选择文本相似度最高的实体关系作为所述问题实体的实体关系,其中,所述中间语句是所述原始自然语句在去停之后得到的语句。
6.根据权利要求5所述的方法,其特征在于,分别计算所述实体关系集合的特征度包括:
针对所述实体关系集合中的每个实体关系,提取所述实体关系与所述问题实体组成的路径文本,以及提取所述原始自然语句在去停处理之后的中间语句文本;
计算所述路径文本与所述中间语句文本之间的字符特征。
7.根据权利要求5所述的方法,其特征在于,分别计算所述多个候选实体关系与所述中间语句的文本相似度包括:
使用Word2vec模型获取多个候选实体关系和所述中间语句的特征向量,其中,所述Word2vec模型基于通用语料训练得到;
基于所述特征向量分别计算所述多个候选实体关系与所述中间语句之间的余弦相似度。
8.一种实体关系的抽取装置,其特征在于,包括:
获取模块,用于获取待识别的原始自然语句;
识别模块,用于基于预设通用规则识别所述原始自然语句中的问题实体;
抽取模块,用于采用预设神经网络模型抽取所述问题实体的实体关系,其中,所述预设神经网络模型基于通用语料训练得到,所述实体关系用于在基于知识库的问答系统KBQA中查询与所述问题实体相关的答案实体。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至7中任一项所述的方法步骤。
10.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:
存储器,用于存放计算机程序;
处理器,用于通过运行存储器上所存放的程序来执行权利要求1至7中任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011457766.4A CN112579752A (zh) | 2020-12-10 | 2020-12-10 | 实体关系的抽取方法及装置、存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011457766.4A CN112579752A (zh) | 2020-12-10 | 2020-12-10 | 实体关系的抽取方法及装置、存储介质、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112579752A true CN112579752A (zh) | 2021-03-30 |
Family
ID=75131485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011457766.4A Pending CN112579752A (zh) | 2020-12-10 | 2020-12-10 | 实体关系的抽取方法及装置、存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112579752A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627186A (zh) * | 2021-08-12 | 2021-11-09 | 平安科技(深圳)有限公司 | 基于人工智能的实体关系检测方法及相关设备 |
CN114817512A (zh) * | 2022-06-28 | 2022-07-29 | 清华大学 | 问答推理方法及装置 |
CN115292461A (zh) * | 2022-08-01 | 2022-11-04 | 北京伽睿智能科技集团有限公司 | 基于语音识别的人机交互学习方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN108256065A (zh) * | 2018-01-16 | 2018-07-06 | 智言科技(深圳)有限公司 | 基于关系检测和强化学习的知识图谱推理方法 |
CN109522393A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
CN110502621A (zh) * | 2019-07-03 | 2019-11-26 | 平安科技(深圳)有限公司 | 问答方法、问答装置、计算机设备及存储介质 |
CN111008272A (zh) * | 2019-12-04 | 2020-04-14 | 深圳市新国都金服技术有限公司 | 基于知识图谱的问答方法、装置、计算机设备及存储介质 |
CN111858896A (zh) * | 2020-07-30 | 2020-10-30 | 上海海事大学 | 一种基于深度学习的知识库问答方法 |
-
2020
- 2020-12-10 CN CN202011457766.4A patent/CN112579752A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107748757A (zh) * | 2017-09-21 | 2018-03-02 | 北京航空航天大学 | 一种基于知识图谱的问答方法 |
CN108256065A (zh) * | 2018-01-16 | 2018-07-06 | 智言科技(深圳)有限公司 | 基于关系检测和强化学习的知识图谱推理方法 |
CN109522393A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备和存储介质 |
CN110502621A (zh) * | 2019-07-03 | 2019-11-26 | 平安科技(深圳)有限公司 | 问答方法、问答装置、计算机设备及存储介质 |
CN111008272A (zh) * | 2019-12-04 | 2020-04-14 | 深圳市新国都金服技术有限公司 | 基于知识图谱的问答方法、装置、计算机设备及存储介质 |
CN111858896A (zh) * | 2020-07-30 | 2020-10-30 | 上海海事大学 | 一种基于深度学习的知识库问答方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627186A (zh) * | 2021-08-12 | 2021-11-09 | 平安科技(深圳)有限公司 | 基于人工智能的实体关系检测方法及相关设备 |
CN113627186B (zh) * | 2021-08-12 | 2023-12-22 | 平安科技(深圳)有限公司 | 基于人工智能的实体关系检测方法及相关设备 |
CN114817512A (zh) * | 2022-06-28 | 2022-07-29 | 清华大学 | 问答推理方法及装置 |
CN114817512B (zh) * | 2022-06-28 | 2023-03-14 | 清华大学 | 问答推理方法及装置 |
CN115292461A (zh) * | 2022-08-01 | 2022-11-04 | 北京伽睿智能科技集团有限公司 | 基于语音识别的人机交互学习方法及系统 |
CN115292461B (zh) * | 2022-08-01 | 2024-03-12 | 北京伽睿智能科技集团有限公司 | 基于语音识别的人机交互学习方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
EP3567498A1 (en) | Method and device for question response | |
CN110968684B (zh) | 一种信息处理方法、装置、设备及存储介质 | |
CN112579752A (zh) | 实体关系的抽取方法及装置、存储介质、电子设备 | |
CN110674292B (zh) | 一种人机交互方法、装置、设备及介质 | |
CN109829045A (zh) | 一种问答方法和装置 | |
CN111897930A (zh) | 一种自动问答方法与系统、智能设备及存储介质 | |
CN106844788B (zh) | 一种图书馆智能搜索排序方法及系统 | |
CN113342958B (zh) | 问答匹配方法、文本匹配模型的训练方法和相关设备 | |
CN113297351A (zh) | 文本数据标注方法及装置、电子设备及存储介质 | |
CN117076688A (zh) | 基于领域知识图谱的知识问答方法及其装置、电子设备 | |
CN115130538A (zh) | 文本分类模型的训练方法、文本处理的方法、设备及介质 | |
CN112364622A (zh) | 对话文本分析方法、装置、电子装置及存储介质 | |
CN115994535A (zh) | 文本处理方法及装置 | |
CN110969005B (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN110795544A (zh) | 内容搜索方法、装置、设备和存储介质 | |
CN110347807B (zh) | 问题信息处理方法及装置 | |
CN117131383A (zh) | 一种提高双塔模型搜索精排性能的方法 | |
CN116401344A (zh) | 根据问句检索表格的方法和装置 | |
CN113342932B (zh) | 目标词向量的确定方法、装置、存储介质和电子装置 | |
CN112115237B (zh) | 烟草科技文献数据推荐模型的构建方法及装置 | |
CN111401070B (zh) | 词义相似度确定方法及装置、电子设备及存储介质 | |
CN114372478A (zh) | 一种基于知识蒸馏的问答方法、终端设备及存储介质 | |
CN113761152A (zh) | 一种问答模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |