CN114490984A - 基于关键词指导的问答知识抽取方法、装置、设备及介质 - Google Patents
基于关键词指导的问答知识抽取方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114490984A CN114490984A CN202210083587.1A CN202210083587A CN114490984A CN 114490984 A CN114490984 A CN 114490984A CN 202210083587 A CN202210083587 A CN 202210083587A CN 114490984 A CN114490984 A CN 114490984A
- Authority
- CN
- China
- Prior art keywords
- keyword
- knowledge
- text
- question
- triple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术领域,提供一种基于关键词指导的问答知识抽取方法、装置、设备及介质。该方法包括获取目标问题语句并抽取出其中的若干第一关键词,第一关键词为出现在关键词词汇表中的关键词;获取每个第一关键词对应的三元组,并将第一关键词对应的三元组转换为纯文本语句,作为目标问题语句需要的潜在知识点;基于目标问题语句后的文本生成区中的已有文本来对各潜在知识点进行重要程度排序,以获取重要程度最高的潜在知识点;根据重要程度最高的潜在知识点和文本生成区中的已有文本来进行文本生成。本申请知识点是在知识抽取器中一次性获得,并且依靠排序器来选择性生成,所以极大减少了开放问题知识抽取的前后逻辑不一致问题。
Description
技术领域
本发明涉及人工智能技术领域,特别涉及一种基于关键词指导的问答知识抽取方法、装置、设备及介质。
背景技术
互联网信息爆炸时代,基于可训练参数的知识库已成为一种知识存储的有效手段。相对比处于研究前沿的知识注入方式来说,目前对于可训练参数的知识抽取方式依旧非常简单,一般用prompt结构去人为构造辅助语句进行答案的抽取或者干脆直接用问句提问的方式进行答案的生成。
这两个方法对于简单的实体查询知识抽取有极佳的抽取效果,但对于问句等较为复杂的开放性知识抽取的效果非常差。问题主要体现在:
(1)开放性知识抽取通常需要用较长的文本去回答问题,而这极度依赖于生成模型的效果。如果文本过长,会产生知识抽取语句的前后逻辑不一致问题,比如说在第一句提及的还是保险产品,最后一句描述的却是基金类理财产品。
(2)知识抽取的知识点遗漏问题,以自然语言进行知识抽取没有明确的监督信号,会对一些问题的知识实体造成遗漏,过分描述一个单一的知识体。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于关键词指导的问答知识抽取方法、装置、设备及介质,用于解决现有技术中存在的问题。
为实现上述目的及其他相关目的,本发明提供一种基于关键词指导的问答知识抽取方法,包括:
获取目标问题语句并抽取出所述目标问题语句中的若干第一关键词,所述第一关键词为出现在关键词词汇表中的关键词;
根据三元组图谱获取每个所述第一关键词对应的三元组,所述三元组图谱中存储有关键词和三元组的对应关系;
将所述第一关键词对应的三元组转换为纯文本语句,作为所述目标问题语句需要的潜在知识点;
基于所述目标问题语句后的文本生成区中的已有文本来对各所述潜在知识点进行重要程度排序,以获取重要程度最高的潜在知识点;
根据所述重要程度最高的潜在知识点和所述文本生成区中的已有文本来进行文本生成。
在本发明的一可选实施例中,所述关键词词汇表的构建方法包括:
收集目标领域的语料文本数据,以构成语料文本集,所述语料文本数据包括结构化数据和非结构化数据;
利用中文自然语言处理工具识别语料文本数据中的指定词性的词汇,所述指定词性包括名词和动词;
采用TF-IDF算法对识别到的所有指定词性的词汇进行排序;
提取排序靠前的预设数量的词汇作为关键词词汇,构建关键词词汇表。
在本发明的一可选实施例中,所述三元组图谱的构建方法包括:
收集目标领域的语料文本数据;
根据预定义的关系集合,在所述语料文本中利用关系抽取算法抽取所述关系集合中的关系;
利用序列标注的方法在所述语料文本数据中获取抽取到的每个关系连接两个实体来构造所述三元组图谱。
在本发明的一可选实施例中,通过训练好的知识抽取器来抽取出所述目标问题语句中的若干所述第一关键词;
所述知识抽取器的训练方法包括:
抽取出所述目标领域的问答数据集中每个回答的第二关键词,并作标记,以构成第一训练集,其中,所述第二关键词为出现在所述关键词词汇表中的关键词;
利用所述第一训练集对所述知识抽取器进行训练。
在本发明的一可选实施例中,基于所述目标问题语句后的文本生成区中的已有文本,通过训练好的知识排序器来对各所述潜在知识点进行重要程度排序,以获取重要程度最高的潜在知识点;
所述知识排序器的训练方法包括:
抽取出所述目标领域的问答数据集中每个回答的第二关键词,并作标记,以构成第一训练集,其中,所述第二关键词为出现在所述关键词词汇表中的关键词;
根据所述三元组图谱获取所述第二关键词对应的三元组,并将所述三元组转换为纯文本语句加入到所述目标领域的问答数据集中,以构成第二训练集;
利用所述第二训练集对所述知识排序器进行训练。
在本发明的一可选实施例中,所述基于关键词指导的问答知识抽取方法包括:
根据预定义的模板来将所述第一关键词对应的三元组转换为正常的自然语言句子,作为所述第一关键词对应的三元组的纯文本语句。
在本发明的一可选实施例中,所述基于关键词指导的问答知识抽取方法还包括:
迭代执行如下步骤直至生成所述目标问题语句的回答:
基于所述目标问题语句后的文本生成区中的已有文本来对各所述潜在知识点进行重要程度排序,以获取重要程度最高的潜在知识点;
根据所述重要程度最高的潜在知识点和所述文本生成区中的已有文本来进行文本生成。
为实现上述目的及其他相关目的,本发明还提供一种所述基于关键词指导的问答知识抽取装置,所述基于关键词指导的问答知识抽取装置包括:
知识抽取模块,用于获取目标问题语句并抽取出所述目标问题语句中的若干第一关键词,所述第一关键词为出现在关键词词汇表中的关键词;
三元组获取模块,用于根据三元组图谱获取每个所述第一关键词对应的三元组,所述三元组图谱中存储有关键词和三元组的对应关系;
知识点获取模块,用于将所述第一关键词对应的三元组转换为纯文本语句,作为所述目标问题语句需要的潜在知识点;
知识排序模块,用于基于所述目标问题语句后的文本生成区中的已有文本来对各所述潜在知识点进行重要程度排序,以获取重要程度最高的潜在知识点;
文本生成模块,用于根据所述重要程度最高的潜在知识点和所述文本生成区中的已有文本来进行文本生成。
为实现上述目的及其他相关目的,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述方法的步骤。
为实现上述目的及其他相关目的,本发明还提供一种计算机可读存储介质,其上存储于计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明的基于关键词指导的问答知识抽取方法、装置、设备及介质,由于知识点是在知识抽取器中一次性获得,并且依靠排序器来选择性生成,所以极大减少了开放问题知识抽取的前后逻辑不一致问题。
本发明的基于关键词指导的问答知识抽取方法、装置、设备及介质,所有的知识点都是有指导地抽取出,避免了由于生成文本的无效信息干扰导致出现错误的语境,从而遗漏较多的知识点的情况。
本发明的基于关键词指导的问答知识抽取方法、装置、设备及介质,生成的文本更加类似于知识抽取的回答,而不是无指导情况下的闲聊,将一些无效回复降到了最低。
本发明的基于关键词指导的问答知识抽取方法、装置、设备及介质,生成的回答文本更像是人类语言,有其逻辑性,并且更加可控,能针对更深化的任务做出进一步的控制改造。
附图说明
图1示出了本发明的基于关键词指导的问答知识抽取方法的较佳实施例的流程图。
图2示出了本发明的基于关键词指导的问答知识抽取方法中关键词词汇表的构建流程图。
图3示出了本发明的基于关键词指导的问答知识抽取方法中三元组图谱的构建流程图。
图4示出了本发明的基于关键词指导的问答知识抽取装置的较佳的实施例的功能模块图。
图5示出了本发明的基于关键词指导的问答知识抽取方法的较佳实施例的电子设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
请参阅图1-5。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
为了解决现有技术中存在的问题,本发明公开了一种基于关键词指导的问答知识抽取方法,可应用于目标领域(例如保险领域)的问答知识抽取中。所述基于关键词指导的问答知识抽取方法应用于一个或者多个电子设备中,所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述电子设备可以是任何一种可与用户进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴式设备等。
所述电子设备还可以包括网络设备和/或用户设备。其中,所述网络设备包括,但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量主机或网络服务器构成的云。
所述电子设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。
图1示出了本发明的基于关键词指导的问答知识抽取方法的较佳实施例的流程图。所述基于关键词指导的问答知识抽取方法包括如下步骤:
步骤S110、获取目标问题语句并抽取出所述目标问题语句中的若干第一关键词,所述第一关键词为出现在关键词词汇表中的关键词;
步骤S120、根据三元组图谱获取每个所述第一关键词对应的三元组,所述三元组图谱中存储有关键词和三元组的对应关系;
步骤S130、将所述第一关键词对应的三元组转换为纯文本语句,作为所述目标问题语句需要的潜在知识点;
步骤S140、基于所述目标问题语句后的文本生成区中的已有文本来对各所述潜在知识点进行重要程度排序,以获取重要程度最高的潜在知识点;
步骤S150、根据所述重要程度最高的潜在知识点和所述文本生成区中的已有文本来进行文本生成。
下面将结合图1来详细阐述本发明的基于关键词指导的问答知识抽取方法。
首先,执行步骤S110,获取目标问题语句并抽取出所述目标问题语句中的若干第一关键词,所述第一关键词为出现在关键词词汇表中的关键词。具体地,通过训练好的知识抽取器来抽取出所述目标问题语句中的若干所述第一关键词。
为了实现有指导的关键词抽取,需要预先建立关键词词汇表,其中,图2示出了关键词词汇表的建立流程图。如图2所示,所述关键词词汇表的建立步骤如下:
步骤S210、收集目标领域的语料文本数据,以构成语料文本集;
步骤S220、利用中文自然语言处理工具识别语料文本数据中的指定词性的词汇,所述指定词性包括名词和动词;
步骤S230、采用TF-IDF算法对识别到的所有指定词性的词汇进行排序;
步骤S240、提取排序靠前的预设数量的词汇作为关键词词汇,构建关键词词汇表。
在本申请中,所述语料文本数据包括结构化数据和非结构化数据。作为示例,所述结构化数据例如可来源于平安内部的知识库,是现成的别人抽取好的;而非结构化数据就是日常的保险文档,任何的纯文本都是非结构化数据,例如可从任意的平安保险说明文档都算。
以构建保险领域的关键词词汇表为例,首先需要收集获取保险领域的语料文本,所述语料文本例如可以是平安所有有关保险的文档;接着,获取到所述目标文本后,可利用中文自然语言处理工具LTP识别所述语料文本所有名词和动词;接着,利用TF-IDF算法对识别到的所有词汇(包括动词和名词)进行排序;最后,提取排序前5000(可配置)的名词和动词作为关键词来构建所述关键词词汇表。
LTP是一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术),以及基于动态链接库(Dynamic Link Library,DLL)的应用程序接口,可视化工具,并且能够以网络服务(Web Service)的形式进行使用。
TF-IDF(Term Frequency–Inverse Document Frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(InverseDocument Frequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
为了后续潜在知识点的获取,需要预先构建目标领域的三元组图谱,其中,图3示出了三元组图谱的构建流程图。如图3所示,所述三元组图谱的构建步骤包括:
步骤S310、收集目标领域的语料文本数据,以构成语料文本集;
步骤S320、根据预定义的关系集合,基于关系抽取算法在所述语料文本集中的语料文本数据中抽取所述关系集合中的关系;
步骤S330、基于序列标注的方法,在所述语料文本数据中获取抽取到的每个关系连接两个实体来构造所述三元组图谱。
需要说明的是,在三元组谱图的构建过程中的语料文本集和在关键词词汇表构建过程中采用的语料文本集为同一语料文本集。
本领域的技术人员可根据问答所涉及的实际领域和实际内容来定义所述关系集,该关系集中的关系可以是实体关系或者属性关系。在保险领域中,属性关系例如可以是指年利率、年限收益率、现行年利率等属性关系。
作为示例,可用BERT模型作为工具进行关系抽取,以构建三元组(世纪理财,现行年利率,7%)为例,假设一篇保险文档中有“世纪理财的现行年利率是7%。”这句话,我们的BERT模型会先识别到“现行年利率“这个词,然后基于这层属性关系,将其输入BERT模型中,用序列标注(对每个词进行分类)的方法,找到这个属性关系“现行年利率“对应的两个实体“世纪理财”和“7%”,然后构成三元组。
在本申请中,通过知识抽取器来抽取所述目标问题语句中的第一关键词,在进行第一关键词的抽取前,需要对所述知识抽取器进行训练,训练时需要首先根据目标领域的问答数据集来构建第一训练集,然后基于所述第一训练集来对所述知识抽取器进行训练。
具体地,所述知识抽取器的训练过程如下:
抽取出所述目标领域的问答数据集中每个回答的第二关键词,并作标记,以构成第一训练集,其中,所述第二关键词为出现在所述关键词词汇表中的关键词;
利用所述第一训练集对所述知识抽取器进行训练:输入所述目标领域的问答数据集中的问题,给到的目标是抽取到的问题所对应回答中的第二关键词,以生成的方式来完成这一步预测。
以目标领域为保险领域(当然也可以是其他领域)为例,在对所述知识抽取器进行训练时,输入是保险领域问答数据集的问题,给到的目标是事先已经抽取的对应回答中的关键词(第二关键词),以生成的方式来完成这一步预测,从而在推断阶段知识抽取器能够基于给定的问句,去抽取出足够多的关键词。
接着,执行步骤S120、根据三元组图谱获取所述第一关键词对应的三元组,所述三元组谱图中存有关键词和三元组的对应关系。
具体地,由于所述三元组谱图中存有有关键词和三元组的对应关系,因此可通过抽取到的所述第一关键词在预先构建的三元组知识图谱中查找关键词对应的三元组。当抽取到的第一关键词在预先构建的三元组知识图谱中没有对应的三元组时,可将该第一关键词舍弃。
接着,执行步骤S130、将所述第一关键词对应的三元组转换为纯文本语句,作为所述目标问题语句需要的潜在知识点。具体地,可以根据预先定义的模板来将第一关键词对应的三元组转换为正常的自然语言句子,作为三元组的纯文本语句。
在本实施例中,可以针对关系集合中的每种关系,都预先设置固定的句式模板来进行出文本转换。比如对于属性关系,可定义如(实体A)的(属性B)是(实体C)的句式模板。
接着,执行步骤S140、基于所述目标问题语句后的文本生成区中的已有文本来对所述目标问题语句需要的潜在知识点进行重要程度排序,以获取重要程度最高的潜在知识点。具体地,基于所述目标问题语句后的文本生成区中的已有文本,通过训练好的知识排序器来对各所述潜在知识点进行重要程度排序,以获取重要程度最高的潜在知识点。
所述知识排序器是一个LSTM模型,在每次迭代过程中,LSTM模型会被调用N次(N为潜在知识点的个数),每次的输入都是一个三元组的纯文本语句加上文本生成区已经生成的文本,例如(世纪理财的现行年利率是7%+我想买世纪理财保险,介绍一下?+世纪理财的现)加号分开的三块分别是潜在知识点,输入问题和文本生成区目前已生成文本,知识排序器的输出是重要性得分,N次里面最高的那个潜在知识点胜出,来进入到文本生成区。
在通过训练好的知识排序器来对各所述潜在知识点进行重要程度排序,以获取重要程度最高的潜在知识点之前,需要对所述知识排序器进行训练,训练时需要首先根据目标领域的问答数据集来构建第二训练集,然后基于所述第二训练集来对所述知识抽取器进行训练。
具体地,所述知识排序器的训练过程如下:
抽取出所述目标领域的问答数据集中每个回答的第二关键词,并作标记,其中,所述第二关键词为出现在所述关键词词汇表中的关键词;
根据所述三元组图谱获取所述第二关键词对应的三元组,并将所述三元组转换为纯文本语句加入到所述目标领域的问答数据集中,以构成第二训练集;
利用所述第二训练集对所述知识排序器进行训练。
以目标领域为保险领域为例,在对所述知识排序器进行训练时,输入是保险领域问答数据集的问题、回答及回答中第二关键词所对应三元组的纯文本语句,给到的目标是回答中第二关键词所对应三元组的纯文本语句的得分,以单纯的回归数值预测来完成这一预测,从而在推断阶段知识排序器能够基于所述目标问题语句及目标问题语句后的文本生成区中的已生成文本,来获取所述目标问题语句需要的每个潜在知识点的得分,然后根据得分对所述目标问题语句需要的每个潜在知识点进行重要程度排序,以获取重要程度最高的潜在知识点。
需要说明的是,在实际应用中,可直接利用第二训练集作为第一训练集来对上述的知识抽取器进行训练,也即所述第一训练集和所述第二训练集可以采用同一训练集。
再接着,执行步骤S150、根据所述重要程度最高的潜在知识点和所述文本生成区中的已有文本来进行文本生成。具体地,文本生成器根据所述重要程度最高的潜在知识点和所述文本生成区中的已有文本来进行接下来的文本生成,其中,文本生成器是一个Transformer构建的语言模型,通过在文本生成器中输入上文,来生成下文。
作为示例,在所述文本生成器中输入“我想买世纪理财保险,介绍一下?+世纪理财的现”,这是文本生成区已经生成的文本,接着,根据重要程度最高的潜在知识点“世纪理财的现行利率是7%”生成的结果是“行”这个字,再次返回步骤S30进入下一轮迭代。下次迭代的输入就是(我想买世纪理财保险,介绍一下?+世纪理财的现行),根据重要程度最高的潜在知识点“世纪理财的现行利率是7%”会生成“利”这个字。这里迭代会一直持续,直到完整生成“我想买世纪理财保险,介绍一下?+世纪理财的现行利率是7%”。
本申请的基于关键词指导的问答知识抽取方法,由于知识点是在知识抽取器中一次性获得,并且依靠排序器来选择性生成,所以极大减少了开放问题知识抽取的前后逻辑不一致问题。本申请的基于关键词指导的问答知识抽取方法,所有的知识点都是有指导地抽取出,避免了由于生成文本的无效信息干扰导致出现错误的语境,从而遗漏较多的知识点的情况。本申请的基于关键词指导的问答知识抽取方法,生成的文本更加类似于知识抽取的回答,而不是无指导情况下的闲聊,将一些无效回复降到了最低。本申请的基于关键词指导的问答知识抽取方法,生成的回答文本更像是人类语言,有其逻辑性,并且更加可控,能针对更深化的任务做出进一步的控制改造。
需要说明的是,上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包含相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
图4示出了本发明的基于关键词指导的问答知识抽取装置的功能模块图。所述基于关键词指导的问答知识抽取装置包括:知识抽取模块111,三元组获取模块112,知识点获取模块113,知识排序模块114,及文本生成模块115。本发明所称的模块是指一种能够被处理器13所执行,并且能够完成固定功能的一系列计算机程序段,其存储在存储器12中。
所述知识抽取模块111作为知识抽取器,用于获取目标问题语句并抽取出所述目标问题语句中的若干第一关键词,所述第一关键词为出现在关键词词汇表中的关键词。
为了实现有指导的关键词抽取,需要预先根据目标领域的语料文本数据来构建关键词词汇表,关键关键词词汇表的构建步骤详见上文S210-S240,在此不做赘述。
在本申请中,通过知识抽取器来抽取所述目标问题语句中的第一关键词,在进行第一关键词的抽取前,需要对所述知识抽取器进行训练,训练时需要首先根据目标领域的问答数据集来构建第一训练集,然后基于所述第一训练集来对所述知识抽取器进行训练。所述知识抽取器的训练请参阅上文相关部分的描述,在此不做赘述。
所述三元组获取模块112,用于根据三元组图谱获取每个所述第一关键词对应的三元组,所述三元组图谱中存储有关键词和三元组的对应关系。所述三元组图谱是通过目标领域的语料文本数据来构建的,具体构建步骤详见上文S310-S330,,在此不做赘述。
所述知识点获取模块113,用于将所述第一关键词对应的三元组转换为纯文本语句,作为所述目标问题语句需要的潜在知识点。具体地,所述述知识点获取模块113可以根据预先定义的模板来将第一关键词对应的三元组转换为正常的自然语言句子,作为三元组的纯文本语句。
在本实施例中,可以针对关系集合中的每种关系,都预先设置固定的句式模板来进行出文本转换。比如对于属性关系,可定义如(实体A)的(属性B)是(实体C)的句式模板。
所述所述知识排序模块114作为知识排序器,用于基于所述目标问题语句后的文本生成区中的已有文本来对各所述潜在知识点进行重要程度排序,以获取重要程度最高的潜在知识点。具体地,基于所述目标问题语句后的文本生成区中的已有文本,通过训练好的知识排序器来对各所述潜在知识点进行重要程度排序,以获取重要程度最高的潜在知识点。所述知识排序器的训练请参阅上文相关部分的描述,在此不做赘述。
所述文本生成模块115作为文本生成器,用于根据所述重要程度最高的潜在知识点和所述文本生成区中的已有文本来进行文本生成。具体地,文本生成器根据所述重要程度最高的潜在知识点和所述文本生成区中的已有文本来进行接下来的文本生成,其中,文本生成器是一个Transformer构建的语言模型,通过在文本生成器中输入上文,来生成下文。
需要说明的是,本申请的基于关键词指导的问答知识抽取装置是与上述基于关键词指导的问答知识抽取方法相对应的装置,基于关键词指导的问答知识抽取装置中的功能模块分别对应基于关键词指导的问答知识抽取方法中的相应步骤。本申请的基于关键词指导的问答知识抽取装置可与基于关键词指导的问答知识抽取方法相互相配合实施。本申请的基于关键词指导的问答知识抽取方法中提到的相关技术细节在基于关键词指导的问答知识抽取装置中依然有效,为了减少重复,这里不再赘述。
需要说明的是,上述的各功能模块实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的部分或全部步骤,或以上的各功能模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
如图5所示,是本发明实现基于关键词指导的问答知识抽取方法的较佳实施例的电子设备的结构示意图。
所述电子设备1可以包括存储器12、处理器13和总线,还可以包括存储在所述存储器12中并可在所述处理器13上运行的计算机程序,例如基于关键词指导的问答知识抽取程序。
其中,存储器12至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器12在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。存储器12在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器12还可以既包括电子设备1的内部存储单元也包括外部存储设备。存储器12不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如基于基于关键词指导的问答知识抽取的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器13在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。处理器13是所述电子设备1的控制核心(Control Unit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在所述存储器12内的程序或者模块(例如执行基于关键词指导的问答知识抽取程序等),以及调用存储在所述存储器12内的数据,以执行电子设备1的各种功能和处理数据。
所述处理器13执行所述电子设备1的操作系统以及安装的各类应用程序。所述处理器13执行所述应用程序以实现上述基于关键词指导的问答知识抽取方法中的步骤,例如图1所示的步骤。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器12中,并由所述处理器13执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述电子设备1中的执行过程。例如,所述计算机程序可以被分割成知识抽取模块111,三元组获取模块112,知识点获取模块113,知识排序模块114及文本生成模块115。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、计算机设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述基于关键词指导的问答知识抽取方法的部分功能。
总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,在图4中仅用一根箭头表示,但并不表示仅有一根总线或一种类型的总线。所述总线被设置为实现所述存储器12以及至少一个处理器13等之间的连接通信。
本申请的基于关键词指导的问答知识抽取方法、装置、设备及介质,由于知识点是在知识抽取器中一次性获得,并且依靠排序器来选择性生成,所以极大减少了开放问题知识抽取的前后逻辑不一致问题。本申请的基于关键词指导的问答知识抽取方法、装置、设备及介质,所有的知识点都是有指导地抽取出,避免了由于生成文本的无效信息干扰导致出现错误的语境,从而遗漏较多的知识点的情况。本申请的基于关键词指导的问答知识抽取方法、装置、设备及介质,生成的文本更加类似于知识抽取的回答,而不是无指导情况下的闲聊,将一些无效回复降到了最低。本申请的基于关键词指导的问答知识抽取方法、装置、设备及介质,生成的回答文本更像是人类语言,有其逻辑性,并且更加可控,能针对更深化的任务做出进一步的控制改造。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于关键词指导的问答知识抽取方法,其特征在于,包括:
获取目标问题语句并抽取出所述目标问题语句中的若干第一关键词,所述第一关键词为出现在关键词词汇表中的关键词;
根据三元组图谱获取每个所述第一关键词对应的三元组,所述三元组图谱中存储有关键词和三元组的对应关系;
将所述第一关键词对应的三元组转换为纯文本语句,作为所述目标问题语句需要的潜在知识点;
基于所述目标问题语句后的文本生成区中的已有文本来对各所述潜在知识点进行重要程度排序,以获取重要程度最高的潜在知识点;
根据所述重要程度最高的潜在知识点和所述文本生成区中的已有文本来进行文本生成。
2.根据权利要求1所述的基于关键词指导的问答知识抽取方法,其特征在于,所述关键词词汇表的构建方法包括:
收集目标领域的语料文本数据,以构成语料文本集;
利用中文自然语言处理工具识别语料文本数据中的指定词性的词汇,所述指定词性包括名词和动词;
采用TF-IDF算法对识别到的所有指定词性的词汇进行排序;
提取排序靠前的预设数量的词汇作为关键词词汇,构建关键词词汇表。
3.根据权利要求1所述的基于关键词指导的问答知识抽取方法,其特征在于,所述三元组图谱的构建方法包括:
收集目标领域的语料文本数据,以构成语料文本集;
根据预定义的关系集合,基于关系抽取算法在所述语料文本集中的语料文本数据中抽取所述关系集合中的关系;
基于序列标注的方法,在所述语料文本数据中获取抽取到的每个关系连接两个实体来构造所述三元组图谱。
4.根据权利要求1所述的基于关键词指导的问答知识抽取方法,其特征在于,通过训练好的知识抽取器来抽取出所述目标问题语句中的若干所述第一关键词;
所述知识抽取器的训练方法包括:
抽取出所述目标领域的问答数据集中每个回答的第二关键词,并作标记,以构成第一训练集,其中,所述第二关键词为出现在所述关键词词汇表中的关键词;
利用所述第一训练集对所述知识抽取器进行训练。
5.根据权利要求1所述的基于关键词指导的问答知识抽取方法,其特征在于,基于所述目标问题语句后的文本生成区中的已有文本,通过训练好的知识排序器来对各所述潜在知识点进行重要程度排序,以获取重要程度最高的潜在知识点;
所述知识排序器的训练方法包括:
抽取出所述目标领域的问答数据集中每个回答的第二关键词,并作标记,其中,所述第二关键词为出现在所述关键词词汇表中的关键词;
根据所述三元组图谱获取所述第二关键词对应的三元组,并将所述三元组转换为纯文本语句加入到所述目标领域的问答数据集中,以构成第二训练集;
利用所述第二训练集对所述知识排序器进行训练。
6.根据权利要求1所述的基于关键词指导的问答知识抽取方法,其特征在于,所述基于关键词指导的问答知识抽取方法包括:
根据预定义的模板来将所述第一关键词对应的三元组转换为正常的自然语言句子,作为所述第一关键词对应的三元组的纯文本语句。
7.根据权利要求1所述的基于关键词指导的问答知识抽取方法,其特征在于,所述基于关键词指导的问答知识抽取方法还包括:
迭代执行如下步骤直至生成所述目标问题语句的回答:
基于所述目标问题语句后的文本生成区中的已有文本来对各所述潜在知识点进行重要程度排序,以获取重要程度最高的潜在知识点;
根据所述重要程度最高的潜在知识点和所述文本生成区中的已有文本来进行文本生成。
8.一种基于关键词指导的问答知识抽取装置,其特征在于,所述基于关键词指导的问答知识抽取装置包括:
知识抽取模块,用于获取目标问题语句并抽取出所述目标问题语句中的若干第一关键词,所述第一关键词为出现在关键词词汇表中的关键词;
三元组获取模块,用于根据三元组图谱获取每个所述第一关键词对应的三元组,所述三元组图谱中存储有关键词和三元组的对应关系;
知识点获取模块,用于将所述第一关键词对应的三元组转换为纯文本语句,作为所述目标问题语句需要的潜在知识点;
知识排序模块,用于基于所述目标问题语句后的文本生成区中的已有文本来对各所述潜在知识点进行重要程度排序,以获取重要程度最高的潜在知识点;
文本生成模块,用于根据所述重要程度最高的潜在知识点和所述文本生成区中的已有文本来进行文本生成。
9.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储于计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210083587.1A CN114490984A (zh) | 2022-01-21 | 2022-01-21 | 基于关键词指导的问答知识抽取方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210083587.1A CN114490984A (zh) | 2022-01-21 | 2022-01-21 | 基于关键词指导的问答知识抽取方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114490984A true CN114490984A (zh) | 2022-05-13 |
Family
ID=81474624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210083587.1A Pending CN114490984A (zh) | 2022-01-21 | 2022-01-21 | 基于关键词指导的问答知识抽取方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114490984A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115119066A (zh) * | 2022-06-30 | 2022-09-27 | 武汉美和易思数字科技有限公司 | 一种基于动态权重的教学视频互动方法及系统 |
CN117407492A (zh) * | 2023-12-14 | 2024-01-16 | 广东海洋大学 | 基于知识图谱的关键字词序列生成方法、系统及设备 |
-
2022
- 2022-01-21 CN CN202210083587.1A patent/CN114490984A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115119066A (zh) * | 2022-06-30 | 2022-09-27 | 武汉美和易思数字科技有限公司 | 一种基于动态权重的教学视频互动方法及系统 |
CN115119066B (zh) * | 2022-06-30 | 2024-03-29 | 武汉美和易思数字科技有限公司 | 一种基于动态权重的教学视频互动方法及系统 |
CN117407492A (zh) * | 2023-12-14 | 2024-01-16 | 广东海洋大学 | 基于知识图谱的关键字词序列生成方法、系统及设备 |
CN117407492B (zh) * | 2023-12-14 | 2024-02-23 | 广东海洋大学 | 基于知识图谱的关键字词序列生成方法、系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10726057B2 (en) | Method and device for clarifying questions on deep question and answer | |
KR102271361B1 (ko) | 자동 질의응답 장치 | |
CN110162768B (zh) | 实体关系的获取方法、装置、计算机可读介质及电子设备 | |
CN110297893B (zh) | 自然语言问答方法、装置、计算机装置及存储介质 | |
CN111046272A (zh) | 一种基于医疗知识图谱的智能问答系统 | |
CN114490984A (zh) | 基于关键词指导的问答知识抽取方法、装置、设备及介质 | |
Klein et al. | Syntactic dependence and the computer generation of coherent discourse | |
CN110795544B (zh) | 内容搜索方法、装置、设备和存储介质 | |
CN115292457A (zh) | 知识问答方法、装置、计算机可读介质及电子设备 | |
Tran et al. | ViVQA: Vietnamese visual question answering | |
CN113535915B (zh) | 用于扩充数据集的方法 | |
Hassani et al. | LVTIA: A new method for keyphrase extraction from scientific video lectures | |
CN108491399B (zh) | 基于语境迭代分析的汉译英机器翻译方法 | |
CN118296120A (zh) | 多模态多尺度多路召回的大型语言模型检索增强生成方法 | |
Sarveswaran et al. | ThamizhiUDp: A dependency parser for Tamil | |
Lei et al. | Open domain question answering with character-level deep learning models | |
CN113157887B (zh) | 知识问答意图识别方法、装置、及计算机设备 | |
Wudaru et al. | Question answering on structured data using NLIDB approach | |
CN111859974A (zh) | 一种结合知识图谱的语义消歧方法和装置、智能学习设备 | |
CN112949293A (zh) | 一种相似文本生成方法、相似文本生成装置及智能设备 | |
Wang et al. | SLR: A million-scale comprehensive crossword dataset for simultaneous learning and reasoning | |
Bakari et al. | Researches and Reviews in Arabic Question Answering: principal approaches and systems with classification | |
CN115270746A (zh) | 问题样本生成方法和装置、电子设备及存储介质 | |
Chu et al. | The semantic typology of visually grounded paraphrases | |
Peng et al. | Mining and clustering phrases for English for special purpose: travel writing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |