CN112052680B - 问题生成方法、装置、设备及存储介质 - Google Patents
问题生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112052680B CN112052680B CN202011098263.2A CN202011098263A CN112052680B CN 112052680 B CN112052680 B CN 112052680B CN 202011098263 A CN202011098263 A CN 202011098263A CN 112052680 B CN112052680 B CN 112052680B
- Authority
- CN
- China
- Prior art keywords
- target
- node
- entity
- subgraph
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Animal Behavior & Ethology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种问题生成方法、装置、设备及存储介质,属于人工智能技术领域。所述方法包括:获取目标文本;对目标文本的文本内容进行构图,生成目标文本对应的图结构;从图结构中提取目标子图;生成与目标子图对应的问题。本申请中,能够基于目标文本自动生成与该目标文本相关的问题,扩大问题生成方法的使用范围与领域,使得在无需获取答案的情况下也能够生成与目标文本相关的问题,获取问题时所需准备的内容少,问题生成要求降低,使得问题的生成更加灵活,图结构用于反映目标文本中包含的实体以及实体之间的关系,保证目标子图能够准确反映目标文本中的文本内容,有效地提高所生成的文体与目标文本的关联性,保证问题的准确性。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种问题生成方法、装置、设备及存储介质。
背景技术
目前,问题生成(Question Generation,QG)是自然语言处理领域内的一个重要研究方向,能够在给定的一段文本中自动生成与该文本相关的问题。
在相关技术中,往往将问题生成技术看作是问题回答(Question Answering,QA)技术的逆问题,即根据阅读文章和问题答案,寻找该答案所对应的问题。例如,对阅读文章和问题答案分别进行编码,并通过注意力机制对阅读文章和问题答案进行融合,进而得到所需的问题。
然而,对于未给出答案的阅读文章,无法采用上述相关技术生成该阅读文章对应的问题,导致问题生成存在一定的局限性。
发明内容
本申请实施例提供了一种问题生成方法、装置、设备及存储介质,能够基于目标文本自动生成与该目标文本相关的问题,扩大问题生成方法的使用范围与领域,使得在无需获取答案的情况下也能够生成与目标文本相关的问题。所述技术方案如下:
根据本申请实施例的一个方面,提供了一种问题生成方法,所述方法包括:
获取目标文本;
对所述目标文本的文本内容进行构图,生成所述目标文本对应的图结构,所述图结构用于反映所述目标文本中包含的实体以及所述实体之间的关系;
从所述图结构中提取目标子图,所述目标子图是所述目标文本中的部分文本内容对应的部分图结构;
生成与所述目标子图对应的问题,所述问题与所述目标子图对应的文本内容相关。
根据本申请实施例的一个方面,提供了一种问题生成装置,所述装置包括:
文本获取模块,用于获取目标文本;
文本构图模块,用于对所述目标文本的文本内容进行构图,生成所述目标文本对应的图结构,所述图结构用于反映所述目标文本中包含的实体以及所述实体之间的关系;
子图提取模块,用于从所述图结构中提取目标子图,所述目标子图是所述目标文本中的部分文本内容对应的部分图结构;
问题生成模块,用于生成与所述目标子图对应的问题,所述问题与所述目标子图对应的文本内容相关。
根据本申请实施例的一个方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述问题生成方法。
根据本申请实施例的一个方面,本申请实施例提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述问题生成方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述问题生成方法。
本申请实施例提供的技术方案可以带来如下有益效果:
通过目标文本对应的目标子图获取该与该目标文本对应的问题,能够基于目标文本自动生成与该目标文本相关的问题,不需要结合目标文本和问题答案生成问题,扩大问题生成方法的使用范围与领域,使得在无需获取答案的情况下也能够生成与目标文本相关的问题,获取问题时所需准备的内容少,问题生成要求降低,使得问题的生成更加灵活;而且,从目标文本对应的图结构中提取目标子图,且图结构用于反映目标文本中包含的实体以及实体之间的关系,保证目标子图能够准确反映目标文本中的文本内容,有效地提高所生成的文体与目标文本的关联性,保证问题的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的问题生成方法的流程图;
图2示例性示出了一种目标子图转换为二部图的方式的示意图;
图3示例性示出了一种二部图的拆分方式的示意图;
图4示例性示出了一种图结构的获取方式的示意图;
图5示例性示出了一种问题生成模型的编码器的结构的示意图;
图6是本申请一个实施例提供的问题生成装置的框图;
图7是本申请另一个实施例提供的问题生成装置的框图;
图8是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理等技术,采用自然语言处理技术从目标文本中提取三元组,并基于该三元组对目标文本进行构图,得到目标文本对应的图结构。其中,该图结构用于反映上述目标文本中包含的实体和实体之间的关系。进一步地,从上述图结构中提取目标子图,并基于目标子图生成上述目标文本对应的问题。其中,上述目标子图是目标文本中的部分文本内容对应的部分图结构,且一个目标子图对应一个问题。
需要说明的一点是,本申请提供的问题生成方法,可以广泛应用于各个领域。具体如下:
(1)在教育领域中,将课本中所记载的任意内容作为目标文本,从该目标文本中提取对应的三元组,基于该三元组对目标文本进行构图,得到目标文本对应的图结构,进而从该图结构中获取一个或多个目标子图,并生成上述目标文本对应的问题。其中,该问题的数量与上述目标子图的数量相同。之后,老师可以将该目标文本对应的问题分发给学生,根据学生针对问题的回答结果确定学生对课本中的内容的阅读程度,能够在减轻老师出题负担的同时较好地反映学生针对某个内容的学习情况。
(2)在医疗领域中,将病历中所记载的内容作为目标文本,从该目标文本中提取对应的三元组,基于该三元组对目标文本进行构图,得到目标文本对应的图结构,进而从该图结构中获取一个或多个目标子图,并生成上述目标文本对应的问题。其中,该问题的数量与上述目标子图的数量相同。之后,可以将该目标文本对应的问题分发给医院中的实习生,并根据实习生针对问题的回答结果确定实习生对某个病历的熟悉程度,能够较好地确定某个实习生对医疗知识的掌握程度,且由于每一医院所研究的病历可能不同,由本医院的病历生成的问题,能够更好地反映某个实习生与该医院的适配程度,确定该实习生是否符合本医院的要求。
(3)在交通领域,将交通规则中所记载的内容作为目标文本,从该目标文本中提取对应的三元组,基于该三元组对目标文本进行构图,得到目标文本对应的图结构,进而从该图结构中获取一个或多个目标子图,并生成上述目标文本对应的问题。其中,该问题的数量与上述目标子图的数量相同。之后,可以将该目标文本对应的问题收纳至交通考试题库中,在进行驾照考试时,直接从交通考试题库中获取考试问题,减少驾照考试时对出题人的人力资源消耗,由计算机设备更好更快地获取交通规则对应的问题,在丰富交通考试题库的同时,保证问题的多样性,能够更好地检测考生对交通规则的了解程度。
(4)在人工智能领域,将自动问答机器人负责的业务文本中所记载的任意内容作为目标文本,从该目标文本中提取对应的三元组,基于该三元组对目标文本进行构图,得到目标文本对应的图结构,进而从该图结构中获取一个或多个目标子图,并生成上述目标文本对应的问题。其中,该问题的数量与上述目标子图的数量相同。之后,由自动问答机器人存储目标文本对应的问题,使得自动问答机器人在于用户交谈过程中能够顺利提出问题,问题生成方法能够对自动问答机器人提供良好的辅助作用。
当然,本申请中的问题生成方法还可以运用于其它各个领域,在此不一一举例。
为了便于说明,在下述方法实施例中,仅以各步骤的执行主体为计算机设备为例进行介绍说明,所述计算机设备可以是任何具备计算和存储能力的电子设备。例如,该计算机设备可以是服务器,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。再例如,该计算机设备也可以是终端,该终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。需要说明的一点是,在本申请实施例中,各步骤的执行主体可以是同一计算机设备,也可以由多个不同的计算机设备交互配合执行,此处不作限定。
下面,将结合几个实施例对本申请技术方案进行详细的介绍说明。
请参考图1,其示出了本申请一个实施例提供的问题生成方法的流程图。该方法可以包括以下几个步骤(101~104):
步骤101,获取目标文本。
目标文本是指记录有任意内容的文本。可选地,该目标文本中可以包括文字内容、图片内容、表格内容等,本申请实施例对此不作限定。其中,上述目标文本可以是文章、资讯或小说等。在本申请实施例中,计算机设备在生成问题之前,获取目标文本。其中,该目标文本中所包括的文本数量可以是一个或多个,本申请实施例对此不作限定。可选地,该目标文本可以是计算机设备实时获取的文本,也可以是已经存储在计算机设备中的待处理文本。
在一种可能的实施方式中,由工作人员向计算机设备提供上述目标文本。可选地,工作人员根据实际情况,确定所需要生成的问题类型,如用于交通考试的问题、用于医疗检测的问题或用于教学考试的问题等。进一步地,工作人员基于问题类型,获取相同类型的目标文本,并将该目标文本上传至计算机设备,使得计算机设备获取该目标文本。
在另一种可能的实施方式中,由计算机设备自动获取上述目标文本。可选地,计算机设备在确定所需要生成的问题类型之后,利用网络爬虫技术,从网络环境中获取与该问题类型为相同类型的目标文本。或者,计算机设备中可以存储有不同类型的文本库,在确定上述文本类型之后,基于该问题类型,从对应类型的文本库中获取目标文本。其中,计算机设备可以按照一定的时间间隔对上述文本库进行更新,该时间间隔可以是1s、1h、1天或1周等。
需要说明的一点是,在本申请实施例中,上述目标文本可以是某个文本的完整文本,也可以是某个文本的部分文本。可选地,在获取某个文本之后,可以根据文本结构自动对该文本进行划分,确定该文本中的重点描述信息,进而将该重点描述信息作为目标文本。例如,在总分结构的文本中,上述目标文本可以为该文本的第二段至倒数第一段的内容;在总分总结构的文本中,上述目标文本可以为该文本的第二段至倒数第二段的内容;在分总结构的文本中,上述目标文本可以为该文本的第一段至倒数第二段的内容。当然,在实际运用中,在获取某个文本之后,也可以由工作人员基于文本内容进行提取,获取该文本的重点描述信息,进而得到上述目标文本。
步骤102,对目标文本的文本内容进行构图,生成目标文本对应的图结构。
图结构用于反映上述目标文本中包含的实体以及该实体之间的关系。例如,该图结构可以为目标文本对应的知识图谱。在本申请实施例中,计算机设备在获取上述目标文本之后,对该目标文本的文本内容进行构图,生成该目标文本对应的图结构。
可选地,计算机设备在获取上述目标文本之后,利用自然语言处理技术从目标文本中提取实体,并通过语义理解确定实体之间的关系,进而基于该实体以及实体之间的关系,构建上述目标文本对应的图结构。
需要说明的一点是,在本申请实施例中,计算机设备在对目标文本的文本内容进行构图之前,可以对该文本内容进行预处理,如去除文本内容中的字符、将文本内容中的图像内容转换为文字内容,将文本内容中的表格内容转换为文字内容等。
步骤103,从图结构中提取目标子图。
目标子图是目标文本中的部分文本内容对应的部分图结构。在本申请实施例中,计算机设备在获取上述图结构之后,从上述图结构中提取目标子图。
在一种可能的实施方式中,计算机设备基于针对上述图结构的划分处理,从该图结构中获取目标子图。可选地,计算机设备在获取上述目标文本对应的图结构之后,依据该图结构的构造,对该图结构进行划分,进而从该图结构中获取上述目标子图。其中,一个目标子图对应上述目标文本中的部分文本内容对应的部分图结构。
在另一种可能的实施方式中,计算机设备基于图结构中包含的信息的重要程度,从该图结构中获取目标子图。可选地,上述图结构中包括多个节点,一个节点对应一个实体,任意两个节点之间的边用于指示该两个节点对应的实体之间的关系。其中,上述图结构中的每个节点对应有节点名称和节点的权重信息,每条边对应有边名称和边的权重信息。上述节点名称是指节点对应的实体名称,上述节点的权重信息用于指示节点对应的实体在上述目标文本中的重要程度,上述边名称是指边对应的关系名称,上述边的权重信息用于是指边对应的关系在上述目标文本中的重要程度。在一种可能的实施方式中,计算机设备在获取上述图结构之后,基于该图结构中的节点的权重信息,确定该节点对应的实体在上述目标文本中的重要程度,若该节点对应的实体在目标文本中重要,则基于该节点从上述图结构中获取目标子图;在另一种可能的实施方式中,计算机设备在获取上述图结构之后,基于该图结构中的边的权重信息,确定该边对应的关系在上述目标文本中的重要程度,若该边对应的关系在目标文本中重要,则基于该边从上述图结构中获取目标子图。可选地,上述权重信息中可以包括用于表征重要程序的标识信息,如非常重要、重要、比较重要、一般、不太重要、不重要等;或者,上述权重信息中包括实体或关系在目标文本中的出现次数。
需要说明的一点是,在本申请实施例中,计算机设备可以从上述图结构中提取出一个或多个目标子图,本申请实施例对此不作限定。
步骤104,生成与目标子图对应的问题。
问题与上述目标子图对应的文本内容相关。可选地,问题为针对上述目标子图对应的文本内容的提问。在本申请实施例中,计算机设备在获取上述目标子图之后,基于该目标子图,生成与该目标子图对应的问题。
可选地,上述问题由问题生成模型对上述目标子图进行处理后生成,计算机设备在获取上述目标子图之后,将该目标子图输入至问题生成模型,进而获取该问题生成模型输出的分词序列。其中,该分词序列为上述问题对应的分词序列,计算机设备在获取上述分词序列之后,可以依据该分词序列中各个分词的输出顺序,对该分词序列进行拼接,进而得到上述与目标子图对应的问题。需要说明的一点是,上述分词序列中包括用于指示问题结束的终止符,如“?”。
其中,上述问题生成模型可以为机器学习模型,该问题生成模型中可以包括编码器和解码器。可选地,上述步骤104包括以下几个步骤:
1、通过编码器对目标子图进行编码,得到与目标子图对应的问题信息。
问题信息是指问题对应的分词序列的编码信息。在本申请实施例中,计算机设备在获取上述目标子图之后,通过编码器对该目标子图进行编码,得到与目标子图对应的问题信息。其中,上述编码器中包括图像转化层、图像拆分层、图像压缩层、图像编码层、图像融合层和神经网络层。
可选地,计算机设备在获取上述目标子图之后,采用图像转化层将目标子图转换为二部图。其中,二部图中包括第一节点和第二节点,第一节点是指上述目标子图中的节点,第二节点是指目标子图中的边转换为的节点。示例性地,如图2所示,计算机设备采用图像转化层将目标子图20转换为二部图21。其中,目标子图20中包括节点A、节点B和节点C,且节点A与节点B之间具有边“喜欢”,节点A与节点C之间具有边“讨厌”;二部图21中包括节点A、节点B、节点C、节点“喜欢”和节点“讨厌”,且二部图21中的边的连接方向为节点A通过节点“喜欢”与节点B相连,节点A通过节点“讨厌”与节点C相连。
可选地,计算机设备在获取上述二部图之后,采用图像拆分层对二部图进行拆分,得到第一子图、第二子图、第三子图和第四子图。其中,第一子图是指第一节点与第二节点之间两两相连的子图,二子图是指所二部图对应的双向连接图,第三子图是指二部图,第四子图是指二部图对应的逆向连接图。示例性地,如图3所示,计算机设备采用图像拆分层,将二部图21拆分成第一子图31、第二子图32、第三子图33和第四子图34。其中,在上述第一子图31中,节点A与节点“喜欢”、节点“讨厌”相连,节点B与节点“喜欢”、节点“讨厌”相连,节点C与节点“喜欢”、节点“讨厌”相连;上述第二子图中的边的连接方向为,节点A通过节点“喜欢”与节点B相连,节点A通过节点“讨厌”与节点C相连,同时,节点B通过节点“喜欢”与节点A相连,节点C通过节点“讨厌”与节点A相连;上述第三子图33即为二部图21;上述第四子图34中的连接方向为,节点B通过节点“喜欢”与节点A相连,节点C通过节点“讨厌”与节点A相连。
可选地,计算机设备在获取上述第一子图、第二子图、第三子图和第四子图之后,采用图像压缩层对第一子图、第二子图、第三子图和第四子图分别进行图像压缩,如采用字节对编码(Byte Pair Encoding)的方式对各个子图进行压缩;采用图像编码层对压缩后的各个子图进行编码,如采用Graph Transformer Encoder对压缩后的各个子图进行编码得到各个子图的编码信息;采用图像融合层对编码后的各个子图进行信息拼接,得到目标子图的编码信息,如对各个子图的编码信息进行拼接得到编码矩阵;最后,采用神经网络层对目标子图的编码信息进行处理,得到与目标子图对应的问题信息,如将拼接得到的编码矩阵与问题生成模型的参数矩阵相乘得到与目标子图对应的问题的编码矩阵。
2、通过解码器对与目标子图对应的问题信息进行解码,得到与目标子图对应的问题。
在本申请实施例中,计算机设备在获取上述与目标子图对应的问题信息之后,通过解码器对与目标子图对应的问题信息进行解码,进而得到与目标子图对应的问题。需要说明的一点是,上述解码器输出的具体内容可以为上述问题对应的分词序列,计算机设备可以通过对该分词序列中各个分词进行拼接,进而得到上述与目标子图对应的问题。
综上所述,本申请实施例提供的技术方案中,通过目标文本对应的目标子图获取该与该目标文本对应的问题,能够基于目标文本自动生成与该目标文本相关的问题,不需要结合目标文本和问题答案生成问题,扩大问题生成方法的使用范围与领域,使得在无需获取答案的情况下也能够生成与目标文本相关的问题,获取问题时所需准备的内容少,问题生成要求降低,使得问题的生成更加灵活;而且,从目标文本对应的图结构中提取目标子图,且图结构用于反映目标文本中包含的实体以及实体之间的关系,保证目标子图能够准确反映目标文本中的文本内容,有效地提高所生成的文体与目标文本的关联性,保证问题的准确性。
下面,基于上述图结构中各个节点的权重信息,对目标子图的获取方式进行介绍。
在示例性实施例中,上述步骤103包括以下几个步骤:
1、获取图结构中各个节点的权重信息。
节点的权重信息用于指示节点对应的实体在目标文本中的重要程度。在一种可能的实施方式中,上述权重信息中包括节点对应的实体在上述目标文本中的出现次数。可选地,计算机设备在对目标文本的文本内容进行构图时,获取文本内容中的实体在该文本内容中的出现次数,进而基于该出现次数确定实体对应的节点的权重信息。在另一种可能的实施方式中,上述权重信息中包括用于表征上述重要程度的标识信息,如非常重要、重要、比较重要、一般、不太重要、不重要等。可选地,计算机设备在对目标文本的文本内容进行构图时,获取文本内容中的实体在该文本内容中的出现频率,并基于该出现频率确定该实体在文本内容中的重要程度,进而确定该实体对应的节点的权重信息。当然,上述权重信息中也可以直接包括节点对应的实体在上述目标文本中的出现频率,本申请实施例对此不作限定。
在本申请实施例中,计算机设备在从图结构中提取目标子图时,获取该图结构中的各个节点的权重信息。可选地,计算机设备对图结构中的各个节点进行遍历,进而获取各个节点对应的权重信息。
2、从图结构中选取权重信息符合条件的至少一个目标节点。
条件是指用于判定节点是否为目标节点的判断条件。可选地,该条件中可以包括一个或多个子条件,本申请实施例对此不作限定。目标节点是指目标子图的中心节点。可选地,计算机设备以目标节点为中心,获取与目标节点相连接的节点,进而获取上述目标子图。
在本申请实施例中,计算机设备在获取节点的权重信息之后,基于该节点的权重信息,从上述图结构中选取权重信息符合条件的至少一个节点作为目标节点。
在一种可能的实施方式中,为了保证后续生成问题为针对重要内容的问题且问题不重复,上述条件为权重信息满足要求且节点分布不密集。可选地,在本申请实施例中,计算机设备在获取上述节点的权重信息之后,基于该节点的权重信息,将图结构中权重信息满足要求的节点确定为候选节点。其中,要求是指用于判定节点对应的实体是否为目标文本的重要内容的判断依据。
其中,不同的权重信息对应的要求不同。例如,若权重信息中包括节点对应的实体在上述目标文本中的出现次数,则上述要求可以为出现次数大于阈值,该阈值可以是任意数值;若权重信息中包括用于表征上述重要程度的标识信息,则上述要求可以为标识信息为非常重要或重要;若权重信息中包括节点对应的实体在上述目标文本中的出现频率,则上述要求可以为出现频率大于门限值,该门限值可以为任意数值。当然,计算机设备也可以根据目标文本对应的问题数量确定上述要求。例如,若工作人员设置从目标文本中提取两个问题,则上述要求可以为目标文本中最重要的两个实体对应的节点,需要说明的一点是,在获取候选节点之后,计算机设备需要对候选节点进行再一次筛选,此时,若筛选后得到的目标数量不满足2,则从剩余的节点中继续选择最重要实体对应的节点作为候选节点。
可选地,在本申请实施例中,计算机设备在获取上述候选节点之后,基于该候选节点在上述图结构中的分布位置,从分布密集的候选节点中去除部分候选节点,并将剩余的候选节点确定为目标节点。可选地,计算机设备在获取上述候选节点之后,对该候选节点进行遍历。若候选节点的周围区域中不包括其它候选节点,则确定该候选节点为上述目标节点。若候选节点的周围区域中包括其它候选节点,则从候选节点和其它候选节点中确定任意一个节点作为上述目标节点。
可选地,在候选节点的周围区域中包括其它候选节点的情况下,计算机设备可以将候选节点和其它候选节点中的各个节点与已选定的目标节点之间的距离作为选择条件,选择与已选定的目标节点之间的距离最远的节点作为目标节点;或者,计算机设备可以将候选节点的节点名称以及其它候选节点的节点名称作为选择条件,选择节点名称所指示的范围最大的节点作为上述目标节点;或者,计算机设备可以将候选节点和其它候选节点中各个节点所连接的节点的数量作为选择条件,选择所连接的节点的数量最多的节点作为上述目标节点;等等。
其中,上述周围区域是指以候选节点为中心,与候选节点之间的距离小于目标值的区域,该目标值可以是任意数值,本申请实施例不作限定。需要说明的一点是,在本申请实施例中,上述距离可以由两个节点之间的直线距离进行表示,也可以由两个节点之间所间隔的连接线(边)的数量进行表示。
当然,在其它可能的实施方式中,工作人员可以根据实际情况对上述条件进行灵活设置。例如,上述条件可以为位于图结构中心的节点;或者,上述条件可以为具有n条连线的节点,其中,n为任意数值;或者,上述条件可以为关联节点的权重大于要求数值的节点。
3、对于每一个目标节点,获取目标节点对应的目标子图。
在本申请实施例中,计算机设备在获取上述目标节点之后,对于每一个目标节点,获取目标节点对应的目标子图。
在一种可能的实施方式中,上述目标子图中包括目标节点以及与该目标节点之间具有边连接的关联节点。可选地,计算机设备在获取目标节点之后,基于该目标节点对应的边,获取与该目标节点之间具有边连接的关联节点,进而得到由该目标节点和关联节点组成的目标子图。
在另一种可能的实施方式中,上述目标子图中包括目标节点、与该目标节点之间具有边连接的关联节点,以及与该关联节点具有边连接的其它节点。可选地,工作人员可以预先设置目标子图的尺寸,计算机设备在获取上述目标节点之后,基于该目标节点,获取与该目标节点之间具有边连接的关联节点,并根据预先设置的目标子图的尺寸,确定关联节点与其它节点之间的连接线(边)的数量,进而获取其它节点,并获取上述目标子图。示例性地,假设预先设置的目标子图的尺寸为4,则目标子图中包括目标节点、关联节点、与关联节点具有边连接的第一其它节点,以及与第一其它节点具有边连接的第二其它节点。
下面,对上述图结构的生成方式进行介绍。
在示例性实施例中,上述步骤102包括以下几个步骤:
1、生成与目标文本中的各个句子分别对应的三元组。
三元组用于概括目标文本中的各个句子的主要内容。可选地,该三元组包括句子中包含的第一实体和第二实体,以及该第一实体与第二实体之间的关联关系。
在本申请实施例中,计算机设备在对文本内容进行构图时,获取文本内容中的各个句子,并生成与目标文本中的各个句子分别对应的三元组。可选地,工作人员可以根据实际情况对上述三元组进行灵活设置,如针对不同内容的目标文本确定不同的三元组。
在一种可能的实施方式中,上述三元组中包括主语、谓语和宾语。其中,主语为第一实体,宾语为第二实体,谓语为第一实体与第二实体之间的关联关系。可选地,计算机设备对目标文本中的各个句子进行缩写,确定句子中的主语、谓语和宾语,进而得到该句子对应的三元组。
在另一种可能的实施方式中,上述三元组中包括名词、名词和转换关系。其中,两个名词分别为第一实体和第二实体,转换关系为第一实体与第二实体之间的关联关系。可选地,计算机设备对目标文本中的各个句子进行内容提取,确定句子中的名词以及名词之间的转换关系,进而得到该句子对应的三元组。
在再一种可能的实施方式中,上述三元组中包括名词、名词和相似度。其中,两个名词分别为第一实体和第二实体,相似度为第一实体与第二实体之间的关联关系。可选地,计算机设备对目标文本中的各个句子进行内容提取,确定句子中的名词以及名词之间的相似度,进而得到该句子对应的三元组。
2、基于各个句子分别对应的三元组,生成目标文本对应的图结构。
在本申请实施例中,计算机设备在获取上述三元组之后,基于各个句子分别对应的三元组,生成目标文本对应的图结构。可选地,计算机设备以第一实体的实体名称作为第一节点名称,在图结构中添加第一节点名称对应的节点;以第二实体的实体名称作为第二节点名称,在图结构中添加第二节点名称对应的节点;以第一实体与述二实体之间的关联关系的关系名称作为边名称,在第一节点名称对应的节点与第二节点名称对应的节点之间,添加边名称对应的边。需要说明的一点是,上述边可以为无向边,也可以为有向边。例如,若上述三元组中包括主语、谓语和宾语,则上述边可以为由主语对应的节点指向宾语对应的节点的有向边;若上述名词、名词和相似度,则上述边可以两个名词对应的节点之间的无向边。
可选地,在图结构的获取过程中,为了防止节点的重复添加,仅仅在图结构中增添未包含的内容,若图结构中包括第一实体对应的节点且不包括第二实体对应的节点,则在图结构中增加第二实体对应的节点,以及第一实体与所第二实体之间的关联关系对应的边,同时,更新第一实体对应的节点的权重信息,第一实体对应的节点的权重信息用于指示第一实体在目标文本中的重要程度;若图结构中包括第二实体对应的节点且不包括第一实体对应的节点,则在图结构中增加第一实体对应的节点,以及第一实体与第二实体之间的关联关系对应的边,同时,更新第二实体对应的节点的权重信息,第二实体对应的节点的权重信息用于指示第二实体在目标文本中的重要程度;若目标图中包括第一实体对应的节点和第二实体对应的节点,则在图结构中增加第一实体与第二实体之间的关联关系对应的边。当然,若目标图中包括第一实体对应的节点、第二实体对应的节点,以及第一实体与第二实体之间的关联关系对应的边,则在图结构中更新第一实体对应的节点的权重信息、第二实体对应的节点的权重信息,以及第一实体与第二实体之间的关联关系对应的边的权重信息。
需要说明的一点是,判断图结构中是否包括第一实体对应的节点的方式为:
(1)图结构中是否包括某个节点的节点名称与第一实体的实体名称相似。若图结构中包括某个节点的节点名称与第一实体的实体名称相似,则图结构中包括第一实体对应的节点;若图结构中不存在某个节点的节点名称与第一实体的实体名称相似,则图结构中不包括第一实体对应的节点。可选地,计算机设备在获取第一实体之后,基于该第一实体的实体名称对图结构中已存在的各个节点的节点名称进行遍历,若某个节点名称与实体名称之间的相似度大于某个数值,则确定该节点名称对应的节点为第一实体对应的节点。需要说明的一点是,上述数值可以用于决定图结构的尺寸,在实际运用中,若基于上述数值获取的图结构的尺寸未满足预设要求,则设置新的数值重新获取图结构。例如,若所获取的图结构的尺寸小于预设要求,则增大上述数值获取新的图结构;若所获取的图结构的尺寸大于预设要求,则减小上述数值获取新的图结构。
(2)图结构中是否包括某个节点的节点名称与第一实体的实体名称所指代的内容相同。例如,在目标文本“A喜欢B,但他讨厌C”中,“A”与“他”所指代的内容相同。可选地,计算机设备在获取第一实体之后,基于该第一实体的实体名称对图结构中已存在的各个节点的节点名称进行遍历,若某个节点名称与实体名称所指代的内容相同,则确定该节点名称对应的节点为第一实体对应的节点。
可选地,在图结构中包括第一实体对应的节点的情况下,计算机设备可以比较节点名称与实体名称所指代的范围,若实体名称所指代的范围大于节点名称所指代的范围,则使用该实体名称代替节点名称成为新的节点名称,并依据旧的节点名称建立上述第一实体对应的节点的虚节点;若实体名称所指代的范围小于节点名称所指代的范围,则保持节点的节点名称不变,使用该实体名称作为节点名称建立上述第一实体对应的节点的虚节点。
还需要说明的一点是,上述对构图的介绍只是示例性和解释性的,在实际运用中,计算机设备也可以根据其它方式对上述目标文本进行构图,如利用五元组构图。可选地,不同的目标文本对应的构图方式可以不同。例如,对于文本内容较长的目标文本,为了保证构图准确性,采用五元组进行构图;对于文本内容较短的目标文本,为了提高构图效率,采用三元组进行构图;对于文本内容过少的目标文本,为了减少计算机设备的负荷,采用人工构图方式进行构图。可选地,计算机设备中可以存储不同的目标文本与不同的构图方式之间关联关系,在获取目标文本之后,可以直接查询获取该目标文本对应的构图方式。当然,上述不同的目标文本,可以是字数不同的目标文本、获取方式不同的目标文本、保存方式不同的目标文本、包含信息不同的目标文本、所属领域不同的目标文本等,本申请实施例对此不作限定。
另外,结合参考图4和5,对本申请的问题生成方式进行完整介绍。如图4所示,针对目标文本40“XX是一名伟大的科学家,他发明了电器D,他改造了电器E,他创造了电器F,其中,电器D对人类发展做出巨大贡献”,提取三元组41,该三元组41中包括(XX,是,科学家)、(他,发明,电器D)、(他,改造,电器E)、(他,创造,电器F)、(电器D,做出,贡献),进一步地,基于三元组41对目标文本40的文本内容进行构图,得到图结构42。其中,图结构42中包括节点“XX”、节点“科学家”、节点“电器D”、节点“电器E”、节点“电器F”、节点“贡献”、边“是”、边“发明”、边“改造”、边“创造”、边“做出”,且节点“XX”的权重信息为4,节点“电器D”的权重信息为2。进一步地,选择节点“XX”作为目标节点,得到目标子图43。其中,目标子图43中包括节点“XX”、节点“科学家”、节点“电器D”、节点“电器E”、节点“电器F”、边“是”、边“发明”、边“改造”、边“创造”。之后,采用文图生成模型对目标子图43进行处理,生成目标文本对应的文本,问题生成模型中包括编码器和解码器,如图5所示,编码器50中包括图像转化层51、图像拆分层52、图像压缩层53、图像编码层54、图像融合层55和神经网络层56。采用图像转化层51将目标子图43转换为二部图57;采用图像拆分层52对二部图57进行拆分,得到第一子图、第二子图、第三子图和第四子图;采用图像压缩层53对第一子图、第二子图、第三子图和第四子图分别进行图像压缩;采用图像编码层54对压缩后的各个子图进行编码;采用图像融合层55对编码后的各个子图进行信息拼接,得到目标子图43的编码信息;采用神经网络层56对目标子图43的编码信息进行处理,得到与目标子图43对应的问题信息58。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图6,其示出了本申请一个实施例提供的问题生成装置的框图。该装置具有实现上述问题生成方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置计算机设备中。该装置600可以包括:文本获取模块610、文本构图模块620、子图提取模块630和问题生成模块640。
文本获取模块610,用于获取目标文本。
文本构图模块620,用于对所述目标文本的文本内容进行构图,生成所述目标文本对应的图结构,所述图结构用于反映所述目标文本中包含的实体以及所述实体之间的关系。
子图提取模块630,用于从所述图结构中提取目标子图,所述目标子图是所述目标文本中的部分文本内容对应的部分图结构。
问题生成模块640,用于生成与所述目标子图对应的问题,所述问题与所述目标子图对应的文本内容相关。
在示例性实施例中,述图结构包括多个节点,一个节点对应于一个实体,任意两个节点之间的边用于指示所述两个节点对应的实体之间的关系;如图7所示,所述子图提取模块630,包括:权重获取单元631、节点获取单元632和子图获取单元633。
权重获取单元631,用于获取所述图结构中各个节点的权重信息,所述节点的权重信息用于指示所述节点对应的实体在所述目标文本中的重要程度。
节点获取单元632,用于从所述图结构中选取所述权重信息符合条件的至少一个目标节点。
子图获取单元633,用于对于每一个目标节点,获取所述目标节点对应的目标子图,所述目标子图中包括所述目标节点以及与所述目标节点之间具有边连接的关联节点。
在示例性实施例中,所述节点获取单元632,用于将所述图结构中所述权重信息满足要求的节点确定为候选节点;基于所述候选节点在所述图结构中的分布位置,从分布密集的候选节点中去除部分候选节点,并将剩余的候选节点确定为所述目标节点。
在示例性实施例中,所述节点获取单元632,还用于若所述候选节点的周围区域中不包括其它候选节点,则确定所述候选节点为所述目标节点;若所述候选节点的周围区域中包括其它候选节点,则从所述候选节点和所述其它候选节点中确定所述目标节点;其中,所述周围区域是指以所述候选节点为中心,与所述候选节点之间的距离小于目标值的区域。
在示例性实施例中,所述问题由问题生成模型对所述目标子图进行处理后生成,所述问题生成模型包括编码器和解码器;如图7所示,所述问题生成模块640,包括:信息获取单元641和问题获取单元642。
信息获取单元641,用于通过所述编码器对所述目标子图进行编码,得到所述与目标子图对应的问题信息,所述问题信息是指所述问题对应的分词序列的编码信息。
问题获取单元642,用于通过所述解码器对与所述目标子图对应的问题信息进行解码,得到与所述目标子图对应的问题。
在示例性实施例中,所述编码器包括图像转化层、图像拆分层、图像压缩层、图像编码层、图像融合层和神经网络层;所述信息获取单元641,用于采用所述图像转化层将所述目标子图转换为二部图;其中,所述二部图中包括第一节点和第二节点,所述第一节点是指所述目标子图中的节点,所述第二节点是指所述目标子图中的边转换为的节点;采用所述图像拆分层对所述二部图进行拆分,得到第一子图、第二子图、第三子图和第四子图;其中,所述第一子图是指所述第一节点与所述第二节点之间两两相连的子图,所述第二子图是指所述二部图对应的双向连接图,所述第三子图是指所述二部图,所述第四子图是指所述二部图对应的逆向连接图;采用所述图像压缩层对所述第一子图、所述第二子图、所述第三子图和所述第四子图分别进行图像压缩;采用所述图像编码层对压缩后的各个子图进行编码;采用所述图像融合层对编码后的各个子图进行信息拼接,得到所述目标子图的编码信息;采用所述神经网络层对所述目标子图的编码信息进行处理,得到与所述目标子图对应的问题信息。
在示例性实施例中,所述文本构图模块620,用于若所述图结构中包括所述第一实体对应的节点且不包括所述第二实体对应的节点,则在所述图结构中增加所述第二实体对应的节点,以及所述第一实体与所述第二实体之间的关联关系对应的边;若所述图结构中包括所述第二实体对应的节点且不包括所述第一实体对应的节点,则在所述图结构中增加所述第一实体对应的节点,以及所述第一实体与所述第二实体之间的关联关系对应的边;若所述目标图中包括所述第一实体对应的节点和所述第二实体对应的节点,则在所述图结构中增加所述第一实体与所述第二实体之间的关联关系对应的边。
在示例性实施例中,所述文本构图模块620,还用于更新所述第一实体对应的节点的权重信息;其中,所述第一实体对应的节点的权重信息用于指示所述第一实体在所述目标文本中的重要程度;更新所述第二实体对应的节点的权重信息;其中,所述第二实体对应的节点的权重信息用于指示所述第二实体在所述目标文本中的重要程度。
综上所述,本申请实施例提供的技术方案中,通过目标文本对应的目标子图获取该与该目标文本对应的问题,能够基于目标文本自动生成与该目标文本相关的问题,不需要结合目标文本和问题答案生成问题,扩大问题生成方法的使用范围与领域,使得在无需获取答案的情况下也能够生成与目标文本相关的问题,获取问题时所需准备的内容少,问题生成要求降低,使得问题的生成更加灵活;而且,从目标文本对应的图结构中提取目标子图,且图结构用于反映目标文本中包含的实体以及实体之间的关系,保证目标子图能够准确反映目标文本中的文本内容,有效地提高所生成的文体与目标文本的关联性,保证问题的准确性。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图8,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可用于实现上述问题生成方法或问题生成模型的训练方法的功能。具体来讲:
计算机设备800包括中央处理单元(Central Processing Unit,CPU)801、包括随机存取存储器(Random Access Memory,RAM)802和只读存储器(Read Only Memory,ROM)803的系统存储器804,以及连接系统存储器804和中央处理单元801的系统总线805。计算机设备800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)806,和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。
基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中显示器808和输入设备809都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。大容量存储设备807及其相关联的计算机可读介质为计算机设备800提供非易失性存储。也就是说,大容量存储设备807可以包括诸如硬盘或者CD-ROM(CompactDisc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。
根据本申请的各种实施例,计算机设备800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备800可以通过连接在系统总线805上的网络接口单元811连接到网络812,或者说,也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述问题生成方法。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述问题生成方法。
可选地,该计算机可读存储介质可以包括:ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取记忆体)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述问题生成方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (11)
1.一种问题生成方法,其特征在于,所述方法包括:
获取目标文本;
对所述目标文本的文本内容进行构图,生成所述目标文本对应的图结构,所述图结构用于反映所述目标文本中包含的实体以及所述实体之间的关系;
基于所述图结构中各个节点的权重信息,从所述图结构中提取目标子图,所述目标子图是所述目标文本中的部分文本内容对应的部分图结构;其中,所述目标子图中包括所述权重信息符合条件的目标节点以及与所述目标节点之间具有边连接的关联节点,所述节点的权重信息用于指示所述节点对应的实体在所述目标文本中的重要程度;
通过问题生成模型的编码器对所述目标子图进行编码,得到与所述目标子图对应的问题信息,所述问题信息是指问题对应的分词序列的编码信息;
通过所述问题生成模型的解码器对所述问题信息进行解码,得到与所述目标子图对应的问题,所述问题与所述目标子图对应的文本内容相关。
2.根据权利要求1所述的方法,其特征在于,所述图结构包括多个节点,一个节点对应于一个实体,任意两个节点之间的边用于指示所述两个节点对应的实体之间的关系;
所述基于所述图结构中各个节点的权重信息,从所述图结构中提取目标子图,包括:
获取所述图结构中各个节点的权重信息;
从所述图结构中选取所述权重信息符合条件的至少一个目标节点;
对于每一个目标节点,获取所述目标节点对应的目标子图。
3.根据权利要求2所述的方法,其特征在于,所述从所述图结构中选取权重信息符合条件的至少一个目标节点,包括:
将所述图结构中所述权重信息满足要求的节点确定为候选节点;
基于所述候选节点在所述图结构中的分布位置,从分布密集的候选节点中去除部分候选节点,并将剩余的候选节点确定为所述目标节点。
4.根据权利要求3所述的方法,其特征在于,所述基于所述候选节点在所述图结构中的分布位置,从分布密集的候选节点中去除部分候选节点,并将剩余的候选节点确定为所述目标节点,包括:
若所述候选节点的周围区域中不包括其它候选节点,则确定所述候选节点为所述目标节点;
若所述候选节点的周围区域中包括其它候选节点,则从所述候选节点和所述其它候选节点中确定所述目标节点;
其中,所述周围区域是指以所述候选节点为中心,与所述候选节点之间的距离小于目标值的区域。
5.根据权利要求1所述的方法,其特征在于,所述编码器包括图像转化层、图像拆分层、图像压缩层、图像编码层、图像融合层和神经网络层;
所述通过所述问题生成模型的编码器对所述目标子图进行编码,得到与所述目标子图对应的问题信息,包括:
采用所述图像转化层将所述目标子图转换为二部图;其中,所述二部图中包括第一节点和第二节点,所述第一节点是指所述目标子图中的节点,所述第二节点是指所述目标子图中的边转换为的节点;
采用所述图像拆分层对所述二部图进行拆分,得到第一子图、第二子图、第三子图和第四子图;其中,所述第一子图是指所述第一节点与所述第二节点之间两两相连的子图,所述第二子图是指所述二部图对应的双向连接图,所述第三子图是指所述二部图,所述第四子图是指所述二部图对应的逆向连接图;
采用所述图像压缩层对所述第一子图、所述第二子图、所述第三子图和所述第四子图分别进行图像压缩;
采用所述图像编码层对压缩后的各个子图进行编码;
采用所述图像融合层对编码后的各个子图进行信息拼接,得到所述目标子图的编码信息;
采用所述神经网络层对所述目标子图的编码信息进行处理,得到与所述目标子图对应的问题信息。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述对所述目标文本的文本内容进行构图,生成所述目标文本对应的图结构,包括:
生成与所述目标文本中的各个句子分别对应的三元组;其中,所述三元组包括所述句子中包含的第一实体和第二实体,以及所述第一实体与所述第二实体之间的关联关系;
基于所述各个句子分别对应的三元组,生成所述目标文本对应的图结构。
7.根据权利要求6所述的方法,其特征在于,所述基于所述各个句子分别对应的三元组,生成所述目标文本对应的图结构,包括:
若所述图结构中包括所述第一实体对应的节点且不包括所述第二实体对应的节点,则在所述图结构中增加所述第二实体对应的节点,以及所述第一实体与所述第二实体之间的关联关系对应的边;
若所述图结构中包括所述第二实体对应的节点且不包括所述第一实体对应的节点,则在所述图结构中增加所述第一实体对应的节点,以及所述第一实体与所述第二实体之间的关联关系对应的边;
若所述目标图中包括所述第一实体对应的节点和所述第二实体对应的节点,则在所述图结构中增加所述第一实体与所述第二实体之间的关联关系对应的边。
8.根据权利要求7所述的方法,其特征在于,
所述在所述图结构中增加所述第二实体对应的节点,以及所述第一实体与所述第二实体之间的关联关系对应的边之后,还包括:更新所述第一实体对应的节点的权重信息;其中,所述第一实体对应的节点的权重信息用于指示所述第一实体在所述目标文本中的重要程度;
所述在所述图结构中增加所述第一实体对应的节点,以及所述第一实体与所述第二实体之间的关联关系对应的边之后,还包括:更新所述第二实体对应的节点的权重信息;其中,所述第二实体对应的节点的权重信息用于指示所述第二实体在所述目标文本中的重要程度。
9.一种问题生成装置,其特征在于,所述装置包括:
文本获取模块,用于获取目标文本;
文本构图模块,用于对所述目标文本的文本内容进行构图,生成所述目标文本对应的图结构,所述图结构用于反映所述目标文本中包含的实体以及所述实体之间的关系;
子图提取模块,用于基于所述图结构中各个节点的权重信息,从所述图结构中提取目标子图,所述目标子图是所述目标文本中的部分文本内容对应的部分图结构;其中,所述目标子图中包括所述权重信息符合条件的目标节点以及与所述目标节点之间具有边连接的关联节点,所述节点的权重信息用于指示所述节点对应的实体在所述目标文本中的重要程度;
问题生成模块,用于通过问题生成模型的编码器对所述目标子图进行编码,得到与所述目标子图对应的问题信息,所述问题信息是指问题对应的分词序列的编码信息;通过所述问题生成模型的解码器对所述问题信息进行解码,得到与所述目标子图对应的问题,所述问题与所述目标子图对应的文本内容相关。
10.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一项所述的问题生成方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一项所述的问题生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011098263.2A CN112052680B (zh) | 2020-10-14 | 2020-10-14 | 问题生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011098263.2A CN112052680B (zh) | 2020-10-14 | 2020-10-14 | 问题生成方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112052680A CN112052680A (zh) | 2020-12-08 |
CN112052680B true CN112052680B (zh) | 2023-01-10 |
Family
ID=73605734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011098263.2A Active CN112052680B (zh) | 2020-10-14 | 2020-10-14 | 问题生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052680B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657089B (zh) * | 2021-08-20 | 2024-08-16 | 西安电子科技大学 | 一种英语阅读理解辅助出题方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107610770A (zh) * | 2016-07-11 | 2018-01-19 | 百度(美国)有限责任公司 | 用于自动化诊断的问题生成系统和方法 |
CN110795569A (zh) * | 2019-10-08 | 2020-02-14 | 北京百度网讯科技有限公司 | 知识图谱的向量表示生成方法、装置及设备 |
CN111104517A (zh) * | 2019-10-01 | 2020-05-05 | 浙江工商大学 | 一种基于两个三元组的中文问题生成方法 |
CN111368048A (zh) * | 2020-02-26 | 2020-07-03 | 京东方科技集团股份有限公司 | 信息获取方法、装置、电子设备及计算机可读存储介质 |
CN112487168A (zh) * | 2020-12-11 | 2021-03-12 | 润联软件系统(深圳)有限公司 | 知识图谱的语义问答方法、装置、计算机设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180089569A1 (en) * | 2016-09-28 | 2018-03-29 | International Business Machines Corporation | Generating a temporal answer to a question |
CN108052577B (zh) * | 2017-12-08 | 2022-06-14 | 北京百度网讯科技有限公司 | 一种通用文本内容挖掘方法、装置、服务器及存储介质 |
US10810897B2 (en) * | 2017-12-13 | 2020-10-20 | International Business Machines Corporation | Question generation for learning session |
CN108038627B (zh) * | 2017-12-27 | 2022-06-07 | 科大讯飞股份有限公司 | 一种对象评估方法及装置 |
CN108959433B (zh) * | 2018-06-11 | 2022-05-03 | 北京大学 | 一种从软件项目数据中提取知识图谱并问答的方法与系统 |
CN110472061A (zh) * | 2019-07-08 | 2019-11-19 | 郑州大学 | 一种基于短文本相似度计算的知识图谱融合方法 |
CN110991183B (zh) * | 2019-12-06 | 2023-07-04 | 北京百度网讯科技有限公司 | 问题的谓词确定方法、装置、设备及存储介质 |
-
2020
- 2020-10-14 CN CN202011098263.2A patent/CN112052680B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107610770A (zh) * | 2016-07-11 | 2018-01-19 | 百度(美国)有限责任公司 | 用于自动化诊断的问题生成系统和方法 |
CN111104517A (zh) * | 2019-10-01 | 2020-05-05 | 浙江工商大学 | 一种基于两个三元组的中文问题生成方法 |
CN110795569A (zh) * | 2019-10-08 | 2020-02-14 | 北京百度网讯科技有限公司 | 知识图谱的向量表示生成方法、装置及设备 |
CN111368048A (zh) * | 2020-02-26 | 2020-07-03 | 京东方科技集团股份有限公司 | 信息获取方法、装置、电子设备及计算机可读存储介质 |
CN112487168A (zh) * | 2020-12-11 | 2021-03-12 | 润联软件系统(深圳)有限公司 | 知识图谱的语义问答方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Zero-Shot Question Generation from Knowledge Graphs for Unseen Predicates and Entity Types;H Elsahar et.al;《arXiv:1802.06842v1》;20181231;第1-11页 * |
基于问题生成的知识图谱问答方法;乔振浩等;《智能计算机》;20200531;第1-5页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112052680A (zh) | 2020-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444709B (zh) | 文本分类方法、装置、存储介质及设备 | |
CN112131366B (zh) | 训练文本分类模型及文本分类的方法、装置及存储介质 | |
CN109522553B (zh) | 命名实体的识别方法及装置 | |
US20220028031A1 (en) | Image processing method and apparatus, device, and storage medium | |
CN110472002B (zh) | 一种文本相似度获取方法和装置 | |
CN114511860B (zh) | 一种差异描述语句生成方法、装置、设备及介质 | |
CN113704428B (zh) | 智能问诊方法、装置、电子设备及存储介质 | |
CN113408284A (zh) | 文本处理模型的训练方法、装置、电子设备及存储介质 | |
CN113761153A (zh) | 基于图片的问答处理方法、装置、可读介质及电子设备 | |
Prade et al. | A short introduction to computational trends in analogical reasoning | |
CN113761220A (zh) | 信息获取方法、装置、设备及存储介质 | |
CN113010645A (zh) | 文本生成方法、装置、设备及存储介质 | |
CN115270746A (zh) | 问题样本生成方法和装置、电子设备及存储介质 | |
CN112052680B (zh) | 问题生成方法、装置、设备及存储介质 | |
CN114613493A (zh) | 问诊对话模型的评估方法和装置、电子设备及存储介质 | |
CN113569068B (zh) | 描述内容生成方法、视觉内容的编码、解码方法、装置 | |
WO2024125155A1 (zh) | 一种实体链接方法、装置、计算机设备和存储介质 | |
CN116956934A (zh) | 任务处理方法、装置、设备及存储介质 | |
CN116702743A (zh) | 文本相似度检测方法和装置、电子设备及存储介质 | |
CN116956925A (zh) | 电子病历命名实体识别方法和装置、电子设备及存储介质 | |
CN115357710B (zh) | 表格描述文本生成模型的训练方法、装置及电子设备 | |
CN114998041A (zh) | 理赔预测模型的训练方法和装置、电子设备及存储介质 | |
CN113392190B (zh) | 一种文本识别方法、相关设备及装置 | |
CN117034133A (zh) | 一种数据处理方法、装置、设备和介质 | |
CN115392365A (zh) | 多模态特征的获取方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |