CN116414938A - 一种知识点标注方法、装置、设备及存储介质 - Google Patents

一种知识点标注方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116414938A
CN116414938A CN202111646998.9A CN202111646998A CN116414938A CN 116414938 A CN116414938 A CN 116414938A CN 202111646998 A CN202111646998 A CN 202111646998A CN 116414938 A CN116414938 A CN 116414938A
Authority
CN
China
Prior art keywords
knowledge point
information
feature
network
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111646998.9A
Other languages
English (en)
Inventor
蔡晓凤
叶礼伟
刘萌
孙康明
吴嫒博
覃伟枫
滕达
卢鑫鑫
夏志群
孙朝旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111646998.9A priority Critical patent/CN116414938A/zh
Publication of CN116414938A publication Critical patent/CN116414938A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种知识点标注方法、装置、设备及存储介质。该方法包括:获取试题文本数据和知识点结构树;将试题文本数据输入语义识别网络进行语义识别,得到试题文本数据的文本特征信息和试题文本数据的多个分词数据的词特征信息;基于特征识别网络,对知识点结构树进行特征识别,得到知识点结构树的知识点特征信息;对知识点特征信息、词特征信息和文本特征信息进行融合处理,得到目标融合信息;将目标融合信息输入知识点识别网络进行知识点标注,得到试题文本数据对应的标注知识点信息。本申请在对试题进行知识点标注的场景上,提升对试题特征的表征精准性,进而可以提高对试题进行知识点标注的准确性和有效性。

Description

一种知识点标注方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种知识点标注方法、装置、设备及存储介质。
背景技术
目前,试题知识点标注在试题资源搜索,试题推荐,题库建设,个性化学习等教育产品中具有广泛应用。现有的试题知识点标注通常基于传统的机器学习方法实现,比如,通过卷积神经网络对试题文本进行知识点标注。
然而,现有的知识点标注方法仅利用试题文本的浅层语义特征进行知识点标注,忽略了知识点之间的关联特征,导致知识点标注的准确度较低。因此,需要提供一种准确有效的技术方案。
发明内容
为了解决现有技术应用在知识点标注时,准确度较低的问题,本申请提供了一种知识点标注方法、装置、设备及存储介质:
根据本申请的第一方面,提供了一种知识点标注方法,所述方法包括:
获取试题文本数据和知识点结构树;
将所述试题文本数据输入语义识别网络进行语义识别,得到所述试题文本数据的文本特征信息和所述试题文本数据的多个分词数据的词特征信息;
基于特征识别网络,对所述知识点结构树进行特征识别,得到所述知识点结构树的知识点特征信息,所述知识点特征信息表征所述知识点结构树的结构化语义特征;
对所述知识点特征信息、所述词特征信息和所述文本特征信息进行融合处理,得到目标融合信息;
将所述目标融合信息输入知识点识别网络进行知识点标注,得到所述试题文本数据对应的标注知识点信息。
根据本申请的第二方面,提供了一种知识点标注装置,所述方法包括:
试题文本数据获取模块,用于获取试题文本数据和知识点结构树;
语义识别模块,用于将所述试题文本数据输入语义识别网络进行语义识别,得到所述试题文本数据的文本特征信息和所述试题文本数据的多个分词数据的词特征信息;
特征识别模块,用于基于特征识别网络,对所述知识点结构树进行特征识别,得到所述知识点结构树的知识点特征信息,所述知识点特征信息表征所述知识点结构树的结构化语义特征;
融合处理模块,用于对所述知识点特征信息、所述词特征信息和所述文本特征信息进行融合处理,得到目标融合信息;
知识点标注模块,用于将所述目标融合信息输入知识点识别网络进行知识点标注,得到所述试题文本数据对应的标注知识点信息。
根据本申请的第三方面,提供了一种知识点标注设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如第一方面所述的知识点标注方法。
根据本申请的第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如第一方面所述的知识点标注方法。
根据本申请的第五方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如第一方面所述的知识点标注方法。
本申请提供的一种知识点标注方法、装置、设备及存储介质,具有如下技术效果:
本申请通过获取试题文本数据和知识点结构树;再将试题文本数据输入语义识别网络进行语义识别,得到试题文本数据的文本特征信息和试题文本数据的多个分词数据的词特征信息;并基于特征识别网络,对知识点结构树进行特征识别,得到知识点结构树的知识点特征信息,知识点特征信息表征知识点结构树的结构化语义特征;然后对知识点特征信息、词特征信息和文本特征信息进行融合处理,得到目标融合信息;最后将目标融合信息输入知识点识别网络进行知识点标注,得到试题文本数据对应的标注知识点信息。本申请在对试题文本进行知识点标注的场景上,将包含知识点结构树的结构化语义特征的知识点特征信息、试题文本数据的文本特征信息以及试题文本数据的多个分词数据的词特征信息进行融合得到目标融合信息,并对该目标融合信息进行识别点标注,可以利用目标融合信息中试题文本和知识点之间的深层语义关联以及知识点结构间的层次依赖关系,提升对试题特征的表征精准性,进而可以大大提高对试题进行知识点标注的准确性和有效性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种应用环境的示意图;
图2是本申请实施例提供的一种知识点标注方法的流程示意图;
图3是本申请实施例提供的一种示意性的数学学科的部分知识点构成的知识点结构树;
图4是本申请实施例提供的一种将试题文本数据输入语义识别网络进行语义识别,得到试题文本数据的文本特征信息和试题文本数据的多个分词数据的词特征信息的流程示意图;
图5是本申请实施例提供的一种基于特征识别网络,对知识点结构树进行特征识别,得到知识点结构树的知识点特征信息的流程示意图;
图6是本申请实施例提供的一种对知识点特征信息、词特征信息和文本特征信息进行融合处理,得到目标融合信息的流程示意图;
图7是本申请实施例提供的一种将知识点特征信息和词特征信息输入融合网络进行融合处理,得到初始融合信息的流程示意图;
图8是本申请实施例提供的一种网络联合训练方法的流程示意图;
图9是本申请实施例提供的一种知识点标注网络的示意图;
图10是本申请实施例提供的一种知识点标注装置的组成框图;
图11是本申请实施例提供的一种知识点标注设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
请参阅图1,图1是本申请实施例提供的一种应用环境的示意图,该应用环境中可以包括客户端10和服务器端20,客户端10与服务器端20可以通过有线或无线通信方式进行直接或间接地连接。用户可以通过客户端10向服务器端20发送对试题文本数据的知识点标注请求。服务器端20基于知识点标注请求确定对应的待标注试题文本数据,然后将待标注试题文本数据输入语义识别网络进行语义识别以得到待识别试题文本数据的文本特征信息和待识别试题文本数据的多个分词数据的词特征信息,接着基于特征识别网络对知识点结构树进行特征识别以得到知识点结构树的知识点特征信息,再对知识点特征信息、词特征信息和文本特征信息进行融合处理以得到目标融合信息,然后将目标融合信息输入知识点识别网络进行知识点标注以得到待标注试题文本数据对应的标注知识点信息,并将标注知识点信息返回客户端10。需要说明的是,图1仅仅是一种示例。
客户端可以是智能手机、电脑(如台式电脑、平板电脑、笔记本电脑)、数字助理、智能语音交互设备(如智能音箱)、智能可穿戴设备等类型的实体设备,也可以是运行于实体设备中的软体,比如计算机程序。客户端所对应的操作系统可以是安卓系统(Android系统)、iOS系统(是由苹果公司开发的移动操作系统)、linux系统(一种操作系统)、MicrosoftWindows系统(微软视窗操作系统)等。
服务器端可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。其中服务器可以包括有网络通信单元、处理器和存储器等等。服务器端可以为对应的客户端提供后台服务。
上述客户端10和服务器端20可以用于构建一个有关知识点标注的系统,该系统可以是分布式系统。以分布式系统为区块链系统为例,由多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)和客户端形成,节点之间形成组成的点对点(P2P,Peer ToPeer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission Control Protocol)协议之上的应用层协议。在分布式系统中,任何机器如服务器、终端都可以加入而成为节点,节点包括硬件层、中间层、操作系统层和应用层。
上述区块链系统中各节点的功能,涉及的功能包括:
1)路由,节点具有的基本功能,用于支持节点之间的通信。
节点除具有路由功能外,还可以具有以下功能:
2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链系统中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块(Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点提交的记录数据。
以下介绍本申请提供的一种知识点标注方法的具体实施例,图2是本申请实施例提供的一种知识点标注方法的流程示意图,本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,所述方法可以包括:
S201,获取试题文本数据和知识点结构树。
在本申请实施例中,试题文本数据可以包括多个学科的试题文本数据,具体的,试题文本数据可以包括但不限于试题题干、试题答案、试题解析等部分,试题文本数据的数据类型可以包括但不限于文字、公式、图表等。
在本申请实施例中,知识点结构树可以包括多个学科的知识点结构树,其中,每个学科的知识点结构树可以为根据学科知识逻辑,对学科教材、学科课程标准和学科考试纲要等教育文件中的学科知识点进行层次化细分后得到的树状的知识体系。参见图3,图3是本申请实施例提供的一种示意性的数学学科的部分知识点构成的知识点结构树。
在一个具体的实施例中,可以将学科知识点框架或者学科知识点思维导图进行转化后得到当前学科的知识点结构树。
在实际应用中,可以预先对试题文本数据对应的学科信息进行标注从而获取与该学科信息匹配的知识点结构树。
S202,将试题文本数据输入语义识别网络进行语义识别,得到试题文本数据的文本特征信息和试题文本数据的多个分词数据的词特征信息。
在本申请实施例中,文本特征信息可以表征试题文本的上下文语义特征,词特征信息可以表征对应分词数据在试题文本中的语义特征。具体的,将试题文本数据输入语义识别网络后,语义识别网络能够结合试题文本数据的上下文进行语义识别,得到文本特征信息和词特征信息。
在一个具体的实施例中,文本特征信息的表现形式可以为文本特征向量,词特征信息的表现形式可以为词特征向量。
在一个具体的实施例中,语义识别网络可以为对预设语义识别网络进行语义识别训练后得到的,其中,预设语义识别网络可以包括分词层、语义识别层和语义融合层,具体的,如图4所示,上述将试题文本数据输入语义识别网络进行语义识别,得到试题文本数据的文本特征信息和试题文本数据的多个分词数据的词特征信息可以包括:
S401,将试题文本数据输入分词层进行分词预处理,得到多个分词数据。
在一个具体的实施例中,可以将试题文本数据中的试题题干、试题答案以及试题解析进行拼接处理后得到试题文本拼接数据,并将该试题文本拼接数据输入分词层进行分词预处理,得到目标分词序列,目标分词序列可以包括多个分词数据。
在一个可选的实施例中,上述多个分词数据还可以包括预设分隔符,其中,预设分隔符可以包括分类分隔符。
S402,将多个分词数据输入语义识别层进行语义识别,得到多个分词数据对应的初始语义信息、位置信息和分句信息。
具体的,初始语义信息可以表征对应分词数据自身的语义特征,分句信息可以表征对应分词数据所在句子在试题文本数据中标识特征,位置信息可以表征对应分词数据在所在句子中的位置特征,其中,初始语义信息的表现形式可以为初始语义向量,分句信息的表现形式可以为分句向量,位置信息的表现形式可以为位置向量。
在一个具体的实施例中,语义识别层可以包括第一向量化层、第二向量化层和第三向量化层,将多个分词数据输入第一向量化层进行语义特征提取,得到初始语义向量,将多个分词数据输入第二向量化层进行标识特征提取,得到分句向量,将多个分词数据输入第三向量化层进行位置特征提取,得到位置向量。
S403,将初始语义信息、位置信息与分句信息输入语义融合层对多个分词数据进行上下文语义融合,得到文本特征信息和词特征信息。
在一个具体的实施例中,语义融合层可以包括双向语义编码器,将初始语义信息、位置信息与分句信息输入到双向语义编码器中,通过双向语义编码器对每一分词数据的上下文的语义特征进行融合,得到每一分词数据的词特征信息。
在一个可选的实施例中,由于上述多个分词数据还可以包括分类分隔符,上述多个分词数据对应的初始语义信息、位置信息和分句信息可以包括:分类分隔符对应的初始语义信息、位置信息和分句信息;相应的,上述将初始语义信息、位置信息与分句信息输入语义融合层对多个分词数据进行上下文语义融合,得到文本特征信息和词特征信息可以包括:将分类分隔符对应的初始语义信息、位置信息与分句信息输入语义融合层对多个分词数据进行上下文语义融合,得到分类分隔符的词特征信息,由于在实际应用中,分类分隔符的词特征信息可以表征试卷文本数据的上下文语义特征,因此,将分类分隔符的词特征信息作为文本特征信息。
在另一个可选的实施例中,还可以对每一分词数据的词特征信息进行语义特征聚合处理,得到文本特征信息。可选的,对每一分词数据的词特征信息进行语义特征聚合处理,得到文本特征信息可以包括对每一分词数据的词特征信息进行均值处理,得到文本特征信息。
此外,需要说明的是,本申请实施例所述语义识别网络并不仅限于上述的预设语义识别网络,在实际应用中,还可以包括其他机器学习网络,例如循环神经网络、ELMO模型(基于语言模型的嵌入表示模型)、GPT模型(生成式预训练语言模型)等,本申请实施例并不以上述机器学习网络为限。
由以上实施例可见,通过包含有分词层、语义识别层和语义融合层的语义识别网络对试题文本数据进行上下文语义识别,实现试题文本数据上下文语义特征的融合,进而能够提升对试题语义特征的表征精准性。
S203,基于特征识别网络,对知识点结构树进行特征识别,得到知识点结构树的知识点特征信息,知识点特征信息表征知识点结构树的结构化语义特征。
在本申请实施例中,知识点特征信息可以表征知识点结构树的结构化语义特征,知识点结构树的结构化语义特征可以包括知识点结构树的结构特征和语义特征,知识点结构树的结构特征可以为:知识点结构树中知识点的结构层次关系和各层知识点之间的依赖关系,知识点结构树的语义特征可以为从末节点至根节点的聚合语义。
在一个具体的实施例中,特征识别网络可以为对预设特征识别网络进行特征识别训练后得到的,其中,预设特征识别网络可以包括与预设知识点结构树中的多个节点一一对应的多个特征聚合层,具体的,如图5所示,上述基于特征识别网络,对知识点结构树进行特征识别,得到知识点结构树的知识点特征信息可以包括:
S501,对多个节点中每个节点的知识点数据进行语义识别,得到每个节点对应的节点语义信息。
具体的,节点语义信息可以表征对应节点的知识点数据自身的语义特征。
在一个具体的实施例中,特征识别网络还可以包括知识点语义识别层,将每个节点的知识点数据输入知识点语义识别层进行语义识别,得到每个节点对应的节点语义信息。
S502,将知识点结构树的末节点对应的节点语义信息输入与末节点对应的特征聚合层,得到末节点对应的节点聚合特征信息。
S503,从末节点的父节点开始,遍历多个节点。
S504,将当前遍历到的节点的子节点对应的节点聚合特征信息和当前遍历到的节点对应的节点语义信息输入与当前遍历到的节点对应的特征聚合层,得到当前遍历到的节点对应的节点聚合特征信息。
具体的,节点聚合特征信息可以表征从末节点至对应节点的结构层次关系和聚合语义。
S505,遍历多个节点结束后,将知识点结构树中根节点对应的节点聚合特征信息作为知识点特征信息。
在一个具体的实施例中,节点语义信息的表现形式可以为节点语义向量,节点聚合特征信息的表现形式可以为节点聚合特征向量,相应的,知识点特征信息的表现形式可以为知识点特征向量,上述基于特征识别网络,对知识点结构树进行特征识别,得到知识点结构树的知识点特征信息可以包括基于特征识别网络,对知识点结构树进行特征识别,得到知识点结构树的知识点特征向量;
相应的,上述基于特征识别网络,对知识点结构树进行特征识别,得到知识点结构树的知识点特征向量可以包括:对多个节点中每个节点的知识点数据进行语义识别,得到每个节点对应的节点语义向量;将知识点结构树的末节点对应的节点语义向量输入特征识别网络中与末节点对应的特征聚合层,得到末节点对应的节点聚合特征向量;从末节点的父节点开始,自下而上遍历多个节点;将当前遍历到的节点的子节点对应的节点聚合特征向量和当前遍历到的节点对应的节点语义向量输入特征识别网络中与当前遍历到的节点对应的特征聚合层,得到当前遍历到的节点对应的节点聚合特征向量;遍历多个节点结束后,将知识点结构树中根节点对应的节点聚合特征向量作为知识点特征向量。
此外,需要说明的是,本申请实施例所述特征识别网络并不仅限于上述的预设特征识别网络,在实际应用中,还可以包括其他机器学习网络,例如GCN(图卷积神经网络)、GraphSAGE(图采样与聚合网络)、GAN(图注意力网络)、Tree-LSTM(树结构长短期记忆网络)等,本申请实施例并不以上述机器学习网络为限。
由以上实施例可见,通过包括有与知识点结构树中的多个节点一一对应的多个特征聚合层的特征提取网络对知识点结构树进行特征提取,从而聚合知识点结构树从末节点至根节点的结构层次关系和语义特征,提升对知识点结构树特征的表征精准性。
S204,对知识点特征信息、词特征信息和文本特征信息进行融合处理,得到目标融合信息。
在本申请实施例中,目标融合信息可以为将试题文本数据的语义特征与知识点结构树的结构特征和语义特征融合后得到的试题文本表达,能够有效捕捉试题文本数据与知识点结构树特征间的关联关系。
在一个具体的实施例中,目标融合信息的表现形式可以为目标融合向量。
在一个具体的实施例中,如图6所示,上述对知识点特征信息、词特征信息和文本特征信息进行融合处理,得到目标融合信息可以包括:
S601,将知识点特征信息和词特征信息输入融合网络进行融合处理,得到初始融合信息。
具体的,初始融合信息可以为嵌入知识点结构树的结构化语义特征的试题文本表示,其中,初始融合信息的表现形式可以为初始融合向量。
在一个具体的实施例中,融合网络可以为对预设融合网络进行融合处理训练后得到的,预设融合网络可以包括关联分析层、归一化层和加权层,具体的,如图7所示,上述将知识点特征信息和词特征信息输入融合网络进行融合处理,得到初始融合信息可以包括:
S701,将词特征信息与知识点特征信息输入关联分析层进行关联分析,得到目标关联信息。
具体的,目标关联信息可以表征词特征信息与知识点特征信息间的关联度。
在一个具体的实施例中,关联分析层可以包括关联度计算函数,将词特征信息与知识点特征信息输入关联度计算函数进行关联度计算,得到目标关联信息。可选的,关联度计算函数可以为:S(xi,y)=f(Wh·xi+Wv·y+b),可选的,f()可以为双曲正切函数,
相应的,在词特征信息为词特征向量,知识点特征信息为知识点特征向量的情况下,目标关联信息可以为:S(hi,g)=f(Wh·hi+Wv·g+b),其中,hi表示多个分词数据中第i个分词数据的词特征向量,g表示知识点特征向量,Wh表示第一对齐矩阵,Wv表示第二对齐矩阵,b表示偏移向量,f()表示激活函数,。在实际应用中,Wh、Wv和b可以在对第二预设融合网络的训练完成后得到。
S702,将目标关联信息输入归一化层进行归一化处理,得到词特征信息的关联权重。
在一个具体的实施例中,归一化层可以包括归一化函数,将目标关联信息输入归一化函数进行归一化计算,得到关联权重。可选的,归一化函数可以为softmax函数(归一化指数函数)。
S703,将关联权重和词特征信息输入加权层进行加权处理,得到初始融合信息。
在一个具体的实施例中,将多个分词数据中每一分词的词特征向量与对应关联权重的乘积相加处理,得到初始融合向量,将初始融合向量作为初始融合信息。
由以上实施例可见,包含有关联分析层、归一化层和加权层的融合网络通过捕捉试题文本数据与知识点结构树特征间的关联关系,从而将知识点结构树的结构化语义特征有效嵌入试题文本表达中,提升对试题文本特征的表征精准性。
S602,将初始融合信息、文本特征信息和知识点特征信息输入拼接网络进行拼接处理,得到目标融合信息。
在一个具体的实施例中,拼接网络可以为对预设拼接网络进行拼接处理训练后得到的。具体的,在初始融合信息为初始融合向量、文本特征信息为文本特征向量、知识点特征信息为知识点特征向量的情况下,拼接网络可以包括权重矩阵和激活函数,将初始融合向量、文本特征向量和知识点特征向量进行拼接后得到拼接矩阵,将权重矩阵与拼接矩阵的乘积输入激活函数后,得到目标融合信息,将目标融合向量作为目标融合信息。可选的,激活函数可以为双曲正切函数。
由以上实施例可见,将初始融合信息、文本特征信息和知识点特征信息进行拼接处理,进一步融合试题文本数据与知识点结构树的特征得到目标融合信息,以便于后续利用目标融合信息中试题文本和知识点之间的深层语义关联以及知识点间的层次依赖关系进行知识点标注从而大大提升对试题进行知识点标注的准确性。
S205,将目标融合信息输入知识点识别网络进行知识点标注,得到试题文本数据对应的标注知识点信息。
在本申请实施例中,标注知识点信息可以为与试题文本数据对应的目标知识点的标识信息,具体的,目标知识点可以为知识点结构树的多个知识点中与试题文本数据对应的至少一个知识点。
在一个具体的实施例中,标注知识点信息可以为目标知识点标签,目标知识点标签可以为预设知识点标签集中与试题文本数据对应的至少一个知识点标签,其中,预设知识点标签集可以为结合实际应用中知识点结构树中的多个知识点进行设置。
在一个具体的实施例中,知识点识别网络可以为对预设知识点识别网络进行知识点标注训练后得到的,具体的,预设知识点识别网络可以包括一层全连接层和一层输出层。
具体的,全连接层可以作为上下两层的节点之间的连接层,将上下两层所得到的各节点数据建立连接关系。全连接层可以对目标融合信息进行特征聚合处理得到待标注试题信息。
在一个具体的实施例中,待标注试题信息的表现形式可以为待标注试题向量,该待标注试题向量的维数与预设知识点标签集中知识点标签的数量相同,该待标注试题向量的多个维度分别与预设知识点标签集中的多个知识点标签一一对应,待标注试题向量的每一维度分别表征试题文本数据与对应知识点标签的关联度。
在上述预设知识点识别网络中,每一层输出的都是上一层输入的线性函数,考虑到在实际应用中数据往往不是线性可分的,可以通过增加激活函数的方式引入非线性因数。即增加线性校正层,以激活函数Relu为例(rectified linear unit,校正线性单元),具体的,Relu层(线性校正层)是对上一层数据结果进行修正的层,可以将上一层小于0的输入全部变成0后输出,大于0的输出不变。
具体的,输出层可以对待标注试题向量进行知识点标注,输出相应的目标知识点标签。在一个具体的实施例中,输出层可以采用Sigmoid函数进行目标知识点标签输出,Sigmoid函数中包含的是一个非线性分类器,对待标注试题向量进行知识点标注。具体的,输出层可以对待标注试题向量的每一维度分别进行概率预测,分别得到每一维度的概率值。将概率值大于预设概率阈值的维度对应的知识点标签作为目标知识点标签。
此外,需要说明的是,本申请实施例所述知识点识别网络并不仅限于上述的预设知识点识别网络,在实际应用中,还可以包括其他机器学习网络,例如决策树机器学习网络等,本申请实施例并不以上述机器学习网络为限。
在一个可选的实施例中,标注知识点信息可以为知识点结构树中任一末节点知识点对应的末级知识点信息,在上述将目标融合信息输入知识点识别网络进行知识点标注,得到试题文本数据对应的标注知识点信息之后,上述方法还可以包括:
获取知识点映射信息,知识点映射信息表征末级知识点信息与末级知识点信息对应的多级知识点信息的映射关系;
基于知识点映射信息,确定与标注知识点信息对应的目标多级知识点信息。
在一个具体的实施例中,末级知识点信息可以包括末级知识点标签,末级知识点信息对应的多级知识点信息可以包括末级知识点标签对应的多级知识点标签,相应的,知识点映射信息可以表征末级知识点标签与末级知识点标签对应的多级知识点标签的映射关系。具体的,末级知识点标签可以为知识点结构树中任一末节点知识点对应的知识点标签,多级知识点标签可以为由对应末节点知识点至根节点知识点的知识点路径对应的多级知识点标签。
在一个具体的实施例中,知识点映射信息可以包括但不限于知识点映射表、知识点映射字典。以图3所示的知识点结构树为例,生成如表1所示的知识点映射表。
末级知识点标签 多级知识点标签
求等差中项 数列-等差数列-等差数列中项-求等差中项
等差中项的应用 数列-等差数列-等差数列中项-等差中项的应用
等差数列的性质 数列-等差数列-等差数列的性质
数列极限的定义 数列-数列的极限-数列极限的定义
收敛数列的极限 数列-数列的极限-收敛数列的极限
求等比中项 数列-等比数列-等比数列中项-求等比中项
等比中项的应用 数列-等比数列-等比数列中项-等比中项的应用
等比数列的性质 数列-等比数列-等比数列的性质
表1
在一个可选的实施例中,在标注知识点信息包括多个末级知识点标签的情况下,上述基于知识点映射信息,确定与标注知识点信息对应的目标多级知识点信息可以包括:基于知识点映射信息,确定与多个末级知识点标签对应的多个目标多级知识点标签;在上述基于知识点映射信息,确定与多个末级知识点标签对应的多个目标多级知识点标签之后,还可以基于多个目标多级知识点标签,生成目标知识点标签树。
由以上实施例可见,利用知识点识别网络标注试卷文本数据的末级知识点即最细化的知识点,然后根据末级知识点信息与末级知识点信息对应的多级知识点信息的映射关系确定与标注知识点信息对应的目标多级知识点信息,提升了知识点标注的精度。
在本申请实施例中,可以通过对预设语义识别网络、预设特征识别网络、预设融合网络、预设拼接网络和预设知识点识别网络进行联合训练,得到上述语义识别网络、上述特征识别网络、上述融合网络、上述拼接网络和上述知识点识别网络。
在一个具体的实施例中,如图8所示,图8是本申请实施例提供的一种网络联合训练方法的流程示意图,具体的,可以包括:
S801,获取样本试题文本数据和样本试题文本数据对应的预设标注知识点信息。
在实际应用中,在进行网络联合训练之前,可以先确定训练数据,具体的,本申请实施例中,可以获取包含有预设标注知识点信息的样本试题文本数据作为训练数据。
具体的,预设标注知识点信息可以为对样本试题文本数据预先标注的预设知识点标签。
S802,将样本试题文本数据输入预设语义识别网络进行语义提取,得到样本试题文本数据的样本文本特征信息和样本试题文本数据的多个样本分词数据的样本词特征信息。
S803,基于预设特征识别网络,对知识点结构树进行特征提取,得到知识点结构树的样本知识点特征信息。
S804,将样本知识点特征信息和样本词特征信息输入预设融合网络进行融合处理,得到样本初始融合信息。
S805,将样本初始融合信息、样本文本特征信息和样本知识点特征信息输入预设拼接网络进行拼接处理,得到样本目标融合信息。
S806,将样本目标融合信息输入预设知识点识别网络进行知识点标注,得到样本试题文本数据对应的样本标注知识点信息。
S807,基于预设标注知识点信息和样本标注知识点信息,确定目标损失信息。
S808,基于目标损失信息,训练预设语义识别网络、预设特征识别网络、预设融合网络、预设拼接网络和预设知识点识别网络,得到语义识别网络、特征识别网络、融合网络、拼接网络和知识点识别网络。
在一个可选的实施例中,上述样本标注知识点信息可以包括样本试题文本数据的样本知识点标签;相应的,上述目标损失信息可以包括知识点标签损失;
相应的,上述基于预设标注知识点信息和样本标注知识点信息,确定目标损失信息可以包括:
根据预设知识点标签和样本知识点标签,确定知识点标签损失。
在一个具体的实施例中,上述根据预设知识点标签和样本知识点标签,确定知识点标签损失可以包括基于预设损失函数,确定预设知识点标签和样本知识点标签间的知识点标签损失。
在一个具体的实施例中,知识点标签损失可以表征预设知识点标签和样本知识点标签间间的差异。
在一个具体的实施例中,预设损失函数可以包括但不限于交叉熵损失函数、逻辑损失函数、指数损失函数等。
在一个可选的实施例中,基于目标损失信息,训练预设语义识别网络、预设特征识别网络、预设融合网络、预设拼接网络和预设知识点识别网络,得到语义识别网络、特征识别网络、融合网络、拼接网络和知识点识别网络可以包括:基于目标损失信息,更新预设语义识别网络、预设特征识别网络、预设融合网络、预设拼接网络和预设知识点识别网络的网络参数;基于更新后的预设语义识别网络、预设特征识别网络、预设融合网络、预设拼接网络和预设知识点识别网络,重复步骤S802至基于目标损失信息,更新预设语义识别网络、预设特征识别网络、预设融合网络、预设拼接网络和预设知识点识别网络的网络参数的知识点标注训练迭代操作,至基于目标损失信息,更新预设语义识别网络、预设特征识别网络、预设融合网络、预设拼接网络和预设知识点识别网络的网络参数的知识点标注训练迭代操作,至达到知识点标注收敛条件;将达到知识点标注收敛条件的情况下得到的预设语义识别网络、预设特征识别网络、预设融合网络、预设拼接网络和预设知识点识别网络,作为语义识别网络、特征识别网络、融合网络、拼接网络和知识点识别网络。
在一个可选的实施例中,上述基于目标损失信息,更新预设语义识别网络、预设特征识别网络、预设融合网络、预设拼接网络和预设知识点识别网络的网络参数可以为通过计算梯度的一阶矩估计和二阶矩估计而为不同的网络参数设置独立的自适应性学习率,可选的,初始学习率可以设置为0.000125,每批训练样本的大小可以为32。
在一个可选的实施例中,上述达到知识点标注收敛条件可以为训练迭代操作的次数达到预设训练次数。可选的,达到知识点标注收敛条件也可以为目标损失信息小于指定阈值。本说明书实施例中,预设训练次数和指定阈值可以结合实际应用中对网络的训练速度和精准度预先设置。
由以上实施例可见,通过对预设语义识别网络、预设特征识别网络、预设融合网络、预设拼接网络和预设知识点识别网络进行联合训练,提升训练效率的同时,可以更好的提升网络对知识点标注的准确性。
在一个具体的实施例中,如图9所示,建立包含上述语义识别网络、上述特征识别网络、上述融合网络、上述预设拼接网络和上述知识点识别网络的知识点标注网络,将试题文本数据和知识点结构树输入知识点标注网络进行知识点标注,得到试题文本数据对应的标注知识点信息。
由以上本申请实施例提供的技术方案可见,本申请在对试题文本进行知识点标注的场景上,一方面,通过包含有分词层、语义识别层和语义融合层的语义识别网络对试题文本数据进行上下文语义识别,实现试题文本数据上下文语义特征的融合,进而能够提升对试题语义特征的表征精准性;另一方面,通过包括有与知识点结构树中的多个节点一一对应的多个特征聚合层的特征提取网络对知识点结构树进行特征提取,从而聚合知识点结构树从末节点至根节点的结构层次关系和语义特征,提升对知识点结构树特征的表征精准性;另一方面,通过融合网络和拼接网络对知识点结构树与试题文本数据的特征进行两次聚合,从而进一步提升了目标融合信息对试题特征的表征精准性,另一方面,利用目标融合信息中试题文本和知识点之间的深层语义关联以及知识点间的层次依赖关系进行识别点识别,大大提高对试题进行知识点标注的准确性和有效性。
本申请实施例还提供了一种知识点标注装置,如图10所示,该知识点标注装置可以包括:
试题文本数据获取模块1010,用于获取试题文本数据和知识点结构树;
语义识别模块1020,用于将试题文本数据输入语义识别网络进行语义识别,得到试题文本数据的文本特征信息和试题文本数据的多个分词数据的词特征信息;
特征识别模块1030,用于基于特征识别网络,对知识点结构树进行特征识别,得到知识点结构树的知识点特征信息,知识点特征信息表征知识点结构树的结构化语义特征;
融合处理模块1040,用于对知识点特征信息、词特征信息和文本特征信息进行融合处理,得到目标融合信息;
知识点标注模块1050,用于将目标融合信息输入知识点识别网络进行知识点标注,得到试题文本数据对应的标注知识点信息。
在一个具体的实施例中,语义识别网络可以包括分词层、语义识别层和语义融合层,上述语义识别模块1020可以包括:
分词单元,用于将试题文本数据输入分词层进行分词预处理,得到多个分词数据;
第一语义识别单元,用于将多个分词数据输入语义识别层进行语义识别,得到多个分词数据对应的初始语义信息、位置信息和分句信息;
语义融合单元,用于将初始语义信息、位置信息与分句信息输入语义融合层对多个分词数据进行上下文语义融合,得到文本特征信息和词特征信息。
在一个具体的实施例中,特征识别网络可以包括与知识点结构树中的多个节点一一对应的多个特征聚合层,上述特征识别模块1030可以包括:
第二语义识别,用于对多个节点中每个节点的知识点数据进行语义识别,得到每个节点对应的节点语义信息;
第一特征聚合单元,用于将知识点结构树的末节点对应的节点语义信息输入与末节点对应的特征聚合层,得到末节点对应的节点聚合特征信息;
遍历单元,用于从末节点的父节点开始,遍历多个节点;
第二特征聚合单元,用于将当前遍历到的节点的子节点对应的节点聚合特征信息和当前遍历到的节点对应的节点语义信息输入与当前遍历到的节点对应的特征聚合层,得到当前遍历到的节点对应的节点聚合特征信息;
知识点特征信息单元,用于遍历多个节点结束后,将知识点结构树中根节点对应的节点聚合特征信息作为知识点特征信息。
在一个具体的实施例中,上述融合处理模块1040可以包括:
融合处理单元,用于将知识点特征信息和词特征信息输入融合网络进行融合处理,得到初始融合信息;
拼接处理单元,用于将初始融合信息、文本特征信息和知识点特征信息输入拼接网络进行拼接处理,得到目标融合信息。
在一个具体的实施例中,融合网络可以包括关联分析层、归一化层和加权层,上述融合处理单元可以包括:
关联分析单元,用于将词特征信息与知识点特征信息输入关联分析层进行关联分析,得到目标关联信息;
归一化单元,用于将目标关联信息输入归一化层进行归一化处理,得到词特征信息的关联权重;
加权单元,用于将关联权重和词特征信息输入加权层进行加权处理,得到初始融合信息。
在一个具体的实施例中,上述知识点标注装置还可以包括:
样本获取模块,用于获取样本试题文本数据和样本试题文本数据对应的预设标注知识点信息;
样本语义提取模块,用于将样本试题文本数据输入预设语义识别网络进行语义提取,得到样本试题文本数据的样本文本特征信息和样本试题文本数据的多个样本分词数据的样本词特征信息;
样本特征识别模块,用于基于预设特征识别网络,对知识点结构树进行特征提取,得到知识点结构树的样本知识点特征信息;
样本融合处理模块,用于将样本知识点特征信息和样本词特征信息输入预设融合网络进行融合处理,得到样本初始融合信息;
样本拼接处理模块,用于将样本初始融合信息、样本文本特征信息和样本知识点特征信息输入预设拼接网络进行拼接处理,得到样本目标融合信息;
样本知识点标注模块,用于将样本目标融合信息输入预设知识点识别网络进行知识点标注,得到样本试题文本数据对应的样本标注知识点信息;
目标损失信息确定模块,用于基于预设标注知识点信息和样本标注知识点信息,确定目标损失信息;
网络训练模块,用于基于目标损失信息,训练预设语义识别网络、预设特征识别网络、预设融合网络、预设拼接网络和预设知识点识别网络,得到语义识别网络、特征识别网络、融合网络、拼接网络和知识点识别网络。
需要说明的,所述装置实施例中的装置与方法实施例基于同样的发明构思。
本申请实施例提供了一种知识点标注设备,该知识点标注设备包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的知识点标注方法。
进一步地,图11示出了一种用于实现本申请实施例所提供的知识点标注方法的知识点标注设备的硬件结构示意图,所述知识点标注设备可以参与构成或包含本申请实施例所提供的知识点标注装置。如图11所示,知识点标注设备110可以包括一个或多个(图中采用1102a、1102b,……,1102n来示出)处理器1102(处理器1102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1104、以及用于通信功能的传输装置1106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图11所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,知识点标注设备110还可包括比图11中所示更多或者更少的组件,或者具有与图11所示不同的配置。
应当注意到的是上述一个或多个处理器1102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到知识点标注设备110(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器1104可用于存储应用软件的软件程序以及模块,如本申请实施例中所述的知识点标注方法对应的程序指令/数据存储装置,处理器1102通过运行存储在存储器1104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种知识点标注方法。存储器1104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1104可进一步包括相对于处理器1102远程设置的存储器,这些远程存储器可以通过网络连接至知识点标注设备110。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置1106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括知识点标注设备110的通信供应商提供的无线网络。在一个实例中,传输装置1106包括一个网络适配器(NetworkInterfaceController,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实施例中,传输装置1106可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与知识点标注设备110(或移动设备)的用户界面进行交互。
本申请的实施例还提供了一种计算机可读存储介质,所述存储介质可设置于知识点标注设备之中以保存用于实现方法实施例中知识点标注方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的知识点标注方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如方法实施例提供的知识点标注方法。可选的,该计算机程序产品可以包括但不限于题库建设的录排系统、试题推荐系统、个性化学习系统。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (11)

1.一种知识点标注方法,其特征在于,所述方法包括:
获取试题文本数据和知识点结构树;
将所述试题文本数据输入语义识别网络进行语义识别,得到所述试题文本数据的文本特征信息和所述试题文本数据的多个分词数据的词特征信息;
基于特征识别网络,对所述知识点结构树进行特征识别,得到所述知识点结构树的知识点特征信息,所述知识点特征信息表征所述知识点结构树的结构化语义特征;
对所述知识点特征信息、所述词特征信息和所述文本特征信息进行融合处理,得到目标融合信息;
将所述目标融合信息输入知识点识别网络进行知识点标注,得到所述试题文本数据对应的标注知识点信息。
2.根据权利要求1所述的方法,其特征在于,所述特征识别网络包括与所述知识点结构树中的多个节点一一对应的多个特征聚合层,所述基于特征识别网络,对所述知识点结构树进行特征识别,得到所述知识点结构树的知识点特征信息包括:
对所述多个节点中每个节点的知识点数据进行语义识别,得到所述每个节点对应的节点语义信息;
将所述知识点结构树的末节点对应的节点语义信息输入与所述末节点对应的特征聚合层,得到所述末节点对应的节点聚合特征信息;
从所述末节点的父节点开始,遍历所述多个节点;
将当前遍历到的节点的子节点对应的节点聚合特征信息和所述当前遍历到的节点对应的节点语义信息输入与所述当前遍历到的节点对应的特征聚合层,得到所述当前遍历到的节点对应的节点聚合特征信息;
遍历所述多个节点结束后,将所述知识点结构树中根节点对应的节点聚合特征信息作为所述知识点特征信息。
3.根据权利要求1所述的方法,其特征在于,所述语义识别网络包括分词层、语义识别层和语义融合层,所述将所述试题文本数据输入语义识别网络进行语义识别,得到所述试题文本数据的文本特征信息和所述试题文本数据的多个分词数据的词特征信息包括:
将所述试题文本数据输入所述分词层进行分词预处理,得到所述多个分词数据;
将所述多个分词数据输入所述语义识别层进行语义识别,得到所述多个分词数据对应的初始语义信息、位置信息和分句信息;
将所述初始语义信息、所述位置信息与所述分句信息输入所述语义融合层对所述多个分词数据进行上下文语义融合,得到所述文本特征信息和所述词特征信息。
4.根据权利要求1所述的方法,其特征在于,所述对所述知识点特征信息、所述词特征信息和所述文本特征信息进行融合处理,得到目标融合信息包括:
将所述知识点特征信息和所述词特征信息输入融合网络进行融合处理,得到初始融合信息;
将所述初始融合信息、所述文本特征信息和所述知识点特征信息输入拼接网络进行拼接处理,得到所述目标融合信息。
5.根据权利要求4所述的方法,其特征在于,所述融合网络包括关联分析层、归一化层和加权层,所述将所述知识点特征信息和所述词特征信息输入融合网络进行融合处理,得到初始融合信息包括:
将所述词特征信息与所述知识点特征信息输入所述关联分析层进行关联分析,得到目标关联信息;
将所述目标关联信息输入所述归一化层进行归一化处理,得到所述词特征信息的关联权重;
将所述关联权重和所述词特征信息输入所述加权层进行加权处理,得到所述初始融合信息。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取样本试题文本数据和所述样本试题文本数据对应的预设标注知识点信息;
将所述样本试题文本数据输入预设语义识别网络进行语义提取,得到所述样本试题文本数据的样本文本特征信息和所述样本试题文本数据的多个样本分词数据的样本词特征信息;
基于预设特征识别网络,对所述知识点结构树进行特征提取,得到所述知识点结构树的样本知识点特征信息;
将所述样本知识点特征信息和所述样本词特征信息输入预设融合网络进行融合处理,得到样本初始融合信息;
将所述样本初始融合信息、所述样本文本特征信息和所述样本知识点特征信息输入预设拼接网络进行拼接处理,得到样本目标融合信息;
将所述样本目标融合信息输入预设知识点识别网络进行知识点标注,得到所述样本试题文本数据对应的样本标注知识点信息;
基于所述预设标注知识点信息和所述样本标注知识点信息,确定目标损失信息;
基于所述目标损失信息,训练所述预设语义识别网络、所述预设特征识别网络、所述预设融合网络、所述预设拼接网络和所述预设知识点识别网络,得到所述语义识别网络、所述特征识别网络、所述融合网络、所述拼接网络和所述知识点识别网络。
7.根据权利要求1至5任一所述的方法,其特征在于,所述标注知识点信息为所述知识点结构树中任一末节点知识点对应的末级知识点信息,在所述将所述目标融合信息输入知识点识别网络进行知识点标注,得到所述试题文本数据对应的标注知识点信息之后,所述方法还包括:
获取知识点映射信息,所述知识点映射信息表征所述末级知识点信息与所述末级知识点信息对应的多级知识点信息的映射关系;
基于所述知识点映射信息,确定与所述标注知识点信息对应的目标多级知识点信息。
8.一种知识点标注装置,特征在于,所述装置包括:
试题文本数据获取模块,用于获取试题文本数据和知识点结构树;
语义识别模块,用于将所述试题文本数据输入语义识别网络进行语义识别,得到所述试题文本数据的文本特征信息和所述试题文本数据的多个分词数据的词特征信息;
特征识别模块,用于基于特征识别网络,对所述知识点结构树进行特征识别,得到所述知识点结构树的知识点特征信息,所述知识点特征信息表征所述知识点结构树的结构化语义特征;
融合处理模块,用于对所述知识点特征信息、所述词特征信息和所述文本特征信息进行融合处理,得到目标融合信息;
知识点标注模块,用于将所述目标融合信息输入知识点识别网络进行知识点标注,得到所述试题文本数据对应的标注知识点信息。
9.一种知识点标注设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一所述的知识点标注方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至7任一所述的知识点标注方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品包括至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1至7任一所述的知识点标注方法。
CN202111646998.9A 2021-12-29 2021-12-29 一种知识点标注方法、装置、设备及存储介质 Pending CN116414938A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111646998.9A CN116414938A (zh) 2021-12-29 2021-12-29 一种知识点标注方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111646998.9A CN116414938A (zh) 2021-12-29 2021-12-29 一种知识点标注方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116414938A true CN116414938A (zh) 2023-07-11

Family

ID=87053200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111646998.9A Pending CN116414938A (zh) 2021-12-29 2021-12-29 一种知识点标注方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116414938A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117669713A (zh) * 2024-01-31 2024-03-08 宁德时代新能源科技股份有限公司 电池信息处理方法、装置、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117669713A (zh) * 2024-01-31 2024-03-08 宁德时代新能源科技股份有限公司 电池信息处理方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN112199375B (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN112380435B (zh) 基于异构图神经网络的文献推荐方法及推荐系统
CN111444344B (zh) 实体分类方法、装置、计算机设备和存储介质
CN110968684B (zh) 一种信息处理方法、装置、设备及存储介质
CN111061856A (zh) 一种基于知识感知的新闻推荐方法
CN112712069B (zh) 一种判题方法、装置、电子设备及存储介质
CN113486173B (zh) 文本标注神经网络模型及其标注方法
CN115129883B (zh) 实体链接方法和装置、存储介质及电子设备
CN113011172A (zh) 文本处理方法、装置、计算机设备和存储介质
CN111625715A (zh) 信息提取方法、装置、电子设备及存储介质
CN114519397B (zh) 基于对比学习的实体链接模型的训练方法、装置、设备
CN114398973A (zh) 一种媒体内容标签识别方法、装置、设备及存储介质
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN116414938A (zh) 一种知识点标注方法、装置、设备及存储介质
CN113254649A (zh) 敏感内容识别模型的训练方法、文本识别方法及相关装置
CN114281984A (zh) 一种风险检测方法、装置、设备及计算机可读存储介质
CN111143454B (zh) 一种文本输出方法、装置及可读存储介质
CN112765985A (zh) 一种面向特定领域专利实施例的命名实体识别方法
CN116228361A (zh) 基于特征匹配的课程推荐方法、装置、设备和存储介质
CN116958626A (zh) 一种图像分类模型训练、图像分类方法、装置及电子设备
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN111935259B (zh) 目标帐号集合的确定方法和装置、存储介质及电子设备
CN115062123A (zh) 一种对话生成系统的知识库问答对生成方法
CN114329181A (zh) 一种题目推荐方法、装置及电子设备
CN114691880A (zh) 知识图谱构建方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination