CN114564562A - 基于答案指导的题目生成方法、装置、设备及存储介质 - Google Patents

基于答案指导的题目生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114564562A
CN114564562A CN202210164199.6A CN202210164199A CN114564562A CN 114564562 A CN114564562 A CN 114564562A CN 202210164199 A CN202210164199 A CN 202210164199A CN 114564562 A CN114564562 A CN 114564562A
Authority
CN
China
Prior art keywords
word
vector
paragraph
sentence
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210164199.6A
Other languages
English (en)
Other versions
CN114564562B (zh
Inventor
舒畅
陈又新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210164199.6A priority Critical patent/CN114564562B/zh
Priority to PCT/CN2022/090421 priority patent/WO2023159753A1/zh
Publication of CN114564562A publication Critical patent/CN114564562A/zh
Application granted granted Critical
Publication of CN114564562B publication Critical patent/CN114564562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于答案指导的题目生成方法、装置、设备及存储介质,其中,方法包括:根据答案文本对应的段落文本对答案文本进行分词处理得到至少一个第一词语;根据至少一个第一词语对段落文本进行段落分割得到第一子段落;根据至少一个第一词语对第一子字段落进行分析处理得到至少一个第二词语;对至少一个第二词语进行依存分析得到关系图;根据关系图对每个第二词语进行图卷积编码得到至少一个图卷积向量;对每个第二词语进行编码处理得到至少一个词向量和至少一个编码向量;根据至少一个图卷积向量、至少一个词向量和至少一个编码向量进行多次词语生成处理,并将生成的至少一个第三词语按照每个第三词语的生成时间进行拼接,得到题目。

Description

基于答案指导的题目生成方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于答案指导的题目生成方法、装置、设备及存储介质。
背景技术
目前,传统的题目生成方法是通过预设的生成规则或者根据答案的词性类型生成相应的题目。但是,规则生成的方法需要人工预先设定好作为种子问题的句子,然后通过同义词或者近义词替换等基于词典的方法组成新的考题题目。而另一种词性生成的方法,则需要通过part-of-speech等模型,识别出答案的词性,然后在基于词性生成相应的题目。比如词性为名词就把题目出成“是什么”;词性为形容词就把题目出成“怎么样”;词性为地点就把题目出成“在哪里”。基于此,目前的题目生成方法生成的考题多样性低,且覆盖性也偏弱。
发明内容
为了解决现有技术中存在的上述问题,本申请实施方式提供了一种基于答案指导的题目生成方法、装置、设备及存储介质,通过深度学的方式对答案文本进行自主学习以生成题目,无需人力插手和事先布局,在生成的题目具备多样性和全面性的同时,降低了人力成本。
第一方面,本申请的实施方式提供了一种基于答案指导的题目生成方法,包括:
根据答案文本对应的段落文本对答案文本进行分词处理,得到至少一个第一词语;
根据至少一个第一词语对段落文本进行段落分割,得到第一子段落;
根据至少一个第一词语对第一子字段落进行分析处理,得到至少一个第二词语,其中,至少一个第二词语中的每个第二词语包括标记信息,标记信息用于标识对应的第二词语所属的对象;
对至少一个第二词语进行依存分析,得到关系图,其中,关系图用于标识每个第二词语之间的关系;
根据关系图对每个第二词语进行图卷积编码,得到至少一个图卷积向量,其中,至少一个图卷积向量与至少一个第二词语一一对应;
对每个第二词语进行编码处理,得到至少一个词向量和至少一个编码向量,其中,编码向量为对每个第二词语的标记信息进行编码处理得到的,至少一个词向量和至少一个第二词语一一对应,至少一个编码向量和至少一个第二词语一一对应;
根据至少一个图卷积向量、至少一个词向量和至少一个编码向量进行多次词语生成处理,得到至少一个第三词语;
将至少一个第三词语按照至少一个第三词语中每个第三词语的生成时间进行拼接,得到答案文本对应的题目。
第二方面,本申请的实施方式提供了一种基于答案指导的题目生成装置,包括:
分割模块,用于根据答案文本对应的段落文本对答案文本进行分词处理,得到至少一个第一词语,并根据至少一个第一词语对段落文本进行段落分割,得到第一子段落;
分析模块,用于根据至少一个第一词语对第一子字段落进行分析处理,得到至少一个第二词语,其中,至少一个第二词语中的每个第二词语包括标记信息,标记信息用于标识对应的第二词语所属的对象,并对至少一个第二词语进行依存分析,得到关系图,其中,关系图用于标识每个第二词语之间的关系;
编码模块,用于根据关系图对每个第二词语进行图卷积编码,得到至少一个图卷积向量,其中,至少一个图卷积向量与至少一个第二词语一一对应,并对每个第二词语进行编码处理,得到至少一个词向量和至少一个编码向量,其中,编码向量为对每个第二词语的标记信息进行编码处理得到的,至少一个词向量和至少一个第二词语一一对应,至少一个编码向量和至少一个第二词语一一对应;
生成模块,用于根据至少一个图卷积向量、至少一个词向量和至少一个编码向量进行多次词语生成处理,得到至少一个第三词语,并将至少一个第三词语按照至少一个第三词语中每个第三词语的生成时间进行拼接,得到答案文本对应的题目。
第三方面,本申请实施方式提供一种电子设备,包括:处理器,处理器与存储器相连,存储器用于存储计算机程序,处理器用于执行存储器中存储的计算机程序,以使得电子设备执行如第一方面的方法。
第四方面,本申请实施方式提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序使得计算机执行如第一方面的方法。
第五方面,本申请实施方式提供一种计算机程序产品,计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,计算机可操作来使计算机执行如第一方面的方法。
实施本申请实施方式,具有如下有益效果:
在本申请实施方式中,通过答案文本对应的段落文本将答案文本分词,继而通过分词得到的至少一个第一词语对段落文本进行分割,得到段落文本中与答案文本关系紧密的第一子段落。然后,根据至少一个第一词语对第一子段落进行分析,得到携带标记信息的至少一个第二词语,并对至少一个第二词语进行依存分析,得到关系图。继而根据关系图对每个第二词语进行图卷积编码,得到至少一个图卷积向量。最后,对每个第二词语进行编码处理,得到至少一个词向量和至少一个编码向量,并根据至少一个图卷积向量、至少一个词向量和至少一个编码向量进行多次词语生成处理,将生成的至少一个第三词语按照每个第三词语的生成时间进行拼接,得到答案文本对应的题目。由此,实现了通过深度学的方式对答案文本进行自主学习以生成题目,无需人力插手和事先布局,在生成的题目具备多样性和全面性的同时,降低了人力成本。
附图说明
为了更清楚地说明本申请实施方式中的技术方案,下面将对实施方式描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施方式提供的一种基于答案指导的题目生成装置的硬件结构示意图;
图2为本申请实施方式提供的一种基于答案指导的题目生成方法的流程示意图;
图3为本申请实施方式提供的一种根据至少一个第一词语对段落文本进行段落分割,得到第一子段落的方法的流程示意图;
图4为本申请实施方式提供的一种根据关系图对每个第二词语进行图卷积编码,得到与至少一个第二词语一一对应的至少一个图卷积向量的方法的流程示意图;
图5为本申请实施方式提供的一种关系图的示意图;
图6为本申请实施方式提供的一种根据至少一个图卷积向量、至少一个词向量和至少一个编码向量进行多次词语生成处理,得到至少一个第三词语的方法的流程示意图;
图7为本申请实施方式提供的一种基于答案指导的题目生成装置的功能模块组成框图;
图8为本申请实施方式提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施方式”意味着,结合实施方式描述的特定特征、结果或特性可以包含在本申请的至少一个实施方式中。在说明书中的各个位置出现该短语并不一定均是指相同的实施方式,也不是与其它实施方式互斥的独立的或备选的实施方式。本领域技术人员显式地和隐式地理解的是,本文所描述的实施方式可以与其它实施方式相结合。
首先,参阅图1,图1为本申请实施方式提供的一种基于答案指导的题目生成装置的硬件结构示意图。该基于答案指导的题目生成装置100包括至少一个处理器101,通信线路102,存储器103以及至少一个通信接口104。
在本实施方式中,处理器101,可以是一个通用中央处理器(central processingunit,CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。
通信线路102,可以包括一通路,在上述组件之间传送信息。
通信接口104,可以是任何收发器一类的装置(如天线等),用于与其他设备或通信网络通信,例如以太网,RAN,无线局域网(wireless local area networks,WLAN)等。
存储器103,可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
在本实施方式中,存储器103可以独立存在,通过通信线路102与处理器101相连接。存储器103也可以和处理器101集成在一起。本申请实施方式提供的存储器103通常可以具有非易失性。其中,存储器103用于存储执行本申请方案的计算机执行指令,并由处理器101来控制执行。处理器101用于执行存储器103中存储的计算机执行指令,从而实现本申请下述实施方式中提供的方法。
在可选的实施方式中,计算机执行指令也可以称之为应用程序代码,本申请对此不作具体限定。
在可选的实施方式中,处理器101可以包括一个或多个CPU,例如图1中的CPU0和CPU1。
在可选的实施方式中,该基于答案指导的题目生成装置100可以包括多个处理器,例如图1中的处理器101和处理器107。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
在可选的实施方式中,若基于答案指导的题目生成装置100为服务器,例如,可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。则基于答案指导的题目生成装置100还可以包括输出设备105和输入设备106。输出设备105和处理器101通信,可以以多种方式来显示信息。例如,输出设备105可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emitting diode,LED)显示设备,阴极射线管(cathode ray tube,CRT)显示设备,或投影仪(projector)等。输入设备106和处理器101通信,可以以多种方式接收用户的输入。例如,输入设备106可以是鼠标、键盘、触摸屏设备或传感设备等。
上述的基于答案指导的题目生成装置100可以是一个通用设备或者是一个专用设备。本申请实施方式不限定基于答案指导的题目生成装置100的类型。
其次,需要说明的是,本申请所公开的实施方式可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
以下,将对本申请所公开的基于答案指导的题目生成方法进行说明:
参阅图2,图2为本申请实施方式提供的一种基于答案指导的题目生成方法的流程示意图。该基于答案指导的题目生成方法包括以下步骤:
201:根据答案文本对应的段落文本对答案文本进行分词处理,得到至少一个第一词语。
在本实施方式中,段落文本可以理解为一段和题目以及答案文本相关连的文字描述。具体而言,题目会针对段落文本的描述提出文字问题,答案文本是参照段落文本的文字描述回答题目所提出的问题的文本。
同时,在本实施方式中,可以预先对段落文本、题目和答案文本之间的关系进行建模,从而通过对模型的训练,实现通过深度学的方式对答案文本进行自主学习以生成题目。具体而言,段落文本、题目和答案文本之间的关系可以通过公式①进行表示:
Figure BDA0003514657630000071
其中,p表示段落文本,a表示答案文本,q表示题目,P表示概率函数,可以为生成题目q中的每个词的概率。
由此,在本实施方式中,可以通过段落文本对答案文本进行分词处理,即而通过答案文本中与段落文本相关的关键词,确定题目中对应的词语。具体而言,可以使用HanLP语料库将答案文本切分为若干个第一候选词,继而使用自然语言处理工具包(NaturalLanguage Toolkit,NLTK)将若干个第一候选词中的停用词过滤,得到若干个第二候选词。最后,将该若干个第二候选词在段落文本中进行匹配,筛除段落文本中没有的词,得到该至少一个第一词语。
202:根据至少一个第一词语对段落文本进行段落分割,得到第一子段落。
在本实施方式中,第一子段落为段落文本中与答案文本关系紧密的一个段落。简单而言,根据上述题目、答案文本和段落文本之间的关系,可以理解该答案文本即为对该第一子段落的描述进行回答的文本。
由此,本实施方式提供了一种根据至少一个第一词语对段落文本进行段落分割,得到第一子段落的方法,如图3所示,该方法包括:
301:对段落文本中的每个句子进行分词处理,得到至少一个词组。
在本实施方式中,对段落文本中的每个句子进行分词处理的方法与步骤201中对答案文本进行分词处理的方式类似,在此不再赘述。
302:对至少一个词组中的每个词组进行编码处理,得到每个句子的句子向量。
在本实施方式中,可以将每个词组中的词语,按照其在对应的句子中的位置前后顺序进行排列。再将排列好的词语依次输入预训练的基于转换器的双向编码表征(Bidirectional Encoder Representation from Transformers,BERT)模型进行编码,得到每个句子的句子向量。
303:对至少一个第一词语进行编码处理,得到答案文本的文本向量。
在本实施方式中,对至少一个第一词语进行编码处理的方法与步骤302中对至少一个词组中的每个词组进行编码处理的方式类似,在此不再赘述。
304:对每个句子的句子向量与答案文本的文本向量之间进行相似度计算,得到每个句子对应的第二相似度。
在本实施方式中,可以将每个句子的句子向量与答案文本的文本向量之间的余弦相似度,作为每个句子对应的第二相似度。
305:根据每个句子对应的第二相似度在段落文本中确定第一语句和第二语句。
在本实施方式中,第一语句为段落文本中首次出现的第二相似度大于第一阈值的句子,第二语句为段落文本中末次出现的第二相似度大于第一阈值的句子。
具体而言,第一阈值可以取top30%的句子对应的最低第二相似度值。由此,将第二相似度中top30%的句子标记为S,并对段落文本进行划分。示例性的,可以将段落文本划分为:[SO,SB,SI,SE,SO]。其中,SO表示top30%的句子之前或者之后的句子,SB表示段落文本中出现的第一句top30%的句子,即第一语句,SI表示top30%的句子中间的句子(可能包含在top30%的句子里,也有可能在top30%的句子外),SE表示段落文本中出现的最后一句top30%的句子,即第二语句。
306:将第一语句和第二语句之间的句子作为第一子段落。
在本实施方式中,段落文本被划分出三块区域,其中,第一块SO和第三块SO都是和答案文本无关或关连度低的句子,第二块SB+SI+SE则是和答案高度相关的句子,即第一子段落。
203:根据至少一个第一词语对第一子字段落进行分析处理,得到至少一个第二词语。
在本实施方式中,该至少一个第二词语中的每个第二词语包括标记信息,标记信息用于标识对应的第二词语所属的对象。具体而言,在得到第一子段落后,可以通过至少一个第一词语对该第一子段落中的各个句子的分词进行标记,得到该至少一个第二词语。
示例性的,可以先对第一子段落中的各个句子进行分词处理,处理方法与步骤201中对答案文本进行分词处理的方式类似,在此不再赘述。然后,将分词结果与至少一个第一词语进行匹配,若匹配成功,则为匹配成功的分词赋予答案文本的印记X,表明该分词属于答案文本;若匹配不成功,则为匹配不成功的分词赋予段落文本的印记Y,表明该分词属于段落文本。
204:对至少一个第二词语进行依存分析,得到关系图。
在本实施方式中,关系图用于标识每个第二词语之间的关系,示例性的,可以将每个第二词语作为关系图中的点,将存在关系的两个第二词语的点之间用线段进行连接,得到关系图。具体而言,可以使用Stanford、DependencyParsetree等工具对至少一个第二词语进行依存分析,以获取词与词之间的关系。
205:根据关系图对每个第二词语进行图卷积编码,得到与至少一个第二词语一一对应的至少一个图卷积向量。
在本实施方式中,提供了一种根据关系图对每个第二词语进行图卷积编码,得到与至少一个第二词语一一对应的至少一个图卷积向量的方法,如图4所示,该方法包括:
401:根据关系图构建第一邻接矩阵。
在本实施方式中,可以将关系图中的各个点分别作为矩阵的横轴和纵轴构建第一邻接矩阵。当两个点之间存在关系,即两个点之间存在连线时,将这两个点对应的横轴和纵轴的交叉位置置1,否则置0,从而得到第一邻接矩阵。示例性的,图5示出了一种关系图,以图5为例,可以得到如下第一邻接矩阵:
Figure BDA0003514657630000101
402:根据每个第二词语在关系图中的特征,对第一邻接矩阵进行特征添加,得到第二邻接矩阵。
通过上述邻接矩阵的构建方式可以看出,在本实施方式中,邻接矩阵忽略了关系图中每个点本身的特征。因此,可以通过将每个第二词语在关系图中的特征添加进第一邻接矩阵,得到该第二词语对应的第二邻接矩阵。由此,使每个第二邻接矩阵中除了包含各个第二词语之间的关系特征,还包括对应的第二词语本身的特征。
具体而言,每个第二词语在关系图中的特征、第一邻接矩阵和每个第二词语对应的第二邻接矩阵之间的关系可以通过公式②进行表示:
Figure BDA0003514657630000102
其中,
Figure BDA0003514657630000103
表示第二邻接矩阵,A表示第一邻接矩阵,Iω表示单位矩阵,θ表示每个第二词语在关系图中的特征。
403:根据第二邻接矩阵确定第一度矩阵。
在本实施方式中,第二邻接矩阵和第一度矩阵之间满足公式③:
Figure BDA0003514657630000111
其中,
Figure BDA0003514657630000112
表示第一度矩阵中第n行第n列的元素,
Figure BDA0003514657630000113
表示第二邻接矩阵中第n行第m列的元素,n、m为大于或等于1的整数。
404:根据第二邻接矩阵和第一度矩阵进行多次图卷积处理,得到每个第二词语对应的图卷积向量。
示例性的,在第j次图卷积处理时,首先,获取第j个第二词语对应的第一度矩阵的逆矩阵,并对逆矩阵进行开方处理,得到第一矩阵,其中,第i个第二词语为至少一个第二词语中排位第j位的第二词语,j为大于或等于1的整数;然后,将第一矩阵、第j个第二词语对应的第二邻接矩阵、第j次图卷积处理对应的学习矩阵和第j输入编码输入激活函数,得到第j输出编码,其中,当j=1时,第j输入编码为空;最后,将第j输出编码作为第j+1次图卷积处理的第j+1输入编码进行第j+1次图卷积处理,直至进行多次图卷积处理后,得到每个第二词语对应的图卷积向量。
具体而言,激活函数可以是sigmoid激活函数,第一矩阵、第j个第二词语对应的第二邻接矩阵、第j次图卷积处理对应的学习矩阵、第j输入编码和激活函数之间的关系可以通过公式④进行表示:
Figure BDA0003514657630000114
其中,σ表示sigmoid激活函数,Wj表示第j次图卷积处理对应的学习矩阵。
206:对每个第二词语进行编码处理,得到和至少一个第二词语一一对应的至少一个词向量,以及和至少一个第二词语一一对应的至少一个编码向量。
在本实施方式中,词向量可以使用BERT语言模型获取;编码向量为对每个第二词语的标记信息进行编码处理得到的。示例性的,可以将答案文本的印记X的编码设置为1,段落文本的印记Y设置为2。
207:根据至少一个图卷积向量、至少一个词向量和至少一个编码向量进行多次词语生成处理,得到至少一个第三词语。
在本实施方式中,提供了一种根据至少一个图卷积向量、至少一个词向量和至少一个编码向量进行多次词语生成处理,得到至少一个第三词语的方法,如图6所示,该方法包括:
601:在第i次词语生成处理中,将第i个词向量、第i个编码向量和第i个图卷积向量进行拼接,得到融合向量Ai
在本实施方式中,第i个词向量为至少一个词向量中排位第i位的词向量,第i个编码向量为至少一个编码向量中排位第i位的编码向量,第i个图卷积向量为至少一个图卷积向量中排位第i位的图卷积向量,i为大于或等于1的整数。
602:将输入隐藏层特征向量Bi和融合向量Ai输入长短期记忆(Long Short-TermMemory,LSTM)神经网络,得到第一词向量Ci和输出隐藏层特征向量Di
在本实施方式中,当i=1时,输入隐藏层特征向量Bi为空向量。具体而言,输入隐藏层特征向量Bi、融合向量Ai和第一词向量Ci之间可以通过公式⑤进行表示:
Ci=LSTM(Bi,Ai).........⑤
进一步的,融合向量Ai可以通过公式⑥进行表示:
Ai=[ki,fi,hi].........⑥
其中,ki表示第i个词向量、fi表示第i个编码向量,hi表示第i个图卷积向量;
进一步的,输入隐藏层特征向量Bi可以是上一次词语生成处理中的输出隐藏层特征向量Di-1
603:确定第一词向量Ci的权重,将第一词向量Ci与权重相乘,得到第二词向量Ei
在本实施方式中,可以将第一词向量Ci输入门控循环单元(gated recurrentunit,GRU)神经网络,得到隐藏层状态特征向量和输出特征向量;再计算隐藏层状态特征向量和输出特征向量之间的第一相似度;最后,将第一相似度输入softmax函数,并将softmax函数的输出结果归一化,得到第一词向量Ci的权重。
604:对第二回复词向量Ei进行解码处理,得到第i次词语生成处理对应的第三词语,并将输出隐藏层特征向量Di作为第i+1次词语生成处理对应的输入隐藏层特征向量Bi+1进行第i+1次词语生成处理,直至进行多次词语生成处理后,得到至少一个第三词语。
具体而言,可以通过逆编码的方式,对第二回复词向量Ei进行解码处理。
208:将至少一个第三词语按照至少一个第三词语中每个第三词语的生成时间进行拼接,得到答案文本对应的题目。
综上所述,本发明所提供的基于答案指导的题目生成方法中,通过答案文本对应的段落文本将答案文本分词,继而通过分词得到的至少一个第一词语对段落文本进行分割,得到段落文本中与答案文本关系紧密的第一子段落。然后,根据至少一个第一词语对第一子段落进行分析,得到携带标记信息的至少一个第二词语,并对至少一个第二词语进行依存分析,得到关系图。继而根据关系图对每个第二词语进行图卷积编码,得到至少一个图卷积向量。最后,对每个第二词语进行编码处理,得到至少一个词向量和至少一个编码向量,并根据至少一个图卷积向量、至少一个词向量和至少一个编码向量进行多次词语生成处理,将生成的至少一个第三词语按照每个第三词语的生成时间进行拼接,得到答案文本对应的题目。由此,实现了通过深度学的方式对答案文本进行自主学习以生成题目,无需人力插手和事先布局,在生成的题目具备多样性和全面性的同时,降低了人力成本。
参阅图7,图7为本申请实施方式提供的一种基于答案指导的题目生成装置的功能模块组成框图。如图7所示,该基于答案指导的题目生成装置700包括:
分割模块701,用于根据答案文本对应的段落文本对答案文本进行分词处理,得到至少一个第一词语,并根据至少一个第一词语对段落文本进行段落分割,得到第一子段落;
分析模块702,用于根据至少一个第一词语对第一子字段落进行分析处理,得到至少一个第二词语,其中,至少一个第二词语中的每个第二词语包括标记信息,标记信息用于标识对应的第二词语所属的对象,并对至少一个第二词语进行依存分析,得到关系图,其中,关系图用于标识每个第二词语之间的关系;
编码模块703,用于根据关系图对每个第二词语进行图卷积编码,得到至少一个图卷积向量,其中,至少一个图卷积向量与至少一个第二词语一一对应,并对每个第二词语进行编码处理,得到至少一个词向量和至少一个编码向量,其中,编码向量为对每个第二词语的标记信息进行编码处理得到的,至少一个词向量和至少一个第二词语一一对应,至少一个编码向量和至少一个第二词语一一对应;
生成模块704,用于根据至少一个图卷积向量、至少一个词向量和至少一个编码向量进行多次词语生成处理,得到至少一个第三词语,并将至少一个第三词语按照至少一个第三词语中每个第三词语的生成时间进行拼接,得到答案文本对应的题目。
在本发明的实施方式中,在根据至少一个图卷积向量、至少一个词向量和至少一个编码向量进行多次词语生成处理,得到至少一个第三词语方面,生成模块704,具体用于:
在第i次词语生成处理中,将第i个词向量、第i个编码向量和第i个图卷积向量进行拼接,得到融合向量Ai,其中,第i个词向量为至少一个词向量中排位第i位的词向量,第i个编码向量为至少一个编码向量中排位第i位的编码向量,第i个图卷积向量为至少一个图卷积向量中排位第i位的图卷积向量,i为大于或等于1的整数;
将输入隐藏层特征向量Bi和融合向量Ai输入长短期记忆神经网络,得到第一词向量Ci和输出隐藏层特征向量Di,其中,当i=1时,输入隐藏层特征向量Bi为空向量;
确定第一词向量Ci的权重,将第一词向量Ci与权重相乘,得到第二词向量Ei
对第二回复词向量Ei进行解码处理,得到第i次词语生成处理对应的第三词语,并将输出隐藏层特征向量Di作为第i+1次词语生成处理对应的输入隐藏层特征向量Bi+1进行第i+1次词语生成处理,直至进行多次词语生成处理后,得到至少一个第三词语。
在本发明的实施方式中,在确定第一词向量Ci的权重方面,生成模块704,具体用于:
将第一词向量Ci输入门控循环单元神经网络,得到隐藏层状态特征向量和输出特征向量;
计算隐藏层状态特征向量和输出特征向量之间的第一相似度;
将第一相似度输入softmax函数,并将softmax函数的输出结果归一化,得到第一词向量Ci的权重。
在本发明的实施方式中,在根据关系图对每个第二词语进行图卷积编码,得到至少一个图卷积向量方面,编码模块703,具体用于:
根据关系图构建第一邻接矩阵;
根据每个第二词语在关系图中的特征,对第一邻接矩阵进行特征添加,得到第二邻接矩阵;
根据第二邻接矩阵确定第一度矩阵;
根据第二邻接矩阵和第一度矩阵进行多次图卷积处理,得到每个第二词语对应的图卷积向量。
在本发明的实施方式中,在根据第二邻接矩阵和第一度矩阵进行多次图卷积处理,得到每个第二词语对应的图卷积向量方面,编码模块703,具体用于:
在第j次图卷积处理时,获取第j个第二词语对应的第一度矩阵的逆矩阵,并对逆矩阵进行开方处理,得到第一矩阵,其中,第i个第二词语为至少一个第二词语中排位第j位的第二词语,j为大于或等于1的整数;
将第一矩阵、第j个第二词语对应的第二邻接矩阵、第j次图卷积处理对应的学习矩阵和第j输入编码输入激活函数,得到第j输出编码,其中,当j=1时,第j输入编码为空;
将第j输出编码作为第j+1次图卷积处理的第j+1输入编码进行第j+1次图卷积处理,直至进行多次图卷积处理后,得到每个第二词语对应的图卷积向量。
在本发明的实施方式中,第二邻接矩阵和第一度矩阵之间可以通过公式⑦进行表示:
Figure BDA0003514657630000151
其中,
Figure BDA0003514657630000152
表示第一度矩阵中第n行第n列的元素,
Figure BDA0003514657630000153
表示第二邻接矩阵中第n行第m列的元素,n、m为大于或等于1的整数。
在本发明的实施方式中,在根据至少一个第一词语对段落文本进行段落分割,得到第一子段落方面,分割模块701,具体用于:
对段落文本中的每个句子进行分词处理,得到至少一个词组;
对至少一个词组中的每个词组进行编码处理,得到每个句子的句子向量;
对至少一个第一词语进行编码处理,得到答案文本的文本向量;
对每个句子的句子向量与答案文本的文本向量之间进行相似度计算,得到每个句子对应的第二相似度;
根据每个句子对应的第二相似度在段落文本中确定第一语句和第二语句,其中,第一语句为段落文本中首次出现的第二相似度大于第一阈值的句子,第二语句为段落文本中末次出现的第二相似度大于第一阈值的句子;
将第一语句和第二语句之间的句子作为第一子段落。
参阅图8,图8为本申请实施方式提供的一种电子设备的结构示意图。如图8所示,电子设备800包括收发器801、处理器802和存储器803。它们之间通过总线804连接。存储器803用于存储计算机程序和数据,并可以将存储器803存储的数据传输给处理器802。
处理器802用于读取存储器803中的计算机程序执行以下操作:
根据答案文本对应的段落文本对答案文本进行分词处理,得到至少一个第一词语;
根据至少一个第一词语对段落文本进行段落分割,得到第一子段落;
根据至少一个第一词语对第一子字段落进行分析处理,得到至少一个第二词语,其中,至少一个第二词语中的每个第二词语包括标记信息,标记信息用于标识对应的第二词语所属的对象;
对至少一个第二词语进行依存分析,得到关系图,其中,关系图用于标识每个第二词语之间的关系;
根据关系图对每个第二词语进行图卷积编码,得到至少一个图卷积向量,其中,至少一个图卷积向量与至少一个第二词语一一对应;
对每个第二词语进行编码处理,得到至少一个词向量和至少一个编码向量,其中,编码向量为对每个第二词语的标记信息进行编码处理得到的,至少一个词向量和至少一个第二词语一一对应,至少一个编码向量和至少一个第二词语一一对应;
根据至少一个图卷积向量、至少一个词向量和至少一个编码向量进行多次词语生成处理,得到至少一个第三词语;
将至少一个第三词语按照至少一个第三词语中每个第三词语的生成时间进行拼接,得到答案文本对应的题目。
在本发明的实施方式中,在根据至少一个图卷积向量、至少一个词向量和至少一个编码向量进行多次词语生成处理,得到至少一个第三词语方面,处理器802,具体用于执行以下操作:
在第i次词语生成处理中,将第i个词向量、第i个编码向量和第i个图卷积向量进行拼接,得到融合向量Ai,其中,第i个词向量为至少一个词向量中排位第i位的词向量,第i个编码向量为至少一个编码向量中排位第i位的编码向量,第i个图卷积向量为至少一个图卷积向量中排位第i位的图卷积向量,i为大于或等于1的整数;
将输入隐藏层特征向量Bi和融合向量Ai输入长短期记忆神经网络,得到第一词向量Ci和输出隐藏层特征向量Di,其中,当i=1时,输入隐藏层特征向量Bi为空向量;
确定第一词向量Ci的权重,将第一词向量Ci与权重相乘,得到第二词向量Ei
对第二回复词向量Ei进行解码处理,得到第i次词语生成处理对应的第三词语,并将输出隐藏层特征向量Di作为第i+1次词语生成处理对应的输入隐藏层特征向量Bi+1进行第i+1次词语生成处理,直至进行多次词语生成处理后,得到至少一个第三词语。
在本发明的实施方式中,在确定第一词向量Ci的权重方面,处理器802,具体用于执行以下操作:
将第一词向量Ci输入门控循环单元神经网络,得到隐藏层状态特征向量和输出特征向量;
计算隐藏层状态特征向量和输出特征向量之间的第一相似度;
将第一相似度输入softmax函数,并将softmax函数的输出结果归一化,得到第一词向量Ci的权重。
在本发明的实施方式中,在根据关系图对每个第二词语进行图卷积编码,得到至少一个图卷积向量方面,处理器802,具体用于执行以下操作:
根据关系图构建第一邻接矩阵;
根据每个第二词语在关系图中的特征,对第一邻接矩阵进行特征添加,得到第二邻接矩阵;
根据第二邻接矩阵确定第一度矩阵;
根据第二邻接矩阵和第一度矩阵进行多次图卷积处理,得到每个第二词语对应的图卷积向量。
在本发明的实施方式中,在根据第二邻接矩阵和第一度矩阵进行多次图卷积处理,得到每个第二词语对应的图卷积向量方面,处理器802,具体用于执行以下操作:
在第j次图卷积处理时,获取第j个第二词语对应的第一度矩阵的逆矩阵,并对逆矩阵进行开方处理,得到第一矩阵,其中,第i个第二词语为至少一个第二词语中排位第j位的第二词语,j为大于或等于1的整数;
将第一矩阵、第j个第二词语对应的第二邻接矩阵、第j次图卷积处理对应的学习矩阵和第j输入编码输入激活函数,得到第j输出编码,其中,当j=1时,第j输入编码为空;
将第j输出编码作为第j+1次图卷积处理的第j+1输入编码进行第j+1次图卷积处理,直至进行多次图卷积处理后,得到每个第二词语对应的图卷积向量。
在本发明的实施方式中,第二邻接矩阵和第一度矩阵之间可以通过公式⑧进行表示:
Figure BDA0003514657630000181
其中,
Figure BDA0003514657630000182
表示第一度矩阵中第n行第n列的元素,
Figure BDA0003514657630000183
表示第二邻接矩阵中第n行第m列的元素,n、m为大于或等于1的整数。
在本发明的实施方式中,在根据至少一个第一词语对段落文本进行段落分割,得到第一子段落方面,处理器802,具体用于执行以下操作:
对段落文本中的每个句子进行分词处理,得到至少一个词组;
对至少一个词组中的每个词组进行编码处理,得到每个句子的句子向量;
对至少一个第一词语进行编码处理,得到答案文本的文本向量;
对每个句子的句子向量与答案文本的文本向量之间进行相似度计算,得到每个句子对应的第二相似度;
根据每个句子对应的第二相似度在段落文本中确定第一语句和第二语句,其中,第一语句为段落文本中首次出现的第二相似度大于第一阈值的句子,第二语句为段落文本中末次出现的第二相似度大于第一阈值的句子;
将第一语句和第二语句之间的句子作为第一子段落。
应理解,本申请中的基于答案指导的题目生成装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile Internet Devices,简称:MID)、机器人或穿戴式设备等。上述基于答案指导的题目生成装置仅是举例,而非穷举,包含但不限于上述基于答案指导的题目生成装置。在实际应用中,上述基于答案指导的题目生成装置还可以包括:智能车载终端、计算机设备等等。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施方式或者实施方式的某些部分所述的方法。
因此,本申请实施方式还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施方式中记载的任何一种基于答案指导的题目生成方法的部分或全部步骤。例如,所述存储介质可以包括硬盘、软盘、光盘、磁带、磁盘、优盘、闪存等。
本申请实施方式还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施方式中记载的任何一种基于答案指导的题目生成方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施方式,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施方式均属于可选的实施方式,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施方式中,对各个实施方式的描述都各有侧重,某个实施方式中没有详述的部分,可以参见其他实施方式的相关描述。
在本申请所提供的几个实施方式中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施方式的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施方式进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施方式的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种基于答案指导的题目生成方法,其特征在于,所述方法包括:
根据答案文本对应的段落文本对所述答案文本进行分词处理,得到至少一个第一词语;
根据所述至少一个第一词语对所述段落文本进行段落分割,得到第一子段落;
根据所述至少一个第一词语对所述第一子字段落进行分析处理,得到至少一个第二词语,其中,所述至少一个第二词语中的每个第二词语包括标记信息,所述标记信息用于标识对应的第二词语所属的对象;
对所述至少一个第二词语进行依存分析,得到关系图,其中,所述关系图用于标识所述每个第二词语之间的关系;
根据所述关系图对所述每个第二词语进行图卷积编码,得到至少一个图卷积向量,其中,所述至少一个图卷积向量与所述至少一个第二词语一一对应;
对所述每个第二词语进行编码处理,得到至少一个词向量和至少一个编码向量,其中,所述编码向量为对所述每个第二词语的标记信息进行所述编码处理得到的,所述至少一个词向量和所述至少一个第二词语一一对应,所述至少一个编码向量和所述至少一个第二词语一一对应;
根据所述至少一个图卷积向量、所述至少一个词向量和所述至少一个编码向量进行多次词语生成处理,得到至少一个第三词语;
将所述至少一个第三词语按照所述至少一个第三词语中每个第三词语的生成时间进行拼接,得到所述答案文本对应的题目。
2.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个图卷积向量、所述至少一个词向量和所述至少一个编码向量进行多次词语生成处理,得到至少一个第三词语,包括:
在第i次词语生成处理中,将第i个词向量、第i个编码向量和第i个图卷积向量进行拼接,得到融合向量Ai,其中,所述第i个词向量为所述至少一个词向量中排位第i位的词向量,所述第i个编码向量为所述至少一个编码向量中排位第i位的编码向量,所述第i个图卷积向量为所述至少一个图卷积向量中排位第i位的图卷积向量,i为大于或等于1的整数;
将输入隐藏层特征向量Bi和融合向量Ai输入长短期记忆神经网络,得到第一词向量Ci和输出隐藏层特征向量Di,其中,当i=1时,所述输入隐藏层特征向量Bi为空向量;
确定所述第一词向量Ci的权重,将所述第一词向量Ci与所述权重相乘,得到第二词向量Ei
对所述第二回复词向量Ei进行解码处理,得到所述第i次词语生成处理对应的第三词语,并将所述输出隐藏层特征向量Di作为第i+1次词语生成处理对应的输入隐藏层特征向量Bi+1进行所述第i+1次词语生成处理,直至进行所述多次词语生成处理后,得到所述至少一个第三词语。
3.根据权利要求2所述的方法,其特征在于,所述确定所述第一词向量Ci的权重,包括:
将所述第一词向量Ci输入门控循环单元神经网络,得到隐藏层状态特征向量和输出特征向量;
计算所述隐藏层状态特征向量和所述输出特征向量之间的第一相似度;
将所述第一相似度输入softmax函数,并将所述softmax函数的输出结果归一化,得到所述第一词向量Ci的权重。
4.根据权利要求1所述的方法,其特征在于,所述根据所述关系图对所述每个第二词语进行图卷积编码,得到至少一个图卷积向量,包括:
根据所述关系图构建第一邻接矩阵;
根据所述每个第二词语在所述关系图中的特征,对所述第一邻接矩阵进行特征添加,得到第二邻接矩阵;
根据所述第二邻接矩阵确定第一度矩阵;
根据所述第二邻接矩阵和所述第一度矩阵进行多次图卷积处理,得到所述每个第二词语对应的图卷积向量。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第二邻接矩阵和所述第一度矩阵进行多次图卷积处理,得到所述每个第二词语对应的图卷积向量,包括:
在第j次图卷积处理时,获取第j个第二词语对应的第一度矩阵的逆矩阵,并对所述逆矩阵进行开方处理,得到第一矩阵,其中,所述第i个第二词语为所述至少一个第二词语中排位第j位的第二词语,j为大于或等于1的整数;
将所述第一矩阵、所述第j个第二词语对应的第二邻接矩阵、所述第j次图卷积处理对应的学习矩阵和第j输入编码输入激活函数,得到第j输出编码,其中,当j=1时,所述第j输入编码为空;
将所述第j输出编码作为第j+1次图卷积处理的第j+1输入编码进行所述第j+1次图卷积处理,直至进行多次图卷积处理后,得到所述每个第二词语对应的图卷积向量。
6.根据权利要求4所述的方法,其特征在于,所述第二邻接矩阵和所述第一度矩阵之间满足以下公式:
Figure FDA0003514657620000031
其中,
Figure FDA0003514657620000032
表示所述第一度矩阵中第n行第n列的元素,
Figure FDA0003514657620000033
表示所述第二邻接矩阵中第n行第m列的元素,n、m为大于或等于1的整数。
7.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个第一词语对所述段落文本进行段落分割,得到第一子段落,包括:
对所述段落文本中的每个句子进行分词处理,得到至少一个词组;
对所述至少一个词组中的每个词组进行编码处理,得到所述每个句子的句子向量;
对所述至少一个第一词语进行所述编码处理,得到所述答案文本的文本向量;
对所述每个句子的句子向量与所述答案文本的文本向量之间进行相似度计算,得到所述每个句子对应的第二相似度;
根据所述每个句子对应的第二相似度在所述段落文本中确定第一语句和第二语句,其中,所述第一语句为所述段落文本中首次出现的第二相似度大于第一阈值的句子,所述第二语句为所述段落文本中末次出现的第二相似度大于所述第一阈值的句子;
将所述第一语句和所述第二语句之间的句子作为所述第一子段落。
8.一种基于答案指导的题目生成装置,其特征在于,所述装置装置:
分割模块,用于根据答案文本对应的段落文本对所述答案文本进行分词处理,得到至少一个第一词语,并根据所述至少一个第一词语对所述段落文本进行段落分割,得到第一子段落;
分析模块,用于根据所述至少一个第一词语对所述第一子字段落进行分析处理,得到至少一个第二词语,其中,所述至少一个第二词语中的每个第二词语包括标记信息,所述标记信息用于标识对应的第二词语所属的对象,并对所述至少一个第二词语进行依存分析,得到关系图,其中,所述关系图用于标识所述每个第二词语之间的关系;
编码模块,用于根据所述关系图对所述每个第二词语进行图卷积编码,得到至少一个图卷积向量,其中,所述至少一个图卷积向量与所述至少一个第二词语一一对应,并对所述每个第二词语进行编码处理,得到至少一个词向量和至少一个编码向量,其中,所述编码向量为对所述每个第二词语的标记信息进行所述编码处理得到的,所述至少一个词向量和所述至少一个第二词语一一对应,所述至少一个编码向量和所述至少一个第二词语一一对应;
生成模块,用于根据所述至少一个图卷积向量、所述至少一个词向量和所述至少一个编码向量进行多次词语生成处理,得到至少一个第三词语,并将所述至少一个第三词语按照所述至少一个第三词语中每个第三词语的生成时间进行拼接,得到所述答案文本对应的题目。
9.一种电子设备,其特征在于,包括处理器、存储器、通信接口以及一个或多个程序,其中,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述一个或多个程序包括用于执行权利要求1-7任一项方法中的步骤的指令。
10.一种可读计算机存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。
CN202210164199.6A 2022-02-22 2022-02-22 基于答案指导的题目生成方法、装置、设备及存储介质 Active CN114564562B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210164199.6A CN114564562B (zh) 2022-02-22 2022-02-22 基于答案指导的题目生成方法、装置、设备及存储介质
PCT/CN2022/090421 WO2023159753A1 (zh) 2022-02-22 2022-04-29 基于答案指导的题目生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210164199.6A CN114564562B (zh) 2022-02-22 2022-02-22 基于答案指导的题目生成方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114564562A true CN114564562A (zh) 2022-05-31
CN114564562B CN114564562B (zh) 2024-05-14

Family

ID=81713271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210164199.6A Active CN114564562B (zh) 2022-02-22 2022-02-22 基于答案指导的题目生成方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN114564562B (zh)
WO (1) WO2023159753A1 (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271646A (zh) * 2018-09-04 2019-01-25 腾讯科技(深圳)有限公司 文本翻译方法、装置、可读存储介质和计算机设备
CN111368304A (zh) * 2020-03-31 2020-07-03 绿盟科技集团股份有限公司 一种恶意样本类别检测方法和装置及设备
CN112183085A (zh) * 2020-09-11 2021-01-05 杭州远传新业科技有限公司 机器阅读理解方法、装置、电子设备及计算机存储介质
WO2021184311A1 (zh) * 2020-03-19 2021-09-23 中山大学 一种自动生成可推理问答的方法和装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509411B (zh) * 2017-10-10 2021-05-11 腾讯科技(深圳)有限公司 语义分析方法和装置
US11481418B2 (en) * 2020-01-02 2022-10-25 International Business Machines Corporation Natural question generation via reinforcement learning based graph-to-sequence model
CN111831789B (zh) * 2020-06-17 2023-10-24 广东工业大学 一种基于多层语义特征提取结构的问答文本匹配方法
CN111814982B (zh) * 2020-07-15 2021-03-16 四川大学 面向多跳问答的动态推理网络系统及方法
CN113254616B (zh) * 2021-06-07 2021-10-19 佰聆数据股份有限公司 面向智能问答系统的句向量生成方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271646A (zh) * 2018-09-04 2019-01-25 腾讯科技(深圳)有限公司 文本翻译方法、装置、可读存储介质和计算机设备
WO2021184311A1 (zh) * 2020-03-19 2021-09-23 中山大学 一种自动生成可推理问答的方法和装置
CN111368304A (zh) * 2020-03-31 2020-07-03 绿盟科技集团股份有限公司 一种恶意样本类别检测方法和装置及设备
CN112183085A (zh) * 2020-09-11 2021-01-05 杭州远传新业科技有限公司 机器阅读理解方法、装置、电子设备及计算机存储介质

Also Published As

Publication number Publication date
WO2023159753A1 (zh) 2023-08-31
CN114564562B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
CN111737476B (zh) 文本处理方法、装置、计算机可读存储介质及电子设备
WO2022007823A1 (zh) 一种文本数据处理方法及装置
CN110704576B (zh) 一种基于文本的实体关系抽取方法及装置
CN112015859A (zh) 文本的知识层次抽取方法及装置、计算机设备及可读介质
CN113792112A (zh) 视觉语言任务处理系统、训练方法、装置、设备及介质
WO2021051574A1 (zh) 英文文本序列标注方法、系统及计算机设备
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
US11651015B2 (en) Method and apparatus for presenting information
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN114358203A (zh) 图像描述语句生成模块的训练方法及装置、电子设备
CN113806487A (zh) 基于神经网络的语义搜索方法、装置、设备和存储介质
CN112188311B (zh) 用于确定新闻的视频素材的方法和装置
CN114385780A (zh) 程序接口信息推荐方法、装置、电子设备和可读介质
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN115757731A (zh) 对话问句改写方法、装置、计算机设备及存储介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN111767720B (zh) 一种标题生成方法、计算机及可读存储介质
CN113505786A (zh) 试题拍照评判方法、装置及电子设备
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN116957006A (zh) 预测模型的训练方法、装置、设备、介质及程序产品
CN115544210A (zh) 基于持续学习的事件抽取的模型训练、事件抽取的方法
CN114564562A (zh) 基于答案指导的题目生成方法、装置、设备及存储介质
CN114417891A (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN115129858A (zh) 试题分类模型的训练方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant