CN118052225A - 一种研究问题短语抽取的方法、装置、设备及介质 - Google Patents
一种研究问题短语抽取的方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN118052225A CN118052225A CN202410223153.6A CN202410223153A CN118052225A CN 118052225 A CN118052225 A CN 118052225A CN 202410223153 A CN202410223153 A CN 202410223153A CN 118052225 A CN118052225 A CN 118052225A
- Authority
- CN
- China
- Prior art keywords
- phrase
- research
- question
- phrases
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011160 research Methods 0.000 title claims abstract description 274
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000000605 extraction Methods 0.000 claims abstract description 51
- 238000011156 evaluation Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 125000006850 spacer group Chemical group 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本申请实施例提供一种研究问题短语抽取的方法、装置、设备及介质,该方法包括:获取待抽取文献中的待抽取语步,其中,所述待抽取语步包括研究目的句和/或研究背景句;抽取所述待抽取语步中满足预设条件的目标研究问题句,其中,所述目标研究问题句用于表征所述待抽取文献的研究问题;基于所述目标研究问题句和所述待抽取文献的题目抽取目标研究问题短语。通过本申请的一些实施例能够从文献中确定精准的抽取范围,进而提高研究问题短语抽取的准确性。
Description
技术领域
本申请实施例涉及文献内容抽取领域,具体涉及一种研究问题短语抽取的方法、装置、设备及介质。
背景技术
相关技术中,通常采用命名实体识别模型(BIO标注)从文献摘要中抽取研究问题短语,从而没有考虑文献其他元数据信息以及文献中各元数据之间的联系。而且,利用命名实体识别模型抽取研究问题,不适用标注较长的实体,导致抽取的研究问题较多,并且研究问题较为分散,进而导致抽取研究问题短语的准确率降低且无法判断最主要研究问题短语。
因此,如何提高抽取研究问题短语的准确率成为需要解决的问题。
发明内容
本申请实施例提供一种研究问题短语抽取的方法、装置、设备及介质,通过本申请的一些实施例至少能够从文献中确定精准的抽取范围,进而提高研究问题短语抽取的准确性。
第一方面,本申请提供了一种研究问题短语抽取的方法,所述方法包括:获取待抽取文献中的待抽取语步,其中,所述待抽取语步包括研究目的句和/或研究背景句;抽取所述待抽取语步中满足预设条件的目标研究问题句,其中,所述目标研究问题句用于表征所述待抽取文献的研究问题;基于所述目标研究问题句和所述待抽取文献的题目抽取目标研究问题短语。
因此,与相关技术中直接使用模型进行研究问题短语抽取的方法不同的是,本申请实施例通过缩小抽取范围以及在高针对性的目标研究问题句中抽取目标研究问题短语,能够实现在小范围内抽取目标研究问题短语,从而保证抽取目标研究问题短语的准确性。
结合第一方面,在本申请的一种实施方式中,所述基于所述目标研究问题句和所述待抽取文献的题目抽取目标研究问题短语,包括:抽取所述目标研究问题句和所述题目的公共子序列,并且,分别抽取所述目标研究问题句和所述题目中预设类型的短语,获得短语集合;在所述公共子序列中查找所述短语集合中各短语出现的频率;按照所述频率提取预设数量的短语,作为种子短语集合;根据所述种子短语集合获得所述目标研究问题短语。
因此,本申请实施例通过确定各短语出现的频率以及抽取公共子序列,能够一步步的缩小抽取范围,从而保证目标研究问题短语的准确性。
结合第一方面,在本申请的一种实施方式中,在所述抽取所述目标研究问题句和所述题目的公共子序列之后,所述方法还包括:将所述公共子序列中包括的各子序列还原到所述目标研究问题句和所述题目中,获得与所述各子序列相应的词序列,获得词序列集合;所述在所述公共子序列中查找所述短语集合中各短语出现的频率,包括:在所述词序列集合中查找所述短语集合中各短语出现的频率。
因此,本申请实施例通过将各子序列还原到公共子序列中,能够在子序列是不完整的词的情况下,将其还原为完整、正确的语义表达,从而不保证目标研究问题短语的语法表达以及语义正确。
结合第一方面,在本申请的一种实施方式中,所述根据所述种子短语集合获得所述目标研究问题短语,包括:通过所述种子短语集合中的各种子短语之间的距离,从所述种子短语集合中选取备选种子短语;将所述备选种子短语还原到所述目标研究问题句和所述题目中进行延伸扩展,获得备选研究问题短语;从所述备选研究问题短语中选取所述目标研究问题短语。
因此,本申请实施例通过对备选种子短语进行扩展,能够防止抽取的研究问题短语过短的情况发生,从而保证目标研究问题短语的可读性。
结合第一方面,在本申请的一种实施方式中,所述通过所述种子短语集合中的各种子短语之间的距离,从所述种子短语集合中选取备选种子短语,包括:在所述各种子短语全部满足预设距离的情况下,将包含所述各种子短语的最短词序列作为所述备选种子短语;在所述各种子短语中的部分种子短语满足所述预设距离的情况下,将包含所述部分种子短语的最短词序列作为所述备选种子短语;在所述各种子短语均不全部满足预设距离的情况下,将所述各种子短语分别作为所述备选种子短语。
因此,本申请实施例通过多个词序列进行合并,能够保证抽取的研究问题短语不分散,将其整合在一起提高了研究问题短语中包含内容的有效性,以及提高了可读性。
结合第一方面,在本申请的一种实施方式中,所述从所述备选研究问题短语中选取所述目标研究问题短语,包括:按照预设长度、是否包含关键词和是否包含摘要中高频词的条件,对各备选研究问题短语进行评估,获得评估值;将所述评估值满足评估阈值的备选研究问题短语,作为所述目标研究问题短语。
因此,本申请实施例使用关键词和高频词对备选研究问题短语进行抽取,能够保证目标研究问题短语的针对性。
结合第一方面,在本申请的一种实施方式中,所述抽取所述待抽取语步中满足预设条件的目标研究问题句,包括:将所述待抽取语步输入到研究问题句识别模型中,通过所述研究问题句识别模型输出各语句属于研究问题类型的概率值;按照所述概率值确定所述目标研究问题句。
因此,本申请实施例通过概率值确定目标研究问题句能够保证抽取范围的准确,进而在准确的抽取范围内抽取研究问题短语能够保证目标研究问题短语的准确性。
第二方面,本申请提供了一种研究问题短语抽取的装置,所述装置包括:语步获取模块,被配置为获取待抽取文献中的待抽取语步,其中,所述待抽取语步包括研究目的句和/或研究背景句;语句抽取模块,被配置为抽取所述待抽取语步中满足预设条件的目标研究问题句,其中,所述目标研究问题句用于表征所述待抽取文献的研究问题;短语抽取模块,被配置为基于所述目标研究问题句和所述待抽取文献的题目抽取目标研究问题短语。
结合第二方面,在本申请的一种实施方式中,所述短语抽取模块还被配置为:抽取所述目标研究问题句和所述题目的公共子序列,并且,分别抽取所述目标研究问题句和所述题目中预设类型的短语,获得短语集合;在所述公共子序列中查找所述短语集合中各短语出现的频率;按照所述频率提取预设数量的短语,作为种子短语集合;根据所述种子短语集合获得所述目标研究问题短语。
结合第二方面,在本申请的一种实施方式中,所述短语抽取模块还被配置为:将所述公共子序列中包括的各子序列还原到所述目标研究问题句和所述题目中,获得与所述各子序列相应的词序列,获得词序列集合;在所述词序列集合中查找所述短语集合中各短语出现的频率。
结合第二方面,在本申请的一种实施方式中,所述短语抽取模块还被配置为:通过所述种子短语集合中的各种子短语之间的距离,从所述种子短语集合中选取备选种子短语;将所述备选种子短语还原到所述目标研究问题句和所述题目中进行延伸扩展,获得备选研究问题短语;从所述备选研究问题短语中选取所述目标研究问题短语。
结合第二方面,在本申请的一种实施方式中,所述短语抽取模块还被配置为:在所述各种子短语全部满足预设距离的情况下,将包含所述各种子短语的最短词序列作为所述备选种子短语;在所述各种子短语中的部分种子短语满足所述预设距离的情况下,将包含所述部分种子短语的最短词序列作为所述备选种子短语;在所述各种子短语均不全部满足预设距离的情况下,将所述各种子短语分别作为所述备选种子短语。
结合第二方面,在本申请的一种实施方式中,所述短语抽取模块还被配置为:按照预设长度、是否包含关键词和是否包含摘要中高频词的条件,对各备选研究问题短语进行评估,获得评估值;将所述评估值满足评估阈值的备选研究问题短语,作为所述目标研究问题短语。
结合第二方面,在本申请的一种实施方式中,所述短语抽取模块还被配置为:将所述待抽取语步输入到研究问题句识别模型中,通过所述研究问题句识别模型输出各语句属于研究问题类型的概率值;按照所述概率值确定所述目标研究问题句。
第三方面,本申请提供了一种电子设备,包括:处理器、存储器和总线;所述处理器通过所述总线与所述存储器相连,所述存储器存储有计算机程序,所述计算机程序由所述处理器执行时可实现如第一方面任意实施例所述的方法。
第四方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被执行时可实现如第一方面任意实施例所述的方法。
附图说明
图1为本申请实施例示出的研究问题短语抽取的场景组成示意图;
图2为本申请实施例示出的研究问题短语抽取的方法流程图之一;
图3为本申请实施例示出的研究问题短语抽取的方法流程图之二;
图4为本申请实施例示出的研究问题短语抽取的装置组成示意图;
图5为本申请实施例示出的一种电子设备组成示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对附图中提供的本申请的实施例的详情描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护范围。
本申请实施例可以应用于针对文献中的研究问题短语进行抽取的场景,为了改善背景技术中的问题,在本申请的一些实施例中,从摘要中抽取语步,包括:研究背景、研究目的、研究方法、研究结果与研究结论,从语步中抽取满足预设条件的目标研究问题句集合,从目标研究问题句集合与文献题目中抽取目标研究问题短语。
下面结合附图详细描述本申请实施例中的方法步骤。
图1提供了本申请一些实施例中的一种研究问题短语抽取的场景组成示意图,包括:用户110、客户端120以及服务器130。具体的,用户110在客户端120的显示界面中输入文献的题目、摘要和关键词,之后客户端120将题目、摘要和关键词发送到服务器130中,服务器130执行本申请中的研究问题短语抽取的方法,获得目标研究问题短语,并且将目标研究问题短语返回到客户端120的显示界面进行显示。
下面以服务器为例示例性阐述本申请一些实施例提供的一种研究问题短语抽取的方法。可以理解的是,本申请提供的一种研究问题短语抽取的方法的执行主体可以是任何能够执行上述方法的电子设备,服务器仅为示例,本申请不限于此。
至少为了解决背景技术中的问题,如图2所示,本申请一些实施例提供了一种研究问题短语抽取的方法,该方法包括:
S210,获取待抽取文献中的待抽取语步。
可以理解的是,待抽取文献的类型可以是论文文献,还可以是专利文献等,本申请对待抽取文献的类型不进行限制,文献(例如,科技文献)中的语步是指描述研究目的、方法、结果、结论等的句子。
需要说明的是,从研究问题短语在文献摘要中的分布来看。研究问题短语大多集中在文献题目、研究目的句以及研究背景句中,所以,本申请确定了研究问题短语的抽取范围。也就是说,待抽取语步就是本申请中研究问题短语的抽取范围,包括研究目的句和研究背景句,或者,待抽取语步包括研究目的句,或者,待抽取语步包括研究背景句。
在服务器获取到待抽取文献,或者获取到待抽取文献的摘要之后,对于文献摘要为明确标出研究背景、研究目的、研究方法、研究结果和研究结论等多个语步的结构化摘要,采用规则匹配的方式抽取表示各语步的句子。对于文献摘要为未明确表明上述多个语步类型的非结构化摘要,则应用语步识别模型,自动抽取文献摘要中的多个语步所对应的句子,选择语步识别后的结构化摘要中的研究背景句和研究目的句,作为待抽取语步。
S220,抽取待抽取语步中满足预设条件的目标研究问题句。
需要说明的是,目标研究问题句用于表征待抽取文献的研究问题。
也就是说,将S210中获得的待抽取语步输入到研究问题句识别模型中,从待抽取语步中进一步的抽取得到预测得分较高的研究问题句,作为目标研究问题句。具体的,由于使用研究问题句识别模型存在抽取不到研究问题句或者抽取到多余的研究问题句的情况出现,所以本申请在研究问题句识别模型加入为输出层各句进行预测得分的机制,在预测得分大于一定阈值的情况下,将其对应的句子确定为目标研究问题句,可以理解的是,目标研究问题句可以是一个集合,即目标研究问题句集合。
需要说明的是,满足预设条件即为句子的预测得分满足一定阈值,例如,当前输出层输出的句子的预测得分为70分,阈值为大于或等于60分,那么,就将该句子确定为目标研究问题句。
在本申请的一种实施方式中,首先,将待抽取语步输入到研究问题句识别模型中,通过研究问题句识别模型输出各语句属于研究问题类型的概率值,然后,按照概率值确定目标研究问题句。
也就是说,还可以使研究问题句识别模型确定输出层输出的各语句属于研究问题类型的概率值,之后将高于概率阈值的句子确定为目标研究问题句。
S230,基于目标研究问题句和待抽取文献的题目抽取目标研究问题短语。
也就是说,在语步识别与研究问题句抽取的基础上,进一步缩小了研究问题短语在摘要中的出现范围。下面将详细描述如何根据研究问题短语的组成与语法特征,从目标研究问题句与题目中截取备选研究问题短语,从而获得目标研究问题短语。
由于文献题目与文献的目标研究问题句通常存在大量的重复性描述,所以本申请使用目标研究问题句和题目共同来抽取目标研究问题短语。本申请通过定位题目与目标研究问题句中的若干连续公共子序列与直接抽取其中名词短语的方式,抽取研究问题的备选种子短语,并根据包含种子短语的若干完整名词短语及其扩展短语的语法结构、短语长度、是否包含关键词、是否包含摘要高频词等指标打分,选出得分最高的短语作为目标研究问题短语。
具体的,抽取目标研究问题短语的具体步骤如下所示:
S2301:抽取目标研究问题句和题目的公共子序列。
具体的,使用最长连续公共子序列算法(Longest Continuous CommonSubsequence,LCCS)从题目和目标研究问题句中,按照至少一个字符来查找公共子序列。在待抽取文献是英文的情况下,可以在目标研究问题句和题目中查找共同出现的连续字母来确定公共子序列,例如,目标研究问题句和题目同时存在“heal”,那么就将“heal”作为公共子序列,也就是说,由于英文文献中可能存在相同词根不同词性的变化,所以,本申请在待抽取文献是英文的情况下,使用字母来查找公共子序列,而不是使用单词来查找。在待抽取文献是中文的情况下,可以在目标研究问题句和题目中查找共同出现的至少一个字,确定公共子序列。
S2302:将公共子序列中包括的各子序列还原到目标研究问题句和题目中,获得与各子序列相应的词序列,获得词序列集合。
也就是说,由于公共子序列中包括的各子序列可能不是完整的单词,或者不是完整的中文词,所以,本申请在获得公共子序列之后,为了保证句子的完整性,将各子序列还原到目标研究问题句和题目的原文中,获得与其相应的完整词,获得词序列集合。例如,将“heal”还原到目标研究问题句中,获得“health”,将“health”作为词序列放入到词序列集合中。可以理解的是,词序列结合可以表示为SEQ={seq1,seq2,...,seqn}。
S2303:分别抽取目标研究问题句和题目中预设类型的短语,获得短语集合。
也就是说,预先设置短语集合的类型,预设类型可以是名词短语,例如,名词和动词组成的短语,名词和形容词组成的短语等。之后,查找目标研究问题句中预设类型的短语,并且查找题目中预设类型的短语,获得短语集合NP,可以表示为:NP={np1,np2,...,npn}。
S2304:在词序列集合中查找短语集合中各短语出现的频率。
也就是说,在获得公共子序列和短语集合之后,由于其中包括的各元素存在重复部分,因此,遍历短语集合中的各短语,之后查找各短语在词序列集合中出现的次数,换句话说,确定短语集合与词序列集合之间的交集。
S2305:按照频率提取预设数量的短语,作为种子短语集合。
也就是说,可以选取出现频率最高的N个短语,作为种子短语集合,例如,预设数量N可以是3个,或者,也可以是4个,本申请实施例对此不进行限制。
S2306:根据种子短语集合获得目标研究问题短语。
具体的,首先,通过种子短语集合中的各种子短语之间的距离,从种子短语集合中选取备选种子短语。
也就是说,为了防止短语被切分的过于分散,所以将距离较近的短语进行合并。种子短语之间的距离可以使用间隔词的数量进行表征,例如,可以设置预设距离为间隔两个词。
选取备选种子短语可以分为如下三种情况:
第一种情况:在各种子短语全部满足预设距离的情况下,将包含各种子短语的最短词序列作为备选种子短语。
各种子短语均间隔在预设距离之内,那么就说明各种子短语的距离很近,可以进行合并。在这种情况下,从原文句子中找到包含各种子短语最短的词序列,将其作为备选种子短语。例如,各种子短语包括:溶液制备研究,从原文句子中找到包含各种子短语最短的词序列为:溶液制备方法研究。
第二种情况:在各种子短语中的部分种子短语满足预设距离的情况下,将包含部分种子短语的最短词序列作为备选种子短语。
部分种子短语均间隔在预设距离之内,那么就说明该部分种子短语的距离很近,可以进行合并。可以理解的是,部分种子短语可以是两个种子短语或者三个种子短语,本申请在此不进行限定。也就是将部分种子短语进行合并之后的词序列,作为备选种子短语。
第三种情况:在各种子短语均不全部满足预设距离的情况下,将各种子短语分别作为备选种子短语。
各种子短语均不全部满足预设距离,说明这些种子短语的距离间隔都很远,在这种情况下,将每一个种子短语都作为备选种子短语。
可以理解的是,备选种子短语集合记为S={s1,s2,...,sn},concatenate(a,b)表示句子中包含种子短语a和b的最短词序列,distance(a,b)表示句子中a词与b词中间间隔词的个数,threshold表示预设距离,可以设置为2。
其中,Sn表示任意一个备选种子短语,npi表示任意一个种子短语,npj表示种子短语集合中除npi之外的任意一个其他的种子短语。
然后,将备选种子短语还原到目标研究问题句和题目中进行延伸扩展,获得备选研究问题短语。
也就是说,为了保证研究问题短语的可读性,将各备选种子短语还原到文献中进行扩展。具体的,向前扩展至最近的介词、连词、标点符号等为止,记为forward(s),向后扩展至最近的连词、介词、标点符号等,记为backward(s),并且既向前又向后扩展记为both(s)。所有扩展后的结果作为备选研究问题短语,记为B={b1,b2,...,bn}。
bi={forward(si),backward(si),both(si)}
其中,bi表示任意一个备选研究问题短语。
最后,从备选研究问题短语中选取目标研究问题短语。
也就是说,本申请设计备选研究问题短语选取机制,赋予具备合适长度,将包含关键词与摘要中高频词的备选研究问题短语赋予高分。
具体的,首先,按照预设长度、是否包含关键词和是否包含摘要中高频词的条件,对各备选研究问题短语进行评估,获得评估值。
然后,将评估值满足评估阈值的备选研究问题短语,作为目标研究问题短语。
作为本申请一具体实施例,按照预设长度评估:通过统计发现文献标题的平均长度为17个词,赋予长度小于标题平均长度40%的备选研究问题短语11分,赋予长度小于标题平均长度50%的备选研究问题短语10分,赋予长度小于标题平均长度60%的备选研究问题短语8分,赋予长度小于标题平均长度70%的备选研究问题短语5分,其余长度的备选研究问题短语1分。
按照关键词与高频词重叠程度评估:将文献中给出的关键词与统计得到的非停用词高频词与备选研究问题短语对比,若二者有非停用词重叠部分,则一次匹配则得1分,否则不得分。
之后可以按照评估得分,取评估得分最高的一个或者两个作为目标研究问题短语。
可以理解的是,在获得目标研究问题短语之后,可以应用于后续文献检索、文献分析中,例如,检索包含特定研究问题的文献、根据目标研究问题短语对文献进行聚类等过程。
作为本申请一具体实施例,如图3所示,开始之后,获取文献元数据,其中包括文献题目、文献摘要和关键词。针对于关键词,在存在关键词的情况下,直接获取文献关键词,在不存在关键词的情况下,需要先使用文献摘要进行关键词的抽取,从而获得文献关键词。针对于文献摘要,先抽取待抽取语步,之后进行目标研究问题句识别,最后进行名词短语抽取;同时还需要针对文献摘要进行高频词根抽取操作,获得高频词根。针对于文献题目直接进行名词短语抽取。之后使用基于名词短语生成种子名词短语,进而生成备选研究问题短语集合。最后,通过关键词与高频词重叠性得分,以及备选短语长度得分,来选取目标研究问题短语。
作为本申请另一具体实施例,为了不断修改完善研究问题短语抽取效果,本申请构建了研究问题短语抽取过程展示工具,用于展示研究问题短语抽取的全过程,便于发现研究问题短语抽取中存在的问题。工具界面最左边一列展示文献经语步识别后的结构化摘要与文献的ID,用以回溯研究问题短语的出处;中间一列展示从语步中抽取的目标研究问题句;最右边一列展示从目标研究问题句中抽取的目标研究问题短语与其他备选短语及得分。展示页面含有检索功能,能够通过索引从多篇文献中检索某主题下的所有研究问题短语。
进一步的,研究问题短语抽取工具能够在语步识别的基础上,从科技文献摘要的研究背景与研究目的语步中,抽取研究问题短语。在抽取过程中,给抽取到的研究问题短语打分,展示得分前二的研究问题短语供用户选择,从而帮助用户更快定位摘要中的重要研究问题。
为了验证研究问题短语抽取结果的正确性,邀请4位相关人员参与100篇随机抽取的文摘数据的研究问题短语标注工作。向参与标注的相关人员说明了研究问题短语的人工标注规则如下:
1)研究问题短语是描述论文拟解决的主要科学问题或研究的主要目的的短语。
2)研究问题短语是论文题目或摘要中的名词性短语或名词性短语的组合。
3)研究问题短语需要从论文题目或摘要中节选出连续不断的片段。
4)每篇论文需要从文摘数据中选出2条研究问题短语。
5)若存在多条研究问题短语,则选出其中最重要的2条。
通过人工校验,分析人工标注的研究问题短语与规则抽取的研究问题短语的匹配程度。设置“完全匹配”、“部分匹配”、“少量匹配”、“不匹配”四个评价等级。其中“完全匹配”代表人工标注的研究问题短语与规则抽取的研究问题短语除少量介词、连词或其他无意义词外,内容完全一致;“部分匹配”指人工标注的研究问题短语与规则抽取的研究问题短语重叠度较高,且不重叠部分不影响研究问题的整体含义;“少量匹配”指人工标注的研究问题短语与规则抽取的研究问题短语仅有少部分交叉重叠,研究问题的整体含义已经改变;“不匹配”指人工标注的研究问题短语与规则抽取的研究问题短语完全不一样。
经过统计,“完全匹配”的研究问题短语占48%,“部分匹配”的研究问题短语占25%,“少量匹配”的研究问题短语占23%,“不匹配”的研究问题短语占4%。
根据评价等级描述,“完全匹配”与“部分匹配”的研究问题短语能够反映出文献的主要研究问题,可以认为符合研究问题短语的抽取标准。本申请提出的研究问题短语抽取方法的整体正确率为90%。
上文描述了一种研究问题短语抽取的方法的实施方式,下文将描述一种研究问题短语抽取的装置。
如图4所示,本申请的一些实施例提供一种研究问题短语抽取的装置400,该装置包括:语步获取模块410、语句抽取模块420以及短语抽取模块430。
语步获取模块410,被配置为获取待抽取文献中的待抽取语步,其中,所述待抽取语步包括研究目的句和/或研究背景句;语句抽取模块420,被配置为抽取所述待抽取语步中满足预设条件的目标研究问题句,其中,所述目标研究问题句用于表征所述待抽取文献的研究问题;短语抽取模块430,被配置为基于所述目标研究问题句和所述待抽取文献的题目抽取目标研究问题短语。
在本申请的一种实施方式中,所述短语抽取模块430还被配置为:抽取所述目标研究问题句和所述题目的公共子序列,并且,分别抽取所述目标研究问题句和所述题目中预设类型的短语,获得短语集合;在所述公共子序列中查找所述短语集合中各短语出现的频率;按照所述频率提取预设数量的短语,作为种子短语集合;根据所述种子短语集合获得所述目标研究问题短语。
在本申请的一种实施方式中,所述短语抽取模块430还被配置为:将所述公共子序列中包括的各子序列还原到所述目标研究问题句和所述题目中,获得与所述各子序列相应的词序列,获得词序列集合;在所述词序列集合中查找所述短语集合中各短语出现的频率。
在本申请的一种实施方式中,所述短语抽取模块430还被配置为:通过所述种子短语集合中的各种子短语之间的距离,从所述种子短语集合中选取备选种子短语;将所述备选种子短语还原到所述目标研究问题句和所述题目中进行延伸扩展,获得备选研究问题短语;从所述备选研究问题短语中选取所述目标研究问题短语。
在本申请的一种实施方式中,所述短语抽取模块430还被配置为:在所述各种子短语全部满足预设距离的情况下,将包含所述各种子短语的最短词序列作为所述备选种子短语;在所述各种子短语中的部分种子短语满足所述预设距离的情况下,将包含所述部分种子短语的最短词序列作为所述备选种子短语;在所述各种子短语均不全部满足预设距离的情况下,将所述各种子短语分别作为所述备选种子短语。
在本申请的一种实施方式中,所述短语抽取模块430还被配置为:按照预设长度、是否包含关键词和是否包含摘要中高频词的条件,对各备选研究问题短语进行评估,获得评估值;将所述评估值满足评估阈值的备选研究问题短语,作为所述目标研究问题短语。
在本申请的一种实施方式中,所述短语抽取模块430还被配置为:将所述待抽取语步输入到研究问题句识别模型中,通过所述研究问题句识别模型输出各语句属于研究问题类型的概率值;按照所述概率值确定所述目标研究问题句。
在本申请实施例中,图4所示模块能够实现图1、图2和图3方法实施例中的各个过程。图4中的各个模块的操作和/或功能,分别为了实现图1、图2和图3中的方法实施例中的相应流程。具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。
如图5所示,本申请实施例提供一种电子设备500,包括:处理器510、存储器520和总线530,所述处理器通过所述总线与所述存储器相连,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,用于实现如上述所有实施例中任一项所述的方法,具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。
其中,总线用于实现这些组件直接的连接通信。其中,本申请实施例中处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。存储器中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,可以执行上述实施例中所述的方法。
可以理解,图5所示的结构仅为示意,还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被服务器执行时实现上述所有实施方式中任一所述的方法,具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种研究问题短语抽取的方法,其特征在于,所述方法包括:
获取待抽取文献中的待抽取语步,其中,所述待抽取语步包括研究目的句和/或研究背景句;
抽取所述待抽取语步中满足预设条件的目标研究问题句,其中,所述目标研究问题句用于表征所述待抽取文献的研究问题;
基于所述目标研究问题句和所述待抽取文献的题目抽取目标研究问题短语。
2.根据权利要求1所述的方法,其特征在于,所述基于所述目标研究问题句和所述待抽取文献的题目抽取目标研究问题短语,包括:
抽取所述目标研究问题句和所述题目的公共子序列,并且,分别抽取所述目标研究问题句和所述题目中预设类型的短语,获得短语集合;
在所述公共子序列中查找所述短语集合中各短语出现的频率;
按照所述频率提取预设数量的短语,作为种子短语集合;
根据所述种子短语集合获得所述目标研究问题短语。
3.根据权利要求2所述的方法,其特征在于,在所述抽取所述目标研究问题句和所述题目的公共子序列之后,所述方法还包括:
将所述公共子序列中包括的各子序列还原到所述目标研究问题句和所述题目中,获得与所述各子序列相应的词序列,获得词序列集合;
所述在所述公共子序列中查找所述短语集合中各短语出现的频率,包括:
在所述词序列集合中查找所述短语集合中各短语出现的频率。
4.根据权利要求2或3所述的方法,其特征在于,所述根据所述种子短语集合获得所述目标研究问题短语,包括:
通过所述种子短语集合中的各种子短语之间的距离,从所述种子短语集合中选取备选种子短语;
将所述备选种子短语还原到所述目标研究问题句和所述题目中进行延伸扩展,获得备选研究问题短语;
从所述备选研究问题短语中选取所述目标研究问题短语。
5.根据权利要求4所述的方法,其特征在于,所述通过所述种子短语集合中的各种子短语之间的距离,从所述种子短语集合中选取备选种子短语,包括:
在所述各种子短语全部满足预设距离的情况下,将包含所述各种子短语的最短词序列作为所述备选种子短语;
在所述各种子短语中的部分种子短语满足所述预设距离的情况下,将包含所述部分种子短语的最短词序列作为所述备选种子短语;
在所述各种子短语均不全部满足预设距离的情况下,将所述各种子短语分别作为所述备选种子短语。
6.根据权利要求4所述的方法,其特征在于,所述从所述备选研究问题短语中选取所述目标研究问题短语,包括:
按照预设长度、是否包含关键词和是否包含摘要中高频词的条件,对各备选研究问题短语进行评估,获得评估值;
将所述评估值满足评估阈值的备选研究问题短语,作为所述目标研究问题短语。
7.根据权利要求1所述的方法,其特征在于,所述抽取所述待抽取语步中满足预设条件的目标研究问题句,包括:
将所述待抽取语步输入到研究问题句识别模型中,通过所述研究问题句识别模型输出各语句属于研究问题类型的概率值;
按照所述概率值确定所述目标研究问题句。
8.一种研究问题短语抽取的装置,其特征在于,所述装置包括:
语步获取模块,被配置为获取待抽取文献中的待抽取语步,其中,所述待抽取语步包括研究目的句和/或研究背景句;
语句抽取模块,被配置为抽取所述待抽取语步中满足预设条件的目标研究问题句,其中,所述目标研究问题句用于表征所述待抽取文献的研究问题;
短语抽取模块,被配置为基于所述目标研究问题句和所述待抽取文献的题目抽取目标研究问题短语。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线;
所述处理器通过所述总线与所述存储器相连,所述存储器存储有计算机程序,所述计算机程序由所述处理器执行时可实现如权利要求1-7任一项所述方法。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被执行时可实现如权利要求1-7任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410223153.6A CN118052225A (zh) | 2024-02-28 | 2024-02-28 | 一种研究问题短语抽取的方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410223153.6A CN118052225A (zh) | 2024-02-28 | 2024-02-28 | 一种研究问题短语抽取的方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118052225A true CN118052225A (zh) | 2024-05-17 |
Family
ID=91047911
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410223153.6A Pending CN118052225A (zh) | 2024-02-28 | 2024-02-28 | 一种研究问题短语抽取的方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118052225A (zh) |
-
2024
- 2024-02-28 CN CN202410223153.6A patent/CN118052225A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gupta et al. | A survey of text question answering techniques | |
EP0751469B1 (en) | Automatic method of extracting summarization using feature probabilities | |
US6876998B2 (en) | Method for cross-linguistic document retrieval | |
US11182435B2 (en) | Model generation device, text search device, model generation method, text search method, data structure, and program | |
JP4754247B2 (ja) | 複合語を構成する単語を割り出す装置及びコンピュータ化された方法 | |
Sakuntharaj et al. | Use of a novel hash-table for speeding-up suggestions for misspelt Tamil words | |
KR100999488B1 (ko) | 문서 표절 탐색 방법 및 장치 | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
Atia et al. | Increasing the accuracy of opinion mining in Arabic | |
JP2008282366A (ja) | 質問応答装置、質問応答方法、質問応答プログラム並びにそのプログラムを記録した記録媒体 | |
Fahda et al. | A statistical and rule-based spelling and grammar checker for Indonesian text | |
KR20130045547A (ko) | 작문 자동 평가를 위한 예제기반 오류 검출 시스템 및 방법 | |
CN115794995A (zh) | 目标答案获取方法及相关装置、电子设备和存储介质 | |
Arslan | DeASCIIfication approach to handle diacritics in Turkish information retrieval | |
Ashna et al. | Lexicon based sentiment analysis system for malayalam language | |
Fachrurrozi et al. | Frequent term based text summarization for bahasa indonesia | |
JP6108212B2 (ja) | 同義語抽出システム、方法およびプログラム | |
Wilbur et al. | Spelling correction in the PubMed search engine | |
Kosinov | Evaluation of N-grams Conflation Approach in Text-Based Information Retrieval. | |
JP2004355550A (ja) | 自然文検索装置、その方法及びプログラム | |
JP2002278949A (ja) | 表題生成装置及び方法 | |
Marcińczuk et al. | Statistical proper name recognition in Polish economic texts | |
CN118052225A (zh) | 一种研究问题短语抽取的方法、装置、设备及介质 | |
Ahmed et al. | Gold dataset for the evaluation of bangla stemmer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |