CN109271642A - 文本要点检测方法、装置、设备、存储介质及评估方法 - Google Patents

文本要点检测方法、装置、设备、存储介质及评估方法 Download PDF

Info

Publication number
CN109271642A
CN109271642A CN201811419916.5A CN201811419916A CN109271642A CN 109271642 A CN109271642 A CN 109271642A CN 201811419916 A CN201811419916 A CN 201811419916A CN 109271642 A CN109271642 A CN 109271642A
Authority
CN
China
Prior art keywords
text
information
detected
unit
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811419916.5A
Other languages
English (en)
Other versions
CN109271642B (zh
Inventor
李松
汪洋
盛志超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201811419916.5A priority Critical patent/CN109271642B/zh
Publication of CN109271642A publication Critical patent/CN109271642A/zh
Application granted granted Critical
Publication of CN109271642B publication Critical patent/CN109271642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请提供了一种文本要点检测方法、装置、设备、存储介质及评估方法,文本要点检测方法包括:获取指定主题的待检测文本;确定待检测文本中每个文本单元对应的文本表征信息,其中,一个文本单元为待检测文本中的一个或多个句子,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息;基于待检测文本中每个文本单元对应的文本表征信息,确定待检测文本中每个文本单元对应的要点信息,得到整个待检测文本的要点信息。本申请提供的文本要点检测方案不但可以自动从待检测文本中检测出要点信息,而且要点信息的检测正确率较高。

Description

文本要点检测方法、装置、设备、存储介质及评估方法
技术领域
本申请涉及信息检测技术领域,尤其涉及一种文本要点检测方法、装置、设备、存储介质及评估方法。
背景技术
在某些应用领域,需要对文本进行评阅,传统的评阅方式为人工评阅,然而,在某些时候,需要评阅的文本往往很多,人工评阅耗时、耗力,且评阅结果极易受主观因素的影响。
鉴于人工评阅方式所存在的问题,出现了文本的自动评阅技术,目前的自动评阅技术主要是基于用词水平和语句连贯性对待评阅文本进行评阅,然而,这种评阅方式对于主题要点部分缺失、但整体呈较高语言表达水准的文本,无法给出客观的评阅结果,为了能够对文本给出客观的评阅结果,亟需一种能够从文本中检测出要点的方案,以便结合文本要点对文本给出客观的评阅结果。
发明内容
有鉴于此,本申请提供了一种文本要点检测方法、装置、设备、存储介质及评估方法,以从待检测文本中检测出文本要点,其技术方案如下:
一种文本要点检测方法,包括:
获取指定主题的待检测文本;
确定所述待检测文本中每个文本单元对应的文本表征信息,其中,一个文本单元为所述待检测文本中的一个或多个句子,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息;
基于所述待检测文本中每个文本单元对应的文本表征信息,确定所述待检测文本中每个文本单元对应的要点信息,得到整个所述待检测文本的要点信息。
其中,获得所述待检测文本中的每个文本单元,包括:
对所述待检测文本的文本内容进行分词、分句处理,分词、分句处理后得到多个句子;
将每一句子,或者,每一句子组作为一文本单元,得到所述待检测文本中的每个文本单元,其中,一个句子组包括多个连续句子。
可选的,所述确定所述待检测文本中每个文本单元对应的要点表征信息,包括:
通过预先建立的文本要点检测模型,确定所述待检测文本中每个文本单元对应的文本向量,其中,一个文本单元对应的文本向量包含该文本单元对应的句法结构信息和主题词信息;
所述基于所述待检测文本中每个文本单元对应的要点表征信息,确定所述待检测文本中每个文本单元对应的要点信息,包括:
以所述待检测文本中每个文本单元对应的文本向量通过所述文本要点检测模型,确定所述待检测文本中每个文本单元对应的要点信息;
其中,所述文本要点检测模型以标注有要点信息的训练文本训练得到,所述训练文本为所述指定主题的文本,所述训练文本以文本单元为单位进行要点信息标注。
可选的,所述通过预先建立的文本要点检测模型,确定所述待检测文本中每个文本单元对应的文本向量,包括:
通过所述文本要点检测模型中的信息确定模块,确定所述待检测文本中每个文本单元对应的句法结构信息和主题词信息;
通过所述文本要点检测模型中的文本表征模块,基于所述待检测文本中每个文本单元对应的句法结构信息和主题词信息,生成所述待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本向量。
可选的,所述通过所述文本要点检测模型中的信息确定模块,确定所述待检测文本中每个文本单元对应的句法结构信息和主题词信息,包括:
对于所述待检测文本中的任一文本单元,通过所述文本要点检测模型中的信息确定模块,确定该文本单元中每个词在该本文单元所隶属的文本片段,获得多个文本片段,基于获得的多个文本片段以及每个文本片段中所包含的词获得该文本单元对应的句法结构信息和主题词信息。
可选的,所述文本要点检测模型为基于强化学习思想训练得到的模型,所述文本要点检测模型的训练过程包括:
获取标注有要点信息的训练文本;
将所述训练文本中的每个文本单元输入所述文本要点检测模型进行训练,以使所述文本要点检测模型针对所述训练文本中的每个文本单元,从该文本单元中挖掘出句法结构信息,并在确定该文本单元对应的文本向量时,将从该文本单元中挖掘出的句法结构信息整合至该文本单元对应的文本向量中,基于整合有句法结构信息的文本向量进行要点分类,所述文本要点检测模型的输出为所述训练文本中每个文本单元对应的要点分类结果,所述文本要点检测模型的训练目标为提升所述训练文本中每个文本单元的要点分类正确率。
一种文本评估方法,包括:
基于上述的文本要点检测方法检测待评估文本的要点信息;
基于所述待评估文本的要点信息对所述待评估文本进行评估。
一种文本要点检测装置,包括:文本获取模块、文本表征模块和要点确定模块;
所述文本获取模块,用于获取指定主题的待检测文本;
所述文本表征模块,用于确定所述待检测文本中每个文本单元对应的文本表征信息,其中,一个文本单元为所述待检测文本中的一个或多个句子,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息;
所述要点确定模块,用于基于所述待检测文本中每个文本单元对应的文本表征信息,确定所述待检测文本中每个文本单元对应的要点信息,得到整个所述待检测文本的要点信息。
一种文本要点检测设备,包括
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,所述程序具体用于:
获取指定主题的待检测文本;
确定所述待检测文本中每个文本单元对应的文本表征信息,其中,一个文本单元为所述待检测文本中的一个或多个句子,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息;
基于所述待检测文本中每个文本单元对应的文本表征信息,确定所述待检测文本中每个文本单元对应的要点信息,得到整个所述待检测文本的要点信息。
一种可读存储介质,所述计算机程序被处理器执行时,实现所述文本要点检测方法的各个步骤。
上述技术方案具有如下有益效果:
本申请实施例提供的文本要点检测方法、装置、设备、存储介质,在获得指定主题的待检测文本后,可确定待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本表征信息,由于文本表征信息所包含的句法结构信息和主题词信息为要点检测提供了丰富的信息量,因此,基于待检测文本中每个文本单元对应的文本表征信息可准确确定出待检测文本中每个文本单元对应的要点信息,进而可得到整个待检测文本的要点信息。由此可见,本实施例提供的文本要点检测方法能够基于待检测文本中每个文本单元对应的句法结构信息和主题词信息自动准确地检测出待检测文本的要点信息,检测出的要点可作为后续对文本进行评估或批改的依据。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的文本要点检测方法的流程示意图;
图2为本申请实施例提供的通过文本要点检测模型确定待检测文本的要点信息的实现过程的流程示意图;
图3为本申请实施例提供的文本要点检测模型的拓扑结构的一示例的示意图;
图4为本申请实施例提供的文本要点检测装置的结构示意图;
图5为本申请实施例提供的文本要点检测设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了实现文本的要点检测,本案发明人进行了深入研究:
初始阶段的思路是,采用基于监督的要点检测方案,然而,基于监督的要点检测方案存在如下问题:
基于监督的要点检测方案在模型选择正确且数据量足够大的时候能有较好表现,但模型往往只学习到单词或者短语级别的信息,而实际上,文本中句法结构信息也是很重要的一部分,若要将句法结构信息嵌入到句子向量中,对训练文本中每个句子的句法结构信息进行正确的人工标注是必不可少的一个环节,考虑到有些文本中有些句子的句法结构不明显,对句子进行句法结构信息标注必然耗费大量的时间和人力。
鉴于上述问题,发明人继续进行深入研究,最终提出了一种解决方案,完美解决了上述研发过程中各个问题。接下来通过下述实施例对本申请提供的文本要点检测方法进行介绍。
请参阅图1,示出了本申请实施例提供的文本要点检测方法的流程示意图,该方法可以包括:
步骤S101:获取指定主题的待检测文本。
其中,待检测文本可以为指定主题的考试作文、简答、辩论等文本,待检测文本可以为中文、英文等各种语种类型的文本。
其中,待检测文本可以为基于输入设备输入而获得的电子文本文档,也可以为从包含文字内容的图像中,通过图像处理及文字识别等技术获得的文本,其中,包含文字内容的图像可以但不限为对纸质文本采用扫描、拍照等方式获得的图像,另外,待检测文本还可以为对音频数据进行转写得到的文本。
步骤S102:确定待检测文本中每个文本单元对应的文本表征信息。
其中,一个文本单元为待检测文本中的一个或多个句子。
在本实施例中,获得待检测文本中每个文本单元的过程可以包括:对待检测文本的文本内容进行分句处理,分句处理后得到多个句子;将每一句子,或者,每一句子组作为一文本单元,得到待检测文本中的每个文本单元,其中,一个句子组包括多个连续句子。
需要说明的是,若待检测文本为对包含文字内容的图像经文字识别等技术获得的文本,则待检测文本可能存在文本内容错误识别粘连在一起的情况,比如包含英文作文的图像经文字识别获得的文本可能存在单词错误识别粘连在一起的情况,为了使错误识别粘连在一起的单词得到正确区分,避免由此导致的OOV(out of vocabulary)问题,本实施例在对待检测文本进行分句之前,首先对待检测文本进行分词处理,分词后再进一步进行分句处理。当然,若待检测文本不存在上述情况,则只需对待检测文本进行分句处理。
一个文本单元对应的文本表征信息能够对该文本单元进行表征,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息。其中,一个文本单元对应的句法结构信息能够反映出该文本单元是否符合一定的语法,一个文本单元对应的主题词信息用于指示该文本单元是出现指定主题的主题词。
需要说明的是,主题词的出现与否很大程度上决定着要点是否被涵盖,比如要点“对足球课的看法”,如果一学生的作文中连足球这一主题词都未出现过,则可以直接判定该作文缺失要点,但作文中出现足球这一主题词也并非就能断言该要点被正确阐述,文本中可能写的是“足球技巧”或者“足球赛”相关信息,此时,如果能从更深层面即待检测文本中各文本单元的句法结构信息对各文本单元进行要点分析,相比于单一的主题词将能得到更多的信息量,从而能够更正确的分析出要点。
步骤S103:基于待检测文本中每个文本单元对应的文本表征信息,确定待检测文本中每个文本单元对应的要点信息,得到整个待检测文本的要点信息。
由于一个文本单元对应的文本表征信息中包含了与要点相关的句法结构信息和主题词信息,因此,基于该文本单元对应的文本表征信息可确定出该文本单元对应的要点信息。
本申请实施例提供的文本要点检测方法,在获得指定主题的待检测文本后,可确定待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本表征信息,由于文本表征信息所包含的句法结构信息和主题词信息为要点检测提供了丰富的信息量,因此,基于待检测文本中每个文本单元对应的文本表征信息可准确确定出待检测文本中每个文本单元对应的要点信息,进而可得到整个待检测文本的要点信息。由此可见,本实施例提供的文本要点检测方法能够基于待检测文本中每个文本单元对应的句法结构信息和主题词信息自动准确地检测出待检测文本的要点信息,检测出的要点可作为后续对文本进行评估或批改的依据。
在本申请的另一实施例中,对“步骤S102:确定待检测文本中每个文本单元对应的文本表征信息”和“步骤S103:基于待检测文本中每个文本单元对应的文本表征信息,确定待检测文本中每个文本单元对应的要点信息,得到整个待检测文本的要点信息”进行介绍。
在本实施例中,确定待检测文本中每个文本单元对应的要点表征信息的过程可以包括:将待检测文本中的每个文本单元输入预先建立的文本要点检测模型,通过文本要点检测模型,确定待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本向量。则基于待检测文本中每个文本单元对应的要点表征信息,确定待检测文本中每个文本单元对应的要点信息,包括:以待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本向量通过文本要点检测模型,确定待检测文本中每个文本单元对应的要点信息。即,将待检测文本中的每个文本单元输入预先建立的文本要点检测模型,便可获得文本要点检测模型输出的、各文本单元对应的要点信息,待检测文本中所有文本单元对应的要点信息组成整个待检测文本的要点信息。
其中,文本要点检测模型以标注有要点信息的训练文本训练得到,训练文本为指定主题的文本,训练文本以文本单元为单位进行要点信息标注。需要说明的是,本实施例针对不同主题的文本,需要标注不同的训练数据进行训练,以得到针对不同主题的文本要点检测模型。比如,对于主题a,需要获取主题a对应的文本,对其采用主题a对应的要点信息进行标注,将标注有主题a对应的要点信息的文本作为训练文本训练搭建好的模型,从而得到主题a对应的文本要点检测模型,同样地,对于主题b,需要获取主题b对应的文本,对其采用主题b对应的要点信息进行标注,将标注有主题b对应的要点信息的文本作为训练文本训练搭建好的模型,从而得到主题b对应的文本要点检测模型,当需要对主题a对应的待检测文本进行要点检测时,将待检测文本输入主题a对应的文本要点检测模型,从而获得主题a对应的待检测文本的要点信息,同样地,当需要对主题b对应的待检测文本进行要点检测时,将待检测文本输入主题b对应的文本要点检测模型,从而获得主题b对应的待检测文本的要点信息。
需要说明的是,本实施例采用的是基于弱监督学习的文本要点检测模型,即文本要点检测模型的训练数据只需要针对各文本单元标注要点信息,而不需标注句法结构信息,文本要点检测模型基于训练数据学习各文本单元的句法结构信息,根据各文本单元的要点分类的正确率来对句法结构信息进行弱监督训练。
本实施例基于弱监督学习的模型与基于有监督学习的模型的区别在于,基于有监督学习的模型有明确的目标,模型的整个迭代流程都是向这个目标靠近,比如,有监督学习的评分模型的目标就是文本标注的评分,模型所做的就是使其输出尽可能与文本标注的评分接近。而本实施例中基于弱监督学习的模型没有明确的目标,因为训练文本中各文本单元对应的句法信息没有显式地体现出来,基于此,本实施例可采用强化学习的思想,强化学习的任务是便是从已有数据中挖掘出句法结构信息,可以认为除了与要点强相关的主题词之外,模型对一个文本单元的语法结构识别越准确、就能为要点判别提供更丰富的信息量,进而模型的最终要点分类结果也就越准确,模型的分类结果越准确,反过来也就说明通过强化学习思想习得的句法结构信息越准确,因此,整个模型的收敛目标就是提升文本单元的要点分类正确率。
具体地,文本要点检测模型的训练过程包括:获取标注有要点信息的训练文本;将训练文本中的每个文本单元输入文本要点检测模型进行训练,以使文本要点检测模型针对训练文本中的每个文本单元,从该文本单元中挖掘出句法结构信息,并在确定该文本单元对应的文本向量时,将从该文本单元中挖掘出的句法结构信息整合至该文本单元对应的文本向量中,基于整合有句法结构信息的文本向量进行要点分类,文本要点检测模型的输出为训练文本中每个文本单元对应的要点分类结果,文本要点检测模型的训练目标为提升训练文本中每个文本单元的要点分类正确率。
在一种可能的实现方式中,本实施例提供的文本要点检测模型可以包括:信息确定模块、文本表征模块和要点分类模块,请参阅图2,示出了通过该文本要点检测模型确定待检测文本的要点信息的实现过程的流程示意图,可以包括:
步骤S201:通过文本要点检测模型中的信息确定模块,确定待检测文本中每个文本单元对应的句法结构信息和主题词信息。
具体地,对于待检测文本中的任一文本单元,通过文本要点检测模型中的信息确定模块,确定该文本单元中每个词在该本文单元所隶属的文本片段,获得多个文本片段,基于获得的多个文本片段以及每个文本片段中所包含的词获得该文本单元对应的句法结构信息和主题词信息。
步骤S202:通过文本要点检测模型中的文本表征模块,基于待检测文本中每个文本单元对应的句法结构信息和主题词信息,生成待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本向量。
具体的,针对待检测文本中的任一文本单元,在通过文本要点检测模型中的文本表征模块生成该文本单元对应的文本向量时,将该文本单元对应的句法结构信息和主题词信息整合至文本向量中,以获得该文本单元对应的包含句法结构信息和主题词信息的文本向量。
步骤S203:通过文本要点检测模型中的要点分类模块,通过待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本向量,确定待检测文本中每个文本单元对应的要点信息。
请参阅3,示出了本实施例提供的文本要点检测模型的拓扑结构的一示例的示意图,图3中的301为信息确定模块,302为文本表征模块、303为要点分类模模块。
其中,文本表征模块302可以为长短期记忆网络(Long Short-Term Memory,LSTM),LSTM通过时序地读入文本单元中的词,根据信息确定模块301的输出结果对文本单元进行语义切分。其中,当前状态向量st由LSTM上一单元的记忆状态ct-1、隐层状态ht-1和当前输入词表示xt连接而成;记忆状态ct-1贯穿整个LSTM时序链条,让文本单元中的信息以不变的方式向下流动,主要保存着当前位置之前所有输入的信息;隐层状态ht-1建立在记忆状态的基础上,后接一个sigmoid层来决定单元状态中哪些部分需要输出,对应至本申请,可以认为记忆状态保存着起始点至当前位置的所有词的信息,隐层状态则是记忆状态中与当前位置语法结构相关的部分。
其中,信息确定模块301根据当前状态向量st决定t时刻的动作at,需要说明的是,动作分两种,其一,该词属于目前的文本片段,其二,开始一个新的文本片段。下述例句阐述了动作at的实际操作:
输入:It was my present|that my parents give me|on the New Year's Day.
动作:I I I E I I I I E I I I I I E
其中,I表示动作inside,即前面的短语片段在该单词得到继续,E表示动作end,即前面短语片段在该单词结束,下个单词开始新的短语片段。上述例句在经过模型之后被正确划分为了三个短语片段,由此可获得该句子的句法结构信息。
信息确定模块301、文本表征模块302和要点分类模块303协同训练时的数据流向为:连接当前输入xt、上一单元记忆状态ct-1和上一单元隐层状态ht-1得到当前状态向量st,此时,数据信息确定模块301得到当前的最优动作at;at流回文本表征模块302,根据at、ht-1和ct-1得到当前状态ht和ct,继而得到下一时刻的状态st+1。重复以上步骤遍历整个文本单元得到LSTM最终的隐层输出hL,最终的句法结构信息隐式地体现在LSTM最终隐层的输出中,hL即为包含句法结构信息和主题词信息的文本向量,将该文本向量输入最终的要点分类模块303,得到文本单元对应的要点信息,并且,将分类的损失函数作为反馈传回前部分用于信息确定模块301和文本表征模块302,如此,整个模型就能联动训练起来。
需要说明的是,强化学习思想的关键要素包括:状态(state)、动作(action)以及执行动作所得到的奖赏(reward)。模型依据策略(policy)对每个状态都会给出相应的动作,根据这个动作模型将转移至下一个状态。模型在做出一系列决策之后达到最终状态,并能得到一个即时的或者延时的反馈,即最终的奖赏。对应到本申请的要点检测任务上,模型分别预测每个单词所在的文本片段(如英文单词所在的短语片段),“状态”要素由模型上一节点的记忆状态、隐层状态和当前输入所拼接得到,即上述的st。“策略”根据当前的“状态”决定这一步的“动作”,“动作”即判别当前词是属于目前的文本片段,还是开始一个新的文本片段,即上述at,整段话的语法结构在该要素上得到体现。在遍历整个文本单元后得到具有句法结构信息的文本向量表示hL,后接一个全连接层对该文本向量进行分类,分类的正确与否就是整个强化学习网络的最终延时“奖赏”。
另外,需要说明的是,本实施例中的一个文本单元可以为一个句子,即可以单个句子为粒度进行要点检测,发明人在实现发明的过程中发现,一些文本如学生的作文往往存在句子依赖和多要点的问题,以单句为粒度进行要点检测可能很难检测出要点,有鉴于此,可以两句为粒度进行要点检测(一个文本单元为连续的两个句子),即,在对待检测文本进行检测时,以两个句子为粒度输入模型进行检测,模型最终输出的要点可能为多个。相应的,在对模型的训练数据进行标注时,以两句为粒度采用多标签进行标注。当然,本实施例并不限定以单个句子或两个句子为粒度进行要点检测,还可基于实际检测需求以三个句子或更多个句子为粒度进行要点检测。
本申请实施例提供的文本要点检测方法采用基于强化学习思想的文本要点检测模型对待检测文本进行要点信息检测,强化学习思想相当于通过要点相关的标签数据对句法结构信息进行弱监督训练,一方面将句法信息整合至文本向量,为要点分类提供更多的信息量,另一方面很好的解决了句法结构信息标注困难的问题,并且,本申请实施例提供的文本要点检测方法具有较高的检测正确度,本案发明人采用本申请实施例提供的文本要点检测方法对社团兴趣主题作文(该主题的作文包括四个要点,四个要点包括3类社团描述和自己的建议)进行要点检测时,句子级要点检测正确率达86%,高于无强化学习的正确率(无强化学习的正确率为84.2%),篇章级的要点遗漏召回率达97.5%,效果良好。
本申请实施例还提供了一种文本评估方法,该方法可以包括:采用上述实施例提供的文本要点检测方法检测待评估文本的要点信息;基于待评估文本的要点信息对待评估文本进行评估。
本申请实施例提供的文本评估方法可获得待评估文本的要点信息,进而基于待评估文本的要点信息对待评估文本进行评估,由此可见,本申请实施例提供的文本评估方法可自动、客观地对待评估文本进行评估,自动对待评估文本进行评估避免了现有技术中人工评估方式耗时耗力、评估结果受主观因素影响的问题,基于要点信息对文本进行评估避免了目前已有的一些评估方式对于文本要点部分缺失、但整体呈较高语言表达水准的文本,无法给出客观评估结果的问题。
本申请实施例还提供了一种文本要点检测装置,请参阅图4,示出了该文本要点检测装置的结构示意图,可以包括:文本获取模块401、文本表征模块402和要点确定模块403。其中:
文本获取模块401,用于获取指定主题的待检测文本。
文本表征模块402,用于确定所述待检测文本中每个文本单元对应的文本表征信息。
其中,一个文本单元为所述待检测文本中的一个或多个句子,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息。
要点确定模块403,用于基于待检测文本中每个文本单元对应的文本表征信息,确定待检测文本中每个文本单元对应的要点信息,得到整个待检测文本的要点信息。
本申请实施例提供的文本要点检测装置,在获得指定主题的待检测文本后,可确定待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本表征信息,由于文本表征信息所包含的句法结构信息和主题词信息为要点检测提供了丰富的信息量,因此,基于待检测文本中每个文本单元对应的文本表征信息可准确确定出待检测文本中每个文本单元对应的要点信息,进而可得到整个待检测文本的要点信息。由此可见,本实施例提供的文本要点检测装置能够基于待检测文本中每个文本单元对应的句法结构信息和主题词信息自动准确地检测出待检测文本的要点信息,检测出的要点可作为后续对文本进行评估或批改的依据。
上述实施例提供的文本要点检测装置还可以包括:预处理模块。
预处理模块,用于对所述待检测文本的文本内容进行分词、分句处理,分词、分句处理后得到多个句子,将每一句子,或者,每一句子组作为一文本单元,得到待检测文本中的每个文本单元,其中,一个句子组包括多个连续句子。
在一种可能的实现方式中,上述实施例提供的文本要点检测装置中的文本表征模块402,具体用于通过预先建立的文本要点检测模型,确定所述待检测文本中每个文本单元对应的文本向量。
其中,一个文本单元对应的文本向量包含该文本单元对应的句法结构信息和主题词信息;
则要点确定模块403,具体用于以所述待检测文本中每个文本单元对应的文本向量通过所述文本要点检测模型,确定所述待检测文本中每个文本单元对应的要点信息。
其中,所述文本要点检测模型以标注有要点信息的训练文本训练得到,所述训练文本为所述指定主题的文本,所述训练文本以文本单元为单位进行要点信息标注。
在一种可能的实现方式中,上述实施例提供的文本要点检测装置中的文本表征模块402,具体用于通过所述文本要点检测模型中的信息确定部分,确定所述待检测文本中每个文本单元对应的句法结构信息和主题词信息;通过所述文本要点检测模型中的文本表征部分,基于所述待检测文本中每个文本单元对应的句法结构信息和主题词信息,生成所述待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本向量。
在一种可能的实现方式中,上述实施例提供的文本要点检测装置中的文本表征模块402,在通过所述文本要点检测模型中的信息确定部分,确定所述待检测文本中每个文本单元对应的句法结构信息和主题词信息时,具体用于:对于所述待检测文本中的任一文本单元,通过所述文本要点检测模型中的信息确定模块,确定该文本单元中每个词在该本文单元所隶属的文本片段,获得多个文本片段,基于获得的多个文本片段以及每个文本片段中所包含的词获得该文本单元对应的句法结构信息和主题词信息。
在一种可能的实现方式中,上述实施例中的文本要点检测模型为基于强化学习思想训练得到的模型。上述实施例中的文本要点检测装置还包括:模型训练模块。
模型训练模块,具体用于获取标注有要点信息的训练文本;将所述训练文本中的每个文本单元输入所述文本要点检测模型进行训练,以使所述文本要点检测模型针对所述训练文本中的每个文本单元,从该文本单元中挖掘出句法结构信息,并在确定该文本单元对应的文本向量时,将从该文本单元中挖掘出的句法结构信息整合至该文本单元对应的文本向量中,基于整合有句法结构信息的文本向量进行要点分类,所述文本要点检测模型的输出为所述训练文本中每个文本单元对应的要点分类结果,所述文本要点检测模型的训练目标为提升所述训练文本中每个文本单元的要点分类正确率。
本申请实施例还提供了一种文本要点检测设备,请参阅图5,示出了该文本要点检测设备的结构示意图,该设备可以包括:存储器501和处理器502。
存储器501,用于存储程序;
处理器502,用于执行所述程序,所述程序具体用于:
获取指定主题的待检测文本;
确定所述待检测文本中每个文本单元对应的文本表征信息,其中,一个文本单元为所述待检测文本中的一个或多个句子,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息;
基于所述待检测文本中每个文本单元对应的文本表征信息,确定所述待检测文本中每个文本单元对应的要点信息,得到整个所述待检测文本的要点信息。
文本要点检测设备还包括:总线、通信接口503等。
处理器502、存储器501、通信接口503通过总线相互连接。其中:
总线可包括一通路,在计算机系统各个部件之间传送信息。
处理器502可以是通用处理器,例如通用中央处理器(CPU)、微处理器等,也可以是特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
处理器502可包括主处理器,还可包括基带芯片、调制解调器等。
存储器501中保存有执行本发明技术方案的程序,还可以保存有操作系统和其他关键业务。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。更具体的,存储器501可以包括只读存储器(read-only memory,ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory,RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
通信接口503可包括使用任何收发器一类的装置,以便与其他设备或通信网络通信,如以太网,无线接入网(RAN),无线局域网(WLAN)等。
处理器502执行存储器501中所存放的程序,以及调用其他设备,可用于实现本发明实施例所提供的文本要点检测方法的各个步骤。
本申请实施例还提供了一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现上述任一实施例提供的文本要点检测方法的各个步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和设备,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种文本要点检测方法,其特征在于,包括:
获取指定主题的待检测文本;
确定所述待检测文本中每个文本单元对应的文本表征信息,其中,一个文本单元为所述待检测文本中的一个或多个句子,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息;
基于所述待检测文本中每个文本单元对应的文本表征信息,确定所述待检测文本中每个文本单元对应的要点信息,得到整个所述待检测文本的要点信息。
2.根据权利要求1所述的文本要点检测方法,其特征在于,获得所述待检测文本中的每个文本单元,包括:
对所述待检测文本的文本内容进行分词、分句处理,分词、分句处理后得到多个句子;
将每一句子,或者,每一句子组作为一文本单元,得到所述待检测文本中的每个文本单元,其中,一个句子组包括多个连续句子。
3.根据权利要求1所述的文本要点检测方法,其特征在于,所述确定所述待检测文本中每个文本单元对应的要点表征信息,包括:
通过预先建立的文本要点检测模型,确定所述待检测文本中每个文本单元对应的文本向量,其中,一个文本单元对应的文本向量包含该文本单元对应的句法结构信息和主题词信息;
所述基于所述待检测文本中每个文本单元对应的要点表征信息,确定所述待检测文本中每个文本单元对应的要点信息,包括:
以所述待检测文本中每个文本单元对应的文本向量通过所述文本要点检测模型,确定所述待检测文本中每个文本单元对应的要点信息;
其中,所述文本要点检测模型以标注有要点信息的训练文本训练得到,所述训练文本为所述指定主题的文本,所述训练文本以文本单元为单位进行要点信息标注。
4.根据权利要求3所述的文本要点检测方法,其特征在于,所述通过预先建立的文本要点检测模型,确定所述待检测文本中每个文本单元对应的文本向量,包括:
通过所述文本要点检测模型中的信息确定模块,确定所述待检测文本中每个文本单元对应的句法结构信息和主题词信息;
通过所述文本要点检测模型中的文本表征模块,基于所述待检测文本中每个文本单元对应的句法结构信息和主题词信息,生成所述待检测文本中每个文本单元对应的、包含句法结构信息和主题词信息的文本向量。
5.根据权利要求4所述的文本要点检测方法,其特征在于,所述通过所述文本要点检测模型中的信息确定模块,确定所述待检测文本中每个文本单元对应的句法结构信息和主题词信息,包括:
对于所述待检测文本中的任一文本单元,通过所述文本要点检测模型中的信息确定模块,确定该文本单元中每个词在该本文单元所隶属的文本片段,获得多个文本片段,基于获得的多个文本片段以及每个文本片段中所包含的词获得该文本单元对应的句法结构信息和主题词信息。
6.根据权利要求3~5中任意一项所述的文本要点检测方法,其特征在于,所述文本要点检测模型为基于强化学习思想训练得到的模型,所述文本要点检测模型的训练过程包括:
获取标注有要点信息的训练文本;
将所述训练文本中的每个文本单元输入所述文本要点检测模型进行训练,以使所述文本要点检测模型针对所述训练文本中的每个文本单元,从该文本单元中挖掘出句法结构信息,并在确定该文本单元对应的文本向量时,将从该文本单元中挖掘出的句法结构信息整合至该文本单元对应的文本向量中,基于整合有句法结构信息的文本向量进行要点分类,所述文本要点检测模型的输出为所述训练文本中每个文本单元对应的要点分类结果,所述文本要点检测模型的训练目标为提升所述训练文本中每个文本单元的要点分类正确率。
7.一种文本评估方法,其特征在于,包括:
基于权利要求1~6中任意一项所述的文本要点检测方法检测待评估文本的要点信息;
基于所述待评估文本的要点信息对所述待评估文本进行评估。
8.一种文本要点检测装置,其特征在于,包括:文本获取模块、文本表征模块和要点确定模块;
所述文本获取模块,用于获取指定主题的待检测文本;
所述文本表征模块,用于确定所述待检测文本中每个文本单元对应的文本表征信息,其中,一个文本单元为所述待检测文本中的一个或多个句子,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息;
所述要点确定模块,用于基于所述待检测文本中每个文本单元对应的文本表征信息,确定所述待检测文本中每个文本单元对应的要点信息,得到整个所述待检测文本的要点信息。
9.一种文本要点检测设备,其特征在于,包括
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,所述程序具体用于:
获取指定主题的待检测文本;
确定所述待检测文本中每个文本单元对应的文本表征信息,其中,一个文本单元为所述待检测文本中的一个或多个句子,一个文本单元对应的文本表征信息包含该文本单元对应的句法结构信息和主题词信息;
基于所述待检测文本中每个文本单元对应的文本表征信息,确定所述待检测文本中每个文本单元对应的要点信息,得到整个所述待检测文本的要点信息。
10.一种可读存储介质,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至6中任一项所述的文本要点检测方法的各个步骤。
CN201811419916.5A 2018-11-26 2018-11-26 文本要点检测方法、装置、设备、存储介质及评估方法 Active CN109271642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811419916.5A CN109271642B (zh) 2018-11-26 2018-11-26 文本要点检测方法、装置、设备、存储介质及评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811419916.5A CN109271642B (zh) 2018-11-26 2018-11-26 文本要点检测方法、装置、设备、存储介质及评估方法

Publications (2)

Publication Number Publication Date
CN109271642A true CN109271642A (zh) 2019-01-25
CN109271642B CN109271642B (zh) 2023-05-30

Family

ID=65190764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811419916.5A Active CN109271642B (zh) 2018-11-26 2018-11-26 文本要点检测方法、装置、设备、存储介质及评估方法

Country Status (1)

Country Link
CN (1) CN109271642B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881694A (zh) * 2020-08-05 2020-11-03 科大讯飞股份有限公司 篇章要点检测方法、装置、设备及存储介质
CN112633283A (zh) * 2021-03-08 2021-04-09 广州市玄武无线科技股份有限公司 一种英文邮件地址的识别与翻译方法及系统
CN112989042A (zh) * 2021-03-15 2021-06-18 平安科技(深圳)有限公司 热点话题的提取方法、装置、计算机设备及存储介质
JP2022010403A (ja) * 2019-02-08 2022-01-14 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140279763A1 (en) * 2013-03-18 2014-09-18 Educational Testing Service System and Method for Automated Scoring of a Summary-Writing Task
CN107544956A (zh) * 2016-06-24 2018-01-05 科大讯飞股份有限公司 一种文本要点检测方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140279763A1 (en) * 2013-03-18 2014-09-18 Educational Testing Service System and Method for Automated Scoring of a Summary-Writing Task
CN107544956A (zh) * 2016-06-24 2018-01-05 科大讯飞股份有限公司 一种文本要点检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王凯等: "融合上下文依赖和句子语义的事件线索检测研究", 《计算机科学与探索》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022010403A (ja) * 2019-02-08 2022-01-14 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
JP7258988B2 (ja) 2019-02-08 2023-04-17 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
CN111881694A (zh) * 2020-08-05 2020-11-03 科大讯飞股份有限公司 篇章要点检测方法、装置、设备及存储介质
CN112633283A (zh) * 2021-03-08 2021-04-09 广州市玄武无线科技股份有限公司 一种英文邮件地址的识别与翻译方法及系统
CN112989042A (zh) * 2021-03-15 2021-06-18 平安科技(深圳)有限公司 热点话题的提取方法、装置、计算机设备及存储介质
CN112989042B (zh) * 2021-03-15 2024-03-15 平安科技(深圳)有限公司 热点话题的提取方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN109271642B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN109271642A (zh) 文本要点检测方法、装置、设备、存储介质及评估方法
CN109523194B (zh) 汉语阅读能力测评方法、装置及可读存储介质
Bahr et al. Linguistic pattern analysis of misspellings of typically developing writers in grades 1–9
Maxwell et al. School readiness assessment
US8888493B2 (en) Reading level assessment method, system, and computer program product for high-stakes testing applications
Hayes et al. Spelling of deaf children who use cochlear implants
AU2016243058A1 (en) System and method for adaptive assessment and training
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN108319581B (zh) 一种自然语言语句评价方法及装置
CN117480543A (zh) 自动生成基于段落的项目以用于测试或评估的系统和方法
CN113157899B (zh) 一种大数据画像分析方法、服务器及可读存储介质
Yu An organic syntactic complexity measure for the Chinese language: The TC-unit
Nguyen Text as social and cultural data: a computational perspective on variation in text
Wacholder et al. Annotating multiparty discourse: Challenges for agreement metrics
Liu et al. Data correction and evolution analysis of the ProgrammableWeb service ecosystem
Zhao et al. Relationship between vocabulary knowledge and reading comprehension in deaf and hard of hearing students
Kitto et al. Towards more replicable content analysis for learning analytics
Yang et al. Automated evaluation of the quality of ideas in compositions based on concept maps
Halimi et al. Semantic web based learning styles identification for social learning environments personalization
Valtolina et al. Design of a conversational recommender system in education
Carrió Pastor et al. A proposal for the tagging of grammatical and pragmatic errors
Azman et al. A framework for automatic analysis of essays based on idea mining
CN110827794B (zh) 语音识别中间结果的质量评测方法和装置
Guitart et al. Opinion mining on educational resources at the open university of Catalonia
CN112381712A (zh) 图片处理方法、装置、计算机可读存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant