CN108319581B - 一种自然语言语句评价方法及装置 - Google Patents
一种自然语言语句评价方法及装置 Download PDFInfo
- Publication number
- CN108319581B CN108319581B CN201710041094.0A CN201710041094A CN108319581B CN 108319581 B CN108319581 B CN 108319581B CN 201710041094 A CN201710041094 A CN 201710041094A CN 108319581 B CN108319581 B CN 108319581B
- Authority
- CN
- China
- Prior art keywords
- sentence
- statement
- quality evaluation
- word
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种自然语言语句评价方法及装置,其中方法包括:获取待评价的自然语言语句;提取所述语句的语句质量评价特征,其中所述语句质量评价特征包括语句语义特征和\或语句描述特征,所述语句语义特征根据所述语句中包含的词语的词向量得到,所述语句描述特征根据所述语句的结构及所述语句的内容得到;根据所述语句的语句质量评价特征及预先构建的语句质量评价模型,获取所述语句的质量评价结果。本发明提出了语句质量评价特征的概念,通过自动提取的语句质量评价特征及预先构建的语句质量评价模型,可以自动得到该语句的质量评价结果,不需要人工参与,大大提高了语句评价时的效率和准确度,也使得语句质量的评价结果也较客观。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种自然语言语句评价方法及装置。
背景技术
近年来,随着信息技术的迅猛发展,教育信息化也在不断推进,教育行业开始大步进入信息化时代。例如,自动阅卷系统越来越多的应用于各种考试中,以对考生的试卷进行自动评判。试卷中经常包括作文,而作文的自动评价是自动阅卷系统的主要难点之一,质量好的作文需要有质量好的句子来支撑,所以对作文进行评价时首先需要考察作文中每句文本的质量,换句话说,对句子的评价是实现作文评价的基础。该如何针对单句文本数据进行质量评价对于自动阅卷系统来说是非常迫切的需求。
发明人在实现本发明的过程中发现,现有的句子质量评价方法一般是人工查看相应句子内容后,给出相应句子质量评价结果,例如对学生作文中句子进行评价时,需要老师查看相应句子内容后,给出句子质量评价结果。然而,当需要评价的句子数量过多时,人工工作量较大,句子质量评价效率很低;并且评价结果主观性较大,不同人对同一句文本数据的理解往往存在差异,导致评价结果不够客观。
发明内容
本发明提供一种自然语言语句评价方法及装置,以提高对语句进行评价时的效率及客观性。
根据本发明实施例的第一方面,提供一种自然语言语句评价方法,所述方法包括:
获取待评价的自然语言语句;
提取所述语句的语句质量评价特征,其中所述语句质量评价特征包括语句语义特征和\或语句描述特征,所述语句语义特征根据所述语句中包含的词语的词向量得到,所述语句描述特征根据所述语句的结构及所述语句的内容得到;
根据所述语句的语句质量评价特征及预先构建的语句质量评价模型,获取所述语句的质量评价结果。
可选的,提取所述语句的语句语义特征,包括:
计算所述语句中每个词语的词向量;
将所述每个词语的词向量作为预先构建的语句语义模型的输入,并将所述语句语义模型结构中最后一个隐层的输出作为所述语句语义特征。
可选的,所述语句的语句描述特征包括以下特征中的一种或多种:
语句长度、语句中错词数、语句中高级词汇占比、语句中高级搭配数、语句是否使用特殊句式、语句的语言模型得分;其中,所述语句中高级搭配数是指所述语句中各词语能够组合出的所有搭配中属于高级搭配的数量;所述语句的语言模型得分是指根据语言模型得到的语句整体得分。
可选的,
提取语句中高级搭配数,包括:
通过将所述语句中每个词语与所述语句中的其它一个或多个词语按照出现在所述语句中的顺序进行搭配,得到所述语句中各词语能够组合出的所有搭配;
统计所述所有搭配中出现在预先建立的高级搭配表中的数量以得到所述语句中高级搭配数;
提取语句的语言模型得分,包括:
根据预先训练得到的语言模型获取所述语句中每个词语的语言模型得分;
计算所述语句中所有词语的语言模型得分的平均值,并将所述平均值作为所述语句的语言模型得分。
可选的,所述语句质量评价模型使用回归模型,所述语句的质量评价结果为所述语句的质量得分;
或者,
所述语句质量评价模型使用分类模型,所述语句的质量评价结果为所述语句的质量等级。
可选的,获取所述语句的质量评价结果之后,所述方法还包括:
获取一篇文本中每个语句或指定语句的质量评价结果;
根据所述每个语句或指定语句的质量评价结果,获取所述文本的评价结果。
根据本发明实施例的第二方面,提供一种自然语言语句评价装置,所述装置包括:
语句获取模块,用于获取待评价的自然语言语句;
评价特征提取模块,用于提取所述语句的语句质量评价特征,其中所述语句质量评价特征包括语句语义特征和\或语句描述特征,所述语句语义特征根据所述语句中包含的词语的词向量得到,所述语句描述特征根据所述语句的结构及所述语句的内容得到;
评价结果获取模块,用于根据所述语句的语句质量评价特征及预先构建的语句质量评价模型,获取所述语句的质量评价结果。
可选的,当所述语句质量评价特征包括语句语义特征时,所述评价特征提取模块用于:
计算所述语句中每个词语的词向量;
将所述每个词语的词向量作为预先构建的语句语义模型的输入,并将所述语句语义模型结构中最后一个隐层的输出作为所述语句语义特征。
可选的,所述语句的语句描述特征包括以下特征中的一种或多种:
语句长度、语句中错词数、语句中高级词汇占比、语句中高级搭配数、语句是否使用特殊句式、语句的语言模型得分;其中,所述语句中高级搭配数是指所述语句中各词语能够组合出的所有搭配中属于高级搭配的数量;所述语句的语言模型得分是指根据语言模型得到的语句整体得分。
可选的,
所述评价特征提取模块用于提取语句中高级搭配数时,用于:
通过将所述语句中每个词语与所述语句中的其它一个或多个词语按照出现在所述语句中的顺序进行搭配,得到所述语句中各词语能够组合出的所有搭配;
统计所述所有搭配中出现在预先建立的高级搭配表中的数量以得到所述语句中高级搭配数;
所述评价特征提取模块用于提取语句的语言模型得分时,用于:
根据预先训练得到的语言模型获取所述语句中每个词语的语言模型得分;
计算所述语句中所有词语的语言模型得分的平均值,并将所述平均值作为所述语句的语言模型得分。
可选的,所述语句质量评价模型使用回归模型,所述语句的质量评价结果为所述语句的质量得分;
或者,
所述语句质量评价模型使用分类模型,所述语句的质量评价结果为所述语句的质量等级。
可选的,所述装置还包括:
文本评价模块,用于获取一篇文本中每个语句或指定语句的质量评价结果;根据所述每个语句或指定语句的质量评价结果,获取所述文本的评价结果。
本发明实施例提供的技术方案可以包括以下有益效果:
在本发明实施例中,对于一条语句,提出了语句质量评价特征的概念,语句质量评价特征包括语句语义特征和\或语句描述特征,语句语义特征根据所述语句中包含的词语的词向量得到,语句描述特征根据所述语句的结构及所述语句的内容得到,通过自动提取的语句质量评价特征及预先构建的语句质量评价模型,可以自动得到该语句的质量评价结果(如质量评分或质量等级),不需要人工参与,大大提高了语句评价时的效率和准确度,而且由于是基于客观参数给出的评价结果,所以可以避免人为主观性的影响,使得语句质量的评价结果也较客观。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。此外,这些介绍并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明一示例性实施例示出的一种自然语言语句评价方法的流程图;
图2是根据本发明一示例性实施例示出的一种自然语言语句评价方法的流程图;
图3是根据本发明一示例性实施例示出的一种自然语言语句评价方法的流程图;
图4是根据本发明一示例性实施例示出的一种自然语言语句评价方法的流程图;
图5是根据本发明一示例性实施例示出的一种自然语言语句评价装置的示意图;
图6是根据本发明一示例性实施例示出的一种自然语言语句评价装置的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据本发明一示例性实施例示出的一种自然语言语句评价方法的流程图。作为示例该方法可用于手机、平板电脑、台式机电脑、笔记本电脑、服务器等设备。
参见图1所示,该方法可以包括如下步骤:
步骤S101,获取待评价的自然语言语句。
自然语言语句例如可以是中文语句,也可是英文语句,等等,对此本实施例并不进行限制。对于本文中的语句(以下也可称为句子),可以是长句子(例如以句号、问号、分号或叹号等结尾),也可以是短句子(例如以顿号、逗号等结尾),对此本实施例也并不进行限制。
在实际应用中,可以将一篇文本(例如一篇作文)中的每个语句或指定语句作为待评价语句。
步骤S102,提取所述语句的语句质量评价特征,其中所述语句质量评价特征包括语句语义特征和\或语句描述特征,所述语句语义特征根据所述语句中包含的词语的词向量得到,所述语句描述特征根据所述语句的结构及所述语句的内容得到。
对于具体如何得到语句语义特征或语句描述特征,本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行选择、设计,可以在此处使用的这些选择和设计都没有背离本发明的精神和保护范围。
步骤S103,根据所述语句的语句质量评价特征及预先构建的语句质量评价模型,获取所述语句的质量评价结果。
具体应用时,所述语句质量评价模型的输入可以为一个语句的语句质量评价特征,输出为该语句的质量评价结果。
参见图2所示,在本实施例或本发明其他某些实施例中,提取所述语句的语句语义特征,可以包括:
步骤S201,计算所述语句中每个词语的词向量。
作为示例,词向量的计算方法可以采用word2vec技术,利用word2vec得到语句中每个词语的词向量。容易理解的是,对于中文句子,需要先对句子进行分词,得到每个词后,再计算词向量;而对于英文句子则可以直接计算每个词的词向量。
步骤S202,将所述每个词语的词向量作为预先构建的语句语义模型的输入,并将所述语句语义模型结构中最后一个隐层的输出作为所述语句语义特征。
其中最后一个隐层也即语句语义模型输出层的前一层。作为示例,所述语句语义模型可以通过深度学习的方法构建得到,其模型结构可以为神经网络中的一种或多种组合,如卷积神经网络、循环神经网络、长短时记忆神经网络等神经网络结构中的一种或多种组合。
在本实施例或本发明其他某些实施例中,所述语句的语句描述特征可以包括以下特征中的一种或多种:
语句长度、语句中错词数、语句中高级词汇占比、语句中高级搭配数、语句是否使用特殊句式、语句的语言模型得分;其中,所述语句中高级搭配数是指所述语句中各词语能够组合出的所有搭配中属于高级搭配的数量;所述语句的语言模型得分是指根据语言模型得到的语句整体得分。
作为示例,具体来讲:
1)语句长度
所述语句长度是指语句中包含的词语数,对于中文语句,直接统计分词后的词语总数即可;对于英文语句,直接统计空格隔开的单词数即可。
2)语句中错词数
所述语句中错词数是指语句中出现的错误词语数。可以根据当前语句中每个词的上下文判断每个词是否是错词,统计错词数;或者根据词典判断当前语句中的词是否是错词,统计相应错词数即可。
3)语句中高级词汇占比
所述语句中高级词汇占比是指当前语句中所使用的高级词汇数与当前语句中词总数的比值。具体提取时,可以先根据应用需求预先建立一个高级词汇表,然后通过判断当前语句中的每个词语是否是高级词汇表中词来确定当前语句中包含的高级词汇数,再计算所述高级词汇数与语句中词语总数的比值即可得。
4)语句中高级搭配数
所述语句中高级搭配数是指当前语句中各词语能够组合出的所有搭配中属于高级搭配的总数。例如参见图3所示,提取语句中高级搭配数,可以包括如下步骤:
步骤S301,通过将所述语句中每个词语与所述语句中的其它一个或多个词语按照出现在所述语句中的顺序进行搭配,得到所述语句中各词语能够组合出的所有搭配;
步骤S302,统计所述所有搭配中出现在预先建立的高级搭配表中的数量以得到所述语句中高级搭配数。
举例来讲,假设当前语句为“He always gives me a hand when I am introuble”,那么依次将语句中每个词与语句中的其它各词按照出现在所述语句中的顺序搭配后,统计出现在高级搭配表中的词语搭配数,例如可发现词语搭配“gives me a hand”和“in trouble”属于高级搭配,那么当前语句的高级搭配数便为2。
5)语句是否使用特殊句式
对于哪种句式属于特殊句式可以根据应用需求预先确定,本实施例并不进行限制,如中文语句的句式按照表达语气可分为陈述句、疑问句、祈使句、感叹句,那么可以将疑问句、祈使句及感叹句作为特殊句式;英文中特殊句式则可以为从句、倒装句、省略句及并列句等。具体检测时,可以采用规则的方法或采用模型预测的方法进行检测,判断当前语句中是否使用了特殊句式。
6)语句的语言模型得分
例如参见图4所示,提取语句的语言模型得分,可以包括如下步骤:
步骤S401,根据预先训练得到的语言模型获取所述语句中每个词语的语言模型得分;
步骤S402,计算所述语句中所有词语的语言模型得分的平均值,并将所述平均值作为所述语句的语言模型得分。
另外,对于语句质量评价模型,可以通过训练得到,对此本实施例并不进行限制,下面对训练过程进行示例性说明:
i)收集大量文本数据
所述文本数据可以从在线学习网络上收集学生的作文数据,也可以从学生每次考试或作业中收集相应作文数据。当然,所述文本数据并不局限于作文数据,也可以为其它文章文本数据或单句文本数据等。
具体收集时,可以以句为单位,连续收集同一文章的多句数据,也可以收集单句文本数据,本发明实施例并不进行限制。所收集的文本数据可以为中文或英文或其他文字,具体根据应用需求确定,例如若需要对英文句子质量进行评价,则需要收集英文文本数据,若需要对中文句子质量进行评价,则需要收集中文文本数据。
收集的文本数据一般都带有老师对每句文本数据的评价结果,当评价结果为句子质量等级时,则具体的评价结果可以分为高质量句子、中质量句子及低质量句子。当然也可以为对每句文本数据打分。对于没有评价结果的句子可以由领域专家对每句文本数据进行评价,给出相应的质量评价结果。
ii)提取所收集的每句文本数据的语句质量评价特征
例如对于语句质量评价特征的定义及提取方式可以如上文所述,此处不再赘述。
iii)构建语句质量评价模型
作为示例,所述语句质量评价模型可以使用回归模型,此时所述语句的质量评价结果为所述语句的质量得分;
或者,
所述语句质量评价模型可以使用分类模型,此时所述语句的质量评价结果为所述语句的质量等级。
在实际应用中可以根据需求选择相应的模型构建语句质量评价模型,例如具体构建方法可以如下:
使用回归模型时,语句质量评价结果为每个语句的质量得分,具体构建时,将收集的大量文本数据的语句质量评价特征,以句为单位作为模型的输入,语句的质量得分作为模型的输出,对模型参数进行训练,训练结束后,得到语句质量评价模型。所述回归模型例如可以为逻辑回归模型、线性回归模型等。具体训练方法与现有技术相同,在此不再赘述;
使用分类模型描述时,语句质量评价结果为每个语句的质量等级,具体构建时,将收集的大量文本数据的语句质量评价特征,以句为单位作为模型的输入,语句的质量等级作为模型的输出,对模型参数进行训练,训练结束后,得到语句质量评价模型。所述分类模型例如可以为支持向量机模型、决策树模型或神经网络模型等。具体训练方法与现有技术相同,在此不再赘述。
此外,在本实施例或本发明其他某些实施例中,获取所述语句的质量评价结果之后,所述方法还可以包括:
获取一篇文本中每个语句或指定语句的质量评价结果;
根据所述每个语句或指定语句的质量评价结果,获取所述文本的评价结果。
举例来讲,若语句质量评价结果为语句的质量得分,则可以将所述文本中所有语句或者指定语句(例如某些重点段落里的句子等等)的质量得分的均值,作为所述文本的评价结果,又或者,可以进一步对文本中各语句的质量得分进行加权计算,例如不同位置的段落中的句子的权值是不同的,进而得到所述文本的评价结果,等等。
在本实施例中,对于一条语句,提出了语句质量评价特征的概念,语句质量评价特征包括语句语义特征和\或语句描述特征,语句语义特征根据所述语句中包含的词语的词向量得到,语句描述特征根据所述语句的结构及所述语句的内容得到,通过自动提取的语句质量评价特征及预先构建的语句质量评价模型,可以自动得到该语句的质量评价结果(如质量评分或质量等级),不需要人工参与,大大提高了语句评价时的效率和准确度,而且由于是基于客观参数给出的评价结果,所以可以避免人为主观性的影响,使得语句质量的评价结果也较客观。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图5是根据本发明一示例性实施例示出的一种自然语言语句评价装置的示意图。
参见图5所示,该装置可以包括:
语句获取模块501,用于获取待评价的自然语言语句;
评价特征提取模块502,用于提取所述语句的语句质量评价特征,其中所述语句质量评价特征包括语句语义特征和\或语句描述特征,所述语句语义特征根据所述语句中包含的词语的词向量得到,所述语句描述特征根据所述语句的结构及所述语句的内容得到;
评价结果获取模块503,用于根据所述语句的语句质量评价特征及预先构建的语句质量评价模型,获取所述语句的质量评价结果。
在本实施例或本发明其他某些实施例中,当所述语句质量评价特征包括语句语义特征时,所述评价特征提取模块具体可以用于:
计算所述语句中每个词语的词向量;
将所述每个词语的词向量作为预先构建的语句语义模型的输入,并将所述语句语义模型结构中最后一个隐层的输出作为所述语句语义特征。
在本实施例或本发明其他某些实施例中,所述语句的语句描述特征可以包括以下特征中的一种或多种:
语句长度、语句中错词数、语句中高级词汇占比、语句中高级搭配数、语句是否使用特殊句式、语句的语言模型得分;其中,所述语句中高级搭配数是指所述语句中各词语能够组合出的所有搭配中属于高级搭配的数量;所述语句的语言模型得分是指根据语言模型得到的语句整体得分。
在本实施例或本发明其他某些实施例中,所述评价特征提取模块用于提取语句中高级搭配数时,具体可以用于:
通过将所述语句中每个词语与所述语句中的其它一个或多个词语按照出现在所述语句中的顺序进行搭配,得到所述语句中各词语能够组合出的所有搭配;
统计所述所有搭配中出现在预先建立的高级搭配表中的数量以得到所述语句中高级搭配数;
所述评价特征提取模块用于提取语句的语言模型得分时,具体可以用于:
根据预先训练得到的语言模型获取所述语句中每个词语的语言模型得分;
计算所述语句中所有词语的语言模型得分的平均值,并将所述平均值作为所述语句的语言模型得分。
在本实施例或本发明其他某些实施例中,所述语句质量评价模型可以使用回归模型,所述语句的质量评价结果为所述语句的质量得分;
或者,
所述语句质量评价模型可以使用分类模型,所述语句的质量评价结果为所述语句的质量等级。
此外,参见图6所示,在本实施例或本发明其他某些实施例中,所述装置还可以包括:
文本评价模块601,用于获取一篇文本中每个语句或指定语句的质量评价结果;根据所述每个语句或指定语句的质量评价结果,获取所述文本的评价结果。
在本实施例中,对于一条语句,提出了语句质量评价特征的概念,语句质量评价特征包括语句语义特征和\或语句描述特征,语句语义特征根据所述语句中包含的词语的词向量得到,语句描述特征根据所述语句的结构及所述语句的内容得到,通过自动提取的语句质量评价特征及预先构建的语句质量评价模型,可以自动得到该语句的质量评价结果(如质量评分或质量等级),不需要人工参与,大大提高了语句评价时的效率和准确度,而且由于是基于客观参数给出的评价结果,所以可以避免人为主观性的影响,使得语句质量的评价结果也较客观。
关于上述实施例中的装置,其中各个单元\模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种自然语言语句评价方法,其特征在于,所述方法包括:
获取待评价的自然语言语句;
提取所述语句的语句质量评价特征,其中所述语句质量评价特征包括语句语义特征和\或语句描述特征,所述语句语义特征根据所述语句中包含的词语的词向量得到,所述语句描述特征根据所述语句的结构及所述语句的内容得到;
根据所述语句的语句质量评价特征及预先构建的语句质量评价模型,获取所述语句的质量评价结果;其中,所述语句的语句描述特征包括以下特征中的一种或多种:
语句长度、语句中错词数、语句中高级词汇占比、语句中高级搭配数、语句是否使用特殊句式、语句的语言模型得分;其中,所述语句中高级搭配数是指所述语句中各词语能够组合出的所有搭配中属于高级搭配的数量;所述语句的语言模型得分是指根据语言模型得到的语句整体得分。
2.根据权利要求1所述的方法,其特征在于,提取所述语句的语句语义特征,包括:
计算所述语句中每个词语的词向量;
将所述每个词语的词向量作为预先构建的语句语义模型的输入,并将所述语句语义模型结构中最后一个隐层的输出作为所述语句语义特征。
3.根据权利要求1所述的方法,其特征在于,
提取语句中高级搭配数,包括:
通过将所述语句中每个词语与所述语句中的其它一个或多个词语按照出现在所述语句中的顺序进行搭配,得到所述语句中各词语能够组合出的所有搭配;
统计所述所有搭配中出现在预先建立的高级搭配表中的数量以得到所述语句中高级搭配数;
提取语句的语言模型得分,包括:
根据预先训练得到的语言模型获取所述语句中每个词语的语言模型得分;
计算所述语句中所有词语的语言模型得分的平均值,并将所述平均值作为所述语句的语言模型得分。
4.根据权利要求1所述的方法,其特征在于,所述语句质量评价模型使用回归模型,所述语句的质量评价结果为所述语句的质量得分;
或者,
所述语句质量评价模型使用分类模型,所述语句的质量评价结果为所述语句的质量等级。
5.根据权利要求1所述的方法,其特征在于,获取所述语句的质量评价结果之后,所述方法还包括:
获取一篇文本中每个语句或指定语句的质量评价结果;
根据所述每个语句或指定语句的质量评价结果,获取所述文本的评价结果。
6.一种自然语言语句评价装置,其特征在于,所述装置包括:
语句获取模块,用于获取待评价的自然语言语句;
评价特征提取模块,用于提取所述语句的语句质量评价特征,其中所述语句质量评价特征包括语句语义特征和\或语句描述特征,所述语句语义特征根据所述语句中包含的词语的词向量得到,所述语句描述特征根据所述语句的结构及所述语句的内容得到;
评价结果获取模块,用于根据所述语句的语句质量评价特征及预先构建的语句质量评价模型,获取所述语句的质量评价结果;其中,所述语句的语句描述特征包括以下特征中的一种或多种:
语句长度、语句中错词数、语句中高级词汇占比、语句中高级搭配数、语句是否使用特殊句式、语句的语言模型得分;其中,所述语句中高级搭配数是指所述语句中各词语能够组合出的所有搭配中属于高级搭配的数量;所述语句的语言模型得分是指根据语言模型得到的语句整体得分。
7.根据权利要求6所述的装置,其特征在于,当所述语句质量评价特征包括语句语义特征时,所述评价特征提取模块用于:
计算所述语句中每个词语的词向量;
将所述每个词语的词向量作为预先构建的语句语义模型的输入,并将所述语句语义模型结构中最后一个隐层的输出作为所述语句语义特征。
8.根据权利要求6所述的装置,其特征在于,
所述评价特征提取模块用于提取语句中高级搭配数时,用于:
通过将所述语句中每个词语与所述语句中的其它一个或多个词语按照出现在所述语句中的顺序进行搭配,得到所述语句中各词语能够组合出的所有搭配;
统计所述所有搭配中出现在预先建立的高级搭配表中的数量以得到所述语句中高级搭配数;
所述评价特征提取模块用于提取语句的语言模型得分时,用于:
根据预先训练得到的语言模型获取所述语句中每个词语的语言模型得分;
计算所述语句中所有词语的语言模型得分的平均值,并将所述平均值作为所述语句的语言模型得分。
9.根据权利要求6所述的装置,其特征在于,所述语句质量评价模型使用回归模型,所述语句的质量评价结果为所述语句的质量得分;
或者,
所述语句质量评价模型使用分类模型,所述语句的质量评价结果为所述语句的质量等级。
10.根据权利要求6所述的装置,其特征在于,所述装置还包括:
文本评价模块,用于获取一篇文本中每个语句或指定语句的质量评价结果;根据所述每个语句或指定语句的质量评价结果,获取所述文本的评价结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710041094.0A CN108319581B (zh) | 2017-01-17 | 2017-01-17 | 一种自然语言语句评价方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710041094.0A CN108319581B (zh) | 2017-01-17 | 2017-01-17 | 一种自然语言语句评价方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108319581A CN108319581A (zh) | 2018-07-24 |
CN108319581B true CN108319581B (zh) | 2021-10-08 |
Family
ID=62892418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710041094.0A Active CN108319581B (zh) | 2017-01-17 | 2017-01-17 | 一种自然语言语句评价方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108319581B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543041B (zh) * | 2018-11-30 | 2021-11-26 | 安徽听见科技有限公司 | 一种语言模型得分的生成方法及装置 |
CN110096707B (zh) * | 2019-04-29 | 2020-09-29 | 北京三快在线科技有限公司 | 生成自然语言的方法、装置、设备及可读存储介质 |
CN110347800B (zh) * | 2019-07-15 | 2022-06-10 | 中国工商银行股份有限公司 | 文本处理方法和装置、以及电子设备和可读存储介质 |
CN110633359B (zh) * | 2019-09-04 | 2022-03-29 | 北京百分点科技集团股份有限公司 | 语句等价性判断方法和装置 |
CN112784597A (zh) * | 2019-11-06 | 2021-05-11 | 阿里巴巴集团控股有限公司 | 文章质量的评价方法及设备 |
CN111339765B (zh) * | 2020-02-18 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 文本质量评估方法、文本推荐方法及装置、介质及设备 |
CN111581975B (zh) * | 2020-05-09 | 2023-06-20 | 北京明朝万达科技股份有限公司 | 案件的笔录文本的处理方法、装置、存储介质和处理器 |
CN113779961A (zh) * | 2020-06-09 | 2021-12-10 | 国家计算机网络与信息安全管理中心 | 一种自然语言文本的惯用句式提取方法及电子装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102279844A (zh) * | 2011-08-31 | 2011-12-14 | 中国科学院自动化研究所 | 汉语作文自动测试方法及系统 |
CN105183712A (zh) * | 2015-08-27 | 2015-12-23 | 北京时代焦点国际教育咨询有限责任公司 | 一种用于对英语作文进行打分的方法以及装置 |
CN105243053A (zh) * | 2015-09-15 | 2016-01-13 | 百度在线网络技术(北京)有限公司 | 提取文档关键句的方法及装置 |
CN105930503A (zh) * | 2016-05-09 | 2016-09-07 | 清华大学 | 基于组合特征向量和深度学习的情感分类方法及装置 |
CN106294330A (zh) * | 2015-05-11 | 2017-01-04 | 清华大学 | 一种科技文本挑选方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937462B (zh) * | 2010-09-03 | 2016-08-24 | 中国科学院声学研究所 | 文献评价自动检索方法及系统 |
US9342499B2 (en) * | 2013-03-19 | 2016-05-17 | Educational Testing Service | Round-trip translation for automated grammatical error correction |
US9424524B2 (en) * | 2013-12-02 | 2016-08-23 | Qbase, LLC | Extracting facts from unstructured text |
CN105824797B (zh) * | 2015-01-04 | 2019-11-12 | 华为技术有限公司 | 一种评价语义相似度的方法、装置和系统 |
CN104881402B (zh) * | 2015-06-02 | 2018-01-09 | 北京京东尚科信息技术有限公司 | 中文网络话题评论文本语义倾向分析的方法及装置 |
-
2017
- 2017-01-17 CN CN201710041094.0A patent/CN108319581B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102279844A (zh) * | 2011-08-31 | 2011-12-14 | 中国科学院自动化研究所 | 汉语作文自动测试方法及系统 |
CN106294330A (zh) * | 2015-05-11 | 2017-01-04 | 清华大学 | 一种科技文本挑选方法及装置 |
CN105183712A (zh) * | 2015-08-27 | 2015-12-23 | 北京时代焦点国际教育咨询有限责任公司 | 一种用于对英语作文进行打分的方法以及装置 |
CN105243053A (zh) * | 2015-09-15 | 2016-01-13 | 百度在线网络技术(北京)有限公司 | 提取文档关键句的方法及装置 |
CN105930503A (zh) * | 2016-05-09 | 2016-09-07 | 清华大学 | 基于组合特征向量和深度学习的情感分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108319581A (zh) | 2018-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108319581B (zh) | 一种自然语言语句评价方法及装置 | |
Yannakoudakis et al. | Developing an automated writing placement system for ESL learners | |
Iwashita et al. | Assessed levels of second language speaking proficiency: How distinct? | |
CN106055673B (zh) | 一种基于文本特征嵌入的中文短文本情感分类方法 | |
CN104731777B (zh) | 一种译文评价方法及装置 | |
CN102034475B (zh) | 一种运用计算机对开放式短对话进行交互式评分的方法 | |
US11409964B2 (en) | Method, apparatus, device and storage medium for evaluating quality of answer | |
CN108280065B (zh) | 一种外文文本评价方法及装置 | |
CN106897384B (zh) | 一种要点题自动评价方法及装置 | |
CN107301163B (zh) | 包含公式的文本语义解析方法及装置 | |
CN109949799B (zh) | 一种语义解析方法及系统 | |
Younes et al. | Constructing linguistic resources for the Tunisian dialect using textual user-generated contents on the social web | |
CN107301164B (zh) | 数学公式的语义解析方法及装置 | |
CN110853422A (zh) | 一种沉浸式语言学习系统及其学习方法 | |
CN104899335A (zh) | 一种对网络舆情信息进行情感分类的方法 | |
Malmi et al. | Automatic prediction of discourse connectives | |
CN104346326A (zh) | 一种情绪文本的情绪特征确定方法及装置 | |
CN106781781A (zh) | 一种语言类习题的解题方法及装置 | |
CN110287405A (zh) | 情感分析的方法、装置和存储介质 | |
CN107797981B (zh) | 一种目标文本识别方法及装置 | |
CN109346108B (zh) | 一种作业检查方法及系统 | |
Zhu et al. | YUN111@ Dravidian-CodeMix-FIRE2020: Sentiment Analysis of Dravidian Code Mixed Text. | |
Duan et al. | Automatically build corpora for chinese spelling check based on the input method | |
CN115438655A (zh) | 人物性别识别方法、装置、电子设备及存储介质 | |
Sokolová et al. | An introduction to detection of hate speech and offensive language in Slovak |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |