CN117275319B - 训练语言重点能力的装置 - Google Patents
训练语言重点能力的装置 Download PDFInfo
- Publication number
- CN117275319B CN117275319B CN202311545070.0A CN202311545070A CN117275319B CN 117275319 B CN117275319 B CN 117275319B CN 202311545070 A CN202311545070 A CN 202311545070A CN 117275319 B CN117275319 B CN 117275319B
- Authority
- CN
- China
- Prior art keywords
- information
- category
- semantic
- target
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 60
- 238000002372 labelling Methods 0.000 claims description 73
- 230000011218 segmentation Effects 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 23
- 230000009471 action Effects 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 description 23
- 230000008569 process Effects 0.000 description 19
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 5
- YTPLMLYBLZKORZ-UHFFFAOYSA-N Thiophene Chemical compound C=1C=CSC=1 YTPLMLYBLZKORZ-UHFFFAOYSA-N 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 2
- 125000001544 thienyl group Chemical group 0.000 description 2
- 229930192474 thiophene Natural products 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000003028 Stuttering Diseases 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000002853 ongoing effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/04—Speaking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/06—Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
- G09B5/065—Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Electrically Operated Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种训练语言重点能力的装置,属于计算机领域。所述装置包括:选择模块,用于根据标识信息选择对应的第一目标图像;相关性模块,用于接收第一叙述语音信息,并确定第一叙述语音信息与第一目标图像的相关性;随机调整模块,用于在相关性符合相关性要求时,对第一目标图像进行随机调整,获得第二目标图像;接收模块,用于接收第二叙述语音信息;重点叙述评分模块,用于根据第二叙述语音信息和第二目标图像确定重点叙述评分;提示消息模块,用于根据重点叙述评分,确定并播放提示消息。根据本发明,可训练受训者描述图像中信息的准确性和完整性,还可调整图像,训练受训者表达重点信息的能力,提升受训者的语言逻辑能力。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种训练语言重点能力的装置。
背景技术
在相关技术中,可通过多种方式训练儿童的语言能力,例如,通过教学视频、语音等引导儿童跟读,并纠正发音,或通过图片锻炼儿童看图说话的能力,使儿童能够将看到的事物转换成语言等。
然而,以上训练方式需要专业人员参与,从而使儿童得到更完善且更准确的训练,但使专业人员参与训练过程的成本较高,且专业人员数量有限,难以实现大规模推广,并且,在更正儿童的语言的过程中,专业人员可能会受到主观意志和过往经验的影响,未必能够客观地表达图片中的事物,也未必能准确地更正儿童的语言。并且,图片中的事物可能种类众多,该种训练方式也不能训练儿童表达出重点信息的能力,即,虽然儿童可以将图片中的内容表达准确,但语言可能较为繁琐,逻辑可能较为混乱,重点不清晰。
公开于本申请背景技术部分的信息仅旨在加深对本申请的一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
本发明提出了一种训练语言重点能力的装置和设备,能够有针对性地训练受训者提取图片中重点信息的能力,提升语言逻辑能力。
根据本发明的一方面,提供了一种训练语言重点能力的装置,包括:
选择模块,用于根据接收到的受训者的标识信息,从图像库中的多个图像中,选择与所述标识信息对应的第一目标图像,其中,所述图像库中存储多个图像,所述图像中具有多种目标对象;
相关性模块,用于接收受训者的关于所述第一目标图像中目标对象类别的第一叙述语音信息,并确定所述第一叙述语音信息与所述第一目标图像的相关性,其中,所述第一叙述语音信息为所述受训者描述的所述第一目标图像中目标对象的类别和数量的语音信息;
随机调整模块,用于在所述相关性符合相关性要求的情况下,对所述第一目标图像中的目标对象所在区域进行随机调整,获得第二目标图像,其中,所述第二目标图像中的目标对象的类别组成的集合为所述第一目标图像中目标对象的类别组成的集合的子集,且所述第二目标图像中至少部分类别的目标对象所占有的区域面积或数量相对于第一目标图像发生改变;
接收模块,用于接收受训者的关于第二目标图像表达的重要信息的第二叙述语音信息;
重点叙述评分模块,用于根据所述第二叙述语音信息和所述第二目标图像,确定所述第二叙述语音信息的重点叙述评分;
提示消息模块,用于根据所述重点叙述评分,确定提示消息,并播放提示消息。
在一种可能的实现方式中,所述相关性模块进一步用于:
获取所述第一叙述语音信息中所包括的各个目标对象的类别的第一语义信息;
获取所述第一目标图像的标注信息中各个目标对象的类别的第二语义信息;
根据所述第一语义信息和所述第二语义信息,确定与各个所述第一语义信息与各个第二语义信息的语义相似度;
根据所述语义相似度,确定所述第一叙述语音信息中目标对象的类别的完整性评分和相似性评分;
根据所述完整性评分和所述相似性评分,确定所述相关性。
在一种可能的实现方式中,所述相关性模块进一步用于:
对所述第一叙述语音信息的文字信息进行分词处理,获得所述第一叙述语音信息的多个词语;
确定每个词语的分词语义信息;
根据所述分词语义信息,筛选出所述多个词语中的无意义词语及重复词语;
去除所述无意义词语及重复词语;
将剩余词语的分词语义信息确定为所述第一语义信息。
在一种可能的实现方式中,所述相关性模块进一步用于:
针对每个第一语义信息,在所述第二语义信息中,确定是否存在与所述第一语义信息的语义相似度大于或等于相似度阈值的第二语义信息;
如果存在与所述第一语义信息的语义相似度大于或等于相似度阈值的第二语义信息,则将所述第一语义信息确定为类别准确的语义信息;
确定所述类别准确的语义信息的第一数量;
将所述第一数量与所述第一目标图像的标注信息中目标对象的类别数量之比,确定为所述完整性评分。
在一种可能的实现方式中,所述相关性模块进一步用于:
确定各个第一语义信息对应的语义相似度的最大值;
将各个语义相似度的最大值进行加权平均处理,获得所述相似性评分。
在一种可能的实现方式中,所述重点叙述评分模块进一步用于:
通过重点信息检测模型,获取所述第二目标图像中的重点信息,其中,所述重点信息包括在所述第二目标图像中符合重要性要求的目标对象的目标类别,以及所述目标类别的目标对象的第一描述信息,其中,所述第一描述信息表示目标类别的目标对象的动作或状态;
确定所述第二叙述语音信息中包括的目标对象的第一类别,以及所述目标对象的第二描述信息,其中,所述第二描述信息表示第二叙述语音信息中包括的目标对象的动作或状态;
根据所述第一类别和所述目标类别,确定所述第二叙述语音信息的重要类别命中评分;
根据所述第一类别中包含,且所述目标类别中不包含的第二类别,确定所述第二叙述语音信息的重要类别选择评分;
获取所述第一描述信息的第一描述语义信息,以及所述第二描述信息的第二描述语义信息;
确定所述第一描述语义信息和所述第二描述语义信息的描述相似度;
根据所述第一描述信息的各字词的第一词性,以及第二描述信息的各字词的第二词性,确定描述词性评分;
根据所述重点信息的第一字数,以及第二叙述语音信息的第二字数,确定字数评分;
根据所述重要类别命中评分、所述重要类别选择评分、所述描述相似度、描述词性评分和字数评分,确定所述重点叙述评分。
在一种可能的实现方式中,所述重点叙述评分模块进一步用于:
根据公式,确定所述重要类别命中评分M,其中,cgi为目标类别中的第i个类别的权重,cgi=重点信息中描述第i个类别的文字数量/重点信息的文字总数,caj为第一类别和目标类别中均包含的第j个类别的权重,caj=第二叙述语音信息中描述第一类别和目标类别中均包含的第j个类别的文字数量/第二叙述语音信息的文字总数,n1为重点信息中包含的类别总数,n2为第一类别和目标类别中均包含的类别总数。
在一种可能的实现方式中,所述重点叙述评分模块进一步用于:
根据公式,确定所述重要类别选择评分C,其中,c1k为第一类别中的第k个类别的权重,c1k=第二叙述语音信息中描述第一类别中的第k个类别的文字数量/第二叙述语音信息的文字总数,c2t为第二类别中的第t个类别的权重,c2t=第二叙述语音信息中描述第二类别中的第t个类别的文字数量/第二叙述语音信息的文字总数,n3为第一类别中包含的类别总数,n4为第二类别中包含的类别总数。
在一种可能的实现方式中,所述重点叙述评分模块进一步用于:
根据公式,确定描述词性评分P,其中,T为目标类别的数量,ps2为第一类别中与目标类别的第s个类别相同的类别的第二描述信息的第二词性的类别总数,/>为第一类别中与目标类别的第s个类别相同的类别的第二描述信息的第二词性的类别中,与目标类别的第s个类别的第一描述信息的第一词性的类别不同的类别总数,w2为第二描述信息的字数,ws为第二描述信息中第s个类别的字数。
在一种可能的实现方式中,所述装置还包括训练模块,所述训练模块用于:
所述装置还包括训练模块,所述训练模块用于:
将样本图像输入所述重点信息检测模型,获得所述样本图像中的样本重点信息;
根据公式
确定所述重点信息检测模型的损失函数Loss,其中,α1、α2、α3、α4、α5、α6为预设权重,μ1、μ2和μ3为预设参数,cbi为所述标注信息中第i个类别的权重,cbi=标注信息中描述第i个类别的文字数量/标注信息中的文字总数,caj为标注信息和样本重点信息中均包括的第j个类别的权重,caj=样本重点信息描述所述均包括的第j个类别的文字数量/样本重点信息中的文字总数,n5为标注信息中包含的类别总数,n6为标注信息和样本重点信息中均包括的类别总数,cxj为标注信息中不包含但样本重点信息中包含的第j个类别的权重,cxj=样本重点信息中描述标注信息中不包含但样本重点信息中包含的第j个类别的文字数量/样本重点信息中的文字总数,cyi=样本重点信息中描述第i个类别的文字数量/样本重点信息中的文字总数,n7为样本重点信息中包含的类别总数,n8为标注信息中不包含但样本重点信息中包含的类别总数,dyt为样本重点信息中第t个描述信息的语义向量,dbt为标注信息中第t个描述信息的语义向量,ndb为标注信息中的描述信息的总数,样本重点信息中第t个描述信息和标注信息中第t个描述信息为同一目标对象的描述信息,myk为样本重点信息中第k个目标对象的语义向量,mbk为标注信息中第t个目标对象的语义向量,样本重点信息中第k个目标对象和标注信息中第t个目标对象为同一目标对象,nmb为标注信息中的目标对象的类别总数,T’为标注信息包括的目标类别的数量,psy为样本重点信息中与标注信息的第s个类别相同的类别的描述信息中包括的词性的类别总数,为样本重点信息中与标注信息的第s个类别相同的类别的描述信息中包括的词性的类别中,与标注信息的第s个类别的描述信息的词性的类别不同的类别总数,wb表示标注信息的总字数,wy表示样本重点信息的总字数;
根据所述损失函数,对所述重点信息检测模型进行训练,获得训练后的重点信息检测模型。
根据本发明的另一方面,提供了一种训练语言重点能力的设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述装置所执行的步骤。
根据本发明的实施例的训练语言重点能力的装置,不仅可训练受训者(例如,儿童)将图像中的事物转换成语言的准确性和完整性,还可将图片进行随机调整,使得图片中的多种事物呈现出主次关系,进而训练受训者表达调整后的图片中的主要的重点信息的能力,并对该能力进行评价,在求解评分的过程中,使用文字数量来确定各个评分,相对于使用类别数量,更适用于计算描述重点信息的句子的评分。通过提示消息对受训者进行有针对性地反馈,可提升受训者的语言逻辑能力和提取重点信息的能力。并且,在训练过程不以专业人员的主观意志和过往经验为基础,提升训练的客观性和准确性,并可降低训练成本,易于推广。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本发明。根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将更清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例,
图1示出根据本发明实施例的训练语言重点能力的装置的框图;
图2示出根据本发明实施例的训练语言重点能力的设备的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
在一种可能的实现方式中,针对相关技术中存在的问题,本发明提出一种训练语言重点能力的装置,不仅可训练受训者(例如,儿童)将图像中的事物转换成语言的准确性和完整性,还可将图片进行随机调整,使得图片中的多种事物呈现出主次关系,进而训练受训者表达调整后的图片中的主要的重点信息的能力,提升受训者的语言逻辑能力和提取重点信息的能力。并且,在训练过程不以专业人员的主观意志和过往经验为基础,提升训练的客观性和准确性,并可降低训练成本,易于推广。
图1示出根据本发明实施例的训练语言重点能力的装置的框图,如图1所示,所述装置可包括:
选择模块11,用于根据接收到的受训者的标识信息,从图像库中的多个图像中,选择与所述标识信息对应的第一目标图像,其中,所述图像库中存储多个图像,所述图像中具有多种目标对象;
相关性模块12,用于接收受训者的关于所述第一目标图像中目标对象类别的第一叙述语音信息,并确定所述第一叙述语音信息与所述第一目标图像的相关性,其中,所述第一叙述语音信息为所述受训者描述的所述第一目标图像中目标对象的类别和数量的语音信息;
随机调整模块13,用于在所述相关性符合相关性要求的情况下,对所述第一目标图像中的目标对象所在区域进行随机调整,获得第二目标图像,其中,所述第二目标图像中的目标对象的类别组成的集合为所述第一目标图像中目标对象的类别组成的集合的子集,且所述第二目标图像中至少部分类别的目标对象所占有的区域面积或数量相对于第一目标图像发生改变;
接收模块14,用于接收受训者的关于第二目标图像表达的重要信息的第二叙述语音信息;
重点叙述评分模块15,用于根据所述第二叙述语音信息和所述第二目标图像,确定所述第二叙述语音信息的重点叙述评分;
提示消息模块16,用于根据所述重点叙述评分,确定提示消息,并播放提示消息。
在一种可能的实现方式中,选择模块11可接收受训者(例如,儿童)的标识信息,例如,受训者的身份、年龄、历史训练次数、历史训练效果等,从而确定受训者的语言能力,并可根据受训者的语言能力选择适当的第一目标图像。例如,如果受训者的语言能力较强,可选择包含目标对象的类别和数量较多的第一目标图像,如果受训者的语言能力较弱,可选择包含目标对象的类别和数量较少的第一目标图像。
在一种可能的实现方式中,在选择好第一目标图像后,所述装置可提示受训者描述第一目标图像中的目标对象的类别,在相关性模块12接收到用户的第一叙述语音信息后,可基于第一叙述语音信息确定受训者描述的目标对象的类别的准确性和完整性,从而确定受训者对图像的基础描述能力。
在示例中,第一目标图像中可包括太阳、蓝天、树木、公路和行人5个目标对象的类别,则受训者可通过所述装置的麦克风说出各种目标对象的类别,所述装置则可获得语音信息,经过语音识别(例如,通过语音识别模型进行识别)后,可获得第一叙述语音信息。当然,受训者说出的语音信息未必与第一目标图像中标注的各个目标对象的类别完全一致,例如,第一目标图像中标注了“蓝天”的类别,而受训者说出了“天空”的类别,或者,第一目标图像中标注了“公路”的类别,而受训者说出了“马路”的类别。而且,受训者由于识别或语言能力的限制,说出的目标对象的类别未必完整,例如,受训者忽略了“公路”的类别。因此,在确定受训者对图像的基础描述能力时,可确定受训者对于每个类别的描述是否准确或相似,以及受训者对于类别的描述是否完整。
在一种可能的实现方式中,所述相关性模块进一步用于:获取所述第一叙述语音信息中所包括的各个目标对象的类别的第一语义信息;获取所述第一目标图像的标注信息中各个目标对象的类别的第二语义信息;根据所述第一语义信息和所述第二语义信息,确定与各个所述第一语义信息与各个第二语义信息的语义相似度;根据所述语义相似度,确定所述第一叙述语音信息中目标对象的类别的完整性评分和相似性评分;根据所述完整性评分和所述相似性评分,确定所述相关性。
在一种可能的实现方式中,在确定受训者对于第一目标图像中包含的目标对象的类别的描述的准确性时,可确定第一叙述语音信息中所包括的各个类别的第一语义信息,例如,可通过自然语言处理模型来获取每个类别的描述信息的第一语义信息。在示例中,第一叙述语音信息中可包括“太阳”、“天空”、“树木”和“行人”4个类别的描述信息。则可分别获取这4个类别的描述信息的第一语义信息,例如,可表示上述描述信息的向量信息,本发明对第一语义信息的类型不做限制。
在一种可能的实现方式中,受训者可能包括患有口吃的儿童,受训者说出的第一叙述语音信息可能含有重复或无意义的词语,可将重复或无意义的词语去除,剩余的词语则为描述目标对象类别的词语。所述相关性模块进一步用于:对所述第一叙述语音信息的文字信息进行分词处理,获得所述第一叙述语音信息的多个词语;确定每个词语的分词语义信息;根据所述分词语义信息,筛选出所述多个词语中的无意义词语及重复词语;去除所述无意义词语及重复词语;将剩余词语的分词语义信息确定为所述第一语义信息。
在一种可能的实现方式中,可首先对第一叙述语音的文字信息进行分词处理,获得多个词语,例如,受训者在描述“太阳”、“天空”、“树木”和“行人”4个类别时,如果患有口吃,则可能描述为“太、太、太阳、天空、嗯、嗯、天空、然后是树木、嗯、行人”,即,该描述中存在很多无意义的词语和重复的词语,可对该文字信息进行分词,可获得“太”、“太”、“太阳”、“天空”、“嗯”、“嗯”“天空”、“然后是”、“树木”、“嗯”、“行人”多个词语,可基于自然语言处理模型来获取各个词语的分词语义信息。
在一种可能的实现方式中,在获得分词语义信息后,可基于分词语义信息筛选无意义的词语及重复词语。在示例中,在筛选无意义的词语时,可基于分词语义信息,确定其语义并非描述某个类别的词语,例如,分词语义信息的某个或某些元素可表示其对应的词语为动词、名词还是形容词、助词等,可基于分词语义信息,确定出不是名词的词语,例如,可筛选出“太”、“太”、“嗯”、“嗯”、“然后是”、“嗯”,这些词语可作为无意义的词语进行去除。
在一种可能的实现方式中,可对剩余词语进行去重,即去除重复词语,例如,可将分词语义信息的语义相似度高于或等于预设阈值的两个或多个词语进行去重,仅保留其中一个,接上例,两个“天空”之间的语义相似度为1,高于预设阈值,则可去除一个“天空”,保留一个“天空”。
在一种可能的实现方式中,在示例中,在去除无意义词语及重复词语后,剩余词语的可作为描述目标对象类别的词语,其分词语义信息可作为第一语义信息,在示例中,以上去除“太”、“太”、“嗯”、“嗯”、“然后是”、“嗯”和其中一个“天空”后,可获得“太阳”、“天空”、“树木”和“行人”4个词语,这四个词语的分词语义信息可作为各自的第一语义信息。
在一种可能的实现方式中,还可基于无意义词语和重复词语来确定受训者的语言流畅度,例如,可计算无意义词语和重复词语的总数(或总字数)与第一叙述语音信息的多个词语的总数(或总字数)的比值作为语言流畅度的评分,该评分越高,则语言流畅度越低。进一步地,还可在语言流畅度评分高于设定的分数阈值的情况下,生成对应的提示消息,例如,提示训练者减慢语速,并重新说出所述第一叙述语音信息的提示消息。
在一种可能的实现方式中,可获取第一目标图像的标注信息中各个目标对象的类别的第二语义信息,例如,第一目标图像的标注信息中可包括“太阳”、“蓝天”、“树木”、“公路”、“行人”5个类别的描述信息。则可分别获取这5个类别的描述信息的第二语义信息,例如,可表示上述描述信息的向量信息,本发明对第二语义信息的类型不做限制。
在一种可能的实现方式中,可分别确定各个第一语义信息和各个第二语义信息之间的语义相似度。例如,可确定第一叙述语音信息中“太阳”的第一语义信息与标注信息中“太阳”的第二语义信息的语义相似度,可确定第一叙述语音信息中“太阳”的第一语义信息与标注信息中“蓝天”的第二语义信息的语义相似度,可确定第一叙述语音信息中“太阳”的第一语义信息与标注信息中“树木”的第二语义信息的语义相似度,可确定第一叙述语音信息中“太阳”的第一语义信息与标注信息中“公路”的第二语义信息的语义相似度,可确定第一叙述语音信息中“太阳”的第一语义信息与标注信息中“行人”的第二语义信息的语义相似度;可确定第一叙述语音信息中“天空”的第一语义信息与标注信息中“太阳”的第二语义信息的语义相似度,可确定第一叙述语音信息中“天空”的第一语义信息与标注信息中“蓝天”的第二语义信息的语义相似度,可确定第一叙述语音信息中“天空”的第一语义信息与标注信息中“树木”的第二语义信息的语义相似度,可确定第一叙述语音信息中“天空”的第一语义信息与标注信息中“公路”的第二语义信息的语义相似度,可确定第一叙述语音信息中“天空”的第一语义信息与标注信息中“行人”的第二语义信息的语义相似度;可确定第一叙述语音信息中“树木”的第一语义信息与标注信息中“太阳”的第二语义信息的语义相似度,可确定第一叙述语音信息中“树木”的第一语义信息与标注信息中“蓝天”的第二语义信息的语义相似度,可确定第一叙述语音信息中“树木”的第一语义信息与标注信息中“树木”的第二语义信息的语义相似度,可确定第一叙述语音信息中“树木”的第一语义信息与标注信息中“公路”的第二语义信息的语义相似度,可确定第一叙述语音信息中“树木”的第一语义信息与标注信息中“行人”的第二语义信息的语义相似度;可确定第一叙述语音信息中“行人”的第一语义信息与标注信息中“太阳”的第二语义信息的语义相似度,可确定第一叙述语音信息中“行人”的第一语义信息与标注信息中“蓝天”的第二语义信息的语义相似度,可确定第一叙述语音信息中“行人”的第一语义信息与标注信息中“树木”的第二语义信息的语义相似度,可确定第一叙述语音信息中“行人”的第一语义信息与标注信息中“公路”的第二语义信息的语义相似度,可确定第一叙述语音信息中“行人”的第一语义信息与标注信息中“行人”的第二语义信息的语义相似度。
在一种可能的实现方式中,在获得上述语义相似度后,可确定第一叙述语音信息中目标对象的类别的完整性评分和相似性评分。所述相似性评分可表示第一叙述语音信息中的目标对象的类别的描述与标注信息中目标对象的类别的描述的相似性。完整性评分则表示第一叙述语音信息中的目标对象的类别的描述相对于标注信息中目标对象的类别的描述是否完整。
在一种可能的实现方式中,针对上述完整性评分,所述相关性模块进一步用于:针对每个第一语义信息,在所述第二语义信息中,确定是否存在与所述第一语义信息的语义相似度大于或等于相似度阈值的第二语义信息;如果存在与所述第一语义信息的语义相似度大于或等于相似度阈值的第二语义信息,则将所述第一语义信息确定为类别准确的语义信息;确定所述类别准确的语义信息的第一数量;将所述第一数量与所述第一目标图像的标注信息中目标对象的类别数量之比,确定为所述完整性评分。
在一种可能的实现方式中,在确定完整性评分时,可首先判断第二语义信息中是否存在与第一语义信息的语义相似度(例如,余弦相似度)较高(即,语义相似度大于或等于相似度阈值)的信息,例如,第一叙述语音信息中的“天空”的第一语义信息与标注信息中的“蓝天”的第二语义信息的语义相似度大于或等于相似度阈值。然而,如果第一叙述语音信息中包含“月亮”的第一语义信息,则在多个第二语义信息中,不存在于“月亮”的第一语义信息语义相似度大于或等于相似度阈值的第二语义信息。可基于上述方式,针对每个第一语义信息,确定是否存在语义相似度大于或等于相似度阈值的第二语义信息,如果存在,则第一语义信息的类别描述是准确的,可将该第一语义信息确定为类别准确的语义信息。类别准确的语义信息的数量为第一数量。
在一种可能的实现方式中,第一数量与标注信息中目标对象的类别数量之比即为所述完整性评分。接上例,在第一叙述信息的4个类别的第一语义信息均存在语义相似度大于或等于相似度阈值的第二语义信息,则第一数量为4,第一目标图像的标注信息中目标对象的类别数量为5,则完整性评分为0.8。
在一种可能的实现方式中,可基于上述语义相似度,确定相似性评分,所述相关性模块进一步用于:确定各个第一语义信息对应的语义相似度的最大值;将各个语义相似度的最大值进行加权平均处理,获得所述相似性评分。
在示例中,与第一叙述语音信息中“太阳”的第一语义信息中的语义相似度最高的第二语义信息为标注信息中“太阳”的第二语义信息,例如,语义相似度为1,与第一叙述语音信息中“天空”的第一语义信息中的语义相似度最高的第二语义信息为标注信息中“蓝天”的第二语义信息,例如,语义相似度为0.8,与第一叙述语音信息中“树木”的第一语义信息中的语义相似度最高的第二语义信息为标注信息中“树木”的第二语义信息,例如,语义相似度为1,与第一叙述语音信息中“行人”的第一语义信息中的语义相似度最高的第二语义信息为标注信息中“行人”的第二语义信息,例如,语义相似度为1。又例如,如果第一叙述语音信息中包括“月亮”的第一语义信息,标注信息中各类别的第二语义信息与“月亮”的第一语义信息均为0,则与“月亮”的第一语义信息对应的语义相似度最大值为0。
在一种可能的实现方式中,可对各个语义相似度的最大值进行加权平均处理,获得所述相似性评分。例如,各个第一语义信息对应的语义相似度的最大值可一致,即,权重平均分配,直接进行平均即可获得相似性评分,也可将语义相似度最大值较低的第一语义信息的权重提高,从而使得相似性评分降低,从而更易确定描述错误的类别,进而可对受训者进行更准确的反馈,有针对性地提升受训者的语言描述能力。
在一种可能的实现方式中,在确定上述完整性评分和相似性评分后,可对完整性评分和相似性评分进行加权求和处理,或者相乘处理等,获得所述相关性,所述相关性即可描述第一叙述语音信息所包含的类别是否准确和完整,如果相关性评分较低,则可表示受训者的语言描述能力存在缺陷,可进一步确定受训者的语言描述是否准确和完整,即,确定使相关性评分较低的原因,进而可准确地提示受训者,从而有针对性地提升受训者的语言描述能力。如果相关性评分较高,即,符合相关性要求,例如,大于或等于相关性阈值,则可确定受训者对于图像中所包括的目标对象的识别能力较强,描述的较为准确和完整,可继续后续训练过程。
在一种可能的实现方式中,如果以上求解的相关性符合相关性要求,例如,大于或等于相关性阈值,所述装置则可进一步训练受训者提取图像中重点信息的能力,随机调整模块13可对第一目标图像中的目标对象所在区域进行随机调整,获得能够呈现各个目标对象的主次关系的第二目标图像。在第二目标图像中,可保留第一目标图像中所有的目标对象的类别,也可所有删减。并可改变部分目标对象占有的区域的面积或目标对象的数量。例如,将“行人”作为重要信息,则可将行人所在的区域放大,而缩小其他目标对象所在区域,例如,缩小“太阳”、“蓝天”、“树木”和“公路”在图像中所在区域的面积,甚至去掉“太阳”、“蓝天”等目标对象,在第二目标图像中仅保留“行人”、“树木”和“公路”,且“行人”所占有的区域的面积相对于“树木”和“公路”更大,即,“行人”为第二目标图像中的主要信息,“树木”和“公路”为第二目标图像中的次要信息。又例如,可增加“行人”的数量,从而提升“行人”的类别在第二目标图像中的重要性。本发明对改变类别的重要性的具体方式不做限制。
在一种可能的实现方式中,在获得调整后的第二目标图像后,所述装置可提示受训者描述第二目标图像中的重点信息,例如,生成“请描述你在图像中看到的主要内容”的声音提示消息,并开启麦克风准备接收受训者的语音。
在一种可能的实现方式中,接收模块14可通过麦克风接收受训者的基于第二目标图像表达的重要信息所描述的语音信息,并可经过语音识别模型进行识别,获得第二叙述语音信息。
在一种可能的实现方式中,重点叙述评分模块15可基于第二叙述语音信息和第二目标图像来确定重点叙述评分,重点叙述评分用于表示受训者提取图像中重点信息以及排除次要信息的能力,从而可有针对性地提升受训者的语言逻辑能力。
在一种可能的实现方式中,所述重点叙述评分模块进一步用于:通过重点信息检测模型,获取所述第二目标图像中的重点信息,其中,所述重点信息包括在所述第二目标图像中符合重要性要求的目标对象的目标类别,以及所述目标类别的目标对象的第一描述信息,其中,所述第一描述信息表示目标类别的目标对象的动作或状态;确定所述第二叙述语音信息中包括的目标对象的第一类别,以及所述目标对象的第二描述信息,其中,所述第二描述信息表示第二叙述语音信息中包括的目标对象的动作或状态;根据所述第一类别和所述目标类别,确定所述第二叙述语音信息的重要类别命中评分;根据所述第一类别中包含,且所述目标类别中不包含的第二类别,确定所述第二叙述语音信息的重要类别选择评分;获取所述第一描述信息的第一描述语义信息,以及所述第二描述信息的第二描述语义信息;确定所述第一描述语义信息和所述第二描述语义信息的描述相似度;根据所述第一描述信息的第一词性,以及第二描述信息的第二词性,确定描述词性评分;根据所述重点信息的第一字数,以及第二叙述语音信息的第二字数,确定字数评分;根据所述重要类别命中评分、所述重要类别选择评分、所述描述相似度、描述词性评分和字数评分,确定所述重点叙述评分。
在一种可能的实现方式中,所述重点信息检测模型可以是深度学习神经网络模型,对第二目标图像进行检测,确定第二目标图像中的目标对象的类别和各个目标对象之间的主次关系,并可生成描述主要的类别的目标对象及其动作或状态的语句。经过重点信息检测模型的处理,可生成第二目标图像中的重点信息,所述重点信息为描述第二目标图像中符合重要性要求(例如,所在区域的面积占比大于或等于比例阈值)的目标对象的目标类别和描述目标类别的目标对象的动作或状态的第一描述信息。
在一种可能的实现方式中,可确定第二叙述语音信息中的目标对象的第一类别以及描述其动作或状态的第二描述信息,例如,可对第二叙述语音信息进行分词处理,获得第二叙述语音信息的多个词语,并可确定其中包括的名词,从而确定第二叙述语音信息中包括的目标对象的第一类别,还可确定其中描述第一类别的目标对象的动作或状态的第二描述信息。
在一种可能的实现方式中,与以上在相关性模块中进行的去除无意义词语及重复词语的处理类似,所述重点叙述评分模块也可去除无意义词语和重复词语,从而获得第二叙述语音信息简洁的文字信息。
例如,第二叙述语音信息为“行人、嗯、行人在公路上、嗯、行走”,则可分词获得“行人”、“嗯”、“行人”、“在”、“公路”、“上”、“嗯”、“行走”,并获得每个分词的分词语义信息,进一步地,可基于分词语义信息,确定其中的重复词语并去除,例如,两个“行人”去除后面的一个,保留前面的一个。还可基于分词语义信息,确定其中的助词并去除,例如,去除其中的“嗯”。在进行上述处理后,可保留“行人”、“在”、“公路”、“上”、“行走”,即,第二叙述语音信息简洁的文字信息为“行人在公路上行走”。
在一种可能的实现方式中,可基于第一类别和目标类别确定第二叙述语音信息的重要类别命中评分,该评分可用于确定受训者的第二叙述语音信息中描述的目标对象的类别与重点信息检测模型检测到的具有重要性的目标类别是否相符。在示例中,可确定第一类别与目标类别的交集,交集中的类别数量与目标类别中的类别数量的比值越高,则重要类别命中评分越高。
在一种可能的实现方式中,还可通过描述类别的文字数量来确定重要类别命中评分。所述重点叙述评分模块进一步用于:
根据公式(1),确定所述重要类别命中评分M,
(1)
其中,cgi为目标类别中的第i个类别的权重,cgi=重点信息中描述第i个类别的文字数量/重点信息的文字总数,caj为第一类别和目标类别中均包含的第j个类别的权重,caj=第二叙述语音信息中描述第一类别和目标类别中均包含的第j个类别的文字数量/第二叙述语音信息的文字总数,n1为重点信息中包含的类别总数,n2为第一类别和目标类别中均包含的类别总数。其中,公式(1)的分子为第一类别和目标类别中均包含的类别的权重之和,亦为第二叙述语音信息中描述第一类别和目标类别中均包含的所有文字数量与第二叙述语音信息的文字总数之比。公式(1)的分母为重点信息中对各个类别的进行描述的文字数量之和与重点信息的文字总数之比。
在示例中,第二目标图像中对行人和公路进行了放大,对其他目标对象进行缩小,目标类别为行人和公路,重点信息例如为“行人在公路上行走”,基于该重点信息,公式(1)的分母中,描述行人的文字为“行人”和“行走”,共4个字,描述公路的文字为“公路”,共2个字,重点信息的文字总数为8个字,则公式(1)的分母为(2+4)/8=0.75。受训者对于第二目标图像进行叙述,获得的第二叙述语音信息例如为“行人在太阳下行走”,则该第二叙述语音信息中包括的目标对象的第一类别为行人和太阳,第一类别和目标类别中均包括的类别为行人,第二叙述语音信息中描述行人的文字为“行人”和“行走”,共4个字,第二叙述语音信息的文字总数为8,则公式(1)的分子为4/8=0.5。综上,基于公式(1),可确定重要类别命中评分M=0.5/0.75=0.67。
在一种可能的实现方式中,由于重点信息和第二叙述语音信息均为描述第二目标图像中重点信息的语句,不仅包括目标对象的类别,还包括描述该类别的信息,例如,该类别的目标对象正在进行的动作或状态等,因此,使用公式(1)中描述目标对象的类别的文字数量来确定重要类别命中评分,相对于使用重点信息和第二叙述语音信息包含的类别数量来计算重要类别命中评分,更适用于检测句子中包括的第一类别与目标类别是否相符。
在一种可能的实现方式中,除了确定第一类别与目标类别是否相符外,还可确定第二叙述语音信息中是否包含非重点的类别,从而确定受训者是否能在第二目标图像中找到重点。可根据第一类别中包含,且所述目标类别中不包含的第二类别,确定第二叙述语音信息的重要类别选择评分。所述重点叙述评分模块进一步用于:
根据公式(2),确定所述重要类别选择评分C:
(2)
其中,c1k为第一类别中的第k个类别的权重,c1k=第二叙述语音信息中描述第一类别中的第k个类别的文字数量/第二叙述语音信息的文字总数,c2t为第二类别中的第t个类别的权重,c2t=第二叙述语音信息中描述第二类别中的第t个类别的文字数量/第二叙述语音信息的文字总数,n3为第一类别中包含的类别总数,n4为第二类别中包含的类别总数。公式(2)的分数项的分母中,为第二叙述语音信息中描述各个类别的文字数量总和与第二叙述语音信息的文字总数之比。公式(2)的分数项的分子为第二叙述语音信息中描述各个类别的文字总数与第二叙述语音信息的文字总数之比。公式(2)的分数项则可表示描述非重点类别的文字数量与描述各个类别的文字数量之比,即,表示第二叙述语音信息中对于各类别的描述文字中,有多少比例是描述非重点类别的文字,使用1减去该分数项,则可表示第二叙述语音信息中对于各类别的描述文字中,有多少比例是描述重点类别的文字,可将该比例作为所述重要类别选择评分C,即,评价受训者对于重点类别的选择正确性的评分。
接上例,第二叙述语音信息例如为“行人在太阳下行走”,共8个字,第二叙述语音信息中的第一类别为行人和太阳,描述行人的文字为“行人”和“行走”,共4个字,描述太阳的文字为“太阳”,共2个字,则公式(2)的分数项的分母为(4+2)/8=0.75。第二类别为太阳,则公式(2)的分数项的分子为2/8=0.25,因此,基于公式(2)计算的重要类别选择评分C=1-0.25/0.75=0.67。
在一种可能的实现方式中,除以上描述类别的评分外,还可对描述动作或状态的文字进行评分,确定受训者对于目标对象的动作描述的准确性。如上例,第二叙述语音信息和重点信息中的动作描述均为“行走”,则受训者描述的动作是准确的。而如果受训者描述的动作为“奔跑”,则受训者描述的动作准确性不高。
在一种可能的实现方式中,可确定第一描述信息的第一描述语义信息,以及第二描述信息的第二描述语义信息,例如,可通过自然语言处理模型来获得第一描述语义信息和第二描述语义信息,并确定二者之间的相似度,即,描述相似度,例如,第一描述语义信息和第二描述语义信息均为向量形式的信息,可计算二者的余弦相似度,作为所述描述相似度。如果第一描述语义信息或第二描述语义信息的数量为二个或多个,则可计算与每个第一描述语义信息的余弦相似度最高的第二描述语义信息,从而确定每个第一描述语义信息对应的余弦相似度的最大值,并可将每个第一描述语义信息的余弦相似度最大值进行加权平均,获得描述相似度。
在一种可能的实现方式中,还可基于第一描述信息和第二描述信息中所包括的内容的词性,来确定第二描述信息的描述是否准确以及重点突出。例如,词性可包括名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词、拟声词等,描述目标对象的目标类别的内容通常为名词,则在第一描述信息和第二描述信息中,通常包括其他词性的内容,例如,动词、形容词等。如果针对相同类别的目标对象的第一描述信息和第二描述信息中包括的内容的词性不同,则可能是由于第二描述信息不准确,如果第二描述信息中所包括的词性的类别的数量多于第一描述信息中中所包括的词性的类别的数量,则可能是由于第二描述信息存在冗余内容引起的,可能导致第二描述信息描述的重点不突出。因此,词性的类别的数量与第二叙述语音信息的描述是否准确,以及是否突出重点是相关的。
在一种可能的实现方式中,可确定第一描述信息中包括的各个字词的第一词性,以及第二描述信息中各个字词的第二词性,并根据第一词性和第二词性确定描述词性评分,所述重点叙述评分模块进一步用于:
根据公式(3)确定描述词性评分P,
(3)
其中,T为目标类别的数量,ps2为第一类别中与目标类别的第s个类别相同的类别的第二描述信息的第二词性的类别总数,为第一类别中与目标类别的第s个类别相同的类别的第二描述信息的第二词性的类别中,与目标类别的第s个类别的第一描述信息的第一词性的类别不同的类别总数,w2为第二描述信息的字数,ws为第二描述信息中第s个类别的字数。/>表示第s个类别中不正确的词性的类型的占比,占比越大,则表示词性越不准确,可能导致第二描述信息不准确或重点不突出,通过对各类别的所述占比加权求和(权重为各类别的字数与总字数之比),并通过1减去该加权求和结果,可获得描述词性评分P,描述词性评分P越高,则表示词性的准确性越高,则第二描述信息中包括的字词的词性与第一描述信息中字词的词性的一致性越高,包含的冗余信息越少,重点越突出。
在一种可能的实现方式中,可根据重点信息的第一字数,以及第二叙述语音信息的第二字数,确定字数评分。第二叙述信息的字数不应与重点信息字数相差过多,如果第二字数大幅多于第一字数,则可能导致第二叙述语音信息的冗余信息过多,重点不突出,如果第二字数大幅少于第一字数,则可能导致第二语音信息中描述不完善或不准确。
在一种可能的实现方式中,可通过公式(4)确定字数评分W:
(4)
其中,wz为重点信息的第一字数,wx为第二叙述语音信息的第二字数,为第一字数和第二字数的偏差,1减去该偏差与第一字数之比可得到字数评分W,第一字数和第二字数偏差越大,则字数评分越低,反之,第一字数和第二字数偏差越小,则字数评分越高。
在一种可能的实现方式中,在获得重要类别命中评分、重要类别选择评分、描述相似度、描述词性评分和字数评分后,可进行加权平均或相乘等处理,获得重点叙述评分。即,评价受训者对于第二目标图像中的重点信息的描述准确性的评分。
在一种可能的实现方式中,提示消息模块16可基于重点叙述评分,确定提示消息,并播放提示消息。例如,提示消息模块可根据重点叙述评分确定受训者描述重点信息的准确性,从而基于准确性来生成提示消息。例如,重点叙述评分较高,则可生成例如“你的描述非常准确”等鼓励性提示消息,又例如,重点叙述评分较低,则可确定重点叙述评分较低的原因,例如,重要类别选择评分较低,导致重点叙述评分较低,则可生成例如“你的描述很好,但如果将‘太阳’换成‘公路’,就更能够突出重点了”等引导性提示消息。进一步地,所述装置可包括音响,可用于播放提示消息。受训者可在收到提示消息后选择继续训练或结束训练,例如,如果受训者选择继续训练,且如果上一次训练的重点叙述评分较高,则可选择包含目标对象的类别更多且更复杂的第一目标图像,如果上一次训练的重点叙述评分较低,则可选择与上一次选择的第一目标图像复杂度接近或复杂度更低的第一目标图像。本发明对第一目标图像的选择方式不做限制。
在一种可能的实现方式中,以上重点信息检测模型可在使用之前进行训练,可利用具有标注信息的样本图像进行训练,所述标注信息中可包括正确的重点信息,即,对于样本图像中的重要性较高的目标对象进行描述的语句。所述装置还包括训练模块,所述训练模块用于:将样本图像输入所述重点信息检测模型,获得所述样本图像中的样本重点信息;
根据公式(5)确定所述重点信息检测模型的损失函数Loss,
(5)
其中,α1、α2、α3、α4、α5、α6为预设权重,μ1、μ2和μ3为预设参数,cbi为所述标注信息中第i个类别的权重,cbi=标注信息中描述第i个类别的文字数量/标注信息中的文字总数,caj为标注信息和样本重点信息中均包括的第j个类别的权重,caj=样本重点信息描述所述均包括的第j个类别的文字数量/样本重点信息中的文字总数,n5为标注信息中包含的类别总数,n6为标注信息和样本重点信息中均包括的类别总数,cxj为标注信息中不包含但样本重点信息中包含的第j个类别的权重,cxj=样本重点信息中描述标注信息中不包含但样本重点信息中包含的第j个类别的文字数量/样本重点信息中的文字总数,cyi=样本重点信息中描述第i个类别的文字数量/样本重点信息中的文字总数,n7为样本重点信息中包含的类别总数,n8为标注信息中不包含但样本重点信息中包含的类别总数,dyt为样本重点信息中第t个描述信息的语义向量,dbt为标注信息中第t个描述信息的语义向量,ndb为标注信息中的描述信息的总数,样本重点信息中第t个描述信息和标注信息中第t个描述信息为同一目标对象的描述信息,myk为样本重点信息中第k个目标对象的语义向量,mbk为标注信息中第t个目标对象的语义向量,样本重点信息中第k个目标对象和标注信息中第t个目标对象为同一目标对象,nmb为标注信息中的目标对象的类别总数,T’为标注信息包括的目标类别的数量,psy为样本重点信息中与标注信息的第s个类别相同的类别的描述信息中包括的词性的类别总数,为样本重点信息中与标注信息的第s个类别相同的类别的描述信息中包括的词性的类别中,与标注信息的第s个类别的描述信息的词性的类别不同的类别总数,wb表示标注信息的总字数,wy表示样本重点信息的总字数;
根据所述损失函数,对所述重点信息检测模型进行训练,获得训练后的重点信息检测模型。
在一种可能的实现方式中,公式(5)中第1项的分式部分与重要类别命中评分的求解方式类似,其分子为标注信息和样本重点信息中均包括的类别的描述文字总数与样本重点信息中的文字总数之比,分母为标注信息中描述各类别的文字总数与标注信息的文字总数之比。该分式部分可表示样本重点信息描述的重点类别与标注信息中的类别是否相符。在训练时,第1项逐步缩小,则该分式部分逐步增大,使得样本重点信息描述的重点类别与标注信息中的类别在训练过程中越来越相符。
在一种可能的实现方式中,公式(5)中第2项与重要类别选择评分的分式部分的求解方式类似,其分子为样本重点信息中描述标注信息中不包含但样本重点信息中包含的类别的描述文字总数与样本重点信息中的文字总数之比,分母为样本重点信息中描述各类别的文字总数与样本重点信息中的文字总数之比,可用于表示样本重点信息描述非重点类别的文字数量的占比。在训练过程中,该项逐步缩小,可使得样本重点信息描述非重点类别的文字数量占比缩小,使得描述重点类别的文字数量占比增大,从而使得样本重点信息选择的重点类别的准确性提升。
在一种可能的实现方式中,公式(5)中第3项的分式部分为样本重点信息和标注信息中描述相同目标对象的动作信息的语义向量的余弦相似度,第3项在训练过程中逐步缩小,使得语义向量的余弦相似度逐步提升,从而使得样本重点信息对于动作的描述的准确性提升。
在一种可能的实现方式中,公式(5)中第4项的分式部分为样本重点信息和标注信息中相同目标对象的语义向量的余弦相似度,第4项在训练过程中逐步缩小,使得语义向量的余弦相似度逐步提升,从而使得样本重点信息对于目标对象的名称的描述的准确性提升。
在一种可能的实现方式中,公式(5)中第5项表示在描述各个类别的描述信息中,错误的词性类别的数量与词性类别总数的占比,并对该占比求和,在训练过程中,错误的词性类别的数量与词性类别总数的占比逐步缩小,词性类别的正确率逐步提升,从而使得样本重点信息中包括的词性的准确性提升。
在一种可能的实现方式中,公式(5)中第6项表示标注信息与样本重点信息的字数偏差与标注信息的字数之比,在训练过程中,该比值逐步缩小,则字数偏差逐步缩小,标注信息与样本重点信息的字数越来越接近,使得样本重点信息的重点更突出。
在一种可能的实现方式中,对上述六项进行加权求和,可获得重点信息检测模型的损失函数Loss,并可对损失函数进行反向传播,调整重点信息检测模型的参数,使得损失函数减小。在损失函数收敛后,或者在重点信息检测模型测试集中的测试结果符合要求后,可获得训练后的重点信息检测模型,并用于上述获取第二目标图像中的重点信息的过程中。
根据本发明的实施例的训练语言重点能力的装置,不仅可训练受训者(例如,儿童)将图像中的事物转换成语言的准确性和完整性,还可将图片进行随机调整,使得图片中的多种事物呈现出主次关系,进而训练受训者表达调整后的图片中的主要的重点信息的能力,并对该能力进行评价,在求解评分的过程中,使用文字数量来确定各个评分,相对于使用类别数量,更适用于计算描述重点信息的句子的评分。通过提示消息对受训者进行有针对性地反馈,可提升受训者的语言逻辑能力和提取重点信息的能力。并且,在训练过程不以专业人员的主观意志和过往经验为基础,提升训练的客观性和准确性,并可降低训练成本,易于推广。
图2示出根据本发明实施例的训练语言重点能力的设备的框图,如图2所示,处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述装置所执行的步骤。
在一种可能的实现方式中,所述设备还包括显示器,用于显示第一目标图像和第二目标图像。所述设备还包括麦克风,用于接收受训者的第一叙述语音信息和第二叙述语音信息。所述设备还包括音响,用于播放提示消息。
本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种训练语言重点能力的装置,其特征在于,包括:
选择模块,用于根据接收到的受训者的标识信息,从图像库中的多个图像中,选择与所述标识信息对应的第一目标图像,其中,所述图像库中存储多个图像,所述图像中具有多种目标对象;
相关性模块,用于接收受训者的关于所述第一目标图像中目标对象类别的第一叙述语音信息,并确定所述第一叙述语音信息与所述第一目标图像的相关性,其中,所述第一叙述语音信息为所述受训者描述的所述第一目标图像中目标对象的类别和数量的语音信息;
随机调整模块,用于在所述相关性符合相关性要求的情况下,对所述第一目标图像中的目标对象所在区域进行随机调整,获得第二目标图像,其中,所述第二目标图像中的目标对象的类别组成的集合为所述第一目标图像中目标对象的类别组成的集合的子集,且所述第二目标图像中至少部分类别的目标对象所占有的区域面积或数量相对于第一目标图像发生改变;
接收模块,用于接收受训者的关于第二目标图像表达的重要信息的第二叙述语音信息;
重点叙述评分模块,用于根据所述第二叙述语音信息和所述第二目标图像,确定所述第二叙述语音信息的重点叙述评分;
提示消息模块,用于根据所述重点叙述评分,确定提示消息,并播放提示消息。
2.根据权利要求1所述的训练语言重点能力的装置,其特征在于,所述相关性模块进一步用于:
获取所述第一叙述语音信息中所包括的各个目标对象的类别的第一语义信息;
获取所述第一目标图像的标注信息中各个目标对象的类别的第二语义信息;
根据所述第一语义信息和所述第二语义信息,确定与各个所述第一语义信息与各个第二语义信息的语义相似度;
根据所述语义相似度,确定所述第一叙述语音信息中目标对象的类别的完整性评分和相似性评分;
根据所述完整性评分和所述相似性评分,确定所述相关性。
3.根据权利要求2所述的训练语言重点能力的装置,其特征在于,所述相关性模块进一步用于:
对所述第一叙述语音信息的文字信息进行分词处理,获得所述第一叙述语音信息的多个词语;
确定每个词语的分词语义信息;
根据所述分词语义信息,筛选出所述多个词语中的无意义词语及重复词语;
去除所述无意义词语及重复词语;
将剩余词语的分词语义信息确定为所述第一语义信息。
4.根据权利要求2所述的训练语言重点能力的装置,其特征在于,所述相关性模块进一步用于:
针对每个第一语义信息,在所述第二语义信息中,确定是否存在与所述第一语义信息的语义相似度大于或等于相似度阈值的第二语义信息;
如果存在与所述第一语义信息的语义相似度大于或等于相似度阈值的第二语义信息,则将所述第一语义信息确定为类别准确的语义信息;
确定所述类别准确的语义信息的第一数量;
将所述第一数量与所述第一目标图像的标注信息中目标对象的类别数量之比,确定为所述完整性评分。
5.根据权利要求2所述的训练语言重点能力的装置,其特征在于,所述相关性模块进一步用于:
确定各个第一语义信息对应的语义相似度的最大值;
将各个语义相似度的最大值进行加权平均处理,获得所述相似性评分。
6.根据权利要求1所述的训练语言重点能力的装置,其特征在于,所述重点叙述评分模块进一步用于:
通过重点信息检测模型,获取所述第二目标图像中的重点信息,其中,所述重点信息包括在所述第二目标图像中符合重要性要求的目标对象的目标类别,以及所述目标类别的目标对象的第一描述信息,其中,所述第一描述信息表示目标类别的目标对象的动作或状态;
确定所述第二叙述语音信息中包括的目标对象的第一类别,以及所述目标对象的第二描述信息,其中,所述第二描述信息表示第二叙述语音信息中包括的目标对象的动作或状态;
根据所述第一类别和所述目标类别,确定所述第二叙述语音信息的重要类别命中评分;
根据所述第一类别中包含,且所述目标类别中不包含的第二类别,确定所述第二叙述语音信息的重要类别选择评分;
获取所述第一描述信息的第一描述语义信息,以及所述第二描述信息的第二描述语义信息;
确定所述第一描述语义信息和所述第二描述语义信息的描述相似度;
根据所述第一描述信息的各字词的第一词性,以及第二描述信息的各字词的第二词性,确定描述词性评分;
根据所述重点信息的第一字数,以及第二叙述语音信息的第二字数,确定字数评分;
根据所述重要类别命中评分、所述重要类别选择评分、所述描述相似度、描述词性评分和字数评分,确定所述重点叙述评分。
7.根据权利要求6所述的训练语言重点能力的装置,其特征在于,所述重点叙述评分模块进一步用于:
根据公式,确定所述重要类别命中评分M,其中,cgi为目标类别中的第i个类别的权重,cgi=重点信息中描述第i个类别的文字数量/重点信息的文字总数,caj为第一类别和目标类别中均包含的第j个类别的权重,caj=第二叙述语音信息中描述第一类别和目标类别中均包含的第j个类别的文字数量/第二叙述语音信息的文字总数,n1为重点信息中包含的类别总数,n2为第一类别和目标类别中均包含的类别总数。
8.根据权利要求6所述的训练语言重点能力的装置,其特征在于,所述重点叙述评分模块进一步用于:
根据公式,确定所述重要类别选择评分C,其中,c1k为第一类别中的第k个类别的权重,c1k=第二叙述语音信息中描述第一类别中的第k个类别的文字数量/第二叙述语音信息的文字总数,c2t为第二类别中的第t个类别的权重,c2t=第二叙述语音信息中描述第二类别中的第t个类别的文字数量/第二叙述语音信息的文字总数,n3为第一类别中包含的类别总数,n4为第二类别中包含的类别总数。
9.根据权利要求6所述的训练语言重点能力的装置,其特征在于,所述重点叙述评分模块进一步用于:
根据公式,确定描述词性评分P,其中,T为目标类别的数量,ps2为第一类别中与目标类别的第s个类别相同的类别的第二描述信息的第二词性的类别总数,/>为第一类别中与目标类别的第s个类别相同的类别的第二描述信息的第二词性的类别中,与目标类别的第s个类别的第一描述信息的第一词性的类别不同的类别总数,w2为第二描述信息的字数,ws为第二描述信息中第s个类别的字数。
10.根据权利要求9所述的训练语言重点能力的装置,其特征在于,所述装置还包括训练模块,所述训练模块用于:
将样本图像输入所述重点信息检测模型,获得所述样本图像中的样本重点信息;
根据公式
确定所述重点信息检测模型的损失函数Loss,其中,α1、α2、α3、α4、α5、α6为预设权重,μ1、μ2和μ3为预设参数,cbi为标注信息中第i个类别的权重,cbi=标注信息中描述第i个类别的文字数量/标注信息中的文字总数,caj为标注信息和样本重点信息中均包括的第j个类别的权重,caj=样本重点信息描述所述均包括的第j个类别的文字数量/样本重点信息中的文字总数,n5为标注信息中包含的类别总数,n6为标注信息和样本重点信息中均包括的类别总数,cxj为标注信息中不包含但样本重点信息中包含的第j个类别的权重,cxj=样本重点信息中描述标注信息中不包含但样本重点信息中包含的第j个类别的文字数量/样本重点信息中的文字总数,cyi=样本重点信息中描述第i个类别的文字数量/样本重点信息中的文字总数,n7为样本重点信息中包含的类别总数,n8为标注信息中不包含但样本重点信息中包含的类别总数,dyt为样本重点信息中第t个描述信息的语义向量,dbt为标注信息中第t个描述信息的语义向量,ndb为标注信息中的描述信息的总数,样本重点信息中第t个描述信息和标注信息中第t个描述信息为同一目标对象的描述信息,myk为样本重点信息中第k个目标对象的语义向量,mbk为标注信息中第t个目标对象的语义向量,样本重点信息中第k个目标对象和标注信息中第t个目标对象为同一目标对象,nmb为标注信息中的目标对象的类别总数,T’为标注信息包括的目标类别的数量,psy为样本重点信息中与标注信息的第s个类别相同的类别的描述信息中包括的词性的类别总数,为样本重点信息中与标注信息的第s个类别相同的类别的描述信息中包括的词性的类别中,与标注信息的第s个类别的描述信息的词性的类别不同的类别总数,wb表示标注信息的总字数,wy表示样本重点信息的总字数;
根据所述损失函数,对所述重点信息检测模型进行训练,获得训练后的重点信息检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311545070.0A CN117275319B (zh) | 2023-11-20 | 2023-11-20 | 训练语言重点能力的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311545070.0A CN117275319B (zh) | 2023-11-20 | 2023-11-20 | 训练语言重点能力的装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117275319A CN117275319A (zh) | 2023-12-22 |
CN117275319B true CN117275319B (zh) | 2024-01-26 |
Family
ID=89219967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311545070.0A Active CN117275319B (zh) | 2023-11-20 | 2023-11-20 | 训练语言重点能力的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117275319B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005185830A (ja) * | 2003-12-02 | 2005-07-14 | Matsushita Electric Ind Co Ltd | 視聴履歴情報蓄積記録媒体及び実体験サービスシステム |
CN107657858A (zh) * | 2017-10-18 | 2018-02-02 | 中山大学 | 一种语言训练系统及其实现方法 |
CN108431883A (zh) * | 2016-08-17 | 2018-08-21 | 海沼健 | 语言学习系统以及语言学习程序 |
CN109493968A (zh) * | 2018-11-27 | 2019-03-19 | 科大讯飞股份有限公司 | 一种认知评估方法及装置 |
CN115422918A (zh) * | 2022-08-12 | 2022-12-02 | 北京奇艺世纪科技有限公司 | 一种叙事对象的叙事能力评估方法及装置 |
CN115620089A (zh) * | 2022-11-07 | 2023-01-17 | 腾讯科技(深圳)有限公司 | 对象表征模型训练方法、对象表征方法和装置 |
CN116127006A (zh) * | 2022-10-26 | 2023-05-16 | 马上消费金融股份有限公司 | 智能交互方法、语言能力分类模型训练方法及装置 |
CN116343824A (zh) * | 2023-05-29 | 2023-06-27 | 新励成教育科技股份有限公司 | 口才表达能力的全面评估与解决方法、系统、装置及介质 |
US20230317064A1 (en) * | 2022-04-01 | 2023-10-05 | Yoodli, Inc. | Communication skills training |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080010068A1 (en) * | 2006-07-10 | 2008-01-10 | Yukifusa Seita | Method and apparatus for language training |
GB201706078D0 (en) * | 2017-04-18 | 2017-05-31 | Univ Oxford Innovation Ltd | System and method for automatic speech analysis |
KR101943520B1 (ko) * | 2017-06-16 | 2019-01-29 | 한국외국어대학교 연구산학협력단 | 비원어민의 영어 말하기 발음의 자동평가 시스템 및 이를 이용한 평가방법 |
US11895269B2 (en) * | 2021-08-24 | 2024-02-06 | Google Llc | Determination and visual display of spoken menus for calls |
-
2023
- 2023-11-20 CN CN202311545070.0A patent/CN117275319B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005185830A (ja) * | 2003-12-02 | 2005-07-14 | Matsushita Electric Ind Co Ltd | 視聴履歴情報蓄積記録媒体及び実体験サービスシステム |
CN108431883A (zh) * | 2016-08-17 | 2018-08-21 | 海沼健 | 语言学习系统以及语言学习程序 |
CN107657858A (zh) * | 2017-10-18 | 2018-02-02 | 中山大学 | 一种语言训练系统及其实现方法 |
CN109493968A (zh) * | 2018-11-27 | 2019-03-19 | 科大讯飞股份有限公司 | 一种认知评估方法及装置 |
US20230317064A1 (en) * | 2022-04-01 | 2023-10-05 | Yoodli, Inc. | Communication skills training |
CN115422918A (zh) * | 2022-08-12 | 2022-12-02 | 北京奇艺世纪科技有限公司 | 一种叙事对象的叙事能力评估方法及装置 |
CN116127006A (zh) * | 2022-10-26 | 2023-05-16 | 马上消费金融股份有限公司 | 智能交互方法、语言能力分类模型训练方法及装置 |
CN115620089A (zh) * | 2022-11-07 | 2023-01-17 | 腾讯科技(深圳)有限公司 | 对象表征模型训练方法、对象表征方法和装置 |
CN116343824A (zh) * | 2023-05-29 | 2023-06-27 | 新励成教育科技股份有限公司 | 口才表达能力的全面评估与解决方法、系统、装置及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117275319A (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105845134B (zh) | 自由朗读题型的口语评测方法及系统 | |
US9558337B2 (en) | Methods of creating a corpus of spoken CAPTCHA challenges | |
CN111833853B (zh) | 语音处理方法及装置、电子设备、计算机可读存储介质 | |
CN112487139B (zh) | 基于文本的自动出题方法、装置及计算机设备 | |
US11989524B2 (en) | Knowledge-grounded dialogue system and method for language learning | |
Howell et al. | Development of a two-stage procedure for the automatic recognition of dysfluencies in the speech of children who stutter: I. Psychometric procedures appropriate for selection of training material for lexical dysfluency classifiers | |
CN110675292A (zh) | 一种基于人工智能的儿童语言能力评测方法 | |
CN109697975B (zh) | 一种语音评价方法及装置 | |
Scholten et al. | Learning to recognise words using visually grounded speech | |
CN113486970B (zh) | 阅读能力评测方法及装置 | |
Yoon et al. | Off-Topic Spoken Response Detection with Word Embeddings. | |
Neumeyer et al. | Webgrader: a multilingual pronunciation practice tool | |
CN116597809A (zh) | 多音字消歧方法、装置、电子设备及可读存储介质 | |
CN117275319B (zh) | 训练语言重点能力的装置 | |
CN112116181A (zh) | 课堂质量模型的训练方法、课堂质量评价方法及装置 | |
CN113205813B (zh) | 语音识别文本的纠错方法 | |
Eskenazi et al. | Pinpointing pronunciation errors in children's speech: examining the role of the speech recognizer | |
Chen et al. | An Alignment Method Leveraging Articulatory Features for Mispronunciation Detection and Diagnosis in L2 English. | |
CN115440193A (zh) | 一种基于深度学习的发音评测打分方法 | |
CN111429886B (zh) | 一种语音识别方法及系统 | |
CN114241835A (zh) | 一种学生口语质量评测方法和设备 | |
van Doremalen | Developing automatic speech recognition-enabled language learning applications: from theory to practice | |
Johnson et al. | An Analysis of Large Language Models for African American English Speaking Children’s Oral Language Assessment | |
Hacker | Automatic assessment of children speech to support language learning | |
Varchavskaia et al. | Characterizing and processing robot-directed speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |