CN112307742A - 会话式人机交互口语测评方法、装置及存储介质 - Google Patents
会话式人机交互口语测评方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112307742A CN112307742A CN202011101041.1A CN202011101041A CN112307742A CN 112307742 A CN112307742 A CN 112307742A CN 202011101041 A CN202011101041 A CN 202011101041A CN 112307742 A CN112307742 A CN 112307742A
- Authority
- CN
- China
- Prior art keywords
- user
- evaluation
- voice
- conversation
- student
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 84
- 230000003993 interaction Effects 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 19
- 230000002452 interceptive effect Effects 0.000 claims description 13
- 230000009471 action Effects 0.000 claims description 12
- 230000004044 response Effects 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 3
- 230000000694 effects Effects 0.000 abstract description 10
- 238000004891 communication Methods 0.000 abstract description 9
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000002441 reversible effect Effects 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- HEFNNWSXXWATRW-UHFFFAOYSA-N Ibuprofen Chemical group CC(C)CC1=CC=C(C(C)C(O)=O)C=C1 HEFNNWSXXWATRW-UHFFFAOYSA-N 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B7/00—Electrically-operated teaching apparatus or devices working with questions and answers
- G09B7/02—Electrically-operated teaching apparatus or devices working with questions and answers of the type wherein the student is expected to construct an answer to the question which is presented or wherein the machine gives an answer to the question presented by a student
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Human Computer Interaction (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请涉及一种会话式人机交互口语测评方法、装置及存储介质,是一种基于人机对话、语音测评相关技术,应用于口语测评以场景驱动的任务导向型对话系统。本申请的测评系统具备三个主要特征:会话式、场景驱动、和任务导向。通过与用户的自然语言交流沟通的任务导向型对话系统,可以了解学生用户实际运用语言的能力和综合运用英语进行交际的能力,对学生用户的口语学习及教师进行口语教学起到反拨效应。
Description
技术领域
本申请涉及人机交互技术领域,尤其涉及一种会话式人机交互口语测评系统。
背景技术
口语测试主要有两种类型:面试和录音口试。面试的效度较高,但组织起来耗时耗力,在大规模口语考试中,采用人机交互的方式,考生只需通过计算机和耳麦设备完成对听力与口语试题的作答与全自动智能评分,可从句子韵律性、完整性、准确性等多维度进行评判,并能生成卷面答题评测报告。
在线语培产品中,采用语音识别技术和语音评测技术也已相当普遍,通过“听原音—跟读/复述—系统评分—多色彩视觉反馈—调整”的方式,对比学生用户的发音与机器的发音进行评分,学生在反复的练习下,达到英语听力与发音提高的目的。
发明内容
发明人经过长期的观察和研究发现,英语口语不同于其他课程,它不是以传授知识为主要目的,英语是知识、文化的载体,学生用户需要使用语言表达思想,与人进行交流,才能达到真正培养的目的。培养学生实际运用语言的能力和提高综合运用英语进行交际的能力,已成为英语口语主要的教学任务。考试和测评应该服务于教学,然而,应用于人机交互的英语测评技术还存在以下不足之处:
一、通过预录的语音考题考察学生口语水平,形式死板单一,不仅题目都是事先规定好的,而且考试的内容是指令式的,学生是被动的接受考题和评分,应试型口语考试通常都是学生说、考官听,然后打一个分数给学生,远远不能全面的反应教与学的状况。而面试中,考官与考生之间的情绪相互影响也会对评测的结果产生干扰。
二、传统课堂或在线口语测评,是应试型考试的终结性评量,是试题驱动的测评体验,通过一次性的期末考试判定学生一学期的学习结果,或者通过学期开始前的诊断测试,决定学生学习时所在的课程级别,然后学生再逐一往上升级。
三、学习中通过跟读/复述活动,学生用户对比自己的发音与机器的发音,从评分反馈中反复修正自己发音的练习,对英语听力与发音是有所帮助,但对于学生实际运用语言的能力和综合运用英语进行交际的能力,却无法通过现有的技术考察学生的实际水平,更产生不了对口语英语学习的启发作用。
有鉴于现有技术的上述缺陷,本申请提供一种会话式人机交互口语测评系统,是一种基于人机对话、语音测评相关技术,应用于口语测评以场景驱动的任务导向型对话系统。本申请的测评系统具备三个主要特征:会话式、场景驱动、和任务导向。通过与用户的自然语言交流沟通的任务导向型对话系统,可以了解学生用户实际运用语言的能力和综合运用英语进行交际的能力,对学生用户的口语学习及教师进行口语教学起到反拨效应。
本申请提供一种会话式人机交互口语测评系统,包括对话系统,对话系统包括:语音识别模块,语音识别模块被配置为能够识别用户的语音输入并转换成文本;意图理解模块,意图理解模块被配置为能够对转换后的文本进行语义理解,以识别用户意图;对话管理模块,对话管理模块被配置为能够基于意图理解模块的理解结果产生相应的系统动作;语言生成模块,语言生成模块被配置为能够将对话管理模块产生的系统动作转化为自然语言;以及语言合成模块,语言合成模块被配置为能够将自然语言转换成语音,并反馈给用户。
在一些实施例中,可选的,意图理解模块进一步被配置为能够进行槽位填充,其中,槽位是在对话过程中将用户意图转化为明确的用户指令所需要补全的信息。
在一些实施例中,可选的,意图理解模块进一步被配置为能够根据用户画像和/或场景化信息进行用户意图理解。
在一些实施例中,可选的,对话管理模块还包括对话状态跟踪模块,对话状态跟踪模块被配置为能够表示对话所处的阶段,并融合对话过程的上下文信息。
在一些实施例中,可选的,对话管理模块还包括对话策略学习模块,对话策略学习模块被配置为能够根据当前的对话状态,生成系统的下一步操作。
在一些实施例中,可选的,还包括测评系统,测评系统包括:情景对话语音和语义评测模块,情景对话语音和语义评测模块被配置为能够根据语音和语义的标准内容,对用户语音转换成的文本进行相似度对比,并得到语音测评得分和语义测评得分;语法评测和错误检查模块,语法评测和错误检查模块被配置为能够对用户语音转换成的文本进行语法检查,并得到语法测评得分;以及易混音评测模块,易混音评测模块被配置为能够对用户语音转换成的文本标示出易混音的错误,以进行易混音的测评。
在一些实施例中,可选的,对话管理模块进一步被配置为能够根据测评系统的测评结果产生相应的系统动作。
在一些实施例中,可选的,当用户语音和标准语音音素的相似度越高,语音测评得分越高;以及当用户表达的内容和对比参考答案的相似度越高,语义测评得分越高。
在一些实施例中,可选的,语法评测和错误检查模块进一步被配置为能够考察句子中的逻辑关系,逻辑关系包括以下一种或多种关系:主谓搭配、时态表达、句法结构、单复数。
在一些实施例中,可选的,会话式人机交互口语测评系统是基于单机和/或在线配置的计算机系统,以开展语言类内容的测评。
与现有技术相比,本申请的有益效果至少在于:
第一、本申请是一种会话型人机交互的口语测评系统,通过人机对话提供大量的跟不同虚拟人的交际机会,创设交际场景,通过反复的交流实践,能对学生用户的学习及教学起到积极的反拨作用,测试的反拨效应可以改变学生的学习态度,激发他们平时学习和使用口语的热情。再者,会话型人机交互的口语测评系统也能避免人类考官与考生之间的情绪相互影响。
第二、本申请是一种场景驱动的口语测评系统,是在一个有意义、且能够反映出所教授的内容,同时能体现出学习内容和学习过程的技术。不仅在完成学习任务的过程中可得到详尽的测评反馈,包括:发现学生用户在语音、语调、交际、表达存在的问题,分析问题产生的原因,并且可以收集到丰富的学生用户语音和采用的沟通策略,对后续老师对学生用户提供个性化的指导非常有意义。再者,场景驱动的测评可以降低学生用户的紧张感及焦虑度,比较真实地反映出学生用户真实的水平和表现。
第三、本申请是一种任务导向的口语测评系统,任务型口头交际活动重意思的表达,而非语言的规范形式,容易使学生用户体验到成功,体验到成就感,从而激发内在的学习兴趣和愿望,有更好的表现,交际型英语口语强调为学生用户提供亲身体验的机会,从参与真实自然和有交际意义的活动,去寻找知识、发现问题,建构自己的交流模式、概念和策略,通过完成任务达到传递信息、表达思想的学习目的。
以下将结合附图对本申请的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本申请的目的、特征和效果。
附图说明
当结合附图阅读以下详细说明时,本申请将变得更易于理解,在整个附图中,相同的附图标记代表相同的零件,其中:
图1为本申请中一个实施例的功能模块结构示意图。
图2为本申请中一个实施例的程序模块结构示意图。
具体实施方式
下面将对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部实施例。本申请可以通过许多不同形式的实施例来得以体现,本申请的保护范围并非仅限于文中提到的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本申请保护的范围。
本申请中所使用的诸如“第一”和“第二”等序数词仅仅用于区分和标识,而不具有任何其他含义,如未特别指明则不表示特定的顺序,也不具有特定的关联性。例如,术语“第一部件”本身并不暗示“第二部件”的存在,术语“第二部件”本身也不暗示“第一部件”的存在。
图1为本申请中一个实施例的功能模块结构示意图。如图1所示,会话式人机交互口语测评系统可以基于单机和/或在线配置的计算机系统,以开展语言类内容的测评,包括对话系统和测评系统。
对话系统包括语音识别模块、意图理解模块、对话管理模块、语言生成模块和语言合成模块。语音识别模块能够识别用户的语音输入并转换成文本;意图理解模块能够对转换后的文本进行语义理解,以识别用户意图;对话管理模块能够基于意图理解模块的理解结果产生相应的系统动作;语言生成模块能够将对话管理模块产生的系统动作转化为自然语言;语言合成模块能够将自然语言转换成语音,并反馈给用户。
在一些实施例中,语音识别模块负责识别学生用户的语音输入并转换成文本;意图理解模块负责对学生用户语音转换成的文本进行语义理解,包括用户意图识别和槽位填充,其中槽位是在对话过程中将用户意图转化为明确的用户指令所需要补全的信息;对话管理模块负责整体对话的管理,包括对话状态跟踪和对话策略学习;语言生成模块负责把对话策略模块选择的系统动作转化为自然语言;语言合成模块负责把文本转换成语音,最终反馈给学生用户。意图理解模块还能够根据用户画像和/或场景化信息进行用户意图理解。
意图可视为基于文本的多分类问题,即根据用户表述确定对应的类别,意图可以理解为某个应用的功能或流程,主要满足用户的请求和目的,当学生用户表述My name isCarol,或者表述This is Carol.都可能触发自我介绍的意图。槽位是多轮对话过程中将初步用户意图转化为明确用户指令所需要补全的信息,一个槽位与一件事情的处理中所需要获取的一种信息相对应,在学生用户表述My name is Carol中,Carol代表姓名的槽位,意图理解模块除了语音输入之外,同时考虑用户画像和场景化信息,更全面的语境可提高意图理解的准确度。
用户画像可以包括:学生用户的姓名、年级、所在地、口语水平维度,如:音准度、完整度、流利度等以及行为特征、性格爱好等。每一轮的对话会实时更新用户画像,并在下一轮的对话中影响语境信息,和上下文信息结合,达到虚拟人有记忆的功能,随着对话的频次增加,系统对学生用户也有更多的了解,虚拟人给予学生用户的反应也会更加流畅。
对话管理模块还可以包括对话状态跟踪模块和/或对话策略学习模块。对话状态跟踪模块能够表示对话所处的阶段,并融合对话过程的上下文信息。对话策略学习模块能够根据当前的对话状态,生成系统的下一步操作。在一些实施例中,对话状态跟踪模块用于对当前对话状态信息的表征,是对话系统内部对当前整个对话所处阶段的表示,融合了对话过程的上下文信息;对话策略学习模块用于根据当前的对话状态,生成系统的下一步操作。
测评系统可以包括情景对话语音和语义评测模块、语法评测和错误检查模块、易混音评测模块。情景对话语音和语义评测模块能够根据语音和语义的标准内容,对用户语音转换成的文本进行相似度对比,并得到语音测评得分和语义测评得分;语法评测和错误检查模块能够对用户语音转换成的文本进行语法检查,并得到语法测评得分;易混音评测模块能够对用户语音转换成的文本标示出易混音的错误,以进行易混音的测评。
在一些实施例中,在测评系统中可以包括情景对话的语音和语义评测、语法评测和错误检查和易混音评测三个模块,情景对话的语音和语义评测模块负责对学生用户语音转换成的文本针对语音和语义的标准内容做相似度的对比,当用户语音和标准语音音素的相似度越高,语音测评得分越高,当用户表达的内容和对比参考答案的相似度越高,语义测评得分越高。语法评测和错误检查负责对学生用户语音转换成的文本针对语法的错误评分并指出错误,主要考察句子中的逻辑关系,包括单复数、主谓搭配、时态表达、句法结构的使用等,语法的错误越少,测评得分越高。易混音评测模块负责对学生用户语音转换成的文本标示出易混音的错误,实现易混音的测评,需要在语音识别模块中用中国学生常犯错误纳入模型的训练语料中,避免语音识别模块主动纠正错误。
对话管理模块能够根据测评系统的测评结果产生相应的系统动作。在一些实施例中,测评系统三个模块的测评结果会进入对话系统的对话管理模块,对话管理模块得到测评系统对用户语音的测评结果后,可以结合测评目标和策略回应。
图2为本申请中一个实施例的程序模块结构示意图。如图2所示,系统先取出第一个考点,考点会对应一个场景内需完成的任务,学生用户在前端界面上看到任务的说明。
在一些实施例中,会话式人机交互口语测评系统中:所述任务的说明,对学生用户而言,是有会话背景和场景信息的,学生用户是去完成一个真实自然和有交际意义的任务型活动,当前端系统是虚拟现实时,学生用户还能从丰富的三维信息中获得和现实与人对话一般的体验。
通过采用这种技术方案:系统根据语境的信息开始进行对话,根据不同考点的需要,用户和系统都可能开始提问或者发问,当学生用户的语音通过语音识别转换成文本,并经过意图识别模块识别出意图后,该文本通过评测模块会得到语音、语义、语法和易混音多维度的得分和错误内容,这些新信息会更新到用户画像。
在一些实施例中,会话式人机交互口语测评系统中,所述评测模块包括:情景对话的语音和语义评测、语法评测和错误检查、易混音评测。评测的目的除了测评完成后展示测评报告需要,还会用来作为虚拟人回应对话的信息,据此做到人类对话时,根据不同对话对象自动调整语言复杂度、语速或厘清理解的作用。
通过采用这种技术方案:学生用户的语音通过语音识别转换成文本后,该文本通过意图识别取得对话的意图,并且根据学生用户的表述提取槽位,由此理解学生用户的语音,并且决定下一个对话的内容,通过语言生成,让虚拟人说出来,整个过程循环多个考点后直到测评结束,生成测评报告。
在一些实施例中,上述会话式人机交互口语测评系统中:所述测评报告包括:学生基本信息、口语水平过程的评测结果,并可以指出学生用户语音、语法错误所在,如语音不标准、语调不准确、常犯的语法错误等,进一步可以从学生用户的行为特征分析出综合运用语言的能力和使用的交际策略。
在一些实施例中,会话式人机交互口语测评系统可以包括:对话系统和测评系统二大部分。实践中,作为一个示例,其工作过程如下:
系统先取出第一个考点,考点会对应一个场景内需完成的任务,学生用户在前端界面上看到任务的说明,如:考点是通过英语表达来结识陌生人,系统可以通过富文本或者虚拟现实展示合适的对话场景,学生用户看到了任务说明如下:认识新朋友,礼貌地问候,并询问对方的姓名和来自何处。
系统根据语境的信息开始进行对话,该考点的设定是让用户开始提问,当学生用户说出“Hello,I'm Ray.What's your name?”,学生用户的语音通过语音识别转换成文本后,该文本通过意图识别取得对话的意图是打招呼,并且通过评测模块得到语音、语义、语法和易混音多维度的得分,并更新到用户画像中。
意图识别取得对话的意图是打招呼,并且根据学生用户的表述提取槽位,也就是提取出槽位为姓名,参数值是Ray,理解了学生用户的语音后,需要决定下一个对话的内容,通过语言生成,让虚拟人说出来,整个过程循环取出多个考点后直到测评结束,生成测评报告。
在有些实例中还包括:当系统说Where do you come from?之后,学生用户回应了一个家乡小城市地名,超出了系统可以理解的范围,系统在对话状态跟踪模块根据当前整个对话所处阶段,融合了对话过程的上下文信息,在对话策略学习模块采用通用回应策略,系统通过虚拟人回应Wow!That is a nice place!来保持会话得以继续进行。
在有些实例中还可以包括:当一个学生用户在一个搭飞机的场景中说“I want tomake a phone call.”系统从场景化信息模块中得知搭飞机时用手机是不允许的行为时,并且在用户画像中得知学生用户的社会交往规范分值较低,在对话策略选择中会优先选择严肃规劝的回应。
在一些实施例中,上述的各种方法、流程、模块、装置、设备或系统可以在一个或多个处理装置(例如,数字处理器、模拟处理器、被设计成用于处理信息的数字电路、被设计成用于处理信息的模拟电路、状态机、计算设备、计算机和/或用于以电子方式处理信息的其他机构)中被实现或执行。该一个或多个处理装置可以包括响应于以电子方式存储在电子存储介质上的指令来执行方法的一些或所有操作的一个或多个装置。该一个或多个处理装置可以包括通过硬件、固件和/或软件被配置而专门设计成用于执行方法的一项或多项操作的一个或多个装置。以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,根据本申请的技术方案及其发明构思加以等同替换或改变,都应涵盖在本申请的保护范围之内。
本申请的实施方式可以在硬件、固件、软件或其各种组合中进行。还可以作为存储在机器可读介质上的且可以使用一个或多个处理装置读取和执行的指令来实现本申请。在一个实施方式中,机器可读介质可以包括用于存储和/或传输呈机器(例如,计算装置)可读形式的信息的各种机构。例如,机器可读存储介质可以包括只读存储器、随机存取存储器、磁盘存储介质、光存储介质、快闪存储器装置以及用于存储信息的其他介质,并且机器可读传输介质可以包括多种形式的传播信号(包括载波、红外信号、数字信号)以及用于传输信息的其他介质。虽然在执行某些动作的特定示例性方面和实施方式的角度可以在以上公开内容中描述固件、软件、例程或指令,但将明显的是,这类描述仅出于方便目的并且这类动作实际上由机器设备、计算装置、处理装置、处理器、控制器、或执行固件、软件、例程或指令的其他装置或机器产生。
本说明书使用示例来公开本申请,其中的一个或多个示例被描述或者图示于说明书及其附图之中。每个示例都是为了解释本申请而提供,而不是为了限制本申请。事实上,对于本领域技术人员而言显而易见的是,不脱离本申请的范围或精神的情况下可以对本申请进行各种修改和变型。例如,作为一个实施例的一部分的图示的或描述的特征可以与另一个实施例一起使用,以得到更进一步的实施例。因此,其意图是本申请涵盖在所附权利要求书及其等同物的范围内进行的修改和变型。以上所述,仅为本申请的具体实施例,但本申请的保护范围并不局限于此,任何熟悉本领域技术的技术人员在本申请公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种会话式人机交互口语测评方法,其特征在于包括以下步骤:
识别学生用户的语音输入并转换成文本;
结合用户画像和场景化信息对转换后的文本进行语义理解,以识别所述学生用户在口语对话中的用户意图,所述用户画像包括用户的口语水平维度,所述场景化信息包括当前对话发生的虚拟场景;
基于理解结果产生相应的系统动作,并将产生的系统动作转化为自然语言;以及
将自然语言转换成语音,并反馈给所述学生用户;
对转换后的文本进行多维度的测评,并根据测评结果更新所述用户画像;以及
基于所述测评结果和所述理解结果,结合测评目标和对话策略而使得虚拟人对所述学生用户进行相应的语音回应以保持会话继续进行;
其中,当所述学生用户的回应超出了能够理解的范围时,根据当前整个对话所处阶段并融合对话过程的上下文信息表征当前对话状态,并根据所述当前对话状态采用通用回应策略并通过虚拟人回应通用语句来保持会话继续进行。
2.根据前述权利要求中任一项所述的方法,其特征在于:
进行槽位填充,通过用户表述提取槽位以理解用户语音并决定下一个对话的内容,其中,所述槽位是在对话过程中将所述用户意图转化为明确的用户指令所需要补全的信息。
3.根据前述权利要求中任一项所述的方法,其特征在于:
表示对话所处的阶段,并融合对话过程的上下文信息。
4.根据前述权利要求中任一项所述的方法,其特征在于:
根据当前的对话状态,生成系统的下一步操作。
5.根据前述权利要求中任一项所述的方法,其特征在于:
根据语音和语义的标准内容,对用户语音转换成的文本进行相似度对比,并得到语音测评得分和语义测评得分;
对用户语音转换成的文本进行语法检查,并得到语法测评得分;以及
对用户语音转换成的文本标示出易混音的错误,以进行易混音的测评。
6.根据前述权利要求中任一项所述的方法,其特征在于:
根据所述测评结果产生相应的系统动作。
7.根据前述权利要求中任一项所述的方法,其特征在于:
当用户语音和标准语音音素的相似度越高,所述语音测评得分越高;以及
当用户表达的内容和对比参考答案的相似度越高,所述语义测评得分越高。
8.根据前述权利要求中任一项所述的方法,其特征在于:
考察句子中的逻辑关系,所述逻辑关系包括以下一种或多种关系:主谓搭配、时态表达、句法结构、单复数。
9.一种会话式人机交互口语测评装置,包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序,其特征在于,所述处理器被配置为能够在执行所述计算机程序时实现根据权利要求1-8中任一项所述的会话式人机交互口语测评方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时能够实现根据权利要求1-8中任一项所述的会话式人机交互口语测评方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011101041.1A CN112307742B (zh) | 2019-08-23 | 2019-08-23 | 会话式人机交互口语测评方法、装置及存储介质 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910781649.4A CN110489756B (zh) | 2019-08-23 | 2019-08-23 | 会话式人机交互口语测评系统 |
CN202011101041.1A CN112307742B (zh) | 2019-08-23 | 2019-08-23 | 会话式人机交互口语测评方法、装置及存储介质 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910781649.4A Division CN110489756B (zh) | 2019-08-23 | 2019-08-23 | 会话式人机交互口语测评系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112307742A true CN112307742A (zh) | 2021-02-02 |
CN112307742B CN112307742B (zh) | 2021-10-22 |
Family
ID=68553024
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011101041.1A Active CN112307742B (zh) | 2019-08-23 | 2019-08-23 | 会话式人机交互口语测评方法、装置及存储介质 |
CN202011100849.8A Pending CN112232083A (zh) | 2019-08-23 | 2019-08-23 | 人机对话口语测评系统 |
CN201910781649.4A Active CN110489756B (zh) | 2019-08-23 | 2019-08-23 | 会话式人机交互口语测评系统 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011100849.8A Pending CN112232083A (zh) | 2019-08-23 | 2019-08-23 | 人机对话口语测评系统 |
CN201910781649.4A Active CN110489756B (zh) | 2019-08-23 | 2019-08-23 | 会话式人机交互口语测评系统 |
Country Status (1)
Country | Link |
---|---|
CN (3) | CN112307742B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114170864A (zh) * | 2021-11-11 | 2022-03-11 | 卡斯柯信号有限公司 | 智慧地铁全自动运行用的场景综合管理与验证方法及装置 |
CN115497455A (zh) * | 2022-11-21 | 2022-12-20 | 山东山大鸥玛软件股份有限公司 | 一种英语口语考试语音智能评测方法、系统及装置 |
CN118535683A (zh) * | 2024-07-18 | 2024-08-23 | 杭州菲助科技有限公司 | 人工智能驱动的多功能英语语言学习和评估方法及其应用 |
WO2024212692A1 (zh) * | 2023-04-13 | 2024-10-17 | 科大讯飞股份有限公司 | 口语学习方法、装置、设备及存储介质 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110956142A (zh) * | 2019-12-03 | 2020-04-03 | 中国太平洋保险(集团)股份有限公司 | 一种智能交互培训系统 |
CN110910687A (zh) * | 2019-12-04 | 2020-03-24 | 深圳追一科技有限公司 | 基于语音信息的教学方法、装置、电子设备及存储介质 |
CN111368191B (zh) * | 2020-02-29 | 2021-04-02 | 重庆百事得大牛机器人有限公司 | 基于法律咨询交互过程的用户画像系统 |
CN111767718B (zh) * | 2020-07-03 | 2021-12-07 | 北京邮电大学 | 一种基于弱化语法错误特征表示的中文语法错误更正方法 |
CN111768667A (zh) * | 2020-07-15 | 2020-10-13 | 唐山劳动技师学院 | 一种用于英语教学的互动式循环演示方法及系统 |
CN112951207B (zh) * | 2021-02-10 | 2022-01-07 | 网易有道信息技术(北京)有限公司 | 口语评测方法、装置及相关产品 |
CN114020894B (zh) * | 2021-11-08 | 2024-03-26 | 桂林电子科技大学 | 一种可实现多轮互动的智能测评系统 |
CN114065773A (zh) * | 2021-11-22 | 2022-02-18 | 山东新一代信息产业技术研究院有限公司 | 多轮问答系统历史上下文语义表示方法 |
CN114339303A (zh) * | 2021-12-31 | 2022-04-12 | 北京有竹居网络技术有限公司 | 一种互动评测方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030074253A1 (en) * | 2001-01-30 | 2003-04-17 | Scheuring Sylvia Tidwell | System and method for matching consumers with products |
CN105068661A (zh) * | 2015-09-07 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法和系统 |
CN105094315A (zh) * | 2015-06-25 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机智能聊天的方法和装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104050966B (zh) * | 2013-03-12 | 2019-01-01 | 百度国际科技(深圳)有限公司 | 终端设备的语音交互方法和使用该方法的终端设备 |
CN103594087B (zh) * | 2013-11-08 | 2016-10-12 | 科大讯飞股份有限公司 | 提高口语评测性能的方法及系统 |
CN106326307A (zh) * | 2015-06-30 | 2017-01-11 | 芋头科技(杭州)有限公司 | 一种语言交互方法 |
CN106558309B (zh) * | 2015-09-28 | 2019-07-09 | 中国科学院声学研究所 | 一种口语对话策略生成方法及口语对话方法 |
CN106558252B (zh) * | 2015-09-28 | 2020-08-21 | 百度在线网络技术(北京)有限公司 | 由计算机实现的口语练习方法及装置 |
CN105513593B (zh) * | 2015-11-24 | 2019-09-17 | 南京师范大学 | 一种语音驱动的智能人机交互方法 |
CN105741831B (zh) * | 2016-01-27 | 2019-07-16 | 广东外语外贸大学 | 一种基于语法分析的口语评测方法和系统 |
JP2018206055A (ja) * | 2017-06-05 | 2018-12-27 | コニカミノルタ株式会社 | 会話記録システム、会話記録方法およびケアサポートシステム |
CN109785698B (zh) * | 2017-11-13 | 2021-11-23 | 上海流利说信息技术有限公司 | 用于口语水平评测的方法、装置、电子设备以及介质 |
-
2019
- 2019-08-23 CN CN202011101041.1A patent/CN112307742B/zh active Active
- 2019-08-23 CN CN202011100849.8A patent/CN112232083A/zh active Pending
- 2019-08-23 CN CN201910781649.4A patent/CN110489756B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030074253A1 (en) * | 2001-01-30 | 2003-04-17 | Scheuring Sylvia Tidwell | System and method for matching consumers with products |
CN105094315A (zh) * | 2015-06-25 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机智能聊天的方法和装置 |
CN105068661A (zh) * | 2015-09-07 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 基于人工智能的人机交互方法和系统 |
Non-Patent Citations (1)
Title |
---|
刘宸 等: "智能应答系统在高校信息化服务中的应用研究", 《中国教育信息化》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114170864A (zh) * | 2021-11-11 | 2022-03-11 | 卡斯柯信号有限公司 | 智慧地铁全自动运行用的场景综合管理与验证方法及装置 |
CN114170864B (zh) * | 2021-11-11 | 2024-03-29 | 卡斯柯信号有限公司 | 智慧地铁全自动运行用的场景综合管理与验证方法及装置 |
CN115497455A (zh) * | 2022-11-21 | 2022-12-20 | 山东山大鸥玛软件股份有限公司 | 一种英语口语考试语音智能评测方法、系统及装置 |
WO2024212692A1 (zh) * | 2023-04-13 | 2024-10-17 | 科大讯飞股份有限公司 | 口语学习方法、装置、设备及存储介质 |
CN118535683A (zh) * | 2024-07-18 | 2024-08-23 | 杭州菲助科技有限公司 | 人工智能驱动的多功能英语语言学习和评估方法及其应用 |
Also Published As
Publication number | Publication date |
---|---|
CN112307742B (zh) | 2021-10-22 |
CN110489756B (zh) | 2020-10-27 |
CN112232083A (zh) | 2021-01-15 |
CN110489756A (zh) | 2019-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112307742B (zh) | 会话式人机交互口语测评方法、装置及存储介质 | |
Litman et al. | Speech technologies and the assessment of second language speaking: Approaches, challenges, and opportunities | |
Ekayati | Shadowing Technique on Students’ Listening Word Recognition | |
US11145222B2 (en) | Language learning system, language learning support server, and computer program product | |
McCrocklin | Learners’ feedback regarding ASR-based dictation practice for pronunciation learning | |
CN112819664A (zh) | 用于学习外语的设备及使用其提供外语学习服务的方法 | |
Blanchard et al. | A study of automatic speech recognition in noisy classroom environments for automated dialog analysis | |
Michael | Automated Speech Recognition in language learning: Potential models, benefits and impact | |
CN111833853A (zh) | 语音处理方法及装置、电子设备、计算机可读存储介质 | |
Daniels et al. | The suitability of cloud-based speech recognition engines for language learning. | |
CN106558252B (zh) | 由计算机实现的口语练习方法及装置 | |
KR20160008949A (ko) | 음성 대화 기반의 외국어 학습 방법 및 이를 위한 장치 | |
Evanini et al. | Overview of automated speech scoring | |
KR100995847B1 (ko) | 인터넷상에서의 소리분석 기반 어학 학습방법 및 시스템 | |
Wilske | Form and meaning in dialog-based computer-assisted language learning | |
Ureta et al. | At home with Alexa: a tale of two conversational agents | |
Lai et al. | An exploratory study on the accuracy of three speech recognition software programs for young Taiwanese EFL learners | |
JP2015060056A (ja) | 教育装置並びに教育装置用ic及び媒体 | |
Kasrani et al. | A Mobile Cloud Computing Based Independent Language Learning System with Automatic Intelligibility Assessment and Instant Feedback. | |
Shukla | Development of a human-AI teaming based mobile language learning solution for dual language learners in early and special educations | |
Dalton et al. | Using speech analysis to unmask perceptual bias: Dialect, difference, and tolerance | |
KR102689260B1 (ko) | 실시간 음성 인식 기반 강의 통역 플랫폼 운영 서버 및 방법 | |
US20240321131A1 (en) | Method and system for facilitating ai-based language learning partner | |
León-Montaño et al. | Design of the architecture for text recognition and reading in an online assessment applied to visually impaired students | |
KR20140004539A (ko) | 음성인식엔진을 이용한 외국어 콘텐츠에 관한 쌍방향 대화를 통한 외국어 이해력 증진 학습 서비스 제공 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PP01 | Preservation of patent right | ||
PP01 | Preservation of patent right |
Effective date of registration: 20221020 Granted publication date: 20211022 |