CN110046346B - 一种语料意图监控的方法和装置、终端设备 - Google Patents

一种语料意图监控的方法和装置、终端设备 Download PDF

Info

Publication number
CN110046346B
CN110046346B CN201910205540.6A CN201910205540A CN110046346B CN 110046346 B CN110046346 B CN 110046346B CN 201910205540 A CN201910205540 A CN 201910205540A CN 110046346 B CN110046346 B CN 110046346B
Authority
CN
China
Prior art keywords
corpus
information list
list
marked
confidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910205540.6A
Other languages
English (en)
Other versions
CN110046346A (zh
Inventor
魏誉荧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201910205540.6A priority Critical patent/CN110046346B/zh
Publication of CN110046346A publication Critical patent/CN110046346A/zh
Application granted granted Critical
Publication of CN110046346B publication Critical patent/CN110046346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语料意图监控的方法和装置、终端设备,包括:向正则表达式列表添加对应的语义槽,构建第一语料信息列表;在构建的所述第一语料信息列表中对设定语料进行标记;当所述正则表达式列表,和/或词库中的词条更新后,构建新语料信息列表,即为第二语料信息列表;在所述第一语料信息列表和所述第二语料信息列表中分别获取被标记的语料的置信度;根据获取的被标记的所述预设语料的置信度,并对被标记的所述预设语料的意图进行监控处理。通过正则表达式更新将新生成的语料句子与原生成语料的句子进行排序处理,当排序发生变化时,导致原本特殊标记的句子置信度低,提示异常,实现了语料意图监控,保证语料解析不受条件的限制。

Description

一种语料意图监控的方法和装置、终端设备
技术领域
本发明涉及语义解析领域,尤其涉及一种语料意图监控的方法和装置、 终端设备。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新 的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、 语音识别、图像识别、自然语言处理和专家系统等。其中,人工智能最重要的 方面就是语音识别技术。
在语音类产品的开发过程中,因为某些功能的特殊性,例如,无法识别用 户输入的方言,或者模糊语言等;需要保证某些语料在任意条件下的解析都需 要正确,不能因为收到新的正则和模型的影响而失效。
基于以上,本发明提供了解决以上技术问题的技术方案。
发明内容
本发明的目的是提供一种语料意图监控的方法和装置、终端设备,通过判 断语料置信度的降低,实现了对语料意图的实时监控,保证语料解析不受条件 的限制,解析更加准确。
本发明提供的技术方案如下:
一种语料意图监控的方法,包括:
步骤S100向正则表达式列表添加对应的语义槽,构建第一语料信息列表; 步骤S200在构建的第一语料信息列表中对设定语料进行标记;步骤S300当正 则表达式列表,和/或词库中的词条更新后,构建新语料信息列表,即为第二语 料信息列表;步骤S400在第一语料信息列表和第二语料信息列表中分别获取 被标记的语料的置信度;步骤S500根据步骤S400中获取的被标记的预设语料 的置信度,并对被标记的预设语料的意图进行监控处理。
上述方案,通过建立语义理解中使用到的所有正则表达式的列表,将列表 对应的语义槽用词库中的实体进行填充,生成一条一条的真实语料,将需要检 测,或者保护的语料进行特殊标记;当表征语义的正则表达式新增和词库中新 增词条后,再次执行填充操作,并对新生成的语料句子与原生成语料的句子进 行重新排序,当排序发生变化时,导致原本特殊标记的句子置信度降低,发送 异常信息,并进行相应的处理,实现了实时对语料意图监控,保证语料解析不 受条件的限制,解析更加准确。
进一步优选的,步骤S200还包括:步骤S210获取第一语料信息列表中每 个语料的置信度;步骤S220根据第一语料信息列表中每个语料的置信度进行 排序;步骤S230根据第一语料信息列表中每个语料的排序位置,对设定语料 进行标记。
进一步优选的,在步骤S300还包括:步骤S310获取第二语料信息列表中 每个语料的置信度;步骤S320根据第二语料信息列表中每个语料的置信度进 行排序;步骤S330在第二语料信息列表中获取被标记的预设语料的排序位置。
进一步优选的,步骤S500包括:步骤S510判断被标记的预设语料在第二 语料信息列表中的置信度是否高于第一语料信息列表中的置信度;步骤S520 当高于时,判定被标记的预设语料在第二语料信息列表中解析失效。
上述方案,将影响特殊标记句子的进行失效处理,这样可以保证其他 新句式的解析成功,又不影响特殊设定的句子,使其语义解析在任意条件 下的解析都正确,使其解析更加智能化,提高用户的体验度。
进一步优选的,正则表达式列表,和/或词库中关键词更新包括:增加正则 表达式,和/或增加新的词条,或对关键词进行更换。
一种语料意图监控的装置,包括:列表建立模块,用于向正则表达式列表 添加对应的语义槽,构建第一语料信息列表;语料标记模块,用于在构建的第 一语料信息列表中对设定语料进行标记;列表更新模块,用于当正则表达式列 表,和/或词库中的词条更新后,构建新语料信息列表,即为第二语料信息列表; 置信度提取模块,用于在第一语料信息列表和第二语料信息列表中分别提取被 标记的预设语料的置信度;监控处理模块,根据置信度获取模块中获取的被标 记的预设语料的置信度,并对被标记的预设语料的意图进行监控处理。
上述方案,通过建立语义理解中使用到的所有正则表达式列表,将列表对 应的语义槽用词库中的实体进行填充,生成一条一条的真实语料,将需要检测, 或者保护的语料进行特殊标记;当表征语义的正则表达式新增和词库中新增词 条后,执行上面的填充操作,并对新生成的语料句子与原生成语料的句子进行 重新排序,当排序发生变化时,导致原本特殊标记的句子置信度降低,发送异 常信息,并进行相应的处理,实现了实时对语料意图监控,保证语料解析不受 条件的限制,解析更加准确。
进一步优选的,语料标记模块包括:第一置信度获取子模块,获取第一语 料信息列表中每个语料的置信度;第一置信度排序子模块,根据第一语料信息 列表中每个语料的置信度进行排序;且根据第一语料信息列表中每个语料的排 序位置,对设定语料进行标记。
进一步优选的,列表更新模块包括:第二置信度获取子模块,获取第二语 料信息列表中每个语料的置信度;第二置信度排序子模块,根据第二语料信息 列表中每个语料的置信度进行排序;且在第二语料信息列表中获取被标记的预 设语料的排序位置。
进一步优选的,监控处理模块包括:置信度判断子模块,判断被标记的预 设语料在第二语料信息列表中的置信度是否高于第一语料信息列表中的置信 度;解析处理子模块,当高于时,判定被标记的预设语料在第二语料信息列表 中解析失效。
以上的技术方案,将影响特殊标记句子的进行失效处理,这样可以保 证其他新句式的解析成功,又不影响特殊设定的句子,使其语义解析在任 意条件下的解析都正确,使其解析更加智能化,提高用户的体验度。
一种终端设备,包括存储器、处理器以及存储在存储器中并可在处理 器上运行的计算机程序,其特征在于,处理器运行计算机程序时实现上述 述的语料意图监控的方法步骤。
本发明提供的一种语料意图监控的方法和装置、终端设备,至少包括以下 一种益效果:
本发明中,通过建立语义理解中使用到的所有正则表达式列表,将列表对 应的语义槽用词库中的实体进行填充,生成一条一条的真实语料,将需要检测, 或者保护的语料进行特殊标记;当表征语义的正则表达式新增和词库中新增词 条后,执行上面的填充操作,并对新生成的语料句子与原生成语料的句子进行 重新排序,当排序发生变化时,导致原本特殊标记的句子置信度降低,发送提 示异常,将影响特殊标记句子的进行失效处理,这样可以保证其他新句式 的解析成功,又不影响特殊设定的句子,使其语义解析在任意条件下的解 析都正确,使其解析更加智能化,提高用户的体验度。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种语料意图 监控的方法和装置、终端设备的上述特性、技术特征、优点及其实现方式予以 进一步说明。
图1是本发明一种语料意图监控的方法一实施例的流程图;
图2是本发明一种语料意图监控的方法另一实施例的流程图;
图3是本发明一种语料意图监控的装置一实施例的结构图;
图4是本发明终端设备一个实施例的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、 技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术 人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本发明。 在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明, 以免不必要的细节妨碍本发明的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括” 指示所述描述特征、整体、步骤、操作、元素和/或组件的存在,但并不 排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的 存在或添加。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它 们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有 些图中具有相同结构或功能的部件,仅示意性地绘出了其中的一个,或仅 标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以 表示“多于一个”的情形。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语 “和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能 组合,并且包括这些组合。
具体实现中,本发明实施例中描述的终端设备包括但不限于诸如具有 触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型 计算机、家教学习机或平板计算机之类的其他便携式设备。还应当理解的 是,在某些实施例中,所述终端设备并非便携式通信设备,而是具有触摸 敏感表面(例如:触摸屏显示器和/或触摸板)的台式计算机。
在接下来的讨论中,描述了包括显示器和触摸敏感表面的终端设备。 然而,应当理解的是,终端设备可以包括诸如物理键盘、鼠标和/或控制 杆的一个或多个其他物理用户接口设备。
终端设备支持各种应用程序,例如以下中的一个或多个:绘图应用程 序、演示应用程序、网络创建应用程序、文字处理应用程序、盘刻录应用 程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用 程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、 照片管理应用程序、数码相机应用程序、数字摄像机应用程序、Web浏览 应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。
可以在终端设备上执行的各种应用程序可以使用诸如触摸敏感表面 的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用 程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的 相应信息。这样,终端的公共物理架构(例如,触摸敏感表面)可以支持 具有对用户而言直观且透明的用户界面的各种应用程序。
另外,在本发明的描述中,术语“第一”、“第二”等仅用于区分描 述,而不能理解为指示或暗示相对重要性。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对 照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅 是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性 劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施 方式。
如图1所示为本发明的一种语料意图监控的方法实现流程图,该监控 方法可以应用于终端设备(例如:家教学习机,本实施例中为方便理解, 都以家教学习机作为主语解释,但本领域的技术人员均明白该语料意图监 控方法也可应用于其他终端设备,只要能实现相应功能即可),语料意图 监控的方法方法包括以下步骤:
步骤S100向正则表达式列表添加对应的语义槽,构建第一语料信息列表;
具体的,语料即语言材料,通俗理解就是用户所说的话。例如:用户对他 的终端设备说“中国唐代的著名诗人都有谁”这一句话,这句话的内容就是用 户的语料。
终端设备上都会配备有麦克风,可以内置,也可以外置,根据实际的产品 设计和实际使用情况决定。通过麦克风获取用户的语料,供终端设备进行后续 的语义解析、意图选择。
在本申请中,不同年龄段的学生或者小朋友对于语料的表述并不完整,家 教学习机针对用户输入的语料进行意图解析的方式也不同,因此家教学习机针 对于用户的不同,在使用家教机之前需要对使用者进行注册备案;如果是一年 级的小学生使用家教学习机,那么家教学习机会调用与该小学生年龄相匹配的 知识体系,以及比较相关的语义信息的解析方法;因此在建立正则表达式列表 时,根据用户的不同,以及使用环境的不同选取对应的正则表达式列表;例如: 正则表达式为:##名词库一##[为什么][会]##动词库二##,在这样一个正 则表达式中包括名词库和动词库,每一个正则表达式都有一一对应的词 库,也即为语义槽;语义槽就是实体集合库;通过正则表达式,并从对应 的语义槽中选择关键词进行填充,组合成完整的语料。在语义数据库中有 很多个正则表达式,同时也对应不同的词库;在每次使用过程中,根据选 择应用APP不同,则调取与APP相关的数据库进行解析;例如“汉字宝”, “小袁解题”又或者“音乐”等;将填充后的真实语料以列表的形式进行 展现。
步骤S200在构建的第一语料信息列表中对设定语料进行标记;
具体的,将填充后的真实语料以列表的形式进行展现,对其中的一个 语料或者多个多个语料进行标记;
例如,表一:
序号 填充的语料
ɑ语料1 A
语料2 B
语料3 C
语料4 D
通过上述生成的语料列表,对“语料1”进行打标。
步骤S300当正则表达式列表,和/或词库中的词条更新后,构建新语料信 息列表,即为第二语料信息列表;
具体的,当对第一正则表达式列表进行更新,或者对应的词库中词条增加, 或者对词库中不准确的词进行删除,根据更新后的正则表达式列表,即第二 语料信息列表,以及更新后的词库填充生成新的句式:参表二:
序号 更新后的语料
语料5 E
ɑ语料1 A
语料2 B
语料3 C
语料4 D
步骤S400在第一语料信息列表和第二语料信息列表中分别获取被标记的 语料的置信度;
具体的,参见上述的表一和表二,在表一中被标记的语料为“语料1”生成 的语料为A,在表格中排在第一位;在表二中对应标记的语料A在表格中排在 “语料5”的下一位;排序的位置发生了变化。
步骤S500根据步骤S400中获取的被标记的预设语料的置信度,并对被标 记的预设语料的意图进行监控处理。
具体的,当正则表达式列表,或者词库中词条发生变化后,直接影响到填 充后句子解析的置信度发生变化,导致原本特殊标记的句子置信度降低,这种 属于异常情况,可以很明显的检测出当收到新的正则和模型的时候,影响了原 正则解析不正确的问题,因此对新生成被标记的句子进行处理。
上述方案,通过建立语义理解中使用到的所有正则表达式列表,将列表对 应的语义槽用词库中的实体进行填充,生成一条一条的真实语料,将需要检测, 或者保护的语料进行特殊标记;当表征语义的正则表达式新增和词库中新增词 条后,执行上面的填充操作,并对新生成的语料句子与原生成语料的句子进行 重新排序,当排序发生变化时,导致原本特殊标记的句子置信度降低,提示异 常,实现了语料意图监控,保证在任何条件都能够对语料解析正确。
如图2所示的还提供一种语料意图监控方法另一的流程图;该监控方法可 以应用于终端设备(例如:家教学习机,本实施例中为方便理解,都以家 教学习机作为主语解释,但本领域的技术人员均明白该语料意图监控方法 也可应用于其他终端设备,只要能实现相应功能即可),语料意图监控的 方法方法包括以下步骤:
步骤S100向正则表达式列表添加对应的语义槽,构建第一语料信息列表;
步骤S210获取第一语料信息列表中每个语料的置信度;
步骤S220根据第一语料信息列表中每个语料的置信度进行排序;
步骤S230根据第一语料信息列表中每个语料的排序位置,对设定语料进 行标记;
具体的,根据正则表达式的意图,以及第一语料信息列表中每个语料的意 图,进行计算得到每个语料的置信度,并进行排序;在第一语料信息列表中选 定一个语料进行标记;如表一中,对“语料1,生成的句子A”。
置信度,就是用用户真实输入的句式对比命中的正则生成的数值;计算置 信度包括:例如名词词槽占有0.5比重,动词占有0.5的比重;进一步的根据 名词的属性进行分类;例如,动物名词,植物名词,代名词等;在进行意图进 行比对时,根据对应的句式结构进行比对,例如:原正则的意图为:花儿为什 么会放开?
而根据正则表达式以及词槽填充后的真实句子为:“鲸鱼为什么会喷水”;
“苹果为什么会是绿色”,以及“红花为什么会放开”;将对应生成真实 的句式的意图与正则的意图进行词槽一一比对;原正则的词库应该是植物名词 “花儿”;而“鲸鱼”是动物名字不能匹配;“苹果”是水果不能匹配;“红 花”和“花儿”的匹配度相对比较大,这样在名词的词槽中,添加的“红花” 在0.5的比重中,相对于要高,假设为0.4;其他相差甚远,这种可以按照设定 的相关规则进行打分。
步骤S300当正则表达式列表,和/或词库中的词条更新后,构建新语料信 息列表,即为第二语料信息列表;
步骤S400在第一语料信息列表和第二语料信息列表中分别获取被标记的 语料的置信度;
步骤S500根据步骤S400中获取的被标记的预设语料的置信度,并对被标 记的预设语料的意图进行监控处理。
如图2所示的还提供一种语料意图监控方法另一的流程图;该监控方法可 以应用于终端设备(例如:家教学习机,本实施例中为方便理解,都以家 教学习机作为主语解释,但本领域的技术人员均明白该语料意图监控方法 也可应用于其他终端设备,只要能实现相应功能即可),语料意图监控的 方法方法包括以下步骤:
步骤S100向正则表达式列表添加对应的语义槽,构建第一语料信息列表;
步骤S210获取第一语料信息列表中每个语料的置信度;
步骤S220根据第一语料信息列表中每个语料的置信度进行排序;
步骤S230根据第一语料信息列表中每个语料的排序位置,对设定语料进 行标记;
步骤S310获取第二语料信息列表中每个语料的置信度;
步骤S320根据第二语料信息列表中每个语料的置信度进行排序;
步骤S330在第二语料信息列表中获取被标记的预设语料的排序位置;
具体的,第二语料信息列表的建立,是基于原正则表达式列表,和/或词库 中的词条更新后,构建新语料信息列表,即为第二语料信息列表;同样是根据 正则表达式的意图,以及第二语料信息列表中每个语料的意图,进行计算得到 每个语料的置信度,并进行排序;在第二语料信息列表中找到被标记的“语料 1,生成的句子A”;再次根据上述方法计算置信度,在此不再赘述。
步骤S400在第一语料信息列表和第二语料信息列表中分别获取被标记的 语料的置信度;
步骤S510判断被标记的预设语料在第二语料信息列表中的置信度是否高 于第一语料信息列表中的置信度;
步骤S520当高于时,判定被标记的预设语料在第二语料信息列表中解析 失效。
具体的,通过上述的实施例中分别计算出对标记的语料的置信度,在当前 列表中的位置,当第一语料列表中被标记的“语料1,生成的句子A”的解析 后的排序第一;当第二语料列表中被标记的“语料1,生成的句子A”的解析 后的排序第二,在之前排了“语料5,生成的句子E”,造成“语料1,生成的 句子A”排序降低是由于置信度变化,导致原本特殊标记的句子置信度降低, 这种是解析失效的,提示异常,其处理的方式为:将新增的“句子E”设置为失效状态,新增的正则表达式不失效。当“当句子E”失效为无效状 态后,使第二语料列表中被标记的“语料1,生成的句子A”仍为第一。
上述方案,将影响特殊标记句子的进行失效处理,这样可以保证其他 新句式的解析成功,又不影响特殊设定的句子,使其语义解析在任意条件 下的解析都正确,使其解析更加智能化,提高用户的体验度。
优选的,正则表达式列表,和/或词库中关键词更新包括:增加正则 表达式,和/或增加新的词条,或对关键词进行更换。
图3是本发明一种语料意图监控的装置的示意图,包括:为了便于说 明,仅示出了与本发明实施例相关的部分。
该语料意图监控的装置可以是内置于终端设备内的软件单元、硬件单 元或者软硬结合的单元,也可以作为独立的挂件集成到终端设备中。
语料意图监控的装置包括:
列表建立模块100,用于向正则表达式列表添加对应的语义槽,构建第一 语料信息列表;
具体的,语料即语言材料,通俗理解就是用户所说的话。例如:用户对他 的终端设备说“中国唐代的著名诗人都有谁”这一句话,这句话的内容就是用 户的语料。
终端设备上都会配备有麦克风,可以内置,也可以外置,根据实际的产品 设计和实际使用情况决定。通过麦克风获取用户的语料,供终端设备进行后续 的语义解析、意图选择。
不同年龄段的学生或者小朋友对于语料的表述并不完整,家教学习机针对 用户输入的语料进行意图解析的方式也不同,因此家教学习机针对于用户的不 同,可以为不同年龄阶段学生,在使用家教机之前需要对使用者进行注册备案; 如果是一年级的小学生使用家教学习机,那么家教学习机会调用与该小学生年 龄相匹配的知识体系,以及比较相关的解析方法;因此在建立正则表达式列表 时,根据用户的不同,以及使用环境的不同选取对应的正则表达式列表;例如: 正则表达式为:##名词库一##[为什么][会]##动词库二##,在这样一个正 则表达式中包括名词库和动词库,每一个正则表达式都有一一对应的词库,也即为语义槽;语义槽就是实体集合库;通过正则表达式,并从对应 的语义槽中选择关键词进行填充,组合成完整的语料。在语义数据库中有 很多个正则表达式,同时也对应不同的词库;在每次使用过程中,根据选 择应用APP不同,则调取与APP相关的数据库进行解析;例如“汉字宝”, “小袁解题”又或者“音乐”等;将填充后的真实语料以列表的形式进行展现。
语料标记模块200,用于在构建的第一语料信息列表中对设定语料进行标 记;
具体的,将填充后的真实语料以列表的形式进行展现,对其中的一个 语料或者多个多个语料进行标记;
例如,表一:
序号 填充后的语料
ɑ语料1 A
语料2 B
语料3 C
语料4 D
通过上述生成的语料列表,对“语料1”进行打标。
列表更新模块300,用于当正则表达式列表,和/或词库中的词条更新后, 构建新语料信息列表,即为第二语料信息列表;
具体的,当第一正则表达式列表进行更新,或者对应的词库中词条增加, 或者对词库中不准确的词进行删除,根据更新后的正则表达式列表,即第二 语料信息列表,以及更新后的词库进行填充生成新句式为:参表二:
置信度提取模块400,用于在第一语料信息列表和第二语料信息列表中分 别提取被标记的预设语料的置信度;
具体的,参见上述的表一和表二,在表一中被标记的语料为“语料A”生成 的语料为A,在表格中排在第一位;在表二中对应标记的语料A在表格中排在 语料5的下一位;排序的位置发生了变化。
监控处理模块500,根据置信度获取模块中获取的被标记的预设语料的置 信度,并对被标记的预设语料的意图进行监控处理。
具体的,当正则表达式列表,或者词库中词条发生变化后,直接影响到填 充后句子解析的置信度发生变化,根据导致原本特殊标记的句子置信度降低, 这种属于异常情况,可以很明显的检测出当收到新的正则和模型的时候,影响 了原正则解析不正确的问题,因此对新生成被标记的句子进行处理。
通过上述方案,通过建立语义理解中使用到的所有正则表达式列表,将列 表对应的语义槽用词库中的实体进行填充,生成一条一条的真实语料,将需要 检测,或者保护的语料进行特殊标记;当表征语义的正则表达式新增和词库中 新增词条后,执行上面的填充操作,并对新生成的语料句子与原生成语料的句 子进行重新排序,当排序发生变化时,导致原本特殊标记的句子置信度降低, 提示异常,实现了语料意图监控,保证在任何条件都能够对语料解析正确。
如图3所示本发明是语料意图监控的装置的另一示意图,该语料意图 监控的装置可以是内置于终端设备内的软件单元、硬件单元或者软硬结合 的单元,也可以作为独立的挂件集成到终端设备中。
在该语料意图监控的装置中包括:
列表建立模块100,用于向正则表达式列表添加对应的语义槽,构建第一 语料信息列表;
第一置信度获取子模块210,获取第一语料信息列表中每个语料的置信度;
第一置信度排序子模块220,根据第一语料信息列表中每个语料的置信度 进行排序;且根据第一语料信息列表中每个语料的排序位置,对设定语料进行 标记。
具体的,根据正则表达式的意图,以及第一语料信息列表中每个语料的意 图,进行计算得到每个语料的置信度,并进行排序;在第一语料信息列表中选 定一个语料进行标记;如表一中,对“语料1,生成的句子A”。
置信度就是用用户真实输入的句式对比命中的正则生成的数值;计算置信 度包括:例如名词词槽占有0.5比重,动词占有0.5的比重;进一步的根据名 词的属性进行分类;例如,动物名词,植物名词,代名词等;在进行意图进行 比对时,根据对应的句式结构进行比对,例如:原正则的意图为:花儿为什么 会放开?
而根据正则表达式以及词槽填充后的真实句子为:“鲸鱼为什么会喷水”;
“苹果为什么会是绿色”,以及“红花为什么会放开”;将对应生成真实 的句式的意图与正则的意图进行词槽一一比对;原正则的词库应该是植物名词 “花儿”;而“鲸鱼”是动物名字不能匹配;“苹果”是水果不能匹配;“红 花”和“花儿”的匹配度相对比较大,这样在名词的词槽中,添加的“红花” 在0.5的比重中,相对于要高,假设为0.4;其他相差甚远,这种可以按照设定 的相关规则进行打分。
列表更新模块300,用于当正则表达式列表,和/或词库中的词条更新后, 构建新语料信息列表,即为第二语料信息列表;
置信度提取模块400,用于在第一语料信息列表和第二语料信息列表中分 别提取被标记的预设语料的置信度;
监控处理模块500,根据置信度获取模块中获取的被标记的预设语料的置 信度,并对被标记的预设语料的意图进行监控处理。
如图3所示本发明是语料意图监控的装置的另一示意图,该语料意图 监控的装置可以是内置于终端设备内的软件单元、硬件单元或者软硬结合 的单元,也可以作为独立的挂件集成到终端设备中。
在该语料意图监控的装置中包括:
列表建立模块100,用于向正则表达式列表添加对应的语义槽,构建第一 语料信息列表;
第一置信度获取子模块210,获取第一语料信息列表中每个语料的置信度;
第一置信度排序子模块220,根据第一语料信息列表中每个语料的置信度 进行排序;
且根据第一语料信息列表中每个语料的排序位置,对设定语料进行标记;
第二置信度获取子模块310,获取第二语料信息列表中每个语料的置信度;
第二置信度排序子模块320,根据第二语料信息列表中每个语料的置信度 进行排序;且在第二语料信息列表中获取被标记的预设语料的排序位置;
具体的,第二语料信息列表的建立,是基于原正则表达式列表,和/或词库 中的词条更新后,构建新语料信息列表,即为第二语料信息列表;同样是根据 正则表达式的意图,以及第二语料信息列表中每个语料的意图,进行计算得到 每个语料的置信度,并进行排序;在第二语料信息列表中找到被标记的“语料 1,生成的句子A”;再次根据上述方法计算置信度,在此不再赘述。
置信度提取模块400,用于在第一语料信息列表和第二语料信息列表中分 别提取被标记的预设语料的置信度;
置信度判断子模块510,判断被标记的预设语料在第二语料信息列表中的 置信度是否高于第一语料信息列表中的置信度;
解析处理子模块520,当高于时,判定被标记的预设语料在第二语料信息 列表中解析失效。
具体的,通过上述的实施例中分别计算出对标记的语料的置信度,在当前 列表中的位置,当第一语料列表中被标记的“语料1,生成的句子A”的解析 后的排序第一;当第二语料列表中被标记的“语料1,生成的句子A”的解析 后的排序第二,在之前排了“语料5,生成的句子E”,造成“语料1,生成的 句子A”排序降低是由于置信度变化,导致原本特殊标记的句子置信度降低, 这种是解析失效的,提示异常,其处理的方式为:将新增的“句子E”设置为失效状态,新增的正则表达式不失效。当“当句子E”失效为无效状 态后,使第二语料列表中被标记的“语料1,生成的句子A”仍为第一。
上述方案,将影响特殊标记句子的进行失效处理,这样可以保证其他 新句式的解析成功,又不影响特殊设定的句子,使其语义解析在任意条件 下的解析都正确,使其解析更加智能化,提高用户的体验度。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅 以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将 上述功能分配由不同的程序模块完成,即将所述装置的内部结构划分成不 同的程序单元或模块,以完成以上描述的全部或者部分功能。实施例中的 各程序模块可以集成在一个处理单元中,也可是各个单元单独物理存在, 也可以两个或两个以上单元集成在一个处理单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序单元的形式实现。另外,各 程序模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保 护范围。
图4是本发明一个实施例中提供的终端设备5的结构示意图。如图4所 示,本实施例的终端设备5包括:处理器53、存储器51以及存储在存储器 51中并可在处理器53上运行的计算机程序52,例如:多意图的识别程序。 处理器53执行计算机程序52时实现上述各个语料意图监控方法实施例中 的步骤,或者,处理器53执行计算机程序52时实现上述各多意图的识别装 置实施例中各模块的功能。
终端设备5可以为桌上型计算机、笔记本、掌上电脑、平板型计算机、 手机、家教学习机等设备。终端设备5可包括,但不仅限于,处理器53、 存储器51。本领域技术人员可以理解,图4仅仅是终端设备的示例,并不 构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合 某些部件,或者不同的部件,例如:终端设备还可以包括输入输出设备、 显示设备、网络接入设备、总线等。
处理器53可以是中央处理单元(Central Processing Unit,CPU),还可 以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、 专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编 程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器 件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微 处理器或者该处理器也可以是任何常规的处理器等。
存储器51可以是终端设备5的内部存储单元,例如:终端设备的硬盘 或内存。存储器也可以是终端设备的外部存储设备,例如:终端设备上配 备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器51还可以既 包括终端设备5的内部存储单元也包括外部存储设备。存储器51用于存储 计算机程序52以及终端设备5所需要的其他程序和数据。存储器还可以用 于暂时地存储已经输出或者将要输出的数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没 有详细描述或记载的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的 各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件 的结合来实现。这些功能究竟以硬件还是软件来执行,取决于技术方案的 特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不 同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备 和方法,可以通过其他的方式实现。例如,以上所描述的装置/终端设备 实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑 功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可 以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另 一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过 一些接口,装置或单元的间接耦合或通讯连接,可以是电性、机械或其他 的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的, 作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地 方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的 部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可能集成在一个处理单元 中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在 一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软 件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的 产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的 理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算 机程序发送指令给相关的硬件完成,所述的计算机程序可存储于一计算机 可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法 实施例的步骤。其中,所述计算机程序包括:计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形 式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码 的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存 储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM, Random Access Memory)、电载波信号、电信信号以及软件分发介质等。 需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区 内立法和专利实践的要求进行适当的增减,例如:在某些司法管辖区,根 据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本 发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说, 在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和 润饰也应视为本发明的保护范围。

Claims (4)

1.一种语料意图监控的方法,其特征在于,包括:
步骤S100向正则表达式列表添加对应的语义槽,将对应的语义槽用词库中的实体语料进行填充,构建具有真实语料的第一语料信息列表;
步骤S200在构建的所述第一语料信息列表中对预设语料进行标记;所述步骤S200还包括:步骤S210获取所述第一语料信息列表中每个语料的置信度;步骤S220根据所述第一语料信息列表中每个语料的置信度进行排序;步骤S230根据所述第一语料信息列表中每个语料的排序位置,对所述预设语料进行标记;
步骤S300当所述正则表达式列表,和/或词库中的词条更新后,构建新语料信息列表,即为第二语料信息列表;所述步骤S300还包括:步骤S310获取所述第二语料信息列表中每个语料的置信度;步骤S320根据所述第二语料信息列表中每个语料的置信度进行排序;步骤S330在所述第二语料信息列表中获取被标记的所述预设语料的排序位置;
步骤S400在所述第一语料信息列表和所述第二语料信息列表中分别提取被标记的所述预设语料的置信度;
步骤S510判断被标记的所述预设语料在所述第二语料信息列表中的置信度是否高于所述第一语料信息列表中的置信度;
步骤S520当高于时,判定被标记的所述预设语料在所述第二语料信息列表中解析失效。
2.根据权利要求1所述的语料意图监控的方法,其特征在于,所述正则表达式列表,和/或词库中关键词更新包括:增加正则表达式,和/或增加新的词条,或对关键词进行更换。
3.一种语料意图监控的装置,其特征在于,包括:
列表建立模块,用于向正则表达式列表添加对应的语义槽,将对应的语义槽用词库中的实体语料进行填充,构建具有真实语料的第一语料信息列表;
语料标记模块,用于在构建的所述第一语料信息列表中对预设语料进行标记;所述语料标记模块包括:第一置信度获取子模块,获取所述第一语料信息列表中每个语料的置信度;第一置信度排序子模块,根据所述第一语料信息列表中每个语料的置信度进行排序;且根据所述第一语料信息列表中每个语料的排序位置,对所述预设语料进行标记;
列表更新模块,用于当所述正则表达式列表,和/或词库中的词条更新后,构建新语料信息列表,即为第二语料信息列表;所述列表更新模块包括:第二置信度获取子模块,获取所述第二语料信息列表中每个语料的置信度;第二置信度排序子模块,根据所述第二语料信息列表中每个语料的置信度进行排序;且在所述第二语料信息列表中获取被标记的所述预设语料的排序位置;
置信度提取模块,用于在所述第一语料信息列表和所述第二语料信息列表中分别提取被标记的所述预设语料的置信度;
监控处理模块,根据所述置信度提取模块中获取的被标记的所述预设语料的置信度,并对被标记的所述预设语料的意图进行监控处理;
所述监控处理模块包括:
置信度判断子模块,判断被标记的所述预设语料在所述第二语料信息列表中的置信度是否高于所述第一语料信息列表中的置信度;
解析处理子模块,当高于时,判定被标记的所述预设语料在所述第二语料信息列表中解析失效。
4.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时实现如权利要求1-2中任一项所述的语料意图监控的方法步骤。
CN201910205540.6A 2019-03-18 2019-03-18 一种语料意图监控的方法和装置、终端设备 Active CN110046346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910205540.6A CN110046346B (zh) 2019-03-18 2019-03-18 一种语料意图监控的方法和装置、终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910205540.6A CN110046346B (zh) 2019-03-18 2019-03-18 一种语料意图监控的方法和装置、终端设备

Publications (2)

Publication Number Publication Date
CN110046346A CN110046346A (zh) 2019-07-23
CN110046346B true CN110046346B (zh) 2023-07-25

Family

ID=67274923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910205540.6A Active CN110046346B (zh) 2019-03-18 2019-03-18 一种语料意图监控的方法和装置、终端设备

Country Status (1)

Country Link
CN (1) CN110046346B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112102844B (zh) * 2020-11-09 2021-02-05 苏州思必驰信息科技有限公司 离线识别xbnf的编写和维护方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009156773A1 (en) * 2008-06-27 2009-12-30 Monting-I D.O.O. Device and procedure for recognizing words or phrases and their meaning from digital free text content
CN104951433A (zh) * 2015-06-24 2015-09-30 北京京东尚科信息技术有限公司 基于上下文进行意图识别的方法和系统
CN104951428A (zh) * 2014-03-26 2015-09-30 阿里巴巴集团控股有限公司 用户意图识别方法及装置
KR20160058531A (ko) * 2014-11-17 2016-05-25 포항공과대학교 산학협력단 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7293015B2 (en) * 2002-09-19 2007-11-06 Microsoft Corporation Method and system for detecting user intentions in retrieval of hint sentences
CN103034693B (zh) * 2012-12-03 2016-03-02 哈尔滨工业大学 开放式实体及其类型识别方法
CN108287858B (zh) * 2017-03-02 2021-08-10 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
CN108959436A (zh) * 2018-06-12 2018-12-07 苏州思必驰信息科技有限公司 用于语音对话平台的词库编辑方法及系统
CN109388700A (zh) * 2018-10-26 2019-02-26 广东小天才科技有限公司 一种意图识别方法及系统
CN109063221B (zh) * 2018-11-02 2021-04-09 北京百度网讯科技有限公司 基于混合策略的查询意图识别方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009156773A1 (en) * 2008-06-27 2009-12-30 Monting-I D.O.O. Device and procedure for recognizing words or phrases and their meaning from digital free text content
CN104951428A (zh) * 2014-03-26 2015-09-30 阿里巴巴集团控股有限公司 用户意图识别方法及装置
KR20160058531A (ko) * 2014-11-17 2016-05-25 포항공과대학교 산학협력단 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치
CN104951433A (zh) * 2015-06-24 2015-09-30 北京京东尚科信息技术有限公司 基于上下文进行意图识别的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于正则表达式构建学习的网页信息抽取方法;朱文琰 等;计算机应用与软件;第34卷(第02期);第14-19页 *

Also Published As

Publication number Publication date
CN110046346A (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN108287858B (zh) 自然语言的语义提取方法及装置
CN109918676B (zh) 一种检测意图正则表达式的方法及装置、终端设备
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
CN108460011B (zh) 一种实体概念标注方法及系统
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
JP5379138B2 (ja) 領域辞書の作成
CN112417846B (zh) 文本自动化生成方法、装置、电子设备及存储介质
US10650195B2 (en) Translated-clause generating method, translated-clause generating apparatus, and recording medium
US10474747B2 (en) Adjusting time dependent terminology in a question and answer system
CN111310440A (zh) 文本的纠错方法、装置和系统
US20170116250A1 (en) System and Method for Identifying Answer Key Problems in a Natural Language Question and Answering System
US20230239262A1 (en) Emoji recommendation system and method
JP2019197366A (ja) コンテンツ評価装置、コンテンツ評価方法、プログラム、および記録媒体
CN111737961B (zh) 一种故事生成的方法、装置、计算机设备和介质
CN110377778A (zh) 基于标题图相关性的图排序方法、装置及电子设备
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN104881397A (zh) 缩写词扩展方法和装置
CN107765883A (zh) 输入法的候选词语的排序方法和排序设备
CN113743090B (zh) 一种关键词提取方法及装置
CN110046346B (zh) 一种语料意图监控的方法和装置、终端设备
EP3901875A1 (en) Topic modelling of short medical inquiries
CN112527967A (zh) 文本匹配方法、装置、终端和存储介质
CN117421413A (zh) 一种问答对生成方法、装置及电子设备
CN109948155B (zh) 一种多意图的选择方法及装置、终端设备
CN112445959A (zh) 检索方法、检索装置、计算机可读介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant