CN109949799A - 一种语义解析方法及系统 - Google Patents
一种语义解析方法及系统 Download PDFInfo
- Publication number
- CN109949799A CN109949799A CN201910186089.8A CN201910186089A CN109949799A CN 109949799 A CN109949799 A CN 109949799A CN 201910186089 A CN201910186089 A CN 201910186089A CN 109949799 A CN109949799 A CN 109949799A
- Authority
- CN
- China
- Prior art keywords
- regular expression
- corpus
- semantic
- voice messaging
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明属于语义识别领域,公开了一种语义解析方法及系统,其方法包括:获取语料集;在语料集中提取出句式结构清楚的语料;根据提取出的语料生成正则表达式;将剩余的语料作为训练样本进行训练,得到语义解析模型;获取用户输入的语音信息;计算语音信息与正则表达式的匹配度;若语音信息与任一正则表达式的匹配度大于预设阈值,通过匹配度大于预设阈值的正则表达式解析语音信息的语义;若匹配度小于预设阈值,则通过语义解析模型解析语音信息的语义。本发明当用户语句清楚时通过正则表达式进行语义解析,可提高语义解析的速率;当用户语句无法用正则表达式进行解析时,通过语义解析模型进行语义解析,以提高语义解析成功率,降低误解析的情况。
Description
技术领域
本发明属于语义识别技术领域,特别涉及一种语义解析方法及系统。
背景技术
随着智能终端及网络技术的迅速发展,人们越来越习惯地使用智能终端完成各种需求,如在学习的过程中,碰到不理解的知识点、不会解的习题时,在智能学习设备中语音输入相关知识点,搜索对应的答案和知识讲解,以便对用户进行学习辅导。
目前,在人机交互场景中,准确理解语义是做出正确应答的基础。但是,由于小学生在讲话过程中,经常会语言顺序和逻辑颠倒错乱,部分容易获得特定特征的语句容易解析,而部分不能获取到其特定特征的语句则容易导致语义解析失败,使得用户的体验感较差,不利于产品的推广和使用。
发明内容
本发明的目的是提供一种语义解析方法及系统,当用户语句清楚时可通过正则表达式进行语义解析,提高语义解析速率,当用户语句不清楚无法通过正则表达式进行语义解析时,可通过训练得到的模型进行语义解析,提高语义解析成功率,降低误解析的情况。
本发明提供的技术方案如下:
一方面,提供一种语义解析方法,包括:
获取语料集,所述语料集包括多条语料;
在所述语料集中提取出句式结构清楚的语料;
根据所述提取出的语料生成一个或多个正则表达式;
将所述语料集中剩余的语料作为训练样本输入初始语义解析模型中进行训练,得到训练后的语义解析模型;
获取用户输入的语音信息;
计算所述语音信息与所述正则表达式的匹配度;
若所述语音信息与任一正则表达式的匹配度大于预设阈值,则通过匹配度大于所述预设阈值的正则表达式解析所述语音信息的语义;
若所述语音信息与所述正则表达式的匹配度小于所述预设阈值,则通过所述语义解析模型解析所述语音信息的语义。
进一步优选地,所述根据所述提取出的语料生成一个或多个正则表达式具体包括:
对所述提取出的语料进行分词;
标注分词后词语的词性,并获取分词后词语的词义;
对分词标注后的语料进行语法分析,得到每条语料的句式结构;
根据所述句式结构和所述词语的词义生成一个或多个正则表达式。
进一步优选地,所述根据所述提取出的语料生成一个或多个正则表达式之后,所述获取用户输入的语音信息之前还包括:
提取所述正则表达式中的语义槽;
建立与所述语义槽相匹配的词库。
进一步优选地,所述若所述语音信息与任一正则表达式的匹配度大于预设阈值,则通过匹配度大于所述预设阈值的正则表达式解析所述语音信息的语义具体包括:
在所述正则表达式中筛选出与所述语音信息的匹配度大于预设阈值的正则表达式;
在所述匹配度大于所述预设阈值的正则表达式中提取出匹配度最大的正则表达式作为目标正则表达式;
根据所述目标正则表达式和所述目标正则表达式中的语义槽的词库解析所述语音信息。
进一步优选地,所述计算所述语音信息与所述正则表达式的匹配度具体包括:
将所述语音信息与当前正则表达式中的每个匹配项进行匹配;
统计相匹配的匹配项的数量;
将所述相匹配的匹配项的数量除以所述当前正则表达式中的匹配项的总数量得到所述匹配度。
另一方面,还提供一种语义解析系统,包括:
语料集获取模块,用于获取语料集,所述语料集包括多条语料;
语料提取模块,用于在所述语料集中提取出句式结构清楚的语料;
正则表达式生成模块,用于根据所述提取出的语料生成一个或多个正则表达式;
模型训练模块,用于将所述语料集中剩余的语料作为训练样本输入初始语义解析模型中进行训练,得到训练后的语义解析模型;
语音信息获取模块,用于获取用户输入的语音信息;
匹配度计算模块,用于计算所述语音信息与所述正则表达式的匹配度;
第一语义解析模块,用于若所述语音信息与任一正则表达式的匹配度大于预设阈值,则通过匹配度大于所述预设阈值的正则表达式解析所述语音信息的语义;
第二语义解析模块,用于若所述语音信息与所述正则表达式的匹配度小于所述预设阈值,则通过所述语义解析模型解析所述语音信息的语义。
进一步优选地,所述正则表达式生成模块包括:
分词单元,用于对所述提取出的语料进行分词;
词性标注单元,用于标注分词后词语的词性;
词义获取单元,用于获取分词后词语的词义;
语法分析单元,用于对分词标注后的语料进行语法分析,得到每条语料的句式结构;
正则表达式生成单元,用于根据所述句式结构和所述词语的词义生成一个或多个正则表达式。
进一步优选地,还包括:
语义槽获取模块,用于提取所述正则表达式中的语义槽;
词库建立模块,用于建立与所述语义槽相匹配的词库。
进一步优选地,所述第一语义解析模块包括:
正则表达式筛选单元,用于在所述正则表达式中筛选出与所述语音信息的匹配度大于预设阈值的正则表达式;
目标正则表达式获取单元,用于在所述匹配度大于所述预设阈值的正则表达式中提取出匹配度最大的正则表达式作为目标正则表达式;
语义解析单元,用于根据所述目标正则表达式和所述目标正则表达式中的语义槽的词库解析所述语音信息。
进一步优选地,所述匹配度计算模块包括:
匹配单元,用于将所述语音信息与当前正则表达式中的每个匹配项进行匹配;
统计单元,用于统计相匹配的匹配项的数量;
匹配度计算单元,用于将所述相匹配的匹配项的数量除以所述当前正则表达式中的匹配项的总数量得到所述匹配度。
与现有技术相比,本发明提供的一种语义解析方法及系统具有以下有益效果:
1、本发明通过将正则表达式与语义解析模型进行结合,当用户语句清楚时通过正则表达式进行语义解析,不仅可保证语义解析的准确率,而且可提高语义解析的速率;当用户语句不清楚无法通过正则表达式进行语义解析时,通过训练得到的语义解析模型进行语义解析,以提高语义解析成功率,降低误解析的情况。
2、在本发明一优选实施例中,通过为正则表达式中的语义槽建立词库,可使正则表达式匹配更多的句子,以方便通过同一正则表达式对更多的语音信息进行语义解析。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种语义解析方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种语义解析方法的第一实施例的流程示意图;
图2是本发明一种语义解析方法的第二实施例的流程示意图;
图3是本发明一种语义解析方法的第三实施例的流程示意图;
图4是本发明一种语义解析方法的第四实施例的流程示意图;
图5是本发明一种语义解析方法的第五实施例的流程示意图;
图6是本发明一种语义解析系统的一个实施例的结构示意框图。
附图标号说明
100、语料集获取模块; 200、语料提取模块;
300、正则表达式生成模块; 310、分词单元;
320、词性标注单元; 330、词义获取单元;
340、语法分析单元; 350、正则表达式生成单元;
400、模型训练模块; 500、语音信息获取模块;
600、匹配度计算模块; 610、匹配单元;
620、统计单元; 630、匹配度计算单元;
700、第一语义解析模块; 710、正则表达式筛选单元;
720、目标正则表达式获取单元; 730、语义解析单元;
800、第二语义解析模块; 900、语义槽获取模块;
1000、词库建立模块。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
根据本发明提供的第一实施例,如图1所示,一种语义解析方法,包括:
S100获取语料集,所述语料集包括多条语料;
具体地,先收集大量的学生语料形成语料集,语料可以为文本信息、语音信息或录制的音频信息。例如,学习平板上存储的学生在使用学习平板时语音输入或文字输入的各种语句。
S200在所述语料集中提取出句式结构清楚的语料;
具体地,收集的语料集中包括各种各样的语料,其中有的语料句式结构清楚,如能明显划分主谓宾的语料;有的语料句式结构不清楚,无法明显划分主谓宾。例如,语料“我喜欢春天”,该语料可明显划分主谓宾,“我”是主语,“喜欢”为谓语,“春天”为宾语;再如,语料“小布十五年是什么部首查字法应该查什么部”,该语料则无法明显划分主谓宾。本步骤中,先在语料集中提取出可明显划分主谓宾的语料,即提取出句式结构清楚的语料。
S300根据所述提取出的语料生成一个或多个正则表达式;
具体地,正则表达式是指用来描述或者匹配一系列符合某个句法规则的字符串。正则表达式一般由普通字符和元字符组成,普通字符包括数字和大小写的字母,而元字符是具有特殊含义的字符。
例如,“s”表示任何空白字符,包括空格、制表符、换页符等,“.”表示除换行元字符“”以外的任意字符,“*”表示前面的子表达式重复零次或多次。
在语料集中提取出句式结构清楚的语料后,根据提取出的语料即可生成一个或多个正则表达式。
示例性地,语料1为“我喜欢春天”,生成的正则表达式1为“(表示主语的词)*(表示喜欢的词)*(表示季节的词)”。语料2为“我喜欢跳舞”,生成的正则表达式2为“(表示主语的词)*(表示喜欢的词)*(表示动作的词)”。得到正则表达式1和正则表达式2后,将正则表达式1和正则表达式2进行合并生成的正则表达式为(表示主语的词)*(表示喜欢的词)*(表示季节的词|表示动作的词),即根据提取的语料生成正则表达式后,将生成的正则表达式进行泛化处理,使一个正则表达式可包含更多的句式。
S400将所述语料集中剩余的语料作为训练样本输入初始语义解析模型中进行训练,得到训练后的语义解析模型;
具体地,在语料集提取出句式结构清楚的语料后,将语料集中剩余的句式结构不清楚的、不能明显划分句式结构的语料由人工进行句子结构划分及语义标注,然后作为训练样本输入建立的初始语义解析模型中进行训练,得到训练好的语义解析模型。
初始语义解析模型是指神经网络模型等机器学习模型,先给初始语义解析模型赋予一些初始权重值,然后通过训练样本的训练学习,不断地迭代更新权重值,最后得到训练好的语义解析模型。
S500获取用户输入的语音信息;
S600计算所述语音信息与所述正则表达式的匹配度;
S700若所述语音信息与任一正则表达式的匹配度大于预设阈值,则通过匹配度大于所述预设阈值的正则表达式解析所述语音信息的语义;
S800若所述语音信息与所述正则表达式的匹配度小于所述预设阈值,则通过所述语义解析模型解析所述语音信息的语义。
具体地,根据语料集中的语料生成正则表达式和语义解析模型后,即可通过正则表达式或语义解析模型来解析用户新输入的语音信息的语义。当用户新输入的语音信息句式结构清楚可通过正则表达式来进行解析时,则通过正则表达式来进行语义解析;当用户新输入的语音信息句式结构不清楚无法通过正则表达式来进行准确解析时,则通过训练好的语义解析模型来进行语义解析。
本实施例中,通过将正则表达式与语义解析模型进行结合,当用户语句清楚时通过正则表达式进行语义解析,不仅可保证语义解析的准确率,而且可提高语义解析的速率;当用户语句不清楚无法通过正则表达式进行语义解析时,通过训练得到的语义解析模型进行语义解析,以提高语义解析成功率,降低误解析的情况。
根据本发明提供的第二实施例,如图2所示,一种语义解析方法,包括:
S100获取语料集,所述语料集包括多条语料;
S200在所述语料集中提取出句式结构清楚的语料;
S310对所述提取出的语料进行分词;
具体地,在语料集中提取出语料后,先对提取出的每条语料进行分词,若语料为语音信息,可先将语音信息转换为文本信息,然后对文本信息进行分词。分词是指将一个汉字序列切分成一个一个单独的词,即将一句话切分成一个个单独的词。
S320标注分词后词语的词性,并获取分词后词语的词义;
具体地,将提取出的每条语料进行分词后,标注分词后各个词语的词性,并获取分词后词语的词义。
S330对分词标注后的语料进行语法分析,得到每条语料的句式结构;
具体地,对提取出的每条语料进行分词标注后,分析提取出的每条语料的句式结构。例如,语料为“我喜欢天上的朵朵白云”,主语部分是“我”,谓语部分是“喜欢”,宾语部分是“天上的朵朵白云”;“天上”起限制作用,“朵朵”起修饰作用。
S340根据所述句式结构和所述词语的词义生成一个或多个正则表达式;
具体地,得到每条语料的句式结构后,即可根据每条语料的句式结构和每条语料中的词语的词义生成正则表达式。
例如,语料“我喜欢天上的朵朵白云”,生成的正则表达式为:(表示主语的词)*(表示喜欢的词)*(.?)*(表示白云的词),其中,“.?”表示可匹配任意字符。得到该正则表达式后,还可将该正则表达式与正则表达式“(表示主语的词)*(表示喜欢的词)*(表示季节的词|表示动作的词)”进行合并,得到正则表达式:(表示主语的词)*(表示喜欢的词)*(.?)*(表示季节的词|表示动作的词|表示白云的词)。
将每条语料生成对应的正则表达式后,将可合并的正则表达式进行合并,使正则表达式可包含更多的句式,以增加正则表达式的泛化能力。
S400将所述语料集中剩余的语料作为训练样本输入初始语义解析模型中进行训练,得到训练后的语义解析模型;
S500获取用户输入的语音信息;
S600计算所述语音信息与所述正则表达式的匹配度;
S700若所述语音信息与任一正则表达式的匹配度大于预设阈值,则通过匹配度大于所述预设阈值的正则表达式解析所述语音信息的语义;
S800若所述语音信息与所述正则表达式的匹配度小于所述预设阈值,则通过所述语义解析模型解析所述语音信息的语义。
根据本发明提供的第三实施例,如图3所示,一种语义解析方法,包括:
S100获取语料集,所述语料集包括多条语料;
S200在所述语料集中提取出句式结构清楚的语料;
S300根据所述提取出的语料生成一个或多个正则表达式;
S350提取所述正则表达式中的语义槽;
具体地,正则表达式中的语义槽是指正则表达式中的匹配项的槽位,如正则表达式为:(表示主语的词)*(表示喜欢的词)*(.?)*(表示季节的词|表示动作的词|表示白云的词),“表示主语的词”这个槽位即为一个语义槽,“表示喜欢的词”这个槽位即为一个语义槽,“表示季节的词”为一个语义槽,“表示动作的词”为一个语义槽,“表示白云的词”为一个语义槽。
S360建立与所述语义槽相匹配的词库;
具体地,提取出正则表达式中的语义槽后,建立与语义槽相匹配的词库。例如,表示主语的词的词库为“你、我、她、他、它等”,表示喜欢的词库为“喜欢、喜爱、钟爱、热爱等”;表示动作的词库为“唱歌、跳舞、弹琴等”;表示季节的词库为“春天、夏天、冬天、秋天等”。
得到词库后,还可将语义槽对应的词库中的词语加入正则表达式中,如正则表达式为:(表示主语的词)*(表示喜欢的词)*(.?)*(表示季节的词|表示动作的词|表示白云的词),加入词库中的词语后即可变为:(你|我|她|他|它)*(喜欢|喜爱|钟爱|热爱)*(.?)*(唱歌|跳舞|弹琴|春天|夏天|冬天|秋天|云|白云)。
为正则表达式中的语义槽建立词库后,可使正则表达式匹配更多的句子,以方便通过正则表达式进行语义解析。
S400将所述语料集中剩余的语料作为训练样本输入初始语义解析模型中进行训练,得到训练后的语义解析模型;
S500获取用户输入的语音信息;
S600计算所述语音信息与所述正则表达式的匹配度;
S700若所述语音信息与任一正则表达式的匹配度大于预设阈值,则通过匹配度大于所述预设阈值的正则表达式解析所述语音信息的语义;
S800若所述语音信息与所述正则表达式的匹配度小于所述预设阈值,则通过所述语义解析模型解析所述语音信息的语义。
根据本发明提供的第四实施例,如图4所示,一种语义解析方法,包括:
S100获取语料集,所述语料集包括多条语料;
S200在所述语料集中提取出句式结构清楚的语料;
S300根据所述提取出的语料生成一个或多个正则表达式;
S400将所述语料集中剩余的语料作为训练样本输入初始语义解析模型中进行训练,得到训练后的语义解析模型;
S500获取用户输入的语音信息;
S600计算所述语音信息与所述正则表达式的匹配度;
S710在所述正则表达式中筛选出与所述语音信息的匹配度大于预设阈值的正则表达式;
具体地,计算出用户新输入的语音信息与每个正则表达式的匹配度后,将匹配度大于预设阈值的所有正则表达式筛选出来。预设阈值可根据实际情况进行设置,如可设置为50%、60%等。
S720在所述匹配度大于所述预设阈值的正则表达式中提取出匹配度最大的正则表达式作为目标正则表达式;
具体地,筛选出匹配度大于预设阈值的正则表达式后,选取匹配度最大的正则表达式作为目标正则表达式。如语音信息与正则表达式1的匹配度为60%,语音信息与正则表达式2的匹配度为70%,则选取正则表达式2为目标正则表达式。
S730根据所述目标正则表达式和所述目标正则表达式中的语义槽的词库解析所述语音信息;
具体地,在所有正则表达式中选取出目标正则表达式后,根据目标正则表达式中的语义槽对应的词库即可解析用户新输入的语音信息。
当然,本实施例除了可先进行匹配以查找到目标正则表达式,然后通过目标正则表达式解析用户输入的语音信息外,还可一边进行匹配一边进行语义解析,当通过当前正则表达式解析出的语义的字数与语音信息的字数的比值大于某一预先设定的阈值时,即可认为该当前正则表达式可准确解析出用户输入的语音信息,此时可结束正则表达式的匹配解析过程,并将当前正则表达式解析出的语义作为最终语义解析结果,从而提高语义解析的速率。
S800若所述语音信息与所述正则表达式的匹配度小于所述预设阈值,则通过所述语义解析模型解析所述语音信息的语义。
根据本发明提供的第五实施例,如图5所示,一种语义解析方法,包括:
S100获取语料集,所述语料集包括多条语料;
S200在所述语料集中提取出句式结构清楚的语料;
S300根据所述提取出的语料生成一个或多个正则表达式;
S400将所述语料集中剩余的语料作为训练样本输入初始语义解析模型中进行训练,得到训练后的语义解析模型;
S500获取用户输入的语音信息;
S610将所述语音信息与当前正则表达式中的每个匹配项进行匹配;
具体地,假设当前正则表达式为:(表示主语的词)*(表示喜欢的词)*(.?)*(表示白云的词),将语音信息与当前正则表达式中的每个匹配项进行匹配是指将语音信息中的词语按照语音信息中的句子顺序依次与“表示主语的词”、“表示喜欢的词”、“(.?)”、“表示白云的词”进行匹配,“.?”表示可匹配任意字符。
S620统计相匹配的匹配项的数量;
S630将所述相匹配的匹配项的数量除以所述当前正则表达式中的匹配项的总数量得到所述匹配度;
具体地,将语音信息与当前正则表达式中的每个匹配项进行匹配后,统计出相匹配的匹配项的数量。如语音信息为“我喜欢天上的蓝天”;“我”与“表示主语的词”匹配,“喜欢”与“表示喜欢的词”匹配,“天上的”与“(.?)”匹配,而“蓝天”与“表示白云的词”不匹配,则语音信息与当前正则表达式相匹配的匹配项的数量为3。当前正则表达式的匹配项的总数量为4,则语音信息与当前正则表达式的匹配度为75%。
若预设阈值为50%,语音信息与当前正则表达式的匹配度为75%,则可通过该当前正则表达式解析用户输入的语音信息。
S700若所述语音信息与任一正则表达式的匹配度大于预设阈值,则通过匹配度大于所述预设阈值的正则表达式解析所述语音信息的语义;
S800若所述语音信息与所述正则表达式的匹配度小于所述预设阈值,则通过所述语义解析模型解析所述语音信息的语义。
根据本发明提供的第六实施例,如图6所示,一种语义解析系统,包括:
语料集获取模块100,用于获取语料集,所述语料集包括多条语料;
具体地,先收集大量的学生语料形成语料集,语料可以为文本信息、语音信息或录制的音频信息。例如,学习平板上存储的学生在使用学习平板时语音输入或文字输入的各种语句。
语料提取模块200,用于在所述语料集中提取出句式结构清楚的语料;
具体地,收集的语料集中包括各种各样的语料,其中有的语料句式结构清楚,如能明显划分主谓宾的语料;有的语料句式结构不清楚,无法明显划分主谓宾。例如,语料“我喜欢春天”,该语料可明显划分主谓宾,“我”是主语,“喜欢”为谓语,“春天”为宾语;再如,语料“小布十五年是什么部首查字法应该查什么部”,该语料则无法明显划分主谓宾。本步骤中,先在语料集中提取出可明显划分主谓宾的语料,即提取出句式结构清楚的语料。
正则表达式生成模块300,用于根据所述提取出的语料生成一个或多个正则表达式;
具体地,正则表达式是指用来描述或者匹配一系列符合某个句法规则的字符串。正则表达式一般由普通字符和元字符组成,普通字符包括数字和大小写的字母,而元字符是具有特殊含义的字符。
例如,“s”表示任何空白字符,包括空格、制表符、换页符等,“.”表示除换行元字符“”以外的任意字符,“*”表示前面的子表达式重复零次或多次。
在语料集中提取出句式结构清楚的语料后,根据提取出的语料即可生成一个或多个正则表达式。
示例性地,语料1为“我喜欢春天”,生成的正则表达式1为“(表示主语的词)*(表示喜欢的词)*(表示季节的词)”。语料2为“我喜欢跳舞”,生成的正则表达式2为“(表示主语的词)*(表示喜欢的词)*(表示动作的词)”。得到正则表达式1和正则表达式2后,将正则表达式1和正则表达式2进行合并生成的正则表达式为(表示主语的词)*(表示喜欢的词)*(表示季节的词|表示动作的词),即根据提取的语料生成正则表达式后,将生成的正则表达式进行泛化处理,使一个正则表达式可包含更多的句式。
模型训练模块400,用于将所述语料集中剩余的语料作为训练样本输入初始语义解析模型中进行训练,得到训练后的语义解析模型;
具体地,在语料集提取出句式结构清楚的语料后,将语料集中剩余的句式结构不清楚的、不能明显划分句式结构的语料由人工进行句子结构划分及语义标注,然后作为训练样本输入建立的初始语义解析模型中进行训练,得到训练好的语义解析模型。
初始语义解析模型是指神经网络模型等机器学习模型,先给初始语义解析模型赋予一些初始权重值,然后通过训练样本的训练学习,不断地迭代更新权重值,最后得到训练好的语义解析模型。
语音信息获取模块500,用于获取用户输入的语音信息;
匹配度计算模块600,用于计算所述语音信息与所述正则表达式的匹配度;
第一语义解析模块700,用于若所述语音信息与任一正则表达式的匹配度大于预设阈值,则通过匹配度大于所述预设阈值的正则表达式解析所述语音信息的语义;
第二语义解析模块800,用于若所述语音信息与所述正则表达式的匹配度小于所述预设阈值,则通过所述语义解析模型解析所述语音信息的语义。
具体地,根据语料集中的语料生成正则表达式和语义解析模型后,即可通过正则表达式或语义解析模型来解析用户新输入的语音信息的语义。当用户新输入的语音信息句式结构清楚可通过正则表达式来进行解析时,则通过正则表达式来进行语义解析;当用户新输入的语音信息句式结构不清楚无法通过正则表达式来进行准确解析时,则通过训练好的语义解析模型来进行语义解析。
本实施例中,通过将正则表达式与语义解析模型进行结合,当用户语句清楚时通过正则表达式进行语义解析,不仅可保证语义解析的准确率,而且可提高语义解析的速率;当用户语句不清楚无法通过正则表达式进行语义解析时,通过训练得到的语义解析模型进行语义解析,以提高语义解析成功率,降低误解析的情况。
优选地,正则表达式生成模块300包括:
分词单元310,用于对所述提取出的语料进行分词;
具体地,在语料集中提取出语料后,先对提取出的每条语料进行分词,若语料为语音信息,可先将语音信息转换为文本信息,然后对文本信息进行分词。分词是指将一个汉字序列切分成一个一个单独的词,即将一句话切分成一个个单独的词。
词性标注单元320,用于标注分词后词语的词性;
词义获取单元330,用于获取分词后词语的词义;
具体地,将提取出的每条语料进行分词后,标注分词后各个词语的词性,并获取分词后词语的词义。
语法分析单元340,用于对分词标注后的语料进行语法分析,得到每条语料的句式结构;
具体地,对提取出的每条语料进行分词标注后,分析提取出的每条语料的句式结构。例如,语料为“我喜欢天上的朵朵白云”,主语部分是“我”,谓语部分是“喜欢”,宾语部分是“天上的朵朵白云”;“天上”起限制作用,“朵朵”起修饰作用。
正则表达式生成单元350,用于根据所述句式结构和所述词语的词义生成一个或多个正则表达式。
具体地,得到每条语料的句式结构后,即可根据每条语料的句式结构和每条语料中的词语的词义生成正则表达式。
例如,语料“我喜欢天上的朵朵白云”,生成的正则表达式为:(表示主语的词)*(表示喜欢的词)*(.?)*(表示白云的词),其中,“.?”表示可匹配任意字符。得到该正则表达式后,还可将该正则表达式与正则表达式“(表示主语的词)*(表示喜欢的词)*(表示季节的词|表示动作的词)”进行合并,得到正则表达式:(表示主语的词)*(表示喜欢的词)*(.?)*(表示季节的词|表示动作的词|表示白云的词)。
将每条语料生成对应的正则表达式后,将可合并的正则表达式进行合并,使正则表达式可包含更多的句式,以增加正则表达式的泛化能力。
优选地,还包括:
语义槽获取模块900,用于提取所述正则表达式中的语义槽;
具体地,正则表达式中的语义槽是指正则表达式中的匹配项的槽位,如正则表达式为:(表示主语的词)*(表示喜欢的词)*(.?)*(表示季节的词|表示动作的词|表示白云的词),“表示主语的词”这个槽位即为一个语义槽,“表示喜欢的词”这个槽位即为一个语义槽,“表示季节的词”为一个语义槽,“表示动作的词”为一个语义槽,“表示白云的词”为一个语义槽。
词库建立模块1000,用于建立与所述语义槽相匹配的词库。
具体地,提取出正则表达式中的语义槽后,建立与语义槽相匹配的词库。例如,表示主语的词的词库为“你、我、她、他、它等”,表示喜欢的词库为“喜欢、喜爱、钟爱、热爱等”;表示动作的词库为“唱歌、跳舞、弹琴等”;表示季节的词库为“春天、夏天、冬天、秋天等”。
得到词库后,还可将语义槽对应的词库中的词语加入正则表达式中,如正则表达式为:(表示主语的词)*(表示喜欢的词)*(.?)*(表示季节的词|表示动作的词|表示白云的词),加入词库中的词语后即可变为:(你|我|她|他|它)*(喜欢|喜爱|钟爱|热爱)*(.?)*(唱歌|跳舞|弹琴|春天|夏天|冬天|秋天|云|白云)。
为正则表达式中的语义槽建立词库后,可使正则表达式匹配更多的句子,以方便通过正则表达式进行语义解析。
优选地,第一语义解析模块700包括:
正则表达式筛选单元710,用于在所述正则表达式中筛选出与所述语音信息的匹配度大于预设阈值的正则表达式;
具体地,计算出用户新输入的语音信息与每个正则表达式的匹配度后,将匹配度大于预设阈值的所有正则表达式筛选出来。预设阈值可根据实际情况进行设置,如可设置为50%、60%等。
目标正则表达式获取单元720,用于在所述匹配度大于所述预设阈值的正则表达式中提取出匹配度最大的正则表达式作为目标正则表达式;
具体地,筛选出匹配度大于预设阈值的正则表达式后,选取匹配度最大的正则表达式作为目标正则表达式。如语音信息与正则表达式1的匹配度为60%,语音信息与正则表达式2的匹配度为70%,则选取正则表达式2为目标正则表达式。
语义解析单元730,用于根据所述目标正则表达式和所述目标正则表达式中的语义槽的词库解析所述语音信息。
具体地,在所有正则表达式中选取出目标正则表达式后,根据目标正则表达式中的语义槽对应的词库即可解析用户新输入的语音信息。
当然,本实施例除了可先进行匹配以查找到目标正则表达式,然后通过目标正则表达式解析用户输入的语音信息外,还可一边进行匹配一边进行语义解析,当通过当前正则表达式解析出的语义的字数与语音信息的字数的比值大于某一预先设定的阈值时,即可认为该当前正则表达式可准确解析出用户输入的语音信息,此时可结束正则表达式的匹配解析过程,并将当前正则表达式解析出的语义作为最终语义解析结果,从而提高语义解析的速率。
优选地,匹配度计算模块600包括:
匹配单元610,用于将所述语音信息与当前正则表达式中的每个匹配项进行匹配;
具体地,假设当前正则表达式为:(表示主语的词)*(表示喜欢的词)*(.?)*(表示白云的词),将语音信息与当前正则表达式中的每个匹配项进行匹配是指将语音信息中的词语按照语音信息中的句子顺序依次与“表示主语的词”、“表示喜欢的词”、“(.?)”、“表示白云的词”进行匹配,“.?”表示可匹配任意字符。
统计单元620,用于统计相匹配的匹配项的数量;
匹配度计算单元630,用于将所述相匹配的匹配项的数量除以所述当前正则表达式中的匹配项的总数量得到所述匹配度。
具体地,将语音信息与当前正则表达式中的每个匹配项进行匹配后,统计出相匹配的匹配项的数量。如语音信息为“我喜欢天上的蓝天”;“我”与“表示主语的词”匹配,“喜欢”与“表示喜欢的词”匹配,“天上的”与“(.?)”匹配,而“蓝天”与“表示白云的词”不匹配,则语音信息与当前正则表达式相匹配的匹配项的数量为3。当前正则表达式的匹配项的总数量为4,则语音信息与当前正则表达式的匹配度为75%。
若预设阈值为50%,语音信息与当前正则表达式的匹配度为75%,则可通过该当前正则表达式解析用户输入的语音信息。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种语义解析方法,其特征在于,包括:
获取语料集,所述语料集包括多条语料;
在所述语料集中提取出句式结构清楚的语料;
根据所述提取出的语料生成一个或多个正则表达式;
将所述语料集中剩余的语料作为训练样本输入初始语义解析模型中进行训练,得到训练后的语义解析模型;
获取用户输入的语音信息;
计算所述语音信息与所述正则表达式的匹配度;
若所述语音信息与任一正则表达式的匹配度大于预设阈值,则通过匹配度大于所述预设阈值的正则表达式解析所述语音信息的语义;
若所述语音信息与所述正则表达式的匹配度小于所述预设阈值,则通过所述语义解析模型解析所述语音信息的语义。
2.根据权利要求1所述的一种语义解析方法,其特征在于,所述根据所述提取出的语料生成一个或多个正则表达式具体包括:
对所述提取出的语料进行分词;
标注分词后词语的词性,并获取分词后词语的词义;
对分词标注后的语料进行语法分析,得到每条语料的句式结构;
根据所述句式结构和所述词语的词义生成一个或多个正则表达式。
3.根据权利要求1所述的一种语义解析方法,其特征在于,所述根据所述提取出的语料生成一个或多个正则表达式之后,所述获取用户输入的语音信息之前还包括:
提取所述正则表达式中的语义槽;
建立与所述语义槽相匹配的词库。
4.根据权利要求3所述的一种语义解析方法,其特征在于,所述若所述语音信息与任一正则表达式的匹配度大于预设阈值,则通过匹配度大于所述预设阈值的正则表达式解析所述语音信息的语义具体包括:
在所述正则表达式中筛选出与所述语音信息的匹配度大于预设阈值的正则表达式;
在所述匹配度大于所述预设阈值的正则表达式中提取出匹配度最大的正则表达式作为目标正则表达式;
根据所述目标正则表达式和所述目标正则表达式中的语义槽的词库解析所述语音信息。
5.根据权利要求1-4任一项所述的一种语义解析方法,其特征在于,所述计算所述语音信息与所述正则表达式的匹配度具体包括:
将所述语音信息与当前正则表达式中的每个匹配项进行匹配;
统计相匹配的匹配项的数量;
将所述相匹配的匹配项的数量除以所述当前正则表达式中的匹配项的总数量得到所述匹配度。
6.一种语义解析系统,其特征在于,包括:
语料集获取模块,用于获取语料集,所述语料集包括多条语料;
语料提取模块,用于在所述语料集中提取出句式结构清楚的语料;
正则表达式生成模块,用于根据所述提取出的语料生成一个或多个正则表达式;
模型训练模块,用于将所述语料集中剩余的语料作为训练样本输入初始语义解析模型中进行训练,得到训练后的语义解析模型;
语音信息获取模块,用于获取用户输入的语音信息;
匹配度计算模块,用于计算所述语音信息与所述正则表达式的匹配度;
第一语义解析模块,用于若所述语音信息与任一正则表达式的匹配度大于预设阈值,则通过匹配度大于所述预设阈值的正则表达式解析所述语音信息的语义;
第二语义解析模块,用于若所述语音信息与所述正则表达式的匹配度小于所述预设阈值,则通过所述语义解析模型解析所述语音信息的语义。
7.根据权利要求6所述的一种语义解析系统,其特征在于,所述正则表达式生成模块包括:
分词单元,用于对所述提取出的语料进行分词;
词性标注单元,用于标注分词后词语的词性;
词义获取单元,用于获取分词后词语的词义;
语法分析单元,用于对分词标注后的语料进行语法分析,得到每条语料的句式结构;
正则表达式生成单元,用于根据所述句式结构和所述词语的词义生成一个或多个正则表达式。
8.根据权利要求6所述的一种语义解析系统,其特征在于,还包括:
语义槽获取模块,用于提取所述正则表达式中的语义槽;
词库建立模块,用于建立与所述语义槽相匹配的词库。
9.根据权利要求6所述的一种语义解析系统,其特征在于,所述第一语义解析模块包括:
正则表达式筛选单元,用于在所述正则表达式中筛选出与所述语音信息的匹配度大于预设阈值的正则表达式;
目标正则表达式获取单元,用于在所述匹配度大于所述预设阈值的正则表达式中提取出匹配度最大的正则表达式作为目标正则表达式;
语义解析单元,用于根据所述目标正则表达式和所述目标正则表达式中的语义槽的词库解析所述语音信息。
10.根据权利要求6-9任一项所述的一种语义解析系统,其特征在于,所述匹配度计算模块包括:
匹配单元,用于将所述语音信息与当前正则表达式中的每个匹配项进行匹配;
统计单元,用于统计相匹配的匹配项的数量;
匹配度计算单元,用于将所述相匹配的匹配项的数量除以所述当前正则表达式中的匹配项的总数量得到所述匹配度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910186089.8A CN109949799B (zh) | 2019-03-12 | 2019-03-12 | 一种语义解析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910186089.8A CN109949799B (zh) | 2019-03-12 | 2019-03-12 | 一种语义解析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109949799A true CN109949799A (zh) | 2019-06-28 |
CN109949799B CN109949799B (zh) | 2021-02-19 |
Family
ID=67009794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910186089.8A Active CN109949799B (zh) | 2019-03-12 | 2019-03-12 | 一种语义解析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109949799B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110992947A (zh) * | 2019-11-12 | 2020-04-10 | 北京字节跳动网络技术有限公司 | 一种基于语音的交互方法、装置、介质和电子设备 |
CN111797228A (zh) * | 2020-05-28 | 2020-10-20 | 贝壳技术有限公司 | 一种语音信息提取方法及装置 |
CN112580298A (zh) * | 2019-09-29 | 2021-03-30 | 大众问问(北京)信息科技有限公司 | 一种标注数据获取方法、装置及设备 |
CN112786041A (zh) * | 2020-12-23 | 2021-05-11 | 平安普惠企业管理有限公司 | 语音处理方法及相关设备 |
CN113053394A (zh) * | 2021-04-27 | 2021-06-29 | 广州小鹏汽车科技有限公司 | 语音处理方法、服务器、语音处理系统和存储介质 |
CN117238277A (zh) * | 2023-11-09 | 2023-12-15 | 北京水滴科技集团有限公司 | 意图识别方法、装置、存储介质及计算机设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6199034B1 (en) * | 1995-05-31 | 2001-03-06 | Oracle Corporation | Methods and apparatus for determining theme for discourse |
CN1588537A (zh) * | 2004-09-29 | 2005-03-02 | 上海交通大学 | 建立基于语法模型的语义分析器的方法 |
CN105095186A (zh) * | 2015-07-28 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语义解析方法和装置 |
CN106326303A (zh) * | 2015-06-30 | 2017-01-11 | 芋头科技(杭州)有限公司 | 一种口语语义解析系统及方法 |
US9767094B1 (en) * | 2016-07-07 | 2017-09-19 | International Business Machines Corporation | User interface for supplementing an answer key of a question answering system using semantically equivalent variants of natural language expressions |
CN107301167A (zh) * | 2017-05-25 | 2017-10-27 | 中国科学院信息工程研究所 | 一种功性能描述信息识别方法及装置 |
CN107633084A (zh) * | 2017-09-28 | 2018-01-26 | 武汉虹旭信息技术有限责任公司 | 基于自媒体的舆情管控系统及其方法 |
CN109284362A (zh) * | 2018-11-11 | 2019-01-29 | 广东小天才科技有限公司 | 一种内容检索方法及系统 |
-
2019
- 2019-03-12 CN CN201910186089.8A patent/CN109949799B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6199034B1 (en) * | 1995-05-31 | 2001-03-06 | Oracle Corporation | Methods and apparatus for determining theme for discourse |
CN1588537A (zh) * | 2004-09-29 | 2005-03-02 | 上海交通大学 | 建立基于语法模型的语义分析器的方法 |
CN106326303A (zh) * | 2015-06-30 | 2017-01-11 | 芋头科技(杭州)有限公司 | 一种口语语义解析系统及方法 |
CN105095186A (zh) * | 2015-07-28 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 语义解析方法和装置 |
US9767094B1 (en) * | 2016-07-07 | 2017-09-19 | International Business Machines Corporation | User interface for supplementing an answer key of a question answering system using semantically equivalent variants of natural language expressions |
CN107301167A (zh) * | 2017-05-25 | 2017-10-27 | 中国科学院信息工程研究所 | 一种功性能描述信息识别方法及装置 |
CN107633084A (zh) * | 2017-09-28 | 2018-01-26 | 武汉虹旭信息技术有限责任公司 | 基于自媒体的舆情管控系统及其方法 |
CN109284362A (zh) * | 2018-11-11 | 2019-01-29 | 广东小天才科技有限公司 | 一种内容检索方法及系统 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580298A (zh) * | 2019-09-29 | 2021-03-30 | 大众问问(北京)信息科技有限公司 | 一种标注数据获取方法、装置及设备 |
CN112580298B (zh) * | 2019-09-29 | 2024-05-07 | 大众问问(北京)信息科技有限公司 | 一种标注数据获取方法、装置及设备 |
CN110992947A (zh) * | 2019-11-12 | 2020-04-10 | 北京字节跳动网络技术有限公司 | 一种基于语音的交互方法、装置、介质和电子设备 |
CN110992947B (zh) * | 2019-11-12 | 2022-04-22 | 北京字节跳动网络技术有限公司 | 一种基于语音的交互方法、装置、介质和电子设备 |
CN111797228A (zh) * | 2020-05-28 | 2020-10-20 | 贝壳技术有限公司 | 一种语音信息提取方法及装置 |
CN112786041A (zh) * | 2020-12-23 | 2021-05-11 | 平安普惠企业管理有限公司 | 语音处理方法及相关设备 |
CN112786041B (zh) * | 2020-12-23 | 2023-11-24 | 光禹莱特数字科技(上海)有限公司 | 语音处理方法及相关设备 |
CN113053394A (zh) * | 2021-04-27 | 2021-06-29 | 广州小鹏汽车科技有限公司 | 语音处理方法、服务器、语音处理系统和存储介质 |
CN113053394B (zh) * | 2021-04-27 | 2024-01-09 | 广州小鹏汽车科技有限公司 | 语音处理方法、服务器、语音处理系统和存储介质 |
CN117238277A (zh) * | 2023-11-09 | 2023-12-15 | 北京水滴科技集团有限公司 | 意图识别方法、装置、存储介质及计算机设备 |
CN117238277B (zh) * | 2023-11-09 | 2024-01-19 | 北京水滴科技集团有限公司 | 意图识别方法、装置、存储介质及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109949799B (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949799A (zh) | 一种语义解析方法及系统 | |
CN110852087B (zh) | 中文纠错方法和装置、存储介质及电子装置 | |
CN104008091B (zh) | 一种基于情感值的网络文本情感分析方法 | |
CN109388700A (zh) | 一种意图识别方法及系统 | |
CN100536532C (zh) | 自动加配字幕的方法和系统 | |
CN109918676A (zh) | 一种检测意图正则表达式的方法及装置、终端设备 | |
CN103869998B (zh) | 一种对输入法所产生的候选项进行排序的方法及装置 | |
CN107301163B (zh) | 包含公式的文本语义解析方法及装置 | |
CN107797987B (zh) | 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法 | |
CN112989802B (zh) | 一种弹幕关键词提取方法、装置、设备及介质 | |
CN105264518A (zh) | 数据处理装置及故事模型构建方法 | |
CN109213856A (zh) | 一种语义识别方法及系统 | |
CN105261246A (zh) | 一种基于大数据挖掘技术的英语口语纠错系统 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN113590810B (zh) | 摘要生成模型训练方法、摘要生成方法、装置及电子设备 | |
CN107301164B (zh) | 数学公式的语义解析方法及装置 | |
CN109325124A (zh) | 一种情感分类方法、装置、服务器和存储介质 | |
CN108280164A (zh) | 一种基于类别相关单词的短文本过滤与分类方法 | |
CN109165040A (zh) | 一种基于随机森林模型的代码抄袭嫌疑检测的方法 | |
CN107665188A (zh) | 一种语义理解方法及装置 | |
CN110414835A (zh) | 一种电视剧剧本量化评估系统及方法 | |
CN107797988A (zh) | 一种基于Bi‑LSTM的混合语料命名实体识别方法 | |
CN116029305A (zh) | 一种基于多任务学习的中文属性级情感分析方法、系统、设备及介质 | |
WO2020111827A1 (ko) | 프로필 자동생성서버 및 방법 | |
CN112015871B (zh) | 基于事件集远程监督的人物关系自动标注方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |