CN109783820B - 一种语义解析方法及系统 - Google Patents
一种语义解析方法及系统 Download PDFInfo
- Publication number
- CN109783820B CN109783820B CN201910046972.7A CN201910046972A CN109783820B CN 109783820 B CN109783820 B CN 109783820B CN 201910046972 A CN201910046972 A CN 201910046972A CN 109783820 B CN109783820 B CN 109783820B
- Authority
- CN
- China
- Prior art keywords
- user
- sample
- semantic
- corpus
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种语义解析方法及系统,其方法包括:获取语料样本;分析语料样本中包含的连接词,以及语料样本中连接词前后的样本语句对应的语句语义;当语料样本中存在连接词时,根据连接词和语句语义分析样本语句之间的关联关系;根据样本语句和关联关系建立层级目录网;根据语句语义和层级目录网训练生成语义模型;获取用户语料;将用户语料和语义模型进行对比,得到用户语料中用户语句对应的用户语句层级以及用户语句语义;根据用户语句层级对用户语句语义进行排序,得到用户意图。本发明通过对用户语料中的用户语句进行排序,从而得到用户的真实意图,避免出现歧义。
Description
技术领域
本发明涉及信息处理技术领域,尤指一种语义解析方法及系统。
背景技术
当前随着网络的飞速发展,智能处理信息也是越来越普遍。计算机、智能设备等每天可能需要处理成千上万的信息。智能设备一般通过分析语料得到对应的正则表达式,从而解析语料。
但是,一般的语义解析属于平级解析,难以体现同一段内容中上下语句之间或者同一句话中前后主体词语之间的关系,从而在解析的时候导致歧义的出现。
因此,有必要通过一种语义解析方法及系统解析用户语料中用户语句之间的关系从而得到用户的真实意图。
发明内容
本发明的目的是提供一种语义解析方法及系统,实现通过对用户语料中的用户语句进行排序,从而得到用户的真实意图,避免出现歧义。
本发明提供的技术方案如下:
本发明提供一种语义解析方法,包括:
获取语料样本;
分析所述语料样本中包含的连接词,以及所述语料样本中所述连接词前后的样本语句对应的语句语义;
根据所述连接词和/或所述语句语义分析所述样本语句之间的关联关系;
根据所述样本语句和所述关联关系建立层级目录网;
根据所述语句语义和所述层级目录网训练生成语义模型;
获取用户语料;
将所述用户语料和所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义;
根据所述用户语句层级对所述用户语句语义进行排序,得到用户意图。
进一步的,所述的根据所述连接词和/或所述语句语义分析所述样本语句之间的关联关系具体包括:
当所述语料样本中存在所述连接词时,根据所述连接词和/或所述语句语义分析所述样本语句之间的关联关系;
当所述语料样本中不存在所述连接词时,根据所述语句语义分析所述样本语句之间的关联关系。
进一步的,所述的分析所述语料样本中包含的连接词,以及所述连接词前后的样本语句对应的语句语义具体包括:
通过分词技术对所述语料样本进行分词,得到样本分词和所述样本分词对应的分词词性;
根据所述样本分词和所述分词词性确定所述样本分词中的所述连接词;
分析所述连接词前后的所述样本语句的句式结构,得到所述样本语句的样本分词之间的连接关系;
根据所述样本分词、所述分词词性以及所述连接关系生成所述样本语句对应的正则表达式;
根据所述样本分词和所述分词词性建立所述样本语句对应的语义槽;
根据所述正则表达式和所述语义槽解析所述连接词前后的所述样本语句,得到所述样本语句对应的所述语句语义;
所述的根据所述语句语义和所述层级目录网训练生成语义模型具体包括:
根据所述正则表达式、所述语义槽、所述语句语义和所述层级目录网训练生成所述语义模型。
进一步的,所述的将所述用户语料和所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义具体包括:
根据所述用户语料生成对应的用户正则式和用户语义槽;
将所述用户正则式、所述用户语义槽和所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义。
进一步的,所述的将所述用户正则式、所述用户语义槽和所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义具体包括:
将所述用户正则式、所述用户语义槽和所述语义模型进行对比;
若所述用户正则式和所述用户语义槽都分别与所述语义模型匹配符合,则得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义;
若所述用户正则式与所述语义模型匹配符合,所述用户语义槽与所述语义模型匹配不符合,则根据匹配符合的正则表达式得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义,并根据所述用户语义槽更新对应的语义槽。
本发明还提供一种语义解析系统,包括:
样本获取模块,获取语料样本;
分析模块,分析所述样本获取模块获取的所述语料样本中包含的连接词,以及所述语料样本中所述连接词前后的样本语句对应的语句语义;
关系分析模块,根据所述分析模块得到的所述连接词和/或所述语句语义分析所述样本语句之间的关联关系;
目录网建立模块,根据所述分析模块得到的所述样本语句和所述关系分析模块得到的所述关联关系建立层级目录网;
模型生成模块,根据所述分析模块得到的所述语句语义和所述目录网建立模块得到的所述层级目录网训练生成语义模型;
语料获取模块,获取用户语料;
对比模块,将所述语料获取模块获取的所述用户语料和所述模型生成模块得到的所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义;
处理模块,根据所述对比模块得到的所述用户语句层级对所述对比模块得到的所述用户语句语义进行排序,得到用户意图。
进一步的,所述关系分析模块具体包括:
判断单元,判断所述语料样本中是否存在所述连接词;
关系分析单元,若所述判断单元判断是,则根据所述连接词和/或所述语句语义分析所述样本语句之间的关联关系;
所述关系分析单元,若所述判断单元判断否,则根据所述语句语义分析所述样本语句之间的关联关系。
进一步的,所述分析模块具体包括:
分词单元,通过分词技术对所述样本获取模块获取的所述语料样本进行分词,得到样本分词和所述样本分词对应的分词词性;
连接词确定单元,根据所述分词单元得到的所述样本分词和所述分词词性确定所述样本分词中的所述连接词;
关系分析单元,分析所述连接词确定单元得到的所述连接词前后的所述样本语句的句式结构,得到所述样本语句的样本分词之间的连接关系;
表达式生成单元,根据所述分词单元得到的所述样本分词、所述分词词性以及所述关系分析单元得到的所述连接关系生成所述样本语句对应的正则表达式;
语义槽建立单元,根据所述分词单元得到的所述样本分词和所述分词词性建立所述样本语句对应的语义槽;
语义解析单元,根据所述表达式生成单元生成的所述正则表达式和所述语义槽建立单元建立的所述语义槽解析所述连接词前后的所述样本语句,得到所述样本语句对应的所述语句语义;
所述的模型生成模块包括:
所述模型生成模块,根据所述表达式生成单元生成的所述正则表达式、所述语义槽建立单元建立的所述语义槽、所述语义解析单元所述语句语义和所述目录网建立模块得到的所述层级目录网训练生成所述语义模型。
进一步的,所述对比模块具体包括:
处理单元,根据所述语料获取模块获取的所述用户语料生成对应的用户正则式和用户语义槽;
对比单元,将所述处理单元得到的所述用户正则式、所述用户语义槽和所述模型生成模块得到的所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义。
进一步的,所述对比单元具体包括:
对比子单元,将所述处理单元得到的所述用户正则式、所述用户语义槽和所述模型生成模块得到的所述语义模型进行对比;
处理子单元,若所述对比子单元得到所述用户正则式和所述用户语义槽都分别与所述语义模型匹配符合,则得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义;
所述处理子单元,若所述对比子单元得到所述用户正则式与所述语义模型匹配符合,所述用户语义槽与所述语义模型匹配不符合,则根据匹配符合的正则表达式得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义,并根据所述用户语义槽更新对应的语义槽。
通过本发明提供的一种语义解析方法及系统,能够带来以下至少一种有益效果:
1、本发明中,对存在多层语义的语料样本中的语义进行梳理,从而建立语义模型作为标准便于对新获取的用户语料中的语义进行排序,进而得到用户的真实意图。
2、本发明中,针对语料样本中包含的句子的复杂程度以及是否存在连接词等情形,不同情形采取不同的处理方式,从而保证快速准确地分析出样本语句之间的关联关系。
3、本发明中,根据分词技术对语料样本进行分词,得到其中包含的连接词,并分析语料样本的句式结构,从而生成对应的正则表达式和语义槽,便于后续将语料样本划分为样本语句以及对该样本语句进行语义解析。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种语义解析方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种语义解析方法的一个实施例的流程图;
图1和图2结合得到的是本发明一种语义解析方法的另一个实施例的流程图;
图1和图3结合得到的是本发明一种语义解析方法的另一个实施例的流程图;
图1、图3和图4结合得到的是本发明一种语义解析方法的另一个实施例的流程图;
图1、图3和图5结合得到的是本发明一种语义解析方法的另一个实施例的流程图;
图6是本发明一种语义解析系统的一个实施例的结构示意图;
图7是本发明一种语义解析系统的另一个实施例的结构示意图。
附图标号说明:
1000语义解析系统
1100样本获取模块
1200分析模块1210分词单元1220连接词确定单元1230关系分析单元1240表达式生成单元1250语义槽建立单元1260语义解析单元
1300关系分析模块1310判断单元1320关系分析单元
1400目录网建立模块
1500模型生成模块
1600语料获取模块
1700对比模块1710处理单元1720对比单元1721对比子单元1722处理子单元
1800处理模块
具体实施方式
为了能够更加清楚地说明本发明实施例或现有技术中的技术方案,下面将对照说明书附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并且获得其他的实施方式。
为了使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
本发明的一个实施例,如图1所示,一种语义解析方法,包括:
S100获取语料样本。
具体的,获取大量的语料样本,根据语料样本建立语料库。其中语料样本可以是规范的书面用语,也可以是用户语音、音频等,因为在人机交互的过程中用户语音输入和文字输入都是主流的交互方式。
另外,由于整个分析过程是针对书面文本,因此如果收集的是用户语音、音频等语音文件,首先需要将语音文件转化为识别文本,然后对该识别文本进行相应的处理。
S200分析所述语料样本中包含的连接词,以及所述语料样本中所述连接词前后的样本语句对应的语句语义。
具体的,分析语料样本得到其中包含的连接词,例如“因为”、“所以”、“不但”、“而且”、“和”、“或”等,如果语料样本包含多个语句,则以连接词为界限,前后划分为样本语句,如果语料样本只包含一个语句,同样以连接词为界限将连接词前后的词语划分为样本语句。然后分别分析样本语句得到对应的语句语义。
S300根据所述连接词和/或所述语句语义分析所述样本语句之间的关联关系。
具体的,根据连接词和/或语句语义分析样本语句之间的关联关系,例如,如果存在连接词“不但”、“而且”,则说明样本语句之间存在同级但递进的关联关系,如果存在连接词“和”、“或”,则说明样本语句之间存在同级并列的关联关系。另外如果一个样本语句的语句语义为“语文唐诗”,另一个样本语句的语句语义为“五言绝句”,则说明样本语句之间存在上下级包含与被包含的关联关系。
S400根据所述样本语句和所述关联关系建立层级目录网。
具体的,根据样本语句和关联关系建立层级目录网,当用户语料中有多个样本语句,对应有多个语句语义时,通过层级目录网清晰地表明样本语句相互之间存在的同级并列、递进,以及上下级包含与被包含的关联关系。
S500根据所述语句语义和所述层级目录网训练生成语义模型。
具体的,根据语句语义和层级目录网训练生成语义模型,将层级目录网中每个层级中的样本语句对应的语句语义进行关联,从而生成语义模型。
S600获取用户语料。
具体的,获取用户语料,智能设备在获取用户语料的过程中,用户通过语音输入和文字输入都是主流的交互方式,但是无论获取的用户语料是何种形式,最终系统进行处理的都是文本形式,因此,如果获取到语音形式,需要将其首先转化为文本形式。
S700将所述用户语料和所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义。
具体的,将获取的用户语料和语义模型中的样本语句进行对比,如果用户语料结构比较复杂,包含的内容较多,那么该用户语料可能与多个样本语句匹配相符,例如用户语料的前部分与样本语句1匹配相符,后部分与样本语句2匹配相符,则将匹配相符的部分划分为用户语句,从而用户语料可能得到多个用户语句,根据语义模型中的对应关系得到每一个用户语句对应的用户语句层级以及用户语句语义。
S800根据所述用户语句层级对所述用户语句语义进行排序,得到用户意图。
具体的,根据用户语句层级对用户语句语义进行排序,分析每个用户语句语义之间的关系,然后进行解析得到用户意图。
本实施例中,对存在多层语义的语料样本中的语义进行梳理,从而建立语义模型作为标准便于对新获取的用户语料中的语义进行排序,进而得到用户的真实意图。
本发明的另一个实施例,如图2所示,一种语义解析方法,包括:
S100获取语料样本。
S200分析所述语料样本中包含的连接词,以及所述语料样本中所述连接词前后的样本语句对应的语句语义。
S300根据所述连接词和/或所述语句语义分析所述样本语句之间的关联关系。
所述的S300根据所述连接词和/或所述语句语义分析所述样本语句之间的关联关系具体包括:
S310当所述语料样本中存在所述连接词时,根据所述连接词和/或所述语句语义分析所述样本语句之间的关联关系。
具体的,如果语料样本中包括多个样本语句,并且样本语句与样本语句之间有类似“因为”、“所以”、“不但”、“而且”之类的连接词存在,则可以结合连接词和连接词前后的样本语句的语句语义分析样本语句之间的关联关系。
如果语料样本只有一个句子但是句子中有类似“和”、“或”之类的连接词存在,则将连接词前后的主体词语看做样本语句,同样结合连接词和连接词前后的样本语句的语句语义分析样本语句之间的关联关系。
S320当所述语料样本中不存在所述连接词时,根据所述语句语义分析所述样本语句之间的关联关系。
具体的,如果语料样本中包含的句子比较简单,不存在连接词,则将句子中的多个主体词语看做样本语句,通过样本语句的语句语义分析样本语句之间的关联关系,主体词语为语料样本中特定成分的词语,也可以是统计得出的主体词库中的词语。
S400根据所述样本语句和所述关联关系建立层级目录网。
S500根据所述语句语义和所述层级目录网训练生成语义模型。
S600获取用户语料。
S700将所述用户语料和所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义。
S800根据所述用户语句层级对所述用户语句语义进行排序,得到用户意图。
本实施例中,针对语料样本中包含的句子的复杂程度以及是否存在连接词等情形,不同情形采取不同的处理方式,从而保证快速准确地分析出样本语句之间的关联关系。
本发明的另一个实施例,如图3所示,一种语义解析方法,包括:
S100获取语料样本。
S200分析所述语料样本中包含的连接词,以及所述语料样本中所述连接词前后的样本语句对应的语句语义。
所述的S200分析所述语料样本中包含的连接词,以及所述语料样本中所述连接词前后的样本语句对应的语句语义具体包括:
S210通过分词技术对所述语料样本进行分词,得到样本分词和所述样本分词对应的分词词性。
具体的,根据分词技术对语料样本进行分词,识别语料样本中的每一句话中词语的词性,然后将语料样本中的每一句话中根据词语的词性将整个句子划分为字、词以及短语等分词构成。因此得到了语料样本中包含的样本分词以及对应的分词词性。
例如,某一语料样本为“小明不但喜欢蓝色,而且喜欢红色”,进行分词得到的样本分词为“小明”、“不但”、“喜欢”、“蓝色”、“而且”、“喜欢”、“红色”,“小明”、“蓝色”和“红色”对应的分词词性为名词,“不但”、和“而且”对应的分词词性为代词,“喜欢”对应的分词词性为动词。
S220根据所述样本分词和所述分词词性确定所述样本分词中的所述连接词。
具体的,根据样本分词和分词词性确定样本分词中的连接词,例如“因为”、“所以”、“不但”、“而且”、“和”、“或”等连接词,然后以连接词为界限将连接词前后的语料划分为样本语句。
例如,某一语料样本为“小明不但喜欢蓝色,而且喜欢红色”,进行分词得到的样本分词为“小明”、“不但”、“喜欢”、“蓝色”、“而且”、“喜欢”、“红色”,“小明”、“蓝色”和“红色”对应的分词词性为名词,“不但”、和“而且”对应的分词词性为代词,“喜欢”对应的分词词性为动词。分析得到其中“不但”和“而且”为连接词,因此将语料样本划分为样本语句“小明”、“喜欢蓝色”和“喜欢红色”。
S230分析所述连接词前后的所述样本语句的句式结构,得到所述样本语句的样本分词之间的连接关系。
具体的,上述根据分词技术得到了语料样本中包含的样本分词以及分词词性,以及以连接词为界限将连接词前后的语料划分为样本语句,分析每一个样本语句的句式结构,得到样本语句中包含的样本分词之间的连接关系。
例如,某一语料样本为“小明不但喜欢蓝色,而且喜欢红色”,分析得到其中“不但”和“而且”为连接词,因此将语料样本划分为样本语句“小明”、“喜欢蓝色”和“喜欢红色”。分析样本语句的句式结构,得到“喜欢蓝色”和“喜欢红色”都是属于动宾关系。
S240根据所述样本分词、所述分词词性以及所述连接关系生成所述样本语句对应的正则表达式。
具体的,根据样本分词、分词词性、样本承接词以及连接关系生成样本语句对应的正则表达式,例如,某一语料样本为“小明不但喜欢蓝色,而且喜欢红色”,进行分词得到的样本分词为“小明”、“不但”、“喜欢”、“蓝色”、“而且”、“喜欢”、“红色”,“小明”、“蓝色”和“红色”对应的分词词性为名词,“不但”、和“而且”对应的分词词性为代词,“喜欢”对应的分词词性为动词。分析得到其中“不但”和“而且”为连接词,因此将语料样本划分为样本语句“小明”、“喜欢蓝色”和“喜欢红色”。分析样本语句的句式结构,得到“喜欢蓝色”和“喜欢红色”都是属于动宾关系。得到的正则表达式分别为:动词(喜欢)#名词(蓝色)、动词(喜欢)#名词(红色)。
S250根据所述样本分词和所述分词词性建立所述样本语句对应的语义槽。
具体的,根据样本分词和分词词性建立样本语句对应的语义槽,例如,某一语料样本为“小明不但喜欢蓝色,而且喜欢红色”,进行分词得到的样本分词为“小明”、“不但”、“喜欢”、“蓝色”、“而且”、“喜欢”、“红色”,“小明”、“蓝色”和“红色”对应的分词词性为名词,“不但”、和“而且”对应的分词词性为代词,“喜欢”对应的分词词性为动词,得到的语义槽为:名词库1为“小明”,名词库2为“蓝色”,名词库3为“红色”,以此类推。
S260根据所述正则表达式和所述语义槽解析所述连接词前后的所述样本语句,得到所述样本语句对应的所述语句语义。
具体的,根据正则表达式和语义槽解析连接词前后的样本语句,得到样本语句对应的语句语义。例如,某一语料样本为“小明不但喜欢蓝色,而且喜欢红色”,其中“不但”和“而且”为连接词,得到的正则表达式分别为:动词库(喜欢)#名词库2(蓝色)、动词库(喜欢)#名词库3(红色),将语义槽动词库“喜欢”、名词库2“蓝色”以及名词库3“红色”分别结合正则式对样本语句进行语义解析。
S300根据所述连接词和/或所述语句语义分析所述样本语句之间的关联关系。
S400根据所述样本语句和所述关联关系建立层级目录网。
S500根据所述语句语义和所述层级目录网训练生成语义模型。
所述的S500根据所述语句语义和所述层级目录网训练生成语义模型具体包括:
S510根据所述正则表达式、所述语义槽、所述语句语义和所述层级目录网训练生成所述语义模型。
S600获取用户语料。
S700将所述用户语料和所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义。
S800根据所述用户语句层级对所述用户语句语义进行排序,得到用户意图。
本实施例中,根据分词技术对语料样本进行分词,得到其中包含的连接词,并分析语料样本的句式结构,从而生成对应的正则表达式和语义槽,便于后续将语料样本划分为样本语句以及对该样本语句进行语义解析。
本发明的另一个实施例,如图4所示,一种语义解析方法,包括:
S100获取语料样本。
S200分析所述语料样本中包含的连接词,以及所述语料样本中所述连接词前后的样本语句对应的语句语义。
所述的S200分析所述语料样本中包含的连接词,以及所述语料样本中所述连接词前后的样本语句对应的语句语义具体包括:
S210通过分词技术对所述语料样本进行分词,得到样本分词和所述样本分词对应的分词词性。
S220根据所述样本分词和所述分词词性确定所述样本分词中的所述连接词。
S230分析所述连接词前后的所述样本语句的句式结构,得到所述样本语句的样本分词之间的连接关系。
S240根据所述样本分词、所述分词词性以及所述连接关系生成所述样本语句对应的正则表达式。
S250根据所述样本分词和所述分词词性建立所述样本语句对应的语义槽。
S260根据所述正则表达式和所述语义槽解析所述连接词前后的所述样本语句,得到所述样本语句对应的所述语句语义。
S300根据所述连接词和/或所述语句语义分析所述样本语句之间的关联关系。
S400根据所述样本语句和所述关联关系建立层级目录网。
S500根据所述语句语义和所述层级目录网训练生成语义模型。
所述的S500根据所述语句语义和所述层级目录网训练生成语义模型具体包括:
S510根据所述正则表达式、所述语义槽、所述语句语义和所述层级目录网训练生成所述语义模型。
S600获取用户语料。
S700将所述用户语料和所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义。
所述的S700将所述用户语料和所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义具体包括:
S710根据所述用户语料生成对应的用户正则式和用户语义槽。
具体的,通过分词技术对用户语料进行分词得到对应的用户分词以及用户分词词性,并分析用户分词之间的连接关系,从而生成对应的用户正则式和用户语义槽。
S720将所述用户正则式、所述用户语义槽和所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义。
具体的,将用户正则式、用户语义槽和语义模型中的正则表达式、语义槽逐一地进行对比,若对比符合则得到用户语料中用户语句对应的用户语句层级以及用户语句语义。
S800根据所述用户语句层级对所述用户语句语义进行排序,得到用户意图。
本实施例中,根据用户语料得到对应的用户正则式和用户语义槽,然后和语义模型进行对比得到对应的用户语句层级以及用户语句语义,从而解析出用户的真实意图。
本发明的另一个实施例,如图5所示,一种语义解析方法,包括:
S100获取语料样本。
S200分析所述语料样本中包含的连接词,以及所述语料样本中所述连接词前后的样本语句对应的语句语义。
所述的S200分析所述语料样本中包含的连接词,以及所述语料样本中所述连接词前后的样本语句对应的语句语义具体包括:
S210通过分词技术对所述语料样本进行分词,得到样本分词和所述样本分词对应的分词词性。
S220根据所述样本分词和所述分词词性确定所述样本分词中的所述连接词。
S230分析所述连接词前后的所述样本语句的句式结构,得到所述样本语句的样本分词之间的连接关系。
S240根据所述样本分词、所述分词词性以及所述连接关系生成所述样本语句对应的正则表达式。
S250根据所述样本分词和所述分词词性建立所述样本语句对应的语义槽。
S260根据所述正则表达式和所述语义槽解析所述连接词前后的所述样本语句,得到所述样本语句对应的所述语句语义。
S300根据所述连接词和/或所述语句语义分析所述样本语句之间的关联关系。
S400根据所述样本语句和所述关联关系建立层级目录网。
S500根据所述语句语义和所述层级目录网训练生成语义模型。
所述的S500根据所述语句语义和所述层级目录网训练生成语义模型具体包括:
S510根据所述正则表达式、所述语义槽、所述语句语义和所述层级目录网训练生成所述语义模型。
S600获取用户语料。
S700将所述用户语料和所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义。
所述的S700将所述用户语料和所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义具体包括:
S710根据所述用户语料生成对应的用户正则式和用户语义槽。
S720将所述用户正则式、所述用户语义槽和所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义。
所述的S720将所述用户正则式、所述用户语义槽和所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义具体包括:
S721将所述用户正则式、所述用户语义槽和所述语义模型进行对比。
具体的,将用户正则式、用户语义槽和语义模型中的正则表达式、语义槽逐一地进行对比,如果用户语料结构比较复杂,包含的内容较多,那么该用户正则式不同部分可能与不同的正则表达式匹配相符,例如用户正则式的前部分与正则表达式1匹配相符,后部分与正则表达式2匹配相符,则根据匹配的部分对应地将用户语料划分为多个用户语句,如与正则表达式1匹配相符的用户正则式的前部分对应的用户语料的内容为用户语句1,与正则表达式2匹配相符的用户正则式的后部分对应的用户语料的内容为用户语句2。
S722若所述用户正则式和所述用户语义槽都分别与所述语义模型匹配符合,则得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义。
具体的,如果用户正则式、用户语义槽都分别与语义模型中的正则表达式、语义槽匹配符合,则得到用户语料中每个用户语句对应的用户语句层级以及用户语句语义。
S723若所述用户正则式与所述语义模型匹配符合,所述用户语义槽与所述语义模型匹配不符合,则根据匹配符合的正则表达式得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义,并根据所述用户语义槽更新对应的语义槽。
具体的,如果用户正则式与语义模型中的正则表达式匹配符合,但是用户语义槽与语义模型中的语义槽匹配不符合,则根据匹配符合的正则表达式得到用户语料中用户语句对应的用户语句层级以及用户语句语义,并根据用户语义槽更新对应的语义槽。
S800根据所述用户语句层级对所述用户语句语义进行排序,得到用户意图。
本实施例中,针对用户语料对应的用户正则式和用户语义槽与语义模型中的正则表达式、语义槽匹配的不同情形,采取不同的处理方式,从而保证快速准确地分析出用户的真实意图。
本发明的一个实施例,如图6所示,一种语义解析系统1000,包括:
样本获取模块1100,获取语料样本;
分析模块1200,分析所述样本获取模块1100获取的所述语料样本中包含的连接词,以及所述语料样本中所述连接词前后的样本语句对应的语句语义;
关系分析模块1300,根据所述分析模块1200得到的所述连接词和/或所述语句语义分析所述样本语句之间的关联关系;
目录网建立模块1400,根据所述分析模块1200得到的所述样本语句和所述关系分析模块1300得到的所述关联关系建立层级目录网;
模型生成模块1500,根据所述分析模块1200得到的所述语句语义和所述目录网建立模块1400得到的所述层级目录网训练生成语义模型;
语料获取模块1600,获取用户语料;
对比模块1700,将所述语料获取模块1600获取的所述用户语料和所述模型生成模块1500得到的所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义;
处理模块1800,根据所述对比模块1700得到的所述用户语句层级对所述对比模块1700得到的所述用户语句语义进行排序,得到用户意图。
本实施例中的各个模块的具体操作方式在上述对应的方法实施例中已经进行了详细描述,因此不再一一进行赘述。
本发明的另一个实施例,如图7所示,一种语义解析系统1000,包括:
样本获取模块1100,获取语料样本。
分析模块1200,分析所述样本获取模块1100获取的所述语料样本中包含的连接词,以及所述语料样本中所述连接词前后的样本语句对应的语句语义。
所述分析模块1200具体包括:
分词单元1210,通过分词技术对所述样本获取模块1100获取的所述语料样本进行分词,得到样本分词和所述样本分词对应的分词词性。
连接词确定单元1220,根据所述分词单元1210得到的所述样本分词和所述分词词性确定所述样本分词中的所述连接词。
关系分析单元13201230,分析所述连接词确定单元1220得到的所述连接词前后的所述样本语句的句式结构,得到所述样本语句的样本分词之间的连接关系。
表达式生成单元1240,根据所述分词单元1210得到的所述样本分词、所述分词词性以及所述关系分析单元13201230得到的所述连接关系生成所述样本语句对应的正则表达式。
语义槽建立单元1250,根据所述分词单元1210得到的所述样本分词和所述分词词性建立所述样本语句对应的语义槽。
语义解析单元1260,根据所述表达式生成单元1240生成的所述正则表达式和所述语义槽建立单元1250建立的所述语义槽解析所述连接词前后的所述样本语句,得到所述样本语句对应的所述语句语义。
关系分析模块1300,根据所述分析模块1200得到的所述连接词和/或所述语句语义分析所述样本语句之间的关联关系。
所述关系分析模块1300具体包括:
判断单元1310,判断所述语料样本中是否存在所述连接词。
关系分析单元13201230,若所述判断单元1310判断是,则根据所述连接词和/或所述语句语义分析所述样本语句之间的关联关系。
所述关系分析单元13201230,若所述判断单元1310判断否,则根据所述语句语义分析所述样本语句之间的关联关系。
目录网建立模块1400,根据所述分析模块1200得到的所述样本语句和所述关系分析模块1300得到的所述关联关系建立层级目录网。
模型生成模块1500,根据所述表达式生成单元1240生成的所述正则表达式、所述语义槽建立单元1250建立的所述语义槽、所述语义解析单元1260所述语句语义和所述目录网建立模块1400得到的所述层级目录网训练生成所述语义模型。
语料获取模块1600,获取用户语料。
对比模块1700,将所述语料获取模块1600获取的所述用户语料和所述模型生成模块1500得到的所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义。
所述对比模块1700具体包括:
处理单元1710,根据所述语料获取模块1600获取的所述用户语料生成对应的用户正则式和用户语义槽。
对比单元1720,将所述处理单元1710得到的所述用户正则式、所述用户语义槽和所述模型生成模块1500得到的所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义。
所述对比单元1720具体包括:
对比子单元1721,将所述处理单元1710得到的所述用户正则式、所述用户语义槽和所述模型生成模块1500得到的所述语义模型进行对比。
处理子单元1722,若所述对比子单元1721得到所述用户正则式和所述用户语义槽都分别与所述语义模型匹配符合,则得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义。
所述处理子单元1722,若所述对比子单元1721得到所述用户正则式与所述语义模型匹配符合,所述用户语义槽与所述语义模型匹配不符合,则根据匹配符合的正则表达式得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义,并根据所述用户语义槽更新对应的语义槽。
处理模块1800,根据所述对比模块1700得到的所述用户语句层级对所述对比模块1700得到的所述用户语句语义进行排序,得到用户意图。
本实施例中的各个模块的具体操作方式在上述对应的方法实施例中已经进行了详细描述,因此不再一一进行赘述。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种语义解析方法,其特征在于,包括:
获取语料样本;
分析所述语料样本中包含的连接词,以及所述语料样本中所述连接词前后的样本语句对应的语句语义;
根据所述连接词和/或所述语句语义分析所述样本语句之间的关联关系;
根据所述样本语句和所述关联关系建立层级目录网;
根据所述语句语义和所述层级目录网训练生成语义模型;
获取用户语料;
将所述用户语料和所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义;
根据所述用户语句层级对所述用户语句语义进行排序,得到用户意图。
2.根据权利要求1所述的语义解析方法,其特征在于,所述的根据所述连接词和/或所述语句语义分析所述样本语句之间的关联关系具体包括:
当所述语料样本中存在所述连接词时,根据所述连接词和/或所述语句语义分析所述样本语句之间的关联关系;
当所述语料样本中不存在所述连接词时,根据所述语句语义分析所述样本语句之间的关联关系。
3.根据权利要求1所述的语义解析方法,其特征在于,所述的分析所述语料样本中包含的连接词,以及所述连接词前后的样本语句对应的语句语义具体包括:
通过分词技术对所述语料样本进行分词,得到样本分词和所述样本分词对应的分词词性;
根据所述样本分词和所述分词词性确定所述样本分词中的所述连接词;
分析所述连接词前后的所述样本语句的句式结构,得到所述样本语句的样本分词之间的连接关系;
根据所述样本分词、所述分词词性以及所述连接关系生成所述样本语句对应的正则表达式;
根据所述样本分词和所述分词词性建立所述样本语句对应的语义槽;
根据所述正则表达式和所述语义槽解析所述连接词前后的所述样本语句,得到所述样本语句对应的所述语句语义;
所述的根据所述语句语义和所述层级目录网训练生成语义模型具体包括:
根据所述正则表达式、所述语义槽、所述语句语义和所述层级目录网训练生成所述语义模型。
4.根据权利要求3所述的语义解析方法,其特征在于,所述的将所述用户语料和所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义具体包括:
根据所述用户语料生成对应的用户正则式和用户语义槽;
将所述用户正则式、所述用户语义槽和所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义。
5.根据权利要求4所述的语义解析方法,其特征在于,所述的将所述用户正则式、所述用户语义槽和所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义具体包括:
将所述用户正则式、所述用户语义槽和所述语义模型进行对比;
若所述用户正则式和所述用户语义槽都分别与所述语义模型匹配符合,则得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义;
若所述用户正则式与所述语义模型匹配符合,所述用户语义槽与所述语义模型匹配不符合,则根据匹配符合的正则表达式得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义,并根据所述用户语义槽更新对应的语义槽。
6.一种语义解析系统,其特征在于,包括:
样本获取模块,获取语料样本;
分析模块,分析所述样本获取模块获取的所述语料样本中包含的连接词,以及所述语料样本中所述连接词前后的样本语句对应的语句语义;
关系分析模块,根据所述分析模块得到的所述连接词和/或所述语句语义分析所述样本语句之间的关联关系;
目录网建立模块,根据所述分析模块得到的所述样本语句和所述关系分析模块得到的所述关联关系建立层级目录网;
模型生成模块,根据所述分析模块得到的所述语句语义和所述目录网建立模块得到的所述层级目录网训练生成语义模型;
语料获取模块,获取用户语料;
对比模块,将所述语料获取模块获取的所述用户语料和所述模型生成模块得到的所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义;
处理模块,根据所述对比模块得到的所述用户语句层级对所述对比模块得到的所述用户语句语义进行排序,得到用户意图。
7.根据权利要求6所述的语义解析系统,其特征在于,所述关系分析模块具体包括:
判断单元,判断所述语料样本中是否存在所述连接词;
关系分析单元,若所述判断单元判断是,则根据所述连接词和/或所述语句语义分析所述样本语句之间的关联关系;
所述关系分析单元,若所述判断单元判断否,则根据所述语句语义分析所述样本语句之间的关联关系。
8.根据权利要求6所述的语义解析系统,其特征在于,所述分析模块具体包括:
分词单元,通过分词技术对所述样本获取模块获取的所述语料样本进行分词,得到样本分词和所述样本分词对应的分词词性;
连接词确定单元,根据所述分词单元得到的所述样本分词和所述分词词性确定所述样本分词中的所述连接词;
关系分析单元,分析所述连接词确定单元得到的所述连接词前后的所述样本语句的句式结构,得到所述样本语句的样本分词之间的连接关系;
表达式生成单元,根据所述分词单元得到的所述样本分词、所述分词词性以及所述关系分析单元得到的所述连接关系生成所述样本语句对应的正则表达式;
语义槽建立单元,根据所述分词单元得到的所述样本分词和所述分词词性建立所述样本语句对应的语义槽;
语义解析单元,根据所述表达式生成单元生成的所述正则表达式和所述语义槽建立单元建立的所述语义槽解析所述连接词前后的所述样本语句,得到所述样本语句对应的所述语句语义;
所述的模型生成模块包括:
所述模型生成模块,根据所述表达式生成单元生成的所述正则表达式、所述语义槽建立单元建立的所述语义槽、所述语义解析单元所述语句语义和所述目录网建立模块得到的所述层级目录网训练生成所述语义模型。
9.根据权利要求8所述的语义解析系统,其特征在于,所述对比模块具体包括:
处理单元,根据所述语料获取模块获取的所述用户语料生成对应的用户正则式和用户语义槽;
对比单元,将所述处理单元得到的所述用户正则式、所述用户语义槽和所述模型生成模块得到的所述语义模型进行对比,得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义。
10.根据权利要求9所述的语义解析系统,其特征在于,所述对比单元具体包括:
对比子单元,将所述处理单元得到的所述用户正则式、所述用户语义槽和所述模型生成模块得到的所述语义模型进行对比;
处理子单元,若所述对比子单元得到所述用户正则式和所述用户语义槽都分别与所述语义模型匹配符合,则得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义;
所述处理子单元,若所述对比子单元得到所述用户正则式与所述语义模型匹配符合,所述用户语义槽与所述语义模型匹配不符合,则根据匹配符合的正则表达式得到所述用户语料中用户语句对应的用户语句层级以及用户语句语义,并根据所述用户语义槽更新对应的语义槽。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910046972.7A CN109783820B (zh) | 2019-01-18 | 2019-01-18 | 一种语义解析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910046972.7A CN109783820B (zh) | 2019-01-18 | 2019-01-18 | 一种语义解析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109783820A CN109783820A (zh) | 2019-05-21 |
CN109783820B true CN109783820B (zh) | 2022-11-25 |
Family
ID=66501662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910046972.7A Active CN109783820B (zh) | 2019-01-18 | 2019-01-18 | 一种语义解析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109783820B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749565A (zh) * | 2019-10-31 | 2021-05-04 | 华为终端有限公司 | 基于人工智能的语义识别方法、装置和语义识别设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005284723A (ja) * | 2004-03-30 | 2005-10-13 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
CN103412855A (zh) * | 2013-06-27 | 2013-11-27 | 华中师范大学 | 现代汉语复句关系词自动识别方法及系统 |
CN105095190B (zh) * | 2015-08-25 | 2018-01-12 | 众联数据技术(南京)有限公司 | 一种基于中文语义结构和细分词库结合的情感分析方法 |
CN107168956B (zh) * | 2017-05-26 | 2020-06-02 | 北京理工大学 | 一种基于管道的中文篇章结构分析方法及系统 |
CN107273358B (zh) * | 2017-06-18 | 2020-06-05 | 北京理工大学 | 一种基于管道模式的端到端英文篇章结构自动分析方法 |
CN107315737B (zh) * | 2017-07-04 | 2021-03-23 | 北京奇艺世纪科技有限公司 | 一种语义逻辑处理方法及系统 |
CN107818078B (zh) * | 2017-07-20 | 2021-08-17 | 张宝华 | 汉语自然语言对话的语义关联与匹配方法 |
CN107679042B (zh) * | 2017-11-15 | 2021-02-05 | 北京灵伴即时智能科技有限公司 | 一种面向智能语音对话系统的多层级对话分析方法 |
CN108446267B (zh) * | 2018-02-13 | 2021-08-06 | 西安理工大学 | 一种基于命题逻辑的规范拆解方法 |
CN108874791B (zh) * | 2018-07-06 | 2022-05-24 | 北京联合大学 | 一种基于最小语义块的语义分析与汉英调序方法及系统 |
CN109213856A (zh) * | 2018-10-22 | 2019-01-15 | 广东小天才科技有限公司 | 一种语义识别方法及系统 |
-
2019
- 2019-01-18 CN CN201910046972.7A patent/CN109783820B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109783820A (zh) | 2019-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220058343A1 (en) | Written-modality prosody subsystem in a natural language understanding (nlu) framework | |
CN109299480B (zh) | 基于上下文语境的术语翻译方法及装置 | |
US9495358B2 (en) | Cross-language text clustering | |
CN109635297B (zh) | 一种实体消歧方法、装置、计算机装置及计算机存储介质 | |
US9588958B2 (en) | Cross-language text classification | |
US8849651B2 (en) | Method and system for natural language dictionary generation | |
US9053090B2 (en) | Translating texts between languages | |
CA2562366A1 (en) | A system for multiligual machine translation from english to hindi and other indian languages using pseudo-interlingua and hybridized approach | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
KR20090004216A (ko) | 음성 인식에 대한 통계적 의미 분류 시스템 및 방법 | |
JP2011118689A (ja) | 検索方法及びシステム | |
CN112347241A (zh) | 一种摘要提取方法、装置、设备及存储介质 | |
CN112765977B (zh) | 一种基于跨语言数据增强的分词方法及装置 | |
CN109783820B (zh) | 一种语义解析方法及系统 | |
CN109800430B (zh) | 一种语义理解方法及系统 | |
Ogrodniczuk et al. | Rule-based coreference resolution module for Polish | |
CN113157887A (zh) | 知识问答意图识别方法、装置、及计算机设备 | |
CN117216214A (zh) | 一种问答抽取的生成方法、装置、设备及介质 | |
JP2006004366A (ja) | 機械翻訳システム及びそのためのコンピュータプログラム | |
CN110069780B (zh) | 一种基于特定领域文本的情感词识别方法 | |
CN113158693A (zh) | 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质 | |
CN115577090B (zh) | 基于成语理解的语音对话方法、装置、设备及存储介质 | |
CN109766555B (zh) | 一种获取用户语句的语义槽的方法及系统 | |
US11664010B2 (en) | Natural language domain corpus data set creation based on enhanced root utterances | |
CN111353293B (zh) | 一种语句材料生成方法及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |