CN109885835B - 一种获取用户语料中词语之间的关联关系的方法和系统 - Google Patents
一种获取用户语料中词语之间的关联关系的方法和系统 Download PDFInfo
- Publication number
- CN109885835B CN109885835B CN201910125067.0A CN201910125067A CN109885835B CN 109885835 B CN109885835 B CN 109885835B CN 201910125067 A CN201910125067 A CN 201910125067A CN 109885835 B CN109885835 B CN 109885835B
- Authority
- CN
- China
- Prior art keywords
- original
- training
- semantic
- words
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 153
- 238000012545 processing Methods 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 abstract description 3
- 241001465754 Metazoa Species 0.000 description 16
- 230000009182 swimming Effects 0.000 description 16
- 241000282821 Hippopotamus Species 0.000 description 15
- 210000001320 hippocampus Anatomy 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及辅助学习技术领域,提供一种获取用户语料中词语之间的关联关系的方法和系统,包括:通过训练获取句法树模型,所述句法树模型包含多个语义槽,以及所述语义槽之间的连接关系;接收用户输入的词语,调取所述句法树模型,将所述词语匹配到所述语义槽中,形成实体语义槽;根据所述语义槽之间的连接关系,获取所述实体语义槽之间的连接关系,进而获取所述词语之间的关联关系。通过使用句法树模型,对用户输入的词语进行语义匹配,可以实现对用户输入的一些特殊词语之间关联关系的识别,使得计算机在理解用户使用自然语言输入的交互信息时更准确。
Description
技术领域
本发明涉及辅助学习技术领域,尤指一种获取用户语料中词语之间的关联关系的方法和系统。
背景技术
随着计算机技术的发展,人类与计算机进行交互的方式在不断变化,开始以计算机语言进行交互,只有少数掌握计算机语言的程序员才可以顺利的向计算机传达指令。这样的语言复杂,不符合人类的使用习惯,计算机语言通过不断改进,越来越趋向于人类语言的使用习惯。
传统用户使用计算机进行辅助学习时,无法绕开与计算机进行及时交互的需求,但是受限于计算机语言的复杂,交互的效率很低,只能通过选择由程序员编写好的选项进行指令输出,如何使计算机理解用户的自然语言,使用户通过自然语言进行计算机辅助学习,成为新的需要。
现有技术通过对人类自然语言进行语法约束,让用户使用标准的语法进行意义表述,通过收录语法结构,将用户在标准语法框架下的语句进行语义理解。但一般人都习惯使用自然语言进行表述,自然语言中,由于表达习惯的差异,往往很少人使用标准的书面语法进行语义表达,在其表达过程中,存在着很多省略、指代、倒装等现象,用户在表述时根据上下文很可能省略大量的句子成分后,只剩下少数单词,那么如何理解用户在这种情况下表达的意思,怎样获取用户零散词语之间的关联关系成为新的问题。
发明内容
本发明提供一种获取用户语料中词语之间的关联关系的方法和系统。具体的技术方案如下,本发明包括:
一种获取用户语料中词语之间的关联关系的方法,包括:
通过训练获取句法树模型,所述句法树模型包含多个语义槽,以及所述语义槽之间的连接关系;
接收用户输入的词语,调取所述句法树模型,将所述词语匹配到所述语义槽中,形成实体语义槽;
根据所述语义槽之间的连接关系,获取所述实体语义槽之间的连接关系,进而获取所述词语之间的关联关系。
进一步地,本发明中一种获取用户语料中词语之间的关联关系的方法还包括:
所述句法树模型还包含词库,所述词库对应所述语义槽;
形成所述实体语义槽后,当所述词语未收录到所述词库中时,将所述词语收录到所述词库中。
进一步地,本发明中一种获取用户语料中词语之间的关联关系的方法中,通过训练获取句法树模型具体包括:
接收用户的原始语料,根据其原始句式规则生成原始句法树,所述原始句法树包含多个原始语义槽,以及所述原始语义槽之间的连接关系,所述原始句法树为所述句法树模型的初始形态;
接收所述用户的训练语料,根据所述训练语料对所述原始句法树进行训练,得到所述句法树模型。
进一步地,本发明中一种获取用户语料中词语之间的关联关系的方法中,根据所述训练语料对所述原始句法树进行训练,得到所述句法树模型具体包括:
分析获得所述训练语料的训练句式规则和训练词,根据所述训练句式规则将所述训练语料与所述原始句法树进行匹配,并记录匹配成功次数;
当匹配成功时,根据所述训练词的词性将其匹配到所述原始语义槽中,记录与所述原始语义槽匹配成功的所述训练词,建立所述原始语义槽对应的原始词库;
当所述匹配成功次数超过预设值时,根据所述原始语义槽、所述原始语义槽之间的连接关系、所述原始词库,生成所述句法树模型,结束训练。
进一步地,本发明中一种获取用户语料中词语之间的关联关系的方法,所述将所述词语匹配到所述语义槽中还包括:
当所述词语具有上下文语句时,获取所述上下文语句的语义;
根据所述上下文语句的语义,确定与所述词语进行匹配的所述语义槽。
本发明还提供一种获取用户语料中词语之间的关联关系的系统,包括:
建模模块,通过训练获取句法树模型,所述句法树模型包含多个语义槽,以及所述语义槽之间的连接关系;
匹配模块,接收用户输入的词语,调取所述句法树模型,将所述词语匹配到所述语义槽中,形成实体语义槽;
解析模块,根据所述语义槽之间的连接关系,获取所述实体语义槽之间的连接关系,进而获取所述词语之间的关联关系。
进一步地,本发明中一种获取用户语料中词语之间的关联关系的系统,所述匹配模块包括:
词库子模块,所述句法树模型还包含词库,所述词库对应所述语义槽;
所述匹配模块还用于,在形成所述实体语义槽后,当所述词语未收录到所述词库中时,将所述词语收录到所述词库中。
进一步地,本发明中一种获取用户语料中词语之间的关联关系的系统,所述建模模块具体包括:
原始处理子模块,接收用户的原始语料,根据其原始句式规则生成原始句法树,所述原始句法树包含多个原始语义槽,以及所述原始语义槽之间的连接关系,所述原始句法树为所述句法树模型的初始形态;
训练子模块,接收所述用户的训练语料,根据所述训练语料对所述原始句法树进行训练,得到所述句法树模型。
进一步地,本发明中一种获取用户语料中词语之间的关联关系的系统,包括:
所述训练子模块还用于,进行所述原始句法树匹配,分析获得所述训练语料的训练句式规则和训练词,根据所述训练句式规则将所述训练语料与所述原始句法树进行匹配,并记录匹配成功次数;进行所述原始语义槽匹配,当匹配成功时,根据所述训练词的词性将其匹配到所述原始语义槽中,记录与所述原始语义槽匹配成功的所述训练词,建立所述原始语义槽对应的原始词库;
所述训练子模块还包括生成单元,当所述匹配成功次数超过预设值时,根据所述原始语义槽、所述原始语义槽之间的连接关系、所述原始词库,生成所述句法树模型,结束训练。
进一步地,本发明中一种获取用户语料中词语之间的关联关系的系统,其特征在于,所述匹配模块还包括:
语义识别子模块,当所述词语具有上下文语句时,获取所述上下文语句的语义;所述匹配模块根据所述上下文语句的语义,确定与所述词语进行匹配的所述语义槽。
通过本发明提供的种获取用户语料中词语之间的关联关系的方法和系统,能够带来以下至少一种有益效果:
1、通过使用句法树模型,对用户输入的词语进行语义匹配,可以实现对用户输入的一些特殊词语之间关联关系的识别,这些特殊词语是用户基于上下文,或者基于日常习惯省略了标准语法中一些关联句子结构后产生的,这样可以使得计算机在理解用户使用自然语言输入的交互信息时更准确。
2、通过使用句法树模型,对用户输入的新词进行语义匹配之后,可以获得新词对应的语义槽位,不断地收集用户输入的新词,丰富语义槽中词库的词汇量,可以对用户的日常用语习惯进行更好的理解,使用户在长时间使用本发明后,可以获得更准确的语义理解反馈。
3、用户的用语习惯各不相同,本发明通过对特定用户的原始语料进行收集,针对该用户进行句法树模型训练,针对该特定用户进行语义理解,通过制定一种句法树模型的训练规则,实现了通过用户输入原始语料获取原始句法树,然后通过用户持续的训练语料输入,当其中语义槽匹配成功次数达到预设值时,结束训练过程,只进行后续的词库扩充。本发明通过个性化的句法树模型训练方法,进一步提高了语义理解的准确率。
4、在将所述词语匹配到语义槽中时,采用结合上下文语义的方法,从上下文中获取其对应的语义槽,本发明通过采取这种办法,使用额外的判断方式,进一步增加语义理解的准确率。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种获取用户语料中词语之间的关联关系的方法和系统的技术特征、优点及实现方式予以进一步的说明。
图1是本发明一种获取用户语料中词语之间的关联关系的方法的一个实施例的流程图;
图2是本发明一种获取用户语料中词语之间的关联关系的方法的另一个实施例的流程图;
图3是本发明一种获取用户语料中词语之间的关联关系的方法的又一个实施例的流程图;
图4是本发明一种获取用户语料中词语之间的关联关系的方法的另一个实施例的流程图;
图5是本发明一种获取用户语料中词语之间的关联关系的方法的又一个实施例的流程图;
图6是本发明一种获取用户语料中词语之间的关联关系的系统的一个实施例的结构示意图;
附图标号说明:
100 建模模块 110 原始处理子模块
120 训练子模块 121 生成单元
200 匹配模块 210 词库子模块
220 语义识别子模块 300 解析模块
400 句法树模型存储模块
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
基于如何理解用户自然语言,怎么样获取用户零散词语之间的关联关系的问题,本发明提供一种获取用户语料中词语之间的关联关系的方法和系统。
本发明第一实施例,图1为本发明一些实施例提供的一种获取用户语料中词语之间的关联关系的方法的一个流程图,包括:
S100通过训练获取句法树模型,所述句法树模型包含多个语义槽,以及所述语义槽之间的连接关系;
S200接收用户输入的词语,调取所述句法树模型,将所述词语匹配到所述语义槽中,形成实体语义槽;
S300根据所述语义槽之间的连接关系,获取所述实体语义槽之间的连接关系,进而获取所述词语之间的关联关系。
具体地,在S100对用户的语义进行理解时,通过采集用户的语料,针对语料进行训练,获取句法树模型,S100中的句法树模型包括多个语义槽,以及这些语义槽之间的连接关系,语义槽可以是按照标准语法的句子成分进行设置,也可以是根据用户的用于习惯进行设置。
获得S100中句法树模型后,当在S200中用户输入新的语料,需要进行词语间关系解析时,调用S100中得到的句法树模型,S200还将输入的新的语料解析成多个词语,并将这些词语分别匹配到句法树模型的各个语义槽中。例如,当用户输入的语料为例句“河马是一种水陆两栖动物,游泳,它会吗”,通过疑问词判断该语句为疑问句,那么提取句法树中的疑问句句式中的语义槽,S200中针对该例句提取的语义槽为“第一主语+是+宾语,第二主语+会+动词+疑问词”,将用户语料匹配进去后,即得到实体语义槽“第一主语(河马)+是+宾语(一种两栖动物),第二主语(它)+会+动词(游泳)+疑问词(吗)?”通过S200可以获知,在句法树的语义槽中,有两个主语存在,而这两个主语的关联关系已经被记录为相同的关系,即第一主语和第二主语是同等的,两者可以进行相互替换。
在S200中的语义槽关系已知的前提下,S300根据例句中的两个主语语义槽的关系,也即是“第一主语”和“第二主语”相同,可以得出“第一主语(河马)”和“第二主语(它)”的关联关系是相同的,进而得出用户在S100输入的“河马”和“它”相同。如此,通过S300可以获取用户输入的语料中不相关词语的关联关系。
在本发明提供的一些实施例中,使用上述方法,通过使用句法树模型,对用户输入的词语进行语义匹配,可以实现对用户输入的一些词语之间关联关系的识别,这些词语是用户基于上下文,或者基于日常习惯省略了标准语法中一些关联句子结构后产生的,用户输入一些不符合语法逻辑的词语时,通过将这些词语匹配到语义槽中,获得这些词语的关联关系,进而使得计算机在理解用户使用自然语言输入的交互信息时更准确。
本发明第二实施例,图2为本发明一些实施例提供的另一种获取用户语料中词语之间的关联关系的方法一个流程图,包括:
S100通过训练获取句法树模型,所述句法树模型包含多个语义槽,以及所述语义槽之间的连接关系;
S200接收用户输入的词语,调取所述句法树模型,将所述词语匹配到所述语义槽中,形成实体语义槽;
S210所述句法树模型还包含词库,所述词库对应所述语义槽,形成所述实体语义槽后,当所述词语未收录到所述词库中时,将所述词语收录到所述词库中;
S300根据所述语义槽之间的连接关系,获取所述实体语义槽之间的连接关系,进而获取所述词语之间的关联关系。
具体地,在S100对用户的语义进行理解时,通过采集用户的语料,针对语料进行训练,获取句法树模型,S100中的句法树模型包括多个语义槽,以及这些语义槽之间的连接关系,语义槽可以是按照标准语法的句子成分进行设置,也可以是根据用户的用于习惯进行设置。
获得S100中句法树模型后,当在S200中用户输入新的语料,需要进行词语间关系解析时,调用S100中得到的句法树模型,S200还将输入的新的语料解析成多个词语,并将这些词语分别匹配到句法树模型的各个语义槽中。例如,当用户输入的语料为例句“河马是一种水陆两栖动物,游泳,它会吗”,通过疑问词判断该语句为疑问句,那么提取句法树中的疑问句句式中的语义槽,S200中针对该例句提取的语义槽为“第一主语+是+宾语,第二主语+会+动词+疑问词”,将用户语料匹配进去后,即得到实体语义槽“第一主语(河马)+是+宾语(一种两栖动物),第二主语(它)+会+动词(游泳)+疑问词(吗)?”通过S200可以获知,在句法树的语义槽中,有两个主语存在,而这两个主语的关联关系已经被记录为相同的关系,即第一主语和第二主语是同等的,两者可以进行相互替换。
在完成S200中将用户语料中的词语匹配到语义槽中后,在S210中判断语义槽对应的词库中是否收录了该词语。例如实体语义槽“第一主语(河马)”,从“第一主语”对应的第一主语词库中查找是否收录了“河马”,如果没有收录,那么将“河马”收录到第一主语词库中,这样,通过S210,用户在进行词语匹配的同时,也可以丰富词库词汇量,在用户进行下一次输入“河马”时,调取S210中丰富后的词库,即可获得“河马”对应的语义槽有哪些,其中必然包括“第一主语”,如此,可以进一步挑选除包含该语义槽的句法树模型,从而增加句法树模型匹配过程的准确率。
在S200中的语义槽关系已知的前提下,S300根据例句中的两个主语语义槽的关系,也即是“第一主语”和“第二主语”相同,可以得出“第一主语(河马)”和“第二主语(它)”的关联关系是相同的,进而得出用户在S100输入的“河马”和“它”相同。如此,通过S300可以获取用户输入的语料中不相关词语的关联关系。
本发明的一些实施例,通过不断地收集用户输入的新词,丰富语义槽对应词库的词汇量,可以对用户的日常用语习惯进行更好的理解,用户使用的时间越长,对用户用词的收集越完备,从而实现通过不断的学习理解,获得更准确和快速的语义理解反馈。
本发明第三实施例,图3为本发明一些实施例提供的又一种获取用户语料中词语之间的关联关系的方法一个流程图,包括:
S010接收用户的原始语料,根据其原始句式规则生成原始句法树,所述原始句法树包含多个原始语义槽,以及所述原始语义槽之间的连接关系,所述原始句法树为所述句法树模型的初始形态;
S020接收所述用户的训练语料,根据所述训练语料对所述原始句法树进行训练,得到所述句法树模型;
S021分析获得所述训练语料的训练句式规则和训练词,根据所述训练句式规则将所述训练语料与所述原始句法树进行匹配,并记录匹配成功次数;
S022当匹配成功时,根据所述训练词的词性将其匹配到所述原始语义槽中,记录与所述原始语义槽匹配成功的所述训练词,建立所述原始语义槽对应的原始词库;
S023当所述匹配成功次数超过预设值时,根据所述原始语义槽、所述原始语义槽之间的连接关系、所述原始词库,生成所述句法树模型,结束训练;
S100通过训练获取句法树模型,所述句法树模型包含多个语义槽,以及所述语义槽之间的连接关系;
S200接收用户输入的词语,调取所述句法树模型,将所述词语匹配到所述语义槽中,形成实体语义槽;
S300根据所述语义槽之间的连接关系,获取所述实体语义槽之间的连接关系,进而获取所述词语之间的关联关系。
具体地,本发明一些实施例中,提供一种通过用户的初始训练,获得句法树模型的方法。
在用户第一次使用包含本发明中方法的产品时,需要对用户进行一定时间的训练。首先建立原始句法树模型,通过S010接收用户的原始语料,根据原始语料获取原始句法树模型。原始句法树模型是最终与该用户对应的句法树模型的初始形态,它也包含多个原始语义槽,以及原始语义槽之间的关系,但与最终句法树模型不同的是,它的原始语义槽中对应的词库还未收录任何词语。
一旦对用户的原始语料经过S010成功获取了原始语义槽,就会进入下一步骤,通过S020对获取的原始语义槽进行训练,这个过程也需要用户不断的输入训练语料来验证和充实原始语义槽。当用户在S020中训练时,如果匹配成功,进入S021,记录其成功匹配次数,随后,通过S022在每次成功匹配后,将词语存入原始词库中。不断地训练可以使得原始语义槽对应的词库不断丰富。当S021中记录的成功匹配次数到达预定数值时,则进入S023,认为当前模型训练已经完成,结束训练模式,成功匹配次数的预定数值与当前句法树模型训练所需的精度有关,精度越高,预定数值越大,最低值为10次。进一步优选地,原始语义槽的关联关系也不是一成不变的,在S021中还可以对匹配成功率进行统计,当用户输入训练语料到达一定数量,但匹配成功率小于70%时,即可以判断当前语义槽的关联关系模型存在较大误差,此时应重新进行S010,重新建立原始句法树模型,直到S021中对用户训练语料的成功匹配次数和匹配成功率到达一定范围后,即可终止句法树模型的训练阶段,将该句法树模型用于对用户的输入词语理解解析中。
在S100对用户的语义进行理解时,通过采集用户的语料,针对语料进行训练,获取句法树模型,S100中的句法树模型包括多个语义槽,以及这些语义槽之间的连接关系,语义槽可以是按照标准语法的句子成分进行设置,也可以是根据用户的用于习惯进行设置。
获得S100中句法树模型后,当在S200中用户输入新的语料,需要进行词语间关系解析时,调用S100中得到的句法树模型,S200还将输入的新的语料解析成多个词语,并将这些词语分别匹配到句法树模型的各个语义槽中。例如,当用户输入的语料为例句“河马是一种水陆两栖动物,游泳,它会吗”,通过疑问词判断该语句为疑问句,那么提取句法树中的疑问句句式中的语义槽,S200中针对该例句提取的语义槽为“第一主语+是+宾语,第二主语+会+动词+疑问词”,将用户语料匹配进去后,即得到实体语义槽“第一主语(河马)+是+宾语(一种两栖动物),第二主语(它)+会+动词(游泳)+疑问词(吗)?”通过S200可以获知,在句法树的语义槽中,有两个主语存在,而这两个主语的关联关系已经被记录为相同的关系,即第一主语和第二主语是同等的,两者可以进行相互替换。
在S200中的语义槽关系已知的前提下,S300根据例句中的两个主语语义槽的关系,也即是“第一主语”和“第二主语”相同,可以得出“第一主语(河马)”和“第二主语(它)”的关联关系是相同的,进而得出用户在S100输入的“河马”和“它”相同。如此,通过S300可以获取用户输入的语料中不相关词语的关联关系。
本发明的一些实施例中,由于用户的用语习惯各不相同,无法通过一个统一的句法树模型范本去适应所有用户的需求。本发明通过对特定用户的原始语料进行收集,针对该用户设定训练规则,进行句法树模型训练,针对该特定用户进行语义理解,通过制定一种句法树模型的训练规则,实现了通过用户输入原始语料获取原始句法树,然后通过用户持续的训练语料输入,当其中语义槽匹配成功次数达到预设值时,结束训练过程,只进行后续的词库扩充。本发明通过个性化的句法树模型训练方法,进一步提高了语义理解的准确率。
本发明第四实施例,图4为本发明一些实施例提供的另一种获取用户语料中词语之间的关联关系的方法一个流程图,包括:
S100通过训练获取句法树模型,所述句法树模型包含多个语义槽,以及所述语义槽之间的连接关系;
S200接收用户输入的词语,调取所述句法树模型,将所述词语匹配到所述语义槽中,形成实体语义槽;
S201当所述词语具有上下文语句时,获取所述上下文语句的语义;
S202根据所述上下文语句的语义,确定与所述词语进行匹配的所述语义槽;
S300根据所述语义槽之间的连接关系,获取所述实体语义槽之间的连接关系,进而获取所述词语之间的关联关系。
在对用户输入的新的语料进行理解时,可能会出现用户语料中的词语难以匹配到合适的语义槽的情况,仅仅根据已存储的句法树模型难以完成将词语匹配到语义槽中形成实体语义槽时,还需要引入上下文分析。
具体地,在S100对用户的语义进行理解时,通过采集用户的语料,针对语料进行训练,获取句法树模型,S100中的句法树模型包括多个语义槽,以及这些语义槽之间的连接关系,语义槽可以是按照标准语法的句子成分进行设置,也可以是根据用户的用于习惯进行设置。
获得S100中句法树模型后,当在S200中用户输入新的语料,需要进行词语间关系解析时,调用S100中得到的句法树模型,S200还将输入的新的语料解析成多个词语,并将这些词语分别匹配到句法树模型的各个语义槽中。例如,当用户输入的语料为:例句“河马是一种水陆两栖动物,游泳,它会吗”,通过疑问词判断该语句为疑问句,那么提取句法树中的疑问句句式中的语义槽,S200中针对该例句提取的语义槽为“第一主语+是+宾语,第二主语+会+动词+疑问词”,将用户语料匹配进去后,即得到实体语义槽“第一主语(河马)+是+宾语(一种两栖动物),第二主语(它)+会+动词(游泳)+疑问词(吗)?”通过S200可以获知,在句法树的语义槽中,有两个主语存在,而这两个主语的关联关系已经被记录为相同的关系,即第一主语和第二主语是同等的,两者可以进行相互替换。
如果例句中“河马是一种水陆两栖动物,游泳,它会吗”还存在上下文,例如用户除了输入这句话之外,其输入的整段语料为:“有一天小明和妈妈一起去动物园,看到一只河马在草坪上绕着8字形转圈,小明看了很久,就问他妈妈,河马是一种水陆两栖动物,游泳,它会吗?这只河马为什么在草坪上不停地走动”,这是人类常见的语言方式,我们并不会一句句单独地进行语言表达,大多数情况下我们说话都是有上下文的。那么针对这样具有上下文的语料时,假设其他语句都是可以顺利通过语义理解获取语义槽和句子含义的,需要获取“河马是一种水陆两栖动物,游泳,它会吗”这一句话中词语关系时,通过S201获取上下文语义后,理解“河马”是当前发问的主题词,那么在例句中,“河马”、“它”都可以优先匹配到主语中,再通过S202将“河马”、“它”分别匹配到“第一主语”和“第二主语”的语义槽中。
在S200中的语义槽关系已知的前提下,S300根据例句中的两个主语语义槽的关系,也即是“第一主语”和“第二主语”相同,可以得出“第一主语(河马)”和“第二主语(它)”的关联关系是相同的,进而得出用户在S100输入的“河马”和“它”相同。如此,通过S300可以获取用户输入的语料中不相关词语的关联关系。
本发明一些实施例,通过采用结合上下文语义的方法,从上下文中获取其对应的语义槽,仅仅根据已存储的句法树模型难以完成将词语匹配到语义槽中形成实体语义槽时,使用额外的判断方式,进一步增加语义理解的准确率。
本发明第五实施例,图5为本发明一些实施例提供的又一种获取用户语料中词语之间的关联关系的方法一个流程图,包括:
S010接收用户的原始语料,根据其原始句式规则生成原始句法树,所述原始句法树包含多个原始语义槽,以及所述原始语义槽之间的连接关系,所述原始句法树为所述句法树模型的初始形态;
S020接收所述用户的训练语料,根据所述训练语料对所述原始句法树进行训练,得到所述句法树模型;
S021分析获得所述训练语料的训练句式规则和训练词,根据所述训练句式规则将所述训练语料与所述原始句法树进行匹配,并记录匹配成功次数;
S022当匹配成功时,根据所述训练词的词性将其匹配到所述原始语义槽中,记录与所述原始语义槽匹配成功的所述训练词,建立所述原始语义槽对应的原始词库;
S023当所述匹配成功次数超过预设值时,根据所述原始语义槽、所述原始语义槽之间的连接关系、所述原始词库,生成所述句法树模型,结束训练;
S100通过训练获取句法树模型,所述句法树模型包含多个语义槽,以及所述语义槽之间的连接关系;
S200接收用户输入的词语,调取所述句法树模型,将所述词语匹配到所述语义槽中,形成实体语义槽;
S201当所述词语具有上下文语句时,获取所述上下文语句的语义;
S202根据所述上下文语句的语义,确定与所述词语进行匹配的所述语义槽;
S210所述句法树模型还包含词库,所述词库对应所述语义槽,形成所述实体语义槽后,当所述词语未收录到所述词库中时,将所述词语收录到所述词库中;
S300根据所述语义槽之间的连接关系,获取所述实体语义槽之间的连接关系,进而获取所述词语之间的关联关系。
在用户第一次使用包含本发明中方法的产品时,需要对用户进行一定时间的训练。首先建立原始句法树模型,通过S010接收用户的原始语料,根据原始语料获取原始句法树模型。原始句法树模型是最终与该用户对应的句法树模型的初始形态,它也包含多个原始语义槽,以及原始语义槽之间的关系,但与最终句法树模型不同的是,它的原始语义槽中对应的词库还未收录任何词语。
一旦对用户的原始语料经过S010成功获取了原始语义槽,就会进入下一步骤,通过S020对获取的原始语义槽进行训练,这个过程也需要用户不断的输入训练语料来验证和充实原始语义槽。当用户在S020中训练时,如果匹配成功,进入S021,记录其成功匹配次数,随后,通过S022在每次成功匹配后,将词语存入原始词库中。不断地训练可以使得原始语义槽对应的词库不断丰富。当S021中记录的成功匹配次数到达预定数值时,则进入S023,认为当前模型训练已经完成,结束训练模式,成功匹配次数的预定数值与当前句法树模型训练所需的精度有关,精度越高,预定数值越大,最低值为10次。进一步优选地,原始语义槽的关联关系也不是一成不变的,在S021中还可以对匹配成功率进行统计,当用户输入训练语料到达一定数量,但匹配成功率小于70%时,即可以判断当前语义槽的关联关系模型存在较大误差,此时应重新进行S010,重新建立原始句法树模型,直到S021中对用户训练语料的成功匹配次数和匹配成功率到达一定范围后,即可终止句法树模型的训练阶段,将该句法树模型用于对用户的输入词语理解解析中。
在S100对用户的语义进行理解时,通过采集用户的语料,针对语料进行训练,获取句法树模型,S100中的句法树模型包括多个语义槽,以及这些语义槽之间的连接关系,语义槽可以是按照标准语法的句子成分进行设置,也可以是根据用户的用于习惯进行设置。
获得S100中句法树模型后,当在S200中用户输入新的语料,需要进行词语间关系解析时,调用S100中得到的句法树模型,S200还将输入的新的语料解析成多个词语,并将这些词语分别匹配到句法树模型的各个语义槽中。例如,当用户输入的语料为例句“河马是一种水陆两栖动物,游泳,它会吗”,通过疑问词判断该语句为疑问句,那么提取句法树中的疑问句句式中的语义槽,S200中针对该例句提取的语义槽为“第一主语+是+宾语,第二主语+会+动词+疑问词”,将用户语料匹配进去后,即得到实体语义槽“第一主语(河马)+是+宾语(一种两栖动物),第二主语(它)+会+动词(游泳)+疑问词(吗)?”通过S200可以获知,在句法树的语义槽中,有两个主语存在,而这两个主语的关联关系已经被记录为相同的关系,即第一主语和第二主语是同等的,两者可以进行相互替换。
如果例句中“河马是一种水陆两栖动物,游泳,它会吗”还存在上下文,例如用户除了输入这句话之外,其输入的整段语料为:“有一天小明和妈妈一起去动物园,看到一只河马在草坪上绕着8字形转圈,小明看了很久,就问他妈妈,河马是一种水陆两栖动物,游泳,它会吗?这只河马为什么在草坪上不停地走动”,这是人类常见的语言方式,我们并不会一句句单独地进行语言表达,大多数情况下我们说话都是有上下文的。那么针对这样具有上下文的语料时,假设其他语句都是可以顺利通过语义理解获取语义槽和句子含义的,需要获取“河马是一种水陆两栖动物,游泳,它会吗”这一句话中词语关系时,通过S201获取上下文语义后,理解“河马”是当前发问的主题词,那么在例句中,“河马”、“它”都可以优先匹配到主语中,再通过S202将“河马”、“它”分别匹配到“第一主语”和“第二主语”的语义槽中。
在完成将用户语料中的词语匹配到语义槽中后,在S210中判断语义槽对应的词库中是否收录了该词语。例如实体语义槽“第一主语(河马)”,从“第一主语”对应的第一主语词库中查找是否收录了“河马”,如果没有收录,那么将“河马”收录到第一主语词库中,这样,通过S210,用户在进行词语匹配的同时,也可以丰富词库词汇量,在用户进行下一次输入“河马”时,调取S210中丰富后的词库,即可获得“河马”对应的语义槽有哪些,其中必然包括“第一主语”,如此,可以进一步挑选除包含该语义槽的句法树模型,从而增加句法树模型匹配过程的准确率。
在S200中的语义槽关系已知的前提下,S300根据例句中的两个主语语义槽的关系,也即是“第一主语”和“第二主语”相同,可以得出“第一主语(河马)”和“第二主语(它)”的关联关系是相同的,进而得出用户在S100输入的“河马”和“它”相同。如此,通过S300可以获取用户输入的语料中不相关词语的关联关系。
在本发明提供的一些实施例中,使用上述方法,取得至少一下效果:通过使用句法树模型,对用户输入的词语进行语义匹配,可以实现对用户输入的一些词语之间关联关系的识别,这些词语是用户基于上下文,或者基于日常习惯省略了标准语法中一些关联句子结构后产生的,用户输入一些不符合语法逻辑的词语时,通过将这些词语匹配到语义槽中,获得这些词语的关联关系,进而使得计算机在理解用户使用自然语言输入的交互信息时更准确。通过不断地收集用户输入的新词,丰富语义槽对应词库的词汇量,可以对用户的日常用语习惯进行更好的理解,用户使用的时间越长,对用户用词的收集越完备,从而实现通过不断的学习理解,获得更准确和快速的语义理解反馈。通过对特定用户的原始语料进行收集,针对该用户设定训练规则,进行句法树模型训练,针对该特定用户进行语义理解,通过制定一种句法树模型的训练规则,实现了通过用户输入原始语料获取原始句法树,然后通过用户持续的训练语料输入,当其中语义槽匹配成功次数达到预设值时,结束训练过程,只进行后续的词库扩充。本发明通过个性化的句法树模型训练方法,进一步提高了语义理解的准确率。通过采用结合上下文语义的方法,从上下文中获取其对应的语义槽,仅仅根据已存储的句法树模型难以完成将词语匹配到语义槽中形成实体语义槽时,使用额外的判断方式,进一步增加语义理解的准确率。
本发明第六实施例,图6为本发明一些实施例提供的一种获取用户语料中词语之间的关联关系的系统的一个结构示意图,该系统包括:
建模模块100,通过训练获取句法树模型,所述句法树模型包含多个语义槽,以及所述语义槽之间的连接关系;
匹配模块200,接收用户输入的词语,调取建模模块100获得的句法树模型,将所述词语匹配到所述语义槽中,形成实体语义槽;
解析模块300,根据建模模块100获得的句法树模型中所述语义槽之间的连接关系,获取匹配模块200获取的所述实体语义槽之间的连接关系,进而获取所述词语之间的关联关系;
句法树模型存储模块400,存储建模模块100获得的句法树模型,包括句法树模型的语义槽,以及语义槽之间的连接关系、语义槽的词库;
词库子模块210,所述建模模块100获得的句法树模型还包含词库,所述词库对应所述语义槽;
所述匹配模块200还用于,在形成所述实体语义槽后,当所述词语未收录到所述词库中时,将所述词语收录到所述词库中;
原始处理子模块110,接收用户的原始语料,根据其原始句式规则生成原始句法树,所述原始句法树包含多个原始语义槽,以及所述原始语义槽之间的连接关系,所述原始句法树为所述句法树模型的初始形态;
训练子模块120,接收所述用户的训练语料,根据所述训练语料对原始处理子模块110获取的所述原始句法树进行训练,完成建模模块100的建模工作,得到所述句法树模型;
所述训练子模块120用于,进行所述原始处理子模块110获取的原始句法树的匹配,分析获得所述训练语料的训练句式规则和训练词,根据所述训练句式规则将所述训练语料与所述原始句法树进行匹配,并记录匹配成功次数;进行所述原始语义槽匹配,当匹配成功时,根据所述训练词的词性将其匹配到所述原始语义槽中,记录与所述原始语义槽匹配成功的所述训练词,建立所述原始语义槽对应的原始词库;
所述训练子模块120还包括生成单元121,当所述训练子模块120记录的匹配成功次数超过预设值时,由生成单元121根据所述原始语义槽、所述原始语义槽之间的连接关系、所述原始词库,生成所述句法树模型,结束训练;
语义识别子模块220,当所述词语具有上下文语句时,获取所述上下文语句的语义;所述匹配模块根据所述上下文语句的语义,确定与所述词语进行匹配的所述语义槽。
具体地,本实施例为上述第五实施例所对应的系统实施例,其采取的技术方案和达到的技术效果相同,在此不再一一赘述。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种获取用户语料中词语之间的关联关系的方法,其特征在于,包括:
通过训练获取句法树模型,所述句法树模型包含多个语义槽,以及所述语义槽之间的连接关系;
接收用户输入的词语,调取所述句法树模型,将所述词语匹配到所述语义槽中,形成实体语义槽;
根据所述语义槽之间的连接关系,获取所述实体语义槽之间的连接关系,进而获取所述词语之间的关联关系;
所述通过训练获取句法树模型,具体包括:
接收用户的原始语料,根据其原始句式规则生成原始句法树,所述原始句法树包含多个原始语义槽,以及所述原始语义槽之间的连接关系,所述原始句法树为所述句法树模型的初始形态;
接收所述用户的训练语料,根据所述训练语料对所述原始句法树进行训练,得到所述句法树模型。
2.根据权利要求1所述的一种获取用户语料中词语之间的关联关系的方法,其特征在于,还包括:
所述句法树模型还包含词库,所述词库对应所述语义槽;
形成所述实体语义槽后,当所述词语未收录到所述词库中时,将所述词语收录到所述词库中。
3.根据权利要求1所述的一种获取用户语料中词语之间的关联关系的方法,其特征在于,所述根据所述训练语料对所述原始句法树进行训练,得到所述句法树模型具体包括:
分析获得所述训练语料的训练句式规则和训练词,根据所述训练句式规则将所述训练语料与所述原始句法树进行匹配,并记录匹配成功次数;
当匹配成功时,根据所述训练词的词性将其匹配到所述原始语义槽中,记录与所述原始语义槽匹配成功的所述训练词,建立所述原始语义槽对应的原始词库;
当所述匹配成功次数超过预设值时,根据所述原始语义槽、所述原始语义槽之间的连接关系、所述原始词库,生成所述句法树模型,结束训练。
4.根据权利要求1-3中任意一项所述的一种获取用户语料中词语之间的关联关系的方法,其特征在于,所述将所述词语匹配到所述语义槽中包括:
当所述词语具有上下文语句时,获取所述上下文语句的语义;
根据所述上下文语句的语义,确定与所述词语进行匹配的所述语义槽。
5.一种获取用户语料中词语之间的关联关系的系统,其特征在于,包括:
建模模块,通过训练获取句法树模型,所述句法树模型包含多个语义槽,以及所述语义槽之间的连接关系;
匹配模块,接收用户输入的词语,调取所述句法树模型,将所述词语匹配到所述语义槽中,形成实体语义槽;
解析模块,根据所述语义槽之间的连接关系,获取所述实体语义槽之间的连接关系,进而获取所述词语之间的关联关系;
所述建模模块具体包括:
原始处理子模块,接收用户的原始语料,根据其原始句式规则生成原始句法树,所述原始句法树包含多个原始语义槽,以及所述原始语义槽之间的连接关系,所述原始句法树为所述句法树模型的初始形态;
训练子模块,接收所述用户的训练语料,根据所述训练语料对所述原始句法树进行训练,得到所述句法树模型。
6.根据权利要求5所述的一种获取用户语料中词语之间的关联关系的系统,其特征在于,所述匹配模块包括:
词库子模块,所述句法树模型还包含词库,所述词库对应所述语义槽;
所述匹配模块还用于,在形成所述实体语义槽后,当所述词语未收录到所述词库中时,将所述词语收录到所述词库中。
7.根据权利要求5所述的一种获取用户语料中词语之间的关联关系的系统,其特征在于,包括:
所述训练子模块还用于,进行所述原始句法树匹配,分析获得所述训练语料的训练句式规则和训练词,根据所述训练句式规则将所述训练语料与所述原始句法树进行匹配,并记录匹配成功次数;进行所述原始语义槽匹配,当匹配成功时,根据所述训练词的词性将其匹配到所述原始语义槽中,记录与所述原始语义槽匹配成功的所述训练词,建立所述原始语义槽对应的原始词库;
所述训练子模块还包括生成单元,当所述匹配成功次数超过预设值时,根据所述原始语义槽、所述原始语义槽之间的连接关系、所述原始词库,生成所述句法树模型,结束训练。
8.根据权利要求5-7任一所述的一种获取用户语料中词语之间的关联关系的系统,其特征在于,所述匹配模块还包括:
语义识别子模块,当所述词语具有上下文语句时,获取所述上下文语句的语义;所述匹配模块根据所述上下文语句的语义,确定与所述词语进行匹配的所述语义槽。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910125067.0A CN109885835B (zh) | 2019-02-19 | 2019-02-19 | 一种获取用户语料中词语之间的关联关系的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910125067.0A CN109885835B (zh) | 2019-02-19 | 2019-02-19 | 一种获取用户语料中词语之间的关联关系的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109885835A CN109885835A (zh) | 2019-06-14 |
CN109885835B true CN109885835B (zh) | 2023-06-27 |
Family
ID=66928491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910125067.0A Active CN109885835B (zh) | 2019-02-19 | 2019-02-19 | 一种获取用户语料中词语之间的关联关系的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109885835B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334183B (zh) * | 2019-07-02 | 2021-07-27 | 思必驰科技股份有限公司 | 使用任意文本词库的方法及装置 |
CN114093365A (zh) * | 2021-11-11 | 2022-02-25 | 四川虹美智能科技有限公司 | 实时更新语料库的方法、服务器、终端和系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107015969A (zh) * | 2017-05-19 | 2017-08-04 | 四川长虹电器股份有限公司 | 可自我更新的语义理解系统与方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1983444A1 (en) * | 2007-04-16 | 2008-10-22 | The European Community, represented by the European Commission | A method for the extraction of relation patterns from articles |
JP5602653B2 (ja) * | 2011-01-31 | 2014-10-08 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報処理装置、情報処理方法、情報処理システム、およびプログラム |
RU2596599C2 (ru) * | 2015-02-03 | 2016-09-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Система и способ создания и использования пользовательских онтологических моделей для обработки пользовательского текста на естественном языке |
RU2610241C2 (ru) * | 2015-03-19 | 2017-02-08 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов |
CN107315737B (zh) * | 2017-07-04 | 2021-03-23 | 北京奇艺世纪科技有限公司 | 一种语义逻辑处理方法及系统 |
CN108932278B (zh) * | 2018-04-28 | 2021-05-18 | 厦门快商通信息技术有限公司 | 基于语义框架的人机对话方法及系统 |
-
2019
- 2019-02-19 CN CN201910125067.0A patent/CN109885835B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107015969A (zh) * | 2017-05-19 | 2017-08-04 | 四川长虹电器股份有限公司 | 可自我更新的语义理解系统与方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109885835A (zh) | 2019-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11030408B1 (en) | Applied artificial intelligence technology for conversational inferencing using named entity reduction | |
US11776533B2 (en) | Building a natural language understanding application using a received electronic record containing programming code including an interpret-block, an interpret-statement, a pattern expression and an action statement | |
US11501082B2 (en) | Sentence generation method, sentence generation apparatus, and smart device | |
JP2004005530A (ja) | 音声対話インターフェースを利用した情報提供装置及びその方法 | |
CN112185361B (zh) | 一种语音识别模型训练方法、装置、电子设备及存储介质 | |
Bruce | Natural communication between person and computer | |
CN113779062A (zh) | Sql语句生成方法、装置、存储介质及电子设备 | |
CN109885835B (zh) | 一种获取用户语料中词语之间的关联关系的方法和系统 | |
CN117787409A (zh) | 基于大语言模型的人机交互方法、装置及电子设备 | |
KR101409413B1 (ko) | 단일화 문법을 이용한 자연어 처리 방법 | |
CN115148212A (zh) | 一种语音交互方法、智能设备及系统 | |
Granell et al. | Multimodality, interactivity, and crowdsourcing for document transcription | |
CN114333838A (zh) | 语音识别文本的修正方法及系统 | |
CN117391095A (zh) | 一种自然语言解析方法、装置、电子设备及存储介质 | |
Minker et al. | Spoken dialogue systems technology and design | |
CN111696525A (zh) | 一种基于Kaldi的中文语音识别声学模型构建方法 | |
Kuhn | Keyword classification trees for speech understanding systems | |
CN111243351B (zh) | 一种基于分词技术的外语口语训练系统、客户端和服务器 | |
Nio et al. | Conversation dialog corpora from television and movie scripts | |
CN114138929A (zh) | 问答方法及装置 | |
Dinarelli et al. | Concept segmentation and labeling for conversational speech | |
CN113744737B (zh) | 语音识别模型的训练、人机交互方法、设备和存储介质 | |
Bateman et al. | Dialogue modeling for speech generation in multimodal information systems | |
Kahn | Moving beyond the lexical layer in parsing conversational speech | |
Boitet et al. | Theory and practice of ambiguity labelling with a view to interactive disambiguation in text and speech MT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |