CN109190116A - 语义解析方法、系统、电子设备及存储介质 - Google Patents
语义解析方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN109190116A CN109190116A CN201810927615.7A CN201810927615A CN109190116A CN 109190116 A CN109190116 A CN 109190116A CN 201810927615 A CN201810927615 A CN 201810927615A CN 109190116 A CN109190116 A CN 109190116A
- Authority
- CN
- China
- Prior art keywords
- word data
- confidence level
- field
- resolved
- attribute information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 31
- 230000015654 memory Effects 0.000 claims description 19
- 230000006854 communication Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 235000013399 edible fruits Nutrition 0.000 claims description 4
- 230000004044 response Effects 0.000 abstract description 5
- 230000004927 fusion Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 210000003739 neck Anatomy 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 241001071864 Lethrinus laticaudis Species 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007474 system interaction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种语义解析方法、系统、电子设备及存储介质,其中,所述方法包括:预先建立多领域词表,多领域词表中包括多个领域的词数据和词数据的属性信息;其中,属性信息至少包括领域信息以及对应于领域信息的置信度;提取所接收到的说法中包含的待解析词数据;查询多领域词表以确定对应于待解析词数据的属性信息;根据对应于待解析词数据的属性信息确定解析结果。本实施例的方法通过预先建立多领域词表的方式,将传统的各个领域的词数据融合到了同一个词表之内,节省了查询时间,提升了对用户说法的响应速度,并且能够根据说法中的词数据的当前热度来确定词数据所属于的领域,更准确的确定用户实际所要表达的意思。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语义解析方法、系统、电子设备及存储介质。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,也就是,研究用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。其中需要解决的中心问题是语义解析,即识别一句话所表达的实际意义。
现有技术中采用基于规则与词表进行语义解析的技术。具体地,采取领域下的规则与领域下的词表结合的方案,对不同规则及词表的组合设定权重,权重由规则完善度以及词表联合决定。通过对输入的说法进行规则及词表的联合匹配,按照权重优先级进行语义的领域分类,后续再进行领域中相应语义槽的解析,最后按照权重优先级给出解析结果。
不同领域下有很多相似相近甚至相同的规则,区分点仅为领域下引入的词表,造成规则的冗余非常大。
不同领域在规则相同仅通过词表进行领域区分时,一旦词表数据中有重合部分,对于该重合部分数据则无法区分领域的优先级,即使这部分重合数据中有热度很大、引导性很强的数据,最后也无法有效利用数据的额外信息来给出符合人感知的领域顺序。
当一个说法中出现多个词表数据,然而这些词表不属于同一个领域,即不能正确满足词表领域相同这一条件时,说法无法得到任何解析。如“播放刘德华的三国演义”,词表数据“刘德华”与词表数据“三国演义”两者分属于不同的领域,这种情况下无法给出任何结果。
由于不同领域均采用规则和词表的组合方式生成完整的规则,而词表是按照不同领域来创建的,当各领域的说法相同仅为说法中的数据不同时,各领域就需要生成大量规则相同而引用的词表不同的冗余规则。
由于不同词表中也可能会存在相同数据,即一个数据确切存在于多个领域情况下,只是单独在各领域下建立不同的词表,会产生各领域规则以及词表组成的说法有交集的情况。在用户的说法落入这种交集区域时,无法说法倾向于哪个领域,不能给出实时符合用户在当前社会环境感知下的正确领域的顺序。
不同领域的规则仅能应用了对应领域下的词表。当一个说法中多个数据词表不满足存在于同一领域下的条件时,规则便变不能识别匹配从而给出一个合理的解析结果。
发明内容
本发明实施例提供一种语义解析方法、系统、电子设备及存储介质,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种语义解析方法,包括:
预先建立多领域词表,所述多领域词表中包括多个领域的词数据和所述词数据的属性信息;其中,所述属性信息至少包括领域信息以及对应于所述领域信息的置信度;
提取所接收到的说法中包含的待解析词数据;
查询所述多领域词表以确定对应于所述待解析词数据的属性信息;
根据对应于所述待解析词数据的属性信息确定解析结果。
第二方面,本发明实施例提供一种语义理解系统,包括:
词表建立程序模块,用于预先建立多领域词表,所述多领域词表中包括多个领域的词数据和所述词数据的属性信息;其中,所述属性信息至少包括领域信息以及对应于所述领域信息的置信度;
数据提取程序模块,用于提取所接收到的说法中包含的待解析词数据;
查询程序模块,用于查询所述多领域词表以确定对应于所述待解析词数据的属性信息;
解析结果确定程序模块,用于根据对应于所述待解析词数据的属性信息确定解析结果。
第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项语义解析方法。
第四方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项语义解析方法。
本实施例的方法通过预先建立多领域词表的方式,将传统的各个领域的词数据融合到了同一个词表之内,从而当对用户说法进行语义理解时不再需要就所提取的词数据去查询多个词表,节省了查询时间,提升了对用户说法的响应速度;并且通过领域信息与置信度之间的对应关系来确定同一个词数据属于不同领域的概率,从而能够根据说法中的词数据的当前热度来确定词数据所属于的领域,由于与词数据的当前热度相关联,所以能够更准确的确定用户实际所要表达的意思。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的语义解析方法的一实施例的流程图;
图2为本发明的语义解析方法的步骤S40的一实施例的流程图;
图3为本发明的语义解析方法的步骤S40的另一实施例的流程图;
图4为本发明的语义解析方法的步骤S40的又一实施例的流程图;
图5为本发明的语义解析方法的另一实施例的流程图;
图6为本发明中的预先建立多领域词表的一实施例的流程图;
图7为本发明的语义解析系统的一实施例的流程图;
图8为本发明的语义解析系统中的解析结果确定程序模块的一实施例的流程图;
图9为本发明的语义解析系统中的解析结果确定程序模块的另一实施例的流程图;
图10为本发明的语义解析系统中的解析结果确定程序模块的又一实施例的流程图;
图11为本发明的电子设备的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如图1所示,本发明实施例提供一种语义解析方法,包括:
S10、预先建立多领域词表,所述多领域词表中包括多个领域的词数据和所述词数据的属性信息;其中,所述属性信息至少包括领域信息以及对应于所述领域信息的置信度。
多领域词表中包含了多个领域的词数据,并且,每一个词数据又可能同时属于多个领域,因此,词表中同时包含了词数据的属性信息(置信度)。
S20、提取所接收到的说法中包含的待解析词数据。
例如,对于说法:请播放西游记,所提取的待解析词数据为“西游记”;或者对于说法:请播放张纪中的西游记,所提取的待解析词数据为“张纪中”和“西游记”。
S30、查询所述多领域词表以确定对应于所述待解析词数据的属性信息。对于待解析词数据“西游记”,查询多领域词表得到对应于“西游记”的两个置信度,分别包括对应于视频领域的置信度1和对应于音频故事领域的置信度2。
S40、根据对应于所述待解析词数据的属性信息确定解析结果。例如,当置信度1远小于置信度2时,可以直接确定说法“请播放西游记”所要表达的意思是“我想看电视剧西游记”。
本实施例的方法通过预先建立多领域词表的方式,将传统的各个领域的词数据融合到了同一个词表之内,从而当对用户说法进行语义理解时不再需要就所提取的词数据去查询多个词表,节省了查询时间,提升了对用户说法的响应速度;并且通过领域信息与置信度之间的对应关系来确定同一个词数据属于不同领域的概率,从而能够根据说法中的词数据的当前热度来确定词数据所属于的领域,由于与词数据的当前热度相关联,所以能够更准确的确定用户实际所要表达的意思。
本发明实施例中,将数据自身携带的属性特征附加至词表中,改变词表的格式,然后将不同领域下的不同词表合并成为一个词表。使用规则引用该词表,解析时直接利用词表中添加的额外属性来区分说法所属范畴从而进行领域分发以及语义槽解析,不需要在各领域内单独定义该领域说法,从而将各领域下相似相同的规则融合为一,减少相似的重复冗余规则。
通过给词表附加归属于不同领域的置信度,该置信度由数据在对应领域的实时热度、排行等属性计算而成。如“小猪佩奇”同时是一首歌的名字,也是一部动画片的名字。但是在当前环境下,由于“小猪佩奇”在动画片中的热度排行远大于在歌曲中热度排行,所以对于该数据会计算出较大的动画片的置信度以及较小的歌曲的置信度。通过比较数据置信度,可合理分发解析结果所在领域,得到满足当前社会环境下人为感知的正确领域顺序。
同时由于将不同领域的词表数据合成一个大的词表,如将歌曲词表和小说词表融合在一起后,引用融合后的词表可以解决当一个说法中多个数据词表不满足存在于同一领域下的条件的无法解析的情况。由于词表融合,不存在需要一个说法中多个数据词表需要存在于同一领域下的条件,从而实现了原先说法中词表跨领域的功能,从而可以根据数据属性给出一个合理的解析结果或用作下一步处理。
不同领域下规则相同词表不同的组合情况,只能留存在各领域中。各领域说法扩展时,需要批量扩展不同领域规则和词表的组合,同时忽略词表中不同数据对于不同领域在当前环境下的倾向性。对于不同领域下规则与词表组合存在的交集情况,直接定义领域的优先顺序。
目前情况下,不同领域的规则以及词表只隶属于当前领域,从业人员更容易专业于当前领域功能扩展,难以横向考虑多领域规则词表交集情况下引发的冲突,无法有效利用词表隐藏的额外信息用作冲突的处理。
在一些实施例中,所述对应于所述待解析词数据的属性信息中的领域信息包括第一领域名称和第二领域名称,相应的所述置信度包括第一置信度和第二置信度。
例如,当某一个词数据同时属于多个领域时,对应该某一个词数据有多个置信度,每一个置信度表示该某一个词数据属于相应领域的可能性的大小(例如,概率)。例如,“西游记”即属于视频领域(对应有置信度1),也属于音频故事领域(对应有置信度2),其中置信度基于“西游记”这个词数据在当前社会背景下属于不同领域的热度确定,例如,当统计信息表明用户提及“西游记”时实际谈论更多的是电视剧,则确定置信度1远大于置信度2,否则置信度1远小于置信度2。
如图2所示,步骤S40,根据对应于所述待解析词数据的属性信息确定解析结果包括:
S41、确定所述第一置信度和第二置信度中较大的数值所对应的领域名称为所述待解析词数据所属的领域;例如,当置信度1远小于置信度2时,则确定待解析词数据“西游记”所属领域为视频领域。
S42、根据所述待解析词数据所属的领域确定解析结果。在确定此时的“西游记”属于视频领域时,可以直接确定说法“请播放西游记”所要表达的意思是“我想看电视剧西游记”。
本实施例中的多领域词表中所存储的词数据对应有多个置信度,即,以一对多(一条词数据对应于多个置信度),避免了每个领域存储一个词条所导致的信息冗余,减小了词表大小,相应的也减少了查询词表所需的时间,这在一定程度上也提升了响应用户说法的速度。
在一些实施例中,所述对应于所述待解析词数据的属性信息中的领域信息包括第一领域名称和第二领域名称,相应的所述置信度包括第一置信度和第二置信度。
例如,当某一个词数据同时属于多个领域时,对应该某一个词数据有多个置信度,每一个置信度表示该某一个词数据属于相应领域的可能性的大小(例如,概率)。例如,“西游记”即属于视频领域(对应有置信度1),也属于音频故事领域(对应有置信度2),其中置信度基于“西游记”这个词数据在当前社会背景下属于不同领域的热度确定,例如,当统计信息表明用户提及“西游记”时实际谈论更多的是电视剧,则确定置信度1远大于置信度2,否则置信度1远小于置信度2。
如图3所示,步骤S40,根据对应于所述待解析词数据的属性信息确定解析结果包括:
S41′、比较所述第一置信度和所述第二置信度的差值是否大于设定阈值;示例地,设定阈值可以为0.4。当置信度1取值为0.29,置信度2取值为0.71时,两者的差值为0.42,大于设定阈值0.4。
S42′、如果是,则确定所述第一置信度和第二置信度中较大的数值所对应的领域名称为所述待解析词数据所属的领域;由于第一置信度与第二置信度之间的差值足够大,说明具当前社会背景下用户所认可的待解析词数据所属的领域更偏向于第一置信度所对应的领域,这种情况下所确定的待解析词数据的领域更符合用户的主观认知,从而提升了语义解析的准确度。
S43′、根据所述待解析词数据所属的领域确定解析结果。
S44′、如果否,则确定对应于所述第一领域名称的第一解析结果和对应于所述第二领域名称的第二解析结果;此处表明待解析词数据可能属于第一领域和可能属于第二领域的概率相当,此时基于另个领域分别形成两种解析结果来进行语义理解,以提供两种情况的结果给用户,给用户进行选择,从而保证了用户能够更大程度的得到自己想要的结果,提升了用户体验。
在一些实施例中,所述待解析词数据包括第一词数据和第二词数据;
所述查询所述多领域词表以确定对应于所述待解析词数据的属性信息包括:查询所述多领域词表分别确定对应于所述第一词数据的第一属性信息和对应于所述第二词数据的第二属性信息。
在一些实施例中,对应于所述第一词数据的属性信息中的领域信息包括第一领域名称和第二领域名称,相应的所述置信度包括第一置信度和第二置信度;对应于所述第二词数据的属性信息中的领域信息包括第三领域名称和第四领域名称,相应的所述置信度包括第三置信度和第四置信度;
例如,对于用户说法“播放A的B”,如果A同属于领域1和领域2,B同属于领域3和领域4,其中,领域3或者领域4可以是与领域1或者领域2相同或者不同的领域。此情况下,根据A和B在领域1至领域4下的各种情况下的置信度和来确认给出领域的顺序(例如,A在领域1下B在领域3下的置信度和;A在领域1下B在领域4下的置信度和;A在领域2下B在领域3下的置信度和;A在领域2下B在领域4下的置信度和)。
如图4所示,步骤S40,根据对应于所述待解析词数据的属性信息确定解析结果包括:
S41’、分别计算:第一置信度与第三置信度之和,第一置信度与第四置信度之和,第二置信度与第三置信度之和,第二置信度与第四置信度之和;
S42’、根据和值最大的一对置信度确定所述第一词数据和第二词数据分别所属的领域;
S43’、根据所述第一词数据和第二词数据分别所属的领域确定解析结果。
本实施例中综合考虑了当一句用户说法中存在两个词数据时,综合考虑两个词数据分别属于各自领域下的置信度和的大小来确定正确的领域,而不是将每一个词数据割裂的分别确定各自所属于的领域。将连个词数据之间的关联性(基于统计得出的两个词数据同时出现在同一个说法中时,分别所属于的领域的概率)运用到了待解析词数据的领域的判断当中,判定结果更加符合用户实际用语习惯,提升了领域确定的准确性,提升了交互的友好性及用户体验。
在一些实施例中,还要将所得到的四个置信度和值按照从大到小的顺序进行排列,并计算依次计算第一大和值与第二大和值之间的差值是否大于设定和阈值,
如果是,则结束计算并基于第一大和值所对应的一对置信度确定两个待解析词数据所属的领域以得到一种解析结果,如果否则进一步计算第二大和值与第三大和值之差是否大于设定和阈值,
如果是,则结束计算并基于第一大和值和第一大和值所对应的两对置信度确定两个待解析词数据所属的领域以得到两种解析结果,如果否则进一步计算第三大和值与第二大和值之差是否大于设定和阈值,
如果是,则结束计算并基于第一至第三大和值所对应的三对置信度确定两个待解析词数据所属的领域以得到三种解析结果,如果否则进一步计算第四大和值与第三大和值之差是否大于设定和阈值……依次类推。
如图5所示,为本发明的语义解析方法的另一实施例的流程图,具体包括以下步骤:
词表属性切分:提取说法中词表的数据以及数据对应属性,如“忘情水”、“音乐”、“歌曲名”、“0.8”。
存在多领域:判断说法“播放A的B”中,A和B是否存在于多个领域中,比如“A”为“刘德华”时,同时存在于“音乐”和“电影”两个领域,即为存在多领域。
词表前后不匹配:判断说法“播放A的B”中,A和B是否有同属于一个领域的情况。如果A和B存在的领域有交集,即词表前后匹配,反正反之则词表前后不匹配。
标记特殊领域:当给出的说法“播放A的B”中,A属于领域1,而B属于领域2,即不满足A和B存在领域的交集时,分发至一个特殊领域。该领域可以用作后续特殊处理。如提醒用户说法错误或者进行说法纠正等。
置信度区分领域顺序:当给出了歧义说法“播放A的B”时,如果A同属于领域1和领域2,B也同属于领域1和领域2。此情况下,根据A和B在领域1和领域2的置信度和来确认给出领域的顺序。如果A和B在领域1的置信度和大于在领域2的置信度和,则优先给出领域1,反之则优先给出领域2。同时判断如果在领域1和领域2的置信度和的差值在一定范围n内,可以按顺序给出两个领域。如果差值过大,则可考虑只给出置信度和大的领域。此处n和给出领域逻辑均可在不同情况下重新设计。
领域分类:根据说法所匹配规则词表中提取的数据的领域属性,将说法分发只对应领域。如“忘情水”,其领域属性为“音乐”,分发至音乐领域。
定义语义槽:根据说法所匹配规则词表中提取的数据的语义槽属性,设定解析语义槽。如“忘情水”,其语义槽属性为“歌曲名”,设定语义槽为“歌曲名”。
结果合成:将分发好的领域顺序,对应的语义槽的值合成完整的json格式输出用作后续处理。
输出解析:将完成的结果输出。
如图6所示,为本发明实施例中预先建立多领域词表的一实施例的流程图,具体包括以下步骤:
a.数据获取:从数据源(网站、文本等)抓取数据,记录数据属性。
b.添加数据领域:依托数据源所属信息,给出数据领域。如从音乐网站获取的数据给定领域为“音乐”。
c.定义各个领域下语义槽:依托数据源所属信息,给出领域下符合人理解的语义槽。如在音乐网站获取的歌曲数据,定义该数据语义槽为“歌曲名”。
d.添加不同领域数据置信度:依托数据源给出信息,可定义数据热度为0-1,数据在领域下排行为0-1,计算给出该数据在该情况下的置信度(热度*排行)。如在音乐网站获取的歌曲“忘情水”,按照该歌曲热度,给出该数据属于“音乐”以及“歌曲”的置信度。
e.生成附带领域、语义槽、置信度词表:根据数据定义的领域、语义槽、置信度,定义词表数据库格式为:
数据 | 领域 | 语义槽 | 置信度 |
忘情水 | 音乐 | 歌曲名 | 0.8 |
f.给出数据词表:按照上述步骤,生成完整包含各类数据的词表。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
如图7所示,本发明的实施例还提供一种语义理解系统700,包括:
词表建立程序模块710,用于预先建立多领域词表,所述多领域词表中包括多个领域的词数据和所述词数据的属性信息;其中,所述属性信息至少包括领域信息以及对应于所述领域信息的置信度;
数据提取程序模块720,用于提取所接收到的说法中包含的待解析词数据;
查询程序模块730,用于查询所述多领域词表以确定对应于所述待解析词数据的属性信息;
解析结果确定程序模块740,用于根据对应于所述待解析词数据的属性信息确定解析结果。
本实施例的方法通过预先建立多领域词表的方式,将传统的各个领域的词数据融合到了同一个词表之内,从而当对用户说法进行语义理解时不再需要就所提取的词数据去查询多个词表,节省了查询时间,提升了对用户说法的响应速度;并且通过领域信息与置信度之间的对应关系来确定同一个词数据属于不同领域的概率,从而能够根据说法中的词数据的当前热度来确定词数据所属于的领域,由于与词数据的当前热度相关联,所以能够更准确的确定用户实际所要表达的意思。
在一些实施例中,所述对应于所述待解析词数据的属性信息中的领域信息包括第一领域名称和第二领域名称,相应的所述置信度包括第一置信度和第二置信度;
如图8所示,在一些实施例中,解析结果确定程序模块740包括:
领域确定程序单元741,用于确定所述第一置信度和第二置信度中较大的数值所对应的领域名称为所述待解析词数据所属的领域;
解析结果确定程序单元742,用于根据所述待解析词数据所属的领域确定解析结果。
在一些实施例中,所述对应于所述待解析词数据的属性信息中的领域信息包括第一领域名称和第二领域名称,相应的所述置信度包括第一置信度和第二置信度;
如图9所示,在一些实施例中,解析结果确定程序模块740包括:
比较判定程序单元741′,用于比较所述第一置信度和所述第二置信度的差值是否大于设定阈值;
领域确定程序单元742′,用于当比较判定程序单元判定第一置信度和所述第二置信度的差值大于设定阈值时,则确定所述第一置信度和第二置信度中较大的数值所对应的领域名称为所述待解析词数据所属的领域;
第一解析结果确定程序单元743′,用于根据所述待解析词数据所属的领域确定解析结果;
第二解析结果确定程序单元744′,用于当比较判定程序单元判定第一置信度和所述第二置信度的差值不大于设定阈值时,则确定对应于所述第一领域名称的第一解析结果和对应于所述第二领域名称的第二解析结果。
在一些实施例中,所述待解析词数据包括第一词数据和第二词数据;
所述查询所述多领域词表以确定对应于所述待解析词数据的属性信息包括:查询所述多领域词表分别确定对应于所述第一词数据的第一属性信息和对应于所述第二词数据的第二属性信息。
在一些实施例中,对应于所述第一词数据的属性信息中的领域信息包括第一领域名称和第二领域名称,相应的所述置信度包括第一置信度和第二置信度;
对应于所述第二词数据的属性信息中的领域信息包括第三领域名称和第四领域名称,相应的所述置信度包括第三置信度和第四置信度;
如图10所示,在一些实施例中,解析结果确定程序模块740包括:
计算程序单元741’,用于分别计算:第一置信度与第三置信度之和,第一置信度与第四置信度之和,第二置信度与第三置信度之和,第二置信度与第四置信度之和;
领域确定程序单元742’,用于根据和值最大的一对置信度确定所述第一词数据和第二词数据分别所属的领域;
解析结果确定程序单元743’,用于根据所述第一词数据和第二词数据分别所属的领域确定解析结果。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项语义解析方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项语义解析方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行语义解析方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时语义解析方法。
上述本发明实施例的语义解析系统可用于执行本发明实施例的语义解析方法,并相应的达到上述本发明实施例的实现语义解析方法所达到的技术效果,这里不再赘述。本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
图11是本申请另一实施例提供的执行语义解析方法的电子设备的硬件结构示意图,如图11所示,该设备包括:
一个或多个处理器1110以及存储器1120,图11中以一个处理器1110为例。
执行语义解析方法的设备还可以包括:输入装置1130和输出装置1140。
处理器1110、存储器1120、输入装置1130和输出装置1140可以通过总线或者其他方式连接,图11中以通过总线连接为例。
存储器1120作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的语义解析方法对应的程序指令/模块。处理器1110通过运行存储在存储器1120中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例语义解析方法。
存储器1120可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语义解析装置的使用所创建的数据等。此外,存储器1120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器1120可选包括相对于处理器1110远程设置的存储器,这些远程存储器可以通过网络连接至语义解析装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置1130可接收输入的数字或字符信息,以及产生与语义解析装置的用户设置以及功能控制有关的信号。输出装置1140可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器1120中,当被所述一个或者多个处理器1110执行时,执行上述任意方法实施例中的语义解析方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种语义解析方法,包括:
预先建立多领域词表,所述多领域词表中包括多个领域的词数据和所述词数据的属性信息;其中,所述属性信息至少包括领域信息以及对应于所述领域信息的置信度;
提取所接收到的说法中包含的待解析词数据;
查询所述多领域词表以确定对应于所述待解析词数据的属性信息;
根据对应于所述待解析词数据的属性信息确定解析结果。
2.根据权利要求1所述的方法,其中,所述对应于所述待解析词数据的属性信息中的领域信息包括第一领域名称和第二领域名称,相应的所述置信度包括第一置信度和第二置信度;
所述根据对应于所述待解析词数据的属性信息确定解析结果包括:
确定所述第一置信度和第二置信度中较大的数值所对应的领域名称为所述待解析词数据所属的领域;
根据所述待解析词数据所属的领域确定解析结果。
3.根据权利要求1所述的方法,其中,所述对应于所述待解析词数据的属性信息中的领域信息包括第一领域名称和第二领域名称,相应的所述置信度包括第一置信度和第二置信度;
所述根据对应于所述待解析词数据的属性信息确定解析结果包括:
比较所述第一置信度和所述第二置信度的差值是否大于设定阈值;
如果是,则确定所述第一置信度和第二置信度中较大的数值所对应的领域名称为所述待解析词数据所属的领域;
根据所述待解析词数据所属的领域确定解析结果;
如果否,则确定对应于所述第一领域名称的第一解析结果和对应于所述第二领域名称的第二解析结果。
4.根据权利要求1所述的方法,其中,所述待解析词数据包括第一词数据和第二词数据;
所述查询所述多领域词表以确定对应于所述待解析词数据的属性信息包括:
查询所述多领域词表分别确定对应于所述第一词数据的第一属性信息和对应于所述第二词数据的第二属性信息。
5.根据权利要求4所述的方法,其中,
对应于所述第一词数据的属性信息中的领域信息包括第一领域名称和第二领域名称,相应的所述置信度包括第一置信度和第二置信度;
对应于所述第二词数据的属性信息中的领域信息包括第三领域名称和第四领域名称,相应的所述置信度包括第三置信度和第四置信度;
所述根据对应于所述待解析词数据的属性信息确定解析结果包括:
分别计算:第一置信度与第三置信度之和,第一置信度与第四置信度之和,第二置信度与第三置信度之和,第二置信度与第四置信度之和;
根据和值最大的一对置信度确定所述第一词数据和第二词数据分别所属的领域;
根据所述第一词数据和第二词数据分别所属的领域确定解析结果。
6.一种语义理解系统,包括:
词表建立程序模块,用于预先建立多领域词表,所述多领域词表中包括多个领域的词数据和所述词数据的属性信息;其中,所述属性信息至少包括领域信息以及对应于所述领域信息的置信度;
数据提取程序模块,用于提取所接收到的说法中包含的待解析词数据;
查询程序模块,用于查询所述多领域词表以确定对应于所述待解析词数据的属性信息;
解析结果确定程序模块,用于根据对应于所述待解析词数据的属性信息确定解析结果。
7.根据权利要求6所述的系统,其中,所述对应于所述待解析词数据的属性信息中的领域信息包括第一领域名称和第二领域名称,相应的所述置信度包括第一置信度和第二置信度;
所述解析结果确定程序模块包括:
领域确定程序单元,用于确定所述第一置信度和第二置信度中较大的数值所对应的领域名称为所述待解析词数据所属的领域;
解析结果确定程序单元,用于根据所述待解析词数据所属的领域确定解析结果。
8.根据权利要求6所述的系统,其中,所述待解析词数据包括第一词数据和第二词数据;
所述查询所述多领域词表以确定对应于所述待解析词数据的属性信息包括:查询所述多领域词表分别确定对应于所述第一词数据的第一属性信息和对应于所述第二词数据的第二属性信息。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任意一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810927615.7A CN109190116B (zh) | 2018-08-15 | 2018-08-15 | 语义解析方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810927615.7A CN109190116B (zh) | 2018-08-15 | 2018-08-15 | 语义解析方法、系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109190116A true CN109190116A (zh) | 2019-01-11 |
CN109190116B CN109190116B (zh) | 2023-10-24 |
Family
ID=64935930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810927615.7A Active CN109190116B (zh) | 2018-08-15 | 2018-08-15 | 语义解析方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190116B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110597958A (zh) * | 2019-09-12 | 2019-12-20 | 苏州思必驰信息科技有限公司 | 文本分类模型训练和使用方法及装置 |
CN111414764A (zh) * | 2020-03-18 | 2020-07-14 | 苏州思必驰信息科技有限公司 | 对话文本的技能领域确定方法及系统 |
CN111951782A (zh) * | 2019-04-30 | 2020-11-17 | 京东方科技集团股份有限公司 | 语音问答方法及装置、计算机可读存储介质和电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101876974A (zh) * | 2009-04-30 | 2010-11-03 | 日电(中国)有限公司 | 文本情感极性分类系统和方法 |
CN106547742A (zh) * | 2016-11-30 | 2017-03-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语义解析结果处理方法和装置 |
CN107247769A (zh) * | 2017-06-05 | 2017-10-13 | 北京智能管家科技有限公司 | 语音点歌方法、装置、终端及存储介质 |
-
2018
- 2018-08-15 CN CN201810927615.7A patent/CN109190116B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101876974A (zh) * | 2009-04-30 | 2010-11-03 | 日电(中国)有限公司 | 文本情感极性分类系统和方法 |
CN106547742A (zh) * | 2016-11-30 | 2017-03-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语义解析结果处理方法和装置 |
CN107247769A (zh) * | 2017-06-05 | 2017-10-13 | 北京智能管家科技有限公司 | 语音点歌方法、装置、终端及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111951782A (zh) * | 2019-04-30 | 2020-11-17 | 京东方科技集团股份有限公司 | 语音问答方法及装置、计算机可读存储介质和电子设备 |
CN110597958A (zh) * | 2019-09-12 | 2019-12-20 | 苏州思必驰信息科技有限公司 | 文本分类模型训练和使用方法及装置 |
CN110597958B (zh) * | 2019-09-12 | 2022-03-25 | 思必驰科技股份有限公司 | 文本分类模型训练和使用方法及装置 |
CN111414764A (zh) * | 2020-03-18 | 2020-07-14 | 苏州思必驰信息科技有限公司 | 对话文本的技能领域确定方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109190116B (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11302337B2 (en) | Voiceprint recognition method and apparatus | |
JP7288446B2 (ja) | ヒューマンマシン対話方法および電子デバイス | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN112313740A (zh) | 聚合语义信息以提高对用户的理解 | |
CN110349572A (zh) | 一种语音关键词识别方法、装置、终端及服务器 | |
CN112071302A (zh) | 计算代理的合成语音选择 | |
CN109918560A (zh) | 一种基于搜索引擎的问答方法和装置 | |
CN109923558A (zh) | 混合专家神经网络 | |
CN109918627B (zh) | 文本生成方法、装置、电子设备及存储介质 | |
US20150286943A1 (en) | Decision Making and Planning/Prediction System for Human Intention Resolution | |
CN110297893B (zh) | 自然语言问答方法、装置、计算机装置及存储介质 | |
Qaffas | Improvement of Chatbots semantics using wit. ai and word sequence kernel: Education Chatbot as a case study | |
CN109218390A (zh) | 用户筛选方法及装置 | |
US20230394247A1 (en) | Human-machine collaborative conversation interaction system and method | |
CN109902187A (zh) | 一种特征知识图谱的构建方法及装置、终端设备 | |
CN109190116A (zh) | 语义解析方法、系统、电子设备及存储介质 | |
EP3557500A1 (en) | Building customized user profiles based on conversational data | |
Colace et al. | An adaptive product configurator based on slow intelligence approach | |
EP3557504A1 (en) | Intent identification for agent matching by assistant systems | |
CN111400473A (zh) | 意图识别模型的训练方法及装置、存储介质及电子设备 | |
CN114387061A (zh) | 产品推送方法、装置、电子设备及可读存储介质 | |
CN107657949A (zh) | 游戏数据的获取方法及装置 | |
CN109829033A (zh) | 数据展示方法和终端设备 | |
US11238102B1 (en) | Providing an object-based response to a natural language query | |
CN116910201A (zh) | 一种对话数据生成方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu. Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 14 Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou, Jiangsu. Applicant before: AI SPEECH Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |