CN105095178A - 实现文本语义容错理解的方法及系统 - Google Patents

实现文本语义容错理解的方法及系统 Download PDF

Info

Publication number
CN105095178A
CN105095178A CN201410196255.XA CN201410196255A CN105095178A CN 105095178 A CN105095178 A CN 105095178A CN 201410196255 A CN201410196255 A CN 201410196255A CN 105095178 A CN105095178 A CN 105095178A
Authority
CN
China
Prior art keywords
fault
tolerant
decoding paths
text
obtains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410196255.XA
Other languages
English (en)
Other versions
CN105095178B (zh
Inventor
谢卿
王道广
彭丁辉
陈志刚
胡国平
胡郁
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Medical Technology Co ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201410196255.XA priority Critical patent/CN105095178B/zh
Publication of CN105095178A publication Critical patent/CN105095178A/zh
Application granted granted Critical
Publication of CN105095178B publication Critical patent/CN105095178B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种实现文本语义容错理解的方法及系统,该方法包括:获取待解析的文本字串;基于预先构建的容错有向图文法网络对所述文本字串进行解码,获得解码路径;如果所述解码路径是精确匹配路径,则获取所述解码路径对应的语义信息,所述精确匹配路径是指所述匹配路径中不包含所述容错有向图文法网络中定义的可容错特殊标记;否则,基于预设的模糊词典对各解码路径进行模糊处理,得到优选的解码路径;获取所述优选的解码路径对应的语义信息。利用本发明,可以实现对句子短语等的具容错性的深层自然语言理解,提高自然语言理解系统的鲁棒性和准确性。

Description

实现文本语义容错理解的方法及系统
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种实现文本语义容错理解的方法及系统。
背景技术
人工智能技术发展由来已久,而作为人工智能领域中最重要方向之一的自然语言理解技术也一直是研究的热点,可以说,让机器能理解自然语言是人类一直以来的梦想。特别是随着移动互联网时代的到来,人类进入了大数据时代,从海量数据中高效地分析和获取有价值的信息是未来技术发展的必然趋势。
传统的语义理解主要适用于准确文本字串的语义分析,特别是基于文法规则的自然语言理解,输入文本需要为精确文本,即不存在任何错别字或歧义字符的情况下,可以获得很好的语义理解结果。其具体流程如图1所示,主要步骤如下:
步一:设置句文法规则,所述句文法规则用于描述不同应用下可能的自然语言输入句法;
步二:对预置文法规则进行编译,得到有向图文法网络;
步三:在接收到自然语言输入(即文本输入)后,将输入的文本内容和预置的有向图文法网络进行匹配解析,并抽取相关语义,实现文本内容的自然语言理解。
这种基于精确文法网络匹配实现整句完全匹配的语义理解方式在实际应用中存在一定的缺点,如在打电话场景下,联系人姓名很可能音同字不同,在点歌和点播视频场景下,影视歌曲名称出现错漏字也很常见,在这种情况下,则无法对用户输入进行有效的分析和语义提取,限制了其应用范围。
发明内容
本发明实施例提供一种实现文本语义容错理解的方法及系统,以解决现有技术中输入的文本信息不完全符合预置的文法规则情况下语义理解的问题,提高自然语言理解系统的鲁棒性和准确性。
为此,本发明实施例提供如下技术方案:
一种实现文本语义容错理解的方法,包括:
获取待解析的文本字串;
基于预先构建的容错有向图文法网络对所述文本字串进行解码,获得解码路径;
如果所述解码路径是精确匹配路径,则获取所述解码路径对应的语义信息,所述精确匹配路径是指所述匹配路径中不包含所述容错有向图文法网络中定义的可容错特殊标记;
否则,基于预设的模糊词典对各解码路径进行模糊处理,得到优选的解码路径;
获取所述优选的解码路径对应的语义信息。
优选地,所述方法还包括:按以下方式构建容错有向图文法网络:
获取当前应用环境下的句文法规则;
对所述句文法规则进行容错设置,得到容错句文法规则;
对所述容错句文法规则进行编译,得到容错有向图文法网络。
优选地,所述基于预设的模糊词典对各解码路径进行模糊处理,得到优选的解码路径包括:
获取各解码路径中可容错特殊标记字段对应的文本子串;
基于预设的模糊词典对各可容错特殊标记字段对应的文本子串进行修正,获得最优修正结果;
将所述最优修正结果替换对应的解码路径中可容错特殊标记字段对应的文本子串,得到优选的解码路径。
优选地,所述基于预设的模糊词典对各可容错特殊标记字段对应的文本子串进行修正,获得最优修正结果包括:
依次计算各可容错特殊标记字段对应的文本子串与所述模糊词典中的字串的匹配相似度得分;
选择具有最大匹配相似度得分的字串作为所述文本子串的替换对象;
选择所有文本子串的替换对象中具有最大匹配相似度得分的字串,将其作为最优修正结果。
优选地,所述计算各可容错特殊标记字段对应的文本子串与所述模糊词典中的字串的匹配相似度得分包括:
根据音素发音相似性或基于文本字串的编辑距离度量计算各可容错特殊标记字段对应的文本子串与所述模糊词典中的字串的匹配相似度得分。
优选地,所述基于预设的模糊词典对各解码路径进行模糊处理,得到优选的解码路径还包括:
计算所述最优修正结果的置信度;
如果所述置信度大于设定的阈值,则执行所述将最优修正结果替换对应的解码路径中可容错特殊标记字段对应的文本子串,得到优选的解码路径的步骤;
否则,分别统计各解码路径中包含的所述容错有向图文法网络中的确定字符的个数,并根据所述个数更新所述解码路径的得分;
选择具有最大得分的解码路径作为优选的解码路径。
一种实现文本语义容错理解的系统,包括:
文本字串获取模块,用于获取待解析的文本字串;
解码模块,用于基于预先构建的容错有向图文法网络对所述文本字串进行解码,获得解码路径;
第一判断模块,用于判断所述解码路径是否为精确匹配路径,所述精确匹配路径是指所述匹配路径中不包含所述容错有向图文法网络中定义的可容错特殊标记;
语义获取模块,用于在所述第一判断模块判断所述解码路径是精确匹配路径后,获取所述解码路径对应的语义信息;
模糊处理模块,用于在所述第一判断模块判断所述解码路径不是精确匹配路径后,基于预设的模糊词典对各解码路径进行模糊处理,得到优选的解码路径;
所述语义获取模块,还用于获取所述优选的解码路径对应的语义信息。
优选地,所述系统还包括:容错有向图文法网络构建模块:
句文法规则获取单元,用于获取当前应用环境下的句文法规则;
容错设置单元,用于对所述句文法规则进行容错设置,得到容错句文法规则;
编译单元,用于对所述容错句文法规则进行编译,得到容错有向图文法网络。
优选地,所述模糊处理模块包括:
文本子串获取单元,用于获取各解码路径中可容错特殊标记字段对应的文本子串;
修正单元,用于基于预设的模糊词典对各可容错特殊标记字段对应的文本子串进行修正,获得最优修正结果;
优选路径获取单元,用于将所述最优修正结果替换对应的解码路径中可容错特殊标记字段对应的文本子串,得到优选的解码路径。
优选地,所述修正单元包括:
第一计算单元,用于依次计算各可容错特殊标记字段对应的文本子串与所述模糊词典中的字串的匹配相似度得分;
第一选择单元,用于选择具有最大匹配相似度得分的字串作为所述文本子串的替换对象;
第二选择单元,用于选择所有文本子串的替换对象中具有最大匹配相似度得分的字串,将其作为最优修正结果。
优选地,所述第一计算单元,具体用于根据音素发音相似性或基于文本字串的编辑距离度量计算各可容错特殊标记字段对应的文本子串与所述模糊词典中的字串的匹配相似度得分。
优选地,所述模糊处理模块还包括:第二计算单元、判断单元、更新单元、第三选择单元;
所述第二计算单元,用于计算所述最优修正结果的置信度;
所述判断单元,用于判断所述置信度是否大于设定的阈值;
所述优选路径获取单元在所述置信度大于设定的阈值时,执行所述将最优修正结果替换对应的解码路径中可容错特殊标记字段对应的文本子串,得到优选的解码路径的操作;
所述更新单元,用于在所述置信度小于或等于设定的阈值时,分别统计各解码路径中包含的所述容错有向图文法网络中的确定字符的个数,并根据所述个数更新所述解码路径的得分;
所述第三选择单元,用于选择具有最大得分的解码路径作为优选的解码路径;
所述语义获取模块,还用于获取所述第三选择单元输出的优选的解码路径对应的语义信息。
本发明实施例提供的实现文本语义容错理解的方法及系统,通过利用容错有向图文法网络抽取目标片段,如果所述目标片段不是精确匹配路径,则进一步将抽取的目标片段与预设的模糊词典进行模糊匹配,得到最优匹配结果,从而实现对句子短语等的具容错性的深层自然语言理解,提高了自然语言理解系统的鲁棒性和准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是现有技术中基于文法规则的自然语言理解方法的流程图;
图2是本发明实施例实现文本语义容错理解的方法的一种流程图;
图3是本发明实施例中构建容错有向图文法网络的流程图;
图4是本发明实施例中容错有向图文法网络示意图;
图5是本发明实施例实现文本语义容错理解的方法的另一种流程图;
图6是本发明实施例实现文本语义容错理解的系统的一种结构示意图;
图7是本发明实施例中模糊处理模块的一种具体结构示意图;
图8是本发明实施例实现文本语义容错理解的系统的另一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
如图2所示,是本发明实施例实现文本语义容错理解的方法的流程图,包括以下步骤:
步骤201,获取待解析的文本字串。
步骤202,基于预先构建的容错有向图文法网络对所述文本字串进行解码,获得解码路径。
不同于传统精确有向图文法网络,在本发明实施例中,基于容错有向图文法网络对文本字串进行解码。所述容错有向图文法网络不仅包括不含可容错特殊标记的精确路径,还包含带有不确定用词即待模糊处理的可容错特殊标记路径。因此,基于该容错有向图文法网络不仅能得到精确匹配路径,还能得到带有不确定用词的匹配路径。
具体地,在所述容错有向图文法网络中,从起始节点到终止节点找到所有完全匹配路径,并相应记录匹配路径的得分。不同于基于传统精确有向图文法网络的精确匹配搜索,在本发明实施例中,容错有向图文法网络中由于可容错特殊标记的存在,解码结果可以包含多条具有不同长度的可容错特殊标记路径。
步骤203,判断所述解码路径是否为精确匹配路径;如果是,则执行步骤204;否则,执行步骤205。
所述精确匹配路径是指所述匹配路径中不包含所述容错有向图文法网络中定义的可容错特殊标记,所述特殊标记可以根据本发明方法所应用的具体环境来设定,比如,可以是通配符等。
步骤204,获取所述解码路径对应的语义信息。
步骤205,基于预设的模糊词典对所述解码路径进行模糊处理,得到优选的解码路径。
所述模糊处理是指将各解码路径中符合模糊处理要求的可容错特殊标记(比如后面提到的带有标注的通配符)对应的文本子串,基于所述模糊词典对其进行修正,选择最优修正结果,进而得到优选路径。具体过程将在后面详细描述。
步骤206,获取所述优选的解码路径对应的语义信息。
本发明实施例提供的实现文本语义容错理解的方法,利用容错有向图文法网络抽取目标片段,如果所述目标片段不是精确匹配路径,则进一步将抽取的目标片段与预设的模糊词典进行模糊处理,得到优选的解码路径,从而实现对句子短语等的具容错性的深层自然语言理解,提高了自然语言理解系统的鲁棒性和准确性。
本发明实施例中的容错有向图文法网络需要预先构建,如图3所示,是构建容错有向图文法网络的流程图,包括以下步骤:
步骤301,获取当前应用环境下的句文法规则。
所述句文法规则是描述各种不同应用下可能的自然语言输入句法,它可以是由用户根据实际应用需求来设定的,也可以是根据通用的一些应用需求由系统预置的,对此本发明实施例不做限定。
步骤302,对所述句文法规则进行容错设置,得到容错句文法规则。
容错设置是指允许对输入文本中一些可能出现不符合文法规则预期的字词进行模糊处理。
具体地,可以对所述句文法规则进行分析,确定可能需要模糊处理的用词。这些用词大多为名词,且有比较明确的上下文。然后对所述用词进行模糊扩展,确定替代用词,所述替代用词包括限定字数的可容错特殊标记或者不限定字数的可容错特殊标记等。
步骤303,对所述容错句文法规则进行编译,得到容错有向图文法网络。
图4展示了“我想听忘情水这首歌”的容错有向图文法网络示意图。
其中,歌名“忘情水”确定为通配模糊单元,且考虑到一般歌曲名的长度为1-8个字,所以对“忘情水”的扩展特殊标记长度限定为1-8个字符。
以“我想听忘清水这首歌”为例,基于图4所示的容错有向图文法网络进行解码,从起始节点到终止节点找到所有完全匹配路径,并记录匹配路径(即解码路径)的得分。由于不存在完全匹配的“忘清水”歌名,所以没有得到精确匹配路径,其解码结果包括“我想听???这首歌”,“我想听??????”,“我想听???这歌”等解码路径。
下面以上述解码结果为例,进一步详细说明本发明实施例中对非精确匹配的解码路径进行模糊处理的过程,包括以下步骤:
(1)获取各解码路径中可容错特殊标记字段对应的文本子串。
如对上例,其各解码路径中的可容错特殊标记字段对应的文本子串有A:“忘清水”,B:“忘清水这首歌”等。
(2)基于预设的模糊词典对各可容错特殊标记字段对应的文本子串进行修正,获得最优修正结果。
具体地,可以依次计算各可容错特殊标记字段对应的文本子串与所述模糊词典中的字串的匹配相似度得分,具体可以考虑音素发音相似度或基于文本字串的编辑距离度量等准则来计算所述匹配相似度得分,选择具有最大相似度得分的字串作为所述文本子串的替换对象,然后再选择所有文本子串的替换对象中具有最大相似度得分的字串,将其作为最优修正结果。其中,音素发音相似度指音素层面的编辑距离,基于文本字串的编辑距离指字层面的编辑距离。以“互联网”和“不联网”这两个字串为例:基于音素层面:只有“互”和“不”的音素不同,假设其发音相似度为60%,则该字串在音素层面的编辑距离为:(1/3)*0.6+(2/3)*1=0.87;基于字层面:“互”和“不”的相似度为0,则该字串在字层面的编辑距离为:(1/3)*0+(2/3)*1=0.67。
(3)将最优修正结果替换对应的解码路径中可容错特殊标记字段对应的文本子串,得到修正的解码路径。
进一步地,为了提高修正结果选择的可靠性和准确性,在本发明方法的另一实施例中,还可以对上述步骤(2)中得到的最优修正结果做进一步的优化,下面对此进行详细说明。
如图5所示,是本发明实施例实现文本语义容错理解的方法的另一种流程图。
步骤501,获取待解析的文本字串。
步骤502,基于预先构建的容错有向图文法网络对所述文本字串进行解码,获得解码路径。
步骤503,判断所述解码路径是否为精确匹配路径;如果是,则执行步骤504;否则,执行步骤505。
所述精确匹配路径是指所述匹配路径中不包含所述可容错特殊标记。
步骤504,获取所述解码路径对应的语义信息。
步骤505,获取各解码路径中可容错特殊标记字段对应的文本子串。
步骤506,基于预设的模糊词典对各可容错特殊标记字段对应的文本子串进行修正,获得最优修正结果。
步骤507,计算所述最优修正结果(即替换字串)的置信度。
所述置信度计算包括第一优选和第二优选的得分差值。第一优选和第二优选即为匹配路径中所有特殊标记对应文本子串与模糊词典中字串匹配相似度得分为最高和次高的结果。
步骤508,判断所述置信度是否大于设定的阈值;如果是,则执行步骤509;否则,执行步骤510。
步骤509,将所述最优修正结果替换对应的解码路径中可容错特殊标记字段对应的文本子串,得到优选的解码路径。然后,执行步骤512。
步骤510,分别统计各解码路径中包含的所述容错有向图文法网络中的确定字符的个数,并根据所述个数更新所述解码路径的得分。
具体地,可以根据所述个数计算解码路径的加权得分,比如“我想听???这首歌”中包含的确定字符为“这首歌”,而“我想听?????歌”中包含的确定字符仅有“歌”。
则新的解码路径得分为:原解码路径得分+替换字串得分+确定字符加权得分。
其中,原解码路径得分指的是带特殊标记的非精确匹配路径得分。通常情况下,精确匹配路径的得分认为是满分,如为100;而非精确匹配路径中,特殊标记越多或通配长度越长,其路径得分越低。替换字串得分是指将特殊标记对应的文本子串和模糊词典中字串的匹配得分映射到原解码路径得分空间的得分。其具体算法可根据经验或实验确定。
步骤511,选择具有最大得分的解码路径作为优选的解码路径。
步骤512,获取所述优选的解码路径对应的语义信息。
本发明实施例提供的实现文本语义容错理解的方法,通过利用容错有向图文法网络抽取目标片段,如果所述目标片段不是精确匹配路径,则进一步将抽取的目标片段与预设的模糊词典进行模糊处理,得到优选的解码路径,从而实现对句子短语等的具容错性的深层自然语言理解,提高了自然语言理解系统的鲁棒性和准确性。在选出的最优修正结果即替换字串的置信度较低的情况下,进一步根据各路径中包含的容错有向图文法网络中的确定字符的个数,并根据所述个数更新解码路径的得分,选择具有最大得分的解码路径作为优选的解码路径,从而进一步提高了修正结果的可靠性和准确性。
相应地,本发明实施例还提供一种实现文本语义容错理解的系统,如图6所示,是该系统的一种结构示意图。
在该实施例中,所述系统包括:
文本字串获取模块601,用于获取待解析的文本字串;
解码模块602,用于基于预先构建的容错有向图文法网络对所述文本字串进行解码,获得解码路径;
第一判断模块603,用于判断所述解码路径是否为精确匹配路径,所述精确匹配路径是指所述匹配路径中不包含所述容错有向图文法网络中定义的可容错特特殊标记;
语义获取模块604,用于在所述第一判断模块603判断所述解码路径是精确匹配路径后,获取所述解码路径对应的语义信息;
模糊处理模块605,用于在所述第一判断模块603判断所述解码路径不是精确匹配路径后,基于预设的模糊词典对各解码路径进行模糊处理,得到优选的解码路径;
所述语义获取模块604,还用于获取所述优选的解码路径对应的语义信息。
本发明实施例提供的实现文本语义容错理解的系统,利用容错有向图文法网络抽取目标片段,如果所述目标片段不是精确匹配路径,则进一步将抽取的目标片段与预设的模糊词典进行模糊处理,得到优选的解码路径,从而实现对句子短语等的具容错性的深层自然语言理解,提高了自然语言理解系统的鲁棒性和准确性。
本发明实施例中的容错有向图文法网络需要预先构建,为此,在本发明实施例的实现文本语义容错理解的系统中,还可进一步包括容错有向图文法网络构建模块(未图示),该模块的一种具体结构包括:
句文法规则获取单元,用于获取当前应用环境下的句文法规则;
容错设置单元,用于对所述句文法规则进行容错设置,得到容错句文法规则;
编译单元,用于对所述容错句文法规则进行编译,得到容错有向图文法网络。
如图7所示,是本发明实施例中模糊处理模块的一种具体结构示意图。
该模糊处理模块包括:文本子串获取单元701、修正单元702、以及修正路径获取单元703。其中:
文本子串获取单元701,用于获取各解码路径中可容错特殊标记字段对应的文本子串;
修正单元702,用于基于预设的模糊词典对各可容错特殊标记字段对应的文本子串进行修正,获得最优修正结果;
优选路径获取单元703,用于将所述最优修正结果替换对应的解码路径中可容错特殊标记字段对应的文本子串,得到优选的解码路径。
上述修正单元702包括:
第一计算单元,用于依次计算各可容错特殊标记字段对应的文本子串与所述模糊词典中的字串的匹配相似度得分,具体可以根据音素发音相似性或基于文本字串的编辑距离度量计算各可容错特殊标记字段对应的文本子串与所述模糊词典中的字串的匹配相似度得分。
第一选择单元,用于选择具有最大匹配相似度得分的字串作为所述文本子串的替换对象。
第二选择单元,用于选择所有文本子串的替换对象中具有最大匹配相似度得分的字串,将其作为最优修正结果。
当然,在实际应用中,所述模糊处理模块还可以有其它实现方式,对此本发明实施例不做限定。
如图8所示,是本发明实施例实现文本语义容错理解的系统的另一种结构示意图。
与图6所示实施例不同的是,在该实施例中,模糊处理模块800不仅包括上述文本子串获取单元701、修正单元702、以及修正路径获取单元703,还包括:第二计算单元801、判断单元802、更新单元803、以及第三选择单元804。其中:
第二计算单元801,用于计算所述最优修正结果的置信度;
判断单元802,用于判断所述置信度是否大于设定的阈值;
所述更新单元803,用于在所述置信度小于或等于设定的阈值时,分别统计各解码路径中包含的所述容错有向图文法网络中的确定字符的个数,并根据所述个数更新所述解码路径的得分;
所述第三选择单元804,用于选择具有最大得分的解码路径作为优选的解码路径。
相应地,在该实施例中,所述优选路径获取单元703在所述置信度大于设定的阈值时,执行所述将最优修正结果替换对应的解码路径中可容错特殊标记字段对应的文本子串,得到优选的解码路径的操作。也就是说,在所述置信度大于设定的阈值时,则优选路径获取单元703输出优选的解码路径;否则,由第三选择单元804输出优选的解码路径。
相应地,在该实施例中,语义获取模块604可以从解码模块602解码得到精确匹配的解码路径的语义信息,也可以从优选路径获取单元703输出的优选的解码路径获取相应的语义信息,也可以是从第三选择单元804输出的优选的解码路径获取相应的语义信息,从而进一步提高了修正结果选择的可靠性和准确性。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种实现文本语义容错理解的方法,其特征在于,包括:
获取待解析的文本字串;
基于预先构建的容错有向图文法网络对所述文本字串进行解码,获得解码路径;
如果所述解码路径是精确匹配路径,则获取所述解码路径对应的语义信息,所述精确匹配路径是指所述匹配路径中不包含所述容错有向图文法网络中定义的可容错特殊标记;
否则,基于预设的模糊词典对各解码路径进行模糊处理,得到优选的解码路径;
获取所述优选的解码路径对应的语义信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:按以下方式构建容错有向图文法网络:
获取当前应用环境下的句文法规则;
对所述句文法规则进行容错设置,得到容错句文法规则;
对所述容错句文法规则进行编译,得到容错有向图文法网络。
3.根据权利要求1所述的方法,其特征在于,所述基于预设的模糊词典对各解码路径进行模糊处理,得到优选的解码路径包括:
获取各解码路径中可容错特殊标记字段对应的文本子串;
基于预设的模糊词典对各可容错特殊标记字段对应的文本子串进行修正,获得最优修正结果;
将所述最优修正结果替换对应的解码路径中可容错特殊标记字段对应的文本子串,得到优选的解码路径。
4.根据权利要求3所述的方法,其特征在于,所述基于预设的模糊词典对各可容错特殊标记字段对应的文本子串进行修正,获得最优修正结果包括:
依次计算各可容错特殊标记字段对应的文本子串与所述模糊词典中的字串的匹配相似度得分;
选择具有最大匹配相似度得分的字串作为所述文本子串的替换对象;
选择所有文本子串的替换对象中具有最大匹配相似度得分的字串,将其作为最优修正结果。
5.根据权利要求4所述的方法,其特征在于,所述计算各可容错特殊标记字段对应的文本子串与所述模糊词典中的字串的匹配相似度得分包括:
根据音素发音相似性或基于文本字串的编辑距离度量计算各可容错特殊标记字段对应的文本子串与所述模糊词典中的字串的匹配相似度得分。
6.根据权利要求3至5任一项所述的方法,其特征在于,所述基于预设的模糊词典对各解码路径进行模糊处理,得到优选的解码路径还包括:
计算所述最优修正结果的置信度;
如果所述置信度大于设定的阈值,则执行所述将最优修正结果替换对应的解码路径中可容错特殊标记字段对应的文本子串,得到优选的解码路径的步骤;
否则,分别统计各解码路径中包含的所述容错有向图文法网络中的确定字符的个数,并根据所述个数更新所述解码路径的得分;
选择具有最大得分的解码路径作为优选的解码路径。
7.一种实现文本语义容错理解的系统,其特征在于,包括:
文本字串获取模块,用于获取待解析的文本字串;
解码模块,用于基于预先构建的容错有向图文法网络对所述文本字串进行解码,获得解码路径;
第一判断模块,用于判断所述解码路径是否为精确匹配路径,所述精确匹配路径是指所述匹配路径中不包含所述容错有向图文法网络中定义的可容错特殊标记;
语义获取模块,用于在所述第一判断模块判断所述解码路径是精确匹配路径后,获取所述解码路径对应的语义信息;
模糊处理模块,用于在所述第一判断模块判断所述解码路径不是精确匹配路径后,基于预设的模糊词典对各解码路径进行模糊处理,得到优选的解码路径;
所述语义获取模块,还用于获取所述优选的解码路径对应的语义信息。
8.根据权利要求7所述的系统,其特征在于,所述系统还包括:容错有向图文法网络构建模块:
句文法规则获取单元,用于获取当前应用环境下的句文法规则;
容错设置单元,用于对所述句文法规则进行容错设置,得到容错句文法规则;
编译单元,用于对所述容错句文法规则进行编译,得到容错有向图文法网络。
9.根据权利要求7所述的系统,其特征在于,所述模糊处理模块包括:
文本子串获取单元,用于获取各解码路径中可容错特殊标记字段对应的文本子串;
修正单元,用于基于预设的模糊词典对各可容错特殊标记字段对应的文本子串进行修正,获得最优修正结果;
优选路径获取单元,用于将所述最优修正结果替换对应的解码路径中可容错特殊标记字段对应的文本子串,得到优选的解码路径。
10.根据权利要求9所述的系统,其特征在于,所述修正单元包括:
第一计算单元,用于依次计算各可容错特殊标记字段对应的文本子串与所述模糊词典中的字串的匹配相似度得分;
第一选择单元,用于选择具有最大匹配相似度得分的字串作为所述文本子串的替换对象;
第二选择单元,用于选择所有文本子串的替换对象中具有最大匹配相似度得分的字串,将其作为最优修正结果。
11.根据权利要求10所述的系统,其特征在于,
所述第一计算单元,具体用于根据音素发音相似性或基于文本字串的编辑距离度量计算各可容错特殊标记字段对应的文本子串与所述模糊词典中的字串的匹配相似度得分。
12.根据权利要求9至11任一项所述的系统,其特征在于,所述模糊处理模块还包括:第二计算单元、判断单元、更新单元、第三选择单元;
所述第二计算单元,用于计算所述最优修正结果的置信度;
所述判断单元,用于判断所述置信度是否大于设定的阈值;
所述优选路径获取单元在所述置信度大于设定的阈值时,执行所述将最优修正结果替换对应的解码路径中可容错特殊标记字段对应的文本子串,得到优选的解码路径的操作;
所述更新单元,用于在所述置信度小于或等于设定的阈值时,分别统计各解码路径中包含的所述容错有向图文法网络中的确定字符的个数,并根据所述个数更新所述解码路径的得分;
所述第三选择单元,用于选择具有最大得分的解码路径作为优选的解码路径;
所述语义获取模块,还用于获取所述第三选择单元输出的优选的解码路径对应的语义信息。
CN201410196255.XA 2014-05-09 2014-05-09 实现文本语义容错理解的方法及系统 Active CN105095178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410196255.XA CN105095178B (zh) 2014-05-09 2014-05-09 实现文本语义容错理解的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410196255.XA CN105095178B (zh) 2014-05-09 2014-05-09 实现文本语义容错理解的方法及系统

Publications (2)

Publication Number Publication Date
CN105095178A true CN105095178A (zh) 2015-11-25
CN105095178B CN105095178B (zh) 2018-08-14

Family

ID=54575652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410196255.XA Active CN105095178B (zh) 2014-05-09 2014-05-09 实现文本语义容错理解的方法及系统

Country Status (1)

Country Link
CN (1) CN105095178B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291521A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 编译计算机语言的方法和装置
CN108595437A (zh) * 2018-05-04 2018-09-28 和美(深圳)信息技术股份有限公司 文本查询纠错方法、装置、计算机设备和存储介质
CN110119328A (zh) * 2018-02-06 2019-08-13 阿里巴巴集团控股有限公司 为了容错改进以时分方式利用嵌入有本地码的全局码进行迭代消息传递解码
CN112182058A (zh) * 2020-08-17 2021-01-05 北京来也网络科技有限公司 结合rpa和ai的内容获取方法、装置、计算机设备及介质
CN112580365A (zh) * 2020-11-05 2021-03-30 中科讯飞互联(北京)信息科技有限公司 篇章解析方法及电子设备、存储装置
CN113127715A (zh) * 2021-03-04 2021-07-16 微梦创科网络科技(中国)有限公司 一种对涉赌信息进行识别的方法及系统
CN113205813A (zh) * 2021-04-01 2021-08-03 北京华宇信息技术有限公司 语音识别文本的纠错方法
CN114332872A (zh) * 2022-03-14 2022-04-12 四川国路安数据技术有限公司 一种基于图注意力网络的合同文档容错信息提取方法
WO2022083103A1 (zh) * 2020-10-23 2022-04-28 平安科技(深圳)有限公司 问题语句的改写方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1338721A (zh) * 2000-08-16 2002-03-06 财团法人工业技术研究院 概率导向的容错式自然语言理解方法
CN1908935A (zh) * 2006-08-01 2007-02-07 华为技术有限公司 一种自然语言的搜索方法及系统
CN101984422A (zh) * 2010-10-18 2011-03-09 百度在线网络技术(北京)有限公司 一种容错文本查询的方法和设备
CN103440234A (zh) * 2013-07-25 2013-12-11 清华大学 自然语言理解系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1338721A (zh) * 2000-08-16 2002-03-06 财团法人工业技术研究院 概率导向的容错式自然语言理解方法
CN1908935A (zh) * 2006-08-01 2007-02-07 华为技术有限公司 一种自然语言的搜索方法及系统
CN101984422A (zh) * 2010-10-18 2011-03-09 百度在线网络技术(北京)有限公司 一种容错文本查询的方法和设备
CN103440234A (zh) * 2013-07-25 2013-12-11 清华大学 自然语言理解系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张建平 等: "语言理解中的容错技术研究", 《电子学报》 *
李峰: "一个简单自然语言句法分析算法实现", 《渝州大学学报(自然科学版)》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291521A (zh) * 2016-03-31 2017-10-24 阿里巴巴集团控股有限公司 编译计算机语言的方法和装置
CN107291521B (zh) * 2016-03-31 2020-12-04 阿里巴巴集团控股有限公司 编译计算机语言的方法和装置
CN110119328A (zh) * 2018-02-06 2019-08-13 阿里巴巴集团控股有限公司 为了容错改进以时分方式利用嵌入有本地码的全局码进行迭代消息传递解码
CN110119328B (zh) * 2018-02-06 2024-02-09 阿里巴巴集团控股有限公司 为了容错改进以时分方式利用嵌入有本地码的全局码进行迭代消息传递解码
CN108595437A (zh) * 2018-05-04 2018-09-28 和美(深圳)信息技术股份有限公司 文本查询纠错方法、装置、计算机设备和存储介质
CN108595437B (zh) * 2018-05-04 2022-06-03 和美(深圳)信息技术股份有限公司 文本查询纠错方法、装置、计算机设备和存储介质
CN112182058A (zh) * 2020-08-17 2021-01-05 北京来也网络科技有限公司 结合rpa和ai的内容获取方法、装置、计算机设备及介质
CN112182058B (zh) * 2020-08-17 2024-04-09 北京来也网络科技有限公司 结合rpa和ai的内容获取方法、装置、计算机设备及介质
WO2022083103A1 (zh) * 2020-10-23 2022-04-28 平安科技(深圳)有限公司 问题语句的改写方法、装置、计算机设备和存储介质
CN112580365A (zh) * 2020-11-05 2021-03-30 中科讯飞互联(北京)信息科技有限公司 篇章解析方法及电子设备、存储装置
CN113127715A (zh) * 2021-03-04 2021-07-16 微梦创科网络科技(中国)有限公司 一种对涉赌信息进行识别的方法及系统
CN113205813A (zh) * 2021-04-01 2021-08-03 北京华宇信息技术有限公司 语音识别文本的纠错方法
CN114332872A (zh) * 2022-03-14 2022-04-12 四川国路安数据技术有限公司 一种基于图注意力网络的合同文档容错信息提取方法

Also Published As

Publication number Publication date
CN105095178B (zh) 2018-08-14

Similar Documents

Publication Publication Date Title
CN105095178A (zh) 实现文本语义容错理解的方法及系统
US10713441B2 (en) Hybrid learning system for natural language intent extraction from a dialog utterance
AU2019201891B2 (en) Method and system for automated intent mining, classification and disposition
Shen et al. Neural data-to-text generation via jointly learning the segmentation and correspondence
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
US11520992B2 (en) Hybrid learning system for natural language understanding
CN110020424B (zh) 合同信息的提取方法、装置和文本信息的提取方法
US11720756B2 (en) Deriving multiple meaning representations for an utterance in a natural language understanding (NLU) framework
KR20220027198A (ko) 자연어 이해(nlu) 프레임워크에서 검색 키들 및 검색 공간들의 확장을 위한 아티팩트들의 피닝
CN110276071B (zh) 一种文本匹配方法、装置、计算机设备及存储介质
US9400787B2 (en) Language segmentation of multilingual texts
US11735184B2 (en) Translation and speech recognition method, apparatus, and device
CN114580382A (zh) 文本纠错方法以及装置
Chinea-Rios et al. Adapting neural machine translation with parallel synthetic data
CN112699665B (zh) 一种安全报告文本的三元组抽取方法、装置及电子设备
KR20190000776A (ko) 정보 입력 방법
CN111079408B (zh) 一种语种识别方法、装置、设备及存储介质
CN114817465A (zh) 一种用于多语言语义理解的实体纠错方法及智能设备
KR101709693B1 (ko) 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법
CN114970541A (zh) 文本语义理解方法、装置、设备及存储介质
Liu et al. Mongolian word segmentation based on three character level seq2seq models
KR102423072B1 (ko) 지식 베이스 확장을 위한 인공기능 기반의 지식 트리플 추출 장치 및 그 방법
Su et al. Improving neural machine translation by transferring knowledge from syntactic constituent alignment learning
US20240111843A1 (en) Software license-based code suggestions
Moradshahi Internationalization of Task-Oriented Dialogue Systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant after: IFLYTEK Co.,Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant before: ANHUI USTC IFLYTEK Co.,Ltd.

COR Change of bibliographic data
TA01 Transfer of patent application right

Effective date of registration: 20170711

Address after: 230088, Hefei province high tech Zone, 2800 innovation Avenue, 288 innovation industry park, H2 building, room two, Anhui

Applicant after: Anhui Puji Information Technology Co.,Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant before: IFLYTEK Co.,Ltd.

TA01 Transfer of patent application right
CB02 Change of applicant information

Address after: 230088, Hefei province high tech Zone, 2800 innovation Avenue, 288 innovation industry park, H2 building, room two, Anhui

Applicant after: ANHUI IFLYTEK MEDICAL INFORMATION TECHNOLOGY CO.,LTD.

Address before: 230088, Hefei province high tech Zone, 2800 innovation Avenue, 288 innovation industry park, H2 building, room two, Anhui

Applicant before: Anhui Puji Information Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 230088 floor 23-24, building A5, No. 666, Wangjiang West Road, high tech Zone, Hefei, Anhui Province

Patentee after: Anhui Xunfei Medical Co.,Ltd.

Address before: Room 288, H2 / F, phase II, innovation industrial park, 2800 innovation Avenue, high tech Zone, Hefei City, Anhui Province, 230088

Patentee before: ANHUI IFLYTEK MEDICAL INFORMATION TECHNOLOGY CO.,LTD.

CP03 Change of name, title or address
CP01 Change in the name or title of a patent holder

Address after: 230088 floor 23-24, building A5, No. 666, Wangjiang West Road, high tech Zone, Hefei, Anhui Province

Patentee after: IFLYTEK Medical Technology Co.,Ltd.

Address before: 230088 floor 23-24, building A5, No. 666, Wangjiang West Road, high tech Zone, Hefei, Anhui Province

Patentee before: Anhui Xunfei Medical Co.,Ltd.

CP01 Change in the name or title of a patent holder