CN112395394B - 短文本语义理解模板检验方法、模板生成方法及装置 - Google Patents
短文本语义理解模板检验方法、模板生成方法及装置 Download PDFInfo
- Publication number
- CN112395394B CN112395394B CN202011364644.0A CN202011364644A CN112395394B CN 112395394 B CN112395394 B CN 112395394B CN 202011364644 A CN202011364644 A CN 202011364644A CN 112395394 B CN112395394 B CN 112395394B
- Authority
- CN
- China
- Prior art keywords
- semantic
- short text
- template
- rule
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 230000002452 interceptive effect Effects 0.000 claims abstract description 104
- 238000007689 inspection Methods 0.000 claims abstract description 64
- 238000012545 processing Methods 0.000 claims abstract description 33
- 230000008569 process Effects 0.000 claims abstract description 24
- 230000014509 gene expression Effects 0.000 claims description 22
- 238000005457 optimization Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 3
- 238000004148 unit process Methods 0.000 claims 1
- 230000004044 response Effects 0.000 description 61
- 230000003993 interaction Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 230000008451 emotion Effects 0.000 description 6
- 238000003672 processing method Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 101001136140 Pinus strobus Putative oxygen-evolving enhancer protein 2 Proteins 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 240000008067 Cucumis sativus Species 0.000 description 1
- 235000010799 Cucumis sativus var sativus Nutrition 0.000 description 1
- 102100026933 Myelin-associated neurite-outgrowth inhibitor Human genes 0.000 description 1
- 206010038743 Restlessness Diseases 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种短文本语义理解模板检验方法、模板生成方法及装置,所述方法包括:步骤E1处理第1条待语义理解的短文本,对初步生成和/或优化过对应若干条规则模板的第1条待语义理解的短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系;步骤E2处理非第1条待语义理解的短文本,交互检验非第1条正在处理的待语义理解的短文本初步生成和/或优化过的若干条规则模板和现有的所有规则模板,交互检验通过后,同样进行分类、转存以及存储对应的匹配关系;步骤E3对待语义理解的其余短文本,循环步骤E2,实现每条待语义理解的短文本的分类过程中都使用交互检验,每条规则模板反复经过交互检验。
Description
技术领域
本申请涉及自然语言语义理解领域,尤其涉及一种短文本语义理解模板检验方法、模板生成方法及装置。
背景技术
通过对人类自然语言的识别、理解、表达进行的人机智能交互给人们的生活带来了极大便利,随着语音识别准确率及泛化能力的不断提高,人机智能交互逐渐应用于各种产品中,并被大众熟悉。其中影响推广应用和大众体验的关键技术之一是对自然语言经语音识别后的短文本的理解。
目前短文本理解方法大致分为基于匹配模板和基于机器学习模型的方法。前者多为关键词提取、(分词后)同义合并,abnf文法。现有的方法流程繁琐、冗余难于管理,难以平衡准确率和匹配率,处理不了相对复杂的语义的分类,比如,局部语义与整体语义不一致、实际交互场景中人端口语化而非严格书面语言的表达、实际交互场景中不同语义宽窄的需求。基于机器学习模型的方法需要先有大量实际场景互动数据,耗时去标注,专业研发人员去训练,才能得到达到一定准确率的模型,启动成本昂贵,小型或者非专业企业很难使用,进一步导致没办法产生实际场景互动数据。
发明内容
本申请提供了一种短文本语义理解模板检验方法、模板生成方法及装置,目的在于解决缺少实际生产数据情况下,现有技术中,短文本语义理解泛化过程中准确率不可把控、人工生成模板难度较大、质量检验困难的问题。本申请通过第一预设数量的短文本对预设基础模板组集合的交互检验实现了保证可控准确率前提下短文本语义理解处理泛化能力的提高,同时降低了整套语义理解模板生成方法的难度,加大了程序化作业,便于批量、在线、灵活、应急生成和/或优化更改语义理解模板。
为了实现上述目的,本申请提供了以下技术方案:
一种短文本语义理解模板检验方法,包括:
步骤E1:处理第1条待语义理解的短文本,对初步生成和/或优化过对应若干条规则模板的第1条待语义理解的短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系,所述正确匹配关系指某条短文本只会匹配中包含其语义的若干个预设基础语义组对应的若干条规则模板,与预设基础语义组集合中剩余预设基础语义组对应的预设基础模板组子集中任一条规则模板之间是不匹配的关系;
步骤E2:处理非第1条待语义理解的短文本,交互检验非第1条正在处理的待语义理解的短文本初步生成和/或优化过的若干条规则模板和现有的所有规则模板,交互检验通过后,对非第1条正在处理的待语义理解的短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系,所述交互检验指正在处理的某条待语义理解的短文本与对应若干个语义组及对应的若干条规则模板建立正确匹配关系,已完成语义理解的所有短文本分别与现有规则模板集合中对应的若干条规则模板建立正确匹配关系;
步骤E3:对待语义理解的短文本中的第2条到第一预设数量条,循环重复上面的步骤E2,实现每条待语义理解的短文本的分类过程中都使用交互检验,每条规则模板反复经过交互检验。
上述方案中,所述步骤E2处理非第1条待语义理解的短文本,交互检验非第1条正在处理的待语义理解的短文本初步生成和/或优化过的若干条规则模板和现有的所有规则模板,交互检验通过后,对非第1条正在处理的待语义理解的短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系,包括:
步骤E21:对非第1条正在处理的待语义理解的短文本初步生成或优化的每条规则模板,检验是否错误匹配中与除该规则模板对应的语义组外剩余语义组子集中的语义组建立正确匹配关系的任一条已完成语义理解的短文本,如果存在错误配中,更改对应的初步生成的规则模板,使其同时满足交互检验要求一和二,或更改对应的初步优化的规则模板刚被优化的部分,使其同时满足交互检验要求一和二,如不能满足,放弃此次优化,重新进行对应的初步优化或生成,然后进行对应的交互检验,直到初步生成或优化的每条规则模板都同时满足交互检验要求一和二,所述交互检验要求一和二指如下:
要求一:更改后的规则模板能够匹配中正在处理的待语义理解的短文本;
要求二:更改后的规则模板不可以匹配中与除该规则模板对应的语义组外剩余语义组子集中的语义组建立正确匹配关系的任一条已完成语义理解的短文本;
步骤E22:检验非第1条正在处理的待语义理解的短文本是否错误被不包含其语义的语义组对应的若干条规则模板匹配中,如果存在错误配中,通过添加禁止字符及相关正则模板组件来更改对应的每条规则模板,使其同时满足交互检验要求三到五,所述交互检验要求三到五指如下:
要求三:更改后的规则模板不可以匹配中正在处理的待语义理解的短文本;
要求四:更改后的规则模板仍然能匹配中其被更改前能够匹配中的高于预定比例的已完成语义理解的短文本;
要求五:更改后的规则模板虽不能匹配中其被更改前能够匹配中的剩余低于预定比例的已完成语义理解的短文本,但这些短文本能够被该规则模板所在语义组对应的其他规则模板匹配中;
步骤E23:以上两步完成,正在处理的短文本和已完成语义理解的短文本对现有所有规则模板的交互检验完成,进一步对非第1条正在处理的待语义理解的短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系。
本申请还提供了一种短文本语义理解模板生成方法,包括:
步骤S1:收集第一预设数量的待语义理解的短文本;
步骤S2:根据第一预设数量的待语义理解的短文本生成预设基础语义组集合,所述预设基础语义组集合由相互之间不存在包含或被包含关系的若干预设基础语义组组成;
步骤S3:基于第一预设数量的待语义理解的短文本初步生成和/或优化规则模板集合并完成交互检验,进一步生成和/或优化预设基础语义组集合对应的匹配模板集合,所述规则模板包括多个正则模板组件,是进行短文本语义理解匹配处理的最小单元;所述正则模板组件包括正则表达式、标点组合和关键字符,限定在规则模板的指定位置使用;所述匹配模板分为正式类和辅助类,各类别由若干对应的规则模板组成;
步骤S4:所述匹配模板集合结合优先级生成预设基础语义组集合对应的预设基础模板组集合。
上述方案中,所述步骤S3基于第一预设数量的待语义理解的短文本初步生成和/或优化规则模板集合并完成交互检验,进一步生成和/或优化预设基础语义组集合对应的匹配模板集合,包括:
步骤S31:从第一预设数量条待语义理解的短文本中提取决定预设基础语义组集合中各个最小语义单元语义的多个最小长度组合中的关键字符,所述长度指其中的关键字符的个数;所述最小长度组合根据理解时是否产生歧义分为正式类和辅助类;
步骤S32:从第一预设数量条待语义理解的短文本中任选一条短文本,根据该条短文本中提取出的每个最小长度组合中的关键字符的种类选取合适的正则模板组件,结合关键字符的相对位置,初步生成和/或优化对应的规则模板集合并完成交互检验,所述关键字符的种类包括同义字符、禁止字符、同义乱序n次共用字符、已被部分或全部禁止的特殊字符4类;
步骤S33:根据该条短文本中提取出的每个最小长度组合的种类,将对应的规则模板放入对应的正式类或辅助类集合中;
步骤S34:对第一预设数量条待语义理解的短文本中剩余每条短文本依次循环以上步骤S32和S33,并组合所有生成的正式类集合和辅助类集合,生成预设基础语义组集合中所有预设基础语义组的预设匹配模板集合。
上述方案中,所述步骤S31从第一预设数量条待语义理解的短文本中提取决定预设基础语义组集合中各个最小语义单元语义的多个最小长度组合中的关键字符,包括:
步骤S311:从第一预设数量的待语义理解的短文本中挑选出同时满足有关最小语义单元S1的2个条件的第三预设数量条待语义理解的短文本,所述最小语义单元S1被分类在预先设定的基础语义组BSi中;
所述2个条件为:
条件一是待语义理解的短文本包含最小语义单元S1的语义;
条件二是最小语义单元S1的语义与整条待语义理解的短文本的整体语义一致;
步骤S312:从挑选出的第三预设数量条待语义理解的短文本中提取决定最小语义单元S1语义的多个最小长度组合中的关键字符;
步骤S313:对基础语义组BSi包含的其他最小语义单元,重复以上步骤,完成有关预先设定的基础语义组BSi中各个最小语义单元语义的多个最小长度组合中的关键字符的提取;
步骤S314:对预先设定的基础语义组集合中的其他语义组,依次重复以上步骤,完成预设基础语义组集合中各个最小语义单元语义的多个最小长度组合中的关键字符的提取。
上述方案中,所述步骤S32从第一预设数量条待语义理解的短文本中任选一条短文本,根据该条短文本中提取出的每个最小长度组合中的关键字符的种类选取合适的正则模板组件,结合关键字符的相对位置,初步生成和/或优化对应的规则模板集合并完成交互检验,包括:
步骤S321:对从第一预设数量条待语义理解的短文本中任选出的一条短文本进行预处理;
步骤S322:从预处理后的待语义理解的短文本中,找出符合整条短文本语义且包含以上找出的多个最小长度组合中关键字符的最小数量子句组合;
步骤S323:根据找出的最小数量子句组合中每一个最小长度组合中的关键字符种类,选择对应的正则模板组件;
步骤S324:结合找出的最小数量子句组合中关键字符的相对位置,选取的正则模板组件的使用位置,初步生成或优化预设规则模板;
步骤S325:对根据该条短文本初步生成或优化的每条规则模板及现有其他规则模板,根据模板检验方法,完成交互检验。
本申请还提供了一种语义理解模板检验装置,包括:
短文本分类单元:对初步生成和/或优化过对应若干条规则模板的第1条待语义理解的短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系,对交互检验通过后的第一预设数量条待语义理解的短文本中除第一条外的每一条短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系,所述正确匹配关系指某条短文本只会匹配中包含其语义的若干个预设基础语义组对应的若干条规则模板,与预设基础语义组集合中剩余预设基础语义组对应的预设基础模板组子集中任一条规则模板之间是不匹配的关系;
检验单元:交互检验第一预设数量条待语义理解的短文本中除第一条外的每一条短文本初步生成和/或优化过的若干条规则模板和当时已有的所有规则模板,所述交互检验指正在处理的某条待语义理解的短文本与对应若干个语义组及对应的若干条规则模板建立正确匹配关系,已完成语义理解的所有短文本分别与现有规则模板集合中对应的若干条规则模板建立正确匹配关系。
本申请还提供了一种语义理解模板生成装置,包括:
短文本收集单元:收集第一预设数量的待语义理解的短文本;
基础语义组集合生成单元:根据第一预设数量的待语义理解的短文本生成预设基础语义组集合,所述预设基础语义组集合由相互之间不存在包含或被包含关系的若干预设基础语义组组成;
模板生成检验单元:基于第一预设数量的待语义理解的短文本初步生成和/或优化规则模板集合并完成交互检验,进一步生成和/或优化预设基础语义组集合对应的匹配模板集合,所述规则模板包括多个正则模板组件,是进行短文本语义理解匹配处理的最小单元;所述正则模板组件包括正则表达式、标点组合和关键字符,限定在规则模板的指定位置使用;所述匹配模板分为正式类和辅助类,各类别由若干对应的规则模板组成;
基础模板组集合生成单元:所述匹配模板集合结合优先级生成预设基础语义组集合对应的预设基础模板组集合。
本申请还提供了一种电子设备,包括处理器、存储器和存储在存储器上并可在处理器上运行的计算机程序、通信总线和各项目短文本语义理解处理接口,所述处理器执行所述程序时实现前述任一项所述语义理解模板生成和语义理解处理步骤。
本申请还提供了一种计算机可读存储介质,其上存储有可执行指令,所述可执行指令被处理器执行时实现前述任一项所述语义理解模板生成和语义理解处理步骤。
与现有技术相比,本发明的有益效果是:所述模板检验方法实现了在保证短文本语义理解可控准确率前提下泛化能力的提高,同时降低了整套语义理解模板生成方法的难度,加大了工程上可复制的程序化内容占比,对专业模板生成人员的要求大幅降低,节约了企业成本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,明显地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的短文本语义理解模板检验方法的流程图;
图2为本申请实施例公开的短文本语义理解模板检验方法中非第1条的单条短文本交互检验流程图;
图3为本申请实施例公开的短文本语义理解模板生成方法的流程图;
图4为本申请实施例公开的短文本语义理解模板生成方法中基础语义组生成流程图;
图5为本申请实施例公开的短文本语义理解模板生成方法中基础语义组对应的匹配模板生成流程图;
图6为本申请实施例公开的短文本语义理解模板生成方法中关键字符提取的流程图;
图7为本申请实施例公开的短文本语义理解模板生成方法中单条短文本对应的规则模板集合生成流程图;
图8为本申请实施例公开的短文本语义理解模板生成方法中基础模板组生成流程图;
图9为本申请实施例公开的短文本语义理解处理方法的流程图;
图10为本申请实施例公开的短文本语义理解处理方法中项目模板组生成流程图;
图11为本申请实施例公开的短文本语义理解模板检验装置的结构示意图;
图12为本申请实施例公开的短文本语义理解模板生成装置的结构示意图;
图13为本申请实施例公开的短文本语义理解处理装置的结构示意图;
图14为本申请实施例公开的设备的结构示意图。
具体实施方式
本申请实施例公开了短文本语义理解模板检验方法、模板生成方法及装置,可以应用在具有人机智能交互的电子设备中,例如智能对话、智能家居和智能穿戴等设备。
下面将结合本申请实施例中的附图,以智能催收机器人系统为例,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
模板检验可以由多种方式实现。比如,方式一:可以从第1条预设规则模板的生成和第1条待语义理解的短文本的分类阶段就启用交互检验,并在之后每条规则模板的生成或优化以及每条待语义理解的短文本的分类过程中都使用交互检验;方式二:可以批量进行交互检验,即先理解并分类存储指定数量的一批短文本,并生成对应的预设基础模板组集合,然后批量用这批短文本对基础模板组集合中的规则模板进行交互检验;方式三:可以部分规则模板按照每一条规则模板的生成或优化时都执行交互检验,部分规则模板按照批量的方式执行交互检验。本申请以方式一进行阐述,其他实现方式也属于本申请保护的范围。
图1为本申请实施例公开的短文本语义理解模板检验方法,包括以下步骤:
步骤E1:处理第1条待语义理解的短文本,对初步生成和/或优化过对应若干条规则模板的第1条待语义理解的短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系,所述正确匹配关系指某条短文本只会匹配中包含其语义的若干个预设基础语义组对应的若干条规则模板,与预设基础语义组集合中剩余预设基础语义组对应的预设基础模板组子集中任一条规则模板之间是不匹配的关系。
正确匹配关系举例如下:
比如一条短文本的语义被包含在2个预设的基础语义组中,当这条待语义理解的短文本被正确理解时,即被以上2个预设的基础语义组中的若干规则模板匹配中,且不会被现有预设基础语义组集合中剩余预设基础语义组对应的预设基础模板组子集中任一条规则模板匹配中时,这条短文本与提到的2个预设基础语义组、及2个预设基础语义组中对应的若干规则模板建立正确匹配关系。
将初步生成和/或优化过若干条规则模板的第1条待语义理解的短文本从待语义理解的短文本库中转移到已完成语义理解的短文本库中,存储在名称中有标识本条短文本能够被正确匹配的多个规则模板对应的预设基础语义组标签的文档或数据库表字段中,即完成了本条短文本的分类,同时存储了本条短文本与对应的预设基础语义组、及对应的规则模板建立的正确匹配关系。
比如,假设第1条待语义理解的短文本中含有符合预设基础语义组集合中语义的m个最小数量子句组合,任选第1个最小数量子句组合ST11,对应的初步生成的第1个规则模板为BT1_FRT1,因该规则模板能够匹配中ST11,即实现了该条短文本与对应的1个预设基础语义组、及对应的规则模板建立正确匹配关系。同理,剩余m-1个最小数量子句组合,都与其对应的预设基础语义组、及对应的初步生成和/或优化的规则模板建立了正确匹配关系。进一步举例如,m=2,且这2个最小数量子句组合分别匹配中预设基础模板组BT1中的规则模板BT1_FRT1和预设基础模板组BT2中的规则模板BT2_FRT1,将本条短文本分类存储在已完成语义理解的短文本库中名称中有预设基础语义组BS1和BS2标识的文档或数据库表字段中即可。
步骤E2:处理非第1条待语义理解的短文本,交互检验非第1条正在处理的待语义理解的短文本初步生成和/或优化过的若干条规则模板和现有的所有规则模板,交互检验通过后,对非第1条正在处理的待语义理解的短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系,所述交互检验指正在处理的某条待语义理解的短文本与对应若干个语义组及对应的若干条规则模板建立正确匹配关系,已完成语义理解的所有短文本分别与现有规则模板集合中对应的若干条规则模板建立正确匹配关系。
步骤E2的详细过程见下文图2。
步骤E3:对待语义理解的短文本中的第2条到第一预设数量条,循环重复上面的步骤E2,实现每条待语义理解的短文本的分类过程中都使用交互检验,每条规则模板反复经过交互检验。
图2为本申请实施例公开的短文本语义理解模板检验方法中非第1条的单条短文本交互检验流程图,包括以下步骤:
步骤E21:对非第1条正在处理的待语义理解的短文本初步生成或优化的每条规则模板,检验是否错误匹配中与除该规则模板对应的语义组外剩余语义组子集中的语义组建立正确匹配关系的任一条已完成语义理解的短文本,如果存在错误配中,更改对应的初步生成的规则模板,使其同时满足交互检验要求一和二,或更改对应的初步优化的规则模板刚被优化的部分,使其同时满足交互检验要求一和二,如不能满足,放弃此次优化,重新进行对应的初步优化或生成,然后进行对应的交互检验,直到初步生成或优化的每条规则模板都同时满足交互检验要求一和二,所述交互检验要求一和二指如下:
要求一:更改后的规则模板能够匹配中正在处理的待语义理解的短文本;
要求二:更改后的规则模板不可以匹配中与除该规则模板对应的语义组外剩余语义组子集中的语义组建立正确匹配关系的任一条已完成语义理解的短文本;
比如,假设某非第1条待语义理解的短文本含有4个符合预设基础语义组集合中语义的最小数量子句组合,任选第1个最小数量子句组合ST21,对应的初步生成的1个规则模板为BT3_FRT1,能够匹配中ST21,检验发现BT3_FRT1没有匹配中与除BS3外剩余语义组子集中的语义组建立正确匹配关系的任一条已完成语义理解的短文本,同时满足交互检验要求一和二;任选第2个最小数量子句组合ST22,对应的初步生成的1个规则模板为BT4_FRT1,能够匹配中ST22,检验发现BT4_FRT1匹配中与除BS4外剩余语义组子集中的语义组建立正确匹配关系的一条已完成语义理解的短文本CS_T1,此时只满足交互检验要求一,不满足交互检验要求二,根据规则模板初步生成方法,更改规则模板,通过结合CS_T1往规则模板中添加禁止字符及相关正则模板组件,重新检验直到同时满足交互检验要求一和二;任选第3个最小数量子句组合ST23,对应的初步优化的1个规则模板为BT1_FRT1,能够匹配中ST23,检验发现BT1_FRT1没有匹配中与除BS1外剩余语义组子集中的语义组建立正确匹配关系的任一条已完成语义理解的短文本,同时满足交互检验要求一和二;剩余第4个最小数量子句组合ST24,对应的初步优化的1个规则模板为BT2_FRT1,能够匹配中ST24,检验发现BT2_FRT1匹配中与除BS2外剩余语义组子集中的语义组建立正确匹配关系的一条已完成语义理解的短文本CS_T2,此时只满足交互检验要求一,不满足交互检验要求二,更改优化部分,优化部分是添加了决定语义的同义字符(或同义乱序重复字符)及相关正则模板组件,更改优化部分的具体字符和位置,判断是否同时满足检验要求一和二,如果同时满足,接受更改,如果不能同时满足,放弃此前对BT2_FRT1的优化内容,重新选择BT2下其他更为合适的规则模板进行优化,并检验,如果同时满足检验要求一和二,接受优化,如果发现BT2下没有合适的规则模板使得进行优化后,同时满足检验要求一和二,那么放弃优化,新生成BT2下的一条规则模板,并使其同时满足检验要求一和二。
步骤E22:检验非第1条正在处理的待语义理解的短文本是否错误被不包含其语义的语义组对应的若干条规则模板匹配中,如果存在错误配中,通过添加禁止字符及相关正则模板组件来更改对应的每条规则模板,使其同时满足交互检验要求三到五,所述交互检验要求三到五指如下:
要求三:更改后的规则模板不可以匹配中正在处理的待语义理解的短文本;
要求四:更改后的规则模板仍然能匹配中其被更改前能够匹配中的高于预定比例的已完成语义理解的短文本;
要求五:更改后的规则模板虽不能匹配中其被更改前能够匹配中的剩余低于预定比例的已完成语义理解的短文本,但这些短文本能够被该规则模板所在语义组对应的其他规则模板匹配中;
比如某非第1条正在处理的待语义理解的短文本只含有符合预设基础语义组集合中BS3和BS4语义的2个最小数量子句组合,分别正确匹配中预设基础模板组BT3下的规则模板BT3_FRT1和预设基础模板组BT4下的规则模板BT4_FRT1;检验发现该条短文本还错误匹配中BS5对应的预设基础模板组BT5下的规则模板BT5_FRT1,对BT5_FRT1进行更改,通过添加决定语义的禁止字符及相关正则模板组件,使得更改后的BT5_FRT1不再匹配中正在处理的这条短文本,同时更改后的BT5_FRT1能够匹配中高于预定比例的其被更改前能够匹配中的存储在已完成语义理解的短文本库中名称中有BS5标识的文档或数据库表字段中的短文本,且更改后的BT5_FRT1不能匹配中的低于预定比例的其被更改前能够匹配中的存储在已完成语义理解的短文本库中名称中有BS5标识的文档或数据库表字段中的短文本,能够被BT5下的其他规则模板匹配中。
步骤E23:以上两步完成,正在处理的短文本和已完成语义理解的短文本对现有所有规则模板的交互检验完成,进一步对非第1条正在处理的待语义理解的短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系。
以上模板检验方法实现了在保证短文本语义理解可控准确率前提下泛化能力的提高,同时降低了整套语义理解模板生成方法的难度,加大了工程上可复制的程序化内容占比,对专业模板生成人员的要求大幅降低,节约了企业成本。
图3为本申请实施例公开的短文本语义理解模板生成方法,包括以下步骤:
步骤S1:收集第一预设数量的待语义理解的短文本。具体可以根据业务或领域预设的响应范围,设计或提取去重后的第一预设数量条数的待语义理解的短文本,存入待语义理解的短文本库中。
所述业务或领域预设的响应范围,指各个项目预设的响应范围的总和;所述项目指各厂家直接面向终端客户的智能对话、智能家居和智能穿戴等针对某一具体服务的项目;所述某项目预设的响应范围指机器理解人端表述的各种自然语言的语义后做出的相应的响应内容的总和,比如,某催收项目中,预设的不重复的响应内容有第二预设数量条,包括多条兜底响应内容;所述兜底响应内容指其他响应内容都不合适的情况下,机器给出的符合各种情况的响应,比如,“我不理解您表述的意思,请后续咨询客服。”。
为描述方便,以下提到的待语义理解的短文本均指人端和机器端智能交互过程中一轮交互中的来自人端的用自然语言表述内容的一条文本,其中,如果自然语言表述的内容属于语音形式,需要先将自然语言表述的语音形式的内容通过语音识别引擎转化为对应的带有标点符号的自然语言表述的文本形式的内容。
待语义理解的短文本中的标点符号的作用是为了使规则模板能够以文本的形式处理待语义理解的短文本中的各个语义。自然语言表述的内容语音形式中的简短停顿和文本形式中的标点符号对待语义理解的短文本的各局部语义和整体语义有重要作用。所述规则模板包括多个正则模板组件,是进行短文本语义理解匹配处理的最小单元;所述正则模板组件包括正则表达式、标点组合和关键字符,限定在规则模板的指定位置使用;所述标点组合是待语义理解的短文本中的标点符号的组合,作用等价于自然语言表述的内容语音形式中的简短停顿和文本形式中的标点符号在语义理解方面的作用;所述关键字符指表征短文本语义的汉字单字(如“还”)、汉字词组(如“处理”)、中英文标点(如“6:30中的:”、中文逗号)、英文单词或字母(如“APP、a、p”)。
比如“我已经在信用卡后台还款了,我都不知道你们那么多费用是怎么产生的,我还准备找你帮我查询一下的都没怎么消费,每个月都要还信用卡。”,“我不处理,你们为什么给我降额”,“我前几天已经交了,我不知道你们系统怎么没有更新出来,又要还,而且每个月都没有消费。”,如果不加中文标点,有些地方从文字的文本形式上理解会造成歧义。
如果每条待语义理解的短文本的语音形式表述中中间没有停顿,或者文本形式的表述中中间没有标点符号,也可以使用不带标点符号的自然语言表述的文本形式的内容。比如“我逾期多少钱”、“为什么我的卡片额度被降了”、“卡号多少”。
所述设计或提取去重后的第一预设数量条数的待语义理解的短文本指可以人为设计生成或者从已有业务的坐席和客户实际交互中提炼人端可能的问题、回答、情绪表达等。
其中从实际交互中提炼的待语义理解的短文本包含错误字词,相对更符合实际场景。
错误字词指如下两种情况中的错误字词,情况一,如果是文本形式的待语义理解的短文本,可能会包含语音相似的错误字词;情况二,如果是语音形式的待语义理解的短文本,经过语音识别引擎识别成的文本形式的短文本,可能会包含语音识别引擎识别错误的字词。
所述去重指比如提取或设计一万条待语义理解的短文本,要求一万条短文本各自都不相同。
步骤S2:根据第一预设数量的待语义理解的短文本生成预设基础语义组集合,所述预设基础语义组集合由相互之间不存在包含和或被包含关系的若干预设基础语义组组成。
步骤S2的详细过程见下文图4。
步骤S3:基于第一预设数量的待语义理解的短文本初步生成和/或优化规则模板集合并完成交互检验,进一步生成和/或优化预设基础语义组集合对应的匹配模板集合,所述规则模板包括多个正则模板组件,是进行短文本语义理解匹配处理的最小单元;所述正则模板组件包括正则表达式、标点组合和关键字符,限定在规则模板的指定位置使用;所述匹配模板分为正式类和辅助类,各类别由若干对应的规则模板组成;
步骤S3的详细过程见下文图5。
步骤S4:所述匹配模板集合,结合优先级生成流程图,生成预设基础语义组集合对应的预设基础模板组集合。
步骤S4的详细过程见下文图8。
图4为本申请实施例公开的短文本语义理解模板生成方法中基础语义组生成流程图,包括以下步骤:
步骤S21:生成语义库,所述语义库由第一预设数量条待语义理解的短文本中所有的不重复的最小语义单元组成。
所述最小语义单元指最小数量子句组合的语义;所述子句指中文标点连接文本内容再连接中文标点;所述最小数量子句组合指自然语言表述中小于最小数量的子句组合的语义不能被理解,从而不能被合理响应,达到对应最小数量的子句组合的语义能够被理解并响应。
最小语义单元相互之间不存在包含与被包含的关系。
步骤S22:根据业务或领域预设的响应范围对应的语义分类,将语义库中的最小语义单元,分类到若干个具有预定语义宽度的预设基础语义组中,生成预设基础语义组集合,使得第一预设数量条数的待语义理解的短文本中涉及的最小语义单元都能归类到各个预设基础语义组,且同一个最小语义单元归类到预设基础语义组BSi,就不能再被归类到预设基础语义组BSj(i≠j)中,各个预设基础语义组相互之间不存在包含和被包含的关系。
所述业务或领域预设的响应范围对应的语义分类,指各个项目预设的响应范围对应的语义分类决定的方便叠加的分类,比如,项目P1的预设语义分类之一为,均使用P1预设的同一种响应内容作为响应的最小语义单元S1、S2和S3组合,而项目P2的预设语义分类之一为,均使用P2预设的同一种响应内容作为响应的最小语义单元S2、S3和S4组合。则业务或领域预设的响应范围对应的语义分类至少需要3类,S1一类、S2和S3组合一类、S4一类。
比如,银行A要求催收m0业务,最小语义单元“好的”、“可以”、“今天还欠款”对应的响应内容均为“那不打扰您了,再见。”;银行B要求催收m0业务,最小语义单元“可以”、“今天还欠款”、“明天还欠款”对应的响应内容均为“好的,您可以通过微信或支付宝还款,再见。”;此处,业务或领域预设的响应范围对应的语义分类至少需要3类,“好的”一类、“可以”和“今天还欠款”组合一类、“明天还欠款”一类。
所述语义宽度指业务、领域或各个项目预设的响应范围对应的各语义分类,如某一具体的响应内容对应的大于等于一个最小语义单元的组合/数量。比如,某银行项目要求催收m0业务预设响应范围为5句回复,其中人端表述的最小语义单元“好的”、“今天还欠款”、“明天还欠款”对应的响应内容均为“那不打扰您了,再见。”(5句回复中的1句)这句回复,此处预设的响应范围为5句回复,人端表述的各种最小语义被分类分别对应于该5句回复中的一句;这里一个预定的语义宽度为与响应内容“那不打扰您了,再见。”对应的最小语义单元“好的”、“今天还欠款”、“明天还欠款”的组合/数量。
预设基础语义组的宽度可以根据项目要求调整;最窄的情况是用每一个最小语义单元分别对应一个预设基础语义组。
以上通过预设各种粗细语义宽度的预设基础语义组,能够灵活的满足实际业务中对人端口语化的自然语言语义理解的需求。
图5为本申请实施例公开的短文本语义理解模板生成方法中基础语义组对应的匹配模板生成流程图,包括以下步骤:
步骤S31:从第一预设数量条待语义理解的短文本中提取决定预设基础语义组集合中各个最小语义单元语义的多个最小长度组合中的关键字符,所述长度指其中的关键字符的个数;所述最小长度组合根据理解时是否产生歧义分为正式类和辅助类;
步骤S31的详细过程见下文图6。
步骤S32:从第一预设数量条待语义理解的短文本中任选一条短文本,根据该条短文本中提取出的每个最小长度组合中的关键字符的种类选取合适的正则模板组件,结合关键字符的相对位置,初步生成和/或优化对应的规则模板集合并完成交互检验,所述关键字符的种类包括同义字符、禁止字符、同义乱序n次共用字符、已被部分或全部禁止的特殊字符4类;
步骤S32的详细过程见下文图7。
步骤S33:根据该条短文本中提取出的每个最小长度组合的种类,将对应的规则模板放入对应的正式类或辅助类集合中;
将正式类最小长度组合中的关键字符形成的规则模板放入对应的正式类模板集合中;
将辅助类最小长度组合中的关键字符形成的规则模板放入对应的辅助类模板集合中。
正式类模板拥有较高的准确率,辅助类模板拥有较高的匹配成功的概率。
对新增加的规则模板准确率没有把握时,也可以先暂放在辅助类中,等优化该规则模板的短文本的数量增加到预定数量,同时能够确定该规则模板的准确率达到设定阈值时,再转入正式类。
以上通过设置正确率较高的正式类模板集合和匹配概率较高的辅助类模板集合,二者配合能够实现总体较高的自然语言语义理解处理的准确率。
步骤S34:对第一预设数量条待语义理解的短文本中剩余每条短文本依次循环以上步骤S32和S33,并组合所有生成的正式类集合和辅助类集合,生成预设基础语义组集合中所有预设基础语义组的预设匹配模板集合。
图6为本申请实施例公开的短文本语义理解模板生成方法中关键字符提取的流程图,包括以下步骤:
步骤S311:任意选取一个预先设定的基础语义组BSi,假设包含最小语义单元S1、最小语义单元S2、最小语义单元S3,从待语义理解的短文本库中挑选第三预设数量条同时满足有关最小语义单元S1的2个条件的待语义理解的短文本。所述的2个条件具体如下:
条件一是待语义理解的短文本T1包含最小语义单元S1的语义。
条件二是最小语义单元S1的语义与整条待语义理解的短文本T1的整体语义一致。
如果是首次生成新的匹配模板,第三预设数量越大越好。
如果是优化已有的匹配模板,第三预设数量可以根据错误率来确定,对错误率很低的情况可以少量进行优化,对错误率较高的情况,第三预设数量越大,优化效率越高,错误率降低的幅度越大。
步骤S312:从第三预设数量条包含最小语义单元S1语义的待语义理解的短文本中提取决定最小语义单元S1语义的多个最小长度组合中的关键字符。
最小长度组合中的长度指用到的关键字符的个数。
比如,最小语义单元S1为“客户表述自己还过催收坐席催收的欠款了”,某类句式的待语义理解的短文本有如下:
“我不是已经还过了嘛。”;
“我不还了嘛。”;
“我不玩了嘛。”(“玩”字,真实声音表达的是“还”,由语音识别引擎识别错误导致);
“我刚还。”;
“我还了欠款了。”;
“还了。”;
“还过了吧。”;
……
代表性的关键字符有:不,是,已,还,过,了,嘛。其余关键字符大部分与以上的关键字符语义作用类似,比如,与“已”类似的有“刚”、“才”、“昨(天)”……;与“还”类似的有“存”、“转”、“打”、“处理”、“弄”、…、“换(由语音识别引擎识别错误导致)”、“黄(由语音识别引擎识别错误导致)”、“玩(由语音识别引擎识别错误导致)”…
最小语义单元S1-“客户表述自己还过催收坐席催收的欠款了”举例中句式的多种最小长度组合如表1,每行代表一种长度组合,每行中划对勾对应的列元素就是该行代表的长度组合中的代表性的关键字符。
表1
不 | 是 | 已 | 还 | 过 | 了 | 嘛 | |
1 | √ | √ | |||||
2 | √ | √ | |||||
3 | √ | √ | √ | ||||
4 | √ | √ | √ | √ | |||
5 | √ | √ |
最小长度组合根据理解时是否产生歧义分为正式类和辅助类。正式类指不会产生歧义的最小长度组合,如表1中的第1行到第4行代表的4种最小长度组合;辅助类指会产生歧义的最小长度组合,如表1中的第5行代表的最小长度组合。
步骤S313:对最小语义单元S2和最小语义单元S3,重复以上步骤,完成有关预先设定的基础语义组BSi中各个最小语义单元语义的多个最小长度组合中的关键字符的提取;
步骤S314:对预先设定的基础语义组集合中的其他语义组,依次重复以上步骤,完成预设基础语义组集合中各个最小语义单元语义的多个最小长度组合中的关键字符的提取。
图7为本申请实施例公开的短文本语义理解模板生成方法中单条短文本对应的规则模板集合生成流程图,包括以下步骤:
步骤S321:对从第一预设数量条待语义理解的短文本中任选出的一条短文本进行预处理。
对一条待语义理解的短文本进行预处理,具体指将设计的规则模板中标识短文本首端和尾端的字符分别添加到待语义理解的短文本的首端和尾端。所述字符指预设的标点符号或者英文字母或单词。预处理的作用是使规则模板能够识别预处理后的待语义理解的短文本的句首和句尾标识,从而区别于待语义理解的短文本的其他部位,尤其是区分待语义理解的短文本中首尾子句和其他子句。经过预处理后的待语义理解的短文本,子句位于首端时(即首子句),起始位置会有标识首端的字符;子句位于尾端时(即尾子句),末尾位置会有标识尾端的字符;子句非首尾子句时,起始和末尾位置都只有一个中文标点。
比如,开头表示为“START”,结尾表示为“END”。
另一举例,比如,首端添加两个中文冒号符号,尾端添加一个中文句号符号,适合带有标点符号的自然语言表述的文本形式的待语义理解的短文本的预处理。
另一举例,比如,首端添加两个中文冒号符号,尾端添加两个中文句号符号,适合带有标点符号的自然语言表述的文本形式的待语义理解的短文本的预处理以及不带标点符号的自然语言表述的文本形式的待语义理解的短文本的预处理。本实施例中以这种标志进行阐述,其他类似功能的字符也在保护范围内。
举例说明,待语义理解的短文本为:“你们怎么搞的,我还了呀。”,预处理为:“::你们怎么搞的,我还了呀。。。”。
步骤S322:从预处理后的待语义理解的短文本中,找出符合整条短文本语义且包含以上找出的多个最小长度组合中关键字符的最小数量子句组合。
步骤S323:根据找出的最小数量子句组合中每一个最小长度组合中的关键字符种类,选择对应的正则模板组件。
正则模板的各组件中的正则、标点组合、关键字符、使用位置和功能的说明,见下表2。
表2
表2中的正则可替换为实现同等功能的其他表示。
表2中的标点组合可替换为实现同等功能的其他表示,本申请以使用的语音识别引擎返回的标点“,。!?”再加上预处理添加在首端的“:”为例,其余同等功能的表示也在保护范围内。
步骤S324:结合找出的最小数量子句组合中关键字符的相对位置,选取的正则模板组件的使用位置,初步生成或优化预设规则模板。
查找对应的预设基础语义组对应的预设基础匹配模板中的正式类模板和辅助类模板集合中,是否已有预设规则模板,满足步骤S334中选出的正则模板组件及其位置连接结构,所述位置连接结构指由关键字符的相对位置及正则模板组件的使用位置决定的规则模板各部分的相对位置。
如果有适用的预设规则模板,则将关键字符填入对应位置,优化适用的预设规则模板,使该预设规则模板能够匹配中正在处理的预处理过的待语义理解的短文本;如果没有适用的预设规则模板,则将关键字符填入对应的正则模板组件中,并按照关键字符的相对位置及组件的使用位置连接初步生成适用的预设规则模板,使该预设规则模板能够匹配中正在处理的预处理过的待语义理解的短文本。
步骤S325:对根据该条短文本初步生成或优化的每条规则模板及现有其他规则模板,根据模板检验方法,完成交互检验。
每条待语义理解的短文本,需要匹配中的语义组的个数有可能是一个,也有可能是多个,具体个数是根据短文本本身含有的最小语义单元的个数,分布在项目要求响应的语义组的个数决定的,比如,“三个月我已经还清了,这个月是几号开始还?”(此处,语音“上”被语音识别引擎识别为“三”),具体项目可以响应“上个月已经还清”和“还款日是哪天”这两个语义组,那么该条短文本,就应该匹配中这两个语义组的规则模板。
以下例子中的待语义理解的短文本,均为实际人机交互中,人端表述的语音形式的短文本经过语音识别引擎识别成的文本形式的短文本,有的短文本存在部分识别错误,应用这些实例来说明常见的九大类别短文本语义理解处理中经过交互检验的规则模板的生成流程和优点。
类别一,单语义组新增规则模板的情况,如“你不帮我恢复额度,我就不还。”。
步骤S321:预处理后为“::你不帮我恢复额度,我就不还。。。”;
步骤S322:找出的符合整条短文本语义且包含前面步骤中找出的多个最小长度组合中关键字符的最小数量子句组合为“::你不帮我恢复额度,我就不还。。。”;
步骤S323:提取的关键字符“恢复”、“额”属于2类同义字符,选择对应的正则模板组件((?:同义字符_a1|同义字符_a2|…|同义字符_an));
步骤S324:初步生成预设规则模板为
步骤S325:交互检验发现,步骤E21通过,步骤E22中,已有规则模板:
错误匹配中“::你不帮我恢复额度,我就不还。。。”;
根据模板生成方法,在上述规则模板中首端添加禁止字符及相关正则模板组件“:[^额]*”更改以上规则模板为:
交互检验通过
类别二,单语义组优化已有规则模板的情况,如“你帮我先调高一下额度。”、“帮我提升一点额度”、“你们给我提些额度”。
优化已有的预设规则模板-即添加等价的同义字符(如,“提”、“调”与“恢复”等价),添加正则模板组件(如,(?:同义乱序重复字符_d1|同义乱序重复_d2|…|同义乱序重复_dp)*),优化后的预设规则模板为:
交互检验通过
以上举例中添加的等价同义字符和正则模板组件可以减少规则模板的冗余,在其他类别的解释中,可以看出,添加的正则模板组件及其组成部分也都可以减少规则模板的冗余。
类别三,多个语义组的短文本情况,如“三个月我已经还清了,这个月是几号开始还?”,匹配中交互检验通过的基础语义组BSi的正式类规则模板
匹配中交互检验通过的基础语义组BSj(j≠i)的正式类规则模板
以上通过合理选择有针对设计的正则模板组件,实现了较长短文本多语义的匹配处理,结合整体设计中的预设语义组,可以实现对较长短文本多语义的理解处理。
类别四,极短短文本情况,如:“哪个?”、“亲,那个。”、“拿个呀?”,交互检验通过的优化的规则模板为:
通过表征首(“::”)尾(“(?::|,|。|?|!)。”)子句的标点组合限定了规则模板能够匹配中的只能是类似的极短短文本,而不是较长长度的短文本中的个别子句中的字词(如“我没钱还,亲,那个真的没钱。”)。
类别五,叠字的情况,多用于极短文本,但其他文本也可以根据需要使用。
“你说说说说说说。”
“你说吧,你讲。”
“你说,喂,你说。”
优化成如下规则模板(交互检验通过):
类别六,已被部分或全部禁止的特殊字符的用法,如
“你们为什么不给我发短信?”
“不刚给我发的短信嘛。”
以上2条短文本不应该匹配中如下规则模板,所以在规则模板中添加了禁止字符“不”,
为了使以下短文本“你能不能发个信息给我看看啊?嗯,那个是是怎么消费的?”匹配中如上规则,添加了已被部分或全部禁止的特殊字符及相应正则组件“(?:能|不|可|以)*”,交互检验通过。
类别七,局部子句语义与整体短文本语义不一致的情况,如,“所以呀,我都跟你们讲啦,我还要等两天钱才转到,我才玩进去。”(人端实际语音表达的是“还”,经过语音识别引擎后识别为“玩”),这句短文本中,局部子句“我才玩进去。”的语义是“我刚还进去”,与本条短文本整体的语义是不一致的,采用如下交互检验通过的规则模板(添加了禁止字符“等”)就不会匹配中局部的与整体不一致的语义,但仍然能匹配中局部与整体语义一致的“我刚还进去”的短文本。
“我还了,我还错卡片了。”,局部子句“我还了。”的语义与本条短文本整体的语义是不一致的,采用如下规则模板(添加了禁止字符“错”),就不会匹配中局部的与整体不一致的语义,但仍然能匹配中局部与整体语义一致的“我还了,我还了呀”一类的短文本。
类别八,局部语义与整体单子句语义不一致的情况。
传统常见的同义正则或通配符容易遇到的问题是同义模板能匹配中正反两种语义的子句,比如:
同义正则:还了|还啦|还过了;通配符:*还*了*
可以匹配中“我还了”、“我还啦”,“我已经还过了”等等,但也可以匹配中“我不还了”、“我忘记还啦”、“我没还了吗?”
本申请的规则模板(如辅助类规则模板,(?::|,|。|?|!)[^:,。?!不忘没]*(?:还|处理)[^:,。?!]*(?:了|啦))通过禁止字符(“不”、“忘”、“没”)、同义字符等关键字符及相应的正则和代表子句首尾中间位置的标点组合限定了每条规则模板的语义范围(如,举例中的规则模板,限定语义为“我还了”),解决了实际交互中局部语义与整体语义不一致时的理解难题。
类别九,语音识别错误的情况,如,
“黄瓜啦。”(实际人端表达的语音是“还过啦。”)。
“我又烦啦。”(实际人端表达的语音是“我有还啦。”)。
“已经换了坐垫啊。”(实际人端表达的语音是“已经还了昨天啊。”)。
匹配中的对应的交互检验通过的基础语义组的辅助类规则模板为:
通过将以上类似错误字词作为语义等价的关键词(如,“烦”与“还”等价),添加禁止其本身语义的禁止词(如,麻烦是“烦”的常见表达,通过禁止“麻”,限制“烦”本身的语义)的方法,能够合理处理这些错误字词,弥补客户输入错误或语音识别引擎识别错误引起的交互困难,使得整个交互过程更加顺畅。
综上,通过以上规则模板生成流程,能够解决实际交互中局部语义与整体语义不一致、较长短文本多语义、较短短文本、规则模板冗余、语音识别后个别文字错误引起的语义理解复杂问题。
图8为本申请实施例公开的短文本语义理解模板生成方法中基础模板组生成流程图,包括以下步骤:
假设同一待语义理解的短文本中包含多个预设基础语义组,某项目只适合在一轮交互时对其中之一做出响应或者希望按照先后顺序进行组合响应,可以通过设定预设基础语义组集合中各个预设基础语义组相对的优先级来实现。
具体可以根据业务或领域要求,设定多层级优先级,比如,领域间设定一层、领域内具体大类别间设定一层、领域内某一具体大类别内部各个预设语义组之间再设定一层。以下以两层优先级为例子来说明。
步骤S41:把所有的预设基础语义组根据业务或领域要求的响应内容、方式和用途分成若干大类别,确定各大类别相互间的优先级,生成预设的第1层优先级。
比如,家居领域,极短响应的操作类的优先级高于安抚情绪类。
“房间里好闷热啊,打开空调”,在本轮对话中,机器端只适合响应一类语义组的情况下,可以优先执行打开空调并回复“空调已经打开”;机器端适合组合响应的情况下,可以按照优先级由高到低组合响应为打开空调并回复“空调已经打开啦,房间里的温度在五分钟内会逐渐凉爽下来哈!”。
比如,催收领域,安抚投诉情绪类的优先级要高于回答问题,后者又高于继续催收欠款。
“你们为什么没完没了打电话,我要投诉你们银行。”,机器端只适合响应一类的情况下,可以优先回复安抚情绪的话术“如果是我们的服务给您带来不便,请谅解!”;机器端适合组合响应的情况下,可以按照优先级由高到低组合响应为“如果是我们的服务给您带来不便,请谅解!每天给您致电是担心您因为延期还款造成更多的利息支出,请及时按照约定还款。”。
步骤S42:根据实际合理的响应顺序,确定各个大类别内部的预设基础语义组相互间的优先级,生成预设的第2层优先级。
比如,家居领域,极短响应的操作类别中“关上窗户”的优先级高于“打开空调”、“打开电视”的优先级高于“播放某个名字的电视剧”,没有明显先后顺序的可以设定为同级,比如人端提出“关上窗户、打开电视。”,机器端在只适合一轮只能响应一类的情况下,可以随机响应“窗户已经关上,请问还需要做什么?”或者“电视已经打开,请问还需要做什么?”。机器端适合组合响应的情况下,可以按照优先级由高到低组合响应为“窗户已经关上,空调也已经打开。”、“电视已经打开,并开始播放某个名字的电视剧。”、“窗户已经关上,电视已经打开。”。
比如,催收领域,安抚投诉情绪类,“为什么你们的来电号码被标记为诈骗电话”的优先级高于“上一个工作人员服务很差”,后者的优先级又高于“你的服务很差”。当人端表述“上一个工作人员服务很差,你的服务也没好到哪里,还有你们的来电号码被标记为诈骗电话。”,机器端在只适合一轮只能响应一个类别的情况下,可以回复“很抱歉给您造成困扰,有些客户不想还欠款并将号码标记为诈骗电话,我们这边只是提醒您要及时还款到您消费的账户里。”;机器端适合组合响应的情况下,可以按照优先级由高到低组合响应为“很抱歉给您造成困扰,有些客户不想还欠款并将号码标记为诈骗电话,我们这边的日常工作是提醒您要及时还款到您消费的账户里,逾期的数额银行会根据约定收取利息。您反馈的上一个工作人员和我的服务态度问题,我现在已经登记后续会及时反馈上级处理。”。
以上通过设定预设语义组集合中各个预设语义组相对的多层优先级,结合上文提到的语义组及语义组对应的匹配模板集合、设定的单语义组响应或多语义组响应的响应方式,能够灵活的满足实际业务中对人端口语化的自然语言语义理解及理解后的可控类别的响应。
步骤S43:将预设基础语义组集合中每一个预设基础语义组对应的匹配模板集合和两层优先级相结合形成预设基础模板组集合。
图9为本申请实施例公开的短文本语义理解处理方法,包括以下步骤:
步骤M1:生成各预设项目语义组集合及对应的预设项目模板组集合。步骤M1的详细过程见下文图8。
步骤M2:获取待语义理解的短文本。
步骤M3:对待语义理解的短文本进行预处理。
步骤M4:将预处理过的待语义理解的短文本与预设项目语义组集合对应的预设项目模板组集合进行匹配查询,获取匹配中的预设项目语义组子集。匹配中的预设项目语义组的数量与待语义理解的短文本本身含有的预设项目语义组数量一致。
预设项目语义组集合为[PS1,PS2,..,PSn],其中PS1表示预设项目第1个语义组,PS2表示预设项目第2个语义组,……;n为预设项目语义组集合中的预设项目语义组数量;
预设项目语义组集合对应的预设项目模板组集合为[PT1,PT2,..,PTn];
PSi,i=1,2,..,n和PTi之间为一一对应关系。
使用时,匹配中单个项目语义组指匹配中单个预设项目语义组对应的预设项目模板组,比如匹配中预设项目语义组PSi(i=1,2,..,n),指匹配中预设项目语义组PSi对应的预设项目模板组PTi,具体指以下三种情况。
匹配中预设项目语义组PSi对应的预设项目模板组PTi中的正式类模板集合中的大于等于一条规则模板;
匹配中预设项目语义组PSi对应的预设项目模板组PTi中的辅助类模板集合中的大于等于一条规则模板;
匹配中预设项目语义组PSi对应的预设项目模板组PTi中的正式类模板集合中的大于等于一条规则模板和辅助类模板集合中的大于等于一条规则模板。
使用时,匹配中多个项目语义组指匹配中多个预设项目语义组对应的预设项目模板组,比如匹配中预设项目语义组PSj,PSk,PSm,j≠k≠m,指匹配中预设项目语义组PSj,PSk,PSm各自对应的预设项目模板组PTj,PTk,PTm,具体指,匹配中预设项目语义组PSj,PSk,PSm各自对应的预设项目模板组PTj,PTk,PTm中的各自正式类模板集合中的大于等于一条规则模板,辅助类模板集合中的大于等于零条规则模板;
步骤M5:根据匹配中的预设项目语义组子集,结合对应的项目响应方式对人端做出相应响应。对应的项目响应方式指以下两种:
按照单个预设项目语义组响应。匹配中单个预设项目语义组直接按照该预设项目语义组预设的响应内容作出响应。匹配中多个预设项目语义组时按照预设项目语义组的优先级选取优先级最高的语义组,并按照其对应的响应内容作出响应。
按照实际匹配中的预设项目语义组数量响应。匹配中单语义组直接按照该语义组预设的响应内容作出响应。匹配中多语义组时按照各语义组的优先级及对应响应内容,由优先级高到低依次组合响应。
图10为本申请实施例公开的短文本语义理解处理方法中项目模板组生成流程图,包括以下步骤:
步骤M11:根据各个项目预设的响应范围对应的语义分类,将语义库中的最小语义单元,分类到若干具有预定语义宽度的预设项目语义组中,生成对应各个项目的预设项目语义组集合。
比如,项目P3的预设响应范围为3句回复(如,A31,A32,A33),每一句回复对应的语义分类中各包含多个最小语义单元(如,),则该项目的预设项目语义组有3个(如,PS31,PS32,PS33),每个语义组中包含的最小语义单元与项目预设响应范围中的每句回复对应的语义分类中的最小语义单元一致(如,/>)。/>
步骤M12:根据各个项目的预设项目语义组集合,结合预设基础语义组集合,生成对应项目的预设项目语义组集合中每一个预设项目语义组与预设基础语义组的一对一或一对多对应关系。
比如,项目P1的项目语义组集合中的PS11包含最小语义单元S1+S2+S3,基础语义组集合中的BS1包含最小语义单元S1,基础语义组集合中的BS2包含最小语义单元S2+S3,则PS11与基础语义组集合中的基础语义组的对应关系为一对二,具体为
预设项目语义组可以对应大于等于一个预设基础语义组;如果某一项目要求更为细分的预设项目语义组,就需要生成对应细分的预设基础语义组,保证预设项目语义组可以对应大于等于一个预设基础语义组;不同的项目,可以生成对应项目的定制的预设项目语义组集合、对应项目定制的预设项目语义组集合中每一个预设项目语义组与预设基础语义组的对应关系。
步骤M13:结合优先级、各预设项目语义组集合中每个预设项目语义组与预设基础语义组集合中各个预设基础语义组之间的对应关系,预设基础语义组集合对应的预设基础模板组集合,生成各预设项目语义组集合对应的预设项目模板组集合。
根据预设项目语义组集合中每个预设项目语义组与预设基础语义组之间的对应关系,建立预设项目语义组集合的2层优先级时,如果对应关系是一对一,该预设项目语义组的优先级与对应的预设基础语义组的优先级保持一致,如果一个预设项目语义组对应多个预设基础语义组,选取对应的预设基础语义组中优先级最低的2层作为该预设项目语义组的优先级。
预设项目语义组集合与预设基础语义组集合之间的对应关系和预设项目模板组集合与预设基础模板组集合之间的对应关系是一致的。
不同的项目,可以生成对应项目的定制的预设项目语义组集合对应的预设项目模板组集合。
通过设定预设基础语义组,预设项目语义组,根据二者之间的多对一的对应关系,实现一套基础语义组集合对应的模板组集合可以供多个项目使用,并能根据项目要求的响应方式作出相应响应,能够满足实际业务需求,提高生产效率。
在人端和机器端交互场景中对应的短文本语义理解处理环节,使用对应的预设项目语义组集合及对应的预设项目模板组集合进行短文本语义理解处理,同时收集与已收集的不重复的待语义理解的短文本。结合不断调整的业务需求,用收集到的与已收集的不重复的待语义理解的短文本优化语义库、优化已经生成的预设项目语义组集合,进一步优化预设基础语义组集合,预设基础模板组集合,各个预设项目模板组集合。
本实施例中的语义理解模板生成方法、语义理解处理方法支持有少量数据时的语义理解处理和人机交互时机器端的多种响应方式,并可以随着数据量的增加,不断提高交互中自然语言语义理解处理的准确率。
图11为本申请实施例公开的短文本语义理解模板检验装置,包括短文本分类单元、检验单元,各单元的功能说明如下:
短文本分类单元:对初步生成和/或优化过对应若干条规则模板的第1条待语义理解的短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系,对交互检验通过后的第一预设数量条待语义理解的短文本中除第一条外的每一条短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系,所述正确匹配关系指某条短文本只会匹配中包含其语义的若干个预设基础语义组对应的若干条规则模板,与预设基础语义组集合中剩余预设基础语义组对应的预设基础模板组子集中任一条规则模板之间是不匹配的关系;
检验单元:交互检验第一预设数量条待语义理解的短文本中除第一条外的每一条短文本初步生成和/或优化过的若干条规则模板和当时已有的所有规则模板,所述交互检验指正在处理的某条待语义理解的短文本与对应若干个语义组及对应的若干条规则模板建立正确匹配关系,已完成语义理解的所有短文本分别与现有规则模板集合中对应的若干条规则模板建立正确匹配关系。
图12为本申请实施例公开的短文本语义理解模板生成装置,包括短文本收集单元、基础语义组集合生成单元、模板生成检验单元和基础模板组集合生成单元,各单元的功能说明如下:
短文本收集单元:收集第一预设数量的待语义理解的短文本;
基础语义组集合生成单元:根据第一预设数量的待语义理解的短文本生成预设基础语义组集合,所述预设基础语义组集合由相互之间不存在包含或被包含关系的若干预设基础语义组组成;
模板生成检验单元:基于第一预设数量的待语义理解的短文本初步生成和/或优化规则模板集合并完成交互检验,进一步生成和/或优化预设基础语义组集合对应的匹配模板集合,所述规则模板包括多个正则模板组件,是进行短文本语义理解匹配处理的最小单元;所述正则模板组件包括正则表达式、标点组合和关键字符,限定在规则模板的指定位置使用;所述匹配模板分为正式类和辅助类,各类别由若干对应的规则模板组成;
基础模板组集合生成单元:所述匹配模板集合结合优先级生成预设基础语义组集合对应的预设基础模板组集合。
图13为本申请实施例公开的短文本语义理解处理装置,包括项目模板组集合生成单元、短文本获取单元、短文本预处理单元、匹配单元和响应单元,各单元的功能说明如下:
项目模板组集合生成单元:生成各预设项目语义组集合及对应的预设项目模板组集合;
短文本获取单元:获取待语义理解的短文本;
短文本预处理单元:对待语义理解的短文本进行预处理;
匹配单元:将预处理过的待语义理解的短文本与预设项目语义组集合对应的预设项目模板组集合进行匹配查询,获取匹配中的预设项目语义组子集;
响应单元:根据匹配中的预设项目语义组子集,结合对应的项目响应方式对人端做出相应响应。
以上图11、图12和图13所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需求选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
图14为本申请实施例公开的设备的结构,包括处理器、存储器、通信总线、各项目短文本语义理解处理接口。各部分的功能说明如下:
处理器:通过接收存储器中的计算机程序并执行,实现语义理解模板生成和语义理解处理方法;
存储器:存储了可在处理器上运行的计算机程序。
此外,上述的存储器中存储的内容可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所以,本申请的技术方案本质上对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干文档和若干逻辑指令用来使得一台有操作系统的设备(可以是计算机、服务器、手机或网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储文件和程序代码的介质。
通信总线:负责处理器、存储器和各项目短文本语义理解处理接口相互之间的通信。
各项目短文本语义理解处理接口:负责向智能交互设备的对应模块输出语义理解的结果。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (8)
1.一种短文本语义理解模板检验方法,其特征在于,包括:
步骤E1:处理第1条待语义理解的短文本,对初步生成和/或优化过对应若干条规则模板的第1条待语义理解的短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系,所述正确匹配关系指某条短文本只会匹配中包含其语义的若干个预设基础语义组对应的若干条规则模板,与预设基础语义组集合中剩余预设基础语义组对应的预设基础模板组子集中任一条规则模板之间是不匹配的关系;
步骤E2:处理非第1条待语义理解的短文本,交互检验非第1条正在处理的待语义理解的短文本初步生成和/或优化过的若干条规则模板和现有的所有规则模板,交互检验通过后,对非第1条正在处理的待语义理解的短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系,所述交互检验指正在处理的某条待语义理解的短文本与对应若干个语义组及对应的若干条规则模板建立正确匹配关系,已完成语义理解的所有短文本分别与现有规则模板集合中对应的若干条规则模板建立正确匹配关系;
步骤E3:对待语义理解的短文本中的第2条到第一预设数量条,循环重复上面的步骤E2,实现每条待语义理解的短文本的分类过程中都使用交互检验,每条规则模板反复经过交互检验;
所述步骤E2处理非第1条待语义理解的短文本,交互检验非第1条正在处理的待语义理解的短文本初步生成和/或优化过的若干条规则模板和现有的所有规则模板,交互检验通过后,对非第1条正在处理的待语义理解的短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系,包括:
步骤E21:对非第1条正在处理的待语义理解的短文本初步生成或优化的每条规则模板,检验是否错误匹配中与除该规则模板对应的语义组外剩余语义组子集中的语义组建立正确匹配关系的任一条已完成语义理解的短文本,如果存在错误配中,更改对应的初步生成的规则模板,使其同时满足交互检验要求一和二,或更改对应的初步优化的规则模板刚被优化的部分,使其同时满足交互检验要求一和二,如不能满足,放弃此次优化,重新进行对应的初步优化或生成,然后进行对应的交互检验,直到初步生成或优化的每条规则模板都同时满足交互检验要求一和二,所述交互检验要求一和二指如下:
要求一:更改后的规则模板能够匹配中正在处理的待语义理解的短文本;
要求二:更改后的规则模板不可以匹配中与除该规则模板对应的语义组外剩余语义组子集中的语义组建立正确匹配关系的任一条已完成语义理解的短文本;
步骤E22:检验非第1条正在处理的待语义理解的短文本是否错误被不包含其语义的语义组对应的若干条规则模板匹配中,如果存在错误配中,通过添加禁止字符及相关正则模板组件来更改对应的每条规则模板,使其同时满足交互检验要求三到五,所述交互检验要求三到五指如下:
要求三:更改后的规则模板不可以匹配中正在处理的待语义理解的短文本;
要求四:更改后的规则模板仍然能匹配中其被更改前能够匹配中的高于预定比例的已完成语义理解的短文本;
要求五:更改后的规则模板虽不能匹配中其被更改前能够匹配中的剩余低于预定比例的已完成语义理解的短文本,但这些短文本能够被该规则模板所在语义组对应的其他规则模板匹配中;
步骤E23:以上两步完成,正在处理的短文本和已完成语义理解的短文本对现有所有规则模板的交互检验完成,进一步对非第1条正在处理的待语义理解的短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系。
2.一种短文本语义理解模板生成方法,其特征在于,包括:
步骤S1:收集第一预设数量的待语义理解的短文本;
步骤S2:根据第一预设数量的待语义理解的短文本生成预设基础语义组集合,所述预设基础语义组集合由相互之间不存在包含或被包含关系的若干预设基础语义组组成;
步骤S3:基于第一预设数量的待语义理解的短文本初步生成和/或优化规则模板集合并完成交互检验,进一步生成和/或优化预设基础语义组集合对应的匹配模板集合,所述规则模板包括多个正则模板组件,是进行短文本语义理解匹配处理的最小单元;所述正则模板组件包括正则表达式、标点组合和关键字符,限定在规则模板的指定位置使用;所述匹配模板分为正式类和辅助类,各类别由若干对应的规则模板组成;
步骤S4:所述匹配模板集合结合优先级生成预设基础语义组集合对应的预设基础模板组集合;
所述步骤S3基于第一预设数量的待语义理解的短文本初步生成和/或优化规则模板集合并完成交互检验,进一步生成和/或优化预设基础语义组集合对应的匹配模板集合,包括:
步骤S31:从第一预设数量条待语义理解的短文本中提取决定预设基础语义组集合中各个最小语义单元语义的多个最小长度组合中的关键字符,所述长度指其中的关键字符的个数;所述最小长度组合根据理解时是否产生歧义分为正式类和辅助类;
步骤S32:从第一预设数量条待语义理解的短文本中任选一条短文本,根据该条短文本中提取出的每个最小长度组合中的关键字符的种类选取合适的正则模板组件,结合关键字符的相对位置,初步生成和/或优化对应的规则模板集合并完成交互检验,所述关键字符的种类包括同义字符、禁止字符、同义乱序n次共用字符、已被部分或全部禁止的特殊字符4类;
步骤S33:根据该条短文本中提取出的每个最小长度组合的种类,将对应的规则模板放入对应的正式类或辅助类集合中;
步骤S34:对第一预设数量条待语义理解的短文本中剩余每条短文本依次循环以上步骤S32和S33,并组合所有生成的正式类集合和辅助类集合,生成预设基础语义组集合中所有预设基础语义组的预设匹配模板集合。
3.根据权利要求2所述的方法,其特征在于,所述步骤S31从第一预设数量条待语义理解的短文本中提取决定预设基础语义组集合中各个最小语义单元语义的多个最小长度组合中的关键字符,包括:
步骤S311:从第一预设数量的待语义理解的短文本中挑选出同时满足有关最小语义单元S1的2个条件的第三预设数量条待语义理解的短文本,所述最小语义单元S1被分类在预先设定的基础语义组BSi中;
所述2个条件为:
条件一是待语义理解的短文本包含最小语义单元S1的语义;
条件二是最小语义单元S1的语义与整条待语义理解的短文本的整体语义一致;
步骤S312:从挑选出的第三预设数量条待语义理解的短文本中提取决定最小语义单元S1语义的多个最小长度组合中的关键字符;
步骤S313:对基础语义组BSi包含的其他最小语义单元,重复以上步骤,完成有关预先设定的基础语义组BSi中各个最小语义单元语义的多个最小长度组合中的关键字符的提取;
步骤S314:对预先设定的基础语义组集合中的其他语义组,依次重复以上步骤,完成预设基础语义组集合中各个最小语义单元语义的多个最小长度组合中的关键字符的提取。
4.根据权利要求2所述的方法,其特征在于,所述步骤S32从第一预设数量条待语义理解的短文本中任选一条短文本,根据该条短文本中提取出的每个最小长度组合中的关键字符的种类选取合适的正则模板组件,结合关键字符的相对位置,初步生成和/或优化对应的规则模板集合并完成交互检验,包括:
步骤S321:对从第一预设数量条待语义理解的短文本中任选出的一条短文本进行预处理;
步骤S322:从预处理后的待语义理解的短文本中,找出符合整条短文本语义且包含以上找出的多个最小长度组合中关键字符的最小数量子句组合;
步骤S323:根据找出的最小数量子句组合中每一个最小长度组合中的关键字符种类,选择对应的正则模板组件;
步骤S324:结合找出的最小数量子句组合中关键字符的相对位置,选取的正则模板组件的使用位置,初步生成或优化预设规则模板;
步骤S325:对根据该条短文本初步生成或优化的每条规则模板及现有其他规则模板,根据模板检验方法,完成交互检验。
5.一种语义理解模板检验装置,其特征在于,包括:
短文本分类单元:对初步生成和/或优化过对应若干条规则模板的第1条待语义理解的短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系,对交互检验通过后的第一预设数量条待语义理解的短文本中除第一条外的每一条短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系,所述正确匹配关系指某条短文本只会匹配中包含其语义的若干个预设基础语义组对应的若干条规则模板,与预设基础语义组集合中剩余预设基础语义组对应的预设基础模板组子集中任一条规则模板之间是不匹配的关系;
检验单元:交互检验第一预设数量条待语义理解的短文本中除第一条外的每一条短文本初步生成和/或优化过的若干条规则模板和当时已有的所有规则模板,所述交互检验指正在处理的某条待语义理解的短文本与对应若干个语义组及对应的若干条规则模板建立正确匹配关系,已完成语义理解的所有短文本分别与现有规则模板集合中对应的若干条规则模板建立正确匹配关系;
所述检验单元,处理非第1条待语义理解的短文本,交互检验非第1条正在处理的待语义理解的短文本初步生成和/或优化过的若干条规则模板和现有的所有规则模板,交互检验通过后,对非第1条正在处理的待语义理解的短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系,包括:
步骤E21:对非第1条正在处理的待语义理解的短文本初步生成或优化的每条规则模板,检验是否错误匹配中与除该规则模板对应的语义组外剩余语义组子集中的语义组建立正确匹配关系的任一条已完成语义理解的短文本,如果存在错误配中,更改对应的初步生成的规则模板,使其同时满足交互检验要求一和二,或更改对应的初步优化的规则模板刚被优化的部分,使其同时满足交互检验要求一和二,如不能满足,放弃此次优化,重新进行对应的初步优化或生成,然后进行对应的交互检验,直到初步生成或优化的每条规则模板都同时满足交互检验要求一和二,所述交互检验要求一和二指如下:
要求一:更改后的规则模板能够匹配中正在处理的待语义理解的短文本;
要求二:更改后的规则模板不可以匹配中与除该规则模板对应的语义组外剩余语义组子集中的语义组建立正确匹配关系的任一条已完成语义理解的短文本;
步骤E22:检验非第1条正在处理的待语义理解的短文本是否错误被不包含其语义的语义组对应的若干条规则模板匹配中,如果存在错误配中,通过添加禁止字符及相关正则模板组件来更改对应的每条规则模板,使其同时满足交互检验要求三到五,所述交互检验要求三到五指如下:
要求三:更改后的规则模板不可以匹配中正在处理的待语义理解的短文本;
要求四:更改后的规则模板仍然能匹配中其被更改前能够匹配中的高于预定比例的已完成语义理解的短文本;
要求五:更改后的规则模板虽不能匹配中其被更改前能够匹配中的剩余低于预定比例的已完成语义理解的短文本,但这些短文本能够被该规则模板所在语义组对应的其他规则模板匹配中;
步骤E23:以上两步完成,正在处理的短文本和已完成语义理解的短文本对现有所有规则模板的交互检验完成,进一步对非第1条正在处理的待语义理解的短文本进行分类,转存成已完成语义理解的短文本,同时存储其与对应的若干个预设基础语义组、及对应的若干条规则模板建立的正确匹配关系。
6.一种语义理解模板生成装置,其特征在于,包括:
短文本收集单元:收集第一预设数量的待语义理解的短文本;
基础语义组集合生成单元:根据第一预设数量的待语义理解的短文本生成预设基础语义组集合,所述预设基础语义组集合由相互之间不存在包含或被包含关系的若干预设基础语义组组成;
模板生成检验单元:基于第一预设数量的待语义理解的短文本初步生成和/或优化规则模板集合并完成交互检验,进一步生成和/或优化预设基础语义组集合对应的匹配模板集合,所述规则模板包括多个正则模板组件,是进行短文本语义理解匹配处理的最小单元;所述正则模板组件包括正则表达式、标点组合和关键字符,限定在规则模板的指定位置使用;所述匹配模板分为正式类和辅助类,各类别由若干对应的规则模板组成;
基础模板组集合生成单元:所述匹配模板集合结合优先级生成预设基础语义组集合对应的预设基础模板组集合;
所述模板生成检验单元,基于第一预设数量的待语义理解的短文本初步生成和/或优化规则模板集合并完成交互检验,进一步生成和/或优化预设基础语义组集合对应的匹配模板集合,包括:
步骤S31:从第一预设数量条待语义理解的短文本中提取决定预设基础语义组集合中各个最小语义单元语义的多个最小长度组合中的关键字符,所述长度指其中的关键字符的个数;所述最小长度组合根据理解时是否产生歧义分为正式类和辅助类;
步骤S32:从第一预设数量条待语义理解的短文本中任选一条短文本,根据该条短文本中提取出的每个最小长度组合中的关键字符的种类选取合适的正则模板组件,结合关键字符的相对位置,初步生成和/或优化对应的规则模板集合并完成交互检验,所述关键字符的种类包括同义字符、禁止字符、同义乱序n次共用字符、已被部分或全部禁止的特殊字符4类;
步骤S33:根据该条短文本中提取出的每个最小长度组合的种类,将对应的规则模板放入对应的正式类或辅助类集合中;
步骤S34:对第一预设数量条待语义理解的短文本中剩余每条短文本依次循环以上步骤S32和S33,并组合所有生成的正式类集合和辅助类集合,生成预设基础语义组集合中所有预设基础语义组的预设匹配模板集合。
7.一种电子设备,包括处理器、存储器和存储在存储器上并可在处理器上运行的计算机程序、通信总线和各项目短文本语义理解处理接口,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述方法。
8.一种计算机可读存储介质,其上存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至4任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011364644.0A CN112395394B (zh) | 2020-11-27 | 2020-11-27 | 短文本语义理解模板检验方法、模板生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011364644.0A CN112395394B (zh) | 2020-11-27 | 2020-11-27 | 短文本语义理解模板检验方法、模板生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112395394A CN112395394A (zh) | 2021-02-23 |
CN112395394B true CN112395394B (zh) | 2024-04-26 |
Family
ID=74605481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011364644.0A Active CN112395394B (zh) | 2020-11-27 | 2020-11-27 | 短文本语义理解模板检验方法、模板生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112395394B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395885B (zh) * | 2020-11-27 | 2024-01-26 | 安徽迪科数金科技有限公司 | 短文本语义理解模板生成方法、语义理解处理方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101639826A (zh) * | 2009-09-01 | 2010-02-03 | 西北大学 | 一种基于中文句式模板变换的文本隐藏方法 |
CN103500160A (zh) * | 2013-10-18 | 2014-01-08 | 大连理工大学 | 一种基于滑动语义串匹配的句法分析方法 |
CN108491486A (zh) * | 2018-03-14 | 2018-09-04 | 东软集团股份有限公司 | 模拟病人问诊对话方法、装置、终端设备及存储介质 |
CN109063221A (zh) * | 2018-11-02 | 2018-12-21 | 北京百度网讯科技有限公司 | 基于混合策略的查询意图识别方法和装置 |
CN110597964A (zh) * | 2019-09-27 | 2019-12-20 | 神州数码融信软件有限公司 | 一种双录质检语义分析方法、装置及双录质检系统 |
CN111149107A (zh) * | 2017-09-28 | 2020-05-12 | 甲骨文国际公司 | 使自主代理能够区分问题和请求 |
CN111292751A (zh) * | 2018-11-21 | 2020-06-16 | 北京嘀嘀无限科技发展有限公司 | 语义解析方法及装置、语音交互方法及装置、电子设备 |
CN111368548A (zh) * | 2018-12-07 | 2020-07-03 | 北京京东尚科信息技术有限公司 | 语义识别方法及装置、电子设备和计算机可读存储介质 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070073533A1 (en) * | 2005-09-23 | 2007-03-29 | Fuji Xerox Co., Ltd. | Systems and methods for structural indexing of natural language text |
US9529795B2 (en) * | 2012-11-29 | 2016-12-27 | Thomson Reuters Global Resources | Systems and methods for natural language generation |
-
2020
- 2020-11-27 CN CN202011364644.0A patent/CN112395394B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101639826A (zh) * | 2009-09-01 | 2010-02-03 | 西北大学 | 一种基于中文句式模板变换的文本隐藏方法 |
CN103500160A (zh) * | 2013-10-18 | 2014-01-08 | 大连理工大学 | 一种基于滑动语义串匹配的句法分析方法 |
CN111149107A (zh) * | 2017-09-28 | 2020-05-12 | 甲骨文国际公司 | 使自主代理能够区分问题和请求 |
CN108491486A (zh) * | 2018-03-14 | 2018-09-04 | 东软集团股份有限公司 | 模拟病人问诊对话方法、装置、终端设备及存储介质 |
CN109063221A (zh) * | 2018-11-02 | 2018-12-21 | 北京百度网讯科技有限公司 | 基于混合策略的查询意图识别方法和装置 |
CN111292751A (zh) * | 2018-11-21 | 2020-06-16 | 北京嘀嘀无限科技发展有限公司 | 语义解析方法及装置、语音交互方法及装置、电子设备 |
CN111368548A (zh) * | 2018-12-07 | 2020-07-03 | 北京京东尚科信息技术有限公司 | 语义识别方法及装置、电子设备和计算机可读存储介质 |
CN110597964A (zh) * | 2019-09-27 | 2019-12-20 | 神州数码融信软件有限公司 | 一种双录质检语义分析方法、装置及双录质检系统 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
Non-Patent Citations (4)
Title |
---|
Paul S.Jacobs et al..Lexico-semantic pattern matching as a companion to parsing in text understanding.《HLT'91:Proceedings of the workshop on Speech and Natural Language》.1991,337-341. * |
基于两阶段分类的口语理解方法;吴尉林 等;《计算机研究与发展》(第05期);117-124 * |
面向动画自动生成的中文短信关系抽取;李笑妃;;《计算机系统应用》(第03期);3-10 * |
面向智能服务系统的时间语义理解;贾圣宾 等;《计算机应用》(第03期);12-17 * |
Also Published As
Publication number | Publication date |
---|---|
CN112395394A (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115238101B (zh) | 一种面向多类型知识库的多引擎智能问答系统 | |
Poongodi et al. | Chat-bot-based natural language interface for blogs and information networks | |
CN107329967B (zh) | 基于深度学习的问答系统以及方法 | |
CN109446331B (zh) | 一种文本情绪分类模型建立方法及文本情绪分类方法 | |
CN109918650B (zh) | 自动生成采访稿的采访智能机器人装置及智能采访方法 | |
CN108519890A (zh) | 一种基于自注意力机制的鲁棒性代码摘要生成方法 | |
CN110674639A (zh) | 一种基于预训练模型的自然语言理解方法 | |
CN108763510A (zh) | 意图识别方法、装置、设备及存储介质 | |
CN108874774B (zh) | 一种基于意图理解的服务调用方法和系统 | |
CN108304372A (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN111708869B (zh) | 人机对话的处理方法及装置 | |
CN112395885B (zh) | 短文本语义理解模板生成方法、语义理解处理方法及装置 | |
CN114153955B (zh) | 一种融合闲聊和常识的多技能任务型对话系统构建方法 | |
CN109325780A (zh) | 一种面向电子政务领域的智能客服系统的交互方法 | |
CN114691852A (zh) | 人机对话系统及方法 | |
CN113535963A (zh) | 一种长文本事件抽取方法、装置、计算机设备及存储介质 | |
CN114528418B (zh) | 一种文本处理方法、系统和存储介质 | |
Wirawan et al. | Balinese historian chatbot using full-text search and artificial intelligence markup language method | |
CN116010581A (zh) | 一种基于电网隐患排查场景的知识图谱问答方法及系统 | |
CN112395394B (zh) | 短文本语义理解模板检验方法、模板生成方法及装置 | |
TWI734085B (zh) | 使用意圖偵測集成學習之對話系統及其方法 | |
CN114586038A (zh) | 事件抽取和抽取模型训练的方法和装置、设备、介质 | |
CN113569022B (zh) | 一种基于级联式搜索的对话机器人应答引擎实现方法 | |
CN114708047B (zh) | 一种基于知识图谱的外呼策略运营方法与系统 | |
CN114186559B (zh) | 一种从销售会话中确定会话主体角色标签的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |