CN114186061A - 语句意图预测方法、装置、存储介质及计算机设备 - Google Patents
语句意图预测方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN114186061A CN114186061A CN202111517296.0A CN202111517296A CN114186061A CN 114186061 A CN114186061 A CN 114186061A CN 202111517296 A CN202111517296 A CN 202111517296A CN 114186061 A CN114186061 A CN 114186061A
- Authority
- CN
- China
- Prior art keywords
- predicted
- sentence
- word segmentation
- participle
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语句意图预测方法、装置、存储介质及计算机设备,涉及信息技术领域,主要在于能够提高语句之间相似度计算的准确度,进而提高语句意图的预测精度。其中方法包括:获取目标业务场景下的待预测语句;基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料分别对应的各个关键词;基于所述各个分词和所述各个关键词,计算所述多个语料分别与所述待预测语句之间的相似度;根据计算的多个相似度,确定所述待预测语句对应的意图。本发明适用于对语句意图进行预测。
Description
技术领域
本发明涉及信息技术领域,尤其是涉及一种语句意图预测方法、装置、存储介质及计算机设备。
背景技术
随着互联网的飞速发展,网络应用越来越广泛,网络客服已普及到各行各业,为了提供给客户更精准的商业服务,需要根据客户传达的语句,计算语句之间的相似度来确定客户的意愿。
目前,通常依据两条语句中重复文字出现的次数来计算两条语句相似度,进而将相似度较高的语句对应的意图确定为客户意图。然而,这种将两条语句中的单个文字逐一对比来计算两条语句之间的相似度的方式,一旦在两条语句中出现数量较多的相同文字时,便认为两条语句相似度较高,但是相同的文字在两条语句中的顺序不同,其表达的意思可能完全不同,因此这种仅通过统计重复文字出现的数量来计算两条语句之间的相似度的方式,会导致语句之间相似度计算的准确度较低,从而影响语句意图的预测精度。
发明内容
本发明提供了一种语句意图预测方法、装置、存储介质及计算机设备,主要在于能够提高语句之间相似度计算的准确度,进而提高语句意图的预测精度。
根据本发明的第一个方面,提供一种语句意图预测方法,包括:
获取目标业务场景下的待预测语句;
基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料分别对应的各个关键词;
基于所述各个分词和所述各个关键词,确定所述待预测语句对应的分词占有率和所述多个语料分别对应的分词命中率;
基于所述分词占有率和所述分词命中率,计算所述多个语料分别与所述待预测语句之间的相似度;
根据计算的多个相似度,确定所述待预测语句对应的意图。
根据本发明的第二个方面,提供一种语句意图预测装置,包括:
获取单元,用于获取目标业务场景下的待预测语句;
分词单元,用于基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料分别对应的各个关键词;
第一确定单元,用于基于所述各个分词和所述各个关键词,确定所述待预测语句对应的分词占有率和所述多个语料分别对应的分词命中率;
计算单元,用于基于所述分词占有率和所述分词命中率,计算所述多个语料分别与所述待预测语句之间的相似度;
第二确定单元,用于根据计算的多个相似度,确定所述待预测语句对应的意图。
根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取目标业务场景下的待预测语句;
基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料分别对应的各个关键词;
基于所述各个分词和所述各个关键词,确定所述待预测语句对应的分词占有率和所述多个语料分别对应的分词命中率;
基于所述分词占有率和所述分词命中率,计算所述多个语料分别与所述待预测语句之间的相似度;
根据计算的多个相似度,确定所述待预测语句对应的意图。
根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取目标业务场景下的待预测语句;
基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料分别对应的各个关键词;
基于所述各个分词和所述各个关键词,确定所述待预测语句对应的分词占有率和所述多个语料分别对应的分词命中率;
基于所述分词占有率和所述分词命中率,计算所述多个语料分别与所述待预测语句之间的相似度;
根据计算的多个相似度,确定所述待预测语句对应的意图。
根据本发明提供的一种语句意图预测方法、装置、存储介质及计算机设备,与目前依据两条语句中重复文字出现的次数来计算两条语句相似度,进而将相似度较高的语句对应的意图确定为客户意图的方式相比,本发明通过获取目标业务场景下的待预测语句;并基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料分别对应的各个关键词;之后基于所述各个分词和所述各个关键词,确定所述待预测语句对应的分词占有率和所述多个语料分别对应的分词命中率;与此同时,基于所述分词占有率和所述分词命中率,计算所述多个语料分别与所述待预测语句之间的相似度;最终根据计算的多个相似度,确定所述待预测语句对应的意图,由此通过将待预测语句与预设意图语料库中的多个语料按照预设词汇词库中的词汇进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料对应的各个关键词,并基于所述各个分词和所述各个关键词,计算所述多个语料分别与所述待预测语句之间的相似度,最终基于所述相似度,确定所述待预测语句对应的意图,能够避免一旦在两条语句中出现数量较多的相同文字时,便认为两条语句相似度较高的问题,提高了语句之间相似度计算的准确度,进而提高语句意图的预测精度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种语句意图预测方法流程图;
图2示出了本发明实施例提供的另一种语句意图预测方法流程图;
图3示出了本发明实施例提供的一种语句意图预测装置的结构示意图;
图4示出了本发明实施例提供的另一种语句意图预测装置的结构示意图;
图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
目前,依据两条语句中重复文字出现的次数来计算两条语句相似度,进而将相似度较高的语句对应的意图确定为客户意图的方式,一旦在两条语句中出现数量较多的相同文字时,便认为两条语句相似度较高,导致语句之间相似度计算的准确度较低,从而影响语句意图的预测精度。
为了解决上述问题,本发明实施例提供了一种语句意图预测方法,如图1所示,所述方法包括:
101、获取目标业务场景下的待预测语句。
其中,目标业务场景包括金融业务场景、信息技术业务场景和技术服务业务场景等,所述待预测语句包括客户通话过程中的语音语句和客户输入的文字语句等。
对于本发明实施例,为了克服现有技术中语句之间相似度计算的准确度较低,进而影响语句意图的预测精度,本方案基于预设词汇词库,对待预测语句和预设语料库中多个语料分别进行分词处理,得到待预测语句对应的各个分词和多个语料分别对应的各个关键词,并基于所述各个分词和所述各个关键词,计算所述待预测语句分别与多个语料之间的相似度,最终基于多个相似度,确定待预测语句的意图,从而能够避免一旦在两条语句中出现数量较多的相同文字时,便认为两条语句相似度较高的情况,提高了语句之间相似度计算的准确度,进而提高了语句意图的预测精度。
具体地,通过语音通话可以获取目标业务场景下的待预测语句,同时通过客户在计算机中的文字输入也可以获取目标业务场景下的待预测语句,获取到待预测语句后,确定与所述业务场景相贴合的预设词汇词库,并将所述待预测语句按照预设词汇词库中的词汇进行分词处理,得到待预测语句对应的各个分词,同时对所述预设意图语料库中多个语料进行分词处理,得到所述多个语料分别对应的各个关键词,之后基于待预测语句对应的各个分词和多个语料分别对应的各个关键词,计算所述多个语料分别与待预测语句之间的相似度,并基于计算得到的多个相似度,确定待预测语句的意图,能够提高语句相似度计算的准确度,进而提高了语句意图的预测精度。
102、基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料分别对应的各个关键词。
其中,预设词汇词库中包含与目标业务场景相贴合的标准词汇和自定义词汇,如“还了”不属于标准词汇,但是在金融业务场景中,其表示“已还款”,所以将所述“还了”自定义为词汇存储至与金融业务场景相贴合的预设词汇词库中,所述预设意图语料库是预先设定的,预设意图语料库中存储有大量语料,所述大量语料分别对应相应的意图。
对于本发明实施例,在获取目标业务场景下的待预测语句后,利用hanlp算法按照与目标业务场景相贴合的预设词汇词库中的词汇对所述待预测语句进行分词处理,得到待预测语句对应的各个分词,例如,待预测语句为“我不还了”,对所述待测语句进行分词处理可以得到“我/不/还了”和“我/不还/了”,但是预设词汇词库中记录的自定义词汇为“还了”,所以基于预设词汇词库中记录的词汇,最终确定待预测语句对应的分词结果为“我/不/还了”,同理,利用hanlp算法按照与目标业务场景相贴合的预设词汇词库中的词汇对所述预设意图语料库中的多个语料分别进行分词处理,得到多个语料分别对应的各个关键词。
103、基于所述各个分词和所述各个关键词,确定所述待预测语句对应的分词占有率和所述多个语料分别对应的分词命中率。
对于本发明实施例,在确定待预测语句对应的各个分词和多个语料分别对应的各个关键词后,为了计算多个语料与待预测语句之间的相似度,首先需要确定待预测语句中各个分词的总数量,以及确定多个语料分别对应的各个关键词的总数量,并统计各个分词和各个关键词中出现的相同分词的数量,之后基于各个分词总数量、各个关键词总数量和相同分词数量,确定所述待预测语句对应的分词占有率和所述多个语料分别对应的分词命中率,并基于所述分词占有率和所述分词命中率,计算所述多个语料分别与所述待预测语句之间的相似度,最终根据计算的多个相似度,确定所述待预测语句对应的意图,能够避免一旦在两条语句中出现数量较多的相同文字时,便认为两条语句相似度较高,提高了语句之间相似度计算的准确度,进而提高了语句意图的预测精度。
104、基于所述分词占有率和所述分词命中率,计算所述多个语料分别与所述待预测语句之间的相似度。
对于本发明实施例,在获取待预测语句对应的分词占有率和所述多个语料分别对应的分词命中率后,需要基于所述分词占有率和所述分词命中率,计算所述多个语料分别与所述待预测语句之间的相似度,最终根据计算的多个相似度,确定所述待预测语句对应的意图,能够避免仅通过统计重复文字出现的数量来计算两条语句之间的相似度的方式,提高了语句之间相似度计算的准确度,进而提高了语句意图的预测精度。
105、根据计算的多个相似度,确定所述待预测语句对应的意图。
对于本发明实施例,在确定待预测语句分别与多个语料之间的相似度后,需要根据计算的多个相似度,确定所述待预测语句对应的意图,由此通过将待预测语句与预设意图语料库中的多个语料按照预设词汇词库中的词汇进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料对应的各个关键词,并基于所述各个分词和所述各个关键词,计算所述多个语料分别与所述待预测语句之间的相似度,最终基于所述相似度,确定所述待预测语句对应的意图,能够避免一旦在两条语句中出现数量较多的相同文字时,便认为两条语句相似度较高的问题,提高了语句之间相似度计算的准确度,进而提高语句意图的预测精度。
根据本发明提供的一种语句意图预测方法,与目前依据两条语句中重复文字出现的次数来计算两条语句相似度,进而将相似度较高的语句对应的意图确定为客户意图的方式相比,本发明通过获取目标业务场景下的待预测语句;并基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料分别对应的各个关键词;之后基于所述各个分词和所述各个关键词,确定所述待预测语句对应的分词占有率和所述多个语料分别对应的分词命中率;与此同时,基于所述分词占有率和所述分词命中率,计算所述多个语料分别与所述待预测语句之间的相似度;最终根据计算的多个相似度,确定所述待预测语句对应的意图,由此通过将待预测语句与预设意图语料库中的多个语料按照预设词汇词库中的词汇进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料对应的各个关键词,并基于所述各个分词和所述各个关键词,计算所述多个语料分别与所述待预测语句之间的相似度,最终基于所述相似度,确定所述待预测语句对应的意图,能够避免一旦在两条语句中出现数量较多的相同文字时,便认为两条语句相似度较高的问题,提高了语句之间相似度计算的准确度,进而提高语句意图的预测精度。
进一步的,为了更好的说明上述对语句意图预测的过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种语句意图预测方法,如图2所示,所述方法包括:
201、获取目标业务场景下的待预测语句。
对于本发明实施例,通过语音通话或者计算机中用户的文字输入,可以获取目标业务场景下的待预测语句,并基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料分别对应的各个关键词,之后基于基于所述各个分词和所述各个关键词,计算所述多个语料分别与所述待预测语句之间的相似度,最终根据计算的多个相似度,确定所述待预测语句对应的意图。
202、基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料分别对应的各个关键词。
对于本发明实施例,为了避免所述多个语料中无用词的匹配,提高待预测语句与多个语料之间的匹配效率,在基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理之前,所述方法还包括:基于所述预设停用词库,将所述多个语料中的停用词分别去除,得到所述多个语料分别对应的精简语料。
具体地,基于所述预设停用词库,分别判断所述多个语料中是否包含所述预设停用词库中说的停用词,若包含所述停用词,则将所述多个语料中的所述停用词分别去除,得到所述多个语料分别对应的精简语料,并基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和多个精简语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个精简语料分别对应的各个关键词,例如,预设意图语料库中的一条语料为“我说我一次性拿不出来这么多,我也做分期,分几次我就把它还掉了”,基于预设停用词库,将该语料中的停用词去除,得到该条语料对应的精简预料为“一次性拿不出这么多分期”,之后对所述精简语料进行分词处理,得到所述精简语料对应的各个关键词为“一次性/拿/不出/这么/多/分期”。
203、确定所述各个分词对应的第一数量,所述各个关键词对应的第二数量,以及确定所述各个分词和所述各个关键词中相同分词对应的第三数量。
对于本发明实施例,在确定待预测语句对应的各个分词和所述多个精简语料分别对应的各个关键词后,为了计算待预测语句分别与所述多个语料之间的相似度,首先需要确定待预测语句对应的各个分词的第一数量,以及多个语料分别对应的各个关键词的第二数量,并同时确定所述各个分词和所述各个关键词中相同分词的第三数量,在确定相同分词数量时,可以利用全词匹配模式,也可以利用分词匹配模式,所述全词匹配模式的应用场景为,当将待预测语句进行分词后,待预测语句对应的各个分词中出现词汇连续存在时,可以使用全词匹配模式,例如待预测语句为“我现在好忙”、“我在吃饭”,语料对应的关键词包括“好忙”和“吃饭”,因为“好忙”在待预测语句中连续存在,吃饭也在待预测语句中连续存在,此时便可利用全词匹配模式统计待预测语句分别与多个语料中的相同分词,与此同时,所述分词匹配模式的应用场景为,当将待预测语句进行分词后,待预测语句中不同位置的分词组合起来与语料中的关键词相同即可,即待预测语句中的各个分词不要求连续存在,如语料对应的关键词为“下周有钱”,待预测语句对应的各个分词为“下周/的/话/应该/有/个/三千/块/钱/左右”,则待预测语句中的“下周”、“有”、“钱”分别出现在一句话中的不同位置,但是采用分词匹配模式,仍可以与语料中的关键词“下周有钱”相匹配,基于上述两种匹配模式,可以确定各个分词与各个关键词中的相同分词,确定完相同分词后,再统计相同分词对应的第三数量,在确定所述各个分词和所述各个关键词中相同分词的第三数量之后,为了避免相同分词统计的局限性,需要确定所述各个分词中与各个关键词不相同分词对应的同义词,并利用所述同义词再与各个关键词进行匹配,基于此,所述方法包括:将所述各个分词中的所述相同分词去除,得到所述待预测语句对应的各个剩余分词;基于预设停用词库,将所述各个剩余分词中的停用词去除,得到所述待预测语句对应的目标分词;确定所述目标分词对应的同义分词,并将所述目标分词和与其对应的同义分词进行替换,得到替换后的待预测语句;确定所述替换后的待预测语句对应的各个分词和所述各个关键词中相同分词对应的第四数量。
具体地,在确定所述各个分词和所述各个关键词中相同分词对应的第三数量之后,将所述各个分词中的所述相同分词去除,得到所述待预测语句对应的各个剩余分词,并判断所述各个剩余分词中是否包含所述预设停用词库中的停用词,若包含所述停用词,则从所述各个剩余分词中将所述停用词去除,得到待预测语句对应的目标分词,并确定所述目标分词对应的同义词,确定所述目标分词对应的同义词的方法包括:将所述目标分词和预设字符字典中的词语分别输入至预设特征向量提取模型中进行语义特征向量的提取,得到所述目标分词对应的第一语义特征向量和所述词语对应的第二语义特征向量;基于所述第一语义特征向量和所述第二语义特征向量,计算所述目标分词与所述词语之间的余弦相似度;判断所述余弦相似度是否大于预设相似度,若大于所述预设相似度,则将所述余弦相似度对应的词语确定为所述目标分词对应的同义分词。
其中,预设特征向量提取模型具体可以为预设word2vec模型,具体地,分别将所述目标分词和预设字符字典中的词语分别输入至预设word2vec模型中进行语义特征向量提取,分别得到所述目标分词对应的第一语义特征向量,和所述词语对应的第二语义特征向量,并基于所述第一语义特征向量和所述第二语义特征向量,计算所述目标分词与所述词语之间的余弦相似度,具体计算公式如下:
其中,cos(θ)表示所述目标分词与所述词语之间的余弦相似度,xi表示第一语义特征向量,yi表示第二语义特征向量,n表示第一语义特征向量和第二语义特征向量的长度,按照余弦相似度的计算方法计算目标分词和词语之间的相似度后,若cos(θ)越大,则说明所述目标分词与所述词语之间的相似度越大,将余弦相似度大于第一预设阈值的词语确定为所述目标分词对应的同义词和相近词,与此同时,还可以采用向量距离公式来计算目标分词和词语之间的相似度,具体计算公式如下:
其中,D表示目标分词与词语之间的向量距离,xi表示目标分词对应的第一语义特征向量,yi表示词语对应的第二语义特征向量,n表示第一语义特征向量或第二语义特征向量的长度,向量距离公式算法计算后D越小表示目标分词与词语之间的相似度越大,将向量距离小于第二预设阈值的词语确定为所述目标分词对应的同义词或相似词,例如,待预测语句中的目标分词为“没有钱”,对所述“没有钱”进行向量处理和相似度计算,能够确定所述目标分词对应的同义词或相似词为“没钱”“需要钱”、“钱不够”、“无钱”、“很穷”和“缺钱”,确定完目标分词对应的同义分词后,将所述目标分词和与其对应的同义分词进行替换,得到替换后的待预测语句,例如,例如待预测语句为“我/明天/晚上/坐公交/去/领/薪水”,目标分词为“薪水”,通过对上述目标分词进行词汇扩充,可得到上述目标分词对应的同义词包括“工资”,并将所述“工资”替换所述“薪水”,得到替换后的待预测语句为“我/明天/晚上/坐公交/去/领/工资”,之后确定替换后的待预测语句对应的各个分词和所述各个关键词中相同分词对应的第四数量,因此通过对目标分词进行词汇扩充,若预设语料库中语料没有所述目标分词,但是含有所述目标分词对应的同义词,则也能够匹配到与待预测语句相似度较高的语料,进而能够确定待预测语句的意图,提高了语句意图预测的精度。
204、将所述第三数量与所述第一数量相除,得到所述待预测语句对应的分词占有率。
对于本发明实施例,在确定替换后的待预测语句对应的各个分词和所述各个关键词中相同分词对应的第四数量后,步骤204具体包括:将所述第四数量与所述第一数量相除,得到所述替换后的待预测语句对应的分词占有率。
具体地,将所述第四数量与所述第一数量相除,能够得到所述替换后的待预测语句对应的分词占有率,并基于所述替换后的待预测语句对应的分词占有率和多个语料分别对应的分词命中率,确定替换后的待预测语句分别与多个语料之间的相似度,最终根据计算的多个相似度,确定待预测语句对应的意图。
205、将所述第三数量与所述第二数量相除,得到所述多个语料分别对应的分词命中率。
对于本发明实施例,在确定替换后的待预测语句对应的各个分词和所述各个关键词中相同分词对应的第四数量后,步骤205具体包括:将所述第四数量与所述第二数量相除,得到所述多个语料分别对应的分词命中率。
具体地,将所述第四数量与所述第二数量相除,得到所述多个语料分别对应的分词命中率,例如,替换后的待预测语句对应的各个分词为我/现在/拿/不/出/这么/多/,/可以/分期/还/吗,其中一条语料对应的各个关键词为一次性/拿/不/出/这么/多/分期/还,替换后的待预测语句对应的各个分词的第一数量为11,该条语料对应的各个关键词的第二数量为8,相同分词为拿/不/出/这么/多/分期/还,相同分词对应的第四数量为7,基于此,所述分词占有率为7÷11=0.6363,分词命中率为7÷8=0.875。
206、基于所述分词占有率和所述分词命中率,计算所述多个语料分别与所述待预测语句之间的相似度。
对于本发明实施例,为了基于所述分词占有率和所述分词命中率,计算所述多个语料分别与所述待预测语句之间的相似度,基于此,步骤206具体包括:确定所述分词占有率对应的第一权重系数,以及所述分词命中率对应的第二权重系数;基于所述第一权重系数和所述第二权重系数,将所述分词占有率与所述分词命中率相加,得到所述多个语料分别与所述待预测语句之间的相似度。
具体地,在获取替换后的待预测语句对应的分词占有率和所述多个语料分别对应的分词命中率后,确定所述分词占有率对应的第一权重系数,以及所述分词命中率对应的第二权重系数,并将所述第一权重系数与所述分词占有率相乘,得到第一乘积,同时将第二权重系数与所述分词命中率相乘,得到第二乘积,最终将所述第一乘积与所述第二乘积相加,得到所述多个语料分别与所述待预测语句之间的相似度,其中,每条语料与待预测语句之间都对应一个相似度,由此能够得到多个相似度,并基于所述多个相似度,确定所述待预测语句对应的意图。
207、根据计算的多个相似度,确定所述待预测语句对应的意图。
对于本发明实施例,为了确定所述待预测语句对应的意图,基于此,步骤207具体包括:从所述多个相似度中确定最大相似度,并将所述最大相似度对应的语料意图确定为所述待预测语句对应的意图。
具体地,根据计算的多个相似度,从所述多个相似度中确定最大相似度,并确定所述最大相似度对应的语料,最终将该语料对应的意图确定为所述待预测语句对应的意图,例如,待预测语句对应的各个分词为“我/现在/拿/不/出/这么/多/,/可以/分期/还/吗”,预设意图语料库中的其中一条语料对应的各个关键词为“一次性/拿/不/出/这么/多/分期/还”,其对应的意图为“分期还款”,另一条语料对应的各个关键词为“今天/没有/这么/多/,/明天/一次性/还/钱”,其对应的意图为“一次性还款”,分别计算待预测语句与上述两条语料之间的相似度,得到待预测语句与第一条语料之间的相似度最大,所以确定待预测语句对应的意图为“分期还款”。
根据本发明提供的另一种语句意图预测方法,与目前依据两条语句中重复文字出现的次数来计算两条语句相似度,进而将相似度较高的语句对应的意图确定为客户意图的方式相比,本发明通过获取目标业务场景下的待预测语句;并基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料分别对应的各个关键词;之后基于所述各个分词和所述各个关键词,确定所述待预测语句对应的分词占有率和所述多个语料分别对应的分词命中率;与此同时,基于所述分词占有率和所述分词命中率,计算所述多个语料分别与所述待预测语句之间的相似度;最终根据计算的多个相似度,确定所述待预测语句对应的意图,由此通过将待预测语句与预设意图语料库中的多个语料按照预设词汇词库中的词汇进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料对应的各个关键词,并基于所述各个分词和所述各个关键词,计算所述多个语料分别与所述待预测语句之间的相似度,最终基于所述相似度,确定所述待预测语句对应的意图,能够避免一旦在两条语句中出现数量较多的相同文字时,便认为两条语句相似度较高的问题,提高了语句之间相似度计算的准确度,进而提高语句意图的预测精度。
进一步地,作为图1的具体实现,本发明实施例提供了一种语句意图预测装置,如图3所示,所述装置包括:获取单元31、分词单元32、第一确定单元33、计算单元34和第二确定单元35。
所述获取单元31,可以用于获取目标业务场景下的待预测语句。
所述分词单元32,可以用于基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料分别对应的各个关键词。
所述第一确定单元33,可以用于基于所述各个分词和所述各个关键词,确定所述待预测语句对应的分词占有率和所述多个语料分别对应的分词命中率。
所述计算单元34,可以用于基于所述分词占有率和所述分词命中率,计算所述多个语料分别与所述待预测语句之间的相似度。
所述第二确定单元35,可以用于根据计算的多个相似度,确定所述待预测语句对应的意图。
在具体应用场景中,为了确定所述待预测语句对应的分词占有率和所述多个语料分别对应的分词命中率,如图4所示,所述第一确定单元33,包括第一确定模块331和相除模块332。
所述第一确定模块331,可以用于确定所述各个分词对应的第一数量,所述各个关键词对应的第二数量,以及确定所述各个分词和所述各个关键词中相同分词对应的第三数量。
所述相除模块332,可以用于将所述第三数量与所述第一数量相除,得到所述待预测语句对应的分词占有率。
所述相除模块332,还可以用于将所述第三数量与所述第二数量相除,得到所述多个语料分别对应的分词命中率。
在具体应用场景中,为了确定所述替换后的待预测语句对应的各个分词和所述各个关键词中相同分词对应的第四数量,所述第一确定单元33,还包括去除模块333。
所述去除模块333,可以用于将所述各个分词中的所述相同分词去除,得到所述待预测语句对应的各个剩余分词。
所述去除模块333,具体可以用于基于预设停用词库,将所述各个剩余分词中的停用词去除,得到所述待预测语句对应的目标分词。
所述第一确定模块331,还可以用于确定所述目标分词对应的同义分词,并将所述目标分词和与其对应的同义分词进行替换,得到替换后的待预测语句。
所述第一确定模块331,具体可以用于确定所述替换后的待预测语句对应的各个分词和所述各个关键词中相同分词对应的第四数量。
所述相除模块332,还可以用于将所述第四数量与所述第一数量相除,得到所述替换后的待预测语句对应的分词占有率。
所述相除模块332,还可以用于将所述第四数量与所述第二数量相除,得到所述多个语料分别对应的分词命中率。
在具体应用场景中,为了确定所述目标分词对应的同义分词,所述第一确定模块331,包括提取子模块、计算子模块和确定子模块。
所述提取子模块,可以用于将所述目标分词和预设字符字典中的词语分别输入至预设特征向量提取模型中进行语义特征向量的提取,得到所述目标分词对应的第一语义特征向量和所述词语对应的第二语义特征向量。
所述计算子模块,可以用于基于所述第一语义特征向量和所述第二语义特征向量,计算所述目标分词与所述词语之间的余弦相似度。
所述确定子模块,可以用于判断所述余弦相似度是否大于预设相似度,若大于所述预设相似度,则将所述余弦相似度对应的词语确定为所述目标分词对应的同义分词。
在具体应用场景中,为了计算所述多个语料分别与所述待预测语句之间的相似度,所述计算单元34,包括第二确定模块341和相加模块342。
所述第二确定模块341,可以用于确定所述分词占有率对应的第一权重系数,以及所述分词命中率对应的第二权重系数。
所述相加模块342,可以用于基于所述第一权重系数和所述第二权重系数,将所述分词占有率与所述分词命中率相加,得到所述多个语料分别与所述待预测语句之间的相似度。
在具体应用场景中,为了根据计算的多个相似,确定所述待预测语句对应的意图,所述第二确定单元35具体可以用于从所述多个相似度中确定最大相似度,并将所述最大相似度对应的语料意图确定为所述待预测语句对应的意图。
在具体应用场景中,为了得到所述多个语料分别对应的精简语料,所述装置还包括去除单元36。
所述去除单元36,可以用于基于所述预设停用词库,将所述多个语料中的停用词分别去除,得到所述多个语料分别对应的精简语料;
所述分词单元32,具体可以用于基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和多个精简语料分别进行分词处理,得到得到所述待预测语句对应的各个分词和所述多个精简语料分别对应的各个关键词。
需要说明的是,本发明实施例提供的一种语句意图预测装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取目标业务场景下的待预测语句;基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料分别对应的各个关键词;基于所述各个分词和所述各个关键词,确定所述待预测语句对应的分词占有率和所述多个语料分别对应的分词命中率;基于所述分词占有率和所述分词命中率,计算所述多个语料分别与所述待预测语句之间的相似度;根据计算的多个相似度,确定所述待预测语句对应的意图。
基于上述如图1所示方法和如图3所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图5所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取目标业务场景下的待预测语句;基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料分别对应的各个关键词;基于所述各个分词和所述各个关键词,确定所述待预测语句对应的分词占有率和所述多个语料分别对应的分词命中率;基于所述分词占有率和所述分词命中率,计算所述多个语料分别与所述待预测语句之间的相似度;根据计算的多个相似度,确定所述待预测语句对应的意图。
通过本发明的技术方案,本发明通过获取目标业务场景下的待预测语句;并基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料分别对应的各个关键词;之后基于所述各个分词和所述各个关键词,确定所述待预测语句对应的分词占有率和所述多个语料分别对应的分词命中率;与此同时,基于所述分词占有率和所述分词命中率,计算所述多个语料分别与所述待预测语句之间的相似度;最终根据计算的多个相似度,确定所述待预测语句对应的意图,由此通过将待预测语句与预设意图语料库中的多个语料按照预设词汇词库中的词汇进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料对应的各个关键词,并基于所述各个分词和所述各个关键词,计算所述多个语料分别与所述待预测语句之间的相似度,最终基于所述相似度,确定所述待预测语句对应的意图,能够避免一旦在两条语句中出现数量较多的相同文字时,便认为两条语句相似度较高的问题,提高了语句之间相似度计算的准确度,进而提高语句意图的预测精度。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种语句意图预测方法,其特征在于,包括:
获取目标业务场景下的待预测语句;
基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料分别对应的各个关键词;
基于所述各个分词和所述各个关键词,确定所述待预测语句对应的分词占有率和所述多个语料分别对应的分词命中率;
基于所述分词占有率和所述分词命中率,计算所述多个语料分别与所述待预测语句之间的相似度;
根据计算的多个相似度,确定所述待预测语句对应的意图。
2.根据权利要求1所述的方法,其特征在于,所述基于所述各个分词和所述各个关键词,确定所述待预测语句对应的分词占有率和所述多个语料分别对应的分词命中率,包括:
确定所述各个分词对应的第一数量,所述各个关键词对应的第二数量,以及确定所述各个分词和所述各个关键词中相同分词对应的第三数量;
将所述第三数量与所述第一数量相除,得到所述待预测语句对应的分词占有率;
将所述第三数量与所述第二数量相除,得到所述多个语料分别对应的分词命中率。
3.根据权利要求2所述的方法,其特征在于,在所述确定所述各个分词和所述各个关键词中相同分词对应的第三数量之后,所述方法还包括:
将所述各个分词中的所述相同分词去除,得到所述待预测语句对应的各个剩余分词;
基于预设停用词库,将所述各个剩余分词中的停用词去除,得到所述待预测语句对应的目标分词;
确定所述目标分词对应的同义分词,并将所述目标分词和与其对应的同义分词进行替换,得到替换后的待预测语句;
确定所述替换后的待预测语句对应的各个分词和所述各个关键词中相同分词对应的第四数量;
所述将所述第三数量与所述第一数量相除,得到所述待预测语句对应的分词占有率,包括:
将所述第四数量与所述第一数量相除,得到所述替换后的待预测语句对应的分词占有率;
所述将所述第三数量与所述第二数量相除,得到所述多个语料分别对应的分词命中率,包括:
将所述第四数量与所述第二数量相除,得到所述多个语料分别对应的分词命中率。
4.根据权利要求3所述的方法,其特征在于,所述确定所述目标分词对应的同义分词,包括:
将所述目标分词和预设字符字典中的词语分别输入至预设特征向量提取模型中进行语义特征向量的提取,得到所述目标分词对应的第一语义特征向量和所述词语对应的第二语义特征向量;
基于所述第一语义特征向量和所述第二语义特征向量,计算所述目标分词与所述词语之间的余弦相似度;
判断所述余弦相似度是否大于预设相似度,若大于所述预设相似度,则将所述余弦相似度对应的词语确定为所述目标分词对应的同义分词。
5.根据权利要求1所述的方法,其特征在于,所述基于所述分词占有率和所述分词命中率,计算所述多个语料分别与所述待预测语句之间的相似度,包括:
确定所述分词占有率对应的第一权重系数,以及所述分词命中率对应的第二权重系数;
基于所述第一权重系数和所述第二权重系数,将所述分词占有率与所述分词命中率相加,得到所述多个语料分别与所述待预测语句之间的相似度。
6.根据权利要求1所述的方法,其特征在于,所述根据计算的多个相似度,确定所述待预测语句对应的意图,包括:
从所述多个相似度中确定最大相似度,并将所述最大相似度对应的语料意图确定为所述待预测语句对应的意图。
7.根据权利要求1所述的方法,其特征在于,在所述基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料分别对应的各个关键词之前,所述方法还包括:
基于所述预设停用词库,将所述多个语料中的停用词分别去除,得到所述多个语料分别对应的精简语料;
所述基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料分别对应的各个关键词,包括:
基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和多个精简语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个精简语料分别对应的各个关键词。
8.一种语句意图预测装置,其特征在于,包括:
获取单元,用于获取目标业务场景下的待预测语句;
分词单元,用于基于与所述目标业务场景相贴合的预设词汇词库,对所述待预测语句和预设意图语料库中的多个语料分别进行分词处理,得到所述待预测语句对应的各个分词和所述多个语料分别对应的各个关键词;
第一确定单元,用于基于所述各个分词和所述各个关键词,确定所述待预测语句对应的分词占有率和所述多个语料分别对应的分词命中率;
计算单元,用于基于所述分词占有率和所述分词命中率,计算所述多个语料分别与所述待预测语句之间的相似度;
第二确定单元,用于根据计算的多个相似度,确定所述待预测语句对应的意图。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111517296.0A CN114186061A (zh) | 2021-12-13 | 2021-12-13 | 语句意图预测方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111517296.0A CN114186061A (zh) | 2021-12-13 | 2021-12-13 | 语句意图预测方法、装置、存储介质及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114186061A true CN114186061A (zh) | 2022-03-15 |
Family
ID=80604659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111517296.0A Pending CN114186061A (zh) | 2021-12-13 | 2021-12-13 | 语句意图预测方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114186061A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115840510A (zh) * | 2023-02-21 | 2023-03-24 | 中航信移动科技有限公司 | 用于民航智能问答的输入联想方法、电子设备及存储介质 |
CN116933800A (zh) * | 2023-09-12 | 2023-10-24 | 深圳须弥云图空间科技有限公司 | 一种基于模版的生成式意图识别方法及装置 |
CN117725185A (zh) * | 2024-02-06 | 2024-03-19 | 河北神玥软件科技股份有限公司 | 智能对话生成方法及系统 |
-
2021
- 2021-12-13 CN CN202111517296.0A patent/CN114186061A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115840510A (zh) * | 2023-02-21 | 2023-03-24 | 中航信移动科技有限公司 | 用于民航智能问答的输入联想方法、电子设备及存储介质 |
CN116933800A (zh) * | 2023-09-12 | 2023-10-24 | 深圳须弥云图空间科技有限公司 | 一种基于模版的生成式意图识别方法及装置 |
CN116933800B (zh) * | 2023-09-12 | 2024-01-05 | 深圳须弥云图空间科技有限公司 | 一种基于模版的生成式意图识别方法及装置 |
CN117725185A (zh) * | 2024-02-06 | 2024-03-19 | 河北神玥软件科技股份有限公司 | 智能对话生成方法及系统 |
CN117725185B (zh) * | 2024-02-06 | 2024-05-07 | 河北神玥软件科技股份有限公司 | 智能对话生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111222305B (zh) | 一种信息结构化方法和装置 | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
CN114186061A (zh) | 语句意图预测方法、装置、存储介质及计算机设备 | |
CN110222182B (zh) | 一种语句分类方法及相关设备 | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN111125334A (zh) | 一种基于预训练的搜索问答系统 | |
CN107480143A (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
Chanlekha et al. | Thai named entity extraction by incorporating maximum entropy model with simple heuristic information | |
CN106610951A (zh) | 改进的基于语义分析的文本相似度求解算法 | |
CN110134777B (zh) | 问题去重方法、装置、电子设备和计算机可读存储介质 | |
CN113722483A (zh) | 话题分类方法、装置、设备及存储介质 | |
CN113836938A (zh) | 文本相似度的计算方法及装置、存储介质、电子装置 | |
CN111310467B (zh) | 一种在长文本中结合语义推断的主题提取方法及系统 | |
Gupta | Hybrid algorithm for multilingual summarization of Hindi and Punjabi documents | |
CN115080718A (zh) | 一种文本关键短语的抽取方法、系统、设备及存储介质 | |
CN113743090A (zh) | 一种关键词提取方法及装置 | |
CN111639189B (zh) | 一种基于文本内容特征的文本图构建方法 | |
CN110287284B (zh) | 语义匹配方法、装置及设备 | |
CN108763258B (zh) | 文档主题参数提取方法、产品推荐方法、设备及存储介质 | |
CN111339778A (zh) | 文本处理方法、装置、存储介质和处理器 | |
Marovac et al. | Creating a stop word dictionary in Serbian | |
Mukund et al. | NE tagging for Urdu based on bootstrap POS learning | |
CN115292492A (zh) | 意图分类模型的训练方法、装置、设备及存储介质 | |
CN116432638A (zh) | 一种文本关键词提取方法、装置、电子设备及存储介质 | |
CN114118062A (zh) | 客户特征提取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |