CN115357697A - 数据处理方法、装置、终端设备以及存储介质 - Google Patents

数据处理方法、装置、终端设备以及存储介质 Download PDF

Info

Publication number
CN115357697A
CN115357697A CN202210972210.1A CN202210972210A CN115357697A CN 115357697 A CN115357697 A CN 115357697A CN 202210972210 A CN202210972210 A CN 202210972210A CN 115357697 A CN115357697 A CN 115357697A
Authority
CN
China
Prior art keywords
question
matching
stock
sentence
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210972210.1A
Other languages
English (en)
Inventor
杨一枭
刘弘一
蒲珂宇
贺瑶函
李金龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Merchants Bank Co Ltd
Original Assignee
China Merchants Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Merchants Bank Co Ltd filed Critical China Merchants Bank Co Ltd
Priority to CN202210972210.1A priority Critical patent/CN115357697A/zh
Publication of CN115357697A publication Critical patent/CN115357697A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法、装置、终端设备以及存储介质,其数据处理方法包括:将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句;通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配;若匹配成功,则输出有序匹配结果;若匹配不成功,则进行无序匹配并输出无序匹配结果。本申请解决了传统相似句匹配查询效率和准确率不高的问题,提升问句的匹配效果。

Description

数据处理方法、装置、终端设备以及存储介质
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种数据处理方法、装置、终端设备以及存储介质。
背景技术
随着人工智能的迅猛发展,自然语言处理技术越发成熟,智能客服技术得到了广泛的应用。其中,相似句匹配作为核心的数据处理技术具有非常重要的价值。传统的相似句匹配在问题库建立方面,需要枚举所有可能的描述以建立问题库,这就造成问题库体量过大,查询效率不高的问题。在相似度匹配算法方面,传统匹配方法往往基于预训练模型来训练相似度模型,其准确率依赖用于训练模型的相似句数据,容易存在准确率不高的问题。
因此,针对传统相似句匹配存在的问题,有必要提出一种提升相似句匹配的查询效率和准确率的解决方案。
发明内容
本申请的主要目的在于提供一种数据处理方法、装置、终端设备以及存储介质,旨在解决传统相似句匹配查询效率和准确率不高的问题,提升问句的匹配效果。
为实现上述目的,本申请提供一种数据处理方法,所述数据处理方法包括:
将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句;
通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配;
若匹配成功,则输出有序匹配结果;
若匹配不成功,则进行无序匹配并输出无序匹配结果。
可选地,所述将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句的步骤包括:
基于词典对所述客户问句进行去停用词、同义替换和/或错别字纠正的语义归一化操作,生成所述客户问句的归一化问句,其中,所述词典包括停用词词典、同义词词典和错别字词典中的一种或多种。
可选地,所述通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配的步骤之前,还包括:
建立所述问题库,具体包括:
获取预先采集的存量问句;
将所述存量问句进行数据预处理;
将预处理后的存量问句进行语义归一化,生成所述存量问句的标准句;
将所述存量问句的标准句进行分词,得到标准句的分词结果;
将所述预处理后的存量问句、所述存量问句的标准句和所述标准句的分词结果输入至搜索引擎ES;
通过所述ES按照模糊搜索和精确搜索的形式建立所述问题库。
可选地,所述通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配的步骤包括:
将所述客户问句与所述问题库中的所述存量问句进行模糊匹配,召回符合第一匹配条件的存量问句;
获取与所述符合第一匹配条件的存量问句对应的第一存量问句的标准句;
将所述客户问句的归一化问句与所述第一存量问句的标准句进行精确匹配,召回符合第二匹配条件的第二存量问句的标准句。
可选地,所述若匹配成功,则输出有序匹配结果的步骤包括:
使用所述第二存量问句的标准句进行投票,得到投票的第一票数结果;
将所述第一票数结果与第一预设阈值进行比较;
若所述第一票数结果大于所述第一预设阈值,则有序匹配成功,输出有序匹配结果。
可选地,所述若匹配不成功,则进行无序匹配并输出无序匹配结果的步骤包括:
若所述第一票数结果小于所述第一预设阈值,则有序匹配不成功,进行无序匹配并输出无序匹配结果,具体包括:
将所述客户问句的归一化问句进行分词,得到归一化问句的分词结果;
获取与所述第一存量问句的标准句对应的第一标准句的分词结果;
将所述归一化问句的分词结果与所述第一标准句的分词结果进行精确匹配,召回符合第三匹配条件的第三存量问句的标准句;
使用所述第三存量问句的标准句进行投票,得到投票的第二票数结果;
将所述第二票数结果与第二预设阈值进行比较;
若所述第二票数结果大于所述第二预设阈值,则无序匹配成功,输出无序匹配结果。
可选地,所述将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句的步骤之前,还包括:
将获取到的所述客户问句进行数据预处理,具体包括:
将所述客户问句进行繁简转换、大小写转换和/或去除标点符号,得到符合要求的客户问句。
本申请实施例还提出一种数据处理装置,所述数据处理装置包括:
语义归一化模块,用于将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句;
有序匹配模块,用于通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配;
结果输出模块,用于若匹配成功,则输出有序匹配结果;
无序匹配模块,用于若匹配不成功,则进行无序匹配并输出无序匹配结果。
本申请实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如上所述的数据处理方法的步骤。
本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如上所述的数据处理方法的步骤。
本申请实施例提出的数据处理方法、装置、终端设备以及存储介质,通过将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句;通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配;若匹配成功,则输出有序匹配结果;若匹配不成功,则进行无序匹配并输出无序匹配结果。通过语义归一化结合有序匹配和无序匹配的精确匹配方法,可以提升问题库的查询效率以及相似句匹配的准确率。基于本申请方案,构建了一个基于词典的相似句精确匹配架构,通过运用该架构进行相似句匹配,明显提升了问句的匹配效果。
附图说明
图1为本申请数据处理装置所属终端设备的功能模块示意图;
图2为本申请数据处理方法第一示例性实施例的流程示意图;
图3为本申请数据处理方法第三示例性实施例的流程示意图;
图4为本申请实施例涉及的建立所述问题库的具体流程示意图;
图5为本申请数据处理方法第四示例性实施例的流程示意图;
图6为本申请实施例中若匹配成功,则输出有序匹配结果的具体流程示意图;
图7为本申请实施例中若匹配不成功,则进行无序匹配并输出无序匹配结果的具体流程示意图
图8为本申请数据处理方法第七示例性实施例的流程示意图;
图9为本申请数据处理方法第八示例性实施例的流程示意图;
图10为本申请数据处理方法第九示例性实施例的流程示意图;
图11为本申请数据处理方法第十示例性实施例的整体框架示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例的主要解决方案是:通过获取预先采集的存量问句;将所述存量问句进行数据预处理;将预处理后的存量问句进行语义归一化,生成所述存量问句的标准句;将所述存量问句的标准句进行分词,得到标准句的分词结果;将所述预处理后的存量问句、所述存量问句的标准句和所述标准句的分词结果输入至搜索引擎ES;通过所述ES按照模糊搜索和精确搜索的形式建立所述问题库。在进行相似句匹配时,通过构建好的基于词典的相似句精确匹配架构,将获取到的所述客户问句进行数据预处理;将所述客户问句进行语义归一化,得到所述客户问句的归一化问句;通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配;若匹配成功,则输出有序匹配结果;若匹配不成功,则进行无序匹配并输出无序匹配结果。通过语义归一化结合有序匹配和无序匹配的精确匹配方法,可以提升问题库的查询效率以及相似句匹配的准确率。基于本申请方案,构建了一个基于词典的相似句精确匹配架构,通过运用该架构进行相似句匹配,明显提升了问句的匹配效果。
具体地,参照图1,图1为本申请数据处理装置所属终端设备的功能模块示意图。该数据处理装置可以为独立于终端设备的、能够进行问题库构建、相似句匹配的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动终端,还可以为具有数据处理功能的固定终端设备或服务器等。
在本实施例中,该数据处理装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
存储器130中存储有操作系统以及数据处理程序,数据处理装置可以将获取的预先采集的存量问句,经过数据预处理后的存量问句,进行语义归一化后得到的所述存量问句的标准句,将所述存量问句的标准句进行分词得到的标准句的分词结果,搜索引擎ES,建立的问题库,以及获取的客户问句,经过数据预处理后的客户问句,停用词词典、同义词词典和错别字词典,进行语义归一化后得到的所述客户问句的归一化问句,通过有序匹配所输出的有序匹配结果和通过无序匹配所输出的无序匹配结果等信息存储于该存储器130中;输出模块110可为显示屏等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
其中,存储器130中的数据处理程序被处理器执行时实现以下步骤:
将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句;
通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配;
若匹配成功,则输出有序匹配结果;
若匹配不成功,则进行无序匹配并输出无序匹配结果。
进一步地,存储器130中的数据处理程序被处理器执行时还实现以下步骤:
基于词典对所述客户问句进行去停用词、同义替换和/或错别字纠正的语义归一化操作,生成所述客户问句的归一化问句,其中,所述词典包括停用词词典、同义词词典和错别字词典中的一种或多种。
进一步地,存储器130中的数据处理程序被处理器执行时还实现以下步骤:
建立所述问题库,具体包括:
获取预先采集的存量问句;
将所述存量问句进行数据预处理;
将预处理后的存量问句进行语义归一化,生成所述存量问句的标准句;
将所述存量问句的标准句进行分词,得到标准句的分词结果;
将所述预处理后的存量问句、所述存量问句的标准句和所述标准句的分词结果输入至搜索引擎ES;
通过所述ES按照模糊搜索和精确搜索的形式建立所述问题库。
进一步地,存储器130中的数据处理程序被处理器执行时还实现以下步骤:
将所述客户问句与所述问题库中的所述存量问句进行模糊匹配,召回符合第一匹配条件的存量问句;
获取与所述符合第一匹配条件的存量问句对应的第一存量问句的标准句;
将所述客户问句的归一化问句与所述第一存量问句的标准句进行精确匹配,召回符合第二匹配条件的第二存量问句的标准句。
进一步地,存储器130中的数据处理程序被处理器执行时还实现以下步骤:
使用所述第二存量问句的标准句进行投票,得到投票的第一票数结果;
将所述第一票数结果与第一预设阈值进行比较;
若所述第一票数结果大于所述第一预设阈值,则有序匹配成功,输出有序匹配结果。
进一步地,存储器130中的数据处理程序被处理器执行时还实现以下步骤:
若所述第一票数结果小于所述第一预设阈值,则有序匹配不成功,进行无序匹配并输出无序匹配结果,具体包括:
将所述客户问句和所述客户问句的归一化问句进行分词,分别得到客户问句的分词结果和归一化问句的分词结果;
将所述客户问句的归一化问句进行分词,得到归一化问句的分词结果;
获取与所述第一存量问句的标准句对应的第一标准句的分词结果;
将所述归一化问句的分词结果与所述第一标准句的分词结果进行精确匹配,召回符合第三匹配条件的第三存量问句的标准句;
使用所述第三存量问句的标准句进行投票,得到投票的第二票数结果;
将所述第二票数结果与第二预设阈值进行比较;
若所述第二票数结果大于所述第二预设阈值,则无序匹配成功,输出无序匹配结果。
进一步地,存储器130中的数据处理程序被处理器执行时还实现以下步骤:
将获取到的所述客户问句进行数据预处理,具体包括:
将所述客户问句进行繁简转换、大小写转换和/或去除标点符号,得到符合要求的客户问句。
本实施例通过上述方案,具体通过将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句;通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配;若匹配成功,则输出有序匹配结果;若匹配不成功,则进行无序匹配并输出无序匹配结果。通过语义归一化结合有序匹配和无序匹配的精确匹配方法,可以提升问题库的查询效率以及相似句匹配的准确率。基于本申请方案,构建了一个基于词典的相似句精确匹配架构,通过运用该架构进行相似句匹配,明显提升了问句的匹配效果。
基于上述终端设备架构但不限于上述架构,提出本申请方法实施例。
参照图2,图2为本申请数据处理方法第一示例性实施例的流程示意图。所述数据处理方法包括:
步骤S100,将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句。
具体地,在获取到待匹配的客户问句后,对所述客户问句进行语义归一化处理,得到所述客户问句的归一化问句,其中,所述归一化问句为只保留所需的重要信息的标准式问句。
步骤S200,通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配。
具体地,通过预先建立的问题库对所得到的所述客户问句的归一化问句,按照有序匹配规则进行有序匹配,其中,所述有序匹配规则是一种按照句子的正向和/或反向语序对待匹配的句子进行相似句匹配的规则。
步骤S310,若匹配成功,则输出有序匹配结果。
具体地,通过对所述客户问句的归一化问句进行有序匹配后,若有序匹配成功,则输出所得到的有序匹配结果。
步骤S320,若匹配不成功,则进行无序匹配并输出无序匹配结果。
具体地,当通过对所述客户问句的归一化问句进行有序匹配后没有匹配成功,即没有得到相应的有序匹配结果时,通过所述问题库对所述客户问句的归一化问句,按照无序匹配规则进行无序匹配。通过对所述客户问句的归一化问句进行无序匹配后,输出所得到的无序匹配结果。
本实施例方法的执行主体可以是一种数据处理装置,也可以是一种数据处理终端设备或服务器,本实施例以数据处理装置进行举例,该数据处理装置可以集成在具有数据处理功能的智能手机、个人电脑等终端设备上。
本实施例通过上述方案,具体通过将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句;通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配;若匹配成功,则输出有序匹配结果;若匹配不成功,则进行无序匹配并输出无序匹配结果。通过语义归一化结合有序匹配和无序匹配的精确匹配方法,可以提升问题库的查询效率以及相似句匹配的准确率。
进一步地,基于上述图2所示的实施例,在本实施例中,步骤S100,将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句,可以包括:
基于词典对所述客户问句进行去停用词、同义替换和/或错别字纠正的语义归一化操作,生成所述客户问句的归一化问句,其中,所述词典包括停用词词典、同义词词典和错别字词典中的一种或多种。
具体地,基于词典对所述客户问句进行单词分割,即,将客户问句与词典中的单词进行匹配,把成功匹配的单词分割出来,然后基于所述客户问句分割出来的单词进行去停用词、同义替换和/或错别字纠正的语义归一化操作。其中,所用到的词典包括停用词词典、同义词词典和错别字词典中的一种或多种。然后,将经过语义归一化操作的所述客户问句分割出来的单词按照特定的语序,生成所述客户问句的归一化问句并输出。
本实施例通过上述方案,具体通过基于词典对所述客户问句进行去停用词、同义替换和/或错别字纠正的语义归一化操作,生成所述客户问句的归一化问句,通过语义归一化,可以大大降低问题库体量,提升问题库的查询效率。
参照图3,图3为本申请数据处理方法第三示例性实施例的流程示意图。基于上述实施例,在本实施例中,在步骤S200,通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配之前,还可以包括:
步骤S110,建立所述问题库。本实施例以步骤S110在步骤S100和步骤S200之间实施,在其他实施例中,步骤S110也可以在步骤S100之前实施。
相比上述图2所示的实施例,本实施例还包括建立所述问题库的方案。
具体地,参照图4,图4为本申请实施例涉及的建立所述问题库的具体流程示意图,建立所述问题库的步骤具体可以包括:
步骤S111,获取预先采集的存量问句。
具体地,获取预先采集的存量问句,其中,所述存量问句为预先采集的数量级为百万级的存量问句。
步骤S112,将所述存量问句进行数据预处理。
具体地,将所述百万级存量问句进行数据预处理,比如进行繁简转换、大小写转换以及去除标点符号等,得到符合要求的相对干净的存量问句。
步骤S113,将预处理后的存量问句进行语义归一化,生成所述存量问句的标准句。
具体地,对经过预处理后的存量问句进行去停用词、同义替换和/或错别字纠正等语义归一化处理,将经过语义归一化处理后的存量问句按照特定的语序生成所述存量问句的标准句。
步骤S114,将所述存量问句的标准句进行分词,得到标准句的分词结果。
具体地,将所述存量问句的标准句进行分词,得到与所述存量问句的标准句对应的标准句的分词结果。
步骤S115,将所述预处理后的存量问句、所述存量问句的标准句和所述标准句的分词结果输入至搜索引擎ES。
具体地,将所述预处理后的存量问句、所述存量问句的标准句以及所述标准句的分词结果统一输入至搜索引擎ES中,用以一起建立问题库。
步骤S116,通过所述ES按照模糊搜索和精确搜索的形式建立所述问题库。
具体地,通过所述ES按照模糊搜索和精确搜索两种搜索形式建立所述问题库,用以对应支持在相似句匹配过程中进行的模型匹配和精确匹配两种匹配模式。
之后即可通过建立好的问题库对待匹配的客户问句进行相似句匹配。
本实施例通过上述方案,建立所述问题库,具体通过获取预先采集的存量问句;将所述存量问句进行数据预处理;将预处理后的存量问句进行语义归一化,生成所述存量问句的标准句;将所述存量问句的标准句进行分词,得到标准句的分词结果;将所述预处理后的存量问句、所述存量问句的标准句和所述标准句的分词结果输入至搜索引擎ES;通过所述ES按照模糊搜索和精确搜索的形式建立所述问题库。在通过语义归一化降低问题库体量,提升问题库的查询效率的同时,通过配置模糊搜索和精确搜索两种搜索模式,有效提升了问句的匹配效果。
参照图5,图5为本申请数据处理方法第四示例性实施例的流程示意图。基于上述图3所示的实施例,在本实施例中,步骤S200,通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配,可以包括:
步骤S201,将所述客户问句与所述问题库中的所述存量问句进行模糊匹配,召回符合第一匹配条件的存量问句。
具体地,将获取到的待匹配的客户问句与预先构建好的问题库中的存量问句进行模糊匹配,召回符合预设的模糊匹配条件,即符合第一匹配条件的存量问句。
步骤S202,获取与所述符合第一匹配条件的存量问句对应的第一存量问句的标准句。
具体地,对于召回的符合第一匹配条件的存量问句,通过问题库获取与之相对应的存量问句的标准句,并作为第一存量问句的标准句。
步骤S203,将所述客户问句的归一化问句与所述第一存量问句的标准句进行精确匹配,召回符合第二匹配条件的第二存量问句的标准句。
具体地,将对所述客户问句经过语义归一化后所得到的所述客户问句的归一化问句,与所述第一存量问句的标准句进行精确匹配,召回符合预设的精确匹配条件,即符合第二匹配条件的存量问句的标准句,并作为第二存量问句的标准句。
举个例子,对于待匹配的客户问句1,首先通过客户问句1与问题库中的存量问句进行模糊匹配,召回符合第一匹配条件的n条存量问句;然后通过问题库获取与这n条存量问句相对应的存量问句的标准句,并作为第一存量问句的标准句;随后将客户问句1的归一化问句与第一存量问句的标准句进行精确匹配,召回符合第二匹配条件的m条存量问句的标准句,并作为第二存量问句的标准句。
相比现有技术,本实施例通过上述方案,通过语义归一化后进行有序匹配的方法,可以有效地提升相似句匹配的准确率。
进一步地,参考图6,图6为本申请实施例中若匹配成功,则输出有序匹配结果的具体流程示意图。基于上述图5所示的实施例,在本实施例中,步骤S310,若匹配成功,则输出有序匹配结果,可以包括:
步骤S311,使用所述第二存量问句的标准句进行投票,得到投票的第一票数结果。
具体地,基于投票机制,使用召回的所述第二存量问句的标准句进行投票,得到投票后的票数结果,并作为第一票数结果。
步骤S312,将所述第一票数结果与第一预设阈值进行比较。
具体地,预先设置与第一票数结果相关的阈值,作为第一预设阈值。将得到的所述第一票数结果与所述第一预设阈值进行比较。
步骤S313,若所述第一票数结果大于所述第一预设阈值,则有序匹配成功,输出有序匹配结果。
具体地,通过将得到的所述第一票数结果和第一预设阈值进行比较后,若所述第一票数结果大于所述第一预设阈值,则判定为有序匹配成功,此时将通过有序匹配后精确匹配到的与所述客户问句相似的存量问句的标准句,作为有序匹配结果进行输出。
本实施例通过上述方案,具体通过使用所述第二存量问句的标准句进行投票,得到投票的第一票数结果;将所述第一票数结果与第一预设阈值进行比较;若所述第一票数结果大于所述第一预设阈值,则有序匹配成功,输出有序匹配结果,通过基于预设的票数阈值对有序匹配后的结果进行判定,可以有效提升相似句匹配的准确率。
进一步地,参照图7,图7为本申请实施例中若匹配不成功,则进行无序匹配并输出无序匹配结果的具体流程示意图。基于上述图6所示的实施例,在本实施例中,步骤S320,若匹配不成功,则进行无序匹配并输出无序匹配结果,可以包括:
若所述第一票数结果小于所述第一预设阈值,则有序匹配不成功,进行无序匹配并输出无序匹配结果。
具体地,通过将得到的所述第一票数结果和第一预设阈值进行比较后,若所述第一票数结果小于所述第一阈值阈值,则判定为有序匹配不成功,此时将按照无序匹配规则进行无序匹配,并输出得到的无序匹配结果。
进一步地,若所述第一票数结果小于所述第一预设阈值,则有序匹配不成功,进行无序匹配并输出无序匹配结果的步骤,具体可以包括:
步骤S321,将所述客户问句的归一化问句进行分词,得到归一化问句的分词结果。
具体地,当通过对所述客户问句的归一化问句进行有序匹配后没有匹配成功,即没有得到相应的有序匹配结果时,将所述客户问句的归一化问句进行分词,得到相应的归一化问句的分词结果。
步骤S322,获取与所述第一存量问句的标准句对应的第一标准句的分词结果。
具体地,对于步骤S202所得到的第一存量问句的标准句,即通过所述客户问句与所述问题库中的所述存量问句进行模糊匹配后,获取到的与所述符合第一匹配条件的存量问句所对应的第一存量问句的标准句,通过问题库获取与所述第一存量问句的标准句对应的标准句的分词结果,并作为第一标准句的分词结果。
步骤S323,将所述归一化问句的分词结果与所述第一标准句的分词结果进行精确匹配,召回符合第三匹配条件的第三存量问句的标准句。
具体地,将所述归一化问句的分词结果与所述第一标准句的分词结果进行精确匹配,召回符合预设的精确匹配条件,即符合第三匹配条件的存量问句的标准句,并作为第三存量问句的标准句。
举个例子,对于待匹配的客户问句2,先对客户问句2进行有序匹配。在对客户问句2进行有序匹配后没有匹配成功,即没有输出有序匹配结果时,首先对客户问句2的归一化问句进行分词,得到归一化问句的分词结果;然后基于在对客户问句2进行有序匹配的过程中所得到的第一存量问句的标准句,通过问题库获取与之对应的标准句的分词结果,并作为第一标准句的分词结果;随后将客户问句2的归一化问句的分词结果与第一标准句的分词结果进行精确匹配,召回符合第三匹配条件的存量问句的标准句,并作为第三存量问句的标准句。
步骤S324,使用所述第三存量问句的标准句进行投票,得到投票的第二票数结果。
具体地,基于投票机制,使用召回的所述第三存量问句的标准句进行投票,得到投票后的票数结果,并作为第二票数结果。
步骤S325,将所述第二票数结果与第二预设阈值进行比较。
具体地,预先设置与第二票数结果相关的阈值,作为第二预设阈值。将得到的所述第二票数结果与所述第二预设阈值进行比较。
步骤S326,若所述第二票数结果大于所述第二预设阈值,则无序匹配成功,输出无序匹配结果。
具体地,通过将得到的所述第二票数结果和第二预设阈值进行比较后,若所述第二票数结果大于所述第二预设阈值,则判定为无序匹配成功,此时将通过无序匹配后精确匹配到的与所述客户问句相似的存量问句的标准句,作为无序匹配结果进行输出。
本实施例通过上述方案,具体通过获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句;通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配;若匹配成功,则输出有序匹配结果;若匹配不成功,则进行无序匹配并输出无序匹配结果。通过语义归一化结合有序匹配和无序匹配的精确匹配方法,可以提升问题库的查询效率以及相似句匹配的准确率。
参照图8,图8为本申请数据处理方法第七示例性实施例的流程示意图。基于上述图7所示的实施例,在本实施例中,在步骤S100,将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句之前,还可以包括:
步骤S010,将获取到的所述客户问句进行数据预处理。
具体地,首先获取所述客户问句,然后对获取到的所述客户问句进行预处理。在对所述客户问句进行预处理后,对所述预处理后的客户问句进行语义归一化,得到所述客户问句的归一化问句;建立所述问题库;通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配,输出有序匹配结果;若进行有序匹配后没有匹配成功,则进行无序匹配并输出无序匹配结果。
在本实施例中,步骤S010,将获取到的所述客户问句进行数据预处理可以包括:将所述客户问句进行繁简转换、大小写转换和/或去除标点符号,得到符合要求的客户问句。
本实施例方案,通过将所述客户问句进行繁简转换、大小写转换和/或去除标点符号,得到符合要求的相对干净的客户问句,可以有效提升相似句匹配的准确率。
进一步地,参照图9,图9为本申请数据处理方法第八示例性实施例的流程示意图。在本实施例方案中,构建了一个基于词典的相似句精确匹配架构,并通过该架构实现所述数据处理方法,具体可以包括:
数据预处理:用于将获取到的客户问句和/或存量问句进行数据预处理,包括进行繁简转换、大小写转换以及去除标点符号等,形成符合要求的相对干净的客户问句和/或存量问句。
语义归一化:用于将预处理后的客户问句和/或存量问句,基于停用词词典、同义词词典和错别字词典中的一种或多种进行去停用词、同义替换和/或错别字纠正的语义归一化处理,归一化成只保留重要信息的标准式问句,如客户问句的归一化问句、存量问句的标准句。
问题库建立:用于将预处理后的存量问句、存量问句的标准句以及标准句的分词结果统一输入至ES,按照模糊搜索和精确搜索的形式建立所述问题库。
精确匹配层:用于将获取到的待匹配的客户问句进行相似句匹配,其中,精确匹配层的组成包括有序匹配和无序匹配。所述有序匹配用于通过预先建立的问题库对所得到的所述客户问句的归一化问句,按照有序匹配规则进行有序匹配;所述无序匹配用于当通过对所述客户问句的归一化问句进行有序匹配后没有匹配成功时,通过所述问题库对所述客户问句的归一化问句,按照无序匹配规则进行无序匹配。
本实施例通过上述方案,构建了一个基于词典的相似句精确匹配架构,并通过该架构实现所述数据处理方法,具体通过该架构实现将获取到的客户问句进行数据预处理;对经过预处理后的客户问句进行语义归一化,得到所述客户问句的归一化问句;通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配;若匹配成功,则输出有序匹配结果;若匹配不成功,则进行无序匹配并输出无序匹配结果。基于词典的相似句精确匹配架构包含数据预处理、语义归一化、问题库建立和精确匹配层等模块,实现了模块功能解耦,安全稳定易于维护。基于本申请方案,构建了一个基于词典的相似句精确匹配架构,通过运用该架构进行相似句匹配,明显提升了问句的匹配效果。
进一步地,参照图10,图10为数据处理方法第九示例性实施例的流程示意图。在本实施例中,在步骤S320,若匹配不成功,则进行无序匹配并输出无序匹配结果之后,还可以包括:
步骤S400,若进行无序匹配后匹配不成功,则进行相似度模型召回。
具体地,本实施例中,在通过对所述客户问句的归一化问句进行有序匹配后没有匹配成功,即没有得到相应的有序匹配结果,且通过对所述客户问句的归一化问句进行分词,基于分词后所得到的归一化问句的分词结果进行无序匹配仍没有匹配成功后,则将所述客户问句输入至预先训练好的相似度模型中进行相似句召回。
本实施例通过上述方案,具体通过将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句;通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配;若匹配成功,则输出有序匹配结果;若匹配不成功,则进行无序匹配并输出无序匹配结果;若进行无序匹配后匹配不成功,则进行相似度模型召回。通过预先构建的相似度模型,对经过有序匹配和无序匹配后没有实现匹配成功的客户问句进行相似度模型召回,有效地提升了问句的匹配效果。
如图11所示,图11是本申请数据处理方法第十示例性实施例的整体框架示意图。在本实施例中,所述数据处理方法的整体流程包括:
首先,获取预先采集的存量问句;将所述存量问句进行数据预处理;将预处理后的存量问句进行语义归一化,生成所述存量问句的标准句;将所述存量问句的标准句进行分词,得到标准句的分词结果;将所述预处理后的存量问句、所述存量问句的标准句和所述标准句的分词结果输入至搜索引擎ES;通过所述ES按照模糊搜索和精确搜索的形式建立所述问题库。
然后,在进行相似句匹配时,通过构建好的基于词典的相似句精确匹配架构,将获取到的所述客户问句进行数据预处理;将所述客户问句进行语义归一化,得到所述客户问句的归一化问句;通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配;若匹配成功,则输出有序匹配结果;若匹配不成功,则进行无序匹配并输出无序匹配结果。
最后,若进行无序匹配后匹配不成功,则将所述客户问句输入至预先训练好的相似度模型中,进行相似度模型召回,得到模型输出的匹配结果。
本实施例通过上述方案,具体通过将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句;通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配;若匹配成功,则输出有序匹配结果;若匹配不成功,则进行无序匹配并输出无序匹配结果。通过语义归一化结合有序匹配和无序匹配的精确匹配方法,可以提升问题库的查询效率以及相似句匹配的准确率。基于本申请方案,构建了一个基于词典的相似句精确匹配架构,通过运用该架构进行相似句匹配,明显提升了问句的匹配效果。
此外,本申请实施例还提出一种数据处理装置,所述数据处理装置包括:
语义归一化模块,用于将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句;
有序匹配模块,用于通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配;
结果输出模块,用于若匹配成功,则输出有序匹配结果;
无序匹配模块,用于若匹配不成功,则进行无序匹配并输出无序匹配结果。
本实施例实现数据处理的原理及实施过程,请参照上述各实施例,在此不再一一赘述。
此外,本申请实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如上所述的数据处理方法的步骤。
由于本数据处理程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如上所述的数据处理方法的步骤。
由于本数据处理程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
相比现有技术,本申请实施例提出的数据处理方法、装置、终端设备以及存储介质,通过将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句;通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配;若匹配成功,则输出有序匹配结果;若匹配不成功,则进行无序匹配并输出无序匹配结果。通过语义归一化结合有序匹配和无序匹配的精确匹配方法,可以提升问题库的查询效率以及相似句匹配的准确率。基于本申请方案,构建了一个基于词典的相似句精确匹配架构,通过运用该架构进行相似句匹配,明显提升了问句的匹配效果。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本申请每个实施例的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种数据处理方法,其特征在于,所述数据处理方法包括:
将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句;
通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配;
若匹配成功,则输出有序匹配结果;
若匹配不成功,则进行无序匹配并输出无序匹配结果。
2.根据权利要求1所述的数据处理方法,其特征在于,所述将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句的步骤包括:
基于词典对所述客户问句进行去停用词、同义替换和/或错别字纠正的语义归一化操作,生成所述客户问句的归一化问句,其中,所述词典包括停用词词典、同义词词典和错别字词典中的一种或多种。
3.根据权利要求2所述的数据处理方法,其特征在于,所述通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配的步骤之前,还包括:
建立所述问题库,具体包括:
获取预先采集的存量问句;
将所述存量问句进行数据预处理;
将预处理后的存量问句进行语义归一化,生成所述存量问句的标准句;
将所述存量问句的标准句进行分词,得到标准句的分词结果;
将所述预处理后的存量问句、所述存量问句的标准句和所述标准句的分词结果输入至搜索引擎ES;
通过所述ES按照模糊搜索和精确搜索的形式建立所述问题库。
4.根据权利要求3所述的数据处理方法,其特征在于,所述通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配的步骤包括:
将所述客户问句与所述问题库中的所述存量问句进行模糊匹配,召回符合第一匹配条件的存量问句;
获取与所述符合第一匹配条件的存量问句对应的第一存量问句的标准句;
将所述客户问句的归一化问句与所述第一存量问句的标准句进行精确匹配,召回符合第二匹配条件的第二存量问句的标准句。
5.根据权利要求4所述的数据处理方法,其特征在于,所述若匹配成功,则输出有序匹配结果的步骤包括:
使用所述第二存量问句的标准句进行投票,得到投票的第一票数结果;
将所述第一票数结果与第一预设阈值进行比较;
若所述第一票数结果大于所述第一预设阈值,则有序匹配成功,输出有序匹配结果。
6.根据权利要求5所述的数据处理方法,其特征在于,所述若匹配不成功,则进行无序匹配并输出无序匹配结果的步骤包括:
若所述第一票数结果小于所述第一预设阈值,则有序匹配不成功,进行无序匹配并输出无序匹配结果,具体包括:
将所述客户问句的归一化问句进行分词,得到归一化问句的分词结果;
获取与所述第一存量问句的标准句对应的第一标准句的分词结果;
将所述归一化问句的分词结果与所述第一标准句的分词结果进行精确匹配,召回符合第三匹配条件的第三存量问句的标准句;
使用所述第三存量问句的标准句进行投票,得到投票的第二票数结果;
将所述第二票数结果与第二预设阈值进行比较;
若所述第二票数结果大于所述第二预设阈值,则无序匹配成功,输出无序匹配结果。
7.根据权利要求6所述的数据处理方法,其特征在于,所述将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句的步骤之前,还包括:
将获取到的所述客户问句进行数据预处理,具体包括:
将所述客户问句进行繁简转换、大小写转换和/或去除标点符号,得到符合要求的客户问句。
8.一种数据处理装置,其特征在于,所述数据处理装置包括:
语义归一化模块,用于将获取到的客户问句进行语义归一化,得到所述客户问句的归一化问句;
有序匹配模块,用于通过预先建立的问题库对所述客户问句的归一化问句进行有序匹配;
结果输出模块,用于若匹配成功,则输出有序匹配结果;
无序匹配模块,用于若匹配不成功,则进行无序匹配并输出无序匹配结果。
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据处理程序,所述数据处理程序被所述处理器执行时实现如权利要求1-7中任一项所述的数据处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有数据处理程序,所述数据处理程序被处理器执行时实现如权利要求1-7中任一项所述的数据处理方法的步骤。
CN202210972210.1A 2022-08-12 2022-08-12 数据处理方法、装置、终端设备以及存储介质 Pending CN115357697A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210972210.1A CN115357697A (zh) 2022-08-12 2022-08-12 数据处理方法、装置、终端设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210972210.1A CN115357697A (zh) 2022-08-12 2022-08-12 数据处理方法、装置、终端设备以及存储介质

Publications (1)

Publication Number Publication Date
CN115357697A true CN115357697A (zh) 2022-11-18

Family

ID=84032852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210972210.1A Pending CN115357697A (zh) 2022-08-12 2022-08-12 数据处理方法、装置、终端设备以及存储介质

Country Status (1)

Country Link
CN (1) CN115357697A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757203A (zh) * 2023-08-16 2023-09-15 杭州北冥星火科技有限公司 一种自然语言匹配方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757203A (zh) * 2023-08-16 2023-09-15 杭州北冥星火科技有限公司 一种自然语言匹配方法、装置、计算机设备及存储介质
CN116757203B (zh) * 2023-08-16 2023-11-10 杭州北冥星火科技有限公司 一种自然语言匹配方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US20210232761A1 (en) Methods and systems for improving machine learning performance
US20190073416A1 (en) Method and device for processing question clustering in automatic question and answering system
CN110765759B (zh) 意图识别方法及装置
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
WO2023040493A1 (zh) 事件检测
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN115827819A (zh) 一种智能问答处理方法、装置、电子设备及存储介质
US20220229994A1 (en) Operational modeling and optimization system for a natural language understanding (nlu) framework
US20220238103A1 (en) Domain-aware vector encoding (dave) system for a natural language understanding (nlu) framework
CN115357697A (zh) 数据处理方法、装置、终端设备以及存储介质
CN117349275B (zh) 一种基于大语言模型的文本结构化方法和系统
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN113626704A (zh) 基于word2vec模型的推荐信息方法、装置及设备
US20230351121A1 (en) Method and system for generating conversation flows
CN111597302B (zh) 文本事件的获取方法、装置、电子设备及存储介质
CN113360654A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN110633468B (zh) 一种关于对象特征提取的信息处理方法及装置
CN117278675A (zh) 一种基于意图分类的外呼方法、装置、设备及介质
CN112541070A (zh) 槽位更新语料的挖掘方法、装置、电子设备和存储介质
US20220229986A1 (en) System and method for compiling and using taxonomy lookup sources in a natural language understanding (nlu) framework
CN114896141A (zh) 测试用例的去重方法、装置、设备及计算机可读存储介质
CN113868389A (zh) 基于自然语言文本的数据查询方法、装置及计算机设备
CN113095073A (zh) 语料标签生成方法、装置、计算机设备和存储介质
KR20220074576A (ko) 마케팅 지식 그래프 구축을 위한 딥러닝 기반 신조어 추출 방법 및 그 장치
CN113283218A (zh) 一种语义文本压缩方法及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination