CN115879458A - 一种语料扩充方法、装置及存储介质 - Google Patents
一种语料扩充方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115879458A CN115879458A CN202210369672.4A CN202210369672A CN115879458A CN 115879458 A CN115879458 A CN 115879458A CN 202210369672 A CN202210369672 A CN 202210369672A CN 115879458 A CN115879458 A CN 115879458A
- Authority
- CN
- China
- Prior art keywords
- similarity
- participle
- word segmentation
- target keyword
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 230000011218 segmentation Effects 0.000 claims abstract description 126
- 238000012216 screening Methods 0.000 claims abstract description 32
- 238000012545 processing Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000012546 transfer Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000009960 carding Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种语料扩充方法、装置及存储介质,所述方法包括:获取基于目标标准语句的意图提取出的目标关键词;获取历史对话数据,并进行分词,以获取分词结果;计算目标关键词和分词结果中的任一分词的多维度综合相似度;根据多维度综合相似度从分词结果中筛选出候选分词;利用候选分词替换目标标准语句中的目标关键词,以进行语料扩充。本发明通过多种相似度算法相结合从而确定目标关键词和分词结果中的任一分词的多维度综合相似度,能够筛选出口语化和含错别字等类型的词汇,同时也会避免拼音相同但语义无关的候选分词,通过多种方法进行互补,能够实现高效准确地扩充语料,能够在大力节省人工成本和时间的同时,提高语料扩充的效率。
Description
技术领域
本发明涉及信息处理技术领域,并且更具体地,涉及一种语料扩充方法、装置及存储介质。
背景技术
对于现有的各种智能问答系统,意图识别、实体识别等是其中重要的环节。这些功能的实现,需要从大量的历史对话数据中梳理出标准语句,作为训练语料。当所梳理的语料不足以用于训练时,还需要由业务人员结合工作经验进行人工扩充。另外,因用户在进行文字输入时,可能会产生错别字、词,而此类训练语料的不足,将导致识别的泛化能力较差。
现有技术一通过计算词库中所有候选词与目标关键词之间的余弦相似度,即文本相似度;依据语义相似度大小筛选出近义词,并利用近义词替换原标准语句中的关键词,得到扩充语句;现有技术一的缺点为:对历史对话中有效语句的占比十分依赖,否则会存在筛选出的大量无意义词汇;含有错别字的近义词,在向量空间上无法与目标关键词建立有效联系,导致筛选出的近义词不足。
现有技术二基于拼音相似度进行语料扩充,将分词转换为语音,根据语音相似度筛选出近音词,并利用近音词替换原标准语句中的关键词;现有技术二的缺点在于拼音相似度很高的两个词可能在语义上与目标关键词毫无关联,从而导致出现扩充出大量冗余语料的问题。
因此,需要一种语料扩充的方法。
发明内容
本发明要解决的问题包括如何确定历史对话数据对应的分词结果中每个分词的相似度,并基于所述相似度进行语料扩充的问题。
为了解决上述技术问题,提出了本发明。本发明的实施例提供了一种语料扩充方法、装置及存储介质。
根据本发明实施例的一个方面,提供了一种语料扩充方法,所述方法包括:
获取基于目标标准语句的意图提取出的目标关键词;
获取历史对话数据,并对所述历史对话数据中的语句进行分词,以获取分词结果;
计算所述目标关键词和所述分词结果中的任一分词的多维度综合相似度;
根据所述多维度综合相似度从所述分词结果中筛选出候选分词;
利用所述候选分词替换所述目标标准语句中的目标关键词,以进行语料扩充。
可选地,其中所述对所述历史对话数据中的语句进行分词,以获取分词结果,包括:
对于所述历史对话数据中的任一语句,采用基于预设字典进行正向最大匹配分词或反向最大匹配分词的方式进行分词,或者采用N-Gram模型进行分词,以获取分词结果。
可选地,其中所述计算所述目标关键词和所述分词结果中的任一分词的多维度综合相似度,包括:
计算所述目标关键词和所述分词结果中的任一分词对应的语义相似度、拼音相似度和字形相似度中的至少两种相似度;
根据所述至少两种相似度以及对应的权重,计算所述任一分词的多维度综合相似度。
可选地,其中所述方法利用如下方式确定所述目标关键词和所述分词结果中的任一分词对应的字形相似度,包括:
将所述目标关键词和所述分词结果中的任一分词转换为图片类型,并利用文本识别技术转换为图像量,获取每个字符对应的图像量;
计算所述目标关键词中的任一个字符对应的图像量和所述分词结果中的任一分词中的任一个字符对应的图像量间的余弦相似度;
根据所述余弦相似度计算所述目标关键词和所述分词结果中的任一分词的字形相似度。
可选地,其中所述根据所述余弦相似度计算所述目标关键词和所述分词结果中的任一分词的字形相似度,包括:
对于任一分词结果,计算该任一分词对应的大于预设余弦相似度阈值的余弦相似度之和,以获取第一数值;并计算所述第一数值与该任一分词对应的所有余弦相似度之和的比值,以获取所述目标关键词和所述任一分词的字形相似度。
可选地,其中所述方法还包括:
在确定字形相似度时,按照预设字体格式对所述目标关键词和所述任一分词进行格式转换,以对所述目标关键词和所述任一分词进行格式统一。
可选地,其中所述根据所述多维度综合相似度从所述分词结果中筛选出候选分词,包括:
利用所述多维度综合相似度对所述分词结果中的分词进行排序,并根据预设相似度阈值对所述分词结果中的分词进行筛选,以获取候选分词。
根据本发明实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上所述的方法。
根据本发明实施例的又一个方面,提供了一种语料扩充装置,所述装置包括:
目标关键词获取模块,用于获取基于目标标准语句的意图提取出的目标关键词;
分词模块,用于获取历史对话数据,并对所述历史对话数据中的语句进行分词,以获取分词结果;
相似度计算模块,用于计算所述目标关键词和所述分词结果中的任一分词的多维度综合相似度;
候选分词筛选模块,用于根据所述多维度综合相似度从所述分词结果中筛选出候选分词;
语料扩充模块,用于利用所述候选分词替换所述目标标准语句中的目标关键词,以进行语料扩充。
根据本发明实施例的又一个方面,提供了一种语料扩充装置,所述装置包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取基于目标标准语句的意图提取出的目标关键词;
获取历史对话数据,并对所述历史对话数据中的语句进行分词,以获取分词结果;
计算所述目标关键词和所述分词结果中的任一分词的多维度综合相似度;
根据所述多维度综合相似度从所述分词结果中筛选出候选分词;
利用所述候选分词替换所述目标标准语句中的目标关键词,以进行语料扩充。
本发明实施例提供了一种语料扩充方法、装置及存储介质,通过获取基于目标标准语句的意图提取出的目标关键词;获取历史对话数据,并对所述历史对话数据中的语句进行分词,以获取分词结果;计算所述目标关键词和所述分词结果中的任一分词的多维度综合相似度;根据所述多维度综合相似度从所述分词结果中筛选出候选分词;利用所述候选分词替换所述目标标准语句中的目标关键词,以进行语料扩充。本发明通过多种相似度算法相结合从而确定目标关键词和所述分词结果中的任一分词的多维度综合相似度,能够筛选出口语化和含错别字等类型的词汇,同时也会避免拼音相同但语义无关的候选分词,通过多种方法进行互补,能够实现高效准确地扩充语料,能够在大力节省人工成本和时间的同时,提高语料扩充的效率。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1是用于实现根据本发明实施例1所述的方法的计算机终端(或移动设备)的硬件结构框图;
图2是根据本发明实施例1的第一个方面所述的语料扩充方法200的流程图;
图3是根据本发明实施例2所述的语料扩充方法的流程图;
图4是根据本发明实施例3所述的语料扩充装置400的结构示意图;
图5是根据本发明实施例4所述的语料扩充装置500的结构示意图。
具体实施方式
下面,将参考附图详细地描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
本领域技术人员可以理解,本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本发明实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本发明实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本发明中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本发明中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本发明对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
实施例1
根据本实施例,提供了一种语料扩充方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现语料扩充方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于GPU、微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本发明实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的语料扩充方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的语料扩充方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在上述运行环境下,根据本实施例的第一个方面,提供了一种语料扩充方法。图2示出了该方法的流程示意图,参考图2所示,该方法包括:
步骤201,获取基于目标标准语句的意图提取出的目标关键词。
在本发明的实施例中,标准语句是语料扩展的基础,而标准语句是从获取的历史对话数据中通过分析获取的相对标准的语句。结合历史对话语料库,通过人工梳理方式梳理出若干意图和对应的标准语句,然后通过人工标注的方式根据意图从标准语句中提取与意图对应的目标关键词即可。其中,历史对话数据可以不同渠道的客户系统或通过其他方式获取。
在本发明的实施例中,在进行语料扩充时,将选取的某个标准语句作为目标标准语句,并根据目标标准语句进行语料扩充。例如,对于某意图识别任务,从银行客服系统的历史对话语料中梳理出意图为转账的目标标准语句“我想转账”,再根据意图即可提取出目标关键词“转账”。
步骤202,获取历史对话数据,并对所述历史对话数据中的语句进行分词,以获取分词结果。
可选地,其中所述对所述历史对话数据中的语句进行分词,以获取分词结果,包括:
对于所述历史对话数据中的任一语句,采用基于预设字典进行正向最大匹配分词或反向最大匹配分词的方式进行分词,或者采用N-Gram模型进行分词,以获取分词结果。在本发明的实施例中,对历史对话数据进行分词,确定分词结果,得到词库和词向量。其中,可以采用正向最大匹配分词或反向最大匹配分词的方式进行分词,或者采用N-Gram模型进行分词,以获取分词结果。
在一个具体示例中,基于预设字典进行正向最大匹配分词或反向最大匹配分词的方式进行分词时,字典采用字典树的方法进行保存,每个词在字典树里保存预设数目个字节的信息,所述信息包括词的词频、语法和语义分析结果。例如“股票”的语义分析结果为金融词汇,这样可以一次性进行分词和文本分析。采用字典树方式保存信息可以利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率高。
此外,在一个具体示例中,所述语法包括词的词类,以及每个词类对应的前一个词类和后一个词类,所述词类包括名词、代词、数量词、副词、形容词、动词、介词、连词、语气词和象声词。根据字典中保存的语法判断两种匹配的语法是否正确,输出语法正确的匹配结果,解决现有分词结果准确率低问题。
N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,可以实现到汉字的自动转换。n-gram分词:以n为滑动窗口,逐次从字符串中取出n个字符,滑动一位字符后继续,直至至该字符串末尾。
步骤203,计算所述目标关键词和所述分词结果中的任一分词的多维度综合相似度。
可选地,其中所述计算所述目标关键词和所述分词结果中的任一分词的多维度综合相似度,包括:
计算所述目标关键词和所述分词结果中的任一分词对应的语义相似度、拼音相似度和字形相似度中的至少两种相似度;
根据所述至少两种相似度以及对应的权重,计算所述任一分词的多维度综合相似度。
可选地,其中所述方法利用如下方式确定所述目标关键词和所述分词结果中的任一分词对应的字形相似度,包括:
将所述目标关键词和所述分词结果中的任一分词转换为图片类型,并利用文本识别技术转换为图像量,获取每个字符对应的图像量;
计算所述目标关键词中的任一个字符对应的图像量和所述分词结果中的任一分词中的任一个字符对应的图像量间的余弦相似度;
根据所述余弦相似度计算所述目标关键词和所述分词结果中的任一分词的字形相似度。
可选地,其中所述根据所述余弦相似度计算所述目标关键词和所述分词结果中的任一分词的字形相似度,包括:
对于任一分词结果,计算该任一分词对应的大于预设余弦相似度阈值的余弦相似度之和,以获取第一数值;并计算所述第一数值与该任一分词对应的所有余弦相似度之和的比值,以获取所述目标关键词和所述任一分词的字形相似度。
可选地,其中所述方法还包括:
在确定字形相似度时,按照预设字体格式对所述目标关键词和所述任一分词进行格式转换,以对所述目标关键词和所述任一分词进行格式统一。
在本发明的实施例中,将目标关键词与分词结果中的每个词语进行两两组合,得到多个联合词组,并分别对任一个联合词组中的两个词进行语义相似度、拼音相似度和字形相似度中至少两种相似度的计算,再根据每种相似度对应的权重进行加权求和,以确定任一联合词组目标关键词与任一分词的多维度综合相似度。
具体地,逐个取出分词结果的词语,与关键词(例如“转账”)分别进行语义相似度、拼音相似度和字形相似度计算,并将三种相似度进行加权求和,得到每个词语与关键词的多维度综合相似度。其中,权重可以用“专家法”进行人为设定,也可以通过人工标注、机器学习训练的方式自动生成。
在本发明的实施例中,为了保证字形相似度计算的准确性,在确定字形相似度时,首先,按照预设字体格式对所述目标关键词和所述任一分词进行格式转换,以对所述目标关键词和所述任一分词进行格式统一。例如,根据预设字体格式调整两个词的大小和字体一致。
然后,对于任一个分词,将所述目标关键词和所述任一分词转换为图片类型,并利用OCR文本识别技术转换为图像量,获取每个字符对应的图像量。
然后,计算所述目标关键词中的任一个字符对应的图像量和任一分词中的任一个字符对应的图像量间的余弦相似度。
最后,根据所述余弦相似度计算所述目标关键词和所述分词结果中的任一分词的字形相似度,包括:计算该任一分词对应的大于预设余弦相似度阈值的余弦相似度之和,以获取第一数值;并计算所述第一数值与该任一分词对应的所有余弦相似度之和的比值,以获取所述目标关键词和所述任一分词的字形相似度。
例如,在获取每个字符对应的图像量的前提下,读取目标关键词和任一个分词的字符串S1和S2;计算S1中第i个字符Wi与S2中第j个字符Wj的图像量间的余弦相似度Cij;根据(Cij≥预设余弦相似度阈值的数据之和)/(所有Cij的累加和)计算目标关键词和任一个分词的的字形相似度。
本发明的实施例通过多种维度相似度的组合,可以更加准确地确定两个词之间的相似度,以准确地筛选区候选分词。
步骤204,根据所述多维度综合相似度从所述分词结果中筛选出候选分词。
可选地,其中所述根据所述多维度综合相似度从所述分词结果中筛选出候选分词,包括:
利用所述多维度综合相似度对所述分词结果中的分词进行排序,并根据预设相似度阈值对所述分词结果中的分词进行筛选,以获取候选分词。
在本发明的实施例中,根据所述多维度综合相似度进行分词的排序,并选取相似度大于预设相似度阈值的分词为候选分词。其中,预设相似度阈值可以用“专家法”进行人为设定,也可以通过人工标注、机器学习训练的方式自动生成。
例如,利用多维度综合相似度,以及预设阈值,筛选出与关键词“转账”对应的候选分词,为“转站”、“转个账”、“转帐”和“传账”等。
步骤205,利用所述候选分词替换所述目标标准语句中的目标关键词,以进行语料扩充。
在本发明的实施例中,利用候选分词替换目标标准语句中的目标关键词,即可得到若干扩充语句,实现语料扩充。
例如,对目标标准语句“我想转账”中的“转账”进行替换,即可得到扩充语句,例如“我想转站”、“我想转个账”、“我想转帐”和“我想传账”等。
本发明实施例的方法针对人工所筛选的标准语句中的关键词,从语义、拼音和字形等角度生成相近词汇进行替换,从而增加实体识别或意图识别的训练语料,提升其泛化能力和识别准确性。
正如前面背景技术中所述的,现有技术一通过计算词库中所有候选词与目标关键词之间的余弦相似度,即文本相似度;依据语义相似度大小筛选出近义词,并利用近义词替换原标准语句中的关键词,得到扩充语句;现有技术一的缺点为:对历史对话中有效语句的占比十分依赖,否则会存在筛选出的大量无意义词汇;含有错别字的近义词,在向量空间上无法与与目标关键词建立有效联系,导致筛选出的近义词不足。现有技术二基于拼音相似度进行语料扩充,将分词转换为语音,根据语音相似度筛选出近音词,并利用近音词替换原标准语句中的关键词;现有技术二的缺点在于拼音相似度很高的两个词可能在语义上与目标关键词毫无关联,从而导致出现扩充出大量冗余语料的问题。
针对上述背景技术中存在的问题,本实施例通过获取基于目标标准语句的意图提取出的目标关键词;获取历史对话数据,并对所述历史对话数据中的语句进行分词,以获取分词结果;计算所述目标关键词和所述分词结果中的任一分词的多维度综合相似度;根据所述多维度综合相似度从所述分词结果中筛选出候选分词;利用所述候选分词替换所述目标标准语句中的目标关键词,以进行语料扩充。
从而,通过这种方式,可以筛选出口语化和含错别字等类型的词汇,同时也会避免拼音相同但语义无关的候选分词,通过多种方法进行互补,能够实现高效准确地扩充语料,能够在大力节省人工成本和时间的同时,提高语料扩充的效率。
此外,参考图1所示,根据本实施例的第二个方面,提供了一种存储介质104。存储介质104包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
图3是根据本发明实施例2所述的语料扩充方法的流程图。如图3所示,进行语料扩充的步骤包括:
S1,标准句筛选:从历史对话数据中筛选出标准语句;
S2,关键词标注:提取出标准句中关键词;
S3,分词/词向量:将所有历史对话数据进行分词,得到词库及其词向量;
S4,词组组合:将关键词与词库中的词语进行两两组合,得到多个联合词组;
S5,相似度计算:将联合词组分别进行语义相似度、拼音相似度和字形相似度计算;
S6,综合相似度计算:将语义、拼音和字形的相似度计算结果进行加权求和,得到综合相似度;
S7,候选词筛选:利用综合相似度数值对联合词组进行排序,结合预设的阈值筛选候选词;
S8,扩充语句:利用候选词将标准语句中的关键词进行替换,得到若干扩充语句。
实施例3
图4示出了根据本实施例所述的语料扩充装置400,该装置400与根据实施例1的第一个方面所述的方法相对应。参考图4所示,该装置400包括:
目标关键词获取模块401,用于获取基于目标标准语句的意图提取出的目标关键词;
分词模块402,用于获取历史对话数据,并对所述历史对话数据中的语句进行分词,以获取分词结果;
相似度计算模块403,用于计算所述目标关键词和所述分词结果中的任一分词的多维度综合相似度。
候选分词筛选模块404,用于根据所述多维度综合相似度从所述分词结果中筛选出候选分词。
语料扩充模块405,用于利用所述候选分词替换所述目标标准语句中的目标关键词,以进行语料扩充。
可选地,其中所述分词模块402,对所述历史对话数据中的语句进行分词,以获取分词结果,包括:
对于所述历史对话数据中的任一语句,采用基于预设字典进行正向最大匹配分词或反向最大匹配分词的方式进行分词,或者采用N-Gram模型进行分词,以获取分词结果。
可选地,其中所述相似度计算模块403,计算所述目标关键词和所述分词结果中的任一分词的多维度综合相似度,包括:
计算所述目标关键词和所述分词结果中的任一分词对应的语义相似度、拼音相似度和字形相似度中的至少两种相似度;
根据所述至少两种相似度以及对应的权重,计算所述任一分词的多维度综合相似度。
可选地,其中所述相似度计算模块403,利用如下方式确定所述目标关键词和所述分词结果中的任一分词对应的字形相似度,包括:
将所述目标关键词和所述分词结果中的任一分词转换为图片类型,并利用文本识别技术转换为图像量,获取每个字符对应的图像量;
计算所述目标关键词中的任一个字符对应的图像量和所述分词结果中的任一分词中的任一个字符对应的图像量间的余弦相似度;
根据所述余弦相似度计算所述目标关键词和所述分词结果中的任一分词的字形相似度。
可选地,其中所述相似度计算模块403,根据所述余弦相似度计算所述目标关键词和所述分词结果中的任一分词的字形相似度,包括:
对于任一分词结果,计算该任一分词对应的大于预设余弦相似度阈值的余弦相似度之和,以获取第一数值;并计算所述第一数值与该任一分词对应的所有余弦相似度之和的比值,以获取所述目标关键词和所述任一分词的字形相似度。
可选地,其中所述相似度计算模块403,还包括:
在确定字形相似度时,按照预设字体格式对所述目标关键词和所述任一分词进行格式转换,以对所述目标关键词和所述任一分词进行格式统一。
可选地,其中所述候选分词筛选模块404,根据所述多维度综合相似度从所述分词结果中筛选出候选分词,包括:
利用所述多维度综合相似度对所述分词结果中的分词进行排序,并根据预设相似度阈值对所述分词结果中的分词进行筛选,以获取候选分词。
从而根据本实施例,可以获取基于目标标准语句的意图提取出的目标关键词;获取历史对话数据,并对所述历史对话数据中的语句进行分词,以获取分词结果;计算所述目标关键词和所述分词结果中的任一分词的多维度综合相似度;根据所述多维度综合相似度从所述分词结果中筛选出候选分词;利用所述候选分词替换所述目标标准语句中的目标关键词,以进行语料扩充。本发明通过多种相似度算法相结合从而确定目标关键词和所述分词结果中的任一分词的多维度综合相似度,能够筛选出口语化和含错别字等类型的词汇,同时也会避免拼音相同但语义无关的候选分词,通过多种方法进行互补,能够实现高效准确地扩充语料,能够在大力节省人工成本和时间的同时,提高语料扩充的效率。
实施例4
图5示出了根据本实施例所述的语料扩充装置500,该装置500与根据实施例1的第一个方面所述的方法相对应。参考图4所示,该装置500包括:处理器510;以及存储器520,与处理器510连接,用于为处理器510提供处理以下处理步骤的指令:获取基于目标标准语句的意图提取出的目标关键词;获取历史对话数据,并对所述历史对话数据中的语句进行分词,以获取分词结果;计算所述目标关键词和所述分词结果中的任一分词的多维度综合相似度;根据所述多维度综合相似度从所述分词结果中筛选出候选分词;利用所述候选分词替换所述目标标准语句中的目标关键词,以进行语料扩充。
可选地,其中所述对所述历史对话数据中的语句进行分词,以获取分词结果,包括:
对于所述历史对话数据中的任一语句,采用基于预设字典进行正向最大匹配分词或反向最大匹配分词的方式进行分词,或者采用N-Gram模型进行分词,以获取分词结果。
可选地,其中所述计算所述目标关键词和所述分词结果中的任一分词的多维度综合相似度,包括:
计算所述目标关键词和所述分词结果中的任一分词对应的语义相似度、拼音相似度和字形相似度中的至少两种相似度;
根据所述至少两种相似度以及对应的权重,计算所述任一分词的多维度综合相似度。
可选地,其中所述方法利用如下方式确定所述目标关键词和所述分词结果中的任一分词对应的字形相似度,包括:
将所述目标关键词和所述分词结果中的任一分词转换为图片类型,并利用文本识别技术转换为图像量,获取每个字符对应的图像量;
计算所述目标关键词中的任一个字符对应的图像量和所述分词结果中的任一分词中的任一个字符对应的图像量间的余弦相似度;
根据所述余弦相似度计算所述目标关键词和所述分词结果中的任一分词的字形相似度。
可选地,其中所述根据所述余弦相似度计算所述目标关键词和所述分词结果中的任一分词的字形相似度,包括:
对于任一分词结果,计算该任一分词对应的大于预设余弦相似度阈值的余弦相似度之和,以获取第一数值;并计算所述第一数值与该任一分词对应的所有余弦相似度之和的比值,以获取所述目标关键词和所述任一分词的字形相似度。
可选地,其中所述方法还包括:
在确定字形相似度时,按照预设字体格式对所述目标关键词和所述任一分词进行格式转换,以对所述目标关键词和所述任一分词进行格式统一。
可选地,其中所述根据所述多维度综合相似度从所述分词结果中筛选出候选分词,包括:
利用所述多维度综合相似度对所述分词结果中的分词进行排序,并根据预设相似度阈值对所述分词结果中的分词进行筛选,以获取候选分词。
从而根据本实施例,可以获取基于目标标准语句的意图提取出的目标关键词;获取历史对话数据,并对所述历史对话数据中的语句进行分词,以获取分词结果;计算所述目标关键词和所述分词结果中的任一分词的多维度综合相似度;根据所述多维度综合相似度从所述分词结果中筛选出候选分词;利用所述候选分词替换所述目标标准语句中的目标关键词,以进行语料扩充。本发明通过多种相似度算法相结合从而确定目标关键词和所述分词结果中的任一分词的多维度综合相似度,能够筛选出口语化和含错别字等类型的词汇,同时也会避免拼音相同但语义无关的候选分词,通过多种方法进行互补,能够实现高效准确地扩充语料,能够在大力节省人工成本和时间的同时,提高语料扩充的效率。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种语料扩充方法,其特征在于,所述方法包括:
获取基于目标标准语句的意图提取出的目标关键词;
获取历史对话数据,并对所述历史对话数据中的语句进行分词,以获取分词结果;
计算所述目标关键词和所述分词结果中的任一分词的多维度综合相似度;
根据所述多维度综合相似度从所述分词结果中筛选出候选分词;
利用所述候选分词替换所述目标标准语句中的目标关键词,以进行语料扩充。
2.根据权利要求1所述的方法,其特征在于,所述对所述历史对话数据中的语句进行分词,以获取分词结果,包括:
对于所述历史对话数据中的任一语句,采用基于预设字典进行正向最大匹配分词或反向最大匹配分词的方式进行分词,或者采用N-Gram模型进行分词,以获取分词结果。
3.根据权利要求1所述的方法,其特征在于,所述计算所述目标关键词和所述分词结果中的任一分词的多维度综合相似度,包括:
计算所述目标关键词和所述分词结果中的任一分词对应的语义相似度、拼音相似度和字形相似度中的至少两种相似度;
根据所述至少两种相似度以及对应的权重,计算所述任一分词的多维度综合相似度。
4.根据权利要求3所述的方法,其特征在于,所述方法利用如下方式确定所述目标关键词和所述分词结果中的任一分词对应的字形相似度,包括:
将所述目标关键词和所述分词结果中的任一分词转换为图片类型,并利用文本识别技术转换为图像量,获取每个字符对应的图像量;
计算所述目标关键词中的任一个字符对应的图像量和所述分词结果中的任一分词中的任一个字符对应的图像量间的余弦相似度;
根据所述余弦相似度计算所述目标关键词和所述分词结果中的任一分词的字形相似度。
5.根据权利要求4所述的方法,其特征在于,所述根据所述余弦相似度计算所述目标关键词和所述分词结果中的任一分词的字形相似度,包括:
对于任一分词结果,计算该任一分词对应的大于预设余弦相似度阈值的余弦相似度之和,以获取第一数值;并计算所述第一数值与该任一分词对应的所有余弦相似度之和的比值,以获取所述目标关键词和所述任一分词的字形相似度。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在确定字形相似度时,按照预设字体格式对所述目标关键词和所述任一分词进行格式转换,以对所述目标关键词和所述任一分词进行格式统一。
7.根据权利要求1所述的方法,其特征在于,所述根据所述多维度综合相似度从所述分词结果中筛选出候选分词,包括:
利用所述多维度综合相似度对所述分词结果中的分词进行排序,并根据预设相似度阈值对所述分词结果中的分词进行筛选,以获取候选分词。
8.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至7中任意一项所述的方法。
9.一种语料扩充装置,其特征在于,所述装置包括:
目标关键词获取模块,用于获取基于目标标准语句的意图提取出的目标关键词;
分词模块,用于获取历史对话数据,并对所述历史对话数据中的语句进行分词,以获取分词结果;
相似度计算模块,用于计算所述目标关键词和所述分词结果中的任一分词的多维度综合相似度;
候选分词筛选模块,用于根据所述多维度综合相似度从所述分词结果中筛选出候选分词;
语料扩充模块,用于利用所述候选分词替换所述目标标准语句中的目标关键词,以进行语料扩充。
10.一种语料扩充装置,其特征在于,所述装置包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取基于目标标准语句的意图提取出的目标关键词;
获取历史对话数据,并对所述历史对话数据中的语句进行分词,以获取分词结果;
计算所述目标关键词和所述分词结果中的任一分词的多维度综合相似度;
根据所述多维度综合相似度从所述分词结果中筛选出候选分词;
利用所述候选分词替换所述目标标准语句中的目标关键词,以进行语料扩充。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210369672.4A CN115879458A (zh) | 2022-04-08 | 2022-04-08 | 一种语料扩充方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210369672.4A CN115879458A (zh) | 2022-04-08 | 2022-04-08 | 一种语料扩充方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115879458A true CN115879458A (zh) | 2023-03-31 |
Family
ID=85769345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210369672.4A Pending CN115879458A (zh) | 2022-04-08 | 2022-04-08 | 一种语料扩充方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115879458A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116992830A (zh) * | 2022-06-17 | 2023-11-03 | 北京聆心智能科技有限公司 | 文本数据处理方法、相关装置及计算设备 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102122298A (zh) * | 2011-03-07 | 2011-07-13 | 清华大学 | 一种中文相似性匹配方法 |
CN103678282A (zh) * | 2014-01-07 | 2014-03-26 | 苏州思必驰信息科技有限公司 | 一种分词方法及装置 |
CN106095865A (zh) * | 2016-06-03 | 2016-11-09 | 中细软移动互联科技有限公司 | 一种商标文本相似性评审方法 |
CN108959250A (zh) * | 2018-06-27 | 2018-12-07 | 众安信息技术服务有限公司 | 一种基于语言模型和词特征的纠错方法及其系统 |
CN109871437A (zh) * | 2018-11-30 | 2019-06-11 | 阿里巴巴集团控股有限公司 | 用于用户问题语句处理的方法及装置 |
CN109977203A (zh) * | 2019-03-07 | 2019-07-05 | 北京九狐时代智能科技有限公司 | 语句相似度确定方法、装置、电子设备及可读存储介质 |
CN111611374A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 语料扩充方法、装置、电子设备及存储介质 |
CN112016310A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、系统、设备及可读存储介质 |
CN112541076A (zh) * | 2020-11-09 | 2021-03-23 | 北京百度网讯科技有限公司 | 目标领域的扩充语料生成方法、装置和电子设备 |
CN113204974A (zh) * | 2021-05-14 | 2021-08-03 | 清华大学 | 对抗文本的生成方法、装置、设备及存储介质 |
CN113297833A (zh) * | 2020-02-21 | 2021-08-24 | 华为技术有限公司 | 文本纠错方法、装置、终端设备及计算机存储介质 |
CN113688636A (zh) * | 2021-07-27 | 2021-11-23 | 上海浦东发展银行股份有限公司 | 扩展问的推荐方法、装置、计算机设备和存储介质 |
CN113821593A (zh) * | 2021-07-08 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种语料处理的方法、相关装置及设备 |
CN114357973A (zh) * | 2021-12-10 | 2022-04-15 | 马上消费金融股份有限公司 | 意图识别方法、装置、电子设备及存储介质 |
-
2022
- 2022-04-08 CN CN202210369672.4A patent/CN115879458A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102122298A (zh) * | 2011-03-07 | 2011-07-13 | 清华大学 | 一种中文相似性匹配方法 |
CN103678282A (zh) * | 2014-01-07 | 2014-03-26 | 苏州思必驰信息科技有限公司 | 一种分词方法及装置 |
CN106095865A (zh) * | 2016-06-03 | 2016-11-09 | 中细软移动互联科技有限公司 | 一种商标文本相似性评审方法 |
CN108959250A (zh) * | 2018-06-27 | 2018-12-07 | 众安信息技术服务有限公司 | 一种基于语言模型和词特征的纠错方法及其系统 |
CN109871437A (zh) * | 2018-11-30 | 2019-06-11 | 阿里巴巴集团控股有限公司 | 用于用户问题语句处理的方法及装置 |
CN111611374A (zh) * | 2019-02-25 | 2020-09-01 | 北京嘀嘀无限科技发展有限公司 | 语料扩充方法、装置、电子设备及存储介质 |
CN109977203A (zh) * | 2019-03-07 | 2019-07-05 | 北京九狐时代智能科技有限公司 | 语句相似度确定方法、装置、电子设备及可读存储介质 |
CN113297833A (zh) * | 2020-02-21 | 2021-08-24 | 华为技术有限公司 | 文本纠错方法、装置、终端设备及计算机存储介质 |
CN112016310A (zh) * | 2020-09-03 | 2020-12-01 | 平安科技(深圳)有限公司 | 文本纠错方法、系统、设备及可读存储介质 |
CN112541076A (zh) * | 2020-11-09 | 2021-03-23 | 北京百度网讯科技有限公司 | 目标领域的扩充语料生成方法、装置和电子设备 |
CN113204974A (zh) * | 2021-05-14 | 2021-08-03 | 清华大学 | 对抗文本的生成方法、装置、设备及存储介质 |
CN113821593A (zh) * | 2021-07-08 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 一种语料处理的方法、相关装置及设备 |
CN113688636A (zh) * | 2021-07-27 | 2021-11-23 | 上海浦东发展银行股份有限公司 | 扩展问的推荐方法、装置、计算机设备和存储介质 |
CN114357973A (zh) * | 2021-12-10 | 2022-04-15 | 马上消费金融股份有限公司 | 意图识别方法、装置、电子设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116992830A (zh) * | 2022-06-17 | 2023-11-03 | 北京聆心智能科技有限公司 | 文本数据处理方法、相关装置及计算设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN112069298B (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN106874441B (zh) | 智能问答方法和装置 | |
CN111177532A (zh) | 一种垂直搜索方法、装置、计算机系统及可读存储介质 | |
CN111310440B (zh) | 文本的纠错方法、装置和系统 | |
CN111931500B (zh) | 搜索信息的处理方法、装置 | |
CN102214189B (zh) | 基于数据挖掘获取词用法知识的系统及方法 | |
CN114329225B (zh) | 基于搜索语句的搜索方法、装置、设备及存储介质 | |
CN112270188A (zh) | 一种提问式的分析路径推荐方法、系统及存储介质 | |
CN110895559A (zh) | 模型训练、文本处理方法、装置以及设备 | |
Ye et al. | Improving cross-domain Chinese word segmentation with word embeddings | |
CN113342944B (zh) | 一种语料泛化方法、装置、设备及存储介质 | |
CN115879458A (zh) | 一种语料扩充方法、装置及存储介质 | |
CN114661890A (zh) | 一种知识推荐方法、装置、系统及存储介质 | |
CN114398943A (zh) | 样本增强方法及其装置 | |
CN117828042A (zh) | 用于金融服务的问答处理方法、装置、设备及介质 | |
CN112560425A (zh) | 模板生成方法、装置、电子设备及存储介质 | |
CN116090450A (zh) | 一种文本处理方法及计算设备 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN115827817A (zh) | 一种文本类别的确定方法、相关装置以及设备 | |
CN110956034B (zh) | 词语的获取方法及装置、商品搜索方法 | |
CN114692610A (zh) | 关键词确定方法及装置 | |
CN113761907A (zh) | 一种文本情感分类方法和装置 | |
JPH11328316A (ja) | 文字認識装置、方法及び記憶媒体 | |
CN112395863A (zh) | 文本的处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230331 |