CN113468880A - 一种冗余词过滤方法及其相关设备 - Google Patents
一种冗余词过滤方法及其相关设备 Download PDFInfo
- Publication number
- CN113468880A CN113468880A CN202110818230.9A CN202110818230A CN113468880A CN 113468880 A CN113468880 A CN 113468880A CN 202110818230 A CN202110818230 A CN 202110818230A CN 113468880 A CN113468880 A CN 113468880A
- Authority
- CN
- China
- Prior art keywords
- text
- filtered
- redundant
- redundant word
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001914 filtration Methods 0.000 title claims abstract description 323
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000012545 processing Methods 0.000 claims description 67
- 230000011218 segmentation Effects 0.000 claims description 64
- 238000002372 labelling Methods 0.000 claims description 61
- 238000000605 extraction Methods 0.000 claims description 47
- 239000013598 vector Substances 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 5
- 230000001960 triggered effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 22
- 230000014509 gene expression Effects 0.000 abstract description 15
- 230000002411 adverse Effects 0.000 abstract description 6
- 238000012217 deletion Methods 0.000 description 10
- 230000037430 deletion Effects 0.000 description 10
- 239000000470 constituent Substances 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000002349 favourable effect Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种冗余词过滤方法及其相关设备,该方法包括:在获取到待过滤文本之后,可以先对该待过滤文本进行冗余词识别,得到该待过滤文本的冗余词识别结果,以使该冗余词识别结果能够表示出该待过滤文本中各个词汇属于冗余词的可能性;再按照冗余词过滤参数值和该待过滤文本的冗余词识别结果,对该待过滤文本进行冗余词过滤,得到该待过滤文本对应的过滤后文本,以使该过滤后文本中存在较少的冗余词(甚至不存在冗余词),从而使得该过滤后文本能够更简洁地表示出待过滤文本携带的语义信息,如此能够有效地克服该待过滤文本携带的无意义信息造成的不良影响,从而能够有效地提高该过滤后文本的信息表达效果。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种冗余词过滤方法及其相关设备。
背景技术
随着文本数据的应用范围越来越大,使得针对文本数据的信息表达效果要求越来越高。例如,文本数据可以应用于语音处理技术领域。
目前,对于一些文本数据(如,一个语音数据对应的语音识别文本)来说,因这些文本数据中存在大量无意义词汇,使得这些文本数据的信息表达效果较差。然而,如何提高这些文本数据的信息表达效果是一项亟待解决的技术问题。
发明内容
为了解决上述技术问题,本申请提供了一种冗余词过滤方法及其相关设备,能够提高文本数据的信息表达效果。
为了实现上述目的,本申请实施例提供的技术方案如下:
本申请实施例提供一种冗余词过滤方法,所述方法包括:
获取待过滤文本;
对所述待过滤文本进行冗余词识别,得到所述待过滤文本的冗余词识别结果;
按照冗余词过滤参数值和所述待过滤文本的冗余词识别结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本;其中,所述冗余词过滤参数值用于表示针对所述待过滤文本进行冗余词过滤的过滤强度。
在一种可能的实施方式中,所述对所述待过滤文本进行冗余词识别,得到所述待过滤文本的冗余词识别结果,包括:
对所述待过滤文本进行分词处理,得到至少一个分词;
对各个分词进行词向量提取处理,得到各个分词的词向量;
将所述至少一个分词的词向量输入预先构建的冗余识别模型,得到所述冗余识别模型输出的所述至少一个分词的冗余识别结果;
根据所述至少一个分词的冗余识别结果,确定所述待过滤文本的冗余词识别结果。
在一种可能的实施方式中,所述对所述待过滤文本进行冗余词识别,得到所述待过滤文本的冗余词识别结果,包括:
对所述待过滤文本进行分词处理,得到至少一个分词;
对所述待过滤文本进行分字处理,得到至少一个单字;
对各个所述单字进行特征提取处理,得到各个单字的特征向量;
将所述至少一个单字的特征向量输入预先构建的冗余识别模型,得到所述冗余识别模型输出的所述至少一个单字的冗余识别结果;
根据所述至少一个单字与所述至少一个分词之间的对应关系、以及所述至少一个单字的冗余识别结果,确定所述至少一个分词的冗余识别结果;
根据所述至少一个分词的冗余识别结果,确定所述待过滤文本的冗余词识别结果。
在一种可能的实施方式中,若所述分词的个数为N,则所述第n个分词的冗余识别结果的确定过程,包括:
基于所述第n个分词所包括的各单字的冗余识别结果的均值,确定所述第n个分词的冗余识别结果;其中,n为正整数,n≤N,N为正整数。
在一种可能的实施方式中,所述冗余识别模型包括语义特征提取层和冗余识别层;其中,所述冗余识别层的输入数据包括所述语义特征提取层的输出数据;
所述冗余识别模型的构建过程,包括:
利用至少一个第一样本文本和所述至少一个第一样本文本的语义特征,对语言模型进行训练;
将所述语言模型确定为所述冗余识别模型中所述语义特征提取层;
利用至少一个第二样本文本和所述至少一个第二样本文本对应的冗余词标注信息,对所述冗余识别模型进行训练。
在一种可能的实施方式中,所述至少一个第二样本文本和所述至少一个第二样本文本对应的冗余词标注信息的获取过程,包括:
根据至少一个待处理文本和至少一个候选冗余词添加规则,确定至少一个文本增强数据和所述至少一个文本增强数据对应的冗余词标注信息;
根据所述至少一个文本增强数据、所述至少一个文本增强数据对应的冗余词标注信息、至少一个文本标注数据、和所述至少一个文本标注数据对应的冗余词标注信息,确定所述至少一个第二样本文本和所述至少一个第二样本文本对应的冗余词标注信息。
在一种可能的实施方式中,所述至少一个文本增强数据包括目标文本增强数据,所述目标文本增强数据和所述目标文本增强数据对应的冗余词标注信息的确定过程,包括:
从所述至少一个候选冗余词添加规则中选择一个候选冗余词添加规则,确定为目标冗余词添加规则;
从所述至少一个待处理文本中选择一个待处理文本,确定为目标文本;
按照所述目标冗余词添加规则,对所述目标文本进行冗余词添加处理,得到所述目标文本增强数据;
根据所述目标文本增强数据和所述目标文本,确定所述目标文本增强数据对应的冗余词标注信息。
在一种可能的实施方式中,所述按照冗余词过滤参数值和所述待过滤文本的冗余词识别结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本,包括:
根据所述冗余词识别结果和预设过滤阈值,确定所述待过滤文本对应的冗余词标注结果;
按照冗余词过滤参数值和所述冗余词标注结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本。
在一种可能的实施方式中,所述按照冗余词过滤参数值和所述冗余词标注结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本,包括:
若所述冗余词过滤参数值满足弱过滤条件,则按照所述待过滤文本对应的冗余词标注结果和预设弱过滤规则,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本。
在一种可能的实施方式中,所述按照所述待过滤文本对应的冗余词标注结果和预设弱过滤规则,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本,包括:
根据所述待过滤文本对应的冗余词标注结果和预设弱过滤规则,确定所述待过滤文本对应的弱过滤标注结果;
按照所述待过滤文本对应的弱过滤标注结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本。
在一种可能的实施方式中,所述按照冗余词过滤参数值和所述冗余词标注结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本,包括:
若所述冗余词过滤参数值满足强过滤条件,则按照所述待过滤文本对应的冗余词标注结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本。
在一种可能的实施方式中,所述待过滤文本包括目标词汇,且所述目标词汇对应的冗余词标注结果的确定过程,包括:
若预设词汇白名单中存在与所述目标词汇匹配的匹配词汇,则根据所述预设词汇白名单确定所述目标词汇的过滤阈值;其中,所述预设词汇白名单包括所述目标词汇的过滤阈值与所述匹配词汇之间的对应关系;
根据所述目标词汇的过滤阈值和所述目标词汇对应的冗余词识别结果,确定所述目标词汇的冗余词标注结果。
在一种可能的实施方式中,所述待过滤文本的获取过程包括:
在获取到待处理语音之后,对所述待处理语音进行语音识别,得到所述待过滤文本。
在一种可能的实施方式中,所述方法还包括:
在接收到当前语音之后,将所述当前语音确定为待处理语音。
在一种可能的实施方式中,所述方法还包括:
在获取到终端用户在预设控件上触发的冗余词过滤参数值更新请求之后,对所述冗余词过滤参数值进行更新。
在一种可能的实施方式中,所述方法还包括:
利用预设滑窗对待过滤文本进行分段处理,得到至少一个文本片段和所述至少一个文本片段对应的文本位置;
所述对所述待过滤文本进行冗余词识别,得到所述待过滤文本的冗余词识别结果,包括:
分别对各所述文本片段进行冗余词识别,得到各所述文本片段的冗余词识别结果;
所述按照冗余词过滤参数值和所述待过滤文本的冗余词识别结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本,包括:
按照所述冗余词过滤参数值和各所述文本片段的冗余词识别结果,分别对各所述文本片段进行冗余词过滤,得到各所述文本片段对应的语音文本;
按照所述至少一个文本片段对应的文本位置,将所述至少一个文本片段对应的语音文本进行拼接,得到所述待过滤文本对应的过滤后文本。
本申请实施例还提供了一种冗余词过滤装置,包括:
文本获取单元,用于获取待过滤文本;
冗余词识别单元,用于对所述待过滤文本进行冗余词识别,得到所述待过滤文本的冗余词识别结果;
冗余词过滤单元,用于按照冗余词过滤参数值和所述待过滤文本的冗余词识别结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本。
本申请实施例还提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行本申请实施例提供的冗余词过滤方法的任一实施方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本申请实施例提供的冗余词过滤方法的任一实施方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的冗余词过滤方法的任一实施方式。
与现有技术相比,本申请实施例至少具有以下优点:
本申请实施例提供的技术方案中,在获取到待过滤文本之后,可以先对该待过滤文本进行冗余词识别,得到该待过滤文本的冗余词识别结果,以使该冗余词识别结果能够表示出该待过滤文本中各个词汇属于冗余词的可能性;再按照冗余词过滤参数值和该待过滤文本的冗余词识别结果,对该待过滤文本进行冗余词过滤,得到该待过滤文本对应的过滤后文本,以使该过滤后文本中存在较少的冗余词(甚至不存在冗余词),从而使得该过滤后文本能够更简洁地表示出待过滤文本携带的语义信息,如此能够有效地克服该待过滤文本携带的无意义信息造成的不良影响,从而能够有效地提高该过滤后文本的信息表达效果。
另外,还因该冗余词过滤参数值用于表示针对该待过滤文本进行冗余词过滤的过滤强度,使得按照该冗余词过滤参数值进行的冗余词过滤过程能够更符合终端用户的冗余词过滤强度需求,从而使得基于该冗余词过滤参数值过滤得到的过滤后文本更符合终端用户针对文本数据的简洁性需求,如此有利于提高终端用户的文本体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请实施例提供的一种冗余词过滤方法的流程图;
图2为本申请实施例提供的一种冗余识别模型的结构示意图;
图3为本申请实施例提供的一种冗余词过滤装置的结构示意图。
具体实施方式
发明人针对文本数据的研究中发现,一些文本数据中存在大量无意义词汇。例如,对于一些语音应用场景(如,会议)来说,说话人的说话内容通常包括一些无意义词语,例如,类似于“就是”、“那么”、“额……”等被说话人频繁说出口语词;又如,类似于“对于上述问题,我们认为,……(因思考而导致短暂的停顿),我们认为,……(因思考而导致短暂的停顿),我们认为可以采用以下方案进行解决”中“我们认为”等因说话人思考而对其已说过的内容进行不断重复的词语;还如,一些类似于“今,噢!明天天气不错,可以展开以下工作”中“今”等因说话人口误并及时修正过的词语。上述这些现象会使得针对该说话人采集的语音数据携带有大量无意义词语,从而使得针对该语音数据生成的文本数据(例如,语音识别文本)中也存在大量无意义词语,如此导致这些文本数据的信息表达效果较差,从而导致用户针对这些文本数据的理解效果较差(如,理解难度增加和理解效率降低),并导致基于这些文本数据执行的后续处理操作(如,摘要提取等)也会受到影响(如,摘要提取效率较低等)。
基于上述发现,为了克服背景技术部分的技术问题,本申请实施例提供了一种冗余词过滤方法,该方法包括:在获取到待过滤文本之后,可以先对该待过滤文本进行冗余词识别,得到该待过滤文本的冗余词识别结果,以使该冗余词识别结果能够表示出该待过滤文本中各个词汇属于冗余词的可能性;再按照冗余词过滤参数值和该待过滤文本的冗余词识别结果,对该待过滤文本进行冗余词过滤,得到该待过滤文本对应的过滤后文本,以使该过滤后文本中存在较少的冗余词(甚至不存在冗余词),从而使得该过滤后文本能够更简洁地表示出待过滤文本携带的语义信息,如此能够有效地克服该待过滤文本携带的无意义信息造成的不良影响,从而能够有效地提高该过滤后文本的信息表达效果。
另外,本申请实施例不限定冗余词过滤方法的执行主体,例如,本申请实施例提供的冗余词过滤方法可以应用于终端设备或服务器等数据处理设备。其中,终端设备可以为智能手机、计算机、个人数字助理(Personal Digital Assitant,PDA)或平板电脑等。服务器可以为独立服务器、集群服务器或云服务器。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,该图为本申请实施例提供的一种冗余词过滤方法的流程图。
本申请实施例提供的冗余词过滤方法,包括S1-S3:
S1:获取待过滤文本。
其中,待过滤文本是指需要进行冗余词过滤处理的文本数据;而且,本申请实施例不限定待过滤文本,其可以是任一应用场景中所涉及的文本数据。
此外,本申请实施例不限定待过滤文本携带的字符信息,例如,该待过滤文本携带有至少一个无意词汇(也就是,至少一个冗余词)。
S2:对待过滤文本进行冗余词识别,得到该待过滤文本的冗余词识别结果。
其中,“待过滤文本的冗余词识别结果”用于表示该待过滤文本中各个词汇属于冗余词的可能性(也就是,用于表示该待过滤文本中各个字冗余的可能性)。
另外,本申请实施例不限定“待过滤文本的冗余词识别结果”,例如,若待过滤文本包括M个字,则该“待过滤文本的冗余词识别结果”可以包括M个标注结果,且该“待过滤文本的冗余词识别结果”中第m个标注结果是指该待过滤文本中第m个字对应的标注结果,以使该第m个标注结果用于表示该待过滤文本中第m个字是否冗余(也就是,是否属于冗余词或者冗余词的组成字符);m为正整数,m≤M,M为正整数。
此外,本申请实施例不限定“第m个标注结果”的表示方式,例如,“第m个标注结果”可以包括第m个字的被删除概率和/或第m个字的被留下概率。其中,“第m个字的被删除概率”用于表示该待过滤文本中第m个字冗余(也就是,该第m个字属于冗余词或者冗余词的组成字符)的可能性。“第m个字的被留下概率”用于表示该待过滤文本中第m个字不冗余(也就是,该第m个字不属于冗余词,也不属于冗余词的组成字符)的可能性。
需要说明的是,对于“待过滤文本的冗余词识别结果”来说,若该待过滤文本包括N个词汇,则第n个词汇中各个字对应的标注结果可以保持一致,以保证该第n个词汇可以被整体删除或者被整体留下来。其中,n为正整数,n≤N,N为正整数。
本申请实施例不限定S2的实施方式,例如,可以采用下文所述的S2的两种可能的实施方式进行实施。
基于上述S2的相关内容可知,在获取到待过滤文本之后,可以对该待过滤文本进行冗余词识别,得到该待过滤文本的冗余词识别结果,以使该冗余词识别结果能够准确地表示出该待过滤文本中各个词汇属于冗余词的可能性,以便后续能够参考该冗余词识别结果进行冗余词过滤处理。
S3:按照冗余词过滤参数值和待过滤文本的冗余词识别结果,对该待过滤文本进行冗余词过滤,得到待过滤文本对应的过滤后文本。
其中,冗余词过滤参数值用于表示针对待过滤文本进行冗余词过滤的过滤强度;而且本申请实施例不限定冗余词过滤参数值,例如,若冗余词过滤参数值为第一参数值(如,0),则表示冗余词过滤的过滤强度较低(也称,弱过滤);若冗余词过滤参数值为第二参数值(如,1),则表示冗余词过滤的过滤强度较高(也称,强过滤)。
另外,本申请实施例不限定“冗余词过滤参数值”的获取方式,例如,可以采用预先设定的系统默认值(如,弱过滤)。又如,也可以由终端用户根据个人需求进行设定(如,弱过滤或者强过滤);而且本申请实施例不限定终端用户设定“冗余词过滤参数值”的实施方式,例如,其可以采用下文相关内容所述的实施方式进行实施。
“待过滤文本对应的过滤后文本”是指针对该待过滤文本进行冗余词过滤之后得到的文本数据。
另外,本申请实施例不限定S3的获取过程,例如,其可以采用下文所述的S3的一种可能的实施方式进行实施。
基于上述S1至S3的相关内容可知,对于本申请实施例提供的冗余词过滤方法来说,在获取到待过滤文本之后,可以先对该待过滤文本进行冗余词识别,得到该待过滤文本的冗余词识别结果,以使该冗余词识别结果能够表示出该待过滤文本中各个词汇属于冗余词的可能性;再按照冗余词过滤参数值和该待过滤文本的冗余词识别结果,对该待过滤文本进行冗余词过滤,得到该待过滤文本对应的过滤后文本,以使该过滤后文本中存在较少的冗余词(甚至不存在冗余词),从而使得该过滤后文本能够更简洁地表示出待过滤文本携带的语义信息,如此能够有效地克服该待过滤文本携带的无意义信息造成的不良影响,从而能够有效地提高该过滤后文本的信息表达效果。
另外,还因该冗余词过滤参数值用于表示针对该待过滤文本进行冗余词过滤的过滤强度,使得按照该冗余词过滤参数值进行的冗余词过滤过程能够更符合终端用户的冗余词过滤强度需求,从而使得基于该冗余词过滤参数值过滤得到的过滤后文本更符合终端用户针对文本数据的简洁性需求,如此有利于提高终端用户的文本体验。
在一种可能的实施方式中,本申请实施例提供的冗余词过滤方法可以应用于语音处理技术领域。基于此,本申请实施例提供了S1的一种可能的实施方式,其具体可以包括:在获取到待处理语音之后,对该待处理语音进行语音识别,得到待过滤文本,以使该待过滤文本用于表示该待处理语音对应的语音识别文本。
其中,待处理语音是指需要进行语音信息提取处理的语音数据;而且本申请实施例不限定待处理语音,例如,可以是指在任一语音应用场景(如,会议)中由拾音设备采集的音频数据。
在一些情况下,需要针对语音数据实时地进行冗余词过滤处理,故为了满足上述需求,本申请实施例提供了待处理语音的获取过程的一种可能的实施方式,其具体可以包括:在接收到当前语音之后,将该当前语音确定为待处理语音。其中,“当前语音”用于表示由拾音设备实时采集的音频数据。
可见,对于一些实时性要求比较高的应用场景来说,在拾音设备实时采集到一段音频数据之后,可以即刻将该音频数据作为待处理语音,并利用S1-S3生成该音频数据对应的过滤后文本,以使该过滤后文本能够更简洁地表示出该音频数据携带的语音信息,如此能够实现针对实时采集的音频数据实时地进行冗余词过滤处理,如此有利于提高冗余词过滤的实时性。
本申请实施例不限定上述“语音识别”的实施方式,可以采用现有的或者未来出现的任一种能够语音识别技术进行实施。
“待处理语音对应的语音识别文本”用于描述由待处理语音携带的语音信息。
基于上述实施方式的相关内容可知,在获取到待处理语音(如,实时采集的音频数据)之后,对该待处理语音进行语音识别,得到该待处理语音对应的语音识别文本,以使该语音识别文本能够准确地表示出该待处理语音携带的语音信息,以便后续能够将该语音识别文本确定为待过滤文本,并利用上文S2-S3针对该待过滤文本进行冗余词删除处理,如此能够实现针对该语音识别文本的冗余词删除处理。
另外,为了提高冗余识别准确性,本申请实施例还提供了S2的两种可能的实施方式。
在一种可能的实施方式下,S2具体可以包括步骤11-步骤14:
步骤11:对待过滤文本进行分词处理,得到至少一个分词。
本申请实施例中,在获取到待过滤文本之后,可以针对该待过滤文本进行分词处理,得到该待过滤文本对应的至少一个分词,以使该至少一个分词能够表示出该待过滤文本中存在的词汇。
需要说明的是,本申请实施例不限定步骤11中“分词处理”的实施方式,可以采用现有的或者未来出现的任一种分词技术(如,结巴分词等)进行实施。
步骤12:对各个分词进行词向量提取处理,得到各个分词的词向量。
其中,第n个分词的词向量用于表示该第n个分词携带的信息;n为正整数,n≤N,N为正整数,N表示分词个数。
另外,本申请实施例不限定步骤12中“词向量提取处理”的实施方式,可以采用现有的或者未来出现的任一种词向量提取技术进行实施。
基于步骤12的相关内容可知,在获取到待过滤文本对应的第n个分词之后,可以针对该第n个分词进行词向量提取处理,得到该第n个分词的词向量,以使该第n个分词的词向量能够准确地表示该第n个分词携带的信息。其中,n为正整数,n≤N,N为正整数,N表示分词个数。
步骤13:将至少一个分词的词向量输入预先构建的冗余识别模型,得到该冗余识别模型输出的至少一个分词的冗余识别结果;
其中,冗余识别模型用于针对该冗余识别模型的输入数据进行冗余检测处理(如,冗余词检测处理和/或冗余字检测处理)。
另外,本申请实施例不限定“冗余识别模型”的模型结构以及构建过程,例如,其可以采用下文相关内容所述的模型结构以及构建过程进行实施。
基于上述步骤13的相关内容可知,若分词的个数为N,则对于待过滤文本对应的过滤后文本来说,在获取到该过滤后文本中N个分词的词向量之后,可以将该N个分词的词向量同时输入预先构建的冗余识别模型,以使该冗余识别模型能够参考该N个分词的词向量,分别确定各个分词的冗余识别结果,以使该各个分词的冗余识别结果分别用于表示该各个分词属于冗余词(也就是,各个分词冗余)的可能性。
步骤14:根据至少一个分词的冗余识别结果,确定待过滤文本的冗余词识别结果。
本申请实施例中,若分词的个数为N,则在获取到第1个分词的冗余识别结果至第N个分词的冗余识别结果之后,可以根据根据N个分词的冗余识别结果,确定待过滤文本的冗余词识别结果(例如,将该N个分词的冗余识别结果按照该N个分词在待过滤文本中所处位置进行拼接,得到该待过滤文本的冗余词识别结果。又如,按照该N个分词的冗余识别结果,对该待过滤文本中各个词汇进行冗余词标注处理,得到该待过滤文本的冗余词识别结果),如此使得该待过滤文本的冗余词识别结果能够准确地表示出该待过滤文本中各个词汇(或者各个字)冗余的可能性。
基于上述步骤11至步骤14的相关内容可知,在获取到待过滤文本对应的过滤后文本之后,可以先针对该过滤后文本中各个词汇进行冗余词识别处理,得到该过滤后文本中各个词汇对应的冗余识别结果;再参考该过滤后文本中各个词汇对应的冗余识别结果,确定该待过滤文本的冗余词识别结果,以使该冗余词识别结果能够准确地表示出该待过滤文本中各个词汇(或者各个字)冗余的可能性。
在另一种可能的实施方式中,S2具体可以包括步骤21-步骤26:
步骤21:对待过滤文本进行分词处理,得到至少一个分词。
需要说明的是,步骤21的相关内容请参见上文步骤11。
步骤22:对待过滤文本进行分字处理,得到至少一个单字。
本申请实施例中,在获取到待过滤文本之后,可以针对该待过滤文本进行分字处理,得到该待过滤文本对应的至少一个单字,以使这些单字能够表示出该待过滤文本中存在的字。
需要说明的是,本申请实施例不限定步骤21中“分字处理”的实施方式,可以采用现有的或者未来出现的任一种分字技术(例如,预先基于第三样本文本和该第三样本文本对应的实际单字进行训练的双字节编码(BytePair Encoding,BPE)模型)进行实施。其中,第三样本文本是指训练BPE模型时所需使用的文本数据。“第三样本文本对应的实际单字”用于表示该第三样本文本中实际存在的字。
步骤23:对各个单字进行特征提取处理,得到各个单字的特征向量。
其中,第d个单字的特征向量用于表示该第d个单字携带的信息。d为正整数,d≤D,D为正整数,D表示单字个数。
另外,本申请实施例不限定步骤23中“特征提取处理”的实施方式,可以采用现有的或者未来出现的任一种能够针对单字进行特征提取处理的方法进行实施。
基于上述步骤23的相关内容可知,在获取到待过滤文本对应的第d个单字之后,可以针对该第d个单字进行特征提取处理,得到该第d个单字的特征向量,以使该第d个单字的特征向量能够准确地表示出该第d个单字携带的信息。其中,d为正整数,d≤D,D为正整数,D表示单字个数。
步骤24:将至少一个单字的特征向量输入预先构建的冗余识别模型,得到该冗余识别模型输出的至少一个单字的冗余识别结果。
其中,“冗余识别模型”的相关内容请参见上文步骤13中“冗余识别模型”的相关内容。
第d个单字的冗余识别结果用于表示该第d个单字冗余(也就是,该第d个单字属于冗余词或者冗余词中组成字符)的可能性。其中,d为正整数,d≤D,D为正整数,D表示单字个数。
另外,本申请实施例不限定“第d个单字的冗余识别结果”的表示方式,例如,该第d个单字的冗余识别结果可以包括该第d个单字的被留下概率和/或该第d个单字的被删除概率。其中,“第d个单字的被留下概率”用于表示该第d个单字不冗余的可能性(也就是,该第d个单字不属于冗余词且不属于冗余词中组成字符的可能性)。“第d个单字的被删除概率”用于表示该第d个单字冗余的可能性(也就是,该第d个单字属于冗余词或者冗余词中组成字符的可能性)。
基于上述步骤24的相关内容可知,在获取到待过滤文本中D个单字的特征向量之后,可以将该D个单字的特征向量输入预先构建的冗余识别模型,以使该冗余识别模型能够参考该D个单字的特征向量,分别确定第1个单字的冗余识别结果至第D个单字的冗余识别结果,以使该第1个单字的冗余识别结果能够准确地表示出该第1个单字冗余的可能性,……(以此类推),以及该第D个单字的冗余识别结果能够准确地表示出该第D个单字冗余的可能性。
步骤25:根据上述“至少一个单字”与上述“至少一个分词”之间的对应关系、以及至少一个单字的冗余识别结果,确定至少一个分词的冗余识别结果。
其中,上述“至少一个单字”与上述“至少一个分词”之间的对应关系用于描述各个分词与各个单字时间的包含关系。例如,若第n个分词中存在第一单字和第二单字,且上述“至少一个单字”包括第一单字和第二单字,则表示该第一单字与该第n个分词之间存在对应关系,且该第二单字表示与该第n个分词之间存在对应关系。其中,n为正整数,n≤N,N为正整数,N表示分词个数。
另外,“第n个分词的冗余识别结果”的相关内容请参见上文步骤22中“第n个分词的冗余识别结果”的相关内容。
此外,本申请实施例不限定步骤25的实施方式,例如,在一种可能的实施方式下,若分词的个数为N,则步骤25具体可以包括:基于第n个分词所包括的各单字的冗余识别结果的均值,确定该第n个分词的冗余识别结果。也就是,假设第n个分词包括Qn个单字,则可以将该第n个分词中第1个单字的冗余识别结果至该第n个分词中第Qn个单字的冗余识别结果之间的平均值,确定为该第n个分词的冗余识别结果。其中,n为正整数,n≤N,N为正整数。
可见,对于待过滤文本的第n个分词来说,可以参考该第n个分词中所有字的冗余识别结果,确定该第n个分词的冗余识别结果,以使该第n个分词的冗余识别结果能够准确地表示出该第n个分词属于冗余词的可能性。其中,n为正整数,n≤N,N为正整数,N表示分词个数。
步骤26:根据至少一个分词的冗余识别结果,确定待过滤文本的冗余词识别结果。
需要说明的是,步骤26的相关内容请参见上文步骤14的相关内容。
基于上述步骤21至步骤26的相关内容可知,在获取到待过滤文本对应的过滤后文本之后,可以先针对该过滤后文本中各个单字进行冗余词识别处理,得到该过滤后文本中各个单字对应的冗余识别结果;再参考该过滤后文本中各个单字对应的冗余识别结果,确定该过滤后文本中各个词汇对应的冗余识别结果;最后,参考该过滤后文本中各个词汇对应的冗余识别结果,确定该待过滤文本的冗余词识别结果,以使该冗余词识别结果能够准确地表示出该待过滤文本中各个词汇属于冗余词的可能性。
在一种可能的实施方式中,为了提高冗余识别模型的冗余识别效果,本申请实施例还提供了冗余识别模型的模型结构的一种可能的实施方式,如图2所示,冗余识别模型200可以包括语义特征提取层201和冗余识别层202。其中,冗余识别层202的输入数据包括语义特征提取层201的输出数据。
为了便于理解冗余识别模型200的工作原理,下面结合“至少一个分词的冗余识别结果”的确定过程进行说明。
作为示例,利用冗余识别模型200确定“至少一个分词的冗余识别结果”的过程可以包括步骤31-步骤32:
步骤31:将至少一个分词的词向量输入语义特征提取层201,得到该语义特征提取层201输出的该至少一个分词的语义特征。
其中,语义特征提取层201用于针对该语义特征提取层201的输入数据进行语义特征提取。
另外,本申请实施例不限定语义特征提取层201的结构,例如,该语义特征提取层201可以采用任一种语言模型(如,BERT(其全称为Bidirectional EncoderRepresentation fromTransformers)模型)的模型结构进行实施。
第n个分词的语义特征用于表示该第n个分词携带的语义信息;而且,该第n个分词的语义特征是由语义特征提取层201参考该第n个分词以及该第n个分词的上下文信息(如,上述“至少一个分词”中除了第n个分词以外的其他分词)确定的。其中,n为正整数,n≤N,N为正整数,N表示分词个数。
基于上述步骤31的相关内容可知,若分词个数为N,则在获取到N个分词的词向量之后,可以将该N个分词的词向量同时输入语义特征提取层201,以使该语义特征提取层201能够参考该N个分词的词向量,分别确定第1个分词的语义特征至第N个分词的语义特征,以使该“第1个分词的语义特征”能够准确地表示出该第1个分词携带的语义信息,……(以此类推),以及该“第N个分词的语义特征”能够准确地表示出该第N个分词携带的语义信息。
步骤32:将各个分词的语义特征输入冗余识别层202,得到该冗余识别层202输出的各个分词的冗余识别结果。
其中,冗余识别层202用于针对该冗余识别层202的输入数据进行冗余识别处理(如,冗余分类等)。
另外,本申请实施例不限定冗余识别层202,例如,冗余识别层202可以是线性网络层。
第n个分词的冗余识别结果用于表示该第n个分词属于冗余词(也就是,该第n个分词冗余)的可能性。其中,n为正整数,n≤N,N为正整数,N表示分词个数。
另外,本申请实施例不限定“第n个分词的冗余识别结果”的表示方式,例如,该第n个分词的冗余识别结果可以包括该第n个分词的被留下概率和/或该第n个分词的被删除概率。其中,“第n个分词的被留下概率”用于表示该第n个分词不属于冗余词(也就是,该第n个分词不冗余)的可能性。“第n个分词的被删除概率”用于表示该第n个分词属于冗余词(也就是,该第n个分词冗余)的可能性
基于上述步骤31至步骤32的相关内容可知,若分词个数为N,则在获取到第n个分词的语义特征之后,可以由冗余识别层202针对该第n个分词的语义特征进行冗余识别处理,得到并输出该第n个分词的冗余识别结果,以使该第n个分词的冗余识别结果能够表示出该第n个分词属于冗余词的可能性。其中,n为正整数,n≤N,N为正整数,N表示分词个数。
此外,本申请实施例不限定冗余识别模型200的构建过程,例如,在一种可能的实施方式下,其具体可以包括步骤41-步骤43:
步骤41:利用至少一个第一样本文本和该至少一个第一样本文本的语义特征,对语言模型进行训练。
其中,第一样本文本是指在训练语言模型时所需使用的文本数据;而且本申请实施例不限定第一样本文本的个数,例如,其具体可以为Y。Y为正整数。
“第一样本文本的语义特征”用于表示该第一样本文本实际携带的语义信息。
本申请实施例不限定语言模型的训练过程,可以采用现有的或者未来出现的任一中语音模型训练方法进行实施。
基于上述步骤41的相关内容可知,在获取到Y个第一样本文本和该Y个第一样本文本的语义特征之后,可以利用该Y个第一样本文本及其语义特征训练语言模型,以使训练好的训练语言模型从第y个第一样本文本中提取到的语义特征尽可能地接近于(甚至,等于)该第y个第一样本文本的语义特征,从而使得该训练语言模型具有较好的语义提取性能。其中,y为正整数,y≤Y,Y为正整数。
步骤42:将语言模型,确定为冗余识别模型200中语义特征提取层201。
本申请实施例中,在获取到训练好的语言模型之后,可以利用该语言模型,对冗余识别模型200中语义特征提取层201进行初始化处理(例如,可以将该语言模型直接确定为语义特征提取层201。又如,还可以根据该语言模型的模型结构以及模型参数,确定语义特征提取层201的层结构以及层参数,以使该语义特征提取层201的层结构以及层参数分别与该语言模型的模型结构以及模型参数保持一致),如此使得初始化后的语义特征提取层201具有较好的语义提取性能。
步骤43:利用至少一个第二样本文本和该至少一个第二样本文本对应的冗余词标注信息,对冗余识别模型200进行训练。
其中,第二样本文本是指在训练冗余识别模型200时所需使用的文本数据;而且本申请实施例不限定第二样本文本的个数,例如,其具体可以为T。T为正整数。
“第二样本文本对应的冗余词标注信息”用于表示该第二样本文本中各词汇是否属于冗余词。
另外,本申请实施例不限定上述“至少一个第二样本文本和该至少一个第二样本文本对应的冗余词标注信息”的获取过程,例如,为了降低带标签的训练数据的获取难度,可以采用数据增强方式进行获取。基于此,本申请实施例提供了上述“至少一个第二样本文本和该至少一个第二样本文本对应的冗余词标注信息”的获取过程的一种可能的实施方式,其具体可以包括步骤51-步骤52:
步骤51:根据至少一个待处理文本和至少一个候选冗余词添加规则,确定至少一个文本增强数据和该至少一个文本增强数据对应的冗余词标注信息。
其中,待处理文本是指在对冗余识别模型200的训练数据进行数据增强处理时所需使用的文本数据;而且本申请实施例不限定待处理文本的个数,例如,其具体可以为R。R为正整数。
候选冗余词添加规则是指在向一个待处理文本进行冗余词添加处理时所需依据的规则;而且候选冗余词添加规则可以预先设定。
另外,本申请实施例不限定“候选冗余词添加规则”的个数,例如,其具体可以为E。
此外,在一些情况下,针对口语词以及重复词的删除需求比较高,故为了满足上述需求,该候选冗余词添加规则可以包括口语词添加规则和/或重叠词添加规则。其中,口语词添加规则是指在向一个待处理文本进行口语词添加处理时所需依据的规则。重叠词添加规则是指在向一个待处理文本进行重叠词添加处理时所需依据的规则。
文本增强数据是指通过对待处理文本进行冗余词添加得到的文本数据;而且本申请实施例不限定文本增强数据的个数,例如,其具体可以为K。其中,K为正整数。
需要说明的是,本申请实施例不限定“K”与“R”之间的大小关系,例如,其具体可以为K大于R。也就是,每个待处理文本可以被用于生成至少一个文本增强数据。
“文本增强数据对应的冗余词标注信息”用于表示该文本增强数据中各个词汇是否属于冗余词(也就是,该文本增强数据中各个词汇是否冗余)。
另外,本申请实施例不限定每个文本增强数据及其对应的冗余词标注信息的确定过程的实施方式,为了便于理解,下面以一个文本增强数据及其对应的冗余词标注信息的确定过程为例进行说明。
作为示例,假设上述“至少一个文本增强数据”包括目标文本增强数据。基于该假设可知,目标文本增强数据和所述目标文本增强数据对应的冗余词标注信息的确定过程,具体可以包括步骤511-步骤514:
步骤511:从至少一个候选冗余词添加规则中选择一个候选冗余词添加规则,确定为目标冗余词添加规则。
其中,目标冗余词添加规则是指在生成目标文本增强数据时所需使用的候选冗余词添加规则。
另外,本申请实施例不限定步骤511中“选择”的实施方式,例如,可以采用随机选择的方式进行实施。
步骤512:从至少一个待处理文本中选择一个待处理文本,确定为目标文本。
其中,目标文本是指在生成目标文本增强数据时所需使用的待处理文本。
另外,本申请实施例不限定步骤512中“选择”的实施方式,例如,可以采用随机选择的方式进行实施。
步骤513:按照目标冗余词添加规则,对目标文本进行冗余词添加处理,得到目标文本增强数据。
其中,目标文本增强数据可以是指上述“至少一个文本增强数据”中任一文本增强数据。
本申请实施例中,在获取到目标冗余词添加规则和目标文本之后,可以按照该目标冗余词添加规则,对该目标文本进行冗余词添加处理,得到目标文本增强数据,以使该目标文本增强数据至少包括按照该目标冗余词添加规则所添加的冗余词。
步骤514:根据目标文本增强数据和目标文本,确定该目标文本增强数据对应的冗余词标注信息。
为了便于理解步骤514,下面结合两个示例进行说明。
示例1,若目标文本中不存在冗余词,则步骤514具体可以包括步骤61-步骤64:
步骤61:对目标文本增强数据进行分词处理,得到该目标文本增强数据对应的分词集合。
其中,“目标文本增强数据对应的分词集合”是指该目标文本增强数据中所有词汇的集合。
步骤62:对目标文本进行分词处理,得到该目标文本对应的分词集合。
其中,“目标文本对应的分词集合”是指该目标文本中所有词汇的集合。
步骤63:将目标文本增强数据对应的分词集合与目标文本对应的分词集合之间的差集,确定为该目标文本增强数据对应的冗余词集。
其中,“目标文本增强数据对应的冗余词集”用于表示目标文本增强数据与目标文本之间的词汇差异性。
步骤64:根据目标文本增强数据对应的冗余词集,对该目标文本增强数据进行冗余词标注处理,得到该目标文本增强数据对应的冗余词标注信息。
本申请实施例中,在获取到目标文本增强数据对应的冗余词集之后,可以按照该目标文本增强数据对应的冗余词集,对该目标文本增强数据进行冗余词标注处理,得到该目标文本增强数据对应的冗余词标注信息,以使该冗余词标注信息能够准确地表示出上述“目标文本增强数据对应的冗余词集”中各个词汇在该目标文本增强数据中均被标注为冗余词,并表示出该目标文本增强数据中除了上述“目标文本增强数据对应的冗余词集”中各个词汇以外的其他词汇均被标注为非冗余词。
基于上述步骤61至步骤64的相关内容可知,对于不包括冗余词的目标文本来说,可以先根据目标文本增强数据与目标文本之间的词汇差异性,确定该目标文本增强数据对应的冗余词;再依据该目标文本增强数据对应的冗余词,对该目标文本增强数据进行冗余词标注处理,得到该目标文本增强数据对应的冗余词标注信息,以使该冗余词标注信息能够准确地表示出该目标文本增强数据中各个词汇是否属于冗余词。
示例2,若目标文本中存在冗余词,则步骤514具体可以包括步骤71-步骤74:
步骤71:对目标文本增强数据进行分词处理,得到该目标文本增强数据对应的分词集合。
步骤72:对目标文本进行分词处理,得到该目标文本对应的分词集合。
步骤73:将目标文本增强数据对应的分词集合与该目标文本对应的分词集合之间的差集,确定为该目标文本增强数据对应的冗余词集。
需要说明的是,步骤71-步骤73的相关内容请分别参见上文步骤61-步骤63。
步骤74:根据目标文本增强数据对应的冗余词集、以及目标文本对应的冗余词标注信息,对该目标文本增强数据进行冗余词标注处理,得到该目标文本增强数据对应的冗余词标注信息。
其中,“目标文本对应的冗余词标注信息”用于表示该目标文本中各个词汇是否属于冗余词。
可见,在获取到目标文本增强数据对应的冗余词集以及目标文本对应的冗余词标注信息之后,可以同时按照该冗余词集以及目标文本对应的冗余词标注信息,对该目标文本增强数据进行冗余词标注处理,得到该目标文本增强数据对应的冗余词标注信息,以使该冗余词标注信息能够准确地表示出“目标文本增强数据对应的冗余词集”中各个词汇以及“目标文本”中各冗余词在该目标文本增强数据中均被标注为冗余词,并表示出该目标文本增强数据中除了“目标文本增强数据对应的冗余词集”中各个词汇以及“目标文本”中各冗余词以外的其他词汇均被标注为非冗余词。
基于上述步骤71至步骤74的相关内容可知,对于包括至少一个冗余词的目标文本来说,可以先参考该目标文本中冗余词、以及根据目标文本增强数据与目标文本之间的词汇差异性,确定该目标文本增强数据对应的冗余词;再依据该目标文本增强数据对应的冗余词,对该目标文本增强数据进行冗余词标注处理,得到该目标文本增强数据对应的冗余词标注信息,以使该冗余词标注信息能够准确地表示出该目标文本增强数据中各个词汇是否属于冗余词。
基于上述步骤514的相关内容可知,在获取到目标文本增强数据之后,可以参考该目标文本增强数据与目标文本之间的词汇差异性(以及该目标文本中冗余词),确定该目标文本增强数据对应的冗余词标注信息,以使该冗余词标注信息能够准确地表示出该目标文本增强数据中各个词汇是否属于冗余词,从而使得该冗余词标注信息能够准确地表示出该目标文本增强数据中冗余词在该目标文本增强数据中所处位置。
需要说明的是,步骤51中各个文本增强数据及其对应的冗余词标注信息均可以采用上述步骤511-步骤514进行确定。
基于上述步骤51的相关内容可知,在获取到至少一个待处理文本和至少一个候选冗余词添加规则之后,可以利用这些待处理文本和这些候选冗余词添加规则,确定至少一个文本增强数据和该至少一个文本增强数据对应的冗余词标注信息,以便后续能够参考这些文本增强数据及其对应的冗余词标注信息,构建训练冗余识别模型时所需使用的训练数据及其对应的标签信息,如此有利于提高训练冗余识别模型时所需使用的训练数据的数据量,从而有利于提高训练冗余识别模型的训练效果。
步骤52:根据至少一个文本增强数据、该至少一个文本增强数据对应的冗余词标注信息、至少一个文本标注数据、和该至少一个文本标注数据对应的冗余词标注信息,确定至少一个第二样本文本和该至少一个第二样本文本对应的冗余词标注信息。
其中,文本标注数据是指预先获取到的带有冗余词标注信息的文本数据。
需要说明的是,本申请实施例不限定“至少一个文本标注数据”与上文“至少一个待处理文本”之间的关联关系,例如,两者可以完全无关。又如,两者可以存在部分重叠。还如,两者可以完全相同。
“文本标注数据对应的冗余词标注信息”用于表示该文本标注数据中各个词汇是否是冗余词;而且,本申请实施例不限定“文本标注数据对应的冗余词标注信息”的标注方式,例如,可以采用人工标注方式进行实施。
基于上述步骤52的相关内容可知,可以根据至少一个文本增强数据、该至少一个文本增强数据对应的冗余词标注信息、至少一个文本标注数据、和该至少一个文本标注数据对应的冗余词标注信息,确定至少一个第二样本文本和该至少一个第二样本文本对应的冗余词标注信息,以使该“至少一个第二样本文本”包括“至少一个文本增强数据”和“至少一个文本标注数据”,并使得该“至少一个文本标注数据对应的冗余词标注信息”包括“至少一个文本增强数据对应的冗余词标注信息”和“至少一个文本标注数据对应的冗余词标注信息”。
基于上述步骤51至步骤52的相关内容可知,基于数据增强方式以及一些带有冗余词标注信息的文本数据,确定上述“至少一个第二样本文本和该至少一个第二样本文本对应的冗余词标注信息”,以便后续能够利用这些第二样本文本及其对应的冗余词标注信息训练冗余识别模型200,如此有利于提高训练冗余识别模型时所需使用的训练数据的数据量,从而有利于提高训练冗余识别模型的训练效果。
此外,本申请实施例不限定冗余识别模型200的训练过程,可以采用现有的或者未来出现的任一种模型训练方法进行实施。
基于上述步骤41至步骤43的相关内容可知,在一些情况下,可以根据预训练的语音模型,构建冗余识别模型200,以使该冗余识别模型200能够具有较好的冗余识别性能,以便后续能够利用该冗余识别模型200针对该冗余识别模型200的输入数据(如,上文“至少一个分词的词向量”)进行准确地地冗余识别处理。
在一种可能的实施方式下,为了提高冗余词过滤的灵活性,本申请实施例还提供了终端用户设定“冗余词过滤参数值”的一种可能的实施方式,其具体可以包括:在获取到终端用户在预设控件上触发的冗余词过滤参数值更新请求之后,对冗余词过滤参数值进行更新。
其中,预设控件是指预先设定的由终端用户设置冗余词过滤参数值时所需使用的控件;而且本申请实施例不限定预设控件,例如,该预设控件可以是一个开关控件,也可以是一个列表控件,还可以是一组按钮,以使不同按钮对应于不同冗余词过滤参数值。
冗余词过滤参数值更新请求用于请求针对冗余词过滤参数值更新请求进行更新;而且本申请实施例不限定“冗余词过滤参数值更新请求”的触发时间,可以在任意时间进行触发。
基于上述实施方式的相关内容可知,在一些情况下,终端用户可以借助预设控件设定满足其个人需求的冗余词过滤参数值,以使待过滤文本对应的过滤后文本能够随着冗余词过滤参数值的更新而进行相应地更新,从而使得该过滤后文本能够实时地符合该终端用户针对冗余词过滤的个人需求,如此有利于提高冗余词过滤的灵活性。
在一种可能的实施方式,为了提高冗余词过滤效果,本申请实施例还提供了S3的一种可能的实施方式,其具体可以包括S31-S33:
S31:根据待过滤文本的冗余词识别结果和预设过滤阈值,确定该待过滤文本对应的冗余词标注结果。
其中,预设过滤阈值是指预先设定的冗余词过滤阈值;而且,本申请实施例不限定预设过滤阈值,例如,在一种可能的实施方式中,该预设过滤阈值可以包括至少一个候选词汇对应的过滤阈值。其中,“候选词汇对应的冗余阈值”是指对该候选词汇进行冗余判定时所需依据的过滤阈值(如,被留下概率阈值,和/或,被删除概率阈值)。其中,“被留下概率阈值”是指预先设定的被留下概率的最小值。“被删除概率阈值”是指预先设定的被删除概率的最大值。
“待过滤文本对应的冗余词标注结果”用于表示该待过滤文本中各个词汇是否为冗余词,以使该“待过滤文本对应的冗余词标注结果”能够准确地表示出该待过滤文本中冗余词在该待过滤文本中所处位置。
另外,本申请实施例不限定S31的实施方式,例如,当待过滤文本包括N个词汇,该待过滤文本中第n个词汇的冗余词识别结果包括该第n个词汇的被留下概率,且预设过滤阈值包括目标词汇对应的被留下概率阈值时,若该第n个词汇的被留下概率高于“目标词汇对应的被留下概率阈值”,则表示该第n个词汇不属于冗余词,故可以将该第n个词汇标注为非冗余词;若该第n个词汇的被留下概率不高于“目标词汇对应的被留下概率阈值”,则表示该第n个词汇属于冗余词,故可以将该第n个词汇标注为冗余词。其中,“目标词汇”是指与第n个词汇匹配成功(如,相同或者相似程度达到预设阈值)的候选词汇。
又如,当待过滤文本包括N个词汇,该待过滤文本中第n个词汇的冗余词识别结果包括该第n个词汇的被删除概率,且预设过滤阈值包括目标词汇对应的被删除概率阈值时,若该第n个词汇的被删除概率低于“目标词汇对应的被删除概率阈值”,则表示该第n个词汇不属于冗余词,故可以将该第n个词汇标注为非冗余词;若该第n个词汇的被删除概率不低于“目标词汇对应的被删除概率阈值”,则表示该第n个词汇属于冗余词,故可以将该第n个词汇标注为冗余词。
在一些情况下,为了进一步提高冗余词过滤的灵活性,可以预先设定一个词汇白名单,以使该词汇白名单用于记录一些词汇对应的过滤阈值。基于此,本申请实施例还提供了S1的一种可能的实施方式,下面结合一个词汇对应的冗余词标注结果的确定过程为例进行说明。
作为示例,假设待过滤文本包括目标词汇。基于此该假设可知,目标词汇对应的冗余词标注结果的确定过程,具体可以包括步骤81-步骤82:
步骤81:若预设词汇白名单中存在与目标词汇匹配的匹配词汇,则根据该预设词汇白名单确定该目标词汇对应的过滤阈值。其中,预设词汇白名单包括目标词汇的过滤阈值与匹配词汇之间的对应关系。
其中,预设词汇白名单用于记录至少一个候选词汇对应的过滤阈值;而且“候选词汇”以及“候选词汇对应的过滤阈值”均可以预先设定。
目标词汇可以是指待过滤文本中任一词汇。
匹配词汇是指在预设词汇白名单中与目标词汇匹配的候选词汇。需要说明的是,本申请实施例不限定上述“匹配”,例如,其可以是指字符相同。
基于上述步骤81的相关内容可知,对于待过滤文本中任一词汇来说,若预设词汇白名单中存在与该词汇匹配的候选词汇,则可以依据该候选词汇对应的过滤阈值,确定该词汇对应的过滤阈值(例如,直接将该候选词汇对应的过滤阈值,确定为该词汇对应的过滤阈值),以便后续能够参考该过滤阈值针对该词汇进行冗余词标注处理。
步骤82:根据目标词汇对应的过滤阈值和该目标词汇对应的冗余词识别结果,确定该目标词汇对应的冗余词标注结果。
其中,“目标词汇对应的冗余词识别结果”用于表示该目标词汇冗余的可能性。
“目标词汇对应的冗余词标注结果”用于表示该目标词汇是否冗余(也就是,表示该目标词汇是否为冗余词)。
另外,本申请实施例不限定步骤82的实施方式,例如,假设目标词汇对应的过滤阈值包括该目标词汇对应的被留下概率阈值,且该目标词汇对应的冗余词识别结果包括该目标词汇对应的被留下概率,则步骤82具体可以包括:判断该目标词汇对应的被留下概率是否高于该目标词汇对应的被留下概率阈值,若是,则将该目标词汇标注为非冗余词;若否,则将该目标词汇标注为冗余词。
基于上述S31的相关内容可知,在获取到待过滤文本的冗余词识别结果之后,可以根据待过滤文本的冗余词识别结果和预设过滤阈值,确定该待过滤文本对应的冗余词标注结果,以使该冗余词标注结果能够准确地表示出该待过滤文本中冗余词在该待过滤文本中所处位置。
S32:按照冗余词过滤参数值和待过滤文本对应的冗余词标注结果,对该待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本。
作为示例,假设冗余词过滤参数值可以代表弱过滤或者强过滤,则S32具体可以包括S321-S322:
S321:若冗余词过滤参数值满足弱过滤条件,则按照待过滤文本对应的冗余词标注结果和预设弱过滤规则,对待过滤文本进行冗余词过滤,得到待过滤文本对应的过滤后文本。
其中,弱过滤条件是指预先设定的触发弱过滤过程所需使用的冗余词过滤参数值;而且本申请实施例不限定“弱过滤条件”,例如,其具体可以为“冗余词过滤参数值为第一参数值”。
“弱过滤”是指一种过滤强度比较低的冗余词过滤方式;而且本申请实施例不限定“弱过滤”,例如,“弱过滤”用于针对预设冗余词类型进行过滤。其中,预设冗余词类型可以预先设定,例如,该预设冗余词类型可以包括语气词和/或重叠词。
预设弱过滤规则是指预先设定的适于被弱过滤处理的冗余词(如,语气词和/或重叠词)所满足的规则。
另外,本申请实施例不限定S321的实施方式,例如,在一种可能的实施方式中,S321具体可以包括S3211-S3212:
S3211:根据待过滤文本对应的冗余词标注结果和预设弱过滤规则,确定该待过滤文本对应的弱过滤标注结果。
其中,“待过滤文本对应的弱过滤标注结果”用于表示该待过滤文本中各个词汇是否需要在弱过滤过程中被删除,以使该“待过滤文本对应的弱过滤标注结果”能够准确地表示出在针对该待过滤文本进行弱过滤时需要被删除的词汇在该待过滤文本中所处位置。可见,上述“在针对该待过滤文本进行弱过滤时需要被删除的词汇”既属于上述“待过滤文本对应的冗余词标注结果”所标注的冗余词,而且又满足预设弱过滤规则。
另外,本申请实施例不限定S3211的实施方式,例如,在一种可能的实施方式中,若“待过滤文本对应的冗余词标注结果”表示该待过滤文本包括J个冗余词,则S3211具体可以包括S32111-S32113:
S32111:若待过滤文本中第j个冗余词满足预设弱过滤规则,则确定该第j个冗余词属于弱过滤词,并将第一弱过滤标注值(如,1)确定为该第j个冗余词对应的弱过滤标注结果。其中,j为正整数,j≤J,J为正整数。
S32112:若该待过滤文本中第j个冗余词不满足预设弱过滤规则,则确定该第j个冗余词不属于弱过滤词,并将第二弱过滤标注值(如,0)确定为该第j个冗余词对应的弱过滤标注结果。其中,j为正整数,j≤J,J为正整数。
S32113:将第二弱过滤标注值(如,0)确定为待过滤文本中除了J个冗余词以外的其他任一词汇对应的弱过滤标注结果。
基于上述S3211的相关内容可知,在获取到待过滤文本对应的冗余词标注结果之后,若确定冗余词过滤参数值满足弱过滤条件,则可以先借助预设弱过滤规则,对该冗余词标注结果所表示的冗余词进行筛选,得到该待过滤文本对应的弱过滤词;再按照该待过滤文本对应的弱过滤词,对该待过滤文本进行弱过滤词标注,得到该待过滤文本对应的弱过滤标注结果。
S3212:按照待过滤文本对应的弱过滤标注结果,对待过滤文本进行冗余词过滤,得到待过滤文本对应的过滤后文本。
本申请实施例中,在获取到待过滤文本对应的弱过滤标注结果之后,可以按照该弱过滤标注结果,对该待过滤文本进行冗余词过滤,以将各个弱过滤词(例如,具有第一弱过滤标注值的词汇)从该待过滤文本中删除,得到待过滤文本对应的过滤后文本,以使该过滤后文本中不存在弱过滤词(例如,具有第一弱过滤标注值的词汇),从而使得该过滤后文本满足针对冗余词进行弱过滤的需求。
基于上述S321的相关内容可知,在获取到待过滤文本对应的冗余词标注结果之后,若确定冗余词过滤参数值满足弱过滤条件,则确定需要针对待处理语音的待过滤文本进行弱过滤,故可以先参考待过滤文本对应的冗余词标注结果和预设弱过滤规则,对待过滤文本进行冗余词过滤,得到待过滤文本对应的过滤后文本,以使该过滤后文本中不存在满足预设弱过滤规则的词汇,从而使得该过滤后文本满足针对冗余词进行弱过滤的需求。
S322:若冗余词过滤参数值满足强过滤条件,则按照待过滤文本对应的冗余词标注结果,对待过滤文本进行冗余词过滤,得到待过滤文本对应的过滤后文本。
其中,强过滤条件是指预先设定的触发强过滤过程所需使用的冗余词过滤参数值;而且本申请实施例不限定“强过滤条件”,例如,其具体可以为“冗余词过滤参数值为第二参数值”。
“强过滤”是指一种过滤强度比较高的冗余词过滤方式;而且本申请实施例不限定“强过滤”,例如,“强过滤”用于针对所有类型冗余词均进行过滤。
基于上述S322的相关内容可知,在获取到待过滤文本对应的冗余词标注结果之后,若确定冗余词过滤参数值满足强过滤条件,则确定需要针对待处理语音的待过滤文本进行强过滤,故可以按照该冗余词标注结果,对待过滤文本进行冗余词过滤,以将所有冗余词从该待过滤文本中删除,得到待过滤文本对应的过滤后文本,以使该过滤后文本中不存在由“冗余词标注结果”所表示的冗余词,从而使得该过滤后文本满足针对冗余词进行强过滤的需求。
基于上述S31至S32的相关内容可知,在获取到待过滤文本的冗余词识别结果之后,可以先参考该冗余词识别结果以及预设过滤阈值,确定该待过滤文本对应的冗余词标注结果能够准确地表示出该待过滤文本中各个词汇是否为冗余词;再按照冗余词过滤参数值和该冗余词标注结果,对该待过滤文本进行冗余词过滤,得到待过滤文本对应的过滤后文本,以使该过滤后文本中存在较少的冗余词(甚至不存在冗余词),从而使得该过滤后文本能够更简洁地表示出待过滤文本携带的语义信息,如此能够有效地克服该待过滤文本携带的无意义信息造成的不良影响,从而能够有效地提高该过滤后文本的信息表达效果。
另外,在一些情况下,可以设定冗余识别模型的输入数据的最大长度。此时,为了满足该冗余识别模型的输入长度限制,本申请实施例还提供了冗余词过滤方法的一种可能的实施方式,其具体可以包括步骤91-步骤99:
步骤91:获取待过滤文本。
需要说明的是,步骤91的相关内容请参见上文S1。
步骤92:利用预设滑窗对待过滤文本进行分段处理,得到G个文本片段和该G个文本片段对应的文本位置。其中,G为正整数。
其中,预设滑窗是指预先设定的用于进行文本分段的滑动窗口;而且,本申请实施例不限定预设滑窗,例如,预设滑窗的窗口长度(例如,64)可以依据上述“冗余识别模型的输入数据的最大长度”确定(例如,可以直接将上述“冗余识别模型的输入数据的最大长度”确定为该预设滑窗的窗口长度);而且该预设滑窗的移动步长(例如,5)可以依据上述“冗余识别模型的输入数据的最大长度”和预设重叠率进行确定(例如,预设滑窗的移动步长=冗余识别模型的输入数据的最大长度-冗余识别模型的输入数据的最大长度×预设重叠率)。其中,预设重叠率用于描述相邻文本片段之间的重叠比例;而且该预设重叠率可以预先设定。
第g个文本片段是指由预设滑窗在待过滤文本中第g个窗口位置截取的文本数据。其中,第g个窗口位置是指由预设滑窗在待过滤文本上移动g-1次所到达的位置。其中,g为正整数,g≤G。
第g个文本片段对应的文本位置用于描述该第g个文本片段在待过滤文本中所处位置。其中,g为正整数,g≤G。
步骤93:对第g个文本片段进行冗余词识别,得到该第g个文本片段的冗余词识别结果。其中,g为正整数,g≤G。
步骤94:按照冗余词过滤参数值和第g个文本片段的冗余词识别结果,对该第g个文本片段进行冗余词过滤,得到该第g个文本片段对应的过滤后文本。其中,g为正整数,g≤G。
需要说明的是,步骤93-步骤94可以采用上文S2-S3的任一实施方式进行实施,只需将上文S2-S3的任一实施方式中“待过滤文本”替换为“第g个文本片段”即可。
步骤95:按照G个文本片段对应的文本位置,将该G个文本片段对应的过滤后文本进行拼接,得到待过滤文本对应的过滤后文本。
本申请实施例中,在获取到第1个文本片段对应的过滤后文本至第G个文本片段对应的过滤后文本之后,可以将该G个文本片段对应的过滤后文本按照该G个文本片段对应的文本位置进行拼接,得到待过滤文本对应的过滤后文本,以使该过滤后文本能够更简洁地表示出该待过滤文本携带的语义信息。
基于上述步骤91至步骤95的相关内容可知,对于待处理语音来说,在获取到该待过滤文本对应的过滤后文本之后,可以将该过滤后文本进行分段处理,得到该过滤后文本对应的至少一个文本片段;再针对该至少一个文本片段进行冗余词删除处理(尤其是,可以并行进行冗余词删除处理),得到该至少一个文本片段对应的过滤后文本;最后,将该至少一个文本片段对应的过滤后文本进行拼接,得到该待过滤文本对应的过滤后文本,以使该过滤后文本能够更简洁地表示出该待过滤文本携带的语义信息,如此有利于提高冗余词过滤效率。
基于上述方法实施例提供的冗余词过滤方法,本申请实施例还提供了一种冗余词过滤装置,下面结合附图进行解释和说明。
需要说明的是,装置实施例提供的冗余词过滤装置的技术详情,请参照上述方法实施例。
参见图3,该图为本申请实施例提供的一种冗余词过滤装置的结构示意图。
本申请实施例提供的冗余词过滤装置300,包括:
文本获取单元301,用于获取待过滤文本;
冗余词识别单元302,用于对所述待过滤文本进行冗余词识别,得到所述待过滤文本的冗余词识别结果;
冗余词过滤单元303,用于按照冗余词过滤参数值和所述待过滤文本的冗余词识别结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本。
在一种可能的实施方式中,所述冗余词识别单元302,具体用于:
对所述待过滤文本进行分词处理,得到至少一个分词;
对各个分词进行词向量提取处理,得到各个分词的词向量;
将所述至少一个分词的词向量输入预先构建的冗余识别模型,得到所述冗余识别模型输出的所述至少一个分词的冗余识别结果;
根据所述至少一个分词的冗余识别结果,确定所述待过滤文本的冗余词识别结果。
在一种可能的实施方式中,所述冗余词识别单元302,包括:
分词子单元,用于对所述待过滤文本进行分词处理,得到至少一个分词;
分字子单元,用于对所述待过滤文本进行分字处理,得到至少一个单字;
特征提取子单元,用于对各个所述单字进行特征提取处理,得到各个单字的特征向量;
冗余识别子单元,用于将所述至少一个单字的特征向量输入预先构建的冗余识别模型,得到所述冗余识别模型输出的所述至少一个单字的冗余识别结果;
第一确定子单元,用于根据所述至少一个单字与所述至少一个分词之间的对应关系、以及所述至少一个单字的冗余识别结果,确定所述至少一个分词的冗余识别结果;
第二确定子单元,用于根据所述至少一个分词的冗余识别结果,确定所述待过滤文本的冗余词识别结果。
在一种可能的实施方式中,所述第一确定子单元,具体用于:若所述分词的个数为N,则基于所述第n个分词所包括的各单字的冗余识别结果的均值,确定所述第n个分词的冗余识别结果;其中,n为正整数,n≤N,N为正整数。
在一种可能的实施方式中,所述冗余识别模型包括语义特征提取层和冗余识别层;其中,所述冗余识别层的输入数据包括所述语义特征提取层的输出数据;
所述冗余识别模型的构建过程,包括:利用至少一个第一样本文本和所述至少一个第一样本文本的语义特征,对语言模型进行训练;将所述语言模型确定为所述冗余识别模型中所述语义特征提取层;利用至少一个第二样本文本和所述至少一个第二样本文本对应的冗余词标注信息,对所述冗余识别模型进行训练。
在一种可能的实施方式中,所述至少一个第二样本文本和所述至少一个第二样本文本对应的冗余词标注信息的获取过程,包括:根据至少一个待处理文本和至少一个候选冗余词添加规则,确定至少一个文本增强数据和所述至少一个文本增强数据对应的冗余词标注信息;根据所述至少一个文本增强数据、所述至少一个文本增强数据对应的冗余词标注信息、至少一个文本标注数据、和所述至少一个文本标注数据对应的冗余词标注信息,确定所述至少一个第二样本文本和所述至少一个第二样本文本对应的冗余词标注信息。
在一种可能的实施方式中,所述至少一个文本增强数据包括目标文本增强数据,所述目标文本增强数据和所述目标文本增强数据对应的冗余词标注信息的确定过程,包括:从所述至少一个候选冗余词添加规则中选择一个候选冗余词添加规则,确定为目标冗余词添加规则;从所述至少一个待处理文本中选择一个待处理文本,确定为目标文本;按照所述目标冗余词添加规则,对所述目标文本进行冗余词添加处理,得到所述目标文本增强数据;根据所述目标文本增强数据和所述目标文本,确定所述目标文本增强数据对应的冗余词标注信息。
在一种可能的实施方式中,所述冗余词过滤单元303,包括:
第三确定子单元,用于根据所述冗余词识别结果和预设过滤阈值,确定所述待过滤文本对应的冗余词标注结果;
第一过滤子单元,用于按照冗余词过滤参数值和所述冗余词标注结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本。
在一种可能的实施方式中,所述第一过滤子单元,包括:
第二过滤子单元,用于若所述冗余词过滤参数值满足弱过滤条件,则按照所述待过滤文本对应的冗余词标注结果和预设弱过滤规则,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本。
在一种可能的实施方式中,所述第二过滤子单元,具体用于:根据所述待过滤文本对应的冗余词标注结果和预设弱过滤规则,确定所述待过滤文本对应的弱过滤标注结果;按照所述待过滤文本对应的弱过滤标注结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本。
在一种可能的实施方式中,所述第一过滤子单元,包括:
第三过滤子单元,用于若所述冗余词过滤参数值满足强过滤条件,则按照所述待过滤文本对应的冗余词标注结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本。
在一种可能的实施方式中,所述待过滤文本包括目标词汇,且所述第三确定子单元,具体用于:若预设词汇白名单中存在与所述目标词汇匹配的匹配词汇,则根据所述预设词汇白名单确定所述目标词汇对应的过滤阈值;其中,所述预设词汇白名单包括所述目标词汇对应的过滤阈值与所述匹配词汇之间的对应关系;根据所述目标词汇对应的过滤阈值和所述目标词汇对应的冗余词识别结果,确定所述目标词汇对应的冗余词标注结果。
在一种可能的实施方式中,所述文本获取单元301,具体用于:在获取到待处理语音之后,对所述待处理语音进行语音识别,得到所述待过滤文本。
在一种可能的实施方式中,所述冗余词过滤装置300还包括:
语音接收单元,用于在接收到当前语音之后,将所述当前语音确定为待处理语音。
在一种可能的实施方式中,所述冗余词过滤装置300还包括:
参数更新单元,用于在获取到终端用户在预设控件上触发的冗余词过滤参数值更新请求之后,对所述冗余词过滤参数值进行更新。
在一种可能的实施方式中,所述冗余词过滤装置300还包括:
文本分段单元,用于利用预设滑窗对待过滤文本进行分段处理,得到至少一个文本片段和所述至少一个文本片段对应的文本位置;
所述冗余词识别单元302,具体用于:分别对各所述文本片段进行冗余词识别,得到各所述文本片段的冗余词识别结果;
所述冗余词过滤单元303,具体用于:按照所述冗余词过滤参数值和各所述文本片段的冗余词识别结果,分别对各所述文本片段进行冗余词过滤,得到各所述文本片段对应的语音文本;按照所述至少一个文本片段对应的文本位置,将所述至少一个文本片段对应的语音文本进行拼接,得到所述待过滤文本对应的过滤后文本。
基于上述冗余词过滤装置300的相关内容可知,对于冗余词过滤装置300来说,在获取到待过滤文本之后,可以先对该待过滤文本进行冗余词识别,得到该待过滤文本的冗余词识别结果,以使该冗余词识别结果能够表示出该待过滤文本中各个词汇属于冗余词的可能性;再按照冗余词过滤参数值和该待过滤文本的冗余词识别结果,对该待过滤文本进行冗余词过滤,得到该待过滤文本对应的过滤后文本,以使该过滤后文本中存在较少的冗余词(甚至不存在冗余词),从而使得该过滤后文本能够更简洁地表示出待过滤文本携带的语义信息,如此能够有效地克服该待过滤文本携带的无意义信息造成的不良影响,从而能够有效地提高该过滤后文本的信息表达效果。
另外,还因该冗余词过滤参数值用于表示针对该待过滤文本进行冗余词过滤的过滤强度,使得按照该冗余词过滤参数值进行的冗余词过滤过程能够更符合终端用户的冗余词过滤强度需求,从而使得基于该冗余词过滤参数值过滤得到的过滤后文本更符合终端用户针对文本数据的简洁性需求,如此有利于提高终端用户的文本体验。
进一步地,本申请实施例还提供了一种设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行本申请实施例提供的冗余词过滤方法的任一实施方式。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行本申请实施例提供的冗余词过滤方法的任一实施方式。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行本申请实施例提供的冗余词过滤方法的任一实施方式。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (20)
1.一种冗余词过滤方法,其特征在于,所述方法包括:
获取待过滤文本;
对所述待过滤文本进行冗余词识别,得到所述待过滤文本的冗余词识别结果;
按照冗余词过滤参数值和所述待过滤文本的冗余词识别结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本;其中,所述冗余词过滤参数值用于表示针对所述待过滤文本进行冗余词过滤的过滤强度。
2.根据权利要求1所述的方法,其特征在于,所述对所述待过滤文本进行冗余词识别,得到所述待过滤文本的冗余词识别结果,包括:
对所述待过滤文本进行分词处理,得到至少一个分词;
对各个分词进行词向量提取处理,得到各个分词的词向量;
将所述至少一个分词的词向量输入预先构建的冗余识别模型,得到所述冗余识别模型输出的所述至少一个分词的冗余识别结果;
根据所述至少一个分词的冗余识别结果,确定所述待过滤文本的冗余词识别结果。
3.根据权利要求1所述的方法,其特征在于,所述对所述待过滤文本进行冗余词识别,得到所述待过滤文本的冗余词识别结果,包括:
对所述待过滤文本进行分词处理,得到至少一个分词;
对所述待过滤文本进行分字处理,得到至少一个单字;
对各个所述单字进行特征提取处理,得到各个单字的特征向量;
将所述至少一个单字的特征向量输入预先构建的冗余识别模型,得到所述冗余识别模型输出的所述至少一个单字的冗余识别结果;
根据所述至少一个单字与所述至少一个分词之间的对应关系、以及所述至少一个单字的冗余识别结果,确定所述至少一个分词的冗余识别结果;
根据所述至少一个分词的冗余识别结果,确定所述待过滤文本的冗余词识别结果。
4.根据权利要求3所述的方法,其特征在于,若所述分词的个数为N,则所述第n个分词的冗余识别结果的确定过程,包括:
基于所述第n个分词所包括的各单字的冗余识别结果的均值,确定所述第n个分词的冗余识别结果;其中,n为正整数,n≤N,N为正整数。
5.根据权利要求2-4任一项所述的方法,其特征在于,所述冗余识别模型包括语义特征提取层和冗余识别层;其中,所述冗余识别层的输入数据包括所述语义特征提取层的输出数据;
所述冗余识别模型的构建过程,包括:
利用至少一个第一样本文本和所述至少一个第一样本文本的语义特征,对语言模型进行训练;
将所述语言模型确定为所述冗余识别模型中所述语义特征提取层;
利用至少一个第二样本文本和所述至少一个第二样本文本对应的冗余词标注信息,对所述冗余识别模型进行训练。
6.根据权利要求5所述的方法,其特征在于,所述至少一个第二样本文本和所述至少一个第二样本文本对应的冗余词标注信息的获取过程,包括:
根据至少一个待处理文本和至少一个候选冗余词添加规则,确定至少一个文本增强数据和所述至少一个文本增强数据对应的冗余词标注信息;
根据所述至少一个文本增强数据、所述至少一个文本增强数据对应的冗余词标注信息、至少一个文本标注数据、和所述至少一个文本标注数据对应的冗余词标注信息,确定所述至少一个第二样本文本和所述至少一个第二样本文本对应的冗余词标注信息。
7.根据权利要求6所述的方法,其特征在于,所述至少一个文本增强数据包括目标文本增强数据,所述目标文本增强数据和所述目标文本增强数据对应的冗余词标注信息的确定过程,包括:
从所述至少一个候选冗余词添加规则中选择一个候选冗余词添加规则,确定为目标冗余词添加规则;
从所述至少一个待处理文本中选择一个待处理文本,确定为目标文本;
按照所述目标冗余词添加规则,对所述目标文本进行冗余词添加处理,得到所述目标文本增强数据;
根据所述目标文本增强数据和所述目标文本,确定所述目标文本增强数据对应的冗余词标注信息。
8.根据权利要求1所述的方法,其特征在于,所述按照冗余词过滤参数值和所述待过滤文本的冗余词识别结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本,包括:
根据所述冗余词识别结果和预设过滤阈值,确定所述待过滤文本对应的冗余词标注结果;
按照冗余词过滤参数值和所述冗余词标注结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本。
9.根据权利要求8所述的方法,其特征在于,所述按照冗余词过滤参数值和所述冗余词标注结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本,包括:
若所述冗余词过滤参数值满足弱过滤条件,则按照所述待过滤文本对应的冗余词标注结果和预设弱过滤规则,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本。
10.根据权利要求9所述的方法,其特征在于,所述按照所述待过滤文本对应的冗余词标注结果和预设弱过滤规则,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本,包括:
根据所述待过滤文本对应的冗余词标注结果和预设弱过滤规则,确定所述待过滤文本对应的弱过滤标注结果;
按照所述待过滤文本对应的弱过滤标注结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本。
11.根据权利要求8所述的方法,其特征在于,所述按照冗余词过滤参数值和所述冗余词标注结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本,包括:
若所述冗余词过滤参数值满足强过滤条件,则按照所述待过滤文本对应的冗余词标注结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本。
12.根据权利要求8所述的方法,其特征在于,所述待过滤文本包括目标词汇,且所述目标词汇对应的冗余词标注结果的确定过程,包括:
若预设词汇白名单中存在与所述目标词汇匹配的匹配词汇,则根据所述预设词汇白名单确定所述目标词汇对应的过滤阈值;其中,所述预设词汇白名单包括所述目标词汇对应的过滤阈值与所述匹配词汇之间的对应关系;
根据所述目标词汇对应的过滤阈值和所述目标词汇对应的冗余词识别结果,确定所述目标词汇对应的冗余词标注结果。
13.根据权利要求1所述的方法,其特征在于,所述待过滤文本的获取过程包括:
在获取到待处理语音之后,对所述待处理语音进行语音识别,得到所述待过滤文本。
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:
在接收到当前语音之后,将所述当前语音确定为待处理语音。
15.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在获取到终端用户在预设控件上触发的冗余词过滤参数值更新请求之后,对所述冗余词过滤参数值进行更新。
16.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用预设滑窗对待过滤文本进行分段处理,得到至少一个文本片段和所述至少一个文本片段对应的文本位置;
所述对所述待过滤文本进行冗余词识别,得到所述待过滤文本的冗余词识别结果,包括:
分别对各所述文本片段进行冗余词识别,得到各所述文本片段的冗余词识别结果;
所述按照冗余词过滤参数值和所述待过滤文本的冗余词识别结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本,包括:
按照所述冗余词过滤参数值和各所述文本片段的冗余词识别结果,分别对各所述文本片段进行冗余词过滤,得到各所述文本片段对应的语音文本;
按照所述至少一个文本片段对应的文本位置,将所述至少一个文本片段对应的语音文本进行拼接,得到所述待过滤文本对应的过滤后文本。
17.一种冗余词过滤装置,其特征在于,包括:
文本获取单元,用于获取待过滤文本;
冗余词识别单元,用于对所述待过滤文本进行冗余词识别,得到所述待过滤文本的冗余词识别结果;
冗余词过滤单元,用于按照冗余词过滤参数值和所述待过滤文本的冗余词识别结果,对所述待过滤文本进行冗余词过滤,得到所述待过滤文本对应的过滤后文本。
18.一种设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序;
所述处理器用于根据所述计算机程序执行权利要求1-16中任一项所述的方法。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-16中任一项所述的方法。
20.一种计算机程序产品,其特征在于,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行权利要求1-16中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110818230.9A CN113468880A (zh) | 2021-07-20 | 2021-07-20 | 一种冗余词过滤方法及其相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110818230.9A CN113468880A (zh) | 2021-07-20 | 2021-07-20 | 一种冗余词过滤方法及其相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113468880A true CN113468880A (zh) | 2021-10-01 |
Family
ID=77881359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110818230.9A Pending CN113468880A (zh) | 2021-07-20 | 2021-07-20 | 一种冗余词过滤方法及其相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468880A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012212329A (ja) * | 2011-03-31 | 2012-11-01 | Tottori Univ | テキストデータの冗長性を解析する情報解析装置 |
CN111191450A (zh) * | 2019-12-27 | 2020-05-22 | 深圳市优必选科技股份有限公司 | 语料清洗方法、语料录入设备及计算机可读存储介质 |
CN111241820A (zh) * | 2020-01-14 | 2020-06-05 | 平安科技(深圳)有限公司 | 不良用语识别方法、装置、电子装置及存储介质 |
CN111767697A (zh) * | 2020-07-24 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备以及存储介质 |
-
2021
- 2021-07-20 CN CN202110818230.9A patent/CN113468880A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012212329A (ja) * | 2011-03-31 | 2012-11-01 | Tottori Univ | テキストデータの冗長性を解析する情報解析装置 |
CN111191450A (zh) * | 2019-12-27 | 2020-05-22 | 深圳市优必选科技股份有限公司 | 语料清洗方法、语料录入设备及计算机可读存储介质 |
CN111241820A (zh) * | 2020-01-14 | 2020-06-05 | 平安科技(深圳)有限公司 | 不良用语识别方法、装置、电子装置及存储介质 |
CN111767697A (zh) * | 2020-07-24 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11508366B2 (en) | Whispering voice recovery method, apparatus and device, and readable storage medium | |
CN110276259B (zh) | 唇语识别方法、装置、计算机设备及存储介质 | |
US10108709B1 (en) | Systems and methods for queryable graph representations of videos | |
CN112289323B (zh) | 语音数据处理方法、装置、计算机设备和存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
US20130346066A1 (en) | Joint Decoding of Words and Tags for Conversational Understanding | |
CN111785275A (zh) | 语音识别方法及装置 | |
CN112233680B (zh) | 说话人角色识别方法、装置、电子设备及存储介质 | |
CN113192516B (zh) | 语音角色分割方法、装置、计算机设备及存储介质 | |
CN113850162A (zh) | 一种视频审核方法、装置及电子设备 | |
CN110633475A (zh) | 基于计算机场景的自然语言理解方法、装置、系统和存储介质 | |
CN117337467A (zh) | 经由迭代说话者嵌入的端到端说话者分离 | |
WO2023124647A1 (zh) | 一种纪要确定方法及其相关设备 | |
CN114254587A (zh) | 主题段落划分方法、装置、电子设备及存储介质 | |
CN113569021B (zh) | 用户分类的方法、计算机设备和可读存储介质 | |
CN111488813A (zh) | 视频的情感标注方法、装置、电子设备及存储介质 | |
CN113095204B (zh) | 双录数据质检方法、装置及系统 | |
US11483208B2 (en) | System and method for reducing network traffic | |
CN112906391A (zh) | 元事件抽取方法、装置、电子设备和存储介质 | |
CN113468880A (zh) | 一种冗余词过滤方法及其相关设备 | |
CN116186258A (zh) | 基于多模态知识图谱的文本分类方法、设备及存储介质 | |
CN115565533A (zh) | 语音识别方法、装置、设备及存储介质 | |
CN113327619B (zh) | 一种基于云—边缘协同架构的会议记录方法及系统 | |
CN113393845A (zh) | 用于说话人识别的方法、装置、电子设备及可读存储介质 | |
CN111933187B (zh) | 情感识别模型的训练方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211001 |
|
RJ01 | Rejection of invention patent application after publication |