CN111737979A - 语音文本的关键词修正方法、装置、修正设备及存储介质 - Google Patents
语音文本的关键词修正方法、装置、修正设备及存储介质 Download PDFInfo
- Publication number
- CN111737979A CN111737979A CN202010560858.9A CN202010560858A CN111737979A CN 111737979 A CN111737979 A CN 111737979A CN 202010560858 A CN202010560858 A CN 202010560858A CN 111737979 A CN111737979 A CN 111737979A
- Authority
- CN
- China
- Prior art keywords
- keyword
- keywords
- corrected
- preset
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012937 correction Methods 0.000 title claims abstract description 36
- 238000000605 extraction Methods 0.000 claims abstract description 26
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012986 modification Methods 0.000 claims description 11
- 230000004048 modification Effects 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 4
- 238000012549 training Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000007689 inspection Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请适用于语音处理技术领域,提供了一种语音文本的关键词修正方法、装置、修正设备及存储介质。该方法包括:获取待处理语音文本,将待处理语音文本输入至预设关键词抽取模型,得到目标关键词,根据第一预设关键词库修正待修正关键词,得到第一已修正关键词,查找与第一已修正关键词属于同一实体的关联关键词,并根据关联关键词修正第一已修正关键词,得到第二已修正关键词。可见,本申请在获取根据语音音频转换的语音文本之后,对语音文本的关键词进行两次修正,避免了语音识别技术的语音识别结果会受到谐音字词、混淆音字词以及形似字等原因的干扰,达到提高语音识别结果准确率的效果。
Description
技术领域
本申请属于语音处理技术领域,尤其涉及一种语音文本的关键词修正方法、装置、修正设备及存储介质。
背景技术
目前,语音识别技术在生活中应用范围较为广泛,例如智能客服、智能质检、语音助手等都会应用到语音识别技术。但是现有的语音识别技术的语音识别结果会受到谐音字词、混淆音字词以及形似字等原因的干扰,从而导致语音识别结果不准确。
发明内容
本申请实施例提供了语音文本的关键词修正方法及装置,可以解决现有的语音识别技术的语音识别结果会受到谐音字词、混淆音字词以及形似字等原因的干扰,从而导致语音识别结果不准确问题。
第一方面,本申请实施例提供了一种语音文本的关键词修正方法,包括:
获取待处理语音文本;
将所述待处理语音文本输入至预设关键词抽取模型,得到目标关键词;
根据第一预设关键词库中错误关键词确定所述目标关键词中的待修正关键词,并根据第一预设关键词库中与所述错误关键词对应的正确关键词修正所述待修正关键词,得到第一已修正关键词;
查找与所述第一已修正关键词属于同一实体的关联关键词,并根据所述关联关键词修正所述第一已修正关键词,得到第二已修正关键词。
在第一方面的一种可能的实现方式中,获取待处理语音文本之前,还包括:
获取语音文本样本;
识别所述语音文本样本中的错误关键词;
获取与所错误关键词对应的正确关键词;
根据所述错误关键词以及与所述错误关键词对应的正确关键词构建第一预设关键词库。
在第一方面的一种可能的实现方式中,根据所述错误关键词以及与所述错误关键词对应的正确关键词构建第一预设关键词库之后,还包括:
识别所述语音文本样本的目标关键词;
根据所述目标关键词与所述语音文本样本的对应关系构建预设关键词抽取模型。
在第一方面的一种可能的实现方式中,查找与所述第一已修正关键词属于同一实体的关联关键词,并根据所述关联关键词修正所述第一已修正关键词,得到第二已修正关键词,包括:
根据预设后缀名词库识别所述第一已修正关键词的目标后缀名;
识别所述第一已修正关键词的特殊字符;
删除所述第一已修正关键词的目标后缀名以及特殊字符,得到所述第一已修正关键词所属的实体;
获取所述实体对应的关联关键词
根据所述关联关键词修正所述第一已修正关键词。
在第一方面的一种可能的实现方式中,查找与所述第一已修正关键词属于同一实体的关联关键词,并根据所述关联关键词修正所述第一已修正关键词,得到第二已修正关键词,还包括:
获取与所述第一已修正关键词关联度大于关联度阈值的第二预设关键词库,其中,所述第二预设关键词库包括至少一个关联关键词;
根据所述关联关键词修正所述第一已修正关键词。
第二方面,本申请实施例提供了一种语音文本的关键词修正装置,包括:
获取模块,用于获取待处理语音文本;
抽取模块,用于将所述待处理语音文本输入至预设关键词抽取模型,得到目标关键词;
第一修正模块,用于根据第一预设关键词库中错误关键词确定所述目标关键词中的待修正关键词,并根据第一预设关键词库中与所述错误关键词对应的正确关键词修正所述待修正关键词,得到第一已修正关键词;
第二修正模块,用于查找与所述第一已修正关键词属于同一实体的关联关键词,并根据所述关联关键词修正所述第一已修正关键词,得到第二已修正关键词。
在第二方面的一种可能的实现方式中,语音文本的关键词修正装置还包括:
样本获取模块,用于获取语音文本样本;
识别模块,用于识别语音文本样本中的错误关键词;
正确关键词获取模块,用于获取与所错误关键词对应的正确关键词;
构建模块,用于根据所述错误关键词以及与所述错误关键词对应的正确关键词构建第一预设关键词库。
在第二方面的一种可能的实现方式中,语音文本的关键词修正装置还包括:
目标关键词识别模块,用于识别语音文本样本的目标关键词;
关键词抽取模型构建模块,用于根据目标关键词与语音文本样本的对应关系构建预设关键词抽取模型。
在第二方面的一种可能的实现方式中,第二修正模块包括:
后缀名识别单元,用于根据预设后缀名词库识别所述第一已修正关键词的目标后缀名;
字符识别单元,用于识别第一已修正关键词的特殊字符;
删除单元,用于删除第一已修正关键词的目标后缀名以及特殊字符,得到所述第一已修正关键词所属的实体。
获取单元,用于获取所述实体对应的关联关键词;
修正单元,用于根据所述关联关键词修正所述第一已修正关键词。
在一种可能的实现方式中,第二修正模块还包括:
词库获取自模块,用于获取与所述第一已修正关键词关联度大于关联度阈值的第二预设关键词库,其中,所述第二预设关键词库包括至少一个关联关键词;
修正单元,根据关联关键词修正所述第一已修正关键词。
第三方面,本申请实施例提供了一种修正装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的方法。
第四方面,本申请实施例提供了一种存储介质,计算机程序被处理器执行时实现上述第一方面所述的方法。
本申请实施例与现有技术相比存在的有益效果是:本申请实施例在获取根据语音音频转换的语音文本之后,对语音文本的关键词进行两次修正,避免了语音识别技术的语音识别结果会受到谐音字词、混淆音字词以及形似字等原因的干扰,达到提高语音识别结果准确率的效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的语音文本的关键词修正方法的流程示意图;
图2是本申请实施例提供的语音文本的关键词修正方法的图1中步骤S101之前的流程示意图;
图3是本申请实施例提供的语音文本的关键词修正方法的图2中步骤S204之后的流程示意图;
图4是本申请实施例提供的语音文本的关键词修正方法的图1中步骤S104的一种具体流程示意图;
图5是本申请实施例提供的语音文本的关键词修正方法的图1中步骤S104的另一种具体流程示意图;
图6是本申请实施例提供的语音文本的关键词修正装置的结构示意图;
图7是本申请实施例提供的修正设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
下面通过具体实施例对本申请实施例提供的技术方案进行介绍。
参见图1,为本申请实施例提供的语音文本的关键词修正方法的流程示意图,作为示例而非限定,该方法可以应用于修正设备,其中,修正设备包括终端设备或者服务器,该方法可以包括以下步骤:
步骤S101、获取待处理语音文本。
其中,待处理语音文本是直接根据语音识别技术识别语音音频得到的,语音音频的来源可以是直接获取,例如,在智能客服的应用场景中,直接获取客户的语音音频,通过语音识别技术对客户的语音音频进行识别,得到待处理语音文本;语音音频的来源可以是间接获取的,例如,在语音质检的应用场景中,中转服务器存储有客服人员与客户的语音通话,从中转服务器间接获取客户人员与客户的语音通话,通过语音识别技术对客服人员与客户的语音通话进行识别,得到待处理语音文本。
作为示例而非限定,本申请实施例的语音识别技术可以是:先提取语音音频的声学特征,将声学特征输入预设的声学模型例如马尔科夫模型得到音频帧,然后再讲音频帧输入至预设的语音模型例如汉语语言模型(CLM,chinese Language Model),得到待处理语音文本。
在一些实施例中,获取待处理语音文本之前,需要构建第一预设关键词库。参见图2,为本申请实施例提供的语音文本的关键词修正方法的图1中步骤S101之前的流程示意图,获取待处理语音文本之前,还包括:
步骤S201、获取语音文本样本。
其中,语音文本样本可以是从公开的语料库中采集的,语料库中存储有覆盖有智能客服、智能质检以及语音助手等应用场景下的语音文本样本。
步骤S202、识别语音文本样本中的错误关键词。
其中,语音文本样本中的错误关键词可以是在不同应用场景下容易识别错误的关键词,例如,在语音助手的应用场景下,将客户原本的“上班时间”识别为“上班十天”,即这些错误关键词可以是在语料库中被较高频次关注的关键词,本申请实施例将语音文本样本中被较高频次关注的关键词作为错误关键词。
步骤S203、获取与错误关键词对应的正确关键词。
其中,正确关键词也是从公开的语料库中采集的,是与错误关键词对应的正确关键词,即被语音识别前真实的关键词,也可以理解为错误关键词校正后得到的正确关键词。
步骤S204、根据错误关键词以及与错误关键词对应的正确关键词构建第一预设关键词库。
具体应用中,本申请实施例采集到的错误关键词以及与错误关键词对应的正确关键词之后,对错误关键词与正确关键词进行匹配度分析,进一步加强错误关键词与正确关键词之间的对应关系,并根据错误关键词以及与错误关键词对应的正确关键词构建第一预设关键词库。
示例性的,对错误关键词与正确关键词进行匹配度分析可以是:计算错误关键词与正确关键词的编辑距离,将错误关键词与正确关键词的编辑距离作为匹配度,将匹配度小于匹配度阈值的正确关键词删除,得到匹配度大于匹配度阈值的错误关键词与正确关键词。
在一些实施例中,根据错误关键词以及与错误关键词对应的正确关键词构建第一预设关键词库,还需要构建预设关键词抽取模型。参见图3,为本申请实施例提供的语音文本的关键词修正方法的图2中步骤S204之后的流程示意图,根据错误关键词以及与错误关键词对应的正确关键词构建第一预设关键词库之后,还包括:
步骤S301、识别语音文本样本的目标关键词。
其中,目标关键词是指包含命名实体的关键词,命名实体包括人名、组织名、地点名、时间、质量等。
需说明的是,这里的语音文本样本于步骤S201的语音文本样本相同,即构建第一预设关键词库的数据来源与构建预设关键词抽取模型的数据来源相同。
步骤S302、根据目标关键词与语音文本样本的对应关系构建预设关键词抽取模型。
示例性的,本申请实施例的预设关键词抽取模型可以是在BiLSTM+CRF模型的基础上通过目标关键词与语音文本样本作为训练数据训练得到的。
具体地,先将语音文本样本划分为三部分,包括训练语音文本样本、测试语音文本样本以及验证语音文本样本,其中,训练语音文本样本的数据量占语音文本样本的总数据量的70%、测试语音文本样本的数据量占语音文本样本的总数据量的20%、验证语音文本样本的数据量占语音文本样本的总数据量的10%。
然后,对训练语音文本样本中每个字进行标注,得到语音文本样本中每个字的标注类型,例如,对训练语音文本样本的每个字进行BIO标注,得到每个字的BIO标注类型。这里需要理解的是,所谓BIO标注,就是将每个元素标注为“B-X”、“I-X”或者“O”,其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型,“X”就是关键词所属的类别,常见的类别为人名,地名,机构名称,当然,在本实施例中,可以根据自己需求去定义关键词所属的类型。
然后,将经过标注的训练语音文本样本输入Bi-LSTM模型,将训练语音文本样本划分为语音文本句子,每个句子表示为x=(x1,x2,...,xn),其中,n表示句子包含的字的数量,x{i}表示句子的第i个字在字典中的id,进而可以得到每个字的one-hot向量,维数是字典大小。需说明的是,字典可以是预先下载的字符字典文件。
最后,将语音文本句子输入至CRF模型,得到每个句子对应的目标关键词。
步骤S102、将待处理语音文本输入至预设关键词抽取模型,得到目标关键词。
其中,目标关键词是指包含命名实体的关键词,命名实体包括人名、组织名、地点名、时间、质量等。
具体地,加载预先下载的字符词典以及预算关键词抽取模型,将待处理语音文本进行标注转换为字符序列后输入预设关键词抽取模型,预设关键词抽取字符序列中的目标字符序列,将目标字符序列转换为目标关键词。
步骤S103、根据第一预设关键词库中错误关键词确定目标关键词中的待修正关键词,并根据第一预设关键词库中与错误关键词对应的正确关键词修正待修正关键词,得到第一已修正关键词。
可以理解的是,本申请实施例通过同一来源的样本数据构建预设关键词抽取模型以及构建第一预设关键词库,然后将待处理语音文本输入至预设关键词抽取模型,得到目标关键词,且根据第一预设关键词库识别出目标关键词中的待修正关键词,并对待修正关键词进行一次修正,极大的提高了识别准确率。
具体地,将目标关键词输入至第一预设关键词库查询,将与第一预设关键词库中的错误关键词匹配度大于匹配度阈值的目标关键词作为待修正关关键词,其中,可以将错误关键词与目标关键词之间的编辑距离作为错误关键词与目标关键词之间的匹配度,也可以将错误关键词与目标关键词之间的拼音相似度作为错误关键词与目标关键词之间的匹配度。将目标关键词中的待修正关键词确定出来之后,查找与错误关键词对应的正确关键词,根据正确关键词与待修正关键词之间的编辑距离对待修正关键词进行修正,或者根据正确关键词与待修正关键词之间的拼音相似度对待修正关键词进行修正。
步骤S104、查找与第一已修正关键词属于同一实体的关联关键词,并根据关联关键词修正第一已修正关键词,得到第二已修正关键词。
可以理解的是,在上面步骤S103的修正过程中,由于关键词的表述为多样,可能导致出现误修正的情况,故需要对第一次修正得到第一已修正关键词进一步进行修正。
举例说明:获取语音音频表征的文本内容是“中国移动客服服务中心”,根据语音音频得到的语音文本表征的文本内容是“中国银行客服中心”,经过第一次修正之后得到的文本内容是“中国银行客服服务中心”,属于误修正。
其中,关联关键词是指与第一已修正关键词属于同一实体的关键词,即第一已修正关键词与关联关键词属于同一实体的不同表达方式。
具体地,参见图4,为本申请实施例提供的语音文本的关键词修正方法的图1中步骤S104的一种具体流程示意图,查找与第一已修正关键词属于同一实体的关联关键词,并根据关联关键词修正第一已修正关键词,得到第二已修正关键词,包括:
步骤S401、根据预设后缀名词库识别第一已修正关键词的目标后缀名。
其中,后缀名是指一些常规的名称,例如“XX有限公司”中的“有限公司”为后缀名。
可以理解的是,与第一已修正关键词属于同一实体的关联关键词可以是后缀名不同。
步骤S402、识别第一已修正关键词的特殊字符。
其中,特殊字符可以是“-”“()”等。
步骤S403、删除第一已修正关键词的目标后缀名以及特殊字符,得到第一已修正关键词所属的实体。
可以理解的是,第一已修正关键词存在后缀名以及特殊字符,将后缀名以及特征字符删除之后,便可得到第一已修正关键词所属的实体。
步骤S404、获取实体对应的关联关键词。
可以理解的是,实体对应的关联关键词与第一已修正关键词形式上是后缀名以及特殊字符的不同,实质上关联关键词与第一已修正关键词属于同一实体。
步骤S405、根据关联关键词修正第一已修正关键词,得到第二已修正关键词。
具体地,根据多个关联关键词分别对第一已修正关键词进行编辑距离或者拼音相似度计算,根据与第一已修正关键词编辑距离最小的关联关键词或者音频相似度最小的关联关键词对第一已修正关键词进行替换,得到第二已修正关键词。
作为示例而非限定,参见图5,为本申请实施例提供的语音文本的关键词修正方法的图1中步骤S104的另一种具体流程示意图,查找与第一已修正关键词属于同一实体的关联关键词,并根据关联关键词修正第一已修正关键词,得到第二已修正关键词,包括:
步骤S501、获取与第一已修正关键词关联度大于关联度阈值的关联关键词库。其中,关联关键词库包括至少一个关联关键词。
可以理解的是,在第一已修正关键词不存在后缀名以及特殊字符时,则需要根据与第一已修正关键词关联度大于关联度阈值的关联关键词库对第一已修正关键词进行修正。例如,第一已修正关键词是“中华人民共和国”,实际上实体是“中国”,“中华人民共和国”不存在常规后缀名以及特殊字符,对“中华人民共和国”进行删除之后也得不到“中国”这一实体。
其中,关联关键词库是预设构建的,可以是人工填写第一已修正关键词的样本数据所关联的多个关联关键词构建的,也可以是从外部数据库获取的与第一已修正关键词的样本数据所关联的多个关联关键词构建的。关联关键词库与第一已修正关键词之间的关联度可以是定义关联关键词库中每存在一个与第一已修正关键词关联度大于关联度阈值的关联关键词记为1分,或者将关联关键词库中每存在一个与第一已修正关键词关联度远大于关联度阈值的关联关键词记为2分,将得分最高的关联关键词库作为与第一已修正关键词关联度大于关联度阈值的关联关键词库。
步骤S502、根据关联关键词修正第一已修正关键词,得到第二已修正关键词。
具体地,根据多个关联关键词分别对第一已修正关键词进行编辑距离或者拼音相似度计算,根据与第一已修正关键词编辑距离最小的关联关键词或者音频相似度最小的关联关键词对第一已修正关键词进行替换,得到第二已修正关键词。
本申请实施例在获取根据语音音频转换的语音文本之后,对语音文本的关键词进行两次修正,避免了语音识别技术的语音识别结果会受到谐音字词、混淆音字词以及形似字等原因的干扰,达到提高语音识别结果准确率的效果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的语音文本的关键词修正方法,图6示出了本申请实施例提供的语音文本的关键词修正装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图6,该装置包括:
获取模块61,用于获取待处理语音文本;
抽取模块62,用于将所述待处理语音文本输入至预设关键词抽取模型,得到目标关键词;
第一修正模块63,用于根据第一预设关键词库中错误关键词确定所述目标关键词中的待修正关键词,并根据第一预设关键词库中与所述错误关键词对应的正确关键词修正所述待修正关键词,得到第一已修正关键词;
第二修正模块64,用于查找与所述第一已修正关键词属于同一实体的关联关键词,并根据所述关联关键词修正所述第一已修正关键词,得到第二已修正关键词。
在一种可能的实现方式中,语音文本的关键词修正装置还包括:
样本获取模块,用于获取语音文本样本;
识别模块,用于识别语音文本样本中的错误关键词;
正确关键词获取模块,用于获取与所错误关键词对应的正确关键词;
构建模块,用于根据所述错误关键词以及与所述错误关键词对应的正确关键词构建第一预设关键词库。
在一种可能的实现方式中,语音文本的关键词修正装置还包括:
目标关键词识别模块,用于识别语音文本样本的目标关键词;
关键词抽取模型构建模块,用于根据目标关键词与语音文本样本的对应关系构建预设关键词抽取模型。
在一种可能的实现方式中,第二修正模块包括:
后缀名识别单元,用于根据预设后缀名词库识别所述第一已修正关键词的目标后缀名;
字符识别单元,用于识别第一已修正关键词的特殊字符;
删除单元,用于删除第一已修正关键词的目标后缀名以及特殊字符,得到所述第一已修正关键词所属的实体。
获取单元,用于获取所述实体对应的关联关键词;
修正单元,用于根据所述关联关键词修正所述第一已修正关键词。
在一种可能的实现方式中,第二修正模块还包括:
词库获取自模块,用于获取与所述第一已修正关键词关联度大于关联度阈值的第二预设关键词库,其中,所述第二预设关键词库包括至少一个关联关键词;
修正单元,根据关联关键词修正所述第一已修正关键词。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图7为本申请实施例提供的修正设备的结构示意图。如图7所示,该实施例的修正设备7包括:至少一个处理器70、存储器71以及存储在所述存储器71中并可在所述至少一个处理器70上运行的计算机程序72,所述处理器70执行所述计算机程序72时实现上述任意方法实施例的各个步骤。
所述修正设备7可以是终端设备或者服务器。
所称处理器70可以是中央处理单元(Central Processing Unit,CPU),该处理器70还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71在一些实施例中可以是所述修正设备6的内部存储单元,例如修正设备7的硬盘或内存。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种语音文本的关键词修正方法,其特征在于,包括:
获取待处理语音文本;
将所述待处理语音文本输入至预设关键词抽取模型,得到目标关键词;
根据第一预设关键词库中错误关键词确定所述目标关键词中的待修正关键词,并根据第一预设关键词库中与所述错误关键词对应的正确关键词修正所述待修正关键词,得到第一已修正关键词;
查找与所述第一已修正关键词属于同一实体的关联关键词,并根据所述关联关键词修正所述第一已修正关键词,得到第二已修正关键词。
2.如权利要求1所述的语音文本的关键词修正方法,其特征在于,获取待处理语音文本之前,还包括:
获取语音文本样本;
识别所述语音文本样本中的错误关键词;
获取与所错误关键词对应的正确关键词;
根据所述错误关键词以及与所述错误关键词对应的正确关键词构建第一预设关键词库。
3.如权利要求2所述的语音文本的关键词修正方法,其特征在于,根据所述错误关键词以及与所述错误关键词对应的正确关键词构建第一预设关键词库之后,还包括:
识别所述语音文本样本的目标关键词;
根据所述目标关键词与所述语音文本样本的对应关系构建预设关键词抽取模型。
4.如权利要求1至3任一项所述的语音文本的关键词修正方法,其特征在于,查找与所述第一已修正关键词属于同一实体的关联关键词,并根据所述关联关键词修正所述第一已修正关键词,得到第二已修正关键词,包括:
根据预设后缀名词库识别所述第一已修正关键词的目标后缀名;
识别所述第一已修正关键词的特殊字符;
删除所述第一已修正关键词的目标后缀名以及特殊字符,得到所述第一已修正关键词所属的实体;
获取所述实体对应的关联关键词
根据所述关联关键词修正所述第一已修正关键词。
5.如权利要求1至3任一项所述的语音文本的关键词修正方法,其特征在于,查找与所述第一已修正关键词属于同一实体的关联关键词,并根据所述关联关键词修正所述第一已修正关键词,得到第二已修正关键词,还包括:
获取与所述第一已修正关键词关联度大于关联度阈值的第二预设关键词库,其中,所述第二预设关键词库包括至少一个关联关键词;
根据所述关联关键词修正所述第一已修正关键词。
6.一种语音文本的关键词修正装置,其特征在于,包括:
获取模块,用于获取待处理语音文本;
抽取模块,用于将所述待处理语音文本输入至预设关键词抽取模型,得到目标关键词;
第一修正模块,用于根据第一预设关键词库中错误关键词确定所述目标关键词中的待修正关键词,并根据第一预设关键词库中与所述错误关键词对应的正确关键词修正所述待修正关键词,得到第一已修正关键词;
第二修正模块,用于查找与所述第一已修正关键词属于同一实体的关联关键词,并根据所述关联关键词修正所述第一已修正关键词,得到第二已修正关键词。
7.如权利要求6所述的语音文本的关键词修正装置,其特征在于,所述语音文本的关键词修正装置还包括:
样本获取模块,用于获取语音文本样本;
识别模块,用于识别所述语音文本样本中的错误关键词;
正确关键词获取模块,用于获取与所错误关键词对应的正确关键词;
构建模块,用于根据所述错误关键词以及与所述错误关键词对应的正确关键词构建第一预设关键词库。
8.如权利要求7所述的语音文本的关键词修正装置,其特征在于,所述语音文本的关键词修正装置还包括:
目标关键词识别模块,用于识别所述语音文本样本的目标关键词;
关键词抽取模型构建模块,用于根据所述目标关键词与所述语音文本样本的对应关系构建预设关键词抽取模型。
9.一种修正设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的方法。
10.一种存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010560858.9A CN111737979B (zh) | 2020-06-18 | 2020-06-18 | 语音文本的关键词修正方法、装置、修正设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010560858.9A CN111737979B (zh) | 2020-06-18 | 2020-06-18 | 语音文本的关键词修正方法、装置、修正设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111737979A true CN111737979A (zh) | 2020-10-02 |
CN111737979B CN111737979B (zh) | 2021-01-12 |
Family
ID=72649837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010560858.9A Active CN111737979B (zh) | 2020-06-18 | 2020-06-18 | 语音文本的关键词修正方法、装置、修正设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737979B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255342A (zh) * | 2021-06-11 | 2021-08-13 | 云南大学 | 一种5g移动业务产品名称识别方法及系统 |
CN113726962A (zh) * | 2021-08-31 | 2021-11-30 | 平安普惠企业管理有限公司 | 服务质量的评价方法、装置、电子设备以及存储介质 |
CN115827815A (zh) * | 2022-11-17 | 2023-03-21 | 西安电子科技大学广州研究院 | 基于小样本学习的关键词提取方法及装置 |
CN117057321A (zh) * | 2023-10-12 | 2023-11-14 | 长沙丹渥智能科技有限公司 | 语音转文字处理方法、模型训练方法、装置、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130013643A1 (en) * | 2005-04-29 | 2013-01-10 | Overland Storage, Inc. | System and method of handling file metadata |
CN103020230A (zh) * | 2012-12-14 | 2013-04-03 | 中国科学院声学研究所 | 一种语义模糊匹配方法 |
CN104166462A (zh) * | 2013-05-17 | 2014-11-26 | 北京搜狗科技发展有限公司 | 一种文字的输入方法和系统 |
CN107093423A (zh) * | 2017-05-27 | 2017-08-25 | 努比亚技术有限公司 | 一种语音输入修正方法、装置及计算机可读存储介质 |
CN107229627A (zh) * | 2016-03-24 | 2017-10-03 | 华为技术有限公司 | 一种文本处理方法、装置及计算设备 |
CN108304424A (zh) * | 2017-03-30 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本关键词提取方法及文本关键词提取装置 |
CN108804414A (zh) * | 2018-05-04 | 2018-11-13 | 科沃斯商用机器人有限公司 | 文本修正方法、装置、智能设备及可读存储介质 |
CN109033161A (zh) * | 2018-06-19 | 2018-12-18 | 深圳市元征科技股份有限公司 | 一种数据处理方法、服务器及计算机可读介质 |
CN111177583A (zh) * | 2019-12-30 | 2020-05-19 | 山东合天智汇信息技术有限公司 | 一种基于社交平台的人脉分析方法及系统 |
-
2020
- 2020-06-18 CN CN202010560858.9A patent/CN111737979B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130013643A1 (en) * | 2005-04-29 | 2013-01-10 | Overland Storage, Inc. | System and method of handling file metadata |
CN103020230A (zh) * | 2012-12-14 | 2013-04-03 | 中国科学院声学研究所 | 一种语义模糊匹配方法 |
CN104166462A (zh) * | 2013-05-17 | 2014-11-26 | 北京搜狗科技发展有限公司 | 一种文字的输入方法和系统 |
CN107229627A (zh) * | 2016-03-24 | 2017-10-03 | 华为技术有限公司 | 一种文本处理方法、装置及计算设备 |
CN108304424A (zh) * | 2017-03-30 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文本关键词提取方法及文本关键词提取装置 |
CN107093423A (zh) * | 2017-05-27 | 2017-08-25 | 努比亚技术有限公司 | 一种语音输入修正方法、装置及计算机可读存储介质 |
CN108804414A (zh) * | 2018-05-04 | 2018-11-13 | 科沃斯商用机器人有限公司 | 文本修正方法、装置、智能设备及可读存储介质 |
CN109033161A (zh) * | 2018-06-19 | 2018-12-18 | 深圳市元征科技股份有限公司 | 一种数据处理方法、服务器及计算机可读介质 |
CN111177583A (zh) * | 2019-12-30 | 2020-05-19 | 山东合天智汇信息技术有限公司 | 一种基于社交平台的人脉分析方法及系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255342A (zh) * | 2021-06-11 | 2021-08-13 | 云南大学 | 一种5g移动业务产品名称识别方法及系统 |
CN113726962A (zh) * | 2021-08-31 | 2021-11-30 | 平安普惠企业管理有限公司 | 服务质量的评价方法、装置、电子设备以及存储介质 |
CN113726962B (zh) * | 2021-08-31 | 2022-10-25 | 平安普惠企业管理有限公司 | 服务质量的评价方法、装置、电子设备以及存储介质 |
CN115827815A (zh) * | 2022-11-17 | 2023-03-21 | 西安电子科技大学广州研究院 | 基于小样本学习的关键词提取方法及装置 |
CN115827815B (zh) * | 2022-11-17 | 2023-12-29 | 西安电子科技大学广州研究院 | 基于小样本学习的关键词提取方法及装置 |
CN117057321A (zh) * | 2023-10-12 | 2023-11-14 | 长沙丹渥智能科技有限公司 | 语音转文字处理方法、模型训练方法、装置、设备及介质 |
CN117057321B (zh) * | 2023-10-12 | 2024-01-05 | 长沙丹渥智能科技有限公司 | 语音转文字处理方法、模型训练方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111737979B (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737979B (zh) | 语音文本的关键词修正方法、装置、修正设备及存储介质 | |
US10176804B2 (en) | Analyzing textual data | |
CN108491433B (zh) | 聊天应答方法、电子装置及存储介质 | |
CN110033760B (zh) | 语音识别的建模方法、装置及设备 | |
US7603279B2 (en) | Grammar update system and method for speech recognition | |
CN110415679B (zh) | 语音纠错方法、装置、设备和存储介质 | |
CN106570180B (zh) | 基于人工智能的语音搜索方法及装置 | |
US11031009B2 (en) | Method for creating a knowledge base of components and their problems from short text utterances | |
CN111881297B (zh) | 语音识别文本的校正方法及装置 | |
CN112287680B (zh) | 一种问诊信息的实体抽取方法、装置、设备及存储介质 | |
CN111611349A (zh) | 语音查询方法、装置、计算机设备及存储介质 | |
CN111613214A (zh) | 一种用于提升语音识别能力的语言模型纠错方法 | |
CN111651978A (zh) | 基于实体的词法检查方法与装置和计算机设备及存储介质 | |
CN111597800B (zh) | 同义句的获取方法及装置、设备及存储介质 | |
CN114678027A (zh) | 语音识别结果的纠错方法、装置、终端设备及存储介质 | |
CN113535925A (zh) | 语音播报方法、装置、设备及存储介质 | |
JP5897718B2 (ja) | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
KR102166446B1 (ko) | 음성을 이용한 키워드 추출 방법 및 서버 | |
US20050125224A1 (en) | Method and apparatus for fusion of recognition results from multiple types of data sources | |
CN113570404B (zh) | 一种目标用户定位的方法、装置及相关设备 | |
KR102500106B1 (ko) | 약어 사전 구축 장치 및 방법 | |
US11861521B2 (en) | System and method for identification and verification | |
JP2019061297A (ja) | 情報処理装置、プログラム及び検索方法 | |
CN117975965A (zh) | 基于唇语识别的语音确定方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder | ||
CP02 | Change in the address of a patent holder |
Address after: 519031 office 1316, No. 1, lianao Road, Hengqin new area, Zhuhai, Guangdong Patentee after: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd. Address before: Unit c701, 7th floor, Zhengfang yunchuangyuan, 8 Lianshan lane, Jida Jingshan Road, Xiangzhou District, Zhuhai City, Guangdong Province, 519031 Patentee before: LONGMA ZHIXIN (ZHUHAI HENGQIN) TECHNOLOGY Co.,Ltd. |
|
PP01 | Preservation of patent right | ||
PP01 | Preservation of patent right |
Effective date of registration: 20240718 Granted publication date: 20210112 |