CN114676685B - 语音文本错误处理方法、装置、电子设备及存储介质 - Google Patents

语音文本错误处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114676685B
CN114676685B CN202210582744.3A CN202210582744A CN114676685B CN 114676685 B CN114676685 B CN 114676685B CN 202210582744 A CN202210582744 A CN 202210582744A CN 114676685 B CN114676685 B CN 114676685B
Authority
CN
China
Prior art keywords
error
vocabulary
character string
merging
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210582744.3A
Other languages
English (en)
Other versions
CN114676685A (zh
Inventor
李亚桐
彭子娇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Digital Miracle Technology Co ltd
Voiceai Technologies Co ltd
Original Assignee
Voiceai Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Voiceai Technologies Co ltd filed Critical Voiceai Technologies Co ltd
Priority to CN202210582744.3A priority Critical patent/CN114676685B/zh
Publication of CN114676685A publication Critical patent/CN114676685A/zh
Application granted granted Critical
Publication of CN114676685B publication Critical patent/CN114676685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供一种语音文本错误处理方法、装置、电子设备及存储介质,涉及数据处理技术领域。通过获取标准语料和用户语料;分别对标准语料和用户语料进行分词,得到标准语料对应的第一字符串和用户语料对应的第二字符串,其中,第一字符串和第二字符串均包括由分词得到的多个词汇;基于第一字符串和第二字符串的差异,获取第二字符串中的词汇的错误类型;根据错误类型对第二字符串中的词汇进行合并,基于合并结果显示错误提示信息,其中,错误提示信息用于对用户语料进行错误标注,从而可以提高标注错误词汇的准确率,改善由于分词导致的对词汇的错误类型标注不准确的问题。

Description

语音文本错误处理方法、装置、电子设备及存储介质
技术领域
本申请实施例涉及数据处理技术领域,特别地,涉及一种语音文本错误处理方法、装置、电子设备及存储介质。
背景技术
目前,例如Word这样及其类似的软件通常具备拼写错误纠正的提示功能。对于英文等非汉字体系的语言而言,此类错误纠正的提示功能带给用户的体验感较好。以英文为例,每个独立的词汇通过空格间隔开来,使得在词汇错误提示上会将整个英文词汇进行错误标记。然而,中文词汇通常包括至少两个汉字,而汉字与汉字之间不存在任何间隔符,导致不能准确对中文词汇进行划分,从而导致难以对中文词汇进行错误提示。
发明内容
本申请实施例提供一种语音文本错误处理方法、装置、电子设备及存储介质,以改善上述问题。
第一方面,本申请实施例提供一种语音文本错误处理方法。该方法主要包括:获取标准语料和用户语料;分别对标准语料和用户语料进行分词,得到标准语料对应的第一字符串和用户语料对应的第二字符串,其中,第一字符串和第二字符串均包括由分词得到的多个词汇;基于第一字符串和第二字符串的差异,获取第二字符串中的词汇的错误类型;根据错误类型对第二字符串中的词汇进行合并,基于合并结果显示错误提示信息,其中,错误提示信息用于对用户语料进行错误标注。
第二方面,本申请实施例提供一种语音文本错误处理装置。该装置主要包括第一获取模块、分词模块、第二获取模块以及合并模块。其中,第一获取模块用于获取标准语料和用户语料。分词模块用于分别对标准语料和用户语料进行分词,得到标准语料对应的第一字符串和用户语料对应的第二字符串,其中,第一字符串和第二字符串均包括由分词得到的多个词汇。第二获取模块用于基于第一字符串和第二字符串的差异,获取第二字符串中的词汇的错误类型。合并模块用于根据错误类型对第二字符串中的词汇进行合并,基于合并结果显示错误提示信息,其中,错误提示信息用于对用户语料进行错误标注。
第三方面,本申请实施例提供一种电子设备。该电子设备主要包括存储器、一个或多个处理器以及一个或多个应用程序。其中,一个或多个应用程序被存储在存储器中,并被配置为当被一个或多个处理器调用时执行本申请实施例提供的语音文本错误处理方法。
第四方面,本申请实施例提供一种计算机可读取存储介质。该计算机可读取存储介质中存储有程序代码,该程序代码被配置为当被处理器调用时执行本申请实施例提供的语音文本错误处理方法。
本申请实施例提供一种语音文本错误处理方法、装置、电子设备及存储介质。该方法主要通过获取标准语料和用户语料;分别对标准语料和用户语料进行分词,得到标准语料对应的第一字符串和用户语料对应的第二字符串,其中,第一字符串和第二字符串均包括由分词得到的多个词汇;基于第一字符串和第二字符串的差异,获取第二字符串中的词汇的错误类型;根据错误类型对第二字符串中的词汇进行合并,基于合并结果显示错误提示信息,其中,错误提示信息用于对用户语料进行错误标注,从而可以在分词之后,根据错误类型对分词之后的词汇进行合并,从而提高标注错误词汇的准确率,改善由于分词导致的对词汇的错误类型标注不准确的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例提供的语音文本错误处理方法的应用环境的示意图。
图2是本申请一实施例提供的语音文本错误处理方法的流程示意图。
图3是本申请一示例性实施例提供的分词过程的原理示意图。
图4是本申请另一实施例提供的语音文本错误处理方法的流程示意图。
图5是本申请另一实施例提供的语音文本错误处理方法所包括的步骤S220的流程示意图。
图6是本申请一示例性实施例提供的关于字符串中的词汇与位置的对应关系的示意图。
图7是本申请另一实施例提供的语音文本错误处理方法所包括的步骤S250的一流程示意图。
图8是本申请另一实施例提供的语音文本错误处理方法所包括的步骤S250的另一流程示意图。
图9是本申请实施例提供的语音文本错误处理装置的结构框图。
图10是本申请实施例提供的电子设备的结构框图。
图11是本申请实施例提供的计算机可读取存储介质的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在一些业务场景下,为检测话术的合规性,通常需要检查说话人的说话内容与标准模板之间的差异,并根据这些差异来进行业务合规性检查。在以上这种需要进行合规性检查的场景下,对语音文本中的错误内容的标注需要上升到词级别。如前所述,单独地对单个中文进行标注,一来无法体现错误词汇信息,二来相较于词级别带给用户的体验感较差。因此,对于有标准话术做对比的场景,往往需要对词级别的错误进行标注。
本申请实施例提供一种语音文本错误处理方法、装置、电子设备及存储介质,通过对词汇进行分词,标注全部错误及其错误类型,并基于错误类型对分词结果进行有条件的合并,从而可以精确地对文本的错误内容进行词级别的标注,进而改善由于分词导致的对词汇的错误标注不准确的问题。接下来将对本申请实施例提供的语音文本错误处理方法的应用环境进行简单地介绍。
请参阅图1,图1是本申请实施例提供的语音文本错误处理方法的应用环境示意图。语音文本错误处理系统10至少包括用户11、语音录入设备12、处理设备13。语音录入设备12与处理设备13通信连接。其中,语音录入设备12可以对用户11所说的话进行录制,将录入的语音模拟信号转化为数字信号,将数字信号发送给处理设备12,以使得处理设备12可以根据标准话术对用户发出的语音中的错误内容进行标注。其中,语音录入设备12可以是能够录制语音的任何电子设备,例如,智能手机、平板电脑、智能手表、笔记本电脑以及智能控制面板,本申请实施例在此不做具体限制。处理设备13可以是一个或多个处理器,其可以设置于语音录制设备12中,也可以独立设置于语音录制设备12的外部,或者还可以设置于其他电子设备中,本申请实施例在此不做具体限制。
请参阅图2,图2是本申请一实施例提供的语音文本错误处理方法的流程示意图。该语音文本错误处理方法可以应用于语音文本错误处理系统10,具体地,可以应用于处理设备13。该语音文本错误处理方法可以包括以下步骤S110~S140。
步骤S110,获取标准语料和用户语料。
其中,语料即语言材料,是构成语料库的基本单元。本申请实施例中的标准语料可以是上述提到的标准话术,其通常由人工预先录入语料库,或者由电子设备根据预设规则自动生成,其中,预设规则可以是人为根据实际业务需求进行设置的,本申请实施例在此不做具体限制。用户语料可以是用户所说的话,或者是根据是用户向上述语音录入设备输入的语音文本等,本申请实施例在此不作具体限制。
在一些实施例中,可以从语料库中获取标准语料,从语音录入设备中获取用户语料。
步骤S120,分别对标准语料和用户语料进行分词,得到标准语料对应的第一字符串和用户语料对应的第二字符串,其中,第一字符串和第二字符串均包括由分词得到的多个词汇。
在一些实施例中,可以检测用户是否输入指定关键词。若检测到用户输入指定关键词,可以先将用户输入的指定关键词添加到分词词典中,以便后续基于分词词典对标准语料和用户语料分词,从而可以对用户输入的指定关键词进行整体划分,避免在分词过程中对用户指定的关键词进一步进行细颗粒度划分,提高分词的准确性。若检测到用户没有输入指定关键词,则不对分词词典进行处理。
在一些实施例中,可以基于分词词典对标准语料和用户语料进行分词、也可以基于统计的机器学习算法对于标准语料和用户语料进行分词,本申请实施例在此不展开描述。
需要说明的是,本申请实施例中的标准语料中通常存在上述指定关键词。而对于待比较的用户语料而言,由于以下情况,其关键词未必与上述指定关键词一致:(1)音同字不同;(2)意思相近;(3)仅包含关键词的一部分。因此,标准语料中的关键词可以实现整体分词,然而用户语料中的关键词却可能由于上述情况而无法被准确地分词,例如,用户语料中的关键词会由于上述情况而被划分地更细。
作为一种示例,上述指定关键词可以是“深圳市声扬科技有限公司”,标准语料可以为“今天我去深圳市声扬科技有限公司了”,用户语料可以为“今天我去声扬科技了”。如图3所示,对标准语料进行分词,可以得到第一字符串“今天 我 去 深圳市声扬科技有限公司 了”。对用户语料进行分词,可以得到第二字符串“今天 我 去 声扬 科技 了”。
步骤S130,基于第一字符串和第二字符串的差异,获取第二字符串中的词汇的错误类型。
其中,错误类型至少包括删除错误、替换错误、插入错误。需要说明的是,根据实际业务需求,错误类型也可以包括上述错误类型以外的其他错误类型,例如,交换错误,本申请实施例在此不作具体限制。
在一些实施例中,可以采用L式距离(Levenshtein Distance,也称作编辑距离)或D式距离(Damerau Distance)计算第一字符串和第二字符串的差异,得到第二字符串的词汇的全部错误及其错误类型。
以采用编辑距离计算第一字符串和第二字符串的差异为例,基础的编辑距离包括3种原子操作:插入1个字符、删除1个字符、更改(替换)1个字符,且3种操作的代价均为1。假设上述第一字符串为(a1, a2, …, am),第二字符串为(b1, b2, …,bn),其中,m和n均为大于0的正整数。将第一字符串经过n个操作(x1, x2, …, xn),使得第一字符串变为第二字符串,且该操作序列(x1, x2, …, xn)为最优操作(即代价之和最小)的一种,则两个字符串的编辑距离即为该序列代价之和。具体计算方式请参考以下状态转移方程:
Figure 377850DEST_PATH_IMAGE001
Figure 763832DEST_PATH_IMAGE002
Figure 543569DEST_PATH_IMAGE003
Figure 407620DEST_PATH_IMAGE004
其中,C[i, j]表示第一字符串(a1, a2, …, am)到第二字符串(b1, b2, …,bn)之间的距离,每个C[i, j]都由下标严格小于i和j的元素C[i-1, j-1]/C[i-1, j]/C[i, j-1]决定。算法流程即为从左到右,从上到下遍历矩阵C,最后的整个串的编辑距离值为C[m,n]。
表1
Figure 940101DEST_PATH_IMAGE006
作为一种示例,如表1所示,第一字符串为“我们 开始 举个 例子”,第二字符串为“我们 举个 栗子 吧”。采用编辑距离计算第一字符串和第二字符串之间的差异,可以得到删除错误、替换错误和插入错误这三种错误。
步骤S140,根据错误类型对第二字符串中的词汇进行合并,基于合并结果显示错误提示信息,其中,错误提示信息用于对用户语料进行错误标注。
在实际应用中,关键词在用户语料中可能不仅仅只被切分为两个词,在某些情况下,关键词可能会被切分为多个词,例如“非开放期”可能会被切分为“非”、“开放”、“期”这三个词,而这三个词会被连续重复地进行错误提示,例如,“非”被标注为“替换错误”,“开放”被标注为“插入错误”,“期”被标注为“插入错误”,导致最终的错误标注结果出错或不准确,带给用户不好的使用体验。
基于上述情况,发明人经过反复试验发现,可以对错误类型对应的词汇进行合并,以避免由于分词导致的错误标注不准确问题,从而提高错误标注的准确性。在一些实施例中,可以将错误类型相同、位置连续的词汇进行合并,可以按照业务需求将错误类型不同且满足预设条件、位置连续的词汇进行合并。其中,预设条件可以根据实际业务需求进行设置,本申请实施例在此不作具体限制。例如,预设条件可以为:将错误类型为替换错误和插入错误、位置连续的词汇进行合并,合并之后的词汇的错误类型为替换错误,其中,替换错误对应的词汇位于插入错误对应的词汇之前。
例如,如表2所示,第一字符串为“非开放期 无法 办理 赎回”,第二字符串为“非开发 期 无法 赎回”。可以将错误类型相同、位置连续的“开发”、“期”进行合并,得到“开发期”及其错误类型“插入错误”。可以将错误类型满足上述预设条件、位置连续的词汇“非”、“开发期”合并,得到“非开发期”及其错误类型“替换错误”。而对于词汇“办理”,其不满足上述合并条件,不需要对该词汇做任何处理。
表2
Figure 231405DEST_PATH_IMAGE007
需要说明的是,上述步骤中的合并相同错误类型对应的词汇的操作与合并不同错误类型对应的词汇的操作不存在固定的先后顺序,即,可以先合并相同错误类型对应的词汇再合并不同错误类型对应的词汇,也可以先合并不同错误类型对应的词汇再合并相同错误类型对应的词汇,还可以同时执行这两种合并操作,本申请实施例在此不作具体限制。
在一些实施例中,在执行上述合并操作之后,还可以对合并之后的词汇进行检测,若合并之后的词汇与关键词一致,则不用对合并之后的词汇进行错误标注,去掉合并之后的词汇的错误标注。若合并之后的词汇与关键词不一致,则保留原有的错误类型。例如,第二字符串中的合并之后的词汇“非开发期”与关键词“非开放期”不一致,则保留原有的错误类型“替换错误”。
在本申请实施例提供的语音文本错误处理方法中,主要通过获取标准语料和用户语料;分别对标准语料和用户语料进行分词,得到标准语料对应的第一字符串和用户语料对应的第二字符串,其中,第一字符串和第二字符串均包括由分词得到的多个词汇;基于第一字符串和第二字符串的差异,获取第二字符串中的词汇的错误类型;根据错误类型对第二字符串中的词汇进行合并,基于合并结果显示错误提示信息,其中,错误提示信息用于对用户语料进行错误标注,从而可以在分词之后,根据错误类型对分词之后的词汇进行合并,从而提高标注错误词汇的准确率,改善由于分词导致的对词汇的错误类型标注不准确的问题。
请参阅图4,图4是本申请另一实施例提供的语音文本错误处理方法的流程示意图。该语音文本错误处理方法可以应用于上述语音文本错误处理系统10,具体地,可以应用于上述处理设备13。该语音文本错误处理方法可以包括以下步骤S210~S250。
步骤S210,获取标准语料和用户语料。
其中,步骤S210请参阅步骤S110,在此不再赘述。
步骤S220,分别对标准语料和用户语料进行分词,得到标准语料对应的第一字符串和用户语料对应的第二字符串,其中,第一字符串和第二字符串均包括由分词得到的多个词汇。
在一些实施例中,请参阅图5,图5是本申请另一实施例提供的语音文本错误处理方法所包括的步骤S220的流程示意图。该步骤S220可以包括以下步骤S221~S223。
步骤S221,获取指定关键词。
其中,指定关键词可以是上述用户通过语音录入设备输入的指定关键词,或者也可以是用户预先输入并存储在语料库中的指定关键词等,本申请实施例在此不作具体限制。
在一些实施例中,处理设备可以从语音录入设备中获取指定关键词。
在另一些实施例中,处理设备也可以从语料库中获取预先存储的指定关键词。
步骤S222,将指定关键词加入到分词词典中。
步骤S223,基于分词词典分别对标准语料和用户语料进行分词,得到标准语料对应的第一字符串和用户语料对应的第二字符串。
其中,步骤S221~S223未详细描述的部分请参阅步骤S120,在此不再赘述。
步骤S230,基于第一字符串和第二字符串的差异,获取第二字符串中的词汇的错误类型。
在一些实施例中,可以采用编辑距离计算第一字符串和第二字符串的差异,得到第二字符串中的词汇的错误类型。
在另一些实施例中,也可以采用上述D式距离计算第一字符串和第二字符串的差异,得到第二字符串中的词汇的错误类型。
步骤S240,获取每个错误类型对应的词汇在第二字符串中的位置信息。
需要说明的是,本申请实施例中的词汇是根据输入的先后顺序依次排列在字符串中的,因此,每个词汇在字符串中的位置唯一且有序。
在一些实施例中,可以获取每个错误类型对应的词汇在第二字符串中的位置信息。例如,请一并参阅图6和表2,在第二字符串“非 开放 期 无法 赎回”中,替换错误对应的词汇“非”位于第二字符串中的位置“0”,插入错误对应的词汇“开放”、“期”分别位于第二字符串中的位置“2和3”、“5”。删除错误通常不存在对应的词汇,无需获取位置信息。
步骤S250,根据错误类型以及位置信息对第二字符串中的词汇进行合并。
在一些实施例中,请参阅图7,图7是是本申请另一实施例提供的语音文本错误处理方法所包括的步骤S250的一流程示意图。步骤S250可以包括以下步骤S251A~S252A。
步骤S251A,获取第二字符串中错误类型相同且位置连续的词汇,作为第一词汇。
在一些实施例中,可以计算前一词汇的最后一个字所在的位置与后一词汇的第一个字所在的位置之间的间隔距离是否大于1,来确定这两个词汇的位置是否连续。若前一词汇的最后一个字所在的位置与后一词汇的第一个字所在的位置之间的间隔距离大于1,则确定这两个词汇的位置不连续;若前一词汇的最后一个字所在的位置与后一词汇的第一个字所在的位置之间的间隔距离不大于1,则确定这两个词汇的位置连续。例如,如图6所示,“开放”的最后一个字“放”的位置为“3”,“期”的位置为“5”,则“开放”与“期”之间的间隔距离为5-3-1=1,“开放”、“期”之间的间隔距离不大于1,则确定这两个词汇位置连续。
在另一些实施例中,可以检测两个词汇之间是否存在其他词汇来确定这两个词汇的位置是否连续。若两个词汇之间存在其他词汇,则确定这两个词汇的位置不连续;若这两个词汇之间不存在其他词汇,则确定这两个词汇之间的位置连续。
在一些实施例中,可以获取第二字符串中错误类型相同且位置连续的词汇,例如图6和表2中的词汇“开放”、“期”,并将“开放”、“期”作为第一词汇。
步骤S252A,将第一词汇进行合并,合并第一词汇之后得到的词汇对应的错误类型不变。
在一些实施例中,可以将第一词汇合并,合并之后的词汇的错误类型不变。例如,将“开放”、“期”合并,得到的“开放期”的类型仍然为“插入错误”。
在一些实施例中,将第一词汇合并之后,还可以检测合并第一词汇之后得到的词汇是否与指定关键词一致。若合并第一词汇之后得到的词汇与指定关键词一致,说明合并第一词汇之后得到的词汇为正确划分的结果,此时可以去掉合并第一词汇之后得到的词汇的错误提示。若合并第一词汇之后得到的词汇与指定关键词不一致,说明合并第一词汇之后得到的词汇仍然为不正确划分的结果,此时可以保留合并第一词汇之后得到的词汇的错误提示。例如,“开放期”与指定关键词“非开放期”不一致,则保留“开放期”的错误类型“插入错误”。
在图7所示的实施例中,通过合并连续性的相同错误类型的词汇,可以避免对相同错误类型进行重复提醒,避免错误标注冗余,从而提高错误类型标注的准确性,提高用户体验。
在一些实施例中,请参阅图8,图8是是本申请另一实施例提供的语音文本错误处理方法所包括的步骤S250的另一流程示意图。步骤S250也可以包括以下步骤S251B~S252B。
步骤S251B,获取第二字符串中错误类型为替换错误的词汇和错误类型为插入错误的词汇,作为第二词汇,其中,第二词汇中的错误类型为替换错误的词汇位于错误类型为插入错误的词汇之前。
其中,第二词汇中的错误类型为替换错误的词汇和错误类型为插入错误的词汇之间可能连续,即,两者位置相邻。或者,第二词汇中的错误类型为替换错误的词汇和错误类型为插入错误的词汇之间可能不连续,即,两者之间可能包括其他错误类型(例如,交换错误)的词汇,也可能包括正确词汇。其中,正确词汇是指第一字符串与第二字符串中的对应且相同的词汇,不存在错误。例如,图3所示的第一字符串中的“今天”与第二字符串中的“今天”对应相同,则确定第二字符串中的“今天”为正确词汇,不存在错误。
步骤S252B,若第二词汇满足预设条件,对第二词汇进行合并,合并第二词汇之后得到的词汇对应的错误类型为替换错误。若第二词汇不满足预设条件,则不对第二词汇进行合并。
其中,预设条件包括错误类型为替换错误的词汇与错误类型为插入错误的词汇相邻,或者错误类型为替换错误的词汇与错误类型为插入错误的词汇之间仅包括正确词汇。
在一些实施例中,若错误类型为替换错误的词汇与错误类型为插入错误的词汇相邻,可以直接对第二词汇进行合并。例如,如上表2所示,“非”(替换错误)与“开发”(插入错误)相邻,则可以直接将“非”和“开发”合并,得到“非开发”(替换错误)。通过合并连续性的特定类型的词汇,可以提高对词汇的错误类型进行标注的准确性。
在另一些实施例中,若错误类型为替换错误的词汇与错误类型为插入错误的词汇之间仅包括正确词汇,可以计算第二字符串中的错误类型为替换错误的词汇与第一字符串中的与错误类型为替换错误的词汇对应的词汇的相似度,得到第一相似度;合并第二词汇和上述正确词汇,得到第三词汇;计算第三词汇与第一字符串中与错误类型为替换错误的词汇对应的词汇的相似度,得到第二相似度;若第二相似度高于第一相似度,将第三词汇作为合并第二词汇之后得到的词汇,且第三词汇的错误类型为替换错误;若第二相似度不高于第一相似度,不对第二词汇进行合并。通过合并非连续性的特定错误类型的词汇,可以进一步提高对词汇的错误类型进行标注的准确性。
表3
Figure DEST_PATH_IMAGE009
作为一种示例,请参阅表3,“声扬的科技”(替换错误)与“声扬科”(插入错误)为第二词汇,且两者之间仅包括正确词汇“是”,则可以计算第二字符串中的“声扬的科技”与第一字符串中的“声扬科技”的相似度,得到第一相似度。合并“声扬的科技”、“是”以及“声扬科”,得到第三词汇“声扬的科技是声扬科”,并计算“声扬的科技是声扬科”与第一字符串中的“声扬科技”的相似度,得到第二相似度。若第二相似度高于第一相似度,则将“声扬的科技是声扬科”作为合并第二词汇之后得到的词汇,错误类型为替换错误,此时第二字符串中仅存在一处错误标注,即“声扬的科技是声扬科”(替换错误)。若第二相似度不高于第一相似度,则不对第二词汇进行合并,依然按照原始错误方式进行显示,即,第二字符串存在两处错误标注,即,“声扬的科技”(替换错误)和“声扬科”(插入错误)。
在一些实施例中,计算词汇之间的相似度可以通过word2vector结合cosine距离的方式计算,也可以通过神经网络来计算,或者还可以按照此处未列举到的其他方式来计算,本申请实施例在此不对计算词汇之间的相似度的具体实施方式进行限制。
在图8所示的实施例中,通过合并连续性和/或非连续性的特定错误类型(替换错误和插入类型)的词汇,可以进一步提高标注错误词汇的准确率。
本申请实施例提供的语音文本错误提示方法,可以在分词之后,根据错误类型对分词之后的词汇进行合并,从而提高标注错误词汇的准确率,改善由于分词导致的对词汇的错误类型标注不准确的问题。具体地,通过合并连续性的相同错误类型的词汇,可以避免对相同错误类型进行重复提醒,避免错误标注冗余,从而提高错误类型标注的准确性,提高用户体验。此外,通过对连续性和/或非连续性的特定错误类型的词汇,可以进一步提高标注错误词汇的准确率。
请参阅图9,图9是本申请实施例提供的语音文本处理装置的结构框图。语音文本处理装置300可以应用于上述语音文本处理系统10,具体地,可以应用于处理设备13。该语音文本处理装置300可以包括第一获取模块310、分词模块320、第二获取模块330以及合并模块340。第一获取模块310用于获取标准语料和用户语料。分词模块320用于分别对标准语料和用户语料进行分词,得到标准语料对应的第一字符串和用户语料对应的第二字符串,其中,第一字符串和第二字符串均包括由分词得到的多个词汇。第二获取模块330用于基于第一字符串和第二字符串的差异,获取第二字符串中的词汇的错误类型。合并模块340用于根据错误类型对第二字符串中的词汇进行合并,基于合并结果显示错误提示信息,其中,错误提示信息用于对用户语料进行错误标注。
在一些实施例中,合并模块340可以包括信息获取子模块和合并子模块。其中,信息获取子模块用于获取每个错误类型对应的词汇在第二字符串的位置信息。合并子模块用于根据错误类型以及位置信息对第二字符串中的词汇进行合并。
在一些实施例中,合并子模块可以包括第一获取单元和第一合并单元。其中,第一获取单元用于获取第二字符串中错误类型相同且位置连续的词汇,作为第一词汇。第一合并单元用于将所述第一词汇进行合并,合并所述第一词汇之后得到的词汇对应的错误类型不变。
在一些实施例中,合并子模块还可以包括第二获取单元和第二合并单元。其中,第二获取单元用于获取第二字符串中错误类型为替换错误的词汇和错误类型为插入错误的词汇,作为第二词汇,其中,第二词汇中的错误类型为替换错误的词汇位于错误类型为插入错误的词汇之前。第二合并单元用于若第二词汇满足预设条件,对第二词汇进行合并,合并第二词汇之后得到的词汇对应的错误类型为替换错误。
在一些实施例中,预设条件包括错误类型为替换错误的词汇与错误类型为插入错误的词汇相邻。
在一些实施例中,预设条件包括错误类型为替换错误的词汇与错误类型为插入错误的词汇之间仅包括正确词汇。第二合并单元包括第一计算子单元、第一合并子单元、第二相似度计算子单元以及第二合并子单元。其中,第一计算子单元用于计算错误类型为替换错误的词汇与第一字符串中的与错误类型为替换错误的词汇对应的词汇的相似度,得到第一相似度。第一合并子单元用于合并第二词汇和正确词汇,得到第三词汇。第二相似度计算子单元用于计算第三词汇与第一字符串中与错误类型为替换错误的词汇对应的词汇的相似度,得到第二相似度。第二合并子单元用于若第二相似度高于第一相似度,将第三词汇作为合并第二词汇之后得到的词汇,且第三词汇的错误类型为替换错误。
在一些实施例中,语音文本错误处理方法还可以包括关键词获取模块、提示消除模块以及提示保留模块。其中,关键词获取模块用于获取指定关键词。提示消除模块用于若合并第一词汇或第二词汇之后得到的词汇与指定关键词一致,去掉合并第一词汇或第二词汇之后得到的词汇的错误提示。提示保留模块用于若合并第一词汇或第二词汇之后得到的词汇与指定关键词不一致,保留合并第一词汇或第二词汇之后得到的词汇的错误提示。
在一些实施例中,分词模块320可以包括获取子模块、添加子模块以及分词子模块。其中,获取子模块用于获取指定关键词。添加子模块用于将指定关键词加入到分词词典中。分词子模块用于基于分词词典分别对标准语料和用户语料进行分词,得到标准语料对应的第一字符串和用户语料对应的第二字符串。
在一些实施例中,第二获取模块330可以包括计算子模块。其中,计算子模块用于采用编辑距离计算第一字符串和第二字符串的差异,得到第二字符串中的词汇的错误类型。
本领域技术人员可以清楚地了解到,本申请实施例提供的语音文本错误处理装置300可以实现本申请实施例提供的语音文本错误处理方法。上述装置和模块的具体工作过程,可以参阅本申请实施例中的语音文本错误处理方法中对应的过程,在此不再赘述。
本申请提供的实施例中,所显示或讨论的模块相互之间的耦合、直接耦合或者通信连接,可以是通过一些接口、装置或模块的间接耦合或通信耦合,可以是电性、机械或其他形式,本申请实施例对此不作限制。
另外,在本申请实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件的功能模块的形式实现,本申请实施例对此不作限制。
请参阅图10,图10是本申请实施例提供的一种电子设备400的结构框图。该电子设备400可以设置在处理设备13中。电子设备400可以包括一个或多个如下部件:存储器410、一个或多个处理器420以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器410中并被配置为当被一个或多个处理器420调用时,使得一个或多个处理器420执行本申请实施例提供的上述语音文本错误处理方法。
处理器420可以包括一个或多个处理核。处理器420利用各种接口和线路连接整个电子设备400内各个部分,用于运行或执行存储在存储器410内的指令、程序、代码集或指令集,以及调用运行或执行存储在存储器410内的数据,执行电子设备400的各种功能和处理数据。可选地,处理器420可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编辑逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器420可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成于处理器420中,单独通过一块通信芯片进行实现。
存储器410可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器410可以用于存储指令、程序、代码、代码集或指令集。存储器410可以包括存储程序区和存储数据区。其中,存储程序区可以存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现上述各个方法实施例的指令等。存储数据区可以存储电子设备400在使用中所创建的数据等。
请参阅图11,图11是本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质500中存储有程序代码510,该程序代码510被配置为当被处理器调用时,使得处理器执行本申请实施例提供的上述语音文本错误处理方法。
计算机可读取存储介质500可以是诸如闪存、电可擦除可编辑只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、可擦除可编辑只读存储器(Erasable Programmable Read-Only Memory,EPROM)、硬盘或者ROM之类的电子存储器。可选地,计算机可读取存储介质500包括非易失性计算机可读介质(Non-TransitoryComputer-Readable Storage Medium,Non-TCRSM)。计算机可读取存储介质500具有执行上述方法中的任何方法步骤的程序代码510的存储空间。这些程序代码510可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码510可以以适当的形式进行压缩。
综上所述,在本申请实施例提供的语音文本错误处理方法、装置、电子设备及存储介质中,主要通过获取标准语料和用户语料;分别对标准语料和用户语料进行分词,得到标准语料对应的第一字符串和用户语料对应的第二字符串,其中,第一字符串和第二字符串均包括由分词得到的多个词汇;基于第一字符串和第二字符串的差异,获取第二字符串中的词汇的错误类型;根据错误类型对第二字符串中的词汇进行合并,基于合并结果显示错误提示信息,其中,错误提示信息用于对用户语料进行错误标注,从而可以在分词之后,根据错误类型对分词之后的词汇进行合并,从而提高标注错误词汇的准确率,改善由于分词导致的对词汇的错误类型标注不准确的问题。
最后应说明的是:以上实施例仅用于说明本申请的技术方案,而非对其限制。尽管参照前述实施例对本申请进行了详细的说明,本领域技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (11)

1.一种语音文本错误处理方法,其特征在于,包括:
获取标准语料和用户语料;
分别对所述标准语料和所述用户语料进行分词,得到所述标准语料对应的第一字符串和所述用户语料对应的第二字符串,其中,所述第一字符串和所述第二字符串均包括由分词得到的多个词汇;
基于所述第一字符串和所述第二字符串的差异,获取所述第二字符串中的词汇的错误类型;
获取每个错误类型对应的词汇在所述第二字符串中的位置信息;
根据所述错误类型以及所述位置信息对所述第二字符串中的词汇进行合并,基于合并结果显示错误提示信息,其中,所述错误提示信息用于对所述用户语料进行错误标注。
2.根据权利要求1所述的方法,其特征在于,所述根据所述错误类型以及所述位置信息对所述第二字符串中的词汇进行合并,包括:
获取所述第二字符串中错误类型相同且位置连续的词汇,作为第一词汇;
将所述第一词汇进行合并,合并所述第一词汇之后得到的词汇对应的错误类型不变。
3.根据权利要求2所述的方法,其特征在于,所述错误类型至少包括替换错误和插入错误,所述根据所述错误类型以及所述位置信息对所述第二字符串中的词汇进行合并,包括:
获取所述第二字符串中的错误类型为所述替换错误的词汇和错误类型为所述插入错误的词汇,作为第二词汇,其中,所述第二词汇中的错误类型为所述替换错误的词汇位于错误类型为所述插入错误的词汇之前;
若所述第二词汇满足预设条件,对所述第二词汇进行合并,合并所述第二词汇之后得到的词汇对应的错误类型为所述替换错误。
4.根据权利要求3所述的方法,其特征在于,所述预设条件包括错误类型为所述替换错误的词汇与错误类型为所述插入错误的词汇相邻。
5.根据权利要求3所述的方法,其特征在于,所述预设条件包括错误类型为所述替换错误的词汇与错误类型为所述插入错误的词汇之间仅包括正确词汇,所述对所述第二词汇进行合并,包括:
计算错误类型为所述替换错误的词汇与所述第一字符串中的与错误类型为所述替换错误的词汇对应的词汇的相似度,得到第一相似度;
合并所述第二词汇和所述正确词汇,得到第三词汇;
计算所述第三词汇与所述第一字符串中与错误类型为所述替换错误的词汇对应的词汇的相似度,得到第二相似度;
若所述第二相似度高于所述第一相似度,将所述第三词汇作为合并所述第二词汇之后得到的词汇,且所述第三词汇的错误类型为所述替换错误。
6.根据权利要求3~5任一项所述的方法,其特征在于,在所述根据所述错误类型以及所述位置信息对所述第二字符串中的词汇进行合并之后,所述方法还包括:
获取指定关键词;
若合并所述第一词汇或所述第二词汇之后得到的词汇与所述指定关键词一致,去掉合并所述第一词汇或所述第二词汇之后得到的词汇的错误提示;
若合并所述第一词汇或所述第二词汇之后得到的词汇与所述指定关键词不一致,保留合并所述第一词汇或所述第二词汇之后得到的词汇的错误提示。
7.根据权利要求1所述的方法,其特征在于,所述分别对所述标准语料和所述用户语料进行分词,得到所述标准语料对应的第一字符串和所述用户语料对应的第二字符串,包括:
获取指定关键词;
将所述指定关键词加入到分词词典中;
基于所述分词词典分别对所述标准语料和所述用户语料进行分词,得到所述标准语料对应的第一字符串和所述用户语料对应的第二字符串。
8.根据权利要求1所述的方法,其特征在于,基于所述第一字符串和所述第二字符串的差异,获取所述第二字符串中的所有词汇的错误类型,包括:
采用编辑距离计算所述第一字符串和所述第二字符串的差异,得到所述第二字符串中的词汇的错误类型。
9.一种语音文本错误处理装置,其特征在于,包括:
第一获取模块,用于获取标准语料和用户语料;
分词模块,用于分别对所述标准语料和所述用户语料进行分词,得到所述标准语料对应的第一字符串和所述用户语料对应的第二字符串,其中,所述第一字符串和所述第二字符串均包括由分词得到的多个词汇;
第二获取模块,用于基于所述第一字符串和所述第二字符串的差异,获取所述第二字符串中的词汇的错误类型;
合并模块,所述合并模块包括信息获取子模块和合并子模块,其中,
所述信息获取子模块,用于获取每个错误类型对应的词汇在所述第二字符串中的位置信息;
所述合并子模块,用于根据所述错误类型以及所述位置信息对所述第二字符串中的词汇进行合并,基于合并结果显示错误提示信息,其中,所述错误提示信息用于对所述用户语料进行错误标注。
10.一种电子设备,其特征在于,包括:
存储器;
一个或多个处理器;
一个或多个应用程序,其中,所述一个或多个应用程序存储在所述存储器中,并被配置为由所述一个或多个处理器调用时,使得所述一个或多个处理器执行如权利要求1~8任一项所述的语音文本错误处理方法。
11.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码被配置为由处理器调用时,使得所述处理器执行如权利要求1~8任一项所述的语音文本错误处理方法。
CN202210582744.3A 2022-05-26 2022-05-26 语音文本错误处理方法、装置、电子设备及存储介质 Active CN114676685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210582744.3A CN114676685B (zh) 2022-05-26 2022-05-26 语音文本错误处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210582744.3A CN114676685B (zh) 2022-05-26 2022-05-26 语音文本错误处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114676685A CN114676685A (zh) 2022-06-28
CN114676685B true CN114676685B (zh) 2022-08-26

Family

ID=82080766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210582744.3A Active CN114676685B (zh) 2022-05-26 2022-05-26 语音文本错误处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114676685B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653517A (zh) * 2015-11-05 2016-06-08 乐视致新电子科技(天津)有限公司 一种识别率确定方法及装置
CN105975625A (zh) * 2016-05-26 2016-09-28 同方知网数字出版技术股份有限公司 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN108804642A (zh) * 2018-06-05 2018-11-13 中国平安人寿保险股份有限公司 检索方法、装置、计算机设备及存储介质
CN110134936A (zh) * 2018-02-08 2019-08-16 北京搜狗科技发展有限公司 一种分词方法、装置及电子设备
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
CN111859919A (zh) * 2019-12-02 2020-10-30 北京嘀嘀无限科技发展有限公司 文本纠错模型训练方法、装置、电子设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679087B2 (en) * 2018-04-18 2020-06-09 Google Llc Systems and methods for merging word fragments in optical character recognition-extracted data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653517A (zh) * 2015-11-05 2016-06-08 乐视致新电子科技(天津)有限公司 一种识别率确定方法及装置
CN105975625A (zh) * 2016-05-26 2016-09-28 同方知网数字出版技术股份有限公司 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN110134936A (zh) * 2018-02-08 2019-08-16 北京搜狗科技发展有限公司 一种分词方法、装置及电子设备
CN108804642A (zh) * 2018-06-05 2018-11-13 中国平安人寿保险股份有限公司 检索方法、装置、计算机设备及存储介质
US10388272B1 (en) * 2018-12-04 2019-08-20 Sorenson Ip Holdings, Llc Training speech recognition systems using word sequences
CN111859919A (zh) * 2019-12-02 2020-10-30 北京嘀嘀无限科技发展有限公司 文本纠错模型训练方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Autocomplete and Spell Checking Levenshtein distance Algorithm to Getting Text Suggest Error Data Searching in Library;Muhammad Maulana Yulianto 等;《Scientific Journal of Informatics》;20180531;第5卷(第1期);67-75 *
中文"非多字词错误"自动校对方法研究;刘亮亮等;《计算机科学》;20161015(第10期);200-205 *
基于蒙古文音节分析的文本校对方法研究;蔡祝元;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190915;I138-1296 *

Also Published As

Publication number Publication date
CN114676685A (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
US8316295B2 (en) Shared language model
US8677237B2 (en) Integrated pinyin and stroke input
CN110765763A (zh) 语音识别文本的纠错方法、装置、计算机设备和存储介质
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
CN109599095B (zh) 一种语音数据的标注方法、装置、设备和计算机存储介质
CN111681642B (zh) 语音识别评估方法、装置、存储介质及设备
CN108897869B (zh) 语料标注方法、装置、设备和存储介质
CN112287680B (zh) 一种问诊信息的实体抽取方法、装置、设备及存储介质
CN113642316A (zh) 中文文本纠错方法、装置、电子设备及存储介质
CN111326144B (zh) 语音数据处理方法、装置、介质和计算设备
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
US20080211777A1 (en) Stroke number input
CN116013307A (zh) 一种标点预测方法、装置、设备以及计算机存储介质
CN109582775B (zh) 信息录入方法、装置、计算机设备及存储介质
US7533014B2 (en) Method and system for concurrent use of two or more closely coupled communication recognition modalities
CN114676685B (zh) 语音文本错误处理方法、装置、电子设备及存储介质
CN112559725A (zh) 文本匹配方法、装置、终端和存储介质
CN110428668B (zh) 一种数据提取方法、装置、计算机系统及可读存储介质
CN110728973A (zh) 视频资源的输出方法和服务器
CN111353308A (zh) 命名实体识别方法、装置、服务器及存储介质
JP6441203B2 (ja) 音声認識結果圧縮装置、音声認識結果圧縮方法、プログラム
CN115376153B (zh) 一种合同比对方法、装置及存储介质
CN110414013B (zh) 数据处理方法、装置及电子设备
CN115358186B (zh) 一种槽位标签的生成方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230714

Address after: 518000 Room 201, building A, 1 front Bay Road, Shenzhen Qianhai cooperation zone, Shenzhen, Guangdong

Patentee after: VOICEAI TECHNOLOGIES Co.,Ltd.

Patentee after: Shenzhen Digital Miracle Technology Co.,Ltd.

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Patentee before: VOICEAI TECHNOLOGIES Co.,Ltd.