CN114283810A - 改进语音识别转录 - Google Patents

改进语音识别转录 Download PDF

Info

Publication number
CN114283810A
CN114283810A CN202111133665.6A CN202111133665A CN114283810A CN 114283810 A CN114283810 A CN 114283810A CN 202111133665 A CN202111133665 A CN 202111133665A CN 114283810 A CN114283810 A CN 114283810A
Authority
CN
China
Prior art keywords
computer
phonemes
utterance
processors
transcription
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111133665.6A
Other languages
English (en)
Inventor
A·R·弗里德
M·诺埃尔
A·哈里哈兰
M·霍洛曼
M·戈尔吉-塞菲德马吉
D·兹斯卡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US17/034,082 external-priority patent/US11580959B2/en
Priority claimed from US17/034,114 external-priority patent/US20220101835A1/en
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN114283810A publication Critical patent/CN114283810A/zh
Pending legal-status Critical Current

Links

Images

Abstract

可以提供一种校正语音识别模型的转录的方法。针对与虚拟助理相关联的特定节点,可生成与高频词语的音素相关联的相似发音音素的列表。话语可被转录,并可接收基于音频度量和其他因素的关于转录的正确性的置信度得分。可将话语的音素与来自列表的高频词语的音素进行比较,并可以针对匹配的音素和相似发音音素确定发音相似得分。如果确定针对来自高频词语列表的词语的发音相似得分高于阈值,则可以用该词语替换转录,从而提供经校正的转录。

Description

改进语音识别转录
技术领域
本发明一般涉及语音识别领域,更具体地,涉及改进语音识别中的话语转录。
背景技术
语音识别模型已经长期尝试允许用户通过话语或口头命令与计算设备交互。随着处理能力和存储容量的提高,语音助理处理口头命令和话语的能力在过去十年经历了巨大的增长。这些改进已经允许开发新的用户界面,其中口头命令和话语可以向计算设备提供指令。在一些模型中,语音识别涉及接收声波并从声波中识别音素,以及向音素分配计算机可理解含义。
发明内容
本公开的实施例包括用于改进语音助理的语音识别的计算机实现的方法、计算机程序产品和系统。语音识别可以包括将话语转录为文本。基于转录度量和音频度量来生成转录置信度得分。如果响应于转录置信度得分低于阈值,则将话语中的音素与来自高频词语列表的至少一个词语中的音素进行比较。另外,实施例可包括基于比较,针对来自高频词语列表的至少一个词语中的音素生成发音相似得分。进一步地,如果发音相似得分高于阈值,则一些实施例可以用来自高频词语列表的该至少一个词语替换原始转录。
上述发明内容并非旨在描述本公开的每个实施方式的每个所示实施例。
附图说明
图1是一般地描绘根据本发明的实施例的语音识别转录校正环境的功能框图。
图2是描绘根据本发明的实施例的转录校正引擎的功能框图。
图3是描绘根据本发明的实施例的自动语音识别模块的功能框图。
图4是描绘根据本发明的实施例的用于生成发音相似列表的方法的流程图。
图5是描绘根据本发明的实施例的用于校正语音识别转录的方法的流程图。
图6是根据本发明的实施例的在语音识别转录校正环境内的示例性计算系统的功能框图。
图7是根据本发明的实施例的描绘云计算环境的图。
图8是根据本发明的实施例的描绘抽象模型层的功能框图。
虽然本文所述的实施例可具有各种修改和替代形式,但其细节已在附图中以示例的方式示出并将详细描述。然而,应当理解,所描述的特定实施例不应被理解为限制性的。相反,其意图涵盖落入本公开的精神和范围内的所有修改、等同和替代方案。
具体实施方式
所描绘的实施例允许用于校正语音识别转录的方法,更具体地,将低置信度转录的音素与预期高频词语的音素进行比较,并基于比较来校正低置信度转录。
在本发明的实施例中,在虚拟助理(VA)的特定节点处接收用户话语和音频度量的历史记录的日志。VA可以是问答程序(例如,国际商业机器公司的
Figure BDA0003281444730000021
苹果公司的
Figure BDA0003281444730000022
亚马逊的
Figure BDA0003281444730000023
等),或者VA可以是与被提供了提示并用话语或命令对提示进行响应的用户相关联的计算机程序,就像在呼叫客户服务号码时会体验的。另外,节点可以是由VA提供的孤立的提示或问题,其中VA期望某些响应。基于由VA所确定的用户说出的词语来识别记录。还识别最高频率话语。最高频率话语被提取成它们相应的音素。可以分隔所提取的(一个或多个)音素,并且可针对该音素生成相似发音音素的列表。可以生成列表中的音素与所提取的音素发音有多相似的相似性置信度得分。相似发音列表可被存储在与相应的VA节点对应的数据储存库中。
在本发明的另一个实施例中,可以基于来自VA的提示而在节点处接收话语记录。该话语可由自动语音识别(ASR)模块转录,并可基于对VA节点的提示的预期响应和/或记录的音频度量来向该转录分配置信度得分。如果置信度得分低于阈值,则转录被认为是“缺失(miss)”。可以从数据储存库加载针对该节点的来自高频词语响应的“发音相似”列表的良好潜在转录。基于其中来自“缺失”的音素与来自潜在良好转录的音素进行比较的预期高频词语,缺失转录可被匹配到良好转录。基于合理对齐的音素,对匹配的转录进行评分。如果匹配的得分高于阈值,则“缺失”转录可被最高得分的潜在良好转录替换。
图1是一般地描绘语音识别转录校正环境100的功能框图。语音识别转录校正环境100包括在服务器102上操作的自动语音识别(ASR)模块104和转录校正引擎106、被存储在服务器102上的数据储存库108、客户端计算机112以及支持服务器102与客户端计算机112之间的通信的网络110。应当注意,虽然为了简单起见只有服务器102,但是,多个服务器和其他计算设备可以被包括在可经由网络110访问的环境(即,1,2,n…n+1)内。
服务器102和客户端计算机112可以是独立的计算设备、管理服务器、网络服务器、移动计算设备、或能够接收、发送和处理数据的任何其他电子设备或计算系统。在其他实施例中,服务器102和客户端计算机112可以表示利用多个计算机作为服务器系统的服务器计算系统。在另一实施例中,服务器102和客户端计算机112可以是膝上型计算机、平板计算机、上网本计算机、个人计算机、台式计算机、或能够经由网络110与语音识别转录校正环境100内的其他计算设备(未示出)通信的任何可编程电子设备。
在另一实施例中,服务器102和客户端计算机112表示利用集群计算机和组件(例如,数据库服务器计算机、应用服务器计算机等)的计算系统,其可在语音识别转录校正环境100内被访问时充当单个无缝资源池。服务器102和客户端计算机112可以包括内部和外部硬件组件,如参考图6更详细地描绘和描述的。
自动语音识别(ASR)模块104可以是能够接收话语或命令并将其转换成计算机可读格式(在下面进一步描述)的计算机模块。应当注意,尽管在图1中ASR模块104被示为在服务器102上操作,但是它可以在经由网络110与转录校正引擎106通信的任何计算设备上或者在具有转录校正引擎106的本地计算设备上操作。
转录校正引擎106可以是用于接收历史数据日志的模块。历史数据日志可以包括用户话语的记录。例如,与虚拟助理系统内的一个或多个节点相关联的用户话语的记录。历史数据日志还可以包括与所记录的用户话语相对应的音频度量。音频度量可以包括关于记录的质量的信息,包括信噪比、背景噪声、语音比、高频损耗、直流偏移、削波率、语音电平、以及非语音电平。音频度量可以由软件提供,包括但不限于国际商业机器公司的
Figure BDA0003281444730000041
语音到文本服务,其提取音频度量特征。另外,转录校正引擎106能够从给定时间范围(例如,一个月、两周或用户定义的)内的历史数据日志中识别最高频率词语。进一步地,转录校正引擎106可将最频繁词语的用户话语分隔成词语的音素。可由转录校正引擎106生成发音类似于所分隔的音素的音素列表(在下面进一步解释)。
进一步地,转录校正引擎106可针对给定VA节点经由记录或实时地接收用户话语和话语的音频度量,并将话语转换成转录。可以基于对话语的预期响应和音频度量来针对该转录生成转录置信度得分。进一步地,转录校正引擎106可基于发音相似列表(在下面进一步解释)来校正转录。应当注意,图1示出了仅在一个计算设备上操作的转录校正引擎106,在一些实施例中,转录校正引擎106可在一个或多个计算设备上或在云计算系统内操作。转录校正引擎106可以在同一计算设备或不同的计算设备上执行上述的一些动作。
数据储存库108可以是能够存储数据的数据库,这些数据包括但不限于针对给定VA节点的所生成的“发音相似列表”、音素置信度得分、转录置信度得分、话语、以及对应的音频度量。应当注意,图1示出了数据储存库108位于服务器102上,在一些实施例中,数据储存库108可以位于一个或多个计算设备上或云计算系统内。
网络110可以是例如局域网(LAN)、诸如互联网的广域网(WAN)或两者的组合,并且可以包括有线、无线或光纤连接。通常,网络110可以是支持服务器102与客户端计算机112之间的通信的连接和协议的任何组合。
图2是转录校正引擎106的功能框图200。词语识别模块202和音素比较模块204被示为在转录校正引擎106内操作。
词语识别模块202是能够从数据储存库108接收或检索被分解成其音素的话语和音频度量的计算机模块。另外,词语识别模块202还可以从ASR模块104接收被分解成音素的实时用户话语和音频度量。在一些实施例中,词语识别模块202可以针对VA的特定节点从历史音频日志识别高频话语和对应的词语。进一步地,词语识别模块202可以确定词语在给定节点处在某一时间段内被使用的百分比。基于配置,时间段可以是静态的,或者是动态的。例如,如果在给定月份内,用于金融机构的客户端服务VA向用户提供以下四个提示以供选择:1)checking(支票),2)savings(储蓄),3)retirement(退休),或4)loans(贷款)。词语识别模块202可以确定哪个历史记录的话语对应于每个词语,并生成每个词语被用户选择的百分比(例如,支票55%、储蓄25%、退休10%,贷款10%)。另外,词语识别模块202可以识别由于差的音频度量、口音或错误发音而没有准确匹配的话语(例如,用户陈述“refirement”而不是“retirement”,或者“sabings”而不是“savings”)。词语识别模块202可以识别高频词语和与这些词语相对应的话语,并将词语发送到音素比较模块204。
音素比较模块204可以是具有分析从历史话语和实时用户话语中提取的音素的能力的计算机模块。在实施例中,音素比较模块可从词语识别模块202接收或检索针对VA节点的话语的高频词语和音素。进一步地,音素比较模块204可以基于VA节点的词语来生成针对话语的音素的发音相似列表。例如,在英语中有44个音素。音素比较模块204可确定词语的音素,并找出与该词语相似的音素以创建音素的“发音相似”列表。在一些实施例中,可以对列表上的每个音素分配相似性得分。相似性得分可以是基于人类注释的音素列表或者对两个音素之间的声谱图的相似性的分析。在一些实施例中,基于识别说出话语的用户的口音,相似性得分可以包括地区性方言特征。
在一些实施例中,音素比较模块204可以从ASR模块104接收用户话语的实时转录和转录置信度得分低于阈值的话语的所提取的音素。音素比较模块204可以分析来自话语的音素以生成针对实时用户话语的潜在“良好”转录。在一些实施例中,将对照针对VA节点的预期词语的预期音素的数量来检查音素的数量。将拒绝具有更多或更少音素的词语。例如,如果用户想要说“au-thor-i-za-tion”,并且ASR模块104将其转录为“of-her-i-say-shun”,则音素比较模块204会识别出在该话语中有五个音素,并且不考虑来自列表的具有四个或更少音素的和具有6个或更多音素的高频词语。进一步地,可以分析剩余词语以确定哪些音素匹配。不匹配的音素将与来自针对预期词语的“发音相似”列表的音素进行比较。对于上述示例,“i-say-shun”会是来自发音相似列表的匹配。剩余的两个音素“of”和“her”会与来自针对“authorization”的发音相似列表中发音相似的音素进行比较。在该示例中,“of”是在针对音素“au”的发音相似列表中。然而,“her”不在针对与“thor”对应的音素的发音相似列表内。任何匹配的词语将接收音素对齐得分,如果音素对齐得分高于阈值(预定的或者基于音频度量而动态的),则新对齐的音素可以替换原始转录。可以通过确定原始转录的正确对齐的音素的百分比并通过对未对齐的(一个或多个)音素的发音相似得分来分解该百分比,计算音素对齐得分。新的转录可以用于更新ASR模块104。
图3是根据本发明的实施例的ASR模块104的功能框图300。ASR模块104可以包括语音转换器302、语音转录器304、分词器306、词性(POS)标注器308、语义关系识别器310和句法关系识别器312。在一些实施例中,ASR模块104可以是神经网络或隐马尔可夫模型或混合神经网络/隐马尔可夫模型,其能够接收话语并从话语中提取音素以及从所提取的音素转录文本。
语音转换器302可以从用户接收或检索话语。话语可以被实时记录或接收为声波模型。语音转换器302可以将该波模型变成声谱图以供进一步分析。声谱图可以采用二维表示来提供话语的持续时间、幅度、和频率的视觉表示。语音转换器302可基于对声谱图的分析来确定音素。另外,声谱图可以被分解成较小的时间帧(例如10毫秒),以增强从话语中确定音素。
语音转录器304是能够基于从语音转换器302接收或检索的对音素的分析来生成文本的计算机模块。本发明的一些实施例可以具有基于预测模型来确定单词的能力,在该预测模型中,在预测时考虑先前的一个或多个音素。进一步地,语音转录器可以在转录文本的开发中接受来自分词器306、POS标注器308、语义关系识别器310和句法关系识别器312的输入。语音转录器还可提供基于与话语相对应的音频度量来向转录分配转录置信度得分的能力。在一些实施例中,转录置信度得分可以是对信噪比、背景噪声、语音比、高频损耗、直流偏移、削波率、语音电平、和非语音电平的评估。在一些其它实施例中,置信度得分可以是上下文驱动的,其中该得分基于针对特定VA节点的预期响应。进一步地,预期响应可以是转录与预期反应匹配的接近程度。
在一些实施例中,分词器306可以是执行词法分析的计算机模块。分词器306可以将字符序列转换成分词序列。分词可以是被包括在记录中并被分类为有意义符号的字符串。进一步地,在一些实施例中,分词器306可以识别记录中的单词边界,并将语料库内的任何文本分解成它们的组成文本元素,诸如单词、多词分词、数字、以及标点符号。在一些实施例中,分词器306可以接收字符串,识别字符串中的词位,并将它们分类成分词。
根据各种实施例,POS标注器308可以是指定转录中的单词以对应于特定词性的计算机模块。POS标注器308可以分析话语的转录,并将词性指定给每个单词或其他分词。POS标注器308可以基于单词的定义和该单词的上下文来确定该单词所对应的词性。单词的上下文可以是基于它与短语、句子或段落中的相邻和相关单词的关系。在一些实施例中,单词的上下文可以取决于语料库中的一个或多个先前已分析的单词。可以被指定给单词的词性的示例包括但不限于名词、动词、形容词、副词等。POS标注器308可以指定的其它词性分类的示例包括但不限于比较级或最高级副词、wh副词、连词、限定词、否定小品词、所属标记、介词、wh代词等。在一些实施例中,POS标注器308可以用词性分类来标注或以其他方式注释语料库中“an”单词的分词。在一些实施例中,POS标注器308可以对语料库的要由语音转录器304解析的分词或单词进行标注。
在一些实施例中,语义关系识别器310可以是可被配置为识别语料库中的所识别主题(例如,单词、短语、图像等)的语义关系的计算机模块。在一些实施例中,语义关系识别器310可以确定转录内的实体之间的功能依赖性和其他语义关系。
根据各种实施例,句法关系识别器312可以是可被配置为识别由分词组成的语料库中的句法关系的计算机模块。句法关系识别器312可确定句子的语法结构,例如,哪些单词组作为短语相关联,以及哪个单词是动词的主语或宾语。句法关系识别器312可遵循形式语法。
图4是描绘用于生成“发音相似”列表的方法400的流程图。在402,在转录校正引擎106接收历史话语和对应的音频度量。
在404,转录校正引擎106从历史话语和音频度量中识别高频词语。高频词语可由词语识别模块202通过分析词语在一时间范围中在VA节点处被选择的次数来识别。进一步地,在一些实施例中,可以对音频度量进行词语识别评估,以确定词语是否已被选择,并且如果音频度量对于给定话语是差的,则该话语可从最终分析中被扣除。
在406,ASR模块104可以将所识别的高频词语分解成对应的音素。在一些实施例中,ASR模块104将评估先前已记录的话语的声波模型,并且语音转换器302将声波模型转换成声谱图,并从声谱图中分隔音素。语音转录器304可用来自分词器306、POS标注器308、语义关系识别器310和句法关系识别器312的输入来将所分隔的音素转换成文本,从而确保被转录的文本在语义和句法上是正确的。
在408,音素比较模块204针对由ASR模块104转录的高频词语的音素生成“发音相似”列表。进一步地,音素比较模块204可以向针对来自高频词语的每个音素的相似发音音素的列表分配置信度得分。
图5是描绘用于使用发音相似列表来校正转录的方法500的流程图。在502,可由ASR模块104接收话语和音频度量。话语可以是针对特定VA节点的,或者是在针对VA的开放对话框内。在一些实施例中,话语可以在来自自动客户呼叫支持热线的特定上下文内。在又一实施例中,话语可以来自开放对话框,在该开放对话框中,VA由特定话语触发操作,并被给予预先存在的命令或在特定域内被提问。
在504,ASR模块104可以转录所接收的话语。在一些实施例中,ASR模块104可以将话语分解成它的音素,并基于这些音素而生成文本。在一些实施例中,可以使用预测模型来生成文本,其中模型是深度神经网络。
在506,ASR模块104可以向话语的转录分配转录置信度得分。在一些实施例中,转录置信度得分可以是基于对音频度量的评估,或者是基于预期响应的上下文的,或者是两者的组合。
在508,转录校正引擎106确定转录置信度得分是否高于阈值。阈值可以是静态的或动态的。如果阈值是静态的,则它可以由用户基于用户当时的判断或需要来配置。阈值可基于众多因素来动态地配置,包括当时可用的计算资源、话语的长度、在接收话语时的VA节点利用率等。如果转录置信度得分低于阈值,则转录被认为是“缺失”,并被发送以供进一步处理。如果置信度得分高于阈值,则转录方法结束。
在510,音素比较模块204将“缺失”转录中的音素与针对给定节点的高频词语的音素进行比较。在一些实施例中,音素比较模块可以被配置为分析转录中的音素数量,并确定哪些高频词语包含相同的音素数量。进一步地,音素比较模块204可以确定转录中的任何音素是否与高频词语中的音素相匹配。来自高频词语的与转录中的音素不匹配的任何音素可与来自“发音相似”列表的音素进行比较,以确定音素是否可匹配。另外,如果音素比较模块204可以对匹配的音素和匹配的“发音相似”音素的数量进行评分,则该得分可以是匹配的音素的百分比和匹配的“发音相似”音素的因子。
在512,如果匹配的音素得分高于阈值(静态或动态分配的),则用与匹配的音素对应的转录来替换“缺失”转录。新开发的转录可用于更新ASR模块104。
在514,方法结束。
图6描绘了计算机系统600,即代表本发明的实施例中的服务器102和数据储存库108或任何其他计算设备的示例计算机系统。计算机系统600包括通信结构12,其提供(一个或多个)计算机处理器14、存储器16、永久性存储装置18、网络适配器28和(一个或多个)输入/输出(I/O)接口26之间的通信。通信结构12可以用被设计用于在处理器(例如微处理器、通信和网络处理器等)、系统存储器、外围设备、和系统内的任何其它硬件组件之间传递数据和/或控制信息的任何架构来实现。例如,通信结构12可以用一个或多个总线来实现。
计算机系统600包括处理器14、高速缓存22、存储器16、网络适配器28、输入/输出(I/O)接口26和通信结构12。通信结构12提供高速缓存22、存储器16、永久性存储装置18、网络适配器28和(一个或多个)输入/输出(I/O)接口26之间的通信。通信结构12可以用被设计用于在处理器(例如微处理器、通信和网络处理器等)、系统存储器、外围设备、和系统内的任何其它硬件组件之间传递数据和/或控制信息的任何架构来实现。例如,通信结构12可以用一个或多个总线或纵横开关来实现。
存储器16和永久性存储装置18是计算机可读存储介质。在该实施例中,存储器16包括永久性存储装置18、随机存取存储器(RAM)20、高速缓存22和程序模块24。通常,存储器16可以包括任何合适的易失性或非易失性计算机可读存储介质。高速缓存22是通过保存来自存储器16的最近被访问的数据和在最近被访问的数据附近的数据来增强处理器14的性能的快速存储器。如下面将进一步描绘和描述的,存储器16可以包括被配置为执行本发明的实施例的功能的至少一个程序模块24。
作为示例而非限制,具有至少一个程序模块24的程序/实用程序以及操作系统、一个或多个应用程序、其它程序模块、和程序数据可被存储在存储器16中。操作系统、一个或多个应用程序、其它程序模块、和程序数据中的每一个或其某种组合可包括联网环境的实现。程序模块24通常执行如本文所述的本发明实施例的功能和/或方法。
用于实施本发明的实施例的程序指令和数据可以被存储在永久性存储装置18和存储器16中,以由一个或多个相应的处理器14经由高速缓存22来执行。在实施例中,永久性存储装置18包括磁硬盘驱动器。替代地或除了磁硬盘驱动器之外,永久性存储装置18可包括固态硬盘驱动器、半导体存储设备、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存、或能够存储程序指令或数字信息的任何其它计算机可读存储介质。
永久性存储装置18所使用的介质也可以是可移除的。例如,可移除的硬盘驱动器可被用于永久性存储装置18。其它示例包括光盘和磁盘、拇指驱动器、和智能卡,它们被插入驱动器中以用于传送到也是永久性存储装置18的一部分的另一计算机可读存储介质上。
在这些示例中,网络适配器28提供与其他数据处理系统或设备的通信。在这些示例中,网络适配器28包括一个或多个网络接口卡。网络适配器28可以通过使用物理和无线通信链路中的任一种或两种来提供通信。用于实施本发明的实施例的程序指令和数据可以通过网络适配器28被下载到永久性存储装置18。
(一个或多个)I/O接口26允许与可被连接到每个计算机系统的其它设备的数据输入和输出。例如,I/O接口26可以提供到外部设备30(诸如键盘、小键盘、触摸屏、和/或某一其它合适的输入设备)的连接。外部设备30还可以包括便携式计算机可读存储介质,例如拇指驱动器、便携式光盘或磁盘、以及存储卡。用于实施本发明的实施例的软件和数据可以被存储在这样的便携式计算机可读存储介质上,并且可以经由(一个或多个)I/O接口26被加载到永久性存储装置18上。(一个或多个)I/O接口26也连接到显示器32。
显示器32提供向用户显示数据的机制,并且可以是例如计算机监视器或虚拟图形用户界面。
这里描述的组件是基于它们在本发明的特定实施例中被实现的应用来标识的。然而,应当理解,本文中任何特定的组件命名仅为了方便而使用,因此,本发明不应限于仅在由这种命名标识和/或暗示的任何特定应用中使用。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括在其上具有计算机可读程序指令的(一个或多个)计算机可读存储介质,计算机可读程序指令用于使处理器执行本发明的各方面。
计算机可读存储介质可以是可保持并存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或前述存储设备的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如在上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码设备、以及上述设备的任何适当的组合。如本文所使用的计算机可读存储介质不应被解释为是暂时性信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤线缆的光脉冲)、或通过导线传输的电信号。
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络(例如互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或者以一种或多种编程语言(包括面向对象的编程语言,例如Smalltalk、C++等)和过程编程语言(例如“C”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种场景下,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者可以连接到外部计算机(例如,使用互联网服务提供商通过互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化,以便执行本发明的各方面。
在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,以使得经由计算机或其他可编程数据处理装置的处理器而执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作,已使得在其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使一系列操作步骤将在计算机、其他可编程装置或其他设备上执行,以产生计算机实现的过程,以使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中,框中所注明的功能可不按图中所注明的次序发生。例如,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
应当理解,尽管本公开包括关于云计算的详细描述,但是本文所记载的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。
云计算是一种服务交付模式,用于实现对共享的可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、VM和服务)池池的方便、按需的网络访问,可配置计算资源可以以最小的管理成本或与服务提供商进行最少的交互来快速供应和释放。这种云模式可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特征如下:
按需自助式服务:云的消费者可以单方面自动地按需提供计算能力(诸如服务器时间和网络存储),而无需与服务提供者进行人工交互。
广泛的网络接入:能力在网络上可用并通过促进异构的瘦或厚客户端平台(例如,移动电话、膝上型计算机和PDA)的使用的标准机制来接入。
资源池:提供商的计算资源被归入资源池以使用多租户模型来服务多个消费者,其中不同的物理和虚拟资源根据需求被动态地分配和再分配。一般情况下,消费者不能控制或不知道所提供的资源的确切位置,但是可以在较高抽象程度上指定位置(例如国家、州或数据中心),因此具有位置无关性。
迅速弹性:可以迅速且有弹性地(在一些情况下自动地)提供能力以快速向外扩展并被迅速释放以快速缩小。对于消费者,可用于提供的能力通常看起来是无限的,并可以在任何时间以任何数量购买。
可测量的服务:云系统通过利用在适于服务类型(例如,存储、处理、带宽和活动用户账户)的某一抽象程度的计量能力,自动地控制和优化资源使用。可以监视、控制和报告资源使用情况,为所利用的服务的提供者和消费者双方提供透明度。
服务模型如下:
软件即服务(SaaS):向消费者提供的能力是使用提供者在云基础架构上运行的应用。可通过诸如网络浏览器的瘦客户机接口(例如,基于网络的电子邮件)来从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置以外,消费者既不管理也不控制包括网络、服务器、操作系统、存储、或甚至单个应用能力等的底层云基础架构。
平台即服务(PaaS):向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用,这些应用是使用由提供商支持的编程语言和工具创建的。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构,但对其部署的应用具有控制权,对应用托管环境配置可能也具有控制权。
基础架构即服务(IaaS):向消费者提供的能力是提供消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其它基础计算资源。消费者既不管理也不控制底层云基础架构,但对操作系统、存储、所部署的应用具有控制权,对所选择的网络组件(例如,主机防火墙)可能具有有限的控制权。
部署模型如下:
私有云:云基础架构单独为某个组织运行。它可以由该组织或第三方管理,并且可以存在于该组织内部或外部。
共同体云:云基础架构被若干组织共享,并支持具有共同利害关系(例如,任务、安全要求、政策和合规考虑)的特定共同体。它可以由该组织或第三方管理,并且可以存在于该组织内部或外部。
公共云:云基础架构可用于一般公众或大型产业群,并由销售云服务的组织拥有。
混合云:云基础架构由两个或更多云(私有云、共同体云或公共云)组成,这些云依然是独特实体,但是通过使数据和应用能够移植的标准化技术或私有技术(例如,用于云之间的负载平衡的云突发)绑定在一起。
云计算环境是面向服务的,特点集中在无状态性、低耦合性、模块性和语义的互操作性。计算的核心是包括互连节点网络的基础架构。
图7是描绘根据本发明的至少一个实施例的云计算环境50的框图。云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10,本地计算设备例如是个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。节点10可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络(诸如如上文所描述的私有云、共同体云、公共云、或混合云或其组合)中。这允许云计算环境50提供基础架构即服务、平台即服务和/或软件即服务,而云消费者不需要为其在本地计算设备上维护资源。应当理解,图7中所示的各类计算设备54A-N仅仅是示意性的,计算节点10和云计算环境50可以在任何类型的网络和/或网络可寻址连接上(例如,使用网络浏览器)与任何类型的计算设备通信。
图8是描绘根据本发明的至少一个实施例的由图6所描绘的云计算环境50提供的一组功能抽象模型层的框图。首先应当理解,图8所示的组件、层和功能仅仅是示意性的,本发明的实施例不限于此。如图所示,提供了以下层和相应的功能:
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括:大型机61;基于RISC(精简指令集计算机)架构的服务器62;服务器63;刀片服务器64;存储设备65;以及网络和网络组件66。在一些实施例中,软件组件包括网络应用服务器软件67和数据库软件68。
虚拟化层70提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器71;虚拟存储器72;虚拟网络73,包括虚拟专用网络;虚拟应用程序和操作系统74;以及虚拟客户端75。
在一个示例中,管理层80可以提供以下描述的功能。资源供应功能81提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取。计量和定价功能82提供对在云计算环境内使用资源的成本跟踪,并为这些资源的消耗提供账单或发票。在一个示例中,这些资源可以包括应用软件许可。安全功能为云消费者和任务提供身份认证,并为数据和其他资源提供保护。用户门户功能83为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能84提供云计算资源的分配和管理,以满足所需的服务水平。服务水平协议(SLA)计划和履行功能85提供对根据SLA针对其预测未来需求的云计算资源的预安排和采购。
工作负载层90提供可以利用云计算环境的功能的示例。在该层中,可提供的工作负载和功能的示例包括:地图绘制与导航91;软件开发及生命周期管理92;虚拟教室的教学提供93;数据分析处理94;交易处理95;以及语音识别转录校正96。
本文已经出于说明的目的呈现了对各种实施例的描述,但其并非旨在是穷尽性的或限于所公开的实施例。在不背离所描述的实施例的范围和精神的情况下,许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进,或使本领域的其他普通技术人员能够理解本文所公开的实施例。

Claims (20)

1.一种用于训练用于改进语音识别的模型的计算机实现的方法,所述计算机实现的方法包括:
由所述一个或多个处理器将话语转录为文本;
由所述一个或多个处理器基于转录度量和音频度量,生成转录置信度得分;
响应于所述转录置信度得分低于阈值,由所述一个或多个处理器将所述话语中的音素与来自高频词语列表的至少一个词语中的音素进行比较;
基于所述比较,由所述一个或多个处理器针对来自高频词语列表的所述至少一个词语中的音素生成发音相似得分;以及
如果所述发音相似得分高于阈值,则由所述一个或多个处理器用来自所述高频词语列表的所述至少一个词语来替换所述转录。
2.根据权利要求1所述的计算机实现的方法,其中,所述比较进一步包括:
由所述一个或多个处理器确定所述话语中的音素数量;
由所述一个或多个处理器不考虑不具有与所述话语相同音素数量的高频词语;以及
由所述一个或多个处理器将剩余高频词语的音素与所述话语中的音素进行匹配。
3.根据权利要求2所述的计算机实现的方法,还包括:
响应于所述音素不匹配,由所述一个或多个处理器确定与所述高频词语不匹配的话语音素是否匹配来自针对对应的高频词语音素的发音相似列表的音素。
4.根据权利要求1所述的计算机实现的方法,其中,所述音频度量包括以下中的至少一个:信噪比,背景噪声,语音比,高频损耗,直流偏移,削波率,语音电平,或非语音电平。
5.根据权利要求1所述的计算机实现的方法,其中,由基于深度神经网络的自动语音识别模块执行所述转录。
6.根据权利要求1所述的计算机实现的方法,还包括:
由所述一个或多个处理器接收所述话语。
7.根据权利要求6所述的计算机实现的方法,其中,由虚拟助理在所述虚拟助理的特定节点处执行所述接收,其中,已经针对所述特定节点识别了在一段时间内的所述高频词语。
8.一种用于改进语音识别转录的计算机系统,所述系统包括:
一个或多个计算机处理器;
一个或多个计算机可读存储介质;
用于执行根据权利要求1至7中任一项所述的方法的步骤的计算机程序指令。
9.一种用于改进语音识别转录的计算机程序产品,所述计算机程序产品包括计算机可读存储介质和在所述计算机可读存储介质上存储的程序指令,所述程序指令包括用于执行根据权利要求1至7中的任一项所述的方法的步骤的指令。
10.一种计算机系统,包括用于执行根据权利要求1至7中任一项所述的方法的步骤的装置。
11.一种用于训练用于改进语音识别的模型的计算机实现的方法,所述计算机实现的方法包括:
由一个或多个处理器接收话语的历史和对应的针对所述话语的音频度量;以及
由所述一个或多个处理器基于所述话语的历史和针对所述话语的所述音频度量,生成针对至少一个话语的发音相似列表。
12.根据权利要求11所述的计算机实现的方法,其中,所述音频度量标识话语的频率以及与所述话语相对应的一个或多个词语的频率。
13.根据权利要求11所述的计算机实现的方法,还包括:
由所述一个或多个处理器将所述至少一个话语转换成话语音素,其中,所述转换是由基于深度神经网络的语音识别模型执行的。
14.根据权利要求13所述的计算机实现的方法,还包括:
由所述一个或多个处理器将与所述话语相对应的所述一个或多个词语转换成至少一个音素。
15.根据权利要求14所述的计算机实现的方法,还包括:
由所述一个或多个处理器向与所述话语音素相对应的词语音素分配发音相似值。
16.根据权利要求11所述的计算机实现的方法,其中,所述话语的历史来自虚拟助理。
17.根据权利要求11所述的计算机实现的方法,还包括:
由所述一个或多个处理器将对应的话语音素和所述词语音素存储在储存库中,其中,所述话语音素和所述词语音素是所述发音相似列表。
18.一种用于改进语音识别转录的计算机系统,所述系统包括:
一个或多个计算机处理器;
一个或多个计算机可读存储介质;
用于执行根据权利要求11至17中任一项所述的方法的步骤的计算机程序指令。
19.一种用于改进语音识别转录的计算机程序产品,所述计算机程序产品包括计算机可读存储介质和在所述计算机可读存储介质上存储的程序指令,所述程序指令包括用于执行根据权利要求11至17中的任一项所述的方法的步骤的指令。
20.一种计算机系统,包括用于执行根据权利要求11至17中任一项所述的方法的步骤的装置。
CN202111133665.6A 2020-09-28 2021-09-27 改进语音识别转录 Pending CN114283810A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US17/034,082 US11580959B2 (en) 2020-09-28 2020-09-28 Improving speech recognition transcriptions
US17/034,114 US20220101835A1 (en) 2020-09-28 2020-09-28 Speech recognition transcriptions
US17/034114 2020-09-28
US17/034082 2020-09-28

Publications (1)

Publication Number Publication Date
CN114283810A true CN114283810A (zh) 2022-04-05

Family

ID=80868578

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111133665.6A Pending CN114283810A (zh) 2020-09-28 2021-09-27 改进语音识别转录

Country Status (2)

Country Link
JP (1) JP2022055347A (zh)
CN (1) CN114283810A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220215056A1 (en) * 2021-01-04 2022-07-07 Oracle International Corporation Drill back to original audio clip in virtual assistant initiated lists and reminders

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220215056A1 (en) * 2021-01-04 2022-07-07 Oracle International Corporation Drill back to original audio clip in virtual assistant initiated lists and reminders

Also Published As

Publication number Publication date
JP2022055347A (ja) 2022-04-07

Similar Documents

Publication Publication Date Title
CN111226274B (zh) 自动阻止音频流中包含的敏感数据
US11580959B2 (en) Improving speech recognition transcriptions
CN107924394B (zh) 用于提供自然语言输出中的自然语言信号的自然语言处理器
US20220101835A1 (en) Speech recognition transcriptions
US10755719B2 (en) Speaker identification assisted by categorical cues
US10062385B2 (en) Automatic speech-to-text engine selection
US9972308B1 (en) Splitting utterances for quick responses
WO2023020262A1 (en) Integrating dialog history into end-to-end spoken language understanding systems
US11605385B2 (en) Project issue tracking via automated voice recognition
WO2022237376A1 (en) Contextualized speech to text conversion
US10552540B2 (en) Automated application composer with natural language processing
US11301626B2 (en) Artificial intelligence based context dependent spellchecking
WO2022121684A1 (en) Alternative soft label generation
US20220188525A1 (en) Dynamic, real-time collaboration enhancement
CN114283810A (zh) 改进语音识别转录
US10991370B2 (en) Speech to text conversion engine for non-standard speech
US20230237987A1 (en) Data sorting for generating rnn-t models
WO2022048535A1 (en) Reasoning based natural language interpretation
CN117043742A (zh) 在训练文本到语音模型中使用语音到文本数据
CN116686045A (zh) 在没有完整转录本的情况下的端到端口语理解
US20220319494A1 (en) End to end spoken language understanding model
US20230281396A1 (en) Message mapping and combination for intent classification
US11810558B2 (en) Explaining anomalous phonetic translations
US20230136842A1 (en) Training data sequence for rnn-t based global english model
US20230412475A1 (en) Extracting corrective actions from information technology operations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination