CN112997247A

CN112997247A - 利用大数据的最佳语言模型生成方法及用于其的装置

Info

Publication number: CN112997247A
Application number: CN201880099281.7A
Authority: CN
Inventors: 黄铭振; 池昌真
Original assignee: Saisteran International Co ltd
Current assignee: Saisteran International Co ltd
Priority date: 2018-11-05
Filing date: 2018-11-05
Publication date: 2021-06-18
Also published as: WO2020096073A1; KR20210052564A; US20220005462A1

Abstract

在本发明的一实施方式中，语音识别方法可包括：接收语音信号，并将上述语音信号转换为语音数据的步骤；利用初始语音识别模型来识别上述语音数据并生成初始语音识别结果的步骤；在大数据中搜索上述初始语音识别结果，并收集与上述初始语音识别结果相同和/或类似的数据的步骤；利用所收集的相同和/或类似的上述数据来生成或更新语音识别模型的步骤；以及利用所生成或更新的上述语音识别模型来再次识别上述语音数据，并生成最终语音识别结果的步骤。

Description

利用大数据的最佳语言模型生成方法及用于其的装置

技术领域

本发明涉及语音识别准确度得到提高的语言模型生成方法及用于其的装置。

背景技术

自动语音识别技术为将语音转换为文字的技术。最近，上述技术的识别率得到了快速提高。虽然识别率得到了提高，但是语音识别器仍无法识别语音识别器的词汇词典未包括的单词，结果，发生对应单词被错误识别成其他词汇的问题。实际上，利用现有技术解决上述错误识别问题的唯一方法是将对应词汇表包括在词汇词典中。

但是，在不断生成新单词、新词汇的当前时间点，这种方式最终导致语音识别的准确度下降。

发明内容

技术问题

本发明的目的在于，提出用于将不断生成的新词汇向语音模型自动/实时反映的有效方法。

本发明所要解决的技术问题并不局限于以上提及的技术问题，本发明所属技术领域的普通技术人员可从以下的记载明确理解未提及的其他问题。

技术方案

并且，收集相同和/或类似的上述数据的步骤还可包括收集与上述语音识别结果相关的数据的步骤。

并且，上述相关的数据可包含具有上述语音识别结果的单词、字符串或类似发音串的句子或文件和/或在上述大数据中被分为与上述语音数据类别相同的数据。

并且，生成或更新上述语音识别模型的步骤可以为如下的步骤，即，除了所收集的相同和/或类似的上述数据之外，进一步利用额外定义的辅助语言数据来生成或更新上述语音识别模型。

并且，在本发明的另一实施方式中，语音识别装置可包括：语音输入部，用于接收语音；存储器，用于存储数据；以及处理器，接收语音信号，并将上述语音信号转换为语音数据，利用初始语音识别模型来识别上述语音数据并生成初始语音识别结果，在大数据中搜索上述初始语音识别结果，并收集与上述初始语音识别结果相同和/或类似的数据，利用所收集的相同和/或类似的上述数据来生成或更新语音识别模型，利用所生成或更新的上述语音识别模型来再次识别上述语音数据，并生成最终语音识别结果。

并且，在收集相同和/或类似的上述数据的情况下，上述处理器可收集与上述语音数据相关的数据。

并且，在生成或更新上述语音识别模型的情况下，上述处理器除了所收集的相同和/或类似的上述数据之外，可以进一步利用额外定义的辅助语言数据来生成或更新上述语音识别模型。

发明的效果

根据本发明，本发明具有如下的效果，即，可以防止因未登录在语音识别系统的新的单词/词汇等而导致的语音识别器的错误识别。

附图说明

为了帮助理解本发明而作为详细说明的一部分包括的附图提供对于本发明的实施例，与详细说明一同说明本发明的技术特征。

图1为本发明一实施例的语音识别装置的框图。

图2为例示一实施例的语音识别装置的图。

图3为例示本发明一实施例的语音识别方法的流程图。

具体实施方式

以下，参照附图，详细说明本发明的优选实施形态。以下与附图一同揭示的详细说明用于说明本发明的例示性实施形态，而并非呈现本发明可实施的唯一实施形态。以下的详细说明为了体用本发明的完整理解而包括具体事项。但是，本发明所属技术领域的普通技术人员可以知道也可以在没有这种具体事项的情况下实施本发明。

在几种情况下，为了避免本发明的概念变得模糊而可以省略公知的结构及装置，或者能够通过以各个结构及装置的核心功能为中心的框图形式示出。

图1为本发明一实施例的语音识别装置的框图。

参照图1，语音识别装置100可包括以下中的至少一个：语音输入部110，用于接收用户的语音；存储器120，用于存储与所识别的语音相关的多种数据；以及处理器130，用于处理所输入的用户的语音。

语音输入部110可包括麦克风(microphone)，若输入用户说出(utterance)的语音，则将其转换为电信号来向处理器130输出。

处理器130可向从语音输入部110接收的信号适用语音识别(speechrecognition)预算或语音识别引擎(speech recognition engine)来获取用户的语音数据。

在此情况下，向处理器130输入的信号可以转换为用于语音识别的更有用的形态，处理器130可以将输入等信号从模拟形式转换为数字形式，可通过检测语音的开始时间点和结束时间点来检测语音数据中所包含的实际语音区间/数据。将其称为终点检测(EPD，End Point Detection)。

而且，处理器130可以在检测的区间内适用倒普(Cepstrum)、线性预测系数(Linear Predictive Coefficient，LPC)、Mel倒谱系数(Mel Frequency CepstralCoefficient，MFCC)或滤波器组能量(Filter Bank Energy)等的特征向量提取技术来提取信号的特性向量。

处理器130可利用存储数据的存储器120来存储与语音数据的结束时间点有关的信息及特定向量。

存储器120可包括闪存(flash memory)、硬盘(hard disc)、存储卡、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、存储卡、电可擦可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、磁存储器、磁盘、光盘中的至少一个存储介质。

而且，处理器130通过比较所提取的特定向量与训练的基准图案获取识别结果。为此，可以使用将语音的信号特性建模来进行比较的语音识别模型和与将识别词汇对应的单词或音节等的语言顺序关系建模的语音模型(Language Model)。

语音识别模型可使用再次将识别对象设定为特定向量模型并将其与云数据的特定向量进行比较的直接比较方法和利用统计处理识别对象的特定向量的统计方法。

直接比较方法作为将作为识别对象的单词、音素等的单位设定为特定向量模型并比较输入语音维持多长时间的方法，代表性地，包括向量量化(Vector Quantization)方法。根据向量量化方法，将输入的语音数据的特定向量与作为基准模型的码本(codebook)匹配来编码成代表值，依次对上述编码值进行比较。

统计模型方法为将对于识别对象的单位以状态序列(State Sequence)构成并利用状态序列之间的关系的方法。状态序列可以由多个节点(node)构成。利用状态序列之间的关系的方法再次利用动态时间规整(Dynamic Time Warping，DTW)、隐马尔可夫模型(Hidden Markov Model，HMM)、利用神经电路网的方式等。

动态时间扭曲考虑了语音的动态特性，即使同一个人发出相同的发音，信号的长度也会随时间而变化，当与基准模型比较时，补偿时间轴上的差异，隐马尔可夫模型为如下的识别技术，即，将语音假定为具有状态转移概率及在各个状态下的节点(输出符号)的观察概率的马尔科夫过程之后，通过学习数据推定状态转移概率即节点的观察概率，计算在所推定的模型中发生输入语音的概率。

另一方面，在将单词或音节等的语言顺序关系建模的语言模型中，将构成语言的单位之间的顺序关系适用于在语音识别过程中获取的单位，由此可减少音响模糊性并可减少识别的错误。语音模型包括统计语言模型和基于有限状态自动机(Finite StateAutomata，FSA)的模型，统计语言模型利用Unigram、Bigram、Trigram等单词的连锁概率。

处理器130在识别语音的过程中，即使使用上述方法中的一个方法也无妨。例如，可以使用适用隐马尔可夫模型的语音识别模型，也可以使用将语音识别模型和语言模型合并的N-best探索法。N-best探索法利用语音识别模型和语言模型来选择N个识别结果候补之后，再次评价这些候补的顺序，由此可提高识别性能。

处理器130为了确保识别结果的可靠性而可以计算可靠度分数(confidencescore)(或可以简称为“可靠度”)。

可靠度分数为针对语音识别结果，表示其结果的可靠程度的尺度，可以为针对作为所识别的结果的音素或单词，对于从此外的其他音素或单词说出上述话语的概率的相对值。因此，可靠度分数可以为0至1之间的值，也可以为0至100之间的值。在可靠度分数大于预设阈值(threshold)的情况下，可以认证识别结果，在小于预设阈值的情况下，可以拒绝(rejection)识别结果。

此外，可靠度分数可根据以往的多种可靠度分数获取算法获取。

处理器130可体现在利用软件、硬件或它们的组合来能够通过计算机读取的记录介质内。根据硬件的体现，可以利用专用集成电路(ASICs，application specificintegrated circuits)、数字信号处理器(DSPs，digital signal processors)、数字信号处理设备(DSPDs，igital Signal Processing Devices)、可编程逻辑器件(PLDs，programmable logic devices)、现场可编程门阵列(FPGAs，field programmable gatearrays)、处理器(processor)、微控制器(microcontrollers)、微处理器(micro-processor)等的电单元中的至少一个来体现。

根据软件的体现，可以与执行至少一个功能或动作的单个软件模块一同体现，软件代码可通过以适当程序语言写入的软件应用来体现。

处理器130体现以下后述的图2及图3所提出的功能、过程和/或方法，以下，为了说明的便利，将处理器130和语音识别装置100视为相同部件来进行说明。

图2为例示一实施例的语音识别装置的图。

参照图2，语音识别装置可通过语音识别模型识别语音数(初始/样品)来生成初始/样品语音识别结果。其中，(初始/样品)语音识别模型可以为在语音识别装置中已生成/已存储的语音识别模型或为了识别初始/样品语音而主语音识别模型单独的已生成/已存储的辅助语音识别模型。

语音识别装置可从大数据中收集与上述初始/样品语音识别结果相同/类似数据(相关语言数据)。在此情况下，当收集/搜索相同/类似数据时，语音识别装置可以收集/搜索上述初始/样品语音识别结果和与此相关的其他数据(相同/类似的类别的其他数据)。

上述大数据在形式上没有限制，可以为网络数据，也可以为数据库，也可以为非结构化的大量的文本。

并且，上述大数据的出处或获取方法并未受限，也可以从网页搜寻引擎获取，也可以直接网页抓取来获取，也可以从已构建的本地或远程数据库获取。

并且，由于判断为与初始语音识别结果类似，类似数据可以为从大数据中提取的文件、文段、句子或部分句子。

并且，当提取上述类似数据时所使用的类似度判断只要使用符合情况的适当方法即可。例如，可以使用利用TF-IDF、Information gain、cosine similarity等的类似度判断式，也可以使用利用k-means等的聚类方法。

语音识别装置可利用以此收集的语言数据和辅助语言数据来生成(或者更新已生成/已存储的语音识别模型)新的语音识别模型。在此情况下，辅助语言数据未被使用，而是仅可使用所收集的语言数据。在此情况下，使用的辅助语言为用于语音识别训练的文本数据必须包含的数据或者预期不足的数据的集合。例如，若是用于江南区地址搜索的语音识别器，则需要收集的语言数据可以为与江南区的地址相关的数据，辅助语言数据可以为“地址”、“门牌号”、“说给我”、“告诉我”、“给我换”等。

语音识别装置可以再次识别通过以此生成/更新的语音识别模型接收的语音数据来生成最终语音识别结果。

图3为例示本发明一实施例的语音识别方法的流程图。与本流程图相关地上述实施例/说明可以相同/类似地适用，将省略重复说明。

首先，语音识别装置可从用户接收语音(步骤S301)。语音识别装置可以将所输入的语音(或语言信号)转换为语音数据并加以存储。

接着，语音识别装置可以通过语音识别模型识别语音数据来生成初始语音识别结果(步骤S302)。在此使用的语音识别模型可以为在语音识别装置已生成/已存储的语音识别模型或者为了生成初始语音识别结果而额外定义/生成的语音识别模型。

接着，语音识别装置可以从大数据中收集/搜索与初始语音识别结果相同和/或类似的数据(步骤S303)。在此情况下，当收集/搜索相同/类似数据时，语音识别装置可以收集/搜索初始语音识别结果和与此相关的多种其他语言数据。例如，语音识别装置作为上述相关的数据，可以收集/搜索具有语音识别结果的单词、字符串或类似发音串的句子或文件和/或在上述大数据中被分为与上述语音数据类别相同的数据。

接着，语音识别装置可基于所收集的数据来生成和/或更新语音识别模型(步骤S304)。更详细地，语音识别装置可基于所收集的数据来生成新的语音识别模型，或者可以更新已生成/已存储的语音识别模型。为此，可以追加使用辅助语言数据。

接着，语音识别装置可利用生成和/或更新的语音识别模型来再次识别所输入的语音数据(步骤S305)。

如上所述，基于实时生成/更新的语音识别模型来识别语音，因此，语音错误识别概率降低，语音识别准确度上升。

本发明的实施例可通过多种单元，例如，硬件、固件(firmware)、软件或它们的结合等体现。在通过硬件体现的情况下，本发明的实施例可通过一个或一个以上的专用集成电路(ASICs，application specific integrated circuits)、数字信号处理器(DSPs，digital signal processors)、数字信号处理设备(DSPDs，igital Signal ProcessingDevices)、可编程逻辑器件(PLDs，programmable logic devices)、现场可编程门阵列(FPGAs，field programmable gate arrays)、处理器、控制器、微控制器、微处理器等体现。

在通过固件或软件体现的情况下，本发明实施例可通过执行以上所说明的功能或动作的模块、步骤、函数等的形态体现。软件代码可通过存储于存储器的处理器驱动。上述存储器可位于上述处理器内部或外部，可通过已知的多种单元与上述处理器收发数据。

对本发明所属技术领域的普通技术人员来说，本发明在不超出必要特征的范围内可具体化成其他特定形态是显而易见的。因此，上述的详细说明在所有方面并不能被限定解释，而是例示性说明。本发明的范围通过附加的发明要求保护范围的合理解释确定，本发明的等同范围内的所有变更属于本发明的范围内。

产业上的可利用性

本发明可适用于多种语音识别技术领域。

本发明提供自动即刻反映未登录词汇的方法。

可通过本发明的上述特征防止对于未登录词汇的错误识别。因未登录词汇所引起的错误识别问题可适用于可生成新词汇的多种语音识别服务。

Claims

1.一种语音识别方法，其特征在于，包括：

接收语音信号，并将上述语音信号转换为语音数据的步骤；

利用初始语音识别模型来识别上述语音数据并生成初始语音识别结果的步骤；

在大数据中搜索上述初始语音识别结果，并收集与上述初始语音识别结果相同和/或类似的数据的步骤；

利用所收集的相同和/或类似的上述数据来生成或更新语音识别模型的步骤；以及

利用所生成或更新的上述语音识别模型来再次识别上述语音数据，并生成最终语音识别结果的步骤。

2.根据权利要求1所述的语音识别方法，其特征在于，收集相同和/或类似的上述数据的步骤还包括收集与上述语音识别结果相关的数据的步骤。

3.根据权利要求2所述的语音识别方法，其特征在于，上述相关的数据包含具有上述语音识别结果的单词、字符串或类似发音串的句子或文件和/或在上述大数据中被分为与上述语音数据类别相同的数据。

4.根据权利要求1所述的语音识别方法，其特征在于，生成或更新上述语音识别模型的步骤为如下的步骤，即，除了所收集的相同和/或类似的上述数据之外，进一步利用额外定义的辅助语言数据来生成或更新上述语音识别模型。

5.一种语音识别装置，其特征在于，包括：

语音输入部，用于接收语音；

存储器，用于存储数据；以及

处理器，接收语音信号，并将上述语音信号转换为语音数据，利用初始语音识别模型来识别上述语音数据并生成初始语音识别结果，在大数据中搜索上述初始语音识别结果，并收集与上述初始语音识别结果相同和/或类似的数据，利用所收集的相同和/或类似的上述数据来生成或更新语音识别模型，利用所生成或更新的上述语音识别模型来再次识别上述语音数据，并生成最终语音识别结果。

6.根据权利要求5所述的语音识别装置，其特征在于，在收集相同和/或类似的上述数据的情况下，上述处理器收集与上述语音数据相关的数据。

7.根据权利要求6所述的语音识别装置，其特征在于，上述相关的数据包含具有上述语音识别结果的单词、字符串或类似发音串的句子或文件和/或在上述大数据中被分为与上述语音数据类别相同的数据。

8.根据权利要求5所述的语音识别装置，其特征在于，在生成或更新上述语音识别模型的情况下，上述处理器除了所收集的相同和/或类似的上述数据之外，进一步利用额外定义的辅助语言数据来生成或更新上述语音识别模型。