CN107578769A

CN107578769A - 语音数据标注方法和装置

Info

Publication number: CN107578769A
Application number: CN201610523333.1A
Authority: CN
Inventors: 宋亚楠; 潘嘉; 刘聪; 胡国平; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2016-07-04
Filing date: 2016-07-04
Publication date: 2018-01-12
Anticipated expiration: 2036-07-04
Also published as: CN107578769B

Abstract

本发明提出一种语音数据标注方法和装置，该语音数据标注方法包括：接收语音数据，对所述语音数据进行语音识别，得到识别文本；获取用户对所述识别文本确认后的用户确认文本；对所述识别文本和所述用户确认文本进行分析，提取自动标注特征；根据所述自动标注特征及预先构建的自动标注模型，对所述语音数据进行标注。该方法能够解决人工标注存在的问题，提高语音数据标注的效率并降低成本。

Description

语音数据标注方法和装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种语音数据标注方法和装置。

背景技术

随着各种智能终端的日益普及，及人工智能技术的突破，语音作为人机交互的重要环节，广泛应用于各种智能终端上，越来越多的用户习惯对着机器讲话，根据应用需求使用语音输入信息，得到机器的响应，如用户发短信或使用聊天系统与其他人聊天时，使用语音输入需要发送的内容，利用语音识别技术将语音识别成文本，用户对识别文本进行确认后，发送出去；当然用户也可以使用语音完成其它应用需求，如语音搜索；用户在使用智能终端的过程中产生了海量语音数据。如何高效的对海量语音数据进行标注，得到语音数据的正确文本数据具有重要意义，利用标注后的语音数据及正确文本数据可以优化声学模型或语言模型，提升用户体验。

相关技术中，语音数据通常采用人工方式进行标注。但是，随着智能终端的广泛应用，获取到的语音数据越来越多，如果单纯依靠人工标注语音数据，远远不能满足海量语音数据标注的要求，并且人工标注的成本较高，标注周期较长，效率较低，显然无法满足应用需求。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种语音数据标注方法，该方法可以解决人工标注存在的问题，提高语音数据标注的效率并降低成本。

本发明的另一个目的在于提出一种语音数据标注装置。

为达到上述目的，本发明第一方面实施例提出的语音数据标注方法，包括：接收语音数据，对所述语音数据进行语音识别，得到识别文本；获取用户对所述识别文本确认后的用户确认文本；对所述识别文本和所述用户确认文本进行分析，提取自动标注特征；根据所述自动标注特征及预先构建的自动标注模型，对所述语音数据进行标注。

本发明第一方面实施例提出的语音数据标注方法，通过提取自动标注特征，并根据自动标注特征和自动标注模型，对语音数据进行标注，可以实现语音数据的自动标注，不需要人工进行标注，从而可以解决人工标注存在的问题，提高语音数据标注的效率并降低成本。

为达到上述目的，本发明第二方面实施例提出的语音数据标注装置，包括：识别模块，用于接收语音数据，对所述语音数据进行语音识别，得到识别文本；确认模块，用于获取用户对所述识别文本确认后的用户确认文本；分析模块，用于对所述识别文本和所述用户确认文本进行分析，提取自动标注特征；标注模块，用于根据所述自动标注特征及预先构建的自动标注模型，对所述语音数据进行标注。

本发明第二方面实施例提出的语音数据标注装置，通过提取自动标注特征，并根据自动标注特征和自动标注模型，对语音数据进行标注，可以实现语音数据的自动标注，不需要人工进行标注，从而可以解决人工标注存在的问题，提高语音数据标注的效率并降低成本。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例提出的语音数据标注方法的流程示意图；

图2是本发明另一个实施例提出的语音数据标注方法的流程示意图；

图3是本发明实施例中构建自动标注模型的流程示意图；

图4是本发明一个实施例提出的语音数据标注装置的结构示意图；

图5是本发明另一个实施例提出的语音数据标注装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一个实施例提出的语音数据标注方法的流程示意图。

参见图1，本实施例的方法包括：

S11：接收语音数据，对所述语音数据进行语音识别，得到识别文本。

其中，语音数据可以是由用户输入的。

具体的，用户可以根据应用需求说出语音数据，如用户发短信或聊天时使用语音输入法输入的语音数据。

在接收到语音数据后，可以利用语音识别引擎将语音数据识别成文本数据，得到识别文本。

S12：获取用户对识别文本确认后的用户确认文本。

其中，用户确认文本是指用户对识别文本进行确认后，最终使用的文本。

一些实施例中，用户可以直接确认识别文本，将未修改的识别文本作为用户确认文本。或者，

一些实施例中，用户确认文本可以是用户对识别文本进行修改后，得到的修改后的文本。

具体地，用户对识别文本进行确认时，如果识别文本中存在错误，则对所述错误文本进行修改，使用修改后识别文本，将所述修改后识别文本作为用户确认文本；如果识别文本中不存在错误，则用户进行确认时，不需要修改识别文本，直接使用识别文本，则将所述识别文本作为用户确认文本。

S13：对所述识别文本和所述用户确认文本进行分析，提取自动标注特征。

其中，可以从声学、语义、用户行为中的一种或多种方面，对识别文本和用户确认文本进行分析，提取自动标注特征。

相应的，自动标注特征可以包括如下项中的至少一项：

声学特征、语义特征、用户行为特征。

S14：根据所述自动标注特征及预先构建的自动标注模型，对所述语音数据进行标注。

其中，可以预先构建自动标注模型，自动标注模型的输入和输出分别表示自动标注特征和标注信息，因此，当提取得到自动标注特征后，根据自动标注模型，将概率最大的标注信息作为接收的语音数据的标注信息。

进一步的，标注信息可以具体是语音数据的正确文本的标签，例如，当识别文本是语音数据的正确文本时，标签是“1”，用户确认文本是语音数据的正确文本时，标签是“2”，语音数据无正确文本时，标签是“3”。

可以理解的是，上述的标签只是示例，还可以用其他数字等信息表示。

进一步的，通过自动标注得到标签后，可以依据标签进行后续处理。例如，当语音数据的标签是“3”时，表明该语音数据无正确文本，此时可以丢弃该语音数据。或者，当语音数据的标签是“1”时，表明该语音数据的正确文本是识别文本，从而可以保存该语音数据及保存识别文本作为语音数据的正确文本。或者，当语音数据的标签是“2”时，表明该语音数据的正确文本是用户确认文本，从而可以保存该语音数据及保存用户确认文本作为语音数据的正确文本。

本实施例中，通过提取自动标注特征，并根据自动标注特征和自动标注模型，对语音数据进行标注，可以实现语音数据的自动标注，不需要人工进行标注，从而可以解决人工标注存在的问题，提高语音数据标注的效率并降低成本。

上述涉及了提取自动标注特征的内容。下面对提取自动标注特征的流程进行详细说明。下面以多种特征为例，可以理解的是，在实际实施时，可以采用下述的全部特征，也可以采用部分特征。

自动标注特征可以包括：声学特征、语义特征和用户行为特征。

声学特征主要从语音数据的声学上描述识别文本和用户确认文本的可信程度，具体包括：识别文本的置信度特征和用户确认文本的置信度特征。

语义特征主要从语义上描述识别文本与用户确认文本在语义上的相似程度，具体包括：识别文本的词向量、用户确认文本的词向量、识别文本的词时长、用户确认文本的词时长、识别文本与用户确认文本之间的词相似度。

用户行为特征用于描述用户对识别文本及用户确认文本的操作情况，具体包括：用户确认时长、用户删除识别文本的字数，用户插入识别文本的字数、用户是否清空识别文本。

上述各特征的具体提取方法如下所述。

一些实施例中，从声学上对识别文本和用户确认文本进行分析，提取声学特征。

具体的，声学特征包括：识别文本置信度特征和用户确认文本的置信度特征。

其中，识别文本置信度特征可以根据语音识别过程中，解码结果得到的识别文本的词后验概率得到。

用户确认文本置信度特征具体计算方法如下：

首先将用户确认文本作为语音数据对应的识别文本；然后利用语音识别时，预先训练的声学模型，对用户确认文本及语音数据进行对齐；最后使用对用户确认文本和语音数据进行对齐过程中的声学模型后验概率和用户确认文本的语言模型得分计算用户确认文本的词后验概率，将所述词后验概率作为用户确认文本的置信度特征。

一些实施例中，从语义上对识别文本和用户确认文本进行分析，提取语义特征。

具体的，语义特征包括：识别文本词向量、用户确认文本词向量、识别文本词时长、用户确认文本词时长、识别文本与用户确认文本之间的词相似度。

其中，不论是识别文本词向量，还是用户确认文本词向量，都可以采用词到向量的转换(word2vect)方法，或采用神经网络方法将每个文本转换为向量表示，具体过程与现有技术相同，在此不再详述。

识别文本词时长指识别文本中每个词对应语音数据的时长，使用语音数据的帧数表示，根据语音识别过程可以直接得到识别文本中每个词对应的语音数据，从而得到对应词时长

用户确认文本词时长指用户确认文本中每个词对应语音数据的时长，使用语音数据的帧数表示，具体提取时，根据语音识别时，利用预先训练的声学模型，对用户确认文本与语音数据进行对齐；得到用户确认文本对应语音数据的帧数，即用户确认文本词时长，具体过程与现有技术相同，在此不再详述；如用户确认文本的词“我”，对应音素为“w o3”，将每个音素使用多个状态表示，如3个状态，将词中每个音素状态对应的语音帧总数作为当前词时长，如词中每个音素状态对应的语音帧总数为8帧，则当前词时长为8帧。

识别文本与用户确认文本之间的词相似度指识别文本与用户确认文本中包含的所有词的相似程度S，具体使用识别文本与用户确认文本中相同词数与识别文本或用户确认文本中最大词数的比值表示，计算方法如公式(1)所示：

其中，n表示识别文本与用户确认文本中相同词数，n₁表示识别文本包含词数，n₂表示用户确认文本包含词数；

如根据语音数据得到的识别文本的分词结果为“买了一个又比小熊玩具”，经过用户确认后得到的用户确认文本的分词结果为“买一个优彼小熊玩具”，两个文本有4个词相同，识别文本的词数较多，共包含6个词，因此可以得到识别文本与用户确认文本之间的词相似度为：

一些实施例中，从用户行为上对识别文本和用户确认文本进行分析，提取用户行为特征。

具体的，用户行为特征包括：用户确认时长、用户删除识别文本的字数、用户插入识别文本的字数、用户是否清空识别文本。

用户确认时长指得到识别文本后，用户对识别文本进行确认得到用户确认文本使用的时间长度，具体时长可以通过系统记录的时间获得。

用户删除识别文本的字数指用户对识别文本进行确认时，删除识别文本的字数。具体字数可以通过系统记录的数据获取。

用户插入识别文本的字数指用户对识别文本进行确认时，插入识别文本的字数。具体字数可以通过系统记录的数据获取。

用户是否清空识别文本用于判断用户进行识别文本确认时，是否清空了识别文本，如果识别文本中错误文本较多，用户经常会清空当前识别文本，重新输入确认后的文本。具体可以通过系统记录的数据获取。

因此，通过上述流程可以提取出自动标注特征。之后可以采用自动标注特征完成语音数据的自动标注。在自动标注时会采用到自动标注模型。自动标注模型的构建可以如下所示。

图2是本发明另一个实施例提出的语音数据标注方法的流程示意图。

S21：构建自动标注模型。

S22：接收语音数据，对所述语音数据进行语音识别，得到识别文本。

S23：获取用户对识别文本确认后的用户确认文本。

S24：对所述识别文本和所述用户确认文本进行分析，提取自动标注特征。

S25：根据所述自动标注特征及预先构建的自动标注模型，对所述语音数据进行标注。

上述的S22-S25的具体内容可以参见S11-S14，在此不再赘述。

上述的S21的构建自动标注模型的流程可以如图3所示。

参见图3，构建自动标注模型的流程可以包括：

S31：收集数据，所述数据包括：语音数据对应的识别文本、语音数据对应的用户确认文本及语音数据对应的人工标注结果。

为了提高模型的准确度，可以收集尽量多的数据。

具体的，收集的数据包括：语音数据对应的识别文本、语音数据对应的用户确认文本、以及对语音数据的人工标注结果。当然，为了后续提取自动标注信息，还可以包括：用户确认识别文本时的操作记录等数据。

本实施例中，标注结果为语音数据正确文本的标签，例如：

识别文本为语音数据的正确文本，标注的标签为1；

用户确认文本为语音数据的正确文本，标注的标签为2；

语音数据无正确文本；标注的标签为3；

当然也可以使用其它符号表示，如-1，1，0等，本申请不作限定。

S32：对所述识别文本和用户确认文本进行分析，提取自动标注特征。

其中，可以分别从声学上、语义上及用户行为上提取自动标注特征，具体包括声学特征、语义特征及用户行为特征中每种特征一种或多种组合，具体提取方法如上所述，在此不再详述。

S33：根据所述自动标注特征和人工标注结果作为训练数据，进行训练，生成自动标注模型。

具体训练时，将自动标注特征作为自动标注模型的输入，将语音数据正确文本的标签作为模型的输出，以最小化预测标签与真实标签之间的距离为训练准则，对模型参数进行训练，得到训练后的自动标注模型；所述自动标注模型为模式识别中常用模型，如支持向量机模型、神经网络模型、决策树模型等。

进一步的，为了减少用户对识别文本确认时对识别文本的修改，提升语音识别的准确度，本申请还可以利用语音数据自动标注的正确文本对语音识别时使用的语言模型进行增强，以提升语音识别的准确度；对语言模型进行增强时，收集用户自动标注时的正确文本训练用户语言模型，在语音识别时，将所述用户语言模型插值到语音识别使用的语言模型中，使用插值后的语言模型进行语音识别。

相应的，参见图2，本实施例的流程还可以包括：

S26：根据标注结果获取接收的语音数据对应的正确文本。

例如，如果标注结果是标签“1”时，将识别文本作为正确文本，如果标注结果是标签“2”时，将用户确认文本作为正确文本。

S27：根据正确文本训练生成语言模型。

根据文本训练语言模型的具体内容可以参见已有或将来出现的技术，在此不再详细说明。

S28：根据生成的语言模型和之前语音识别时使用的语言模型进行插值，得到新的语言模型，并在之后的语音识别时采用新的语言模型。

其中，具体的插值算法可以设置，比如分别设置生成的语言模型的权重值和之前使用的语言模型的权重值，将加权平均后的模型作为新的语言模型。

在得到新的语言模型后，可以将新的语言模型用于之后的语音识别，以提高语音识别结果的准确度。

可以理解的是，上述的语言模型的更新可以不断进行，例如，随着语音数据的越来越多，自动标注结果也越来越多，相应的可以不断获取新的正确文本，在不断获取新的正确文本后，可以根据新的正确文本训练生成语言模型，并采用新生成的语言模型与之前的语言模型进行插值运算，得到新的语言模型。

本实施例中，通过提取自动标注特征，并根据自动标注特征和自动标注模型，对语音数据进行标注，可以实现语音数据的自动标注，不需要人工进行标注，从而可以解决人工标注存在的问题，提高语音数据标注的效率并降低成本。进一步的，通过对语言模型进行更新，可以识别语音识别的准确度，从而可以减少用户在确认文本时的操作，提高效率。

图4是本发明一个实施例提出的语音数据标注装置的结构示意图。

参见图4，本实施例的装置40包括：识别模块41、确认模块42、分析模块43和标注模块44。

识别模块41，用于接收语音数据，对所述语音数据进行语音识别，得到识别文本；

确认模块42，用于获取用户对所述识别文本确认后的用户确认文本；

分析模块43，用于对所述识别文本和所述用户确认文本进行分析，提取自动标注特征；

标注模块44，用于根据所述自动标注特征及预先构建的自动标注模型，对所述语音数据进行标注。

一些实施例中，所述自动标注特征，包括如下项中的至少一项：

声学特征、语义特征、用户行为特征。

一些实施例中，所述声学特征包括如下项中的至少一项：

识别文本置信度特征、用户确认文本置信度特征。

一些实施例中，所述语义特征包括如下项中的至少一项：

识别文本词向量、用户确认文本词向量、识别文本词时长、用户确认文本词时长、识别文本与用户确认文本之间的词相似度。

一些实施例中，所述用户行为特征包括如下项中的至少一项：

用户确认时长、用户删除识别文本的字数、用户插入识别文本的字数、用户是否清空识别文本。

一些实施例中，参见图5，该装置40还包括：

构建模块45，用于收集数据，所述数据包括：语音数据对应的识别文本、语音数据对应的用户确认文本及语音数据对应的人工标注结果；对所述识别文本和用户确认文本进行分析，提取自动标注特征；以及，根据所述自动标注特征和人工标注结果作为训练数据，进行训练，生成自动标注模型。

一些实施例中，参见图5，该装置40还包括：

更新模块46，用于根据标注结果获取接收的语音数据对应的正确文本；根据正确文本训练生成语言模型；以及，根据生成的语言模型和之前语音识别时使用的语言模型进行插值，得到新的语言模型，并在之后的语音识别时采用新的语言模型。

可以理解的是，本实施例的装置与方法实施例对应，具体内容可以参见方法实施例中的描述，在此不再详细说明。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音数据标注方法，其特征在于，包括：

接收语音数据，对所述语音数据进行语音识别，得到识别文本；

获取用户对所述识别文本确认后的用户确认文本；

对所述识别文本和所述用户确认文本进行分析，提取自动标注特征；

根据所述自动标注特征及预先构建的自动标注模型，对所述语音数据进行标注。

2.根据权利要求1所述的方法，其特征在于，所述自动标注特征，包括如下项中的至少一项：

声学特征、语义特征、用户行为特征。

3.根据权利要求2所述的方法，其特征在于，所述声学特征包括如下项中的至少一项：

识别文本置信度特征、用户确认文本置信度特征。

4.根据权利要求2所述的方法，其特征在于，所述语义特征包括如下项中的至少一项：

5.根据权利要求2所述的方法，其特征在于，所述用户行为特征包括如下项中的至少一项：

6.根据权利要求1所述的方法，其特征在于，还包括：训练生成自动标注模型，所述训练生成自动标注模型包括：

收集数据，所述数据包括：语音数据对应的识别文本、语音数据对应的用户确认文本及语音数据对应的人工标注结果；

对所述识别文本和用户确认文本进行分析，提取自动标注特征；

根据所述自动标注特征和人工标注结果作为训练数据，进行训练，生成自动标注模型。

7.根据权利要求1所述的方法，其特征在于，对所述语音数据进行标注之后，所述方法还包括：

根据标注结果获取接收的语音数据对应的正确文本；

根据正确文本训练生成语言模型；

根据生成的语言模型和之前语音识别时使用的语言模型进行插值，得到新的语言模型，并在之后的语音识别时采用新的语言模型。

8.一种语音数据标注装置，其特征在于，包括：

识别模块，用于接收语音数据，对所述语音数据进行语音识别，得到识别文本；

确认模块，用于获取用户对所述识别文本确认后的用户确认文本；

分析模块，用于对所述识别文本和所述用户确认文本进行分析，提取自动标注特征；

标注模块，用于根据所述自动标注特征及预先构建的自动标注模型，对所述语音数据进行标注。

9.根据权利要求8所述的装置，其特征在于，所述自动标注特征，包括如下项中的至少一项：

声学特征、语义特征、用户行为特征。

10.根据权利要求9所述的装置，其特征在于，所述声学特征包括如下项中的至少一项：

识别文本置信度特征、用户确认文本置信度特征。

11.根据权利要求9所述的装置，其特征在于，所述语义特征包括如下项中的至少一项：

12.根据权利要求9所述的装置，其特征在于，所述用户行为特征包括如下项中的至少一项：

13.根据权利要求8所述的装置，其特征在于，还包括：

构建模块，用于收集数据，所述数据包括：语音数据对应的识别文本、语音数据对应的用户确认文本及语音数据对应的人工标注结果；对所述识别文本和用户确认文本进行分析，提取自动标注特征；以及，根据所述自动标注特征和人工标注结果作为训练数据，进行训练，生成自动标注模型。

14.根据权利要求8所述的装置，其特征在于，还包括：

更新模块，用于根据标注结果获取接收的语音数据对应的正确文本；根据正确文本训练生成语言模型；以及，根据生成的语言模型和之前语音识别时使用的语言模型进行插值，得到新的语言模型，并在之后的语音识别时采用新的语言模型。