CN110706695B - 一种数据标注方法及装置 - Google Patents

一种数据标注方法及装置 Download PDF

Info

Publication number
CN110706695B
CN110706695B CN201910988421.2A CN201910988421A CN110706695B CN 110706695 B CN110706695 B CN 110706695B CN 201910988421 A CN201910988421 A CN 201910988421A CN 110706695 B CN110706695 B CN 110706695B
Authority
CN
China
Prior art keywords
awakening
model
data
word data
labeled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910988421.2A
Other languages
English (en)
Other versions
CN110706695A (zh
Inventor
陈孝良
陈天峰
冯大航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN201910988421.2A priority Critical patent/CN110706695B/zh
Publication of CN110706695A publication Critical patent/CN110706695A/zh
Application granted granted Critical
Publication of CN110706695B publication Critical patent/CN110706695B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据标注方法及装置,方法包括:对唤醒词数据进行对齐标注,得到初始标注数据;基于所述初始标注数据训练得到第一唤醒模型;基于所述第一唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功唤醒的唤醒词数据集合;基于所述第一唤醒模型对所述唤醒词数据集合中的唤醒词进行对齐标注。所述数据标注方法及装置,基于初始标注数据训练唤醒模型,再基于专用的唤醒模型对匹配的唤醒词进行标注,提升了唤醒词的标注准确度。

Description

一种数据标注方法及装置
技术领域
本发明涉及数据处理技术,更具体的说,是涉及一种数据标注方法及装置。
背景技术
语音识别技术目前已广泛应用于各种功能的电子设备,为广大用户带来了便捷优质的交互体验。通常情况下,电子设备在非工作状态持续一定时间后,会自动进入休眠状态,在用户想要其进入工作状态时,需要首先对其进行唤醒。
设备唤醒的过程需要基于唤醒模型来实现。唤醒模型在训练期间,需要标注好的数据,数据标注是否准确直接影响到最终唤醒模型的准确度。现有技术中,对数据的标注,是通过一个识别模型对唤醒数据(一段语音)进行对齐标注,该标注为语音帧级别的标注,即确定唤醒数据中每一个音素分别对应哪个帧段范围。
然而,通用的识别模型针对的范围有限,其训练时通常采用成年男性或女性的语音为训练元素。而在实际应用中,语音数据可能包括儿童、老人的语音数据,或带有口音的语音数据,这就导致识别模型对数据对齐标注的效果较差,进而影响唤醒模型的识别精度。
发明内容
有鉴于此,本发明提供了一种数据标注方法及装置,以克服现有技术中识别模型对数据标注的效果差的问题。
为实现上述目的,本发明提供如下技术方案:
一种数据标注方法,包括:
对唤醒词数据进行对齐标注,得到初始标注数据;
基于所述初始标注数据训练得到第一唤醒模型;
基于所述第一唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功实现唤醒的唤醒词数据集合;
基于所述第一唤醒模型对所述唤醒词数据集合中的唤醒词数据进行对齐标注。
可选的,所述对唤醒词数据进行对其标注,得到初始标注数据,包括:
采用识别模型对唤醒词数据进行对齐标注,得到初始标注数据。
可选的,还包括:
基于所述第一唤醒模型和所述未进行对齐标注的唤醒词数据执行迭代训练,在迭代训练过程中,不断的采用最新生成的唤醒模型对所述未进行对齐标注的唤醒词数据进行对齐标注,基于最新的对齐标注结果生成新的唤醒模型,直至所述未进行对齐标注的唤醒词数据中,能够成功实现唤醒的唤醒词数据所组成的集合不再增加新的数据。
可选的,所述迭代训练包括:
基于标注好的唤醒词数据训练唤醒模型;
所述唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功实现唤醒的唤醒词数据的集合;
采用所述唤醒模型对所述能够成功实现唤醒的唤醒词数据的集合中的唤醒词数据进行对齐标注,得到最新的标注数据,返回所述基于标注好的唤醒词数据训练唤醒模型的步骤。
可选的,所述对唤醒词数据进行对齐标注,包括:
确定唤醒词数据中每一个音素对应的帧范围。
可选的,还包括:
依据新的唤醒词数据更新唤醒模型。
一种数据标注装置,包括:
初始标注模块,用于采用识别模型对唤醒词数据进行对齐标注,得到初始标注数据;
模型训练模块,用于基于所述初始标注数据训练得到第一唤醒模型;
模型控制模块,用于基于所述第一唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功实现唤醒的唤醒词数据集合;
模型标注模块,用于基于所述第一唤醒模型对所述唤醒词数据集合中的唤醒词进行对齐标注。
可选的,还包括:
迭代控制模块,用于控制基于所述第一唤醒模型和所述未进行对齐标注的唤醒词数据执行迭代训练在迭代训练过程中,不断的采用最新生成的唤醒模型对所述未进行对齐标注的唤醒词数据进行对齐标注,基于最新的对齐标注结果生成新的唤醒模型,直至所述未进行对齐标注的唤醒词数据中,能够成功实现唤醒的唤醒词数据所组成的集合不再增加新的数据。
可选的,所述迭代控制模块包括:
模型训练模块,用于基于标注好的唤醒词数据训练唤醒模型;
模型控制模块,用于通过所述唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功实现唤醒的唤醒词数据的集合;
模型标注模块,用于采用所述唤醒模型对所述能够成功实现唤醒的唤醒词数据的集合中的唤醒词进行对齐标注,得到最新的标注数据。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如下操作:
采用识别模型对唤醒词数据进行对齐标注,得到初始标注数据;
基于所述初始标注数据训练得到第一唤醒模型;
基于所述第一唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功实现唤醒的唤醒词数据集合;
基于所述第一唤醒模型对所述唤醒词数据集合中的唤醒词进行对齐标注。
一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述可执行指令包括:采用识别模型对唤醒词数据进行对齐标注,得到初始标注数据;基于所述初始标注数据训练得到第一唤醒模型;基于所述第一唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功实现唤醒的唤醒词数据集合;基于所述第一唤醒模型对所述唤醒词数据集合中的唤醒词进行对齐标注。
经由上述的技术方案可知,与现有技术相比,本发明实施例公开了一种数据标注方法及装置,方法包括:对唤醒词数据进行对齐标注,得到初始标注数据;基于所述初始标注数据训练得到第一唤醒模型;基于所述第一唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功唤醒的唤醒词数据集合;基于所述第一唤醒模型对所述唤醒词数据集合中的唤醒词进行对齐标注。所述数据标注方法及装置,基于初始标注数据训练唤醒模型,再基于专用的唤醒模型对匹配的唤醒词进行标注,提升了唤醒词的标注准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种数据标注方法的流程图;
图2为本发明实施例公开的迭代训练的流程图;
图3为本发明实施例公开的另一种数据标注方法的流程图;
图4为本发明实施例公开的一种数据标注装置的结构示意图;
图5为本发明实施例公开的另一种数据标注装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例公开的一种数据标注方法的流程图,参见图1所示,数据标注方法可以包括:
步骤101:对唤醒词数据进行对齐标注,得到初始标注数据。
其中,所述唤醒词数据具体来说可以是语音数据。例如,针对某项功能或某个电子设备,其唤醒语音对应的文字内容为“你好小艾”,则其唤醒词即为“你好小艾”。
所述对唤醒词数据进行对齐标注,得到初始标注数据可以包括:采用识别模型对唤醒词数据进行对齐标注,得到初始标注数据。
其中,所述识别模型可以是通用的识别模型,所述通用的识别模型可以是常用的语音识别模型,即能够面向所有语音的识别模型;例如可以为DTW(Dynamic Time Warping,动态时间归整)、HMM(Hidden Markov Model,隐马尔科夫模型)或CTC(ConnectionistTemporal Classification,是一种改进的RNN(Recurrent Neural Networks,循环神经网络)模型)。本实施例中,数据标注方法可以先采用通用的模型对唤醒词进行对齐标注,后续可以根据标注好的唤醒词进行进一步的处理,以提高唤醒词的标注准确度。
其中,所述对唤醒词数据进行对齐标注,可以包括:确定唤醒词数据中每一个音素对应的帧范围。例如,一条针对“你好小艾”的唤醒语音共100帧,其中“你”包括音素“n”和“i”,“好”包括因素“h”和“ao”,“小”包括因素“x”、“i”和“ao”,“艾”包括音素“ai”,“你好小艾”共包括8个音素;对该语音数据进行对齐标注即是确定“你好小艾”100帧语音数据中,每一个音素对应的帧范围,如“你”的音素“n”对应第3-9帧,“你”的音素“i”对应第10-18帧。
步骤102:基于所述初始标注数据训练得到第一唤醒模型。
本申请公开的数据标注方法可以用于标注唤醒词数据,由于通用的识别模型是面向所有的字词开发的,而唤醒模型仅针对唤醒词数据开发,因此,可以采用唤醒模型对唤醒词数据进行识别标注,以达到提升唤醒词数据标注精确度的目的。
采用唤醒模型标注唤醒词数据,首先需要训练一个唤醒模型。本实施例中,可以基于所述初始标注数据训练得到第一唤醒模型。
步骤103:基于所述第一唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功实现唤醒的唤醒词数据集合。
未标注的唤醒词可以有多个,例如1000条唤醒词语音信息,其中的唤醒词语音信息中,可能包含成年男性的语音信息,成年女性的语音信息、老人的语音信息、儿童的语音信息以及带口音的语音信息。对于所有未标注的唤醒词,使其中的每一个唤醒词都基于所述第一唤醒模型尝试唤醒,然后将能够成功唤醒的语音信息(唤醒词数据)确定为一个数据集合。能够成功唤醒的唤醒词数据,即为能够被所述第一唤醒模型识别成功的唤醒词数据。
步骤104:基于所述第一唤醒模型对所述唤醒词数据集合中的唤醒词进行对齐标注。
采用所述第一唤醒模型对其能够识别出的唤醒词数据进行对齐标注,比通用的识别模型对唤醒词的对齐标注结果更加准确。
本实施例中,所述数据标注方法基于初始标注数据训练唤醒模型,由于唤醒模型是为唤醒词专用训练的模型,因此,基于专用的唤醒模型对匹配的唤醒词进行标注,提升了唤醒词的标注准确度。
基于上述内容,在其他的实现中,数据标注方法除了上述步骤101-步骤104外,还可以进一步包括基于所述第一唤醒模型和所述未进行对齐标注的唤醒词数据执行迭代训练的步骤,在迭代训练过程中,不断的采用最新生成的唤醒模型对所述未进行对齐标注的唤醒词数据进行对齐标注,基于最新的对齐标注结果生成新的唤醒模型,直至所述未进行对齐标注的唤醒词数据中,能够成功实现唤醒的唤醒词数据所组成的集合不再增加新的数据的步骤。
由于所述第一唤醒模型为基于初始标注数据训练得到的,而初始标注数据是采用通用的识别模型标注的,其准确度有一定的限制性,从而所述第一唤醒模型能够识别的唤醒词数据也有限。基于此,本发明实施例中,可以采用迭代训练并标注的方式不断修正标注结果,提升标注结果的准确度。
其中,迭代训练的具体过程可以参见图2,图2为本发明实施例公开的迭代训练的流程图,参见图2所示,迭代训练可以包括:
步骤201:基于标注好的唤醒词数据训练唤醒模型。
在第一个实施例中,步骤102-104其实即属于第一次迭代的部分内容,迭代训练的过程即反复执行上述步骤102-104的过程。
步骤202:所述唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功实现唤醒的唤醒词数据的集合。
由于每一次生成的新的唤醒模型都是基于最新标注好的数据训练得到的,因此,其识别唤醒词数据的准确度会不断提高,由于其识别唤醒词数据的准确度的提高,其识别上文所述未标注的唤醒词的数量也会不断增大,即所述能够成功唤醒的唤醒词数据的集合中包含的唤醒词数据也会越来越多,即不断迭代生成的唤醒模型对不同的唤醒词数据的包容度越来越大。
步骤203:采用所述唤醒模型对所述能够成功实现唤醒的唤醒词数据的集合中的唤醒词数据进行对齐标注,得到最新的标注数据,返回步骤201。
由于迭代过程中,能够成功唤醒的唤醒词数据的集合不断扩大,通过对其中的唤醒词数据的标注使得后续训练得到的唤醒模型对各种类型的唤醒词数据的包容性越来越好,因此最新生成的唤醒模型的准确度也在一点点提高。
本实施例中,迭代训练的终止条件可以是能够成功实现唤醒的唤醒词数据所组成的集合中不再增加新的数据,即标注样本数量不再增加。这种情况下,由于所述集合中所有的标注样本数据(即唤醒词数据)都已采用最新的唤醒模型标注过,因此继续进行迭代训练已没有太大的实际意义。
基于上述实施例介绍的包括迭代训练过程的数据标注方法的实现,图3示出了一个完整的数据标注方法的流程图,如图3所示,可以包括:
步骤301:采用识别模型对唤醒词数据进行对齐标注,得到标注数据。
步骤302:执行迭代训练,基于最新的标注数据训练得到第一唤醒模型。
在第一次执行迭代训练时,第一唤醒模型是基于识别模型标注的所述标注数据训练得到的。
步骤303:基于所述第一唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功实现唤醒的唤醒词数据集合。
步骤304:判断所述能够成功实现唤醒的唤醒词数据集合中的唤醒词数据是否多于上一次得到的能够成功实现唤醒的唤醒词数据集合中的唤醒词数据,如果是,进入步骤305,如果否,则进入步骤306。
在第一次执行迭代训练时,第一次得到能够成功唤醒的唤醒词数据集合,则在此情况下,其上一次得到的能够成功唤醒的唤醒词数据集合不存在,可以认为其上一次得到的能够成功唤醒的唤醒词数据集合中的数据为零。
步骤305:基于所述第一唤醒模型对所述唤醒词数据集合中的唤醒词数据进行对齐标注,得到标注数据,进入步骤302。
步骤306:将最后一次对所述唤醒词数据集合中的唤醒词数据进行对齐标注得到的标注数据作为最终标注结果。
本实施例中,介绍了包括迭代训练唤醒模型并进行唤醒词数据标注的数据标注方法的具体实现方式,所述数据标注方法基于初始标注数据训练唤醒模型,然后基于同一批未标注数据对唤醒模型进行迭代训练,不断提升唤醒模型的识别准确度,有利于提升用户的使用体验。
在其他的实现中,数据标注方法还可以包括依据新的唤醒词数据更新唤醒模型的步骤。例如,在实际应用场景中,所述数据标注方法的执行主体新添加了一位用户,该用户说话带有地方口音,这种情况下,系统可主动或根据用户触发信息依据新的唤醒词数据(上述用户输入的唤醒词数据)更新唤醒模型,具体更新的方法可参见上述迭代训练的过程。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
上述本发明公开的实施例中详细描述了方法,对于本发明的方法可采用多种形式的装置实现,因此本发明还公开了一种装置,下面给出具体的实施例进行详细说明。
图4为本发明实施例公开的一种数据标注装置的结构示意图,结合图4所示,数据标注装置40可以包括:
初始标注模块401,用于对唤醒词数据进行对齐标注,得到初始标注数据。
具体的,所述初始标注模块401具体可用于:采用识别模型对唤醒词数据进行对齐标注,得到初始标注数据。
其中,所述识别模型可以是通用的识别模型,所述通用的识别模型可以是常用的语音识别模型,即能够面向所有语音的识别模型。
其中,所述唤醒词数据具体来说可以是语音数据。所述识别模型可以是通用的识别模型,所述通用的识别模型可以是常用的语音识别模型,即能够面向所有语音的识别模型。本实施例中,数据标注方法可以先采用通用的模型对唤醒词进行对齐标注,后续可以根据标注好的唤醒词进行进一步的处理,以提高唤醒词的标注准确度。
其中,所述对唤醒词数据进行对齐标注,可以包括:确定唤醒词数据中每一个音素对应的帧范围。
模型训练模块402,用于基于所述初始标注数据训练得到第一唤醒模型。
本申请公开的数据标注方法可以用于标注唤醒词数据,由于通用的识别模型是面向所有的字词开发的,而唤醒模型仅针对唤醒词数据开发,因此,可以采用唤醒模型对唤醒词数据进行识别标注,以达到提升唤醒词数据标注精确度的目的。
采用唤醒模型标注唤醒词数据,首先需要训练一个唤醒模型。本实施例中,可以基于所述初始标注数据训练得到第一唤醒模型。
模型控制模块403,用于基于所述第一唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功唤醒的唤醒词数据集合。
未标注的唤醒词可以有多个。对于所有未标注的唤醒词,使其中的每一个唤醒词都基于所述第一唤醒模型尝试唤醒,然后将能够成功唤醒的语音信息(唤醒词数据)确定为一个数据集合。能够成功唤醒的唤醒词数据,即为能够被所述第一唤醒模型识别成功的唤醒词数据。
模型标注模块404,用于基于所述第一唤醒模型对所述唤醒词数据集合中的唤醒词进行对齐标注。
采用所述第一唤醒模型对其能够识别出的唤醒词数据进行对齐标注,比通用的识别模型对唤醒词的对齐标注结果更加准确。
本实施例中,所述数据标注装置基于初始标注数据训练唤醒模型,由于唤醒模型是为唤醒词专用训练的模型,因此,基于专用的唤醒模型对匹配的唤醒词进行标注,提升了唤醒词的标注准确度。
图5为本发明实施例公开的另一个数据标注装置的结构示意图,参见图5所示,在其他的实现中,数据标注装置50除了上述实施例记载的各结构外,还可以包括迭代控制模块501,用于控制基于所述第一唤醒模型和所述未进行对齐标注的唤醒词数据执行迭代训练,在迭代训练过程中,不断的采用最新生成的唤醒模型对所述未进行对齐标注的唤醒词数据进行对齐标注,基于最新的对齐标注结果生成新的唤醒模型,直至所述未进行对齐标注的唤醒词数据中,能够成功实现唤醒的唤醒词数据所组成的集合不再增加新的数据。
由于所述第一唤醒模型为基于初始标注数据训练得到的,而初始标注数据是采用通用的识别模型标注的,其准确度有一定的限制性,从而所述第一唤醒模型能够识别的唤醒词数据也有限。基于此,本发明实施例中,可以采用迭代训练并标注的方式不断修正标注结果,提升标注结果的准确度。
具体的,所述迭代控制模块502可以控制所述模型训练模块402基于标注好的唤醒词数据训练唤醒模型;控制所述模型控制模块403基于所述唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功实现唤醒的唤醒词数据集合;控制所述模型标注模块404基于所述唤醒模型对所述唤醒词数据集合中的唤醒词数据进行对齐标注,得到最新的标注数据。
由于每一次生成的新的唤醒模型都是基于最新标注好的数据训练得到的,因此,其识别唤醒词数据的准确度会不断提高,由于其识别唤醒词数据的准确度的提高,其识别上文所述未标注的唤醒词的数量也会不断增大,即所述能够成功唤醒的唤醒词数据的集合中包含的唤醒词数据也会越来越多,即不断迭代生成的唤醒模型对不同的唤醒词数据的包容度越来越大。
由于迭代过程中,能够成功唤醒的唤醒词数据的集合不断扩大,通过对其中的唤醒词数据的标注使得后续训练得到的唤醒模型对各种类型的唤醒词数据的包容性越来越好,因此最新生成的唤醒模型的准确度也在一点点提高。
本实施例中,迭代训练的终止条件可以是能够成功实现唤醒的唤醒词数据所组成的集合中不再增加新的数据,即标注样本数量不再增加。这种情况下,由于所述集合中所有的标注样本数据(即唤醒词数据)都已采用最新的唤醒模型标注过,因此继续进行迭代训练已没有太大的实际意义。
具体实现中,所述迭代控制模块501还可以在每次确定能够成功唤醒的唤醒词数据集合后,判断所述能够成功实现唤醒的唤醒词数据集合中的唤醒词数据是否多于上一次得到的能够成功实现唤醒的唤醒词数据集合中的唤醒词数据,如果是则控制继续进行迭代流程;如果否则控制终止迭代过程,将最后一次对所述唤醒词数据集合中的唤醒词数据进行对齐标注得到的标注数据作为最终标注结果。
本实施例中,介绍了包括迭代训练唤醒模型并进行唤醒词数据标注的数据标注装置的具体实现方式,所述数据标注方法基于初始标注数据训练唤醒模型,然后基于同一批未标注数据对唤醒模型进行迭代训练,不断提升唤醒模型的识别准确度,有利于提升用户的使用体验。
在其他的实现中,数据标注装置还可以包括更新模块,用于依据新的唤醒词数据更新唤醒模型。例如,在实际应用场景中,所述数据标注装置的执行主体新添加了一位用户,该用户说话带有地方口音,这种情况下,系统可主动或根据用户触发信息依据新的唤醒词数据(上述用户输入的唤醒词数据)更新唤醒模型,具体更新的实现可参见上述迭代训练的过程。
上述实施例中的所述的任意一种保单信息的录入装置包括处理器和存储器,上述实施例中的初始标注模块、模型训练模块、模型控制模块、模型标注模块、迭代控制模块等均作为程序模块存储在存储器中,由处理器执行存储在所述存储器中的上述程序模块来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序模块。内核可以设置一个或多个,通过调整内核参数来实现回访数据的处理。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述实施例中所述的数据标注方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述实施例中所述的保数据标注方法。
进一步,本实施例提供了一种电子设备,包括处理器以及存储器。其中存储器用于存储所述处理器的可执行指令,所述处理器配置为经由执行所述可执行指令来执行上述实施例中所述的数据标注方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种数据标注方法,其特征在于,包括:
对唤醒词数据进行对齐标注,得到初始标注数据;
基于所述初始标注数据训练得到第一唤醒模型;
基于所述第一唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功实现唤醒的唤醒词数据集合;
基于所述第一唤醒模型对所述唤醒词数据集合中的唤醒词数据进行对齐标注;
基于所述第一唤醒模型和所述未进行对齐标注的唤醒词数据执行迭代训练,在迭代训练过程中,不断的采用最新生成的唤醒模型对所述未进行对齐标注的唤醒词数据进行对齐标注,基于最新的对齐标注结果生成新的唤醒模型,直至所述未进行对齐标注的唤醒词数据中,能够成功实现唤醒的唤醒词数据所组成的集合不再增加新的数据。
2.根据权利要求1所述的数据标注方法,其特征在于,所述对唤醒词数据进行对其标注,得到初始标注数据,包括:
采用识别模型对唤醒词数据进行对齐标注,得到初始标注数据。
3.根据权利要求1所述的数据标注方法,其特征在于,所述迭代训练包括:
基于标注好的唤醒词数据训练唤醒模型;
所述唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功实现唤醒的唤醒词数据的集合;
采用所述唤醒模型对所述能够成功实现唤醒的唤醒词数据的集合中的唤醒词数据进行对齐标注,得到最新的标注数据,返回所述基于标注好的唤醒词数据训练唤醒模型的步骤。
4.根据权利要求1所述的数据标注方法,其特征在于,所述对唤醒词数据进行对齐标注,包括:
确定唤醒词数据中每一个音素对应的帧范围。
5.根据权利要求1所述的数据标注方法,其特征在于,还包括:
依据新的唤醒词数据更新唤醒模型。
6.一种数据标注装置,其特征在于,包括:
初始标注模块,用于对唤醒词数据进行对齐标注,得到初始标注数据;
模型训练模块,用于基于所述初始标注数据训练得到第一唤醒模型;
模型控制模块,用于基于所述第一唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功实现唤醒的唤醒词数据集合;
模型标注模块,用于基于所述第一唤醒模型对所述唤醒词数据集合中的唤醒词进行对齐标注;
迭代控制模块,用于控制基于所述第一唤醒模型和所述未进行对齐标注的唤醒词数据执行迭代训练在迭代训练过程中,不断的采用最新生成的唤醒模型对所述未进行对齐标注的唤醒词数据进行对齐标注,基于最新的对齐标注结果生成新的唤醒模型,直至所述未进行对齐标注的唤醒词数据中,能够成功实现唤醒的唤醒词数据所组成的集合不再增加新的数据。
7.根据权利要求6所述的数据标注装置,其特征在于,所述迭代控制模块包括:
模型训练模块,用于基于标注好的唤醒词数据训练唤醒模型;
模型控制模块,用于通过所述唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功实现唤醒的唤醒词数据的集合;
模型标注模块,用于采用所述唤醒模型对所述能够成功实现唤醒的唤醒词数据的集合中的唤醒词进行对齐标注,得到最新的标注数据。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如下操作:
采用识别模型对唤醒词数据进行对齐标注,得到初始标注数据;
基于所述初始标注数据训练得到第一唤醒模型;
基于所述第一唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功实现唤醒的唤醒词数据集合;
基于所述第一唤醒模型对所述唤醒词数据集合中的唤醒词进行对齐标注;
基于所述第一唤醒模型和所述未进行对齐标注的唤醒词数据执行迭代训练,在迭代训练过程中,不断的采用最新生成的唤醒模型对所述未进行对齐标注的唤醒词数据进行对齐标注,基于最新的对齐标注结果生成新的唤醒模型,直至所述未进行对齐标注的唤醒词数据中,能够成功实现唤醒的唤醒词数据所组成的集合不再增加新的数据。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述可执行指令包括:采用识别模型对唤醒词数据进行对齐标注,得到初始标注数据;基于所述初始标注数据训练得到第一唤醒模型;基于所述第一唤醒模型遍历未进行对齐标注的唤醒词数据,确定能够成功实现唤醒的唤醒词数据集合;基于所述第一唤醒模型对所述唤醒词数据集合中的唤醒词进行对齐标注;基于所述第一唤醒模型和所述未进行对齐标注的唤醒词数据执行迭代训练,在迭代训练过程中,不断的采用最新生成的唤醒模型对所述未进行对齐标注的唤醒词数据进行对齐标注,基于最新的对齐标注结果生成新的唤醒模型,直至所述未进行对齐标注的唤醒词数据中,能够成功实现唤醒的唤醒词数据所组成的集合不再增加新的数据。
CN201910988421.2A 2019-10-17 2019-10-17 一种数据标注方法及装置 Active CN110706695B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910988421.2A CN110706695B (zh) 2019-10-17 2019-10-17 一种数据标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910988421.2A CN110706695B (zh) 2019-10-17 2019-10-17 一种数据标注方法及装置

Publications (2)

Publication Number Publication Date
CN110706695A CN110706695A (zh) 2020-01-17
CN110706695B true CN110706695B (zh) 2022-02-18

Family

ID=69200443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910988421.2A Active CN110706695B (zh) 2019-10-17 2019-10-17 一种数据标注方法及装置

Country Status (1)

Country Link
CN (1) CN110706695B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354343B (zh) * 2020-03-09 2024-03-05 北京声智科技有限公司 语音唤醒模型的生成方法、装置和电子设备
CN111354344B (zh) * 2020-03-09 2023-08-22 第四范式(北京)技术有限公司 语音识别模型的训练方法、装置、电子设备及存储介质
CN111596882B (zh) * 2020-04-02 2023-05-26 云知声智能科技股份有限公司 一种分布式阵列对齐方法
CN111883121A (zh) * 2020-07-20 2020-11-03 北京声智科技有限公司 唤醒方法、装置及电子设备
SE546022C2 (en) * 2020-11-23 2024-04-16 Assa Abloy Ab Enabling training of a machine-learning model for trigger-word detection

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915731A (zh) * 2012-10-10 2013-02-06 百度在线网络技术(北京)有限公司 一种个性化的语音识别的方法及装置
CN107103903A (zh) * 2017-05-05 2017-08-29 百度在线网络技术(北京)有限公司 基于人工智能的声学模型训练方法、装置及存储介质
CN108269568A (zh) * 2017-01-03 2018-07-10 中国科学院声学研究所 一种基于ctc的声学模型训练方法
CN109637537A (zh) * 2018-12-28 2019-04-16 北京声智科技有限公司 一种自动获取标注数据优化自定义唤醒模型的方法
CN109992763A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 语言标注处理方法、系统、电子设备及计算机可读介质
CN110310628A (zh) * 2019-06-27 2019-10-08 百度在线网络技术(北京)有限公司 唤醒模型的优化方法、装置、设备及存储介质
CN110335594A (zh) * 2019-07-11 2019-10-15 哈尔滨工业大学 基于多示例学习的自动语音识别困难样本挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10685666B2 (en) * 2018-04-06 2020-06-16 Intel Corporation Automatic gain adjustment for improved wake word recognition in audio systems

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915731A (zh) * 2012-10-10 2013-02-06 百度在线网络技术(北京)有限公司 一种个性化的语音识别的方法及装置
CN108269568A (zh) * 2017-01-03 2018-07-10 中国科学院声学研究所 一种基于ctc的声学模型训练方法
CN107103903A (zh) * 2017-05-05 2017-08-29 百度在线网络技术(北京)有限公司 基于人工智能的声学模型训练方法、装置及存储介质
CN109992763A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 语言标注处理方法、系统、电子设备及计算机可读介质
CN109637537A (zh) * 2018-12-28 2019-04-16 北京声智科技有限公司 一种自动获取标注数据优化自定义唤醒模型的方法
CN110310628A (zh) * 2019-06-27 2019-10-08 百度在线网络技术(北京)有限公司 唤醒模型的优化方法、装置、设备及存储介质
CN110335594A (zh) * 2019-07-11 2019-10-15 哈尔滨工业大学 基于多示例学习的自动语音识别困难样本挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于CRF和半监督学习的维吾尔文命名实体识别;王路路等;《中文信息学报》;20181115(第11期);全文 *

Also Published As

Publication number Publication date
CN110706695A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN110706695B (zh) 一种数据标注方法及装置
CN106940998B (zh) 一种设定操作的执行方法及装置
CN107767863B (zh) 语音唤醒方法、系统及智能终端
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
CN110956959A (zh) 语音识别纠错方法、相关设备及可读存储介质
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
CN110111789B (zh) 语音交互方法、装置、计算设备和计算机可读介质
US11657225B2 (en) Generating summary content tuned to a target characteristic using a word generation model
CN109086357A (zh) 基于变分自动编码器的情感分类方法、装置、设备及介质
CN111028842B (zh) 触发语音交互响应的方法及设备
CN111462756B (zh) 声纹识别方法、装置、电子设备及存储介质
CN108710704A (zh) 对话状态的确定方法、装置、电子设备及存储介质
US20080002886A1 (en) Adapting a neural network for individual style
US7734094B2 (en) Techniques for filtering handwriting recognition results
JP2016192020A5 (zh)
CN112016271A (zh) 语言风格转换模型的训练方法、文本处理方法以及装置
CN112767921A (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
CN113053390B (zh) 基于语音识别的文本处理方法、装置、电子设备及介质
CN111462734B (zh) 语义槽填充模型训练方法及系统
CN117275458B (zh) 智能客服的语音生成方法、装置、设备及存储介质
CN113129874B (zh) 语音唤醒方法及系统
CN112686051B (zh) 语义识别模型训练方法、识别方法、电子设备、存储介质
CN116341561B (zh) 一种语音样本数据生成方法、装置、设备和存储介质
JPH11202886A (ja) 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体
CN116612744A (zh) 语音唤醒方法、语音唤醒装置和车辆

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant