CN106710588B - 语音数据句类识别方法和装置及系统 - Google Patents

语音数据句类识别方法和装置及系统 Download PDF

Info

Publication number
CN106710588B
CN106710588B CN201611185200.4A CN201611185200A CN106710588B CN 106710588 B CN106710588 B CN 106710588B CN 201611185200 A CN201611185200 A CN 201611185200A CN 106710588 B CN106710588 B CN 106710588B
Authority
CN
China
Prior art keywords
sentence
voice data
voice
data
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611185200.4A
Other languages
English (en)
Other versions
CN106710588A (zh
Inventor
李莉
司华建
李宝善
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201611185200.4A priority Critical patent/CN106710588B/zh
Publication of CN106710588A publication Critical patent/CN106710588A/zh
Application granted granted Critical
Publication of CN106710588B publication Critical patent/CN106710588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

本申请提出一种语音数据句类识别方法和装置及系统,该方法包括:接收待识别的语音数据;获取所述语音数据的句类识别特征,所述句类识别特征包括如下项中的至少一项:声学句类识别特征,语义句类识别特征;根据预先构建的句类识别模型和所述句类识别特征,识别所述语音数据的句类,所述句类识别模型根据获取的语音数据样本的句类识别特征构建得到。该方法能够解决依据规则识别句类的局限性,扩展使用范围,并且可以提高识别准确度。

Description

语音数据句类识别方法和装置及系统
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种语音数据句类识别方法和装置及系统。
背景技术
语音数据的句类指按照语音数据中句子的语气,将句子划分的类型,如陈述句、祈使句、感叹句、一般疑问句及特殊疑问句等,不同句类的句子往往具有不同语义,单纯从文本语义上很难区分开,如在智能问答系统中,语音数据“我开通了几个增值服务”和“我开通了哪几个增值服务”,二者仅差一个字,但语义完全不同,答案也完全不同,通过句类识别后,得到这两句语音数据分别属于不同的句类,第一句的句类为数量类疑问句,第二句的句类为实体类疑问句。为了提高反馈给用户的答案的准确度,关键点之一是识别语音数据的句类。
相关技术中,语音数据句类识别方法一般通过编写每种句类的规则,将待识别语音数据对应的识别文本与规则进行匹配,识别出语音数据句类,比如依据包含的关键词识别。然而,由于自然语言的多样性,单纯通过规则从文本上匹配,局限性较大,很难准确区分出不同语音数据的句类,尤其是包含相同关键词的语音数据,更难准确区分出语音数据的句类,如语音数据“怎么用这么快我的话费”和语音数据“怎么查询话费”,包含共同的疑问词“怎么”,但是句类不同,第一句为原因类疑问句,第二句为方式类疑问句,仅仅通过规则的方式很难区分;此外,相关技术的方法一般只针对疑问句的句类识别,对陈述句、祈使句、感叹句等非疑问句识别效果较差,应用范围较小,实用性差。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的一个目的在于提出一种语音数据句类识别方法,该方法可以解决依据规则识别句类的局限性,扩展使用范围,并且可以提高识别准确度。
本申请的另一个目的在于提出一种语音数据句类识别装置。
本申请的另一个目的在于提出一种语音数据句类识别系统。
为达到上述目的,本申请第一方面实施例提出的语音数据句类识别方法,包括:接收待识别的语音数据;获取所述语音数据的句类识别特征,所述句类识别特征包括如下项中的至少一项:声学句类识别特征,语义句类识别特征;根据预先构建的句类识别模型和所述句类识别特征,识别所述语音数据的句类,所述句类识别模型根据获取的语音数据样本的句类识别特征构建得到。
本申请第一方面实施例提出的语音数据句类识别方法,通过依据句类识别模型对语音数据的句类进行识别,可以有效解决依据规则进行识别的局限性,扩展使用范围,以及依据声学上和语义上的特征进行识别,可以提高识别准确度。
为达到上述目的,本申请第二方面实施例提出的语音数据句类识别装置,包括:接收模块,用于接收待识别的语音数据;获取模块,用于获取所述语音数据的句类识别特征,所述句类识别特征包括如下项中的至少一项:声学句类识别特征,语义句类识别特征;识别模块,用于根据预先构建的句类识别模型和所述句类识别特征,识别所述语音数据的句类,所述句类识别模型根据获取的语音数据样本的句类识别特征构建得到。
本申请第二方面实施例提出的语音数据句类识别装置,通过依据句类识别模型对语音数据的句类进行识别,可以有效解决依据规则进行识别的局限性,扩展使用范围,以及依据声学上和语义上的特征进行识别,可以提高识别准确度。
为达到上述目的,本申请第三方面实施例提出的语音数据句类识别系统,包括:客户端,用于采集用户发出的待识别的语音数据;服务端,用于接收所述客户端发送的所述待识别的语音数据;获取所述语音数据的句类识别特征,所述句类识别特征包括如下项中的至少一项:声学句类识别特征,语义句类识别特征;以及,根据预先构建的句类识别模型和所述句类识别特征,识别所述语音数据的句类,所述句类识别模型根据获取的语音数据样本的句类识别特征构建得到。
本申请第三方面实施例提出的语音数据句类识别系统,通过依据句类识别模型对语音数据的句类进行识别,可以有效解决依据规则进行识别的局限性,扩展使用范围,以及依据声学上和语义上的特征进行识别,可以提高识别准确度。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请一个实施例提出的语音数据句类识别方法的流程示意图;
图2是本申请另一个实施例提出的语音数据句类识别方法的流程示意图;
图3是本申请实施例中获取句类识别特征的方法的流程示意图;
图4是本申请一个实施例提出的语音数据句类识别装置的结构示意图;
图5是本申请另一个实施例提出的语音数据句类识别装置的结构示意图;
图6是本申请一个实施例提出的语音数据句类识别系统的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本申请一个实施例提出的语音数据句类识别方法的流程示意图。
如图1所示,本实施例的方法包括:
S11:接收待识别的语音数据。
待识别的语音数据例如为智能交互时用户发出的语音数据。
进一步的,待识别的语音数据可以以句为单位,从而可以对应每句语音数据进行识别,得到每句语音数据的句类。
S12:获取所述语音数据的句类识别特征,所述句类识别特征包括如下项中的至少一项:声学句类识别特征,语义句类识别特征。
声学句类识别特征是指语音数据的声学上的特征,语义句类识别特征是指语音数据的语义上的特征。
在后续内容中,还会涉及对获取样本的句类识别特征的步骤,因此,此处的语音数据以及后续的样本可以统称为待提取数据。具体的获取待提取数据的句类识别特征的方法可以参见后续内容。
S13:根据预先构建的句类识别模型和所述句类识别特征,识别所述语音数据的句类,所述句类识别模型根据获取的语音数据样本的句类识别特征构建得到。
具体构建句类识别模型的方法可以参见后续描述。
句类识别模型的输入为句类识别特征,输出为句类信息,从而在提取得到句类识别特征后,将提取得到的句类识别特征作为句类识别模型的输入,得到句类识别模型输出的句类信息,再根据句类信息确定待识别的语音数据的句类,比如,句类信息为每种预设句类的概率值,则将概率值最高的句类确定为待识别的语音数据的句类。
所述语音数据的句类是指按照语音数据中句子的语气将句子划分的类型,句类包括但不限于:陈述句、祈使句、感叹句、一般疑问句及特殊疑问句,进一步的,还可以对上述的句类进行细分,如所述特殊疑问句包括实体类疑问句(what)、人物类疑问句(who)、原因类疑问句(why)、时间类疑问句(when)、地点类疑问句(where)、数量类疑问句(how much/many)和方式类疑问句(how)等。
在具体应用时,所述语音数据句类识别方法可以由客户端和服务端执行。例如包括:
客户端采集用户发出的待识别的语音数据;以及,客户端将待识别的语音数据发送给服务端;以及,
服务端接收到客户端发送的待识别的语音数据后,获取所述语音数据的句类识别特征,所述句类识别特征包括如下项中的至少一项:声学句类识别特征,语义句类识别特征;以及,服务端根据预先构建的句类识别模型和所述句类识别特征,识别所述语音数据的句类,所述句类识别模型根据获取的语音数据样本的句类识别特征构建得到。
可以理解的是,上述的客户端和服务端可以分别位于不同的物理设备中,如客户端位于用户侧的终端设备中,服务端位于服务器中,终端设备与服务器通过网络连接;或者,客户端和服务端可以位于相同的物理设备中,例如,在终端设备中集成客户端和服务端的功能,从而可以在终端设备本地完成语音数据句类识别。本实施例中,通过依据句类识别模型对语音数据的句类进行识别,可以有效解决依据规则进行识别的局限性,扩展使用范围,以及依据声学上和语义上的特征进行识别,可以提高识别准确度。
图2是本申请另一个实施例提出的语音数据句类识别方法的流程示意图。
如图2所示,本实施例的方法包括:
S21:构建句类识别模型。
具体内容如后续所示。
S22:接收待识别的语音数据。
S23:获取所述语音数据的句类识别特征,所述句类识别特征包括如下项中的至少一项:声学句类识别特征,语义句类识别特征。
S24:根据预先构建的句类识别模型和所述句类识别特征,识别所述语音数据的句类,所述句类识别模型根据获取的语音数据样本的句类识别特征构建得到。
其中,S22-S24的具体内容可以参见S11-S13,在此不再详述。
如图2所示,构建句类识别模型的方法可以包括:
S211:获取语音数据样本。
语音数据样本是指已有的语音数据,具体可以采用收集的方式得到,如在网络上收集有声读物的录音;或者也可以预先根据应用需求录制得到的,如会议录音、采访录音等;或者,也可以直接从日志等数据库中直接获取。为了提高模型的准确度,最好获取尽量多的语音数据样本。
在获取到语音数据样本后,可以采用各种相关技术对语音数据样本进行语音识别,将语音识别后得到的识别文本数据称为识别文本数据样本。
S212:确定所述语音数据样本的句类。
例如,语音数据样本为句为单位,则获取到每句语音数据样本后,对该句语音数据样本进行语音识别,得到对应的一句文本数据样本。在每句文本数据样本后,由领域专家对每句文本数据样本进行句类标注,从而直接将人工标注的句类确定为对应的语音数据样本的句类。
在对句类进行人工标注时,可以根据文本数据样本的语气将句子划分到对应的类型作为句类,所述句类如陈述句、祈使句、感叹句、一般疑问句及特殊疑问句等,进一步的,还可以对上述的句类进行再次划分,比如,所述特殊疑问句如实体类疑问句(what)、人物类疑问句(who)、原因类疑问句(why)、时间类疑问句(when)、地点类疑问句(where)、数量类疑问句(how much/many)和方式类疑问句(how)等。
S213:获取所述语音数据样本的句类识别特征。
语音数据样本以及语音数据可以统称为待提取数据,获取待提取数据的句类识别特征的方法可以如图3所示。
S214:根据所述语音数据样本的句类识别特征和所述语音数据样本的句类,进行模型训练,构建得到句类识别模型。
具体构建时,可以以句为单位,将每句语音数据样本对应的识别文本数据样本对应的句类识别特征作为模型输入特征,将每句语音数据属于每种句类的概率值作为模型输出,选择概率值最大的句类作为当前句语音数据预测得到的句类;根据每句语音数据预测得到的句类及标注的句类对模型参数进行更新,如将预测得到的句类作为预测值,将标注的句类作为真实值,由真实值和预测值得到损失函数,通过最小化损失函数更新模型参数直至满足训练结束条件,训练结束后,得到句类识别模型。
所述句类识别模型可以为模式识别中常用分类模型,如支持向量机模型、神经网络模型等,具体不作限定。
下面对上述涉及的一些步骤进行具体说明。
参见图3,以待提取数据为语音数据为例,获取的句类识别特征包括声学句类识别特征和语义句类识别特征。
声学句类识别特征主要通过对语音数据进行分析后,提取出声学上的特征,如先将语音数据划分为多个语音片段,再提取每个语音片段的短时平均能量,再根据短时平均能量确定声学句类识别特征。本实施例采用短时平均能量是由于发现了句类与短时平均能量之间存在一定的相关性,比如,一般陈述句能量变化较平稳,祈使句能量变化由高到低,疑问句中疑问词所在语音片段的能量较高。
语义句类识别特征主要通过对语音数据对应的文本数据进行分析后,提取得到。具体如下:
如图3所示,获取语音数据的句类识别特征(包括声学句类识别特征和语义句类识别特征)的方法可以包括:
S31:对所述语音数据进行语音识别,得到对应的整句文本数据。
语音识别是指将语音数据转换为文本数据,具体可以采用各种相关技术,在此不再详述。
S32:将所述整句文本数据划分为多个文本片段,并根据所述文本片段对所述语音数据进行划分,得到多个语音片段。
例如,以句子为单位,分别对每句语音数据对应的整句文本数据进行划分,对整句文本数据进行划分时,如将包含预设个数的词语的文本数据作为一个文本片段,如每个文本片段包含3个词语。在每个文本片段确定后,可以将每个文本片段对应的语音数据作为一个语音片段。
上述以依据文本片段进行语音片段的划分为例,当然,可以理解的是,也可以采用其他方式将语音数据划分为多个语音片段,如对波形形式的语音数据根据静音段的时长进行划分,将两个静音段时长超过预先设定阈值之间的语音数据多作为一个语音片段。
S33:计算所述语音片段的短时平均能量。
对应每句语音数据,划分得到多个语音片段后,可以分别计算每个语音片段的短时平均能量,语音片段的短时平均能量的计算方法可以参见各种相关技术,在此不再详述,如将一个语音片段包含的采样点的振幅值平方和的均值作为该语音片段的短时平均能量。
S34:根据所述短时平均能量确定所述语音数据的声学句类识别特征。
对应每句语音数据,得到该句语音数据包含的所有语音片段的短时平均能量后,可以将所述所有语音片段的短时平均能量作为该句语音数据的声学句类识别特征,如将这些短时平均能量组成向量作为相应的声学句类识别特征;或者,可以先从上述的所有的短时平均能量中确定出最大短时平均能量,之后将最大短时平均能量作为该句语音数据的声学句类识别特征;或者,在确定出上述所有短时平均能量和最大短时平均能量后,将上述所有短时平均能量和最大短时平均能量作为该句语音数据的声学句类识别特征,如将所有短时平均能量和最大短时平均能量组成向量作为相应的声学句类识别特征。
如上所示,可以提取出声学句类识别特征。另外,语义句类识别特征可以采用如下步骤提取得到。
S35:从所述语音数据包含的多个语音片段中获取短时平均能量最大的语音片段。
如上所示,可以将每句语音数据划分为多个语音片段,再计算每个语音片段的短时平均能量,之后根据计算结果可以在每句语音数据中,选取出短时平均能量最大的语音片段。
S36:根据所述短时平均能量最大的语音片段,获取扩展后的语音片段对应的文本数据。
例如,可以先对整句语音数据进行语音识别得到整句文本数据,在确定出短时平均能量最大的语音片段后,可以从所述整句文本数据中提取出短时平均能量最大的语音片段对应的文本数据;再对短时平均能量最大的语音片段对应的文本数据进行向前和/或向后扩展,得到扩展后的语音片段对应的文本数据。
具体可以包括:
(1)对整句文本数据进行分词,得到分词结果。如基于条件随机场的方法进行分词。
例如,整句文本数据的分词结果为“问一下 我的 话费 怎么 剩 这么少”。
(2)在所述整句文本数据中提取出所述短时平均能量最大的语音片段对应的文本数据,并确定所述提取出的文本数据包含的起始词语的位置和结束词语的位置。假设起始词语的位置用i表示,结束词语的位置用j表示。
假设短时平均能量最大的语音片段对应的文本数据为“怎么 剩 这么”,则所述起始词语为“怎么”,位置i为“4”,结束词语为“这么”,位置j为“6”。
上述以短时平均能量最大的语音片段的位置用起始词语的位置和结束词语的位置表示为例,相应的,包括了上述的分词处理。可以理解的是,短时平均能量最大的语音片段的位置也可以用其他参数表示,如字的位置,相应的,也可以不进行分词。
(3)确定扩展窗的窗口大小。
所述扩展窗用于对文本数据进行扩展,即在短时平均能量最大语音片段对应的文本数据的基础上还需要前后考虑的文本数据的长度。
所述窗口大小可以设置,如设置窗口大小r为2,即2个词语的长度,当然也可以以字为单位,如2个字的长度;
(4)根据所述提取出的文本数据包含的起始词语的位置和结束词语的位置,以及所述窗口大小,确定扩展后语音片段对应的文本数据。
具体的,扩展后语音片段对应的文本数据包含的起始词语的位置用i-r表示,扩展后语音片段对应的文本数据包含的结束词语的位置用j+r表示。
如设定窗口大小为1个词语,则上例中,扩展后语音片段对应的文本数据包含的起始词语的位置为“4-1=3”,则相应的起始词语为“话费”,扩展后语音片段对应的文本数据包含的结束词语的位置为“6+1=7”,则相应的结束词语为“少”,从而扩展后语音片段对应的文本数据为“话费 怎么 剩 这么 少”。
S37:根据所述文本数据确定所述语音数据的语义句类识别特征。
所述语义句类识别特征包括如下项的至少一项:
句互信息向量,所述句互信息向量为所述文本数据包含的词语对应的互信息向量的加权和,所述互信息向量为所述词语与每种句类之间的互信息组成的向量;
句子向量,所述句子向量为所述文本数据包含的词语对应的词向量的加权和。
下面对句互信息向量和句子向量的计算方法进行说明。
(1)句互信息向量
所述句互信息向量为所述文本数据包含的词语对应的互信息向量的加权和,所述互信息向量为所述词语与每种句类之间的互信息组成的向量。
假设句互信息向量用Pmi(sent)表示,则具体计算公式如式(1)所示:
Figure BDA0001186322420000121
其中,pmi(ck)是扩展后语音片段对应的文本数据中包含的第k个词语ck对应的互信息向量,w'k是互信息向量pmi(ck)对应的权重,也即词语ck规整后的权重,i-r表示扩展后语音片段对应的文本数据包含的起始词语的位置,j+r表示扩展后语音片段对应的文本数据包含的结束词语的位置。
所述互信息向量为所述词语与每种句类之间的互信息组成的向量,如pmi(ck)表示第k个词语ck与每种句类之间的互信息组成的向量,该向量的大小为句类总数。第k个词语ck与第m种句类之间的互信息I(c=ck,label=lm)的计算公式如式(2)所示:
Figure BDA0001186322420000122
其中,p(c=ck,label=lm)表示词语ck出现在第m种句类的概率,具体可以通过计算训练数据中词语ck出现在第m种句类句子中的总数与训练数据中词语ck出现总数之间的比值得到;
p(c=ck)表示词语ck出现的概率,具体可以通过计算训练数据中词语ck出现总数与所有词语总数之间的比值得到;
p(label=lm)表示第m种句类出现的概率,具体可以通过计算训练数据中第m种句类句子出现总数与所有句子总数之间的比值得到。
具体的,可以预先收集训练数据,训练数据中包含大量的句子,并对句子进行分词,得到句子中的词语,以及标注句子的句类,从而基于训练数据可以得到上述的三个概率。
对应每个词语,计算出该词语与每种句类之间的互信息后,可以将计算出的互信息组成向量,作为该词语对应的互信息向量。
比如,词语ck对应的互信息向量pmi(ck)可以表示为:
pmi(ck)={I(c=ck,label=l1),I(c=ck,label=l2),...,I(c=ck,label=lm),...,I(c=ck,label=lM)}
其中M为句类的总数,具体可以应用需求预先确定。
上述的权重w'k的计算公式可以如式(3)所示:
Figure BDA0001186322420000131
其中,wk为第k个词语ck规整前的权重,具体计算方法如式(4)所示:
Figure BDA0001186322420000132
由式(4)可以得到,第k个词语ck规整前的权重在ck为短时平均能量最大语音片段中词语时,取值最大为1;当ck为短时平均能量最大语音片段之外的词语时,距离短时平均能量最大语音片段前后越远,权重越小。
由式(3)和式(4)可知,短时平均能量最大语音片段中词语的权重相同,距离短时平均能量最大语音片段前后相同距离时,权重相同,并且小于短时平均能量最大语音片段中词语的权重。
如上例中窗口大小为1时,计算得到的当前句的语音数据对应的句互信息向量为:
pmi("话费")*0.147+pmi("怎么")*0.235+pmi("剩")*0.235+
pmi("这么")*0.235+pmi("少")*0.147
其中,词语“怎么”、“剩”、“这么”为当前句语音数据中短时平均能量最大语音片段中词语,词语的权重相同;词语“话费”和“少”为短时平均能量最大语音片段之外词语,距离短时平均能量最大语音片段的距离相同,即距离为1个词语,词语的权重相同,并且小于短时平均能量最大语音片段中词语的权重。
(2)句子向量
所述句子向量为所述文本数据包含的词语对应的词向量的加权和。
假设句子向量用Vec(sent)表示,则具体计算公式如式(5)所示:
Figure BDA0001186322420000141
其中,vce(ck)为扩展后语音片段对应的文本数据中包含的第k个词语ck对应的词向量,所述词向量可以通过各种相关技术计算得到,如通过word2vec技术,计算得到每个词语对应的词向量;w'k为词语ck的规整后的权重,具体可以由式(3)和式(4)计算得到。
如上例中,计算得到的当前句的语音数据对应的句子向量为:
vec("话费")*0.147+vec("怎么")*0.235+vec("剩")*0.235+
vec("这么")*0.235+vec("少")*0.147
如上,可以确定出声学句类识别特征和语义句类识别特征。可以理解的是,如果仅需要确定出其中的一项,则可以仅执行上述的部分内容。例如,如果仅需要确定出声学句类识别特征,则可以仅执行上述的S31-34;如果仅需要确定出语义句类识别特征,则可以仅执行上述的S31-S33及S35-S37。
图4是本申请一个实施例提出的语音数据句类识别装置的结构示意图。
如图4所示,本实施例的装置40包括:接收模块41、获取模块42和识别模块43。
接收模块41,用于接收待识别的语音数据;
获取模块42,用于获取所述语音数据的句类识别特征,所述句类识别特征包括如下项中的至少一项:声学句类识别特征,语义句类识别特征;
识别模块43,用于根据预先构建的句类识别模型和所述句类识别特征,识别所述语音数据的句类,所述句类识别模型根据获取的语音数据样本的句类识别特征构建得到。
一些实施例中,参见图5,该装置40还包括:用于构建句类识别模型的构建模块44,所述构建模块44具体用于:
获取语音数据样本;
确定所述语音数据样本的句类;
获取所述语音数据样本的句类识别特征;
根据所述语音数据样本的句类识别特征和所述语音数据样本的句类,进行模型训练,构建得到句类识别模型。
一些实施例中,所述获取模块42用于获取所述语音数据的声学句类识别特征,包括:
对所述语音数据进行划分,得到所述语音数据包含的多个语音片段;
计算所述语音片段的短时平均能量;
根据所述短时平均能量确定所述语音数据的声学句类识别特征。
一些实施例中,所述获取模块42用于根据所述短时平均能量确定所述语音数据的声学句类识别特征,包括:
将所有所述短时平均能量组成的向量,确定为所述语音数据的声学句类识别特征;或者,
在所有所述短时平均能量中确定出最大短时平均能量,将所述最大短时平均能量确定为所述语音数据的声学句类识别特征;或者,
将所有所述短时平均能量和最大短时平均能量组成的向量,确定为所述语音数据的声学句类识别特征。
一些实施例中,所述获取模块42用于获取所述语音数据的语义句类识别特征,包括:
对所述语音数据进行划分,得到所述语音数据包含的多个语音片段,以及,从所述多个语音片段中获取短时平均能量最大的语音片段;
根据所述短时平均能量最大的语音片段,获取扩展后的语音片段对应的文本数据;
根据所述文本数据确定所述语音数据的语义句类识别特征。
一些实施例中,所述语义句类识别特征包括如下项的至少一项:
句互信息向量,所述句互信息向量为所述文本数据包含的词语对应的互信息向量的加权和,所述互信息向量为所述词语与每种句类之间的互信息组成的向量;
句子向量,所述句子向量为所述文本数据包含的词语对应的词向量的加权和。
一些实施例中,所述获取模块42用于对所述语音数据进行划分,得到所述语音数据包含的多个语音片段,包括:
对所述语音数据进行语音识别,得到对应的整句文本数据;
将所述整句文本数据划分为多个文本片段,并根据所述文本片段对所述语音数据进行划分,得到多个语音片段。
一些实施例中,所述获取模块42用于根据所述短时平均能量最大的语音片段,获取扩展后的语音片段对应的文本数据,包括:
对所述整句文本数据进行分词,得到分词结果;
在所述整句文本数据中提取出所述短时平均能量最大的语音片段对应的文本数据,并确定所述提取出的文本数据包含的起始词语的位置和结束词语的位置;
确定扩展窗的窗口大小;
根据所述提取出的文本数据包含的起始词语的位置和结束词语的位置,以及所述窗口大小,确定扩展后语音片段对应的文本数据。
可以理解的是,本实施例的装置与上述方法实施例对应,具体内容可以参见方法实施例的相关描述,在此不再详细说明。
本实施例中,通过依据句类识别模型对语音数据的句类进行识别,可以有效解决依据规则进行识别的局限性,扩展使用范围,以及依据声学上和语义上的特征进行识别,可以提高识别准确度。
图6是本申请一个实施例提出的语音数据句类识别系统的结构示意图。
如图6所示,本实施例的系统包括:客户端61和服务端62。
客户端61,用于采集用户发出的待识别的语音数据;
服务端62,用于接收所述客户端发送的所述待识别的语音数据;获取所述语音数据的句类识别特征,所述句类识别特征包括如下项中的至少一项:声学句类识别特征,语义句类识别特征;以及,根据预先构建的句类识别模型和所述句类识别特征,识别所述语音数据的句类,所述句类识别模型根据获取的语音数据样本的句类识别特征构建得到。
图6中以客户端与服务端通过无线网络连接为例,可以理解的是,客户端与服务端也可以通过有线网络连接,或者,如果客户端与服务端集成在同一设备中,客户端与服务端可以通过设备内部的总线连接。
可以理解的是,服务端的功能与上述的装置一致,因此,服务端的具体组成可以参见图4或图5所示的装置,在此不再详述。
本实施例中,通过依据句类识别模型对语音数据的句类进行识别,可以有效解决依据规则进行识别的局限性,扩展使用范围,以及依据声学上和语义上的特征进行识别,可以提高识别准确度。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (17)

1.一种语音数据句类识别方法,其特征在于,包括:
接收待识别的语音数据,所述待识别的语音数据以句为单位;
获取所述语音数据的句类识别特征,所述句类识别特征包括声学句类识别特征,或者,所述句类识别特征包括声学句类识别特征和语义句类识别特征;
根据预先构建的句类识别模型和所述句类识别特征,识别所述语音数据的句类,所述句类识别模型根据获取的语音数据样本的句类识别特征构建得到,所述语音数据的句类包括每句语音数据的句类,所述每句语音数据的句类是指按照所述每句语音数据中句子的语气划分的类型。
2.根据权利要求1所述的方法,其特征在于,还包括:构建句类识别模型,所述构建句类识别模型包括:
获取语音数据样本;
确定所述语音数据样本的句类;
获取所述语音数据样本的句类识别特征;
根据所述语音数据样本的句类识别特征和所述语音数据样本的句类,进行模型训练,构建得到句类识别模型。
3.根据权利要求1所述的方法,其特征在于,获取所述语音数据的声学句类识别特征,包括:
对所述语音数据进行划分,得到所述语音数据包含的多个语音片段;
计算所述语音片段的短时平均能量;
根据所述短时平均能量确定所述语音数据的声学句类识别特征。
4.根据权利要求3所述的方法,其特征在于,所述根据所述短时平均能量确定声学句类识别特征,包括:
将所有所述短时平均能量组成的向量,确定为所述语音数据的声学句类识别特征;或者,
在所有所述短时平均能量中确定出最大短时平均能量,将所述最大短时平均能量确定为所述语音数据的声学句类识别特征;或者,
将所有所述短时平均能量和最大短时平均能量组成的向量,确定为所述语音数据的声学句类识别特征。
5.根据权利要求1所述的方法,其特征在于,获取所述语音数据的语义句类识别特征,包括:
对所述语音数据进行划分,得到所述语音数据包含的多个语音片段,以及,从所述多个语音片段中获取短时平均能量最大的语音片段;
根据所述短时平均能量最大的语音片段,获取扩展后的语音片段对应的文本数据;
根据所述文本数据确定所述语音数据的语义句类识别特征。
6.根据权利要求5所述的方法,其特征在于,所述语义句类识别特征包括如下项的至少一项:
句互信息向量,所述句互信息向量为所述文本数据包含的词语对应的互信息向量的加权和,所述互信息向量为所述词语与每种句类之间的互信息组成的向量;
句子向量,所述句子向量为所述文本数据包含的词语对应的词向量的加权和。
7.根据权利要求3或5所述的方法,其特征在于,所述对所述语音数据进行划分,得到所述语音数据包含的多个语音片段,包括:
对所述语音数据进行语音识别,得到对应的整句文本数据;将所述整句文本数据划分为多个文本片段,并根据所述文本片段对所述语音数据进行划分,得到多个语音片段。
8.根据权利要求7所述的方法,其特征在于,所述根据所述短时平均能量最大的语音片段,获取扩展后的语音片段对应的文本数据,包括:
对所述整句文本数据进行分词,得到分词结果;
在所述整句文本数据中提取出所述短时平均能量最大的语音片段对应的文本数据,并确定所述提取出的文本数据包含的起始词语的位置和结束词语的位置;
确定扩展窗的窗口大小;
根据所述提取出的文本数据包含的起始词语的位置和结束词语的位置,以及所述窗口大小,确定扩展后语音片段对应的文本数据。
9.一种语音数据句类识别装置,其特征在于,包括:
接收模块,用于接收待识别的语音数据,所述待识别的语音数据以句为单位;
获取模块,用于获取所述语音数据的句类识别特征,所述句类识别特征包括声学句类识别特征,或者,所述句类识别特征包括声学句类识别特征和语义句类识别特征;
识别模块,用于根据预先构建的句类识别模型和所述句类识别特征,识别所述语音数据的句类,所述句类识别模型根据获取的语音数据样本的句类识别特征构建得到,所述语音数据的句类包括每句语音数据的句类,所述每句语音数据的句类是指按照所述每句语音数据中句子的语气划分的类型。
10.根据权利要求9所述的装置,其特征在于,还包括:用于构建句类识别模型的构建模块,所述构建模块具体用于:
获取语音数据样本;
确定所述语音数据样本的句类;
获取所述语音数据样本的句类识别特征;
根据所述语音数据样本的句类识别特征和所述语音数据样本的句类,进行模型训练,构建得到句类识别模型。
11.根据权利要求9所述的装置,其特征在于,所述获取模块用于获取所述语音数据的声学句类识别特征,包括:
对所述语音数据进行划分,得到所述语音数据包含的多个语音片段;
计算所述语音片段的短时平均能量;
根据所述短时平均能量确定所述语音数据的声学句类识别特征。
12.根据权利要求11所述的装置,其特征在于,所述获取模块用于根据所述短时平均能量确定所述语音数据的声学句类识别特征,包括:
将所有所述短时平均能量组成的向量,确定为所述语音数据的声学句类识别特征;或者,
在所有所述短时平均能量中确定出最大短时平均能量,将所述最大短时平均能量确定为所述语音数据的声学句类识别特征;或者,
将所有所述短时平均能量和最大短时平均能量组成的向量,确定为所述语音数据的声学句类识别特征。
13.根据权利要求9所述的装置,其特征在于,所述获取模块用于获取所述语音数据的语义句类识别特征,包括:
对所述语音数据进行划分,得到所述语音数据包含的多个语音片段,以及,从所述多个语音片段中获取短时平均能量最大的语音片段;
根据所述短时平均能量最大的语音片段,获取扩展后的语音片段对应的文本数据;
根据所述文本数据确定所述语音数据的语义句类识别特征。
14.根据权利要求11或13所述的装置,其特征在于,所述语义句类识别特征包括如下项的至少一项:
句互信息向量,所述句互信息向量为所述文本数据包含的词语对应的互信息向量的加权和,所述互信息向量为所述词语与每种句类之间的互信息组成的向量;
句子向量,所述句子向量为所述文本数据包含的词语对应的词向量的加权和。
15.根据权利要求13所述的装置,其特征在于,所述获取模块用于对所述语音数据进行划分,得到所述语音数据包含的多个语音片段,包括:
对所述语音数据进行语音识别,得到对应的整句文本数据;
将所述整句文本数据划分为多个文本片段,并根据所述文本片段对所述语音数据进行划分,得到多个语音片段。
16.根据权利要求15所述的装置,其特征在于,所述获取模块用于根据所述短时平均能量最大的语音片段,获取扩展后的语音片段对应的文本数据,包括:
对所述整句文本数据进行分词,得到分词结果;
在所述整句文本数据中提取出所述短时平均能量最大的语音片段对应的文本数据,并确定所述提取出的文本数据包含的起始词语的位置和结束词语的位置;
确定扩展窗的窗口大小;
根据所述提取出的文本数据包含的起始词语的位置和结束词语的位置,以及所述窗口大小,确定扩展后语音片段对应的文本数据。
17.一种语音数据句类识别系统,其特征在于,包括:
客户端,用于采集用户发出的待识别的语音数据;
服务端,用于接收所述客户端发送的所述待识别的语音数据,所述待识别的语音数据以句为单位;获取所述语音数据的句类识别特征,所述句类识别特征包括声学句类识别特征,或者,所述句类识别特征包括声学句类识别特征和语义句类识别特征;以及,根据预先构建的句类识别模型和所述句类识别特征,识别所述语音数据的句类,所述句类识别模型根据获取的语音数据样本的句类识别特征构建得到,所述语音数据的句类包括每句语音数据的句类,所述每句语音数据的句类是指按照所述每句语音数据中句子的语气划分的类型。
CN201611185200.4A 2016-12-20 2016-12-20 语音数据句类识别方法和装置及系统 Active CN106710588B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611185200.4A CN106710588B (zh) 2016-12-20 2016-12-20 语音数据句类识别方法和装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611185200.4A CN106710588B (zh) 2016-12-20 2016-12-20 语音数据句类识别方法和装置及系统

Publications (2)

Publication Number Publication Date
CN106710588A CN106710588A (zh) 2017-05-24
CN106710588B true CN106710588B (zh) 2020-06-02

Family

ID=58939335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611185200.4A Active CN106710588B (zh) 2016-12-20 2016-12-20 语音数据句类识别方法和装置及系统

Country Status (1)

Country Link
CN (1) CN106710588B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019922B (zh) * 2017-12-07 2021-06-15 北京雷石天地电子技术有限公司 一种音频高潮识别方法和装置
CN112015872A (zh) * 2019-05-29 2020-12-01 华为技术有限公司 问句识别方法及装置
CN112735383A (zh) * 2020-12-23 2021-04-30 深圳壹账通智能科技有限公司 语音信号的处理方法、装置、设备及存储介质
CN116340467B (zh) * 2023-05-11 2023-11-17 腾讯科技(深圳)有限公司 文本处理方法、装置、电子设备、及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231278A (zh) * 2011-06-10 2011-11-02 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统
CN104750676A (zh) * 2013-12-31 2015-07-01 橙译中科信息技术(北京)有限公司 机器翻译处理方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142915B (zh) * 2013-05-24 2016-02-24 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
JPWO2016009634A1 (ja) * 2014-07-16 2017-04-27 日本電気株式会社 会話分析システム、会話分析方法および会話分析プログラムが記録された記憶媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231278A (zh) * 2011-06-10 2011-11-02 安徽科大讯飞信息科技股份有限公司 实现语音识别中自动添加标点符号的方法及系统
CN104750676A (zh) * 2013-12-31 2015-07-01 橙译中科信息技术(北京)有限公司 机器翻译处理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于句型库的语音识别研究;师晨曦;《中国优秀硕士学位论文全文数据库》;20070228;第3.2-3.4节,附图15 *

Also Published As

Publication number Publication date
CN106710588A (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
CN107680582B (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
EP3260996A1 (en) Dialogue act estimation method, dialogue act estimation apparatus, and storage medium
JP5853029B2 (ja) 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN106782615B (zh) 语音数据情感检测方法和装置及系统
CN108428446A (zh) 语音识别方法和装置
CN111429946A (zh) 语音情绪识别方法、装置、介质及电子设备
CN110990685B (zh) 基于声纹的语音搜索方法、设备、存储介质及装置
CN107180084B (zh) 词库更新方法及装置
CN106710588B (zh) 语音数据句类识别方法和装置及系统
CN111081279A (zh) 语音情绪波动分析方法及装置
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
CN109036471B (zh) 语音端点检测方法及设备
Swain et al. Study of feature combination using HMM and SVM for multilingual Odiya speech emotion recognition
Yücesoy et al. A new approach with score-level fusion for the classification of a speaker age and gender
CN110019741A (zh) 问答系统答案匹配方法、装置、设备及可读存储介质
CN110827853A (zh) 语音特征信息提取方法、终端及可读存储介质
Praksah et al. Analysis of emotion recognition system through speech signal using KNN, GMM & SVM classifier
CN111091809A (zh) 一种深度特征融合的地域性口音识别方法及装置
CN114595692A (zh) 一种情绪识别方法、系统及终端设备
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
KR20130068624A (ko) 화자 그룹 기반 음성인식 장치 및 방법
CN109919657A (zh) 用户需求信息的获取方法、装置、存储介质及语音设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant