CN107704447A

CN107704447A - 一种中文分词方法、中文分词装置和终端

Info

Publication number: CN107704447A
Application number: CN201710729418.XA
Authority: CN
Inventors: 马宏
Original assignee: Hisense Group Co Ltd
Current assignee: Hisense Group Co Ltd
Priority date: 2017-08-23
Filing date: 2017-08-23
Publication date: 2018-02-16

Abstract

本发明公开了一种中文分词方法、中文分词装置和终端，涉及自然语言处理技术领域，根据用户输入的语音数据中的韵律特征确定用户输入的交互文本的韵律边界，进而根据该交互文本的韵律边界，对该交互文本进行分词，通过提取用户输入的语音数据中的韵律特征将用户输入的交互文本分割成多个韵律单元，从而实现了根据用户输入的语音数据中的韵律特征获取自然语言处理中的中文分词结果，实现了韵律特征在中文分词中的应用，从普通话发音规则的角度对用户输入的交互文本进行分词，提高了中文分词结果的准确度和中文分词效率，进而提高了语音交互产品的用户体验性。

Description

一种中文分词方法、中文分词装置和终端

技术领域

本发明涉及自然语言处理技术，尤其涉及一种中文分词方法、中文分词装置和终端。

背景技术

在语音交互产品普及的时代，语音识别和自然语言处理各自扮演着重要的角色。语音识别是将语音信号解码成文字信息，自然语言处理则根据文字信息进行语义解析，获取用户的请求意图，从而满足用户的功能需求。中文分词作为自然语言理解中的重要一步，其准确性直接影响人机交互产品的性能。

所谓分词，就是将句子切分成一个一个单独的词；是将连续的句子按照一定的规范重新组合成词序列的过程。以中文分词技术为例，分词技术的目标就是将一句话切分为一个一个单独的中文词语。

现有的分词方法主要包括以下两种：基于字符串匹配的分词方法和基于统计的分词方法。

其中，基于字符串匹配的分词方法又称为机械分词方法，是按照一定的策略将待分词的汉字串与机器词典中的词条进行匹配，若在词典中找到某个词，则匹配成功(识别出一个词)。按照扫描方向的不同，基于字符串匹配的方法可以分为正向匹配的方法和逆向匹配的方法；按照不同长度优先匹配的标准，又可以分为最大(最长)匹配和最小(最短)匹配。但是采用基于字符串匹配的分词方法进行分词，其分词过程较为粗糙，只能识别词典中已经收录的词条，由于词条名称众多，无法完全收录，导致得到的分词结果不够准确，降低了分词准确度。

基于统计的分词方法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的稳定组合,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。通过对大量语料中相邻共现的各个字的组合的频度进行统计，可以得到两个汉字的相邻共现概率，两个汉字的相邻共现概率代表了汉字之间结合关系的紧密程度。当两个汉字的相邻共现概率大于某一个阈值时，可以确认此字组构成了一个词。虽然基于统计的分词方法只需对语料中的字组频度进行统计，不需要切分词典，但是，基于统计的分词方法经常抽出一些共现频度高、但并不是词的常用字组，例如“这一”、“之一”、“有的”、“我的”、“许多的”等，并且对常用词的识别精度差，时空开销大，计算复杂性高，导致分词效率降低，再加上受制于有限的训练语料库，分词辨识精度也较低。

发明内容

本发明实施例提供一种中文分词方法、中文分词装置和终端，旨在提高分词结果的准确度和中文分词效率，进而提高语音交互产品的用户体验性。

本发明提供的具体技术方案如下：

第一方面，本发明提供一种中文分词方法，所述方法包括：

识别用户输入的语音数据，得到用户以语音方式输入的交互文本；

根据所述语音数据的韵律特征，确定所述交互文本的韵律边界；

根据所述交互文本的韵律边界，生成所述交互文本的分词结果。

可选的，所述根据所述语音数据的韵律特征，确定所述交互文本的韵律边界，包括：

根据所述语音数据，获取当前音节的发音时长和所述当前音节与下一音节之间的静音时长；

如果所述静音时长与所述当前音节的发音时长之间的比值大于预设比值，则确定所述当前音节与所述下一音节之间存在韵律边界。

根据所述语音数据，计算当前音节的结束音高和下一音节的开始音高；

根据所述开始音高与所述结束音高的比值，确定所述当前音节与所述下一音节之间的中断因子；

如果所述中断因子大于预设中断因子，则确定所述当前音节与所述下一音节之间存在韵律边界。

计算所述语音数据中的时长特征、基频特征和能量特征，其中，所述时长特征包括当前音节的发音时长、所述当前音节与下一音节之间的静音时长、所述下一音节的发音时长、所述静音时长与所述当前音节的发音时长之间的比值中的至少一个，所述基频特征包括所述当前音节的音高最大值、所述当前音节的音高最小值、所述音高最大值与所述音高最小值的差值、所述当前音节的音高均值、所述当前音节的前后音节的音高均值的比值、所述当前音节的结束音高、所述下一音节的开始音高、所述当前音节与所述下一音节之间的中断因子中的至少一个，所述能量特征包括所述当前音节的能量最大值、所述当前音节的能量最小值、所述能量最大值与所述能量最小值的差值、所述当前音节的能量均值、所述当前音节的前后音节的能量均值的比值中的至少一个；

根据所述时长特征、所述基频特征和所述能量特征，计算所述当前音节与所述下一音节之间的边界信息特征值；

如果所述边界信息特征值大于预设阈值，则确定所述当前音节与所述下一音节之间存在韵律边界。

可选的，所述根据所述交互文本的韵律边界，生成所述交互文本的分词结果，包括：

如果所述当前音节与所述下一音节之间存在韵律边界，则确定所述当前音节与所述下一音节对应的所述交互文本中的字符分别属于两个词；

如果所述当前音节与所述下一音节之间不存在韵律边界，则确定所述当前音节与所述下一音节对应的所述交互文本中的字符同属于一个词。

第二方面，本发明还提供一种中文分词装置，所述中文分词装置包括：

语音识别模块，用于识别用户输入的语音数据，得到用户以语音方式输入的交互文本；

确定模块，用于根据所述语音数据的韵律特征，确定所述交互文本的韵律边界；

分词模块，用于根据所述交互文本的韵律边界，生成所述交互文本的分词结果。

可选的，所述确定模块具体用于：

可选的，所述分词模块具体用于：

第三方面，本发明提供一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

本发明的有益技术效果如下：

本发明实施例提供的中文分词方法，根据用户输入的语音数据中的韵律特征确定用户输入的交互文本的韵律边界，进而根据该交互文本的韵律边界，对该交互文本进行分词，通过提取用户输入的语音数据中的韵律特征将用户输入的交互文本分割成多个韵律单元，从而实现了根据用户输入的语音数据中的韵律特征获取自然语言处理中的中文分词结果，实现了韵律特征在中文分词中的应用，从普通话发音规则的角度对用户输入的交互文本进行分词，提高了中文分词结果的准确度和中文分词效率，进而提高了语音交互产品的用户体验性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的一种中文分词方法的流程示意图；

图2为本发明实施例的语音数据“北京大学生喝进口红酒”的韵律特征示意图；

图3为本发明实施例的一种中文分词装置的结构框图；

图4为本发明实施例的一种终端的结构框图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在对本发明实施例进行详细地解释说明之前，先对本发明实施例的应用环境予以介绍。本发明实施例提供的中文分词方法应用于终端，示例的，该终端可以是具有Android操作系统或IOS操作系统的电视机、智能手机、平板电脑等，该终端还可以是具有Window操作系统或Ios操作系统的计算机、PDA(Personal Digital Assistant，个人数字助理)等，本发明实施例对此不做具体限定。

图1示出了本发明实施例提供的一种中文分词方法的流程示意图，该方法应用于终端。参考图1所示，该方法的流程包括：

步骤101：当终端被触发进入语音交互模式后，接收用户输入的语音数据。

具体的，用户可以通过触发相应的固态按键或者语音按键来触发终端进入语音交互模式，同时用户也可以通过预设的激活词触发终端进入语音交互模式。

示例的，以电视机为例，用户可以通过遥控器触发电视机进入语音交互模式，即用户可以按下与电视机相配套的遥控器上设置的语音交互按钮，进而遥控器向电视机发送该按键的键值对应的红外编码值。当电视机接收到该红外编码值时，通过解析该红外编码值得到该按键事件对应的控制指令。进而电视机执行该控制指令，进入语音交互模式，此时，电视机的语音输入模块实时接收用户通过麦克风录入的语音数据。

进一步的，当终端被触发进入语音交互模式后，其语音输入模块实时监测用户输入的语音数据。具体的，语音输入模块具有拾音功能，可以通过麦克风实现。以智能手机为例，通过智能手机上设置的麦克风实现拾音功能；以电视机为例，通过与电视机相配套的遥控器上设置的麦克风实现拾音功能，当然，此处仅是举例说明，并不代表本发明实施例局限于此。

步骤102：识别用户输入的语音数据，得到用户以语音方式输入的交互文本。

具体的，当终端进入语音交互模式后，可以通过语音输入模块中的麦克风接收用户输入的语音数据，并将用户输入的语音数据发送给语音识别模块。语音识别模块对用户输入的语音数据进行识别处理，得到用户以语音方式输入的交互文本。

示例的，当用户输入“北京大学生喝进口红酒”“电影快进三分钟”、“播放刘德华的天下无贼”、“帮我搜索春风十里不如有你”等语音数据时，终端可以通过麦克风接收到用户输入的上述语音数据，进而根据上述语音数据识别得到用户以语音方式输入的交互文本“北京大学生喝进口红酒”“电影快进三分钟”、“播放刘德华的天下无贼”、“帮我搜索春风十里不如有你”。

当然，用户在实际应用中可以输入任意的语音数据，终端可以通过麦克风接收用户输入的任意语音数据，并根据该语音数据识别得到用户以语音方式输入的任意指令语句。

需要说明的是，对用户输入的语音数据识别得到用户以语音方式输入的交互文本的操作可以参考已有相关技术，本发明实施例对此不再进行一一赘述。

示例的，可以通过下述公式依次实现对用户输入的语音数据识别得到其对应的交互文本的操作。当然，此处仅是举例说明，并不代表本发明局限于此。

W₁＝argmaxP(W|X) (1)

其中，在上述公式(1)中，W表示数据库中存储的任一文字序列，该文字序列包括词或字，该数据库可以是用于做语音识别的语料库；X表示用户输入的语音数据，W₁表示从存储文字序列中获得的可与用户输入的语音数据匹配的文字序列，P(W|X)表示该用户输入的语音数据可以变成文字的概率。

其中，在上述公式(2)中，W₂表示该用户输入的语音数据与该文字序列之间的匹配程度，P(X|W)表示该文字序列可以发音的概率，P(W)表示该文字序列为词或字的概率，P(X)表示用户输入的语音数据为音频信息的概率。

需要说明的是，在上述的识别过程中，可以通过语言模型确定P(W)，通过声学模型确定P(X|W)，从而完成对该用户输入语音数据的语音识别，得到用户输入的语音数据对应的交互文本。

下述将分别对语言模型和声学模型进行简单介绍。

语言模型

语言模型通常利用链式法则，把文字序列为词或字的概率拆解成其中每个词或字的概率之积，也即是，将W拆解成w₁、w₂、w₃、....w_n-1、w_n，并通过下述公式(3)确定P(W)。

P(W)＝P(w₁)P(w₂|w₁)P(w₃|w₁,w₂)...P(w_n|w₁,w₂,...,w_n-1) (3)

其中，在上述公式(3)中，P(W)中的每一项都是在表示已知之前所有文字序列都为词或字的条件下当前文字序列为词或字的概率。

由于在通过上述公式(3)确定P(W)时，如果条件太长，则确定P(W)的效率将会较低，从而影响后续的语音识别。因此，为了提高确定P(W)的效率，通常会通过语言模型中的n-gram语言模型确定P(W)。在通过n-gram语言模型确定P(W)时，第n个词的概率只依赖于位于该词前面的第n-1个词，此时可以通过下述公式(4)确定P(W)。

P(W)＝P(w₁)P(w₂|w₁)P(w₃|w₂)...P(w_n|w_n-1) (4)

声学模型

由于在确定每个词时还需要确定每个词的发音，而确定每个词的发音则需要通过词典实现。其中，词典是与声学模型和语言模块并列的模型，且该词典可以把单个词转换成音素串。声学模型可以通过词典确定用户输入的语音数据中的文字该依次发哪些音，并通过诸如维特比(Viterbi)算法的动态规则算法找到各个音素的分界点，从而确定每个音素的起止时间，进而确定用户输入的语音数据与音素串的匹配程度，也即是，确定P(X|W)。

通常情况下，可以通过诸如高斯混合模型的分类器估计出每个音素的特征向量的分布，并在语音识别阶段，确定用户输入的语音数据中每一帧的特征向量x_t由相应音素s_i产生的概率P(x_t|s_i)，把每一帧的概率相乘，就得到P(X|W)。

其中，分类器可以事先训练得到，具体操作为：通过频率倒谱系数(Mel FrequencyCepstrum Coefficient，MFCC)从训练数据中提取大量的特征向量，以及每个特征向量对应的音素，从而训练从特征到音素的分类器。

需要说明的是，在实际应用中，不仅可以通过上述方式确定P(X|W)，还可以包括其他方式，比如，通过神经网络直接给出P(s_i|x_t)，用贝叶斯公式可以转换成P(x_t|s_i)，再相乘得到P(X|W)，当然，此处仅是举例说明，并不代表本发明实施例局限于此。

步骤103：根据所述语音数据的韵律特征，确定所述交互文本的韵律边界。

首先，采用语音活动检测技术(Voice Activity Detection，VAD)获取用户输入的语音数据中的静音信息，其中，该静音信息是句子与句子之间的静音信息。根据用户输入的语音数据中句子与句子之间的静音信息，将用户输入的语音数据拆分为一个或者对个句子对应的语音数据。如果用户输入的语音数据对应的就是一个句子，则不需对用户输入的语音数据进行拆分。

具体地，常见的VAD检测技术为双门限端点检测法，通过分析语音信号的短时能量和短时过零率分别确定低门限和高门限。连续语音信号幅值低于低门限的语音片段称为静音段，连续语音信号幅值高于高门限的语音片段为有效语音数据，静音段两侧的语音为拆分之后的一个句子对应的语音数据。然后，将拆分得到的每个句子的语音信号和交互文本进行时间对齐，并对二者建立映射关系，即建立用户输入的语音数据中的音节与交互文本的字符之间的对应关系。

在汉语中，音节是听觉能感受的最小语音单位，一个汉字的读音就是一个音节，每个基本音节包由声母、韵母和音调三部分组成。其中，语音数据的韵律特征包括语音信号的时长、基频和能量等。具体的，语音数据的韵律特征包括语音信号的时长特征、语音信号的音高特征和语音信号的能量特征等。

在汉语中，语音数据的韵律边界表示相邻音节的疏远程度，韵律边界将一段语音信号划分成大小不同的韵律单元，如韵律词和韵律短语。韵律词是紧密结合的音节构成的最小韵律单元，多个相邻的韵律词构成韵律短语。韵律短语在一个句子中可作为一个单独的语法成分，韵律边界在汉语语言表达的自然度和可理解方面具有重要的作用。在语音数据的边界处，很多地方会出现语音信号的停顿，因此，语音信号的时长特征可以用来判断语音数据的相邻音节之间是否存在韵律边界。音高的变化反应了语音信号的语调、声调、重音等多种韵律信息，在相邻音节的韵律边界处，音高的变化非常明显，因此，语音信号的音高特征也可以用来判断语音数据的相邻音节之间是否存在韵律边界。音强大小反应了语音信号的能量大小，在相邻音节的韵律边界处，语音信号的能量变化也非常明显，因此，语音信号的音强特征也可以用来判断语音数据的相邻音节之间是否存在韵律边界。

根据上述内容可知，根据用户输入的语音数据的韵律特征，确定用户输入的语音数据对应的交互文本的韵律边界的方法有多种，本发明实施例至少提供三种根据用户输入的语音数据的韵律特征，确定用户输入的语音数据对应的交互文本的韵律边界的方法。具体的，本发明实施例提供的根据用户输入的语音数据的韵律特征，确定用户输入的语音数据对应的交互文本的韵律边界的方法如下：

第一种实现方式：根据用户输入的语音数据，获取当前音节的发音时长和所述当前音节与下一音节之间的静音时长；如果静音时长与当前音节的发音时长之间的比值大于预设比值，则确定当前音节与下一音节之间存在韵律边界；如果静音时长与当前音节的发音时长之间的比值不大于预设比值，则确定当前音节与下一音节之间不存在韵律边界。

具体的，可以采用Praat语音分析工具分析用户输入的语音数据的韵律特征，示例的，参考图2所示，为采用Praat语音分析工具分析的用户输入的语音数据“北京大学生喝进口红酒”的韵律特征。其中，图3中的上部黑色波形图是用户输入语音数据“北京大学生喝进口红酒”的声音波形图，反映的是用户输入语音数据的时间停顿变化信息和音量变化信息；下部曲线标注的是用户输入语音数据“北京大学生喝进口红酒”的音高变化信息；下部波形图标注的是用户输入语音数据“北京大学生喝进口红酒”的音强变化信息，也即是用户输入语音数据的声音信号的能量变化信息。

根据附图2中的用户输入的语音数据“北京大学生喝进口红酒”的韵律特征，计算交互文本“北京大学生喝进口红酒”的每一个音节的发音时长分别为：0.2375、0.2737、0.2495、0.2132、0.2816、0.0959、0.1771、0.2287、0.2213、0.1810，交互文本“北京大学生喝进口红酒”的相邻音节之间的静音时长为0.0402、0.0322、0.0282、0.0077、0.1651、0.0443、0.0121、0.0812、0.0362、0.0000；每一个当前音节与下一音节之间的静音时长与当前音节的发音时长之间的比值分别为0.1693、0.1176、0.1130、0.0361、0.5863、0.4619、0.0683、0.3551、0.1636、0.0000。

示例的，以预设比值为0.3为例，可以发现字符串“生”和“喝”对应的音节之间的比值大于预设比值，字符串“喝”和“进”对应的音节之间的比值大于预设比值，以及字符串“口”和“红”对应的音节之间的比值大于预设比值，则可以确定交互文本“北京大学生喝进口红酒”的字符串“生”和“喝”对应的音节之间存在韵律边界，字符串“喝”和“进”对应的音节之间存在韵律边界，字符串“口”和“红”对应的音节之间存在韵律边界。

需要说明的是，预设比值的具体数值可以由终端默认设置，也可以由用户设置，还可以采用卷积神经网络训练得到预设比值的具体大小，对此，本发明实施例不做具体限定。其中，每一个当前音节与下一音节之间的静音时长与当前音节的发音时长之间的比值越大，表示当前音节与下一音节之间存在韵律边界的可能性就越大。

第二种实现方式：根据用户输入的语音数据，计算当前音节的结束音高和下一音节的开始音高；根据当前音节的结束音高和下一音节的开始音高的比值，确定当前音节与下一音节之间的中断因子；如果当前音节与下一音节之间的中断因子大于预设中断因子，则确定当前音节与下一音节之间存在韵律边界；如果当前音节与下一音节之间的中断因子不大于预设中断因子，则确定当前音节与下一音节之间不存在韵律边界。

具体的，根据附图2中的用户输入的语音数据“北京大学生喝进口红酒”的韵律特征，计算交互文本“北京大学生喝进口红酒”的每一个当前音节的结束音高为：246.21、192.30、245.21、200.10、211.30、219.90、191.50、184.49、207.71、219.80；交互文本“北京大学生喝进口红酒”的每一个当前音节的下一音节的开始音高为239.78、211.00、238.78、209.50、185.62、225.50、256.10、197.78、198.10、0.00。

其中，当前音节与下一音节之间的中断因子可以根据公式计算，式中P_Cend为当前音节的结束音高，P_Nbegin为每一个当前音节的下一音节的开始音高。根据交互文本“北京大学生喝进口红酒”的每一个当前音节的结束音高和每一个当前音节的下一音节的开始音高，计算的每一个当前音节与下一音节之间的中断因子为：0.0007、0.0079、0.0006、0.0020、0.0191、0.0119、0.0006、0.0052、0.0024、0.0000。

示例的，以预设中断因子为0.005为例，可以发现，字符串“京”和“大”对应的音节之间的中断因子大于预设中断因子，字符串“生”和“喝”对应的音节之间的中断因子大于预设中断因子，字符串“喝”和“进”对应的音节之间的中断因子大于预设中断因子，以及字符串“口”和“红”对应的音节之间的中断因子大于预设中断因子，则可以确定交互文本“北京大学生喝进口红酒”的字符串“京”和“大”对应的音节之间存在韵律边界，字符串“生”和“喝”对应的音节之间存在韵律边界，字符串“喝”和“进”对应的音节之间存在韵律边界，字符串“口”和“红”对应的音节之间存在韵律边界。

需要说明的是，预设中断因子的具体数值可以由终端默认设置，也可以由用户设置，还可以采用卷积神经网络训练得到预设中断因子的具体大小，对此，本发明实施例不做具体限定。其中，每一个当前音节与下一音节之间的中断因子越大，表示当前音节与下一音节之间存在中断的概率越大，则当前音节与下一音节之间存在韵律边界的可能性就越大。

第三种实现方式：根据用户输入的语音数据，计算用户输入的语音数据中的时长特征、基频特征和能量特征，其中，时长特征包括当前音节的发音时长、当前音节与下一音节之间的静音时长、下一音节的发音时长、静音时长与当前音节的发音时长之间的比值中的至少一个，基频特征包括当前音节的音高最大值、当前音节的音高最小值、音高最大值与音高最小值的差值、当前音节的音高均值、当前音节的前后音节的音高均值的比值、当前音节的结束音高、下一音节的开始音高、当前音节与下一音节之间的中断因子中的至少一个，能量特征包括当前音节的能量最大值、当前音节的能量最小值、能量最大值与能量最小值的差值、当前音节的能量均值、当前音节的前后音节的能量均值的比值中的至少一个；根据用户输入语音数据的时长特征、基频特征和能量特征，计算当前音节与下一音节之间的边界信息特征值；如果当前音节与下一音节之间的边界信息特征值大于预设阈值，则确定当前音节与下一音节之间存在韵律边界；如果当前音节与下一音节之间的边界信息特征值不大于预设阈值，则确定当前音节与下一音节之间不存在韵律边界。

具体的，参考图2所示的用户输入的语音数据的韵律特征，提取用户输入的语音数据中当前音节的发音时长T_curr、当前音节与下一音节之间的静音时长T_silence、下一音节的发音时长T_next、静音时长T_silence与当前音节的发音时长T_curr之间的比值R_sc，然后组成用户输入的语音数据的韵律特征的时域向量V_t，时域向量V_t表示为[T_curr,T_silence,T_next,R_sc]。

参考图2所示的用户输入的语音数据的韵律特征，提取用户输入的语音数据中当前音节的音高最大值P_Cmax、当前音节的音高最小值P_Cmin、音高最大值P_Cmax与音高最小值P_Cmin的差值P_Cdiff、当前音节的音高均值P_Caver、当前音节的前后音节的音高均值的比值R_PNCaver、当前音节的结束音高P_Cend、下一音节的开始音高P_Nbegin、当前音节与下一音节之间的中断因子I_NC。然后组成用户输入的语音数据的韵律特征的音高向量V_p，表示基频特征的音高向量V_p表示为[P_Cmax,P_Cmin,P_Cdiff,P_Caver,R_PNCaver,P_Cend,P_Nbegin,I_NC]。

参考图2所示的用户输入的语音数据的韵律特征，提取用户输入的语音数据中当前音节的能量最大值E_Cmax、当前音节的能量最小值E_Cmin、能量最大值E_Cmax与能量最小值E_Cmin的差值、当前音节的能量均值E_Caver、当前音节的前后音节的能量均值的比值R_ENCaver。然后组成用户输入的语音数据的韵律特征的能量向量V_e，能量向量V_e表示为[E_Cmax,E_Cmin,E_Cdiff,E_Caver,R_ENCaver]。

进一步的，将时域向量V_t与时长加权向量W_t相乘、将音高向量V_p与基频加权向量W_p相乘、将能量向量V_e与能量加权向量W_e相乘之后，组成用户输入的语音数据的韵律特征的初始矩阵，然后再将初始矩阵与边界特征加权向量W_s相乘，得到用户输入语音数据的当前音节与下一音节之间的边界信息特征值M_f。该计算过程可以采用公式实现，其中，时长加权向量W_t是4维向量，基频加权向量W_p是8维向量，能量加权向量W_e是5维向量，边界特征加权向量W_s为三维向量。

针对计算得到的用户输入语音数据中的每一个当前音节与下一音节之间的边界信息特征值，如果当前音节与下一音节之间的边界信息特征值大于预设阈值，则确定当前音节与下一音节之间存在韵律边界；如果当前音节与下一音节之间的边界信息特征值不大于预设阈值，则确定当前音节与下一音节之间不存在韵律边界。

由于时长加权向量W_t、基频加权向量W_p、能量加权向量W_e、边界特征加权向量W_s和预设阈值Thr均为未知量，可以通过构建深度学习模型来学习时长加权向量W_t、基频加权向量W_p、能量加权向量W_e、边界特征加权向量W_s和预设阈值Thr的具体取值。示例的，下面对采用深度学习模型来学习时长加权向量W_t、基频加权向量W_p、能量加权向量W_e、边界特征加权向量W_s和预设阈值Thr的具体取值的过程进行简单说明。

采用深度学习模型来学习时长加权向量W_t、基频加权向量W_p、能量加权向量W_e、边界特征加权向量W_s和预设阈值Thr的具体取值的过程包括如下步骤：

步骤一：对获取到的用于训练的大量语音数据进行逐条单音节韵律特征提取，获取时域向量、音高向量和能量向量，并对其韵律边界信息进行手动标注。其中，将获取到的全部语音数据中的4/5，用来训练学习时长加权向量W_t、基频加权向量W_p、能量加权向量W_e、边界特征加权向量W_s和预设阈值Thr；剩下的1/5语音数据进行测试训练的效果。

步骤二：对时长加权向量W_t、基频加权向量W_p、能量加权向量W_e、边界特征加权向量W_s和预设阈值Thr等参数进行初始化操作，其中，时长加权向量W_t初始化为[1/4,1/4,1/4,1/4]T、基频加权向量W_p[1/8,1/8,1/8,1/8,1/8,1/8,1/8,1/8]T、能量加权向量W_e[1/5,1/5,1/5,1/5,1/5]T、边界特征加权向量W_s初始化为[1/3,1/3,1/3]T、预设阈值Thr初始化为Thr0＝0.5。

步骤三：将已经标记号韵律特征的语音数据的韵律特征向量作为输入，将初始化之后的时长加权向量W_t、基频加权向量W_p、能量加权向量W_e、边界特征加权向量W_s带入公式计算该语音数据的当前音节与下一音节之间的边界信息特征值M_f，之后利用sigmod函数将M_f映射成0-1之间的数，比较M_f和预设阈值Thr的大小，计算韵律边界结果N_c与实际标注的韵律边界结果N_t进行同或运算(相同为1，不同为0)。若为0，进入步骤四；否则，进入步骤五。

步骤四：若计算韵律边界结果N_c与实际标注的韵律边界结果N_t不同，首先调整预设阈值Thr。设置预设阈值初始步长step为0.5，step＝step/2，步长限制条件step>0.01，若step小于0.01，step＝step*2。若N_c为1，N_t为0，Thr增大step；若N_c为0，N_t为1，Thr减小step。

步骤五：根据min{|M_f-N_t|}规则调整时长加权向量W_t、基频加权向量W_p、能量加权向量W_e、边界特征加权向量W_s的权重值。重复执行步骤三～步骤五，直到min{|M_f-N_t|}趋于稳定，且取值较小，然后输出向量W_t、W_p、W_e、W_s和预设阈值Thr的训练结果值。

步骤六：将测试集数据的韵律特征向量作为输入，并将向量W_t、W_p、W_e、W_s和预设阈值Thr的训练结果值代入中，根据输出的M_f和预设阈值Thr的大小确定计算韵律边界结果N_c，根据计算韵律边界结果N_c与实际标注的韵律边界结果N_t，微调各训练变量，提高韵律边界的识别准确度。

示例的，以用户收入的语音数据为“北京大学生喝进口红酒”为例，参考图2所示的采用Praat语音分析工具分析的用户输入的语音数据“北京大学生喝进口红酒”的韵律特征，其中，语音数据“北京大学生喝进口红酒”中包括10个音节，计算得到的每一个音节的时域向量V_t、音高向量V_p、能量向量V_e的矩阵的具体数值如下表所示：

表1“北京大学生喝进口红酒”的韵律边界特征

其中，表1中的韵律边界结果N_c为1表示当前音节与下一音节之间存在韵律边界，因此，从表1中的计算结果可以看出，交互文本“北京大学生喝进口红酒”的字符串“京”和“大”对应的音节之间存在韵律边界，字符串“生”和“喝”对应的音节之间存在韵律边界，字符串“喝”和“进”对应的音节之间存在韵律边界，字符串“口”和“红”对应的音节之间存在韵律边界。

需要说明的是，其中，优选的采用第三种实现方式计算用户输入语音数据中的当前音节与下一音节之间是否存在韵律边界，因为，第三种实现方式采用深度学习的方法，学习得到时长加权向量W_t、基频加权向量W_p、能量加权向量W_e、边界特征加权向量W_s和预设阈值Thr的数值大小，并且结合了用户输入语音数据的语音数据的韵律特征中的语音信号的时长特征、语音信号的音高特征和语音信号的能量特征等，将用户输入语音数据的语音数据的韵律特征中时域向量、音高向量和能量向量进行融合，提高了根据用户输入语音数据的韵律特征，确定交互文本的韵律边界的准确性，进而提高了基于用户输入语音数据的韵律边界进行用户输入交互文本分词的准确性。

步骤104：根据所述交互文本的韵律边界，生成所述交互文本的分词结果。

具体的，如果当前音节与下一音节之间存在韵律边界，表明当前音节和下一音节之间存在隔断信息，则确定当前音节与下一音节对应的交互文本中的字符分别属于两个词，即当前音节和下一音节应该分为两个词处理，所以则将当前音节与下一音节对应的交互文本中的字符作为两个词处理；如果当前音节与下一音节之间不存在韵律边界，则确定当前音节与下一音节对应的交互文本中的字符同属于一个词，则将当前音节与下一音节对应的交互文本中的字符作为一个词处理。

示例的，以用户收入的语音数据为“北京大学生喝进口红酒”为例，参考表1所示的韵律边界特征，按照从前往后的顺序，由于交互文本“北京大学生喝进口红酒”的字符串“北”和“京”对应的音节之间不存在韵律边界，则字符串“北”和“京”作为一个词处理，即字符串“北”和“京”在分词过程中不应分开；字符串“京”和“大”对应的音节之间存在韵律边界，则字符串“北”和“京”作为2个词处理，即字符串“北”和“京”在分词过程中应分开，则“北京”是一个分词结果。

由于字符串“大”和“学”对应的音节之间不存在韵律边界，则字符串“大”和“学”作为一个词处理，即字符串“大”和“学”在分词过程中不应分开；由于字符串“学”和“生”对应的音节之间不存在韵律边界，则字符串“学”和“生”作为一个词处理，即字符串“学”和“生”在分词过程中不应分开；由于字符串“生”和“喝”对应的音节之间存在韵律边界，则字符串“生”和“喝”作为2个词处理，即字符串“生”和“喝”在分词过程中应分开，则“大学生”作为第二个分词结果。

由于字符串“喝”和“进”对应的音节之间存在韵律边界，则字符串“喝”和“进”作为2个词处理，即字符串“喝”和“进”在分词过程中应分开，则“喝”作为第三个分词结果。

由于字符串“进”和“口”对应的音节之间不存在韵律边界，则字符串“进”和“口”作为一个词处理，即字符串“进”和“口”在分词过程中不应分开；由于字符串“口”和“红”对应的音节之间存在韵律边界，则字符串“口”和“红”作为2个词处理，即字符串“口”和“红”在分词过程中应分开，则“进口”作为第四个分词结果。

由于字符串“红”和“酒”对应的音节之间不存在韵律边界，则字符串“红”和“酒”作为一个词处理，即字符串“红”和“酒”在分词过程中不应分开；而且字符串“红”之后没有其他字符串，则“红酒”作为第五个分词结果。

综上，用户收入的语音数据为“北京大学生喝进口红酒”，根据该语音数据的韵律特征确定的中文分词结果为“北京”、“大学生”、“喝”、“进口”、“红酒”。

进一步的，根据用户输入的语音数据的边界特征确定了该语音数据的交互文本的分词结果之后，可以采用中文分词词典对该分词结果进行检验。示例的，以用户收入的语音数据为“北京大学生喝进口红酒”为例，根据该语音数据的边界特征确定的中文分词结果为“北京”、“大学生”、“喝”、“进口”、“红酒”，将该分词结果在中文分词词典中进行检验，词语“北京”、“大学生”、“喝”、“进口”、“红酒”均可以在中文分词词典中查找到，表明根据用户输入的语音数据的边界特征确定了该语音数据的交互文本的分词结果为正确的。

如果根据用户输入的语音数据的边界特征确定了该语音数据的交互文本的分词结果中包括在中文分词词典中查找不到的词语，进一步确定该词语不是新词之后，表明可能由于用户输入语音数据中的韵律特征不正确，导致了基于用户输入的语音数据的边界特征确定的分词结果中存在错误分词，可以结合中文分词词典进行校正。

参见图3所示，本发明实施例提供了一种中文分词装置，该中文分词装置包括语音识别模块301、确定模块302、分词模块303。其中，语音识别模块301，用于识别用户输入的语音数据，得到用户以语音方式输入的交互文本；确定模块302，用于根据该语音数据的韵律特征，确定该交互文本的韵律边界；分词模块303，用于根据该交互文本的韵律边界，生成该交互文本的分词结果。

可选的，确定模块302具体用于：根据用户输入的语音数据，获取当前音节的发音时长和当前音节与下一音节之间的静音时长；如果该静音时长与当前音节的发音时长之间的比值大于预设比值，则确定当前音节与下一音节之间存在韵律边界。

可选的，确定模块302具体用于：根据用户输入的语音数据，计算当前音节的结束音高和下一音节的开始音高；根据该开始音高与该结束音高的比值，确定当前音节与下一音节之间的中断因子；如果中断因子大于预设中断因子，则确定当前音节与下一音节之间存在韵律边界。

可选的，确定模块302具体用于：计算用户输入的语音数据中的时长特征、基频特征和能量特征，其中，时长特征包括当前音节的发音时长、当前音节与下一音节之间的静音时长、下一音节的发音时长、静音时长与当前音节的发音时长之间的比值中的至少一个，基频特征包括当前音节的音高最大值、当前音节的音高最小值、音高最大值与音高最小值的差值、当前音节的音高均值、当前音节的前后音节的音高均值的比值、当前音节的结束音高、下一音节的开始音高、当前音节与下一音节之间的中断因子中的至少一个，能量特征包括当前音节的能量最大值、当前音节的能量最小值、该能量最大值与该能量最小值的差值、当前音节的能量均值、当前音节的前后音节的能量均值的比值中的至少一个；根据时长特征、基频特征和能量特征，计算当前音节与下一音节之间的边界信息特征值；如果边界信息特征值大于预设阈值，则确定当前音节与下一音节之间存在韵律边界。

可选的，分词模块303具体用于：如果当前音节与下一音节之间存在韵律边界，则确定当前音节与下一音节对应的交互文本中的字符分别属于两个词；如果当前音节与下一音节之间不存在韵律边界，则确定当前音节与所述下一音节对应的交互文本中的字符同属于一个词。

需要说明的是：上述实施例提供的中文分词装置在对用户以语音方式输入的交互文本进行中文分词时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的中文分词装置与中文分词方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于相同的发明构思，本发明实施例还提供一种终端400，参考图4所示，该终端包括存储器410、处理器470及存储在存储器410上并可在处理器470上运行的计算机程序，处理器470用于读取存储器410上存储的该计算机程序，并执行上述的中文分词方法。另外，上述实施例提供的终端与上述的中文分词方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

示例的，参考图4所示，该终端可以包括一个或多个如下组成部分：用于执行计算机程序指令以完成各种流程和方法的处理器、用于存储信息和存储程序指令的随机接入存储器(RAM)和只读存储器(ROM)，用于存储数据和信息的存储器、I/O设备、界面、天线等。

终端400可以包括存储器410、输入单元420、显示单元430、传感器440、音频电路450、WiFi(英文：wireless fidelity，无线保真)模块460、处理器470、电源471、音视频信号接收模块480、OSD模块490等部件。

本领域技术人员可以理解，图4中示出的系统结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图4对终端400的各个构成部件进行具体的介绍：

存储器410可用于存储软件程序以及模块，处理器470通过运行存储在存储器410的软件程序以及模块，从而执行终端400的各种功能应用以及数据处理。

存储器410可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端400的使用所创建的数据(比如音频数据、联系人数据、缓存数据等)等。

此外，存储器410可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。

输入单元420可用于接收输入的数字或字符信息，以及产生与终端400的用户设置以及功能控制有关的键信号输入。具体地，输入单元420可包括触控按键421以及其他输入设备422。

可选的，触控按键421，可以为设置在终端上的固态按键或者设置在终端触摸屏上的虚拟按键，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控按键421上或在触控按键421附近的操作)，并根据预先设定的程式驱动相应的连接装置。

可选的，当触控按键421为设置在终端触摸屏上的虚拟按键时，触控按键421可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器470，并能接收处理器470发来的命令并加以执行。

此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控按键421。除了触控按键421，输入单元420还可以包括其他输入设备422。具体地，其他输入设备422可以包括但不限于外接的物理键盘、遥控器的功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

此外，输入单元420还可以包括语音输入模块，其中，语音输入模块包括用于拾音的麦克风和用于对语音数据进行识别处理的语音识别模块，语音识别模块可以是运行于处理器中的一段程序，也可以是执行语音识别功能的芯片。

显示单元430可用于显示由用户输入的信息或提供给用户的信息以及终端400的各种菜单，此处仅是举例说明，并不代表显示单元430的显示内容局限于此。显示单元430可包括显示面板431和驱动单元432，可选的，可以采用LCD(英文：liquid crystal display，液晶显示器)、OLED(英文：organic light-emitting diode,有机发光二极管)等形式来配置显示面板431。

进一步的，当触控按键421为设置在终端触摸屏上的虚拟按键时，即终端400包括触摸屏，该触摸屏可覆盖显示面板431，当触摸屏检测到在其上或附近的触摸操作后，传送给处理器470以确定触摸事件的类型，随后处理器470根据触摸事件的类型在显示面板431上提供相应的视觉输出。

虽然在图4中，触摸屏与显示面板431是作为两个独立的部件来实现终端400的输入和输出功能，但是在某些实施例中，可以将触摸屏与显示面板431集成而实现终端400的输入和输出功能。

终端400还可包括至少一种传感器440，比如陀螺仪传感器、磁感应传感器、光传感器、运动传感器以及其他传感器等。

具体地，以该终端为智能手机为例，光传感器可以包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板431的亮度，接近传感器可在终端400移动到耳边时，关闭显示面板431和/或背光。

同样以智能手机为例，作为运动传感器的一种，加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别智能设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端400还可配置的气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

示例的，以电视机为例，终端的红外传感器包括红外线接收电路，用于接收与电视机相配套的红外遥控器发射的红外编码控制信号，以指示电视机根据该红外编码控制信号执行相应的控制动作。

音频电路450、扬声器451，传声器452可提供用户与终端400之间的音频接口。音频电路450可将接收到的音频数据转换后的电信号，传输到扬声器451，由扬声器451转换为声音信号输出。

WiFi属于短距离无线传输技术，终端400通过WiFi模块440可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块440，但是可以理解的是，其并不属于终端400的必须构成，完全可以根据需要在不改变公开的本质的范围内而省略。

处理器470是终端400的控制中心，利用各种接口和线路连接整个智能设备的各个部分，通过运行或执行存储在存储器410内的软件程序和/或模块，以及调用存储在存储器410内的数据，执行终端400的各种功能和处理数据，从而对智能设备进行整体监控。

可选的，处理器470可包括一个或多个处理单元；优选的，处理器470可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器470中。以电视机为例，处理器470包括中央处理器CPU和图形处理器GPU，对于电视机的中央处理CPU和图形处理器GPU的结构和功能，在此不做累述。

终端400还包括给各个部件供电的电源471(比如电池或者外接电源引脚)，优选的，电源可以通过电源管理系统与处理器470逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

参考图4所示，终端400还包括音视频信号接收模块480，用于接收外部输入的音视频信号，示例的，以电视机为例，音视频信号接收模块480可以包括TV接口、AV接口、色差接口、VGA接口、DVI接口、HDMI接口、USB接口等等，对于TV接口、AV接口、色差接口、VGA接口、DVI接口、HDMI接口、USB接口等的具体结构和功能，本发明在此不再累述。

参考图4所示，终端400还包括OSD绘制模块490(OSD是On-Screen Display的简称)。其中，以电视机为例，OSD绘制模块490用于根据用户控制指令生成屏幕菜单式调节方式，示例的，用户按下电视机遥控器的Menu键后，OSD绘制模块会在电视机的屏幕弹出用于调节显示器各项信息的矩形菜单，可通过该菜单对显示器各项工作指标包括色彩、模式、几何形状等进行调整，从而达到最佳的使用状态。

尽管未示出，终端400还可以包括蓝牙模块等，在此不再赘述。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器，使得通过该计算机或其他可编程数据处理设备的处理器执行的指令可实现流程图中的一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图的一个流程或多个流程和/或方框图的一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种中文分词方法，其特征在于，所述方法包括：

2.根据权利要求1所述的中文分词方法，其特征在于，所述根据所述语音数据的韵律特征，确定所述交互文本的韵律边界，包括：

3.根据权利要求1所述的中文分词方法，其特征在于，所述根据所述语音数据的韵律特征，确定所述交互文本的韵律边界，包括：

4.根据权利要求1所述的中文分词方法，其特征在于，所述根据所述语音数据的韵律特征，确定所述交互文本的韵律边界，包括：

5.根据权利要求1~4任一项所述的中文分词方法，其特征在于，所述根据所述交互文本的韵律边界，生成所述交互文本的分词结果，包括：

6.一种中文分词装置，其特征在于，所述中文分词装置包括：

7.根据权利要求6所述的中文分词装置，其特征在于，所述确定模块具体用于：

8.根据权利要求6所述的中文分词装置，其特征在于，所述确定模块具体用于：

9.一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现以下步骤：