CN107680585B - 一种中文分词方法、中文分词装置和终端 - Google Patents
一种中文分词方法、中文分词装置和终端 Download PDFInfo
- Publication number
- CN107680585B CN107680585B CN201710729752.5A CN201710729752A CN107680585B CN 107680585 B CN107680585 B CN 107680585B CN 201710729752 A CN201710729752 A CN 201710729752A CN 107680585 B CN107680585 B CN 107680585B
- Authority
- CN
- China
- Prior art keywords
- syllable
- current
- word segmentation
- determining
- segmentation result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 352
- 238000000034 method Methods 0.000 title claims abstract description 126
- 230000002452 interceptive effect Effects 0.000 claims abstract description 153
- 238000012545 processing Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 13
- 238000003058 natural language processing Methods 0.000 abstract description 7
- 239000013598 vector Substances 0.000 description 80
- 235000020095 red wine Nutrition 0.000 description 57
- 230000008569 process Effects 0.000 description 24
- 230000006870 function Effects 0.000 description 22
- 230000033764 rhythmic process Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 238000012549 training Methods 0.000 description 11
- 230000035622 drinking Effects 0.000 description 10
- 230000003993 interaction Effects 0.000 description 10
- 230000008676 import Effects 0.000 description 9
- 239000004576 sand Substances 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 235000014101 wine Nutrition 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 240000005373 Panax quinquefolius Species 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种中文分词方法、中文分词装置和终端,涉及自然语言处理技术领域,如果基于字符串匹配的分词结果和基于统计的分词结果不一致时,则根据用户输入的语音数据中的韵律特征对该交互文本进行分词,如果基于语音数据的韵律特征的分词结果与基于字符串匹配的分词结果或者基于统计的分词结果一致,则将基于语音数据的韵律特征的分词结果确定为该交互文本的最终分词结果,从而实现了根据用户输入的语音数据中的韵律特征获取的自然语言处理中的中文分词结果,解决基于字符串匹配的分词结果和基于统计的分词结果不一致时,如何输出中文分词结果的问题,实现了韵律特征在中文分词中的应用,提高了中文分词结果的准确度和中文分词效率。
Description
技术领域
本发明涉及自然语言处理技术,尤其涉及一种中文分词方法、中文分词装置和终端。
背景技术
在语音交互产品普及的时代,语音识别和自然语言处理各自扮演着重要的角色。语音识别是将语音信号解码成文字信息,自然语言处理则根据文字信息进行语义解析,获取用户的请求意图,从而满足用户的功能需求。中文分词作为自然语言理解中的重要一步,其准确性直接影响人机交互产品的性能。
所谓分词,就是将句子切分成一个一个单独的词;是将连续的句子按照一定的规范重新组合成词序列的过程。以中文分词技术为例,分词技术的目标就是将一句话切分为一个一个单独的中文词语。
现有的分词方法主要包括以下两种:基于字符串匹配的分词方法和基于统计的分词方法。
其中,基于字符串匹配的分词方法又称为机械分词方法,是按照一定的策略将待分词的汉字串与机器词典中的词条进行匹配,若在词典中找到某个词,则匹配成功(识别出一个词)。按照扫描方向的不同,基于字符串匹配的方法可以分为正向匹配的方法和逆向匹配的方法;按照不同长度优先匹配的标准,又可以分为最大(最长)匹配和最小(最短)匹配。但是采用基于字符串匹配的分词方法进行分词,其分词过程较为粗糙,只能识别词典中已经收录的词条,由于词条名称众多,无法完全收录,导致得到的分词结果不够准确,降低了分词准确度。
基于统计的分词方法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的稳定组合,相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。通过对大量语料中相邻共现的各个字的组合的频度进行统计,可以得到两个汉字的相邻共现概率,两个汉字的相邻共现概率代表了汉字之间结合关系的紧密程度。当两个汉字的相邻共现概率大于某一个阈值时,可以确认此字组构成了一个词。虽然基于统计的分词方法只需对语料中的字组频度进行统计,不需要切分词典,但是,基于统计的分词方法经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大,计算复杂性高,导致分词效率降低,再加上受制于有限的训练语料库,分词辨识精度也较低。
发明内容
本发明实施例提供一种中文分词方法、中文分词装置和终端,旨在解决基于字符串匹配的分词结果和基于统计的分词结果不一致时,如何输出中文分词结果的问题,提高分词结果的准确度和中文分词效率,进而提高语音交互产品的用户体验性。
本发明提供的具体技术方案如下:
第一方面,本发明提供一种中文分词方法,所述方法包括:
识别用户输入的语音数据,得到用户以语音方式输入的交互文本;
采用基于字符串匹配的分词方法,获取所述交互文本的第一分词结果;
采用基于统计的分词方法,获取所述交互文本的第二分词结果;
如果所述第一分词结果和所述第二分词结果不一致,则根据所述语音数据的韵律特征,确定所述交互文本的第三分词结果;
如果所述第三分词结果与所述第一分词结果或者所述第二分词结果一致,则确定所述第三分词结果为所述交互文本的最终分词结果。
可选的,所述根据所述语音数据的韵律特征,确定所述交互文本的第三分词结果,包括:
根据所述语音数据的韵律特征,确定所述交互文本的韵律边界;
如果当前字符与下一字符之间存在韵律边界,则确定所述当前字符与所述下一字符分别属于两个词;
如果所述当前字符与所述下一字符之间不存在韵律边界,则确定所述当前字符与所述下一字符同属于一个词。
可选的,所述根据所述语音数据的韵律特征,确定所述交互文本的韵律边界,包括:
根据所述语音数据,获取当前音节的发音时长和所述当前音节与下一音节之间的静音时长;
如果所述静音时长与所述当前音节的发音时长之间的比值大于预设比值,则确定所述当前音节对应的所述当前字符与所述下一音节对应的所述下一字符之间存在韵律边界。
可选的,所述根据所述语音数据的韵律特征,确定所述交互文本的韵律边界,包括:
根据所述语音数据,计算当前音节的结束音高和下一音节的开始音高;
根据所述开始音高与所述结束音高的比值,确定所述当前音节与所述下一音节之间的中断因子;
如果所述中断因子大于预设中断因子,则确定所述当前音节对应的所述当前字符与所述下一音节对应的所述下一字符之间存在韵律边界。
可选的,所述根据所述语音数据的韵律特征,确定所述交互文本的韵律边界,包括:
计算所述语音数据中的时长特征、基频特征和能量特征,其中,所述时长特征包括当前音节的发音时长、所述当前音节与下一音节之间的静音时长、所述下一音节的发音时长、所述静音时长与所述当前音节的发音时长之间的比值中的至少一个,所述基频特征包括所述当前音节的音高最大值、所述当前音节的音高最小值、所述音高最大值与所述音高最小值的差值、所述当前音节的音高均值、所述当前音节的前后音节的音高均值的比值、所述当前音节的结束音高、所述下一音节的开始音高、所述当前音节与所述下一音节之间的中断因子中的至少一个,所述能量特征包括所述当前音节的能量最大值、所述当前音节的能量最小值、所述能量最大值与所述能量最小值的差值、所述当前音节的能量均值、所述当前音节的前后音节的能量均值的比值中的至少一个;
根据所述时长特征、所述基频特征和所述能量特征,计算所述当前音节与所述下一音节之间的边界信息特征值;
如果所述边界信息特征值大于预设阈值,则确定所述当前音节对应的所述当前字符与所述下一音节对应的所述下一字符之间存在韵律边界。
第二方面,本发明还提供一种中文分词装置,所述中文分词装置包括:
语音识别模块,用于识别用户输入的语音数据,得到用户以语音方式输入的交互文本;
第一分词模块,用于采用基于字符串匹配的分词方法,获取所述交互文本的第一分词结果;
第二分词模块,用于采用基于统计的分词方法,获取所述交互文本的第二分词结果;
第三分词模块,用于如果所述第一分词结果和所述第二分词结果不一致,则根据所述语音数据的韵律特征,确定所述交互文本的第三分词结果;
确定模块,用于如果所述第三分词结果与所述第一分词结果或者所述第二分词结果一致,则确定所述第三分词结果为所述交互文本的最终分词结果。
可选的,所述第三分词模块具体包括:
韵律边界确定子模块,用于根据所述语音数据的韵律特征,确定所述交互文本的韵律边界;
第一分词处理子模块,用于如果当前字符与下一字符之间存在韵律边界,则确定所述当前字符与所述下一字符分别属于两个词;
第二分词处理子模块,用于如果所述当前字符与所述下一字符之间不存在韵律边界,则确定所述当前字符与所述下一字符同属于一个词。
可选的,所述韵律边界确定子模块具体用于:
根据所述语音数据,获取当前音节的发音时长和所述当前音节与下一音节之间的静音时长;
如果所述静音时长与所述当前音节的发音时长之间的比值大于预设比值,则确定所述当前音节对应的所述当前字符与所述下一音节对应的所述下一字符之间存在韵律边界。
可选的,所述韵律边界确定子模块具体用于:
根据所述语音数据,计算当前音节的结束音高和下一音节的开始音高;
根据所述开始音高与所述结束音高的比值,确定所述当前音节与所述下一音节之间的中断因子;
如果所述中断因子大于预设中断因子,则确定所述当前音节对应的所述当前字符与所述下一音节对应的所述下一字符之间存在韵律边界。
可选的,所述韵律边界确定子模块具体用于:
计算所述语音数据中的时长特征、基频特征和能量特征,其中,所述时长特征包括当前音节的发音时长、所述当前音节与下一音节之间的静音时长、所述下一音节的发音时长、所述静音时长与所述当前音节的发音时长之间的比值中的至少一个,所述基频特征包括所述当前音节的音高最大值、所述当前音节的音高最小值、所述音高最大值与所述音高最小值的差值、所述当前音节的音高均值、所述当前音节的前后音节的音高均值的比值、所述当前音节的结束音高、所述下一音节的开始音高、所述当前音节与所述下一音节之间的中断因子中的至少一个,所述能量特征包括所述当前音节的能量最大值、所述当前音节的能量最小值、所述能量最大值与所述能量最小值的差值、所述当前音节的能量均值、所述当前音节的前后音节的能量均值的比值中的至少一个;
根据所述时长特征、所述基频特征和所述能量特征,计算所述当前音节与所述下一音节之间的边界信息特征值;
如果所述边界信息特征值大于预设阈值,则确定所述当前音节对应的所述当前字符与所述下一音节对应的所述下一字符之间存在韵律边界。
第三方面,本发明提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
识别用户输入的语音数据,得到用户以语音方式输入的交互文本;
采用基于字符串匹配的分词方法,获取所述交互文本的第一分词结果;
采用基于统计的分词方法,获取所述交互文本的第二分词结果;
如果所述第一分词结果和所述第二分词结果不一致,则根据所述语音数据的韵律特征,确定所述交互文本的第三分词结果;
如果所述第三分词结果与所述第一分词结果或者所述第二分词结果一致,则确定所述第三分词结果为所述交互文本的最终分词结果。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
识别用户输入的语音数据,得到用户以语音方式输入的交互文本;
采用基于字符串匹配的分词方法,获取所述交互文本的第一分词结果;
采用基于统计的分词方法,获取所述交互文本的第二分词结果;
如果所述第一分词结果和所述第二分词结果不一致,则根据所述语音数据的韵律特征,确定所述交互文本的第三分词结果;
如果所述第三分词结果与所述第一分词结果或者所述第二分词结果一致,则确定所述第三分词结果为所述交互文本的最终分词结果。
本发明的有益技术效果如下:
本发明实施例提供的中文分词方法,针对用户以语音方式输入的交互文本,如果基于字符串匹配的分词结果和基于统计的分词结果不一致时,根据用户输入的语音数据中的韵律特征对该交互文本进行分词,如果基于语音数据的韵律特征的分词结果与基于字符串匹配的分词结果或者基于统计的分词结果一致,则将基于语音数据的韵律特征的分词结果确定为该交互文本的分词结果,从而实现了根据用户输入的语音数据中的韵律特征获取的自然语言处理中的中文分词结果,解决基于字符串匹配的分词结果和基于统计的分词结果不一致时,如何输出中文分词结果的问题,实现了韵律特征在中文分词中的应用,从普通话发音规则的角度对用户输入的交互文本进行分词,提高了中文分词结果的准确度和中文分词效率,进而提高了语音交互产品的用户体验性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种中文分词方法的流程示意图;
图2为本发明实施例的交互文本“北京大学生喝进口红酒”的有向无环图;
图3为本发明实施例的语音数据“北京大学生喝进口红酒”的韵律特征示意图;
图4为本发明实施例的一种中文分词装置的结构框图;
图5为本发明实施例的第三分词模块404的结构框图;
图6为本发明实施例的一种终端的结构框图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在对本发明实施例进行详细地解释说明之前,先对本发明实施例的应用环境予以介绍。本发明实施例提供的中文分词方法应用于终端,示例的,该终端可以是具有Android操作系统或IOS操作系统的电视机、智能手机、平板电脑等,该终端还可以是具有Window操作系统或Ios操作系统的计算机、PDA (Personal Digital Assistant,个人数字助理)等,本发明实施例对此不做具体限定。
图1示出了本发明实施例提供的一种中文分词方法的流程示意图,该方法应用于终端。参考图1所示,该方法的流程包括:
步骤101:当终端被触发进入语音交互模式后,接收用户输入的语音数据。
具体的,用户可以通过触发相应的固态按键或者语音按键来触发终端进入语音交互模式,同时用户也可以通过预设的激活词触发终端进入语音交互模式。
示例的,以电视机为例,用户可以通过遥控器触发电视机进入语音交互模式,即用户可以按下与电视机相配套的遥控器上设置的语音交互按钮,进而遥控器向电视机发送该按键的键值对应的红外编码值。当电视机接收到该红外编码值时,通过解析该红外编码值得到该按键事件对应的控制指令。进而电视机执行该控制指令,进入语音交互模式,此时,电视机的语音输入模块实时接收用户通过麦克风录入的语音数据。
进一步的,当终端被触发进入语音交互模式后,其语音输入模块实时监测用户输入的语音数据。具体的,语音输入模块具有拾音功能,可以通过麦克风实现。以智能手机为例,通过智能手机上设置的麦克风实现拾音功能;以电视机为例,通过与电视机相配套的遥控器上设置的麦克风实现拾音功能,当然,此处仅是举例说明,并不代表本发明实施例局限于此。
步骤102:识别用户输入的语音数据,得到用户以语音方式输入的交互文本。
具体的,当终端进入语音交互模式后,可以通过语音输入模块中的麦克风接收用户输入的语音数据,并将用户输入的语音数据发送给语音识别模块。语音识别模块对用户输入的语音数据进行识别处理,得到用户以语音方式输入的交互文本。
示例的,当用户输入“北京大学生喝进口红酒”“电影快进三分钟”、“播放刘德华的天下无贼”、“帮我搜索春风十里不如有你”等语音数据时,终端可以通过麦克风接收到用户输入的上述语音数据,进而根据上述语音数据识别得到用户以语音方式输入的交互文本“北京大学生喝进口红酒”“电影快进三分钟”、“播放刘德华的天下无贼”、“帮我搜索春风十里不如有你”。
当然,用户在实际应用中可以输入任意的语音数据,终端可以通过麦克风接收用户输入的任意语音数据,并根据该语音数据识别得到用户以语音方式输入的任意指令语句。
需要说明的是,对用户输入的语音数据识别得到用户以语音方式输入的交互文本的操作可以参考已有相关技术,本发明实施例对此不再进行一一赘述。
示例的,可以通过下述公式依次实现对用户输入的语音数据识别得到其对应的交互文本的操作。当然,此处仅是举例说明,并不代表本发明局限于此。
W1=argmaxP(W|X) (1)
其中,在上述公式(1)中,W表示数据库中存储的任一文字序列,该文字序列包括词或字,该数据库可以是用于做语音识别的语料库;X表示用户输入的语音数据,W1表示从存储文字序列中获得的可与用户输入的语音数据匹配的文字序列,P(W|X)表示该用户输入的语音数据可以变成文字的概率。
其中,在上述公式(2)中,W2表示该用户输入的语音数据与该文字序列之间的匹配程度,P(X|W)表示该文字序列可以发音的概率,P(W)表示该文字序列为词或字的概率,P(X)表示用户输入的语音数据为音频信息的概率。
需要说明的是,在上述的识别过程中,可以通过语言模型确定P(W),通过声学模型确定P(X|W),从而完成对该用户输入语音数据的语音识别,得到用户输入的语音数据对应的交互文本。
下述将分别对语言模型和声学模型进行简单介绍。
语言模型
语言模型通常利用链式法则,把文字序列为词或字的概率拆解成其中每个词或字的概率之积,也即是,将W拆解成w1、w2、w3、....wn-1、wn,并通过下述公式(3)确定P(W)。
P(W)=P(w1)P(w2|w1)P(w3|w1,w2)...P(wn|w1,w2,...,wn-1) (3)
其中,在上述公式(3)中,P(W)中的每一项都是在表示已知之前所有文字序列都为词或字的条件下当前文字序列为词或字的概率。
由于在通过上述公式(3)确定P(W)时,如果条件太长,则确定P(W)的效率将会较低,从而影响后续的语音识别。因此,为了提高确定P(W)的效率,通常会通过语言模型中的n-gram语言模型确定P(W)。在通过n-gram语言模型确定P(W)时,第n个词的概率只依赖于位于该词前面的第n-1个词,此时可以通过下述公式(4)确定P(W)。
P(W)=P(w1)P(w2|w1)P(w3|w2)...P(wn|wn-1) (4)
声学模型
由于在确定每个词时还需要确定每个词的发音,而确定每个词的发音则需要通过词典实现。其中,词典是与声学模型和语言模块并列的模型,且该词典可以把单个词转换成音素串。声学模型可以通过词典确定用户输入的语音数据中的文字该依次发哪些音,并通过诸如维特比(Viterbi)算法的动态规则算法找到各个音素的分界点,从而确定每个音素的起止时间,进而确定用户输入的语音数据与音素串的匹配程度,也即是,确定P(X|W)。
通常情况下,可以通过诸如高斯混合模型的分类器估计出每个音素的特征向量的分布,并在语音识别阶段,确定用户输入的语音数据中每一帧的特征向量xt由相应音素si产生的概率P(xt|si),把每一帧的概率相乘,就得到P(X|W)。
其中,分类器可以事先训练得到,具体操作为:通过频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)从训练数据中提取大量的特征向量,以及每个特征向量对应的音素,从而训练从特征到音素的分类器。
需要说明的是,在实际应用中,不仅可以通过上述方式确定P(X|W),还可以包括其他方式,比如,通过神经网络直接给出P(si|xt),用贝叶斯公式可以转换成P(xt|si),再相乘得到P(X|W),当然,此处仅是举例说明,并不代表本发明实施例局限于此。
步骤103:采用基于字符串匹配的分词方法,获取交互文本的第一分词结果。
采用基于字符串匹配的分词方法,对用户以语音方式输入的交互文本进行中文分词,获取该交互文本的第一分词结果。其中,基于字符串匹配的分词方法属于已有技术,本发明实施例在此不做具体限定,同样本发明实施例在此也不再累述。示例的,本发明实施例可以采用基于字符串匹配的分词方法中的逆向最大匹配的分词方法,当然,此处仅是距离说明,本发明实施例还可以采用基于字符串匹配的分词方法中的正向最大匹配的分词方法、逆向最小匹配的分词方法、逆向最大匹配的分词方法。
示例的,本发明实施例以用户输入的交互文本为“北京大学生喝进口红酒”为例,采用逆向最大匹配的分词方法对基于字符串匹配的分词方法,获取用户输入的交互文本的第一分词结果的过程进行说明。
示例的,从用户输入交互文本的句尾开始,每次选取m(示例的,m=5) 个字符,然后查询分词词典该m个字符是否成词;若不成词,则取m-1个字符继续判断是否成词;直至选取的字符个数为1个字符时改为从该交互文本的倒数第二个字符开始,继续循环执行上述过程,当变为从该交互文本的句首第一个字符时结束。示例的,采用逆向最大匹配的分词方法获取的交互文本“北京大学生喝进口红酒”的第一分词结果为:“北京”、“大学生”、“喝”、“进口”、“红酒”。
步骤104:采用基于统计的分词方法,获取交互文本的第二分词结果。
采用基于统计的分词方法,对用户以语音方式输入的交互文本进行中文分词,获取该交互文本的第二分词结果。其中,基于统计的分词方法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的稳定组合,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。通过对大量语料中相邻共现的各个字的组合的频度进行统计,可以得到两个汉字的相邻共现概率,两个汉字的相邻共现概率代表了汉字之间结合关系的紧密程度。当两个汉字的相邻共现概率大于某一个阈值时,可以确认此字组构成了一个词。
示例的,本发明实施例以用户输入的交互文本为“北京大学生喝进口红酒”为例,采用基于统计的分词方法,获取用户输入的交互文本的第二分词结果的过程进行说明。
示例的,假设从交互文本的句首开始,交互文本“北京大学生喝进口红酒”中的字符串可能分成的词语的组合为“北京”、“大学生”、“北京大学”、“北京大学生”、“喝”、“进口”、“红酒”、“进口红酒”等,由于在所有的语料中,“北京大学”出现的频率大于“北京”、“北京大学生”、“大学生”,所以基于统计的分词方法会优先将“北京大学”作为一个分词结果,之后,由于“生”和“喝”以及“喝”和“进”无法组词,则将“生”作为一个分词结果、“喝”作为一个分词结果,“进口”和“红酒”搭配出现的概率大于“进口红酒”出现的概率,则将“进口”作为一个分词结果、“红酒”作为一个分词结果;最终,基于统计的分词方法,获取的交互文本“北京大学生喝进口红酒”的第二分词结果为:“北京大学”、“生”、“喝”、“进口”、“红酒”。
当然也可以采用基于统计的分词方法中的最短路径分词方法,获取获取该交互文本的第二分词结果。其中,最短路径分词方法首先将交互文本中每个字符单独分开,生成N+1个节点,两个节点之间为交互文本的每个字符,构建有向无环图。根据核心词典或者样本语料,采用统计的方法获取该交互文本涉及的所有词语,在图中添加除单字以外的其它分词路径,获取q条最短路径,并按照跳数进行排序。若存在一条路径的跳数小于其他路径,则为最短分词路径。否则需要计算每个路径上所有词的权重和,取权重和最大的路径为最短分词路径,每个词的权重通过n元语言模型计算获取。获取从起点到终点的路径权重最小的路径作为最终的分词结果。
示例的,本发明实施例以用户输入的交互文本为“北京大学生喝进口红酒”为例,采用最短路径分词方法对采用基于统计的分词方法,获取用户输入的交互文本的第二分词结果的过程进行说明。
参考图2所示的交互文本“北京大学生喝进口红酒”的有向无环图,该有向无环图包括0~10共计11个结点,若q取值为2,则交互文本“北京大学生喝进口红酒”中存在两条分词路径,分别为0→2→5→6→8→10”和“0→4→5 →6→8→10”,且两条分词路径跳数均为5次,需要比较每条路径上的词权重之和来确定最短路径。第一条路径权重和为41.43,第二条路径的权重和为 47.83,第二条路径的权重大于第一条路径权重,则采用最短路径分词方法获得的交互文本“北京大学生喝进口红酒”的第二分词结果为:“北京大学”、“生”、“喝”、“进口”、“红酒”。
步骤105:判断第一分词结果与第二分词结果是否一致。
对于判断第一分词结果与第二分词结果是否一致的具体方法,本发明实施例不做限定,示例的,可以采用正向或者逆向比对的方法,判断第一分词结果与第二分词结果是否一致。
如果第一分词结果与第二分词结果一致,则执行步骤106,如果第一分词结果与第二分词结果不一致,则执行步骤107。
示例的,采用逆向最大匹配的分词方法获取的交互文本“北京大学生喝进口红酒”的第一分词结果为:“北京”、“大学生”、“喝”、“进口”、“红酒”;采用基于统计的分词方法,获取的交互文本“北京大学生喝进口红酒”的第二分词结果为:“北京大学”、“生”、“喝”、“进口”、“红酒”,通过比对发现,交互文本“北京大学生喝进口红酒”的第一分词结果与第二分词结果不一致,则执行步骤107。
步骤106:如果第一分词结果和第二分词结果一致,则将第一分词结果或者第二分词结果作为交互文本的最终分词结果。
如果采用逆向最大匹配的分词方法获取的交互文本的第一分词结果和采用基于统计的分词方法获取的交互文本的第二分词结果一致,则进一步证明了无论是采用逆向最大匹配的分词方法获取的该交互文本的第一分词结果还是采用基于统计的分词方法获取的该交互文本的第二分词结果均是正确的,则直接将第一分词结果或者第二分词结果作为该交互文本的最终分词结果输出即可。
步骤107:如果第一分词结果和第二分词结果不一致,则根据该语音数据的韵律特征,确定该交互文本的第三分词结果。
具体的,可以根据用户输入的语音数据的韵律特征,确定用户以语音方式输入的交互文本的韵律边界,进而如果该交互文本中的当前字符与下一字符之间存在韵律边界,则将当前字符与下一字符作为两个词处理,即确定当前字符与下一字符分别属于两个词;如果当前字符与下一字符之间不存在韵律边界,则将当前字符与下一字符作为一个词处理,即确定当前字符与下一字符同时属于一个词。
示例的,以用户收入的语音数据为“北京大学生喝进口红酒”为例,表1 所示为根据用户输入的语音数据的韵律特征,确定的交互文本“北京大学生喝进口红酒”的韵律边界。
表1“北京大学生喝进口红酒”的韵律边界
参考表1所示的韵律边界特征,按照从前往后的顺序,由于交互文本“北京大学生喝进口红酒”的字符串“北”和“京”对应的音节之间不存在韵律边界,则字符串“北”和“京”作为一个词处理,即字符串“北”和“京”在分词过程中不应分开,也即确定字符串“北”和“京”同时属于一个词“北京”;字符串“京”和“大”对应的音节之间存在韵律边界,则字符串“北”和“京”作为2个词处理,即字符串“北”和“京”在分词过程中应分开,则确定“北京”是一个分词结果。
由于字符串“大”和“学”对应的音节之间不存在韵律边界,则字符串“大”和“学”作为一个词处理,即字符串“大”和“学”在分词过程中不应分开;由于字符串“学”和“生”对应的音节之间不存在韵律边界,则字符串“学”和“生”作为一个词处理,即字符串“学”和“生”在分词过程中不应分开,也即确定字符串“学”和“生”同时属于一个词;由于字符串“生”和“喝”对应的音节之间存在韵律边界,则字符串“生”和“喝”作为2个词处理,即字符串“生”和“喝”在分词过程中应分开,则“大学生”作为第二个分词结果。
由于字符串“喝”和“进”对应的音节之间存在韵律边界,则字符串“喝”和“进”作为2个词处理,即字符串“喝”和“进”在分词过程中应分开,则“喝”作为第三个分词结果。
由于字符串“进”和“口”对应的音节之间不存在韵律边界,则字符串“进”和“口”作为一个词处理,即字符串“进”和“口”在分词过程中不应分开;由于字符串“口”和“红”对应的音节之间存在韵律边界,则字符串“口”和“红”作为2个词处理,即字符串“口”和“红”在分词过程中应分开,则“进口”作为第四个分词结果。
由于字符串“红”和“酒”对应的音节之间不存在韵律边界,则字符串“红”和“酒”作为一个词处理,即字符串“红”和“酒”在分词过程中不应分开;而且字符串“红”之后没有其他字符串,则“红酒”作为第五个分词结果。
综上,用户收入的语音数据为“北京大学生喝进口红酒”,根据该语音数据的韵律特征确定的第三分词结果为“北京”、“大学生”、“喝”、“进口”、“红酒”。
下面对根据用户输入的语音数据的韵律特征,确定该交互文本的韵律边界的过程进行详细说明。
首先,采用语音活动检测技术(VoiceActivity Detection,VAD)获取用户输入的语音数据中的静音信息,其中,该静音信息是句子与句子之间的静音信息。根据用户输入的语音数据中句子与句子之间的静音信息,将用户输入的语音数据拆分为一个或者对个句子对应的语音数据。如果用户输入的语音数据对应的就是一个句子,则不需对用户输入的语音数据进行拆分。
具体地,常见的VAD检测技术为双门限端点检测法,通过分析语音信号的短时能量和短时过零率分别确定低门限和高门限。连续语音信号幅值低于低门限的语音片段称为静音段,连续语音信号幅值高于高门限的语音片段为有效语音数据,静音段两侧的语音为拆分之后的一个句子对应的语音数据。然后,将拆分得到的每个句子的语音信号和交互文本进行时间对齐,并对二者建立映射关系,即建立用户输入的语音数据中的音节与交互文本的字符之间的对应关系。
在汉语中,音节是听觉能感受的最小语音单位,一个汉字的读音就是一个音节,每个基本音节包由声母、韵母和音调三部分组成。其中,语音数据的韵律特征包括语音信号的时长、基频和能量等。具体的,语音数据的韵律特征包括语音信号的时长特征、语音信号的音高特征和语音信号的能量特征等。
在汉语中,语音数据的韵律边界表示相邻音节的疏远程度,韵律边界将一段语音信号划分成大小不同的韵律单元,如韵律词和韵律短语。韵律词是紧密结合的音节构成的最小韵律单元,多个相邻的韵律词构成韵律短语。韵律短语在一个句子中可作为一个单独的语法成分,韵律边界在汉语语言表达的自然度和可理解方面具有重要的作用。在语音数据的边界处,很多地方会出现语音信号的停顿,因此,语音信号的时长特征可以用来判断语音数据的相邻音节之间是否存在韵律边界。音高的变化反应了语音信号的语调、声调、重音等多种韵律信息,在相邻音节的韵律边界处,音高的变化非常明显,因此,语音信号的音高特征也可以用来判断语音数据的相邻音节之间是否存在韵律边界。音强大小反应了语音信号的能量大小,在相邻音节的韵律边界处,语音信号的能量变化也非常明显,因此,语音信号的音强特征也可以用来判断语音数据的相邻音节之间是否存在韵律边界。
根据上述内容可知,根据用户输入的语音数据的韵律特征,确定用户输入的语音数据对应的交互文本的韵律边界的方法有多种,本发明实施例至少提供三种根据用户输入的语音数据的韵律特征,确定用户输入的语音数据对应的交互文本的韵律边界的方法。具体的,本发明实施例提供的根据用户输入的语音数据的韵律特征,确定用户输入的语音数据对应的交互文本的韵律边界的方法如下:
第一种实现方式:根据用户输入的语音数据,获取当前音节的发音时长和所述当前音节与下一音节之间的静音时长;如果静音时长与当前音节的发音时长之间的比值大于预设比值,则确定当前音节与下一音节之间存在韵律边界;如果静音时长与当前音节的发音时长之间的比值不大于预设比值,则确定当前音节与下一音节之间不存在韵律边界。
具体的,可以采用Praat语音分析工具分析用户输入的语音数据的韵律特征,示例的,参考图3所示,为采用Praat语音分析工具分析的用户输入的语音数据“北京大学生喝进口红酒”的韵律特征。其中,图3中的上部黑色波形图是用户输入语音数据“北京大学生喝进口红酒”的声音波形图,反映的是用户输入语音数据的时间停顿变化信息和音量变化信息;下部曲线标注的是用户输入语音数据“北京大学生喝进口红酒”的音高变化信息;下部波形图标注的是用户输入语音数据“北京大学生喝进口红酒”的音强变化信息,也即是用户输入语音数据的声音信号的能量变化信息。
根据图3中的用户输入的语音数据“北京大学生喝进口红酒”的韵律特征,计算交互文本“北京大学生喝进口红酒”的每一个音节的发音时长分别为: 0.2375、0.2737、0.2495、0.2132、0.2816、0.0959、0.1771、0.2287、0.2213、 0.1810,交互文本“北京大学生喝进口红酒”的相邻音节之间的静音时长为 0.0402、0.0322、0.0282、0.0077、0.1651、0.0443、0.0121、0.0812、0.0362、 0.0000;每一个当前音节与下一音节之间的静音时长与当前音节的发音时长之间的比值分别为0.1693、0.1176、0.1130、0.0361、0.5863、0.4619、0.0683、 0.3551、0.1636、0.0000。
示例的,以预设比值为0.3为例,可以发现字符串“生”和“喝”对应的音节之间的比值大于预设比值,字符串“喝”和“进”对应的音节之间的比值大于预设比值,以及字符串“口”和“红”对应的音节之间的比值大于预设比值,则可以确定交互文本“北京大学生喝进口红酒”的字符串“生”和“喝”对应的音节之间存在韵律边界,字符串“喝”和“进”对应的音节之间存在韵律边界,字符串“口”和“红”对应的音节之间存在韵律边界。
需要说明的是,预设比值的具体数值可以由终端默认设置,也可以由用户设置,还可以采用卷积神经网络训练得到预设比值的具体大小,对此,本发明实施例不做具体限定。其中,每一个当前音节与下一音节之间的静音时长与当前音节的发音时长之间的比值越大,表示当前音节与下一音节之间存在韵律边界的可能性就越大。
第二种实现方式:根据用户输入的语音数据,计算当前音节的结束音高和下一音节的开始音高;根据当前音节的结束音高和下一音节的开始音高的比值,确定当前音节与下一音节之间的中断因子;如果当前音节与下一音节之间的中断因子大于预设中断因子,则确定当前音节与下一音节之间存在韵律边界;如果当前音节与下一音节之间的中断因子不大于预设中断因子,则确定当前音节与下一音节之间不存在韵律边界。
具体的,根据图3中的用户输入的语音数据“北京大学生喝进口红酒”的韵律特征,计算交互文本“北京大学生喝进口红酒”的每一个当前音节的结束音高为:246.21、192.30、245.21、200.10、211.30、219.90、191.50、184.49、 207.71、219.80;交互文本“北京大学生喝进口红酒”的每一个当前音节的下一音节的开始音高为239.78、211.00、238.78、209.50、185.62、225.50、256.10、 197.78、198.10、0.00。
其中,当前音节与下一音节之间的中断因子可以根据公式INC=(PPNCbeengdin-1)2计算,式中PCend为当前音节的结束音高,PNbegin为每一个当前音节的下一音节的开始音高。根据交互文本“北京大学生喝进口红酒”的每一个当前音节的结束音高和每一个当前音节的下一音节的开始音高,计算的每一个当前音节与下一音节之间的中断因子为:0.0007、0.0079、0.0006、0.0020、0.0191、0.0119、0.0006、 0.0052、0.0024、0.0000。
示例的,以预设中断因子为0.005为例,可以发现,字符串“京”和“大”对应的音节之间的中断因子大于预设中断因子,字符串“生”和“喝”对应的音节之间的中断因子大于预设中断因子,字符串“喝”和“进”对应的音节之间的中断因子大于预设中断因子,以及字符串“口”和“红”对应的音节之间的中断因子大于预设中断因子,则可以确定交互文本“北京大学生喝进口红酒”的字符串“京”和“大”对应的音节之间存在韵律边界,字符串“生”和“喝”对应的音节之间存在韵律边界,字符串“喝”和“进”对应的音节之间存在韵律边界,字符串“口”和“红”对应的音节之间存在韵律边界。
需要说明的是,预设中断因子的具体数值可以由终端默认设置,也可以由用户设置,还可以采用卷积神经网络训练得到预设中断因子的具体大小,对此,本发明实施例不做具体限定。其中,每一个当前音节与下一音节之间的中断因子越大,表示当前音节与下一音节之间存在中断的概率越大,则当前音节与下一音节之间存在韵律边界的可能性就越大。
第三种实现方式:根据用户输入的语音数据,计算用户输入的语音数据中的时长特征、基频特征和能量特征,其中,时长特征包括当前音节的发音时长、当前音节与下一音节之间的静音时长、下一音节的发音时长、静音时长与当前音节的发音时长之间的比值中的至少一个,基频特征包括当前音节的音高最大值、当前音节的音高最小值、音高最大值与音高最小值的差值、当前音节的音高均值、当前音节的前后音节的音高均值的比值、当前音节的结束音高、下一音节的开始音高、当前音节与下一音节之间的中断因子中的至少一个,能量特征包括当前音节的能量最大值、当前音节的能量最小值、能量最大值与能量最小值的差值、当前音节的能量均值、当前音节的前后音节的能量均值的比值中的至少一个;根据用户输入语音数据的时长特征、基频特征和能量特征,计算当前音节与下一音节之间的边界信息特征值;如果当前音节与下一音节之间的边界信息特征值大于预设阈值,则确定当前音节与下一音节之间存在韵律边界;如果当前音节与下一音节之间的边界信息特征值不大于预设阈值,则确定当前音节与下一音节之间不存在韵律边界。
具体的,参考图3所示的用户输入的语音数据的韵律特征,提取用户输入的语音数据中当前音节的发音时长Tcurr、当前音节与下一音节之间的静音时长 Tsilence、下一音节的发音时长Tnext、静音时长Tsilence与当前音节的发音时长Tcurr之间的比值Rsc,然后组成用户输入的语音数据的韵律特征的时域向量Vt,时域向量 Vt表示为[Tcurr,Tsilence,Tnext,Rsc]。
参考图3所示的用户输入的语音数据的韵律特征,提取用户输入的语音数据中当前音节的音高最大值PCmax、当前音节的音高最小值PCmin、音高最大值PCmax与音高最小值PCmin的差值PCdiff、当前音节的音高均值PCaver、当前音节的前后音节的音高均值的比值RPNCaver、当前音节的结束音高PCend、下一音节的开始音高 PNbegin、当前音节与下一音节之间的中断因子INC。然后组成用户输入的语音数据的韵律特征的音高向量Vp,表示基频特征的音高向量Vp表示为 [PCmax,PCmin,PCdiff,PCaver,RPNCaver,PCend,PNbegin,INC]。
参考图3所示的用户输入的语音数据的韵律特征,提取用户输入的语音数据中当前音节的能量最大值ECmax、当前音节的能量最小值ECmin、能量最大值 ECmax与能量最小值ECmin的差值、当前音节的能量均值ECaver、当前音节的前后音节的能量均值的比值RENCaver。然后组成用户输入的语音数据的韵律特征的能量向量Ve,能量向量Ve表示为[ECmax,ECmin,ECdiff,ECaver,RENCaver]。
进一步的,将时域向量Vt与时长加权向量Wt相乘、将音高向量Vp与基频加权向量Wp相乘、将能量向量Ve与能量加权向量We相乘之后,组成用户输入的语音数据的韵律特征的初始矩阵,然后再将初始矩阵与边界特征加权向量Ws相乘,得到用户输入语音数据的当前音节与下一音节之间的边界信息特征值Mf。该计算过程可以采用公式实现,其中,时长加权向量Wt是4维向量,基频加权向量Wp是8维向量,能量加权向量We是5维向量,边界特征加权向量Ws为三维向量。
针对计算得到的用户输入语音数据中的每一个当前音节与下一音节之间的边界信息特征值,如果当前音节与下一音节之间的边界信息特征值大于预设阈值,则确定当前音节与下一音节之间存在韵律边界;如果当前音节与下一音节之间的边界信息特征值不大于预设阈值,则确定当前音节与下一音节之间不存在韵律边界。
由于时长加权向量Wt、基频加权向量Wp、能量加权向量We、边界特征加权向量Ws和预设阈值Thr均为未知量,可以通过构建深度学习模型来学习时长加权向量Wt、基频加权向量Wp、能量加权向量We、边界特征加权向量Ws和预设阈值Thr的具体取值。示例的,下面对采用深度学习模型来学习时长加权向量Wt、基频加权向量Wp、能量加权向量We、边界特征加权向量Ws和预设阈值 Thr的具体取值的过程进行简单说明。
采用深度学习模型来学习时长加权向量Wt、基频加权向量Wp、能量加权向量We、边界特征加权向量Ws和预设阈值Thr的具体取值的过程包括如下步骤:
步骤一:对获取到的用于训练的大量语音数据进行逐条单音节韵律特征提取,获取时域向量、音高向量和能量向量,并对其韵律边界信息进行手动标注。其中,将获取到的全部语音数据中的4/5,用来训练学习时长加权向量Wt、基频加权向量Wp、能量加权向量We、边界特征加权向量Ws和预设阈值Thr;剩下的1/5语音数据进行测试训练的效果。
步骤二:对时长加权向量Wt、基频加权向量Wp、能量加权向量We、边界特征加权向量Ws和预设阈值Thr等参数进行初始化操作,其中,时长加权向量 Wt初始化为[1/4,1/4,1/4,1/4]T、基频加权向量Wp[1/8,1/8,1/8,1/8,1/8,1/8,1/8,1/8]T、能量加权向量We[1/5,1/5,1/5,1/5,1/5]T、边界特征加权向量Ws初始化为 [1/3,1/3,1/3]T、预设阈值Thr初始化为Thr0=0.5。
步骤三:将已经标记号韵律特征的语音数据的韵律特征向量作为输入,将初始化之后的时长加权向量Wt、基频加权向量Wp、能量加权向量We、边界特征加权向量Ws带入公式计算该语音数据的当前音节与下一音节之间的边界信息特征值Mf,之后利用sigmod函数将Mf映射成0-1之间的数,比较Mf和预设阈值Thr的大小,计算韵律边界结果Nc与实际标注的韵律边界结果Nt进行同或运算(相同为1,不同为0)。若Nc⊙Nt为0,进入步骤四;否则,进入步骤五。
步骤四:若计算韵律边界结果Nc与实际标注的韵律边界结果Nt不同,首先调整预设阈值Thr。设置预设阈值初始步长step为0.5,step=step/2,步长限制条件step>0.01,若step小于0.01,step=step*2。若Nc为1,Nt为0,Thr增大 step;若Nc为0,Nt为1,Thr减小step。
步骤五:根据min{|Mf-Nt|}规则调整时长加权向量Wt、基频加权向量Wp、能量加权向量We、边界特征加权向量Ws的权重值。重复执行步骤三~步骤五,直到min{|Mf-Nt|}趋于稳定,且取值较小,然后输出向量Wt、Wp、We、Ws和预设阈值Thr的训练结果值。
步骤六:将测试集数据的韵律特征向量作为输入,并将向量Wt、Wp、We、 Ws和预设阈值Thr的训练结果值代入中,根据输出的Mf和预设阈值Thr的大小确定计算韵律边界结果Nc,根据计算韵律边界结果Nc与实际标注的韵律边界结果Nt,微调各训练变量,提高韵律边界的识别准确度。
示例的,以用户收入的语音数据为“北京大学生喝进口红酒”为例,参考图3所示的采用Praat语音分析工具分析的用户输入的语音数据“北京大学生喝进口红酒”的韵律特征,其中,语音数据“北京大学生喝进口红酒”中包括 10个音节,计算得到的每一个音节的时域向量Vt、音高向量Vp、能量向量Ve的矩阵的具体数值如上表表1所示。
其中,表1中的韵律边界结果Nc为1表示当前音节与下一音节之间存在韵律边界,因此,从表1中的计算结果可以看出,交互文本“北京大学生喝进口红酒”的字符串“京”和“大”对应的音节之间存在韵律边界,字符串“生”和“喝”对应的音节之间存在韵律边界,字符串“喝”和“进”对应的音节之间存在韵律边界,字符串“口”和“红”对应的音节之间存在韵律边界。
需要说明的是,其中,优选的采用第三种实现方式计算用户输入语音数据中的当前音节与下一音节之间是否存在韵律边界,因为,第三种实现方式采用深度学习的方法,学习得到时长加权向量Wt、基频加权向量Wp、能量加权向量 We、边界特征加权向量Ws和预设阈值Thr的数值大小,并且结合了用户输入语音数据的语音数据的韵律特征中的语音信号的时长特征、语音信号的音高特征和语音信号的能量特征等,将用户输入语音数据的语音数据的韵律特征中时域向量、音高向量和能量向量进行融合,提高了根据用户输入语音数据的韵律特征,确定交互文本的韵律边界的准确性,进而提高了基于用户输入语音数据的韵律边界进行用户输入交互文本分词的准确性。
步骤108:如果第三分词结果与第一分词结果或者第二分词结果一致,则确定第三分词结果为交互文本的最终分词结果。
如果基于字符串匹配的第一分词结果和基于统计的第二分词结果不一致时,则说明针对该交互文本,采用基于字符串匹配的分词方法获得的第一分词结果和采用基于统计的分词方法获得的第二分词结果中,至少存在一个是错误的分词结果。如果此时基于用户输入语音数据的韵律特征获取到的第三分词结果,与采用基于字符串匹配的分词方法获得的第一分词结果和采用基于统计的分词方法获得的第二分词结果中的其中一个一致,则说明此时基于用户输入语音数据的韵律特征获取到的第三分词结果为该交互文本的正确分词结果的概率很大,所以如果第三分词结果与第一分词结果或者第二分词结果一致,则确定第三分词结果为交互文本的最终分词结果。
需要说明的是,如果第三分词结果与第一分词结果和第二分词结果均不一致,则说明第一分词结果、第二分词结果和第三分词结果互不相同,则此时终端无法确定三者中哪一个为正确的分词结果,示例的,终端可以计算第一分词结果、第二分词结果和第三分词结果两两之间的相似度,将与其他两个分词结果相似度最高的分词结果确定为该交互文本的最终分词结果,对此,本发明,本发明实施例不再累述。
示例的,采用逆向最大匹配的分词方法获取的交互文本“北京大学生喝进口红酒”的第一分词结果为:“北京”、“大学生”、“喝”、“进口”、“红酒”;基于统计的分词方法,获取的交互文本“北京大学生喝进口红酒”的第二分词结果为:“北京大学”、“生”、“喝”、“进口”、“红酒”;根据该语音数据的韵律特征,确定交互文本“北京大学生喝进口红酒”的第三分词结果为“北京”、“大学生”、“喝”、“进口”、“红酒”。由于第三分词结果与第一分词结果一致,因此,确定交互文本“北京大学生喝进口红酒”的最终分词结果为“北京”、“大学生”、“喝”、“进口”、“红酒”。
本发明实施例提供的中文分词方法,针对用户以语音方式输入的交互文本,如果基于字符串匹配的分词结果和基于统计的分词结果不一致时,根据用户输入的语音数据中的韵律特征对该交互文本进行分词,如果基于语音数据的韵律特征的分词结果与基于字符串匹配的分词结果或者基于统计的分词结果一致,则将基于语音数据的韵律特征的分词结果确定为该交互文本的分词结果,从而实现了根据用户输入的语音数据中的韵律特征获取的自然语言处理中的中文分词结果,解决基于字符串匹配的分词结果和基于统计的分词结果不一致时,如何输出中文分词结果的问题,实现了韵律特征在中文分词中的应用,从普通话发音规则的角度对用户输入的交互文本进行分词,提高了中文分词结果的准确度和中文分词效率,进而提高了语音交互产品的用户体验性。
参见图4所示,本发明实施例提供了一种中文分词装置,该中文分词装置包括语音识别模块401、第一分词模块402、第二分词模块403、第三分词模块 404、确定模块405。其中,语音识别模块401,用于识别用户输入的语音数据,得到用户以语音方式输入的交互文本;第一分词模块402,用于采用基于字符串匹配的分词方法,获取交互文本的第一分词结果;第二分词模块403,用于采用基于统计的分词方法,获取交互文本的第二分词结果;第三分词模块404,用于如果第一分词结果和第二分词结果不一致,则根据语音数据的韵律特征,确定交互文本的第三分词结果;确定模块405,用于如果第三分词结果与第一分词结果或者第二分词结果一致,则确定第三分词结果为交互文本的最终分词结果。
可选的,参考图5所示,第三分词模块404具体包括:
韵律边界确定子模块4041,用于根据语音数据的韵律特征,确定交互文本的韵律边界;
第一分词处理子模块4042,用于如果当前字符与下一字符之间存在韵律边界,则确定当前字符与下一字符分别属于两个词;
第二分词处理子模块4043,用于如果当前字符与下一字符之间不存在韵律边界,则确定当前字符与下一字符属于一个词。
可选的,韵律边界确定子模块4041具体用于:根据用户输入的语音数据,获取当前音节的发音时长和当前音节与下一音节之间的静音时长;如果静音时长与当前音节的发音时长之间的比值大于预设比值,则确定当前音节对应的当前字符与下一音节对应的下一字符之间存在韵律边界。
可选的,韵律边界确定子模块4041具体用于:根据用户输入的语音数据,计算当前音节的结束音高和下一音节的开始音高;根据开始音高与结束音高的比值,确定当前音节与下一音节之间的中断因子;如果中断因子大于预设中断因子,则确定当前音节对应的当前字符与下一音节对应的下一字符之间存在韵律边界。
可选的,韵律边界确定子模块4041具体用于:计算用户输入的语音数据中的时长特征、基频特征和能量特征,其中,时长特征包括当前音节的发音时长、当前音节与下一音节之间的静音时长、下一音节的发音时长、静音时长与当前音节的发音时长之间的比值中的至少一个,基频特征包括当前音节的音高最大值、当前音节的音高最小值、音高最大值与音高最小值的差值、当前音节的音高均值、当前音节的前后音节的音高均值的比值、当前音节的结束音高、下一音节的开始音高、当前音节与下一音节之间的中断因子中的至少一个,能量特征包括当前音节的能量最大值、当前音节的能量最小值、该能量最大值与该能量最小值的差值、当前音节的能量均值、当前音节的前后音节的能量均值的比值中的至少一个;根据时长特征、基频特征和能量特征,计算当前音节与下一音节之间的边界信息特征值;如果边界信息特征值大于预设阈值,则当前音节对应的当前字符与下一音节对应的下一字符之间存在韵律边界。
需要说明的是:上述实施例提供的中文分词装置在对用户以语音方式输入的交互文本进行中文分词时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的中文分词装置与中文分词方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于相同的发明构思,本发明实施例还提供一种终端600,参考图6所示,该终端包括存储器610、处理器670及存储在存储器610上并可在处理器670 上运行的计算机程序,处理器670用于读取存储器610上存储的该计算机程序,并执行上述的中文分词方法。另外,上述实施例提供的终端与上述的中文分词方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
示例的,参考图6所示,该终端可以包括一个或多个如下组成部分:用于执行计算机程序指令以完成各种流程和方法的处理器、用于存储信息和存储程序指令的随机接入存储器(RAM)和只读存储器(ROM),用于存储数据和信息的存储器、I/O设备、界面、天线等。
终端600可以包括存储器610、输入单元620、显示单元630、传感器640、音频电路650、WiFi(英文:wireless fidelity,无线保真)模块660、处理器670、电源671、音视频信号接收模块680、OSD模块690等部件。
本领域技术人员可以理解,图6中示出的系统结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图6对终端600的各个构成部件进行具体的介绍:
存储器610可用于存储软件程序以及模块,处理器670通过运行存储在存储器610的软件程序以及模块,从而执行终端600的各种功能应用以及数据处理。
存储器610可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端600的使用所创建的数据(比如音频数据、联系人数据、缓存数据等)等。
此外,存储器610可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。
输入单元620可用于接收输入的数字或字符信息,以及产生与终端600的用户设置以及功能控制有关的键信号输入。具体地,输入单元620可包括触控按键621以及其他输入设备622。
可选的,触控按键621,可以为设置在终端上的固态按键或者设置在终端触摸屏上的虚拟按键,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控按键621上或在触控按键621附近的操作),并根据预先设定的程式驱动相应的连接装置。
可选的,当触控按键621为设置在终端触摸屏上的虚拟按键时,触控按键 621可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器670,并能接收处理器670发来的命令并加以执行。
此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控按键621。除了触控按键621,输入单元620还可以包括其他输入设备622。具体地,其他输入设备622可以包括但不限于外接的物理键盘、遥控器的功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
此外,输入单元620还可以包括语音输入模块,其中,语音输入模块包括用于拾音的麦克风和用于对语音数据进行识别处理的语音识别模块,语音识别模块可以是运行于处理器中的一段程序,也可以是执行语音识别功能的芯片。
显示单元630可用于显示由用户输入的信息或提供给用户的信息以及终端 600的各种菜单,此处仅是举例说明,并不代表显示单元630的显示内容局限于此。显示单元630可包括显示面板631和驱动单元632,可选的,可以采用 LCD(英文:liquid crystal display,液晶显示器)、OLED(英文:organic light-emitting diode,有机发光二极管)等形式来配置显示面板631。
进一步的,当触控按键621为设置在终端触摸屏上的虚拟按键时,即终端 600包括触摸屏,该触摸屏可覆盖显示面板631,当触摸屏检测到在其上或附近的触摸操作后,传送给处理器670以确定触摸事件的类型,随后处理器670 根据触摸事件的类型在显示面板631上提供相应的视觉输出。
虽然在图6中,触摸屏与显示面板631是作为两个独立的部件来实现终端 600的输入和输出功能,但是在某些实施例中,可以将触摸屏与显示面板631 集成而实现终端600的输入和输出功能。
终端600还可包括至少一种传感器640,比如陀螺仪传感器、磁感应传感器、光传感器、运动传感器以及其他传感器等。
具体地,以该终端为智能手机为例,光传感器可以包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板631的亮度,接近传感器可在终端600移动到耳边时,关闭显示面板631和/或背光。
同样以智能手机为例,作为运动传感器的一种,加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别智能设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端600还可配置的气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
示例的,以电视机为例,智能终端的红外传感器包括红外线接收电路,用于接收与电视机相配套的红外遥控器发射的红外编码控制信号,以指示电视机根据该红外编码控制信号执行相应的控制动作。
音频电路650、扬声器651,传声器652可提供用户与终端600之间的音频接口。音频电路650可将接收到的音频数据转换后的电信号,传输到扬声器 651,由扬声器651转换为声音信号输出。
WiFi属于短距离无线传输技术,终端600通过WiFi模块660可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块660,但是可以理解的是,其并不属于终端600的必须构成,完全可以根据需要在不改变公开的本质的范围内而省略。
处理器670是终端600的控制中心,利用各种接口和线路连接整个智能设备的各个部分,通过运行或执行存储在存储器610内的软件程序和/或模块,以及调用存储在存储器610内的数据,执行终端600的各种功能和处理数据,从而对智能设备进行整体监控。
可选的,处理器670可包括一个或多个处理单元;优选的,处理器670可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器670中。以电视机为例,处理器670 包括中央处理器CPU和图形处理器GPU,对于电视机的中央处理CPU和图形处理器GPU的结构和功能,在此不做累述。
终端600还包括给各个部件供电的电源671(比如电池或者外接电源引脚),优选的,电源可以通过电源管理系统与处理器670逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
参考图6所示,终端600还包括音视频信号接收模块680,用于接收外部输入的音视频信号,示例的,以电视机为例,音视频信号接收模块680可以包括TV接口、AV接口、色差接口、VGA接口、DVI接口、HDMI接口、USB 接口等等,对于TV接口、AV接口、色差接口、VGA接口、DVI接口、HDMI 接口、USB接口等的具体结构和功能,本发明在此不再累述。
参考图6所示,终端600还包括OSD绘制模块690(OSD是On-Screen Display的简称)。其中,以电视机为例,OSD绘制模块690用于根据用户控制指令生成屏幕菜单式调节方式,示例的,用户按下电视机遥控器的Menu键后, OSD绘制模块会在电视机的屏幕弹出用于调节显示器各项信息的矩形菜单,可通过该菜单对显示器各项工作指标包括色彩、模式、几何形状等进行调整,从而达到最佳的使用状态。
尽管未示出,终端600还可以包括蓝牙模块等,在此不再赘述。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器,使得通过该计算机或其他可编程数据处理设备的处理器执行的指令可实现流程图中的一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图的一个流程或多个流程和/或方框图的一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种中文分词方法,其特征在于,所述方法包括:
识别用户输入的语音数据,得到用户以语音方式输入的交互文本;
采用基于字符串匹配的分词方法,获取所述交互文本的第一分词结果;
采用基于统计的分词方法,获取所述交互文本的第二分词结果;
如果所述第一分词结果和所述第二分词结果不一致,则根据所述语音数据的韵律特征,确定所述交互文本的第三分词结果;
如果所述第三分词结果与所述第一分词结果或者所述第二分词结果一致,则确定所述第三分词结果为所述交互文本的最终分词结果,
所述根据所述语音数据的韵律特征,确定所述交互文本的第三分词结果,包括:
根据所述语音数据的韵律特征,确定所述交互文本的韵律边界;
如果当前字符与下一字符之间存在韵律边界,则确定所述当前字符与所述下一字符分别属于两个词;
如果所述当前字符与所述下一字符之间不存在韵律边界,则确定所述当前字符与所述下一字符同属于一个词,
所述根据所述语音数据的韵律特征,确定所述交互文本的韵律边界包括:
根据所述语音数据得到的当前音节的发音时长和所述当前音节与下一音节之间的静音时长确定所述交互文本的韵律边界或根据根据所述语音数据得到的当前音节的结束音高和下一音节的开始音高确定所述交互文本的韵律边界或所述语音数据中的时长特征、基频特征和能量特征确定所述交互文本的韵律边界。
2.根据权利要求1所述的中文分词方法,其特征在于,所述根据所述语音数据的韵律特征,确定所述交互文本的韵律边界,包括:
根据所述语音数据,获取当前音节的发音时长和所述当前音节与下一音节之间的静音时长;
如果所述静音时长与所述当前音节的发音时长之间的比值大于预设比值,则确定所述当前音节对应的所述当前字符与所述下一音节对应的所述下一字符之间存在韵律边界。
3.根据权利要求1所述的中文分词方法,其特征在于,所述根据所述语音数据的韵律特征,确定所述交互文本的韵律边界,包括:
根据所述语音数据,计算当前音节的结束音高和下一音节的开始音高;
根据所述开始音高与所述结束音高的比值,确定所述当前音节与所述下一音节之间的中断因子;
如果所述中断因子大于预设中断因子,则确定所述当前音节对应的所述当前字符与所述下一音节对应的所述下一字符之间存在韵律边界。
4.根据权利要求1所述的中文分词方法,其特征在于,所述根据所述语音数据的韵律特征,确定所述交互文本的韵律边界,包括:
计算所述语音数据中的时长特征、基频特征和能量特征,其中,所述时长特征包括当前音节的发音时长、所述当前音节与下一音节之间的静音时长、所述下一音节的发音时长、所述静音时长与所述当前音节的发音时长之间的比值中的至少一个,所述基频特征包括所述当前音节的音高最大值、所述当前音节的音高最小值、所述音高最大值与所述音高最小值的差值、所述当前音节的音高均值、所述当前音节的前后音节的音高均值的比值、所述当前音节的结束音高、所述下一音节的开始音高、所述当前音节与所述下一音节之间的中断因子中的至少一个,所述能量特征包括所述当前音节的能量最大值、所述当前音节的能量最小值、所述能量最大值与所述能量最小值的差值、所述当前音节的能量均值、所述当前音节的前后音节的能量均值的比值中的至少一个;
根据所述时长特征、所述基频特征和所述能量特征,计算所述当前音节与所述下一音节之间的边界信息特征值;
如果所述边界信息特征值大于预设阈值,则确定所述当前音节对应的所述当前字符与所述下一音节对应的所述下一字符之间存在韵律边界。
5.一种中文分词装置,其特征在于,所述中文分词装置包括:
语音识别模块,用于识别用户输入的语音数据,得到用户以语音方式输入的交互文本;
第一分词模块,用于采用基于字符串匹配的分词方法,获取所述交互文本的第一分词结果;
第二分词模块,用于采用基于统计的分词方法,获取所述交互文本的第二分词结果;
第三分词模块,用于如果所述第一分词结果和所述第二分词结果不一致,则根据所述语音数据的韵律特征,确定所述交互文本的第三分词结果;
确定模块,用于如果所述第三分词结果与所述第一分词结果或者所述第二分词结果一致,则确定所述第三分词结果为所述交互文本的最终分词结果,
所述第三分词模块具体包括:
韵律边界确定子模块,用于根据所述语音数据的韵律特征,确定所述交互文本的韵律边界,所述根据所述语音数据的韵律特征,确定所述交互文本的韵律边界包括:
根据所述语音数据得到的当前音节的发音时长和所述当前音节与下一音节之间的静音时长确定所述交互文本的韵律边界或根据根据所述语音数据得到的当前音节的结束音高和下一音节的开始音高确定所述交互文本的韵律边界或所述语音数据中的时长特征、基频特征和能量特征确定所述交互文本的韵律边界;
第一分词处理子模块,用于如果当前字符与下一字符之间存在韵律边界,则确定所述当前字符与所述下一字符分别属于两个词;
第二分词处理子模块,用于如果所述当前字符与所述下一字符之间不存在韵律边界,则确定所述当前字符与所述下一字符同属于一个词。
6.根据权利要求5所述的中文分词装置,其特征在于,所述韵律边界确定子模块具体用于:
根据所述语音数据,获取当前音节的发音时长和所述当前音节与下一音节之间的静音时长;
如果所述静音时长与所述当前音节的发音时长之间的比值大于预设比值,则确定所述当前音节对应的所述当前字符与所述下一音节对应的所述下一字符之间存在韵律边界;
或者所述韵律边界确定子模块具体用于:
根据所述语音数据,计算当前音节的结束音高和下一音节的开始音高;
根据所述开始音高与所述结束音高的比值,确定所述当前音节与所述下一音节之间的中断因子;
如果所述中断因子大于预设中断因子,则确定所述当前音节对应的所述当前字符与所述下一音节对应的所述下一字符之间存在韵律边界。
7.根据权利要求5所述的中文分词装置,其特征在于,所述韵律边界确定子模块具体用于:
计算所述语音数据中的时长特征、基频特征和能量特征,其中,所述时长特征包括当前音节的发音时长、所述当前音节与下一音节之间的静音时长、所述下一音节的发音时长、所述静音时长与所述当前音节的发音时长之间的比值中的至少一个,所述基频特征包括所述当前音节的音高最大值、所述当前音节的音高最小值、所述音高最大值与所述音高最小值的差值、所述当前音节的音高均值、所述当前音节的前后音节的音高均值的比值、所述当前音节的结束音高、所述下一音节的开始音高、所述当前音节与所述下一音节之间的中断因子中的至少一个,所述能量特征包括所述当前音节的能量最大值、所述当前音节的能量最小值、所述能量最大值与所述能量最小值的差值、所述当前音节的能量均值、所述当前音节的前后音节的能量均值的比值中的至少一个;
根据所述时长特征、所述基频特征和所述能量特征,计算所述当前音节与所述下一音节之间的边界信息特征值;
如果所述边界信息特征值大于预设阈值,则确定所述当前音节对应的所述当前字符与所述下一音节对应的所述下一字符之间存在韵律边界。
8.一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
识别用户输入的语音数据,得到用户以语音方式输入的交互文本;
采用基于字符串匹配的分词方法,获取所述交互文本的第一分词结果;
采用基于统计的分词方法,获取所述交互文本的第二分词结果;
如果所述第一分词结果和所述第二分词结果不一致,则根据所述语音数据的韵律特征,确定所述交互文本的第三分词结果;
如果所述第三分词结果与所述第一分词结果或者所述第二分词结果一致,则确定所述第三分词结果为所述交互文本的最终分词结果,
所述根据所述语音数据的韵律特征,确定所述交互文本的第三分词结果,包括:
根据所述语音数据的韵律特征,确定所述交互文本的韵律边界;
如果当前字符与下一字符之间存在韵律边界,则确定所述当前字符与所述下一字符分别属于两个词;
如果所述当前字符与所述下一字符之间不存在韵律边界,则确定所述当前字符与所述下一字符同属于一个词,
所述根据所述语音数据的韵律特征,确定所述交互文本的韵律边界包括:
根据所述语音数据得到的当前音节的发音时长和所述当前音节与下一音节之间的静音时长确定所述交互文本的韵律边界或根据所述语音数据得到的当前音节的结束音高和下一音节的开始音高确定所述交互文本的韵律边界或所述语音数据中的时长特征、基频特征和能量特征确定所述交互文本的韵律边界。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710729752.5A CN107680585B (zh) | 2017-08-23 | 2017-08-23 | 一种中文分词方法、中文分词装置和终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710729752.5A CN107680585B (zh) | 2017-08-23 | 2017-08-23 | 一种中文分词方法、中文分词装置和终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107680585A CN107680585A (zh) | 2018-02-09 |
CN107680585B true CN107680585B (zh) | 2020-10-02 |
Family
ID=61134762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710729752.5A Active CN107680585B (zh) | 2017-08-23 | 2017-08-23 | 一种中文分词方法、中文分词装置和终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107680585B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664468A (zh) * | 2018-05-02 | 2018-10-16 | 武汉烽火普天信息技术有限公司 | 一种基于词典和语义消歧的人名识别方法和装置 |
CN108962227B (zh) | 2018-06-08 | 2020-06-30 | 百度在线网络技术(北京)有限公司 | 语音起点和终点检测方法、装置、计算机设备及存储介质 |
CN109344221B (zh) * | 2018-08-01 | 2021-11-23 | 创新先进技术有限公司 | 录音文本生成方法、装置及设备 |
CN109829167B (zh) * | 2019-02-22 | 2023-11-21 | 维沃移动通信有限公司 | 一种分词处理方法和移动终端 |
CN110222335A (zh) * | 2019-05-20 | 2019-09-10 | 平安科技(深圳)有限公司 | 一种文本分词方法及装置 |
CN110853625B (zh) * | 2019-09-18 | 2022-05-17 | 厦门快商通科技股份有限公司 | 语音识别模型分词训练方法、系统、移动终端及存储介质 |
CN112435671B (zh) * | 2020-11-11 | 2021-06-29 | 深圳市小顺智控科技有限公司 | 汉语精准识别的智能化语音控制方法及系统 |
CN113705213A (zh) * | 2021-03-01 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 错别字识别方法、装置、设备及可读存储介质 |
CN113241071B (zh) * | 2021-05-10 | 2024-10-01 | 亿咖通(湖北)技术有限公司 | 一种语音处理方法、电子设备及存储介质 |
CN114970514A (zh) * | 2022-05-30 | 2022-08-30 | 平安科技(深圳)有限公司 | 基于人工智能的中文分词方法、装置、计算机设备及介质 |
CN116665643B (zh) * | 2022-11-30 | 2024-03-26 | 荣耀终端有限公司 | 韵律标注方法、装置和终端设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5513461B2 (ja) * | 2011-09-27 | 2014-06-04 | 日本電信電話株式会社 | 音声認識装置とその方法とプログラム |
CN105975480A (zh) * | 2016-04-20 | 2016-09-28 | 广州精点计算机科技有限公司 | 一种指令识别方法及系统 |
CN106486112A (zh) * | 2016-10-13 | 2017-03-08 | 北京语言大学 | 基于声调核声学特征及深度神经网络的韵律边界检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103257957B (zh) * | 2012-02-15 | 2017-09-08 | 深圳市腾讯计算机系统有限公司 | 一种基于中文分词的文本相似性识别方法及装置 |
CN106970906A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种基于语句分段的语义分析方法 |
CN106782560B (zh) * | 2017-03-06 | 2020-06-16 | 海信集团有限公司 | 确定目标识别文本的方法及装置 |
-
2017
- 2017-08-23 CN CN201710729752.5A patent/CN107680585B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5513461B2 (ja) * | 2011-09-27 | 2014-06-04 | 日本電信電話株式会社 | 音声認識装置とその方法とプログラム |
CN105975480A (zh) * | 2016-04-20 | 2016-09-28 | 广州精点计算机科技有限公司 | 一种指令识别方法及系统 |
CN106486112A (zh) * | 2016-10-13 | 2017-03-08 | 北京语言大学 | 基于声调核声学特征及深度神经网络的韵律边界检测方法 |
Non-Patent Citations (1)
Title |
---|
分词中的歧义处理;谭琼,史忠植;《计算机工程与应用》;20021130;第125-128页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107680585A (zh) | 2018-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107680585B (zh) | 一种中文分词方法、中文分词装置和终端 | |
CN110288077B (zh) | 一种基于人工智能的合成说话表情的方法和相关装置 | |
US10339166B1 (en) | Systems and methods for providing natural responses to commands | |
US11227585B2 (en) | Intent re-ranker | |
US20220246139A1 (en) | Display-based contextual natural language processing | |
CN110265040B (zh) | 声纹模型的训练方法、装置、存储介质及电子设备 | |
JP7312853B2 (ja) | 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム | |
US20200349943A1 (en) | Contact resolution for communications systems | |
CN107077841B (zh) | 用于文本到语音的超结构循环神经网络 | |
US9613621B2 (en) | Speech recognition method and electronic apparatus | |
JP7170920B2 (ja) | トリガードアテンションを用いたエンドツーエンド音声認識のためのシステムおよび方法 | |
CN111833853B (zh) | 语音处理方法及装置、电子设备、计算机可读存储介质 | |
WO2019005772A1 (en) | ELECTRONIC DEVICE WITH TWO-PHASE DETECTION OF A WORD OF AWAKENING | |
CN110808034A (zh) | 语音转换方法、装置、存储介质及电子设备 | |
WO2018196231A1 (zh) | 智能终端显示用户操控指令的方法和智能终端 | |
US11823662B2 (en) | Control method and control apparatus for speech interaction, storage medium and system | |
CN107704447A (zh) | 一种中文分词方法、中文分词装置和终端 | |
TW201517015A (zh) | 聲學模型的建立方法、語音辨識方法及其電子裝置 | |
CN107155121B (zh) | 语音控制文本的显示方法及装置 | |
CN108345612A (zh) | 一种问题处理方法和装置、一种用于问题处理的装置 | |
CN110503956A (zh) | 语音识别方法、装置、介质及电子设备 | |
CN113948060A (zh) | 一种网络训练方法、数据处理方法及相关设备 | |
CN110781327B (zh) | 图像搜索方法、装置、终端设备及存储介质 | |
CN114360510A (zh) | 一种语音识别方法和相关装置 | |
CN102970618A (zh) | 基于音节识别的视频点播方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |