CN108292500A

CN108292500A - 用于使用语法一致性的句尾检测的技术

Info

Publication number: CN108292500A
Application number: CN201680070956.6A
Authority: CN
Inventors: O·沙米尔; O·佩雷格; M·瓦瑟布拉特; J·玛莫; M·阿萨雅各
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2015-12-22
Filing date: 2016-11-22
Publication date: 2018-07-17
Anticipated expiration: 2036-11-22
Also published as: CN108292500B; WO2017112262A1; US20170178623A1; US9837069B2; US10418028B2; DE112016005912T5; US20180075841A1

Abstract

公开了用于在自动语音识别中检测句尾的技术。自动语音识别设备可获取语音数据，并标识该语音数据的音素和字词。该自动语音识别设备可基于所识别的字词执行语法解析，并基于该语法解析来判定句尾。例如，如果该语法解析指示连续的所识别的字词的某个组形成语法上完整且正确的句子，则自动语音识别设备可判定在该字词组的结尾存在句尾。

Description

用于使用语法一致性的句尾检测的技术

相关申请的交叉引用

本申请要求于2015年12月22日提交的标题为“TECHNOLOGIES FOR END-OF-SENTENCE DETECTION USING SYNTACTIC COHERENCE(用于使用语法一致性的句尾检测的技术)”的美国实用型专利申请序列号第14/979,142号的优先权。

背景技术

虽然现代计算设备具有计算能力，但诸如语音检测和识别之类的某些任务仍然具有挑战性。使用音素识别、隐马尔可夫模型、深度学习以及类似技术进行字词识别方面已经取得了重大的进展。此类技术对于识别字词和短语句尤其有效。

对于计算设备仍然具有挑战性的语音识别的一个方面是确定句子之间的边界。一种方法是每当存在停顿或静默时就结束句子，但是此类方法将不识别不是由静默来分隔的句子之间的边界，并且如果存在不是在句子之间的停顿，则将增加边界，这两种情况在自然地说出的句子中是常见的。

附图说明

在所附的附图中，以示例方式而不是以限制方式图示出本文中所述的概念。为了说明的简单和清楚起见，附图中所示出的元件不一定是按比例绘制的。在认为合适的情况下，已在多个附图之间重复了附图标记以指示对应的或类似的元件。

图1是自动语音识别设备的至少一个实施例的简化框图；

图2是可由图1的自动语音识别设备建立的环境的至少一个实施例的框图；以及

图3是用于可由图1的语音识别设备执行的语音识别的方法的至少一个实施例的简化框图。

具体实施方式

尽管本公开的概念易于具有各种修改和替代形式，但是，在附图中已作为示例示出了本公开的特定实施例，并将在本文中详细描述本公开的特定实施例。然而，应当理解，没有将本公开的概念限制于所公开的特定形式的意图，相反，意图旨在涵盖符合本公开和所附权利要求书的所有修改、等效方案和替代方案。

说明书中对“一个实施例”、“实施例”、“说明性实施例”等的引用指示所描述的实施例可包括特定特征、结构或特性，但是，每一个实施例可包括或可不一定包括该特定特征、结构或特性。此外，此类短语不一定是指同一个实施例。此外，当结合实施例描述特定特征、结构或特性时，认为结合无论是否明确描述的其他实施例来实施此类特征、结构或特性在本领域技术人员的知识范围之内。另外，应当领会，被包括在“A、B和C中的至少一者”的形式的列表中的项可意指：(A)；(B)；(C)；(A和B)；(B和C)；(A和C)；或(A、B和C)。类似地，以“A、B或C中的至少一者”的形式列出的项可以意指：(A)；(B)；(C)；(A和B)；(B和C)；(A和C)；或(A、B和C)。

在一些情况下，所公开的各实施例可在硬件、固件、软件或其任何组合中实现。所公开的实施例也可被实现为由一种或多种瞬态或非瞬态机器可读(例如，计算机可读)存储介质承载或被存储在其上的指令，这些指令可由一个或多个处理器读取和执行。机器可读存储介质可以被具体化为用于以可由机器可读取的形式存储或传输信息的任何存储设备、机制或其他物理结构(例如，易失性或非易失性存储器、介质盘或其他介质设备)。

在附图中，某些结构或方法特征可按特定布置和/或排序示出。然而，应当理解，此类特定布置和/或排序可以不是必需的。相反，在一些实施例中，此类特征可以以与在说明性附图中示出的不同的方式和/或顺序来安排。另外，在特定附图中包括结构或方法特征不旨在暗示在所有实施例中都需要此类特征，并且在一些实施例中，可不包括此类特征，或此类特征可与其他特征相结合。

现在参考图1，说明性自动语音识别设备100包括处理器102、存储器104、输入/输出(I/O)子系统106、话筒108、显示器110、以及数据存储112。在一些实施例中，该自动语音识别设备100的说明性组件中的一个或多个可以被合并到另一组件中，或能以其他方式形成另一组件的部分。例如，在一些实施例中，存储器104或其部分可以被合并在处理器102中。

在说明性实施例中，如以下更详细地所描述，在使用中，自动语音识别设备100使用话筒108从该自动语音识别设备100的用户捕捉语音数据。自动语音识别设备100识别所捕捉的语音数据的音素，并基于这些音素来识别字词。然后，自动语音识别设备100对所识别的字词执行语法解析。基于该语法解析，自动语音识别设备100可确定语音数据的句尾。

自动语音识别设备100可被具体化为能够执行本文中所描述的功能的任何类型的计算设备。例如，不作为限制，自动语音识别设备100可被具体化为以下设备，或以其他方式被包括在以下设备中：智能电话、蜂窝电话、嵌入式计算系统、芯片上系统(SoC)、台式计算机、服务器计算机、平板计算机、笔记本计算机、膝上型计算机、可穿戴计算机、手机、消息收发设备、相机设备、多处理器系统、基于处理器的系统、消费电子设备、和/或任何其他计算设备。

处理器102可被具体化为能够执行本文中所描述的功能的任何类型的处理器。例如，处理器102可被具体化为(多个)单核或多核处理器、单插槽或多插槽处理器、数字信号处理器、图形处理器、微控制器或其他处理器或处理/控制电路。类似地，存储器104可被具体化为能够执行本文中所描述的功能的任何类型的易失性或非易失性存储器或数据存储。在操作中，存储器104可存储自动语音识别设备100的操作期间所使用的各种数据和软件，诸如操作系统、应用、程序、库以及驱动器。存储器104经由I/O子系统106可通信地耦合至处理器102，该I/O子系统106可被具体化为用于促进与自动语音识别设备100的处理器102、存储器104以及其他组件之间的输入/输出操作的电路系统和/或组件。例如，I/O子系统106可被具体化为或以其他方式包括存储器控制器中枢、输入/输出控制中枢、固件设备、通信链路(即，点对点链路、总线链路、线路、电缆、光导、印刷电路板迹线等)和/或用于促进输入/输出操作的其他组件和子系统。在一些实施例中，I/O子系统106可形成芯片上系统(SoC)的一部分，并可与自动语音识别设备100的处理器102、存储器104及其他组件一起被合并在单个集成电路芯片上。

话筒108可被具体化为能够将声音转化为电信号的任何类型的设备。为此，话筒108可利用任何类型的合适的声音捕捉技术，该声音捕捉技术包括但不限于：电磁感应、电容变化和/或压电。

显示器110可被具体化为可在其上向自动语音识别设备100的用户显示信息的任何类型的显示器，诸如液晶显示器(LCD)、发光二极管(LED)显示器、阴极射线管(CRT)显示器、等离子显示器、图像投影仪(例如，2D或3D)、激光投影仪、触屏显示器、平视显示器和/或其他显示技术。

数据存储112可被具体化为被配置成用于短期或长期的数据存储的任何类型的一个或多个设备。例如，数据存储112可包括任何一个或多个存储器设备以及电路、存储器卡、硬盘驱动器、固态驱动器或其他数据存储设备。

当然，在一些实施例中，自动语音识别设备100可包括诸如在计算设备中通常找到的那些组件之类的其他或附加的组件。例如，自动语音识别设备100还可具有通信电路114和/或外围设备116，诸如键盘、鼠标、相机、扬声器等。

通信电路114可被具体化为能够实现自动语音识别设备100与其他设备之间的通信的任何类型的通信电路、设备或其集合。为此，通信电路114可被配置成用于使用任何一种或多种通信技术及相关联的协议(例如，以太网、 WiMAX、近场通信(NFC)等)来实现此类通信。

现在参考图2，在使用中，自动语音识别设备100可建立环境200。说明性环境200包括语音数据捕捉模块202、音素识别模块204、字词识别模块206、语法解析器模块208以及句尾确定模块210。环境200的各模块可被具体化为硬件、软件、固件或其组合。例如，环境200的各模块、逻辑和其他组件可形成自动语音识别设备100的处理器102或其他硬件组件的一部分，或以其他方式由自动语音识别设备100的处理器102或其他硬件组件建立。由此，在一些实施例中，环境200的模块中的一个或多个可被具体化为电气设备的电路或集合(例如，语音数据捕捉电路202、音素识别电路204、字词识别电路206等)。应当领会，在此类实施例中，电路(例如，语音数据捕捉电路202、音素识别电路204、字词识别电路206等)中的一个或多个可形成处理器102、存储器104、I/O子系统106和/或数据存储112中的一个或多个的部分。另外，在一些实施例中，说明性模块中的一个或多个可形成另一模块的部分，和/或说明性模块中的一个或多个可彼此独立。

语音数据捕捉模块202被配置成用于捕捉或以其他方式获取语音数据。在说明性实施例中，语音数据捕捉模块202从话筒108捕捉语音数据。另外或替代地，语音数据捕捉模块202可获取先前已经从话筒108或从不同的计算设备的话筒捕捉到的语音数据，诸如通过访问数据存储112或通过从通信电路114接收语音数据。

音素识别模块204被配置成用于从语音数据识别音素。音素识别模块204可使用声学模型模块212来表示音频信号(诸如，语音数据)与音素之间的关系，并识别在语音信号中存在的音素串。音素识别模块204可使用任何技术或技术的组合来识别音素，该技术或技术的组合诸如n元模型、隐马尔科夫模型、包括深度神经网络的神经网络、支持向量机、条件随机场等。在一些实施例中，音素识别模块204可以将静默(或对缺少音素的类似指示)视为其自身的音素，或能以其他方式考虑静默或对静默分类。音素识别模块204还包括声学特征确定模块214，该声学特征确定模块214被配置成用于确定语音数据的一个或多个声学特征，该声学特征诸如频率、音高、音高的变化率、能量、能量的变化率，等等。

字词识别模块206被配置成用于基于所识别的音素从语音数据识别字词。字词识别模块206可利用字词统计数据库模块216，该字词统计数据库模块216可包含与不同的字词序列多频繁地出现在某些上下文中(包括这些序列多频繁地出现在句尾)有关的统计信息句尾。字词识别模块206可使用任何技术或技术的组合来识别字词，该技术或技术的组合诸如n元模型、隐马尔科夫模型、包括深度神经网络的神经网络、支持向量机、条件随机场等。在一些实施例中，字词识别模块206可被配置成用于识别字词而无需显式地利用先前所识别的音素。

语法解析器模块208被配置成用于使用任何解析技术，基于所识别的字词来执行语法解析，诸如通过产生所识别的字词的语法解析树。该语法解析模块可使用任何类型的解析树或多种类型的解析树的组合，诸如基于选取的解析树、基于依赖性的解析树和/或短语标记器。

句尾判定模块210被配置成用于判定在语音数据的特定时刻是否存在句尾，该语音数据的特定时刻诸如在每个所识别的音素之后或在每个所识别的字词之后。为此，句尾判定模块被配置成用于考虑由声学句尾分数确定模块218、字词统计句尾分数确定模块220以及语法一致性句尾分数确定模块222所确定的多个分数中的每一个。模块218、220、222中的每一个的分数可被具体化为简单的数字，诸如0与1之间的数字，该数字指示特定的音素是句尾，或者该分数可更加复杂，并且可包括诸如各种置信度水平之类的附加的数字。句尾判定模块210可基于相对简单的方法或者可使用更复杂的方法来判定句子的结尾，该相对简单的方法诸如将分数加在一起或者对它们求平均，该更加复杂的方法诸如使用机器学习技术或算法，该机器学习技术或算法诸如包括深度神经网络的神经网络、支持向量机、条件随机场等。

声学句尾分数确定模块218被配置成用于基于所识别的音素(包括静默)和所确定的声学特征来确定声学句尾分数，该声学句尾分数指示在该所识别的音素之后的句尾的可能性。例如，声学句尾分数确定模块218可基于长时间的静默来确定指示句尾的高可能性的声学句尾分数，或者可基于短时间的静默或没有静默来确定指示句尾的低可能性的声学句尾分数。作为另一示例，声学句尾分数确定模块218可基于音高导数的高值来确定指示句尾的高可能性的声学句尾分数，该音高导数的高值可以是疑问句结尾的指示。

字词统计句尾分数确定模块220被配置成用于基于所识别的字词和字词统计来确定字词统计句尾分数，该字词统计句尾分数指示在该所识别的字词之后的句尾的可能性。字词统计句尾分数确定模块220可考虑句子以所识别的最后一个或多个字词结尾的可能性。例如，字词统计句尾分数确定模块220可基于字词统计来确定如果最后识别的字词是字词“the”(定冠词，“该”)，则不可能是句尾。

语法一致性句尾分数确定模块222被配置成用于基于对字词的解析的一致性来确定语法一致性句尾分数，该语法一致性句尾分数指示在所识别的字词之后的句尾的可能性。例如，如果字词的语法解析指示存在诸如动词之类的缺少的元素，则一致性将是低的，并且语法一致性句尾分数随后可指示句尾的低可能性。如果字词的语法解析指示这些字词形成了语法正确且完整的句子，则一致性将是高的，并且语法一致性句尾分数随后可指示句尾的高可能性。在说明性实施例中，该确定基于语法解析树，并具体基于语法解析树的语法一致性。语法一致性句尾分数确定模块222可使用可由一个或多个自然人手动或以其他方式确定的规则来确定语法一致性句尾分数。另外或替代地，语法一致性句尾分数确定模块222可基于以机器学习为基础的一种或多种技术或算法来确定语法一致性句尾分数，该以机器学习为基础的技术和算法诸如包括深度神经网络的神经网络、支持向量机、条件随机场等。

现在参考图3，在使用中，自动语音识别设备100可执行用于判定句尾的方法300。方法300开始于框302，在框302中，自动语音识别设备100获取语音数据。如上文所描述，在说明性实施例中，从话筒108捕捉语音数据。在其他实施例中，可从先前从话筒捕捉语音数据的源(诸如，从数据存储112或从通信电路114)获取语音数据。

在框304中，自动语音识别设备100使用声学模型及上文所描述的技术中的一项或多项来基于语音数据识别音素，上文所描述的技术诸如n元模型或神经网络。在说明性实施例中，在框306中，自动语音识别设备100还基于语音数据来确定一个或多个声学特征。在一些实施例中，自动语音识别设备100可为所有可用的语音数据识别音素。在其他实施例中，自动语音识别设备100可仅从语音数据的部分或从与先前的若干秒相关联的语音数据识别音素，该语音数据的部分诸如自音素最后被识别以来获取的语音数据。在一些情况下，自动语音识别设备100可基于各种因子来修订对先前所识别的音素的识别，各种因子诸如对初始识别不可用的附加语音数据。

在框308中，自动语音识别设备100使用上文所描述的技术中的一项或多项来基于音素识别字词，上文所描述的技术诸如n元模型或神经网络。作为识别字词的部分，自动语音识别设备100可访问字词统计数据库模块216。在一些实施例中，自动语音识别设备100可为所有可用的语音数据识别字词。在其他实施例中，自动语音识别设备100可仅从语音数据的部分(诸如，从自最后所识别的字词以来所识别的音素)或从与先前的若干秒相关联的语音数据识别字词。在一些情况下，自动语音识别设备100可基于各种因子来修订对先前所识别的字词的识别，各种因子诸如对初始识别不可用的附加语音数据。当然，在一些情况下，自动语音识别设备100可判定自前一时间框308被执行以来没有新的字词已经被识别。

在框310中，如果新的字词被识别，则自动语音识别设备100继续进行至框312，并且如果没有新的字词被识别，则返回至框302，在框302中，自动语音识别设备100获取附加语音数据。在框312中，自动语音识别设备100基于所识别的字词执行语法解析，以确定语音数据的语法一致性。为此，自动语音识别设备100利用任何合适的解析技术，诸如通过产生语法解析树。在一些实施例中，自动语音识别设备100可对从起始字词开始直到最近被识别的字词为止的每一组可能的连续识别的字词执行语法解析。可选择起始字词，使得一定数量的字词或句子被包括。通过确定语音数据的语法一致性，自动语音识别设备100分析所识别的字词的语法“正确性”以更好地标识句尾(例如，字词组是否将逻辑地形成句尾)。

在框314中，自动语音识别设备100判定一个或多个句尾。作为此任务的部分，自动语音识别设备100确定声学句尾分数、字词统计句尾分数以及语法一致性句尾分数，下文中更详细地描述这些分数中的每一个。这些分数中的每一个指示在所识别的字词之后句尾的可能性。如上文所描述，自动语音识别设备100可使用相对简单的方法或者可使用更加复杂的方法来确定句尾分数，相对简单的方法诸如将分数加在一起或者对它们求平均，更加复杂的方法诸如使用机器学习技术或算法，该机器学习技术或算法诸如包括深度神经网络的神经网络、支持向量机、条件随机场等。在一些实施例中，自动语音识别设备100可不确定或使用上文所描述的得分中的每一个，而可仅使用例如它们中的一个或两个的任何组合，诸如仅语法一致性句尾分数。在说明性实施例中，自动语音识别设备100判定在从与框312中相同的起始字词开始直到最近被识别的字词结束的每一个所识别的字词之后是否存在句尾。在其他实施例中，自动语音识别设备100可判定在更多字词、更少字词或以其他方式的不同的字词组之后是否存在句尾。在一些情况下，自动语音识别设备100可基于各种因子来修订对先前所识别的句尾的判定，各种因子诸如对初始识别不可用的附加语音数据。

在框316中，自动语音识别设备100基于所识别的音素和所确定的声学特征来确定声学句尾分数。如上文所述，自动语音识别设备100可基于长时间的静默来确定指示句尾的高可能性的声学句尾分数，或者可基于短时间的静默或没有静默来确定指示句尾的低可能性的声学句尾分数。

在框318中，自动语音识别设备100基于所识别的字词以及由字词统计数据库模块216指示的字词统计来确定字词统计句尾分数(诸如，不同的字词序列多频繁地出现在句尾)。

在框320中，自动语音识别设备100基于所识别的字词的语法解析的一致性来确定语法一致性句尾分数。在说明性实施例中，该确定基于语法解析树，特别是基于语法解析树的语法一致性。如上文所描述，自动语音识别设备100可使用基于规则的技术或算法和/或基于机器学习的技术或算法来确定语法解析的语法一致性。在使用基于规则的技术或算法的一些实施例中，可由一个或多个自然人来确定规则。

在已经在框314中判定了(多个)句尾之后，方法300循环回到框302，在框302中，自动语音识别设备100获取附加语音数据。当然，在一些实施例中，自动语音识别设备100还可基于所判定的句尾执行附加功能，诸如执行基于所标识的句子的功能，对自动文本加标点，和/或其他功能。可与方法300的继续执行同时地执行此类附加功能。

示例

以下提供了本文中所公开的设备、系统和方法的说明性示例。设备、系统和方法的实施例可包括以下所描述的示例中的任何一个或多个以及其任何组合。

示例1包括一种用于判定语音数据的句尾的自动语音识别设备，该自动语音识别设备包括：语音数据捕捉模块，用于获取语音数据；音素识别模块，用于基于语音数据来识别语音数据的音素；字词识别模块，用于基于音素来识别语音数据的字词；语法解析器模块，用于基于字词来解析语音数据，以确定该语音数据的语法一致性；以及句尾判定模块，用于基于语法一致性来判定句尾。

示例2包括示例1的主题，其中，用于基于语法一致性来判定句尾包括：用于使用基于机器学习的算法，基于语法一致性来判定句尾。

示例3包括示例1和示例2中的任何一项的主题，并且其中，用于基于语法一致性来判定句尾包括：用于使用基于规则的算法，基于语法一致性来判定句尾。

示例4包括示例1-3中的任何一项的主题，并且其中，句尾判定模块进一步用于：基于语法解析来确定语法一致性句尾分数，基于音素来确定声学句尾分数，以及基于字词来确定字词统计句尾分数，其中用于判定句尾包括：用于基于语法一致性句尾分数、声学句尾分数和字词统计句尾分数来判定句尾。

示例5包括示例1-4中的任何一项的主题，并且其中，用于基于音素来确定声学句尾分数包括：用于基于语音数据的静默来确定声学句尾分数。

示例6包括示例1-5中的任何一项的主题，并且其中，用于基于语法一致性句尾分数、声学句尾分数和字词统计句尾分数来判定句尾包括：用于使用基于机器学习的算法，基于语法一致性句尾分数、声学句尾分数和字词统计句尾分数来判定句尾。

示例7包括示例1-6中的任何一项的主题，并且其中，用于基于语法一致性句尾分数、声学句尾分数和字词统计句尾分数来判定句尾包括：用于使用基于规则的算法，基于语法一致性句尾分数、声学句尾分数和字词统计句尾分数来判定句尾。

示例8包括示例1-7中的任何一项的主题，并且其中，句尾判定模块进一步用于：基于语法解析来确定语法一致性句尾分数，以及基于声学特征来确定声学句尾分数，其中，用于判定句尾包括：用于基于语法一致性句尾分数和声学句尾分数来判定句尾。

示例9包括示例1-8中的任何一项的主题，并且其中，声学特征包括以下各项中的至少一项：频率、音高、音高的变化率、能量或能量的变化率。

示例10包括示例1-9中的任何一项的主题,并且进一步包括话筒，其中，用于获取语音数据包括：用于从该话筒获取语音数据。

示例11包括示例1-10中的任何一项的主题,并且进一步包括数据存储，其中，用于获取语音数据包括：用于从该数据存储访问语音数据。

示例12包括示例1-11中的任何一项的主题,并且进一步包括通信模块，其中，用于获取语音数据包括：用于使用该通信模块来接收语音数据。

示例13包括一种用于由自动语音识别设备判定语音数据的句尾的方法，该方法包括：由自动语音识别设备获取语音数据；由自动语音识别设备基于该语音数据来识别语音数据的音素；由自动语音识别设备基于该音素来识别语音数据的字词；由自动语音识别设备基于该字词来解析语音数据，以确定该语音数据的语法一致性；以及由自动语音识别设备基于该语法一致性来判定句尾。

示例14包括示例13的主题，并且其中，基于语法一致性来判定句尾包括：使用基于机器学习的算法，基于语法一致性来判定句尾。

示例15包括示例13和14中的任何一项的主题，并且其中，基于语法一致性来判定句尾包括：使用基于规则的算法，基于语法一致性来判定句尾。

示例16包括示例13-15中的任何一项的主题，并且进一步包括：由自动语音识别设备基于语法解析来确定语法一致性句尾分数，由自动语音识别设备基于音素来确定声学句尾分数，由自动语音识别设备基于字词来确定字词统计句尾分数，其中，判定句尾包括：基于语法一致性句尾分数、声学句尾分数和字词统计句尾分数来判定句尾。

示例17包括示例13-16中的任何一项的主题，并且其中，基于音素来确定声学句尾分数包括：基于语音数据的静默来确定该声学句尾分数。

示例18包括示例13-17中的任何一项的主题，并且其中，基于语法一致性句尾分数、声学句尾分数和字词统计句尾分数来判定句尾包括：使用基于机器学习的算法，基于语法一致性句尾分数、声学句尾分数和字词统计句尾分数来判定句尾。

示例19包括示例13-18中的任何一项的主题，并且其中，基于语法一致性句尾分数、声学句尾分数和字词统计句尾分数来判定句尾包括：使用基于规则的算法，基于语法一致性句尾分数、声学句尾分数和字词统计句尾分数来判定句尾。

示例20包括示例13-19中的任何一项的主题，并且进一步包括：基于语法解析来确定语法一致性句尾分数，以及基于声学特征来确定声学句尾分数，其中判定句尾包括：基于语法一致性句尾分数和声学句尾分数来判定句尾。

示例21包括示例13-20中的任何一项的主题，并且其中，声学特征包括以下各项中的至少一项：频率、音高、音高的变化率、能量或能量的变化率。

示例22包括示例13-21中的任何一项的主题，并且其中，获取语音数据包括：从自动语音识别设备的话筒捕捉该语音数据。

示例23包括示例13-22中的任何一项的主题，并且其中，获取语音数据包括：从自动语音识别设备的数据存储访问该语音数据。

示例24包括示例13-23中的任何一项的主题，并且其中，获取语音数据包括：由自动语音识别设备从不同于该自动语音识别设备的设备接收该语音数据。

示例25包括一种或多种机器可读存储介质，包括存储于其上的多条指令，这些指令响应于被执行而使计算设备执行示例13-24中的任何一项的方法。

示例26包括一种用于判定语音数据的句尾的自动语音识别设备，该自动语音识别设备包括：用于获取语音数据的装置；用于基于该语音数据来识别语音数据的音素的装置；用于基于该音素来识别语音数据的字词的装置；用于基于该字词来解析语音数据以确定语音数据的语法一致性的装置；以及用于基于该语法一致性来判定句尾的装置。

示例27包括示例26的主题，并且其中，用于基于语法一致性来判定句尾的装置包括：用于使用基于机器学习的算法而基于语法一致性来判定句尾的装置。

示例28包括示例26和27中的任何一项的主题，并且其中，用于基于语法一致性来判定句尾的装置包括：用于使用基于规则的算法而基于语法一致性来判定句尾的装置。

示例29包括示例26-28中的任何一项的主题，并且进一步包括：用于基于语法解析来确定语法一致性句尾分数的装置，用于基于音素来确定声学句尾分数的装置，用于基于字词来确定字词统计句尾分数的装置，其中用于判定句尾的装置包括：用于基于语法一致性句尾分数、声学句尾分数和字词统计句尾分数来判定句尾的装置。

示例30包括示例26-29中的任何一项的主题，并且其中，用于基于音素来确定声学句尾分数的装置包括：用于基于语音数据的静默来确定该声学句尾分数的装置。

示例31包括示例26-30中的任何一项的主题，并且其中，用于基于语法一致性句尾分数、声学句尾分数和字词统计句尾分数来判定句尾的装置包括：用于使用基于机器学习的算法而基于语法一致性句尾分数、声学句尾分数和字词统计句尾分数来判定句尾的装置。

示例32包括示例26-31中的任何一项的主题，并且其中，用于基于语法一致性句尾分数、声学句尾分数和字词统计句尾分数来判定句尾的装置包括：用于使用基于规则的算法而基于语法一致性句尾分数、声学句尾分数和字词统计句尾分数来判定句尾的装置。

示例33包括示例26-32中的任何一项的主题，并且进一步包括：用于基于语法解析来确定语法一致性句尾分数的装置，以及用于基于声学特征来确定声学句尾分数的装置，其中用于判定句尾的装置包括：用于基于语法一致性句尾分数和声学句尾分数来判定句尾的装置。

示例34包括示例26-33中的任何一项的主题，并且其中，声学特征包括以下各项中的至少一项：频率、音高、音高的变化率、能量或能量的变化率。

示例35包括示例26-34中的任何一项的主题，并且其中，用于获取语音数据的装置包括：用于从自动语音识别设备的话筒捕捉该语音数据的装置。

示例36包括示例26-35中的任何一项的主题，并且其中，用于获取语音数据的装置包括：用于从自动语音识别设备的数据存储访问该语音数据的装置。

示例37包括示例26-36中的任何一项的主题，并且其中，用于获取语音数据的装置包括：用于由自动语音识别设备从不同于该自动语音识别设备的设备接收该语音数据的装置。

Claims

1.一种用于判定语音数据的句尾的自动语音识别设备，所述自动语音识别设备包括：

语音数据捕捉模块，用于获取语音数据；

音素识别模块，用于基于所述语音数据来识别所述语音数据的音素；

字词识别模块，用于基于所述音素来识别所述语音数据的字词；

语法解析器模块，用于基于所述字词来解析所述语音数据，以确定所述语音数据的语法一致性；以及

句尾判定模块，用于基于所述语法一致性来判定所述句尾。

2.如权利要求1所述的自动语音识别设备，其中，用于基于所述语法一致性来判定所述句尾包括：用于使用基于机器学习的算法，基于所述语法一致性来判定所述句尾。

3.如权利要求1所述的自动语音识别设备，其中，用于基于所述语法一致性来判定所述句尾包括：用于使用基于规则的算法，基于所述语法一致性来判定所述句尾。

4.如权利要求1所述的自动语音识别设备，其中，所述句尾判定模块进一步用于：

基于语法解析来确定语法一致性句尾分数，

基于所述音素来确定声学句尾分数，以及

基于所述字词来确定字词统计句尾分数，

其中，用于判定所述句尾包括：用于基于所述语法一致性句尾分数、所述声学句尾分数和所述字词统计句尾分数来判定所述句尾。

5.如权利要求4所述的自动语音识别设备，其中，用于基于所述音素来确定所述声学句尾分数包括：用于基于所述语音数据的静默来确定所述声学句尾分数。

6.如权利要求4所述的自动语音识别设备，其中，用于基于所述语法一致性句尾分数、所述声学句尾分数和所述字词统计句尾分数来判定所述句尾包括：用于使用基于机器学习的算法，基于所述语法一致性句尾分数、所述声学句尾分数和所述字词统计句尾分数来判定所述句尾。

7.如权利要求4所述的自动语音识别设备，其中，用于基于所述语法一致性句尾分数、所述声学句尾分数和所述字词统计句尾分数来判定所述句尾包括：用于使用基于规则的算法，基于所述语法一致性句尾分数、所述声学句尾分数和所述字词统计句尾分数来判定所述句尾。

8.如权利要求1所述的自动语音识别设备，其中所述句尾判定模块进一步用于：

基于语法解析来确定语法一致性句尾分数，以及

基于声学特征来确定声学句尾分数，

其中，用于判定所述句尾包括：用于基于所述语法一致性句尾分数和所述声学句尾分数来判定所述句尾。

9.如权利要求8所述的自动语音识别设备，其中，所述声学特征包括以下各项中的至少一项：频率、音高、音高的变化率、能量或能量的变化率。

10.如权利要求1所述的自动语音识别设备，进一步包括话筒，其中，用于获取语音数据包括：用于从所述话筒获取语音数据。

11.如权利要求1所述的自动语音识别设备，进一步包括数据存储，其中，用于获取语音数据包括：用于从所述数据存储访问所述语音数据。

12.如权利要求1所述的自动语音识别设备，进一步包括通信模块，其中，用于获取语音数据包括：用于使用所述通信模块来接收语音数据。

13.一种用于由自动语音识别设备判定语音数据的句尾的方法，所述方法包括：

由所述自动语音识别设备获取所述语音数据；

由所述自动语音识别设备基于所述语音数据来识别所述语音数据的音素；

由所述自动语音识别设备基于所述音素来识别所述语音数据的字词；

由所述自动语音识别设备基于所述字词来解析所述语音数据，以确定所述语音数据的语法一致性；以及

由所述自动语音识别设备基于所述语法一致性来判定所述句尾。

14.如权利要求13所述的方法，其中，基于所述语法一致性来判定所述句尾包括：使用基于机器学习的算法，基于所述语法一致性来判定所述句尾。

15.如权利要求13所述的方法，其中，基于所述语法一致性来判定所述句尾包括：使用基于规则的算法，基于所述语法一致性来判定所述句尾。

16.如权利要求13所述的方法，进一步包括：

由所述自动语音识别设备基于语法解析来确定语法一致性句尾分数，

由所述自动语音识别设备基于所述音素来确定声学句尾分数，以及

由所述自动语音识别设备基于所述字词来确定字词统计句尾分数，

其中，判定所述句尾包括：基于所述语法一致性句尾分数、所述声学句尾分数和所述字词统计句尾分数来判定所述句尾。

17.如权利要求16所述的方法，其中，基于所述音素来确定所述声学句尾分数包括：基于所述语音数据的静默来确定所述声学句尾分数。

18.如权利要求16所述的方法，其中，基于所述语法一致性句尾分数、所述声学句尾分数和所述字词统计句尾分数来判定所述句尾包括：使用基于机器学习的算法，基于所述语法一致性句尾分数、所述声学句尾分数和所述字词统计句尾分数来判定所述句尾。

19.如权利要求16所述的方法，其中，基于所述语法一致性句尾分数、所述声学句尾分数和所述字词统计句尾分数来判定所述句尾包括：使用基于规则的算法，基于所述语法一致性句尾分数、所述声学句尾分数和所述字词统计句尾分数来判定所述句尾。

20.如权利要求13所述的方法，进一步包括：

基于语法解析来确定语法一致性句尾分数，以及

基于声学特征来确定声学句尾分数，

其中，判定所述句尾包括：基于所述语法一致性句尾分数和所述声学句尾分数来判定所述句尾。

21.如权利要求20所述的方法，其中，所述声学特征包括以下各项中的至少一项：频率、音高、音高的变化率、能量或能量的变化率。

22.如权利要求13所述的方法，其中，获取所述语音数据包括：从所述自动语音识别设备的话筒捕捉所述语音数据。

23.如权利要求13所述的方法，其中，获取所述语音数据包括：从所述自动语音识别设备的数据存储访问所述语音数据。

24.一种或多种机器可读存储介质，包括存储于其上的多条指令，所述多条指令响应于被执行而使计算设备执行如权利要求13-23中的任何一项所述的方法。

25.一种计算设备，包括用于执行权利要求13-23中的任何一项所述的方法的装置。