CN108257616A

CN108257616A - 人机对话的检测方法以及装置

Info

Publication number: CN108257616A
Application number: CN201711268801.6A
Authority: CN
Inventors: 王艳龙; 宋明凯
Original assignee: Suzhou Car Radish Automotive Electronic Technology Co Ltd
Current assignee: Suzhou Car Radish Automotive Electronic Technology Co Ltd
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2018-07-06

Abstract

本申请公开了一种人机对话的检测方法以及终端。该检测人机对话的方法包括检测环境中的声音，判断所述声音是否为说话语音内容，如果判断所述声音为说话语音内容，则将所述说话语音内容作为输入并识别出所述说话语音内容对应的说话文字内容，在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整，如果判断出所述说话语义内容为完整语义内容，则结束语音活动检测，如果判断出所述说话语义内容为非完整语义内容，则调整所述语音活动检测的结束时间，继续等待所述人机对话过程中产生的声音信号流并作为新的说话语音内容输入。本申请解决了由于用户说话速度慢，中间的停顿造成的语音活动检测跟用户语义无关的技术问题。

Description

人机对话的检测方法以及装置

技术领域

本发明涉及语音活动检测领域、人工智能领域，特别涉及检测人机对话的方法以及装置。

背景技术

语音活动检测(英文：Voice Activity Detection，中文简称为VAD)，目的是从声音信号流里识别和消除长时间的静音期。话音或静默特性主要受到：机器正在听人说话、说话中间的停顿，如犹豫，呼吸，口吃等的影响。在实际运用时，在用户没有讲话时，就没有语音分组的发送，从而可以进一步降低语音比特率。当用户的语音信号能量低于一定门限值时就认为是静默状态，也不发送语音分组。只有当检测到突发的活动声音时才生成语音信号，并加以传输。

当使用VAD检测人开始和停止说话时，主要是根据能量和VAD模型判定声音是否属于人声，针对相关技术中现有检测方法中VAD检测跟用户语义无关，比如，用户说话速度慢，中间的停顿都会被认为是VAD结束的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种检测人机对话的方法，以解决语音活动检测跟用户语义无关问题。

为了实现上述目的，根据本申请的一个方面，提供了一种机对话的检测人方法。

所述方法用于对人机对话过程中产生的声音信号流进行语音活动检测，包括：

检测环境中的声音，判断所述声音是否为说话语音内容；如果判断所述声音为说话语音内容，则将所述说话语音内容作为输入并识别出所述说话语音内容对应的说话文字内容；在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整；如果判断出所述说话语义内容为完整语义内容，则结束语音活动检测；以及如果判断出所述说话语义内容为非完整语义内容，则调整所述语音活动检测的结束时间，继续等待所述人机对话过程中产生的声音信号流并作为新的说话语音内容输入。

进一步地，在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整包括：在对所述说话文字内容经过句法分析后，如果判断出所述说话语义内容为完整的语义内容且语音活动检测模型检测到语音端点，则结束语音活动检测；如果判断出所述说话语义内容为非完整语义内容且语音活动检测模型未监测到语音端点，则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入，直至在对所述说话文字内容经过句法分析后判断出所述说话语义为完整语义内容；所述句法分析至少包括：判断是否具备主语部分、谓语部分以及宾语部分。

进一步地，在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整包括：根据说话文字内容匹配到对应的语义场景，并根据所述语义场景生成关联的实体内容后进行数据库搜索，搜索后判断出所述说话语义内容是否为非完整语义内容且语音内容的能量大于阈值；根据说话文字内容匹配到对应的语义场景，并根据所述语义场景生成关联的实体内容后进行搜索，搜索后判断出所述说话语义内容是非完整语义内容且语音内容的能量大于阈值包括：如果根据说话文字内容匹配到对应的语义场景，则根据所述语义场景生成关联的实体内容后进行搜索；搜索后判断出所述说话语义内容是否是非完整语义内容且语音内容的能量大于阈值，若所述说话语义内容是非完整语义内容且语音内容的能量大于阈值，则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入，直至判断出所述说话语义为完整语义内容。

进一步地，还包括：设置一用于调节人机对话过程中产生的声音信号流进行语音活动检测参数的灵敏度参数T，如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是完整的，则将所述灵敏度参数T调整为：T-M，并在所述人机对话过程中提前结束所述语音活动检测，如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是非完整的，则将所述灵敏度参数T调整为：T+M，并在所述人机对话过程中延迟所述语音活动检测，所述 M表示根据人机对话过程中的说话语速得到的调节时间或者固定时间。

进一步地，还包括：将节灵敏度参数T作为对所述人机对话过程中产生的声音信号流进行语音活动检测时固定说话语音内容的特征参数，所述固定说话语音内容至少包括：固定语句和固定说话人；所述固定语句用于作为判断所述说话语义内容是否为完整语义内容；所述固定说话人用于按照设定的停顿时间判断出所述说话文字内容中在所述停顿时间内的停顿词和所述固定语句。

进一步地，检测环境中的声音，判断所述声音是否为说话语音内容包括以下任一一种：根据能量判断所述声音是否为说话语音内容；根据模型判断所述声音是否为说话语音内容。

进一步地，在进行网络传输、无线传输或者有线传输的语音编码时，所述检测环境中的声音，判断所述声音是否为说话语音内容以及判断所述声音为说话语音内容，则将所述说话语音内容作为输入并识别出所述说话语音内容对应的说话文字内容的延迟不大于设置的最小门限值。

为了实现上述目的，根据本申请的另一方面，提供了用于对人机对话过程中产生的声音信号流进行语音活动检测的装置，包括：语音识别模块、语义理解模块、语音活动检测模块，所述语音识别模块，用于检测环境中的声音，判断所述声音是否为说话语音内容，如果判断所述声音为说话语音内容，则将所述说话语音内容作为语义理解模块的输入，并在所述语义理解模块识别出所述说话语音内容对应的说话文字内容，所述语义理解模块，用于将所述说话文字内容解析到所述人机对话过程中对应的交互场景，并得到所述说话语音内容对应的说话文字内容用于作为所述人机对话过程中所述说话文字内容的意图，所述语音活动检测模块，用于在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整，如果判断出所述说话语义内容为完整语义内容，则结束语音活动检测，如果判断出所述说话语义内容为非完整语义内容，则调整所述语音活动检测的结束时间，继续等待所述人机对话过程中产生的声音信号流并作为新的说话语音内容输入。

进一步地，装置还包括：灵敏度参数调节模块，用于如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是完整的，则将所述灵敏度参数T调整为：T-M，并在所述人机对话过程中提前结束所述语音活动检测，以及，如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是非完整的，则将所述灵敏度参数T调整为：T+M，并在所述人机对话过程中延迟所述语音活动检测，所述M表示根据人机对话过程中的说话语速得到的调节时间。

进一步地，所述语音活动检测模块还用于，在对所述说话文字内容经过句法分析后，如果判断出所述说话语义内容为完整的语义内容且所述语音内容的能量不大于阈值，则结束语音活动检测，如果判断出所述说话语义内容为非完整语义内容且语音内容的能量大于阈值，则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入，直至在对所述说话文字内容经过句法分析后判断出所述说话语义为完整语义内容，所述句法分析至少包括：判断是否具备主语部分、谓语部分以及宾语部分；和/或所述语音活动检测模块还用于，根据说话文字内容匹配到对应的语义场景，并根据所述语义场景生成关联的实体内容后进行搜索，搜索后判断出所述说话语义内容是否为非完整语义内容且语音内容的能量大于阈值，根据说话文字内容匹配到对应的语义场景，并根据所述语义场景生成关联的实体内容后进行搜索，搜索后判断出所述说话语义内容是非完整语义内容且语音内容的能量大于阈值包括：如果根据说话文字内容匹配到对应的语义场景，则根据所述语义场景生成关联的实体内容后进行搜索，搜索后判断出所述说话语义内容是否是非完整语义内容且语音内容的能量大于阈值，若是，则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入，直至判断出所述说话语义为完整语义内容。

在本申请实施例中，采用调整所述语音活动检测的结束时间的方式，通过检测环境中的声音，判断所述声音是否为说话语音内容，如果判断所述声音为说话语音内容，则将所述说话语音内容作为输入并识别出所述说话语音内容对应的说话文字内容，在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整，达到了语音活动检测与用户语义相关的目的，从而实现了语音活动检测跟用户语义相关的技术效果，进而解决了由于用户说话速度慢，中间的停顿造成的语音活动检测跟用户语义无关的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的人机对话的检测方法的流程示意图；

图2是根据本申请实施例的优选判断说话语义内容是否完整的流程示意图；

图3是根据本申请实施例的另一优选判断说话语义内容是否完整的流程示意图；

图4是根据本申请实施例的一优选实施例中的检测方法的流程示意图；

图5是根据本申请实施例的另一优选实施例中的检测方法的流程示意图；

图6是根据本申请实施例的人机对话的检测装置结构示意图；以及

图7是根据本申请实施例的一优选实施例中人机对话的检测装置结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，该方法包括如下的步骤S100至步骤S104：

步骤S100，检测环境中的声音，判断所述声音是否为说话语音内容，

步骤S101，如果判断所述声音为说话语音内容，则将所述说话语音内容作为输入并识别出所述说话语音内容对应的说话文字内容，通过现有技术中的语音活动检测方法，能够判断所述声音为说话语音内容，语音活动检测的特征为：基于能量的特征，基于能量的准则是检测信号的强度，并且假设语音能量大于背景噪声能量，这样当能量大于某一门限时，可以认为有语音存在。当噪声大到和语音一样时，能量这个特征无法区分语音还是纯噪声。此外，在信噪比低于10dB时，语音和噪声的区分能力会加速下降。频域特征，通过STFT将时域信号变成频域信号，即使在SNR到0dB时，一些频带的长时包络还是可以区分语音和噪声。倒谱特征，能量倒谱峰值确定了语音信号的基频(pitch)，也有使用MFCC做为特征的。基于谐波的特征，语音的一个明显特征是包含了基频F0及其多个谐波频率，即使在强噪声场景，谐波这一特征也是存在的。可以使用自相关的方法找到基频。长时特征，语音是非稳态信号。普通语速通常每秒发出10～15个音素，音素见的谱分布是不一样的，这就导致了随着时间变化语音统计特性也是变化的。另一方面，日常的绝大多数噪声是稳态的(变化比较慢的)，如白噪声/机器噪声。而判断的条件可以是：门限、统计模型方法或者机器学习方法，其中，门限通常是根据训练数据集特征预先得到的。

上述步骤S101，还可以包括：经过语义解析、句法分析和上下文对话理解。所述语义解析包括但不限于自然语言处理(英文：Natural Language Processing简称：NLP)，上下文对话理解包括但不限于，根据上下文多轮对话，判断出用户说话的实际语义。

步骤S102，在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整，

步骤S103，如果判断出所述说话语义内容为完整语义内容，则结束语音活动检测，则认为人机对话过程中，用户完成说话，结束语音活动检测。或者，或者是调节语音结束的灵敏度参数，进而让语音活动检测更早的检测出语音端点。

步骤S104，如果判断出所述说话语义内容为非完整语义内容，则调整所述语音活动检测的结束时间，继续等待所述人机对话过程中产生的声音信号流并作为新的说话语音内容输入。所述调整所述语音活动检测的结束时间主要是指调节语音活动检测中的灵敏度参数，通过灵敏度参数使得原本不通过语义判断直接结束所述语音活动检，可以通过延长语音活动检测的方式结束时间。

从以上的描述中，可以看出，本发明实现了如下技术效果：

根据所述说话文字内容判断说话语义内容是否完整，达到了语音活动检测与用户语义相关的目的，从而实现了语音活动检测跟用户语义相关的技术效果，进而解决了由于用户说话速度慢，中间的停顿造成的语音活动检测跟用户语义无关的技术问题。本申请的方法要求语义解析的延迟尽可能小，可以利用车载本地资源进行语义分析。如果语义解析延迟过大，在语义解析收到结果之前模型VAD检测方法已经检测到了语音端点，则会停止录音。

作为本实施例中的优选，如图2所示是根据本申请实施例的优选判断说话语义内容是否完整的流程示意图检测方法还包括：步骤S101在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整包括：

步骤S200，在对所述说话文字内容经过句法分析后，如果判断出所述说话语义内容为完整的语义内容且所述语音内容的能量不大于阈值，则结束语音活动检测，

步骤S201，如果判断出所述说话语义内容为非完整语义内容且语音内容的能量大于阈值，则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入，直至在对所述说话文字内容经过句法分析后判断出所述说话语义为完整语义内容。在步骤S201中所述句法分析至少包括：判断是否具备主语部分、谓语部分以及宾语部分。通过句法分析的方式判断上述的说话语义内容是否完整，所述句法分析的方式包括：判断说话语义内容是否有完整的主语部分，比如动作的执行者，“我”；判断说话语义内容是否有完整的主语部分，比如执行如何动作，是对主语动作或状态的陈述或说明，“要、想。去、开、走、关闭、打开”；判断说话语义内容是否有完整的宾语部分，比如执行的承受者，表示动作支配的对象，并且位于动词的后面，导航、听歌、电话”。比如，一个完成的完整语义内容是“我要打开导航…”，非完整语义内容是“我要打…”。又比如，一个完成的完整语义内容是“我要去吃…”，非完整语义内容是“去吃…”。

作为本实施例中的优选，如图3所示是根据本申请实施例的另一优选判断说话语义内容是否完整的流程示意图，在所述步骤S101在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整包括：包括：

步骤S300，根据说话文字内容匹配到对应的语义场景，并根据所述语义场景生成关联的实体内容后进行搜索，搜索后判断出所述说话语义内容是否为非完整语义内容且语音内容的能量大于阈值，

步骤S301，根据说话文字内容匹配到对应的语义场景，并根据所述语义场景生成关联的实体内容后进行搜索，搜索后判断出所述说话语义内容是非完整语义内容且语音内容的能量大于阈值包括：

步骤S302，如果根据说话文字内容匹配到对应的语义场景，则根据所述语义场景生成关联的实体内容后进行搜索，语义场景可以根据关键词和预置的语义场景特征进行判断，比如虚拟产品、实体建筑物。而针对当前用户输入的领域，进行实体内容搜索，如果实体内容不完整，则认为语义不完整。例如，输入地点过程，若说话文字内容为“北京天”，则认为不完整。若说话文字内容为”北京天安门“则认为完整。

步骤S303，搜索后判断出所述说话语义内容是否是非完整语义内容且语音内容的能量大于阈值，判断条件包括：所述说话语义内容是否是非完整语义，若是非完整语义，择继续判断语音内容的能量大于阈值。若是完整语义，则不继续判断语音内容的能量大于阈值。语音内容的能量由于基于能量的准则是检测信号的强度，并且假设语音能量大于背景噪声能量，这样当能量大于某一门限时，可以认为有语音存在。然而当噪声大到和语音一样时，能量这个特征无法区分语音还是纯噪声。需要满足两个条件：所述说话语义内容是否是非完整语义内容同时语音内容的能量大于阈值。

步骤S304，若所述说话语义内容是非完整语义内容且语音内容的能量大于阈值，则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入，直至判断出所述说话语义为完整语义内容。

作为本实施例中的优选，图4是根据本申请实施例的一优选实施例中的检测方法的流程示意图，方法还包括：

步骤S400，设置一用于调节人机对话过程中产生的声音信号流进行语音活动检测参数的灵敏度参数T，

步骤S401，如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是完整的，则将所述灵敏度参数T调整为：T-M，并在所述人机对话过程中提前结束所述语音活动检测，当检测到语义完整，将灵敏度调整为 T-M，提前结束语音活动检测。

步骤S402，如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是非完整的，则将所述灵敏度参数T调整为：T+M，并在所述人机对话过程中延迟所述语音活动检测，所述M表示根据人机对话过程中的说话语速得到的调节时间或者固定时间。当监测到语义未完整，灵敏度调整为 T+M，延迟语音活动检测结束。

此外，如果经过了T+M时间之后，仍然没有检测到完整语义，则按照模型方法停止用户语音采集。

优选地，如图5所示，上述步骤还包括：步骤S403将节灵敏度参数T作为对所述人机对话过程中产生的声音信号流进行语音活动检测时固定说话语音内容的特征参数，

步骤S403，所述固定说话语音内容至少包括：固定语句和固定说话人，

步骤S403，所述固定语句用于作为判断所述说话语义内容是否为完整语义内容，根据语义中的判断，用户有按照固定语句提供的完整语义内容。比如，“导航”、“电话”“关机”等指令。

步骤S403，所述固定说话人用于按照设定的停顿时间判断出所述说话文字内容中在所述停顿时间内的停顿词和所述固定语句。根据语义中的判断，用户有迟疑或者等待等的输入操作，例如“嗯，呃，啊”等语气词、感叹词，则可以把灵敏度动态调节到T+M。

根据本发明实施例，还提供了一种用于实施上述检测方法的检测装置，如图6所示，该装置用于对人机对话过程中产生的声音信号流进行语音活动检测，所述装置包括：包括：语音识别模块100、语义理解模块200、语音活动检测模块300，所述语音识别模块100，用于检测环境中的声音，判断所述声音是否为说话语音内容，如果判断所述声音为说话语音内容，则将所述说话语音内容作为语义理解模块的输入，并在所述语义理解模块识别出所述说话语音内容对应的说话文字内容，所述语义理解模块200，用于将所述说话文字内容解析到所述人机对话过程中对应的交互场景，并得到所述说话语音内容对应的说话文字内容用于作为所述人机对话过程中所述说话文字内容的意图，所述语音活动检测模块300，用于在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整，如果判断出所述说话语义内容为完整语义内容，则结束语音活动检测，如果判断出所述说话语义内容为非完整语义内容，则调整所述语音活动检测的结束时间，继续等待所述人机对话过程中产生的声音信号流并作为新的说话语音内容输入。具体实现方案中，语音识别模块100、语义理解模块200、语音活动检测模块300，可以是独立的模块。当然也可以是基于深度学习的一个卷积神经网络，输入语音数据，输出结果中包含是否停止采集用户语音的判断。

根据本发明实施例，如图7所示是根据本申请实施例的一优选实施例中人机对话的检测装置结构示意图，检测装置还包括：灵敏度参数调节模块400，用于如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是完整的，则将所述灵敏度参数T调整为：T-M，并在所述人机对话过程中提前结束所述语音活动检测，以及，如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是非完整的，则将所述灵敏度参数T调整为：T+M，并在所述人机对话过程中延迟所述语音活动检测，所述M表示根据人机对话过程中的说话语速得到的调节时间。

作为本实施例中的优选，所述语音活动检测模块300还用于，在对所述说话文字内容经过句法分析后，如果判断出所述说话语义内容为完整的语义内容且所述语音内容的能量不大于阈值，则结束语音活动检测，如果判断出所述说话语义内容为非完整语义内容且语音内容的能量大于阈值，则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入，直至在对所述说话文字内容经过句法分析后判断出所述说话语义为完整语义内容，所述句法分析至少包括：判断是否具备主语部分、谓语部分以及宾语部分；和/或还用于，根据说话文字内容匹配到对应的语义场景，并根据所述语义场景生成关联的实体内容后进行搜索，搜索后判断出所述说话语义内容是否为非完整语义内容且语音内容的能量大于阈值，根据说话文字内容匹配到对应的语义场景，并根据所述语义场景生成关联的实体内容后进行搜索，搜索后判断出所述说话语义内容是非完整语义内容且语音内容的能量大于阈值包括：如果根据说话文字内容匹配到对应的语义场景，则根据所述语义场景生成关联的实体内容后进行搜索，搜索后判断出所述说话语义内容是否是非完整语义内容且语音内容的能量大于阈值，若是，则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入，直至判断出所述说话语义为完整语义内容。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种人机对话的检测方法，其特征在于，用于对人机对话过程中产生的声音信号流进行语音活动检测，包括：

检测环境中的声音，判断所述声音是否为说话语音内容；

如果判断所述声音为说话语音内容，则将所述说话语音内容作为输入并识别出所述说话语音内容对应的说话文字内容；

在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整；

如果判断出所述说话语义内容为完整语义内容，则结束语音活动检测；以及

如果判断出所述说话语义内容为非完整语义内容，则调整所述语音活动检测的结束时间，继续等待所述人机对话过程中产生的声音信号流并作为新的说话语音内容输入。

2.根据权利要求1所述的检测方法，其特征在于，在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整包括：

在对所述说话文字内容经过句法分析后，如果判断出所述说话语义内容为完整的语义内容且语音活动检测模型检测到语音端点，则结束语音活动检测；

如果判断出所述说话语义内容为非完整语义内容且语音活动检测模型未监测到语音端点，则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入，直至在对所述说话文字内容经过句法分析后判断出所述说话语义为完整语义内容；

所述句法分析至少包括：判断是否具备主语部分、谓语部分以及宾语部分。

3.根据权利要求1所述的检测方法，其特征在于，在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整包括：

根据说话文字内容匹配到对应的语义场景，并根据所述语义场景生成关联的实体内容后进行数据库搜索，搜索后判断出所述说话语义内容是否为非完整语义内容且语音内容的能量大于阈值；

根据说话文字内容匹配到对应的语义场景，并根据所述语义场景生成关联的实体内容后进行搜索，搜索后判断出所述说话语义内容是非完整语义内容且语音内容的能量大于阈值包括：

如果根据说话文字内容匹配到对应的语义场景，则根据所述语义场景生成关联的实体内容后进行搜索；

搜索后判断出所述说话语义内容是否是非完整语义内容且语音内容的能量大于阈值，

若所述说话语义内容是非完整语义内容且语音内容的能量大于阈值，则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入，直至判断出所述说话语义为完整语义内容。

4.根据权利要求1、2或3所述的检测方法，其特征在于，还包括：设置一用于调节人机对话过程中产生的声音信号流进行语音活动检测参数的灵敏度参数T，如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是完整的，则将所述灵敏度参数T调整为：T-M，并在所述人机对话过程中提前结束所述语音活动检测，

如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是非完整的，则将所述灵敏度参数T调整为：T+M，并在所述人机对话过程中延迟所述语音活动检测，所述M表示根据人机对话过程中的说话语速得到的调节时间或者固定时间。

5.根据权利要求4所述的检测方法，其特征在于，还包括：将节灵敏度参数T作为对所述人机对话过程中产生的声音信号流进行语音活动检测时固定说话语音内容的特征参数，

所述固定说话语音内容至少包括：固定语句和固定说话人；

所述固定语句用于作为判断所述说话语义内容是否为完整语义内容；

所述固定说话人用于按照设定的停顿时间判断出所述说话文字内容中在所述停顿时间内的停顿词和所述固定语句。

6.根据权利要求1所述的检测方法，其特征在于，检测环境中的声音，判断所述声音是否为说话语音内容包括以下任一一种：

根据能量判断所述声音是否为说话语音内容；

根据模型判断所述声音是否为说话语音内容。

7.根据权利要求1所述的检测方法，其特征在于，在进行网络传输、无线传输或者有线传输的语音编码时，所述检测环境中的声音，判断所述声音是否为说话语音内容以及判断所述声音为说话语音内容，则将所述说话语音内容作为输入并识别出所述说话语音内容对应的说话文字内容的延迟不大于设置的最小门限值。

8.一种人机对话的检测装置，其特征在于，用于对人机对话过程中产生的声音信号流进行语音活动检测，包括：语音识别模块、语义理解模块、语音活动检测模块，

所述语音识别模块，用于检测环境中的声音，判断所述声音是否为说话语音内容，

如果判断所述声音为说话语音内容，则将所述说话语音内容作为语义理解模块的输入，并在所述语义理解模块识别出所述说话语音内容对应的说话文字内容，

所述语义理解模块，用于将所述说话文字内容解析到所述人机对话过程中对应的交互场景，并得到所述说话语音内容对应的说话文字内容用于作为所述人机对话过程中所述说话文字内容的意图，

所述语音活动检测模块，用于在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整，

如果判断出所述说话语义内容为完整语义内容，则结束语音活动检测，

9.根据权利要求8所述的检测装置，其特征在于，还包括：灵敏度参数调节模块，用于如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是完整的，则将所述灵敏度参数T调整为：T-M，并在所述人机对话过程中提前结束所述语音活动检测，以及，

如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是非完整的，则将所述灵敏度参数T调整为：T+M，并在所述人机对话过程中延迟所述语音活动检测，所述M表示根据人机对话过程中的说话语速得到的调节时间。

10.根据权利要求8所述的检测装置，其特征在于，所述语音活动检测模块还用于，在对所述说话文字内容经过句法分析后，如果判断出所述说话语义内容为完整的语义内容且所述语音内容的能量不大于阈值，则结束语音活动检测，

如果判断出所述说话语义内容为非完整语义内容且语音内容的能量大于阈值，则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入，直至在对所述说话文字内容经过句法分析后判断出所述说话语义为完整语义内容，

所述句法分析至少包括：判断是否具备主语部分、谓语部分以及宾语部分；

和/或所述语音活动检测模块还用于，根据说话文字内容匹配到对应的语义场景，并根据所述语义场景生成关联的实体内容后进行搜索，搜索后判断出所述说话语义内容是否为非完整语义内容且语音内容的能量大于阈值，

如果根据说话文字内容匹配到对应的语义场景，则根据所述语义场景生成关联的实体内容后进行搜索，

若是，则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入，直至判断出所述说话语义为完整语义内容。