CN108257616A - 人机对话的检测方法以及装置 - Google Patents
人机对话的检测方法以及装置 Download PDFInfo
- Publication number
- CN108257616A CN108257616A CN201711268801.6A CN201711268801A CN108257616A CN 108257616 A CN108257616 A CN 108257616A CN 201711268801 A CN201711268801 A CN 201711268801A CN 108257616 A CN108257616 A CN 108257616A
- Authority
- CN
- China
- Prior art keywords
- content
- semantic
- speaking
- voice
- human
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 111
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 11
- 230000000694 effects Effects 0.000 claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 26
- 230000035945 sensitivity Effects 0.000 claims description 27
- 230000005540 biological transmission Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000001105 regulatory effect Effects 0.000 claims description 6
- 238000007689 inspection Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 11
- 238000003058 natural language processing Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种人机对话的检测方法以及终端。该检测人机对话的方法包括检测环境中的声音,判断所述声音是否为说话语音内容,如果判断所述声音为说话语音内容,则将所述说话语音内容作为输入并识别出所述说话语音内容对应的说话文字内容,在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整,如果判断出所述说话语义内容为完整语义内容,则结束语音活动检测,如果判断出所述说话语义内容为非完整语义内容,则调整所述语音活动检测的结束时间,继续等待所述人机对话过程中产生的声音信号流并作为新的说话语音内容输入。本申请解决了由于用户说话速度慢,中间的停顿造成的语音活动检测跟用户语义无关的技术问题。
Description
技术领域
本发明涉及语音活动检测领域、人工智能领域,特别涉及检测人机对话的方法以及装置。
背景技术
语音活动检测(英文:Voice Activity Detection,中文简称为VAD),目的是从声音信号流里识别和消除长时间的静音期。话音或静默特性主要受到:机器正在听人说话、说话中间的停顿,如犹豫,呼吸,口吃等的影响。在实际运用时,在用户没有讲话时,就没有语音分组的发送,从而可以进一步降低语音比特率。当用户的语音信号能量低于一定门限值时就认为是静默状态,也不发送语音分组。只有当检测到突发的活动声音时才生成语音信号,并加以传输。
当使用VAD检测人开始和停止说话时,主要是根据能量和VAD模型判定声音是否属于人声,针对相关技术中现有检测方法中VAD检测跟用户语义无关,比如,用户说话速度慢,中间的停顿都会被认为是VAD结束的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种检测人机对话的方法,以解决语音活动检测跟用户语义无关问题。
为了实现上述目的,根据本申请的一个方面,提供了一种机对话的检测人方法。
所述方法用于对人机对话过程中产生的声音信号流进行语音活动检测,包括:
检测环境中的声音,判断所述声音是否为说话语音内容;如果判断所述声音为说话语音内容,则将所述说话语音内容作为输入并识别出所述说话语音内容对应的说话文字内容;在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整;如果判断出所述说话语义内容为完整语义内容,则结束语音活动检测;以及如果判断出所述说话语义内容为非完整语义内容,则调整所述语音活动检测的结束时间,继续等待所述人机对话过程中产生的声音信号流并作为新的说话语音内容输入。
进一步地,在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整包括:在对所述说话文字内容经过句法分析后,如果判断出所述说话语义内容为完整的语义内容且语音活动检测模型检测到语音端点,则结束语音活动检测;如果判断出所述说话语义内容为非完整语义内容且语音活动检测模型未监测到语音端点,则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入,直至在对所述说话文字内容经过句法分析后判断出所述说话语义为完整语义内容;所述句法分析至少包括:判断是否具备主语部分、谓语部分以及宾语部分。
进一步地,在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整包括:根据说话文字内容匹配到对应的语义场景,并根据所述语义场景生成关联的实体内容后进行数据库搜索,搜索后判断出所述说话语义内容是否为非完整语义内容且语音内容的能量大于阈值;根据说话文字内容匹配到对应的语义场景,并根据所述语义场景生成关联的实体内容后进行搜索,搜索后判断出所述说话语义内容是非完整语义内容且语音内容的能量大于阈值包括:如果根据说话文字内容匹配到对应的语义场景,则根据所述语义场景生成关联的实体内容后进行搜索;搜索后判断出所述说话语义内容是否是非完整语义内容且语音内容的能量大于阈值,若所述说话语义内容是非完整语义内容且语音内容的能量大于阈值,则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入,直至判断出所述说话语义为完整语义内容。
进一步地,还包括:设置一用于调节人机对话过程中产生的声音信号流进行语音活动检测参数的灵敏度参数T,如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是完整的,则将所述灵敏度参数T调整为:T-M,并在所述人机对话过程中提前结束所述语音活动检测,如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是非完整的,则将所述灵敏度参数T调整为:T+M,并在所述人机对话过程中延迟所述语音活动检测,所述 M表示根据人机对话过程中的说话语速得到的调节时间或者固定时间。
进一步地,还包括:将节灵敏度参数T作为对所述人机对话过程中产生的声音信号流进行语音活动检测时固定说话语音内容的特征参数,所述固定说话语音内容至少包括:固定语句和固定说话人;所述固定语句用于作为判断所述说话语义内容是否为完整语义内容;所述固定说话人用于按照设定的停顿时间判断出所述说话文字内容中在所述停顿时间内的停顿词和所述固定语句。
进一步地,检测环境中的声音,判断所述声音是否为说话语音内容包括以下任一一种:根据能量判断所述声音是否为说话语音内容;根据模型判断所述声音是否为说话语音内容。
进一步地,在进行网络传输、无线传输或者有线传输的语音编码时,所述检测环境中的声音,判断所述声音是否为说话语音内容以及判断所述声音为说话语音内容,则将所述说话语音内容作为输入并识别出所述说话语音内容对应的说话文字内容的延迟不大于设置的最小门限值。
为了实现上述目的,根据本申请的另一方面,提供了用于对人机对话过程中产生的声音信号流进行语音活动检测的装置,包括:语音识别模块、语义理解模块、语音活动检测模块,所述语音识别模块,用于检测环境中的声音,判断所述声音是否为说话语音内容,如果判断所述声音为说话语音内容,则将所述说话语音内容作为语义理解模块的输入,并在所述语义理解模块识别出所述说话语音内容对应的说话文字内容,所述语义理解模块,用于将所述说话文字内容解析到所述人机对话过程中对应的交互场景,并得到所述说话语音内容对应的说话文字内容用于作为所述人机对话过程中所述说话文字内容的意图,所述语音活动检测模块,用于在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整,如果判断出所述说话语义内容为完整语义内容,则结束语音活动检测,如果判断出所述说话语义内容为非完整语义内容,则调整所述语音活动检测的结束时间,继续等待所述人机对话过程中产生的声音信号流并作为新的说话语音内容输入。
进一步地,装置还包括:灵敏度参数调节模块,用于如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是完整的,则将所述灵敏度参数T调整为:T-M,并在所述人机对话过程中提前结束所述语音活动检测,以及,如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是非完整的,则将所述灵敏度参数T调整为:T+M,并在所述人机对话过程中延迟所述语音活动检测,所述M表示根据人机对话过程中的说话语速得到的调节时间。
进一步地,所述语音活动检测模块还用于,在对所述说话文字内容经过句法分析后,如果判断出所述说话语义内容为完整的语义内容且所述语音内容的能量不大于阈值,则结束语音活动检测,如果判断出所述说话语义内容为非完整语义内容且语音内容的能量大于阈值,则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入,直至在对所述说话文字内容经过句法分析后判断出所述说话语义为完整语义内容,所述句法分析至少包括:判断是否具备主语部分、谓语部分以及宾语部分;和/或所述语音活动检测模块还用于,根据说话文字内容匹配到对应的语义场景,并根据所述语义场景生成关联的实体内容后进行搜索,搜索后判断出所述说话语义内容是否为非完整语义内容且语音内容的能量大于阈值,根据说话文字内容匹配到对应的语义场景,并根据所述语义场景生成关联的实体内容后进行搜索,搜索后判断出所述说话语义内容是非完整语义内容且语音内容的能量大于阈值包括:如果根据说话文字内容匹配到对应的语义场景,则根据所述语义场景生成关联的实体内容后进行搜索,搜索后判断出所述说话语义内容是否是非完整语义内容且语音内容的能量大于阈值,若是,则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入,直至判断出所述说话语义为完整语义内容。
在本申请实施例中,采用调整所述语音活动检测的结束时间的方式,通过检测环境中的声音,判断所述声音是否为说话语音内容,如果判断所述声音为说话语音内容,则将所述说话语音内容作为输入并识别出所述说话语音内容对应的说话文字内容,在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整,达到了语音活动检测与用户语义相关的目的,从而实现了语音活动检测跟用户语义相关的技术效果,进而解决了由于用户说话速度慢,中间的停顿造成的语音活动检测跟用户语义无关的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的人机对话的检测方法的流程示意图;
图2是根据本申请实施例的优选判断说话语义内容是否完整的流程示意图;
图3是根据本申请实施例的另一优选判断说话语义内容是否完整的流程示意图;
图4是根据本申请实施例的一优选实施例中的检测方法的流程示意图;
图5是根据本申请实施例的另一优选实施例中的检测方法的流程示意图;
图6是根据本申请实施例的人机对话的检测装置结构示意图;以及
图7是根据本申请实施例的一优选实施例中人机对话的检测装置结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,该方法包括如下的步骤S100至步骤S104:
步骤S100,检测环境中的声音,判断所述声音是否为说话语音内容,
步骤S101,如果判断所述声音为说话语音内容,则将所述说话语音内容作为输入并识别出所述说话语音内容对应的说话文字内容,通过现有技术中的语音活动检测方法,能够判断所述声音为说话语音内容,语音活动检测的特征为:基于能量的特征,基于能量的准则是检测信号的强度,并且假设语音能量大于背景噪声能量,这样当能量大于某一门限时,可以认为有语音存在。当噪声大到和语音一样时,能量这个特征无法区分语音还是纯噪声。此外,在信噪比低于10dB时,语音和噪声的区分能力会加速下降。频域特征,通过STFT将时域信号变成频域信号,即使在SNR到0dB时,一些频带的长时包络还是可以区分语音和噪声。倒谱特征,能量倒谱峰值确定了语音信号的基频(pitch),也有使用MFCC做为特征的。基于谐波的特征,语音的一个明显特征是包含了基频F0及其多个谐波频率,即使在强噪声场景,谐波这一特征也是存在的。可以使用自相关的方法找到基频。长时特征,语音是非稳态信号。普通语速通常每秒发出10~15个音素,音素见的谱分布是不一样的,这就导致了随着时间变化语音统计特性也是变化的。另一方面,日常的绝大多数噪声是稳态的(变化比较慢的),如白噪声/机器噪声。而判断的条件可以是:门限、统计模型方法或者机器学习方法,其中,门限通常是根据训练数据集特征预先得到的。
上述步骤S101,还可以包括:经过语义解析、句法分析和上下文对话理解。所述语义解析包括但不限于自然语言处理(英文:Natural Language Processing简称:NLP),上下文对话理解包括但不限于,根据上下文多轮对话,判断出用户说话的实际语义。
步骤S102,在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整,
步骤S103,如果判断出所述说话语义内容为完整语义内容,则结束语音活动检测,则认为人机对话过程中,用户完成说话,结束语音活动检测。或者,或者是调节语音结束的灵敏度参数,进而让语音活动检测更早的检测出语音端点。
步骤S104,如果判断出所述说话语义内容为非完整语义内容,则调整所述语音活动检测的结束时间,继续等待所述人机对话过程中产生的声音信号流并作为新的说话语音内容输入。所述调整所述语音活动检测的结束时间主要是指调节语音活动检测中的灵敏度参数,通过灵敏度参数使得原本不通过语义判断直接结束所述语音活动检,可以通过延长语音活动检测的方式结束时间。
从以上的描述中,可以看出,本发明实现了如下技术效果:
根据所述说话文字内容判断说话语义内容是否完整,达到了语音活动检测与用户语义相关的目的,从而实现了语音活动检测跟用户语义相关的技术效果,进而解决了由于用户说话速度慢,中间的停顿造成的语音活动检测跟用户语义无关的技术问题。本申请的方法要求语义解析的延迟尽可能小,可以利用车载本地资源进行语义分析。如果语义解析延迟过大,在语义解析收到结果之前模型VAD检测方法已经检测到了语音端点,则会停止录音。
作为本实施例中的优选,如图2所示是根据本申请实施例的优选判断说话语义内容是否完整的流程示意图检测方法还包括:步骤S101在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整包括:
步骤S200,在对所述说话文字内容经过句法分析后,如果判断出所述说话语义内容为完整的语义内容且所述语音内容的能量不大于阈值,则结束语音活动检测,
步骤S201,如果判断出所述说话语义内容为非完整语义内容且语音内容的能量大于阈值,则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入,直至在对所述说话文字内容经过句法分析后判断出所述说话语义为完整语义内容。在步骤S201中所述句法分析至少包括:判断是否具备主语部分、谓语部分以及宾语部分。通过句法分析的方式判断上述的说话语义内容是否完整,所述句法分析的方式包括:判断说话语义内容是否有完整的主语部分,比如动作的执行者,“我”;判断说话语义内容是否有完整的主语部分,比如执行如何动作,是对主语动作或状态的陈述或说明,“要、想。去、开、走、关闭、打开”;判断说话语义内容是否有完整的宾语部分,比如执行的承受者,表示动作支配的对象,并且位于动词的后面,导航、听歌、电话”。比如,一个完成的完整语义内容是“我要打开导航…”,非完整语义内容是“我要打…”。又比如,一个完成的完整语义内容是“我要去吃…”,非完整语义内容是“去吃…”。
作为本实施例中的优选,如图3所示是根据本申请实施例的另一优选判断说话语义内容是否完整的流程示意图,在所述步骤S101在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整包括:包括:
步骤S300,根据说话文字内容匹配到对应的语义场景,并根据所述语义场景生成关联的实体内容后进行搜索,搜索后判断出所述说话语义内容是否为非完整语义内容且语音内容的能量大于阈值,
步骤S301,根据说话文字内容匹配到对应的语义场景,并根据所述语义场景生成关联的实体内容后进行搜索,搜索后判断出所述说话语义内容是非完整语义内容且语音内容的能量大于阈值包括:
步骤S302,如果根据说话文字内容匹配到对应的语义场景,则根据所述语义场景生成关联的实体内容后进行搜索,语义场景可以根据关键词和预置的语义场景特征进行判断,比如虚拟产品、实体建筑物。而针对当前用户输入的领域,进行实体内容搜索,如果实体内容不完整,则认为语义不完整。例如,输入地点过程,若说话文字内容为“北京天”,则认为不完整。若说话文字内容为”北京天安门“则认为完整。
步骤S303,搜索后判断出所述说话语义内容是否是非完整语义内容且语音内容的能量大于阈值,判断条件包括:所述说话语义内容是否是非完整语义,若是非完整语义,择继续判断语音内容的能量大于阈值。若是完整语义,则不继续判断语音内容的能量大于阈值。语音内容的能量由于基于能量的准则是检测信号的强度,并且假设语音能量大于背景噪声能量,这样当能量大于某一门限时,可以认为有语音存在。然而当噪声大到和语音一样时,能量这个特征无法区分语音还是纯噪声。需要满足两个条件:所述说话语义内容是否是非完整语义内容同时语音内容的能量大于阈值。
步骤S304,若所述说话语义内容是非完整语义内容且语音内容的能量大于阈值,则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入,直至判断出所述说话语义为完整语义内容。
作为本实施例中的优选,图4是根据本申请实施例的一优选实施例中的检测方法的流程示意图,方法还包括:
步骤S400,设置一用于调节人机对话过程中产生的声音信号流进行语音活动检测参数的灵敏度参数T,
步骤S401,如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是完整的,则将所述灵敏度参数T调整为:T-M,并在所述人机对话过程中提前结束所述语音活动检测,当检测到语义完整,将灵敏度调整为 T-M,提前结束语音活动检测。
步骤S402,如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是非完整的,则将所述灵敏度参数T调整为:T+M,并在所述人机对话过程中延迟所述语音活动检测,所述M表示根据人机对话过程中的说话语速得到的调节时间或者固定时间。当监测到语义未完整,灵敏度调整为 T+M,延迟语音活动检测结束。
此外,如果经过了T+M时间之后,仍然没有检测到完整语义,则按照模型方法停止用户语音采集。
优选地,如图5所示,上述步骤还包括:步骤S403将节灵敏度参数T作为对所述人机对话过程中产生的声音信号流进行语音活动检测时固定说话语音内容的特征参数,
步骤S403,所述固定说话语音内容至少包括:固定语句和固定说话人,
步骤S403,所述固定语句用于作为判断所述说话语义内容是否为完整语义内容,根据语义中的判断,用户有按照固定语句提供的完整语义内容。比如,“导航”、“电话”“关机”等指令。
步骤S403,所述固定说话人用于按照设定的停顿时间判断出所述说话文字内容中在所述停顿时间内的停顿词和所述固定语句。根据语义中的判断,用户有迟疑或者等待等的输入操作,例如“嗯,呃,啊”等语气词、感叹词,则可以把灵敏度动态调节到T+M。
根据本发明实施例,还提供了一种用于实施上述检测方法的检测装置,如图6所示,该装置用于对人机对话过程中产生的声音信号流进行语音活动检测,所述装置包括:包括:语音识别模块100、语义理解模块200、语音活动检测模块300,所述语音识别模块100,用于检测环境中的声音,判断所述声音是否为说话语音内容,如果判断所述声音为说话语音内容,则将所述说话语音内容作为语义理解模块的输入,并在所述语义理解模块识别出所述说话语音内容对应的说话文字内容,所述语义理解模块200,用于将所述说话文字内容解析到所述人机对话过程中对应的交互场景,并得到所述说话语音内容对应的说话文字内容用于作为所述人机对话过程中所述说话文字内容的意图,所述语音活动检测模块300,用于在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整,如果判断出所述说话语义内容为完整语义内容,则结束语音活动检测,如果判断出所述说话语义内容为非完整语义内容,则调整所述语音活动检测的结束时间,继续等待所述人机对话过程中产生的声音信号流并作为新的说话语音内容输入。具体实现方案中,语音识别模块100、语义理解模块200、语音活动检测模块300,可以是独立的模块。当然也可以是基于深度学习的一个卷积神经网络,输入语音数据,输出结果中包含是否停止采集用户语音的判断。
根据本发明实施例,如图7所示是根据本申请实施例的一优选实施例中人机对话的检测装置结构示意图,检测装置还包括:灵敏度参数调节模块400,用于如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是完整的,则将所述灵敏度参数T调整为:T-M,并在所述人机对话过程中提前结束所述语音活动检测,以及,如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是非完整的,则将所述灵敏度参数T调整为:T+M,并在所述人机对话过程中延迟所述语音活动检测,所述M表示根据人机对话过程中的说话语速得到的调节时间。
作为本实施例中的优选,所述语音活动检测模块300还用于,在对所述说话文字内容经过句法分析后,如果判断出所述说话语义内容为完整的语义内容且所述语音内容的能量不大于阈值,则结束语音活动检测,如果判断出所述说话语义内容为非完整语义内容且语音内容的能量大于阈值,则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入,直至在对所述说话文字内容经过句法分析后判断出所述说话语义为完整语义内容,所述句法分析至少包括:判断是否具备主语部分、谓语部分以及宾语部分;和/或还用于,根据说话文字内容匹配到对应的语义场景,并根据所述语义场景生成关联的实体内容后进行搜索,搜索后判断出所述说话语义内容是否为非完整语义内容且语音内容的能量大于阈值,根据说话文字内容匹配到对应的语义场景,并根据所述语义场景生成关联的实体内容后进行搜索,搜索后判断出所述说话语义内容是非完整语义内容且语音内容的能量大于阈值包括:如果根据说话文字内容匹配到对应的语义场景,则根据所述语义场景生成关联的实体内容后进行搜索,搜索后判断出所述说话语义内容是否是非完整语义内容且语音内容的能量大于阈值,若是,则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入,直至判断出所述说话语义为完整语义内容。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种人机对话的检测方法,其特征在于,用于对人机对话过程中产生的声音信号流进行语音活动检测,包括:
检测环境中的声音,判断所述声音是否为说话语音内容;
如果判断所述声音为说话语音内容,则将所述说话语音内容作为输入并识别出所述说话语音内容对应的说话文字内容;
在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整;
如果判断出所述说话语义内容为完整语义内容,则结束语音活动检测;以及
如果判断出所述说话语义内容为非完整语义内容,则调整所述语音活动检测的结束时间,继续等待所述人机对话过程中产生的声音信号流并作为新的说话语音内容输入。
2.根据权利要求1所述的检测方法,其特征在于,在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整包括:
在对所述说话文字内容经过句法分析后,如果判断出所述说话语义内容为完整的语义内容且语音活动检测模型检测到语音端点,则结束语音活动检测;
如果判断出所述说话语义内容为非完整语义内容且语音活动检测模型未监测到语音端点,则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入,直至在对所述说话文字内容经过句法分析后判断出所述说话语义为完整语义内容;
所述句法分析至少包括:判断是否具备主语部分、谓语部分以及宾语部分。
3.根据权利要求1所述的检测方法,其特征在于,在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整包括:
根据说话文字内容匹配到对应的语义场景,并根据所述语义场景生成关联的实体内容后进行数据库搜索,搜索后判断出所述说话语义内容是否为非完整语义内容且语音内容的能量大于阈值;
根据说话文字内容匹配到对应的语义场景,并根据所述语义场景生成关联的实体内容后进行搜索,搜索后判断出所述说话语义内容是非完整语义内容且语音内容的能量大于阈值包括:
如果根据说话文字内容匹配到对应的语义场景,则根据所述语义场景生成关联的实体内容后进行搜索;
搜索后判断出所述说话语义内容是否是非完整语义内容且语音内容的能量大于阈值,
若所述说话语义内容是非完整语义内容且语音内容的能量大于阈值,则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入,直至判断出所述说话语义为完整语义内容。
4.根据权利要求1、2或3所述的检测方法,其特征在于,还包括:设置一用于调节人机对话过程中产生的声音信号流进行语音活动检测参数的灵敏度参数T,如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是完整的,则将所述灵敏度参数T调整为:T-M,并在所述人机对话过程中提前结束所述语音活动检测,
如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是非完整的,则将所述灵敏度参数T调整为:T+M,并在所述人机对话过程中延迟所述语音活动检测,所述M表示根据人机对话过程中的说话语速得到的调节时间或者固定时间。
5.根据权利要求4所述的检测方法,其特征在于,还包括:将节灵敏度参数T作为对所述人机对话过程中产生的声音信号流进行语音活动检测时固定说话语音内容的特征参数,
所述固定说话语音内容至少包括:固定语句和固定说话人;
所述固定语句用于作为判断所述说话语义内容是否为完整语义内容;
所述固定说话人用于按照设定的停顿时间判断出所述说话文字内容中在所述停顿时间内的停顿词和所述固定语句。
6.根据权利要求1所述的检测方法,其特征在于,检测环境中的声音,判断所述声音是否为说话语音内容包括以下任一一种:
根据能量判断所述声音是否为说话语音内容;
根据模型判断所述声音是否为说话语音内容。
7.根据权利要求1所述的检测方法,其特征在于,在进行网络传输、无线传输或者有线传输的语音编码时,所述检测环境中的声音,判断所述声音是否为说话语音内容以及判断所述声音为说话语音内容,则将所述说话语音内容作为输入并识别出所述说话语音内容对应的说话文字内容的延迟不大于设置的最小门限值。
8.一种人机对话的检测装置,其特征在于,用于对人机对话过程中产生的声音信号流进行语音活动检测,包括:语音识别模块、语义理解模块、语音活动检测模块,
所述语音识别模块,用于检测环境中的声音,判断所述声音是否为说话语音内容,
如果判断所述声音为说话语音内容,则将所述说话语音内容作为语义理解模块的输入,并在所述语义理解模块识别出所述说话语音内容对应的说话文字内容,
所述语义理解模块,用于将所述说话文字内容解析到所述人机对话过程中对应的交互场景,并得到所述说话语音内容对应的说话文字内容用于作为所述人机对话过程中所述说话文字内容的意图,
所述语音活动检测模块,用于在所述人机对话过程中根据所述说话文字内容判断说话语义内容是否完整,
如果判断出所述说话语义内容为完整语义内容,则结束语音活动检测,
如果判断出所述说话语义内容为非完整语义内容,则调整所述语音活动检测的结束时间,继续等待所述人机对话过程中产生的声音信号流并作为新的说话语音内容输入。
9.根据权利要求8所述的检测装置,其特征在于,还包括:灵敏度参数调节模块,用于如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是完整的,则将所述灵敏度参数T调整为:T-M,并在所述人机对话过程中提前结束所述语音活动检测,以及,
如果在所述人机对话过程中根据所述说话文字内容判断说话语义内容是非完整的,则将所述灵敏度参数T调整为:T+M,并在所述人机对话过程中延迟所述语音活动检测,所述M表示根据人机对话过程中的说话语速得到的调节时间。
10.根据权利要求8所述的检测装置,其特征在于,所述语音活动检测模块还用于,在对所述说话文字内容经过句法分析后,如果判断出所述说话语义内容为完整的语义内容且所述语音内容的能量不大于阈值,则结束语音活动检测,
如果判断出所述说话语义内容为非完整语义内容且语音内容的能量大于阈值,则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入,直至在对所述说话文字内容经过句法分析后判断出所述说话语义为完整语义内容,
所述句法分析至少包括:判断是否具备主语部分、谓语部分以及宾语部分;
和/或所述语音活动检测模块还用于,根据说话文字内容匹配到对应的语义场景,并根据所述语义场景生成关联的实体内容后进行搜索,搜索后判断出所述说话语义内容是否为非完整语义内容且语音内容的能量大于阈值,
根据说话文字内容匹配到对应的语义场景,并根据所述语义场景生成关联的实体内容后进行搜索,搜索后判断出所述说话语义内容是非完整语义内容且语音内容的能量大于阈值包括:
如果根据说话文字内容匹配到对应的语义场景,则根据所述语义场景生成关联的实体内容后进行搜索,
搜索后判断出所述说话语义内容是否是非完整语义内容且语音内容的能量大于阈值,
若是,则继续等待所述对人机对话过程中产生的声音信号流并作为新的说话语音内容输入,直至判断出所述说话语义为完整语义内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711268801.6A CN108257616A (zh) | 2017-12-05 | 2017-12-05 | 人机对话的检测方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711268801.6A CN108257616A (zh) | 2017-12-05 | 2017-12-05 | 人机对话的检测方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108257616A true CN108257616A (zh) | 2018-07-06 |
Family
ID=62720964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711268801.6A Pending CN108257616A (zh) | 2017-12-05 | 2017-12-05 | 人机对话的检测方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108257616A (zh) |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108922540A (zh) * | 2018-07-27 | 2018-11-30 | 重庆柚瓣家科技有限公司 | 与老人用户进行连续ai对话的方法及系统 |
CN109119070A (zh) * | 2018-10-19 | 2019-01-01 | 科大讯飞股份有限公司 | 一种语音端点检测方法、装置、设备及存储介质 |
CN109344411A (zh) * | 2018-09-19 | 2019-02-15 | 深圳市合言信息科技有限公司 | 一种自动侦听式同声传译的翻译方法 |
CN109360551A (zh) * | 2018-10-25 | 2019-02-19 | 珠海格力电器股份有限公司 | 一种语音识别方法及装置 |
CN109473104A (zh) * | 2018-11-07 | 2019-03-15 | 苏州思必驰信息科技有限公司 | 语音识别网络延时优化方法及装置 |
CN109979474A (zh) * | 2019-03-01 | 2019-07-05 | 珠海格力电器股份有限公司 | 语音设备及其用户语速修正方法、装置和存储介质 |
CN110047470A (zh) * | 2019-04-11 | 2019-07-23 | 深圳市壹鸽科技有限公司 | 一种语音端点检测方法 |
CN110223697A (zh) * | 2019-06-13 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 人机对话方法及系统 |
CN110310632A (zh) * | 2019-06-28 | 2019-10-08 | 联想(北京)有限公司 | 语音处理方法及装置、以及电子设备 |
CN110428853A (zh) * | 2019-08-30 | 2019-11-08 | 北京太极华保科技股份有限公司 | 语音活性检测方法、语音活性检测装置以及电子设备 |
CN110517673A (zh) * | 2019-07-18 | 2019-11-29 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN110619873A (zh) * | 2019-08-16 | 2019-12-27 | 北京小米移动软件有限公司 | 音频处理方法、装置及存储介质 |
CN110634483A (zh) * | 2019-09-03 | 2019-12-31 | 北京达佳互联信息技术有限公司 | 人机交互方法、装置、电子设备及存储介质 |
CN111292729A (zh) * | 2020-02-06 | 2020-06-16 | 北京声智科技有限公司 | 音频数据流的处理方法和装置 |
CN111583923A (zh) * | 2020-04-28 | 2020-08-25 | 北京小米松果电子有限公司 | 信息控制方法及装置、存储介质 |
CN111627463A (zh) * | 2019-02-28 | 2020-09-04 | 百度在线网络技术(北京)有限公司 | 语音vad尾点确定方法及装置、电子设备和计算机可读介质 |
CN111816172A (zh) * | 2019-04-10 | 2020-10-23 | 阿里巴巴集团控股有限公司 | 一种语音应答方法及装置 |
CN111968680A (zh) * | 2020-08-14 | 2020-11-20 | 北京小米松果电子有限公司 | 一种语音处理方法、装置及存储介质 |
CN112242139A (zh) * | 2019-07-19 | 2021-01-19 | 北京儒博科技有限公司 | 语音交互方法、装置、设备和介质 |
CN112382279A (zh) * | 2020-11-24 | 2021-02-19 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN112567457A (zh) * | 2019-12-13 | 2021-03-26 | 华为技术有限公司 | 语音检测方法、预测模型的训练方法、装置、设备及介质 |
CN112614490A (zh) * | 2020-12-09 | 2021-04-06 | 北京罗克维尔斯科技有限公司 | 生成语音指令的方法、装置、介质、设备、系统及车辆 |
WO2021063101A1 (zh) * | 2019-09-30 | 2021-04-08 | 华为技术有限公司 | 基于人工智能的语音断点检测方法、装置和设备 |
CN112700769A (zh) * | 2020-12-26 | 2021-04-23 | 科大讯飞股份有限公司 | 一种语义理解方法、装置、设备以及计算机可读存储介质 |
WO2021098318A1 (zh) * | 2019-11-21 | 2021-05-27 | 北京沃东天骏信息技术有限公司 | 应答方法、终端及存储介质 |
CN112995419A (zh) * | 2021-02-05 | 2021-06-18 | 支付宝(杭州)信息技术有限公司 | 一种语音对话的处理方法和系统 |
CN113241071A (zh) * | 2021-05-10 | 2021-08-10 | 湖北亿咖通科技有限公司 | 一种语音处理方法、电子设备及存储介质 |
CN113393840A (zh) * | 2021-08-17 | 2021-09-14 | 硕广达微电子(深圳)有限公司 | 一种基于语音识别的移动终端控制系统及方法 |
CN115132178A (zh) * | 2022-07-15 | 2022-09-30 | 科讯嘉联信息技术有限公司 | 一种基于深度学习的语义端点检测系统 |
CN115512687A (zh) * | 2022-11-08 | 2022-12-23 | 之江实验室 | 一种语音断句方法、装置、存储介质及电子设备 |
EP4160591A1 (en) * | 2021-09-30 | 2023-04-05 | GN Audio A/S | Conversation engine and related methods |
WO2023092399A1 (zh) * | 2021-11-25 | 2023-06-01 | 华为技术有限公司 | 语音识别方法、语音识别装置及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1193981A2 (en) * | 1997-09-05 | 2002-04-03 | Matsushita Electric Industrial Co., Ltd. | Decoding method and recording medium carrying recorded decoding program |
CN101308653A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种应用于语音识别系统的端点检测方法 |
CN101593174A (zh) * | 2009-03-11 | 2009-12-02 | 林勋准 | 一种机器翻译方法及系统 |
KR20100052177A (ko) * | 2008-11-10 | 2010-05-19 | 한국과학기술연구원 | 도착시간지연 특성행렬을 이용한 음원 위치 측정 장치 및 음원 위치 측정 방법 |
CN102982811A (zh) * | 2012-11-24 | 2013-03-20 | 安徽科大讯飞信息科技股份有限公司 | 一种基于实时解码的语音端点检测方法 |
CN103617159A (zh) * | 2012-12-07 | 2014-03-05 | 万继华 | 将自然语言翻译成计算机语言的方法、语义分析器及人机对话系统 |
CN105679318A (zh) * | 2015-12-23 | 2016-06-15 | 珠海格力电器股份有限公司 | 一种基于语音识别的显示方法、装置、显示系统和空调 |
CN106782552A (zh) * | 2016-12-06 | 2017-05-31 | 深圳Tcl数字技术有限公司 | 尾音识别方法及语音遥控器 |
CN106887241A (zh) * | 2016-10-12 | 2017-06-23 | 阿里巴巴集团控股有限公司 | 一种语音信号检测方法与装置 |
CN107195303A (zh) * | 2017-06-16 | 2017-09-22 | 北京云知声信息技术有限公司 | 语音处理方法及装置 |
-
2017
- 2017-12-05 CN CN201711268801.6A patent/CN108257616A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1193981A2 (en) * | 1997-09-05 | 2002-04-03 | Matsushita Electric Industrial Co., Ltd. | Decoding method and recording medium carrying recorded decoding program |
CN101308653A (zh) * | 2008-07-17 | 2008-11-19 | 安徽科大讯飞信息科技股份有限公司 | 一种应用于语音识别系统的端点检测方法 |
KR20100052177A (ko) * | 2008-11-10 | 2010-05-19 | 한국과학기술연구원 | 도착시간지연 특성행렬을 이용한 음원 위치 측정 장치 및 음원 위치 측정 방법 |
CN101593174A (zh) * | 2009-03-11 | 2009-12-02 | 林勋准 | 一种机器翻译方法及系统 |
CN102982811A (zh) * | 2012-11-24 | 2013-03-20 | 安徽科大讯飞信息科技股份有限公司 | 一种基于实时解码的语音端点检测方法 |
CN103617159A (zh) * | 2012-12-07 | 2014-03-05 | 万继华 | 将自然语言翻译成计算机语言的方法、语义分析器及人机对话系统 |
CN105679318A (zh) * | 2015-12-23 | 2016-06-15 | 珠海格力电器股份有限公司 | 一种基于语音识别的显示方法、装置、显示系统和空调 |
CN106887241A (zh) * | 2016-10-12 | 2017-06-23 | 阿里巴巴集团控股有限公司 | 一种语音信号检测方法与装置 |
CN106782552A (zh) * | 2016-12-06 | 2017-05-31 | 深圳Tcl数字技术有限公司 | 尾音识别方法及语音遥控器 |
CN107195303A (zh) * | 2017-06-16 | 2017-09-22 | 北京云知声信息技术有限公司 | 语音处理方法及装置 |
Cited By (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108922540A (zh) * | 2018-07-27 | 2018-11-30 | 重庆柚瓣家科技有限公司 | 与老人用户进行连续ai对话的方法及系统 |
CN109344411A (zh) * | 2018-09-19 | 2019-02-15 | 深圳市合言信息科技有限公司 | 一种自动侦听式同声传译的翻译方法 |
CN109119070A (zh) * | 2018-10-19 | 2019-01-01 | 科大讯飞股份有限公司 | 一种语音端点检测方法、装置、设备及存储介质 |
CN109360551A (zh) * | 2018-10-25 | 2019-02-19 | 珠海格力电器股份有限公司 | 一种语音识别方法及装置 |
CN109473104B (zh) * | 2018-11-07 | 2021-11-30 | 思必驰科技股份有限公司 | 语音识别网络延时优化方法及装置 |
CN109473104A (zh) * | 2018-11-07 | 2019-03-15 | 苏州思必驰信息科技有限公司 | 语音识别网络延时优化方法及装置 |
CN111627463B (zh) * | 2019-02-28 | 2024-01-16 | 百度在线网络技术(北京)有限公司 | 语音vad尾点确定方法及装置、电子设备和计算机可读介质 |
CN111627463A (zh) * | 2019-02-28 | 2020-09-04 | 百度在线网络技术(北京)有限公司 | 语音vad尾点确定方法及装置、电子设备和计算机可读介质 |
CN109979474A (zh) * | 2019-03-01 | 2019-07-05 | 珠海格力电器股份有限公司 | 语音设备及其用户语速修正方法、装置和存储介质 |
CN111816172A (zh) * | 2019-04-10 | 2020-10-23 | 阿里巴巴集团控股有限公司 | 一种语音应答方法及装置 |
CN110047470A (zh) * | 2019-04-11 | 2019-07-23 | 深圳市壹鸽科技有限公司 | 一种语音端点检测方法 |
CN110223697B (zh) * | 2019-06-13 | 2022-04-22 | 思必驰科技股份有限公司 | 人机对话方法及系统 |
CN110223697A (zh) * | 2019-06-13 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 人机对话方法及系统 |
CN110310632A (zh) * | 2019-06-28 | 2019-10-08 | 联想(北京)有限公司 | 语音处理方法及装置、以及电子设备 |
CN110517673B (zh) * | 2019-07-18 | 2023-08-18 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN110517673A (zh) * | 2019-07-18 | 2019-11-29 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN112242139A (zh) * | 2019-07-19 | 2021-01-19 | 北京儒博科技有限公司 | 语音交互方法、装置、设备和介质 |
CN112242139B (zh) * | 2019-07-19 | 2024-01-23 | 北京如布科技有限公司 | 语音交互方法、装置、设备和介质 |
CN110619873A (zh) * | 2019-08-16 | 2019-12-27 | 北京小米移动软件有限公司 | 音频处理方法、装置及存储介质 |
US11264027B2 (en) | 2019-08-16 | 2022-03-01 | Beijing Xiaomi Mobile Software Co., Ltd. | Method and apparatus for determining target audio data during application waking-up |
WO2021031308A1 (zh) * | 2019-08-16 | 2021-02-25 | 北京小米移动软件有限公司 | 音频处理方法、装置及存储介质 |
CN110428853A (zh) * | 2019-08-30 | 2019-11-08 | 北京太极华保科技股份有限公司 | 语音活性检测方法、语音活性检测装置以及电子设备 |
US11620984B2 (en) | 2019-09-03 | 2023-04-04 | Beijing Dajia Internet Information Technology Co., Ltd. | Human-computer interaction method, and electronic device and storage medium thereof |
CN110634483B (zh) * | 2019-09-03 | 2021-06-18 | 北京达佳互联信息技术有限公司 | 人机交互方法、装置、电子设备及存储介质 |
CN110634483A (zh) * | 2019-09-03 | 2019-12-31 | 北京达佳互联信息技术有限公司 | 人机交互方法、装置、电子设备及存储介质 |
WO2021063101A1 (zh) * | 2019-09-30 | 2021-04-08 | 华为技术有限公司 | 基于人工智能的语音断点检测方法、装置和设备 |
WO2021098318A1 (zh) * | 2019-11-21 | 2021-05-27 | 北京沃东天骏信息技术有限公司 | 应答方法、终端及存储介质 |
CN112567457B (zh) * | 2019-12-13 | 2021-12-10 | 华为技术有限公司 | 语音检测方法、预测模型的训练方法、装置、设备及介质 |
CN112567457A (zh) * | 2019-12-13 | 2021-03-26 | 华为技术有限公司 | 语音检测方法、预测模型的训练方法、装置、设备及介质 |
CN111292729A (zh) * | 2020-02-06 | 2020-06-16 | 北京声智科技有限公司 | 音频数据流的处理方法和装置 |
CN111583923B (zh) * | 2020-04-28 | 2023-11-14 | 北京小米松果电子有限公司 | 信息控制方法及装置、存储介质 |
CN111583923A (zh) * | 2020-04-28 | 2020-08-25 | 北京小米松果电子有限公司 | 信息控制方法及装置、存储介质 |
CN111968680A (zh) * | 2020-08-14 | 2020-11-20 | 北京小米松果电子有限公司 | 一种语音处理方法、装置及存储介质 |
CN112382279B (zh) * | 2020-11-24 | 2021-09-14 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN112382279A (zh) * | 2020-11-24 | 2021-02-19 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN112614490A (zh) * | 2020-12-09 | 2021-04-06 | 北京罗克维尔斯科技有限公司 | 生成语音指令的方法、装置、介质、设备、系统及车辆 |
CN112614490B (zh) * | 2020-12-09 | 2024-04-16 | 北京罗克维尔斯科技有限公司 | 生成语音指令的方法、装置、介质、设备、系统及车辆 |
CN112700769A (zh) * | 2020-12-26 | 2021-04-23 | 科大讯飞股份有限公司 | 一种语义理解方法、装置、设备以及计算机可读存储介质 |
CN112995419B (zh) * | 2021-02-05 | 2022-05-24 | 支付宝(杭州)信息技术有限公司 | 一种语音对话的处理方法和系统 |
CN112995419A (zh) * | 2021-02-05 | 2021-06-18 | 支付宝(杭州)信息技术有限公司 | 一种语音对话的处理方法和系统 |
CN113241071A (zh) * | 2021-05-10 | 2021-08-10 | 湖北亿咖通科技有限公司 | 一种语音处理方法、电子设备及存储介质 |
CN113393840B (zh) * | 2021-08-17 | 2021-11-05 | 硕广达微电子(深圳)有限公司 | 一种基于语音识别的移动终端控制系统及方法 |
CN113393840A (zh) * | 2021-08-17 | 2021-09-14 | 硕广达微电子(深圳)有限公司 | 一种基于语音识别的移动终端控制系统及方法 |
EP4160591A1 (en) * | 2021-09-30 | 2023-04-05 | GN Audio A/S | Conversation engine and related methods |
WO2023092399A1 (zh) * | 2021-11-25 | 2023-06-01 | 华为技术有限公司 | 语音识别方法、语音识别装置及系统 |
CN115132178B (zh) * | 2022-07-15 | 2023-01-10 | 科讯嘉联信息技术有限公司 | 一种基于深度学习的语义端点检测系统 |
CN115132178A (zh) * | 2022-07-15 | 2022-09-30 | 科讯嘉联信息技术有限公司 | 一种基于深度学习的语义端点检测系统 |
CN115512687A (zh) * | 2022-11-08 | 2022-12-23 | 之江实验室 | 一种语音断句方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108257616A (zh) | 人机对话的检测方法以及装置 | |
CN108962255B (zh) | 语音会话的情绪识别方法、装置、服务器和存储介质 | |
US20200211554A1 (en) | Context-based device arbitration | |
US11776540B2 (en) | Voice control of remote device | |
US11138977B1 (en) | Determining device groups | |
US11817094B2 (en) | Automatic speech recognition with filler model processing | |
US10593328B1 (en) | Voice control of remote device | |
TWI576825B (zh) | 一種機器人系統的聲音識別系統及方法 | |
US10121494B1 (en) | User presence detection | |
US9437186B1 (en) | Enhanced endpoint detection for speech recognition | |
Aloufi et al. | Emotionless: Privacy-preserving speech analysis for voice assistants | |
US20190355352A1 (en) | Voice and conversation recognition system | |
US20030120486A1 (en) | Speech recognition system and method | |
JP2018523156A (ja) | 言語モデルスピーチエンドポインティング | |
KR20170103209A (ko) | 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법 | |
CN107016070A (zh) | 一种用于智能机器人的人机对话方法及装置 | |
CN116417003A (zh) | 语音交互系统、方法、电子设备和存储介质 | |
US10504520B1 (en) | Voice-controlled communication requests and responses | |
CN114330371A (zh) | 基于提示学习的会话意图识别方法、装置和电子设备 | |
WO2023029615A1 (zh) | 语音唤醒的方法、装置、设备、存储介质及程序产品 | |
US11044567B1 (en) | Microphone degradation detection and compensation | |
CN111949778A (zh) | 一种基于用户情绪的智能语音对话方法、装置及电子设备 | |
CN111276156A (zh) | 一种实时语音流监控的方法 | |
WO2022222045A1 (zh) | 语音信息处理方法及设备 | |
US9218807B2 (en) | Calibration of a speech recognition engine using validated text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215000 4th floor, building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Suzhou turnip Electronic Technology Co.,Ltd. Address before: 215123 unit 4-b202, creative industry park, 328 Xinghu street, Suzhou Industrial Park, Jiangsu Province Applicant before: SUZHOU CARROBOT AUTOMOTIVE ELECTRONICS TECHNOLOGY Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180706 |