CN112581938B - 基于人工智能的语音断点检测方法、装置和设备 - Google Patents
基于人工智能的语音断点检测方法、装置和设备 Download PDFInfo
- Publication number
- CN112581938B CN112581938B CN201910940498.2A CN201910940498A CN112581938B CN 112581938 B CN112581938 B CN 112581938B CN 201910940498 A CN201910940498 A CN 201910940498A CN 112581938 B CN112581938 B CN 112581938B
- Authority
- CN
- China
- Prior art keywords
- training
- model
- training corpus
- corpus
- semantic integrity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 93
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 55
- 230000004044 response Effects 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 197
- 238000000034 method Methods 0.000 claims description 48
- 238000002372 labelling Methods 0.000 claims description 45
- 210000002569 neuron Anatomy 0.000 claims description 31
- 238000003062 neural network model Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 235000004257 Cordia myxa Nutrition 0.000 description 2
- 244000157795 Cordia myxa Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种基于人工智能的语音断点检测方法、装置和设备,上述基于人工智能的语音断点检测方法中,通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测,进而在确定上述概率高于预定阈值的候选结果语义完整之后,对上述概率高于预定阈值的候选结果进行自然语言理解,获得上述概率高于预定阈值的候选结果对应的意图。最后,根据上述概率高于预定阈值的候选结果和对应的意图,获得上述查询语句对应的响应。从而可以根据语义完整性来动态判断用户说话是否结束,可以更加准确地识别用户的真实意图,也可以在用户说话重复,拖音等场景下准确判断用户说话是否结束,进而可以提高用户体验。
Description
技术领域
本申请涉及人工智能中的语音识别技术领域,特别涉及基于人工智能的语音断点检测方法、装置和设备。
背景技术
自动语音识别技术(Automatic Speech Recognition;以下简称:ASR)是一种将人的语音转换为文本的技术。ASR语音识别服务,往往是通过唤醒词或按键触发的,而说话的结束点(Endpoint;以下简称:EP),则依赖于ASR的自动检测。
现有相关技术中的EP检测方案主要基于语音活动检测(Voice ActivityDetection;以下简称:VAD),现有相关技术中主要有两种语音断点检测方案:基于静音的检测方法,以及基于韵律和语气的检测方法。
但是,现有相关技术基于声学模型进行有效的人声检测,或基于韵律或语气进行补充预测,在实际应用中存在以下缺点:
1)对于说话人说话重复和/或拖音等场景的识别有效性不高,易于出错,用户体验不自然;
2)声学模型不理解用户的说话内容,只是基于音频流本身去判断,误判错判的概率较高,偏差较大。
发明内容
本申请提供了一种基于人工智能的语音断点检测方法、装置和设备,本申请还提供一种计算机可读存储介质,以实现更加准确地识别用户的真实意图,也可以在用户说话重复,拖音等场景下准确判断用户说话是否结束,进而可以提高用户体验。
第一方面,本申请提供了一种基于人工智能的语音断点检测方法,包括:获取用户输入的查询语句;
对所述查询语句进行语音识别,获得所述查询语句的至少一个候选结果和每个候选结果对应的概率;
通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测;
在确定所述概率高于预定阈值的候选结果语义完整之后,对所述概率高于预定阈值的候选结果进行自然语言理解,获得所述概率高于预定阈值的候选结果对应的意图;本申请中,上述预先训练的语义完整性模型根据语义完整性来动态判断用户说话是否结束,可以更加准确地识别用户的真实意图,也可以在用户说话重复,拖音等场景下准确判断用户说话是否结束,进而可以提高用户体验;
根据所述概率高于预定阈值的候选结果和对应的意图,获得所述查询语句对应的响应。
上述基于人工智能的语音断点检测方法中,通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测,进而在确定上述概率高于预定阈值的候选结果语义完整之后,对上述概率高于预定阈值的候选结果进行自然语言理解,获得上述概率高于预定阈值的候选结果对应的意图。最后,根据上述概率高于预定阈值的候选结果和对应的意图,获得上述查询语句对应的响应。从而可以根据语义完整性来动态判断用户说话是否结束,可以更加准确地识别用户的真实意图,也可以在用户说话重复,拖音等场景下准确判断用户说话是否结束,进而可以提高用户体验。
其中一种可能的实现方式中,所述通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测之前,还包括:
利用训练语料对待训练的语义完整性模型进行训练,获得训练好的语义完整性模型。
其中一种可能的实现方式中,所述训练语料是由完整语料拆分获得的;在具体实现时,可以通过分词、语音停顿等将完整语料进行拆分,获得上述训练语料。
所述利用训练语料对待训练的语义完整性模型进行训练,获得训练好的语义完整性模型包括:
对所述训练语料进行标注,所述训练语料的标注信息包括所述训练语料的完整性;
通过标注后的训练语料对待训练的语义完整性模型进行训练;具体地,可以将上述训练语料输入上述待训练的语义完整性模型,然后通过调整上述待训练的语义完整性模型的参数,使得待训练的语义完整性模型输出的上述训练语料的完整性逼近上述训练语料的标注信息中包括的完整性;
当所述语义完整性模型获得的所述训练语料的完整性,与所述训练语料的标注信息中包括的完整性之间的误差小于预定的误差阈值时,获得训练好的语义完整性模型。
其中一种可能的实现方式中,所述对训练语料进行标注之前,还包括:
对每一条训练语料,统计所述训练语料作为完整句出现的频次,以及所述训练语料作为不完整子句出现的频次;
根据所述训练语料作为完整句出现的频次,以及所述训练语料作为不完整子句出现的频次,确定所述训练语料的完整性。具体地,可以计算上述训练语料作为完整句出现的频次与上述训练语料作为不完整子句出现的频次之间的比值,以上述比值作为上述训练语料的完整性。
其中一种可能的实现方式中,所述预先训练的语义完整性模型通过语义表示模型和神经网络模型训练获得。具体地,上述语义表示模型可以为基于转换器(Transformer)的双向编码器表征(Bidirectional Encoder Representation from Transformers;以下简称:BERT)模型,上述神经网络模型可以为自归一化卷积神经网络(Self-normalizingConvolutional Neural Networks;以下简称:SCNN)模型。
其中一种可能的实现方式中,所述方法还包括:
在所述语义完整性模型的训练过程中,根据所述神经网络模型中神经元的输入数据的权重,丢弃权重低于预定的权重阈值的神经元。具体地,可以对图6中SCNN模型中的神经元进行排序,将丢弃(Dropout)应用于那些重要性较低的神经元,能鼓励神经网络学习更重要的权重或神经元。在具体实现时,可以根据神经元的输入数据的权重对上述神经元进行排序,丢弃权重低于预定的权重阈值的神经元。
第二方面,本申请提供一种基于人工智能的语音断点检测装置,包括:
获取模块,用于获取用户输入的查询语句;
语音识别模块,用于对所述查询语句进行语音识别,获得所述查询语句的至少一个候选结果和每个候选结果对应的概率;
完整性检测模块,用于通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测;
意图识别模块,用于在所述完整性检测模块确定所述概率高于预定阈值的候选结果语义完整之后,对所述概率高于预定阈值的候选结果进行自然语言理解,获得所述概率高于预定阈值的候选结果对应的意图;
查询模块,用于根据所述概率高于预定阈值的候选结果和对应的意图,获得所述查询语句对应的响应。
其中一种可能的实现方式中,所述装置还包括:
训练模块,用于在所述完整性检测模块通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测之前,利用训练语料对待训练的语义完整性模型进行训练,获得训练好的语义完整性模型。
其中一种可能的实现方式中,所述训练语料是由完整语料拆分获得的;
所述训练模块包括:
语料标注子模块,用于对所述训练语料进行标注,所述训练语料的标注信息包括所述训练语料的完整性;
模型训练子模块,用于通过所述语料标注子模块标注后的训练语料对待训练的语义完整性模型进行训练;当所述语义完整性模型获得的所述训练语料的完整性,与所述训练语料的标注信息中包括的完整性之间的误差小于预定的误差阈值时,获得训练好的语义完整性模型。
其中一种可能的实现方式中,所述训练模块还包括:
统计子模块,用于在所述语料标注子模块对训练语料进行标注之前,对每一条训练语料,统计所述训练语料作为完整句出现的频次,以及所述训练语料作为不完整子句出现的频次;
完整性确定子模块,用于根据所述训练语料作为完整句出现的频次,以及所述训练语料作为不完整子句出现的频次,确定所述训练语料的完整性。
其中一种可能的实现方式中,所述预先训练的语义完整性模型通过语义表示模型和神经网络模型训练获得。
其中一种可能的实现方式中,所述训练模块还包括:
丢弃子模块,用于在所述语义完整性模型的训练过程中,根据所述神经网络模型中神经元的输入数据的权重,丢弃权重低于预定的权重阈值的神经元。
第三方面,本申请提供一种基于人工智能的语音断点检测设备,包括:
一个或多个处理器;存储器;多个应用程序;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行以下步骤:
获取用户输入的查询语句;
对所述查询语句进行语音识别,获得所述查询语句的至少一个候选结果和每个候选结果对应的概率;
通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测;
在确定所述概率高于预定阈值的候选结果语义完整之后,对所述概率高于预定阈值的候选结果进行自然语言理解,获得所述概率高于预定阈值的候选结果对应的意图;
根据所述概率高于预定阈值的候选结果和对应的意图,获得所述查询语句对应的响应。
其中一种可能的实现方式中,当所述指令被所述设备执行时,使得所述设备具体执行以下步骤:
在通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测之前,利用训练语料对待训练的语义完整性模型进行训练,获得训练好的语义完整性模型。
其中一种可能的实现方式中,所述训练语料是由完整语料拆分获得的;当所述指令被所述设备执行时,使得所述设备具体执行以下步骤:
对所述训练语料进行标注,所述训练语料的标注信息包括所述训练语料的完整性;
通过标注后的训练语料对待训练的语义完整性模型进行训练;
当所述语义完整性模型获得的所述训练语料的完整性,与所述训练语料的标注信息中包括的完整性之间的误差小于预定的误差阈值时,获得训练好的语义完整性模型。
其中一种可能的实现方式中,当所述指令被所述设备执行时,使得所述设备具体执行以下步骤:
所述对训练语料进行标注之前,对每一条训练语料,统计所述训练语料作为完整句出现的频次,以及所述训练语料作为不完整子句出现的频次;
根据所述训练语料作为完整句出现的频次,以及所述训练语料作为不完整子句出现的频次,确定所述训练语料的完整性。
其中一种可能的实现方式中,所述预先训练的语义完整性模型通过语义表示模型和神经网络模型训练获得。
其中一种可能的实现方式中,当所述指令被所述设备执行时,使得所述设备具体执行以下步骤:
在所述语义完整性模型的训练过程中,根据所述神经网络模型中神经元的输入数据的权重,丢弃权重低于预定的权重阈值的神经元。
应当理解的是,本申请的第二至三方面与本申请的第一方面的技术方案一致,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。
第四方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如第一方面所述的方法。
第五方面,本申请提供一种计算机程序,当所述计算机程序被计算机执行时,用于执行第一方面所述的方法。
在一种可能的设计中,第五方面中的程序可以全部或者部分存储在与处理器封装在一起的存储介质上,也可以部分或者全部存储在不与处理器封装在一起的存储器上。
附图说明
图1为本申请基于人工智能的语音断点检测方法的交互场景示意图;
图2为本申请基于人工智能的语音断点检测方法一个实施例的流程图;
图3为本申请基于人工智能的语音断点检测方法中语言识别的实现示意图;
图4为本申请基于人工智能的语音断点检测方法另一个实施例的流程图;
图5为本申请基于人工智能的语音断点检测方法再一个实施例的流程图;
图6为本申请基于人工智能的语音断点检测方法中语义完整性模型的结构示意图;
图7为本申请基于人工智能的语音断点检测装置一个实施例的结构示意图;
图8为本申请基于人工智能的语音断点检测装置另一个实施例的结构示意图;
图9为本申请基于人工智能的语音断点检测设备一个实施例的结构示意图。
具体实施方式
本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
本申请提供一种基于人工智能的语音断点检测方法,在传统声学模型的基础上,使用语义完整性模型对用户输入的查询语句进行查询,基于语义完整性来动态判断用户说话是否结束,可以更加准确的识别用户的真实意图,对于用户说话重复,拖音等场景,也可以较好的适应。
本申请适用于交互式语音场景下用户语音流结束点的动态判断,交互的场景可以如图1所示,图1为本申请基于人工智能的语音断点检测方法的交互场景示意图。本申请,在原音频流的接入点,语音接入服务器分流一份语音流到“语义VAD引擎”,语义VAD引擎基于该部分音频流的输入,经过声学模型判断、语言模型判断和垂类判断三个层级,触发是否产生VAD消息。如果VAD消息被触发,VAD消息会被语音接入服务器转发给用户使用的电子设备侧停止收音,也会被转发给ASR引擎停止解析,并进入自然语言理解(Natural LanguageUnderstanding;以下简称:NLU)阶段。
图2为本申请基于人工智能的语音断点检测方法一个实施例的流程图,如图2所示,上述基于人工智能的语音断点检测方法可以包括:
步骤201,获取用户输入的查询语句。
具体地,上述查询语句可以是用户通过语音输入的查询语句。参见图1,用户可以打开用户所使用的电子设备上安装的语音类应用(Voice App),然后,通过语音输入上述查询语句。
其中,上述用户使用的电子设备可以包括移动终端(手机)、智慧屏、无人机、智能网联车(Intelligent Connected Vehicle;以下简称:ICV)、智能(汽)车(smart/intelligent car)或车载设备等设备。
步骤202,对所述查询语句进行语音识别,获得上述查询语句的至少一个候选结果和每个候选结果对应的概率。
具体地,可以通过声学模型对上述查询语句进行语音识别,获得上述查询语句的至少一个候选结果和每个候选结果对应的概率。
参见图3,图3为本申请基于人工智能的语音断点检测方法中语言识别的实现示意图,如图3所示,声学模型获取上述查询语句之后,通过隐马尔可夫模型(Hidden MarkovModel;以下简称:HMM)对齐预标注、端到端查询结束点(End of Query;以下简称:EOQ)信号、语料增强和双向波网(WaveNet)模型对上述查询语句进行语音识别,获得上述查询语句的至少一个候选结果和每个候选结果对应的概率。
举例来说,假设上述查询语句为“今天天气怎么样”,那么声学模型输出的至少一个候选结果和每个候选结果对应的概率可以包括“今天天气怎么样;对应的概率为:90%”和“后天天气怎么样;对应的概率为75%”等。
步骤203,通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测。
具体地,继续参见图3,对于声学模型获得的上述查询语句的至少一个候选结果和每个候选结果对应的概率,可以通过语言模型中的通用语言模型从上述至少一个候选结果中获取概率高于预定阈值的候选结果,然后将概率高于预定阈值的候选结果送入预先训练的语义完整性模型进行语义完整性检测。
其中,上述预定阈值可以在具体实现时根据系统性能和/或实现需求等自行设定,本实施例对上述预定阈值的大小不作限定,举例来说,上述预定阈值可以为80%。
当然在具体实现时,上述语言模型中的通用语言模型也可以从上述至少一个候选结果中获取概率最高的候选结果,送入预先训练的语义完整性模型进行语义完整性检测。
步骤204,在确定上述概率高于预定阈值的候选结果语义完整之后,对上述概率高于预定阈值的候选结果进行自然语言理解,获得上述概率高于预定阈值的候选结果对应的意图。
本实施例中,上述预先训练的语义完整性模型根据语义完整性来动态判断用户说话是否结束,可以更加准确地识别用户的真实意图,也可以在用户说话重复,拖音等场景下准确判断用户说话是否结束,进而可以提高用户体验。
步骤205,根据上述概率高于预定阈值的候选结果和对应的意图,获得上述查询语句对应的响应。
上述基于人工智能的语音断点检测方法中,通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测,进而在确定上述概率高于预定阈值的候选结果语义完整之后,对上述概率高于预定阈值的候选结果进行自然语言理解,获得上述概率高于预定阈值的候选结果对应的意图。最后,根据上述概率高于预定阈值的候选结果和对应的意图,获得上述查询语句对应的响应。从而可以根据语义完整性来动态判断用户说话是否结束,可以更加准确地识别用户的真实意图,也可以在用户说话重复,拖音等场景下准确判断用户说话是否结束,进而可以提高用户体验。
图4为本申请基于人工智能的语音断点检测方法另一个实施例的流程图,如图4所示,本申请图2所示实施例中,步骤203之前,还可以包括:
步骤401,利用训练语料对待训练的语义完整性模型进行训练,获得训练好的语义完整性模型。
具体地,上述训练语料是由完整语料拆分获得的;在具体实现时,可以通过分词、语音停顿等将完整语料进行拆分,获得上述训练语料。
下面继续参见图5,对语义完整性模型的训练过程进行介绍。
图5为本申请基于人工智能的语音断点检测方法再一个实施例的流程图,如图5所示,本申请图4所示实施例中,步骤401可以包括:
步骤501,对训练语料进行标注,上述训练语料的标注信息包括上述训练语料的完整性。
步骤502,通过标注后的训练语料对待训练的语义完整性模型进行训练。
具体地,可以将上述训练语料输入上述待训练的语义完整性模型,然后通过调整上述待训练的语义完整性模型的参数,使得待训练的语义完整性模型输出的上述训练语料的完整性逼近上述训练语料的标注信息中包括的完整性。
步骤503,当上述语义完整性模型获得的上述训练语料的完整性,与上述训练语料的标注信息中包括的完整性之间的误差小于预定的误差阈值时,获得训练好的语义完整性模型。
其中,上述预定的误差阈值可以在具体实现时,根据系统性能和/或实现需求等自行设定,本实施例对上述预定的误差阈值的大小不作限定。
进一步地,步骤501之前,还可以包括:
步骤504,对每一条训练语料,统计上述训练语料作为完整句出现的频次,以及上述训练语料作为不完整子句出现的频次。
步骤505,根据上述训练语料作为完整句出现的频次,以及上述训练语料作为不完整子句出现的频次,确定上述训练语料的完整性。
具体地,可以计算上述训练语料作为完整句出现的频次与上述训练语料作为不完整子句出现的频次之间的比值,以上述比值作为上述训练语料的完整性。
进一步地,确定上述训练语料的完整性之后,就可以执行步骤501,将上述完整性标注在上述训练语料的标注信息中。
需要说明的是,本申请图2、图4和图5所示实施例中,上述预先训练的语义完整性模型可以通过语义表示模型和神经网络模型训练获得,具体地,上述语义表示模型可以为基于转换器(Transformer)的双向编码器表征(Bidirectional Encoder Representationfrom Transformers;以下简称:BERT)模型,上述神经网络模型可以为自归一化卷积神经网络(Self-normalizing Convolutional Neural Networks;以下简称:SCNN)模型。上述语义完整性模型的结构可以如图6所示,图6为本申请基于人工智能的语音断点检测方法中语义完整性模型的结构示意图。
从图6中可以看出,语义完整性模型的输入为字的序列,输出为完整性概率。其中,上述字的序列是由单句(Single Sentence)拆分获得的,上述完整性概率为上述单句的完整性概率。
在上述语义完整性模型的训练过程中,使用的激活函数为缩放指数型线性单元(Scaled Exponential Linear Units;以下简称:SELU),使语义完整性模型有更好的鲁棒性,抗噪声效果更好。
另外,在上述语义完整性模型的训练过程中,可以根据上述神经网络模型中神经元的输入数据的权重,丢弃权重低于预定的权重阈值的神经元。具体地,可以对图6中SCNN模型中的神经元进行排序,将丢弃(Dropout)应用于那些重要性较低的神经元,能鼓励神经网络学习更重要的权重或神经元。在具体实现时,可以根据神经元的输入数据的权重对上述神经元进行排序,丢弃权重低于预定的权重阈值的神经元。
其中,上述预定的权重阈值可以在具体实现时,根据系统性能和/或实现需求等自行设定,本实施例对上述预定的权重阈值的大小不作限定。
图7为本申请基于人工智能的语音断点检测装置一个实施例的结构示意图,如图7所示,上述基于人工智能的语音断点检测装置70可以包括:获取模块71、语音识别模块72、完整性检测模块73、意图识别模块74和查询模块75。应当理解的是,基于人工智能的语音断点检测装置70可以对应于图9的设备900。其中,获取模块71、语音识别模块72、完整性检测模块73、意图识别模块74和查询模块75的功能可以通过图9的设备900中的处理器910实现。
其中,获取模块71,用于获取用户输入的查询语句;具体地,上述查询语句可以是用户通过语音输入的查询语句。参见图1,用户可以打开用户所使用的电子设备上安装的语音类应用(Voice App),然后,通过语音输入上述查询语句。
其中,上述用户使用的电子设备可以包括移动终端(手机)、智慧屏、无人机、ICV、智能(汽)车(smart/intelligent car)或车载设备等设备。
语音识别模块72,用于对上述查询语句进行语音识别,获得上述查询语句的至少一个候选结果和每个候选结果对应的概率;具体地,语音识别模块72可以通过声学模型对上述查询语句进行语音识别,获得上述查询语句的至少一个候选结果和每个候选结果对应的概率。
参见图3,声学模型获取上述查询语句之后,通过HMM对齐预标注、端到端EOQ信号、语料增强和双向波网(WaveNet)模型对上述查询语句进行语音识别,获得上述查询语句的至少一个候选结果和每个候选结果对应的概率。
举例来说,假设上述查询语句为“今天天气怎么样”,那么声学模型输出的至少一个候选结果和每个候选结果对应的概率可以包括“今天天气怎么样;对应的概率为:90%”和“后天天气怎么样;对应的概率为75%”等。
完整性检测模块73,用于通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测;具体地,继续参见图3,对于声学模型获得的上述查询语句的至少一个候选结果和每个候选结果对应的概率,可以通过语言模型中的通用语言模型从上述至少一个候选结果中获取概率高于预定阈值的候选结果,然后将概率高于预定阈值的候选结果送入预先训练的语义完整性模型进行语义完整性检测。
其中,上述预定阈值可以在具体实现时根据系统性能和/或实现需求等自行设定,本实施例对上述预定阈值的大小不作限定,举例来说,上述预定阈值可以为80%。
当然在具体实现时,上述语言模型中的通用语言模型也可以从上述至少一个候选结果中获取概率最高的候选结果,送入预先训练的语义完整性模型进行语义完整性检测。
意图识别模块74,用于在完整性检测模块73确定上述概率高于预定阈值的候选结果语义完整之后,对概率高于预定阈值的候选结果进行自然语言理解,获得上述概率高于预定阈值的候选结果对应的意图;本实施例中,上述预先训练的语义完整性模型根据语义完整性来动态判断用户说话是否结束,可以更加准确地识别用户的真实意图,也可以在用户说话重复,拖音等场景下准确判断用户说话是否结束,进而可以提高用户体验。
查询模块75,用于根据上述概率高于预定阈值的候选结果和对应的意图,获得上述查询语句对应的响应。
上述基于人工智能的语音断点检测装置中,完整性检测模块73通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测,进而在确定上述概率高于预定阈值的候选结果语义完整之后,意图识别模块74对上述概率高于预定阈值的候选结果进行自然语言理解,获得上述概率高于预定阈值的候选结果对应的意图。最后,查询模块75根据上述概率高于预定阈值的候选结果和对应的意图,获得上述查询语句对应的响应。从而可以根据语义完整性来动态判断用户说话是否结束,可以更加准确地识别用户的真实意图,也可以在用户说话重复,拖音等场景下准确判断用户说话是否结束,进而可以提高用户体验。
图7所示实施例提供的基于人工智能的语音断点检测装置70可用于执行本申请图2所示方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
图8为本申请基于人工智能的语音断点检测装置另一个实施例的结构示意图,与图7所示的基于人工智能的语音断点检测装置不同,图8所示的基于人工智能的语音断点检测装置80还可以包括:训练模块76。应当理解的是,基于人工智能的语音断点检测装置70可以对应于图9的设备900。其中,获取模块71、语音识别模块72、完整性检测模块73、意图识别模块74、查询模块75和训练模块76的功能可以通过图9的设备900中的处理器910实现。
其中,训练模块76,用于在完整性检测模块73通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测之前,利用训练语料对待训练的语义完整性模型进行训练,获得训练好的语义完整性模型。
具体地,上述训练语料是由完整语料拆分获得的;在具体实现时,可以通过分词、语音停顿等将完整语料进行拆分,获得上述训练语料。
本实施例中,训练模块76可以包括:语料标注子模块761和模型训练子模块762;
语料标注子模块761,用于对上述训练语料进行标注,上述训练语料的标注信息包括上述训练语料的完整性;
模型训练子模块762,用于通过语料标注子模块761标注后的训练语料对待训练的语义完整性模型进行训练;当上述语义完整性模型获得的所述训练语料的完整性,与上述训练语料的标注信息中包括的完整性之间的误差小于预定的误差阈值时,获得训练好的语义完整性模型。
具体地,模型训练子模块762可以将上述训练语料输入上述待训练的语义完整性模型,然后通过调整上述待训练的语义完整性模型的参数,使得待训练的语义完整性模型输出的上述训练语料的完整性逼近上述训练语料的标注信息中包括的完整性。
其中,上述预定的误差阈值可以在具体实现时,根据系统性能和/或实现需求等自行设定,本实施例对上述预定的误差阈值的大小不作限定。
进一步地,上述训练模块76还可以包括:统计子模块763和完整性确定子模块764;
统计子模块763,用于在语料标注子模块761对训练语料进行标注之前,对每一条训练语料,统计上述训练语料作为完整句出现的频次,以及上述训练语料作为不完整子句出现的频次;
完整性确定子模块764,用于根据上述训练语料作为完整句出现的频次,以及上述训练语料作为不完整子句出现的频次,确定上述训练语料的完整性。
具体地,完整性确定子模块764可以计算上述训练语料作为完整句出现的频次与上述训练语料作为不完整子句出现的频次之间的比值,以上述比值作为上述训练语料的完整性。
进一步地,完整性确定子模块764确定上述训练语料的完整性之后,语料标注子模块761就可以将上述完整性标注在上述训练语料的标注信息中。
需要说明的是,上述预先训练的语义完整性模型可以通过语义表示模型和神经网络模型训练获得。具体地,上述语义表示模型可以为BERT模型,上述神经网络模型可以为SCNN。上述语义完整性模型的结构可以如图6所示,从图6中可以看出,语义完整性模型的输入为字的序列,输出为完整性概率。其中,上述字的序列是由单句(Single Sentence)拆分获得的,上述完整性概率为上述单句的完整性概率。
在上述语义完整性模型的训练过程中,使用的激活函数为SELU,使语义完整性模型有更好的鲁棒性,抗噪声效果更好。
进一步地,上述训练模块76还可以包括:丢弃子模块765;
丢弃子模块765,用于在上述语义完整性模型的训练过程中,根据上述神经网络模型中神经元的输入数据的权重,丢弃权重低于预定的权重阈值的神经元。具体地,可以对图6中SCNN模型中的神经元进行排序,将丢弃(Dropout)应用于那些重要性较低的神经元,能鼓励神经网络学习更重要的权重或神经元。在具体实现时,丢弃子模块765可以根据神经元的输入数据的权重对上述神经元进行排序,丢弃权重低于预定的权重阈值的神经元。
其中,上述预定的权重阈值可以在具体实现时,根据系统性能和/或实现需求等自行设定,本实施例对上述预定的权重阈值的大小不作限定。
图8所示实施例提供的基于人工智能的语音断点检测装置可用于执行本申请图2、图4和图5所示方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
应理解以上图7~图8所示的基于人工智能的语音断点检测装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块以软件通过处理元件调用的形式实现,部分模块通过硬件的形式实现。例如,模块可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit;以下简称:ASIC),或,一个或多个微处理器(Digital Singnal Processor;以下简称:DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。再如,这些模块可以集成在一起,以片上系统(System-On-a-Chip;以下简称:SOC)的形式实现。
图9为本申请基于人工智能的语音断点检测设备一个实施例的结构示意图,上述基于人工智能的语音断点检测设备可以包括:一个或多个处理器;存储器;多个应用程序;以及一个或多个计算机程序。
其中,上述基于人工智能的语音断点检测设备可以是电子设备也可以是内置于上述电子设备的电路设备。上述电子设备可以为云服务器、移动终端(手机)、智慧屏、无人机、ICV、智能(汽)车或车载设备等设备。
本实施例对上述基于人工智能的语音断点检测设备的具体形式不作限定。
其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行以下步骤:获取用户输入的查询语句;
对上述查询语句进行语音识别,获得上述查询语句的至少一个候选结果和每个候选结果对应的概率;
通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测;
在确定上述概率高于预定阈值的候选结果语义完整之后,对上述概率高于预定阈值的候选结果进行自然语言理解,获得上述概率高于预定阈值的候选结果对应的意图;
根据上述概率高于预定阈值的候选结果和对应的意图,获得上述查询语句对应的响应。
在一种可能的实现方式中,当上述指令被所述设备执行时,使得所述设备具体执行以下步骤:
在通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测之前,利用训练语料对待训练的语义完整性模型进行训练,获得训练好的语义完整性模型。
在一种可能的实现方式中,所述训练语料是由完整语料拆分获得的;当所述指令被所述设备执行时,使得所述设备具体执行以下步骤:
对所述训练语料进行标注,所述训练语料的标注信息包括所述训练语料的完整性;
通过标注后的训练语料对待训练的语义完整性模型进行训练;
当所述语义完整性模型获得的所述训练语料的完整性,与所述训练语料的标注信息中包括的完整性之间的误差小于预定的误差阈值时,获得训练好的语义完整性模型。
在一种可能的实现方式中,当所述指令被所述设备执行时,使得所述设备具体执行以下步骤:
所述对训练语料进行标注之前,对每一条训练语料,统计所述训练语料作为完整句出现的频次,以及所述训练语料作为不完整子句出现的频次;
根据所述训练语料作为完整句出现的频次,以及所述训练语料作为不完整子句出现的频次,确定所述训练语料的完整性。
在一种可能的实现方式中,所述预先训练的语义完整性模型通过语义表示模型和神经网络模型训练获得。
在一种可能的实现方式中,当所述指令被所述设备执行时,使得所述设备具体执行以下步骤:
在所述语义完整性模型的训练过程中,根据所述神经网络模型中神经元的输入数据的权重,丢弃权重低于预定的权重阈值的神经元。
上述基于人工智能的语音断点检测设备可以用于执行本申请图2、图4和图5所示实施例提供的方法中的功能/步骤。
如图9所示,基于人工智能的语音断点检测设备900包括处理器910和存储器930。其中,处理器910和存储器930之间可以通过内部连接通路互相通信,传递控制和/或数据信号,该存储器930用于存储计算机程序,该处理器910用于从该存储器930中调用并运行该计算机程序。
上述处理器910可以和存储器930可以合成一个处理装置,更常见的是彼此独立的部件,处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时,该存储器930也可以集成在处理器910中,或者,独立于处理器910。
除此之外,为了使得基于人工智能的语音断点检测设备900的功能更加完善,该基于人工智能的语音断点检测设备900还可以包括输入单元960、显示单元970、音频电路980、摄像头990和传感器901等中的一个或多个,所述音频电路还可以包括扬声器982、麦克风984等。其中,显示单元970可以包括显示屏。
可选地,上述基于人工智能的语音断点检测设备900还可以包括电源950,用于给基于人工智能的语音断点检测设备900中的各种器件或电路提供电源。
应理解,图9所示的基于人工智能的语音断点检测设备900能够实现图2、图4和图5所示实施例提供的方法的各个过程。基于人工智能的语音断点检测设备900中的各个模块的操作和/或功能,分别为了实现上述方法实施例中的相应流程。具体可参见图2、图4和图5所示方法实施例中的描述,为避免重复,此处适当省略详细描述。
应理解,图9所示的基于人工智能的语音断点检测设备900中的处理器910可以是片上系统SOC,该处理器910中可以包括中央处理器(Central Processing Unit;以下简称:CPU),还可以进一步包括其他类型的处理器,例如:图像处理器(Graphics ProcessingUnit;以下简称:GPU)等。
总之,处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程,且各部分处理器或处理单元相应的软件程序可存储在存储器930中。
以上各实施例中,涉及的处理器可以例如包括CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units;以下简称:NPU)和图像信号处理器(Image Signal Processing;以下简称:ISP),该处理器还可包括必要的硬件加速器或逻辑处理硬件电路,如ASIC,或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储介质中。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行本申请图2、图4和图5所示实施例提供的方法。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,当其在计算机上运行时,使得计算机执行本申请图2、图4和图5所示实施例提供的方法。
本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达,是指的这些项中的任意组合,包括单项或复数项的任意组合。例如,a,b和c中的至少一项可以表示:a,b,c,a和b,a和c,b和c或a和b和c,其中a,b,c可以是单个,也可以是多个。
本领域普通技术人员可以意识到,本文中公开的实施例中描述的各单元及算法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。
Claims (13)
1.一种基于人工智能的语音断点检测方法,其特征在于,包括:
获取用户输入的查询语句;
对所述查询语句进行语音识别,获得所述查询语句的至少一个候选结果和每个候选结果对应的概率;
通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测;
在确定所述概率高于预定阈值的候选结果语义完整之后,对所述概率高于预定阈值的候选结果进行自然语言理解,获得所述概率高于预定阈值的候选结果对应的意图;
根据所述概率高于预定阈值的候选结果和对应的意图,获得所述查询语句对应的响应;
其中,所述通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测之前,还包括:
利用训练语料对待训练的语义完整性模型进行训练,获得训练好的语义完整性模型;
所述训练语料是由完整语料拆分获得的;
所述利用训练语料对待训练的语义完整性模型进行训练,获得训练好的语义完整性模型包括:
对所述训练语料进行标注,所述训练语料的标注信息包括所述训练语料的完整性;
通过标注后的训练语料对待训练的语义完整性模型进行训练;
当所述语义完整性模型获得的所述训练语料的完整性,与所述训练语料的标注信息中包括的完整性之间的误差小于预定的误差阈值时,获得训练好的语义完整性模型。
2.根据权利要求1所述的方法,其特征在于,所述对所述训练语料进行标注之前,还包括:
对每一条训练语料,统计所述训练语料作为完整句出现的频次,以及所述训练语料作为不完整子句出现的频次;
根据所述训练语料作为完整句出现的频次,以及所述训练语料作为不完整子句出现的频次,确定所述训练语料的完整性。
3.根据权利要求1-2任意一项所述的方法,其特征在于,所述预先训练的语义完整性模型通过语义表示模型和神经网络模型训练获得。
4.根据权利要求3所述的方法,其特征在于,还包括:
在所述语义完整性模型的训练过程中,根据所述神经网络模型中神经元的输入数据的权重,丢弃权重低于预定的权重阈值的神经元。
5.一种基于人工智能的语音断点检测装置,其特征在于,包括:
获取模块,用于获取用户输入的查询语句;
语音识别模块,用于对所述查询语句进行语音识别,获得所述查询语句的至少一个候选结果和每个候选结果对应的概率;
完整性检测模块,用于通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测;
意图识别模块,用于在所述完整性检测模块确定所述概率高于预定阈值的候选结果语义完整之后,对所述概率高于预定阈值的候选结果进行自然语言理解,获得所述概率高于预定阈值的候选结果对应的意图;
查询模块,用于根据所述概率高于预定阈值的候选结果和对应的意图,获得所述查询语句对应的响应;
其中,所述装置还包括:
训练模块,用于在所述完整性检测模块通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测之前,利用训练语料对待训练的语义完整性模型进行训练,获得训练好的语义完整性模型;
所述训练语料是由完整语料拆分获得的;
所述训练模块包括:
语料标注子模块,用于对所述训练语料进行标注,所述训练语料的标注信息包括所述训练语料的完整性;
模型训练子模块,用于通过所述语料标注子模块标注后的训练语料对待训练的语义完整性模型进行训练;当所述语义完整性模型获得的所述训练语料的完整性,与所述训练语料的标注信息中包括的完整性之间的误差小于预定的误差阈值时,获得训练好的语义完整性模型。
6.根据权利要求5所述的装置,其特征在于,所述训练模块还包括:
统计子模块,用于在所述语料标注子模块对训练语料进行标注之前,对每一条训练语料,统计所述训练语料作为完整句出现的频次,以及所述训练语料作为不完整子句出现的频次;
完整性确定子模块,用于根据所述训练语料作为完整句出现的频次,以及所述训练语料作为不完整子句出现的频次,确定所述训练语料的完整性。
7.根据权利要求5-6任意一项所述的装置,其特征在于,所述预先训练的语义完整性模型通过语义表示模型和神经网络模型训练获得。
8.根据权利要求7所述的装置,其特征在于,所述训练模块还包括:
丢弃子模块,用于在所述语义完整性模型的训练过程中,根据所述神经网络模型中神经元的输入数据的权重,丢弃权重低于预定的权重阈值的神经元。
9.一种基于人工智能的语音断点检测设备,其特征在于,包括:
一个或多个处理器;存储器;多个应用程序;以及一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中,所述一个或多个计算机程序包括指令,当所述指令被所述设备执行时,使得所述设备执行以下步骤:
获取用户输入的查询语句;
对所述查询语句进行语音识别,获得所述查询语句的至少一个候选结果和每个候选结果对应的概率;
通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测;
在确定所述概率高于预定阈值的候选结果语义完整之后,对所述概率高于预定阈值的候选结果进行自然语言理解,获得所述概率高于预定阈值的候选结果对应的意图;
根据所述概率高于预定阈值的候选结果和对应的意图,获得所述查询语句对应的响应;
其中,当所述指令被所述设备执行时,使得所述设备具体执行以下步骤:
在通过预先训练的语义完整性模型,对概率高于预定阈值的候选结果进行语义完整性检测之前,利用训练语料对待训练的语义完整性模型进行训练,获得训练好的语义完整性模型;
所述训练语料是由完整语料拆分获得的;当所述指令被所述设备执行时,使得所述设备具体执行以下步骤:
对所述训练语料进行标注,所述训练语料的标注信息包括所述训练语料的完整性;
通过标注后的训练语料对待训练的语义完整性模型进行训练;
当所述语义完整性模型获得的所述训练语料的完整性,与所述训练语料的标注信息中包括的完整性之间的误差小于预定的误差阈值时,获得训练好的语义完整性模型。
10.根据权利要求9所述的设备,其特征在于,当所述指令被所述设备执行时,使得所述设备具体执行以下步骤:
所述对所述训练语料进行标注之前,对每一条训练语料,统计所述训练语料作为完整句出现的频次,以及所述训练语料作为不完整子句出现的频次;
根据所述训练语料作为完整句出现的频次,以及所述训练语料作为不完整子句出现的频次,确定所述训练语料的完整性。
11.根据权利要求9-10任意一项所述的设备,其特征在于,所述预先训练的语义完整性模型通过语义表示模型和神经网络模型训练获得。
12.根据权利要求11所述的设备,其特征在于,当所述指令被所述设备执行时,使得所述设备具体执行以下步骤:
在所述语义完整性模型的训练过程中,根据所述神经网络模型中神经元的输入数据的权重,丢弃权重低于预定的权重阈值的神经元。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如权利要求1-4任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910940498.2A CN112581938B (zh) | 2019-09-30 | 2019-09-30 | 基于人工智能的语音断点检测方法、装置和设备 |
PCT/CN2020/105907 WO2021063101A1 (zh) | 2019-09-30 | 2020-07-30 | 基于人工智能的语音断点检测方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910940498.2A CN112581938B (zh) | 2019-09-30 | 2019-09-30 | 基于人工智能的语音断点检测方法、装置和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112581938A CN112581938A (zh) | 2021-03-30 |
CN112581938B true CN112581938B (zh) | 2024-04-09 |
Family
ID=75116315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910940498.2A Active CN112581938B (zh) | 2019-09-30 | 2019-09-30 | 基于人工智能的语音断点检测方法、装置和设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112581938B (zh) |
WO (1) | WO2021063101A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115240716A (zh) * | 2021-04-23 | 2022-10-25 | 华为技术有限公司 | 语音检测方法、装置和存储介质 |
CN113362824B (zh) * | 2021-06-09 | 2024-03-12 | 深圳市同行者科技有限公司 | 一种语音识别方法、装置及终端设备 |
CN113284496B (zh) * | 2021-07-22 | 2021-10-12 | 广州小鹏汽车科技有限公司 | 语音控制方法、语音控制系统、车辆、服务器和存储介质 |
CN114171016B (zh) * | 2021-11-12 | 2022-11-25 | 北京百度网讯科技有限公司 | 语音交互的方法、装置、电子设备及存储介质 |
CN114528822B (zh) * | 2022-02-25 | 2024-02-06 | 平安科技(深圳)有限公司 | 客服机器人的对话流程控制方法、装置、服务器及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777013A (zh) * | 2016-12-07 | 2017-05-31 | 科大讯飞股份有限公司 | 对话管理方法和装置 |
CN107919130A (zh) * | 2017-11-06 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
CN108647207A (zh) * | 2018-05-08 | 2018-10-12 | 上海携程国际旅行社有限公司 | 自然语言修正方法、系统、设备及存储介质 |
CN109543010A (zh) * | 2018-10-22 | 2019-03-29 | 拓科(武汉)智能技术股份有限公司 | 融合数据库查询的人机对话方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9666192B2 (en) * | 2015-05-26 | 2017-05-30 | Nuance Communications, Inc. | Methods and apparatus for reducing latency in speech recognition applications |
CN107665706B (zh) * | 2016-07-29 | 2021-05-04 | 科大讯飞股份有限公司 | 快速语音交互方法及系统 |
CN107146602B (zh) * | 2017-04-10 | 2020-10-02 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
EP3577645B1 (en) * | 2017-06-06 | 2022-08-03 | Google LLC | End of query detection |
CN107195303B (zh) * | 2017-06-16 | 2021-08-20 | 云知声智能科技股份有限公司 | 语音处理方法及装置 |
CN107491547B (zh) * | 2017-08-28 | 2020-11-10 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
CN108257616A (zh) * | 2017-12-05 | 2018-07-06 | 苏州车萝卜汽车电子科技有限公司 | 人机对话的检测方法以及装置 |
CN109637519B (zh) * | 2018-11-13 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 语音交互实现方法、装置、计算机设备及存储介质 |
-
2019
- 2019-09-30 CN CN201910940498.2A patent/CN112581938B/zh active Active
-
2020
- 2020-07-30 WO PCT/CN2020/105907 patent/WO2021063101A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777013A (zh) * | 2016-12-07 | 2017-05-31 | 科大讯飞股份有限公司 | 对话管理方法和装置 |
CN107919130A (zh) * | 2017-11-06 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
CN108647207A (zh) * | 2018-05-08 | 2018-10-12 | 上海携程国际旅行社有限公司 | 自然语言修正方法、系统、设备及存储介质 |
CN109543010A (zh) * | 2018-10-22 | 2019-03-29 | 拓科(武汉)智能技术股份有限公司 | 融合数据库查询的人机对话方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112581938A (zh) | 2021-03-30 |
WO2021063101A1 (zh) | 2021-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112581938B (zh) | 基于人工智能的语音断点检测方法、装置和设备 | |
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
CN110136749B (zh) | 说话人相关的端到端语音端点检测方法和装置 | |
US11817094B2 (en) | Automatic speech recognition with filler model processing | |
CN111968679B (zh) | 情感识别方法、装置、电子设备及存储介质 | |
CN109273007B (zh) | 语音唤醒方法及装置 | |
US10685647B2 (en) | Speech recognition method and device | |
CN111312231B (zh) | 音频检测方法、装置、电子设备及可读存储介质 | |
JP2021515905A (ja) | 音声認識方法、並びにその装置、デバイス、記憶媒体及びプログラム | |
CN113168828A (zh) | 基于合成数据训练的会话代理管线 | |
CN112530408A (zh) | 用于识别语音的方法、装置、电子设备和介质 | |
KR20160145634A (ko) | 사용자 정의된 키워드를 검출하기 위한 키워드 모델 생성 | |
US11574637B1 (en) | Spoken language understanding models | |
CN110097870A (zh) | 语音处理方法、装置、设备和存储介质 | |
US12087305B2 (en) | Speech processing | |
CN108039181A (zh) | 一种声音信号的情感信息分析方法和装置 | |
CN112397053B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN111816216A (zh) | 语音活性检测方法和装置 | |
WO2024114303A1 (zh) | 音素识别方法、装置、电子设备及存储介质 | |
CN111640423B (zh) | 一种词边界估计方法、装置及电子设备 | |
CN114360514A (zh) | 语音识别方法、装置、设备、介质及产品 | |
CN111414748A (zh) | 话务数据处理方法及装置 | |
CN115547345A (zh) | 声纹识别模型训练及相关识别方法、电子设备和存储介质 | |
CN116913268A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN115762500A (zh) | 语音处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |