CN107195303B - 语音处理方法及装置 - Google Patents
语音处理方法及装置 Download PDFInfo
- Publication number
- CN107195303B CN107195303B CN201710458425.0A CN201710458425A CN107195303B CN 107195303 B CN107195303 B CN 107195303B CN 201710458425 A CN201710458425 A CN 201710458425A CN 107195303 B CN107195303 B CN 107195303B
- Authority
- CN
- China
- Prior art keywords
- recognition result
- voice recognition
- voice
- information
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 99
- 238000004458 analytical method Methods 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000012937 correction Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 24
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明是关于一种语音处理方法及装置,其中,方法包括:接收终端设备采集的包含用户意图的当前语音信息;对所述当前语音信息进行语音识别,得到第一语音识别结果;对所述第一语音识别结果进行语义解析,并根据语义解析结果确定所述第一语音识别结果中包含的用户意图的完整性;根据所述用户意图的完整性,确定是否立即执行所述第一语音识别结果对应的处理操作。通过该技术方案,可以保证在语音识别过程中能够理解用户的完整意图,从而满足用户的意图,提升用户的使用体验。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音处理方法及装置。
背景技术
相关技术中,在进行语音采集的过程中,客户端会发送结束命令,表示一句话结束,服务器可进行语义理解,返回理解结果。但是客户端判断结束的位置可能不准确,因为如果环境噪声比较大,语音采集有可能停不掉。或者用户在语句中间停顿(可能在思考),如导航到……东单,则语音采集可能在导航到的后面就结束,然后东单作为第二个句子再发送,这样会导致两个句子的语义理解都不完整,从而不能满足用户的意图。
发明内容
本发明实施例提供一种语音处理方法及装置,用以实现在语音识别过程中能够理解用户的完整意图,从而满足用户的意图,提升用户的使用体验。
根据本发明实施例的第一方面,提供一种语音处理方法,用于服务器,包括:
接收终端设备采集的包含用户意图的当前语音信息;
对所述当前语音信息进行语音识别,得到第一语音识别结果;
对所述第一语音识别结果进行语义解析,并根据语义解析结果确定所述第一语音识别结果中包含的用户意图的完整性;
根据所述用户意图的完整性,确定是否立即执行所述第一语音识别结果对应的处理操作。
在该实施例中,对当前语音信息进行语音识别得到第一语音识别结果,并根据第一语音识别结果中包含的用户意图的完整性确定是否立即执行该语音识别结果对应的处理操作,这样,可以保证在语音识别过程中能够理解用户的完整意图,从而满足用户的意图,提升用户的使用体验。
在一个实施例中,所述根据所述用户意图的完整性,确定是否立即执行所述第一语音识别结果对应的处理操作,包括:
当确定所述当前语音信息中包含的用户意图不完整时,立即执行所述第一语音识别结果对应的处理操作,并获取下一个语音信息对应的第二语音识别结果;
将所述第一语音识别结果和所述第二语音识别结果进行拼接处理,得到第三语音识别结果;
对所述第三语音识别结果进行语义解析,并根据语义解析结果确定所述第三语音识别结果中包含的用户意图的完整性;
当所述第三语音识别结果中包含的用户意图完整时,用所述第三语音识别结果修正所述第一语音识别结果,并执行所述第三语音识别结果对应的处理操作;
当所述第三语音识别结果中包含的用户意图不完整,则对所述第二语音识别结果进行语义解析。
在该实施例中,如果当前语音信息对应的语音识别结果中,包含的用户意图不完整,则可以先立即执行该语音信息对应的处理操作,如返回用户意图给终端设备,然后等待下一个语音信息对应的语音识别结果,将两个语音识别结果结合,如果结合后可以得到完整的用户意图,则执行结合后的语音识别结果对应的处理操作,从而可以保证在语音识别过程中能够理解用户的完整意图,从而满足用户的意图,提升用户的使用体验。
在一个实施例中,所述根据所述用户意图的完整性,确定是否立即执行所述第一语音识别结果对应的处理操作,包括:
当确定所述当前语音信息中包含的用户意图不完整时,等待预设时长;
确定在所述预设时长内,是否获取到下一个语音信息对应的第二语音识别结果;
当确定在所述预设时长内未获取到所述第二语音识别结果时,执行所述第一语音识别结果对应的处理操作;
当确定在所述预设时长内获取到所述第二语音识别结果时,将所述第一语音识别结果和所述第二语音识别结果进行拼接处理,得到第三语音识别结果;
对所述第三语音识别结果进行语义解析,并根据语义解析结果确定所述第三语音识别结果中包含的用户意图的完整性;
当所述第三语音识别结果中包含的用户意图完整时,执行所述第三语音识别结果对应的处理操作;
当所述第三语音识别结果中包含的用户意图不完整时,执行所述第一语音识别结果对应的处理操作,并对所述第二语音识别结果进行语义解析。
在该实施例中,在确定当前语音信息对应的第一语音识别结果中包含的用户意图不完整时,可以不立即执行该语音识别结果对应的处理操作,而是等待下一个语音识别结果的到来,如果在预设时长内获取到第二语音识别结果,则将两个语音识别结果拼接在一起进行语义解析,如果得到的用户意图完整,则执行拼接后的语音识别结果对应的处理操作,如果得到的用户意图不完整,则执行第一语音识别结果对应的处理操作,并将第二语音识别结果进行单独语义解析。而如果预设时长内未获取到第二语音识别结果,则直接执行第一语音识别结对应的处理操作。这样,可以尽量满足用户的意图,避免因解析一个语音结果造成的用户意图理解错误,提升用户的使用体验。
在一个实施例中,所述根据所述用户意图的完整性,确定是否立即执行所述第一语音识别结果对应的处理操作,还包括:
当在所述预设时长后获取到所述第二语音识别结果时,将所述第一语音识别结果和所述第二语音识别结果进行拼接处理,得到第三语音识别结果;
对所述第三语音识别结果进行语义解析,并根据语义解析结果确定所述第三语音识别结果中包含的用户意图的完整性;
当所述第三语音识别结果中包含的用户意图完整时用所述第三语音识别结果修正所述第一语音识别结果,并执行所述第三语音识别结果对应的处理操作;
当所述第三语音识别结果中包含的用户意图不完整时,对所述第二语音识别结果进行语义解析。
在该实施例中,在预设时长后收到第二语音识别结果时,也可以将第一语音识别结果和第二语音识别结果拼接到一起进行语义理解,如果得到的用户意图完整,则可以用两者结合后的第三语音识别结果修正第一语音识别结果,从而可以尽量满足用户的意图,避免因解析一个语音结果造成的用户意图理解错误,提升用户的使用体验。
在一个实施例中,所述方法还包括:
对所述第一语音识别结果进行语义解析,并根据语义解析结果确定所述第一语音识别结果中包含的用户意图的个数;
根据所述第一语音识别结果中包含的用户意图的个数对所述第一语音识别结果进行拆分处理,得到多个第四语音识别结果;
分别执行每个第四语音识别结果对应的处理操作。
在该实施例中,如果一个语音识别结果中包含多个意图,则可以将多个用户意图进行拆分,分别执行各个用户意图,进一步提升用户的使用体验。
在一个实施例中,对所述当前语音信息进行语音识别,得到第一语音识别结果,包括:
对所述当前语音信息进行语音识别,以生成所述当前语音信息对应的文本信息和静音信息;
根据所述文本信息、所述静音信息和所述文本信息中上下文之间的相关性,将所述文本信息划分为有效文本信息和非有效文本信息,其中,所述非有效文本信息包括静音信息和无效文本信息;
从所述文本信息中提取出所述有效文本信息,将所述有效文本信息确定为所述第一语音识别结果;
丢弃所述非有效文本信息。
在该实施例中,对语音信息进行识别,得到文本信息和静音信息,进而将文本信息划分为有效文本信息和非有效文本信息,从而将非有效文本信息丢弃,将有效文本信息作为语音识别结果,这样,使得语音识别结果更准确。
根据本发明实施例的第二方面,提供一种语音处理装置,包括:
接收模块,用于接收终端设备采集的包含用户意图的当前语音信息;
识别模块,用于对所述当前语音信息进行语音识别,得到第一语音识别结果;
解析模块,用于对所述第一语音识别结果进行语义解析,并根据语义解析结果确定所述第一语音识别结果中包含的用户意图的完整性;
第一确定模块,用于根据所述用户意图的完整性,确定是否立即执行所述第一语音识别结果对应的处理操作。
在一个实施例中,所述第一确定模块包括:
第一执行子模块,用于当确定所述当前语音信息中包含的用户意图不完整时,立即执行所述第一语音识别结果对应的处理操作,并获取下一个语音信息对应的第二语音识别结果;
第一拼接子模块,用于将所述第一语音识别结果和所述第二语音识别结果进行拼接处理,得到第三语音识别结果;
第一确定子模块,用于对所述第三语音识别结果进行语义解析,并根据语义解析结果确定所述第三语音识别结果中包含的用户意图的完整性;
第一修正子模块,用于当所述第三语音识别结果中包含的用户意图完整时,用所述第三语音识别结果修正所述第一语音识别结果,并执行所述第三语音识别结果对应的处理操作;
第一解析子模块,用于当所述第三语音识别结果中包含的用户意图不完整,则对所述第二语音识别结果进行语义解析。
在一个实施例中,所述第一确定模块包括:
等待子模块,用于当确定所述当前语音信息中包含的用户意图不完整时,等待预设时长;
第二确定子模块,用于确定在所述预设时长内,是否获取到下一个语音信息对应的第二语音识别结果;
第二执行子模块,用于当确定在所述预设时长内未获取到所述第二语音识别结果时,执行所述第一语音识别结果对应的处理操作;
第二拼接子模块,用于当确定在所述预设时长内获取到所述第二语音识别结果时,将所述第一语音识别结果和所述第二语音识别结果进行拼接处理,得到第三语音识别结果;
第四确定子模块,用于对所述第三语音识别结果进行语义解析,并根据语义解析结果确定所述第三语音识别结果中包含的用户意图的完整性;
第三执行子模块,用于当所述第三语音识别结果中包含的用户意图完整时,执行所述第三语音识别结果对应的处理操作;
第四执行子模块,用于当所述第三语音识别结果中包含的用户意图不完整时,执行所述第一语音识别结果对应的处理操作,并对所述第二语音识别结果进行语义解析。
在一个实施例中,所述第一确定模块还包括:
第三拼接子模块,用于当在所述预设时长后获取到所述第二语音识别结果时,将所述第一语音识别结果和所述第二语音识别结果进行拼接处理,得到第三语音识别结果;
第五确定子模块,用于对所述第三语音识别结果进行语义解析,并根据语义解析结果确定所述第三语音识别结果中包含的用户意图的完整性;
第二修正子模块,用于当所述第三语音识别结果中包含的用户意图完整时用所述第三语音识别结果修正所述第一语音识别结果,并执行所述第三语音识别结果对应的处理操作;
第二解析子模块,用于当所述第三语音识别结果中包含的用户意图不完整时,对所述第二语音识别结果进行语义解析。
在一个实施例中,所述装置还包括:
第二确定模块,用于对所述第一语音识别结果进行语义解析,并根据语义解析结果确定所述第一语音识别结果中包含的用户意图的个数;
拆分模块,用于根据所述第一语音识别结果中包含的用户意图的个数对所述第一语音识别结果进行拆分处理,得到多个第四语音识别结果;
执行模块,用于分别执行每个第四语音识别结果对应的处理操作。
在一个实施例中,所述识别模块包括:
生成子模块,用于对所述当前语音信息进行语音识别,以生成所述当前语音信息对应的文本信息和静音信息;
划分子模块,用于根据所述文本信息、所述静音信息和所述文本信息中上下文之间的相关性,将所述文本信息划分为有效文本信息和非有效文本信息,其中,所述非有效文本信息包括静音信息和无效文本信息;
提取子模块,用于从所述文本信息中提取出所述有效文本信息,将所述有效文本信息确定为所述第一语音识别结果;
丢弃子模块,用于丢弃所述非有效文本信息。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种语音处理方法的流程图。
图2是根据一示例性实施例示出的一种语音处理方法中步骤S104的流程图。
图3是根据一示例性实施例示出的一种语音处理方法中步骤S104的流程图。
图4是根据一示例性实施例示出的另一种语音处理方法中步骤S104的流程图。
图5是根据一示例性实施例示出的另一种语音处理方法的流程图。
图6是根据一示例性实施例示出的一种语音处理方法中步骤S102的流程图。
图7是根据一示例性实施例示出的一种语音处理装置的框图。
图8是根据一示例性实施例示出的一种语音处理装置中第一确定模块的框图。
图9是根据一示例性实施例示出的另一种语音处理装置中第一确定模块的框图。
图10是根据一示例性实施例示出的再一种语音处理装置中第一确定模块的框图。
图11是根据一示例性实施例示出的另一种语音处理装置的框图。
图12是根据一示例性实施例示出的一种语音处理装置中第一确定模块的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种语音处理方法的流程图。该语音处理方法应用于服务器中。如图1所示,该方法包括步骤S101-S104:
在步骤S101中,接收终端设备采集的包含用户意图的当前语音信息;其中,终端设备通过语音唤醒功能开始采集用户语音,将采集的语音发送给服务器,同时能根据收到的服务器发送的用户意图做相应语音播报或命令执行。
在步骤S102中,对所述当前语音信息进行语音识别,得到第一语音识别结果;其中,该语音识别结果即语音信息对应的文本信息。
在步骤S103中,对所述第一语音识别结果进行语义解析,并根据语义解析结果确定所述第一语音识别结果中包含的用户意图的完整性;
在步骤S104中,根据所述用户意图的完整性,确定是否立即执行所述第一语音识别结果对应的处理操作。
在该实施例中,对当前语音信息进行语音识别得到第一语音识别结果,并根据第一语音识别结果中包含的用户意图的完整性确定是否立即执行该语音识别结果对应的处理操作,这样,可以保证在语音识别过程中能够理解用户的完整意图,从而满足用户的意图,提升用户的使用体验。
图2是根据一示例性实施例示出的一种语音处理方法中步骤S104的流程图。
如图2所示,在一个实施例中,上述步骤S104包括步骤S201-S205:
在步骤S201中,当确定所述当前语音信息中包含的用户意图不完整时,立即执行所述第一语音识别结果对应的处理操作,并获取下一个语音信息对应的第二语音识别结果;
在步骤S202中,将所述第一语音识别结果和所述第二语音识别结果进行拼接处理,得到第三语音识别结果;
在步骤S203中,对所述第三语音识别结果进行语义解析,并根据语义解析结果确定所述第三语音识别结果中包含的用户意图的完整性;
在步骤S204中,当所述第三语音识别结果中包含的用户意图完整时,用所述第三语音识别结果修正所述第一语音识别结果,并执行所述第三语音识别结果对应的处理操作;
例如,用户说“导航到……东单”,中间有一段停顿。服务器识别出“导航到”、静音段、“东单”,其中,对第一个有效文本信息进行语义解析,发现“导航到”是不完整意图,继续等待,静音段会被丢弃,当收到“东单”后,将其与上一个有效文本信息“导航到”结合,并进行语义解析,解析出完整意图“导航到东单”,给出完整的导航意图给终端设备。
在步骤S205中,当所述第三语音识别结果中包含的用户意图不完整,则对所述第二语音识别结果进行语义解析。
在该实施例中,如果当前语音信息对应的语音识别结果中,包含的用户意图不完整,则可以先立即执行该语音信息对应的处理操作,如返回用户意图给终端设备,然后等待下一个语音信息对应的语音识别结果,将两个语音识别结果结合,如果结合后可以得到完整的用户意图,则执行结合后的语音识别结果对应的处理操作,从而可以保证在语音识别过程中能够理解用户的完整意图,从而满足用户的意图,提升用户的使用体验。
图3是根据一示例性实施例示出的一种语音处理方法中步骤S104的流程图。
如图3所示,在一个实施例中,上述步骤S104还包括步骤S301-S307:
在步骤S301中,当确定所述当前语音信息中包含的用户意图不完整时,等待预设时长;
在步骤S302中,确定在所述预设时长内,是否获取到下一个语音信息对应的第二语音识别结果;
在步骤S303中,当确定在所述预设时长内未获取到所述第二语音识别结果时,执行所述第一语音识别结果对应的处理操作;
在步骤S304中,当确定在所述预设时长内获取到所述第二语音识别结果时,将所述第一语音识别结果和所述第二语音识别结果进行拼接处理,得到第三语音识别结果;
在步骤S305中,对所述第三语音识别结果进行语义解析,并根据语义解析结果确定所述第三语音识别结果中包含的用户意图的完整性;
在步骤S306中,当所述第三语音识别结果中包含的用户意图完整时,执行所述第三语音识别结果对应的处理操作;
在步骤S307中,当所述第三语音识别结果中包含的用户意图不完整时,执行所述第一语音识别结果对应的处理操作,并对所述第二语音识别结果进行语义解析。
在该实施例中,在确定当前语音信息对应的第一语音识别结果中包含的用户意图不完整时,可以不立即执行该语音识别结果对应的处理操作,而是等待下一个语音识别结果的到来,如果在预设时长内获取到第二语音识别结果,则将两个语音识别结果拼接在一起进行语义解析,如果得到的用户意图完整,则执行拼接后的语音识别结果对应的处理操作,如果得到的用户意图不完整,则执行第一语音识别结果对应的处理操作,并将第二语音识别结果进行单独语义解析。而如果预设时长内未获取到第二语音识别结果,则直接执行第一语音识别结对应的处理操作。这样,可以尽量满足用户的意图,避免因解析一个语音结果造成的用户意图理解错误,提升用户的使用体验。
图4是根据一示例性实施例示出的另一种语音处理方法中步骤S104的流程图。
如图4所示,在一个实施例中,上述步骤S104还包括步骤S401-S404:
在步骤S401中,当在所述预设时长后获取到所述第二语音识别结果时,将所述第一语音识别结果和所述第二语音识别结果进行拼接处理,得到第三语音识别结果;
在步骤S402中,对所述第三语音识别结果进行语义解析,并根据语义解析结果确定所述第三语音识别结果中包含的用户意图的完整性;
在步骤S403中,当所述第三语音识别结果中包含的用户意图完整时用所述第三语音识别结果修正所述第一语音识别结果,并执行所述第三语音识别结果对应的处理操作;
在步骤S404中,当所述第三语音识别结果中包含的用户意图不完整时,对所述第二语音识别结果进行语义解析。
在该实施例中,在预设时长后收到第二语音识别结果时,也可以将第一语音识别结果和第二语音识别结果拼接到一起进行语义理解,如果得到的用户意图完整,则可以用两者结合后的第三语音识别结果修正第一语音识别结果,从而可以尽量满足用户的意图,避免因解析一个语音结果造成的用户意图理解错误,提升用户的使用体验。
图5是根据一示例性实施例示出的另一种语音处理方法的流程图。
如图5所示,在一个实施例中,上述方法还包括步骤S501-S503:
在步骤S501中,对所述第一语音识别结果进行语义解析,并根据语义解析结果确定所述第一语音识别结果中包含的用户意图的个数;
在步骤S502中,根据所述第一语音识别结果中包含的用户意图的个数对所述第一语音识别结果进行拆分处理,得到多个第四语音识别结果;
在步骤S503中,分别执行每个第四语音识别结果对应的处理操作。
在该实施例中,如果一个语音识别结果中包含多个意图,则可以将多个用户意图进行拆分,分别执行各个用户意图,进一步提升用户的使用体验。
例如,语音识别结果为“打开空调并导航到王府井”,则服务器对其进行解析后,确定其中包含两个用户意图,“打开空调”和“导航到王府井”,则对其进行拆分处理,拆分成“打开空调”和“导航到王府井”,并分别执行打开空调和导航到王府井的处理操作。
图6是根据一示例性实施例示出的一种语音处理方法中步骤S102的流程图。
如图6所示,在一个实施例中,上述步骤S102包括步骤S601-S604:
在步骤S601中,对所述当前语音信息进行语音识别,以生成所述当前语音信息对应的文本信息和静音信息;
在步骤S602中,根据所述文本信息、所述静音信息和所述文本信息中上下文之间的相关性,将所述文本信息划分为有效文本信息和非有效文本信息,其中,所述非有效文本信息包括静音信息和无效文本信息;
根据文本信息、静音信息和文本信息中上下文之间的相关性,可以将文本信息划分为有效文本信息、静音信息和无效文本信息,并标出每段信息的时长。其中无效文本信息是指跟语言层面上下文无关的信息,如“嗯啊哈哈哈哼哼哈哈”。其中,可预先训练无效文本信息的语言模型,该语言模型通过大量的有效文本和无效文本训练得到。
在步骤S603中,从所述文本信息中提取出所述有效文本信息,将所述有效文本信息确定为所述第一语音识别结果;
在步骤S604中,丢弃所述非有效文本信息。
例如,用户说“导航到嗯嗯嗯嗯啊啊啊啊王府井”,中间“嗯嗯嗯啊啊啊啊”可能是用户说的拟声词,也可能是周边人的背景声音。服务器识别出“导航到嗯嗯嗯嗯啊啊啊啊王府井”,将这段文本标识出三段“导航到”、“嗯嗯嗯嗯啊啊啊啊”、“王府井”,其中“嗯嗯嗯嗯啊啊啊啊”标识为无效文本,其他两个标识为有效文本,这样,服务器只会对“导航到”和“王府井”进行提取,并进行语义解析,解析出完整意图“导航到王府井”,进而将该完整意图发送给终端设备。
在该实施例中,对语音信息进行识别,得到文本信息和静音信息,进而将文本信息划分为有效文本信息和非有效文本信息,从而将非有效文本信息丢弃,将有效文本信息作为语音识别结果,这样,使得语音识别结果更准确。
下述为本发明装置实施例,可以用于执行本发明方法实施例。
图7是根据一示例性实施例示出的一种语音处理装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图7所示,该语音处理装置包括:
接收模块71,用于接收终端设备采集的包含用户意图的当前语音信息;
识别模块72,用于对所述当前语音信息进行语音识别,得到第一语音识别结果;
解析模块73,用于对所述第一语音识别结果进行语义解析,并根据语义解析结果确定所述第一语音识别结果中包含的用户意图的完整性;
第一确定模块74,用于根据所述用户意图的完整性,确定是否立即执行所述第一语音识别结果对应的处理操作。
在该实施例中,对当前语音信息进行语音识别得到第一语音识别结果,并根据第一语音识别结果中包含的用户意图的完整性确定是否立即执行该语音识别结果对应的处理操作,这样,可以保证在语音识别过程中能够理解用户的完整意图,从而满足用户的意图,提升用户的使用体验。
图8是根据一示例性实施例示出的一种语音处理装置中第一确定模块的框图。
如图8所示,在一个实施例中,所述第一确定模块74包括:
第一执行子模块81,用于当确定所述当前语音信息中包含的用户意图不完整时,立即执行所述第一语音识别结果对应的处理操作,并获取下一个语音信息对应的第二语音识别结果;
第一拼接子模块82,用于将所述第一语音识别结果和所述第二语音识别结果进行拼接处理,得到第三语音识别结果;
第一确定子模块83,用于对所述第三语音识别结果进行语义解析,并根据语义解析结果确定所述第三语音识别结果中包含的用户意图的完整性;
第一修正子模块84,用于当所述第三语音识别结果中包含的用户意图完整时,用所述第三语音识别结果修正所述第一语音识别结果,并执行所述第三语音识别结果对应的处理操作;
第一解析子模块85,用于当所述第三语音识别结果中包含的用户意图不完整,则对所述第二语音识别结果进行语义解析。
在该实施例中,如果当前语音信息对应的语音识别结果中,包含的用户意图不完整,则可以先立即执行该语音信息对应的处理操作,如返回用户意图给终端设备,然后等待下一个语音信息对应的语音识别结果,将两个语音识别结果结合,如果结合后可以得到完整的用户意图,则执行结合后的语音识别结果对应的处理操作,从而可以保证在语音识别过程中能够理解用户的完整意图,从而满足用户的意图,提升用户的使用体验。
图9是根据一示例性实施例示出的另一种语音处理装置中第一确定模块的框图。
如图9所示,在一个实施例中,所述第一确定模块74包括:
等待子模块91,用于当确定所述当前语音信息中包含的用户意图不完整时,等待预设时长;
第二确定子模块92,用于确定在所述预设时长内,是否获取到下一个语音信息对应的第二语音识别结果;
第二执行子模块93,用于当确定在所述预设时长内未获取到所述第二语音识别结果时,执行所述第一语音识别结果对应的处理操作;
第二拼接子模块94,用于当确定在所述预设时长内获取到所述第二语音识别结果时,将所述第一语音识别结果和所述第二语音识别结果进行拼接处理,得到第三语音识别结果;
第四确定子模块95,用于对所述第三语音识别结果进行语义解析,并根据语义解析结果确定所述第三语音识别结果中包含的用户意图的完整性;
第三执行子模块96,用于当所述第三语音识别结果中包含的用户意图完整时,执行所述第三语音识别结果对应的处理操作;
第四执行子模块97,用于当所述第三语音识别结果中包含的用户意图不完整时,执行所述第一语音识别结果对应的处理操作,并对所述第二语音识别结果进行语义解析。
在该实施例中,在确定当前语音信息对应的第一语音识别结果中包含的用户意图不完整时,可以不立即执行该语音识别结果对应的处理操作,而是等待下一个语音识别结果的到来,如果在预设时长内获取到第二语音识别结果,则将两个语音识别结果拼接在一起进行语义解析,如果得到的用户意图完整,则执行拼接后的语音识别结果对应的处理操作,如果得到的用户意图不完整,则执行第一语音识别结果对应的处理操作,并将第二语音识别结果进行单独语义解析。而如果预设时长内未获取到第二语音识别结果,则直接执行第一语音识别结对应的处理操作。这样,可以尽量满足用户的意图,避免因解析一个语音结果造成的用户意图理解错误,提升用户的使用体验。
图10是根据一示例性实施例示出的再一种语音处理装置中第一确定模块的框图。
如图10所示,在一个实施例中,所述第一确定模块74包括:
第三拼接子模块1001,用于当在所述预设时长后获取到所述第二语音识别结果时,将所述第一语音识别结果和所述第二语音识别结果进行拼接处理,得到第三语音识别结果;
第五确定子模块1002,用于对所述第三语音识别结果进行语义解析,并根据语义解析结果确定所述第三语音识别结果中包含的用户意图的完整性;
第二修正子模块1003,用于当所述第三语音识别结果中包含的用户意图完整时用所述第三语音识别结果修正所述第一语音识别结果,并执行所述第三语音识别结果对应的处理操作;
第二解析子模块1004,用于当所述第三语音识别结果中包含的用户意图不完整时,对所述第二语音识别结果进行语义解析。
在该实施例中,在预设时长后收到第二语音识别结果时,也可以将第一语音识别结果和第二语音识别结果拼接到一起进行语义理解,如果得到的用户意图完整,则可以用两者结合后的第三语音识别结果修正第一语音识别结果,从而可以尽量满足用户的意图,避免因解析一个语音结果造成的用户意图理解错误,提升用户的使用体验。
图11是根据一示例性实施例示出的另一种语音处理装置的框图。
如图11所示,在一个实施例中,上述装置还包括:
第二确定模块1101,用于对所述第一语音识别结果进行语义解析,并根据语义解析结果确定所述第一语音识别结果中包含的用户意图的个数;
拆分模块1102,用于根据所述第一语音识别结果中包含的用户意图的个数对所述第一语音识别结果进行拆分处理,得到多个第四语音识别结果;
执行模块1103,用于分别执行每个第四语音识别结果对应的处理操作。
在该实施例中,如果一个语音识别结果中包含多个意图,则可以将多个用户意图进行拆分,分别执行各个用户意图,进一步提升用户的使用体验。
例如,语音识别结果为“打开空调并导航到王府井”,则服务器对其进行解析后,确定其中包含两个用户意图,“打开空调”和“导航到王府井”,则对其进行拆分处理,拆分成“打开空调”和“导航到王府井”,并分别执行打开空调和导航到王府井的处理操作。
图12是根据一示例性实施例示出的一种语音处理装置中第一确定模块的框图。
如图12所示,在一个实施例中,所述识别模块72包括:
生成子模块1201,用于对所述当前语音信息进行语音识别,以生成所述当前语音信息对应的文本信息和静音信息;
划分子模块1202,用于根据所述文本信息、所述静音信息和所述文本信息中上下文之间的相关性,将所述文本信息划分为有效文本信息和非有效文本信息,其中,所述非有效文本信息包括静音信息和无效文本信息;
提取子模块1203,用于从所述文本信息中提取出所述有效文本信息,将所述有效文本信息确定为所述第一语音识别结果;
丢弃子模块1204,用于丢弃所述非有效文本信息。
在该实施例中,对当前语音信息进行语音识别得到第一语音识别结果,并根据第一语音识别结果中包含的用户意图的完整性确定是否立即执行该语音识别结果对应的处理操作,这样,可以保证在语音识别过程中能够理解用户的完整意图,从而满足用户的意图,提升用户的使用体验。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种语音处理方法,用于服务器,其特征在于,包括:
接收终端设备采集的包含用户意图的当前语音信息;
对所述当前语音信息进行语音识别,得到第一语音识别结果;
对所述第一语音识别结果进行语义解析,并根据语义解析结果确定所述第一语音识别结果中包含的用户意图的完整性;
根据所述用户意图的完整性,确定是否立即执行所述第一语音识别结果对应的处理操作;
所述根据所述用户意图的完整性,确定是否立即执行所述第一语音识别结果对应的处理操作,包括:
当确定所述当前语音信息中包含的用户意图不完整时,等待预设时长;确定在所述预设时长内,是否获取到下一个语音信息对应的第二语音识别结果;当确定在所述预设时长内未获取到所述第二语音识别结果时,执行所述第一语音识别结果对应的处理操作;当确定在所述预设时长内获取到所述第二语音识别结果时,将所述第一语音识别结果和所述第二语音识别结果进行拼接处理,得到第三语音识别结果;或者
当确定所述当前语音信息中包含的用户意图不完整时,立即执行所述第一语音识别结果对应的处理操作,并获取下一个语音信息对应的第二语音识别结果;将所述第一语音识别结果和所述第二语音识别结果进行拼接处理,得到第三语音识别结果;
对所述第三语音识别结果进行语义解析,并根据语义解析结果确定所述第三语音识别结果中包含的用户意图的完整性;
当所述第三语音识别结果中包含的用户意图完整时,执行所述第三语音识别结果对应的处理操作;
当所述第三语音识别结果中包含的用户意图不完整时,执行所述第一语音识别结果对应的处理操作,并对所述第二语音识别结果进行语义解析;
对所述第一语音识别结果进行语义解析,并根据语义解析结果确定所述第一语音识别结果中包含的用户意图的个数;
根据所述第一语音识别结果中包含的用户意图的个数对所述第一语音识别结果进行拆分处理,得到多个第四语音识别结果;
分别执行每个第四语音识别结果对应的处理操作。
2.根据权利要求1所述的方法,其特征在于,当所述第三语音识别结果中包含的用户意图完整时,所述方法还包括:用所述第三语音识别结果修正所述第一语音识别结果。
3.根据权利要求1所述的方法,其特征在于,对所述当前语音信息进行语音识别,得到第一语音识别结果,包括:
对所述当前语音信息进行语音识别,以生成所述当前语音信息对应的文本信息和静音信息;
根据所述文本信息、所述静音信息和所述文本信息中上下文之间的相关性,将所述文本信息划分为有效文本信息和非有效文本信息,其中,所述非有效文本信息包括静音信息和无效文本信息;
从所述文本信息中提取出所述有效文本信息,将所述有效文本信息确定为所述第一语音识别结果;
丢弃所述非有效文本信息。
4.一种语音处理装置,用于服务器,其特征在于,包括:
接收模块,用于接收终端设备采集的包含用户意图的当前语音信息;
识别模块,用于对所述当前语音信息进行语音识别,得到第一语音识别结果;
解析模块,用于对所述第一语音识别结果进行语义解析,并根据语义解析结果确定所述第一语音识别结果中包含的用户意图的完整性;
第一确定模块,用于根据所述用户意图的完整性,确定是否立即执行所述第一语音识别结果对应的处理操作;当确定所述当前语音信息中包含的用户意图不完整时,等待预设时长;确定在所述预设时长内,是否获取到下一个语音信息对应的第二语音识别结果;当确定在所述预设时长内未获取到所述第二语音识别结果时,执行所述第一语音识别结果对应的处理操作;
所述第一确定模块包括:第三拼接子模块,或者包括第一执行子模块和第一拼接子模块,以及包括第五确定子模块、第二修正子模块和第二解析子模块;
第三拼接子模块,用于当在所述预设时长后获取到所述第二语音识别结果时,将所述第一语音识别结果和所述第二语音识别结果进行拼接处理,得到第三语音识别结果;
第一执行子模块,用于当确定所述当前语音信息中包含的用户意图不完整时,立即执行所述第一语音识别结果对应的处理操作,并获取下一个语音信息对应的第二语音识别结果;
第一拼接子模块,用于将所述第一语音识别结果和所述第二语音识别结果进行拼接处理,得到第三语音识别结果;
第五确定子模块,用于对所述第三语音识别结果进行语义解析,并根据语义解析结果确定所述第三语音识别结果中包含的用户意图的完整性;
第二修正子模块,用于当所述第三语音识别结果中包含的用户意图完整时,执行所述第三语音识别结果对应的处理操作;
第二解析子模块,用于当所述第三语音识别结果中包含的用户意图不完整时,执行所述第一语音识别结果对应的处理操作,并对所述第二语音识别结果进行语义解析;
所述装置还包括:
第二确定模块,用于对所述第一语音识别结果进行语义解析,并根据语义解析结果确定所述第一语音识别结果中包含的用户意图的个数;
拆分模块,用于根据所述第一语音识别结果中包含的用户意图的个数对所述第一语音识别结果进行拆分处理,得到多个第四语音识别结果;
执行模块,用于分别执行每个第四语音识别结果对应的处理操作。
5.根据权利要求4所述的装置,其特征在于,所述第一确定模块还包括:
第一修正子模块,用于当所述第三语音识别结果中包含的用户意图完整时,用所述第三语音识别结果修正所述第一语音识别结果。
6.根据权利要求4所述的装置,其特征在于,所述识别模块包括:
生成子模块,用于对所述当前语音信息进行语音识别,以生成所述当前语音信息对应的文本信息和静音信息;
划分子模块,用于根据所述文本信息、所述静音信息和所述文本信息中上下文之间的相关性,将所述文本信息划分为有效文本信息和非有效文本信息,其中,所述非有效文本信息包括静音信息和无效文本信息;
提取子模块,用于从所述文本信息中提取出所述有效文本信息,将所述有效文本信息确定为所述第一语音识别结果;
丢弃子模块,用于丢弃所述非有效文本信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710458425.0A CN107195303B (zh) | 2017-06-16 | 2017-06-16 | 语音处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710458425.0A CN107195303B (zh) | 2017-06-16 | 2017-06-16 | 语音处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107195303A CN107195303A (zh) | 2017-09-22 |
CN107195303B true CN107195303B (zh) | 2021-08-20 |
Family
ID=59878449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710458425.0A Active CN107195303B (zh) | 2017-06-16 | 2017-06-16 | 语音处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107195303B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107146602B (zh) * | 2017-04-10 | 2020-10-02 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
CN108257616A (zh) * | 2017-12-05 | 2018-07-06 | 苏州车萝卜汽车电子科技有限公司 | 人机对话的检测方法以及装置 |
CN108847236A (zh) * | 2018-07-26 | 2018-11-20 | 珠海格力电器股份有限公司 | 语音信息的接收方法及装置、语音信息的解析方法及装置 |
CN108847237A (zh) * | 2018-07-27 | 2018-11-20 | 重庆柚瓣家科技有限公司 | 连续语音识别方法及系统 |
CN110895936B (zh) * | 2018-09-13 | 2020-09-25 | 珠海格力电器股份有限公司 | 基于家用电器的语音处理方法和装置 |
CN109326289B (zh) * | 2018-11-30 | 2021-10-22 | 深圳创维数字技术有限公司 | 免唤醒语音交互方法、装置、设备及存储介质 |
CN109618204B (zh) * | 2018-12-12 | 2021-04-23 | 百度在线网络技术(北京)有限公司 | 多媒体资源播放方法和装置 |
CN111400463B (zh) * | 2019-01-03 | 2023-06-06 | 百度在线网络技术(北京)有限公司 | 对话响应方法、装置、设备和介质 |
CN109979437B (zh) * | 2019-03-01 | 2022-05-20 | 阿波罗智联(北京)科技有限公司 | 语音识别方法、装置、设备和存储介质 |
CN111797632B (zh) * | 2019-04-04 | 2023-10-27 | 北京猎户星空科技有限公司 | 信息处理方法、装置及电子设备 |
CN110047481B (zh) * | 2019-04-23 | 2021-07-09 | 百度在线网络技术(北京)有限公司 | 用于语音识别的方法和装置 |
CN111931510B (zh) * | 2019-04-25 | 2024-08-20 | 广东小天才科技有限公司 | 一种基于神经网络的意图识别方法及装置、终端设备 |
CN110310632A (zh) * | 2019-06-28 | 2019-10-08 | 联想(北京)有限公司 | 语音处理方法及装置、以及电子设备 |
CN112242139B (zh) * | 2019-07-19 | 2024-01-23 | 北京如布科技有限公司 | 语音交互方法、装置、设备和介质 |
CN110211577B (zh) * | 2019-07-19 | 2021-06-04 | 宁波方太厨具有限公司 | 终端设备及其语音交互方法 |
CN110619873A (zh) | 2019-08-16 | 2019-12-27 | 北京小米移动软件有限公司 | 音频处理方法、装置及存储介质 |
CN112581938B (zh) * | 2019-09-30 | 2024-04-09 | 华为技术有限公司 | 基于人工智能的语音断点检测方法、装置和设备 |
CN113362828B (zh) * | 2020-03-04 | 2022-07-05 | 阿波罗智联(北京)科技有限公司 | 用于识别语音的方法和装置 |
CN112466296A (zh) * | 2020-11-10 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音交互的处理方法、装置、电子设备及存储介质 |
CN112382279B (zh) * | 2020-11-24 | 2021-09-14 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备和存储介质 |
CN112995419B (zh) * | 2021-02-05 | 2022-05-24 | 支付宝(杭州)信息技术有限公司 | 一种语音对话的处理方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178705A (zh) * | 2007-12-13 | 2008-05-14 | 中国电信股份有限公司 | 一种自然语言理解方法和人机交互智能系统 |
CN103116649A (zh) * | 2013-02-28 | 2013-05-22 | 用友软件股份有限公司 | 数据分析系统和数据分析方法 |
CN103543929A (zh) * | 2012-07-12 | 2014-01-29 | 百度在线网络技术(北京)有限公司 | 一种语音识别及输入方法和装置 |
CN106782547A (zh) * | 2015-11-23 | 2017-05-31 | 芋头科技(杭州)有限公司 | 一种基于语音识别的机器人语义识别系统 |
CN106796787A (zh) * | 2014-05-20 | 2017-05-31 | 亚马逊技术有限公司 | 在自然语言处理中使用先前对话行为进行的语境解释 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9666192B2 (en) * | 2015-05-26 | 2017-05-30 | Nuance Communications, Inc. | Methods and apparatus for reducing latency in speech recognition applications |
-
2017
- 2017-06-16 CN CN201710458425.0A patent/CN107195303B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178705A (zh) * | 2007-12-13 | 2008-05-14 | 中国电信股份有限公司 | 一种自然语言理解方法和人机交互智能系统 |
CN103543929A (zh) * | 2012-07-12 | 2014-01-29 | 百度在线网络技术(北京)有限公司 | 一种语音识别及输入方法和装置 |
CN103116649A (zh) * | 2013-02-28 | 2013-05-22 | 用友软件股份有限公司 | 数据分析系统和数据分析方法 |
CN106796787A (zh) * | 2014-05-20 | 2017-05-31 | 亚马逊技术有限公司 | 在自然语言处理中使用先前对话行为进行的语境解释 |
CN106782547A (zh) * | 2015-11-23 | 2017-05-31 | 芋头科技(杭州)有限公司 | 一种基于语音识别的机器人语义识别系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107195303A (zh) | 2017-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107195303B (zh) | 语音处理方法及装置 | |
CN110164435B (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
CN105654945B (zh) | 一种语言模型的训练方法及装置、设备 | |
KR101957277B1 (ko) | 음성 인식을 이용한 코딩시스템 및 코딩방법 | |
CN106710586B (zh) | 一种语音识别引擎自动切换方法和装置 | |
US11238227B2 (en) | Word lattice augmentation for automatic speech recognition | |
CN109754783B (zh) | 用于确定音频语句的边界的方法和装置 | |
CN105529030B (zh) | 语音识别处理方法和装置 | |
CN106126157B (zh) | 基于医院信息系统的语音输入方法及装置 | |
CN102243871A (zh) | 作为语音识别错误预测器的用于语法适合度评估的方法和系统 | |
CN110704590B (zh) | 扩充训练样本的方法和装置 | |
CN111178081B (zh) | 语义识别的方法、服务器、电子设备及计算机存储介质 | |
CN112818680B (zh) | 语料的处理方法、装置、电子设备及计算机可读存储介质 | |
CN110148414B (zh) | 一种语音说法引导方法和装置 | |
CN112579466B (zh) | 测试用例的生成方法、装置及计算机可读存储介质 | |
CN112399269A (zh) | 视频分割方法、装置、设备及存储介质 | |
CN111402865A (zh) | 语音识别训练数据的生成方法、语音识别模型的训练方法 | |
CN112199486A (zh) | 一种办公场景的任务型多轮对话方法及系统 | |
CN111309876A (zh) | 一种服务请求的处理方法、装置、电子设备及存储介质 | |
CN111179903A (zh) | 一种语音识别方法、装置、存储介质及电器 | |
CN110853627B (zh) | 用于语音标注的方法及系统 | |
CN110942772B (zh) | 一种语音样本收集方法及装置 | |
CN109448717B (zh) | 一种语音单词拼写识别方法、设备及存储介质 | |
Lebourdais et al. | Overlaps and gender analysis in the context of broadcast media | |
CN107886940B (zh) | 语音翻译处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 101, 1st floor, building 1, Xisanqi building materials City, Haidian District, Beijing 100096 Applicant after: Yunzhisheng Intelligent Technology Co.,Ltd. Address before: 100191 a503, 5th floor, Mudan science and technology building, No.2 Huayuan Road, Haidian District, Beijing Applicant before: BEIJING UNISOUND INFORMATION TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |