CN107146618A - 语音处理方法及装置 - Google Patents
语音处理方法及装置 Download PDFInfo
- Publication number
- CN107146618A CN107146618A CN201710458438.8A CN201710458438A CN107146618A CN 107146618 A CN107146618 A CN 107146618A CN 201710458438 A CN201710458438 A CN 201710458438A CN 107146618 A CN107146618 A CN 107146618A
- Authority
- CN
- China
- Prior art keywords
- text message
- effective text
- voice messaging
- effective
- determined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 description 14
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000037007 arousal Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明是关于一种语音处理方法及装置,其中,方法包括:接收终端设备发送的当前采集的语音信息;对所述语音信息进行语音识别,得到语音识别结果;根据所述语音识别结果确定是否结束采集所述语音信息;在确定结束采集所述语音信息后,发送停止采集指令至所述终端设备,以使所述终端设备停止采集所述语音信息。通过该技术方案,由服务器根据语音信息的语音识别结果确定结束采集语音信息的时间,进而发送停止采集指令至终端设备,这样,终端设备就可以根据该停止采集指令停止采集语音信息。这样,根据语音信息的语音识别结果确定何时停止采集语音信息,可以更准确的判断语音信息停止的时间。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音处理方法及装置。
背景技术
现有技术中,由客户端采集语音信息,发送给服务器,对于语音信息何时采集结束,是由客户端通过简单的能量检测进行判断的,但是由于客户端没有语音识别功能,因此,现有的客户端的判断方式不够准确。
发明内容
本发明实施例提供一种语音处理方法及装置,用以实现准确的判断语音信息的采集结束时间,从而提升用户的使用体验。
根据本发明实施例的第一方面,提供一种语音处理方法,用于服务器,包括:
接收终端设备发送的当前采集的语音信息;
对所述语音信息进行语音识别,得到语音识别结果;
根据所述语音识别结果确定是否结束采集所述语音信息;
在确定结束采集所述语音信息后,发送停止采集指令至所述终端设备,以使所述终端设备停止采集所述语音信息。
在该实施例中,由服务器根据语音信息的语音识别结果确定结束采集语音信息的时间,进而发送停止采集指令至终端设备,这样,终端设备就可以根据该停止采集指令停止采集语音信息。这样,根据语音信息的语音识别结果确定何时停止采集语音信息,可以更准确的判断语音信息停止的时间。
在一个实施例中,对所述语音信息进行语音识别,得到语音识别结果,包括:
对所述语音信息进行语音识别,以生成所述语音信息对应的文本信息和静音信息;
根据所述文本信息、所述静音信息和所述文本信息中上下文之间的相关性,将所述文本信息划分为有效文本信息和非有效文本信息,其中,所述非有效文本信息包括静音信息和无效文本信息;
从所述文本信息中提取出所述有效文本信息,并执行所述有效文本信息对应的处理操作;
丢弃所述非有效文本信息。
在该实施例中,对语音信息进行识别,得到文本信息和静音信息,进而将文本信息划分为有效文本信息和非有效文本信息,从而将非有效文本信息丢弃,将有效文本信息作为语音识别结果,这样,使得语音识别结果更准确。
在一个实施例中,所述根据所述语音识别结果确定是否结束采集所述语音信息,包括:
统计所述非有效文本信息的连续时长;
当所述连续时长大于或者等于预设时长时,确定结束采集所述语音信息。
在该实施例中,根据非有效文本信息的连续时长确定结束采集语音信息的时间,可以使得结束时间更准确,避免采集过多的无用语音。
在一个实施例中,从所述文本信息中提取出所述有效文本信息,并执行所述有效文本信息对应的处理操作,包括:
从所述文本信息中提取出所述有效文本信息;
对所述有效文本信息进行语义解析,得到语义解析结果;
根据所述语义解析结果确定所述有效文本信息是否完整;
当确定所述有效文本信息完整时,执行所述有效文本信息对应的处理操作。
在该实施例中,文本信息中包含了用户意图,例如“今天天气怎么样”,对有效文本信息进行语义解析,可以确定有效文本信息中的用户意图是否完整,即有效文本信息是否完整。例如,“今天天气怎么样”即是一个完整的用户意图,“导航到”即是一个不完整的用户意图,因为其并没有地点。在有效文本信息完整时,及时执行对应的处理操作,可以尽快满足用户意图,提升用户的使用体验。
在一个实施例中,所述方法还包括:
当确定所述有效文本信息不完整时,等待下一个有效文本信息,并确定所述有效文本信息和所述下一个有效文本信息结合后的结合有效文本信息是否完整;
当确定所述结合有效文本信息完整时,执行所述结合有效文本信息对应的处理操作。
在该实施例中,在有效文本信息不完整时,即用户意图不完整时,可以等待下一个有效文本信息,这样,在将两个有效文本信息结合后得到完整的有效文本信息再执行对应的处理操作,从而保证执行到完整的用户意图,满足用户的需求。
根据本发明实施例的第二方面,提供一种语音处理装置,用于服务器,包括:
接收模块,用于接收终端设备发送的当前采集的语音信息;
识别模块,用于对所述语音信息进行语音识别,得到语音识别结果;
确定模块,用于根据所述语音识别结果确定是否结束采集所述语音信息;
发送模块,用于在确定结束采集所述语音信息后,发送停止采集指令至所述终端设备,以使所述终端设备停止采集所述语音信息。
在一个实施例中,所述识别模块包括:
生成子模块,用于对所述语音信息进行语音识别,以生成所述语音信息对应的文本信息和静音信息;
划分子模块,用于根据所述文本信息、所述静音信息和所述文本信息中上下文之间的相关性,将所述文本信息划分为有效文本信息和非有效文本信息,其中,所述非有效文本信息包括静音信息和无效文本信息;
提取子模块,用于从所述文本信息中提取出所述有效文本信息,并执行所述有效文本信息对应的处理操作;
丢弃子模块,用于丢弃所述非有效文本信息。
在一个实施例中,所述确定模块包括:
统计子模块,用于统计所述非有效文本信息的连续时长;
确定子模块,用于当所述连续时长大于或者等于预设时长时,确定结束采集所述语音信息。
在一个实施例中,所述提取子模块用于:
从所述文本信息中提取出所述有效文本信息;
对所述有效文本信息进行语义解析,得到语义解析结果;
根据所述语义解析结果确定所述有效文本信息是否完整;
当确定所述有效文本信息完整时,执行所述有效文本信息对应的处理操作。
在一个实施例中,所述装置还包括:
等待模块,用于当确定所述有效文本信息不完整时,等待下一个有效文本信息,并确定所述有效文本信息和所述下一个有效文本信息结合后的结合有效文本信息是否完整;
执行模块,用于当确定所述结合有效文本信息完整时,执行所述结合有效文本信息对应的处理操作。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种语音处理方法的流程图。
图2是根据一示例性实施例示出的一种语音处理方法中步骤S102的流程图。
图3是根据一示例性实施例示出的一种语音处理方法中步骤S103的流程图。
图4是根据一示例性实施例示出的一种语音处理方法中步骤S203的流程图。
图5是根据一示例性实施例示出的另一种语音处理方法的流程图。
图6是根据一示例性实施例示出的一种语音处理装置的框图。
图7是根据一示例性实施例示出的一种语音处理装置中识别模块的框图。
图8是根据一示例性实施例示出的一种语音处理装置中确定模块的框图。
图9是根据一示例性实施例示出的另一种语音处理装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种语音处理方法的流程图。该语音处理方法应用于服务器中。如图1所示,该方法包括步骤S101-S104:
在步骤S101中,接收终端设备发送的当前采集的语音信息;其中,终端设备通过语音唤醒功能开始采集用户语音,将采集的语音发送给服务器,同时能根据收到的服务器发送的用户意图做相应语音播报或命令执行。
在步骤S102中,对语音信息进行语音识别,得到语音识别结果;其中,该语音识别结果即语音信息对应的文本信息。
在步骤S103中,根据语音识别结果确定是否结束采集语音信息;
在步骤S104中,在确定结束采集语音信息后,发送停止采集指令至终端设备,以使终端设备停止采集语音信息。
在该实施例中,由服务器根据语音信息的语音识别结果确定结束采集语音信息的时间,进而发送停止采集指令至终端设备,这样,终端设备就可以根据该停止采集指令停止采集语音信息。这样,根据语音信息的语音识别结果确定何时停止采集语音信息,可以更准确的判断语音信息停止的时间。
图2是根据一示例性实施例示出的一种语音处理方法中步骤S102的流程图。
如图2所示,在一个实施例中,上述步骤S102包括步骤S201-S204:
在步骤S201中,对语音信息进行语音识别,以生成语音信息对应的文本信息和静音信息;
在步骤S202中,根据文本信息、静音信息和文本信息中上下文之间的相关性,将文本信息划分为有效文本信息和非有效文本信息,其中,非有效文本信息包括静音信息和无效文本信息;
根据文本信息、静音信息和文本信息中上下文之间的相关性,可以将文本信息划分为有效文本信息、静音信息和无效文本信息,并标出每段信息的时长。其中无效文本信息是指跟语言层面上下文无关的信息,如“嗯啊哈哈哈哼哼哈哈”。其中,可预先训练无效文本信息的语言模型,该语言模型通过大量的有效文本和无效文本训练得到。
在步骤S203中,从文本信息中提取出有效文本信息,并执行有效文本信息对应的处理操作;
在步骤S204中,丢弃非有效文本信息。
例如,用户说“导航到嗯嗯嗯嗯啊啊啊啊王府井”,中间“嗯嗯嗯啊啊啊啊”可能是用户说的拟声词,也可能是周边人的背景声音。服务器识别出“导航到嗯嗯嗯嗯啊啊啊啊王府井”,将这段文本标识出三段“导航到”、“嗯嗯嗯嗯啊啊啊啊”、“王府井”,其中“嗯嗯嗯嗯啊啊啊啊”标识为无效文本,其他两个标识为有效文本,这样,服务器只会对“导航到”和“王府井”进行提取,并进行语义解析,解析出完整意图“导航到王府井”,进而将该完整意图发送给终端设备。
在该实施例中,对语音信息进行识别,得到文本信息和静音信息,进而将文本信息划分为有效文本信息和非有效文本信息,从而将非有效文本信息丢弃,将有效文本信息作为语音识别结果,这样,使得语音识别结果更准确。
图3是根据一示例性实施例示出的一种语音处理方法中步骤S103的流程图。
如图3所示,在一个实施例中,上述步骤S103包括步骤S301-S302:
在步骤S301中,统计非有效文本信息的连续时长;
在步骤S302中,当连续时长大于或者等于预设时长时,确定结束采集语音信息。
在该实施例中,根据非有效文本信息的连续时长确定结束采集语音信息的时间,可以使得结束时间更准确,避免采集过多的无用语音。
例如,预设时长为10S,则在连续10S的静音或者无效信息后,即发送报告停止采集命令至终端设备,使终端设备停止采集语音信息,即停止录音,进入待唤醒状态。
图4是根据一示例性实施例示出的一种语音处理方法中步骤S203的流程图。
如图4所示,在一个实施例中,上述步骤S203包括步骤S401-S404:
在步骤S401中,从文本信息中提取出有效文本信息;
在步骤S402中,对有效文本信息进行语义解析,得到语义解析结果;
在步骤S403中,根据语义解析结果确定有效文本信息是否完整;
在步骤S404中,当确定有效文本信息完整时,执行有效文本信息对应的处理操作。
在该实施例中,文本信息中包含了用户意图,例如“今天天气怎么样”,对有效文本信息进行语义解析,可以确定有效文本信息中的用户意图是否完整,即有效文本信息是否完整。例如,“今天天气怎么样”即是一个完整的用户意图,“导航到”即是一个不完整的用户意图,因为其并没有地点。在有效文本信息完整时,及时执行对应的处理操作,可以尽快满足用户意图,提升用户的使用体验。
例如,用户说:“今天天气怎么样”,服务器识别出“今天天气怎么样”,对这一整段标出有效语音段,进而对此文本做语义分析,发现这是一个完整意图,即给出“今天天气晴,18度”的解析结果给设备。
图5是根据一示例性实施例示出的另一种语音处理方法的流程图。
如图5所示,在一个实施例中,傻瓜书方法还包括步骤S501-S502:
在步骤S501中,当确定有效文本信息不完整时,等待下一个有效文本信息,并确定有效文本信息和下一个有效文本信息结合后的结合有效文本信息是否完整;
在步骤S502中,当确定结合有效文本信息完整时,执行结合有效文本信息对应的处理操作。
在该实施例中,在有效文本信息不完整时,即用户意图不完整时,可以等待下一个有效文本信息,这样,在将两个有效文本信息结合后得到完整的有效文本信息再执行对应的处理操作,从而保证执行到完整的用户意图,满足用户的需求。
例如,用户说“导航到…..东单”,中间有一段停顿。服务器识别出“导航到”、静音段、“东单”,其中,对第一个有效文本信息进行语义解析,发现“导航到”是不完整意图,继续等待,静音段会被丢弃,当收到“东单”后,将其与上一个有效文本信息“导航到”结合,并进行语义解析,解析出完整意图“导航到东单”,给出完整的导航意图给终端设备。
下述为本发明装置实施例,可以用于执行本发明方法实施例。
图6是根据一示例性实施例示出的一种语音处理装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图6所示,该语音处理装置包括:
接收模块61,用于接收终端设备发送的当前采集的语音信息;
识别模块62,用于对所述语音信息进行语音识别,得到语音识别结果;
确定模块63,用于根据所述语音识别结果确定是否结束采集所述语音信息;
发送模块64,用于在确定结束采集所述语音信息后,发送停止采集指令至所述终端设备,以使所述终端设备停止采集所述语音信息。
在该实施例中,由服务器根据语音信息的语音识别结果确定结束采集语音信息的时间,进而发送停止采集指令至终端设备,这样,终端设备就可以根据该停止采集指令停止采集语音信息。这样,根据语音信息的语音识别结果确定何时停止采集语音信息,可以更准确的判断语音信息停止的时间。
图7是根据一示例性实施例示出的一种语音处理装置中识别模块的框图。
如图7所示,在一个实施例中,所述识别模块62包括:
生成子模块71,用于对所述语音信息进行语音识别,以生成所述语音信息对应的文本信息和静音信息;
划分子模块72,用于根据所述文本信息、所述静音信息和所述文本信息中上下文之间的相关性,将所述文本信息划分为有效文本信息和非有效文本信息,其中,所述非有效文本信息包括静音信息和无效文本信息;
提取子模块73,用于从所述文本信息中提取出所述有效文本信息,并执行所述有效文本信息对应的处理操作;
丢弃子模块74,用于丢弃所述非有效文本信息。
例如,用户说“导航到嗯嗯嗯嗯啊啊啊啊王府井”,中间“嗯嗯嗯啊啊啊啊”可能是用户说的拟声词,也可能是周边人的背景声音。服务器识别出“导航到嗯嗯嗯嗯啊啊啊啊王府井”,将这段文本标识出三段“导航到”、“嗯嗯嗯嗯啊啊啊啊”、“王府井”,其中“嗯嗯嗯嗯啊啊啊啊”标识为无效文本,其他两个标识为有效文本,这样,服务器只会对“导航到”和“王府井”进行提取,并进行语义解析,解析出完整意图“导航到王府井”,进而将该完整意图发送给终端设备。
在该实施例中,对语音信息进行识别,得到文本信息和静音信息,进而将文本信息划分为有效文本信息和非有效文本信息,从而将非有效文本信息丢弃,将有效文本信息作为语音识别结果,这样,使得语音识别结果更准确。
图8是根据一示例性实施例示出的一种语音处理装置中确定模块的框图。
如图8所示,在一个实施例中,所述确定模块63包括:
统计子模块81,用于统计所述非有效文本信息的连续时长;
确定子模块82,用于当所述连续时长大于或者等于预设时长时,确定结束采集所述语音信息。
在该实施例中,根据非有效文本信息的连续时长确定结束采集语音信息的时间,可以使得结束时间更准确,避免采集过多的无用语音。
例如,预设时长为10S,则在连续10S的静音或者无效信息后,即发送报告停止采集命令至终端设备,使终端设备停止采集语音信息,即停止录音,进入待唤醒状态。
在一个实施例中,所述提取子模块73用于:
从所述文本信息中提取出所述有效文本信息;
对所述有效文本信息进行语义解析,得到语义解析结果;
根据所述语义解析结果确定所述有效文本信息是否完整;
当确定所述有效文本信息完整时,执行所述有效文本信息对应的处理操作。
在该实施例中,文本信息中包含了用户意图,例如“今天天气怎么样”,对有效文本信息进行语义解析,可以确定有效文本信息中的用户意图是否完整,即有效文本信息是否完整。例如,“今天天气怎么样”即是一个完整的用户意图,“导航到”即是一个不完整的用户意图,因为其并没有地点。在有效文本信息完整时,及时执行对应的处理操作,可以尽快满足用户意图,提升用户的使用体验。
例如,用户说:“今天天气怎么样”,服务器识别出“今天天气怎么样”,对这一整段标出有效语音段,进而对此文本做语义分析,发现这是一个完整意图,即给出“今天天气晴,18度”的解析结果给设备。
图9是根据一示例性实施例示出的另一种语音处理装置的框图。
如图9所示,在一个实施例中,上述装置还包括:
等待模块91,用于当确定所述有效文本信息不完整时,等待下一个有效文本信息,并确定所述有效文本信息和所述下一个有效文本信息结合后的结合有效文本信息是否完整;
执行模块92,用于当确定所述结合有效文本信息完整时,执行所述结合有效文本信息对应的处理操作。
在该实施例中,在有效文本信息不完整时,即用户意图不完整时,可以等待下一个有效文本信息,这样,在将两个有效文本信息结合后得到完整的有效文本信息再执行对应的处理操作,从而保证执行到完整的用户意图,满足用户的需求。
例如,用户说“导航到…..东单”,中间有一段停顿。服务器识别出“导航到”、静音段、“东单”,其中,对第一个有效文本信息进行语义解析,发现“导航到”是不完整意图,继续等待,静音段会被丢弃,当收到“东单”后,将其与上一个有效文本信息“导航到”结合,并进行语义解析,解析出完整意图“导航到东单”,给出完整的导航意图给终端设备。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种语音处理方法,用于服务器,其特征在于,包括:
接收终端设备发送的当前采集的语音信息;
对所述语音信息进行语音识别,得到语音识别结果;
根据所述语音识别结果确定是否结束采集所述语音信息;
在确定结束采集所述语音信息后,发送停止采集指令至所述终端设备,以使所述终端设备停止采集所述语音信息。
2.根据权利要求1所述的方法,其特征在于,对所述语音信息进行语音识别,得到语音识别结果,包括:
对所述语音信息进行语音识别,以生成所述语音信息对应的文本信息和静音信息;
根据所述文本信息、所述静音信息和所述文本信息中上下文之间的相关性,将所述文本信息划分为有效文本信息和非有效文本信息,其中,所述非有效文本信息包括静音信息和无效文本信息;
从所述文本信息中提取出所述有效文本信息,并执行所述有效文本信息对应的处理操作;
丢弃所述非有效文本信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述语音识别结果确定是否结束采集所述语音信息,包括:
统计所述非有效文本信息的连续时长;
当所述连续时长大于或者等于预设时长时,确定结束采集所述语音信息。
4.根据权利要求2所述的方法,其特征在于,从所述文本信息中提取出所述有效文本信息,并执行所述有效文本信息对应的处理操作,包括:
从所述文本信息中提取出所述有效文本信息;
对所述有效文本信息进行语义解析,得到语义解析结果;
根据所述语义解析结果确定所述有效文本信息是否完整;
当确定所述有效文本信息完整时,执行所述有效文本信息对应的处理操作。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当确定所述有效文本信息不完整时,等待下一个有效文本信息,并确定所述有效文本信息和所述下一个有效文本信息结合后的结合有效文本信息是否完整;
当确定所述结合有效文本信息完整时,执行所述结合有效文本信息对应的处理操作。
6.一种语音处理装置,用于服务器,其特征在于,包括:
接收模块,用于接收终端设备发送的当前采集的语音信息;
识别模块,用于对所述语音信息进行语音识别,得到语音识别结果;
确定模块,用于根据所述语音识别结果确定是否结束采集所述语音信息;
发送模块,用于在确定结束采集所述语音信息后,发送停止采集指令至所述终端设备,以使所述终端设备停止采集所述语音信息。
7.根据权利要求6所述的装置,其特征在于,所述识别模块包括:
生成子模块,用于对所述语音信息进行语音识别,以生成所述语音信息对应的文本信息和静音信息;
划分子模块,用于根据所述文本信息、所述静音信息和所述文本信息中上下文之间的相关性,将所述文本信息划分为有效文本信息和非有效文本信息,其中,所述非有效文本信息包括静音信息和无效文本信息;
提取子模块,用于从所述文本信息中提取出所述有效文本信息,并执行所述有效文本信息对应的处理操作;
丢弃子模块,用于丢弃所述非有效文本信息。
8.根据权利要求7所述的装置,其特征在于,所述确定模块包括:
统计子模块,用于统计所述非有效文本信息的连续时长;
确定子模块,用于当所述连续时长大于或者等于预设时长时,确定结束采集所述语音信息。
9.根据权利要求7所述的装置,其特征在于,所述提取子模块用于:
从所述文本信息中提取出所述有效文本信息;
对所述有效文本信息进行语义解析,得到语义解析结果;
根据所述语义解析结果确定所述有效文本信息是否完整;
当确定所述有效文本信息完整时,执行所述有效文本信息对应的处理操作。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
等待模块,用于当确定所述有效文本信息不完整时,等待下一个有效文本信息,并确定所述有效文本信息和所述下一个有效文本信息结合后的结合有效文本信息是否完整;
执行模块,用于当确定所述结合有效文本信息完整时,执行所述结合有效文本信息对应的处理操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710458438.8A CN107146618A (zh) | 2017-06-16 | 2017-06-16 | 语音处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710458438.8A CN107146618A (zh) | 2017-06-16 | 2017-06-16 | 语音处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107146618A true CN107146618A (zh) | 2017-09-08 |
Family
ID=59781402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710458438.8A Pending CN107146618A (zh) | 2017-06-16 | 2017-06-16 | 语音处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107146618A (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107919130A (zh) * | 2017-11-06 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
CN108540373A (zh) * | 2018-03-22 | 2018-09-14 | 北京云知声信息技术有限公司 | 即时聊天中语音数据的摘要生成方法、服务器及系统 |
CN108566634A (zh) * | 2018-03-30 | 2018-09-21 | 深圳市冠旭电子股份有限公司 | 降低蓝牙音箱连续唤醒延时的方法、装置及蓝牙音箱 |
WO2018188591A1 (zh) * | 2017-04-10 | 2018-10-18 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
CN109147783A (zh) * | 2018-09-05 | 2019-01-04 | 厦门轻唱科技有限公司 | 基于k歌系统的语音识别方法、介质及系统 |
CN109754809A (zh) * | 2019-01-29 | 2019-05-14 | 北京猎户星空科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN109961787A (zh) * | 2019-02-20 | 2019-07-02 | 北京小米移动软件有限公司 | 确定采集结束时间的方法及装置 |
CN110047481A (zh) * | 2019-04-23 | 2019-07-23 | 百度在线网络技术(北京)有限公司 | 用于语音识别的方法和装置 |
CN110349576A (zh) * | 2019-05-16 | 2019-10-18 | 国网上海市电力公司 | 基于语音识别的电力系统操作指令执行方法、装置及系统 |
CN110517673A (zh) * | 2019-07-18 | 2019-11-29 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN110619873A (zh) * | 2019-08-16 | 2019-12-27 | 北京小米移动软件有限公司 | 音频处理方法、装置及存储介质 |
CN111583923A (zh) * | 2020-04-28 | 2020-08-25 | 北京小米松果电子有限公司 | 信息控制方法及装置、存储介质 |
CN111627463A (zh) * | 2019-02-28 | 2020-09-04 | 百度在线网络技术(北京)有限公司 | 语音vad尾点确定方法及装置、电子设备和计算机可读介质 |
CN111785259A (zh) * | 2019-04-04 | 2020-10-16 | 北京猎户星空科技有限公司 | 信息处理方法、装置及电子设备 |
CN112102839A (zh) * | 2020-08-31 | 2020-12-18 | 山西瑞森特科技有限公司 | 一种采集地面样本数据的方法、装置及计算机设备 |
CN112242139A (zh) * | 2019-07-19 | 2021-01-19 | 北京儒博科技有限公司 | 语音交互方法、装置、设备和介质 |
CN112466296A (zh) * | 2020-11-10 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音交互的处理方法、装置、电子设备及存储介质 |
CN113192502A (zh) * | 2021-04-27 | 2021-07-30 | 北京小米移动软件有限公司 | 音频处理方法、装置及存储介质 |
CN113823282A (zh) * | 2019-06-26 | 2021-12-21 | 百度在线网络技术(北京)有限公司 | 语音处理方法、系统和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102655010A (zh) * | 2008-12-31 | 2012-09-05 | 无锡中星微电子有限公司 | 录音控制方法和录音设备 |
CN103474068A (zh) * | 2013-08-19 | 2013-12-25 | 安徽科大讯飞信息科技股份有限公司 | 实现语音命令控制的方法、设备及系统 |
EP2680165A1 (en) * | 2012-06-28 | 2014-01-01 | JaJah Ltd | System and method to peform textual queries on voice communications |
CN103713876A (zh) * | 2014-01-16 | 2014-04-09 | 联想(北京)有限公司 | 数据处理方法及电子设备 |
CN103839549A (zh) * | 2012-11-22 | 2014-06-04 | 腾讯科技(深圳)有限公司 | 一种语音指令控制方法及系统 |
CN105096953A (zh) * | 2015-08-11 | 2015-11-25 | 东莞市凡豆信息科技有限公司 | 实现多语种混合使用的语音识别方法 |
CN105793923A (zh) * | 2013-09-20 | 2016-07-20 | 亚马逊技术股份有限公司 | 本地和远程语音处理 |
CN106205652A (zh) * | 2016-07-11 | 2016-12-07 | 广东小天才科技有限公司 | 一种音频跟读评测方法及装置 |
-
2017
- 2017-06-16 CN CN201710458438.8A patent/CN107146618A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102655010A (zh) * | 2008-12-31 | 2012-09-05 | 无锡中星微电子有限公司 | 录音控制方法和录音设备 |
EP2680165A1 (en) * | 2012-06-28 | 2014-01-01 | JaJah Ltd | System and method to peform textual queries on voice communications |
CN103839549A (zh) * | 2012-11-22 | 2014-06-04 | 腾讯科技(深圳)有限公司 | 一种语音指令控制方法及系统 |
CN103474068A (zh) * | 2013-08-19 | 2013-12-25 | 安徽科大讯飞信息科技股份有限公司 | 实现语音命令控制的方法、设备及系统 |
CN105793923A (zh) * | 2013-09-20 | 2016-07-20 | 亚马逊技术股份有限公司 | 本地和远程语音处理 |
CN103713876A (zh) * | 2014-01-16 | 2014-04-09 | 联想(北京)有限公司 | 数据处理方法及电子设备 |
CN105096953A (zh) * | 2015-08-11 | 2015-11-25 | 东莞市凡豆信息科技有限公司 | 实现多语种混合使用的语音识别方法 |
CN106205652A (zh) * | 2016-07-11 | 2016-12-07 | 广东小天才科技有限公司 | 一种音频跟读评测方法及装置 |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018188591A1 (zh) * | 2017-04-10 | 2018-10-18 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
US11024332B2 (en) | 2017-11-06 | 2021-06-01 | Baidu Online Network Technology (Beijing) Co., Ltd. | Cloud-based speech processing method and apparatus |
CN107919130B (zh) * | 2017-11-06 | 2021-12-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
CN107919130A (zh) * | 2017-11-06 | 2018-04-17 | 百度在线网络技术(北京)有限公司 | 基于云端的语音处理方法和装置 |
CN108540373A (zh) * | 2018-03-22 | 2018-09-14 | 北京云知声信息技术有限公司 | 即时聊天中语音数据的摘要生成方法、服务器及系统 |
CN108540373B (zh) * | 2018-03-22 | 2020-12-29 | 云知声智能科技股份有限公司 | 即时聊天中语音数据的摘要生成方法、服务器及系统 |
US11243595B2 (en) | 2018-03-30 | 2022-02-08 | Shenzhen Grandsun Electronic Co., Ltd. | Method and apparatus for reducing continuous-wakeup delay of bluetooth loudspeaker, and bluetooth loudspeaker |
CN108566634A (zh) * | 2018-03-30 | 2018-09-21 | 深圳市冠旭电子股份有限公司 | 降低蓝牙音箱连续唤醒延时的方法、装置及蓝牙音箱 |
CN108566634B (zh) * | 2018-03-30 | 2021-06-25 | 深圳市冠旭电子股份有限公司 | 降低蓝牙音箱连续唤醒延时的方法、装置及蓝牙音箱 |
CN109147783A (zh) * | 2018-09-05 | 2019-01-04 | 厦门轻唱科技有限公司 | 基于k歌系统的语音识别方法、介质及系统 |
CN109147783B (zh) * | 2018-09-05 | 2022-04-01 | 厦门巨嗨科技有限公司 | 基于k歌系统的语音识别方法、介质及系统 |
CN109754809A (zh) * | 2019-01-29 | 2019-05-14 | 北京猎户星空科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN109754809B (zh) * | 2019-01-29 | 2021-02-09 | 北京猎户星空科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
CN109961787A (zh) * | 2019-02-20 | 2019-07-02 | 北京小米移动软件有限公司 | 确定采集结束时间的方法及装置 |
CN111627463B (zh) * | 2019-02-28 | 2024-01-16 | 百度在线网络技术(北京)有限公司 | 语音vad尾点确定方法及装置、电子设备和计算机可读介质 |
CN111627463A (zh) * | 2019-02-28 | 2020-09-04 | 百度在线网络技术(北京)有限公司 | 语音vad尾点确定方法及装置、电子设备和计算机可读介质 |
CN111785259A (zh) * | 2019-04-04 | 2020-10-16 | 北京猎户星空科技有限公司 | 信息处理方法、装置及电子设备 |
CN110047481A (zh) * | 2019-04-23 | 2019-07-23 | 百度在线网络技术(北京)有限公司 | 用于语音识别的方法和装置 |
CN110349576A (zh) * | 2019-05-16 | 2019-10-18 | 国网上海市电力公司 | 基于语音识别的电力系统操作指令执行方法、装置及系统 |
CN113823282A (zh) * | 2019-06-26 | 2021-12-21 | 百度在线网络技术(北京)有限公司 | 语音处理方法、系统和装置 |
CN110517673B (zh) * | 2019-07-18 | 2023-08-18 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN110517673A (zh) * | 2019-07-18 | 2019-11-29 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN112242139A (zh) * | 2019-07-19 | 2021-01-19 | 北京儒博科技有限公司 | 语音交互方法、装置、设备和介质 |
CN112242139B (zh) * | 2019-07-19 | 2024-01-23 | 北京如布科技有限公司 | 语音交互方法、装置、设备和介质 |
US11264027B2 (en) | 2019-08-16 | 2022-03-01 | Beijing Xiaomi Mobile Software Co., Ltd. | Method and apparatus for determining target audio data during application waking-up |
CN110619873A (zh) * | 2019-08-16 | 2019-12-27 | 北京小米移动软件有限公司 | 音频处理方法、装置及存储介质 |
CN111583923A (zh) * | 2020-04-28 | 2020-08-25 | 北京小米松果电子有限公司 | 信息控制方法及装置、存储介质 |
CN111583923B (zh) * | 2020-04-28 | 2023-11-14 | 北京小米松果电子有限公司 | 信息控制方法及装置、存储介质 |
CN112102839B (zh) * | 2020-08-31 | 2023-06-30 | 山西瑞森特科技有限公司 | 一种采集地面样本数据的方法、装置及计算机设备 |
CN112102839A (zh) * | 2020-08-31 | 2020-12-18 | 山西瑞森特科技有限公司 | 一种采集地面样本数据的方法、装置及计算机设备 |
CN112466296A (zh) * | 2020-11-10 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音交互的处理方法、装置、电子设备及存储介质 |
CN113192502A (zh) * | 2021-04-27 | 2021-07-30 | 北京小米移动软件有限公司 | 音频处理方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107146618A (zh) | 语音处理方法及装置 | |
CN107195303A (zh) | 语音处理方法及装置 | |
CN107818798B (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
US11276407B2 (en) | Metadata-based diarization of teleconferences | |
EP3655947B1 (en) | Speaker diarization using speaker embedding(s) and trained generative model | |
CN108347646B (zh) | 多媒体内容播放方法和装置 | |
CN112365894B (zh) | 基于ai的复合语音交互方法、装置及计算机设备 | |
CN107871506A (zh) | 语音识别功能的唤醒方法及装置 | |
CN109871807B (zh) | 人脸图像处理方法和装置 | |
CN108521612B (zh) | 视频摘要的生成方法、装置、服务器及存储介质 | |
CN106356077B (zh) | 一种笑声检测方法及装置 | |
CN106558305A (zh) | 语音数据处理方法及装置 | |
CN109286848B (zh) | 一种终端视频信息的交互方法、装置及存储介质 | |
CN112507294B (zh) | 一种基于人机交互的英语教学系统及教学方法 | |
CN111128212A (zh) | 混合语音分离方法及装置 | |
CN108877779B (zh) | 用于检测语音尾点的方法和装置 | |
CN109729067A (zh) | 语音打卡方法、装置、设备和计算机存储介质 | |
CN107767873A (zh) | 一种快速准确的离线语音识别装置及方法 | |
CN110164474A (zh) | 语音唤醒自动化测试方法及系统 | |
CN108962228B (zh) | 模型训练方法和装置 | |
CN110853627A (zh) | 用于语音标注的方法及系统 | |
CN113689854B (zh) | 语音会话方法、装置、计算机设备和存储介质 | |
CN113409822B (zh) | 对象状态的确定方法、装置、存储介质及电子装置 | |
CN114140850A (zh) | 人脸识别方法、装置和电子设备 | |
CN113868271A (zh) | 智能客服的知识库更新方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170908 |