CN109599130B - 收音方法、装置及存储介质 - Google Patents
收音方法、装置及存储介质 Download PDFInfo
- Publication number
- CN109599130B CN109599130B CN201811506659.9A CN201811506659A CN109599130B CN 109599130 B CN109599130 B CN 109599130B CN 201811506659 A CN201811506659 A CN 201811506659A CN 109599130 B CN109599130 B CN 109599130B
- Authority
- CN
- China
- Prior art keywords
- voice
- input information
- pause
- semantic understanding
- voice input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 230000014509 gene expression Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 11
- 230000007246 mechanism Effects 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 24
- 238000004891 communication Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 208000019901 Anxiety disease Diseases 0.000 description 2
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 230000036506 anxiety Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000167834 Koelreuteria Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明实施例提出一种收音方法、装置及计算机可读存储介质。其中收音方法包括:接收语音输入信息;检测所述语音输入信息中是否出现语音停顿;若检测到所述语音输入信息中出现语音停顿,则根据至少一次所述语音停顿之前的所述语音输入信息得到语义理解的结果。本发明实施例通过优化收音规则和引入实时处理机制,增加接收到用户完整意图的概率,进而能够更大可能性地满足用户的实际需求,用户体验良好。
Description
技术领域
本发明涉及声音处理技术领域,尤其涉及一种收音方法、装置及计算机可读存储介质。
背景技术
实际使用智能音箱、智能电视、智能手机等设备的语音服务过程中,常会出现这样一种场景:用户在表述意图的时候,有了轻微的停顿或犹豫,言语上出现了轻微的停顿或磕巴,设备的语音服务在这时结束了收音,并开始将用户已经表述的那部分内容进行处理,试图基于用户的这部分表述去解析用户意图、召回服务结果。但往往这部分表述并不是用户意图的完整表述,所以分析处理的结果很可能是未能匹配到结果,也即设备会提示“未找到结果”。
此时,用户就需要重新唤醒设备的语音服务,重新进行意图表述。这不仅形成了一次“未满足”的服务,还会对用户造成某种心理上的压力。用户会认为表述得不够快速,以迫使用户不得不加快语速并且不敢停顿或换气。例如,用户说“我想看…emmm…《新闻联播》。”其中,“emmm”表示用户想不起来某个词时而处于停顿时的状态,有时在停顿时也会发出“嗯嗯”的声音。在实际线上环境中,根据用户停顿来判断用户已经讲完,会在停顿时停止收音,因此会听不到用户表述的《新闻联播》这一主体内容。
从体验上看,目前的技术是当声音出现停顿,就停止收音。其中会设置一个停顿时间,例如停顿超过N秒,就停止收音。但并不是每一次声音出现停顿,都是表示意图表述完了。利用这个停顿去做收音结束的判断条件,会产生很多收音失误。而收音不准确,会直接导致后续的语音转文字、语义理解、结果召回等各个环节的准确率都不能满足需求。
综上所述,现有技术的收音方法,会产生很多收音失误,可能接收不到用户的完整意图,用户体验不佳。
发明内容
本发明实施例提供一种收音方法、装置及计算机可读存储介质,以至少解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种收音方法,包括:
接收语音输入信息;
检测所述语音输入信息中是否出现语音停顿;
若检测到所述语音输入信息中出现语音停顿,则根据至少一次所述语音停顿之前的所述语音输入信息得到语义理解的结果。
在一种实施方式中,检测所述语音输入信息中是否出现语音停顿,包括:
检测所述语音输入信息中的语音中断时间;
若所述语音中断时间大于等于预设的第一时间阈值,则确定所述语音输入信息中出现语音停顿。
在一种实施方式中,若检测到所述语音输入信息中出现语音停顿,则根据至少一次所述语音停顿之前的所述语音输入信息得到语义理解的结果,包括:
若检测到所述语音输入信息中出现语音停顿,则将新增信息与原有信息相结合,形成所述语音输入信息的完整表述;
根据所述完整表述得到语义理解的结果;
其中,所述新增信息是本次语音停顿与上次语音停顿之间产生的所述语音输入信息,所述原有信息是上次语音停顿之前产生的所述语音输入信息。
在一种实施方式中,在根据至少一次所述语音停顿之前的所述语音输入信息得到语义理解的结果之后,还包括:
根据所述语义理解的结果给出播报信息。
在一种实施方式中,根据所述语义理解的结果给出播报信息,包括:
若根据语义理解产生了语义理解的结果,则继续收音,并根据所述语义理解的结果对所述语音输入信息给出播报信息。
在一种实施方式中,根据所述语义理解的结果给出播报信息,包括:
若根据语义理解没有产生语义理解的结果,则继续收音,并开始计时以检测本次语音中断时间;
若所述本次语音中断时间小于预设的第二时间阈值,则在本次语音中断时间之后继续实施所述收音方法;
若所述本次语音中断时间大于等于预设的第二时间阈值,则在本次语音中断时间达到所述第二时间阈值时,对所述语音输入信息给出未满足的播报信息,并继续实施所述收音方法。
第二方面,本发明实施例提供了一种收音装置,包括:
语音接收单元,用于接收语音输入信息;
停顿检测单元,用于检测所述语音输入信息中是否出现语音停顿;
语义理解单元,用于:若检测到所述语音输入信息中出现语音停顿,则根据至少一次所述语音停顿之前的所述语音输入信息得到语义理解的结果。
在一种实施方式中,所述停顿检测单元还用于:
检测所述语音输入信息中的语音中断时间;
若所述语音中断时间大于等于预设的第一时间阈值,则确定所述语音输入信息中出现语音停顿。
在一种实施方式中,所述语义理解单元还用于:
若检测到所述语音输入信息中出现语音停顿,则将新增信息与原有信息相结合,形成所述语音输入信息的完整表述;
根据所述完整表述得到语义理解的结果;
其中,所述新增信息是本次语音停顿与上次语音停顿之间产生的所述语音输入信息,所述原有信息是上次语音停顿之前产生的所述语音输入信息。
在一种实施方式中,所述装置还包括播报单元,用于:
根据所述语义理解的结果给出播报信息。
在一种实施方式中,所述语音接收单元还用于:若根据语义理解产生了语义理解的结果,则继续收音;
所述播报单元还用于:若根据语义理解产生了语义理解的结果,则根据所述语义理解的结果对所述语音输入信息给出播报信息。
在一种实施方式中,所述语音接收单元还用于:若根据语义理解没有产生语义理解的结果,则继续收音;
所述播报单元还用于:若根据语义理解没有产生语义理解的结果,则开始计时以检测本次语音中断时间;若所述本次语音中断时间小于预设的第二时间阈值,则在本次语音中断时间之后继续实施所述收音方法;若所述本次语音中断时间大于等于预设的第二时间阈值,则在本次语音中断时间达到所述第二时间阈值时,对所述语音输入信息给出未满足的播报信息,并继续实施所述收音方法。
第三方面,本发明实施例提供了一种收音装置,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述第一方面中任一所述的方法。
在一个可能的设计中,收音装置的结构中包括处理器和存储器,所述存储器用于存储支持收音装置执行上述第一方面中收音方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述收音装置还可以包括通信接口,收音装置与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一所述的方法。
上述技术方案中的一个技术方案具有如下优点或有益效果:通过优化收音规则和引入实时处理机制,增加接收到用户完整意图的概率,进而能够更大可能性地满足用户的实际需求,用户体验良好。
上述技术方案中的另一个技术方案具有如下优点或有益效果:在收音的过程中能够接收到用户的完整意图的基础上,为后续基于收音得到的音频而进行处理的其他流程增加成功的概率,使后续流程能够查询到目标结果并满足用户意图,进一步提升用户体验。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明实施例提供的收音方法的流程图。
图2为本发明另一实施例提供的收音方法的流程图。
图3为本发明实施例提供的收音方法的语义理解的流程图。
图4为本发明实施例提供的收音方法的给出播报信息的流程图。
图5为本发明实施例提供的收音装置的结构框图。
图6为本发明另一实施例提供的收音装置的结构框图。
图7为本发明又一实施例提供的收音装置的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1为本发明实施例提供的收音方法的流程图。如图1所示,本发明实施例的收音方法包括:
步骤S110,接收语音输入信息;
步骤S130,检测所述语音输入信息中是否出现语音停顿;
步骤S140,若检测到所述语音输入信息中出现语音停顿,则根据至少一次所述语音停顿之前的所述语音输入信息得到语义理解的结果。
语音识别的整个过程可包括收音、语音转文字、语义理解和结果召回等步骤。整个过程的每个步骤之间呈现的是漏斗型关系。漏斗型关系也称漏斗模型。漏斗模型其最早起源是从传统行业的营销商业活动中演变而来的,它是一套流程式数据分析方法。在一种示例中,漏斗模型的主要模型框架如下:通过检测目标流程中,以用户进入为起点,到最后完成目标动作,这其中经历过的每个步骤的用户量与留存量,来考核每个步骤的好坏,来找到最需要优化的步骤。在漏斗模型中,经历的每个步骤的用户量与留存量是逐渐减少的。可以说漏斗模型是用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。在语音识别的整个过程的各个步骤中,收音这一步骤至关重要。如果收音不准确或不完整,会导致最终结果不准确。
在收音这一步骤中,用户表述意图的时候,有时言语上会出现轻微的停顿。如果利用这个停顿去做收音结束的判断条件,会产生很多收音失误。可能接收不到用户的完整意图。本发明实施例持续地接收语音输入信息,希望能够缓解用户在表述过程中的紧张和焦虑。特别是早期用户还不是很熟悉语音交互的时候,可以给用户时间让用户表述完自己的完整意图。例如面对一个刚学会说话的孩子,父母会很耐心的听他说完话,给他足够的表述意图的时间,而不是在他想不起来某个词“emmm…emmm…”思考的时候,马上打断他。本发明实施例通过优化收音规则、增加接收到用户完整意图的概率,进而能够更大可能性的满足用户的实际需求。
另外,随着算力等各种技术的发展,可以对用户输入的内容进行实时处理。其中,算力是计算机处理能力的度量单位。例如,当网络达到10Th/s的算力时,意味着它可以每秒进行10万亿次计算。以搜索引擎为例,在算力保障的前提下,搜索引擎可以根据输入实时进行内容查询及结果展现,大幅度提升了搜索的结果推荐能力。同样,也可以借助算力等各种技术的发展,对用户输入的内容,进行实时处理,而不是等到结束收音之后再去处理。
具体地,本发明实施例对来自用户的语音输入信息进行语音识别,将语音输入信息转化成文字,再对文字实时进行语义理解。在用户的语音输入信息中出现语音停顿的时候,有可能用户已经表述完整。通过语音输入信息能够得到完整的语义且是用户想要表述的完整意图。
图2为本发明另一实施例提供的收音方法的流程图。如图2所示,在一种实施方式中,在图1中的步骤S140,根据至少一次所述语音停顿之前的所述语音输入信息得到语义理解的结果之后,还包括步骤S150:
根据所述语义理解的结果给出播报信息。
在用户的语音输入信息中出现语音停顿的时候,且通过语音输入信息能够得到完整的语义,这时有可能用户已经表述完整。这种情况下可根据语义理解的结果给出正常结果的播报信息,例如可以给出针对用户的语音输入信息的交互信息。
图4为本发明实施例提供的收音方法的给出播报信息的流程图。如图4所示,在一种实施方式中,图2中的步骤S150,根据所述语义理解的结果给出播报信息,具体可包括:
步骤S160,若根据语义理解产生了语义理解的结果,则继续收音,并根据所述语义理解的结果对所述语音输入信息给出播报信息。
在一个示例中,用户的语音输入信息为:“我想知道明天的天气情况。”这种情况通过对语音输入信息能够得到完整的语义,则根据语义理解的结果为用户查询明天的天气情况,也就是进行结果召回。将查询到的明天的天气情况作为针对用户的语音输入信息的响应结果。查询到响应结果后,在用户语音出现停顿时,也就是用户可能表述完成了。此时可以一边继续收音,一边给出响应结果的播报。如给出播报信息:“明天白天:多云,最高温度7℃;明日夜间:晴,最低温度0℃;空气质量:良;风力:东北风2级。”
在上述用户的语音输入信息中出现语音停顿的时候,另一种可能是用户没有表述完成,例如只是在说话的过程中处于思考的状态,这时通过语音输入信息不能够得到语义分析的结果。这种情况下可根据语义理解的结果给出未满足的播报信息,例如可以给出针对用户的语音输入信息不能找到结果的交互信息。
在上述用户的语音输入信息中出现语音停顿的时候,还有一种可能是用户没有表述完成,这时通过语音输入信息可以能够得到语义分析的结果,但由于用户还没有说完,这个语义分析的结果不是用户想要表述的完整意图。这种情况下可在停顿时先根据语义理解的结果给出播报信息,例如可以给出针对目前用户的语音输入信息的交互信息。然后再持续地接收语音输入信息,用户在表述过程中可能会有几次停顿,可将几次停顿之前的所有语音输入信息整合成用户的完整表述,根据用户的完整表述得到语义理解的结果,这个结果才是用户想要表述的完整意图。最后根据语义理解的结果给出正常结果的播报信息,例如可以给出针对用户的语音输入信息的交互信息。
在一种实施方式中,检测所述语音输入信息中是否出现语音停顿,包括:
检测所述语音输入信息中的语音中断时间;
若所述语音中断时间大于等于预设的第一时间阈值,则确定所述语音输入信息中出现语音停顿。
其中,第一时间阈值的设置可根据产品相关的用户人群特征而定。例如,将本发明实施例的收音方法应用于儿童培训、老人陪护等场景中,由于儿童和老人说话较慢、表述不连贯,第一时间阈值可相应地设置为较长的等待时间,以使得儿童或老人表述完自己的完整意图。再如,可根据产品相关的用户人群的地域特征来设置第一时间阈值。不同地域的人群说话的语速可能会有差别,如南方人语速平均比北方人语速快,对于语速慢的用户人群,第一时间阈值可相应地设置为较长的等待时间。
图3为本发明实施例提供的收音方法的语义理解的流程图。如图3所示,在一种实施方式中,图1中的步骤S140,若检测到所述语音输入信息中出现语音停顿,则根据至少一次所述语音停顿之前的所述语音输入信息得到语义理解的结果,具体可包括:
步骤S210,若检测到所述语音输入信息中出现语音停顿,则将新增信息与原有信息相结合,形成所述语音输入信息的完整表述;
步骤S220,根据所述完整表述得到语义理解的结果;
其中,所述新增信息是本次语音停顿与上次语音停顿之间产生的所述语音输入信息,所述原有信息是上次语音停顿之前产生的所述语音输入信息。
基于上述,用户的语音输入信息中出现语音停顿的时候,可能是用户已经表述完成,但也可能是用户没有表述完成。这种情况下可在停顿时一边继续收音,一边先根据语义理解的结果给出播报信息。例如用户的语音输入信息为:“我想问苏轼…”。这次出现停顿时通过对语音输入信息能够得到完整的语义,则根据语义理解的结果为用户查询有关苏轼的信息,并根据查询到的结果给出播报信息。如播报信息为:“苏轼(1037年1月8日—1101年8月24日),字子瞻,又字和仲,号铁冠道人、东坡居士,世称苏东坡、苏仙。汉族,眉州眉山(今属四川省眉山市)人,祖籍河北栾城,北宋文学家、书法家、画家。”
在出现这次停顿进行上述播报时,仍在进行继续收音。一种可能就是此时用户还没有说完,例如在播报结果的过程中,又收到用户新的表述,用户在说完“我想问苏轼…”之后,接着说:“他弟弟是谁?”也就是说,用户想要表述的完整意图是想知道苏轼的弟弟是谁。由此,在出现第二次停顿时,将这两次的用户表述整合到一起,也就是将新增信息与原有信息相结合,得到用户的完整表述。根据这个完整表述再一次地进行语义理解,并进行结果召回,得到结果:“苏轼的弟弟是苏辙。”这时,停止上述关于苏轼的信息的结果播报,进行新结果“苏轼的弟弟是苏辙。”的播报。这个新结果才是用户想要表述的完整意图。
参见图4,在一种实施方式中,图2中的步骤S150,根据所述语义理解的结果给出播报信息,具体可包括:
步骤S170,若根据语义理解没有产生语义理解的结果,则继续收音,并开始计时以检测本次语音中断时间;
步骤S180,若所述本次语音中断时间小于预设的第二时间阈值,则在本次语音中断时间之后继续实施所述收音方法;
步骤S190,若所述本次语音中断时间大于等于预设的第二时间阈值,则在本次语音中断时间达到所述第二时间阈值时,对所述语音输入信息给出未满足的播报信息,并继续实施所述收音方法。
在一个示例中,用户的语音输入信息为:“我想知道…”。这时由于用户在没有表述完成的情况下出现了停顿,通过语音输入信息不能够得到语义分析的结果。这种情况下可以在出现停顿时继续收音,同时启动计时器计时,检测本次出现停顿的语音中断时间,并判断本次语音中断时间是否达到预设的第二时间阈值。
如果本次语音中断时间没有达到第二时间阈值,则继续保持听音和收音,给用户充分的时间以便用户将话说完。并在这段时间内持续执行所述收音方法,进行相关的结果处理。具体而言,在出现停顿开始计时的这段时间内,仍实时进行语义理解,如检测到出现语音停顿,仍根据一次或结合多次语音停顿之前的语音输入信息得到语义理解的结果,然后根据语义理解的结果给出播报信息。
在一个示例中,用户的说出“我想知道…”之后出现了停顿。这种情况下继续收音并开始计时。如果在本次语音中断时间还没有达到第二时间阈值时,用户继续说出“明天的天气情况”,则将这两次的用户表述整合到一起,也就是将新增信息与原有信息相结合,得到用户的完整表述。再根据这个完整表述再一次地进行语义理解,并进行结果召回,得到关于明天的天气情况的查询结果,根据这个查询结果给出播报信息。
如果本次语音中断时间达到了第二时间阈值,且在进行实时语义理解的过程中始终没有得到语义理解的结果,这种情况是用户没有表述出完整的意图并且已经停顿了较长时间。这时仍然继续收音,并开始播报,给出不能找到结果的交互信息,例如可使用“未满足”的话术给出播报结果。
在一个示例中,用户说出“我想知道…”之后出现了较长时间的停顿。在本次语音中断时间达到第二时间阈值时,根据一次或结合多次语音停顿之前的语音输入信息都没有得到语义理解的结果,则暂时无法得知用户的意图,可使用“未满足”的话术给出播报结果。如给出播报信息:“对不起,暂时没有查询到您想要的信息。”另外,还可以进一步使用“安抚”的话术给出播报结果,如给出播报信息:“我们正在不断尝试为您找到最新信息。”
与前述第一时间阈值的设置方法相同,第二时间阈值的设置也可根据产品相关的用户人群特征而定。例如,对于儿童、老人或语速慢的用户人群,第二时间阈值可相应地设置为较长的等待时间。
综上所述,本发明实施例能够对用户输入的内容进行实时处理,而不是结束收音之后再去处理。在持续收音的过程中对用户输入的内容实时进行语音转文字、语义理解和结果召回,同时加上“是否出现语音停顿”的判断,在出现语音停顿时与用户交互,给出播报信息。上述方法可缓解用户在表述过程中的紧张和焦虑,给用户充足的时间让用户表述完自己的完整意图。
在一种可能的实现方式中,收音可以作为产品的整个处理过程中的一个环节。在收音环节中,持续地接收语音输入信息,可没有结束收音的设置。在实际的产品应用流程中,可在收音环节的下游环节中再去设置结束收音的流程。
在另一种可能的实现方式中,也可以在收音这个环节中设置结束收音的触发条件。例如,触发条件可以是持续地接收语音输入信息的时间阈值限定,也可以是特定的触发事件导致结束收音,具体设置可根据产品功能的实际需求而确定。
上述技术方案中的一个技术方案具有如下优点或有益效果:通过优化收音规则和引入实时处理机制,增加接收到用户完整意图的概率,进而能够更大可能性地满足用户的实际需求,用户体验良好。
上述技术方案中的另一个技术方案具有如下优点或有益效果:在收音的过程中能够接收到用户的完整意图的基础上,为后续基于收音得到的音频而进行处理的其他流程增加成功的概率,使后续流程能够查询到目标结果并满足用户意图,进一步提升用户体验。
图5为本发明实施例提供的收音装置的结构框图。如图5所示,本发明实施例的收音装置包括:
语音接收单元100,用于接收语音输入信息;
停顿检测单元300,用于检测所述语音输入信息中是否出现语音停顿;
语义理解单元200,用于:若检测到所述语音输入信息中出现语音停顿,则根据至少一次所述语音停顿之前的所述语音输入信息得到语义理解的结果。
在一种实施方式中,所述停顿检测单元300还用于:
检测所述语音输入信息中的语音中断时间;
若所述语音中断时间大于等于预设的第一时间阈值,则确定所述语音输入信息中出现语音停顿。
在一种实施方式中,所述语义理解单元200还用于:
若检测到所述语音输入信息中出现语音停顿,则将新增信息与原有信息相结合,形成所述语音输入信息的完整表述;
根据所述完整表述得到语义理解的结果;
其中,所述新增信息是本次语音停顿与上次语音停顿之间产生的所述语音输入信息,所述原有信息是上次语音停顿之前产生的所述语音输入信息。
图6为本发明另一实施例提供的收音装置的结构框图。如图6所示,在一种实施方式中,所述装置还包括播报单元400,用于:
根据所述语义理解的结果给出播报信息。
在一种实施方式中,所述语音接收单元100还用于:若根据语义理解产生了语义理解的结果,则继续收音;
所述播报单元400还用于:若根据语义理解产生了语义理解的结果,则根据所述语义理解的结果对所述语音输入信息给出播报信息。
在一种实施方式中,所述语音接收单元100还用于:若根据语义理解没有产生语义理解的结果,则继续收音;
所述播报单元400还用于:若根据语义理解没有产生语义理解的结果,则开始计时以检测本次语音中断时间;若所述本次语音中断时间小于预设的第二时间阈值,则在本次语音中断时间之后继续实施所述收音方法;若所述本次语音中断时间大于等于预设的第二时间阈值,则在本次语音中断时间达到所述第二时间阈值时,对所述语音输入信息给出未满足的播报信息,并继续实施所述收音方法。
本发明实施例的收音装置中各单元的功能可以参见上述方法的相关描述,在此不再赘述。
在一个可能的设计中,收音装置的结构中包括处理器和存储器,所述存储器用于存储支持收音装置执行上述收音方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述收音装置还可以包括通信接口,收音装置与其他设备或通信网络通信。
图7为本发明又一实施例提供的收音装置的结构框图。如图7所示,该装置包括:存储器101和处理器102,存储器101内存储有可在处理器102上运行的计算机程序。所述处理器102执行所述计算机程序时实现上述实施例中的收音方法。所述存储器101和处理器102的数量可以为一个或多个。
该装置还包括:
通信接口103,用于与外界设备进行通信,进行数据交互传输。
存储器101可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器101、处理器102和通信接口103独立实现,则存储器101、处理器102和通信接口103可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器101、处理器102及通信接口103集成在一块芯片上,则存储器101、处理器102及通信接口103可以通过内部接口完成相互间的通信。
又一方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述收音方法中任一所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (8)
1.一种收音方法,其特征在于,包括:
持续接收语音输入信息;
检测所述语音输入信息中是否出现语音停顿;
若检测到所述语音输入信息中出现语音停顿,则根据至少一次所述语音停顿之前的所述语音输入信息得到语义理解的结果;
根据所述语义理解的结果给出播报信息;
其中,根据所述语义理解的结果给出播报信息,包括:
若根据语义理解没有产生语义理解的结果,则继续收音,并开始计时以检测本次语音中断时间;若所述本次语音中断时间小于预设的第二时间阈值,则在本次语音中断时间之后继续实施所述收音方法;若所述本次语音中断时间大于等于预设的第二时间阈值,则在本次语音中断时间达到所述第二时间阈值时,对所述语音输入信息给出未满足的播报信息,并继续实施所述收音方法;
若根据语义理解产生了语义理解的结果,则继续收音,并根据所述语义理解的结果对所述语音输入信息给出播报信息。
2.根据权利要求1所述的方法,其特征在于,检测所述语音输入信息中是否出现语音停顿,包括:
检测所述语音输入信息中的语音中断时间;
若所述语音中断时间大于等于预设的第一时间阈值,则确定所述语音输入信息中出现语音停顿。
3.根据权利要求1所述的方法,其特征在于,若检测到所述语音输入信息中出现语音停顿,则根据至少一次所述语音停顿之前的所述语音输入信息得到语义理解的结果,包括:
若检测到所述语音输入信息中出现语音停顿,则将新增信息与原有信息相结合,形成所述语音输入信息的完整表述;
根据所述完整表述得到语义理解的结果;
其中,所述新增信息是本次语音停顿与上次语音停顿之间产生的所述语音输入信息,所述原有信息是上次语音停顿之前产生的所述语音输入信息。
4.一种收音装置,其特征在于,包括:
语音接收单元,用于持续接收语音输入信息;
停顿检测单元,用于检测所述语音输入信息中是否出现语音停顿;
语义理解单元,用于:若检测到所述语音输入信息中出现语音停顿,则根据至少一次所述语音停顿之前的所述语音输入信息得到语义理解的结果;
播报单元,用于:根据所述语义理解的结果给出播报信息;
其中,
若根据语义理解没有产生语义理解的结果,则:
所述语音接收单元还用于:继续收音;
所述播报单元还用于:开始计时以检测本次语音中断时间;若所述本次语音中断时间小于预设的第二时间阈值,则在本次语音中断时间之后继续实施所述收音装置的功能;若所述本次语音中断时间大于等于预设的第二时间阈值,则在本次语音中断时间达到所述第二时间阈值时,对所述语音输入信息给出未满足的播报信息,并继续实施所述收音装置的功能;
若根据语义理解产生语义理解的结果,则:
所述语音接收单元还用于:继续收音;
所述播报单元还用于:根据所述语义理解的结果对所述语音输入信息给出播报信息。
5.根据权利要求4所述的装置,其特征在于,所述停顿检测单元还用于:
检测所述语音输入信息中的语音中断时间;
若所述语音中断时间大于等于预设的第一时间阈值,则确定所述语音输入信息中出现语音停顿。
6.根据权利要求4所述的装置,其特征在于,所述语义理解单元还用于:
若检测到所述语音输入信息中出现语音停顿,则将新增信息与原有信息相结合,形成所述语音输入信息的完整表述;
根据所述完整表述得到语义理解的结果;
其中,所述新增信息是本次语音停顿与上次语音停顿之间产生的所述语音输入信息,所述原有信息是上次语音停顿之前产生的所述语音输入信息。
7.一种收音装置,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-3中任一所述的方法。
8.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811506659.9A CN109599130B (zh) | 2018-12-10 | 2018-12-10 | 收音方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811506659.9A CN109599130B (zh) | 2018-12-10 | 2018-12-10 | 收音方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109599130A CN109599130A (zh) | 2019-04-09 |
CN109599130B true CN109599130B (zh) | 2020-10-30 |
Family
ID=65962454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811506659.9A Active CN109599130B (zh) | 2018-12-10 | 2018-12-10 | 收音方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109599130B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619873A (zh) * | 2019-08-16 | 2019-12-27 | 北京小米移动软件有限公司 | 音频处理方法、装置及存储介质 |
CN110689877A (zh) * | 2019-09-17 | 2020-01-14 | 华为技术有限公司 | 一种语音结束端点检测方法及装置 |
CN111081248A (zh) * | 2019-12-27 | 2020-04-28 | 安徽仁昊智能科技有限公司 | 一种人工智能语音识别装置 |
CN113362828B (zh) * | 2020-03-04 | 2022-07-05 | 阿波罗智联(北京)科技有限公司 | 用于识别语音的方法和装置 |
CN111580775B (zh) * | 2020-04-28 | 2024-03-05 | 北京小米松果电子有限公司 | 信息控制方法及装置、存储介质 |
CN111583923B (zh) * | 2020-04-28 | 2023-11-14 | 北京小米松果电子有限公司 | 信息控制方法及装置、存储介质 |
CN113393840B (zh) * | 2021-08-17 | 2021-11-05 | 硕广达微电子(深圳)有限公司 | 一种基于语音识别的移动终端控制系统及方法 |
CN114582333A (zh) * | 2022-02-21 | 2022-06-03 | 中国第一汽车股份有限公司 | 语音识别方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107068147A (zh) * | 2015-10-19 | 2017-08-18 | 谷歌公司 | 语音端点确定 |
CN107293300A (zh) * | 2017-08-01 | 2017-10-24 | 珠海市魅族科技有限公司 | 语音识别方法及装置、计算机装置及可读存储介质 |
CN107680592A (zh) * | 2017-09-30 | 2018-02-09 | 惠州Tcl移动通信有限公司 | 一种移动终端语音识别方法、及移动终端及存储介质 |
CN108270928A (zh) * | 2018-04-20 | 2018-07-10 | 维沃移动通信有限公司 | 一种语音识别的方法及移动终端 |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
CN108962283A (zh) * | 2018-01-29 | 2018-12-07 | 北京猎户星空科技有限公司 | 一种发问结束静音时间的确定方法、装置及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8185400B1 (en) * | 2005-10-07 | 2012-05-22 | At&T Intellectual Property Ii, L.P. | System and method for isolating and processing common dialog cues |
US10102851B1 (en) * | 2013-08-28 | 2018-10-16 | Amazon Technologies, Inc. | Incremental utterance processing and semantic stability determination |
-
2018
- 2018-12-10 CN CN201811506659.9A patent/CN109599130B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
CN107068147A (zh) * | 2015-10-19 | 2017-08-18 | 谷歌公司 | 语音端点确定 |
CN107293300A (zh) * | 2017-08-01 | 2017-10-24 | 珠海市魅族科技有限公司 | 语音识别方法及装置、计算机装置及可读存储介质 |
CN107680592A (zh) * | 2017-09-30 | 2018-02-09 | 惠州Tcl移动通信有限公司 | 一种移动终端语音识别方法、及移动终端及存储介质 |
CN108962283A (zh) * | 2018-01-29 | 2018-12-07 | 北京猎户星空科技有限公司 | 一种发问结束静音时间的确定方法、装置及电子设备 |
CN108270928A (zh) * | 2018-04-20 | 2018-07-10 | 维沃移动通信有限公司 | 一种语音识别的方法及移动终端 |
Also Published As
Publication number | Publication date |
---|---|
CN109599130A (zh) | 2019-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109599130B (zh) | 收音方法、装置及存储介质 | |
CN108962283B (zh) | 一种发问结束静音时间的确定方法、装置及电子设备 | |
CN110113497B (zh) | 基于语音交互的语音外呼方法、装置、终端及存储介质 | |
US11250857B1 (en) | Polling with a natural language interface | |
CN113327609B (zh) | 用于语音识别的方法和装置 | |
US20210134278A1 (en) | Information processing device and information processing method | |
CN109741753B (zh) | 一种语音交互方法、装置、终端及服务器 | |
CN109473104B (zh) | 语音识别网络延时优化方法及装置 | |
CN112313930B (zh) | 管理保持的方法和装置 | |
US11164579B2 (en) | Method and apparatus for generating information | |
CN108595406B (zh) | 一种用户状态的提醒方法、装置、电子设备及存储介质 | |
CN108900616B (zh) | 有声资源的收听方法和装置 | |
CN105827516A (zh) | 消息处理方法和装置 | |
CN109697981B (zh) | 一种语音交互方法、装置、设备及存储介质 | |
CN117253478A (zh) | 一种语音交互方法和相关装置 | |
CN109545203A (zh) | 语音识别方法、装置、设备和存储介质 | |
CN111933149A (zh) | 语音交互方法、穿戴式设备、终端及语音交互系统 | |
CN110956958A (zh) | 搜索方法、装置、终端设备及存储介质 | |
CN112313743A (zh) | 语音处理装置、语音处理方法和记录介质 | |
CN110889008A (zh) | 一种音乐推荐方法、装置、计算装置和存储介质 | |
CN110381097B (zh) | 一种语音分享音频的方法、系统及车载终端 | |
CN110660393A (zh) | 语音交互方法、装置、设备及存储介质 | |
CN113129902B (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN112242143A (zh) | 一种语音交互方法、装置、终端设备及存储介质 | |
CN114372476A (zh) | 语义截断检测方法、装置、设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210512 Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing Patentee after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. Patentee after: Shanghai Xiaodu Technology Co.,Ltd. Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing Patentee before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd. |