CN109979474B - 语音设备及其用户语速修正方法、装置和存储介质 - Google Patents

语音设备及其用户语速修正方法、装置和存储介质 Download PDF

Info

Publication number
CN109979474B
CN109979474B CN201910155917.1A CN201910155917A CN109979474B CN 109979474 B CN109979474 B CN 109979474B CN 201910155917 A CN201910155917 A CN 201910155917A CN 109979474 B CN109979474 B CN 109979474B
Authority
CN
China
Prior art keywords
voice
speech
user
content
speech rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910155917.1A
Other languages
English (en)
Other versions
CN109979474A (zh
Inventor
廖海霖
陶梦春
毛跃辉
郑文成
张新
李保水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai filed Critical Gree Electric Appliances Inc of Zhuhai
Priority to CN201910155917.1A priority Critical patent/CN109979474B/zh
Publication of CN109979474A publication Critical patent/CN109979474A/zh
Application granted granted Critical
Publication of CN109979474B publication Critical patent/CN109979474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/01Correction of time axis

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种语音设备及其用户语速修正方法、装置和存储介质,所述语音设备当前进行语音识别的断点间隔时间是根据预先设定的当前的用户的设定语速值设置的,所述方法包括:接收所述当前的用户发出的第一语音;当接收到所述第一语音时,判断所述第一语音是否为反复发出的语音;若判断所述第一语音为反复发出的语音,则判断所述第一语音发出的次数是否达到预设次数;若判断所述第一语音发出的次数达到所述预设次数,则进行所述用户的语速修正。本发明提供的方案能够根据当前用户语速,结合识别效率确定是否需要重新设置用户的设定语速值。

Description

语音设备及其用户语速修正方法、装置和存储介质
技术领域
本发明涉及语音控制领域,尤其涉及一种语音设备及其用户语速修正方法、装置和存储介质。
背景技术
语音技术已经由一门年轻的计算机技术发展成了一门非常流行,也越来成熟的技术。未来的计算机的发展趋势是人工智能,让计算机能听、能说是未来人机交互的重要发展方向,其中语音成为未来最被看好的人机交互方式。众所周知,语音智能设备是采用语音输入,设备通过判断输入的间隔来判断用户说话的断点或断句。语句的断点、间隔在语义判断与解释中已到比较核心的位置;通过断点、间隔不但可以判断用户表达的感情、语义,同样能判断用户说话是否已经说完整,一句话五个字,一个字隔5s是可能出现的,但在现在的设备是没有该设置断点的方法,说话较慢的人使用语音设备就比较吃力或者说无法使用,因为他们语音输入超过了语音设备允许的间断时间。很明显每个人说话的语速已经影响他说的话是否能被识别或被正确识别。
发明内容
本发明的主要目的在于克服上述现有技术的缺陷,提供一种语音设备及其用户语速修正方法、装置和存储介质,以解决现有技术中用户的语音输入超过了语音设备允许的间断时间导致无法识别或无法正确识别的问题。
本发明一方面提供了一种语音设备的用户语速修正方法,所述语音设备当前进行语音识别的断点间隔时间是根据预先设定的当前的用户的设定语速值设置的,所述方法包括:接收所述当前的用户发出的第一语音;当接收到所述第一语音时,判断所述第一语音是否为反复发出的语音;若判断所述第一语音为反复发出的语音,则判断所述第一语音发出的次数是否达到预设次数;若判断所述第一语音发出的次数达到所述预设次数,则进行所述用户的语速修正。
可选地,还包括:接收当前的用户对所述语音设备的唤醒语音;当接收到所述唤醒语音时,从所述唤醒语音中提取出所述当前用户的声纹信息;根据预设的声纹信息与设定语速值的对应关系以及提取出的所述当前用户的声纹信息,确定所述当前用户的设定语速值;根据所述设定语速值设置所述语音设备当前进行语音识别的断点间隔时间。
可选地,判断所述第一语音是否为反复发出的语音,包括:识别所述第一语音对应的第一语音内容;判断是否存储了第二语音所对应的第二语音内容及所述第二语音的接收时间;若判断存储了所述第二语音内容及所述第二语音的接收时间,则根据所述第一语音内容与所述第二语音内容是否相同,确定所述第一语音是否为反复发出的语音。
可选地,根据所述第一语音内容与所述第二语音内容是否相同,确定所述第一语音是否为反复发出的语音,包括:若所述第一语音内容与所述第二语音内容相同,则判断所述第二语音与所述第一语音的接收时间间隔是否大于预设时间阈值;若判断所述接收时间间隔不大于所述预设时间阈值,则确定所述第一语音为反复发出的语音;若所述第一语音内容与所述第二语音内容不相同,则确定所述第一语音不是反复发出的语音。
可选地,若判断未存储所述第二语音内容及所述第二语音的接收时间,则存储所述第一语音所对应的第一语音内容及所述第一语音的接收时间;和/或,在判断存储了所述第二语音内容及所述第二语音的接收时间的情况下,若判断所述第一语音内容与所述第二语音内容不相同,则删除存储的所述第二语音内容及所述第二语音的接收时间,并保存所述第一语音内容及所述第一语音的接收时间;和/或,在判断所述第一语音内容与所述第二语音内容相同的情况下,若判断所述第二语音与所述第一语音的接收时间间隔大于预设时间阈值,则删除存储的所述第二语音内容及所述第二语音的接收时间,并保存所述第一语音内容及所述第一语音的接收时间。
可选地,设定所述用户的设定语速值和/或进行所述用户的语速修正,包括:接收所述用户输入的训练语音;根据接收到的所述训练语音计算所述用户的语速值,以设置为所述用户的设定语速值。
可选地,接收所述用户输入的训练语音,包括:接收所述用户多次输入的语音内容相同的训练语音;根据接收到的所述训练语音计算所述用户的第二语速值,包括:分别计算所述用户多次输入的所述训练语音的语速值;计算所述多次输入的训练语音的语速值的语速平均值;将计算的所述语速平均值设置为所述用户的设定语速值。
可选地,在接收到所述用户输入的训练语音后,还包括:将所述训练语音识别为相应的文本信息,并显示和/或语音播报所述相应的文本信息,以由用户确认识别的所述文本信息是否正确;在所述用户确认识别的所述文本信息正确的情况下,根据接收到的所述训练语音计算所述用户的语速值,以设置为所述用户的设定语速值。
本发明另一方面提供了一种语音设备的用户语速修正装置,所述语音设备当前进行语音识别的断点间隔时间是根据预先设定的当前的用户的设定语速值设置的,所述装置包括:语音接收单元,用于接收所述当前的用户发出的第一语音;第一判断单元,用于当所述第一接收单元接收到所述第一语音时,判断所述第一语音是否为反复发出的语音;第二判断单元,用于若所述第一判断单元判断所述第一语音为反复发出的语音,则判断所述第一语音发出的次数是否达到预设次数;语速设定单元,用于若所述第二判断单元判断所述第一语音发出的次数达到所述预设次数,则进行所述用户的语速修正。
可选地,还包括:所述语音接收单元,还用于接收当前的用户对所述语音设备的唤醒语音;声纹提取单元,用于当所述语音接收单元接收到所述唤醒语音时,从所述唤醒语音中提取出所述当前用户的声纹信息;确定单元,用于根据预设的声纹信息与设定语速值的对应关系以及提取出的所述当前用户的声纹信息,确定所述当前用户的设定语速值;设置单元,用于根据所述设定语速值设置所述语音设备当前进行语音识别的断点间隔时间。
可选地,所述第一判断单元,包括:识别子单元,用于识别所述第一语音对应的第一语音内容;判断子单元,用于判断是否存储了第二语音所对应的第二语音内容及所述第二语音的接收时间;确定子单元,用于若判断存储了所述第二语音内容及所述第二语音的接收时间,则根据所述第一语音内容与所述第二语音内容是否相同,确定所述第一语音是否为反复发出的语音。
可选地,所述确定子单元,根据所述第一语音内容与所述第二语音内容是否相同,确定所述第一语音是否为反复发出的语音,包括:若所述第一语音内容与所述第二语音内容相同,则判断所述第二语音与所述第一语音的接收时间间隔是否大于预设时间阈值;若判断所述接收时间间隔不大于所述预设时间阈值,则确定所述第一语音为反复发出的语音;若所述第一语音内容与所述第二语音内容不相同,则确定所述第一语音不是反复发出的语音。
可选地,所述第一判断单元,还包括,存储子单元,用于若所述判断子单元判断未存储所述第二语音内容及所述第二语音的接收时间,则存储所述第一语音所对应的第一语音内容及所述第一语音的接收时间;和/或,在所述判断子单元判断存储了所述第二语音内容及所述第二语音的接收时间的情况下,若所述确定子单元判断所述第一语音内容与所述第二语音内容不相同,则删除存储的所述第二语音内容及所述第二语音的接收时间,并保存所述第一语音内容及所述第一语音的接收时间;和/或,在判断所述第一语音内容与所述第二语音内容相同的情况下,若所述确定子单元判断所述第二语音与所述第一语音的接收时间间隔大于预设时间阈值,则删除存储的所述第二语音内容及所述第二语音的接收时间,并保存所述第一语音内容及所述第一语音的接收时间。
可选地,所述语速设定单元,还用于设定所述用户的设定语速值,所述语速设定单元设置所述用户的设定语速值和/或进行所述用户的语速修正,包括:接收所述用户输入的训练语音;根据接收到的所述训练语音计算所述用户的语速值,以设置为所述用户的设定语速值。
可选地,所述语速设定单元,接收所述用户输入的训练语音,包括:接收所述用户多次输入的语音内容相同的训练语音;所述语速设定单元,根据接收到的所述训练语音计算所述用户的第二语速值,包括:分别计算所述用户多次输入的所述训练语音的语速值;计算所述多次输入的训练语音的语速值的语速平均值;将计算的所述语速平均值设置为所述用户的设定语速值。
可选地,所述语速设定单元,还用于:在所述语音接收单元接收到所述用户输入的训练语音后,将所述训练语音识别为相应的文本信息,并显示和/或语音播报所述相应的文本信息,以由用户确认识别的所述文本信息是否正确;在所述用户确认识别的所述文本信息正确的情况下,根据接收到的所述训练语音计算所述用户的语速值,以设置为所述用户的设定语速值。
本发明又一方面提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现前述任一所述方法的步骤。
本发明再一方面提供了一种语音设备,包括处理器、存储器以及存储在存储器上可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述任一所述方法的步骤。
本发明再一方面提供了一种语音设备,包括前述任一所述的语音设备的用户语速修正装置。
根据本发明的技术方案,通过判断当前的用户发出的语音是否为反复发出的语音,确定是否需要对用户的语速进行修正,能够根据当前用户语速,结合识别效率确定是否需要重新设置用户的设定语速值,并且在需要重新设置用户的设定语速值时,能够根据用户输入的训练语音为用户重新设置设定语速值,从而在接收到相应用户的语音时,能够根据该用户的设定语速值设置语音识别的断点间隔时间,提高了语音识别正确率,提升了用户的语音控制体验。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明提供的语音设备的用户语速修正方法的一实施例的方法示意图;
图2是原声语音段示意图;
图3是根据本发明实施例的判断所述第一语音是否为反复发出的语音的步骤的流程示意图;
图4是根据本发明实施例的在一种具体实施方式中进行所述用户的语速修正的步骤的流程示意图;
图5是本发明提供的语音设备的用户语速修正方法的另一实施例的方法示意图;
图6是本发明提供的语音设备的用户语速修正方法的一具体实施例的方法示意图;
图7是本发明提供的语音设备的用户语速修正装置的一实施例的结构示意图;
图8是根据本发明实施例的第一判断单元的一种具体实施方式的结构示意图;
图9是本发明提供的语音设备的用户语速修正装置的另一实施例的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明提供一种语音设备的用户语速修正方法。所述语音设备当前进行语音识别的断点间隔时间是根据预先设定的当前的用户的设定语速值设置的。
图1是本发明提供的语音设备的用户语速修正方法的一实施例的方法示意图。
如图1所示,根据本发明的一个实施例,所述用户语速修正方法至少包括步骤S110、步骤S120、步骤S130和步骤S140。
步骤S110,接收所述当前的用户发出的第一语音。
具体地,接收当前的用户向所述语音设备发出的第一语音。所述语音设备当前进行语音识别的断点间隔时间是根据当前用户的设定语速值设置的。图2是原声语音段示意图。参考图2所示,A点为有效语音信息起始点,B点为有效语音信息结束点,C点为确认语音输入结束点,BC两点之间的时间为语音输入断点间隔时间,语音输入时,超过或等于BC段的时间值没有语音信息输入,则认为语音输入结束。
步骤S120,当接收到所述第一语音时,判断所述第一语音是否为反复发出的语音。
具体地,说话较慢的人使用语音交互设备输入语音时,若间断时间超过了语音设备允许的间断时间,则可能出现语音未被识别出来,或者未被正确识别出来的情况,则用户可能会反复说出该段语音,例如,在用户的语速较慢的情况下,语音设备进行语音识别的断点间隔时间小于用户说话的停顿时间,导致用户的话还未说完,就被语音设备识别为已经说完了,则语音设备不能完整识别出用户说出的语音,或者不能识别出用户说出的语音的正确的语义,则用户需要再次说出相同的语音。因此,当接收到用户发出的所述第一语音时,判断第一语音是否为用户反复输入但未被所述语音设备识别出来或者未被所述语音设备正确识别的语音。
图3是根据本发明实施例的判断所述第一语音是否为反复发出的语音的步骤的流程示意图。如图3所示,在一种具体实施方式中,步骤S120具体包括步骤S121、步骤S122和步骤S123。
步骤S121,识别所述第一语音对应的第一语音内容。
所述第一语音对应的第一语音内容,即对所述第一语音进行语音识别所识别出的所述第一语音对应的文字信息。同理,所述第二语音对应的第二语音内容,即对所述第二语音进行语音识别所识别出的所述第二语音对应的文字信息。例如,用户说出的语音为“您好”,则识别出对应的第一语音内容为文字“您好”。
步骤S122,判断是否存储了第二语音所对应的第二语音内容及所述第二语音的接收时间。
具体地,可以设置存储接收到的语音对应的语音内容及相应的接收时间的存储空间,该存储空间主要用于在判断用户发出的语音是否为反复发出时,对接收到的语音对应的语音内容进行暂存。在接收到用户的第一语音后,判断所述存储空间中是否存储了第二语音对应的第二语音内容,所述第二语音是在本次之前接收到的用户的语音,若判断未存储所述第二语音内容及所述第二语音的接收时间,说明所述第一语音不是反复发出的语音(例如该语音是第一次发出),则可以存储所述第一语音所对应的第一语音内容及所述第一语音的接收时间以用于下次判断,即作为下次判断时的所述第二语音内容;若判断存储了所述第二语音内容及所述第二语音命令的接收时间,则可以接下来执行步骤S123。
步骤S123,若判断存储了所述第二语音内容及所述第二语音命令的接收时间,则根据所述第一语音内容与所述第二语音内容是否相同,确定所述第一语音是否为反复发出的语音。
具体地,若所述第一语音内容与所述第二语音内容相同,说明第一语音与第二语音为相同的语音,则进一步判断所述第二语音与所述第一语音的接收时间间隔是否大于预设时间阈值;若判断所述接收时间间隔不大于所述预设时间阈值,则确定所述第一语音为反复发出的语音;若所述第一语音内容与所述第二语音内容不相同,则确定所述第一语音命令不是反复发出的语音。所述预设时间阈值例如可以设置为20S。进一步地,若判断所述第一语音内容与所述第二语音内容不相同,则删除存储的所述第二语音内容及所述第二语音的接收时间,并保存所述第一语音内容及所述第一语音的接收时间。
可选地,若判断未存储所述第二语音内容及所述第二语音的接收时间,则存储所述第一语音所对应的第一语音内容及所述第一语音的接收时间。即,将所述第一语音所对应的第一语音内容及所述第一语音的接收时间,作为下次判断时的所述第二语音内容及所述第二语音的接收时间。
可选地,在判断存储了所述第二语音内容及所述第二语音的接收时间的情况下,若判断所述第一语音内容与所述第二语音内容不相同,则删除存储的所述第二语音内容及所述第二语音的接收时间,并保存所述第一语音内容及所述第一语音的接收时间,以作为下次判断时的所述第二语音内容及所述第二语音的接收时间。
可选地,在判断所述第一语音内容与所述第二语音内容相同的情况下,若判断所述第二语音与所述第一语音的接收时间间隔大于预设时间阈值,则删除存储的所述第二语音内容及所述第二语音的接收时间,并保存所述第一语音内容及所述第一语音的接收时间,以作为下次判断时的所述第二语音内容及所述第二语音的接收时间。
步骤S130,若判断所述第一语音为反复发出的语音,则判断所述第一语音发出的次数是否大于预设次数阈值。
具体地,设置一个用于记录语音反复发出的次数的变量,例如,该变量记录为N,初始设置为N=0,若判断当前用户发出的第一语音为反复发出的语音,则判断变量N的值是否大于预设次数阈值,该次数阈值例如设置为2,当判断N>2时,接下来执行步骤S140。
步骤S140,若判断所述第一语音发出的次数达到所述预设次数,则进行所述用户的语速修正。
例如,判断变量N的值是否大于预设次数阈值,该次数阈值例如设置为2,当判断N>2时,进行所述用户的语速修正。
图4是根据本发明实施例的在一种具体实施方式中进行所述用户的语速修正的步骤的流程示意图。其中,设置所述用户的设定语速值可以采用相同的实施方式。如图4所示,在一种具体实施方式中,进行所述用户的语速修正具体可以步骤S141~步骤S143。
步骤S141,接收所述用户输入的训练语音。
在一种具体实施方式,可以提示用户输入训练语音后,接收所述用户输入的训练语音。可选地,接收所述用户多次输入的语音内容相同的训练语音。例如,可以多次提示用户输入训练语音,并接收所述用户输入的训练语音,其中,每次输入的训练语音对应的文字信息需要相同。可选地,可以提示用户根据预设的文本内容输入相应的训练语音,该文本内容也可以由用户预先进行设置。
步骤S142,根据接收到的所述训练语音计算所述用户的语速值,以设置为所述用户的设定语速值。
具体地,根据接收到的训练语音计算出有效语音的时间,即前述图2中的AB段时间,根据有效语音的时间计算所述用户的语速值(例如为单位时间说出的字数,例如,每秒钟说出的字数),以设置为所述用户的设定语速值。可选地,为了保证计算出的语速值的准确性,可以多次接收所述用户输入的语音内容相同的训练语音,并分别计算所述用户多次输入的所述训练语音的语速值,计算所述多次输入的训练语音的语速值的语速平均值,并将计算的所述语速平均值设置为所述用户的设定语速值。
可选地,还可以进一步包括步骤S143。
步骤S143,保存所述用户的声纹信息与所述设定语速值的对应关系。
具体地,保存所述用户的声纹信息与所述设定语速值的对应关系,以便在该用户发出语音时,识别出该用户的声纹信息,从而根据该用户的声纹信息对应的设定语速值设置所述语音设备进行语音识别的断点间隔时间。
可选地,在接收到所述用户输入的训练语音后还可以包括:将所述训练语音识别为相应的文本信息,并显示和/或语音播报所述相应的文本信息,以由用户确认识别的所述文本信息是否正确;在所述用户确认识别的所述文本信息正确的情况下,根据接收到的所述训练语音计算所述用户的语速值,以设置为所述用户的设定语速值。
例如,把用户输入的训练语音转化成文本内容,并通过语音播放或显示所述文本内容,由用户确认是否正确,若用户确认正确(例如用户通过语音输入“正确”,此时标记此段训练语音的语速为有效语速并保存。
图5是本发明提供的语音设备的用户语速修正方法的另一实施例的方法示意图。
如图5所示,基于上述实施例,根据本发明的另一个实施例,所述语音设备控制方法还包括步骤S101、步骤S102、步骤S103和步骤S104。
步骤S101,接收当前的用户对所述语音设备的唤醒语音。
步骤S102,当接收到所述唤醒语音时,从所述唤醒语音中提取出所述当前用户的声纹信息。
步骤S103,根据预设的声纹信息与设定语速值的对应关系以及提取出的所述当前用户的声纹信息,确定所述当前用户的设定语速值。
步骤S104,根据所述设定语速值设置所述语音设备当前进行语音识别的断点间隔时间。
具体地,所述唤醒语音即预设的用于唤醒所述语音设备的语音。当用户想要进行语音控制时,需要先说出唤醒语音以唤醒语音设备。预先设置用户的设定语速值,并保存用户的声纹信息与用户的设定语速值的对应关系,当接收到唤醒语音时,从该唤醒语音中提取出当前用户的声纹信息,从而根据预设的声纹信息与设定语速值的对应关系以及提取的当用户的声纹信息确定当前用户的设定语速值,从而根据所述设定语速值设置所述语音设备当前进行语音识别的断点间隔时间。在一种具体实施方式中,所述断点间隔时间等于设定语速值的倒数与预设时间之和,即,每说两个字的平均间隔时间预设时间之和,例如,设定语速值为V,预设时间为10s,则断点间隔时间t=(1/V)+10s。
为清楚说明本发明技术方案,下面再以一个具体实施例对本发明提供的送风速度确定方法的执行流程进行描述。
图6是本发明提供的语音设备的用户语速修正方法的一具体实施例的方法示意图。如图6所示实施例中包括步骤S201~步骤S214。
步骤S201,接收唤醒语音。
步骤S202,设置断点间隔时间。
根据唤醒语音提取用户声纹,并根据声纹提取对应的设定语速值,根据设定语速值设置当前的断点间隔时间。
步骤S203,接收用户输入语音。
步骤S204,识别对应的语音内容。
步骤S205,判断是否存在上次存储的语音内容。若不存在,则执行步骤S206以及步骤S207,若存在,则执行步骤S208。
步骤S206,若不存在上次存储的语音内容,则存储本次用户输入语音对应的语音内容。
步骤S207,存储本次接收用户输入语音的接收时间,并返回步骤S203。
步骤S208,若存在上次存储的语音内容,则读取上次存储的语音内容。
步骤S209,判断两次语音内容是否相同,若否,执行步骤S210,若是,执行步骤S211。
步骤S210,清空存储的语音内容。
步骤S211,若两次语音内容不同,则判断两次语音的接收时间间隔是否大于20S,若是,执行步骤S210,若否,执行步骤S212。
步骤S212,判断变量N是否大于2,若是,执行步骤S213,若否,返回步骤S203。
步骤S213,若N>2,则提示用户进入语速修正模式。
步骤S214,进入语速修正模式之后,开始语速修正训练。
本发明提供一种语音设备的用户语速修正装置。所述语音设备当前进行语音识别的断点间隔时间是根据预先设定的当前的用户的设定语速值设置的。
图7是本发明提供的语音设备的用户语速修正装置的一实施例的结构示意图。如图7所示,所述语音设备的用户语速修正装置100包括语音接收单元110、第一判断单元120、第二判断单元130和语速设定单元140。
语音接收单元110用于接收所述当前的用户发出的第一语音;第一判断单元120用于当所述第一接收单元接收到所述第一语音时,判断所述第一语音是否为反复发出的语音;第二判断单元130用于若所述第一判断单元120判断所述第一语音为反复发出的语音,则判断所述第一语音发出的次数是否达到预设次数;语速设定单元140用于若所述第二判断单元130判断所述第一语音发出的次数达到所述预设次数,则进行所述用户的语速修正。
语音接收单元110接收所述当前的用户发出的第一语音。具体地,语音接收单元110接收当前的用户向所述语音设备发出的第一语音。所述语音设备当前进行语音识别的断点间隔时间是根据当前用户的设定语速值设置的。参考图2所示,A点为有效语音信息起始点,B点为有效语音信息结束点,C点为确认语音输入结束点,BC两点之间的时间为语音输入断点间隔时间,语音输入时,超过或等于BC段的时间值没有语音信息输入,则认为语音输入结束。
当语音接收单元110接收到所述第一语音时,第一判断单元120判断所述第一语音是否为反复发出的语音。具体地,说话较慢的人使用语音交互设备输入语音时,若间断时间超过了语音设备允许的间断时间,则可能出现语音未被识别出来,或者未被正确识别出来的情况,则用户可能会反复说出该段语音,例如,在用户的语速较慢的情况下,语音设备进行语音识别的断点间隔时间小于用户说话的停顿时间,导致用户的话还未说完,就被语音设备识别为已经说完了,则语音设备不能完整识别出用户说出的语音,或者不能识别出用户说出的语音的正确的语义,则用户需要再次说出相同的语音。因此,当接收到用户发出的所述第一语音时,判断第一语音是否为用户反复输入但未被所述语音设备识别出来或者未被所述语音设备正确识别的语音。
图8是根据本发明实施例的第一判断单元的一种具体实施方式的结构示意图。如图8所示,在一种具体实施方式中,所述第一判断单元120包括识别子单元121、判断子单元122和确定子单元123。
识别子单元121用于识别所述第一语音对应的第一语音内容。
所述第一语音对应的第一语音内容,即对所述第一语音进行语音识别所识别出的所述第一语音对应的文字信息。同理,所述第二语音对应的第二语音内容,即对所述第二语音进行语音识别所识别出的所述第二语音对应的文字信息。例如,用户说出的语音为“您好”,则识别出对应的第一语音内容为文字“您好”。
判断子单元122用于判断是否存储了第二语音所对应的第二语音内容及所述第二语音的接收时间。
具体地,可以设置存储接收到的语音对应的语音内容及相应的接收时间的存储空间,该存储空间主要用于在判断用户发出的语音是否为反复发出时,对接收到的语音对应的语音内容进行暂存。在接收到用户的第一语音后,判断子单元122判断所述存储空间中是否存储了上次接收到的第二语音对应的第二语音内容,所述第二语音是在本次之前接收到的用户的语音,若判断子单元122判断未存储所述第二语音内容及所述第二语音的接收时间,说明所述第一语音不是反复发出的语音(例如该语音是第一次发出),则可以存储所述第一语音所对应的第一语音内容及所述第一语音的接收时间以用于下次判断,若判断存储了所述第二语音内容及所述第二语音命令的接收时间,则由确定子单元123根据所述第一语音内容与所述第二语音内容是否相同,确定所述第一语音是否为反复发出的语音。
确定子单元123用于若判断子单元122判断存储了所述第二语音内容及所述第二语音的接收时间,则根据所述第一语音内容与所述第二语音内容是否相同,确定所述第一语音是否为反复发出的语音。
具体地,若所述第一语音内容与所述第二语音内容相同,说明第一语音与第二语音为相同的语音,则确定子单元123进一步判断所述第二语音与所述第一语音的接收时间间隔是否大于预设时间阈值;若判断所述接收时间间隔不大于所述预设时间阈值,则确定所述第一语音为反复发出的语音;若所述第一语音内容与所述第二语音内容不相同,则确定所述第一语音命令不是反复发出的语音。所述预设时间阈值例如可以设置为20S。
进一步地,所述第一判断单元120还包括存储子单元(图未示)用于若所述判断子单元122判断未存储所述第二语音内容及所述第二语音的接收时间,则存储所述第一语音所对应的第一语音内容及所述第一语音的接收时间,以作为下次判断时的所述第二语音内容及所述第二语音的接收时间。
可选地,所述第一判断单元120还包括存储子单元,用于在所述判断子单元122判断存储了所述第二语音内容及所述第二语音的接收时间的情况下,若所述确定子单元123判断所述第一语音内容与所述第二语音内容不相同,则删除存储的所述第二语音内容及所述第二语音的接收时间,并保存所述第一语音内容及所述第一语音的接收时间。
可选地,所述第一判断单元120还包括存储子单元,用于在判断子单元122判断所述第一语音内容与所述第二语音内容相同的情况下,若所述确定子单元123判断所述第二语音与所述第一语音的接收时间间隔大于预设时间阈值,则删除存储的所述第二语音内容及所述第二语音的接收时间,并保存所述第一语音内容及所述第一语音的接收时间。
若第一判断单元120判断所述第一语音为反复发出的语音,则第二判断单元130判断所述第一语音发出的次数是否大于预设次数阈值。
具体地,设置一个用于记录语音反复发出的次数的变量,例如,该变量记录为N,初始设置为N=0,若判断当前用户发出的第一语音为反复发出的语音,则判断变量N的值是否大于预设次数阈值,该次数阈值例如设置为2,当判断N>2时,语速设定单元140进行所述用户的语速修正。
在一种具体实施方式中语速设定单元140设置所述用户的设定语速值和/或进行所述用户的语速修正,具体可以包括:接收所述用户输入的训练语音;根据接收到的所述训练语音计算所述用户的语速值,以设置为所述用户的设定语速值。
在一种具体实施方式,可以提示用户输入训练语音后,接收所述用户输入的训练语音。可选地,语速设定单元140接收所述用户多次输入的语音内容相同的训练语音。例如,可以多次提示用户输入训练语音,并接收所述用户输入的训练语音,其中,每次输入的训练语音对应的文字信息需要相同。可选地,可以提示用户根据预设的文本内容输入相应的训练语音,该文本内容也可以由用户预先进行设置。
语速设定单元140根据接收到的训练语音计算出有效语音的时间,即前述图2中的AB段时间,根据有效语音的时间计算所述用户的语速值(例如为单位时间说出的字数,例如,每秒钟说出的字数),以设置为所述用户的设定语速值。可选地,为了保证计算出的语速值的准确性,语速设定单元140可以多次接收所述用户输入的语音内容相同的训练语音,并分别计算所述用户多次输入的所述训练语音的语速值,计算所述多次输入的训练语音的语速值的语速平均值,并将计算的所述语速平均值设置为所述用户的设定语速值。
可选地,语速设定单元140还可以保存所述用户的声纹信息与所述设定语速值的对应关系。具体地,保存所述用户的声纹信息与所述设定语速值的对应关系,以便在该用户发出语音时,识别出该用户的声纹信息,从而根据该用户的声纹信息对应的设定语速值设置所述语音设备进行语音识别的断点间隔时间。
所述语速设定单元140还用于:在所述语音接收单元接收到所述用户输入的训练语音后,将所述训练语音识别为相应的文本信息,并显示和/或语音播报所述相应的文本信息,以由用户确认识别的所述文本信息是否正确;在所述用户确认识别的所述文本信息正确的情况下,根据接收到的所述训练语音计算所述用户的语速值,以设置为所述用户的设定语速值。
例如,把用户输入的训练语音转化成文本内容,并通过语音播放或显示所述文本内容,由用户确认是否正确,若用户确认正确(例如用户通过语音输入“正确”,此时标记此段训练语音的语速为有效语速并保存。
图9是本发明提供的语音设备的用户语速修正装置的另一实施例的结构示意图。如图9所示,基于上述实施例,所述语音设备的用户语速修正装置100还包括声纹提取单元102、确定单元103、设置单元104。
所述语音接收单元110还用于接收当前的用户对所述语音设备的唤醒语音;声纹提取单元102用于当所述语音接收单元接收到所述唤醒语音时,从所述唤醒语音中提取出所述当前用户的声纹信息;确定单元103用于根据预设的声纹信息与设定语速值的对应关系以及提取出的所述当前用户的声纹信息,确定所述当前用户的设定语速值;设置单元104用于根据所述设定语速值设置所述语音设备当前进行语音识别的断点间隔时间。
具体地,所述唤醒语音即预设的用于唤醒所述语音设备的语音。当用户想要进行语音控制时,需要先说出唤醒语音以唤醒语音设备。预先设置用户的设定语速值,并保存用户的声纹信息与用户的设定语速值的对应关系,当语音接收单元110接收到唤醒语音时,声纹提取单元102从该唤醒语音中提取出当前用户的声纹信息,从而确定单元103根据预设的声纹信息与设定语速值的对应关系以及提取的当用户的声纹信息确定当前用户的设定语速值,从而设置单元104根据所述设定语速值设置所述语音设备当前进行语音识别的断点间隔时间。在一种具体实施方式中,所述断点间隔时间等于设定语速值的倒数与预设时间之和,即,每说两个字的平均间隔时间预设时间之和,例如,设定语速值为V,预设时间为10s,则断点间隔时间t=(1/V)+10s。
本发明还提供对应于所述语音设备的用户语速修正方法的一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现前述任一所述方法的步骤。
本发明还提供对应于所述语音设备的用户语速修正方法的一种语音设备,包括处理器、存储器以及存储在存储器上可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前述任一所述方法的步骤。
本发明还提供对应于所述语音设备的用户语速修正装置的一种语音设备,包括前述任一所述的语音设备的用户语速修正装置。
据此,本发明提供的方案,通过判断当前的用户发出的语音是否为反复发出的语音,确定是否需要对用户的语速进行修正,能够根据当前用户语速,结合识别效率确定是否需要重新设置用户的设定语速值,并且在需要重新设置用户的设定语速值时,能够根据用户输入的训练语音为用户重新设置设定语速值,从而在接收到相应用户的语音时,能够根据该用户的设定语速值设置语音识别的断点间隔时间,提高了语音识别正确率,提升了用户的语音控制体验。
本文中所描述的功能可在硬件、由处理器执行的软件、固件或其任何组合中实施。如果在由处理器执行的软件中实施,那么可将功能作为一或多个指令或代码存储于计算机可读媒体上或经由计算机可读媒体予以传输。其它实例及实施方案在本发明及所附权利要求书的范围及精神内。举例来说,归因于软件的性质,上文所描述的功能可使用由处理器、硬件、固件、硬连线或这些中的任何者的组合执行的软件实施。此外,各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为控制装置的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (19)

1.一种语音设备的用户语速修正方法,其特征在于,所述语音设备当前进行语音识别的断点间隔时间是根据预先设定的当前的用户的设定语速值设置的,包括:
接收所述当前的用户发出的第一语音;
当接收到所述第一语音时,判断所述第一语音是否为反复发出的语音;
若判断所述第一语音为反复发出的语音,则判断所述第一语音发出的次数是否达到预设次数;
若判断所述第一语音发出的次数达到所述预设次数,则进行所述用户的语速修正;
所述进行所述用户的语速修正包括:接收所述用户输入的训练语音;
根据接收到的所述训练语音计算所述用户的语速值,以设置为所述用户的设定语速值。
2.根据权利要求1所述的方法,其特征在于,还包括:
接收当前的用户对所述语音设备的唤醒语音;
当接收到所述唤醒语音时,从所述唤醒语音中提取出所述当前用户的声纹信息;
根据预设的声纹信息与设定语速值的对应关系以及提取出的所述当前用户的声纹信息,确定所述当前用户的设定语速值;
根据所述设定语速值设置所述语音设备当前进行语音识别的断点间隔时间。
3.根据权利要求1或2所述的方法,其特征在于,判断所述第一语音是否为反复发出的语音,包括:
识别所述第一语音对应的第一语音内容;
判断是否存储了第二语音所对应的第二语音内容及所述第二语音的接收时间;
若判断存储了所述第二语音内容及所述第二语音的接收时间,则根据所述第一语音内容与所述第二语音内容是否相同,确定所述第一语音是否为反复发出的语音。
4.根据权利要求3所述的方法,其特征在于,根据所述第一语音内容与所述第二语音内容是否相同,确定所述第一语音是否为反复发出的语音,包括:
若所述第一语音内容与所述第二语音内容相同,则判断所述第二语音与所述第一语音的接收时间间隔是否大于预设时间阈值;
若判断所述接收时间间隔不大于所述预设时间阈值,则确定所述第一语音为反复发出的语音;
若所述第一语音内容与所述第二语音内容不相同,则确定所述第一语音不是反复发出的语音。
5.根据权利要求3所述的方法,其特征在于,
若判断未存储所述第二语音内容及所述第二语音的接收时间,则存储所述第一语音所对应的第一语音内容及所述第一语音的接收时间;
和/或,
在判断存储了所述第二语音内容及所述第二语音的接收时间的情况下,若判断所述第一语音内容与所述第二语音内容不相同,则删除存储的所述第二语音内容及所述第二语音的接收时间,并保存所述第一语音内容及所述第一语音的接收时间;
和/或,
在判断所述第一语音内容与所述第二语音内容相同的情况下,若判断所述第二语音与所述第一语音的接收时间间隔大于预设时间阈值,则删除存储的所述第二语音内容及所述第二语音的接收时间,并保存所述第一语音内容及所述第一语音的接收时间。
6.根据权利要求1所述的方法,其特征在于,设定所述用户的设定语速值,包括:
接收所述用户输入的训练语音;
根据接收到的所述训练语音计算所述用户的语速值,以设置为所述用户的设定语速值。
7.根据权利要求6所述的方法,其特征在于,
接收所述用户输入的训练语音,包括:接收所述用户多次输入的语音内容相同的训练语音;
根据接收到的所述训练语音计算所述用户的第二语速值,包括:
分别计算所述用户多次输入的所述训练语音的语速值;
计算所述多次输入的训练语音的语速值的语速平均值;
将计算的所述语速平均值设置为所述用户的设定语速值。
8.根据权利要求7所述的方法,其特征在于,在接收到所述用户输入的训练语音后,还包括:
将所述训练语音识别为相应的文本信息,并显示和/或语音播报所述相应的文本信息,以由用户确认识别的所述文本信息是否正确;
在所述用户确认识别的所述文本信息正确的情况下,根据接收到的所述训练语音计算所述用户的语速值,以设置为所述用户的设定语速值。
9.一种语音设备的用户语速修正装置,其特征在于,所述语音设备当前进行语音识别的断点间隔时间是根据预先设定的当前的用户的设定语速值设置的,包括:
语音接收单元,用于接收所述当前的用户发出的第一语音;
第一判断单元,用于当所述语音接收单元接收到所述第一语音时,判断所述第一语音是否为反复发出的语音;
第二判断单元,用于若所述第一判断单元判断所述第一语音为反复发出的语音,则判断所述第一语音发出的次数是否达到预设次数;
语速设定单元,用于若所述第二判断单元判断所述第一语音发出的次数达到所述预设次数,则进行所述用户的语速修正;
所述进行所述用户的语速修正,包括:
接收所述用户输入的训练语音;
根据接收到的所述训练语音计算所述用户的语速值,以设置为所述用户的设定语速值。
10.根据权利要求9所述的装置,其特征在于,还包括:
所述语音接收单元,还用于接收当前的用户对所述语音设备的唤醒语音;
声纹提取单元,用于当所述语音接收单元接收到所述唤醒语音时,从所述唤醒语音中提取出所述当前用户的声纹信息;
确定单元,用于根据预设的声纹信息与设定语速值的对应关系以及提取出的所述当前用户的声纹信息,确定所述当前用户的设定语速值;
设置单元,用于根据所述设定语速值设置所述语音设备当前进行语音识别的断点间隔时间。
11.根据权利要求9或10所述的装置,其特征在于,所述第一判断单元,包括:
识别子单元,用于识别所述第一语音对应的第一语音内容;
判断子单元,用于判断是否存储了第二语音所对应的第二语音内容及所述第二语音的接收时间;
确定子单元,用于若判断存储了所述第二语音内容及所述第二语音的接收时间,则根据所述第一语音内容与所述第二语音内容是否相同,确定所述第一语音是否为反复发出的语音。
12.根据权利要求11所述的装置,其特征在于,所述确定子单元,根据所述第一语音内容与所述第二语音内容是否相同,确定所述第一语音是否为反复发出的语音,包括:
若所述第一语音内容与所述第二语音内容相同,则判断所述第二语音与所述第一语音的接收时间间隔是否大于预设时间阈值;
若判断所述接收时间间隔不大于所述预设时间阈值,则确定所述第一语音为反复发出的语音;
若所述第一语音内容与所述第二语音内容不相同,则确定所述第一语音不是反复发出的语音。
13.根据权利要求11所述的装置,其特征在于,所述第一判断单元,还包括,存储子单元,用于若所述判断子单元判断未存储所述第二语音内容及所述第二语音的接收时间,则存储所述第一语音所对应的第一语音内容及所述第一语音的接收时间;
和/或,
在所述判断子单元判断存储了所述第二语音内容及所述第二语音的接收时间的情况下,若所述确定子单元判断所述第一语音内容与所述第二语音内容不相同,则删除存储的所述第二语音内容及所述第二语音的接收时间,并保存所述第一语音内容及所述第一语音的接收时间;
和/或,
在判断所述第一语音内容与所述第二语音内容相同的情况下,若所述确定子单元判断所述第二语音与所述第一语音的接收时间间隔大于预设时间阈值,则删除存储的所述第二语音内容及所述第二语音的接收时间,并保存所述第一语音内容及所述第一语音的接收时间。
14.根据权利要求9所述的装置,其特征在于,所述语速设定单元,还用于设定所述用户的设定语速值,
所述语速设定单元设置所述用户的设定语速值,包括:
接收所述用户输入的训练语音;
根据接收到的所述训练语音计算所述用户的语速值,以设置为所述用户的设定语速值。
15.根据权利要求14所述的装置,其特征在于,
所述语速设定单元,接收所述用户输入的训练语音,包括:接收所述用户多次输入的语音内容相同的训练语音;
所述语速设定单元,根据接收到的所述训练语音计算所述用户的第二语速值,包括:
分别计算所述用户多次输入的所述训练语音的语速值;
计算所述多次输入的训练语音的语速值的语速平均值;
将计算的所述语速平均值设置为所述用户的设定语速值。
16.根据权利要求15所述的装置,其特征在于,所述语速设定单元,还用于:
在所述语音接收单元接收到所述用户输入的训练语音后,将所述训练语音识别为相应的文本信息,并显示和/或语音播报所述相应的文本信息,以由用户确认识别的所述文本信息是否正确;在所述用户确认识别的所述文本信息正确的情况下,根据接收到的所述训练语音计算所述用户的语速值,以设置为所述用户的设定语速值。
17.一种存储介质,其特征在于,其上存储有计算机程序,所述程序被处理器执行时实现权利要求1-8任一所述方法的步骤。
18.一种语音设备,其特征在于,包括处理器、存储器以及存储在存储器上可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-8任一所述方法的步骤。
19.一种语音设备,其特征在于,包括如权利要求9-16任一所述的语音设备的用户语速修正装置。
CN201910155917.1A 2019-03-01 2019-03-01 语音设备及其用户语速修正方法、装置和存储介质 Active CN109979474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910155917.1A CN109979474B (zh) 2019-03-01 2019-03-01 语音设备及其用户语速修正方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910155917.1A CN109979474B (zh) 2019-03-01 2019-03-01 语音设备及其用户语速修正方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN109979474A CN109979474A (zh) 2019-07-05
CN109979474B true CN109979474B (zh) 2021-04-13

Family

ID=67077621

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910155917.1A Active CN109979474B (zh) 2019-03-01 2019-03-01 语音设备及其用户语速修正方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN109979474B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675861B (zh) * 2019-09-26 2022-11-01 深圳追一科技有限公司 语音断句方法、装置、设备及存储介质
WO2021134551A1 (zh) * 2019-12-31 2021-07-08 李庆远 多个机器翻译输出的人类合并和训练
WO2021134550A1 (zh) * 2019-12-31 2021-07-08 李庆远 多个语音识别输出的人类合并和训练
CN112511407B (zh) * 2020-10-30 2022-04-29 国网山东省电力公司泰安供电公司 自适应语音播放方法和系统
CN112628695B (zh) * 2020-12-24 2021-07-27 深圳市轻生活科技有限公司 一种语音控制台灯的控制方法和系统
CN113539295B (zh) * 2021-06-10 2024-04-23 联想(北京)有限公司 一种语音处理方法及装置
CN115713936A (zh) * 2022-10-21 2023-02-24 广州视声智能股份有限公司 基于智能家居的语音控制方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400580A (zh) * 2013-07-23 2013-11-20 华南理工大学 一种多人会话语音中的说话人重要程度估计方法
CN105405439A (zh) * 2015-11-04 2016-03-16 科大讯飞股份有限公司 语音播放方法及装置
CN105869626A (zh) * 2016-05-31 2016-08-17 宇龙计算机通信科技(深圳)有限公司 一种语速自动调节的方法及终端
CN109036388A (zh) * 2018-07-25 2018-12-18 李智彤 一种基于对话设备的智能语音交互方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
CN103077713B (zh) * 2012-12-25 2019-02-01 青岛海信电器股份有限公司 一种语音处理方法及装置
US9734820B2 (en) * 2013-11-14 2017-08-15 Nuance Communications, Inc. System and method for translating real-time speech using segmentation based on conjunction locations
KR102525209B1 (ko) * 2016-03-03 2023-04-25 한국전자통신연구원 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법
KR102072235B1 (ko) * 2016-12-08 2020-02-03 한국전자통신연구원 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템
CN108257616A (zh) * 2017-12-05 2018-07-06 苏州车萝卜汽车电子科技有限公司 人机对话的检测方法以及装置
CN108962283B (zh) * 2018-01-29 2020-11-06 北京猎户星空科技有限公司 一种发问结束静音时间的确定方法、装置及电子设备
CN108538294B (zh) * 2018-04-27 2020-11-17 科大讯飞股份有限公司 一种语音交互方法及装置
CN109241526B (zh) * 2018-08-22 2022-11-15 北京慕华信息科技有限公司 一种段落分割方法和装置
CN109147802B (zh) * 2018-10-22 2020-10-20 珠海格力电器股份有限公司 一种播放语速调节方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103400580A (zh) * 2013-07-23 2013-11-20 华南理工大学 一种多人会话语音中的说话人重要程度估计方法
CN105405439A (zh) * 2015-11-04 2016-03-16 科大讯飞股份有限公司 语音播放方法及装置
CN105869626A (zh) * 2016-05-31 2016-08-17 宇龙计算机通信科技(深圳)有限公司 一种语速自动调节的方法及终端
CN109036388A (zh) * 2018-07-25 2018-12-18 李智彤 一种基于对话设备的智能语音交互方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Cognitive load makes speech sound fast, but does not modulate acoustic context effects;HR Bosker;《Journal of Memory and Language, 2017 》;20171231;全文 *
汉语连续语音识别的语速自适应算法;王作英;《声学学报》;20031231;全文 *
自适应语速调整下的言语接受阈;孟庆林;《中国声学学会2017年全国声学学术会议论文集》;20170922;全文 *

Also Published As

Publication number Publication date
CN109979474A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109979474B (zh) 语音设备及其用户语速修正方法、装置和存储介质
EP4068280A1 (en) Speech recognition error correction method, related devices, and readable storage medium
CN104464723B (zh) 一种语音交互方法及系统
KR101417975B1 (ko) 오디오 레코드의 엔드포인트를 자동 감지하는 방법 및 시스템
CN102568478B (zh) 一种基于语音识别的视频播放控制方法和系统
KR101183344B1 (ko) 사용자 정정들을 이용한 자동 음성 인식 학습
JP5141695B2 (ja) 記号挿入装置および記号挿入方法
CN110047481B (zh) 用于语音识别的方法和装置
CN111797632B (zh) 信息处理方法、装置及电子设备
KR20180024807A (ko) 화자 인식에 기초한 음성 인식 방법 및 장치
CN103943105A (zh) 一种语音交互方法及系统
US9588967B2 (en) Interpretation apparatus and method
JP2006351028A (ja) 音声認識中に可変数の代替ワードを表示する方法及びシステム
CN110800045B (zh) 用于不间断应用唤醒和语音识别的系统和方法
CN110364178B (zh) 一种语音处理方法、装置、存储介质和电子设备
CN111370030A (zh) 语音情感检测方法与装置、存储介质、电子设备
CN111343028A (zh) 配网控制方法及装置
CN111883137A (zh) 基于语音识别的文本处理方法及装置
CN115150660B (zh) 一种基于字幕的视频编辑方法和相关设备
CN114385800A (zh) 语音对话方法和装置
US20170270923A1 (en) Voice processing device and voice processing method
CN111179903A (zh) 一种语音识别方法、装置、存储介质及电器
CN111768769A (zh) 语音交互方法、装置、设备及存储介质
CN109074809B (zh) 信息处理设备、信息处理方法和计算机可读存储介质
CN113782026A (zh) 一种信息处理方法、装置、介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant