CN106486126B - 语音识别纠错方法及装置 - Google Patents

语音识别纠错方法及装置 Download PDF

Info

Publication number
CN106486126B
CN106486126B CN201611180166.1A CN201611180166A CN106486126B CN 106486126 B CN106486126 B CN 106486126B CN 201611180166 A CN201611180166 A CN 201611180166A CN 106486126 B CN106486126 B CN 106486126B
Authority
CN
China
Prior art keywords
text information
information
text
recognition result
logic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611180166.1A
Other languages
English (en)
Other versions
CN106486126A (zh
Inventor
谢勤也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Beijing Yunzhisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhisheng Information Technology Co Ltd filed Critical Beijing Yunzhisheng Information Technology Co Ltd
Priority to CN201611180166.1A priority Critical patent/CN106486126B/zh
Publication of CN106486126A publication Critical patent/CN106486126A/zh
Application granted granted Critical
Publication of CN106486126B publication Critical patent/CN106486126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明是关于一种语音识别纠错方法及装置,其中,方法包括:获取通过当前语音识别模型得到的历史识别结果,其中,历史识别结果包含多个文本信息;对多个文本信息进行逻辑分析,提取出相互之间存在复述逻辑的目标文本信息;将相互之间存在复述逻辑的目标文本信息进行错误信道统计,生成文本对齐模型;接收用户输入的语音信息;根据当前语音识别模型和文本对齐模型对语音信息进行解码,以得到目标语音识别结果。通过该技术方案,可以使得识别后得到的语音识别结果更加准确,更加符合用户的要求,从而提升用户的使用体验。

Description

语音识别纠错方法及装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别纠错方法及装置。
背景技术
语音处理的过程中,在通过语义进行理解的时候,依赖于语音识别的效果。如果语音识别效果较差,则会影响语义分析的效果。并且,在识别出语音对应的文字后,如果用户想要修改其中的某些文字,则可能需要手动进行修改,用户体验不佳。
发明内容
本发明实施例提供一种语音识别纠错方法及装置,用以实现提高语音识别的准确率,从而提升用户的使用体验。
根据本发明实施例的第一方面,提供一种语音识别纠错方法,包括:
获取通过当前语音识别模型得到的历史识别结果,其中,所述历史识别结果包含多个文本信息;
对所述多个文本信息进行逻辑分析,提取出相互之间存在复述逻辑的目标文本信息;
将所述相互之间存在复述逻辑的目标文本信息进行错误信道统计,生成文本对齐模型;
接收用户输入的语音信息;
根据所述当前语音识别模型和所述文本对齐模型对所述语音信息进行解码,以得到目标语音识别结果。
在该实施例中,根据历史识别结果中存在复述逻辑的文本信息生成文本对齐模型,从而在进行语音识别时,根据语音识别模型和生成的文本对其模型识别接收到的语音信息,这样,可以使得识别后得到的语音识别结果更加准确,更加符合用户的要求,从而提升用户的使用体验。
在一个实施例中,所述对所述多个文本信息进行逻辑分析,提取出相互之间存在复述逻辑的目标文本信息,包括:
通过隐马尔可夫模型对所述多个文本信息进行逻辑分析,以确定任意两个文本信息之间的逻辑关系;
根据所述任意两个文本信息之间的逻辑关系,从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息。
在该实施例中,可以通过隐马尔可夫模型对文本信息进行逻辑分析,其可以分析出不同文本信息时间是否存在关联,以及具体的逻辑关系,如上下文关系,并列关系,复述关系等,进而确定相互之间存在复述逻辑的目标文本信息。
在一个实施例中,所述对所述多个文本信息进行逻辑分析,提取出相互之间存在复述逻辑的目标文本信息,包括:
获取每个文本信息的特征信息,其中,所述特征信息包括以下至少一项:文本特征信息、发音特征信息、语义特征信息;
根据所述特征信息计算任意两个文本信息之间的相似度;
获取所述任意两个文本信息之间的输入时间间隔;
根据所述任意两个文本信息之间的相似度和所述输入时间间隔,从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息。
在一个实施例中,所述根据所述相似度和所述输入时间间隔,从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息,包括:
将相似度大于或者等于预设相似度,且输入时间间隔小于或者等于预设时间间隔的文本信息确定为所述目标文本信息。
在该实施例中,还可以根据不同文本信息之间的文本特征信息、发音特征信息、语义特征信息等确定两个文本信息之间是否存在复述逻辑。一般而言,存在复述逻辑的两个文本之间的间隔时间会非常短,其它逻辑的间隔时间会略长。另外,存在复述逻辑的两个文本的音频特征会非常相似,包括长度相同。
在一个实施例中,根据所述当前语音识别模型和所述文本对齐模型对所述语音信息进行解码,以得到目标语音识别结果,包括:
通过所述语音识别模型对所述语音信息进行解码,得到第一语音识别结果;
根据所述第一语音识别结果、所述文本对齐模型和隐马尔可夫模型,得到第二语音识别结果;
将所述第二语音识别结果确定为所述目标语音识别结果。
在该实施例中,在进行语音识别时,可以先通过语音识别模型对语音信息进行解码,得到第一语音识别结果,进而根据文本对齐模型和隐马尔可夫模型对第一语音识别结果进行完善,从而得到更加准确的识别结果,提高语音识别的准确率。
根据本发明实施例的第二方面,提供一种语音识别纠错装置,包括:
获取模块,用于获取通过当前语音识别模型得到的历史识别结果,其中,所述历史识别结果包含多个文本信息;
提取模块,用于对所述多个文本信息进行逻辑分析,提取出相互之间存在复述逻辑的目标文本信息;
生成模块,用于将所述相互之间存在复述逻辑的目标文本信息进行错误信道统计,生成文本对齐模型;
接收模块,用于接收用户输入的语音信息;
识别模块,用于根据所述当前语音识别模型和所述文本对齐模型对所述语音信息进行解码,以得到目标语音识别结果。
在一个实施例中,所述提取模块包括:
关系确定子模块,用于通过隐马尔可夫模型对所述多个文本信息进行逻辑分析,以确定任意两个文本信息之间的逻辑关系;
第一提取子模块,用于根据所述任意两个文本信息之间的逻辑关系,从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息。
在一个实施例中,所述提取模块包括:
第一获取子模块,用于获取每个文本信息的特征信息,其中,所述特征信息包括以下至少一项:文本特征信息、发音特征信息、语义特征信息;
计算子模块,用于根据所述特征信息计算任意两个文本信息之间的相似度;
第二获取子模块,用于获取所述任意两个文本信息之间的输入时间间隔;
第二提取子模块,用于根据所述任意两个文本信息之间的相似度和所述输入时间间隔,从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息。
在一个实施例中,所述第二提取子模块用于:
将相似度大于或者等于预设相似度,且输入时间间隔小于或者等于预设时间间隔的文本信息确定为所述目标文本信息。
在一个实施例中,所述识别模块包括:
识别子模块,用于通过所述语音识别模型对所述语音信息进行解码,得到第一语音识别结果;
处理子模块,用于根据所述第一语音识别结果、所述文本对齐模型和隐马尔可夫模型,得到第二语音识别结果;
结果确定子模块,用于将所述第二语音识别结果确定为所述目标语音识别结果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种语音识别纠错方法的流程图。
图2是根据一示例性实施例示出的一种语音识别纠错方法中步骤S102的流程图。
图3是根据一示例性实施例示出的另一种语音识别纠错方法中步骤S102的流程图。
图4是根据一示例性实施例示出的一种语音识别纠错方法中步骤S105的流程图。
图5是根据一示例性实施例示出的一种语音识别纠错装置的框图。
图6是根据一示例性实施例示出的一种语音识别纠错装置中提取模块的框图。
图7是根据一示例性实施例示出的另一种语音识别纠错装置中提取模块的框图。
图8是根据一示例性实施例示出的一种语音识别纠错装置中识别模块的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种语音识别纠错方法的流程图。该语音识别纠错方法应用于终端设备中,该终端设备可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等任一具有语音识别功能的设备。如图1所示,该方法包括步骤S101-S105:
在步骤S101中,获取通过当前语音识别模型得到的历史识别结果,其中,历史识别结果包含多个文本信息;
在步骤S102中,对多个文本信息进行逻辑分析,提取出相互之间存在复述逻辑的目标文本信息;
例如,用户说“蓝色小苹果”的音,识别出“蓝色小苹果”的字,用户马上说“来个小苹果”,识别出“来个小苹果”,此时,“蓝色小苹果”和“来个小苹果”即存在复述逻辑。
在步骤S103中,将相互之间存在复述逻辑的目标文本信息进行错误信道统计,生成文本对齐模型;
如上例,文本信息“蓝色小苹果”和“来个小苹果”之间存在复述逻辑,则可以将两个文本信息进行错误信道统计,生成文本对齐模型,在上例中,生成的对齐模型为“来个”和“蓝色”对齐。
在步骤S104中,接收用户输入的语音信息;
在步骤S105中,根据当前语音识别模型和文本对齐模型对语音信息进行解码,以得到目标语音识别结果。
当生成文本对齐模型后,可以在通过当前语音识别模型对语音信息识别后,进一步通过文本对齐模型对识别结果进行完善。例如,用户说“蓝色小苹果”的音,通过预设语音识别模块识别出“蓝色小苹果”的字,再通过文本对齐模型确定“来个”和“蓝色”对齐,并通过语义分析等确定“来个”应该更符合用户意图,则可以得到识别结果“来个小苹果”。
在该实施例中,根据历史识别结果中存在复述逻辑的文本信息生成文本对齐模型,从而在进行语音识别时,根据语音识别模型和生成的文本对其模型识别接收到的语音信息,这样,可以使得识别后得到的语音识别结果更加准确,更加符合用户的要求,从而提升用户的使用体验。
图2是根据一示例性实施例示出的一种语音识别纠错方法中步骤S102的流程图。
如图2所示,在一个实施例中,上述步骤S102包括步骤S201-S202:
在步骤S201中,通过隐马尔可夫模型对多个文本信息进行逻辑建模,以确定任意两个文本信息之间的逻辑关系;
在步骤S202中,根据任意两个文本信息之间的逻辑关系,从多个文本信息中提取出相互之间存在复述逻辑的目标文本信息。
在该实施例中,可以通过隐马尔可夫模型对文本信息进行逻辑分析,其可以分析出不同文本信息时间是否存在关联,以及具体的逻辑关系,如上下文关系,并列关系,复述关系等,进而确定相互之间存在复述逻辑的目标文本信息。
图3是根据一示例性实施例示出的另一种语音识别纠错方法中步骤S102的流程图。
如图3所示,在一个实施例中,上述步骤S102包括步骤S301-S304:
在步骤S301中,获取每个文本信息的特征信息,其中,特征信息包括以下至少一项:文本特征信息、发音特征信息、语义特征信息;
文本特征信息包括文本文字、文本长度等,发音特征信息即文本发音,语义特征信息即文本语义。
在步骤S302中,根据特征信息计算任意两个文本信息之间的相似度;
根据不同文本信息之间的文本特征、发音特征和语义特征等可以计算文本信息之间的相似度。
在步骤S303中,获取任意两个文本信息之间的输入时间间隔;
在步骤S304中,根据任意两个文本信息之间的相似度和输入时间间隔,从多个文本信息中提取出相互之间存在复述逻辑的目标文本信息。
在一个实施例中,上述步骤S304包括:
将相似度大于或者等于预设相似度,且输入时间间隔小于或者等于预设时间间隔的文本信息确定为目标文本信息。
在该实施例中,还可以根据不同文本信息之间的文本特征信息、发音特征信息、语义特征信息等确定两个文本信息之间是否存在复述逻辑。一般而言,存在复述逻辑的两个文本之间的间隔时间会非常短,其它逻辑的间隔时间会略长。另外,存在复述逻辑的两个文本的音频特征会非常相似,包括长度相同。
当然,上述图2和图3所示的方法还可以结合使用,即同时根据任意两个文本信息之间的输入时间间隔、相似度和逻辑关系确定目标文本信息。
图4是根据一示例性实施例示出的一种语音识别纠错方法中步骤S105的流程图。
如图4所示,在一个实施例中,上述步骤S105包括步骤S401-S403:
在步骤S401中,通过语音识别模型对语音信息进行解码,得到第一语音识别结果;
例如,用户说“蓝色小苹果”的音,通过预设语音识别模块识别出“蓝色小苹果”的字,“蓝色小苹果”即第一识别结果。
在步骤S402中,根据第一语音识别结果、文本对齐模型和隐马尔可夫模型,得到第二语音识别结果;
如上述例子,在得到第一识别结果“蓝色小苹果”后,通过文本对齐模型确定“来个”和“蓝色”对齐,并通过隐马尔可夫模型进行语义分析,如通对用户会话的上下文进行分析,如用户上文是:播放音乐,确定“来个”应该更符合用户意图,则可以得到识别结果“来个小苹果”;如用户上文是红色的苹果,则维持“蓝色小苹果”为最终结果。
在步骤S403中,将第二语音识别结果确定为目标语音识别结果。
在该实施例中,在进行语音识别时,可以先通过语音识别模型对语音信息进行解码,得到第一语音识别结果,进而根据文本对齐模型和隐马尔可夫模型对第一语音识别结果进行完善,从而得到更加准确的识别结果,提高语音识别的准确率。
下述为本发明装置实施例,可以用于执行本发明方法实施例。
图5是根据一示例性实施例示出的一种语音识别纠错装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图5所示,该语音识别纠错装置包括:
获取模块51,用于获取通过当前语音识别模型得到的历史识别结果,其中,所述历史识别结果包含多个文本信息;
提取模块52,用于对所述多个文本信息进行逻辑分析,提取出相互之间存在复述逻辑的目标文本信息;
生成模块53,用于将所述相互之间存在复述逻辑的目标文本信息进行错误信道统计,生成文本对齐模型;
接收模块54,用于接收用户输入的语音信息;
识别模块55,用于根据所述当前语音识别模型和所述文本对齐模型对所述语音信息进行解码,以得到目标语音识别结果。
在该实施例中,根据历史识别结果中存在复述逻辑的文本信息生成文本对齐模型,从而在进行语音识别时,根据语音识别模型和生成的文本对其模型识别接收到的语音信息,这样,可以使得识别后得到的语音识别结果更加准确,更加符合用户的要求,从而提升用户的使用体验。
图6是根据一示例性实施例示出的一种语音识别纠错装置中提取模块的框图。
如图6所示,在一个实施例中,所述提取模块52包括:
关系确定子模块61,用于通过隐马尔可夫模型对所述多个文本信息进行逻辑分析,以确定任意两个文本信息之间的逻辑关系;
第一提取子模块62,用于根据所述任意两个文本信息之间的逻辑关系,从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息。
在该实施例中,可以通过隐马尔可夫模型对文本信息进行逻辑分析,其可以分析出不同文本信息时间是否存在关联,以及具体的逻辑关系,如上下文关系,并列关系,复述关系等,进而确定相互之间存在复述逻辑的目标文本信息。
图7是根据一示例性实施例示出的另一种语音识别纠错装置中提取模块的框图。
如图7所示,在一个实施例中,所述提取模块52包括:
第一获取子模块71,用于获取每个文本信息的特征信息,其中,所述特征信息包括以下至少一项:文本特征信息、发音特征信息、语义特征信息;
计算子模块72,用于根据所述特征信息计算任意两个文本信息之间的相似度;
第二获取子模块73,用于获取所述任意两个文本信息之间的输入时间间隔;
第二提取子模块74,用于根据所述任意两个文本信息之间的相似度和所述输入时间间隔,从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息。
在一个实施例中,所述第二提取子模块74用于:
将相似度大于或者等于预设相似度,且输入时间间隔小于或者等于预设时间间隔的文本信息确定为所述目标文本信息。
在该实施例中,还可以根据不同文本信息之间的文本特征信息、发音特征信息、语义特征信息等确定两个文本信息之间是否存在复述逻辑。一般而言,存在复述逻辑的两个文本之间的间隔时间会非常短,其它逻辑的间隔时间会略长。另外,存在复述逻辑的两个文本的音频特征会非常相似,包括长度相同。
图8是根据一示例性实施例示出的一种语音识别纠错装置中识别模块的框图。
如图8所示,在一个实施例中,所述识别模块55包括:
识别子模块81,用于通过所述语音识别模型对所述语音信息进行解码,得到第一语音识别结果;
处理子模块82,用于根据所述第一语音识别结果、所述文本对齐模型和隐马尔可夫模型,得到第二语音识别结果;
结果确定子模块83,用于将所述第二语音识别结果确定为所述目标语音识别结果。
在该实施例中,在进行语音识别时,可以先通过语音识别模型对语音信息进行解码,得到第一语音识别结果,进而根据文本对齐模型和隐马尔可夫模型对第一语音识别结果进行完善,从而得到更加准确的识别结果,提高语音识别的准确率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种语音识别纠错方法,其特征在于,包括:
获取通过当前语音识别模型得到的历史识别结果,其中,所述历史识别结果包含多个文本信息;
对所述多个文本信息进行逻辑分析,提取出相互之间存在复述逻辑的目标文本信息;
将所述相互之间存在复述逻辑的目标文本信息进行错误信道统计,生成文本对齐模型;
接收用户输入的语音信息;
根据所述当前语音识别模型和所述文本对齐模型对所述语音信息进行解码,以得到目标语音识别结果;
根据所述当前语音识别模型和所述文本对齐模型对所述语音信息进行解码,以得到目标语音识别结果,包括:
通过所述语音识别模型对所述语音信息进行解码,得到第一语音识别结果;
根据所述第一语音识别结果、所述文本对齐模型和隐马尔可夫模型,得到第二语音识别结果;
将所述第二语音识别结果确定为所述目标语音识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述多个文本信息进行逻辑分析,提取出相互之间存在复述逻辑的目标文本信息,包括:
通过隐马尔可夫模型对所述多个文本信息进行逻辑建模,以确定任意两个文本信息之间的逻辑关系;
根据所述任意两个文本信息之间的逻辑关系,从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息。
3.根据权利要求1或2所述的方法,其特征在于,所述对所述多个文本信息进行逻辑分析,提取出相互之间存在复述逻辑的目标文本信息,包括:
获取每个文本信息的特征信息,其中,所述特征信息包括以下至少一项:文本特征信息、发音特征信息、语义特征信息;
根据所述特征信息计算任意两个文本信息之间的相似度;
获取所述任意两个文本信息之间的输入时间间隔;
根据所述任意两个文本信息之间的相似度和所述输入时间间隔,从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息。
4.根据权利要求3所述的方法,其特征在于,所述根据所述相似度和所述输入时间间隔,从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息,包括:
将相似度大于或者等于预设相似度,且输入时间间隔小于或者等于预设时间间隔的文本信息确定为所述目标文本信息。
5.一种语音识别纠错装置,其特征在于,包括:
获取模块,用于获取通过当前语音识别模型得到的历史识别结果,其中,所述历史识别结果包含多个文本信息;
提取模块,用于对所述多个文本信息进行逻辑分析,提取出相互之间存在复述逻辑的目标文本信息;
生成模块,用于将所述相互之间存在复述逻辑的目标文本信息进行错误信道统计,生成文本对齐模型;
接收模块,用于接收用户输入的语音信息;
识别模块,用于根据所述当前语音识别模型和所述文本对齐模型对所述语音信息进行解码,以得到目标语音识别结果;
所述识别模块包括:
识别子模块,用于通过所述语音识别模型对所述语音信息进行解码,得到第一语音识别结果;
处理子模块,用于根据所述第一语音识别结果、所述文本对齐模型和隐马尔可夫模型,得到第二语音识别结果;
结果确定子模块,用于将所述第二语音识别结果确定为所述目标语音识别结果。
6.根据权利要求5所述的装置,其特征在于,所述提取模块包括:
关系确定子模块,用于通过隐马尔可夫模型对所述多个文本信息进行逻辑建模,以确定任意两个文本信息之间的逻辑关系;
第一提取子模块,用于根据所述任意两个文本信息之间的逻辑关系,从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息。
7.根据权利要求5或6所述的装置,其特征在于,所述提取模块包括:
第一获取子模块,用于获取每个文本信息的特征信息,其中,所述特征信息包括以下至少一项:文本特征信息、发音特征信息、语义特征信息;
计算子模块,用于根据所述特征信息计算任意两个文本信息之间的相似度;
第二获取子模块,用于获取所述任意两个文本信息之间的输入时间间隔;
第二提取子模块,用于根据所述任意两个文本信息之间的相似度和所述输入时间间隔,从所述多个文本信息中提取出所述相互之间存在复述逻辑的目标文本信息。
8.根据权利要求7所述的装置,其特征在于,所述第二提取子模块用于:
将相似度大于或者等于预设相似度,且输入时间间隔小于或者等于预设时间间隔的文本信息确定为所述目标文本信息。
CN201611180166.1A 2016-12-19 2016-12-19 语音识别纠错方法及装置 Active CN106486126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611180166.1A CN106486126B (zh) 2016-12-19 2016-12-19 语音识别纠错方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611180166.1A CN106486126B (zh) 2016-12-19 2016-12-19 语音识别纠错方法及装置

Publications (2)

Publication Number Publication Date
CN106486126A CN106486126A (zh) 2017-03-08
CN106486126B true CN106486126B (zh) 2019-11-19

Family

ID=58285402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611180166.1A Active CN106486126B (zh) 2016-12-19 2016-12-19 语音识别纠错方法及装置

Country Status (1)

Country Link
CN (1) CN106486126B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293296B (zh) * 2017-06-28 2020-11-20 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
CN109473093B (zh) * 2018-12-13 2023-08-04 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN110516248A (zh) * 2019-08-27 2019-11-29 出门问问(苏州)信息科技有限公司 语音识别结果纠错方法、装置、存储介质和电子设备
CN110503958A (zh) * 2019-08-30 2019-11-26 厦门快商通科技股份有限公司 语音识别方法、系统、移动终端及存储介质
CN110556127B (zh) * 2019-09-24 2021-01-01 北京声智科技有限公司 语音识别结果的检测方法、装置、设备及介质
CN110675874A (zh) * 2019-09-29 2020-01-10 深圳欧博思智能科技有限公司 一种基于智能音箱的虚拟角色与ui交互的实现方法
CN111210822A (zh) * 2020-02-12 2020-05-29 支付宝(杭州)信息技术有限公司 语音识别方法及其装置
CN111326140B (zh) * 2020-03-12 2023-05-30 科大讯飞股份有限公司 语音识别结果判别方法、纠正方法、装置、设备及存储介质
CN112257437B (zh) * 2020-10-20 2024-02-13 中国科学技术大学 语音识别纠错方法、装置、电子设备和存储介质
CN112417867B (zh) * 2020-12-07 2022-10-18 四川长虹电器股份有限公司 一种语音识别后的视频片名纠错方法及系统
CN113763925B (zh) * 2021-05-26 2024-03-12 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN115497474A (zh) * 2022-09-13 2022-12-20 广东浩博特科技股份有限公司 基于语音识别的控制方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1223985C (zh) * 2002-10-17 2005-10-19 中国科学院声学研究所 语音识别置信度评价方法和系统及应用该方法的听写装置
US8442828B2 (en) * 2005-12-02 2013-05-14 Microsoft Corporation Conditional model for natural language understanding
CN101464856A (zh) * 2007-12-20 2009-06-24 株式会社东芝 平行口语语料的对齐方法和装置
CN101562012B (zh) * 2008-04-16 2011-07-20 创而新(中国)科技有限公司 语音分级测定方法及系统
CN102568475B (zh) * 2011-12-31 2014-11-26 安徽科大讯飞信息科技股份有限公司 用于普通话水平测评的系统和方法

Also Published As

Publication number Publication date
CN106486126A (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
CN106486126B (zh) 语音识别纠错方法及装置
CN103853703B (zh) 一种信息处理方法及电子设备
CN108428446A (zh) 语音识别方法和装置
CN111667814A (zh) 一种多语种的语音合成方法及装置
CN110544477A (zh) 一种语音识别方法、装置、设备及介质
CN106649694A (zh) 语音交互中确定用户意图的方法及装置
CN109754783A (zh) 用于确定音频语句的边界的方法和装置
CN106653030A (zh) 标点添加方法及装置
CN110148399A (zh) 一种智能设备的控制方法、装置、设备及介质
CN110704590B (zh) 扩充训练样本的方法和装置
CN110600033A (zh) 学习情况的评估方法、装置、存储介质及电子设备
CN111312218A (zh) 神经网络的训练和语音端点检测方法及装置
US20110161084A1 (en) Apparatus, method and system for generating threshold for utterance verification
CN110111778B (zh) 一种语音处理方法、装置、存储介质及电子设备
CN106205610B (zh) 一种语音信息识别方法和设备
CN114155832A (zh) 基于深度学习的语音识别方法、装置、设备及介质
CN110148413A (zh) 语音评测方法及相关装置
US11600279B2 (en) Transcription of communications
CN106653003A (zh) 语音识别方法及装置
CN109213466B (zh) 庭审信息的显示方法及装置
CN113808572B (zh) 语音合成方法、装置、电子设备和存储介质
CN104464756A (zh) 一种小型说话人情感识别系统
CN113851110A (zh) 音频处理方法、装置、计算机设备及存储介质
CN108766448B (zh) 混音测试系统、方法、装置及存储介质
CN113889086A (zh) 语音识别模型的训练方法、语音识别方法及相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: No. 101, 1st Floor, 1st Building, Xisanqi Building Materials City, Haidian District, Beijing, 100000

Patentee after: Yunzhisheng Intelligent Technology Co.,Ltd.

Address before: 100191 Beijing, Huayuan Road, Haidian District No. 2 peony technology building, 5 floor, A503

Patentee before: BEIJING UNISOUND INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200420

Address after: No. 101, 1st Floor, 1st Building, Xisanqi Building Materials City, Haidian District, Beijing, 100000

Co-patentee after: Xiamen yunzhixin Intelligent Technology Co.,Ltd.

Patentee after: Yunzhisheng Intelligent Technology Co.,Ltd.

Address before: No. 101, 1st Floor, 1st Building, Xisanqi Building Materials City, Haidian District, Beijing, 100000

Patentee before: Yunzhisheng Intelligent Technology Co.,Ltd.