CN109524017A - 一种用户自定义词的语音识别增强方法和装置 - Google Patents

一种用户自定义词的语音识别增强方法和装置 Download PDF

Info

Publication number
CN109524017A
CN109524017A CN201811424175.XA CN201811424175A CN109524017A CN 109524017 A CN109524017 A CN 109524017A CN 201811424175 A CN201811424175 A CN 201811424175A CN 109524017 A CN109524017 A CN 109524017A
Authority
CN
China
Prior art keywords
user
custom
decoding
fst
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811424175.XA
Other languages
English (en)
Inventor
张明
关磊
王东
刘荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Branch Tower Technology Co Ltd
Tsinghua University
Original Assignee
Beijing Branch Tower Technology Co Ltd
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Branch Tower Technology Co Ltd, Tsinghua University filed Critical Beijing Branch Tower Technology Co Ltd
Priority to CN201811424175.XA priority Critical patent/CN109524017A/zh
Publication of CN109524017A publication Critical patent/CN109524017A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种用户自定义词的语音识别增强方法和装置,所述方法包括:获取用户自定义词;将用户自定义词拆分为已有词语的组合;将用户自定义词拆分后的已有词语组合生成用户自定义词典FST图;将用户自定义词典FST图和原有的解码图进行合并处理,得到合并后的解码图;利用合并后的解码图对用户输入的语音进行语音识别处理。本发明所述方法通过将用户自定义词FST图和原有的HCLG解码图合并,完成了对用户自定义词的权重增强,从而提高了对用户自定义词的识别效果;并且本方法充分利用了语音识别中解码图的信息,并在语音识别过程中充分结合了声学模型和语言模型的信息进行路径搜索,从而增强了对用户自定义词的识别准确率。

Description

一种用户自定义词的语音识别增强方法和装置
技术领域
本发明涉及语音识别技术领域,具体涉及一种用户自定义词的语音识别增强方法和装置。
背景技术
近年来,随着大规模连续语音识别技术的发展,语音识别技术被运用在越来越多的应用场景上。随着应用场景的增多,用户在使用时,往往会设置自定义关键词。但是,现有的处理方法对于自定义关键词的识别准确率不高,大大影响着用户体验。
现有技术中也存在对用户自定义关键词的语音识别增强方法,现有增强方法主要是采用后处理的方法,即语音识别后通过拼音进行关键词匹配,匹配之后直接进行词语替换。但是,现有的语音识别增强方法强依赖语音识别的结果,如果语音识别的结果出现错误,将无法进行关键词增强,致使现有的语音识别增强方法对于用户的自定义关键词识别准确率不高,不能满足用户的需要,影响用户体验的提高。
发明内容
有鉴于此,本发明的目的在于克服现有技术的不足,提供一种用户自定义词的语音识别增强方法和装置。
为实现以上目的,本发明采用如下技术方案:一种用户自定义词的语音识别增强方法,包括:
获取用户自定义词;
将所述用户自定义词拆分为已有词语的组合;
将所述用户自定义词拆分后的已有词语组合生成用户自定义词典FST图;
将所述用户自定义词典FST图和原有的解码图进行合并处理,得到合并后的解码图;
利用所述合并后的解码图对用户输入的语音进行语音识别处理。
可选的,所述将所述用户自定义词拆分为已有词语的组合,包括:
采用最大匹配法或N最短路径法将所述用户自定义词拆分为已有词语的组合。
可选的,所述原有的解码图为HCLG解码图。
可选的,所述将所述用户自定义词典FST图和原有的解码图进行合并处理,得到合并后的解码图,包括:
将所述用户自定义词典FST图与原有的HCLG解码图进行任意合并组合,得到合并后的HCLG解码图。
可选的,所述利用所述合并后的解码图对用户输入的语音进行语音识别处理包括:
获取用户输入的语音作为输入信号;
对所述输入信号进行预处理;
对预处理后的音频数据进行特征提取以获得特征向量;
对所述特征向量进行训练以得到声学模型;
通过所述声学模型、语言模型和所述合并后的HCLG解码图对提取特征后的音频数据进行解密,得到识别结果。
可选的,所述用户输入的语音包括:所述用户自定义词。
本发明还提供了一种用户自定义词的语音识别增强装置,包括:
自定义词典模块,用于获取用户自定义词;
自定义分词模块,用于将所述用户自定义词拆分为已有词语的组合;
自定义FST图生成模块,用于将所述用户自定义词拆分后的已有词语组合生成用户自定义词典FST图;
解码图合并模块,用于将所述用户自定义词典FST图和原有的解码图进行合并处理,得到合并后的解码图;
识别解码模块,用于利用所述合并后的解码图对用户输入的语音进行语音识别处理。
可选的,所述自定义分词模块采用最大匹配法或N最短路径法将所述用户自定义词拆分为已有词语的组合。
可选的,所述原有的解码图为HCLG解码图。
可选的,所述将所述用户自定义词典FST图和原有的解码图进行合并处理,得到合并后的解码图,包括:
将所述用户自定义词典FST图与原有的HCLG解码图进行任意合并组合,得到合并后的HCLG解码图。
本发明还提供了一种用户自定义词的语音识别增强装置,包括:
处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取用户自定义词;
将所述用户自定义词拆分为已有词语的组合;
将所述用户自定义词拆分后的已有词语组合生成用户自定义词典FST图;
将所述用户自定义词典FST图和原有的解码图进行合并处理,得到合并后的解码图;
利用所述合并后的解码图对用户输入的语音进行语音识别处理。
本发明采用以上技术方案,所述用户自定义词的语音识别增强方法,包括:获取用户自定义词;将所述用户自定义词拆分为已有词语的组合;将所述用户自定义词拆分后的已有词语组合生成用户自定义词典FST图;将所述用户自定义词典FST图和原有的解码图进行合并处理,得到合并后的解码图;利用所述合并后的解码图对用户输入的语音进行语音识别处理。本发明所述的语音识别增强方法通过将用户自定义词FST图和原有的HCLG解码图合并,即完成了对用户自定义词的权重增强,从而提高了对用户自定义词的识别效果;并且本方法充分利用了语音识别中解码图的信息,并在语音识别过程中充分结合了声学模型和语言模型的信息进行路径搜索,从而增强了对用户自定义词的识别准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明用户自定义词的语音识别增强方法的流程示意图;
图2是本发明用户自定义词的语音识别增强方法中利用所述合并后的解码图对用户输入的语音进行语音识别处理的流程示意图;
图3是将用户自定义词典分词后的结果转换为FST图的示意图;
图4是将用户自定义词典FST图和原有的HCLG解码图进行合并处理,得到的HCLG解码图;
图5是本发明用户自定义词的语音识别增强装置的结构示意图。
图中:1、自定义词典模块;2、自定义分词模块;3、自定义FST图生成模块;4、解码图合并模块;5、识别解码模块。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
图1是本发明用户自定义词的语音识别增强方法的流程示意图。
如图1所示,本实施例的方法包括:
S11:获取用户自定义词;
S12:将所述用户自定义词拆分为已有词语的组合;
进一步的,所述将所述用户自定义词拆分为已有词语的组合,包括:
采用最大匹配法或N最短路径法对所述用户自定义词进行分词处理,以将所述用户自定义词拆分为已有词语的组合。
需要说明的是,分词的方法有很多,本实施例采用的是最大匹配法或N最短路径法,但是对所述用户自定义词进行分词处理并不局限于以上两种分词方法。
S13:将所述用户自定义词拆分后的已有词语组合生成用户自定义词典FST 图;
S14:将所述用户自定义词典FST图和原有的解码图进行合并处理,得到合并后的解码图;
进一步的,所述原有的解码图为HCLG解码图;
所述将所述用户自定义词典FST图和原有的解码图进行合并处理,得到合并后的解码图,包括:
将所述用户自定义词典FST图与原有的HCLG解码图进行任意合并组合,得到合并后的HCLG解码图。
S15:利用所述合并后的解码图对用户输入的语音进行语音识别处理。
进一步的,如图2所示,所述利用所述合并后的解码图对用户输入的语音进行语音识别处理包括:
S151:获取用户输入的语音作为输入信号;
S152:对所述输入信号进行预处理;
S153:对预处理后的音频数据进行特征提取以获得特征向量;
S154:对所述特征向量进行训练以得到声学模型;
S155:通过所述声学模型、语言模型和所述合并后的HCLG解码图对提取特征后的音频数据进行解密,得到识别结果。
进一步的,所述用户输入的语音包括:所述用户自定义词。
下面举例说明本实施例所述的语音识别增强方法的处理过程。
比如,步骤S11获取的用户自定义词为:
北京公交车
北京公园
再执行步骤S12,将所述用户自定义词拆分为已有词语的组合,得到的自定义词典分词结果为:
北京公交车北京公交车
北京公园北京公园
再执行步骤S13,将用户自定义词典分词后的结果转换为FST图,转换后如图3所示。
其中,圆圈内的数字代表节点的编号。
然后,执行步骤S14,将所述用户自定义词典FST图和原有的HCLG解码图进行合并处理,得到合并后的HCLG解码图,如图4所示。
按照上述步骤得到合并后的HCLG解码图后,再利用所述合并后的HCLG解码图对用户输入的语音进行语音识别处理。其中,所述用户输入的语音可能会包括所述用户自定义词。当用户输入的语音中包括用户自定义词时,由于通过本实施例所述的方法已经将用户自定义词作为关键词增添到解码图中,提高了用户自定义关键词的权重,所以,在后续对语音识别过程中,增强了对用户自定义词的识别效果。
本实施例所述的语音识别增强方法通过将用户自定义词FST图和原有的 HCLG解码图合并,即完成了对用户自定义词的权重增强,从而提高了对用户自定义词的识别效果;并且本方法充分利用了语音识别中解码图的信息,并在语音识别过程中充分结合了声学模型和语言模型的信息进行路径搜索,从而增强了对用户自定义词的识别准确率。本实施例所述的方法能够实现对用户自定义词典的添加和扩展,便于用户根据自身喜好定制自己专属的语音识别系统,从而有利于提高用户体验,也有利于语音识别在更多领域的应用。
图5是本发明用户自定义词的语音识别增强装置的结构示意图。
如图5所示,本实施例所述的装置包括:
自定义词典模块1,用于获取用户自定义词;
自定义分词模块2,用于将所述用户自定义词拆分为已有词语的组合;
自定义FST图生成模块3,用于将所述用户自定义词拆分后的已有词语组合生成用户自定义词典FST图;
解码图合并模块4,用于将所述用户自定义词典FST图和原有的解码图进行合并处理,得到合并后的解码图;
识别解码模块5,用于利用所述合并后的解码图对用户输入的语音进行语音识别处理。
进一步的,所述自定义分词模块2采用最大匹配法或N最短路径法将所述用户自定义词拆分为已有词语的组合。
进一步的,所述原有的解码图为HCLG解码图。
进一步的,所述将所述用户自定义词典FST图和原有的解码图进行合并处理,得到合并后的解码图,包括:
将所述用户自定义词典FST图与原有的HCLG解码图进行任意合并组合,得到合并后的HCLG解码图。
本实施例所述的语音识别增强装置的工作原理与上文所述的语音识别增强方法的工作原理相同,在此不再赘述。
本实施例所述的语音识别增强装置通过将用户自定义词FST图和原有的 HCLG解码图合并,即完成了对用户自定义词的权重增强,从而提高了对用户自定义词的识别效果;并且本装置充分利用了语音识别中解码图的信息,并在语音识别过程中充分结合了声学模型和语言模型的信息进行路径搜索,从而增强了对用户自定义词的识别准确率。
此外,本发明还提供了一种用户自定义词的语音识别增强装置,包括:
处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取用户自定义词;
将所述用户自定义词拆分为已有词语的组合;
将所述用户自定义词拆分后的已有词语组合生成用户自定义词典FST图;
将所述用户自定义词典FST图和原有的解码图进行合并处理,得到合并后的解码图;
利用所述合并后的解码图对用户输入的语音进行语音识别处理。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA) 等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种用户自定义词的语音识别增强方法,其特征在于,包括:
获取用户自定义词;
将所述用户自定义词拆分为已有词语的组合;
将所述用户自定义词拆分后的已有词语组合生成用户自定义词典FST图;
将所述用户自定义词典FST图和原有的解码图进行合并处理,得到合并后的解码图;
利用所述合并后的解码图对用户输入的语音进行语音识别处理。
2.根据权利要求1所述的方法,其特征在于,所述将所述用户自定义词拆分为已有词语的组合,包括:
采用最大匹配法或N最短路径法将所述用户自定义词拆分为已有词语的组合。
3.根据权利要求1所述的方法,其特征在于,所述原有的解码图为HCLG解码图。
4.根据权利要求3所述的方法,其特征在于,所述将所述用户自定义词典FST图和原有的解码图进行合并处理,得到合并后的解码图,包括:
将所述用户自定义词典FST图与原有的HCLG解码图进行任意合并组合,得到合并后的HCLG解码图。
5.根据权利要求4所述的方法,其特征在于,所述利用所述合并后的解码图对用户输入的语音进行语音识别处理包括:
获取用户输入的语音作为输入信号;
对所述输入信号进行预处理;
对预处理后的音频数据进行特征提取以获得特征向量;
对所述特征向量进行训练以得到声学模型;
通过所述声学模型、语言模型和所述合并后的HCLG解码图对提取特征后的音频数据进行解密,得到识别结果。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述用户输入的语音包括:所述用户自定义词。
7.一种用户自定义词的语音识别增强装置,其特征在于,包括:
自定义词典模块,用于获取用户自定义词;
自定义分词模块,用于将所述用户自定义词拆分为已有词语的组合;
自定义FST图生成模块,用于将所述用户自定义词拆分后的已有词语组合生成用户自定义词典FST图;
解码图合并模块,用于将所述用户自定义词典FST图和原有的解码图进行合并处理,得到合并后的解码图;
识别解码模块,用于利用所述合并后的解码图对用户输入的语音进行语音识别处理。
8.根据权利要求7所述的装置,其特征在于,所述自定义分词模块采用最大匹配法或N最短路径法将所述用户自定义词拆分为已有词语的组合。
9.根据权利要求7或8所述的装置,其特征在于,所述原有的解码图为HCLG解码图;
所述将所述用户自定义词典FST图和原有的解码图进行合并处理,得到合并后的解码图,包括:
将所述用户自定义词典FST图与原有的HCLG解码图进行任意合并组合,得到合并后的HCLG解码图。
10.一种用户自定义词的语音识别增强装置,其特征在于,包括:
处理器和用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取用户自定义词;
将所述用户自定义词拆分为已有词语的组合;
将所述用户自定义词拆分后的已有词语组合生成用户自定义词典FST图;
将所述用户自定义词典FST图和原有的解码图进行合并处理,得到合并后的解码图;
利用所述合并后的解码图对用户输入的语音进行语音识别处理。
CN201811424175.XA 2018-11-27 2018-11-27 一种用户自定义词的语音识别增强方法和装置 Pending CN109524017A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811424175.XA CN109524017A (zh) 2018-11-27 2018-11-27 一种用户自定义词的语音识别增强方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811424175.XA CN109524017A (zh) 2018-11-27 2018-11-27 一种用户自定义词的语音识别增强方法和装置

Publications (1)

Publication Number Publication Date
CN109524017A true CN109524017A (zh) 2019-03-26

Family

ID=65779076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811424175.XA Pending CN109524017A (zh) 2018-11-27 2018-11-27 一种用户自定义词的语音识别增强方法和装置

Country Status (1)

Country Link
CN (1) CN109524017A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354349A (zh) * 2019-04-16 2020-06-30 深圳市鸿合创新信息技术有限责任公司 一种语音识别方法及装置、电子设备
CN111724769A (zh) * 2020-04-22 2020-09-29 深圳市伟文无线通讯技术有限公司 一种智能家居语音识别模型的生产方法
CN114242046A (zh) * 2021-12-01 2022-03-25 广州小鹏汽车科技有限公司 语音交互方法及装置、服务器及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592595A (zh) * 2012-03-19 2012-07-18 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统
CN103915092A (zh) * 2014-04-01 2014-07-09 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106469554A (zh) * 2015-08-21 2017-03-01 科大讯飞股份有限公司 一种自适应的识别方法及系统
US9966066B1 (en) * 2016-02-03 2018-05-08 Nvoq Incorporated System and methods for combining finite state transducer based speech recognizers
CN108121722A (zh) * 2016-11-28 2018-06-05 渡鸦科技(北京)有限责任公司 知识库的构建方法及装置
CN108288467A (zh) * 2017-06-07 2018-07-17 腾讯科技(深圳)有限公司 一种语音识别方法、装置及语音识别引擎
CN108831439A (zh) * 2018-06-27 2018-11-16 广州视源电子科技股份有限公司 语音识别方法、装置、设备和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592595A (zh) * 2012-03-19 2012-07-18 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统
CN103915092A (zh) * 2014-04-01 2014-07-09 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106469554A (zh) * 2015-08-21 2017-03-01 科大讯飞股份有限公司 一种自适应的识别方法及系统
US9966066B1 (en) * 2016-02-03 2018-05-08 Nvoq Incorporated System and methods for combining finite state transducer based speech recognizers
CN108121722A (zh) * 2016-11-28 2018-06-05 渡鸦科技(北京)有限责任公司 知识库的构建方法及装置
CN108288467A (zh) * 2017-06-07 2018-07-17 腾讯科技(深圳)有限公司 一种语音识别方法、装置及语音识别引擎
CN108831439A (zh) * 2018-06-27 2018-11-16 广州视源电子科技股份有限公司 语音识别方法、装置、设备和系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111354349A (zh) * 2019-04-16 2020-06-30 深圳市鸿合创新信息技术有限责任公司 一种语音识别方法及装置、电子设备
CN111724769A (zh) * 2020-04-22 2020-09-29 深圳市伟文无线通讯技术有限公司 一种智能家居语音识别模型的生产方法
CN114242046A (zh) * 2021-12-01 2022-03-25 广州小鹏汽车科技有限公司 语音交互方法及装置、服务器及存储介质
CN114242046B (zh) * 2021-12-01 2022-08-16 广州小鹏汽车科技有限公司 语音交互方法及装置、服务器及存储介质

Similar Documents

Publication Publication Date Title
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
US10832657B2 (en) Use of small unit language model for training large unit language models
CN106469552B (zh) 语音识别设备和方法
CN108711420B (zh) 多语言混杂模型建立、数据获取方法及装置、电子设备
WO2018223796A1 (zh) 语音识别方法、存储介质及语音识别设备
US9911409B2 (en) Speech recognition apparatus and method
KR102589637B1 (ko) 기계 번역 방법 및 장치
JP6204959B2 (ja) 音声認識結果最適化装置、音声認識結果最適化方法、及びプログラム
WO2021179701A1 (zh) 多语种语音识别方法、装置及电子设备
JP2018005218A (ja) 自動通訳方法及び装置
US9805712B2 (en) Method and device for recognizing voice
KR102081495B1 (ko) 계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체
WO2022143105A1 (zh) 文本生成模型生成方法、文本生成方法、装置及设备
CN109377985A (zh) 一种领域词的语音识别增强方法和装置
CN109524017A (zh) 一种用户自定义词的语音识别增强方法和装置
US11586689B2 (en) Electronic apparatus and controlling method thereof
US20220012520A1 (en) Electronic device and control method therefor
CN111881297B (zh) 语音识别文本的校正方法及装置
US11393458B2 (en) Method and apparatus for speech recognition
CN111353035B (zh) 人机对话方法、装置、可读存储介质及电子设备
CN110263340A (zh) 评论生成方法、装置、服务器及存储介质
CN110070859A (zh) 一种语音识别方法及装置
CN109859747B (zh) 语音交互方法、设备以及存储介质
CN111489735A (zh) 语音识别模型训练方法及装置
CN111477212B (zh) 内容识别、模型训练、数据处理方法、系统及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190326

RJ01 Rejection of invention patent application after publication