CN105702252B - 一种语音识别方法及装置 - Google Patents

一种语音识别方法及装置 Download PDF

Info

Publication number
CN105702252B
CN105702252B CN201610202416.0A CN201610202416A CN105702252B CN 105702252 B CN105702252 B CN 105702252B CN 201610202416 A CN201610202416 A CN 201610202416A CN 105702252 B CN105702252 B CN 105702252B
Authority
CN
China
Prior art keywords
text
speech
probability
speech text
spoken language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610202416.0A
Other languages
English (en)
Other versions
CN105702252A (zh
Inventor
王峰
陈仲帅
殷腾龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Group Co Ltd
Original Assignee
Hisense Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Group Co Ltd filed Critical Hisense Group Co Ltd
Priority to CN201610202416.0A priority Critical patent/CN105702252B/zh
Publication of CN105702252A publication Critical patent/CN105702252A/zh
Application granted granted Critical
Publication of CN105702252B publication Critical patent/CN105702252B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种基于口语化的语音识别方法及装置,其中,该方法包括:获取语音文本;根据预设的语音文本识别模型,确定所述语音文本是否为口语文本;若所述语音文本为口语文本,则对所述语音文本进行归一化和标准化处理,生成规范化的语音文本;对所述规范化的语音文本,进行语义解析。本发明实施例提供的基于口语化的语音识别方法及装置,解决了现有技术无法对口语文本进行识别的问题,提高了用户的使用体验。

Description

一种语音识别方法及装置
技术领域
本发明实施例涉及语音识别技术领域,尤其涉及一种语音识别方法及装置。
背景技术
随着语音识别技术的发展,自然语音交互越来越成为趋势,使用自然语言进行人机交互成为智能化设备非常明显的标志。
现有技术中,基于自然语言的人机交互是以规范化的语音文本为前提的,即用户用于进行人机交互的语音文本必须具有规范化的用词和规范化的语句结构。对于非规范化的语音文本而言,其往往很难被机器所识别。然而,口语化的交流方式作为人们日常生活中的主要交流方式,由于其具有用词随意、语句结构不规范等特点,其往往不能被用于人机交互中,这与人们的交流习惯相悖,严重影响了人机交互的体验。
发明内容
本发明实施例提供一种语音识别方法及装置,用以解决现有技术无法识别口语化的语音文本的问题。
本发明实施例第一方面提供一种语音识别方法,该方法包括:
获取用户的语音数据,并根据所述语音数据获取对应的语音文本;
根据预设的语音文本识别模型,确定所述语音文本是否为口语文本;
若所述语音文本为口语文本,则对所述语音文本进行归一化和标准化处理,生成规范化的语音文本;
对所述规范化的语音文本,进行语义解析。
本发明实施例第二方面提供一种语音识别装置,该装置包括:
获取模块,用于获取用户的语音数据,并根据所述语音数据获取对应的语音文本;
确定模块,用于根据预设的语音文本识别模型,确定所述语音文本是否为口语文本;
处理模块,用于当所述语音文本为口语文本时,对所述语音文本进行归一化和标准化处理,生成规范化的语音文本;
解析模块,用于对所述规范化的语音文本,进行语义解析。
本发明实施例第三方面提供一种语音识别装置,该装置,包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:
获取用户的语音数据,并根据所述语音数据获取对应的语音文本;
根据预设的语音文本识别模型,确定所述语音文本是否为口语文本;
若所述语音文本为口语文本,则对所述语音文本进行归一化和标准化处理,生成规范化的语音文本;
根据所述规范化的语音文本,进行语义解析。
本发明实施例,通过预先建立的语音文本识别模型对口语文本进行识别,若输入的语音文本为口语文本,则通过归一化和标准化的处理方法,将口语文本转化为规范化的语音文本,从而根据规范化语音文本的解析方法和业务定位方法对转化后的口语文本进行语义解析,解决了现有技术无法识别口语文本的问题,提高了用户的使用体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的语音识别方法的流程示意图;
图2为本发明实施例二提供的语音识别方法的流程示意图;
图3为本发明实施例二中第一映射关系的建立方法的流程示意图;
图4为本发明实施例三提供的语音识别装置的结构示意图;
图5为本发明实施例四提供的语音识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤的过程或结构的装置不必限于清楚地列出的那些结构或步骤而是可包括没有清楚地列出的或对于这些过程或装置固有的其它步骤或结构。
图1为本发明实施例一提供的语音识别方法的流程示意图,该方法可以通过一语音识别装置来执行。如图1所示,本实施例提供的方法包括如下步骤:
步骤S101、获取用户的语音数据,并根据所述语音数据获取对应的语音文本。
本实施例中,语音识别装置可以是携带有语音识别功能的玩具、电脑、智能手机、智能电视、游戏设备等。
进一步的,本实施例中,语音数据可以是用户预先录制好的语音数据,也可以是通过语音采集装置实时采集获得的语音数据,例如所述语音数据可以是通过设置在语音识别装置上的麦克风采集获得的。在获得语音数据后,通过对语音数据进行识别,获得对应的语音文本。比如用户输入语音数据“看个电影吧刘德华演的”,进而识别得到文本数据“看个电影吧刘德华演的”。本实施例中,语音文本的获取方式与现有技术类似在这里不再赘述。
步骤S102、根据预设的语音文本识别模型,确定所述语音文本是否为口语文本。
具体的,本实施例中,语音文本识别模型中可以包括口语文本集、规范文本集,以及第一映射关系。其中,第一映射关系用于存储所述口语文本集和所述规范文本集中的每个特征量对应的语音文本为口语文本的概率。口语文本集包括用于存储样本口语特征词的第一子集合和/或用于存储样本口语句式结构的第二子集合。规范文本集包括用于存储样本规范特征词的第三子集合和/或用于存储样本规范句式结构的第四子集合。口语文本集的特征量包括口语特征词和/或口语句式结构。规范文本集的特征量包括规范特征词和/或规范句式结构。
举例来说,本实施例中的语音文本识别模型可以是一个集查找、计算、判断为一体的模型,当判断一个语音文本是否为口语文本时,首先通过语音文本识别模型中的第一映射关系查找语音文本中各特征量对应的语音文本为口语文本的概率值,在获得所述概率值后,再以各概率值为输入,通过语音文本识别模型中的复合概率计算公式计算语音文本为口语文本的复合概率,最后,在计算获得所述复合概率后,根据复合概率与预设阈值之间的大小关系,判断并输出识别结果(即语音文本是否为口语文本)。
口语文本集,为一个用于存储口语文本的集合,该集合中包含有海量的口语说法的文本。本实施例中,口语文本集可以包括用于存储口语化的特征词的第一子集合,和/或用于存储口语化的句式结构的第二子集合,其中第一子集合中的特征词和第二子集合中的句式结构,均为从海量的口语说法的文本中提取获得的。例如,第一子集合中可以包括如“看个”、“玩个”“瞅一眼”等口语化的特征词,第二子集合中可以包括诸如倒装(比如“看个电影刘德华演的”、“来个电影看吧”)、省略等口语化的句式结构。
进一步的,当口语文本集中包括第一子集合时,口语文本集的特征量包括第一子集合中的特征词。当口语文本集中包括第二子集合时,口语文本集的口语化特征量包括第二子集合中的口语化句式结构。本实施例中,优选的,口语文本集同时包括第一子集合和第二子集合,优选的,口语特征集的特征量同时包括口语化的特征词和口语化的句式结构。
规范文本集,为一个用于存储规范文本的集合,该集合中包含有海量的规范说法的文本。进一步的,规范文本集可以包括用于存储规范化的特征词的第三子集合,和/或用于存储规范化的句式结构的第四子集合,其中,第三子集合中的特征词和第四子集合中的句式结构,均为从海量的规范化说法的文本中提取的。例如,第三子集合中可以包括如“搜索”、“查看”、“呼叫”等规范化的特征词,第四子集合中可以包括诸如“搜索刘德华演的电影”这种规范化的句式结构。
进一步的,当规范文本集中包括第三子集合时,规范文本集的特征量包括第三子集合中的规范化特征词。当规范文本集中包括第四子集合时,规范文本集的特征量包括第四子集合中的规范化句式结构。本实施例中,规范文本集中优选同时包括第三子集合和第四子集合,规范文本集的特征量优选同时包括规范化的特征词和规范化的句式结构。
第一映射关系,优选可以通过关系列表的形式进行体现。具体的第一映射关系中,存储有口语文本集和规范文本集中各特征量对应的语音文本为口语文本的概率。
这里需要说明的是,由于口语文本中也可能出现规范的特征词和句式结构,因此,本实施例中,口语文本集和规范文本集中的特征量可能有重叠的部分。
进一步的,在获取用户输入的语音文本后,可以通过分词等方法获取语音文本的特征量(特征词和/或句式结构),并于获得语音文本的特征量后,从第一映射关系中查找各特征量对应的语音文本为口语文本的概率,并根据各特征量对应的概率,计算该语音文本为口语文本的复合概率,通过将计算获得的复合概率与预设的阈值进行对比,判断该语音文本是否是口语文本。例如,口语文本的判断方法可以是:若判断复合概率大于预设的阈值,则确定语音文本为口语文本,否则为规范文本。
举例来说,假设用户输入的语音文本为“看个电影吧刘德华演的”,则对该语音文本进行分词处理后的结果为“看个/电影/吧/刘德华/演的”。进一步的,在分词处理后可以根据分词处理的结果获取语音文本的特征量,该特征量可以包括特征词和/或句式结构,就此例来说,特征量可以包括特征词“看个”、“电影”、“吧”、“刘德华”、“演的”,和/或句式结构“倒装”。在获得特征量后,根据第一映射关系查找每个特征量对应的概率,并将各特征量对应的概率输入预设的复合概率计算公式中,以对语音文本为口语文本的复合概率进行计算。在获得所述复合概率后,将所述复合概率与预设的阈值进行对比,若所述复合概率大于预设阈值,则确定语音文本为口语文本,否则为规范文本,本举例经过上述处理后,语音文本“看个电影吧刘德华演的”应识别为口语文本。
这里需要说明的是,本实施例中计算复合概率所采用的方法可以是本领域中任意一种复合概率的计算方法,也可以是任意几种方法的组合。
示例的,采用公式:
P(A|t1,t2,t3......tn)=(P1*P2*......PN)/[P1*P2*......PN+(1-P1)*(1-P2)*......(1-PN)]对复合概率进行计算。其中,P(A|t1,t2,t3......tn)为语音文本为口语文本的复合概率,t1,t2,...tn为对应语音文本的n个特征量,P1,P2,...PN分别为以t1,t2,...tn为参考时,对应所述语音文本为口语文本的概率。当然,此处仅是举例说明,并不代表本发明的复合概率计算公式局限于此。
具体的,在步骤S102中,若判断到用户输入的语音文本为规范文本,则直接跳转到步骤S104执行,若判断到用户输入的语音文本为口语化文本,则跳转到步骤S103执行。
步骤S103、若所述语音文本为口语文本,则对所述语音文本进行归一化和标准化处理,生成规范化的语音文本。
在判断用户输入的语音文本为口语文本后,可以根据预先设定的语气词库,去除语音文本中口语化的语气词,从而消除语音文本识别过程中口语化语气词所造成的影响。
进一步的,在去除口语化语气词后,可以通过归一化的处理方法,将语音文本中口语化的特征词,转化为规范化的特证词,并通过标准化的处理方法将语音文本的句式结构转化为规范化的句式结构。
具体的,在进行归一化处理的过程中,可以采用诸如同义词替换等方法将口语化的特征词转化为规范化的特征词。比如,可以通过设置对应关系列表的方式,实现归一化的处理。即可以根据相同语义的口语化特征词和规范化特征词之间的对应关系,建立口语化特征词和规范化特征词之间的对应关系列表。当判断语音文本为口语文本时,可以通过查找该对应关系列表,获取与对应口语化特征词对应的规范化特征词,从而利用规范化的特征词代替口语化的特征词,实现归一化处理。
进一步的,在对语音文本进行特征词获取的同时,还可以对语音文本的句式结构进行获取。与归一化处理类似的,同样可以通过建立对应关系的方式,实现口语化句式的标准化处理。即可以根据每个口语化句式结构的特点,以及每个口语化句式结构与标准化句式结构的差别,建立口语化句式结构与句式转换方法的对应关系,从而在确定语音文本为口语文本后,即可以根据语音文本的句式结构查找对应的句式转换方法,从而达到将口语化句式结构转化为标准化句式结构的目的。
举例来说,假设用户输入的语音文本为“看个电影吧刘德华演的”,则对该语音文本进行分词处理后的结果为“看个/电影/吧/刘德华/演的”,进一步的,在判断该语音文本为口语文本后,通过将口语化的语气词“吧”去掉,并将口语化特征词“看个”归一化为“搜索”,将颠倒的语句结构纠正为“刘德华演的电影”,从而生成规范化的语音文本“搜索刘德华演的电影”。
步骤S104、对所述规范化的语音文本,进行语义解析。
具体的,首先对该规范化的语音文本进行语义解析,根据语义解析进行相关业务的定位。示例的,用户输入的是规范化语音文本“播放电影一个人的江湖”,进行语义解析后,获取到用户的目的是想要播放电影《一个人的江湖》,进而根据用户的目的生成相应的控制指令:播放电影《一个人的江湖》,进而根据该控制指令执行播放《一个人的江湖》。示例的,用户输入的是口语化语音文本“看个电影吧刘德华演的”,对其进行标准化和归一化处理之后,生成规范化的语音文本“搜索刘德华演的电影”,进而对语音文本“搜索刘德华演的电影”进行语义解析,获取到用户的目的是搜索演员刘德华主演的电影,进而根据用户的目的生成相应的搜索指令:搜索演员刘德华主演的影视资源,进而根据该搜索指令进行相关的网络搜索。
步骤S104的执行方法与现有的规范语音文本的语义解析和业务定位方法相同,在此不再赘述。
本实施例通过预先建立的语音文本识别模型对口语文本进行识别,若输入的语音文本为口语文本,则通过归一化和标准化的处理方法,将口语文本转化为规范化的语音文本,从而根据规范化语音文本的解析方法和业务定位方法对转化后的口语文本进行语义解析和业务定位,解决了现有技术无法识别口语文本的问题,提高了用户的使用体验。
图2为本发明实施例二提供的基于口语化的语音识别方法的流程示意图,如图2所示,本实施例在图1所示方法的基础上包括如下步骤:
步骤S201、采集口语文本和规范文本,建立口语文本集和规范文本集。
具体的,口语文本和规范文本的采集渠道可以有多种,本实施例优选的采集渠道有用户的历史数据、标注数据,以及网络数据,其中,标注数据是指,用户利用文字对事物或事件进行标注、解释、说明的文字数据。
通过对用户的历史数据、标注数据,以及网络数据进行采集,可以在满足样本数量、实现统计分析目的的同时,还能达到充分利用用户的历史数据的目的,使得采集获得的口语文本集和规范文本集更加符合用户的使用习惯,从而间接提高了口语文本识别的准确性。
步骤S202、根据所述口语文本集和所述规范文本集,建立所述第一映射关系。
图3为本发明实施例二中第一映射关系的建立方法的流程示意图,如图3所示,第一映射关系的建立方法包括:
步骤S2021、根据所述口语文本集,确定所述口语文本集中每个特征量出现的概率,并根据所述规范文本集,确定所述规范文本集中每个特征量出现的概率。
具体的,本实施例中可以采用决策树、贝叶斯算法、人工网络以及深度学习算法中的任意一种或者几种结合的方式对口语文本集或规范文本集中每个特征量出现的概率进行计算。
以贝叶斯算法为例,在采集获得口语文本集和规范文本集后,可以从口语文本集中提取口语说法中的口语特征词和口语语句结构,从规范文本集中提取规范说法中的规范特征词和规范语句结构。在获得口语特征词和口语语句结构,以及规范特征词和规范语句结构后,分别统计各口语特征词和各口语语句结构在口语文本集中出现的次数,以及各规范特征词和各规范语句结构在规范文本集中出现的次数。
进一步的,建立两个哈希表,将口语文本集的特征量(口语特征词或口语语句结构),以及各特征量对应的出现次数放在一个哈希表中,并将规范文本集的特征量(规范特征词或规范语句结构),以及各特征量对应的出现次数放在另一个哈希表中,并通过公式:
P=(某特征量的出现次数)/(对应哈希表的长度)
计算每个哈希表中的特征量出现的概率。
这里需要说明的是,从口语文本集或规范文本集中获取哪些特征量,可以根据具体需要具体设定,在这里不做具体限定。例如,可以将特征词和句式结构同时作为特征量,也可以仅将特征词或句式结构单独作为特征量。
步骤S2022、根据所述口语文本集中每个特征量与所述每个特征量出现概率的对应关系,建立第二映射关系。
举例来说,假设口语文本集中包含特征量A、B、C、D,特征量A在其所在哈希表中出现的概率为a,特征量B在其所在哈希表中出现的概率为b,特征量C在其所在哈希表中出现的概率为c,特征量D在其所在哈希表中出现的概率为d,则第二映射关系应包括A与a,B与b,C与c,D与d的对应关系。
步骤S2023、根据所述规范文本集中每个特征量与所述每个特征出现概率的对应关系,建立第三映射关系。
举例来说,假设口规范文本集中包含特征量A’、B’、C’、D’,特征量A’在其所在哈希表中出现的概率为a’,特征量B’在其所在哈希表中出现的概率为b’,特征量C’在其所在哈希表中出现的概率为c’,特征量D’在其所在哈希表中出现的概率为d’,则第三映射关系应包括A’与a’,B’与b’,C’与c’,D’与d’的对应关系。
步骤S2024、根据所述第二映射关系和所述第三映射关系,计算获得所述第一映射关系。
承接步骤S2021中的举例,在获得第二映射关系和第三映射关系后,可以根据公式:
P(A|ti)=P2(ti)/[(P1(ti)+P2(ti)]
计算以各特征量为参考时,对应所述语音文本为口语文本的概率,并根据每个特征量和每个特征量对应的所述语音文本为口语文本的概率,建立第一映射关系。具体的,在本实施例中,第一映射关系可以以映射表的形式存在。
其中,ti为特征量,i为正整数,P(A|ti)为以特征量ti为参考时,所述语音文本为口语文本的概率,P1(ti)为ti在所规范文本集中出现的概率,P2(ti)为ti在所述口语文本集中出现的概率。
举例来说,假设有特征量t1,t2...tn,则根据第二映射关系和第三映射关系可以获得每个特征量对应在口语文本集和规范文本集中出现的概率,在获得每个特征量对应的所述概率后,根据公式P(A|ti)=P2(ti)/[(P1(ti)+P2(ti)]分别计算以特征量t1,t2...tn为参考时,语音文本为口语文本的概率。假设t1,t2...tn分别对应的语音文本为口语文本的概率为P(A|t1),P(A|t2)...P(A|tn),则第一映射关系应包括t1与P(A|t1)、t2与P(A|t1)、...tn与P(A|tn)的对应关系。
步骤S203、获取用户的语音数据,并根据所述语音数据获取对应的语音文本。
步骤S204、根据预设的语音文本识别模型,确定所述语音文本是否为口语文本。
具体的,在获取语音文本后,对语音文本进行分词处理,并从分词处理后的语音文本中获取对应的特征量(特征词和/或语句句式结构)。进一步的,在获得语音文本的特征量后,从第一映射关系中查找各特征量对应的语音文本为口语文本的概率,并根据查找获得的各特征量对应的概率,计算语音文本为口语文本的复合概率,若计算获得的复合概率大于预设的阈值,则确定语音文本为口语文本,否则,为规范文本。具体的,本实施例中,优选采用公式:
P(A|t1,t2,t3......tn)=(P1*P2*......PN)/[P1*P2*......PN+(1-P1)*(1-P2)*......(1-PN)]对复合概率进行计算。其中,P(A|t1,t2,t3......tn)为语音文本为口语文本的复合概率,t1,t2,...tn为对应语音文本的n个特征量,P1,P2,...PN分别为以t1,t2,...tn为参考时,对应所述语音文本为口语文本的概率。
步骤S205、若所述语音文本为口语文本,则对所述语音文本进行归一化和标准化处理,生成规范化的语音文本。
步骤S206、对所述规范化的语音文本,进行语义解析。
本实施例通过预先建立的语音文本识别模型对口语文本进行识别,若输入的语音文本为口语文本,则通过归一化和标准化的处理方法,将口语文本转化为规范化的语音文本,从而根据规范化语音文本的解析方法和业务定位方法对转化后的口语文本进行语义解析和业务定位,解决了现有技术无法识别口语文本的问题,提高了用户的使用体验。
图4为本发明实施例三提供的语音识别装置的结构示意图,如图4所示,本实施例提供的装置包括:
获取模块10,用于获取用户的语音数据,并根据所述语音数据获取对应的语音文本;
确定模块20,用于根据预设的语音文本识别模型,确定所述语音文本是否为口语文本;
处理模块30,用于当所述语音文本为口语文本时,对所述语音文本进行归一化和标准化处理,生成规范化的语音文本;
解析模块40,用于对所述规范化的语音文本,进行语义解析。
其中,所述语音文本识别模型包括:口语文本集、规范文本集和第一映射关系;
其中,所述第一映射关系用于存储所述口语文本集和所述规范文本集中每个特征量,和所述每个特征量对应的语音文本为口语文本的概率,所述特征量包括特征词和/或句式结构。
所述确定模块20,包括:
获取子模块201,用于获取所述语音文本的特征量;
第一确定子模块202,用于根据所述第一映射关系,确定以每个特征量为参考时,对应所述语音文本为口语文本的概率;
运算子模块203,根据所述概率计算所述语音文本为口语文本的复合概率;
第二确定子模块204,用于根据所述复合概率,确定所述语音文本是否为口语文本。
所述第二确定子模块204,具体用于:
将所述复合概率与预设的阈值进行对比,若所述复合概率大于所述阈值,则确定所述语音文本为口语文本;
若所述复合概率小于或等于所述阈值,则确定所述语音文本为规范文本。
所述处理模块30,具体用于:
去除所述语音文本中口语化的语气词,并通过归一化处理,将所述语音文本中口语化的特征词转化为规范化的特征词;
对所述语音文本的句式结构进行标准化处理,生成规范化的语音文本。
本实施例提供的语音识别装置,能够用于执行如图1所示的方法,其具体的执行方式和有益效果与图1所示实施例类似,在这里不再赘述。
图5为本发明实施例四提供的语音识别装置的结构示意图,如图5所示,本实施例在图4所示结构的基础上,还包括:采集模块50,用于采集口语文本和规范文本,建立口语文本集和规范文本集;
建立模块60,用于根据所述口语文本集和所述规范文本集,建立所述第一映射关系。
所述建立模块60,包括:
第三确定子模块601,用于根据所述口语文本集,确定所述口语文本集中每个特征量出现的概率;并根据所述规范文本集,确定所述规范文本集中每个特征量出现的概率;
第一建立子模块602,用于根据所述口语文本集中每个特征量与所述每个特征量出现概率的对应关系,建立第二映射关系;
第二建立子模块603,用于根据所述规范文本集中每个特征量与所述每个特征出现概率的对应关系,建立第三映射关系;
第三建立子模块604,用于根据所述第二映射关系和所述第三映射关系,计算获得所述第一映射关系。
所述第三建立子模块604,具体用于:
根据公式
P(A|ti)=P2(ti)/[(P1(ti)+P2(ti)]
计算以各特征量为参考时,对应所述语音文本为口语文本的概率;
根据每个特征量和每个特征量对应的所述语音文本为口语文本的概率,建立第一映射关系;
其中,ti为特征量,i为正整数,P(A|ti)为以特征量ti为参考时,所述语音文本为口语文本的概率,P1(ti)为ti在所规范文本集中出现的概率,P2(ti)为ti在所述口语文本集中出现的概率。
所述运算子模块203,具体用于:
根据公式:
P(A|t1,t2,t3......tn)=(P1*P2*......PN)/[P1*P2*......PN+(1-P1)*(1-P2)*......(1-PN)]计算所述语音文本的复合概率;
其中,P(A|t1,t2,t3......tn)为语音文本为口语文本的复合概率,t1,t2,...tn为对应语音文本的n个特征量,P1,P2,...PN为分别以t1,t2,...tn为参考时,对应所述语音文本为口语文本的概率。
本实施例提供的语音识别装置,能够用于执行如图3所示的方法,其具体的执行方式和有益效果与图3所示实施例类似,在这里不再赘述。
进一步的,本发明实施例还提供一种语音识别装置,该装置包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:
获取用户的语音数据,并根据所述语音数据获取对应的语音文本;
根据预设的语音文本识别模型,确定所述语音文本是否为口语文本;
若所述语音文本为口语文本,则对所述语音文本进行归一化和标准化处理,生成规范化的语音文本;
根据所述规范化的语音文本,进行语义解析。
该语音识别装置,能够用于执行如图1或图2所示的方法,其具体的执行方式和有益效果与图1或图2所示实施例类似,在这里不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (11)

1.一种语音识别方法,其特征在于,包括:
获取用户的语音数据,并根据所述语音数据获取对应的语音文本;
根据预设的语音文本识别模型,确定所述语音文本是否为口语文本,所述语音文本识别模型包括:口语文本集、规范文本集和第一映射关系;其中,所述第一映射关系用于存储所述口语文本集和所述规范文本集中每个特征量对应的语音文本为口语文本的概率,所述特征量包括特征词和/或句式结构;
若所述语音文本为口语文本,则对所述语音文本进行归一化和标准化处理,生成规范化的语音文本;
对所述规范化的语音文本,进行语义解析。
2.根据权利要求1所述的方法,其特征在于,所根据预设的语音文本识别模型,确定所述语音文本是否为口语文本,包括:
获取所述语音文本的特征量;
根据所述第一映射关系,确定每个所述特征量对应的所述概率,并根据所述概率计算所述语音文本为口语文本的复合概率;
根据所述复合概率,确定所述语音文本是否为口语文本。
3.根据权利要求2所述的方法,其特征在于,所述根据所述概率计算所述语音文本为口语文本的复合概率,包括:
根据公式:
P(A|t1,t2,t3......tn)=(P1*P2*......PN)/[P1*P2*......PN+(1-P1)*(1-P2)*......(1-PN)]
计算所述语音文本的复合概率;
其中,P(A|t1,t2,t3......tn)为语音文本为口语文本的复合概率,t1,t2,...tn为对应语音文本的n个特征量,P1,P2,...PN为分别以t1,t2,...tn为参考时,对应所述语音文本为口语文本的概率。
4.根据权利要求3所述的方法,其特征在于,所述根据所述复合概率,确定所述语音文本是否为口语文本,包括:
将所述复合概率与预设的阈值进行对比,若所述复合概率大于所述阈值,则确定所述语音文本为口语文本;
若所述复合概率小于或等于所述阈值,则确定所述语音文本为规范文本。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述若所述语音文本为口语文本,则对所述语音文本进行归一化和标准化处理,生成规范化的语音文本,包括:
去除所述语音文本中口语化的语气词,并通过归一化处理,将所述语音文本中口语化的特征词转化为规范化的特征词;
对所述语音文本的句式结构进行标准化处理,生成规范化的语音文本。
6.一种基于口语化的语音识别装置,其特征在于,包括:
获取模块,用于获取用户的语音数据,并根据所述语音数据获取对应的语音文本;
确定模块,用于根据预设的语音文本识别模型,确定所述语音文本是否为口语文本,所述语音文本识别模型包括:口语文本集、规范文本集和第一映射关系;其中,所述第一映射关系用于存储所述口语文本集和所述规范文本集中每个特征量对应的语音文本为口语文本的概率,所述特征量包括特征词和/或句式结构;
处理模块,用于当所述语音文本为口语文本时,对所述语音文本进行归一化和标准化处理,生成规范化的语音文本;
解析模块,用于对所述规范化的语音文本,进行语义解析。
7.根据权利要求6所述的语音识别装置,其特征在于,所述确定模块,包括:
获取子模块,用于获取所述语音文本的特征量;
第一确定子模块,用于根据所述第一映射关系,确定每个所述特征量对应的所述概率;
运算子模块,根据所述概率计算所述语音文本为口语文本的复合概率;
第二确定子模块,用于根据所述复合概率,确定所述语音文本是否为口语文本。
8.根据权利要求7所述的语音识别装置,其特征在于,所述运算子模块,具体用于:
根据公式:
P(A|t1,t2,t3......tn)=(P1*P2*......PN)/[P1*P2*......PN+(1-P1)*(1-P2)*......(1-PN)]
计算所述语音文本的复合概率;
其中,P(A|t1,t2,t3......tn)为语音文本为口语文本的复合概率,t1,t2,...tn为对应语音文本的n个特征量,P1,P2,...PN为分别以t1,t2,...tn为参考时,对应所述语音文本为口语文本的概率。
9.根据权利要求7所述的语音识别装置,其特征在于,所述第二确定子模块,具体用于:
将所述复合概率与预设的阈值进行对比,若所述复合概率大于所述阈值,则确定所述语音文本为口语文本;
若所述复合概率小于或等于所述阈值,则确定所述语音文本为规范文本。
10.根据权利要求6-9任一项所述的语音识别装置,其特征在于,所述处理模块,具体用于:
去除所述语音文本中口语化的语气词,并通过归一化处理,将所述语音文本中口语化的特征词转化为规范化的特征词;
对所述语音文本的句式结构进行标准化处理,生成规范化的语音文本。
11.一种语音识别装置,其特征在于,包括:
处理器;
用于存储所述处理器的可执行指令的存储器;
其中,所述处理器被配置为:
获取用户的语音数据,并根据所述语音数据获取对应的语音文本;
根据预设的语音文本识别模型,确定所述语音文本是否为口语文本,所述语音文本识别模型包括:口语文本集、规范文本集和第一映射关系;其中,所述第一映射关系用于存储所述口语文本集和所述规范文本集中每个特征量对应的语音文本为口语文本的概率,所述特征量包括特征词和/或句式结构;
若所述语音文本为口语文本,则对所述语音文本进行归一化和标准化处理,生成规范化的语音文本;
根据所述规范化的语音文本,进行语义解析。
CN201610202416.0A 2016-03-31 2016-03-31 一种语音识别方法及装置 Active CN105702252B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610202416.0A CN105702252B (zh) 2016-03-31 2016-03-31 一种语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610202416.0A CN105702252B (zh) 2016-03-31 2016-03-31 一种语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN105702252A CN105702252A (zh) 2016-06-22
CN105702252B true CN105702252B (zh) 2019-09-17

Family

ID=56219081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610202416.0A Active CN105702252B (zh) 2016-03-31 2016-03-31 一种语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN105702252B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108257600B (zh) * 2016-12-29 2020-12-22 中国移动通信集团浙江有限公司 语音处理方法和装置
CN107220292A (zh) * 2017-04-25 2017-09-29 上海庆科信息技术有限公司 智能对话装置、反馈式智能语音控制系统及方法
WO2018228515A1 (en) 2017-06-15 2018-12-20 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for speech recognition
CN109145281B (zh) * 2017-06-15 2020-12-25 北京嘀嘀无限科技发展有限公司 语音识别方法、装置及存储介质
CN107577151A (zh) * 2017-08-25 2018-01-12 谢锋 一种语音识别的方法、装置、设备和存储介质
CN108364655B (zh) * 2018-01-31 2021-03-09 网易乐得科技有限公司 语音处理方法、介质、装置和计算设备
CN109800338A (zh) * 2018-12-11 2019-05-24 平安科技(深圳)有限公司 口语化时间标准化控制方法、装置、计算机设备及存储介质
CN109389982A (zh) * 2018-12-26 2019-02-26 江苏满运软件科技有限公司 发货信息语音识别方法、系统、设备及存储介质
CN110188327B (zh) * 2019-05-30 2021-05-14 北京百度网讯科技有限公司 文本去口语化方法及装置
CN110459224B (zh) * 2019-07-31 2022-02-25 北京百度网讯科技有限公司 语音识别结果处理方法、装置、计算机设备及存储介质
CN114930449A (zh) * 2020-01-06 2022-08-19 七哈格斯实验室 用于控制多个装置的系统和方法
CN113314108B (zh) * 2021-06-16 2024-02-13 深圳前海微众银行股份有限公司 语音数据的处理方法、装置、设备、存储介质和程序产品

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5271088A (en) * 1991-05-13 1993-12-14 Itt Corporation Automated sorting of voice messages through speaker spotting
CN1568501A (zh) * 2001-10-12 2005-01-19 皇家飞利浦电子股份有限公司 标注所识别文本的部分的校正装置
CN101031913A (zh) * 2004-09-30 2007-09-05 皇家飞利浦电子股份有限公司 自动文本校正
CN101604520A (zh) * 2009-07-16 2009-12-16 北京森博克智能科技有限公司 基于统计模型和语法规则的口语语音识别方法
CN101645064A (zh) * 2008-12-16 2010-02-10 中国科学院声学研究所 一种浅层自然口语理解系统及方法
CN102609410A (zh) * 2012-04-12 2012-07-25 传神联合(北京)信息技术有限公司 规范文档辅助写作系统及规范文档生成方法
CN103888606A (zh) * 2014-03-11 2014-06-25 上海乐今通信技术有限公司 移动终端及其解锁方法
CN104575499A (zh) * 2013-10-09 2015-04-29 携程计算机技术(上海)有限公司 移动终端的声控方法及移动终端
CN105378830A (zh) * 2013-05-31 2016-03-02 朗桑有限公司 音频数据的处理

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5271088A (en) * 1991-05-13 1993-12-14 Itt Corporation Automated sorting of voice messages through speaker spotting
CN1568501A (zh) * 2001-10-12 2005-01-19 皇家飞利浦电子股份有限公司 标注所识别文本的部分的校正装置
CN101031913A (zh) * 2004-09-30 2007-09-05 皇家飞利浦电子股份有限公司 自动文本校正
CN101645064A (zh) * 2008-12-16 2010-02-10 中国科学院声学研究所 一种浅层自然口语理解系统及方法
CN101604520A (zh) * 2009-07-16 2009-12-16 北京森博克智能科技有限公司 基于统计模型和语法规则的口语语音识别方法
CN102609410A (zh) * 2012-04-12 2012-07-25 传神联合(北京)信息技术有限公司 规范文档辅助写作系统及规范文档生成方法
CN105378830A (zh) * 2013-05-31 2016-03-02 朗桑有限公司 音频数据的处理
CN104575499A (zh) * 2013-10-09 2015-04-29 携程计算机技术(上海)有限公司 移动终端的声控方法及移动终端
CN103888606A (zh) * 2014-03-11 2014-06-25 上海乐今通信技术有限公司 移动终端及其解锁方法

Also Published As

Publication number Publication date
CN105702252A (zh) 2016-06-22

Similar Documents

Publication Publication Date Title
CN105702252B (zh) 一种语音识别方法及装置
CN110491383B (zh) 一种语音交互方法、装置、系统、存储介质及处理器
CN103956169B (zh) 一种语音输入方法、装置和系统
CN109388700A (zh) 一种意图识别方法及系统
US9564122B2 (en) Language model adaptation based on filtered data
CN103885949B (zh) 一种基于歌词的歌曲检索系统及其检索方法
JP2005084681A (ja) 意味的言語モデル化および信頼性測定のための方法およびシステム
CN107239440A (zh) 一种垃圾文本识别方法和装置
CN101604522B (zh) 非特定人的嵌入式中英文混合语音识别方法及系统
Liu et al. Structural metadata research in the EARS program
CN106575293A (zh) 孤立话语检测系统和方法
CN109918676A (zh) 一种检测意图正则表达式的方法及装置、终端设备
CN107767861A (zh) 语音唤醒方法、系统及智能终端
WO2016200902A2 (en) Systems and methods for learning semantic patterns from textual data
CN106297773A (zh) 一种神经网络声学模型训练方法
CN104881402A (zh) 中文网络话题评论文本语义倾向分析的方法及装置
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
JP7059813B2 (ja) 音声対話システム、その処理方法及びプログラム
CN106294845A (zh) 基于权重学习和多特征抽取的多情绪分类方法及装置
CN109710949A (zh) 一种翻译方法及翻译机
CN108536668A (zh) 唤醒词评估方法及装置、存储介质、电子设备
CN109872714A (zh) 一种提高语音识别准确性的方法、电子设备及存储介质
CN106708950B (zh) 用于智能机器人自学习系统的数据处理方法及装置
Chakraborty et al. Knowledge-based framework for intelligent emotion recognition in spontaneous speech
CN105988978B (zh) 确定文本焦点的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant