CN105448292A - 一种基于场景的实时语音识别系统和方法 - Google Patents
一种基于场景的实时语音识别系统和方法 Download PDFInfo
- Publication number
- CN105448292A CN105448292A CN201410407362.2A CN201410407362A CN105448292A CN 105448292 A CN105448292 A CN 105448292A CN 201410407362 A CN201410407362 A CN 201410407362A CN 105448292 A CN105448292 A CN 105448292A
- Authority
- CN
- China
- Prior art keywords
- model
- scene
- active user
- current
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明提供了一种实时语音识别系统和方法。该实时语音识别方法包括:采集当前用户的当前语音和当前场景信息;构建当前用户对应的当前场景语言模型;根据当前场景信息判断当前场景的类型,并从根据历史场景信息而构建的与不同场景类型相对应的静态语言模型中搜索与当前场景的类型相对应的静态语言模型;调用通用语言模型,基于通用语言模型、搜索出的静态语言模型、当前用户对应的场景语言模型的混合以及声学模型,识别当前用户的语音。本发明实施例通过结合各类场景信息以线下和线上相结合的方式构建语言模型,可以有效提升识别语音的准确率。
Description
技术领域
本发明涉及语音识别技术,尤其涉及一种基于场景的实时语音识别系统和方法。
背景技术
现有的语音识别中,通常基于各领域语料组建的通用语言模型,结合相应的声学模型来识别语音对应的文本。其中的通用语言模型中的语料一般比较庞杂、更新速度较慢,没有针对性,导致语音识别结果往往准确性不高。特别对于同音或近似的语音,现有的语音识别技术并不能较好地提供准确的识别结果,例如,采集到用户的语音为“xinxinjie”,现有的语音识别技术并不能较好地判断该语音对应的文本是“新星街”还是“欣欣街”还是其他相似文本。
发明内容
本发明解决的技术问题之一是提升语音识别的准确率。
根据本发明的一个方面的一个实施例,提供了一种基于场景的实时语音识别系统,包括:
语音采集装置,被配置为采集当前用户的当前语音;
静态语言模型构建装置,被配置为基于采集的历史场景信息,构建与不同场景类型相对应的静态语言模型;
场景语言模型构建装置,被配置为实时采集当前用户的当前场景信息,构建当前用户对应的当前场景语言模型;
语音识别装置,被配置为根据当前场景信息判断当前场景的类型,并从根据历史场景信息而构建的与不同场景类型相对应的静态语言模型中搜索与当前场景的类型相对应的静态语言模型,调用通用语言模型,基于通用语言模型、搜索出的静态语言模型、当前用户对应的场景语言模型的混合以及声学模型,识别当前用户的语音。
现有技术的实时语音识别系统只用通用语言模型识别,通用语言模型不针对具体的场景,而类型的场景中很多对话上下文会重复出现,因此,利用基于具体的场景的模型识别可以提高实时语音识别的准确度和效率。由于本发明的实施例通过统计和分析大量的历史场景信息,构建与不同场景类型相对应的静态语言模型,也即为不同的场景类型关联不同的静态语言模型,这种针对场景的模型识别有利于提升语音识别的准确性;另外,本实施例通过在线实时构建对应的当前场景语言模型,这种实时构建的语言模型进一步结合了当前用户的个性化信息,提升了语音识别的准确性。
根据本发明的一个实施例,所述语音识别装置包括:
并行计算单元,被配置为并行计算当前用户的当前语音的各候选识别结果在通用语言模型、搜索出的静态语言模型和当前用户对应的当前场景语言模型下的概率分数;
识别单元,被配置为基于各模型对应的权重对各候选识别结果在各模型下的概率分数进行加权,根据加权后的概率分数对各候选识别结果进行排序,识别当前用户的当前语音对应的文本。
由于本实施例并行计算各语言模型下的概率分数,而不是顺序计算,可以有效保证语音识别的实时性。
根据本发明的一个实施例,场景信息包括大致地理位置、时间、周边人物、周边活动,场景的类型是由大致地理位置、时间、周边人物、周边活动中的一项或多项限定的,静态语言模型构建装置根据历史场景信息而构建的与不同场景类型相对应的静态语言模型是如下构建的:
将历史语料按照场景分类至特定场景的类型中,每个特定场景的类型对应于一个静态语言模型,用特定场景的类型下的历史语料训练相应静态语言模型。
由于本实施例结合了诸如大致地理位置(如大的商圈,中关村商圈)、时间(如语言模型中的语料获取的时间、用户的当前时间等)、周边人物、周边活动等信息来限定不同的场景类型,相比于单一方式例如仅用地理位置限定的场景更能反映场景的不同特点,使场景的定义更贴近实际,从而使不同的场景对应的模型也能更好地被训练,进一步提升语音识别的准确率。
根据本发明的一个实施例,场景语言模型构建装置被配置为:
根据当前用户的具体地理位置,在信息库和/或互联网上实时搜索相关内容,根据实时搜索到的相关内容,构建当前用户对应的当前场景语言模型。
由于本实施例可以以用户的具体地理信息为线索去实时获取更多的与该用户及该具体地理位置相关的信息,从而可以快速有效地构建与该用户相对应的个性化的当前场景语言模型,进一步提高了语音识别的效率和准确度。
根据本发明的一个实施例,识别单元被配置为:
预设各模型的权重,基于预设的权重对各模型下的概率分数进行加权,根据加权后的总概率分数对各候选识别结果进行排序,识别当前用户的当前语音对应的文本,并根据当前用户对该识别出的文本的反馈,调整所述预设的各模型的权重,用于下一次语音的识别;和/或
预设各模型的权重,根据各候选识别结果在各模型下的概率分数的置信度,实时调整所述预设的各模型的权重,基于调整后的权重对各模型下的概率分数进行加权,根据加权后的概率分数对当前语音对应的文本进行排序,识别当前用户的当前语音对应的文本。
本实施例提供的针对各模型的权重进行调整的方案相比于权重一成不变的方案,可以在每一次识别后通过反馈或根据置信度不断使识别更贴近客观实际。
根据本发明的一个实施例,所述大致地理位置通过用户终端的定位系统定时上报或用户终端自动检测提供的地理位置中获得;
周边人物通过获取其他用户终端自动检测提供的地理位置或GPS定位信息来确定;
周边活动通过获取其他用户终端或商户终端自动检测提供的地理位置或GPS定位信息、用户终端存储的活动信息、商户终端提供的活动信息来确定。
本实施例通过获取并综合当前用户终端和其他用户终端所提供的多维度的信息,相比于只从一个渠道获取,可以更准确地确定相应的场景信息。
根据本发明的一个实施例,当前用户的具体地理位置通过实时查询用户终端的定位系统、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得。
本发明的一个实施例还提供了一种基于场景的实时语音识别方法,包括:
采集当前用户的当前语音和当前场景信息;
构建当前用户对应的当前场景语言模型;
根据当前场景信息判断当前场景的类型,并从根据历史场景信息而构建的与不同场景类型相对应的静态语言模型中搜索与当前场景的类型相对应的静态语言模型;
调用通用语言模型,基于通用语言模型、搜索出的静态语言模型、当前用户对应的场景语言模型的混合以及声学模型,识别当前用户的语音。
根据本发明的一个实施例,所述基于通用语言模型、搜索出的静态语言模型、当前用户对应的当前场景语言模型的混合识别当前用户的语音的步骤包括:
并行计算当前用户的当前语音的各候选识别结果在通用语言模型、搜索出的静态语言模型和当前用户对应的当前场景语言模型下的概率分数;
基于各模型对应的权重对各候选识别结果在各模型下的概率分数进行加权,根据加权后的概率分数对各候选识别结果进行排序,识别当前用户的当前语音对应的文本。
根据本发明的一个实施例,场景信息包括大致地理位置、时间、周边人物、周边活动,场景的类型是由大致地理位置、时间、周边人物、周边活动中的一项或多项限定的,所述根据历史场景信息而构建的与不同场景类型相对应的静态语言模型是如下构建的:
将历史语料按照场景信息分类至特定场景的类型中,每个特定场景的类型对应于一个静态语言模型,用特定场景的类型下的历史语料训练相应静态语言模型。
根据本发明的一个实施例,构建当前用户对应的当前场景语言模型的步骤包括:
根据当前用户的具体地理位置,在信息库和/或互联网上实时搜索相关内容,根据实时搜索到的相关内容,构建当前用户对应的当前场景语言模型。
根据本发明的一个实施例,基于各模型对应的权重对各候选识别结果在各模型下的概率分数进行加权,根据加权后的总概率分数对各候选识别结果进行排序,识别当前用户的当前语音对应的文本的步骤包括:
预设各模型的权重,基于预设的权重对各模型下的概率分数进行加权,根据加权后的总概率分数对各候选识别结果进行排序,识别当前用户的当前语音对应的文本,并根据当前用户对该识别出的文本的反馈,调整所述预设的各模型的权重,用于下一次语音的识别;和/或
预设各模型的权重,根据各候选识别结果在各模型下的概率分数的置信度,实时调整所述预设的各模型的权重,基于调整后的权重对各模型下的概率分数进行加权,根据加权后的概率分数对当前语音对应的文本进行排序,识别当前用户的当前语音对应的文本。
根据本发明的一个实施例,所述大致地理位置通过用户终端的定位系统定时上报或用户终端自动检测提供的地理位置中获得;
周边人物通过获取其他用户终端自动检测提供的地理位置或GPS定位信息来确定;
周边活动通过获取其他用户终端或商户终端自动检测提供的地理位置或GPS定位信息、用户终端存储的活动信息、商户终端提供的活动信息来确定。
根据本发明的一个实施例,当前用户的具体地理位置通过实时查询用户终端的定位系统、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得。
本领域普通技术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本发明并不仅限于这些实施例。而是,本发明的范围是广泛的,且意在仅通过后附的权利要求限定本发明的范围。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出了现有技术中进行语音识别的示意性框图;
图2示出了根据本发明的一个实施例的实时语音识别方法的流程图;
图3示出了根据本发明的一个实施例的实时语音识别系统的示意性框图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。本领域普通技术人员将了解,虽然下面的详细说明将参考图示实施例、附图进行,但本发明并不仅限于这些实施例。而是,本发明的范围是广泛的,且意在仅通过后附的权利要求限定本发明的范围。
图1示出了现有技术中进行语音识别的示意性框图,下面对图1所示的语音识别技术进行简要地说明。
根据图1,现有技术中,通常根据大量的语音数据和文本数据分别建立语音数据库和文本数据库,通过从语音数据提取语音特征,训练声学模型,利用文本数据训练语言模型。当接收到输入的待识别语音时,通过提取该语音的特征,通过声学模型识别出音节,通过查询字典中音节与文本的可能映射关系,利用语言模型进行语音解码,通过相应的搜索算法,输出该语音对应的文本。
由于现有技术中所用的语言模型为通用语言模型,任何输入的语音都基于固定的语言模型来识别,导致语音识别缺乏针对性,不能针对不同场景下的用户(例如用户在早上、单位、和上司说话的语言模式可能与用户在晚上、家里、和小孩说话的语言模式不同)提供个性化的、准确的输出文本。
图2示出了根据本发明的一个实施例的实时语音识别方法2的流程图。
在步骤s1中,采集当前用户的当前语音和当前场景信息。
具体地,当前用户的当前语音可以通过诸如录音单元等任何具有音频采集功能的装置来采集。当然,在步骤S1中,还可以对采集的语音进行去重和降噪、提取语音特征等处理。例如,采集到当前用户的当前语音为“xinxinjie”。
场景是指用户说一句话时所处的条件和环境,例如说话的地理位置、时间、周围人物是谁、周围活动是什么(在什么活动中说的)等。此处的当前场景信息包括诸如当前用户的地理位置、时间、周边人物、周边活动、用户终端存储和检测到的其他信息(如终端上各app使用的频率、日历信息)等。其中的当前场景信息可以通过以下方式来获取:
对于当前用户的地理位置,通过当前用户终端的定位系统定时上报的地理信息或用户终端自动检测提供的地理信息中获取,典型地,通过实时查询用户终端的定位系统、获得用户终端的短信信息、获得用户终端存储的备忘信息、日历信息中的一项或多项获得。例如,当前用户通过手机发了一条短信“我现在在A公司楼下等你”给其他用户,则根据该短信内容获取其中的地理信息“A公司”,通过查询第三方提供的地图数据,查询与该地理信息“A公司”对应的地理位置。
对于时间,可以通过诸如当前用户终端的定位系统所提供的时间或用户终端的时钟所提供的时间或采集当前用户的当前语音的服务器所提供的时间等多种方式来获取。
对于周边人物,可通过获取其他用户终端自动检测所提供的地理位置或GPS定位信息来确定。例如,当前用户位于“鼎好大厦”,而根据GPS定位信息,获知A、B、C等多个用户位于“鼎好大厦”附近,则将所获知的A、B、C等多个用户作为当前用户的当前周边人物。
另外,周边人物通过识别用户通话中的声音、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得。例如,检测到通话中出现了“老板,我……”,则识别出是与老板说话。周边人物不一定是具体的人,可能是一类身份的人的总称,因为用户可能对于某一类身份的人表现为类似的说话模式。
对于周边活动,同理可通过获取其他用户终端或商户终端自动检测提供的地理位置或GPS定位信息、用户终端存储的活动信息、商户终端提供的活动信息来确定。例如,商户通过终端上的微信发布和分享活动信息,通过获取商户分享的活动信息(包括时间、地点和事件),并比较该活动信息中的地点与当前用户所处的地理位置的距离,来判断该商户分享的活动是否为当前用户的周边活动。
当然,周边活动也可以通过识别用户通话中的声音、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得。例如,用户的短信中有一条短信“我今天下午2点在B大厦观看剪彩活动”,现在正好是下午2点,可以识别出周边活动为大厦剪彩。
当然,上述场景信息仅为示例,并不限于此,任何可为语言模型的构建提供服务的场景信息都包含于此。
在步骤s2中,构建当前用户对应的当前场景语言模型。
由于关于与用户的当前场景信息(诸如当前用户的大致地理位置、时间、周边人物、周边活动)有关的模型识别是在步骤s3中进行的,例如对于用户在早上、中关村商圈、和老板说话这样一个场景,如何针对这种特定场景来进行模型识别是步骤s3的内容,但步骤s3中由于只能借助于用户终端的定期上报得到用户的大致地理位置,对于具体地理位置(例如中关村鼎好大厦),步骤s3的模型中无法考虑到这一层次。步骤s3主要是考虑所有用户在某个大概地理位置、时间、周边人物、周边活动等训练模型并进行识别的,而与精确的地理位置、或与这个人的习惯(不是所有人的习惯)有关的模型(即当前用户对应的当前场景语言模型)是在步骤s2建立的。步骤s3考虑的是所有用户在某个大概地理位置、时间、周边人物、周边活动人说话出现的共同的特点,步骤s2考虑的是在精确地理位置人说话出现的特点,以及从该人以往的习惯中得到的这个人的个性化的特点。
例如,在这一步骤中,主动查询用户的GPS系统,得到该用户的具体地理位置。根据当前用户的具体地理位置,在信息库和/或互联网上实时搜索到一些语料输入模型中进行训练,这个训练的模型就是当前场景语音模型。其中,当前用户的具体地理位置通过实时查询用户终端的定位系统、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得。另外,可以将用户以前的语音识别历史、用户的短信、备忘录等在用户本机能获取或在服务器能得到的内容输入这个模型训练,还可以进一步在用户以前的语音识别历史、用户的短信、备忘录等在用户本机能获取或在服务器能得到的内容中提取关键词,然后在信息库和/或互联网上实时搜索到得到语料,将这些语料也输入该模型进行训练,使这个模型充分反映该人的说话的一些个性化特点以及兴趣点。这样,结合了这样一个模型的识别结果就能充分反映了该用户的个性化的特点和偏好。
例如,根据当前用户的历史搜索记录,当前用户搜索“新星街”的历史次数为100,当前用户搜索“欣欣街”的历史次数为1,因此当用户发出诸如xinxinjie或xinxingjie之类的音时,这样构建的模型更容易将其识别成“新星街”。还如,根据当前用户使用终端上的app的历史,可知当前用户经常的打车路线为从“中关村”到“新星街”,并获取到当前用户的地理位置为“中关村”,则针对当前用户所实时构建的当前场景语言模型通常会将用户发出的诸如xinxinjie或xinxingjie之类的音识别成“新星街”。
在步骤s3中,根据当前场景信息判断当前场景的类型,并从根据历史场景信息而构建的与不同场景类型相对应的静态语言模型中搜索与当前场景的类型相对应的静态语言模型。
具体地,根据当前场景信息中所包括的诸如当前用户的地理位置、地理属性(例如在家还是在公司)、时间、周边人物、周边活动等的一项或多项组合来对当前场景的类型进行分类。例如,根据地理位置、地理属性和时间的组合来对当前场景的类型进行分类,将当前场景分为场景类型1:“海淀区+在公司+上午”和场景类型2:“海淀区+在家+晚上”。
典型地,根据历史场景信息而构建的与不同场景类型相对应的静态语言模型是如下构建的:
将历史语料按照场景信息分类至特定场景的类型中,每个特定场景的类型对应一个静态语言模型,用特定场景的类型下的历史语料训练相应静态语言模型。这个历史语料一般是服务器收集的所有人的说话的记录(例如使用“出门问问”提问的记录)。
简单举例来说,历史语料包括6个人曾说的A、B、C、D、E、F共6段话(例如使用“出门问问”问的6个问题,其中A、C是早上、在中关村商圈、和上司在一起的情况下说的,B、E、F是晚上、在海淀黄庄、和孩子在一起说的,D是早上、在王府井、自己一个人说的,因此,将A、C分为一类训练一个静态语言模型,将B、E、F分为一类训练另一个静态语言模型,用D训练另一个静态语言模型。
历史场景信息包括大致地理位置、时间、周边人物、周边活动,场景的类型是由大致地理位置、时间、周边人物、周边活动中的一项或多项决定的。优选地,为了提升各个场景下语音识别的准确性,根据场景类型的分类来构造不同的静态语言模型,从而根据多个不同的场景类型来构造多个静态语言模型,形成静态语言模型库。其中的大致地理位置是相对于用户的具体地理位置而言的,可以将具体地理位置所属的较大的行政区域或所属的较大的商圈作为其对应的大致地理位置。例如,用户的具体地理位置为北京市海淀区中关村鼎好大厦,则对应的大致地理位置可以为北京市海淀区中关村商圈。
对于历史场景中的一些典型信息而言,通过以下方式来获取:
其中大致地理位置通过用户终端的定位系统定时上报或用户终端自动检测提供的地理位置中获得。例如,通过获取用户终端的短信信息、获取用户终端存储的备忘信息中的一项或多项等获取大致地理位置。
周边人物通过获取其他用户终端自动检测提供的地理位置或GPS定位信息来确定。例如,通过识别用户通话中的声音、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得周边人物信息。
周边活动通过获取其他用户终端或商户终端自动检测提供的地理位置或GPS定位信息、用户终端存储的活动信息、商户终端提供的活动信息来确定。例如,通过识别用户通话中的声音、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得周边活动信息。
当根据历史场景信息而构建的与不同场景类型相对应的静态语言模型已经形成,则根据获取到的当前用户的当前场景信息判断当前场景的类型,并从已构建的静态语言模型中搜索与当前场景的类型相对应的静态语言模型。典型地,当前用户的当前场景信息包括当前用户的地理位置为中关村鼎好大厦、时间为上午九点,则根据地理位置“中关村鼎好大厦”判断出该具体地理位置对应的大致地理位置为“海淀区中关村商圈”,进一步结合地理属性和时间信息判断当前用户对应的当前场景的类型为场景类型1:“海淀区商圈+上午”,则根据场景类型1从多个静态语言模型中获取相对应的静态语言模型。
在步骤s4中,调用通用语言模型,基于通用语言模型、搜索出的静态语言模型、当前用户对应的场景语言模型的混合以及声学模型,识别当前用户的语音。
如图1所示,当用户讲出一段语音后,从语音中提出语音特征,输入训练好的声学模型,由声学模型识别为音节,通过查询字典中音节与文本的可能映射关系,利用语言模型进行语音解码,通过相应的搜索算法,输出该语音对应的文本。本发明与现有技术的区别在这一步骤中是,在图1中的语音模型中,本发明用了三个语音模型,即通用语言模型、搜索出的静态语言模型、当前用户对应的场景语言模型的混合。
通用语言模型是现有技术的语音模型,可以为基于各领域语料而构建的,该语言模型可以从第三方提供的数据库中获取。在语音识别的过程中,通过调用通用语言模型,并基于通用语言模型、上述s3中搜索出的静态语言模型、上述s2中构建的当前用户对应的场景语言模型的混合,进行语音实时解码。
可选地,为了提升语音识别的实时性,将并行处理技术应用到语音实时解码的过程中,如此,所述基于通用语言模型、搜索出的静态语言模型、当前用户对应的当前场景语言模型的混合识别当前用户的语音的步骤包括:
并行计算当前用户的当前语音的各候选识别结果在通用语言模型、搜索出的静态语言模型和当前用户对应的当前场景语言模型下的概率分数;
基于各模型对应的权重对各候选识别结果在各模型下的概率分数进行加权,根据加权后的概率分数对各候选识别结果进行排序,识别当前用户的当前语音对应的文本。
举例而言,当前用户的当前语音的各候选识别结果包括:新星街、欣欣街,这两个候选识别结果在通用语言模型、搜索出的静态语言模型和当前用户对应的当前场景语言模型下的概率分数见下表1所示:
表1
其中,通用语言模型、搜索出的静态语言模型和当前用户对应的当前场景语言模型对应的权重分别为0.1、0.3和0.6,则可以采用以下方式进行加权计算:
对于新星街:0.1*50%+0.3*48%+0.6*90%=0.734
对于欣欣街:0.1*50%+0.3*52%+0.6*10%=0.266
通过上述计算,可知候选识别结果中新星街的概率分数更高,则将新星街识别为当前用户的当前语音对应的文本。
当然上述举例仅是为了更清楚地说明如何基于通用语言模型、搜索出的静态语言模型和当前用户对应的当前场景语言模型的混合来对各候选识别结果确定一个最终识别结果,并不是对本实施方式的限定。
可选地,所述基于各模型对应的权重对各候选识别结果在各模型下的概率分数进行加权,根据加权后的总概率分数对各候选识别结果进行排序,识别当前用户的当前语音对应的文本的步骤包括:
预设各模型的权重,基于预设的权重对各模型下的概率分数进行加权,根据加权后的总概率分数对各候选识别结果进行排序,识别当前用户的当前语音对应的文本,并根据当前用户对该识别出的文本的反馈,调整所述预设的各模型的权重,用于下一次语音的识别;和/或
预设各模型的权重,根据各候选识别结果在各模型下的概率分数的置信度,实时调整所述预设的各模型的权重,基于调整后的权重对各模型下的概率分数进行加权,根据加权后的概率分数对当前语音对应的文本进行排序,识别当前用户的当前语音对应的文本。
分别举例而言,在识别出当前用户的当前语音对应的文本为“新星街”并提供给用户,用户将该识别结果修改为“欣欣街”,则根据用户的修改反馈相应地调整各模型的权重,还可相应调整该文本在各模型下的概率分数。此处仅以单个用户的反馈来举例,而实际上为了提升语音识别的准确性,需要对大量用户的反馈进行统计,以优化采集的反馈样本,从而为各模型权重的调整提供更多的数据支撑。
在本实施例中,也可以根据各候选识别结果在各模型下的概率分数的置信度来实时调整已预设的各模型的权重。
就上述中基于置信度来实施调整各模型的预设权重举例,获取当前用户的语音内容为“我可能在中关村图书大厦附近,告诉我怎么去出门问问公司”,此处暂且假设不能通过其他数据来获取当前用户的地理信息,则当前场景语言模型可能就会将中关村图书大厦作为具体地理位置,这样当前场景语言模型由于输入不精确可能会导致识别结果的置信度降低。这时,相应降低当前场景语言模型的权重,并相应提高通用语言模型、搜索出的静态语言模型的权重。
本实施例中可根据用户的历史搜索记录、所获取的信息来源的可信度等来调整置信度,在此对置信度设置和调整的参数依据不作限定。
根据本发明的一个实施例,还提供了一种基于场景的实时语音识别系统,如图3所示,所述实时语音识别系统3包括:
语音采集装置301,被配置为采集当前用户的当前语音;
静态语言模型构建装置302,被配置为基于采集的历史场景信息,构建与不同场景类型相对应的静态语言模型;
场景语言模型构建装置303,被配置为实时采集当前用户的当前场景信息,构建当前用户对应的当前场景语言模型;
语音识别装置304,被配置为根据当前场景信息判断当前场景的类型,并从根据历史场景信息而构建的与不同场景类型相对应的静态语言模型中搜索与当前场景的类型相对应的静态语言模型,调用通用语言模型,基于通用语言模型、搜索出的静态语言模型、当前用户对应的场景语言模型的混合以及声学模型,识别当前用户的语音。
根据本发明的一个实施例,所述语音识别装置包括:
并行计算单元,被配置为并行计算当前用户的当前语音的各候选识别结果在通用语言模型、搜索出的静态语言模型和当前用户对应的当前场景语言模型下的概率分数;
识别单元,被配置为基于各模型对应的权重对各候选识别结果在各模型下的概率分数进行加权,根据加权后的概率分数对各候选识别结果进行排序,识别当前用户的当前语音对应的文本。
根据本发明的一个实施例,场景信息包括大致地理位置、时间、周边人物、周边活动,场景的类型是由大致地理位置、时间、周边人物、周边活动中的一项或多项限定的,静态语言模型构建装置根据历史场景信息而构建的与不同场景类型相对应的静态语言模型是如下构建的:
将历史语料按照场景分类至特定场景的类型中,每个特定场景的类型对应于一个静态语言模型,用特定场景的类型下的历史语料训练相应静态语言模型。
根据本发明的一个实施例,场景语言模型构建装置被配置为:
根据当前用户的具体地理位置,在信息库和/或互联网上实时搜索相关内容,根据实时搜索到的相关内容,构建当前用户对应的当前场景语言模型。
根据本发明的一个实施例,识别单元被配置为:
预设各模型的权重,基于预设的权重对各模型下的概率分数进行加权,根据加权后的总概率分数对各候选识别结果进行排序,识别当前用户的当前语音对应的文本,并根据当前用户对该识别出的文本的反馈,调整所述预设的各模型的权重,用于下一次语音的识别;和/或
预设各模型的权重,根据各候选识别结果在各模型下的概率分数的置信度,实时调整所述预设的各模型的权重,基于调整后的权重对各模型下的概率分数进行加权,根据加权后的概率分数对当前语音对应的文本进行排序,识别当前用户的当前语音对应的文本。
根据本发明的一个实施例,所述大致地理位置通过用户终端的定位系统定时上报或用户终端自动检测提供的地理位置中获得;
周边人物通过获取其他用户终端自动检测提供的地理位置或GPS定位信息来确定;
周边活动通过获取其他用户终端或商户终端自动检测提供的地理位置或GPS定位信息、用户终端存储的活动信息、商户终端提供的活动信息来确定。
根据本发明的一个实施例,所述当前用户的具体地理位置通过实时查询用户终端的定位系统、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得。
图3所示的实时语音识别系统可以利用软件、硬件或软硬件结合的方式来实现。
所属技术领域的技术人员知道,本发明可以实现为设备、装置、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件,也可以是完全的软件,还可以是硬件和软件结合的形式。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (10)
1.一种基于场景的实时语音识别系统,包括:
语音采集装置,被配置为采集当前用户的当前语音;
静态语言模型构建装置,被配置为基于采集的历史场景信息,构建与不同场景类型相对应的静态语言模型;
场景语言模型构建装置,被配置为实时采集当前用户的当前场景信息,构建当前用户对应的当前场景语言模型;
语音识别装置,被配置为根据当前场景信息判断当前场景的类型,并从根据历史场景信息而构建的与不同场景类型相对应的静态语言模型中搜索与当前场景的类型相对应的静态语言模型,调用通用语言模型,基于通用语言模型、搜索出的静态语言模型、当前用户对应的场景语言模型的混合以及声学模型,识别当前用户的语音。
2.根据权利要求1所述的实时语音识别系统,其中所述语音识别装置包括:
并行计算单元,被配置为并行计算当前用户的当前语音的各候选识别结果在通用语言模型、搜索出的静态语言模型和当前用户对应的当前场景语言模型下的概率分数;
识别单元,被配置为基于各模型对应的权重对各候选识别结果在各模型下的概率分数进行加权,根据加权后的概率分数对各候选识别结果进行排序,识别当前用户的当前语音对应的文本。
3.根据权利要求1所述的实时语音识别系统,其中场景信息包括大致地理位置、时间、周边人物、周边活动,场景的类型是由大致地理位置、时间、周边人物、周边活动中的一项或多项限定的,静态语言模型构建装置根据历史场景信息而构建的与不同场景类型相对应的静态语言模型是如下构建的:
将历史语料按照场景分类至特定场景的类型中,每个特定场景的类型对应于一个静态语言模型,用特定场景的类型下的历史语料训练相应静态语言模型。
4.根据权利要求1所述的实时语音识别系统,其中场景语言模型构建装置被配置为:
根据当前用户的具体地理位置,在信息库和/或互联网上实时搜索相关内容,根据实时搜索到的相关内容,构建当前用户对应的当前场景语言模型。
5.根据权利要求2所述的实时语音识别系统,其中识别单元被配置为:
预设各模型的权重,基于预设的权重对各模型下的概率分数进行加权,根据加权后的总概率分数对各候选识别结果进行排序,识别当前用户的当前语音对应的文本,并根据当前用户对该识别出的文本的反馈,调整所述预设的各模型的权重,用于下一次语音的识别;和/或
预设各模型的权重,根据各候选识别结果在各模型下的概率分数的置信度,实时调整所述预设的各模型的权重,基于调整后的权重对各模型下的概率分数进行加权,根据加权后的概率分数对当前语音对应的文本进行排序,识别当前用户的当前语音对应的文本。
6.根据权利要求3所述的实时语音识别系统,其中
大致地理位置通过用户终端的定位系统定时上报、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得;
周边人物通过识别用户通话中的声音、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得;
周边活动通过识别用户通话中的声音、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得。
7.根据权利要求4所述的实时语音识别系统,其中
当前用户的具体地理位置通过实时查询用户终端的定位系统、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得。
8.一种基于场景的实时语音识别方法,包括:
采集当前用户的当前语音和当前场景信息;
构建当前用户对应的当前场景语言模型;
根据当前场景信息判断当前场景的类型,并从根据历史场景信息而构建的与不同场景类型相对应的静态语言模型中搜索与当前场景的类型相对应的静态语言模型;
调用通用语言模型,基于通用语言模型、搜索出的的静态语言模型、当前用户对应的场景语言模型的混合以及声学模型,识别当前用户的语音。
9.根据权利要求8所述的实时语音识别方法,其中所述基于通用语言模型、搜索出的静态语言模型、当前用户对应的当前场景语言模型的混合识别当前用户的语音的步骤包括:
并行计算当前用户的当前语音的各候选识别结果在通用语言模型、搜索出的静态语言模型和当前用户对应的当前场景语言模型下的概率分数;
基于各模型对应的权重对各候选识别结果在各模型下的概率分数进行加权,根据加权后的概率分数对各候选识别结果进行排序,识别当前用户的当前语音对应的文本。
10.根据权利要求8所述的实时语音识别方法,其中场景信息包括大致地理位置、时间、周边人物、周边活动,场景的类型是由大致地理位置、时间、周边人物、周边活动中的一项或多项限定的,所述根据历史场景信息而构建的与不同场景类型相对应的静态语言模型是如下构建的:
将历史语料按照场景信息分类至特定场景的类型中,每个特定场景的类型对应于一个静态语言模型,用特定场景的类型下的历史语料训练相应静态语言模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410407362.2A CN105448292B (zh) | 2014-08-19 | 2014-08-19 | 一种基于场景的实时语音识别系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410407362.2A CN105448292B (zh) | 2014-08-19 | 2014-08-19 | 一种基于场景的实时语音识别系统和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105448292A true CN105448292A (zh) | 2016-03-30 |
CN105448292B CN105448292B (zh) | 2019-03-12 |
Family
ID=55558399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410407362.2A Active CN105448292B (zh) | 2014-08-19 | 2014-08-19 | 一种基于场景的实时语音识别系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105448292B (zh) |
Cited By (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106205622A (zh) * | 2016-06-29 | 2016-12-07 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
CN106328148A (zh) * | 2016-08-19 | 2017-01-11 | 上汽通用汽车有限公司 | 基于本地和云端混合识别的自然语音识别方法、装置和系统 |
CN106686223A (zh) * | 2016-12-19 | 2017-05-17 | 中国科学院计算技术研究所 | 聋哑人与正常人的辅助对话系统、方法及智能手机 |
CN106710586A (zh) * | 2016-12-27 | 2017-05-24 | 北京智能管家科技有限公司 | 一种语音识别引擎自动切换方法和装置 |
CN106713633A (zh) * | 2016-12-19 | 2017-05-24 | 中国科学院计算技术研究所 | 一种聋人提示系统、方法及智能手机 |
CN106875949A (zh) * | 2017-04-28 | 2017-06-20 | 深圳市大乘科技股份有限公司 | 一种语音识别的校正方法及装置 |
CN107247928A (zh) * | 2017-05-23 | 2017-10-13 | 武汉秀宝软件有限公司 | 一种基于识别图的水平角度构建ar场景的方法及系统 |
CN107293294A (zh) * | 2016-03-31 | 2017-10-24 | 腾讯科技(深圳)有限公司 | 一种语音识别处理方法及装置 |
CN107316635A (zh) * | 2017-05-19 | 2017-11-03 | 科大讯飞股份有限公司 | 语音识别方法及装置、存储介质、电子设备 |
CN107463700A (zh) * | 2017-08-15 | 2017-12-12 | 北京百度网讯科技有限公司 | 用于获取信息的方法、装置及设备 |
CN107564546A (zh) * | 2017-07-27 | 2018-01-09 | 上海师范大学 | 一种基于位置信息的语音端点检测方法 |
CN107832286A (zh) * | 2017-09-11 | 2018-03-23 | 远光软件股份有限公司 | 智能交互方法、设备及存储介质 |
CN107844470A (zh) * | 2016-09-18 | 2018-03-27 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法及其设备 |
CN108052079A (zh) * | 2017-12-12 | 2018-05-18 | 北京小米移动软件有限公司 | 设备控制方法、装置、设备控制装置及存储介质 |
CN108121735A (zh) * | 2016-11-29 | 2018-06-05 | 百度在线网络技术(北京)有限公司 | 语音搜索方法和装置 |
CN108573706A (zh) * | 2017-03-10 | 2018-09-25 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置及设备 |
WO2018223796A1 (zh) * | 2017-06-07 | 2018-12-13 | 腾讯科技(深圳)有限公司 | 语音识别方法、存储介质及语音识别设备 |
WO2018228515A1 (en) * | 2017-06-15 | 2018-12-20 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for speech recognition |
CN109101475A (zh) * | 2017-06-20 | 2018-12-28 | 北京嘀嘀无限科技发展有限公司 | 出行语音识别方法、系统和计算机设备 |
CN109243461A (zh) * | 2018-09-21 | 2019-01-18 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN109243430A (zh) * | 2017-07-04 | 2019-01-18 | 北京搜狗科技发展有限公司 | 一种语音识别方法及装置 |
CN109240488A (zh) * | 2018-07-27 | 2019-01-18 | 重庆柚瓣家科技有限公司 | 一种ai场景定位引擎的实现方法 |
CN109360565A (zh) * | 2018-12-11 | 2019-02-19 | 江苏电力信息技术有限公司 | 一种通过建立资源库提高语音识别精度的方法 |
CN109410936A (zh) * | 2018-11-14 | 2019-03-01 | 广东美的制冷设备有限公司 | 基于场景的空调设备语音控制方法和装置 |
CN109509473A (zh) * | 2019-01-28 | 2019-03-22 | 维沃移动通信有限公司 | 语音控制方法及终端设备 |
CN109545196A (zh) * | 2018-12-29 | 2019-03-29 | 深圳市科迈爱康科技有限公司 | 语音识别方法、装置及计算机可读存储介质 |
CN109545195A (zh) * | 2018-12-29 | 2019-03-29 | 深圳市科迈爱康科技有限公司 | 陪伴机器人及其控制方法 |
CN109906466A (zh) * | 2016-11-08 | 2019-06-18 | 索尼公司 | 信息处理设备和信息处理方法 |
CN109918479A (zh) * | 2019-02-28 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 用于处理信息的方法及装置 |
CN110085228A (zh) * | 2019-04-28 | 2019-08-02 | 广西盖德科技有限公司 | 语音码应用方法、应用客户端及系统 |
CN110120221A (zh) * | 2019-06-06 | 2019-08-13 | 上海蔚来汽车有限公司 | 用于车机系统的用户个性化离线语音识别方法及其系统 |
CN110349575A (zh) * | 2019-05-22 | 2019-10-18 | 深圳壹账通智能科技有限公司 | 语音识别的方法、装置、电子设备和存储介质 |
CN110517665A (zh) * | 2019-08-29 | 2019-11-29 | 中国银行股份有限公司 | 获取测试样本的方法及装置 |
CN110633037A (zh) * | 2018-06-25 | 2019-12-31 | 蔚来汽车有限公司 | 基于自然语言的人机交互方法、装置和计算机存储介质 |
CN110716767A (zh) * | 2018-07-13 | 2020-01-21 | 阿里巴巴集团控股有限公司 | 模型组件调用、生成方法、装置和存储介质 |
CN110832409A (zh) * | 2017-07-13 | 2020-02-21 | 三菱电机大楼技术服务株式会社 | 楼宇管理系统以及楼宇管理装置 |
CN110853621A (zh) * | 2019-10-09 | 2020-02-28 | 科大讯飞股份有限公司 | 语音顺滑方法、装置、电子设备及计算机存储介质 |
CN110875039A (zh) * | 2018-08-30 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 语音识别方法和设备 |
CN111104546A (zh) * | 2019-12-03 | 2020-05-05 | 珠海格力电器股份有限公司 | 一种构建语料库的方法、装置、计算设备及存储介质 |
CN111161739A (zh) * | 2019-12-28 | 2020-05-15 | 科大讯飞股份有限公司 | 语音识别方法及相关产品 |
CN111428512A (zh) * | 2020-03-27 | 2020-07-17 | 大众问问(北京)信息科技有限公司 | 一种语义识别方法、装置及设备 |
CN111477211A (zh) * | 2020-04-17 | 2020-07-31 | 珠海声原智能科技有限公司 | 一种跨场景快速适应的语音识别方法和装置 |
CN111785288A (zh) * | 2020-06-30 | 2020-10-16 | 北京嘀嘀无限科技发展有限公司 | 语音增强方法、装置、设备及存储介质 |
CN111816165A (zh) * | 2020-07-07 | 2020-10-23 | 北京声智科技有限公司 | 语音识别方法、装置及电子设备 |
CN111833848A (zh) * | 2020-05-11 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 用于识别语音的方法、装置、电子设备和存储介质 |
CN111883113A (zh) * | 2020-07-30 | 2020-11-03 | 云知声智能科技股份有限公司 | 一种语音识别的方法及装置 |
CN112445901A (zh) * | 2019-09-03 | 2021-03-05 | 上海智臻智能网络科技股份有限公司 | 一种设置智能设备的语言的方法和装置 |
WO2021128880A1 (zh) * | 2019-12-26 | 2021-07-01 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和用于语音识别的装置 |
CN113066477A (zh) * | 2021-03-03 | 2021-07-02 | 北京嘀嘀无限科技发展有限公司 | 一种信息交互方法、装置及电子设备 |
CN113168829A (zh) * | 2018-12-03 | 2021-07-23 | 谷歌有限责任公司 | 语音输入处理 |
CN113223522A (zh) * | 2021-04-26 | 2021-08-06 | 北京百度网讯科技有限公司 | 语音识别方法、装置、设备和存储介质 |
CN113311936A (zh) * | 2020-02-27 | 2021-08-27 | 中移(成都)信息通信科技有限公司 | 基于ar的语音点评方法、装置、设备及存储介质 |
CN113470652A (zh) * | 2021-06-30 | 2021-10-01 | 山东恒远智能科技有限公司 | 一种基于工业互联网的语音识别及处理方法 |
CN114677691A (zh) * | 2022-04-06 | 2022-06-28 | 北京百度网讯科技有限公司 | 文本识别方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074231A (zh) * | 2010-12-30 | 2011-05-25 | 万音达有限公司 | 语音识别方法和语音识别系统 |
CN102474293A (zh) * | 2009-08-07 | 2012-05-23 | 三星电子株式会社 | 提供适合当前场景的环境的便携式终端及其操作方法 |
CN103150172A (zh) * | 2013-04-02 | 2013-06-12 | 网易(杭州)网络有限公司 | 一种实现个性化场景的方法和设备 |
CN103577386A (zh) * | 2012-08-06 | 2014-02-12 | 腾讯科技(深圳)有限公司 | 一种基于用户输入场景动态加载语言模型的方法及装置 |
-
2014
- 2014-08-19 CN CN201410407362.2A patent/CN105448292B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102474293A (zh) * | 2009-08-07 | 2012-05-23 | 三星电子株式会社 | 提供适合当前场景的环境的便携式终端及其操作方法 |
CN102074231A (zh) * | 2010-12-30 | 2011-05-25 | 万音达有限公司 | 语音识别方法和语音识别系统 |
CN103577386A (zh) * | 2012-08-06 | 2014-02-12 | 腾讯科技(深圳)有限公司 | 一种基于用户输入场景动态加载语言模型的方法及装置 |
CN103150172A (zh) * | 2013-04-02 | 2013-06-12 | 网易(杭州)网络有限公司 | 一种实现个性化场景的方法和设备 |
Cited By (84)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107293294A (zh) * | 2016-03-31 | 2017-10-24 | 腾讯科技(深圳)有限公司 | 一种语音识别处理方法及装置 |
CN107293294B (zh) * | 2016-03-31 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 一种语音识别处理方法及装置 |
US10957305B2 (en) | 2016-06-29 | 2021-03-23 | Lenovo (Beijing) Co., Ltd. | Method and device for information processing |
CN106205622A (zh) * | 2016-06-29 | 2016-12-07 | 联想(北京)有限公司 | 信息处理方法及电子设备 |
CN106328148A (zh) * | 2016-08-19 | 2017-01-11 | 上汽通用汽车有限公司 | 基于本地和云端混合识别的自然语音识别方法、装置和系统 |
CN107844470A (zh) * | 2016-09-18 | 2018-03-27 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法及其设备 |
US11289099B2 (en) | 2016-11-08 | 2022-03-29 | Sony Corporation | Information processing device and information processing method for determining a user type based on performed speech |
CN109906466A (zh) * | 2016-11-08 | 2019-06-18 | 索尼公司 | 信息处理设备和信息处理方法 |
CN109906466B (zh) * | 2016-11-08 | 2023-05-05 | 索尼公司 | 信息处理设备和信息处理方法 |
CN108121735A (zh) * | 2016-11-29 | 2018-06-05 | 百度在线网络技术(北京)有限公司 | 语音搜索方法和装置 |
CN108121735B (zh) * | 2016-11-29 | 2022-03-11 | 百度在线网络技术(北京)有限公司 | 语音搜索方法和装置 |
CN106713633A (zh) * | 2016-12-19 | 2017-05-24 | 中国科学院计算技术研究所 | 一种聋人提示系统、方法及智能手机 |
CN106686223A (zh) * | 2016-12-19 | 2017-05-17 | 中国科学院计算技术研究所 | 聋哑人与正常人的辅助对话系统、方法及智能手机 |
CN106710586A (zh) * | 2016-12-27 | 2017-05-24 | 北京智能管家科技有限公司 | 一种语音识别引擎自动切换方法和装置 |
CN106710586B (zh) * | 2016-12-27 | 2020-06-30 | 北京儒博科技有限公司 | 一种语音识别引擎自动切换方法和装置 |
CN108573706A (zh) * | 2017-03-10 | 2018-09-25 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置及设备 |
CN106875949A (zh) * | 2017-04-28 | 2017-06-20 | 深圳市大乘科技股份有限公司 | 一种语音识别的校正方法及装置 |
CN106875949B (zh) * | 2017-04-28 | 2020-09-22 | 深圳市大乘科技股份有限公司 | 一种语音识别的校正方法及装置 |
CN107316635A (zh) * | 2017-05-19 | 2017-11-03 | 科大讯飞股份有限公司 | 语音识别方法及装置、存储介质、电子设备 |
CN107247928A (zh) * | 2017-05-23 | 2017-10-13 | 武汉秀宝软件有限公司 | 一种基于识别图的水平角度构建ar场景的方法及系统 |
CN107247928B (zh) * | 2017-05-23 | 2020-06-23 | 武汉秀宝软件有限公司 | 一种基于识别图的水平角度构建ar场景的方法及系统 |
WO2018223796A1 (zh) * | 2017-06-07 | 2018-12-13 | 腾讯科技(深圳)有限公司 | 语音识别方法、存储介质及语音识别设备 |
WO2018228515A1 (en) * | 2017-06-15 | 2018-12-20 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for speech recognition |
US11302313B2 (en) | 2017-06-15 | 2022-04-12 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for speech recognition |
CN109101475A (zh) * | 2017-06-20 | 2018-12-28 | 北京嘀嘀无限科技发展有限公司 | 出行语音识别方法、系统和计算机设备 |
CN109243430B (zh) * | 2017-07-04 | 2022-03-01 | 北京搜狗科技发展有限公司 | 一种语音识别方法及装置 |
CN109243430A (zh) * | 2017-07-04 | 2019-01-18 | 北京搜狗科技发展有限公司 | 一种语音识别方法及装置 |
CN110832409A (zh) * | 2017-07-13 | 2020-02-21 | 三菱电机大楼技术服务株式会社 | 楼宇管理系统以及楼宇管理装置 |
CN110832409B (zh) * | 2017-07-13 | 2024-01-30 | 三菱电机楼宇解决方案株式会社 | 楼宇管理系统以及楼宇管理装置 |
CN107564546A (zh) * | 2017-07-27 | 2018-01-09 | 上海师范大学 | 一种基于位置信息的语音端点检测方法 |
CN107463700A (zh) * | 2017-08-15 | 2017-12-12 | 北京百度网讯科技有限公司 | 用于获取信息的方法、装置及设备 |
CN107463700B (zh) * | 2017-08-15 | 2020-09-08 | 北京百度网讯科技有限公司 | 用于获取信息的方法、装置及设备 |
CN107832286A (zh) * | 2017-09-11 | 2018-03-23 | 远光软件股份有限公司 | 智能交互方法、设备及存储介质 |
CN108052079A (zh) * | 2017-12-12 | 2018-05-18 | 北京小米移动软件有限公司 | 设备控制方法、装置、设备控制装置及存储介质 |
CN110633037A (zh) * | 2018-06-25 | 2019-12-31 | 蔚来汽车有限公司 | 基于自然语言的人机交互方法、装置和计算机存储介质 |
CN110633037B (zh) * | 2018-06-25 | 2023-08-22 | 蔚来(安徽)控股有限公司 | 基于自然语言的人机交互方法、装置和计算机存储介质 |
CN110716767A (zh) * | 2018-07-13 | 2020-01-21 | 阿里巴巴集团控股有限公司 | 模型组件调用、生成方法、装置和存储介质 |
CN110716767B (zh) * | 2018-07-13 | 2023-05-05 | 阿里巴巴集团控股有限公司 | 模型组件调用、生成方法、装置和存储介质 |
CN109240488A (zh) * | 2018-07-27 | 2019-01-18 | 重庆柚瓣家科技有限公司 | 一种ai场景定位引擎的实现方法 |
CN110875039A (zh) * | 2018-08-30 | 2020-03-10 | 阿里巴巴集团控股有限公司 | 语音识别方法和设备 |
CN110875039B (zh) * | 2018-08-30 | 2023-12-01 | 阿里巴巴集团控股有限公司 | 语音识别方法和设备 |
CN109243461A (zh) * | 2018-09-21 | 2019-01-18 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN109243461B (zh) * | 2018-09-21 | 2020-04-14 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及存储介质 |
CN109410936A (zh) * | 2018-11-14 | 2019-03-01 | 广东美的制冷设备有限公司 | 基于场景的空调设备语音控制方法和装置 |
CN113168829A (zh) * | 2018-12-03 | 2021-07-23 | 谷歌有限责任公司 | 语音输入处理 |
CN109360565A (zh) * | 2018-12-11 | 2019-02-19 | 江苏电力信息技术有限公司 | 一种通过建立资源库提高语音识别精度的方法 |
CN109545195A (zh) * | 2018-12-29 | 2019-03-29 | 深圳市科迈爱康科技有限公司 | 陪伴机器人及其控制方法 |
CN109545195B (zh) * | 2018-12-29 | 2023-02-21 | 深圳市科迈爱康科技有限公司 | 陪伴机器人及其控制方法 |
CN109545196A (zh) * | 2018-12-29 | 2019-03-29 | 深圳市科迈爱康科技有限公司 | 语音识别方法、装置及计算机可读存储介质 |
CN109509473B (zh) * | 2019-01-28 | 2022-10-04 | 维沃移动通信有限公司 | 语音控制方法及终端设备 |
CN109509473A (zh) * | 2019-01-28 | 2019-03-22 | 维沃移动通信有限公司 | 语音控制方法及终端设备 |
CN109918479A (zh) * | 2019-02-28 | 2019-06-21 | 百度在线网络技术(北京)有限公司 | 用于处理信息的方法及装置 |
CN110085228A (zh) * | 2019-04-28 | 2019-08-02 | 广西盖德科技有限公司 | 语音码应用方法、应用客户端及系统 |
CN110349575A (zh) * | 2019-05-22 | 2019-10-18 | 深圳壹账通智能科技有限公司 | 语音识别的方法、装置、电子设备和存储介质 |
WO2020233363A1 (zh) * | 2019-05-22 | 2020-11-26 | 深圳壹账通智能科技有限公司 | 语音识别的方法、装置、电子设备和存储介质 |
CN110120221A (zh) * | 2019-06-06 | 2019-08-13 | 上海蔚来汽车有限公司 | 用于车机系统的用户个性化离线语音识别方法及其系统 |
CN110517665A (zh) * | 2019-08-29 | 2019-11-29 | 中国银行股份有限公司 | 获取测试样本的方法及装置 |
CN112445901A (zh) * | 2019-09-03 | 2021-03-05 | 上海智臻智能网络科技股份有限公司 | 一种设置智能设备的语言的方法和装置 |
CN110853621B (zh) * | 2019-10-09 | 2024-02-13 | 科大讯飞股份有限公司 | 语音顺滑方法、装置、电子设备及计算机存储介质 |
CN110853621A (zh) * | 2019-10-09 | 2020-02-28 | 科大讯飞股份有限公司 | 语音顺滑方法、装置、电子设备及计算机存储介质 |
CN111104546A (zh) * | 2019-12-03 | 2020-05-05 | 珠海格力电器股份有限公司 | 一种构建语料库的方法、装置、计算设备及存储介质 |
CN111104546B (zh) * | 2019-12-03 | 2021-08-27 | 珠海格力电器股份有限公司 | 一种构建语料库的方法、装置、计算设备及存储介质 |
WO2021128880A1 (zh) * | 2019-12-26 | 2021-07-01 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和用于语音识别的装置 |
CN111161739A (zh) * | 2019-12-28 | 2020-05-15 | 科大讯飞股份有限公司 | 语音识别方法及相关产品 |
WO2021129439A1 (zh) * | 2019-12-28 | 2021-07-01 | 科大讯飞股份有限公司 | 语音识别方法及相关产品 |
CN111161739B (zh) * | 2019-12-28 | 2023-01-17 | 科大讯飞股份有限公司 | 语音识别方法及相关产品 |
CN113311936A (zh) * | 2020-02-27 | 2021-08-27 | 中移(成都)信息通信科技有限公司 | 基于ar的语音点评方法、装置、设备及存储介质 |
CN113311936B (zh) * | 2020-02-27 | 2022-12-02 | 中移(成都)信息通信科技有限公司 | 基于ar的语音点评方法、装置、设备及存储介质 |
CN111428512A (zh) * | 2020-03-27 | 2020-07-17 | 大众问问(北京)信息科技有限公司 | 一种语义识别方法、装置及设备 |
CN111428512B (zh) * | 2020-03-27 | 2023-12-12 | 大众问问(北京)信息科技有限公司 | 一种语义识别方法、装置及设备 |
CN111477211A (zh) * | 2020-04-17 | 2020-07-31 | 珠海声原智能科技有限公司 | 一种跨场景快速适应的语音识别方法和装置 |
CN111833848A (zh) * | 2020-05-11 | 2020-10-27 | 北京嘀嘀无限科技发展有限公司 | 用于识别语音的方法、装置、电子设备和存储介质 |
CN111833848B (zh) * | 2020-05-11 | 2024-05-28 | 北京嘀嘀无限科技发展有限公司 | 用于识别语音的方法、装置、电子设备和存储介质 |
CN111785288A (zh) * | 2020-06-30 | 2020-10-16 | 北京嘀嘀无限科技发展有限公司 | 语音增强方法、装置、设备及存储介质 |
CN111785288B (zh) * | 2020-06-30 | 2022-03-15 | 北京嘀嘀无限科技发展有限公司 | 语音增强方法、装置、设备及存储介质 |
CN111816165A (zh) * | 2020-07-07 | 2020-10-23 | 北京声智科技有限公司 | 语音识别方法、装置及电子设备 |
CN111883113A (zh) * | 2020-07-30 | 2020-11-03 | 云知声智能科技股份有限公司 | 一种语音识别的方法及装置 |
CN111883113B (zh) * | 2020-07-30 | 2024-01-30 | 云知声智能科技股份有限公司 | 一种语音识别的方法及装置 |
CN113066477A (zh) * | 2021-03-03 | 2021-07-02 | 北京嘀嘀无限科技发展有限公司 | 一种信息交互方法、装置及电子设备 |
CN113223522B (zh) * | 2021-04-26 | 2022-05-03 | 北京百度网讯科技有限公司 | 语音识别方法、装置、设备和存储介质 |
CN113223522A (zh) * | 2021-04-26 | 2021-08-06 | 北京百度网讯科技有限公司 | 语音识别方法、装置、设备和存储介质 |
CN113470652A (zh) * | 2021-06-30 | 2021-10-01 | 山东恒远智能科技有限公司 | 一种基于工业互联网的语音识别及处理方法 |
CN114677691A (zh) * | 2022-04-06 | 2022-06-28 | 北京百度网讯科技有限公司 | 文本识别方法、装置、电子设备及存储介质 |
CN114677691B (zh) * | 2022-04-06 | 2023-10-03 | 北京百度网讯科技有限公司 | 文本识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105448292B (zh) | 2019-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105448292A (zh) | 一种基于场景的实时语音识别系统和方法 | |
CN105354196B (zh) | 信息推送方法和信息推送装置 | |
KR102137767B1 (ko) | 동적 언어 모델 | |
US9626969B2 (en) | Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data | |
CN107240398B (zh) | 智能语音交互方法及装置 | |
CN105374356B (zh) | 语音识别方法、语音评分方法、语音识别系统及语音评分系统 | |
CN105741848B (zh) | 用于增强话音识别准确度的有地理标记的环境音频的系统及方法 | |
CN102802114B (zh) | 利用语音进行座席筛选的方法及系统 | |
CN107222865A (zh) | 基于可疑行为识别的通讯诈骗实时检测方法和系统 | |
CN105354199B (zh) | 一种基于场景信息的实体含义识别方法和系统 | |
CN104794122A (zh) | 一种位置信息推荐方法、装置和系统 | |
CN104462600A (zh) | 实现来电原因自动分类的方法及装置 | |
CN101329868A (zh) | 一种针对地区语言使用偏好的语音识别优化系统及其方法 | |
CN104538034A (zh) | 一种语音识别方法及系统 | |
CN104794181A (zh) | 一种基于电子地图的服务处理方法和装置 | |
CN103425649A (zh) | 添加好友信息的方法及装置 | |
CN103076893A (zh) | 一种用于实现语音输入的方法与设备 | |
CN109741734A (zh) | 一种语音评测方法、装置和可读介质 | |
CN107808667A (zh) | 声音识别装置以及声音识别方法 | |
CN113177101B (zh) | 用户轨迹识别方法、装置、设备及存储介质 | |
CN108090220B (zh) | 兴趣点搜索排序方法及系统 | |
Ma et al. | Landmark-based location belief tracking in a spoken dialog system | |
KR101029193B1 (ko) | 관광정보 안내 시스템 | |
CN107885720B (zh) | 关键词生成装置以及关键词生成方法 | |
CN114090898A (zh) | 一种信息推荐方法、装置、终端设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |