CN106356056B - 语音识别方法和装置 - Google Patents
语音识别方法和装置 Download PDFInfo
- Publication number
- CN106356056B CN106356056B CN201610971444.9A CN201610971444A CN106356056B CN 106356056 B CN106356056 B CN 106356056B CN 201610971444 A CN201610971444 A CN 201610971444A CN 106356056 B CN106356056 B CN 106356056B
- Authority
- CN
- China
- Prior art keywords
- word
- scene
- subset
- weight
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Abstract
本发明公开了一种语音识别方法和装置。其中,该方法包括:根据终端显示屏上所显示的内容确定当前场景;根据当前场景调整第一词语集合中第一子集中每个词语的权重,其中,第一子集的场景属性所指示的场景与当前场景一致;在调整权重后的第一词语集合中查找与接收到的语音信号相关联的第二子集,其中,第二子集包括至少一个词语;按照第二子集中每个词语的权重从第二子集中选择权重最大的词语作为目标词语;将目标词语作为识别语音信号的识别结果。本发明解决了现有技术中语音识别的准确度低的技术问题。
Description
技术领域
本发明涉及语音识别领域,具体而言,涉及一种语音识别方法和装置。
背景技术
现有技术中语音识别方法通过记录文字对应的发音以及一些常用的词语的权重,在捕获到要解析的语音时,与文字的发音进行对应,然后再根据一些词语的权重进行组合。例如当用户说“你好”时,可以识别出是“ni”和“hao”两个发音,可以匹配到“你好”、“拟好”、“妮号”等多个词语,“你好”认为是最常用的词语,相对于其他同音的词语,权重较高。根据词语权重,解析到用户说的是“你好”。
现有技术中语音识别方法的准确度低,例如:用户需要搜索电影《陆垚知马俐》,用户发出语音信号“lu yao zhi ma li”,现有技术根据权重,解析出发音“lu yao zhi mali”对应的文字为“路遥知马力”,这就出现了错误。
现有技术还有一种语音识别方法,如专利文件(CN104423552A)公开的一种处理信息的方法。该方法应用于电子设备,该电子设备包括N个对象,N>=1,所述N为整数,每个对象对应一个权重值,每个所述对象对应的权重值用于指示该对象在所述语音识别引擎的搜索空间中的权重,所述显示单元上显示M个对象,1《=M<N,所述M为整数,所述方法包括:101:获取第一输入操作;102:根据所述第一输入操作获取执行对象;103:以所述执行对象响应所述第一输入操作;104:在所述响应所述第一输入操作之后,确定所述显示单元在第一时间段内显示过的L个对象;105:至少根据所述第一输入操作的类型确定用户的操作习惯;106:基于所述用户的操作习惯和所述L更新所述N个对象对应的权重值构成的集合。当下一次接收到语音输入操作时,根据该更新后的集合中的每个对象对应的权重值和该语音输入操作匹配出下一次的执行对象。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语音识别方法和装置,以至少解决现有技术中语音识别的准确度低的技术问题。
根据本发明实施例的一个方面,提供了一种语音识别方法,包括:根据终端显示屏上所显示的内容确定当前场景;根据所述当前场景调整第一词语集合中第一子集中每个词语的权重,其中,所述第一子集的场景属性所指示的场景与所述当前场景一致;在调整权重后的所述第一词语集合中查找与接收到的语音信号相关联的第二子集,其中,所述第二子集包括至少一个词语;按照所述第二子集中每个词语的权重从所述第二子集中选择权重最大的词语作为目标词语;将所述目标词语作为识别所述语音信号的识别结果
根据本发明实施例的另一方面,还提供了一种语音识别装置,包括:第一确定单元,用于根据终端显示屏上所显示的内容确定当前场景;调整单元,用于根据所述当前场景调整第一词语集合中第一子集中每个词语的权重,其中,所述第一子集的场景属性所指示的场景与所述当前场景一致;第一查找单元,用于在调整权重后的所述第一词语集合中查找与接收到的语音信号相关联的第二子集,其中,所述第二子集包括至少一个词语;选择单元,用于按照所述第二子集中每个词语的权重从所述第二子集中选择权重最大的词语作为目标词语;第二确定单元,用于将所述目标词语作为识别所述语音信号的识别结果。
在本发明实施例中,根据终端显示屏上所显示的内容确定当前场景,当前场景为用户关注或者感兴趣的场景,将场景属性与当前场景一致的第一子集中的每个词语的权重进行调整,以突出其重要程度,在调整权重后的第一词语集合中查找与接收到的语音信号相关联的第二子集,从第二子集中选择权重最大的词语作为目标词语,将目标词语作为识别语音信号的识别结果,从而得到最匹配当前场景的文字,达到了提高语音识别的准确度的技术效果,进而解决了现有技术中语音识别的准确度低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的硬件环境示意图;
图2是根据本发明实施例的一种语音识别方法的流程图;
图3是根据本发明实施例的另一种语音识别方法的示意图;
图4是根据本发明实施例的语音识别装置的示意图;
图5是根据本发明实施例的服务器的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
技术术语解释:
语音识别:自动将语音转换成文字,这里的语音特指人类或者其他动物之间用来交流时发出的声音。
词语权重:权重是一个相对的概念,是针对某一指标而言。某一指标的权重是指该指标在整体评价中的相对重要程度。词语权重是指一个词语相对于其他的词语的重要程度。
根据本发明实施例,提供了一种语音识别方法的实施例。
可选地,在本实施例中,上述语音识别方法可以应用于如图1所示的由服务器102、终端104所构成的硬件环境中。如图1所示,服务器102通过网络与终端104进行连接,上述网络包括但不限于:广域网、城域网或局域网。用户发出语音信号,终端104接收语音信号,并且将语音信号发送给语音解析模块。语音解析模块位于服务器102中。终端104具有显示屏。终端104获取终端104显示屏上所显示的内容,显示屏上所显示的内容可以包括至少以下之一:终端104运行的应用程序、终端104显示屏显示的文字、终端104显示屏显示的图片、通话记录、聊天内容和终端104显示屏显示的网页等,终端104将终端104显示屏上所显示的内容发送给用户场景解析模块。用户场景解析模块中存储了显示屏上显示的内容与场景之间的对应关系,从对应关系中查找显示屏当前显示的内容对应的场景,即当前场景。用户场景解析模块将当前场景信息发送给语音解析模块。语音解析模块存储着以下内容:1.文字发音,2.词语列表,3.场景列表,4.词语和场景的对应关系。语音解析模块接收用户场景解析模块发送的当前场景信息,获取对应于当前场景的词语列表,将对应于当前场景的词语列表中的词语的权重提高,解析语音信息,根据语音信息的文字读音以及词语权重进行匹配。用户场景解析模块既可以位于终端104中,也可以位于服务器102中。
根据本发明实施例,提供了一种语音识别方法,图2是根据本发明实施例的一种语音识别方法的流程图。如图2所示,该方法包括以下步骤:
步骤S202,根据终端显示屏上所显示的内容确定当前场景。
步骤S204,根据当前场景调整第一词语集合中第一子集中每个词语的权重,其中,第一子集的场景属性所指示的场景与当前场景一致。
步骤S206,在调整权重后的第一词语集合中查找与接收到的语音信号相关联的第二子集,其中,第二子集包括至少一个词语。
步骤S208,按照第二子集中每个词语的权重从第二子集中选择权重最大的词语作为目标词语。
步骤S210,将目标词语作为识别语音信号的识别结果。
终端可以是手机、电脑、平板电脑等。终端显示屏上所显示的内容可以是终端运行的应用程序、终端显示屏显示的文字、终端显示屏显示的图片、通话记录、聊天内容和终端显示屏显示的网页等。
终端显示屏上所显示的内容能够表明用户发出语音信号的同时或最近一段时间内,对终端进行什么操作或者与其他用户交流什么,根据用户对终端进行的操作和最近一段时间与其他用户交流的内容能够判断出用户感兴趣的方面,从而判断出当前场景是什么。
第一子集中每个词语的场景属性与当前场景一致,因此,应该将第一子集中的词语的重要程度调高,可以通过调整第一子集中词语的权重的方式突出第一子集中的词语的重要性。
由于第一子集是第一词语集合的子集,因此,调整第一子集中词语的权重之后,第一词语集合中词语的权重也发生了改变,即进行了调整。例如,第一词语集合包括21个词语,这21个词语及其权重如表1的第一列和第二列所示。
表1
举个例子,终端显示屏上所显示的内容是一个留学咨询的网页,则可以确定当前场景为留学。第一子集是{澳洲,新西兰,留洋,名校},第一子集中的四个词语都是与留学相关的,即这四个词语的场景属性所指示的场景都是留学,与当前场景一致。将第一子集中的每个词语的权重都乘以1.2,得到调整后的权重。
由于第一子集为第一词语集合的子集,调整第一子集中词语的权重之后,第一词语集合中的词语的权重也就改变了,相当于对第一词语集合中的词语的权重也进行了调整,调整权重后的第一词语集合中的词语的权重如表1的第三列所示。
假设接收到的语音信号是“ao zhou”,则在调整权重后的第一词语集合中查找与接收到的语音信号相关联的第二子集,查找到的第二子集是{熬粥,澳洲}。其中,“熬粥”的权重是1,“澳洲”的权重是1.2,从第二子集中选择权重最大的词语作为目标词语,即选择词语“澳洲”作为目标词语,词语“澳洲”即为识别语音信号“ao zhou”的识别结果。
在本发明实施例中,根据终端显示屏上所显示的内容确定当前场景,当前场景为用户关注或者感兴趣的场景,将场景属性与当前场景一致的第一子集中的每个词语的权重进行调整,以突出其重要程度,在调整权重后的第一词语集合中查找与接收到的语音信号相关联的第二子集,从第二子集中选择权重最大的词语作为目标词语,将目标词语作为识别语音信号的识别结果,从而得到最匹配当前场景的文字,解决了现有技术中在语音识别的过程中准确度低的技术问题,达到了提高语音识别的准确度的技术效果。
作为一种可选的实施例,第一子集的建立过程如下:获取第一词语集合中每个词语的场景属性;从第一词语集合中查找场景属性所指示的场景为当前场景的词语;将查找到的词语的集合作为第一子集。
每个词语都能够对应到一个或者多个场景,即,每个词语的场景属性可以为一个或者多个。例如,“新西兰名校”既可以对应于场景“留学”,也可以对应于场景“旅游”,即,“新西兰名校”有两个场景属性,分别为“留学”和“旅游”。如果某个词语的场景属性与当前场景一致,则这些词语所组成的集合即为第一子集,调整第一子集中词语的权重,以突出其重要性。
可选地,根据当前场景调整第一词语集合中第一子集中每个词语的权重的过程如下:将第一子集中每个词语的权重乘以预设比例系数,得到调整后的权重,其中,预设比例系数大于1。
由于当前场景能够表明用户的关注和感兴趣的内容,第一子集中词语的场景属性与当前场景一致,第一子集中的词语很可能是用户发出的语音信号对应的词语,因此,第一子集中的词语的重要性应该给予突出。提升第一子集中的词语的重要性的方法可以有以下两种:
方法一、调高第一子集中每个词语的权重,例如,将第一子集中每个词语的权重乘以预设比例系数,得到调整后的权重,其中,预设比例系数大于1;或者,将第一子集中每个词语的权重加上预设值,得到调整后的权重,其中,预设值大于0。
方法二、降低第一词语集合中除第一子集以外的所有词语的权重。
可选地,根据终端显示屏上所显示的内容确定当前场景的过程如下:获取预设时间段内终端显示屏上显示的内容,其中,预设时间段为第一时刻与当前时刻之间的预设时长,第一时刻早于当前时刻;根据场景与显示内容的关联关系查找与预设时间段内终端显示屏上显示的内容相关联的场景;将查找到的场景作为当前场景。
预设时长可以根据实际需要设置,例如,设置为30秒、50秒、1分钟、2分钟等。假设预设时长为1分钟,当前时刻为10:35:00,则第一时刻为10:34:00,预设时间段为10:34:00至10:35:00之间的一分钟。获取10:34:00至10:35:00之间终端显示屏上显示的内容。假设10:34:00至10:35:00之间终端运行一个电影app,则可以确定与终端显示屏上显示的内容相关联的场景为电影场景,则当前场景为电影场景。
数据库中事先已经存储了多个场景构成的场景列表,以及每个场景所对应的词语集合。假设当前场景为电影场景,则将电影场景所对应的词语集合(第一词语集合中第一子集)中的每个词语的权重调高,假设将电影场景所对应的词语集合中的每个词语的权重都乘以3(预设比例系数)。假设接收到的语音信号是“lu yao zhi ma li”。在调整权重后的第一词语集合中查找与接收到的语音信号“lu yao zhi ma li”相关联的第二子集,假设查找到的第二子集是{路遥知马力,陆垚知马俐}且“路遥知马力”的权重是1,“陆垚知马俐”的权重是1.8,则第二子集中权重最大的词语是“陆垚知马俐”,“陆垚知马俐”即为目标词语。将“陆垚知马俐”作为识别语音信号“lu yao zhi ma li”的识别结果。
可选地,根据场景与显示内容的关联关系查找与预设时间段内终端显示屏上显示的内容相关联的场景的过程如下:根据场景与显示内容的关联关系查找与终端显示屏上显示的元素相关联的场景,其中,终端显示屏上显示的元素包括以下至少之一:终端运行的应用程序、终端显示屏显示的文字、终端显示屏显示的图片、通话记录、聊天内容和终端显示屏显示的网页。
终端显示屏上显示的内容可以为以下任意一个或者多个元素:终端运行的应用程序、终端显示屏显示的文字、终端显示屏显示的图片、通话记录、聊天内容和终端显示屏显示的网页。这些元素都能够表明用户发出语音信号的同时,用户最近一段时间在对终端进行什么操作或者最近一段时间与其他用户交流什么,根据用户最近一段时间对终端进行的操作和最近一段时间与其他用户交流的内容能够判断出用户的感兴趣的方面,从而判断出当前场景是什么。
可选地,在调整权重后的第一词语集合中查找与接收到的语音信号相关联的第二子集的过程如下:获取语音信号序列的读音,其中,语音信号序列包括一个或者多个语音信号;按照语音信号序列的读音对语音信号序列进行分词,得到N个语音信号;在调整权重后的第一词语集合中查找与第i个语音信号对应的词语,其中,i依次取1至N;将第i个语音信号对应的词语的集合作为第i个语音信号关联的第二子集。
用户发出的语音信息可以是一个词语(语音信号),也可以是多个词语(语音信号序列)。如果用户发出的语音信息是语音信号序列,则按照语音信号序列的读音对语音信号序列进行分词,得到N个语音信号。例如,用户发出语音信号序列“wo xi huan xiao mao”,则按照读音,对语音信号序列“wo xi huan xiao mao”进行分词,得到3个语音信号,其中,第1个语音信号是“wo”、第2个语音信号是“xi huan”、第3个语音信号是“xiao mao”。在调整权重后的第一词语集合中查找与第1个语音信号“wo”对应的词语,得到第1个语音信号关联的第二子集,假设为{我,卧,喔,握,窝}。假设第1个语音信号关联的第二子集中权重最大的词语(目标词语)是“我”,则识别第1个语音信号是“wo”的识别结果是词语“我”。在调整权重后的第一词语集合中查找与第2个语音信号“xi huan”对应的词语,得到第2个语音信号关联的第二子集,假设为{西环,喜欢}。假设第2个语音信号关联的第二子集中权重最大的词语(目标词语)是“喜欢”,则识别第2个语音信号是“xi huan”的识别结果是词语“喜欢”。在调整权重后的第一词语集合中查找与第3个语音信号“xiao mao”对应的词语,得到第3个语音信号关联的第二子集,假设为{小猫,小毛,小帽,小茂,笑貌,校貌}。假设第3个语音信号关联的第二子集中权重最大的词语(目标词语)是“小猫”,则识别第3个语音信号是“xiaomao”的识别结果是词语“小猫”。识别用户发出语音信号序列“wo xi huan xiao mao”的识别结果是“我喜欢小猫”。
图3是根据本发明实施例的另一种语音识别方法的示意图,如图3所示,执行该方法的过程如下:
用户的设备具有屏幕(显示屏)。用户使用设备的语音功能时,捕获用户的设备屏幕上的内容(终端显示屏上所显示的内容),包括屏幕上当前显示的内容、屏幕上最近一段时间显示的内容,内容类型包括但不限于:运行的app、显示的文字、显示的网页、聊天内容、显示的图片、通话记录等。
用户的设备将设备显示屏上所显示的内容发送给用户场景解析模块(位于服务器中),用户的设备将接收到的用户发出的语音发送给语音解析模块(位于服务器中)。用户场景解析模块中存储了显示屏上显示的内容与场景之间的对应关系,用户场景解析模块从对应关系中查找显示屏当前显示的内容对应的场景,即当前场景。例如用户的设备运行的是一个电影评论的app,同时显示的文字中也包含了“这部电影怎么样”相关文字,可以确认用户当前场景是一个电影场景。
用户场景解析模块将当前场景信息发送给语音解析模块。
语音解析模块存储着以下内容:1.文字发音,2.词语列表,3.场景列表,4.词语和场景的对应关系。场景列表中记录着不同的场景,每个词语都会对应到一个或者多个场景。语音解析模块接收用户场景解析模块发送的当前场景信息,获取对应于当前场景的词语列表(第一子集)。第一子集中每个词语的场景属性与当前场景一致,因此,应该将第一子集中的词语的重要程度调高,可以通过调整第一子集中词语的权重的方式突出第一子集中的词语的重要性。提升第一子集中的词语的重要性的方法可以有以下两种:方法一、调高第一子集中每个词语的权重,例如,将第一子集中每个词语的权重乘以预设比例系数,得到调整后的权重,其中,预设比例系数大于1;或者,将第一子集中每个词语的权重加上预设值,得到调整后的权重,其中,预设值大于0。方法二、降低第一词语集合中除第一子集以外的所有词语的权重。语音解析模块解析语音信息,根据文字读音以及词语权重进行匹配,即,在调整权重后的第一词语集合中查找与接收到的语音信号相关联的第二子集,将第二子集中权重最大的词语作为目标词语,即作为语音识别的识别结果。
在本发明实施例中,用户使用语音识别功能时,会自动根据用户设备显示屏上所显示的内容,确定对应的场景,然后根据不同的场景,调整不同词语的权重,解析出最匹配当前场景的文字,通过对额外信息(显示屏上所显示的内容)的获取和分析,更加准确地识别出语音的含义,即对应的文字,提高用户不同场景下语音识别的准确率,提升用户体验。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
根据本发明实施例,还提供了一种用于实施上述语音识别方法的语音识别装置,如图4所示,该装置包括:第一确定单元10、调整单元20、第一查找单元30、选择单元40、第二确定单元50。
第一确定单元10,用于根据终端显示屏上所显示的内容确定当前场景。
调整单元20,用于根据当前场景调整第一词语集合中第一子集中每个词语的权重,其中,第一子集的场景属性所指示的场景与当前场景一致。
第一查找单元30,用于在调整权重后的第一词语集合中查找与接收到的语音信号相关联的第二子集,其中,第二子集包括至少一个词语。
选择单元40,用于按照第二子集中每个词语的权重从第二子集中选择权重最大的词语作为目标词语。
第二确定单元50,用于将目标词语作为识别语音信号的识别结果。
可选地,调整单元20包括:调整子单元。调整子单元,用于将第一子集中每个词语的权重乘以预设比例系数,得到调整后的权重,其中,预设比例系数大于1。
可选地,装置还包括:获取单元、第二查找单元、第三确定单元。获取单元,用于在调整单元20根据当前场景调整第一词语集合中第一子集中每个词语的权重之前,获取第一词语集合中每个词语的场景属性。第二查找单元,用于从第一词语集合中查找场景属性所指示的场景为当前场景的词语。第三确定单元,用于将查找到的词语的集合作为第一子集。
可选地,第一确定单元10包括:第一获取子单元、第一查找子单元、第一确定子单元。第一获取子单元,用于获取预设时间段内终端显示屏上显示的内容,其中,预设时间段为第一时刻与当前时刻之间的预设时长,第一时刻早于当前时刻。第一查找子单元,用于根据场景与显示内容的关联关系查找与预设时间段内终端显示屏上显示的内容相关联的场景。第一确定子单元,用于将查找到的场景作为当前场景。
可选地,第一查找子单元包括查找模块。查找模块,用于根据场景与显示内容的关联关系查找与终端显示屏上显示的元素相关联的场景,其中,终端显示屏上显示的元素包括以下至少之一:终端运行的应用程序、终端显示屏显示的文字、终端显示屏显示的图片、通话记录、聊天内容和终端显示屏显示的网页。
可选地,第一查找单元30包括:第二获取子单元、分词子单元、第二查找子单元、第二确定子单元。第二获取子单元,用于获取语音信号序列的读音,其中,语音信号序列包括一个或者多个语音信号。分词子单元,用于按照语音信号序列的读音对语音信号序列进行分词,得到N个语音信号。第二查找子单元,用于在调整权重后的第一词语集合中查找与第i个语音信号对应的词语,其中,i依次取1至N。第二确定子单元,用于将第i个语音信号对应的词语的集合作为第i个语音信号关联的第二子集。
根据本发明实施例,还提供了一种用于实施上述语音识别方法的服务器,如图5所示,该服务器主要包括处理器501、显示器503、数据接口504、存储器505和网络接口506,其中:
数据接口504则主要通过数据传输的方式将传输给处理器501。
存储器505主要用于存储第一词语集合、文字发音、场景列表、词语和场景的对应关系、目标词语。
网络接口506主要用于与终端和其他服务器进行网络通信。
显示器503主要用于显示第一词语集合、文字发音、场景列表、词语和场景的对应关系、目标词语。
处理器501主要用于执行如下操作:
根据终端显示屏上所显示的内容确定当前场景;根据所述当前场景调整第一词语集合中第一子集中每个词语的权重,其中,所述第一子集的场景属性所指示的场景与所述当前场景一致;在调整权重后的所述第一词语集合中查找与接收到的语音信号相关联的第二子集,其中,所述第二子集包括至少一个词语;按照所述第二子集中每个词语的权重从所述第二子集中选择权重最大的词语作为目标词语;将所述目标词语作为识别所述语音信号的识别结果。
处理器501还用于执行:将所述第一子集中每个词语的权重乘以预设比例系数,得到调整后的权重,其中,所述预设比例系数大于1。
处理器501还用于执行:获取所述第一词语集合中每个词语的场景属性;从所述第一词语集合中查找场景属性所指示的场景为所述当前场景的词语;将查找到的词语的集合作为所述第一子集。
处理器501还用于执行:获取预设时间段内终端显示屏上显示的内容,其中,所述预设时间段为第一时刻与当前时刻之间的预设时长,所述第一时刻早于所述当前时刻;根据场景与显示内容的关联关系查找与所述预设时间段内所述终端显示屏上显示的内容相关联的场景;将查找到的场景作为所述当前场景。
处理器501还用于执行:根据所述场景与显示内容的关联关系查找与所述终端显示屏上显示的元素相关联的场景,其中,所述终端显示屏上显示的元素包括以下至少之一:终端运行的应用程序、终端显示屏显示的文字、终端显示屏显示的图片、通话记录、聊天内容和终端显示屏显示的网页。
处理器501还用于执行:获取语音信号序列的读音,其中,所述语音信号序列包括一个或者多个所述语音信号;按照所述语音信号序列的读音对所述语音信号序列进行分词,得到N个所述语音信号;在调整权重后的所述第一词语集合中查找与第i个语音信号对应的词语,其中,i依次取1至N;将所述第i个语音信号对应的词语的集合作为所述第i个语音信号关联的第二子集。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于存储本发明实施例的语音识别方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于移动通信网络、广域网、城域网或局域网的网络中的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,根据终端显示屏上所显示的内容确定当前场景;
S2,根据所述当前场景调整第一词语集合中第一子集中每个词语的权重,其中,所述第一子集的场景属性所指示的场景与所述当前场景一致;
S3,在调整权重后的所述第一词语集合中查找与接收到的语音信号相关联的第二子集,其中,所述第二子集包括至少一个词语;
S4,按照所述第二子集中每个词语的权重从所述第二子集中选择权重最大的词语作为目标词语;
S5,将所述目标词语作为识别所述语音信号的识别结果。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:将所述第一子集中每个词语的权重乘以预设比例系数,得到调整后的权重,其中,所述预设比例系数大于1。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:获取所述第一词语集合中每个词语的场景属性;从所述第一词语集合中查找场景属性所指示的场景为所述当前场景的词语;将查找到的词语的集合作为所述第一子集。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:获取预设时间段内终端显示屏上显示的内容,其中,所述预设时间段为第一时刻与当前时刻之间的预设时长,所述第一时刻早于所述当前时刻;根据场景与显示内容的关联关系查找与所述预设时间段内所述终端显示屏上显示的内容相关联的场景;将查找到的场景作为所述当前场景。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:根据所述场景与显示内容的关联关系查找与所述终端显示屏上显示的元素相关联的场景,其中,所述终端显示屏上显示的元素包括以下至少之一:终端运行的应用程序、终端显示屏显示的文字、终端显示屏显示的图片、通话记录、聊天内容和终端显示屏显示的网页。
可选地,在本实施例中,处理器根据存储介质中已存储的程序代码执行:获取语音信号序列的读音,其中,所述语音信号序列包括一个或者多个所述语音信号;按照所述语音信号序列的读音对所述语音信号序列进行分词,得到N个所述语音信号;在调整权重后的所述第一词语集合中查找与第i个语音信号对应的词语,其中,i依次取1至N;将所述第i个语音信号对应的词语的集合作为所述第i个语音信号关联的第二子集。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种语音识别方法,其特征在于,包括:
根据终端显示屏上所显示的内容确定当前场景;
根据所述当前场景调整第一词语集合中第一子集中每个词语的权重,其中,所述第一子集的场景属性所指示的场景与所述当前场景一致;
在调整权重后的所述第一词语集合中查找与接收到的语音信号相关联的第二子集,其中,所述第二子集包括至少一个词语;
按照所述第二子集中每个词语的权重从所述第二子集中选择权重最大的词语作为目标词语;
将所述目标词语作为识别所述语音信号的识别结果。
2.根据权利要求1所述的方法,其特征在于,根据所述当前场景调整第一词语集合中第一子集中每个词语的权重包括:
将所述第一子集中每个词语的权重乘以预设比例系数,得到调整后的权重,其中,所述预设比例系数大于1。
3.根据权利要求1所述的方法,其特征在于,在根据所述当前场景调整第一词语集合中第一子集中每个词语的权重之前,所述方法还包括:
获取所述第一词语集合中每个词语的场景属性;
从所述第一词语集合中查找场景属性所指示的场景为所述当前场景的词语;
将查找到的词语的集合作为所述第一子集。
4.根据权利要求1所述的方法,其特征在于,根据终端显示屏上所显示的内容确定当前场景包括:
获取预设时间段内终端显示屏上显示的内容,其中,所述预设时间段为第一时刻与当前时刻之间的预设时长,所述第一时刻早于所述当前时刻;
根据场景与显示内容的关联关系查找与所述预设时间段内所述终端显示屏上显示的内容相关联的场景;
将查找到的场景作为所述当前场景。
5.根据权利要求4所述的方法,其特征在于,根据场景与显示内容的关联关系查找与所述预设时间段内所述终端显示屏上显示的内容相关联的场景包括:
根据所述场景与显示内容的关联关系查找与所述终端显示屏上显示的元素相关联的场景,其中,所述终端显示屏上显示的元素包括以下至少之一:终端运行的应用程序、终端显示屏显示的文字、终端显示屏显示的图片、通话记录、聊天内容和终端显示屏显示的网页。
6.根据权利要求1所述的方法,其特征在于,在调整权重后的所述第一词语集合中查找与接收到的语音信号相关联的第二子集包括:
获取语音信号序列的读音,其中,所述语音信号序列包括一个或者多个所述语音信号;
按照所述语音信号序列的读音对所述语音信号序列进行分词,得到N个所述语音信号;
在调整权重后的所述第一词语集合中查找与第i个语音信号对应的词语,其中,i依次取1至N;
将所述第i个语音信号对应的词语的集合作为所述第i个语音信号关联的第二子集。
7.一种语音识别装置,其特征在于,包括:
第一确定单元,用于根据终端显示屏上所显示的内容确定当前场景;
调整单元,用于根据所述当前场景调整第一词语集合中第一子集中每个词语的权重,其中,所述第一子集的场景属性所指示的场景与所述当前场景一致;
第一查找单元,用于在调整权重后的所述第一词语集合中查找与接收到的语音信号相关联的第二子集,其中,所述第二子集包括至少一个词语;
选择单元,用于按照所述第二子集中每个词语的权重从所述第二子集中选择权重最大的词语作为目标词语;
第二确定单元,用于将所述目标词语作为识别所述语音信号的识别结果。
8.根据权利要求7所述的装置,其特征在于,调整单元包括:
调整子单元,用于将所述第一子集中每个词语的权重乘以预设比例系数,得到调整后的权重,其中,所述预设比例系数大于1。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
获取单元,用于在所述调整单元根据所述当前场景调整第一词语集合中第一子集中每个词语的权重之前,获取所述第一词语集合中每个词语的场景属性;
第二查找单元,用于从所述第一词语集合中查找场景属性所指示的场景为所述当前场景的词语;
第三确定单元,用于将查找到的词语的集合作为所述第一子集。
10.根据权利要求7所述的装置,其特征在于,所述第一确定单元包括:
第一获取子单元,用于获取预设时间段内终端显示屏上显示的内容,其中,所述预设时间段为第一时刻与当前时刻之间的预设时长,所述第一时刻早于所述当前时刻;
第一查找子单元,用于根据场景与显示内容的关联关系查找与所述预设时间段内所述终端显示屏上显示的内容相关联的场景;
第一确定子单元,用于将查找到的场景作为所述当前场景。
11.根据权利要求10所述的装置,其特征在于,所述第一查找子单元包括:
查找模块,用于根据所述场景与显示内容的关联关系查找与所述终端显示屏上显示的元素相关联的场景,其中,所述终端显示屏上显示的元素包括以下至少之一:终端运行的应用程序、终端显示屏显示的文字、终端显示屏显示的图片、通话记录、聊天内容和终端显示屏显示的网页。
12.根据权利要求7所述的装置,其特征在于,所述第一查找单元包括:
第二获取子单元,用于获取语音信号序列的读音,其中,所述语音信号序列包括一个或者多个所述语音信号;
分词子单元,用于按照所述语音信号序列的读音对所述语音信号序列进行分词,得到N个所述语音信号;
第二查找子单元,用于在调整权重后的所述第一词语集合中查找与第i个语音信号对应的词语,其中,i依次取1至N;
第二确定子单元,用于将所述第i个语音信号对应的词语的集合作为所述第i个语音信号关联的第二子集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610971444.9A CN106356056B (zh) | 2016-10-28 | 2016-10-28 | 语音识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610971444.9A CN106356056B (zh) | 2016-10-28 | 2016-10-28 | 语音识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106356056A CN106356056A (zh) | 2017-01-25 |
CN106356056B true CN106356056B (zh) | 2017-12-01 |
Family
ID=57865196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610971444.9A Active CN106356056B (zh) | 2016-10-28 | 2016-10-28 | 语音识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106356056B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399919A (zh) * | 2017-02-06 | 2018-08-14 | 中兴通讯股份有限公司 | 一种语义识别方法和装置 |
CN110110049A (zh) * | 2017-12-29 | 2019-08-09 | 深圳市优必选科技有限公司 | 服务咨询方法、装置、系统、服务机器人及存储介质 |
CN109976702A (zh) * | 2019-03-20 | 2019-07-05 | 青岛海信电器股份有限公司 | 一种语音识别方法、装置及终端 |
CN113539271A (zh) * | 2021-07-23 | 2021-10-22 | 北京梧桐车联科技有限责任公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102867511A (zh) * | 2011-07-04 | 2013-01-09 | 余喆 | 自然语音识别方法和装置 |
CN104423552A (zh) * | 2013-09-03 | 2015-03-18 | 联想(北京)有限公司 | 一种处理信息的方法和电子设备 |
CN104699676A (zh) * | 2013-12-04 | 2015-06-10 | 中国电信股份有限公司 | 基于语音识别的信息搜索方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7272555B2 (en) * | 2001-09-13 | 2007-09-18 | Industrial Technology Research Institute | Fine granularity scalability speech coding for multi-pulses CELP-based algorithm |
-
2016
- 2016-10-28 CN CN201610971444.9A patent/CN106356056B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102867511A (zh) * | 2011-07-04 | 2013-01-09 | 余喆 | 自然语音识别方法和装置 |
CN104423552A (zh) * | 2013-09-03 | 2015-03-18 | 联想(北京)有限公司 | 一种处理信息的方法和电子设备 |
CN104699676A (zh) * | 2013-12-04 | 2015-06-10 | 中国电信股份有限公司 | 基于语音识别的信息搜索方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106356056A (zh) | 2017-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106356056B (zh) | 语音识别方法和装置 | |
CN107797984B (zh) | 智能交互方法、设备及存储介质 | |
CN105391730B (zh) | 一种信息反馈方法、装置及系统 | |
CN107832286A (zh) | 智能交互方法、设备及存储介质 | |
CN105912692B (zh) | 一种智能语音对话的方法和装置 | |
CN106407178A (zh) | 一种会话摘要生成方法及装置 | |
US9720982B2 (en) | Method and apparatus for natural language search for variables | |
CN111833871A (zh) | 基于意图识别的智能外呼系统及其方法 | |
US11682393B2 (en) | Method and system for context association and personalization using a wake-word in virtual personal assistants | |
CN107844470B (zh) | 一种语音数据处理方法及其设备 | |
CN110138980B (zh) | 一种智能外呼方法、装置、存储介质和服务器 | |
CN107943914A (zh) | 语音信息处理方法和装置 | |
CN110265013A (zh) | 语音的识别方法及装置、计算机设备、存储介质 | |
CN111696556A (zh) | 一种分析用户对话情绪方法、系统、设备和存储介质 | |
CN108038243A (zh) | 音乐推荐方法、装置、存储介质及电子设备 | |
CN108595609A (zh) | 基于人物ip的机器人回复生成方法、系统、介质及设备 | |
CN111344717A (zh) | 交互行为预测方法、智能装置和计算机可读存储介质 | |
CN111563151A (zh) | 一种信息采集的方法、会话配置的方法、装置及存储介质 | |
JP2023535108A (ja) | ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN110347901A (zh) | 一种搜索方法以及一种应用该方法的电子装置 | |
CN109002434A (zh) | 客服问答匹配方法、服务器及存储介质 | |
CN106126714A (zh) | 信息处理方法及信息处理装置 | |
CN110489519B (zh) | 基于会话预测模型的会话方法及相关产品 | |
CN110910898B (zh) | 一种语音信息处理的方法和装置 | |
CN104038637B (zh) | 一种铃声播放方法、装置及移动终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210918 Address after: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. Patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd. Address before: 2, 518000, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. |