CN110047467B - 语音识别方法、装置、存储介质及控制终端 - Google Patents
语音识别方法、装置、存储介质及控制终端 Download PDFInfo
- Publication number
- CN110047467B CN110047467B CN201910381112.9A CN201910381112A CN110047467B CN 110047467 B CN110047467 B CN 110047467B CN 201910381112 A CN201910381112 A CN 201910381112A CN 110047467 B CN110047467 B CN 110047467B
- Authority
- CN
- China
- Prior art keywords
- user
- words
- voice
- recognition
- personal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims abstract description 18
- 230000014509 gene expression Effects 0.000 claims description 54
- 230000015654 memory Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 description 11
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000008542 feiji Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及语音识别领域,具体涉及一种汽车故障解决方法、装置、存储介质及汽车控制终端,所述方法包括:接收用户发出的语音;获取所述用户的个人语音特征,使用所述用户的个人语音特征对所述语音进行切词处理,得到语音包含的识别词;基于所述识别词从所述用户的个人词库中进行匹配,得到所述识别词对应的标准词;所述个人词库用于存储识别词与标准词的对应关系;根据所述标准词识别所述用户的语音的语义。本申请解决用户不标准的语音可能导致无法识别的问题,提高语音识别的准确率及效率。
Description
技术领域
本申请涉及语音识别领域,具体涉及一种语音识别方法、装置、存储介质及控制终端。
背景技术
随着互联网技术的发展,汽车产业也基于互联网技术开发出更多利于车辆驾驶的功能,包括语音控制功能、定速巡航功能、自动驾驶功能等,语音控制功能需要对用户发出的语音进行准确、有效的识别,而目前,语音控制功能大多以标准的语音词库对用户发出的语音进行识别,从标准的语音词库中匹配用户发出的语音的关键词,然后对用户发出的语音进行语义分析,确定用户语音的含义,然而,基于标准的语音词库对用户的语音进行识别存在以下问题,一方面是标准的语音词库中不存在用户发出的语音的词,导致语音识别不准确的问题,另一方面是标准的语音词库存在大量的干扰信息如大量的具备各种语言特色的词语,导致语音识别效率不高的问题。
发明内容
为克服以上技术问题,特别是现有技术无法准确、高效地解决语音识别的问题,特提出以下技术方案:
第一方面,本申请提供了一种语音识别方法,包括:
接收用户发出的语音;
获取所述用户的个人语音特征,使用所述用户的个人语音特征对所述语音进行切词处理,得到语音包含的识别词;
基于所述识别词从所述用户的个人词库中进行匹配,得到所述识别词对应的标准词;所述个人词库用于存储识别词与标准词的对应关系;
根据所述标准词识别所述用户的语音的语义。
进一步的,所述获取所述用户的个人语音特征,包括:
获取用户的身份识别信息,根据所述身份识别信息在特征数据库中查找所述用户的身份识别信息对应的个人语音特征。
进一步的,所述特征数据库通过以下方法生成:
获取用户录入的语音,基于用户录入的语音获取用户语音的表达特征;所述表达特征包括语速特征、声调特征、方言特征;
生成特征数据库,将所述表达特征作为用户的个人语音特征存储至特征数据库。
进一步的,所述获取所述用户的个人语音特征,包括:
获取用户发出的语音的表达特征,根据所述表达特征在特征数据库中查找最接近的表达特征,作为用户的个人语音特征;所述表达特征包括语速特征、声调特征、方言特征。
进一步的,所述个人词库通过以下方法生成:
获取用户录入的语音,基于用户录入的语音获取用户语音的表达特征;
使用所述用户语音的表达特征对所述语音进行切词处理,得到语音包含的识别词;
获取与所述识别词具有相同含义的标准词,将所述识别词与对应的标准词进行绑定,生成用户的个人词库。
进一步的,所述生成用户的个人词库之后,还包括:
获取用户的个人词库中已绑定的若干组识别词及对应的标准词;
根据所述若干组识别词及对应的标准词确定用户的个人发音特征;
获取标准词集合中的除所述已绑定的标准词外的其他标准词,根据所述用户的个人发音特征生成所述其他标准词的识别词,将所述生成的识别词与对应的标准词进行绑定;并存储至用户的个人词库。
进一步的,所述根据所述用户的个人发音特征生成所述其他标准词的识别词,将所述生成的识别词与对应的标准词进行绑定,包括:
获取用户的地域特征,结合用户的地域特征及个人发音特征生成所述其他标准词的识别词,将所述生成的识别词与对应的标准词进行绑定。
进一步的,所述基于所述识别词从所述用户的个人词库中进行匹配,得到所述识别词对应的标准词,包括:
基于所述识别词从所述用户的个人词库中进行匹配,得到与所述识别词对应的若干个标准词;
从所述若干个标准词中选择具有驾驶术语标识的标准词。
进一步的,所述基于所述识别词从所述用户的个人词库中进行匹配,得到所述识别词对应的标准词,包括:
基于所述识别词从所述用户的个人词库中进行匹配,得到与所述识别词对应的若干个标准词;
获取车辆当前行驶状态,从所述若干个标准词中选取符合所述当前行驶状态的安全驾驶的标准词。
第二方面,本申请提供一种语音识别装置,包括:
接收模块:用于接收用户发出的语音;
处理模块:用于获取所述用户的个人语音特征,使用所述用户的个人语音特征对所述语音进行切词处理,得到语音包含的识别词;
匹配模块:用于基于所述识别词从所述用户的个人词库中进行匹配,得到所述识别词对应的标准词;所述个人词库用于存储识别词与标准词的对应关系;
识别模块:用于根据所述标准词识别所述用户的语音的语义。
第三方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述的语音识别方法。
第四方面,本申请还提供了一种控制终端,所述控制终端包括一个或多个处理器、存储器、一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行上述的语音识别方法。
本申请与现有技术相比,具有以下有益效果:
本申请提供了一种基于不同用户说话时具有的不同的个人语音特征对用户发出的语音进行个性化识别的方法,在接收用户发出的语音后,获取所述用户的个人语音特征,使用所述用户的个人语音特征对所述语音进行切词处理,得到语音包含的识别词,基于具有独特性的个人语音特征能够更准确、高效地对用户发出的语音进行识别,得到同样具有个人语音特征的识别词,再基于所述识别词从所述用户的个人词库中进行匹配,得到所述识别词对应的标准词,所述标准词即是词语的正常发音或是专业术语或是特定领域的用语,在得到用户语音的标准词后,便能够根据所述标准词准确地判断每个词、词语所表达的含义,并利用组词识别对所述词、词语进行组合识别,从而识别所述用户发出的语音的语义,基于不同用户的不同语音特征准确、快速地对用户的语音进行识别,确定用户语音的语义,解决用户不标准的语音可能导致无法识别的问题,提高语音识别的准确率及效率。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请语音识别方法的一实施例流程示意图;
图2为本申请语音识别方法的另一实施例流程示意图;
图3为本申请语音识别方法的又一实施例流程示意图;
图4为本申请语音识别装置的一实施例示意图;
图5为本申请控制终端的一实施例结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本申请实施例提供一种语音识别方法,如图1所示,所述方法包括以下步骤:
S10:接收用户发出的语音。
本实施例可以应用于车载语音助手中,通过车载语音助手实现人、机、车的交互与控制,本实施例中,车载语音助手实时监测用户发出的语音,接收用户发出的语音。
S20:获取所述用户的个人语音特征,使用所述用户的个人语音特征对所述语音进行切词处理,得到语音包含的识别词。
在接收到用户发出的语音后,为了更好地识别用户发出的语音的语义,本实施例中,获取所述用户的个人语音特征,使用所述用户的个人语音特征对所述语音进行切词处理,得到语音包含的识别词,由于不同用户的个人语音特征不同,针对不同用户的语音以不同的个人语音特征对所接收到的语音进行切词处理,尤其是对所接收到的长句语音进行切词处理,例如利用正向(或逆向)最大匹配法对语音进行切词处理,或利用最少切分法对语音进行切词处理,得到该用户的语音中包含的词或词组,由于不同用户的语音具有各自独特的个人语音特征,本实施例将使用用户的个人语音特征对语音进行切词处理得到语音包含的词定义为识别词,所述识别词并非能够书面写出的词语,可以通过特定的标识/符号表示所述识别词,例如所述识别词为“huiji”、“xhache”。
S30:基于所述识别词从所述用户的个人词库中进行匹配,得到所述识别词对应的标准词;所述个人词库用于存储识别词与标准词的对应关系;
在得到用户的语音中包含的识别词后,基于所述识别词从用户的个人词库中进行匹配,用户个人词库中存储了具有用户个人语音特征的识别词以及该些识别词对应的标准词,同时还存储有未具有识别词的标准词,所述标准词即是词语的正常发音或是专业术语或是特定领域的用语,从所述个人词库中进行匹配得到所述识别词对应的标准词。
S40:根据所述标准词识别所述用户的语音的语义。
本实施例中,在得到用户语音的标准词后,便能够根据所述标准词准确地判断每个词、词语所表达的含义,并利用组词识别对所述词、词语进行组合识别,从而识别所述用户发出的语音的语义,基于不同用户的不同语音特征准确、快速地对用户的语音进行识别,确定用户语音的语义。
本实施例提供了一种基于不同用户说话时具有的不同的个人语音特征对用户发出的语音进行个性化识别的方法,在接收用户发出的语音后,获取所述用户的个人语音特征,使用所述用户的个人语音特征对所述语音进行切词处理,得到语音包含的识别词,基于具有独特性的个人语音特征能够更准确、高效地对用户发出的语音进行识别,得到同样具有个人语音特征的识别词,再基于所述识别词从所述用户的个人词库中进行匹配,得到所述识别词对应的标准词,所述标准词即是词语的正常发音或是专业术语或是特定领域的用语,在得到用户语音的标准词后,便能够根据所述标准词准确地判断每个词、词语所表达的含义,并利用组词识别对所述词、词语进行组合识别,从而识别所述用户发出的语音的语义,基于不同用户的不同语音特征准确、快速地对用户的语音进行识别,确定用户语音的语义,解决用户不标准的语音可能导致无法识别的问题,提高语音识别的准确率及效率。
本申请的一种实施例,所述获取所述用户的个人语音特征,包括:
获取用户的身份识别信息,根据所述身份识别信息在特征数据库中查找所述用户的身份识别信息对应的个人语音特征。
在接收到用户发出的语音后,需要获取用户的个人语音特征,而在不同场景下获取个人语音特征的方式不同,本实施例中,通过获取用户的身份识别信息,然后根据所述身份识别信息在特征数据库中查找所述用户的身份识别信息对应的个人语音特征,所述特征数据库存储有用户的身份识别信息与个人语音特征的对应关系,不同身份识别信息的用户具有不同的个人语音特征。本实施例的应用场景:①车辆X1为用户A的私家车辆,特征数据库中存储有用户A的个人语音特征,当用户A驾驶车辆X1时以其身份识别信息进行身份验证后,在车载语音助手接收到用户发出的语音时,便可认为是用户A发出的语音,此时通过用户A的身份识别信息在特征数据库中获取用户A的个人语音特征,然后使用用户A的个人语音特征对接收到的语音进行处理。②车辆X2为用户A、B、C共用的车辆,特征数据库中存储有用户A、B、C的个人语音特征,若用户A乘坐在车辆X2中并发出语音,在车载语音助手接收到用户发出的语音后,根据身份识别信息确定是用户A发出的语音,此时通过用户A的身份识别信息在特征数据库中获取用户A的个人语音特征,然后使用用户A的个人语音特征对接收到的语音进行处理;若用户B乘坐在车辆X2中并发出语音,在车载语音助手接收到用户发出的语音后,根据身份识别信息确定是用户B发出的语音,此时通过用户B的身份识别信息在特征数据库中获取用户B的个人语音特征,然后使用用户B的个人语音特征对接收到的语音进行处理。基于用户不同的个人语音特征,实现共用车辆时亦能够对不同用户的语音进行准确、快速地识别。
本申请的一种实施例,所述特征数据库通过以下方法生成:
获取用户录入的语音,基于用户录入的语音获取用户语音的表达特征;所述表达特征包括语速特征、声调特征、方言特征;
生成特征数据库,将所述表达特征作为用户的个人语音特征存储至特征数据库。
上述本实施例中特征数据库需要采集用户大量的语音进行分析、处理、总结,才能得到各个用户的个人语音特征,具体的,本实施例中通过获取用户录入的语音,基于用户录入的语音获取用户语音的表达特征,并且以语速、声调、方言等不同方面对用户的表达特征进行描述,确定用户说话的语速特征、声调特征及方言特征,然后生成特征数据库,将收集到的用户的表达特征作为用户的个人语音特征存储至特征数据库中,并且,通过不断的语音收集及技术改进,可以不断拓展用户的表达特征包含的类别,从而更好地确立不同用户的不同个人语音特征。
本申请的一种实施例,所述获取所述用户的个人语音特征,包括:
获取用户发出的语音的表达特征,根据所述表达特征在特征数据库中查找最接近的表达特征,作为用户的个人语音特征;所述表达特征包括语速特征、声调特征、方言特征。
在接收到用户发出的语音后,需要获取用户的个人语音特征,而在不同场景下获取个人语音特征的方式不同,本实施例中,当接收到用户发出的语音后,从语速、声调、方言等多方面识别用户发出的语音的表达特征,然后根据所述表达特征在特征数据库中查找最接近的表达特征,亦是从语速特征、声调特征、方言特征三方面匹配最接近的表达特征,作为该用户的个人语音特征,以便后续根据该用户的个人语音特征对接收到的语音进行处理。本实施例的应用场景:①车辆X3为展览车辆,特征数据库中存储有若干个用户的语音的表达特征,包括语速特征、声调特征、方言特征,当用户A体验车辆X3的车载语音助手时,则以用户A的语速特征、声调特征、方言特征在特征数据库匹配相应的语速特征、声调特征、方言特征,作为用户A的个人语音特征;当用户B体验车辆X3的车载语音助手时,则以用户B的语速特征、声调特征、方言特征在特征数据库匹配相应的语速特征、声调特征、方言特征,作为用户B的个人语音特征,再根据匹配到的个人语音特征对所述语音进行处理,从而保证在用户变化频率较高时仍然能够保持准确、快速的语音识别。
本申请的一种实施例,所述个人词库通过以下方法生成:
获取用户录入的语音,基于用户录入的语音获取用户语音的表达特征;
使用所述用户语音的表达特征对所述语音进行切词处理,得到语音包含的识别词;
获取与所述识别词具有相同含义的标准词,将所述识别词与对应的标准词进行绑定,生成用户的个人词库。
上述实施例所提及的个人词库需要采集用户大量的语音进行分析、处理、匹配,生成,才能得到各个用户的具备个人语音特征的个人词库,具体的,本实施例中,通过获取用户录入的语音,该录入的录音为用户长时间使用收集的语音或预先收集的语音,然后基于用户录入的语音获取用户语音的表达特征,同样的,所述表达特征包括语速特征、声调特征、方言特征,然后从语速特征、声调特征、方言特征等多方面的表达特征对用户录入的语音进行切词处理,得到语音包含的识别词,然后再通过校准,获取与所述识别词具有相同含义的标准词,将所述识别词与对应的标准词进行绑定,生成用户的个人词库,个人词库中既包括了具备用户本人的个人语音特征的识别词及对应的标准词,以及不具备识别词的其他标准词。例如用户A的个人词库中识别词“huiji”对应的标准词为“feiji”,识别词“hujian”对应的标准词为“fujian”;用户B的个人词库中识别词“helan”对应的标准词为“henan”。
本申请的一种实施例,所述生成用户的个人词库之后,还包括:
获取用户的个人词库中已绑定的若干组识别词及对应的标准词;
根据所述若干组识别词及对应的标准词确定用户的个人发音特征;
获取标准词集合中的除所述已绑定的标准词外的其他标准词,根据所述用户的个人发音特征生成所述其他标准词的识别词,将所述生成的识别词与对应的标准词进行绑定;并存储至用户的个人词库。
在生成了用户的个人词库后,需要不断丰富用户的个人词库,不仅通过收集用户的语音来丰富用户的个人词库,本实施例中,还通过归纳总结用户的发音特征来丰富用户的个人词库,具体的,获取用户的个人词库中已绑定的若干组识别词及对应的标准词,然后所述若干组识别词及对应的标准词归纳、总结出用户的个人发音特征,再获取标准词集合中的除所述已绑定的标准词外的其他标准词,所述标准词集合为由全体预置标准词组成的集合,包括已与识别词绑定的标准词,亦包括还未与识别词绑定的标准词,然后根据归纳总结得到的用户的个人发音特征生成其他标准词的识别词,再将生成的识别词与对应的标准词进行绑定;并存储至用户的个人词库。例如用户A的个人词库中识别词“huiji”与标准词“feiji”绑定,识别词“hujian”与标准词“fujian”绑定,通过已绑定的若干组识别词与标准词确定用户A的发音特征为“h”、“f”混淆,基于该发音特征生成识别词“huacai”及对应的标准词“facai”,然后将所述生成的识别词与对应的标准词进行绑定,并存储至用户的个人词库,从而不断丰富用户的个人词库,提高个人词库中的识别词的数量,从而提高对该用户的语音识别的准确率及效率。
本申请的一种实施例,根据所述用户的个人发音特征生成所述其他标准词的识别词,将所述生成的识别词与对应的标准词进行绑定,包括:
获取用户的地域特征,结合用户的地域特征及个人发音特征生成所述其他标准词的识别词,将所述生成的识别词与对应的标准词进行绑定。
考虑到同一地区的人的发音在一定程度上存在较高的相似性,本实施例中,在基于用户的发音特征生成个人词库中还未有标准词的识别词时,获取用户的地域特征,根据所述地域特征便能大致了解用户的发音特征,然后结合用户的地域特征及个人发音特征生成所述其他标准词的识别词,由于数据收集的有限性,基于此,用户的发音特征中未能体现的特征便能从地域特征中体现,然后将结合用户的地域特征及个人发音特征生成所的识别词与对应的标准词进行绑定,然后存储至用户个人词库中,从而不断丰富用户的个人词库,提高个人词库中的识别词的数量,从而提高对该用户的语音识别的准确率及效率。
本申请的一种实施例,如图2所示,所述基于所述识别词从所述用户的个人词库中进行匹配,得到所述识别词对应的标准词,包括:
S31:基于所述识别词从所述用户的个人词库中进行匹配,得到与所述识别词对应的若干个标准词;从所述若干个标准词中选择具有驾驶术语标识的标准词。
本实施例应用于驾驶场景中,当得到用户发出的语音包含的识别词后,基于所述识别词从所述用户的个人词库中进行匹配,得到与所述识别词对应的若干个标准词,然后从所述若干个标准词中选择具有驾驶术语标识的标准词,让所识别出的标准词能够更加契合实际驾驶场景,从而提高驾驶场景下的语音识别效率,进而提高驾驶场景下对车辆的语音控制。例如识别词“dahuo”对应的标准词包括“大伙”、“打火”、“打火机”、“打开发动机”,其中标准词“打开发动机”具有驾驶术语标识,本实施中,当接收到用户的语音中包含有识别词“dahuo”,则优先匹配的标准词为“打开发动机”,从而识别出用户语音的语义为“打开发动机”,从而提高对车辆进行控制的效率。
本申请的一种实施例,如图3所示,所述基于所述识别词从所述用户的个人词库中进行匹配,得到所述识别词对应的标准词,包括:
S32:基于所述识别词从所述用户的个人词库中进行匹配,得到与所述识别词对应的若干个标准词;获取车辆当前行驶状态,从所述若干个标准词中选取符合所述当前行驶状态的安全驾驶的标准词。
本实施例应用于驾驶场景中,当得到用户发出的语音包含的识别词后,基于所述识别词从所述用户的个人词库中进行匹配,得到与所述识别词对应的若干个标准词,再获取车辆当前行驶状态,然后从所述若干个标准词中选取符合所述当前行驶状态的安全驾驶的标准词,即选取符合在当前行驶状态下不影响车辆安全驾驶的标准词,保证后续车辆根据所述标准词进行响应的操作不影响行车安全。例如,识别词“xhache”对应的标准词包括“下车”、“刹车”,在车辆正常行驶的途中,当接收到用户的语音中包含有识别词“xhache”,则优先匹配的标准词为“刹车”,从而识别出用户语音的语义为“刹车”,在车辆正常行驶途中标准词“刹车”对应的动作符合车辆当前行驶状态的安全驾驶,从而提高语音识别的正确率,保证车辆的安全行驶。
如图3所示,在另一种实施例中,本申请提供了一种语音识别装置,包括:
接收模块10:用于接收用户发出的语音;
处理模块20:用于获取所述用户的个人语音特征,使用所述用户的个人语音特征对所述语音进行切词处理,得到语音包含的识别词;
匹配模块30:用于基于所述识别词从所述用户的个人词库中进行匹配,得到所述识别词对应的标准词;所述个人词库用于存储识别词与标准词的对应关系;
识别模块40:用于根据所述标准词识别所述用户的语音的语义。
本申请的一种实施例,所述处理模块20还包括执行;
获取用户的身份识别信息,根据所述身份识别信息在特征数据库中查找所述用户的身份识别信息对应的个人语音特征。
本申请的一种实施例,所述装置还包括:
特征数据库模块:用于获取用户录入的语音,基于用户录入的语音获取用户语音的表达特征;所述表达特征包括语速特征、声调特征、方言特征;生成特征数据库,将所述表达特征作为用户的个人语音特征存储至特征数据库。
本申请的一种实施例,所述处理模块20还包括执行:
取用户发出的语音的表达特征,根据所述表达特征在特征数据库中查找最接近的表达特征,作为用户的个人语音特征;所述表达特征包括语速特征、声调特征、方言特征。
本申请的一种实施例,所述装置还包括个人词库模块:
个人词库模块:用于获取用户录入的语音,基于用户录入的语音获取用户语音的表达特征;使用所述用户语音的表达特征对所述语音进行切词处理,得到语音包含的识别词;获取与所述识别词具有相同含义的标准词,将所述识别词与对应的标准词进行绑定,生成用户的个人词库。
本申请的一种实施例,所述个人词库模块还包括执行:
获取用户的个人词库中已绑定的若干组识别词及对应的标准词;
根据所述若干组识别词及对应的标准词确定用户的个人发音特征;
获取标准词集合中的除所述已绑定的标准词外的其他标准词,根据所述用户的个人发音特征生成所述其他标准词的识别词,将所述生成的识别词与对应的标准词进行绑定;并存储至用户的个人词库。
本申请的一种实施例,所述个人词库模块还包括执行:
获取用户的地域特征,结合用户的地域特征及个人发音特征生成所述其他标准词的识别词,将所述生成的识别词与对应的标准词进行绑定。
本申请的一种实施例,所述匹配模块30还包括执行:
基于所述识别词从所述用户的个人词库中进行匹配,得到与所述识别词对应的若干个标准词;
从所述若干个标准词中选择具有驾驶术语标识的标准词。
本申请的一种实施例,所述匹配模块30还包括执行:
基于所述识别词从所述用户的个人词库中进行匹配,得到与所述识别词对应的若干个标准词;
获取车辆当前行驶状态,从所述若干个标准词中选取符合所述当前行驶状态的安全驾驶的标准词。
在另一种实施例中,本申请提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例所述的语音识别方法。其中,所述计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AcceSS Memory,随即存储器)、EPROM(EraSable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储设备包括由设备(例如,计算机、手机)以能够读的形式存储或传输信息的任何介质,可以是只读存储器,磁盘或光盘等。
本申请实施例提供的一种计算机可读存储介质,可实现接收用户发出的语音;获取所述用户的个人语音特征,使用所述用户的个人语音特征对所述语音进行切词处理,得到语音包含的识别词;基于所述识别词从所述用户的个人词库中进行匹配,得到所述识别词对应的标准词;所述个人词库用于存储识别词与标准词的对应关系;根据所述标准词识别所述用户的语音的语义。通过提供一种基于不同用户说话时具有的不同的个人语音特征对用户发出的语音进行个性化识别的方法,在接收用户发出的语音后,获取所述用户的个人语音特征,使用所述用户的个人语音特征对所述语音进行切词处理,得到语音包含的识别词,基于具有独特性的个人语音特征能够更准确、高效地对用户发出的语音进行识别,得到同样具有个人语音特征的识别词,再基于所述识别词从所述用户的个人词库中进行匹配,得到所述识别词对应的标准词,所述标准词即是词语的正常发音或是专业术语或是特定领域的用语,在得到用户语音的标准词后,便能够根据所述标准词准确地判断每个词、词语所表达的含义,并利用组词识别对所述词、词语进行组合识别,从而识别所述用户发出的语音的语义,基于不同用户的不同语音特征准确、快速地对用户的语音进行识别,确定用户语音的语义,解决用户不标准的语音可能导致无法识别的问题,提高语音识别的准确率及效率。
本申请实施例提供的计算机可读存储介质可以实现上述语音识别方法的实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。
此外,在又一种实施例中,本申请还提供一种控制终端,如图5所示,所述控制终端包括处理器503、存储器505、输入单元507以及显示单元509等器件。本领域技术人员可以理解,图5示出的结构器件并不构成对所有控制终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件。所述存储器505可用于存储计算机程序501以及各功能模块,所述处理器503运行存储在存储器505的计算机程序501,从而执行设备的各种功能应用以及数据处理。所述存储器505可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。
输入单元507用于接收信号的输入及接收用户的输入,输入单元507可包括触控面板以及其它输入设备,触控面板可收集用户在其上或附近的触摸操作,并根据预先设定的程序驱动相应的连接装置。显示单元509可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元509可采用液晶显示器、有机发光二极管等形式。处理器503是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储器503内的软件程序和/或模块,以及调用存储在存储器内的数据,执行各种功能和处理数据。
在一种实施方式中,所述控制终端包括一个或多个处理器503,以及一个或多个存储器505,一个或多个计算机程序501,其中所述一个或多个计算机程序501被存储在存储器505中并被配置为由所述一个或多个处理器503执行,所述一个或多个计算机程序501配置用于执行以上实施例所述的语音识别方法。图5中所示的一个或多个处理器503能够执行、实现图4中所示的接收模块10、处理模块20、匹配模块30、识别模块40的功能。
本申请实施例提供的一种控制终端,可实现接收用户发出的语音;获取所述用户的个人语音特征,使用所述用户的个人语音特征对所述语音进行切词处理,得到语音包含的识别词;基于所述识别词从所述用户的个人词库中进行匹配,得到所述识别词对应的标准词;所述个人词库用于存储识别词与标准词的对应关系;根据所述标准词识别所述用户的语音的语义。通过提供一种基于不同用户说话时具有的不同的个人语音特征对用户发出的语音进行个性化识别的方法,在接收用户发出的语音后,获取所述用户的个人语音特征,使用所述用户的个人语音特征对所述语音进行切词处理,得到语音包含的识别词,基于具有独特性的个人语音特征能够更准确、高效地对用户发出的语音进行识别,得到同样具有个人语音特征的识别词,再基于所述识别词从所述用户的个人词库中进行匹配,得到所述识别词对应的标准词,所述标准词即是词语的正常发音或是专业术语或是特定领域的用语,在得到用户语音的标准词后,便能够根据所述标准词准确地判断每个词、词语所表达的含义,并利用组词识别对所述词、词语进行组合识别,从而识别所述用户发出的语音的语义,基于不同用户的不同语音特征准确、快速地对用户的语音进行识别,确定用户语音的语义,解决用户不标准的语音可能导致无法识别的问题,提高语音识别的准确率及效率。
本申请实施例提供的控制终端可以实现上述提供的语音识别方法的实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (9)
1.一种语音识别方法,其特征在于,包括以下步骤:
接收用户发出的语音;
获取所述用户的个人语音特征,使用所述用户的个人语音特征对所述语音进行切词处理,得到语音包含的识别词;其中,所述获取所述用户的个人语音特征,包括:获取用户发出的语音的表达特征,根据所述表达特征在特征数据库中查找最接近的表达特征,作为用户的个人语音特征;所述表达特征包括语速特征、声调特征、方言特征;
基于所述识别词从所述用户的个人词库中进行匹配,得到所述识别词对应的标准词,包括:基于所述识别词从所述用户的个人词库中进行匹配,得到与所述识别词对应的若干个标准词;从所述若干个标准词中选择具有驾驶术语标识的标准词,或者获取车辆当前行驶状态,从所述若干个标准词中选取符合所述当前行驶状态的安全驾驶的标准词;所述个人词库用于存储识别词与标准词的对应关系;其中,用户的个人词库中存储有具有用户个人语音特征的识别词、与识别词对应的标准词以及未具有识别词的标准词;所述标准词是词语的正常发音、专业术语或特定领域的用语;
根据所述标准词识别所述用户的语音的语义。
2.根据权利要求1所述的方法,其特征在于,所述获取所述用户的个人语音特征,包括:
获取用户的身份识别信息,根据所述身份识别信息在特征数据库中查找所述用户的身份识别信息对应的个人语音特征。
3.根据权利要求2所述的方法,其特征在于,所述特征数据库通过以下方法生成:
获取用户录入的语音,基于用户录入的语音获取用户语音的表达特征;所述表达特征包括语速特征、声调特征、方言特征;
生成特征数据库,将所述表达特征作为用户的个人语音特征存储至特征数据库。
4.根据权利要求1所述的方法,其特征在于,所述个人词库通过以下方法生成:
获取用户录入的语音,基于用户录入的语音获取用户语音的表达特征;
使用所述用户语音的表达特征对所述语音进行切词处理,得到语音包含的识别词;
获取与所述识别词具有相同含义的标准词,将所述识别词与对应的标准词进行绑定,生成用户的个人词库。
5.根据权利要求4所述的方法,其特征在于,所述生成用户的个人词库之后,还包括:
获取用户的个人词库中已绑定的若干组识别词及对应的标准词;
根据所述若干组识别词及对应的标准词确定用户的个人发音特征;
获取标准词集合中的除所述已绑定的标准词外的其他标准词,根据所述用户的个人发音特征生成所述其他标准词的识别词,将所述生成的识别词与对应的标准词进行绑定;并存储至用户的个人词库。
6.根据权利要求5所述的方法,其特征在于,所述根据所述用户的个人发音特征生成所述其他标准词的识别词,将所述生成的识别词与对应的标准词进行绑定,包括:
获取用户的地域特征,结合用户的地域特征及个人发音特征生成所述其他标准词的识别词,将所述生成的识别词与对应的标准词进行绑定。
7.一种语音识别装置,其特征在于,包括:
接收模块:用于接收用户发出的语音;
处理模块:用于获取所述用户的个人语音特征,使用所述用户的个人语音特征对所述语音进行切词处理,得到语音包含的识别词;其中,所述获取所述用户的个人语音特征,包括:获取用户发出的语音的表达特征,根据所述表达特征在特征数据库中查找最接近的表达特征,作为用户的个人语音特征;所述表达特征包括语速特征、声调特征、方言特征;
匹配模块:用于基于所述识别词从所述用户的个人词库中进行匹配,得到所述识别词对应的标准词,包括:基于所述识别词从所述用户的个人词库中进行匹配,得到与所述识别词对应的若干个标准词;从所述若干个标准词中选择具有驾驶术语标识的标准词,或者获取车辆当前行驶状态,从所述若干个标准词中选取符合所述当前行驶状态的安全驾驶的标准词;所述个人词库用于存储识别词与标准词的对应关系;其中,用户的个人词库中存储有具有用户个人语音特征的识别词、与识别词对应的标准词以及未具有识别词的标准词;所述标准词是词语的正常发音、专业术语或特定领域的用语;
识别模块:用于根据所述标准词识别所述用户的语音的语义。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一项所述的语音识别方法。
9.一种控制终端,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个计算机程序配置用于执行根据权利要求1至6任一项所述的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910381112.9A CN110047467B (zh) | 2019-05-08 | 2019-05-08 | 语音识别方法、装置、存储介质及控制终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910381112.9A CN110047467B (zh) | 2019-05-08 | 2019-05-08 | 语音识别方法、装置、存储介质及控制终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110047467A CN110047467A (zh) | 2019-07-23 |
CN110047467B true CN110047467B (zh) | 2021-09-03 |
Family
ID=67281290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910381112.9A Active CN110047467B (zh) | 2019-05-08 | 2019-05-08 | 语音识别方法、装置、存储介质及控制终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110047467B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110570199B (zh) * | 2019-07-24 | 2022-10-11 | 中国科学院信息工程研究所 | 一种基于用户输入行为的用户身份检测方法及系统 |
CN111583909B (zh) * | 2020-05-18 | 2024-04-12 | 科大讯飞股份有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN111723162B (zh) * | 2020-06-19 | 2023-08-25 | 北京小鹏汽车有限公司 | 词典处理方法、处理装置、服务器和语音交互系统 |
CN112102833B (zh) * | 2020-09-22 | 2023-12-12 | 阿波罗智联(北京)科技有限公司 | 语音识别方法、装置、设备及存储介质 |
CN112463927A (zh) * | 2020-12-09 | 2021-03-09 | 上海嗨酷强供应链信息技术有限公司 | 一种高效智能语义匹配方法 |
CN113035171B (zh) * | 2021-03-05 | 2022-09-02 | 随锐科技集团股份有限公司 | 语音识别处理方法及系统 |
CN113990299B (zh) * | 2021-12-24 | 2022-05-13 | 广州小鹏汽车科技有限公司 | 语音交互方法及其装置、服务器和可读存储介质 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103037117A (zh) * | 2011-09-29 | 2013-04-10 | 中国电信股份有限公司 | 语音识别方法、系统和语音接入平台 |
CN105872687A (zh) * | 2016-03-31 | 2016-08-17 | 乐视控股(北京)有限公司 | 一种通过语音控制智能设备的方法及装置 |
CN105895103A (zh) * | 2015-12-03 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 一种语音识别方法及装置 |
CN105931643A (zh) * | 2016-06-30 | 2016-09-07 | 北京海尔广科数字技术有限公司 | 语音识别方法及装置 |
CN106251859A (zh) * | 2016-07-22 | 2016-12-21 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN106469554A (zh) * | 2015-08-21 | 2017-03-01 | 科大讯飞股份有限公司 | 一种自适应的识别方法及系统 |
CN106537493A (zh) * | 2015-09-29 | 2017-03-22 | 深圳市全圣时代科技有限公司 | 语音识别系统及方法、客户端设备及云端服务器 |
CN106558307A (zh) * | 2015-09-17 | 2017-04-05 | 三星电子株式会社 | 智能对话处理设备、方法和系统 |
CN106847276A (zh) * | 2015-12-30 | 2017-06-13 | 昶洧新能源汽车发展有限公司 | 一种带方言识别的话音控制系统 |
CN107818781A (zh) * | 2017-09-11 | 2018-03-20 | 远光软件股份有限公司 | 智能交互方法、设备及存储介质 |
CN108172223A (zh) * | 2017-12-14 | 2018-06-15 | 深圳市欧瑞博科技有限公司 | 语音指令识别方法、装置及服务器和计算机可读存储介质 |
CN108682420A (zh) * | 2018-05-14 | 2018-10-19 | 平安科技(深圳)有限公司 | 一种音视频通话方言识别方法及终端设备 |
CN108733650A (zh) * | 2018-05-14 | 2018-11-02 | 科大讯飞股份有限公司 | 个性化词获取方法及装置 |
CN108766437A (zh) * | 2018-05-31 | 2018-11-06 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN109147793A (zh) * | 2018-08-17 | 2019-01-04 | 南京星邺汇捷网络科技有限公司 | 语音数据的处理方法、装置及系统 |
CN109346059A (zh) * | 2018-12-20 | 2019-02-15 | 广东小天才科技有限公司 | 一种方言语音的识别方法及电子设备 |
CN109360563A (zh) * | 2018-12-10 | 2019-02-19 | 珠海格力电器股份有限公司 | 一种语音控制方法、装置、存储介质及空调 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9947313B2 (en) * | 2015-01-26 | 2018-04-17 | William Drewes | Method for substantial ongoing cumulative voice recognition error reduction |
CN109147762A (zh) * | 2018-10-19 | 2019-01-04 | 广东小天才科技有限公司 | 一种语音识别方法及系统 |
-
2019
- 2019-05-08 CN CN201910381112.9A patent/CN110047467B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103037117A (zh) * | 2011-09-29 | 2013-04-10 | 中国电信股份有限公司 | 语音识别方法、系统和语音接入平台 |
CN106469554A (zh) * | 2015-08-21 | 2017-03-01 | 科大讯飞股份有限公司 | 一种自适应的识别方法及系统 |
CN106558307A (zh) * | 2015-09-17 | 2017-04-05 | 三星电子株式会社 | 智能对话处理设备、方法和系统 |
CN106537493A (zh) * | 2015-09-29 | 2017-03-22 | 深圳市全圣时代科技有限公司 | 语音识别系统及方法、客户端设备及云端服务器 |
CN105895103A (zh) * | 2015-12-03 | 2016-08-24 | 乐视致新电子科技(天津)有限公司 | 一种语音识别方法及装置 |
CN106847276A (zh) * | 2015-12-30 | 2017-06-13 | 昶洧新能源汽车发展有限公司 | 一种带方言识别的话音控制系统 |
CN105872687A (zh) * | 2016-03-31 | 2016-08-17 | 乐视控股(北京)有限公司 | 一种通过语音控制智能设备的方法及装置 |
CN105931643A (zh) * | 2016-06-30 | 2016-09-07 | 北京海尔广科数字技术有限公司 | 语音识别方法及装置 |
CN106251859A (zh) * | 2016-07-22 | 2016-12-21 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN107818781A (zh) * | 2017-09-11 | 2018-03-20 | 远光软件股份有限公司 | 智能交互方法、设备及存储介质 |
CN108172223A (zh) * | 2017-12-14 | 2018-06-15 | 深圳市欧瑞博科技有限公司 | 语音指令识别方法、装置及服务器和计算机可读存储介质 |
CN108682420A (zh) * | 2018-05-14 | 2018-10-19 | 平安科技(深圳)有限公司 | 一种音视频通话方言识别方法及终端设备 |
CN108733650A (zh) * | 2018-05-14 | 2018-11-02 | 科大讯飞股份有限公司 | 个性化词获取方法及装置 |
CN108766437A (zh) * | 2018-05-31 | 2018-11-06 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
CN109147793A (zh) * | 2018-08-17 | 2019-01-04 | 南京星邺汇捷网络科技有限公司 | 语音数据的处理方法、装置及系统 |
CN109360563A (zh) * | 2018-12-10 | 2019-02-19 | 珠海格力电器股份有限公司 | 一种语音控制方法、装置、存储介质及空调 |
CN109346059A (zh) * | 2018-12-20 | 2019-02-15 | 广东小天才科技有限公司 | 一种方言语音的识别方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110047467A (zh) | 2019-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110047467B (zh) | 语音识别方法、装置、存储介质及控制终端 | |
US10950241B2 (en) | Diarization using linguistic labeling with segmented and clustered diarized textual transcripts | |
WO2018149209A1 (zh) | 语音识别方法、电子设备以及计算机存储介质 | |
CN105931644B (zh) | 一种语音识别方法及移动终端 | |
CN111797632B (zh) | 信息处理方法、装置及电子设备 | |
US7792671B2 (en) | Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments | |
US9589563B2 (en) | Speech recognition of partial proper names by natural language processing | |
CN107305541A (zh) | 语音识别文本分段方法及装置 | |
CN108536654A (zh) | 识别文本展示方法及装置 | |
CN103559880B (zh) | 语音输入系统和方法 | |
CN110675862A (zh) | 语料获取方法、电子装置及存储介质 | |
CN110807093A (zh) | 语音处理方法、装置及终端设备 | |
CN111931020B (zh) | 公式的标注方法、装置、设备及存储介质 | |
CN109712607A (zh) | 一种处理方法、装置及电子设备 | |
CN111797631B (zh) | 信息处理方法、装置及电子设备 | |
CN116844555A (zh) | 车辆语音交互的方法及装置、车辆、电子设备和存储介质 | |
CN115985317A (zh) | 信息处理方法、装置、车辆及存储介质 | |
CN118098286A (zh) | 长语音情感智能识别方法、系统及计算机可读存储介质 | |
WO2024033379A1 (en) | Automated speech recognition to support context-aware intent recognition | |
CN116246611A (zh) | 用于确定车辆域的方法和用于车辆的语音识别系统 | |
CN111261155A (zh) | 语音处理方法、计算机可读存储介质、计算机程序和电子设备 | |
CN115712699A (zh) | 语音信息提取方法、装置、设备及存储介质 | |
CN111797631A (zh) | 信息处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |