CN108281144B - 一种语音识别方法和系统 - Google Patents

一种语音识别方法和系统 Download PDF

Info

Publication number
CN108281144B
CN108281144B CN201810063257.XA CN201810063257A CN108281144B CN 108281144 B CN108281144 B CN 108281144B CN 201810063257 A CN201810063257 A CN 201810063257A CN 108281144 B CN108281144 B CN 108281144B
Authority
CN
China
Prior art keywords
character string
matching
operation instruction
character
full
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810063257.XA
Other languages
English (en)
Other versions
CN108281144A (zh
Inventor
温正靠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Guoshi Science & Technology Co ltd
Original Assignee
Zhejiang Guoshi Science & Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Guoshi Science & Technology Co ltd filed Critical Zhejiang Guoshi Science & Technology Co ltd
Priority to CN201810063257.XA priority Critical patent/CN108281144B/zh
Publication of CN108281144A publication Critical patent/CN108281144A/zh
Application granted granted Critical
Publication of CN108281144B publication Critical patent/CN108281144B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明公开一种语音识别方法和系统。方法包括:获取各个操作对象的结构体;将人发出的语音录制成音频文件传输到服务器,识别成文字;将文字转变为字符串;获取所有符合字符串的操作对象,计算匹配值,获取匹配值最高的操作对象;获取所有符合字符串的操作指令,计算匹配值,获取匹配值最高的操作指令;操作指令为左向操作指令、右向操作指令两个操作指令中至少一者;将匹配值最高的操作对象和匹配值最高的操作指令进行组合;判断组合中的操作对象是否为N个,判断操作对象是否具有并列关系以及判断所述操作对象的操作指令是否同时具有左向操作指令和右向操作指令。本发明的方法或系统能够实现多对象多操作的语音识别,大幅提高语音识别的精度。

Description

一种语音识别方法和系统
技术领域
本发明涉及语音识别领域,特别是涉及一种语音识别方法和系统。
背景技术
目前市面上,语音识别的产品非常多,例如科大讯飞、百度语音识别等,但是他们识别的内容需要描述地非常准确才能识别得到,举个例子:“打开空调”,这句话基本上所有的智能语音识别系统都能够轻松识别,因为结构简单,仅包含一个操作指令“打开”+操作对象“空调”,但是如果说“哎呀太热了,我想打开空调,把加湿器也打开”,基本上所有的识别软件都手足无措了,可能有些能识别出其中的某一个操作,不过基本上没有任何一个识别软件能识别出所有的内容。
目前的语音识别技术无法做到多对象多操作的语音识别,这种传统识别方式的缺点显而易见,话术要求固定、无法在嘈杂的环境下识别语音。
发明内容
本发明的目的是提供一种语音识别方法和系统,能够实现多对象多操作的识别,允许用户说出操作指令与操作对象的同时,加入一些其他无关的内容,话术上更加自由,同时在嘈杂的环境下,大幅提高语音识别的精度。
为实现上述目的,本发明提供了如下方案:
一种语音识别方法,所述语音识别方法包括:
获取各个操作对象的结构体,将所述结构体存储在数据库中;
将人发出的语音指令录制成音频文件传输到服务器,识别成文字;
将所述文字转变为首字母拼接的第一字符串和全拼字母拼接的第二字符串,并将所述第一字符串和所述第二字符串进行模糊处理;
从数据库中使用索引方法获取所有符合所述第一字符串和所述第二字符串的操作对象;计算所述操作对象的匹配值,获取所述匹配值最高的操作对象;
从数据库中使用索引方法获取所有符合所述第一字符串和所述第二字符串的操作指令;计算所述操作指令的匹配值,获取所述匹配值最高的操作指令;所述操作指令为左向操作指令、右向操作指令两个操作指令中至少一者;
将所述匹配值最高的操作对象和所述匹配值最高的操作指令进行组合;
判断所述组合中的操作对象是否为N个,N为大于1的正整数,若是,则判断所述操作对象间是否具有并列关系,若是,则所述匹配值最高的操作对象执行的操作指令为前一个识别出的操作对象的操作指令并判断所述操作指令是否同时具有左向操作指令和右向操作指令,若否,则判断所述操作对象的操作指令是否同时具有左向操作指令和右向操作指令;
若所述组合中的操作对象为1个,则直接判断所述操作对象的操作指令是否同时具有左向操作指令和右向操作指令;
若所述操作对象的操作指令同时具有左向操作指令和右向操作指令,则对所述操作对象执行右向操作指令;
若所述操作对象的操作指令只具有一个操作指令,则对所述操作对象执行当前识别的操作指令。
可选的,所述从数据库中使用索引方法获取所有符合所述第一字符串和所述第二字符串的操作对象;计算所述操作对象的匹配值,获取所述匹配值最高的操作对象,具体包括:
使用所述第一字符串和所述第二字符串,从所述数据库中使用全词模糊索引方法和缺词模糊索引方法分别获取所有符合所述字符串的操作对象;
根据所述字符串长度,拆分成n*(n+1)/2个匹配项,判断所述文字对应字符串中是否包含所述匹配项,若是,则所述匹配项的积分加一,若所述文字对应字符串中不包含所述匹配项,则所述匹配项的积分不变;累加每项积分除以匹配项总数,得到所述操作对象的匹配度,所述操作对象的匹配值由文字匹配度、全拼拼音匹配度和首字母拼音匹配度累加而成;
将所述操作对象的所述文字匹配度、所述全拼拼音匹配度和所述首字母拼音匹配度相加,得到所述操作对象的匹配值;
将所述使用所述全词模糊索引方法和所述缺词模糊索引方法获取的操作对象的匹配值进行混合,获取不同排序组合的索引结果,选取所述匹配值最高的组合,并去掉重复的所述匹配项得到匹配值最高的操作对象。
可选的,所述从数据库中使用索引方法获取所有符合所述第一字符串和所述第二字符串的操作指令;计算所述操作指令的匹配值,获取所述匹配值最高的操作指令;所述操作指令为左向操作指令、右向操作指令两个操作指令中至少一者,具体包括:
使用所述第一字符串和所述第二字符串,从所述数据库中使用全词模糊索引方法和缺词模糊索引方法分别获取所有符合所述字符串的操作指令;
根据所述字符串长度,拆分成n*(n+1)/2个匹配项,判断所述文字对应字符串中是否包含所述匹配项,若是,则所述匹配项的积分加一,若所述文字对应字符串中不包含所述匹配项,则所述匹配项的积分不变;累加每项积分除以匹配项总数,得到所述操作指令的匹配度,所述操作指令的匹配值由文字匹配度、全拼拼音匹配度和首字母拼音匹配度累加而成;
将所述操作指令的所述文字匹配度、所述全拼拼音匹配度和所述首字母拼音匹配度相加,得到所述操作指令的匹配值;
将所述使用所述全词模糊索引方法和所述缺词模糊索引方法获取的操作指令的匹配值进行混合,获取不同排序组合的索引结果,选取所述匹配值最高的组合,并去掉重复的所述匹配项得到匹配值最高的操作指令。
可选的,所述将所述文字转变为首字母拼接的第一字符串和全拼字母拼接的第二字符串,并将所述第一字符串和所述第二字符串进行模糊处理,具体包括:
将所述文字转变为首字母拼接的第一字符串和全拼字母拼接的第二字符串,并对所述第一字符串和所述第二字符串进行前缀替换、后缀替换和相近读音替换的模糊处理。
可选的,所述结构体的属性包括:名称、首字母拼音字符串、全拼拼音字符串、对象类型和操作指令,并将所述结构体属性存储在数据库中。
为实现上述目的,本发明还提供了如下方案:
一种语音识别系统,所述语音识别系统包括:
结构体生成模块,用于获取各个操作对象的结构体,将所述结构体存储在数据库中;
文字生成模块,用于将人发出的语音指令录制成音频文件传输到服务器,识别成文字;
字符串获取模块,用于将所述文字转变为首字母拼接的第一字符串和全拼字母拼接的第二字符串,并将所述第一字符串和所述第二字符串进行模糊处理;
操作对象获取模块,用于从数据库中使用索引方法获取所有符合所述第一字符串和所述第二字符串的操作对象;计算所述操作对象的匹配值,获取所述匹配值最高的操作对象;
操作指令获取模块,用于从数据库中使用索引方法获取所有符合所述第一字符串和所述第二字符串的操作指令;计算所述操作指令的匹配值,获取所述匹配值最高的操作指令;所述操作指令为左向操作指令、右向操作指令两个操作指令中至少一者;
组合模块,用于将所述匹配值最高的操作对象和所述匹配值最高的操作指令进行组合;
第一判断模块:用于判断所述组合中的操作对象是否为N个,N为大于1的正整数;
第二判断模块,用于判断所述操作对象间是否具有并列关系;
第三判断模块,用于判断所述操作对象的操作指令是否同时具有左向操作指令和右向操作指令。
可选的,所述操作对象获取模块,具体包括:
最初操作对象获取单元,用于使用所述第一字符串和所述第二字符串,从所述数据库中使用全词模糊索引方法和缺词模糊索引方法分别获取所有符合所述字符串的操作对象;
第一匹配度获取单元,用于根据所述字符串长度,拆分成n*(n+1)/2个匹配项,判断所述文字对应字符串中是否包含所述匹配项,若是,则所述匹配项的积分加一,若所述文字对应字符串中不包含所述匹配项,则所述匹配项的积分不变;累加每项积分除以匹配项总数,得到所述操作对象的匹配度,所述操作对象的匹配度由文字匹配度、全拼拼音匹配度和首字母拼音匹配度累加而成;
第一匹配值获取单元,将所述操作对象的所述文字匹配度、所述全拼拼音匹配度和所述首字母拼音匹配度相加,得到所述操作对象的匹配值;
最终操作对象确定单元,将所述使用所述全词模糊索引方法和所述缺词模糊索引方法获取的操作对象的匹配值进行混合,获取不同排序组合的索引结果,选取所述匹配值最高的组合,并去掉重复的所述匹配项得到匹配值最高的操作对象。
可选的,所述操作指令获取模块,具体包括:
最初操作指令获取单元,用于使用所述第一字符串和所述第二字符串,从所述数据库中使用全词模糊索引方法和缺词模糊索引方法分别获取所有符合所述字符串的操作指令;
第二匹配度获取单元,用于根据所述字符串长度,拆分成n*(n+1)/2个匹配项,判断所述文字对应字符串中是否包含所述匹配项,若是,则所述匹配项的积分加一,若所述文字对应字符串中不包含所述匹配项,则所述匹配项的积分不变;累加每项积分除以匹配项总数,得到所述操作指令的匹配度,所述操作指令的匹配值由文字匹配度、全拼拼音匹配度和首字母拼音匹配度累加而成;
第二匹配值获取单元,用于将所述操作指令的所述文字匹配度、所述全拼拼音匹配度和所述首字母拼音匹配度相加,得到所述操作指令的匹配值;
最终操作指令获取单元,用于将所述使用所述全词模糊索引方法和所述缺词模糊索引方法获取的操作指令的匹配值进行混合,获取不同排序组合的索引结果,选取所述匹配值最高的组合,并去掉重复的所述匹配项得到匹配值最高的操作指令。
可选的,所述字符串获取模块,具体包括:
字符串转变单元,用于将所述文字转变为首字母拼接的第一字符串和全拼字母拼接的第二字符串;
模糊处理单元,用于对所述第一字符串和所述第二字符串进行前缀替换、后缀替换和相近读音替换的模糊处理。
可选的,所述结构体的属性包括:名称、首字母拼音字符串、全拼拼音字符串、对象类型和操作指令,并将所述结构体属性存储在数据库中。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明的语音识别方法,通过获取匹配值最高的操作对象和操作指令并将其进行组合,且操作指令为左向操作指令、右向操作指令两个操作指令中至少一者;通过判断组合中的操作对象是否为N个,N为大于1的正整数,若是,则判断操作对象间是否具有并列关系,若具有并列关系,则匹配值最高的操作对象执行的操作指令为前一个识别出的操作对象的操作指令并判断所述操作指令是否同时具有左向操作指令和右向操作指令,若否,则判断操作对象的操作指令是否同时具有左向操作指令和右向操作指令;若所述组合中的操作对象为1个,则直接判断所述操作对象的操作指令是否同时具有左向操作指令和右向操作指令;若操作对象的操作指令同时具有左向操作指令和右向操作指令,则对操作对象执行右向操作指令;若操作对象的操作指令只具有一个操作指令,则对操作对象执行当前识别的操作指令。显然,本发明能够实现多对象多操作的识别,允许用户说出操作指令与操作对象的同时,加入一些其他无关的内容,话术上更加自由,同时在嘈杂的环境下,大幅提高语音识别的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1语音识别方法流程图;
图2为本发明实施例2语音识别系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种语音识别方法和系统,能够实现多对象多操作的识别,允许用户说出操作指令与操作对象的同时,加入一些其他无关的内容,话术上更加自由,同时在嘈杂的环境下,大幅提高语音识别的精度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1:
图1为本发明实施例1语音识别方法流程图。如图1所示,一种语音识别方法,所述语音识别方法包括:
步骤101:获取各个操作对象的结构体,所述结构体的属性包括:名称、首字母拼音字符串、全拼拼音字符串、对象类型和操作指令,并将所述结构体属性存储在数据库中;
步骤102:将人发出的语音指令录制成音频文件传输到服务器,识别成文字;
步骤103:将所述文字转变为首字母拼接的第一字符串和全拼字母拼接的第二字符串,并将所述第一字符串和所述第二字符串进行模糊处理,具体的,对所述第一字符串和所述第二字符串进行前缀替换、后缀替换和相近读音替换的模糊处理;
步骤104:从数据库中使用索引方法获取所有符合所述第一字符串和所述第二字符串的操作对象;计算所述操作对象的匹配值,获取所述匹配值最高的操作对象;
步骤105:从数据库中使用索引方法获取所有符合所述第一字符串和所述第二字符串的操作指令;计算所述操作指令的匹配值,获取所述匹配值最高的操作指令;所述操作指令为左向操作指令、右向操作指令两个操作指令中至少一者;
步骤106:将所述匹配值最高的操作对象和所述匹配值最高的操作指令进行组合;
步骤107:判断所述组合中的操作对象是否为N个,N为大于1的正整数;
步骤108:若所述组合中的操作对象为N个,则判断所述操作对象间是否具有并列关系;
若所述组合中的操作对象为1个,则直接进入步骤110;
步骤109:若所述操作对象间具有并列关系,则所述匹配值最高的操作对象执行的操作指令为前一个识别出的操作对象的操作指令,并进入步骤110;
若所述操作对象间不具有并列关系,则直接进入步骤110;
步骤110:判断所述操作对象的操作指令是否同时具有左向操作指令和右向操作指令;
步骤111:若所述操作对象的操作指令同时具有左向操作指令和右向操作指令,则对所述操作对象执行右向操作指令;
步骤112:若所述操作对象的操作指令只具有一个操作指令,则对所述操作对象执行当前识别的操作指令。
具体的,步骤104中使用所述第一字符串和所述第二字符串,从所述数据库中使用全词模糊索引方法和缺词模糊索引方法分别获取所有符合所述字符串的操作对象;
根据所述字符串长度,拆分成n*(n+1)/2个匹配项,判断所述文字对应字符串中是否包含所述匹配项,若是,则所述匹配项的积分加一,若所述文字对应字符串中不包含所述匹配项,则所述匹配项的积分不变;累加每项积分除以匹配项总数,得到所述操作对象的匹配度,所述操作对象的匹配值由文字匹配度、全拼拼音匹配度和首字母拼音匹配度累加而成;
将所述操作对象的所述文字匹配度、所述全拼拼音匹配度和所述首字母拼音匹配度相加,得到所述操作对象的匹配值;
将所述使用所述全词模糊索引方法和所述缺词模糊索引方法获取的操作对象的匹配值进行混合,获取不同排序组合的索引结果,选取所述匹配值最高的组合,并去掉重复的所述匹配项得到匹配值最高的操作对象。
具体的,步骤105中使用所述第一字符串和所述第二字符串,从所述数据库中使用全词模糊索引方法和缺词模糊索引方法分别获取所有符合所述字符串的操作指令;
根据所述字符串长度,拆分成n*(n+1)/2个匹配项,判断所述文字对应字符串中是否包含所述匹配项,若是,则所述匹配项的积分加一,若所述文字对应字符串中不包含所述匹配项,则所述匹配项的积分不变;累加每项积分除以匹配项总数,得到所述操作指令的匹配度,所述操作指令的匹配值由文字匹配度、全拼拼音匹配度和首字母拼音匹配度累加而成;
将所述操作指令的所述文字匹配度、所述全拼拼音匹配度和所述首字母拼音匹配度相加,得到所述操作指令的匹配值;
将所述使用所述全词模糊索引方法和所述缺词模糊索引方法获取的操作指令的匹配值进行混合,获取不同排序组合的索引结果,选取所述匹配值最高的组合,并去掉重复的所述匹配项得到匹配值最高的操作指令。
本发明的语音识别方法,能够实现多对象多操作的识别,允许用户说出操作指令与操作对象的同时,加入一些其他无关的内容,话术上更加自由,同时在嘈杂的环境下,大幅提高语音识别的精度。
实施例2:
图2为本发明实施例2语音识别系统结构图。如图2所示,一种语音识别系统,所述语音识别系统包括:
结构体生成模块201,用于获取各个操作对象的结构体,所述结构体的属性包括:名称、首字母拼音字符串、全拼拼音字符串、对象类型和操作指令,并将所述结构体属性存储在数据库中;
文字生成模块202,用于将人发出的语音指令录制成音频文件传输到服务器,识别成文字;
字符串获取模块203,用于将所述文字转变为首字母拼接的第一字符串和全拼字母拼接的第二字符串,并将所述第一字符串和所述第二字符串进行模糊处理;
操作对象获取模块204,用于从数据库中使用索引方法获取所有符合所述第一字符串和所述第二字符串的操作对象;计算所述操作对象的匹配值,获取所述匹配值最高的操作对象;
操作指令获取模块205,用于从数据库中使用索引方法获取所有符合所述第一字符串和所述第二字符串的操作指令;计算所述操作指令的匹配值,获取所述匹配值最高的操作指令;所述操作指令为左向操作指令、右向操作指令两个操作指令中至少一者;
组合模块206,用于将所述匹配值最高的操作对象和所述匹配值最高的操作指令进行组合;
第一判断模块207:用于判断所述组合中的操作对象是否为N个,N为大于1的正整数;
第二判断模块208,用于判断所述操作对象间是否具有并列关系;
第三判断模块209,用于判断所述操作对象的操作指令是否同时具有左向操作指令和右向操作指令。
具体的,所述操作对象获取模块204包括:
最初操作对象获取单元,用于使用所述第一字符串和所述第二字符串,从所述数据库中使用全词模糊索引方法和缺词模糊索引方法分别获取所有符合所述字符串的操作对象;
第一匹配度获取单元,用于根据所述字符串长度,拆分成n*(n+1)/2个匹配项,判断所述文字对应字符串中是否包含所述匹配项,若是,则所述匹配项的积分加一,若所述文字对应字符串中不包含所述匹配项,则所述匹配项的积分不变;累加每项积分除以匹配项总数,得到所述操作对象的匹配度,所述操作对象的匹配度由文字匹配度、全拼拼音匹配度和首字母拼音匹配度累加而成;
第一匹配值获取单元,将所述操作对象的所述文字匹配度、所述全拼拼音匹配度和所述首字母拼音匹配度相加,得到所述操作对象的匹配值;
最终操作对象确定单元,将所述使用所述全词模糊索引方法和所述缺词模糊索引方法获取的操作对象的匹配值进行混合,获取不同排序组合的索引结果,选取所述匹配值最高的组合,并去掉重复的所述匹配项得到匹配值最高的操作对象。
具体的,所述操作指令获取模块205包括:
最初操作指令获取单元,用于使用所述第一字符串和所述第二字符串,从所述数据库中使用全词模糊索引方法和缺词模糊索引方法分别获取所有符合所述字符串的操作指令;
第二匹配度获取单元,用于根据所述字符串长度,拆分成n*(n+1)/2个匹配项,判断所述文字对应字符串中是否包含所述匹配项,若是,则所述匹配项的积分加一,若所述文字对应字符串中不包含所述匹配项,则所述匹配项的积分不变;累加每项积分除以匹配项总数,得到所述操作指令的匹配度,所述操作指令的匹配值由文字匹配度、全拼拼音匹配度和首字母拼音匹配度累加而成;
第二匹配值获取单元,用于将所述操作指令的所述文字匹配度、所述全拼拼音匹配度和所述首字母拼音匹配度相加,得到所述操作指令的匹配值;
最终操作指令获取单元,用于将所述使用所述全词模糊索引方法和所述缺词模糊索引方法获取的操作指令的匹配值进行混合,获取不同排序组合的索引结果,选取所述匹配值最高的组合,并去掉重复的所述匹配项得到匹配值最高的操作指令。
具体的,所述字符串获取模块203包括:
字符串转变单元,用于将所述文字转变为首字母拼接的第一字符串和全拼字母拼接的第二字符串;
模糊处理单元,用于对所述第一字符串和所述第二字符串进行前缀替换、后缀替换和相近读音替换的模糊处理。
本发明的语音识别系统,能够实现多对象多操作的识别,允许用户说出操作指令与操作对象的同时,加入一些其他无关的内容,话术上更加自由,同时在嘈杂的环境下,大幅提高语音识别的精度。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种语音识别方法,其特征在于,所述语音识别方法包括:
获取各个操作对象的结构体,将所述结构体存储在数据库中;
将人发出的语音指令录制成音频文件传输到服务器,识别成文字;
将所述文字转变为首字母拼接的第一字符串和全拼字母拼接的第二字符串,并将所述第一字符串和所述第二字符串进行模糊处理;
从数据库中使用索引方法获取所有符合所述第一字符串和所述第二字符串的操作对象;计算所述操作对象的匹配值,获取所述匹配值最高的操作对象;
从数据库中使用索引方法获取所有符合所述第一字符串和所述第二字符串的操作指令;计算所述操作指令的匹配值,获取所述匹配值最高的操作指令;所述操作指令为左向操作指令、右向操作指令两个操作指令中至少一者;
将所述匹配值最高的操作对象和所述匹配值最高的操作指令进行组合;
判断所述组合中的操作对象是否为N个,N为大于1的正整数,若是,则判断所述操作对象间是否具有并列关系,若是,则所述匹配值最高的操作对象执行的操作指令为前一个识别出的操作对象的操作指令并判断所述操作指令是否同时具有左向操作指令和右向操作指令,若否,则判断所述操作对象的操作指令是否同时具有左向操作指令和右向操作指令;
若所述组合中的操作对象为1个,则直接判断所述操作对象的操作指令是否同时具有左向操作指令和右向操作指令;
若所述操作对象的操作指令同时具有左向操作指令和右向操作指令,则对所述操作对象执行右向操作指令;
若所述操作对象的操作指令只具有一个操作指令,则对所述操作对象执行当前识别的操作指令。
2.根据权利要求1所述的语音识别方法,其特征在于,所述从数据库中使用索引方法获取所有符合所述第一字符串和所述第二字符串的操作对象;计算所述操作对象的匹配值,获取所述匹配值最高的操作对象,具体包括:
使用所述第一字符串和所述第二字符串,从所述数据库中使用全词模糊索引方法和缺词模糊索引方法分别获取所有符合所述字符串的操作对象;
根据所述字符串长度,拆分成n*(n+1)/2个匹配项,判断所述文字对应字符串中是否包含所述匹配项,若是,则所述匹配项的积分加一,若所述文字对应字符串中不包含所述匹配项,则所述匹配项的积分不变;累加每项积分除以匹配项总数,得到所述操作对象的匹配度,所述操作对象的匹配度由文字匹配度、全拼拼音匹配度和首字母拼音匹配度累加而成;
将所述操作对象的所述文字匹配度、所述全拼拼音匹配度和所述首字母拼音匹配度相加,得到所述操作对象的匹配值;
将所述使用所述全词模糊索引方法和所述缺词模糊索引方法获取的操作对象的匹配值进行混合,获取不同排序组合的索引结果,选取所述匹配值最高的组合,并去掉重复的所述匹配项得到匹配值最高的操作对象。
3.根据权利要求2所述的语音识别方法,其特征在于,所述从数据库中使用索引方法获取所有符合所述第一字符串和所述第二字符串的操作指令;计算所述操作指令的匹配值,获取所述匹配值最高的操作指令;所述操作指令为左向操作指令、右向操作指令两个操作指令中至少一者,具体包括:
使用所述第一字符串和所述第二字符串,从所述数据库中使用全词模糊索引方法和缺词模糊索引方法分别获取所有符合所述字符串的操作指令;
根据所述字符串长度,拆分成n*(n+1)/2个匹配项,判断所述文字对应字符串中是否包含所述匹配项,若是,则所述匹配项的积分加一,若所述文字对应字符串中不包含所述匹配项,则所述匹配项的积分不变;累加每项积分除以匹配项总数,得到所述操作指令的匹配度,所述操作指令的匹配值由文字匹配度、全拼拼音匹配度和首字母拼音匹配度累加而成;
将所述操作指令的所述文字匹配度、所述全拼拼音匹配度和所述首字母拼音匹配度相加,得到所述操作指令的匹配值;
将所述使用所述全词模糊索引方法和所述缺词模糊索引方法获取的操作指令的匹配值进行混合,获取不同排序组合的索引结果,选取所述匹配值最高的组合,并去掉重复的所述匹配项得到匹配值最高的操作指令。
4.根据权利要求1所述的语音识别方法,其特征在于,所述将所述文字转变为首字母拼接的第一字符串和全拼字母拼接的第二字符串,并将所述第一字符串和所述第二字符串进行模糊处理,具体包括:
将所述文字转变为首字母拼接的第一字符串和全拼字母拼接的第二字符串,并对所述第一字符串和所述第二字符串进行前缀替换、后缀替换和相近读音替换的模糊处理。
5.根据权利要求1所述的语音识别方法,其特征在于,所述结构体的属性包括:名称、首字母拼音字符串、全拼拼音字符串、对象类型和操作指令,并将所述结构体属性存储在数据库中。
6.一种语音识别系统,其特征在于,所述语音识别系统包括:
结构体生成模块,用于获取各个操作对象的结构体,将所述结构体存储在数据库中;
文字生成模块,用于将人发出的语音指令录制成音频文件传输到服务器,识别成文字;
字符串获取模块,用于将所述文字转变为首字母拼接的第一字符串和全拼字母拼接的第二字符串,并将所述第一字符串和所述第二字符串进行模糊处理;
操作对象获取模块,用于从数据库中使用索引方法获取所有符合所述第一字符串和所述第二字符串的操作对象;计算所述操作对象的匹配值,获取所述匹配值最高的操作对象;
操作指令获取模块,用于从数据库中使用索引方法获取所有符合所述第一字符串和所述第二字符串的操作指令;计算所述操作指令的匹配值,获取所述匹配值最高的操作指令;所述操作指令为左向操作指令、右向操作指令两个操作指令中至少一者;
组合模块,用于将所述匹配值最高的操作对象和所述匹配值最高的操作指令进行组合;
第一判断模块:用于判断所述组合中的操作对象是否为N个,N为大于1的正整数;
第二判断模块,用于判断所述操作对象间是否具有并列关系;
第三判断模块,用于判断所述操作对象的操作指令是否同时具有左向操作指令和右向操作指令。
7.根据权利要求6所述的语音识别系统,其特征在于,所述操作对象获取模块,具体包括:
最初操作对象获取单元,用于使用所述第一字符串和所述第二字符串,从所述数据库中使用全词模糊索引方法和缺词模糊索引方法分别获取所有符合所述字符串的操作对象;
第一匹配度获取单元,用于根据所述字符串长度,拆分成n*(n+1)/2个匹配项,判断所述文字对应字符串中是否包含所述匹配项,若是,则所述匹配项的积分加一,若所述文字对应字符串中不包含所述匹配项,则所述匹配项的积分不变;累加每项积分除以匹配项总数,得到所述操作对象的匹配度,所述操作对象的匹配度由文字匹配度、全拼拼音匹配度和首字母拼音匹配度累加而成;
第一匹配值获取单元,将所述操作对象的所述文字匹配度、所述全拼拼音匹配度和所述首字母拼音匹配度相加,得到所述操作对象的匹配值;
最终操作对象确定单元,将所述使用所述全词模糊索引方法和所述缺词模糊索引方法获取的操作对象的匹配值进行混合,获取不同排序组合的索引结果,选取所述匹配值最高的组合,并去掉重复的所述匹配项得到匹配值最高的操作对象。
8.根据权利要求6所述的语音识别系统,其特征在于,所述操作指令获取模块,具体包括:
最初操作指令获取单元,用于使用所述第一字符串和所述第二字符串,从所述数据库中使用全词模糊索引方法和缺词模糊索引方法分别获取所有符合所述字符串的操作指令;
第二匹配度获取单元,用于根据所述字符串长度,拆分成n*(n+1)/2个匹配项,判断所述文字对应字符串中是否包含所述匹配项,若是,则所述匹配项的积分加一,若所述文字对应字符串中不包含所述匹配项,则所述匹配项的积分不变;累加每项积分除以匹配项总数,得到所述操作指令的匹配度,所述操作指令的匹配值由文字匹配度、全拼拼音匹配度和首字母拼音匹配度累加而成;
第二匹配值获取单元,用于将所述操作指令的所述文字匹配度、所述全拼拼音匹配度和所述首字母拼音匹配度相加,得到所述操作指令的匹配值;
最终操作指令获取单元,用于将所述使用所述全词模糊索引方法和所述缺词模糊索引方法获取的操作指令的匹配值进行混合,获取不同排序组合的索引结果,选取所述匹配值最高的组合,并去掉重复的所述匹配项得到匹配值最高的操作指令。
9.根据权利要求6所述的语音识别系统,其特征在于,所述字符串获取模块,具体包括:
字符串转变单元,用于将所述文字转变为首字母拼接的第一字符串和全拼字母拼接的第二字符串;
模糊处理单元,用于对所述第一字符串和所述第二字符串进行前缀替换、后缀替换和相近读音替换的模糊处理。
10.根据权利要求6所述的语音识别系统,其特征在于,所述结构体的属性包括:名称、首字母拼音字符串、全拼拼音字符串、对象类型和操作指令,并将所述结构体属性存储在数据库中。
CN201810063257.XA 2018-01-23 2018-01-23 一种语音识别方法和系统 Active CN108281144B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810063257.XA CN108281144B (zh) 2018-01-23 2018-01-23 一种语音识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810063257.XA CN108281144B (zh) 2018-01-23 2018-01-23 一种语音识别方法和系统

Publications (2)

Publication Number Publication Date
CN108281144A CN108281144A (zh) 2018-07-13
CN108281144B true CN108281144B (zh) 2020-12-08

Family

ID=62804750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810063257.XA Active CN108281144B (zh) 2018-01-23 2018-01-23 一种语音识别方法和系统

Country Status (1)

Country Link
CN (1) CN108281144B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741741A (zh) * 2018-12-29 2019-05-10 深圳Tcl新技术有限公司 智能终端的控制方法、智能终端及计算机可读存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103456297B (zh) * 2012-05-29 2015-10-07 中国移动通信集团公司 一种语音识别匹配的方法和设备
CN102819606B (zh) * 2012-08-20 2015-06-03 中国农业银行股份有限公司 基于拼音的信息查询方法、系统和服务器
JP6522503B2 (ja) * 2013-08-29 2019-05-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器制御方法、表示制御方法及び購入決済方法
CN104575496A (zh) * 2013-10-14 2015-04-29 中兴通讯股份有限公司 一种自动发送多媒体文件的方法及装置、移动终端
CN103714817B (zh) * 2013-12-31 2016-03-23 厦门天聪智能软件有限公司 基于声纹识别技术的满意度调查作弊排查方法
CN103838876B (zh) * 2014-03-27 2017-06-20 烽火通信科技股份有限公司 使用拼音检索文件的文件检索方法及系统
CN106201177B (zh) * 2016-06-24 2019-10-15 维沃移动通信有限公司 一种操作执行方法及移动终端
CN109656658B (zh) * 2018-12-11 2023-01-13 上海汉枫电子科技有限公司 一种编辑对象处理方法、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN108281144A (zh) 2018-07-13

Similar Documents

Publication Publication Date Title
EP3153978B1 (en) Address search method and device
CN109918680B (zh) 实体识别方法、装置及计算机设备
CN107291783B (zh) 一种语义匹配方法及智能设备
TWI636452B (zh) 語音識別方法及系統
CN107016994B (zh) 语音识别的方法及装置
KR102316063B1 (ko) 오디오 중의 키 프레이즈를 인식하기 위한 방법과 장치, 기기 및 매체
CN108630193B (zh) 语音识别方法及装置
CN106710592B (zh) 一种智能硬件设备中的语音识别纠错方法和装置
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
CN112417102B (zh) 一种语音查询方法、装置、服务器和可读存储介质
CN111292751B (zh) 语义解析方法及装置、语音交互方法及装置、电子设备
CN103970765A (zh) 一种改错模型训练方法、装置和文本改错方法、装置
CN108304387B (zh) 文本中噪音词的识别方法、装置、服务器组及存储介质
CN111177324A (zh) 基于语音识别结果进行意图分类的方法和装置
CN111292752A (zh) 一种用户意图识别方法、装置、电子设备及存储介质
CN111198936B (zh) 一种语音搜索方法、装置、电子设备及存储介质
CN110827803A (zh) 方言发音词典的构建方法、装置、设备及可读存储介质
US10403265B2 (en) Voice recognition apparatus and voice recognition method
CN116821290A (zh) 面向多任务对话的大语言模型训练方法和交互方法
JP2023511091A (ja) 自動音声認識のための英数字列のバイアス付加
CN108281144B (zh) 一种语音识别方法和系统
CN110570838B (zh) 语音流处理方法和装置
WO2020199590A1 (zh) 情绪检测分析方法及相关装置
CN110750632A (zh) 一种改进的中文alice智能问答方法及系统
CN110852075A (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 325005 building 3, zeyagetian Nanyuan, No. 1, Ouhai Avenue, Ouhai District, Wenzhou City, Zhejiang Province

Applicant after: ZHEJIANG GUOSHI SCIENCE & TECHNOLOGY Co.,Ltd.

Address before: 325000 room, Eastern Mansion, liming West Road, Zhejiang, Wenzhou, 2702

Applicant before: ZHEJIANG GUOSHI SCIENCE & TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant