CN111754979A - 智能语音识别方法及装置 - Google Patents
智能语音识别方法及装置 Download PDFInfo
- Publication number
- CN111754979A CN111754979A CN202010707201.0A CN202010707201A CN111754979A CN 111754979 A CN111754979 A CN 111754979A CN 202010707201 A CN202010707201 A CN 202010707201A CN 111754979 A CN111754979 A CN 111754979A
- Authority
- CN
- China
- Prior art keywords
- voice
- voice information
- information
- phrases
- syllables
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000001514 detection method Methods 0.000 claims abstract description 24
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000001914 filtration Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000008451 emotion Effects 0.000 claims description 7
- 230000036651 mood Effects 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 5
- 241000544076 Whipplea modesta Species 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本申请提供智能语音识别方法及装置。所述方法包括:对语音中的词语、语句、语气信息进行捕捉得到第一语音信息;根据改进型短时能零差分法,利用所述语音的各音节之间的停顿间隔对音节进行精准端点检测;对所述第一语音信息进行特征提取,获得第二语音信息;对所述第二语音信息经过滤波和杂音消除得到第三语音信息;将所述第三语音信息解析处理,进行精准对比匹配;在所述第三语音信息匹配正确后,进行语气和语境判断,将符合语音口吻的语气和语境的所述第三语音信息传送至语音接收终端,即完成语音识别作业流程。
Description
技术领域
本申请涉及语音识别技术领域,具体涉及智能语音识别方法及装置。
背景技术
语音,即语言的物质外壳,是语言的外部形式,是最直接地记录人的思维活动的符号体系,它是人的发音器官发出的具有一定社会意义的声音,语音的物理基础主要有音高、音强、音长、音色,这也是构成语音的四要素。
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
随着现在科技技术的日益发展,在智能领域中,语音识别为重要一环,而现有的语音识别方法在实施过程中,错误率较高,易由于语音文字和字节存在高度相似,易造成识别错误,从而降低语音的匹配识别精准度,同时也体现不出语音的主要含义,大多为语气统一的机器式口吻识别,不可根据语音中语气、字里行间以及阴阳顿挫停顿时间来判断语音的感情,从而满足不了语音的多感情识别需求。
发明内容
本申请实施例提供一种智能语音识别方法,包括:对语音中的词语、语句、语气信息进行捕捉得到第一语音信息;根据改进型短时能零差分法,利用所述语音的各音节之间的停顿间隔对音节进行精准端点检测;对所述第一语音信息进行特征提取,获得第二语音信息;对所述第二语音信息经过滤波和杂音消除得到第三语音信息;将所述第三语音信息解析处理,进行精准对比匹配;在所述第三语音信息匹配正确后,进行语气和语境判断,将符合语音口吻的语气和语境的所述第三语音信息传送至语音接收终端,即完成语音识别作业流程。
根据一些实施例,所述智能语音识别方法还包括:获取所述语音中的常用词组、常用语句以及常用词音节,同时也获取所述语音中的关键词组、关键语句以及关键词音节;对所述常用词语、常用语句、常用语词音节、关键词语、关键语句、关键词音节进行特征提取放进所述第二语音信息。
根据一些实施例,所述智能语音识别方法还包括:所述第三语音信息统一录入大数据库。
根据一些实施例,所述将所述第三语音信息解析处理,进行精准对比匹配,包括:采用云计算对所述第三语音信息进行精准对比匹配;以所述大数据库内的原始录入信息和后入信息作为根据,判断对比匹配是否正确。
根据一些实施例,所述智能语音识别方法还包括:在所述第三语音信号数据匹配发生错误时,将错误的所述第三语音信息经过主动纠错后,二次确认正确后,将正确的所述第三语音信息传送至语音接收终端;若二次确认错误后,对此条语音信息作废并存入语音错误日志记录内,且再次输出正确的所述第三语音信息至语音接收终端。
根据一些实施例,所述智能语音识别方法,其中,所述常用词组、常用语句以及常用词音节包括:称谓词组、指代词组、语气助词、谦辞和敬辞词组、惯用成语以及其他词组,其中,称谓词组包括“你”、“我”、“他”、“你们”、“我们”、“他们”、“父亲”、“母亲”以及“妻子”;指代词组为用抽象概念代替具体事物,语气助词包括“啊”、“呀”以及“了”;谦辞和敬辞词组为尊敬和谦虚词组,可包括“敬爱的”、“小女”以及“愚见”;惯用成语为“步步高升”、“心想事成”以及“万事如意”;其他词组为日常生活语句;所述关键词语、关键语句、关键词音节包括多音词组、冷僻词组、一语双关词组、多重含义词组、错别和混淆词组以及其他关键词组。
根据一些实施例,所述特征提取采用梅尔频率倒谱系数方式提取代表语音基本特征的参数作为所述第二语音信息。
根据一些实施例,所述大数据库的输出端单向电连接有存储模块,所述存储模块的数量至少为四块,每块所述存储模块的容量最小为2TB,所述存储模块的存储周期为90天。
根据一些实施例,所述语境判断包括“喜”、“怒”、“忧”、“惧”、“爱”、“憎”以及“欲”,且所述判断的依据为语音中的语气、语境以及字节停顿时间。
本申请实施例还提供一种智能语音识别装置,包括语言捕捉模块、音节端点检测模块、提取模块、滤波和杂音消除模块、服务器和语境情感预测模块,所述语言捕捉模块对语音中的词语、语句、语气信息进行捕捉得到第一语音信息;所述音节端点检测模块根据改进型短时能零差分法,利用所述语音的各音节之间的停顿间隔对音节进行精准端点检测;所述提取模块对所述第一语音信息进行特征提取,获得第二语音信息;所述滤波和杂音消除模块对所述第二语音信息经过滤波和杂音消除得到第三语音信息;所述服务器将所述第三语音信息解析处理,进行精准对比匹配;所述语境情感预测模块在所述第三语音信号数据匹配正确后,进行语气和语境判断,将符合语音口吻的语气和语境的信号数据传送至语音接收终端,即完成语音识别作业流程。
本申请实施例提供的技术方案,通过对语音中的词语、语句、语气信息进行捕捉,可利用语音信号各音节之间的停顿间隔对音节进行精准端点检测,去除杂波,提升信息的清晰度和准确度,对正确语音信息进行快速精准识别匹配传递,同时也可对语音信息进行多感情识别,对匹配错误的语音信息进行二次纠错,进一步增强语音信息识别的精准度,防止出现语音识别匹配错误。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种智能语音识别方法的流程示意图。
图2为本申请实施例提供的另一种智能语音识别方法的流程示意图。
图3为本申请实施例提供的一种智能语音识别装置的示意图。
图4为本申请实施例提供的常用词组、常用词音节的系统框架图。
图5为本申请实施例提供的关键词组、关键词音节的系统框架图。
图6为本申请实施例提供的音节端点检测模块的检测结果图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,本申请的权利要求、说明书及附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。本申请的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
图1为本申请实施例提供的一种智能语音识别方法的流程示意图,流程执行如下。
A、对语音中的词语、语句、语气信息进行捕捉得到第一语音信息。
B、根据改进型短时能零差分法,利用语音的各音节之间的停顿间隔对音节进行精准端点检测。
改进型短时能零差分法具体建立在短时能量和短时平均过零率差分阔值相互结合的基础上,可对语音信息进行精准检测,提升语音音节检测的精准度。
音节端点检测模块的检测算法如下:
用En表示第n帧信号Xn(m)的语音短时能量,且m为瞬时信号端点采集点,如下公式所示。
一帧语音信号中波形通过零电平的频率称之为短时过零率,如下公式所示。
公式中,sgn【·】为符号函数,即
语音信号帧的非语音部分,非语音短时能量Mn和短时平均过零率Zn变化缓慢,而在非语音和语音部分的过渡部分这两个参数急剧变化,因此通过判断这两个参数就可以找到语音信号起始点和结束点,由于语音信号的浊音短时能量和短时过零率变化明显,而清音只有短时过零率变化明显。
C、对第一语音信息进行特征提取,获得第二语音信息。
对第一语音信息进行特征提取,采用梅尔频率倒谱系数方式提取代表语音基本特征的参数作为第二语音信息。
D、对第二语音信息经过滤波和杂音消除得到第三语音信息。
E、将第三语音信息解析处理,进行精准对比匹配。
采用云计算对第三语音信息进行精准对比匹配,以大数据库内的原始录入信息和后入信息作为根据,判断对比匹配是否正确。
F、在第三语音信息匹配正确后,进行语气和语境判断,将符合语音口吻的语气和语境的第三语音信息传送至语音接收终端,即完成语音识别作业流程。
语境判断包括“喜”、“怒”、“忧”、“惧”、“爱”、“憎”以及“欲”,且判断的依据为语音中的语气、语境以及字节停顿时间。
在第三语音信号数据匹配发生错误时,将错误的第三语音信息经过主动纠错后,二次确认正确后,将正确的第三语音信息传送至语音接收终端;若二次确认错误后,对此条语音信息作废并存入语音错误日志记录内,且再次输出正确的所述第三语音信息至语音接收终端。
图2为本申请实施例提供的另一种智能语音识别方法的流程示意图,流程执行如下。
A、对语音中的词语、语句、语气信息进行捕捉得到第一语音信息。
A1、获取语音中的常用词组、常用语句以及常用词音节,同时也获取语音中的关键词组、关键语句以及关键词音节。
常用词组、常用语句以及常用词音节如图4所示,包括:称谓词组、指代词组、语气助词、谦辞和敬辞词组、惯用成语以及其他词组。其中,称谓词组包括“你”、“我”、“他”、“你们”、“我们”、“他们”、“父亲”、“母亲”以及“妻子”。指代词组为用抽象概念代替具体事物,语气助词包括“啊”、“呀”以及“了”。谦辞和敬辞词组为尊敬和谦虚词组,可包括“敬爱的”、“小女”以及“愚见”。惯用成语为“步步高升”、“心想事成”以及“万事如意”。其他词组为日常生活语句。
关键词语、关键语句、关键词音节如图5所示,包括多音词组、冷僻词组、一语双关词组、多重含义词组、错别和混淆词组以及其他关键词组,囊括各类关键词组和关键词音节,提高关键词组和关键词音节的整体全面度。
B、根据改进型短时能零差分法,利用语音的各音节之间的停顿间隔对音节进行精准端点检测。
改进型短时能零差分法具体建立在短时能量和短时平均过零率差分阔值相互结合的基础上,可对语音信息进行精准检测,提升语音音节检测的精准度。
音节端点检测模块的检测算法如下:
用En表示第n帧信号Xn(m)的语音短时能量,且m为瞬时信号端点采集点,如下公式所示。
一帧语音信号中波形通过零电平的频率称之为短时过零率,如下公式所示。
公式中,sgn【·】为符号函数,即
音节端点检测模块的检测结果图如图6所示,横坐标为时间,纵坐标为音节端点范围。
语音信号帧的非语音部分,非语音短时能量Mn和短时平均过零率Zn变化缓慢,而在非语音和语音部分的过渡部分这两个参数急剧变化,因此通过判断这两个参数就可以找到语音信号起始点和结束点,由于语音信号的浊音短时能量和短时过零率变化明显,而清音只有短时过零率变化明显。
C、对第一语音信息进行特征提取,获得第二语音信息。
对第一语音信息进行特征提取,采用梅尔频率倒谱系数方式提取代表语音基本特征的参数作为第二语音信息。
C1、对常用词语、常用语句、常用语词音节、关键词语、关键语句、关键词音节进行特征提取放进第二语音信息。
对常用词语、常用语句、常用语词音节、关键词语、关键语句、关键词音节进行特征提取,采用梅尔频率倒谱系数方式提取代表语音基本特征的参数作为第二语音信息。
D、对第二语音信息经过滤波和杂音消除得到第三语音信息。
D1、第三语音信息统一录入大数据库。
E、将第三语音信息解析处理,进行精准对比匹配。
采用云计算对第三语音信息进行精准对比匹配,以大数据库内的原始录入信息和后入信息作为根据,对云计算对比匹配加以佐证,判断对比匹配是否正确。
F、在第三语音信息匹配正确后,进行语气和语境判断,将符合语音口吻的语气和语境的第三语音信息传送至语音接收终端,即完成语音识别作业流程。
语境判断包括“喜”、“怒”、“忧”、“惧”、“爱”、“憎”以及“欲”,且判断的依据为语音中的语气、语境以及字节停顿时间,满足语音识别匹配的多感情需求,增多语音的情感丰富度。
第三语音信息经过语气和语境判断,根据语音词语的语气、字里行间以及阴阳顿挫停顿作为判断依据,将符合语音口吻的语气和语境的第三语音信息传送至语音接收终端,若传送期间出现传输失败、语音字节出现丢失情况,对语音信号数据进行及时撤回,再次将正确的语音信号数据传送至语音接收终端,即完成语音识别作业流程。
在第三语音信号数据匹配发生错误时,将错误的第三语音信息经过主动纠错后,二次确认正确后,将正确的第三语音信息传送至语音接收终端;若二次确认错误后,对此条语音信息作废并存入语音错误日志记录内,且再次输出正确的所述第三语音信息至语音接收终端。
语音错误日志记录包括错字记录日志、错句记录日志以及音节错误记录日志,可分别对错字、错句以及音节错误进行日志记录存储,且语音错误日志的运行系统为Java软件,语音错误日志含有时间戳,可对每条日志信息进行时间标记,便于使用者后期根据时间进行查询语音错误日志记录中所需信条,且语音错误日志的错误找寻时间小于5min,加快使用者找寻错误日志信条的速率,节省错误日志信条的用时。
图3为本申请实施例提供的一种智能语音识别装置的示意图。
智能语音识别装置包括语言捕捉模块、音节端点检测模块、提取模块、滤波和杂音消除模块、服务器、语境情感预测模块。
语言捕捉模块对语音中的词语、语句、语气信息进行捕捉得到第一语音信息。音节端点检测模块根据改进型短时能零差分法,利用语音的各音节之间的停顿间隔对音节进行精准端点检测。提取模块对第一语音信息进行特征提取,获得第二语音信息。滤波和杂音消除模块对第二语音信息经过滤波和杂音消除得到第三语音信息。服务器将第三语音信息解析处理,进行精准对比匹配。语境情感预测模块在第三语音信号数据匹配正确后,进行语气和语境判断,将符合语音口吻的语气和语境的信号数据传送至语音接收终端,即完成语音识别作业流程。
大数据库的输出端单向电连接有存储模块,所述存储模块的数量至少为四块,每块所述存储模块的容量最小为2TB,所述存储模块的存储周期为90天。
以上对申请的具体实施例进行了描述。需要理解的是,申请并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;本领域技术人员可以在权利要求的范围内做出各种变形或修改做出若干简单推演、变形或替换,这并不影响申请的实质内容。
Claims (10)
1.一种智能语音识别方法,包括:
对语音中的词语、语句、语气信息进行捕捉得到第一语音信息;
根据改进型短时能零差分法,利用所述语音的各音节之间的停顿间隔对音节进行精准端点检测;
对所述第一语音信息进行特征提取,获得第二语音信息;
对所述第二语音信息经过滤波和杂音消除得到第三语音信息;
将所述第三语音信息解析处理,进行精准对比匹配;
在所述第三语音信息匹配正确后,进行语气和语境判断,将符合语音口吻的语气和语境的所述第三语音信息传送至语音接收终端,即完成语音识别作业流程。
2.如权利要求1所述的智能语音识别方法,还包括:
获取所述语音中的常用词组、常用语句以及常用词音节,同时也获取所述语音中的关键词组、关键语句以及关键词音节;
对所述常用词语、常用语句、常用语词音节、关键词语、关键语句、关键词音节进行特征提取放进所述第二语音信息。
3.如权利要求1所述的智能语音识别方法,还包括:
所述第三语音信息统一录入大数据库。
4.如权利要求3所述的智能语音识别方法,其中,所述将所述第三语音信息解析处理,进行精准对比匹配,包括:
采用云计算对所述第三语音信息进行精准对比匹配;
以所述大数据库内的原始录入信息和后入信息作为根据,判断对比匹配是否正确。
5.如权利要求1所述的智能语音识别方法,还包括:
在所述第三语音信号数据匹配发生错误时,将错误的所述第三语音信息经过主动纠错后,二次确认正确后,将正确的所述第三语音信息传送至语音接收终端;若二次确认错误后,对此条语音信息作废并存入语音错误日志记录内,且再次输出正确的所述第三语音信息至语音接收终端。
6.如权利要求2所述的智能语音识别方法,其中,
所述常用词组、常用语句以及常用词音节包括:称谓词组、指代词组、语气助词、谦辞和敬辞词组、惯用成语以及其他词组,其中,
称谓词组包括“你”、“我”、“他”、“你们”、“我们”、“他们”、“父亲”、“母亲”以及“妻子”;
指代词组为用抽象概念代替具体事物,语气助词包括“啊”、“呀”以及“了”;
谦辞和敬辞词组为尊敬和谦虚词组,可包括“敬爱的”、“小女”以及“愚见”;
惯用成语为“步步高升”、“心想事成”以及“万事如意”;
其他词组为日常生活语句;
所述关键词语、关键语句、关键词音节包括多音词组、冷僻词组、一语双关词组、多重含义词组、错别和混淆词组以及其他关键词组。
7.如权利要求1或2所述的智能语音识别方法,其中,所述特征提取采用梅尔频率倒谱系数方式提取代表语音基本特征的参数作为所述第二语音信息。
8.根据权利要求3所述的智能语音识别方法,其中,所述大数据库的输出端单向电连接有存储模块,所述存储模块的数量至少为四块,每块所述存储模块的容量最小为2TB,所述存储模块的存储周期为90天。
9.根据权利要求1所述的智能语音识别方法,其中,所述语境判断包括“喜”、“怒”、“忧”、“惧”、“爱”、“憎”以及“欲”,且所述判断的依据为语音中的语气、语境以及字节停顿时间。
10.一种智能语音识别装置,包括:
语言捕捉模块,对语音中的词语、语句、语气信息进行捕捉得到第一语音信息;
音节端点检测模块,根据改进型短时能零差分法,利用所述语音的各音节之间的停顿间隔对音节进行精准端点检测;
提取模块,对所述第一语音信息进行特征提取,获得第二语音信息;
滤波和杂音消除模块,对所述第二语音信息经过滤波和杂音消除得到第三语音信息;
服务器,将所述第三语音信息解析处理,进行精准对比匹配;
语境情感预测模块,在所述第三语音信号数据匹配正确后,进行语气和语境判断,将符合语音口吻的语气和语境的信号数据传送至语音接收终端,即完成语音识别作业流程。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010707201.0A CN111754979A (zh) | 2020-07-21 | 2020-07-21 | 智能语音识别方法及装置 |
PCT/CN2020/105237 WO2022016580A1 (zh) | 2020-07-21 | 2020-07-28 | 智能语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010707201.0A CN111754979A (zh) | 2020-07-21 | 2020-07-21 | 智能语音识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111754979A true CN111754979A (zh) | 2020-10-09 |
Family
ID=72711196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010707201.0A Pending CN111754979A (zh) | 2020-07-21 | 2020-07-21 | 智能语音识别方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111754979A (zh) |
WO (1) | WO2022016580A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689862A (zh) * | 2021-08-23 | 2021-11-23 | 南京优飞保科信息技术有限公司 | 一种客服坐席语音数据的质检方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
CN107045870A (zh) * | 2017-05-23 | 2017-08-15 | 南京理工大学 | 一种基于特征值编码的语音信号端点检测方法 |
CN110047469A (zh) * | 2019-04-09 | 2019-07-23 | 平安科技(深圳)有限公司 | 语音数据情感标注方法、装置、计算机设备及存储介质 |
KR20190096305A (ko) * | 2019-07-29 | 2019-08-19 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버 |
CN111199732A (zh) * | 2018-11-16 | 2020-05-26 | 深圳Tcl新技术有限公司 | 一种基于情感的语音交互方法、存储介质及终端设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) * | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
CN101645064B (zh) * | 2008-12-16 | 2011-04-06 | 中国科学院声学研究所 | 一种浅层自然口语理解系统及方法 |
CN102723078B (zh) * | 2012-07-03 | 2014-04-30 | 武汉科技大学 | 基于自然言语理解的语音情感识别方法 |
CN102982811B (zh) * | 2012-11-24 | 2015-01-14 | 安徽科大讯飞信息科技股份有限公司 | 一种基于实时解码的语音端点检测方法 |
CN103810994B (zh) * | 2013-09-05 | 2016-09-14 | 江苏大学 | 基于情感上下文的语音情感推理方法及系统 |
CN104240699B (zh) * | 2014-09-12 | 2017-05-10 | 浙江大学 | 一种简单有效的短语语音识别方法 |
US10347244B2 (en) * | 2017-04-21 | 2019-07-09 | Go-Vivace Inc. | Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response |
CN110751943A (zh) * | 2019-11-07 | 2020-02-04 | 浙江同花顺智能科技有限公司 | 一种语音情绪识别方法、装置以及相关设备 |
-
2020
- 2020-07-21 CN CN202010707201.0A patent/CN111754979A/zh active Pending
- 2020-07-28 WO PCT/CN2020/105237 patent/WO2022016580A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102231278A (zh) * | 2011-06-10 | 2011-11-02 | 安徽科大讯飞信息科技股份有限公司 | 实现语音识别中自动添加标点符号的方法及系统 |
CN107045870A (zh) * | 2017-05-23 | 2017-08-15 | 南京理工大学 | 一种基于特征值编码的语音信号端点检测方法 |
CN111199732A (zh) * | 2018-11-16 | 2020-05-26 | 深圳Tcl新技术有限公司 | 一种基于情感的语音交互方法、存储介质及终端设备 |
CN110047469A (zh) * | 2019-04-09 | 2019-07-23 | 平安科技(深圳)有限公司 | 语音数据情感标注方法、装置、计算机设备及存储介质 |
KR20190096305A (ko) * | 2019-07-29 | 2019-08-19 | 엘지전자 주식회사 | 지능적 음성 인식 방법, 음성 인식 장치, 지능형 컴퓨팅 디바이스 및 서버 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689862A (zh) * | 2021-08-23 | 2021-11-23 | 南京优飞保科信息技术有限公司 | 一种客服坐席语音数据的质检方法和系统 |
CN113689862B (zh) * | 2021-08-23 | 2024-03-22 | 南京优飞保科信息技术有限公司 | 一种客服坐席语音数据的质检方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2022016580A1 (zh) | 2022-01-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zue | The use of speech knowledge in automatic speech recognition | |
US8949127B2 (en) | Recognizing the numeric language in natural spoken dialogue | |
CN113241096B (zh) | 一种情绪监测装置及方法 | |
CN106782521A (zh) | 一种语音识别系统 | |
CN112151015A (zh) | 关键词检测方法、装置、电子设备以及存储介质 | |
CN110808050B (zh) | 语音识别方法及智能设备 | |
JP4499389B2 (ja) | 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置 | |
Alsayadi et al. | Deep investigation of the recent advances in dialectal arabic speech recognition | |
CN118136022A (zh) | 一种智能语音识别系统及方法 | |
CN111754979A (zh) | 智能语音识别方法及装置 | |
CN111640423A (zh) | 一种词边界估计方法、装置及电子设备 | |
Li et al. | Prompting whisper for qa-driven zero-shot end-to-end spoken language understanding | |
CN115424616A (zh) | 一种音频数据筛选方法、装置、设备及计算机可读介质 | |
EP3718107B1 (en) | Speech signal processing and evaluation | |
KR100366703B1 (ko) | 인간 반응형 음성인식장치 | |
CN118197299B (zh) | 一种基于人机交互的数字人语音识别方法及系统 | |
CN113314123B (zh) | 语音处理方法、电子设备及存储装置 | |
Warusawithana et al. | Enhanced time delay neural network architectures for sinhala speech recognition | |
Abidin et al. | Acoustic model with multiple lexicon types for Indonesian speech recognition | |
JP2983024B2 (ja) | 自然言語処理装置 | |
Abidin et al. | Research Article Acoustic Model with Multiple Lexicon Types for Indonesian Speech Recognition | |
Eyceoz et al. | Modernizing Open-Set Speech Language Identification | |
Niyozmatova et al. | Language and acoustic modeling in Uzbek speech recognition | |
Hussain | Acoustic Feature Based Language Identification Using Single Word Utterances with Fixed Vocabulary | |
CN116844536A (zh) | 一种语音处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210201 Address after: 211100 No. 18 Zhilan Road, Jiangning District, Nanjing City, Jiangsu Province Applicant after: Nanjing Zhihan Technology Development Co.,Ltd. Address before: 211100 18 / F, building 4, No.18 Zhilan Road, Jiangning District, Nanjing City, Jiangsu Province Applicant before: Nanjing Zhijin science and Technology Innovation Service Center |
|
TA01 | Transfer of patent application right | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201009 |
|
WD01 | Invention patent application deemed withdrawn after publication |