CN113192507B - 一种基于语音识别的资讯检索方法及系统 - Google Patents

一种基于语音识别的资讯检索方法及系统 Download PDF

Info

Publication number
CN113192507B
CN113192507B CN202110519526.0A CN202110519526A CN113192507B CN 113192507 B CN113192507 B CN 113192507B CN 202110519526 A CN202110519526 A CN 202110519526A CN 113192507 B CN113192507 B CN 113192507B
Authority
CN
China
Prior art keywords
voice
information
signal
retrieval
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110519526.0A
Other languages
English (en)
Other versions
CN113192507A (zh
Inventor
赵郑
段小霞
刘德恒
于言言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zeqiao Medical Technology Co ltd
Original Assignee
Beijing Zeqiao Media Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zeqiao Media Technology Co ltd filed Critical Beijing Zeqiao Media Technology Co ltd
Priority to CN202110519526.0A priority Critical patent/CN113192507B/zh
Publication of CN113192507A publication Critical patent/CN113192507A/zh
Application granted granted Critical
Publication of CN113192507B publication Critical patent/CN113192507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于语音识别的资讯检索方法及系统,包括以下部分:原始语音资讯信号获取模块、检索目标语音信号获取模块、语音信号过滤模块、切片化处理模块、切片化语音资讯存储模块、数据关联模块、语音转文字模块、文字输出模块、语音信号输出模块;通过精进语音识别技术,建立更迅捷的语音资讯检索方法来模拟大脑原始的信息搜索方式,以更快捷、更精确、更轻量的方法进行资讯检索。

Description

一种基于语音识别的资讯检索方法及系统
技术领域
本发明属于语音识别、资讯检索技术领域,特别涉及一种基于语音识别的资讯检索方法及系统。
背景技术
文字信息检索技术在当今工作与生活中已经非常普及,涉及众多领域,能够方便快捷的帮助用户解决问题。但是随着视频资讯和语音资讯等包含语音信息的数据日益增加,打破常规文字检索技术方法去设计一种适合对语音资讯进行快速检索的检索方法具有时代意义。
现有技术中刘晋元、朱悦、潘永春等人所著的“语音转换的信息处理方法、装置、设备和存储介质”通过获取语音数据,并识别用户的第一语音信息和从客服人员获取的第二语音信息;将所述第一语音信息和所述第二语音信息转换为文字信息;根据所述文字信息提取关键词;再依据所述关键词在预设知识图谱中检索以 获取相关资讯。解决了现有技术由于科技语音客服涉及领域的专业性较强,客服人员往往无法快速并且准确的回答用户提出的问题,导致客户体验度不高的技术问题。达到了对客户的语音进行高精度识别和理解,从而准确提取科技关键词,从而对关键词进行相关资讯检索,最终达到为用户提供快速准确专业的相关资讯的技术效果。但是此方法需要将获取到的语音信号转换成文字的形式进行相关信息的检索,且检索到的内容为进行了文字标记的信息源,并非通过语音信号的形式进行直接的检索,因此大大的增加了系统负载,检索速度较为缓慢,不够轻量,用户体验感仍需加强。
发明内容
本申请所要解决的技术问题是:打破信息检索领域采用文字或将语音信号转为文字信息进行检索的常用技术方法,通过精进语音识别技术,建立更迅捷的语音资讯检索方法来模拟大脑原始的信息搜索方式,以更快捷、更精确、更轻量的方法进行资讯检索。因此,提供一种基于语音识别的资讯检索方法及系统。
本发明技术方案为:
基于语音识别的资讯检索系统,包括以下部分:
原始语音资讯信号获取模块、检索目标语音信号获取模块、语音信号过滤模块、切片化处理模块、切片化语音资讯存储模块、数据关联模块、语音转文字模块、文字输出模块、语音信号输出模块;
所述原始语音资讯信号获取模块,获取语音资讯中一整段语音资讯将其称为原始语音信号,将原始语音信号传输给切片化处理模块,通过切片化处理模块包括通信单元接收原始语音信号并将原始语音信号传输给信息剥离单元对原始语音信号进行剥离处理,得到纯净语音信号并将纯净语音信号传递给语音信号切片单元,在语音信号切片单元中设置能量饱和阈值对纯净语音信号进行切片,得到切片化语音信号将其送入评价单元中,在评价单元基于切片化语音信号对所设置的能量饱和阈值进行评价,更新能量饱和阈值,并将其再送入语音信号切片单元进行再次的切片化处理并送入评价单元进行评价,直达得到符合双评价函数的纯净语音信号片段集合并将其送入通信单元,通信单元将最终的纯净语音信号片段集合及其对应的能量标签传输给切片化语音资讯存储模块中;
通过检索目标语音信号获取模块获取检索目标语音信号,并将检索目标语音信号传输给语音信号过滤模块;通过语音信号过滤模块对检索目标语音信号进行信号剥离,得到纯净检索目标语音信号,并将纯净检索目标语音信号分别传输给语音资讯存储模块和数据关联模块;
通过切片化语音资讯存储模块用于存储切片化处理后的语音信号及其对应的能量标签,计算纯净检索目标语音信号的能量值,并将能量标签大于纯净检索目标语音信号的能量值的纯净语音信号片段集合传输给数据关联模块;
通过数据关联模块对纯净检索目标语音信号和纯净语音信号片段进行关联度计算,得到检索到的语音资讯信息,将检索到的语音资讯信息分别传输给语音信号输出模块和语音转文字模块;
通过语音信号输出模块以语言的形式输出检索到的语音资讯信息;通过语音转文字模块将检索到的语音资讯信息转换成文字资讯信息并传输给文字输出模块,通过文字输出模块以文字的形式输出文字资讯信息。
基于语音识别的资讯检索方法,包括以下步骤:
A 基于原始语音信号所对应的能量参数对原始语音信号进行信号剥离处理,达到对原始语音信号进行标准化处理和降噪的目标,设置能量饱和阈值对语音信号进行切片化处理,并通过双评价函数对能量饱和阈值进行更新,得到优化后的切片化语音信号;
B 获取检索目标语音信号并对其进行信号剥离处理,基于剥离后的检索目标语音信号对切片化语音信号进行关联抽取,获得所要检索的语音资讯,并选择语音信号输出方式进行语音输出或转化成文字信息以文字形式进行文字输出。
优选的,所述步骤A1的能量参数求取方法为:
通过原始语音资讯信号获取模块获取语音资讯中一整段语音资讯并将其称为原始语音信号,并将获取到的原始语音信号的时域波形记为
Figure DEST_PATH_IMAGE001
,其中t表示时间参数,通过下列方法对
Figure 811380DEST_PATH_IMAGE001
进行信息剥离操作:
在切片化处理模块中的信息剥离单元中,基于原始语音信号的特征参数,求取信息能量参数对
Figure 559631DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
,求取公式如下所示:
Figure DEST_PATH_IMAGE005
Figure 420271DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
表示t时刻的语音信号所具有的能量参数对。
优选的,所述步骤A1的信息剥离方法的具体方法为:
结合能量参数通过下列公式对原始语音信号进行信息剥离:
Figure DEST_PATH_IMAGE009
其中
Figure 841281DEST_PATH_IMAGE010
表示进行剥离之后的语音信号,称为纯净语音信号。
优选的,所述步骤A2的能量值的求取方法如下:
将进行剥离之后的语音信号
Figure 380847DEST_PATH_IMAGE010
采用所述步骤A1中的求取信息能量参数对
Figure 371937DEST_PATH_IMAGE002
Figure 680558DEST_PATH_IMAGE003
方法,求取纯净语音信号
Figure 833322DEST_PATH_IMAGE010
所对应的信息能量参数
Figure DEST_PATH_IMAGE011
Figure 93140DEST_PATH_IMAGE012
基于纯净语音信号
Figure 153500DEST_PATH_IMAGE010
及其所对应的信息能量参数
Figure 785469DEST_PATH_IMAGE011
Figure 905872DEST_PATH_IMAGE012
,对纯净语音信号进行切片化处理,具体处理方法如下所示:
设置初始能量饱和阈值
Figure DEST_PATH_IMAGE013
,按照以下方法对
Figure 623292DEST_PATH_IMAGE010
进行切片化处理:
Figure 487343DEST_PATH_IMAGE014
作为起点,
Figure DEST_PATH_IMAGE015
作为第一个切点位置,
Figure 6442DEST_PATH_IMAGE016
表示
Figure DEST_PATH_IMAGE017
纯净语音信号片段的能量值,计算方法如下:
Figure 969850DEST_PATH_IMAGE018
其中
Figure DEST_PATH_IMAGE019
表示在语音信号片段
Figure 643408DEST_PATH_IMAGE020
中具有最大能量参数对的语音信号;
Figure DEST_PATH_IMAGE021
表示在所述语音片段中具有最大能量参数对、所对应的能量参数对一致,并且频率相同的语音信号在
Figure 747368DEST_PATH_IMAGE022
内出现的次数。
优选的,所述步骤A2所述的能量饱和阈值的评价方法如下:
Figure DEST_PATH_IMAGE023
时,确定第一个切点位置
Figure 353930DEST_PATH_IMAGE015
采用同上所述的方法,分别找到第二切点位置
Figure 816136DEST_PATH_IMAGE024
、第三切点位置
Figure DEST_PATH_IMAGE025
、...、第k切点位置
Figure 773727DEST_PATH_IMAGE026
、...、第K切点位置
Figure DEST_PATH_IMAGE027
计算第k-1切点位置到k切点位置之间的能量值,将其记为
Figure 418729DEST_PATH_IMAGE028
计算第K切点位置到纯净语音信号终点T之间的能量值
Figure DEST_PATH_IMAGE029
,并称之为剩余能量
Figure 145376DEST_PATH_IMAGE029
由上述切片方法可知
Figure 778483DEST_PATH_IMAGE030
,在切片化处理模块中的评价单元中基于双评价函数
Figure DEST_PATH_IMAGE031
Figure 659589DEST_PATH_IMAGE032
能量饱和阈值进行调整,
Figure 669133DEST_PATH_IMAGE031
评价函数公式如下所示:
Figure 515866DEST_PATH_IMAGE034
为了防止在进行切片化处理过程中因为忽视语音停顿等产生连贯语音有一定几率被拆分的情况,设置评价函数
Figure 851033DEST_PATH_IMAGE032
,帮助最后所设置的能量饱和阈值在进行语音切片时能够将关键性语音囊括在片段之内,不影响整段语音的整体表述,评价函数
Figure 986479DEST_PATH_IMAGE032
如下所示:
Figure 799714DEST_PATH_IMAGE036
其中n表示所述语音片段中具有最大能量参数对、所对应的能量参数对一致,并且频率相同的语音信号所出现的次数;
能够使
Figure 500954DEST_PATH_IMAGE031
Figure 520205DEST_PATH_IMAGE032
都具有最大值的
Figure DEST_PATH_IMAGE037
即为整段纯净语音信号进行切片化处理的能量饱和阈值,不同的纯净语音信号最终会具有不同的
Figure 611789DEST_PATH_IMAGE037
,即可以将该纯净语音信号所对应的
Figure 963136DEST_PATH_IMAGE037
作为该纯净语音信号的能量标签。
优选的,所述步骤B中信号关联度的求取方法如下:
通过检索目标语音信号获取模块获取检索目标语音信号,在语音信号过滤模块中对检索目标语音信号进行信号剥离,具体剥离方法同步骤A1;
将进行剥离处理后的检索目标语音信号称为纯净检索目标语音信号,记为
Figure 784462DEST_PATH_IMAGE038
,其中
Figure DEST_PATH_IMAGE039
表示纯净检索目标语音信号中的时间参数,且
Figure 930272DEST_PATH_IMAGE040
,
Figure DEST_PATH_IMAGE041
表示纯净检索目标语音信号的时长;
在切片化语音资讯存储模块中通过A2步骤计算
Figure 7687DEST_PATH_IMAGE038
的能量值,并将其记为
Figure 428304DEST_PATH_IMAGE042
;已知在切片化语音资讯存储模块存储的切片化语音信号
Figure DEST_PATH_IMAGE043
对应的能量标签为
Figure 776240DEST_PATH_IMAGE037
,将具有能够使
Figure 358531DEST_PATH_IMAGE044
成立的能量标签的切片化语音信号
Figure 519648DEST_PATH_IMAGE043
送入数据关联模块中;
在数据关联模块中进行资讯检索,具体方法如下:
将纯净语音片段
Figure DEST_PATH_IMAGE045
中同时具有最大能量参数
Figure 681639DEST_PATH_IMAGE046
Figure DEST_PATH_IMAGE047
的语音信号记为
Figure 149660DEST_PATH_IMAGE048
,
Figure DEST_PATH_IMAGE049
将纯净检索目标语音信号
Figure 371694DEST_PATH_IMAGE038
插入到纯净语音片段
Figure 751598DEST_PATH_IMAGE045
中的
Figure 451700DEST_PATH_IMAGE048
位置,生成重构语音信号,并通过步骤A2计算重构语音信号的能量值,并将其记为
Figure 102125DEST_PATH_IMAGE050
通过下列公式求取纯净检索目标语音信号和纯净语音片段
Figure 26218DEST_PATH_IMAGE045
之间的信号关联度
Figure DEST_PATH_IMAGE051
Figure 66987DEST_PATH_IMAGE052
根据实际需求设置等级化阈值
Figure DEST_PATH_IMAGE053
Figure 337824DEST_PATH_IMAGE054
表示一级检索阈值、
Figure DEST_PATH_IMAGE055
表示二级检索阈值、
Figure 780438DEST_PATH_IMAGE056
表示三级检索阈值,且
Figure DEST_PATH_IMAGE057
根据用户所下发的检索等级指令,包括一级检索指令、二级检索指令、三级检索指令进行语音咨询检索;
当数据关联模块50接收到的资讯检索指令为一级检索指令后,输出信号关联度
Figure 344275DEST_PATH_IMAGE058
的纯净语音片段,将其作为一级资讯检索结果进行输出,收到的资讯检索指令为一级检索指令后检索到的语音资讯信息精准度稍低,输出的检索资讯量较高;
当数据关联模块50接收到的资讯检索指令为二级检索指令后,输出信号关联度
Figure DEST_PATH_IMAGE059
的纯净语音片段,将其作为二级资讯检索结果进行输出,收到的资讯检索指令为二级检索指令后检索到的语音资讯信息精准度较高,输出的检索资讯量较少;
当数据关联模块接收到的资讯检索指令为三级检索指令后,输出信号关联度
Figure 167612DEST_PATH_IMAGE060
的纯净语音片段,将其作为三级资讯检索结果进行输出,收到的资讯检索指令为三级检索指令后检索到的语音资讯信息精准度最高,输出的检索资讯量最少;
通过语音转文字模块将所检索到的语音资讯信息转换为文字资讯信息,通过文字输出模块输出文字资讯信息,或者通过语音信号输出模块以语音的形式输出所检索到的语音资讯信息。
本发明至少具有以下有益效果:
(1)本发明所述的能量参数对求取方法引入了正割函数进行数据运算,能够将不同位置间信号的细微变化进行放大,使信号间的对比性更为强烈,在语音识别技术领域具有明显效果。
(2)本发明所述的信息剥离方法,以当前语音信号与相邻位置语音信号所产生的能量参数为依据,对当前语音信号进行转换。与现有技术相比,能够在对信号进行标准化的同时滤除冗杂信号,兼具标准化处理和降噪两种效果。
(3)本发明所述的能量值的求取方法以具有最大能量参数对的语音信号作为基础,并对其进行能量的累积,形象的将语音信号进行了聚焦,迅速的凸显出该语音片段的语音特征。
(4)本发明所述的对能量饱和值进行评价的方法充分利用了函数的线性变化关系,将趋近零且不等于零的值进行大幅度放大,帮助最后所设置的能量饱和阈值在进行语音切片时能够将关键性语音囊括在片段之内,于细微之处选择更完美的能量饱和阈值。
(5)本发明所述的信号关联度的计算方法以能量值的变化为依据,与现有技术相比更为精细,对比性更强,有利于检索到更为精准的语音资讯,让语音资讯的检索脱离了转文字再检索的资讯检索方法,同时达到使资讯检索方法更迅速更轻量的检索目标。
附图说明
图1 本发明所述的基于语音识别的资讯检索系统结构框图;
图2 本发明所述的切片化处理模块结构框图。
具体实施方式
以下将结合本实施例中的附图来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
参考图1,本发明所述的一种基于语音识别的资讯检索系统包括以下部分:
原始语音资讯信号获取模块10、检索目标语音信号获取模块20、语音信号过滤模块30、切片化处理模块40、切片化语音资讯存储模块50、数据关联模块60、语音转文字模块70、文字输出模块80、语音信号输出模块90。
所述原始语音资讯信号获取模块10,用于获取语音资讯中一整段语音资讯将其称为原始语音信号,并通过数据传输方式将原始语音信号传输给切片化处理模块40;
所述检索目标语音信号获取模块20,用于获取检索目标语音信号,并通过数据传输方式将检索目标语音信号传输给语音信号过滤模块30;
语音信号过滤模块30,用于对检索目标语音信号进行信号剥离,得到纯净检索目标语音信号,并通过数据传输的方法将纯净检索目标语音信号分别传输给语音资讯存储模块50和数据关联模块60;
参考图2,切片化处理模块40包括通信单元401、信息剥离单元402、语音信号切片单元403、评价单元404。所述通信单元401,用于接收原始语音信号并将原始语音信号传输给信息剥离单元402;所述信息剥离单元402用于对原始语音信号进行剥离处理,得到纯净语音信号;所述语音信号切片单元403,通过设置能量饱和阈值对纯净语音信号进行切片,得到切片化语音信号;所述评价单元404,基于切片化语音信号对所设置的能量饱和阈值进行评价,更新能量饱和阈值,并将其再送入语音信号切片单元403进行再次的切片化处理并送入评价单元404进行评价,直达得到符合双评价函数的纯净语音信号片段集合并将其送入通信单元401,通信单元401通过数据传输的方式将最终的纯净语音信号片段集合及其对应的能量标签传输给切片化语音资讯存储模块50;
所述切片化语音资讯存储模块50用于存储切片化处理后的语音信号及其对应的能量标签,计算纯净检索目标语音信号的能量值,并通过数据传输的方式将能量标签大于纯净检索目标语音信号的能量值的纯净语音信号片段集合传输给数据关联模块60。
所述数据关联模块60,用于对纯净检索目标语音信号和纯净语音信号片段进行关联度计算,得到检索到的语音资讯信息,并通过数据传输方式,将检索到的语音资讯信息分别传输给语音信号输出模块90和语音转文字模块70;
所述语音转文字模块70,用于将检索到的语音资讯信息转换成文字资讯信息,并通过数据传输的方式将文字资讯信息传输给文字输出模块80;
所述文字输出模块80,用于以文字的形式输出文字资讯信息。
所述语音信号输出模块90,用于以语言的形式输出检索到的语音资讯信息;
本发明所述的一种基于语音识别的资讯检索系统,通过原始语音资讯信号获取模块10获取语音资讯中一整段语音资讯将其称为原始语音信号,将原始语音信号传输给切片化处理模块40,通过切片化处理模块40包括通信单元401接收原始语音信号并将原始语音信号传输给信息剥离单元402对原始语音信号进行剥离处理,得到纯净语音信号并将纯净语音信号传递给语音信号切片单元403,在语音信号切片单元403中设置能量饱和阈值对纯净语音信号进行切片,得到切片化语音信号将其送入评价单元404中,在评价单元404基于切片化语音信号对所设置的能量饱和阈值进行评价,更新能量饱和阈值,并将其再送入语音信号切片单元403进行再次的切片化处理并送入评价单元404进行评价,直达得到符合双评价函数的纯净语音信号片段集合并将其送入通信单元401,通信单元401将最终的纯净语音信号片段集合及其对应的能量标签传输给切片化语音资讯存储模块50中;
通过检索目标语音信号获取模块20获取检索目标语音信号,并将将检索目标语音信号传输给语音信号过滤模块30;通过语音信号过滤模块30对检索目标语音信号进行信号剥离,得到纯净检索目标语音信号,并将纯净检索目标语音信号分别传输给语音资讯存储模块50和数据关联模块60;
通过切片化语音资讯存储模块50用于存储切片化处理后的语音信号及其对应的能量标签,计算纯净检索目标语音信号的能量值,并将能量标签大于纯净检索目标语音信号的能量值的纯净语音信号片段集合传输给数据关联模块60。
通过数据关联模块60对纯净检索目标语音信号和纯净语音信号片段进行关联度计算,得到检索到的语音资讯信息,将检索到的语音资讯信息分别传输给语音信号输出模块90和语音转文字模块70;
通过语音信号输出模块90以语言的形式输出检索到的语音资讯信息;
通过语音转文字模块70将检索到的语音资讯信息转换成文字资讯信息并传输给文字输出模块80,通过文字输出模块80以文字的形式输出文字资讯信息。
本发明所述的一种基于语音识别的资讯检索方法包括:
A 基于原始语音信号所对应的能量参数对原始语音信号进行信号剥离处理,达到对原始语音信号进行标准化处理和降噪的目标,设置能量饱和阈值对语音信号进行切片化处理,并通过双评价函数对能量饱和阈值进行更新,得到更为完美的切片化语音信号;
A1 通过原始语音资讯信号获取模块10获取一整段语音资讯并将其称为原始语音信号,本发明所述的语音资讯是基于大数据网络抓取到的以语音的方式进行存储的资讯,包括视频中的语音、新闻中的语音、专业人士录音等。且本发明所述的原始语音资讯信号获取方法为现有技术,在此不做过多阐述。并将获取到的原始语音信号的时域波形记为
Figure 6255DEST_PATH_IMAGE001
,其中t表示时间参数,通过下列方法对
Figure 834534DEST_PATH_IMAGE001
进行信息剥离操作:
在切片化处理模块40中的信息剥离单元402中,基于原始语音信号的特征参数,求取信息能量参数对
Figure 100430DEST_PATH_IMAGE002
Figure 443687DEST_PATH_IMAGE003
,求取公式如下所示:
Figure 820441DEST_PATH_IMAGE005
Figure 4691DEST_PATH_IMAGE006
Figure 441489DEST_PATH_IMAGE007
表示t时刻的语音信号所具有的能量参数对。
本发明所述的能量参数对求取方法引入了正割函数进行数据运算,能够将不同位置间信号的细微变化进行放大,使信号间的对比性更为强烈,在语音识别技术领域具有明显效果。
结合能量参数通过下列公式对原始语音信号进行信息剥离:
Figure 272042DEST_PATH_IMAGE009
其中
Figure 452487DEST_PATH_IMAGE010
表示进行剥离之后的语音信号,称为纯净语音信号。
本发明所述的信息剥离方法,以当前语音信号与相邻位置语音信号所产生的能量参数为依据,对当前语音信号进行转换。与现有技术相比,能够在对信号进行标准化的同时滤除冗杂信号,兼具标准化处理和降噪两种效果。
A2在切片化处理模块40中的语音信号切片单元403中对纯净语音信号进行切片化处理,具体处理方法如下所示:
将进行剥离之后的语音信号
Figure 786517DEST_PATH_IMAGE010
采用本发明所述步骤A1中的求取信息能量参数对
Figure 597478DEST_PATH_IMAGE002
Figure 649747DEST_PATH_IMAGE003
方法,求取纯净语音信号
Figure 132419DEST_PATH_IMAGE010
所对应的信息能量参数
Figure 586534DEST_PATH_IMAGE011
Figure 365134DEST_PATH_IMAGE012
基于纯净语音信号
Figure 904700DEST_PATH_IMAGE010
及其所对应的信息能量参数
Figure 630211DEST_PATH_IMAGE011
Figure 938832DEST_PATH_IMAGE012
,对纯净语音信号进行切片化处理,具体处理方法如下所示:
设置初始能量饱和阈值
Figure 888334DEST_PATH_IMAGE013
,按照以下方法对
Figure 404942DEST_PATH_IMAGE010
进行切片化处理:
Figure 730881DEST_PATH_IMAGE014
作为起点,
Figure 894009DEST_PATH_IMAGE015
作为第一个切点位置,
Figure 279991DEST_PATH_IMAGE016
表示
Figure 731832DEST_PATH_IMAGE017
纯净语音信号片段的能量值,计算方法如下:
Figure 595883DEST_PATH_IMAGE018
其中
Figure 144676DEST_PATH_IMAGE019
表示在语音信号片段
Figure 934515DEST_PATH_IMAGE020
中具有最大能量参数对的语音信号。
Figure 670390DEST_PATH_IMAGE021
表示在所述语音片段中具有最大能量参数对、所对应的能量参数对一致,并且频率相同的语音信号在
Figure 338131DEST_PATH_IMAGE022
内出现的次数。
本发明所述的能量值的求取方法以具有最大能量参数对的语音信号作为基础,并对其进行能量的累积,形象的将语音信号进行了聚焦,迅速的凸显出该语音片段的语音特征。
Figure 679114DEST_PATH_IMAGE023
时,确定第一个切点位置
Figure 141319DEST_PATH_IMAGE015
采用同上所述的方法,分别找到第二切点位置
Figure 364490DEST_PATH_IMAGE024
、第三切点位置
Figure 570344DEST_PATH_IMAGE025
、...、第k切点位置
Figure 329615DEST_PATH_IMAGE026
、...、第K切点位置
Figure 228300DEST_PATH_IMAGE027
计算第k-1切点位置到k切点位置之间的能量值,将其记为
Figure 407609DEST_PATH_IMAGE028
,计算方法同上。
计算第K切点位置到纯净语音信号终点T之间的能量值
Figure 354836DEST_PATH_IMAGE029
,并称之为剩余能量
Figure 467149DEST_PATH_IMAGE029
,计算方法同上。
由上述切片方法可知
Figure 271157DEST_PATH_IMAGE030
,在切片化处理模块40中的评价单元404中基于双评价函数
Figure 233034DEST_PATH_IMAGE031
Figure 780690DEST_PATH_IMAGE032
对能量饱和阈值进行调整,
Figure 747509DEST_PATH_IMAGE031
评价函数公式如下所示:
Figure 191260DEST_PATH_IMAGE034
为了防止在进行切片化处理过程中因为忽视语音停顿等产生连贯语音有一定几率被拆分的情况,设置评价函数
Figure 610740DEST_PATH_IMAGE032
,帮助最后所设置的能量饱和阈值在进行语音切片时能够将关键性语音囊括在片段之内,不影响整段语音的整体表述,评价函数
Figure 962087DEST_PATH_IMAGE032
如下所示:
Figure DEST_PATH_IMAGE061
其中n表示所述语音片段中具有最大能量参数对、所对应的能量参数对一致,并且频率相同的语音信号所出现的次数。
本发明所述的对能量饱和值进行评价的方法充分利用了函数的线性变化关系,将趋近零且不等于零的值进行大幅度放大,帮助最后所设置的能量饱和阈值在进行语音切片时能够将关键性语音囊括在片段之内,于细微之处选择更完美的能量饱和阈值。
能够使
Figure 19298DEST_PATH_IMAGE031
Figure 430688DEST_PATH_IMAGE032
都具有最大值的
Figure 540726DEST_PATH_IMAGE037
即为整段纯净语音信号进行切片化处理的能量饱和阈值,不同的纯净语音信号最终会具有不同的
Figure 430185DEST_PATH_IMAGE037
,即可以将该纯净语音信号所对应的
Figure 371596DEST_PATH_IMAGE037
作为该纯净语音信号的能量标签。
通过上述方法得到切片化处理后的纯净语音信号片段的集合
Figure 219467DEST_PATH_IMAGE043
称之为切片化语音信号,对应的能量标签为
Figure 613539DEST_PATH_IMAGE037
,将切片化语音信号
Figure 8486DEST_PATH_IMAGE043
和对应的能量标签为
Figure 538824DEST_PATH_IMAGE037
共同送入切片化语音资讯存储模块50中进行存储。
B 获取检索目标语音信号并对其进行信号剥离处理,基于剥离后的检索目标语音信号对切片化语音信号进行关联抽取,获得所要检索的语音资讯,并选择语音信号输出方式进行语音输出或转化成文字信息以文字形式进行文字输出。
通过检索目标语音信号获取模块20获取检索目标语音信号,本发明所述的检索目标语音信号获取方法为现有技术,在此不做过多阐述。在语音信号过滤模块30中对检索目标语音信号进行信号剥离,产生对检索目标语音信号进行标准化处理和过滤的作用,具体剥离方法同本发明所述步骤A1,在此不做过多阐述。
将进行剥离处理后的检索目标语音信号称为纯净检索目标语音信号,记为
Figure 292017DEST_PATH_IMAGE038
,其中
Figure 438964DEST_PATH_IMAGE039
表示纯净检索目标语音信号中的时间参数,且
Figure 935805DEST_PATH_IMAGE040
,
Figure 586229DEST_PATH_IMAGE041
表示纯净检索目标语音信号的时长。
在切片化语音资讯存储模块50中通过本发明所述的A2步骤计算
Figure 244743DEST_PATH_IMAGE038
的能量值,并将其记为
Figure 114873DEST_PATH_IMAGE042
已知在切片化语音资讯存储模块50存储的切片化语音信号
Figure 353087DEST_PATH_IMAGE043
对应的能量标签为
Figure 123597DEST_PATH_IMAGE037
,将具有能够使
Figure 218592DEST_PATH_IMAGE044
成立的能量标签的切片化语音信号
Figure 74552DEST_PATH_IMAGE043
送入数据关联模块60中。
在数据关联模块60中进行资讯检索,具体方法如下:
将纯净语音片段
Figure 913195DEST_PATH_IMAGE045
中同时具有最大能量参数
Figure 272633DEST_PATH_IMAGE046
Figure 37064DEST_PATH_IMAGE047
的语音信号记为
Figure 318004DEST_PATH_IMAGE048
,
Figure 960338DEST_PATH_IMAGE049
将纯净检索目标语音信号
Figure 439861DEST_PATH_IMAGE038
插入到纯净语音片段
Figure 142237DEST_PATH_IMAGE045
中的
Figure 910473DEST_PATH_IMAGE048
位置,生成重构语音信号,并通过本发明所述的步骤A2计算重构语音信号的能量值,并将其记为
Figure 682182DEST_PATH_IMAGE050
通过下列公式求取纯净检索目标语音信号和纯净语音片段
Figure 219473DEST_PATH_IMAGE045
之间的信号关联度
Figure 827172DEST_PATH_IMAGE051
Figure 879442DEST_PATH_IMAGE052
本发明所述的信号关联度的计算方法以能量值的变化为依据,与现有技术相比更为精细,对比性更强,有利于检索到更为精准的语音资讯,让语音资讯的检索脱离了转文字再检索的资讯检索方法,同时达到使资讯检索方法更迅速更轻量的检索目标。
根据实际需求设置等级化阈值
Figure 597999DEST_PATH_IMAGE053
Figure 317693DEST_PATH_IMAGE054
表示一级检索阈值、
Figure 798091DEST_PATH_IMAGE055
表示二级检索阈值、
Figure 337657DEST_PATH_IMAGE056
表示三级检索阈值,且
Figure 859905DEST_PATH_IMAGE057
根据用户所下发的检索等级指令,包括一级检索指令、二级检索指令、三级检索指令进行语音咨询检索。
当数据关联模块50接收到的资讯检索指令为一级检索指令后,输出信号关联度
Figure 434106DEST_PATH_IMAGE058
的纯净语音片段,将其作为一级资讯检索结果进行输出,收到的资讯检索指令为一级检索指令后检索到的语音资讯信息精准度稍低,输出的检索资讯量较高;
当数据关联模块50接收到的资讯检索指令为二级检索指令后,输出信号关联度
Figure 383607DEST_PATH_IMAGE059
的纯净语音片段,将其作为二级资讯检索结果进行输出,收到的资讯检索指令为二级检索指令后检索到的语音资讯信息精准度较高,输出的检索资讯量较少;
当数据关联模块50接收到的资讯检索指令为三级检索指令后,输出信号关联度
Figure 144890DEST_PATH_IMAGE060
的纯净语音片段,将其作为三级资讯检索结果进行输出,收到的资讯检索指令为三级检索指令后检索到的语音资讯信息精准度最高,输出的检索资讯量最少;
通过语音转文字模块70将所检索到的语音资讯信息转换为文字资讯信息,且本发明所述语音转文字方法为现有技术,在此不做过多阐述,通过文字输出模块80输出文字资讯信息,或者通过语音信号输出模块90以语音的形式输出所检索到的语音资讯信息。
本发明所述的资讯检索方法以每一个语音资讯所对应的能量饱和阈值作为能量标签对存储的语音资讯进行初步的调取,方法简单快捷,大大减少了资讯检索工作中的系统负载,且通过能量参数找寻语音插入位置的方法简单有效,结合能量关联度的计算让语音资讯的检索脱离了转文字再检索的常规检索操作,具有较高的可实施性。
综上所述,实现了本发明所述的一种基于语音识别的资讯检索方法及系统。
可以理解的是,以上仅是本发明的较佳实施例,任何基于本发明的精神所做的改动均应在本发明的保护范围之内。

Claims (7)

1.一种基于语音识别的资讯检索系统,其特征在于,包括以下部分:
原始语音资讯信号获取模块、检索目标语音信号获取模块、语音信号过滤模块、切片化处理模块、切片化语音资讯存储模块、数据关联模块、语音转文字模块、文字输出模块、语音信号输出模块;
所述原始语音资讯信号获取模块,获取语音资讯中一整段语音资讯将其称为原始语音信号,将原始语音信号传输给切片化处理模块,通过切片化处理模块包括通信单元接收原始语音信号并将原始语音信号传输给信息剥离单元对原始语音信号进行剥离处理,得到纯净语音信号并将纯净语音信号传递给语音信号切片单元,在语音信号切片单元中设置能量饱和阈值对纯净语音信号进行切片,得到切片化语音信号将其送入评价单元中,在评价单元基于切片化语音信号对所设置的能量饱和阈值进行评价,更新能量饱和阈值,并将其再送入语音信号切片单元进行再次的切片化处理并送入评价单元进行评价,直至得到符合双评价函数的纯净语音信号片段集合并将其送入通信单元,通信单元将最终的纯净语音信号片段集合及其对应的能量标签传输给切片化语音资讯存储模块中;
通过检索目标语音信号获取模块获取检索目标语音信号,并将检索目标语音信号传输给语音信号过滤模块;通过语音信号过滤模块对检索目标语音信号进行信号剥离,得到纯净检索目标语音信号,并将纯净检索目标语音信号分别传输给语音资讯存储模块和数据关联模块;
通过切片化语音资讯存储模块用于存储切片化处理后的语音信号及其对应的能量标签,计算纯净检索目标语音信号的能量值,并将能量标签大于纯净检索目标语音信号的能量值的纯净语音信号片段集合传输给数据关联模块;
通过数据关联模块对纯净检索目标语音信号和纯净语音信号片段进行关联度计算,得到检索到的语音资讯信息,将检索到的语音资讯信息分别传输给语音信号输出模块和语音转文字模块;
通过语音信号输出模块以语言的形式输出检索到的语音资讯信息;通过语音转文字模块将检索到的语音资讯信息转换成文字资讯信息并传输给文字输出模块,通过文字输出模块以文字的形式输出文字资讯信息。
2.一种基于语音识别的资讯检索方法,其特征在于,包括以下步骤:
A基于原始语音信号所对应的能量参数对原始语音信号进行信号剥离处理,达到对原始语音信号进行标准化处理和降噪的目标,设置能量饱和阈值对语音信号进行切片化处理,并通过双评价函数对能量饱和阈值进行更新,得到优化后的切片化语音信号;
设置初始能量饱和阈值θ0,基于纯净语音信号x*(t)及其所对应的信息能量参数α*(t)、β*(t),按照下述方法对语音信号x*(t)进行切片化处理:
设t=0作为起点,t=t1作为第一个切点位置,EG(0~t1)表示0~t1纯净语音信号片段的能量值,计算方法如下:
Figure FDA0003526096230000021
其中,MAX[x*(0~t1)|α*(0~t1),β*(0~t1)]表示在语音信号片段x*(0~t1)中具有最大能量参数对的语音信号,t、t1表示时间,n1表示在所述语音片段中具有最大能量参数对、所对应的能量参数对一致;
B获取检索目标语音信号并对其进行信号剥离处理,基于剥离后的检索目标语音信号对切片化语音信号进行关联抽取,获得所要检索的语音资讯,并选择语音信号输出方式进行语音输出或转化成文字信息以文字形式进行文字输出;
将纯净语音片段x*(tk-1~tk)中同时具有最大能量参数α*和β*的语音信号记为x*(ik),ik∈(tk-1~tk),k为切点位置的序号;
将纯净检索目标语音信号RV(t*)插入到纯净语音片段x*(tk-1~tk)中的x*(ik)位置,生成重构语音信号,将重构语音信号代入到公式①中,计算得到重构语音信号的能量值,并将其记为EG(0~T*,tk-1~tk),T*表示纯净检索目标语音信号的时长;
通过下列公式求取纯净检索目标语音信号和纯净语音片段x*(tk-1~tk)之间的信号关联度
Figure FDA0003526096230000022
Figure FDA0003526096230000023
根据实际需求设置等级化阈值τ∈{τ1,τ2,τ3},τ1表示一级检索阈值、τ2表示二级检索阈值、τ3表示三级检索阈值,且τ3>τ2>τ1
根据用户所下发的检索等级指令,包括一级检索指令、二级检索指令、三级检索指令进行语音咨询检索。
3.如权利要求2所述的基于语音识别的资讯检索方法,其特征在于,所述步骤A的能量参数求取方法为:
通过原始语音资讯信号获取模块获取语音资讯中一整段语音资讯并将其称为原始语音信号,并将获取到的原始语音信号的时域波形记为x(t),其中t表示时间参数,通过下列方法对x(t)进行信息剥离操作:
在切片化处理模块中的信息剥离单元中,基于原始语音信号的特征参数,求取信息能量参数对α、β,求取公式如下所示:
Figure FDA0003526096230000031
α(t)、β(t)表示t时刻的语音信号所具有的能量参数对。
4.如权利要求2所述的基于语音识别的资讯检索方法,其特征在于,所述步骤A的信息剥离方法的具体方法为:
结合能量参数通过下列公式对原始语音信号进行信息剥离:
Figure FDA0003526096230000032
其中x*(t)表示进行剥离之后的语音信号,称为纯净语音信号。
5.如权利要求4所述的基于语音识别的资讯检索方法,其特征在于,所述步骤A的能量值的求取方法如下:
将剥离后的语音信号x*(t)代入公式②中,求取纯净语音信号x*(t)所对应的信息能量参数α*(t)、β*(t);
基于纯净语音信号x*(t)及其所对应的信息能量参数α*(t)、β*(t),对纯净语音信号进行切片化处理,具体处理方法如下所示:
设置初始能量饱和阈值θ0,按照以下方法对x*(t)进行切片化处理:
设t=0作为起点,t=t1作为第一个切点位置,EG(0~t1)表示0~t1纯净语音信号片段的能量值,计算方法如下:
Figure FDA0003526096230000041
其中MAX[x*(0~t1)|α*(0~t1),β*(0~t1)]表示在语音信号片段x*(0~t1)中具有最大能量参数对的语音信号;n1表示在所述语音片段中具有最大能量参数对、所对应的能量参数对一致,并且频率相同的语音信号在t∈(0~t1)内出现的次数。
6.如权利要求5所述的基于语音识别的资讯检索方法,其特征在于,所述步骤A所述的能量饱和阈值的评价方法如下:
Figure FDA0003526096230000042
时,确定第一个切点位置t=t1
采用同上所述的方法,分别找到第二切点位置t=t2、第三切点位置t=t3、...、第k切点位置t=tk、...、第K切点位置t=tK
计算第k-1切点位置到k切点位置之间的能量值,将其记为EG(tk-1~tk);
计算第K切点位置到纯净语音信号终点T之间的能量值EG(tK~T),并称之为剩余能量EG(tK~T);
由上述切片方法可知0<EG(tK~T)<θ0,在切片化处理模块中的评价单元中基于双评价函数δ1、δ2能量饱和阈值进行调整,δ1评价函数公式如下所示:
Figure FDA0003526096230000043
设置评价函数δ2,帮助最后所设置的能量饱和阈值在进行语音切片时能够将关键性语音囊括在片段之内,不影响整段语音的整体表述,评价函数δ2如下所示:
δ2=n1+n2+...+nk...+nK+nK+1
其中n表示所述语音片段中具有最大能量参数对、所对应的能量参数对一致,并且频率相同的语音信号所出现的次数;
能够使δ1和δ2都具有最大值的θ*即为整段纯净语音信号进行切片化处理的能量饱和阈值,不同的纯净语音信号最终会具有不同的θ*,即可以将该纯净语音信号所对应的θ*作为该纯净语音信号的能量标签。
7.如权利要求6所述的基于语音识别的资讯检索方法,其特征在于,所述步骤B中信号关联度的求取方法如下:
通过检索目标语音信号获取模块获取检索目标语音信号,在语音信号过滤模块中对检索目标语音信号进行信号剥离,具体剥离方法同步骤A;
将进行剥离处理后的检索目标语音信号称为纯净检索目标语音信号,记为RV(t*),其中t*表示纯净检索目标语音信号中的时间参数,且t*∈[0,T*],T*表示纯净检索目标语音信号的时长;
在切片化语音资讯存储模块中通过步骤A计算RV(t*)的能量值,并将其记为EG(0~T*);
已知在切片化语音资讯存储模块存储的切片化语音信号{x*(tk-1~tk)}对应的能量标签为θ*,将具有能够使θ*≥EG(0~T*)成立的能量标签的切片化语音信号{x*(tk-1~tk)}送入数据关联模块中;
在数据关联模块中进行资讯检索,具体方法如下:
将纯净语音片段x*(tk-1~tk)中同时具有最大能量参数α*和β*的语音信号记为x*(ik),ik∈(tk-1~tk);
将纯净检索目标语音信号RV(t*)插入到纯净语音片段x*(tk-1~tk)中的x*(ik)位置,生成重构语音信号,并通过步骤A计算重构语音信号的能量值,并将其记为EG(0~T*,tk-1~tk);
通过下列公式求取纯净检索目标语音信号和纯净语音片段x*(tk-1~tk)之间的信号关联度
Figure FDA0003526096230000051
Figure FDA0003526096230000052
根据实际需求设置等级化阈值τ∈{τ1,τ2,τ3},τ1表示一级检索阈值、τ2表示二级检索阈值、τ3表示三级检索阈值,且τ3>τ2>τ1
根据用户所下发的检索等级指令,包括一级检索指令、二级检索指令、三级检索指令进行语音咨询检索;
当数据关联模块接收到的资讯检索指令为一级检索指令后,输出信号关联度
Figure FDA0003526096230000053
的纯净语音片段,将其作为一级资讯检索结果进行输出,收到的资讯检索指令为一级检索指令后检索到的语音资讯信息精准度稍低,输出的检索资讯量较高;
当数据关联模块接收到的资讯检索指令为二级检索指令后,输出信号关联度
Figure FDA0003526096230000061
的纯净语音片段,将其作为二级资讯检索结果进行输出,收到的资讯检索指令为二级检索指令后检索到的语音资讯信息精准度较高,输出的检索资讯量较少;
当数据关联模块接收到的资讯检索指令为三级检索指令后,输出信号关联度
Figure FDA0003526096230000062
的纯净语音片段,将其作为三级资讯检索结果进行输出,收到的资讯检索指令为三级检索指令后检索到的语音资讯信息精准度最高,输出的检索资讯量最少;
通过语音转文字模块将所检索到的语音资讯信息转换为文字资讯信息,通过文字输出模块输出文字资讯信息,或者通过语音信号输出模块以语音的形式输出所检索到的语音资讯信息。
CN202110519526.0A 2021-05-13 2021-05-13 一种基于语音识别的资讯检索方法及系统 Active CN113192507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110519526.0A CN113192507B (zh) 2021-05-13 2021-05-13 一种基于语音识别的资讯检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110519526.0A CN113192507B (zh) 2021-05-13 2021-05-13 一种基于语音识别的资讯检索方法及系统

Publications (2)

Publication Number Publication Date
CN113192507A CN113192507A (zh) 2021-07-30
CN113192507B true CN113192507B (zh) 2022-04-29

Family

ID=76981356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110519526.0A Active CN113192507B (zh) 2021-05-13 2021-05-13 一种基于语音识别的资讯检索方法及系统

Country Status (1)

Country Link
CN (1) CN113192507B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001016936A1 (en) * 1999-08-31 2001-03-08 Accenture Llp Voice recognition for internet navigation
EP2063420A1 (en) * 2007-11-26 2009-05-27 EyeP Media S.A. Method and assembly to enhance the intelligibility of speech
CN103489454A (zh) * 2013-09-22 2014-01-01 浙江大学 基于波形形态特征聚类的语音端点检测方法
CN109545190A (zh) * 2018-12-29 2019-03-29 联动优势科技有限公司 一种基于关键词的语音识别方法
CN109635151A (zh) * 2018-12-18 2019-04-16 深圳市沃特沃德股份有限公司 建立音频检索索引的方法、装置及计算机设备
TW202019133A (zh) * 2018-11-12 2020-05-16 中華電信股份有限公司 軟體定義驅動的ict服務端對端協作系統

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001016936A1 (en) * 1999-08-31 2001-03-08 Accenture Llp Voice recognition for internet navigation
EP2063420A1 (en) * 2007-11-26 2009-05-27 EyeP Media S.A. Method and assembly to enhance the intelligibility of speech
CN103489454A (zh) * 2013-09-22 2014-01-01 浙江大学 基于波形形态特征聚类的语音端点检测方法
TW202019133A (zh) * 2018-11-12 2020-05-16 中華電信股份有限公司 軟體定義驅動的ict服務端對端協作系統
CN109635151A (zh) * 2018-12-18 2019-04-16 深圳市沃特沃德股份有限公司 建立音频检索索引的方法、装置及计算机设备
CN109545190A (zh) * 2018-12-29 2019-03-29 联动优势科技有限公司 一种基于关键词的语音识别方法

Also Published As

Publication number Publication date
CN113192507A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
JP6462651B2 (ja) 音声翻訳装置、音声翻訳方法及びプログラム
CN110880316A (zh) 一种音频的输出方法和系统
CN111489765A (zh) 一种基于智能语音技术的话务服务质检方法
CN115880120B (zh) 一种在线政务服务系统及服务方法
CN108595406B (zh) 一种用户状态的提醒方法、装置、电子设备及存储介质
GB2499021A (en) Reporting the impact of broadcasts
CN116665676B (zh) 一种用于智能语音外呼系统的语义识别方法
CN111539199A (zh) 文本的纠错方法、装置、终端、及存储介质
CN114328817A (zh) 一种文本处理方法和装置
CN113192507B (zh) 一种基于语音识别的资讯检索方法及系统
Ramadani et al. A new technology on translating Indonesian spoken language into Indonesian sign language system.
CN111179936A (zh) 通话录音监控方法
CN104866604B (zh) 一种信息处理方法及服务器
CN112927723A (zh) 基于深度神经网络的高性能抗噪语音情感识别方法
CN110858234A (zh) 一种根据人物情感进行信息推送的方法及装置
CN111354350A (zh) 语音处理方法及装置、语音处理设备、电子设备
CN114822506A (zh) 一种消息播报方法、装置、移动终端及存储介质
JP6344849B2 (ja) 映像識別器学習装置、及びプログラム
CN110400578A (zh) 哈希码的生成及其匹配方法、装置、电子设备和存储介质
KR20200036188A (ko) 버추얼 상담 시스템 및 이를 이용한 상담방법
CN111312260A (zh) 一种人声分离方法和装置以及设备
CN111866079A (zh) 一种财经资讯推送系统及方法
CN116628140B (zh) 基于人机交互的信息推送方法及装置、人机交互系统
CN112820274B (zh) 一种语音信息识别校正方法和系统
CN116978384B (zh) 一种公安一体化大数据管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100176 3203, 32nd floor, building 2, yard 1, Ronghua South Road, economic and Technological Development Zone, Daxing District, Beijing

Patentee after: Beijing Zeqiao Medical Technology Co.,Ltd.

Address before: 100176 3203, 32nd floor, building 2, yard 1, Ronghua South Road, economic and Technological Development Zone, Daxing District, Beijing

Patentee before: Beijing Zeqiao Media Technology Co.,Ltd.

CP01 Change in the name or title of a patent holder