CN112735412A - 一种根据语音指令搜索信息的方法和系统 - Google Patents

一种根据语音指令搜索信息的方法和系统 Download PDF

Info

Publication number
CN112735412A
CN112735412A CN202011565565.6A CN202011565565A CN112735412A CN 112735412 A CN112735412 A CN 112735412A CN 202011565565 A CN202011565565 A CN 202011565565A CN 112735412 A CN112735412 A CN 112735412A
Authority
CN
China
Prior art keywords
data
voice
keyword
instruction
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011565565.6A
Other languages
English (en)
Other versions
CN112735412B (zh
Inventor
刘沛丰
游峰磊
李井娜
胡鑫平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Borui Tongyun Technology Co ltd
Original Assignee
Beijing Borui Tongyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Borui Tongyun Technology Co ltd filed Critical Beijing Borui Tongyun Technology Co ltd
Priority to CN202011565565.6A priority Critical patent/CN112735412B/zh
Publication of CN112735412A publication Critical patent/CN112735412A/zh
Application granted granted Critical
Publication of CN112735412B publication Critical patent/CN112735412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及一种根据语音指令搜索信息的方法和系统,所述方法包括:接收第一语音指令数据;对第一语音指令数据进行第一语音识别处理生成第一指令数据;对第一指令数据进行第一语音指令头识别;识别成功,则对第一指令数据进行第一关键词提取处理生成第一关键词数据;从标准关键词信息列表中搜素与第一关键词数据近似的第一标准关键词信息;根据每个第一标准关键词数据,对知识信息库进行知识信息搜索,得到多个第一搜索数据组;由第一搜索数据组和第一相似度百分比数据组成第一搜索数据组;统计所有第一搜索数据生成第一搜索数据组集合,并输出。本发明实施例为用户提供了丰富的知识信息,并同时提供语音查询指令,提高了用户的使用体验度。

Description

一种根据语音指令搜索信息的方法和系统
技术领域
本发明涉及数据处理技术领域,特别涉及一种根据语音指令搜索信息的方法和系统。
背景技术
现代社会处于一个信息爆炸的时代。在这样一个快速迭代的社会中,对知识的学习效率及对信息的更新速度就显得尤为重要,只有掌握得更多、更好,才能保持竞争优势。但是,互联网上的信息过于庞大,知识也过于发散,需要人们自行梳理、整理、归档、学习,这无疑降低了人们获取知识与信息的效率。
发明内容
本发明的目的,就是针对现有技术的缺陷,提供一种根据语音指令搜索信息的方法和系统,基于可持续更新的知识信息库,为用户提供了丰富的专项知识与相关信息,并同时提供标准的语音查询指令,提高了用户的使用体验度。
为实现上述目的,本发明实施例第一方面提供了一种根据语音指令搜索信息的方法,所述方法包括:
语音搜索系统接收第一语音指令数据;
对所述第一语音指令数据,进行第一语音识别处理,生成第一指令数据;
对所述第一指令数据,进行第一语音指令头识别处理;
所述第一语音指令头识别处理成功,则对所述第一指令数据,进行第一关键词提取处理,生成第一关键词数据;
从预设的标准关键词信息列表中,搜素与所述第一关键词数据近似的标准关键词信息,生成多个第一标准关键词数据和对应的第一相似度百分比数据;所述标准关键词信息列表包括多个所述标准关键词信息;
根据每个所述第一标准关键词数据,对预设的知识信息库,进行知识信息搜索处理,得到多个相关数据,组成与每个所述第一标准关键词数据对应的第一搜索数据组;
由与每个所述第一标签数据对应的所述第一搜索数据组和所述第一相似度百分比数据,组成与每个所述第一标签数据对应的第一搜索数据组;统计所有所述第一搜索数据组,生成第一搜索数据组集合,并输出。
优选的,所述对所述第一语音指令数据,进行第一语音识别处理,生成第一指令数据,具体包括:
对所述第一语音指令数据,进行第一音频滤波和降噪处理,生成第一指令音频数据;并将所述第一指令音频数据,输入第一人工智能语音识别模型中进行识别处理,并将识别结果做为所述第一指令数据。
优选的,所述对所述第一指令数据,进行第一语音指令头识别处理,具体包括:
在所述第一指令数据中,从第1个子数据开始,提取预设的第一个数的所述子数据,生成第一提取数据;所述第一指令数据包括多个所述子数据;
当所述第一提取数据与预设的第一指令头数据相同时,所述第一语音指令头识别处理成功。
优选的,所述对所述第一指令数据,进行第一关键词提取处理,生成第一关键词数据,具体包括:
根据所述第一个数加1的和,生成第一提取位置数据;
在所述第一指令数据中,提取所述第一提取位置数据之后的所有子数据,生成所述第一关键词数据。
优选的,所述从预设的标准关键词信息列表中,搜素与所述第一关键词数据近似的标准关键词信息,生成多个第一标准关键词数据和对应的第一相似度百分比数据,具体包括:
从所述标准关键词信息列表中,依次提取所述标准关键词信息,做为第一当前关键词信息;对所述第一当前关键词信息和所述第一关键词数据,进行第一数据相似度比对处理,生成第一当前相似度百分比数据;当所述第一当前相似度百分比数据超过预设的相似度阈值时,将所述第一当前关键词信息,做为所述第一标准关键词数据,并将所述第一当前相似度百分比数据,做为所述第一相似度百分比数据。
优选的,
所述多个相关数据至少包括与所述第一标准关键词数据对应的第一相关知识数据、第一相关机构数据列表和第一相关文章数据列表;所述第一相关机构数据列表包括多个第一相关机构数据;所述第一相关文章数据列表包括多个第一相关文章数据。
本发明实施例第二方面提供了一种根据语音指令搜索信息的系统,其特征在于,所述系统包括:
语音获取模块用于接收第一语音指令数据;
语音处理模块用于对所述第一语音指令数据,进行第一语音识别处理,生成第一指令数据;
数据处理模块用于对所述第一指令数据,进行第一语音指令头识别处理;所述第一语音指令头识别处理成功,则对所述第一指令数据,进行第一关键词提取处理,生成第一关键词数据;并从预设的标准关键词信息列表中,搜素与所述第一关键词数据近似的标准关键词信息,生成多个第一标准关键词数据和对应的第一相似度百分比数据;所述标准关键词信息列表包括多个所述标准关键词信息;
搜索处理模块用于根据每个所述第一标准关键词数据,对预设的知识信息库,进行知识信息搜索处理,得到多个相关数据,组成与每个所述第一标准关键词数据对应的第一搜索数据组;由与每个所述第一标签数据对应的所述第一搜索数据组和所述第一相似度百分比数据,组成与每个所述第一标签数据对应的第一搜索数据组;统计所有所述第一搜索数据组,生成第一搜索数据组集合,并输出。
本发明实施例提供一种根据语音指令搜索信息的方法和系统,基于可持续更新的知识信息库,为用户提供了丰富的专项知识与相关信息,并同时提供标准的语音查询指令,提高了用户的使用体验度。
附图说明
图1为本发明实施例一提供的一种根据语音指令搜索信息的方法示意图;
图2为本发明实施例二提供的一种根据语音指令搜索信息的系统结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例一提供一种根据语音指令搜索信息的方法,如图1为本发明实施例一提供的一种根据语音指令搜索信息的方法示意图所示,本方法主要包括如下步骤:
步骤1,语音搜索系统接收第一语音指令数据。
这里,语音搜索系统的语音获取模块获取到用户录入的第一语音指令数据;语音搜索系统是自带知识信息库的用于获取用户录入语音、并根据录入语音进行知识信息搜索的系统;语音搜索系统至少包括语音获取模块、语音处理模块、数据处理模块和搜索处理模块。
步骤2,对第一语音指令数据,进行第一语音识别处理,生成第一指令数据;
这里,语音搜索系统的语音处理模块在对用户录入的语音进行滤波降噪之后,使用人工智能语音识别模型进行对其进行语音识别,得到一串文字信息也就是第一指令数据;
具体包括:步骤21,对第一语音指令数据,进行第一音频滤波和降噪处理,生成第一指令音频数据;
这里,因为第一语音指令数据是用户的原始录入语音,除了人声之外还包含了许多其他噪音,诸如环境噪音、回声、混响等,所以需要对其进行滤波降噪;语音处理模块使用最小均方(Least mean square,LMS)自适应滤波、维纳滤波等方式对第一语音指令数据中的环境噪音、回声、混响等进行噪音消除处理;第一指令音频数据为从第一语音数据中消除了上述噪音后保留的信号最强、最规律、持续时间最长、且声音特征最接近人声特征的声音数据;
步骤22,将第一指令音频数据,输入第一人工智能语音识别模型中进行识别处理,并将识别结果做为第一指令数据。
这里,第一人工智能语音识别模型包括第一声学模型和第一语言模型;第一声学模型用于从第一语句音频数据中,按时间先后顺序提取出基础发音的发音序列,第一语言模型用于对发音序列进行顺序组合得到多个字词,并对所有字词按定向语义顺序,进行语义分析,得到最大概率的一句文字数据;第一声学模型常用的有1)由隐马尔科夫模型((Hidden Markov Model,HMM)+高斯混合模型(Gaussian Mixture Model,GMM)组成的声学模型,2)由HMM+深度神经网络(Deep Neural Network,DNN)组成的声学模型;第一语言模型常用的有:1)N-Gram语言模型,2)汉语语言模型(Chinese Language Model,CLM);
例如,第一指令音频数据的语音内容为“查询减肥”,则第一声学模型对第一指令音频数据进行基础发音提取后,得到的汉语拼音发音序列为(c,a,x,un,j,i,an,f,ei);第一语言模型对汉语拼音发音序列进行顺序组合可以得到多个字词[(擦,查,茶),(询,循,寻),(减,检,捡),(肥,绯)];第一语言模型再对所有字词按时间先后顺序也就是从前到后的顺序进行语义分析也就是常说的词性与语法分析,得到几个不同概率的文字语句,例如“查循捡肥”的概率为6%、“查寻捡肥”的概率为12%、“查询减肥”的概率为67%;第一语言模型从其中提取概率最高的文字语句,也就是“查询减肥”作为最终的识别结果也就是第一指令数据。
步骤3,对第一指令数据,进行第一语音指令头识别处理;
这里,语音搜索系统的数据处理模块使用最预先设定的标准指令头信息,例如“查询”,对第一指令数据进行比对,若第一指令数据中包含了该标准指令头信息则识别成功;
具体包括:步骤31,在第一指令数据中,从第1个子数据开始,提取预设的第一个数的子数据,生成第一提取数据;其中,第一指令数据包括多个子数据;
这里,本发明实施例的标准指令数据格式应该是:预设的标准指令头信息+关键词数据;第一个数就是标准指令头信息的长度;本步骤就是从第一指令数据的前部,提取出第一个数的子数据来,为下一步骤的指令头比对做数据准备;
例如,第一指令数据为“查询减肥”,预设的第一个数为2,则第一提取数据为“查询”;
步骤32,当第一提取数据与预设的第一指令头数据相同时,第一语音指令头识别处理成功。
这里,预设的第一指令头数据就是上文中描述的预设的标准指令头信息。
例如,预设的标准指令头信息也就是第一指令头数据为“查询”,第一提取数据也为“查询”,第一指令头数据与第一提取数据相同,则第一语音指令头识别处理成功。
另外,如果第一提取数据与预设的第一指令头数据不相同,则第一语音指令头识别处理失败,对应的语音搜索系统会终止当前正在处理的语音搜索处理,并向用户返回类似指令不清晰一类的错误提示。
步骤4,第一语音指令头识别处理成功,则对第一指令数据,进行第一关键词提取处理,生成第一关键词数据;
这里,语音搜索系统的数据处理模块从第一指令数据中,提取标准指令头信息之外的其他的数据,做为第一关键词数据;
具体包括:步骤41,根据第一个数加1的和,生成第一提取位置数据;
这里,第一提取位置数据=第一个数+1,由前文描述可知,本发明实施例的标准指令数据格式是:标准指令头信息(即第一指令头数据)+关键词数据,第一提取位置数据就是在第一指令数据中第一指令头数据之后的第1个子数据位置;
例如,第一指令数据为“查询减肥”,第一指令头数据为“查询”,第一个数为2,则第一提取位置数据为3,就是第一指令数据中第3个字符的位置;
步骤42,在第一指令数据中,提取第一提取位置数据之后的所有子数据,生成第一关键词数据。
这里,步骤中提到的第一提取位置数据之后,是包含第一提取位置数据本身的;
例如,第一指令数据为“查询减肥”,第一指令头数据为“查询”,第一个数为2,第一提取位置数据为3,提取第一提取位置数据之后的所有子数据,就是从第3个字符的位置开始直到最后1个字符为止,进行子数据提取,得到的提取结果也就是第一关键词数据,为“减肥”。
步骤5,从预设的标准关键词信息列表中,搜素与第一关键词数据近似的标准关键词信息,生成多个第一标准关键词数据和对应的第一相似度百分比数据;
其中,标准关键词信息列表包括多个标准关键词信息;
具体包括:从标准关键词信息列表中,依次提取标准关键词信息,做为第一当前关键词信息;对第一当前关键词信息和第一关键词数据,进行第一数据相似度比对处理,生成第一当前相似度百分比数据;当第一当前相似度百分比数据超过预设的相似度阈值时,将第一当前关键词信息,做为第一标准关键词数据,并将第一当前相似度百分比数据,做为第一相似度百分比数据。
这里,语音搜索系统的数据处理模块使用的标准关键词信息列表是一个预先设定并可以持续修改的数据列表,该列表具体的可以为一个数据库的数据表,也可以为连续存储的数据文件;若该列表为数据库的数据表,则采用记录的形式存储每个标准关键词信息;若该列表为连续存储的数据文件,则采用连续数据段的形式存储每个标准关键词信息;一个标准关键词信息对应一个知识信息库的搜索主键值,在知识信息库的知识信息增加之后,都会为新增的知识信息分配一个对应的搜索主键,并将新分配的搜索主键的值存入标准关键词信息列表中;
因为用户输入的关键词不一定是和设定的标准关键词信息完全一致,为提高用户体验、增加搜索的容错性,本步骤中,数据处理模块会从标准关键词信息列表中,尽量搜出与用户输入的指令中提取出的输入关键词也就是第一关键词数据,近似的标准关键词信息;
搜索近似关键词的方法,就是对第一关键词数据和每个标准关键词信息进行相似度比对,并以比对结果为参考进行不相关与近似的划分;这里说的每个标准关键词信息,在标准关键词信息列表中包含的标准关键词信息有限时,可以为标准关键词信息列表中的所有标准关键词信息;若标准关键词信息列表已经存储了海量数据时,为提高比对效率,还需要对标准关键词信息列表做分层处理,例如按标准关键词信息的首字的第1个拼音字母分层,这种情况下,在比对之前就需要根据第一关键词数据的的首字的第1个拼音字母先行找到对应的层级,然后从该层级中提取出所包含的标准关键词信息来参与对比,另外,对于分层处理,若1层不够,还可以再根据拼音字母顺序继续分层,直到所需层级的标准关键词信息数量可控为止;
相似度比对的方法,常用的有编辑距离(Edit Distance,ED)算法等,以ED算法为例,ED算法是根据两个字串之间,由一个转成另一个所需的最少编辑操作次数做为参考,计算两个字串的相似度百分比,当两个数据完全相同时相似度最高,当两个数据完全没有内容重叠时相似度最低;
经过对标准关键词信息的相似度比对之后,会得到多个第一当前相似度百分比数据,本发明实施例为了达到较好的近似效果,会预先设定一个相似度阈值用于对比对结果进行不相关与近似的划分,低于该阈值的视作不相关,超过该阈值的视作近似。
例如,第一关键词数据为“减肥”,标准关键词信息列表中有5个标准关键词信息:第1个标准关键词信息为“减肥”,第2个标准关键词信息为“减肥操”,第3个标准关键词信息为“减掉肥胖”,第4个标准关键词信息为“肥肥不好减”,第5个标准关键词信息为“减重”,相似度阈值75%,则比对得到的5个第一当前相似度百分比数据从低到高依次为:第4个第一当前相似度百分比数据28.57%<第5个第一当前相似度百分比数据50%<第3个第一当前相似度百分比数据66.67%<第2个第一当前相似度百分比数据80%<第1个第一当前相似度百分比数据100%,按相似度阈值75%划分之后,就剩下第1个标准关键词信息“减肥”和第2个标准关键词信息“减肥操”,那么步骤3的处理结果就是2组第一标准关键词数据和对应的第一相似度百分比数据,第1组:第一标准关键词数据“减肥”/第一相似度百分比数据100%,第2组:第一标准关键词数据“减肥操”/第一相似度百分比数据80%。
步骤6,根据每个第一标准关键词数据,对预设的知识信息库,进行知识信息搜索处理,得到多个相关数据,组成与每个第一标准关键词数据对应的第一搜索数据组;
其中,多个相关数据至少包括与第一标准关键词数据对应的第一相关知识数据、第一相关机构数据列表和第一相关文章数据列表;第一相关机构数据列表包括多个第一相关机构数据;第一相关文章数据列表包括多个第一相关文章数据。
这里,语音搜索系统的搜索处理模块根据得到的多个第一标准关键词数据,分别从系统自带的知识信息库中,进行知识信息搜索,得到对应的搜索结果也就是第一搜索数据组;
这里,搜索处理模块使用的知识信息库是一个可以持续更新的大数据库,其数据库形式常用的就是关系型数据库形式,该数据库常规包含搜索主键的列表和多个分子数据库,搜索处理模块在执行搜索时,选择搜索主键的列表,并以标准关键词数据做为第一字段数据也就是文中提到过的搜索主键值,会得到对应的搜索记录信息,在该记录信息中包括了其他分子数据的关联索引信息,例如分子数据库名称或地址或标识、表名称或标识、字段名称或标识、记录标识等等,再使用关联索引信息再进一步从对应的分子数据库的数据表的字段的或记录中,获取相关数据;这里,相关数据的分类根据知识信息库的分子数据库丰富度可以继续扩展,但至少会包括:从基础知识子数据库中获取的第一相关知识数据,例如,减肥百科知识;从相关组织机构子数据库中获取的第一相关机构数据列表,例如,减肥机构列表;从精读文章子数据库中获取的多个第一相关文章数据,例如减肥文章、减肥食谱等等。
步骤7,由与每个第一标签数据对应的第一搜索数据组和第一相似度百分比数据,组成与每个第一标签数据对应的第一搜索数据组;统计所有第一搜索数据组,生成第一搜索数据组集合,并输出。
这里,语音搜索系统的搜索处理模块统计了所有搜索结果之后,再将之前算出的关键词相似度数据附在搜索结果后面或前面,其目的是用于提示用户搜索结果的准确度。
例如,步骤5中得到了2组第一标准关键词数据和对应的第一相似度百分比数据,步骤6也对应搜索了2组第一搜索数据组;则最后,搜索处理模块会向用户返回第一搜索数据组集合[第一搜索数据组,第二搜索数据组]也就是[(第1个第一搜索数据组,100%),(第2个第一搜索数据组,80%)]。
本发明实施例二提供一种根据语音指令搜索信息的系统,该系统用于实现与上述实施例中的语音搜索系统的系统功能,具体如图2为本发明实施例二提供的一种根据语音指令搜索信息的系统结构示意图所示,该系统20包括:语音获取模块201、语音处理模块202、数据处理模块203和搜索处理模块204。
语音获取模块201用于接收第一语音指令数据。
语音处理模块202用于对第一语音指令数据,进行第一语音识别处理,生成第一指令数据。
数据处理模块203用于对第一指令数据,进行第一语音指令头识别处理;第一语音指令头识别处理成功,则对第一指令数据,进行第一关键词提取处理,生成第一关键词数据;并从预设的标准关键词信息列表中,搜素与第一关键词数据近似的标准关键词信息,生成多个第一标准关键词数据和对应的第一相似度百分比数据;标准关键词信息列表包括多个标准关键词信息。
搜索处理模块204用于根据每个第一标准关键词数据,对预设的知识信息库,进行知识信息搜索处理,得到多个相关数据,组成与每个第一标准关键词数据对应的第一搜索数据组;由与每个第一标签数据对应的第一搜索数据组和第一相似度百分比数据,组成与每个第一标签数据对应的第一搜索数据组;统计所有第一搜索数据组,生成第一搜索数据组集合,并输出。
这里,本发明实施例二提供的一种根据语音指令搜索信息的系统,其模块功能与实施例一中语音搜索系统对应模块的功能一致,在此不做进一步赘述。
本发明实施例提供一种根据语音指令搜索信息的方法和系统,基于可持续更新的知识信息库,为用户提供了丰富的专项知识与相关信息,并同时提供标准的语音查询指令,提高了用户的使用体验度。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种根据语音指令搜索信息的方法,其特征在于,所述方法包括:
语音搜索系统接收第一语音指令数据;
对所述第一语音指令数据,进行第一语音识别处理,生成第一指令数据;
对所述第一指令数据,进行第一语音指令头识别处理;
所述第一语音指令头识别处理成功,则对所述第一指令数据,进行第一关键词提取处理,生成第一关键词数据;
从预设的标准关键词信息列表中,搜素与所述第一关键词数据近似的标准关键词信息,生成多个第一标准关键词数据和对应的第一相似度百分比数据;所述标准关键词信息列表包括多个所述标准关键词信息;
根据每个所述第一标准关键词数据,对预设的知识信息库,进行知识信息搜索处理,得到多个相关数据,组成与每个所述第一标准关键词数据对应的第一搜索数据组;
由与每个所述第一标签数据对应的所述第一搜索数据组和所述第一相似度百分比数据,组成与每个所述第一标签数据对应的第一搜索数据组;统计所有所述第一搜索数据组,生成第一搜索数据组集合,并输出。
2.根据权利要求1所述的根据语音指令搜索信息的方法,其特征在于,所述对所述第一语音指令数据,进行第一语音识别处理,生成第一指令数据,具体包括:
对所述第一语音指令数据,进行第一音频滤波和降噪处理,生成第一指令音频数据;并将所述第一指令音频数据,输入第一人工智能语音识别模型中进行识别处理,并将识别结果做为所述第一指令数据。
3.根据权利要求1所述的根据语音指令搜索信息的方法,其特征在于,所述对所述第一指令数据,进行第一语音指令头识别处理,具体包括:
在所述第一指令数据中,从第1个子数据开始,提取预设的第一个数的所述子数据,生成第一提取数据;所述第一指令数据包括多个所述子数据;
当所述第一提取数据与预设的第一指令头数据相同时,所述第一语音指令头识别处理成功。
4.根据权利要求3所述的根据语音指令搜索信息的方法,其特征在于,所述对所述第一指令数据,进行第一关键词提取处理,生成第一关键词数据,具体包括:
根据所述第一个数加1的和,生成第一提取位置数据;
在所述第一指令数据中,提取所述第一提取位置数据之后的所有子数据,生成所述第一关键词数据。
5.根据权利要求1所述的根据语音指令搜索信息的方法,其特征在于,所述从预设的标准关键词信息列表中,搜素与所述第一关键词数据近似的标准关键词信息,生成多个第一标准关键词数据和对应的第一相似度百分比数据,具体包括:
从所述标准关键词信息列表中,依次提取所述标准关键词信息,做为第一当前关键词信息;对所述第一当前关键词信息和所述第一关键词数据,进行第一数据相似度比对处理,生成第一当前相似度百分比数据;当所述第一当前相似度百分比数据超过预设的相似度阈值时,将所述第一当前关键词信息,做为所述第一标准关键词数据,并将所述第一当前相似度百分比数据,做为所述第一相似度百分比数据。
6.根据权利要求1所述的根据语音指令搜索信息的方法,其特征在于,
所述多个相关数据至少包括与所述第一标准关键词数据对应的第一相关知识数据、第一相关机构数据列表和第一相关文章数据列表;所述第一相关机构数据列表包括多个第一相关机构数据;所述第一相关文章数据列表包括多个第一相关文章数据。
7.一种根据语音指令搜索信息的系统,其特征在于,所述系统包括:
语音获取模块用于接收第一语音指令数据;
语音处理模块用于对所述第一语音指令数据,进行第一语音识别处理,生成第一指令数据;
数据处理模块用于对所述第一指令数据,进行第一语音指令头识别处理;所述第一语音指令头识别处理成功,则对所述第一指令数据,进行第一关键词提取处理,生成第一关键词数据;并从预设的标准关键词信息列表中,搜素与所述第一关键词数据近似的标准关键词信息,生成多个第一标准关键词数据和对应的第一相似度百分比数据;所述标准关键词信息列表包括多个所述标准关键词信息;
搜索处理模块用于根据每个所述第一标准关键词数据,对预设的知识信息库,进行知识信息搜索处理,得到多个相关数据,组成与每个所述第一标准关键词数据对应的第一搜索数据组;由与每个所述第一标签数据对应的所述第一搜索数据组和所述第一相似度百分比数据,组成与每个所述第一标签数据对应的第一搜索数据组;统计所有所述第一搜索数据组,生成第一搜索数据组集合,并输出。
CN202011565565.6A 2020-12-25 2020-12-25 一种根据语音指令搜索信息的方法和系统 Active CN112735412B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011565565.6A CN112735412B (zh) 2020-12-25 2020-12-25 一种根据语音指令搜索信息的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011565565.6A CN112735412B (zh) 2020-12-25 2020-12-25 一种根据语音指令搜索信息的方法和系统

Publications (2)

Publication Number Publication Date
CN112735412A true CN112735412A (zh) 2021-04-30
CN112735412B CN112735412B (zh) 2022-11-22

Family

ID=75616433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011565565.6A Active CN112735412B (zh) 2020-12-25 2020-12-25 一种根据语音指令搜索信息的方法和系统

Country Status (1)

Country Link
CN (1) CN112735412B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817265A (zh) * 2022-04-28 2022-07-29 北京辰行科技有限公司 一种利用大数据服务器的金融信息获取方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576901A (zh) * 2009-06-11 2009-11-11 腾讯科技(深圳)有限公司 搜索请求的产生方法及移动通信设备
WO2014033855A1 (ja) * 2012-08-29 2014-03-06 株式会社日立製作所 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
CN103942319A (zh) * 2014-04-25 2014-07-23 北京金山网络科技有限公司 一种搜索的方法及装置
CN107066497A (zh) * 2016-12-29 2017-08-18 努比亚技术有限公司 一种搜索方法和装置
CN109522392A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 基于语音的检索方法、服务器及计算机可读存储介质
CN111984851A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 医学资料搜索方法、装置、电子装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101576901A (zh) * 2009-06-11 2009-11-11 腾讯科技(深圳)有限公司 搜索请求的产生方法及移动通信设备
WO2014033855A1 (ja) * 2012-08-29 2014-03-06 株式会社日立製作所 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
CN103942319A (zh) * 2014-04-25 2014-07-23 北京金山网络科技有限公司 一种搜索的方法及装置
CN107066497A (zh) * 2016-12-29 2017-08-18 努比亚技术有限公司 一种搜索方法和装置
CN109522392A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 基于语音的检索方法、服务器及计算机可读存储介质
CN111984851A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 医学资料搜索方法、装置、电子装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114817265A (zh) * 2022-04-28 2022-07-29 北京辰行科技有限公司 一种利用大数据服务器的金融信息获取方法
CN114817265B (zh) * 2022-04-28 2023-08-18 深圳市领航财富教育科技有限公司 一种利用大数据服务器的金融信息获取方法

Also Published As

Publication number Publication date
CN112735412B (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
US9514126B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
US6877001B2 (en) Method and system for retrieving documents with spoken queries
US7725318B2 (en) System and method for improving the accuracy of audio searching
US7620548B2 (en) Method and system for automatic detecting morphemes in a task classification system using lattices
CN109637537B (zh) 一种自动获取标注数据优化自定义唤醒模型的方法
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
EP1927927A2 (en) Speech recognition training method for audio and video file indexing on a search engine
JP2003036093A (ja) 音声入力検索システム
US20030204399A1 (en) Key word and key phrase based speech recognizer for information retrieval systems
CN101952824A (zh) 计算机执行的对数据库中的文献进行索引和检索的方法以及信息检索系统
CN110188174B (zh) 一种基于专业词汇挖掘的专业领域faq智能问答方法
CN107943786B (zh) 一种中文命名实体识别方法及系统
WO2004072780A2 (en) Method for automatic and semi-automatic classification and clustering of non-deterministic texts
CN112527955A (zh) 一种数据处理的方法和装置
CN112735412B (zh) 一种根据语音指令搜索信息的方法和系统
KR20060067096A (ko) N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법
Palmer et al. Improving out-of-vocabulary name resolution
CN114822545A (zh) 一种提高专业领域语音识别率的方法
CN111429886B (zh) 一种语音识别方法及系统
Chen et al. Improved spoken term detection by feature space pseudo-relevance feedback
CN112527973A (zh) 一种搜索疾病信息的方法和系统
Hsieh et al. Improved spoken document retrieval with dynamic key term lexicon and probabilistic latent semantic analysis (PLSA)
CN112562856B (zh) 一种通过语音搜索健康知识的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant