CN112562856A - 一种通过语音搜索健康知识的方法和系统 - Google Patents
一种通过语音搜索健康知识的方法和系统 Download PDFInfo
- Publication number
- CN112562856A CN112562856A CN202011567614.XA CN202011567614A CN112562856A CN 112562856 A CN112562856 A CN 112562856A CN 202011567614 A CN202011567614 A CN 202011567614A CN 112562856 A CN112562856 A CN 112562856A
- Authority
- CN
- China
- Prior art keywords
- data
- health knowledge
- information
- keyword
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000036541 health Effects 0.000 title claims abstract description 173
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000001914 filtration Methods 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000013473 artificial intelligence Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 11
- 210000002200 mouth mucosa Anatomy 0.000 description 11
- 208000025865 Ulcer Diseases 0.000 description 9
- 231100000397 ulcer Toxicity 0.000 description 9
- 241000208818 Helianthus Species 0.000 description 5
- 235000003222 Helianthus annuus Nutrition 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 208000007117 Oral Ulcer Diseases 0.000 description 3
- 208000002399 aphthous stomatitis Diseases 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 208000020670 canker sore Diseases 0.000 description 3
- 210000000214 mouth Anatomy 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 241001494479 Pecora Species 0.000 description 1
- 244000269722 Thea sinensis Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 208000002925 dental caries Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 210000000003 hoof Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000004877 mucosa Anatomy 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000036555 skin type Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H80/00—ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Pathology (AREA)
- Molecular Biology (AREA)
- Epidemiology (AREA)
- Mathematical Physics (AREA)
- Primary Health Care (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例涉及一种通过语音搜索健康知识的方法和系统,所述方法包括:健康知识搜索系统接收第一语音数据;对第一语音数据,进行人工智能语音识别处理,生成第一关键词数据集合;对第一关键词数据集合,进行人工智能关键词分类处理,生成第一类型数据组集合;根据第一类型数据组集合,对预设的健康知识库,进行健康知识搜索处理,生成第一搜索数据组集合。本发明实施例不仅为用户省去了不必要的输入过程,还为用户节省了信息过滤筛选的时间,提高了用户使用体验和信息搜索精度。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种通过语音搜索健康知识的方法和系统。
背景技术
老年人对各种疾病、健康信息都比较关注,经常会对相关信息进行检索,当前主要的检索方式还是通过文字输入的方式来实现,并且需要个人对海量的搜索结果进行信息过滤。这对老年人来说是有难度的,一方面由于视力问题,老人打字输入的速度慢、出错率高,会影响搜索效果;另一方面,对太多的信息进行全过滤,处理时间长反而还会影响老人的身体健康。
发明内容
本发明的目的,就是针对现有技术的缺陷,提供一种通过语音搜索健康知识的方法和系统,基于预设的健康知识库,在其之上附加语音识别功能和健康知识、专家意见定向搜索功能,不仅为用户省去了不必要的输入过程,还为用户节省了信息过滤筛选的时间,提高了用户使用体验和信息搜索精度。
为实现上述目的,本发明实施例第一方面提供了一种通过语音搜索健康知识的方法,所述方法包括:
健康知识搜索系统接收第一语音数据;
对所述第一语音数据,进行人工智能语音识别处理,生成第一关键词数据集合;
对所述第一关键词数据集合,进行人工智能关键词分类处理,生成第一类型数据组集合;
根据所述第一类型数据组集合,对预设的健康知识库,进行健康知识搜索处理,生成第一搜索数据组集合。
优选的,
所述第一关键词数据集合包括多个第一关键词数据;
所述第一类型数据组集合包括多个第一类型数据组;所述第一类型数据组包括第一类型数据和第一类型概率数据;
所述第一搜索数据组集合包括多个第一搜索数据组;所述第一搜索数据组包括第一健康知识数据、第一指导意见数据和第一健康知识概率数据;
所述健康知识库包括一级索引信息库和多个二级信息库;所述二级信息库至少包括二级健康知识信息库和二级专家意见信息库;
所述一级索引信息库包括多个一级索引信息记录;所述一级索引信息记录包括第一类型信息、第一健康知识索引信息和第一指导意见索引信息;
所述二级健康知识信息库包括多个二级健康知识信息记录;所述二级健康知识信息记录至少包括第一健康知识概述信息;
所述二级专家意见信息库包括多个二级专家意见信息记录;所述二级专家意见信息记录至少包括第一专家姓名信息、第一专家职务信息和第一专家指导意见信息。
优选的,所述健康知识搜索系统接收第一语音数据,具体包括:
所述健康知识搜索系统的数据接收模块接收所述第一语音数据。
优选的,所述对所述第一语音数据,进行人工智能语音识别处理,生成第一关键词数据集合,具体包括:
所述健康知识搜索系统的语音识别模块对所述第一语音数据,进行第一音频滤波和降噪处理,生成所述第一语句音频数据;
将所述第一语句音频数据,输入第一人工智能语音识别模型中进行识别处理,生成所述第一语句文字数据;
对所述第一语句文字数据,进行关键词提取处理,生成多个所述第一关键词数据;并由所有所述第一关键词数据,组成所述第一关键词数据集合。
进一步的,所述对所述第一语句文字数据,进行关键词提取处理,生成多个所述第一关键词数据,具体包括:
对所述第一语句文字数据,进行分词处理,生成多个第一分词数据;
使用预设的关键词词库,对每个所述第一分词数据,进行关键词匹配处理;若所述第一分词数据在所述关键词词库中能被搜索到,则将所述第一分词数据,做为所述第一关键词数据。
优选的,所述对所述第一关键词数据集合,进行人工智能关键词分类处理,生成第一类型数据组集合,具体包括:
所述健康知识搜索系统的分类识别模块将所述第一关键词数据集合,输入第一人工智能关键词分类模型中进行分类处理,生成多组所述第一类型数据组;
在所有所述第一类型数据组中,保留所述第一类型概率数据不低于预设的分类概率阈值的所述第一类型数据组;
由所有保留下来的所述第一类型数据组,组成所述第一类型数据组集合。
优选的,所述根据所述第一类型数据组集合,对预设的健康知识库,进行健康知识搜索处理,生成第一搜索数据组集合,具体包括:
所述健康知识搜索系统的知识搜索模块从所述第一类型数据组集合中,依次提取所述第一类型数据组,做为第一当前类型数据组;并提取所述第一当前类型数据组的所述第一类型数据,做为第一当前类型数据;
根据所述第一当前类型数据,对所述健康知识库的所述一级索引信息库的所有所述一级索引信息记录进行轮询,并把当前被轮询的所述一级索引信息记录做为第一当前记录;当所述第一当前类型数据与所述第一当前记录的所述第一类型信息相同时,提取所述第一当前记录的所述第一健康知识索引信息,做为第一当前知识索引数据,并提取所述第一当前记录的所述第一指导意见索引信息,做为第一当前意见索引数据;
根据所述第一当前知识索引数据,对所述健康知识库的所述二级健康知识信息库进行搜索处理,生成与所述第一当前类型数据对应的所述第一健康知识数据;
根据所述第一当前意见索引数据,对所述健康知识库的所述二级专家意见信息库进行搜索处理,生成与所述第一当前类型数据对应的所述第一指导意见数据;
提取所述第一当前类型数据组的所述第一类型概率数据,做为与所述第一当前类型数据对应的所述第一健康知识概率数据;
将与所述第一当前类型数据对应的所述第一健康知识数据、和所述第一指导意见数据、和所述第一健康知识概率数据,组成与所述第一当前类型数据对应的所述第一搜索数据组;
由所有所述第一搜索数据组,组成所述第一搜索数据组集合。
进一步的,所述根据所述第一当前知识索引数据,对所述健康知识库的所述二级健康知识信息库进行搜索处理,生成与所述第一当前类型数据对应的所述第一健康知识数据,具体包括:
在所述二级健康知识信息库中,将记录索引位置为所述第一当前知识索引数据的所述二级健康知识信息记录,做为第二当前记录;提取所述第二当前记录的所述第一健康知识概述信息,做为与所述第一当前类型数据对应的所述第一健康知识数据。
进一步的,所述根据所述第一当前意见索引数据,对所述健康知识库的所述二级专家意见信息库进行搜索处理,生成与所述第一当前类型数据对应的所述第一指导意见数据,具体包括:
在所述二级专家意见信息库中,将记录索引位置为所述第一当前意见索引数据的所述二级专家意见信息记录,做为第三当前记录;提取所述第三当前记录的所述第一专家姓名信息、所述第一专家职务信息和所述第一专家指导意见信息,组成与所述第一当前类型数据对应的所述第一指导意见数据。
本发明实施例第二方面提供了一种通过语音搜索健康知识的系统,所述系统包括:
数据接收模块用于接收第一语音数据;
语音识别模块用于对所述第一语音数据,进行人工智能语音识别处理,生成第一关键词数据集合;
分类识别模块用于对所述第一关键词数据集合,进行人工智能关键词分类处理,生成第一类型数据组集合;
知识搜索模块用于根据所述第一类型数据组集合,对预设的健康知识库,进行健康知识搜索处理,生成第一搜索数据组集合。
本发明实施例提供一种通过语音搜索健康知识的方法和系统,基于预设的健康知识库,在其之上附加语音识别功能和健康知识、专家意见定向搜索功能,不仅为用户省去了不必要的输入过程,还为用户节省了信息过滤筛选的时间,提高了用户使用体验和信息搜索精度。
附图说明
图1为本发明实施例一提供的一种通过语音搜索健康知识的方法示意图;
图2为本发明实施例二提供的一种通过语音搜索健康知识的系统结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例一提供一种通过语音搜索健康知识的方法,如图1为本发明实施例一提供的一种通过语音搜索健康知识的方法示意图所示,本方法主要包括如下步骤:
步骤1,健康知识搜索系统接收第一语音数据。
具体包括:健康知识搜索系统的数据接收模块接收第一语音数据。
这里,健康知识搜索系统可以理解为一个具有语音语义识别和健康知识库的系统;该系统包括数据接收模块、语音识别模块、分类识别模块、知识搜索模块;
这里,本步骤中,数据接收模块用于从与系统连接的语音录音设备或者存储了原始语音数据的终端设备或服务器处,获取第一语音数据;第一语音数据为原始语音数据,其中可能包括多个声源信息,例如人声、环境噪声、回声等等。
步骤2,对第一语音数据,进行人工智能语音识别处理,生成第一关键词数据集合;
其中,第一关键词数据集合包括多个第一关键词数据;
这里,本步骤中,语音识别模块用于对第一语音数据进行降噪滤波、语音文字转换、和关键词提取,得到第一语音数据中出现的关键词集合;
具体包括:步骤21,健康知识搜索系统的语音识别模块对第一语音数据,进行第一音频滤波和降噪处理,生成第一语句音频数据;
这里,语音识别模块使用语音活动检测算法(Voice Activity Detection,VAD)对语音进行静音、噪音分离处理;使用最小均方(Least mean square,LMS)自适应滤波、维纳滤波等方式对语音数据中的环境噪音、回声、混响等进行噪音消除处理;第一语句音频数据为从第一语音数据中消除了上述噪音后保留的信号最强、最规律、持续时间最长、且声音特征最接近人声特征的声音数据;
步骤22,将第一语句音频数据,输入第一人工智能语音识别模型中进行识别处理,生成第一语句文字数据;
这里,语音识别模块的第一人工智能语音识别模型包括第一声学模型和第一语言模型;第一声学模型用于从第一语句音频数据中,按时间先后顺序提取出基础发音的发音序列,第一语言模型用于对发音序列进行顺序组合得到多个字词,并对所有字词按定向语义顺序,进行语义分析,得到最大概率的一句文字数据;第一声学模型常用的有1)由隐马尔科夫模型((Hidden Markov Model,HMM)+高斯混合模型(Gaussian Mixture Model,GMM)组成的声学模型,2)由HMM+深度神经网络(Deep Neural Network,DNN)组成的声学模型;第一语言模型常用的有:1)N-Gram语言模型,2)汉语语言模型(Chinese Language Model,CLM);
例如,第一语句音频数据的语音内容为“我要查口腔溃疡的问题”,则第一声学模型对第一语句音频数据进行基础发音提取后,得到的汉语拼音发音序列为(w,o,y,ao,c,a,k,o,q,on,k,ui,y,on,d,w,n,t,i);第一语言模型对汉语拼音发音序列进行顺序组合可以得到多个字词[(婑,我),(要,药,耀),(查,茶,擦),口,(腔,枪),(口腔,抠枪),(葵,溃),(羊,阳,疡),(溃疡,葵阳),(的,德),(文,完,问),(题,体,蹄),(问题,文体)];第一语言模型再对所有字词按时间先后顺序也就是从前到后的顺序进行语义分析也就是常说的词性与语法分析,得到几个不同概率的文字语句,例如“我要擦抠枪葵阳的文体”的概率为6%、“我要查抠枪葵阳的问题”的概率为30%、“我要查抠枪溃疡的问题”的概率36为%,“我要查口腔溃疡的问题”的概率为67%;第一语言模型从其中提取概率最高的文字语句,也就是“我要查口腔溃疡的问题”作为最终的识别结果也就是第一语句文字数据;
步骤23,对第一语句文字数据,进行关键词提取处理,生成多个第一关键词数据;并由所有第一关键词数据,组成第一关键词数据集合;
这里,语音识别模块使用预先设定的关键词词库对第一语句文字数据进行关键词筛查,从第一语句文字数据中每发现一个关键词,就对应生成一个第一关键词数据对具体关键词内容进行记录;关键词词库是一个独立的词库,其数据结构类似字典的数据结构,可以向其中随时添加新的关键词;
其中,对第一语句文字数据,进行关键词提取处理,生成多个第一关键词数据,具体包括:
对第一语句文字数据,进行分词处理,生成多个第一分词数据;使用预设的关键词词库,对每个第一分词数据,进行关键词匹配处理;若第一分词数据在关键词词库中能被搜索到,则将第一分词数据,做为第一关键词数据。
这里,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,例如,第一语句文字数据为“我要查口腔溃疡的问题”,语音识别模块将第一语句文字数据分词,得到多个第一分词为:“我”、“要”、“查询”、“口腔”、“溃疡”、“口腔溃疡”、“的”、“问”、“题”、“问题”;在获得分词结果之后,查询关键词词库,关键词词库中有预先设定的关键词“溃疡”、“口腔溃疡”,则最终得到的第一关键词数据集合会包含2个第一关键词数据:“溃疡”、“口腔溃疡”。
步骤3,对第一关键词数据集合,进行人工智能关键词分类处理,生成第一类型数据组集合;
其中,第一类型数据组集合包括多个第一类型数据组;第一类型数据组包括第一类型数据和第一类型概率数据;
这里,本步骤中,分类识别模块用于根据输入的关键词集合,使用分类模型进行学习,得到多个类型数据和概率数据;
具体包括:步骤31,健康知识搜索系统的分类识别模块将第一关键词数据集合,输入第一人工智能关键词分类模型中进行分类处理,生成多组第一类型数据组;
这里,第一人工智能关键词分类模型常用的是随机森林模型,可以对输入数据的类型进行分类识别,并得到多个可能的分类结果以及每个结果的概率;
例如,第一关键词数据集合包含2个第一关键词数据:“溃疡”、“口腔溃疡”,将“溃疡”、“口腔溃疡”输入第一人工智能关键词分类模型,得到3组输出结果,第1组第一类型数据组:第一类型数据为皮肤类,第一类型概率数据为12%;第2组第一类型数据组:第一类型数据为粘膜组织类,第一类型概率数据为23%;第3组第一类型数据组:第一类型数据为口腔粘膜类,第一类型概率数据为67%;
步骤32,在所有第一类型数据组中,保留第一类型概率数据不低于预设的分类概率阈值的第一类型数据组;
这里,分类概率阈值是一个预先设的概率阈值,用于对第一人工智能关键词分类模型的输出结果,做最优结果提炼;
例如,分类概率阈值为50%,第1组第一类型数据组的第一类型概率数据为12%,第2组第一类型数据组的第一类型概率数据为23%,第3组第一类型数据组的第一类型概率数据为67%,则最终只保留第3组第一类型数据组;
步骤33,由所有保留下来的第一类型数据组,组成第一类型数据组集合。
例如,分类概率阈值为50%,步骤31输出的3组第一类型数据组的第一类型概率数据分别为:第1组第一类型数据组的第一类型概率数据为12%,第2组第一类型数据组的第一类型概率数据为23%,第3组第一类型数据组的第一类型概率数据为67%;经过步骤32的处理,最终只保留第3组第一类型数据组;则第一类型数据组集合中,只包含1组第一类型数据组,其内容为:第一类型数据为口腔粘膜类,第一类型概率数据为67%。
步骤4,根据第一类型数据组集合,对预设的健康知识库,进行健康知识搜索处理,生成第一搜索数据组集合;
其中,健康知识库包括一级索引信息库和多个二级信息库;二级信息库至少包括二级健康知识信息库和二级专家意见信息库;一级索引信息库包括多个一级索引信息记录;一级索引信息记录包括第一类型信息、第一健康知识索引信息和第一指导意见索引信息;二级健康知识信息库包括多个二级健康知识信息记录;二级健康知识信息记录至少包括第一健康知识概述信息;二级专家意见信息库包括多个二级专家意见信息记录;二级专家意见信息记录至少包括第一专家姓名信息、第一专家职务信息和第一专家指导意见信息;
其中,第一搜索数据组集合包括多个第一搜索数据组;第一搜索数据组包括第一健康知识数据和第一指导意见数据和第一健康知识概率数据;
这里,本步骤中,知识搜索模块用于根据类型数据,从健康知识库中提取出对应健康知识与专家意见,做为最终的语音搜索结果;
具体包括:步骤41,健康知识搜索系统的知识搜索模块从第一类型数据组集合中,依次提取第一类型数据组,做为第一当前类型数据组;并提取第一当前类型数据组的第一类型数据,做为第一当前类型数据;
例如,第一类型数据组集合中,只包含1组第一类型数据组,其内容为:第一类型数据为口腔粘膜类,第一类型概率数据为67%,则第一当前类型数据组只有1次提取过程,且内容为:第一类型数据为口腔粘膜类,第一类型概率数据为67%,第一当前类型数据为口腔粘膜类;
步骤42,根据第一当前类型数据,对健康知识库的一级索引信息库的所有一级索引信息记录进行轮询,并把当前被轮询的一级索引信息记录做为第一当前记录;当第一当前类型数据与第一当前记录的第一类型信息相同时,提取第一当前记录的第一健康知识索引信息,做为第一当前知识索引数据,并提取第一当前记录的第一指导意见索引信息,做为第一当前意见索引数据;
这里,健康知识库可以为一个关系型数据库,也可以为由多个数据库关系表组成的表单集合,还可以为由多个数据文件组成的文件集合;若健康知识库为关系型数据库,则根据其分级结构,一级索引信息库为该关系型数据库的上层用于建立索引关系的子数据库,二级信息库则是用于存储具体信息的内容数据库;若健康知识库由多个数据库关系表,则一级索引信息库为主索引数据表,二级信息库为用于存储具体信息的内容数据表;若健康知识库由多个数据文件组成,则一级索引信息库为主索引数据文件,二级信息库为用于存储具体信息的内容数据文件;一级索引信息库与二级信息库之间的关联关系,通过一级索引信息库的一级索引信息记录中的第一健康知识索引信息和第一指导意见索引信息进行定位,第一健康知识索引信息用于定位二级健康知识信息库中的二级健康知识信息记录,第一指导意见索引信息用于定位二级专家意见信息库的二级专家意见信息记录;
例如,健康知识库的一级索引信息库的数据结构如表一所示,第一当前类型数据为口腔粘膜类,则第一当前知识索引数据为2,第一当前意见索引数据为1;
一级索引信息记录索引 | 第一类型信息 | 第一健康知识索引信息 | 第一指导意见索引信息 |
1 | 龋齿类 | 1 | 2 |
2 | 口腔粘膜类 | 2 | 1 |
表一
步骤43,根据第一当前知识索引数据,对健康知识库的二级健康知识信息库进行搜索处理,生成与第一当前类型数据对应的第一健康知识数据;
具体包括:在二级健康知识信息库中,将记录索引位置为第一当前知识索引数据的二级健康知识信息记录,做为第二当前记录;提取第二当前记录的第一健康知识概述信息,做为与第一当前类型数据对应的第一健康知识数据;
例如,二级健康知识信息库的数据结构如表二所示,第一当前知识索引数据为2,则第一当前类型数据也即“口腔粘膜类”对应的第一健康知识数据为第二文本信息;
二级健康知识信息记录索引 | 第一健康知识概述信息 |
1 | 第一文本信息 |
2 | 第二文本信息 |
表二
步骤44,根据第一当前意见索引数据,对健康知识库的二级专家意见信息库进行搜索处理,生成与第一当前类型数据对应的第一指导意见数据;
具体包括:在二级专家意见信息库中,将记录索引位置为第一当前意见索引数据的二级专家意见信息记录,做为第三当前记录;提取第三当前记录的第一专家姓名信息、第一专家职务信息和第一专家指导意见信息,组成与第一当前类型数据对应的第一指导意见数据;
例如,二级专家意见信息库的数据结构如表三所示,第一当前意见索引数据为1,则第一当前类型数据也即“口腔粘膜类”对应的第一指导意见数据为(“张三三”,“第一医院口腔科主任”,第三文本信息);
表三
步骤45,提取第一当前类型数据组的第一类型概率数据,做为与第一当前类型数据对应的第一健康知识概率数据;
例如,因为第一当前类型数据组的内容:第一类型数据为口腔粘膜类,第一类型概率数据为67%,所以第一健康知识概率数据为67%;
步骤46,将与第一当前类型数据对应的第一健康知识数据、和第一指导意见数据、和第一健康知识概率数据,组成与第一当前类型数据对应的第一搜索数据组;
这里,本发明实施例提供的第一搜索数据组包括三部分内容:第一健康知识数据、第一指导意见数据、第一健康知识概率数据,第一健康知识数据为搜索的与关键词相关的概述信息,第一指导意见数据为搜索关键词相关的专家意见,第一健康知识概率数据为语音搜索的相关度参考概率;
例如,第一类型数据为口腔粘膜类,则第一搜索数据组内容包括:第二文本信息、(“张三三”,“第一医院口腔科主任”,第三文本信息)、67%;
步骤47,由所有第一搜索数据组,组成第一搜索数据组集合。
这里,第一搜索数据组集合的第一搜索数据组的数量与步骤41处第一类型数据组集合的第一类型数据组数量相同;
例如,第一类型数据组集合只有1个第一类型数据组,且内容为:第一类型数据为口腔粘膜类,第一类型概率数据为67%,健康知识库的一级索引信息库的数据结构如表一所示,二级健康知识信息库的数据结构如表二所示,二级专家意见信息库的数据结构如表三所示,则第一搜索数据组集合也只包含1个第一搜索数据组,其内容为:第二文本信息、(“张三三”,“第一医院口腔科主任”,第三文本信息)、67%。
本发明实施例二提供一种通过语音搜索健康知识的系统,该系统用于实现与上述实施例中的健康知识搜索系统的系统功能,具体如图2为本发明实施例二提供的一种通过语音搜索健康知识的系统结构示意图所示,该系统20包括:数据接收模块201、语音识别模块202、分类识别模块203和知识搜索模块204。
数据接收模块201用于接收第一语音数据。
语音识别模块202用于对第一语音数据,进行人工智能语音识别处理,生成第一关键词数据集合。
分类识别模块203用于对第一关键词数据集合,进行人工智能关键词分类处理,生成第一类型数据组集合。
知识搜索模块204用于根据第一类型数据组集合,对预设的健康知识库,进行健康知识搜索处理,生成第一搜索数据组集合。
这里,本发明实施例二提供的一种通过语音搜索健康知识的系统,其模块功能与实施例一中健康知识搜索系统对应模块的功能一致,在此不做进一步赘述。
本发明实施例提供一种通过语音搜索健康知识的方法和系统,基于预设的健康知识库,在其之上附加语音识别功能和健康知识、专家意见定向搜索功能,不仅为用户省去了不必要的输入过程,还为用户节省了信息过滤筛选的时间,提高了用户使用体验和信息搜索精度。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种通过语音搜索健康知识的方法,其特征在于,所述方法包括:
健康知识搜索系统接收第一语音数据;
对所述第一语音数据,进行人工智能语音识别处理,生成第一关键词数据集合;
对所述第一关键词数据集合,进行人工智能关键词分类处理,生成第一类型数据组集合;
根据所述第一类型数据组集合,对预设的健康知识库,进行健康知识搜索处理,生成第一搜索数据组集合。
2.根据权利要求1所述的通过语音搜索健康知识的方法,其特征在于,
所述第一关键词数据集合包括多个第一关键词数据;
所述第一类型数据组集合包括多个第一类型数据组;所述第一类型数据组包括第一类型数据和第一类型概率数据;
所述第一搜索数据组集合包括多个第一搜索数据组;所述第一搜索数据组包括第一健康知识数据、第一指导意见数据和第一健康知识概率数据;
所述健康知识库包括一级索引信息库和多个二级信息库;所述二级信息库至少包括二级健康知识信息库和二级专家意见信息库;
所述一级索引信息库包括多个一级索引信息记录;所述一级索引信息记录包括第一类型信息、第一健康知识索引信息和第一指导意见索引信息;
所述二级健康知识信息库包括多个二级健康知识信息记录;所述二级健康知识信息记录至少包括第一健康知识概述信息;
所述二级专家意见信息库包括多个二级专家意见信息记录;所述二级专家意见信息记录至少包括第一专家姓名信息、第一专家职务信息和第一专家指导意见信息。
3.根据权利要求1所述的通过语音搜索健康知识的方法,其特征在于,所述健康知识搜索系统接收第一语音数据,具体包括:
所述健康知识搜索系统的数据接收模块接收所述第一语音数据。
4.根据权利要求2所述的通过语音搜索健康知识的方法,其特征在于,所述对所述第一语音数据,进行人工智能语音识别处理,生成第一关键词数据集合,具体包括:
所述健康知识搜索系统的语音识别模块对所述第一语音数据,进行第一音频滤波和降噪处理,生成所述第一语句音频数据;
将所述第一语句音频数据,输入第一人工智能语音识别模型中进行识别处理,生成所述第一语句文字数据;
对所述第一语句文字数据,进行关键词提取处理,生成多个所述第一关键词数据;并由所有所述第一关键词数据,组成所述第一关键词数据集合。
5.根据权利要求4所述的通过语音搜索健康知识的方法,其特征在于,所述对所述第一语句文字数据,进行关键词提取处理,生成多个所述第一关键词数据,具体包括:
对所述第一语句文字数据,进行分词处理,生成多个第一分词数据;
使用预设的关键词词库,对每个所述第一分词数据,进行关键词匹配处理;若所述第一分词数据在所述关键词词库中能被搜索到,则将所述第一分词数据,做为所述第一关键词数据。
6.根据权利要求2所述的通过语音搜索健康知识的方法,其特征在于,所述对所述第一关键词数据集合,进行人工智能关键词分类处理,生成第一类型数据组集合,具体包括:
所述健康知识搜索系统的分类识别模块将所述第一关键词数据集合,输入第一人工智能关键词分类模型中进行分类处理,生成多组所述第一类型数据组;
在所有所述第一类型数据组中,保留所述第一类型概率数据不低于预设的分类概率阈值的所述第一类型数据组;
由所有保留下来的所述第一类型数据组,组成所述第一类型数据组集合。
7.根据权利要求2所述的通过语音搜索健康知识的方法,其特征在于,所述根据所述第一类型数据组集合,对预设的健康知识库,进行健康知识搜索处理,生成第一搜索数据组集合,具体包括:
所述健康知识搜索系统的知识搜索模块从所述第一类型数据组集合中,依次提取所述第一类型数据组,做为第一当前类型数据组;并提取所述第一当前类型数据组的所述第一类型数据,做为第一当前类型数据;
根据所述第一当前类型数据,对所述健康知识库的所述一级索引信息库的所有所述一级索引信息记录进行轮询,并把当前被轮询的所述一级索引信息记录做为第一当前记录;当所述第一当前类型数据与所述第一当前记录的所述第一类型信息相同时,提取所述第一当前记录的所述第一健康知识索引信息,做为第一当前知识索引数据,并提取所述第一当前记录的所述第一指导意见索引信息,做为第一当前意见索引数据;
根据所述第一当前知识索引数据,对所述健康知识库的所述二级健康知识信息库进行搜索处理,生成与所述第一当前类型数据对应的所述第一健康知识数据;
根据所述第一当前意见索引数据,对所述健康知识库的所述二级专家意见信息库进行搜索处理,生成与所述第一当前类型数据对应的所述第一指导意见数据;
提取所述第一当前类型数据组的所述第一类型概率数据,做为与所述第一当前类型数据对应的所述第一健康知识概率数据;
将与所述第一当前类型数据对应的所述第一健康知识数据、和所述第一指导意见数据、和所述第一健康知识概率数据,组成与所述第一当前类型数据对应的所述第一搜索数据组;
由所有所述第一搜索数据组,组成所述第一搜索数据组集合。
8.根据权利要求7所述的通过语音搜索健康知识的方法,其特征在于,所述根据所述第一当前知识索引数据,对所述健康知识库的所述二级健康知识信息库进行搜索处理,生成与所述第一当前类型数据对应的所述第一健康知识数据,具体包括:
在所述二级健康知识信息库中,将记录索引位置为所述第一当前知识索引数据的所述二级健康知识信息记录,做为第二当前记录;提取所述第二当前记录的所述第一健康知识概述信息,做为与所述第一当前类型数据对应的所述第一健康知识数据。
9.根据权利要求7所述的通过语音搜索健康知识的方法,其特征在于,所述根据所述第一当前意见索引数据,对所述健康知识库的所述二级专家意见信息库进行搜索处理,生成与所述第一当前类型数据对应的所述第一指导意见数据,具体包括:
在所述二级专家意见信息库中,将记录索引位置为所述第一当前意见索引数据的所述二级专家意见信息记录,做为第三当前记录;提取所述第三当前记录的所述第一专家姓名信息、所述第一专家职务信息和所述第一专家指导意见信息,组成与所述第一当前类型数据对应的所述第一指导意见数据。
10.一种通过语音搜索健康知识的系统,其特征在于,所述系统包括:
数据接收模块用于接收第一语音数据;
语音识别模块用于对所述第一语音数据,进行人工智能语音识别处理,生成第一关键词数据集合;
分类识别模块用于对所述第一关键词数据集合,进行人工智能关键词分类处理,生成第一类型数据组集合;
知识搜索模块用于根据所述第一类型数据组集合,对预设的健康知识库,进行健康知识搜索处理,生成第一搜索数据组集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011567614.XA CN112562856B (zh) | 2020-12-25 | 2020-12-25 | 一种通过语音搜索健康知识的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011567614.XA CN112562856B (zh) | 2020-12-25 | 2020-12-25 | 一种通过语音搜索健康知识的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112562856A true CN112562856A (zh) | 2021-03-26 |
CN112562856B CN112562856B (zh) | 2022-06-14 |
Family
ID=75034278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011567614.XA Active CN112562856B (zh) | 2020-12-25 | 2020-12-25 | 一种通过语音搜索健康知识的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112562856B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070255702A1 (en) * | 2005-11-29 | 2007-11-01 | Orme Gregory M | Search Engine |
CN106959999A (zh) * | 2017-02-06 | 2017-07-18 | 广东小天才科技有限公司 | 一种语音搜索的方法及装置 |
CN107832396A (zh) * | 2017-10-30 | 2018-03-23 | 江西博瑞彤芸科技有限公司 | 信息检索方法 |
CN107861961A (zh) * | 2016-11-14 | 2018-03-30 | 平安科技(深圳)有限公司 | 对话信息生成方法和装置 |
CN108536414A (zh) * | 2017-03-06 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置和系统、移动终端 |
-
2020
- 2020-12-25 CN CN202011567614.XA patent/CN112562856B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070255702A1 (en) * | 2005-11-29 | 2007-11-01 | Orme Gregory M | Search Engine |
CN107861961A (zh) * | 2016-11-14 | 2018-03-30 | 平安科技(深圳)有限公司 | 对话信息生成方法和装置 |
CN106959999A (zh) * | 2017-02-06 | 2017-07-18 | 广东小天才科技有限公司 | 一种语音搜索的方法及装置 |
CN108536414A (zh) * | 2017-03-06 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 语音处理方法、装置和系统、移动终端 |
CN107832396A (zh) * | 2017-10-30 | 2018-03-23 | 江西博瑞彤芸科技有限公司 | 信息检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112562856B (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107945805B (zh) | 一种智能化跨语言语音识别转化方法 | |
CN109493850B (zh) | 成长型对话装置 | |
CN112750465B (zh) | 一种云端语言能力评测系统及可穿戴录音终端 | |
US10515292B2 (en) | Joint acoustic and visual processing | |
US20060074898A1 (en) | System and method for improving the accuracy of audio searching | |
US20030191625A1 (en) | Method and system for creating a named entity language model | |
CN109192194A (zh) | 语音数据标注方法、装置、计算机设备及存储介质 | |
CN107943786B (zh) | 一种中文命名实体识别方法及系统 | |
CN108877769B (zh) | 识别方言种类的方法和装置 | |
Levitan et al. | Combining Acoustic-Prosodic, Lexical, and Phonotactic Features for Automatic Deception Detection. | |
CN110675292A (zh) | 一种基于人工智能的儿童语言能力评测方法 | |
CN118152570A (zh) | 一种智能化的文本分类方法 | |
CN112951237B (zh) | 一种基于人工智能的自动语音识别方法及系统 | |
CN117198338B (zh) | 一种基于人工智能的对讲机声纹识别方法及系统 | |
Mohanty et al. | Speaker identification using SVM during Oriya speech recognition | |
CN112562856B (zh) | 一种通过语音搜索健康知识的方法和系统 | |
CN112735412B (zh) | 一种根据语音指令搜索信息的方法和系统 | |
Brown | Y-ACCDIST: An automatic accent recognition system for forensic applications | |
CN112527973A (zh) | 一种搜索疾病信息的方法和系统 | |
CN113239164B (zh) | 多轮对话流程构建方法、装置、计算机设备及存储介质 | |
Håkansson et al. | Transfer learning for domain specific automatic speech recognition in Swedish: An end-to-end approach using Mozilla’s DeepSpeech | |
Razik et al. | Frame-synchronous and local confidence measures for automatic speech recognition | |
CN112071304A (zh) | 一种语意分析方法及装置 | |
Ghosh et al. | Homophone ambiguity reduction from word level speech recognition using artificial immune system | |
CN112735475A (zh) | 一种通过语音搜索疾病知识的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |