CN112562856A - 一种通过语音搜索健康知识的方法和系统 - Google Patents

一种通过语音搜索健康知识的方法和系统 Download PDF

Info

Publication number
CN112562856A
CN112562856A CN202011567614.XA CN202011567614A CN112562856A CN 112562856 A CN112562856 A CN 112562856A CN 202011567614 A CN202011567614 A CN 202011567614A CN 112562856 A CN112562856 A CN 112562856A
Authority
CN
China
Prior art keywords
data
health knowledge
information
keyword
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011567614.XA
Other languages
English (en)
Other versions
CN112562856B (zh
Inventor
游峰磊
李响
刘作来
胡鑫平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Borui Tongyun Technology Co ltd
Original Assignee
Beijing Borui Tongyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Borui Tongyun Technology Co ltd filed Critical Beijing Borui Tongyun Technology Co ltd
Priority to CN202011567614.XA priority Critical patent/CN112562856B/zh
Publication of CN112562856A publication Critical patent/CN112562856A/zh
Application granted granted Critical
Publication of CN112562856B publication Critical patent/CN112562856B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Mathematical Physics (AREA)
  • Primary Health Care (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及一种通过语音搜索健康知识的方法和系统,所述方法包括:健康知识搜索系统接收第一语音数据;对第一语音数据,进行人工智能语音识别处理,生成第一关键词数据集合;对第一关键词数据集合,进行人工智能关键词分类处理,生成第一类型数据组集合;根据第一类型数据组集合,对预设的健康知识库,进行健康知识搜索处理,生成第一搜索数据组集合。本发明实施例不仅为用户省去了不必要的输入过程,还为用户节省了信息过滤筛选的时间,提高了用户使用体验和信息搜索精度。

Description

一种通过语音搜索健康知识的方法和系统
技术领域
本发明涉及数据处理技术领域,特别涉及一种通过语音搜索健康知识的方法和系统。
背景技术
老年人对各种疾病、健康信息都比较关注,经常会对相关信息进行检索,当前主要的检索方式还是通过文字输入的方式来实现,并且需要个人对海量的搜索结果进行信息过滤。这对老年人来说是有难度的,一方面由于视力问题,老人打字输入的速度慢、出错率高,会影响搜索效果;另一方面,对太多的信息进行全过滤,处理时间长反而还会影响老人的身体健康。
发明内容
本发明的目的,就是针对现有技术的缺陷,提供一种通过语音搜索健康知识的方法和系统,基于预设的健康知识库,在其之上附加语音识别功能和健康知识、专家意见定向搜索功能,不仅为用户省去了不必要的输入过程,还为用户节省了信息过滤筛选的时间,提高了用户使用体验和信息搜索精度。
为实现上述目的,本发明实施例第一方面提供了一种通过语音搜索健康知识的方法,所述方法包括:
健康知识搜索系统接收第一语音数据;
对所述第一语音数据,进行人工智能语音识别处理,生成第一关键词数据集合;
对所述第一关键词数据集合,进行人工智能关键词分类处理,生成第一类型数据组集合;
根据所述第一类型数据组集合,对预设的健康知识库,进行健康知识搜索处理,生成第一搜索数据组集合。
优选的,
所述第一关键词数据集合包括多个第一关键词数据;
所述第一类型数据组集合包括多个第一类型数据组;所述第一类型数据组包括第一类型数据和第一类型概率数据;
所述第一搜索数据组集合包括多个第一搜索数据组;所述第一搜索数据组包括第一健康知识数据、第一指导意见数据和第一健康知识概率数据;
所述健康知识库包括一级索引信息库和多个二级信息库;所述二级信息库至少包括二级健康知识信息库和二级专家意见信息库;
所述一级索引信息库包括多个一级索引信息记录;所述一级索引信息记录包括第一类型信息、第一健康知识索引信息和第一指导意见索引信息;
所述二级健康知识信息库包括多个二级健康知识信息记录;所述二级健康知识信息记录至少包括第一健康知识概述信息;
所述二级专家意见信息库包括多个二级专家意见信息记录;所述二级专家意见信息记录至少包括第一专家姓名信息、第一专家职务信息和第一专家指导意见信息。
优选的,所述健康知识搜索系统接收第一语音数据,具体包括:
所述健康知识搜索系统的数据接收模块接收所述第一语音数据。
优选的,所述对所述第一语音数据,进行人工智能语音识别处理,生成第一关键词数据集合,具体包括:
所述健康知识搜索系统的语音识别模块对所述第一语音数据,进行第一音频滤波和降噪处理,生成所述第一语句音频数据;
将所述第一语句音频数据,输入第一人工智能语音识别模型中进行识别处理,生成所述第一语句文字数据;
对所述第一语句文字数据,进行关键词提取处理,生成多个所述第一关键词数据;并由所有所述第一关键词数据,组成所述第一关键词数据集合。
进一步的,所述对所述第一语句文字数据,进行关键词提取处理,生成多个所述第一关键词数据,具体包括:
对所述第一语句文字数据,进行分词处理,生成多个第一分词数据;
使用预设的关键词词库,对每个所述第一分词数据,进行关键词匹配处理;若所述第一分词数据在所述关键词词库中能被搜索到,则将所述第一分词数据,做为所述第一关键词数据。
优选的,所述对所述第一关键词数据集合,进行人工智能关键词分类处理,生成第一类型数据组集合,具体包括:
所述健康知识搜索系统的分类识别模块将所述第一关键词数据集合,输入第一人工智能关键词分类模型中进行分类处理,生成多组所述第一类型数据组;
在所有所述第一类型数据组中,保留所述第一类型概率数据不低于预设的分类概率阈值的所述第一类型数据组;
由所有保留下来的所述第一类型数据组,组成所述第一类型数据组集合。
优选的,所述根据所述第一类型数据组集合,对预设的健康知识库,进行健康知识搜索处理,生成第一搜索数据组集合,具体包括:
所述健康知识搜索系统的知识搜索模块从所述第一类型数据组集合中,依次提取所述第一类型数据组,做为第一当前类型数据组;并提取所述第一当前类型数据组的所述第一类型数据,做为第一当前类型数据;
根据所述第一当前类型数据,对所述健康知识库的所述一级索引信息库的所有所述一级索引信息记录进行轮询,并把当前被轮询的所述一级索引信息记录做为第一当前记录;当所述第一当前类型数据与所述第一当前记录的所述第一类型信息相同时,提取所述第一当前记录的所述第一健康知识索引信息,做为第一当前知识索引数据,并提取所述第一当前记录的所述第一指导意见索引信息,做为第一当前意见索引数据;
根据所述第一当前知识索引数据,对所述健康知识库的所述二级健康知识信息库进行搜索处理,生成与所述第一当前类型数据对应的所述第一健康知识数据;
根据所述第一当前意见索引数据,对所述健康知识库的所述二级专家意见信息库进行搜索处理,生成与所述第一当前类型数据对应的所述第一指导意见数据;
提取所述第一当前类型数据组的所述第一类型概率数据,做为与所述第一当前类型数据对应的所述第一健康知识概率数据;
将与所述第一当前类型数据对应的所述第一健康知识数据、和所述第一指导意见数据、和所述第一健康知识概率数据,组成与所述第一当前类型数据对应的所述第一搜索数据组;
由所有所述第一搜索数据组,组成所述第一搜索数据组集合。
进一步的,所述根据所述第一当前知识索引数据,对所述健康知识库的所述二级健康知识信息库进行搜索处理,生成与所述第一当前类型数据对应的所述第一健康知识数据,具体包括:
在所述二级健康知识信息库中,将记录索引位置为所述第一当前知识索引数据的所述二级健康知识信息记录,做为第二当前记录;提取所述第二当前记录的所述第一健康知识概述信息,做为与所述第一当前类型数据对应的所述第一健康知识数据。
进一步的,所述根据所述第一当前意见索引数据,对所述健康知识库的所述二级专家意见信息库进行搜索处理,生成与所述第一当前类型数据对应的所述第一指导意见数据,具体包括:
在所述二级专家意见信息库中,将记录索引位置为所述第一当前意见索引数据的所述二级专家意见信息记录,做为第三当前记录;提取所述第三当前记录的所述第一专家姓名信息、所述第一专家职务信息和所述第一专家指导意见信息,组成与所述第一当前类型数据对应的所述第一指导意见数据。
本发明实施例第二方面提供了一种通过语音搜索健康知识的系统,所述系统包括:
数据接收模块用于接收第一语音数据;
语音识别模块用于对所述第一语音数据,进行人工智能语音识别处理,生成第一关键词数据集合;
分类识别模块用于对所述第一关键词数据集合,进行人工智能关键词分类处理,生成第一类型数据组集合;
知识搜索模块用于根据所述第一类型数据组集合,对预设的健康知识库,进行健康知识搜索处理,生成第一搜索数据组集合。
本发明实施例提供一种通过语音搜索健康知识的方法和系统,基于预设的健康知识库,在其之上附加语音识别功能和健康知识、专家意见定向搜索功能,不仅为用户省去了不必要的输入过程,还为用户节省了信息过滤筛选的时间,提高了用户使用体验和信息搜索精度。
附图说明
图1为本发明实施例一提供的一种通过语音搜索健康知识的方法示意图;
图2为本发明实施例二提供的一种通过语音搜索健康知识的系统结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例一提供一种通过语音搜索健康知识的方法,如图1为本发明实施例一提供的一种通过语音搜索健康知识的方法示意图所示,本方法主要包括如下步骤:
步骤1,健康知识搜索系统接收第一语音数据。
具体包括:健康知识搜索系统的数据接收模块接收第一语音数据。
这里,健康知识搜索系统可以理解为一个具有语音语义识别和健康知识库的系统;该系统包括数据接收模块、语音识别模块、分类识别模块、知识搜索模块;
这里,本步骤中,数据接收模块用于从与系统连接的语音录音设备或者存储了原始语音数据的终端设备或服务器处,获取第一语音数据;第一语音数据为原始语音数据,其中可能包括多个声源信息,例如人声、环境噪声、回声等等。
步骤2,对第一语音数据,进行人工智能语音识别处理,生成第一关键词数据集合;
其中,第一关键词数据集合包括多个第一关键词数据;
这里,本步骤中,语音识别模块用于对第一语音数据进行降噪滤波、语音文字转换、和关键词提取,得到第一语音数据中出现的关键词集合;
具体包括:步骤21,健康知识搜索系统的语音识别模块对第一语音数据,进行第一音频滤波和降噪处理,生成第一语句音频数据;
这里,语音识别模块使用语音活动检测算法(Voice Activity Detection,VAD)对语音进行静音、噪音分离处理;使用最小均方(Least mean square,LMS)自适应滤波、维纳滤波等方式对语音数据中的环境噪音、回声、混响等进行噪音消除处理;第一语句音频数据为从第一语音数据中消除了上述噪音后保留的信号最强、最规律、持续时间最长、且声音特征最接近人声特征的声音数据;
步骤22,将第一语句音频数据,输入第一人工智能语音识别模型中进行识别处理,生成第一语句文字数据;
这里,语音识别模块的第一人工智能语音识别模型包括第一声学模型和第一语言模型;第一声学模型用于从第一语句音频数据中,按时间先后顺序提取出基础发音的发音序列,第一语言模型用于对发音序列进行顺序组合得到多个字词,并对所有字词按定向语义顺序,进行语义分析,得到最大概率的一句文字数据;第一声学模型常用的有1)由隐马尔科夫模型((Hidden Markov Model,HMM)+高斯混合模型(Gaussian Mixture Model,GMM)组成的声学模型,2)由HMM+深度神经网络(Deep Neural Network,DNN)组成的声学模型;第一语言模型常用的有:1)N-Gram语言模型,2)汉语语言模型(Chinese Language Model,CLM);
例如,第一语句音频数据的语音内容为“我要查口腔溃疡的问题”,则第一声学模型对第一语句音频数据进行基础发音提取后,得到的汉语拼音发音序列为(w,o,y,ao,c,a,k,o,q,on,k,ui,y,on,d,w,n,t,i);第一语言模型对汉语拼音发音序列进行顺序组合可以得到多个字词[(婑,我),(要,药,耀),(查,茶,擦),口,(腔,枪),(口腔,抠枪),(葵,溃),(羊,阳,疡),(溃疡,葵阳),(的,德),(文,完,问),(题,体,蹄),(问题,文体)];第一语言模型再对所有字词按时间先后顺序也就是从前到后的顺序进行语义分析也就是常说的词性与语法分析,得到几个不同概率的文字语句,例如“我要擦抠枪葵阳的文体”的概率为6%、“我要查抠枪葵阳的问题”的概率为30%、“我要查抠枪溃疡的问题”的概率36为%,“我要查口腔溃疡的问题”的概率为67%;第一语言模型从其中提取概率最高的文字语句,也就是“我要查口腔溃疡的问题”作为最终的识别结果也就是第一语句文字数据;
步骤23,对第一语句文字数据,进行关键词提取处理,生成多个第一关键词数据;并由所有第一关键词数据,组成第一关键词数据集合;
这里,语音识别模块使用预先设定的关键词词库对第一语句文字数据进行关键词筛查,从第一语句文字数据中每发现一个关键词,就对应生成一个第一关键词数据对具体关键词内容进行记录;关键词词库是一个独立的词库,其数据结构类似字典的数据结构,可以向其中随时添加新的关键词;
其中,对第一语句文字数据,进行关键词提取处理,生成多个第一关键词数据,具体包括:
对第一语句文字数据,进行分词处理,生成多个第一分词数据;使用预设的关键词词库,对每个第一分词数据,进行关键词匹配处理;若第一分词数据在关键词词库中能被搜索到,则将第一分词数据,做为第一关键词数据。
这里,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,例如,第一语句文字数据为“我要查口腔溃疡的问题”,语音识别模块将第一语句文字数据分词,得到多个第一分词为:“我”、“要”、“查询”、“口腔”、“溃疡”、“口腔溃疡”、“的”、“问”、“题”、“问题”;在获得分词结果之后,查询关键词词库,关键词词库中有预先设定的关键词“溃疡”、“口腔溃疡”,则最终得到的第一关键词数据集合会包含2个第一关键词数据:“溃疡”、“口腔溃疡”。
步骤3,对第一关键词数据集合,进行人工智能关键词分类处理,生成第一类型数据组集合;
其中,第一类型数据组集合包括多个第一类型数据组;第一类型数据组包括第一类型数据和第一类型概率数据;
这里,本步骤中,分类识别模块用于根据输入的关键词集合,使用分类模型进行学习,得到多个类型数据和概率数据;
具体包括:步骤31,健康知识搜索系统的分类识别模块将第一关键词数据集合,输入第一人工智能关键词分类模型中进行分类处理,生成多组第一类型数据组;
这里,第一人工智能关键词分类模型常用的是随机森林模型,可以对输入数据的类型进行分类识别,并得到多个可能的分类结果以及每个结果的概率;
例如,第一关键词数据集合包含2个第一关键词数据:“溃疡”、“口腔溃疡”,将“溃疡”、“口腔溃疡”输入第一人工智能关键词分类模型,得到3组输出结果,第1组第一类型数据组:第一类型数据为皮肤类,第一类型概率数据为12%;第2组第一类型数据组:第一类型数据为粘膜组织类,第一类型概率数据为23%;第3组第一类型数据组:第一类型数据为口腔粘膜类,第一类型概率数据为67%;
步骤32,在所有第一类型数据组中,保留第一类型概率数据不低于预设的分类概率阈值的第一类型数据组;
这里,分类概率阈值是一个预先设的概率阈值,用于对第一人工智能关键词分类模型的输出结果,做最优结果提炼;
例如,分类概率阈值为50%,第1组第一类型数据组的第一类型概率数据为12%,第2组第一类型数据组的第一类型概率数据为23%,第3组第一类型数据组的第一类型概率数据为67%,则最终只保留第3组第一类型数据组;
步骤33,由所有保留下来的第一类型数据组,组成第一类型数据组集合。
例如,分类概率阈值为50%,步骤31输出的3组第一类型数据组的第一类型概率数据分别为:第1组第一类型数据组的第一类型概率数据为12%,第2组第一类型数据组的第一类型概率数据为23%,第3组第一类型数据组的第一类型概率数据为67%;经过步骤32的处理,最终只保留第3组第一类型数据组;则第一类型数据组集合中,只包含1组第一类型数据组,其内容为:第一类型数据为口腔粘膜类,第一类型概率数据为67%。
步骤4,根据第一类型数据组集合,对预设的健康知识库,进行健康知识搜索处理,生成第一搜索数据组集合;
其中,健康知识库包括一级索引信息库和多个二级信息库;二级信息库至少包括二级健康知识信息库和二级专家意见信息库;一级索引信息库包括多个一级索引信息记录;一级索引信息记录包括第一类型信息、第一健康知识索引信息和第一指导意见索引信息;二级健康知识信息库包括多个二级健康知识信息记录;二级健康知识信息记录至少包括第一健康知识概述信息;二级专家意见信息库包括多个二级专家意见信息记录;二级专家意见信息记录至少包括第一专家姓名信息、第一专家职务信息和第一专家指导意见信息;
其中,第一搜索数据组集合包括多个第一搜索数据组;第一搜索数据组包括第一健康知识数据和第一指导意见数据和第一健康知识概率数据;
这里,本步骤中,知识搜索模块用于根据类型数据,从健康知识库中提取出对应健康知识与专家意见,做为最终的语音搜索结果;
具体包括:步骤41,健康知识搜索系统的知识搜索模块从第一类型数据组集合中,依次提取第一类型数据组,做为第一当前类型数据组;并提取第一当前类型数据组的第一类型数据,做为第一当前类型数据;
例如,第一类型数据组集合中,只包含1组第一类型数据组,其内容为:第一类型数据为口腔粘膜类,第一类型概率数据为67%,则第一当前类型数据组只有1次提取过程,且内容为:第一类型数据为口腔粘膜类,第一类型概率数据为67%,第一当前类型数据为口腔粘膜类;
步骤42,根据第一当前类型数据,对健康知识库的一级索引信息库的所有一级索引信息记录进行轮询,并把当前被轮询的一级索引信息记录做为第一当前记录;当第一当前类型数据与第一当前记录的第一类型信息相同时,提取第一当前记录的第一健康知识索引信息,做为第一当前知识索引数据,并提取第一当前记录的第一指导意见索引信息,做为第一当前意见索引数据;
这里,健康知识库可以为一个关系型数据库,也可以为由多个数据库关系表组成的表单集合,还可以为由多个数据文件组成的文件集合;若健康知识库为关系型数据库,则根据其分级结构,一级索引信息库为该关系型数据库的上层用于建立索引关系的子数据库,二级信息库则是用于存储具体信息的内容数据库;若健康知识库由多个数据库关系表,则一级索引信息库为主索引数据表,二级信息库为用于存储具体信息的内容数据表;若健康知识库由多个数据文件组成,则一级索引信息库为主索引数据文件,二级信息库为用于存储具体信息的内容数据文件;一级索引信息库与二级信息库之间的关联关系,通过一级索引信息库的一级索引信息记录中的第一健康知识索引信息和第一指导意见索引信息进行定位,第一健康知识索引信息用于定位二级健康知识信息库中的二级健康知识信息记录,第一指导意见索引信息用于定位二级专家意见信息库的二级专家意见信息记录;
例如,健康知识库的一级索引信息库的数据结构如表一所示,第一当前类型数据为口腔粘膜类,则第一当前知识索引数据为2,第一当前意见索引数据为1;
一级索引信息记录索引 第一类型信息 第一健康知识索引信息 第一指导意见索引信息
1 龋齿类 1 2
2 口腔粘膜类 2 1
表一
步骤43,根据第一当前知识索引数据,对健康知识库的二级健康知识信息库进行搜索处理,生成与第一当前类型数据对应的第一健康知识数据;
具体包括:在二级健康知识信息库中,将记录索引位置为第一当前知识索引数据的二级健康知识信息记录,做为第二当前记录;提取第二当前记录的第一健康知识概述信息,做为与第一当前类型数据对应的第一健康知识数据;
例如,二级健康知识信息库的数据结构如表二所示,第一当前知识索引数据为2,则第一当前类型数据也即“口腔粘膜类”对应的第一健康知识数据为第二文本信息;
二级健康知识信息记录索引 第一健康知识概述信息
1 第一文本信息
2 第二文本信息
表二
步骤44,根据第一当前意见索引数据,对健康知识库的二级专家意见信息库进行搜索处理,生成与第一当前类型数据对应的第一指导意见数据;
具体包括:在二级专家意见信息库中,将记录索引位置为第一当前意见索引数据的二级专家意见信息记录,做为第三当前记录;提取第三当前记录的第一专家姓名信息、第一专家职务信息和第一专家指导意见信息,组成与第一当前类型数据对应的第一指导意见数据;
例如,二级专家意见信息库的数据结构如表三所示,第一当前意见索引数据为1,则第一当前类型数据也即“口腔粘膜类”对应的第一指导意见数据为(“张三三”,“第一医院口腔科主任”,第三文本信息);
Figure BDA0002861421390000121
表三
步骤45,提取第一当前类型数据组的第一类型概率数据,做为与第一当前类型数据对应的第一健康知识概率数据;
例如,因为第一当前类型数据组的内容:第一类型数据为口腔粘膜类,第一类型概率数据为67%,所以第一健康知识概率数据为67%;
步骤46,将与第一当前类型数据对应的第一健康知识数据、和第一指导意见数据、和第一健康知识概率数据,组成与第一当前类型数据对应的第一搜索数据组;
这里,本发明实施例提供的第一搜索数据组包括三部分内容:第一健康知识数据、第一指导意见数据、第一健康知识概率数据,第一健康知识数据为搜索的与关键词相关的概述信息,第一指导意见数据为搜索关键词相关的专家意见,第一健康知识概率数据为语音搜索的相关度参考概率;
例如,第一类型数据为口腔粘膜类,则第一搜索数据组内容包括:第二文本信息、(“张三三”,“第一医院口腔科主任”,第三文本信息)、67%;
步骤47,由所有第一搜索数据组,组成第一搜索数据组集合。
这里,第一搜索数据组集合的第一搜索数据组的数量与步骤41处第一类型数据组集合的第一类型数据组数量相同;
例如,第一类型数据组集合只有1个第一类型数据组,且内容为:第一类型数据为口腔粘膜类,第一类型概率数据为67%,健康知识库的一级索引信息库的数据结构如表一所示,二级健康知识信息库的数据结构如表二所示,二级专家意见信息库的数据结构如表三所示,则第一搜索数据组集合也只包含1个第一搜索数据组,其内容为:第二文本信息、(“张三三”,“第一医院口腔科主任”,第三文本信息)、67%。
本发明实施例二提供一种通过语音搜索健康知识的系统,该系统用于实现与上述实施例中的健康知识搜索系统的系统功能,具体如图2为本发明实施例二提供的一种通过语音搜索健康知识的系统结构示意图所示,该系统20包括:数据接收模块201、语音识别模块202、分类识别模块203和知识搜索模块204。
数据接收模块201用于接收第一语音数据。
语音识别模块202用于对第一语音数据,进行人工智能语音识别处理,生成第一关键词数据集合。
分类识别模块203用于对第一关键词数据集合,进行人工智能关键词分类处理,生成第一类型数据组集合。
知识搜索模块204用于根据第一类型数据组集合,对预设的健康知识库,进行健康知识搜索处理,生成第一搜索数据组集合。
这里,本发明实施例二提供的一种通过语音搜索健康知识的系统,其模块功能与实施例一中健康知识搜索系统对应模块的功能一致,在此不做进一步赘述。
本发明实施例提供一种通过语音搜索健康知识的方法和系统,基于预设的健康知识库,在其之上附加语音识别功能和健康知识、专家意见定向搜索功能,不仅为用户省去了不必要的输入过程,还为用户节省了信息过滤筛选的时间,提高了用户使用体验和信息搜索精度。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种通过语音搜索健康知识的方法,其特征在于,所述方法包括:
健康知识搜索系统接收第一语音数据;
对所述第一语音数据,进行人工智能语音识别处理,生成第一关键词数据集合;
对所述第一关键词数据集合,进行人工智能关键词分类处理,生成第一类型数据组集合;
根据所述第一类型数据组集合,对预设的健康知识库,进行健康知识搜索处理,生成第一搜索数据组集合。
2.根据权利要求1所述的通过语音搜索健康知识的方法,其特征在于,
所述第一关键词数据集合包括多个第一关键词数据;
所述第一类型数据组集合包括多个第一类型数据组;所述第一类型数据组包括第一类型数据和第一类型概率数据;
所述第一搜索数据组集合包括多个第一搜索数据组;所述第一搜索数据组包括第一健康知识数据、第一指导意见数据和第一健康知识概率数据;
所述健康知识库包括一级索引信息库和多个二级信息库;所述二级信息库至少包括二级健康知识信息库和二级专家意见信息库;
所述一级索引信息库包括多个一级索引信息记录;所述一级索引信息记录包括第一类型信息、第一健康知识索引信息和第一指导意见索引信息;
所述二级健康知识信息库包括多个二级健康知识信息记录;所述二级健康知识信息记录至少包括第一健康知识概述信息;
所述二级专家意见信息库包括多个二级专家意见信息记录;所述二级专家意见信息记录至少包括第一专家姓名信息、第一专家职务信息和第一专家指导意见信息。
3.根据权利要求1所述的通过语音搜索健康知识的方法,其特征在于,所述健康知识搜索系统接收第一语音数据,具体包括:
所述健康知识搜索系统的数据接收模块接收所述第一语音数据。
4.根据权利要求2所述的通过语音搜索健康知识的方法,其特征在于,所述对所述第一语音数据,进行人工智能语音识别处理,生成第一关键词数据集合,具体包括:
所述健康知识搜索系统的语音识别模块对所述第一语音数据,进行第一音频滤波和降噪处理,生成所述第一语句音频数据;
将所述第一语句音频数据,输入第一人工智能语音识别模型中进行识别处理,生成所述第一语句文字数据;
对所述第一语句文字数据,进行关键词提取处理,生成多个所述第一关键词数据;并由所有所述第一关键词数据,组成所述第一关键词数据集合。
5.根据权利要求4所述的通过语音搜索健康知识的方法,其特征在于,所述对所述第一语句文字数据,进行关键词提取处理,生成多个所述第一关键词数据,具体包括:
对所述第一语句文字数据,进行分词处理,生成多个第一分词数据;
使用预设的关键词词库,对每个所述第一分词数据,进行关键词匹配处理;若所述第一分词数据在所述关键词词库中能被搜索到,则将所述第一分词数据,做为所述第一关键词数据。
6.根据权利要求2所述的通过语音搜索健康知识的方法,其特征在于,所述对所述第一关键词数据集合,进行人工智能关键词分类处理,生成第一类型数据组集合,具体包括:
所述健康知识搜索系统的分类识别模块将所述第一关键词数据集合,输入第一人工智能关键词分类模型中进行分类处理,生成多组所述第一类型数据组;
在所有所述第一类型数据组中,保留所述第一类型概率数据不低于预设的分类概率阈值的所述第一类型数据组;
由所有保留下来的所述第一类型数据组,组成所述第一类型数据组集合。
7.根据权利要求2所述的通过语音搜索健康知识的方法,其特征在于,所述根据所述第一类型数据组集合,对预设的健康知识库,进行健康知识搜索处理,生成第一搜索数据组集合,具体包括:
所述健康知识搜索系统的知识搜索模块从所述第一类型数据组集合中,依次提取所述第一类型数据组,做为第一当前类型数据组;并提取所述第一当前类型数据组的所述第一类型数据,做为第一当前类型数据;
根据所述第一当前类型数据,对所述健康知识库的所述一级索引信息库的所有所述一级索引信息记录进行轮询,并把当前被轮询的所述一级索引信息记录做为第一当前记录;当所述第一当前类型数据与所述第一当前记录的所述第一类型信息相同时,提取所述第一当前记录的所述第一健康知识索引信息,做为第一当前知识索引数据,并提取所述第一当前记录的所述第一指导意见索引信息,做为第一当前意见索引数据;
根据所述第一当前知识索引数据,对所述健康知识库的所述二级健康知识信息库进行搜索处理,生成与所述第一当前类型数据对应的所述第一健康知识数据;
根据所述第一当前意见索引数据,对所述健康知识库的所述二级专家意见信息库进行搜索处理,生成与所述第一当前类型数据对应的所述第一指导意见数据;
提取所述第一当前类型数据组的所述第一类型概率数据,做为与所述第一当前类型数据对应的所述第一健康知识概率数据;
将与所述第一当前类型数据对应的所述第一健康知识数据、和所述第一指导意见数据、和所述第一健康知识概率数据,组成与所述第一当前类型数据对应的所述第一搜索数据组;
由所有所述第一搜索数据组,组成所述第一搜索数据组集合。
8.根据权利要求7所述的通过语音搜索健康知识的方法,其特征在于,所述根据所述第一当前知识索引数据,对所述健康知识库的所述二级健康知识信息库进行搜索处理,生成与所述第一当前类型数据对应的所述第一健康知识数据,具体包括:
在所述二级健康知识信息库中,将记录索引位置为所述第一当前知识索引数据的所述二级健康知识信息记录,做为第二当前记录;提取所述第二当前记录的所述第一健康知识概述信息,做为与所述第一当前类型数据对应的所述第一健康知识数据。
9.根据权利要求7所述的通过语音搜索健康知识的方法,其特征在于,所述根据所述第一当前意见索引数据,对所述健康知识库的所述二级专家意见信息库进行搜索处理,生成与所述第一当前类型数据对应的所述第一指导意见数据,具体包括:
在所述二级专家意见信息库中,将记录索引位置为所述第一当前意见索引数据的所述二级专家意见信息记录,做为第三当前记录;提取所述第三当前记录的所述第一专家姓名信息、所述第一专家职务信息和所述第一专家指导意见信息,组成与所述第一当前类型数据对应的所述第一指导意见数据。
10.一种通过语音搜索健康知识的系统,其特征在于,所述系统包括:
数据接收模块用于接收第一语音数据;
语音识别模块用于对所述第一语音数据,进行人工智能语音识别处理,生成第一关键词数据集合;
分类识别模块用于对所述第一关键词数据集合,进行人工智能关键词分类处理,生成第一类型数据组集合;
知识搜索模块用于根据所述第一类型数据组集合,对预设的健康知识库,进行健康知识搜索处理,生成第一搜索数据组集合。
CN202011567614.XA 2020-12-25 2020-12-25 一种通过语音搜索健康知识的方法和系统 Active CN112562856B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011567614.XA CN112562856B (zh) 2020-12-25 2020-12-25 一种通过语音搜索健康知识的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011567614.XA CN112562856B (zh) 2020-12-25 2020-12-25 一种通过语音搜索健康知识的方法和系统

Publications (2)

Publication Number Publication Date
CN112562856A true CN112562856A (zh) 2021-03-26
CN112562856B CN112562856B (zh) 2022-06-14

Family

ID=75034278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011567614.XA Active CN112562856B (zh) 2020-12-25 2020-12-25 一种通过语音搜索健康知识的方法和系统

Country Status (1)

Country Link
CN (1) CN112562856B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070255702A1 (en) * 2005-11-29 2007-11-01 Orme Gregory M Search Engine
CN106959999A (zh) * 2017-02-06 2017-07-18 广东小天才科技有限公司 一种语音搜索的方法及装置
CN107832396A (zh) * 2017-10-30 2018-03-23 江西博瑞彤芸科技有限公司 信息检索方法
CN107861961A (zh) * 2016-11-14 2018-03-30 平安科技(深圳)有限公司 对话信息生成方法和装置
CN108536414A (zh) * 2017-03-06 2018-09-14 腾讯科技(深圳)有限公司 语音处理方法、装置和系统、移动终端

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070255702A1 (en) * 2005-11-29 2007-11-01 Orme Gregory M Search Engine
CN107861961A (zh) * 2016-11-14 2018-03-30 平安科技(深圳)有限公司 对话信息生成方法和装置
CN106959999A (zh) * 2017-02-06 2017-07-18 广东小天才科技有限公司 一种语音搜索的方法及装置
CN108536414A (zh) * 2017-03-06 2018-09-14 腾讯科技(深圳)有限公司 语音处理方法、装置和系统、移动终端
CN107832396A (zh) * 2017-10-30 2018-03-23 江西博瑞彤芸科技有限公司 信息检索方法

Also Published As

Publication number Publication date
CN112562856B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN107945805B (zh) 一种智能化跨语言语音识别转化方法
CN109493850B (zh) 成长型对话装置
CN112750465B (zh) 一种云端语言能力评测系统及可穿戴录音终端
US10515292B2 (en) Joint acoustic and visual processing
US20060074898A1 (en) System and method for improving the accuracy of audio searching
US20030191625A1 (en) Method and system for creating a named entity language model
CN109192194A (zh) 语音数据标注方法、装置、计算机设备及存储介质
CN107943786B (zh) 一种中文命名实体识别方法及系统
CN108877769B (zh) 识别方言种类的方法和装置
Levitan et al. Combining Acoustic-Prosodic, Lexical, and Phonotactic Features for Automatic Deception Detection.
CN110675292A (zh) 一种基于人工智能的儿童语言能力评测方法
CN118152570A (zh) 一种智能化的文本分类方法
CN112951237B (zh) 一种基于人工智能的自动语音识别方法及系统
CN117198338B (zh) 一种基于人工智能的对讲机声纹识别方法及系统
Mohanty et al. Speaker identification using SVM during Oriya speech recognition
CN112562856B (zh) 一种通过语音搜索健康知识的方法和系统
CN112735412B (zh) 一种根据语音指令搜索信息的方法和系统
Brown Y-ACCDIST: An automatic accent recognition system for forensic applications
CN112527973A (zh) 一种搜索疾病信息的方法和系统
CN113239164B (zh) 多轮对话流程构建方法、装置、计算机设备及存储介质
Håkansson et al. Transfer learning for domain specific automatic speech recognition in Swedish: An end-to-end approach using Mozilla’s DeepSpeech
Razik et al. Frame-synchronous and local confidence measures for automatic speech recognition
CN112071304A (zh) 一种语意分析方法及装置
Ghosh et al. Homophone ambiguity reduction from word level speech recognition using artificial immune system
CN112735475A (zh) 一种通过语音搜索疾病知识的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant