CN112133284B - 一种医疗语音对话方法及装置 - Google Patents

一种医疗语音对话方法及装置 Download PDF

Info

Publication number
CN112133284B
CN112133284B CN202010325172.1A CN202010325172A CN112133284B CN 112133284 B CN112133284 B CN 112133284B CN 202010325172 A CN202010325172 A CN 202010325172A CN 112133284 B CN112133284 B CN 112133284B
Authority
CN
China
Prior art keywords
information
voice
interviewee
white
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010325172.1A
Other languages
English (en)
Other versions
CN112133284A (zh
Inventor
边焱焱
翁习生
项永波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Original Assignee
Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking Union Medical College Hospital Chinese Academy of Medical Sciences filed Critical Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Priority to CN202010325172.1A priority Critical patent/CN112133284B/zh
Publication of CN112133284A publication Critical patent/CN112133284A/zh
Application granted granted Critical
Publication of CN112133284B publication Critical patent/CN112133284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种医疗语音对话方法及装置。所述医疗语音对话方法包括:获取医用专业名词数据库;获取提问数据库;获取预设语义数据库;根据需要获取的医用专业参数名称信息,输出对应的白话提问提示语组中的一个白话提问提示语;获取受访者的第一语音信息;识别所述第一语音信息,获取所述第一语音信息中的语义信息;将所述第一语音信息中的语义信息与所述输出的白话提问提示语组映射的预设语义数据组中的预设语义进行对比,判断是否满足第一条件,若是,则存储所述第一语音信息。本发明的医疗语音对话方法能够将医用专业参数名称信息与受访者的回答联系起来,从而访问者不需要在受访者的众多内容中自行摘取需要的信息,大大节约了访问者的时间。

Description

一种医疗语音对话方法及装置
技术领域
本发明涉及医疗随访技术领域,具体涉及一种医疗语音对话方法及装置。
背景技术
现有技术中,随访系统通常只能与受访者建立通话并且记录对话者的回答信息,继而访问者再根据记录的受访者的回答信息摘取受访者自己需要的内容。
因此,希望有一种技术方案来克服或至少减轻现有技术的至少一个上述缺陷。
发明内容
本发明的目的在于提供一种医疗语音对话方法来克服或至少减轻现有技术的至少一个上述缺陷。
本发明的一个方面,提供一种医疗语音对话方法,所述医疗语音对话方法包括:
获取医用专业名词数据库,所述医用专业名词数据库中包括医用专业参数名称信息;
获取提问数据库,所述提问数据库中包括白话提问提示语组,一组白话提问提示语组映射一个医用专业参数,每组白话提问提示语组中包括至少一个白话提问提示语;
获取预设语义数据库,所述预设语义数据库包括预设语义数据组,一组预设语义数据组映射一个白话提问提示语组,每组预设语义数据组中包括至少一个预设语义;
根据需要获取的医用专业参数名称信息输出对应的白话提问提示语组中的一个白话提问提示语;
获取受访者的第一语音信息;
识别所述第一语音信息,获取所述第一语音信息中的语义信息;
将所述第一语音信息中的语义信息与所述输出的白话提问提示语组映射的预设语义数据组中的预设语义进行对比,判断是否满足第一条件,若是,则存储所述第一语音信息。
优选地,在根据需要获取的医用专业参数输出对应的白话提问提示语组中的一个白话提问提示语之前,所述医疗语音对话方法进一步包括:
获取受访者的基本信息。
优选地,在获取受访者的基本信息之后,在根据需要获取的医用专业参数输出对应的白话提问提示语组中的一个白话提问提示语之前,所述医疗语音对话方法进一步包括:
获取受访者数据库,所述受访者数据库包括预设受访者信息;
将所述受访者的基本信息与受访者数据库中的预设受访者信息进行比对,若比对成功,则根据需要获取的医用专业参数名称信息,输出对应的白话提问提示语组中的一个白话提问提示语。
优选地,所述获取受访者的基本信息包括:
获取基本语音对话数据库,所述基本语音对话数据库包括受访者基本参数提问语音以及至少一个受访者基本参数信息;
获取第二预设语义数据库,所述第二预设语义数据库包括第二预设语义数据组,每组第二预设语义数据组映射一个受访者基本参数信息,每组第二预设语义数据组中包括至少一个第二预设语义;
与受访者建立会话连接;
输出受访者基本参数提问语音;
获取受访者的第二语音信息;
识别所述第二语音信息,获取所述第二语音信息中的语义信息;
将所述第二语音信息中的语义信息与第二预设语义数据库中的第二预设语义数据组进行对比,判断是否满足第二预设条件,若是,则将所述受访者的基本信息与受访者数据库中的预设受访者信息进行比对。
优选地,所述识别所述第一语音信息,获取所述第一语音信息中的语义信息包括:
提取所述第一语音信息中的语音特征;
获取声学模型以及语言模型;
将所述语音特征输入至所述声学模型,从而获取音素信息;
将所述因素信息输入至所述语言模型,获取文字信息;
识别所述文字信息,从而获取所述文字信息中的语义信息;
判断所述语义信息是否具有与输出的白话提问提示语组映射的预设语义数据组中的预设语义。
优选地,所述第一条件包括:设置相似度阈值,将所述第一语音信息中的语义信息与每个预设语义进行相似度对比,若相似度大于所述相似度阈值,则判断为满足第一条件。
优选地,所述存储所述第一语音信息包括:
存储所述第一语音信息以及存储所述第一语音信息中的语义信息,并将所述语义信息与所述满足第一条件的预设语义所映射的白话提问提示语组所映射的医用专业参数名称信息进行映射。
本申请还提供了一种医疗语音对话装置,所述医疗语音对话装置包括:
医用专业名词数据库获取模块,所述医用专业名词数据库获取模块用于获取医用专业名词数据库,所述医用专业名词数据库中包括医用专业参数名称信息;
提问数据库获取模块,所述提问数据库获取模块用于获取提问数据库,所述提问数据库中包括白话提问提示语组,每组白话提问提示语组映射一个医用专业参数,每组白话提问提示语组中包括至少一个白话提问提示语;
预设语义数据库获取模块,所述预设语义数据库获取模块用于获取预设语义数据库,所述预设语义数据库包括预设语义数据组,每组预设语义数据组映射一个白话提问提示语组,每组预设语义数据组中包括至少一个预设语义;
白话提示语输出模块,所述白话提示语输出模块用于根据需要获取的医用专业参数名称信息输出对应的白话提问提示语组中的一个白话提问提示语;
第一语音信息获取模块,所述第一语音信息获取模块用于获取受访者的第一语音信息;
第一语音信息识别模块,所述第一语音信息识别模块用于识别所述第一语音信息,获取所述第一语音信息中的语义信息;
第一对比模块,所述第一对比模块用于将所述第一语音信息中的语义信息与所述输出的白话提问提示语组映射的预设语义数据组中的预设语义进行对比,判断是否满足第一条件;
存储模块,所述存储模块用于存储所述第一语音信息。
本申请还提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的医疗语音对话方法。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时能够实现如上所述的医疗语音对话方法。
有益效果
本发明公开了一种医疗语音对话方法,该方法根据需要获取的医用专业参数名称信息输出对应的白话提问提示语组中的一个白话提问提示语,采用这种方式,能够将医用专业参数名称信息与受访者的回答联系起来,从而访问者不需要再受访者的众多内容中自行摘取需要的信息,大大节约了受访者的时间。
附图说明
图1为本发明的医疗语音对话方法的流程示意图;
图2是能够实现根据本申请一个实施例提供的医疗语音对话方法的计算设备的示例性结构图。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。若未特别指明,实施例中所用的技术手段为本领域技术人员所熟知的常规手段。
本实施例中所述的“前”、“前端”“前部”均指使用时靠近病灶或手术操作部位的一端或一部分,所述的“后”“后端”“后部”均指使用时远离病灶或手术操作部位的一端或一部分。
图1为本发明的医疗语音对话方法的流程示意图;图2为图1所示的医疗语音对话装置的结构示意图;
如图1以及图2所示的医疗语音对话方法包括:
步骤1:获取医用专业名词数据库,所述医用专业名词数据库中包括医用专业参数名称信息;
步骤2:获取提问数据库,所述提问数据库中包括白话提问提示语组,一组白话提问提示语组映射一个医用专业参数,每组白话提问提示语组中包括至少一个白话提问提示语;
步骤3:获取预设语义数据库,所述预设语义数据库包括预设语义数据组,每组预设语义数据组映射一个白话提问提示语组,每组预设语义数据组中包括至少一个预设语义;
步骤4:根据需要获取的医用专业参数名称信息输出对应的(与需要获取的医用专业参数名称信息相映射的白话提问提示语组中的任意一个白话提问提示语)白话提问提示语组中的一个白话提问提示语;
步骤5:获取受访者的第一语音信息;具体地,获取受访者的根据步骤 4中的白话提问提示语所回答的第一语音信息,可以理解的是,在实际使用中,可以认为自本申请输出白话提问提示语后的受访者所回答的话都是第一语音信息;
步骤6:识别第一语音信息,获取第一语音信息中的语义信息;
步骤7:将第一语音信息中的语义信息与输出的白话提问提示语组映射的预设语义数据组中的预设语义进行对比,判断是否满足第一条件,若是,
步骤8:则存储第一语音信息。
在本实施例中,医疗语音对话方法还进一步包括:
将第一语音信息中的语义信息与输出的白话提问提示语组映射的预设语义数据组中的预设语义进行对比,判断是否满足第一条件,若否,
步骤9:则选取根据需要获取的医用专业参数名称信息输出对应的白话提问提示语组中的未选取的一个白话提问提示语,并重复步骤5至步骤8直至判断满足第一条件或者白话提问提示语组中已经没有未选取的一个白话提问提示语,若重复步骤5至步骤8直至白话提问提示语组中已经没有未选取的一个白话提问提示语,则结束本次对话。
本发明公开了一种医疗语音对话方法,该方法根据需要获取的医用专业参数名称信息输出对应的白话提问提示语组中的一个白话提问提示语,采用这种方式,能够将医用专业参数名称信息与受访者的回答联系起来,从而访问者不需要再受访者的众多内容中自行摘取需要的信息,大大节约了受访者的时间。
在本实施例中,在根据需要获取的医用专业参数输出对应的白话提问提示语组中的一个白话提问提示语之前,医疗语音对话方法进一步包括:获取受访者的基本信息。
在本实施例中,在获取受访者的基本信息之后,在根据需要获取的医用专业参数输出对应的白话提问提示语组中的一个白话提问提示语之前,医疗语音对话方法进一步包括:
获取受访者数据库,受访者数据库包括预设受访者信息;
将受访者的基本信息与受访者数据库中的预设受访者信息进行比对,若比对成功,则进行步骤4:根据需要获取的医用专业参数名称信息输出对应的白话提问提示语组中的一个白话提问提示语。
具体地,本申请采用如下方式获取受访者的基本信息:
获取基本语音对话数据库,基本语音对话数据库包括受访者基本参数提问语音以及至少一个受访者基本参数信息;
获取第二预设语义数据库,第二预设语义数据库包括第二预设语义数据组,每组第二预设语义数据组映射一个受访者基本参数信息,每组第二预设语义数据组中包括至少一个第二预设语义;
与受访者建立会话连接;
输出受访者基本参数提问语音;
获取受访者的第二语音信息,具体地,获取受访者根据输出受访者基本参数提问语音所回答的第二语音信息;
识别第二语音信息,获取第二语音信息中的语义信息;
将第二语音信息中的语义信息与第二预设语义数据库中的第二预设语义数据组进行对比,判断是否满足第二预设条件,若是,则将受访者的基本信息与受访者数据库中的预设受访者信息进行比对。
在本实施例中,识别第一语音信息,获取第一语音信息中的语义信息包括:
提取第一语音信息中的语音特征;
获取声学模型以及语言模型;
将语音特征输入至声学模型,从而获取音素信息;
将因素信息输入至语言模型,获取文字信息;
识别文字信息,从而获取文字信息中的语义信息;
判断语义信息是否具有与输出的白话提问提示语组映射的预设语义数据组中的预设语义。
在本实施例中,识别文字信息,从而获取文字信息中的语义信息包括:
对文字信息进行文字预处理;
对经过文字预处理的文字信息进行文字特征提取,从而获取文字特征;
将文字特征输入至训练好的语义训练器中,从而获得语义信息。
可以理解的是,识别第二语音信息,获取第二语音信息中的语义信息可以采用与识别第一语音信息相同的方法进行。
举例来说,在本实施例中,对文字信息进行文字预处理包括:
首先针对文字信息进行预处理,例如,清洗操作:编码转换、基本纠错、去除空白、大小写统一、去标点符号、去停用词、保留特殊字符等。
编码转换:统一进行文字信息编码转换。
基本纠错:对于文字信息文本中医学常用语和特定场景用语的错误进行纠正。
去除空白:去除患者语音中停顿空格内容、空行。
大小写统一:文本中的医学英语用语统一为大写或小写。
去标点符号:去除句子中的标点符号、特殊符号等。
去停用词:常见的体用词包括嗯、啊、哦、额等。
保留特殊字符:在医学随访场景下只针对汉字、英文或数字进行处理,其他字符都需要过滤掉。
初始的文字信息进行分词处理操作:将文字信息中的文字按照中文中的字、句和段角度进行分割。分词过程中,通过预设语义数据库匹配的方式对句子进行划分。预设语义数据库分词原理:正向最大匹配法与逆向最大匹配法。
同时进行:
从句子初端(左端)与右端同时进行双向字词匹配
(1)取待分汉语句的m个字作为匹配字段,m为词典中最长词的长度。
(2)查找词典进行匹配。
(3)若匹配成功,则将该字段作为一个词切分出去。
(4)若匹配不成功,则将该字段最后一个字去掉,剩下的字作为新匹配字段,进行再次匹配。
(5)重复上述过程,直到切分所有词为止。
分词结束后针对判断不满足第一条件的第一语音信息中的文字信息进行统计计算:根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字同时出现的次数越多,就越有可能构成一个词。上述流程完成后,若还是无法解析患者语义信息在补充进行理解分词操作。
在此环节中根据预设语义数据组进行分词优化;
在本实施例中,采用词典分词方法、统计分词方法以及理解分词方法进行预处理。
在本实施例中,对经过文字预处理的文字信息进行文字特征提取,从而获取文字特征包括:采用词袋模型、TF-IDF文本特征提取、基于词向量的特征提取模型进行文字特征提取。举例来说,先基于词袋模型进行词干提取,统一特征;继而通过同步词向量特征转化与TF-IDF补充。
词向量特征转化:采用向量空间模型来描述文本向量,即将文档作为行,将分词后得到的单词(单词会在向量空间模型里面被成为向量,也被称为特征、维度或维)作为列,而矩阵的值则是通过词频统计算法得到的值。
同时应用TF-IDF文本特征提取针对语义信息不考虑词序,对文本特征进行向量转化。
在本实施例中,训练好的语义训练器包括fastText模型、TextCNN模型、 TextRNN模型、TextRNN+Attention模型以及TextRCNN模型。举例来说,在本实施例中,首先应用fastText模型其基于上文中词袋模型结果转化而来;
TextRNN模型与TextRCNN模型同步运行,结果相互补充;
TextCNN模型与TextRNN+Attention模型为深度学习网络结构兜底运行。
在本实施例中,第一条件包括:设置相似度阈值,将第一语音信息中的语义信息与每个预设语义进行相似度对比,若相似度大于相似度阈值,则判断为满足第一条件。若具有多个大于相似度阈值的,则选取相似度阈值最大的。
在本实施例中,存储第一语音信息包括:
存储第一语音信息以及存储第一语音信息中的语义信息,并将语义信息与满足第一条件的预设语义所映射的白话提问提示语组所映射的医用专业参数名称信息进行映射。
本申请还进一步包括:
输出第一语音信息,具体地,输出第一语音信息中的语义信息。
本申请还进一步包括:
在输出第一语音信息中的语义信息同时,将该语义信息映射的医用专业参数名称信息同时输出。
为了方便理解,下面以举例的方式对本申请进行进一步阐述,可以理解的是,该举例并不构成对本申请的任何限制。
例如,通过本申请的医疗语音对话方法想获取受访者的屈膝度参数,此时,通过本申请的方法具体为:
步骤1:获取医用专业名词数据库,医用专业名词数据库中包括医用专业参数名称信息,在本实施例中,为了叙述方便,该医用专业名词数据库中仅包括一个医用专业参数名称信息,即屈膝度。
步骤2:获取提问数据库,提问数据库中包括白话提问提示语组,一组白话提问提示语组映射一个医用专业参数名称信息,每组白话提问提示语组中包括至少一个白话提问提示语;举例来说,在本实施例中,由于只有屈膝度一个医用专业参数名称信息,因此只有一组白话提问提示语组,该组白话提问提示语组与屈膝度形成映射关系,该组中可以包括多个白话提问提示语,例如,第一个白话提问提示语:请问您的膝盖能够弯曲多少度?第二个白话提问提示语:请问您是否能够让小腿与大腿在弯曲时呈直角?如果不能大概能呈什么角度?
步骤3:获取预设语义数据库,预设语义数据库包括预设语义数据组,一组预设语义数据组映射一个白话提问提示语组,本实施例中只有一组白话提问提示语组,因此,也就只有一组预设语义数据库,该组预设语义数据组中包括至少一个预设语义,例如,在本实施例中,预设语义数据组中的预设语义包括:1、九十度,2、四十五度,3、三十度,4、直角,5、小腿与大腿弯曲时能够呈直角,6、能弯曲四十五度、7、能弯曲九十度等。
步骤4:根据需要获取的医用专业参数名称信息输出对应的白话提问提示语组中的一个白话提问提示语,在本实施例中,本申请需要获取的是屈膝度,即根据需要获取的医用专业参数名称信息输出对应的白话提问提示语组中的一个白话提问提示语,例如,该白话提问提示语为请问您的膝盖能够弯曲多少度?
在本申请的白话提问提示语输出后,将会通过外设的声音设备传递给受访者,此时,受访者会根据白话提问提示语回答,即步骤5:获取受访者的第一语音信息;
步骤6:识别第一语音信息,获取第一语音信息中的语义信息;具体地,比如受访者的第一语音信息被识别之后,获取的语义信息为:我膝盖能够弯曲90度。
步骤7:将第一语音信息中的语义信息与输出的白话提问提示语组映射的预设语义数据组中的预设语义进行对比,判断是否满足第一条件,若是,则存储第一语音信息。
举例来说,我们获取了语义信息:我膝盖能够弯曲90度。将该语义信息跟本申请的预设语义数据组中的预设语义进行对比,我膝盖能够弯曲90 度与上述的7、能弯曲九十度满足第一条件,即相似度条件,则存储受访者的该第一语音信息。
可以理解的是,我们可以直接存储受访者的第一语音信息,也可以存储他的第一语音信息所对应的文字信息,还可以存储他的第一语音信息所对应的文字信息中的某几个字,例如,上述实施例中,存储文字信息中的九十度这三个字。
本申请还提供了一种医疗语音对话装置,所述医疗语音对话装置包括医用专业名词数据库获取模块、提问数据库获取模块、预设语义数据库获取模块、白话提示语输出模块、第一语音信息获取模块、第一语音信息识别模块、第一对比模块以及存储模块,其中,
医用专业名词数据库获取模块用于获取医用专业名词数据库,医用专业名词数据库中包括医用专业参数名称信息;
提问数据库获取模块用于获取提问数据库,提问数据库中包括白话提问提示语组,每组白话提问提示语组映射一个医用专业参数,每组白话提问提示语组中包括至少一个白话提问提示语;
预设语义数据库获取模块用于获取预设语义数据库,预设语义数据库包括预设语义数据组,每组预设语义数据组映射一个白话提问提示语组,每组预设语义数据组中包括至少一个预设语义;
白话提示语输出模块用于根据需要获取的医用专业参数名称信息输出对应的白话提问提示语组中的一个白话提问提示语;
第一语音信息获取模块用于获取受访者的第一语音信息;
第一语音信息识别模块用于识别第一语音信息,获取第一语音信息中的语义信息;
第一对比模块用于将第一语音信息中的语义信息与输出的白话提问提示语组映射的预设语义数据组中的预设语义进行对比,判断是否满足第一条件;
存储模块用于存储第一语音信息。
需要说明的是,前述对方法实施例的解释说明也适用于本实施例的装置,此处不再赘述。
本申请还提供了一种电子设备,包括存储器、处理器以及存储在存储器中并能够在处理器上运行的计算机程序,处理器执行计算机程序时实现如上的医疗语音对话方法。
如图2所示,电子设备包括输入设备501、输入接口502、中央处理器503、存储器504、输出接口505以及输出设备506。其中,输入接口502、中央处理器503、存储器504以及输出接口505通过总线507相互连接,输入设备501和输出设备506分别通过输入接口502和输出接口505与总线507连接,进而与电子设备的其他组件连接。具体地,输入设备504接收来自外部的输入信息,并通过输入接口502将输入信息传送到中央处理器503;中央处理器503基于存储器504中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器504中,然后通过输出接口505 将输出信息传送到输出设备506;输出设备506将输出信息输出到电子设备的外部供用户使用。
也就是说,图2所示的电子设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及一个或多个处理器,该一个或多个处理器在执行计算机可执行指令时可以实现结合图1描述的医疗语音对话方法。
在一个实施例中,图2所示的电子设备可以被实现为包括:存储器504,被配置为存储可执行程序代码;一个或多个处理器503,被配置为运行存储器504中存储的可执行程序代码,以执行上述实施例中的医疗语音对话方法。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时能够实现如上的医疗语音对话方法。
本申请虽然以较佳实施例公开如上,但其实并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此,本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入 /输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动,媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数据多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
此外,显然“包括”一词不排除其他单元或步骤。装置权利要求中陈述的多个单元、模块或装置也可以由一个单元或总装置通过软件或硬件来实现。第一、第二等词语用来标识名称,而不标识任何特定的顺序。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,模块、程序段、或代码的一部分包括一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地标识的方框实际上可以基本并行地执行,他们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或总流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
在本实施例中所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor, DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现装置/终端设备的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
在本实施例中,装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM, Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (8)

1.一种医疗语音对话方法,其特征在于,所述医疗语音对话方法包括:
获取医用专业名词数据库,所述医用专业名词数据库中包括医用专业参数名称信息;
获取提问数据库,所述提问数据库中包括白话提问提示语组,一组白话提问提示语组映射一个医用专业参数名称信息,每组白话提问提示语组中包括至少一个白话提问提示语;
获取预设语义数据库,所述预设语义数据库包括预设语义数据组,一组预设语义数据组映射一个白话提问提示语组,每组预设语义数据组中包括至少一个预设语义;
根据需要获取的医用专业参数名称信息输出对应的白话提问提示语组中的一个白话提问提示语;
获取受访者的第一语音信息;
识别所述第一语音信息,获取所述第一语音信息中的语义信息;
将所述第一语音信息中的语义信息与所述输出的白话提问提示语组映射的预设语义数据组中的预设语义进行对比,判断是否满足第一条件,若是,
则存储所述第一语音信息;其中,
在根据需要获取的医用专业参数名称信息输出对应的白话提问提示语组中的一个白话提问提示语之前,所述医疗语音对话方法进一步包括:
获取受访者的基本信息;
在获取受访者的基本信息之后,在根据需要获取的医用专业参数输出对应的白话提问提示语组中的一个白话提问提示语之前,所述医疗语音对话方法进一步包括:
获取受访者数据库,所述受访者数据库包括预设受访者信息;
将所述受访者的基本信息与受访者数据库中的预设受访者信息进行比对,若比对成功,则根据需要获取的医用专业参数名称信息输出对应的白话提问提示语组中的一个白话提问提示语。
2.如权利要求1所述的医疗语音对话方法,其特征在于,所述获取受访者的基本信息包括:
获取基本语音对话数据库,所述基本语音对话数据库包括受访者基本参数提问语音以及至少一个受访者基本参数信息;
获取第二预设语义数据库,所述第二预设语义数据库包括第二预设语义数据组,每组第二预设语义数据组映射一个受访者基本参数信息,每组第二预设语义数据组中包括至少一个第二预设语义;
与受访者建立会话连接;
输出受访者基本参数提问语音;
获取受访者的第二语音信息;
识别所述第二语音信息,获取所述第二语音信息中的语义信息;
将所述第二语音信息中的语义信息与第二预设语义数据库中的第二预设语义数据组进行对比,判断是否满足第二预设条件,若是,则将所述受访者的基本信息与受访者数据库中的预设受访者信息进行比对。
3.如权利要求2所述的医疗语音对话方法,其特征在于,所述识别所述第一语音信息,获取所述第一语音信息中的语义信息包括:
提取所述第一语音信息中的语音特征;
获取声学模型以及语言模型;
将所述语音特征输入至所述声学模型,从而获取音素信息;
将所述音素信息输入至所述语言模型,获取文字信息;
识别所述文字信息,从而获取所述文字信息中的语义信息;
判断所述语义信息是否具有与输出的白话提问提示语组映射的预设语义数据组中的预设语义。
4.如权利要求3所述的医疗语音对话方法,其特征在于,所述第一条件包括:设置相似度阈值,将所述第一语音信息中的语义信息与每个预设语义进行相似度对比,若相似度大于所述相似度阈值,则判断为满足第一条件。
5.如权利要求4所述的医疗语音对话方法,其特征在于,所述存储所述第一语音信息包括:
存储所述第一语音信息以及存储所述第一语音信息中的语义信息,并将所述语义信息与所述满足第一条件的预设语义所映射的白话提问提示语组所映射的医用专业参数名称信息进行映射。
6.一种医疗语音对话装置,其特征在于,所述医疗语音对话装置包括:
医用专业名词数据库获取模块,所述医用专业名词数据库获取模块用于获取医用专业名词数据库,所述医用专业名词数据库中包括医用专业参数名称信息;
提问数据库获取模块,所述提问数据库获取模块用于获取提问数据库,所述提问数据库中包括白话提问提示语组,每组白话提问提示语组映射一个医用专业参数,每组白话提问提示语组中包括至少一个白话提问提示语;
预设语义数据库获取模块,所述预设语义数据库获取模块用于获取预设语义数据库,所述预设语义数据库包括预设语义数据组,每组预设语义数据组映射一个白话提问提示语组,每组预设语义数据组中包括至少一个预设语义;
白话提示语输出模块,所述白话提示语输出模块用于根据需要获取的医用专业参数名称信息输出对应的白话提问提示语组中的一个白话提问提示语;
第一语音信息获取模块,所述第一语音信息获取模块用于获取受访者的第一语音信息;
第一语音信息识别模块,所述第一语音信息识别模块用于识别所述第一语音信息,获取所述第一语音信息中的语义信息;
第一对比模块,所述第一对比模块用于将所述第一语音信息中的语义信息与所述输出的白话提问提示语组映射的预设语义数据组中的预设语义进行对比,判断是否满足第一条件;
存储模块,所述存储模块用于存储所述第一语音信息;其中,
在根据需要获取的医用专业参数名称信息输出对应的白话提问提示语组中的一个白话提问提示语之前,医疗语音对话装置进一步包括:
获取受访者的基本信息;
在获取受访者的基本信息之后,在根据需要获取的医用专业参数输出对应的白话提问提示语组中的一个白话提问提示语之前,医疗语音对话装置进一步包括:
获取受访者数据库,所述受访者数据库包括预设受访者信息;
将所述受访者的基本信息与受访者数据库中的预设受访者信息进行比对,若比对成功,则根据需要获取的医用专业参数名称信息输出对应的白话提问提示语组中的一个白话提问提示语。
7.一种电子设备,包括存储器、处理器以及存储在所述存储器中并能够在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的医疗语音对话方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时能够实现如权利要求1至6中任一项所述的医疗语音对话方法。
CN202010325172.1A 2020-04-23 2020-04-23 一种医疗语音对话方法及装置 Active CN112133284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010325172.1A CN112133284B (zh) 2020-04-23 2020-04-23 一种医疗语音对话方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010325172.1A CN112133284B (zh) 2020-04-23 2020-04-23 一种医疗语音对话方法及装置

Publications (2)

Publication Number Publication Date
CN112133284A CN112133284A (zh) 2020-12-25
CN112133284B true CN112133284B (zh) 2023-07-07

Family

ID=73851381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010325172.1A Active CN112133284B (zh) 2020-04-23 2020-04-23 一种医疗语音对话方法及装置

Country Status (1)

Country Link
CN (1) CN112133284B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409935A (zh) * 2021-06-04 2021-09-17 新大陆数字技术股份有限公司 一种禽畜疾病问诊方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075435A (zh) * 2007-04-19 2007-11-21 深圳先进技术研究院 一种智能聊天系统及其实现方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7208977B2 (ja) * 2017-05-05 2023-01-19 カナリー・スピーチ,エルエルシー 音声に基づく医療評価
US20200097814A1 (en) * 2018-09-26 2020-03-26 MedWhat.com Inc. Method and system for enabling interactive dialogue session between user and virtual medical assistant
CN109684445B (zh) * 2018-11-13 2021-05-28 中国科学院自动化研究所 口语化医疗问答方法及系统
CN110783001A (zh) * 2019-10-30 2020-02-11 苏州思必驰信息科技有限公司 信息管理方法及装置、物联网终端和计算机可读存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075435A (zh) * 2007-04-19 2007-11-21 深圳先进技术研究院 一种智能聊天系统及其实现方法

Also Published As

Publication number Publication date
CN112133284A (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
CN112464993B (zh) 一种多模态模型训练方法、装置、设备及存储介质
CN111046133A (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
JP6677419B2 (ja) 音声対話方法及び装置
US20220358297A1 (en) Method for human-machine dialogue, computing device and computer-readable storage medium
CN111613215B (zh) 一种语音识别的方法及其装置
CN112633003A (zh) 一种地址识别方法、装置、计算机设备及存储介质
CN109410923B (zh) 语音识别方法、装置、系统及存储介质
CN112989008A (zh) 一种多轮对话改写方法、装置和电子设备
CN111881297A (zh) 语音识别文本的校正方法及装置
CN110717021A (zh) 人工智能面试中获取输入文本和相关装置
CN117743526A (zh) 一种基于大语言模型和自然语言处理的表格问答方法
CN112133284B (zh) 一种医疗语音对话方法及装置
CN116881470A (zh) 一种生成问答对的方法及装置
CN109934347B (zh) 扩展问答知识库的装置
CN116582726B (zh) 视频生成方法、装置、电子设备及存储介质
CN113535925A (zh) 语音播报方法、装置、设备及存储介质
CN111898363A (zh) 文本长难句的压缩方法、装置、计算机设备及存储介质
CN110956043A (zh) 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质
US20230215417A1 (en) Using token level context to generate ssml tags
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN114974310A (zh) 基于人工智能的情感识别方法、装置、计算机设备及介质
CN110428668B (zh) 一种数据提取方法、装置、计算机系统及可读存储介质
CN111159339A (zh) 一种文本匹配处理方法和装置
KR20160053587A (ko) 엔-그램 언어 모델의 데이터베이스 사이즈 최소화 방법
CN110888976A (zh) 一种文本摘要生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant