CN116306687B - 一种医疗咨询平台自检测系统及医疗咨询平台 - Google Patents
一种医疗咨询平台自检测系统及医疗咨询平台 Download PDFInfo
- Publication number
- CN116306687B CN116306687B CN202310593809.9A CN202310593809A CN116306687B CN 116306687 B CN116306687 B CN 116306687B CN 202310593809 A CN202310593809 A CN 202310593809A CN 116306687 B CN116306687 B CN 116306687B
- Authority
- CN
- China
- Prior art keywords
- speech
- sentences
- medical
- sequences
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 13
- 238000012360 testing method Methods 0.000 claims description 46
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 17
- 230000009193 crawling Effects 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 6
- 238000002910 structure generation Methods 0.000 claims description 6
- 230000001172 regenerating effect Effects 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 description 8
- 238000000034 method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H80/00—ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及数字化医疗咨询领域,尤其涉及一种医疗咨询平台自检测系统及医疗咨询平台,本发明通过设置数据爬取模块、测试数据生成模块,数据爬取模块通过爬取医学文献数据构建医学语料数据库,结构生成单元通过马尔可夫模型生成符合自然语言逻辑的句子,并对应构建若干词性序列,对词性序列进行筛选后通过数据生成单元从医学语料数据库中筛选出符合已筛选词性序列的句子,并基于贝叶斯公式计算各句子的对应的后验概率分布参数,以获取符合自然语言逻辑但常规性较低的句子,在保证可靠性的前提下,提高测试语句诱导医疗咨询平台对话程序出现异常反馈的概率,快速发现医疗咨询平台运行中的错误反馈,提高检测的效率进而提高医疗咨询平台的可靠性。
Description
技术领域
本发明涉及数字化医疗咨询领域,尤其涉及一种医疗咨询平台自检测系统及医疗咨询平台。
背景技术
随着人工智能技术的发展,人工智能已经被应用于各类领域,其中,人工智能技术在医疗行业迅速发展,各类用于医疗咨询的线上平台应运而生,该类线上平台能够基于自然语言模型自动生成回复信息,回复用户端对相关医疗知识的咨询。
例如,中国专利公开号:CN112417109A,公开了一种医疗咨询信息的推荐方法及系统,通过获取用户提供的咨询信息,咨询信息至少包括文本数据,并根据文本数据,确定对应的咨询问题类别;将文本数据输入自动识别模型中,得到文本数据中的目标数据;获取知识图谱数据库,根据目标数据和咨询问题类别,在知识图谱数据库中匹配对应的推荐信息,并将推荐信息返回给用户,以为用户就医提供便利,提高用户就医满意度。
但是,现有技术中还存在以下问题,
现有技术中,相关人机对话式医疗咨询平台未针对医疗咨询平台设置自检测系统持续性的检测医疗咨询平台反馈至用户端的反馈数据,并且,若采用随机枚举的方式生成测试语句对医疗咨询平台的反馈数据进行检测则效率较低。
发明内容
为解决现有技术中,相关人机对话式医疗咨询平台未针对医疗咨询平台设置自检测系统持续性的检测医疗咨询平台反馈至用户端的反馈数据,并且,若采用随机枚举的方式生成测试语句对医疗咨询平台的反馈数据进行检测则效率较低的问题,本发明提供一种医疗咨询平台自检测系统,其包括:
数据爬取模块,其内置爬虫程序,用以爬取文本数据构建医学语料数据库,所述文本数据为所述爬虫程序由开放医学文献数据库中爬取所得;
测试数据生成模块,其与所述数据爬取模块连接,包括结构生成单元以及数据生成单元,
所述结构生成单元用以基于马尔可夫模型根据所述医学语料数据库中存储的文本信息重新生成若干句子,获取并记录各所述句子的词性序列,将相同的词性序列归类后基于各类词性序列的出现概率对各所述词性序列进行筛选得到已筛选词性序列,其中,词性序列为若干词性代号按顺序组成的序列;
所述数据生成单元用以从所述医学语料数据库中筛选出符合所述已筛选词性序列的句子,并计算各所述句子的后验概率分布参数,选取单次筛选中最小后验概率分布参数对应的句子作为测试语句,所述后验概率分布参数为基于单个句子中若干句子分段对应的后验概率参数计算所得;
测试模块,其与所述测试数据生成模块以及医疗咨询平台连接,用以获取测试语句并输入至所述医疗咨询平台的文本对话程序中,并接收所述文本对话程序返回的反馈文本信息。
进一步地,所述结构生成单元将相同的词性序列归类为一类,按照公式(1)计算各类词性序列的出现概率P,
(1),
公式(1)中,Nm表示全部词性序列的总数,N表示单类词性序列的数量。
进一步地,所述结构生成单元基于各类词性序列的出现概率对各所述词性序列进行筛选,其中,
若存在任一类词性序列的出现概率低于预设的概率阈值,则将该类词性序列筛选出,所述概率阈值为各类词性序列出现概率的平均值。
进一步地,所述结构生成单元获取各所述句子的词性序列,其中,所述结构生成单元将句子进行分词处理,得到若干关键词,并获取各所述关键词的词性类型,将关键词替换为与其词性类型关联的词性代号,以得到句子的词性序列。
进一步地,所述结构生成单元内存储有若干词性代号,各所述词性代号与不同的词性类型建立有关联关系。
进一步地,所述数据生成单元从所述医学语料数据库中筛选出符合所述已筛选词性序列的句子,其中,
所述数据生成单元将医学语料数据库中各文本数据中的句子进行分词处理以获取各句子的词性序列,并将已获取的词性序列与所述已筛选词性序列进行对比,若存在已获取的词性序列与所述已筛选词性序列相同,则判定所述句子符合所述已筛选词性序列,并将所述句子从所述医学语料数据库中筛选出。
进一步地,所述数据生成单元基于所述医学语料数据库中的数据根据公式(2)计算已筛选出的句子中各句子分段对应的后验概率参数,
(2),
公式(2)中,P(A)表示医学语料数据库中与所述句子词性序列相同的其他句子出现的概率,P(B)表示所述句子中单个句子分段在医学语料数据库中出现的概率,P(A|B)表示所述医学语料数据库中包含所述句子分段的句子符合所述词性序列的概率。
进一步地,所述数据生成单元根据公式(3)计算所述句子对应的后验概率分布参数PE,
(3),
公式(3)中,nm表示所述句子中句子分段的数量,表示所述句子中第i个句子分段对应的后验概率参数。
进一步地,所述测试模块内还设置有语义分析模型,用以分析所述文本对话程序返回的反馈文本信息。
进一步地,本发明还提供一种医疗咨询平台,应用医疗咨询平台自检测系统,其包括:
文本对话程序,其用以基于输入的文本信息输出反馈文本信息。
与现有技术相比,本发明通过设置数据爬取模块、测试数据生成模块,数据爬取模块通过爬取数据构建医学语料数据库,结构生成单元通过马尔可夫模型生成符合自然语言逻辑的句子,并对应构建若干词性序列,在对词性序列进行筛选后,通过数据生成单元从医学语料数据库中筛选出符合已筛选词性序列的句子,并基于贝叶斯公式和医学语料数据库中的数据计算各句子的对应的后验概率分布参数,以获取符合自然语言逻辑但常规性较低的句子,进而在保证可靠性的前提下,提高测试语句诱导医疗咨询平台对话程序出现异常反馈的概率,快速发现医疗咨询平台运行过程中的错误反馈,提高检测的效率,进而提高医疗咨询平台的可靠性。
尤其,本发明通过马尔科夫模型构建符合自然语言逻辑的句子,并生成各句子对应的词性序列,在实际情况中,直接爬取的医疗文献数据库中的文本数据并不能作为测试数据,通过上述过程能够获取若干符合逻辑词性序列,并且,还基于各类词性序列的出现概率进行筛选,筛选出现概率较低词性序列,为后续从庞大的医学语料数据库中筛选出可用以测试数据的句子提供数据支持,并且,选用出现概率较低词性序列对应的句子,提高测试语句诱导医疗咨询平台对话程序出现异常反馈的概率,快速发现医疗咨询平台运行过程中的错误反馈,进而提高医疗咨询平台的可靠性。
尤其,本发明通过贝叶斯算法计算所筛选句子的后验概率分布参数,所筛选的句子是基于词性序列筛选所得,其符合自然语言逻辑框架,但是,在实际情况中,需要筛选出非常规表达但符合自然语言逻辑框架的语句,通过这些语句进行测试更易引导医疗咨询平台对话程序出现异常反馈,因此,通过引入贝叶斯公式进行计算,贝叶斯公式能够通过先验概率计算后验概率,先验概率是指根据以往经验和分析得到的概率,在通信系统中往往基于自然状态的资料测定所得,例如,本实施例中基于医学语料数据库现有的数据求得的句子分段在医学语料数据库中出现的概率等参数,而后验概率在统计学中是指事件已经发生后,发生的原因是由某个因素引起的概率,因此,通过求解句子对应的后验概率分布参数,能够表征在医学语料数据库的支持下,所筛选出句子出现的概率,即后验概率分布参数越小,表示句子常规性越低,因此通过上述过程能够筛选符合自然语言逻辑框架但常规性较低的句子,优先将这些句子作为文本对话程序的测试语句,更易引导医疗咨询平台对话程序出现异常反馈,进而在保证可靠性的前提下,快速发现医疗咨询平台运行过程中的错误反馈,进而提高医疗咨询平台的可靠性。
附图说明
图1为发明实施例的一种医疗咨询平台自检测系统结构示意图;
图2为发明实施例的测试数据生成模块结构示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1以及图2所示,图1为本发明实施例的一种医疗咨询平台自检测系统结构示意图,图2为测试数据生成模块结构示意图,本发明的一种医疗咨询平台自检测系统包括:
数据爬取模块,其内置爬虫程序,用以爬取文本数据构建医学语料数据库,所述文本数据为所述爬虫程序由开放医学文献数据库中爬取所得;
测试数据生成模块,其与所述数据爬取模块连接,包括结构生成单元以及数据生成单元,
所述结构生成单元用以基于马尔可夫模型根据所述医学语料数据库中存储的文本信息重新生成若干句子,获取并记录各所述句子的词性序列,将相同的词性序列归类后基于各类词性序列的出现概率对各所述词性序列进行筛选得到已筛选词性序列,其中,词性序列为若干词性代号按顺序组成的序列;
所述数据生成单元用以从所述医学语料数据库中筛选出符合所述已筛选词性序列的句子,并计算各所述句子的后验概率分布参数,选取单次筛选中最小后验概率分布参数对应的句子作为测试语句,所述后验概率分布参数为基于单个句子中若干句子分段对应的后验概率参数计算所得;
测试模块,其与所述测试数据生成模块以及医疗咨询平台连接,用以获取测试语句并输入至所述医疗咨询平台的文本对话程序中,并接收所述文本对话程序返回的反馈文本信息。
具体而言,本发明对数据爬取模块的具体结构不做限定,爬虫程序已经为成熟现有技术,本领域技术人员可根据应用环境的需要,在符合规定的前提下设定对应的爬虫程序爬取数据,其为现有技术,此处不再赘述。
具体而言,本发明对测试数据生成模块以及测试模块的具体结构不做限定,其本身或其中的各单元可使用逻辑部件构成,逻辑部件可以为现场可编程逻辑部件、微处理器、计算机中使用的处理器等,此处不再赘述。
具体而言,本发明对文本对话程序的具体形式不做限定,在医疗咨询平台中文本对话程序可以是基于自然语言模型架构的聊天程序,向文本对话程序输入文本信息后能够基于自身的自然语言模型生成反馈文本信息,此为成熟现有技术,此处不再赘述。
具体而言,马尔可夫模型为成熟现有技术,其被广泛应用于各领域,尤其是应用在自然语言分析上,本领域技术人员应当明白,马尔可夫模型是一种仅基于前一事件来预测下一事件的随机模型,应用在自然语言分析中的基本原理为第n个词的出现只与前面n-1个词相关,而与剩余词都不相关,因此,整句出现的概率就是各个词出现概率的乘积,基于上述原理,马尔可夫模型在自然语言分析上常被应用于对现有语料数据进行分析后预测句子出现的概率,在实际实施中,马尔可夫模块首先会选取一个随机的起始词并将其添加至一个列表,然后会在医学语料数据库中进行检索,生成潜在跟随词的列表,生成器会一直选择潜在跟随词直到找到结束词,然后会停止循环,输出生成的句子,生成的句子符合自然语言逻辑,本领域技术人员可根据具体应用环境,选取开源的马尔可夫模型基于医学语料数据库中的文本数据生成若干符合自然语言逻辑的语句,此为现有技术,此处不再赘述。
具体而言,所述结构生成单元将相同的词性序列归类为一类,按照公式(1)计算各类词性序列的出现概率P,
(1),
公式(1)中,Nm表示全部词性序列的总数,N表示单类词性序列的数量。
具体而言,所述结构生成单元基于各类词性序列的出现概率对各所述词性序列进行筛选,其中,
若存在任一类词性序列的出现概率低于预设的概率阈值,则将该类词性序列筛选出。
具体而言,在本实施例中,概率阈值可基于各类词性序列出现概率的平均值进行设定,可以将所述出现概率平均值设定为概率阈值。
具体而言,所述结构生成单元获取各所述句子的词性序列,其中,所述结构生成单元将句子进行分词处理,得到若干关键词,并获取各所述关键词的词性类型,将关键词替换为与其词性类型关联的词性代号,以得到句子的词性序列。
具体而言,所述结构生成单元内存储有若干词性代号,各所述词性代号与不同的词性类型建立有关联关系
具体而言,所述结构生成单元以及数据生成单元内均设置分词工具,分词工具在自然语言处理中已经广泛应用,其能够将自然语言分词后划分词性代号,本发明对分词工具的类型不做具体限定,其可以是现有任意一种分词工具,只需能够实现对自然语言分词并划分词性即可,当然,不同分词工具的词性划分类型也不同,由分词工具的类型决定,在本实施例中可以选用LAC分词工具,其词性类型以及词性类型关联的词性代号如表1所示;
表1 词性类型与所关联的词性代号表
当然,本领域技术人员也可以根据具体需要选用其他分词工具,此不再赘述。
具体而言,本发明通过马尔科夫模型构建符合自然语言逻辑的句子,并生成各句子对应的词性序列,在实际情况中,直接爬取的医疗文献数据库中的文本数据并不能作为测试数据,通过上述过程能够获取若干符合逻辑的词性序列,并且,还基于各类词性序列的出现概率进行筛选,筛选出现概率较低词性序列,为后续从庞大的医学语料数据库中筛选出可用以测试数据的句子提供数据支持,并且,选用出现概率较低词性序列,能够提升测试对象出现崩溃和异常反馈的概率,进而提高系统的测试效率。
具体而言,所述数据生成单元从所述医学语料数据库中筛选出符合所述已筛选词性序列的句子,其中,
所述数据生成单元将医学语料数据库中各文本数据中的句子进行分词处理以获取各句子的词性序列,并将已获取的词性序列与所述已筛选词性序列进行对比,若存在已获取的词性序列与所述已筛选词性序列相同,则判定所述句子符合所述已筛选词性序列,并将所述句子从所述医学语料数据库中筛选出。
具体而言,所述数据生成单元将已筛选出的句子划分为若干等长的句子分段,其中,
所述数据生成单元将已筛选出的句子去除标点符号、数字以及特殊字符,将句子划分为若干等长的句子分段。
具体而言,所述数据生成单元基于所述医学语料数据库中的数据根据公式(2)计算已筛选出的句子中各句子分段对应的后验概率参数,
(2),
公式(2)中,P(A)表示医学语料数据库中与所述句子词性序列相同的其他句子出现的概率,P(B)表示所述句子中单个句子分段在医学语料数据库中出现的概率,P(A|B)表示所述医学语料数据库中包含所述句子分段的句子符合所述词性序列的概率。
具体而言,所述数据生成单元根据公式(3)计算所述句子对应的后验概率分布参数,
(3),
公式(3)中,nm表示所述句子中句子分段的数量,表示所述句子中第i个句子分段对应的后验概率参数。
具体而言,本发明通过贝叶斯算法计算所筛选句子的后验概率分布参数,所筛选的句子是基于词性序列筛选所得,其符合自然语言逻辑框架,但是,在实际情况中,需要筛选出非常规表达但符合自然语言逻辑框架的语句,通过这些语句进行测试更易引导医疗咨询平台对话程序出现异常反馈,因此,通过引入贝叶斯公式能够通过先验概率计算后验概率,先验概率是指根据以往经验和分析得到的概率,在通信系统中往往基于自然状态的资料测定所得,例如,本实施例中基于医学语料数据库现有的数据求得的句子分段在医学语料数据库中出现的概率等参数,而后验概率在统计学中是指事件已经发生后,发生的原因是由某个因素引起的概率,因此,通过求解句子对应的后验概率分布参数,能够表征在医学语料数据库的支持下,所筛选出句子出现的概率,即后验概率分布参数越小,表示句子常规性越低,因此通过上述过程能够筛选符合自然语言逻辑框架但常规性较低的句子,优先将这些句子作为文本对话程序的测试语句,更易引导医疗咨询平台对话程序出现异常反馈,进而在保证可靠性的前提下,快速发现医疗咨询平台运行过程中的错误反馈,进而提高医疗咨询平台的可靠性。
具体而言,所述测试模块内还设置有存储单元,用以存储测试语句以及文本对话程序返回的输出结果,本发明对存储单元的具体结构不做限定,其可以是存储硬盘或其他具备存储功能的部件,此为现有技术,此处不再赘述。
具体而言,所述数据生成单元内设置有数据筛选上限,所述数据生成单元从所述医学语料数据库中筛选出符合所述已筛选词性序列的句子时,单次筛选量不高于所述数据筛选上限,本领域技术人员应当明白,由于受制于算力限制,数据生成单元单次筛选的句子数量是有上限的,在实际应用中对于数据的筛选可以采用sample函数进行筛选,本领域技术人员可以根据具体需要设定数据筛选上限保证系统能够稳定运行。
具体而言,所述测试模块内还设置有语义分析模型,用以分析所述文本对话程序返回的输出结果,语义分析模型在现有技术中已经被广泛应用,能够分析自然语言是否符合语义逻辑,此处不再赘述,在实际应用中,医疗咨询平台的文本对话程序基于测试语句会返回输出结果,当然,该输出结果是多样的,可能是符合语义逻辑的语句,可能是不符合语义逻辑的语句也可能是程序报错提示,本领域技术人员将程序报错提示以及不符合语义逻辑的语句记录后便于后续对医疗咨询平台的文本对话程序进行维护、修正等操作。
具体而言,本发明还提供一种医疗咨询平台,应用于医疗咨询平台自检测系统,其包括:
文本对话程序,其用以基于输入的文本信息输出反馈文本信息,医疗咨询平台为云端平台,云端平台的架构本发明不做具体限定,只需能实现云端数据交互即可,可以接收用户端发送的咨询文本,基于文本对话程序返回反馈文本信息。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (5)
1.一种医疗咨询平台自检测系统,其特征在于,包括:
数据爬取模块,其内置爬虫程序,用以爬取文本数据构建医学语料数据库,所述文本数据为所述爬虫程序由开放医学文献数据库中爬取所得;
测试数据生成模块,其与所述数据爬取模块连接,包括结构生成单元以及数据生成单元,
所述结构生成单元用以基于马尔可夫模型根据所述医学语料数据库中存储的文本信息重新生成若干符合自然语言逻辑的句子,获取并记录各所述句子的词性序列,将相同的词性序列归类后基于各类词性序列的出现概率对各所述词性序列进行筛选得到已筛选词性序列,其中,词性序列为若干词性代号按顺序组成的序列;
所述数据生成单元用以从所述医学语料数据库中筛选出符合所述已筛选词性序列的句子,并计算各所述句子的后验概率分布参数,选取单次筛选中最小后验概率分布参数对应的句子作为测试语句,所述后验概率分布参数为基于单个句子中若干句子分段对应的后验概率参数计算所得;
测试模块,其与所述测试数据生成模块以及医疗咨询平台连接,用以获取测试语句并输入至所述医疗咨询平台的文本对话程序中,并接收所述文本对话程序返回的反馈文本信息;
所述结构生成单元获取各所述句子的词性序列,其中,所述结构生成单元将句子进行分词处理,得到若干关键词,并获取各所述关键词的词性类型,将关键词替换为与其词性类型关联的词性代号,以得到句子的词性序列;
所述结构生成单元内存储有若干词性代号,各所述词性代号与不同的词性类型建立有关联关系;
所述数据生成单元从所述医学语料数据库中筛选出符合所述已筛选词性序列的句子,其中,
所述数据生成单元将医学语料数据库中各文本数据中的句子进行分词处理以获取各句子的词性序列,并将已获取的词性序列与所述已筛选词性序列进行对比,若存在已获取的词性序列与所述已筛选词性序列相同,则判定所述句子符合所述已筛选词性序列,并将所述句子从所述医学语料数据库中筛选出;
所述数据生成单元基于所述医学语料数据库中的数据根据公式(2)计算已筛选出的句子中各句子分段对应的后验概率参数 ,
(2)
公式(2)中,P(A)表示医学语料数据库中与所述句子词性序列相同的其他句子出现的概率,P(B)表示所述句子中单个句子分段在医学语料数据库中出现的概率,P(A|B)表示所述医学语料数据库中包含所述句子分段的句子符合所述词性序列的概率;
所述数据生成单元根据公式(3)计算所述句子对应的后验概率分布参数PE,
(3)
公式(3)中,nm表示所述句子中句子分段的数量,表示所述句子中第i个句子分段对应的后验概率参数。
2. 根据权利要求1所述的医疗咨询平台自检测系统,其特征在于,所述结构生成单元将相同的词性序列归类为一类,按照公式(1)计算各类词性序列的出现概率P,
(1)
公式(1)中,Nm表示全部词性序列的总数,N表示单类词性序列的数量。
3.根据权利要求2所述的医疗咨询平台自检测系统,其特征在于,所述结构生成单元基于各类词性序列的出现概率对各所述词性序列进行筛选,其中,
若存在任一类词性序列的出现概率低于预设的概率阈值,则将该类词性序列筛选出,所述概率阈值为各类词性序列出现概率的平均值。
4.根据权利要求1所述的医疗咨询平台自检测系统,其特征在于,所述测试模块内还设置有语义分析模型,用以分析所述文本对话程序返回的反馈文本信息。
5.一种医疗咨询平台,应用权利要求1-4任一项所述的医疗咨询平台自检测系统,其特征在于,包括:
文本对话程序,其用以基于输入的文本信息输出反馈文本信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310593809.9A CN116306687B (zh) | 2023-05-25 | 2023-05-25 | 一种医疗咨询平台自检测系统及医疗咨询平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310593809.9A CN116306687B (zh) | 2023-05-25 | 2023-05-25 | 一种医疗咨询平台自检测系统及医疗咨询平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116306687A CN116306687A (zh) | 2023-06-23 |
CN116306687B true CN116306687B (zh) | 2023-08-18 |
Family
ID=86834540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310593809.9A Active CN116306687B (zh) | 2023-05-25 | 2023-05-25 | 一种医疗咨询平台自检测系统及医疗咨询平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116306687B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718598A (zh) * | 2016-03-07 | 2016-06-29 | 天津大学 | 基于at的时间模型构建方法与网络突发事件预警方法 |
CN112712804A (zh) * | 2020-12-23 | 2021-04-27 | 哈尔滨工业大学(威海) | 语音识别方法、系统、介质、计算机设备、终端及应用 |
CN113889259A (zh) * | 2021-09-06 | 2022-01-04 | 浙江工业大学 | 一种知识图谱辅助下的自动诊断对话系统 |
CN113935314A (zh) * | 2021-10-22 | 2022-01-14 | 平安国际智慧城市科技股份有限公司 | 基于异构图网络的摘要抽取方法、装置、终端设备及介质 |
CN114238735A (zh) * | 2021-12-14 | 2022-03-25 | 中科大数据研究院 | 一种互联网数据智能采集方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11923054B2 (en) * | 2021-07-21 | 2024-03-05 | Utech Products, Inc. | AI platform for processing speech and video information collected during a medical procedure |
-
2023
- 2023-05-25 CN CN202310593809.9A patent/CN116306687B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718598A (zh) * | 2016-03-07 | 2016-06-29 | 天津大学 | 基于at的时间模型构建方法与网络突发事件预警方法 |
CN112712804A (zh) * | 2020-12-23 | 2021-04-27 | 哈尔滨工业大学(威海) | 语音识别方法、系统、介质、计算机设备、终端及应用 |
CN113889259A (zh) * | 2021-09-06 | 2022-01-04 | 浙江工业大学 | 一种知识图谱辅助下的自动诊断对话系统 |
CN113935314A (zh) * | 2021-10-22 | 2022-01-14 | 平安国际智慧城市科技股份有限公司 | 基于异构图网络的摘要抽取方法、装置、终端设备及介质 |
CN114238735A (zh) * | 2021-12-14 | 2022-03-25 | 中科大数据研究院 | 一种互联网数据智能采集方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116306687A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102293160B1 (ko) | 인지증 예측 장치, 예측 모델 생성 장치 및 인지증 예측용 프로그램 | |
US20160253989A1 (en) | Speech recognition error diagnosis | |
EP0676704A2 (en) | Training apparatus and methods | |
KR20050041944A (ko) | 문서 분류 평가 시스템, 문서 분류 평가 방법, 패턴 분류평가 프로그램, 및 저장 매체 또는 저장 장치 | |
US20210042586A1 (en) | Phenomenon prediction device, prediction model generation device, and phenomenon prediction program | |
US20200365262A1 (en) | Self-correcting method for annotation of data pool using feedback mechanism | |
CN112069295B (zh) | 相似题推荐方法、装置、电子设备和存储介质 | |
US11385988B2 (en) | System and method to improve results of a static code analysis based on the probability of a true error | |
Rodriguez et al. | Comparison of information retrieval techniques for traceability link recovery | |
Reshadat et al. | A new open information extraction system using sentence difficulty estimation | |
Avramidis | Comparative quality estimation: Automatic sentence-level ranking of multiple machine translation outputs | |
CN116306687B (zh) | 一种医疗咨询平台自检测系统及医疗咨询平台 | |
Hong et al. | Comprehensive technology function product matrix for intelligent chatbot patent mining | |
Xu et al. | Detecting AI-Generated Code Assignments Using Perplexity of Large Language Models | |
Dekhtyar et al. | Text is software too | |
Avramidis | Sentence-level ranking with quality estimation | |
Sakkas et al. | Seq2Parse: neurosymbolic parse error repair | |
Yuan et al. | Incorporating multiple features to predict bug fixing time with neural networks | |
Yadagiri et al. | Team cnlp-nits-pp at PAN: leveraging BERT for accurate authorship verification: a novel approach to textual attribution | |
KR102062560B1 (ko) | 규칙 기반의 지식 데이터베이스 구축 방법 및 시스템 | |
Vayadande et al. | Conversion of Ambiguous Grammar to Unambiguous Grammar using Parse Tree | |
US20240354078A1 (en) | Method for preprocessing code data for a subsequent evaluation | |
Lewis et al. | Richards et al. | |
CN118394561B (zh) | 服务器故障的诊断方法、装置、存储介质及电子设备 | |
Singh et al. | A study on quality assessment of requirement engineering document using text classification technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |