CN113886537A - 基于自然语言处理和问答匹配的实验室管理系统 - Google Patents

基于自然语言处理和问答匹配的实验室管理系统 Download PDF

Info

Publication number
CN113886537A
CN113886537A CN202111141293.1A CN202111141293A CN113886537A CN 113886537 A CN113886537 A CN 113886537A CN 202111141293 A CN202111141293 A CN 202111141293A CN 113886537 A CN113886537 A CN 113886537A
Authority
CN
China
Prior art keywords
corpus
data
module
instruction
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111141293.1A
Other languages
English (en)
Inventor
贺敦伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zezheng Shanghai Biotechnology Co ltd
Original Assignee
Zezheng Shanghai Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zezheng Shanghai Biotechnology Co ltd filed Critical Zezheng Shanghai Biotechnology Co ltd
Priority to CN202111141293.1A priority Critical patent/CN113886537A/zh
Publication of CN113886537A publication Critical patent/CN113886537A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于自然语言处理和问答匹配的实验室管理系统,涉及自然语言处理和语音识别领域,包括:语音识别模块,获取语音指令并转换为文字指令;语料库模块,存放语料数据,包括实验室数据、制药行业最新动态、终端设备的功能说明;指令处理模块,对文字指令进行向量化处理,提取特征向量;功能匹配模块,明确用户操作类型,计算特征向量与语料数据相似度,返回相似度最高的语料数据对应的答案;控制器模块,与上述模块相连,控制各个模块协同工作。本发明通过语音输入指令实现系统的查询功能与记录数据功能,减少了实验人员双手对系统的操作,提高了工作效率,解决了实验数据记录不及时不准确的问题。

Description

基于自然语言处理和问答匹配的实验室管理系统
技术领域
本发明涉及自然语言处理和语音识别领域,特别涉及一种基于自然语言处理和问答匹配的实验室管理系统。
背景技术
实验室信息管理系统为实验室提供了信息化的管理模式,给实验室带来了极大地便利,对于实验室来说,不管是科研实验室还是检测检验实验室,都离不开庞大而复杂的数据记录体系,但是现有的实验室管理系统大多采用人工记录数据,存在数据记录不及时、不可控的人为因素造成的记录错误的数据安全问题,同时还会浪费不必要的人力。
自然语言处理是实现人与计算机之间用自然语言进行交流的理论和方法,语音识别技术是让机器识别和理解自然语言并把语音信号转换为文字的技术,随着自然语言处理方法的不断发展和日益成熟的语音识别技术,现有的许多终端设备都具备了语音识别功能,将自然语言处理和语音识别技术运用到实验室管理系统中,通过自然语言命令系统,进行查询数据和记录数据的操作,减少了实验人员双手对系统的操作,对于实验室提高工作效率、保证数据的原始性与准确性具有重要意义。
发明内容
本发明为了解决上述问题,提出了一种基于自然语言处理和问答匹配的实验室管理系统,通过语音输入向系统发出操作指令,查询数据和辅助实验人员在实验过程中记录数据,减少了实验人员双手对系统的操作,实现了实验操作和数据记录同步进行,且不用消耗不必要的人力资源,极大地提高了工作效率,节约了实验时间,同时避免了人工记录数据会产生的数据安全隐患问题。
为了实现上述目的,本发明提供技术方案如下:一种基于自然语言处理和问答匹配的实验室管理系统,包括:语音识别模块、语料库模块、指令处理模块,功能匹配模块,控制器模块。
进一步地,所述语音识别模块,用于获取语音指令并转换为文字指令,用户通过连接系统的终端设备的语音识别组件输入语音指令,并且由语音识别组件自动将识别到的语音指令转换为文字指令。
进一步地,所述终端设备包括但不限于手机、电脑、实验室仪器。
进一步地,所述语料库模块,用于存放语料数据,语料数据内容具体分为三部分,分别为实验室数据、制药行业最新动态、连接系统的终端设备的功能说明,三种数据经过收集、分析、整理组成初始语料数据,使用BERT模型进行向量化处理,生成对应的初始语料向量,共同组成语料库的语料数据。
进一步地,所述实验室数据,指实验室数据库中存储的实验记录报告或其他实验室相关数据。
进一步地,所述行业最新动态,指系统使用网络爬虫技术,定期在互联网上通过正规途径选取的生物制药行业标准的种子URL。
进一步地,所述终端设备的功能说明,指实验室人员或技术人员根据连接系统的各种终端设备所具备的具体功能编写。
进一步地,所述语料库中语料数据的分类以初始语料向量的距离为标准进行分类,技术人员根据实验室的需求和实际情况选取第一分类中心向量,计算初始预料向量与第一分类中心向量的距离,规定一个阈值,将超过阈值的初始语料向量归为一类。
进一步地,距离计算方式采用余弦相似度。
进一步地,所述指令处理模块,用于对文字指令的处理,包括文字指令向量化和获取文字指令对应的特征向量。
进一步地,所述对文字指令的处理,将文字指令输入经过训练的BERT模型中,BERT模型将文字指令进行向量化处理,并输出文字指令对应的特征向量。
进一步地,所述功能匹配模块用于计算特征向量与语料数据的相似度,系统选择相似度最高的指令执行。
进一步地,首先计算特征向量与语料库第一分类中心向量的余弦相似度确定用户操作类型,再计算特征向量与对应类型下的语料数据的余弦相似度,对应不同的操作类型设置不同的问答匹配规则。
进一步地,用户操作类型包括查询数据和记录数据。
进一步地,所述控制器模块,用于控制上述各个模块协同工作,负责接收各个模块的消息和发布执行命令到各个模块,控制终端设备的显示屏显示最终结果。
与现有技术相比,本发明所提供的一种基于自然语言处理和问答匹配的实验室管理系统,实现了系统通过用户的语音输入进行数据查询和数据记录的功能,减少了用户双手对系统的操作,提高了工作效率,避免了由人工记录数据不及时不准确所产生的数据安全隐患,同时通过系统自动填入数据将使实验记录更加标准化,为实验人员管理和存储实验记录提供了极大地便利。
附图说明
下面结合附图对本发明做进一步的说明。
图1为基于自然语言处理和问答匹配的实验室管理系统的逻辑示意图。
图2为语料数据的组成示意图。
图3为语料库的结构示意图。
具体实施方式
为了实现本发明的最终目的,下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行完整、明确地描述。
本发明提出的一种基于自然语言处理和问答匹配的实验室管理系统,包括:语音识别模块、语料库模块、指令处理模块,功能匹配模块、控制器模块。
参照图1所示,基于自然语言处理和问答匹配的实验室管理系统,控制器模块与语音识别模块、语料库模块、指令处理模块、功能匹配模块相连,负责接收各个模块的消息和控制各个模块的工作运行,语料库中的数据包括制药行业最新动态、实验室数据、终端设备的功能说明。
语音识别模块用于获取用户的语音指令并将语音指令转换为文字指令,在一个可选的实施例中,用户通过连接系统的终端设备的语音识别组件输入语音指令,当系统成功检测到用户的语音输入时,由语音识别组件将语音指令自动转换为文字指令,所述终端设备包括但不限于手机、电脑、实验室仪器。
语料库模块用于存放语料数据,是系统进行问答匹配的基础,语料库中的语料数据组成参照图2所示,包括制药行业最新动态、实验室数据、终端设备的功能说明。
在一个可选的实施例中,制药行业最新动态通过网络爬虫技术定期在互联网上通过正规渠道爬取,技术人员根据实际情况和实验室需求制定规则,选取生物制药行业标准的种子URL,并分析已抓取URL队列中的URL,获得实验室需要的数据,时间为6个月一次;实验室数据为实验室数据库中存储的实验记录报告或其他与实验室相关的数据;终端设备的功能说明由实验室人员或技术人员根据使用终端设备的用语习惯或公认的用语标准编写。
选用上述实施例,将三种数据经过收集、分析、整理后形成初始语料数据,通过BERT模型将初始语料数据进行向量化处理,生成对应的初始语料向量,共同组成语料库的语料数据,用于匹配用户的指令。
选用上述实施例,将三种数据进行分类存储,类型相似或者语义相近的初始语料数据对应的初始语料向量也拥有较近的距离,因此将初始语料向量之间的距离作为分类依据,本发明采用余弦相似度的计算方法计算距离,技术人员根据实验室的需求和实际情况选取第一分类中心向量,计算初始语料向量与第一分类中心向量的距离,规定一个阈值,将超过阈值的初始语料向量归为一类,技术人员可根据需要在第一分类中心向量区域下继续选取第二分类中心向量,进行更细致的分类。
选用上述实施例,参照图3所示,选取两个第一分类中心向量,分别为查询类操作和记录类操作,实验室数据和制药行业最新动态归类于查询类操作,终端设备的功能说明归类于记录类操作,具体地,在查询类操作下继续选取第二分类中心向量,区分实验室数据和制药行业最新动态。
指令处理模块,用于对文字指令的处理,包括文字指令向量化和获取文字指令对应的特征向量。
在一个可选实施例中,将文字指令输入经过训练的BERT模型中,对文字指令进行分词、解析、向量化处理,输出一组由词向量组成的具备语义的句子向量,即文字指令对应的特征向量。
功能匹配模块用于计算所述特征向量与语料数据的相似度,系统选择相似度最高的指令执行,对应用户不同的操作类型设置不同的问答匹配规则,所述用户操作类型包括查询数据和记录数据。
在一个可选实施例中,系统首先计算特征向量与语料库中的第一分类中心向量的余弦相似度,确认用户的操作类型是查询类操作还是纪录类操作。
选用上述实施例,对应用户的查询类操作,功能匹配模块计算特征向量与查询类操作的语料数据的余弦相似度,设置一个阈值,将余弦相似度按大小排序,选取k个超过阈值的语料数据对应的答案建立候选答案集,系统选取余弦值相似度最高的答案返回给用户。
所述k为一个正整数,由实验室人员或技术人员根据实际需求设置,若超过阈值的语料数据个数小于k值,则将选取所有超过阈值的语料数据对应的答案;若超过阈值的语料数据个数大于k值,则根据余弦相似度由大到小选取k个语料数据对应的答案。
其中,当系统检测到用户查询的数据属于实验室数据库中的内容时,系统将调用身份认证体系对用户进行认证,用户身份符合查询要求则将答案返回给用户;当系统检测到用户查询的数据属于网络爬虫技术获取的数据,则不用进行身份验证直接将答案返回给用户。
当最大余弦相似度小于设置的阈值或系统认证用户身份不合格时,系统显示查询失败,并通过终端设备的扬声器发出提示音。
优选的,身份认证方式采用人脸识别和指纹识别。
特别地,根据用户的使用情况建立常用答案集,将用户经常检索的语料数据对应的答案以检索次数为依据选进常用答案集,根据实际情况选择n个常用答案,所述n为正整数,由技术人员根据实际情况设置,当用户再次查询时优先检索常用问题集,若是在常用问题集中检索不到目标答案,再通过语料库检索。
选用上述实施例,对应用户的记录类操作,功能匹配模块计算特征向量于语料库中记录类操作的语料数据的余弦相似度,系统跳转余弦相似度最高的功能说明对应的功能界面,在终端设备的显示屏上显示待填入数据,并由终端设备的扬声器提示用户继续通过语音录入数据,系统识别后自动填入数据。
其中,当用户没有切换操作界面时,用户输入语音数据,系统只会在当前操作界面的待填入处填写数据,当数据填写完成发出完成提示音,并跳转到下一个待填入数据处提示用户继续录入,直至用户结束记录操作。
控制器模块,用于控制各个模块协同工作,协调和指挥整个系统的运行,基于本发明,其控制过程如下:用户通过终端设备启动系统,使用终端设备的语音识别组件录入语音指令,控制器模块调动语音识别模块,识别用户语音并转换为文字指令,控制器模块接收语音识别模块的识别信息调动指令处理模块将文字指令向量化,提取特征向量,控制器接收指令处理模块的转换信息调动语料库模块和功能匹配模块检索目标答案,控制器接收功能匹配模块的匹配结果,并在终端设备的显示屏上显示匹配结果。
综上所述,本发明涉及的一种基于自然语言处理和问答匹配的实验室管理系统,采用自然语言处理技术和语音识别技术,使实验室人员可以通过自然语言操作系统,减少实验室人员手动输入操作指令的频率,实现了实验操作和数据记录同步进行,将辅助记录人员的工作转交给机器,即可避免数据填入不及时产生的误差,也可以规范化实验记录,通过自然语言查询数据、记录数据,对实验室节约时间、提高工作效率、保证数据的准确性与及时性、标准化管理实验记录具有重要意义。

Claims (5)

1.基于自然语言处理和问答匹配的实验室管理系统,其特征在于,包括:语音识别模块,获取语音指令并转换为文字指令;语料库模块,存放语料数据,包括实验数据记录、制药行业最新动态、终端设备的功能说明;指令处理模块,对文字指令进行向量化处理,提取特征向量;功能匹配模块,明确用户操作类型,计算特征向量与语料数据相似度,返回相似度最高的语料数据对应的答案;控制器模块,与上述模块相连,控制各个模块协同工作。
2.根据权利要求1所述的基于自然语言处理和问答匹配的实验室管理系统,其特征在于,所述语料库模块,用于收集、分析、整理初始语料数据,生成对应的初始语料向量,并根据初始语料向量之间的距离对其进行分类存储。
3.根据权利要求2所述的基于自然语言处理和问答匹配的实验室管理系统,其特征在于,根据本发明提供的功能选取两个第一分类中心向量,分别为查询类操作和纪录类操作,计算初始预料向量与两个分类中心向量的余弦相似度,确定初始语料向量的类型,在查询类操作区域下可再选取第二分类中心向量,区分实验室数据和制药行业最新动态。
4.根据权利要求1所述的基于自然语言处理和问答匹配的实验室管理系统,其特征在于,所述指令处理模块,技术人员根据实际情况训练BERT模型,通过BERT模型对文字指令进行分词、解析、向量化处理,输出一组由词向量组成的具备语义的特征向量。
5.根据权利要求1所述的基于自然语言处理和问答匹配的实验室管理系统,其特征在于,所述功能匹配模块,用于匹配用户的指令,首先计算特征向量与语料库分类中心向量的余弦相似度,确认用户操作类型,再计算特征向量与对应操作类型下的语料数据的余弦相似度,系统选择余弦相似度最高的答案返回给用户。
CN202111141293.1A 2021-09-28 2021-09-28 基于自然语言处理和问答匹配的实验室管理系统 Withdrawn CN113886537A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111141293.1A CN113886537A (zh) 2021-09-28 2021-09-28 基于自然语言处理和问答匹配的实验室管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111141293.1A CN113886537A (zh) 2021-09-28 2021-09-28 基于自然语言处理和问答匹配的实验室管理系统

Publications (1)

Publication Number Publication Date
CN113886537A true CN113886537A (zh) 2022-01-04

Family

ID=79007315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111141293.1A Withdrawn CN113886537A (zh) 2021-09-28 2021-09-28 基于自然语言处理和问答匹配的实验室管理系统

Country Status (1)

Country Link
CN (1) CN113886537A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292458A (zh) * 2022-06-29 2022-11-04 北京梦天门科技股份有限公司 一种调查信息录入方法、系统及电子设备
CN117708308A (zh) * 2024-02-06 2024-03-15 四川蓉城蕾茗科技有限公司 一种基于rag自然语言智能知识库管理的方法和系统
CN117708308B (zh) * 2024-02-06 2024-05-14 四川蓉城蕾茗科技有限公司 一种基于rag自然语言智能知识库管理的方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115292458A (zh) * 2022-06-29 2022-11-04 北京梦天门科技股份有限公司 一种调查信息录入方法、系统及电子设备
CN117708308A (zh) * 2024-02-06 2024-03-15 四川蓉城蕾茗科技有限公司 一种基于rag自然语言智能知识库管理的方法和系统
CN117708308B (zh) * 2024-02-06 2024-05-14 四川蓉城蕾茗科技有限公司 一种基于rag自然语言智能知识库管理的方法和系统

Similar Documents

Publication Publication Date Title
CN111026842B (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN107291783B (zh) 一种语义匹配方法及智能设备
CN110096570A (zh) 一种应用于智能客服机器人的意图识别方法及装置
US20220138193A1 (en) Conversion method and systems from natural language to structured query language
CN113505586A (zh) 一种融合语义分类与知识图谱的坐席辅助问答方法与系统
CN111274371B (zh) 一种基于知识图谱的智能人机对话方法及设备
CN106326307A (zh) 一种语言交互方法
CN110222145A (zh) 一种智能法律评估方法和系统
CN110060674A (zh) 表格管理方法、装置、终端和存储介质
CN113919366A (zh) 一种面向电力变压器知识问答的语义匹配方法和装置
CN111079384B (zh) 一种用于智能质检服务禁语的识别方法及系统
CN113704444A (zh) 基于自然语言处理的问答方法、系统、设备及存储介质
CN116166688A (zh) 基于自然语言交互的业务数据检索方法、系统及处理设备
CN113886537A (zh) 基于自然语言处理和问答匹配的实验室管理系统
CN111125145A (zh) 一种通过自然语言获取数据库信息的自动化系统
CN114239579A (zh) 基于正则表达式和crf模型的电力可研文档提取方法及装置
CN117648093A (zh) 基于大模型和自定制需求模板的rpa流程自动化生成方法
CN103164398A (zh) 汉维电子辞典及其自动转译汉维语的方法
CN110263346B (zh) 基于小样本学习的语意分析方法、电子设备及存储介质
CN114492436A (zh) 一种审计访谈信息的处理方法、装置和系统
CN114186041A (zh) 一种答案输出方法
CN114297229A (zh) 一种数据查询方法、装置、电子设备及存储介质
CN113868389A (zh) 基于自然语言文本的数据查询方法、装置及计算机设备
CN112307186A (zh) 基于情绪识别的问答服务方法、系统、终端设备及介质
CN112015920A (zh) 一种基于知识图谱和边缘计算智能辅助学习系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220104