CN115186080A - 一种智能问答数据处理方法、系统、计算机设备及介质 - Google Patents

一种智能问答数据处理方法、系统、计算机设备及介质 Download PDF

Info

Publication number
CN115186080A
CN115186080A CN202210848711.9A CN202210848711A CN115186080A CN 115186080 A CN115186080 A CN 115186080A CN 202210848711 A CN202210848711 A CN 202210848711A CN 115186080 A CN115186080 A CN 115186080A
Authority
CN
China
Prior art keywords
data
text information
answer
question
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210848711.9A
Other languages
English (en)
Inventor
钱芳
方亮
孙健华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kangjian Information Technology Shenzhen Co Ltd
Original Assignee
Kangjian Information Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kangjian Information Technology Shenzhen Co Ltd filed Critical Kangjian Information Technology Shenzhen Co Ltd
Priority to CN202210848711.9A priority Critical patent/CN115186080A/zh
Publication of CN115186080A publication Critical patent/CN115186080A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种智能问答数据处理方法、系统、计算机设备及介质,方法包括:根据接收的询问数据生成文本信息;根据文本信息确定出询问数据对应的系统可识别翻译文本和目标语种类型;根据系统可识别翻译文本以及问答数据库生成目标答案文本信息;基于目标语种类型和目标答案文本信息转换成属于目标语种类型的响应数据,并将响应数据响应至客户端。由于将不同语种的询问数据处理成系统可识别翻译文本,并根据该翻译文本可在医疗问答系统中完成医疗问答得出医疗问答结果,同时可基于目标语种类型将医疗问答结果翻译成响应数据进行反馈,从而可实现不同语种在同一医疗问答系统中进行医疗问答的需求,极大的扩展了医疗问答用户群体,提升了平台服务能力。

Description

一种智能问答数据处理方法、系统、计算机设备及介质
技术领域
本发明涉及人工智能技术领域,特别涉及一种智能问答数据处理方法、系统、计算机设备及介质。
背景技术
互联网医疗是人工智能应用的重要领域。近年来,线上医疗问答越来越普及,单日线上医疗问答量早已突破百万级日均规模,线上医生资源不足,线上医疗问答服务效率不高已成为突出问题。
目前,医疗问答方式分为基于文本输入和语音输入两种形式,基于文本输入的医疗问答系统接受用户输入的待处理文本,与系统中预设的标准文本进行匹配,进而向用户提供相关信息。由于目前的医疗问答系统都是基于一种语言,如果是切换语言则需要切换整个医疗问答系统,包括网页端,数据库等信息,且不同的语言用户界面差别较大,从而缩小了医疗问答用户群体,降低了平台服务能力。
发明内容
基于此,有必要针对医疗问答用户群体较小,平台服务能力较低的问题,提供一种智能问答数据处理方法、系统、计算机设备及介质。
一种智能问答数据处理方法,方法包括:根据接收的询问数据生成文本信息;根据文本信息确定出询问数据对应的系统可识别翻译文本和目标语种类型;根据系统可识别翻译文本以及问答数据库生成目标答案文本信息;基于目标语种类型和目标答案文本信息转换成属于目标语种类型的响应数据,并将响应数据响应至客户端。
在其中一个实施例中,根据接收的询问数据生成文本信息,包括:接收询问数据;若询问数据为文字格式数据,则将询问数据确定为文本信息;或者,若询问数据为语音格式数据,则将询问数据输入预先训练的语音处理模型中进行字符转换;输出询问数据对应的文本信息。
在其中一个实施例中,根据文本信息确定出询问数据对应的系统可识别翻译文本和目标语种类型,包括:依次对所述文本信息进行断句和分词处理,得到多个词;分别计算所述多个词中的每个词与每个预设语种样本之间的语义相似度,并将最大语义相似度的预设语种样本对应的语种类型确定为询问数据对应的目标语种类型;根据文本翻译模型对多个词进行翻译生成多个翻译词;根据系统可识别语种类型,并结合所述多个翻译词生成所述询问数据对应的系统可识别翻译文本。
在其中一个实施例中,根据系统可识别翻译文本以及问答数据库生成目标答案文本信息,包括:根据系统可识别翻译文本分析所述询问数据的问题深度级别;根据问题深度级别从问答数据库中提取不同答复深度的多个候选答复文本;采用层次分析法,并结合多个候选答复文本构建层次结构树;采用优先遍历算法在层次结构树中进行深度搜索,得到最大匹配度的答复本文;将最大匹配度的答复本文确定为目标答案文本信息。
在其中一个实施例中,按照以下步骤生成预先训练的语音处理模型,包括:采用人工智能神经网络构建语音处理模型;获取每个语种类型的样本询问数据集;识别样本询问数据集中每个样本询问数据的语音特征参数和样本文本信息,并将语音特征参数和样本文本信息进行关联,得到多个关联数据;根据多个关联数据构建模型训练样本;将模型训练样本输入语音处理模型中,输出模型损失值;根据模型损失值生成预先训练的语音处理模型。
在其中一个实施例中,根据多个关联数据构建模型训练样本,包括:将多个关联数据确定为多个正样本;构建语音特征参数和样本文本信息不一致的多个负样本;将多个正样本与多个负样本进行随机打乱,得到模型训练样本。
在其中一个实施例中,语音处理模型包括特征提取模块、局部自注意力模块、全局自注意力模块以及特征融合模块;将模型训练样本输入语音处理模型中,输出模型损失值,包括:采用特征提取模块将模型训练样本进行处理,得到语音-文字特征序列;采用局部自注意力模块提取语音-文字特征序列的局部特征,得到多个局部特征;采用全局自注意力模块提取语音-文字特征序列的全局特征,得到整体全局特征;将多个局部特征与全局特征输入特征融合模块中进行特征融合,得到多个局部-全局融合特征;根据多个局部-全局融合特征,并结合预设损失函数计算并输出模型损失值。
一种智能问答数据处理系统,系统包括:文本信息生成模块,用于根据接收的询问数据生成文本信息;参数确定模块,用于根据文本信息确定出询问数据对应的系统可识别翻译文本和目标语种类型;答案文本信息生成模块,用于根据系统可识别翻译文本以及问答数据库生成目标答案文本信息;响应数据生成模块,用于基于目标语种类型和目标答案文本信息转换成属于目标语种类型的响应数据,并将响应数据响应至客户端。
一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述智能问答数据处理方法的步骤。
一种存储有计算机可读指令的介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述智能问答数据处理方法的步骤。
上述智能问答数据处理方法、系统、设备和介质,智能问答数据处理系统首先根据接收的询问数据生成文本信息,然后根据文本信息确定出询问数据对应的系统可识别翻译文本和目标语种类型,其次根据系统可识别翻译文本以及问答数据库生成目标答案文本信息,最后基于目标语种类型和目标答案文本信息转换成属于目标语种类型的响应数据,并将响应数据响应至客户端。由于本申请将不同语种的询问数据处理成系统可识别翻译文本,并根据该翻译文本可在医疗问答系统中完成医疗问答得出医疗问答结果,同时可基于目标语种类型将医疗问答结果翻译成响应数据进行反馈,从而可实现不同语种在同一医疗问答系统中进行医疗问答的需求,极大的扩展了医疗问答用户群体,提升了平台服务能力。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本申请一个实施例中提供的智能问答数据处理方法的实施环境图;
图2为本申请一个实施例中计算机设备的内部结构示意图;
图3为本申请一个实施例中提供的智能问答数据处理方法的方法示意图;
图4是本申请另一个实施例中提供的智能问答数据处理方法的方法示意图;
图5是本申请实施例提供的一种智能问答数据处理系统的系统结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。
图1为一个实施例中提供的智能问答数据处理方法的实施环境图,如图1所示,在该实施环境中,包括服务端110以及客户端120。
服务端110可以为服务器,该服务器具体可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器,例如为运行预先训练的语音处理模型的服务器设备。针对客户端120输入询问数据,客户端120将询问数据发送至服务端110,服务端110根据接收的询问数据生成文本信息,服务端110根据文本信息确定出询问数据对应的系统可识别翻译文本和目标语种类型,服务端110根据系统可识别翻译文本以及问答数据库生成目标答案文本信息,服务端110基于目标语种类型和目标答案文本信息转换成属于目标语种类型的响应数据,并将响应数据响应至客户端120。
需要说明的是,客户端120可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。服务端110以及客户端120可以通过蓝牙、USB(Universal Serial Bus,通用串行总线)或者其他通讯连接方式进行连接,本发明在此不做限制。
图2为一个实施例中计算机设备的内部结构示意图。如图2所示,该计算机设备包括通过系统总线连接的处理器、介质、存储器和网络接口。其中,该计算机设备的介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种智能问答数据处理方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种智能问答数据处理方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。其中,介质为一种可读的存储介质。
下面将结合附图3-4,对本申请实施例提供的智能问答数据处理方法进行详细介绍。该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的智能问答数据处理系统上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大智能问答数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
请参见图3,为本申请实施例提供了一种智能问答数据处理方法的流程示意图。如图3所示,本申请实施例的方法可以包括以下步骤:
S101,根据接收的询问数据生成文本信息;
其中,询问数据为用户输入的医疗问答表达信息,该表达信息可以是文字描述文本,也可以是语音数据。文本信息是将询问数据按照其格式进行进一步转换后的信息。
在本申请实施例中,在根据接收的询问数据生成文本信息时,首先接收询问数据,若询问数据为文字格式数据,则将询问数据确定为文本信息;或者,若询问数据为语音格式数据,则将询问数据输入预先训练的语音处理模型中进行字符转换,并输出询问数据对应的文本信息。本申请目的是采用文字格式数据进一步处理,此时如果询问数据是用户直接输入的文字格式,此时就可以直接作为文本信息,如果是语音格式数据,可通过模型对语音格式数据进行转换,以得到文字格式数据。通过设置两种格式数据即可以满足文字的医疗问答需求,也可以满足语音的医疗问答需求。同时本申请中通过预先训练的语音处理模型对语音格式进行处理,从而可以实时将不同语种类型的语音数据翻译成文字格式数据。
进一步地,可按照以下步骤生成预先训练的语音处理模型,首先采用人工智能神经网络构建语音处理模型,再获取每个语种类型的样本询问数据集,然后识别样本询问数据集中每个样本询问数据的语音特征参数和样本文本信息,并将语音特征参数和样本文本信息进行关联,得到多个关联数据,其次根据多个关联数据构建模型训练样本,再将模型训练样本输入语音处理模型中,输出模型损失值,最后根据模型损失值生成预先训练的语音处理模型。由于本申请通过提取每个样本询问数据的语音特征参数和样本文本信息进行关联,从而可以使得同一个语音和同一个文本一致,保障了每个语种类型的训练数据统一,提升模型的准确度。
具体的,在根据多个关联数据构建模型训练样本时,首先将多个关联数据确定为多个正样本,然后构建语音特征参数和样本文本信息不一致的多个负样本,最后将多个正样本与多个负样本进行随机打乱,得到模型训练样本。通过构建正样本和负样本提升模型训练数据的复杂度,使得训练后的模型精确度更好,语音识别更加准确。
具体的,语音处理模型包括特征提取模块、局部自注意力模块、全局自注意力模块以及特征融合模块。在将模型训练样本输入语音处理模型中,输出模型损失值时,首先采用特征提取模块将模型训练样本进行处理,得到语音-文字特征序列,然后采用局部自注意力模块提取语音-文字特征序列的局部特征,得到多个局部特征,其次采用全局自注意力模块提取语音-文字特征序列的全局特征,得到整体全局特征,再将多个局部特征与全局特征输入特征融合模块中进行特征融合,得到多个局部-全局融合特征,最后根据多个局部-全局融合特征,并结合预设损失函数计算并输出模型损失值。
具体的,在根据模型损失值生成预先训练的语音处理模型时,当模型损失值到达预先设定的损失值时,生成预先训练的语音处理模型。或者,当模型损失值未到达预先设定的损失值时,将模型损失值进行反向传播以更新模型的参数,并返回继续将模型训练样本输入语音处理模型中的步骤,直到模型损失值到达预先设定的损失值。
需要说明的是,可以通过将询问数据传输到云端服务器或者在客户端本地处理的方式进行处理。处理方式是云端或者客户端的处理器运行预先训练的语音处理模型,并在询问数据为语音格式的数据时,对询问数据进行模型处理后得到文本信息。目前可以采用ASRT,DeepSpeeachRecognition等成熟的人工智能神经网络,也可以采用自主开发的语音识别神经网络,处理器可以是CPU,GPU,或者是NPU等不同类型的处理器。
S102,根据文本信息确定出询问数据对应的系统可识别翻译文本和目标语种类型;
其中,系统可识别翻译文本是将文本信息转换成当前系统所认可的语种类型的文本。语种类型是语言的种类标识,例如中文标识、英语标识或俄语标识以及法语标识等。
在本申请实施例中,在根据文本信息确定出询问数据对应的系统可识别翻译文本和目标语种类型时,首先依次对所述文本信息进行断句和分词处理,得到多个词,然后分别计算所述多个词中的每个词与每个预设语种样本之间的语义相似度,并将最大语义相似度的预设语种样本对应的语种类型确定为询问数据对应的目标语种类型,其次根据文本翻译模型对多个词进行翻译生成多个翻译词,最后根据系统可识别语种类型,并结合所述多个翻译词生成所述询问数据对应的系统可识别翻译文本。
在另一种可能的实现方式中,在得到询问数据对应的系统可识别翻译文本时,云端或者本地的处理器运行机器翻译神经网络模型,将文本信息输入机器翻译神经网络模型中得到系统所认可的语种类型的文本。目前可以采用Transformer人工智能机器翻译神经网络,也可以采用自主开发的语音识别神经网络,处理器可以是CPU,GPU,或者是NPU等不同类型的处理器。
具体的,对文本信息进行断句和分词处理时,首先遍历识别文本信息中的标点符号,以每个标点符号为句子的分割处对文本信息进行分割,得到多行文本,然后判断多行文本属于中文还是属于其他语言,在多行文本属于中文时,通过预设分词词典对多行文本进行分词处理,在多行文本属于其他语言时,以每行文本中的空格位置作为分词点对多行文本进行分词处理。
S103,根据系统可识别翻译文本以及问答数据库生成目标答案文本信息;
其中,问答数据库是由每个科室的专家所汇总的大量病人和医生之间的问答对话所生成的文本数据。该问答数据库中的文本数据可以随着时间动态更新变化,例如当一条询问数据对应的回答数据超过预设数量时,可通过筛选策略从中筛选出最优的多个回答数据,并将其他回答数据进行删除,通过该方式可以使得问答数据库中的问答数据更加准确,对用户的问答更加智能化。
通常,筛选策略可以是删除数据录入时刻与当前时刻大于预设周期的,也可以是按照回答的文本长度删除文本长度小于预设长度的。
例如,在当前时刻到达问答数据库更新时刻时,首先获取每条询问数据对应的多个回答文本,然后获取每个回答文本的优先级,并基于优先级的高低顺序从多个回答文本中删除冗余回答文本。
在本申请实施例中,在根据系统可识别翻译文本以及问答数据库生成目标答案文本信息时,首先根据系统可识别翻译文本分析所述询问数据的问题深度级别,然后根据问题深度级别从问答数据库中提取不同答复深度的多个候选答复文本,其次采用层次分析法,并结合多个候选答复文本构建层次结构树,再采用优先遍历算法在层次结构树中进行深度搜索,得到最大匹配度的答复本文,最后将最大匹配度的答复本文确定为目标答案文本信息。
S104,基于目标语种类型和目标答案文本信息转换成属于目标语种类型的响应数据,并将响应数据响应至客户端。
其中,响应数据是与询问数据的语种类型所相同的语种类型的数据。
在本申请实施例中,在基于目标语种类型和目标答案文本信息转换成属于目标语种类型的响应数据时,首先根据目标语种类型将目标答案文本信息进行翻译,得到目标语种类型的翻译数据,若询问数据为文字格式数据时,将翻译数据确定为响应数据直返反馈至客户端;若询问数据为语音格式数据时,将翻译数据输入预先训练的语音处理模型进行文字到语音的逆向转换,得到语音数据,将语音数据确定为响应数据直返反馈至客户端进行播放。本申请通过目标语种类型就可以将目标答案文本信息进行翻译,并进一步转化为语音,该过程为逆向转换的逻辑,可以提升数据的响应效率。
进一步地,客户端在收到响应数据后,可分析询问数据的语音年龄段,并获取该年龄段上的预设音色模板,然后将响应数据与所述音色模板进行组合,得到最终的语音数据,最后将最终的语音数据进行播放。本申请通过采用多元化的语音转换功能,并配合统一的医疗问答平台可以完成不同语种类型下的用户进行智能问答数据处理,解决了现有的平台无法针对多种用户群体服务的缺点。
需要说明的是,预设音色模板是根据不同年龄段指定的,多个预设音色模板保存在音色模板库中。
在本申请实施例中,智能问答数据处理系统首先根据接收的询问数据生成文本信息,然后根据文本信息确定出询问数据对应的系统可识别翻译文本和目标语种类型,其次根据系统可识别翻译文本以及问答数据库生成目标答案文本信息,最后基于目标语种类型和目标答案文本信息转换成属于目标语种类型的响应数据,并将响应数据响应至客户端。由于本申请将不同语种的询问数据处理成系统可识别翻译文本,并根据该翻译文本可在医疗问答系统中完成医疗问答得出医疗问答结果,同时可基于目标语种类型将医疗问答结果翻译成响应数据进行反馈,从而可实现不同语种在同一医疗问答系统中进行医疗问答的需求,极大的扩展了医疗问答用户群体,提升了平台服务能力。
请参见图4,为本申请实施例提供的另一种智能问答数据处理方法的流程示意图。如图4所示,本申请实施例的方法可以包括以下步骤:
S201,采用人工智能神经网络构建语音处理模型;
S202,获取每个语种类型的样本询问数据集;
S203,识别样本询问数据集中每个样本询问数据的语音特征参数和样本文本信息,并将语音特征参数和样本文本信息进行关联,得到多个关联数据;
S204,根据多个关联数据构建模型训练样本;
S205,将模型训练样本输入语音处理模型中,输出模型损失值,根据模型损失值生成预先训练的语音处理模型。
S206,接收询问数据,并判断数据格式;
S207,若询问数据为文字格式数据,则将询问数据确定为文本信息;
S208,若询问数据为语音格式数据,则将询问数据输入预先训练的语音处理模型中进行字符转换,输出询问数据对应的文本信息;
S209,根据文本信息确定出询问数据对应的系统可识别翻译文本和目标语种类型;
S210,根据系统可识别翻译文本以及问答数据库生成目标答案文本信息,并基于目标语种类型和目标答案文本信息转换成属于目标语种类型的响应数据,并将响应数据响应至客户端。
在本申请实施例中,智能问答数据处理系统首先根据接收的询问数据生成文本信息,然后根据文本信息确定出询问数据对应的系统可识别翻译文本和目标语种类型,其次根据系统可识别翻译文本以及问答数据库生成目标答案文本信息,最后基于目标语种类型和目标答案文本信息转换成属于目标语种类型的响应数据,并将响应数据响应至客户端。由于本申请将不同语种的询问数据处理成系统可识别翻译文本,并根据该翻译文本可在医疗问答系统中完成医疗问答得出医疗问答结果,同时可基于目标语种类型将医疗问答结果翻译成响应数据进行反馈,从而可实现不同语种在同一医疗问答系统中进行医疗问答的需求,极大的扩展了医疗问答用户群体,提升了平台服务能力。
下述为本发明系统实施例,可以用于执行本发明方法实施例。对于本发明系统实施例中未披露的细节,请参照本发明方法实施例。
请参见图5,其示出了本发明一个示例性实施例提供的智能问答数据处理系统的结构示意图。该智能问答数据处理系统可以通过软件、硬件或者两者的结合实现成为设备的全部或一部分。该系统1包括文本信息生成模块10、参数确定模块20、答案文本信息生成模块30、响应数据生成模块40。
文本信息生成模块10,用于根据接收的询问数据生成文本信息;
参数确定模块20,用于根据文本信息确定出询问数据对应的系统可识别翻译文本和目标语种类型;
答案文本信息生成模块30,用于根据系统可识别翻译文本以及问答数据库生成目标答案文本信息;
响应数据生成模块40,用于基于目标语种类型和目标答案文本信息转换成属于目标语种类型的响应数据,并将响应数据响应至客户端。
需要说明的是,上述实施例提供的智能问答数据处理系统在执行智能问答数据处理方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的智能问答数据处理系统与智能问答数据处理方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请实施例中,智能问答数据处理系统首先根据接收的询问数据生成文本信息,然后根据文本信息确定出询问数据对应的系统可识别翻译文本和目标语种类型,其次根据系统可识别翻译文本以及问答数据库生成目标答案文本信息,最后基于目标语种类型和目标答案文本信息转换成属于目标语种类型的响应数据,并将响应数据响应至客户端。由于本申请将不同语种的询问数据处理成系统可识别翻译文本,并根据该翻译文本可在医疗问答系统中完成医疗问答得出医疗问答结果,同时可基于目标语种类型将医疗问答结果翻译成响应数据进行反馈,从而可实现不同语种在同一医疗问答系统中进行医疗问答的需求,极大的扩展了医疗问答用户群体,提升了平台服务能力。
在一个实施例中,提出了一种计算机设备,设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:根据接收的询问数据生成文本信息;根据文本信息确定出询问数据对应的系统可识别翻译文本和目标语种类型;根据系统可识别翻译文本以及问答数据库生成目标答案文本信息;基于目标语种类型和目标答案文本信息转换成属于目标语种类型的响应数据,并将响应数据响应至客户端。
在一个实施例中,处理器执行根据接收的询问数据生成文本信息时,具体执行以下操作:
接收询问数据;若询问数据为文字格式数据,则将询问数据确定为文本信息;或者,若询问数据为语音格式数据,则将询问数据输入预先训练的语音处理模型中进行字符转换;输出询问数据对应的文本信息。
在一个实施例中,处理器执行根据文本信息确定出询问数据对应的系统可识别翻译文本和目标语种类型时,具体执行以下操作:
依次对所述文本信息进行断句和分词处理,得到多个词;分别计算所述多个词中的每个词与每个预设语种样本之间的语义相似度,并将最大语义相似度的预设语种样本对应的语种类型确定为询问数据对应的目标语种类型;根据文本翻译模型对多个词进行翻译生成多个翻译词;根据系统可识别语种类型,并结合所述多个翻译词生成所述询问数据对应的系统可识别翻译文本。
在一个实施例中,处理器执行根据系统可识别翻译文本以及问答数据库生成目标答案文本信息时,具体执行以下操作:
根据系统可识别翻译文本分析所述询问数据的问题深度级别;根据问题深度级别从问答数据库中提取不同答复深度的多个候选答复文本;采用层次分析法,并结合多个候选答复文本构建层次结构树;采用优先遍历算法在层次结构树中进行深度搜索,得到最大匹配度的答复本文;将最大匹配度的答复本文确定为目标答案文本信息。
在一个实施例中,处理器还执行以下操作:
采用人工智能神经网络构建语音处理模型;获取每个语种类型的样本询问数据集;识别样本询问数据集中每个样本询问数据的语音特征参数和样本文本信息,并将语音特征参数和样本文本信息进行关联,得到多个关联数据;根据多个关联数据构建模型训练样本;将模型训练样本输入语音处理模型中,输出模型损失值;根据模型损失值生成预先训练的语音处理模型。
在一个实施例中,处理器执行根据多个关联数据构建模型训练样本时,具体执行以下操作:
将多个关联数据确定为多个正样本;构建语音特征参数和样本文本信息不一致的多个负样本;将多个正样本与多个负样本进行随机打乱,得到模型训练样本。
在一个实施例中,处理器执行将模型训练样本输入语音处理模型中,输出模型损失值时,具体执行以下操作:
采用特征提取模块将模型训练样本进行处理,得到语音-文字特征序列;采用局部自注意力模块提取语音-文字特征序列的局部特征,得到多个局部特征;采用全局自注意力模块提取语音-文字特征序列的全局特征,得到整体全局特征;将多个局部特征与全局特征输入特征融合模块中进行特征融合,得到多个局部-全局融合特征;根据多个局部-全局融合特征,并结合预设损失函数计算并输出模型损失值。
在本申请实施例中,智能问答数据处理系统首先根据接收的询问数据生成文本信息,然后根据文本信息确定出询问数据对应的系统可识别翻译文本和目标语种类型,其次根据系统可识别翻译文本以及问答数据库生成目标答案文本信息,最后基于目标语种类型和目标答案文本信息转换成属于目标语种类型的响应数据,并将响应数据响应至客户端。由于本申请将不同语种的询问数据处理成系统可识别翻译文本,并根据该翻译文本可在医疗问答系统中完成医疗问答得出医疗问答结果,同时可基于目标语种类型将医疗问答结果翻译成响应数据进行反馈,从而可实现不同语种在同一医疗问答系统中进行医疗问答的需求,极大的扩展了医疗问答用户群体,提升了平台服务能力。
在一个实施例中,提出了一种存储有计算机可读指令的介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:根据接收的询问数据生成文本信息;根据文本信息确定出询问数据对应的系统可识别翻译文本和目标语种类型;根据系统可识别翻译文本以及问答数据库生成目标答案文本信息;基于目标语种类型和目标答案文本信息转换成属于目标语种类型的响应数据,并将响应数据响应至客户端。
在一个实施例中,处理器执行根据接收的询问数据生成文本信息时,具体执行以下操作:
接收询问数据;若询问数据为文字格式数据,则将询问数据确定为文本信息;或者,若询问数据为语音格式数据,则将询问数据输入预先训练的语音处理模型中进行字符转换;输出询问数据对应的文本信息。
在一个实施例中,处理器执行根据文本信息确定出询问数据对应的系统可识别翻译文本和目标语种类型时,具体执行以下操作:
依次对所述文本信息进行断句和分词处理,得到多个词;分别计算所述多个词中的每个词与每个预设语种样本之间的语义相似度,并将最大语义相似度的预设语种样本对应的语种类型确定为询问数据对应的目标语种类型;根据文本翻译模型对多个词进行翻译生成多个翻译词;根据系统可识别语种类型,并结合所述多个翻译词生成所述询问数据对应的系统可识别翻译文本。
在一个实施例中,处理器执行根据系统可识别翻译文本以及问答数据库生成目标答案文本信息时,具体执行以下操作:
根据系统可识别翻译文本分析所述询问数据的问题深度级别;根据问题深度级别从问答数据库中提取不同答复深度的多个候选答复文本;采用层次分析法,并结合多个候选答复文本构建层次结构树;采用优先遍历算法在层次结构树中进行深度搜索,得到最大匹配度的答复本文;将最大匹配度的答复本文确定为目标答案文本信息。
在一个实施例中,处理器还执行以下操作:
采用人工智能神经网络构建语音处理模型;获取每个语种类型的样本询问数据集;识别样本询问数据集中每个样本询问数据的语音特征参数和样本文本信息,并将语音特征参数和样本文本信息进行关联,得到多个关联数据;根据多个关联数据构建模型训练样本;将模型训练样本输入语音处理模型中,输出模型损失值;根据模型损失值生成预先训练的语音处理模型。
在一个实施例中,处理器执行根据多个关联数据构建模型训练样本时,具体执行以下操作:
将多个关联数据确定为多个正样本;构建语音特征参数和样本文本信息不一致的多个负样本;将多个正样本与多个负样本进行随机打乱,得到模型训练样本。
在一个实施例中,处理器执行将模型训练样本输入语音处理模型中,输出模型损失值时,具体执行以下操作:
采用特征提取模块将模型训练样本进行处理,得到语音-文字特征序列;采用局部自注意力模块提取语音-文字特征序列的局部特征,得到多个局部特征;采用全局自注意力模块提取语音-文字特征序列的全局特征,得到整体全局特征;将多个局部特征与全局特征输入特征融合模块中进行特征融合,得到多个局部-全局融合特征;根据多个局部-全局融合特征,并结合预设损失函数计算并输出模型损失值。
在本申请实施例中,智能问答数据处理系统首先根据接收的询问数据生成文本信息,然后根据文本信息确定出询问数据对应的系统可识别翻译文本和目标语种类型,其次根据系统可识别翻译文本以及问答数据库生成目标答案文本信息,最后基于目标语种类型和目标答案文本信息转换成属于目标语种类型的响应数据,并将响应数据响应至客户端。由于本申请将不同语种的询问数据处理成系统可识别翻译文本,并根据该翻译文本可在医疗问答系统中完成医疗问答得出医疗问答结果,同时可基于目标语种类型将医疗问答结果翻译成响应数据进行反馈,从而可实现不同语种在同一医疗问答系统中进行医疗问答的需求,极大的扩展了医疗问答用户群体,提升了平台服务能力。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性介质,或随机存储记忆体(RandomAccess Memory,RAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种智能问答数据处理方法,其特征在于,所述方法包括:
根据接收的询问数据生成文本信息;
根据所述文本信息确定出所述询问数据对应的系统可识别翻译文本和目标语种类型;
根据所述系统可识别翻译文本以及问答数据库生成目标答案文本信息;
基于所述目标语种类型和所述目标答案文本信息转换成属于目标语种类型的响应数据,并将所述响应数据响应至客户端。
2.根据权利要求1所述的方法,其特征在于,所述根据接收的询问数据生成文本信息,包括:
接收询问数据;
若所述询问数据为文字格式数据,则将所述询问数据确定为文本信息;
或者,
若所述询问数据为语音格式数据,则将所述询问数据输入预先训练的语音处理模型中进行字符转换,输出所述询问数据对应的文本信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述文本信息确定出所述询问数据对应的系统可识别翻译文本和目标语种类型,包括:
依次对所述文本信息进行断句和分词处理,得到多个词;
分别计算所述多个词中的每个词与每个预设语种样本之间的语义相似度,并将最大语义相似度的预设语种样本对应的语种类型确定为所述询问数据对应的目标语种类型;
根据文本翻译模型对所述多个词进行翻译生成多个翻译词;
根据系统可识别语种类型,并结合所述多个翻译词生成所述询问数据对应的系统可识别翻译文本。
4.根据权利要求1所述的方法,其特征在于,所述根据所述系统可识别翻译文本以及问答数据库生成目标答案文本信息,包括:
根据所述系统可识别翻译文本分析所述询问数据的问题深度级别;
根据所述问题深度级别从所述问答数据库中提取不同答复深度的多个候选答复文本;
采用层次分析法,并结合所述多个候选答复文本构建层次结构树;
采用优先遍历算法在所述层次结构树中进行深度搜索,得到最大匹配度的答复本文;
将最大匹配度的答复本文确定为目标答案文本信息。
5.根据权利要求2所述的方法,其特征在于,按照以下步骤生成预先训练的语音处理模型,包括:
采用人工智能神经网络构建语音处理模型;
获取每个语种类型的样本询问数据集;
识别所述样本询问数据集中每个样本询问数据的语音特征参数和样本文本信息,并将语音特征参数和样本文本信息进行关联,得到多个关联数据;
根据所述多个关联数据构建模型训练样本;
将所述模型训练样本输入所述语音处理模型中,输出模型损失值;
根据所述模型损失值生成预先训练的语音处理模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述多个关联数据构建模型训练样本,包括:
将所述多个关联数据确定为多个正样本;
构建语音特征参数和样本文本信息不一致的多个负样本;
将所述多个正样本与所述多个负样本进行随机打乱,得到模型训练样本。
7.根据权利要求5所述的方法,其特征在于,所述语音处理模型包括特征提取模块、局部自注意力模块、全局自注意力模块以及特征融合模块;
将所述模型训练样本输入所述语音处理模型中,输出模型损失值,包括:
采用所述特征提取模块将所述模型训练样本进行处理,得到语音-文字特征序列;
采用所述局部自注意力模块提取所述语音-文字特征序列的局部特征,得到多个局部特征;
采用所述全局自注意力模块提取所述语音-文字特征序列的全局特征,得到整体全局特征;
将所述多个局部特征与所述全局特征输入所述特征融合模块中进行特征融合,得到多个局部-全局融合特征;
根据所述多个局部-全局融合特征,并结合预设损失函数计算并输出模型损失值。
8.一种智能问答数据处理系统,其特征在于,所述系统包括:
文本信息生成模块,用于根据接收的询问数据生成文本信息;
参数确定模块,用于根据所述文本信息确定出所述询问数据对应的系统可识别翻译文本和目标语种类型;
答案文本信息生成模块,用于根据所述系统可识别翻译文本以及问答数据库生成目标答案文本信息;
响应数据生成模块,用于基于所述目标语种类型和所述目标答案文本信息转换成属于目标语种类型的响应数据,并将所述响应数据响应至客户端。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述智能问答数据处理方法的步骤。
10.一种存储有计算机可读指令的介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述智能问答数据处理的步骤。
CN202210848711.9A 2022-07-19 2022-07-19 一种智能问答数据处理方法、系统、计算机设备及介质 Pending CN115186080A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210848711.9A CN115186080A (zh) 2022-07-19 2022-07-19 一种智能问答数据处理方法、系统、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210848711.9A CN115186080A (zh) 2022-07-19 2022-07-19 一种智能问答数据处理方法、系统、计算机设备及介质

Publications (1)

Publication Number Publication Date
CN115186080A true CN115186080A (zh) 2022-10-14

Family

ID=83520123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210848711.9A Pending CN115186080A (zh) 2022-07-19 2022-07-19 一种智能问答数据处理方法、系统、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN115186080A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116244417A (zh) * 2023-03-23 2023-06-09 山东倩倩网络科技有限责任公司 应用于ai聊天机器人的问答交互数据处理方法及服务器
CN117114695A (zh) * 2023-10-19 2023-11-24 本溪钢铁(集团)信息自动化有限责任公司 基于钢铁行业智能客服的交互方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116244417A (zh) * 2023-03-23 2023-06-09 山东倩倩网络科技有限责任公司 应用于ai聊天机器人的问答交互数据处理方法及服务器
CN116244417B (zh) * 2023-03-23 2024-05-24 上海笑聘网络科技有限公司 应用于ai聊天机器人的问答交互数据处理方法及服务器
CN117114695A (zh) * 2023-10-19 2023-11-24 本溪钢铁(集团)信息自动化有限责任公司 基于钢铁行业智能客服的交互方法及装置
CN117114695B (zh) * 2023-10-19 2024-01-26 本溪钢铁(集团)信息自动化有限责任公司 基于钢铁行业智能客服的交互方法及装置

Similar Documents

Publication Publication Date Title
CN111914568B (zh) 文本修辞句的生成方法、装置、设备及可读存储介质
CN106776544B (zh) 人物关系识别方法及装置和分词方法
CN108287858B (zh) 自然语言的语义提取方法及装置
CN108595696A (zh) 一种基于云平台的人机交互智能问答方法和系统
CN111859960A (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
CN111324713B (zh) 对话自动回复方法、装置、存储介质和计算机设备
CN112214593A (zh) 问答处理方法、装置、电子设备及存储介质
CN115186080A (zh) 一种智能问答数据处理方法、系统、计算机设备及介质
CN112417102A (zh) 一种语音查询方法、装置、服务器和可读存储介质
CN110895559A (zh) 模型训练、文本处理方法、装置以及设备
CN111859986A (zh) 基于多任务孪生网络的语义匹配方法、装置、设备和介质
CN110795913A (zh) 一种文本编码方法、装置、存储介质及终端
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN112131876A (zh) 一种基于相似度确定标准问题的方法及系统
CN113705196A (zh) 基于图神经网络的中文开放信息抽取方法和装置
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN113836303A (zh) 一种文本类别识别方法、装置、计算机设备及介质
CN112183106A (zh) 一种基于音素联想及深度学习的语义理解方法及装置
CN115714030A (zh) 一种基于疼痛感知和主动交互的医疗问答系统及方法
CN113449081A (zh) 文本特征的提取方法、装置、计算机设备及存储介质
JP2019082860A (ja) 生成プログラム、生成方法及び生成装置
CN115617974B (zh) 一种对话处理方法、装置、设备及存储介质
CN112307754A (zh) 语句获取方法及装置
CN109002498B (zh) 人机对话方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination