CN114155957A - 文本确定方法、装置、存储介质及电子设备 - Google Patents

文本确定方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN114155957A
CN114155957A CN202111468026.5A CN202111468026A CN114155957A CN 114155957 A CN114155957 A CN 114155957A CN 202111468026 A CN202111468026 A CN 202111468026A CN 114155957 A CN114155957 A CN 114155957A
Authority
CN
China
Prior art keywords
text
target
historical
similarity
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111468026.5A
Other languages
English (en)
Inventor
孙小婉
蔡巍
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Neusoft Intelligent Medical Technology Research Institute Co Ltd
Original Assignee
Shenyang Neusoft Intelligent Medical Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Neusoft Intelligent Medical Technology Research Institute Co Ltd filed Critical Shenyang Neusoft Intelligent Medical Technology Research Institute Co Ltd
Priority to CN202111468026.5A priority Critical patent/CN114155957A/zh
Publication of CN114155957A publication Critical patent/CN114155957A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种文本确定方法、装置、存储介质及电子设备,该方法通过获取目标问题文本的目标意图类别;从预设数据库中获取该目标意图类别对应的一个或多个历史问题文本;在确定该目标问题文本与每个历史问题文本语义均不相同的情况下,根据获取到的该原始文本相似度和该翻译文本相似度,从一个或多个历史问题文本对应的答复文本中确定目标答复文本。这样能够通过目标问题文本与每个所述历史问题文本的原始文本相似度和所述翻译文本相似度准确地匹配出与目标问题文本更相似的历史问题文本,从而能够准确地匹配到历史时间内已有的答复文本,进而能够有效保证目标问题文本对应目标答复文本的质量,从而有利于提升在线问诊用户的用户体验。

Description

文本确定方法、装置、存储介质及电子设备
技术领域
本公开涉及数据处理领域,具体地,涉及一种文本确定方法、装置、存储介质及电子设备。
背景技术
在线问诊平台作为传统医疗的补充和优化,在近几年快速发展并广泛传播,在日常生活中发挥的作用也越来越显著。通过在线问诊平台,用户可以提出咨询问题,在线医生可以针对用户的问题提供专业的解答或者就医指导,从而实现远程诊疗。对于一些常见的普通疾病或症状,可能在问诊平台中已经出现多次,并且已经得到了在线医生的专业解答。
目前的在线问诊平台,针对当前时间内的用户问诊通常无法准确地匹配到历史时间内已有的解答内容,不利于提升在线问诊用户的用户体验。
发明内容
本公开的目的是提供一种文本确定方法、装置、存储介质及电子设备。
第一方面,本公开提供一种文本确定方法,所述方法包括:
获取目标问题文本的目标意图类别;
从预设数据库中获取所述目标意图类别对应的一个或多个历史问题文本;
在确定所述目标问题文本与每个所述历史问题文本语义均不相同的情况下,针对每个所述历史问题文本,获取所述目标问题文本与该历史问题文本对应的原始文本相似度,并获取所述目标问题文本的第一翻译文本和该历史问题文本的第二翻译文本,并获取所述第一翻译文本和所述第二翻译文本的翻译文本相似度,所述第一翻译文本和所述第二翻译文本的语种均为指定语种;
根据获取到的所述原始文本相似度和所述翻译文本相似度,从一个或多个历史问题文本对应的答复文本中确定目标答复文本。
可选地,所述根据获取到的所述原始文本相似度和所述翻译文本相似度,从一个或多个历史问题文本对应的答复文本中确定目标答复文本,包括:
根据所述原始文本相似度和所述翻译文本相似度,从所述一个或多个历史问题文本中确定所述目标问题文本对应的目标历史问题文本;
将所述预设数据库中所述目标历史问题文本对应的答复文本,作为所述目标答复文本。
可选地,所述原始文本相似度包括文本主题相似度和文本内容相似度,所述根据所述原始文本相似度和所述翻译文本相似度,从所述从一个或多个历史问题文本中确定所述目标问题文本对应的目标历史问题文本,包括:
按照预设权重对所述文本主题相似度,所述文本内容相似度,以及所述翻译文本相似度进行加权求和处理,以得到所述目标问题文本与每个所述历史问题文本的多维联合相似度;
将所述多维联合相似度大于或者等于预设相似度阈值的所述历史问题文本,作为所述目标历史问题文本。
可选地,获取所述目标问题文本与该历史问题文本对应的文本主题相似度,包括:
通过预设主题识别模型获取所述目标问题文本对应的第一文本主题,以及所述历史问题文本对应的第二文本主题,所述第一文本主题和所述第二文本主题均包括一个或者多个主题;
获取所述第一文本主题与所述第二文本主题的相似度,以得到所述文本主题相似度。
可选地,所述预设主题识别模型通过以下方式训练得到:
获取多个第一历史问题文本样本数据,每个所述第一历史问题文本样本数据包括一个或者多个标注主题;
通过所述多个第一历史问题文本样本数据对第一预设初始模型进行模型训练,以得到所述预设主题识别模型,其中,所述第一预设初始模型包括多个分类器,不同的分类器用于识别不同的主题。
可选地,所述获取目标问题文本的目标意图类别,包括:
将所述目标问题文本输入预设的意图分类模型,以获取所述预设意图分类模型输出的所述目标意图类别。
可选地,确定所述目标问题文本与每个所述历史问题文本语义均不相同,包括:
将所述目标问题文本与每个所述历史问题文本输入预设的语义相同判断模型中,以使所述语义相同判断模型依次输出所述目标问题文本与每个所述历史问题文本的语义相同判断结果,所述语义相同判断结果包括语义相同和语义不相同;
在所述目标问题文本与每个所述历史问题文本对应的所述语义相同判断结果均为语义不相同的情况下,确定所述目标问题文本与每个所述历史问题文本语义均不相同。
可选地,所述语义相同判断模型通过以下方式训练得到:
获取多个语义判断句子对样本,所述语义判断句子对样本包括第一语句和第二语句,以及所述第一语句与所述第二语句的语义相同或者语义不同的标注数据;
通过将所述多个语义判断句子对样本作为训练数据,对第二预设初始模型进行模型训练,以得到所述语义相同判断模型。
可选地,所述方法还包括:
在确定所述目标问题文本与一个或多个所述历史问题文本语义相同的情况下,从所述预设数据库中获取与所述目标问题文本语义相同的所述历史问题本文对应的答复文本,以得到所述目标答复文本。
第二方面,本公开提供一种文本确定装置,所述装置包括:
第一获取模块,用于获取目标问题文本的目标意图类别;
第二获取模块,用于从预设数据库中获取所述目标意图类别对应的一个或多个历史问题文本;
第一确定模块,用于在确定所述目标问题文本与每个所述历史问题文本语义均不相同的情况下,针对每个所述历史问题文本,获取所述目标问题文本与该历史问题文本对应的原始文本相似度,并获取所述目标问题文本的第一翻译文本和该历史问题文本的第二翻译文本,并获取所述第一翻译文本和所述第二翻译文本的翻译文本相似度,所述第一翻译文本和所述第二翻译文本的语种均为指定语种;
第二确定模块,用于根据获取到的所述原始文本相似度和所述翻译文本相似度,从一个或多个历史问题文本对应的答复文本中确定目标答复文本。
可选地,所述第二确定模块,用于:
根据所述原始文本相似度和所述翻译文本相似度,从所述一个或多个历史问题文本中确定所述目标问题文本对应的目标历史问题文本;
将所述预设数据库中所述目标历史问题文本对应的答复文本,作为所述目标答复文本。
可选地,所述原始文本相似度包括文本主题相似度和文本内容相似度,所述第二确定模块,用于:
按照预设权重对所述文本主题相似度,所述文本内容相似度,以及所述翻译文本相似度进行加权求和处理,以得到所述目标问题文本与每个所述历史问题文本的多维联合相似度;
将所述多维联合相似度大于或者等于预设相似度阈值的所述历史问题文本,作为所述目标历史问题文本。
可选地,所述第一确定模块,用于:
通过预设主题识别模型获取所述目标问题文本对应的第一文本主题,以及所述历史问题文本对应的第二文本主题,所述第一文本主题和所述第二文本主题均包括一个或者多个主题;
获取所述第一文本主题与所述第二文本主题的相似度,以得到所述文本主题相似度。
可选地,所述预设主题识别模型通过以下方式训练得到:
获取多个第一历史问题文本样本数据,每个所述第一历史问题文本样本数据包括一个或者多个标注主题;
通过所述多个第一历史问题文本样本数据对第一预设初始模型进行模型训练,以得到所述预设主题识别模型,其中,所述第一预设初始模型包括多个分类器,不同的分类器用于识别不同的主题。
可选地,所述第一获取模块,用于:
将所述目标问题文本输入预设的意图分类模型,以获取所述预设意图分类模型输出的所述目标意图类别。
可选地,第一确定模块,用于:
将所述目标问题文本与每个所述历史问题文本输入预设的语义相同判断模型中,以使所述语义相同判断模型依次输出所述目标问题文本与每个所述历史问题文本的语义相同判断结果,所述语义相同判断结果包括语义相同和语义不相同;
在所述目标问题文本与每个所述历史问题文本对应的所述语义相同判断结果均为语义不相同的情况下,确定所述目标问题文本与每个所述历史问题文本语义均不相同。
可选地,所述语义相同判断模型通过以下方式训练得到:
获取多个语义判断句子对样本,所述语义判断句子对样本包括第一语句和第二语句,以及所述第一语句与所述第二语句的语义相同或者语义不同的标注数据;
通过将所述多个语义判断句子对样本作为训练数据,对第二预设初始模型进行模型训练,以得到所述语义相同判断模型。
可选地,所述装置还包括:
第三确定模块,用于在确定所述目标问题文本与一个或多个所述历史问题文本语义相同的情况下,从所述预设数据库中获取与所述目标问题文本语义相同的所述历史问题本文对应的答复文本,以得到所述目标答复文本。
第三方面,本公开提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以上第一方面所述方法的步骤。
第四方面,本公开提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现以上第一方面所述方法的步骤。
上述技术方案,通过获取目标问题文本的目标意图类别;从预设数据库中获取所述目标意图类别对应的一个或多个历史问题文本;在确定所述目标问题文本与每个所述历史问题文本语义均不相同的情况下,根据获取到的所述原始文本相似度和所述翻译文本相似度,从一个或多个历史问题文本对应的答复文本中确定目标答复文本。这样能够通过目标问题文本与每个所述历史问题文本的原始文本相似度和所述翻译文本相似度准确地匹配出与目标问题文本更相似的历史问题文本,从而能够准确地匹配到历史时间内已有的答复文本,进而能够有效保证目标问题文本对应目标答复文本的质量,从而有利于提升在线问诊用户的用户体验。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是本公开一示例性实施例示出的一种文本确定方法的流程图;
图2是根据本公开图1所示实施例示出的一种文本确定方法的流程图;
图3是根据本公开图1所示实施例示出的另一种文本确定方法的流程图;
图4是本公开一示例性实施例示出的一种预设主题识别模型的模型结构示意图;
图5是本公开一示例性实施例示出的一种Bert预训练模型的示意图;
图6是根据本公开图1所示实施例示出的又一种文本确定方法的流程图;
图7是本公开以示例性实施例示出的一种文本确定装置的框图;
图8是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
在详细描述本公开的具体实施方式之前,首先对本公开的应用场景进行以下说明,本公开可以应用于从已有的问答文本数据库中匹配当前问题本文对应的目标答复文本的过程,该问答本文数据库可以是在线问诊平台对应的历史病例数据库,该历史病例数据库中记载了历史时间内的在线问诊用户的疾病症状描述和咨询问题,以及在线医生针对该疾病症状描述和资讯问题给出的专业解答内容,该当前问题本文可以是当前时间,在线问诊用户在该在线问诊平台上提出的咨询问题文本和疾病症状描述文本。
目前,相关技术中,在从历史病例数据库中匹配已有答复内容的过程中,通常采用基于文本相似度计算的方法,即计算历史病例数据库中历史疾病症状描述文本与当前正在问诊的疾病描述文本的相似度,从而将相似度大于预设相似度阈值的历史疾病症状描述文本对应的答复文本作为当前正在问诊的疾病描述文本的目标答复文本,然而,针对相似度计算的方法,由于医学文本通常存在如“多数症状相同对应不同疾病”、“相似疾病症状不同”、“同一问题不同表述”等问题,因此单纯的文本相似度计算难以满足相似病例匹配的任务,无法保证匹配结果的准确性,从而无法准确的匹配到历史时间内已有的解答内容,不能保证能够给予在先问诊用户高质量的答复,不利于提升在线问诊用户的用户体验。
为了解决以上技术问题,本公开提供了一种文本确定方法、装置、存储介质及电子设备,该方法通过获取目标问题文本的目标意图类别;从预设数据库中获取该目标意图类别对应的一个或多个历史问题文本;在确定该目标问题文本与每个该历史问题文本语义均不相同的情况下,根据获取到的该原始文本相似度和该翻译文本相似度,从一个或多个历史问题文本对应的答复文本中确定目标答复文本。这样能够通过目标问题文本与每个该历史问题文本的原始文本相似度和该翻译文本相似度准确地匹配出与目标问题文本更相似的历史问题文本,从而能够准确地匹配到历史时间内已有的答复文本,进而能够有效保证目标问题文本对应目标答复文本的质量,从而有利于提升在线问诊用户的用户体验。
下面结合具体实施例对本公开的技术方案进行详细阐述。
图1是本公开一示例性实施例示出的一种文本确定方法的流程图;如图1所示,该方法可以包括以下步骤:
步骤101,获取目标问题文本的目标意图类别。
其中,该目标意图类别可以是病因,鉴别诊断,治疗方法,并发症,常用药物,症状体征,预防,检查检验等中的任一个。
本步骤中,可以将该目标问题文本输入预设的意图分类模型,以获取该预设意图分类模型输出的该目标意图类别。
需要说明的是,该预设意图分类模型的训练过程可以包括:获取历史时间内的多个问题样本文本数据,该问题样本文本数据包括意图类别标注数据;以所述的多个咨询问题样本数据为训练数据,对预设的目标初始网络进行训练,以得到该意图分类模型,其中,该目标初始网络可以是双向LSTM(Long Short-Term Memory,长短期记忆网络)深度学习网络,训练过程可以包括以下步骤:
S1,对给定的问题样本文本X进行分词与词嵌入操作,以得到句子的向量表示:
X=[x1,x2,...,xn],其中,n为问题样本文本中词的数量;
S2,使用双向LSTM神经网络,获得输入问题样本文本的前向特征表示向量与后向特征表示向量,并进行拼接:
Figure BDA0003392346600000091
其中,
Figure BDA0003392346600000092
为向后特征表示向量,
Figure BDA0003392346600000093
为向前特征表示向量,pn为拼接后的特征向量。
S3,将拼接向量经过全连接层,通过softmax函数得到最终的分类结果
Figure BDA0003392346600000094
Figure BDA0003392346600000095
S4,采用交叉熵损失函数计算分类结果与标注数据的偏差程度,直至在该损失函数的计算结果表征该偏差程度处于预设的可接受范围的情况下,得到训练完成的意图分类模型。
在实际使用该意图分类模型时,仅需将目标问题文本输入该意图分类模型,即可由该意图分类模型输出该目标问题文本对应的目标意图类别。
步骤102,从预设数据库中获取该目标意图类别对应的一个或多个历史问题文本。
其中,该预设数据库中可以是历史病例数据库,可以包括历史时间内的多个问题文本,每个问题文本对应的答复文本,以及每个问题文本对应的意图类别,该意图类别可以是病因,鉴别诊断,治疗方法,并发症,常用药物,症状体征,预防或者检查检验,每个意图类别包括至少一个问题文本。
示例地,在该目标问题文本的目标意图类别为症状体征的情况下,可以从该预设数据库中获取该症状体征对应的至少一个历史问题文本,即将该预设数据库中意图类别为症状体征的问题文本作为该历史问题文本。
步骤103,在确定该目标问题文本与每个该历史问题文本语义均不相同的情况下,针对每个该历史问题文本,获取该目标问题文本与该历史问题文本对应的原始文本相似度,并获取该目标问题文本的第一翻译文本和该历史问题文本的第二翻译文本,并获取该第一翻译文本和该第二翻译文本的翻译文本相似度。
其中,该第一翻译文本和该第二翻译文本的语种均为指定语种,该指定语种可以是英语,或者日语,也可以是其他语种。
需要说明的是,可以先获取该第一翻译文本对应的第一文本向量,以及第二翻译文本对应的第二文本向量,获取该第一文本向量与该第二文本向量的相似度,以得到该翻译文本相似度。需要强调的是,计算两个文本向量的相似度的具体实施方式在现有技术中较为常见,本公开在此不再赘述。
步骤104,根据获取到的该原始文本相似度和该翻译文本相似度,从一个或多个历史问题文本对应的答复文本中确定目标答复文本。
本步骤中,一种可能的实施方式可以是,对该原始文本相似度与该翻译文本相似度进行加权求和处理,将加权求和结果大于预设结果阈值的历史问题文本对应的答复文本作为该目标答复文本。
另一种可能的实施方式可以是,在该目标问题文本与该历史问题文本对应的原始文本相似度大于第一预设阈值,且该翻译文本相似度大于第二预设阈值的情况下,将该历史问题文本对应的答复文本作为该目标答复文本。
以上技术方案,能够通过目标问题文本与每个该历史问题文本的原始文本相似度和该翻译文本相似度准确地匹配出与该目标问题文本更相似的历史问题文本,从而能够准确地匹配到历史时间内已有的答复文本,进而能够有效保证目标问题文本对应目标答复文本的质量,从而有利于提升在线问诊用户的用户体验。
图2是根据本公开图1所示实施例示出的一种文本确定方法的流程图;如图2所示,以上步骤104中所述的根据获取到的该原始文本相似度和该翻译文本相似度,从一个或多个历史问题文本对应的答复文本中确定目标答复文本,可以包括以下步骤:
步骤1041,根据该原始文本相似度和该翻译文本相似度,从该一个或多个历史问题文本中确定该目标问题文本对应的目标历史问题文本。
其中,该原始文本相似度包括文本主题相似度和文本内容相似度。
本步骤中,可以按照预设权重对该文本主题相似度,该文本内容相似度,以及该翻译文本相似度进行加权求和处理,以得到该目标问题文本与每个该历史问题文本的多维联合相似度;将该多维联合相似度大于或者等于预设相似度阈值的该历史问题文本,作为该目标历史问题文本。
步骤1042,将该预设数据库中该目标历史问题文本对应的答复文本,作为该目标答复文本。
需要说明的是,在预设数据库中包括多个该目标历史问题文本时,可以将每个该目标历史问题文本对应的答复文本均作为该目标答复文本,也可以将多个该目标历史问题文本中多维联合相似度最大的目标历史问题文本的答复文本作为该目标答复文本。
以上技术方案,能够根据该目标问题文本与每个该历史问题文本的该文本主题相似度,该文本内容相似度,以及该翻译文本相似度确定出该目标问题文本与该历史问题文本的多维联合相似度,从而根据该多维联合相似度从多个维度上综合确定出与该目标问题文本更相似的目标历史问题文本,从而能够准确地匹配到历史时间内已有的答复文本,进而能够有效保证目标问题文本对应目标答复文本的质量。
图3是根据本公开图1所示实施例示出的另一种文本确定方法的流程图;如图3所示,在该原始文本相似度包括文本主题相似度和文本内容相似度的情况下,以上步骤103中所述的获取该目标问题文本与该历史问题文本对应的原始文本相似度,可以包括以下步骤:
步骤1031,通过预设主题识别模型获取该目标问题文本对应的第一文本主题,以及该历史问题文本对应的第二文本主题。
其中,该第一文本主题和该第二文本主题均包括一个或者多个主题。
另外,该预设主题识别模型通过以下方式训练得到:
获取多个第一历史问题文本样本数据,每个该第一历史问题文本样本数据包括一个或者多个标注主题;通过该多个第一历史问题文本样本数据对第一预设初始模型进行模型训练,以得到该预设主题识别模型,其中,该第一预设初始模型包括多个分类器,不同的分类器用于识别不同的主题。
示例地,该第一历史问题文本样本“我就是想知道一下肝癌都是什么因素引起的呢?可以彻底治疗好吗?都有哪些治疗方法呢?”对应的标注主题可以是“疾病”和“治疗方法”,该第一历史问题文本样本“肺癌晚期有什么症状?手术的成功率有多大?”对应的标注主题可以是“疾病”,“分期”和“治疗方法”,该第一历史问题文本样本“阿莫西林能够治疗幽门螺杆菌感染吗?”对应的标注主题可以是“疾病”和“药物”。
本步骤中,该预设主题识别模型的模型结构可以如图4所示,图4是本公开一示例性实施例示出的一种预设主题识别模型的模型结构示意图;其中,该预设主题识别模型包括p个sigmoid分类器,不同的分类器用于识别不同的主题,输入的目标问题文本经过词嵌入操作后,输入到LSTM网络中,再经过p个sigmoid分类器得到预测标签向量,该预测标签向量中的每个元素为一个sigmoid分类器的分类结果,例如,在sigmoid1为用于识别主题是否包括“药物”的分类器时,若该sigmoid1输出0,则表征该目标问题文本的主题不包括“药物”,若该sigmoid1输出1,则表征该目标问题文本的主题包括“药物”,在sigmoid2为用于识别主题是否包括“治疗方法”的分类器时,若该sigmoid2输出0,则表征该目标问题文本的主题不包括“治疗方法”,若该sigmoid2输出1,则表征该目标问题文本的主题包括“治疗方法”,同理,该p个sigmoid分类器可以确定出该目标问题文本的主题是否包括P个预设主题,从而得到包括P个元素的预测标签向量。
步骤1032,获取该第一文本主题与该第二文本主题的相似度,以得到该文本主题相似度。
本步骤中,可以将该第一文本主题的用向量Yi表示,将第二文本主题用向量Yj表示,通过现有技术中的相似度的计算公式计算Yi与Yj的相似度。
另外,还需说明的是,该目标问题文本与每个历史问题文本对应的文本内容相似度可以通过以下方式获取:
通过Bert预训练模型对目标问题文本与每个历史问题文本进行字符级向量表示,然后计算目标问题文本的字符级向量与每个历史问题文本的字符级向量之间的相似度,从而得到该文本内容相似度,其中,在每个字符由n个维度描述,即每个字符向量为包括n个元素时,可以将n个元素的均值作为文本对应的字符级向量中该字符对应的元素,如图5所示,图5是本公开一示例性实施例示出的一种Bert预训练模型的示意图,在该图5中,该目标问题文本为“肝癌晚期有什么症状?”通过该Bert预训练模型后,输出字符“肝”对应的向量为x1={x11,x12,...,x1m},m为向量维数,字符“癌”对应的向量为x2={x21,x22,...,x2m},可以对该x11,x12,...,x1m求均值,作为该目标问题文本为“肝癌晚期有什么症状?”对应的字符级向量中“肝”对应的元素,从而得到该“肝癌晚期有什么症状?”对应的字符级向量为
Figure BDA0003392346600000141
其中10为目标问题文本对应的字符数量。
以上技术方案,通过包括多个分类器的预设主题识别模型获取该目标问题文本对应的第一文本主题,以及该历史问题文本对应的第二文本主题,根据该第一文本主题和该第二文本主题,能够得到该目标问题文本与每个历史问题文本更为准确地文本主题相似度,从而有利于得到更为准确的多维联合相似度,以从多个维度上综合确定与该目标问题文本更相似的目标历史问题文本,进而提升匹配到历史时间内已有答复文本的准确性。
图6是根据本公开图1所示实施例示出的又一种文本确定方法的流程图;如图6所示,以上图1中步骤103中所示的确定该目标问题文本与每个该历史问题文本语义均不相同,可以包括以下步骤:
步骤1033,将该目标问题文本与每个该历史问题文本输入预设的语义相同判断模型中,以使该语义相同判断模型依次输出该目标问题文本与每个该历史问题文本的语义相同判断结果。
其中,该语义相同判断结果包括语义相同和语义不相同。
本步骤中,该语义相同判断模型可以通过以下方式训练得到:
获取多个语义判断句子对样本,该语义判断句子对样本包括第一语句和第二语句,以及该第一语句与该第二语句的语义相同或者语义不同的标注数据;通过将该多个语义判断句子对样本作为训练数据,对第二预设初始模型进行模型训练,以得到该语义相同判断模型。该第二预设初始模型可以是Bert模型,也可以是现有技术中的其他机器学习模型,本公开对此不作限定。
需要说明的是,在将该目标问题文本与每个该历史问题文本输入预设的语义相同判断模型时,可以先使该目标问题文本与多个该历史问题文本中的每个历史问题文本形成一个句子对,从而得到多个句子对,然后将该多个句子对中的每个句子对依次作为该语义相同判断模型,从而得到每个句子对,对应的语义相同判断结果,例如,用“1”表征语义相同,用“0”表征语义不相同,在输入句子A与句子C组成的句子对时,该语义相同判断模型输出1,则表征该句子A与句子C语义相同,在输入句子A与句子B组成的句子对时,该语义相同判断模型输出0,则表征该句子A与句子B语义不相同。
步骤1034,在该目标问题文本与每个该历史问题文本对应的该语义相同判断结果均为语义不相同的情况下,确定该目标问题文本与每个该历史问题文本语义均不相同。
示例地,若从预设数据库中获取与该目标意图类别对应的历史问题文本为文本D,文本E和文本F,若要确定该目标问题文本分别与该文本D,文本E和文本F对应的语义均不相同,需要将目标问题文本与该文本D形成的句子对,目标问题文本与该文本E形成的句子对,以及目标问题文本与该文本F形成的句子对分别输入该语义相同判断模型,并确定该语义相同判断模型输出的结果均为0。
以上技术方案,能够通过语义相同判断模型快速,准确地确定出与目标问题文本语义相同的历史问题文本,并识别出该目标问题文本与每个该历史问题文本对应的该语义相同判断结果均为语义不相同的情况,能够从语义层面准确地匹配到历史时间内已有的答复文本。
可选地,图1中所示的文本确定方法还可以包括:
在确定该目标问题文本与一个或多个该历史问题文本语义相同的情况下,从该预设数据库中获取与该目标问题文本语义相同的该历史问题本文对应的答复文本,以得到该目标答复文本。
以上技术方案,能够直接将与该目标问题文本语义相同的历史问题文本对应的答复文本作为该目标答复文本,能够从语义层面准确地匹配到历史时间内已有的答复文本。
图7是本公开以示例性实施例示出的一种文本确定装置的框图;如图7所示,该装置可以包括:
第一获取模块701,用于获取目标问题文本的目标意图类别;
第二获取模块702,用于从预设数据库中获取该目标意图类别对应的一个或多个历史问题文本;
第一确定模块703,用于在确定该目标问题文本与每个该历史问题文本语义均不相同的情况下,针对每个该历史问题文本,获取该目标问题文本与该历史问题文本对应的原始文本相似度,并获取该目标问题文本的第一翻译文本和该历史问题文本的第二翻译文本,并获取该第一翻译文本和该第二翻译文本的翻译文本相似度,该第一翻译文本和该第二翻译文本的语种均为指定语种;
第二确定模块704,用于根据获取到的该原始文本相似度和该翻译文本相似度,从一个或多个历史问题文本对应的答复文本中确定目标答复文本。
以上技术方案,能够通过目标问题文本与每个该历史问题文本的原始文本相似度和该翻译文本相似度准确地匹配出与目标问题文本更相似的历史问题文本,从而能够准确地匹配到历史时间内已有的答复文本,进而能够有效保证目标问题文本对应目标答复文本的质量,从而有利于提升在线问诊用户的用户体验。
可选地,该第二确定模块704,用于:
根据该原始文本相似度和该翻译文本相似度,从该一个或多个历史问题文本中确定该目标问题文本对应的目标历史问题文本;
将该预设数据库中该目标历史问题文本对应的答复文本,作为该目标答复文本。
可选地,该原始文本相似度包括文本主题相似度和文本内容相似度,该第二确定模块704,用于:
按照预设权重对该文本主题相似度,该文本内容相似度,以及该翻译文本相似度进行加权求和处理,以得到该目标问题文本与每个该历史问题文本的多维联合相似度;
将该多维联合相似度大于或者等于预设相似度阈值的该历史问题文本,作为该目标历史问题文本。
可选地,该第一确定模块703,用于:
通过预设主题识别模型获取该目标问题文本对应的第一文本主题,以及该历史问题文本对应的第二文本主题,该第一文本主题和该第二文本主题均包括一个或者多个主题;
获取该第一文本主题与该第二文本主题的相似度,以得到该文本主题相似度。
可选地,该预设主题识别模型通过以下方式训练得到:
获取多个第一历史问题文本样本数据,每个该第一历史问题文本样本数据包括一个或者多个标注主题;
通过该多个第一历史问题文本样本数据对第一预设初始模型进行模型训练,以得到该预设主题识别模型,其中,该第一预设初始模型包括多个分类器,不同的分类器用于识别不同的主题。
可选地,该第一获取模块701,用于:
将该目标问题文本输入预设的意图分类模型,以获取该预设意图分类模型输出的该目标意图类别。
可选地,第一确定模块703,用于:
将该目标问题文本与每个该历史问题文本输入预设的语义相同判断模型中,以使该语义相同判断模型依次输出该目标问题文本与每个该历史问题文本的语义相同判断结果,该语义相同判断结果包括语义相同和语义不相同;
在该目标问题文本与每个该历史问题文本对应的该语义相同判断结果均为语义不相同的情况下,确定该目标问题文本与每个该历史问题文本语义均不相同。
可选地,该语义相同判断模型通过以下方式训练得到:
获取多个语义判断句子对样本,该语义判断句子对样本包括第一语句和第二语句,以及该第一语句与该第二语句的语义相同或者语义不同的标注数据;
通过将该多个语义判断句子对样本作为训练数据,对第二预设初始模型进行模型训练,以得到该语义相同判断模型。
可选地,该装置还包括:
第三确定模块705,用于在确定该目标问题文本与一个或多个该历史问题文本语义相同的情况下,从该预设数据库中获取与该目标问题文本语义相同的该历史问题本文对应的答复文本,以得到该目标答复文本。
以上技术方案,能够该文本主题相似度,该文本内容相似度,以及该翻译文本相似度确定出该目标问题文本与每个该历史问题文本的多维联合相似度,从而根据该多维联合相似度从多个维度上综合确定出与该目标问题文本更相似的目标历史问题文本,从而能够准确地匹配到历史时间内已有的答复文本,进而能够有效保证目标问题文本对应目标答复文本的质量,从而有利于提升在线问诊用户的用户体验。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种电子设备的框图。例如,电子设备1900可以被提供为一服务器。参照图8,电子设备1900包括处理器1922,其数量可以为一个或多个,以及存储器1932,用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1922可以被配置为执行该计算机程序,以执行上述的文本确定方法。
另外,电子设备1900还可以包括电源组件1926和通信组件1950,该电源组件1926可以被配置为执行电子设备1900的电源管理,该通信组件1950可以被配置为实现电子设备1900的通信,例如,有线或无线通信。此外,该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的文本确定方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1932,上述程序指令可由电子设备1900的处理器1922执行以完成上述的文本确定方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (12)

1.一种文本确定方法,其特征在于,所述方法包括:
获取目标问题文本的目标意图类别;
从预设数据库中获取所述目标意图类别对应的一个或多个历史问题文本;
在确定所述目标问题文本与每个所述历史问题文本语义均不相同的情况下,针对每个所述历史问题文本,获取所述目标问题文本与该历史问题文本对应的原始文本相似度,并获取所述目标问题文本的第一翻译文本和该历史问题文本的第二翻译文本,并获取所述第一翻译文本和所述第二翻译文本的翻译文本相似度,所述第一翻译文本和所述第二翻译文本的语种均为指定语种;
根据获取到的所述原始文本相似度和所述翻译文本相似度,从一个或多个历史问题文本对应的答复文本中确定目标答复文本。
2.根据权利要求1所述的方法,其特征在于,所述根据获取到的所述原始文本相似度和所述翻译文本相似度,从一个或多个历史问题文本对应的答复文本中确定目标答复文本,包括:
根据所述原始文本相似度和所述翻译文本相似度,从所述一个或多个历史问题文本中确定所述目标问题文本对应的目标历史问题文本;
将所述预设数据库中所述目标历史问题文本对应的答复文本,作为所述目标答复文本。
3.根据权利要求2所述的方法,其特征在于,所述原始文本相似度包括文本主题相似度和文本内容相似度,所述根据所述原始文本相似度和所述翻译文本相似度,从所述从一个或多个历史问题文本中确定所述目标问题文本对应的目标历史问题文本,包括:
按照预设权重对所述文本主题相似度,所述文本内容相似度,以及所述翻译文本相似度进行加权求和处理,以得到所述目标问题文本与每个所述历史问题文本的多维联合相似度;
将所述多维联合相似度大于或者等于预设相似度阈值的所述历史问题文本,作为所述目标历史问题文本。
4.根据权利要求3所述的方法,其特征在于,获取所述目标问题文本与该历史问题文本对应的文本主题相似度,包括:
通过预设主题识别模型获取所述目标问题文本对应的第一文本主题,以及所述历史问题文本对应的第二文本主题,所述第一文本主题和所述第二文本主题均包括一个或者多个主题;
获取所述第一文本主题与所述第二文本主题的相似度,以得到所述文本主题相似度。
5.根据权利要求4所述的方法,其特征在于,所述预设主题识别模型通过以下方式训练得到:
获取多个第一历史问题文本样本数据,每个所述第一历史问题文本样本数据包括一个或者多个标注主题;
通过所述多个第一历史问题文本样本数据对第一预设初始模型进行模型训练,以得到所述预设主题识别模型,其中,所述第一预设初始模型包括多个分类器,不同的分类器用于识别不同的主题。
6.根据权利要求1所述的方法,其特征在于,所述获取目标问题文本的目标意图类别,包括:
将所述目标问题文本输入预设的意图分类模型,以获取所述预设意图分类模型输出的所述目标意图类别。
7.根据权利要求1所述的方法,其特征在于,确定所述目标问题文本与每个所述历史问题文本语义均不相同,包括:
将所述目标问题文本与每个所述历史问题文本输入预设的语义相同判断模型中,以使所述语义相同判断模型依次输出所述目标问题文本与每个所述历史问题文本的语义相同判断结果,所述语义相同判断结果包括语义相同和语义不相同;
在所述目标问题文本与每个所述历史问题文本对应的所述语义相同判断结果均为语义不相同的情况下,确定所述目标问题文本与每个所述历史问题文本语义均不相同。
8.根据权利要求7所述的方法,其特征在于,所述语义相同判断模型通过以下方式训练得到:
获取多个语义判断句子对样本,所述语义判断句子对样本包括第一语句和第二语句,以及所述第一语句与所述第二语句的语义相同或者语义不同的标注数据;
通过将所述多个语义判断句子对样本作为训练数据,对第二预设初始模型进行模型训练,以得到所述语义相同判断模型。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述方法还包括:
在确定所述目标问题文本与一个或多个所述历史问题文本语义相同的情况下,从所述预设数据库中获取与所述目标问题文本语义相同的所述历史问题本文对应的答复文本,以得到所述目标答复文本。
10.一种文本确定装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标问题文本的目标意图类别;
第二获取模块,用于从预设数据库中获取所述目标意图类别对应的一个或多个历史问题文本;
第一确定模块,用于在确定所述目标问题文本与每个所述历史问题文本语义均不相同的情况下,针对每个所述历史问题文本,获取所述目标问题文本与该历史问题文本对应的原始文本相似度,并获取所述目标问题文本的第一翻译文本和该历史问题文本的第二翻译文本,并获取所述第一翻译文本和所述第二翻译文本的翻译文本相似度,所述第一翻译文本和所述第二翻译文本的语种均为指定语种;
第二确定模块,用于根据获取到的所述原始文本相似度和所述翻译文本相似度,从一个或多个历史问题文本对应的答复文本中确定目标答复文本。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-9中任一项所述方法的步骤。
12.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-9中任一项所述方法的步骤。
CN202111468026.5A 2021-12-03 2021-12-03 文本确定方法、装置、存储介质及电子设备 Pending CN114155957A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111468026.5A CN114155957A (zh) 2021-12-03 2021-12-03 文本确定方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111468026.5A CN114155957A (zh) 2021-12-03 2021-12-03 文本确定方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN114155957A true CN114155957A (zh) 2022-03-08

Family

ID=80452532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111468026.5A Pending CN114155957A (zh) 2021-12-03 2021-12-03 文本确定方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114155957A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108158A (zh) * 2023-04-13 2023-05-12 合肥工业大学 在线互动问答文本特征构造方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108158A (zh) * 2023-04-13 2023-05-12 合肥工业大学 在线互动问答文本特征构造方法和系统

Similar Documents

Publication Publication Date Title
CN110781680B (zh) 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN111128394B (zh) 医疗文本语义识别方法、装置、电子设备及可读存储介质
CN108491486B (zh) 模拟病人问诊对话方法、装置、终端设备及存储介质
CN111738001B (zh) 同义词识别模型的训练方法、同义词确定方法及设备
CN113724882B (zh) 基于问诊会话构建用户画像的方法、装置、设备和介质
CN112131883B (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN112069815B (zh) 成语填空题的答案选择方法、装置和计算机设备
CN110825867B (zh) 相似文本推荐方法、装置、电子设备和存储介质
CN111259111B (zh) 基于病历的辅助决策方法、装置、电子设备和存储介质
CN111950303B (zh) 医疗文本翻译方法、装置及存储介质
He Towards Visual Question Answering on Pathology Images.
CN113707307A (zh) 病情分析方法、装置、电子设备及存储介质
CN110717021A (zh) 人工智能面试中获取输入文本和相关装置
CN114462031B (zh) 后门攻击方法、相关装置及存储介质
CN113705191A (zh) 样本语句的生成方法、装置、设备及存储介质
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN112581297B (zh) 基于人工智能的信息推送方法、装置及计算机设备
CN114155957A (zh) 文本确定方法、装置、存储介质及电子设备
CN113536784A (zh) 文本处理方法、装置、计算机设备和存储介质
CN117112743A (zh) 文本自动生成问题的可回答性评估方法、系统及存储介质
CN115795007A (zh) 智能问答方法、智能问答装置、电子设备及存储介质
CN114936274A (zh) 模型训练方法、对话生成方法和装置、设备及存储介质
CN114626463A (zh) 语言模型的训练方法、文本匹配方法及相关装置
CN114186020A (zh) 一种语义联想方法
CN114510561A (zh) 答案选择方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination