CN112149414B

CN112149414B - 文本相似度确定方法、装置、设备及存储介质

Info

Publication number: CN112149414B
Application number: CN202011009879.8A
Authority: CN
Inventors: 向玥佳; 刘博�; 陈曦; 林镇溪; 文瑞; 管冲; 高文龙; 孙继超; 张子恒; 徐超; 杨奕凡; 张云燕
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2023-06-23
Anticipated expiration: 2040-09-23
Also published as: CN112149414A

Abstract

本申请公开了一种文本相似度确定方法、装置、设备及存储介质，属于人工智能技术领域。所述方法包括：获取第一文本；确定第一文本中包含的要素词；对于N个要素种类中的目标要素种类，获取第一文本中属于目标要素种类的各个目标要素词与第二文本中属于目标要素种类的各个目标要素词之间的字词相似度；基于字词相似度，确定第一文本与第二文本在目标要素种类上的相似度；基于第一文本与第二文本在N个要素种类上的相似度，确定第一文本与第二文本之间的相似度。本申请实施例提供的技术方案，从要素词相似的角度确定不同文本在各个要素种类上的相似度，进而确定不同文本的相似度，提升了不同文本间相似度确定的准确性，扩大了适用范围。

Description

文本相似度确定方法、装置、设备及存储介质

技术领域

本申请涉及人工智能技术领域，特别涉及一种文本相似度确定方法、装置、设备及存储介质。

背景技术

随着人工智能技术的发展，人们需要处理的信息量激增。为了更好地利用这些海量信息进行统计分析，往往需要先对这些信息进行标准化处理。比如，在医疗领域中，往往需要将同一病情的多种表达方式统一为标准表达后，再进行统计分析。

相关技术中，是通过计算非标准表达文本与标准表达文本之间的编辑距离，来体现非标准表达文本与标准表达文本之间的相似度，在利用编辑距离作为相似度的同时辅助一些同义词规则，例如替换非标准表达中的字词，实现标准化任务。

通过相关技术确定的文本相似度的准确性低、适用范围小。例如，“癌”和“结节”的编辑距离是2，“癌”和“恶心肿瘤”的编辑距离是4，但是“癌”和“恶心肿瘤”显然要比“癌”和“结节”更接近。又比如用户输入的是“良性肿瘤”，那么会匹配成“良性癌”这种医学上不存在的表达。

发明内容

本申请实施例提供了一种文本相似度确定方法、装置、设备及存储介质，能够提升文本之间相似度计算的准确度，使得输出标准文本更加准确。所述技术方案如下：

根据本申请实施例的一个方面，提供了一种文本相似度确定方法，所述方法包括：

获取第一文本；

确定所述第一文本中包含的要素词，所述要素词是指属于预定义的N个要素种类中的任一要素种类的字词，所述N为正整数；

对于所述N个要素种类中的目标要素种类，获取所述第一文本中属于所述目标要素种类的各个目标要素词与第二文本中属于所述目标要素种类的各个目标要素词之间的字词相似度；

基于所述字词相似度，确定所述第一文本与所述第二文本在所述目标要素种类上的相似度；

基于所述第一文本与所述第二文本在所述N个要素种类上的相似度，确定所述第一文本与所述第二文本之间的相似度。

根据本申请实施例的一个方面，提供了一种文本相似度确定装置，所述装置包括：

文本获取模块，用于获取第一文本；

要素词确定模块，用于确定所述第一文本中包含的要素词，所述要素词是指属于预定义的N个要素种类中的任一要素种类的字词，所述N为正整数；

字词相似度获取模块，用于对于所述N个要素种类中的目标要素种类，获取所述第一文本中属于所述目标要素种类的各个目标要素词与第二文本中属于所述目标要素种类的各个目标要素词之间的字词相似度；

要素相似度确定模块，用于基于所述字词相似度，确定所述第一文本与所述第二文本在所述目标要素种类上的相似度；

整体相似度确定模块，用于基于所述第一文本与所述第二文本在所述N个要素种类上的相似度，确定所述第一文本与所述第二文本之间的相似度。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述文本相似度确定方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述文本相似度确定方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述文本相似度确定方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过比较不同文本中属于相同要素种类的要素词之间的相似度，进而确定不同文本之间在各个要素种类上的相似度，以便于从多个角度去考虑两者的相似度，并且保证两者之间的语义信息不被忽略，最终通过不同文本之间在各个要素种类上的相似度确定不同文本之间的相似度，提升了不同文本间相似度确定的准确性，也扩大了适用范围。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的文本确定系统的框图；

图2是本申请一个实施例提供的文本相似度确定方法的流程图；

图3是本申请另一个实施例提供的文本相似度确定方法的流程图；

图4是本申请一个实施例提供的文本相似度确定装置的框图；

图5是本申请另一个实施例提供的文本相似度确定装置的框图；

图6是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请中的部分用语进行解释说明，以便于本领域技术人员理解。

编辑距离：计算一个字符串转换成另一个字符串所需要的最小编辑操作数，量化两个字符串的差异程度。转换操作包括添加一个字符、删除一个字符以及替换一个字符。

BERT(BidirectionalEncoder Representation from Transformers，基于转换器的双向编码表示)模型，一种基于Transformer架构的深度预训练模型，基于掩码语言模型任务学习双向上下文特征表示。BERT在大规模的预料库上预训练完成后，可以迁移至在下游任务进行微调。

TF-IDF(Term Frequency–Inverse Document Frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency)，IDF是逆文本频率指数(InverseDocument Frequency)，评估一个字词在一个文档以及语料库中的重要性。字词重要性与它在文档中出现的次数成正比，与它在语料库中出现的次数成反比。

命名实体识别(Named Entity Recognition，简称NER)是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。一般来说，命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

LSTM(Long Short Term Memory，长短期记忆网络)是一种特定形式的RNN(Recurrent Neural Network，循环神经网络)，而RNN是一系列能够处理序列数据的神经网络的总称。RNN还有许多变形，例如双向RNN(Bidirectional RNN)等。然而，RNN在处理长期依赖(时间序列上距离较远的节点)时会遇到巨大的困难，因为计算距离较远的节点之间的联系时会涉及雅可比矩阵的多次相乘，这会带来梯度消失(经常发生)或者梯度膨胀(较少发生)的问题，为了解决该问题，最广泛的就是门限RNN(Gated RNN)，而LSTM就是门限RNN中最著名的一种。有漏单元通过设计连接间的权重系数，从而允许RNN累积距离较远节点间的长期联系；而门限RNN则泛化了这样的思想，允许在不同时刻改变该系数，且允许网络忘记当前已经累积的信息。LSTM就是这样的门限RNN。LSTM通过增加输入门限，遗忘门限和输出门限，使得自循环的权重是变化的，这样，在模型参数固定的情况下，不同时刻的积分尺度可以动态改变，从而避免了梯度消失或者梯度膨胀的问题。损失函数。在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(lossfunction)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

BiLSTM(Bi-directional Long Short-Term Memory，双向长短期记忆网络)，是由前向LSTM与后向LSTM组合而成，在自然语言处理任务中都常被用来建模处理上下文信息，通过BiLSTM可以更好的捕捉双向的语义依赖。

条件随机场(Conditional Random Fields，CRF)，是一个序列化标注算法(sequence labeling algorithm)，接收一个输入序列并且输出目标序列，也能被看作是一种seq2seq模型。这里使用大写X,Y表示序列。例如，在词性标注任务中，输入序列为一串单词，输出序列就是相应的词性。应用于NER中的BiLSTM-CRF模型主要由Embedding层(主要有词向量，字向量以及一些额外特征)，双向LSTM层，以及最后的CRF层构成。

上下位词：当两个词具有包含以及被包含的关系，我们可以称其具有上下位关系。其中表示上位概念的词为上位词，表示下位概念的词为下位词。词的上下位关系具有层次性以及可传递性。

短文本领域：指的是文本具备短语化特征的领域，如简历、合同、新闻、微博、病历等。短文本领域的文本的内容较少，包含的有效信息也较少。

本申请技术方案涉及人工智能技术领域，下面对此进行介绍说明。

AI(Artificial Intelligence，人工智能)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

ML(Machine Learning，机器学习)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术的研究和进步，人工智能技术在多个领域展开研究和应用，下述文本确定系统中的计算机设备，可以设置有基于AI技术训练的文本相似度确定模块，可以执行本申请提供的文本相似度确定方法，达到准确确定文本间的相似度，进而确定出最匹配的文本的效果。

请参考图1，其示出了本申请一个实施例提供的文本确定系统的框图。该文本相似度确定系统包括至少一个计算机设备，如终端120、网络140和服务器160。

终端120可以是手机、平板电脑、台式电脑、笔记本电脑、智能医疗终端、医疗数据管理平台等设备。终端120是存在文本相似度确定需求的终端。可选地，终端120用于采集需要确定相似度的文本。

终端120可以通过网络140与服务器160相连。网络140可以是有线网络或无线网络。终端120可以将文本信息传输给服务器160，由服务器160完成文本相似度确定后，将最终基于相似度确定的匹配结果回传给终端120。

服务器160是用于进行文本相似度确定的后台服务器。服务器160中设置有用于确定文本相似度的算法或者模型，能够实现文本之间的相似度确定功能。

服务器160可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器(云计算服务中心)。服务器160用于为终端120提供后台服务。例如，服务器160可以是上述文本相似度确定系统的后台服务器。可选地，服务器160同时为多个终端120提供后台服务。终端120以及服务器160可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

上述文本确定系统基于文本之间的相似度，为文本寻找到最佳匹配结果。上述文本确定系统可应用于医疗领域，完成疾病标准化任务。在医学领域中，一种疾病往往有多种表达方式，医生在病历里记录时往往用词较随意，所以在对医疗数据、医保数据、病例数据进行统计分析前需要先将这些同一个疾病的多种表达进行统一，这就是疾病标准化任务。例如，对于病历中的描述“声带边有异物”，在国际疾病分类(InternationalClassification of Diseases，ICD)的第10次修订本《疾病和有关健康问题的国际统计分类》(简称ICD-10)中对应的标准化结果应为“编码：T17.900，标准表达：呼吸道内异物”，不同业务中标准化的目标不一致。

以ICD-10标准为例，该标准中一共有3万多个疾病的标准表达。在本方案应用于疾病表达标准化场景的情况下，上述文本确定系统需要做的是，对于一条不标准的疾病输入文本，文本确定系统需要从这3万多个候选标准表达中选择出与输入文本对应的标准表达文本。一种具体的做法是，将输入的文本与这3万多个标准表达进行比较，基于确定出的相似度选择出其中与输入文本最接近的一个标准表达文本作为输出的结果。在每一次对比中，需要处理两个文本。其中一个是输入的不标准的文本，另外一个是待比较的标准表达文本，比较后输出一个数值或者向量，表示这两个文本之间的相似度。

请参考图2，其示出了本申请一个实施例提供的文本相似度确定方法的流程图。该方法可应用于计算机设备中，如各步骤的执行主体可以是图1所示的文本确定系统中的终端120或者服务器160。该方法可以包括以下几个步骤(210-250)：

步骤210，获取第一文本。

可选地，第一文本为短文本，上述短文本是指文字数量较少的文本。可选地，第一文本为在医疗领域中用于描述疾病或者患者病情的文本。例如，文本A“椎间孔骨性和不全脱位性狭窄”、文本B“脊椎脱位性狭窄”。本申请实施例不对文本所述应用领域类型作限定。

可选地，上述第一文本为用户输入的非标准的文本。可选地，上述第一文本可定义为有序序列(c₁c₂…)，其中c表示字，c的下标表示文本中的第几个字，在计算机设备中c表示字的代码，即第一文本是由字构成的有序序列。

步骤220，确定第一文本中包含的要素词。

可选地，通过要素词识别模型对第一文本进行要素词识别处理，确定第一文本中包含的要素词。可选地，上述要素词识别模型是基于命名实体识别模型构造的用于识别要素词的深度学习模型。可选地，上述要素词识别模型是基于BiLSTM+CRF构造神经网络模型，用于识别出第一文本中包含的要素词。

要素词是指属于预定义的N个要素种类中的任一要素种类的字词，N为正整数。上述要素种类是指要素词所属的种类，以医学场景为例，要素种类包括医学要素种类，相应地，要素词为医学要素词，医学要素是指组成医学文本的结构要素，医学文本可理解为由至少一个要素词组成的语句，要素词的种类即为要素种类。可选地，一个医学文本可由至少一种医学要素种类中至少一个要素词组成。

在示例性实施例中，以医学场景为例，N个要素种类包括：症状(Atomsymptom)、症状描述目标(Headword)、身体部位(Body part)、连接词(Conjunction)、否定词(Negativeword)、严重程度(Severity word)、情景词(Situation word)、位置词(Locative word)、描述症状特征的词(Feature word)、修饰词(Modifier word)、时间词(Temporal word)、疾病名称(Disease)、药物(Medication)、治疗(Treatments)，其中N＝14。这里通过下面的表1对部分要素种类作示例性的解释说明。

表1

可选地，经过要素词识别处理后的要素词带有要素种类标注，上述要素种类标注用于反映要素词所属的要素种类。可选地，第一文本中包含的要素词以集合的方式存在。可选地，按照要素种类对第一文本中包含的要素词分类，得到要素种类的词集合，上述要素种类的词集合中包括第一文本中属于该要素种类的各个要素词。可选地，定义第i种要素的词集合为H_i＝[h₁₁，h₁₂，...]，所有要素种类的词集合为H＝[H₁，H₂，...，H_N]。可选地，通过训练好的命名实体识别模型提取第一文本中包含的每一要素种类的词集合。

对于上文提及的文本A：椎间孔骨性和不全脱位性狭窄，经过要素词识别处理后得到如下结果：

Body part：椎、椎间；Headword：孔骨性；Negative word：不全；Severity word：脱位性，不全脱位性；Conjunction：和；Atomsymptom：狭窄。

对于上文提及的文本B：脊椎脱位性狭窄，经过要素词识别处理后得到如下结果：

Body βart：椎、脊椎；Severity word：脱位性；Atomsymptom：狭窄。

和

可以分别定义为文本A和文本B所包含的第i种要素的词集合，其中i表示第i种要素，j为要素词在第i种要素下的排序序号。

在示例性实施例中，获取第一文本之后，还包括如下步骤：

对第一文本进行纠正处理，得到纠正后的第一文本。

纠正处理是指纠正第一文本中字词的处理。上述纠正第一文本中的字词包括补充字词、修改错误字词等处理。可选地，将第一文本输入至深度学习模型，通过深度学习模型对第一文本进行纠正处理，输出纠正后的第一文本。可选地，上述深度学习模型是使用医用文本作为训练样本对BERT模型进行微调处理后得到的深度学习模型。可选地，训练样本中的医用文本是经过标记处理的医用文本，例如对于文本“患者感到喉咙疼痛”，可对其中某一个字进行标记处理，得到“患者感到喉*疼痛”，作为训练样本对BERT模型进行微调处理，使得微调后的BERT模型能够在输入“患者感到喉疼痛”的条件下，输出“患者感到喉咙疼痛”。同时，上述纠正处理也可以理解为对数据进行建模的过程，提升文本质量，从源头提升准确性。

相应地，对于需对第一文本进行纠正处理的情况，上述步骤220可改为由如下方式实现：

对纠正后的第一文本进行要素词识别处理，确定第一文本中包含的要素词。

这里虽然是对纠正后的第一文本进行要素词处理，但基于纠正后的第一文本得到的要素词依然是第一文本中包含的要素词，在第一文本为上述例子中“患者感到喉疼痛”的条件下，补充“咙”字得到纠正后的第一文本“患者感到喉咙疼痛”，若直接对“患者感到喉疼痛”进行要素词识别处理，单字“喉”容易影响识别准确率，而通过对纠正后的第一文本进行要素词识别处理，相对于原始的第一文本，更有利于准确识别出第一文本包含的要素词，或者说第一文本想表达的要素词，进一步保证后续计算相似度的准确性。

在示例性实施例中，对于第二文本，可以执行与第一文本同样的步骤，执行时间可以早于第一文本，进而降低相似度确定过程中的计算压力。

需要说明的是，本申请实施例对医学要素的体系构建、算法模型结构、训练方式不作限定，可根据具体情况作出合理选择。

步骤230，对于N个要素种类中的目标要素种类，获取第一文本中属于目标要素种类的各个目标要素词与第二文本中属于目标要素种类的各个目标要素词之间的字词相似度。

上述目标要素种类是指N个要素种类中的任一要素种类。上述步骤230是针对单个要素种类执行的步骤，可根据目标要素种类的执行步骤类推得到针对其他要素种类情况下的执行步骤。

步骤240，基于字词相似度，确定第一文本与第二文本在目标要素种类上的相似度。

字词相似度是指字词之间的相似程度，也可以理解为相关程度。可选地，可通过字或者词本身角度去评定文本间的字词相似度，例如包含多少相同的字符，或者字词。可选地，可通过字词的上下位关系判断字词间的相似度，例如上位词与下位词之间相似度高。

步骤250，基于第一文本与第二文本在N个要素种类上的相似度，确定第一文本与第二文本之间的相似度。

可选地，对第一文本与第二文本在N个要素种类上的相似度求平均值，得到第一文本与第二文本之间的相似度。

可选地，对第一文本与第二文本在N个要素种类上的相似度作加权求和处理，得到第一文本与第二文本之间的相似度。其中，根据N个要素种类各自在文本中的主导地位、重要程度确定N个要素种类各自的权重。

可选地，基于第一文本与第二文本在N个要素种类上的相似度，生成第一文本与第二文本之间的相似度向量。

相似度向量用于从N个要素种类的角度评估第一文本与第二文本之间的差异程度。可选地，相似度向量为N维向量。可选地，相似度向量的维度等于第一文本与第二文本包含的要素种类的数量。

综上所述，本申请实施例提供的技术方案，通过比较不同文本中属于相同要素种类的要素词之间的相似度，进而确定不同文本之间在各个要素种类上的相似度，以便于从多个角度去考虑两者的相似度，并且保证两者之间的语义信息不被忽略，最终通过不同文本之间在各个要素种类上的相似度确定不同文本之间的相似度，提升了不同文本间相似度确定的准确性，也扩大了适用范围。

下面结合医疗场景中的标准化任务，从更加具体的角度去阐述本申请的技术方案带来的有益效果。本申请的技术方案可应用于针对医疗领域中短文本的相似度评估场景。

相关技术提供的的标准化方法主要是以下几个流程：1、收集多种标准表达(短文本)扩充知识库，2、通过计算编辑距离来计算用户输入和收集到的标准表达的相似度，3、对计算出的相似度建模选择出最佳匹配的标准表达。本申请针对的流程中的第二步。现有方法主要是统计学算法：计算两个短文本之间的编辑距离，同时辅助一些基于规则的特征。基于编辑距离的方法缺乏对医学领域的知识，有时候编辑距离大并不一定就不相关，例如“癌”和“结节”的编辑距离是2，“癌”和“恶心肿瘤”的编辑距离是4，但是“癌”和“恶心肿瘤”显然要比“癌”和“结节”更接近。但基于编辑距离的方法很难判断。于是现有的方法会去辅助一些基于规则的特征，比如基于同义词规则，通过添加“癌＝肿瘤”这样一条规则来处理。但是这样的处理后依然面临有两个问题：1、难以处理模糊概念：规则方法是一种对知识的非连续性表达难以处理模糊概念，“癌”其实并不等于“肿瘤”，这两个概念在医学上是有很大差别的，2、适应性弱：如果用户的输入稍有变化就会导致以前的规则失效甚至是产生错误，例如用户输入的是“良性肿瘤”，那么会匹配成“良性癌”这种医学上不纯在的表达，导致这类方法的计算流程可解释性弱、泛化性差。

本申请从两个方面出发来构建了一种更好的、可针对短文本的相似度的评估方法：基于深度学习模型训练出的要素分析模型建立的相似度评估方法。该方法一方面利用深度学习的连续性表达解决规则方法无法处理模糊对应的关系的缺点，另一方面利用深度学习模型的鲁棒性克服了规则模型的适应性弱的缺点。

本申请的方案可用连续空间上的向量来表达词汇，进而能学习模糊的对应关系。例如，在统计学+规则的方法上，规则上要么表示为“癌＝肿瘤”或者表示为“癌≠肿瘤”，即数值上的相关程度要么为0，要么为1。而在连续空间上的建模可以建模为P(癌＝肿瘤)＝0.911,也就是表示“癌”和“肿瘤”在大部分情况下都可以相互替代来表达，但这两个概率之间还是有一些差异的。

另外，本申请的技术方案是对词进行了更高的抽象，抽象为14种医学要素。然后基于医学要素进行计算，例如“肿瘤”和“癌”都属于症状描述目标(Headword)，而“良性”属于描述症状特征的词(Feature word)。这三个词建在算法中同步进行计算，而不是基于词典方式的直接替换拼接，从而避免了计算流程中出现的不合理过程，提升了算法的可解释性和可泛化性。

若将本申请的技术方案运用于医疗数据管理项目中，对于医院等医疗机构来说能大量减少病案编码员的工作量，对于医保局等卫生管理机构来说能辅助核保，对于大部分基于医疗数据的项目来说可以作为数据预处理流程之一简化后续开发工作。

请参考图3，其示出了本申请另一个实施例提供的文本相似度确定方法的流程图。该方法可应用于计算机设备中，如各步骤的执行主体可以是图1所示的文本确定系统中的终端120或者服务器160。该方法可以包括以下几个步骤(310-390)：

步骤310，获取第一文本。

步骤320，确定第一文本中包含的要素词。

步骤330，对于N个要素种类中的目标要素种类，获取第一文本中属于目标要素种类的各个目标要素词与第二文本中属于目标要素种类的各个目标要素词之间的字词相似度。

可选地，对于第一文本中的第一目标要素词和第二文本中的第二目标要素词，从相似度矩阵中查找获取第一目标要素词与第二目标要素词之间的字词相似度。

上述第一目标要素词是指第一文本中属于目标要素种类的任一目标要素词。上述第二目标要素词是指第二文本中属于目标要素种类的任一目标要素词。

相似度矩阵中包括目标要素种类包含的各个目标要素词中两两之间的字词相似度。

在示例性实施例中，上述相似度矩阵的生成过程如下：

1、获取目标要素种类包含的各个要素词相互之间的上下位关系。

2、基于上下位关系，构造目标要素种类的要素词结构树。

其中，目标要素种类包含的各个要素词分布在要素词结构树的各个节点上，要素词结构树包括具有父子关系的第一节点和第二节点，第一节点上的要素词是第二节点上的要素词的上位词，第二节点上的要素词是第一节点上的要素词的下位词。上述第一、第二仅是为了区分不同节点所采用的示例性说明，节点上的要素词即可以是其他要素词的上位词，也可以是其他要素的下位词。

对于同类要素词之间所具有的层次化关系，例如“椎”是“脊椎”的上位词，这里通过构造要素词结构树，有利于形象地刻画这种层次结构，并且易于量化要素词之间的关系。

对于目标要素种类，可通过其中已知的要素词之间的上下位层级关系，构造出一颗表示目标要素种类中要素词层次的要素词结构树。对于要素词结构树上的两个节点，我们通过计算他们之间的距离来度量位于这两个节点的要素词之间的相关程度。

3、基于要素词结构树中各个节点之间的位置关系，确定相似度矩阵。

相似度矩阵中的元素反映元素所在行对应的要素词与元素所在列对应的要素词之间的字词相似度。

在示例性实施例中，上述相似度矩阵中的元素的一种可能的确定方式如下：

对目标要素种类i包含的n个要素词进行排序，得到n个要素词的排列次序。其中，排列次序用于确定n个要素词在相似度矩阵中对应的行序或者列序，相似度矩阵为n×n的矩阵，i、n为正整数。例如，要素词是目标要素种类i中的第2个要素词，那么该要素词与相似度矩阵中的第2行、以及第2列相对应，其中第2行的n个元素表示该要素词到目标要素种类i中n个要素。

情况一：在第x行对应的要素词v_x与第y列对应的要素词v_y为同一要素词的情况下，确定位于相似度矩阵中第x行、第y列的元素

的值为1，x、y均为小于或者等于n的正整数。

情况二：在第x行对应的要素词v_x与第y列对应的要素词v_y之间为冲突关系的情况下，确定元素

的值0。上述冲突关系是指不存在上下位关系的要素词之间的关系。

情况三：在第x行对应的要素词v_x与第y列对应的要素词v_y之间具有上下位关系的情况下，基于要素词v_x与要素词v_y在要素词结构树中的距离，确定元素

的值。

可选地，上述相似度矩阵可由如下数学公式表达：

在此种数学形式表达相似度矩阵的条件下，相似度矩阵中的元素可由如下公式确定，分别对应上述三种情况：

下面对上述公式进行解释说明，第i种要素的词表大小为n，即第i种要素包含n个要素词，v_x表示在第i种要素的词表中排在第x位的要素词，v_y表示在第i种要素的词表中排在第y位的要素词。此外，我们已知了一部分要素词之间是完全无关的，我们将要素间完全无关的关系称为冲突关系conflict relations(conf.)。

表示v_x和v_y的相关程度。当两者相同时(v_x＝v_y或者x＝y)，

的值为1，当两者冲突时(conf.)，

的值为0，当两者具有上下位关系时(otherwise，也可解释为既不相同也不冲突)，

的值为w(x，y)，d_x，y表示v_x和v_y在要素词结构树上的最短距离，而d_max表示要素词结构树中两两节点之间的最远距离。可选地，w(x，y)的值越大，v_x和v_y的相关程度越高。

可选地，上述公式中w(x，y)还可通过如下方式确定：

其中，l_xy表示要素词结构树中v_x传递到v_y的路径长度，而l_max表示v_x可以传递最远路径的长度。例如，“椎”是“脊椎”的上位词，“骨头”是“锥”的上位词，“躯干”是“骨头”的上位词。根据上下位的可传递性，可以推理得到：

由于“脊椎”可传递的最远路径长度为3，即l_max＝3，而“脊椎”到“椎”路径长度为1，则

类似地，

传递的路径越远，权重越小。

上述实施例描述了相似度矩阵的一种可能的生成过程，下面对在相似度矩阵中查找字词相似度的过程作进一步说明。

基于第一文本的第一目标要素词，确定相似度矩阵中与第一目标要素词对应的目标行；

基于第二文本的第二目标要素词，确定相似度矩阵中与第二目标要素词对应的目标列；

基于目标行与目标列在相似度矩阵中的交点，确定目标元素。其中，目标元素反映第一目标要素词到第二目标要素词的上下位关系。

可选地，基于第一文本中属于目标要素种类的各个目标要素词，确定相似度矩阵中与第一文本中属于目标要素种类的各个目标要素词对应的行；基于第二文本中属于目标要素种类的各个目标要素词，确定相似度矩阵中与第二文本中属于目标要素种类的各个目标要素词对应的列；构造一个数据选取矩阵，数据选取矩阵与上述相似度矩阵大小相同，数据选取矩阵中位于上述行列的交点的元素为1，其余元素为0；通过数据选取矩阵与相似度矩阵点乘，实现上述从相似度矩阵中查找获取第一目标要素词与第二目标要素词之间的字词相似度步骤。

步骤340，对各个字词相似度进行求和处理，得到字词相似度和。

上述求和处理包括将从相似度矩阵中查找到的相似度进行相加的处理。

步骤350，将字词相似度和与第二文本中属于目标要素种类的目标要素词的数量相除，得到目标要素种类上第一文本对第二文本的覆盖率。

步骤360，将字词相似度和与第一文本中属于目标要素种类的目标要素词的数量相除，得到目标要素种类上第二文本对第一文本的覆盖率。

步骤370，对于目标要素种类，将第一文本对第二文本的覆盖率，与第二文本对第一文本的覆盖率相乘，得到第一文本与第二文本在目标要素种类上的相似度。

这里通过列举一个例子对上述步骤340-370进行介绍说明，以便理解。对于目标要素种类i，若句子A出现了词v₁，v₅，句子B出现了词v₁₂，v₃₃，则句子A对句子B的覆盖率表示为CR_A，句子B对句子A的覆盖率表示为CR_B。CR_A、CR_B可通过如下公式计算：

其中，

表示句子A属于目标要素种类i的各个目标要素词的数量，

表示句子B属于目标要素种类i的各个目标要素词的数量，Size(H)可以理解为上一实施例中提及的要素种类的词集合的大小。

句子A和句子B在目标要素种类i上的相似度为s_i，s_i＝CR_A×CR_B。

步骤380，基于第一文本与第二文本在N个要素种类上的相似度，生成第一文本与第二文本之间的相似度向量。

相似度向量用于从N个要素种类的角度评估第一文本与第二文本之间的差异程度。可选地，根据上述公式，可以得到第一文本和第二文本关于每一种要素的差异程度，这里可通过向量衡量第一文本与第二文本在N个要素种类上的差异程度，相似度向量表示如下：

S＝[s₁，s₂，...，s_N]

其中，s₁表示第一文本与第二文本第1种要素上的差异程度，s₂表示第一文本与第二文本第2种要素上的差异程度，...，s_N表示第一文本与第二文本第N种要素上的差异程度。

根据上述的公式，可以得到不同文本关于每一种要素的差异程度，也就是获得了衡量N种要素差异程度的一个向量表示，这种方式能够衡量两个短文本关于医疗数据中的重要要素之间的差异，例如部位词，症状词，病原体，方位词等。而这些有特定的词语能够代表文本所蕴含的语义信息。

步骤390，将相似度向量与要素权重向量进行点乘处理，得到加权相似度值。

要素权重向量中包括反映N个要素种类各自的重要程度的权重值，加权相似度值用于从整体角度评估第一文本与第二文本之间的差异程度。

在示例性实施例中，要素权重向量可通过如下步骤生成：

1、获取第一文本与第二文本中属于目标要素种类的各个目标要素词的词权重值。

词权重值反映要素词在文本中的重要程度，也可理解为反映要素词在文本中的主导地位。例如“链球菌性肺炎”、“假单胞菌性肺炎”虽然均包含症状词“肺炎”，然而两者属于不同的疾病，因此“链球菌性”、“假单胞菌性”的重要程度高于“肺炎”，相应地，“链球菌性”、“假单胞菌性”的词权重值应高于“肺炎”的词权重值。

可选地，为了区别不同要素词之间的重要性，上述各个目标要素词的词权重值可通过如下方法实现：

获取第一文本与第二文本中属于目标要素种类的各个目标要素词的词频以及逆文本频率指数。

词频TF用于指示要素词在文本中出现次数，逆文本频率指数IDF用于度量要素词的普遍重要性。这里仍沿用上文提及的例子进行说明，句子A出现了词v₁，v₅，句子B出现了词v₁₂，v₃₃，那么v₁对应的词频可表示为TF₁，v₁对应的逆文本频率指数可表示为IDF₁。

基于词频以及逆文本频率指数，确定第一文本与第二文本中属于目标要素种类的各个目标要素词各自的词权重值。

可选地，将要素词的词频以及逆文本频率指数相乘，得到要素词的词权重值。例如，上述v₁的词权重值w₁＝TF₁×IDF₁。

2、基于词权重值，确定目标要素种类的要素权重值。

对各个词权重值进行求平均处理，得到目标要素种类的要素权重值。可选地，上述求平均处理包括加权平均处理。可选地，针对句子A出现词v₁，v₅，句子B出现词v₁₂，v₃₃的情况，可通过下式确定目标要素种类i的要素权重值x_i：

上述x_i仅是针对句子A出现词v₁，v₅，句子B出现词v₁₂，v₃₃的情况，同一要素种类在不同句子对中的要素权重值可以相同，也可以不同，具体取决于句子对中出现的属于该要素种类的要素词的词权重值。

3、基于N个要素种类各自的要素权重值，生成要素权重向量。

可选地，上述要素权重向量的一种数学表达为X＝[x₁，x₂，...，x_N]，其中X表示要素权重向量，x₁表示第1种要素的要素权重值，x₂表示第2种要素的要素权重值，...，x_N表示第N种要素的要素权重值。

可选地，根据上述公式，上述加权相似度值可由相似度向量S与要素权重向量X点乘得到，具体表示为s′＝S*X，其中s′表示加权相似度值。

可选地，确定第一文本与标准表达文本库中各标准表达文本之间的多个加权相似度；根据多个加权相似度中的最大相似度，输出与最大加权相似度对应的目标标准表达文本，目标标准表达文本作为待校正文本的校正结果。

在示例性实施例中，将加权相似度值添加至相似度向量中，通过比较不同文本对的相似度向量，输出上述目标标准表达文本作为待校正文本的校正结果。可选地，添加加权相似度值后的相似度向量可以表示为：

S＝[s₁，s₂，...，s_N，s′]

在示例性实施例中，还可将上述执行纠正处理的深度学习模型输出的一个参数添加至相似度向量中，具体参数可根据实际情况选取，本申请实施例对此不作限制。

在示例性实施例中，针对输出的校正结果建立修正机制(badcase处理机制)，通过标记或者添加单独的算法修正输出的错误校正结果，实现对标准化任务的优化，提升准确率，并且随着业务数据的积累本申请实施例提供的方法还能够持续提升性能，进一步提升准确率，适用范围广。

在示例性实施例中，本申请提供的技术方案可适用于多种标准化任务，包括但不限于疾病术语标准化、症状标准化、手术标准化等。同时还适用于多种标准规范，包括但不限于医保ICD-10规范、GBT-14396-2016规范、RC020-ICD-10规范、北京市住院病案首页疾病诊断名称与代码标准规范等。

综上所述，本申请实施例提供的技术方案，通过深度学习模型确定文本中的要素词，通过在构造好的相似度矩阵中查找不同文本中属于相同要素种类的要素词之间的相似度，进而通过计算不同文本之间相对覆盖率的方式，得到不同文本之间在各个要素种类上的相似度，再将不同文本之间在各个要素种类的重要程度量化为权重值，体现要素种类的主导地位，进一步提升了不同文本间相似度确定的准确性，提示相似度确定效率。

同样，仍以医疗领域为例，之前的短文本相似度评估方法是将短文本进行特征化为一列特征。然后将两个短文本相似度计算转换为了两列特征之间的相似度计算。而本申请基于医学要素挖掘模型，将短文本特征化为多列特征，相比于一列特征来说，本申请的技术方案建立了特征内部的内在联系，通过构建要素词结构树以及量化上下位关系，进而将特征从一个一维的线性空间提升到了二维的平面空间进行建模。

在典型的场景中，第一文本为待校正文本，第二文本为标准表达文本库中的标准表达文本。

在示例性实施例中，确定第一文本与第二文本之间的相似度之后，还包括：

确定第一文本与标准表达文本库中各标准表达文本之间的多个相似度。

可选地，确定第一文本与标准表达文本库中各标准表达文本之间的多个相似度之前，预先对各标准表达文本进行召回处理，得到召回后的标准表达文本。确定第一文本与召回后的标准表达文本之间的多个相似度。例如，通过文本间的编辑距离，预先过滤掉编辑距离低于阈值的标准表达文本，即相关度较低的标准表达文本。可选地，召回数量一般为50，本申请实施例对召回数量不作限制，可根据实际情况进行制定。可选地，基于第一文本所含要素种类，确定标准表达文本库中的第一标准表达文本。可选地，上述第一标准表达文本是包含第一文本所含要素种类的标准表达文本。可选地，上述第一标准表达文本是与第一文本所含要素种类相同的标准表达文本。此时，仅需确定第一文本与标准表达文本库中的第一标准表达文本之间的相似度，过滤一些与第一文本无关的标准表达文本，有效减少相似度确定的次数，提升效率。

可选地，在医疗领域中，第一文本为非标准的医学表达文本，此种情况下可通过第一文本的创建者所属科室，或者第一文本所描述的疾病种类，确定标准表达文本库中的第二标准表达文本，上述第二标准表达文本是与第一文本所属疾病种类或者所属科室相同的标准表达文本。此时，仅需确定第一文本与标准表达文本库中的第二标准表达文本之间的相似度，过滤一些与第一文本所属疾病种类不同的、或者所属科室不同的标准表达文本，有效减少相似度确定的次数，提升效率。

可选地，按照第一文本中所含的要素词，依次缩小待比较的第二文本的数量，减少计算量。例如，根据第一文本中包含的第一个要素词，从标准表达文本库中筛选出包含第一文本中第一个要素词的或者与第一文本中第一个要素词相近的标准表达文本，然后根据第一文本中包含的第二个要素词对上一次筛选的标准表达文本作进一步筛选，缩小需要进行比较的标准表达文本范围。

基于多个相似度，执行下游任务。下游任务包括但不限于标准化任务、数据统计任务、分类任务。可选地，执行下游任务包括如下几种实现方式：

方式一：根据多个相似度中的最大相似度，输出与最大相似度对应的目标标准表达文本，目标标准表达文本作为待校正文本的校正结果。

上述相似度是两个文本之间才可确定的，因此相似度与一个文本对具有对应关系，其中，文本对的一方固定为第一文本(待校正文本)，另一方为标准表达文本库中任一标准表达文本。在某一相似度为多个相似度中的最大值的情况下，该相似度为最大相似度，最大相似度对应的文本对中的标准表达文本为目标标准表达文本，即与第一文本最相似，或者也可以说是最匹配的标准表达文本。使用目标标准表达文本作为校正后的结果，在保证待校正文本的语义不变的同时，使用标准表达文本作为校正结果完成了标准化任务，规范了文本数据，便于后续统计分析。

在一个示例中，第一文本为普通医学表达文本，如医生在病历中对于患者病情的描述，第二文本为标准医学表达文本。此时，可通过比较普通医学表达文本与各个标准医学表达文本之间的相似度确定出最大相似度，进而输出与最大相似度对应的标准医学表达文本作为普通医学表达文本的校正结果，完成对于疾病描述的标准化任务，利于对医疗数据的统计分析。

方式二：根据多个相似度，对第一文本进行标记处理，得到标记后的第一文本；基于各标记后的第一文本，进行统计分析处理，得到统计结果。

上述标记处理包括对第一文本添加标签的处理，例如，依据一些医学标准对病案进行编码。可选地，将相似度最高的标准表达文本的编码标记至第一文本，得到标记后的第一文本。

上述统计分析处理是指对多个文本所代表的病例进行统计，根据统计结果反映医疗数据特性，例如，某种疾病的发病率等数据指标，也可便于医疗机构工作人员提升管理效率，例如提高医保核保效率。

在另一种典型场景中，第一文本为待分类文本集合中的任意一个待分类文本，第二文本为待分类文本集合中的任意一个待分类文本。

确定第一文本与第二文本之间的相似度之后，还包括：

确定待分类文本集合中两两文本之间的相似度。

基于待分类文本集合中两两文本之间的相似度，对待分类文本集合中的文本进行分类处理，得到分类结果。

上述分类处理是指将待分类文本集合中的类似文本划分为多个类别的过程，这里的类似文本即可指在文字内容上类似的文本，也可指在语义内容上类似的文本。

在第一文本与第二文本之间的相似度或者第一文本与第二文本在某个维度的相似度高于阈值的情况下，将第一文本与第二文本划分为一类，例如“链球菌性肺炎”、“假单胞菌性肺炎”均为描述肺炎的文本，此时可认定“肺炎”在文本中占据的主导地位高，便可将这两者划分为一类。

待分类文本集合经过分类之后，便于快速选取集合中的部分文本，例如，可以在分类结果中快速获取有关肺炎的医学表达文本。

本申请实施例在具体应用过程中，下游任务可根据本申请实施例提供的技术方案得到的相似度达到下游任务目的。因本申请一种可选的方式是用多维数值构建一个相似度向量来表达相似度，下游任务可根据其任务特点从多维数值中选取部分或者全部数据作为下游任务的参考数据指标。下游任务还可针对每个维度单独考虑其重要程度，并根据每个维度的重要程度确定每个维度的权重值，如果下游任务中存在一些规则，在这些规则中利用了部分维度上或者全部维度上的相似度数据，可依据其规则对用到的维度上的相似度进行加权相加，多方面综合评估相似度。例如，在医学领域中，如果疾病部位占主导地位，那么就可以把疾病部位对应维度的权重设置高一些。

从另外一种情况考虑，如果下游任务是基于深度学习模型的，因深度学习模型的中间形式就是向量形式，此时可直接利用上文实施例的相似度向量，方便快捷，数据可移植性强。

下述为本申请装置实施例，可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图4，其示出了本申请一个实施例提供的装置的框图。该装置具有实现上述方法的功能。该装置400可以包括：文本获取模块401、要素词确定模块402、字词相似度获取模块403、要素相似度确定模块404以及整体相似度确定模块405。

文本获取模块401，用于获取第一文本。

要素词确定模块402，用于确定所述第一文本中包含的要素词，所述要素词是指属于预定义的N个要素种类中的任一要素种类的字词，所述N为正整数。

字词相似度获取模块403，用于对于所述N个要素种类中的目标要素种类，获取所述第一文本中属于所述目标要素种类的各个目标要素词与第二文本中属于所述目标要素种类的各个目标要素词之间的字词相似度。

要素相似度确定模块404，用于基于所述字词相似度，确定所述第一文本与所述第二文本在所述目标要素种类上的相似度。

整体相似度确定模块405，用于基于所述第一文本与所述第二文本在所述N个要素种类上的相似度，确定所述第一文本与所述第二文本之间的相似度。

在示例性实施例中，所述字词相似度获取模块403用于：

对于所述第一文本中的第一目标要素词和所述第二文本中的第二目标要素词，从相似度矩阵中查找获取所述第一目标要素词与所述第二目标要素词之间的字词相似度；

其中，所述相似度矩阵中包括所述目标要素种类包含的各个目标要素词中两两之间的字词相似度。

在示例性实施例中，所述装置400还包括：词关系获取模块406、结构树构造模块407以及矩阵确定模块408。

词关系获取模块406，用于获取所述目标要素种类包含的各个要素词相互之间的上下位关系；

结构树构造模块407，用于基于所述上下位关系，构造所述目标要素种类的要素词结构树，所述目标要素种类包含的各个要素词分布在所述要素词结构树的各个节点上，所述要素词结构树包括具有父子关系的第一节点和第二节点，所述第一节点上的要素词是所述第二节点上的要素词的上位词，所述第二节点上的要素词是所述第一节点上的要素词的下位词；

矩阵确定模块408，用于基于所述要素词结构树中所述各个节点之间的位置关系，确定所述相似度矩阵，所述相似度矩阵中的元素反映所述元素所在行对应的要素词与所述元素所在列对应的要素词之间的字词相似度。

在示例性实施例中，所述矩阵确定模块408用于：

对所述目标要素种类i包含的n个要素词进行排序，得到所述n个要素词的排列次序，所述排列次序用于确定所述n个要素词在所述相似度矩阵中对应的行序或者列序，所述相似度矩阵为n×n的矩阵，所述i、所述n为正整数；

在所述第x行对应的要素词v_x与所述第y列对应的要素词v_y为同一要素词的情况下，确定位于所述相似度矩阵中第x行、第y列的元素

的值为1，所述x、y均为小于或者等于所述n的正整数；

在所述第x行对应的所述要素词v_x与所述第y列对应的所述要素词v_y之间为冲突关系的情况下，确定所述元素

的值为0，所述冲突关系是指不存在所述上下位关系的要素词之间的关系；

在所述第x行对应的要素词v_x与所述第y列对应的要素词v_y之间具有所述上下位关系的情况下，基于所述要素词v_x与所述要素词v_y在所述要素词结构树中的距离，确定所述元素

的值。

在示例性实施例中，要素相似度确定模块404用于：

对各个所述字词相似度进行求和处理，得到所述字词相似度和；

将所述字词相似度和与所述第二文本中属于所述目标要素种类的目标要素词的数量相除，得到所述目标要素种类上所述第一文本对所述第二文本的覆盖率；

将所述字词相似度和与所述第一文本中属于所述目标要素种类的目标要素词的数量相除，得到所述目标要素种类上所述第二文本对所述第一文本的覆盖率；

对于所述目标要素种类，将所述第一文本对所述第二文本的覆盖率，与所述第二文本对所述第一文本的覆盖率相乘，得到所述第一文本与所述第二文本在所述目标要素种类上的相似度。

在示例性实施例中，所述整体相似度确定模块405用于：

基于所述第一文本与所述第二文本在所述N个要素种类上的相似度，生成所述第一文本与所述第二文本之间的相似度向量，所述相似度向量用于从所述N个要素种类的角度评估所述第一文本与第二文本之间的差异程度；

将所述相似度向量与要素权重向量进行点乘处理，得到加权相似度值，所述要素权重向量中包括反映所述N个要素种类各自的重要程度的权重值，所述加权相似度值用于从整体角度评估所述第一文本与所述第二文本之间的差异程度。

在示例性实施例中，所述装置400还包括：词权重获取模块409、要素权重确定模块410以及权重生成模块411。

词权重获取模块409，用于获取所述第一文本与所述第二文本中属于所述目标要素种类的各个目标要素词的词权重值，所述词权重值反映要素词在文本中的重要程度；

要素权重确定模块410，用于基于所述词权重值，确定所述目标要素种类的要素权重值；

权重生成模块411，用于基于所述N个要素种类各自的要素权重值，生成所述要素权重向量。

在示例性实施例中，所述词权重获取模块409用于：

获取所述第一文本与所述第二文本中属于所述目标要素种类的各个目标要素词的词频以及逆文本频率指数，所述词频用于指示要素词在文本中出现次数，所述逆文本频率指数用于度量要素词的普遍重要性；

基于所述词频以及所述逆文本频率指数，确定所述第一文本与所述第二文本中属于所述目标要素种类的各个目标要素词各自的词权重值；

所述基于所述词权重值，确定所述目标要素种类的要素权重值，包括：

对各个词权重值进行求平均处理，得到所述目标要素种类的要素权重值。

在示例性实施例中，所述第一文本为待校正文本，所述第二文本为标准表达文本库中的标准表达文本；所述装置400还包括：文本输出模块412。

整体相似度确定模块405，还用于确定所述第一文本与所述标准表达文本库中各标准表达文本之间的多个相似度；

文本输出模块412，用于根据所述多个相似度中的最大相似度，输出与所述最大相似度对应的目标标准表达文本，所述目标标准表达文本作为所述待校正文本的校正结果。

在示例性实施例中，所述装置400还包括：纠正处理模块413。

纠正处理模块413，用于对所述第一文本进行纠正处理，得到纠正后的第一文本，所述纠正处理是指纠正所述第一文本中字词的处理。

要素词确定模块402，用于：

对所述纠正后的第一文本进行要素词识别处理，确定所述第一文本中包含的要素词。

在示例性实施例中，所述N个要素种类包括：症状、症状描述目标、身体部位、连接词、否定词、严重程度、情景词、位置词、描述症状特征的词、修饰词、时间词、疾病名称、药物、治疗。

另外，还通过深度学习模型确定文本中的要素词，通过在构造好的相似度矩阵中查找不同文本中属于相同要素种类的要素词之间的相似度，进而通过计算不同文本之间相对覆盖率的方式，得到不同文本之间在各个要素种类上的相似度，再将不同文本之间在各个要素种类的重要程度量化为权重值，体现要素种类的主导地位，进一步提升了不同文本间相似度确定的准确性，提示相似度确定效率。

请参考图6，其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以是图1所示文本确定系统中的服务器160，也可以是终端120，可用于执行上述实施例中提供的文本相似度确定方法。具体来讲：

计算机600包括中央处理单元(Central Processing Unit，CPU)601、包括随机存取存储器(Random Access Memory，RAM)602和只读存储器(Read Only Memory，ROM)603的系统存储器604，以及连接系统存储器604和中央处理单元601的系统总线605。可选地，计算机设备600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O(Input/Output)系统)606。可选地，计算机设备600还包括用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。

基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备607通过连接到系统总线605的大容量存储控制器(未示出)连接到中央处理单元601。大容量存储设备607及其相关联的计算机可读介质为计算机设备600提供非易失性存储。也就是说，大容量存储设备607可以包括诸如硬盘或者CD-ROM(CompactDisc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory，电可擦可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。

根据本申请的各种实施例，计算机设备600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备600可以通过连接在系统总线605上的网络接口单元611连接到网络612，或者说，也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括计算机程序，该计算机程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述文本相似度确定方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述文本相似度确定方法。

可选地，该计算机可读存储介质可以包括：ROM(Read Only Memory，只读存储器)、RAM(Random Access Memory，随机存取记忆体)、SSD(Solid State Drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory，动态随机存取存储器)。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述文本相似度确定方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本相似度确定方法，其特征在于，所述方法包括：

获取第一文本；

对于所述N个要素种类中的目标要素种类，获取所述目标要素种类包含的各个要素词相互之间的上下位关系；

基于所述上下位关系，构造所述目标要素种类的要素词结构树，所述目标要素种类包含的各个要素词分布在所述要素词结构树的各个节点上，所述要素词结构树包括具有父子关系的第一节点和第二节点，所述第一节点上的要素词是所述第二节点上的要素词的上位词，所述第二节点上的要素词是所述第一节点上的要素词的下位词；

基于所述要素词结构树中所述各个节点之间的位置关系，确定相似度矩阵，所述相似度矩阵中的元素反映所述元素所在行对应的要素词与所述元素所在列对应的要素词之间的字词相似度；

对于所述第一文本中的第一目标要素词和第二文本中的第二目标要素词，从所述相似度矩阵中查找获取所述第一目标要素词与所述第二目标要素词之间的字词相似度；其中，所述相似度矩阵中包括所述目标要素种类包含的各个目标要素词中两两之间的字词相似度；

基于所述第一文本中属于所述目标要素种类的各个目标要素词与所述第二文本中属于所述目标要素种类的各个目标要素词之间的字词相似度，确定所述第一文本与所述第二文本在所述目标要素种类上的相似度；

2.根据权利要求1所述的方法，其特征在于，所述基于所述要素词结构树中所述各个节点之间的位置关系，确定相似度矩阵，包括：

在第x行对应的要素词v_x与第y列对应的要素词v_y为同一要素词的情况下，确定位于所述相似度矩阵中第x行、第y列的元素

的值为1，所述x、y均为小于或者等于所述n的正整数；

的值。

3.根据权利要求1所述的方法，其特征在于，所述确定所述第一文本与所述第二文本在所述目标要素种类上的相似度，包括：

对所述第一文本中属于所述目标要素种类的各个目标要素词与所述第二文本中属于所述目标要素种类的各个目标要素词之间的字词相似度进行求和处理，得到字词相似度和；

4.根据权利要求1所述的方法，其特征在于，所述基于所述第一文本与所述第二文本在所述N个要素种类上的相似度，确定所述第一文本与第二文本之间的相似度，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述相似度向量与要素权重向量进行点乘处理之前，还包括：

获取所述第一文本与所述第二文本中属于所述目标要素种类的各个目标要素词的词权重值，所述词权重值反映要素词在文本中的重要程度；

基于所述词权重值，确定所述目标要素种类的要素权重值；

基于所述N个要素种类各自的要素权重值，生成所述要素权重向量。

6.根据权利要求5所述的方法，其特征在于，所述获取所述第一文本与所述第二文本中属于所述目标要素种类的各个目标要素词的词权重值，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述第一文本为待校正文本，所述第二文本为标准表达文本库中的标准表达文本；

所述确定所述第一文本与第二文本之间的相似度之后，还包括：

确定所述第一文本与所述标准表达文本库中各标准表达文本之间的多个相似度；

根据所述多个相似度中的最大相似度，输出与所述最大相似度对应的目标标准表达文本，所述目标标准表达文本作为所述待校正文本的校正结果。

8.根据权利要求1至6任一项所述的方法，其特征在于，所述获取第一文本之后，还包括：

对所述第一文本进行纠正处理，得到纠正后的第一文本，所述纠正处理是指纠正所述第一文本中字词的处理；

所述确定所述第一文本中包含的要素词，包括：

9.根据权利要求1至6任一项所述的方法，其特征在于，所述N个要素种类包括：症状、症状描述目标、身体部位、连接词、否定词、严重程度、情景词、位置词、描述症状特征的词、修饰词、时间词、疾病名称、药物、治疗。

10.一种文本相似度确定装置，其特征在于，所述装置包括：

文本获取模块，用于获取第一文本；

字词相似度获取模块，用于对于所述N个要素种类中的目标要素种类，获取所述目标要素种类包含的各个要素词相互之间的上下位关系；基于所述上下位关系，构造所述目标要素种类的要素词结构树，所述目标要素种类包含的各个要素词分布在所述要素词结构树的各个节点上，所述要素词结构树包括具有父子关系的第一节点和第二节点，所述第一节点上的要素词是所述第二节点上的要素词的上位词，所述第二节点上的要素词是所述第一节点上的要素词的下位词；基于所述要素词结构树中所述各个节点之间的位置关系，确定相似度矩阵，所述相似度矩阵中的元素反映所述元素所在行对应的要素词与所述元素所在列对应的要素词之间的字词相似度；对于所述第一文本中的第一目标要素词和第二文本中的第二目标要素词，从所述相似度矩阵中查找获取所述第一目标要素词与所述第二目标要素词之间的字词相似度；其中，所述相似度矩阵中包括所述目标要素种类包含的各个目标要素词中两两之间的字词相似度；

要素相似度确定模块，用于基于所述第一文本中属于所述目标要素种类的各个目标要素词与所述第二文本中属于所述目标要素种类的各个目标要素词之间的字词相似度，确定所述第一文本与所述第二文本在所述目标要素种类上的相似度；

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至9任一项所述的文本相似度确定方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至9任一项所述的文本相似度确定方法。