CN111553140A - 数据处理方法、数据处理设备及计算机存储介质 - Google Patents

数据处理方法、数据处理设备及计算机存储介质 Download PDF

Info

Publication number
CN111553140A
CN111553140A CN202010402612.9A CN202010402612A CN111553140A CN 111553140 A CN111553140 A CN 111553140A CN 202010402612 A CN202010402612 A CN 202010402612A CN 111553140 A CN111553140 A CN 111553140A
Authority
CN
China
Prior art keywords
similarity
text
training
calculation model
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010402612.9A
Other languages
English (en)
Other versions
CN111553140B (zh
Inventor
辛洪生
宁义双
宁可
张刚
勒孚刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kingdee Software China Co Ltd
Original Assignee
Kingdee Software China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kingdee Software China Co Ltd filed Critical Kingdee Software China Co Ltd
Priority to CN202010402612.9A priority Critical patent/CN111553140B/zh
Publication of CN111553140A publication Critical patent/CN111553140A/zh
Application granted granted Critical
Publication of CN111553140B publication Critical patent/CN111553140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Abstract

本申请实施例公开了一种数据处理方法、数据处理设备及计算机存储介质,用于解决单一的文本相似度算法难以准确地匹配到高相似度文本的问题。本申请实施例方法包括:第一训练样本和第二训练样本经过n种文本相似度算法计算得到n个第一初始相似度得分,获取标准相似度得分,将n个第一初始相似度得分作为相似度计算模型的变量的取值,并将标准相似度得分作为因变量的取值,对相似度计算模型进行训练,得到相似度计算模型的参数,从而变量、因变量及参数构成训练完成的相似度计算模型,该训练完成的相似度计算模型对多种文本相似度算法的计算结果与相似度得分的真实值进行了拟合,综合了多种文本相似度算法的优点,可以得到更准确的相似度得分。

Description

数据处理方法、数据处理设备及计算机存储介质
技术领域
本申请实施例涉及数据处理领域,具体涉及一种数据处理方法、数据处理设备及计算机存储介质。
背景技术
文本相似度计算是自然语言处理任务的基石,对后续的文本处理起着非常关键的作用。文本相似度一般指文本在语义上的相似程度,被广泛应用于自然语言处理任务的各个领域。例如,在机器翻译领域,文本相似度计算作为翻译精确度的评价规则;在搜索引擎领域,可用于衡量检索文本与被检索文本之间的相似程度;在机器人问答领域,通过文本相似度计算,可将提问者所提的问题与语料库中的问题进行匹配,得到语料库中相似问题的答案。
目前,根据文本相似度计算方法的特点,常用的文本相似度计算方法包括基于字面匹配的文本相似度算法以及基于语料库的文本相似度算法,其中,基于字面匹配的文本相似度算法有杰卡德Jaccard距离、最小编辑距离、最长公共子串等算法,基于语料库的文本相似度算法有词袋模型、神经网络等算法。
但是,基于字面匹配的文本相似度算法只是单纯从词形上考虑文本的相似度,认为“形似即义似”。该算法的优点是不依赖大量的训练语料来训练模型,并且计算迅速。但是因为语言的一词多义问题和语言的词序问题,导致这种算法在语义层面的表示上具有明显缺陷。
而基于语料库的文本相似度算法的缺点是其效果完全依赖于语料库,在语料较小的场景下泛化能力较差,得到的文本向量准确率不高;语料库的数据分布也决定了训练得到词向量的分布。
由于每一种文本相似度算法都存在缺点,因此,仅采用单一的文本相似度算法难以准确地匹配到相似度高的文本。
发明内容
本申请实施例提供了一种数据处理方法、数据处理设备及计算机存储介质,用于解决单一的文本相似度算法难以准确地匹配到高相似度文本的问题。
本申请实施例第一方面提供了一种数据处理方法,包括:
获取第一训练文本和第二训练文本,分别根据n种文本相似度算法中的每一种计算所述第一训练文本与所述第二训练文本之间的相似度,得到n个第一初始相似度得分,其中n为大于1的正整数;
获取所述第一训练文本与所述第二训练文本的标准相似度得分,所述标准相似度得分为人为评分;
构建相似度计算模型,所述相似度计算模型为因变量与n个变量的函数关系,所述变量为每一种所述文本相似度算法计算得到的文本相似度得分,所述因变量为所述相似度计算模型计算得到的文本相似度得分;
将每个所述第一初始相似度得分分别作为所述n个变量中一个变量的取值,并将所述标准相似度得分作为所述因变量的取值,对所述相似度计算模型进行训练,得到所述相似度计算模型的参数,所述参数用于拟合所述n个变量的取值以得到所述因变量的取值。
优选的,所述方法还包括:
获取第一测试文本和第二测试文本,分别根据所述n种文本相似度算法中的每一种计算所述第一测试文本与所述第二测试文本的相似度,得到n个第二初始相似度得分,所述第一测试文本为待识别的文本;
将所述n个第二初始相似度得分作为输入特征,输入到训练完成的所述相似度计算模型,计算得到所述第一测试文本和所述第二测试文本的第一真实相似度得分,其中,训练完成的所述相似度计算模型包括所述参数。
优选的,所述方法还包括:
获取第三测试文本,分别根据所述n种文本相似度算法中的每一种计算所述第一测试文本与所述第三测试文本的相似度,得到n个第三初始相似度得分;
将所述n个第三初始相似度得分作为输入特征,输入到训练完成的所述相似度计算模型,计算得到所述第一测试文本和所述第三测试文本的第二真实相似度得分;
将所述第一真实相似度得分与所述第二真实相似度得分进行排序,并确定相似度得分最高的测试文本为相同语义文本。
优选的,所述对所述相似度计算模型进行训练,包括:
使用XGBoost算法对所述相似度计算模型进行训练。
优选的,所述n种文本相似度算法包括基于字面匹配相似度计算方法、基于词汇语义相似度计算方法和基于句子语义相似度计算方法。
优选的,所述n种文本相似度算法包括最长公共子串、杰卡德Jaccard算法、编辑距离、文本长度差、word2vec平均词向量及Bert句向量。
本申请实施例第二方面提供了一种数据处理设备,包括:
计算单元,用于获取第一训练文本和第二训练文本,分别根据n种文本相似度算法中的每一种计算所述第一训练文本与所述第二训练文本之间的相似度,得到n个第一初始相似度得分,其中n为大于1的正整数;
获取单元,用于获取所述第一训练文本与所述第二训练文本的标准相似度得分,所述标准相似度得分为人为评分;
构建单元,用于构建相似度计算模型,所述相似度计算模型为因变量与n个变量的函数关系,所述变量为每一种所述文本相似度算法计算得到的文本相似度得分,所述因变量为所述相似度计算模型计算得到的文本相似度得分;
训练单元,用于将每个所述第一初始相似度得分分别作为所述n个变量中一个变量的取值,并将所述标准相似度得分作为所述因变量的取值,对所述相似度计算模型进行训练,得到所述相似度计算模型的参数,所述参数用于拟合所述n个变量的取值以得到所述因变量的值。
优选的,所述计算单元还用于获取第一测试文本和第二测试文本,分别根据所述n种文本相似度算法中的每一种计算所述第一测试文本与所述第二测试文本的相似度,得到n个第二初始相似度得分,所述第一测试文本为待识别的文本;
所述数据处理设备还包括:
测试单元,用于将所述n个第二初始相似度得分作为输入特征,输入到训练完成的所述相似度计算模型,计算得到所述第一测试文本和所述第二测试文本的第一真实相似度得分,其中,训练完成的所述相似度计算模型包括所述参数。
优选的,所述计算单元还用于获取第三测试文本,分别根据所述n种文本相似度算法中的每一种计算所述第一测试文本与所述第三测试文本的相似度,得到n个第三初始相似度得分;
所述测试单元还用于将所述n个第三初始相似度得分作为输入特征,输入到训练完成的所述相似度计算模型,计算得到所述第一测试文本和所述第三测试文本的第二真实相似度得分;
所述数据处理设备还包括:
排序单元,用于将所述第一真实相似度得分与所述第二真实相似度得分进行排序,并确定相似度得分最高的测试文本为相同语义文本。
优选的,所述训练单元具体用于使用XGBoost算法对所述相似度计算模型进行训练。
优选的,所述n种文本相似度算法包括基于字面匹配相似度计算方法、基于词汇语义相似度计算方法和基于句子语义相似度计算方法。
优选的,所述n种文本相似度算法为最长公共子串、杰卡德Jaccard算法、编辑距离、文本长度差、word2vec平均词向量及Bert句向量。
本申请实施例第三方面提供了一种数据处理设备,包括:
处理器、存储器、输入输出设备;
所述处理器与所述存储器、输入输出设备相连;
所述处理器用于获取第一训练文本和第二训练文本,分别根据n种文本相似度算法中的每一种计算所述第一训练文本与所述第二训练文本的相似度,得到n个第一初始相似度得分,其中n为大于1的正整数;
所述输入输出设备用于获取所述第一训练文本与所述第二训练文本的标准相似度得分,所述标准相似度得分为人为评分;
所述处理器还用于构建相似度计算模型,所述相似度计算模型为因变量与n个变量的函数关系,将每个所述第一初始相似度得分作为每个所述变量的取值,并将所述标准相似度得分作为所述因变量的取值,对所述相似度计算模型进行训练,得到所述相似度计算模型的参数。
本申请实施例第四方面提供了一种计算机存储介质,计算机存储介质中存储有指令,该指令在计算机上执行时,使得计算机执行前述第一方面的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,第一训练样本和第二训练样本经过n种文本相似度算法计算得到n个第一初始相似度得分,并且获取第一训练样本和第二训练样本人为评分而得到的标准相似度得分,将n个第一初始相似度得分作为相似度计算模型的变量的取值,并将标准相似度得分作为因变量的取值,对相似度计算模型进行训练,得到相似度计算模型的参数,从而变量、因变量及参数可以构成训练完成的相似度计算模型,该训练完成的相似度计算模型对多种文本相似度算法的计算结果与相似度得分的真实值进行了拟合,从而综合了多种文本相似度算法的优点,相比于仅采用单一的文本相似度算法,本申请实施例的相似度计算模型可以得到更准确的相似度得分。
附图说明
图1为本申请实施例中数据处理方法一个流程示意图;
图2为本申请实施例中数据处理方法另一流程示意图;
图3为本申请实施例中数据处理设备一个结构示意图;
图4为本申请实施例中数据处理设备另一结构示意图;
图5为本申请实施例中数据处理设备另一结构示意图。
具体实施方式
本申请实施例提供了一种数据处理方法、数据处理设备及计算机存储介质,用于解决单一的文本相似度算法难以准确地匹配到高相似度文本的问题。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,本申请实施例中数据处理方法一个实施例包括:
101、获取第一训练文本和第二训练文本,分别根据n种文本相似度算法中的每一种计算第一训练文本与第二训练文本之间的相似度,得到n个第一初始相似度得分;
本实施例的数据处理方法可应用于计算机设备等数据处理设备,其中计算机设备可以是服务器、终端等能够进行数据处理的设备。数据处理设备可以利用训练样本对机器学习模型进行训练,训练完成的机器学习模型可以用于执行多种自然语言处理任务,例如执行文本相似度计算等任务。
本实施例中,用于对机器学习模型进行训练的样本包括训练文本,因此,数据处理设备可获取第一训练文本及第二训练文本,并根据n种文本相似度算法中的每一种计算第一训练文本与第二训练文本的相似度,其中n为大于1的正整数,文本相似度算法为计算文本相似度的算法。因此,数据处理设备可以得到第一训练文本与第二训练文本的n个相似度得分。为便于区分和描述,本实施例将该相似度得分称为第一初始相似度得分。
本实施例中,文本的相似度是指文本的语义的相似度。同时,本实施例采用得分的分值来表征相似度高低,得分的分值越高,则相似度越高。
102、获取第一训练文本与第二训练文本的标准相似度得分;
本实施例的数据处理方法的原理在于,利用机器学习模型对第一训练文本与第二训练文本的相似度预测值和真实值进行拟合,通过拟合的方式得到预测值与真实值之间的函数关系,第一训练文本与第二训练文本的相似度预测值也就是步骤101所得到的n个第一初始相似度得分,因此,数据处理设备还需要获取第一训练文本与第二训练文本的相似度真实值。本实施例中,该真实值为人员对第一训练文本与第二训练文本的相似度进行人工打分而得,即专业领域人员根据自己的认知和学识对第一训练文本与第二训练文本进行识别以及进行相似度打分。
为便于区分和描述,本实施例将人员对第一训练文本与第二训练文本的相似度打分称为标准相似度得分。
在一个实施例中,第一训练文本和第二训练文本是问题对的形式,进行人工打分得到第一训练文本和第二训练文本之间的标准相似度得分。标准相似度得分的分值区域可以设定为0~1,越接近分值1的,表示文本的语义相似度越高,分值越小的,表示语义相似度越低。例如,若第一训练文本为“时间助手有哪些功能?”,第二训练文本为“时间助手怎么用?”,则人员对该第一训练文本和第二训练文本进行人工打分,可以得到标准相似度得分为0.83;若第一训练文本为“如何开具收入证明?”,第二训练文本为“我如何办理收入证明?”,则人工打分后可以得到标准相似度得分为0.96;若第一训练文本为“病假需要提交怎样的证明?”,第二训练文本为“婚假规定是什么样?”,则人工打分后可以得到标准相似度得分为0.13,表示该第一训练文本和第二训练文本的语义相似度较低。
103、构建相似度计算模型;
本实施例中,数据处理设备构建的相似度计算模型也就是机器学习模型,该相似度计算模型包括因变量与n个变量,其中因变量与n个变量具有一定的函数关系,该相似度计算模型的变量为每一种文本相似度算法计算得到的文本相似度得分,因变量为该相似度计算模型需要计算得到的文本相似度得分。
本实施例将在步骤104中计算出该函数关系。
104、将每个第一初始相似度得分分别作为n个变量中一个变量的取值,并将标准相似度得分作为因变量的取值,对相似度计算模型进行训练,得到相似度计算模型的参数;
为计算出因变量与n个变量之间明确的函数关系,本实施例中,将步骤101得到的每个第一初始相似度得分作为n个变量中一个变量的取值,也就是每个变量的取值为步骤101所得到的一个第一初始相似度得分,一个变量对应一个第一初始相似度得分,并将步骤102获取到的标准相似度得分作为因变量的取值,从而对相似度计算模型进行训练,也就是拟合出因变量与n个变量之间的函数关系。在拟合过程结束的时候,可得到相似度计算模型的参数,即函数关系的参数,该参数可以用于拟合相似度计算模型中n个变量的取值以得到因变量的值,即拟合n种文本相似度算法计算得到的n个文本相似度得分,进而得到该相似度计算模型需要计算得到的文本相似度得分。
因此,最终可以得到完整的相似度计算模型,该完整的相似度计算模型由n个变量、拟合得到的参数及对应的因变量构成。
因此,训练完成的相似度计算模型可以用于文本的相似度计算,通过向相似度计算模型输入文本相似度的预测值,即可输出文本相似度的真实值。其中,文本相似度的预测值可以通过步骤101所述的操作计算而得,由于该预测值为多种文本相似度算法计算得到的结果,因此,本实施例的相似度计算模型可以综合多种文本相似度算法的计算结果,并结合文本相似度的真实值来拟合出多种文本相似度算法的计算结果与真实值的函数关系,从而使相似度计算模型计算得到的结果更加准确。
下面将在前述图1所示实施例的基础上,进一步地详细描述本申请实施例。请参阅图2,本申请实施例中数据处理方法另一实施例包括:
201、获取第一训练文本和第二训练文本,分别根据n种文本相似度算法中的每一种计算第一训练文本与第二训练文本之间的相似度,得到n个第一初始相似度得分;
本步骤所执行的操作与前述图1所示实施例中的步骤101所执行的操作类似。本实施例中,n种文本相似度算法包括基于字面匹配相似度计算方法、基于词汇语义相似度计算方法和基于句子语义相似度计算方法。在一个实施例中,所述n种文本相似度算法为6种,具体为最长公共子串、杰卡德Jaccard算法、编辑距离、文本长度差、word2vec平均词向量及和Bert句向量相似度计算方法。其中,基于字面匹配的文本相似度算法可以是最长公共子串、杰卡德Jaccard算法和编辑距离相似度计算方法,基于词汇语义相似度计算方法可以是word2vec平均词向量相似度计算方法,基于句子语义相似度计算方法可以是Bert句向量相似度计算方法。
上述提及的最长公共子串、杰卡德Jaccard算法、编辑距离、文本长度差、word2vec平均词向量及Bert句向量这6种具体的文本相似度算法各有优点。其中,最长公共子串算法、杰卡德Jaccard算法、编辑距离算法等基于字面匹配的文本相似度算法单纯从词形上考虑文本的相似度,认为“形似即义似”,该类型算法的优点是不依赖大量的训练语料训练模型,并且计算迅速。word2vec平均词算法和Bert句向量算法属于语义相似度算法,word2vec平均词向量算法对短文本例如词汇的语义相似度计算效果更好;Bert句向量算法对长文本例如句子的语义相似度计算效果要好一些,通过最新的预训练语言模型计算句子向量,能够更好的捕获语义特征。本发明实施例综合了这6种文本相似度算法的优点,从而使本发明相似度计算模型计算得到的结果更加准确。
若采用上述提及的6种具体的文本相似度算法,则分别根据上述6种文本相似度算法中的每一种计算第一训练文本与第二训练文本的相似度,可以得到6个第一初始相似度得分,这里可以记为x1、x2、x3、x4、x5、x6
在实际应用中,还可以利用更多的文本相似度算法来计算文本的相似度得分。本实施例对文本相似度算法的种类数量不作限定。
202、获取第一训练文本与第二训练文本的标准相似度得分;
本步骤所执行的操作与前述图1所示实施例中的步骤101所执行的操作类似。本实施例中,可以将人员对第一训练文本与第二训练文本的相似度打分作为第一训练文本与第二训练文本相似度的真实值。该人员可以是文本所处领域内的专业人员。例如,在企业办公场景中,可能会有多种业务处理情形,如出差申请、流程审批、企业经营数据查询和费用报销等等,在上述情形下,对于“如何开具收入证明?”及“我如何办理收入证明?”这两个文本,可以由企业的行政人员或者财务人员等专业人员对多种文本之间的相似度进行人工的识别和打分。由专业人员进行文本相似度的打分,可以使文本的相似度真实值更加准确。
例如可以设置5名专业人员对文本相似度进行打分,设置评分标准为0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1这10种分值,分值越高,表示文本相似度越高,同时最终的相似度得分取5名专业人员所打分值的平均值。
本步骤获取到的第一训练文本与第二训练文本的标准相似度得分可以记为Y。
203、构建相似度计算模型;
本步骤所执行的操作与前述图1所示实施例中的步骤103所执行的操作类似,此处不再赘述。
204、将每个第一初始相似度得分作为每个变量的取值,并将标准相似度得分作为因变量的取值,对相似度计算模型进行训练,得到相似度计算模型的参数;
本实施例中,可以使用极端梯度提升算法(extreme gradient boosting,XGBoost)来对相似度计算模型进行训练,拟合相似度计算模型中因变量与n个变量的函数关系。
其中,利用XGBoost算法训练相似度计算模型,是依托了Scikit-learn第三方模块来训练。Scikit-learn是python语言提供的用于进行数据分析的库,该库所面向的应用领域为机器学习。
可以理解的是,依托Scikit-learn第三方模块来训练相似度计算模型仅为举例说明,在实际应用中,还可以使用其他开源boosted tree工具包来协助训练相似度计算模型,本实施例对此不作限定。
利用XGBoost算法训练相似度计算模型的过程是,XGBoost算法通过构造一棵棵决策树来拟合残差,并且XGBoost算法在损失函数中添加了正则化项,使得XGBoost算法具有防止过拟合的能力。XGBoost算法的具体公式如下:
Figure BDA0002490073620000071
其中,
Figure BDA0002490073620000072
代表第i条样本的预测值,ft代表第t颗CART树。T为超参,这里设置XGBoost算法迭代100轮,意味着要生成100棵分类与回归树(classification and regressiontrees,CART),则预测值为每棵树的和。因此,超参T的数值设置为100。
本实施例中,超参T的数值可根据经验及实际情况进行任意地设置,具体的数值不作限定。
此外,ft(xi),表示的是第t棵残差树对的第t轮残差的预测值,其中,xi的取值分别为步骤201所得到的6个第一初始相似度得分x1、x2、x3、x4、x5、x6
假如,yt表示t棵CART残差树的和,也就是最终的预测值,y表示x的真实标签,那么第t+1棵树的训练数据就是(x,y-yt)。
同时,本实施例定义XGBoost算法的目标函数如下:
Figure BDA0002490073620000073
其中n代表样本数量,t代表CART残差树的数量,本实施例在实际应用中设置为100。
Figure BDA0002490073620000081
代表的是误差函数,Ω(ft)代表的是正则化项,用于解决过拟合问题。
除了设置CART树的数量,本实施例还设置XGBoost算法中CART树的最大深度为3,可避免树的深度过小而导致模型拟合能力欠佳,从而导致最后的预测效果较差。同时,还可以防止CART树的深度过高出现过拟合现象。
通过XGBoost算法对相似度计算模型进行训练,可以计算得到相似度计算模型的参数,从而拟合出相似度计算模型中因变量与n个变量明确的函数关系,根据该明确的函数关系可以计算出任意多个文本之间的相似度得分。
需要说明的是,本实施例使用机器学习算法对相似度计算模型进行训练,拟合出因变量与n个变量的函数关系,该机器学习算法除了上述的XGBoost算法,还可以采用线性回归算法、逻辑回归算法、朴素贝叶斯算法、k-近邻算法(K-Nearest Neighbors,KNN)、随机森林算法(Random Forest)等多种机器学习算法来拟合因变量与n个变量之间的函数关系。本实施例对机器学习算法的种类不作限定。
205、获取第一测试文本和第二测试文本,分别根据n种文本相似度算法中的每一种计算第一测试文本与第二测试文本的相似度,得到n个第二初始相似度得分;
相似度计算模型训练完成之后,该训练完成的模型可以用于测试多个文本之间的语义相似度。本实施例中,将测试的多个文本称为第一测试文本和第二测试文本,第一测试文本可以是待识别的文本,第二测试文本可以是标准文本,标准文本也就是用于匹配待识别文本的文本,待识别文本与标准文本的相似度得分越高,两者的匹配程度越高,表明两者的语义越相近。
训练完成的相似度计算模型可以计算第一测试文本和第二测试文本之间的相似度真实值。在这之前,需要分别根据步骤201中所提到的n种文本相似度算法中的每一种计算第一测试文本与第二测试文本的相似度得分,从而可以得到n个第二初始相似度得分。为便于区分,本实施例将第一测试文本与第二测试文本根据n种文本相似度算法计算得到的相似度得分称为第二初始相似度得分。
在一个实施例中,步骤201中计算第一训练样本与第二训练样本的第一初始相似度得分的文本相似度算法为最长公共子串、杰卡德Jaccard算法、编辑距离、文本长度差、word2vec平均词向量及Bert句向量,则在本步骤中,同样采用上述的6种文本相似度算法中的每一种来计算第一测试样本与第二测试样本的第二初始相似度得分,从而得到6个第二初始相似度得分。
206、将n个第二初始相似度得分作为输入特征,输入到训练完成的相似度计算模型,计算得到第一测试文本和第二测试文本的第一真实相似度得分;
在得到第一测试样本与第二测试样本的n个第二初始相似度得分之后,将该n个第二初始相似度得分作为输入特征,输入到步骤204训练完成的相似度计算模型,也就是将每个第二初始相似度得分作为相似度计算模型中的变量的取值,利用相似度计算模型中n个变量与因变量之间明确的函数关系计算得到第一测试文本和第二测试文本的第一真实相似度得分。
因此,通过步骤205至206,可以计算出文本之间的真实相似度得分,该真实相似度得分能够真实准确地反映文本之间的语义相似度。
207、获取第三测试文本,分别根据n种文本相似度算法中的每一种计算第一测试文本与第三测试文本的相似度,得到n个第三初始相似度得分;
208、将n个第三初始相似度得分作为输入特征,输入到训练完成的相似度计算模型,计算得到第一测试文本和第三测试文本的第二真实相似度得分;
在实际应用中,可能需要分别计算待识别文本与每一个标准文本的相似度得分,并比较多个相似度得分的分值高低,以便于取相似度最高的一个标准文本。例如,标准文本可以有“申请病假需要提交哪些证明?”、“婚假规定是怎样的?”、“时间助手有哪些功能”等多种文本,而待识别文本为“病假需要提交怎样的证明?”。此时,需要分别计算待识别文本与上述每一个标准文本的相似度得分,从而找到能够匹配待识别文本的标准文本。
因此,本实施例中,待识别文本为第一测试文本,标准文本有多个,分别为第二测试文本和第三测试文本,此时,在计算得到第一测试文本和第二测试文本的第一真实相似度得分之后,还需要计算第一测试文本和第三测试文本的第二真实相似度得分。步骤207至208为该第二真实相似度得分的计算过程,第二真实相似度得分的计算过程与前述步骤205至206中第一真实相似度得分的计算过程类似,此处不再赘述。
209、将第一真实相似度得分与第二真实相似度得分进行排序,并确定相似度得分最高的测试文本为相同语义文本;
在得到第一真实相似度得分和第二真实相似度得分之后,可以对第一真实相似度得分与第二真实相似度得分进行排序,将排序最高、相似度得分最高的测试文本作为相同语义文本,从而得到可以匹配待识别文本的标准文本。
本实施例中,第一训练文本及第二训练文本、第一测试文本及第二测试文本、第三测试文本的个数可以是一个或者多个,具体此处不作限定。
本实施例中,数据处理设备可以使用XGBoost算法等多种机器学习算法来训练相似度计算模型,提高了方案的可实现性。
上面对本申请实施例中的数据处理方法进行了描述,下面对本申请实施例中的数据处理设备进行描述,请参阅图3,本申请实施例中数据处理设备一个实施例包括:
计算单元301,用于获取第一训练文本和第二训练文本,分别根据n种文本相似度算法中的每一种计算第一训练文本与第二训练文本之间的相似度,得到n个第一初始相似度得分,其中n为大于1的正整数;
获取单元302,用于获取第一训练文本与第二训练文本的标准相似度得分,标准相似度得分为人为评分;
构建单元303,用于构建相似度计算模型,相似度计算模型为因变量与n个变量的函数关系,变量为每一种文本相似度算法计算得到的文本相似度得分,因变量为相似度计算模型计算得到的文本相似度得分;
训练单元304,用于将每个第一初始相似度得分分别作为n个变量中一个变量的取值,并将标准相似度得分作为因变量的取值,对相似度计算模型进行训练,得到相似度计算模型的参数,参数用于拟合n个变量的取值以得到因变量的值。
本实施例中,数据处理设备中各单元所执行的操作与前述图1所示实施例中描述的类似,此处不再赘述。
本实施例中,第一训练样本和第二训练样本经过n种文本相似度算法计算得到n个第一初始相似度得分,并且获取单元302获取第一训练样本和第二训练样本人为评分而得到的标准相似度得分,训练单元304将n个第一初始相似度得分作为相似度计算模型的变量的取值,并将标准相似度得分作为因变量的取值,对相似度计算模型进行训练,得到相似度计算模型的参数,从而变量、因变量及参数可以构成训练完成的相似度计算模型,该训练完成的相似度计算模型对多种文本相似度算法的计算结果与相似度得分的真实值进行了拟合,从而综合了多种文本相似度算法的优点,相比于仅采用单一的文本相似度算法,本实施例的相似度计算模型可以得到更准确的相似度得分。
请参阅图4,本申请实施例中数据处理设备另一实施例包括:
计算单元401,用于获取第一训练文本和第二训练文本,分别根据n种文本相似度算法中的每一种计算第一训练文本与第二训练文本之间的相似度,得到n个第一初始相似度得分,其中n为大于1的正整数;
获取单元402,用于获取第一训练文本与第二训练文本的标准相似度得分,标准相似度得分为人为评分;
构建单元403,用于构建相似度计算模型,相似度计算模型为因变量与n个变量的函数关系,变量为每一种文本相似度算法计算得到的文本相似度得分,因变量为相似度计算模型计算得到的文本相似度得分;
训练单元404,用于将每个第一初始相似度分别得分作为n个变量中一个变量的取值,并将标准相似度得分作为因变量的取值,对相似度计算模型进行训练,得到相似度计算模型的参数,参数用于拟合n个变量的取值以得到因变量的值。
本实施例的一种优选实施方式中,计算单元401还用于获取第一测试文本和第二测试文本,分别根据n种文本相似度算法中的每一种计算第一测试文本与第二测试文本的相似度,得到n个第二初始相似度得分,第一测试文本为待识别的文本;
数据处理设备还包括:
测试单元405,用于将n个第二初始相似度得分作为输入特征,输入到训练完成的相似度计算模型,计算得到第一测试文本和第二测试文本的第一真实相似度得分,其中,训练完成的相似度计算模型包括参数。
本实施例另一种优选实施方式中,计算单元401还用于获取第三测试文本,分别根据n种文本相似度算法中的每一种计算第一测试文本与第三测试文本的相似度,得到n个第三初始相似度得分;
测试单元405还用于将n个第三初始相似度得分作为输入特征,输入到训练完成的相似度计算模型,计算得到第一测试文本和第三测试文本的第二真实相似度得分;
数据处理设备还包括:
排序单元406,用于将第一真实相似度得分与第二真实相似度得分进行排序,并确定相似度得分最高的测试文本为相同语义文本。
本实施例另一种优选实施方式中,训练单元404具体用于使用XGBoost算法对相似度计算模型进行训练。
本实施例中,n种文本相似度算法包括基于字面匹配相似度计算方法、基于词汇语义相似度计算方法和基于句子语义相似度计算方法。
其中,n种文本相似度算法包括最长公共子串、杰卡德Jaccard算法、编辑距离、文本长度差、word2vec平均词向量及Bert句向量。
本实施例中,数据处理设备中各单元所执行的操作与前述图2所示实施例中描述的类似,此处不再赘述。
下面对本申请实施例中的数据处理设备进行描述,请参阅图5,本申请实施例中数据处理设备一个实施例包括:
该数据处理设备500可以包括一个或一个以上中央处理器(central processingunits,CPU)501和存储器505,该存储器505中存储有一个或一个以上的应用程序或数据。
其中,存储器505可以是易失性存储或持久存储。存储在存储器505的程序可以包括一个或一个以上模块,每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地,中央处理器501可以设置为与存储器505通信,在数据处理设备500上执行存储器505中的一系列指令操作。
数据处理设备500还可以包括一个或一个以上电源502,一个或一个以上有线或无线网络接口503,一个或一个以上输入输出接口504,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
该中央处理器501可以执行前述图1至图2所示实施例中数据处理设备所执行的操作,具体此处不再赘述。
本申请实施例还提供了一种计算机存储介质,其中一个实施例包括:该计算机存储介质中存储有指令,该指令在计算机上执行时,使得该计算机执行前述图1至图2所示实施例中数据处理设备所执行的操作。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取第一训练文本和第二训练文本,分别根据n种文本相似度算法中的每一种计算所述第一训练文本与所述第二训练文本之间的相似度,得到n个第一初始相似度得分,其中n为大于1的正整数;
获取所述第一训练文本与所述第二训练文本的标准相似度得分,所述标准相似度得分为人为评分;
构建相似度计算模型,所述相似度计算模型为因变量与n个变量的函数关系,所述变量为每一种所述文本相似度算法计算得到的文本相似度得分,所述因变量为所述相似度计算模型计算得到的文本相似度得分;
将每个所述第一初始相似度得分分别作为所述n个变量中一个变量的取值,并将所述标准相似度得分作为所述因变量的取值,对所述相似度计算模型进行训练,得到所述相似度计算模型的参数,所述参数用于拟合所述n个变量的取值以得到所述因变量的值。
2.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
获取第一测试文本和第二测试文本,分别根据所述n种文本相似度算法中的每一种计算所述第一测试文本与所述第二测试文本的相似度,得到n个第二初始相似度得分,所述第一测试文本为待识别的文本;
将所述n个第二初始相似度得分作为输入特征,输入到训练完成的所述相似度计算模型,计算得到所述第一测试文本和所述第二测试文本的第一真实相似度得分,其中,训练完成的所述相似度计算模型包括所述参数。
3.根据权利要求2所述的数据处理方法,其特征在于,所述方法还包括:
获取第三测试文本,分别根据所述n种文本相似度算法中的每一种计算所述第一测试文本与所述第三测试文本的相似度,得到n个第三初始相似度得分;
将所述n个第三初始相似度得分作为输入特征,输入到训练完成的所述相似度计算模型,计算得到所述第一测试文本和所述第三测试文本的第二真实相似度得分;
将所述第一真实相似度得分与所述第二真实相似度得分进行排序,并确定相似度得分最高的测试文本为相同语义文本。
4.根据权利要求1所述的数据处理方法,其特征在于,所述对所述相似度计算模型进行训练,包括:
使用XGBoost算法对所述相似度计算模型进行训练。
5.根据权利要求1所述的数据处理方法,其特征在于,所述n种文本相似度算法包括基于字面匹配相似度计算方法、基于词汇语义相似度计算方法和基于句子语义相似度计算方法。
6.根据权利要求5所述的数据处理方法,其特征在于,所述n种文本相似度算法为最长公共子串、杰卡德Jaccard算法、编辑距离、文本长度差、word2vec平均词向量和Bert句向量相似度计算方法。
7.一种数据处理设备,其特征在于,包括:
计算单元,用于获取第一训练文本和第二训练文本,分别根据n种文本相似度算法中的每一种计算所述第一训练文本与所述第二训练文本之间的相似度,得到n个第一初始相似度得分,其中n为大于1的正整数;
获取单元,用于获取所述第一训练文本与所述第二训练文本的标准相似度得分,所述标准相似度得分为人为评分;
构建单元,用于构建相似度计算模型,所述相似度计算模型为因变量与n个变量的函数关系,所述变量为每一种所述文本相似度算法计算得到的文本相似度得分,所述因变量为所述相似度计算模型计算得到的文本相似度得分;
训练单元,用于将每个所述第一初始相似度得分分别作为所述n个变量中一个变量的取值,并将所述标准相似度得分作为所述因变量的取值,对所述相似度计算模型进行训练,得到所述相似度计算模型的参数,所述参数用于拟合所述n个变量的取值以得到所述因变量的值。
8.根据权利要求7所述的数据处理设备,其特征在于,所述计算单元还用于获取第一测试文本和第二测试文本,分别根据所述n种文本相似度算法中的每一种计算所述第一测试文本与所述第二测试文本的相似度,得到n个第二初始相似度得分,所述第一测试文本为待识别的文本;
所述数据处理设备还包括:
测试单元,用于将所述n个第二初始相似度得分作为输入特征,输入到训练完成的所述相似度计算模型,计算得到所述第一测试文本和所述第二测试文本的第一真实相似度得分,其中,训练完成的所述相似度计算模型包括所述参数。
9.一种数据处理设备,其特征在于,包括:
处理器、存储器、输入输出设备;
所述处理器与所述存储器、输入输出设备相连;
所述处理器用于获取第一训练文本和第二训练文本,分别根据n种文本相似度算法中的每一种计算所述第一训练文本与所述第二训练文本的相似度,得到n个第一初始相似度得分,其中n为大于1的正整数;
所述输入输出设备用于获取所述第一训练文本与所述第二训练文本的标准相似度得分,所述标准相似度得分为人为评分;
所述处理器还用于构建相似度计算模型,所述相似度计算模型为因变量与n个变量的函数关系,将每个所述第一初始相似度得分作为每个所述变量的取值,并将所述标准相似度得分作为所述因变量的取值,对所述相似度计算模型进行训练,得到所述相似度计算模型的参数。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有指令,所述指令在计算机上执行时,使得所述计算机执行如权利要求1至6中任一项所述的方法。
CN202010402612.9A 2020-05-13 2020-05-13 数据处理方法、数据处理设备及计算机存储介质 Active CN111553140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010402612.9A CN111553140B (zh) 2020-05-13 2020-05-13 数据处理方法、数据处理设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010402612.9A CN111553140B (zh) 2020-05-13 2020-05-13 数据处理方法、数据处理设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN111553140A true CN111553140A (zh) 2020-08-18
CN111553140B CN111553140B (zh) 2024-03-19

Family

ID=72006320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010402612.9A Active CN111553140B (zh) 2020-05-13 2020-05-13 数据处理方法、数据处理设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN111553140B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914179A (zh) * 2020-08-19 2020-11-10 腾讯科技(深圳)有限公司 基于语义的模糊搜索方法和装置、存储介质及电子设备
CN112016295A (zh) * 2020-09-04 2020-12-01 平安科技(深圳)有限公司 症状数据处理方法、装置、计算机设备及存储介质
CN112507182A (zh) * 2020-12-17 2021-03-16 上海连尚网络科技有限公司 应用程序的筛选方法和设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质
CN108877839A (zh) * 2018-08-02 2018-11-23 南京华苏科技有限公司 基于语音语义识别技术的语音质量感知评估的方法及系统
US20190228320A1 (en) * 2018-01-25 2019-07-25 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, system and terminal for normalizing entities in a knowledge base, and computer readable storage medium
CN110134925A (zh) * 2019-05-15 2019-08-16 北京信息科技大学 一种中文专利文本相似度计算方法
CN110532400A (zh) * 2019-09-04 2019-12-03 江苏苏宁银行股份有限公司 基于文本分类预测的知识库维护方法及装置
CN110597949A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种基于词向量和词频的法院相似案件推荐模型
CN111026840A (zh) * 2019-11-26 2020-04-17 腾讯科技(深圳)有限公司 文本处理方法、装置、服务器和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190228320A1 (en) * 2018-01-25 2019-07-25 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, system and terminal for normalizing entities in a knowledge base, and computer readable storage medium
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质
CN108877839A (zh) * 2018-08-02 2018-11-23 南京华苏科技有限公司 基于语音语义识别技术的语音质量感知评估的方法及系统
CN110134925A (zh) * 2019-05-15 2019-08-16 北京信息科技大学 一种中文专利文本相似度计算方法
CN110597949A (zh) * 2019-08-01 2019-12-20 湖北工业大学 一种基于词向量和词频的法院相似案件推荐模型
CN110532400A (zh) * 2019-09-04 2019-12-03 江苏苏宁银行股份有限公司 基于文本分类预测的知识库维护方法及装置
CN111026840A (zh) * 2019-11-26 2020-04-17 腾讯科技(深圳)有限公司 文本处理方法、装置、服务器和存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914179A (zh) * 2020-08-19 2020-11-10 腾讯科技(深圳)有限公司 基于语义的模糊搜索方法和装置、存储介质及电子设备
CN111914179B (zh) * 2020-08-19 2021-09-28 腾讯科技(深圳)有限公司 基于语义的模糊搜索方法和装置、存储介质及电子设备
CN112016295A (zh) * 2020-09-04 2020-12-01 平安科技(深圳)有限公司 症状数据处理方法、装置、计算机设备及存储介质
CN112016295B (zh) * 2020-09-04 2024-02-23 平安科技(深圳)有限公司 症状数据处理方法、装置、计算机设备及存储介质
CN112507182A (zh) * 2020-12-17 2021-03-16 上海连尚网络科技有限公司 应用程序的筛选方法和设备

Also Published As

Publication number Publication date
CN111553140B (zh) 2024-03-19

Similar Documents

Publication Publication Date Title
CN110765257B (zh) 一种知识图谱驱动型的法律智能咨询系统
US20210034813A1 (en) Neural network model with evidence extraction
CN111401066B (zh) 基于人工智能的词分类模型训练方法、词处理方法及装置
CN111708873A (zh) 智能问答方法、装置、计算机设备和存储介质
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN111553140B (zh) 数据处理方法、数据处理设备及计算机存储介质
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN112541056A (zh) 医学术语标准化方法、装置、电子设备及存储介质
CN111339292A (zh) 文本分类网络的训练方法、系统、设备及存储介质
CN115357719A (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN113821527A (zh) 哈希码的生成方法、装置、计算机设备及存储介质
CN113722507B (zh) 基于知识图谱的住院费用预测方法、装置及计算机设备
Schicchi et al. Machine learning models for measuring syntax complexity of english text
Aydoğdu A new student modeling technique with convolutional neural networks: Learnerprints
Kim et al. Can Current Explainability Help Provide References in Clinical Notes to Support Humans Annotate Medical Codes?
CN111783473B (zh) 医疗问答中最佳答案的识别方法、装置和计算机设备
CN115934948A (zh) 一种基于知识增强的药物实体关系联合抽取方法及系统
CN113468311B (zh) 一种基于知识图谱的复杂问句问答方法、装置及存储介质
CN114417863A (zh) 词权重生成模型训练方法及装置、词权重生成方法及装置
CN114582449A (zh) 基于XLNet-BiGRU-CRF模型的电子病历命名实体标准化方法和系统
Jeong et al. Label and context augmentation for response selection at DSTC8
CN114647717A (zh) 一种智能问答方法及装置
Alwaneen et al. Stacked dynamic memory-coattention network for answering why-questions in Arabic
CN113064887B (zh) 数据管理方法、装置、设备及存储介质
Liu et al. Automatic Acceptance Prediction for Answers in Online Healthcare Community

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant