CN110516240B - 一种基于Transformer的语义相似度计算模型DSSM技术 - Google Patents
一种基于Transformer的语义相似度计算模型DSSM技术 Download PDFInfo
- Publication number
- CN110516240B CN110516240B CN201910788264.0A CN201910788264A CN110516240B CN 110516240 B CN110516240 B CN 110516240B CN 201910788264 A CN201910788264 A CN 201910788264A CN 110516240 B CN110516240 B CN 110516240B
- Authority
- CN
- China
- Prior art keywords
- page
- app
- similarity calculation
- transformer
- semantic similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于Transformer的语义相似度计算模型DSSM技术,包括输入层、表示层和匹配层,输入层用于将图谱节点名称和APP页面文字分别转为由字向量表示的二维数组,并将其作为表示层的输入,表示层是采用Transformer的编码器部分,首先分别对由输入层输出的节点名称特征向量和APP页面文字特征向量进行编码,从而提取出句子中每个单词的更抽象特征,本发明涉及自然语言处理技术领域。该基于Transformer的语义相似度计算模型DSSM技术,与人为修改图谱节点内容需要消耗大量时间和精力不同,基于Transformer的语义相似度计算模型DSSM技术在测试图谱应用中,能够代替人工修改图谱名称,实现针对新APP内容进行自动匹配的功能,提高APP的测试效率,减少人为的大量冗余操作。
Description
技术领域
本发明涉及自然语言处理技术领域,具体为一种基于Transformer的语义相似度计算模型DSSM技术。
背景技术
在信息化和自动化高度发达的今天,在具有大量冗余操作的领域,可以通过使用计算机来代替人工完成这些重复操作,从而提高工作速度和效率,在APP测试领域,针对某款APP,一般需要通过人工的方法去对该APP的每个可执行的操作流程进行构建,最终形成一个APP的可执行操作流程图,整个流程图被称为该APP的一个测试图谱,图中每一个节点代表对APP的一次操作,每一条边则表示从一个操作到下一操作的转移路径,每一条路径代表一个完整的可执行流程。
在已有某一APP测试图谱的基础上,当一个新的具有相似功能的APP到来后,由于原有图谱中节点名称与新APP操作名称不同,但却有相同的执行流程,此时需要人工针对新APP去修改已有测试图谱节点名称,或新生成一个图谱,从而浪费大量的资源,并且修改图谱的过程中,会产生大量的冗余操作,针对这些冗余操作,这就需要研究出一种更加快速,更加有效率的对已有测试图谱和新APP内容的自动匹配方法。
在NLP领域的其他应用场景中,同样需要使用到语义相似度计算技术,用于计算两段短文之间的相似性,在信息检索应用中,需要根据用户输入的信息,在已有文本数据中匹配到与用户输入信息最相近的文本内容;在智能问题领域中,需要根据用户所提问题,匹配到与该问题最相近的答案内容,这些方法都需要估计一份文本与提问问题之间的关联度。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于Transformer的语义相似度计算模型DSSM技术,用于代替人工修改图谱节点内容,并生成与新APP对应图谱的方法,语义相似度计算模型根据图谱节点名称到新APP页面匹配找到与该操作节点对应的位置,然后执行相应脚本操作,最终生成与新APP相匹配的测试图谱。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:一种基于Transformer的语义相似度计算模型DSSM技术,包括输入层、表示层和匹配层,所述输入层用于将图谱节点名称和APP页面文字分别转为由字向量(word2vec)表示的二维数组,并将其作为表示层的输入。
所述表示层是采用Transformer的编码器部分,代替传统的CNN/RNN结构,首先,分别对由输入层输出的节点名称特征向量和APP页面文字特征向量进行编码,从而提取出句子中每个单词的更抽象特征,然后,通过global-attention将原本由每个字向量组成的句子特征表示转换为由一个512维向量表示的新的句子特征。
所述匹配层在由表示层分别得到了图谱节点名称和APP页面文字的句子特征向量后,图谱节点名称和APP页面文字的句子特征向量之间的语义相似性可用这两个语义向量(512维)的cosine距离来表示。
优选的,所述字向量由网上公开文本数据训练得到,且向量空间为300维。
优选的,所述Transformer编码器部分的整体结构一共分为6个小Encoder,其中每个Encoder又包含了self-attention和full-connect两个模块。
优选的,基于Transformer的语义相似度计算模型DSSM技术的测试图谱修改匹配处理流程,具体包括以下步骤:
S1、从图数据库中提取出待匹配测试图谱数据,以及启动相应APP,打开APP页面提取接口;
S2、从测试图谱中进行图谱路径的提取并依次提取出当前路径中的每一个操作节点名称,从新APP主页开始,提取当前页面图片,并通过使用OCR接口将页面内容转化成文字信息,得到页面文字;
S3、进行预先训练的中文词向量及语义相似度模型的加载,用于后续相似度计算;
S4、通过将输入的操作节点名称和页面APP文字进行词向量表示等操作后,将进行词向量表示后的操作节点名称和页面APP文字带入到语义相似度计算模型DSSM中,分别得到操作节点名称与每一个文字的相似度计算得分,从中选取中相似度评分最高的进行匹配;
S5、如果匹配成功,则将操作节点名称修改为APP页面相应文字名称,并修改对应脚本内容,根据所得到得脚本描述内容,调用相应脚本执行接口,执行脚本,当获取到执行反馈信息后,根据反馈结果,跳转到下一页面及下一操作节点;
S6、如果匹配失败,删除当前操作节点及相应脚本,跳转到下一操作节点,并保持当前页面内容不变;
S7、重复上述步骤S1至S6,直至整个测试图谱的路径都执行完成。
优选的,所述步骤S2路径中的第一个节点为对主页进行操作的节点。
(三)有益效果
本发明提供了一种基于Transformer的语义相似度计算模型DSSM技术。与现有技术相比具备以下有益效果:
(1)、该基于Transformer的语义相似度计算模型DSSM技术,通过在针对新APP内容,修改已有测试图谱节点,最终生成与新APP相匹配的测试图谱的处理流程中,所使用的相似度计算模型,为基于Transformer的语义相似度计算模型DSSM,使用该模型进行图谱节点与新APP页面内容的语义相似度的计算,评估APP页面文字与知识图谱节点名称的语义相似度,与中文预训练词向量协同找出APP文字与图谱节点之间的对应匹配关系,将深度学习技术中的语义相似度计算模型应用于APP测试领域,与人为修改图谱节点内容需要消耗大量时间和精力不同,基于Transformer的语义相似度计算模型DSSM技术在测试图谱应用中,能够代替人工修改图谱名称,实现针对新APP内容进行自动匹配的功能,提高APP的测试效率,减少人为的大量冗余操作。
(2)、该基于Transformer的语义相似度计算模型DSSM技术,通过在使用相似度计算模型的基础上,结合新APP内容,对测试图谱内容进行修改,代替传统手工修改方法,提高了工作效率。
(3)、该基于Transformer的语义相似度计算模型DSSM技术,通过在基于Transformer的语义相似度计算模型与其他相似度计算模型相比,具有更好地匹配准确率。
附图说明
图1为本发明DSSM层次的结构示意图;
图2为本发明Transformer编码器部分结构示意图;
图3为本发明global-attention计算原理图;
图4为本发明测试图谱修改匹配处理流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-4,本发明实施例提供一种技术方案:一种基于Transformer的语义相似度计算模型DSSM技术,包括输入层、表示层和匹配层,输入层用于将图谱节点名称和APP页面文字分别转为由字向量(word2vec)表示的二维数组,并将其作为表示层的输入。
表示层是采用Transformer的编码器部分,代替传统的CNN/RNN结构。首先,分别对由输入层输出的节点名称特征向量和APP页面文字特征向量进行编码,从而提取出句子中每个单词的更抽象特征,然后,通过global-attention将原本由每个字向量组成的句子特征表示转换为由一个512维向量表示的新的句子特征。
匹配层在由表示层分别得到了图谱节点名称和APP页面文字的句子特征向量后,图谱节点名称和APP页面文字的句子特征向量之间的语义相似性可用这两个语义向量(512维)的cosine距离来表示。
本发明中,字向量由网上公开文本数据训练得到,且向量空间为300维。
本发明中,Transformer编码器部分的整体结构如下图2所示,一共分为6个小Encoder,其中每个Encoder又包含了self-attention和full-connect两个模块,global-attention的计算方法由下图3所示。
本发明中,匹配层中cosine距离表示公式为:其中,N代表节点,W代表页面文字,因此,对于给定的图谱中的某个节点名称来说,当它需要与APP某个页面上所有文字内容进行语义相似度计算时,首先由前面2层分别得到节点名称特征向量表示和APP页面上若干文字的特征向量表示,然后将节点名称的特征向量依次与当前页面上每个文字的特征向量进行余弦相似度计算,最后通过softmax函数可以把节点名称与页面上每个文字的语义相似性转化为一个后验概率:其中r为softmax的平滑因子,W+为所有页面文字中的正样本,W-为所有页面文字中的负样本(采取随机负采样),W为所有页面文字的整个样本空间,在训练阶段,通过极大似然估计,我们最小化损失函数:残差会在表示层的Transformer中反向传播,最终通过随机梯度下降(SGD)使模型收敛,得到各网络层的参数{Wi,bi}。
本发明中,基于Transformer的语义相似度计算模型DSSM技术的测试图谱修改匹配处理流程,具体包括以下步骤:
S1、从图数据库中提取出待匹配测试图谱数据,以及启动相应APP,打开APP页面提取接口;
S2、从测试图谱中进行图谱路径的提取并依次提取出当前路径中的每一个操作节点名称,从新APP主页开始,提取当前页面图片,并通过使用OCR接口将页面内容转化成文字信息,得到页面文字;
S3、进行预先训练的中文词向量及语义相似度模型的加载,用于后续相似度计算;
S4、通过将输入的操作节点名称和页面APP文字进行词向量表示等操作后,将进行词向量表示后的操作节点名称和页面APP文字带入到语义相似度计算模型DSSM中,分别得到操作节点名称与每一个文字的相似度计算得分,从中选取中相似度评分最高的进行匹配;
S5、如果匹配成功,则将操作节点名称修改为APP页面相应文字名称,并修改对应脚本内容,根据所得到得脚本描述内容,调用相应脚本执行接口,执行脚本,当获取到执行反馈信息后,根据反馈结果,跳转到下一页面及下一操作节点;
S6、如果匹配失败,删除当前操作节点及相应脚本,跳转到下一操作节点,并保持当前页面内容不变;
S7、重复上述步骤S1至S6,直至整个测试图谱的路径都执行完成。
本发明,步骤S2路径中的第一个节点为对主页进行操作的节点。
综上所述
本发明通过在针对新APP内容,修改已有测试图谱节点,最终生成与新APP相匹配的测试图谱的处理流程中,所使用的相似度计算模型,为基于Transformer的语义相似度计算模型DSSM,使用该模型进行图谱节点与新APP页面内容的语义相似度的计算,评估APP页面文字与知识图谱节点名称的语义相似度,与中文预训练词向量协同找出APP文字与图谱节点之间的对应匹配关系,将深度学习技术中的语义相似度计算模型应用于APP测试领域,与人为修改图谱节点内容需要消耗大量时间和精力不同,基于Transformer的语义相似度计算模型DSSM技术在测试图谱应用中,能够代替人工修改图谱名称,实现针对新APP内容进行自动匹配的功能,提高APP的测试效率,减少人为的大量冗余操作,通过在使用相似度计算模型的基础上,结合新APP内容,对测试图谱内容进行修改,代替传统手工修改方法,提高了工作效率,同时通过在基于Transformer的语义相似度计算模型与其他相似度计算模型相比,具有更好地匹配准确率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (6)
1.一种基于Transformer的语义相似度计算模型DSSM系统,其特征在于:包括输入层、表示层和匹配层,所述输入层用于将图谱节点名称和APP页面文字分别转为由字向量表示的二维数组,并将其作为表示层的输入;
所述表示层是采用Transformer的编码器部分,首先,分别对由输入层输出的节点名称特征向量和APP页面文字特征向量进行编码,从而提取出句子中每个单词的抽象特征,然后,通过global-attention将原本由每个字向量组成的句子特征表示转换为由一个512维向量表示的新的句子特征;
所述匹配层在由表示层分别得到了图谱节点名称和APP页面文字的句子特征向量后,图谱节点名称和APP页面文字的句子特征向量之间的语义相似性用这两个语义向量的cosine距离来表示。
2.根据权利要求1所述的一种基于Transformer的语义相似度计算模型DSSM系统,其特征在于:所述字向量由网上公开文本数据训练得到,且向量空间为300维。
3.根据权利要求1所述的一种基于Transformer的语义相似度计算模型DSSM系统,其特征在于:所述Transformer编码器部分的整体结构一共分为6个小Encoder,其中每个Encoder又包含了self-attention和full-connect两个模块。
5.一种基于Transformer的语义相似度计算模型DSSM技术的测试图谱修改匹配处理流程,其特征在于:具体包括以下步骤:
S1、从图数据库中提取出待匹配测试图谱数据,以及启动相应APP,打开APP页面提取接口;
S2、从测试图谱中进行图谱路径的提取并依次提取出当前路径中的每一个操作节点名称,从新APP主页开始,提取当前页面图片,并通过使用OCR接口将页面内容转化成文字信息,得到页面文字;
S3、进行预先训练的中文词向量及语义相似度模型的加载,用于后续相似度计算;
S4、通过将输入的操作节点名称和页面APP文字进行词向量表示操作后,将进行词向量表示后的操作节点名称和页面APP文字带入到语义相似度计算模型DSSM中,分别得到操作节点名称与每一个文字的相似度计算得分,从中选取中相似度评分最高的进行匹配;
S5、如果匹配成功,则将操作节点名称修改为APP页面相应文字名称,并修改对应脚本内容,根据所得到得脚本描述内容,调用相应脚本执行接口,执行脚本,当获取到执行反馈信息后,根据反馈结果,跳转到下一页面及下一操作节点;
S6、如果匹配失败,删除当前操作节点及相应脚本,跳转到下一操作节点,并保持当前页面内容不变;
S7、重复上述步骤S1至S6,直至整个测试图谱的路径都执行完成。
6.根据权利要求5所述的一种基于Transformer的语义相似度计算模型DSSM技术的测试图谱修改匹配处理流程,其特征在于:所述步骤S2路径中的第一个节点为对主页进行操作的节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910788264.0A CN110516240B (zh) | 2019-08-28 | 2019-08-28 | 一种基于Transformer的语义相似度计算模型DSSM技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910788264.0A CN110516240B (zh) | 2019-08-28 | 2019-08-28 | 一种基于Transformer的语义相似度计算模型DSSM技术 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110516240A CN110516240A (zh) | 2019-11-29 |
CN110516240B true CN110516240B (zh) | 2021-04-06 |
Family
ID=68626820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910788264.0A Active CN110516240B (zh) | 2019-08-28 | 2019-08-28 | 一种基于Transformer的语义相似度计算模型DSSM技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110516240B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111459842A (zh) * | 2020-05-22 | 2020-07-28 | 南京大学 | 一种基于nlp和kg的手机app自动测试方法 |
CN114298118B (zh) * | 2020-09-28 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 一种基于深度学习的数据处理方法、相关设备及存储介质 |
CN113257410A (zh) * | 2021-06-10 | 2021-08-13 | 南京大经中医药信息技术有限公司 | 一种基于中医临床医疗知识库和深度学习模型的问诊方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7877349B2 (en) * | 2005-06-14 | 2011-01-25 | Microsoft Corporation | Methods and apparatus for evaluating semantic proximity |
CN109918491A (zh) * | 2019-03-12 | 2019-06-21 | 焦点科技股份有限公司 | 一种基于知识库自学习的智能客服问句匹配方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10318405B2 (en) * | 2016-08-24 | 2019-06-11 | International Business Machines Corporation | Applying consistent log levels to application log messages |
US10423726B2 (en) * | 2018-01-10 | 2019-09-24 | International Business Machines Corporation | Machine learning to integrate knowledge and natural language processing |
CN109101494A (zh) * | 2018-08-10 | 2018-12-28 | 哈尔滨工业大学(威海) | 一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质 |
CN109992648B (zh) * | 2019-04-10 | 2021-07-02 | 北京神州泰岳软件股份有限公司 | 基于词迁徙学习的深度文本匹配方法及装置 |
CN110147451B (zh) * | 2019-05-10 | 2021-06-29 | 云知声智能科技股份有限公司 | 一种基于知识图谱的对话命令理解方法 |
-
2019
- 2019-08-28 CN CN201910788264.0A patent/CN110516240B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7877349B2 (en) * | 2005-06-14 | 2011-01-25 | Microsoft Corporation | Methods and apparatus for evaluating semantic proximity |
CN109918491A (zh) * | 2019-03-12 | 2019-06-21 | 焦点科技股份有限公司 | 一种基于知识库自学习的智能客服问句匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110516240A (zh) | 2019-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107844469B (zh) | 基于词向量查询模型的文本简化方法 | |
CN110516240B (zh) | 一种基于Transformer的语义相似度计算模型DSSM技术 | |
CN111831789B (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN110019843A (zh) | 知识图谱的处理方法及装置 | |
CN110033008B (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN105631468A (zh) | 一种基于rnn的图片描述自动生成方法 | |
CN111242033B (zh) | 一种基于视频和文字对判别分析的视频特征学习方法 | |
CN111368049A (zh) | 信息获取方法、装置、电子设备及计算机可读存储介质 | |
CN111125333B (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN110085215A (zh) | 一种基于生成对抗网络的语言模型数据增强方法 | |
CN112434533B (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN112149386A (zh) | 一种事件抽取方法、存储介质及服务器 | |
CN115203507A (zh) | 一种面向文书领域的基于预训练模型的事件抽取方法 | |
CN114417872A (zh) | 一种合同文本命名实体识别方法及系统 | |
CN113988079A (zh) | 一种面向低数据的动态增强多跳文本阅读识别处理方法 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN117271792A (zh) | 一种基于大模型构建企业领域知识库的方法 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN117094383B (zh) | 一种语言模型的联合训练方法、系统、设备及存储介质 | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN116681078A (zh) | 一种基于强化学习的关键词生成方法 | |
CN110826341A (zh) | 一种基于seq2seq模型的语义相似度计算方法 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
CN114519104A (zh) | 动作标签标注方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |