CN112487823A - 一种基于bert模型的文本语义相似度计算方法 - Google Patents

一种基于bert模型的文本语义相似度计算方法 Download PDF

Info

Publication number
CN112487823A
CN112487823A CN202011294655.6A CN202011294655A CN112487823A CN 112487823 A CN112487823 A CN 112487823A CN 202011294655 A CN202011294655 A CN 202011294655A CN 112487823 A CN112487823 A CN 112487823A
Authority
CN
China
Prior art keywords
sentences
sub
probability
semantic
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011294655.6A
Other languages
English (en)
Inventor
郑颖龙
周昉昉
刘佳木
赖蔚蔚
吴广财
郑杰生
林嘉鑫
叶杭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Electric Power Information Technology Co Ltd
Original Assignee
Guangdong Electric Power Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Electric Power Information Technology Co Ltd filed Critical Guangdong Electric Power Information Technology Co Ltd
Priority to CN202011294655.6A priority Critical patent/CN112487823A/zh
Publication of CN112487823A publication Critical patent/CN112487823A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开的基于BERT模型的文本语义相似度计算方法,通过对用户输入的两个句子做子词切分,得到两个子词序列,分别在两个子词序列的头部、连接处及尾部设置标记,得到完整的子词序列,将子词序列输入BERT模型,得到子词序列中各个子词对应的语义向量,将头部特殊标记对应的语义向量输入神经网络模型的全连接层,得到维度为2的语义向量,将维度为2的语义向量输入神经网络模型的Softmax层做归一化,得到两个句子相似的概率和不相似的概率,根据两个句子相似的概率和不相似的概率,确定两个句子的语义相似度,避免了因分词可能引入的错误,能够考虑文本的上下文语义,提高了语义相似度计算的精确度。

Description

一种基于BERT模型的文本语义相似度计算方法
技术领域
本发明涉及文本处理技术领域,具体涉及一种基于BERT模型的文本语义相似度计算方法。
背景技术
语义相似度计算是人工智能自然语言处理领域的基础任务之一,是文本查重、智能问答等上层应用的基础支撑技术。语义相似度意在对于给定的两个文本,从语义的角度度量二者之间的相似性,通常会给出一个0到1之间的语义相似度分值,分值越高代表越相似。
现有的语义相似度方案有的基于字面进行计算,无法考虑语义上的相似性。有的方案基于Word2Vec等静态词向量计算语义相似度,无法考虑一词多义的情况,另外由于需要先进行分词,可能存在分词错误的情况,导致语义相似度计算的精确度较低。
发明内容
为解决现有技术的不足,本发明实施例提供了一种基于BERT模型的文本语义相似度计算方法,该方法包括以下步骤:
对用户输入的两个句子做子词切分,得到两个子词序列;
分别在所述两个子词序列的头部、连接处及尾部设置标记,得到完整的子词序列;
将所述子词序列输入BERT模型,得到所述子词序列中各个子词对应的语义向量;
将所述头部特殊标记对应的语义向量输入神经网络模型的全连接层,得到维度为2的语义向量,其中,所述维度为2的语义向量分别表示两个句子相似和不相似;
将所述维度为2的语义向量输入神经网络模型的Softmax层做归一化,得到两个句子相似的概率和不相似的概率;
根据所述两个句子相似的概率和不相似的概率,确定所述两个句子的语义相似度。
优选地,根据所述两个句子相似的概率和不相似的概率,确定所述两个句子的语义相似度包括:
判断相似的概率是否大于不相似的概率,若是,则确定两个句子相似并将相似的概率作为两个句子的语义相似度,若否,则确定两个句子不相似。
本发明实施例提供的基于BERT模型的文本语义相似度计算方法,具有以下有益效果:
将BERT模型应用于计算文本语义相似度,能够达到更好的语义建模效果,基于字符计算语义相似度,不依赖分词,避免了因分词可能引入的错误,能够考虑文本的上下文语义,提高了语义相似度计算的精确度。
具体实施方式
以下结合具体实施例对本发明作具体的介绍。
本发明提供的实施例提供的基于BERT模型的文本语义相似度计算方法,包括以下步骤:
S101,对用户输入的两个句子做子词切分,得到两个子词序列。
其中,每个汉字都是一个子词,一个英文单词可能会被切分成多个子词。
S102,分别在所述两个子词序列的头部、连接处及尾部设置标记,得到完整的子词序列。
作为本发明一个具体的实施例,对于A1、A2...An和B1、B2...Bm两个子词序列,得到的完整的子词序列为[CLS]、A1、A2...An、[sep]、B1、B2...Bm、[sep]。
S103,将所述子词序列输入BERT模型,得到所述子词序列中各个子词对应的语义向量。
S104,将头部特殊标记对应的语义向量输入神经网络模型的全连接层,得到维度为2的语义向量,其中,维度为2的语义向量分别表示两个句子相似和不相似。
S105,将维度为2的语义向量输入神经网络模型的Softmax层做归一化,得到两个句子相似的概率和不相似的概率。
S106,根据两个句子相似的概率和不相似的概率,确定两个句子的语义相似度。
可选地,根据所述两个句子相似的概率和不相似的概率,确定所述两个句子的语义相似度包括:
判断相似的概率是否大于不相似的概率,若是,则确定两个句子相似并将相似的概率作为两个句子的语义相似度,若否,则确定两个句子不相似。
本发明实施例提供的基于BERT模型的文本语义相似度计算方法,通过对用户输入的两个句子做子词切分,得到两个子词序列,分别在两个子词序列的头部、连接处及尾部设置标记,得到完整的子词序列,将子词序列输入BERT模型,得到子词序列中各个子词对应的语义向量,将头部特殊标记对应的语义向量输入神经网络模型的全连接层,得到维度为2的语义向量,将维度为2的语义向量输入神经网络模型的Softmax层做归一化,得到两个句子相似的概率和不相似的概率,根据两个句子相似的概率和不相似的概率,确定两个句子的语义相似度,避免了因分词可能引入的错误,能够考虑文本的上下文语义,提高了语义相似度计算的精确度。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (4)

1.一种基于BERT模型的文本语义相似度计算方法,其特征在于,包括:
对用户输入的两个句子做子词切分,得到两个子词序列;
分别在所述两个子词序列的头部、连接处及尾部设置标记,得到完整的子词序列;
将所述子词序列输入BERT模型,得到所述子词序列中各个子词对应的语义向量;
将所述头部标记对应的语义向量输入神经网络模型的全连接层,得到维度为2的语义向量,其中,所述维度为2的语义向量分别表示两个句子相似和不相似;
将所述维度为2的语义向量输入神经网络模型的Softmax层做归一化,得到两个句子相似的概率和不相似的概率;
根据所述两个句子相似的概率和不相似的概率,确定所述两个句子的语义相似度。
2.根据权利要求1所述的基于BERT模型的文本语义相似度计算方法,其特征在于,根据所述两个句子相似的概率和不相似的概率,确定所述两个句子的语义相似度包括:
判断相似的概率是否大于不相似的概率,若是,则确定两个句子相似并将相似的概率作为两个句子的语义相似度,若否,则确定两个句子不相似。
3.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如权利要求1-2所述的方法。
4.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1-2所述的方法。
CN202011294655.6A 2020-11-18 2020-11-18 一种基于bert模型的文本语义相似度计算方法 Pending CN112487823A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011294655.6A CN112487823A (zh) 2020-11-18 2020-11-18 一种基于bert模型的文本语义相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011294655.6A CN112487823A (zh) 2020-11-18 2020-11-18 一种基于bert模型的文本语义相似度计算方法

Publications (1)

Publication Number Publication Date
CN112487823A true CN112487823A (zh) 2021-03-12

Family

ID=74931422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011294655.6A Pending CN112487823A (zh) 2020-11-18 2020-11-18 一种基于bert模型的文本语义相似度计算方法

Country Status (1)

Country Link
CN (1) CN112487823A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113918702A (zh) * 2021-10-25 2022-01-11 北京航空航天大学 一种基于语义匹配的在线法律自动问答方法及系统
WO2023035307A1 (zh) * 2021-09-13 2023-03-16 华中师范大学 一种视频知识点抽取方法及装置
WO2024091342A1 (en) * 2022-10-25 2024-05-02 Microsoft Technology Licensing, Llc Measuring probability of influence using multi-dimensional statistics on deep learning embeddings

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377714A (zh) * 2019-07-18 2019-10-25 泰康保险集团股份有限公司 基于迁移学习的文本匹配方法、装置、介质及设备
CN110969023A (zh) * 2018-09-29 2020-04-07 北京国双科技有限公司 文本相似度的确定方法及装置
CN111241851A (zh) * 2020-04-24 2020-06-05 支付宝(杭州)信息技术有限公司 语义相似度确定方法、装置及处理设备
CN111611809A (zh) * 2020-05-26 2020-09-01 西藏大学 一种基于神经网络的汉语语句相似度计算方法
CN111814489A (zh) * 2020-07-23 2020-10-23 苏州思必驰信息科技有限公司 口语语义理解方法及系统
CN111814058A (zh) * 2020-08-20 2020-10-23 深圳市欢太科技有限公司 基于用户意图的推送方法、装置、电子设备及存储介质
CN111931513A (zh) * 2020-07-08 2020-11-13 泰康保险集团股份有限公司 一种文本的意图识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110969023A (zh) * 2018-09-29 2020-04-07 北京国双科技有限公司 文本相似度的确定方法及装置
CN110377714A (zh) * 2019-07-18 2019-10-25 泰康保险集团股份有限公司 基于迁移学习的文本匹配方法、装置、介质及设备
CN111241851A (zh) * 2020-04-24 2020-06-05 支付宝(杭州)信息技术有限公司 语义相似度确定方法、装置及处理设备
CN111611809A (zh) * 2020-05-26 2020-09-01 西藏大学 一种基于神经网络的汉语语句相似度计算方法
CN111931513A (zh) * 2020-07-08 2020-11-13 泰康保险集团股份有限公司 一种文本的意图识别方法及装置
CN111814489A (zh) * 2020-07-23 2020-10-23 苏州思必驰信息科技有限公司 口语语义理解方法及系统
CN111814058A (zh) * 2020-08-20 2020-10-23 深圳市欢太科技有限公司 基于用户意图的推送方法、装置、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023035307A1 (zh) * 2021-09-13 2023-03-16 华中师范大学 一种视频知识点抽取方法及装置
CN113918702A (zh) * 2021-10-25 2022-01-11 北京航空航天大学 一种基于语义匹配的在线法律自动问答方法及系统
WO2024091342A1 (en) * 2022-10-25 2024-05-02 Microsoft Technology Licensing, Llc Measuring probability of influence using multi-dimensional statistics on deep learning embeddings

Similar Documents

Publication Publication Date Title
CN112487823A (zh) 一种基于bert模型的文本语义相似度计算方法
JP6894058B2 (ja) 危険アドレス識別方法及びコンピュータ可読記憶媒体、並びに電子装置
US5784489A (en) Apparatus and method for syntactic signal analysis
CN109918658B (zh) 一种从文本中获取目标词汇的方法及系统
CN108228704A (zh) 识别风险内容的方法及装置、设备
CN110533018B (zh) 一种图像的分类方法及装置
CN112527970B (zh) 数据字典标准化处理方法、装置、设备及存储介质
US11264034B2 (en) Voice identification method, device, apparatus, and storage medium
CN111340054A (zh) 数据标注方法、装置及数据处理设备
CN105446986B (zh) 用于处理web页面的方法和装置
CN106610931B (zh) 话题名称的提取方法及装置
CN109800292A (zh) 问答匹配度的确定方法、装置及设备
CN110489559A (zh) 一种文本分类方法、装置及存储介质
CN109597982B (zh) 摘要文本识别方法及装置
CN102063460A (zh) 信息处理方法和装置
CN112069417A (zh) 一种工作分解结构wbs模板推荐方法
CN114329112A (zh) 内容审核方法、装置、电子设备及存储介质
CN112651226B (zh) 基于依存句法树的知识解析系统及方法
CN115688779B (zh) 一种基于自监督深度学习的地址识别方法
CN111062204A (zh) 基于机器学习的文本标点符号使用错误的识别方法和装置
CN116028626A (zh) 文本匹配方法、装置、存储介质以及电子设备
CN114218924A (zh) 一种基于bert模型的文本意图及实体联合识别方法
WO2021063060A1 (zh) 文本信息提取方法、装置、存储介质及设备
CN110210030B (zh) 语句分析的方法及装置
CN109558582B (zh) 基于视角的句子情感分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination