CN113032519A - 一种句子相似度判断方法、装置、计算机设备及存储介质 - Google Patents

一种句子相似度判断方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113032519A
CN113032519A CN202110090640.6A CN202110090640A CN113032519A CN 113032519 A CN113032519 A CN 113032519A CN 202110090640 A CN202110090640 A CN 202110090640A CN 113032519 A CN113032519 A CN 113032519A
Authority
CN
China
Prior art keywords
target text
matching
similarity
rule
matching rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110090640.6A
Other languages
English (en)
Inventor
刘东煜
方春华
周坤胜
陈乐清
曾增烽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110090640.6A priority Critical patent/CN113032519A/zh
Publication of CN113032519A publication Critical patent/CN113032519A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例属于人工智能中的自然语言处理技术领域,涉及一种句子相似度判断方法、装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,第一目标文本以及第二目标文本可存储于区块链中。本申请通过从目标文本的“同义词、字面、词向量或者编辑距离”等不同的维度判断该文本的相似度,从而实现判断句子相似度的目的,相较于传统的句子相似度判断方法,无需消耗大量的人力资源进行语料标注,解放人力资源,极大提高资源的利用率。

Description

一种句子相似度判断方法、装置、计算机设备及存储介质
技术领域
本申请涉及人工智能中的自然语言处理技术领域,尤其涉及一种句子相似度判断方法、装置、计算机设备及存储介质。
背景技术
在自然语言处理的技术领域中,对于两个句子之间判断相似度的应用非常广泛。
现有一种句子相似度判断方法,即先分别获取两个句子的字词向量矩阵并输入到深度神经网络模型中,通过深度神经网络的处理得到句子向量并进行拼接以作为分类神经网络模型的输入,最后得到两个句子的相似性度量。
然而,申请人发现传统的句子相似度判断方法普遍不智能,在进行相似度判断之前,需要人工标注大量的训练语料,以训练获取学习能力较好的深度学习模型,然而,获取该训练语料需要消耗大量的人力物力对相互比较的两个句子进行标注,从而导致传统的句子相似度判断方法获在取训练语料的过程中需要消耗大量的人力资源,存在资源利用率较低的问题。
发明内容
本申请实施例的目的在于提出一种句子相似度判断方法、装置、计算机设备及存储介质,以解决导致传统的句子相似度判断方法获在取训练语料的过程中需要消耗大量的人力资源,存在资源利用率较低的问题
为了解决上述技术问题,本申请实施例提供一种句子相似度判断方法,采用了如下所述的技术方案:
接收用户终端发送的相似度判断请求,所述相似度判断请求至少携带有第一目标文本以及第二目标文本;
基于无监督相似判断规则获取所述第一目标文本以及第二目标文本的初始匹配结果,所述无监督相似判断规则由同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则中的一种或者多种组合组成;
基于所述同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则的权重值对所述初始匹配结果进行线性插值操作,得到最终匹配结果;
向所述用户终端输出所述最终匹配结果。
为了解决上述技术问题,本申请实施例还提供一种句子相似度判断装置,采用了如下所述的技术方案:
请求接收模块,用于接收用户终端发送的相似度判断请求,所述相似度判断请求至少携带有第一目标文本以及第二目标文本;
初始结果获取模块,用于基于无监督相似判断规则获取所述第一目标文本以及第二目标文本的初始匹配结果,所述无监督相似判断规则由同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则中的一种或者多种组合组成;
最终结果获取模块,用于基于所述同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则的权重值对所述初始匹配结果进行线性插值操作,得到最终匹配结果;
最终结果输出模块,用于向所述用户终端输出所述最终匹配结果。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的句子相似度判断方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的句子相似度判断方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请提供的句子相似度判断方法,包括:接收用户终端发送的相似度判断请求,所述相似度判断请求至少携带有第一目标文本以及第二目标文本;基于无监督相似判断规则获取所述第一目标文本以及第二目标文本的初始匹配结果,所述无监督相似判断规则由同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则中的一种或者多种组合组成;基于所述同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则的权重值对所述初始匹配结果进行线性插值操作,得到最终匹配结果;向所述用户终端输出所述最终匹配结果。本申请通过从目标文本的“同义词、字面、词向量或者编辑距离”等不同的维度判断该文本的相似度,从而实现判断句子相似度的目的,相较于传统的句子相似度判断方法,无需消耗大量的人力资源进行语料标注,解放人力资源,极大提高资源的利用率。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的句子相似度判断方法的实现流程图;
图2是本申请实施例一提供的第一目标文本以及第二目标文本的举例示意图;
图3是本申请实施例一提供的句子相似度判断装置的结构示意图:
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,示出了本申请实施例一提供的句子相似度判断方法的实现流程图,为了便于说明,仅示出与本申请相关的部分。
上述的句子相似度判断方法,包括以下步骤:步骤S101、步骤S102、步骤S103以及步骤S104。
步骤S101:接收用户终端发送的相似度判断请求,相似度判断请求至少携带有第一目标文本以及第二目标文本。
在本申请实施例中,用户终端可以是诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端,应当理解,此处对当前入场登记终端的举例仅为方便理解,不用于限定本申请。
步骤S102:基于无监督相似判断规则获取第一目标文本以及第二目标文本的初始匹配结果,无监督相似判断规则由同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则中的一种或者多种组合组成。
在本申请实施例中,同义词匹配规则的计算方法表示为:
Figure BDA0002912542260000051
其中,S1,S2分别表示第一目标文本以及第二目标文本;C1,C2分别表示S1与S2的内容词的集合;Ac表示内容词中成对的集合;WordSim为基于同义词集合的词相似度;wi,wj分别表示成对的集合中第i个候选词以及第j个候选词。
在本申请实施例中,Wordsim表示为:
Figure BDA0002912542260000052
其中,NS1是候选词w1的邻居的集合,NS2是候选词w2的邻居的集合,若两个候选词对应的同义词集合相同,则对应矩阵元素为1,否则计算候选词同义词集合邻居取交集的比例为其相似度。
在实际应用中,参阅图2,第一目标文本以及第二目标文本分别为:
S1:A man is playing a guitar→C1:{man,playing,guitar}
S2:A main is playing an instrument→C2:{man,playing instrument}
那么,A:{(1,1),(2,2),(3,3),(4,4),(5,5)},Ac:{(2,2),(4,4)};
Figure BDA0002912542260000053
在本申请实施例中,字面匹配规则的计算方法表示为:
Figure BDA0002912542260000054
其中,αk表示wk在句子中的逆文频,使用对齐成对集合中的最小逆文频来衡量该对齐的重要性。
在本申请实施例中,词向量匹配规则的计算方法表示为:
Figure BDA0002912542260000055
Figure BDA0002912542260000061
其中,vi是词wi的词向量,idf(wi)是词wi的idf值,通过idf值进行加权求和。
在本申请实施例中,编辑距离匹配规则的计算方法表示为:
Figure BDA0002912542260000062
其中,cost为指示器函数,当SynsetSim(wi,wj)>0.5时为1,否则为0。
步骤S103:基于同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则的权重值对初始匹配结果进行线性插值操作,得到最终匹配结果。
在本申请实施例中,针对上述四种规则,用户可以预先设定各种规则对应的权重值大小。
在本申请实施例中,线性插值操作表示为:
simESTS(S1,S2)=α·simWAL(S1,S2)+β·simAL(S1,S2)+γ·simV(S1,S2)+θ·simD(S1,S2)
其中,α表示为同义词匹配规则的权重值;β表示为字面匹配规则的权重值;γ表示为词向量匹配规则的权重值;θ表示为编辑距离匹配规则的权重值。
在本申请实施例中,上述各种规则对应的权重值大小可以基于ensemble算法进行优化,使得本申请得到的最终匹配结果符合不同领域的个性需要,作为示例,例如:某些专业领域是关键词敏感的,如医学领域,此时逆文频权重对该专业领域影响更大,因此需要加大字面匹配规则的权重;针对某一确定领域,需要根据评测效果,可对ensemble改进算法进行动态调参,从而实现满足不同领域的个性需求的目的。
在本申请实施例中,若无监督相似判断规则不包含某一规则,则该不包含的规则所对应的权重值为0。
步骤S104:向用户终端输出最终匹配结果。
本申请提供的句子相似度判断方法,包括:接收用户终端发送的相似度判断请求,相似度判断请求至少携带有第一目标文本以及第二目标文本;基于无监督相似判断规则获取第一目标文本以及第二目标文本的初始匹配结果,无监督相似判断规则由同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则中的一种或者多种组合组成;基于同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则的权重值对初始匹配结果进行线性插值操作,得到最终匹配结果;向用户终端输出最终匹配结果。本申请通过从目标文本的“同义词、字面、词向量或者编辑距离”等不同的维度判断该文本的相似度,从而实现判断句子相似度的目的,相较于传统的句子相似度判断方法,无需消耗大量的人力资源进行语料标注,解放人力资源,极大提高资源的利用率。
在本实施例的一些可选的实现方式中,同义词匹配规则的计算方法表示为:
Figure BDA0002912542260000071
其中,S1,S2分别表示第一目标文本以及第二目标文本;C1,C2分别表示S1与S2的内容词的集合;Ac表示内容词中成对的集合;WordSim为基于同义词集合的词相似度;wi,wj分别表示成对的集合中第i个候选词以及第j个候选词。
在本实施例的一些可选的实现方式中,Wordsim表示为:
Figure BDA0002912542260000072
其中,NS1是候选词w1的邻居的集合,NS2是候选词w2的邻居的集合,若两个候选词对应的同义词集合相同,则对应矩阵元素为1,否则计算候选词同义词集合邻居取交集的比例为其相似度。
在本实施例的一些可选的实现方式中,字面匹配规则的计算方法表示为:
Figure BDA0002912542260000081
其中,αk表示wk在句子中的逆文频,使用对齐成对集合中的最小逆文频来衡量该对齐的重要性。
在本实施例的一些可选的实现方式中,词向量匹配规则的计算方法表示为:
Figure BDA0002912542260000082
Figure BDA0002912542260000083
其中,vi是词wi的词向量,idf(wi)是词wi的idf值,通过idf值进行加权求和。
在本实施例的一些可选的实现方式中,编辑距离匹配规则的计算方法表示为:
Figure BDA0002912542260000084
其中,cost为指示器函数,当SynsetSim(wi,wj)>0.5时为1,否则为0。
综上,本申请提供的句子相似度判断方法,包括:接收用户终端发送的相似度判断请求,相似度判断请求至少携带有第一目标文本以及第二目标文本;基于无监督相似判断规则获取第一目标文本以及第二目标文本的初始匹配结果,无监督相似判断规则由同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则中的一种或者多种组合组成;基于同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则的权重值对初始匹配结果进行线性插值操作,得到最终匹配结果;向用户终端输出最终匹配结果。本申请通过从目标文本的“同义词、字面、词向量或者编辑距离”等不同的维度判断该文本的相似度,从而实现判断句子相似度的目的,相较于传统的句子相似度判断方法,无需消耗大量的人力资源进行语料标注,解放人力资源,极大提高资源的利用率。
需要强调的是,为进一步保证上述第一目标文本以及第二目标文本的私密和安全性,上述第一目标文本以及第二目标文本还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实施例二
进一步参考图3,作为对上述图1所示方法的实现,本申请提供了一种句子相似度判断装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例的句子相似度判断装置100包括:请求接收模块110、初始结果获取模块120、最终结果获取模块130以及最终结果输出模块140。其中:
请求接收模块110,用于接收用户终端发送的相似度判断请求,相似度判断请求至少携带有第一目标文本以及第二目标文本;
初始结果获取模块120,用于基于无监督相似判断规则获取第一目标文本以及第二目标文本的初始匹配结果,无监督相似判断规则由同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则中的一种或者多种组合组成;
最终结果获取模块130,用于基于同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则的权重值对初始匹配结果进行线性插值操作,得到最终匹配结果;
最终结果输出模块140,用于向用户终端输出最终匹配结果。
在本申请实施例中,用户终端可以是诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端,应当理解,此处对当前入场登记终端的举例仅为方便理解,不用于限定本申请。
在本申请实施例中,同义词匹配规则的计算方法表示为:
Figure BDA0002912542260000111
其中,S1,S2分别表示第一目标文本以及第二目标文本;C1,C2分别表示S1与S2的内容词的集合;Ac表示内容词中成对的集合;WordSim为基于同义词集合的词相似度;wi,wj分别表示成对的集合中第i个候选词以及第j个候选词。
在本申请实施例中,Wordsim表示为:
Figure BDA0002912542260000112
其中,NS1是候选词w1的邻居的集合,NS2是候选词w2的邻居的集合,若两个候选词对应的同义词集合相同,则对应矩阵元素为1,否则计算候选词同义词集合邻居取交集的比例为其相似度。
在实际应用中,参阅图2,第一目标文本以及第二目标文本分别为:
S1:A man is playing a guitar→C1:{man,playing,guitar}
S2:A main is playing an instrument→C2:{man,playing instrument}
那么,A:{(1,1),(2,2),(3,3),(4,4),(5,5)},Ac:{(2,2),(4,4)};
Figure BDA0002912542260000113
在本申请实施例中,字面匹配规则的计算方法表示为:
Figure BDA0002912542260000114
其中,αk表示wk在句子中的逆文频,使用对齐成对集合中的最小逆文频来衡量该对齐的重要性。
在本申请实施例中,词向量匹配规则的计算方法表示为:
Figure BDA0002912542260000115
Figure BDA0002912542260000121
其中,vi是词wi的词向量,idf(wi)是词wi的idf值,通过idf值进行加权求和。
在本申请实施例中,编辑距离匹配规则的计算方法表示为:
Figure BDA0002912542260000122
其中,cost为指示器函数,当SynsetSim(wi,wj)>0.5时为1,否则为0。
在本申请实施例中,针对上述四种规则,用户可以预先设定各种规则对应的权重值大小。
在本申请实施例中,线性插值操作表示为:
simESTS(S1,S2)=α·simWAL(S1,S2)+β·simAL(S1,S2)+γ·simV(S1,S2)+θ·simD(S1,S2)
其中,α表示为同义词匹配规则的权重值;β表示为字面匹配规则的权重值;γ表示为词向量匹配规则的权重值;θ表示为编辑距离匹配规则的权重值。
在本申请实施例中,上述各种规则对应的权重值大小可以基于ensemble算法进行优化,使得本申请得到的最终匹配结果符合不同领域的个性需要,作为示例,例如:某些专业领域是关键词敏感的,如医学领域,此时逆文频权重对该专业领域影响更大,因此需要加大字面匹配规则的权重;针对某一确定领域,需要根据评测效果,可对ensemble改进算法进行动态调参,从而实现满足不同领域的个性需求的目的。
在本申请实施例中,若无监督相似判断规则不包含某一规则,则该不包含的规则所对应的权重值为0。
本申请提供的句子相似度判断装置,包括:请求接收模块,用于接收用户终端发送的相似度判断请求,相似度判断请求至少携带有第一目标文本以及第二目标文本;初始结果获取模块,用于基于无监督相似判断规则获取第一目标文本以及第二目标文本的初始匹配结果,无监督相似判断规则由同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则中的一种或者多种组合组成;最终结果获取模块,用于基于同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则的权重值对初始匹配结果进行线性插值操作,得到最终匹配结果;最终结果输出模块,用于向用户终端输出最终匹配结果。本申请通过从目标文本的“同义词、字面、词向量或者编辑距离”等不同的维度判断该文本的相似度,从而实现判断句子相似度的目的,相较于传统的句子相似度判断方法,无需消耗大量的人力资源进行语料标注,解放人力资源,极大提高资源的利用率。
在本实施例的一些可选的实现方式中,同义词匹配规则的计算方法表示为:
Figure BDA0002912542260000131
其中,S1,S2分别表示第一目标文本以及第二目标文本;C1,C2分别表示S1与S2的内容词的集合;Ac表示内容词中成对的集合;WordSim为基于同义词集合的词相似度;wi,wj分别表示成对的集合中第i个候选词以及第j个候选词。
在本实施例的一些可选的实现方式中,Wordsim表示为:
Figure BDA0002912542260000132
其中,NS1是候选词w1的邻居的集合,NS2是候选词w2的邻居的集合,若两个候选词对应的同义词集合相同,则对应矩阵元素为1,否则计算候选词同义词集合邻居取交集的比例为其相似度。
在本实施例的一些可选的实现方式中,字面匹配规则的计算方法表示为:
Figure BDA0002912542260000133
其中,αk表示wk在句子中的逆文频,使用对齐成对集合中的最小逆文频来衡量该对齐的重要性。
在本实施例的一些可选的实现方式中,词向量匹配规则的计算方法表示为:
Figure BDA0002912542260000141
Figure BDA0002912542260000142
其中,vi是词wi的词向量,idf(wi)是词wi的idf值,通过idf值进行加权求和。
在本实施例的一些可选的实现方式中,编辑距离匹配规则的计算方法表示为:
Figure BDA0002912542260000143
其中,cost为指示器函数,当SynsetSim(wi,wj)>0.5时为1,否则为0。
综上,本申请提供的句子相似度判断装置,包括:请求接收模块,用于接收用户终端发送的相似度判断请求,相似度判断请求至少携带有第一目标文本以及第二目标文本;初始结果获取模块,用于基于无监督相似判断规则获取第一目标文本以及第二目标文本的初始匹配结果,无监督相似判断规则由同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则中的一种或者多种组合组成;最终结果获取模块,用于基于同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则的权重值对初始匹配结果进行线性插值操作,得到最终匹配结果;最终结果输出模块,用于向用户终端输出最终匹配结果。本申请通过从目标文本的“同义词、字面、词向量或者编辑距离”等不同的维度判断该文本的相似度,从而实现判断句子相似度的目的,相较于传统的句子相似度判断方法,无需消耗大量的人力资源进行语料标注,解放人力资源,极大提高资源的利用率。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备200包括通过系统总线相互通信连接存储器210、处理器220、网络接口230。需要指出的是,图中仅示出了具有组件210-230的计算机设备200,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器210至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器210可以是所述计算机设备200的内部存储单元,例如该计算机设备200的硬盘或内存。在另一些实施例中,所述存储器210也可以是所述计算机设备200的外部存储设备,例如该计算机设备200上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器210还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中,所述存储器210通常用于存储安装于所述计算机设备200的操作系统和各类应用软件,例如句子相似度判断方法的计算机可读指令等。此外,所述存储器210还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器220在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器220通常用于控制所述计算机设备200的总体操作。本实施例中,所述处理器220用于运行所述存储器210中存储的计算机可读指令或者处理数据,例如运行所述句子相似度判断方法的计算机可读指令。
所述网络接口230可包括无线网络接口或有线网络接口,该网络接口230通常用于在所述计算机设备200与其他电子设备之间建立通信连接。
本申请提供的句子相似度判断方法,通过从目标文本的“同义词、字面、词向量或者编辑距离”等不同的维度判断该文本的相似度,从而实现判断句子相似度的目的,相较于传统的句子相似度判断方法,无需消耗大量的人力资源进行语料标注,解放人力资源,极大提高资源的利用率。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的句子相似度判断方法的步骤。
本申请提供的句子相似度判断方法,通过从目标文本的“同义词、字面、词向量或者编辑距离”等不同的维度判断该文本的相似度,从而实现判断句子相似度的目的,相较于传统的句子相似度判断方法,无需消耗大量的人力资源进行语料标注,解放人力资源,极大提高资源的利用率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种句子相似度判断方法,其特征在于,包括下述步骤:
接收用户终端发送的相似度判断请求,所述相似度判断请求至少携带有第一目标文本以及第二目标文本;
基于无监督相似判断规则获取所述第一目标文本以及第二目标文本的初始匹配结果,所述无监督相似判断规则由同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则中的一种或者多种组合组成;
基于所述同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则的权重值对所述初始匹配结果进行线性插值操作,得到最终匹配结果;
向所述用户终端输出所述最终匹配结果。
2.根据权利要求1所述的句子相似度判断方法,其特征在于,所述同义词匹配规则的计算方法表示为:
Figure FDA0002912542250000011
其中,S1,S2分别表示第一目标文本以及第二目标文本;C1,C2分别表示S1与S2的内容词的集合;Ac表示所述内容词中成对的集合;WordSim表示基于同义词集合的词相似度;wi,wj分别表示所述成对的集合中第i个候选词以及第j个候选词。
3.根据权利要求2所述的句子相似度判断方法,其特征在于,所述Wordsim表示为:
Figure FDA0002912542250000012
其中,NS1是候选词w1的邻居的集合;NS2是候选词w2的邻居的集合。
4.根据权利要求1所述的句子相似度判断方法,其特征在于,所述字面匹配规则的计算方法表示为:
Figure FDA0002912542250000013
其中,αk表示所述候选词wk在句子中的逆文频。
5.根据权利要求1所述的句子相似度判断方法,其特征在于,所述词向量匹配规则的计算方法表示为:
Figure FDA0002912542250000021
Figure FDA0002912542250000022
其中,vi表示候选词wi的词向量,idf(wi)表示候选词wi的idf值。
6.根据权利要求1所述的句子相似度判断方法,其特征在于,所述编辑距离匹配规则的计算方法表示为:
Figure FDA0002912542250000023
其中,cost表示指示器函数,当同义词集合Sim(wi,wj)>0.5时为1,否则为0。
7.根据权利要求1所述的句子相似度判断方法,其特征在于,在接收用户终端发送的相似度判断请求,所述相似度判断请求至少携带有第一目标文本以及第二目标文本的步骤之后,还包括:
将所述第一目标文本以及第二目标文本存储至区块链中。
8.一种句子相似度判断装置,其特征在于,包括:
请求接收模块,用于接收用户终端发送的相似度判断请求,所述相似度判断请求至少携带有第一目标文本以及第二目标文本;
初始结果获取模块,用于基于无监督相似判断规则获取所述第一目标文本以及第二目标文本的初始匹配结果,所述无监督相似判断规则由同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则中的一种或者多种组合组成;
最终结果获取模块,用于基于所述同义词匹配规则、字面匹配规则、词向量匹配规则或者编辑距离匹配规则的权重值对所述初始匹配结果进行线性插值操作,得到最终匹配结果;
最终结果输出模块,用于向所述用户终端输出所述最终匹配结果。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的句子相似度判断方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的句子相似度判断方法的步骤。
CN202110090640.6A 2021-01-22 2021-01-22 一种句子相似度判断方法、装置、计算机设备及存储介质 Pending CN113032519A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110090640.6A CN113032519A (zh) 2021-01-22 2021-01-22 一种句子相似度判断方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110090640.6A CN113032519A (zh) 2021-01-22 2021-01-22 一种句子相似度判断方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113032519A true CN113032519A (zh) 2021-06-25

Family

ID=76459860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110090640.6A Pending CN113032519A (zh) 2021-01-22 2021-01-22 一种句子相似度判断方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113032519A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673225A (zh) * 2021-08-20 2021-11-19 中国人民解放军国防科技大学 中文句子相似性判别方法、装置、计算机设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216968A (zh) * 2014-08-25 2014-12-17 华中科技大学 一种基于文件相似度的排重方法及系统
CN106897775A (zh) * 2017-01-25 2017-06-27 浙江大学 基于贝叶斯集成学习的软测量建模方法
CN107329961A (zh) * 2017-07-03 2017-11-07 西安市邦尼翻译有限公司 一种云翻译记忆库快速增量式模糊匹配的方法
CN108304378A (zh) * 2018-01-12 2018-07-20 深圳壹账通智能科技有限公司 文本相似度计算方法、装置、计算机设备和存储介质
CN109597992A (zh) * 2018-11-27 2019-04-09 苏州浪潮智能软件有限公司 一种结合同义词词典和词嵌入向量的问句相似度计算方法
WO2019115200A1 (en) * 2017-12-11 2019-06-20 Koninklijke Philips N.V. System and method for efficient ensembling of natural language inference
CN110516867A (zh) * 2019-08-21 2019-11-29 广东电网有限责任公司 一种基于主成分分析的集成学习负荷预测方法
US20200311207A1 (en) * 2019-03-28 2020-10-01 Adobe Inc. Automatic text segmentation based on relevant context

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216968A (zh) * 2014-08-25 2014-12-17 华中科技大学 一种基于文件相似度的排重方法及系统
CN106897775A (zh) * 2017-01-25 2017-06-27 浙江大学 基于贝叶斯集成学习的软测量建模方法
CN107329961A (zh) * 2017-07-03 2017-11-07 西安市邦尼翻译有限公司 一种云翻译记忆库快速增量式模糊匹配的方法
WO2019115200A1 (en) * 2017-12-11 2019-06-20 Koninklijke Philips N.V. System and method for efficient ensembling of natural language inference
CN108304378A (zh) * 2018-01-12 2018-07-20 深圳壹账通智能科技有限公司 文本相似度计算方法、装置、计算机设备和存储介质
CN109597992A (zh) * 2018-11-27 2019-04-09 苏州浪潮智能软件有限公司 一种结合同义词词典和词嵌入向量的问句相似度计算方法
US20200311207A1 (en) * 2019-03-28 2020-10-01 Adobe Inc. Automatic text segmentation based on relevant context
CN110516867A (zh) * 2019-08-21 2019-11-29 广东电网有限责任公司 一种基于主成分分析的集成学习负荷预测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673225A (zh) * 2021-08-20 2021-11-19 中国人民解放军国防科技大学 中文句子相似性判别方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
WO2022174491A1 (zh) 基于人工智能的病历质控方法、装置、计算机设备及存储介质
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN112085091B (zh) 基于人工智能的短文本匹配方法、装置、设备及存储介质
CN112328786A (zh) 基于bert的文本分类方法、装置、计算机设备及存储介质
CN112925914B (zh) 数据安全分级方法、系统、设备及存储介质
CN113505601A (zh) 一种正负样本对构造方法、装置、计算机设备及存储介质
CN112686053A (zh) 一种数据增强方法、装置、计算机设备及存储介质
CN112084779B (zh) 用于语义识别的实体获取方法、装置、设备及存储介质
CN110442872A (zh) 一种文本要素完整性审核方法及装置
CN113627797A (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN112395391A (zh) 概念图谱构建方法、装置、计算机设备及存储介质
CN112084752A (zh) 基于自然语言的语句标注方法、装置、设备及存储介质
CN112836521A (zh) 问答匹配方法、装置、计算机设备及存储介质
CN112949320A (zh) 基于条件随机场的序列标注方法、装置、设备及介质
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN113822040B (zh) 一种主观题阅卷评分方法、装置、计算机设备及存储介质
CN113626576A (zh) 远程监督中关系特征抽取方法、装置、终端及存储介质
CN113361248B (zh) 一种文本的相似度计算的方法、装置、设备及存储介质
CN113420161B (zh) 一种节点文本融合方法、装置、计算机设备及存储介质
CN113032519A (zh) 一种句子相似度判断方法、装置、计算机设备及存储介质
CN111191011B (zh) 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN116701593A (zh) 基于GraphQL的中文问答模型训练方法及其相关设备
CN114742058B (zh) 一种命名实体抽取方法、装置、计算机设备及存储介质
CN112329422A (zh) 基于TextRank的摘要获取方法、装置、计算机设备及存储介质
CN115099875A (zh) 基于决策树模型的数据分类方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210625