CN110688452A - 一种文本语义相似度评估方法、系统、介质和设备 - Google Patents

一种文本语义相似度评估方法、系统、介质和设备 Download PDF

Info

Publication number
CN110688452A
CN110688452A CN201910782086.0A CN201910782086A CN110688452A CN 110688452 A CN110688452 A CN 110688452A CN 201910782086 A CN201910782086 A CN 201910782086A CN 110688452 A CN110688452 A CN 110688452A
Authority
CN
China
Prior art keywords
text
semantic similarity
semantic
data set
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910782086.0A
Other languages
English (en)
Other versions
CN110688452B (zh
Inventor
孙健
汤宇腾
彭德光
白梨
唐贤伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Trillion Light Polytron Technologies Inc
Original Assignee
Chongqing Trillion Light Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Trillion Light Polytron Technologies Inc filed Critical Chongqing Trillion Light Polytron Technologies Inc
Priority to CN201910782086.0A priority Critical patent/CN110688452B/zh
Publication of CN110688452A publication Critical patent/CN110688452A/zh
Application granted granted Critical
Publication of CN110688452B publication Critical patent/CN110688452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种文本语义相似度评估方法、系统、介质和设备,包括获取文本数据,创建文本数据集,并通过无监督学习方式构建语义向量模型;根据所述语义向量模型对所述文本数据集中的文本进行排序;专业人员根据专业知识校准文本排序结果,并根据校准结果创建训练样本集;将所述训练样本集作为神经网络的输入,训练文本语义相似模型;将用户的询问语句输入所述语义相似模型,获取文本检索结果;在大量词频相似或语义具有专业知识情境下,本发明能有效提高文本检索的效率和准确性。

Description

一种文本语义相似度评估方法、系统、介质和设备
技术领域
本发明涉及自然语言处理领域,尤其涉及一种文本语义相似度评估方法、系统、介质和设备。
背景技术
目前对于文本相似度的研究主要倾向于两个方面:文本表示和相似度计算。关于文本表示,目前主要有词袋法和TF-IDF(term frequency and inverse documentfrequency)等标准文本表示方法。而常用的相似度计算方法包括余弦相似度、欧氏距离、杰卡德系数等。当文本之间单词重叠率不高且存在需要专业知识才能准确理解时,词袋法和TF-IDF词向量表示方法将不再适用于表示文本间的相似性。这是由于词袋法和TF-IDF等表示方法往往忽略了单词的词序以及单词间的关联性。而且基于上述文本表示方法的相似度计算方法更多是针对于文本中的词频组成的词向量,而非文本语义的相似度。
此外,传统的文本处理方法,往往需要预先消耗大量的人工成本进行数据标注,费时费力且效率低。
发明内容
鉴于以上现有技术存在的问题,本发明提出一种文本语义相似度评估方法、系统、介质和设备,主要解决如何提高文本间语义相似性计算的准确性问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种文本语义相似度评估方法,包括:
获取文本数据,创建文本数据集,并通过无监督学习方式构建语义向量模型;
根据所述语义向量模型对所述文本数据集中的文本进行排序;
专业人员根据专业知识校准文本排序结果,并根据校准结果创建训练样本集;
将所述训练样本集作为神经网络的输入,训练文本语义相似模型;
将用户的询问语句输入所述语义相似模型,获取文本检索结果。
可选地,所述通过无监督学习方式构建语义向量模型包括:
获取所述文本数据集中文本对应的目标词向量;
根据所述文本数据集获取对应的询问文本;
获取所述询问文本对应的询问词向量;
根据所述目标词向量与所述询问词向量的距离相似度和余弦相似度构造语义相似度函数;
根据所述语义相似度函数计算所述文本数据集与所述询问文本中对应语句的语义相似度,获取语义向量模型。
可选地,所述语义相似度函数包括:
Simh(Q,D)=Pd*(Td-Dist(Q,D))/Td+Pc*Cos(Q,D)
其中,Q表示所述询问文本词向量集合,D表示所述文本数据集中的文本词向量集合;Dist(Q,D)为距离相似度,Cos(Q,D)为余弦相似度;Pd表示距离相似度的权重,Pc表示余弦相似度的权重;Td为距离相似度的阈值。
可选地,所述创建训练样本集包括:
根据所述文本数据集中文本与所述询问文本中语句的相似度大小,对所述文本数据集中的文本语句进行排序,
根据设定的所述语义相似度阈值,按照排序结果将所述文本数据集中文本对应的语句与所述询问文本对应的语句组成训练数据组;
专业人员依据领域知识校准所述训练数据组,创建训练样本集。
可选地,所述训练文本语义相似度模型包括:
创建神经网络拓扑结构;
利用所述神经网络的激活函数构造预测模型;
根据所述预测模型构造所述神经网络的损失函数;
将所述训练样本集输入所述神经网络,训练所述文本语义相似模型。
可选地,所述预测模型表示为:
Figure BDA0002176920030000021
其中,
Figure BDA0002176920030000022
表示所述文本数据集中与询问文本中语句对应的第i个词向量;Qi表示所述询问文本中的第i个词向量;f表示语义相似度分数;k表示所述文本数据集中被选中作为所述训练样本集的第K个词向量;N为所述文本数据集中文本总数。
可选地,所述损失函数表示为:
其中,M为所述训练样本集中训练样本的数量;
Figure BDA0002176920030000032
表示所述文本数据集中与询问文本中语句对应的第i个词向量;Qi表示所述询问文本中的第i个词向量。
一种文本语义相似度评估系统,包括:
模型创建模块,用于获取文本数据,创建文本数据集,并通过无监督学习方式构建语义向量模型;
排序模块,根据所述语义向量模型对所述文本数据集中的文本进行排序;
校准模块,用于专业人员根据专业知识校准文本排序结果,并根据校准结果创建训练样本集;
语义模型训练模块,用于将所述训练样本集作为神经网络的输入,训练文本语义相似模型;
应用模块,用于将用户的询问语句输入所述语义相似模型,获取文本检索结果。
一种计算机可读存储介质,其中存储有计算机程序,所述计算机程序被处理器加载执行时,实现所述文本语义相似度评估方法。
一种设备,包括处理器和存储器;其中,
所述存储器用于存储计算机程序;
所述处理器用于加载并执行所述计算机程序,使得所述设备执行所述文本语义相似度评估方法。
如上所述,本发明一种文本语义相似度评估方法、系统、介质和设备,具有以下有益效果。
通过计算文本间的语义相似的,获取文本间的语义关联性,并加入人为校准标记,可提高文本检索的准确性;通过语义相似度排序筛选样本,快速缩小文本检索的范围,提高文本检索的效率。
附图说明
图1为本发明一实施例中的文本语义相似度评估方法的流程图。
图2为本发明一实施例中的文本语义相似度评估系统的模块图。
图3为本发明一实施例中的设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一种文本语义相似度评估方法,包括步骤S01-S05。
在步骤S01中,获取文本数据,创建文本数据集,并通过无监督学习方式构建语义向量模型:
可从维基百科Wikipedia、WordNet和DBpedia等公用的文本知识网站中获取文本数据。维基百科等百科全书类网站包含众多的知识门类,可以通过词条检索的方式获取某一领域的知识文本。以法律领域为例,司法判例可以为律师提供直接的参考信息,有利于律师根据参考信息做出陈述。同样的在法律咨询中,在先的司法案例如与当前案件具有较高的相似性,则可作为当前案件的一种具有足够说服力的工具。因此,可从百科类网站中抓取有关法律的各类判例及其他文本资料,并输入本地数据库中,创建法律文本数据集。
在一实施例中,构建语义向量模型,还需要获取文本数据集对应的询问文本,询问文本的获取可通过收集整理网站上用户通常的询问语句,也可通过本领域专家整理该领域常见的询问文本。以法律领域为例,可通过Python等爬虫工具从法务之家、法务论坛等处抓取询问语句,构建询问文本。
计算询问文本和文本数据集中文本的语义相似度。在进行相似度计算之前,可预先对文本数据集中的文本进行分词处理,分词可采用常规的Hanlp分词方法,这里不对具体分词方法进行限制。
将经过分词的到的词语通过word2vec转化成词向量。也可采用TF-IDF算法构建文本数据集对应的词向量,获取文本数据集中文本对应的目标词向量。
在一实施例中,也可采用同样的方法获取询问文本对应的询问词向量。
在一实施例中,假设有询问文本Q和文本数据集中文本D,文本Q由Nq个单词组成,询问文本Q的向量空间可表示为:
Figure BDA0002176920030000051
其中,表示询问文本Q中第K个单词的词向量。
同样的,文本D由Nd个单词组成,文本D的向量空间可表示为:
Figure BDA0002176920030000053
其中,
Figure BDA0002176920030000054
表示文本D中第K个单词的词向量。
计算文本Q和D的距离相似度Dist(Q,D),可表示为:
Figure BDA0002176920030000055
其中,
Figure BDA0002176920030000056
表示询问文本Q中第K个单词的词向量与文本D中词向量的距离,其具体可表示为:
Figure BDA0002176920030000057
其中,dist表示两个词向量间的欧式距离。
距离相似度的权重可通过标准化的TF-IDF算法计算得到,具体可表示为:
其中,tfidfk对应第K个单词的词频。
为了保持距离相似度计算的对称性,可将Dist(Q,D)进一步表示为:
Dist(Q,D)=min{Dist(Q,D),Dist(D,Q)}
在一实施例中,根据所述目标词向量与所述询问词向量的距离相似度和余弦相似度构造语义相似度函数,可表示为:
Simh(Q,D)=Pd*(Td-Dist(Q,D))/Td+Pc*Cos(Q,D)
其中,Pd表示距离相似度的权重,Pc表示余弦相似度的权重;Td为距离相似度的阈值,其中Pd+Pc=1。将阈值引入语义相似度函数是为了保障在距离相似度的值为0,余弦相似度值为1时,语义相似度的值为1。Pd和Pc的值可根据经验进行调整。
根据构造的语义相似度函数可以计算出询问文本中对应语句与文本数据集中对应文本的语义相似度。通过询问文本和文本数据集进行模型训练,获取语义向量模型。
在步骤S02中,根据所述语义向量模型对所述文本数据集中的文本进行排序:
可以按照计算得到的语义相似度值由大到小对文本数据集中的文本进行排序。在一实施例中,根据询问文本中语句的语义,可获取对应的聚类文本数据,聚类的每一个类别的文本数据可按照相似度的大小进行降序排列。
在步骤S03中,专业人员根据专业知识校准文本排序结果,并根据校准结果创建训练样本集:
可通过专业人员对排序结果进行人工校准。在一实施例中,也可设置语义相似度阈值,根据步骤S02中得到的排序结果,结合语义相似度的阈值可筛选出对应的文本数据库中文本。根据步骤S02中的聚类类别可将询问文本中的语句与文本数据库中的文本组成训练数据组。将所有的训练数据组整合成训练样本集,用于训练文本检索模型。
在一实施例中,假设询问文本包含M个询问语句,可表示为:
{Qi,i=1,...,M}
用户可通过选择任何一个询问语句Qi获取语义相似度较高的文本数据集中文本。以
Figure BDA0002176920030000061
表示经过筛选的文本数据集中的文本,则训练样本集可表示为:
Figure BDA0002176920030000062
在步骤S04中,将训练样本集作为神经网络的输入,训练文本语义相似模型,获取与询问文本语义相似度最高的所述文本数据集中的文本。
在一实施例中,将训练样本集中的训练数据组作为输入,创建神经网络拓扑结构;可采用卷积神经网络构造网络拓扑结构。卷积神经网络通常包括输入层、卷积层、池化层、隐含层和输出层。卷积层利用多个过滤器的窗函数以不同间隔提起输入数据的特征,文本中所有信息将积聚在卷积层。再由池化层对特征信息进行进一步筛选,根据池化层的阈值,筛选出达到阈值的特征数据,通过卷积神经网络对输出结果进行打分。
在一实施例中,设置隐含层的激活函数为双曲函数tanh,则通过双曲函数构造的预测模型可表示为:
Figure BDA0002176920030000071
其中,f为语义相似度分数;k表示所述文本数据集中被选中作为所述训练样本集的第K个词向量,N为文本数据集中文本总数。
根据预测模型构造卷积神经网络的损失函数,具体可表示为:
Figure BDA0002176920030000072
其中,M为训练样本集中的样本数量。
根据前述构造的神经网络拓扑结构,将训练样本输入卷积神经网络,对训练样本进行评分,得到文本语义相似模型。
在步骤S05中,将用户的询问语句输入所述语义相似模型,获取文本检索结果:
在一实施例中,可以根据用户输入的询问文本,通过询问文本与文本数据集按照构建训练样本集的方法构建检索文本对,将检索文本对输入文本语义相似模型,检索文本对评分越高,则语义相似度越高,根据评分情况获取与询问文本语义相似度最高的文本数据集中的文本。
根据本发明的实施例,还提供了一种计算机存储介质,存储介质中存储有计算机程序,该计算机程序执行时可以实现前述的语义分析识别方法。计算机存储介质可以包括计算机存储的任何可用介质或者包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质包括磁性介质(如:软盘、硬盘、磁带)、光介质(如:DVD)、半导体介质(如:固态硬盘)等。
请参阅图2,本实施例提供一种文本语义相似度评估系统,用于执行前述方法实施例中所述的语义分析识别方法。由于系统实施例的技术原理与前述方法实施例的技术原理相似,因而不再对同样的技术细节做重复性赘述。
在一实施例中,文本语义相似度评估系统包括模型创建模块10、排序模块11、校准模块12、语义模型训练模块13、应用模块14。模型创建模块10用于辅助执行执行前述方法实施例介绍的步骤S01,排序模块11用于执行前述方法实施例介绍的步骤S02,校准模块12用于执行前述方法实施例中的步骤S03;语义模型训练模块13用于执行前述方法实施例中的步骤S04;应用模块14用于执行前述方法实施例中的步骤S05。
请参阅图3,本实施例提供一种设备,设备可以是台式机、便携式电脑等,具体地,设备至少包括处理器20和存储器21。
处理器20用于执行前述方法实施例中的全部或部分步骤。处理器20可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明一种文本相似度评估方法、系统、介质和设备,通过通过相似度计算进行文本排序,根据排序结果进行文本筛选,可代替人工获取标注数据;经过筛选后的文本数据用于构建训练样本集,可极大地提高文本检索销率;通过构造神经网络,训练文本语义相似模型,将经过相似度计算的样本作为神经网络输入,增强语句之间的关联性,可有效增强文本语义检索的准确性。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种文本语义相似度评估方法,其特征在于,包括:
获取文本数据,创建文本数据集,并通过无监督学习方式构建语义向量模型;
根据所述语义向量模型对所述文本数据集中的文本进行排序;
专业人员根据专业知识校准文本排序结果,并根据校准结果创建训练样本集;
将所述训练样本集作为神经网络的输入,训练文本语义相似模型;
将用户的询问语句输入所述语义相似模型,获取文本检索结果。
2.根据权利要求1所述的文本语义相似度评估方法,其特征在于,所述通过无监督学习方式构建语义向量模型包括:
获取所述文本数据集中文本对应的目标词向量;
根据所述文本数据集获取对应的询问文本;
获取所述询问文本对应的询问词向量;
根据所述目标词向量与所述询问词向量的距离相似度和余弦相似度构造语义相似度函数;
根据所述语义相似度函数计算所述文本数据集与所述询问文本中对应语句的语义相似度,获取语义向量模型。
3.根据权利要求2所述的文本语义相似度评估方法,其特征在于,所述语义相似度函数包括:
Simh(Q,D)=Pd*(Td-Dist(Q,D))/Td+Pc*Cos(Q,D)
其中,Q表示所述询问文本词向量集合,D表示所述文本数据集中的文本词向量集合;Dist(Q,D)为距离相似度,Cos(Q,D)为余弦相似度;Pd表示距离相似度的权重,Pc表示余弦相似度的权重;Td为距离相似度的阈值。
4.根据权利要求2所述的文本语义相似度评估方法,其特征在于,所述创建训练样本集包括:
根据所述文本数据集中文本与所述询问文本中语句的相似度大小,对所述文本数据集中的文本语句进行排序,
根据设定的所述语义相似度阈值,按照排序结果将所述文本数据集中文本对应的语句与所述询问文本对应的语句组成训练数据组;
专业人员依据领域知识校准所述训练数据组,创建训练样本集。
5.根据权利要求1所述的文本语义相似度评估方法,其特征在于,所述训练文本语义相似度模型包括:
创建神经网络拓扑结构;
利用所述神经网络的激活函数构造预测模型;
根据所述预测模型构造所述神经网络的损失函数;
将所述训练样本集输入所述神经网络,训练所述文本语义相似模型。
6.根据权利要求5所述的文本语义相似度评估方法,其特征在于,所述预测模型表示为:
Figure FDA0002176920020000021
其中,
Figure FDA0002176920020000022
表示所述文本数据集中与询问文本中语句对应的第i个词向量;Qi表示所述询问文本中的第i个词向量;f表示语义相似度分数;k表示所述文本数据集中被选中作为所述训练样本集的第K个词向量;N为所述文本数据集中文本总数。
7.根据权利要求5所述的文本语义相似度评估方法,其特征在于,所述损失函数表示为:
Figure FDA0002176920020000023
其中,M为所述训练样本集中训练样本的数量;
Figure FDA0002176920020000024
表示所述文本数据集中与询问文本中语句对应的第i个词向量;Qi表示所述询问文本中的第i个词向量。
8.一种文本语义相似度评估系统,其特征在于,包括:
模型创建模块,用于获取文本数据,创建文本数据集,并通过无监督学习方式构建语义向量模型;
排序模块,根据所述语义向量模型对所述文本数据集中的文本进行排序;
校准模块,用于专业人员根据专业知识校准文本排序结果,并根据校准结果创建训练样本集;
语义模型训练模块,用于将所述训练样本集作为神经网络的输入,训练文本语义相似模型;
应用模块,用于将用户的询问语句输入所述语义相似模型,获取文本检索结果。
9.一种计算机可读存储介质,其中存储有计算机程序,其特征在于,所述计算机程序被处理器加载执行时,实现权利要求1至7任一所述的方法。
10.一种设备,其特征在于,包括处理器和存储器;其中,
所述存储器用于存储计算机程序;
所述处理器用于加载并执行所述计算机程序,使得所述设备执行权利要求1至7中任一所述的方法。
CN201910782086.0A 2019-08-23 2019-08-23 一种文本语义相似度评估方法、系统、介质和设备 Active CN110688452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910782086.0A CN110688452B (zh) 2019-08-23 2019-08-23 一种文本语义相似度评估方法、系统、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910782086.0A CN110688452B (zh) 2019-08-23 2019-08-23 一种文本语义相似度评估方法、系统、介质和设备

Publications (2)

Publication Number Publication Date
CN110688452A true CN110688452A (zh) 2020-01-14
CN110688452B CN110688452B (zh) 2022-09-13

Family

ID=69108431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910782086.0A Active CN110688452B (zh) 2019-08-23 2019-08-23 一种文本语义相似度评估方法、系统、介质和设备

Country Status (1)

Country Link
CN (1) CN110688452B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353033A (zh) * 2020-02-27 2020-06-30 支付宝(杭州)信息技术有限公司 一种训练文本相似度模型的方法和系统
CN112364146A (zh) * 2020-11-27 2021-02-12 支付宝(杭州)信息技术有限公司 查询文档排序方法、装置及电子设备
CN112949305A (zh) * 2021-05-13 2021-06-11 平安科技(深圳)有限公司 负反馈信息采集方法、装置、设备及存储介质
CN113254586A (zh) * 2021-05-31 2021-08-13 中国科学院深圳先进技术研究院 一种基于深度学习的无监督文本检索方法
WO2021159613A1 (zh) * 2020-02-14 2021-08-19 深圳壹账通智能科技有限公司 文本语义相似度的分析方法、装置及计算机设备
WO2024041717A1 (de) 2022-08-22 2024-02-29 Taxy.io GmbH Computerimplementiertes verfahren und computerprogrammprodukt

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915386A (zh) * 2015-05-25 2015-09-16 中国科学院自动化研究所 一种基于深度语义特征学习的短文本聚类方法
CN106844346A (zh) * 2017-02-09 2017-06-13 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
CN109101494A (zh) * 2018-08-10 2018-12-28 哈尔滨工业大学(威海) 一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质
CN109460457A (zh) * 2018-10-25 2019-03-12 北京奥法科技有限公司 文本语句相似度计算方法、智能政务辅助解答系统及其工作方法
CN109543084A (zh) * 2018-11-09 2019-03-29 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915386A (zh) * 2015-05-25 2015-09-16 中国科学院自动化研究所 一种基于深度语义特征学习的短文本聚类方法
CN106844346A (zh) * 2017-02-09 2017-06-13 北京红马传媒文化发展有限公司 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words
CN109101494A (zh) * 2018-08-10 2018-12-28 哈尔滨工业大学(威海) 一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质
CN109460457A (zh) * 2018-10-25 2019-03-12 北京奥法科技有限公司 文本语句相似度计算方法、智能政务辅助解答系统及其工作方法
CN109543084A (zh) * 2018-11-09 2019-03-29 西安交通大学 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KEET SUGATHADASA: ""Synergistic union of Word2Vec and lexicon for domain specific semantic similarity"", 《2017 IEEE INTERNATIONAL CONFERENCE ON INDUSTRIAL AND INFORMATION SYSTEMS (ICIIS)》 *
王腾、朱青、王珊: ""基于语义相似度的Web信息可信分析"", 《计算机学报》 *
郑惺、涂笑、陆海: ""基于卷积神经网络的多文本特征问答系统"", 《电脑知识与技术》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021159613A1 (zh) * 2020-02-14 2021-08-19 深圳壹账通智能科技有限公司 文本语义相似度的分析方法、装置及计算机设备
CN111353033A (zh) * 2020-02-27 2020-06-30 支付宝(杭州)信息技术有限公司 一种训练文本相似度模型的方法和系统
CN111353033B (zh) * 2020-02-27 2023-04-07 支付宝(杭州)信息技术有限公司 一种训练文本相似度模型的方法和系统
CN112364146A (zh) * 2020-11-27 2021-02-12 支付宝(杭州)信息技术有限公司 查询文档排序方法、装置及电子设备
CN112949305A (zh) * 2021-05-13 2021-06-11 平安科技(深圳)有限公司 负反馈信息采集方法、装置、设备及存储介质
CN113254586A (zh) * 2021-05-31 2021-08-13 中国科学院深圳先进技术研究院 一种基于深度学习的无监督文本检索方法
CN113254586B (zh) * 2021-05-31 2021-11-05 中国科学院深圳先进技术研究院 一种基于深度学习的无监督文本检索方法
WO2024041717A1 (de) 2022-08-22 2024-02-29 Taxy.io GmbH Computerimplementiertes verfahren und computerprogrammprodukt

Also Published As

Publication number Publication date
CN110688452B (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN110688452B (zh) 一种文本语义相似度评估方法、系统、介质和设备
CN108628971B (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
CN108073568B (zh) 关键词提取方法和装置
WO2020224097A1 (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
CN111898366B (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN104750798B (zh) 一种应用程序的推荐方法和装置
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN110399515B (zh) 图片检索方法、装置及图片检索系统
CN112395506A (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
CN110334209B (zh) 文本分类方法、装置、介质及电子设备
CN111090771B (zh) 歌曲搜索方法、装置及计算机存储介质
CN112632261A (zh) 智能问答方法、装置、设备及存储介质
CN112199602A (zh) 岗位推荐方法、推荐平台及服务器
CN110598123B (zh) 基于画像相似性的信息检索推荐方法、装置及存储介质
CN113486670B (zh) 基于目标语义的文本分类方法、装置、设备及存储介质
CN113282831A (zh) 一种搜索信息的推荐方法、装置、电子设备及存储介质
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN116501875B (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
CN112417147A (zh) 训练样本的选取方法与装置
CN114780712B (zh) 一种基于质量评价的新闻专题生成方法及装置
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN112215006B (zh) 机构命名实体归一化方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 400000 6-1, 6-2, 6-3, 6-4, building 7, No. 50, Shuangxing Avenue, Biquan street, Bishan District, Chongqing

Applicant after: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD.

Address before: 400000 2-2-1, 109 Fengtian Avenue, tianxingqiao, Shapingba District, Chongqing

Applicant before: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant