CN109635077A - 文本相似度的计算方法、装置、电子设备及存储介质 - Google Patents

文本相似度的计算方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN109635077A
CN109635077A CN201811551461.2A CN201811551461A CN109635077A CN 109635077 A CN109635077 A CN 109635077A CN 201811551461 A CN201811551461 A CN 201811551461A CN 109635077 A CN109635077 A CN 109635077A
Authority
CN
China
Prior art keywords
text
vocabulary
similarity
intersection
indicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811551461.2A
Other languages
English (en)
Inventor
徐乐乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Douyu Network Technology Co Ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201811551461.2A priority Critical patent/CN109635077A/zh
Publication of CN109635077A publication Critical patent/CN109635077A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本相似度的计算方法,应用于信息技术领域,包括:对待处理的两条文本进行分词处理,得到组成两条文本的两个词汇集合,将两个词汇集合进行并集处理和交集处理,得到两个词汇集合的并集词汇和交集词汇,再分别输入各词汇至预先训练的TF‑IDF空间向量集合,得出各词汇的权重值,然后基于并集词汇和交集词汇的权重值,计算得出两条文本的相似度,本发明还公开了一种文本相似度的计算装置、电子设备及存储介质,通过综合文本中词汇本身的重要程度以及共有词汇的重要程度对相似度计算的影响,提高文本相似度计算的准确性。

Description

文本相似度的计算方法、装置、电子设备及存储介质
技术领域
本发明涉及信息技术领域,尤其涉及一种文本相似度的计算方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的飞速发展和互联网的快速普及,人类的信息交流变得越来越方便快捷。
在计算文本相似度时,现有技术一般使用余弦相似度或者欧式距离计算,采用这种方法,没有考虑到文本中词项本身的重要程度对相似度的影响,使计算结果不准确。
发明内容
本发明的主要目的在于提供一种文本相似度的计算方法、装置、电子设备及存储介质,提高文本相似度计算结果的准确性。
为实现上述目的,本发明实施例第一方面提供一种文本相似度的计算方法,包括:
对待处理的两条文本分别进行分词处理,得到组成所述两条文本的两个词汇集合;
将所述两个词汇集合进行并集处理和交集处理,得到所述两个词汇集合的并集词汇和交集词汇;
分别输入各所述词汇至预先训练的TF-IDF空间向量集合,得出各所述词汇的权重值;
基于所述并集词汇和交集词汇的权重值,计算得出所述两条文本的相似度。
进一步地,所述基于所述并集词汇和交集词汇的权重值,计算得出所述两条文本的相似度包括:
输入所述并集词汇和交集词汇的权重值至如下文本相似度计算公式,计算得出所述两条文本的相似度:
其中,A和B分别表示所述两条文本,w∈A∩B表示文本A与文本B中的交集词汇,w∈A∪B表示文本A与文本B中的并集词汇,wtf-idf表示词汇的权重值,len(A∩B)表示文本A和文本B中交集词汇的数量,len(A)表示文本A中词汇的数量,len(B)表示文本B中词汇的数量,sim(A,B)表示文本A和文本B的相似度。
进一步地,所述TF-IDF空间向量集合由多条语料文本训练得出。
进一步地,所述TF-IDF空间向量集合由多条语料文本训练得出包括:
对各所述语料文本进行预处理,得到所述语料文本中的特征词;
通过TF-IDF权重公式,向量化各所述特征词,得到所述TF-IDF空间向量集合;
令i表示第i个语料文本,j表示第j个特征词,tfij表示第i个语料文本中第j个特征词的词频,N为语料文本总数,Nwij表示出现第i个语料文本中第j个特征词的语料文本数量,wij表示第i个语料文本中第j个特征词的权重值,则:
本发明实施例第二方面提供一种文本相似度的计算装置,包括:
分词模块,用于对待处理的两条文本分别进行分词处理,得到组成所述两条文本的两个词汇集合;
并集处理模块,用于将所述两个词汇集合进行并集处理,得到所述两个词汇集合的并集词汇;
交集处理模块,用于将所述两个词汇集合进行交集处理,得到所述两个词汇集合的交集词汇;
输入模块,用于分别输入各所述词汇至预先训练的TF-IDF空间向量集合,得出各所述词汇的权重值;
计算模块,用于基于所述并集词汇和交集词汇的权重值,计算得出所述两条文本的相似度。
本发明实施例第三方面提供了一种电子设备,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本发明实施例第一方面提供的文本相似度的计算方法。
本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面提供的文本相似度的计算方法。
从上述本发明实施例可知,本发明提供的文本相似度的计算方法、装置、电子设备及存储介质,通过对待处理的两条文本进行分词处理,得到组成两条文本的两个词汇集合,将两个词汇集合进行并集处理和交集处理,得到两个词汇集合的并集词汇和交集词汇,再分别输入各词汇至预先训练的TF-IDF空间向量集合,得出各词汇的权重值,然后基于并集词汇和交集词汇的权重值,计算得出两条文本的相似度,通过综合文本中词汇本身的重要程度以及共有词汇的重要程度对相似度计算的影响,提高文本相似度计算的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一实施例提供的文本相似度的计算方法的流程示意图;
图2为本发明第二实施例提供的文本相似度的计算装置的结构示意图;
图3示出了一种电子设备的硬件结构图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
TF-IDF(term frequency-inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是指词频(Term Frequency),IDF是指逆文本频率指数(Inverse Document Frequency)。
请参阅图1,图1为本发明第一实施例提供的文本相似度的计算方法的流程示意图,该文本相似度的计算方法可应用在电子设备中,该电子设备可包括:手机、平板电脑(Portable Android Device,PAD),笔记本电脑以及个人数字助理(Personal DigitalAssistant,PDA)等,该方法包括:
S101、对待处理的两条文本分别进行分词处理,得到组成该两条文本的两个词汇集合;
例如,两条文本分别由文本A和文本B表示,文本A=我想去北京读大学,文本B=北京的大学真好玩。将上述两条文本进行分词处理,分词后得到组成该两条文本的两个词汇集合,分别由词汇集合a和词汇集合b表示,则:
词汇集合a=我 想去 北京 读 大学
词汇集合b=北京 的 大学 真 好玩
S102、将该两个词汇集合进行并集处理和交集处理,得到该两个词汇集合的并集词汇和交集词汇;
用w∈A∩B表示文本A与文本B中的交集词汇,w∈A∪B表示文本A与文本B中的并集词汇,则:
w∈A∪B={我 想去 北京 读 大学 的 真 好玩}
w∈A∩B={北京 大学}
S103、分别输入各词汇至预先训练的TF-IDF空间向量集合,得出各词汇的权重值;
TF-IDF空间向量集合由多条语料文本训练得出。该语料文本可由用户自行选择设计,此处不做限制。
训练TF-IDF空间向量集合的具体过程如下:
首先对各语料文本进行预处理,得到语料文本中的特征词。具体的,预处理包括分词和去除停用词处理。其中,去除停用词可通过预设的停用词表实现,当语料文本中存在词汇在该预设的停用词表中时,该词汇即为预设停用词,则删除该词汇,最后得到该对话文本中的特征词。例如,语料文本:我喜欢小姐姐的歌声,首先对其进行分词处理,分词后得到:我喜欢小姐姐的歌声,由于预设停用词表中存在“的”字,去除停用词后得到:我喜欢小姐姐歌声。
然后,通过TF-IDF权重公式,向量化各特征词,得到该TF-IDF空间向量集合。示例性的,TF-IDF空间向量集合为{0.1,0.2,......,0.3,0.6}。TF-IDF空间向量集合里各个数值表示相应特征词在该多条语料文本中的权重值。
具体的,令i表示第i个语料文本,j表示第j个特征词,tfij表示第i个语料文本中第j个特征词的词频,N为语料文本总数,Nwij表示出现第i个语料文本中第j个特征词的语料文本数量,wij表示第i个语料文本中第j个特征词的权重值,则TF-IDF权重公式:
以下,对特征词的权重值计算进行举例说明。例如,语料文本的数量为3个,即N=3,其中:
第一个语料文本:游戏直播间中杰小姐姐进场开大了
第二个语料文本:直播间的小姐姐的歌声好听好听
第三个语料文本:我喜欢小姐姐的歌声
进行预处理后,则:
第一个语料文本:游戏 直播间 小姐姐 进场 开大
第二个语料文本:直播间 小姐姐 歌声 好听 好听
第三个语料文本:我 喜欢 小姐姐 歌声
假设计算第二个语料文本中“小姐姐”的权重值,则i=2,j=2,wij=w22,tfij=tf22=1,N=3,Nwij=Nw22=3,则:
进一步地,得到预先训练的TF-IDF空间向量集合后,然后分别输入各词汇至预先训练的TF-IDF空间向量集合,得出各词汇的权重值。示例性的,将词汇:我 想去 北京 读大学 的 真 好玩,输入至预先训练的TF-IDF空间向量集合。假设TF-IDF空间向量集合内上述词汇的权重值分别为0.1 0.1 0.3 0.1 0.6 0.2 0.3 0.1。则各词汇输入预先训练的TF-IDF空间向量集合后得到的权重值为0.1 0.1 0.3 0.1 0.6 0.2 0.3 0.1。
S104、基于该并集词汇和交集词汇的权重值,计算得出该两条文本的相似度。
输入并集词汇和交集词汇的权重值至如下文本相似度计算公式,计算得出该两条文本的相似度:
例如,w∈A∪B={我 想去 北京 读 大学 的 真 好玩},则
w∈A∩B={北京 大学},则
然后,用wtf-idf表示词汇的权重值,len(A∩B)表示文本A和文本B中交集词汇的数量,len(A)表示文本A中词汇的数量,len(B)表示文本B中词汇的数量,sim(A,B)表示文本A和文本B的相似度。
可知len(A)=5,len(B)=5,len(A∩B)=8,则:
因此,文本A(我想去北京读大学)和文本B(北京的大学真好玩)的相似度为0.1。
其中,可理解的,由上述文本相似度计算公式可知,词汇的权重值越大,对于相似度的影响越大。文本A和文本B中交集词汇的个数占文本总词汇个数的比例越大,则句子的相似度越高。
在本发明实施例中,对待处理的两条文本进行分词处理,得到组成两条文本的两个词汇集合,将两个词汇集合进行并集处理和交集处理,得到两个词汇集合的并集词汇和交集词汇,再分别输入各词汇至预先训练的TF-IDF空间向量集合,得出各词汇的权重值,然后基于并集词汇和交集词汇的权重值,计算得出两条文本的相似度,通过综合文本中词汇本身的重要程度以及共有词汇的重要程度对相似度计算的影响,提高文本相似度计算的准确性。
请参阅图2,图2为本发明第二实施例提供的文本相似度的计算装置的结构示意图,该装置可内置在电子设备中,该电子设备可包括:手机、平板电脑(Portable AndroidDevice,PAD),笔记本电脑以及个人数字助理(Personal Digital Assistant,PDA)等,该装置包括:
分词模块201、并集处理模块202、交集处理模块203、输入模块204和计算模块205。
分词模块201,用于对待处理的两条文本分别进行分词处理,得到组成所述两条文本的两个词汇集合。
例如,两条文本分别由文本A和文本B表示,文本A=我想去北京读大学,文本B=北京的大学真好玩。将上述两条文本进行分词处理,分词后得到组成该两条文本的两个词汇集合,分别由词汇集合a和词汇集合b表示,则:
词汇集合a=我 想去 北京 读 大学
词汇集合b=北京 的 大学 真 好玩
并集处理模块202,用于将所述两个词汇集合进行并集处理,得到所述两个词汇集合的并集词汇。
用w∈A∩B表示文本A与文本B中的交集词汇,则w∈A∩B={北京 大学}。
交集处理模块203,用于将所述两个词汇集合进行交集处理,得到所述两个词汇集合的交集词汇。
用w∈A∪B表示文本A与文本B中的并集词汇,则w∈A∪B={我 想去 北京 读 大学 的 真 好玩}。
输入模块204,用于分别输入各所述词汇至预先训练的TF-IDF空间向量集合,得出各所述词汇的权重值。
TF-IDF空间向量集合由多条语料文本训练得出。该语料文本可由用户自行选择设计,此处不做限制。然后,通过TF-IDF权重公式,向量化各特征词,得到该TF-IDF空间向量集合。示例性的,TF-IDF空间向量集合为{0.1,0.2,……,0.3,0.6}。TF-IDF空间向量集合里各个数值表示相应特征词在该多条语料文本中的权重值。
其中,令i表示第i个语料文本,j表示第j个特征词,tfij表示第i个语料文本中第j个特征词的词频,N为语料文本总数,Nwij表示出现第i个语料文本中第j个特征词的语料文本数量,wij表示第i个语料文本中第j个特征词的权重值,则TF-IDF权重公式:
进一步地,得到预先训练的TF-IDF空间向量集合后,然后分别输入各词汇至预先训练的TF-IDF空间向量集合,得出各词汇的权重值。示例性的,将词汇:我想去北京读大学的真好玩,输入至预先训练的TF-IDF空间向量集合。假设TF-IDF空间向量集合内上述词汇的权重值分别为0.1 0.1 0.3 0.1 0.6 0.2 0.3 0.1。则各词汇输入预先训练的TF-IDF空间向量集合后得到的权重值为0.1 0.1 0.3 0.1 0.6 0.2 0.3 0.1。
计算模块205,用于基于所述并集词汇和交集词汇的权重值,计算得出所述两条文本的相似度。
输入并集词汇和交集词汇的权重值至如下文本相似度计算公式,计算得出该两条文本的相似度:
例如,w∈A∪B={我 想去 北京 读 大学 的 真 好玩},则
w∈A∩B={北京 大学},则
然后,用wtf-idf表示词汇的权重值,len(A∩B)表示文本A和文本B中交集词汇的数量,len(A)表示文本A中词汇的数量,len(B)表示文本B中词汇的数量,sim(A,B)表示文本A和文本B的相似度。
可知len(A)=5,len(B)=5,len(A∩B)=8,则:
因此,文本A(我想去北京读大学)和文本B(北京的大学真好玩)的相似度为0.1。
其中,可理解的,由上述文本相似度计算公式可知,词汇的权重值越大,对于相似度的影响越大。文本A和文本B中交集词汇的个数占文本总词汇个数的比例越大,则句子的相似度越高。
在本发明实施例中,对待处理的两条文本进行分词处理,得到组成两条文本的两个词汇集合,将两个词汇集合进行并集处理和交集处理,得到两个词汇集合的并集词汇和交集词汇,再分别输入各词汇至预先训练的TF-IDF空间向量集合,得出各词汇的权重值,然后基于并集词汇和交集词汇的权重值,计算得出两条文本的相似度,通过综合文本中词汇本身的重要程度以及共有词汇的重要程度对相似度计算的影响,提高文本相似度计算的准确性。
请参见图3,图3示出了一种电子设备的硬件结构图。
本实施例中所描述的电子设备,包括:
存储器31、处理器32及存储在存储器31上并可在处理器上运行的计算机程序,处理器执行该程序时实现前述图1所示实施例中描述的文本相似度的计算方法。
进一步地,该电子设备还包括:
至少一个输入设备33;至少一个输出设备34。
上述存储器31、处理器32输入设备33和输出设备34通过总线35连接。
其中,输入设备33具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备34具体可为显示屏。
存储器31可以是高速随机存取记忆体(RAM,Random Access Memory)存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。存储器31用于存储一组可执行程序代码,处理器32与存储器31耦合。
进一步地,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的终端中,该计算机可读存储介质可以是前述图3所示实施例中的存储器。该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述图1所示实施例中描述的文本相似度的计算方法。进一步地,该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本发明所提供的一种文本相似度的计算方法、装置、电子设备及存储介质的描述,对于本领域的技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种文本相似度的计算方法,其特征在于,包括:
对待处理的两条文本分别进行分词处理,得到组成所述两条文本的两个词汇集合;
将所述两个词汇集合进行并集处理和交集处理,得到所述两个词汇集合的并集词汇和交集词汇;
分别输入各所述词汇至预先训练的TF-IDF空间向量集合,得出各所述词汇的权重值;
基于所述并集词汇和交集词汇的权重值,计算得出所述两条文本的相似度。
2.根据权利要求1所述的计算方法,其特征在于,所述基于所述并集词汇和交集词汇的权重值,计算得出所述两条文本的相似度包括:
输入所述并集词汇和交集词汇的权重值至如下文本相似度计算公式,计算得出所述两条文本的相似度:
其中,A和B分别表示所述两条文本,w∈A∩B表示文本A与文本B中的交集词汇,w∈A∪B表示文本A与文本B中的并集词汇,wtf-idf表示词汇的权重值,len(A∩B)表示文本A和文本B中交集词汇的数量,len(A)表示文本A中词汇的数量,len(B)表示文本B中词汇的数量,sim(A,B)表示文本A和文本B的相似度。
3.根据权利要求1所述的计算方法,其特征在于,所述TF-IDF空间向量集合由多条语料文本训练得出。
4.根据权利要求3任意一项所述的计算方法,其特征在于,所述TF-IDF空间向量集合由多条语料文本训练得出包括:
对各所述语料文本进行预处理,得到所述语料文本中的特征词;
通过TF-IDF权重公式,向量化各所述特征词,得到所述TF-IDF空间向量集合;
令i表示第i个语料文本,j表示第j个特征词,tfij表示第i个语料文本中第j个特征词的词频,N为语料文本总数,Nwij表示出现第i个语料文本中第j个特征词的语料文本数量,wij表示第i个语料文本中第j个特征词的权重值,则:
5.一种文本相似度的计算装置,其特征在于,包括:
分词模块,用于对待处理的两条文本分别进行分词处理,得到组成所述两条文本的两个词汇集合;
并集处理模块,用于将所述两个词汇集合进行并集处理,得到所述两个词汇集合的并集词汇;
交集处理模块,用于将所述两个词汇集合进行交集处理,得到所述两个词汇集合的交集词汇;
输入模块,用于分别输入各所述词汇至预先训练的TF-IDF空间向量集合,得出各所述词汇的权重值;
计算模块,用于基于所述并集词汇和交集词汇的权重值,计算得出所述两条文本的相似度。
6.根据权利要求5所述的计算装置,其特征在于,所述计算模块具体用于输入所述并集词汇和交集词汇的权重值至如下文本相似度计算公式,计算得出所述两条文本的相似度:
其中,A和B分别表示所述两条文本,w∈A∩B表示文本A与文本B中的交集词汇,w∈A∪B表示文本A与文本B中的并集词汇,wtf-idf表示词汇的权重值,len(A∩B)表示文本A和文本B中交集词汇的数量,len(A)表示文本A中词汇的数量,len(B)表示文本B中词汇的数量,sim(A,B)表示文本A和文本B的相似度。
7.根据权利要求5所述的计算装置,其特征在于,所述输入模块的TF-IDF空间向量集合由多条语料文本训练得出。
8.根据权利要求7任意一项所述的计算装置,其特征在于,所述输入模块包括:
预处理模块,用于对各所述语料文本进行预处理,得到所述语料文本中的特征词;
向量化模块,用于通过TF-IDF权重公式,向量化各所述特征词,得到所述TF-IDF空间向量集合;
令i表示第i个语料文本,j表示第j个特征词,tfij表示第i个语料文本中第j个特征词的词频,N为语料文本总数,Nwij表示出现第i个语料文本中第j个特征词的语料文本数量,wij表示第i个语料文本中第j个特征词的权重值,则:
9.一种电子设备,包括:存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1至4中的任一项所述的文本相似度的计算方法中的各个步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至4中的任一项所述的文本相似度的计算方法中的各个步骤。
CN201811551461.2A 2018-12-18 2018-12-18 文本相似度的计算方法、装置、电子设备及存储介质 Pending CN109635077A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811551461.2A CN109635077A (zh) 2018-12-18 2018-12-18 文本相似度的计算方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811551461.2A CN109635077A (zh) 2018-12-18 2018-12-18 文本相似度的计算方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN109635077A true CN109635077A (zh) 2019-04-16

Family

ID=66075315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811551461.2A Pending CN109635077A (zh) 2018-12-18 2018-12-18 文本相似度的计算方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN109635077A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347795A (zh) * 2019-07-05 2019-10-18 腾讯科技(深圳)有限公司 搜索文本与库文件的相关度计算方法、装置、设备及介质
CN111079421A (zh) * 2019-11-25 2020-04-28 北京小米智能科技有限公司 一种文本信息分词处理的方法、装置、终端及存储介质
CN111125301A (zh) * 2019-11-22 2020-05-08 泰康保险集团股份有限公司 文本方法及装置、电子设备和计算机可读存储介质
CN111259113A (zh) * 2020-01-15 2020-06-09 腾讯科技(深圳)有限公司 文本匹配方法、装置、计算机可读存储介质和计算机设备
CN111708872A (zh) * 2020-06-02 2020-09-25 上海硬通网络科技有限公司 对话方法、装置及电子设备
CN111708862A (zh) * 2020-06-02 2020-09-25 上海硬通网络科技有限公司 文本匹配方法、装置及电子设备
CN112883715A (zh) * 2019-11-29 2021-06-01 武汉渔见晚科技有限责任公司 一种词向量的构建方法及装置
CN112910674A (zh) * 2019-12-04 2021-06-04 中国移动通信集团设计院有限公司 物理站点筛选方法、装置、电子设备及存储介质
CN114398534A (zh) * 2021-01-05 2022-04-26 上海邮电设计咨询研究院有限公司 事件聚类文本检索系统
CN114756654A (zh) * 2022-04-25 2022-07-15 广州城市信息研究所有限公司 动态地名地址匹配方法、装置、计算机设备和存储介质
WO2022156180A1 (zh) * 2021-01-19 2022-07-28 深圳壹账通智能科技有限公司 相似文本确定方法及相关设备
CN116484830A (zh) * 2023-06-26 2023-07-25 山东省标准化研究院(Wto/Tbt山东咨询工作站) 基于大数据的互联网广告智能监测系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843818A (zh) * 2015-01-15 2016-08-10 富士通株式会社 训练设备和训练方法、判断设备、以及推荐设备
CN108235148A (zh) * 2018-01-09 2018-06-29 武汉斗鱼网络科技有限公司 直播中的相似弹幕合并方法、存储介质、电子设备及系统
CN108763566A (zh) * 2018-06-05 2018-11-06 北京玄科技有限公司 文本相似度计算方法及装置、智能机器人

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843818A (zh) * 2015-01-15 2016-08-10 富士通株式会社 训练设备和训练方法、判断设备、以及推荐设备
CN108235148A (zh) * 2018-01-09 2018-06-29 武汉斗鱼网络科技有限公司 直播中的相似弹幕合并方法、存储介质、电子设备及系统
CN108763566A (zh) * 2018-06-05 2018-11-06 北京玄科技有限公司 文本相似度计算方法及装置、智能机器人

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚芳: "基于python的中文文本分类研究", 《中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347795A (zh) * 2019-07-05 2019-10-18 腾讯科技(深圳)有限公司 搜索文本与库文件的相关度计算方法、装置、设备及介质
CN111125301A (zh) * 2019-11-22 2020-05-08 泰康保险集团股份有限公司 文本方法及装置、电子设备和计算机可读存储介质
CN111125301B (zh) * 2019-11-22 2023-07-14 泰康保险集团股份有限公司 文本方法及装置、电子设备和计算机可读存储介质
CN111079421A (zh) * 2019-11-25 2020-04-28 北京小米智能科技有限公司 一种文本信息分词处理的方法、装置、终端及存储介质
CN111079421B (zh) * 2019-11-25 2023-09-26 北京小米智能科技有限公司 一种文本信息分词处理的方法、装置、终端及存储介质
CN112883715B (zh) * 2019-11-29 2023-11-07 武汉渔见晚科技有限责任公司 一种词向量的构建方法及装置
CN112883715A (zh) * 2019-11-29 2021-06-01 武汉渔见晚科技有限责任公司 一种词向量的构建方法及装置
CN112910674A (zh) * 2019-12-04 2021-06-04 中国移动通信集团设计院有限公司 物理站点筛选方法、装置、电子设备及存储介质
CN112910674B (zh) * 2019-12-04 2023-04-18 中国移动通信集团设计院有限公司 物理站点筛选方法、装置、电子设备及存储介质
CN111259113A (zh) * 2020-01-15 2020-06-09 腾讯科技(深圳)有限公司 文本匹配方法、装置、计算机可读存储介质和计算机设备
CN111259113B (zh) * 2020-01-15 2023-09-19 腾讯科技(深圳)有限公司 文本匹配方法、装置、计算机可读存储介质和计算机设备
CN111708862B (zh) * 2020-06-02 2024-03-15 上海硬通网络科技有限公司 文本匹配方法、装置及电子设备
CN111708862A (zh) * 2020-06-02 2020-09-25 上海硬通网络科技有限公司 文本匹配方法、装置及电子设备
CN111708872A (zh) * 2020-06-02 2020-09-25 上海硬通网络科技有限公司 对话方法、装置及电子设备
CN111708872B (zh) * 2020-06-02 2023-05-09 上海硬通网络科技有限公司 对话方法、装置及电子设备
CN114398534B (zh) * 2021-01-05 2023-09-12 上海邮电设计咨询研究院有限公司 事件聚类文本检索系统
CN114398534A (zh) * 2021-01-05 2022-04-26 上海邮电设计咨询研究院有限公司 事件聚类文本检索系统
WO2022156180A1 (zh) * 2021-01-19 2022-07-28 深圳壹账通智能科技有限公司 相似文本确定方法及相关设备
CN114756654A (zh) * 2022-04-25 2022-07-15 广州城市信息研究所有限公司 动态地名地址匹配方法、装置、计算机设备和存储介质
CN116484830A (zh) * 2023-06-26 2023-07-25 山东省标准化研究院(Wto/Tbt山东咨询工作站) 基于大数据的互联网广告智能监测系统
CN116484830B (zh) * 2023-06-26 2023-12-26 山东省标准化研究院(Wto/Tbt山东咨询工作站) 基于大数据的互联网广告智能监测系统

Similar Documents

Publication Publication Date Title
CN109635077A (zh) 文本相似度的计算方法、装置、电子设备及存储介质
US11182445B2 (en) Method, apparatus, server, and storage medium for recalling for search
RU2678716C1 (ru) Использование автоэнкодеров для обучения классификаторов текстов на естественном языке
Zhu et al. Heterogeneous hypergraph embedding for document recommendation
CN107402954B (zh) 建立排序模型的方法、基于该模型的应用方法和装置
US10599731B2 (en) Method and system of determining categories associated with keywords using a trained model
US20180322131A1 (en) System and Method for Content-Based Media Analysis
US20160306800A1 (en) Reply recommendation apparatus and system and method for text construction
US8892554B2 (en) Automatic word-cloud generation
CN111615706A (zh) 基于子流形稀疏卷积神经网络分析空间稀疏数据
CN107480158A (zh) 基于相似性得分评估内容项目与图像的匹配的方法和系统
US20180053115A1 (en) Spend Data Enrichment and Classification
CN104428762A (zh) 利用数据关系遍历数据
CN113722438B (zh) 基于句向量模型的句向量生成方法、装置及计算机设备
CN108959453B (zh) 基于文本聚类的信息提取方法、装置及可读存储介质
CN110737756B (zh) 确定针对用户输入数据的应答的方法、装置、设备和介质
US20170300533A1 (en) Method and system for classification of user query intent for medical information retrieval system
CN107885888A (zh) 信息处理方法及装置、终端设备以及计算机可读存储介质
Dilley Busybodies, meddlers, and snoops: the female hero in contemporary women's mysteries
US20150169740A1 (en) Similar image retrieval
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
GB2538360A (en) Improved handwriting data search
CN117131155A (zh) 多类目识别方法、装置、电子设备及储存介质
CN114020867A (zh) 一种搜索词的扩展方法、装置、设备及介质
CN109799917A (zh) 文字输入方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190416

RJ01 Rejection of invention patent application after publication