CN108170650A - 文本比较方法以及文本比较装置 - Google Patents

文本比较方法以及文本比较装置 Download PDF

Info

Publication number
CN108170650A
CN108170650A CN201611114922.0A CN201611114922A CN108170650A CN 108170650 A CN108170650 A CN 108170650A CN 201611114922 A CN201611114922 A CN 201611114922A CN 108170650 A CN108170650 A CN 108170650A
Authority
CN
China
Prior art keywords
text
hamming distance
threshold
cosine value
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611114922.0A
Other languages
English (en)
Other versions
CN108170650B (zh
Inventor
方琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201611114922.0A priority Critical patent/CN108170650B/zh
Publication of CN108170650A publication Critical patent/CN108170650A/zh
Application granted granted Critical
Publication of CN108170650B publication Critical patent/CN108170650B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文本比较方法以及文本比较装置,有助于解决现有技术的文本比较效率低、准确度不高的技术问题。本发明的文本比较方法,包括:计算第一文本与第二文本之间的汉明距离;若汉明距离小于预设汉明距离阈值,则使用余弦算法计算第一文本和第二文本之间的余弦值;根据余弦值和汉明距离按照预设规则判断第一文本与第二文本的相似程度等级,然后根据相似程度等级发出对应的提示信息。

Description

文本比较方法以及文本比较装置
技术领域
本发明涉及一种计算机及其软件的技术领域,具体涉及一种文本比较方法以及文本比较装置。
背景技术
在互联网技术和大数据技术中,文本相同相似比较会经常使用到。比如在搜索引擎的搜索结果页展示,为了去重,会用到文本相同相似比较;在网上商城的商品展示页面,为了判断商品之间是否为相同或相似商品,可以通过商品描述文本的相同相似比较来判断;在数据挖掘和数据分析中,也经常需要用到文本相同相似比较,来判断两个或多个不同文本间的相似度,来达到相应的应用目的。现有的文本相似度查询算法中,比较著名的有余弦计算方法以及谷歌提出的simhash算法等。
余弦计算方法中,先将两个比较文本转化成两个向量,利用向量空间中两个向量夹角的余弦值作为衡量两个个体差异的大小。余弦值越接近于1,就表明夹角越接近于0,也就是两个向量越相似。文本相似度计算是基于以上原理,主要步骤为:分词、计算词频、生成两个文本的词频向量、计算两个词频向量的余弦值。余弦算法计算相似度的准确性较高,但是由于涉及到大量的数学计算,一次比较大约需要消耗几毫秒,所以当需要比较的文本的数量特别巨大,比如互联网上的海量文本比较时,计算性能就会比较差,因此不能用作高并发、海量的文本比较。
simhash算法的主要思想是降维,将高维的特征向量映射成低维的特征向量,通过两个向量的汉明距离Hamming Distance来确定文章是否重复或者高度近似。在信息论中,两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数。也就是说,它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。例如:1011101与1001001之间的汉明距离是2。Simhash算法主要分为六个步骤:分词、hash、加权、合并、降维以及计算汉明距离。simhash文本相似度比较算法由于大部分是位运算,而且把文本的hash值计算出来后可以保存下来,后期文本比较时,只用对hash值计算汉明距离即可,平均一次比较只需消耗几纳秒或十几纳秒,因此性能较高,适用于大量文本之间进行相似度比较的场景。但是由于simhash算法基于文本的分词来计算simhash值,并且要对不同关键词设定不同的权重,因此词库是否完整及加权值设置是否合理,对相似度的计算结果影响较大。当词库不是特别完整或者加权设置不是特别合理时,相似度的计算结果不是特别准确。而且该算法得到的结果范围较大(汉明距离理论上可能为1到无穷大),如果精确度要求较高的话,不是很好界定文本相同或者文本相似的程度。
发明内容
有鉴于此,本发明提供一种文本比较方法以及文本比较装置,有助于解决现有技术的文本比较效率低、准确度不高的技术问题。
为实现上述目的,根据本发明的一个方面,提供了一种文本比较方法,包括:计算第一文本与第二文本之间的汉明距离;若所述汉明距离小于预设汉明距离阈值,则使用余弦算法计算所述第一文本和所述第二文本之间的余弦值;根据所述余弦值和所述汉明距离按照预设规则判断所述第一文本与所述第二文本的相似程度等级,然后根据所述相似程度等级发出对应的提示信息。
可选地,所述计算第一文本与第二文本之间的汉明距离的步骤包括:根据simhash算法分别计算所述第一文本对应的第一simhash值以及所述第二文本对应的第二simhash值;根据所述第一simhash值和所述第二simhash值计算所述汉明距离。
可选地,在所述计算第一文本与第二文本之间的汉明距离的步骤之后,还包括:若所述汉明距离大于所述预设汉明距离阈值,则发出用于提示第一文本和第二文本为无关文本的第一提示信息。
可选地,所述根据所述余弦值和所述汉明距离按照预设规则判断所述第一文本与所述第二文本的相似程度等级,然后根据所述相似程度等级发出对应的提示信息的步骤包括:若所述汉明距离小于所述预设汉明距离阈值并且大于预设汉明距离次级阈值,则执行以下步骤:若所述余弦值大于余弦值第一阈值,则发出用于提示第一文本和第二文本为相同文本的第二提示信息;若所述余弦值大于余弦值第二阈值且小于等于所述余弦值第一阈值,则发出用于提示第一文本和第二文本为相似文本的第三提示信息;若所述余弦值小于等于所述余弦值第二阈值,则发出用于提示第一文本和第二文本为无关文本的第四提示信息;若所述汉明距离小于等于所述预设汉明距离次级阈值,则执行以下步骤:若所述余弦值大于余弦值第三阈值,则发出所述第二提示信息;若所述余弦值小于等于所述余弦值第三阈值,则发出所述第四提示信息。
为实现上述目的,根据本发明的另一个方面,提供了一种文本比较装置,包括:第一计算模块,用于计算第一文本与第二文本之间的汉明距离;第二计算模块,用于在所述汉明距离小于预设汉明距离阈值的情况下,使用余弦算法计算所述第一文本和所述第二文本之间的余弦值;输出模块,用于根据所述余弦值和所述汉明距离按照预设规则判断所述第一文本与所述第二文本的相似程度,然后根据所述相似程度等级发出对应的提示信息。
可选地,所述第一计算模块还用于:根据simhash算法分别计算所述第一文本对应的第一simhash值以及所述第二文本对应的第二simhash值;根据所述第一simhash值和所述第二simhash值计算所述汉明距离。
可选地,还包括:初步提示模块,用于在所述汉明距离大于所述预设汉明距离阈值的情况下,发出用于提示第一文本和第二文本为无关文本的第一提示信息。
可选地,所述输出模块还用于:在所述汉明距离小于所述预设汉明距离阈值并且大于预设汉明距离次级阈值,并且所述余弦值大于余弦值第一阈值的情况下发出用于提示第一文本和第二文本为相同文本的第二提示信息;在所述汉明距离小于所述预设汉明距离阈值并且大于预设汉明距离次级阈值,并且所述余弦值大于余弦值第二阈值且小于等于所述余弦值第一阈值的情况下发出用于提示第一文本和第二文本为相似文本的第三提示信息;在所述汉明距离小于所述预设汉明距离阈值并且大于预设汉明距离次级阈值,并且所述余弦值小于等于所述余弦值第二阈值的情况下,则发出用于提示第一文本和第二文本为无关文本的第四提示信息;在所述汉明距离小于等于所述预设汉明距离次级阈值,并且所述余弦值大于余弦值第三阈值的情况下,发出所述第二提示信息;在所述汉明距离小于等于所述预设汉明距离次级阈值,并且所述余弦值小于等于所述余弦值第三阈值的情况下,则发出所述第四提示信息。
根据本发明的技术方案,先计算汉明距离,然后仅对汉明距离比较小的比较文本进一步计算余弦值。由于尽早快速地筛除了汉明距离较大的比较文本,这意味着差异较大的比较文本无需进行复杂费事的余弦值计算。因此本发明的技术方案减少了计算量,节约了处理时间。另外,本发明的技术方案结合汉明距离和余弦值综合来判断相似程度等级,这使得判断结果更为科学合理,准确度高。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施方式的文本比较方法的主要步骤的流程示意图;
图2是根据本发明实施方式的文本比较装置的主要模块的结构示意图;
图3是本发明具体实施方式的文本比较方法的流程示意图。
具体实施方式
以下结合附图对本发明的示范性实施方式做出说明,其中包括本发明实施方式的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施方式做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施方式的文本比较方法的主要步骤的流程示意图。如图1所示,该实施方式的文本比较方法的主要包括如下的步骤A至步骤C。
步骤A:计算第一文本与第二文本之间的汉明距离。
步骤A的具体过程可以为:首先根据simhash算法分别计算第一文本对应的第一simhash值以及第二文本对应的第二simhash值;然后根据第一simhash值和第二simhash值计算汉明距离。
步骤B:若汉明距离小于预设汉明距离阈值,则使用余弦算法计算第一文本和第二文本之间的余弦值。
需要说明的是,如果判断出步骤A得到的汉明距离大于预设汉明距离阈值,则不执行步骤B,而是发出用于提示第一文本和第二文本为无关文本的第一提示信息。
步骤C:根据余弦值和汉明距离按照预设规则判断第一文本与第二文本的相似程度等级,然后根据相似程度等级发出对应的提示信息。需要说明的是,预设规则可以灵活设置,但是始终遵循“余弦值越大、汉明距离越小,则比较文本越相似”的基本原则。
步骤C的具体过程可以为:若汉明距离小于预设汉明距离阈值并且大于预设汉明距离次级阈值,则执行以下步骤:若余弦值大于余弦值第一阈值,则发出用于提示第一文本和第二文本为相同文本的第二提示信息;若余弦值大于余弦值第二阈值且小于等于余弦值第一阈值,则发出用于提示第一文本和第二文本为相似文本的第三提示信息;若余弦值小于等于余弦值第二阈值,则发出用于提示第一文本和第二文本为无关文本的第四提示信息;若汉明距离小于等于预设汉明距离次级阈值,则执行以下步骤:若余弦值大于余弦值第三阈值,则发出第二提示信息;若余弦值小于等于余弦值第三阈值,则发出第四提示信息。
需要说明的是,预设汉明距离阈值大于预设汉明距离次级阈值,余弦值第一阈值大于余弦值第二阈值。
图2是根据本发明实施方式的文本比较装置的主要模块的结构示意图。如图2所示,该实施方式的文本比较装置20的主要包括第一计算模块21、第二计算模块22和输出模块23。其中:第一计算模块21用于计算第一文本与第二文本之间的汉明距离。第二计算模块22用于在汉明距离小于预设汉明距离阈值的情况下,使用余弦算法计算第一文本和第二文本之间的余弦值。输出模块23用于根据余弦值和汉明距离按照预设规则判断第一文本与第二文本的相似程度,然后根据相似程度等级发出对应的提示信息。
其中,第一计算模块21还可以用于:根据simhash算法分别计算第一文本对应的第一simhash值以及第二文本对应的第二simhash值;根据第一simhash值和第二simhash值计算汉明距离。
本发明实施方式的文本比较装置可以还包括初步提示模块。该初步提示模块用于在汉明距离大于预设汉明距离阈值的情况下,发出用于提示第一文本和第二文本为无关文本的第一提示信息。
其中,输出模块23还可以用于:在汉明距离小于预设汉明距离阈值并且大于预设汉明距离次级阈值,并且余弦值大于余弦值第一阈值的情况下发出用于提示第一文本和第二文本为相同文本的第二提示信息;在汉明距离小于预设汉明距离阈值并且大于预设汉明距离次级阈值,并且余弦值大于余弦值第二阈值且小于等于余弦值第一阈值的情况下发出用于提示第一文本和第二文本为相似文本的第三提示信息;在汉明距离小于预设汉明距离阈值并且大于预设汉明距离次级阈值,并且余弦值小于等于余弦值第二阈值的情况下,则发出用于提示第一文本和第二文本为无关文本的第四提示信息;在汉明距离小于等于预设汉明距离次级阈值,并且余弦值大于余弦值第三阈值的情况下,发出第二提示信息;在汉明距离小于等于预设汉明距离次级阈值,并且余弦值小于等于余弦值第三阈值的情况下,则发出第四提示信息。
根据本发明实施方式的文本比较方法以及装置,先计算汉明距离,然后仅对汉明距离比较小的比较文本进一步计算余弦值。由于尽早快速地筛除了汉明距离较大的比较文本,这意味着差异较大的比较文本无需进行复杂费事的余弦值计算。因此本发明的技术方案减少了计算量,节约了处理时间。另外,本发明实施方式的文本比较方法以及装置结合汉明距离和余弦值综合来判断相似程度等级,这使得判断结果更为科学合理,准确度高。
为使本领域技术人员更好地理解发明内容,现结合图3的是本发明具体实施方式的文本比较方法的流程示意图进行解释说明。
假设有两个文本a和b,预设汉明距离阈值为7,预设汉明距离次级阈值为4,余弦值第一阈值为0.85,余弦值第二阈值为0.8,余弦值第三阈值为0.85。
首先获取文本a的simhash值,记为simhash1然后保存。再获取文本b的simhash值,记为simhash2然后保存。可以从hbase数据库中查询文本a和b分别对应的simhash值,如果没有则通过simhash算法计算。需要说明的是,技术人员可以根据经验来优化simhash算法的词库以获得准确性更好的结果。例如可以在词库里加入了互联网各个不同领域的名称词,如:网上商城商品的名称词,如“手机”、“电脑”、“液晶电视”等,关键词中加入了品类、商品属性、价格等重要关键词,如“数码”、“4G”、“移动”、“联通”、“性价比”等,并设置了不同的权重。又例如新闻类文章的名称词,如“新华社”、“人民日报”、“今日头条”等,关键词中加入各类不同新闻的关键词,如体育类新闻,加入“足球”、“曼联”、“巴萨”等,这些关键词的权重也相对较高。通过这些优化,可以提高simhash算法的精确度。
接下来计算simhash1和simhash2的汉明距离hanmingdistance。然后比较汉明距离与预设汉明距离阈值的大小。
如果判断汉明距离大于7,则意味着汉明距离太大,不再计算文本a和b之间的余弦值,直接断定文本a和b为无关文本,然后发出相应的提示信息。
如果判断汉明距离小于7,则进一步计算文本a和b之间的余弦值并记为cos,然后按照预设规则来具体判断文本a和b的相似程度。
然后比较汉明距离与预设汉明距离次级阈值4的大小。
如果汉明距离大于4,则分为如下三种细分情况:(1)余弦值大于余弦值第一阈值(即cos>0.85),则发出用于提示第一文本和第二文本为相同文本的提示信息。(2)余弦值大于余弦值第二阈值且小于等于余弦值第一阈值(即0.8<cos≤0.85),则发出用于提示第一文本和第二文本为相似文本的提示信。(3)余弦值小于等于余弦值第二阈值(即cos≤0.8),则发出用于提示第一文本和第二文本为无关文本的提示信息。
若汉明距离等于4,则分为如下两种情况:(1)余弦值大于余弦值第三阈值(即cos>0.85),则发出用于提示第一文本和第二文本为相同文本的提示信息。(2)余弦值小于等于余弦值第三阈值(即cos≤0.85),则发出用于提示第一文本和第二文本为无关文本的提示信息。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (8)

1.一种文本比较方法,其特征在于,包括:
计算第一文本与第二文本之间的汉明距离;
若所述汉明距离小于预设汉明距离阈值,则使用余弦算法计算所述第一文本和所述第二文本之间的余弦值;
根据所述余弦值和所述汉明距离按照预设规则判断所述第一文本与所述第二文本的相似程度等级,然后根据所述相似程度等级发出对应的提示信息。
2.如权利要求1所述的文本比较方法,其特征在于,所述计算第一文本与第二文本之间的汉明距离的步骤包括:
根据simhash算法分别计算所述第一文本对应的第一simhash值以及所述第二文本对应的第二simhash值;
根据所述第一simhash值和所述第二simhash值计算所述汉明距离。
3.如权利要求1所述的文本比较方法,其特征在于,在所述计算第一文本与第二文本之间的汉明距离的步骤之后,还包括:
若所述汉明距离大于所述预设汉明距离阈值,则发出用于提示第一文本和第二文本为无关文本的第一提示信息。
4.如权利要求1所述的文本比较方法,其特征在于,所述根据所述余弦值和所述汉明距离按照预设规则判断所述第一文本与所述第二文本的相似程度等级,然后根据所述相似程度等级发出对应的提示信息的步骤包括:
若所述汉明距离小于所述预设汉明距离阈值并且大于预设汉明距离次级阈值,则执行以下步骤:若所述余弦值大于余弦值第一阈值,则发出用于提示第一文本和第二文本为相同文本的第二提示信息;若所述余弦值大于余弦值第二阈值且小于等于所述余弦值第一阈值,则发出用于提示第一文本和第二文本为相似文本的第三提示信息;若所述余弦值小于等于所述余弦值第二阈值,则发出用于提示第一文本和第二文本为无关文本的第四提示信息;
若所述汉明距离小于等于所述预设汉明距离次级阈值,则执行以下步骤:若所述余弦值大于余弦值第三阈值,则发出所述第二提示信息;若所述余弦值小于等于所述余弦值第三阈值,则发出所述第四提示信息。
5.一种文本比较装置,其特征在于,包括:
第一计算模块,用于计算第一文本与第二文本之间的汉明距离;
第二计算模块,用于在所述汉明距离小于预设汉明距离阈值的情况下,使用余弦算法计算所述第一文本和所述第二文本之间的余弦值;
输出模块,用于根据所述余弦值和所述汉明距离按照预设规则判断所述第一文本与所述第二文本的相似程度,然后根据所述相似程度等级发出对应的提示信息。
6.如权利要求5所述的文本比较装置,其特征在于,所述第一计算模块还用于:
根据simhash算法分别计算所述第一文本对应的第一simhash值以及所述第二文本对应的第二simhash值;
根据所述第一simhash值和所述第二simhash值计算所述汉明距离。
7.如权利要求5所述的文本比较装置,其特征在于,还包括:
初步提示模块,用于在所述汉明距离大于所述预设汉明距离阈值的情况下,发出用于提示第一文本和第二文本为无关文本的第一提示信息。
8.如权利要求5所述的文本比较装置,其特征在于,所述输出模块还用于:
在所述汉明距离小于所述预设汉明距离阈值并且大于预设汉明距离次级阈值,并且所述余弦值大于余弦值第一阈值的情况下发出用于提示第一文本和第二文本为相同文本的第二提示信息;
在所述汉明距离小于所述预设汉明距离阈值并且大于预设汉明距离次级阈值,并且所述余弦值大于余弦值第二阈值且小于等于所述余弦值第一阈值的情况下发出用于提示第一文本和第二文本为相似文本的第三提示信息;
在所述汉明距离小于所述预设汉明距离阈值并且大于预设汉明距离次级阈值,并且所述余弦值小于等于所述余弦值第二阈值的情况下,则发出用于提示第一文本和第二文本为无关文本的第四提示信息;
在所述汉明距离小于等于所述预设汉明距离次级阈值,并且所述余弦值大于余弦值第三阈值的情况下,发出所述第二提示信息;
在所述汉明距离小于等于所述预设汉明距离次级阈值,并且所述余弦值小于等于所述余弦值第三阈值的情况下,则发出所述第四提示信息。
CN201611114922.0A 2016-12-07 2016-12-07 文本比较方法以及文本比较装置 Active CN108170650B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611114922.0A CN108170650B (zh) 2016-12-07 2016-12-07 文本比较方法以及文本比较装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611114922.0A CN108170650B (zh) 2016-12-07 2016-12-07 文本比较方法以及文本比较装置

Publications (2)

Publication Number Publication Date
CN108170650A true CN108170650A (zh) 2018-06-15
CN108170650B CN108170650B (zh) 2021-05-25

Family

ID=62526467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611114922.0A Active CN108170650B (zh) 2016-12-07 2016-12-07 文本比较方法以及文本比较装置

Country Status (1)

Country Link
CN (1) CN108170650B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165291A (zh) * 2018-06-29 2019-01-08 厦门快商通信息技术有限公司 一种文本匹配方法及电子设备
CN109241505A (zh) * 2018-10-09 2019-01-18 北京奔影网络科技有限公司 文本去重方法及装置
CN109783469A (zh) * 2018-12-14 2019-05-21 上海威固信息技术股份有限公司 一种基于内容感知的数据去重方法与装置
CN110222594A (zh) * 2019-05-20 2019-09-10 厦门能见易判信息科技有限公司 盗版视频识别方法及系统
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN111144109A (zh) * 2019-12-27 2020-05-12 北京明略软件系统有限公司 文本相似度确定方法和装置
CN111951791A (zh) * 2020-08-26 2020-11-17 上海依图网络科技有限公司 声纹识别模型训练方法、识别方法、电子设备及存储介质
WO2023061304A1 (zh) * 2021-10-13 2023-04-20 广东机电职业技术学院 一种基于大数据的威胁情报预警文本分析方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
JP2014238884A (ja) * 2014-08-21 2014-12-18 株式会社Photonic System Solutions ハミング空間検索装置、ハミング空間検索方法、ハミング空間検索プログラムおよび記録媒体
CN104866478A (zh) * 2014-02-21 2015-08-26 腾讯科技(深圳)有限公司 恶意文本的检测识别方法及装置
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
CN104866478A (zh) * 2014-02-21 2015-08-26 腾讯科技(深圳)有限公司 恶意文本的检测识别方法及装置
JP2014238884A (ja) * 2014-08-21 2014-12-18 株式会社Photonic System Solutions ハミング空間検索装置、ハミング空間検索方法、ハミング空間検索プログラムおよび記録媒体
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165291B (zh) * 2018-06-29 2021-07-09 厦门快商通信息技术有限公司 一种文本匹配方法及电子设备
CN109165291A (zh) * 2018-06-29 2019-01-08 厦门快商通信息技术有限公司 一种文本匹配方法及电子设备
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN110891010B (zh) * 2018-09-05 2022-09-16 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN109241505A (zh) * 2018-10-09 2019-01-18 北京奔影网络科技有限公司 文本去重方法及装置
CN109783469A (zh) * 2018-12-14 2019-05-21 上海威固信息技术股份有限公司 一种基于内容感知的数据去重方法与装置
CN110222594A (zh) * 2019-05-20 2019-09-10 厦门能见易判信息科技有限公司 盗版视频识别方法及系统
CN110222594B (zh) * 2019-05-20 2021-11-16 厦门能见易判信息科技有限公司 盗版视频识别方法及系统
CN111144109A (zh) * 2019-12-27 2020-05-12 北京明略软件系统有限公司 文本相似度确定方法和装置
CN111144109B (zh) * 2019-12-27 2023-07-21 北京明略软件系统有限公司 文本相似度确定方法和装置
CN111951791A (zh) * 2020-08-26 2020-11-17 上海依图网络科技有限公司 声纹识别模型训练方法、识别方法、电子设备及存储介质
CN111951791B (zh) * 2020-08-26 2024-05-17 上海依图网络科技有限公司 声纹识别模型训练方法、识别方法、电子设备及存储介质
WO2023061304A1 (zh) * 2021-10-13 2023-04-20 广东机电职业技术学院 一种基于大数据的威胁情报预警文本分析方法及系统

Also Published As

Publication number Publication date
CN108170650B (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
CN108170650A (zh) 文本比较方法以及文本比较装置
CN105022840B (zh) 一种新闻信息处理方法、新闻推荐方法和相关装置
JP5316158B2 (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
US20160306800A1 (en) Reply recommendation apparatus and system and method for text construction
CN103870507B (zh) 一种基于类目的搜索方法和装置
CN104899322A (zh) 搜索引擎及其实现方法
CN111475729A (zh) 搜索内容推荐方法及装置
Akbas et al. L1 norm based multiplication-free cosine similarity measures for big data analysis
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
Odeh et al. Arabic text categorization algorithm using vector evaluation method
WO2020258481A1 (zh) 个性化文本智能推荐方法、装置及计算机可读存储介质
WO2018058118A1 (en) Method, apparatus and client of processing information recommendation
CN107656920A (zh) 一种基于专利的科技人才推荐方法
CN112905768A (zh) 一种数据交互方法、装置及存储介质
Jiang et al. A unified neural network approach to e-commerce relevance learning
Baena-García et al. TF-SIDF: Term frequency, sketched inverse document frequency
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN110688559A (zh) 一种检索方法及装置
CN113657116B (zh) 基于视觉语义关系的社交媒体流行度预测方法及装置
CN113378015B (zh) 搜索方法、装置、电子设备、存储介质和程序产品
Song et al. A lexical updating algorithm for sentiment analysis on Chinese movie reviews
JP6495206B2 (ja) 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム
KR102341563B1 (ko) 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법
WO2015159702A1 (ja) 部分情報抽出システム
CN108345605B (zh) 一种文本搜索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant