CN102411583A - 一种文本匹配方法及装置 - Google Patents

一种文本匹配方法及装置 Download PDF

Info

Publication number
CN102411583A
CN102411583A CN2010102906934A CN201010290693A CN102411583A CN 102411583 A CN102411583 A CN 102411583A CN 2010102906934 A CN2010102906934 A CN 2010102906934A CN 201010290693 A CN201010290693 A CN 201010290693A CN 102411583 A CN102411583 A CN 102411583A
Authority
CN
China
Prior art keywords
text
database
similarity
newly
increased
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010102906934A
Other languages
English (en)
Other versions
CN102411583B (zh
Inventor
张旭
苏宁军
顾海杰
祁建程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN2010102906934A priority Critical patent/CN102411583B/zh
Priority to TW099140210A priority patent/TWI496015B/zh
Priority to US13/200,123 priority patent/US20120072220A1/en
Priority to EP11827085.9A priority patent/EP2619650A4/en
Priority to PCT/US2011/001617 priority patent/WO2012039755A2/en
Priority to JP2013529131A priority patent/JP5717858B2/ja
Publication of CN102411583A publication Critical patent/CN102411583A/zh
Application granted granted Critical
Publication of CN102411583B publication Critical patent/CN102411583B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本匹配方法及装置,该方法包括:根据当前周期内收集的内容信息得到当前周期内的新增文本并存储到数据库中;对输入的新增文本进行分词并提取关键词;根据预先存储的词频表计算提取的每个关键词在数据库中的各文本中的权重;所述词频表根据各个词语在数据库中的各文本中的出现频率周期性更新;根据计算得到的每个关键词在数据库中的各文本中的权重,计算每个新增文本与数据库中的各文本的相似度,或计算数据库中任意两个文本的相似度;根据计算得到的相似度确定数据库中存储的各文本的相关文本。通过建立和更新词频表的方式避免了现有技术中每次匹配都需要对所有文本进行计算的问题,减少了匹配运算工作量,提高了系统性能。

Description

一种文本匹配方法及装置
技术领域
本申请涉及数据处理领域,尤指一种大数据量的文本匹配方法及装置。
背景技术
现有的文本比较,一般采用全量运算匹配的方式,当需要计算文本之间的相关程度的时候,需要针对获取的所有文本进行计算,最终得到两两之间的相似度,这样每计算一次相似度都要针对所有的文本数据进行计算,其计算量将是非常巨大的,其运行时间为O(N^2)量级的,随着文本数量N的增大,运算的时间也会很长。
这种大数据量的运算比较对设备的系统性能带来了很大的影响,使系统的I/O通讯、数据存储、数据的网络传输都面临很大的压力,导致设备的数据处理速度缓慢,甚至出现数据传输的阻塞或拥塞。
这种全量运算的文本匹配所存在的大数据运算量对系统性能的影响,随着需要匹配的文本数量的增大,变的越来越严重。如何实现对大数据量匹配的高效处理,成为亟待解决的难题。
由于现有技术中基本上都对基于内容的文本匹配进行全量数据运算,对于基于内容的文本匹配的优化,已有技术可以包括下列方式:
(1)针对单机版的基于内容的文本匹配,通过建索引的方式提高文本匹配的速度和效率。
(2)针对分布式的基于内容的文本匹配,主要是增加硬件支持,比如增加并行度,执行并行运算。
但是无论是建立索引还是增加并行度都不能很好的解决文本匹配过程中,全量数据运算操作所存在的数据计算量大,运行时间长,需要对所有数据进行运算和一一比对,需要的存储空间大等问题,因此,现有的文本匹配方式存在的数据处理速度慢、网络传输阻塞等系统性能瓶颈依然比较严重。
发明内容
本申请实施例提供一种文本匹配方法及装置,用以解决现有技术中存在的文本匹配数据处理量大导致处理速度慢、影响系统性能、引起传输阻塞等问题。
一种文本匹配方法,包括:
周期性收集用户发布的内容信息,根据当前周期内收集的内容信息得到当前周期内的新增文本并存储到数据库中;
对输入的新增文本进行分词,并提取关键词;根据预先存储的词频表计算提取的每个关键词在数据库中的各文本中的权重;所述词频表根据各个词语在数据库中的各文本中的出现频率周期性更新;数据库中的文本包括当前周期存储的新增文本和之前存储的原始文本;
根据计算得到的每个关键词在数据库中的各文本中的权重,计算每个新增文本与数据库中的各文本的相似度,或计算数据库中任意两个文本的相似度;
根据计算得到的相似度确定数据库中存储的各文本的相关文本。
一种文本匹配装置,包括:
收集模块,用于周期性收集用户发布的内容信息,根据当前周期内收集的内容信息得到当前周期内的新增文本并存储到数据库中;
分词模块,用于对输入的新增文本进行分词,并提取关键词;
权重确定模块,用于根据预先存储的词频表计算提取的每个关键词在数据库中的各文本中的权重;
词频更新模块,用于根据各个词语在数据库中的各文本中的出现频率周期性更新;数据库中的文本包括当前周期存储的新增文本和之前存储的原始文本;
相似度确定模块,用于根据计算得到的每个关键词在数据库中的各文本中的权重,计算每个新增文本与数据库中的各文本的相似度,或计算数据库中任意两个文本的相似度;
文本比较模块,用于根据计算得到的相似度确定数据库中存储的各文本的相关文本。
本申请有益效果如下:
本申请实施例提供的文本匹配方法及装置,通过周期性收集用户发布的内容信息,根据当前周期内收集的内容信息得到当前周期内的新增文本并存储到数据库中;对输入的新增文本进行分词,并提取关键词;根据预先存储的词频表计算提取的每个关键词在数据库中的各文本中的权重;所述词频表根据各个词语在数据库中的各文本中的出现频率周期性更新;数据库中的文本包括当前周期存储的新增文本和之前存储的原始文本;根据计算得到的每个关键词在数据库中的各文本中的权重,计算每个新增文本与数据库中的各文本的相似度,或计算数据库中任意两个文本的相似度;根据计算得到的相似度确定数据库中存储的各文本的相关文本。上述方法通过建立和更新词频表的方式避免了现有技术中任意两个文本的匹配都需要对所有文本进行计算的问题,具体为关键词的权重不再依赖于全局数据运算得到全局变量,而依靠词频表即可实现,从而减少了匹配运算工作量,提高了系统性能;且通过使用词频表可以仅计算部分文本之间的相似度或计算全部文本之间的相似度,因此即使只针对更新后的新增文本进行计算,也能获取到准确的匹配运算结果。该方式适用于所有文本的匹配,具有很强的通用性和普遍适用性,其匹配过程实现简单,很好的解决网络系统瓶颈问题。
附图说明
图1为本申请实施例一中文本匹配系统的结构示意图;
图2为本申请实施例一中文本匹配方法的流程图;
图3为本申请实施例二中文本匹配方法的流程图;
图4为本申请实施例三中文本匹配方法的流程图;
图5为本申请实施例五中文本匹配实现原理的示意图;
图6为本申请实施例五中文本匹配方法的流程图;
图7为本申请实施例五中词频表更新的原理示意图;
图8为本申请实施例中文本匹配装置的结构示意图。
具体实施方式
本申请实施例提供的文本匹配方法,周期性的获取新增文本,并将获取到的新增文本加入数据库中;预先建立词频表,并根据获取的新增文本或根据数据库中增加新增文本之后的所有文本更新词频表,从而可以根据词频表方便的计算任意两个文本(包括新增文本和原始文本)之间的相似度。在本申请中根据需要可以计算数据库中任意两个文本之间的相似度、也可以只计算新增文本与新增文本以及新增文本与原始文本之间的相似度。
下面通过具体的实施例分别说明这两种情况的实现流程。其中,数据库中存储的原始文本是指当前周期之前存储的文本,即上一个周期存入新增文本之后数据库中的所有文本。
本申请实现文本匹配的系统架构如图1所示,该系统包括服务器和若干客户端,服务器通过周期性收集客户端的操作行为,获取新增文本,实现对文本的匹配。客户端和服务器的具体功能,在下面的实施例中进行详细介绍。
例如:服务器可以对用户通过客户端发布的商品信息进行匹配,确定与用户发布的商品信息具有相关性的商品信息,从而实现在其他用户浏览到用户发布的商品时,能够为用户显示和推荐类似的或相关的商品。当然本申请的文本匹配方法不限于商品信息的匹配,只要是基于文本的文本匹配都可以通过本申请的方法实现。
下面通过具体的实施例说明本申请文本匹配的实现过程。
实施例一:
本申请实施例一提供的文本匹配方法,针对每个周期的每个新增文本,计算每个新增文本与每个原始文本之间、以及任意两个新增文本之间的相似度。即确定与新增文本相关的相似度数据。例如:在商品推荐过程中使用时,则是根据当前周期内发布的商品信息获取新增文本。并根据新增文本确定与当前周期内发布的商品信息相匹配的所有商品(信息包括此前发布的商品信息和当前周期内发布的商品信息)。
本申请实施例一提供的文本匹配方法的流程如图2所示,执行步骤如下:
步骤S11:周期性收集用户发布的内容信息,根据用户发布的内容信息得到当前周期内的新增文本。
收集用户发布的内容信息的周期可以根据需要设定。根据收集到的各个用户在当前周期内发布的内容信息,可以生成相关的文本,即为当前周期的新增文本。收集到新增文本后将其存储至数据库中,则数据库中当前存储有上个周期就已经存储的原始文本和当前周期内存入的新增文本。
例如:用户通过客户端发布商品信息,服务器周期性的获取各个客户端发布的商品信息,其中设定的周期可以是一天、一星期或几个小时等。
优选的,在收集到用户发布的内容信息后,根据设定的输入过滤规则,对收集到的用户发布的内容信息进行过滤。
对收集到的用户发布的内容信息进行过滤可以根据内容信息的质量是否符合设定的质量评估阈值,发布内容信息的用户是否是设定的合格用户等设置的过滤规则中的一个或多个,对收集到的用户发布的内容信息进行过滤。或者根据其他设置的输入过滤规则,对收集到的用户发布的内容信息进行过滤。在对收集到的用户发布的内容信息进行过滤后,根据过滤后内容信息生成当前周期内的新增文本。
仍以商品信息的匹配为例,在获取到客户端发布的商品信息时,对商品信息进行过滤,例如:过滤掉没有提供图片或没有其他设定的必要信息的商品。
上述通过对收集到的内容信息进行过滤,得到新增文本,可以提高收集得到的用户发布的内容信息的可用性,提高了用于匹配的新增文本的质量,从而可以获得更佳的匹配结果;同时也进一步减少匹配过程的计算量,提高了匹配速度。
仍以商品信息的匹配为例,在获取到客户端在当前周期内发布的商品信息后可以得到当前周期内的新增文本。例如:发布的一个MP3的商品信息包括:名称MP3、颜色红色、型号XX以及功能描述等相关信息,则根据用户发布的商品信息,得到一个新增文本。
步骤S12:对输入的新增文本进行分词,提取关键词。
即针对输入的每个新增文本,将文本内容划分为若干词语,并提取用于文本匹配的若干关键词,提取得到的若干关键词可以生成一个分词向量。
例如:发布的一个MP3的商品信息包括:名称MP3、颜色红色、型号XX和功能描述等信息,则将得到的文本分词后,可以从中提取出MP3、红色等关键词,这些关键词可以组成一个分词向量。
步骤S13:根据预先存储的词频表计算从新增文本中提取的每个关键词在数据库中当前存储的各文本中的权重。
该步骤具体计算每个关键词在数据库中存储的每个文本(包括当前周期的新增文本和上一个周期存储的原始文本)中的权重,具体可以通过查询词频表中每个关键词在文本中的出现频率,实现计算关键词在该文本中的权重。
其中,词频表根据各个词语在数据库中存储的每个文本中的出现频率周期性更新。这里的各个词语是指所有词频表中词语,针对这些词语预计算出来的词频,而不仅仅包含当前输入的新增文本分词后划分出的关键词的词频。
词频表在建立时,针对数据库中已存储的所有文本进行统计,得到每个词语在各个文本中出现次数的词频表,在后续可以通过更新的方式来添加和减少更新后的结果。每个收集周期,词频表都可以根据各个关键词在数据库中的当前存储的各文本中的出现频率周期性更新,具体包括两种情况:
情况一:根据数据库中的当前存储的所有文本直接更新词频表。
每次输入新增文本后,统计各个词语在输入的新增文本和数据库中存储的原始文本中的出现频率,得到包含各个词语在数据库中当前存储的每个文本中的出现频率的词频表。由于计算词频的运算量是与输入数据量成线性关系的,因此,即使采用对数据库中存储的所有文本进行统计来更新词频表,其运算量也不会很大,时间也不长。
情况二:根据新增文本和原来词频表中存储的内容更新词频表。
每次输入新增文本后,统计各个词语在输入的每个新增文本中的出现频率,根据统计得到的结果与词频表中存储的各个词语在数据库中存储的原始文本中的出现频率,得到包含各个词语在数据库中的每个文本中的出现频率的词频表。具体实施例中,若预先存储的词频表中未记录新增文本分词后得到的各词语的词频,则以情况一所述方案更新词频表。若预先存储的词频表中已记录新增文本分词后得到的各词语在原始文本中的词频,则以情况二所述方案更新词频表。
上述根据预先存储的词频表计算分词提取的每个关键词在数据库中的当前存储的各个文本中的权重,具体包括:
根据词频表,分别确定选定关键词在数据库中当前存储的每个文本中的出现次数。以及
确定数据库中当前存储的的所有文本与包含有选定关键词的文本的数量比。
根据选定关键词在每个文本中的出现次数和上述计算得到的数量比,分别计算每个关键词在每个文本中的权重。
步骤S14:根据计算得到的每个关键词在数据库中当前存储的各个文本中的权重,计算每个新增文本与数据库当前存储的各个文本的相似度。
计算每个新增文本与数据库中当前存储的各个文本的相似度,包括:计算输入的任意两个新增文本之间的相似度、以及计算每个新增文本和数据库中存储的每个原始文本的相似度。
计算每个新增文本与数据库中当前存储的各文本的相似度,具体包括:
将待计算相似度的文本中的每个关键词的权重组成权重向量。权重向量由上述计算出的各个关键词在该文本中的权重组成。
针对每个新增文本,分别计算该新增文本的权重向量与数据库中当前存储的各文本的权重向量的内积,得到该新增文本与数据库中当前存储的各文本的相似度。
由于数据库中的原始文本之间的相似度在上一次输入上一个周期的新增文本时已经计算过,因此,本次只计算新输入的新增文本之间、以及新输入的新增文本与数据库中的原始文本之间的相似度,从而大大减少了运算量。
步骤S15:根据计算得到的相似度确定数据库中当前存储的每个文本的相关文本。
上述计算获取到的每个新增文本和数据库中当前存储的各个文本之间的相似度之后,根据具体需求,既可以确定与每个新增文本具有一定相关性的相关文本,也可以确定与数据库中当前存储的每个文本具有一定相关性的相关文本了。其中,与每个新增文本相关的文本可以是新获取到的其他新增文本也可以是存储的原始文本。与数据库中当前存储的每个文本相关的文本可以是新获取到的新增文本也可以是存储的原始文本。其中原始文本与原始文本之间的相似度在之前的周期内已经确定并存储在数据库中。也就是说在本实施例中,在确定相关文本时,涉及到数据库中原始文本和原始文本之间的相似度时,直接使用上一次存储的相似度。
其中,与每个文本具有一定相关性的相关文本的确定,具体包括下列两种确定方式:
方式一:通过设定阈值确定符合设定条件的相关文本。
针对待确定相关文本的新增文本或数据库中当前存储的文本,确定与该新增文本或数据库中当前存储的文本的相似度大于或大于等于设定阈值的至少一个文本为该新增文本或数据库中当前存储的文本的相关文本。
方式二:通过排序获取设定数量的相关文本。
针对待确定相关文本的新增文本或数据库中当前存储的文本,根据数据库中数据库中当前存储的每个文本与待确定相关文本的新增文本或数据库中当前存储的文本的相似度大小排序,确定相似度较高的设定数量的文本作为待确定相关文本的新增文本或数据库中当前存储的文本的相关文本。
在确定了新增文本或数据库中当前存储的文本得相关文本之后,存储在数据库中,用作后续的商品推荐或其他过程中使用。以用于商品推荐为例:
在获取到包括用户的点击行为、浏览行为、用户购买行为、收藏网页上展示的商品等等用户操作行为时,根据用户操作行为涉及的商品所对应的文本,从数据库中获取该文本的相关文本,将获取到的相关文本对应的商品推荐给用户。其中,涉及的商品所对应的文本和该文本的相关文本,根据商品的发布时间不同,可能是新增文本也可能是原始文本。
实施例二:
本申请实施例二提供的文本匹配方法,针对每个周期输入新增文本后数据中存储的每个文本,计算任意两个文本之间的相似度,其流程如图3所示,执行步骤如下:
步骤S21:周期性收集用户发布的内容信息,根据用户发布的内容信息得到当前周期内的新增文本。
同步骤S11,此处不再赘述。
步骤S22:对输入的新增文本进行分词,提取关键词。
同步骤S12,此处不再赘述。
步骤S23:根据预先存储的词频表计算从新增文本中提取的每个关键词在数据库中的当前存储的各文本中的权重。
同步骤S13,此处不再赘述。
步骤S24:根据计算得到的每个关键词在数据库中当前存储的各文本中的权重,计算数据库中任意两个文本的相似度。
计算数据库中任意两个文本的相似度,包括:计算输入的任意两个新增文本之间的相似度、计算每个新增文本和数据库中存储的每个原始文本的相似度、以及计算任意两个原始文本之间的相似度。计算任意两个文本的相似度,具体包括:
将待计算相似度的文本中的每个关键词的权重组成权重向量。
针对每个文本,分别计算该文本的权重向量与数据库中存储的各文本的权重向量的内积,得到该文本与数据库中存储的各文本的相似度。
该方式在词频更新之后重新计算每个文本之间的相似度,从而能够获取到准确的相似度值,使后续比较匹配的结果更准确。
步骤S25:根据计算得到的相似度确定数据库中当前存储的每个文本的相关文本。
该步骤确定相关文本时,和步骤S15类似的也包含两种方式。所不同的是在本实施例中,在确定相关文本时,涉及到数据库中原始文本和原始文本之间的相似度时,也是用本次计算得到的相似度。
确定相关文本后在商品推荐过程中的应用也与步骤S15类似。
实施例三:
本申请实施例三提供的文本匹配方法,针对实施例一和实施例二的方案进行改进,增加输出过滤的过程。具体包括:
在实施例一的步骤S14计算相似度之后和步骤S15确定相关文本之前增加输出过滤的步骤,在实施例二的步骤S24计算相似度之后和步骤S25确定相关文本之前增加输出过滤的过程,其流程如图4所示,执行步骤如下:
步骤S31:获取计算得到的每个新增文本与数据库中当前存储的各个文本的相似度,或计算得到的数据库中任意两个文本的相似度。
针对两个文本的相似度的过滤,可以根据后续相关文本确定的不同要求,对不同文本的相似度进行过滤,因此,针对实施例一计算新增文本和数据库中当前存储的各个文本之间的相似度时,获取的是计算得到的每个新增文本与数据库中的数据库中当前存储的每个文本的相似度。针对实施例二计算任意两个文本之间的相似度时,获取的是计算得到的数据库中任意两个文本的相似度。
步骤S32:根据设定的输出过滤规则,对数据库中当前存储的待确定相关文本的每个文本相关的相似度数据进行过滤。
对待确定相关文本的每个文本相关的相似度数据进行过滤,去除不符合设定条件的文本数据时,可以根据相似度的大小,去除与待确定相关文本的每个文本相似度小于设定阈值的文本;也可以根据相似度的大小排序,去除与待确定相关文本的每个文本相似度较低的设定数量的文本。当然也可以设置其他的输出过滤规则对输出文本进行过滤。
通过对待确定相关文本的每个文本相关的相似度数据进行过滤,减少匹配过程中需要匹配的文本的数量,从而进一步了提高匹配速度和效率。
实施例四:
本申请实施例四提供的文本匹配方法,具体提供实现文本匹配的一个具体实现示例,其实现原理如图5所示,其流程如图6所示,执行步骤如下:
步骤S41:周期性在数据层采集用户发布的内容信息。
其中,用户发布的内容信息的采集是在数据层完成的。数据表中的数据在数据层进行更新,更新根据设定的周期进行。
数据层是数据的提供层和存储层,为数据的应用层提供数据,最终用于前台展现。同时,数据层为底层的算法层提供输入数据,也接受算法层的运算结果。这一层包括数据库和一些存储文件。
例如,将采集到的用户发布的商品信息中的商品名称作为文本数据,下面的匹配对比是基于得到的文本数据的内容进行的。例如:采集到发布的商品信息为MP3,则找到包含MP3的其他文本作为匹配文本。
步骤S42:对采集到的用户发布的内容信息进行过滤。
在过滤层进行用户发布的内容信息的过滤,根据设定输入过滤规则,对采集到的用户发布的内容信息进行过滤。也就是说由过滤层对算法层的输入和输出做过滤处理,该步骤的输入过滤涉及到的是对算法层输入的过滤,过滤后提供给算法层。后续步骤中的输出过滤涉及到的是对算法层的计算结果进行过滤,提供给数据层。
其中,设定的过滤规则包括实施例一中所描述的:内容信息的质量是否符合设定的质量评估阈值,发布内容信息的用户是否是设定合格用户等等。
例如:过滤去掉数据质量低的内容信息。即将内容信息质量低于设定的质量评估阈值的内容信息去除。从而避免在文本匹配中,有的文本来源于低质量的商品信息,这类商品信息,通常质量评分值比较低,比如没有提供图片,或其他必要的信息,这类商品被推荐和点击的意义不大。因此,这类商品信息一般质量评分值低于设定的质量评估阈值,在进行文本匹配运算之前就会被过滤剔除掉。
又例如:过滤掉不合格用户的内容信息,不合格用户包括网络爬虫,机器人,和不合格的物理用户等等。
可以通过判断发布内容信息的用户的访问次数是否超过设定的访问阈值,例如网络爬虫,机器人,他们的行为有明显的特征,他们通常在一段时间内异常活跃,他们提供的数据,可视为噪音,予以剔除。此时可以设定一个访问阈值,当访问次数大于该阈值认为是网络爬虫或机器人。
也可以通过判断用户的信用值、有效期限等来判断是否是合格的用户。从而去除包括低信用的用户,过期的用户,还有不活跃的用户(一般指设定时间范围内没有操作行为的用户,如最近的一个月没有登录,一个月没有行为数据等),这些不合格的用户发布的内容信息可视为无效信息,予以剔除。
输入过滤的目的是在系统采集到待输入的文本数据后,对输入的文本数据的过滤处理,过滤掉噪音,不合格用户数据和低质量数据等,使输入的文本数据减少。
步骤S43:根据过滤后的内容信息得到当前周期的新增文本。
在对收集到的用户发布的内容信息进行过滤后,根据过滤后内容信息生成当前周期内的新增文本,从而提高了新增文本的质量。
步骤S44:根据过滤后输入的新增文本进行相似度计算。
过滤后的新增文本会被输入到算法层,用于相似度的运算,以及更新词频表。
其中,更新词频表的原理如图7所示。
当新增文本输入后,算法层拥有包含此前各周期内输入的原始文本和当前周期输入的新增文本在内的数据库中当前存储的所有文本。此时可以直接根据数据库中当前存储的所有文本更新词频表,也可以根据数据库中当前存储的所有文本与原始文本对比得到的新增文本,获取新增的数据文件来更新词频表。
新增文本与数据库中存储的各文本之间的相似度计算,以及数据库中当前存储任意两个文本之间的相似度计算过程分别参见实施例一和实施例二的描述
其中,根据预先存储的词频表计算分词提取的每个关键词在数据库中的各文本中的权重的过程具体包括:
首先,确定选定关键词在数据库中每个文本中的出现次数。即针对每个文本,分别确定选定的关键词的出现次数。
具体可以通过词频表的到,词频表中词语出现次数可以通过词频-反向文档频率(term frequency-inverse document frequency,TF-IDF),即第i个关键词在第j个文本中出现的次数可以通过下列公式计算得到:
TF i , j = f i , j max f z , j
其中,fi,j是第i个关键词ki在第j个文本dj中出现的次数,max fz,j表示fi,j中的最大值,i,j为正整数。词频表根据该公式更新,而使用过程中需要确定时可以直接查询词频表。
在使用上述公式时,可以根据实际情况对fi,j和max fz,j的值进行限定。例如:可以设置fi,j和max fz,j的值为1,来表示将文本中多次出现的同一个关键词视为出现了一次。
其次,确定数据库中的存储的所有文本与包含有选定关键词的文本的数量比。具体通过下列公式确定:
IDF i = log N n i
其中,N是数据库中所有文本的个数,ni表示出现了第i个关键词ki的文本数量。
上述确定词频和确定数量比的过程顺序不分先后,也可以同时执行。
然后,根据选定关键词在每个文本中的出现次数和上述计算得到的数量比,分别计算每个关键词在每个文本中的权重。如关键词ki在文本dj中的权重定义为:
wi,j=TFi,j×IDFj
上述得到每个关键词在每个文本中的权重后,就可以构建权重向量,计算任意两个文本的相似度了。
例如:针对文本dj构建的包含关键词i=1、2、......、k的权重向量为:
W(dj)=(w1j,......,wij,......,wkj)
通过下列向量内积公式计算文本dj和文本dm得到相似度:
u ( d j , d m ) = cos ( W ( d j ) → , W ( d m ) → ) = W ( d j ) → · W ( d m ) → | | W ( d j ) | | 2 × | | W ( d m ) | | 2 = Σ i = 1 K w i , j w i , m Σ i = 1 k w i , j 2 Σ i = 1 k w i , m 2
步骤S45:对输出文本之间的相似度数据进行输出过滤
对输出数据的过滤参照实施例三的描述,其主要目的是过滤掉相似度比较低(例如相似度对比分数低)的结果或相似度排名靠后的若干文本数据
例如,将一个待匹配的文本称为左列文本(即Left Offer),与之匹配的文本称为右列文本(Right Offer)。Left Offer和Right Offer是成对比较的结果的表示,也可以说每对比较,第一个文本称为Left Offer,第二个文本称为RightOffer。
那么针对一个待匹配的Left Offer,过滤掉Right Offer排名靠后的、相似度比较低的若干文本。
输出过滤是在计算相似度后先进行一次过滤,以便减少后续输出相关文本时,所需要选择的文本数量。
对文本的过滤可以在过滤层实现,可选的也可以在算法层实现。
步骤S46:根据过滤后的文本之间的相似度数据输出数据库中当前存储的各个文本的相关文本。
关于匹配文本的确定过程参见上述实施例中的描述。在获取相关文本后,则可以实现对每个Left Offer,只输出相似度最高的几个(top N,根据不同的规则可配置)Right Offer。
当需要进行商品推荐时,将用户操作行为涉及的商品对应的文本作为LeftOffer,查找数据库中存储的该Left Offer对应的Right Offer,将查找到的RightOffer对应的商品推荐给用户。
实施例五:
本申请实施例五根据本申请上述实施例提供的上述文本匹配方法,构建一种文本匹配装置,该装置可以设置在网络设备,例如上述的服务器中,用于文本的匹配。该装置的结构如图8所示,包括:收集模块10、分词模块20、权重确定模块30、词频更新模块40、相似度确定模块50和文本比较模块60。
收集模块10,用于周期性收集用户发布的内容信息,根据当前周期内收集的内容信息得到当前周期内的新增文本并存储到数据库中。
分词模块20,用于对输入的新增文本进行分词,并提取关键词。
权重确定模块30,用于根据预先存储的词频表计算提取的每个关键词在数据库中的各文本中的权重。
优选的,上述权重确定模块30,具体包括:第一确定单元301、第二确定单元302和权重计算单元303。
第一确定单元301,用于根据词频表,分别确定选定关键词在数据库中每个文本中的出现次数。
第二确定单元302,用于确定数据库中存储的文本与包含有选定关键词的文本的数量比。
权重计算单元303,用于根据选定关键词在每个文本中的出现次数和第二确定单元302确定出来的数量比,分别计算每个关键词在每个文本中的权重。
词频更新模块40,用于根据各个词语在数据库中的各文本中的出现频率周期性更新词频表;数据库中的文本包括当前周期存储的新增文本和之前存储的原始文本。
优选的,上述词频更新模块40,具体用于:每次输入新增文本后,统计各个词语在输入的新增文本和数据库中存储的原始文本中的出现的频率,得到包含各个词语在数据库中的每个文本中的出现频率的的词频表;或每次输入新增文本后,统计各个词语在输入的每个新增文本中的出现的频率,根据统计得到的结果与词频表中存储的各个词语在数据库中的存储的原始文本中的出现频率,得到包含各个词语在数据库中的每个文本中的出现频率的的词频表。
相似度确定模块50,用于根根据计算得到的每个关键词在数据库中的各文本中的权重,计算每个新增文本与数据库中的各文本的相似度,或计算数据库中任意两个文本的相似度。
优选的,上述相似度确定模块50,具体包括:向量生成单元501和相似度计算单元502。
向量生成单元501,用于将待计算相似度的文本中的每个关键词的权重组成权重向量。
相似度计算单元502,用于针对每个新增文本,分别计算该新增文本的权重向量与数据库中存储的各文本的权重向量的内积,得到该新增文本与数据库中存储的各文本的相似度;或针对数据库中存储的每个文本,分别计算该文本的权重向量与数据库中存储的各文本的权重向量的内积,得到该文本与数据库中存储的各文本的相似度。
文本比较模块60,用于根据计算得到的相似度确定数据库中存储的各文本的相关文本。
优选的,上述文本比较模块60,具体用于:针对待确定相关文本的每个文本,确定与该文本的相似度大于或大于等于设定阈值的至少一个数据库中存储的文本的相关文本;或针对待确定相关文本的每个文本,根据数据库中各文本与待确定相关文本的文本的相似度大小排序,确定相似度较高的设定数量的数据库中存储的文本作为待确定相关文本的文本的相关文本。
优选的,上述文本匹配装置,还包括:输入过滤模块70,用于根据设定的输入过滤规则,对当前周期内收集到用户发布的内容信息进行过滤,根据过滤后内容信息得到当前周期内的新增文本,输入给分词模块20。
输入过滤单元70,具体用于根据内容信息的质量是否符合设定的质量评估阈值和/或发布内容信息的用户是否是设定的合格用户,对所述收集到的内容信息进行过滤。
优选的,上述文本匹配装置,还包括:输出过滤模块80,用于根据相似度确定模块50计算得到的每个新增文本与数据库中的每个文本的相似度,或计算得到的数据库中任意两个文本的相似度;对待确定相关文本的新增文本或数据库中存储的文本相关的相似度数据进行过滤,去除与待确定相关文本的新增文本或数据库中存储的文本相似度小于设定阈值的文本,或去除与待确定相关文本的新增文本或数据库中存储的文本相似度较低的设定数量的文本,提供给文本比较模块60。文本比较模块60再根据过滤后的文本确定新增文本或数据库中存储的各文本的相关文本。
本申请实施例提供的上述文本匹配方法及装置,可以通过软件实现,也可以通过硬件实现。例如使用C语言、linux操作系统,应用分布式集群,比如簇(cluster),或Hadoop(一种分布式系统架构)集群等硬件实现。上述方式在各种文本的匹配过程中均可使用,例如可应用在用于电子交易的资源(sourcing)平台中对商品相关的文本数据进行匹配,以便为用户提供关联商品。
本申请实施例提供的上述文本匹配方法及装置,通过建立和更新词频表的方式避免了现有技术中任意两个文本的匹配都需要对所有文本进行计算的问题,具体为关键词的权重不再依赖与全局数据运算得到全局变量,而依靠词频表即可实现,从而减少了匹配运算工作量,提高了系统性能。
且通过使用词频表可以仅计算部分文本之间的相似度或计算全部文本之间的相似度,因此即使只针对更新后的新增文本进行计算,也能获取到准确的匹配运算结果,而只计算更新的部分使得运行时间大大缩短,实现了大数据量文本匹配计算过程中增量算法实现过程。
该方式适用于所有文本的匹配,具有很强的通用性和普遍适用性,其匹配过程实现简单,且数据传输和采集也可以只针对更新部分,很好的解决网络系统瓶颈问题。
上述方法,在输入数据之前进行输入匹配,在匹配运算之后进行输出匹配,从而进一步减少了匹配运算的处理数据量。上述方法采用层次化、模块化的结构,达到了可扩展,易于维护的目的。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (15)

1.一种文本匹配方法,其特征在于,包括:
周期性收集用户发布的内容信息,根据当前周期内收集的内容信息得到当前周期内的新增文本并存储到数据库中;
对输入的新增文本进行分词,并提取关键词;根据预先存储的词频表计算提取的每个关键词在数据库中的各文本中的权重;所述词频表根据各个词语在数据库中的各文本中的出现频率周期性更新;数据库中的文本包括当前周期存储的新增文本和之前存储的原始文本;
根据计算得到的每个关键词在数据库中的各文本中的权重,计算每个新增文本与数据库中的各文本的相似度,或计算数据库中任意两个文本的相似度;
根据计算得到的相似度确定数据库中存储的各文本的相关文本。
2.如权利要求1所述的方法,其特征在于,所述词频表根据各个关键词在数据库中的各文本中的出现频率周期性更新,具体包括:
每次输入新增文本后,统计各个词语在输入的新增文本和数据库中存储的原始文本中的出现的频率,得到包含各个词语在数据库中的每个文本中的出现频率的的词频表;或
每次输入新增文本后,统计各个词语在输入的每个新增文本中的出现的频率,根据统计得到的结果与词频表中存储的各个词语在数据库中的存储的原始文本中的出现频率,得到包含各个词语在数据库中的每个文本中的出现频率的的词频表。
3.如权利要求2所述的方法,其特征在于,所述根据预先存储的词频表计算分词得到的每个关键词在数据库中各文本中的权重,具体包括:
根据词频表,分别确定选定关键词在数据库中每个文本中的出现次数;以及
确定数据库中的存储的文本与包含有选定关键词的文本的数量比;
根据选定关键词在每个文本中的出现次数和所述数量比,分别计算每个关键词在每个文本中的权重。
4.如权利要求1所述的方法,其特征在于,所述计算每个新增文本与数据库中的各文本的相似度,或计算数据库中任意两个文本的相似度,具体包括:
将待计算相似度的文本中的每个关键词的权重组成权重向量;
针对每个新增文本,分别计算该新增文本的权重向量与数据库中存储的各文本的权重向量的内积,得到该新增文本与数据库中存储的各文本的相似度;或针对数据库中存储的每个文本,分别计算该文本的权重向量与数据库中存储的各文本的权重向量的内积,得到该文本与数据库中存储的各文本的相似度。
5.如权利要求1所述的方法,其特征在于,所述根据计算得到的相似度确定数据库中存储的各文本的相关文本,具体包括:
针对待确定相关文本的每个文本,确定与该文本的相似度大于或大于等于设定阈值的至少一个数据库中存储的文本为该文本的相关文本;或
针对待确定相关文本的每个文本,根据数据库中各文本与待确定相关文本的文本的相似度大小排序,确定相似度较高的设定数量的数据库中存储的文本作为待确定相关文本的文本的相关文本。
6.如权利要求1-5任一所述的方法,其特征在于,所述根据计算得到的相似度确定数据库中存储的各文本的相关文本之前,还包括:
根据计算得到的每个新增文本与数据库中的每个文本的相似度,或计算得到的数据库中任意两个文本的相似度;对待确定相关文本的新增文本或数据库中存储的文本相关的相似度数据进行过滤,去除与待确定相关文本的新增文本或数据库中存储的文本相似度小于设定阈值的文本,或去除与待确定相关文本的新增文本或数据库中存储的文本相似度较低的设定数量的文本。
7.如权利要求1-5任一所述的方法,其特征在于,所述根据当前周期内收集的内容信息得到当前周期内的新增文本之前,还包括:
根据设定的输入过滤规则,对当前周期内收集到用户发布的内容信息进行过滤,根据过滤后内容信息得到当前周期内的新增文本。
8.如权利要求7所述的方法,其特征在于,所述根据设定的输入过滤规则,对当前周期内收集到用户发布的内容信息进行过滤,具体包括:
根据内容信息的质量是否符合设定的质量评估阈值和/或发布内容信息的用户是否是设定的合格用户,对所述收集到的内容信息进行过滤。
9.一种文本匹配装置,其特征在于,包括:
收集模块,用于周期性收集用户发布的内容信息,根据当前周期内收集的内容信息得到当前周期内的新增文本并存储到数据库中;
分词模块,用于对输入的新增文本进行分词,并提取关键词;
权重确定模块,用于根据预先存储的词频表计算提取的每个关键词在数据库中的各文本中的权重;
词频更新模块,用于根据各个词语在数据库中的各文本中的出现频率周期性更新词频表;数据库中的文本包括当前周期存储的新增文本和之前存储的原始文本;
相似度确定模块,用于根据计算得到的每个关键词在数据库中的各文本中的权重,计算每个新增文本与数据库中的各文本的相似度,或计算数据库中任意两个文本的相似度;
文本比较模块,用于根据计算得到的相似度确定数据库中存储的各文本的相关文本。
10.如权利要求9所述的装置,其特征在于,所述词频更新模块,具体用于:
每次输入新增文本后,统计各个词语在输入的新增文本和数据库中存储的原始文本中的出现的频率,得到包含各个词语在数据库中的每个文本中的出现频率的的词频表;或
每次输入新增文本后,统计各个词语在输入的每个新增文本中的出现的频率,根据统计得到的结果与词频表中存储的各个词语在数据库中的存储的原始文本中的出现频率,得到包含各个词语在数据库中的每个文本中的出现频率的的词频表。
11.如权利要求10所述的装置,其特征在于,所述权重确定模块,具体包括:
第一确定单元,用于根据词频表,分别确定选定关键词在数据库中每个文本中的出现次数;
第二确定单元,用于确定数据库中存储的文本与包含有选定关键词的文本的数量比;
权重计算单元,用于根据选定关键词在每个文本中的出现次数和所述数量比,分别计算每个关键词在每个文本中的权重。
12.如权利要求9所述的装置,其特征在于,所述相似度确定模块,具体包括:
向量生成单元,用于将待计算相似度的文本中的每个关键词的权重组成权重向量;
相似度计算单元,用于针对每个新增文本,分别计算该新增文本的权重向量与数据库中存储的各文本的权重向量的内积,得到该新增文本与数据库中存储的各文本的相似度;或针对数据库中存储的每个文本,分别计算该文本的权重向量与数据库中存储的各文本的权重向量的内积,得到该文本与数据库中存储的各文本的相似度。
13.如权利要求9所述的装置,其特征在于,所述文本比较模块,具体用于:
针对待确定相关文本的每个文本,确定与该文本的相似度大于或大于等于设定阈值的至少一个数据库中存储的文本的相关文本;或
针对待确定相关文本的每个文本,根据数据库中各文本与待确定相关文本的文本的相似度大小排序,确定相似度较高的设定数量的数据库中存储的文本作为待确定相关文本的文本的相关文本。
14.如权利要求9-13任一所述的装置,其特征在于,还包括:
输入过滤模块,用于根据设定的输入过滤规则,对当前周期内收集到用户发布的内容信息进行过滤,根据过滤后内容信息得到当前周期内的新增文本。
15.如权利要求9-13任一所述的装置,其特征在于,还包括:
输出过滤模块,用于根据所述相似度确定模块计算得到的每个新增文本与数据库中的每个文本的相似度,或计算得到的数据库中任意两个文本的相似度;对待确定相关文本的新增文本或数据库中存储的文本相关的相似度数据进行过滤,去除与待确定相关文本的新增文本或数据库中存储的文本相似度小于设定阈值的文本,或去除与待确定相关文本的新增文本或数据库中存储的文本相似度较低的设定数量的文本;
所述文本比较模块具体用于:根据过滤后的文本确定数据库中存储的各文本的相关文本。
CN2010102906934A 2010-09-20 2010-09-20 一种文本匹配方法及装置 Expired - Fee Related CN102411583B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN2010102906934A CN102411583B (zh) 2010-09-20 2010-09-20 一种文本匹配方法及装置
TW099140210A TWI496015B (zh) 2010-09-20 2010-11-22 Text matching method and device
US13/200,123 US20120072220A1 (en) 2010-09-20 2011-09-19 Matching text sets
EP11827085.9A EP2619650A4 (en) 2010-09-20 2011-09-20 MATCHING OF TEXT SETS
PCT/US2011/001617 WO2012039755A2 (en) 2010-09-20 2011-09-20 Matching text sets
JP2013529131A JP5717858B2 (ja) 2010-09-20 2011-09-20 テキストセットの照合

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102906934A CN102411583B (zh) 2010-09-20 2010-09-20 一种文本匹配方法及装置

Publications (2)

Publication Number Publication Date
CN102411583A true CN102411583A (zh) 2012-04-11
CN102411583B CN102411583B (zh) 2013-09-18

Family

ID=45818539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102906934A Expired - Fee Related CN102411583B (zh) 2010-09-20 2010-09-20 一种文本匹配方法及装置

Country Status (6)

Country Link
US (1) US20120072220A1 (zh)
EP (1) EP2619650A4 (zh)
JP (1) JP5717858B2 (zh)
CN (1) CN102411583B (zh)
TW (1) TWI496015B (zh)
WO (1) WO2012039755A2 (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693279A (zh) * 2012-04-28 2012-09-26 合一网络技术(北京)有限公司 一种快速计算评论相似度的方法、装置及系统
CN102999631A (zh) * 2012-12-13 2013-03-27 蓝盾信息安全技术股份有限公司 一种Windows内核代码的定位方法
CN103092828A (zh) * 2013-02-06 2013-05-08 杭州电子科技大学 基于语义分析和语义关系网络的文本相似度度量方法
CN103885937A (zh) * 2014-04-14 2014-06-25 焦点科技股份有限公司 基于核心词相似度判断企业中文名称重复的方法
CN103984685A (zh) * 2013-02-07 2014-08-13 百度国际科技(深圳)有限公司 一种用于对待分类词条进行分类的方法、装置与设备
CN104239285A (zh) * 2013-06-06 2014-12-24 腾讯科技(深圳)有限公司 文章新章节的检测方法及装置
CN104346443A (zh) * 2014-10-20 2015-02-11 北京国双科技有限公司 网络文本处理方法及装置
CN106503228A (zh) * 2016-10-28 2017-03-15 国信优易数据有限公司 一种数据包稀缺性评估方法及其系统
CN106600357A (zh) * 2016-10-28 2017-04-26 浙江大学 基于电子商务商品标题的商品搭配方法
CN106649338A (zh) * 2015-10-30 2017-05-10 中国移动通信集团公司 信息过滤策略生成方法及装置
CN106776543A (zh) * 2016-11-23 2017-05-31 上海智臻智能网络科技股份有限公司 新词发现方法、装置、终端及服务器
CN107026731A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 一种用户身份验证的方法及装置
CN107844493A (zh) * 2016-09-19 2018-03-27 上海泓智信息科技有限公司 一种文件关联方法及系统
CN108197102A (zh) * 2017-12-26 2018-06-22 百度在线网络技术(北京)有限公司 一种文本数据统计方法、装置和服务器
CN108228851A (zh) * 2018-01-10 2018-06-29 北京奇艺世纪科技有限公司 一种关键词列表调整方法、装置及电子设备
CN108334628A (zh) * 2018-02-23 2018-07-27 北京东润环能科技股份有限公司 一种新闻事件聚类的方法、装置、设备和储存介质
CN108363686A (zh) * 2018-01-12 2018-08-03 中国平安人寿保险股份有限公司 一种字符串分词方法、装置、终端设备及存储介质
CN108363729A (zh) * 2018-01-12 2018-08-03 中国平安人寿保险股份有限公司 一种字符串比较方法、装置、终端设备及存储介质
CN108415980A (zh) * 2018-02-09 2018-08-17 平安科技(深圳)有限公司 问答数据处理方法、电子装置及存储介质
CN108959329A (zh) * 2017-05-27 2018-12-07 腾讯科技(北京)有限公司 一种文本分类方法、装置、介质及设备
CN109408520A (zh) * 2018-09-26 2019-03-01 青岛农业大学 一种法律在线更新方法、系统、设备及计算机程序产品
CN109522414A (zh) * 2018-11-26 2019-03-26 吉林大学 一种文献投递对象选择系统
CN110162630A (zh) * 2019-05-09 2019-08-23 深圳市腾讯信息技术有限公司 一种文本去重的方法、装置及设备
CN110335598A (zh) * 2019-06-26 2019-10-15 重庆金美通信有限责任公司 一种基于语音识别的无线窄带信道话音通信方法
CN111539196A (zh) * 2020-04-15 2020-08-14 京东方科技集团股份有限公司 文本查重的方法、装置、文本管理系统及电子设备
CN112329479A (zh) * 2020-11-25 2021-02-05 山东师范大学 一种人类表型本体术语识别方法及系统
CN112364620A (zh) * 2020-11-06 2021-02-12 中国平安人寿保险股份有限公司 文本相似度的判断方法、装置以及计算机设备
CN112784007A (zh) * 2020-07-16 2021-05-11 上海芯翌智能科技有限公司 文本匹配方法及装置、存储介质和计算机设备
CN113921016A (zh) * 2021-10-15 2022-01-11 阿波罗智联(北京)科技有限公司 语音处理方法、装置、电子设备以及存储介质

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2586193A4 (en) * 2010-06-28 2014-03-26 Nokia Corp METHOD AND APPARATUS FOR ACCESSING MULTIMEDIA CONTENT HAVING SUBTITLE DATA
CN103391547A (zh) * 2012-05-08 2013-11-13 腾讯科技(深圳)有限公司 一种信息处理的方法和终端
CN103678365B (zh) * 2012-09-13 2017-07-18 阿里巴巴集团控股有限公司 数据的动态获取方法、装置及系统
US20140149441A1 (en) * 2012-11-29 2014-05-29 Fujitsu Limited System and method for matching persons in an open learning system
CN105338394B (zh) 2014-06-19 2018-11-30 阿里巴巴集团控股有限公司 字幕数据的处理方法及系统
CN105701120B (zh) 2014-11-28 2019-05-03 华为技术有限公司 确定语义匹配度的方法和装置
CN104881503A (zh) * 2015-06-24 2015-09-02 郑州悉知信息技术有限公司 一种数据处理方法和装置
JP6565628B2 (ja) * 2015-11-19 2019-08-28 富士通株式会社 検索プログラム、検索装置および検索方法
US10007516B2 (en) * 2016-03-21 2018-06-26 International Business Machines Corporation System, method, and recording medium for project documentation from informal communication
CN106776577B (zh) * 2016-12-30 2020-02-18 宁波优策信息技术有限公司 一种序列还原方法及设备
CN110019903A (zh) * 2017-10-10 2019-07-16 阿里巴巴集团控股有限公司 图像处理引擎组件的生成方法、搜索方法及终端、系统
CN110020171B (zh) * 2017-12-28 2023-05-16 阿里巴巴集团控股有限公司 数据处理方法、装置、设备及计算机可读存储介质
CN113495942B (zh) * 2020-04-01 2022-07-05 百度在线网络技术(北京)有限公司 推送信息的方法和装置
CN112183111B (zh) * 2020-09-28 2024-08-23 亚信科技(中国)有限公司 长文本语义相似度匹配方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059805A (zh) * 2007-03-29 2007-10-24 复旦大学 基于网络流和分层知识库的动态文本聚类方法
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统
CN101211339A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 基于用户行为的智能网页分类器
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2943447B2 (ja) * 1991-01-30 1999-08-30 三菱電機株式会社 テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
US5371807A (en) * 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
US6317722B1 (en) * 1998-09-18 2001-11-13 Amazon.Com, Inc. Use of electronic shopping carts to generate personal recommendations
JP2001249874A (ja) * 2000-03-08 2001-09-14 Sky Com:Kk 情報収集装置
JP2002073680A (ja) * 2000-08-30 2002-03-12 Mitsubishi Research Institute Inc 技術情報検索システム
JP3933452B2 (ja) * 2001-11-27 2007-06-20 シャープ株式会社 情報の入手を支援する支援方法および支援サーバ
US7716161B2 (en) * 2002-09-24 2010-05-11 Google, Inc, Methods and apparatus for serving relevant advertisements
US20040093200A1 (en) * 2002-11-07 2004-05-13 Island Data Corporation Method of and system for recognizing concepts
EP1567945A2 (en) * 2002-11-22 2005-08-31 Transclick, Inc. System and method for speech translation using remote devices
TWI220719B (en) * 2002-12-30 2004-09-01 Inventec Corp Computer network system providing intelligent on-line data search function and enhancing linking performance of network nodes
TWI226992B (en) * 2002-12-30 2005-01-21 Inventec Corp Random transfer-linking type computer network system providing intelligent on-line data search function
TW200411434A (en) * 2002-12-30 2004-07-01 Inventec Corp Cooperative message processing computer network system providing intelligent on-line data search function
CA2516941A1 (en) * 2003-02-19 2004-09-02 Custom Speech Usa, Inc. A method for form completion using speech recognition and text comparison
JP2004264929A (ja) * 2003-02-28 2004-09-24 Nippon Telegr & Teleph Corp <Ntt> Web情報の提供システム、提供方法、この方法のプログラム、およびこのプログラムを記録した記録媒体
US7734996B2 (en) * 2003-09-08 2010-06-08 Nec Corporation Documentation browsing method, documentation browsing apparatus, documentation browsing robot, and documentation browsing program
US20080235018A1 (en) * 2004-01-20 2008-09-25 Koninklikke Philips Electronic,N.V. Method and System for Determing the Topic of a Conversation and Locating and Presenting Related Content
JP4366249B2 (ja) * 2004-06-02 2009-11-18 パイオニア株式会社 情報処理装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、情報取得装置
WO2006046390A1 (ja) * 2004-10-29 2006-05-04 Matsushita Electric Industrial Co., Ltd. 情報検索装置
US8126712B2 (en) * 2005-02-08 2012-02-28 Nippon Telegraph And Telephone Corporation Information communication terminal, information communication system, information communication method, and storage medium for storing an information communication program thereof for recognizing speech information
KR100645614B1 (ko) * 2005-07-15 2006-11-14 (주)첫눈 정보 가치 측정결과를 반영한 검색 방법 및 검색 장치
JP4961755B2 (ja) * 2006-01-23 2012-06-27 富士ゼロックス株式会社 単語アライメント装置、単語アライメント方法、単語アライメントプログラム
US7698140B2 (en) * 2006-03-06 2010-04-13 Foneweb, Inc. Message transcription, voice query and query delivery system
US20100138451A1 (en) * 2006-04-03 2010-06-03 Assaf Henkin Techniques for facilitating on-line contextual analysis and advertising
US8751226B2 (en) * 2006-06-29 2014-06-10 Nec Corporation Learning a verification model for speech recognition based on extracted recognition and language feature information
CN101496011B (zh) * 2006-11-09 2011-08-03 松下电器产业株式会社 内容检索装置
JP2007157170A (ja) * 2007-01-26 2007-06-21 Sharp Corp 情報の入手を支援する支援サーバ、支援方法、およびその支援方法をコンピュータに実行させるためのプログラム
US20090292677A1 (en) * 2008-02-15 2009-11-26 Wordstream, Inc. Integrated web analytics and actionable workbench tools for search engine optimization and marketing
JP5224868B2 (ja) * 2008-03-28 2013-07-03 株式会社東芝 情報推薦装置および情報推薦方法
US8145482B2 (en) * 2008-05-25 2012-03-27 Ezra Daya Enhancing analysis of test key phrases from acoustic sources with key phrase training models
US8060513B2 (en) * 2008-07-01 2011-11-15 Dossierview Inc. Information processing with integrated semantic contexts
US8577930B2 (en) * 2008-08-20 2013-11-05 Yahoo! Inc. Measuring topical coherence of keyword sets
US8306807B2 (en) * 2009-08-17 2012-11-06 N T repid Corporation Structured data translation apparatus, system and method
US20110258054A1 (en) * 2010-04-19 2011-10-20 Sandeep Pandey Automatic Generation of Bid Phrases for Online Advertising
US9560206B2 (en) * 2010-04-30 2017-01-31 American Teleconferencing Services, Ltd. Real-time speech-to-text conversion in an audio conference session
KR101196935B1 (ko) * 2010-07-05 2012-11-05 엔에이치엔(주) 실시간 인기 키워드에 대한 대표 문구를 제공하는 방법 및 시스템
US8407215B2 (en) * 2010-12-10 2013-03-26 Sap Ag Text analysis to identify relevant entities
CN103186539B (zh) * 2011-12-27 2016-07-27 阿里巴巴集团控股有限公司 一种确定用户群体、信息查询及推荐的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101211339A (zh) * 2006-12-29 2008-07-02 上海芯盛电子科技有限公司 基于用户行为的智能网页分类器
CN101059805A (zh) * 2007-03-29 2007-10-24 复旦大学 基于网络流和分层知识库的动态文本聚类方法
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统
CN101290626A (zh) * 2008-06-12 2008-10-22 昆明理工大学 基于领域知识的文本分类特征选择及权重计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张焕炯; 李玉鉴; 钟义信;: "《文本相似度计算的一种新方法》", 《计算机科学》 *

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693279B (zh) * 2012-04-28 2014-09-03 合一网络技术(北京)有限公司 一种快速计算评论相似度的方法、装置及系统
CN102693279A (zh) * 2012-04-28 2012-09-26 合一网络技术(北京)有限公司 一种快速计算评论相似度的方法、装置及系统
CN102999631A (zh) * 2012-12-13 2013-03-27 蓝盾信息安全技术股份有限公司 一种Windows内核代码的定位方法
CN103092828A (zh) * 2013-02-06 2013-05-08 杭州电子科技大学 基于语义分析和语义关系网络的文本相似度度量方法
CN103092828B (zh) * 2013-02-06 2015-08-12 杭州电子科技大学 基于语义分析和语义关系网络的文本相似度度量方法
CN103984685A (zh) * 2013-02-07 2014-08-13 百度国际科技(深圳)有限公司 一种用于对待分类词条进行分类的方法、装置与设备
CN104239285A (zh) * 2013-06-06 2014-12-24 腾讯科技(深圳)有限公司 文章新章节的检测方法及装置
CN110347931A (zh) * 2013-06-06 2019-10-18 腾讯科技(深圳)有限公司 文章新章节的检测方法及装置
CN103885937A (zh) * 2014-04-14 2014-06-25 焦点科技股份有限公司 基于核心词相似度判断企业中文名称重复的方法
CN103885937B (zh) * 2014-04-14 2015-02-25 焦点科技股份有限公司 基于核心词相似度判断企业中文名称重复的方法
CN104346443B (zh) * 2014-10-20 2018-08-03 北京国双科技有限公司 网络文本处理方法及装置
CN104346443A (zh) * 2014-10-20 2015-02-11 北京国双科技有限公司 网络文本处理方法及装置
CN106649338A (zh) * 2015-10-30 2017-05-10 中国移动通信集团公司 信息过滤策略生成方法及装置
CN106649338B (zh) * 2015-10-30 2020-08-21 中国移动通信集团公司 信息过滤策略生成方法及装置
CN107026731A (zh) * 2016-01-29 2017-08-08 阿里巴巴集团控股有限公司 一种用户身份验证的方法及装置
CN107844493A (zh) * 2016-09-19 2018-03-27 上海泓智信息科技有限公司 一种文件关联方法及系统
CN106600357A (zh) * 2016-10-28 2017-04-26 浙江大学 基于电子商务商品标题的商品搭配方法
CN106503228A (zh) * 2016-10-28 2017-03-15 国信优易数据有限公司 一种数据包稀缺性评估方法及其系统
CN106776543A (zh) * 2016-11-23 2017-05-31 上海智臻智能网络科技股份有限公司 新词发现方法、装置、终端及服务器
CN106776543B (zh) * 2016-11-23 2019-09-06 上海智臻智能网络科技股份有限公司 新词发现方法、装置、终端及服务器
CN108959329B (zh) * 2017-05-27 2023-05-16 腾讯科技(北京)有限公司 一种文本分类方法、装置、介质及设备
CN108959329A (zh) * 2017-05-27 2018-12-07 腾讯科技(北京)有限公司 一种文本分类方法、装置、介质及设备
CN108197102A (zh) * 2017-12-26 2018-06-22 百度在线网络技术(北京)有限公司 一种文本数据统计方法、装置和服务器
US10984031B2 (en) 2017-12-26 2021-04-20 Baidu Online Network Technology (Beijing) Co., Ltd. Text analyzing method and device, server and computer-readable storage medium
CN108228851A (zh) * 2018-01-10 2018-06-29 北京奇艺世纪科技有限公司 一种关键词列表调整方法、装置及电子设备
CN108363686A (zh) * 2018-01-12 2018-08-03 中国平安人寿保险股份有限公司 一种字符串分词方法、装置、终端设备及存储介质
CN108363729A (zh) * 2018-01-12 2018-08-03 中国平安人寿保险股份有限公司 一种字符串比较方法、装置、终端设备及存储介质
CN108415980A (zh) * 2018-02-09 2018-08-17 平安科技(深圳)有限公司 问答数据处理方法、电子装置及存储介质
CN108334628A (zh) * 2018-02-23 2018-07-27 北京东润环能科技股份有限公司 一种新闻事件聚类的方法、装置、设备和储存介质
CN109408520A (zh) * 2018-09-26 2019-03-01 青岛农业大学 一种法律在线更新方法、系统、设备及计算机程序产品
CN109522414A (zh) * 2018-11-26 2019-03-26 吉林大学 一种文献投递对象选择系统
CN109522414B (zh) * 2018-11-26 2021-06-04 吉林大学 一种文献投递对象选择系统
CN110162630A (zh) * 2019-05-09 2019-08-23 深圳市腾讯信息技术有限公司 一种文本去重的方法、装置及设备
CN110335598A (zh) * 2019-06-26 2019-10-15 重庆金美通信有限责任公司 一种基于语音识别的无线窄带信道话音通信方法
CN111539196A (zh) * 2020-04-15 2020-08-14 京东方科技集团股份有限公司 文本查重的方法、装置、文本管理系统及电子设备
CN112784007A (zh) * 2020-07-16 2021-05-11 上海芯翌智能科技有限公司 文本匹配方法及装置、存储介质和计算机设备
CN112784007B (zh) * 2020-07-16 2023-02-21 上海芯翌智能科技有限公司 文本匹配方法及装置、存储介质和计算机设备
CN112364620A (zh) * 2020-11-06 2021-02-12 中国平安人寿保险股份有限公司 文本相似度的判断方法、装置以及计算机设备
CN112364620B (zh) * 2020-11-06 2024-04-05 中国平安人寿保险股份有限公司 文本相似度的判断方法、装置以及计算机设备
CN112329479A (zh) * 2020-11-25 2021-02-05 山东师范大学 一种人类表型本体术语识别方法及系统
CN113921016A (zh) * 2021-10-15 2022-01-11 阿波罗智联(北京)科技有限公司 语音处理方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
WO2012039755A3 (en) 2013-05-23
TW201214167A (en) 2012-04-01
EP2619650A4 (en) 2016-08-31
US20120072220A1 (en) 2012-03-22
CN102411583B (zh) 2013-09-18
WO2012039755A2 (en) 2012-03-29
EP2619650A2 (en) 2013-07-31
JP5717858B2 (ja) 2015-05-13
TWI496015B (zh) 2015-08-11
JP2014500988A (ja) 2014-01-16

Similar Documents

Publication Publication Date Title
CN102411583B (zh) 一种文本匹配方法及装置
US10817531B2 (en) Targeted multi-dimension data extraction for real-time analysis
Zheng et al. Real-time intelligent big data processing: technology, platform, and applications
US9965531B2 (en) Data storage extract, transform and load operations for entity and time-based record generation
CN102970289B (zh) 基于Web用户行为模式的身份认证方法
CN103400286B (zh) 一种基于用户行为进行物品特征标注的推荐系统及方法
CN103136335A (zh) 一种基于数据平台的数据控制方法
CN103729359A (zh) 一种推荐搜索词的方法及系统
CN103309960A (zh) 一种网络舆情事件多维信息提取的方法及装置
CN103885971A (zh) 数据推送的方法及装置
CN111932308A (zh) 数据推荐方法、装置和设备
CN112116426A (zh) 一种推送物品信息的方法和装置
CN109190027A (zh) 多源推荐方法、终端、服务器、计算机设备、可读介质
CN104598474A (zh) 云环境下基于数据语义的信息推荐方法
CA3046474A1 (en) Portfolio-based text analytics tool
CN105550282A (zh) 利用多维数据预测用户兴趣的方法
CA3018881C (en) Method and system for persisting data
CN105095324A (zh) 用户分类装置、用户分类方法以及电子设备
US20150356143A1 (en) Generating a hint for a query
Fang et al. Unpack local model interpretation for gbdt
CN113343076A (zh) 一种基于特征匹配度的创新技术推荐方法及系统
HewaNadungodage et al. A GPU-oriented online recommendation algorithm for efficient processing of time-varying continuous data streams
Osial et al. Smartphone recommendation system using web data integration techniques
Zhang et al. Latent side-information dynamic augmentation for incremental recommendation
Kundra et al. Efficient web log mining and navigational prediction with ehpso and scaled markov model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1166398

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1166398

Country of ref document: HK

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200424

Address after: Building 8, No. 16, Zhuantang science and technology economic block, Xihu District, Hangzhou City, Zhejiang Province

Patentee after: ALIYUN COMPUTING Co.,Ltd.

Address before: Cayman Islands Grand Cayman capital building, a four storey No. 847 mailbox

Patentee before: Alibaba Group Holding Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130918